CN115497140A

CN115497140A - 一种基于YOLOv5l和注意力机制的实时表情识别方法

Info

Publication number: CN115497140A
Application number: CN202211198186.7A
Authority: CN
Inventors: 韩婷婷; 钟红梅
Original assignee: Tianjin Normal University
Current assignee: Tianjin Normal University
Priority date: 2022-09-29
Filing date: 2022-09-29
Publication date: 2022-12-20

Abstract

本发明公开了一种基于YOLOv5l和注意力机制的实时表情识别方法，所述方法包括：获取训练图像和验证图像；使用所述训练图像对原始YOLOv5l模型进行预训练，得到原始YOLOv5l模型的预训练权重；将注意力机制加入到原始YOLOv5l模型的主干网结构中，得到改进YOLOv5l模型；使用所述训练图像和预训练权重对于所述改进YOLOv5l模型进行重新训练，得到所述改进YOLOv5l模型的新训练权重；利用具有新训练权重的改进YOLOv5l模型对于目标对象的表情进行检测。本发明结合通道和空间注意力机制，不仅实现了目标表情实时识别的功能，提升了表情识别的准确率，还提升了表情识别的速度。

Description

一种基于YOLOv5l和注意力机制的实时表情识别方法

技术领域

本发明涉及计算机视觉中的表情识别技术领域，特别涉及一种基于YOLOv5和注意力机制的实时表情识别方法。

背景技术

表情识别一直以来都是模式识别的热门话题。近几年来，面部表情识别(FER)更是引起了人们对计算机领域和心理学家的极大兴趣。同时，由于教师的情绪与教学质量息息相关，因此许多研究人员试图将FER引入教育教学领域，以期在课堂教学活动中发挥重要的作用。如何提高FER的精度和实时性能是该技术投入实际应用时要解决的关键问题。

表情识别算法分为无监督学习和监督学习两种，其中大部分算法都是基于监督学习的。在监督学习中一般分为两类：一阶段算法和两阶段算法，其中，两阶段算法中较为经典的有R-CNN、Faster-RCNN、VGGNet、GoogLeNet，两阶段算法的优点是精度高，但效率相对低下，实时性不高。一阶段算法主要包括YOLOv1、YOLOv2、YOLOv3、YOLOv4、YOLOv5等，一阶段算法是在两阶段算法的基础上提出来的，能有效解决两阶段算法效率低的问题，但其不足是牺牲了算法的检测精度，

目前面部表情识别存在的问题是，在算法保持较高精度的同时，很难保持算法的时效性；或者保持了算法的时效性时，算法的精度却难以得到保证。

发明内容

为了解决实时表情识别的技术问题，本发明提供一种基于YOLOv5l和注意力机制的实时表情识别方法，既能够实时的完成目标表情识别任务，又能增强目标检测模型提取面部表情特征的能力。

本发明提供的一种基于YOLOv5l和注意力机制的实时表情识别方法，包括以下步骤：

步骤S1：获取训练图像和验证图像；

步骤S2：使用所述训练图像对原始YOLOv5l模型进行预训练，得到原始YOLOv5l模型的预训练权重；

步骤S3：将注意力机制加入到原始YOLOv5l模型的主干网结构中，得到改进YOLOv5l模型；

步骤S4：使用所述训练图像和预训练权重对于所述改进YOLOv5l模型进行重新训练，得到所述改进YOLOv5l模型的新训练权重；

步骤S5：利用具有新训练权重的改进YOLOv5l模型对于目标对象的表情进行检测。

进一步地，所述步骤S1包括以下步骤：

步骤S1-1，对于公开数据集中的图像根据预设规则进行筛选；

步骤S1-2，对于筛选得到的图像进行校对和标注，得到图像对应的表情标签数据；

步骤S1-3，将标注完成的图像划分为训练图像和验证图像。

进一步地，在步骤S3中，在所述原始YOLOv5l模型主干网结构中每个卷积残差网络CSP1_X模块的每个标准卷积CBS模块后加入注意力机制，得到改进YOLOv5l模型。

进一步地，所述改进YOLOv5l模型包括依次连接的Focus模块、第一CBS模块、CSP1_1A模块、第二CBS模块、第一CSP1_3A模块、第三CBS模块、第二CSP1_3A模块、第四CBS模块、空间金字塔池化SPP模块、第一CSP2_1模块、第五CBS模块、第一上采样Unsample模块、第一拼接Concat模块、第二CSP2_1模块、第六CBS模块、第二上采样Unsample模块、第二拼接Concat模块、第三CSP2_1模块、第一卷积模块Conv、第七CBS模块、第三拼接Concat模块、第四CSP2_1模块、第二卷积模块Conv、第八CBS模块、第四拼接Concat模块、第五CSP2_1模块、第三卷积模块Conv，其中，所述第一上采样Unsample模块的输出与第二CSP1_3A模块的输出拼接并输入第一拼接Concat模块；第二上采样Unsample模块的输出与第一CSP1_3A模块的输出拼接并输入第二拼接Concat模块；第三CSP2_1模块的输出输入第一卷积模块Conv的输入端，第一卷积模块Conv的输出作为所述改进YOLOv5l模型的第一输出结果；第四CSP2_1模块的输出输入第二卷积模块Conv的输入端，第二卷积模块Conv的输出作为所述改进YOLOv5l模型的第二输出结果；第五CSP2_1模块的输出输入第三卷积模块Conv的输入端，第三卷积模块Conv的输出作为所述改进YOLOv5l模型的第三输出结果。

进一步地，在步骤S3中，在所述原始YOLOv5l模型主干网结构中的Focus模块后加入注意力机制，或者在所述原始YOLOv5l模型主干网结构中的每个CBS模块后加入注意力机制，或者在所述原始YOLOv5l模型主干网结构中的SPP模块后加入注意力机制，或者在所述原始YOLOv5l模型主干网结构中的Focus模块和SPP模块后分别加入注意力机制，或者在所述原始YOLOv5l模型主干网结构中的每个CBS模块和SPP模块后分别加入注意力机制，或者在所述原始YOLOv5l模型主干网结构中的Focus模块和每个CBS模块后分别加入注意力机制，或者在所述原始YOLOv5l模型主干网结构中的每个CBS模块和每个CSP1_X模块的每个标准卷积CBS模块后分别加入注意力机制，或者在所述原始YOLOv5l模型主干网结构中的Focus模块、每个CBS模块、每个CSP1_X模块的每个标准卷积CBS模块后和SPP模块后分别加入注意力机制。

进一步地，在步骤S4中，在对于所述改进YOLOv5l模型进行重新训练时，将所述训练图像输入到所述改进YOLOv5l模型中，通过调整模型的学习率、动量、迭代次数来实现对于所述改进YOLOv5l模型的重新训练。

进一步地，所述步骤S5包括以下步骤：

步骤S5-1：加载具有新训练权重的改进YOLOv5l模型；

步骤S5-2：通过界面选择识别数据来源，其中，所述数据来源包括摄像头或本地视频；

步骤S5-3：若选择摄像头，则打开摄像头，输入表情识别结果保存位置，若检测到目标对象表情，则使用矩形框将目标对象脸部自动框选出来，同时界面显示表情识别结果，并可选择打印表情识别结果日志；若选择本地视频，则打开本地视频，输入识别帧数以及表情识别结果保存位置，若检测到目标对象表情，则使用矩形框将目标对象脸部自动框选出来，同时界面显示表情识别结果，并可选择打印表情识别结果日志。

与现有技术相比，本发明具有如下技术效果：

本发明结合通道和空间注意力机制，不仅实现了目标表情实时识别的功能，提升了表情识别的准确率，还提升了表情识别的速度。

需要说明的是：本发明得到了国家自然科学基金项目No.11404240，天津市自然科学基金一般项目No.20JCYBJC00300的资助。

附图说明

图1为根据本发明一实施方式的基于YOLOv5l和注意力机制的实时表情识别方法的流程图；

图2A为根据本发明一实施方式的YOLOv5l-CSP1_XA模型和CSP1_XA模块的结构图；

图2B为根据本发明一实施方式的YOLOv5l-FA模型和FA模块的结构图；

图2C为根据本发明一实施方式的YOLOv5l-CBSA模型和CBSA模块的结构图；

图2D为根据本发明一实施方式的YOLOv5l-SA模型和SA模块的结构图；

图2E为根据本发明一实施方式的YOLOv5l-FASA模型的结构图；

图2F为根据本发明一实施方式的YOLOv5l-(CBSA+SA)模型的结构图；

图2G为根据本发明一实施方式的YOLOv5l-(FA+CBSA)模型的结构图；

图2H为根据本发明一实施方式的YOLOv5l-(CBSA+CSP1_XA)模型的结构图；

图2I为根据本发明一实施方式的YOLOv5l-(FA+CBSA+CSP1_XA+SA)模型的结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

本发明提出的一种基于YOLOv5l和注意力机制的实时表情识别方法，可适用于教师表情的实时识别，如图1所示，所述基于YOLOv5l和注意力机制的实时表情识别方法包括以下步骤：

步骤S1：获取训练图像和验证图像；

在本发明一实施方式中，所述训练图像和验证图像来自于人脸表情RAF-DB数据集。

进一步地，所述步骤S1包括以下步骤：

步骤S1-1，对于公开数据集中的图像根据预设规则进行筛选；

其中，所述预设规则可根据实际应用的需要进行设置，本发明对其具体内容不做特别限定。在本发明一实施方式中，所述预设规则可以表达为剔除表情异议的图片。

其中，对于图像的标注可借助LabelImg等标注软件来实现。

在本发明一实施方式中，可得到约2240张人脸表情图像和相应的2240个表情标签数据。

步骤S1-3，将标注完成的图像划分为训练图像和验证图像。

在本发明一实施方式中，可按8:2的比例对于标注完成的图像进行划分，得到训练图像和验证图像。

步骤S2：使用所述训练图像对原始YOLOv5l模型进行预训练，得到原始YOLOv5模型的预训练权重；

其中，对于YOLOv5l模型的训练可根据本领域技术人员掌握的知识来进行，本发明对其不作过多描述。

在本发明一实施方式中，在将注意力机制加入到原始YOLOv5l模型的主干网结构中时，可在所述原始YOLOv5l模型主干网结构中每个卷积残差网络CSP1_X模块的所有标准卷积CBS模块后加入SE(压缩和激励注意力模块)、ECA(高效通道注意力模块)、CBAM(卷积块注意力模块)或Coordinate(坐标注意力模块)注意力机制。比如，原始YOLOv5l模型的主干网结构中包括3个CSP1_X模块。其中，X表示CSP1_X模块中的残差模块的数量，分别为一个CSP1_1模块和两个CSP1_3模块，即一个包括1个残差模块的CSP1模块和两个包括3个残差模块的CSP1模块，则在每个CSP1_X模块的每个CBS模块后均加入注意力机制，这样CSP1_1模块就变为CSP1_1A模块，CSP1_3模块就变为CSP1_3A模块。此时得到的YOLOv5l模型可称为YOLOv5l-CSP1_XA模型，YOLOv5l-CSP1_XA模型和CSP1_XA模块的结构图如图2A所示。将注意力机制插入CSP1_X模块中CBS模块后，不仅能够有效地增加特征提取网络对通道和空间信息的理解能力，而且其中的残差模块，还可以增加层间反向传播的梯度值，避免因网络结构加深而引起的梯度消失，从而提取出更细粒度的特征，即使得模型能提升特征信息的清晰度，使网络更加高效的处理特征图中需要关注的特征。

如图2A所示，所述YOLOv5l-CSP1_XA模型包括依次连接的Focus模块、第一CBS模块、CSP1_1A模块、第二CBS模块、第一CSP1_3A模块、第三CBS模块、第二CSP1_3A模块、第四CBS模块、空间金字塔池化SPP模块、第一CSP2_1模块、第五CBS模块、第一上采样Unsample模块、第一拼接Concat模块、第二CSP2_1模块、第六CBS模块、第二上采样Unsample模块、第二拼接Concat模块、第三CSP2_1模块、第一卷积模块Conv、第七CBS模块、第三拼接Concat模块、第四CSP2_1模块、第二卷积模块Conv、第八CBS模块、第四拼接Concat模块、第五CSP2_1模块、第三卷积模块Conv。其中，所述第一上采样Unsample模块的输出与第二CSP1_3A模块的输出拼接并输入第一拼接Concat模块；第二上采样Unsample模块的输出与第一CSP1_3A模块的输出拼接并输入第二拼接Concat模块；第三CSP2_1模块的输出输入第一卷积模块Conv的输入端，第一卷积模块Conv的输出作为所述YOLOv5l-CSP1_XA模型的第一输出结果；第四CSP2_1模块的输出输入第二卷积模块Conv的输入端，第二卷积模块Conv的输出作为所述YOLOv5l-CSP1_XA模型的第二输出结果；第五CSP2_1模块的输出输入第三卷积模块Conv的输入端，第三卷积模块Conv的输出作为所述YOLOv5l-CSP1_XA模型的第三输出结果。

在本发明另一实施方式中，在将注意力机制加入到原始YOLOv5l模型的主干网结构中时，还可在所述原始YOLOv5l模型主干网结构中的Focus模块后加入SE、ECA、CBAM或Coordinate注意力机制，增加了注意力机制的Focus模块可称为FA模块，此时得到的YOLOv5l模型可称为YOLOv5l-FA模型，YOLOv5l-FA模型和FA模块的结构图如图2B所示。

在本发明另一实施方式中，在将注意力机制加入到原始YOLOv5l模型的主干网结构中时，还可在所述原始YOLOv5l模型主干网结构中的每个CBS模块后加入SE、ECA、CBAM或Coordinate注意力机制，增加了注意力机制的CBS模块可称为CBSA模块，此时得到的YOLOv5l模型可称为YOLOv5l-CBSA模型，YOLOv5l-CBSA模型和CBSA模块的结构图如图2C所示。

在本发明另一实施方式中，在将注意力机制加入到原始YOLOv5l模型的主干网结构中时，还可在所述原始YOLOv5l模型主干网结构中的SPP模块后加入SE、ECA、CBAM或Coordinate注意力机制，增加了注意力机制的SPP模块可称为SA模块，此时得到的YOLOv5l模型可称为YOLOv5l-SA模型，YOLOv5l-SA模型和SA模块的结构图如图2D所示。

在本发明再一实施方式中，还可对于注意力机制的增加位置进行组合，以得到具有不同结构的YOLOv5l模型，比如，可在所述原始YOLOv5l模型主干网结构中的Focus模块和SPP模块后分别加入注意力机制，此时得到的YOLOv5l模型可称为YOLOv5l-FASA模型，YOLOv5l-FASA模型的结构图如图2E所示；可在所述原始YOLOv5l模型主干网结构中的每个CBS模块和SPP模块后分别加入注意力机制，此时得到的YOLOv5l模型可称为YOLOv5l-(CBSA+SA)模型，YOLOv5l-(CBSA+SA)模型的结构图如图2F所示；可在所述原始YOLOv5l模型主干网结构中的Focus模块和每个CBS模块后分别加入注意力机制，此时得到的YOLOv5l模型可称为YOLOv5l-(FA+CBSA)模型，YOLOv5l-(FA+CBSA)模型的结构图如图2G所示；可在所述原始YOLOv5l模型主干网结构中的每个CBS模块和每个CSP1_X模块的每个CBS模块后分别加入注意力机制，此时得到的YOLOv5l模型可称为YOLOv5l-(CBSA+CSP1_XA)模型，YOLOv5l-(CBSA+CSP1_XA)模型的结构图如图2H所示；还可在所述原始YOLOv5l模型主干网结构中的Focus模块、每个CBS模块、每个CSP1_X模块的每个CBS模块和SPP模块后分别加入注意力机制，此时得到的YOLOv5l模型可称为YOLOv5l-(FA+CBSA+CSP1_XA+SA)模型，YOLOv5l-(FA+CBSA+CSP1_XA+SA)模型的结构图如图2I所示；当然，除了以上举例之外，还可对于注意力机制的增加位置进行其他形式的组合，本领域技术人员根据上述举例，可熟练掌握对于注意力机制增加位置其他形式的组合，本发明在此对于注意力机制增加位置其他形式的组合不再赘述。

步骤S4：使用所述训练图像和预训练权重对于所述改进YOLOv5l模型进行重新训练，得到改进YOLOv5l模型的新训练权重；

其中，在对于所述改进YOLOv5l模型进行重新训练时，将所述训练图像输入到所述改进YOLOv5l模型中，通过调整模型的学习率、动量、迭代次数等参数来实现对于所述改进YOLOv5l模型的重新训练，以得到所述改进YOLOv5l模型的新训练权重。其中，可采用余弦退火算法动态调整学习率，即根据learning rate和回调函数不断调整学习率。

进一步地，对于将所述训练图像输入到所述改进YOLOv5l模型中的过程，以所述改进YOLOv5l-CSP1_XA为例。假设训练图像大小为640*640，通道数为3个，如图2A所示，所述训练图像输入到YOLOv5l-CSP1_XA模型中，经过第一层，即Focus模块，对所述训练图像进行下采样，输出大小为320*320*32的第一特征图；

将所述第一特征图输入到第二层，即第一CBS模块，得到大小为160*160*64的第二特征图，其中，所述第一CBS包括卷积核大小3*3、步长为2的卷积层，归一化BN层，激活函数SiLU层组成；

将所述第二特征图输入到第三层，即添加了注意力机制的CSP1_1A模块，在所述CSP1_XA模块中，所述第二特征图经过两条支线，一条支线一次经过一个卷积核大小为1*1，步长为1的标准卷积模块CBS，一个注意力模块和另一个残差模块，另一条支线经过一个卷积核大小为1*1，步长为1的标准卷积模块CBS和一个注意力模块，两条支线的输出拼接，通过CBS模块，再经过一个注意力模块，得到大小为160*160*64的第三特征图；

将所述第三特征图输入到第四层，即第二CBS模块，得到大小为80*80*128的第四特征图；

将所述第四特征图输入到第五层，即添加了注意力机制的第一CSP1_3A模块，得到大小为80*80*128的第五特征图；

将所述第五特征图输入到第六层，即第三CBS模块，得到大小为40*40*256的第六特征图；

将所述第六特征图输入到第七层，即添加了注意力机制的第二CSP1_3A模块，得到大小为40*40*256的第七特征图；

将所述第七特征图输入到第八层，即第四CBS模块，得到大小为20*20*512的第八特征图；

将所述第八特征图输入到第九层，即SPP模块。在SPP模块中，第八特征图首先经过卷积核大小为1*1，步长为1的标准卷积块CBS，再依次分别经过三个最大池化层，将卷积块和三个最大池化层的输出进行Concat拼接操作，最后经过卷积核大小为1*1，步长为1的标准卷积块CBS，得到大小为20*20*512的第九特征图；

将所述第九特征图输入到第十层，即第一CSP2_1模块，在CSP2_1模块中，将所述第九特征图经过两条支线，一支线先经过卷积核大小为1*1，步长为1的标准卷积块CBS，再经过2*1个标准卷积块CBS，另一支线经过卷积核大小为1*1，步长为1的标准卷积块CBS，两条支线的输出拼接，通过CBS模块，得到大小为20*20*256的第十特征图；

将所述第十特征图输入到第十一层，即第五CBS模块，得到大小为20*20*256的第十一特征图；

将所述第十一特征图输入到第十二层，即第一上采样Unsample模块，不改变特征图的通道数，而增大特征图的宽高，得到大小为40*40*256的第十二特征图；

将所述第十二特征图与所述第七特征图一并输入到第十三层，即第一拼接Concat模块，不改变特征图的大小，而增加特征图的通道数，得到大小为40*40*512的第十三特征图；

将所述第十三特征图输入到第十四层，即第二CSP2_1模块，得到大小为40*40*256的第十四特征图；

将所述第十四特征图输入到第十五层，即第六CBS模块，其卷积核大小为1*1，步长为1，得到大小为40*40*128的第十五特征图；

将所述第十五特征图输入到第十六层，即第二上采样Unsample模块，不改变特征图的通道数，而增大特征图的宽高，得到大小为80*80*128的第十六特征图；

将所述第十六特征图与所述第五特征图一并输入到第十七层，即第二拼接Concat模块，不改变特征图的大小，而增加特征图的通道数，得到大小为80*80*256的第十七特征图；

将所述第十七特征图输入到第十八层，即第三CSP2_1模块，得到大小为80*80*128的第十八特征图；

将所述第十八特征图输入到第十九层，即第七CBS模块，其卷积核大小为1*1，步长为1，得到大小为40*40*128的第十九特征图；

将所述第十九特征图与所述第十五特征图一并输入到第二十层，即第三拼接Concat模块，不改变特征图的大小，而增加特征图的通道数，得到大小为40*40*256的第二十特征图；

将所述第二十特征图输入到第二十一层，即第四CSP2_1模块，得到大小为40*40*256的第二十一特征图；

将所述第二十一特征图输入到第二十二层，即第八CBS模块，其卷积核大小为1*1，步长为1，得到大小为20*20*256的第二十二特征图；

将所述第二十二特征图与所述第十一特征图一并输入到第二十三层，即第四拼接Concat模块，不改变特征图的大小，而增加特征图的通道数，得到大小为20*20*512的第二十三特征图；

将所述第二十三特征图输入到第二十四层，即第五CSP2_1模块，得到大小为20*20*512的第二十四特征图；

将所述第十八特征图、第二十一特征图以及第二十四特征图分别输入第一卷积模块Conv、第二卷积模块Conv和第三卷积模块Conv，得到检测结果并进行融合，过滤掉置信度低于预设阈值，比如0.25的检测框，使用非极大值抑制方法进行后处理，提取置信度高的目标检测框，而抑制置信度低的误检框，得到最终的目标检测框。

在本发明一实施方式中，可借助所述验证图像来对于所述改进YOLOv5l模型的性能进行评价，比如，可将所述验证图像输入至所述改进YOLOv5l模型中，根据所述改进YOLOv5l模型的输出结果来计算模型的相关评价指标，从而来评价模型的性能。

其中，所述目标对象可以为教师也可以为其他需要进行表情检测的群体。在利用具有新训练权重的改进YOLOv5l模型对于目标对象的表情进行检测时，可基于所述具有新训练权重的改进YOLOv5l模型构建目标对象，比如可借助PYQT5和opencv函数等开发界面和接口，基于具有新训练权重的改进YOLOv5l模型来搭建所述目标对象表情实时识别系统。在使用时，所述步骤S5包括：

步骤S5-1：加载具有新训练权重的改进YOLOv5l模型；

步骤S5-2：通过界面选择识别数据来源，比如摄像头或本地视频；

以上实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于上述的实施例。上述实施例中所用方法如无特别说明均为常规方法。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于YOLOv5l和注意力机制的实时表情识别方法，其特征在于：

步骤S1：获取训练图像和验证图像；

2.根据权利要求1所述的方法，其特征在于，所述步骤S1包括以下步骤：

步骤S1-1，对于公开数据集中的图像根据预设规则进行筛选；

步骤S1-3，将标注完成的图像划分为训练图像和验证图像。

3.根据权利要求1所述的方法，其特征在于，在步骤S3中，在所述原始YOLOv5l模型主干网结构中每个卷积残差网络CSP1_X模块的每个标准卷积CBS模块后加入注意力机制，得到改进YOLOv5l模型。

4.根据权利要求3所述方法，所述改进YOLOv5l模型包括依次连接的Focus模块、第一CBS模块、CSP1_1A模块、第二CBS模块、第一CSP1_3A模块、第三CBS模块、第二CSP1_3A模块、第四CBS模块、空间金字塔池化SPP模块、第一CSP2_1模块、第五CBS模块、第一上采样Unsample模块、第一拼接Concat模块、第二CSP2_1模块、第六CBS模块、第二上采样Unsample模块、第二拼接Concat模块、第三CSP2_1模块、第一卷积模块Conv、第七CBS模块、第三拼接Concat模块、第四CSP2_1模块、第二卷积模块Conv、第八CBS模块、第四拼接Concat模块、第五CSP2_1模块、第三卷积模块Conv，其中，所述第一上采样Unsample模块的输出与第二CSP1_3A模块的输出拼接并输入第一拼接Concat模块；第二上采样Unsample模块的输出与第一CSP1_3A模块的输出拼接并输入第二拼接Concat模块；第三CSP2_1模块的输出输入第一卷积模块Conv的输入端，第一卷积模块Conv的输出作为所述改进YOLOv5l模型的第一输出结果；第四CSP2_1模块的输出输入第二卷积模块Conv的输入端，第二卷积模块Conv的输出作为所述改进YOLOv5l模型的第二输出结果；第五CSP2_1模块的输出输入第三卷积模块Conv的输入端，第三卷积模块Conv的输出作为所述改进YOLOv5l模型的第三输出结果。

5.根据权利要求1所述方法，其特征在于，在步骤S3中，在所述原始YOLOv5l模型主干网结构中的Focus模块后加入注意力机制，或者在所述原始YOLOv5l模型主干网结构中的每个CBS模块后加入注意力机制，或者在所述原始YOLOv5l模型主干网结构中的SPP模块后加入注意力机制，或者在所述原始YOLOv5l模型主干网结构中的Focus模块和SPP模块后分别加入注意力机制，或者在所述原始YOLOv5l模型主干网结构中的每个CBS模块和SPP模块后分别加入注意力机制，或者在所述原始YOLOv5l模型主干网结构中的Focus模块和每个CBS模块后分别加入注意力机制，或者在所述原始YOLOv5l模型主干网结构中的每个CBS模块和每个CSP1_X模块的每个标准卷积CBS模块后分别加入注意力机制，或者在所述原始YOLOv5l模型主干网结构中的Focus模块、每个CBS模块、每个CSP1_X模块的每个标准卷积CBS模块后和SPP模块后分别加入注意力机制。

6.根据权利要求1所述的方法，其特征在于，在步骤S4中，在对于所述改进YOLOv5l模型进行重新训练时，将所述训练图像输入到所述改进YOLOv5l模型中，通过调整模型的学习率、动量、迭代次数来实现对于所述改进YOLOv5l模型的重新训练。

7.根据权利要求1所述的方法，其特征在于，所述步骤S5包括以下步骤：

步骤S5-1：加载具有新训练权重的改进YOLOv5l模型；