CN114399633A

CN114399633A - 一种基于YOLOv5s模型的移动电子设备位置检测方法

Info

Publication number: CN114399633A
Application number: CN202210062004.7A
Authority: CN
Inventors: 张晓明; 赵培森; 于占鲁; 王廷德
Original assignee: Beijing Institute of Petrochemical Technology
Current assignee: Beijing Institute of Petrochemical Technology
Priority date: 2022-01-19
Filing date: 2022-01-19
Publication date: 2022-04-26

Abstract

本发明公开了一种基于YOLOv5s模型的移动电子设备位置检测方法，涉及图像识别技术领域，通过在YOLOv5s模型中引入SE(Squeeze‑and‑Excitation)模块，在特征提取中更加关注通道之间的关系，避免在经过较深的模型后造成较小目标的物体特征信息大量丢失的现象。本申请还利用BiFPN特征融合的思想，将YOLOv5s用来获取检测较小目标物40x40的特征图所采用的特征融合方法，由高层特征与底层特征融合变为高层、底层与更底层的三个特征图连接，使特征图所包含的信息进行丰富。并且将原来的Concat连接方式全部改为BiFPN_Concat连接方式。增加可训练参数，用于记录每种特征图的贡献度，根据不同的贡献度再进行特征融合，精准识别移动电子设备的位置。

Description

一种基于YOLOv5s模型的移动电子设备位置检测方法

技术领域

本发明涉及图像识别技术领域，特别涉及一种基于YOLOv5s模型的移动电子设备位置检测方法。

背景技术

移动电子设备在现在的日常生活随处可见，人们时时刻刻都会有这样的需求。对于其本身而言，已然成为人们日常生活中不可或缺的通信交流方式，因为移动电子设备的产生，给人们的生活带来了极大的便利并且节省交流的成本。

但是，在一些特定的场合使用手机等移动电子设备仍然有可能存在安全隐患，严重者会造成重大的安全事故。例如，在加油站等特定场所，违规使用手机可能会引发火灾。且在一些有安全和保密规定的场所，需要实时检测人员是否违规使用移动电子设备。所以对违规使用移动电子设备的行为进行检测给人们以提示和警示作用就变得非常必要。

针对此问题，本发明提出一种基于YOLOv5s模型的移动电子设备位置检测方法，构建包含SE(Squeeze-and-Excitation)模块的YOLOv5s模型，并利用BiFPN特征融合的思想，使特征图所包含的信息更加精确，能够精准识别移动电子设备的位置。

发明内容

本发明的目的在于提供一种基于YOLOv5s模型的移动电子设备位置检测方法，构建包含SE(Squeeze-and-Excitation)模块的YOLOv5s模型，并利用BiFPN特征融合的思想，使特征图所包含的信息更加精确，能够精准识别移动电子设备的位置。

本发明提供了一种基于YOLOv5s模型的移动电子设备位置检测方法，包括以下步骤：

构建YOLOv5s模型；

获取持有移动电子设备的目标图像，将目标图像输入加入SE模块后的YOLOv5s模型；

获取目标图像，将目标图像输入YOLOv5s模型；

目标图像依此经过YOLOv5s模型的focus结构、CSP结构和SE模块的处理，生成三个特征层；

将三个特征层分别输入YOLOv5s模型的网络层，网络层对三个特征层进行上下采样，将采样结果与YOLOv5s模型的主干网络提取的特征图进行特征融合，生成三个新的特征层，根据三个新的特征层输出预测结果；

根据预测结果生成并显示目标图像中移动电子设备的预测框。

进一步地，所述SE模块，包括：

压缩单元：将H*W*C的特征图压缩为1*1*C，其中，H是高度，W是宽度，C是通道数；

激发单元：将压缩后的特征图输入FC全连接层，对压缩后特征图的每个通道的重要性进行预测，得到不同通道的重要性大小，在卷积过程中，将重要性高的通道权重加大，重要性低的通道权重减小，再利用Sigmoid激活函数将压缩特征图通道变形为原特征图通道。

进一步地，还包括：

采用特征金字塔网络模块FPN进行特征融合，其中，特征金字塔网络模块FPN添加上下文信息的边，并对每个边乘以一个相应的权重。

进一步地，所述构建YOLOv5s模型的步骤，包括：

获取人类持有移动电子设备的图像集；

按比例将标注后的图像集划分为训练集和验证集，利用标注工具标注训练集图像集中的移动电子设备；

基于训练集图像集，构建YOLOv5s模型。

进一步地，还包括：

将标注后的训练集图像集统一修正为640*640格式。

进一步地，所述预测框包括边界框和置信度，所述置信度包括边界框内包含移动电子设备的置信度和边界框是否将整个移动电子设备的所有特征都包括进来的置信度。

进一步地，还包括：

采用非极大值抑制方法筛选重复的边界框；

对比预测框与标注工具的标注框，并采用GIoU损失函数计算损失，再利用损失函数做反向传播，调整YOLOv5s模型的权重；

迭代对比过程，使YOLOv5s模型逐渐收敛，并通过验证集的不断调整参数。

进一步地，所述采用非极大值抑制方法筛选重复的边界框的步骤，包括：

根据置信度得分进行排序；

选择置信度最高的边界框添加到最终输出列表中，将其从边界框列表中删除；

计算置信度最高的边界框与其它边界框的交并比loU，删除交并比loU大于阈值的边界框；

对边界框列表中剩余的边界框迭代按照置信度进行处理，直至边界框列表为空。

与现有技术相比，本发明具有如下显著优点：

本发明提出的一种基于YOLOv5s模型的移动电子设备位置检测方法，通过在YOLOv5s模型中引入SE(Squeeze-and-Excitation)模块，在特征提取中更加关注通道之间的关系，避免在经过较深的模型后造成较小目标的物体特征信息大量丢失的现象。本申请还利用BiFPN特征融合的思想，将YOLOv5s用来获取检测较小目标物40x40的特征图所采用的特征融合方法，由高层特征与底层特征融合变为高层、底层与更底层的三个特征图连接，使特征图所包含的信息进行丰富。并且将原来的Concat连接方式全部改为BiFPN_Concat连接方式。增加可训练参数，用于记录每种特征图的贡献度，根据不同的贡献度再进行特征融合；本发明提供的一种基于YOLOv5s模型的移动电子设备位置检测方法，构建包含SE模块的YOLOv5s模型，并利用BiFPN特征融合的思想，使特征图所包含的信息更加精确，精准识别移动电子设备的位置。

附图说明

图1为本发明实施例提供的YOLOv5s模型移动电子设备位置检测流程图；

图2为本发明实施例提供的SE模块结构图；

图3为本发明实施例提供的YOLOv5s模型结构图；

图4为本发明实施例提供的模型检测效果图。

具体实施方式

下面结合本发明中的附图，对本发明实施例的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

实施例1

移动电子设备：也被称为移动设备(英语:Mobile device)、手持设备(handhelddevice)等，是一种口袋大小的计算设备，通常有一个小的显示萤幕，触控输入，或是小型的键盘。因为通过它可以随时随地访问获得各种信息，这一类设备很快变得流行。和诸如手提电脑和智能手机之类的移动计算设备一起，PDA代表了新的计算机领域。常见的移动电子设备包括手机、平板电脑等。但在特殊的场合和工作场合，不允许使用移动电子设备，防止影响工作任务和生产安全。

针对违规使用移动电子设备的问题，参照图1和图4，本发明提供了一种基于YOLOv5s模型的移动电子设备位置检测方法，包括以下步骤：

S1：根据人类持有移动电子设备的图像集，构建YOLOv5s模型，步骤包括：

S101：获取8200张人持有移动电子设备的图像集；

S102：按9：1的比例将标注后的图像集划分为训练集和验证集，利用标注工具标注训练集图像集中的移动电子设备，并记录下类别，生成所标记框的相关文件；

S103：基于训练集图像集，构建YOLOv5s模型。

其中，因为所有图片的大小是不同的，而YOLOv5s是需要统一规格的图片才能生成特征层，所以，需要将图片自适应缩放，即先将图片按照YOLOv5s所需要的输入尺寸缩小，之后对于较短边添加的黑色条成为正方形，以满足640像素x 640像素的输入规格。从而将标注后的训练集图像集统一修正为640*640格式。

S2：根据SEnet注意力机制构建SE(Squeeze-and-Excitation)模块，将SE模块加入至YOLOv5s模型的CSP结构之后，在特征提取中更加关注通道之间的关系，避免在经过较深的模型后造成较小目标的物体特征信息大量丢失的现象；

S3：获取人类持有移动电子设备的目标图像，将目标图像输入加入SE模块后的YOLOv5s模型；

S4：目标图像依此经过YOLOv5s模型的focus结构、CSP结构和SE模块的处理，生成三个大小不同的特征层；

S5：将三个特征层分别输入YOLOv5s模型的网络层(即Neck部分)，网络层对三个特征层进行上下采样，采用特征金字塔网络模块FPN将采样结果与主干网络BackBone提取的特征图进行特征融合，其中，特征金字塔网络模块FPN添加上下文信息的边，并对每个边乘以一个相应的权重；生成的三个新的特征层，根据三个新的特征层输出预测结果，本方法利用BiFPN特征融合的思想，将YOLOv5s用来获取检测较小目标物40x40的特征图所采用的特征融合方法，由高层特征与底层特征融合变为高层与底层与更底层的三个特征图连接，使特征图所包含的信息进行丰富。并且将原来的Concat连接方式全部改为BiFPN_Concat连接方式。增加可训练参数，用于记录每种特征图的贡献度，根据不同的贡献度再进行特征融合。由此让模型更加关注重要的层次，使特征图所包含的信息更加精确；

其中，将之前的ConCat层改变为BiFPN_ConCat层，即依据公式(3)每次融合特征时考虑其权重，公式为：

不同的特征层提供不同的权重。此外，额外引入BackBone中的特征图作为融合的来源(如图3中加黑的线所示)。

其中，BiFPN加权双向特征金字塔，BiFPN主要思想有两点：一是高效的双向跨尺度连接，二是加权特征图融合。

S6：根据预测结果生成并显示目标图像中移动电子设备位置检测的预测框，如图4所示。预测框包括边界框和置信度，置信度包括边界框内包含移动电子设备的置信度和边界框是否将整个移动电子设备的所有特征都包括进来的置信度。边界框来自模型初始的预测，一个种类会有多个边界框。

S7：采用非极大值抑制方法筛选重复的边界框；

S8：对比预测框与标注工具的标注框，并采用GIoU损失函数计算损失，损失函数映射了预测框与真实框的差距，而通过损失函数可以不断调整权重，缩小差距，再利用损失函数做反向传播，调整YOLOv5s模型的权重；

S9：迭代对比过程，使YOLOv5s模型逐渐收敛，并通过验证集的不断调整参数。

本实施例提供的一种基于YOLOv5s模型的移动电子设备位置检测方法中，采用非极大值抑制方法筛选重复的边界框的步骤，包括：

S701：根据置信度得分进行排序；

S702：选择置信度最高的边界框添加到最终输出列表中，将其从边界框列表中删除；

S703：计算所有边界框的面积，计算置信度最高的边界框与其它边界框的交并比loU(是指两个框的交集面积与两个框的并集面积之比，表示了两个框的相交程度)，删除交并比loU大于阈值的边界框；

S704：对边界框列表中剩余的边界框迭代按照置信度进行处理，直至边界框列表为空。

本实施例提供的一种基于YOLOv5s模型的移动电子设备位置检测方法中的SE模块，参照图2，包括：

压缩单元Squeeze：将H*W*C的特征图feature map压缩为1*1*C，其中，H是高度(Height)，W是宽度(width)，C是通道数(channel)，相当于把H*W压缩成一维状态，压缩方程为：

H*W压缩成一维后，相当于这一维参数获得了之前H*W全局的视野，感受区域更广；

激发单元Excitation：将压缩后的1*1*C特征图输入FC全连接层(FullyConnected)，对压缩后的特征图的每个通道的重要性进行预测，得到不同通道channel的重要性大小，在卷积过程中，将重要性高的通道权重加大，重要性低的通道权重减小，再利用Sigmoid激活函数将压缩特征图通道变形为原特征图通道，即变形至原特征图feature map的对应通道channel上，激发方程为：

s＝F_ex(z,W)＝σ(g(z,W))＝σ(W₂δ(W₁z)) (2)。

SE模块是为了解决在卷积池化过程中feature map的不同通道所占的重要性不同带来的损失问题。在传统的卷积池化过程中，默认feature map的每个通道是同等重要的，而在实际的问题中，不同通道的重要性是有差异的。经过SEnet网络之后，接下来在卷积操作的过程中，使重要的通道权重加大，不重要的通道权重减小。阈值函数Sigmoid是一个激活函数，激发单元的fc层输出的特征图是1*1*c的，输出特征图需要和进入SEnet模型之前保持一致为H*W*C。所以需要Sigmoid将其变形为H*W*C。

以上公开的仅为本发明的几个具体实施例，但是，本发明实施例并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims

1.一种基于YOLOv5s模型的移动电子设备位置检测方法，其特征在于，包括以下步骤：

构建YOLOv5s模型；

根据SEnet注意力机制构建SE模块，将SE模块加入至YOLOv5s模型的CSP结构之后；

2.如权利要求1所述的一种基于YOLOv5s模型的移动电子设备位置检测方法，其特征在于，所述SE模块，包括：

3.如权利要求1所述的一种基于YOLOv5s模型的移动电子设备位置检测方法，其特征在于，还包括：

4.如权利要求1所述的一种基于YOLOv5s模型的移动电子设备位置检测方法，其特征在于，所述构建YOLOv5s模型的步骤，包括：

获取人类持有移动电子设备的图像集；

基于训练集图像集，构建YOLOv5s模型。

5.如权利要求4所述的一种基于YOLOv5s模型的移动电子设备位置检测方法，其特征在于，还包括：

将标注后的训练集图像集统一修正为640*640格式。

6.如权利要求1所述的一种基于YOLOv5s模型的移动电子设备位置检测方法，其特征在于，所述预测框包括边界框和置信度，所述置信度包括边界框内包含移动电子设备的置信度和边界框是否将整个移动电子设备的所有特征都包括进来的置信度。

7.如权利要求6所述的一种基于YOLOv5s模型的移动电子设备位置检测方法，其特征在于，还包括：

采用非极大值抑制方法筛选重复的边界框；

8.如权利要求7所述的一种基于YOLOv5s模型的移动电子设备位置检测方法，其特征在于，所述采用非极大值抑制方法筛选重复的边界框的步骤，包括：

根据置信度得分进行排序；