CN116524338A

CN116524338A - 一种改进yolox的大尺寸小目标危险行为检测方法及系统

Info

Publication number: CN116524338A
Application number: CN202310500780.5A
Authority: CN
Inventors: 韩睿; 赵琳; 张帅; 卢洪坤; 金涌涛; 何坚; 林浩凡; 李文博; 马钰; 季宇豪; 宋国权; 汪斌; 杨万波; 董雪松; 黄军浩; 邹晓峰
Original assignee: Hangzhou E Energy Electric Power Technology Co Ltd
Current assignee: Hangzhou E Energy Electric Power Technology Co Ltd
Priority date: 2023-05-06
Filing date: 2023-05-06
Publication date: 2023-08-01

Abstract

本发明公开了一种改进YOLOX的大尺寸小目标危险行为检测方法及系统，该方法对输入图像进行缩放和归一化操作；通过卷积和池化操作提取图像特征；使用ECANet提取关键特征，再结合金字塔式特征网络层生成更加准确和高效的特征图；使用金字塔式特征网络将来自不同层级的特征图进行融合；利用特征图进行目标检测，生成边界框和类别概率；根据Focal Loos置信度损失函数调整易分类样本和难分类样本的权重差异；根据置信度和类别概率筛选边界框，通过非极大值抑制算法消除冗余框，最终得到检测结果。本发明通过引入ECANet和Focal Loss函数，可以增强特征提取和优化损失函数，提高小目标的检测率，从而进一步提高了检测性能。

Description

一种改进YOLOX的大尺寸小目标危险行为检测方法及系统

技术领域

本发明涉及室内危险行为检测领域，具体地说是一种改进YOLOX的大尺寸小目标危险行为检测方法及系统。

背景技术

室内吸烟危险行为对公共场所和办公安全造成的影响更加严重。目前，大多数室内吸烟危险行为的检测仍然依靠烟雾探测，但是这种方法容易存在误判的问题。

近年来，深度学习技术的发展提升了图像检测的精度，摄像头可以捕捉到人员吸烟的危险行为，通常是对摄像头捕捉的图像需要进行预处理和匹配，以保证检测的准确性。

目前已有一些文献提出了相关方法。

Wang等人提出了一种基于深度卷积神经网络的室内抽烟检测方法，该方法使用深度卷积神经网络对摄像头采集的视频帧进行分类，达到了较高的准确率。Khan等人提出了一种基于图像序列的室内抽烟检测方法，该方法利用了视频帧之间的时序信息，有效地提高了检测准确率。

摄像头采集的图像可能存在背景复杂、光线变化等问题，这会影响图像的质量和准确性。为了解决这些问题，可以采用一些预处理方法，如图像增强和去噪等技术，来提高图像的质量和准确性。此外，对于摄像头捕捉的图像中存在的小目标检测问题，可以采用多尺度金字塔和上下文信息等技术来提高检测的精度和效率。

基于摄像头捕捉的危险行为任务中，采集的图像往往具有较大的尺寸，这也意味着其中可能包含了大量细小的待检测目标。传统的卷积神经网络在对这些大尺寸图像进行处理时，常常需要使用下采样来降低图像分辨率以减少计算量，这虽然能够提高计算效率，但也使得网络在对小目标的特征进行采集时，容易出现信息丢失和漏检问题。

发明内容

有鉴于此，本发明提供一种改进YOLOX的大尺寸小目标危险行为检测方法及系统，其通过引入ECANet和Focal Loss函数，用于增强特征提取和优化损失函数，提高小目标的检测率，从而进一步提高检测性能。

为解决以上技术问题，本发明采用的一种技术方案如下：一种改进YOLOX的大尺寸小目标危险行为检测方法，其包括：

步骤S11，对输入图像进行缩放和归一化操作；

步骤S12，通过卷积和池化操作提取图像特征；

步骤S13，使用ECANet提取关键特征，再结合金字塔式特征网络层生成更加准确和高效的特征图；

步骤S14，使用金字塔式特征网络(PAFPN)将来自不同层级的特征图进行融合；

步骤S15，利用特征图进行目标检测，生成边界框和类别概率；

步骤S16，根据Focal Loos置信度损失函数调整易分类样本和难分类样本的权重差异；

步骤S17，根据置信度和类别概率筛选边界框，通过非极大值抑制算法消除冗余框，最终得到检测结果。

本发明采用的另一种技术方案为：一种改进YOLOX的大尺寸小目标危险行为检测系统，包括：

骨干网络：用于从输入图像中提取特征，采用CSP结构，能够更好地平衡计算复杂度和模型准确性；

SPP模块：采用空间金字塔池化来捕捉不同尺度的特征，提高模型的鲁棒性和准确率；

ECANet模块：使用通道注意力机制，通过对输入特征图的通道维度进行自适应加权，来提高特征图的表征能力和区分度；

PAFPN模块：通过金字塔式的特征融合和级联式的特征传递，能够更好地处理不同尺度和语义层次的特征，提高目标检测的精度和召回率；

Head模块：用于生成检测框和预测目标类别，采用注意力机制和动态卷积，能够提高目标检测的准确性和效率；

Focal Loss模块：调整负样本的权重，减少模型对容易分类的负样本的关注，从而更加关注难以分类的样本。

与现有技术相比，本发明为一种改进YOLOX的大尺寸小目标危险行为检测方法及系统，通过引入ECANet和Focal Loss函数，用于增强特征提取和优化损失函数；ECANet能够捕捉不同尺度的特征信息，并使用注意力机制自适应地调整特征图的权重，能够进一步提高特征图的表达能力，增强检测器对于小目标的检测能力，这使得检测器能够更加准确地检测出室内抽烟行为中的小目标元素，例如香烟、打火机等；Focal Loss函数则能够有效地解决正负样本不平衡的问题，提高小目标的检测率，从而进一步提高检测性能。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1是本发明实施例1提供的一种改进YOLOX的大尺寸小目标危险行为检测方法的流程示意图；

图2是本发明实施例1中表示距离损失的示意图；

图3是本发明实施例1中表示角度损失的示意图。

具体实施方式

为了使本领域技术人员更好的理解本发明实施例，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

实施例1

参考图1，是本实施例提供的一种改进YOLOX的大尺寸小目标危险行为检测方法的流程示意图。

基于YOLOX改进，用于基于摄像头拍摄的大尺寸小目标抽烟危险行为检测，由于FPN结构已在许多目标检测网络中被证实是一种有效的架构，因此本实施例也采用了这种结构。

整体分为三个部分：Backbone、Neck、Head。图像被统一Resize 640*640的尺寸喂入网络，然后数据经过Mosaic和Mixup得到增强；在Backbone中利用Focus进行下采样后进入CSPDarknet层(Dark2、Dark3、Dark4、Dark5)进行特征提取；在三个输出特征层引入ECANet通道注意力机制，用于加强特征提取网络，从而图像中更好的提取小目标特征；进入网络特征加强Neck层使用PAFPN结构，将主干网络获得的三个特征层经过多次上采样和下采样进行特征融合，将不同尺度的特征信息进行结合。在Head部分使用解耦头，将分类和回归分为两个分支进行处理，最后预测的时候再进行整合，加快模型收敛速度、提高检测精度；使用Focal Loss作为置信损失函数解决one-stage目标检测中正负样本比例严重失衡的问题，降低了大量简单负样本在训练中所占的权重，提升了小目标检测的精度。

上述大尺寸小目标危险行为检测方法的步骤如下：

S11，对输入图像进行缩放和归一化操作，是对输入图像的增强部分。

采用随机大小的图像增强方法，即随机缩放和裁剪图像，以增加训练数据的多样性，并且在缩放时保留更多的目标信息；同时加入自适应卡方值滤波器进行图像增强，以减少图像噪声对检测结果的影响。

S12，通过卷积和池化操作提取图像特征。采用SPP网络，能够实现在特定区域内对图像进行密集采样，通过空间金字塔池化将特征图映射到一个固定大小的向量中，克服传统池化方式对于输入大小的限制。

S13、使用ECANet提取关键特征，再结合金字塔式特征网络层生成更加准确和高效的特征图。

ECA能有效提升了目标检测的性能，但复杂注意力模块会不可避免增加了计算成本。本实施例使用ECANet通道注意力来提升性能，因为ECANet可以做到避免增加计算成本并且提升性能。

它的方法是在全局平均池化层之后使用1x1卷积层，去除了全连接层。这样的方法避免了维度缩减，并有效捕获了跨通道交互。ECANet通过一维卷积来完成跨通道间的信息交互，卷积核的大小通过一个函数来自适应变化，使得通道数较大的层可以更多地进行跨通道交互。自适应函数为：

其中ψ＝2，b＝1，C表示输入通道维数，k为卷积核大小。

S14、使用金字塔式特征网络(PAFPN)将来自不同层级的特征图进行融合。

PAFPN结合通道注意力机制提取关键特征，将主干网络获得的三个特征层经过多次上采样和下采样进行特征融合，将不同尺度的特征信息进行结合。在Head部分使用解耦头，将分类和回归分为两个分支进行处理，最后预测的时候再进行整合，加快模型收敛速度、提高检测精度。

S15、利用特征图进行目标检测，首先从图像中提取物体的四个角点，然后使用这些角点来生成边界框，这个边界框称为预测框。通过计算预测框和真实框之间的重叠程度计算模型的类别损失值得出类别概率。

S16、为降低损失值，提高类别概率的准确度，通过Focal Loos置信度损失函数调整易分类样本和难分类样本的权重差异。

对于置信度高的样本，损失函数进行降权；对于置信度低的样本，损失函数进行加权，使得金字塔式特征网络在反向传播时，置信度低的样本能够提供更大的梯度占比，即从未学习好的样本中获取更多的信息。

Focal Loss的计算公式为：

FL(p_t)＝-α_t(1-p_t)^γlog(p_t)

其中，y的取值为1和-1，分别代表前景和背景，p的取值范围为0-1，为预测属于前景的概率，如下：

Focal Loss公式中的α_t用于调节正负样本损失之间的比例，前景类别使用α_t时，对应的背景类别使用1-α_t。

调制因子在式子中的定义，如下：

(1-p_t)^γ

调制因子用来减低易分样本的损失贡献，无论是前景类还是背景类，p_t越大，就说明该样本越容易被区分，调制因子也就越小。

式子中的γ和α_t都有相应的取值范围，α_t可以抑制正负样本的数量失衡，通过γ可以控制简单或难区分样本数量失衡，当γ＝0的时候，Focal Loss就是传统的交叉熵损失，可以通过调整γ实现调制因子的改变。

S17、根据置信度和类别概率筛选边界框，通过非极大值抑制算法消除冗余框，最终得到检测结果。

SIOU损失函数通过引入了所需回归之间的向量角度，重新定义了距离损失，有效降低了回归的自由度，加快网络收敛，进一步提升了回归精度。

SIOU损失函数整体计算，如下：

L＝W_boxL_box+W_clsL_cls

其中，L_cls用的是Focal Loss，W_box以及W_cls根据遗传算法计算得到。L_box表示的是SIOU损失，如下：

其中，IOU表示预测的边框和真实的边框的交集和并集的比值，如下：

公式为：

△表示距离损失(见图2)，如下：

其中，为真实框中心坐标；(b_cx，b_cy)为预测框的中心坐标。

其中，∧为角度损失(见图3)，如下：

通过角度损失∧，SI0U考虑了角度对回归的影响，使用距离损失与角度损失形成平衡关系，当α趋于0时，距离的贡献大大降低。相反，α越接近Π/4，距离损失的贡献越大。

Ω表示形状损失，如下：

W、h分别表示预测框的宽和高，w^gt、h^gt分别表示真实框的宽和高，θ表示对形状损失的关注程度，θ参数范围为[2，6]，为了避免过于关注形状损失而降低对预测框的移动。

通过使用SIOU算法实现了衡量待检测物体边界框之间的重叠程度，再结合NMS算法来筛选边界框并去除重复信息，以达到提高目标检测的准确性和效率。

实施例2

一种改进YOLOX的大尺寸小目标危险行为检测系统，包括：

实施例2中未进行详细描述的部分参见实施例1。

基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

Claims

1.一种改进YOLOX的大尺寸小目标危险行为检测方法，其特征在于，包括：

步骤S11，对输入图像进行缩放和归一化操作；

步骤S12，通过卷积和池化操作提取图像特征；

步骤S14，使用金字塔式特征网络将来自不同层级的特征图进行融合；

2.根据权利要求1所述的一种改进YOLOX的大尺寸小目标危险行为检测方法，其特征在于，步骤S11中，

采用随机大小的图像增强方法，即随机缩放和裁剪图像，以增加训练数据的多样性，并且在缩放时保留更多的目标信息；

同时加入自适应卡方值滤波器进行图像增强，以减少图像噪声对检测结果的影响。

3.根据权利要求1所述的一种改进YOLOX的大尺寸小目标危险行为检测方法，其特征在于，步骤S12中，

采用SPP网络，实现在特定区域内对图像进行密集采样，通过空间金字塔池化将不同尺度的特征图转化成固定大小的特征向量中。

4.根据权利要求1所述的一种改进YOLOX的大尺寸小目标危险行为检测方法，其特征在于，步骤S13中，

ECANet通过一维卷积完成跨通道间的信息交互，卷积核的大小通过一个自适应函数来自适应变化，自适应函数为：

其中ψ＝2，b＝1，C表示输入通道维数，k为卷积核大小。

5.根据权利要求1所述的一种改进YOLOX的大尺寸小目标危险行为检测方法，其特征在于，步骤S14中，金字塔式特征网络结合ECANet提取的关键特征，将主干网络获得的三个特征层经过多次上采样和下采样进行特征融合，将不同尺度的特征信息进行结合。

6.根据权利要求1所述的一种改进YOLOX的大尺寸小目标危险行为检测方法，其特征在于，步骤S15中，利用不同尺度的特征金字塔提取目标的不同层次的语义信息；通过在不同的层次上提取特征，使得金字塔式特征网络能够在不同尺度上进行目标检测。

7.根据权利要求1所述的一种改进YOLOX的大尺寸小目标危险行为检测方法，其特征在于，步骤S15中，通过缩小易分类样本的权重来平衡正负样本之间的类别分布。

8.根据权利要求1所述的一种改进YOLOX的大尺寸小目标危险行为检测方法，其特征在于，步骤S16中，调整易分类样本和难分类样本的权重差异，从而更加关注难分类样本的学习。

9.据权利要求1所述的一种改进YOLOX的大尺寸小目标危险行为检测方法，其特征在于，步骤S17中，考虑每个框的置信度和重叠度，将重叠框的边界框合并为一个更准确的框。

10.一种改进YOLOX的大尺寸小目标危险行为检测系统，其特征在于，包括：

骨干网络：用于从输入图像中提取特征，采用CSP结构；

SPP模块：采用空间金字塔池化捕捉不同尺度的特征；

PAFPN模块：通过金字塔式的特征融合和级联式的特征传递；

Head模块：用于生成检测框和预测目标类别，采用注意力机制和动态卷积；

Focal Loss模块：调整负样本的权重，减少对容易分类的负样本的关注，从而更加关注难以分类的样本。