CN116188842A

CN116188842A - 基于轻量化对抗增强的强噪环境下物流违规操作检测方法

Info

Publication number: CN116188842A
Application number: CN202211707595.5A
Authority: CN
Inventors: 张媛; 朱磊; 秦法波
Original assignee: Beijing Institute of Graphic Communication
Current assignee: Beijing Institute of Graphic Communication
Priority date: 2022-12-29
Filing date: 2022-12-29
Publication date: 2023-05-30

Abstract

本发明提出了一种基于轻量化对抗增强的强噪环境下物流违规操作检测方法。该方法以YOLOv5为基础框架，提出轻量化的GhostC3模块，运用对抗学习的思想提出轻量对抗模块LAconv模块，将原有结构中的C3模块修改为轻量化的GhostC3模块、Conv模块修改为LAconv模块，并将定位损失修改为CIOU损失。最终通过实验验证，本发明方法针对复杂强噪背景下物流违规操作具有优异的检测效果，该方法相较YOLOv5检测平均精度均值提高1.69%，模型参数量降低45.14%，检测速度提高2.46%。本发明提出的方法具有参数量低、检测速度快和精度高的特点，针对复杂强噪背景下物流违规操作的检测具有一定的先进性和实用性，充分满足物流违规操作检测需求。

Description

基于轻量化对抗增强的强噪环境下物流违规操作检测方法

技术领域

本发明涉及快递物流智能识别领域，尤其涉及轻量化对抗增强的强噪环境下物流违规操作检测方法。

背景技术

随着物流业发展，包裹在物流作业中损坏、破损等问题尤为严重，而造成这一现象的直接原因便是物流作业中违规操作。违规操作为是指在包裹在揽收、中转、仓储以及配送等整个物流环节中，作业人员对包裹进行野蛮作业的行为，其中违规操作为在快递方面尤为凸显。物流违规操作在快递行业十分普遍，其中至少16.1％的快递件出现不同程度的损伤。2021年12月邮政业用户申诉情况通告显示，快递服务申诉的主要问题中快件损毁占申诉总量的21.8％。

目前，物流违规操作的识别主要有两种技术路线：第一种为基于传感器集群的识别方法；第二种是基于视频和图像的识别方法。基于传感器集群的物流违规操作识别方法是将惯性和振动等传感器内置于包裹中，通过开发专用硬件和云平台对违规操作进行分析处理，具有代表性的有丁奥等提出的基于加速度分布特征的快递暴力分拣识别方法，有效对包裹的违规操作进行了识别及分类，对包裹全流程监测具有重要意义。但是该类方法在进行识别时，专用的检测终端的固定安装方式相对繁琐并且需要占用包装容积，同时，由于专用检测终端一般需锂电池供电，对于航空等运输方式的安全有不利影响。因此，基于传感器集群的物流违规操作检测存在一定弊端。近年来，基于视频和图片对目标行为进行检测的方法得到迅速发展，并被广泛应用于农业、医疗、工业制造等诸多领域。针对物流违规操作的识别，已有学者进行了深入的研究。吴鹏勃等提出的基于LSTM+Attention和MobileSSD模型的快递暴力分拣检测系统可通过姿态数据进行行为识别。尚淑玲等利用小波包分析方法，对采集的物流分拣的图像行为特征进行有效的提取，为物流违规操作识别提供依据。邓秀琴等也针对物流违规操作提出一种基于计算机视觉的暴力分拣行为识别方法。但以上方法的检测效果和稳定性较低，模型训练和检测成本高。因此，轻量且稳定的检测方法具有重要的理论和实际意义。

发明内容

针对复杂强噪背景下物流违规操作难以有效识别的问题，本发明提出了一种轻量化对抗增强的物流违规操作检测方法。本发明针对物流违规操作问题以YOLOv5网络为主要框架提出了一种面向复杂强噪背景的轻量对抗检测方法，克服了物流违规操作检测成本高和检测精度差的问题，有效降低了人工干预工作量。本发明具体采用如下技术方案：

一种基于轻量化对抗增强的强噪环境下物流违规操作检测方法，该方法包括如下步骤：

(1)采集足踢、抛扔和踩踏三类快递异常操作行为图片，将上述异常操作行为图片作为输入特征图X∈R^Cin×H×W，Cin为通道数，H为高，W为宽；将输入特征图通过函数f'_conv经过缩放因子s降低通道数去除冗余通道得到输出特征图Y'：

Y'＝X×f'_conv

f'_conv＝∑Ax+B

其中，x为输入，A为权重矩阵，B为偏置矩阵；

再通过线性运算得到全新特征图

其中y_i是Y'中第i个特征图，函数

是指第j个线性运算，Y_ij是输出特征集合的元素，C_out为矩阵维度的个数；

(2)给定输入特征图X∈R^Cin×H×W,通过全局平均池化压缩特征矩阵的高H和宽W，输出为通道维度的矢量u＝[u₁,u₂,u₃,…u_Cin],FC₁()和FC₂()为线性变换函数，全连接层和激活函数的计算公式为

V＝σ₂(FC₂(σ₁(FC₁(u))))

其中，σ₁是ReLU激活函数，σ₂是Sigmoid激活函数，计算方式为

σ₁(x)＝max(0,x)

(3)考虑横纵比和预测框和真实框的关系，设置损失函数

CIOU_Loss＝1-CIOU

其中，IOU为交并比损失函数，ρ(b,b^gt)为最小化真实框和预测框中心点的欧式距离，w^gt、h^gt分别代表目标框的宽和高，w、h分别代表目标框的宽和高；

(4)根据步骤(3)，图片每张输入到网络得到预测标签，并和真实标签对比得到训练损失，损失回传对网络中可优化的参数进行优化，重复上述步骤直至设定的训练轮数结束，最后预测完成，图像传入网络，不进行损失回传。

优选的，该方法还包括如下步骤：

(5)模型评价指标计算

计算真实存在违规操作且被预测出存在异常行为违规操作的预测框占所有预测框的比例P

计算真实存在违规操作且被预测出存在违规操作的预测框占人工标注框的比例R

/>

其中，TP表示正类被识别为正类的样本个数，FP表示正类被识别为负类的样本个数，FN表示负类被识别为负类的样本个数；

计算足踢、抛扔和踩踏三类平均精度的均值mAP

式中，AP为P和R形成曲线所围成的面积,n为足踢、抛扔和踩踏三类行为个数。

本发明具有如下有益效果：

以YOLOv5为主要框架，提出了GhostC3模块和LAconv模块，修改定位损失函数为CIOU损失，应用于物流违规操作检测并经过实验验证在本发明提出轻量化模块和对抗学习的思想加持下，本发明方法在复杂高噪的环境下仍具有优异的检测效果。并且，本发明方法在mAP、参数量和推理速度均优于YOLOv5，能够有效解决物流违规操作行为无法识别，识别困难的问题，有效提高了检测效果，减少了人工干预检测的成本。

本发明提出的方法具有参数量低、检测速度快和精度高的特点，针对复杂强噪背景下物流违规操作的检测具有一定的先进性和实用性，充分满足物流违规操作检测需求。

附图说明

图1是轻量化对抗模块示意图。

图2是本发明方法流程图。

图3是雾天、高爆光和黑夜快递行为场景图。

具体实施方式

YOLO系列算法是典型的一阶段算法，具有简便、迅速以及适用性广的特点。YOLOv5在YOLO系列算法的基础上做了一系列的改进，性能得到了进一步的提升，YOLOv5网络模型主要包含输入端(Input)、主干网络(Backbone)、特征融合端(Neck)和预测端(Head)四个部分。

在输入端，YOLOv5主要运用mosaic数据增强方法、自适应锚框计算、自适应缩放图片。其中Mosaic数据增强是指通过随机缩放、裁剪以及排布的方法将随机选择的若干个图片组合，提高了模型的泛化能力，防止过拟合的出现。在网络模型训练过程中，网络会自动计算适合当前数据集的最佳锚框，通过聚类的锚框可以更快得到准确的预测框。为方便进行网络模型的训练和满足不同数据集图片尺寸的要求，自适应缩放图片将原图片缩放到统一尺寸，再输入到网络中训练。

YOLOv5在主干网络部分应用Conv模块、C3结构、SPPF池化金字塔结构。Conv模块是卷积层、BN(Batch Normalization)层和激活函数的组合，在整个网络中具有重要作用。Bottleneck模块是C3模块中的一个重要残差部件，在一定程度上降低了模型的计算参数量并且提高了特征提取的效率。

在Backbone和Head之间存在池化金字塔SPPF结构，SPPF池化金字塔结构在主干网络具有扩大网络感受野的作用，其结构是将输入特征图进行连续的最大池化下采样，最后将输出的特征图拼接。输入的图片经过主干网络后，为满足下游任务中不同尺度目标的要求，特征融合端采用特征金字塔结构(Feature Pyramid Networks，FPN)和路径聚合网络结构(Path Aggregation Network，PAN)。FPN是将融合高层特征图与低层特征图特征融合的结构，PAN网络是在FPN的基础上改进而来，其增加了一条自下向上的特征融合方案，使不同层次的语义信息能够更好的融合。特征融合端PANet对图像中不同尺度目标的检测效果具有大幅度的提升，使网络既可以学习到深层次的语义特征，又可以学习到图像整体的物体分布信息。Yolov5在输出端采用GIOU函数作为定位损失的损失函数。并且，在检测的后处理过程中，使用非极大值抑制的方法(Non Maximum Suppression，NMS)对目标框筛选，有效提高了模型的检测能力。

为解决传统的卷积操作得到的特征图中部分通道获取的信息冗余，参考Ghostnet网络提出一种轻量化的GhostC3模块。由于在训练过程中部分通道未学习到非常有价值的特征，为解决通道信息冗余，并且尽可能使用更少的参数量获取含有更

多信息的特征图。将C3结构中的Conv模块更改为Ghostconv模块。

给定输入特征图X∈R^Cin×H×W，Ghostconv模块如公式(2)将输入特征图通过函数f'_conv经过缩放因子s降低通道数去除冗余通道，再通过公式(3)的线性运算得到全新特征图，其中y_i是Y'中第i个特征图，函数

是指第j个线性运算，C_out为矩阵维度的个数，Y_ij是输出特征集合的元素，最后将降低通道数的特征图和线性运算得到的特征图拼接得到最终的特征图。

f'_conv＝∑Wx+B

其中，x为输入，W为权重矩阵，B为偏置矩阵；

Y'＝X×f'_conv (2)

将Bottleneck模块中的Conv模块更改为Ghostconv模块，并应用于GhostC3模块。其中，Bottleneck模块步距(Stride)设置为1，输入的特征图经过两个Ghostconv模块与其自身进行相加得到输出特征图。同时，将C3模块将Bottleneck模块更改，并且将输出时Conv模块更改为Ghostconv模块，其中更改后的GhostC3模块应用于Backbone和Head中。并且，GhostC3使用捷径(shortcut),Neck中GhostC3不使用捷径(shortcut)。

为提高网络的强噪声数据下的检测能力，引入对抗学习的思想，其中生成对抗网络(Generative Adversarial Network，GAN)主要包含生成器(Generator，G)和鉴别器(Discriminator，D)两部分，生成器和鉴别器之间形成对抗，并且生成器和鉴别器可以是任何非线性映射的函数。

生成对抗网路中生成器负责将随机服从高斯分布的噪声z生成为分布近似于实际样本的数据G(z)；鉴别器负责判断输入的特征X_in是真实样本还是生成器生成的样本。其中生成器要不断及时优化生成的数据，使真实数据分布P_real和生成数据分布P_fake尽可能相似，以达到鉴别器无法鉴别为数据为生成的目的。鉴别器目的是提升自身的鉴别能力，更好的识别真实和虚假数据的区别,因此其优化公式可表示为式(4)。

为提高网络的在高噪声图片的检测效果引入通道注意力模块，通道注意力模块可以的获取特征图不同通道间重要程度，在网络训练的过程中通道注意力模块会增大存在重要语义信息的通道权重，降低冗余信息通道的权重。通道注意力模块结构由全局平均池化(Global Average Pooling,GAP)和若干个全连接层(Fully Connected Layer，FC)和激活函数组成。

给定输入特征图X∈R^Cin×H×W,通过全局平均池化压缩特征矩阵的高和宽，输出为通道维度的矢量u＝[u₁,u₂,u₃,…u_Cin]。全连接层和激活函数的计算过程可表示为公式(5)，FC₁()和FC₂()为线性变换函数，先降低通道维度再升高通道维度。其中σ₁是ReLU激活函数，σ₂是Sigmoid激活函数，计算公式如公式(6-7)，最终输出得到通道权重与原特征图的乘积。

V＝σ₂(FC₂(σ₁(FC₁(u)))) (5)

σ₁(x)＝max(0,x) (6)

因此为增强网络的特征学习能力并提升网络的抗噪能力，结合对抗学习思想和通道注意力模块，提出一种如图1轻量化对抗模块(Lightweight Adversarial Conv，LAconv)，将Backbone和Neck中的Conv模块修改为LAconv模块。将Ghostconv模块中的线性变换作为生成器G，将通道注意力模块作为鉴别器D，轻量化对抗模块中运用生成器G的线性变换生成类似于真实特征图的虚假特征图与降低通道的真实特征图拼接，输入至通道注意力模块作为鉴别器来鉴别生成数据的真伪，二者形成对抗关系。

YOLOv5的损失函数由分类损失(classification loss)、定位损失(localizationloss)和置信度损失(confidence loss)三部分组成。其中分类损失和置信度损失使用二值交叉熵损失(BCELoss，Binary CrossEntropy Loss)，损失。定位损失使用GIOU损失(见公式8-9)取代了IOU(交并比)损失，解决了预测框和真实框不相交时损失无法回传的问题，不仅关注重叠区域，还关注其他非重合区域，能更好的反映两者的重合度。但是，GIOU损失在预测框和真实框没有很好地对齐时，会导致最小外接框的面积增大，从而使GIOU的值变小，不利于模型优化。

GIOU_Loss＝1-GIOU (9)

为解决上述定位损失的缺点，将GIOU损失调整为如公式(10-13)的CIOU损失。具体调整如下，首先将GIOU中的惩罚项最小外接矩形修改为如公式(10)的最小化真实框和预测框中心点的欧式距离ρ(b,b^gt)，并加入最小包围两个边界框的对角线长度的平方进行修订。同时，加入能够同时包含预测框和真实框的最小闭包区域的对角线距离。并且，为了充分的考虑横纵比对预测的影响加入如公式(13-14)惩罚项,其中w^gt、h^gt分别代表目标框的宽和高，w、h分别代表目标框的宽和高。通过上述的调整，定位损失充分考虑了横纵比和预测框和真实框的关系，并且能够提高了网络模型的检测精度。

CIOU_Loss＝1-CIOU (11)

YOLOv5网络本身具有检测速度快、适用性广的特点，以YOLOv5网络为主要框架，将C3模块修改为GhostC3模块、Conv模块修改为LAconv模块并且修改定位损失函数为CIOU损失。改进后的网络具有检测效果优异、推理迅速、轻量化的特点，满足复杂高噪物流环境下违规操作的检测。

本发明训练时输入网络的是一张张物流违规操作(RGB三个通道，即三个矩阵，如输入特征图X∈RCin×H×W中cin为通道数，H为高，w为宽)图片和标注信息(如表3)，其次，图片每张输入到网络得到预测标签，并和真实标签(包含类别信息-三类违规操作，位置信息中心点xy,高宽hw)对比得到训练损失，损失回传对网络中可优化的参数进行优化，重复上述步骤直至设定的训练轮数(一个for循环)结束，最后推理(预测)时候，图像传入网络，不进行损失回传，只有预测结果，整体流程如图2所示。

实验与分析

(1)实验环境

实验所使用的处理环境的显卡为NVDIA Tesla K80，CPU为三颗Xeon E5-2678v3处理器，操作系统为Ubuntu 18.04，深度学习框架为Pytorch架构。具体配置如下表1。

表1硬件环境配置

训练时采用SGD优化器优化网络，使用Mosaic数据增强，调整批量大小为64，初始学习率设置为0.001，动量为0.937，权重衰减系数为0.0005，迭代次数设置为500，模型深度系数为0.33，宽度系数为0.5，具体参数如下表2。

表2模型训练参数

为验证模型效果，使用物流违规操作数据进行验证。因物流违规操作数据在真实物流环境下采集困难，实验所需数据集是由本发明作者使用TP-LINK高清摄像头模拟快递员的异常操作行为，其中包含足踢、抛扔和踩踏三类常见的快递异常操作行为。共采集图片1215张，其中足踢344张，抛扔531张，踩踏340张。调用opencv库将获取的数据集处理为如图3所示的雾天、高爆光和黑夜场景，其中每个动作下的每类场景数量占比相同。

(2)数据标注

不同类别的图片数据使用Labelimg数据标注工具进行标注，其中物流违规操作分为三类，分别是足踢、抛扔、踩踏。其中类别0代表足踢，标签为kick；类别1代表抛扔，标签为throw；类别2代表踩踏，标签为trample。按照表3示例标注后的文件分别代表标注的类别、经过规一化操作的人工标注框的中心点坐标、标注框宽度和高度，最终将数据集按8:2随机分配为训练集和测试集，得到实验所需数据集。

表3数据标注示例

(3)模型评价指标

准确率(Precision,P)、召回率(Recall,R)是衡量模型训练结果的重要指标。准确率为真实存在违规操作且被预测出存在异常行为违规操作的预测框占所有预测框的比例，召回率为真实存在违规操作且被预测出存在违规操作的预测框占人工标注框的比例。P和R的计算公式分别如下式(14-15)，其中TP表示正类被识别为正类的样本个数，FP表示正类被识别为负类的样本个数，FN表示负类被识别为负类的样本个数。

平均精度(Average Precision,AP)、平均精度均值(mean Average Precision,mAP)是衡量目标检测模型优劣的重要指标，其计算公式分别如下式(16-17)。式中AP为PR曲线围成的面积，其中PR曲线代表的是精准率与召回率的关系；mAP为足踢、抛扔和踩踏三类平均精度的均值。

(4)实验结果与分析

(i)消融实验

为验证网络修改的有效性，将网络的改进依次对比如表4。其中，base为未改进得YOLOv5基础版本；改进1为即将C3模块修改为GhostC3模块；改进2为将Conv模块修改为LAconv模块；改进3为将GIOU损失函数修改为CIOU损失函数。

表4消融实验对比图

由上表4可知，本发明方法mAP最高且值为96.1％，参数量最小为3.67M，改进1的检测速度最快为16.7ms。改进1相对于base版本mAP降低1.6％，参数量降低1.98M，检测时间降低3.6ms；改进2相对于base版本mAP提高2.1％，参数量降低1.02M，检测时间增加2.6ms；改进3相对于base版本mAP提高1％，参数量降低相同，检测时间增加0.3ms；本发明方法相较于base版本mAP提高1.6％，参数量降低3.02％，检测时间降低0.5ms。由此可见，本发明方法在mAP和参数量明显优于base版本和其他改进方法，本发明方法针对复杂高噪声图片有效提高了算法效果。

(ii)对比实验

为更好的展示改进后网络模型的优势，采用相同的违规操作数据集在相同的实验环境下进行训练，训练结果表5可知：

(1)在识别精度方面，本发明方法检测的mAP为96.1％，高于YOLOv3-tiny、YOLOx-tiny、YOLOv3、YOLOv3-spp、SSD、Centernet、YOLOv5分别为14.3％、3.5％、6.7％、5.8％、7％、5.7％、1.6％；

(2)在参数量大小方面，本发明方法的参数量为3.67M，低于YOLOv3-tiny、YOLOx-tiny、YOLOv3、YOLOv3-spp、SSD、Centernet、YOLOv5分别为1.17M、4.6M、54.67M、55.45M、20.86M、28.04M、3.02M。

(3)在检测速度方面，本发明方法单张图片的检测速度为19.8ms,低于YOLOv3、YOLOv3-spp、SSD、Centernet、YOLOv5分别为62.5ms、68.5ms、73.2ms、59ms、0.5ms,比YOLOv3-tiny、YOLOx-tiny的检测速度略高6.9ms、5.7ms。

(4)在单类违规操作的识别精度方面本发明方法足踢检测的mAP高于YOLOv3-tiny、YOLOx-tiny、YOLOv3、YOLOv3-spp、SSD、Centernet分别为15.7％、5.6％、8.9％、6.9％、9.6％、5.4％，但mAP略低于YOLOv5算法2.6％。本发明方法抛扔检测的mAP高于YOLOv3-tiny、YOLOx-tiny、YOLOv3、YOLOv3-spp、SSD、Centernet、YOLOv5分别为18.8％、3.2％、4.6％、4.3％、9.3％、6.9％、5.4％。本发明方法踩踏检测的mAP高于YOLOv3-tiny、、YOLOv3、YOLOv3-spp、SSD、Centernet、分别为6.7％、5％、4.5％、0.03％、3％。

经过本发明方法与YOLOv3-tiny、YOLOx-tiny、YOLOv3、YOLOv3-spp、SSD、Centernet、YOLOv5在mAP、单张图片检测速度、模型参数量和单类违规操作识别精度的对比，本发明方法的mAP最高且值为96.1％，单类违规操作识别精度除足踢外其他普遍高于其他算法，参数量最小且值为3.67M，且单张图片检测速度略高于YOLOv3-tiny、YOLOx-tiny，检测速度为19.8ms。因此本发明的网络结构在面向复杂高噪图片取得了优异的检测效果，在保证mAP提高的前提下，有效降低了模型参数量和检测速度。

表5单类检测结果对比表

/>