CN115661932A

CN115661932A - 一种垂钓行为检测方法

Info

Publication number: CN115661932A
Application number: CN202211342790.2A
Authority: CN
Inventors: 牛小芳; 江龙; 张磊; 冯鑫; 王亚涛
Original assignee: Beijing Tongfang Software Co Ltd
Current assignee: Beijing Tongfang Software Co Ltd
Priority date: 2022-10-31
Filing date: 2022-10-31
Publication date: 2023-01-31

Abstract

一种垂钓行为检测方法，涉及人工智能领域和计算机视觉领域。本发明检测方法包括训练过程和预测过程，其中的训练过程分为检测模型训练与ReID模型训练。对于检测模型训练的方法：收集样本形成训练数据；对训练数据进行数据增强的操作；将增强后的数据送入网络进行特征提取；生成边界框并预测类别；计算网络输出与真实标签之间的误差得到损失值，并完成误差的反向传播更新参数。同现有技术相比，本发明方法基于深度学习，将特征增强策略引入训练过程，并融合Transformer和卷积神经网络提取鱼竿与人的特征，最后结合行人重识别模型使用多帧特征进一步判断垂钓行为与垂钓时长，本发明能更好地选择数据增强的样本，提取更合理的特征，同时有效提高检出效率。

Description

一种垂钓行为检测方法

技术领域

本发明涉及人工智能领域和计算机视觉领域，是一种应用于水域摄像头监控视频场景下的基于特征增强与深度自注意力变换网络(Transformer)的垂钓行为检测方法。

背景技术

垂钓是一项深受大众喜爱的休闲活动，但是出于安全考虑以及管理需要，部分区域禁止垂钓。为了限制水域场景下不文明、违规的垂钓行为，目前对于违法人员垂钓行为检测的研究大多通过人眼主观判断是否有违法垂钓行为产生，这种方法主要是工作人员通过监控视频或者现场巡视发现，耗费了大量的人力、物力资源。

基于视频图像的违法人员垂钓行为检测方法速度快且部署方便，在监控视频画面中检测到违法人员垂钓行为时，播放语音警告，并将检测画面发送给监控管理人员，不仅节省了大量的人力，物力资源，也在河长制全面推行过程中具有巨大的应用价值。在通过监控视频进行非法人员垂钓检测方面，公开的研究成果较少。

现有技术中，垂钓行为的检测方法基本可以分为两大类。一是基于传统机器学习的违法人员垂钓行为检测；另一类是基于深度学习的违法人员垂钓行为检测。对于传统机器学习的违法人员垂钓行为检测主要是通过直线检测从而判断是否有垂钓行为发生。由于摄像机拍摄的户外场景通常比较宽阔，实际的河流区域场景千差万别，河流边的树枝，堤岸边缘等非常多物体都可能被直线检测算法检测成鱼竿，对我们的鱼竿检测造成巨大的干扰。对于深度学习的垂钓行为检测，鱼竿在视频图像中比较细小，直接利用深度学习方法对鱼竿等细小目标的检测效果有待提高，并且仅检测到鱼竿与人就确定存在垂钓行为，误报率较高。

发明内容

针对上述现有技术中存在的不足，本发明的目的是提供一种基于特征增强与Transformer的垂钓行为检测方法。本发明方法基于深度学习，将特征增强策略引入训练过程，并融合Transformer和卷积神经网络(CNN)提取鱼竿与人的特征，最后结合行人重识别(ReID)模型使用多帧特征进一步判断垂钓行为与垂钓时长，本发明能更好地选择数据增强的样本，提取更合理的特征，同时有效提高检出效率。

为了达到上述发明目的，本发明的技术方案以如下方式实现：

一种垂钓行为检测方法，它的方法步骤为：所述检测方法包括训练过程和预测过程，其中的训练过程分为检测模型训练与ReID模型训练。对于检测模型训练的方法，

(1)收集正常天气场景下的样本形成训练数据，并标注所有的垂钓目标人和鱼竿；

(2)对训练数据进行数据增强的操作；

(3)将增强后的数据送入带有注意力机制的网络进行特征提取，并对特征数据做增强操作；

(4)通过检测网络对图像特征进行预测，生成边界框并预测类别；

(5)计算网络输出与真实标签之间的误差得到损失值，并完成误差的反向传播更新参数。

对于ReID模型的训练，将标注的垂钓目标人送入快速行人重识别(fast-ReID)网络进行训练，形成检测模型和ReID多帧模型。

其中的预测过程，采用前向计算方式，首先将数据送入检测模型，检测出的结果送入ReID模型中，计算垂钓时间，减少垂钓的误检。

本发明由于采用了导航树方法，结合目标检测任务本身特点以及真实数据集情况，从特征增强与Transformer入手，设计了一个特征增强模块与融合Transformer与CNN的注意力机制模块，然后利用所提取的特征进行目标检测。同现有技术相比，本发明具有如下有益效果：

1. 提出切片混淆增强(Crop-Mixup)模块对特征进行增强，有效地剔除因数据增强造成的冗余特征，加快模型收敛速度，提高模型训练效率；

2. 融合Transformer与CNN获取全局特征，使模型更好地理解样本特征，提高模型准确率；

3. 结合ReID模块进行多帧检测，计算垂钓时间，减少检测模型单帧误检率。

下面结合附图和具体实施方式对本发明做进一步说明。

附图说明

图1为本发明实施例中网络结构Trans-YOLOv5的检测算法结构图；

图2为现有技术中Mixup的数据处理流程图；

图3为本发明实施例中改进Crop-Mixup的数据处理流程图；

图4为本发明实施例中改进Crop-Mixup的结构示意图；

图5为本发明实施例中Backbone模块的结构示意图；

图6为现有技术中特征融合网络PANet的方法流程图；

图7为本发明实施例中BIFPN的方法流程图；

图8为本发明实施例中预测过程的算法流程图。

具体实施方式

本发明基于特征增强与Transformer的垂钓行为检测方法，它包括训练过程和预测过程，其中的训练过程分为检测模型训练与ReID模型训练。对于检测模型训练的方法步骤为：

1. 数据收集、标注

数据收集主要为正常天气场景，户外河岸场景下的垂钓样本，样本种类尽可能多，背景尽可能多变，这里的正常天气场景指的是除雨天、雾天、雪天等其他相关恶劣天气场景，原因是在一些非正常天气下不易发生垂钓事件，收集此类天气场景样本对于本技术方案而言没有意义。

数据标注以矩形框的形式标注所有的人，以及鱼竿。标注框中应尽可能少的包含背景以及除人、鱼竿之外的干扰物体，以免特征提取过程中提取到垂钓外的无关信息特征，进而影响算法对垂钓行为的检测效果。

2．数据预处理以及网络模块设计

在网络模块设计中，检测算法通常包括提取特征训练(Backbone)，整合收集特征(Neck)以及目标检测(Head)等结构，本发明设计了一种新的网络结构Trans-YOLOv5，如图1所示。

2.1 数据预处理

考虑到水域真实场景样本有限，网络学习到的空间不变形，像素级别不变形等特征都有限，利用平移，缩放，旋转，改变色调值等数据增强方法，让模型训练各种类型的数据，提高模型在测试数据上的判别力。

本发明在数据预处理中选择两种数据增强(Data Augmentation)方式，一是一系列的原子线性变换的复合，主要包括：中心(Center)、视角(perspective)、平移(Translation)、缩放(Scale)、旋转(Rotation)、剪切(Shear)。二是提出的Crop-Mixup特征增强，对原始混淆增强(Mixup)方法进行改进，在CNN后进行特征增强。

原始YOLOv5采用Mixup作为数据增强，在数据预处理阶段和线性变换等数据增强方式一起在网络结构前对数据进行处理，如图2所示。本发明改进的Crop-Mixup处理流程，如图3所示。

由于Mixup无法保证合成图片的语义信息，合成出的图片信息往往不能被网络正确理解，于是增加mix-rate参数，增加原图像比例。同时为保证数据的充分混合，把一个批次(batch)数据分为三个最小批次(minbatch)，使网络的输入有更多的特征排列方式，具体实现过程如图4所示。

参看图4，特征图(feature map)根据batch分为三个模块：(1)未经过Mixup部分，大小为(1-mix_rate)×batch_size；(2)经过Mixup混合的特征图，大小为mix_rate×batch_size×

；(3)与第(2)模块相同，大小为mix_rate×batch_size×

。

在(2)模块与(3)模块经过Mixup操作后，相加混合后再将混合后的特征图与(1)模块相加，形成最终的数据增强特征图。其中mix_rate为混合率，此处选0.2。Mixup操作如下式(1)、式(2)和式(3)所示：

(1)

(2)

(3)

其中，

是一个batch的样本，

是该batch样本对应的标签；

是另一个batch的样本，

是该batch样本对应的标签；

是由参数

，

的贝塔分布计算出来的混合系数。

为混合后的样本，

是混合后样本对应的标签。

2.2 Backbone主干网络

在Backbone主干网络中，考虑到CNN具有平移不变性和局部性，缺乏全局建模的能力，于是引入自然语言处理领域的框架Transformer来形成CNN+Transformer 架构。充分结合两者的优点，对自然场景下小目标以及密集预测任务会有一定的提升效果。Backbone模块结构如图5所示。

首先，输入图像经过4×4大小的卷积和Layer Norm后，特征图的形状(shape)从(H，W，3)变为(H/4，W/4，C)。

Patch Merging：降采样操作，将特征图shape降采样一倍，通道数翻倍。主要通过切片操作，并将各特征层拼接与像素通道维度做Layer Norm操作。所以，特征图经过Stage1，Sage2以及Stage3后，特征图大小分别为(H/8，W/8，2C)，(H/16，W/16，4C)以及(H/32，W/32，8C)。

Transformer Block：Transformer Block为Swin Transformer Block中的窗口多头自注意力(W-MSA)和滑动窗口多头自注意力(SW-MSA)。W-MSA与SW-MSA配合使用，上一层使用W-MSA后下一层就使用SW-MSA模块。Swin Transformer Block并不改变特征图的shape。W-MSA与SW-MSA配合使用实现了窗口与窗口之间的通信，从而达到了全局建模的效果。

2.3 Neck特征融合网络以及Head检测头

Neck为在backbone和head之间会插入的一些网络层，用来收集不同的特征图。通常，一个Neck由多个bottom-up路径和top-down路径组成。考虑水域真实场景中垂钓目标因为距离视频设备远近不同，导致目标大小差异较大，原始YOLOv5中特征融合网络PANet，如图6所示。只是简单地上采样后将特征相加，没有考虑不同分辨率特征贡献程度的差异，因此使用BIFPN，如图7所示，引入可学习权重去学习不同输入特征的重要性。

3．损失函数

在本发明中，损失函数除了定位损失、目标置信度损失和分类损失外，还包括Crop-Mixup损失，如式(4)所示。

(4)

其中，

为分类损失，采用带sigmoid的二进制交叉熵函数BCEWithLogitsLoss，只计算正样本的分类损失；

为目标置信度损失，采用带sigmoid的二进制交叉熵函数BCEWithLogitsLoss，计算所有样本的obj损失，这里的obj指的是网络预测的目标边界框与GT(真实人工标注结果)的CIoU；

定位损失，采用CIoU loss，只计算正样本的定位损失。

，

，

为损失比例。

为Crop-Mixup特征增强损失函数，如下式(5)、式(6)所示。

(5)

(6)

其中， x表示样本，y表示标签，p表示预测标签。

本发明方法中，ReID模型的训练采用fast-ReID网络结构，将标注的垂钓目标人送入fast-ReID网络进行训练，形成检测模型和ReID多帧模型。

本发明方法中的预测过程采用前向计算方式，首先将数据送入检测模型，检测出的结果送入ReID模型中，计算垂钓时间，减少垂钓的误检。算法整体流程如图8所示。

上述仅是本发明方法的一个实例，对于其他类似方案的替代也应该属于本发明的保护范围，如：

1. 本发明使用的YOLOv5基础检测网络，不局限于YOLOv5一种，可替代为其他的检测网络；

2. 本发明提出的方法，不局限于水域场景违法人员垂钓检测，可替换为其他城市场景检测等相关应用领域。