CN115410060B

CN115410060B - 面向公共安全视频的全局感知小目标智能检测方法

Info

Publication number: CN115410060B
Application number: CN202211353463.7A
Authority: CN
Inventors: 高赞; 纪威; 李传森; 郝敬全; 刘大扬; 张蕊
Original assignee: Shandong Zhonglian Audio Visual Information Technology Co ltd; Qingdao Haier Smart Technology R&D Co Ltd; Taihua Wisdom Industry Group Co Ltd; Shandong Institute of Artificial Intelligence
Current assignee: Shandong Zhonglian Audio Visual Information Technology Co ltd; Qingdao Haier Smart Technology R&D Co Ltd; Taihua Wisdom Industry Group Co Ltd; Shandong Institute of Artificial Intelligence
Priority date: 2022-11-01
Filing date: 2022-11-01
Publication date: 2023-02-28
Anticipated expiration: 2042-11-01
Also published as: CN115410060A

Abstract

本发明属于目标检测与识别技术领域，本发明提供了一种面向公共安全视频的全局感知小目标智能检测方法，包括以下步骤：图像线下预处理，样本平衡数据增强；构建模型网络结构；构建模型损失函数：在分类损失和置信度损失采用交叉熵损失，在回归损失中对于原有的回归损失基础上加入角点距离损失；使用SC非极大值抑制方法保留有效检测框；输入待检测图像检验本方法模型有效性。本发明利用全局信息提高检测小目标物体的准确率和召回率，通过多重非极大值抑制保留有效锚框，解决了目前基于锚框目标检测中小目标物体难以检测，锚框难以匹配等诸多问题。

Description

面向公共安全视频的全局感知小目标智能检测方法

技术领域

本发明涉及一种面向公共安全视频的全局感知小目标智能检测方法，属于目标检测与识别技术领域。

背景技术

对于小目标的定义有很多，目前尚未有统一的标准，主要分为绝对尺度和相对尺度两种定义。绝对尺度小目标定义为像素值小于32×32像素的目标，相对尺度小目标定义为目标边界框的宽高与图像的宽高小于一定的比值，通常认为该比值为0.1。目标检测通用数据集COCO定义小目标为小于32×32个像素点的目标。

小目标检测在监控、空对地目标分析、行人检测、自动驾驶中交通信号检测等多种场景中具有重要的理论和现实意义。目前基于深度学习目标检测算法普遍对小目标不友好，小目标像素占比小、可利用特征少、样本数量不平衡、语义信息少、定位精度要求高、易聚集遮挡等问题，导致小目标检测一直是目标检测领域中的一大难点问题。

发明内容

本发明目的是提供了一种面向公共安全视频的全局感知小目标智能检测方法，通过全局特征与局部特征上下文信息解决小目标检测难题。

本发明为实现上述目的，通过以下技术方案实现：

一种面向公共安全视频的全局感知小目标智能检测方法，包括以下步骤：

步骤S1. 图像线下预处理，样本平衡数据增强：

S11.输入训练图像之前线下计算每个类别样本数量，找到最多样本数量的类，数量记为

；

S12.对除去

所有类图像样本做复制后随机增强，增强方法包括随机缩放后加入椒盐噪声、随机缩放后高斯模糊或随机缩放后直方图变换，将增强后的图像写到标注文件中；

步骤S2.构建模型网络结构:

需要搭建全局注意力网络与原方法骨干网络做特征融合，再添加P2检测层专用于检测小目标；

步骤S3.构建模型损失函数：

在分类损失和置信度损失采用交叉熵损失，在回归损失中对于原有的回归损失基础上加入角点距离损失；

步骤S4.使用SC非极大值抑制方法保留有效检测框；

步骤S5.输入待检测图像检验本方法模型有效性：

将测试图片输入到本方法模型中，再与标准标注信息做对比，指标采用目标检测通用评价指标mAP@0.5:0.95。

所述面向公共安全视频的全局感知小目标智能检测方法优选方案，样本平衡数据增强具体公式如下：

式中：

代表所有样本数量，

)代表随机在

与

区间取个数，用于随机改变图像大小，

代表类为n的样本数量，

表示三种随机方法中的一种数据增强方法。

所述面向公共安全视频的全局感知小目标智能检测方法优选方案，构建模型网络结构具体过程如下：

（1）搭建全局特征骨干网络提取全局特征

利用步骤S1数据增强后的图像裁剪或扩张成1536×1536×3大小，RGB图像经过Focus卷积将原图像通道数扩张到64，图像变为B×64×W/2×H/2，其中B为BatchSize大小；将经过Focus卷积的特征图再经过一次Conv卷积得到B×128×W/4×H/4特征图，再使用全局注意力GAM方法减少空间维度和通道维度的信息损失，放大全局维度交互特征，最终得到B×128×W/4×H/4特征图,将原方法骨干网络中卷积替换为空洞卷积，进一步增大感受野，提取全局特征；

（2）增加P2检测层

将得到包含全局信息的特征图，特征图经过4次普通卷积会形成多个特征图减小但通道维度增加的特征图，此时特征图为四层倒三角特征金字塔，利用第一个四层正三角金字塔得到的特征图再经过4次上采样和多次卷积会形成多个宽高逐步增加，通道信息逐步减小的特征图，此时形成4层正三角特征金字塔，分别连接特征图大小相同的4层正三角特征金字塔特征图和4层倒三角金字塔特征图，特征图大小分别为B×512×W/4×H/4、B×128×W/8×H/8、B×256×W/16×H/16、B×512×W/32×H/32，其中B×512×W/4×H/4特征图经过一层卷积得B×45×W/4×H/4特征图，该特征图作为检测网络中的P2层。

所述面向公共安全视频的全局感知小目标智能检测方法优选方案，采用二元交叉熵损失函数BCEWithLogitsLoss计算分类损失和置信度损失，具体计算公式如下：

上式中

代表模型预测出物体的数量

就表示每一个预测物体的置信度，

代表本方法模型预测是物体的概率，经过

函数可以将

映射到0到1区间，

代表是否为真实物体，如果不是真实物体

取0，否则

取1；

作用是算出预测是物体概率与真实物体之间差异；

定位损失采用本方法

损失，当预测框与真实框两中心点重合且两框宽高比例相同时也能反映两框之间的损失，它的基础原型是

损失，具体公式计算如下：

其中IoU为两个预测框的交并比，

为两框中心点的欧氏距离，

分别预测框左上、右上、左下、右下顶点，

分别代表真实框左上、右上、左下、右下顶点，考虑到了两框之间重叠面积、中心点距离、尺度对比，

最终Loss如下所示：

所述面向公共安全视频的全局感知小目标智能检测方法优选方案，步骤S4具体如下：

由步骤S4得到P2检测层，加上原方法的P3、P4、P5检测层共有四层检测层，在每个检测层分别预测，预测结果输入SC非极大值抑制方法中，

SC函数具体如下：

式中：

为经过SC非极大值抑制后的预测框得分，

为预测框初始得分，

为自然数，

为两个预测框的交并比，

为两框中心点的欧氏距离，

分别代表分数较低锚框左上、右上、左下、右下顶点，

分别代表得分较高预测框左上、右上、左下、右下顶点，考虑到了两框之间重叠面积、中心点距离、尺度对比。

所述面向公共安全视频的全局感知小目标智能检测方法优选方案，步骤S5具体过程如下：

a)训练得出最优权重，保存权重参数；

b）采集待检测图像，将图像拉伸或缩小到长为1536大小；

c）将图像输入到全局特征网络中，全局特征网络包括GAM注意力层、Conv卷积层、C3卷积层、上采样层以及SPP层；

d）按照全局特征网络结构顺序，GAM注意力层提取空间维度、通道维度、空间维度以及通道维度的特征，再将提取到的特征经过多个Conv与C3卷积层的模块形成多个长宽信息逐步变小的特征图，在经过上采样放大特征信息；

e）连接上采样和下采样长宽信息相同特征图，形成P2、P3、P4、P5检测层；

f）使用不同大小的锚框在每个检测层用滑动窗口的形式检测有无目标信息，若有给出目标类别信息、位置信息、得分信息,如果某个位置出现大量位置相近重复框，采用SC非极大值抑制算法保留有效框；

g）与标准标注信息做对比，指标采用目标检测通用评价指标mAP@0.5:0.95。

本发明的优点在于：

1）样本均衡数据增强平衡各类别图像数量差异，解决了训练偏差问题，提高模型的鲁棒性和泛化能力。

2）全局注意力机制提取图像全局特征，充分利用全局特征，提高小目标被检测到概率。

3）增加P2检测层检测小目标物体，不影响其他中、大目标的检测。

4）构建分类损失、置信度损失、定位损失，其中定位损失充分考虑到预测框与真实框形状和位置信息。

5）使用SC非极大值抑制方法保留有效检测框，过滤无效检测框。

6）本文发明的面向公共安全视频的全局感知小目标智能检测方法，在相关的小目标数据集中达到了优异的效果。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制；

图1为本方法的简要结构图；

图2中a、b、c为训练阶段边框损失、分类损失、物体得分损失曲线图， d、e、f为验证阶段的边框损失、分类损失、物体得分损失曲线图；

图3为原始模型与本方法的模型检测效果对比图，其中， a、b是原始模型检测的图片， c、d是本方法模型检测的图片；

图4中a、b、c、d分别为验证阶段准确率变化曲线、召回率变化曲线、mAP0.5变化曲线以及mAP0.5:0.95变化曲线；

图5为Baseline方法验证阶段PR曲线图；

图6为本方法验证阶段PR曲线图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

S1. 图像线下预处理，样本平衡数据增强各类别图像数量差异：

本发明创造了一种线下数据增强方式：样本平衡数据增强，在模型训练中，增加训练样本的数据量能够使模型的泛化能力和鲁棒性上升，现实中训练数据集样本数量往往不能满足实际训练的要求，针对这一缺点，本方法创造一种线下数据增强方式，具体过程如下：

；

S12.对除去

S2.构建模型网络结构:

S3.构建模型损失函数：

S4.使用SC非极大值抑制方法保留有效检测框；

S5.输入待检测图像检验本方法模型有效性：

本实施例中，样本平衡数据增强具体公式如下：

式中：

代表所有样本数量，

)代表随机在

与

区间取个数，用于随机改变图像大小，

代表类为n的样本数量，

表示三种随机方法中的一种数据增强方法。

本实施例中，为减少信息的损失和提高全局特征的交互，提高模型的性能构，建模型网络结构具体过程如下：

（1）搭建全局特征骨干网络提取全局特征

利用步骤S1数据增强后的图像裁剪或扩张成1536×1536×3大小，RGB图像经过Focus卷积将原图像通道数扩张到64，图像变为B×64×W/2×H/2，其中B为BatchSize大小；将经过Focus卷积的特征图再经过一次Conv卷积得到B×128×W/4×H/4(P2层)特征图，再使用全局注意力GAM方法减少空间维度和通道维度的信息损失，放大全局维度交互特征，最终得到B×128×W/4×H/4特征图,将原方法骨干网络中卷积替换为空洞卷积，进一步增大感受野，提取全局特征；

（2）增加P2检测层

针对AnchorBase目标检测器中检测层分辨率过低，缺失小目标特征信息问题设计P2检测层保留小目标特征信息，用来预测小目标物体，具体操作如下：将得到包含全局信息的特征图，特征图经过4次普通卷积会形成多个特征图减小但通道维度增加的特征图，此时特征图为四层倒三角特征金字塔，利用第一个四层正三角金字塔得到的特征图再经过4次上采样和多次卷积会形成多个宽高逐步增加，通道信息逐步减小的特征图，此时形成4层正三角特征金字塔，分别连接特征图大小相同的4层正三角特征金字塔特征图和4层倒三角金字塔特征图，特征图大小分别为B×512×W/4×H/4、B×128×W/8×H/8（P3层）、B×256×W/16×H/16（P4层）、B×512×W/32×H/32（P5层），其中B×512×W/4×H/4特征图经过一层卷积得B×45×W/4×H/4特征图，该特征图作为检测网络中的P2层。

本实施例中，采用二元交叉熵损失函数BCEWithLogitsLoss计算分类损失和置信度损失，具体计算公式如下：

上式中

代表模型预测出物体的数量

就表示每一个预测物体的置信度，

代表本方法模型预测是物体的概率，经过

函数可以将

映射到0到1区间，

代表是否为真实物体，如果不是真实物体

取0，否则

取1；

作用是算出预测是物体概率与真实物体之间差异；

定位损失采用本方法

损失，具体公式计算如下：

其中IoU为两个预测框的交并比，

为两框中心点的欧氏距离，

分别预测框左上、右上、左下、右下顶点，

最终Loss如下所示：

本实施例中，步骤S4具体如下：

SC函数具体如下：

式中：

为经过SC非极大值抑制后的预测框得分，

为预测框初始得分，

为自然数，

为两个预测框的交并比，

为两框中心点的欧氏距离，

分别代表分数较低锚框左上、右上、左下、右下顶点，

本实施例中，步骤S5具体过程如下：

a)训练得出最优权重，保存权重参数；

b）采集待检测图像，将图像拉伸或缩小到长为1536大小；

经过步骤一到五模型完成了训练，将模型的最优权重保存下来，为了证明本方法的有效性，在空地小目标数据集VisDrone2019上进行了实验，测试数据采用的是

，只有在最终1536×1536分辨率下采用的

，其余均采用

部分。实验的评价指标采用的是

。其中，

表示在不同IoU阈值（从0.5到 0.95，步长0.05）（0.5、0.55、0.6、0.65、0.7、0.75、0.8、0.85、0.9、0.95）上的平均准确率。在图2、图3中可看出，训练在第

验证损失接近最小，此时本方法已经收敛，取最优的权重测试。验证阶段PR曲线如图5所示，通过观察曲线可得知最终在1536×1536分辨率下 mAP0.5:0.95在

中可以到达35.72。在图3中可以看出本方法的模型对比

可以检测到更多的小目标，对比图5、图6中曲线约凸代表该类效果越好，比较可以说明了本方法的有效性。

表1为各种不同方法对整个模型的贡献，测试数据集采用

中的

部分，上述方法结合数据集采用的

中的

部分；

表一

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向公共安全视频的全局感知小目标智能检测方法，其特征在于，包括以下步骤：

步骤S1. 图像线下预处理，样本平衡数据增强：

；

S12.对除去

步骤S2.构建模型网络结构:

需要搭建全局特征骨干网络与原方法骨干网络做特征融合，再添加P2检测层专用于检测小目标；

步骤S3.构建模型损失函数：

步骤S4.使用SC非极大值抑制方法保留有效检测框；

步骤S5.输入待检测图像检验本方法模型有效性：

将测试图片输入到本方法模型中，再与标准标注信息做对比，指标采用目标检测通用评价指标mAP@0.5:0.95；

其中样本平衡数据增强具体公式如下：

式中：

代表所有样本数量，

)代表随机在

与

区间取个数，用于随机改变图像大小，

代表类为n的样本数量，

表示三种随机方法中的一种数据增强方法；

步骤S4具体如下：

由步骤S2得到P2检测层，加上原方法的P3、P4、P5检测层共有四层检测层，在每个检测层分别预测，预测结果输入SC非极大值抑制方法中，

SC函数具体如下：

式中：

为经过SC非极大值抑制后的预测框得分，

为预测框初始得分，

为自然数，

为两个预测框的交并比，

为两框中心点的欧氏距离，𝜎为默认参数0.5，

为两个预测框四个顶点的欧氏距离的平方，

为高斯加权，

分别代表分数较低锚框左上、右上、左下、右下顶点，

分别代表得分较高预测框左上、右上、左下、右下顶点，考虑到了两框之间重叠面积、中心点距离、尺度对比；

构建模型网络结构具体过程如下：

（1）搭建全局特征骨干网络提取全局特征

利用步骤S1数据增强后的图像裁剪或扩张成1536×1536×3大小，RGB图像经过Focus卷积将原图像通道数扩张到64，图像变为B×64×W/2×H/2，其中B为BatchSize即批尺寸大小；将经过Focus卷积的特征图再经过一次Conv卷积得到B×128×W/4×H/4特征图，再使用全局注意力GAM方法减少空间维度和通道维度的信息损失，放大全局维度交互特征，最终得到B×128×W/4×H/4特征图,将原方法骨干网络中卷积替换为空洞卷积，进一步增大感受野，提取全局特征；

（2）增加P2检测层

将得到包含全局信息的特征图，特征图经过4次普通卷积会形成多个特征图减小但通道维度增加的特征图，此时特征图为四层倒三角特征金字塔，利用第一个四层正三角金字塔得到的特征图再经过4次上采样和多次卷积会形成多个宽高逐步增加，通道信息逐步减小的特征图，此时形成4层正三角特征金字塔，分别连接特征图大小相同的4层正三角特征金字塔特征图和4层倒三角金字塔特征图，特征图大小分别为B×512×W/4×H/4、B×128×W/8×H/8、B×256×W/16×H/16、B×512×W/32×H/32，其中B×512×W/4×H/4特征图经过一层卷积得B×45×W/4×H/4特征图，该特征图作为检测网络中的P2层，B×128×W/8×H/8特征图对应于检测网络中的P3层、B×256×W/16×H/16特征图对应于P4层、B×512×W/32×H/32特征图对应于P5层；

采用二元交叉熵损失函数BCEWithLogitsLoss计算分类损失和置信度损失，具体计算公式如下：