CN114463686B

CN114463686B - 基于复杂背景下的移动目标检测方法和系统

Info

Publication number: CN114463686B
Application number: CN202210371385.7A
Authority: CN
Inventors: 孙自伟; 华泽玺
Original assignee: Sichuan Durui Sensing Technology Co ltd; Southwest Jiaotong University
Current assignee: Sichuan Durui Sensing Technology Co ltd; Southwest Jiaotong University
Priority date: 2022-04-11
Filing date: 2022-04-11
Publication date: 2022-06-17
Anticipated expiration: 2042-04-11
Also published as: CN114463686A

Abstract

本发明涉及基于复杂背景下的移动目标检测方法和系统，包括步骤：粗检阶段：将连续5帧视频图像输入由ConvLSTM网络和YOLO4网络组成的粗检模型中，其中ConvLSTM网络捕获运动信息，YOLO4网络利用含有运动信息的特征图定位目标在每一帧中的空间维度位置；细检阶段：利用目标跟踪法跟踪粗检阶段得到的目标在连接5帧图像上的空间维度位置，并获取最小外切矩形后裁剪得到5张图像，将5张图像融合构成一个15通道的图像后输入细检模型中，经过细检得到最终检测结果。本发明分为粗检阶段和细检阶段，两阶段充分利用了移动小目标的运动信息，来提高复杂背景下移动小目标检测的精度，减少了误报漏报，减轻了人工介入的程度。

Description

基于复杂背景下的移动目标检测方法和系统

技术领域

本发明涉及移动小目标检测技术领域，特别涉及一种基于复杂背景下的移动目标检测方法和系统。

背景技术

对于复杂背景下的移动小目标的检测，目前的方法概括起来主要有三种：

第一种可以归为基于背景的方法。这一类主要有直接对背景建模的，运用背景差的方法得到运动目标前景，但是背景随光强和其他扰动变化复杂，提取到的运动目标前景效果不好。还有运用鲁棒性主成分分析法(RPCA)，直接分理处低秩矩阵（背景）和稀疏矩阵（噪声前景），但是在实际情况下，图像会受到一定程度的光强变化、遮挡、平移等干扰，这些因素也可以看做是一个噪声矩阵，从而影响运动目标的精度。实际上这类方法无法检测静止的目标。

第二种可以归为基于单帧图片的检测方法。这种方法是通用的目标检测方法，对于复杂环境下的小目标，其目标特征信息少，一般情况下与环境较为相似，因此基于单帧图片的检测方法效果较差。

第三种可以归为传统的基于运动信息的检测方法。这类方法主要是使用一个循环神经网络后接一个目标检测网络来检测，但是这类方法在处理较多运动小目标时，顾此失彼，显得无法集中注意力，要么出现很多漏检，要么出现很多误检的情况。

因此，基于运动信息对于复杂背景下的移动小目标检测（如老鼠、飞鸟等），一般监控区域面积较大，入侵异物较小，使用人工方式进行排查时，不仅成本高，而且人的精力有限很难保证排查精度。如果使用现有的检测算法，要么精度低，要么效率低。

发明内容

本发明的目的在于改善复杂背景下小目标检测的精度和效率，提供一种基于复杂背景下的移动目标检测方法和系统。

为了实现上述发明目的，本发明实施例提供了以下技术方案：

基于复杂背景下的移动目标检测方法，包括以下步骤：

步骤S1，粗检阶段：将连续5帧视频图像依次输入由ConvLSTM网络和YOLO4网络组成的粗检模型中，其中ConvLSTM网络捕获运动信息，YOLO4网络利用含有运动信息的特征图定位目标在每一帧中的空间维度位置；

步骤S2，细检阶段：利用目标跟踪法跟踪粗检阶段得到的目标在连续5帧图像上的空间维度位置，获取5个空间维度位置的最小外切矩形并裁剪得到5张图像，将5张图像融合构成一个15通道的图像后输入细检模型中，经过细检得到最终检测结果。

所述粗检模型中的ConvLSTM网络，其融合历史状态

和当前输入状态

的方式为先将历史状态

和当前输入状态

进行连接操作，再进行卷积：

式中，

为t时刻的细胞状态，细胞状态中存储了与运动信息相关的信息；

为t时刻输入层状态，表示某一帧视频图像经过卷积后的状态；

表示t时刻输入门控制信号，

表示t时刻遗忘门控制信号；

为融合输入信息和上一时刻细胞状态信息的卷积权重，卷积权重

是可学习的。

所述ConvLSTM网络嵌入YOLO4网络的主干网络CSPDark53的第二层与第三层之间；且将YOLO4网络的每个输出尺寸扩大一倍。

所述粗检阶段具体包括以下步骤：

步骤S1-1：将连续5帧视频图像进行预处理后得到粗检模型的输入

，将其输入依次输入主干网络CSPDark53的第一层和第二层，得到

，有

，其中i=1,2,3,4,5，

表示主干网络CSPDark53的前两层；

步骤S1-2：将

依次输入到ConvLSTM网络中，得到包含运动信息的特征矩阵

，有

，其中i=1,2,3,4,5，

；

步骤S1-3：将特征矩阵

输入YOLO4网络的后续结构中，输出得到目标的类别和空间维度位置的预测矩阵{R}，有

；

步骤S1-4：将预测矩阵{R}输入YOLO4的后处理中，得到连续5帧视频图像中每帧的目标类别和空间维度位置：

有：

。

所述细检阶段具体包括以下步骤：

步骤S2-1：利用目标跟踪法跟踪粗检阶段得到的目标，获取同一目标在连续5帧图像上的空间维度位置信息

；

；

步骤S2-2：根据同一目标在5帧图像上的空间维度位置，获取5个空间维度位置的最小外切矩形

，有

；

步骤S2-3：使用该最小外切矩形

分别裁剪对应的连续5帧图像{f₁,f₂,f₃,f₄,f₅}，得到包含该目标运动区域的5张截图

，有

，其中i=1,2,3,4,5；

如果最小外切矩形

中还有其他目标，则使用黑色矩形框将其覆盖，得到覆盖其他目标后的5张截图

；如果最小外切矩形

中没有其他目标，则

，有

，其中i=1,2,3,4,5；

步骤S2-4：将处理后的5张截图

融合在一起，构成一个W*H*15的矩阵

，其中W为裁剪图像的宽，H为裁剪图像的高，15表示由5张3通道图像组成而成的15通道，有

；

步骤S2-5：对矩阵

进行resize和归一化的预处理，得到矩阵

，有

；

步骤S2-6：将

输入细检模型中，经过细检得到检测结果。

所述步骤S2-6具体包括以下步骤：

步骤S2-6-1：将

输入由MobilenetV2网络和YOLO检测头组成的细检模型中，输出得到预测第3帧目标的类别和空间维度位置的矩阵

；

步骤S2-6-2：将矩阵

输入细检模型的后处理中，得到第3帧目标的类别和空间维度位置

，有

；

步骤S2-6-3：将细检阶段得到的结果

通过映射矩阵{W}，映射到原始视频图像帧中，得到最终检测结果

，有

。

所述目标跟踪法为Sort算法或DeepSort算法。

在所述粗检阶段之前还包括训练粗检模型的步骤：

收集含有移动目标的视频，将视频解析为连续的图像帧；使用标注软件对每一帧图像中目标的类别和空间维度位置进行标注，形成该帧图像的空间维度位置标签；

将连续5帧图像及其对应的空间维度位置标签输入到粗检模型训练框架中，训练基于运动信息的粗检模型；待训练至Loss收敛后，固定粗检模型权重得到基于运动信息的粗检模型。

在所述细检阶段之前还包括训练细检模型的步骤：

将含有单一目标的连续5帧图像运动区域的截图及其对应的第3帧图像的空间维度位置标签输入细检模型训练框架中，训练基于运动信息的细检模型；待训练至Loss收敛后，固定细检模型权重得到基于运动信息的细检模型。

基于复杂背景下的移动目标检测系统，包括：

粗检模型，将连续5帧视频图像依次输入由ConvLSTM网络和YOLO4网络组成的粗检模型中，其中ConvLSTM网络捕获运动信息，YOLO4网络利用含有运动信息的特征图定位目标在每一帧中的空间维度位置；

细检模型，利用目标跟踪法跟踪粗检阶段得到的目标在连接5帧图像上的空间维度位置，获取5个空间维度位置的最小外切矩形并裁剪得到5张图像，将5张图像融合构成一个15通道的图像后输入细检模型中，经过细检得到最终检测结果。

与现有技术相比，本发明的有益效果：

本发明充分分析对复杂环境下的移动小目标识别的方法，将其分为粗检阶段和细检阶段两个阶段，首先根据运动信息发现哪些位置存在目标，然后再集中注意力对存在目标的地方进行观察，两阶段充分利用了移动小目标的运动信息，来提高复杂背景下移动小目标检测的精度，减少了误报漏报，减轻了人工介入的程度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明粗检阶段流程图；

图2为本发明细检阶段流程图；

图3为本发明粗检阶段训练流程图；

图4为本发明细检阶段训练流程图；

图5为传统ConvLSTM网络结构示意图；

图6为本发明ConvLSTM网络结构示意图；

图7为传统YOLO4网络结构示意图；

图8为本发明YOLO4网络结构示意图；

图9为本发明细检模型结构示意图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“YOLO4”指的是YOLO4作为目标检测算法，“YOLO4网络”指的是YOLO4网络的结构。

实施例：

本发明通过下述技术方案实现，如图1、图2所示，基于复杂背景下的移动目标检测方法，包括两个阶段，分别是粗检阶段和细检阶段。在粗检阶段，将连续5帧视频图像输入粗检模型，得到目标在每一帧中的空间维度信息；在细检阶段，跟踪目标并融合图像，将融合后的图像输入细检模型，得到精确的检测结果。

步骤S1，粗检阶段：将连续5帧视频图像依次输入由ConvLSTM网络和YOLO4网络组成的粗检模型中，其中ConvLSTM网络捕获运动信息，YOLO4网络利用含有运动信息的特征图定位目标在每一帧中的空间维度位置。

请参见图3，在所述粗检阶段之前还包括训练粗检模型的步骤：

1）收集含有移动小目标（如小鸟、小老鼠等）的视频，将视频解析为连续的图像帧；使用标注软件对每一帧图像中目标的类别和空间维度位置进行标注，形成该帧图像的空间维度位置标签；

2）将连续5帧图像及其对应的空间维度位置标签输入到粗检模型训练框架中，训练基于运动信息的粗检模型；

3）待训练一定的步长或损失收敛后，固定粗检模型权重参数得到基于运动信息的粗检模型。

本方案所使用的ConvLSTM网络和YOLO4网络都进行了改进，传统的ConvLSTM网络如图5所示，融合历史状态

和输入状态

时，是将这两者“相加”，即

，但这样可能会有信息损失。

而ConvLSTM网络进行改进后，请参见图6，先将历史状态

和当前输入状态

进行Concat，再进行卷积，以完成历史状态

和当前输入状态

的融合，即

，这种方式能够更加灵活地融合不同状态的信息。

请继续参见图6，其中

为t时刻的输入，

为t时刻的隐藏层状态，

为t-1时刻的隐藏层状态；Concat为连接操作；

、

分别为输入卷积权重及其对应的偏置，

、

分别为输入门卷积权重及其对应的偏置，

、

分别为遗忘门卷积权重及其对应的偏置，

、

分别为输出门卷积权重及其对应的偏置；tanh为tanh函数；

为sigmoid函数；

为t时刻的细胞状态（长期记忆），

为t-1时刻的细胞状态，细胞状态中存储了与运动信息相关的信息；

为t时刻输入层状态（短期记忆），表示某一帧视频图像经过卷积后的状态；

表示t时刻输入门控制信号，

表示t时刻遗忘门控制信号，

表示t时刻输出门控制信号；

是可学习的；符号“×”表示乘法逻辑门，符号“+”表示加法逻辑门。

请参见图7为传统的YOLO4网络的结构，包括依次连接的主干网络CSPDark53、颈部网络、检测头(Head)，所述颈部网络包括空间金字塔池化(Spatial Pyramid Pooling,SPP)+卷积层、特征金字塔网络(Feature Pyramid Network, FPN)、路径增强网络(PathAugmentation Network, PAN)，YOLO4网络具有三个输出，输出尺寸分别为76*76、38*38、19*19。

请参见图8，YOLO4网络的改进是将前述改进后的ConvLSTM网络嵌入主干网络CSPDark53的第二层和第三层之间，为了更好的适应小目标，将YOLO网络的三个输出尺寸扩大了一倍，即分别为152*152、76*76、38*38。

请参见图1，在粗检阶段进行时，将连续5帧视频图像进行预处理后得到粗检模型的输入

，将其输入依次输入主干网络CSPDark53的第一层和第二层，也就是YOLO4网络的前两层特征提取器，得到

，有

，其中i=1,2,3,4,5，

表示主干网络CSPDark53的前两层。

然后将

依次输入到改进的ConvLSTM网络中，得到包含运动信息的特征矩阵

，有

，其中i=1,2,3,4,5，

。

接着将特征矩阵

。

最后将预测矩阵{R}输入YOLO4网络的后处理中（即YOLO4网络的后网络），得到连续5帧视频图像中每帧的目标类别和空间维度位置：

有：

。

步骤S2，细检阶段：利用目标跟踪法跟踪粗检阶段得到的目标在连接5帧图像上的空间维度位置，获取5个空间维度位置的最小外切矩形并裁剪得到5张图像，将5张图像融合构成一个15通道的图像后输入细检模型中，经过细检得到检测结果。

请参见图4，在细检阶段之前还包括训练细检模型的步骤：

1）准备两种类型数据，一种是含有目标的正样本，另一种是不含目标的负样本；针对正样本利用训练粗检阶段所标注的数据，运用目标跟踪法确定每个目标在连续5帧图像中的空间维度位置；

2）获取5帧图像中空间维度位置的最小外切矩形，根据最小外切矩形裁剪得到5张截图；如果该最小外切矩形中还有其他目标，则使用黑色矩形框将其覆盖，以保证裁剪出来的图像中只有一个目标；

3）将5张截图融合在一起，以融合运动信息，构成一个W*H*15的矩阵图像，其中W为裁剪图像的宽，H为裁剪图像的高，15表示由5张3通道图像组成而成的15通道；

4）通过对应关系获取第3帧截图上目标的空间维度位置信息，得到正样本位置标签；然后使用步骤1）~步骤3）对粗检阶段的正确检测结果进行处理，以扩充训练细检模型的正样本；

5）针对负样本使用相同的最小矩形框分别裁剪连续5帧图像，同样将裁剪的5张截图融合在一起，构成一个W*H*15的矩阵图像；然后使用步骤1）~步骤3）的方法对粗检阶段的错误检测结果（比如没有目标但检测为有目标结果）进行处理，以扩充训练细检阶段的正样本图像。

6）将含有单一目标的连续5帧图像运动区域的截图及其对应的第3帧图像的空间维度位置标签输入细检模型训练框架中，训练基于运动信息的细检模型；待训练一定的步长或损失收敛后，固定细检模型权重参数得到基于运动信息的细检模型。

请参见图2，利用目标跟踪法跟踪粗检阶段得到的目标，获取同一目标在连续5帧图像上的空间维度位置信息

，所述目标跟踪法包括但不限于Sort算法、DeepSort算法，有：

然后根据同一目标在5帧图像上的空间维度位置，获取5个空间维度位置的最小外切矩形

，有

；使用该最小外切矩形

，有

，其中i=1,2,3,4,5。

如果最小外切矩形

；如果最小外切矩形

中没有其他目标，则

，有

，其中i=1,2,3,4,5。

接着将处理后的5张截图

融合在一起，构成一个W*H*15的矩阵

。对矩阵

进行resize和归一化的预处理，得到矩阵

，有

。

然后将

输入细检模型中，经过细检得到检测结果。在粗检阶段会得到较多的疑似有移动目标的区域，为了保证检测速度，请参见图9，所述细检模型是由MobilenetV2网络和YOLO检测头网络组成的轻量级模型，使用MobilenetV2网络作为特征提取器，由于细检阶段只检测一个目标，所以细检阶段的检测头使用了YOLO检测头，经过卷积预测目标类别(c表示目标类别的数量)和两个对角点坐标(x1,y1,x2,y2)。

将

输入细检模型中，输出得到预测第3帧目标的类别和空间维度位置的矩阵

。最后将矩阵

输入细检阶段的后处理中，得到第3帧目标的类别和空间维度位置

，有

。将细检阶段得到的结果

，有

。

本发明为实现上述方法，还提出一种基于复杂背景下的移动目标检测系统，包括粗检模块、细检模型，将连续5帧视频图像依次输入由ConvLSTM网络和YOLO4网络组成的粗检模型中，其中ConvLSTM网络捕获运动信息，YOLO4网络利用含有运动信息的特征图定位目标在每一帧中的空间维度位置。利用目标跟踪法跟踪粗检阶段得到的目标在连接5帧图像上的空间维度位置，获取5个空间维度位置的最小外切矩形并裁剪得到5张图像，将5张图像融合构成一个15通道的图像后输入细检模型中，经过细检得到最终检测结果。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。