CN112364855B

CN112364855B - 一种基于多尺度特征融合的视频目标检测方法及系统

Info

Publication number: CN112364855B
Application number: CN202110045666.9A
Authority: CN
Inventors: 刘晨; 杨涛
Original assignee: Beijing Telecom Easiness Information Technology Co Ltd
Current assignee: Beijing Telecom Easiness Information Technology Co Ltd
Priority date: 2021-01-14
Filing date: 2021-01-14
Publication date: 2021-04-06
Anticipated expiration: 2041-01-14
Also published as: CN112364855A

Abstract

本发明公开一种基于多尺度特征融合的视频目标检测方法及系统，方法包括首先将特征金字塔网络FPN网络应用到Faster R‑CNN所使用的骨干网络ResNet101中构建深度神经网络；然后将所述视频目标检测数据集依次输入深度神经网络中的骨干网络、多尺度特征融合结构、RPN网络和检测头进行训练以及验证，获得目标检测模型；最后将待检测的目标视频图像输入至目标检测模型进行预测，获得目标预测的类别和具体位置。本发明同时融合来自上层的高级语义特征和来自下层的细节特征，从而更加充分地获取目标特征信息，有效提高对视频目标的检测准确率。

Description

一种基于多尺度特征融合的视频目标检测方法及系统

技术领域

本发明涉及图像处理技术领域，特别是涉及一种基于多尺度特征融合的视频目标检测方法及系统。

背景技术

目标检测是指获取图像中所有感兴趣的目标，并给出目标的所在位置和所属类别。目标检测技术目前已在视频监控、自动驾驶以及军事侦察等多个民用及军用领域得到有效应用。近年来，随着深度学习的发展，基于卷积神经网络的目标检测算法得到专家学者的广泛研究并成为主流。但是视频中的目标检测仍存在许多问题有待解决，如:目标尺寸变化大、目标遮挡、计算时间成本高等，加之视频背景往往复杂多变，进而增加了检测难度，这使得视频目标检测成为目标检测领域的研究热点及难点。

卷积神经网络的浅层特征图分辨率较高，包含更多细节信息，而深层特征则有更丰富的语义信息。多尺度特征融合技术通过将网络浅层的细节特征与深层的语义特征相融合，可有效提升神经网络的特征提取能力，是提高目标检测精度的关键途径。但现有多尺度特征融合方法多采用自顶而下路径，如FPN(Feature Pyramid Networks)网络，仅融合来自相邻上一层的语义信息而忽略了来自其他层的语义和细节信息，使得深度神经网络难以充分提取到有利于目标精确定位和分类的特征信息，从而导致目标检测精度降低。

发明内容

基于此，本发明的目的是提供一种基于多尺度特征融合的视频目标检测方法及系统，以提高视频中目标检测的准确率。

为实现上述目的，本发明提供了一种基于多尺度特征融合的视频目标检测方法，所述方法包括：

步骤S1：构建视频目标检测数据集；所述视频目标检测数据集包括训练集和验证集；所述训练集包括第一设定张数的目标视频图像和对应的真实标注数据，所述验证集包括第二设定张数的目标视频图像和对应的真实标注数据；

步骤S2：将训练集输入深度神经网络进行训练，获得待验证的目标检测模型；所述深度神经网络包括骨干网络、多尺度特征融合结构、RPN网络和检测头；

步骤S2具体包括：

步骤S21：将所述训练集中的所述目标视频图像输入骨干网络进行训练，获得P_x层特征图，其中，

，G为删除特征图的个数，N为骨干网络中卷积模块的个数；

步骤S22：将P_x层特征图输入多尺度特征融合结构进行特征融合，获得F_x层特征图；

步骤S23：将F_x层特征图依次输入RPN网络和检测头进行预测，获得待验证的目标检测模型；

步骤S3：将验证集输入到待验证的目标检测模型进行验证，直到满足迭代条件，则输出目标检测模型；

步骤S4：获取待检测的目标视频图像；

步骤S5：将待检测的目标视频图像输入至目标检测模型进行预测，获得目标预测的类别和具体位置。

可选地，步骤S21具体包括：

将所述训练集中的所述目标视频图像输入到骨干网络中的第1个卷积模块进行卷积操作，获得C_1层特征图；

将第i-1个卷积模块输出的C_i-1层特征图输入至第i个卷积模块进行卷积操作，获得C_i层特征图, 其中，i为大于1且小于等于N的正整数；

将大于设定尺寸的特征图进行删除，获得小于或等于设定尺寸的特征图；

将小于或等于设定尺寸的特征图进行1×1的卷积操作；

将经过1×1卷积操作的C_N层特征图作为P_N层特征图；

将P_N层特征图进行2倍下采样，获得P_N+1层特征图；

将P_N-j层特征图进行2倍上采样，得到第一中间特征图；第一中间特征图的尺寸与经过1×1卷积操作的C_N-j-1层特征图的尺寸相同；

将第一中间特征图与经过卷积核为1×1卷积操作的C_N-j-1层特征图相加，获得P_N-j-1层特征图；其中，

，G为删除特征图的个数。

可选地，步骤S22具体包括：

将P_y层特征图进行3×3的卷积操作，其中，

；

对经过3×3的卷积操作的P_G+2层进行2倍上采样，得到第二中间特征图；所述第二中间特征图与经过3×3的卷积操作的P_ G+1层特征图的尺寸相同；

将第二中间特征图与经过3×3的卷积操作的P_G+1层特征图相加，得到F_ G+1层特征图；

将经过3×3的卷积操作的P_z-1层特征图进行最大池化操作，获得第三中间特征图；其中，

；当

时，第三中间特征图与经过3×3的卷积操作的P_z层特征图的尺寸相同；当z等于N时，第三中间特征图与P_N层特征图的尺寸相同；

将经过3×3的卷积操作的P_z+1层特征图进行2倍上采样，获得第四中间特征图；当

时，第四中间特征图与经过3×3的卷积操作的P_z层特征图的尺寸相同；当z等于N时，第四中间特征图与P_N层特征图的尺寸相同；

将第三中间特征图、第四中间特征图和经过3×3的卷积操作的P_z层特征图相加，获得F_z层特征图；

将P_N层特征图进行最大池化操作，获得第五中间特征图；第五中间特征图与P_N+1层特征图的尺寸相同；

将第五中间特征图与P_N+1层特征图相加，获得F_N+1层特征图。

可选地，步骤S23具体包括：

RPN网络分别在F_G+1～F_N+1层特征图上，采用尺寸为3×3的滑动窗口遍历各个特征图，生成多个锚框；

将大于第一设定阈值的所述锚框作为目标候选区域；

计算目标候选区域与训练集中真实标注区域的交并比；

选取交并比大于或等于第二设定阈值的目标候选区域作为目标区域；

根据

确定各目标区域对应的特征图的层数，其中，

，w和h分别表示目标区域的宽和高；

将各目标区域映射到F_v层特征图对应的ROI Pooling层上进行池化操作，输出统一大小为7×7的多个目标区域特征图，其中，

；

将各目标区域特征图分别输入两个全连接层进行预测，获得待验证的目标检测模型。

可选地，步骤S3具体包括：

利用训练损失函数计算训练损失值；

判断训练损失值是否小于或等于第四设定阈值；如果训练损失值小于或等于第四设定阈值，则输出目标检测模型；如果训练损失值大于第四设定阈值，则返回“步骤S2”。

可选地，所述训练损失函数的具体公式为：

其中，

表示第i个样本被预测为目标的概率，

表示已标注的真实标注数据，

表示分类损失，

表示边框回归损失，

和

均表示归一化参数，

表示权重的平衡参数，

表示目标区域的平移缩放参数，

表示目标区域对应的真实标注区域的平移缩放参数。

本发明还提供一种基于多尺度特征融合的视频目标检测系统，所述系统包括：

视频目标检测数据集构建模块，用于构建视频目标检测数据集；所述视频目标检测数据集包括训练集和验证集；所述训练集包括第一设定张数的目标视频图像和对应的真实标注数据，所述验证集包括第二设定张数的目标视频图像和对应的真实标注数据；

训练模块，用于将训练集输入深度神经网络进行训练，获得待验证的目标检测模型；所述深度神经网络包括骨干网络、多尺度特征融合结构、RPN网络和检测头；

所述训练模块具体包括：

训练单元，用于将所述训练集中的所述目标视频图像输入骨干网络进行训练，获得P_x层特征图，其中，

，G为删除特征图的个数，N为骨干网络中卷积模块的个数；

融合单元，用于将P_x层特征图输入多尺度特征融合结构进行特征融合，获得F_x层特征图；

预测单元，用于将F_x层特征图依次输入RPN网络和检测头进行预测，获得待验证的目标检测模型；

验证模块，用于将验证集输入到待验证的目标检测模型进行验证，直到满足迭代条件，则输出目标检测模型；

获取模块，用于获取待检测的目标视频图像；

预测模块，用于将待检测的目标视频图像输入至目标检测模型进行预测，获得目标预测的类别和具体位置。

可选地，所述训练单元，具体包括：

第一卷积处理子单元，用于将所述训练集中的所述目标视频图像输入到骨干网络中的第1个卷积模块进行卷积操作，获得C_1层特征图；

第二卷积处理子单元，用于将第i-1个卷积模块输出的C_i-1层特征图输入至第i个卷积模块进行卷积操作，获得C_i层特征图, 其中，i为大于1且小于等于N的正整数；

第一筛选子单元，用于将大于设定尺寸的特征图进行删除，获得小于或等于设定尺寸的特征图；

第三卷积处理子单元，用于将小于或等于设定尺寸的特征图进行1×1的卷积操作；

赋值子单元，用于将经过1×1卷积操作的C_N层特征图作为P_N层特征图；

下采样子单元，用于将P_N层特征图进行2倍下采样，获得P_N+1层特征图；

第一上采样子单元，用于将P_N-j层特征图进行2倍上采样，得到第一中间特征图；第一中间特征图的尺寸与经过1×1卷积操作的C_N-j-1层特征图的尺寸相同；

第一相加子单元，用于将第一中间特征图与经过卷积核为1×1卷积操作的C_N-j-1层特征图相加，获得P_N-j-1层特征图；其中，

，G为删除特征图的个数。

可选地，所述融合单元，具体包括：

第四卷积处理子单元，用于将P_y层特征图进行3×3的卷积操作，其中，

；

第二上采样子单元，用于对经过3×3的卷积操作的P_G+2层进行2倍上采样，得到第二中间特征图；所述第二中间特征图与经过3×3的卷积操作的P_ G+1层特征图的尺寸相同；

第二相加子单元，用于将第二中间特征图与经过3×3的卷积操作的P_G+1层特征图相加，得到F_ G+1层特征图；

第一最大池化处理子单元，用于将经过3×3的卷积操作的P_z-1层特征图进行最大池化操作，获得第三中间特征图；其中，

；当

第三上采样子单元，用于将经过3×3的卷积操作的P_z+1层特征图进行2倍上采样，获得第四中间特征图；当

第三相加子单元，用于将第三中间特征图、第四中间特征图和经过3×3的卷积操作的P_z层特征图相加，获得F_z层特征图；

第二最大池化处理子单元，用于将P_N层特征图进行最大池化操作，获得第五中间特征图；第五中间特征图与P_N+1层特征图的尺寸相同；

第四相加子单元，用于将第五中间特征图与P_N+1层特征图相加，获得F_N+1层特征图。

可选地，所述预测单元，具体包括：

锚框确定子单元，用于RPN网络分别在F_G+1～F_N+1层特征图上，采用尺寸为3×3的滑动窗口遍历各个特征图，生成多个锚框；

第二筛选子单元，用于将大于第一设定阈值的所述锚框作为目标候选区域；

交并比计算单元，用于计算目标候选区域与训练集中真实标注区域的交并比；

第三筛选子单元，用于选取交并比大于或等于第二设定阈值的目标候选区域作为目标区域；

层数确定子单元，用于根据

确定各目标区域对应的特征图的层数，其中，

，w和h分别表示目标区域的宽和高；

池化处理子单元，用于将各目标区域映射到F_v层特征图对应的ROI Pooling层上进行池化操作，输出统一大小为7×7的多个目标区域特征图，其中，

；

预测子单元，用于将各目标区域特征图分别输入两个全连接层进行预测，获得待验证的目标检测模型。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明采用多尺度特征融合方式，为金字塔网络的每层特征融合来自高层的语义信息和低层的细节特征，改善了传统特征融合方式仅融合上一层高级语义特征的不足，使网络得以充分地提取目标特征信息，从而提高对视频目标检测的准确率。另外多尺度特征融合过程仅包含池化和上采样操作，未引入卷积操作，从而节约了计算成本，在提高检测精度的同时避免检测速度明显下降。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1基于多尺度特征融合的视频目标检测方法流程图；

图2为本发明实施例2基于多尺度特征融合的视频目标检测结构图；

图3为本发明实施例3深度神经网络结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种基于多尺度特征融合的视频目标检测方法及系统，以提高视频中目标检测的准确率。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1

如图1所示，本发明提供本发明提供了一种基于多尺度特征融合的视频目标检测方法，所述方法包括：

步骤S1：构建视频目标检测数据集；所述视频目标检测数据集包括训练集和验证集；所述训练集包括第一设定张数的目标视频图像和对应的真实标注数据，所述验证集包括第二设定张数的目标视频图像和对应的真实标注数据。

步骤S2：将训练集输入深度神经网络进行训练，获得待验证的目标检测模型；所述深度神经网络包括骨干网络、多尺度特征融合结构、RPN网络和检测头。

步骤S2具体包括：

，G为删除特征图的个数，N为骨干网络中卷积模块的个数；

步骤S22：将P_x层特征图输入多尺度特征融合结构进行特征融合，获得F_x层特征图。

步骤S23：将F_x层特征图依次输入RPN网络和检测头进行预测，获得待验证的目标检测模型。

步骤S3：将验证集输入到待验证的目标检测模型进行验证，直到满足迭代条件，则输出目标检测模型。

步骤S4：获取待检测的目标视频图像。

下面对各个步骤进行详细论述：

步骤S1：构建视频目标检测数据集，具体包括：

步骤S11：获取两段含有目标的可见光视频。

步骤S12：将两段可见光视频转换为两组连续帧的目标视频图像。

步骤S13：利用Labellmg软件对两组连续帧的目标视频图像中不同类别的目标进行标注，获得多个真实标注数据；所述真实标注数据包括：真实标注区域和真实目标类别。

步骤S14：基于多个真实标注区域以及两组连续帧的目标视频图像构建视频目标检测数据集；所述视频目标检测数据集包括训练集和验证集；所述训练集包括第一设定张数的目标视频图像和对应的真实标注数据，所述验证集包括第二设定张数的目标视频图像和对应的真实标注数据。

步骤S2：将训练集输入深度神经网络进行训练，获得待验证的目标检测模型；所述深度神经网络包括骨干网络、多尺度特征融合结构、RPN网络和检测头。本实施例中骨干网络为ResNet101。

本发明步骤S2具体包括：

，G为删除特征图的个数，N为骨干网络中卷积模块的个数；所述骨干网络包括N个卷积模块构成第i个卷积模块输入的特征图为第i-1个卷积模块输出的特征图，其中i为大于1且小于等于N的正整数。

步骤S21具体包括：

将所述训练集中的所述目标视频图像输入到骨干网络中的第1个卷积模块进行卷积操作，获得C_1层特征图。

将第i-1个卷积模块输出的C_i-1层特征图输入至第i个卷积模块进行卷积操作，获得C_i层特征图, 其中，i为大于1且小于等于N的正整数。

将大于设定尺寸的特征图进行删除，获得小于或等于设定尺寸的特征图。

将小于或等于设定尺寸的特征图进行1×1的卷积操作，以使将各特征图的通道数统一。

将经过1×1卷积操作的C_N层特征图作为P_N层特征图。

将P_N层特征图进行2倍下采样，获得P_N+1层特征图。

将P_N-j层特征图进行2倍上采样，得到第一中间特征图；第一中间特征图的尺寸与经过1×1卷积操作的C_N-j-1层特征图的尺寸相同。

，G为删除特征图的个数。

步骤S22：将P_x层特征图输入多尺度特征融合结构进行特征融合，获得F_x层特征图，其中，

。

步骤S22具体包括：

将P_y层特征图进行3×3的卷积操作，其中，

。

对经过3×3的卷积操作的P_G+2层进行2倍上采样，得到第二中间特征图；所述第二中间特征图与经过3×3的卷积操作的P_ G+1层特征图的尺寸相同。

将第二中间特征图与经过3×3的卷积操作的P_G+1层特征图相加，得到F_ G+1层特征图。

；当

时，第三中间特征图与经过3×3的卷积操作的P_z层特征图的尺寸相同；当z等于N时，第三中间特征图与P_N层特征图的尺寸相同。

时，第四中间特征图与经过3×3的卷积操作的P_z层特征图的尺寸相同；当z等于N时，第四中间特征图与P_N层特征图的尺寸相同。

将第三中间特征图、第四中间特征图和经过3×3的卷积操作的P_z层特征图相加，获得F_z层特征图。

将P_N层特征图进行最大池化操作，获得第五中间特征图；第五中间特征图与P_N+1层特征图的尺寸相同。

将第五中间特征图与P_N+1层特征图相加，获得F_N+1层特征图。

步骤S23：将F_G+1～F_N+1层特征图输入RPN网络进行预测，获得待验证的目标检测模型，具体包括：

RPN网络分别在F_G+1～F_N+1层特征图上，采用尺寸为3×3的滑动窗口遍历各个特征图，生成多个锚框。

将大于第一设定阈值的所述锚框作为目标候选区域。

计算目标候选区域与训练集中真实标注区域的交并比。

选取交并比大于或等于第二设定阈值的目标候选区域作为目标区域；将交并比小于第三设定阈值的目标候选区域作为背景候选区域；第二设定阈值大于第三设定阈值。

根据

确定各目标区域对应的特征图的层数v，其中，

, w和h分别表示目标区域的宽和高。

。

步骤S3：将验证集输入到待验证的目标检测模型进行验证，直到满足迭代条件，则输出目标检测模型，具体包括：

利用训练损失函数计算训练损失值。

所述训练损失函数的具体公式为：

其中，

表示第i个样本被预测为目标的概率，

表示已标注的真实标注数据，

表示分类损失，

表示边框回归损失，

和

均表示归一化参数，

表示权重的平衡参数，

表示目标区域的平移缩放参数，

表示目标区域对应的真实标注区域的平移缩放参数，

分别表示目标区域的左上角横、纵坐标、宽和高，

分别表示真实标注区域的左上角横、纵坐标、宽和高。

实施例2

如图2所示，本发明还提供一种基于多尺度特征融合的视频目标检测系统，所述系统包括：

视频目标检测数据集构建模块10，用于构建视频目标检测数据集；所述视频目标检测数据集包括训练集和验证集；所述训练集包括第一设定张数的目标视频图像和对应的真实标注数据，所述验证集包括第二设定张数的目标视频图像和对应的真实标注数据。

训练模块20，用于将训练集输入深度神经网络进行训练，获得待验证的目标检测模型；所述深度神经网络包括骨干网络、多尺度特征融合结构、RPN网络和检测头。

所述训练模块具体包括：

训练单元201，用于将所述训练集中的所述目标视频图像输入骨干网络进行训练，获得P_x层特征图，其中，

，G为删除特征图的个数，N为骨干网络中卷积模块的个数；

融合单元202，用于将P_x层特征图输入多尺度特征融合结构进行特征融合，获得F_x层特征图。

预测单元203，用于将F_x层特征图依次输入RPN网络和检测头进行预测，获得待验证的目标检测模型。

验证模块30，用于将验证集输入到待验证的目标检测模型进行验证，直到满足迭代条件，则输出目标检测模型。

获取模块40，用于获取待检测的目标视频图像。

预测模块50，用于将待检测的目标视频图像输入至目标检测模型进行预测，获得目标预测的类别和具体位置。

作为一种实施方式，本发明所述训练单元201，具体包括：

第二卷积处理子单元，用于将第i-1个卷积模块输出的C_i-1层特征图输入至第i个卷积模块进行卷积操作，获得C_i层特征图, 其中，i为大于1且小于等于N的正整数。

第一筛选子单元，用于将大于设定尺寸的特征图进行删除，获得小于或等于设定尺寸的特征图。

第三卷积处理子单元，用于将小于或等于设定尺寸的特征图进行1×1的卷积操作。

下采样子单元，用于将P_N层特征图进行2倍下采样，获得P_N+1层特征图。

第一上采样子单元，用于将P_N-j层特征图进行2倍上采样，得到第一中间特征图；第一中间特征图的尺寸与经过1×1卷积操作的C_N-j-1层特征图的尺寸相同。

，G为删除特征图的个数。

作为一种实施方式，本发明所述融合单元202，具体包括：

。

第二上采样子单元，用于对经过3×3的卷积操作的P_G+2层进行2倍上采样，得到第二中间特征图；所述第二中间特征图与经过3×3的卷积操作的P_ G+1层特征图的尺寸相同。

第二相加子单元，用于将第二中间特征图与经过3×3的卷积操作的P_G+1层特征图相加，得到F_ G+1层特征图。

；当

第三相加子单元，用于将第三中间特征图、第四中间特征图和经过3×3的卷积操作的P_z层特征图相加，获得F_z层特征图。

第二最大池化处理子单元，用于将P_N层特征图进行最大池化操作，获得第五中间特征图；第五中间特征图与P_N+1层特征图的尺寸相同。

作为一种实施方式，本发明所述预测单元203，具体包括：

锚框确定子单元，用于RPN网络分别在F_G+1～F_N+1层特征图上，采用尺寸为3×3的滑动窗口遍历各个特征图，生成多个锚框。

交并比计算单元，用于计算目标候选区域与训练集中真实标注区域的交并比。

第三筛选子单元，用于选取交并比大于或等于第二设定阈值的目标候选区域作为目标区域。

层数确定子单元，用于根据

确定各目标区域对应的特征图的层数，其中，

，w和h分别表示目标区域的宽和高。

。

实施例3

本实例中，以车辆为目标，选择两段拍摄交通路段车流量的可见光视频，并将其转换为两组连续帧的图像，使用Labellmg软件进行图像中不同类别的车辆进行标注；将所得图像及对应标注数据分别用于训练集、验证集和测试集的数据来源。训练集和验证集共包括7000张车辆视频图像，测试集包括3000张车辆视频图像，图像尺寸均为1024×1024，车辆类别为大货车、小货车、客车、轿车、面包车5类。

采用视频目标检测数据集的训练集和验证集训练深度神经网络模型，得到车辆检测模型，具体过程如下：

（1）将所述训练集中的车辆视频图像输入特征提取网络进行训练，获得P_x层特征图，具体步骤如下：

本发明中Faster R-CNN所使用的骨干网络为ResNet101，用骨干网络来提取视频图像的特征，将特征金字塔网络FPN应用在骨干网络ResNet101中获得特征提取网络。深度神经网络如图3所示，所采用网络的具体结构如下：骨干网络ResNet101主要由五个卷积模块(conv1、conv2、conv3、conv4、conv5)构成，也就是说以N=5为例进行论述，每个卷积模块的输入为上一个卷积模块的输出，conv1的输入为训练集中的车辆视频图像。将各个模块的输出特征图分别表示为C_1、C_2、C_3、C_4、C_5，则以本发明输入车辆视频图像1024×1024为例，各个特征图大小依次为：512×512×64、256×256×256、128×128×512、64×64×1024、32×32×2048。由于C_1层特征图的尺寸大于定义的设定尺寸，为了节约计算成本，仅采用C_2、C_3、C_4、C_5层特征图进行特征融合。为了将特征图的通道维度进行统一并不改变特征图的空间维度，对C_2、C_3、C_4、C_5层特征图进行卷积核为1×1的卷积操作，将各特征图的通道数统一为256。接下来，将经过1×1卷积操作的C_5层特征图表示为P_5层特征图，并对P_5层进行2倍尺寸缩放，得到与经过1×1卷积操作的C_4层特征图尺寸相同的中间特征图。并将该中间特征图与经过1×1卷积操作的C_4层进行元素级相加，从而得到P_4层。采用相同方式得到P_2和P_3层，即将上层低分辨率强语义信息的特征图通过2倍缩放上采样得到与下层同尺寸的特征图，并与下层的高分辨率特征图进行元素级相加。

（2）将P_2～P_6层特征图输入多尺度特征融合结构进行特征融合，获得F_2～F_6层特征图，具体步骤如下：

对P_2、P_3、P_4层进行3×3的卷积操作，得到尺寸分别为256×256×256、128×128×256、64×64×256特征图。

P_6层在P_5层基础上通过下采样所得，P_6层特征图的尺寸为16×16×256，P_5层特征图的尺寸为32×32×256。

对经过3×3卷积操作的P_3层进行2倍缩放的上采样，得到与经过3×3卷积操作的P_2层特征图尺寸相等的中间特征图，并将经过3×3卷积操作的P_2层特征图与该中间特征图进行元素级相加，得到最终的F_2层。

对经过3×3卷积操作的P_4层进行2倍缩放的上采样，得到与经过3×3卷积操作的P_3层特征图尺寸相等的中间特征图，对经过3×3卷积操作的P_2层特征图进行最大池化操作，得到与经过3×3卷积操作的P_3层特征图尺寸相等的中间特征图，并将两个中间特征图与经过3×3卷积操作的P_3层特征图进行元素级相加，得到最终的F_3层。

对P_5层进行2倍缩放的上采样，得到与经过3×3卷积操作的P_4层特征图尺寸相等的中间特征图，对经过3×3卷积操作的P_3层进行最大池化操作，得到与经过3×3卷积操作的P_4层特征图尺寸相等的中间特征图，并将两个中间特征图与经过3×3卷积操作的P_4层进行元素级相加，得到最终的F_4层。

对P_6层进行2倍缩放的上采样，得到与P_5层特征图尺寸相等的中间特征图，对经过3×3卷积操作的P_4层进行最大池化操作，得到与P_5层特征图尺寸相等的中间特征图，并将两个中间特征图与P_5层特征图进行元素级相加，得到最终的F_5层。

对P_5层进行最大池化操作，得到与P_6层特征图尺寸相等的中间特征图，并将中间特征图与P_6层特征图进行元素级相加，得到最终的F_6层。

自此，得到了F_2~F_6层特征图。从操作步骤可知，相比P_2~P_6层这种只融合上一层特征图信息的特征融合方式，新型特征融合方式可以同时融合来自上层的高级语义特征和来自下层的细节特征，从而更加充分地获取目标特征信息，有效提高对视频目标的检测准确率。

将F_2~F_6层特征图输入RPN网络进行预测，获得车辆的类别和具体位置， RPN网络包含一个卷积核为3×3的卷积操作和两个输出支路：第一个为分类支路，输出目标类别；第二个为回归支路，输出具体位置，即车辆区域的左上角坐标以及宽高。

（3）将F_x层特征图依次输入RPN网络和检测头进行预测，获得待验证的目标检测模型，具体步骤如下：

RPN网络分别在F_2-F_6这五个特征图层上，采用尺寸为3×3的滑动窗口遍历各个特征图，生成多个锚框（anchor boxes），将大于第一设定阈值的锚框输出为车辆候选区域Proposals，每个层均进行独立地车辆候选区域预测。最后将每层的预测结果进行连接融合。在RPN训练过程中，将车辆候选区域与真实标注区域的交并比IoU大于0.7的车辆候选区域作为车辆区域，将交并比小于0.3的车辆候选区域作为背景候选区域。根据

确定各车辆区域对应的特征图的层数v，其中，

, w和h分别表示车辆区域的宽和高。将车辆区域映射到对应的特征层F_v输入ROI Pooling层进行池化操作。

为了将Proposals框输入后续全连接层进行下一步分类和回归，需统一其尺寸，因此将所得Proposals输入ROI Pooling层进行特征提取，均输出统一大小为7×7的Proposals特征图。接下来，将各Proposals特征图输入两层维度为1024的全连接层，通过Faster RCNN的两个检测支路分别计算车辆的类别和具体位置。

将验证集输入到待验证的车辆检测模型进行验证，也就是说利用视频目标检测数据集的训练集及验证集对深度神经网络进行端对端训练，对于每一张输入神经网络的图片，执行前向传播及反向传播步骤，基于损失函数

更新模型内部参数，得到车辆检测模型。

采用视频数据集的测试集输入到训练好的深度神经网络（即车辆检测模型）模型中，检测视频图像中的车辆目标，具体过程如下：

（1）输入一组来自测试集的视频图像，限制输入图最大边长为1024，通过骨干网络、FPN网络以及多尺度特征融合结构进行特征提取，得到包含丰富目标信息的特征图，通过RPN得到图中300个车辆候选区域Proposals。

（2）将视频原图的特征图和交并比大于0.7的车辆候选区域Proposals输入ROIPooling层，进行特征图的尺寸变换，输出统一尺寸的7×7特征图，以便于输出全连接层。

（3）Proposal的特征信息依次经过两个全连接层后，从而输出各车辆目标检测框所属类别以及其精确的矩形位置信息，从而会在视频图像中标出所有被标记为车辆目标的矩形框。

（4）进行结果评测所用指标为平均精度AP及平均精度均值mAP。真反例(TureNegative, TN)：被判定为负样本，事实上也是负样本；真正例(Ture Positve, TP)：被判定为正样本，事实上也是正样本；假反例(False Negative, FN)：被判定为负样本，但实为正样本；假正例(False Positive, FP)：被判定为正样本，但实为负样本。召回率(Recall)=TP/(TP+FN)，准确率(Precision)=TP/(TP+FP)，Precision-Recall(P-R)曲线为以Precision和Recall作为纵、横轴坐标的二维曲线。平均精度AP为每个类别对应的P-R曲线围起来的面积，平均精度均值mAP为每个类别AP值的平均值。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于多尺度特征融合的视频目标检测方法，其特征在于，所述方法包括：

步骤S2具体包括：

步骤S21：将所述训练集中的所述目标视频图像输入骨干网络进行训练，获得P_x层特征图，其中，N+1≥x≥G+1，G为删除特征图的个数，N为骨干网络中卷积模块的个数；

步骤S21具体包括：

将第i-1个卷积模块输出的C_i-1层特征图输入至第i个卷积模块进行卷积操作，获得C_i层特征图,其中，i为大于1且小于等于N的正整数；

将小于或等于设定尺寸的特征图进行1×1的卷积操作；

将经过1×1卷积操作的C_N层特征图作为P_N层特征图；

将P_N层特征图进行2倍下采样，获得P_N+1层特征图；

将第一中间特征图与经过卷积核为1×1卷积操作的C_N-j-1层特征图相加，获得P_N-j-1层特征图；其中，N-G-1≥j≥0；

步骤S22具体包括：

将P_y层特征图进行3×3的卷积操作，其中，N-1≥y≥G+1；

对经过3×3的卷积操作的P_G+2层进行2倍上采样，得到第二中间特征图；所述第二中间特征图与经过3×3的卷积操作的P_G+1层特征图的尺寸相同；

将第二中间特征图与经过3×3的卷积操作的P_G+1层特征图相加，得到F_G+1层特征图；

将经过3×3的卷积操作的P_z-1层特征图进行最大池化操作，获得第三中间特征图；其中，N≥z≥G+2；当N-1≥z≥G+2时，第三中间特征图与经过3×3的卷积操作的P_z层特征图的尺寸相同；当z等于N时，第三中间特征图与P_N层特征图的尺寸相同；

将经过3×3的卷积操作的P_z+1层特征图进行2倍上采样，获得第四中间特征图；当N-1≥z≥G+2时，第四中间特征图与经过3×3的卷积操作的P_z层特征图的尺寸相同；当z等于N时，第四中间特征图与P_N层特征图的尺寸相同；

将第五中间特征图与P_N+1层特征图相加，获得F_N+1层特征图；

步骤S4：获取待检测的目标视频图像；

2.根据权利要求1所述的基于多尺度特征融合的视频目标检测方法，其特征在于，步骤S23具体包括：

将大于第一设定阈值的所述锚框作为目标候选区域；

计算目标候选区域与训练集中真实标注区域的交并比；

根据

确定各目标区域对应的特征图的层数，其中，k₀＝4，w和h分别表示目标区域的宽和高；

将各目标区域映射到F_v层特征图对应的ROI Pooling层上进行池化操作，输出统一大小为7×7的多个目标区域特征图，其中，N≥v≥G+1；

3.根据权利要求1所述的基于多尺度特征融合的视频目标检测方法，其特征在于，步骤S3具体包括：

利用训练损失函数计算训练损失值；

4.根据权利要求3所述的基于多尺度特征融合的视频目标检测方法，其特征在于，所述训练损失函数的具体公式为：

其中，p_i表示第i个样本被预测为目标的概率，

表示已标注的真实标注数据，L_cls表示分类损失，L_reg表示边框回归损失，N_cls和N_reg均表示归一化参数，λ表示权重的平衡参数，t_i表示目标区域的平移缩放参数，

表示目标区域对应的真实标注区域的平移缩放参数。

5.一种基于多尺度特征融合的视频目标检测系统，其特征在于，所述系统包括：

所述训练模块具体包括：

训练单元，用于将所述训练集中的所述目标视频图像输入骨干网络进行训练，获得P_x层特征图，其中，N+1≥x≥G+1，G为删除特征图的个数，N为骨干网络中卷积模块的个数；

所述训练单元，具体包括：

第二卷积处理子单元，用于将第i-1个卷积模块输出的C_i-1层特征图输入至第i个卷积模块进行卷积操作，获得C_i层特征图,其中，i为大于1且小于等于N的正整数；

第一相加子单元，用于将第一中间特征图与经过卷积核为1×1卷积操作的C_N-j-1层特征图相加，获得P_N-j-1层特征图；其中，N-G-1≥j≥0；

所述融合单元，具体包括：

第四卷积处理子单元，用于将P_y层特征图进行3×3的卷积操作，其中，N-1≥y≥G+1；

第二上采样子单元，用于对经过3×3的卷积操作的P_G+2层进行2倍上采样，得到第二中间特征图；所述第二中间特征图与经过3×3的卷积操作的P_G+1层特征图的尺寸相同；

第二相加子单元，用于将第二中间特征图与经过3×3的卷积操作的P_G+1层特征图相加，得到F_G+1层特征图；

第一最大池化处理子单元，用于将经过3×3的卷积操作的P_z-1层特征图进行最大池化操作，获得第三中间特征图；其中，N≥z≥G+2；当N-1≥z≥G+2时，第三中间特征图与经过3×3的卷积操作的P_z层特征图的尺寸相同；当z等于N时，第三中间特征图与P_N层特征图的尺寸相同；

第三上采样子单元，用于将经过3×3的卷积操作的P_z+1层特征图进行2倍上采样，获得第四中间特征图；当N-1≥z≥G+2时，第四中间特征图与经过3×3的卷积操作的P_z层特征图的尺寸相同；当z等于N时，第四中间特征图与P_N层特征图的尺寸相同；

第四相加子单元，用于将第五中间特征图与P_N+1层特征图相加，获得F_N+1层特征图；

获取模块，用于获取待检测的目标视频图像；

6.根据权利要求5所述的基于多尺度特征融合的视频目标检测系统，其特征在于，所述预测单元，具体包括：

层数确定子单元，用于根据

池化处理子单元，用于将各目标区域映射到F_v层特征图对应的ROIPooling层上进行池化操作，输出统一大小为7×7的多个目标区域特征图，其中，N≥v≥G+1；