CN111832479A

CN111832479A - 基于改进的自适应锚点r-cnn的视频目标检测方法

Info

Publication number: CN111832479A
Application number: CN202010672068.XA
Authority: CN
Inventors: 冯婕; 梁宇平; 叶湛伟; 李�杰; 王蓉芳; 焦李成; 张向荣; 尚荣华; 刘若辰
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-07-14
Filing date: 2020-07-14
Publication date: 2020-10-27
Anticipated expiration: 2040-07-14
Also published as: CN111832479B

Abstract

本发明提出了一种基于改进的自适应锚点R‑CNN的光学遥感视频目标检测方法，用于解决现有技术中精确率和召回率较低的问题，实现步骤为：获取训练样本集和测试样本集；构建改进的自适应锚点R‑CNN网络及其损失函数；对改进的自适应锚点R‑CNN网络进行迭代训练；获取目标检测识别结果。本发明所构建的小目标区域提议网络自适应地生成高质量的锚点，一定程度上避免漏检，有效提高小目标的检测召回率，同时所构建的尺寸预测损失函数有利于小目标尺寸的稳定收敛，进一步提高了小目标的检测精确率和召回率，可用于光学遥感视频中的目标检测。

Description

基于改进的自适应锚点R-CNN的视频目标检测方法

技术领域

本发明属于机器视觉技术领域，涉及一种视频目标检测方法，具体涉及一种基于改进的自适应锚点R-CNN的光学遥感视频目标检测方法，可用于光学遥感视频中的目标检测。

背景技术

遥感技术的发展对于人们认识和探索世界有着巨大的帮助，它具有许多鲜明的技术特点，如数据范围广、获取周期短、数据综合性强等，这些特点使得遥感技术可以在农业、海洋、气象、军事等多个领域发挥重要的作用。光学遥感视频涵盖的目标种类丰富，范围广泛，在获取地理信息、应急灾害检测、资源规划等方面具有重要的现实意义。

光学遥感视频目标检测的主要思想就是使用一些策略或算法在遥感视频序列图像中搜寻得到感兴趣的目标，确定目标的位置，识别目标类别，该技术的技术指标有精确率、召回率和检测速度等。在传统的目标检测算法中往往鲁棒性差且计算量庞大，且光学遥感视频中存在的大量密集小目标，与本身成像方式所导致的较低的分辨率，这一系列特性决定了传统的目标检测方法在光学遥感视频领域中的应用无法满足客观需求。

如今，随着深度神经网络的发展，基于深度学习的目标检测算法成为主流方法。深度学习可通过学习深层非线性网络结构，实现复杂函数逼近，表征输入数据分布式表示，并展现了强大的从少数样本集中学习数据集本质特征的能力。基于深度学习的目标检测算法可以通过构建具有很多隐层的网络模型和海量的训练数据，来学习有辨别力的感兴趣目标特征，从而最终提升检测的准确率和召回率。在基于深度学习的目标检测算法中，设计合理的网络结构与选取合适的损失函数至关重要，结构的设计决定着模型能否提取到有辨别力的目标特征信息，能否准确地进行预测，损失函数的选取决定着模型能否稳定快速地训练，达到预期的效果。

基于深度学习的目标检测方法可以分为基于锚点的和基于关键点的目标检测方法，其中，基于锚点的目标检测方法在检测过程中首先生成锚点，并对锚点进行分类和回归，得到目标的位置及其类别，然而由于需要手工设置锚点的相关参数，使得在处理不同形状与尺寸的目标时，锚点难以通过自适应方法进行拟合，且生成锚点时所需的均匀采样机制计算量庞大，运行速度慢。基于关键点的目标检测方法在检测过程中首先预测关键点的类别和位置，然后基于关键点的位置和类别，得到目标的位置及其类别，然而由于关键点的位置和类别较难预测，导致检测精确率和召回率较低。

为了避免预设参数对于模型的影响以及提高算法效率，基于锚点和关键点的目标检测方法应运而生，例如Jiaqi Wang、Kai Chen和Shuo Yang等人在2019年CVPR会议上发表的论文《Region Proposal by Guided Anchoring》中，提出了基于自适应锚点R-CNN的目标检测算法。该方法通过自适应锚点R-CNN所包含的自适应区域提议网络，在特征图的每个位置上预测锚点的中心点位置与尺寸，并通过后续的卷积操作与可变形卷积操作，得到高质量的提议区域，并在训练过程中，通过中心点预测损失函数指导自适应区域提议网络中的中心点预测网络的学习，通过尺寸预测损失函数用于指导自适应区域提议网络中的尺寸预测网络的学习，一定程度上提升了算法的精确率和召回率。但其不足之处在于，自适应区域提议网络中的可变性卷积层容易丢失密集小目标的信息，造成漏检问题，限制了算法召回率的进一步提升，同时，使用尺寸预测损失函数对网络进行训练时，容易造成小目标尺寸的收敛不稳定，增大网络训练的难度，使得网络的精确率和召回率仍然无法满足现阶段需求。

发明内容

本发明的目的在于针对上述现有技术的不足，提出了一种基于改进的自适应锚点R-CNN的视频目标检测方法，用于解决现有技术中存在的检测精度和召回率较低的技术问题。

为实现上述目的，本发明采取的技术方案包括如下步骤：

(1)获取训练样本集I和测试样本集V：

从一段光学遥感视频中选取连续N帧大小为W×H的图像组成训练样本集I＝{i₁,i₂,...,i_n,...,i_N}，同时从另一段光学遥感视频中选取连续M帧大小为W×H的图像组成测试样本集V＝{v₁,v₂,...,v_m,...,v_M}，其中，N≥300，W和H表示图像的行和列像素点的个数，i_n表示I中第n帧图像，M≥20，v_m表示V中第m帧图像；

(2)构建改进的自适应锚点R-CNN网络G及其损失函数L：

(2a)构建改进的自适应锚点R-CNN网络G：

构建包括特征提取网络、小目标区域提议网络和检测框分类回归网络的改进的自适应锚点R-CNN网络G，其中：特征提取网络包括依次相间层叠的多个卷积层和多个下采样层；小目标区域提议网络包括并行排布且均包括多个层叠的卷积层的中心点提议网络和尺寸提议网络；检测框分类回归网络包括并行排布且均包括一个池化层和多个层叠的全连接层的检测框分类网络和检测框回归网络；

特征提取网络、小目标区域提议网络和检测框分类回归网络依次级联，且特征提取网络的输出端与检测框分类回归网络的输入端级联；

(2b)构建改进的自适应锚点R-CNN网络G的损失函数L：

L＝L₁+L₂+L₃+L₄

其中，L₁为中心点置信度预测损失函数，L₂为尺寸预测损失函数，L₃为检测框置信度损失函数，L₄为检测框位置预测损失函数，b_ij为中心点置信度热图预测标签中坐标为(i,j)的值，b′_ij为中心点置信度热图真实标签中坐标为(i,j)的值，x_ij为尺寸热图预测标签中坐标为(i,j)的值，x′_ij为尺寸热图真实标签中坐标为(i,j)的值，N为训练样本集中目标的个数，C为训练样本集中目标类别的个数，s_ci为检测框置信度预测标签中坐标为(c,i)的值，s'_ci为检测框置信度真实标签中坐标为(c,i)的值，t_ci为检测框位置预测标签中坐标为(c,i)的值，t'_ci为检测框位置真实标签中坐标为(c,i)的值；

(3)对改进的自适应锚点R-CNN网络G进行迭代训练：

(3a)设迭代次数为t，最大迭代次数为T，T≥20，当前改进的自适应锚点R-CNN网络为G^t，并令t＝1，G^t＝G；

(3b)将I作为G^t的输入进行交替的卷积和池化操作，然后对其结果进行全连接操作，得到小区域提议网络的中心点置信度预测标签

和尺寸预测标签

以及检测框分类回归网络的检测框置信度预测标签

和检测框位置预测标签

(3c)采用损失函数L，并通过

和

计算G^t的损失值L^t；

(3d)采用反向传播算法，并通过L^t对改进的自适应锚点R-CNN网络中卷积层的卷积核参数ω^t、各全连接层结点之间的连接参数θ^t进行更新，得到更新后的G^t；

(3e)判断t＝T是否成立，若是，得到训练好的改进的自适应锚点R-CNN网络G^*，否则，令t＝t+1，并执行步骤(3b)；

(4)获取目标检测识别结果：

将V中的样本依次输入到G^*中进行交替的卷积和池化操作，然后对其结果进行全连接操作，得到G^*的检测框置信度预测标签z₃和检测框位置预测标签z₄。

本发明与现有技术相比，具有如下优点：

第一，本发明所构建的改进的自适应锚点R-CNN网络中，由于小目标区域提议网络包括并行排布且均包括多个层叠的卷积层的中心点提议网络和尺寸提议网络，在检测过程中能够充分利用特征提取网络得到的特征图的语义信息，预测锚点的位置与尺寸，避免了现有技术中在进行可变性卷积时容易造成密集小目标特征丢失的缺陷，有效地提高了密集小目标的检测召回率。

第二，本发明在对网络的训练过程中，使用尺寸预测损失函数指导小目标区域提议网络中的尺寸预测网络，在现有技术的尺寸预测损失函数中，增添了一项尺度平滑系数，使得损失函数在真实值附近的梯度更加平滑，从而使得预测值更容易稳定收敛，克服了现有技术中的损失函数针对小目标的尺寸回归收敛不稳定的问题，能够得到质量更高的锚点，进一步提高了小目标的检测精确率和召回率。

附图说明

图1是本发明实现流程图；

图2是本发明实施例采用的改进的自适应锚点R-CNN网络的结构图。

具体实施方式

下面结合附图和具体实施例，对本发明作进一步详细描述。

参照图1，本发明包括如下步骤：

步骤1)获取训练样本集I和测试样本集V：

选取一段带有标签的光学遥感视频，并从其第5帧开始选取连续N帧大小为W×H的图像，组成训练样本集I＝{i₁,i₂,...,i_n,...,i_N}，同时从另一段无标签的光学遥感视频中选取连续M帧大小为W×H的图像，组成测试样本集V＝{v₁,v₂,...,v_m,...,v_M}，其中，N≥300，W和H表示图像的行和列像素点的个数，i_n表示I中第n帧图像，M≥20，v_m表示V中第m帧图像，本实施例中，N＝300，W＝H＝3000，M＝60；

步骤2)构建改进的自适应锚点R-CNN网络G及其损失函数L：

(2a)构建改进的自适应锚点R-CNN网络G，其结构如图2所示：

构建包括特征提取网络、小目标区域提议网络和检测框分类回归网络的改进的自适应锚点R-CNN网络G，其中：

特征提取网络，其中的卷积层与下采样层的个数均为4个，该特征提取网络的具体结构为：第一卷积层→第一下采样层→第二卷积层→第二下采样层→第三卷积层→第三下采样层→第四卷积层→第四下采样层，本实施例中，卷积层卷积核的大小为3×3，步长为1，下采样层的步长为2，特征提取网络用来的提取图像感兴趣目标的特征信息，并使用特征图的方式表示；

小目标区域提议网络，其中的中心点提议网络包括层叠的第六卷积层和第七卷积，尺寸提议网络包括层叠的第八卷积层和第九卷积层，本实施例中，卷积层卷积核的大小为1×1，步长为1，第六和第七卷积层负责预测在特征图每个位置的像素点成为锚点中心点的置信度，第八和第九卷积层负责预测特征图每个位置的像素点所对应的锚点长宽，中心点的置信度信息与长宽信息相结合，得到自适应锚点，用于后续的检测过程。该自适应方法克服了原有技术中锚点对于不同尺寸与形状的目标适应性差的缺点，增强了算法的鲁棒性，提升了算法的运算效率，同时，第六至第八卷积层在损失函数的指导下能够充分有效提取锚点的特征信息，避免了原有结构中的可变形卷积层易造成的小目标信息丢失的问题，一定程度上克服了漏检现象；

检测框分类回归网络中，其中的检测框分类网络包括层叠的第一池化层、第一全连接层和第二全连接层，检测框回归网络包含层叠的第一池化层、第三全连接层和第四全连接层，本实施例中，第一池化层的输出尺寸为32×32，第一全连接层节点个数为1024，第二全连接层结点个数为2，第一池化层负责进一步提炼目标特征，并在第二全连接层完成对检测框类别的分类，在第四全连接层完成检测框位置的回归。

(2b)构建改进的自适应锚点R-CNN网络G的损失函数L：

L＝L₁+L₂+L₃+L₄

相较于原有技术中的尺寸预测损失函数，L₂中所包含表达式为

的尺度平滑系数，使得损失函数在真实值附近的梯度更加平滑，从而使得预测值更容易稳定收敛，提升了模型的训练速度与训练效果。

步骤3)对改进的自适应锚点R-CNN网络G进行迭代训练：

(3a)设迭代次数为t，最大迭代次数为T，T≥20，在本实施例中，T＝50，当前改进的自适应锚点R-CNN网络为G^t，并令t＝1，G^t＝G；

和尺寸预测标签

以及检测框分类回归网络的检测框置信度预测标签

和检测框位置预测标签

(3c)采用损失函数L，并通过

和

计算G^t的损失值L^t；

(3d)采用反向传播算法，并通过L^t对改进的自适应锚点R-CNN网络中卷积层的卷积核参数ω^t、各全连接层结点之间的连接参数θ^t进行更新，得到更新后的G^t，更新公式为：

其中η表示学习步长，0.0001≤η≤0.1，ω^t+1和θ^t+1分别表示ω^t和θ^t更新后的结果，

表示偏导计算，在本实施例中，η＝0.001；

步骤4)获取目标检测识别结果：

Claims

1.一种基于改进的自适应锚点R-CNN的视频目标检测方法，其特征在于，包括如下步骤：

(1)获取训练样本集S_T和测试样本集S_V：

(2)构建改进的自适应锚点R-CNN网络G及其损失函数L：

(2a)构建改进的自适应锚点R-CNN网络G：

(2b)构建改进的自适应锚点R-CNN网络G的损失函数L：

L＝L₁+L₂+L₃+L₄

其中，L₁为中心点置信度预测损失函数，L₂为尺寸预测损失函数，L₃为检测框置信度损失函数，L₄为检测框位置预测损失函数，b_ij为中心点置信度热图预测标签中坐标为(i,j)的值，b′_ij为中心点置信度热图真实标签中坐标为(i,j)的值，x_ij为尺寸热图预测标签中坐标为(i,j)的值，x′_ij为尺寸热图真实标签中坐标为(i,j)的值，N为训练样本集中目标的个数，C为训练样本集中目标类别的个数，s_ci为检测框置信度预测标签中坐标为(c,i)的值，s′_ci为检测框置信度真实标签中坐标为(c,i)的值，t_ci为检测框位置预测标签中坐标为(c,i)的值，t′_ci为检测框位置真实标签中坐标为(c,i)的值；

(3)对改进的自适应锚点R-CNN网络G进行迭代训练：