CN111444865A

CN111444865A - 一种基于逐步求精的多尺度目标检测方法

Info

Publication number: CN111444865A
Application number: CN202010241591.7A
Authority: CN
Inventors: 张争; 李东辉; 赵雪专; 裴利沈; 丁肖摇; 王宇; 李涛
Original assignee: Yancheng Chantu Intelligent Technology Co ltd
Current assignee: Jiangsu Breus Technology Co ltd
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2020-07-24
Anticipated expiration: 2040-03-31
Also published as: CN111444865B

Abstract

本发明提供一种基于逐步求精的多尺度目标检测方法，该发明融入从高层上下文中获得残差到基本预测中，在上下文聚合的过程施加分类的监督信号，并对所有阶段进行整合，获取最终检测。该发明避免了对高层信息的过度依赖，并对低层特征进行了充分的优化，同时，由于本发明采用的是逐步分数求精，而不是多次重复预测分数，因此通过自适应地逐步增加预测的残差，可以得到歧义性较小的分类分布。另外，为了得到最终分数，对求精的各阶段，我们的整合方式也有助于稳定分类分布，减少求精错误的副作用。

Description

一种基于逐步求精的多尺度目标检测方法

技术领域

本发明属于图像处理领域技术领域，具体涉及一种基于逐步求精的多尺度目标检测方法。

背景技术

基于图像或视频的目标检测是计算机视觉领域近几十年以及以后相当长一段时间内的研究热点，是视觉理解的基础。该技术能广泛的适应于目标跟踪、物体检测和识别、信息安全、自主驾驶、图像检索、机器人、人机交互、医学图像分析、物联网等学科和工程应用领域。

对于难样本，特别是小尺度目标的目标检测的鲁棒性一直是计算机视觉研究领域的难题。尽管深度卷积神经网络(CNN)强大的表示能力推动了图像分类的成功，但是目标检测任务还远远没有解决。一个主要原因是卷积检测器在处理难样本特别是小目标在分类的高歧义方面仍然存在困难。当前，针对这个问题，主要包括基于特征金字塔(多尺度特征融合)和级联检测器的方案：其中，基于特征金字塔(多尺度特征融合)最早是由Lin等人提出了特征金字塔网络(FPN)，该网络通过迭代上采样和元素级加法，将较高层次的判别特征融合到较低层次上。在此基础上，提出了TDM，将融合操作由元素级加法改为元素级联。除了这两项基本工作外，最近提出了一些更为复杂的特征金字塔融合方法，如FSSD、深度特征金字塔再组合、并行特征金字塔网络等。基于特征金字塔融合的方法普遍存在的问题是必须先获取融合后的特征图，然后在特征图上对其进行目标检测，而不需要直接对底层进行监督。由于更高级的特性更容易区分，因此很容易引起对更高级的信息的过度依赖，从而使准确级别上的特征没有得到充分的学习；级联方法是通过多次预测优化目标检测是获得更精确结果的另一种方法。目前，级联方法主要是两级检测器，如CRC、cascade R-CNN。CRC引入级联拒绝分类器，逐级拒绝容易的错误样本，从而减少候选区域的数量。但是一旦样品被错误地拒绝，它就不能被重新优化。级联R-CNN等方法通过在进一步转换的特征上优化迭代定位来实现级联。分类是沿级联级段重新预测，不需要显式优化机制。在测试时，多个阶段的预测被视为一个整体。虽然级联R-CNN具有较高的准确性，但其效率较低，因为它使头网络更加复杂，并且有一个整体操作来覆盖多个阶段的预测。

为了解决以上两种方法存在的诸多缺点，申请号为CN201710317066.7的中国发明专利公开了一种基于R-FCN的小目标检测方法，该发明主要包括：将待测图像导入卷积网络，按照从M个网络层的最顶层至最底层的顺序以及按照从M个网络层的最底层至最顶层的顺序通过M个网络层依次对待测图像进行特征提取，生成尺度不同的特征映射图，选取N层特征映射图导入RPN进行前后景分类，确定前景区域的坐标，将前景区域的坐标对应的特征映射块处理为特征向量；将各个特征向量输入分类器中进行二次分类，检测特征向量所属的类别是否对应待检测的小目标并输出检测结果，该发明采用top-down特征金字塔和down-top特征金字塔相结合的方式，虽然可以在不同尺度的特征映射图上进行小目标检测，可以减少对小目标的漏报，提高检测精度，但是，该发明仅仅是利用了融入了多尺度的特征映射图，在分类中融入了多尺度特征，却忽略了聚合过程中监督信号的使用，未在当前尺度上进行充分学习。

发明内容

为了避免对高阶特征的过度依赖，减少小目标分类处理过程中的歧义性，本发明提供一种基于逐步求精的多尺度目标检测方法，其通过上下文聚合的过程保留分类的监督信号，避免了对高层信息的过度依赖，并对低层特征进行了充分的优化，并通过自适应地逐步增加预测的残差，可以得到歧义性较小的分类分布。

为了达到上述目的，本发明所采用的技术方案是：一种基于逐步求精的多尺度目标检测方法，包括以下步骤：

S1、获取待测图像；

S2、将获取的待测图像输入神经网络中，然后从神经网络中的主干网上提取多个特征图x₁,x₂,...,x_n，每一个特征图上均分布着具有不同尺度的目标；

S3、将1×1卷积依次应用到特征图x₂,x₃,...,x_n上，生成一组新的并用于求精的特征图集合

S4、对主干网上的特征图x_i进行二次卷积，得到softmax的输入；

S5、对softmax的输入进行多次迭代求精并在求精的每个阶段用特定的权重直接保留分类的监督信号；

S6、在测试时重用所述特定的权重来整合在所有求精阶段softmax的输入，接着再使用另一个softmax来生成最终的分类分数。

进一步的，所述的步骤S5具体包括以下步骤：

S51、在每一个特征图中均预先设定一个目标候选框；

S52、将目标候选框中所包含的所有单元锚点的基本分类分布记作

是一个H_i×W_i×(K+1)A_i形状的张量，H_i×W_i是其中一个特征图x_i的空间大小，K+1是类的数量，A_i表示在其中一个特征图x_i中每个网格单元的锚点数量；

S53、从特征图集合

中提取k个特征图，分别为h_i+1,h_i+2,...,h_i+k，然后利用高层上下文特征h_i+1对

的一阶残差进行回归，该回归过程执行k次迭代，产生的每个阶段的求精softmax输入为：

其中，

为

的一阶残差；

S54、分别对

和

应用softmax后，得到基本分类分数

和k分类分数

S55、每个分类分数预测

的交叉损失通过加权因子λ_j进行计算，0≤λ_j≤1，然后将分类监督信号施加在j阶段：

S56、对跨阶段j的所有组件求和后，得到对于在x_i的目标分布的总的分类损失：

其中，λ_j控制在每一个阶段的监督信号的强度且

S57、对在x_i的目标分布的总的分类损失进行优化后得到：

其中，sum(·)表示张量所有元素的和。

进一步的，所述的步骤S6具体包括：

首先对所有阶段的权重因子群

进行权重求和，然后利用另一个softmax获得在尺度i的最终的分类分数：

进一步的，所述二次卷积采用3×3卷积。

与现有技术相比，本发明的有益效果是：本发明通过上下文聚合的过程保留分类的监督信号，避免了对高层信息的过度依赖，并对低层特征进行了充分的优化，同时，由于本发明采用的是逐步分数求精，而不是多次重复预测分数，因此通过自适应地逐步增加预测的残差，可以得到歧义性较小的分类分布。为了得到最终分数，对求精的各阶段，我们的整合方式也有助于稳定分类分布，减少求精错误的副作用。

附图说明

图1是本发明的流程示意图；

图2是本发明在某一尺度水平上目标的分类过程；

图3是本发明提出的PRN在SSD网络上的整体框架图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了避免对高阶特征的过度依赖，减少小目标分类处理过程中的歧义性，本发明提出了一种基于逐步求精的多尺度目标检测方法及实现该方法的一种增强尺度鲁棒性的新型网络，即逐步求精网络(PRN)，如图2所示，对于提出的PRN，其对分类分数(softmax分类器的输入)进行多次求精即通过逐步增加上层上下文回归残差，并在求精的每个阶段用特定的权重直接保留分类的监督信号。然后在测试时重用这组权重来整合在所有求精阶段softmax的输入，接着再使用另一个softmax来生成最终的分类分数。在本发明中，定位是致力于当前的特征级，或者从更高级别特征解耦出来的。

PRN通过上下文聚合的过程保留分类的监督信号，避免了对高层信息的过度依赖，并对低层特征进行了充分的优化，同时，由于采用的是逐步分数求精，而不是多次重复预测分数，因此通过自适应地逐步增加预测的残差，可以得到歧义性较小的分类分布。为了得到最终分数，对求精的各阶段，我们的整合方式也有助于稳定分类分布，减少求精错误的副作用。最后，与高层特征解耦，在小尺度上定位时引入具有更多空间信息的特征。

基于此，本发明提出了一种基于逐步求精的多尺度目标检测方法，该方法沿着上下文聚合自适应地添加多个残差，逐步求精分类分数，并控制阶段监督。

PSR(Progressive Refinemen)是本发明的关键部分。总得来说，其主要目标是减少难样本(多为小目标)预测分类分布的歧义性。为此，我们将残差逐步添加到基本分类预测的softmax输入中，得到几个分类预测，并在此过程中逐步求精。在每个阶段用于优化分布的残差是从一些高层上下文中获得的。与特征金字塔融合不同的是，在低层次的特征上并不直接保留监督信号(它们将整个监督施加到已经融合的表示上)，它在每个阶段使用一个权重因子对优化的输出施加分类监督信号。

一、本发明所采用的方案具体如下：

如图1所示，假设有n个通过主干网提取的特征图x₁,x₂,...,x_n，这些特征图上分布着不同尺度的目标；

第一步，将1×1卷积依次应用到主干网的特征图x₂,x₃,...,x_n上，生成一组新的特征图集合h₂,h₃,...,h_n，通道数量减少了一半，生成的

被认为是用于求精的特征图，特征图集合一旦获得，它们通常是用于任何尺度和任何阶段的分类求精，接下来，对于某一个特定i尺度，我们对主干网上的特征图x_i进行3×3卷积，这就得到了softmax的输入，将第i层所有单元锚点(预先设定的目标候选框)的基本分类分布记作

是一个H_i×W_i×(K+1)A_i形状的张量，H_i×W_i是x_i的空间大小，K+1是类的数量，A_i表示在x_i每个网格单元的锚点数量。

然后从集合

中提取k个特征图，即h_i+1,h_i+2,...,h_i+k。在优化的第一阶段，利用高层上下文特征h_i+1对

的一阶残差进行回归。我们将

的一阶残差表示为

然后将其加入到前一阶段求精的softmax输入中，得到求精的softmax输入

这个过程执行k次迭代。对于j阶段优化(1≤j≤k)，第j阶残差

是从上层上下文h_i+j通过对于x_i的尺寸的双线性差值的升采样获得h_i+j，即在H_i×W_i内进行双线性差值的升采样和应用膨胀率j的3×3卷积。通过逐步聚合过程，产生每个阶段的求精softmax输入:

得到

及其k优化后的

我们分别对它们中的每一个应用softmax，得到

(基本分类分数)和

(k分类分数)，对于每个分类分数预测

的交叉损失通过加权因子λ_j进行计算，0≤λ_j≤1，然后将分类监督信号施加在j阶段

对跨阶段j的所有组件求和，此处的0≤j≤k，得到对于在x_i的目标分布的总的分类损失：

其中λ_j控制在每一个阶段的监督信号的强度且

进一步简化的损失形式如下:

其中sum(·)表示张量所有元素的和，这是为了避免由log(·)乘积引起的一些数值问题。

为了得到在尺度i上分类的最终预测，我们首先对所有阶段softmax利用作为控制监督信号强度的相同权重因子群

进行权重求和(包括0阶段对应的基础检测器)，然后利用另一个softmax获得在尺度i的最终的分类分数，在i的最终预测形式如下所示：

本发明建立了分类的显式模型，通过保留各阶段的监督信号来手动控制上下文聚合过程。这有助于检测器在不同语义层次的优化之间找到一个平衡点，并允许对较低层次的特征进行更充分的优化，从而避免了模型过分依赖于较高层次的信息。预测残差的迭代叠加可以自适应地调整分类分布，在一定的尺度上降低了预测的歧义性。此外，多阶段细化的加权积分得到最终的分类分数，是稳定最终预测的有效方法并减轻了错误求精的副作用。

二、从高层特征去耦定位

从骨干网的低层特征到高层特征，进行多次池化、大跨步卷积等欠采样。这使得许多空间细节逐渐减少。因此，在需要更多位置敏感信息的情况下，更高级的特征在更小的级别上促进对象定位的可能性更小。

本发明中只使用每个尺度级别的原始主干特征图来定位目标，因此，更高级的特性只用于分类求精，并且与定位解耦，根据本发明建模，使用更高级别的特征也很容易形成类似的逐步定位求精(PLR)过程。

三、基于SSD的PRN整体架构

采用SSD作为PRN的基线框架，以验证本发明的有效性。

其采用的主干网为VGGNet，与原来的SSD完全相同。输入大小300×300，如图3所示，为了在不同尺度下检测目标，利用SSD提取6个尺度特征图，提取的特征图依次为是conv4_3，conv7，conv8_2，conv9_2，conv10_2，和conv11_2。对应的空间尺度是38，19，10，5，3，1和通道数是512，1024，512，256，256，256，对应的，进一步表示6个特征图为x₁,x₂,...,x₆。由于小目标通常分布在较低的级别，我们对尺度1、2、3级进行逐步的分数优化。针对优化k的阶段数目设定为2，利用权重控制在每个阶段的分类监督信号的强度，λ₀＝λ₁＝0.25，λ₂＝0.5，因为本发明中做的PSR的最高等级是3级，因此本实施例中做2个阶段的PSR，h_i最高的等级是h₅。所以，我们在x₂到x₅输出减半，利用1×1的卷积，得到在h₂到h₅作为用于优化的特征图，h₆是被忽略的。对于水平4，5和6，分类模型与原始的SSD保持一致。定位只需要主干特征图x₁,x₂,...,x₆。

对于在第7级通过基本的SSD提取的大小512×512的输入，对于尺度1，2，3和4，我们利用2阶段的PSR。其他设定与300×300输入尺寸设定是一样的。我们得到的两种输入尺寸下的模型分别表示为PRN300和PRN512。

训练的目标函数：对于PRN，总的训练目标函数由两部分组成：

L＝L_cls+αL_loc (6)

分类损失L_cls表示为：

第一部分对应于在PSR应用于第1级到m级。对于这些级别，分类损失的定义如上面逐步求精部分所示。第二部分对应于不执行PSR的其他级别。对于这些级别，分类损失与基准SSD相同。在PRN300设置下，m＝3，n＝6。在PRN512设置下，m＝4，n＝7。边框回归L_loc的定位损失与原始SSD中的定义相同。使用因子α来平衡定位和分类，本实施例中根据经验设置为2.5。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。