CN112949779A

CN112949779A - 全局特征增强的小目标特征提取方法及装置

Info

Publication number: CN112949779A
Application number: CN202110422057.0A
Authority: CN
Inventors: 冯帅; 牛照东; 李沛秦; 李辉; 王玉朋; 李悦
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2021-06-11

Abstract

本发明提供一种全局特征增强的小目标特征提取方法和装置。所述方法包括：前向传播得到多尺度特征图；对所述多尺度特征图进行全局语义增强；多路径融合增强多尺度特征；微调融合特征；缩放融合特征再和增强特征短连接；对目标进行检测。所述方法通过全局语义增强模块对小目标的信息进行全局建模，增强小目标在特征图中的显著性，提高小目标的识别检测能力；通过在特征金字塔中进行多路径融合，可提高检测小目标的准确率。另外，本发明提供的全局语义增强模块可方便地嵌入到现有的多种网络结构中，实现在不同的网络结构对小目标进行特征增强，普适性强。

Description

全局特征增强的小目标特征提取方法及装置

技术领域

本发明涉及深度学习目标检测领域，具体地，涉及一种全局特征增强的小目标特征提取方法及装置。

背景技术

目标检测是计算机视觉领域中最基本的问题之一，可用于大量应用领域，如自动驾驶、智能视频监控、遥感等。近年来，由于深度卷积网络的蓬勃发展，目标检测实现了巨大的进步。但是，在深度学习目标检测中，特别是在分辨率低、图片模糊、信息少、噪音多的情况下，检测小目标变得十分困难。另外，当在一张图上若要检测的物体的尺度和宽长比跨度很大时，需要大的感受野，因此检测小目标时，可能无法从深层的特征中获取所需要的高分辨率的特征表示，故而使得检测小目标变得十分困难。

专利202010444356X对包含小目标的遥感图像进行超分辨处理后再进行目标检测。专利2020103930934利用一种稠密的特征金字塔网络结构对VGG16提取的特征信息进行强化融合，在同一特征层上增加预测框的部署密度以及在同一特征层上通过增加不同尺度大小的预测框。专利2020104613842先通过轻量级分割网络搜索兴趣区，再在兴趣区域运行检测模型。专利2020104840812发明多尺度加宽残差网络包括串行连接的多尺度加宽卷积层、多尺度加宽残差网络单元结构，来提高小目标物体识别的准确度。专利2020103460943在不同尺度下训练低分辨率检测器，并应用其进行检测，得到不同尺度下的检测结果，最后将这些检测结果进行融合。

上述的方法在超分辨预处理、密集预测、级联分割网络、多尺度训练等方面进行创新，通过增强小目标在特征图上的语义信息提高对小目标的检测能力，但是上述的方法普遍拉长了训练和检测流程，且处理复杂、难度大。

发明内容

针对现有技术存在的问题，本发明提出一种基于全局特征增强的小目标提取方法。该方法通过非局部算子计算特征图中每个像素和图像中所有位置的相关性，通过关注特征图中所有位置，并在嵌入空间中取其加权平均值，来计算特征图中当前位置的响应，从而增强小目标的语义信息。

所述方法包括：

Step1：前向传播得到多尺度特征图；

Step2：对所述多尺度特征图进行全局语义增强；

Step3：多路径融合增强多尺度特征；

Step4：微调Step3所得融合特征；

Step5：缩放Step4所得融合特征再和Step3所得增强特征短连接；

Step6：对目标进行检测。

在其中一个实施例中，步骤Step2具体为：

使用非局部算子构造全局语义增强模块以计算Step1所得特征图每个像素和其图像中所有位置的相关性，通过关注所述特征图中所有位置，并在嵌入空间中取其加权平均值来计算所述特征图中当前位置的响应以增强所述特征图中小目标的语义信息。

在其中一个实施例中，所述非局部算子公式如下：

其中，x是输入的特征图；i是特征图中当前位置的索引，j是特征图中所有可能的位置，i的响应是对j进行枚举后计算得到的；

f是计算当前位置i和其他位置相关性的函数，为嵌入式高斯形式；公式如下：

其中，高斯距离的计算，

θ(x_i)＝W_θx_i

Φ(x_j)＝W_Φx_j

g是一元输入函数，通过1×1卷积实现进行信息变换：

g(x_j)＝W_gx_j

C是归一化函数；y是和x分辨率一样大的输出特征图。

在其中一个实施例中，步骤Step3具体为：通过自上而下的路径和横向连接的架构，将低分辨率的深层特征图与高分辨率的浅层特征图结合起来。

在其中一个实施例中，步骤Step4具体为：把Step3后所得特征图缩放到同一尺度并相加融合，并使用卷积对融合特征进行微调。

在其中一个实施例中，步骤Step5具体为：把Step4中微调后的融合特征重新缩放到与Step3中特征图相同的尺度，并和Step3中增强处理后的特征图相加融合，得到特征增强的多尺度特征图。

本发明还提供一种基于全局特征增强的小目标提取装置，包括：目标检测器，用于接收输入的图片，并通过前向传播输出多尺度特征图；

全局语义增强模块，包括非局部算子，用于对所述多尺度特征图进行语义增强处理，通过计算特征图中任意两个位置之间的相关性，关注特征图中所有位置，并在嵌入空间中取其加权平均值来计算特征图中当前位置的响应以增强特征图中小目标的语义信息；

多路径融合模块，用于通过自上而下的路径和横向连接的架构，将低分辨率的深层特征图与高分辨率的浅层特征图结合起来，以增强特征图的多尺度特征；

融合特征微调模块，用于将所述多路径融合模块输出的多尺度特征图缩放到同一尺度并相加融合，并使用卷积微调融合后的特征；

缩放与短连接模块，用于将微调后的融合特征重新缩放到与所述多路径融合模块输出的多尺度特征图相同的尺度，并和所述多路径融合模块处理后的特征图相加融合，得到特征增强的多尺度特征图；

目标检测模块，用于在多尺度特征图上进行目标检测。

在其中一个实施例中，所述全局语义增强模块通过非局部算子构造为残差形式，公式表示为：

z_i＝W_zy_i+x_i

其中，+x_i代表残差连接。

本发明还提供一种计算机设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。

本发明还提供一种计算机存储介质，所述计算机存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1-6任意一项所述的方法。

通过上述处理，可实现对小目标的特征增强，并且整体提高深度神经网络的性能，其创新点在于：

一、通过全局语义增强模块对小目标的信息进行全局建模，增强小目标在特征图中的显著性，在特征金字塔中进行多路径融合后，可提高小目标的检测准确率。

二、所述全局语义增强模块可方便嵌入到现有的各种网络结构中对小目标进行特征增强，普适性强。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图，其中：

图1是本发明提供的全局特征增强的小目标特征提取方法的流程示意图；

图2是本发明提供的一个较佳实施例中全局特征增强的小目标特征提取方法的流程细节示意图；

图3是本发明提供的一个较佳实施例中全局语义增强模块结构示意图；

图4是本发明提供的一个较佳实施例中全局特征增强的小目标特征提取装置结构示意图；

图5是本发明提供的一个较佳实施例中计算机设备内部结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。

下面结合附图对本发明的实施方式进行详细说明。

在一个实施例中，如图1和图2所示，提供了一种全局特征增强的小目标特征提取方法，具体流程如下：

Step1：前向传播得到多尺度特征图。

如图4所示，将图片输入目标检测器101主干网络，通过所述主干网络的不同卷积层前向传播输出不同尺度的特征图。

目标检测器101通常使用主干网络来提取图片基本特征，具体的，本发明可使用现有任一目标检测器或其任一结合，如SSD、Faster R-CNN、Retinanet、FPN、Mask R-CNN、Cascade R-CNN等及其结合(非一一枚举)。所述主干网络可以是现有任一主干网络或其集成，如VGG、ResNet、DenseNet、ResNeXt等当中的一种或者集成(非一一枚举)。

Step2：对所述多尺度特征图进行全局语义增强。

具体的，使用非局部算子计算Step1所得多尺度特征图中每个像素和图像中所有位置的相关性，通过关注所述特征图中所有位置，并在嵌入空间中取其加权平均值，来计算所述特征图中当前位置的响应，从而增强小目标的语义信息。

所述非局部算子公式为：

其中，x是输入的特征图；i是特征图中当前位置的索引，j是特征图中所有可能的位置，i的响应是对j进行枚举后计算得到的；f是计算当前位置i和其他位置相关性的函数；g是一元输入函数，进行信息变换；C是归一化函数；y是和x分辨率一样大的输出特征图。可以使用点积计算相关度，如果f选择使用高斯函数来计算特征图上两个位置的相关性，则可以通过指数映射，放大特征图两个位置的点乘，具体公式如下：

点积x_i ^Tx_j之所以可以衡量相似度，是在余弦相似度的基础上进行简化得到的：

嵌入式高斯的公式如下：

高斯形式是在当前的特征图上直接计算，嵌入式高斯更加通用，在嵌入空间中计算高斯距离，其中：

θ(x_i)＝W_θx_i

Φ(x_j)＝W_Φx_j

g是一元输出函数，通过信息变换增强特征表示，可以看作是线性转化，通过1×1卷积就可以实现：

g(x_j)＝W_gx_j

c是归一化函数。对于一个有j个元素的数组V，数组V的第i个元素是V_i，那么V_i的softmax值为：

数组中某一元素的softmax值，是这一元素的指数和数组中所有元素指数和的比值。

可以看出

是softmax的形式：

如图3所示，提供了全局语义增强模块(英文缩写NLE)的网络结构示意图。所述全局语义增强模块102包括1×1卷积、非局部算子(图中用Softmax表示)、像素乘积操作(图中用符号

表示)以及像素相加融合操作(图中用符号

表示)。通过用两个1×1卷积做像素乘积操作；再传输给所述非局部算子进行处理后，与另一1×1卷积做像素乘积操作，再通过1×1卷积和输入的特征图进行相加融合后输出。上述非局部算子构造的全局语义增强模块102，可以保证输入尺度和输出尺度不变，并且容易嵌入到目前的网络架构中，只需设置W_Z初始化为0，然后在迁移学习中学习新的权重，这样就不会因为引入了新的模块而导致预训练权重无法使用。

具体的，所述全局语义增强模块102构造成残差的形式，表示为：

z_i＝W_zy_i+x_i

其中，+x_i代表残差连接。所述结构可有效解决神经网络退化、梯度弥散等问题，大大增强网络泛化能力。通过全局语义增强模块对Step1中的特征图进行语义增强处理，计算特征图中任意两个位置之间的相关性，相当于构造了一个和特征图谱尺寸一样大的卷积核，在全局信息中构造小目标和其他位置的依赖关系，从而维持小目标更多的信息。本发明提供的全局语义增强模块102可方便的嵌入到现有的网络结构中实现对小目标进行特征增强，使小目标检测更容易，应用效果更好。

Step3：多路径融合增强多尺度特征；

通过自上而下的路径和横向连接的架构，将低分辨率的深层特征图与高分辨率的浅层特征图结合起来。利用卷积网络特征层次结构的金字塔形状，并同时创建一个在所有尺度上有强语义的特征金字塔，该结构通过从上而下的路径和横向连接，来将低分辨率但语义强的特征和高分辨率但语义弱的特征结合起来以提高目标检测效果。因为深层网络的感受野比较大，语义信息表征能力强，能够帮助我们准确的检测或分割出目标，但是特征图的分辨率低，几何信息的表征能力弱，空间几何特征细节缺乏；浅层网络的感受野比较小，几何细节信息表征能力强，虽然分辨率高，但是语义信息表征能力弱。

Step4：微调融合特征。

具体的，把Step3中特征图缩放到同一尺度并相加融合，使用卷积对融合的特征进行微调。优选的，这里的卷积为3×3卷积。

Step5：缩放融合特征再和增强特征短连接；

具体的，把Step4中微调后的融合特征重新缩放到和Step3中特征图相同的尺度，并和Step3中融合增强处理后的特征图相加融合,得到特征增强的多尺度特征图。

Step6：在Step5的多尺度特征图上进行目标检测。

通过上述处理，可实现对小目标的特征增强，并且整体提高卷积神经网络的性能，具体为：通过全局语义增强模块102对小目标的信息进行全局建模，增强小目标在特征图中的显著性。在特征金字塔中进行多路径融合后，可提高小目标的检测准确率。

如图4所示，是实施本发明的实施例的小目标检测装置。包括相互连接的目标检测器101、全局语义增强模块102、多路径融合模块103、融合特征微调模块104、缩放与短连接模块105和目标检测模块106。

目标检测器101，用于接收输入的图片，并输出不同尺度的特征图。全局语义增强模块102，用于对所述多尺度特征图进行语义增强处理，通过计算特征图中任意两个位置之间的相关性，关注特征图中所有位置，并在嵌入空间中取其加权平均值来计算特征图中当前位置的响应，从而增强小目标的语义信息。多路径融合模块103，用于通过自上而下的路径和横向连接的架构，将低分辨率的深层特征图与高分辨率的浅层特征图结合起来，以增强特征图的多尺度特征；融合特征微调模块104，用于将所述多路径融合模块103输出的多尺度特征图缩放到同一尺度并相加融合，并使用卷积微调融合后的特征；缩放与短连接模块105，用于将微调后的融合特征重新缩放到与所述多路径融合模块103输出的多尺度特征图相同的尺度，并和所述多路径融合模块103融合增强处理后的特征图相加融合，得到特征增强的多尺度特征图；目标检测模块106，用于在多尺度特征图上进行目标检测。通过所述装置，可实现对小目标的特征增强和检测，提高检测准确率并且整体提高卷积神经网络的性能，使得深度神经网络在目标检测的应用范围更广。

如图5所示，是实施本发明的实施例的计算机设备。可以包括一个或多个中央处理单元(CPU)，其可以根据存储在只读存储器(ROM)中的计算机程序指令或者从存储单元加载到随机访问存储器(RAM)中的计算机程序指令，来执行各种适当的动作和处理。在RAM中，还可存储设备操作所需的各种程序和数据。CPU、ROM以及RAM通过总线彼此相连。输入/输出(I/O)接口也连接至总线。

设备中的多个部件连接至I/O接口，包括：输入单元，例如键盘、鼠标等；输出单元，例如各种类型的显示器、扬声器等；存储单元，例如磁盘、光盘等；以及通信单元，例如网卡、调制解调器、无线通信收发机等。通信单元允许设备通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

上文所描述的方法例如可由设备的处理单元执行。例如，在一些实施例中，方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元。在一些实施例中，计算机程序的部分或者全部可以经由ROM和/或通信单元而被载入和/或安装到设备上。当计算机程序被加载到RAM并由CPU执行时，可以执行上文描述的方法的一个或多个动作。

然而本领域技术人员可以理解，方法的步骤的执行并不局限于图中所示和以上所述的顺序，而是可以以任何其他合理的顺序来执行,或者可以并行执行。此外，设备也不必须包含上述所有组件，其可以仅仅包含执行本发明中所述的功能所必须的其中一些组件，并且这些组件的连接方式也可以形式多样。例如，在设备是诸如手机之类的便携式设备的情况下，可以具有与上述相比不同的结构。

本发明可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言-诸如Smalltalk、C++等，以及常规的过程式编程语言-诸如"C"语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络-包括局域网(LAN)或广域网(WAN)-连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上所述的本发明实施方式，并不构成对本发明保护范围的限定，任何在本发明精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明的权利要求保护范围之内。

Claims

1.一种全局特征增强的小目标特征提取方法，其特征在于，所述方法包括：

Step1：前向传播得到多尺度特征图；

Step2：对所述多尺度特征图进行全局语义增强；

Step3：多路径融合增强多尺度特征；

Step4：微调Step3所得融合特征；

Step5：缩放Step4所得融合特征再和Step3所得增强特征短连接；

Step6：对目标进行检测。

2.根据权利要求1所述的全局特征增强的小目标特征提取方法，其特征在于，步骤Step2具体为：

3.根据权利要求2所述的全局特征增强的小目标特征提取方法，其特征在于，所述非局部算子公式表示如下：

f是计算当前位置i和其他位置相关性的函数，为嵌入式高斯形式，公式如下：

其中，高斯距离的计算，

θ(x_i)＝W_θx_i

Φ(x_j)＝W_Φx_j

g是一元输入函数，通过1×1卷积实现进行信息变换：

g(x_j)＝W_gx_j；

C是归一化函数；y是和x分辨率一样大的输出特征图。

4.根据权利要求3所述的全局特征增强的小目标特征提取方法的方法，其特征在于，步骤Step3具体为：

通过自上而下的路径和横向连接的架构，将低分辨率的深层特征图与高分辨率的浅层特征图结合起来。

5.根据权利要求4所述的全局特征增强的小目标特征提取方法的方法，其特征在于，步骤Step4具体为：

把Step3后所得特征图缩放到同一尺度并相加融合，并使用卷积对融合特征进行微调。

6.根据权利要求5所述的全局特征增强的小目标特征提取方法的方法，其特征在于，步骤Step5具体为：

把Step4中微调后的融合特征重新缩放到与Step3中特征图相同的尺度，并和Step3中增强处理后的特征图相加融合，得到特征增强的多尺度特征图。

7.一种全局特征增强的小目标特征提取装置，其特征在于，包括：

目标检测器，用于接收输入的图片，并通过前向传播输出多尺度特征图；

目标检测模块，用于在多尺度特征图上进行目标检测。

8.根据权利要求7所述的全局特征增强的小目标特征提取装置，其特征在于，

所述全局语义增强模块通过非局部算子构造为残差形式，公式表示为：

z_i＝W_zy_i+x_i

其中，+x_i代表残差连接。

9.一种计算机设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

10.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1-6任意一项所述的方法。