CN115294361A

CN115294361A - 一种特征提取的方法及装置

Info

Publication number: CN115294361A
Application number: CN202210836730.XA
Authority: CN
Inventors: 张渊佳; 李响; 陈金; 孟祥松; 陈硕; 马博闻
Original assignee: Tianyi Cloud Technology Co Ltd
Current assignee: Tianyi Cloud Technology Co Ltd
Priority date: 2022-07-15
Filing date: 2022-07-15
Publication date: 2022-11-04

Abstract

本发明实施例涉及一种特征提取的方法及装置。该方法包括：采用多个卷积层对目标图像进行卷积处理，得到第一特征图；将所述第一特征图分别输入至多个具有不同膨胀系数的第一空洞卷积层进行卷积处理，得到N个表征不同尺度的第二特征图；基于注意力机制确定所述N个第二特征图分别对应的N个尺度比例系数；基于所述N个第二特征图和所述N个第二特征图各自对应的尺度比例系数进行特征提取，得到所述目标图像的最终特征图。既深入提取了目标图像的语义信息，又在特征提取的过程中关注不同尺度的目标的空间信息，在满足大目标的检测精度的同时，又提高了小目标的检测精度，兼顾了多尺度目标的检测需求。

Description

一种特征提取的方法及装置

技术领域

本发明实施例涉及计算机视觉技术领域，尤其涉及一种特征提取的方法、装置、计算设备及计算机可读存储介质。

背景技术

特征提取在图像处理领域起着非常重要的作用，例如目标检测、图像分类等。下面以目标检测为例，详细介绍特征提取在目标检测中的应用。

目标检测是指计算机根据输入的图片自动识别出图像中的物体并把它们的位置在图片中框出来。随着人工智能的不断发展，深度学习目标检测算法逐渐取代传统的目标检测方法。深度学习目标检测算法是指通过大量的样本图像对目标检测网络进行训练，之后将一张图像输入至训练好的目标检测网络，目标检测网络会输出针对该张图像进行目标检测的结果。

其中，多尺度目标检测一直是一个难题，即单个目标检测网络不能同时兼顾尺度大的目标和尺度小的目标的检测精度。例如，在一张图像上各目标具有不同的尺度(离相机远的物体与离相机近的物体在图像中成像的尺度不同)；同一个目标由于与相机发生相对运动所以距离相机的距离不同，那么该目标在不同的图像上也具有不同的尺度。而深度学习在目标检测领域主要是通过对图像进行不断的堆叠卷积从而提取出信息更为丰富的图像特征。随着卷积层数的加深，获得的图像特征中包含的语义信息越来越丰富，对图像中大目标的检测越来越精确，但是空间信息却随着卷积层数的加深被不断地弱化，这样就导致图像中的小目标的检测愈发的不准确。

目前研究者针对多尺度目标检测提出了一种方法：利用卷积过程中生成的不同分辨率的特征分别对不同尺度的物体进行目标检测。例如，将卷积层数多时获得的分辨率较小但是语义信息更为丰富的高维特征与卷积层数少时获得的分辨率较大的底层特征缩放至相同的尺寸后，进行叠加，将叠加后的特征用于后续的目标检测步骤；这样的话高维特征能够用于对尺度较大的物体进行目标检测，底层特征能够用于对尺度较小的物体进行目标检测。但是，分辨率大的底层特征由于卷积层数少，语义信息不够，因此基于上述方式得到的叠加后的特征进行目标检测，对小目标的检测精度依然不高。

发明内容

本发明实施例提供一种特征提取的方法，用以提高对图像中小目标的检测精度。

第一方面，本发明实施例提供一种特征提取的方法，包括：

采用多个卷积层对目标图像进行卷积处理，得到第一特征图；所述多个卷积层中的至少一个卷积层的输入特征图和输出特征图的尺寸相同；

将所述第一特征图分别输入至多个具有不同膨胀系数的第一空洞卷积层进行卷积处理，得到N个表征不同尺度的第二特征图；

基于注意力机制确定所述N个第二特征图分别对应的N个尺度比例系数；其中，所述尺度比例系数用于表征对应的第二特征图对特征提取的作用程度；

基于所述N个第二特征图和所述N个第二特征图各自对应的尺度比例系数进行特征提取，得到所述目标图像的最终特征图。

采用多个卷积层对目标图像进行卷积处理，由于多个卷积层中的至少一个卷积层的输入特征图和输出特征图的尺寸相同，因此得到的第一特征图能够保留更多的空间信息。基于空间信息保留较多的第一特征图继续进行特征提取，有利于提高小目标的检测精度。在对第一特征图继续进行特征提取时，将第一特征图分别输入至具有不同膨胀系数的第一空洞卷积层进行卷积处理，具有不同膨胀系数的第一空洞卷积层能够生成不同感受野的多个第二特征图，也就是说，多个第二特征图能够表征不同尺度目标的特征。基于注意力机制确定所述N个第二特征图分别对应的N个尺度比例系数，N个尺度比例系数由于基于注意力机制获得，因此能够反映出对应的第二特征图对特征提取的作用程度。通过提取尺度比例系数，就能自适应地调整对不同目标图像的关注重点。基于N个第二特征图和所述N个第二特征图各自对应的尺度比例系数进行特征提取，得到最终特征图。以上获得最终特征图的方式既深入提取了目标图像的语义信息，又在特征提取的过程中关注不同尺度的目标的空间信息，在满足大目标的检测精度的同时，又提高了小目标的检测精度，兼顾了多尺度目标的检测需求。

在一些实施例中，所述多个卷积层中包括至少一个第二空洞卷积层；所述第二空洞卷积层的输入特征图和输出特征图的尺寸相同。

采用第二空洞卷积层，能够增加感受野，进一步保证了得到的第一特征图能够保留更多的空间信息。

在一些实施例中，基于注意力机制确定所述N个第二特征图分别对应的N个尺度比例系数，包括：

针对任一第二特征图，通过对所述第二特征图进行逐通道卷积DW卷积处理和逐点卷积PW卷积处理，得到所述第二特征图对应的特征向量；

通过全连接层对所述N个第二特征图对应的N个特征向量进行空间信息的权重提取，得到所述N个第二特征图分别对应的N个尺度比例系数。

DW卷积能够将每个通道内的信息进行整合和提取，PW卷积能够将通道间的信息进行提取和整合，通过全连接层对N个第二特征图对应的N个特征向量进行空间信息的权重提取，从而得到N个尺度比例系数，如此利用最少的参数完成包含尺度比例信息的提取。

在一些实施例中，基于所述N个第二特征图和所述N个第二特征图各自对应的尺度比例系数进行特征提取，得到所述目标图像的最终特征图，包括：

针对任一第二特征图，采用所述第二特征图对应的尺度比例系数为所述第二特征图进行加权，得到所述第二特征图对应的第三特征图；

将所述N个第二特征图对应的N个第三特征图进行拼接，对拼接后的特征图进行卷积处理，得到所述目标图像的最终特征图。

第二特征图是基于第一特征图获得的，因此第二特征图是在保留了较多空间信息的情况下，得到的不同尺度的目标的特征。采用上述方式对第二特征图进行处理，既深入提取了语义信息，又在特征提取的过程中关注不同尺度的目标的空间信息，在提高大目标的检测精度的同时，提高了小目标的检测精度。

在一些实施例中，将所述第一特征图分别输入至多个具有不同膨胀系数的第一空洞卷积层进行卷积处理，得到N个第二特征图，包括：

将所述第一特征图分别输入至N-1个具有不同膨胀系数的第一空洞卷积层进行卷积处理，得到N-1个第二特征图；

通过对所述第一特征图进行平均池化处理、卷积处理和插值处理，得到1个第二特征图。

空洞卷积虽然能够增加感受野，但是由于空洞的存在，可能会丢失关键信息。因此不仅采用第一空洞卷积层对第一特征图进行卷积处理，还对第一特征图进行平均池化处理，对特征图进行压缩简化网络计算复杂度的同时，还能够保留关键信息。继而进行卷积处理进一步提取特征，插值处理能够使该第二特征图与经过空洞卷积得到的第二特征图尺寸相同。

在一些实施例中，采用多个卷积层对目标图像进行卷积处理，得到第一特征图，包括：

将所述目标图像输入至第一层进行特征提取，得到第四特征图；所述第一层中包括至少一个非空洞卷积层；

采用第二层和第三层对所述第四特征图进行特征提取，得到第五特征图；所述第二层中包括至少一个第一残差结构；所述第三层中包括至少一个第一残差结构；所述第一残差结构中包括至少一个非空洞卷积层。

采用第四层和第五层对所述第五特征图进行特征提取，得到所述第一特征图；所述第四层中包括至少一个第二残差结构；所述第五层中包括至少一个第二残差结构；所述第二残差结构中包括至少一个第二空洞卷积层。

若第一层就采用非空洞卷积，则可能提取的语义信息不够丰富，影响之后的语义信息的提取。因此第一层采用非空洞卷积，可以提取到更加深层次的语义信息。第二层和第三层采用第一残差结构进行特征提取，第一残差结构包括至少一个非空洞卷积层，能够提取到更加深层次的语义信息的同时，减少空间信息的丢失。第四层和第五层采用第二残差结构进行特征提取，由于第二残差结构中包括至少一个第二空洞卷积层，因此在继续进行语义信息提取的同时，增加感受野，进一步保证了得到的第一特征图保留更多的空间信息。

在一些实施例中，所述第二空洞卷积层的步距为1。

步距越大，在卷积的过程中越容易漏掉信息，因此为了保证尽可能多地保留空间信息，设置步距为1。

第二方面，本发明实施例还提供一种特征提取的装置，包括：

处理单元，用于：

可选地，所述多个卷积层中包括至少一个第二空洞卷积层；所述第二空洞卷积层的输入特征图和输出特征图的尺寸相同。

可选地，所述处理单元具体用于：

可选地，所述第二空洞卷积层的步距为1。

第三方面，本发明实施例还提供一种计算设备，包括：

存储器，用于存储计算机程序；

处理器，用于调用所述存储器中存储的计算机程序，按照获得的程序执行上述任一方式所列的特征提取的方法。

第四方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行程序，所述计算机可执行程序用于使计算机执行上述任一方式所列的特征提取的方法。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种特征提取的方法的示意图；

图2为本发明实施例提供的一种现有的ResNet50的结构的示意图；

图3a为本发明实施例提供的一种现有的残差结构bottleneck2的结构的示意图；

图3b为本发明实施例提供的一种现有的残差结构bottleneck1的结构的示意图；

图4为本发明实施例提供的传统卷积层和空洞卷积层的示意图；

图5为本发明实施例提供的一种得到N个第二特征图的示意图；

图6a为本发明实施例提供的一种改进的残差结构bottleneck2的结构的示意图；

图6b为本发明实施例提供的一种改进的残差结构bottleneck1的结构的示意图；

图7为本发明实施例提供的一种得到第一特征图的示意图；

图8为本发明实施例提供的一种得到N个第二特征图的示意图；

图9a为本发明实施例提供的一种DW卷积的示意图；

图9b为本发明实施例提供的一种PW卷积的示意图；

图10为本发明实施例提供的一种对5个第二特征图进行处理得到5个尺度比例系数的示意图；

图11为本发明实施例提供的一种得到第三特征图的示意图；

图12为本发明实施例提供的一种得到最终特征图的示意图；

图13为本发明实施例提供的一种采用最终特征图进行目标检测的示意图；

图14为本发明实施例提供的一种特征提取的装置的结构示意图；

图15为本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请的目的、实施方式和优点更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，所描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

基于本申请描述的示例性实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请所附权利要求保护的范围。此外，虽然本申请中公开内容按照示范性一个或几个实例来介绍，但应理解，可以就这些公开内容的各个方面也可以单独构成一个完整实施方式。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明(Unless otherwise indicated)。应该理解这样使用的用语在适当情况下可以互换，例如能够根据本申请实施例图示或描述中给出那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的那些组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

随着人工智能的不断发展，深度学习目标检测算法逐渐取代传统的目标检测方法。深度学习目标检测算法是指通过大量的样本图像对目标检测网络进行训练，之后将一张图像输入至训练好的目标检测网络，目标检测网络会输出针对该张图像进行目标检测的结果。

深度学习目标检测算法主要分为两类：第一类为基于候选区域的目标检测算法；基于候选区域的目标检测方法分为两个阶段，第一个阶段是在原图上生成大小不一的矩形框，然后分别对矩形框所对应的特征进分类预测和边界框回归预测。主要包括基于区域的卷积神经网络(Region--based Convolutional Neural Network，RCNN)、基于区域的快速卷积神经网络(Fast Region-based Convolutional Neural Network，Fast-RCNN)、基于区域的更快的卷积神经网络(Faster Region-based Convolutional Neural Network，Faster-RCNN)等；第二类为基于回归的目标检测算法，基于回归的目标检测算法摒弃了先在原图上生成矩形框的步骤，直接使用一个网络对目标进行分类预测和边界框回归。代表方法为单激发多盒探测器(Single Shot MultiBox Detector，SSD)、YOLO等，由于减少了区域生成网络，大幅地节约了时间成本，在速度上达到了近乎实时的效果。

基于上述问题，本发明实施例提供一种特征提取的方法，能够兼顾不同尺度的目标的检测精度。如图1所示，包括：

步骤101，采用多个卷积层对目标图像进行卷积处理，得到第一特征图；所述多个卷积层中的至少一个卷积层的输入特征图和输出特征图的尺寸相同。

步骤102，将所述第一特征图分别输入至多个具有不同膨胀系数的第一空洞卷积层进行卷积处理，得到N个表征不同尺度的第二特征图。

步骤103，基于注意力机制确定所述N个第二特征图分别对应的N个尺度比例系数；其中，所述尺度比例系数用于表征对应的第二特征图对特征提取的作用程度。

步骤104，基于所述N个第二特征图和所述N个第二特征图各自对应的尺度比例系数进行特征提取，得到所述目标图像的最终特征图。

本发明实施例对现有的特征提取网络(以下简称第一特征提取网络)进行改进，得到一种新的特征提取网络(以下简称第二特征提取网络)，该第二特征提取网络用于执行本发明实施例提供的特征提取的方法。

在步骤101中，将目标图像输入至本发明实施例提供的第二特征提取网络，该第二特征提取网络的前几层为卷积层，采用这些卷积层对目标图像进行卷积处理，目的是为了提取目标图像的更多的信息。

本发明实施例提供的第一特征提取网络可以为视觉几何组网络(VisualGeometry Group Network，VGG)、残差神经网络(Residual Neural Network，ResNet)等各种用于特征提取的神经网络，其中ResNet可以为ResNet18、ResNet34、ResNet50、ResNet101和ResNet152等各种残差神经网络，以上仅为示例，本发明实施例对此不作限制。

本发明实施例对以上提到的任一第一特征提取网络进行改进，得到第二特征提取网络。因此步骤101中提到的多个卷积层的基本情况，例如卷积层的数量、每一层中卷积核的大小、步距的大小等等，均可以参考上述任一种第一特征提取网络中的前几个卷积层进行设置。不同的是，本发明实施例对多个卷积层作出如下限制：多个卷积层中的至少一个卷积层的输入特征图和输出特征图的尺寸相同。

下面以采用的深度学习目标检测算法为Faster-RCNN为例详细介绍步骤101的方案。Faster-RCNN中，采用的特征提取网络为ResNet50，即，第一特征提取网络为ResNet50。

图2示出了现有的ResNet50的结构的示意图。该第一特征提取网络的第一层中包括一个传统卷积层，该传统卷积层的卷积核为7×7，步距(stride，s)为2，填充(padding，p)为3。经过第一层的处理后，得到尺寸减半，维度升为64的特征图。然后经过一个最大池化层，得到尺寸继续减半，维度不变的特征图。该第一特征提取网络的第二层中包括3个残差结构bottleneck2。残差结构bottleneck2的详细结构如图3a所示。残差结构bottleneck2中包括3个传统卷积层，图中详细示意出了3个传统卷积层的卷积核的大小、步距和卷积核的个数c等。可以看出，由于中间的卷积层采用步距为1，且有填充，因此能够保证残差结构bottleneck2的输入特征图和输出特征图尺寸相同。在图2中，经过第一特征提取网络的第二层，得到了尺寸不变，维度升为原来的4倍的特征图。该第一特征提取网络的第三层中包括1个残差结构bottleneck1和3个残差结构bottleneck2。残差结构bottleneck1的详细结构如图3b所示。残差结构bottleneck1的主支中包括3个传统卷积层，分支中包括1个传统卷积层。图中详细示意出了4个传统卷积层的卷积核的大小、步距和卷积核的个数c等。可以看出，由于中间的卷积层采用步距为2，且有填充，因此残差结构bottleneck1的输出特征图相对于输入特征图尺寸减半。在图2中，经过第一特征提取网络的第三层，得到了尺寸减半，维度升为原来的2倍的特征图。该第一特征提取网络的第四层中包括1个残差结构bottleneck1和5个残差结构bottleneck2。经过第一特征提取网络的第四层，得到了尺寸减半，维度升为原来的2倍的特征图。该第一特征提取网络的第五层中包括1个残差结构bottleneck1和2个残差结构bottleneck2。经过第一特征提取网络的第五层，得到了尺寸减半，维度升为原来的2倍的特征图。在深度学习目标检测算法Faster-RCNN中，就是基于该最后得到的特征图进行目标检测的。

综上所述：残差结构bottleneck1负责使特征图尺寸减半和增加特征层维度即增加网络维度；bottleneck2负责提取更深层的语义信息但不更改特征图的尺寸，即增加网络深度。

本发明实施例中的传统卷积层是指相对于空洞卷积层而言的非空洞卷积层。

公式1中示意了采用传统卷积层进行卷积处理对应的输入特征图和输出特征图的尺寸之间的关系。w_out为输出特征图的尺寸；w_in为输入特征图的尺寸；k为卷积核的大小；padding为填充的数量；stride为步距。可以看出，通过调节k、padding和stride之间的关系，能够实现输入特征图和输出特征图的尺寸相同的效果。

基于公式1，可以确定本发明实施例对上述第一特征提取网络ResNet50可以进行的多种改进方式。例如：(1)将第三层、第四层和第五层中的任一层中的残差结构均设置为残差结构bottleneck2，因为残差结构bottleneck2能够保证该残差结构的输入特征图和输出特征图尺寸不变。如此，上述多个卷积层中就实现了至少一个卷积层的输入特征图和输出特征图的尺寸相同。(2)将第三层、第四层和第五层中的任一层中的残差结构bottleneck1的中间的卷积层的步距设置为1，再通过填充p的配合，也能实现输入特征图和输出特征图尺寸不变。如此，上述多个卷积层中就实现了至少一个卷积层的输入特征图和输出特征图的尺寸相同。

改进后的第二特征提取网络依然为五层，经过上述第二特征提取网络的特征提取后，得到第一特征图。

对特征提取网络的多个卷积层进行上述改进，使至少一个卷积层的输入特征图和输出特征图的尺寸相同，因此得到的第一特征图能够保留更多的空间信息。而未经过改进的第一特征提取网络对目标图像进行多次卷积，尺寸不断减小，分辨率不断减小，空间信息被不断压缩，小目标很可能消失。毫无疑问会降低后续对小目标的检测精度。

在步骤102中，将所述第一特征图分别输入至多个具有不同膨胀系数的第一空洞卷积层进行卷积处理，得到N个表征不同尺度的第二特征图。

第一特征图中保留了较多的空间信息，其中可能包括大尺度的目标(以下简称大目标)和小尺度的目标(以下简称小目标)。为了进一步提取更多的有用信息，会对第一特征图继续进行特征提取。若采用传统卷积层进行卷积，还是会损失较多空间信息。

因此本发明实施例采用多个具有不同膨胀系数的第一空洞卷积层分别对第一特征图进行卷积处理。本发明实施例对第一空洞卷积层的数量不作限制。例如3个、4个、5个等。本发明实施例对第一空洞卷积层的卷积核的大小不作限制。本发明实施例对第一空洞卷积层的卷积核的数量不作限制。本发明实施例对第一空洞卷积层的步距不作限制。本发明实施例对各第一空洞卷积层的膨胀系数不作限制，例如可以为2、4、8、10……

公式2中示意了采用空洞卷积层进行卷积处理对应的输入特征图和输出特征图的尺寸之间的关系。其中，r为膨胀系数。可以看出，通过调节r、k、padding和stride之间的关系，同样能够实现输入特征图和输出特征图的尺寸相同的效果。

但是空洞卷积层相较于传统卷积层具有更大的感受野，能够进一步保留空间信息。图4示出了一种传统卷积层和空洞卷积层的示意图。卷积核同样为3×3的大小，但是空洞卷积层由于空洞的存在，具有更大的感受野。空洞数＝r-1，因此图4中示出的空洞卷积层的空洞数为1，膨胀系数为2。

本发明实施例对步距不作限制。例如可以为1、2等。随着步距的增加，在卷积的过程中越容易漏掉信息，因此为了保证尽可能多地保留空间信息，一般设置步距为1。

若步距为1，卷积核的大小为3×3，即k＝3，则在r＝padding时，输入特征图的尺寸和输出特征图的尺寸相同。

图5示出了一种可能的得到N个第二特征图的示意图。将第一特征图输入至4个膨胀系数分别为4、8、16、24的第一空洞卷积层中进行卷积处理，得到4个第二特征图。

第二特征图的尺寸和第一特征图的尺寸不变，能够保留更多的空间信息。

例如在图5中，不同膨胀系数的第一空洞卷积层具有不同的感受野。膨胀系数分别为4的第一空洞卷积层更加能够提取到小目标的特征；膨胀系数分别为24的第一空洞卷积层更加能够提取到大目标的特征。设置的膨胀系数的大小越多越分散，越能够提取到各种不同尺度的目标的特征。

并且由于第一特征图的空间信息保留较多，因此基于空间信息保留较多的第一特征图继续进行特征提取，有利于提高小目标的检测精度。在对第一特征图继续进行特征提取时，将第一特征图分别输入至具有不同膨胀系数的第一空洞卷积层进行卷积处理，具有不同膨胀系数的第一空洞卷积层能够生成不同感受野的多个第二特征图，也就是说，多个第二特征图能够表征不同尺度目标的特征。

在步骤103中，基于注意力机制确定所述N个第二特征图分别对应的N个尺度比例系数。尺度比例系数可以反映出对应的第二特征图对特征提取的作用程度。

对每个第二特征图分别进行卷积处理，之后基于各自卷积处理后得到的特征向量进行空间信息的权重的提取，从而得到每个第二特征图对应的尺度比例系数。通过提取尺度比例系数，就能自适应地调整对不同目标图像的关注重点。例如一张目标图像中均为小目标，则通过尺度比例系数的提取可以确定对该张目标图像进行特征提取时应重点关注小目标，小目标对应的尺度比例系数较大。例如一张目标图像中大目标较多，则通过尺度比例系数的提取可以确定对该张目标图像进行特征提取时应重点关注大目标，大目标对应的尺度比例系数较大。如此，本发明实施例提供的第二特征网络可以针对不同的目标图像自适应调整关注重点。

在步骤104中，基于所述N个第二特征图和所述N个第二特征图各自对应的尺度比例系数进行特征提取，得到所述目标图像的最终特征图。

每个第二特征图对应的尺度比例系数能够反映出该第二特征图对特征提取的作用程度。例如某一张第二特征图的尺度比例系数较小，说明该第二特征图所对应的尺度的目标在目标图像中所占比例较小，在最终特征图中不应占有太大比重。

将每个第二特征图与各自的尺度比例系数采用某种运算进行融合后，将融合后的特征图直接作为最终特征图。或者将融合后的特征图再进行卷积，继续提取更多信息后得到最终特征图。本发明实施例对此不作限制。这里的某种运算可以为相乘或者其他运算。

在一些实施例中，步骤101中涉及到的多个卷积层中包括至少一个第二空洞卷积层；所述第二空洞卷积层的输入特征图和输出特征图的尺寸相同。

即，在得到第一特征图时不再采用传统卷积层，而是采用感受野更大的空洞卷积层。如公式2所示，通过设计k、r、padding和stride的大小关系，可以实现该空洞卷积层的输入特征图和输出特征图的尺寸相同。

下面通过一个具体的实施例对步骤101中涉及到的确定第一特征图的方式进行详细介绍。

图6a示出了改进后的残差结构bottleneck2，图6b示出了改进后的残差结构bottleneck1。如图6a所示，中间的卷积层采用膨胀系数为r的第二空洞卷积层。采用第二空洞卷积层进行卷积处理，可以增大感受野，有利于语义信息的提取的同时，保留更多空间信息。如图6b所示，中间的卷积层同样采用膨胀系数为r的第二空洞卷积层，并将步距设置为1。改进后的残差结构bottleneck1和改进后的残差结构bottleneck2的膨胀系数可以由本领域技术人员根据经验和需求进行设计，二者可以相同也可以不同，本发明实施例对此不作限制。

为了便于描述，本发明实施例将未改进的残差结构bottleneck1和残差结构bottleneck2称为第一残差结构，将改进后的残差结构bottleneck1和残差结构bottleneck2称为第二残差结构。第一残差结构中包括至少一个非空洞卷积层；第二残差结构中包括至少一个第二空洞卷积层。

值得注意的是，第一空洞卷积层和第二空洞卷积层仅仅是使用过程中的区别，在步骤101中使用到的空洞卷积层为第二空洞卷积层，在步骤102中使用的空洞卷积层为第一空洞卷积层。二者的膨胀系数、卷积核的大小、卷积核的数量、步距、填充等参数可以相同也可以不同，对此不作限制。另外，在步骤101中使用的各空洞卷积层均称为第二空洞卷积层，但不代表各空洞卷积层的膨胀系数、卷积核的大小、卷积核的数量、步距、填充等参数相同，以上参数可自由设计；在步骤102中使用的各空洞卷积层均称为第一空洞卷积层，但不代表各空洞卷积层的膨胀系数、卷积核的大小、卷积核的数量、步距、填充等参数相同，以上参数可自由设计。

图7示出了一种得到第一特征图的网络结构，基于Resnet50改进得到。如图所示，该特征提取网络的第一层中包括一个传统卷积层，该传统卷积层的卷积核为7×7，步距(stride，s)为2，填充(padding，p)为3。经过第一层的处理后，得到尺寸减半，维度升为64的第四特征图。然后经过一个最大池化层，得到尺寸继续减半，维度不变的特征图。该特征提取网络的第二层中包括至少一个第一残差结构，即依然采用未改进前的残差结构bottleneck2。得到了尺寸不变，维度升为原来的4倍的特征图。该特征提取网络的第三层中包括至少一个第一残差结构，即依然采用未改进前的残差结构bottleneck1和残差结构bottleneck2。得到了尺寸减半，维度升为原来的2倍的第五特征图。在图7中，上述结构相对于原来的Resnet50保持不变。仅对之后的第四层和第五层进行改进。

该特征提取网络的第四层中包括至少一个第二残差结构，即采用改进后的残差结构bottleneck1和改进后的残差结构bottleneck2。得到了尺寸不变，维度升为原来的2倍的特征图。该特征提取网络的第五层中包括至少一个第二残差结构，即采用改进后的残差结构bottleneck1和改进后的残差结构bottleneck2。得到了尺寸不变，维度升为原来的2倍的第一特征图。

可以看出，第一特征图的尺寸在最后两层没有发生变化，那么就可保留更多的空间信息，且采用空洞卷积层增加了感受野，同样有助于保留更多的空间信息。

在第四层中，第二残差结构bottleneck1的膨胀系数设置为1，第二残差结构bottleneck2的膨胀系数设置为2；在第五层中，第二残差结构bottleneck1的膨胀系数设置为2，第二残差结构bottleneck2的膨胀系数设置为2。膨胀系数的设置可由本领域技术人员自由设置，对此不作限制。

当然，本发明实施例不局限于如图7所示的方式进行特征提取，也可以仅将第五层采用第二残差结构，其余层均不作变化。也可以对第三层、第四层和第五层均采用第二残差结构，其余层不作变化。以上仅为示例。

但是若第一层就采用非空洞卷积，则可能提取的语义信息不够丰富，影响之后的语义信息的提取。因此第一层采用非空洞卷积，可以提取到更加深层次的语义信息。第二层和第三层采用第一残差结构进行特征提取，第一残差结构包括至少一个非空洞卷积层，能够提取到更加深层次的语义信息的同时，减少空间信息的丢失。第四层和第五层采用第二残差结构进行特征提取，由于第二残差结构中包括至少一个第二空洞卷积层，因此在继续进行语义信息提取的同时，增加感受野，进一步保证了得到的第一特征图保留更多的空间信息。

下面通过一个具体的实施例对步骤102中涉及到的得到N个第二特征图的方式进行详细介绍。具体包括：将所述第一特征图分别输入至N-1个具有不同膨胀系数的第一空洞卷积层进行卷积处理，得到N-1个第二特征图；通过对所述第一特征图进行平均池化处理、卷积处理和插值处理，得到1个第二特征图。

图8示出了一种得到N个第二特征图的流程示意图。如图所示，将在步骤101中得到的大小为60×60×2048的第一特征图分别输入4个膨胀系数分别为4、8、16和24的第一空洞卷积层进行卷积处理，得到4个第二特征图。卷积核的大小为3，填充p与膨胀系数相等，步距为1。还采用输出尺寸为1的自适应平均池化对第一特征图进行压缩简化网络计算复杂度，还能够保留关键信息。之后进行卷积处理进一步提取特征；双线性插值处理能够使该第二特征图与经过空洞卷积得到的第二特征图尺寸相同。

下面通过一个具体的实施例对步骤103中涉及到的得到N个第二特征图的尺度比例系数的方式进行详细介绍。具体包括：针对任一第二特征图，通过对所述第二特征图进行逐通道卷积DW卷积处理和逐点卷积PW卷积处理，得到所述第二特征图对应的特征向量；通过全连接层对所述N个第二特征图对应的N个特征向量进行空间信息的权重提取，得到所述N个第二特征图分别对应的N个尺度比例系数。

图9a示出了DW卷积的示意图，图9b示出了PW卷积的示意图。DW卷积能够将每个通道内的信息进行整合和提取，PW卷积能够将通道间的信息进行提取和整合。

图10示出了对5个第二特征图进行处理得到5个尺度比例系数的示意图。每一张第二特征图均进行DW卷积处理、PW卷积处理和全局平均池化，全局平均池化时设置池化核为5个，从而将通道数降为5。得到该第二特征图对应的1×1×5的特征向量。将5个特征向量进行拼接concat操作，得到1×1×25的特征向量，经过两层全连接层生成最终的尺度比例系数，第一个全连接层的神经元个数为25，第二全连接层的神经元个数为5。最终得到的1×1×5的尺度比例系数分别与5个第二特征图一一对应。

下面通过一个具体的实施例对步骤104中涉及到的得到最终特征图的方式进行详细介绍。具体包括：针对任一第二特征图，采用所述第二特征图对应的尺度比例系数为所述第二特征图进行加权，得到所述第二特征图对应的第三特征图；将所述N个第二特征图对应的N个第三特征图进行拼接，对拼接后的特征图进行卷积处理，得到所述目标图像的最终特征图。

图11示出了得到第三特征图的示意图。将任一第二特征图的尺度比例系数乘以该第二特征图，得到该第二特征图对应的第三特征图。

图12示出了得到最终特征图的示意图。将5个第三特征图进行拼接，对拼接后的特征图再使用1×1的卷积将特征信息再一次提取和融合，得到最终特征图。最终特征图用于后续的目标检测过程。

图13示出了一种采用最终特征图进行目标检测的流程图。在Faster-RCNN中将之前生成的特征图使用3×3卷积对每个卷积核对应的3×3的特征图生一个一维向量，利用两个全连接层对这个一维向量进行边界框的回归、边界框的前景和背景分类。根据边界框的分类分数对边界框进行非极大值抑制，过滤之后剩余两千个候选框。利用候选框对特征图进行截取，接着通过ROI Pooling将特征图调整相同的7×7大小，最后就可以使用相同的全连接层对特征图包含的信息进行物体种类的分类和边界框回归参数进行预测。

基于相同的技术构思，图14示例性的示出了本发明实施例提供的一种特征提取的装置的结构，该结构可以执行特征提取的流程。

如图14所示，该装置具体包括：

处理单元1401，用于：

可选地，所述处理单元1401具体用于：

可选地，所述第二空洞卷积层的步距为1。

基于相同的技术构思，本申请实施例提供了一种计算机设备，如图15所示，包括至少一个处理器1501，以及与至少一个处理器连接的存储器1502，本申请实施例中不限定处理器1501与存储器1502之间的具体连接介质，图15中处理器1501和存储器1502之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。

在本申请实施例中，存储器1502存储有可被至少一个处理器1501执行的指令，至少一个处理器1501通过执行存储器1502存储的指令，可以执行上述特征提取方法的步骤。

其中，处理器1501是计算机设备的控制中心，可以利用各种接口和线路连接计算机设备的各个部分，通过运行或执行存储在存储器1502内的指令以及调用存储在存储器1502内的数据，从而进行特征提取。在一些实施例中，处理器1501可包括一个或多个处理单元，处理器1501可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1501中。在一些实施例中，处理器1501和存储器1502可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

处理器1501可以是通用处理器，例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器1502作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器1502可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory，RAM)、静态随机访问存储器(Static Random Access Memory，SRAM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等等。存储器1502是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实施例中的存储器1502还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

基于相同的技术构思，本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行程序，计算机可执行程序用于使计算机执行上述任一方式所列的特征提取的方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种特征提取的方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述多个卷积层中包括至少一个第二空洞卷积层；所述第二空洞卷积层的输入特征图和输出特征图的尺寸相同。

3.如权利要求1所述的方法，其特征在于，基于注意力机制确定所述N个第二特征图分别对应的N个尺度比例系数，包括：

4.如权利要求1所述的方法，其特征在于，基于所述N个第二特征图和所述N个第二特征图各自对应的尺度比例系数进行特征提取，得到所述目标图像的最终特征图，包括：

5.如权利要求1所述的方法，其特征在于，将所述第一特征图分别输入至多个具有不同膨胀系数的第一空洞卷积层进行卷积处理，得到N个第二特征图，包括：

6.如权利要求2所述的方法，其特征在于，采用多个卷积层对目标图像进行卷积处理，得到第一特征图，包括：

采用第二层和第三层对所述第四特征图进行特征提取，得到第五特征图；所述第二层中包括至少一个第一残差结构；所述第三层中包括至少一个第一残差结构；所述第一残差结构中包括至少一个非空洞卷积层；

7.如权利要求2所述的方法，其特征在于，所述第二空洞卷积层的步距为1。

8.一种特征提取的装置，其特征在于，包括：

处理单元，用于：

9.一种计算设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于调用所述存储器中存储的计算机程序，按照获得的程序执行权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行程序，所述计算机可执行程序用于使计算机执行权利要求1至7任一项所述的方法。