CN112257727A

CN112257727A - 一种基于深度学习自适应可变形卷积的特征图像提取方法

Info

Publication number: CN112257727A
Application number: CN202011212397.2A
Authority: CN
Inventors: 赵成明; 陈金令; 李洁
Original assignee: Southwest Petroleum University
Current assignee: Southwest Petroleum University
Priority date: 2020-11-03
Filing date: 2020-11-03
Publication date: 2021-01-22
Anticipated expiration: 2040-11-03
Also published as: CN112257727B

Abstract

本发明公开了一种基于深度学习自适应可变形卷积的特征图像提取方法，包括自适应可变形卷积模块和自适应可变形的ROIpooling模块；所述自适应可变形卷积模块最主要的是采用了两种不同的可学习因子对偏移量和采样位置进行学习微调的方式，然后通过使用网格根据目标物体进行自适应的形变，产生更能符合目标物体的特征；所述自适应可变形的ROIpooling模块为池化层中的每个bin位置添加的一个偏移量，偏移量能从前面的特征图像以及感兴趣区域中进行学习得到，能对具有不同形变特性的目标物体实现自适应的准确定位。本发明提供的两个模块能够轻松替换现在主流的卷积层，且在不增加较多的参数情况下，提升卷积神经网络对模型的建模能力和图像检测精度。

Description

一种基于深度学习自适应可变形卷积的特征图像提取方法

技术领域

本发明涉及人工智能领域和数字图像处理方法，特别是涉及一种基于深度学习自适应可变形卷积的特征图像提取方法。

背景技术

近几年来，随着深度学习技术的快速发展和计算机设备性能的逐步提升，越来越多的卷积神经网络(CNNs)被应用于计算机视觉任务，如图像分类、目标检测和图像分割等领域。但是基于卷积神经网络(CNNs)的方法都是以一个固定的卷积尺寸进行特征提取，此方法无法自由的适应目标的多尺寸、多姿态以及多角度所带来的几何变化或者模型的几何转换的问题。针对以上的卷积神经网络(CNNs)所带来的诸多问题，目前主流的解决方法则有两种。其中一点是能够建立针对当前任务所拥有的目标多尺寸、多姿态、多角度等足够多的期望变化训练数据集。这种方法往往是通过增加现有的训练数据集样本实现的，如对数据样本进行随机尺寸变化、随机剪裁以及随机旋转等相互组合的方式，增强当前训练数据集样本的几何多样性的特征；其二种便是通过相应的变换不变性的特征或者算法，丰富现有训练数据集样本的空间表达能力，有助于提高模型对训练任务的几何表达能力。虽然卷积神经网络最近几年中在图像分类、语义分割和目标检测等热门的计算机视觉任务中取得了非常显著的效果，但是它仍然具有一下两个较为显著的缺点。第一点，卷积核在对目标物体进行卷积特征提取的时候，对于目标物体的几何变换是固定且是已知的，这样将会阻碍卷积神经网络对具有未知几何变换任务的泛化能力。其次，如果使用过于复杂的转换方法，将会提高相应变换不变性的特征或者算法的设计难度，且是一个耗时的过程，因此，这种方法的可行性极低，这样便无法满足当前视觉任务的需求，从而在无形之中就增加了视觉任务的隐形难度。

在当前的技术中，当目标样本具有多尺寸、多姿态以及多角度等形变特性的时候，就需要计算机设备储存大量和该目标样本与之相关的特征图像数据，这样将会使得储存的数据量非常的庞大，很消耗图形处理器(GPU)的显存，且在训练的过程的中是相当的耗时，不便于样本的快速训练。目前的卷积神经网络中，卷积层会对特征图像进行固定大小位置的采样，ROI池化层会把感兴趣区域划分成固定大小的空间容器，致使网络无法根据目标样本的内容而自适应的调整卷积核的感受野大小，因此便限制了对于具有形变特性的样本的识别精度。

发明内容

本发明的目的在于提供一种基于深度学习自适应可变形卷积的特征图像提取方法，可以有效的提高目标识别的精度。

本发明采用的技术方案是：一种基于深度学习自适应可变形卷积的特征图像提取方法，包括自适应可变形卷积模块和自适应可变形的ROIpooling模块；

所述自适应可变形卷积模块首先先将二维偏移量添加到标准卷积中的常规网格采样位置中，其次采用了两个不同的可学习因子对偏移量和采样位置进行学习微调的方式，然后通过使用网格可以根据目标物体进行自适应的变形，使之更能符合目标物体的特征；其中的二维偏移量是通过从前面的特征图像中利用不同的卷积层得到的；

所述自适应可变形的ROIpooling模块能够在池化层中的每一个bin位置添加一个偏移量，其偏移量能够从前面的特征图像以及感兴趣区域中进行学习得到，其中的ROI检测框能够以一个适应目标物体的检测框大小去检测，不再是以固定的检测框大小，避免了无用的检测，这样能够实现对具有不同形变的目标物体实现自适应的准确定位。

为了能够解决上诉的技术问题，本发明提供了一种基于深度学习自适应可变形卷积的特征图像提取方法，所述方法步骤包括：

S1，获取目标物体图像；

S2，通过卷积层的卷积核中的采样点的位置，以提取输入图像的低水平特征图像

其中I为原始输入图像， M为卷积核，p为输出特征图像点，c为图像的列，r为图像的宽；

S3，在输入的特征图像X上使用标准的规则网格K进行特征采样，使用的自适应可变形卷积核为

以获取高水平的特征图像，其中用W代表加权采样之和，网格k定义采样位置,用p_k代表采样点在自适应可变形卷积核中的位置，s_k表示对采样点p_k的学习因子，Δp_k表示可学习偏移量，Δm_k表示可调制量，c_k表示对可调制量Δm_k的学习因子，其中s_k∈[0,1]，Δm_k∈[0,1]，c_k∈[0,1]。

更进一步地，所述步骤S3具体为：

对于输出映射特征y上的每个位置p₀，有：

其中，p_k为网格K中枚举的采样位置；

在可变形的卷积中，对枚举的采样位置p_k进行学习，另外还添加了可调制量Δm_k，其中采样位置k用偏移量进行推广{Δp_k|k＝1,...，K},使采样位置能够分解为较大的步长，因此有：

最后，在自适应可变形的卷积中，运用学习因子c_k对添加的调制偏移量进行再学习，以此来适应目标物体所具有多变的形变特性，因此有：

此时，采样是在极其不规则以及具有偏移的位置p_k+Δp_k，因此Δp_k经常以小数的形式进行偏移，特别地，s_k、c_k、Δp_k和Δm_k来自于

输出通道的单独卷积，其中，2k输出通道模拟空间偏移量Δp_k，连续的k个输出通道对应于调制量Δm_k，用Sigmoid函数激活，剩余的

个通道是s_k和c_k在空间维度上与Δp_k和Δm_k作用的张量，它们的学习率是当前层学习率的0.1倍。

更进一步地，所述步骤S3还包括：

对可学习偏移量Δp_k进行处理：

X(p)＝∑_qG(q,p)·X(q)

其中，p代表着目标物体学习的任意位置(p＝p₀+s_k·p_k+(1-c_k)·Δp_k),q列举了采样特征图像X所有完整的空间位置信息，G(·,·)代表双线性插值的内核，使特征提取的图像能够进行双线性插值以恢复图像上下文信息；同时G是二维的，在进行运算时能够被分为两个一维的核：

G(q,p)＝g(q_x,p_x)·g(q_y,p_y)

其中，g(q_x,p_x)＝max(0,1-|a-b|)；

其中的偏移量Δp_k是通过在相同的输入采样特征上进行自适应可变形卷积得来的，输出的偏移量与输入的采样特征能够有相同尺寸的空间分辨率；而在进行深度学习训练过程中，卷积核的输出特征和可学习偏移量是能够同时学习而来的。

更进一步地，所述自适应可变形的ROIpooling模块将输入矩形检测框的任意大小变换为符合目标物体大小的检测框。在普通的ROI池化中，对于任意一个输入特征图像X，一个尺寸大小是w×h的ROI矩形检测框以及左上角的位置p_k；ROI池化将ROI矩形检测框M划分为j×j个相同大小的网格单元，在第j 个网格单元中再划分k×k个采样小块；并且输出一个k×k的映射特征y，p_kj是第j个网格单元的第k个采样小块,因此有

其中X(p)是在特征图像上第p个采样位置使用双线性插值来计算偏移量， n_k是第k个bin的采样cells，即第(i，j)个采样块小区域的像素点，并且第(i， j)个采样块小区域的范围为：

以及

在可变形的ROI池化层中，采样位置k用偏移量进行推广{Δp_k|k＝1,...， K}以及可调制量Δm_k被添入到空间小区域块位置中，从而有

在自适应可变形的ROIpooling中，对于给定输入ROI，采用ROIpooling 将ROI划分为K个空间bin,属于每个cell的bin被聚合以计算相应的bin输出，将采样点p_k的学习因子s_k和可调制量Δm_k的学习因子c_k添加到bin中，从而有：

该方法使用了两个1024-D的FC层和一个附加的具有

通道的 FC层，前两个2k通道是归一化学习偏移量Δp_k，之后的k通道是使用Sigmoid函数归一化调制量Δm_k，剩下的

通道用于产生添加的两个可学习因子s_k和c_k，且这些额外添加的FC层的学习率和神经网络里面的卷积层具有相同的学习率。

更进一步地，所述自适应可变形的ROIpooling模块还应包括：

对其可学习偏移量Δp_k进行处理：

X(p)＝∑_qG(q,p)·X(q)

G(q,p)＝g(q_x,p_x)·g(q_y,p_y)

对于自适应可变形的ROIpooling，首先将输入特征X进行池化后生成池化的映射特征，生成的映射特征接着经过全连接层后生成标准的偏移量

最后经过元素级的特征计算，利用检测框的宽和高转换为Δp_k，因此有：

其中的β是人工设定的标量，用来调节偏移量的大小；自适应可变形ROI 池化层通过卷积层，将每一个目标物体的全部输入映射特征转换成t²个映射，用 {x_i,j}表示，其中的(i,j)为检测框中的每一个bin；在进ROIpooling的时候，对第(i,j)个bin的输出值是通过对应的bin的一个特征映射{x_i,j}进行求和而得来的。

本发明的优点：

本发明通过发明了两个自适应可变形卷积以此增强了卷积神经网络对具有多尺寸、多姿态以及多角度样本的可变形建模塑造能力，从而能够使得卷积网络学习且获得较为强的特征图像表达能力。这两个卷积层都是添加了额外的偏移量增加卷积网络中的空间采样位置，使得卷积神经网络不断学习偏移量来获得更深层的特征表达。此外，本发明的两个自适应可变形卷积可以用于替换主流的卷积神经网络中的普通卷积层，并可通过标准化的反向传播进行一个端到端的训练。

本发明提出的自适应可变形卷积，是能够在增加卷积中空间采样位置和 ROI池化层中的额外偏移量的基础上进行训练的，当对自适应可变形卷积进行叠加时，其对复合形变的特征表达能力的影响是较为深层次的，原因是可以在自适应可变形卷积中根据目标物体的比例大小和形状进行一定层度的自适应调节，其大大提升了卷积神经网络在复杂环境下的图像分类、目标检测、图像分割等的检测精度。

附图说明

图1为本发明实施例所提供的特征图像提取方法流程图；

图2为自适应可变形ROIpooling示意图；

图3为目前卷积神经网络中特征提取方法中的采样点分布示意图；

图4为自适应可变形卷积特征提取方法中的采样点分布示意图；

图5为图4中的某一个采样点特征提取方法示意图；

图6为本发明提出的特征提取方法用于语义分割的结果展示图。

具体实施方式

本发明的核心思想是提供一种基于深度学习自适应可变形卷积的特征图像提取方法，可以有效的提高目标识别的精度。为了使本发明的目的、技术方案以及优点更加清楚明白，将会结合附图以及实施例，对本发明进一步的详细说明，以下所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明的主要思想。

参考图1，如图1所示，一种基于深度学习自适应可变形卷积的特征图像提取方法流程图；

在此流程图中，首先是将目标物体图像送入到卷积神经网络中，通过卷积层的卷积核中采样的位置来提取输入图像的低水平特征图X，然后，对特征图像X使用标准的规则网格K进行特征采样，其中进行特征提取的卷积核并不是普通的卷积核，而是使用本发明提出自适应可变形卷积核，对含有形变特性的目标图像获得具有更高水平的特征图像表达，为后面的卷积神经网络提供更加稳定的且丰富的模型特征；

针对本发明所述的自适应可变形卷积，更进一步的详细说明如下：

自适应可变形卷积，能够极大地增强卷积神经网络对于目标物体的几何形变建模能力。它首先在标准卷积中的常规网格采样的位置添加了二维的偏移量，其次采用了两个不同的可学习因子对偏移量和采样位置进行学习微调的方式，然后通过使用网格可以根据图像中的目标物体自适应的变形，使之更能符合目标物体的特征。其中的二维偏移量是通过从前一层中的特征图像经过另外的卷积层来获得的，因此，自适应可变形卷积是一种由输入特征经过一种局部且密集的自适应调节方式进行的，将自适应可变形卷积加入到现有的卷积神经网络中，是一种能够通过反向传播进行一个端到端的训练方式。

对于图2所示，为自适应可变形卷积ROIpooling模块，该方法能够在池化层中的每一个bin位置添加一个额外的微小偏移量。与自适应可变形卷积类似，该偏移量同样能够可以从前一层中的特征图像和感兴趣区域中学习，其中的ROI 检测框是以一个适应目标物体的检测框大小去检测，不再是以固定的检测框大小，这样能够实现为具有不同形变的目标物体实现一个自适应的准确定位。将自适应可变形卷积ROIpooling加入到现有的卷积神经网络中，也是一种能够通过反向传播进行一个端到端的训练方式。

对于自适应可变形卷积，其二维卷积包括两个步骤：(1)在输入的特征图像上使用有规则的网格K进行采样；(2)用W代表加权采样之和，网格k定义采样位置,用p_k代表采样点在自适应可变形卷积核中的位置，s_k表示对采样点 p_k的学习因子，Δp_k表示可学习偏移量，Δm_k表示可调制量，c_k表示对可调制量Δm_k的学习因子，其中s_k∈[0,1]，Δm_k∈[0,1]，c_k∈[0,1]。

如定义一个3×3的自适应可变形卷积核,在神经网络中初始Δp_k＝0，s_k＝1，Δm_k＝1，c_k＝1：

K＝{(1,1),(0,1)，…,(-1,0),(-1,-1)}

对于输出映射特征y上的每个位置p₀，有：

其中，p_k为网格K中枚举的采样位置；

此时，采样是在极其不规则以及具有偏移的位置p_k+Δp_k，因此Δp_k经常以小数的形式进行微量偏移，特别地，s_k、c_k、Δp_k和Δm_k来自于

对可学习偏移量Δp_k进行处理：

X(p)＝∑_qG(q,p)·X(q)

G(q,p)＝g(q_x,p_x)·g(q_y,p_y)

其中，g(q_x,p_x)＝max(0,1-|a-b|)；

对于图2所示的自适应可变形的ROIpooling模块，将输入矩形检测框的任意大小变换为符合目标物体大小的检测框。在普通的ROI池化中，对于任意一个输入特征图像X，一个尺寸大小是w×h的ROI矩形检测框以及左上角的位置p_k；ROI池化将ROI矩形检测框M划分为j×j个相同大小的网格单元，在第j 个网格单元中再划分k×k个采样小块；并且输出一个k×k的特征映射y，p_kj是第j个网格单元的第k个采样小块,因此有

以及

该方法使用了两个1024-D的FC层和一个附加的具有

更进一步地，所述自适应可变形的ROIpooling模块还应包括：

对可学习偏移量其Δp_k进行处理：

X(p)＝∑_qG(q,p)·X(q)

G(q,p)＝g(q_x,p_x)·g(q_y,p_y)

其中的β是人为设定的标量，用来调节偏移量的大小；自适应可变形ROI 池化层通过卷积层，将每一个目标物体的全部输入映射特征转换成t²个映射，用 {x_i,j}表示，其中的(i,j)为检测框中的每一个bin；在进ROIpooling的时候，对第(i,j)个bin的输出值是通过对应的bin的一个特征映射{x_i,j}进行求和而得来的。

对于图3所示，为目前卷积神经网络中特征提取方法中的采样点分布示意图。此方法的特征提取方法是使用一个固定尺寸大小的卷积核来提取输入图像的特征图，是不能根据目标图像的具体形变产生符合其特征的特征表达，因此，此卷积核具有一定的局限性。

对于图4所示，为自适应可变形卷积特征提取方法中的采样点分布示意图。此方法的特征提取方法是使用本发明提出的自适应可变形卷积，其中的卷积核会以一个符合目标物体形变的尺寸大小提取输入图像的特征图，对具有形变特性的目标图像能产生符合其特征的特征表达。

总之，自适应可变形卷积和自适应可变形ROI池化具有与其他普通卷积和ROI池化相同的输入和输出，由此可言，在现有的卷积神经网络中的普通卷积和ROI池化可以很容易被自适应可变形卷积和自适应可变形ROI池化所替换掉，且在不影响整个模型的建模能力的前提下，还能提高整个模型的检测算法精度。

综上所述，本发明提出的一种基于深度学习自适应可变形卷积的特征提取方法，它能够极大地增强卷积神经网络对于目标物体的几何形变的建模能力。同时在标准卷积中的常规网格采样的位置添加了二维的偏移量，并且采用了两个不同的可学习因子对偏移量和采样位置进行学习微调的方式，然后通过采样网格可以根据图像中的目标物体自适应的形变。其中的偏移量是通过从前一层中的特征图像经过另外的卷积层来获得的，因此，自适应可变形卷积是一种由输入特征图像经过一个局部且密集的自适应调节方式进行的，将自适应可变形卷积加入到现有的卷积神经网络中，能够提高在复杂环境下的图像分类，目标检测以及图像分割等计算机视觉任务的检测精度，是一种能够通过标准反向传播进行一种端到端的训练方式。

本文中结合了图片个例对本发明的原理以及具体实施方式进行了详细的阐述，对于上述的说明仅仅只用于帮助理解本发明的方法及其核心思想，并不用于限制本发明。可以指出的是，在不完全脱离本发明核心原理的前提之下，对本发明进行的任何改进、修饰、替换等，均包含在本发明的保护范围之内。

Claims

1.一种基于深度学习自适应可变形卷积的特征图像提取方法，其特征在于，包括自适应可变形卷积模块和自适应可变形的ROIpooling模块；

所述自适应可变形卷积模块首先先将二维偏移量添加到标准卷积中的常规网格采样位置中，其次采用了两个不同的可学习因子对偏移量和采样位置进行学习微调的方式，然后通过使用网格可以根据目标物体进行自适应的变形，使之更能符合目标物体的特征，其中的二维偏移量是通过从前面的特征图像中利用不同的卷积层得到的；

所述自适应可变形的ROIpooling模块能够在池化层中的每一个bin位置添加一个微小偏移量，其偏移量能够从前面的特征图像以及感兴趣区域中进行学习得到，其中的ROI检测框以一个适应目标物体的检测框大小去检测，不再是以固定的检测框大小，这样能够实现对具有不同形变的目标物体实现自适应的准确定位。

2.根据权利要求1所述的基于深度学习自适应可变形卷积层的特征图像提取方法，其特征在于，所述自适应可变形卷积层的特征图像提取方法包括三个步骤：

S1，获取目标物体图像；

其中I为原始输入图像，M为卷积核，p为输出特征图像点，c为图像的列，r为图像的宽；

以获取高水平的特征图像，其中用W代表加权采样之和，网格k定义采样位置，用p_k代表采样点在自适应可变形卷积核中的位置，s_k表示对采样点p_k的学习因子，Δp_k表示可学习偏移量，Δm_k表示可调制量，c_k表示对可调制量Δm_k的学习因子，其中s_k∈[0，1]，Δm_k∈[0，1]，c_k∈[0，1]。

3.根据权利要求2所述的基于深度学习自适应可变形卷积层的特征图像提取方法，其特征在于，所述步骤S3具体为：

对于输出映射特征y上的每个位置p₀，有：

其中，p_k为网格K中枚举的采样位置；

在可变形的卷积中，对枚举的采样位置p_k进行学习，另外还添加了可调制量Δm_k，其中采样位置k用偏移量进行推广{Δp_k|k＝1，...，K}，使采样位置能够分解为较大的步长，因此有：

此时，采样是在极不规则以及具有偏移的位置p_k+Δp_k，因此Δp_k经常以小数的形式进行微量偏移，特别地，s_k、c_k、Δp_k和Δm_k来自于

4.根据权利要求3所述的基于深度学习自适应可变形卷积层的特征图像提取方法，其特征在于，所述步骤S3还包括：

对可学习偏移量Δp_k进行处理：

其中，p代表着目标物体学习的任意位置(p＝p₀+s_k·p_k+(1-c_k)·Δp_k)，q列举了采样特征图像X所有完整的空间位置信息，G(·，·)代表双线性插值的内核，使特征提取的图像能够进行双线性插值以恢复图像上下文信息；同时G是二维的，在进行运算时能够被分为两个一维的核：

G(q，p)＝g(q_x，p_x)·g(qy，py)

其中，g(q_x，p_x)＝max(0，1-|a-b|)；

5.根据权利要求1所述的基于深度学习自适应可变形卷积层的特征图像提取方法，其特征在于，所述自适应可变形的ROI池化层模块将输入矩形检测框的任意大小变换为符合目标物体大小的检测框；

在普通的ROI池化中，对于任意一个输入特征图像X，一个尺寸大小是w×h的ROI矩形检测框以及左上角的位置p_k；ROI池化将ROI矩形检测框M划分为j×j个相同大小的网格单元，在第j个网格单元中再划分k×k个采样小块；并且输出一个k×k的映射特征y，p_kj是第j个网格单元的第k个采样小块，因此有：

其中n_k是第k个bin的采样cells，即第(i，j)个采样块小区域的像素点，并且第(i，j)个采样块小区域的范围为：

以及

X(p)是在特征图像上第p个采样位置使用双线性插值来计算偏移量。

在可变形的ROI池化层中，采样位置k用偏移量进行推广{Δp_k|k＝1，...，K}以及可调制量Δm_k被添入到空间小区域块位置中，从而有：

在自适应可变形的ROI池化层中，对于给定输入ROI，采用ROIpooling将ROI划分为K个空间bin，属于每个cell的bin被聚合以计算相应的bin输出，将手工偏移量p_k的学习因子s_k和可调制量Δm_k的学习因子c_k添加到bin中，从而有：

该方法使用了两个1024-D的FC层和一个附加的具有

通道的FC层，前两个2k通道是归一化学习偏移量Δp_k，之后的k通道是使用Sigmoid函数归一化调制量Δm_k，剩下的

6.根据权利要求5所述的基于深度学习自适应可变形卷积层的特征图像提取方法，其特征在于，所述自适应可变形的ROIpooling模块还应包括：

对可学习偏移量Δp_k进行处理：

G(q，p)＝g(q_x，p_x)·g(q_y，p_y)

对于自适应可变形的ROI池化层，首先将输入特征X进行池化后生成池化的映射特征，生成的映射特征接着经过全连接层后生成标准的偏移量

最后经过元素级的特征计算，利用检测框的宽和高转换为Δp_k，因此有

其中的β是人工设定的标量，用来调节偏移量的大小；自适应可变形ROI池化层通过卷积层，将每一个目标物体的全部输入映射特征转换成t²个映射，用{x_i，j}表示，其中的(i，j)为检测框中的每一个bin；在进行ROIpooling的时候，对第(i，j)个bin的输出值是通过对应的bin的一个特征映射{x_i，j}进行求和而得来的。