CN110197255A

CN110197255A - 一种基于深度学习的可变形卷积网络

Info

Publication number: CN110197255A
Application number: CN201910356575.XA
Authority: CN
Inventors: 龙飞; 胡建国; 张海; 招继恩; 候邦恩
Original assignee: Smart Polytron Technologies Inc
Current assignee: Smart Polytron Technologies Inc
Priority date: 2019-04-29
Filing date: 2019-04-29
Publication date: 2019-09-03

Abstract

本发明公开了一种基于深度学习的可变形卷积网络，包括可变形卷积模块和可变形的ROI池化层模块；所述可变形卷积模块将二维偏移量添加到标准卷积中的常规网格采样的位置，使得采样网格可以自由变形；偏移量是从其前面的映射特征中通过额外的卷积层得到；所述可变形的ROI池化层模块为池化层中每一个小分区位置添加一个偏移量，偏移量能从前面的特征映射和感兴趣区域中学习，从而为具有不同形状的目标实现自适应定位。本发明的两个新的模块可以代替现有主流的网络中的普通模块，并且可以通过标准的反向传播进行端到端的训练，从而产生可变形的卷积网络，在处理复杂目标情况时，大大提高了检测精度。

Description

一种基于深度学习的可变形卷积网络

技术领域

本发明涉及可变形卷积网络，具体涉及一种基于深度学习的可变形卷积网络。

背景技术

目前，在计算机视觉的任务中一个关键的挑战是网络架构如何适应由目标尺寸，姿态，角度和变形带来的几何变化或者模型的几何转换。针对上述的问题，目前主要有两种解决的办法。第一种是构建具有足够期望变化的训练数据集。这通常是通过增加现有的数据样本来进行实现，如将现有的数据样本进行尺寸变化或剪裁、旋转等方式。稳定的拟合表示可以从数据中学习，但通常是以昂贵的训练和复杂的模型参数为代价的；第二种是使用变换不变性的特征和算法。以上的方法有两个缺点，首先，假设几何变换是固定已知的，并且利用这些先验知识对数据进行扩充，设计特征和算法。这种假设阻止了对具有未知几何变换的新任务的泛化，使得建立的模型没有很好的泛化性能。其次，对于过于复杂的转换，设计的具有变换不变特性的特征和算法的难度提高，可行性极低。近年来，卷积神经网络在图像分类，语义分割，目标检测等视觉识别任务中取得了显著的成功。然而，它们仍然有上述的两个缺点。

基于卷积神经网络的模型对几何变换建模的能力主要来自广泛的数据扩充、大的模型容量和一些简单的手工设计模块。简而言之，CNN局限于大型未知转换的建模。这种局限性源于CNN模块的固定几何结构：卷积单元对于固定位置的输入特征进行采样；池化层以固定比例降低空间的分辨率； ROI(region-of-interest)池化层将感兴趣区域划分为固定的空间容器等，这些都缺乏处理几何变换的内部机制。在过往的卷积神经网路中，同一层的网络中所有激活单元的感受野大小是相同的，这对于在空间位置上编码语义的深层卷积神经网路层来说是不可取的，由于不同的位置可能对应不同尺度的或者变形的目标，对于需要进行精细定位的视觉识别需要自适应确定尺度或感受野的大小。另一方面，近年来，虽然目标检测取得了长足的进步，但所有的检测方法仍然依赖于基于原始检测框的特征提取。这并不是最优的方法，特别是在处理复杂目标情况时，如复杂的目标轮廓，多重目标叠合等。

发明内容

本发明的主要目的在于提供一种基于深度学习的可变形卷积网络。

本发明采用的技术方案是：一种基于深度学习的可变形卷积网络，包括可变形卷积模块和可变形的ROI池化层模块；

所述可变形卷积模块将二维偏移量添加到标准卷积中的常规网格采样的位置，使得采样网格可以自由变形；偏移量是从其前面的映射特征中通过额外的卷积层得到；

所述可变形的ROI池化层模块为池化层中每一个小分区位置添加一个偏移量，偏移量能从前面的特征映射和感兴趣区域中学习，从而为具有不同形状的目标实现自适应定位。

进一步地，所述可变形卷积模块包括两个步骤：

S1，在输入的映射特征x上使用规则的网格R进行采样；

S2，用w代表加权采样之和，网格R定义感受野大小和扩张，R用数组坐标代表卷积核位置。

更进一步地，所述步骤S1和S2具体为：

对于输出映射特征y上的每个位置p₀，有：

其中，p_n枚举R中的位置；

在可变形的卷积中，规则网格R用偏移量进行增广{Δp_n|n＝1，...，N}，其中N＝|R|，因此有：

此时，采样是在不规则和偏移的位置p_n+Δp_n，由于Δp_n常常会以小数的形式出现。

更进一步地，所述步骤S1和S2还包括：

对Δp_n进行处理：

其中，p代表任意位置(p＝p₀+p_n+Δp_n)，q枚举了映射特征x所有完整的空间位置，G(·，·)代表着双线性插值的内核；G是二维的，随即被分为两个一维的核：

G(q，p)＝g(q_x，p_x)·g(q_y，p_y)

其中，g(a，b)＝max(0，1-|a-b|)；

其中的偏移量是通过在相同的输入映射特征上应用卷积层得到的，输出的偏移量与输入的映射特征具有相同的空间分辨率；在训练过程中，卷积核的输出特征和偏移量是同时学习的。

更进一步地，所述可变形的ROI池化层模块将任意大小的输入矩形检测框转换成固定大小的特征，给予任意一个输入的映射特征x，一个尺寸为 w×h的ROI矩形检测框以及左上角p₀；ROI池化将ROI矩形检测框T划分为k×k个小区域，其中k为自由参数；并且输出一个k×k的映射特征y，对于第(i，j)个小区域(0≤i，j＜k)，有

其中，ni_j是第(i，j)个小区域的像素点，且第(i，j)个小区域贯穿的范围为：

以及

在可变形的ROI池化层中，偏移量{Δp_ij|0≤i，j＜k}被添加到空间小区域的位置当中，从而有

y(i，j)＝∑_p∈T(i，j)x(p₀+p+Δp_ij)/n_ij。

更进一步地，所述可变形的ROI池化层模块还包括：

对Δp_ij的处理：

G(q，p)＝g(q_x，p_x)·g(q_y，p_y)

对于可变形的ROI池化层，首先通过池化生成池化的映射特征，生成的映射特征通过全连接层生成标准化的偏移量并随后通过元素级别的计算，利用检测框的宽和高转换为Δp_ij，具体为：

这里的γ是通过预先设定好的标量，用来调节偏移量的大小；可变形ROI 池化层通过卷积层，首先将每个目标类别的所有输入映射特征转换为k²个分数的映射；不需要对每个类别进行区分，这样的分数映射表示为{x_i，j}，其中(i，j)枚举检测框中每个小区域；在这些分数的映射上进行池化，对于第(i，j)个小区域的输出值是通过对应于该小区域的一个映射特征{x_i，j}求和所得。

本发明的优点：

本发明通过发明了两个新模块来增强了卷积神经网络的转换建模能力。这两个模块都是基于使用额外偏移量来增加模块中的空间采样位置，并从目标任务中不断学习偏移量，而不需要额外的监督学习。这两个新的模块可以代替现有主流的网络中的普通模块，并且可以通过标准的反向传播进行端到端的训练，从而产生可变形的卷积网络，在处理复杂目标情况时，如复杂的目标轮廓，多重目标叠合等，大大提高了检测精度。

本发明提出可变形的卷积神经网络，是建立在增加卷积中空间采样位置和ROI池化层中的额外的偏移量，并从目标任务中学习偏移量的基础思想，当可变形卷积叠加时，复合变形的影响是深远的，它们可以在变形卷积中根据目标比例和形状进行自适应调整，大大提高了在复杂情况下的目标检测，语义分割等的检测精度。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明的一种一种基于深度学习的可变形卷积网络框架图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参考图1，如图1所示，一种基于深度学习的可变形卷积网络，包括可变形卷积模块和可变形的ROI池化层模块；

提出的两个新的模块，极大地增强了卷积神经网路对于几何变换建模的能力。第所述可变形卷积模块，它将二维偏移量添加到标准卷积中的常规网格采样的位置，使得采样网格可以自由变形。偏移量是从前面映射特征中通过额外的卷积层得到的，因此，变形卷积网络是一种由输入特征制约的以一种局部，密集和自适应的方式来进行。所述可变形的ROI池化层模块，它为池化层中每一个小分区位置添加一个偏移量。类似地，偏移量可以从前面的特征映射和感兴趣区域中学习，从而为具有不同形状的目标实现自适应定位。两个模块都为轻量级的模块，它们为偏移学习提供了少量的参数和计算。它们可以很容易在深度卷积神经网路中替换普通的对等点，并且可以很容易地使用标准反向传播进行端到端训练。

首先对于可变形卷积，一般二维卷积包括两个步骤：(1)在输入的映射特征x上使用规则的网格R进行采样；(2)用w代表加权采样之和，网格R定义感受野大小和扩张。R用数组坐标代表卷积核位置，如定义一个3×3且扩张参数为1的卷积核：

R＝{(-1，-1)，(-1，0)，...，(0，1)，(1，1)}

对于输出映射特征y上的每个位置p₀，有：

其中，p_n枚举R中的位置。

此时，采样是在不规则和偏移的位置p_n+Δp_n，由于Δp_n常常会以小数的形式出现，本专利通过以下方法进行处理：

其中，p代表任意位置(p＝p₀+p_n+Δp_n)，q枚举了映射特征x所有完整的空间位置，G(·，·)代表着双线性插值的内核。G是二维的，随即被分为两个一维的核：

G(q，p)＝g(q_x，p_x)·g(q_y，p_y)

其中，g(a，b)＝max(0，1-|a-b|)。

偏移量是通过在相同的输入映射特征上应用卷积层得到的，输出的偏移量与输入的映射特征具有相同的空间分辨率。在训练过程中，卷积核的输出特征和偏移量是同时学习的。

对于第二个模块，可变形的ROI池化层。所有基于区域提议的目标检测方法都采用ROI池化的方法，它将任意大小的输入矩形检测框转换成固定大小的特征。给予任意一个输入的映射特征x，一个尺寸为w×h的ROI矩形检测框以及左上角p₀。ROI池化将ROI矩形检测框T划分为k×k个小区域(k为自由参数)，并且输出一个k×k的映射特征y，对于第(i，j)个小区域(0≤i，j＜k)，有

其中，n_ij是第(i，j)个小区域的像素点，且第(i，j)个小区域贯穿的范围为：

以及

同理，对于Δp_ij大多数情况也是小数，同样通过上述的方法进行处理：

G(q，p)＝g(q_x，p_x)·g(q_y，p_y)

这里的γ是通过预先设定好的标量，用来调节偏移量的大小。可变形ROI 池化层通过卷积层，首先将每个目标类别的所有输入映射特征转换为k²个分数的映射。不需要对每个类别进行区分，这样的分数映射表示为{x_i，j}，其中(i，j)枚举检测框中每个小区域。在这些分数的映射上进行池化，对于第(i，j)个小区域的输出值是通过对应于该小区域的一个映射特征{x_i，j}求和所得。

总体而言，可变形卷积和可变形ROI池化的输出和输入与其他普通模块相同，因此，它们可以很容易地替换现有卷积神经网路中的普通对等项，从而提高了整个检测算法的检测精度。

在本发明中，通过发明了两个新模块来增强了卷积神经网络的转换建模能力。这两个模块都是基于使用额外偏移量来增加模块中的空间采样位置，并从目标任务中不断学习偏移量，而不需要额外的监督学习。这两个新的模块可以代替现有主流的网络中的普通模块，并且可以通过标准的反向传播进行端到端的训练，从而产生可变形的卷积网络，在处理复杂目标情况时，如复杂的目标轮廓，多重目标叠合等，大大提高了检测精度。

STN(Spatial Transform Networks)算法第一次在深度学习框架中利用数据来学习空间转换，它通过全局参数变换的仿射变换来扭曲映射特征。这种扭曲的代价是昂贵的，而且已知的转换参数的学习是十分困难的。STN 在小尺度图像的分类难题上取得了成功。而STN的逆方法用有效的变换参数传播代替了代价昂贵的特征扭曲，但是却需要众多的模型参数，而本专利中的可变形卷积网络不采用全局参数变换和特征扭曲，是以一种局部和密集的方式对映射特征进行采样，并且通过加权求和来生成新的映射特征，可变形的卷积网络容易集成到其他的CNN框架中，且训练简单。

Active Convolution网络是目前主流的方法，利用偏移量增大卷积中的采样位置，并通过端到端的反向传播来学习偏移量，但是该方法的通用性和适应性较差。首先，它在不同的空间位置共享偏移量；其次，该种方法中的偏移量是每个任务或每个训练的静态模型参数，而在本专利中通过可变形卷积网络生成的偏移量是根据图像位置变化的动态模型输出。

ERF(Effective Receptive Field)发现感受野内的像素对输出相应的贡献并不相同，靠近中心的像素有更大的影响，有效的感受野只占理论感受野的一小部分，且呈现高斯分布。虽然理论感受野大小随卷积层线性增加，但是，有效感受野的大小随着卷积层数平方根线性增加，因此，即使是深层的CNN的顶层单位也可能没有足够大的感受野，说明了适应性感受野学习的需要。而专利中提出的变形卷积具有自适应学习感受野的能力。

TIF(Transformation invariant features)在设计变换不变性特征方面已经取得了一定的效果，如尺寸不变特征变换和ORB等，但是这些设计都是基于先验的转换，这些先验的知识用于手工化制作特征提取算法的结构，或者固定在SIFT中，或者具有基于CNN的可学习参数。它们不能处理新任务中的未知转换。

本发明提出的可变形模块概括了各种转换，而这种转换是从目标任务中学习得到的。

综上，本专利提出可变形的卷积神经网络，是建立在增加卷积中空间采样位置和ROI池化层中的额外的偏移量，并从目标任务中学习偏移量的基础思想，当可变形卷积叠加时，复合变形的影响是深远的，它们可以在变形卷积中根据目标比例和形状进行自适应调整，大大提高了在复杂情况下的目标检测，语义分割等的检测精度。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的可变形卷积网络，其特征在于，包括可变形卷积模块和可变形的ROI池化层模块；

2.根据权利要求1所述的基于深度学习的可变形卷积网络，其特征在于，所述可变形卷积模块包括两个步骤：

S1，在输入的映射特征x上使用规则的网格R进行采样；

3.根据权利要求2所述的基于深度学习的可变形卷积网络，其特征在于，所述步骤S1和S2具体为：

对于输出映射特征y上的每个位置p₀，有：

其中，p_n枚举R中的位置；

4.根据权利要求2所述的基于深度学习的可变形卷积网络，其特征在于，所述步骤S1和S2还包括：

对Δp_n进行处理：

G(q，p)＝g(q_x，p_x)·g(q_y，p_y)

其中，g(a，b)＝max(0，1-|a-b|)；

5.根据权利要求1所述的基于深度学习的可变形卷积网络，其特征在于，所述可变形的ROI池化层模块将任意大小的输入矩形检测框转换成固定大小的特征，给予任意一个输入的映射特征x，一个尺寸为w×h的ROI矩形检测框以及左上角p₀；ROI池化将ROI矩形检测框T划分为k×k个小区域，其中k为自由参数；并且输出一个k×k的映射特征y，对于第(i，j)个小区域(0≤i，j＜k)，有

以及在可变形的ROI池化层中，偏移量{Δp_ij|0≤i，j＜k}被添加到空间小区域的位置当中，从而有

y(i，j)＝∑_p∈T(i，j)x(p₀+p+Δp_ij)/n_ij。

6.根据权利要求5所述的基于深度学习的可变形卷积网络，其特征在于，所述可变形的ROI池化层模块还包括：

对Δp_ij的处理：

G(q，p)＝g(q_x，p_x)·g(q_y，p_y)

这里的γ是通过预先设定好的标量，用来调节偏移量的大小；可变形ROI池化层通过卷积层，首先将每个目标类别的所有输入映射特征转换为k²个分数的映射；不需要对每个类别进行区分，这样的分数映射表示为{x_i，j}，其中(i，j)枚举检测框中每个小区域；在这些分数的映射上进行池化，对于第(i，j)个小区域的输出值是通过对应于该小区域的一个映射特征{x_i，j}求和所得。