CN113011561B

CN113011561B - 一种基于对数极空间卷积对数据进行处理的方法

Info

Publication number: CN113011561B
Application number: CN202110239690.6A
Authority: CN
Inventors: 苏冰; 文继荣
Original assignee: Renmin University of China
Current assignee: Renmin University of China
Priority date: 2021-03-04
Filing date: 2021-03-04
Publication date: 2023-06-20
Anticipated expiration: 2041-03-04
Also published as: CN113011561A

Abstract

本发明涉及一种基于对数极空间卷积对数据进行处理的方法，其特征在于，包括以下步骤：1)构建基于对数极空间的卷积核；2)判断是否存在常规卷积神经网络，若不存在，则进入步骤3)，否则，进入步骤4)；3)以步骤1)中构建的基于对数极空间卷积核为基础构建卷积层，进而构建新的卷积神经网络，并将输入图像或特征图输入新的卷积神经网络进行数据处理得到输出特征图；4)利用步骤1)中构建的基于对数极空间的卷积核替换常规卷积网络中的卷积核，并将输入图像或特征图输入替换后的常规卷积网络中，通过对数极空间池化操作，用常规卷积实现对数极空间卷积，得到输出特征图。本发明可以应用于任何网络体系结构中以替代常规卷积。

Description

一种基于对数极空间卷积对数据进行处理的方法

技术领域

本发明属于机器学习技术领域，具体涉及一种基于对数极空间卷积对数据进行处理的方法。

背景技术

卷积神经网络在计算机视觉领域取得了巨大的成功。在卷积层中，每个隐藏节点仅连接到图像的某个局部区域，与全连接层相比，参数的数量大大减少，训练更容易。卷积核的大小决定了图像或特征图的局部加权范围，称为卷积核的局部感受野。

在许多计算机视觉任务中，例如图像分类和密集预测，通常需要更大的局部感受野来捕获长距离空间位置和大范围的上下文信息之间的依存关系。简单地增加卷积核的大小是不可行的，因为参数的数量会随着大小的增加而平方增加。增加局部感受野的常用技术包括用多层小卷积核替换单层大卷积核，添加池化层以及使用膨胀卷积。然而，使用多层小卷积核替换大卷积核的方式时，更深的层可能会导致梯度消失，从而使网络更难以训练；而使用添加池化层的方式时，池化过程通常会导致信息丢失；使用膨胀卷积的方式时，由于膨胀卷积是通过在内核的参数之间插入孔(零)来增加局部感受野，卷积核不是连续的，因为并不是局部感受野中的所有像素都参与了卷积计算，而且使用相同数量的参数，膨胀卷积的局部感受野越大，跳过的像素越多，这可能会丢失一些细节并导致信息不连续。

目前还有一些较为常用的高级卷积方式，其中，主动卷积通过引入带位置参数的卷积单元来学习卷积的形状；可变形卷积通过学习其他偏移量以增加采样位置，从而将局部感受野自适应地更改为多边形。对于主动卷积和可变形卷积，适配的LRF包含孔，并且变化强度不容易控制。位置和偏移量通过其他卷积层学习，从而增加了参数。

综上，常规卷积、膨胀卷积和这些高级卷积都使用规则平方核，在局部感受野中为每个选定的位置分配不同的权重。无论卷积核大小如何，都会平等对待所有选定位置，无论距中心的距离如何，参数的间隔或共享范围在不同位置之间都相同。

发明内容

针对上述问题，本发明的目的是提供一种基于对数极空间卷积对数据进行处理的方法，以克服现有卷积技术的不足，对卷积核施加特殊的空间结构，在不增加参数数量且不损失信息连续性的情况下增大卷积核的空间感受野，通过结构化的卷积核进行卷积操作，有效编码更大范围内的空间分布信息和上下文信息。

为实现上述目的，本发明采取以下技术方案：一种基于对数极空间卷积对数据进行处理的方法，其包括以下步骤：

1)构建基于对数极空间的卷积核；

2)判断是否存在常规卷积神经网络，若不存在，则进入步骤3)，否则，进入步骤4)；

3)以步骤1)中构建的基于对数极空间卷积核为基础构建卷积层，进而构建新的卷积神经网络，并将输入图像或特征图输入新的卷积神经网络进行数据处理得到输出特征图；

4)利用步骤1)中构建的基于对数极空间的卷积核替换常规卷积网络中的卷积核，并将输入图像或特征图输入替换后的常规卷积网络中，通过对数极空间池化操作，用常规卷积实现对数极空间卷积，得到输出特征图。

进一步，所述步骤1)中，构建基于对数极空间的卷积核时，包括以下步骤：

1.1)确定LPSC核的局部感受野及其超参数，所述局部感受野采用圆形对数极空间，所述圆形对数极空间的超参数包括：卷积核半径为R，卷积核大小为2R+1，距离级别数为L_r，方向级别数为L_θ，距离增长率为g；

1.2)在对数极坐标空间中，将步骤1.1)中的局部感受野均匀地划分为L_r×L_θ个区域；

1.3)为步骤1.2)中的各个区域分配一个权重参数W(l，m)，使得落入相同区域的输入图像或特征图的所有像素共享相同的权重，并为中心像素分配一个额外的单独权重W(0，0)；

1.4)基于各区域中的最大的一个像素值N_l，m对步骤1.3)中确定的各区域的权重参数W(l，m)进行规范，得到各个区域的最终权重。

进一步，所述步骤1.2)中，将步骤1.1)中的局部感受野均匀地划分为L_r×L_θ个区域的方法，包括以下步骤：

1.2.1)将输入图像或特征图X在Δ范围内的所有像素根据其到中心位置的相对平方距离，划分为L_r个级别，其中，Δ＝[c_h-R，c_h+R]×[c_w-R，c_w+R]，(c_h，c_w)为LPSR卷积核的中心位置；

1.2.2)将Δ范围内的所有位置根据其相对于中心位置的相对方向均匀地划分为L个级别；

1.2.3)根据所有位置相对中心位置的夹角和平方距离，将卷积核的局部感受野分为L_r×L_θ个区域。

进一步，所述步骤1.2.1)中，L_r个级别中各级别半径满足以下公式：

log(R_l+1)-log(R_l)＝log(R_l)-log(R_l-1)＝log(g)

其中，R_l(l＝1，…，L_r)是第l级的半径；增长率g是控制扩展速度的超参数。

进一步，所述步骤1.2.1)中，级别半径R_l的范围为

其中，R为卷积核半径，L_r为距离级别数，g为增长率。

进一步，所述步骤1.2.2)中，将Δ范围内的所有位置根据其相对于中心的相对方向均匀地划分为L_θ个级别时，划分方法为：如果2π(m-1)/L_θ≤θ_i，j＜2πm/L_θ，则位置(i，j)属于第m级，其中θ_i，j是向量(0,1)到向量(i-c_h，j-c_w)的逆时针角度。

进一步，所述步骤1.2.3)中，根据所有位置相对中心位置的夹角和平方距离，将卷积核的局部感受野分为L_r×L_θ个区域的方法为：

首先，将卷积核中心位置索引记为(0,0)，得到卷积核范围内的位置索引为{(-R，-R),(-R，-R+1),…,(R-1，R),(R，R)}；

其次，计算所有位置相对中心位置的夹角和平方距离；

最后，对每个位置，根据其相对中心位置的夹角和对数距离，判断落入哪个方向层级和距离层级，据此，将局部感受野分为L_r×L_θ个区域。

进一步，所述步骤1)中，构建基于对数极空间的卷积核时，还能够采用椭圆形对数极空间，构建方法为：

首先，确定LPSC核的局部感受野及其超参数，所述椭圆形对数极空间的超参数描述为：卷积核大小为2R+1，距离级别数为L_r，方向级别数为L_θ，增长率为g，初始倾斜角度α和椭圆的偏心率e；

其次，在对数极坐标空间中，将该椭圆形局部感受野均匀地划分为L_r×L_θ个区域，划分方法为：根据椭圆的平方距离计算输入图像或特征图X在Δ范围内的所有像素到中心位置的相对平方距离，并划分为L_r个级别；将Δ范围内的所有位置根据其相对于中心的相对方向进行均匀划分时，需要将初始倾斜角度添加到计算出的方向上进行划分；

再次，为各个区域分配一个权重参数W(l，m)，使得落入相同区域的输入图像或特征图的所有像素共享相同的权重，并为中心像素分配一个额外的单独权重W(0，0)；

最后，基于各区域中的最大的一个像素值N_l，m对确定的各区域的权重参数W(l，m)进行规范，得到各个区域的最终权重。

进一步，所述步骤3)中，将输入图像输入到新的卷积神经网络进行数据处理时，卷积层的输出特征图为：

式中，(i，j)为LPSC卷积核的空间位置；R为卷积核半径，L_r为距离级别数，g为增长率；l为区域距离级别；m为方向级别；N_l，m表示落入区域(l，m)的像素数；(u，v)为bin(l，m)区域中像素的横纵坐标索引，其中，l为距离层级，m为方向层级。

进一步，所述步骤4)中，利用步骤1)中构建的基于对数极空间的卷积核替换常规卷积网络中的卷积核，并将输入图像或特征图输入替换后的常规卷积网络中，通过对数极空间池化操作，用常规卷积实现对数极空间卷积，得到输出特征图的方法，包括以下步骤：

4.1)确定LPSC核的局部感受野及其超参数，该局部感受野采用圆形对数极空间，且该圆形对数极空间采用以下超参数描述：核大小为2R+1，距离级别数为L_r，方向级别数为L_θ，增长率为g；

4.2)根据给定LPSC的超参数R、L_r、L_θ和g计算得到掩码矩阵I，作为将输入图像或特征图X中的不同像素划分到LPSR核的局部感受野中不同区域的区域索引；

4.3)将掩码矩阵I以与LPSC卷积核的相同步长滑过输入图像或特征图X，使得输入图像或特征图X相应范围内的像素被划分到由掩码矩阵I指示的区域中，得到输出特征图Xp；

4.4)在输出特征图Xp上用大小为(2L_r，L_θ/2)的常规卷积核，以(2L_r，L_θ/2)的步长做无填充常规卷积，得到输出特征图Y_p；同时在原输入图像或特征图X上用1×1的常规卷积核做步长为1的常规卷积，得到输出特征图Y_c；

4.5)将输出特征图Y_c添加到输出特征图Y_p上，得到的Y_p+Y_c用作LPSC卷积的输出特征图。

本发明由于采取以上技术方案，其具有以下优点：(1)本发明提出的对数极空间卷积方法，其卷积核位于对数极性空间中，能够捕获结构化上下文信息并在不增加参数数量的情况下极大地扩展局部感受野。(2)本发明通过对数极坐标空间池对特征图进行上采样，从而可以方便地使用常规卷积来实现对数极空间卷积。(3)对数极空间卷积可以应用到包括AlexNet、VGGNet、ResNet、DeepLabv3+以及CENet等在内的不同网络体系结构中，在不同数据集上的图像分类、图像分割和医学图像分割任务上的实验评估表明本发明的对数极空间卷积效果好于常规卷积和膨胀卷积。

附图说明

图1(a)～图1(c)为本发明实施例中提供的对数极空间卷积核结构，其中图1(a)为对数极空间卷积核；图1(b)为对数极空间卷积；图1(c)为初始倾斜角度椭圆形对数极空间卷积核；

图2(a)～图2(b)为本发明实施例中提供的对数极空间池化及对数极空间卷积，图2(a)为对数极空间池化；图2(b)为在对数极空间池化特征图上用常规卷积实现对数极空间卷积；

图3为本发明实施例在AlexNet中第一层使用对数极空间卷积，学到的卷积核的可视化；

图4为本发明实施例在AlexNet中第一层使用四角填充的对数极空间卷积，学到的卷积核可视化。

具体实施方式

下面结合附图和实施例对本发明进行详细的描述。

本发明提出了一种新颖的对数极空间卷积(LPSC)方法。该LPSC内核的形状不是规则的正方形，而是椭圆。内核的参数不是均匀分布在局部感受野中，而是在对数极坐标空间中分配。LPSC核将局部感受野划分为不同的区域，其中，各区域的中心随着距中心距离的增加而变大，落入相同区域的像素具有相同的权重。直观上，相邻像素与中心像素之间的相关性通常较高，而像素越远，对中心像素的影响就越小。远离中心的相邻像素的效果通常相似，因此它们可以共享相同的参数。用这种方式，LPSC可以在不增加参数数量的情况下以指数方式增加局部感受野。此外，LPSC自然地对大范围局部分布结构施加上下文限制。

令

为输入图像或特征图，其中H、W和C分别是输入图像或特征图X的高度、宽度和通道数。/>

是大小为(2M+1)×(2N+1)的常规卷积核，W的中心参数由(0,0)索引，W的参数位于规则网格{(-M，-N)，(-M，-N+1)，…，(M-1，N)，(M，N)}内。在跨通道的2D空间域中执行卷积操作，对于一个空间位置(i，j)，常规卷积的输出按下式计算:

由于常规卷积中，卷积核的参数均匀地分布在规则网格中，因此落入该卷积核局部感受野的每个像素都由一个单独的参数加权，即所有位置都得到同等对待。但是，距中心的距离和方向不同的像素可能会产生不同的影响，例如，与中心相邻的像素对输出的贡献更大。输入图像中的像素通常会缓慢变化，远离中心的相邻像素通常会对中心产生类似的影响。基于这些直觉，本发明设计了具有特殊结构的卷积核，即对数-极空间卷积(LPSC)核，以表达大感受野内的上下文配置。

实施例1

本实施例提供了一种基于对数极空间卷积对数据进行处理的方法，具体的，包括以下步骤：

1)构建基于对数极空间的卷积核；

2)以步骤1)中构建的基于对数极空间卷积核为基础构建卷积层，进而构建完整的卷积神经网络；其中，构建的卷积神经网络可以为AlexNet、VGGNet、ResNet、DeepLabv3+以及CENet等在内的不同网络体系结构中的任意一种，且构建的卷积神经网络中的其他各层，例如池化层、去池化层、非线性激活函数等均为本领域技术人员公知技术，本发明在此不再赘述；

3)利用步骤2)中构建的基于对数极空间卷积核的卷积神经网络，对输入图像或特征图X进行处理，得到数据处理结果。

上述步骤1)中，构建基于对数极空间的卷积核的方法，包括以下步骤：

1.1)如图1(a)所示，确定LPSC核的局部感受野及其超参数，该局部感受野采用圆形对数极空间，且该圆形对数极空间采用以下超参数描述：核大小为2R+1，距离级别数为L_r，方向级别数为L_θ，增长率为g。该卷积核的局部感受野是半径为R的最外层圆的面积。

1.2)在对数极坐标空间中，将步骤1.1)中的局部感受野均匀地划分为L_r×L_θ个区域。

具体而言，包括以下步骤：

1.2.1)将输入图像或特征图X在Δ范围内的所有像素根据其到中心位置的相对平方距离，划分为L_r个级别，即

log(R_l+1)-log(R_l)＝log(R_l)-log(R_l-1)＝log(g) (2)

其中，R_l(l＝1，…，L_r)是第l级的半径；增长率g是控制扩展速度的超参数。当卷积核的中心位于位置(c_h，c_w)时，X在Δ＝[c_h-R，c_h+R]×[c_w-R，c_w+R]范围内的所有像素根据其到中心位置的相对平方距离被划分为L_r个级别；其中，c_h和c_w分别为中心位置的横坐标和纵坐标；也即，如果R_l-1≤d_i，j＜R_l，则位置(i，j)属于Δ中第l个距离级别，其中d_i，j＝(i-c_h)²+(j-c_w)²。

根据式(2)可知，R_i＝g^i-1R₁，i＝1，...，L_r。当最内半径R₁固定时，局部感受野随着L_r的增加呈指数增长。局部感受野由R确定，其中R是可以任意设置的超参数。给定

和g，可以计算得到/>

因此，本发明使用/>

作为超参数而不是R_l作为超参数，这更加灵活。由于本发明使用平方距离，因此施加最小值2以确保所有8个邻域像素都落入第1级。

1.2.2)将Δ范围内的所有位置根据其相对于中心的相对方向均匀地划分为L_θ个级别。

划分方法为：如果2π(m-1)/L_θ≤θ_i，j＜2πm/L_θ，则位置(i，j)属于第m级，其中θ_i，j是向量(0,1)到向量(i-c_h，j-c_w)的逆时针角度。

1.2.3)结合距离级别和方向级别，将局部感受野分为L_r×L_θ个区域。

1.3)为步骤1.2)中的各个区域分配一个权重参数W(l，m)，使得落入相同区域的特征图X的所有像素共享相同的权重，并为中心像素分配一个额外的单独权重W(0，0)。

对于具有第l个距离级别和第m个方向级别的区域，分配的参数由W(l，m)表示。区域的面积随l增大，离中心越远，面积越大，共享参数的像素越多。因为卷积核的中心位置很重要，并且构成局部感受野的基础，所以本发明为中心像素分配一个额外的单独参数W(0，0)。可知，大小为(2R+1)×(2R+1)的常规卷积核具有(2R+1)²个参数，而本发明提出的LPSC核仅具有L_r×L_θ+1参数，无论R有多大。当R的范围为2到9时，单个常规卷积核具有25到361个参数。而在此范围内，将L_r设置为2或3，并将L_θ设置为6或8就足够了，因此LPSC核只有13到25个参数。

具体地，令N_l，m表示落入区域(l，m)的像素数，该区域距离级别为l，方向级别为m。在l大的遥远区域中，N_l，m虽然大，但是应该减弱该区域中像素的影响。因此，本发明通过N_l，m来规范每个区域的权重W(l，m)：W(l，m)/N_l，m。用这种方式，LPSC核聚集了来自靠近中心的像素的更精细的信息，并且对距离较远的像素的信息较不敏感。与常规卷积相似，LPSC核以预定步幅沿输入特征图X滑动以执行卷积，如图1(b)所示。

上述步骤3)中，将输入图像X输入LPSC卷积核执行卷积操作时，对于一个空间位置(i，j)，该对数极空间卷积的输出响应按下式计算：

上述实施例中，对于LPSC卷积核，其局部感受野的形状不一定是标准圆形，还可以是倾斜的椭圆形，如图1(c)所示。这时需要引入两个附加的超参数：初始倾斜角度α和椭圆的偏心率e。划分区域时，将根据椭圆的平方距离计算距离，并将初始倾斜角α添加到计算出的方向。这样，LPSC核可以更好地适应具有不同旋转和缩放比例的目标。本发明仅通过设置α＝0和e＝H/W＝1来评估标准圆形局部感受野。

实施例2

由于特殊的结构和参数共享，流行的深度学习框架无法直接执行LPSC。接下来，本实施例将展示通过对数极性空间池化操作，利用常规卷积也可以轻松实现LPSC，以利用现有深度学习框架中的高效卷积模块。

具体地，包括以下步骤：

1)构建基于对数极空间的卷积核；

2)利用步骤1)中构建的基于对数级空间的卷积核替换常规卷积神经网络中的卷积核，并基于替换后的卷积核对输入图像或特征图X进行卷积操作，用常规卷积实现对数极空间卷积，得到输出特征图用于进行进一步数据处理。

具体地，包括以下步骤：

2.1)确定LPSC核的局部感受野及其超参数，该局部感受野采用圆形对数极空间，且该圆形对数极空间采用以下超参数描述：核大小为2R+1，距离级别数为L_r，方向级别数为L_θ，增长率为g。该卷积核的局部感受野是半径为R的最外层圆的面积。

2.2)根据确定的LPSC核的超参数R、L_r、L_θ和g计算得到掩码矩阵I，作为将输入图像或特征图X中的不同像素划分到LPSR核的局部感受野中不同区域的区域索引。

如图2(a)所示，掩码矩阵I的大小为(2R+1)×(2R+1)，掩码矩阵I中的值1，…，L_θ×L_r表示相应位置的区域索引。0表示对应位置没有落入局部感受野，因为掩码矩阵I的区域是圆形局部感受野的外接矩形，所以可能会有部分位置没有落入局部感受野内。

2.3)将掩码矩阵I以与LPSC卷积核的相同步长滑过输入图像或特征图X，使得输入图像或特征图X相应范围内的像素被划分到由掩码矩阵I指示的区域中，得到输出特征图Xp。

假设沿长度方向滑动H′次，沿宽度方向滑动W′次，共H′×W′个卷积位置。

如图2(a)所示，将LPSR卷积核的局部感受野中的各区域进行均值池化，也即同一区域中的所有像素编码为单个像素或元素，并将不同区域的池化像素重新排列为一个2L_r×(L_θ/2)的矩阵以保留其相对空间位置。这样，给定一个H′×W′卷积位置(如果滑动步长为1，则填充空间为H′＝H和W′＝W，)其中，H′为沿长度方向滑动的次数，W′为沿宽度方向滑动的次数；则经过对数极性空间池化之后的输出特征图X的大小为2H′L_r×W′L_θ/2。

2.4)在输出特征图Xp上用大小为(2L_r，L_θ/2)的常规卷积核，以(2L_r，L_θ2)的步长做无填充常规卷积，得到输出特征图Y_p；同时在原输入图像或特征图X上用1×1的常规卷积核做步长为1的常规卷积，得到输出特征图Y_c；

将常规卷积核的大小设置为(2L_r，L_θ/2)，并且步长也设置为(2L_r，L_θ/2)，则对具有C′个通道的输出特征图Xp执行常规卷积后，其输出特征图Y_p的大小为H′×W′×C′，这等效于执行等式(3)中的第二项。

在具有相同C′个通道的原始输入X上执行单独的1×1常规卷积，卷积步长与对数极性空间池化步长相同，得到其输出特征图Y_c，该输出特征图Y_c与公式(3)中的第一项中心像素的卷积响应相同。

2.5)将输出特征图Y_c添加到输出特征图Y_p上，得到的Y_p+Y_c用作LPSC卷积的输出特征图。

实施例3

LPSC可以应用在图像分类任务上。我们在两个数据集上评估LPSC的效果和潜力：CIFAR-10数据集和CIFAR-100数据集。CIFAR-10数据集包含来自10个类别的50k训练图像和10k测试图像。CIFAR-100数据集包含来自100个类别的50k训练图像和10k测试图像。本实施例实验的目的是评估LPSC与不同CNN架构集成的效果。

通过替换常规卷积层的一部分，本实施例将LPSC插入到三个典型的CNN架构中，包括AlexNet，VGGNet-19和ResNet20。本实施例使用不同CNN架构的Pytorch实现作为基准，所有体系结构都将32×32大小的图像作为输入。对于AlexNet，每层有5个卷积层，每个卷积层后接ReLU激活函数。5个卷积核的大小分别为11×11，5×5，3×3，3×3和3×3，且在第一个，第二个和最后一个卷积层之后执行2×2最大值池化。对于VGG19网，有16个卷积层和5个2×2最大值池化层，且所有卷积层的内核大小为3×3。对于ResNet-20，有9个基本模块，每个基本模块包含两个3×3卷积层。

为了进行公平的比较，所有实验设置和细节(包括学习率，批处理大小，每层过滤器的数量，优化程序的超参数(例如γ，动量，重量衰减))都与用Pytorch实施常规卷积时保持一致。本实施例没有为LPSC调整任何这些设置或超参数。本实施例直接将LPSC与报告的结果进行比较。同时对比了在CIFAR-10数据集上可计算参数的数量。因此，性能的差异仅来自卷积层的变化。Top-1准确率作为性能指标。所有实验最多使用两个GPU，内存为12GB。

首先，验证超参数的影响。LPSC卷积核具有四个超参数：卷积核大小2R+1，距离级别的数量L_r，方向级别的数量L_θ和增长率g。对于小卷积核，由于本实施例为最小距离级别设置了最小值2，因此最大L_r可以由R²和g确定。如果L_r过大，则没有像素会落入较大距离级别的区域。L_θ可以设置为6或8，因为在大多数情况下，图1的最小圆圈中只有约8个像素，而较大的L_θ也将导致某些距离级别较小的区域中没有像素。本实施例通过在AlexNet第一层中用LPSC卷积核替换11×11常规卷积核来评估L_r，L_θ和g的影响。如表1(a)所示，增加L_r和L_θ的值可以产生更细的区域并提高性能，但是参数数量也随之增加。

VGGNet和ResNet使用小的3×3卷积核。为了使参数数量具有可比性，本发明将(L_r,L_θ,g)固定为(2,6,3)并在表1(b)和表1(c)中评估卷积核大小2R+1的影响。通常，卷积核太大和太小都会导致性能下降。当2R+1太小时，局部感受野受限；当2R+1太大时，具有较大距离级别的区域可能会比较粗糙，即大量位置共享相同的权重，这可能会降低参数的分辨率。总体而言，对于大卷积核11×11，本实施例将(L_r,L_θ,g)设置为(3,8,2)；对于小卷积核3×3和5×5，本实施例将(L_r,L_θ,g)固定为(2,6,3)。

表1(a)基于AlexNet网络的消融实验结果

表1(b)基于VGGNet-19网络的消融实验结果

表1(c)基于ResNet-20网络的消融实验结果

表2在AlexNet网络中，权重正则化和中心像素卷积的效果

方法	求和	最大值	无中心点卷积	平均
					CIFAR-10准确率	21.61％	76.65％	78.51％	78.28％
CIFAR-100准确率	5.53％	44.63％	47.13％	47.31％

其次，研究插入层的影响。在表1(b)和表1(c)中，块是具有相同卷积结构的一系列层。“第一层卷积”表示VGGNet的第一个块中和ResNet中的块之前的第一个卷积层。当其第二行的超参数不是“-”时，该层中的常规卷积将被LPSC取代。对于VGGNet，在第一层卷积中，“+”表示在所有块之前添加一个LPSC层，例如，“5+”表示另外插入5×5LPSC层。对于ResNet，在第三行中，(全B)和(1B)表示所有块和第一个块中的卷积核分别被LPSC核替换，其中每个卷积块中BasicBlock的两个3×3卷积被一个具有较大卷积核的LPSC替代。可知，如果在所有层或块中都使用LPSC，性能将会下降。似乎仅在低层执行LPSC是有益的。这可能是因为高层像素已合并了大感受野的信息，因此，即使相邻像素也可能对中心像素产生不同的影响。LPSC的假设已不再满足，并且不同位置的权重不适合共享。相反，在低层应用LPSC有助于增加局部感受野并过滤冗余细节，并将梯度反向传播到更多底层像素。

权重正则化也对LPSC效果有影响。在表2中，本实施例基于AlexNet评估等式(3)中权重正则化的影响。第一列显示在前两个LPSC层中使用对数极性空间池化而不是均值池化的结果。这等效于删除LPSC中的正则化。没有权重正则化，性能会严重下降。这是因为远处的区域要比中心附近的区域大几倍。如果将所有区域中的位置均等对待，即使远区域的权重较小，这些区域中大量像素作用的累积仍将产生压倒性的响应。如第二列所示，本实施例还在LPSC中尝试最大池化。它也比平均池性能差。由于局部感受野较大，许多相邻中心位置的距离级别较大的区域将具有较大的重叠。一些较大的响应可能会反复在许多区域中针对不同的中心位置占优势，从而抑制了其他有用的局部信息。

在表2的第三列中，本实施例删除了中心像素卷积，即等式(3)中的第一项。中心像素卷积扩大了中心像素的重要性。当类别很少时，上下文信息本身可能足以执行分类。对于具有更多类的更复杂的任务，中心像素卷积可以提供补充信息。

最后，本实施例将LPSC与传统卷积进行比较。表1(a)～表1(c)的第一列显示了没有LPSC的三种体系结构的结果。通过较少的参数或可比的参数，LPSC优于AlexNet和VGGNet中的常规卷积，并在ResNet中获得可比的结果。

空洞卷积还可以成倍地增加LRF，而无需增加参数数量。类似地，它也可以用来代替不同体系结构中不同层的常规卷积。在表3(a)～表3(c)中，本实施例分别在AlexNet，VGGNet-19和ResNet-20中比较了LPSC和空洞卷积。前几列显示了在不同层中具有不同超参数的空洞卷积的结果。设置超参数(包括内核大小和膨胀率)以使参数总数以及局部感受野保持与常规卷积和LPSC相当的水平。“替换块索引”表示用空洞卷积代替常规卷积的块的索引。

表3(a)在AlexNet上与空洞卷积的比较

第一层卷积核大小	5	7	11	11	7	7	4×4+1
								第一层卷积扩张率	3	2	-	-	2	2	-
第二层卷积核大小	5	5	3	3	3	5	4×3+1
								第二层卷积扩张率	-	-	2	3	3	2	-
参数数量	2.45M	2.46M	2.28M	2.28M	2.26M	2.46M	2.31M
								CIFAR-10准确率	73.43％	75.70％	74.94％	78.11％	75.95％	74.17％	78.28％
CIFAR-100准确率	44.86％	45.98％	41.08％	44.21％	44.26％	42.55％	47.31％

表3(b)在VGGNet-19上与空洞卷积的比较

替换块索引	1	2	1，2	1，2，3	第一层卷积
						块中扩张率	2	2	2	2	4×3+1
参数数量	20.04M	20.04M	20.04M	20.04M	20.04M
						CIFAR-10准确率	91.53％	91.97％	89.61％	89.56％	93.38％
CIFAR-100准确率	68.46％	69.30％	63.75％	63.83％	72.21％

表3(c)在ResNet-20上与空洞卷积的比较

在表3(a)和表3(b)中，最后一栏显示LPSC的结果。在AlexNet和VGGNet中，LPSC明显优于具有不同超参数的空洞卷积。这显示了LSPC中空间结构和参数共享的有效性。在表3(c)中，“1+”表示所有块之前的第一个卷积层中的常规卷积被替换。第四列和最后一列分别显示了在ResNet中用空洞卷积和LPSC替换所有常规卷积的结果。在较高的层中应用空洞卷积也会导致性能变差，这进一步验证了本实施例的分析，而LPSC优于空洞卷积。当仅在第一层中使用时，有时空洞卷积会比LPSC获得更好的结果。原因可能是ResNet可以使用残差连接堆叠更深的层，从而使用多层小的常规内核实现大型局部感受野，从而减轻了对较低层的大型局部感受野的需求。此外，LPSC中参数的不均匀分布可能会导致信息分散和过度平滑，因此很难对残差进行建模。

如图3所示，在CIFAR-10数据集上，本实施例可视化了AlexNet的第一卷积层中学习到的LPSC核。LPSC核的大小为11×11，包括3个距离级别，8个方向级别，增长因子为2。与常规卷积核不同，在LPSC核中，越靠近中心，分辨率越高。越向外，参数共享的范围就越大。本实施例观察到，学习到的LPSC核捕获了一些特殊的本地结构和上下文配置。在某些内核中，相邻区域的权重是连续的。一些核对特定的方向，边缘，颜色或局部变化敏感；在其他一些核中，突出显示了区域的特定组合。为了充分利用核所限定的空间，本实施例分别用对应的最近区域的权重填充四个角(不属于局部感受野的位置)，如图4所示。

LPSC还可以应用在图像分割任务上。在用于一般图像语义分割的PASCAL VOC2012数据集上，本实施例采用以MobileNet为骨干网络的DeepLabv3+的Pytorch实现)作为基准。训练集通过文献中提供的额外注释进行了扩充。对验证集上的总体准确性(oAcc)，平均准确性(mAcc)，频率准确性(fAcc)和平均IoU(mIoU)进行评估。在DeepLabv3+中，无环空间金字塔池(ASPP)模块通过三种不同扩张率的空洞卷积来探测多尺度特征。对于DeepLabv3+LPSC，本实施例在ASPP中用LPSC替换了具有最大扩张率的空洞卷积。LPSC的内核大小、L_r、L_θ、和g分别设置为9、2、8、2。表4比较了使用LPSC以及不使用LPSC时DeepLabv3+在这个数据集上的实验结果。LPSC在mIoU上将DeepLabv3+提高了1.1％。由于所有超参数和设置(例如学习率，批处理大小等)均保持不变，因此性能提升仅归因于所提出的LPSC。

表4在PASCAL VOC2012验证集上的结果

方法	oAcc	mAcc	fAcc	mIoU
					DeepLabv3+	0.9230	0.8332	0.8652	0.7144
DeepLabv3+LPSC	0.9273	0.8388	0.8714	0.7260

在用于视网膜血管检测的DRIVE数据集中，本实施例采用CE-Net的Pytorch实现作为基准，在测试集上评估灵敏度(Sen)，准确性(Acc)和AUC。CE-Net的密集空洞卷积(DAC)块使用四个级联分支，其中空洞卷积数量不断增加。对于CE-Net-LPSC-1，本实施例在DAC中用大小为5和11的LPSC分别替换扩张率为3和5的空洞卷积，以便各层的LPSC具有和原空洞卷积相同的局部感受野。LPSC的L_r、L_θ、和g分别设置为2、6、3。对于CE-Net-LPSC-2，本实施例将LPSC的内核大小分别增加到9和15，以进一步增加局部感受野。相应地，本实施例将L_r、L_θ、和g分别设置为3、8、1.5，以对大感受野使用更多参数。其他超参数保持与基准相同。本实施例运行CE-Net-LPSC-1和CE-Net-LPSC-2十次，并报告平均性能。与现有方法的结果的比较列在表5中。本实施例的LPSC在训练样本有限的情况下，在医学图像分割方面取得了良好的泛化性能。

表5在DRIVE数据集上的性能比较

方法	Sen	Acc	AUC
				U-Net[19]	0.7537	0.9531	0.9601
Deep Vessel[20]	0.7603	0.9523	0.9752
				CE-Net[18]	0.8309	0.9545	0.9779
CE-Net-LPSC-1	0.8300	0.9552	0.9782
				CE-Net-LPSC-2	0.8312	0.9548	0.9784

本发明未详细阐述部分属于本领域技术人员的公知技术。

上述各实施例仅用于说明本发明，其中各部件的结构、连接方式和制作工艺等都是可以有所变化的，凡是在本发明技术方案的基础上进行的等同变换和改进，均不应排除在本发明的保护范围之外。

Claims

1.一种基于对数极空间卷积对数据进行处理的方法，其特征在于，包括以下步骤：

1)构建基于对数极空间的卷积核；

2.如权利要求1所述的一种基于对数极空间卷积对数据进行处理的方法，其特征在于：所述步骤1)中，构建基于对数极空间的卷积核时，包括以下步骤：

3.如权利要求2所述的一种基于对数极空间卷积对数据进行处理的方法，其特征在于：所述步骤1.2)中，将步骤1.1)中的局部感受野均匀地划分为L_r×L_θ个区域的方法，包括以下步骤：

1.2.2)将Δ范围内的所有位置根据其相对于中心位置的相对方向均匀地划分为L_θ个级别；

4.如权利要求3所述的一种基于对数极空间卷积对数据进行处理的方法，其特征在于：所述步骤1.2.1)中，L_r个级别中各级别半径满足以下公式：

log(R_l+1)-log(R_l)＝log(R_l)-log(R_l-1)＝log(g)

5.如权利要求4所述的一种基于对数极空间卷积对数据进行处理的方法，其特征在于：所述步骤1.2.1)中，级别半径R_l的范围为

其中，R为卷积核半径，L_r为距离级别数，g为增长率。

6.如权利要求3所述的一种基于对数极空间卷积对数据进行处理的方法，其特征在于：所述步骤1.2.2)中，将Δ范围内的所有位置根据其相对于中心的相对方向均匀地划分为L_θ个级别时，划分方法为：如果2π(m-1)/L_θ≤θ_i，j＜2πm/L_θ，则位置(i，j)属于第m级，其中θ_i，j是向量(0，1)到向量(i-c_h，j-c_w)的逆时针角度。

7.如权利要求3所述的一种基于对数极空间卷积对数据进行处理的方法，其特征在于：所述步骤1.2.3)中，根据所有位置相对中心位置的夹角和平方距离，将卷积核的局部感受野分为L_r×L_θ个区域的方法为：

首先，将卷积核中心位置索引记为(0，0)，得到卷积核范围内的位置索引为{(-R，-R)，(-R，-R+1)，…，(R-1，R)，(R，R)}；

其次，计算所有位置相对中心位置的夹角和平方距离；

8.如权利要求1所述的一种基于对数极空间卷积对数据进行处理的方法，其特征在于：所述步骤1)中，构建基于对数极空间的卷积核时，还能够采用椭圆形对数极空间，构建方法为：

9.如权利要求1所述的一种基于对数极空间卷积对数据进行处理的方法，其特征在于：所述步骤3)中，将输入图像输入到新的卷积神经网络进行数据处理时，卷积层的输出特征图为：

10.如权利要求1所述的一种基于对数极空间卷积对数据进行处理的方法，其特征在于：所述步骤4)中，利用步骤1)中构建的基于对数极空间的卷积核替换常规卷积网络中的卷积核，并将输入图像或特征图输入替换后的常规卷积网络中，通过对数极空间池化操作，用常规卷积实现对数极空间卷积，得到输出特征图的方法，包括以下步骤：