CN111476249A

CN111476249A - 多尺度大感受野卷积神经网络的构建方法

Info

Publication number: CN111476249A
Application number: CN202010203659.2A
Authority: CN
Inventors: 陈曦; 李志强; 邓诗易; 蒋捷; 刘敏; 李庆利; 刘小平; 方涛; 霍宏
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2020-03-20
Filing date: 2020-03-20
Publication date: 2020-07-31
Anticipated expiration: 2040-03-20
Also published as: CN111476249B

Abstract

多尺度大感受野卷积神经网络的构建方法，属于精准提取特征的深度学习算法领域。本发明是为了解决现有卷积神经网络由于采用的主流卷积滤波器采样位置固定且采样点数量少，导致精准提取多样化特征能力不足的问题。包括：构建自学习采样位置滤波器：确定四个采样单元，由每个采样单元的四个角共同确定九个一级采样点；对每个采样单元，通过学习的方式再确定四个二级采样点；基于不同速率的自学习采样位置滤波器构建自适应级联空间金字塔池化模块；最后，采用Modified aligned Xception作为主干网，将所述自适应级联空间金字塔池化模块组装在解码器层，形成多尺度大感受野卷积神经网络。本发明构建的卷积神经网络可有效地提取图片的边缘，纹理和上下文特征。

Description

多尺度大感受野卷积神经网络的构建方法

技术领域

本发明涉及多尺度大感受野卷积神经网络的构建方法，属于精准提取特征的深度学习算法领域。

背景技术

准确的特征表示是提高图像分类和分割精确度的前提，它逐渐成为深度学习的一个重要研究方向。

特征可视化显示：随着图像信息在神经网络中不断向深层传递，特征表现为边缘到纹理再到高级语义信息。高级语义信息通常包括一些上下文、整体形状和其他高级特征。由于卷积神经网络由卷积组成，所以卷积滤波器在特征提取方面起着至关重要的作用。然而，由于主流卷积滤波器的采样位置固定且采样点数量较少，不能有效且准确地捕获多样化特征。

由于拍摄距离和角度等客观条件不同，图像中的某些对象以多尺度的形式存在，同一个对象在不同图像中可能呈现出许多不同的外观，容易导致同一物体识别成不同类别。尽管可以通过用随机旋转和多尺度输入等数据增强技术来应对这一问题，但是解决的成效仍不够明显。例如，由于GPU内存限制，对于更多或更深的卷积神经网络，多尺度输入的尺度数量受到限制。

通常认为，感受野越大，提取的特征越好，尤其是对于全局形状和纹理特征。但大的卷积滤波器导致了高计算量。为了在低计算量下获得大的感受野，一些经典卷积网络如VGG和ResNet等都串联大量的3×3规则的方形滤波器，中间多次使用池化操作来对特征图进行多次下采样。然而，这样会丢失许多细节和位置信息，导致分割精度降低。同时，实验表明，这些网络中的实际有效感受野远小于理论值。

发明内容

本发明目的是为了解决现有卷积神经网络由于采用的主流卷积滤波器采样位置固定且采样点数量少，导致精准提取多样化特征能力不足的问题，提供了一种多尺度大感受野卷积神经网络的构建方法。

本发明所述多尺度大感受野卷积神经网络的构建方法，包括：

构建自学习采样位置滤波器：设置正方形外轮廓，将所述正方形外轮廓按田字均匀分割为四个采样单元，由每个采样单元的四个角共同确定九个一级采样点；

对每个采样单元，通过学习的方式再确定四个二级采样点；其中一号二级采样点位于采样单元的水平中线上，二号二级采样点位于采样单元的竖直中线上，一号二级采样点和二号二级采样点在采样单元内沿相应的对角线对称分布；三号二级采样点和四号二级采样点位于采样单元的选定对角线上，所述四个采样单元的四个所述选定对角线可顺次连接形成正方形；三号二级采样点和四号二级采样点以所在选定对角线的中点为分界，在两侧线段上对称分布；四个二级采样点均可沿所在线段移动从而确定多个选定位置；通过曲线将每个采样单元内每对对称的二级采样点连接到相应的一级采样点产生多个花瓣形状；

再基于不同速率的所述自学习采样位置滤波器构建自适应级联空间金字塔池化模块；

最后，采用Modified aligned Xception作为主干网，将所述自适应级联空间金字塔池化模块组装在解码器层，形成多尺度大感受野卷积神经网络。

根据本发明所述的多尺度大感受野卷积神经网络的构建方法，

所述四个二级采样点的确定方法包括：

以四个采样单元中的右上角采样单元为例，一号二级采样点为所述水平中线上一动点，二号二级采样点为所述竖直中线上一动点；所述选定对角线为斜率为负的斜对角线，三号二级采样点和四号二级采样点为所述斜对角线上两动点；以所述斜对角线中点为界，左上半段为三号二级采样点的移动范围，右下半段为四号二级采样点的移动范围；

四个二级采样点位置均采用自适应可训练移动方式确定；其中每个二级采样点可对应多个选定位置。

四个采样单元中，左上角采样单元中的二级采样点与右上角采样单元中的二级采样点呈镜像对称分布；上面两个采样单元中的二级采样点与下面两个采样单元中的二级采样点呈镜像对称分布。

所述自适应级联空间金字塔池化模块包括特征图输入层110、全局平均池化层120、一级自学习采样位置滤波器130、二级自学习采样位置滤波器140、三级自学习采样位置滤波器150、直接传入层160、全局池化结果170、初级上采样层180及四个MRCS模块，

所述特征图输入层110用于由主干网Modified aligned Xception中提取得到待识别图像的初级特征图；

全局平均池化层120用于对所述初级特征图每一个特征维度下的全部像元进行计算，得到平均值，输入至全局池化结果170；所述全局池化结果170为1*1*n的特征向量，其中n为特征维数；

所述一级自学习采样位置滤波器130尺寸的速率值Rate＝9，用于卷积提取所述初级特征图的一级特征；

所述二级自学习采样位置滤波器140尺寸的速率值Rate＝7，用于卷积提取所述初级特征图的二级特征；

所述三级自学习采样位置滤波器150尺寸的速率值Rate＝5，用于卷积提取所述初级特征图的三级特征；

所述直接传入层160用于传递特征图输入层110提取的初级特征图；

所述初级上采样层180对所述全局池化结果170中的数据上采样至所述初级特征图大小，得到输出结果底图；

将所述输出结果底图与所述一级特征逐像元相加，相加结果经一级MRCS模块处理后与所述二级特征逐像元相加，相加结果再经二级MRCS模块处理后与所述三级特征逐像元相加，相加结果经三级MRCS模块处理后与直接传入层160传递的所述初级特征图相加，相加结果再经四级MRCS模块处理后，获得图像处理结果，所述图像处理结果作为自适应级联空间金字塔池化模块的输出图。

所述多尺度大感受野卷积神经网络的主干网Modified aligned Xception包括输入流程200、中间流程300、输出流程400以及一级自适应级联空间金字塔池化模块510，其作为多尺度大感受野卷积神经网络的编码器部分；

所述输入流程200包括一级处理210、二级处理220和三级处理230，

所述一级处理210包括1层卷积核为3的普通卷积、2层卷积核为3的深度可分离卷积及1层卷积核为3步长为2的深度可分离卷积；所述待识别图像经过所述1层卷积核为3的普通卷积后，做步长为2的1*1卷积得到128维特征构成一级图像侧枝；所述待识别图像经一级处理210中所有卷积层卷积后获得一级图像主体，所述一级图像主体与一级图像侧枝逐像元相加得到一级处理特征图；所述二级处理220包括2层卷积核为3的深度可分离卷积，1层卷积核为3步长为2的深度可分离卷积；对一级处理特征图做步长为2的1*1卷积得到256维特征构成二级图像侧枝；所述一级处理特征图经二级处理220中所有卷积层卷积后获得二级图像主体；所述二级图像主体与二级图像侧枝逐像元相加得到二级处理特征图；所述三级处理230包括2层卷积核为3的深度可分离卷积及1层卷积核为3步长为2的深度可分离卷积；对二级处理特征图做步长为2的1*1卷积得到728维特征构成三级图像侧枝；所述二级处理特征图经三级处理230中所有卷积层卷积后获得三级图像主体；所述三级图像主体与三级图像侧枝逐像元相加得到三级处理特征图；

所述中间流程300包括3层卷积核为3的深度可分离卷积，所述3层卷积核为3的深度可分离卷积构成卷积单元；采用卷积单元对三级处理特征图进行处理，获得的结果与所述三级处理特征图相加；重复16次得到中间流程输出结果；

所述输出流程400包括四级处理410及五级处理420；

所述四级处理410包括2层卷积核为3的深度可分离卷积和1层卷积核为3步长为2的深度可分离卷积；对中间流程输出结果做步长为2的1*1卷积得到1024维特征构成四级图像侧枝；所述中间流程输出结果经四级处理410中所有卷积层卷积后获得四级图像主体；所述四级图像主体与四级图像侧枝逐像元相加得到四级处理特征图；

所述五级处理420包括3层卷积核为3的深度可分离卷积；四级处理特征图经五级处理420中所有卷积层卷积后获得2048维特征结果图；所述待识别图像为2048维特征结果图尺寸的256倍；

所述一级自适应级联空间金字塔池化模块510对2048维特征结果图进行处理，获得的结果作为编码器部分的输出图像。

所述多尺度大感受野卷积神经网络还包括解码器500，所述解码器500中组装一个或多个自适应级联空间金字塔池化模块，用于提取待识别图像的上下文特征、边缘特征和纹理特征。

所述初级处理特征图及编码器部分的输出图像作为解码器500的输入；

所述解码器500包括二级自适应级联空间金字塔池化模块520、一级解码MRCS模块530和二级解码MRCS模块540，

所述编码器部分的输出图像经一级解码MRCS模块530处理，经上采样至尺寸变为2048维特征结果图的两倍，获得一级上采样图像；

初级处理特征图经二级自适应级联空间金字塔池化模块520处理后获得二级特征图像；

所述二级特征图像与一级上采样图像逐像元相加，相加结果经二级解码MRCS模块540处理后，再经上采样获得一级解码图像输出；

所述一级解码图像再经像素分类模块处理后作为待识别图像的最终语义分割结果。

在超参数设置中，组装在编码器层中的所述自学习采样位置滤波器尺寸的速率值Rate设置为解码器层中相应自学习采样位置滤波器尺寸速率值Rate的多倍。

本发明的优点：本发明方法基于自学习采样位置滤波器构建，可使用于精准提取特征的深度学习算法网络中，应用于图像分类和语义分割。

本发明方法提出了一个新的名为自学习采样位置滤波器，它可以通过关键采样位置的可学习来更有效地提取边缘，纹理和上下文特征。基于此，提出了自适应级联空间金字塔池化模块AKCSPP，用于多尺度提取各种特征。最后，在此基础上开发了一种新架构，多尺度大感受野卷积神经网络AKCN，可以在大的感受野下，以密集的多尺度提取特征。

经实验验证，本发明方法构建的自学习采样位置滤波器比空洞滤波器能更准确地拟合边界。并且自学习采样位置滤波器可以同时定位两种表征周期性变化的像素。因此，本发明中基于自学习采样位置滤波器设计的密集多尺度大感受野卷积神经网络，在能够扩大卷积网络的感受野的同时，还能够更好地捕获对象的形状特征，提高了图像处理的质量，使信息表达更准确。

附图说明

图1是本发明所述多尺度大感受野卷积神经网络的构建方法中自学习采样位置滤波器的构建示意图；图中R表示Rate取值；

图2是主干网Modified aligned Xception的结构图；

图3是多尺度大感受野卷积神经网络的结构示意图；

图4是采用本发明中自学习采样位置滤波器和现有空洞滤波器进行图像处理的形状特征捕获对比图；

其中(a)为待处理图像；(b)为自学习采样位置滤波器对待处理图像中三个标记区域的捕获结果图像；(c)为现有空洞滤波器对待处理图像中三个标记区域的捕获结果图像；

图5是采用本发明中自学习采样位置滤波器和现有空洞滤波器对亚麻麻袋的纹理特征进行提取的结果图；

其中(a)为待处理亚麻麻袋图像；(b)为现有空洞滤波器的亚麻麻袋捕获结果图像；(c)为自学习采样位置滤波器的亚麻麻袋捕获结果图像；

图6是采用本发明中自学习采样位置滤波器和现有空洞滤波器对木材的纹理特征进行提取的结果图；

其中(a)为待处理木材图像；(b)为现有空洞滤波器的木材捕获结果图像；(c)为自学习采样位置滤波器的木材捕获结果图像；

图7是本发明的自学习采样位置滤波器和现有空洞滤波器提取图像中上下文特征能力的比较图；

其中(a)为待处理图像；(b)为现有空洞滤波器提取图像中上下文特征能力示意图；(c)为自学习采样位置滤波器提取图像中上下文特征能力示意图；

图8是当将编码器层中的自学习采样位置滤波器的速率值设置为解码器层中相应的自学习采样位置滤波器的1至5倍时，依次获得的按类分类的特征图；

图9是PASCAL VOC 2012测试集中三幅图像及其对应的分割结果；其中(a)为原始图像；(b)是现有deeplabV3+方法的分割结果；(c)是本发明方法的分割结果。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

具体实施方式一：下面结合图1至图3说明本实施方式，本实施方式所述多尺度大感受野卷积神经网络的构建方法，包括：

再基于不同速率的所述自学习采样位置滤波器构建自适应级联空间金字塔池化模块(AKCSPP)，同时也将全局平均池和修改后的RCS集成在一起；

最后，采用Modified aligned Xception作为主干网，将所述自适应级联空间金字塔池化模块组装在解码器层，形成多尺度大感受野卷积神经网络(AKCN)。

本实施方式针对现有的主要滤波器采样位置固定且采样点少导致精准提取多样化特征能力不足的问题，同时针对现有方法中不同特征的语义间隙导致的潜在拟合残差问题；以及现有方法中选用大尺寸滤波器导致计算成本上升，分割精度降低等问题，构建了一种密集多尺度大感受野卷积神经网络。

为了能够同时捕获更好的边缘，纹理和上下文特征，本实施方式中提出了自学习采样位置滤波器，其可通过学习填充kernal_size＝3的空洞滤波器中的几个关键空间采样位置来实现。kernal_size＝k表示在空洞滤波器中有k×k个可训练参数。由空洞滤波器优化获得的自学习采样位置滤波器具有如下优点：由于具有更多梯度方向，能够更加准确的提取边缘特征；因为其采样点可以通过学习自适应地调整位置，所以它可以很好的提取纹理特征；由于存在更多上下文采样点，在提取上下文特征时可以更好地克服噪声的干扰。

为了解决更多或更深的卷积神经网络多尺度输入的尺度数量受限的问题，本实施方式将不同比率的自学习采样位置滤波器，原始输入特征图和残差校正方案(RCS)集成为一个级联体系结构，来构造自适应级联空间金字塔池化模块(AKCSPP)。不同比率的自学习采样位置滤波器可以在不同尺度上捕获不同特征和对象。RCS和级联体系结构用于减少由不同特征图中语义间隙导致的潜在拟合残差。

最后，构建了多尺度大感受野卷积神经网络(AKCN)。AKCN采用Modified alignedXception作为骨干网络，并在编码器和解码器层中组装AKCSPP以提取密集多尺度特征。在AKCSPP中，三个具有不同比率的自学习采样位置滤波器对图像进行了卷积，这等效于三个滤波器的叠加形成的滤波器对图像的卷积。新的叠加滤波器将三个自学习采样位置滤波器的采样参数作为自己的采样参数，并把具有最大速率的自学习采样位置滤波器的尺寸作为其自身大小。此外，当解码器层和编码器层中装有AKCSPP，新的叠加滤波器将所有AKCSPP中那些自学习采样位置滤波器的采样参数作为自己的采样参数，并将AKCSPP中比率最大的自学习采样位置滤波器作为其自身大小。因此，AKCN是一个密集的多尺度网络，并且具有大的感受野，它可以捕获更准确的特征，包括全局形状和其他高级特征，降低计算成本，并提高分割精度，扩大有效感受野。对于每个模块来说，编码器中的AKCSPP主要用于提取上下文特征，而在解码器中主要用于提取边缘，纹理和细节特征。

进一步，结合图1所示，所述四个二级采样点的确定方法包括：

四个二级采样点位置均采用自适应可训练移动方式确定，具体位置坐标均由机器训练学习获得；其中每个二级采样点可对应多个选定位置。

所述二级采样点的位置可以移动选取，也就是说，每个二级采样点可以对应多个选定位置，将所有二级采样点连接到相应的一级采样点可以产生数千万个花瓣形状。解决了边缘特征，纹理特征的提取问题。

再进一步，结合图1所示，四个采样单元中，左上角采样单元中的二级采样点与右上角采样单元中的二级采样点呈镜像对称分布；上面两个采样单元中的二级采样点与下面两个采样单元中的二级采样点呈镜像对称分布。

通过构造二级采样点首先可以使得其能够使用线段对圆弧进行二次近似描述，如图1所示，本发明方法可以通过在对应采样位置线上移动的采样点，相较于仅使用一级采样点具有更强的边缘精细特征描述能力。

其次，二级采样点的设置扩充了其与中心点的距离，其与一级采样点共同构成了五个到中心点的距离，如图5及图6所示，本方法可以根据其多个采样点到中心距离的差异获取多个距离下不同的像素周期性变化，从而在周期性变化特征上减少其信息丢失。

所述自学习采样位置滤波器的具体细节如图1所示，其中R表示比率，等于空洞滤波器的比率加1。L₁，L₂，L₃和L₄表示四个采样位置线。K₁，K₂，K₃和K₄表示四个采样位置点，它们来自相应的采样位置线。给定四个可训练的非负可变变量V₁，V₂，V₃和V₄初始化为1，则可以通过以下公式计算K₁的坐标(x₁，y₁)

可以通过以下公式计算K₂的坐标(x₂，y₂)

K₃的坐标(x₃，y₃)为

K₄的坐标(x₄，y₄)为

类似地，对于相同的下标i(i＝1,2,3,4)，Ki'，Ki”，Ki”'和Ki是对称的，因此通过Ki可以轻松地获得它们的坐标。如图1所示，可以将自学习采样位置滤波器视为kernel_size＝3的空洞滤波器和kernel_size＝2的四个空洞滤波器，其中kernel_size＝k表示在空洞滤波器中有k×k个可训练参数。

为了使Ki'，Ki”，Ki”'和Ki成为自适应且可训练的采样位置点，V₁，V₂，V₃和V₄必须是网络中的可训练参数。现在，它们是不可训练的。

为了解决这个问题，我们参考了自适应温度softmax在文献中的应用。他们在vanilla softmax function功能中添加一个温度T，以增强softmax的激活：

z_i和z_j是最终特征图中用于分类的元素。T可以使用标准的反向传播算法自动进行学习。

在实现自学习采样位置滤波器时，将由具有孔洞滤波器Ai(i＝1,2,3,4)的输入特征图Input卷积而生成的特征图除以相应的Vi。通过这样做，将Vi添加到TensorFlow计算图中，并可以对其进行训练以找到最佳采样位置点Ki。自学习采样位置卷积的输出图M可用以下表达式描述：

其中Ai(Input)表示使用Ai滤波器(不同比率的kernelz_size＝2的空洞滤波器)进行卷积输入。A₅表示kernel_size＝3的空洞滤波器。

进一步，结合图3所示，所述自适应级联空间金字塔池化模块包括特征图输入层110、全局平均池化层120、一级自学习采样位置滤波器130、二级自学习采样位置滤波器140、三级自学习采样位置滤波器150、直接传入层160、全局池化结果170、初级上采样层180及四个MRCS模块，

所述MRCS模块是对残差校正模块RCS修改后获得。

本实施方式所述自适应级联空间金字塔池化模块中包括三个自学习采样位置滤波器。在实际使用中，每个自适应级联空间金字塔池化模块中可以选择使用3至5个自学习采样位置滤波器。

由于一个自学习采样位置卷积只能捕捉有限的上下文、形状和纹理特征，如果要清晰地区分图像中的所有对象，仅使用一个自学习采样位置滤波器不能满足需求。为此，本实施方式通过结合三个不同大小的自学习采样位置滤波器，产生自适应级联空间金字塔池化模块(AKCSPP)。图3展示了AKCSPP。不同尺度的自学习采样位置滤波器可以在不同尺度上捕捉不同的特征，获得更精确的形状特征和纹理特征。为了提升AKCSPP的性能，使用了ASPP模型和上下文聚合模型中的全局平均池化特征图、原始输入特征图、MRCS和级联架构。全局平均池化特征图中每一个像素的值是原始输入特征映射中所有像素值的全局平均值。它与自学习采样位置卷积的特征图和原始输入特征图一起，形成一个金字塔，位于金字塔的顶部。研究发现，对图像金字塔中相邻图像的减法结果求和可以生成显著区域，对图像金字塔中的所有图像直接求和也可以产生相似的显著区域，将显著性图谱引入语义分割的特征图中，能够提高分割精度。因此，在AKCSPP中引入了全局平均池化特征图，并使用了求和运算。此外，引入原始输入特性图有两方面的原因。一方面，它们是金字塔的重要组成部分，可以以此增强显著区域；另一方面，来自自学习采样位置卷积的特征图大多包含语义、形状和纹理特征，而原始输入中每个像素的位置、颜色和强度信息严重丢失。通过引入原始输入特征图，可以恢复损失信息。对于采取直接堆积的办法组合金字塔中的特征图。则忽略了相邻尺度的物体的等级依赖性。由于不同特征图中语义间隙会引起固定残差，忽略这种等级依赖性会将固定残差引入最后的结果，导致分割精度下降。通过在AKCSPP中使用级联结构，充分考虑了这种层次依赖性，减少了固定残差。

进一步，结合图2及图3所示，所述多尺度大感受野卷积神经网络的主干网Modified aligned Xception包括输入流程200、中间流程300、输出流程400以及一级自适应级联空间金字塔池化模块510，其作为多尺度大感受野卷积神经网络的编码器部分；

所述输入流程200对待识别图像进行卷积处理，获得三级处理特征图；中间流程300对所述三级处理特征图进行处理，获得中间流程输出结果；所述输出流程400对所述中间流程输出结果进行处理，获得2048维特征结果图；所述待识别图像为2048维特征结果图尺寸的256倍；所述一级自适应级联空间金字塔池化模块510对2048维特征结果图进行处理，获得的结果作为编码器部分的输出图像。

具体为：

所述输出流程400包括四级处理410及五级处理420；

再进一步，结合图3所示，所述多尺度大感受野卷积神经网络还包括解码器500，所述解码器500中组装一个或多个自适应级联空间金字塔池化模块，用于提取待识别图像的上下文特征、边缘特征和纹理特征。

再进一步，结合图3所示，所述初级处理特征图及编码器部分的输出图像作为解码器500的输入；

再进一步，在超参数设置中，组装在编码器层中的所述自学习采样位置滤波器尺寸的速率值Rate设置为解码器层中相应自学习采样位置滤波器尺寸速率值Rate的多倍。

所述AKCSPP可同时组装于多尺度大感受野卷积神经网络的编码器层和解码器层中，编码器中的AKCSPP主要用于提取上下文特征，而在解码器中主要用于提取边缘，纹理和细节特征。

在编码器提取的特征中，每个对象都相对较小，因此AKCSPP提取的大多数特征都是上下文特征。解码器的特征图包含了相对较大的对象和更多的细节，提取的为大对象的形状和纹理特征，以及小对象的上下文特征。由于原始输入特征图也包含在AKCSPP中，因此AKCSPP的输出也保留了解码器特征图中的所有原始特征，这确保了细节不会丢失。这些AKCSPP模块的输出特征图共同构成了一个金字塔。该金字塔具有与AKCSPP生成的金字塔相同的属性。因此，为了更好地融合这些特征图，使用了求和运算、RCS和级联结构。

由图4(a)所示，应该用更多的空间采样位置来捕获对象，例如房屋和树木。通过填充空洞卷积的关键位置，可以引入更多的空间采样位置，更好地捕获对象的形状特征。由图4(b)和(c)对比可知，自学习采样位置滤波器比空洞滤波器能更准确地拟合边界。

纹理是指在一定大小的区域内像素表现出有规律的周期性变化。实心卷积滤波器的感受野越大，提取纹理特征的能力越强。空洞滤波器通过插入空洞以扩大感受野，满足提取纹理需要大的感受野的条件，但是空洞滤波器少数空间采样点无法捕捉纹理中不同类型像素的周期性变化。由图5和图6可知，空洞滤波器只能定位一种像素值彼此接近的像素，但它无法定位另一种像素。相比之下，自学习采样位置滤波器可以同时定位两种表征周期性变化的像素。

上下文特征是指对应于对象共同出现语义关系。上下文特性可用于修正错误的对象标签。如图7所示，汽车更可能出现在道路、人、树木、房屋和附近的汽车周围。与空洞滤波器相比，自学习采样位置滤波器增加了空间采样点的数目，从而能够将更多的对象作为上下文。

图8为当将编码器层中的自学习采样位置滤波器的尺寸设置为解码器层中相应的自学习采样位置滤波器的几倍(从一到五倍)时，可以看到一些按类分类的特征图。

图9为PASCAL VOC 2012测试集中三幅图像及其对应的分割结果。其中(a)为原始图像；(b)是现有deeplabV3+方法的分割结果；(c)是本发明方法的分割结果。这些对象有清晰的纹理和形状信息。相比之下本发明方法可以更精确地分割它们。

具体实施例：下面通过具体实施例对本发明方法构建的密集多尺度大感受野卷积神经网络的性能进行说明：

本实施例在PASCAL VOC 2012数据集和Cityscapes数据集上评估本发明。第一个数据集是众所周知的数据集，其中包括20个对象类和一个背景类。分别对1,464、1449和1,456张图像进行训练，验证和测试。同时，实验中也使用了增强数据集。它分别具有10,582、1449和1,456张图像用于训练，验证和测试。第二个数据集包含来自50个欧洲城市的5000张高质量像素级精细标注图像。它分别具有2,975、500和1,525个图像用于训练，验证和测试。通过mIOU来对性能进行评估。

具体实现细节如下：

将Modified aligned Xception65和Xception71作为骨干网，采用多元学习策略：将动量设为0.9，权重衰减设为0.00004，衰减速率设为0.9997。对于所有剥离实验，在训练集上进行100K迭代训练。对于最初的50k迭代，使用批处理归一化，并将初始学习率设置为0.01，批处理大小设置为24，裁切图像大小设置为513×513。对于接下来的50K迭代，冻结批量标准化，并将初始学习率设置为0.001。此外，对于Cityscapes，一个GPU一次处理输入图像块的数量设置为1，裁切图像大小为769×1025，对于PASCAL VOC2012，一个GPU一次处理输入图像块的数量设置为2，裁切图像大小为513×513。我们的模型的所有参数都使用高斯分布方差0.01，均值为0。四个可训练的非负变量V1，V2，V3和V4的初始值为1。对于Cityscapes数据集，将删除“全局平均池”。

剥离实验：

在所有的剥离实验中，骨干网Modified aligned Xception 71和Modifiedaligned Xception 65的参数均由DeeplabV3+在Cityscapes上进行预训练模型初始化。

先对比自学习采样位置滤波器与空洞滤波器的性能，以及KCSPP与ASPP的性能。表1记录了比较的结果。在表1中,DeeplabAKC是将DeeplabV3+中ASPP的空洞滤波器替换为自学习采样位置滤波器后的模型的缩写，DeeplabAKCSPP是用KCSPP取代DeeplabV3+中的ASPP后的模型的简称。DeeplabAKC和DeeplabAKCSPP中的三个自学习采样位置滤波器的Rate(比率)分别设置为36、28和20。

DeeplabAKCSPP的训练方案按照本发明方法设置。DeeplabAKC和DeeplabV3+的训练方案按照提出DeeplabV3+模型的文献的方法设置。从实验结果来看，DeeplabAKC超过了DeeplabV3+，DeeplabAKCSPP超过了DeeplabV3+和DeeplabAKC。对于Cityscapes，使用主干Modified aligned Xception71的模型比使用主干Modified aligned Xception65的模型更好。

比较几个AKCN的性能。在实验中，对于配备在解码器层的AKCSPP，将三个自学习采样位置滤波器的比率设置为9、7和5。将编码器层中的自学习采样位置滤波器的比率设置为对应的自学习采样位置滤波器的四倍。解码器层，即36、28和20。图8显示了从一次到五倍的相应的每类特征图谱。

在剥离实验中,将KCSPP按输出步长从8到2的顺序配置到解码器层，并且比较相应模型的结果。其中输出步长为输入图像空间分辨率与最终输出图像分辨率之比。表2给出了实验结果的对比。对于两个数据集，最佳结果来自使用AKCSPP的解码器层(输出步幅＝4)的模型。

为了与其他先进方法进行比较，针对每个数据集选择了最佳的AKCN，即对于Cityscapes是Modified aligned Xception71+AKCSPP(4)，对于PASCAL VOC 2012是Modified aligned Xception65+AKCSPP(4)。对于PASCAL VOC 2012中，先对模型进行了训练，该模型先使用从COCO数据转换而来的PASCAL VOC 2012格式数据进行训练，然后使用增强训练集进行训练。在预训练时，使用批量归一化，并将初始学习率设置为0.01，裁剪大小为513×513，一次训练的剪裁图像的数量为24。最后，在PASCAL VOC 2012的训练和校验集共2913个数据上对该模式进行微调。微调时，冻结批次标准化参数，基本学习率设置为0.001，裁剪大小为513×513，一次训练的剪裁图像的数量为16。对于Cityscapes，仅在精细数据集上训练模型。对于最初的100k迭代，使用批量归一化，并将初始学习率设置为0.01，裁剪大小为513×513，一次训练的剪裁图像的数量为24。之后，冻结批量归一化参数，将基本学习率设置为0.001，裁剪尺寸为769×1025，一次训练的剪裁图像的数量为8。表3显示了PASCAL VOC 2012测试集和Cityscapes测试集的比较结果。

图9显示了与DeeplabV3+相比，本发明的模型可以更精确地对自行车、桌子和沙发和人进行细分。因为这些对象包含更多的形状和纹理特征。

表1

表1中，mIOU表示均交并比，为语义分割的标准度量；

表2

表3

虽然在本文中参照了特定的实施方式来描述本发明，但是应该理解的是，这些实施例仅仅是本发明的原理和应用的示例。因此应该理解的是，可以对示例性的实施例进行许多修改，并且可以设计出其他的布置，只要不偏离所附权利要求所限定的本发明的精神和范围。应该理解的是，可以通过不同于原始权利要求所描述的方式来结合不同的从属权利要求和本文中所述的特征。还可以理解的是，结合单独实施例所描述的特征可以使用在其他所述实施例中。

Claims

1.一种多尺度大感受野卷积神经网络的构建方法，其特征在于包括：

2.根据权利要求1所述的多尺度大感受野卷积神经网络的构建方法，其特征在于，

所述四个二级采样点的确定方法包括：

3.根据权利要求2所述的多尺度大感受野卷积神经网络的构建方法，其特征在于，

4.根据权利要求3所述的多尺度大感受野卷积神经网络的构建方法，其特征在于，

所述自适应级联空间金字塔池化模块包括特征图输入层(110)、全局平均池化层(120)、一级自学习采样位置滤波器(130)、二级自学习采样位置滤波器(140)、三级自学习采样位置滤波器(150)、直接传入层(160)、全局池化结果(170)、初级上采样层(180)及四个MRCS模块，

所述特征图输入层(110)用于由主干网Modified aligned Xception中提取得到待识别图像的初级特征图；

全局平均池化层(120)用于对所述初级特征图每一个特征维度下的全部像元进行计算，得到平均值，输入至全局池化结果(170)；所述全局池化结果(170)为1*1*n的特征向量，其中n为特征维数；

所述一级自学习采样位置滤波器(130)尺寸的速率值Rate＝9，用于卷积提取所述初级特征图的一级特征；

所述二级自学习采样位置滤波器(140)尺寸的速率值Rate＝7，用于卷积提取所述初级特征图的二级特征；

所述三级自学习采样位置滤波器(150)尺寸的速率值Rate＝5，用于卷积提取所述初级特征图的三级特征；

所述直接传入层(160)用于传递特征图输入层(110)提取的初级特征图；

所述初级上采样层(180)对所述全局池化结果(170)中的数据上采样至所述初级特征图大小，得到输出结果底图；

将所述输出结果底图与所述一级特征逐像元相加，相加结果经一级MRCS模块处理后与所述二级特征逐像元相加，相加结果再经二级MRCS模块处理后与所述三级特征逐像元相加，相加结果经三级MRCS模块处理后与直接传入层(160)传递的所述初级特征图相加，相加结果再经四级MRCS模块处理后，获得图像处理结果，所述图像处理结果作为自适应级联空间金字塔池化模块的输出图。

5.根据权利要求4所述的多尺度大感受野卷积神经网络的构建方法，其特征在于，

所述多尺度大感受野卷积神经网络的主干网Modified aligned Xception包括输入流程(200)、中间流程(300)、输出流程(400)以及一级自适应级联空间金字塔池化模块(510)，其作为多尺度大感受野卷积神经网络的编码器部分；

所述输入流程(200)包括一级处理(210)、二级处理(220)和三级处理(230)，

所述一级处理(210)包括1层卷积核为3的普通卷积、2层卷积核为3的深度可分离卷积及1层卷积核为3步长为2的深度可分离卷积；所述待识别图像经过所述1层卷积核为3的普通卷积后，做步长为2的1*1卷积得到128维特征构成一级图像侧枝；所述待识别图像经一级处理(210)中所有卷积层卷积后获得一级图像主体，所述一级图像主体与一级图像侧枝逐像元相加得到一级处理特征图；所述二级处理(220)包括2层卷积核为3的深度可分离卷积，1层卷积核为3步长为2的深度可分离卷积；对一级处理特征图做步长为2的1*1卷积得到256维特征构成二级图像侧枝；所述一级处理特征图经二级处理(220)中所有卷积层卷积后获得二级图像主体；所述二级图像主体与二级图像侧枝逐像元相加得到二级处理特征图；所述三级处理(230)包括2层卷积核为3的深度可分离卷积及1层卷积核为3步长为2的深度可分离卷积；对二级处理特征图做步长为2的1*1卷积得到728维特征构成三级图像侧枝；所述二级处理特征图经三级处理(230)中所有卷积层卷积后获得三级图像主体；所述三级图像主体与三级图像侧枝逐像元相加得到三级处理特征图；

所述中间流程(300)包括3层卷积核为3的深度可分离卷积，所述3层卷积核为3的深度可分离卷积构成卷积单元；采用卷积单元对三级处理特征图进行处理，获得的结果与所述三级处理特征图相加；重复16次得到中间流程输出结果；

所述输出流程(400)包括四级处理(410)及五级处理(420)；

所述四级处理(410)包括2层卷积核为3的深度可分离卷积和1层卷积核为3步长为2的深度可分离卷积；对中间流程输出结果做步长为2的1*1卷积得到1024维特征构成四级图像侧枝；所述中间流程输出结果经四级处理(410)中所有卷积层卷积后获得四级图像主体；所述四级图像主体与四级图像侧枝逐像元相加得到四级处理特征图；

所述五级处理(420)包括3层卷积核为3的深度可分离卷积；四级处理特征图经五级处理(420)中所有卷积层卷积后获得2048维特征结果图；所述待识别图像为2048维特征结果图尺寸的256倍；

所述一级自适应级联空间金字塔池化模块(510)对2048维特征结果图进行处理，获得的结果作为编码器部分的输出图像。

6.根据权利要求5所述的多尺度大感受野卷积神经网络的构建方法，其特征在于，

所述多尺度大感受野卷积神经网络还包括解码器(500)，所述解码器(500)中组装一个或多个自适应级联空间金字塔池化模块，用于提取待识别图像的上下文特征、边缘特征和纹理特征。

7.根据权利要求6所述的多尺度大感受野卷积神经网络的构建方法，其特征在于，

所述初级处理特征图及编码器部分的输出图像作为解码器(500)的输入；

所述解码器(500)包括二级自适应级联空间金字塔池化模块(520)、一级解码MRCS模块(530)和二级解码MRCS模块(540)，

所述编码器部分的输出图像经一级解码MRCS模块(530)处理，经上采样至尺寸变为2048维特征结果图的两倍，获得一级上采样图像；

初级处理特征图经二级自适应级联空间金字塔池化模块(520)处理后获得二级特征图像；

所述二级特征图像与一级上采样图像逐像元相加，相加结果经二级解码MRCS模块(540)处理后，再经上采样获得一级解码图像输出；

8.根据权利要求7所述的多尺度大感受野卷积神经网络的构建方法，其特征在于，