CN111260662A

CN111260662A - 超小参数量的分割模型的实现方法

Info

Publication number: CN111260662A
Application number: CN202010045961.XA
Authority: CN
Inventors: 程明明; 高尚华; 谭永强; 陆承泽
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2020-01-16
Filing date: 2020-01-16
Publication date: 2020-06-09
Anticipated expiration: 2040-01-16
Also published as: CN111260662B

Abstract

超小参数量的分割模型的实现方法，属于计算机视觉技术领域。本发明利用可同时处理多种尺寸特征图的卷积构建超轻量级的神经网络主干结构，能够在提取多尺度特征信息的同时减少计算量；提出一种特征融合模块将来源于主干网络结构中不同阶段的特征进行融合，以较小的计算成本充分提取不同尺度的特征信息，从而输出具有高分辨率的高质量图像分割结果。为进一步压缩网络参数量，本发明提出一种动态权重衰减辅助的神经网络训练策略，在训练过程中依照当前输入图像产生的特征对不同参数进行不同程度的稀疏化约束；通过剔除训练完成模型中数值为零的参数，可以在保持性能不变的情况下压缩轻量级模型的参数量，从而获取一个具有极低参数量的分割模型。

Description

超小参数量的分割模型的实现方法

技术领域

本发明属于计算机视觉技术领域，特别涉及到利用超小参数量的神经网络进行图像分割的应用。

背景技术

卷积神经网络(CNN)的强大表征能力提升了例如显著性物体检测，语义分割等各种视觉图像分割任务的性能。通过构建更有效的骨干架构并使用更多参数，基于CNN的图像分割模型能够获得进一步的性能提升。现有的图像分割模型依靠在大规模数据集ImageNet预训练的主干架构来提取特征。尽管拥有具有出色的性能，但这些模型通常运行缓慢且占用大量计算资源，因此几乎不适用于计算能力有限的低功耗设备。现有的轻型骨网络干架构利用例如通道改组和深度卷积等高效的操作以进一步提高CNN的效率。然而，由于分类任务更侧重于图像的全局语义，轻量级骨干网络架构通常采用激进的下采样策略来节省计算成本，导致其不适用于需要像素级预测的图像分割任务。

通过去除模型中冗余参数即剪枝可以进一步压缩模型参数量。为与现有硬件契合，本发明在神经网络通道维度剪枝。现有的去除网络冗余参数的方法依赖于网络参数的稀疏性，即绝对值较小的参数会被删除掉。权重衰减是提高网络稀疏性的常用正则化技巧，它可以在反向传播期间将权重抑制为零。但是，权重衰减会导致通道之间输出的不稳定，从而导致次优的优化结果。现有方法引入注意力机制，以额外的块来重新校准不稳定的输出，但这与设计极轻量级模型的目的相矛盾。

发明内容

本发明旨在设计一种专用于图像分割的超轻量级神经网络模型。本发明首先设计了针对图像分割任务的轻量级模型。其次，本发明提出一种动态权重衰减的训练策略，增加模型参数的稀疏化程度，从而辅助剪枝算法进一步降低模型参数量。

本发明的技术方案：

超小参数量的分割模型的实现方法，包括针对图像分割的轻量级网络，该轻量级网络分为主干网络和多尺度特征融合模块两部分，以及包括基于动态权重衰减辅助的神经网络训练和模型压缩，其中：

a.基于可同时处理多种尺寸特征的卷积构建主干网络架构；

b.提出特征融合模块将来源于主干网络结构中不同阶段的特征进行融合；

c.提出动态权重衰减辅助的神经网络训练策略增加网络参数的稀疏程度；

d.对利用动态权重衰减方法训练完成的模型进行冗余参数剪枝，得到具有较优不同尺寸通道比例的超小参数量的分割模型。

本发明没有使用ImageNet预先训练的骨干架构作为特征提取器，而是基于一种可同时处理多种尺寸特征的卷积构建了一个超轻量级的骨干架构以更好地在提取多尺度特征的同时降低计算复杂度。图像分割这样的像素级任务要求网络具有多尺度表征能力以及相对较高的输出分辨率。为了在保持输出分辨率的同时更好地捕获多尺度信息而又不产生过多额外的计算成本，我们提出了一种轻型多尺度特征融合提取模块，以融合并提取来自不同阶段的多尺度特征。

本发明提出了一种动态权重衰减方案，该方案可以基于某些特征来抑制权重。在反向传播期间，根据权重和特征来计算正则化的梯度。使用动态权重衰减训练的模型具有校准的权重分布，这有助于网络剪枝算法消除不重要的权重。

本发明的优点和有益效果：

本发明提出的轻量级分割模型在显著性物体分割基准上的以大型模型1％的参数量实现与大模型可比的性能。利用我们提出的动态权重衰减辅助修剪功能，将轻型模型进一步压缩到原始大小的

20％，而性能下降可以忽略不计，从而产生具有

100K参数的超轻型模型。

附图说明

图1为可以同时处理不同尺寸特征图的八度音阶卷积示意图。

图2为本发明中的轻量级主干网络的基础组成模块示意图。

图3为本发明中的特征融合模块示意图。

图4为本发明中的使用动态权重衰减/标准权重衰减的权重分布示意图。

图5为本发明中使用动态权重衰减/标准权重衰减的归一化层输出特征的方差示意图。

图6为本发明中使用的动态权重衰减/标准权重衰减在相同计算复杂度下的性能对比示意图。

图7为本发明提出的超小分割模型的与现有模型的计算复杂度和性能对比示意图。

图8为本发明提出的超小分割模型的图像分割效果示意图。

图9为本发明提出的超小分割模型中应用的八度音阶卷积在冗余剪枝后的不同分辨率特征图通道数统计示意图。

具体实施方式

1.针对图像分割的轻量级网络设计

本发明提出的针对图像分割任务的轻量级网络分为两个部分：主干网络和多尺度融合模块。

1.1轻量级主干网络

主干网络由基础模块堆叠而成。基础模块由可以同时处理不同尺寸特征图的八度音阶卷积(OctConv)和深度卷积构成。OctConv(结构见图1)可以提取不同频率的特征，以更好地捕获精细细节和整体结构，同时降低计算复杂度。具体地，输入特征X沿着通道维度被分成具有不同分辨率[XH，XL]的两个部分。然后通过OctConv处理输入特征X＝[XH，XL]，以生成具有不同分辨率Y＝[YH，YL]的输出特征，如下所示：

Y_H＝Conv(X_H)+Upsample[Conv(X_L)]；

Y_L＝Conv(X_L)+Conv[Pool(X_H)].

高分辨率输出YH由高分辨率输入XH和上采样的低分辨率输入XL计算得到，而低分辨率输出YL由下采样的高分辨率输入XH和低分辨率输入XL计算得出。高分辨率流的特征能够捕获精细的细节。低分辨率流可以捕获低级特征并通过处理低分辨率特征来节省计算量。通过更改高分辨率特征和低分辨率特征之间的通道比率，OctConv可以在处理结构和细节的能力之间进行权衡。但是，不同的OctConv通常共享相同的低分辨率和高分辨率特征的分割比率，从而导致网络的次优效率。

本发明提出了一种的基本模块，该块由标准OctConv和两个3×3深度OctConv组成，如图2所示。深度OctConv意味着每个输入通道对应于具有相同分辨率的输出通道。标准OctConv用于不同分辨率的特征之间的交互。每个卷积后面紧跟着归一化层和激活层。本发明通过堆叠基本模块构建了轻量级主干网络。根据特征图的分辨率，网络分为4个阶段，每个阶段分别具有3、4、6和4个模块。最初，随着分辨率降低，网络的将通道数量加倍，但最后两个阶段具有相同的通道数量。每阶段的第一个基础模块使用3×3OctConv，其余的基础模块使用1×1OctConv。表1中的Baseline为本发明的主干网络性能。调节OctConv不同分辨率的特征图通道比例可以实现性能与计算量的调节。

1.2特征融合模块

OctConv能够融合具有不同分辨率的特征。为了进一步增强骨干网络的多尺度能力并保持高输出分辨率，我们提出了一个轻巧的特征融合模块来融合不同阶段的特征。如图3所示，特征融合模块从骨干网络的不同阶段提取特征。1×1OctConv用于融合来自不同阶段，具有不同分辨率的特征。为了在更细粒度级别上提取多尺度特征，每组特征由一组具有不同膨胀率的并行卷积处理。由膨胀卷积处理的特征被合并并发送到另一个1×1OctConv以生成最高分辨率的特征。表1中的OctNet为本发明提出的轻量级主干网络结构和特征融合模块组合的性能。特征融合模块能在不显著增加计算复杂度的前提下提升网络的分割性能。

表1

2.基于动态权重衰减的模型压缩

2.1动态权重衰减

常用的正则化技巧权重衰减使CNN具有更好的泛化性能。Mehta等人表明权重衰减将稀疏性引入CNN，这有助于修剪不重要的权重。权重衰减训练使CNN中不重要的权重值接近零。因此，权重衰减已被广泛用于修剪算法中以引入稀疏性。权重衰减的常见实现是通过将L2正则化添加到损失函数中，可以将其写为：

其中L₀是特定任务的损失，w_i是第i层的权重，而λ是权重衰减的权重。在反向传播期间，权重w_i被更新为

是要更新的梯度，而λw_i是衰减项，仅与权重本身相关。应用较大的衰减项会增强稀疏性，同时不可避免地会增大通道之间权重的差异性。具有不同输出的通道更可能包含噪声，从而导致后续卷积层的表征有偏差。注意机制通过额外的块和计算成本来重新校准各种输出。相反，本发明提出在推理期间不增加额外成本地减轻通道之间的过度差异化输出。本发明认为，不同通道间的输出差异主要是由于对权重不加选择的衰减导致。因此，本发明提出根据某些通道的特定特征来调整权重衰减。具体地，在反向传播期间，衰减项根据某些信道的特征而动态地改变。本发明提出的动态权重衰减的权重更新可写为

其中λ_d是动态权重衰减的权重，x_i表示由w_i计算的特征，而S(x_i)是特征的度量，根据任务可以有多个定义。在本文中，我们的目标是根据特征稳定通道之间的权重分配。因此，我们仅使用全局平均池化作为特定渠道的指标：

其中H和W是特征图x_i的高度和宽度。依据全局平均池化度量的动态权重衰减抑制产生较大值特征的权重，从而提供了紧凑而稳定的权重和输出分布，如图4和图5所示。如图6所示，使用动态权重衰减训练的模型在同样计算复杂度的前提下具有更优的性能。

2.2模型压缩

动态权重衰减可以看作是一种正则化，在保持信道之间的权重分布稳定的同时可以增加网络稀疏度。因此，可以将其与修剪算法合并以消除多余的权重。在本文中，我们将归一化层的尺度权重用作通道重要性的指标。归一化层操作如下：

其中x和y是输入和输出特征，E(x)和Var(x)分别是均值和方差，∈是避免零方差的极小值。γ和β是可学参数。我们在训练期间将动态权重衰减应用于γ。图3表明，重要权重和冗余权重之间存在明显的差距，不重要的权重被抑制为几乎为零(γ＜1e-20)。因此，我们可以轻松删除γ小于阈值的通道。删除冗余通道后，可以获得OctConv中较优的高-低分辨率特征的分割比率。通过整体调节初始网络的通道宽度，可以剪枝得到多种计算复杂度的超小模型，如表2所示。

表2

3.性能分析：

表3

表3中OctNet×1-C.和OctNet×2-C.代表本发明提出的超小分割模型的性能。在各种常用的分割数据集上，本发明提出的方法能在以大模型1％以下的计算复杂度实现与大模型相近的性能。此外，将本发明提出的特征融合模块加到现有的基于ImageNet训练过的主干网络结构上，也能在较低计算复杂度的前提下实现超越现有最好方法的分割性能，证明特征融合模块能够具有较强的特征融合处理能力。图7为本发明的模型与其他现有方法的性能和计算复杂度对比。本发明在极低的计算量下实现与现有方法相近的性能。图8为本发明的分割结果可视化图像。本发明提出的模型能够以高质量分割出图像中不同尺度大小的物体。图9为超小分割模型中应用的OctConv在冗余剪枝后的不同分辨率特征图通道数统计示意图。经过模型压缩后的超小模型中OctConv的具有较优的不同分辨率特征图的分配比。

Claims

1.超小参数量的分割模型的实现方法，其特征在于：

包括针对图像分割的轻量级网络，该轻量级网络分为主干网络和多尺度特征融合模块两部分，以及包括基于动态权重衰减辅助的神经网络训练和模型压缩，其中：

a.基于可同时处理多种尺寸特征的卷积构建主干网络架构；

2.根据权利要求1所述的超小参数量的分割模型的实现方法，其特征在于：主干网络架构由可同时处理多种尺寸特征的卷积构成。

3.根据权利要求1所述的超小参数量的分割模型的实现方法，其特征在于：特征融合模块融合来自主干网络结构中不同阶段的特征，模块中每个尺寸的特征分别经过并行的具有不同感受野的卷积处理提取多尺度特征信息。

4.根据权利要求1所述的超小参数量的分割模型的实现方法，其特征在于：动态权重衰减根据当前训练样本生成的特征图动态地调节权重衰减的强度。

5.根据权利要求1所述的超小参数量的分割模型的实现方法，其特征在于：较优不同尺寸通道比例的模型中，可同时处理不同尺寸特征的卷积的不同尺寸特征通道的比例，在去除冗余通道后达到较优状态。

6.根据权利要求1或2所述的超小参数量的分割模型的实现方法，其特征在于：主干网络由基础模块堆叠而成，基础模块由可以同时处理不同尺寸特征图的八度音阶卷积OctConv和深度卷积构成，标准OctConv用于不同分辨率的特征之间的交互，每个卷积后面紧跟着归一化层和激活层。

7.根据权利要求4所述的超小参数量的分割模型的实现方法，其特征在于：

动态权重衰减的权重为

其中

是要更新的梯度，λw_i是衰减项，λ_d是动态权重衰减的权重，x_i表示由w_i计算的特征，S(x_i)是特征的度量，表示为

其中H和W是特征图x_i的高度和宽度。