CN109934241B

CN109934241B - 可集成到神经网络架构中的图像多尺度信息提取方法

Info

Publication number: CN109934241B
Application number: CN201910242489.6A
Authority: CN
Inventors: 程明明; 高尚华; 赵凯
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2019-03-28
Filing date: 2019-03-28
Publication date: 2022-12-09
Anticipated expiration: 2039-03-28
Also published as: CN109934241A

Abstract

可集成到神经网络架构中的图像多尺度信息特征方法及应用。本发明从更细粒度的层面提升了神经网络的多尺度表达能力。本发明方法将进入提取器的特征图按照通道数量被分成几个特征图子集；然后将各特征图子集的送入依照层级递进的结构排布连接的卷积核组中，完成不同尺度信息的提取；再经过另一个融合卷积层进行信息融合，实现对不同尺度信息的融合。该方法可集成到现有的绝大多数神经网络结构中，大幅提升原有神经网络的性能。此外，基于该方法的神经网络能为包括但不限于图像分类、物体检测、注意力预测、目标跟踪、动作识别、语义分割、显著物体检测和骨架提取等视觉任务提供高质量的语义特征信息。

Description

可集成到神经网络架构中的图像多尺度信息提取方法

技术领域

本发明属于计算机视觉技术领域，特别涉及到利用神经网络提取视觉数据中多尺度信息的方法及应用。

背景技术

视觉模式天然呈现多尺度特征。典型的多尺度问题包括多层含义：首先，物体可以在单个图像中以不同尺寸出现；其次，判断物体所需的信息可能比物体本身占用更大的区域；第三，感知来自不同尺度的信息对于理解细节以及诸如细粒度分类和语义分割等任务的对象是必不可少的。因此，感知视觉认知任务的多尺度信息至关重要。

几乎所有的视觉检测任务都能受益于强大的多尺度特征表达能力。自深度神经网络诞生起，就因为相对传统方法更强的多尺度信息学习和处理能力而备受关注。许多神经网络架构通过强大的多尺度表达能力在各种视觉任务中取得优越的性能。现有神经网络是由多种滤波器通过特定规则组合而成。由于输入的信息遵循从粗略到精细的特性，因此神经网络具有基本的多尺度特征表示能力。2012年引起人工智能热潮的深度学习框架AlexNet网络线性堆叠卷积层，与传统的视觉识别方法相比实现了显着的性能提升。但是，由于其网络深度和卷积核大小有限，AlexNet只有一个相对较小的感受野。牛津大学的Karen等人提出的VGGNet增加了网络深度，并将有着不同大小的卷积核的滤波器并行组合的方法进一步提升了神经网络的多尺度信息处理能力。更深的结构可以扩展感受野，有助于在更大尺度下提取特征。通过堆叠更多层比使用大内核更容易扩展感受野。因此，VGGNet在减小参数量的同时提供了比AlexNet更强大的多尺度表达模型。然而，AlexNet和VGGNet都采用线性拓扑结构堆叠卷积层，意味着它们只具有限范围的感受野，且只能处理在小尺度范围的物体。Google公司的Christian等人提出将有着不同大小的卷积核的卷积层并行组合来增强多尺度表示能力。但是由于计算资源的限制，GoogLeNet中的卷积核尺度无法进一步丰富。因此，GoogLeNet的多尺度特征表达方案仍然无法涵盖大范围的感受野。Inception Nets在GoogLeNet中的并行路径的每条路径中堆叠更多的卷积层，以进一步扩展网络的感受野。另一方面，微软研究院的何恺明等人提出在神经网络层间引入短连接，在解决梯度消失问题的同时构建了更深的网络结构。在特征提取过程中，短连接使卷积层具有多种组合，从而产生大量等效的特征尺度。同样，DenseNet中密集连接的层使网络能够处理各种具有不同尺度的物体。UC伯克利大学的Yu等人利用树形组合结构的层级特性构建了具有更高效的多尺度表达能力的网络结构。上述神经网络结构演进发展过程中，逐渐展现出越来越强的多尺度信息表达的学习能力。但是现有方法依然停留在层间的多尺度处理。如何充分开发层内多尺度信息，构建更有效的富尺度空间的网络结构是提升神经网络在各种视觉问题上性能表现的关键。

发明内容

本发明目的是解决现有方法存在的无法从细粒度水平提取多尺度信息的问题，提出一种可嵌入神经网络的简洁有效的图像多尺度信息提取方法。与现有大多数神经网络通过增加层间的多尺度表达能力不同，本发明在更细粒度的水平上改进了神经网络的多尺度表达能力。

本发明的技术方案

可集成到神经网络架构中的图像多尺度信息提取方法，包括：

a.将进入提取器的特征图按照通道数量被分成几个特征图子集；

所述输入特征图按照通道数量根据需要划分子集，所述子集的划分可以是平均划分，也可以是不平均划分。例如，本发明方法将一个具有s×w个通道的滤波器替换为s个具有w个通道滤波器组。这些具有较少通道数的滤波器组以逐层类残差样式连接，以增加输出特征可以表示的尺度数目。

b.处理上步所划分的各特征图子集的卷积核依照层级递进的结构排布连接；某一个特征图子集经过一个卷积层得到新的特征图与另一个特征图子集结合后继续送入另一个卷积层；重复此过程直至所有特征图子集被处理完成；每一个卷积层的等效感受野逐渐增大，完成不同尺度信息的提取；所述的卷积层可以采用标准卷积或组卷积等卷积方式；卷积层的卷积核尺寸根据需要调整为任意尺寸；

c.处理完的特征图子集采用拼接方法结合，再经过另一个融合卷集层进行信息融合，实现对所划分的几个特征图子集信息的融合。

本发明提供的图像多尺度信息提取方法可用于嵌入各种神经网络结构中，以提升神经网络对多尺度信息的表达能力。所述提取方法还可以与压缩激励等各种方法相结合，能够进一步提升神经网络的特征提取能力。嵌入所述提取方法的神经网络能够作为包括但不限于图像分类、物体检测、注意力预测、目标跟踪、动作识别、语义分割、显著物体检测、骨架提取和边缘检测的视觉任务的支撑网络。

本发明的优点和有益效果：

本发明在更细粒度的级别上提升了神经网络的多尺度潜力，这与利用分层操作的现有方法并不冲突。因此，本发明方法提出的图像多尺度信息提取模块，可以嵌入到许多现有的神经网络架构中，提升神经网络基础架构的特征表达能力。基于本模块的神经网络可以作为多种视觉任务的基础。

附图说明

图1为本发明中的多尺度信息提取方法示意图，其中，(a)为架构1，不考虑参数量限制的基础架构，(b)为架构2，考虑了参数量限制的架构。

图2为本发明中的多尺度信息提取方法与其他方法结合的方式。

图3为本发明应用到语义特征可视化任务时的效果示意图。

图4为本发明应用到显著性物体检测任务时的效果示意图。

图5为本发明应用到语义分割任务时的效果示意图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1，多尺度信息提取方法如下：

a.特征图首先经过多尺度模块内的一个1×1卷积层形成通道数目为s×w的特征图集合；

b.经过1×1卷积层后，特征图被均分为s组特征图子集，表示为x_i，i∈{1，2，...，s}。每个子集x_i相比输入特征图具有相同的尺寸，但只有1/s的通道数；

c.每一个特征图子集有一个对应的卷积层，表示为K_i()。该卷积层的卷积核大小常采用3×3，但其他尺寸的卷积核也可以根据实际需求选择。y_i用来表示特征图子集经过K_i()处理的输出结果。特征图子集x_i与K_i-1()的输出结果y_i-1相结合后被送入K_i()，重复此过程直至所有特征图子集被处理完成。

本发明针对不同视觉任务对参数量的不同限制，设计了两种架构。如图1(a)所示，架构1为基础架构，不考虑参数量限制。架构1的y_i可表示为：

y_i＝K_i(x_i+y_i-1)

如图1(b)所示，架构2考虑了参数限制，省略了其中一个特征子图所对应的卷积层。架构2的y_i可表示为：

由于组合效用，省略的一个卷积层不会影响可提取尺度的范围。注意每个卷积层K_i()有可能从所有满足条件{x_j，j≤i}的特征图子集中获得特征信息。每当特征图子集x_j通过一个卷积层时，该卷积层的输出结果会拥有比x_j更大的感受野。由于组合爆炸效用，经过多尺度信息提取模块的输出特征图能够覆盖不同的特征尺度；

d.在多尺度信息提取中，特征图子集以多尺度方式被处理，有助于提取全局和本地信息。为了更好地融合不同尺度的信息，输出特征子图被按照通道拼接并经过另一个1×1卷积层融合信息。拆分和拼接策略可以使卷积层更有效地处理特征图。

构造多尺度信息提取方法中的参数s可作为调整模块覆盖尺度范围的控制参数，较大的s通常对应更强的多尺度特征提取能力。

参照图2，多尺度信息提取方法可与其他方法结合进一步提升神经网络对特征的提取能力。图2展示了多尺度信息提取模块分别与组卷积和压缩激励模块(SE block)结合。组卷积将卷积核从单分支过渡到多分支，从而提高神经网络的特征表达能力。本发明的设计中，可以采用组卷积代替标准卷积，其中c表示组卷积的分组数量。压缩激励模块通过训练学习特征图不同信道之间的相互依赖性来自适应地重新校准信道间的特征响应强度。本发明方法在残差连接的后面添加压缩激励模块。为证明本方法效果，故使用本方法与ResNet-50，ResNeXt-50和SENet-50三个基准方法结合进行ImageNet数据集上的分类测试。基准方法对应的本方法名称分别为：Res2Net-50，Res2NeXt-50和SE-Res2Net-50。本方法与基准方法的计算复杂度和参数量一致。结果如表1所示，使用本方法后的基准方法分类性能有较大提升。

表1

本发明提出的多尺度信息提取方法可以嵌入到现有的神经网络架构中，提升现有神经网络架构的多尺度特征表达能力。基于多尺度信息提取方法的基础神经网络可被用作包括但不限于图像分类，物体检测，注意力预测，目标跟踪，动作识别，语义分割，显著物体检测，骨架提取和边缘检测等视觉任务的语义提取器，从而提升上述任务的性能。表2为基准方法和本方法在物体检测任务上的性能对比。基准方法与本方法的唯一差异为本方法将基准方法的基本图像处理方法改成多尺度信息提取方法。在VOC07和COCO数据集上，基于本多尺度信息提取方法的方法相较基准方法有较大提升。

表2

参照图3，在语义特征可视化任务中，应用本发明的方法能够更准确覆盖目标物体位置。颜色亮度代表方法对特征定位的置信程度，亮度越高代表置信度越高。针对大物体，基准方法无法完全覆盖目标物体，而基于本发明的方法能够完整覆盖目标物体；针对小物体，基于本发明的方法能够精确定位目标位置，而基准方法只能找到目标物体的大致位置。

参照图4，在显著性物体检测任务下，应用本发明的方法能够准确判别场景中的显著性物体。基于本发明的方法可以准确分割出完整的显著性物体，并保证显著性物体的一体性。

参照图5，在语义分割任务下，应用本发明的方法能够准确分割出各种尺度下的物体。基准方法无法对复杂场景进行精确的像素级分割，而应用本发明的方法能够有效分割复杂场景下不同尺度的物体并保证物体的一体性。

Claims

1.一种可集成到神经网络架构中的图像多尺度信息提取方法，所述提取方法应用到各种神经网络结构中，能够提升神经网络对多尺度信息的表达能力；所述提取方法与压缩激励方法相结合，能够进一步提升神经网络的特征提取能力；嵌入所述提取方法的神经网络能够作为包括图像分类、物体检测、注意力预测、目标跟踪、动作识别、语义分割、显著物体检测、骨架提取和边缘检测的视觉任务的支撑网络；

所述提取方法包括：

b.处理上步所划分的各特征图子集的卷积核依照层级递进的结构排布连接；某一个特征图子集经过一个卷积层得到新的特征图与另一个特征图子集结合后继续送入另一个卷积层；重复此过程直至所有特征图子集被处理完成；每一个卷积层的等效感受野逐渐增大，完成不同尺度信息的提取；

c.处理完的特征图子集采用拼接方法结合，再经过另一个融合卷积层进行信息融合，实现对所划分的几个特征图子集信息的融合。

2.根据权利要求1所述的多尺度信息提取方法，其特征在于：输入的特征图按照通道数量根据需要划分子集，所述子集的划分为平均划分或不平均划分。

3.根据权利要求1所述的多尺度信息提取方法，其特征在于：所述的卷积层采用标准卷积或组卷积的卷积方式；卷积层的卷积核尺寸根据需要调整为任意尺寸。