CN108596865B

CN108596865B - 一种用于卷积神经网络的特征图增强系统及方法

Info

Publication number: CN108596865B
Application number: CN201810206172.2A
Authority: CN
Inventors: 林倞; 任创杰; 成慧; 王青; 王可泽
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-03-13
Filing date: 2018-03-13
Publication date: 2021-10-26
Anticipated expiration: 2038-03-13
Also published as: CN108596865A

Abstract

本发明公开了一种用于卷积神经网络的特征图增强系统及方法，该系统包括：内置特征图单元，用于存储训练样本之间的本质共性特征；输入控制器，基于原输入特征图及以往的内置特征图，整合两者的特征信息，进行一系列卷积操作，得到一个与内置特征图大小一致的输入控制器的中间特征图；特征图控制器，以原输入特征图以及以往内置特征图作为输入，进行一系列卷积操作，得到一个与内置特征图大小一致的特征图控制器的中间特征图，结合所述输入控制器的中间特征图，并以β参数来控制两者的表达能力，得到最新的内置特征图表达；输出控制器，以最新内置特征图以及原输入特征图作为输入，通过卷积操作以及对最新内置特征图的特征提取，得到辅助特征图输出。

Description

一种用于卷积神经网络的特征图增强系统及方法

技术领域

本发明涉及深度神经网络技术领域，特别是涉及一种用于卷积神经网络的特征图增强系统及方法。

背景技术

随着廉价的距离传感器普及和快速发展，深度图数据分析被广泛用于诸多机器人感知系统和计算机视觉任务中。具体来说，深度图像是指距离传感器(如，微软Kinect)录制的图像数据，是一种二维的灰度图，其图像中的每个像素点表示的是该点对应的物体在真实物理世界中距离传感器的毫米距离。即深度图反映了场景中的物体与传感器的距离信息分布。由于深度图像不受光照、阴影等环境因素影响，能够有效地表达真实物理世界中物体的几何结构信息，得到了广泛的应用，具有非常可观的前景。但相对于自然场景中的RGB三通道彩色图，深度图因为缺少色彩和纹理信息，所能提供的外观判别能力非常有限。我们迫切需要使用高效的机器学习算法来处理深度图数据。

近五年来，深度卷积神经网络在诸多深度图数据分析中得到了非常成功的应用。但是因为深度图数据具有很强的机器噪声，使用卷积神经网络处理这些深度图数据会遇到低学习效率的挑战，即神经网络需要大量人工标注好的数据才能达到满意的效果。因此，实有必要提出一种技术手段，以解决上述问题，提高神经网络的学习效率。

发明内容

为克服上述现有技术存在的不足，本发明之目的在于提供一种用于卷积神经网络的特征图增强系统及方法，以减少对训练样本在数量上的高要求，加快神经网络的学习效率。

为达上述及其它目的，本发明提出一种用于卷积神经网络的特征图增强系统，包括：

内置特征图单元，用于存储训练样本之间的本质共性特征；

输入控制器，基于原输入特征图x以及以往的内置特征图M_t-1，整合两者的特征信息，进行一系列卷积操作，得到一个与内置特征图大小一致的输入控制器的中间特征图；

特征图控制器，以原输入特征图x以及以往内置特征图N_t-1作为输入，进行一系列卷积操作，得到一个与内置特征图大小一致的特征图控制器的中间特征图，结合所述输入控制器的中间特征图，并以β参数来控制两者的表达能力，得到最新的内置特征图M_t表达；

输出控制器，在得到最新内置特征图表达M_t的情况下，以最新内置特征图M_t以及原输入特征图x作为输入，通过卷积操作以及对最新内置特征图的特征提取，得到辅助特征图输出。

进一步地，所述系统还包括并联单元，用于将所述输出控制器的结果与原输入特征图x进行并联，以在原输入的基础上增强网络的表达能力。

进一步地，所述输入控制器、特征图控制器以及输出控制器为卷积控制器，对于给定输入特征图以及内置特征图，各卷积控制器首先使用两个一层二维卷积层来分别提取两者的特征，然后把它们相加，依次再接BN层、矫正线性单元层、二维卷积层，最终加入另外一个BN层来获取原始的内置特征图表达。

进一步地，各卷积控制器包括：

二维卷积层，用于对输入图像或特征与内置特征图在二维空间进行卷积，以提取特征；

BN层，对一批次的输入数据中每个通道，计算其均值μ和方差δ，以对神经元进行归一化操作，得到中间结果y；

矫正线性单元层，连接BN层，采用简单的非线性阈值函数，对输入进行只允许非负信号通过的变换。

进一步地，所述BN层还使用可学习的尺度参数s和偏移参数Δ，对中间结果y进行处理，得到输出z。

进一步地，所述输入控制器首先对原输入特征图x进行卷积操作，此过程中对原输入特征图x进行了空间变换，从而得到更加抽象的特征表达，同时，所述输入控制器对以往的内置特征图M_t-1进行卷积操作，同样得到进一步更加抽象的特征表达，得到两个高度抽象的特征表达后，通过超参数α来控制两者的相对表达能力，最后经过tanh函数的作用得到所述输入控制器的最终输出。

进一步地，所述特征图控制器以原输入特征图以及以往内置特征图作为输入，进行一系列卷积操作，得到两个高度抽象的特征图表达，以γ_m参数控制两者的表达能力，经过sigmoid函数σ来进行非线性数值转换，并与以往内置特征图M_t-1进行点乘，得到所述特征图控制器的中间特征图表达，结合所述输入控制器的中间特征图，并以β参数来控制两者的表达能力，得到的融合结果作为最新的内置特征图表达。

进一步地，所述输出控制器对原输入特征图x以及最新的内置特征图M_t进行卷积操作得到两个高度抽象的特征表达，并且用参数γ_o控制两个高度抽象的特征表达的表达能力，经过sigmoid函数得到特征图，该特征图与最新内置特征图M_t进行点乘，从内置特征图中提取出辅助信息作为最终的辅助特征图输出。

为达到上述目的，本发明还提供一种用于卷积神经网络的特征图增强方法，包括如下步骤：

步骤一，读取以往的内置特征图M_t-1以及输入此次迭代的输入特征x；

步骤二，将以往的内置特征图以及输入此次迭代的输入特征分别输入到输入控制器和特征图控制器中，协同作用并更新整个系统的内置特征图；

步骤三，利用输出控制器读取新的内置特征图以及输入，控制内置特征图的输出内容。

进一步地，所述方法还包括：

将输出控制器的结果与原输入特征x进行并联，以在原输入的基础上增强网络的表达能力。

与现有技术相比，本发明一种用于卷积神经网络的特征图增强系统及方法通过引入了特征图记忆机制，通过使用内置特征图和特征图控制器，增强输入特征图的表达能力，最终输出增强后的特征图，通过本发明，能有效地学习出深度图像数据中的共性特征，减少对训练样本在数量上的高要求，加快神经网络的学习效率。

附图说明

图1为本发明一种用于卷积神经网络的特征图增强系统的系统架构图；

图2为本发明具体实施例中特征图增强系统所应用的示意图；

图3为本发明具体实施例中卷积控制器的细部结构图；

图4为本发明一种用于卷积神经网络的特征图增强方法的步骤流程图。

具体实施方式

以下通过特定的具体实例并结合附图说明本发明的实施方式，本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用，本说明书中的各项细节亦可基于不同观点与应用，在不背离本发明的精神下进行各种修饰与变更。

图1为本发明一种用于卷积神经网络的特征图增强系统的系统架构图，图2为本发明具体实施例中特征图增强系统所应用的示意图。如图1及图2所示，本发明一种用于卷积神经网络的特征图增强系统，包括：

内置特征图单元10，用于存储训练样本之间的本质共性特征。其大小为C*H*W，其中C，H，W分别为内置特征图的容量、长、宽。

输入控制器20，为卷积控制器，其基于原输入特征图x以及以往的内置特征图M_t-1，整合两者的特征信息，进行一系列卷积操作，得到一个与内置特征图大小一致的输入控制器的中间特征图，为后面更新内置特征图的操作做准备。在本发明具体实施例中，输入控制器20首先对原输入特征图x进行卷积操作，这个过程中对原输入特征图x进行了空间变换，从而得到更加抽象的特征表达，同时，输入控制器20对以往的内置特征图M_t-1进行卷积操作，同样得到进一步更加抽象的特征表达，得到两个高度抽象的特征表达后，通过超参数α来控制两者的相对表达能力，相加将两者的表达融合在一起，最后经过tanh函数的作用得到输入控制器20的最终输出。

具体地，给定输入特征图x，其大小为C*H*W，输入控制器20(表示为CI)在训练阶段进行三种操作，首先，它通过卷积把x转化为更抽象的特征表达；其次，它读取来自上一次迭代后的内置特征图M_t-1，卷积得到一个新的抽象特征表达；最后，输入控制器融合以上两个抽象的特征表达进行进一步卷积，最终所得特征响应输入到特征图控制器。整个处理过程如下：

CI(x)＝σ(φ(ω_ix*x+α·ω_im*M_t-1；w_i))

其中，σ表示sigmoid激活函数，Φ函数为控制器的余下操作，*表示卷积操作，a表示预定义的标量来平衡输入信息与旧特征的增强信息，w_ix表示输入input(i)控制器中与输入x计算的权重，w_im表示输入input(i)控制器中与内置特征图memory(m)计算的权重，式中分号用以分割输入和函数所包含的权重，分号前为输入，分号后为权重w_i，对于φ函数，它的结果由输入x和M t-1以及本身的权重共同计算所得，输入为ω_ix*x+α·ω_im*M_t-1，权重为w_i。如图3所示，输入控制器对输入特征图和内置特征图分别进行3×3的卷积操作，也就对应w_ix*x+α·ω_im*M_t-1，然后两者相加后的余下操作即φ函数的操作。如图3所示，φ函数表示批正则化+修正线性单元+1×1卷积+批正则化。一般在实验中，采用a＝1。

特征图控制器30，为卷积控制器，其以原输入特征图以及以往内置特征图作为输入，进行一系列卷积操作，得到一个与内置特征图大小一致的特征图控制器的中间特征图，结合输入控制器的中间特征图，并以β参数来控制两者的表达能力，得到最新的内置特征图表达。在本发明具体实施例中，特征图控制器20以原输入特征图以及以往内置特征图作为输入，进行一系列卷积操作，得到两个高度抽象的特征图表达，以γ_m参数控制两者的表达能力，经过sigmoid函数σ来进行非线性数值转换，并与以往内置特征图M_t-1进行点乘，得到特征图控制器30的中间特征图表达，结合输入控制器20的中间特征图，并以β参数来控制两者的表达能力，得到的融合结果作为最新的内置特征图表达。也就是说，两个输入通过数值变换后通过Sigmoid函数得到一个数值范围在(0,1)的特征图表达，该表达与以往内置特征图M_c-1进行点乘，用于控制以往内置特征图M_t-1在此次迭代中所保留下来的信息，结合最新生成的输入控制器的中间特征图以及从以往内置特征图中提取的特征图控制器的中间特征图，更新为最新的内置特征图表达M_t。

具体地，给定输入特征图x以及输入控制器的输出，特征图控制器30(表示为CM)将整合两种输入，把旧的内置特征图转化为具有更泛化、更有表达能力的新的内置特征图。具体公式如下：

CM(x)＝tanh(φ(ω_mx*x+γ_m·ω_mm*M_t-1；w_m))οM_t-1

其中，°表示点乘，ω_mx表示CM处理输入特征图的卷积内核，ω_mm表示CM处理内置特征图之间转化的卷积内核，γ_m表示平衡新输入信息以及旧内置特征图信息的标量，w_m表示剩余操作的权重。一旦获得了内置特征图表达CM，可以根据以下公式计算新的内置特征图：

M_t＝CM(t)+β·CI(x)

其中，β参数是用于平衡两者CM(x)和CI(x)之间结果的共享比例，一般来说该参数设置为1。

输出控制器40，为卷积控制器，在得到最新内置特征图表达M_t的情况下，以最新内置特征图M_t以及原输入特征图x作为输入，通过卷积操作以及对最新内置特征图的特征提取，得到辅助特征图输出。在本发明具体实施例中，输出控制器40对原输入特征图x以及最新的内置特征图M_t进行卷积操作得到两个高度抽象的特征表达，并且用参数γ_o控制两个高度抽象的特征表达的表达能力，经过sigmoid函数得到数值范围在(0,1)的特征图，该特征图与最新内置特征图M_t进行点乘，从内置特征图中提取出辅助信息作为最终的辅助特征图输出。

并联单元50，用于将输出控制器40的结果与原输入特征图x进行并联，以丰富特征表达，在原输入的基础上增强网络的表达能力。在本发明中，所嵌入的内置特征图与原输入特征图长和宽需要一致，而通道数可以不一致。采取并联操作，这样既可以保存原有输入特征图的信息，并且有辅助特征图信息作为特征增强信息，从而达到增强输出的特征表达的效果。

具体地，给定新的内置特征图，输出控制器40(表示为CO)控制内置特征图的输出内容，以下列公式计算：

CO(x)＝σ(φ(ω_ox*x+γ_o·ω_om*M_t；w_o))οM_t

这里，σ代表sigmoid激活函数，°代表点乘，γ_o是用于平衡新输入x和新内置参数信息ω_om的标量，ω_ox表示输出控制器中用于与输入x计算的权重，ω_om表示输出控制器中用于与内置特征图M计算的权重，w_o表示剩下的权重，最后特征图表达co输入x进行并联，并输入到下一层神经网络层中，这时新的内置特征图可用于下一次训练或者测试的迭代过程中。

假设输入特征图x的大小为C*H*W，那么其内置特征图的大小则为C_mem*H*W(同一符号没有下标表示两者是同一数值，而同一符号但不同下标表示两者是两个独立的数)。通过后续的输入控制器的处理，可以把特征图的数值进行一定变换并且把C_in的特征图通道数转化为C_mem的特征图通道数。同样，在输出特征图的处理下，可以把特征图的数值进行一定变换并将C_mem的特征图通道数转化为C_out的特征图通道数。最终，通过并联操作在通道轴上把原输入特征图与辅助特征图并联起来，得到输出大小为(C_in+C_out)*H*W的输出特征图。此外，如果把辅助特征图的通道数设置为C_in＝C_out，可以把辅助特征图与原特征图进行相加的操作，得到最终输出大小为C_in*H*W的输出特征图。本发明采取并联操作，这样既可以保存原有输入特征图的信息，并且有辅助特征图信息作为特征增强信息，从而达到增强输出的特征表达的效果。

图3为本发明具体实施例中卷积控制器的细部结构图。在本发明具体实施立中，给定输入特征图以及内置特征图，各卷积控制器首先使用两个一层二维卷积层来分别提取两者的特征，然后把它们相加，依次再接BN(Batch Normalization)层、ReLU(矫正线性单元)层、二维卷积层。最终加入另外一个BN层来获取原始的内置特征图表达。也就是说，每个卷积控制器首先使用3*3卷积核来分别处理输入特征图和内置特征图，并且两个特征图相加在一起，再输入到Batch Normalization层、ReLU层、二维卷积层以及Batch Normalization层，卷积控制器中所有卷积层的通道数都设置为一样大小。具体地，如图3所示，各卷积控制器进一步包括：

二维卷积层301，用于对输入图像或特征与内置特征图在二维空间进行卷积，以提取一些重要的特征。假设输入图像的宽度和高度分别为w和h，三维卷积核的大小为w'×h'×m'，其中w',h',m'分别表示宽度，高度和通道数。卷积后可以获得一个特征图。其中位于特征图(x,y)位置处的值可以表示成：

其中p_{(x+i)(y+j)(s+k)}表示输入的第(s+k)帧中(x+i,y+j)位置的像素值，ω_ijk表示卷积核的参数，b表示跟与该特征图相关的偏置。故此可以得到1个特征图，每个特征图的大小为(w-w'+1,h-h'+1)。由于单个卷积核只能抽取一种类型的特征，因此可以在每一层卷积层引入了多个卷积核抽取多种不同的特征。

BN层302，对一批次的输入数据中每个通道，计算其均值μ和方差δ，以对神经元进行归一化操作，得到中间结果y，具体如下：

其中，∈是用于提升数值的稳定性，尤其是在一个批次样本数目太少时。进一步地，该层还可使用可学习的尺度参数s和偏移参数Δ，对中间结果y进行处理，得到输出z:

z＝ys+Δ

矫正线性单元层303，连接BN层302，采用简单的非线性阈值函数，对输入进行只允许非负信号通过的变换。假设z表示本层的输出，x表示本层输入，则有

z＝max(0,ωx)

实验证明在深层次卷积神经网络中，使用矫正线性单元层可使得网络训练时的收敛速度比传统的激励函数更快。

图4为本发明一种用于卷积神经网络的特征图增强方法的步骤流程图。如图4所示，本发明一种用于卷积神经网络的特征图增强方法，包括如下步骤：

步骤401，读取以往的内置特征图以及输入此次迭代的输入特征；

步骤402，将以往的内置特征图以及输入此次迭代的输入特征分别输入到输入控制器和特征图控制器中，协同作用并更新整个系统的内置特征图。具体地，步骤402包括：

步骤S1，输入控制器基于输入特征x以及以往的内置特征图M_t-1，整合两者的特征信息，进行一系列卷积操作，得到与内置特征图大小一致的输入控制器的中间特征图，为后续更新内置特征图的操作做准备；

步骤S2，特征图控制器以输入特征x以及以往内置特征图M_t-1作为输入，进行一系列卷积操作，得到一个与内置特征图大小一致的特征图控制器的中间特征图，结合输入控制器的中间特征图，并以β参数来控制两者的表达能力，得到最新的内置特征图表达。

步骤403，利用输出控制器读取新的内置特征图以及输入，控制内置特征图的输出内容。具体地，输出控制器在得到最新的内置特征图表达M_t的情况下，以最新内置特征图M_t以及原输入特征x作为输入，通过卷积操作以及对最新内置特征图的特征提取，得到辅助特征图输出。

步骤404，将输出控制器的结果与原输入进行并联，丰富特征表达，在原输入的基础上增强网络的表达能力。

由于本发明之特征图增强系统，全部由常见的神经网络层组成，可以直接用随机梯度下降算法进行模型训练，即端到端地使用训练样本更新模型的参数。另外，本发明还支持使用基于一阶梯度的随机优化算法(Adaptive moment estimation，Adam)等网络优化方法，来更新神经网络中的参数，直至网络收敛或者网络的损失值降到一定范围。

在本发明具体实施例中，在测试阶段，输入控制器以内置特征图及输入特征图作为协同输入，进行特征提取。提取出的内置特征图依次传入到输入控制器和特征图控制器中，并把输入的特征图传到输入控制器和特征图控制器中。此时，输入控制器将以上两个输入作为协同输入，输出一个抽象的特征图，进而将该特征图传入到特征图控制器中。特征图控制器融合以上输入，得到一个新的内置特征图表达，把这个更新的内置特征图保存下来，覆盖旧的内置特征图。此时的内置特征图可作用下次迭代的特征增强模块。以新的内置特征图和输入特征图作为协同输入，输入到输出控制器中，得到输出特征图表达，该输出与输入特征图进行并联，得到最终输出。

综上所述，本发明一种用于卷积神经网络的特征图增强系统及方法通过引入了特征图记忆机制，通过使用内置特征图和特征图控制器，增强输入特征图的表达能力，最终输出增强后的特征图，通过本发明，能有效地学习出深度图像数据中的共性特征，减少对训练样本在数量上的高要求，加快神经网络的学习效率。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下，对上述实施例进行修饰与改变。因此，本发明的权利保护范围，应如权利要求书所列。

Claims

1.一种用于卷积神经网络的特征图增强系统，用于深度图像处理，包括：

内置特征图单元，用于存储训练样本之间的本质共性特征；

特征图控制器，以原输入特征图x以及以往内置特征图M_t-1作为输入，进行一系列卷积操作，得到两个高度抽象的特征图表达，以γ_m参数控制两者的表达能力，经过sigmoid函数σ进行非线性数值转换，并与以往内置特征图M_t-1进行点乘，得到一个与内置特征图大小一致的特征图控制器的中间特征图表达，并结合所述输入控制器的中间特征图，以β参数来控制两者的表达能力，得到最新的内置特征图M_t表达；

输出控制器，在得到最新内置特征图表达M_t的情况下，以最新内置特征图M_t以及原输入特征图x作为输入，通过卷积操作得到两个高度抽象的特征表达，并用参数γ_o控制两个高度抽象的特征表达的表达能力，经过sigmoid函数得到特征图，将该特征图与最新内置特征图M_t进行点乘，从最新内置特征图M_t中提取出辅助信息作为最终的辅助特征图输出，

所述输入控制器、特征图控制器以及输出控制器为卷积控制器，对于给定输入特征图以及内置特征图，各卷积控制器首先使用两个一层二维卷积层来分别提取两者的特征，然后将它们相加，依次再接BN层、矫正线性单元层、二维卷积层、BN层，其中：

二维卷积层，用于对输入特征图与内置特征图在二维空间进行卷积，以提取特征，假设输入图像的宽度和高度分别为w和h，三维卷积核的大小为w'×h'×m'，其中w',h',m'分别表示宽度，高度和通道数，卷积后获得一个特征图，其中位于特征图(x,y)位置处的值表示成：

其中p_{(x+i)(y+j)(s+k)}表示输入的第(s+k)帧中(x+i,y+j)位置的像素值，ω_ijk表示卷积核的参数，b表示跟与该特征图相关的偏置；

2.如权利要求1所述的一种用于卷积神经网络的特征图增强系统，其特征在于：所述系统还包括并联单元，用于将所述输出控制器的结果与原输入特征图x进行并联，以在原输入的基础上增强网络的表达能力。

3.如权利要求2所述的一种用于卷积神经网络的特征图增强系统，其特征在于：所述BN层还使用可学习的尺度参数s和偏移参数Δ，对中间结果y进行处理，得到输出z。

4.如权利要求1所述的一种用于卷积神经网络的特征图增强系统，其特征在于：所述输入控制器首先对原输入特征图x进行卷积操作，此过程中对原输入特征图x进行了空间变换，从而得到更加抽象的特征表达，同时，所述输入控制器对以往的内置特征图M_t-1进行卷积操作，同样得到进一步更加抽象的特征表达，得到两个高度抽象的特征表达后，通过超参数α来控制两者的相对表达能力，最后经过tanh函数的作用得到所述输入控制器的最终输出。

5.一种用于卷积神经网络的特征图增强方法，用于深度图像处理，包括如下步骤：

步骤一，读取以往的内置特征图M_t-1以及输入此次迭代的输入特征图x；

步骤二，将以往的内置特征图M_t-1以及输入此次迭代的输入特征图分别输入到输入控制器和特征图控制器中，协同作用并更新整个系统的内置特征图，基于输入特征图x以及以往的内置特征图M_t-1，整合两者的特征信息，进行一系列卷积操作，得到一个与内置特征图大小一致的输入控制器的中间特征图，所述特征图控制器以输入特征图x以及以往内置特征图M_t-1作为输入，进行一系列卷积操作，得到两个高度抽象的特征图表达，以γ_m参数控制两者的表达能力，经过sigmoid函数σ进行非线性数值转换，并与以往内置特征图M_t-1进行点乘，得到一个与内置特征图大小一致的特征图控制器的中间特征图表达，并结合所述输入控制器的中间特征图，以β参数来控制两者的表达能力，得到最新的内置特征图M_t表达；

步骤三，利用输出控制器读取最新的内置特征图M_t以及输入特征图x，控制最新的内置特征图的输出内容，所述输出控制器以最新内置特征图M_t以及原输入特征图x作为输入，通过卷积操作得到两个高度抽象的特征表达，并用参数γ_o控制两个高度抽象的特征表达的表达能力，经过sigmoid函数得到特征图，将该特征图与最新内置特征图M_t进行点乘，从最新内置特征图中提取出辅助信息作为最终的辅助特征图输出，

6.如权利要求5所述的一种用于卷积神经网络的特征图增强方法，其特征在于，所述方法还包括：

将输出控制器的结果与原输入特征图x进行并联，以在原输入的基础上增强网络的表达能力。