CN112257800B

CN112257800B - 一种基于深度卷积神经网络模型-重生网络的视觉识别方法

Info

Publication number: CN112257800B
Application number: CN202011185864.7A
Authority: CN
Inventors: 蔡志成; 庄建军; 彭成磊
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2024-05-31
Anticipated expiration: 2040-10-30
Also published as: CN112257800A

Abstract

基于深度卷积神经网络模型‑重生网络的视觉识别方法，采用“重生机制”的“重生模块”搭建一种新型深度卷积神经网络模型，引入的重生机制对被ReLU函数截断死亡的神经元进行重生再造，“重生机制”的实现流程：在重生网络中，引入并实现重生机制的模块称为重生模块；首先，重生模块的输入x为上层卷积层得到的特征映射，先将x输入传统的ReLU函数，得到激活后的特征映射x₁，这样就筛选出取值为正的神经元，并截断负值的神经元；同时，将输入x取反，并行地将‑x输入ReLU函数，得到激活后的特征映射x₂ ^*，这样就筛选出取值为负的神经元，并截断正值的神经元；对取值为负的神经元进行筛选后，对它们进行逆卷积操作，然后与正值进行通道级联，就是负神经元的重生过程。

Description

一种基于深度卷积神经网络模型-重生网络的视觉识别方法

技术领域

本发明涉及一种新型且具有高性能的深度卷积神经网络模型，属于人工智能，尤其是深度卷积神经网络模型-重生网络(RebornNet)视觉识别方法，深度学习和计算机视觉领域，可用于图像识别、图像分类等任务，也可作为物体检测、语义分割、图像生成、风格迁移等任务的基准模型。

背景技术

卷积神经网络(Convolutional Neural Network,CNN)是一种前馈型的神经网络,其在大型图像处理方面有出色的表现。卷积操作实质：输入图像(input volume)，在深度方向上由很多slice组成，对于其中一个slice，可以对应很多神经元，神经元的weight表现为卷积核的形式，即一个方形的滤波器(filter)(如3X3)，这些神经元各自分别对应图像中的某一个局部区域(local region)，用于提取该区域的特征。如果该slice对应的神经元参数共享，那么相当于只有一个卷积核作用于所有的局部区域(类似于图像滤波了)。一个局部区域可以称为一个block，如果将所有的block拉成一个个列向量(因为神经元作用本来就定义为将输入向量和参数向量进行内积操作，y＝w0x0+w1x1+...+wnxn)，则我们可以得到很多这些列向量组成的局部区域数据矩阵，再将神经元的weight拉成一个个行向量，这样就得到一个参数矩阵(如果参数共享，那么该矩阵行数为slice的个数)，然后将数据矩阵和参数矩阵进行点积操作，得到卷积后结果，其实就是将所有的filter和所有的局部区域分别进行点积操作，当然这个结果还需要重新reshape到期望的输出尺寸。这个过程其实也解释了为什么神经元的参数可以保存在一个个filter中，该网络层为什么称为卷积层。参数共享的卷积操作使得卷积神经网络具有平移不变形的特征。对于浅层的卷积层学到较小的图像特征(如边缘、纹理、色度)；深层的卷积层将学习到更为抽象的特征(如猫的耳朵形状、眼睛纹理等)

CNN通过分层进行信息抽象，随着网络层数的增加，抽象层级也增加。更深的网络层能学习到更复杂的表达。

另有区域卷积神经网络(R-CNN)，全称是Region-CNN，是第一个成功将深度学习应用到目标检测上的算法。R-CNN基于卷积神经网络(CNN)，线性回归，和支持向量机(SVM)等算法，实现目标检测技术。但是这个问题并没有想象的那么简单，首先物体的尺寸变化很大，物体摆放的角度不同，形态各异，而且可以出现在图片的任何地方，有些物体还具有多个类别。R-CNN主要就是用了做目标检测任务的。先简单了解下目标检测，通俗理解是对于给定图片精确的找到物体所在的位置，将其用矩形边框框出，并且标注物体的类别(一张图像中含有一个或多个物体)。图1中，输入：image；输出：类别标签(Category label)；位置(最小外接矩形/Bounding Box)，模型构思：按分类问题对待可分为两个模块：

·模块一：提取物体区域(Region proposal)

·模块二：对区域进行分类识别(Classification)

主要难度是：在提取区域上需要面临位置不同；需要检测的对象大小不一，过小的对象由于特征较为模糊，不易被检测出来；需要提取对象数量过多；对象拥挤或受到遮挡而造成漏检；非极大值抑制将近邻对象抑制等问题。在分类识别方面主要面对CNN分类计算量大，语义信息不够丰富，分类不够准确等问题。

传统R-CNN模型概述，传统的目标检测方法大多以图像识别为基础。一般可以在图片上使用穷举法选出所所有物体可能出现的区域框，对这些区域框提取特征并使用图像识别方法分类，得到所有分类成功的区域后,通过非极大值抑制(Non-maximumsuppression)输出结果。然而，穷举法计算量极其巨大，难以达到目标检测工程上的实时性要求，而且对象区域边框不够准确。

R-CNN遵循传统目标检测的思路，同样采用提取框。R-CNN使用Selective Search方法筛选出部分建议区域(proposal area)为候选提取框，接着对每个候选提取框进行提取特征、图像分类、非极大值抑制得到最终检测结果。通过上述四个步骤进行目标检测。只不过在提取特征这一步，将传统的人工提取特征方法(如SIFT、HOG特征等)换成了深度卷积神经网络端到端、更强大的特征提取方法。

传统深度学习模型为使神经网络具有非线性拟合能力，通常使用整流线性单元ReLU作为非线性激活函数。ReLU函数的表达式如式(1)所示：

f_ReLU(x)＝max(0，x) (1)

ReLU激活的灵感来自于人类视觉皮层的处理，在正区间内解决了梯度消失和梯度爆炸的问题，并且是一个不饱和的激活函数，由于使用时只需判断输入是否大于0，所以其计算速度非常快，使得神经网络收敛快速，同时对负值的截断也增强了网络的稀疏性。然而，将负值输入映射为0使得ReLU函数存在“死亡特性”，使得输出为0的神经元节点梯度为0，此处权重在反向传播过程中不会得到更新，导致神经元死亡。

参数初始化或者学习速率太大都可能导致该问题的产生。同时，负值输入也可能含有有用信息，ReLU函数也导致输入信息没有得到充分有效的利用。除此之外，有研究表明，深度神经网络的浅层对正负相位的输入同样敏感，而ReLU函数对负值的截断会导致卷积核通道利用率的下降，这也就是“网络参数补偿现象“。同时，基本的传统卷积神经网络具有对称性，不利于网络表示能力的进一步提升。此后一些学者对ReLU函数进行了改进，使包含负值的神经元也具有梯度，能够得到更新，如LeakyReLU、PReLU、RReLU等，它们虽然改进了ReLU的“死亡特性”，将负值信息加以利用，在一些模型上实际效果略优于ReLU，却牺牲了ReLU原有的稀疏性和解决梯度稳定性相关问题的优点。同时有实验数据证明，当网络加深时，ReLU函数变体的效果并不比最初的ReLU好。

发明内容

本发明目的是，针对深度卷积神经网络模型-重生网络(RebornNet)的视觉识别——用于图像识别、图像分类时，引入了一种“重生机制”，对被整流线性单元所截断死亡的神经元进行重生再造，最大化地利用了输入数据的信息，在减少数据信息的损失的同时保持原有的稀疏性，增强了深度卷积神经网络的表示能力和拟合能力。同时，实现了“重生机制”的“重生模块”减轻了“网络参数互补现象”，提高了卷积核通道的利用率，使得网络可以在具有较少的权重参数的情况下，也能具有较强的表示能力。“重生模块”的两条并行的、非对称的信息流通路径打破了传统神经网络的对称性，进一步提升网络的表示能力。

本发明所要解决的技术问题还包括：本发明为最大化地利用输入数据的信息，增强深度卷积神经网络的表示能力和拟合能力，提升分类任务的分类准确率，加快深度卷积神经网络的收敛速度，使用实现了“重生机制”的“重生模块”搭建的一种新型的深度卷积神经网络模型。

本发明的技术方案是，一种基于深度卷积神经网络模型-重生网络(RebornNet)的视觉识别方法，按照本发明，使用实现“重生机制”的“重生模块”搭建一种新型深度卷积神经网络模型，引入的重生机制对被ReLU函数截断死亡的神经元进行重生再造，最大化地对输入数据进行充分有效地利用。

本发明“重生机制”的实现流程。在重生网络中，引入并实现重生机制的模块称为重生模块。首先，重生模块的输入x为上层卷积层得到的特征映射，我们先将x输入传统的ReLU函数，得到激活后的特征映射x₁，这样就筛选出取值为正的神经元，并截断负值的神经元；同时，我们将输入x取反，并行地将-x输入ReLU函数，得到激活后的特征映射x₂ ^*，这样就筛选出取值为负的神经元，并截断正值的神经元。为了保证梯度不变，我们再将激活后的特征映射x₂ ^*取反。接着我们对-x₂ ^*进行逆卷积操作，得到特征映射x₂，最后我们把x₁和x₂这两个特征映射通道级联，得到最终的输出。对取值为负的神经元进行筛选后，对它们进行逆卷积操作，然后与正值进行通道级联，这就是负神经元的重生过程。如图1所示为重生模块(Reborn Block)的示意图。

将重生机制公式化，令y为输出，X为输入，Deconv(x)为逆卷积操作函数，ReLU(x)为上文所述的ReLU非线性激活函数，Concat(x₁，x₂)为通道级联函数，则公式为：

y＝Concat(ReLU(X)，Deconv(-ReLU(-X)))

对于重生模块的一种直观上的解释是，那些负值神经元没有达到一定的阈值条件，就没有能力将所携带的值保留并向前传递。于是我们再给它们一次机会，让它们回到截断丢弃之前的状态，进行再一次卷积的锻造，让部分神经元在这一轮回里面有能力将自身携带的信息保留下来，可以说相当于执行一次二次筛选。然而这种重生不能是“免费的”，重生后的神经元一定要弱于那些原本就达到条件的神经元，所以在这里使用的逆卷积代表“重生的机会”的同时，也是一种“重生的代价”。

对于重生模块的另一种解释是，那些负值的信息不足够达到阈值条件，于是不能像正值信息一样激活神经元。然而，它们依然携带着有用的信息。既然它们不能同时并行地往前流，我们就让它滞后一级，将负值信息流向后倒退一层。而逆卷积在实现滞后的同时也引入了一种滞后的代价，逆卷积相当于对这些负值进行解耦，最后能起作用的仍然是解耦筛选出来的信息。

本发明从结构上看，由于在网络的浅层，网络倾向于同时捕获正负相位的信息，重生模块使负相位的信息能够通过，再通过通道级联的方式扩充通道，相当于使用一种新型的通道补偿技术，提高了卷积核通道的利用率。同时，筛选出得负神经元进行逆卷积操作，而正神经元直接通过，这样不对称的结构设计又打破了传统卷积神经网络结构的对称性，一定程度上增加了权重矩阵各维度上的信息，减弱了网络退化问题，增强了网络的表示能力。从激活函数的角度来看，改进了传统激活函数，提高了对输入数据地利用率，使神经网络具有非线性拟合能力，增大了网络的稀疏性，并且在一定程度上解决了梯度消失和梯度爆炸的问题，同时避免了梯度的饱和。从特征映射的角度来看，逆卷积操作的使用和通道级联，又相当于使用了深浅特征融合，丰富了神经网络的语义信息。

本发明作为一种卷积神经网络基本模型，具有较传统卷积神经网络更强的表示能力和更快的收敛速度，即在具体任务中能获得更好的效果。本发明可直接用于图像识别和图像分类任务，具体来说，可通过训练用于手写数字识别；手写字母、文字符号识别；对各种自然物体图像进行识别分类；人脸识别等相关任务。也可作为物体检测(检测图像中有哪些物体或者某物体是否存在，框出该物体的框图)，语义分割(按照图像中物体的边缘形状，将物体对象分割出来)，实例分割等任务的骨架模型(backbone model)，具体来说，可用于楼道电动车违停检测，银行ATM机异常行为检测，后厨火焰检测等安全隐患问题的检测；人脸检测；行人重识别；自动驾驶等。还可作为图像生成(生成某一类图像)，风格迁移等任务的基础模型，具体来说，可用于如手写数字，字符，文字符号图像生成；动漫图像生成；人脸图像生成；自然物体图像生成；将图像转为具有梵高，毕加索，莫奈等画家作画风格的图像等任务。

有益效果：与以往技术相比，本发明在训练时收敛快速，具有更强的表示能力和拟合能力，能更快学习到有效特征。可以使用较少的数据进行神经网络训练。与同等量级的经典模型，如AlexNet,、VGGNet、NiN、ResNet以及使用其他激活函数的相同结构网络在MNIST、CIFAR10、CIFAR100、SVHN、STL10、FashionMNIST、KMNIST等基准数据集上测试结果进行比较，本发明的结果皆优于这些模型。

附图说明

图1为所示为重生模块的示意图。

图2是本发明卷积神经网络在基准数据集CIFAR-10上的识别准确度提高的曲线图。

图3是本发明重生网络图像识别过程示意图。

图4是图3识别输出图像的流程图，已经在图中解释了过程。

具体实施方式

利用图1重生网络(RebornNet)(ps:卷积神经网络的网络结构图)，其中,输入：图像；输出：图像类别。

这里以识别基准数据集CIFAR-10中的测试集图像作为具体的应用例。CIFAR-10数据集由10种不同类别(10种类别分别为：airplane、automobile、ship、truck、deer、frog、bird、cat、dog、horse)、大小为32*32的彩色图像组成，包含50000张训练图片和10000张测试图片共60000张图片。CIFAR-10中物体的比例大小和特征不尽相同，噪声大，识别难度较高。

首先，我们对训练集图像进行数据增强，具体来说，对原始图像四周各填充4个0像素，然后随机裁剪为原始图像的大小。接着按0.5的概率水平翻转图片。接着将训练集划分为多个小批次，没个小批次包含128张图片。然后将划分好的数据集输入带有重生模块的重生网络中。我们使用带动量项和权重衰减的随机梯度下降法对卷积神经网络进行训练。共训练160轮，前80轮设置学习率为0.001，后80轮将学习率缩减为0.0001。待160轮迭代完成后，将测试集图像输入到训练完毕的重生网络模型中，得到最终识别准确率为91.63％；如图3-4。图3最右端为输出。

将不带有重生模块的，其他完全相同的卷积神经网络以同样方式进行训练，并在测试集上进行测试，得到最终识别准确率为89.27％。Deconv(x)为逆卷积操作函数，图2。

我们可以看到，带有重生模块的重生网络将卷积神经网络在基准数据集CIFAR-10上的识别准确度提高了2.36％。在深度学习和计算机视觉领域，这是一个很大的提升。我们同样对相同量级的经典卷积神经网络NiN，ResNet进行训练和测试，最终识别准确率均低于重生网络。在模型每一轮迭代训练完成之后，我们在将所有训练集图片数据输入到模型中，得到输出标签，与实际标签进行比对，通过计算识别的正确数量得到这一次迭代训练之后模型的训练集识别准确率，将其记录下来。最终将160轮迭代得到的160个训练准确率连成曲线，得到模型的训练集准确率曲线。如下图所示为训练集准确率曲线。我们可以看出，重生网络收敛快速且表示能力更强。说明重生网络能更快地捕获到输入图像的有效特征，最大化的使用输入数据，较好地提升了传统卷积神经网络的模型性能。

Claims

1.一种基于深度卷积神经网络模型-重生网络的视觉识别方法，其特征是，使用实现“重生机制”的“重生模块”搭建一种新型深度卷积神经网络模型，引入的重生机制对被ReLU函数截断死亡的神经元进行重生再造，重生机制的实现流程：在重生网络中，引入并实现重生机制的模块称为重生模块；首先，重生模块的输入x为上层卷积层得到的特征映射，先将x输入传统的ReLU函数，得到激活后的特征映射x₁，这样就筛选出取值为正的神经元，并截断负值的神经元；同时，将输入x取反，并行地将-x输入ReLU函数，得到激活后的特征映射x₂ ^*，这样就筛选出取值为负的神经元，并截断正值的神经元；为了保证梯度不变，再将激活后的特征映射x₂ ^*取反；接着对-x₂ ^*进行逆卷积操作，得到特征映射x₂，最后把x₁和x₂这两个特征映射通道级联，得到最终的输出；对取值为负的神经元进行筛选后，对它们进行逆卷积操作，然后与正值进行通道级联，就是负神经元的重生过程。