CN110097173A

CN110097173A - 一种提高网络性能和泛化能力的卷积神经网络拓扑结构

Info

Publication number: CN110097173A
Application number: CN201910273317.5A
Authority: CN
Inventors: 张涛; 樊龙
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-04-04
Filing date: 2019-04-04
Publication date: 2019-08-06

Abstract

一种提高网络性能和泛化能力的卷积神经网络拓扑结构，由多个卷积神经网络分支组成，每个分支是一个基本的网络结构模型。在训练过程中，不同分支的卷积神经网络拥有不同的学习率并且可以不断调整，在每个新的训练周期的开始先进行调整。首先在基于训练反馈得到的学习率集中选择学习率种子，然后由种子生成新的学习率集来进行学习率的更新。这样可以在保持一定的网络深度的情况下，大大丰富网络的宽度结构，使得网络获得更强的泛化能力。本发明在保持一定网络深度的情况下，网络的水平结构大大丰富，网络获得更强的泛化性能。本发明在准确性，鲁棒性，收敛性，效率和方面都表现出很大的优势。

Description

一种提高网络性能和泛化能力的卷积神经网络拓扑结构

技术领域

本发明涉及一种卷积神经网络。特别是涉及一种提高网络性能和泛化能力的卷积神经网络拓扑结构。

背景技术

卷积神经网络(CNN)已成为计算机视觉领域的研究热点，其能够显著提高分类准确率。当前流行的算法主要使用卷积神经网络来进行特征的提取和分类。除此之外，CNN也广泛用于各种领域，例如图像或语音分类，语音识别和遥感图像处理等。区别于传统方法，CNN模型是一种端到端的网络架构，集成了特征提取和分类。卷积神经网络的核心是特征学习，通过分层网络获取分层次的特征信息，从而解决传统人工提取特征的难题。

目前的卷积神经网络主要通过扩大单个网络结构来提高网络性能。卷积神经网络的深度是影响网络分类性能的重要因素。20世纪90年代，LeCun等人提出LeNet-5，该网络设计了多层人工神经网络来完成对手写数字分类的任务，拥有较高的分类精度，但对于复杂任务的处理仍有不足。在后来的研究中，Krizhevsky等人提出了AlexNet结构框架，在图像识别方面取得了重大突破。VggNet，ResNet也被相继提出，通过增加单个网络的深度来提高网络性能。此外，GoogleNet则是对每层使用不同尺度的卷积核来增加单个网络的宽度，采用不同的感受视野来提高网络性能。

通过增加卷积神经网络深度，卷积神经网络可以利用增加的非线性获得目标函数的近似结构从而产生更优的结果。虽然这种方法可以在一定程度上提高网络的性能，但是同样也会提高网络的整体复杂度，并且可能导致过度拟合的现象出现。同时由于CNN中的全连接层在分类过程中的作用，结合训练过程中传统的基于梯度下降的算法，其泛化能力是有限的。

除了增加卷积神经网络的深度来提高分类性能之外，还有一些其他策略在实现更高的分类性能方面有较好效果。例如，利用抽样算法来改变样本的分布，提高模型的泛化能力；合成少数过采样技术(SMOTE)和成本敏感学习(CSL)等也通过扩大数据量来增强模型的泛化能力。然而这些方法没有考虑分类的基本特征，在实际应用中容易受限，具有不稳定性。LESLIE提出了一种使用循环学习率训练神经网络的方法，该方法允许学习率在合理的阈值之间循环从而实现更高的分类准确度。为了提高CNN的分类和泛化性能，LI等人提出了一种全新的深度方差网络(DVN)，它将分层贝叶斯模型纳入CNN框架中。该框架能够将迭代特征分布从一个对象的完整训练数据集转移到其他对象的不完整训练数据集。但是仅仅考虑深化网络结构并不能无限地提高模型的泛化性能，该方法没有增加网络层的数量，而是通过平衡训练数据集和扩展网络宽度来提高CNN的性能。

发明内容

本发明所要解决的技术问题是，提供一种在不增加卷积神经网络深度的情况下提高网络性能和泛化能力，优化网络特征提取能力和决策能力的提高网络性能和泛化能力的卷积神经网络拓扑结构。

本发明所采用的技术方案是：一种提高网络性能和泛化能力的卷积神经网络拓扑结构，有用于分别对增强后的图像数据进行训练的由N个卷积神经网络构成的卷积神经网络模块，还包括有：概率融合模块，卷积神经网络模块每次训练结束都输出N个概率矩阵进入概率融合模块，所述概率融合模块每次接收到N个概率矩阵后，都要对N个概率矩阵中的相同位置的概率相加，得到一个新矩阵，找出该矩阵中最大概率值，并将当前次的最大概率值与上一次训练结束得到的最大概率值相减，当结果大于设定阈值时，通知卷积神经网络模块进行学习率更新，当结果小于设定阈值时，卷积神经网络模块以当前的学习率继续训练；决策模块，卷积神经网络模块进行学习率更新时，首先分别找出N个卷积神经网络输出的概率矩阵中的最大概率值输出给决策模块，所述决策模块在N个最大概率值中找出最大的一个最大概率值所对应的卷积神经网络的学习率；学习率更新模块，在均值为1，方差为0.25的高斯函数上随机选取N个值，将决策模块找到的卷积神经网络的学习率分别与随机选取的N个值相乘，得到N个新的学习率值，再随机分配给卷积神经网络模块中的N个卷积神经网络继续进行下一次的训练。

学习率更新周期为t，每个卷积神经网络输出概率矩阵的最大概率值为预测概率拥有不同学习率的卷积神经网络获得的预测概率值被决策模块用于判别决策，获得最大预测概率值所对应的卷积神经网络的学习率，表示为γ，用Ψ_N表示决策模块得到：

其中，p^(t)表示第t个学习率周期的最大预测概率值，

学习率更新定义如下：

其中，δ_p ^(t)＝p^(t)-p^(t-1)，Lr新的学习率，为学习率和最大预测概率值之间的映射关系，表示为：

其中V_i＝{γ1,…,γ_i}表示一组学习率；

学习率更新定义表明，如果第t个训练周期的准确率减去第t-1个周期的准确率大于设定的阈值θ，则进行学习率的更新，否则不更新。

本发明的一种提高网络性能和泛化能力的卷积神经网络拓扑结构，提供了一个通用而强大的方案，以进一步提高卷积神经网络性能。该方法将多个CNN结构作为基本网络节点，以创建卷积神经网络拓扑结构。在保持一定网络深度的情况下，网络的水平结构大大丰富，网络获得更强的泛化性能。并且该方法提出了一种反馈调整学习率策略，该策略以当前网络的准确性作为反馈因子来更新学习率，在实验中取得较优的效果。在准确性，鲁棒性，收敛性，效率和方面都表现出很大的优势。

附图说明

图1是本发明一种提高网络性能和泛化能力的卷积神经网络拓扑结构的结构示意图。

图中

1：卷积神经网络模块 2：概率融合模块

3：决策模块 4：学习率更新模块

5：数据层 6：数据增强层

具体实施方式

下面结合实施例和附图对本发明的一种提高网络性能和泛化能力的卷积神经网络拓扑结构做出详细说明。

如图1所示，本发明的一种提高网络性能和泛化能力的卷积神经网络拓扑结构，包括：

卷积神经网络模块1，由N个卷积神经网络构成，用于分别对增强后的图像数据进行训练。在训练的开始，使用训练集对每个卷积神经网络进行训练，每个卷积神经网络初始化不同的学习率用于训练。

概率融合模块2，卷积神经网络模块1每次训练结束都输出N个概率矩阵进入概率融合模块2，所述概率融合模块2每次接收到N个概率矩阵后，都要对N个概率矩阵中的相同位置的概率相加，得到一个新矩阵，找出该矩阵中最大概率值，并将当前次的最大概率值与上一次训练结束得到的最大概率值相减，当结果大于设定阈值时，通知卷积神经网络模块1进行学习率更新，当结果小于设定阈值θ时，卷积神经网络模块1以当前的学习率继续训练；

决策模块3，卷积神经网络模块1进行学习率更新时，首先分别找出N个卷积神经网络输出的概率矩阵中的最大概率值输出给决策模块3，所述决策模块3在N个最大概率值中找出最大的一个最大概率值所对应的卷积神经网络的学习率；

学习率更新周期为t，每个卷积神经网络输出概率矩阵的最大概率值为预测概率拥有不同学习率的卷积神经网络获得的预测概率值被决策模块(3)用于判别决策，获得最大预测概率值所对应的卷积神经网络的学习率，表示为γ，用Ψ_N表示决策模块(3)得到：

其中，p^(t)表示第t个学习率周期的最大预测概率值，

学习率更新定义如下：

其中V_i＝{γ1,…,γ_i}表示一组学习率；

学习率更新模块4：

深度学习模型通常用梯度下降算法或对应的改进算法进行训练，这些算法都需要设置学习率从而确定梯度下降中权重的移动步长。作为神经网络训练过程中关键参数，学习率的设置在寻解过程中起着至关重要的作用，选择恰当的学习率既可以获得最优解，也可以缩短寻解过程所需的时间。若设置一个低学习率，在获得损失函数最小值的过程中移动步长会变小，这使得训练更加具有可靠性，但是耗费时间长；若设置一个高学习率，移动步长也会相应变大，权重值将会出现明显改变，网络优化过程中损失函数最小值可能会被跳过。此外，设置较高的学习率容易导致训练不收敛。典型的学习率更新方法有分段常数衰减、指数衰减、自然指数衰减、多项式衰减等。

本发明是在均值为1，方差为0.25的高斯函数上随机选取N个值，将决策模块3找到的卷积神经网络的学习率分别与随机选取的N个值相乘，得到N个新的学习率值，再随机分配给卷积神经网络模块1中的N个卷积神经网络继续进行下一次的训练。

下面给出具体实例：

为验证本发明的一种提高网络性能和泛化能力的卷积神经网络拓扑结构的有效性，选取三种最流行的CNN网络，深度残差网络，Lenet-5网络和VggNet网络，在两个公共数据集MNIST和CIFAR-10上进行对比实验。通过使用本发明的网络拓扑结构和不使用本发明的网络拓扑结构两种方法对三种网络进行训练，比较他们的准确率。

1.在MNIST数据集上的性能评估

表1 Lenet5和DTN-Lenet5在不同更新方法下的性能对比

表2 DTN-Lenet5和其他网络的性能对比

2.在CIFAR-10数据集上的性能评估

表3 ResNet和DTN-ResNet在不同更新方法下的性能对比

表4不同网络在数据集CIFAR-10上的性能对比

表格中DTN表示是发明的一种提高网络性能和泛化能力的卷积神经网络拓扑结构。

由以上表格可以看出，不同类型的实验均证明发明的一种提高网络性能和泛化能力的卷积神经网络拓扑结构明显提升了网络的准确率。在不增加网络深度的情况下，发明的一种提高网络性能和泛化能力的卷积神经网络拓扑结构大大丰富了网络的宽度，使得网络获得了更强的泛化能力。

Claims

1.一种提高网络性能和泛化能力的卷积神经网络拓扑结构，有用于分别对增强后的图像数据进行训练的由N个卷积神经网络构成的卷积神经网络模块(1)，其特征在于，还包括有：

概率融合模块(2)，卷积神经网络模块(1)每次训练结束都输出N个概率矩阵进入概率融合模块(2)，所述概率融合模块(2)每次接收到N个概率矩阵后，都要对N个概率矩阵中的相同位置的概率相加，得到一个新矩阵，找出该矩阵中最大概率值，并将当前次的最大概率值与上一次训练结束得到的最大概率值相减，当结果大于设定阈值时，通知卷积神经网络模块(1)进行学习率更新，当结果小于设定阈值时，卷积神经网络模块(1)以当前的学习率继续训练；

决策模块(3)，卷积神经网络模块(1)进行学习率更新时，首先分别找出N个卷积神经网络输出的概率矩阵中的最大概率值输出给决策模块(3)，所述决策模块(3)在N个最大概率值中找出最大的一个最大概率值所对应的卷积神经网络的学习率；

学习率更新模块(4)，在均值为1，方差为0.25的高斯函数上随机选取N个值，将决策模块(3)找到的卷积神经网络的学习率分别与随机选取的N个值相乘，得到N个新的学习率值，再随机分配给卷积神经网络模块(1)中的N个卷积神经网络继续进行下一次的训练。

2.根据权利要求1所述的一种提高网络性能和泛化能力的卷积神经网络拓扑结构，其特征在于，

其中，p^(t)表示第t个学习率周期的最大预测概率值，

学习率更新定义如下：

其中V_i＝{γ₁,…,γ_i}表示一组学习率；