CN110097173A - 一种提高网络性能和泛化能力的卷积神经网络拓扑结构 - Google Patents

一种提高网络性能和泛化能力的卷积神经网络拓扑结构 Download PDF

Info

Publication number
CN110097173A
CN110097173A CN201910273317.5A CN201910273317A CN110097173A CN 110097173 A CN110097173 A CN 110097173A CN 201910273317 A CN201910273317 A CN 201910273317A CN 110097173 A CN110097173 A CN 110097173A
Authority
CN
China
Prior art keywords
convolutional neural
neural networks
learning rate
probability
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910273317.5A
Other languages
English (en)
Inventor
张涛
樊龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201910273317.5A priority Critical patent/CN110097173A/zh
Publication of CN110097173A publication Critical patent/CN110097173A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

一种提高网络性能和泛化能力的卷积神经网络拓扑结构,由多个卷积神经网络分支组成,每个分支是一个基本的网络结构模型。在训练过程中,不同分支的卷积神经网络拥有不同的学习率并且可以不断调整,在每个新的训练周期的开始先进行调整。首先在基于训练反馈得到的学习率集中选择学习率种子,然后由种子生成新的学习率集来进行学习率的更新。这样可以在保持一定的网络深度的情况下,大大丰富网络的宽度结构,使得网络获得更强的泛化能力。本发明在保持一定网络深度的情况下,网络的水平结构大大丰富,网络获得更强的泛化性能。本发明在准确性,鲁棒性,收敛性,效率和方面都表现出很大的优势。

Description

一种提高网络性能和泛化能力的卷积神经网络拓扑结构
技术领域
本发明涉及一种卷积神经网络。特别是涉及一种提高网络性能和泛化能力的卷积神经网络拓扑结构。
背景技术
卷积神经网络(CNN)已成为计算机视觉领域的研究热点,其能够显著提高分类准确率。当前流行的算法主要使用卷积神经网络来进行特征的提取和分类。除此之外,CNN也广泛用于各种领域,例如图像或语音分类,语音识别和遥感图像处理等。区别于传统方法,CNN模型是一种端到端的网络架构,集成了特征提取和分类。卷积神经网络的核心是特征学习,通过分层网络获取分层次的特征信息,从而解决传统人工提取特征的难题。
目前的卷积神经网络主要通过扩大单个网络结构来提高网络性能。卷积神经网络的深度是影响网络分类性能的重要因素。20世纪90年代,LeCun等人提出LeNet-5,该网络设计了多层人工神经网络来完成对手写数字分类的任务,拥有较高的分类精度,但对于复杂任务的处理仍有不足。在后来的研究中,Krizhevsky等人提出了AlexNet结构框架,在图像识别方面取得了重大突破。VggNet,ResNet也被相继提出,通过增加单个网络的深度来提高网络性能。此外,GoogleNet则是对每层使用不同尺度的卷积核来增加单个网络的宽度,采用不同的感受视野来提高网络性能。
通过增加卷积神经网络深度,卷积神经网络可以利用增加的非线性获得目标函数的近似结构从而产生更优的结果。虽然这种方法可以在一定程度上提高网络的性能,但是同样也会提高网络的整体复杂度,并且可能导致过度拟合的现象出现。同时由于CNN中的全连接层在分类过程中的作用,结合训练过程中传统的基于梯度下降的算法,其泛化能力是有限的。
除了增加卷积神经网络的深度来提高分类性能之外,还有一些其他策略在实现更高的分类性能方面有较好效果。例如,利用抽样算法来改变样本的分布,提高模型的泛化能力;合成少数过采样技术(SMOTE)和成本敏感学习(CSL)等也通过扩大数据量来增强模型的泛化能力。然而这些方法没有考虑分类的基本特征,在实际应用中容易受限,具有不稳定性。LESLIE提出了一种使用循环学习率训练神经网络的方法,该方法允许学习率在合理的阈值之间循环从而实现更高的分类准确度。为了提高CNN的分类和泛化性能,LI等人提出了一种全新的深度方差网络(DVN),它将分层贝叶斯模型纳入CNN框架中。该框架能够将迭代特征分布从一个对象的完整训练数据集转移到其他对象的不完整训练数据集。但是仅仅考虑深化网络结构并不能无限地提高模型的泛化性能,该方法没有增加网络层的数量,而是通过平衡训练数据集和扩展网络宽度来提高CNN的性能。
发明内容
本发明所要解决的技术问题是,提供一种在不增加卷积神经网络深度的情况下提高网络性能和泛化能力,优化网络特征提取能力和决策能力的提高网络性能和泛化能力的卷积神经网络拓扑结构。
本发明所采用的技术方案是:一种提高网络性能和泛化能力的卷积神经网络拓扑结构,有用于分别对增强后的图像数据进行训练的由N个卷积神经网络构成的卷积神经网络模块,还包括有:概率融合模块,卷积神经网络模块每次训练结束都输出N个概率矩阵进入概率融合模块,所述概率融合模块每次接收到N个概率矩阵后,都要对N个概率矩阵中的相同位置的概率相加,得到一个新矩阵,找出该矩阵中最大概率值,并将当前次的最大概率值与上一次训练结束得到的最大概率值相减,当结果大于设定阈值时,通知卷积神经网络模块进行学习率更新,当结果小于设定阈值时,卷积神经网络模块以当前的学习率继续训练;决策模块,卷积神经网络模块进行学习率更新时,首先分别找出N个卷积神经网络输出的概率矩阵中的最大概率值输出给决策模块,所述决策模块在N个最大概率值中找出最大的一个最大概率值所对应的卷积神经网络的学习率;学习率更新模块,在均值为1,方差为0.25的高斯函数上随机选取N个值,将决策模块找到的卷积神经网络的学习率分别与随机选取的N个值相乘,得到N个新的学习率值,再随机分配给卷积神经网络模块中的N个卷积神经网络继续进行下一次的训练。
学习率更新周期为t,每个卷积神经网络输出概率矩阵的最大概率值为预测概率拥有不同学习率的卷积神经网络获得的预测概率值被决策模块用于判别决策,获得最大预测概率值所对应的卷积神经网络的学习率,表示为γ,用ΨN表示决策模块得到:
其中,p(t)表示第t个学习率周期的最大预测概率值,
学习率更新定义如下:
其中,δp (t)=p(t)-p(t-1),Lr新的学习率,为学习率和最大预测概率值之间的映射关系,表示为:
其中Vi={γ1,…,γi}表示一组学习率;
学习率更新定义表明,如果第t个训练周期的准确率减去第t-1个周期的准确率大于设定的阈值θ,则进行学习率的更新,否则不更新。
本发明的一种提高网络性能和泛化能力的卷积神经网络拓扑结构,提供了一个通用而强大的方案,以进一步提高卷积神经网络性能。该方法将多个CNN结构作为基本网络节点,以创建卷积神经网络拓扑结构。在保持一定网络深度的情况下,网络的水平结构大大丰富,网络获得更强的泛化性能。并且该方法提出了一种反馈调整学习率策略,该策略以当前网络的准确性作为反馈因子来更新学习率,在实验中取得较优的效果。在准确性,鲁棒性,收敛性,效率和方面都表现出很大的优势。
附图说明
图1是本发明一种提高网络性能和泛化能力的卷积神经网络拓扑结构的结构示意图。
图中
1:卷积神经网络模块 2:概率融合模块
3:决策模块 4:学习率更新模块
5:数据层 6:数据增强层
具体实施方式
下面结合实施例和附图对本发明的一种提高网络性能和泛化能力的卷积神经网络拓扑结构做出详细说明。
如图1所示,本发明的一种提高网络性能和泛化能力的卷积神经网络拓扑结构,包括:
卷积神经网络模块1,由N个卷积神经网络构成,用于分别对增强后的图像数据进行训练。在训练的开始,使用训练集对每个卷积神经网络进行训练,每个卷积神经网络初始化不同的学习率用于训练。
概率融合模块2,卷积神经网络模块1每次训练结束都输出N个概率矩阵进入概率融合模块2,所述概率融合模块2每次接收到N个概率矩阵后,都要对N个概率矩阵中的相同位置的概率相加,得到一个新矩阵,找出该矩阵中最大概率值,并将当前次的最大概率值与上一次训练结束得到的最大概率值相减,当结果大于设定阈值时,通知卷积神经网络模块1进行学习率更新,当结果小于设定阈值θ时,卷积神经网络模块1以当前的学习率继续训练;
决策模块3,卷积神经网络模块1进行学习率更新时,首先分别找出N个卷积神经网络输出的概率矩阵中的最大概率值输出给决策模块3,所述决策模块3在N个最大概率值中找出最大的一个最大概率值所对应的卷积神经网络的学习率;
学习率更新周期为t,每个卷积神经网络输出概率矩阵的最大概率值为预测概率拥有不同学习率的卷积神经网络获得的预测概率值被决策模块(3)用于判别决策,获得最大预测概率值所对应的卷积神经网络的学习率,表示为γ,用ΨN表示决策模块(3)得到:
其中,p(t)表示第t个学习率周期的最大预测概率值,
学习率更新定义如下:
其中,δp (t)=p(t)-p(t-1),Lr新的学习率,为学习率和最大预测概率值之间的映射关系,表示为:
其中Vi={γ1,…,γi}表示一组学习率;
学习率更新定义表明,如果第t个训练周期的准确率减去第t-1个周期的准确率大于设定的阈值θ,则进行学习率的更新,否则不更新。
学习率更新模块4:
深度学习模型通常用梯度下降算法或对应的改进算法进行训练,这些算法都需要设置学习率从而确定梯度下降中权重的移动步长。作为神经网络训练过程中关键参数,学习率的设置在寻解过程中起着至关重要的作用,选择恰当的学习率既可以获得最优解,也可以缩短寻解过程所需的时间。若设置一个低学习率,在获得损失函数最小值的过程中移动步长会变小,这使得训练更加具有可靠性,但是耗费时间长;若设置一个高学习率,移动步长也会相应变大,权重值将会出现明显改变,网络优化过程中损失函数最小值可能会被跳过。此外,设置较高的学习率容易导致训练不收敛。典型的学习率更新方法有分段常数衰减、指数衰减、自然指数衰减、多项式衰减等。
本发明是在均值为1,方差为0.25的高斯函数上随机选取N个值,将决策模块3找到的卷积神经网络的学习率分别与随机选取的N个值相乘,得到N个新的学习率值,再随机分配给卷积神经网络模块1中的N个卷积神经网络继续进行下一次的训练。
下面给出具体实例:
为验证本发明的一种提高网络性能和泛化能力的卷积神经网络拓扑结构的有效性,选取三种最流行的CNN网络,深度残差网络,Lenet-5网络和VggNet网络,在两个公共数据集MNIST和CIFAR-10上进行对比实验。通过使用本发明的网络拓扑结构和不使用本发明的网络拓扑结构两种方法对三种网络进行训练,比较他们的准确率。
1.在MNIST数据集上的性能评估
表1 Lenet5和DTN-Lenet5在不同更新方法下的性能对比
表2 DTN-Lenet5和其他网络的性能对比
2.在CIFAR-10数据集上的性能评估
表3 ResNet和DTN-ResNet在不同更新方法下的性能对比
表4不同网络在数据集CIFAR-10上的性能对比
表格中DTN表示是发明的一种提高网络性能和泛化能力的卷积神经网络拓扑结构。
由以上表格可以看出,不同类型的实验均证明发明的一种提高网络性能和泛化能力的卷积神经网络拓扑结构明显提升了网络的准确率。在不增加网络深度的情况下,发明的一种提高网络性能和泛化能力的卷积神经网络拓扑结构大大丰富了网络的宽度,使得网络获得了更强的泛化能力。

Claims (2)

1.一种提高网络性能和泛化能力的卷积神经网络拓扑结构,有用于分别对增强后的图像数据进行训练的由N个卷积神经网络构成的卷积神经网络模块(1),其特征在于,还包括有:
概率融合模块(2),卷积神经网络模块(1)每次训练结束都输出N个概率矩阵进入概率融合模块(2),所述概率融合模块(2)每次接收到N个概率矩阵后,都要对N个概率矩阵中的相同位置的概率相加,得到一个新矩阵,找出该矩阵中最大概率值,并将当前次的最大概率值与上一次训练结束得到的最大概率值相减,当结果大于设定阈值时,通知卷积神经网络模块(1)进行学习率更新,当结果小于设定阈值时,卷积神经网络模块(1)以当前的学习率继续训练;
决策模块(3),卷积神经网络模块(1)进行学习率更新时,首先分别找出N个卷积神经网络输出的概率矩阵中的最大概率值输出给决策模块(3),所述决策模块(3)在N个最大概率值中找出最大的一个最大概率值所对应的卷积神经网络的学习率;
学习率更新模块(4),在均值为1,方差为0.25的高斯函数上随机选取N个值,将决策模块(3)找到的卷积神经网络的学习率分别与随机选取的N个值相乘,得到N个新的学习率值,再随机分配给卷积神经网络模块(1)中的N个卷积神经网络继续进行下一次的训练。
2.根据权利要求1所述的一种提高网络性能和泛化能力的卷积神经网络拓扑结构,其特征在于,
学习率更新周期为t,每个卷积神经网络输出概率矩阵的最大概率值为预测概率拥有不同学习率的卷积神经网络获得的预测概率值被决策模块(3)用于判别决策,获得最大预测概率值所对应的卷积神经网络的学习率,表示为γ,用ΨN表示决策模块(3)得到:
其中,p(t)表示第t个学习率周期的最大预测概率值,
学习率更新定义如下:
其中,δp (t)=p(t)-p(t-1),Lr新的学习率,为学习率和最大预测概率值之间的映射关系,表示为:
其中Vi={γ1,…,γi}表示一组学习率;
学习率更新定义表明,如果第t个训练周期的准确率减去第t-1个周期的准确率大于设定的阈值θ,则进行学习率的更新,否则不更新。
CN201910273317.5A 2019-04-04 2019-04-04 一种提高网络性能和泛化能力的卷积神经网络拓扑结构 Pending CN110097173A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910273317.5A CN110097173A (zh) 2019-04-04 2019-04-04 一种提高网络性能和泛化能力的卷积神经网络拓扑结构

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910273317.5A CN110097173A (zh) 2019-04-04 2019-04-04 一种提高网络性能和泛化能力的卷积神经网络拓扑结构

Publications (1)

Publication Number Publication Date
CN110097173A true CN110097173A (zh) 2019-08-06

Family

ID=67444401

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910273317.5A Pending CN110097173A (zh) 2019-04-04 2019-04-04 一种提高网络性能和泛化能力的卷积神经网络拓扑结构

Country Status (1)

Country Link
CN (1) CN110097173A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113837046A (zh) * 2021-09-17 2021-12-24 西北工业大学 一种基于迭代特征分布学习的小样本遥感图像场景分类方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113837046A (zh) * 2021-09-17 2021-12-24 西北工业大学 一种基于迭代特征分布学习的小样本遥感图像场景分类方法

Similar Documents

Publication Publication Date Title
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN110458844B (zh) 一种低光照场景的语义分割方法
CN110097755A (zh) 基于深度神经网络的高速公路交通流量状态识别方法
CN110298391A (zh) 一种基于小样本的迭代式增量对话意图类别识别方法
CN108399380A (zh) 一种基于三维卷积和Faster RCNN的视频动作检测方法
CN108665005B (zh) 一种利用dcgan提高基于cnn图像识别性能的方法
CN108984745A (zh) 一种融合多知识图谱的神经网络文本分类方法
CN107392919B (zh) 基于自适应遗传算法的灰度阈值获取方法、图像分割方法
CN110598598A (zh) 基于有限样本集的双流卷积神经网络人体行为识别方法
CN107066973A (zh) 一种利用时空注意力模型的视频内容描述方法
CN110110599B (zh) 一种基于多尺度特征融合的遥感图像目标检测方法
CN110334580A (zh) 基于集成增量的动态权重组合的设备故障分类方法
CN104217214A (zh) 基于可配置卷积神经网络的rgb-d人物行为识别方法
CN102201236A (zh) 一种高斯混合模型和量子神经网络联合的说话人识别方法
CN111581385A (zh) 一种不平衡数据采样的中文文本类别识别系统及方法
CN110085218A (zh) 一种基于特征金字塔网络的音频场景识别方法
CN110059616A (zh) 基于融合损失函数的行人重识别模型优化方法
CN109214285A (zh) 基于深度卷积神经网络与长短期记忆网络的摔倒检测方法
CN110929848A (zh) 基于多挑战感知学习模型的训练、跟踪方法
CN111160163B (zh) 一种基于区域关系建模和信息融合建模的表情识别方法
CN112686376A (zh) 一种基于时序图神经网络的节点表示方法及增量学习方法
CN106897744A (zh) 一种自适应设置深度置信网络参数的方法及系统
CN108875912A (zh) 一种用于图像识别的神经网络模型
CN111931813A (zh) 一种基于cnn的宽度学习分类方法
CN112215423A (zh) 一种基于趋势引导与稀疏交互的行人轨迹预测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190806