CN110097173A - 一种提高网络性能和泛化能力的卷积神经网络拓扑结构 - Google Patents
一种提高网络性能和泛化能力的卷积神经网络拓扑结构 Download PDFInfo
- Publication number
- CN110097173A CN110097173A CN201910273317.5A CN201910273317A CN110097173A CN 110097173 A CN110097173 A CN 110097173A CN 201910273317 A CN201910273317 A CN 201910273317A CN 110097173 A CN110097173 A CN 110097173A
- Authority
- CN
- China
- Prior art keywords
- convolutional neural
- neural networks
- learning rate
- probability
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 78
- 238000012549 training Methods 0.000 claims abstract description 26
- 239000011159 matrix material Substances 0.000 claims description 21
- 230000004927 fusion Effects 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 6
- 230000001537 neural effect Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims 1
- 238000000034 method Methods 0.000 abstract description 16
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000007423 decrease Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
一种提高网络性能和泛化能力的卷积神经网络拓扑结构,由多个卷积神经网络分支组成,每个分支是一个基本的网络结构模型。在训练过程中,不同分支的卷积神经网络拥有不同的学习率并且可以不断调整,在每个新的训练周期的开始先进行调整。首先在基于训练反馈得到的学习率集中选择学习率种子,然后由种子生成新的学习率集来进行学习率的更新。这样可以在保持一定的网络深度的情况下,大大丰富网络的宽度结构,使得网络获得更强的泛化能力。本发明在保持一定网络深度的情况下,网络的水平结构大大丰富,网络获得更强的泛化性能。本发明在准确性,鲁棒性,收敛性,效率和方面都表现出很大的优势。
Description
技术领域
本发明涉及一种卷积神经网络。特别是涉及一种提高网络性能和泛化能力的卷积神经网络拓扑结构。
背景技术
卷积神经网络(CNN)已成为计算机视觉领域的研究热点,其能够显著提高分类准确率。当前流行的算法主要使用卷积神经网络来进行特征的提取和分类。除此之外,CNN也广泛用于各种领域,例如图像或语音分类,语音识别和遥感图像处理等。区别于传统方法,CNN模型是一种端到端的网络架构,集成了特征提取和分类。卷积神经网络的核心是特征学习,通过分层网络获取分层次的特征信息,从而解决传统人工提取特征的难题。
目前的卷积神经网络主要通过扩大单个网络结构来提高网络性能。卷积神经网络的深度是影响网络分类性能的重要因素。20世纪90年代,LeCun等人提出LeNet-5,该网络设计了多层人工神经网络来完成对手写数字分类的任务,拥有较高的分类精度,但对于复杂任务的处理仍有不足。在后来的研究中,Krizhevsky等人提出了AlexNet结构框架,在图像识别方面取得了重大突破。VggNet,ResNet也被相继提出,通过增加单个网络的深度来提高网络性能。此外,GoogleNet则是对每层使用不同尺度的卷积核来增加单个网络的宽度,采用不同的感受视野来提高网络性能。
通过增加卷积神经网络深度,卷积神经网络可以利用增加的非线性获得目标函数的近似结构从而产生更优的结果。虽然这种方法可以在一定程度上提高网络的性能,但是同样也会提高网络的整体复杂度,并且可能导致过度拟合的现象出现。同时由于CNN中的全连接层在分类过程中的作用,结合训练过程中传统的基于梯度下降的算法,其泛化能力是有限的。
除了增加卷积神经网络的深度来提高分类性能之外,还有一些其他策略在实现更高的分类性能方面有较好效果。例如,利用抽样算法来改变样本的分布,提高模型的泛化能力;合成少数过采样技术(SMOTE)和成本敏感学习(CSL)等也通过扩大数据量来增强模型的泛化能力。然而这些方法没有考虑分类的基本特征,在实际应用中容易受限,具有不稳定性。LESLIE提出了一种使用循环学习率训练神经网络的方法,该方法允许学习率在合理的阈值之间循环从而实现更高的分类准确度。为了提高CNN的分类和泛化性能,LI等人提出了一种全新的深度方差网络(DVN),它将分层贝叶斯模型纳入CNN框架中。该框架能够将迭代特征分布从一个对象的完整训练数据集转移到其他对象的不完整训练数据集。但是仅仅考虑深化网络结构并不能无限地提高模型的泛化性能,该方法没有增加网络层的数量,而是通过平衡训练数据集和扩展网络宽度来提高CNN的性能。
发明内容
本发明所要解决的技术问题是,提供一种在不增加卷积神经网络深度的情况下提高网络性能和泛化能力,优化网络特征提取能力和决策能力的提高网络性能和泛化能力的卷积神经网络拓扑结构。
本发明所采用的技术方案是:一种提高网络性能和泛化能力的卷积神经网络拓扑结构,有用于分别对增强后的图像数据进行训练的由N个卷积神经网络构成的卷积神经网络模块,还包括有:概率融合模块,卷积神经网络模块每次训练结束都输出N个概率矩阵进入概率融合模块,所述概率融合模块每次接收到N个概率矩阵后,都要对N个概率矩阵中的相同位置的概率相加,得到一个新矩阵,找出该矩阵中最大概率值,并将当前次的最大概率值与上一次训练结束得到的最大概率值相减,当结果大于设定阈值时,通知卷积神经网络模块进行学习率更新,当结果小于设定阈值时,卷积神经网络模块以当前的学习率继续训练;决策模块,卷积神经网络模块进行学习率更新时,首先分别找出N个卷积神经网络输出的概率矩阵中的最大概率值输出给决策模块,所述决策模块在N个最大概率值中找出最大的一个最大概率值所对应的卷积神经网络的学习率;学习率更新模块,在均值为1,方差为0.25的高斯函数上随机选取N个值,将决策模块找到的卷积神经网络的学习率分别与随机选取的N个值相乘,得到N个新的学习率值,再随机分配给卷积神经网络模块中的N个卷积神经网络继续进行下一次的训练。
学习率更新周期为t,每个卷积神经网络输出概率矩阵的最大概率值为预测概率拥有不同学习率的卷积神经网络获得的预测概率值被决策模块用于判别决策,获得最大预测概率值所对应的卷积神经网络的学习率,表示为γ,用ΨN表示决策模块得到:
其中,p(t)表示第t个学习率周期的最大预测概率值,
学习率更新定义如下:
其中,δp (t)=p(t)-p(t-1),Lr新的学习率,为学习率和最大预测概率值之间的映射关系,表示为:
其中Vi={γ1,…,γi}表示一组学习率;
学习率更新定义表明,如果第t个训练周期的准确率减去第t-1个周期的准确率大于设定的阈值θ,则进行学习率的更新,否则不更新。
本发明的一种提高网络性能和泛化能力的卷积神经网络拓扑结构,提供了一个通用而强大的方案,以进一步提高卷积神经网络性能。该方法将多个CNN结构作为基本网络节点,以创建卷积神经网络拓扑结构。在保持一定网络深度的情况下,网络的水平结构大大丰富,网络获得更强的泛化性能。并且该方法提出了一种反馈调整学习率策略,该策略以当前网络的准确性作为反馈因子来更新学习率,在实验中取得较优的效果。在准确性,鲁棒性,收敛性,效率和方面都表现出很大的优势。
附图说明
图1是本发明一种提高网络性能和泛化能力的卷积神经网络拓扑结构的结构示意图。
图中
1:卷积神经网络模块 2:概率融合模块
3:决策模块 4:学习率更新模块
5:数据层 6:数据增强层
具体实施方式
下面结合实施例和附图对本发明的一种提高网络性能和泛化能力的卷积神经网络拓扑结构做出详细说明。
如图1所示,本发明的一种提高网络性能和泛化能力的卷积神经网络拓扑结构,包括:
卷积神经网络模块1,由N个卷积神经网络构成,用于分别对增强后的图像数据进行训练。在训练的开始,使用训练集对每个卷积神经网络进行训练,每个卷积神经网络初始化不同的学习率用于训练。
概率融合模块2,卷积神经网络模块1每次训练结束都输出N个概率矩阵进入概率融合模块2,所述概率融合模块2每次接收到N个概率矩阵后,都要对N个概率矩阵中的相同位置的概率相加,得到一个新矩阵,找出该矩阵中最大概率值,并将当前次的最大概率值与上一次训练结束得到的最大概率值相减,当结果大于设定阈值时,通知卷积神经网络模块1进行学习率更新,当结果小于设定阈值θ时,卷积神经网络模块1以当前的学习率继续训练;
决策模块3,卷积神经网络模块1进行学习率更新时,首先分别找出N个卷积神经网络输出的概率矩阵中的最大概率值输出给决策模块3,所述决策模块3在N个最大概率值中找出最大的一个最大概率值所对应的卷积神经网络的学习率;
学习率更新周期为t,每个卷积神经网络输出概率矩阵的最大概率值为预测概率拥有不同学习率的卷积神经网络获得的预测概率值被决策模块(3)用于判别决策,获得最大预测概率值所对应的卷积神经网络的学习率,表示为γ,用ΨN表示决策模块(3)得到:
其中,p(t)表示第t个学习率周期的最大预测概率值,
学习率更新定义如下:
其中,δp (t)=p(t)-p(t-1),Lr新的学习率,为学习率和最大预测概率值之间的映射关系,表示为:
其中Vi={γ1,…,γi}表示一组学习率;
学习率更新定义表明,如果第t个训练周期的准确率减去第t-1个周期的准确率大于设定的阈值θ,则进行学习率的更新,否则不更新。
学习率更新模块4:
深度学习模型通常用梯度下降算法或对应的改进算法进行训练,这些算法都需要设置学习率从而确定梯度下降中权重的移动步长。作为神经网络训练过程中关键参数,学习率的设置在寻解过程中起着至关重要的作用,选择恰当的学习率既可以获得最优解,也可以缩短寻解过程所需的时间。若设置一个低学习率,在获得损失函数最小值的过程中移动步长会变小,这使得训练更加具有可靠性,但是耗费时间长;若设置一个高学习率,移动步长也会相应变大,权重值将会出现明显改变,网络优化过程中损失函数最小值可能会被跳过。此外,设置较高的学习率容易导致训练不收敛。典型的学习率更新方法有分段常数衰减、指数衰减、自然指数衰减、多项式衰减等。
本发明是在均值为1,方差为0.25的高斯函数上随机选取N个值,将决策模块3找到的卷积神经网络的学习率分别与随机选取的N个值相乘,得到N个新的学习率值,再随机分配给卷积神经网络模块1中的N个卷积神经网络继续进行下一次的训练。
下面给出具体实例:
为验证本发明的一种提高网络性能和泛化能力的卷积神经网络拓扑结构的有效性,选取三种最流行的CNN网络,深度残差网络,Lenet-5网络和VggNet网络,在两个公共数据集MNIST和CIFAR-10上进行对比实验。通过使用本发明的网络拓扑结构和不使用本发明的网络拓扑结构两种方法对三种网络进行训练,比较他们的准确率。
1.在MNIST数据集上的性能评估
表1 Lenet5和DTN-Lenet5在不同更新方法下的性能对比
表2 DTN-Lenet5和其他网络的性能对比
2.在CIFAR-10数据集上的性能评估
表3 ResNet和DTN-ResNet在不同更新方法下的性能对比
表4不同网络在数据集CIFAR-10上的性能对比
表格中DTN表示是发明的一种提高网络性能和泛化能力的卷积神经网络拓扑结构。
由以上表格可以看出,不同类型的实验均证明发明的一种提高网络性能和泛化能力的卷积神经网络拓扑结构明显提升了网络的准确率。在不增加网络深度的情况下,发明的一种提高网络性能和泛化能力的卷积神经网络拓扑结构大大丰富了网络的宽度,使得网络获得了更强的泛化能力。
Claims (2)
1.一种提高网络性能和泛化能力的卷积神经网络拓扑结构,有用于分别对增强后的图像数据进行训练的由N个卷积神经网络构成的卷积神经网络模块(1),其特征在于,还包括有:
概率融合模块(2),卷积神经网络模块(1)每次训练结束都输出N个概率矩阵进入概率融合模块(2),所述概率融合模块(2)每次接收到N个概率矩阵后,都要对N个概率矩阵中的相同位置的概率相加,得到一个新矩阵,找出该矩阵中最大概率值,并将当前次的最大概率值与上一次训练结束得到的最大概率值相减,当结果大于设定阈值时,通知卷积神经网络模块(1)进行学习率更新,当结果小于设定阈值时,卷积神经网络模块(1)以当前的学习率继续训练;
决策模块(3),卷积神经网络模块(1)进行学习率更新时,首先分别找出N个卷积神经网络输出的概率矩阵中的最大概率值输出给决策模块(3),所述决策模块(3)在N个最大概率值中找出最大的一个最大概率值所对应的卷积神经网络的学习率;
学习率更新模块(4),在均值为1,方差为0.25的高斯函数上随机选取N个值,将决策模块(3)找到的卷积神经网络的学习率分别与随机选取的N个值相乘,得到N个新的学习率值,再随机分配给卷积神经网络模块(1)中的N个卷积神经网络继续进行下一次的训练。
2.根据权利要求1所述的一种提高网络性能和泛化能力的卷积神经网络拓扑结构,其特征在于,
学习率更新周期为t,每个卷积神经网络输出概率矩阵的最大概率值为预测概率拥有不同学习率的卷积神经网络获得的预测概率值被决策模块(3)用于判别决策,获得最大预测概率值所对应的卷积神经网络的学习率,表示为γ,用ΨN表示决策模块(3)得到:
其中,p(t)表示第t个学习率周期的最大预测概率值,
学习率更新定义如下:
其中,δp (t)=p(t)-p(t-1),Lr新的学习率,为学习率和最大预测概率值之间的映射关系,表示为:
其中Vi={γ1,…,γi}表示一组学习率;
学习率更新定义表明,如果第t个训练周期的准确率减去第t-1个周期的准确率大于设定的阈值θ,则进行学习率的更新,否则不更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910273317.5A CN110097173A (zh) | 2019-04-04 | 2019-04-04 | 一种提高网络性能和泛化能力的卷积神经网络拓扑结构 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910273317.5A CN110097173A (zh) | 2019-04-04 | 2019-04-04 | 一种提高网络性能和泛化能力的卷积神经网络拓扑结构 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110097173A true CN110097173A (zh) | 2019-08-06 |
Family
ID=67444401
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910273317.5A Pending CN110097173A (zh) | 2019-04-04 | 2019-04-04 | 一种提高网络性能和泛化能力的卷积神经网络拓扑结构 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110097173A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113837046A (zh) * | 2021-09-17 | 2021-12-24 | 西北工业大学 | 一种基于迭代特征分布学习的小样本遥感图像场景分类方法 |
-
2019
- 2019-04-04 CN CN201910273317.5A patent/CN110097173A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113837046A (zh) * | 2021-09-17 | 2021-12-24 | 西北工业大学 | 一种基于迭代特征分布学习的小样本遥感图像场景分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108875807B (zh) | 一种基于多注意力多尺度的图像描述方法 | |
CN110458844B (zh) | 一种低光照场景的语义分割方法 | |
CN110097755A (zh) | 基于深度神经网络的高速公路交通流量状态识别方法 | |
CN110298391A (zh) | 一种基于小样本的迭代式增量对话意图类别识别方法 | |
CN108399380A (zh) | 一种基于三维卷积和Faster RCNN的视频动作检测方法 | |
CN108665005B (zh) | 一种利用dcgan提高基于cnn图像识别性能的方法 | |
CN108984745A (zh) | 一种融合多知识图谱的神经网络文本分类方法 | |
CN107392919B (zh) | 基于自适应遗传算法的灰度阈值获取方法、图像分割方法 | |
CN110598598A (zh) | 基于有限样本集的双流卷积神经网络人体行为识别方法 | |
CN107066973A (zh) | 一种利用时空注意力模型的视频内容描述方法 | |
CN110110599B (zh) | 一种基于多尺度特征融合的遥感图像目标检测方法 | |
CN110334580A (zh) | 基于集成增量的动态权重组合的设备故障分类方法 | |
CN104217214A (zh) | 基于可配置卷积神经网络的rgb-d人物行为识别方法 | |
CN102201236A (zh) | 一种高斯混合模型和量子神经网络联合的说话人识别方法 | |
CN111581385A (zh) | 一种不平衡数据采样的中文文本类别识别系统及方法 | |
CN110085218A (zh) | 一种基于特征金字塔网络的音频场景识别方法 | |
CN110059616A (zh) | 基于融合损失函数的行人重识别模型优化方法 | |
CN109214285A (zh) | 基于深度卷积神经网络与长短期记忆网络的摔倒检测方法 | |
CN110929848A (zh) | 基于多挑战感知学习模型的训练、跟踪方法 | |
CN111160163B (zh) | 一种基于区域关系建模和信息融合建模的表情识别方法 | |
CN112686376A (zh) | 一种基于时序图神经网络的节点表示方法及增量学习方法 | |
CN106897744A (zh) | 一种自适应设置深度置信网络参数的方法及系统 | |
CN108875912A (zh) | 一种用于图像识别的神经网络模型 | |
CN111931813A (zh) | 一种基于cnn的宽度学习分类方法 | |
CN112215423A (zh) | 一种基于趋势引导与稀疏交互的行人轨迹预测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190806 |