CN108256630A - 一种基于低维流形正则化神经网络的过拟合解决方法 - Google Patents
一种基于低维流形正则化神经网络的过拟合解决方法 Download PDFInfo
- Publication number
- CN108256630A CN108256630A CN201810065330.7A CN201810065330A CN108256630A CN 108256630 A CN108256630 A CN 108256630A CN 201810065330 A CN201810065330 A CN 201810065330A CN 108256630 A CN108256630 A CN 108256630A
- Authority
- CN
- China
- Prior art keywords
- over
- data
- fitting
- network
- solution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明中提出的一种基于低维流形正则化神经网络的过拟合解决方法,其主要内容包括:目标模型定义、过拟合解决框架、模型参数求解、模型参数更新,其过程为,对目标模型进行限制性定义,包括数据集与其标签、平均损失函数;然后提出一个解决过拟合现象的框架,在限制性条件下使用基于正则化和轻量化的方法求解网络参数,提出一个双向噪声变量来增强学习能力和鲁棒性;根据得到的网络参数集,分别使用基于反向传播和点积分的方法更新网络权重和协调函数,最终得到训练最优解。本发明可以提供针对深度神经网络中训练结果无解、局部最优解以及过拟合现象的解决方案,通过适当方法减少对计算资源的需求,提高实际应用计算的效率。
Description
技术领域
本发明涉及神经网络计算领域,尤其是涉及了一种基于低维流形正则化神经网络的过拟合解决方法。
背景技术
深度神经网络的出现,大大加速了人工智能领域的变革速度。作为一个十余年来快速发展的崭新领域,深度学习受到了越来越多研究者的关注,它在特征提取和建模上都有着相较于浅层模型显然的优势。深度学习善于从原始输入数据中挖掘越来越抽象的特征表示,而这些表示具有良好的泛化能力。深度神经网络的应用非常具有基层性,它克服了过去人工智能中被认为难以解决的一些问题。且随着训练数据集数量的显著增长以及芯片处理能力的剧增,它在目标检测和计算机视觉、自然语言处理、语音识别和语义分析等领域成效卓然,因此也促进了人工智能的发展。深度学习是包含多级非线性变换的层级机器学习方法,深层神经网络是目前的主要形式,其神经元间的连接模式受启发于动物视觉皮层组织,而深度神经网络则是其中一种经典而广泛应用的结构。深度神经网络的局部连接、权值共享及池化操作等特性使之可以有效地降低网络的复杂度,减少训练参数的数目,使模型对平移、扭曲、缩放具有一定程度的不变性,并具有强鲁棒性和容错能力,且也易于训练和优化。基于这些优越的特性,它在各种信号和信息处理任务中的性能优于标准的全连接神经网络。然而,目前优秀的深度学习方法或多或少面临过拟合的问题(即平均损失函数的值在训练集处于较低水平,而在测试集上处于较高水平),制约了深度神经网络提取特征的能力,并且面对输入数据源有一定量改动的情况,不具有泛化的性能。
本发明中提出了一种基于低维流形正则化神经网络的过拟合解决方法,首先对目标模型进行限制性定义,包括数据集与其标签、平均损失函数;然后提出一个解决过拟合现象的框架,在限制性条件下使用基于正则化和轻量化的方法求解网络参数,提出一个双向噪声变量来增强学习能力和鲁棒性;根据得到的网络参数集,分别使用基于反向传播和点积分的方法更新网络权重和协调函数,最终得到训练最优解。本发明可以提供针对深度神经网络中训练结果无解、局部最优解以及过拟合现象的解决方案,通过适当方法减少对计算资源的需求,提高实际应用计算的效率。
发明内容
针对解决神经网络中出现过拟合现象的问题,本发明的目的在于提供一种基于低维流形正则化神经网络的过拟合解决方法,首先对目标模型进行限制性定义,包括数据集与其标签、平均损失函数;然后提出一个解决过拟合现象的框架,在限制性条件下使用基于正则化和轻量化的方法求解网络参数,提出一个双向噪声变量来增强学习能力和鲁棒性;根据得到的网络参数集,分别使用基于反向传播和点积分的方法更新网络权重和协调函数,最终得到训练最优解。
为解决上述问题,本发明提供一种基于低维流形正则化神经网络的过拟合解决方法,其主要内容包括:
(一)目标模型定义;
(二)过拟合解决框架;
(三)模型参数求解;
(四)模型参数更新。
其中,所述的目标模型定义,使用深度神经网络按以下三个步骤进行K分类问题,具体为:
1)定义为带标签的训练数据集(其中d1表示数据集的维度),θ为网络权重集合;对于每个数据点xi及其标签yi∈{1,…,K},网络最开始学习到的特征定义为其中d2表示特征集的维度;
2)使用softmax分类器对xi计算每一类标签的概率,得到概率分布;
3)根据步骤2)得到概率最高的一类标签被视为单个数据点xi的分类结果yi,计算其负对数作为softmax损失函数再统计所有数据点的softmax损失函数并取其均值J(θ)作为整个网络的损失函数,来调节网络权重θ:
其中N为数据点xi的总数量。
所述的过拟合解决框架,用低维度的流形数据形式来表征稀疏的数据源,以避免在训练过程中出现过拟合现象(即平均损失函数的值在训练集处于较低水平,而在测试集上处于较高水平),由此提出限制条件:
1)在数据源上进行定量改动不会引起已经提取特征ξ的剧烈变化;
2)数据源和特征ξ进行合并,能够表征低维流形数据其中d=d1+d2表示合并和数据流维度,是fθ关于的曲线;
在上述限制条件下,使用可变形式的正则化方法和轻量化方法减少过拟合现象。
所述的正则化方法,通过最小化的维度得到最优损失函数J(θ),具体为:
其约束条件为
公式(2)中,表示任意变量的流形数据,表示其幅值。
所述的轻量化方法,令作为平滑的子流形数据用同分异构的方式嵌入空间对任意有
其中,αi(p)=pi是协调函数,是指对流形数据进行求导运算,由此,
公式(2)可由更轻量化的形式表示:
其中指对局部维度进行L1范数计算,λ为控制系数。
所述的模型参数求解,对θ和给定的如果在第k步时满足则在第k+1步时有具体求解参数为学习所得特征的协调函数
其中,权重集合的迭代过程为:
其中,μ为比例系数,Zi为双向噪声变量。
所述的双向噪声变量,用于扰动协调函数,以适应输入数据为固定值的情况,增强网络学习能力与鲁棒性,具体迭代过程为:
其中,αζ为学习所得特征的协调函数。
模型参数更新,包括基于反向传播的网络权重更新和基于点积分的协调函数更新。
网络权重更新,根据公式(6)定义反向传播能量项Ei(θ),具体为:
则公式(6)的求解目标函数为:
对公式(9)中的权重系数求导,可得到反向传播的迭代训练,具体为:
这种随机梯度更新的方法可降低计算资源的占用。
协调函数更新,对公式(5)进行解耦合处理,根据变量j来更新每个协调函数αj:
其中,u=αj,
附图说明
图1是本发明一种基于低维流形正则化神经网络的过拟合解决方法的框架图。
图2是本发明一种基于低维流形正则化神经网络的过拟合解决方法的训练结果比较图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
图1是本发明一种基于低维流形正则化神经网络的过拟合解决方法的框架图。主要包括目标模型定义;过拟合解决框架;模型参数求解;模型参数更新。
目标模型定义,使用深度神经网络按以下三个步骤进行K分类问题,具体为:
1)定义为带标签的训练数据集(其中d1表示数据集的维度),θ为网络权重集合;对于每个数据点xi及其标签yi∈{1,...,K},网络最开始学习到的特征定义为其中d2表示特征集的维度;
2)使用softmax分类器对xi计算每一类标签的概率,得到概率分布;
3)根据步骤2)得到概率最高的一类标签被视为单个数据点xi的分类结果yi,计算其负对数作为softmax损失函数l(fθ(xi),yi);再统计所有数据点的softmax损失函数并取其均值J(θ)作为整个网络的损失函数,来调节网络权重θ:
其中N为数据点xi的总数量。
过拟合解决框架,用低维度的流形数据形式来表征稀疏的数据源,以避免在训练过程中出现过拟合现象(即平均损失函数的值在训练集处于较低水平,而在测试集上处于较高水平),由此提出限制条件:
1)在数据源上进行定量改动不会引起已经提取特征ξ的剧烈变化;
2)数据源和特征ξ进行合并,能够表征低维流形数据其中d=d1+d2表示合并和数据流维度,是fθ关于Nl的曲线;
在上述限制条件下,使用可变形式的正则化方法和轻量化方法减少过拟合现象。
正则化方法,通过最小化的维度得到最优损失函数J(θ),具体为:
其约束条件为
公式(2)中,表示任意变量的流形数据,表示其幅值。
轻量化方法,令作为平滑的子流形数据用同分异构的方式嵌入空间对任意 有
其中,αi(p)=pi是协调函数,是指对流形数据进行求导运算,由此,
公式(2)可由更轻量化的形式表示:
其中指对局部维度进行L1范数计算,λ为控制系数。
模型参数求解,对θ和给定的(θk,Mk)如果在第k步时满足则在第k+1步时有具体求解参数为学习所得特征的协调函数
其中,权重集合的迭代过程为:
其中,μ为比例系数,Zi为双向噪声变量。
双向噪声变量,用于扰动协调函数,以适应输入数据为固定值的情况,增强网络学习能力与鲁棒性,具体迭代过程为:
其中,αζ为学习所得特征的协调函数。
模型参数更新,包括基于反向传播的网络权重更新和基于点积分的协调函数更新。
网络权重更新,根据公式(6)定义反向传播能量项Ei(θ),具体为:
则公式(6)的求解目标函数为:
对公式(9)中的权重系数求导,可得到反向传播的迭代训练,具体为:
这种随机梯度更新的方法可降低计算资源的占用。
协调函数更新,对公式(5)进行解耦合处理,根据变量j来更新每个协调函数αj:
其中,u=αj,
图2是本发明一种基于低维流形正则化神经网络的过拟合解决方法的训练结果比较图。如图所示为数据源分类的可视化过程,为了更直观地感受到不同方法的效果对比程度;图中左一代表数据源,有许多颜色深浅不同的点聚合组成,目标任务就在于在这堆数据中分出不同类别的数据,可以看出,本文的方法远比其他两种主流方法的分类效果要好。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
Claims (10)
1.一种基于低维流形正则化神经网络的过拟合解决方法,其特征在于,主要包括目标模型定义(一);过拟合解决框架(二);模型参数求解(三);模型参数更新(四)。
2.基于权利要求书1所述的目标模型定义(一),其特征在于,使用深度神经网络按以下三个步骤进行K分类问题,具体为:
1)定义为带标签的训练数据集(其中d1表示数据集的维度),θ为网络权重集合;对于每个数据点xi及其标签yi∈{1,…,K},网络最开始学习到的特征定义为其中d2表示特征集的维度;
2)使用softmax分类器对xi计算每一类标签的概率,得到概率分布;
3)根据步骤2)得到概率最高的一类标签被视为单个数据点xi的分类结果yi,计算其负对数作为softmax损失函数再统计所有数据点的softmax损失函数并取其均值J(θ)作为整个网络的损失函数,来调节网络权重θ:
其中N为数据点xi的总数量。
3.基于权利要求书1所述的过拟合解决框架(二),其特征在于,用低维度的流形数据形式来表征稀疏的数据源,以避免在训练过程中出现过拟合现象(即平均损失函数的值在训练集处于较低水平,而在测试集上处于较高水平),由此提出限制条件:
1)在数据源上进行定量改动不会引起已经提取特征ξ的剧烈变化;
2)数据源和特征ξ进行合并,能够表征低维流形数据其中d=d1+d2表示合并和数据流维度,是fθ关于的曲线;
在上述限制条件下,使用可变形式的正则化方法和轻量化方法减少过拟合现象。
4.基于权利要求书3所述的正则化方法,其特征在于,通过最小化的维度得到最优损失函数J(θ),具体为:
其约束条件为
公式(2)中,表示任意变量的流形数据,表示其幅值。
5.基于权利要求书3所述的轻量化方法,其特征在于,令作为平滑的子流形数据用同分异构的方式嵌入空间对任意有
其中,αi(p)=pi是协调函数,是指对流形数据进行求导运算,由此,
公式(2)可由更轻量化的形式表示:
其中指对局部维度进行L1范数计算,λ为控制系数。
6.基于权利要求书1所述的模型参数求解(三),其特征在于,对θ和给定的如果在第k步时满足则在第k+1步时有具体求解参数为学习所得特征的协调函数
其中,权重集合的迭代过程为:
其中,μ为比例系数,Zi为双向噪声变量。
7.基于权利要求书6所述的双向噪声变量,其特征在于,用于扰动协调函数,以适应输入数据为固定值的情况,增强网络学习能力与鲁棒性,具体迭代过程为:
其中,αξ为学习所得特征的协调函数。
8.基于权利要求书1所述的模型参数更新(四),其特征在于,包括基于反向传播的网络权重更新和基于点积分的协调函数更新。
9.基于权利要求书8所述的网络权重更新,其特征在于,根据公式(6)定义反向传播能量项Ei(θ),具体为:
则公式(6)的求解目标函数为:
对公式(9)中的权重系数求导,可得到反向传播的迭代训练,具体为:
这种随机梯度更新的方法可降低计算资源的占用。
10.基于权利要求书8所述的协调函数更新,其特征在于,对公式(5)进行解耦合处理,根据变量j来更新每个协调函数αj:
其中,u=αj,
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810065330.7A CN108256630A (zh) | 2018-01-23 | 2018-01-23 | 一种基于低维流形正则化神经网络的过拟合解决方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810065330.7A CN108256630A (zh) | 2018-01-23 | 2018-01-23 | 一种基于低维流形正则化神经网络的过拟合解决方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108256630A true CN108256630A (zh) | 2018-07-06 |
Family
ID=62742123
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810065330.7A Withdrawn CN108256630A (zh) | 2018-01-23 | 2018-01-23 | 一种基于低维流形正则化神经网络的过拟合解决方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108256630A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109271202A (zh) * | 2018-09-28 | 2019-01-25 | 何安平 | 一种异步Softmax硬件加速方法及加速器 |
CN109872291A (zh) * | 2019-02-21 | 2019-06-11 | 中国科学技术大学 | 一种对抗ann中汇聚噪声的正则化方法及系统 |
CN111382834A (zh) * | 2018-12-29 | 2020-07-07 | 杭州海康威视数字技术股份有限公司 | 一种置信度比较方法及装置 |
CN112927013A (zh) * | 2021-02-24 | 2021-06-08 | 国网电子商务有限公司 | 一种资产价值预测模型构建方法、资产价值预测方法 |
WO2021129668A1 (zh) * | 2019-12-24 | 2021-07-01 | 华为技术有限公司 | 训练神经网络的方法和装置 |
CN113841157A (zh) * | 2019-05-23 | 2021-12-24 | 渊慧科技有限公司 | 通过使用局部线性度正则化训练更安全的神经网络 |
-
2018
- 2018-01-23 CN CN201810065330.7A patent/CN108256630A/zh not_active Withdrawn
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109271202A (zh) * | 2018-09-28 | 2019-01-25 | 何安平 | 一种异步Softmax硬件加速方法及加速器 |
CN109271202B (zh) * | 2018-09-28 | 2023-01-10 | 何安平 | 一种异步Softmax硬件加速方法及加速器 |
CN111382834A (zh) * | 2018-12-29 | 2020-07-07 | 杭州海康威视数字技术股份有限公司 | 一种置信度比较方法及装置 |
CN111382834B (zh) * | 2018-12-29 | 2023-09-29 | 杭州海康威视数字技术股份有限公司 | 一种置信度比较方法及装置 |
CN109872291A (zh) * | 2019-02-21 | 2019-06-11 | 中国科学技术大学 | 一种对抗ann中汇聚噪声的正则化方法及系统 |
CN113841157A (zh) * | 2019-05-23 | 2021-12-24 | 渊慧科技有限公司 | 通过使用局部线性度正则化训练更安全的神经网络 |
WO2021129668A1 (zh) * | 2019-12-24 | 2021-07-01 | 华为技术有限公司 | 训练神经网络的方法和装置 |
CN112927013A (zh) * | 2021-02-24 | 2021-06-08 | 国网电子商务有限公司 | 一种资产价值预测模型构建方法、资产价值预测方法 |
CN112927013B (zh) * | 2021-02-24 | 2023-11-10 | 国网数字科技控股有限公司 | 一种资产价值预测模型构建方法、资产价值预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108256630A (zh) | 一种基于低维流形正则化神经网络的过拟合解决方法 | |
US20210042580A1 (en) | Model training method and apparatus for image recognition, network device, and storage medium | |
An improved emperor penguin optimization based multilevel thresholding for color image segmentation | ||
Eigen et al. | Nonparametric image parsing using adaptive neighbor sets | |
CN109948149B (zh) | 一种文本分类方法及装置 | |
CN109255340A (zh) | 一种融合多种改进vgg网络的人脸识别方法 | |
CN108648191A (zh) | 基于贝叶斯宽度残差神经网络的害虫图像识别方法 | |
CN114841257B (zh) | 一种基于自监督对比约束下的小样本目标检测方法 | |
CN108776812A (zh) | 基于非负矩阵分解和多样-一致性的多视图聚类方法 | |
CN107301221A (zh) | 一种多特征维度堆融合的数据挖掘方法 | |
CN109993100A (zh) | 基于深层特征聚类的人脸表情识别的实现方法 | |
Myronenko et al. | Accounting for dependencies in deep learning based multiple instance learning for whole slide imaging | |
CN108647736A (zh) | 一种基于感知损失和匹配注意力机制的图像分类方法 | |
Zeng et al. | CNN model design of gesture recognition based on tensorflow framework | |
CN111292195A (zh) | 风险账户的识别方法及装置 | |
Zheng et al. | Rethinking the Role of Activation Functions in Deep Convolutional Neural Networks for Image Classification. | |
CN107292097A (zh) | 基于特征组的特征选择方法、及中医主症选择方法 | |
CN110276248A (zh) | 一种基于样本权值分配和深度学习的人脸表情识别方法 | |
CN110188673A (zh) | 表情识别方法和装置 | |
CN109034281A (zh) | 加速基于卷积神经网络的中文手写体识别的方法 | |
CN108154156A (zh) | 基于神经主题模型的图像集成分类方法及装置 | |
Xu et al. | Constructing balance from imbalance for long-tailed image recognition | |
CN107392155A (zh) | 基于多目标优化的稀疏受限玻尔兹曼机的手写体识别方法 | |
CN104573726B (zh) | 基于四等分及各成分重构误差最优组合的人脸图像识别方法 | |
CN113989256A (zh) | 遥感图像建筑物的检测模型优化方法及检测方法、装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20180706 |