CN108256630A

CN108256630A - 一种基于低维流形正则化神经网络的过拟合解决方法

Info

Publication number: CN108256630A
Application number: CN201810065330.7A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2018-01-23
Filing date: 2018-01-23
Publication date: 2018-07-06

Abstract

本发明中提出的一种基于低维流形正则化神经网络的过拟合解决方法，其主要内容包括：目标模型定义、过拟合解决框架、模型参数求解、模型参数更新，其过程为，对目标模型进行限制性定义，包括数据集与其标签、平均损失函数；然后提出一个解决过拟合现象的框架，在限制性条件下使用基于正则化和轻量化的方法求解网络参数，提出一个双向噪声变量来增强学习能力和鲁棒性；根据得到的网络参数集，分别使用基于反向传播和点积分的方法更新网络权重和协调函数，最终得到训练最优解。本发明可以提供针对深度神经网络中训练结果无解、局部最优解以及过拟合现象的解决方案，通过适当方法减少对计算资源的需求，提高实际应用计算的效率。

Description

一种基于低维流形正则化神经网络的过拟合解决方法

技术领域

本发明涉及神经网络计算领域，尤其是涉及了一种基于低维流形正则化神经网络的过拟合解决方法。

背景技术

深度神经网络的出现，大大加速了人工智能领域的变革速度。作为一个十余年来快速发展的崭新领域，深度学习受到了越来越多研究者的关注，它在特征提取和建模上都有着相较于浅层模型显然的优势。深度学习善于从原始输入数据中挖掘越来越抽象的特征表示，而这些表示具有良好的泛化能力。深度神经网络的应用非常具有基层性，它克服了过去人工智能中被认为难以解决的一些问题。且随着训练数据集数量的显著增长以及芯片处理能力的剧增，它在目标检测和计算机视觉、自然语言处理、语音识别和语义分析等领域成效卓然，因此也促进了人工智能的发展。深度学习是包含多级非线性变换的层级机器学习方法，深层神经网络是目前的主要形式，其神经元间的连接模式受启发于动物视觉皮层组织，而深度神经网络则是其中一种经典而广泛应用的结构。深度神经网络的局部连接、权值共享及池化操作等特性使之可以有效地降低网络的复杂度，减少训练参数的数目，使模型对平移、扭曲、缩放具有一定程度的不变性，并具有强鲁棒性和容错能力，且也易于训练和优化。基于这些优越的特性，它在各种信号和信息处理任务中的性能优于标准的全连接神经网络。然而，目前优秀的深度学习方法或多或少面临过拟合的问题(即平均损失函数的值在训练集处于较低水平，而在测试集上处于较高水平)，制约了深度神经网络提取特征的能力，并且面对输入数据源有一定量改动的情况，不具有泛化的性能。

本发明中提出了一种基于低维流形正则化神经网络的过拟合解决方法，首先对目标模型进行限制性定义，包括数据集与其标签、平均损失函数；然后提出一个解决过拟合现象的框架，在限制性条件下使用基于正则化和轻量化的方法求解网络参数，提出一个双向噪声变量来增强学习能力和鲁棒性；根据得到的网络参数集，分别使用基于反向传播和点积分的方法更新网络权重和协调函数，最终得到训练最优解。本发明可以提供针对深度神经网络中训练结果无解、局部最优解以及过拟合现象的解决方案，通过适当方法减少对计算资源的需求，提高实际应用计算的效率。

发明内容

针对解决神经网络中出现过拟合现象的问题，本发明的目的在于提供一种基于低维流形正则化神经网络的过拟合解决方法，首先对目标模型进行限制性定义，包括数据集与其标签、平均损失函数；然后提出一个解决过拟合现象的框架，在限制性条件下使用基于正则化和轻量化的方法求解网络参数，提出一个双向噪声变量来增强学习能力和鲁棒性；根据得到的网络参数集，分别使用基于反向传播和点积分的方法更新网络权重和协调函数，最终得到训练最优解。

为解决上述问题，本发明提供一种基于低维流形正则化神经网络的过拟合解决方法，其主要内容包括：

(一)目标模型定义；

(二)过拟合解决框架；

(三)模型参数求解；

(四)模型参数更新。

其中，所述的目标模型定义，使用深度神经网络按以下三个步骤进行K分类问题，具体为：

1)定义为带标签的训练数据集(其中d₁表示数据集的维度)，θ为网络权重集合；对于每个数据点x_i及其标签y_i∈{1,…,K}，网络最开始学习到的特征定义为其中d₂表示特征集的维度；

2)使用softmax分类器对x_i计算每一类标签的概率，得到概率分布；

3)根据步骤2)得到概率最高的一类标签被视为单个数据点x_i的分类结果y_i，计算其负对数作为softmax损失函数再统计所有数据点的softmax损失函数并取其均值J(θ)作为整个网络的损失函数，来调节网络权重θ：

其中N为数据点x_i的总数量。

所述的过拟合解决框架，用低维度的流形数据形式来表征稀疏的数据源，以避免在训练过程中出现过拟合现象(即平均损失函数的值在训练集处于较低水平，而在测试集上处于较高水平)，由此提出限制条件：

1)在数据源上进行定量改动不会引起已经提取特征ξ的剧烈变化；

2)数据源和特征ξ进行合并，能够表征低维流形数据其中d＝d₁+d₂表示合并和数据流维度，是fθ关于的曲线；

在上述限制条件下，使用可变形式的正则化方法和轻量化方法减少过拟合现象。

所述的正则化方法，通过最小化的维度得到最优损失函数J(θ)，具体为：

其约束条件为

公式(2)中，表示任意变量的流形数据，表示其幅值。

所述的轻量化方法，令作为平滑的子流形数据用同分异构的方式嵌入空间对任意有

其中，α_i(p)＝p_i是协调函数，是指对流形数据进行求导运算，由此，

公式(2)可由更轻量化的形式表示：

其中指对局部维度进行L1范数计算，λ为控制系数。

所述的模型参数求解，对θ和给定的如果在第k步时满足则在第k+1步时有具体求解参数为学习所得特征的协调函数

其中，权重集合的迭代过程为：

其中，μ为比例系数，Z_i为双向噪声变量。

所述的双向噪声变量，用于扰动协调函数，以适应输入数据为固定值的情况，增强网络学习能力与鲁棒性，具体迭代过程为：

其中，α_ζ为学习所得特征的协调函数。

模型参数更新，包括基于反向传播的网络权重更新和基于点积分的协调函数更新。

网络权重更新，根据公式(6)定义反向传播能量项E_i(θ)，具体为：

则公式(6)的求解目标函数为：

对公式(9)中的权重系数求导，可得到反向传播的迭代训练，具体为：

这种随机梯度更新的方法可降低计算资源的占用。

协调函数更新，对公式(5)进行解耦合处理，根据变量j来更新每个协调函数αj_：

其中，u＝α_j，

附图说明

图1是本发明一种基于低维流形正则化神经网络的过拟合解决方法的框架图。

图2是本发明一种基于低维流形正则化神经网络的过拟合解决方法的训练结果比较图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于低维流形正则化神经网络的过拟合解决方法的框架图。主要包括目标模型定义；过拟合解决框架；模型参数求解；模型参数更新。

目标模型定义，使用深度神经网络按以下三个步骤进行K分类问题，具体为：

1)定义为带标签的训练数据集(其中d₁表示数据集的维度)，θ为网络权重集合；对于每个数据点x_i及其标签y_i∈{1，...，K}，网络最开始学习到的特征定义为其中d₂表示特征集的维度；

3)根据步骤2)得到概率最高的一类标签被视为单个数据点x_i的分类结果y_i，计算其负对数作为softmax损失函数l(fθ(x_i)，y_i)；再统计所有数据点的softmax损失函数并取其均值J(θ)作为整个网络的损失函数，来调节网络权重θ：

其中N为数据点x_i的总数量。

过拟合解决框架，用低维度的流形数据形式来表征稀疏的数据源，以避免在训练过程中出现过拟合现象(即平均损失函数的值在训练集处于较低水平，而在测试集上处于较高水平)，由此提出限制条件：

2)数据源和特征ξ进行合并，能够表征低维流形数据其中d＝d₁+d₂表示合并和数据流维度，是f_θ关于N_l的曲线；

正则化方法，通过最小化的维度得到最优损失函数J(θ)，具体为：

其约束条件为

公式(2)中，表示任意变量的流形数据，表示其幅值。

轻量化方法，令作为平滑的子流形数据用同分异构的方式嵌入空间对任意有

公式(2)可由更轻量化的形式表示：

其中指对局部维度进行L1范数计算，λ为控制系数。

模型参数求解，对θ和给定的(θ^k，M^k)如果在第k步时满足则在第k+1步时有具体求解参数为学习所得特征的协调函数

其中，权重集合的迭代过程为：

其中，μ为比例系数，Z_i为双向噪声变量。

双向噪声变量，用于扰动协调函数，以适应输入数据为固定值的情况，增强网络学习能力与鲁棒性，具体迭代过程为：

其中，α_ζ为学习所得特征的协调函数。

则公式(6)的求解目标函数为：

这种随机梯度更新的方法可降低计算资源的占用。

协调函数更新，对公式(5)进行解耦合处理，根据变量j来更新每个协调函数α_j：

其中，u＝α_j，

图2是本发明一种基于低维流形正则化神经网络的过拟合解决方法的训练结果比较图。如图所示为数据源分类的可视化过程，为了更直观地感受到不同方法的效果对比程度；图中左一代表数据源，有许多颜色深浅不同的点聚合组成，目标任务就在于在这堆数据中分出不同类别的数据，可以看出，本文的方法远比其他两种主流方法的分类效果要好。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于低维流形正则化神经网络的过拟合解决方法，其特征在于，主要包括目标模型定义(一)；过拟合解决框架(二)；模型参数求解(三)；模型参数更新(四)。

2.基于权利要求书1所述的目标模型定义(一)，其特征在于，使用深度神经网络按以下三个步骤进行K分类问题，具体为：

其中N为数据点x_i的总数量。

3.基于权利要求书1所述的过拟合解决框架(二)，其特征在于，用低维度的流形数据形式来表征稀疏的数据源，以避免在训练过程中出现过拟合现象(即平均损失函数的值在训练集处于较低水平，而在测试集上处于较高水平)，由此提出限制条件：

2)数据源和特征ξ进行合并，能够表征低维流形数据其中d＝d₁+d₂表示合并和数据流维度，是f_θ关于的曲线；

4.基于权利要求书3所述的正则化方法，其特征在于，通过最小化的维度得到最优损失函数J(θ)，具体为：

其约束条件为

公式(2)中，表示任意变量的流形数据，表示其幅值。

5.基于权利要求书3所述的轻量化方法，其特征在于，令作为平滑的子流形数据用同分异构的方式嵌入空间对任意有

公式(2)可由更轻量化的形式表示：

其中指对局部维度进行L1范数计算，λ为控制系数。

6.基于权利要求书1所述的模型参数求解(三)，其特征在于，对θ和给定的如果在第k步时满足则在第k+1步时有具体求解参数为学习所得特征的协调函数

其中，权重集合的迭代过程为：

其中，μ为比例系数，Z_i为双向噪声变量。

7.基于权利要求书6所述的双向噪声变量，其特征在于，用于扰动协调函数，以适应输入数据为固定值的情况，增强网络学习能力与鲁棒性，具体迭代过程为：

其中，α_ξ为学习所得特征的协调函数。

8.基于权利要求书1所述的模型参数更新(四)，其特征在于，包括基于反向传播的网络权重更新和基于点积分的协调函数更新。

9.基于权利要求书8所述的网络权重更新，其特征在于，根据公式(6)定义反向传播能量项E_i(θ)，具体为：

则公式(6)的求解目标函数为：

这种随机梯度更新的方法可降低计算资源的占用。

10.基于权利要求书8所述的协调函数更新，其特征在于，对公式(5)进行解耦合处理，根据变量j来更新每个协调函数α_j：

其中，u＝α_j，