CN112926727A

CN112926727A - 一种单隐层ReLU神经网络局部极小值的求解方法

Info

Publication number: CN112926727A
Application number: CN202110187212.5A
Authority: CN
Inventors: 刘波; 孙雄飞
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-02-10
Filing date: 2021-02-10
Publication date: 2021-06-08
Anticipated expiration: 2041-02-10
Also published as: CN112926727B

Abstract

一种单隐层ReLU神经网络局部极小值求解方法，属于深度学习理论领域，用于解决ReLU神经网络优化的不确定性的问题，包括构建单隐层ReLU神经网络；利用输入样本和ReLU激活函数的特性进行权值空间区域度划分，并计算每个区域权值和每个样本的点积是否大于0；根据每个区域的权值和样本点积的情况计算每个区域的局部极小值；根据局部极小值的解的情况判断局部极小值的真实性，对于唯一的局部极小值可以直接判断是否与初始化定义区域内的任何点都在每个输入样本的同一侧，对于连续的解可以判断这个连续的解是否在它所定义的区间内，判定的方法是求半平面的交是否为空，对于半平面求交的问题可以转化成凸包问题方便求解。

Description

一种单隐层ReLU神经网络局部极小值的求解方法

技术领域

本发明属于深度学习领域，具体来说是一种单隐层ReLU神经网络局部极小值的求解方法。

背景技术

深度神经网络在许多机器学习任务中取得了巨大的成功，尽管最近有很多的理论贡献来解释他们的成功，但是这在很大程度上还是一个未解之谜，特别是深度神经网络损失函数具有高度的非凸性的情况下，在实践中基于局部搜索的优化方法如梯度下降法却仍然能够取得成功。这说明深层神经网络的损失函数形状必然存在某些有利于梯度下降的特征。因此，了解损失函数是否在某区域存在局部极小值，从而探究深度神经网络的损失函数形状，将大大有助于我们发现这些特征。

而且，基于梯度下降的反向传播算法已经是现在最常用的训练深度神经网络模型的算法，但是在训练模型的过程中，常常会遇到模型已经收敛损失函数的值和模型预测的准确率却根本不符合期望，这种情况说明梯度下降算法遇到了稳定点即梯度为零的点，在稳定点上梯度下降算法是无法继续运行的，这样的话，模型也就会在这个稳定点处收敛，而稳定点有可能是全局极小值点、局部极小值点、或者是鞍点，若模型收敛的点为局部极小值点或者鞍点，肯定是达不到最优的效果，一般遇到这种情况都会选择调整超参数然后重新训练，这样的做法有两大缺点，第一，重新进行训练同样具有不确定性，还是有可能收敛于局部极小值点，第二，重新进行训练会极大的浪费时间和资源。

为了解决这个问题，本专利研究了一种单隐层ReLU神经网络局部极小值的求解方法。我们借鉴了计算几何的思想成功的实现了有效的权值空间区域划分，然后提出一种有效的计算每个区域的局部极小值的算法，并且实现了局部极小值是否真实存在的判定。在训练过程中，如果遇到了模型收敛了但模型的效果不符合预期的情况，可以使用本方法对当前权值所在的区域的局部极小值进行计算并验证是否为真实局部极小值，然后更改某些权值跳出当前区域，就能成功的逃逸局部极小值，从而得到全局最优解。甚至对于不存在局部极小值的模型，可以直接通过本算法计算出局部极小值的位置和大小，这个局部极小值也就是全局极小值，可以直接得到最优的模型，因此，本发明提出的算法可以极大的提高深度神经网络模型训练的确定性和效率，并且为新的优化方向提供了思路，对深度神经网络模型的优化具有重要的意义。

发明内容

本发明提出了一种单隐层ReLU神经网络局部极小值的求解方法，本发明通过输入样本和ReLU函数的特性对权值空间进行区域划分，然后对每个区域的局部极小值进行计算并验证此局部极小值是否真实存在，通过求解每个区域的局部极小值来直接获取最优的解和最优模型的参数。

本发明提出的方法具体技术方案如下：

1、网络的构建：本发明使用的网络是单隐层ReLU神经网络，具有K个具有ReLU激活的隐藏神经元，d个输入神经元和2个输出神经元，损失函数采用的是平方损失函数，所以我们这个单隐层ReLU神经网络的损失函数为：

其中L(z,w)为整个模型的损失函数,z＝{z_k,k∈{1,2,3,…,K}},w＝{w_k,k∈{1,2,3,…K}},[w_j·x_i]₊＝max(0,w_j·x_i)为ReLU函数，z_j为隐藏层到输出层之间的权值，，j∈{1,2,3,…,K}，w_i为输入层到隐藏层之间的权值,i∈{1,2,3,…,K}，N为输入样本个数，K为神经元个数,x_i为第i个样本,y_i为第i个样本的标签。

2、权值空间区域划分：根据输入的样本和ReLU函数的特性，可将权值空间划分为若干个凸的子单元，我们首先计算出每个子单元中I_ij的值，I_ij的值由w_j·x_i决定，若w_j·x_i＞0，I_ij＝1否则I_ij＝0，由于每个子单元都是凸的，在每个子单元中I_ij的值都是恒定的，不会随着w_j在本区域内的移动而改变，因此损失函数在每个子区域内是可微的。但是当w_j从本区域移动到另一个相邻的区域内时，I_ij的值将不再是恒定的，因此在这两个区域的边界上损失函数是不可微的，这种不可微的局部极小值是没有病理意义的，有很多论文对此有过证明。由于每个子单元都是凸的，所以损失函数在每个子单元内的局部极小值就是在这个子单元内的全局极小值。我们可以随机选取某个子单元内的w_j的值用来计算I_ij的值，这个值即可代表此子单元的I_ij的值。

3、局部极小值位置的计算：我们采用的损失函数是平方损失，令R_j＝z_jw_j，那么对神经网络的损失函数来说，各个区域内的局部极小值的解为：

其中R^*为损失函数在本区域的局部极小值解，I_ij的值由w_j·x_i决定，若w_j·x_i＞0，I_ij＝1否则I_ij＝0，w_j为输入层到隐层的第j个权值,R_j＝z_j·w_j，z_j为隐层神经元到输出神经元之间的第j个权值，x_i为第i个样本，y_i为第i个样本的标签。其中

可以重写为：

AR＝y,其中

该问题的一般解可以用A矩阵的Moore-Penrose逆表示：

R^*＝A⁺y+(I-A⁺A)c

其中R^*表示损失函数局部极小值的解，A⁺表示A矩阵的Moore-Penrose逆，c∈R^Kd是一个任意的向量,其中R为实数集合，K表示的是隐藏神经元的个数，d表示的是输入神经元的个数，I为单位矩阵，根据A矩阵的不同情况，解R^*可能是唯一的也有可能是一段连续的无限个解，对于这两种情况在步骤4中都将给出验证是否为真实局部极小值的方法。

4、局部极小值真实性的验证：由于ReLU激活函数的特性，导致第3步计算出来的局部极小值有可能不会落在初始化的子区域内，这种局部极小值是虚假的局部极小值，没有实际意义，因此我们需要验证步骤3所求得的局部极小值是否为真正的局部极小值，验证局部极小值是否真实的的关键就是要验证所求得的局部极小值是否在它初始化定义的区间内，对于唯一的局部极小值解来说，若解存在，则w^*应该位于其初始化定义的区域内，其中w^*为模型的输入层到隐层神经元的权值的解，即w^*与它初始化定义区域内的任何点都在每个输入样本的同一侧，只需判断

是否成立即可,其中i∈{1,2,3,…N},j∈{1,2,3,…,K}，

为本区域的局部极小值第j个权值的解，x_i为第i个样本，I_ij的值由w_j·x_i决定，若w_j·x_i＞0，I_ij＝1否则I_ij＝0，对于R^*是连续的情况，其中R^*为损失函数局部极小值的解，我们需要判断这些连续的解是否在其定义划分区域内，将

代入到上式中可得到：

其中

第i个样本向量的转置，A⁺为A矩阵的Moore-Penrose逆矩阵，y为样本的标签，I为单位矩阵，c∈R^Kd是一个任意的向量。这个式子是关于c的一些半平面，若所有这些半平面的交集若为非空，则代表指定划分区域中的可微局部极小值存在；反之，如果所有半平面的交集若为空，则指定划分区域中的可微局部极小值不存在。

5、使用凸包验证无限解的局部极小值的真实性：对于上述的半平面求交的问题，可以使用传统的求解半平面交的算法—直接增量法来求解，但是直接增量法对于高维样本的情况，时间复杂度会是指数暴增的，所以有限的计算机资源条件下，解决高维样本的情况是难以做到的，我们可以将此问题对偶转为凸包问题求解。

例如图2a中虚线段为这些点集的上凸壳，这个上凸壳是由点集中的部分点之间连接所构成的，对于这些出现在上凸壳中的点来说，应该满足“当且仅当存在一条非垂直线，使得点集中的所有的点都位于它的下边”这个条件，转换到对偶平面这个条件可以转述为：“在某条直线p上存在一个点，使得这个点位于直线集中所有其他直线的下方”，对这个直线集进行了排列之后，这个条件就意味着直线p为该排列中的唯一底单元贡献了一条边，这个底单元就是分别以直线集中所有直线为边界、位于直线下方的所有半平面的公共交集，如图2b所示虚线构成的就是这个排列的底单元也就是这个直线集的下包络。因此，点集的上凸包与对偶平面中的直线集的下包络是完全相对应的，半平面求交集的问题可以对偶转换成凸包问题进行求解，而对应高维的凸包问题现存在完全可行的算法进行求解。

本发明能够预测出局部极小值的位置和大小，并且验证出局部极小值的真实性，这对理解单隐层神经网络损失函数的全局形状具有重要的意义，对于改进基于梯度下降的反向传播算法提供了一个新的理论方向，通过对由样本划分的权值空间子区域的局部极小值的计算和验证，可以直接使用遍历子单元计算局部极小值的方式来对深度神经网络的模型进行优化，从而可以避免传统优化方法中的不确定性。

附图说明

图1是本发明方法流程图

图2a和图2b分别是点集的上凸包与直线集的下包络

图3是权值空间划分的子区域

具体实施方式

本发明使用到的实验环境资源如下所述，使用的操作系统为win10，python版本python3.5，pytorch版本pytorch0.4.1，c++版本c++11，cagl版本，cgal4.14.2等。

具体实施步骤如下：

步骤1：数据准备

本文使用了自制的二维样本和mnist数据集分别作为输入样本进行实验，我采用的二维输入样本为x₁＝(1,0),标签y₁＝1,x₂＝(0,1),标签y₂＝1,x₃＝(1,1),标签y₃＝1总共3个样本，取偏置bias的值为1，对于mnist数据集，采用标签为0和1的所有样本作为输入样本，偏置bias分别设置为-5，0，5。接下来的步骤主要以二维输入样本的实验来进行分析。

步骤2：网络的构建

具体采用的是单隐层ReLU神经网络，隐藏层的神经元个数为1，输入神经元的个数为2，输出神经元个数为2，损失函数为：

其中L(z,w)为整个模型的损失函数,z＝{z_k，k∈{1}},w＝{w_k,k∈{1}},[w_j·x_i]₊＝max(0,w_j·x_i)为ReLU函数，z＝为隐藏层到输出层之间的权值，z_j为输入层到隐藏层之间的权值，N＝3为输入样本个数，K＝1为隐层神经元个数,x_i为第i个样本,y_i为第i个样本的标签。

步骤3：权值空间子区域划分

根据我们的二维输入样本可将权值空间划分成7个凸的子区间，划分子区间可以使用计算几何种的排列算法来实现，使用CGAL库提供的各种函数，实现了根据输入样本构造直线记录，并使用递增式算法构造了直线集对应排列的双向链接边表。根据我们的理论，直线排列算法的预测图如图3所示。接下来我们可以通过遍历双向链接边表从每一个区域划分中抽取样本计算I_ij的所有取值，I_ij的取值方式为若w_j·x_i＞0则I_ij取1，否则I_ij取0，I_ij的所有取值结果如表所示：

步骤4：根据每个子区域I_ij的值计算局部极小值

根据步骤2设置的损失函数

则损失函数取得局部极小值的解为：

其中R^*为损失函数在本区域的局部极小值解，N＝3为输入样本个数，K＝1为隐层神经元个数，I_ij的值由w_j·x_i决定，若w_j·x_i＞0，I_ij＝1否则I_ij＝0，R_j＝z_j·w_j,z_j为隐层神经元到输出神经元之间的第j个权值，w_j为输入层到隐层的第j个权值，x_i为第i个样本，y_i为第i个样本的标签。

这个最小二乘问题可重写为：

AR＝y,其中

AR＝y的一般解为：

R^*＝A⁺y+(I-A⁺A)c，

其中R^*表示损失函数局部极小值的解，A⁺表示A矩阵的Moore-Penrose逆，c是一个任意的2维向量，I为单位矩阵

步骤5：验证唯一解的局部极小值是否真实存在

对于步骤4求出来的局部极小值解R^*＝A⁺y+(I-A⁺A)c，若A矩阵的秩rank(A)＝Kd,其中K＝1,d＝2,这种情况下I-A⁺A＝0，则R^*＝A⁺y，局部极小值是一个单独的点，要验证这个局部极小值的真实性，则需判断w^*是否在其定义的子区间内，即w^*与该区域内的任何点都在每个输入样本的同一侧，这个条件可以描述为：

其中i∈{1,2,3},j∈{1}，因为

根据

的符号的不同，上式可变换成：

所以根据步骤3中求出的I_ij的值和

就能判断出本区域的局部极小值是否真实存在。

步骤6：验证无限解的局部极小值是否真实存在

若A矩阵的秩rank(A)≠Kd,在这种情况下，R^*是有无限解的，将R^*＝A⁺y+(I-A⁺A)c代入到

中去得到：

其中i∈{1,2,3},j∈{1}，由于I₁₂＝1，I₂₂＝1，I₃₂＝0，则我们将得到的半平面不等式组为：

其中c为任意的二维向量，I为单位矩阵，

为样本向量的转置。

这个不等式组中的每一个关于c的不等式都代表了空间中的一个半平面，我们需要获取这些所有半平面的交集的情况来进行下一步的判定。

(1)对于上述的半平面求交集的问题，可以使用带预处理的增量算法来解决，这种算法的主要思路是：首先对所有的半平面进行一次预处理，预处理的操作是计算出所有半平面的极角，对这些半平面按极角大小进行升序排序，然后每次引入一个半平面，对前面所有半平面交得到的图形进行切割，最后将所有的半平面都引入后得到的集合就是所有半平面的交集，判断此交集是否为空就能判定连续的局部极小值是否存在。这种算法的最好的时间复杂度为O(nlog(n))，而且对于高维的情况来说，我们想要找到关于c的不等式的半空间的方向是很难的，因此想要计算出所有的半空间的极角是无法实现的，必须得寻找一种能适用于高维情况的方法来代替这种算法。

(2)对于上述的半平面求交的问题我们可以它转为凸包问题进行求解，由于凸多边形可以由半平面的交集来定义，且凸多胞体同样可以由半空间的交集来定义，所以在数学上可以证明求解半平面的交可以对偶成求解对应凸包问题的上凸壳，对于区域1中的半平面不等式组

来说，我们使用的样本是二维的样本，因此不等式组中的每个半平面都是由二维空间中的直线所划分成的，我们可以将划分半平面的那根直线对偶成二维空间中的点，将直线的斜率k对偶成点的x坐标直线的截距b对偶成点的y坐标，这样就将问题转化成求这三个点的凸包的问题了，使用Jarvis步进法可解决此凸包问题，求得的结果不为空，则判断此区域存在真实的局部极小值。同样，由于高维的凸多胞体同样可以由半空间来定义，所有多对于高维的样本也可以将半空间求交的问题转换成求凸包的问题来进行求解。对于我们输入的样本各个区域的局部极小值的计算情况如下表所示：

由我们的方法可以很快的计算出全局最优解位于区域7，最优的损失函数值为0.111。

对于mnist数据集我们随机选取了100个单元格初始化权值，然后计算每个单元格的局部极小值的位置和验证是否真实存在坏的局部极小，实验结果如下表所示：

偏置	局部极小值存在率	损失函数平均值	神经元激活率
				5	0	0.0035	100％
0	0	0.0028	86％
				-5	1	1	0

在偏置大于0的时候几乎不存在坏的局部极小值，因此通过我们的算法求得的就是全局极小值，将实验得到的权值参数更新到我们的模型然后进行验证，正确率达到了98.3％，获取最优模型花费的时间是5分钟左右，而使用基于梯度下降的反向传播算法要达到同样的效果大概要花十几分钟的训练时间，而且还不包括调参花费的时间，由此可见我们的方法，解决了优化过程中的不确定性的问题，并且能极大的提高训练的效率。

我们提出的损失函数局部极小值求解方法大大的提高了对损失函数全局形状的理解，有助于传统优化算法的进一步改进，可以准确的判定局部极小值的位置和大小，甚至可以摒弃传统的基于梯度下降的反向传播算法，直接使用一种最优的遍历策略来对权值空间进行遍历计算局部极小值的方法来寻找全局最优解。

Claims

1.一种单隐层ReLU神经网络局部极小值的求解方法，其特征在于：

1)、网络的构建：使用的网络是单隐层ReLU神经网络，具有K个具有ReLU激活的隐藏神经元，d个输入神经元和2个输出神经元，损失函数采用的是平方损失函数，所以这个单隐层ReLU神经网络的损失函数为：

其中L(z,w)为整个模型的损失函数,z＝{z_k,k∈{1,2,3,…,K}},w＝{w_k,k∈{1,2,3,…K}},[w_j·x_i]₊＝max(0,w_j·x_i)为ReLU函数，z_j为隐藏层到输出层之间的权值，j∈{1,2,3,…,K}，w_i为输入层到隐藏层之间的权值,i∈{1,2,3,…,K}，N为输入样本个数，K为神经元个数,x_i为第i个样本,y_i为第i个样本的标签；

2)、权值空间区域划分：将权值空间划分为若干个凸的子单元，首先计算出每个子单元中I_ij的值，I_ij的值由w_j·x_i决定，若w_j·x_i＞0，I_ij＝1否则I_ij＝0，由于每个子单元都是凸的，在每个子单元中I_ij的值都是恒定的，不会随着w_j在本区域内的移动而改变，因此损失函数在每个子区域内是可微的；但是当w_j从本区域移动到另一个相邻的区域内时，I_ij的值将不再是恒定的；由于每个子单元都是凸的，所以损失函数在每个子单元内的局部极小值就是在这个子单元内的全局极小值；随机选取某个子单元内的w_j的值用来计算I_ij的值，这个值代表此子单元的I_ij的值；

3)、局部极小值位置的计算：采用的损失函数是平方损失，令R_j＝z_jw_j，那么对神经网络的损失函数来说，各个区域内的局部极小值的解为：

其中R^*为损失函数在本区域的局部极小值解，I_ij的值由w_j·x_i决定，若w_j·x_i＞0，I_ij＝1否则I_ij＝0，w_j为输入层到隐层的第j个权值,R_j＝z_j·w_j，z_j为隐层神经元到输出神经元之间的第j个权值，x_i为第i个样本，y_i为第i个样本的标签；

其中

重写为：

AR＝y,其中

该问题的一般解用A矩阵的Moore-Penrose逆表示：

^*＝A⁺y+(I-A⁺A)c

其中R^*表示损失函数局部极小值的解，A⁺表示A矩阵的Moore-Penrose逆，c∈R^Kd是一个任意的向量,其中R为实数集合，K表示的是隐藏神经元的个数，d表示的是输入神经元的个数，I为单位矩阵，根据A矩阵的不同情况，解R^*可能是唯一的也有可能是一段连续的无限个解，对于这两种情况在步骤4中都将给出验证是否为真实局部极小值的方法；

4)、局部极小值真实性的验证：由于ReLU激活函数的特性，导致第3步计算出来的局部极小值有可能不会落在初始化的子区域内，这种局部极小值是虚假的局部极小值，没有实际意义，因此需要验证步骤3所求得的局部极小值是否为真正的局部极小值，验证局部极小值是否真实的的关键就是要验证所求得的局部极小值是否在它初始化定义的区间内，对于唯一的局部极小值解来说，若解存在，则w^*应该位于其初始化定义的区域内，其中w^*为模型的输入层到隐层神经元的权值的解，即w^*与它初始化定义区域内的任何点都在每个输入样本的同一侧，只需判断

是否成立即可,其中i∈{1,2,3,…N},j∈{1,2,3,…,K}，

为本区域的局部极小值第j个权值的解，x_i为第i个样本，I_ij的值由w_j·x_i决定，若w_j·x_i＞0，I_ij＝1否则I_ij＝0，对于R^*是连续的情况，其中R^*为损失函数局部极小值的解，需要判断这些连续的解是否在其定义划分区域内，将

代入到上式中得到：

其中

第i个样本向量的转置，A⁺为A矩阵的Moore-Penrose逆矩阵，y为样本的标签，I为单位矩阵，c∈R^Kd是一个任意的向量；这个式子是关于c的一些半平面，若所有这些半平面的交集若为非空，则代表指定划分区域中的可微局部极小值存在；反之，如果所有半平面的交集若为空，则指定划分区域中的可微局部极小值不存在；

5)、使用凸包验证无限解的局部极小值的真实性：

点集的上凸包与对偶平面中的直线集的下包络是完全相对应的，半平面求交集的问题对偶转换成凸包问题进行求解。