CN111488967A

CN111488967A - 一种梯度下降算法的差异可视分析方法

Info

Publication number: CN111488967A
Application number: CN202010119920.0A
Authority: CN
Inventors: 孙国道; 付伟胜; 厉栋; 蒋莉
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-02-26
Filing date: 2020-02-26
Publication date: 2020-08-04

Abstract

一种梯度下降算法的差异可视分析方法，包括以下步骤：采用梯度下降算法对线性回归数据集进行训练，提取训练过程中的特征向量，并且得到最优线性回归系数。运用可视化技术对上面提取的特征向量进行可视分析，通过热力图来展示梯度下降算法对多个模型的训练结果，采用线性拟合和误差曲线协助用户直观地认识梯度下降算法，运用矩阵图来进行横向和纵向比较，以此来帮助用户理解梯度下降算法，了解学习率或动量的变化给最后的结果带来的影响，利用利用散点矩阵图来探索每个模型中不同特征参数之间的关联性。通过以上步骤帮助深度学习初学者理解梯度下降算法的工作原理，并且帮助他们掌握并且熟练使用不同的梯度下降算法，以及明白它们的差异性。

Description

一种梯度下降算法的差异可视分析方法

技术领域

本发明涉及一种梯度下降算法的差异可视分析方法。

背景技术

近几年，人工智能在各领域的应用伴随计算机相关技术的迅猛发展，都取得了丰厚的成果。比如：基于深度学习的人脸识别、语音识别和语言处理应用程序等，给人们的生活带来了许多便利，也得到了更多学者、企业的关注。

深度学习作为一项核心技术，在视频、医疗、金融、无人驾驶等行业都有相应的运用，但是面对众多的深度学习算法，我们应该怎么选择呢？面对这些深度学习算法给出的结果，我们应该怎么解释呢？我们怎样才能改善这些结果呢？

深度学习在各个领域的成功应用一方面是计算机硬件设备的迅猛发展(GPU)和大数据的支持，另一个方面则是神经网络模型结构的建立和不同优化算法之间的选择以及超参数的设置，所以，神经网络的优化问题一直被学术界广泛的关注，并成为一个非常重要的课题。

优化算法的选择和超参数值的设置，对神经网络的性能有着至关重要的作用。在很多深度学习模型训练到最后都变成求解最优化问题。在各种最优化算法中，梯度下降法是最简单、最常见的一种，它要解决的问题是帮我们找到一个近似最优解，并确定这个最优解是否有效，这是我们在深度网络中需要解决的最基本问题也是至关重要的一个问题。在很多预测算法中，如线性回归，经常使用梯度下降算法来进行迭代使得误差函数的误差值尽可能小，这个时候学习率，动量等超参数的选择就十分重要，如果你对算法的原理不理解，你可能很难较快的选择到合适的学习率，所以对梯度下降优化算法的原理进行可解释性分析就至关重要。

梯度下降算法的核心思想是通过迭代逼近最小偏差从而得出最优路径，但是传统的梯度下降算法的训练效果并不理想、不能满足人们的需求，因此，很多学者对梯度下降算法做了改进，梯度下降算法经历了几个阶段：传统梯度下降算法到批量梯度下降算法、小批量梯度下降算法、随机梯度下降算法；在随机梯度下降算法的基础上，又进行一系列的改进，产生一系列的变种算法，如Momentum、NAG、Adagrad、Adadelta、RMSProp、Adam等等。虽然谷歌、脸书、微软、亚马逊等公司开发的深度学习库中都包含了各种梯度下降算法的实现(例如Tensorflow，Cafe，Keras等等)，但是这些库里的优化算法通常作为黑盒优化器使用，没有对各种梯度下降算法的优点、缺点、影响因素以及差异性给出可解释性分析，所以我们很有必要去了解梯度下降算法的工作原理，熟知不同梯度下降算法之间的区别，并能够根据它们各自的优缺点选择最合适的方法和参数来应用于相应的场景。

发明内容

为了帮助深度学习初学者理解梯度下降算法的工作原理，并且帮助他们掌握并且熟练使用不同的梯度下降算法，以及明白它们的差异性，本发明提供了一种梯度下降优化算法的差异可视分析方法。

为了解决上述技术问题，本发明提供如下的技术方案：

一种梯度下降算法的差异可视分析方法，所述方法包括以下步骤：

1)采用梯度下降算法对线性回归数据集进行训练，提取训练过程中的特征向量，并且得到最优线性回归系数。步骤如下：

1.1：给定一个初始线性回归方程h(x)＝a₁x₁+a₂x₂+a₃x₃+…+a_nx_n，利用代码随机生成线性回归数据集(x₁₁,x₁₂,…,y₁)、(x₂₁,x₂₂,…,y₂)、…、(x_n1,x_n2,…,y_n)；

1.2：用梯度下降算法进行训练,选定误差函数J(a₁,a₂,…,a_n)＝(h(x)-y))²，迭代公式为y＝y-k*d(k为学习率，d为误差函数的导数)进行训练，直到误差函数值小于规定好的的阈值，训练结束。

1.3：提取训练过程中的特征向量(学习率、动量、迭代次数、损失误差值、梯度)，得到最优线性回归系数a₀₁、a₀₂、a₀₃、…、a_0n和新的线性回归数据集(x₀₁₁,x₀₁₂,…,y₀₁)、(x₀₂₁,x₀₂₂,…,y₀₂)、…、(x_0n1,x_0n2,…,y_0n)；

接下来，运用可视化技术对上面提取的特征向量进行可视分析，来帮助用户直观的了解梯度下降算法。为了保证可视结果的可靠性，我们采用多个线性回归数据集进行训练。

2)保证清晰的展示梯度下降算法对多个模型的训练结果，对各个模型训练的误差用颜色进行编码，颜色的深浅代表模型误差的大小；采用热力图进行可视展示，输入学习率或动量，输出误差大小，并采用颜色编码，纵轴是不同的梯度下降算法，横轴是各个模型的颜色编码，每一个方块代表一个模型，模型主要是线性回归模型，颜色的深浅代表这个模型的训练误差的大小，颜色越深表示误差越小，反之则越大；从图中可以发现，对于各个不同的模型，Adam和RMSProp梯度下降算法的误差值相对于其他的梯度下降小很多；

3)协助用户直观地认识梯度下降算法，采用误差曲线来观察算法的收敛情况，采用线性拟合图展示每个模型的拟合程度，同时设计直方图展示每个模型残差的大小，即真实数据和训练数据的差值。所用的数据是通过梯度下降算法训练线性回归数据集求取最优回归系数过程中提取的特征向量，步骤如下：

3.1)如图左上角的散点折线图，横坐标代表的是数据点的个数，纵坐标是梯度下降算法训练出来的预测值，图中的点代表训练前的值，折线代表训练后的值；右上角的直方图，横坐标代表的是选取的数据点，纵坐标表示的是训练过程中真实值和预测值的差，从这两幅图看到真实数据和训练数据的拟合情况和残差大小；

3.2)如图4左下角的误差曲线，横坐标是用梯度下降算法进行训练过程中迭代的次数，纵坐标是迭代过程中损失函数的值，从图中我们可以看出，随着迭代次数的增加，损失函数呈慢慢收敛状态，直至趋于0，右下角的折线图，横坐标是迭代次数，纵坐标表示的是梯度下降算法训练过程中，求解的回归系数值的变化；从图中看到回归系数随着迭代次数的增加，不管过程怎么变，最后仍趋于一个稳定值，即所求的最优回归系数；

4)通过矩阵图来进行横向和纵向比较，以此来帮助用户理解梯度下降算法，了解学习率或动量的变化给最后的结果带来的影响。

5)利用散点矩阵图来探索每个模型中不同特征参数之间的关联性，在训练过程中，发现有些梯度下降算法收敛的比较快，有些比较慢，所以查看梯度和迭代次数之间、梯度和速度之间的关系。

本发明的技术构思为：系统概览图介绍和系统操作步骤，如图2所示，图中A为各种梯度下降算法；图中B为10个训练的模型；图中C分为三个部分，模型的拟合结果，误差曲线和误差曲面等高图，可以通过左上角复选框进行选择，主要是帮助用户理解梯度下降算法，同时进行同一梯度下降算法不同特征值，不同梯度下降算法同一特征值之间的差异性比较；图中D为相关性矩阵散点图，可以帮助我们了解特征之间的内在联系；图中E为热力矩阵图，可以向我们直观地展示不同梯度下降算法训练出来的误差差距。步骤如下：

步骤1：我们可以选择系统中A模块中的一种梯度下降算法或多个梯度下降算法，在系统中B模块选择任意一种模型。

步骤2：在A模块中只选择一种梯度下降算法时，调节C模块中的学习率或动量，通过复选框进行选择，可以向我们展示三种类型的图，可以看到模型的拟合结果，误差曲线和调节学习率或动量之后差异性比较。

步骤3：在A模块选择多个梯度下降算法时，调节C模块中的学习率或动量，通过误差曲面等高图可以让我们更直观的看出它们之间地差异性。

步骤4：通过调整学习率或动量，我们可以在D模块中看到不同特征之间存在的关系。

步骤5：在E模块，我们可以通过颜色的深浅直观地看出不同梯度下降算法，不同模型训练出来的误差差距有多大。

本发明的有益效果为：为了帮助用户理解梯度下降算法，并且直观地看出不同梯度下降算法地差异性和其适用地场景应用，设计了一个梯度下降算法地差异可视分析系统。通过可视化技术，来探索同一算法不同特征参数，不同算法同意特征参数之间地差异性，以此来帮助深度学习初学者更快地掌握并且熟悉使用不同地梯度下降优化算法。

附图说明

图1为本发明的系统总体流程框图。

图2为本发明的系统概览图。

图3为本发明的热力矩阵图。

图4为模型的拟合结果和误差曲线。

图5为不同学习率、动量下的梯度下降轨迹。

图6为相关性散点矩阵图。

具体实施方式

下面结合附图对本发明做进一步说明。

参照图1～图6，一种梯度下降算法地差异可视分析方法，采用d3.js来绘制前端可视化组件，其余代码用java和python进行编写。

系统概览图介绍和系统操作步骤，如图2所示，图中A为各种梯度下降算法；图中B为10个训练的模型；图中C分为三个部分，模型的拟合结果，误差曲线和误差曲面等高图，可以通过左上角复选框进行选择，主要是帮助用户理解梯度下降算法，同时进行同一梯度下降算法不同特征值，不同梯度下降算法同一特征值之间的差异性比较；图中D为相关性矩阵散点图，可以帮助我们了解特征之间的内在联系；图中E为热力矩阵图，可以向我们直观地展示不同梯度下降算法训练出来的误差差距，步骤如下：

所述差异可视分析方法包括以下步骤：

3)协助用户直观地认识梯度下降算法。我们采用误差曲线来观察算法的收敛情况。采用线性拟合图展示每个模型的拟合程度，同时设计直方图展示每个模型残差的大小，即真实数据和训练数据的差值。如图4所用的数据是我们通过梯度下降算法训练线性回归数据集求取最优回归系数过程中提取的特征向量。

(3.1)如图4左上角的散点折线图，横坐标代表的是数据点的个数，纵坐标是梯度下降算法训练出来的预测值，图中的点代表训练前的值，折线代表训练后的值。右上角的直方图，横坐标代表的是选取的数据点，纵坐标表示的是训练过程中真实值和预测值的差。从这两幅图我们可以清晰的看到真实数据和训练数据的拟合情况和残差大小。

(3.2)如图4左下角的误差曲线，横坐标是用梯度下降算法进行训练过程中迭代的次数，纵坐标是迭代过程中损失函数的值，从图中我们可以看出，随着迭代次数的增加，损失函数呈慢慢收敛状态，直至趋于0，右下角的折线图，横坐标是迭代次数，纵坐标表示的是梯度下降算法训练过程中，求解的回归系数值的变化；从图中看到回归系数随着迭代次数的增加，不管过程怎么变，最后仍趋于一个稳定值，即所求的最优回归系数；

4)通过矩阵图来进行横向和纵向比较，以此来帮助用户理解梯度下降算法，了解学习率或动量的变化给最后的结果带来的影响。如图5，以Momentum为例，我们采用多个误差曲面的地形等高图来进行两两比较，来展示同一梯度下降算法不同学习率不同动量之间的差异性，从左到右学习率以此递增，分别为0.01、0.1、2，我们从图中发现学习率过小找不到最优解，过大则无法收敛，也无法找到最优解；从上到下动量依次递增，分别为0、0.5、0.9，从图中我们看到在学习率过小且不变的时候，随着动量增加，它能加快收敛的速度。在学习率过大且不变的时候，随着动量不断增大，在一定程度上抑制震荡，增加稳定性，从而增强学习能力。

5)利用散点矩阵图来探索每个模型中不同特征参数之间的关联性，在训练过程中，发现有些梯度下降算法收敛的比较快，有些比较慢，所以查看梯度和迭代次数之间、梯度和速度之间的关系。如图6所示，左图学习率为0.1，动量为0，右图学习率为0.1，动量为0.9；G代表梯度，v代表速度，iter代表迭代次数。从这幅图可以看出每次迭代的梯度和累积速度直接的关系，由左图可以看出，当动量为0时，速度V和梯度G近似相等；由右图可以看出，梯度G和速度V之间呈现出一个螺旋形关系。

以上阐述的是本发明给出的一种梯度下降可视分析方法，显然本发明不只是限于上述实施案例，在不偏离本发明基本精神及不超出本发明实质内容所涉及范围的前提下对其可作种种变形加以实施。

Claims

1.一种梯度下降算法的差异可视分析方法，其特征在于，所述方法包括以下步骤：

1)采用梯度下降算法对线性回归数据集进行训练，提取训练过程中的特征向量，并且得到最优线性回归系数，步骤如下：

1.2：用梯度下降算法进行训练,选定误差函数J(a₁,a₂,…,a_n)＝(h(x)-y))²，迭代公式为y＝y-k*d进行训练，k为学习率，d为误差函数的导数，直到误差函数值小于规定好的的阈值，训练结束；

1.3：提取训练过程中的特征向量，所述特征向量包括学习率、动量、迭代次数、损失误差值和梯度)，得到最优线性回归系数a₀₁、a₀₂、a₀₃、…、a_0n和新的线性回归数据集(x₀₁₁,x₀₁₂,…,y₀₁)、(x₀₂₁,x₀₂₂,…,y₀₂)、…、(x_0n1,x_0n2,…,y_0n)；

接下来，运用可视化技术对上面提取的特征向量进行可视分析，来帮助用户直观的了解梯度下降算法，采用多个线性回归数据集进行训练；

3)协助用户直观地认识梯度下降算法，采用误差曲线来观察算法的收敛情况，采用线性拟合图展示每个模型的拟合程度，同时设计直方图展示每个模型残差的大小，即真实数据和训练数据的差值，所用的数据是通过梯度下降算法训练线性回归数据集求取最优回归系数过程中提取的特征向量，步骤如下：

(3.1)如图左上角的散点折线图，横坐标代表的是数据点的个数，纵坐标是梯度下降算法训练出来的预测值，图中的点代表训练前的值，折线代表训练后的值；右上角的直方图，横坐标代表的是选取的数据点，纵坐标表示的是训练过程中真实值和预测值的差，从这两幅图看到真实数据和训练数据的拟合情况和残差大小；

(3.2)如图左下角的误差曲线，横坐标是用梯度下降算法进行训练过程中迭代的次数，纵坐标是迭代过程中损失函数的值，从图中我们可以看出，随着迭代次数的增加，损失函数呈慢慢收敛状态，直至趋于0，右下角的折线图，横坐标是迭代次数，纵坐标表示的是梯度下降算法训练过程中，求解的回归系数值的变化；从图中看到回归系数随着迭代次数的增加，不管过程怎么变，最后仍趋于一个稳定值，即所求的最优回归系数；

4)通过矩阵图来进行横向和纵向比较，以此来帮助用户理解梯度下降算法，了解学习率或动量的变化给最后的结果带来的影响；