CN112183750A

CN112183750A - 神经网络模型训练方法、装置、计算机设备及存储介质

Info

Publication number: CN112183750A
Application number: CN202011225964.8A
Authority: CN
Inventors: 李国安
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2021-01-05
Also published as: WO2022095432A1

Abstract

本发明实施例提供了一种神经网络模型训练方法。在对神经网络模型进行每一训练步数的训练后，根据当前步数的当前权重、样本数据、目标值及梯度算法计算梯度；根据第一参数、在上一步数的一阶矩估计、梯度、一阶矩估计公式及一阶矩估计修正公式计算修正一阶矩估计；根据第二参数、在上一步数的二阶矩估计、梯度、二矩估计公式、二阶矩估计修正公式计算修正二阶矩估计；根据修正一阶矩估计、修正二阶矩估计及系数修正公式计算修正系数；根据当前权重、修正系数、第三参数、当前学习率及学习率修正公式计算在下一步数的修正学习率；根据当前权重、修正学习率、修正系数、第三参数及权重公式计算得到模型更新后的权重。本实施例可以提高模型训练效率。

Description

神经网络模型训练方法、装置、计算机设备及存储介质

技术领域

本发明实施例涉及人工智能领域，尤其涉及一种神经网络模型训练方法、装置、计算机设备及存储介质。

背景技术

目前基于深度学习的文本分类模型是将词向量输入训练好的神经网络模型后得到词向量的分类结果。为了使分类结果更为贴合实际，需要在文本分类前对神经网络模型进行训练。随着神经网络的发展，尤其是深度学习技术的发展，神经元数量可能超过数千万，这种情况下梯度下降法的效率将远高于解析标准方程的逆矩阵，使得梯度下降法成为神经网络训练的主要方法。现代深度学习中，神经网络的训练周期通常在数小时到数天不等，如何提高梯度下降法的训练效率，以及在复杂大量的场景中可以稳定梯度下降，一直是深度学习研究人员的研究方向。

目前一些优化算法在实践取得了一些成绩，例如SGD，RMSProp，AdaDelta，Adam等梯度优化器，在不同领域都有应用。但是，随着训练数据量的增加和计算资源的增加，在大规模深度训练时，有时出现训练过程不收敛，无法得到预期结果的问题，使得训练过程变得愈加困难。

发明内容

有鉴于此，本发明实施例的目的是提供一种神经网络模型训练方法、装置、计算机设备及计算机可读存储介质，以解决现有技术中在对神经网络模型进行训练时，训练效果不好，且训练效率较低的问题。

为实现上述目的，本发明实施例提供了一种神经网络模型训练方法，包括：

获取训练样本集，所述训练样本集中包括多个训练样本数据；

将所述训练样本集中的训练样本数据输入至预设的神经网络模型中进行迭代训练，直到所述神经网络模型收敛为止，其中，在对所述神经网络模型进行每一训练步数的训练后，通过以下步骤更新所述神经网络模型中第l层的权重；

根据所述神经网络模型在当前训练步数进行训练时的当前权重、在当前训练步数进行训练时采样的训练样本数据、所述训练样本数据对应的目标值及预设的梯度算法计算损失函数在当前训练步数时的梯度；

根据预设的第一参数、在当前训练步数的上一个训练步数进行训练时所述神经网络模型中第l层的第一一阶矩估计、所述梯度、预设的一阶矩估计计算公式、及预设的一阶矩估计修正公式计算在当前训练步数进行训练时的修正一阶矩估计；

根据预设的第二参数、在所述上一个训练步数进行训练时所述神经网络模型中第l层的第一二阶矩估计、所述梯度、预设的二矩估计计算公式、及预设的二阶矩估计修正公式计算在当前训练步数进行训练时的修正二阶矩估计；

根据所述修正一阶矩估计、所述修正二阶矩估计及预设的系数修正计算公式计算在当前训练步数进行训练时的修正系数；

根据所述当前权重、所述修正系数、预设的第三参数、在当前训练步数进行训练时的第一修正学习率及预设的学习率修正计算公式计算在当前训练步数的下一个训练步数进行训练时的第二修正学习率；

根据所述当前权重、所述第二修正学习率、所述修正系数、所述第三参数及预设的权重计算公式计算得到更新后的第l层的权重。

可选地，所述梯度算法具体为：

其中，

为所述损失函数在当前训练步数时的梯度，

为所述当前权重，

为所述训练样本数据，

为所述目标值，

为所述损失函数。

可选地，所述根据所述第一参数、所述第一一阶矩估计、所述梯度、预设的一阶矩估计计算公式、及预设的一阶矩估计修正公式计算在当前训练步数进行训练时的修正一阶矩估计包括：

根据所述第一参数、所述第一一阶矩估计、所述梯度及预设的一阶矩估计计算公式计算在当前训练步数进行训练时的第二一阶矩估计，其中，所述一阶矩估计计算公式具体为：

为所述第二一阶矩估计，

为所述第一一阶矩估计，β₁为所述第一参数；

根据所述第二一阶矩估计及所述一阶矩估计修正公式计算所述修正一阶矩估计，其中，所述一阶矩估计修正公式具体为：

为所述修正一阶矩估计，

为所述第一参数β₁的t次幂，t为所述当前训练步数。

可选地，所述根据所述第二参数、所述第一二阶矩估计、所述梯度、预设的二矩估计计算公式、及预设的二阶矩估计修正公式计算在当前训练步数进行训练时的修正二阶矩估计包括：

根据所述第二参数、所述第一二阶矩估计、所述梯度、预设的二矩估计计算公式计算在当前训练步数进行训练时的第二二阶矩估计，其中，所述二矩估计计算公式具体为：

为所述第二二阶矩估计，

为所述第一二阶矩估计，β₂为所述第二参数；

根据所述第二二阶矩估计及二阶矩估计修正公式计算在当前训练步数进行训练时的修正二阶矩估计，其中，所述二阶矩估计修正公式具体为：

为所述修正二阶矩估计，

为所述第二参数β₂的t次幂，t为所述当前训练步数。

可选地，所述系数修正计算公式具体为：

为所述修正系数，ε为预设的常数。

可选地，所述学习率修正计算公式具体为：

为所述第二修正学习率，β₃为所述第三参数，

为在当前训练步数进行训练时的第一修正学习率。

可选地，所述权重计算公式具体为：

所述

为所述第二权重。

为实现上述目的，本发明实施例还提供了神经网络模型训练装置，包括：

获取模块，用于获取训练样本集，所述训练样本集中包括多个训练样本数据；

训练模块，用于将所述训练样本集中的训练样本数据输入至预设的神经网络模型中进行迭代训练，直到所述神经网络模型收敛为止，其中，在对所述神经网络模型进行每一训练步数的训练后，通过以下步骤更新所述神经网络模型中第l层的权重；

为实现上述目的，本发明实施例还提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的神经网络模型训练方法的步骤。

为实现上述目的，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序可被至少一个处理器所执行，以使所述至少一个处理器执行如上所述的神经网络模型训练方法的步骤。

本发明实施例提供的神经网络模型训练方法、装置、计算机设备与计算机可读存储介质，本实施例通过获取训练样本集，所述训练样本集中包括多个训练样本数据；将所述训练样本集中的训练样本数据输入至预设的神经网络模型中进行迭代训练，直到所述神经网络模型收敛为止，其中，在对所述神经网络模型进行每一训练步数的训练后，通过以下步骤更新所述神经网络模型中第l层的权重，根据所述神经网络模型在当前训练步数进行训练时的当前权重、在当前训练步数进行训练时采样的训练样本数据、所述训练样本数据对应的目标值及预设的梯度算法计算损失函数在当前训练步数时的梯度；根据预设的第一参数、在当前训练步数的上一个训练步数进行训练时所述神经网络模型中l层的第一一阶矩估计、所述梯度、预设的一阶矩估计计算公式、及预设的一阶矩估计修正公式计算在当前训练步数进行训练时的修正一阶矩估计；根据预设的第二参数、在所述上一个训练步数进行训练时所述神经网络模型中第l层的第一二阶矩估计、所述梯度、预设的二矩估计计算公式、及预设的二阶矩估计修正公式计算在当前训练步数进行训练时的修正二阶矩估计；根据所述修正一阶矩估计、所述修正二阶矩估计及预设的系数修正计算公式计算在当前训练步数进行训练时的修正系数；根据所述当前权重、所述修正系数、预设的第三参数、在当前训练步数进行训练时的第一修正学习率及预设的学习率修正计算公式计算在当前训练步数的下一个训练步数进行训练时的第二修正学习率；根据所述当前权重、所述第二修正学习率、所述修正系数、所述第三参数及预设的权重计算公式计算得到更新后的第l层的权重。本实施通过在训练过程中，通过上述方式对学习率进行自适应更新，从而使得神经网络模型的权重相对应的进行自适应更新，进而可以在对神经网络模型的训练过程中无需调整其他超参数，降低训练调参难度，节省时间成本，提高训练效率。

附图说明

图1为本发明神经网络模型训练方法实施例一的流程图；

图2为本发明在对所述神经网络模型进行每一训练步数的训练后，对所述神经网络模型中第l层的权重进行更新的步骤细化流程示意图；

图3为本发明神经网络模型训练装置实施例二的程序模块示意图；

图4为本发明计算机设备实施例三的硬件结构示意图。

具体实施方式

以下结合附图与具体实施例进一步阐述本发明的优点。

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

在本发明的描述中，需要理解的是，步骤前的数字标号并不标识执行步骤的前后顺序，仅用于方便描述本发明及区别每一步骤，因此不能理解为对本发明的限制。

参阅图1，示出了本发明实施例一之神经网络模型训练方法的步骤流程图。可以理解，本方法实施例中的流程图不用于对执行步骤的顺序进行限定。下面以计算机设备2为执行主体进行示例性描述。具体如下。

步骤S10，获取训练样本集，所述训练样本集中包括多个训练样本数据。

具体地，所述训练样本集可以为文本集，图像集或者语音集等，在本实施例中，该训练样本集以文本集为例进行说明。文本集中包含有多个文本数据，每一个文本数据携带有文本标签，该文本标签用于表示该文本所属的类别。

步骤S11，将所述训练样本集中的训练样本数据输入至预设的神经网络模型中进行迭代训练，直到所述神经网络模型收敛为止，其中，在对所述神经网络模型进行每一训练步数的训练后，通过步骤S20-S26来更新所述神经网络模型中第l层的权重，其中，该第l层指代为神经网络模型中的每一层，即该神经网络模型中的每一层的权重都可以通过该步骤S20-S26来进行更新。

具体地，收敛指的是在神经网络训练的过程中，若loss值一直来回波动或者一直居高不下，无法进入到容忍范围内，则表示网络不收敛；若loss值最小，也即训练结果与真实结果更为接近，得到最优解，则表示网络收敛。

现有技术在对神经网络模型进行训练时，采用梯度下降法对神经网名模型的当前权重θ_t进行更新，在对当前权重θ_t进行更新时，通常采用全局学习率的方式进行更新，具体算法为：

其中，t表示当前的训练步数，θ_t表示训练步数为t时的当前权重，η表示学习率，该学习率是一个固定值，

表示损失函数L(θ_t)的梯度，θ_t+1表示训练步数为t+1时的权重。现有的方法中根据梯度下降方向不断迭代，优化权重参数，以减少损失函数的值。

需要说明的是，在进行神经网络训练过程中，学习率作为一个超参数控制了权重更新的幅度，以及训练的速度和精度。学习率太大，容易导致目标(代价)函数波动较大从而难以找到最优，而弱学习率设置太小，则会导致收敛过慢耗时太长。

本实施例在将训练样本数据集中的训练样本数据输入至神经网络模型中进行迭代训练时，不是全局学习率的方式对模型的权重进行更新，而是在对进行每一训练步数的训练后，通过步骤S20-S26更新所述神经网络模型中第l层的权重。

其中，训练步数指的是将一个批尺寸(Batch Size)的训练样本数据输入至神经网络模型中进行一次迭代(Iteration)训练的过程，在完成对神经网络模型的一次迭代训练，会对神经网络模型中的各个层中的权重θ_t进行更新，即对模型进行一次优化。

需要说明的是，本实施例中的一次迭代指的是将一个批尺寸的样本数据输入至神经网络模型中完成该批次的训练样本数据训练的过程。

示例性的，参阅图2，所述在对所述神经网络模型进行每一训练步数的训练后，对所述神经网络模型中第l层的权重进行更新包括：

步骤S20，根据所述神经网络模型在当前训练步数进行训练时的当前权重、在当前训练步数进行训练时采样的训练样本数据、所述训练样本数据对应的目标值及预设的梯度算法计算损失函数在当前训练步数时的梯度

本实施例中，在对所述神经网络模型中第l层的权重进行更新之前，可以先获取预设的第一参数β₁、第二参数β₂、第三参数β₃、损失函数L(θ)及当前的训练步数t、在当前训练步数t进行训练时采样的训练样本数据

所述训练样本数据相对应的目标值

在当前训练步数的上一个训练步数t-1进行训练时所述神经网络模型中第l层的第一一阶矩估计

在所述上一个训练步数进行训练时所述神经网络模型中第l层的第一二阶矩估计

在当前训练步数进行训练时的第一修正学习率

及在当前训练步数进行训练时所述神经网络模型中第l层的当前权重

其中，所述第一参数β₁、第二参数β₂、第三参数β₃为预先设定的值，该第一参数β₁的具体值优选为：0.9≤β₁<1，该第二参数β₂的具体值优选为：0.99≤β₂<1，该第三参数的具体值优选为：0<β₃≤0.1。

当前的训练步数t指的是对当前已完成对神经网络模型进行迭代训练的次数，也就是说，当前的训练步数t具体值根据当前完成对神经网络模型进行迭代训练的次数进行确定，比如，当前已迭代训练5次，则该当前的训练步数t＝5。

第一一阶矩估计

为在上一次对神经网络模型进行迭代训练时所计算得到的一阶矩估计，比如，当前的训练步数t为对神经网络模型进行第5次迭代训练，则该第一一阶矩估计

则为在对对神经网络模型进行第4次迭代训练后所计算得到的一阶矩估计。

第一二阶矩估计

为在上一次对神经网络模型进行迭代训练时所计算得到的一阶矩估计，比如，当前的训练步数t为对神经网络模型进行第5次迭代训练，则该第一二阶矩估计

则为在对对神经网络模型进行第4次迭代训练后所计算得到的二阶矩估计。

第一修正学习率

为在上一次对神经网络模型进行迭代训练时所计算得到的学习率，比如，当前的训练步数t为对神经网络模型进行第5次迭代训练，则该第一修正学习率

则为在对对神经网络模型进行第4次迭代训练后所计算得到的学习率。

所述训练样本数据

指的是在进行训练步数为t的迭代训练过程时，从训练样本数据集中所采样的一个批尺寸(Batch Size)的训练样本数据，比如，该批尺寸为256，则该训练样本数据

具体为从训练样本集中采样的256个训练样本数据。

所述目标值

为该训练样本数据

对应的样本标签，该目标值的数量与批尺寸相同。

在一示例性的实施方式中，在开始对神经网络模型进行迭代训练之前，可以对训练步数t、一阶矩估计m₀、二阶矩估计v₀以及神经网络的权重θ₀进行初始化，具体而言，可以初始化步数t＝0,初始化一阶矩估计m₀＝0，初始化二阶矩估计v₀＝0,初始化神经网络的权重θ₀∈R^d，其中，R^d为所述训练样本集。

在一示例性的实施方式中，梯度算法为：

其中，

为所述损失函数在当前训练步数时的梯度，

为所述当前权重，

为所述训练样本数据，

为所述目标值，

为所述损失函数。

步骤S21，根据预设的第一参数β₁、在当前训练步数的上一个训练步数进行训练时所述神经网络模型中第l层的第一一阶矩估计

所述梯度

预设的一阶矩估计计算公式、及预设的一阶矩估计修正公式计算在当前训练步数进行训练时的修正一阶矩估计

具体地，所述一阶矩估计计算公式具体为：

为所述第二一阶矩估计，

为所述第一一阶矩估计，β₁为所述第一参数。

所述一阶矩估计修正公式具体为：

为所述修正一阶矩估计，

为所述第一参数β₁的t次幂，t为所述当前训练步数。

本实施例中，在获取到所述第一参数β₁、所述第一一阶矩估计

所述梯度

之后，可以根据这些获取到的值与该一阶矩估计计算公式先计算出在当前训练步数进行训练时的第二一阶矩估计

之后，可以根据计算出的第二一阶矩估计

与一阶矩估计修正公式计算出在当前训练步数进行训练时的修正一阶矩估计

其中，修正一阶矩估计

是对第二一阶矩估计

进行修正后所得到的一阶矩估计。

步骤S22，根据预设的第二参数β₂、在所述上一个训练步数进行训练时所述神经网络模型中第l层的第一二阶矩估计

所述梯度

预设的二矩估计计算公式、及预设的二阶矩估计修正公式计算在当前训练步数进行训练时的修正二阶矩估计

具体地，所述二矩估计计算公式具体为：

为所述第二二阶矩估计，

为所述第一二阶矩估计，β₂为所述第二参数。

所述二阶矩估计修正公式具体为：

为所述修正二阶矩估计，

为所述第二参数β₂的t次幂，t为所述当前训练步数。

本实施例中，在获取到所述第二参数β₂、所述第一二阶矩估计

所述梯度

之后，可以根据这些获取到的值与该二矩估计计算公式先计算出在当前训练步数进行训练时的第二二阶矩估计

之后，可以根据计算出的第二二阶矩估计

与该二阶矩估计修正公式计算出在当前训练步数进行训练时的修正二阶矩估计

其中，修正二阶矩估计

是对第二二阶矩估计

进行修正后所得到的二阶矩估计。

步骤S23，根据所述修正一阶矩估计

所述修正二阶矩估计

及预设的系数修正计算公式计算在当前训练步数进行训练时的修正系数

具体地，系数修正计算公式具体为：

为所述修正系数，ε为预设的常数。所述常数优选为一个非常小的值，比如为10^-10。

本实施例中，通过增加一个非常小的常数，可以避免除零操作。

步骤S24，根据所述当前权重

所述修正系数

预设的第三参数β₃、在当前训练步数进行训练时的第一修正学习率

及预设的学习率修正计算公式计算在当前训练步数的下一个训练步数进行训练时的第二修正学习率

具体地，所述学习率修正计算公式具体为：

为所述第二修正学习率，β₃为所述第三参数，

为在当前训练步数进行训练时的第一修正学习率。

相对于现有技术中的全局学习率，本实施例通过对神经网络中的每一层采用自适应的方式计算学习率，使得计算得到的学习率更为准确，从而可以促进权重更新的幅度，提高了训练的速度和精度以及收敛速度。

步骤S25，根据所述当前权重

所述第二修正学习率

所述修正系数

所述第三参数

及预设的权重计算公式计算得到更新后的第l层的权重

具体地，所述权重计算公式具体为：

所述

为更新后的第l层的权重。

本实施例通过获取训练样本集，所述训练样本集中包括多个训练样本数据；将所述训练样本集中的训练样本数据输入至预设的神经网络模型中进行迭代训练，直到所述神经网络模型收敛为止，其中，在对所述神经网络模型进行每一训练步数的训练后，通过以下步骤更新所述神经网络模型中第l层的权重，根据所述神经网络模型在当前训练步数进行训练时的当前权重、在当前训练步数进行训练时采样的训练样本数据、所述训练样本数据对应的目标值及预设的梯度算法计算损失函数在当前训练步数时的梯度；根据预设的第一参数、在当前训练步数的上一个训练步数进行训练时所述神经网络模型中第l层的第一一阶矩估计、所述梯度、预设的一阶矩估计计算公式、及预设的一阶矩估计修正公式计算在当前训练步数进行训练时的修正一阶矩估计；根据预设的第二参数、在所述上一个训练步数进行训练时所述神经网络模型中第l层的第一二阶矩估计、所述梯度、预设的二矩估计计算公式、及预设的二阶矩估计修正公式计算在当前训练步数进行训练时的修正二阶矩估计；根据所述修正一阶矩估计、所述修正二阶矩估计及预设的系数修正计算公式计算在当前训练步数进行训练时的修正系数；根据所述当前权重、所述修正系数、预设的第三参数、在当前训练步数进行训练时的第一修正学习率及预设的学习率修正计算公式计算在当前训练步数的下一个训练步数进行训练时的第二修正学习率；根据所述当前权重、所述第二修正学习率、所述修正系数、所述第三参数及预设的权重计算公式计算得到更新后的第l层的权重。本实施通过在训练过程中，通过上述方式对学习率进行自适应更新，从而使得神经网络模型的权重相对应的进行自适应更新，进而可以在对神经网络模型的训练过程中无需调整其他超参数，降低训练调参难度，节省时间成本，提高训练效率。

请继续参阅图3，示出了本发明一实施例中的神经网络模型训练装置300的程序模块示意图。神经网络模型训练装置300可以应用于计算机设备中，所述计算机设备可以是移动电话、平板个人计算机(tablet personal computer)、膝上型计算机(laptopcomputer)、服务器等具有数据传输功能的设备。在本实施例中，神经网络模型训练装置300可以包括或被分割成一个或多个程序模块，一个或者多个程序模块被存储于存储介质中，并由一个或多个处理器所执行，以完成本发明，并可实现上述神经网络模型训练方法。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，比程序本身更适合于描述神经网络模型训练方法在存储介质中的执行过程。在一示例性的实施方式中，神经网络模型训练装置300包括获取模块301、训练模块302。以下描述将具体介绍本实施例各程序模块的功能：

获取模块301，用于获取训练样本集，所述训练样本集中包括多个训练样本数据。

训练模块302，用于将所述训练样本集中的训练样本数据输入至预设的神经网络模型中进行迭代训练，直到所述神经网络模型收敛为止，其中，在对所述神经网络模型进行每一训练步数的训练后，训练模块302通过第一计算单元、第二计算单元、第三计算单元、第四计算单元、第五计算单元及第六计算单元来更新所述神经网络模型中第l层的权重，其中，该第l层指代为神经网络模型中的每一层，即该神经网络模型中的每一层的权重都可以通过该第一计算单元、第二计算单元、第三计算单元、第四计算单元、第五计算单元及第六计算单元来进行更新。

现有技术在对神经网络模型进行训练时，采用梯度下降法对神经网名模型的当前权重θ_t进行更新，在对权重当前θ_t进行更新时，通常采用全局学习率的方式进行更新，具体算法为：

本实施例在将训练样本数据集中的训练样本数据输入至神经网络模型中进行迭代训练时，不是全局学习率的方式对模型的权重进行更新，而是在对进行每一训练步数的训练后，训练模块302通过第一计算单元、第二计算单元、第三计算单元、第四计算单元、第五计算单元及第六计算单元来实现对所述神经网络模型中第l层的权重的更新。

第一计算单元，用于根据所述神经网络模型在当前训练步数进行训练时的当前权重、在当前训练步数进行训练时采样的训练样本数据、所述训练样本数据对应的目标值及预设的梯度算法计算损失函数在当前训练步数时的梯度。

所述训练样本数据相对应的目标值

在当前训练步数进行训练时的第一修正学习率

第一一阶矩估计

第一二阶矩估计

第一修正学习率

所述训练样本数据

具体为从训练样本集中采样的256个训练样本数据。

所述目标值

为该训练样本数据

对应的样本标签，该目标值的数量与批尺寸相同。

在一示例性的实施方式中，梯度算法为：

其中，

为所述损失函数在当前训练步数时的梯度，

为所述当前权重，

为所述训练样本数据，

为所述目标值，

为所述损失函数。

第二计算单元，用于根据预设的第一参数β₁、在当前训练步数的上一个训练步数进行训练时所述神经网络模型中第l层的第一一阶矩估计

所述梯度

具体地，所述一阶矩估计计算公式具体为：

为所述第二一阶矩估计，

为所述第一一阶矩估计，β₁为所述第一参数。

所述一阶矩估计修正公式具体为：

为所述修正一阶矩估计，

为所述第一参数β₁的t次幂，t为所述当前训练步数。

所述梯度

之后，可以根据计算出的第二一阶矩估计

其中，修正一阶矩估计

是对第二一阶矩估计

进行修正后所得到的一阶矩估计。

第三计算单元，用于根据预设的第二参数β₂、在所述上一个训练步数进行训练时所述神经网络模型中第l层的第一二阶矩估计

所述梯度

具体地，所述二矩估计计算公式具体为：

为所述第二二阶矩估计，

为所述第一二阶矩估计，β₂为所述第二参数。

所述二阶矩估计修正公式具体为：

为所述修正二阶矩估计，

为所述第二参数β₂的t次幂，t为所述当前训练步数。

所述梯度

之后，可以根据计算出的第二二阶矩估计

其中，修正二阶矩估计

是对第二二阶矩估计

进行修正后所得到的二阶矩估计。

第四计算单元，用于根据所述修正一阶矩估计

所述修正二阶矩估计

具体地，系数修正计算公式具体为：

第五计算单元，用于根据所述当前权重

所述修正系数

具体地，所述学习率修正计算公式具体为：

为所述第二修正学习率，β₃为所述第三参数，

为在当前训练步数进行训练时的第一修正学习率。

第六计算单元，用于根据所述当前权重

所述第二修正学习率

所述修正系数

所述第三参数

及预设的权重计算公式计算得到更新后的第l层的权重

具体地，所述权重计算公式具体为：

所述

为所述第二权重。

参阅图4，是本发明实施例之计算机设备的硬件架构示意图。本实施例中，所述计算机设备2是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。该计算机设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。如图4所示，所述计算机设备2至少包括，但不限于，可通过系统总线相互通信连接存储器21、处理器22、网络接口23。其中：

本实施例中，存储器21至少包括一种类型的计算机可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器21可以是计算机设备2的内部存储单元，例如所述计算机设备2的硬盘或内存。在另一些实施例中，存储器21也可以是计算机设备2的外部存储设备，例如所述计算机设备2上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中，存储器21通常用于存储安装于计算机设备2的操作装置和各类应用软件，例如神经网络模型训练装置300的程序代码等。此外，存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器22在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。所述处理器22通常用于控制计算机设备2的总体操作。本实施例中，处理器22用于运行存储器21中存储的程序代码或者处理数据，例如运行神经网络模型训练装置300，以实现上述各个实施例中的神经网络模型训练方法。

所述网络接口23可包括无线网络接口或有线网络接口，所述网络接口23通常用于在所述计算机设备2与其他电子装置之间建立通信连接。例如，所述网络接口23用于通过网络将所述计算机设备2与外部终端相连，在所述计算机设备2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯装置(Global System of Mobile communication，GSM)、宽带码分多址(WidebandCode Division Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

需要指出的是，图4仅示出了具有部件21-23的计算机设备2，但是应理解的是，并不要求实施所有示出的部件，可以替代的实施更多或者更少的部件。

在本实施例中，存储于存储器21中的所述神经网络模型训练装置300还可以被分割为一个或者多个程序模块，所述一个或者多个程序模块被存储于存储器21中，并由一个或多个处理器(本实施例为处理器22)所执行，以完成本发明之神经网络模型训练方法。

本实施例还提供一种计算机可读存储介质，该计算机可读存储介质可以是非易失性，也可以是易失性，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储神经网络模型训练装置300，以被处理器执行时实现本发明之神经网络模型训练方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。