CN106203616A

CN106203616A - 神经网络模型训练装置和方法

Info

Publication number: CN106203616A
Application number: CN201510220950.XA
Authority: CN
Inventors: 石自强; 刘汝杰
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2015-05-04
Filing date: 2015-05-04
Publication date: 2016-12-07

Abstract

本公开涉及神经网络模型训练装置和方法。所述装置包括：迭代计算单元，用于对神经网络模型中的路径的权重进行迭代计算；以及判断与输出单元，用于当满足停止迭代的条件时，停止迭代，并输出本次迭代的路径的权重作为最终权重，其中，迭代计算单元包括：权重计算单元，用于计算本次迭代的路径的权重；相关函数计算单元，用于从用于训练所述神经网络模型的样本集合中随机选取一个样本，并根据本次迭代的路径的权重来计算所选样本的相关函数，并且保持样本集合中除所选样本之外的其它样本的相关函数不变，样本的相关函数是与样本的损失函数相关联的函数；以及总相关函数计算单元，用于根据所选样本和其它样本的相关函数来计算本次迭代的总相关函数。

Description

神经网络模型训练装置和方法

技术领域

本公开涉及神经网络的技术领域，具体地涉及神经网络模型训练装置和方法。

背景技术

这个部分提供了与本公开有关的背景信息，这不一定是现有技术。

在用于训练神经网络的技术方案中，最近研究者提出的若干近增量梯度法，包括MISO(Minimization by Incremental Surrogate Optimization，采用增量替代优化最小化)，Prox-SDCA(Proximal Stochastic DualCoordinated Ascent，近随机双坐标上升)，Prox-SVRG(ProximalStochastic Variance Reduced Gradient，近随机方差缩减梯度)和SAG(Stochastic Average Gradient，随机平均梯度)，都达到了线性收敛速度。然而，当实际应用于训练神经网络时，特别是训练大型的神经网络时，这些方法的收敛速度仍然无法令人满意。

发明内容

这个部分提供了本公开的一般概要，而不是其全部范围或其全部特征的全面披露。

本公开的目的在于提供一种神经网络模型训练装置和方法，其能够采用二阶信息来获得更快的收敛效果，从而不仅在函数目标值方面，而且在求解方面都实现了线性收敛速度。

根据本公开的一方面，提供了一种神经网络模型训练装置，该装置包括：迭代计算单元，用于对神经网络模型中的路径的权重进行迭代计算；以及判断与输出单元，用于当满足停止迭代的条件时，停止迭代，并输出本次迭代的路径的权重作为所述神经网络模型中的路径的最终权重，其中，所述迭代计算单元包括：权重计算单元，用于计算本次迭代的路径的权重；相关函数计算单元，用于从用于训练所述神经网络模型的样本集合中随机选取一个样本，并根据本次迭代的路径的权重来计算所选样本的相关函数，并且保持所述样本集合中除所选样本之外的其它样本的相关函数不变，其中样本的相关函数是与所述样本的损失函数相关联的函数；以及总相关函数计算单元，用于根据所选样本的相关函数和所述其它样本的相关函数来计算本次迭代的总相关函数。

根据本公开的另一方面，提供了一种用于训练神经网络模型以便进行模式识别的方法，该方法包括：对所述神经网络模型中的路径的权重进行迭代计算；以及当满足停止迭代的条件时，停止迭代，并输出本次迭代的路径的权重作为所述神经网络模型中的路径的最终权重，其中对所述神经网络模型中的路径的权重进行迭代计算包括：计算本次迭代的路径的权重；从用于训练所述神经网络模型的样本集合中随机选取一个样本，并根据本次迭代的路径的权重来计算所选样本的相关函数，并且保持所述样本集合中除所选样本之外的其它样本的相关函数不变，其中样本的相关函数是与所述样本的损失函数相关联的函数；以及根据所选样本的相关函数和所述其它样本的相关函数来计算本次迭代的总相关函数。

根据本公开的另一方面，提供了一种机器可读存储介质，其上携带有包括存储在其中的机器可读指令代码的程序产品，其中，所述指令代码当由计算机读取和执行时，能够使所述计算机执行根据本公开的神经网络模型训练方法。

使用根据本公开的神经网络模型训练装置和方法，可以具有近随机梯度方法的低迭代成本，但是达到了近全梯度法的收敛速度，从而不仅在函数目标值方面，而且在求解方面都实现了线性收敛速度。

从在此提供的描述中，进一步的适用性区域将会变得明显。这个概要中的描述和特定例子只是为了示意的目的，而不旨在限制本公开的范围。

附图说明

在此描述的附图只是为了所选实施例的示意的目的而非全部可能的实施，并且不旨在限制本公开的范围。在附图中：

图1为适用于本公开的神经网络模型的示意图；

图2为图示根据本公开的实施例的神经网络模型训练装置的结构的框图；

图3为根据本公开的实施例的神经网络模型训练方法的流程图；

图4为根据本公开的另一实施例的神经网络模型训练方法的流程图；

图5为根据本公开的另一实施例的神经网络模型训练方法的流程图；以及

图6为其中可以实现根据本公开的实施例的神经网络模型训练装置和方法的通用个人计算机的示例性结构的框图。

虽然本公开容易经受各种修改和替换形式，但是其特定实施例已作为例子在附图中示出，并且在此详细描述。然而应当理解的是，在此对特定实施例的描述并不打算将本公开限制到公开的具体形式，而是相反地，本公开目的是要覆盖落在本公开的精神和范围之内的所有修改、等效和替换。要注意的是，贯穿几个附图，相应的标号指示相应的部件。

具体实施方式

现在参考附图来更加充分地描述本公开的例子。以下描述实质上只是示例性的，而不旨在限制本公开、应用或用途。

提供了示例实施例，以便本公开将会变得详尽，并且将会向本领域技术人员充分地传达其范围。阐述了众多的特定细节如特定部件、装置和方法的例子，以提供对本公开的实施例的详尽理解。对于本领域技术人员而言将会明显的是，不需要使用特定的细节，示例实施例可以用许多不同的形式来实施，它们都不应当被解释为限制本公开的范围。在某些示例实施例中，没有详细地描述众所周知的过程、众所周知的结构和众所周知的技术。

图1示出了适用于本公开的神经网络模型的例子。如图1所示，示出了一个简单的四层神经网络，它由一个输入层、二个隐藏层和一个输出层组成。层与层之间的链接表示互连，而这些链接有可以修改的权重。需要说明的是，本公开对于神经网络模型的层数并没有特殊限制。换言之，神经网络模型既可以具有更少的层(如三层)，也可以具有更多的层(如五层或更多)。

神经网络模型可以用在很多方面，例如可以用于模式识别等。具体地，模式识别例如包括人脸识别、说话人识别等。以人脸识别为例，多个人脸图像可以构成样本集合，其中每个样本对应于具体的人脸图像。针对每一个人脸图像，可以提取与之相对应的特征向量，该特征向量例如可以用[x₁,x₂,x_i,…,x_n]来表示。具体的特征向量提取方法在本领域中是众所周知的，本公开对此不再加以详述。

如图1所示，可以将特征向量中的元素作为输入，分别输入到神经网络模型的输入层中的各个神经元中。在这之后，每个隐藏层中的神经元可以计算其输入的加权总和，亦即输入与隐藏层神经元权重的内积，从而形成了网络的激励，这里简单地表示为net。输出单元(输出层的神经元)可以通过对net做非线性变换得到最后结果。

具体地，对于输入层到第一隐藏层，可以得到如下结果：

{net}_{j} = Σ_{i = 1}^{a} x_{i} w_{ji} + w_{j 0} = Σ_{i = 0}^{a} x_{i} w_{ji} = w_{j}^{T} x . (j = 1, . . ., b) . - - - (1)

其中，net_j指示第一隐藏层中的第j个神经元的激励，j＝1，…，b，x_i指示针对输入层中的第i个神经元的输入，i＝1，…，a，w_ji指示从输入层中的第i个神经元至第一隐藏层中的第j个神经元的路径的权重，而w_j0则指示至第一隐藏层中的第j个神经元的路径的权重的偏差。

由此可以得到第一隐藏层的输出如下：

o_j=f(net_j).(j=1，...，b). (2)

其中，o_j指示第一隐藏层中的第j个神经元的输出。

进一步，对于第一隐藏层到第二隐藏层，可以得到如下结果：

{net}_{t} = Σ_{j = 1}^{b} o_{j} w_{tj} + w_{t 0} = Σ_{j = 0}^{b} o_{j} w_{tj} = w_{t}^{T} o . (t = 1, . . ., c) . - - - (3)

其中，net_t指示第二隐藏层中的第t个神经元的激励，t＝1，…，c，o_j指示第一隐藏层中的第j个神经元的输出，j＝1，…，b，w_tj指示从第一隐藏层中的第j个神经元至第二隐藏层中的第t个神经元的路径的权重，而w_t0则指示至第二隐藏层中的第t个神经元的路径的权重的偏差。

由此可以得到第二隐藏层的输出如下：

p_t=f(net_t).(t=1，...，c). (4)

其中，p_t指示第二隐藏层中的第t个神经元的输出。

然后，从第二隐藏层至第三隐藏层(如果有的话)和第三隐藏层到输出层以此类推。本公开可以推广到更多的输入、其他非线性变换以及任意数量的输出单元。以分类任务为例，可以具有若干个输出单元，输出单元中的每一个对应于若干个类别中的每一个。每个输出单元的输出是判别函数gk(x)。这样一来就可以得到

z = f (f (Σ_{t = 1}^{c} f (Σ_{j = 1}^{b} f (Σ_{i = 1}^{a} x_{i} w_{ji} + w_{j 0}) w_{tj} + w_{t 0}) w_{rt} + w_{r 0}) w_{r} + w_{0}) . - - - (5)

其中，z指示输出层的输出。

当尝试学习神经网络的权重W时，可以认为n个模式上的训练误差(或损失函数)是教师给出的期望输出t_k和实际输出z_k之间的平方差之和：

J (w) = \frac{1}{n} Σ_{k = 1}^{n} J_{k} (w) = \frac{1}{n} Σ_{k = 1}^{n} {(t_{k} - z_{k})}^{2} - - - (6)

如果再给予权重W一定的约束(或正则化)如稀疏，那么可以通过最小化以下之和得到权重：

\underset{w}{\min imize} f (w) : = \frac{1}{n} Σ_{k = 1}^{n} J_{k} (w) + λ {| | w | |}_{1} - - - (7)

其中，λ为约束系数，||·||₁指示矩阵的1范数。

本公开提出了一种新的技术方案，可以称之为近增量随机牛顿型梯度法，这是一种近牛顿法的增量变异。根据本公开的方法具有近随机梯度方法的低迭代成本，但是达到了近全梯度法的收敛速度。

图2图示了根据本公开的实施例的神经网络模型训练装置200的结构。如图2所示，根据本公开的实施例的神经网络模型训练装置200可以包括迭代计算单元210以及判断与输出单元220。另外，迭代计算单元210可以进一步包括权重计算单元211、相关函数计算单元212和总相关函数计算单元213。

迭代计算单元210可以对神经网络模型中的路径的权重进行迭代计算。

具体地，权重计算单元211可以计算本次迭代的路径的权重。

接下来，相关函数计算单元212可以从用于训练神经网络模型的样本集合中随机选取一个样本，并根据本次迭代的路径的权重来计算所选样本的相关函数，并且保持所述样本集合中除所选样本之外的其它样本的相关函数不变。这里，样本的相关函数可以是与样本的损失函数相关联的函数。

进一步，总相关函数计算单元213可以根据所选样本的相关函数和其它样本的相关函数来计算本次迭代的总相关函数。

在这之后，判断与输出单元220可以进行判断。当满足停止迭代的条件时，判断与输出单元220可以决定停止迭代，并输出本次迭代的路径的权重作为神经网络模型中的路径的最终权重。

在根据本公开的实施例的神经网络模型训练装置200中，每次迭代时只从样本集合中随机选取一个样本，计算所选样本的相关函数，并且保持其它样本的相关函数不变。这样一来就具有了很低的迭代成本，但是仍然具有较高的收敛速度。该装置不仅在函数目标值方面而且在求解方面都实现了线性收敛速度。

根据本公开的优选实施例，上面提到的相关函数可以是损失函数本身，总相关函数即为总损失函数，并且总损失函数可以是对每个样本的损失函数求平均得到的。

优选地，相关函数计算单元212可以根据权重变量与本次迭代的路径的权重的差值的二阶信息来计算所选样本的损失函数。

优选地，权重计算单元211可以根据本次迭代之前的路径的权重和总损失函数来计算本次迭代的路径的权重。更优选地，权重计算单元211可以使得以本次迭代之前的路径的权重的范数和总损失函数为变量的函数取得最小值时的路径的权重作为本次迭代的路径的权重。

根据本公开的实施例，当判断与输出单元220确定不满足停止迭代的条件时，可以由迭代计算单元210继续对路径的权重进行迭代计算。

根据本公开的优选实施例，判断与输出单元220确定满足停止迭代的条件为：本次迭代的目标函数与本次迭代之前的目标函数之间的差值小于预定阈值。这里，可以根据本次迭代的路径的权重和总损失函数来计算本次迭代的目标函数。优选地，目标函数可以是以样本集合的总损失函数和权重变量的范数为变量的函数。

根据本公开的实施例，样本的损失函数可以是样本输入神经网络模型时的期望输出与实际输出的差值的平方。

根据本公开的另一实施例，上面提到的总相关函数可以是对每个样本的相关函数求平均得到的。优选地，权重计算单元211可以根据本次迭代之前的路径的权重和总相关函数来计算权重增量，并且可以根据权重增量和本次迭代之前的路径的权重来计算本次迭代的路径的权重。更优选地，权重计算单元211可以根据权重增量的二阶信息、本次迭代之前的路径的权重以及总相关函数来计算权重增量。

下面结合图3来进一步详细地描述本公开的技术方案。图3图示了根据本公开的实施例的神经网络模型训练方法。

如图3所示，在步骤S310中，进行初始化。

具体地，选择初始权重W⁰，其中上标0指示第0次迭代。对于每一个训练样本i∈{1，2，..，n}，可以令成为初始权重W⁰下与第i个模式(亦即样本)相关联的损失函数J_i(W)的Hessian矩阵的正定逼近。

进一步，令

J_{i}^{0} (W) = J_{i} (W^{0}) + {(W - W^{0})}^{T} &dtri; J_{i} (W^{0}) + \frac{1}{2} {(W - W^{0})}^{T} H_{0}^{i} (W - W^{0})

成为初始权重W⁰下的损失函数Ji(W)的二次逼近，于是自然就成为初始权重W⁰下的总损失函数J(W)的二次逼近。

接下来，在步骤S320中，求解子问题以得到权重新的逼近。

具体地，例如可以通过以下公式(8)来得到权重新的逼近：

W^k+1←ar gmin_W[G^k(x)+λ||W||₁] (8)

接下来，在步骤S330中，更新所选样本的损失函数，并且保持其它样本的损失函数不变。

具体地，可以从样本集{1，2，..，n}中选择样本j，并且通过以下公式(9)来更新最新权重W^k+1下的损失函数J_j(W)的二次逼近：

J_{j}^{k + 1} (W) = J_{j} (W^{k + 1}) + {(W - W^{k + 1})}^{T} &dtri; J_{j} (W^{k + 1}) + \frac{1}{2} {(W - W^{k + 1})}^{T} H_{k + 1}^{i} (W - W^{k + 1}) - - - (9)

同时保留所有其它损失函数不变：并且

G^{k + 1} (x) = \frac{1}{n} Σ_{i = 1}^{n} J_{i}^{k + 1} (W) .

接下来，在步骤S340中，判断是否满足停止条件，亦即结果是否收敛。如果结果为“否”，则过程返回到步骤S320，继续进行迭代。另一方面，如果结果为“是”，则过程前进到步骤S350。

在步骤S350中，可以输出本次迭代的路径的权重W^k作为神经网络模型中的路径的最终权重。在这之后，过程结束。

下面结合图4来进一步详细地描述本公开的技术方案。图4图示了根据本公开的另一实施例的神经网络模型训练方法。需要说明的是，如图4所示的技术方案与如图3所示的技术方案相比在本质上是等价的，且更易于分析。

如图4所示，在步骤S410中，进行初始化。

具体地，选择初始权重W⁰，其中上标0指示第0次迭代。对于每一个训练样本i∈{1，2，..，n}，可以令成为初始权重W⁰下与第i个样本相关联的损失函数J_i(W)的Hessian矩阵的正定逼近。

进一步，可以令梯度相关量并且

{&dtri;}_{0} = \frac{1}{n} Σ_{i = 1}^{n} {&dtri;}_{0}^{i}, H_{0} = \frac{1}{n} Σ_{i = 0}^{n} H_{0}^{i} .

接下来，在步骤S420中，求解子问题以得到权重的更新量。

具体地，例如可以通过以下公式(10)来得到权重的更新量：

Δ W^{k} &LeftArrow; \arg \min_{d} d^{T} ({&dtri;}_{k} + H_{k} W^{k}) + \frac{1}{2} d^{T} H_{k} d + λ {| | W^{k} + d | |}_{1} - - - (10)

接下来，在步骤S420中，对本次迭代的路径的权重进行更新。

具体地，例如可以通过以下公式(11)来得到更新的本次迭代的路径的权重：

W^k+1=W^k+ΔW^k (11)

接下来，在步骤S440中，更新所选样本的Hessian矩阵和梯度相关量。

具体地，可以从样本集{1，2，..，n}中选择样本j，使用和(其为权重W^k+1下的损失函数J_j(W)的Hessian矩阵的正定逼近)，通过以下公式(12)来更新

{&dtri;}_{k + 1}^{j} &LeftArrow; &dtri; J_{j} (W^{k + 1}) - H_{k + 1}^{j} W^{k + 1} - - - (12)

同时，保留所有其它和不变：并且最终，通过以下公式获得和：

{&dtri;}_{k + 1} &LeftArrow; \frac{1}{n} Σ_{i = 1}^{n} {&dtri;}_{k + 1}^{i}, H_{k + 1} &LeftArrow; \frac{1}{n} Σ_{i = 1}^{n} H_{k + 1}^{i}

接下来，在步骤S450中，判断是否满足停止条件，亦即结果是否收敛。如果结果为“否”，则过程返回到步骤S420，继续进行迭代。另一方面，如果结果为“是”，则过程前进到步骤S460。

在步骤S460中，可以输出本次迭代的路径的权重W^k作为神经网络模型中的路径的最终权重。在这之后，过程结束。

下面结合图5来描述根据本公开的实施例的神经网络模型训练方法。根据本公开的方法可以用于训练神经网络模型以便进行模式识别。

如图5所示，根据本公开的实施例的神经网络模型训练方法开始于步骤S510。在步骤S510中，计算本次迭代的路径的权重。

接下来，在步骤S520中，从用于训练神经网络模型的样本集合中随机选取一个样本，并根据本次迭代的路径的权重来计算所选样本的相关函数，并且保持样本集合中除所选样本之外的其它样本的相关函数不变。这里，样本的相关函数是与样本的损失函数相关联的函数。

接下来，在步骤S530中，根据所选样本的相关函数和其它样本的相关函数来计算本次迭代的总相关函数。

接下来，在步骤S540中判断是否满足停止迭代的条件。

当在步骤S540中判断满足停止迭代的条件时，过程前进到步骤S550。在步骤S550中，输出本次迭代的路径的权重作为神经网络模型中的路径的最终权重。在这之后，过程结束。

另一方面，当在步骤S540中判断不满足停止迭代的条件时，过程返回到步骤S510，以继续进行下一次迭代。

根据本公开的实施例，上面提到的相关函数可以是损失函数，总相关函数即为总损失函数，并且总损失函数可以是对每个样本的损失函数求平均得到的。

根据本公开的实施例，在步骤S520中，根据本次迭代的路径的权重来计算所选样本的损失函数可以包括：根据权重变量与本次迭代的路径的权重的差值的二阶信息来计算所选样本的损失函数。

根据本公开的实施例，在步骤S510中，计算本次迭代的路径的权重可以包括：根据本次迭代之前的路径的权重和总损失函数来计算本次迭代的路径的权重。更优选地，根据本次迭代之前的路径的权重和总损失函数来计算本次迭代的路径的权重可以包括：使得以本次迭代之前的路径的权重的范数和总损失函数为变量的函数取得最小值时的路径的权重作为本次迭代的路径的权重。

根据本公开的实施例，在步骤S540中，判断停止迭代的条件可以是：本次迭代的目标函数与本次迭代之前的目标函数之间的差值小于预定阈值。这里，可以根据本次迭代的路径的权重和总损失函数来计算本次迭代的目标函数。

根据本公开的实施例，目标函数可以是以样本集合的总损失函数和权重变量的范数为变量的函数。

根据本公开的实施例，上面提到的总相关函数可以是对每个样本的相关函数求平均得到的。

根据本公开的实施例，在步骤S510中，计算本次迭代的路径的权重可以包括：根据本次迭代之前的路径的权重和总相关函数来计算权重增量；以及根据权重增量和本次迭代之前的路径的权重来计算本次迭代的路径的权重。更优选地，根据本次迭代之前的路径的权重和总相关函数来计算权重增量可以包括：根据权重增量的二阶信息、本次迭代之前的路径的权重以及总相关函数来计算权重增量。

根据本公开的实施例的神经网络模型训练方法的上述步骤的各种具体实施方式前面已经作过详细描述，在此不再重复说明。

本公开提出了一种用于训练神经网络的近增量牛顿型梯度法。针对光滑强凸问题，可以证明本公开的技术方案不仅与MISO、SAG、Prox-SVRG和Prox-SDCA具有相同的线性收敛性质，而且其求解也具有线性收敛速率。更进一步，在本公开中所提出的技术原则除了可以用于伊辛模型、Hopfield神经网络、多层感知和深卷积网络autoencoder等神经网络应用，还可以应用于逻辑回归、独立成分分析等。

显然，根据本公开的神经网络模型训练方法的各个操作过程可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。

而且，本公开的目的也可以通过下述方式实现：将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备，并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。此时，只要该系统或者设备具有执行程序的功能，则本公开的实施方式不局限于程序，并且该程序也可以是任意的形式，例如，目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。

上述这些机器可读存储介质包括但不限于：各种存储器和存储单元，半导体设备，磁盘单元例如光、磁和磁光盘，以及其它适于存储信息的介质等。

另外，计算机通过连接到因特网上的相应网站，并且将依据本公开的计算机程序代码下载和安装到计算机中然后执行该程序，也可以实现本公开的技术方案。

如图6所示，CPU 1301根据只读存储器(ROM)1302中存储的程序或从存储部分1308加载到随机存取存储器(RAM)1303的程序执行各种处理。在RAM 1303中，也根据需要存储当CPU 1301执行各种处理等等时所需的数据。CPU 1301、ROM 1302和RAM 1303经由总线1304彼此连接。输入/输出接口1305也连接到总线1304。

下述部件连接到输入/输出接口1305：输入部分1306(包括键盘、鼠标等等)、输出部分1307(包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，以及扬声器等)、存储部分1308(包括硬盘等)、通信部分1309(包括网络接口卡比如LAN卡、调制解调器等)。通信部分1309经由网络比如因特网执行通信处理。根据需要，驱动器1310也可连接到输入/输出接口1305。可拆卸介质1311比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1310上，使得从中读出的计算机程序根据需要被安装到存储部分1308中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质1311安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图6所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1311。可拆卸介质1311的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 1302、存储部分1308中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

在本公开的系统和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

以上虽然结合附图详细描述了本公开的实施例，但是应当明白，上面所描述的实施方式只是用于说明本公开，而并不构成对本公开的限制。对于本领域的技术人员来说，可以对上述实施方式作出各种修改和变更而没有背离本公开的实质和范围。因此，本公开的范围仅由所附的权利要求及其等效含义来限定。

关于包括以上实施例的实施方式，还公开下述的附记：

附记1.一种神经网络模型训练装置，包括：

迭代计算单元，用于对神经网络模型中的路径的权重进行迭代计算；以及

判断与输出单元，用于当满足停止迭代的条件时，停止迭代，并输出本次迭代的路径的权重作为所述神经网络模型中的路径的最终权重，

其中，所述迭代计算单元包括：

权重计算单元，用于计算本次迭代的路径的权重；

相关函数计算单元，用于从用于训练所述神经网络模型的样本集合中随机选取一个样本，并根据本次迭代的路径的权重来计算所选样本的相关函数，并且保持所述样本集合中除所选样本之外的其它样本的相关函数不变，其中样本的相关函数是与所述样本的损失函数相关联的函数；以及

总相关函数计算单元，用于根据所选样本的相关函数和所述其它样本的相关函数来计算本次迭代的总相关函数。

附记2.根据附记1所述的装置，其中，所述相关函数为损失函数，所述总相关函数为总损失函数，并且所述总损失函数是对每个样本的损失函数求平均得到的。

附记3.根据附记2所述的装置，其中，所述相关函数计算单元根据权重变量与本次迭代的路径的权重的差值的二阶信息来计算所选样本的损失函数。

附记4.根据附记2所述的装置，其中，所述权重计算单元根据本次迭代之前的路径的权重和总损失函数来计算本次迭代的路径的权重。

附记5.根据附记4所述的装置，其中，所述权重计算单元使得以所述本次迭代之前的路径的权重的范数和所述总损失函数为变量的函数取得最小值时的路径的权重作为本次迭代的路径的权重。

附记6.根据附记1所述的装置，其中，当所述判断与输出单元确定不满足停止迭代的条件时，由所述迭代计算单元继续对路径的权重进行迭代计算。

附记7.根据附记2所述的装置，其中，所述判断与输出单元确定满足停止迭代的条件为：

本次迭代的目标函数与本次迭代之前的目标函数之间的差值小于预定阈值，

其中根据本次迭代的路径的权重和总损失函数来计算本次迭代的目标函数。

附记8.根据附记7所述的装置，其中，所述目标函数是以所述样本集合的总损失函数和权重变量的范数为变量的函数。

附记9.根据附记2所述的装置，其中，所述样本的损失函数是所述样本输入所述神经网络模型时的期望输出与实际输出的差值的平方。

附记10.根据附记1所述的装置，其中，所述总相关函数是对每个样本的相关函数求平均得到的。

附记11.根据附记10所述的装置，其中，所述权重计算单元根据本次迭代之前的路径的权重和总相关函数来计算权重增量，并且根据所述权重增量和本次迭代之前的路径的权重来计算本次迭代的路径的权重。

附记12.根据附记11所述的装置，其中，所述权重计算单元根据权重增量的二阶信息、本次迭代之前的路径的权重以及总相关函数来计算所述权重增量。

附记13.一种用于训练神经网络模型以便进行模式识别的方法，包括：

对所述神经网络模型中的路径的权重进行迭代计算；以及

当满足停止迭代的条件时，停止迭代，并输出本次迭代的路径的权重作为所述神经网络模型中的路径的最终权重，

其中对所述神经网络模型中的路径的权重进行迭代计算包括：

计算本次迭代的路径的权重；

从用于训练所述神经网络模型的样本集合中随机选取一个样本，并根据本次迭代的路径的权重来计算所选样本的相关函数，并且保持所述样本集合中除所选样本之外的其它样本的相关函数不变，其中样本的相关函数是与所述样本的损失函数相关联的函数；以及

根据所选样本的相关函数和所述其它样本的相关函数来计算本次迭代的总相关函数。

附记14.根据附记13所述的方法，其中，所述相关函数为损失函数，所述总相关函数为总损失函数，并且所述总损失函数是对每个样本的损失函数求平均得到的。

附记15.根据附记14所述的方法，其中，根据本次迭代的路径的权重来计算所选样本的损失函数包括：根据权重变量与本次迭代的路径的权重的差值的二阶信息来计算所选样本的损失函数。

附记16.根据附记14所述的方法，其中，计算本次迭代的路径的权重包括：根据本次迭代之前的路径的权重和总损失函数来计算本次迭代的路径的权重。

附记17.根据附记16所述的方法，其中，根据本次迭代之前的路径的权重和总损失函数来计算本次迭代的路径的权重包括：使得以所述本次迭代之前的路径的权重的范数和所述总损失函数为变量的函数取得最小值时的路径的权重作为本次迭代的路径的权重。

附记18.根据附记13所述的方法，其中，当不满足停止迭代的条件时，返回对路径的权重进行迭代计算的步骤。

附记19.根据附记14所述的方法，其中，停止迭代的条件为：

附记20.一种机器可读存储介质，其上携带有包括存储在其中的机器可读指令代码的程序产品，其中，所述指令代码当由计算机读取和执行时，能够使所述计算机执行根据附记13-19中任何一项所述的方法。

Claims

1.一种神经网络模型训练装置，包括：

其中，所述迭代计算单元包括：

权重计算单元，用于计算本次迭代的路径的权重；

2.根据权利要求1所述的装置，其中，所述相关函数为损失函数，所述总相关函数为总损失函数，并且所述总损失函数是对每个样本的损失函数求平均得到的。

3.根据权利要求2所述的装置，其中，所述相关函数计算单元根据权重变量与本次迭代的路径的权重的差值的二阶信息来计算所选样本的损失函数。

4.根据权利要求2所述的装置，其中，所述权重计算单元根据本次迭代之前的路径的权重和总损失函数来计算本次迭代的路径的权重。

5.根据权利要求4所述的装置，其中，所述权重计算单元使得以所述本次迭代之前的路径的权重的范数和所述总损失函数为变量的函数取得最小值时的路径的权重作为本次迭代的路径的权重。

6.根据权利要求1所述的装置，其中，当所述判断与输出单元确定不满足停止迭代的条件时，由所述迭代计算单元继续对路径的权重进行迭代计算。

7.根据权利要求2所述的装置，其中，所述判断与输出单元确定满足停止迭代的条件为：

8.根据权利要求7所述的装置，其中，所述目标函数是以所述样本集合的总损失函数和权重变量的范数为变量的函数。

9.根据权利要求2所述的装置，其中，所述样本的损失函数是所述样本输入所述神经网络模型时的期望输出与实际输出的差值的平方。

10.一种用于训练神经网络模型以便进行模式识别的方法，包括：

对所述神经网络模型中的路径的权重进行迭代计算；以及

计算本次迭代的路径的权重；