CN104598972A

CN104598972A - 一种大规模数据回归神经网络快速训练方法

Info

Publication number: CN104598972A
Application number: CN201510032856.1A
Authority: CN
Inventors: 杨广文; 李连登; 付昊桓; 袁龙
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2015-01-22
Filing date: 2015-01-22
Publication date: 2015-05-06

Abstract

本发明涉及一种大规模数据回归神经网络快速训练方法，属于机器学习技术领域，该方法采用平均梯度方向和梯度残差主成分方向同时更新内部系数的大规模数据进行回归神经网络快速训练，通过误差反传得到各训练样本处目标函数对内部系数的梯度后，对训练样本进行分组，根据各训练样本处目标函数值分别对整个训练样本集和各组的梯度加权平均，在全局平均梯度和组平均梯度与全局平均梯度正交的残差主成分方向共同更新内部系数。本方法能够以较低的计算代价有效利用各训练样本处梯度信息，减小迭代步数，提升RNN训练过程的计算效率。

Description

一种大规模数据回归神经网络快速训练方法

技术领域

本发明属于机器学习技术领域，特别是面向大规模数据信息处理、高维时间序列分析等方面的语音识别和自然语言处理等应用。

背景技术

当代数据采集技术生成了大量复杂数据，其中包含着丰富的信息，对生产、科研技术中各方面应用领域有着巨大的潜在价值。而从大规模数据中提取有用信息，需要有效的数据处理方法。人工神经网络是应用最为广泛的数据信息提取方法之一，在计算机视觉、语音识别和自然语言处理中展现了突出的性能。

人工神经网络(Artificial Neural Network,ANN)，简称神经网络(Neural Network,NN)，是一种模仿生物神经网络结构和功能的计算模型。人工神经网络由大量的人工神经元联结进行计算。ANN能够通过训练，根据外界信息改变内部结构，是一种非线性统计性数据建模工具，常用来对输入和输出间复杂的关系进行建模，或用来探索数据的内在相关性。

ANN由大量的节点(神经元)和其之间相互联接构成。每个节点代表一种特定的输出函数，称为激励函数。每两个节点间的连接都通过一个权重进行加权，该权重可看作人工神经网络的记忆，可通过训练进行调整。ANN的输出由输入、网络连接方式，权重值和激励函数共同决定。在功能上，ANN是某种算法或者函数的逼近，也可能是对一种逻辑策略的表达。

回归神经网络(Regression Neural Network,RNN)是人工神经网络中的一类，该方法在时域信号处理中引入来自历史层的回归连接，能够有效利用信号的时序相关性，对非线性时间序列信号中的有效信息有突出的表示能力。

RNN引入了多个时间层,其在某时间层的输出向量即为从数据中提取的信息，由该层之前若干时间层的输入向量和权重矩阵、偏置向量共同决定，可用于表示某种数据的分类结果，或是对其后时间层的预测等。隐藏层能够存储大量信息，非线性激活函数以及多时间层信息的结合应用使得RNN能够有效捕获数据的时空相关性，对高维非线性时间序列具有强大的拟合乃至预测能力。RNN的定义为表达式(1)式：

\{\begin{matrix} v_{i} = W_{hx} x_{i} + W_{hh} h_{i - 1} + b_{h} \\ h_{i} = f (v_{i}) \\ s_{i} = W_{yh} h_{i} + b_{y} \\ {\hat{y}}_{i} = g (s_{i}) \end{matrix} - - - (1)

其中，x_i为第i时间层的输入向量，为第i时间层的输出向量，h_i为第i时间层的隐藏层输出向量，i为正整数，W_hx、W_hh和W_yh分别为输入权重矩阵、隐含权重矩阵及输出权重矩阵，b_h、b_y分别为隐含层的偏置向量、输出层的偏置向量，f、g分别表示为隐含层的非线性激励函数、输出层的非线性激励函数，可取为或本发明中将权重矩阵W_hx、W_hh、W_yh和偏置向量b_h、b_y中的值称为内部系数，统一用W表示。RNN连接方式如图1所示，图中圆圈表示人工神经元。

为使RNN能够从数据中提取正确的信息，需要通过训练样本对其进行训练，调整网络中的内部系数，使其能够反映输入到输出的关系。RNN的训练中，一般以RNN输出与训练样本输出的误差最小化为目标，通过误差反传得出目标函数对内部系数的偏导，然后采用梯度下降法更新内部系数。该训练方法的具体流程如下：

步骤1.训练样本集正演：遍历训练样本集，将每个训练样本的输入向量x_i输入到回归神经网络RNN中，计算生成每个训练样本的输出向量其中，i是时间层数，为正整数；

步骤2.目标函数生成：根据训练样本集正演所得的每个输出向量与训练样本相应观测向量y_i，生成目标函数J(W)，目标函数表达式为(2)式：

J(W)_＝Σ_iJ_i(W) (2)

其中，或y_ij,分别为第i时间层中第j个训练样本的观测向量、输出向量，Σ_i为以i为变量的求和计算符号；

步骤3.训练结果判定：如果训练样本集中所有训练样本的目标函数平均值小于预定阈值(根据具体应用设值)，训练成功，或训练次数大于规定上限(根据具体应用设值)，训练失败，均终止训练；否则，执行步骤4；

步骤4.误差反传：对每个训练样本，按照表达式(3)式进行误差反传；

其中，ο表示对应项相乘，f'，g'分别为非线性激励函数f和g的偏导数，T为矩阵转置运算符号，为偏导数运算符号；

步骤5.生成目标函数对内部系数的梯度：对每个训练样本，计算生成目标函数对内部系数的梯度，表达式为(4)式：

\{\begin{matrix} {&PartialD; J (W) / ({&PartialD; W}_{yh})}_{jk} = Σ_{i} {(h_{i})}_{k} {(δ_{{BPs}_{i}})}_{j} \\ {&PartialD; J (W) / ({&PartialD; W}_{hh})}_{jk} = Σ_{i} {(h_{i - 1})}_{k} {(δ_{{BPv}_{i}})}_{j} \\ {&PartialD; J (W) / ({&PartialD; W}_{hx})}_{jk} = Σ_{i} {(x_{i})}_{k} {(δ_{{BPv}_{i}})}_{j} \\ {&PartialD; J (W) / ({&PartialD; b}_{y})}_{j} = Σ_{i} {(δ_{{BPs}_{i}})}_{j} \\ {&PartialD; J (W) / ({&PartialD; b}_{h})}_{j} = Σ_{i} {(δ_{{BPv}_{i}})}_{j} \end{matrix} - - - (4)

其中，i表示时间层，j，k为内部系数的元素编号，i，j，k都为正整数；

步骤6.更新权重矩阵和偏置向量组成的内部系数：计算所有训练样本处目标函数对内部系数的平均梯度，按负平均梯度乘预定的学习因子η更新内部系数W，表达式为(5)式：

W_n+1＝W_n-η▽J(W_n) (5)

其中，▽J(W_n)为n步时权重矩阵和偏置向量W_n的更新量，n为更新步数；

步骤7.训练次数增加1，转步骤1。

上述方法运用误差反传的方式，能够以很低的计算代价得到各训练样本处目标函数对内部系数的梯度。但是，步骤6中的更新方式，只利用平均梯度，更新步长依赖于预设的学习因子，虽然具备较强的正则化能力，但没有充分利用各训练样本处的梯度和目标函数信息，导致收敛较慢，迭代步数多。有效减少迭代步数，是加速训练过程的关键，意义十分重要。

发明内容

本发明目的是克服已有RNN训练技术迭代步数多、收敛慢的不足，提出一种大规模数据回归神经网络快速训练方法，能够以较低的计算代价有效利用各训练样本处梯度信息和目标函数值的信息，减小迭代步数，有效增强单次更新的效果，减小总的更新步数，大幅加快训练速度，提升RNN训练过程的计算效率。

本发明提出了一种大规模数据回归神经网络快速训练方法其特征在于，该方法采用平均梯度方向和梯度残差主成分方向同时更新内部系数的大规模数据进行回归神经网络快速训练，通过误差反传得到各训练样本处目标函数对内部系数的梯度后，对训练样本进行分组，根据各训练样本处目标函数值分别对整个训练样本集和各组的梯度加权平均，在全局平均梯度和组平均梯度与全局平均梯度正交的残差主成分方向共同更新内部系数。

该方法具体包括以下步骤：

J(W)_＝Σ_iJ_i(W) (2)

其中，或y_ij,分别为第i时间层中第j个训练样本的观测值、输出值；

步骤3.训练结果判定：如果训练样本集中所有训练样本的目标函数平均值小于预定阈值，训练成功，或训练次数大于规定上限，训练失败，均终止训练；否则，执行步骤4；

步骤4.误差反传：对每个训练样本，按照(3)式进行误差反传；

其中，ο表示对应项相乘，f'，g'分别为非线性激励函数f和g的偏导数，T为矩阵转置运算符号；

步骤5.生成目标函数对内部系数的梯度：对每个训练样本，按照(4)式计算目标函数对内部系数的梯度；

\{\begin{matrix} {&PartialD; J (W) / ({&PartialD; W}_{yh})}_{jk} = Σ_{i} {(h_{i})}_{k} {(δ_{{BPs}_{i}})}_{j} \\ {&PartialD; J (W) / ({&PartialD; W}_{hh})}_{jk} = Σ_{i} {(h_{i - 1})}_{k} {(δ_{{BPv}_{i}})}_{j} \\ {&PartialD; J (W) / ({&PartialD; W}_{hx})}_{jk} = Σ_{i} {(x_{i})}_{k} {(δ_{{BPv}_{i}})}_{j} \\ {&PartialD; J (W) / ({&PartialD; b}_{y})}_{j} = Σ_{i} {(δ_{{BPs}_{i}})}_{j} \\ {&PartialD; J (W) / ({&PartialD; b}_{h})}_{j} = Σ_{i} {(δ_{{BPv}_{i}})}_{j} \end{matrix} - - - (4)

其中，i表示时间层，j，k为内部系数的元素编号，i，j，k均为正整数；

步骤6.更新权重矩阵和偏置向量组成的内部系数：对训练样本进行分组，对每组训练样本生成平均梯度方向和与其正交的组平均梯度残差方向，并计算平均梯度方向和平均梯度残差方向的更新量；采用一阶近似求解更新后的优化目标函数||GδW+J||²使残差余量-J最小，即求解表达式如(6)、(7)式：

\underset{δW}{\arg \min} {| | GδW + J | |}^{2} - - - (6)

GδW＝-J (7)

其中，G＝(g_1,…g_M)^T为梯度矩阵，-J为残差余量，g_m为第m号训练样本处的梯度，M为训练样本个数；

步骤7.训练次数增加1，转步骤1。

上述步骤6)具体包括以下步骤：

步骤6-1以联系紧密的内容(如自然语言数据中的段,篇)为最小单位，按随机抽样的方式，将训练样本集分为L组，其中L为正整数；

步骤6-2计算训练样本集全局平均更新量和每组的平均更新量表达式为(8)式：

\{\begin{matrix} δ \overset{&OverBar;}{W} = \frac{1}{M} Σ_{m = 1}^{M} {δW}_{m} \\ δ {\tilde{W}}_{l} = \frac{1}{M_{l}} Σ_{m = m_{\min l}}^{m_{ninl} + M_{l}} {δW}_{m} \end{matrix} - - - (8)

其中δW_m＝-g_mJ_m/||g_m||²，g_m为第m号训练样本处的梯度，J_m为第m号训练样本处的残差，M为训练样本个数，M_l为组l的训练样本数个数，l∈{1,2,…,L}；

步骤6-3计算每组的平均残差与平均梯度表达式为(9)式：

\{\begin{matrix} - {\tilde{J}}_{l} = \frac{1}{M_{l}} Σ_{m = m_{\min l}}^{m_{\min l} + M_{l}} \\ {\tilde{g}}_{l} = - {\tilde{J}}_{l} δ {\tilde{W}}_{l} / {| | δ {\tilde{W}}_{l} | |}^{2} \end{matrix} - - - (9)

其中l∈{1,2,…,L}，记为L个组的平均梯度矩阵，T为矩阵转置运算符号；

步骤6-4计算每组的平均梯度在该全局平均更新量方向(即全局平均梯度反方向)的投影，表达式为(10)式：

{\overset{&OverBar;}{\tilde{g}}}_{l} = δ {\overset{&OverBar;}{W}}^{T} {\tilde{g}}_{l} δ \overset{&OverBar;}{W} / {| | δ \overset{&OverBar;}{W | |}}^{2} - - - (10)

其中，为每组的平均梯度均值，l∈{1,2,…,L}，记为L个组的平均梯度均值矩阵；

步骤6-5计算L个组的平均梯度残差矩阵

步骤6-6计算全局残差余量

步骤6-7计算正交矩阵H和上三角矩阵

首先，定义δW'为与全局平均更新量正交的补偿更新量，由优化目标函数(7)式可得：

- \tilde{J} = ({\tilde{G}}^{'} + \overset{&OverBar;}{\tilde{G}}) ({δW}^{'} + δ \overset{&OverBar;}{W}) = {\tilde{G}}^{'} {δW}^{'} + \overset{&OverBar;}{\tilde{G}} δ \overset{&OverBar;}{W} - - - (11)

则，有表达式(12)式：

{\tilde{G}}^{'} {δW}^{'} = - {\tilde{J}}^{'} - - - (12)

其次，由于L个组的平均梯度残差矩阵可能高度不稳定，需加入正则化项，将式(11)、(12)转变为求解表达式(13)式：

({\tilde{G}}^{' T} {\tilde{G}}^{'} + λI) {δW}^{'} = - {\tilde{G}}^{' T} {\tilde{J}}^{'} - - - (13)

设的数学期望为0，即由式(13)可得表达式(14)式：

({\tilde{G}}^{' T} {\tilde{G}}^{'} + λI) {δW}^{'} \approx {({\tilde{G}}^{'} + \sqrt{λ} I)}^{T} ({\tilde{G}}^{'} + \sqrt{λ} I) {δW}^{'} - - - (14)

其中，λ为预定义的正则化常数，满足0＜λ＜1；I为单位矩阵；

最后，用Household变换对进行正交上三角分解得表达式为(15)式由此，可求得补偿更新量δW'的表达式为(16)式；

{({\tilde{G}}^{'} + \sqrt{λ} I)}^{T} = HV - - - (15)

{δW}^{'} = - H {({\hat{V} \hat{V}}^{T})}^{- 1} H^{T} {\tilde{G}}^{' T} {\tilde{J}}^{'} - - - (16)

其中，每次变换选主元,即当剩余部分向量模小于预定值时截断，截断后，主元为上三角矩阵V，非零部分共有P行，记V的前P行为；正交矩阵H用一系列Household变换的叠加表示，表达式为(17)式：

H = Π_{p = 1}^{P} (I - {2 ω}_{p} {ω_{p}}^{T}) - - - (17)

其中，ω_p为相应Household向量；

步骤6-8根据步骤6-5得出的组平均梯度残差矩阵步骤6-6计算得出的全局残差余量以及步骤6-7计算得出的H和按照表达式(16)计算组平均梯度残差主成分方向的补偿更新量δW'；

步骤6-9根据步骤6-2得到的全局平均更新量及步骤6-8得到的补偿更新量δW'，按照表达式(18)式计算训练样本集总的内部系数更新量δW

δW = δ \overset{&OverBar;}{W} + {δW}^{'} - - - (18) .

本发明的特点及有益效果：

本发明方法基于常规的RNN训练方法，对步骤6的更新权重矩阵和偏置向量组成的内部系数的方法进行了实质性的改进，即采用平均梯度方向和梯度残差主成分方向同时更新内部系数的大规模数据回归神经网络快速训练方法，以改进内部系数更新的方式，使本方法具有如下特点和有益效果：

一、同时考虑多个主要更新方向，并自动确定各方向最优更新步长；

二、更新的主方向(平均梯度方向)同时反映各训练样本处目标函数值及其梯度信息；

三、各更新方向相互正交，在一阶近似下，任一更新方向的更新不会损害其他方向更新的效果。因此，该方法能够有效减少总迭代步数，大幅加快RNN训练速度。同时，该方法单个迭代步增加的计算量小，且易于并行。

附图说明

图1为本发明方法中的RNN的连接方式；

图2为本发明方法中的RNN的训练流程图。

具体实施方式

本发明提出了一种大规模数据回归神经网络快速训练方法结合附图及实施例进一步说明如下：

该方法具体包括以下步骤：

J(W)_＝Σ_iJ_i(W) (2)

\{\begin{matrix} {&PartialD; J (W) / ({&PartialD; W}_{yh})}_{jk} = Σ_{i} {(h_{i})}_{k} {(δ_{{BPs}_{i}})}_{j} \\ {&PartialD; J (W) / ({&PartialD; W}_{hh})}_{jk} = Σ_{i} {(h_{i - 1})}_{k} {(δ_{{BPv}_{i}})}_{j} \\ {&PartialD; J (W) / ({&PartialD; W}_{hx})}_{jk} = Σ_{i} {(x_{i})}_{k} {(δ_{{BPv}_{i}})}_{j} \\ {&PartialD; J (W) / ({&PartialD; b}_{y})}_{j} = Σ_{i} {(δ_{{BPs}_{i}})}_{j} \\ {&PartialD; J (W) / ({&PartialD; b}_{h})}_{j} = Σ_{i} {(δ_{{BPv}_{i}})}_{j} \end{matrix} - - - (4)

\underset{δW}{\arg \min} {| | GδW + J | |}^{2} - - - (6)

GδW＝-J (7)

具体包括以下步骤：

\{\begin{matrix} δ \overset{&OverBar;}{W} = \frac{1}{M} Σ_{m = 1}^{M} {δW}_{m} \\ δ {\tilde{W}}_{l} = \frac{1}{M_{l}} Σ_{m = m_{\min l}}^{m_{ninl} + M_{l}} {δW}_{m} \end{matrix} - - - (8)

步骤6-3计算每组的平均残差与平均梯度表达式为(9)式：

\{\begin{matrix} - {\tilde{J}}_{l} = \frac{1}{M_{l}} Σ_{m = m_{\min l}}^{m_{\min l} + M_{l}} \\ {\tilde{g}}_{l} = - {\tilde{J}}_{l} δ {\tilde{W}}_{l} / {| | δ {\tilde{W}}_{l} | |}^{2} \end{matrix} - - - (9)

{\overset{&OverBar;}{\tilde{g}}}_{l} = δ {\overset{&OverBar;}{W}}^{T} {\tilde{g}}_{l} δ \overset{&OverBar;}{W} / {| | δ \overset{&OverBar;}{W | |}}^{2} - - - (10)

步骤6-5计算L个组的平均梯度残差矩阵

步骤6-6计算全局残差余量

步骤6-7计算正交矩阵H和上三角矩阵

- \tilde{J} = ({\tilde{G}}^{'} + \overset{&OverBar;}{\tilde{G}}) ({δW}^{'} + δ \overset{&OverBar;}{W}) = {\tilde{G}}^{'} {δW}^{'} + \overset{&OverBar;}{\tilde{G}} δ \overset{&OverBar;}{W} - - - (11)

则，有表达式(12)式：

{\tilde{G}}^{'} {δW}^{'} = - {\tilde{J}}^{'} - - - (12)

({\tilde{G}}^{' T} {\tilde{G}}^{'} + λI) {δW}^{'} = - {\tilde{G}}^{' T} {\tilde{J}}^{'} - - - (13)

设的数学期望为0，即由式(13)可得表达式(14)式：

({\tilde{G}}^{' T} {\tilde{G}}^{'} + λI) {δW}^{'} \approx {({\tilde{G}}^{'} + \sqrt{λ} I)}^{T} ({\tilde{G}}^{'} + \sqrt{λ} I) {δW}^{'} - - - (14)

最后，用Household变换对进行正交上三角分解得表达式为(15)式(每次变换选主元,设定预定值：当剩余部分向量最大模乘以剩余行数小于V中已求得对角元绝对值之和的1/99时截断,截断后剩余的方向为非主要成分，信息量少，容易造成不稳定，因此不在这些方向上更新)由此，可求得补偿更新量的表达式为(16)式；

{({\tilde{G}}^{'} + \sqrt{λ} I)}^{T} = HV - - - (15)

{δW}^{'} = - H {({\hat{V} \hat{V}}^{T})}^{- 1} H^{T} {\tilde{G}}^{' T} {\tilde{J}}^{'} - - - (16)

其中，每次变换选主元,即当剩余部分向量模小于上述预定值时截断，截断后，主元为上三角矩阵V，非零部分共有P行，记V的前P行为正交矩阵H用一系列Household变换的叠加表示，表达式为(17)式：

H = Π_{p = 1}^{P} (I - {2 ω}_{p} {ω_{p}}^{T}) - - - (17)

其中，ω_p为相应Household向量；

步骤6-9根据步骤6-2得到的全局平均更新量及步骤6-8得到的补偿更新量δW'，按照表达式(18)式计算训练样本集总的内部系数更新量δW：

δW = δ \overset{&OverBar;}{W} + {δW}^{'} - - - (18)

步骤7.训练次数增加1，转步骤1。

本发明采用平均梯度方向和梯度残差主成分方向同时更新内部系数的RNN快速训练方法的区别技术特征是：一、该方法以意义关联紧密的训练样本为基本单元，以随机抽样的方式对训练样本集进行分组；二、该方法根据目标函数值对各训练样本处的梯度加权平均，得到全局平均梯度和组平均梯度；三、该方法将组平均梯度分解为在全局平均梯度方向的投影及与其正交的残差；四、该方法采用基于Household变换的正交上三角分解求梯度残差的主成分；五、该方法在全局平均梯度方向和组平均梯度残差主成分方向同时更新，并通过目标函数值自动确定各方向最优更新步长，更新的主方向(平均梯度方向)不仅能反映各训练样本处目标函数值及其梯度信息，而且各更新方向相互正交，在一阶近似下，任一更新方向的更新不会损害其他方向更新的效果。因此，该方法能够有效减少总迭代步数，大幅加快RNN训练速度。同时，该方法单个迭代步增加的计算量小，且易于并行。

本发明提出的一种大规模数据回归神经网络快速训练方法实施例，采用平均梯度方向和梯度残差主成分方向同时更新内部系数。

本实施例为用于一个高维非线性时间序列预测的RNN的快速训练，本实施例中RNN的结构如图1所示。

本实施例中，时间序列的x维数为100，已知其取值的总时间步数为1000，所有训练样本的目标函数平均值的预定阈值ε₀取值为0.1。用x_i表示x在第i时间步的取值。RNN中共考虑5个时间层，每个时间层隐藏人工神经元数为20。每时间层RNN的输入向量为x在该时间步的值，输出向量为对x在下一时间层取值的预测。则已知的1000个时间步构成995个训练样本，内部系数中权重矩阵W_hx、W_hh和W_yh的规模分别为100×20，20×20，20×100，偏置向量b_h和b_y的长度分别为20，100。将所有内部系数统一用向量W表示，其长度为4520。

该方法包括7个步骤，如图2所示：

步骤1.训练样本集正演：遍历训练样本集，将每个训练样本的输入向量x_i(i∈{1,2,3,4,5}，表示在RNN中的时间层，下同)输入RNN，按照(1)式计算生成输出向量

步骤2.目标函数生成：根据训练样本集正演所得的每个输出向量与训练样本集相应观测向量y_i，按照(2)式生成目标函数；

步骤3.训练结果判定：如果训练样本集中所有训练样本的目标函数平均值小于预定阈值ε₀，训练成功，或训练次数大于1000，训练失败，均终止训练；否则，执行步骤4；

步骤5.生成目标函数对内部系数的梯度：对每个训练样本，按照(4)式生成目标函数在每个训练样本处对内部系数的梯度；

步骤6.更新权重矩阵和偏置向量组成的内部系数；

步骤7.训练次数加1，并转步骤1。

其中，步骤6具体包括以下步骤：

步骤6-1以时间上连续的5个训练样本为最小单位，按随机抽样的方式，将训练样本集分为20组；

步骤6-2按照(8)式计算训练样本集的全局平均更新量和每组的平均更新量

步骤6-3按照(9)式计算每组的平均残差与平均梯度记为20个组的平均梯度矩阵；

步骤6-4按照(10)式计算每组的平均梯度在该全局平均更新量方向(即全局平均梯度反方向)的投影。记为20个组的平均梯度均值矩阵；

步骤6-5计算20个组的平均梯度残差矩阵

步骤6-6计算全局残差余量

步骤6-7按照(15)式计算出正交矩阵H和上三角矩阵V。其中，λ为预定义的正则化常数，取0.01。正交阵H根据(17)式用一系列Household变换的叠加表示。每次变换选主元,当剩余部分向量最大模乘以剩余行数小于V中已求得对角元绝对值之和的1/99时截断。记V的前非零行为

步骤6-8按照(16)式计算组平均梯度残差主成分方向的更新量δW'，其中H和H^T的乘操作采用Household变换进行；

步骤6-9按照(18)式计算训练样本集总的内部系数更新量δW。

该方法主要针对RNN的快速训练，也同样适合其它ANN算法的快速训练。任何熟悉该技术的人在本发明所揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护之内。

Claims

1.一种大规模数据回归神经网络快速训练方法其特征在于，该方法采用平均梯度方向和梯度残差主成分方向同时更新内部系数的大规模数据进行回归神经网络快速训练，通过误差反传得到各训练样本处目标函数对内部系数的梯度后，对训练样本进行分组，根据各训练样本处目标函数值分别对整个训练样本集和各组的梯度加权平均，在全局平均梯度和组平均梯度与全局平均梯度正交的残差主成分方向共同更新内部系数。

2.如权利要求1所述方法，其特征在于，该方法具体包括以下步骤：

J(W)＝Σ_iJ_i(W) (2)

其中，

J_{i} (W) = {| | {\hat{y}}_{i} - y_{i} | |}^{2}

或

J_{i} (W) = - Σ_{j} y_{ij} \log ({\hat{y}}_{ij}),

y_ij,分别为第i时间层中第j个训练样本的观测值、输出值；

其中，о表示对应项相乘，f'，g'分别为非线性激励函数f和g的偏导数，T为矩阵转置运算符号；

\{\begin{matrix} &PartialD; J (W) / {(&PartialD; W_{yh})}_{jk} = Σ_{i} {(h_{i})}_{k} {(δ_{BP s_{i}})}_{j} \\ &PartialD; J (W) / {(&PartialD; W_{hh})}_{jk} = Σ_{i} {(h_{i - 1})}_{k} {({δ_{BPv}}_{i})}_{j} \\ &PartialD; J (W) / {({&PartialD; W}_{hx})}_{jk} = Σ_{i} {(x_{i})}_{k} {(δ_{BP v_{i}})}_{j} \\ &PartialD; J (W) / {({&PartialD; b}_{y})}_{j} = Σ_{i} {(δ_{{BPs}_{i}})}_{j} \\ &PartialD; J (W) / {({&PartialD; b}_{h})}_{j} = Σ_{i} {(δ_{{BPv}_{i}})}_{j} \end{matrix} - - - (4)

\underset{δW}{\arg \min} {| | GδW + J | |}^{2} - - - (6)

GδW＝-J (7)

其中，G＝(g₁,…g_M)^T为梯度矩阵，-J为残差余量，g_m为第m号训练样本处的梯度，M为训练样本个数；

步骤7.训练次数增加1，转步骤1。

3.如权利要求2所述方法，其特征在于，所述步骤6具体包括以下步骤：

步骤6-1以联系紧密的内容为最小单位，按随机抽样的方式，将训练样本集分为L组，其中L为正整数；

\{\begin{matrix} δ \overset{&OverBar;}{W} = \frac{1}{M} Σ_{m = 1}^{M} δ W_{m} \\ δ {\tilde{W}}_{l} = \frac{1}{M_{l}} Σ_{m = m_{nin l}}^{m_{\min l} + M_{l}} {δ W}_{m} \end{matrix} - - - (8)

步骤6-3计算每组的平均残差与平均梯度表达式为(9)式：

\{\begin{matrix} - {\tilde{J}}_{l} = \frac{1}{M_{l}} Σ_{m = m_{\min l}}^{m_{\min l} + M_{l}} J_{m} \\ {\tilde{g}}_{l} = - {\tilde{J}}_{l} δ {\tilde{W}}_{l} / {| | δ {\tilde{W}}_{l} | |}^{2} \end{matrix} - - - (9)

步骤6-4计算每组的平均梯度在该全局平均更新量方向的投影，表达式为(10)式：

{\overset{&OverBar;}{\tilde{g}}}_{l} = δ {\overset{&OverBar;}{W}}^{T} {\tilde{g}}_{l} δ \overset{&OverBar;}{W} / {| | δ \overset{&OverBar;}{W} | |}^{2} - - - (10)

步骤6-5计算L个组的平均梯度残差矩阵

步骤6-6计算全局残差余量

步骤6-7计算正交矩阵H和上三角矩阵

- \tilde{J} = ({\tilde{G}}^{'} + \overset{&OverBar;}{\tilde{G}}) (δ W^{'} + δ \overset{&OverBar;}{W}) = {\tilde{G}}^{'} δ W^{'} + \overset{&OverBar;}{\tilde{G}} δ \overset{&OverBar;}{W} - - - (11)

则，有表达式(12)式：

{\tilde{G}}^{'} δ W^{'} = - {\tilde{J}}^{'} - - - (12)

({\tilde{G}}^{' T} {\tilde{G}}^{'} + λI) δ W^{'} = - {\tilde{G}}^{' T} {\tilde{J}}^{'} - - - (13)

设的数学期望为0，即由式(13)可得表达式(14)式：

({\tilde{G}}^{' T} {\tilde{G}}^{'} + λI) δ W^{'} \approx {({\tilde{G}}^{'} + \sqrt{λ} I)}^{T} ({\tilde{G}}^{'} + \sqrt{λ} I) δ W^{'} - - - (14)

{({\tilde{G}}^{'} + \sqrt{λ} I)}^{T} = HV - - - (15)

{δW}^{'} = - H {(\hat{V} {\hat{V}}^{T})}^{- 1} H^{T} {\tilde{G}}^{' T} {\tilde{J}}^{'} - - - (16)

其中，每次变换选主元,即当剩余部分向量模小于预定值时截断，截断后，主元为上三角矩阵V，非零部分共有P行，记V的前P行为正交矩阵H用一系列Household变换的叠加表示，表达式为(17)式：

H = Π_{p = 1}^{P} (I - 2 ω_{p} {ω_{p}}^{T}) - - - (17)

其中，ω_p为相应Household向量；

δW = δ \overset{&OverBar;}{W} + δ W^{'} - - - (18) .