CN104598972A - 一种大规模数据回归神经网络快速训练方法 - Google Patents

一种大规模数据回归神经网络快速训练方法 Download PDF

Info

Publication number
CN104598972A
CN104598972A CN201510032856.1A CN201510032856A CN104598972A CN 104598972 A CN104598972 A CN 104598972A CN 201510032856 A CN201510032856 A CN 201510032856A CN 104598972 A CN104598972 A CN 104598972A
Authority
CN
China
Prior art keywords
delta
training sample
prime
formula
gradient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510032856.1A
Other languages
English (en)
Inventor
杨广文
李连登
付昊桓
袁龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201510032856.1A priority Critical patent/CN104598972A/zh
Publication of CN104598972A publication Critical patent/CN104598972A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种大规模数据回归神经网络快速训练方法,属于机器学习技术领域,该方法采用平均梯度方向和梯度残差主成分方向同时更新内部系数的大规模数据进行回归神经网络快速训练,通过误差反传得到各训练样本处目标函数对内部系数的梯度后,对训练样本进行分组,根据各训练样本处目标函数值分别对整个训练样本集和各组的梯度加权平均,在全局平均梯度和组平均梯度与全局平均梯度正交的残差主成分方向共同更新内部系数。本方法能够以较低的计算代价有效利用各训练样本处梯度信息,减小迭代步数,提升RNN训练过程的计算效率。

Description

一种大规模数据回归神经网络快速训练方法
技术领域
本发明属于机器学习技术领域,特别是面向大规模数据信息处理、高维时间序列分析等方面的语音识别和自然语言处理等应用。
背景技术
当代数据采集技术生成了大量复杂数据,其中包含着丰富的信息,对生产、科研技术中各方面应用领域有着巨大的潜在价值。而从大规模数据中提取有用信息,需要有效的数据处理方法。人工神经网络是应用最为广泛的数据信息提取方法之一,在计算机视觉、语音识别和自然语言处理中展现了突出的性能。
人工神经网络(Artificial Neural Network,ANN),简称神经网络(Neural Network,NN),是一种模仿生物神经网络结构和功能的计算模型。人工神经网络由大量的人工神经元联结进行计算。ANN能够通过训练,根据外界信息改变内部结构,是一种非线性统计性数据建模工具,常用来对输入和输出间复杂的关系进行建模,或用来探索数据的内在相关性。
ANN由大量的节点(神经元)和其之间相互联接构成。每个节点代表一种特定的输出函数,称为激励函数。每两个节点间的连接都通过一个权重进行加权,该权重可看作人工神经网络的记忆,可通过训练进行调整。ANN的输出由输入、网络连接方式,权重值和激励函数共同决定。在功能上,ANN是某种算法或者函数的逼近,也可能是对一种逻辑策略的表达。
回归神经网络(Regression Neural Network,RNN)是人工神经网络中的一类,该方法在时域信号处理中引入来自历史层的回归连接,能够有效利用信号的时序相关性,对非线性时间序列信号中的有效信息有突出的表示能力。
RNN引入了多个时间层,其在某时间层的输出向量即为从数据中提取的信息,由该层之前若干时间层的输入向量和权重矩阵、偏置向量共同决定,可用于表示某种数据的分类结果,或是对其后时间层的预测等。隐藏层能够存储大量信息,非线性激活函数以及多时间层信息的结合应用使得RNN能够有效捕获数据的时空相关性,对高维非线性时间序列具有强大的拟合乃至预测能力。RNN的定义为表达式(1)式:
v i = W hx x i + W hh h i - 1 + b h h i = f ( v i ) s i = W yh h i + b y y ^ i = g ( s i ) - - - ( 1 )
其中,xi为第i时间层的输入向量,为第i时间层的输出向量,hi为第i时间层的隐藏层输出向量,i为正整数,Whx、Whh和Wyh分别为输入权重矩阵、隐含权重矩阵及输出权重矩阵,bh、by分别为隐含层的偏置向量、输出层的偏置向量,f、g分别表示为隐含层的非线性激励函数、输出层的非线性激励函数,可取为本发明中将权重矩阵Whx、Whh、Wyh和偏置向量bh、by中的值称为内部系数,统一用W表示。RNN连接方式如图1所示,图中圆圈表示人工神经元。
为使RNN能够从数据中提取正确的信息,需要通过训练样本对其进行训练,调整网络中的内部系数,使其能够反映输入到输出的关系。RNN的训练中,一般以RNN输出与训练样本输出的误差最小化为目标,通过误差反传得出目标函数对内部系数的偏导,然后采用梯度下降法更新内部系数。该训练方法的具体流程如下:
步骤1.训练样本集正演:遍历训练样本集,将每个训练样本的输入向量xi输入到回归神经网络RNN中,计算生成每个训练样本的输出向量其中,i是时间层数,为正整数;
步骤2.目标函数生成:根据训练样本集正演所得的每个输出向量与训练样本相应观测向量yi,生成目标函数J(W),目标函数表达式为(2)式:
J(W)ΣiJi(W)               (2)
其中,yij,分别为第i时间层中第j个训练样本的观测向量、输出向量,Σi为以i为变量的求和计算符号;
步骤3.训练结果判定:如果训练样本集中所有训练样本的目标函数平均值小于预定阈值(根据具体应用设值),训练成功,或训练次数大于规定上限(根据具体应用设值),训练失败,均终止训练;否则,执行步骤4;
步骤4.误差反传:对每个训练样本,按照表达式(3)式进行误差反传;
其中,ο表示对应项相乘,f',g'分别为非线性激励函数f和g的偏导数,T为矩阵转置运算符号,为偏导数运算符号;
步骤5.生成目标函数对内部系数的梯度:对每个训练样本,计算生成目标函数对内部系数的梯度,表达式为(4)式:
∂ J ( W ) / ( ∂ W yh ) jk = Σ i ( h i ) k ( δ BPs i ) j ∂ J ( W ) / ( ∂ W hh ) jk = Σ i ( h i - 1 ) k ( δ BPv i ) j ∂ J ( W ) / ( ∂ W hx ) jk = Σ i ( x i ) k ( δ BPv i ) j ∂ J ( W ) / ( ∂ b y ) j = Σ i ( δ BPs i ) j ∂ J ( W ) / ( ∂ b h ) j = Σ i ( δ BPv i ) j - - - ( 4 )
其中,i表示时间层,j,k为内部系数的元素编号,i,j,k都为正整数;
步骤6.更新权重矩阵和偏置向量组成的内部系数:计算所有训练样本处目标函数对内部系数的平均梯度,按负平均梯度乘预定的学习因子η更新内部系数W,表达式为(5)式:
Wn+1=Wn-η▽J(Wn)                 (5)
其中,▽J(Wn)为n步时权重矩阵和偏置向量Wn的更新量,n为更新步数;
步骤7.训练次数增加1,转步骤1。
上述方法运用误差反传的方式,能够以很低的计算代价得到各训练样本处目标函数对内部系数的梯度。但是,步骤6中的更新方式,只利用平均梯度,更新步长依赖于预设的学习因子,虽然具备较强的正则化能力,但没有充分利用各训练样本处的梯度和目标函数信息,导致收敛较慢,迭代步数多。有效减少迭代步数,是加速训练过程的关键,意义十分重要。
发明内容
本发明目的是克服已有RNN训练技术迭代步数多、收敛慢的不足,提出一种大规模数据回归神经网络快速训练方法,能够以较低的计算代价有效利用各训练样本处梯度信息和目标函数值的信息,减小迭代步数,有效增强单次更新的效果,减小总的更新步数,大幅加快训练速度,提升RNN训练过程的计算效率。
本发明提出了一种大规模数据回归神经网络快速训练方法其特征在于,该方法采用平均梯度方向和梯度残差主成分方向同时更新内部系数的大规模数据进行回归神经网络快速训练,通过误差反传得到各训练样本处目标函数对内部系数的梯度后,对训练样本进行分组,根据各训练样本处目标函数值分别对整个训练样本集和各组的梯度加权平均,在全局平均梯度和组平均梯度与全局平均梯度正交的残差主成分方向共同更新内部系数。
该方法具体包括以下步骤:
步骤1.训练样本集正演:遍历训练样本集,将每个训练样本的输入向量xi输入到回归神经网络RNN中,计算生成每个训练样本的输出向量其中,i是时间层数,为正整数;
步骤2.目标函数生成:根据训练样本集正演所得的每个输出向量与训练样本相应观测向量yi,生成目标函数J(W),目标函数表达式为(2)式:
J(W)ΣiJi(W)                  (2)
其中,yij,分别为第i时间层中第j个训练样本的观测值、输出值;
步骤3.训练结果判定:如果训练样本集中所有训练样本的目标函数平均值小于预定阈值,训练成功,或训练次数大于规定上限,训练失败,均终止训练;否则,执行步骤4;
步骤4.误差反传:对每个训练样本,按照(3)式进行误差反传;
其中,ο表示对应项相乘,f',g'分别为非线性激励函数f和g的偏导数,T为矩阵转置运算符号;
步骤5.生成目标函数对内部系数的梯度:对每个训练样本,按照(4)式计算目标函数对内部系数的梯度;
∂ J ( W ) / ( ∂ W yh ) jk = Σ i ( h i ) k ( δ BPs i ) j ∂ J ( W ) / ( ∂ W hh ) jk = Σ i ( h i - 1 ) k ( δ BPv i ) j ∂ J ( W ) / ( ∂ W hx ) jk = Σ i ( x i ) k ( δ BPv i ) j ∂ J ( W ) / ( ∂ b y ) j = Σ i ( δ BPs i ) j ∂ J ( W ) / ( ∂ b h ) j = Σ i ( δ BPv i ) j - - - ( 4 )
其中,i表示时间层,j,k为内部系数的元素编号,i,j,k均为正整数;
步骤6.更新权重矩阵和偏置向量组成的内部系数:对训练样本进行分组,对每组训练样本生成平均梯度方向和与其正交的组平均梯度残差方向,并计算平均梯度方向和平均梯度残差方向的更新量;采用一阶近似求解更新后的优化目标函数||GδW+J||2使残差余量-J最小,即求解表达式如(6)、(7)式:
arg min δW | | GδW + J | | 2 - - - ( 6 )
GδW=-J                        (7)
其中,G=(g1,…gM)T为梯度矩阵,-J为残差余量,gm为第m号训练样本处的梯度,M为训练样本个数;
步骤7.训练次数增加1,转步骤1。
上述步骤6)具体包括以下步骤:
步骤6-1以联系紧密的内容(如自然语言数据中的段,篇)为最小单位,按随机抽样的方式,将训练样本集分为L组,其中L为正整数;
步骤6-2计算训练样本集全局平均更新量和每组的平均更新量表达式为(8)式:
δ W ‾ = 1 M Σ m = 1 M δW m δ W ~ l = 1 M l Σ m = m min l m ninl + M l δW m - - - ( 8 )
其中δWm=-gmJm/||gm||2,gm为第m号训练样本处的梯度,Jm为第m号训练样本处的残差,M为训练样本个数,Ml为组l的训练样本数个数,l∈{1,2,…,L};
步骤6-3计算每组的平均残差与平均梯度表达式为(9)式:
- J ~ l = 1 M l Σ m = m min l m min l + M l g ~ l = - J ~ l δ W ~ l / | | δ W ~ l | | 2 - - - ( 9 )
其中l∈{1,2,…,L},记为L个组的平均梯度矩阵,T为矩阵转置运算符号;
步骤6-4计算每组的平均梯度在该全局平均更新量方向(即全局平均梯度反方向)的投影,表达式为(10)式:
g ~ ‾ l = δ W ‾ T g ~ l δ W ‾ / | | δ W | | ‾ 2 - - - ( 10 )
其中,为每组的平均梯度均值,l∈{1,2,…,L},记为L个组的平均梯度均值矩阵;
步骤6-5计算L个组的平均梯度残差矩阵
步骤6-6计算全局残差余量
步骤6-7计算正交矩阵H和上三角矩阵
首先,定义δW'为与全局平均更新量正交的补偿更新量,由优化目标函数(7)式可得:
- J ~ = ( G ~ ′ + G ~ ‾ ) ( δW ′ + δ W ‾ ) = G ~ ′ δW ′ + G ~ ‾ δ W ‾ - - - ( 11 )
则,有表达式(12)式:
G ~ ′ δW ′ = - J ~ ′ - - - ( 12 )
其次,由于L个组的平均梯度残差矩阵可能高度不稳定,需加入正则化项,将式(11)、(12)转变为求解表达式(13)式:
( G ~ ′ T G ~ ′ + λI ) δW ′ = - G ~ ′ T J ~ ′ - - - ( 13 )
的数学期望为0,即由式(13)可得表达式(14)式:
( G ~ ′ T G ~ ′ + λI ) δW ′ ≈ ( G ~ ′ + λ I ) T ( G ~ ′ + λ I ) δW ′ - - - ( 14 )
其中,λ为预定义的正则化常数,满足0<λ<1;I为单位矩阵;
最后,用Household变换对进行正交上三角分解得表达式为(15)式由此,可求得补偿更新量δW'的表达式为(16)式;
( G ~ ′ + λ I ) T = HV - - - ( 15 )
δW ′ = - H ( V ^ V ^ T ) - 1 H T G ~ ′ T J ~ ′ - - - ( 16 )
其中,每次变换选主元,即当剩余部分向量模小于预定值时截断,截断后,主元为上三角矩阵V,非零部分共有P行,记V的前P行为;正交矩阵H用一系列Household变换的叠加表示,表达式为(17)式:
H = Π p = 1 P ( I - 2 ω p ω p T ) - - - ( 17 )
其中,ωp为相应Household向量;
步骤6-8根据步骤6-5得出的组平均梯度残差矩阵步骤6-6计算得出的全局残差余量以及步骤6-7计算得出的H和按照表达式(16)计算组平均梯度残差主成分方向的补偿更新量δW';
步骤6-9根据步骤6-2得到的全局平均更新量及步骤6-8得到的补偿更新量δW',按照表达式(18)式计算训练样本集总的内部系数更新量δW
δW = δ W ‾ + δW ′ - - - ( 18 ) .
本发明的特点及有益效果:
本发明方法基于常规的RNN训练方法,对步骤6的更新权重矩阵和偏置向量组成的内部系数的方法进行了实质性的改进,即采用平均梯度方向和梯度残差主成分方向同时更新内部系数的大规模数据回归神经网络快速训练方法,以改进内部系数更新的方式,使本方法具有如下特点和有益效果:
一、同时考虑多个主要更新方向,并自动确定各方向最优更新步长;
二、更新的主方向(平均梯度方向)同时反映各训练样本处目标函数值及其梯度信息;
三、各更新方向相互正交,在一阶近似下,任一更新方向的更新不会损害其他方向更新的效果。因此,该方法能够有效减少总迭代步数,大幅加快RNN训练速度。同时,该方法单个迭代步增加的计算量小,且易于并行。
附图说明
图1为本发明方法中的RNN的连接方式;
图2为本发明方法中的RNN的训练流程图。
具体实施方式
本发明提出了一种大规模数据回归神经网络快速训练方法结合附图及实施例进一步说明如下:
本发明提出了一种大规模数据回归神经网络快速训练方法其特征在于,该方法采用平均梯度方向和梯度残差主成分方向同时更新内部系数的大规模数据进行回归神经网络快速训练,通过误差反传得到各训练样本处目标函数对内部系数的梯度后,对训练样本进行分组,根据各训练样本处目标函数值分别对整个训练样本集和各组的梯度加权平均,在全局平均梯度和组平均梯度与全局平均梯度正交的残差主成分方向共同更新内部系数。
该方法具体包括以下步骤:
步骤1.训练样本集正演:遍历训练样本集,将每个训练样本的输入向量xi输入到回归神经网络RNN中,计算生成每个训练样本的输出向量其中,i是时间层数,为正整数;
步骤2.目标函数生成:根据训练样本集正演所得的每个输出向量与训练样本相应观测向量yi,生成目标函数J(W),目标函数表达式为(2)式:
J(W)ΣiJi(W)                         (2)
其中,yij,分别为第i时间层中第j个训练样本的观测值、输出值;
步骤3.训练结果判定:如果训练样本集中所有训练样本的目标函数平均值小于预定阈值,训练成功,或训练次数大于规定上限,训练失败,均终止训练;否则,执行步骤4;
步骤4.误差反传:对每个训练样本,按照(3)式进行误差反传;
其中,ο表示对应项相乘,f',g'分别为非线性激励函数f和g的偏导数,T为矩阵转置运算符号;
步骤5.生成目标函数对内部系数的梯度:对每个训练样本,按照(4)式计算目标函数对内部系数的梯度;
∂ J ( W ) / ( ∂ W yh ) jk = Σ i ( h i ) k ( δ BPs i ) j ∂ J ( W ) / ( ∂ W hh ) jk = Σ i ( h i - 1 ) k ( δ BPv i ) j ∂ J ( W ) / ( ∂ W hx ) jk = Σ i ( x i ) k ( δ BPv i ) j ∂ J ( W ) / ( ∂ b y ) j = Σ i ( δ BPs i ) j ∂ J ( W ) / ( ∂ b h ) j = Σ i ( δ BPv i ) j - - - ( 4 )
其中,i表示时间层,j,k为内部系数的元素编号,i,j,k均为正整数;
步骤6.更新权重矩阵和偏置向量组成的内部系数:对训练样本进行分组,对每组训练样本生成平均梯度方向和与其正交的组平均梯度残差方向,并计算平均梯度方向和平均梯度残差方向的更新量;采用一阶近似求解更新后的优化目标函数||GδW+J||2使残差余量-J最小,即求解表达式如(6)、(7)式:
arg min δW | | GδW + J | | 2 - - - ( 6 )
GδW=-J                          (7)
其中,G=(g1,…gM)T为梯度矩阵,-J为残差余量,gm为第m号训练样本处的梯度,M为训练样本个数;
具体包括以下步骤:
步骤6-1以联系紧密的内容(如自然语言数据中的段,篇)为最小单位,按随机抽样的方式,将训练样本集分为L组,其中L为正整数;
步骤6-2计算训练样本集全局平均更新量和每组的平均更新量表达式为(8)式:
δ W ‾ = 1 M Σ m = 1 M δW m δ W ~ l = 1 M l Σ m = m min l m ninl + M l δW m - - - ( 8 )
其中δWm=-gmJm/||gm||2,gm为第m号训练样本处的梯度,Jm为第m号训练样本处的残差,M为训练样本个数,Ml为组l的训练样本数个数,l∈{1,2,…,L};
步骤6-3计算每组的平均残差与平均梯度表达式为(9)式:
- J ~ l = 1 M l Σ m = m min l m min l + M l g ~ l = - J ~ l δ W ~ l / | | δ W ~ l | | 2 - - - ( 9 )
其中l∈{1,2,…,L},记为L个组的平均梯度矩阵,T为矩阵转置运算符号;
步骤6-4计算每组的平均梯度在该全局平均更新量方向(即全局平均梯度反方向)的投影,表达式为(10)式:
g ~ ‾ l = δ W ‾ T g ~ l δ W ‾ / | | δ W | | ‾ 2 - - - ( 10 )
其中,为每组的平均梯度均值,l∈{1,2,…,L},记为L个组的平均梯度均值矩阵;
步骤6-5计算L个组的平均梯度残差矩阵
步骤6-6计算全局残差余量
步骤6-7计算正交矩阵H和上三角矩阵
首先,定义δW'为与全局平均更新量正交的补偿更新量,由优化目标函数(7)式可得:
- J ~ = ( G ~ ′ + G ~ ‾ ) ( δW ′ + δ W ‾ ) = G ~ ′ δW ′ + G ~ ‾ δ W ‾ - - - ( 11 )
则,有表达式(12)式:
G ~ ′ δW ′ = - J ~ ′ - - - ( 12 )
其次,由于L个组的平均梯度残差矩阵可能高度不稳定,需加入正则化项,将式(11)、(12)转变为求解表达式(13)式:
( G ~ ′ T G ~ ′ + λI ) δW ′ = - G ~ ′ T J ~ ′ - - - ( 13 )
的数学期望为0,即由式(13)可得表达式(14)式:
( G ~ ′ T G ~ ′ + λI ) δW ′ ≈ ( G ~ ′ + λ I ) T ( G ~ ′ + λ I ) δW ′ - - - ( 14 )
其中,λ为预定义的正则化常数,满足0<λ<1;I为单位矩阵;
最后,用Household变换对进行正交上三角分解得表达式为(15)式(每次变换选主元,设定预定值:当剩余部分向量最大模乘以剩余行数小于V中已求得对角元绝对值之和的1/99时截断,截断后剩余的方向为非主要成分,信息量少,容易造成不稳定,因此不在这些方向上更新)由此,可求得补偿更新量的表达式为(16)式;
( G ~ ′ + λ I ) T = HV - - - ( 15 )
δW ′ = - H ( V ^ V ^ T ) - 1 H T G ~ ′ T J ~ ′ - - - ( 16 )
其中,每次变换选主元,即当剩余部分向量模小于上述预定值时截断,截断后,主元为上三角矩阵V,非零部分共有P行,记V的前P行为正交矩阵H用一系列Household变换的叠加表示,表达式为(17)式:
H = Π p = 1 P ( I - 2 ω p ω p T ) - - - ( 17 )
其中,ωp为相应Household向量;
步骤6-8根据步骤6-5得出的组平均梯度残差矩阵步骤6-6计算得出的全局残差余量以及步骤6-7计算得出的H和按照表达式(16)计算组平均梯度残差主成分方向的补偿更新量δW';
步骤6-9根据步骤6-2得到的全局平均更新量及步骤6-8得到的补偿更新量δW',按照表达式(18)式计算训练样本集总的内部系数更新量δW:
δW = δ W ‾ + δW ′ - - - ( 18 )
步骤7.训练次数增加1,转步骤1。
本发明采用平均梯度方向和梯度残差主成分方向同时更新内部系数的RNN快速训练方法的区别技术特征是:一、该方法以意义关联紧密的训练样本为基本单元,以随机抽样的方式对训练样本集进行分组;二、该方法根据目标函数值对各训练样本处的梯度加权平均,得到全局平均梯度和组平均梯度;三、该方法将组平均梯度分解为在全局平均梯度方向的投影及与其正交的残差;四、该方法采用基于Household变换的正交上三角分解求梯度残差的主成分;五、该方法在全局平均梯度方向和组平均梯度残差主成分方向同时更新,并通过目标函数值自动确定各方向最优更新步长,更新的主方向(平均梯度方向)不仅能反映各训练样本处目标函数值及其梯度信息,而且各更新方向相互正交,在一阶近似下,任一更新方向的更新不会损害其他方向更新的效果。因此,该方法能够有效减少总迭代步数,大幅加快RNN训练速度。同时,该方法单个迭代步增加的计算量小,且易于并行。
本发明提出的一种大规模数据回归神经网络快速训练方法实施例,采用平均梯度方向和梯度残差主成分方向同时更新内部系数。
本实施例为用于一个高维非线性时间序列预测的RNN的快速训练,本实施例中RNN的结构如图1所示。
本实施例中,时间序列的x维数为100,已知其取值的总时间步数为1000,所有训练样本的目标函数平均值的预定阈值ε0取值为0.1。用xi表示x在第i时间步的取值。RNN中共考虑5个时间层,每个时间层隐藏人工神经元数为20。每时间层RNN的输入向量为x在该时间步的值,输出向量为对x在下一时间层取值的预测。则已知的1000个时间步构成995个训练样本,内部系数中权重矩阵Whx、Whh和Wyh的规模分别为100×20,20×20,20×100,偏置向量bh和by的长度分别为20,100。将所有内部系数统一用向量W表示,其长度为4520。
该方法包括7个步骤,如图2所示:
步骤1.训练样本集正演:遍历训练样本集,将每个训练样本的输入向量xi(i∈{1,2,3,4,5},表示在RNN中的时间层,下同)输入RNN,按照(1)式计算生成输出向量
步骤2.目标函数生成:根据训练样本集正演所得的每个输出向量与训练样本集相应观测向量yi,按照(2)式生成目标函数;
步骤3.训练结果判定:如果训练样本集中所有训练样本的目标函数平均值小于预定阈值ε0,训练成功,或训练次数大于1000,训练失败,均终止训练;否则,执行步骤4;
步骤4.误差反传:对每个训练样本,按照(3)式进行误差反传;
步骤5.生成目标函数对内部系数的梯度:对每个训练样本,按照(4)式生成目标函数在每个训练样本处对内部系数的梯度;
步骤6.更新权重矩阵和偏置向量组成的内部系数;
步骤7.训练次数加1,并转步骤1。
其中,步骤6具体包括以下步骤:
步骤6-1以时间上连续的5个训练样本为最小单位,按随机抽样的方式,将训练样本集分为20组;
步骤6-2按照(8)式计算训练样本集的全局平均更新量和每组的平均更新量
步骤6-3按照(9)式计算每组的平均残差与平均梯度为20个组的平均梯度矩阵;
步骤6-4按照(10)式计算每组的平均梯度在该全局平均更新量方向(即全局平均梯度反方向)的投影。记为20个组的平均梯度均值矩阵;
步骤6-5计算20个组的平均梯度残差矩阵
步骤6-6计算全局残差余量
步骤6-7按照(15)式计算出正交矩阵H和上三角矩阵V。其中,λ为预定义的正则化常数,取0.01。正交阵H根据(17)式用一系列Household变换的叠加表示。每次变换选主元,当剩余部分向量最大模乘以剩余行数小于V中已求得对角元绝对值之和的1/99时截断。记V的前非零行为
步骤6-8按照(16)式计算组平均梯度残差主成分方向的更新量δW',其中H和HT的乘操作采用Household变换进行;
步骤6-9按照(18)式计算训练样本集总的内部系数更新量δW。
该方法主要针对RNN的快速训练,也同样适合其它ANN算法的快速训练。任何熟悉该技术的人在本发明所揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护之内。

Claims (3)

1.一种大规模数据回归神经网络快速训练方法其特征在于,该方法采用平均梯度方向和梯度残差主成分方向同时更新内部系数的大规模数据进行回归神经网络快速训练,通过误差反传得到各训练样本处目标函数对内部系数的梯度后,对训练样本进行分组,根据各训练样本处目标函数值分别对整个训练样本集和各组的梯度加权平均,在全局平均梯度和组平均梯度与全局平均梯度正交的残差主成分方向共同更新内部系数。
2.如权利要求1所述方法,其特征在于,该方法具体包括以下步骤:
步骤1.训练样本集正演:遍历训练样本集,将每个训练样本的输入向量xi输入到回归神经网络RNN中,计算生成每个训练样本的输出向量其中,i是时间层数,为正整数;
步骤2.目标函数生成:根据训练样本集正演所得的每个输出向量与训练样本相应观测向量yi,生成目标函数J(W),目标函数表达式为(2)式:
J(W)=ΣiJi(W)                                  (2)
其中, J i ( W ) = | | y ^ i - y i | | 2 J i ( W ) = - Σ j y ij log ( y ^ ij ) , yij,分别为第i时间层中第j个训练样本的观测值、输出值;
步骤3.训练结果判定:如果训练样本集中所有训练样本的目标函数平均值小于预定阈值,训练成功,或训练次数大于规定上限,训练失败,均终止训练;否则,执行步骤4;
步骤4.误差反传:对每个训练样本,按照(3)式进行误差反传;
其中,о表示对应项相乘,f',g'分别为非线性激励函数f和g的偏导数,T为矩阵转置运算符号;
步骤5.生成目标函数对内部系数的梯度:对每个训练样本,按照(4)式计算目标函数对内部系数的梯度;
∂ J ( W ) / ( ∂ W yh ) jk = Σ i ( h i ) k ( δ BP s i ) j ∂ J ( W ) / ( ∂ W hh ) jk = Σ i ( h i - 1 ) k ( δ BPv i ) j ∂ J ( W ) / ( ∂ W hx ) jk = Σ i ( x i ) k ( δ BP v i ) j ∂ J ( W ) / ( ∂ b y ) j = Σ i ( δ BPs i ) j ∂ J ( W ) / ( ∂ b h ) j = Σ i ( δ BPv i ) j - - - ( 4 )
其中,i表示时间层,j,k为内部系数的元素编号,i,j,k均为正整数;
步骤6.更新权重矩阵和偏置向量组成的内部系数:对训练样本进行分组,对每组训练样本生成平均梯度方向和与其正交的组平均梯度残差方向,并计算平均梯度方向和平均梯度残差方向的更新量;采用一阶近似求解更新后的优化目标函数||GδW+J||2使残差余量-J最小,即求解表达式如(6)、(7)式:
arg min δW | | GδW + J | | 2 - - - ( 6 )
GδW=-J                                           (7)
其中,G=(g1,…gM)T为梯度矩阵,-J为残差余量,gm为第m号训练样本处的梯度,M为训练样本个数;
步骤7.训练次数增加1,转步骤1。
3.如权利要求2所述方法,其特征在于,所述步骤6具体包括以下步骤:
步骤6-1以联系紧密的内容为最小单位,按随机抽样的方式,将训练样本集分为L组,其中L为正整数;
步骤6-2计算训练样本集全局平均更新量和每组的平均更新量表达式为(8)式:
δ W ‾ = 1 M Σ m = 1 M δ W m δ W ~ l = 1 M l Σ m = m nin l m min l + M l δ W m - - - ( 8 )
其中δWm=-gmJm/||gm||2,gm为第m号训练样本处的梯度,Jm为第m号训练样本处的残差,M为训练样本个数,Ml为组l的训练样本数个数,l∈{1,2,…,L};
步骤6-3计算每组的平均残差与平均梯度表达式为(9)式:
- J ~ l = 1 M l Σ m = m min l m min l + M l J m g ~ l = - J ~ l δ W ~ l / | | δ W ~ l | | 2 - - - ( 9 )
其中l∈{1,2,…,L},记为L个组的平均梯度矩阵,T为矩阵转置运算符号;
步骤6-4计算每组的平均梯度在该全局平均更新量方向的投影,表达式为(10)式:
g ~ ‾ l = δ W ‾ T g ~ l δ W ‾ / | | δ W ‾ | | 2 - - - ( 10 )
其中,为每组的平均梯度均值,l∈{1,2,…,L},记为L个组的平均梯度均值矩阵;
步骤6-5计算L个组的平均梯度残差矩阵
步骤6-6计算全局残差余量
步骤6-7计算正交矩阵H和上三角矩阵
首先,定义δW'为与全局平均更新量正交的补偿更新量,由优化目标函数(7)式可得:
- J ~ = ( G ~ ′ + G ~ ‾ ) ( δ W ′ + δ W ‾ ) = G ~ ′ δ W ′ + G ~ ‾ δ W ‾ - - - ( 11 )
则,有表达式(12)式:
G ~ ′ δ W ′ = - J ~ ′ - - - ( 12 )
其次,由于L个组的平均梯度残差矩阵可能高度不稳定,需加入正则化项,将式(11)、(12)转变为求解表达式(13)式:
( G ~ ′ T G ~ ′ + λI ) δ W ′ = - G ~ ′ T J ~ ′ - - - ( 13 )
的数学期望为0,即由式(13)可得表达式(14)式:
( G ~ ′ T G ~ ′ + λI ) δ W ′ ≈ ( G ~ ′ + λ I ) T ( G ~ ′ + λ I ) δ W ′ - - - ( 14 )
其中,λ为预定义的正则化常数,满足0<λ<1;I为单位矩阵;
最后,用Household变换对进行正交上三角分解得表达式为(15)式由此,可求得补偿更新量δW'的表达式为(16)式;
( G ~ ′ + λ I ) T = HV - - - ( 15 )
δW ′ = - H ( V ^ V ^ T ) - 1 H T G ~ ′ T J ~ ′ - - - ( 16 )
其中,每次变换选主元,即当剩余部分向量模小于预定值时截断,截断后,主元为上三角矩阵V,非零部分共有P行,记V的前P行为正交矩阵H用一系列Household变换的叠加表示,表达式为(17)式:
H = Π p = 1 P ( I - 2 ω p ω p T ) - - - ( 17 )
其中,ωp为相应Household向量;
步骤6-8根据步骤6-5得出的组平均梯度残差矩阵步骤6-6计算得出的全局残差余量以及步骤6-7计算得出的H和按照表达式(16)计算组平均梯度残差主成分方向的补偿更新量δW';
步骤6-9根据步骤6-2得到的全局平均更新量及步骤6-8得到的补偿更新量δW',按照表达式(18)式计算训练样本集总的内部系数更新量δW:
δW = δ W ‾ + δ W ′ - - - ( 18 ) .
CN201510032856.1A 2015-01-22 2015-01-22 一种大规模数据回归神经网络快速训练方法 Pending CN104598972A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510032856.1A CN104598972A (zh) 2015-01-22 2015-01-22 一种大规模数据回归神经网络快速训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510032856.1A CN104598972A (zh) 2015-01-22 2015-01-22 一种大规模数据回归神经网络快速训练方法

Publications (1)

Publication Number Publication Date
CN104598972A true CN104598972A (zh) 2015-05-06

Family

ID=53124743

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510032856.1A Pending CN104598972A (zh) 2015-01-22 2015-01-22 一种大规模数据回归神经网络快速训练方法

Country Status (1)

Country Link
CN (1) CN104598972A (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105139864A (zh) * 2015-08-17 2015-12-09 北京天诚盛业科技有限公司 语音识别方法和装置
CN107169513A (zh) * 2017-05-05 2017-09-15 第四范式(北京)技术有限公司 控制数据使用顺序的分布式机器学习系统及其方法
CN107958695A (zh) * 2017-11-17 2018-04-24 桂林电子科技大学 一种基于机器学习的高精度药物定量方法
CN108027899A (zh) * 2015-08-25 2018-05-11 高通股份有限公司 用于提高经训练的机器学习模型的性能的方法
CN108122032A (zh) * 2016-11-29 2018-06-05 华为技术有限公司 一种神经网络模型训练方法、装置、芯片和系统
WO2018103562A1 (zh) * 2016-12-06 2018-06-14 华为技术有限公司 一种数据处理系统及方法
CN108475346A (zh) * 2015-11-12 2018-08-31 谷歌有限责任公司 神经随机访问机器
CN108498089A (zh) * 2018-05-08 2018-09-07 北京邮电大学 一种基于深度神经网络的无创连续血压测量方法
CN108805091A (zh) * 2018-06-15 2018-11-13 北京字节跳动网络技术有限公司 用于生成模型的方法和装置
WO2018209651A1 (zh) * 2017-05-18 2018-11-22 深圳大学 随机权网络泛化能力改进方法及装置
CN109313722A (zh) * 2016-05-20 2019-02-05 渊慧科技有限公司 存储器高效的基于时间的反向传播
WO2019111118A1 (en) * 2017-12-04 2019-06-13 International Business Machines Corporation Robust gradient weight compression schemes for deep learning applications
CN110619388A (zh) * 2019-09-20 2019-12-27 北京金山数字娱乐科技有限公司 一种分布式训练中梯度同步方法及装置
CN111901134A (zh) * 2019-05-05 2020-11-06 中国移动通信集团四川有限公司 一种基于循环神经网络模型rnn的预测网络质量的方法和装置
US10878319B2 (en) * 2016-02-03 2020-12-29 Google Llc Compressed recurrent neural network models
US11875256B2 (en) 2020-07-09 2024-01-16 International Business Machines Corporation Dynamic computation in decentralized distributed deep learning training
US11886969B2 (en) 2020-07-09 2024-01-30 International Business Machines Corporation Dynamic network bandwidth in distributed deep learning training
US11977986B2 (en) 2020-07-09 2024-05-07 International Business Machines Corporation Dynamic computation rates for distributed deep learning

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030140020A1 (en) * 2001-11-16 2003-07-24 Chen Yuan Yan Plausible neural network with supervised and unsupervised cluster analysis
CN104050507A (zh) * 2014-06-30 2014-09-17 南京理工大学 基于多层神经网络的超光谱图像分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030140020A1 (en) * 2001-11-16 2003-07-24 Chen Yuan Yan Plausible neural network with supervised and unsupervised cluster analysis
CN104050507A (zh) * 2014-06-30 2014-09-17 南京理工大学 基于多层神经网络的超光谱图像分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陆婷等: "应用于回归神经网络的基于梯度的典型算法的归纳与分析", 《计算机工程与应用》 *

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105139864B (zh) * 2015-08-17 2019-05-07 北京眼神智能科技有限公司 语音识别方法和装置
CN105139864A (zh) * 2015-08-17 2015-12-09 北京天诚盛业科技有限公司 语音识别方法和装置
CN108027899A (zh) * 2015-08-25 2018-05-11 高通股份有限公司 用于提高经训练的机器学习模型的性能的方法
CN108475346B (zh) * 2015-11-12 2022-04-19 谷歌有限责任公司 神经随机访问机器
CN108475346A (zh) * 2015-11-12 2018-08-31 谷歌有限责任公司 神经随机访问机器
US10878319B2 (en) * 2016-02-03 2020-12-29 Google Llc Compressed recurrent neural network models
US11948062B2 (en) 2016-02-03 2024-04-02 Google Llc Compressed recurrent neural network models
CN109313722B (zh) * 2016-05-20 2021-11-26 渊慧科技有限公司 存储器高效的基于时间的反向传播
CN109313722A (zh) * 2016-05-20 2019-02-05 渊慧科技有限公司 存储器高效的基于时间的反向传播
CN108122032A (zh) * 2016-11-29 2018-06-05 华为技术有限公司 一种神经网络模型训练方法、装置、芯片和系统
CN108122032B (zh) * 2016-11-29 2020-02-14 华为技术有限公司 一种神经网络模型训练方法、装置、芯片和系统
WO2018103562A1 (zh) * 2016-12-06 2018-06-14 华为技术有限公司 一种数据处理系统及方法
CN107169513A (zh) * 2017-05-05 2017-09-15 第四范式(北京)技术有限公司 控制数据使用顺序的分布式机器学习系统及其方法
WO2018209651A1 (zh) * 2017-05-18 2018-11-22 深圳大学 随机权网络泛化能力改进方法及装置
CN107958695A (zh) * 2017-11-17 2018-04-24 桂林电子科技大学 一种基于机器学习的高精度药物定量方法
CN107958695B (zh) * 2017-11-17 2021-12-14 桂林电子科技大学 一种基于机器学习的高精度药物定量方法
WO2019111118A1 (en) * 2017-12-04 2019-06-13 International Business Machines Corporation Robust gradient weight compression schemes for deep learning applications
JP7087079B2 (ja) 2017-12-04 2022-06-20 インターナショナル・ビジネス・マシーンズ・コーポレーション 深層学習アプリケーションのための堅牢な勾配重み圧縮方式
GB2582232A (en) * 2017-12-04 2020-09-16 Ibm Robust Gradient weight compression schemes for deep learning applications
US11295208B2 (en) 2017-12-04 2022-04-05 International Business Machines Corporation Robust gradient weight compression schemes for deep learning applications
JP2021505993A (ja) * 2017-12-04 2021-02-18 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 深層学習アプリケーションのための堅牢な勾配重み圧縮方式
CN108498089A (zh) * 2018-05-08 2018-09-07 北京邮电大学 一种基于深度神经网络的无创连续血压测量方法
CN108498089B (zh) * 2018-05-08 2022-03-25 北京邮电大学 一种基于深度神经网络的无创连续血压测量方法
CN108805091A (zh) * 2018-06-15 2018-11-13 北京字节跳动网络技术有限公司 用于生成模型的方法和装置
CN111901134A (zh) * 2019-05-05 2020-11-06 中国移动通信集团四川有限公司 一种基于循环神经网络模型rnn的预测网络质量的方法和装置
CN111901134B (zh) * 2019-05-05 2023-04-07 中国移动通信集团四川有限公司 一种基于循环神经网络模型rnn的预测网络质量的方法和装置
CN110619388A (zh) * 2019-09-20 2019-12-27 北京金山数字娱乐科技有限公司 一种分布式训练中梯度同步方法及装置
CN110619388B (zh) * 2019-09-20 2024-04-02 北京金山数字娱乐科技有限公司 一种分布式训练中梯度同步方法及装置
US11875256B2 (en) 2020-07-09 2024-01-16 International Business Machines Corporation Dynamic computation in decentralized distributed deep learning training
US11886969B2 (en) 2020-07-09 2024-01-30 International Business Machines Corporation Dynamic network bandwidth in distributed deep learning training
US11977986B2 (en) 2020-07-09 2024-05-07 International Business Machines Corporation Dynamic computation rates for distributed deep learning

Similar Documents

Publication Publication Date Title
CN104598972A (zh) 一种大规模数据回归神经网络快速训练方法
CN110472817B (zh) 一种结合深度神经网络的XGBoost集成信用评价系统及其方法
Xiao et al. A self-adaptive kernel extreme learning machine for short-term wind speed forecasting
Mujika et al. Approximating real-time recurrent learning with random kronecker factors
CN109242223B (zh) 城市公共建筑火灾风险的量子支持向量机评估与预测方法
CN107578061A (zh) 基于最小化损失学习的不平衡样本分类方法
Yang et al. Online sequential echo state network with sparse RLS algorithm for time series prediction
CN113641722A (zh) 一种基于变体lstm的长期时间序列数据预测方法
Liu et al. A fault diagnosis intelligent algorithm based on improved BP neural network
Lun et al. The modified sufficient conditions for echo state property and parameter optimization of leaky integrator echo state network
CN104850533A (zh) 一种带约束的非负矩阵分解方法及求解方法
CN114282646B (zh) 基于两阶段特征提取和改进BiLSTM的光功率预测方法及系统
CN104778338A (zh) 一种低能耗分子蒸馏过程给定值的优化方法
CN105512755A (zh) 一种基于分解的多目标分布估计优化方法
CN113935489A (zh) 基于量子神经网络的变分量子模型tfq-vqa及其两级优化方法
Li et al. Application of ARIMA and LSTM in relative humidity prediction
CN104915566A (zh) 一种支持增量更新的深度计算模型设计方法
Aishwarya et al. Prediction of time series data using GA-BPNN based hybrid ANN model
Xiao et al. Modeling mechanism and extension of GM (1, 1)
CN111524348A (zh) 一种长短期交通流预测模型及方法
CN109146007B (zh) 一种基于动态深度置信网络的固体废弃物智能处理方法
CN116054144A (zh) 分布式光伏接入的配电网重构方法、系统及存储介质
CN114004353A (zh) 减少光器件数量的光神经网络芯片构建方法及系统
Fei et al. Orthogonal spatial-temporal graph convolutional networks for traffic flow forecasting
Sun et al. CellNet: An Improved Neural Architecture Search Method for Coal and Gangue Classification

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150506