CN107273975A - 一种神经网络模型的稀疏化后向传播训练方法 - Google Patents

一种神经网络模型的稀疏化后向传播训练方法 Download PDF

Info

Publication number
CN107273975A
CN107273975A CN201710453252.3A CN201710453252A CN107273975A CN 107273975 A CN107273975 A CN 107273975A CN 201710453252 A CN201710453252 A CN 201710453252A CN 107273975 A CN107273975 A CN 107273975A
Authority
CN
China
Prior art keywords
gradient
propagating
rarefaction
neural network
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710453252.3A
Other languages
English (en)
Inventor
孙栩
任宣丞
马树铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201710453252.3A priority Critical patent/CN107273975A/zh
Publication of CN107273975A publication Critical patent/CN107273975A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公布了一种神经网络模型的稀疏化后向传播训练方法,在后向传播过程中,通过基于K大值的稀疏化处理,减少更新与实例相关度低的信息,提高深度神经网络的训练速度和训练效果;在后向传播过程中,首先对输出梯度进行K大值稀疏化处理,利用稀疏化处理后的向量进行梯度计算,得到参数的稀疏化梯度;当神经网络有多层时,本层的输入向量x即为下层的输出向量,输入向量x的梯度可作为下一层的输出结果梯度传递下去。本发明通过减少更新与实例相关度低的信息来提高神经网络的训练速度和训练效果。

Description

一种神经网络模型的稀疏化后向传播训练方法
技术领域
本发明属于信息技术领域,涉及机器学习和深度学习技术,尤其涉及一种基于K大值的稀疏化(Sparsify)神经网络模型后向传播训练方法。
背景技术
神经网络模型的训练过程分为两个步骤:前向传播(Forward Propagation)和后向传播(Backward Propagation)。前向传播计算神经网络各层的输出,后向传播根据前向传播输出结果的梯度计算模型参数的梯度,最后神经网络模型利用这些梯度对参数进行更新。
现有的后向传播方法需要利用前向传播的输出结果的全部梯度信息来计算参数的梯度,这使得神经网络的训练耗时很长,计算量和耗电量大,而且会引入大量与实例相关度低的信息,从而使得训练好的神经网络模型的准确度较低。
发明内容
为了克服上述现有技术的不足,本发明提供一种基于K大值的稀疏化后向传播的训练方法,通过减少更新与实例相关度低的信息来提高神经网络的训练速度和训练效果。
本发明提供的技术方案是:
一种神经网络模型的稀疏化后向传播训练方法,在后向传播过程中通过采用基于K大值的稀疏化方法,减少更新与实例相关度低的信息,提高深度神经网络的训练速度和训练效果,包括如下步骤:
1)前向传播过程:
在前向传播的过程中,神经网络的每一层接受上层的输入x,通过给定的线性变换输出y和非线性变换输出z,并作为下一层的输入,最后一层的输出为整个网络的输出结果。前向传播的网络可以是前馈神经网络(MLP),循环神经网络(RNN)或长短时记忆网络(LSTM)等采用后向传播(图3)进行梯度计算的神经网络模型。
2)后向传播过程:
神经网络模型每一层的后向传播需要利用上一层的输出梯度(1≤i≤n,n为向量维度)作为输入计算梯度,本发明对输出梯度进行K大值稀疏化(Sparsify)的处理,即保留前向传播输出梯度的绝对值(absolute value,i.e.magnitude)最大的k个值(k的大小小于向量z的维度大小),剩余的值全部为0,例如 利用这个稀疏化处理后的向量进行梯度计算得到参数梯度,由于经过稀疏化处理,梯度计算时只需要计算与k个值有关的部分,剩余的部分不需要参与计算,可以降低后向传播的计算量;
具体地,本发明通过式1对输出梯度的绝对值做稀疏化处理:
其中,σi′是稀疏化处理后的向量;topk代表一个K大值稀疏化操作,即保留输入向量的所有维度的绝对值中前k大的值(k的大小小于向量z的维度n),剩余的值全部为0,例如利用这个稀疏化处理后的向量σi′进行梯度计算得到参数梯度。
利用经式1进行稀疏化处理后的向量σi′计算参数矩阵W的梯度,计算公式为式2:
利用经式1进行稀疏化处理后的向量σi′计算输入向量x的梯度,计算公式为式3:
其中,{t1,t2,…,tk}(1≤k≤n)代表的所有维度的绝对值中前k大的值的下标。
当神经网络有多层时,本层的输入向量x即为下层的输出向量,因此输入向量x的梯度可以作为下一层的输出结果梯度传递下去。
采用本发明方法训练神经网络模型,由于每一层的梯度都经过了topk稀疏化处理(式1),只保留了与训练实例最相关的信息,可以大幅度地降低计算量和计算时间,并提高模型的准确度。
3)根据2)中后向传播求得的稀疏化梯度,对神经网络的参数进行更新:
本发明方法适用于所有采用了标准后向传播(图3)的训练算法,例如亚当(Adam)训练算法、自适应次梯度(Adagrad)训练算法、随机梯度下降算法(SGD)等。由于稀疏化梯度只保留了与实例最相关的信息,因此可以提高模型训练的可靠性。
本发明方法适用于所有采用了标准后向传播(图3)的神经网络模型,例如前馈神经网络(MLP),循环神经网络(RNN),长短时记忆网络(LSTM)等。
与现有技术相比,本发明的有益效果是:
本发明通过基于K大值的稀疏化后向传播的训练方法来降低训练时间和计算量,以及提高神经网络的准确度。通过本发明提供的后向传播方法,减少了神经网络的训练时间,尤其减少了神经网络模型的计算量和耗电量,稀疏化的过程没有降低模型的准确度,甚至由于只更新了与实例最相关的信息,神经网络模型的准确度可以得到提高。
附图说明
图1是本发明提供的一种基于K大值的稀疏化后向传播的训练方法的流程框图。
图2是前向传播过程;
其中,(a)为前向传播计算流程;(b)为前向传播概念示意图。
图3是现有方法的后向传播过程;
其中,(a)为现有后向传播具体计算流程(参数矩阵的梯度计算);(b)为现有后向传播具体计算流程(输入向量的梯度计算);(c)为现有后向传播的概念图。
图4是本发明方法中的后向传播;
其中,(a)为本发明方法的稀疏化后向传播具体计算流程(参数矩阵的稀疏化梯度计算);(b)为本发明方法的稀疏化后向传播具体计算流程(输入向量的稀疏化梯度计算);(c)为本发明方法的稀疏化后向传播的概念图。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提供一种神经网络模型的稀疏化后向传播训练方法,是一种基于K大值的稀疏化后向传播的训练方法,图1是本发明方法的流程框图。
神经网络最基本的计算单元是一个线性变换加上一个非线性变换,因此,具体实施以最基本的神经网络计算单元为例,计算公式如下:
y=Wx
z=σ(y)
其中,W是模型的参数矩阵,x是输入向量,y是线性变换后的输出,σ是非线性变换的函数,z是非线性变换后的输出。
本发明提供的神经网络模型的稀疏化后向传播训练方法包括如下步骤:
1)通过前向传播过程计算深度神经网络每一层的结果z:
图2示意了前向传播过程。给定输入m维向量x,n乘m维参数矩阵W,先通过线性变换得到中间结果y(n维),再通过非线性变换函数σ得到神经网络的输出z(n维);
2)后向传播过程:
图3示意了现有的后向传播过程,其中,(a)为现有后向传播具体计算流程(参数矩阵的梯度计算);(b)为现有后向传播具体计算流程(输入向量的梯度计算);(c)为现有后向传播的概念图。图4示意了本发明方法中的后向传播过程,其中,(a)为本发明方法的稀疏化后向传播具体计算流程(参数矩阵的稀疏化梯度计算);(b)为本发明方法的稀疏化后向传播具体计算流程(输入向量的稀疏化梯度计算);(c)为本发明方法的稀疏化后向传播的概念图。
本发明中,后向传播(如图4)时需要利用前向传播的输出梯度计算输入x和参数矩阵W的梯度。与现有的后向传播方法(图3)不同,本发明通过式1对输出梯度的绝对值做稀疏化处理:
其中,topk代表一个K大值稀疏化操作,即保留输入向量的所有维度的绝对值中前k大的值(k的大小小于向量z的维度n),剩余的值全部为0,例如 利用这个稀疏化处理后的向量σi′进行梯度计算得到参数梯度。
利用经式1进行稀疏化处理后的向量σi′计算参数矩阵W的梯度,计算公式为式2:
利用经式1进行稀疏化处理后的向量σi′计算输入向量x的梯度,计算公式为式3:
其中,{t1,t2,…,tk}(1≤k≤n)代表的所有维度的绝对值中前k大的值的下标。
当神经网络有多层时,本层的输入向量x即为下层的输出向量,因此输入向量x的梯度可以作为下一层的输出结果梯度传递下去。
采用本发明方法训练神经网络模型,由于每一层的梯度都经过了topk稀疏化处理(式1),只保留了与训练实例最相关的信息,可以大幅度地降低计算量和计算时间,并提高模型的准确度。
C.根据求得的稀疏化梯度对神经网络的参数进行更新。
本发明方法适用于所有采用了标准后向传播(图3)的训练算法,例如亚当(Adam)训练算法、自适应次梯度(Adagrad)训练算法、随机梯度下降算法(SGD)等。由于稀疏化梯度只保留了与实例最相关的信息,因此可以提高模型训练的可靠性。
本发明方法适用于所有采用了标准后向传播(图3)的神经网络模型,例如前馈神经网络(MLP),循环神经网络(RNN),长短时记忆网络(LSTM)等。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (6)

1.一种神经网络模型的稀疏化后向传播训练方法,在后向传播过程中,通过基于K大值的稀疏化处理,减少更新与实例相关度低的信息,提高深度神经网络的训练速度和训练效果;包括如下步骤:
1)在前向传播的过程中,前向传播的神经网络模型的每一层接受上层的输入向量x;通过线性变换输出向量y,通过非线性变换输出向量z,并作为下一层的输入;最后一层的输出作为整个网络模型的输出结果;
2)在后向传播过程中,神经网络模型每一层的后向传播利用上一层的输出梯度(1≤i≤n,n为向量维度)作为输入,首先对输出梯度进行K大值稀疏化处理,利用稀疏化处理后的向量进行梯度计算,得到参数的稀疏化梯度;所述参数的稀疏化梯度包括参数矩阵W的稀疏化梯度和输入向量x的稀疏化梯度;当神经网络有多层时,本层的输入向量x即为下层的输出向量,输入向量x的梯度可作为下一层的输出结果梯度传递下去;
3)根据2)中后向传播求得的稀疏化梯度,对神经网络的参数进行更新;从而实现对神经网络模型进行训练。
2.如权利要求1所述神经网络模型的稀疏化后向传播训练方法,其特征是,所述神经网络模型可以是所有采用了标准后向传播的神经网络模型。
3.如权利要求1所述神经网络模型的稀疏化后向传播训练方法,其特征是,所述神经网络模型是前馈神经网络(MLP)、循环神经网络(RNN)或长短时记忆网络(LSTM)。
4.如权利要求1所述神经网络模型的稀疏化后向传播训练方法,其特征是,步骤2)具体通过式1对输出梯度的绝对值做稀疏化处理:
其中,topk代表一个K大值稀疏化操作,即保留输入向量的所有维度的绝对值中前k大的值,k的大小小于向量z的维度n,剩余的值全部为0;
利用经式1进行稀疏化处理后的向量z’计算参数矩阵W的梯度,计算公式为式2:
利用经式1进行稀疏化处理后的向量z’计算输入向量x的梯度,计算公式为式3:
其中,{t1,t2,…,tk}(1≤k≤n)代表的所有维度的绝对值中前k大的值的下标。
5.如权利要求1所述神经网络模型的稀疏化后向传播训练方法,其特征是,步骤3)中更新方法适用于所有采用了标准后向传播的训练算法。
6.如权利要求1所述神经网络模型的稀疏化后向传播训练方法,其特征是,步骤3)中更新方法适用于亚当(Adam)训练算法、自适应次梯度(Adagrad)训练算法或随机梯度下降算法(SGD)。
CN201710453252.3A 2017-06-15 2017-06-15 一种神经网络模型的稀疏化后向传播训练方法 Pending CN107273975A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710453252.3A CN107273975A (zh) 2017-06-15 2017-06-15 一种神经网络模型的稀疏化后向传播训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710453252.3A CN107273975A (zh) 2017-06-15 2017-06-15 一种神经网络模型的稀疏化后向传播训练方法

Publications (1)

Publication Number Publication Date
CN107273975A true CN107273975A (zh) 2017-10-20

Family

ID=60066753

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710453252.3A Pending CN107273975A (zh) 2017-06-15 2017-06-15 一种神经网络模型的稀疏化后向传播训练方法

Country Status (1)

Country Link
CN (1) CN107273975A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126081A (zh) * 2018-10-31 2020-05-08 永德利硅橡胶科技(深圳)有限公司 全球通用语言终端及方法
WO2020147142A1 (zh) * 2019-01-16 2020-07-23 华为技术有限公司 一种深度学习模型的训练方法、系统
WO2022250562A1 (en) * 2021-05-28 2022-12-01 Huawei Technologies Co., Ltd. Method and computer system for training a neural network model
CN116167461A (zh) * 2023-04-21 2023-05-26 之江实验室 一种模型训练的方法、装置、存储介质及电子设备

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126081A (zh) * 2018-10-31 2020-05-08 永德利硅橡胶科技(深圳)有限公司 全球通用语言终端及方法
CN111126081B (zh) * 2018-10-31 2023-07-21 深圳永德利科技股份有限公司 全球通用语言终端及方法
WO2020147142A1 (zh) * 2019-01-16 2020-07-23 华为技术有限公司 一种深度学习模型的训练方法、系统
CN111788585A (zh) * 2019-01-16 2020-10-16 华为技术有限公司 一种深度学习模型的训练方法、系统
CN111788585B (zh) * 2019-01-16 2024-04-12 华为云计算技术有限公司 一种深度学习模型的训练方法、系统
WO2022250562A1 (en) * 2021-05-28 2022-12-01 Huawei Technologies Co., Ltd. Method and computer system for training a neural network model
CN116167461A (zh) * 2023-04-21 2023-05-26 之江实验室 一种模型训练的方法、装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN107273975A (zh) 一种神经网络模型的稀疏化后向传播训练方法
Turkyilmazoglu Accelerating the convergence of Adomian decomposition method (ADM)
CN107832847A (zh) 一种基于稀疏化后向传播训练的神经网络模型压缩方法
CN110223323A (zh) 基于深度特征自适应相关滤波的目标跟踪方法
CN112396191B (zh) 一种基于联邦学习进行模型参数更新的方法、系统及装置
Zhao et al. Non-smooth plant disease models with economic thresholds
CN103778482B (zh) 基于多尺度分析的水产养殖溶解氧短期预测方法
Wei et al. A BiLSTM hybrid model for ship roll multi-step forecasting based on decomposition and hyperparameter optimization
CN112508190A (zh) 结构化稀疏参数的处理方法、装置、设备及存储介质
CN103941701B (zh) 一种双网环境下浮选工业过程运行控制系统及方法
CN107578093A (zh) 滑坡变形的Elman神经网络动态预测方法
CN109858798A (zh) 关联改造措施与电压指标的电网投资决策建模方法及装置
CN108154235A (zh) 一种图像问答推理方法、系统及装置
CN105095857A (zh) 基于关键点扰动技术的人脸数据增强方法
CN109800517B (zh) 一种改进的磁流变阻尼器逆向建模方法
CN107944076A (zh) 一种设备部署方案获取方法及装置
CN110009181A (zh) 配电网改造措施与失负荷量指标关联性挖掘方法及装置
CN117077579B (zh) 翼型流场预测方法、装置、设备及存储介质
CN103926832A (zh) 一种神经网络跟踪控制的自适应学习率调节方法
Torabi et al. Prediction of soil permeability coefficient using the GEP approach
CN106407932A (zh) 基于分数阶微积分与广义逆神经网络的手写数字识别方法
CN107341540A (zh) 一种用于执行Hessian-Free训练算法的装置和方法
CN108470208A (zh) 一种基于原始生成对抗网络模型的分组卷积方法
Kazhyken et al. Discontinuous Galerkin methods for a dispersive wave hydro-morphodynamic model with bed-load transport
Wang et al. An improved forecasting model of fuzzy time series

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20171020

WD01 Invention patent application deemed withdrawn after publication