CN116050503B

CN116050503B - 一种通用化的神经网络前向训练方法

Info

Publication number: CN116050503B
Application number: CN202310120956.4A
Authority: CN
Inventors: 韩为; 王涵信; 赵巍; 刘鹏
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2023-02-15
Filing date: 2023-02-15
Publication date: 2023-11-10
Anticipated expiration: 2043-02-15
Also published as: CN116050503A

Abstract

本发明提出一种通用化的神经网络前向训练方法，属于神经网络训练技术领域。在层结构的输出端连接辅助输出模块，包括：S1.设当前隐藏层为网络的第i层，第i层的输入为第i‑1层的输出h_i‑1；S2.输入数据流经隐藏层，计算隐藏层的输出h_i，并传递给下一隐藏层；S3.隐藏层i的输出h_i为辅助输出模块AOM_i的输入，AOM_i推理隐藏层输出的含义；S4.计算当前AOM的输出与真实标签的误差，将误差传递给AOM和当前隐藏层，迭代AOM和当前隐藏层参数；S5.在下一组隐藏层和AOM上重复S1‑S4，直至训练数据流经所有隐藏层；S6.重复步骤S1‑S5，直至网络训练结束。解决现有前向训练方法中通用性弱的技术问题。

Description

一种通用化的神经网络前向训练方法

技术领域

本申请涉及一种神经网络前向训练方法，尤其涉及一种通用化的神经网络前向训练方法，属于神经网络训练技术领域。

背景技术

Geoffrey Hinton提出的Forward-Forward Algorithm，简称FFA，FFA用真数据和假数据的两次前向传播来代替反向传播(BackPropagation，简称BP)训练神经网络；真数据对应每个隐藏层输出正增益，假数据对应负增益；实现前向训练时，样本数据每注入到一个隐藏层，就通过正增益或负增益来更新该层参数，以此达到训练目的。BP反向传播方法进行神经网络训练时，存在对可微模型的依赖性，对于存在不可微结构的网络或对于无解析表达式的黑盒子问题是失效的。

FFA在实验中表现出的性能比BP优越，主要体现在其前向性传播策略上；但由于它采用正、负增益等处理，对于神经网络中引入注意力机制(Attention)等结构需要重新考虑合理的增益设置途径，因此FFA的通用性不明确。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

鉴于此，为解决现有技术中存在的通用性弱的技术问题，本发明提供一种通用化的神经网络前向训练方法。本发明是在FFA的基础上提出的，在不要求前向传播阶段必须完全可微的情况下，可在大多数网络结构上实施前向训练，通用性强；且各层可以并行训练，省时高效。

方案一、一种通用化的神经网络前向训练方法，在层结构的输出端连接辅助输出模块，具体包括以下步骤：

S1.设当前隐藏层为网络的第i层，第i层的输入为第i-1层的输出h_i-1；

S2.输入数据流经隐藏层，计算隐藏层的输出h_i，并传递给下一隐藏层；

S3.隐藏层i的输出h_i为辅助输出模块AOM_i的输入，AOM_i推理隐藏层输出的含义；

S4.计算当前AOM的输出与真实标签的误差，将误差传递给AOM和当前隐藏层，迭代AOM和当前隐藏层参数；

S5.在下一组隐藏层和AOM上重复S1-S4，直至训练数据流经所有隐藏层；

S6.重复步骤S1-S5，直至网络训练结束。

优选的，S2.输入数据流经相邻多个隐藏层，计算多组隐藏层的输出h_i，并传递给下一隐藏层。

优选的，S2所述隐藏层是任何神经网络结构，包括全连接网络、卷积网络和注意力机制模块，及其组合，选择相应结构的网络输出计算公式获得隐藏层输出。

优选的，S3所述辅助输出模块为任何训练结构。

优选的，S3所述辅助输出模块设计为全连接网络，推理方法为wh+b；S3所述辅助输出模块为卷积网络，推理方法为conv(h)；S3所述辅助输出模块为支持向量机，推理方法为F(Kernel(h,z),w)；S3所述辅助输出模块为玻尔兹曼机，推理方法为Bolt(h,w)。

优选的，迭代AOM和当前隐藏层参数的方法是：

其中，w表示当前层神经网络参数，F表示当前层神经网络的运算，x表示当前层神经网络输入，θ表示AOM参数，G表示AOM运算，L表示网络输出值和预期值之间误差的函数，y表示任何L计算误差时依赖的外界输入，α表示学习率，H表示神经网络参数优化策略。

优选的，

若当前层为ReLU单元全连接层，则中F(x；w)＝max(wx+b,0)；

若AOM被设计为分类任务下的全连接结构，则中G(x,θ)＝Softmax(θx+b)；

若表示网络输出值和预期值之间误差的函数使用交叉熵，则中，L(o,y)＝-∑ylog(o)，其中o为AOM的输出；

若神经网络参数优化策略使用随机梯度下降，则中H(g,α)＝-αg。

方案二、一种电子设备，包括存储器和处理器，存储器存储有计算机程序，所述的处理器执行所述计算机程序时实现方案一所述的一种通用化的神经网络前向训练方法的步骤。

方案三、一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现方案一所述的一种通用化的神经网络前向训练方法。

本发明的有益效果如下：

1.本发明使神经网络的训练不必依赖反向传播，因此可以增加不可微模块；

2.本发明可使神经网络每一层的训练并行进行，节省时间，提高效率；

3.本发明对硬件计算的稳定性要求不高，有利于在量子计算等新硬件环境中部署神经网络；

4.本发明可以使神经网络隐藏层输出更加稀疏，如，使用本发明+ReLU(激活神经元占比约17％)训练效果比BP+ReLU(约30％)的效果更稀疏，更贴近生物体同时处于激活状态的神经元只占很少比例这一现实证据。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为一种通用化的神经网络前向训练方法流程示意图；

图2为AOM位置示意图；

图3为分立式的前向训练示意图；

图4为交叠式的前向训练示意图。

具体实施方式

为了使本申请实施例中的技术方案及优点更加清楚明白，以下结合附图对本申请的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本申请的一部分实施例，而不是所有实施例的穷举。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

实施例1、参照图1-图4说明本实施方式，一种通用化的神经网络前向训练方法，在层结构的输出端连接辅助输出模块，具体包括以下步骤：

隐藏层是任何神经网络结构，包括全连接网络、卷积网络和注意力机制模块，及其组合，选择相应结构的网络输出计算公式获得隐藏层输出。

具体的，输入数据流经相邻多个隐藏层，计算多组隐藏层的输出h_i，并传递给下一隐藏层。

S3所述辅助输出模块为任何可训练结构，不限于全连接网络、卷积网络、支持向量机和玻尔兹曼机等；

S3所述辅助输出模块设计为全连接网络，推理方法为wh+b；

S3所述辅助输出模块为卷积网络，推理方法为conv(h)；

S3所述辅助输出模块为支持向量机，推理方法为F(Kernel(h,z),v)，其中，F()是支持向量机公式，Kernel()是核函数，z是参考点，v是权重；

S3所述辅助输出模块为玻尔兹曼机，推理方法为Bolt(h,w)，Bolt()，是玻尔兹曼机公式。

迭代AOM和当前隐藏层参数的方法是：

若当前层为ReLU单元全连接层，则中F(x；w)＝max(wx+b,0)；

若AOM被设计为分类任务下的全连接结构，则中，G(x,θ)＝Softmax(θx+b)；

若表示网络输出值和预期值之间误差的函数使用交叉熵，则中，L(o,y)＝-∑ylog(o)；

若神经网络参数优化策略使用随机梯度下降，则中，H(g,α)＝-αg。

具体的，误差计算方法可以为相应网络常用损失函数，如交叉熵和MSE等。

例如，若是图像分类任务，则AOM的输出o和真实标签y之间的误差可以为CrossEntropy(o,y):-∑ylog(o)。

S6.重复步骤S1-S5，直至网络训练结束。

具体的，人工神经网络中每一层的训练在任何时间进行，彼此之间在时间上独立，互不干扰；参照图3。

具体的，任意相邻两隐藏层的训练可以同时进行，记相邻两层分别为a层和b层，a层的输出作为b层的输入，b层的输出由b层的AOM_b和损失函数计算误差，同时调整a、b两层的参数；参照图4。

具体的，y可以是分类任务中的标签，可以是任何形式制造的假数据，可以是x，可以是被遮盖住部分内容的文本等任何可帮助隐藏层学习有用信息的参考标准。

具体的，本发明通用性强，包括任何涉及到使用神经网络的领域，例如分类识别、工业检测、医学影像诊断、图像分割、时序预测、文本翻译和语音识别等。以下结合本发明方法列举实例：

1、使用本发明的方法进行数据分类任务、全连接结构模型的分立式前向训练：

每条数据为N维向量，共C个种类，隐藏层i输出维度为h_i；为每一隐藏层补充一个全连接结构的AOM，AOM输入维度为H_i，输出维度为C；

步骤一、隐藏层i的输入为隐藏层i-1的输出或原始样本数据x，计算隐藏层输出h_i＝max(w_ix+b_i,0)；

步骤二、将h_i输入至AOM_i，计算AOM_i的输出o_i＝softmax(w_AOMih_i+b_AOMi)；

步骤三、用交叉熵-∑ylog(o_i)计算误差，y为样本数据的标签；

步骤四、利用局部梯度下降方法更新AOM_i和隐藏层i的所有参数；

步骤五、将h_i传递给隐藏层i+1和AOM_i+1，重复步骤一至步骤四；

步骤六、对下一批数据重复步骤一至步骤五，直至训练结束。

2、使用本发明的方法进行图像分类任务、卷积结构的交叠式前向训练：

隐藏层i输出为(c_i,w_i,h_i)的张量；图像共C个种类；为每一卷积层补充一个全连接结构的AOM，AOM输入维度为c_iw_ih_i，输出维度为C；

步骤一、设图像经过隐藏层1和AOM₁，用交叉熵和标签计算AOM₁的误差，凭借误差更新隐藏层1和AOM₁的参数；

步骤二、图像经过隐藏层1、2和AOM₂，用交叉熵和标签计算AOM₂的误差，凭借误差更新隐藏层1、2和AOM₂的参数；

步骤三、步骤一中的隐藏层1的输出经隐藏层2、3和AOM₃，通过交叉熵和标签计算AOM₃的误差，凭借误差更新隐藏层2、3和AOM₃的参数；

一般地，隐藏层i-2的输出h_i-2经隐藏层i-1、i和AOM_i，通过交叉熵和标签计算AOM_i的误差，凭借误差更新隐藏层i-1、i和AOM_i的参数；

步骤四、对余下隐藏层重复步骤三的一般情况，直至所有隐藏层都被训练过；

步骤五、对下一批数据重复步骤一至步骤四，直至训练结束。

3、使用本发明的方法进行文本情感分类任务、Attention结构的分立式前向训练：

隐藏层i输出为(s_i,h_i)的序列；文本情感共C个种类，为每一隐藏层补充一个全连接结构的AOM，AOM输入维度为s_ih_i，输出维度为C；

步骤一、将隐藏层i-1的输出或原始数据注入到隐藏层i，计算隐藏层i的输出h_i；

步骤二、将h_i注入到AOM_i，计算AOMi的输出o_i；

步骤三、用交叉熵CrossEntropy(o_i,y)计算误差，其中y为样本数据的标签；

4、使用本发明的方法进行序列预测任务、无监督的、LSTM结构的分立式前向训练：

隐藏层i的输出为(s_i,h_i)的序列；为每一隐藏层补充一个RNN结构的AOM，AOM输入维度为s_ih_i，输出维度为s_i-1,h_i-1或s₀,h₀，其中s₀,h₀为原始序列尺寸；

步骤二、将h_i注入到AOM_i，计算AOM_i的输出o_i；

步骤三、用MSE(o_i[:-1],y)计算误差，其中y是H_i-1[1:]或H₀[1:],H₀是原始序列；

本实施例列举上述4种算法训练过程，本领域技术人员可以根据本发明一种通用化的神经网络前向训练方法的步骤设计其他算法。

实施例2、本发明的计算机装置可以是包括有处理器以及存储器等装置，例如包含中央处理器的单片机等。并且，处理器用于执行存储器中存储的计算机程序时实现上述的一种通用化的神经网络前向训练方法的步骤。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

实施例3、计算机可读存储介质实施例

本发明的计算机可读存储介质可以是被计算机装置的处理器所读取的任何形式的存储介质，包括但不限于非易失性存储器、易失性存储器、铁电存储器等，计算机可读存储介质上存储有计算机程序，当计算机装置的处理器读取并执行存储器中所存储的计算机程序时，可以实现上述的一种通用化的神经网络前向训练方法的步骤。

所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种通用化的神经网络前向训练方法，其特征在于，在层结构的输出端连接辅助输出模块，进行图像分类任务或进行文本情感分类任务，具体包括以下步骤：

S4.计算当前AOM的输出与真实标签的误差，将误差传递给AOM和当前隐藏层，迭代AOM和当前隐藏层参数，方法是：

；

其中，w表示当前层神经网络参数，F表示当前层神经网络的运算，x表示当前层神经网络输入，表示AOM参数，G表示AOM运算，L表示网络输出值和预期值之间误差的函数，y表示任何L计算误差时依赖的外界输入，/>表示学习率，H表示神经网络参数优化策略；

S6.重复步骤S1-S5，直至网络训练结束。

2.根据权利要求1所述一种通用化的神经网络前向训练方法，其特征在于，S2所述隐藏层，包括全连接网络、卷积网络和注意力机制模块，及其组合，选择相应结构的网络输出计算公式获得隐藏层输出。

3.根据权利要求2所述一种通用化的神经网络前向训练方法，其特征在于，S3所述辅助输出模块设计为全连接网络，推理方法为wh+b；S3所述辅助输出模块为卷积网络，推理方法为conv(h)；S3所述辅助输出模块为支持向量机，推理方法为F(Kernel(h, z), w)；S3所述辅助输出模块为玻尔兹曼机，推理方法为Bolt(h, w)。

4.根据权利要求3所述一种通用化的神经网络前向训练方法，其特征在于，

若当前层为ReLU单元全连接层，则中F(x;w) = max(wx+b,0)；

若AOM被设计为分类任务下的全连接结构，则中，G(x, />) =Softmax(/>x+b)；

若表示网络输出值和预期值之间误差的函数使用交叉熵，则中，L(o, y) =/>；

若神经网络参数优化策略使用随机梯度下降，则中，H(g, />) = />g。

5.一种电子设备，其特征在于，包括存储器和处理器，存储器存储有计算机程序，所述的处理器执行所述计算机程序时实现权利要求1-4任一项所述的一种通用化的神经网络前向训练方法的步骤。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-4任一项所述的一种通用化的神经网络前向训练方法。