CN112686373A

CN112686373A - 一种基于忆阻器的在线训练强化学习方法

Info

Publication number: CN112686373A
Application number: CN202011634224.XA
Authority: CN
Inventors: 纪志罡; 景凌琳; 杜意德
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-04-20
Anticipated expiration: 2040-12-31
Also published as: CN112686373B

Abstract

本发明公开了一种基于忆阻器的在线训练强化学习方法：传感器采集智能体当前状态信息S_t并转换为数字信号，将其编码并转换为电压信号；第一忆阻器交叉杆阵列接收该信号，并对该信号进行乘累加后将输出电流转换为数字信号存储于数字存储器中；当S_t全部存储于数字存储器中时，处理器进行归一化处理，之后通过第二忆阻器交叉杆阵列进行缩放和偏移；接着全部数据被激活，经过编码并转换为电压信号后传输至第三忆阻器交叉杆阵列，步骤重复次数与隐藏层数相同；第n忆阻器交叉杆阵列接受电压信号输出电流信号并选出最大电流列所表示的动作At，并对最大电流进行电压转换和存储；根据智能体的动作给予奖惩，并将新状态信息S_t+1存储到经验池中。

Description

一种基于忆阻器的在线训练强化学习方法

技术领域

本发明涉及深度强化学习领域，具体涉及一种基于忆阻器的在线训练强化学习方法。

背景技术

“冯诺依曼瓶颈”的存在阻碍了未来计算的发展道路，计算性能受到数据传输的限制，为了打破这个瓶颈，IMC(In-Memory Computing，存内计算)

跳过数据传输，在存储器中完成运算，成为未来计算的发展方向之一。忆阻器是实现存内计算的最佳候选者，忆阻器是有记忆功能的非线性电阻，通过控制电流的变化可改变其阻值，如果把高低阻值定义为“0”和“1”，则这种电阻可以实现存储数据的功能。

在物联网时代，随着分布式网络的快速发展，物联网中每个边缘节点需要在复杂的环境和有限功率的条件下做出实时可靠的决策。受到人类获取知识过程的启发，RL(Reinforcement Learning，强化学习)让智能体以“试错”的方式进行学习，通过与环境交互获得的奖励进行训练，目标是通过训练使智能体获得最大的奖励，因此强化学习已成为担任决策任务的最佳候选者。传统的模式识别任务可以使用离线训练的方法来实现，但控制任务需要实时在线训练，来应对环境的变化。但是，传统训练神经网络的方法是训练全连接层(线性连接层)和卷积层的权值，如果使用硬件电路去搭建神经网络并训练时，需要更新权值数量多，需要更新阻值状态的器件数量庞大。更新数量如此庞大的忆阻器件的时间和功耗成本高。此外，由于忆阻器不可避免的写编程扰动，导致其存储的数据相比于理想值有偏差，这使得神经网络的在线训练难以实现。因此，如何减少硬件电路搭建神经网络时所需要训练的参数数量进而减少时间和功耗的开销以及避免训练过程中忆阻器的写编程扰动造成的在线训练难以实现是目前有待解决的问题。

发明内容

本发明要解决的技术问题是如何减少硬件电路搭建神经网络时所需要训练的参数数量进而减少时间和功耗的开销以及避免训练过程中忆阻器的写编程扰动造成的在线训练难以实现，提供一种基于忆阻器的在线训练强化学习方法。

本发明是通过下述技术方案来解决上述技术问题：

一种基于忆阻器的在线训练强化学习方法，所述在线训练强化学习方法包括：

传感器采集智能体当前状态信息S_t并转换为数字信号，将所述数字信号编码并转换为电压信号，用于实现神经网络输入端口的输入；

第一忆阻器交叉杆阵列接收所述电压信号，并对所述电压信号进行乘累加操作后将输出的电流转换为数字信号后存储于数字存储器中，用于实现所述神经网络的第一线性连接层功能；

当所述当前状态信息S_t全部通过所述第一忆阻器交叉杆阵列并处理存储于所述数字存储器中时，使用ARM处理器将存储于所述数字存储器中的全部数据信息进行归一化处理，用于实现所述神经网络的第一批归一化层的归一化功能；

将经过所述归一化处理的所述全部数据通过第二忆阻器交叉杆阵列进行缩放和偏移操作，用于实现所述神经网络的第一批归一化层的缩放和偏移操作；

将经过所述缩放和偏移操作后的所述全部数据通过激活函数电路激活，经过所述编码并转换为电压信号后传输至第三忆阻器交叉杆阵列，用于实现所述神经网络中隐藏层之间的信息传递；

重复上述步骤，重复次数与所述隐藏层的数量相同；

第n个忆阻器交叉杆阵列接受电压信号，输出电流信号并使用比较器选出最大电流列所表示的动作A_t，用于实现所述神经网络输出端口的输出，并对所述最大电流进行电压转换和存储；

根据所述智能体采取的动作A_t给予奖惩值，并将所述智能体做出动作A_t后的新状态信息S_t+1存储到经验池中。

较佳地，所述在线训练强化学习方法还包括数据流的反向传播：

将获得的所述奖惩值进行损失值计算；

当数据流反向传播至所述批归一化层时，所述ARM处理器根据反向传播的所述损失值进行梯度计算，计算出dγ和dβ并进行累加，从而对所述缩放和偏移操作的参数进行更新；

当数据流反向传播至所述忆阻器交叉杆阵列时，所述输出端口为反向传播时的输入端口，所述输入端口为反向传播时的输出端口，用于实现所述线性连接层功能的所述忆阻器交叉杆阵列的权值梯度不进行计算；

根据所述隐藏层的数量重复上述步骤。

进一步地，所述状态信息的精度在8bit至16bit之间；所述批归一化层数据的量可在64至128之间；所述数字信号编码的编码方式包括：矩形脉冲电压幅值编码、矩形脉冲宽度编码、串行Bit流编码、矩形脉冲数量编码。

进一步地，所述激活函数包括ReLU函数，tanh函数，Sigmoid函数，Hardtanh函数。

进一步地，所述批归一化层方法包括：传统批归一化层方法和L1-Norm批归一化层方法。

进一步地，所述用于实现所述线性连接层功能的所述忆阻器交叉杆阵列的权值精度可以低至1bit。

更进一步地，还可使用阻变式存储器，铁电存储器，磁阻式随机访问存储器或ARM处理器来实现所述缩放和偏移操作。

在符合本领域常识的基础上，上述各优选条件，可任意组合，即得本发明各较佳实例。

本发明的积极进步效果在于：减少神经网络所需要的训练参数数量，从而减少硬件实现神经网络所需要的忆阻器件数量，进而减少时间和功耗的开销；固定线性连接层的权值不更新，从而避免训练过程中忆阻器的写编程扰动造成的在线训练难以实现的问题；该方法对电源噪声，忆阻器件编程失效率有一定的容忍度及对多种控制类任务具有普适性。

附图说明

图1为本发明一种基于忆阻器的在线训练强化学习方法一实施例中的系统框图；

图2为本发明一种基于忆阻器的在线训练强化学习方法一实施例中的正向传播方法流程图；

图3为本发明一种基于忆阻器的在线训练强化学习方法一实施例中的反向传播方法流程图；

图4为本发明一种基于忆阻器的在线训练强化学习方法一实施例中的多层感知机网络结构对比图；

图5为本发明一种基于忆阻器的在线训练强化学习方法一实施例中的用忆阻器交叉杆阵列实现线性连接层功能示意图；

图6为本发明一种基于忆阻器的在线训练强化学习方法一实施例中的用忆阻器交叉杆阵列实现批归一化层缩放和偏移操作示意图。

具体实施方式

为了便于理解本申请，下面将参照相关附图对本申请进行更全面的描述。附图中给出了本申请的首选实施例。但是，本申请可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本申请的公开内容更加透彻全面。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

如图1所示为本发明一实施例中的系统框图，如图2所示为本发明数据流正向传播方法流程图：

S01：传感器采集智能体当前状态信息S_t并转换为数字信号，将所述数字信号编码并转换为电压信号，用于实现神经网络输入端口的输入；

在一个示例中，如图1和图2所示，利用传感器将智能体在当前环境下的状态信息S_t进行采集转为数字信号，信息精度在8～16bit之间都可，将采集到的信息按照确定的编码方式以电压信号作为智能体，即神经网络的输入，编码方式可选择矩形脉冲电压幅值编码、矩形脉冲宽度编码、串行Bit流编码、矩形脉冲数量编码。

S02：第一忆阻器交叉杆阵列接收所述电压信号，并对所述电压信号进行乘累加操作后将输出的电流转换为数字信号后存储于数字存储器中，用于实现所述神经网络的第一线性连接层功能；

在一个示例中，如图1和图2和图5所示，线性连接层的实现如图5所示。正向传播如图5(a)所示，输入为x₁～x_n，输出为y₁～y_k，使用纵向相邻的两个忆阻器件表示一个有符号权值(+1,-1)。每列的电流由基尔霍夫电流定律实现乘累加(又称向量矩阵乘法)操作，输出的电流经电流电压转换器转换为电压信号y_j，然后存储在数字存储器中，存储的数值将用于反向传播过程。

S03：当所述当前状态信息S_t全部通过所述第一忆阻器交叉杆阵列并处理存储于所述数字存储器中时，使用ARM处理器将存储于所述数字存储器中的全部数据信息进行归一化处理，用于实现所述神经网络的第一批归一化层的归一化功能；

在一个示例中，如图1和图2和图6所示，当同一批数据都通过所述第一忆阻器交叉杆阵列并存储在数字存储器中时，BN(Batch Normalization，批归一化)层使用ARM处理器进行批量正态化操作，分别计算所述数据的均值和方差，BN层数据存储与处理精度可选择8～16bit之间，一批数据中BN层的数据数量可选择64～128之间。

S04：将经过所述归一化处理的所述全部数据通过第二忆阻器交叉杆阵列进行缩放和偏移操作，用于实现所述神经网络的第一批归一化层的缩放和偏移操作；

在一个示例中，如图1和图2和图6所示，BN(Batch Normalization，批归一化)层的操作分为两部分：第一部分进行批量正态化，第二部分进行缩放和偏移，该部分使用忆阻器件交叉杆阵列实现，也可以直接使用ARM处理器或新兴非易失型存储器比如RRAM(Resistive Random Access Memory，阻变式存储器)，FRAM(Ferroelectric RandomAccess Memory，铁电存储器)，MRAM(Magnetoresistive Random Access Memory，磁阻式随机访问存储器)等实现。使用忆阻器件交叉杆阵列实现时，每一行器件个数表示BN层的精度，如图所示为m-bit精度；相邻两行共同表示一个有符号参数。同一批数据的线性连接层的第j列输出进行批量正态化，每个训练数据经过正态化后转为幅值相同相位相反的电压信号

和

进行缩放和偏移操作，输出转为电压信号后送入下一层。对每个归一化后的值使用γ和β两个参数进行缩放和偏移。γ和β两个参数的值是通过训练进行调整的。

S05：将经过所述缩放和偏移操作后的所述全部数据通过激活函数电路激活，经过所述编码并转换为电压信号后传输至第三忆阻器交叉杆阵列，用于实现所述神经网络中隐藏层之间的信息传递；

在一个示例中，如图1和图2和图5(a)所示，经过ReLU激活函数电路后，用与前述相同的编码方式以电压信号输入到下一忆阻器交叉杆阵列实现的线性连接层，用于实现神经网络中隐藏层间的信息传递，激活函数也可选用tanh函数，Sigmoid函数，Hardtanh函数。

S06：重复上述步骤，重复次数与所述隐藏层的数量相同；

在一个示例中，如图1和图2和图6(b)所示，根据隐藏层的数量重复上述步骤至第n-1忆阻器交叉杆阵列。

S07：第n忆阻器交叉杆阵列接受电压信号，输出电流信号并使用比较器选出最大电流列所表示的动作A_t，用于实现所述神经网络输出端口的输出，并对所述最大电流进行电压转换和存储；

在一个示例中，如图1和图2所示，最后一层线性连接层接受电压信号，输出电流信号，利用比较器选出电流最大一列所代表的动作A_t作为神经网络的输出，同时将电流最大一列的电流使用ADC转为电压信号并进行存储。

S08：根据所述智能体采取的所述最大电流列所表示的动作A_t给予奖惩值，并将所述智能体做出所述动作A_t后的新状态信息S_t+1存储到经验池中。

在一个示例中，根据智能体采取的动作A_t，环境给予一定的奖惩值，该部分奖惩机制与控制任务本身有关，以小车竖杆(Cart-pole)为例，采取该动作后杆没有倒则Reward＝1，否则Reward＝0；将智能体采取动作A_t后新的状态信息S_t+1进行存储到经验池中。

如图1所示为本发明一实施例中的系统框图，如图3所示为本发明数据流反向传播方法流程图：

S10：将获得的所述奖惩值进行损失值计算；

在一个示例中，根据上述正向传播的奖惩值计算损失值。

S20：当数据流反向传播至所述批归一化层时，所述ARM处理器根据反向传播的所述损失值进行梯度计算，计算出dγ和dβ并进行累加，从而对所述缩放和偏移操作的参数进行更新；

在一个示例中，如图1和图3和图5(b)所示，反向传播到BN层时，利用ARM处理器根据选择的BN方法进行梯度计算，目前推荐的BN方法有：传统BN，L1-Norm BN，计算出的dγ和dβ。需要在该批数据反向传播都经过BN层后对计算出的dγ和dβ进行累加然后对γ和β参数进行更新。

S30：当数据流反向传播至所述忆阻器交叉杆阵列时，所述输出端口为反向传播时的输入端口，所述输入端口为反向传播时的输出端口，用于实现所述线性连接层功能的所述忆阻器交叉杆阵列的权值梯度不进行计算；

在一个示例中，如图1和图3和图5(b)所示所示，输入为dy₁～dy_k，输出为dx₁～dx_n，两行的电流经过电流减法器后再由电流电压转换器转为电压信号，输入到BN层进行反向传播。BN层反向传播时使用ARM处理器进行计算后送入上一层线性连接层，在神经网络进行反向传播时，线性连接层的权值自初始化后不再进行更新，该部分权值梯度不进行计算，线性全连接层的权重精度可以低至1-bit。

S40：根据所述隐藏层的数量重复上述步骤。

在一个示例中，根据方向传播过程中隐藏层的数量重复上述数据流传播过程。

如图4所示为本发明与传统多层感知机网络结构对比图：

多层感知机结构的如图4(a)所示，“○”为神经元，每一行神经元隶属于同一神经元层。第一行是输入层，最后一行是输出层，中间的行是隐藏层；神经元层之间为线性连接层。图4(a)为传统的多层感知机结构，隐藏层神经元在对输入进行求和汇总后进行激活函数激活，然后送入下一层线性连接层；图4(b)为本方法的多层感知机结构，隐藏层神经元在进行求和汇总之后激活函数之前加入BN层。本发明减少神经网络所需要的训练的参数数量，从而减少硬件实现神经网络所需要的的忆阻器件数量，进而减少时间和功耗的开销；固定线性连接层的权值不更新，从而避免训练过程中忆阻器的写编程扰动造成的在线训练难以实现的问题。以强化学习经典控制任务Cart-Pole为验证案例，当忆阻器件的写编程扰动程度达到35％仍然可以成功训练达到官方指标；该方法对电源噪声有一定的容忍度，在Cart-Pole控制任务上电源噪容忍度可达到25％；该方法对忆阻器件编程失效率有一定的容忍度，在Cart-Pole控制任务上编程失效率达20％仍然可以训练达到官方指标；该方法对多种控制类任务具有普适性，在其他强化学习典型控制任务小车爬坡(Mountain-car)、双轴机械臂(Acrobot)、飞船降落(Lunar-lander)任务上均可使用。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种基于忆阻器的在线训练强化学习方法，其特征在于，所述在线训练强化学习方法包括：

重复上述步骤，重复次数与所述隐藏层的数量相同；

第n忆阻器交叉杆阵列接受电压信号，输出电流信号并使用比较器选出最大电流列所表示的动作A_t，用于实现所述神经网络输出端口的输出，并对所述最大电流进行电压转换和存储；

根据所述智能体采取的所述最大电流列所表示的动作A_t给予奖惩值，并将所述智能体做出所述动作A_t后的新状态信息S_t+1存储到经验池中。

2.如权利要求1所述的一种基于忆阻器的在线训练强化学习方法，其特征在于，所述在线训练强化学习方法还包括数据流的反向传播：

将获得的所述奖惩值进行损失值计算；

根据所述隐藏层的数量重复上述步骤。

3.如权利要求2所述的一种基于忆阻器的在线训练强化学习方法，其特征在于，所述状态信息的精度在8bit至16bit之间；所述批归一化层数据的量可在64至128之间；所述数字信号编码的编码方式包括：矩形脉冲电压幅值编码、矩形脉冲宽度编码、串行Bit流编码、矩形脉冲数量编码。

4.如权利要求2所述的一种基于忆阻器的在线训练强化学习方法，其特征在于，所述激活函数包括ReLU函数，tanh函数，Sigmoid函数，Hardtanh函数。

5.如权利要求2所述的一种基于忆阻器的在线训练强化学习方法，其特征在于，所述批归一化层方法包括：传统批归一化层方法和L1-Norm批归一化层方法。

6.如权利要求2所述的一种基于忆阻器的在线训练强化学习方法，其特征在于，所述用于实现所述线性连接层功能的所述忆阻器交叉杆阵列的权值精度可以低至1bit。

7.如权利要求1至6任一项所述的一种基于忆阻器的在线训练强化学习方法，其特征在于，还可使用阻变式存储器，铁电存储器，磁阻式随机访问存储器或ARM处理器来实现所述缩放和偏移操作。