CN112686373A - 一种基于忆阻器的在线训练强化学习方法 - Google Patents

一种基于忆阻器的在线训练强化学习方法 Download PDF

Info

Publication number
CN112686373A
CN112686373A CN202011634224.XA CN202011634224A CN112686373A CN 112686373 A CN112686373 A CN 112686373A CN 202011634224 A CN202011634224 A CN 202011634224A CN 112686373 A CN112686373 A CN 112686373A
Authority
CN
China
Prior art keywords
memristor
crossbar array
signal
reinforcement learning
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011634224.XA
Other languages
English (en)
Other versions
CN112686373B (zh
Inventor
纪志罡
景凌琳
杜意德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202011634224.XA priority Critical patent/CN112686373B/zh
Publication of CN112686373A publication Critical patent/CN112686373A/zh
Application granted granted Critical
Publication of CN112686373B publication Critical patent/CN112686373B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于忆阻器的在线训练强化学习方法:传感器采集智能体当前状态信息St并转换为数字信号,将其编码并转换为电压信号;第一忆阻器交叉杆阵列接收该信号,并对该信号进行乘累加后将输出电流转换为数字信号存储于数字存储器中;当St全部存储于数字存储器中时,处理器进行归一化处理,之后通过第二忆阻器交叉杆阵列进行缩放和偏移;接着全部数据被激活,经过编码并转换为电压信号后传输至第三忆阻器交叉杆阵列,步骤重复次数与隐藏层数相同;第n忆阻器交叉杆阵列接受电压信号输出电流信号并选出最大电流列所表示的动作At,并对最大电流进行电压转换和存储;根据智能体的动作给予奖惩,并将新状态信息St+1存储到经验池中。

Description

一种基于忆阻器的在线训练强化学习方法
技术领域
本发明涉及深度强化学习领域,具体涉及一种基于忆阻器的在线训练强化学习方法。
背景技术
“冯诺依曼瓶颈”的存在阻碍了未来计算的发展道路,计算性能受到数据传输的限制,为了打破这个瓶颈,IMC(In-Memory Computing,存内计算)
跳过数据传输,在存储器中完成运算,成为未来计算的发展方向之一。忆阻器是实现存内计算的最佳候选者,忆阻器是有记忆功能的非线性电阻,通过控制电流的变化可改变其阻值,如果把高低阻值定义为“0”和“1”,则这种电阻可以实现存储数据的功能。
在物联网时代,随着分布式网络的快速发展,物联网中每个边缘节点需要在复杂的环境和有限功率的条件下做出实时可靠的决策。受到人类获取知识过程的启发,RL(Reinforcement Learning,强化学习)让智能体以“试错”的方式进行学习,通过与环境交互获得的奖励进行训练,目标是通过训练使智能体获得最大的奖励,因此强化学习已成为担任决策任务的最佳候选者。传统的模式识别任务可以使用离线训练的方法来实现,但控制任务需要实时在线训练,来应对环境的变化。但是,传统训练神经网络的方法是训练全连接层(线性连接层)和卷积层的权值,如果使用硬件电路去搭建神经网络并训练时,需要更新权值数量多,需要更新阻值状态的器件数量庞大。更新数量如此庞大的忆阻器件的时间和功耗成本高。此外,由于忆阻器不可避免的写编程扰动,导致其存储的数据相比于理想值有偏差,这使得神经网络的在线训练难以实现。因此,如何减少硬件电路搭建神经网络时所需要训练的参数数量进而减少时间和功耗的开销以及避免训练过程中忆阻器的写编程扰动造成的在线训练难以实现是目前有待解决的问题。
发明内容
本发明要解决的技术问题是如何减少硬件电路搭建神经网络时所需要训练的参数数量进而减少时间和功耗的开销以及避免训练过程中忆阻器的写编程扰动造成的在线训练难以实现,提供一种基于忆阻器的在线训练强化学习方法。
本发明是通过下述技术方案来解决上述技术问题:
一种基于忆阻器的在线训练强化学习方法,所述在线训练强化学习方法包括:
传感器采集智能体当前状态信息St并转换为数字信号,将所述数字信号编码并转换为电压信号,用于实现神经网络输入端口的输入;
第一忆阻器交叉杆阵列接收所述电压信号,并对所述电压信号进行乘累加操作后将输出的电流转换为数字信号后存储于数字存储器中,用于实现所述神经网络的第一线性连接层功能;
当所述当前状态信息St全部通过所述第一忆阻器交叉杆阵列并处理存储于所述数字存储器中时,使用ARM处理器将存储于所述数字存储器中的全部数据信息进行归一化处理,用于实现所述神经网络的第一批归一化层的归一化功能;
将经过所述归一化处理的所述全部数据通过第二忆阻器交叉杆阵列进行缩放和偏移操作,用于实现所述神经网络的第一批归一化层的缩放和偏移操作;
将经过所述缩放和偏移操作后的所述全部数据通过激活函数电路激活,经过所述编码并转换为电压信号后传输至第三忆阻器交叉杆阵列,用于实现所述神经网络中隐藏层之间的信息传递;
重复上述步骤,重复次数与所述隐藏层的数量相同;
第n个忆阻器交叉杆阵列接受电压信号,输出电流信号并使用比较器选出最大电流列所表示的动作At,用于实现所述神经网络输出端口的输出,并对所述最大电流进行电压转换和存储;
根据所述智能体采取的动作At给予奖惩值,并将所述智能体做出动作At后的新状态信息St+1存储到经验池中。
较佳地,所述在线训练强化学习方法还包括数据流的反向传播:
将获得的所述奖惩值进行损失值计算;
当数据流反向传播至所述批归一化层时,所述ARM处理器根据反向传播的所述损失值进行梯度计算,计算出dγ和dβ并进行累加,从而对所述缩放和偏移操作的参数进行更新;
当数据流反向传播至所述忆阻器交叉杆阵列时,所述输出端口为反向传播时的输入端口,所述输入端口为反向传播时的输出端口,用于实现所述线性连接层功能的所述忆阻器交叉杆阵列的权值梯度不进行计算;
根据所述隐藏层的数量重复上述步骤。
进一步地,所述状态信息的精度在8bit至16bit之间;所述批归一化层数据的量可在64至128之间;所述数字信号编码的编码方式包括:矩形脉冲电压幅值编码、矩形脉冲宽度编码、串行Bit流编码、矩形脉冲数量编码。
进一步地,所述激活函数包括ReLU函数,tanh函数,Sigmoid函数,Hardtanh函数。
进一步地,所述批归一化层方法包括:传统批归一化层方法和L1-Norm批归一化层方法。
进一步地,所述用于实现所述线性连接层功能的所述忆阻器交叉杆阵列的权值精度可以低至1bit。
更进一步地,还可使用阻变式存储器,铁电存储器,磁阻式随机访问存储器或ARM处理器来实现所述缩放和偏移操作。
在符合本领域常识的基础上,上述各优选条件,可任意组合,即得本发明各较佳实例。
本发明的积极进步效果在于:减少神经网络所需要的训练参数数量,从而减少硬件实现神经网络所需要的忆阻器件数量,进而减少时间和功耗的开销;固定线性连接层的权值不更新,从而避免训练过程中忆阻器的写编程扰动造成的在线训练难以实现的问题;该方法对电源噪声,忆阻器件编程失效率有一定的容忍度及对多种控制类任务具有普适性。
附图说明
图1为本发明一种基于忆阻器的在线训练强化学习方法一实施例中的系统框图;
图2为本发明一种基于忆阻器的在线训练强化学习方法一实施例中的正向传播方法流程图;
图3为本发明一种基于忆阻器的在线训练强化学习方法一实施例中的反向传播方法流程图;
图4为本发明一种基于忆阻器的在线训练强化学习方法一实施例中的多层感知机网络结构对比图;
图5为本发明一种基于忆阻器的在线训练强化学习方法一实施例中的用忆阻器交叉杆阵列实现线性连接层功能示意图;
图6为本发明一种基于忆阻器的在线训练强化学习方法一实施例中的用忆阻器交叉杆阵列实现批归一化层缩放和偏移操作示意图。
具体实施方式
为了便于理解本申请,下面将参照相关附图对本申请进行更全面的描述。附图中给出了本申请的首选实施例。但是,本申请可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本申请的公开内容更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
如图1所示为本发明一实施例中的系统框图,如图2所示为本发明数据流正向传播方法流程图:
S01:传感器采集智能体当前状态信息St并转换为数字信号,将所述数字信号编码并转换为电压信号,用于实现神经网络输入端口的输入;
在一个示例中,如图1和图2所示,利用传感器将智能体在当前环境下的状态信息St进行采集转为数字信号,信息精度在8~16bit之间都可,将采集到的信息按照确定的编码方式以电压信号作为智能体,即神经网络的输入,编码方式可选择矩形脉冲电压幅值编码、矩形脉冲宽度编码、串行Bit流编码、矩形脉冲数量编码。
S02:第一忆阻器交叉杆阵列接收所述电压信号,并对所述电压信号进行乘累加操作后将输出的电流转换为数字信号后存储于数字存储器中,用于实现所述神经网络的第一线性连接层功能;
在一个示例中,如图1和图2和图5所示,线性连接层的实现如图5所示。正向传播如图5(a)所示,输入为x1~xn,输出为y1~yk,使用纵向相邻的两个忆阻器件表示一个有符号权值(+1,-1)。每列的电流由基尔霍夫电流定律实现乘累加(又称向量矩阵乘法)操作,输出的电流经电流电压转换器转换为电压信号yj,然后存储在数字存储器中,存储的数值将用于反向传播过程。
S03:当所述当前状态信息St全部通过所述第一忆阻器交叉杆阵列并处理存储于所述数字存储器中时,使用ARM处理器将存储于所述数字存储器中的全部数据信息进行归一化处理,用于实现所述神经网络的第一批归一化层的归一化功能;
在一个示例中,如图1和图2和图6所示,当同一批数据都通过所述第一忆阻器交叉杆阵列并存储在数字存储器中时,BN(Batch Normalization,批归一化)层使用ARM处理器进行批量正态化操作,分别计算所述数据的均值和方差,BN层数据存储与处理精度可选择8~16bit之间,一批数据中BN层的数据数量可选择64~128之间。
S04:将经过所述归一化处理的所述全部数据通过第二忆阻器交叉杆阵列进行缩放和偏移操作,用于实现所述神经网络的第一批归一化层的缩放和偏移操作;
在一个示例中,如图1和图2和图6所示,BN(Batch Normalization,批归一化)层的操作分为两部分:第一部分进行批量正态化,第二部分进行缩放和偏移,该部分使用忆阻器件交叉杆阵列实现,也可以直接使用ARM处理器或新兴非易失型存储器比如RRAM(Resistive Random Access Memory,阻变式存储器),FRAM(Ferroelectric RandomAccess Memory,铁电存储器),MRAM(Magnetoresistive Random Access Memory,磁阻式随机访问存储器)等实现。使用忆阻器件交叉杆阵列实现时,每一行器件个数表示BN层的精度,如图所示为m-bit精度;相邻两行共同表示一个有符号参数。同一批数据的线性连接层的第j列输出进行批量正态化,每个训练数据经过正态化后转为幅值相同相位相反的电压信号
Figure BDA0002877899370000062
Figure BDA0002877899370000063
进行缩放和偏移操作,输出转为电压信号后送入下一层。对每个归一化后的值使用γ和β两个参数进行缩放和偏移。γ和β两个参数的值是通过训练进行调整的。
Figure BDA0002877899370000061
S05:将经过所述缩放和偏移操作后的所述全部数据通过激活函数电路激活,经过所述编码并转换为电压信号后传输至第三忆阻器交叉杆阵列,用于实现所述神经网络中隐藏层之间的信息传递;
在一个示例中,如图1和图2和图5(a)所示,经过ReLU激活函数电路后,用与前述相同的编码方式以电压信号输入到下一忆阻器交叉杆阵列实现的线性连接层,用于实现神经网络中隐藏层间的信息传递,激活函数也可选用tanh函数,Sigmoid函数,Hardtanh函数。
S06:重复上述步骤,重复次数与所述隐藏层的数量相同;
在一个示例中,如图1和图2和图6(b)所示,根据隐藏层的数量重复上述步骤至第n-1忆阻器交叉杆阵列。
S07:第n忆阻器交叉杆阵列接受电压信号,输出电流信号并使用比较器选出最大电流列所表示的动作At,用于实现所述神经网络输出端口的输出,并对所述最大电流进行电压转换和存储;
在一个示例中,如图1和图2所示,最后一层线性连接层接受电压信号,输出电流信号,利用比较器选出电流最大一列所代表的动作At作为神经网络的输出,同时将电流最大一列的电流使用ADC转为电压信号并进行存储。
S08:根据所述智能体采取的所述最大电流列所表示的动作At给予奖惩值,并将所述智能体做出所述动作At后的新状态信息St+1存储到经验池中。
在一个示例中,根据智能体采取的动作At,环境给予一定的奖惩值,该部分奖惩机制与控制任务本身有关,以小车竖杆(Cart-pole)为例,采取该动作后杆没有倒则Reward=1,否则Reward=0;将智能体采取动作At后新的状态信息St+1进行存储到经验池中。
如图1所示为本发明一实施例中的系统框图,如图3所示为本发明数据流反向传播方法流程图:
S10:将获得的所述奖惩值进行损失值计算;
在一个示例中,根据上述正向传播的奖惩值计算损失值。
S20:当数据流反向传播至所述批归一化层时,所述ARM处理器根据反向传播的所述损失值进行梯度计算,计算出dγ和dβ并进行累加,从而对所述缩放和偏移操作的参数进行更新;
在一个示例中,如图1和图3和图5(b)所示,反向传播到BN层时,利用ARM处理器根据选择的BN方法进行梯度计算,目前推荐的BN方法有:传统BN,L1-Norm BN,计算出的dγ和dβ。需要在该批数据反向传播都经过BN层后对计算出的dγ和dβ进行累加然后对γ和β参数进行更新。
S30:当数据流反向传播至所述忆阻器交叉杆阵列时,所述输出端口为反向传播时的输入端口,所述输入端口为反向传播时的输出端口,用于实现所述线性连接层功能的所述忆阻器交叉杆阵列的权值梯度不进行计算;
在一个示例中,如图1和图3和图5(b)所示所示,输入为dy1~dyk,输出为dx1~dxn,两行的电流经过电流减法器后再由电流电压转换器转为电压信号,输入到BN层进行反向传播。BN层反向传播时使用ARM处理器进行计算后送入上一层线性连接层,在神经网络进行反向传播时,线性连接层的权值自初始化后不再进行更新,该部分权值梯度不进行计算,线性全连接层的权重精度可以低至1-bit。
S40:根据所述隐藏层的数量重复上述步骤。
在一个示例中,根据方向传播过程中隐藏层的数量重复上述数据流传播过程。
如图4所示为本发明与传统多层感知机网络结构对比图:
多层感知机结构的如图4(a)所示,“○”为神经元,每一行神经元隶属于同一神经元层。第一行是输入层,最后一行是输出层,中间的行是隐藏层;神经元层之间为线性连接层。图4(a)为传统的多层感知机结构,隐藏层神经元在对输入进行求和汇总后进行激活函数激活,然后送入下一层线性连接层;图4(b)为本方法的多层感知机结构,隐藏层神经元在进行求和汇总之后激活函数之前加入BN层。本发明减少神经网络所需要的训练的参数数量,从而减少硬件实现神经网络所需要的的忆阻器件数量,进而减少时间和功耗的开销;固定线性连接层的权值不更新,从而避免训练过程中忆阻器的写编程扰动造成的在线训练难以实现的问题。以强化学习经典控制任务Cart-Pole为验证案例,当忆阻器件的写编程扰动程度达到35%仍然可以成功训练达到官方指标;该方法对电源噪声有一定的容忍度,在Cart-Pole控制任务上电源噪容忍度可达到25%;该方法对忆阻器件编程失效率有一定的容忍度,在Cart-Pole控制任务上编程失效率达20%仍然可以训练达到官方指标;该方法对多种控制类任务具有普适性,在其他强化学习典型控制任务小车爬坡(Mountain-car)、双轴机械臂(Acrobot)、飞船降落(Lunar-lander)任务上均可使用。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

Claims (7)

1.一种基于忆阻器的在线训练强化学习方法,其特征在于,所述在线训练强化学习方法包括:
传感器采集智能体当前状态信息St并转换为数字信号,将所述数字信号编码并转换为电压信号,用于实现神经网络输入端口的输入;
第一忆阻器交叉杆阵列接收所述电压信号,并对所述电压信号进行乘累加操作后将输出的电流转换为数字信号后存储于数字存储器中,用于实现所述神经网络的第一线性连接层功能;
当所述当前状态信息St全部通过所述第一忆阻器交叉杆阵列并处理存储于所述数字存储器中时,使用ARM处理器将存储于所述数字存储器中的全部数据信息进行归一化处理,用于实现所述神经网络的第一批归一化层的归一化功能;
将经过所述归一化处理的所述全部数据通过第二忆阻器交叉杆阵列进行缩放和偏移操作,用于实现所述神经网络的第一批归一化层的缩放和偏移操作;
将经过所述缩放和偏移操作后的所述全部数据通过激活函数电路激活,经过所述编码并转换为电压信号后传输至第三忆阻器交叉杆阵列,用于实现所述神经网络中隐藏层之间的信息传递;
重复上述步骤,重复次数与所述隐藏层的数量相同;
第n忆阻器交叉杆阵列接受电压信号,输出电流信号并使用比较器选出最大电流列所表示的动作At,用于实现所述神经网络输出端口的输出,并对所述最大电流进行电压转换和存储;
根据所述智能体采取的所述最大电流列所表示的动作At给予奖惩值,并将所述智能体做出所述动作At后的新状态信息St+1存储到经验池中。
2.如权利要求1所述的一种基于忆阻器的在线训练强化学习方法,其特征在于,所述在线训练强化学习方法还包括数据流的反向传播:
将获得的所述奖惩值进行损失值计算;
当数据流反向传播至所述批归一化层时,所述ARM处理器根据反向传播的所述损失值进行梯度计算,计算出dγ和dβ并进行累加,从而对所述缩放和偏移操作的参数进行更新;
当数据流反向传播至所述忆阻器交叉杆阵列时,所述输出端口为反向传播时的输入端口,所述输入端口为反向传播时的输出端口,用于实现所述线性连接层功能的所述忆阻器交叉杆阵列的权值梯度不进行计算;
根据所述隐藏层的数量重复上述步骤。
3.如权利要求2所述的一种基于忆阻器的在线训练强化学习方法,其特征在于,所述状态信息的精度在8bit至16bit之间;所述批归一化层数据的量可在64至128之间;所述数字信号编码的编码方式包括:矩形脉冲电压幅值编码、矩形脉冲宽度编码、串行Bit流编码、矩形脉冲数量编码。
4.如权利要求2所述的一种基于忆阻器的在线训练强化学习方法,其特征在于,所述激活函数包括ReLU函数,tanh函数,Sigmoid函数,Hardtanh函数。
5.如权利要求2所述的一种基于忆阻器的在线训练强化学习方法,其特征在于,所述批归一化层方法包括:传统批归一化层方法和L1-Norm批归一化层方法。
6.如权利要求2所述的一种基于忆阻器的在线训练强化学习方法,其特征在于,所述用于实现所述线性连接层功能的所述忆阻器交叉杆阵列的权值精度可以低至1bit。
7.如权利要求1至6任一项所述的一种基于忆阻器的在线训练强化学习方法,其特征在于,还可使用阻变式存储器,铁电存储器,磁阻式随机访问存储器或ARM处理器来实现所述缩放和偏移操作。
CN202011634224.XA 2020-12-31 2020-12-31 一种基于忆阻器的在线训练强化学习方法 Active CN112686373B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011634224.XA CN112686373B (zh) 2020-12-31 2020-12-31 一种基于忆阻器的在线训练强化学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011634224.XA CN112686373B (zh) 2020-12-31 2020-12-31 一种基于忆阻器的在线训练强化学习方法

Publications (2)

Publication Number Publication Date
CN112686373A true CN112686373A (zh) 2021-04-20
CN112686373B CN112686373B (zh) 2022-11-01

Family

ID=75456209

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011634224.XA Active CN112686373B (zh) 2020-12-31 2020-12-31 一种基于忆阻器的在线训练强化学习方法

Country Status (1)

Country Link
CN (1) CN112686373B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023123973A1 (zh) * 2021-12-31 2023-07-06 上海集成电路装备材料产业创新中心有限公司 实现卷积运算的电路及其方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9646243B1 (en) * 2016-09-12 2017-05-09 International Business Machines Corporation Convolutional neural networks using resistive processing unit array
CN107085429A (zh) * 2017-05-23 2017-08-22 西南大学 基于忆阻交叉阵列与q学习的机器人路径规划系统
CN109800870A (zh) * 2019-01-10 2019-05-24 华中科技大学 一种基于忆阻器的神经网络在线学习系统
US20200005130A1 (en) * 2018-07-02 2020-01-02 Kabushiki Kaisha Toshiba Reinforcement learning system
CN110796241A (zh) * 2019-11-01 2020-02-14 清华大学 基于忆阻器的神经网络的训练方法及其训练装置
US20200110991A1 (en) * 2017-06-19 2020-04-09 Denso Corporation Method for adjusting output level of multilayer neural network neuron
US20200117986A1 (en) * 2018-10-12 2020-04-16 International Business Machines Corporation Efficient processing of convolutional neural network layers using analog-memory-based hardware
US20200125936A1 (en) * 2018-10-18 2020-04-23 Denso Corporation Artificial neural network circuit and method for switching trained weight in artificial neural network circuit
US20200342301A1 (en) * 2018-09-11 2020-10-29 Huazhong University Of Science And Technology Convolutional neural network on-chip learning system based on non-volatile memory
CN112101549A (zh) * 2020-09-22 2020-12-18 清华大学 基于忆阻器阵列的神经网络的训练方法和装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9646243B1 (en) * 2016-09-12 2017-05-09 International Business Machines Corporation Convolutional neural networks using resistive processing unit array
CN107085429A (zh) * 2017-05-23 2017-08-22 西南大学 基于忆阻交叉阵列与q学习的机器人路径规划系统
US20200110991A1 (en) * 2017-06-19 2020-04-09 Denso Corporation Method for adjusting output level of multilayer neural network neuron
US20200005130A1 (en) * 2018-07-02 2020-01-02 Kabushiki Kaisha Toshiba Reinforcement learning system
US20200342301A1 (en) * 2018-09-11 2020-10-29 Huazhong University Of Science And Technology Convolutional neural network on-chip learning system based on non-volatile memory
US20200117986A1 (en) * 2018-10-12 2020-04-16 International Business Machines Corporation Efficient processing of convolutional neural network layers using analog-memory-based hardware
US20200125936A1 (en) * 2018-10-18 2020-04-23 Denso Corporation Artificial neural network circuit and method for switching trained weight in artificial neural network circuit
CN109800870A (zh) * 2019-01-10 2019-05-24 华中科技大学 一种基于忆阻器的神经网络在线学习系统
CN110796241A (zh) * 2019-11-01 2020-02-14 清华大学 基于忆阻器的神经网络的训练方法及其训练装置
CN112101549A (zh) * 2020-09-22 2020-12-18 清华大学 基于忆阻器阵列的神经网络的训练方法和装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
NAN WU ET AL.: "Memristor Hardware-Friendly Reinforcement Learning", 《ARXIV:2001.06930V1》 *
NAN WU ET AL.: "Preliminary Results Towards Reinforcement Learning with Mixed-Signal Memristive Neuromorphic Circuits", 《2019 IEEE INTERNATIONAL SYMPOSIUM ON CIRCUITS AND SYSTEMS》 *
WENBO SONG ET AL.: "Memristive Neural Network Based Reinforcement Learning with Reward Shaping for Path Finding", 《2018 5TH INTERNATIONAL CONFERENCE ON INFORMATION, CYBERNETICS, AND COMPUTATIONAL SOCIAL SYSTEMS》 *
ZHONGRUI WANG ET AL.: "Reinforcement learning with analogue memristor arrays", 《NATURE ELECTRONICS》 *
张耀中 等: "基于多层忆阻脉冲神经网络的强化学习及应用", 《自动化学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023123973A1 (zh) * 2021-12-31 2023-07-06 上海集成电路装备材料产业创新中心有限公司 实现卷积运算的电路及其方法

Also Published As

Publication number Publication date
CN112686373B (zh) 2022-11-01

Similar Documents

Publication Publication Date Title
JP7182835B2 (ja) 人工ニューラル・ネットワークを訓練する方法および人工ニューラル・ネットワークを実施する装置(人工ニューラル・ネットワークの訓練)
CN107924227B (zh) 电阻处理单元
US10956815B2 (en) Killing asymmetric resistive processing units for neural network training
CN109800870B (zh) 一种基于忆阻器的神经网络在线学习系统
CN108475522B (zh) 内存设备及基于多层rram交叉阵列的数据处理方法
AU2020274862B2 (en) Training of artificial neural networks
US11386319B2 (en) Training of artificial neural networks
CN111433792A (zh) 可编程可重置人工神经网络的基于计数器的电阻处理单元
CN110852429B (zh) 一种基于1t1r的卷积神经网络电路及其操作方法
CN113728338A (zh) 利用非对称rpu器件的dnn训练
CN112686373B (zh) 一种基于忆阻器的在线训练强化学习方法
CN113837371A (zh) 用于实现神经网络的神经形态装置和方法
CN114819093A (zh) 利用基于忆阻器阵列的环境模型的策略优化方法和装置
Bohnstingl et al. Biologically-inspired training of spiking recurrent neural networks with neuromorphic hardware
CN114186667B (zh) 一种循环神经网络权重矩阵向忆阻阵列的映射方法
AU2021296187B2 (en) Suppressing undesired programming at half-selected devices in a crosspoint array of 3-terminal resistive memory
JP7376832B2 (ja) 情報処理システム、情報処理装置、情報処理方法及び情報処理プログラム
CN114004344A (zh) 神经网络电路
Chinnam et al. Neural network-based quality controllers for manufacturing systems
WO2024116229A1 (ja) 信号処理装置
CN117332824A (zh) 基于加权和同步抖动算法的忆阻神经网络全电路
Wu et al. Preliminary Results Towards Reinforcement Learning with Mixed-Signal Memristive Neuromorphic Circuits
CN117610636A (zh) 一种存内计算存储器人工神经网络的片上训练方法
Ghorbani et al. Training artificial neural networks using variable precision incremental communication
Rezvan Enhancing agent’s learning and decision making in minority game with neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant