CN110210613A

CN110210613A - 一种基于强化学习的脉冲神经网络模拟电路

Info

Publication number: CN110210613A
Application number: CN201910433249.4A
Authority: CN
Inventors: 缪向水; 何毓辉; 王杰
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2019-05-23
Filing date: 2019-05-23
Publication date: 2019-09-06
Anticipated expiration: 2039-05-23
Also published as: CN110210613B

Abstract

本发明属于脉冲神经网络技术领域，公开一种基于强化学习的脉冲神经网络模拟电路；包括：输入层神经元，隐藏层神经元，输出神经元和突触；输入层神经元通过突触与隐藏层神经元连接，隐藏层神经元通过突触与所述输出神经元连接；突触用于根据权重值将前级神经元的第一脉冲信号进行调节后传递给后级神经元，还用于接收后级神经元输出的第二脉冲信号，并根据第一脉冲信号和第二脉冲信号之间的时间差以及奖励信号对所述权重值进行更新。本发明基于强化学习，搭建脉冲神经网络电路，实现XOR分类功能。与传统的脉冲神经网络相比，具有更快的训练速度和更高的准确率。

Description

一种基于强化学习的脉冲神经网络模拟电路

技术领域

本发明属于脉冲神经网络技术领域，更具体地，涉及一种基于强化学习的脉冲神经网络电路。

背景技术

回顾AI的历史我们会发现其与生物神经网络有着密切的联系。然而，传统人工神经网络虽然脱胎于生物神经网络，二者的内在机制却有巨大的差异；近年来DNN的成功恰恰是因为它借鉴了人脑的思维机制，从内在上缩小了人工神经网络与生物神经网络之间的差距。种种迹象表明，为了使AI及计算机技术取得长足的进步，人类必须跳出冯·诺依曼架构及现有机器学习算法的束缚，转而去探索大脑的奥秘，构建新型类脑计算机。因此，基于脉冲神经网络(Spiking Neural Network，SNN)的类脑计算或神经形态计算(neuromorphiccomputing)受到了越来越广泛的关注。SNN的主要思路在于模仿人脑通过“脉冲”(Spike)的形式传递信号，进而完成计算任务，而不是采用传统计算机及机器学习加速芯片中常见的数字信号运算。相比于其他人工神经网络，它与生物神经网络的差异更小，能够实现许多生物神经网络的独特优势，如SNN的分布式计算方式能够突破冯诺依曼瓶颈，而其事件驱动型的工作模式能够将系统能效进一步提高，大大降低计算功耗。

当今主流的SNN在结构上多借鉴于主流的机器学习架构，如Frank Rosenblatt于1957年提出的单层感知机(Perceptron)。而在算法层面，突触阵列权重分布的建立依赖于突触的可塑性算法，国际上认可度最高的是脉冲时间依赖可塑性(Spike Time DependentPlasticity，STDP)算法。STDP是一种经过生物实验证实的突触可塑性算法，其利用突触前神经元与突触后神经元产生脉冲的时序关系来调节权重：若突触前神经元先于突触后神经元产生脉冲，则权重上升；若突触后神经元先于突触前神经元产生脉冲，则权重下降。然而，STDP算法在自主执行复杂任务的相关领域例如以自动驾驶车辆，太空探索和协作工业机器人等应用中，效果并不理想。

发明内容

针对现有技术的缺陷，本发明的目的在于提供一种基于强化学习的脉冲神经网络电路，旨在解决现有技术中由于脉冲神经网络在自主执行复杂任务不理想导致训练速度慢，精度低的问题。

本发明提供了一种基于强化学习的脉冲神经网络电路，包括：输入层神经元，隐藏层神经元，输出神经元和突触；所述输入层神经元通过突触与所述隐藏层神经元连接，所述隐藏层神经元通过突触与所述输出神经元连接；所述突触用于根据权重值将前级神经元的第一脉冲信号进行调节后传递给后级神经元，还用于接收后级神经元输出的第二脉冲信号，并根据第一脉冲信号和第二脉冲信号之间的时间差以及奖励信号对所述权重值进行更新。

本发明相比较普通的神经网络来说，需要的神经元和突触更少，训练速度更快，结果更精确。

更进一步地，所述突触包括：信号传递单元和权重更新单元；所述信号传递单元用于根据权重值将前级神经元的第一脉冲信号进行调节后传递给后级神经元；所述权重更新单元用于接收后级神经元输出的第二脉冲信号，并根据第一脉冲信号和第二脉冲信号之间的时间差以及奖励信号对所述权重值进行更新。

更进一步地，权重更新单元包括：权重调节模块和奖励信号输入模块；所述奖励信号输入模块用于将奖励信号r1和r2奖励给权重调节模块；所述权重调节模块用于根据脉冲时间差以及奖励信号r1和r2实时快速调节突触的权重值。

其中，奖励信号r1和r2是外部输入的，具体地，可以根据输出层神经元输出的第二脉冲信号与需要的激发信号相比较获得的。

当奖励信号r1为高电平，r2为低电平的时候，权重更新单元的第一脉冲信号输入和前级神经元的输出相连接，第二脉冲信号输入和后级神经元的输出相连，在由前级神经元脉冲信号先于后级神经元脉冲信号时，权重增加。在奖励信号r1为低电平，r2为高电平的时候权重更新单元的第一脉冲信号输入和后级神经元的输出相连接，第二脉冲信号输入和前级神经元的输出相连，在由后级神经元脉冲信号先于前级神经元脉冲信号到来时，权重减小。

更进一步地，奖励信号输入模块包括：N型晶体管N11、N12、N13、N14，第一反相器和第二反相器；前脉冲的输入与晶体管N11的源端和第一反相器的输入相连，后脉冲的输入与N型晶体管N12的源端和第二反相器的输入相连，N型晶体管N14的漏端与STDP权重更新单元的前脉冲输入相连，N型晶体管N13和N型晶体管N14的源端分别于第一反相器和第二反相器的输出相连，N型晶体管N13和N型晶体管N14的漏端与权重调节单元的后脉冲输入相连，N型晶体管N12和N型晶体管N13的栅极与奖励信号r1相连，N型晶体管N11和N型晶体管N14的栅极与奖励信号r2相连。

更进一步地，输出神经元包括：电容电荷泄漏与重置单元和神经元阈值自适应单元；所述电容电荷泄漏与重置单元用于在神经元被激发后将存储在电容的电荷进行释放，使神经元处于初始态；所述神经元阈值自适应单元用于在神经元被激发后，短时间阈值提高，更难被激发。

更进一步地，电容电荷泄漏与重置单元包括：电容C1，泄露管N7和重置管N5；所述电容C1的一端与泄露管N7的源级以及重置管N5的源级相连，电容C1的另一端与泄露管N7的漏极以及重置管N5的漏极相连后接地，泄露管N7的栅极用于连接外部的控制电源，重置管N5的栅极用于与第四级反相器的输出相连。

其中，后级神经元中电容C1的电荷积累由前级神经元发放的脉冲和两者相连的权重的大小决定，当前级神经元发放脉冲的时，若权重较小，则后级神经元中电容C1的电荷流出，抑制后级神经元的激发；若权重较大，则后级神经元中电容C1的电荷流入，促进后级神经元的激发。

更进一步地，神经元阈值自适应单元包括：4个N型晶体管N1、N2、N3、N4，电容C2和P型晶体管P1；所述N型晶体管N1的栅极为阈值自适应模块的输入，与电容C1相连，N型晶体管N1的漏极为模块的输出与N型晶体管N2的源极第一级反相器的输入相连；电容C2的一端分别于N型晶体管N4的漏极与N型晶体管N3的源极以及N型晶体管N2的栅极相连，另一端与N型晶体管N3和N型晶体管N2的漏极都与地相连；N型晶体管N4的栅极与第四级反相器的输出相连，N型晶体管N3的栅极外接控制电源，P型晶体管P1的栅极和其漏极与电源电压VDD相连，P型晶体管P1的源级与N型晶体管N4的源级相连。

通过本发明所构思的以上技术方案，与现有技术相比，本发明具有以下有益效果：

本发明提供的基于强化学习的脉冲神经网络电路，结合了强化学习和STDP的优点，通过在神经突触中添加奖励信号，形成奖励调制的脉冲时序可塑(R-STDP)学习规则，相比较基于STDP算法的脉冲神经网络，更适合自主执行复杂任务，并且对训练样本的要求更低，训练次数需要更少。将兴奋性突触和抑制性突触改为用一种突触实现，当权重较大时，对后级神经元起兴奋作用，当权重较小时，对后级神经元起抑制作用。其中神经元可表现出类似生物神经元的阈值自适应和不应期的功能。

附图说明

图1为根据本发明实施例的整体的神经网络框架。

图2为根据本发明实施例的R-STDP模块的电路图。

图3为根据本发明实施例的前第二脉冲信号时间差对权重变化的影响。

图4为根据本发明实施例的奖励信号对权重变化的影响。

图5为根据本发明实施例的与后级神经元相连接的所有前级神经元脉冲到来时，引起的后级神经元中电容的电荷流入和流出的电路图。

图6为根据本发明实施例的隐藏层神经元的电路图。

图7为根据本发明实施例的整个神经网络训练和测试结果图，交替输入1：0两次进行训练，之后权重不再改变，进行1：0，0：1和1：1的测试。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提出的脉冲神经网络电路，结合了强化学习和STDP的优点，基于奖励调制的脉冲时序可塑(R-STDP)学习规则，相比较现有技术中的STDP算法，具有更快的训练速度，更高的准确率。

本发明提供的基于强化学习的脉冲神经网络电路包括：输入层神经元，隐藏层神经元，输出神经元和突触；输入层神经元通过突触与隐藏层神经元连接，隐藏层神经元通过突触与输出神经元连接；突触用于根据权重值将前级神经元的第一脉冲信号进行调节后传递给后级神经元，还用于接收后级神经元输出的第二脉冲信号，并根据第一脉冲信号和第二脉冲信号之间的时间差以及奖励信号对所述权重值进行更新；

与现有普通突触相比，该突触在解决实时问题时，训练速度更快，精度更高。

突触包括：信号传递单元和权重更新单元，信号传递单元用于根据权重值将前级神经元的第一脉冲信号进行调节后传递给后级神经元；权重更新单元用于接收后级神经元输出的第二脉冲信号，并根据第一脉冲信号和第二脉冲信号之间的时间差以及奖励信号对所述权重值进行更新。

具体地，当奖励信号r1为高电平且奖励信号r2为低电平时，权重更新单元的第一脉冲信号输入和前级神经元的输出相连接，第二脉冲信号输入和后级神经元的输出相连，在由前级神经元脉冲信号先于后级神经元脉冲信号时，权重增加。在奖励信号r1为低电平，r2为高电平的时候权重更新单元的第一脉冲信号输入和后级神经元的输出相连接，第二脉冲信号输入和前级神经元的输出相连，在由后级神经元脉冲信号先于前级神经元脉冲信号到来时，权重减小。当奖励信号r1为低电平且奖励信号r2为低电平时，权重值不进行更新。

权重更新单元包括：权重调节单元以及奖励信号输入单元。输入层神经元用于将输入信号转换成脉冲神经网络模块所需的脉冲信号；隐藏层神经元用于将输入脉冲信号经过计算转换，并将结果传入输出层神经元得到网络的输出；输出神经元用于将神经网络的输出用神经激发的形式体现；权重更新单元用于更新突触中的权重值。输入神经元模块接收信号，通过权重更新单元，传入隐藏层神经元，之后隐藏层神经元对输入脉冲信号进行计算转换，传入输出层神经元，输出神经元激发产生奖励信号作用于权重更新单元。

其中，输出神经元包括：电容电荷泄漏与重置单元和神经元阈值自适应单元；电容电荷泄漏与重置单元用于在神经元被激发后，将存储在电容的电荷进行释放，使神经元处于初始态；神经元阈值自适应单元用于在神经元被激发后，短时间阈值提高，更难被激发。

电容电荷泄漏与重置单元包括：电容C1，泄露管N7和重置管N5；其中电容C1的一端与阈值自适应的输入，即N1管的栅极以及进行电荷泄露的N7管的源级和进行电荷重置的N5管的源级相连，电容C1的另一端以及N7和N5的漏极与地相连，N7管的栅极外接控制电源，N5管的栅极与第四级反相器的输出相连。

神经元阈值自适应单元包括：4个N型晶体管(N1-N4)，电容C2，P型晶体管P1；其中N1管的栅极为阈值自适应模块的输入，与电容C1相连，N1管的漏极为模块的输出与N2管的源极第一级反相器的输入相连。电容C2的一端分别于N4管的漏极与N3管的源极以及N2管的栅极相连，另一端与N3和N2管的漏极都与地相连。N4管的栅极与第四级反相器的输出相连，N3管的栅极外接控制电源，P1的栅极和其漏极与电源电压VDD相连，P1的源级与N4管的源级相连。

其中，权重更新单元包括：权重调节模块和奖励信号输入模块，奖励信号输入模块用于将奖励信号r1和r2奖励给权重调节模块，权重调节模块用于根据脉冲时间差以及奖励信号r1和r2实时快速调节突触的权重值。

奖励信号r1和r2是外部输入的，具体地，可以根据输出层神经元输出的第二脉冲信号与需要的激发信号相比较获得的。

奖励信号输入模块包括：N型晶体管N11-N14，和第一到第二反相器，第一脉冲信号的输入与晶体管N11的源端和第一反相器的输入相连，第二脉冲信号的输入与N型晶体管N12的源端和第二反相器的输入相连，第一和N型晶体管N14的漏端与STDP权重更新单元的第一脉冲信号输入相连，N型晶体管N13和N14的源端分别于第一和第二反相器的输出相连，N型晶体管N13和N14的漏端与权重调节单元的第二脉冲信号输入相连，N型晶体管N12和N13的栅极与奖励信号r1相连，N型晶体管N11和N14的栅极与奖励信号r2相连。

在奖励信号r1为高电平且r2为低电平时，权重更新单元的第一脉冲信号输入和前级神经元的输出相连接，第二脉冲信号输入和后级神经元的输出相连，在由前级神经元脉冲信号先于后级神经元脉冲信号时，权重增加。在奖励信号r1为低电平，r2为高电平的时候权重更新单元的第一脉冲信号输入和后级神经元的输出相连接，第二脉冲信号输入和前级神经元的输出相连，在由后级神经元脉冲信号先于前级神经元脉冲信号到来时，权重减小。

后级神经元中电容C1的电荷积累由前级神经元发放的脉冲和两者相连的权重的大小决定，当前级神经元发放脉冲的时，若权重较小，则后级神经元中电容C1的电荷流出，抑制后级神经元的激发；若权重较大，则后级神经元中电容C1的电荷流入，促进后级神经元的激发。

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但并不用来限制本发明的范围。

如图1所示，根据本发明的一个方面，提供一种基于强化学习的脉冲神经网络电路，目标实现异或功能，即当输入为1：0和0：1的时候，输出为1，当输入为0：0和1：1的时候，输出为0。

在本实施例中，输入层神经元5个一组，共2组与隐藏层神经元全连接，当输入为1：0时，第一组输入神经元产生频率为50KHZ的脉冲，第二组输入神经元不产生脉冲；当输入为0：1时，第二组输入神经元产生频率为50KHZ的脉冲，第一组输入神经元不产生脉冲。当输入为1：1时，第一和第二组输入神经元都产生频率为50KHZ的脉冲，当输入为0：0的时候，不产生脉冲。

其中R-STDP模块部分，如图2所示。

由于本文所采用的突触权重电压为低电平有效，因此当正脉冲输入先于负脉冲输入到来时，权重电压增加，对应权重减小，当正脉冲输入晚于负脉冲输入到来时，权重电压减小，对应权重增加。该电路的输出为W，用以代表权重。而图中Wp_bias、Wd_bias分别代表控制R-STDP算法权重增强及权重减弱强度的外部偏置电压，Wtp_bias、Wtd_bias分别代表控制R-STDP算法权重增强及权重减弱时间常数的外部偏置电压，r1和r2为奖励信号，在奖励信号r1为高电平，r2为低电平的时候，R-STDP权重更新单元的正脉冲输入与前级神经元的输出端连接，第二脉冲信号输入与后级神经元的反相输出端相连，当前级神经元脉冲先于后级神经元脉冲到来时，P4管和N4管最先导通，在前级脉冲结束后，P4管栅压低于阈值，不再导通，但由于N4管的栅极与N5管的栅源相连，由于寄生电容的影响，N4管的栅极电压将会缓慢衰减，在N4管栅压还未衰减到阈值一下时，后级神经元的脉冲到达，引起N3管的导通，电容电荷流出，电压减小，权重增加，反之减小。在奖励信号r1为低电平，r2为高电平的时候，权重更新单元的第一脉冲信号输入与后级神经元的输出端相连接，第二脉冲信号输入和前级神经元的输出端相连，当前级神经元脉冲先于后级神经元激发时，P2管和N3管最先导通，在前级脉冲结束后，N3管栅压低于阈值，不再导通，但由于P2管的栅极与P3管的栅漏相连，由于寄生电容的影响，P2管的栅极电压将会缓慢增加，在N4管栅压还未达到阈值时，后级神经元的脉冲到达，引起P4管的导通，电容电荷流入，权重减小，反之增加。在奖励信号r1和r2都为低电平时，权重更新单元的正负脉冲输入端均没有脉冲输入，权重保持不变。

如图4所示，前级神经元和后级神经元分别产生脉冲，在奖励信号r1为高电平，r2为低电平的时候，权重变化和常规STDP一样，在奖励信号r1为低电平，r2为高电平的时候，权重变化与常规STDP变化相反。

如图5所示，一个后级神经元的输入与前级神经元的脉冲和与之相连接的权重相关，vpre1为一个前级神经元的输出，w11为此前级神经元和后级神经元连接的权重强度，out与后级神经元的积分电容相连，在权重较大，即电压较低时，电荷的积累大于电荷的泄露，对后级神经元的激发有正向作用，在权重较小，即电压较高时，电荷的泄露大于电荷的积累，对后级神经元的激发有抑制作用，即实现了正负权重。

输出神经元，如图6所示，包括电容电荷泄漏与重置，神经元阈值自适应。

电容电荷泄漏与重置由电容C1，泄露管N7和重置管N5组成。其中电容C1的一端与阈值自适应的输入，即N1管的栅极以及进行电荷泄露的N7管的源级和进行电荷重置的N5管的源级相连，电容C1的另一端以及N7和N5的漏极与地相连，N7管的栅极外接控制电源，N5管的栅极与第四级反相器的输出相连。

神经元阈值自适应由N1-N4共4个N型晶体管，电容C2，P型晶体管P1组成。其中N1管的栅极为阈值自适应模块的输入，与电容C1相连，N1管的漏极为模块的输出与N2管的源极第一级反相器的输入相连。电容C2的一端分别于N4管的漏极与N3管的源极以及N2管的栅极相连，另一端与N3和N2管的漏极都与地相连。N4管的栅极与第四级反相器的输出相连，N3管的栅极外接控制电源，P1的栅极和其漏极与电源电压VDD相连，P1的源级与N4管的源级相连。

图6中，当电容C1的电荷积累，电压不断升高，随之N1管的漏级电压不断升高，直到引起反相器的输出发生跳变，第四级反相器的输出高电平，引起N5管的打开，使电容C1积累的电荷通过N5管，快速泄露掉，同时，也将N4管打开，使电容C2进行短暂的电荷积累，电压增加，导致N2管的源级电压减小，即阈值提高，对应于生物神经元中的阈值自适应。当电容C1的电荷被泄露掉，反相器的输入处于低态，反向器的输出依次发生跳变，其中N6管处于亚阈值态，将减缓低第三级反相器的输出由低电压跳变为高电压，故第四级反相器的输出相对于第一级反相器的输入变化，有一定的延迟，对应于生物神经元的不应期。

对整个神经网络进行训练和测试，在训练初始时，交替输入1：0和0：1，隐藏层神经元会被随机激发，在训练2次之后，将r1和r2信号的输入改为低电平，即关闭了奖励信号，权重不再改变。进行测试，隐藏层神经元分别只对输入为1：0和0：1进行激发，而对1：1和0：0均不激发，输出神经元与隐藏层神经元的权重连接不变，故当隐藏层神经元任意被激发时，输出神经元均有输出，即实现XOR功能。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于强化学习的脉冲神经网络电路，其特征在于，包括：输入层神经元，隐藏层神经元，输出神经元和突触；

所述输入层神经元通过突触与所述隐藏层神经元连接，所述隐藏层神经元通过突触与所述输出神经元连接；

所述突触用于根据权重值将前级神经元的第一脉冲信号进行调节后传递给后级神经元，还用于接收后级神经元输出的第二脉冲信号，并根据第一脉冲信号和第二脉冲信号之间的时间差以及奖励信号对所述权重值进行更新。

2.如权利要求1所述的脉冲神经网络电路，其特征在于，所述突触包括：信号传递单元和权重更新单元；

所述信号传递单元用于根据权重值将前级神经元的第一脉冲信号进行调节后传递给后级神经元；

所述权重更新单元用于接收后级神经元输出的第二脉冲信号，并根据第一脉冲信号和第二脉冲信号之间的时间差以及奖励信号对所述权重值进行更新。

3.如权利要求3所述的脉冲神经网络电路，其特征在于，所述权重更新单元包括：权重调节模块和奖励信号输入模块；

所述奖励信号输入模块用于将奖励信号r1和r2奖励给权重调节模块；

所述权重调节模块用于根据脉冲时间差以及奖励信号r1和r2实时快速调节突触的权重值。

4.如权利要求4所述的脉冲神经网络电路，其特征在于，所述奖励信号输入模块包括：N型晶体管N11、N12、N13、N14，第一反相器和第二反相器；

前脉冲的输入与晶体管N11的源端和第一反相器的输入相连，后脉冲的输入与N型晶体管N12的源端和第二反相器的输入相连，N型晶体管N14的漏端与STDP权重更新单元的前脉冲输入相连，N型晶体管N13和N型晶体管N14的源端分别于第一反相器和第二反相器的输出相连，N型晶体管N13和N型晶体管N14的漏端与权重调节单元的后脉冲输入相连，N型晶体管N12和N型晶体管N13的栅极与奖励信号r1相连，N型晶体管N11和N型晶体管N14的栅极与奖励信号r2相连。

5.如权利要求1-4任一项所述的脉冲神经网络电路，其特征在于，所述输出神经元包括：电容电荷泄漏与重置单元和神经元阈值自适应单元；

所述电容电荷泄漏与重置单元用于在神经元被激发后将存储在电容的电荷进行释放，使神经元处于初始态；

所述神经元阈值自适应单元用于在神经元被激发后，短时间阈值提高，更难被激发。

6.如权利要求5所述的脉冲神经网络电路，其特征在于，所述电容电荷泄漏与重置单元包括：电容C1，泄露管N7和重置管N5；

所述电容C1的一端与泄露管N7的源级以及重置管N5的源级相连，电容C1的另一端与泄露管N7的漏极以及重置管N5的漏极相连后接地，泄露管N7的栅极用于连接外部的控制电源，重置管N5的栅极用于与第四级反相器的输出相连。

7.如权利要求5或6所述的脉冲神经网络电路，其特征在于，所述神经元阈值自适应单元包括：4个N型晶体管N1、N2、N3、N4，电容C2和P型晶体管P1；

所述N型晶体管N1的栅极为阈值自适应模块的输入，与电容C1相连，N型晶体管N1的漏极为模块的输出与N型晶体管N2的源极第一级反相器的输入相连；

电容C2的一端分别于N型晶体管N4的漏极与N型晶体管N3的源极以及N型晶体管N2的栅极相连，另一端与N型晶体管N3和N型晶体管N2的漏极都与地相连；

N型晶体管N4的栅极与第四级反相器的输出相连，N型晶体管N3的栅极外接控制电源，P型晶体管P1的栅极和其漏极与电源电压VDD相连，P型晶体管P1的源级与N型晶体管N4的源级相连。