CN104584037A

CN104584037A - 自适应行为的神经系统

Info

Publication number: CN104584037A
Application number: CN201380043872.XA
Authority: CN
Inventors: D·赖; Y·刘; V·H·陈; M·坎伯斯
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2012-08-23
Filing date: 2013-08-20
Publication date: 2015-04-29
Anticipated expiration: 2033-08-20
Also published as: US9002760B2; WO2014031695A1; KR101578333B1; KR20150047575A; JP5934444B2; EP2888701A1; US20140058988A1; CN104584037B; JP2015529916A

Abstract

本公开的某些方面提供了用于生成神经自适应行为的方法和装置，该方法和装置可以基于神经调质介导的再可塑性和/或增益控制。以此方式，生成感官线索与运动动作之间灵活的关联，这使得媒介物能够在变化的环境中高效地搜集报偿。一个示例方法一般包括：接收一个或多个输入刺激；处理所接收到的输入刺激以生成输出信号，其中该处理用由增益控制单元生成的第一神经调制信号来调制；控制该增益控制单元以在至少两种不同的神经活动模式之间切换，其中由增益控制单元生成的第一神经调制信号的电平或定时中的至少一者是基于这些神经活动模式来确定的；以及向输出单元发送该输出信号。

Description

自适应行为的神经系统

背景

领域

本公开的某些方面一般涉及神经网络，并且更具体地涉及使用神经调制来对神经系统中的自适应行为进行建模。

背景技术

人工神经网络是由一群互连的人工神经元(即神经元模型)组成的数学或计算模型。人工神经网络可以源自于(或至少宽松地基于)生物神经网络(诸如在人脑中发现的那些生物神经网络)的结构和/或功能。由于人工神经网络能从观察中推断出函数，因此这样的网络在因任务或数据的复杂度使得手工设计该函数不切实际的应用中是特别有用的。

一种类型的人工神经网络是尖峰神经网络，其将时间概念以及神经元和突触状态纳入到其工作模型中，由此增加了此种类型的神经模拟中的真实性水平。尖峰神经网络基于神经元仅当膜电位达到阈值时才激发这一概念。当神经元激发时，它生成一尖峰，该尖峰行进至其他神经元，这些其他神经元继而基于该收到的尖峰来升高或降低其膜电位。

概述

本公开的某些方面一般涉及提供、实现和使用基于自适应行为的神经机制的系统。该系统可以基于神经调质介导的再可塑性(neuromodulator-mediatedmeta-plasticity)和/或增益控制。利用此系统，来生成感官线索与运动动作之间灵活的关联，这使得媒介物能够在变化的环境中高效地搜集报偿。

本公开的某些方面提供了一种用于生成神经自适应行为的方法。该方法一般包括接收一个或多个输入刺激；处理所接收到的输入刺激以生成输出信号，其中该处理用由增益控制单元生成的第一神经调制信号来调制；控制该增益控制单元以在至少两个不同的神经活动模式之间切换，其中由增益控制单元生成的第一神经调制信号的电平或定时中的至少一者是基于这些神经活动模式来确定的；以及向输出单元发送该输出信号。

本公开的某些方面提供了一种用于生成神经自适应行为的装置。该装置一般包括处理系统，该处理系统被配置成接收一个或多个输入刺激；处理所接收到的输入刺激以生成输出信号，其中该处理用由增益控制单元生成的第一神经调制信号来调制；控制该增益控制单元以在至少两个不同的神经活动模式之间切换，其中由增益控制单元生成的第一神经调制信号的电平或定时中的至少一者是基于这些神经活动模式来确定的；以及向输出单元发送该输出信号。

本公开的某些方面提供了一种用于生成神经自适应行为的设备。该设备一般包括用于接收一个或多个输入刺激的装置；用于处理所接收到的输入刺激以生成输出信号的装置，其中该用于处理的装置用由增益控制单元生成的第一神经调制信号来调制；用于控制该增益控制单元以在至少两个不同的神经活动模式之间切换的装置，其中由增益控制单元生成的第一神经调制信号的电平或定时中的至少一者是基于这些神经活动模式来确定的；以及用于向输出单元发送该输出信号的装置。

本公开的某些方面提供了一种用于生成神经自适应行为的计算机程序产品。该计算机程序产品一般包括具有指令的计算机可读介质，这些指令可被执行以：接收一个或多个输入刺激；处理所接收到的输入刺激以生成输出信号，其中该处理用由增益控制单元生成的第一神经调制信号来调制；控制该增益控制单元以在至少两个不同的神经活动模式之间切换，其中由增益控制单元生成的第一神经调制信号的电平或定时中的至少一者是基于这些神经活动模式来确定的；以及向输出单元发送该输出信号。

附图简述

为了能详细理解本公开的以上陈述的特征所用的方式，可参照各方面来对以上简要概述的内容进行更具体的描述，其中一些方面在附图中解说。然而应该注意，附图仅解说了本公开的某些典型方面，故不应被认为限定其范围，因为本描述可允许有其他等同有效的方面。

图1解说了根据本公开的某些方面的示例神经元网络。

图2是根据本公开的某些方面的基于自适应行为的神经机制的示例系统的框图。

图3解说了根据本公开的某些方面的示例去甲肾上腺素(NE)调制。

图4解说了根据本公开的某些方面的由图2的系统中的增益控制模块输出的三种神经活动模式。

图5A解说了根据本公开的某些方面的基于增益控制模块的低紧张型模式的示例系统行为。

图5B解说了根据本公开的某些方面的基于增益控制模块的高紧张型模式的示例系统行为。

图5C解说了根据本公开的某些方面的基于增益控制模块的相位型模式的示例系统行为。

图6解说了根据本公开的某些方面的图2的系统中的报偿评价模块中的相位型和紧张型神经元群。

图7用图表解说了根据本公开的某些方面的取决于神经调制输入的电平来规定三种不同模式的示例再可塑性规则。

图8A解说了根据本公开的某些方面的引起报偿评价模块的更新和增益控制模块的相位型响应的高多巴胺(DA)水平。

图8B解说了根据本公开的某些方面的不引起报偿评价模块的进一步更新的中等DA水平。

图8C解说了根据本公开的某些方面的引起报偿评价模块的更新和增益控制模块的紧张型响应的低DA水平。

图9是根据本公开的某些方面的用于生成神经自适应行为的示例操作的流程图。

图9A解说了能够执行图9中示出的各操作的示例装置。

详细描述

以下参照附图更全面地描述本公开的各个方面。然而，本公开可用许多不同形式来实施并且不应解释为被限定于本公开通篇给出的任何具体结构或功能。相反，提供这些方面是为了使得本公开将是透彻和完整的，并且其将向本领域技术人员完全传达本公开的范围。基于本文中的教导，本领域技术人员应领会，本公开的范围旨在覆盖本文中所披露的本公开的任何方面，不论其是与本公开的任何其他方面相独立地还是组合地实现的。例如，可以使用本文所阐述的任何数目的方面来实现装置或实践方法。另外，本公开的范围旨在覆盖使用作为本文中所阐述的本公开的各种方面的补充或者另外的其他结构、功能性、或者结构及功能性来实践的此类装置或方法。应当理解，本文中所披露的本公开的任何方面可由权利要求的一个或多个元素来实施。

措辞“示例性”在本文中用于表示“用作示例、实例或解说”。本文中描述为“示例性”的任何方面不必被解释为优于或胜过其他方面。

尽管本文描述了特定方面，但这些方面的众多变体和置换落在本公开的范围之内。虽然提到了优选方面的一些益处和优点，但本公开的范围并非旨在被限定于特定益处、用途或目标。相反，本公开的各方面旨在能宽泛地应用于不同的技术、系统配置、网络和协议，其中一些作为示例在附图以及以下对优选方面的描述中解说。详细描述和附图仅仅解说本公开而非限定本公开，本公开的范围由所附权利要求及其等效技术方案来定义。

示例神经系统

图1解说根据本公开的某些方面的具有多级神经元的示例神经系统100。神经系统100可包括神经元级102，该级神经元102通过突触连接网络(突触104)连接到另一级神经元106。为简单起见，图1中仅解说了两级神经元，但在典型的神经系统中可存在更少或更多级神经元。

如图1所解说的，级102中的每一神经元可接收输入信号108，输入信号108可以是由前一级(图1中未示出)的多个神经元所生成的。信号108可表示至级102的神经元的输入(例如，输入电流)。此类输入可在神经元膜上累积以对膜电位进行充电。当膜电位达到其阈值时，该神经元可激发并生成输出尖峰，该输出尖峰将被传递到下一级神经元(例如，级106)。

尖峰从一级神经元向另一级神经元的传递可通过突触连接(或简称“突触”)网络104来达成，如图1所解说的。

突触104可从级102的神经元(相对于突触104而言的突触前神经元)接收输出信号(即尖峰)。对于某些方面，这些信号可根据可调整的突触权重(其中P是级102和106的神经元之间的突触连接的总数)来缩放。对于其它方面，突触104可以不应用任何突触权重。此外，(经缩放)信号可被组合以作为级106中每个神经元(相对于突触104而言的突触后神经元)的输入信号。级106中的每个神经元可基于对应的组合输入信号来生成输出尖峰110。随后可使用另一突触连接网络(图1中未示出)将这些输出尖峰110传递到另一级神经元。

神经系统100可以软件或以硬件(例如通过电路)来仿真并且可以用在大范围的应用中，诸如图像和模式识别、机器学习、电机控制等等。神经系统100中的每个神经元(或神经元模型)都可以被实现为神经元电路。被充电至发起输出尖峰的阈值的神经元膜可被实现为例如对流经其的电流进行积分的电容器。

自适应行为的示例神经系统

为了在变化的环境中生存，动物必须能够高效地适应和搜集报偿。此类高效行为首先涉及在遇到多个潜在的动作过程时对最优决策制定策略的快速形成，并且其次涉及响应于环境改变对该决策制定策略的快速修改。

如本文中所使用的，决策制定策略一般是指响应于来自环境的感官线索而采用特定的运动动作或非运动决定。感官线索视某个(或许未知的)动作或决定的执行来预测(或许有限数目的)报偿的可用性。

本公开的某些方面基于哺乳动物物种中的神经生理学研究，这些神经生理学研究专注于已知支持自适应行为的关键脑区域。当动物在没有任何先前知识的情况下暴露于新环境时，动物趋向于以看似随机的方式探察其周围环境。通过来自环境的以报偿或惩罚形式的反馈，动物能够习得特定的感官线索与探察性运动动作之间的隐式报偿相依性。结果，动物开始形成利用感官运动关联的最优决策制定策略，其导致最大的报偿以使报偿最大化而同时使惩罚最小化。一旦环境已被探察，并且如果环境保持相对稳定，则动物趋向于基于已获取的知识来作出报偿利用性(reward-exploitative)决定。这两种特异的行为亦被称为“探察”和“利用”，或者统称为“觅食行为”。

这种策略不仅避免惩罚，而且还通过专注于报偿最多的感官运动关联来节省能量。在觅食情况下，动物习得如何通过探察来寻找食物，但是探察要消耗较多能量。因此，一旦已找到充足的食物源，动物就将利用相同的选项以努力节省能量，直到在该食物源已被充分利用时需要新的探察行为为止。

在实验室设置中，已使用其中存在两个潜在的运动计划(例如，可被按压的两个按钮)的替代强制选择(AFC)任务来调查这个情景。在给定时间，一个运动动作被给予比另一个运动动作更多的报偿，并且动物习得将有教益的线索与有报偿的运动相关联。在某一时刻，有报偿的运动计划被改变，从而强制研究对象将感官运动关联逆转。响应于报偿相依性的逆转的这种学习形式被称为逆转学习。值得注意地，成功的逆转学习取决于眶额前脑皮层(OFC)。如果OFC受损或者选择性地停用，则会损害逆转学习并且研究对象作出“固着误差”。本公开的某些方面提供这种OFC功能的模型。

本公开的某些方面提供一种基于自适应行为的神经机制的系统，其尤其强调哺乳动物神经调制系统。本文中描述了用于感官线索与运动动作之间灵活的关联的方法，其使得媒介物能够在变化的环境中高效地收集报偿。第一，在没有关于有报偿的感官运动关联的先前知识时快速地形成新的感官运动关联。第二，一旦习得新的感官运动关联，就利用其来相对排除其他动作。第三，当该报偿源已被充分耗尽或者当该感官运动关联出于某种原因而不再有报偿时，媒介物可以快速地切换至探察模式以发现新的有报偿的行为策略，并且消减已习得的关联。通过由在突触级的神经调质介导的不同模式的神经活动来促进行为级的探察和利用模式。通过报偿介导的可塑性来学习报偿相依性。

本公开的某些方面可以使用尖峰神经网络来实现的。作为替换方案，其他方面可以使用非尖峰神经网络来实现。

图2解说了根据本公开的某些方面的基于自适应行为的神经机制的示例系统200。系统200表示环境202并且还包括感官信号编码模块204、报偿编码模块206、关联模块208、输出/运动模块210、(例如对蓝斑(LC)进行建模的)增益控制模块212、(例如对眶额前脑皮层(OFC)进行建模的)报偿评价模块214，以及(例如对腹侧被盖区(VTA)进行建模的)预测误差计算模块216。系统200中的模块(即，单元或层)的任何组合可以硬件和/或软件实现。

本公开的某些方面对由去甲肾上腺素(NE)和多巴胺(DA)神经调制系统介导的自适应行为进行建模。这包括：来自(由增益控制模块212表示的)LC的NE如何在信息传输中调制增益，来自(由预测误差计算模块216表示的)VTA的DA如何调制学习规则，(由报偿评价模块214表示的)OFC如何受该学习规则所影响，以及LC如何驱动探察模式与利用模式之间的切换。虽然本公开描述了经由NE和DA的神经调制，但是其他神经调质可以替代或者补充系统200中的NE和/或DA。

环境交互

感官信号编码模块204、关联模块208、以及输出/运动模块210被用作系统的输入和输出接口以与环境202交互。在以下更详细地描述系统200中的个体模块。

环境模块：可被认为在所建模的系统200外部的此模块表示位于该系统外部的可向该系统发送输入的任何事物。这些输入可以例如包括环境状态输入、感官输入以及报偿输入。作为回报，该系统的运动输出对环境202做出行动并且可以导致环境状态改变。

感官信号编码模块：在此模块中，输入刺激被转换成神经元表示(诸如尖峰)。如果系统200是视觉系统，则感官信号编码模块204可被认为是视网膜神经节细胞。类似地，如果系统200是听觉系统，则此模块可被认为是螺旋神经节细胞层。

报偿编码模块：报偿编码模块206将环境报偿(诸如食物)编码成神经表示。实际报偿的这些神经表示可以与预测误差计算模块216中所预测的报偿作比较。

关联模块：在此模块中，来自感官信号编码模块204的信息被进一步处理成符号表示。例如，在视觉系统中，这可以被认为是腹侧流，其中信息从V1流动到V4再流动到IT(V1→V4→IT)(即，从(亦被称为纹状皮质或V1的)初级视觉皮质流动到腹侧流中的突触外视觉皮质区域4(V4)再流动到下颞叶皮层(IT))以用于特征的提取，并且逐渐地积聚成IT中的视觉符号表示。类似地，在听觉系统中，关联模块208可以被认为是耳蜗细胞链和耳蜗核细胞链等。在此模块的输出处，不同的兴奋性神经元群表示不同的刺激类。通常，关联模块208具有抑制性中间神经元，这些抑制性中间神经元从兴奋性神经元连接并且将抑制性反馈发送给兴奋性群以创建赢者通吃竞争或者软赢者通吃(soft-winner-take-all)竞争。

输出/运动模块：来自关联模块208的信息被发送给输出/运动模块210。如果信号被高效地传送，则该信号将足够强地驱动输出/运动模块210触发响应，并且经编码的运动动作将被执行。关联模块208到输出/运动模块210的特定映射易受基于报偿的可塑性的影响。

增益控制(蓝斑)模块

在哺乳动物神经调制系统中，已发现蓝斑(LC)是释放去甲肾上腺素(NE)去往其他脑区域作为神经递质的脑区域。在存在NE的情况下，经NE调制的区域的神经元呈现增加的突触传输效能。此类增加的效能的一个实现是通过改变突触权重来达成的，如图3中所示。在图3中，在308处使用UE来调制突触前神经元302和突触后神经元304之间的突触306。308处的NE调制(m_NE(t))被用来调节突触306的原始权重(w)以产生经调制的突触权重(w)。换言之，UE调制缩放比例(即，增益)。

三种模式的神经动作决定NE信号的总电平：低紧张型、相位型、和高紧张型。因此，不同的运动行为由三种模式的LC动作来调制。调制性NE信号由LC神经元生成并被用于调控从关联模块208到输出/运动模块210的路径中的网络动态，如图4中所示。除了增大或减小信号的传输效率之外，此调制性系统在处于低紧张型模式时还可以完全停止信号发送(即，没有从关联模块208到输出/运动模块210的尖峰)。以此方式，LC用作选通机制，从而准许或防止信号被发送给输出/运动模块210。

低紧张型激发模式对应于动物处于睡眠和昏昏欲睡时的时段。对于某些方面，低紧张型激发模式限制关联层神经元驱动输出模块210中的运动神经元的效用。信息路径被有效地关闭，并且输出/运动模块210不对任何输入(例如，不对刺激A、B或C中的任一者)作出响应，如图5A中所解说的。图5A解说了低NE水平和所示的三个刺激中的每一者期间的仅一个尖峰。

高紧张型模式对应于动物处于探察模式的时候，其中动物活跃并且容易注意力分散。对于某些方面，高紧张型模式无差别地增强关联模块208驱动输出/运动模块210的效用，并且系统将对任何输入(例如，对刺激A、B和C的全部)作出响应，如图5B中所示。图5B解说了高NE水平和所示的三个刺激中的每一者期间的四个尖峰。

最后，相位型模式对应于动物处于利用模式的时候。对于某些方面，相位型模式将增加许多感官运动关联中的仅一个感官运动关联的效用，从而有效地将系统集中于仅对特定任务的有报偿输入作出响应，如图5C中所示。图5C解说了比对刺激B或C的响应(每个刺激仅一个尖峰和低NE水平)更强的对刺激A的响应(即，四个尖峰和高NE水平)。

报偿评价(眶额前脑皮层)模块

一般而言，LC神经元的相位型模式和紧张型模式分别与利用和探察的时段相关。然而，仍存在关于是什么决定了LC应当在何时在这两种行为模式之间转变的关键问题。

日益增多的证据暗示OFC在评价报偿方面扮演关键的角色。例如，参见Roesch M.R.和C.R.Olson的“Neuronal Activity Related to Reward Value andMotivation in Primate Frontal Cortex(与灵长类动物的大脑皮层中的报偿值和激励有关的神经元活动)”，《科学》杂志_304:307-10(2004)；Wallis,J.E.和E.K.Miller的“Neuronal activity in primate dorsolateral and orbital prefrontal cortexduring performance of a reward preference task(报偿偏好任务的执行期间的灵长类动物的背外侧和眶前额叶皮层中的神经元活动)”，《欧洲神经科学》杂志18(7):2069-81(2003)；以及Campos,M.等人的“Orbitofrontal cortical activityduring repeated free choice)(重复的自由选择期间的眶额前脑皮层活动)”，《神经生理学》杂志，107:12:3246-55(2012)。另外，对LC传入物的解剖学研究已表明，OFC向LC发送强收敛投射。例如，参见Aston-Jones,G.等人的“Prominent projections from the orbital prefrontal cortex to the locus coeruleus inmonkey(从猴子的眶前额叶皮层到蓝斑的显著投射)”，《社会神经科学》杂志.摘要.28:86-9(2002)以及Zhu,Y.等人的“Projection from the orbitofrontalcortex to the locus coeruleus in monkeys revealed by anterograde tracing(通过顺行追踪揭露的从猴子中的眼窝前额皮层到蓝斑的投射)”，《社会神经科学》杂志.摘要.30:211.3(2004)。因此，报偿评价模块214仿真眶额前脑皮层(OFC)以努力驱动LC激发活动的紧张型模式与相位型模式之间的选择。

在此系统200中，在报偿评价模块214中使用两组神经元，这两组神经元被称为紧张型组602和相位型组604，如图6中所示。相位型组604可以接收来自关联模块208的输入，而紧张型组602可不接收外部输入。紧张型组602可以包括彼此相互连接的兴奋性神经元和抑制性神经元。紧张型组602中的兴奋性神经元具有自然激发的活动，这些活动独立于所给出的输入。相位型神经元和兴奋性紧张型神经元两者均可驱动LC神经元。

关联模块208与相位型OFC神经元之间的突触将输入映射成OFC响应，并且此映射实质上评价有多少报偿值可以来自当前输入。如果在当前输入可触发相位型OFC响应的意义下报偿值较高，则相位型OFC神经元(即，相位型组604中的神经元)可以驱动LC神经元打开从关联模块208到输出/运动模块210的路径。另一方面，如果报偿值较低，则LC神经元可以不具有使输出/运动模块210响应当前输入的相位型响应。

同时，紧张型兴奋性OFC神经元与紧张型抑制性OFC神经元之间的突触决定了紧张型活动将驱动LC神经元的程度。当此突触组不够强时，来自紧张型OFC神经元(即，紧张型组602中的神经元)的自发活动能够向LC发送紧张型刺激。因此，LC紧张型活动可以打开从关联模块208到输出/运动模块210的路径，从而生成输出响应。然而，当此突触组强时，兴奋性紧张型OFC神经元可被抑制性紧张型OFC神经元所抑制，所以兴奋性神经元不可驱动LC。

这些突触是自适应的并且经由多巴胺(DA)接收附加的神经递质输入。DA从预测误差计算模块216释放。(高水平、中等水平和低水平的)DA释放基于再可塑性规则来加强或削弱这些突触，该再可塑性规则分别推动OFC将LC驱动成相位型或紧张型模式。更详细的描述可以在以下的再可塑性章节中找到。

预测误差(腹侧被盖区(VTA))模块

还已发现，作为另一种类型的神经调制系统，腹侧被盖区(VTA)是对接收自环境的报偿进行响应并且相应地释放多巴胺(DA)作为去往其他脑区域的神经递质的脑区域，如在Schultz,W.等人的“A Neural Substrate of Predictionand Reward(预测和报偿的神经基质)”《科学》杂志275:1593-1598(1997)中所讨论的。VTA神经元活动被认为反映预测值与接收自环境的实际报偿之间的差异。

对于本公开的某些方面，VTA神经元(被建模为预测误差计算模块216的神经元)接收来自OFC神经元(被建模为报偿评价模块214的神经元)的输入作为预测的报偿，并且接收来自报偿编码模块206的输入作为实际的环境报偿。这两个报偿值之间的差异设置对OFC(即，报偿评价模块214)的VTADA信号输入的电平。当实际报偿高于期望值(即，预测的报偿)时，VTA神经元生成比其基线高的活动，从而导致高DA水平。当实际报偿低于期望时，VTA神经元具有比其基线低的活动，从而导致低DA水平。当期望值匹配于实际报偿时，VTA神经元输出中等DA水平。

预测误差计算模块216中的算法被用于获悉预测的报偿。对于某些方面，预测的报偿可以通过时间差分(TD)学习算法来确定，该TD学习算法使用相继时间增量上的预测改变(或差异)来驱动学习方法。TD学习算法在任何给定的时间增量处更新预测，以使其更接近下一时间增量处对相同量的预测。

再可塑性规则

经典的尖峰定时依赖型可塑性(STDP)规则仅依赖于突触前神经元与突触后神经元之间的尖峰定时差异。然而，实验证据指示，存在当单定时不足以决定突触可塑性规则的情形。Pawlak,V.等人的“Timing is not everything:neuromodulation opens the STDP gate(定时不是一切：神经调制开启STDP大门)”，《前沿突触神经科学》杂志2:1-13(2010)中的数据指示，通过调制性信号DA来选通突触可塑性。可塑性变化的符号还受到神经递质和受体组合的状态和集中度的影响，如在Shen,W.等人的“Dichotomous Dopaminergic Controlof Striatal Synaptic Plasticity(纹状体突触可塑性的二分多巴胺能控制)”《科学》杂志321:848-850(2008)中所描述的。本公开引入再可塑性规则，其中再可塑性规则一般是指激起后续突触可塑性(包括长期增强(LTP)和长期抑制(LTD))的能力的变化。作为一般化的突触可塑性规则，本文中公开的再可塑性规则将可能具有延迟的神经调制输入与突触前神经和突触后神经活动联系起来。

突触前和突触后神经元活动导致与Izhikevich,E.M.的“Solving the DistalReward Problem through Linkage of STDP and Dopamine Signaling(通过STDP和多巴胺信令的联接来解决末梢报偿问题)”《大脑皮层》杂志17:2443-52(2007)中的方案类似的合格性踪迹。但在再可塑性规则下，增强p(t)和抑制d(t)踪迹被分开来表达在以下的式(1)中，其中合格性踪迹随时间衰退：

\begin{matrix} p (t) = p (t - 1) - \frac{p (t - 1)}{τ_{traoo}} + LTP (τ) δ (t - t_{pre / post}) \\ d (t) = d (t - 1) - \frac{d (t - 1)}{τ_{trace}} + LTD (τ) δ (t - t_{pre / post}) \end{matrix} - - - (1)

其中τ_trace是踪迹的时间常数。

突触变化可表示为：

Δs(t)＝Δw·p(t)+Δw·d(t)。 (2)

一般而言，取决于神经调制输入的电平，所提议的再可塑性规则规定三种神经活动模式，如图7中所解说的。高DA水平产生Δw＞0。如图7的曲线图706中所解说的，这将学习规则调制到Hebbian态相中，其中正的Δs(t)被应用于突触前-突触后以及突触后-突触前激发事件两者，这导致突触的加强。

低DA水平产生Δw＜0。如图7的曲线图704中所解说的，这将学习规则调制到反Hebbian态相中，其中负的Δs(t)被应用于突触前-突触后以及突触后-突触前激发事件两者以削弱突触。尽管曲线图704和706解说了分段指数函数，但是其他函数(例如，方波或分段矩形函数)也可取而代之用于某些方面。

中等DA水平引入较小的突触权重变化，所以Δw～0，Δs～0。图7的曲线图702解说了针对某些方面的突触前-突触后以及突触后-突触前激发事件两者的此标称突触变化。对于其他方面，平坦的水平线(表示没有更新)可被取而代之用于中等DA水平，而不是分段指示函数(表示小更新)，如曲线图702中所解说的。

再可塑性规则规定来自VTA(预测误差计算模块216)的高DA水平将启用突触增强，以使得系统200记住该关联。相反，来自VTA的低DA水平将导致突触抑制，以使得系统200主动地快速忘记当前的关联。此类再可塑性规则在报偿学习中，尤其在逆转学习方案中是重要的。先前的学习系统使用被动衰退机制来忘记关联，这对于忘记关联而言(即，对于逆转学习而言)要比本文中公开的主动机制花费显著更长的时间。然而，对关联的主动忘记不需要是立即的；在忘记方案中可能内建有某种稳定性，如本公开中所描述的。

此再可塑性学习规则不限于尖峰神经元网络。在基于速率的神经网络中，使用神经元响应之间的相关性来计算合格性踪迹，并且相同的规则适用于将合格性踪迹与神经调制输入相联系。

使用此学习规则，在系统探察导致意外的报偿的动作时，高DA信号将加强到OFC相位型神经元的各有报偿输入之间的连接。高DA信号还加强兴奋性紧张型组与抑制性紧张型组之间的突触。在学习之后，OFC紧张型神经元可被抑制并且不再可以驱动LC紧张型活动，而OFC相位型神经元可被激励并且可以驱动LC相位型活动以使输出/运动模块210专门对相同的输入进行响应，如图8A中所示。因此，系统被切换成利用模式。

在此之后，由于OFC(报偿评价模块214)已被更新并且预期看到针对此特定输入的报偿，因而VTA(预测误差计算模块216)将生成中等DA水平。这两组突触可以不变，只要发生期望的报偿。OFC可以继续以相位型活动来驱动LC(增益控制模块212)，并且系统200保持在利用模式中，如图8B中所示。图8B表示现状。

然而，当报偿突然从此输入被拿走，则期望的报偿相对于实际的报偿的失配将生成来自VTA的低DA信号，由此削弱先前加强了的突触以引起逆转学习。在此之后，OFC紧张型神经元可以主动地驱动LC紧张型活动，而OFC相位型神经元则不可以，如图8C中所示。输出/运动模块210可以对任何输入进行响应，并且系统200可以被切换至探察模式以获取新的报偿相依性。以此方式，DA调制突触规则权重(即，学习规则)。

因此，本文中公开的DA依赖型再可塑性规则启用(1)感官输入与报偿之间的快速关联；以及(2)感官输入和过时报偿的逆转学习期间的快速解除关联。与Izhikevich中的先前报偿学习方案相比，本公开的诸方面更快地适应于报偿信号的变化。DA依赖型再可塑性还通过改变在相位型模式或紧张型模式中驱动增益控制模块212的报偿评价模块214来介导探察与利用之间的行为切换。因此，行为切换取决于报偿评价模块214能够多好地预测报偿。在能耗方面，本文中公开的学习规则更加高效，因为系统将不浪费能量来在已习得报偿相依性之后保持探察环境或者继续利用过时的报偿相依性。

第二，NE调制可以快速地控制运动关联中的增益。系统200由此拥有灵活的动态而不使用突触可塑性。尽管突触可塑性可以达成增益改变的类似效果，但是需要花费时间来训练并且不能容易地切换回来。NE系统使系统200能够在报偿相依性已改变不久之后即探察选项。

类似地，新的报偿相依性一被建立，切换到系统200中的利用模式就使系统能够使报偿最大化而同时使所消耗的能量最小化。同样，在能耗方面，本公开的各方面更加高效。

最后，所设计的系统是高度生物学似真的。系统200内的信号(包括感官编码、运动输出以及报偿编码)均可被表示为神经活动(诸如尖峰)。这允许分布式计算平台中的实现。该系统已被实现为尖峰神经网络，并且已表明此方案可伸缩至多个输入选择。然而，此方案中的所有元素也适用于基于速率的神经系统。

示例操作

图9是根据本公开的某些方面的用于生成神经自适应行为的示例操作900的流程图。操作900可以硬件(例如由包括一个或多个处理单元的处理系统)、以软件或以固件来执行。

操作900可以在902处通过接收一个或多个输入刺激开始。在904，所接收到的输入刺激可被处理以努力生成输出信号。用由增益控制单元生成的第一神经调制信号来调制904处的处理。对于某些方面，第一神经调制信号包括去甲肾上腺素(NE)信号。根据某些方面，使增益控制单元仿效蓝斑(LC)的行为。

在906，增益控制单元可被控制以在至少两种不同的神经活动模式之间切换。基于这些神经活动模式来确定(由增益控制单元生成的)第一神经调制信号的电平或定时中的至少一者。根据某些方面，该至少两种不同的神经活动模式包括紧张型模式和相位型模式。紧张型模式可以与探察时段相关联，并且相位型模式可以与利用时段相关联。

根据某些方面，可以在906用报偿评价单元来控制增益控制单元。报偿评价单元可以仿效眶额前脑皮层的行为。对于某些方面，该至少两种不同的神经活动模式包括紧张型模式和相位型模式。在这种情形中，报偿评价单元可以包括用于驱动增益控制单元的相位型模式的相位型神经元组和用于驱动增益控制单元的紧张型模式的紧张型神经元组。紧张型神经元组可包括兴奋性神经元组和抑制性神经元组。

根据某些方面，操作900进一步包括确定实际的报偿(例如，如由环境202提供的)，确定预测的报偿(例如，基于所接收到的输入刺激中的至少一个)，以及基于预测的报偿与实际的报偿之间的差异来对相位型神经元组或紧张型神经元组的突触可塑性进行调制。确定预测的报偿可以包括使用时间差分(TD)学习算法。对于某些方面，该调制包括向报偿评价单元输出第二神经调制信号。第二神经调制信号的电平可以基于预测的报偿与实际的报偿之间的差异。例如，第二神经调制可以包括多巴胺(DA)信号。对于某些方面，高电平的第二神经调制信号启用突触增强以记住关联，并且低电平的第二神经调制信号导致突触抑制以忘记关联。对于某些方面，高电平的第二神经调制信号：(1)加强紧张型神经元组中的兴奋性神经元组与抑制性神经元组之间的突触，以使得紧张型神经元组被抑制并且将不会驱动增益控制单元的紧张型模式；以及(2)加强与相位型神经元组相关联的突触，以使得相位型神经元组将驱动增益控制单元的相位型模式。低电平的第二神经调制信号可以削弱既与相位型神经元组相关联又在兴奋性神经元组与抑制性神经元组之间的经加强突触，以使得紧张型神经元组将驱动增益控制单元的紧张型模式并且相位型神经元组将不会驱动增益控制单元的相位型模式。

根据某些方面，确定实际的和预测的报偿并且输出DA信号是由预测误差计算单元来执行的。预测误差计算单元可以仿效腹侧被盖区(VTA)的行为。

在908，可将输出信号发送给输出单元。对于某些方面，输出单元仿效运动神经元的行为。如以上所描述的，增益控制单元除了调制输出信号之外还可以充当选通机制，从而完全防止输出信号被传送给输出单元。

以上所描述的方法的各种操作可由能够执行相应功能的任何合适的装置来执行。这些装置可包括各种硬件和/或软件组件和/或模块，包括但不限于电路、专用集成电路(ASIC)、或处理器。一般而言，在存在附图中解说的操作的场合，那些操作可具有带相似编号的相应配对装置加功能组件。例如，图9中所解说的操作900对应于图9A中所解说的装置900A。

例如，用于显示的装置可包括显示器(例如，监视器、平面屏幕、触屏等)、打印机、或任何其他用于输出数据(诸如表格、曲线图或图)以供可视描绘的合适装置。用于处理的装置、用于接收的装置、用于控制的装置、用于发送的装置、用于调制的装置或用于确定的装置可包括处理系统，该处理系统可包括一个或多个处理器或处理单元。用于存储的装置可包括可由处理系统访问的存储器或任何其它合适的存储设备(例如，RAM)。

如本文所使用的，术语“确定”涵盖各种各样的动作。例如，“确定”可包括演算、计算、处理、推导、研究、查找(例如，在表、数据库或其他数据结构中查找)、查明、及类似动作。而且，“确定”可包括接收(例如接收信息)、访问(例如访问存储器中的数据)、及类似动作。同样，“确定”还可包括解析、选择、选取、建立、及类似动作。

如本文中所使用的，引述一列项目中的“至少一个”的短语是指这些项目的任何组合，包括单个成员。作为示例，“a、b或c中的至少一者”旨在涵盖：a、b、c、a-b、a-c、b-c、以及a-b-c。

结合本公开描述的各种解说性逻辑框、模块、以及电路可用设计成执行本文中描述的功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑器件(PLD)、分立的门或晶体管逻辑、分立的硬件组件、或其任何组合来实现或执行。通用处理器可以是微处理器，但在替换方案中，处理器可以是任何可商业购得的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合，例如DSP与微处理器的组合、多个微处理器、与DSP核心协同的一个或多个微处理器或任何其它此类配置。

结合本公开所描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在本领域所知的任何形式的存储介质中。可使用的存储介质的一些示例包括随机存取存储器(RAM)、只读存储器(ROM)、闪存、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM，等等。软件模块可包括单条指令、或许多条指令，且可分布在若干不同的代码段上，分布在不同的程序间以及跨多个存储介质分布。存储介质可被耦合到处理器以使得该处理器能从/向该存储介质读写信息。替换地，存储介质可以被整合到处理器。

本文所公开的方法包括用于实现所描述的方法的一个或多个步骤或动作。这些方法步骤和/或动作可以彼此互换而不会脱离权利要求的范围。换言之，除非指定了步骤或动作的特定次序，否则具体步骤和/或动作的次序和/或使用可以改动而不会脱离权利要求的范围。

所描述的功能可在硬件、软件、固件或其任何组合中实现。如果以硬件实现，则示例硬件配置可包括设备中的处理系统。处理系统可以用总线架构来实现。取决于处理系统的具体应用和整体设计约束，总线可包括任何数目的互连总线和桥接器。总线可将包括处理器、机器可读介质、以及总线接口的各种电路链接在一起。总线接口可用于尤其将网络适配器等经由总线连接至处理系统。网络适配器可用于实现信号处理功能。对于某些方面，用户接口(例如，按键板、显示器、鼠标、操纵杆等)也可被连接至总线。总线还可链接各种其他电路(诸如定时源、外围设备、稳压器、电源管理电路等)，这些电路在本领域中是众所周知的，因此将不再赘述。

处理器可负责管理总线和一般处理，包括执行存储在机器可读介质上的软件。处理器可用一个或多个通用和/或专用处理器来实现。示例包括微处理器、微控制器、DSP处理器、以及其他能执行软件的电路系统。软件应当被宽泛地解释成意指指令、数据、或其任何组合，无论是被称作软件、固件、中间件、微代码、硬件描述语言、或其他。作为示例，机器可读介质可以包括RAM(随机存取存储器)、闪存、ROM(只读存储器)、PROM(可编程只读存储器)、EPROM(可擦式可编程只读存储器)、EEPROM(电可擦式可编程只读存储器)、寄存器、磁盘、光盘、硬驱动器、或者任何其他合适的存储介质、或其任何组合。机器可读介质可被实施在计算机程序产品中。该计算机程序产品可以包括包装材料。

在硬件实现中，机器可读介质可以是处理系统中与处理器分开的一部分。然而，如本领域技术人员将容易领会的，机器可读介质、或其任何部分可在处理系统外部。作为示例，机器可读介质可包括传输线、由数据调制的载波、和/或与设备分开的计算机产品，所有这些都可由处理器通过总线接口来访问。替换地或补充地，机器可读介质、或其任何部分可被集成到处理器中，诸如高速缓存和/或通用寄存器文件可能就是这种情形。

处理系统可以被配置为通用处理系统，该通用处理系统具有一个或多个提供处理器功能性的微处理器、和提供机器可读介质中的至少一部分的外部存储器，它们都通过外部总线架构与其他支持电路系统链接在一起。替换地，处理系统可以用带有集成在单块芯片中的处理器、总线接口、用户接口、支持电路系统、和至少一部分机器可读介质的ASIC(专用集成电路)来实现，或者用一个或多个FPGA(现场可编程门阵列)、PLD(可编程逻辑器件)、控制器、状态机、门控逻辑、分立硬件组件、或者任何其他合适的电路系统、或者能执行本公开通篇所描述的各种功能性的电路的任何组合来实现。取决于具体应用和加诸于整体系统上的总设计约束，本领域技术人员将认识到如何最佳地实现关于处理系统所描述的功能性。

机器可读介质可包括数个软件模块。这些软件模块包括当由处理器执行时使处理系统执行各种功能的指令。这些软件模块可包括传输模块和接收模块。每个软件模块可以驻留在单个存储设备中或者跨多个存储设备分布。作为示例，当触发事件发生时，可以从硬驱动器中将软件模块加载到RAM中。在软件模块执行期间，处理器可以将一些指令加载到高速缓存中以提高访问速度。随后可将一个或多个高速缓存行加载到通用寄存器文件中以供由处理器执行。在以下谈及软件模块的功能性时，将理解此类功能性是在处理器执行来自该软件模块的指令时由该处理器来实现的。

如果以软件实现，则各功能可作为一条或多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者，这些介质包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定，这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的期望程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如，如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或无线技术(诸如红外(IR)、无线电、以及微波)从web网站、服务器、或其他远程源传送而来，则该同轴电缆、光纤电缆、双绞线、DSL或无线技术(诸如红外、无线电、以及微波)就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘、和其中盘(disk)常常磁性地再现数据，而碟(disc)用激光来光学地再现数据。因此，在一些方面，计算机可读介质可包括非瞬态计算机可读介质(例如，有形介质)。另外，对于其他方面，计算机可读介质可包括瞬态计算机可读介质(例如，信号)。上述的组合应当也被包括在计算机可读介质的范围内。

因此，某些方面可包括用于执行本文中给出的操作的计算机程序产品。例如，此种计算机程序产品可包括其上存储(和/或编码)有指令的计算机可读介质，这些指令能由一个或多个处理器执行以执行本文中所描述的操作。对于某些方面，计算机程序产品可包括包装材料。

另外，应领会，用于执行本文中所描述的方法和技术的模块和/或其它恰适装置能由设备在适用的场合下载和/或以其他方式获得。例如，此类设备能被耦合至服务器以促成用于执行本文中所描述的方法的装置的转移。替换地，本文中所描述的各种方法能经由存储装置(例如，RAM、ROM、诸如压缩碟(CD)或软盘之类的物理存储介质等)来提供，以使得一旦将该存储装置耦合到或提供给设备，该设备就能获得各种方法。此外，能利用适于向设备提供本文中所描述的方法和技术的任何其他合适的技术。

应该理解的是，权利要求并不被限定于以上所解说的精确配置和组件。可在以上所描述的方法和设备的布局、操作和细节上作出各种改动、更换和变形而不会脱离权利要求的范围。

Claims

1.一种用于生成神经自适应行为的方法，包括：

接收一个或多个输入刺激；

处理所接收到的输入刺激以生成输出信号，其中所述处理用由增益控制单元生成的第一神经调制信号来调制；以及

控制所述增益控制单元以在至少两种不同的神经活动模式之间切换，其中由所述增益控制单元生成的所述第一神经调制信号的电平或定时中的至少一者是基于所述神经活动模式来确定的。

2.如权利要求1所述的方法，其特征在于，所述增益控制单元仿效蓝斑(LC)的行为。

3.如权利要求1所述的方法，其特征在于，所述至少两种不同的神经活动模式包括紧张型模式和相位型模式。

4.如权利要求3所述的方法，其特征在于，所述紧张型模式与探察时段相关联，并且其中所述相位型模式与利用时段相关联。

5.如权利要求1所述的方法，其特征在于，控制所述增益控制单元包括用报偿评价单元来控制所述增益控制单元。

6.如权利要求5所述的方法，其特征在于，所述报偿评价单元仿效眶额前脑皮层(OFC)的行为。

7.如权利要求5所述的方法，其特征在于，所述至少两种不同的神经活动模式包括紧张型模式和相位型模式，并且其中所述报偿评价单元包括：

用于驱动所述增益控制单元的所述相位型模式的相位型神经元组；以及

用于驱动所述增益控制单元的所述紧张型模式的紧张型神经元组，其中所述紧张型神经元组包括兴奋性神经元组和抑制性神经元组。

8.如权利要求7所述的方法，其特征在于，进一步包括：

确定实际的报偿；

基于所接收到的输入刺激中的至少一个输入刺激来确定预测的报偿；以及

基于所述预测的报偿与所述实际的报偿之间的差异来调制所述相位型神经元组或所述紧张型神经元组的突触可塑性。

9.如权利要去8所述的方法，其特征在于，确定所述预测的报偿包括使用时间差分(TD)学习算法。

10.如权利要求8所述的方法，其特征在于，所述调制包括向所述报偿评价单元输出第二神经调制信号，其中所述第二神经调制信号的电平基于所述预测的报偿与所述实际的报偿之间的所述差异。

11.如权利要求10所述的方法，其特征在于，高电平的所述第二神经调制信号启用突触增强以记住关联，并且其中低电平的所述第二神经调制信号导致突触抑制以忘记所述关联。

12.如权利要求10所述的方法，其特征在于，高电平的所述第二神经调制信号：

加强所述紧张型神经元组的所述兴奋性神经元组与所述抑制性神经元组之间的突触，以使得所述紧张型神经元组被抑制并且将不驱动所述增益控制单元的所述紧张型模式；以及

加强与所述相位型神经元组相关联的突触，以使得所述相位型神经元组将驱动所述增益控制单元的所述相位型模式。

13.如权利要求12所述的方法，其特征在于，低电平的所述第二神经调制信号削弱既与所述相位型神经元组相关联又在所述兴奋性神经元组与所述抑制性神经元组之间的经加强突触，以使得所述紧张型神经元组将驱动所述增益控制单元的所述紧张型模式并且所述相位型神经元组将不驱动所述增益控制单元的所述相位型模式。

14.如权利要求10所述的方法，其特征在于，确定所述实际的报偿和所述预测的报偿并且输出所述第二神经调制信号是由预测误差计算单元来执行的。

15.如权利要求14所述的方法，其特征在于，所述预测误差计算单元仿效腹侧被盖区(VTA)的行为。

16.如权利要求10所述的方法，其特征在于，所述第二神经调制信号包括多巴胺(DA)信号。

17.如权利要求1所述的方法，其特征在于，所述第一神经调制信号包括去甲肾上腺素(NE)信号。

18.如权利要求1所述的方法，其特征在于，进一步包括向输出单元发送所述输出信号，其中所述输出单元仿效运动神经元的行为。

19.一种用于生成神经自适应行为的装置，包括：

处理系统，配置成：

接收一个或多个输入刺激；

20.如权利要求19所述的装置，其特征在于，所述增益控制单元仿效蓝斑(LC)的行为。

21.如权利要求19所述的装置，其特征在于，所述至少两种不同的神经活动模式包括紧张型模式和相位型模式。

22.如权利要求21所述的装置，其特征在于，所述紧张型模式与探察时段相关联，并且其中所述相位型模式与利用时段相关联。

23.如权利要求19所述的装置，其特征在于，所述处理系统被配置成用报偿评价单元来控制所述增益控制单元。

24.如权利要求23所述的装置，其特征在于，所述报偿评价单元仿效眶额前脑皮层(OFC)的行为。

25.如权利要求23所述的装置，其特征在于，所述至少两种不同的神经活动模式包括紧张型模式和相位型模式，并且其中所述报偿评价单元包括：

26.如权利要求25所述的装置，其特征在于，所述处理系统被进一步配置成：

基于所接收到的输入刺激中的至少一个输入刺激来确定实际的报偿；

27.如权利要去26所述的装置，其特征在于，所述处理系统被配置成使用时间差分(TD)学习算法来确定所述预测的报偿。

28.如权利要求26所述的装置，其特征在于，所述处理系统被配置成通过向所述报偿评价单元输出第二神经调制信号来调制所述突触可塑性，其中所述第二神经调制信号的电平基于所述预测的报偿与所述实际的报偿之间的所述差异。

29.如权利要求28所述的装置，其特征在于，高电平的所述第二神经调制信号启用突触增强以记住关联，并且其中低电平的所述第二神经调制信号导致突触抑制以忘记所述关联。

30.如权利要求28所述的装置，其特征在于，高电平的所述第二神经调制信号：

31.如权利要求30所述的装置，其特征在于，低电平的所述第二神经调制信号削弱既与所述相位型神经元组相关联又在所述兴奋性神经元组与所述抑制性神经元组之间的经加强突触，以使得所述紧张型神经元组将驱动所述增益控制单元的所述紧张型模式并且所述相位型神经元组将不驱动所述增益控制单元的所述相位型模式。

32.如权利要求28所述的装置，其特征在于，所述处理系统包括预测误差计算单元，并且其中所述确定所述实际的报偿和所述预测的报偿以及所述输出所述第二神经调制信号是由所述预测误差计算单元来执行的。

33.如权利要求32所述的装置，其特征在于，所述预测误差计算单元仿效腹侧被盖区(VTA)的行为。

34.如权利要求28所述的装置，其特征在于，所述第二神经调制信号包括多巴胺(DA)信号。

35.如权利要求19所述的装置，其特征在于，所述第一神经调制信号包括去甲肾上腺素(NE)信号。

36.如权利要求19所述的装置，其特征在于，所述处理系统被进一步配置成向输出单元发送所述输出信号，其中所述输出单元仿效运动神经元的行为。

37.一种用于生成神经自适应行为的设备，包括：

用于接收一个或多个输入刺激的装置；

用于处理所接收到的输入刺激以生成输出信号的装置，其中所述用于处理的装置用由增益控制单元生成的第一神经调制信号来调制；以及

用于控制所述增益控制单元以在至少两种不同的神经活动模式之间切换的装置，其中由所述增益控制单元生成的所述第一神经调制信号的电平或定时中的至少一者是基于所述神经活动模式来确定的。

38.如权利要求37所述的设备，其特征在于，所述增益控制单元仿效蓝斑(LC)的行为。

39.如权利要求37所述的设备，其特征在于，所述至少两种不同的神经活动模式包括紧张型模式和相位型模式。

40.如权利要求39所述的设备，其特征在于，所述紧张型模式与探察时段相关联，并且其中所述相位型模式与利用时段相关联。

41.如权利要求37所述的设备，其特征在于，所述用于控制所述增益控制单元的装置被配置成用报偿评价单元来控制所述增益控制单元。

42.如权利要求41所述的设备，其特征在于，所述报偿评价单元仿效眶额前脑皮层(OFC)的行为。

43.如权利要求41所述的设备，其特征在于，所述至少两种不同的神经活动模式包括紧张型模式和相位型模式，并且其中所述报偿评价单元包括：

44.如权利要求43所述的设备，其特征在于，进一步包括：

用于确定实际的报偿的装置；

用于基于所接收到的输入刺激中的至少一个输入刺激来确定预测的报偿的装置；以及

用于基于所述预测的报偿与所述实际的报偿之间的差异来调制所述相位型神经元组或所述紧张型神经元组的突触可塑性的装置。

45.如权利要去44所述的设备，其特征在于，所述用于确定所述预测的报偿的装置被配置成使用时间差分(TD)学习算法。

46.如权利要求44所述的设备，其特征在于，所述用于调制的装置被配置成向所述报偿评价单元输出第二神经调制信号，其中所述第二神经调制信号的电平基于所述预测的报偿与所述实际的报偿之间的所述差异。

47.如权利要求46所述的设备，其特征在于，高电平的所述第二神经调制信号启用突触增强以记住关联，并且其中低电平的所述第二神经调制信号导致突触抑制以忘记所述关联。

48.如权利要求46所述的设备，其特征在于，高电平的所述第二神经调制信号：

49.如权利要求48所述的设备，其特征在于，低电平的所述第二神经调制信号削弱既与所述相位型神经元组相关联又在所述兴奋性神经元组与所述抑制性神经元组之间的经加强突触，以使得所述紧张型神经元组将驱动所述增益控制单元的所述紧张型模式并且所述相位型神经元组将不驱动所述增益控制单元的所述相位型模式。

50.如权利要求46所述的设备，其特征在于，预测误差计算单元包括用于确定所述实际的报偿和所述预测的报偿的装置并且被配置成输出所述第二神经调制信号。

51.如权利要求50所述的设备，其特征在于，所述预测误差计算单元仿效腹侧被盖区(VTA)的行为。

52.如权利要求46所述的设备，其特征在于，所述第二神经调制信号包括多巴胺(DA)信号。

53.如权利要求37所述的设备，其特征在于，所述第一神经调制信号包括去甲肾上腺素(NE)信号。

54.如权利要求37所述的设备，其特征在于，进一步包括用于向输出单元发送所述输出信号的装置，其中所述输出单元仿效运动神经元的行为。

55.一种用于生成神经自适应行为的计算机程序产品，包括包含指令的计算机可读介质，所述指令可被执行以：

接收一个或多个输入刺激；

56.如权利要求55所述的计算机程序产品，其特征在于，所述增益控制单元仿效蓝斑(LC)的行为。

57.如权利要求55所述的计算机程序产品，其特征在于，所述至少两种不同的神经活动模式包括紧张型模式和相位型模式。

58.如权利要求57所述的计算机程序产品，其特征在于，所述紧张型模式与探察时段相关联，并且其中所述相位型模式与利用时段相关联。

59.如权利要求55所述的计算机程序产品，其特征在于，控制所述增益控制单元包括用报偿评价单元来控制所述增益控制单元。

60.如权利要求59所述的计算机程序产品，其特征在于，所述报偿评价单元仿效眶额前脑皮层(OFC)的行为。

61.如权利要求59所述的计算机程序产品，其特征在于，所述至少两种不同的神经活动模式包括紧张型模式和相位型模式，并且其中所述报偿评价单元包括：

62.如权利要求61所述的计算机程序产品，其特征在于，进一步包括可执行以用于以下操作的指令：

确定实际的报偿；

63.如权利要去62所述的计算机程序产品，其特征在于，确定所述预测的报偿包括使用时间差分(TD)学习算法。

64.如权利要求62所述的计算机程序产品，其特征在于，所述调制包括向所述报偿评价单元输出第二神经调制信号，其中所述第二神经调制信号的电平基于所述预测的报偿与所述实际的报偿之间的所述差异。

65.如权利要求64所述的计算机程序产品，其特征在于，高电平的所述第二神经调制信号启用突触增强以记住关联，并且其中低电平的所述第二神经调制信号导致突触抑制以忘记所述关联。

66.如权利要求64所述的计算机程序产品，其特征在于，高电平的所述第二神经调制信号：

67.如权利要求66所述的计算机程序产品，其特征在于，低电平的所述第二神经调制信号削弱既与所述相位型神经元组相关联又在所述兴奋性神经元组与所述抑制性神经元组之间的经加强突触，以使得所述紧张型神经元组将驱动所述增益控制单元的所述紧张型模式并且所述相位型神经元组将不驱动所述增益控制单元的所述相位型模式。

68.如权利要求64所述的计算机程序产品，其特征在于，确定所述实际的报偿和所述预测的报偿并且输出所述第二神经调制信号是由预测误差计算单元来执行的。

69.如权利要求68所述的计算机程序产品，其特征在于，所述预测误差计算单元仿效腹侧被盖区(VTA)的行为。

70.如权利要求64所述的计算机程序产品，其特征在于，所述第二神经调制信号包括多巴胺(DA)信号。

71.如权利要求55所述的计算机程序产品，其特征在于，所述第一神经调制信号包括去甲肾上腺素(NE)信号。

72.如权利要求55所述的计算机程序产品，其特征在于，进一步包括可执行以向输出单元发送所述输出信号的指令，其中所述输出单元仿效运动神经元的行为。