CN113537318B

CN113537318B - 一种仿人脑记忆机理的机器人行为决策方法及设备

Info

Publication number: CN113537318B
Application number: CN202110745854.2A
Authority: CN
Inventors: 王东署; 罗勇; 辛健斌; 王河山; 马天磊; 张方方
Original assignee: Zhengzhou University
Current assignee: Zhengzhou University
Priority date: 2021-07-01
Filing date: 2021-07-01
Publication date: 2023-04-07
Anticipated expiration: 2041-07-01
Also published as: CN113537318A

Abstract

本申请的目的是提供一种仿人脑记忆机理的机器人行为决策方法及设备，本申请通过获取目标任务和当前环境信息；计算当前环境信息与所有长期记忆环境信息的相似度值，确定最相似长期记忆环境信息；当前环境信息与所述最相似长期记忆环境信息的相似度值小于相似度阈值时，在短期记忆层存储当前环境信息，并进行离线学习直至转移至长期记忆层；基于目标任务和当前环境信息，通过神经网络模型输出行为决策并执行，即在机器人处于动态变化的环境中，在通常的在线学习外增加离线学习的能力，实现机器人未知环境中的增量式学习，提高了学习效率，可以快速收敛到稳定状态，从而提高机器人在新环境中的行为决策的效率和精确度。

Description

一种仿人脑记忆机理的机器人行为决策方法及设备

技术领域

本申请涉及计算机领域，尤其涉及一种仿人脑记忆机理的机器人行为决策方法及设备。

背景技术

现有技术中，在某种特定的环境中，经过训练的机器人可以在该环境中很好地执行任务，因为机器人对该环境中的信息有了较充分的认知。但是当机器人处于动态变化的环境中或在新的环境中执行任务时，由于对新环境认知的不完整性，机器人往往具有较低的决策效果，如扫地机器人、服务机器人、码垛机器人等，在新的环境下需要重新学习地图信息，导致机器人的行为决策效率低，对新环境的适应能力差。

因此，如何进行增量式学习，减少神经网络进行大量样本数据的训练，对遇到的特定环境中的环境信息进行针对性的学习，提高学习效率，在新环境下可以快速收敛到稳定状态，从而提高机器人在新环境中的行为决策效率和精度，是目前本领域人员研究的方向。

发明内容

本申请的一个目的是提供一种仿人脑记忆机理的机器人行为决策方法及设备，以解决现有技术中如何进行增量式学习，提高机器人在新环境中的行为决策效率和精度的问题。

根据本申请的一个方面，提供了一种仿人脑记忆机理的机器人行为决策方法，包括：

获取目标任务和当前环境信息；

计算所述当前环境信息与所有长期记忆环境信息的相似度值，确定最相似长期记忆环境信息；

当所述当前环境信息与所述最相似长期记忆环境信息的相似度值小于相似度阈值时，在短期记忆层存储所述当前环境信息，并进行离线学习直至转移至长期记忆层；

基于所述目标任务和所述当前环境信息，通过神经网络模型输出行为决策并执行。

进一步地，所述机器人行为决策方法还包括：

当所述当前环境信息与所述最相似长期记忆环境信息的相似度值大于等于所述相似度阈值时，选取所述最相似长期记忆环境信息对应的动作决策作为所述行为决策并执行。

进一步地，上述一种机器人行为决策方法中，所述在短期记忆层存储所述当前环境信息，包括：

计算所述当前环境信息与所有短期记忆环境信息的相似度，确定最相似短期记忆环境信息；

当所述当前环境信息与所述最相似短期记忆环境信息的相似度值大于所述相似度阈值时，将所述最相似短期记忆环境信息对应的神经元的年龄加一；

当所述当前环境信息与所述最相似短期记忆环境信息的相似度值小于等于所述相似度阈值时，通过评价函数确定所述当前环境信息在所述短期记忆层的位置并进行存储，得到新的短期记忆环境信息。

进一步地，上述一种机器人行为决策方法中，所述在短期记忆层存储所述当前环境信息，并进行离线学习直至转移至长期记忆层，包括：

在离线状态时，基于记忆回放机制将动作神经元的激活状态信息通过反向传播激活所述长期记忆层中的部分神经元，得到在所述长期记忆层中的为从所述短期记忆层转移来的所述短期记忆环境信息提供的存储空间；

基于记忆回放机制将所述动作神经元的激活概率，通过反向传播激活所述短期记忆层中的部分神经元，并将所述短期记忆环境信息转移至所述长期记忆层中的所述存储空间中；

在所述长期记忆层中对从所述短期记忆层转移来的所述短期记忆环境信息进行学习，得到所述新的长期记忆环境信息。

进一步地，上述一种机器人行为决策方法中，所述在离线状态时，基于记忆回放机制将所述动作神经元的激活状态信息通过反向传播激活所述长期记忆层中的部分神经元，得到在所述长期记忆层中的为从所述短期记忆层转移来的所述短期记忆环境信息提供的存储空间之前，还包括：

根据所述动作神经元在之前工作中被激活的情况，得到所述动作神经元在离线状态下被重新激活的概率即所述动作神经元的激活概率；

基于所述动作神经元的激活概率，依次将所述动作神经元的激活状态信息和所述激活概率，通过反向传播算法分别激活所述长期记忆层和所述短期记忆层中的部分神经元。

进一步地，上述一种机器人行为决策方法中，所述基于记忆回放机制将所述动作神经元的激活概率，通过反向传播激活所述短期记忆层中的部分神经元，并将所述短期记忆环境信息转移至所述长期记忆层中的所述存储空间中，包括：

基于记忆回放机制将所述动作神经元的激活概率，通过反向传播激活所述短期记忆层中与所述动作神经元对应的所述短期记忆环境信息的神经元；

计算存储所述短期记忆环境信息的神经元的激活概率；

基于存储所述短期记忆环境信息的神经元的激活概率，依次将所述短期记忆环境信息转移至所述长期记忆层中的所述存储空间中。

进一步地，上述一种机器人行为决策方法中，所述在所述长期记忆层中对从所述短期记忆层转移来的所述短期记忆环境信息进行学习，得到所述新的长期记忆环境信息，包括：

基于记忆回放机制将所述动作神经元的激活状态信息通过反向传播激活所述长期记忆层中的部分神经元后，与所述动作神经元有突触连接的所述长期记忆层中的所述存储长期记忆环境信息的神经元被激活，基于侧向激励作用，所述长期记忆层中的所述存储长期记忆环境信息的神经元激活其周围的神经元；

获取被激活的所述存储长期记忆环境信息的神经元的能量值和被所述存储长期记忆环境信息的神经元激活的其周围的神经元的能量值，并排序得到长期记忆环境信息神经元能量值序列；

根据所述长期记忆环境信息神经元能量值序列，对被转移至所述长期记忆层的所述短期记忆环境信息进行学习，得到所述新的长期记忆环境信息；更新所述新的长期记忆环境信息的神经元的权重并与所述动作神经元建立新的连接。

根据本申请的另一方面，还提供了一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行时，使所述处理器实现如上述任一项所述的方法。

根据本申请的另一方面，还提供了一种机器人行为决策设备，该设备包括：

一个或多个处理器；

计算机可读介质，用于存储一个或多个计算机可读指令，

当所述一个或多个计算机可读指令被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述中任一项所述的方法。

与现有技术相比，本申请通过获取目标任务和当前环境信息；计算所述当前环境信息与所有长期记忆环境信息的相似度值，确定最相似长期记忆环境信息；当所述当前环境信息与所述最相似长期记忆环境信息的相似度值小于相似度阈值时，在短期记忆层存储所述当前环境信息，并进行离线学习直至转移至长期记忆层；基于所述目标任务和所述当前环境信息，通过神经网络模型输出行为决策并执行，即在机器人处于动态变化的环境中，在通常的在线学习外增加离线学习的能力，这种连续学习的方法可以实现机器人未知环境中的增量式学习，减少了对神经网络进行大量样本数据的训练，提高了学习效率，可以快速收敛到稳定状态，从而提高机器人在新环境中的行为决策的效率和精确度。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出根据本申请一个方面的一种仿人脑记忆机理的机器人行为决策方法的流程示意图；

图2示出根据本申请一个方面的机器人行为决策方法的神经网络模型结构示意图；

图3示出根据本申请一个方面的机器人行为决策方法中侧向激励范围示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本申请作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器 (例如中央处理器（Central Processing Unit，CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RandomAccess Memory，RAM) 和/或非易失性内存等形式，如只读存储器 (Read Only Memory，ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (Phase-Change RAM，PRAM)、静态随机存取存储器 (Static Random AccessMemory，SRAM)、动态随机存取存储器 (DynamicRandom Access Memory，DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (ElectricallyErasable Programmable Read-Only Memory，EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器 (Compact Disc Read-OnlyMemory，CD-ROM)、数字多功能光盘 (DigitalVersatile Disk，DVD) 或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

图1示出根据本申请一个方面的一种仿人脑记忆机理的机器人行为决策方法的流程示意图，该方法适用于移动机器人的各种运动场景，该方法包括步骤S1、步骤S2、步骤S3及步骤S4，其中，具体包括：

步骤S1，获取目标任务和当前环境信息。所述当前环境信息包括所述机器人所在位置以及距离所述机器人最近的障碍物位置。所述目标任务用于指示目标所在位置。

步骤S2，计算所述当前环境信息与所有长期记忆环境信息的相似度值，确定最相似长期记忆环境信息；

步骤S3，当所述当前环境信息与所述最相似长期记忆环境信息的相似度值小于相似度阈值时，在短期记忆层存储所述当前环境信息，并进行离线学习直至转移至长期记忆层；

步骤S4，基于所述目标任务和所述当前环境信息，通过神经网络模型输出行为决策并执行。

上述步骤S1至步骤S4，首先，获取目标任务和当前环境信息。然后，计算所述当前环境信息与所有长期记忆环境信息的相似度值，确定最相似长期记忆环境信息；当所述当前环境信息与所述最相似长期记忆环境信息的相似度值小于相似度阈值时，在短期记忆层存储所述当前环境信息，并进行离线学习直至转移至长期记忆层；最后，基于所述目标任务和所述当前环境信息，通过神经网络模型输出行为决策并执行，即在机器人处于动态变化的环境中，在通常的在线学习外增加离线学习的能力，这种连续学习的方法可以实现机器人未知环境中的增量式学习，减少了对神经网络进行大量样本数据的训练，提高了学习效率，可以快速收敛到稳定状态，从而提高机器人在新环境中的行为决策的效率和精确度。

在此，如图2所示，机器人行为决策方法的神经网络模型结构示意图。用神经网络的感知层X模拟感觉缓冲记忆，两个中间层Y1、Y2分别模拟长期记忆层和短期记忆层，运动层Z模拟动作缓冲记忆区。Y1层中包含记忆了长期记忆环境信息的神经元和空白神经元，该区域内部的箭头表示侧向激励作用，用于激活周围的神经元。Y2层存储短期记忆环境信息，其列数与运动层Z的神经元个数

相同，每一列代表一个神经元队列，在离线状态的记忆巩固过程中，存储在其中的短期记忆环境信息会转移到Y1层形成长期记忆环境信息。运动层Z可作为输出层或输入层，一般情况下动作层Z域输出大脑的决策，但在记忆回放时，Z层作为输入层，输入Z层神经元的激活状态信息。

例如，获取目标任务M和当前环境信息P。然后，计算所述当前环境信息与所有长期记忆环境信息的相似度值

，具体公式如下：

，v代表权重。

由此确定最相似长期记忆环境信息Cmax；当所述当前环境信息与所述最相似长期记忆环境信息的相似度值max（

）小于等于相似度阈值

时即

，在短期记忆层Y2存储所述当前环境信息，并进行离线学习直至转移至长期记忆层；长期记忆层Y1的知识量呈现增量式模式，在下一次机器人到达同样的位置时，机器人会做出不同于上一次的行为决策。当机器人在执行完某一次的任务后，如果没有遇到陌生的环境信息，则下一次执行任务会选择同样的决策路径（即趋于稳定）。最后，基于所述目标任务M和所述当前环境信息P，通过神经网络模型输出行为决策并执行，即在通常的在线学习外增加离线学习的能力，这种连续学习的方法可以实现机器人未知环境中的增量式学习，减少了对神经网络进行大量样本数据的训练，提高了学习效率，可以快速收敛到稳定状态，从而提高机器人在新环境中的行为决策的效率和精确度。

本申请的又一实施例，上述方法还包括：

当所述当前环境信息与所述最相似长期记忆环境信息的相似度值大于等于所述相似度阈值时，选取所述最相似长期记忆环境信息对应的动作决策作为所述行为决策并执行。在此，机器人未获取到新的环境变化，所以直接通过原来的长期记忆信息对应的动作决策作为行为决策进行执行，同时在长期记忆层中进行在线学习。通过如下网络训练进行在线学习：

设

，在A中有自适应参数部分N={V,G}，V代表权重信息，G代表神经元年龄信息。对自适应参数部分N和网络中各部分的响应向量r进行初始化。

在时刻

，对长期记忆层重复进行如下两个步骤：

1）利用区域函数

进行如下计算：

式（1）中，b是自底向上的输入向量，t是自顶向下的输入向量；

是更新后的变量。

2）对所述长期记忆层Y1进行如下参数更新：

（2）

下面讨论区域函数

，在网络内部区域，每一个神经元都具有两种类型的突触权值，自顶向下的突触向量

，和自底向上的突触向量

，v=（

，

），网络的输入层X接收自底向上的感知输入b，输出层Z接收自顶向下的输入t（仅在网络处于监督状态下时）。计算所述长期记忆层Y1中所有神经元的响应值，并根据响应值的大小激活特定的神经元，计算响应值的区域函数

如公式（3）所示：

（3）

在所述长期记忆层Y1中的神经元之间存在竞争作用，即获胜的神经元会抑制其它没被激活的神经元。Top-k竞争机制模拟了神经元之间的侧向竞争作用，即在同一区域中，只有能量值最大的前k个神经元才会在竞争中获胜，对获胜的神经元进行权重的更新。在此只考虑k=1的情况，通过公式（4）确定获胜的神经元：

（4）

式中

是所述长期记忆层Y1神经元的个数。

为所述长期记忆层Y1第i个神经元自底向上的权重向量，

为所述长期记忆层Y1第i个神经元自顶向下的权重向量，计算得出第j个神经元的响应值最大，从而被激活。被激活神经元的发放值

，其余神经元被抑制，其发放值

，设神经元接收到的输入信息为P，对第j个获胜神经元，按照公式（5）进行权重v _j的更新：

（5）

式中，

是学习率，

是保持率，

。当某个神经元的权重被更新一次，其年龄在原来的基础上加1，即

。

接着本申请的上述实施例，所述步骤S3中在短期记忆层存储所述当前环境信息，包括：

当所述当前环境信息与所述最相似短期记忆环境信息的相似度值小于等于所述相似度阈值时，通过评价函数确定所述当前环境信息在所述短期记忆层的位置并进行存储，得到新的短期记忆环境信息。该步骤中所述短期记忆层进行在线学习不断更新所述短期记忆环境信息，以便后续在离线状态时将所述短期记忆环境信息转移至长期记忆层，从而实现机器人的增量式学习。在此，所述评价函数的计算如下：

机器人在当前状态

下，选择任意一个不撞上障碍物的行为决策

（即可行决策），导致机器人发生状态转移，新状态变为

。机器人到达目标点的状态设为

。设

，

代表评价函数，具体公式如下：

表示机器人在t时刻时所处的状态，则当前输入p应放在第列的神经元队列中，其中l的值由如下公式计算

，其表示取

的最小值所对应的索引值。

接着本申请的上述实施例，所述步骤S3中在短期记忆层存储所述当前环境信息，并进行离线学习直至转移至长期记忆层，包括：

步骤S31，在离线状态时，基于记忆回放机制将动作神经元的激活状态信息通过反向传播激活所述长期记忆层中的部分神经元，得到在所述长期记忆层中的为从所述短期记忆层转移来的所述短期记忆环境信息提供的存储空间；

步骤S32，基于记忆回放机制将所述动作神经元的激活概率，通过反向传播激活所述短期记忆层中的部分神经元，并将所述短期记忆环境信息转移至所述长期记忆层中的所述存储空间中；

步骤S33，在所述长期记忆层中对从所述短期记忆层转移来的所述短期记忆环境信息进行学习，得到所述新的长期记忆环境信息。

在此，离线状态是指网络不关注任何刺激或任务时的神经交互，用来模拟当不关注或没有感知输入时候的大脑内部神经活动，如睡眠或休息状态的神经活动。这个过程可能改变网络连接，也可能不改变网络连接，这取决于网络最近的记忆。

由动作层Z反向输入到长期记忆区Y1和短期记忆区Y2的信息不同。输入到长期记忆区的是所述动作神经元的激活状态信息，也就是由动作神经元组成的输入向量，而输入到短期记忆区的是动作神经元的激活概率，即图2中的P(a_i)，用来确定哪个动作决策对应的短期记忆队列中的某一项短期记忆环境信息，按照其概率大小，应该被转移到长期记忆区。附图2中从Z层指向Y1层，输入的是根据动作神经元在之前的工作中被激活的次数，计算得到的动作神经元的激活状态信息；从Z层指向Y2层向下的虚线，输入的是动作神经元的激活概率P(a_i)。

例如，在离线状态时，首先，基于记忆回放机制将动作神经元的激活状态信息通过反向传播激活所述长期记忆层Y1中的部分神经元，得到在所述长期记忆层Y1中的为从所述短期记忆层转移来的所述短期记忆环境信息提供的存储空间K；然后，基于记忆回放机制将所述动作神经元的激活概率通过反向传播激活所述短期记忆层Y2中的部分神经元，并将所述短期记忆环境信息D转移至所述长期记忆层中的所述存储空间K中；最后，在所述长期记忆层Y1中对所述短期记忆环境信息进行学习，得到新的长期记忆环境信息C。在线学习之后，增加离线任务过程，在此过程中，将短期记忆环境信息转化为长期记忆环境信息，实现机器人未知环境中的增量式学习，使机器人在休息时也可以进行学习，不断提高机器人的智能。

接着本申请的上述实施例，所述步骤S31在离线状态时，基于记忆回放机制将所述动作神经元的激活状态信息通过反向传播激活所述长期记忆层中的部分神经元，得到在所述长期记忆层中为从所述短期记忆层转移来的所述短期记忆环境信息提供的存储空间之前，还包括：

根据所述动作神经元在之前工作中被激活的情况，得到所述动作神经元在离线状态下被重新激活的概率即所述动作神经元的激活概率；所有所述动作神经元的激活状态信息存在于动作缓冲记忆区（动作层Z）中。在离线状态进行记忆回放时，往往会回忆在以前的工作中经历次数最多的记忆，这种机制有利于大脑在有限的时间内对重要的记忆进行巩固学习，从而提高效率。对所述动作决策的重要程度建模，如下所示，该公式衡量了动作决策

的重要程度，即经历次数越多的行为决策对应的神经元在离线状态下被重新激活的概率越高。

其中，

表示网络输出动作决策

的次数。

基于所述动作神经元的激活概率，依次将所述动作神经元的激活状态信息和所述激活概率，通过反向传播算法分别激活所述长期记忆层和所述短期记忆层中的部分神经元，有利于提高机器人离线学习的质量，从而提升机器人行为决策的效率和精确度。

接着本申请的上述实施例，所述步骤S32基于记忆回放机制将所述动作神经元的激活概率，通过反向传播激活所述短期记忆层中的部分神经元，并将所述短期记忆环境信息转移至所述长期记忆层中的所述存储空间中，包括：

步骤S321，基于记忆回放机制将所述动作神经元的激活概率，通过反向传播激活所述短期记忆层中与所述动作神经元对应的所述短期记忆环境信息的神经元；

步骤S322，计算存储所述短期记忆环境信息的神经元的激活概率；在此，在短期记忆层Y2，对短期记忆环境信息的重要程度（即神经元被重新激活的概率）建模如下公式所示：

其中，

表示以

为自变量的单位阶跃函数，n表示该区域中某个神经元发放的次数，

是阈值常数。

步骤S323，基于存储所述短期记忆环境信息的神经元的激活概率，依次将所述短期记忆环境信息转移至所述长期记忆层中的所述存储空间中，实现了将短期记忆环境信息向所述长期记忆层的转移，以便之后在所述长期记忆层中对从短期记忆层转移来的所述短期记忆环境信息进行学习，从而实现离线增量学习过程。

接着本申请的上述实施例，所述步骤S33在所述长期记忆层中对从所述短期记忆层转移来的所述短期记忆环境信息进行学习，得到所述新的长期记忆环境信息，包括：

步骤S331，基于记忆回放机制将所述动作神经元的激活状态信息通过反向传播激活所述长期记忆层中的部分神经元后，与所述动作神经元有突触连接的所述长期记忆层中的所述存储长期记忆环境信息的神经元被激活，基于侧向激励作用，所述长期记忆层中的所述存储长期记忆环境信息的神经元激活其周围的神经。

步骤S332，获取被激活的所述存储长期记忆环境信息的神经元的能量值和被所述存储长期记忆环境信息的神经元激活的其周围的神经元的能量值，并排序得到长期记忆环境信息神经元能量值序列。

步骤S333，根据所述长期记忆环境信息神经元能量值序列，对被转移至所述长期记忆层的所述短期记忆环境信息进行学习，得到所述新的长期记忆环境信息；更新所述新的长期记忆环境信息的神经元的权重并与所述动作神经元建立新的连接。

在此，确定动作缓冲记忆区（动作层）要重新激活的神经元，其发放值设为1，未激活的神经元其发放值设为0。将动作缓冲记忆区（动作层）神经元的激活状态构成的向量作为动作缓冲记忆区（动作层）的输入信息，反向传播到Y1层。在Y1层中，所有与动作缓冲记忆区（动作层）中处于活跃状态的神经元存在突触连接的神经元会被重新激活。由于侧向激励作用，Y1层中处于活跃状态的神经元会激活其邻近的神经元。激活邻近神经元的神经元称其为中心神经元，中心神经元对邻近神经元的影响范围称为激活半径。如图3所示，每个方格代表一个神经元，中心神经元颜色最深，表示其能量值最大，它会激活周围神经元并赋予其能量值。

假设有k个中心神经元被激活，则对中心神经元的能量值按照式如下公式进行计算：

其中

为Y1层中下标为i的神经元的能量。

由于中心神经元的影响，其邻近神经元也具有能量值，周围神经元的能量值大小由如下公式决定，这为短期记忆环境信息转化为长期记忆环境信息提供了存储空间。

表示下标为i的中心神经元激活的第j个神经元的能量值，d表示被激活的神经元距离中心神经元的距离。例如，如图3所示，给出了某个中心神经元周围被激活的五行五列神经元的位置分布示意图。实际应用中可以根据需要激活更多的周围神经元来存储新的长期记忆环境信息。

在短时记忆层Y2中，每个神经元都有不同的激活概率

，根据概率激活不同的神经元，并将其转移到长期记忆层（Y1层）。

在Y1层中，首先对被激活的神经元的能量值进行排序，然后依次对短期记忆层中转移过来的数据进行学习，即利用如下公式更新神经元的权重信息，然后与运动层Z中活跃的神经元建立新的连接，短期记忆环境信息变为长期记忆环境信息。

式中

表示Y1层第i个神经元的权值矢量，

表示Y2层第j个神经元的权值矢量，

为更新步长。

这样，经过离线状态下短期记忆向长期记忆的转化，机器人实现了增量式学习。在后续的工作过程中，当遇到类似的场景信息时，机器人会根据已学习过的知识迅速做出行为决策，提高行为决策的效率。

根据本申请的另一个方面，还提供了一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行时，使所述处理器实现如上述控制用户对垒方法。

根据本申请的另一个方面，还提供了一种机器人行为决策设备，其特征在于，该设备包括：

一个或多个处理器；

计算机可读介质，用于存储一个或多个计算机可读指令，

当所述一个或多个计算机可读指令被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述在设备上控制用户对垒方法。

在此，所述设备的各实施例的详细内容，具体可参见上述设备端的控制用户对垒方法实施例的对应部分，在此，不再赘述。

综上所述，本申请通过获取目标任务和当前环境信息；计算所述当前环境信息与所有长期记忆环境信息的相似度值，确定最相似长期记忆环境信息；当所述当前环境信息与所述最相似长期记忆环境信息的相似度值小于相似度阈值时，在短期记忆层存储所述当前环境信息，并进行离线学习直至转移至长期记忆层；基于所述目标任务和所述当前环境信息，通过神经网络模型输出行为决策并执行，即在机器人处于动态变化的环境中，在通常的在线学习外增加离线学习的能力，这种连续学习的方法可以实现机器人未知环境中的增量式学习，减少了对神经网络进行大量样本数据的训练，提高了学习效率，可以快速收敛到稳定状态，从而提高机器人在新环境中的行为决策的效率和精确度。

需要注意的是，本申请可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路（ASIC）、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本申请的软件程序（包括相关的数据结构）可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本申请的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本申请的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本申请的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种仿人脑记忆机理的机器人行为决策方法，其特征在于，所述方法包括：

获取目标任务和当前环境信息；

当所述当前环境信息与所述最相似长期记忆环境信息的相似度值小于相似度阈值时，在短期记忆层存储所述当前环境信息，并进行离线学习直至转移至长期记忆层，其中，所述在短期记忆层存储所述当前环境信息，包括：计算所述当前环境信息与所有短期记忆环境信息的相似度，确定最相似短期记忆环境信息；当所述当前环境信息与所述最相似短期记忆环境信息的相似度值大于所述相似度阈值时，将所述最相似短期记忆环境信息对应的神经元的年龄加一；当所述当前环境信息与所述最相似短期记忆环境信息的相似度值小于等于所述相似度阈值时，通过评价函数确定所述当前环境信息在所述短期记忆层的位置并进行存储，得到新的短期记忆环境信息,所述评价函数的计算如下：

(i∈N⁺且i<n_z,t>0)

机器人在当前状态S₁:(x₁,x₂,x₃,…x_n)下，选择任意一个不撞上障碍物的行为决策a_i即可行决策，导致机器人发生状态转移，新状态变为S₂:(x'₁,x'₂,x'₃,…x'_n)；机器人到达目标点的状态设为S:(x'₁',x'₂',x'₃',…x'_n')；设

g代表评价函数；

s_t表示机器人在t时刻时所处的状态，则当前输入当前环境信息p应放在第l列的神经元队列中，其中l的值由如下公式计算：

l＝arg min(G′)，其表示取G′的最小值所对应的索引值；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述在短期记忆层存储所述当前环境信息，并进行离线学习直至转移至长期记忆层，包括：

4.根据权利要求3所述的方法，其特征在于，所述在离线状态时，基于记忆回放机制将所述动作神经元的激活状态信息通过反向传播激活所述长期记忆层中的部分神经元，得到在所述长期记忆层中为从所述短期记忆层转移来的所述短期记忆环境信息提供存储空间之前，还包括：

5.根据权利要求3所述的方法，其特征在于，所述基于记忆回放机制将所述动作神经元的激活概率，通过反向传播激活所述短期记忆层中的部分神经元，并将所述短期记忆环境信息转移至所述长期记忆层中的所述存储空间中，包括：

计算存储所述短期记忆环境信息的神经元的激活概率；

6.根据权利要求3所述的方法，其特征在于，所述在所述长期记忆层中对从所述短期记忆层转移来的所述短期记忆环境信息进行学习，得到所述新的长期记忆环境信息，包括：

获取被激活的所述存储长期记忆环境信息的神经元的能量值和被所述存储长期记忆环境信息的神经元激活的其周围神经元的能量值，并排序得到长期记忆环境信息神经元能量值序列；

7.一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行时，使所述处理器实现如权利要求1至6中任一项所述的方法。

8.一种机器人行为决策设备，其特征在于，该设备包括：

一个或多个处理器；

计算机可读介质，用于存储一个或多个计算机可读指令，

当所述一个或多个计算机可读指令被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1至6中任一项所述的方法。