CN110119844B

CN110119844B - 引入情绪调控机制的机器人运动决策方法、系统、装置

Info

Publication number: CN110119844B
Application number: CN201910378476.1A
Authority: CN
Inventors: 黄销; 吴伟; 乔红
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2019-05-08
Filing date: 2019-05-08
Publication date: 2021-02-12
Anticipated expiration: 2039-05-08
Also published as: CN110119844A

Abstract

本发明属于智能机器人领域，具体涉及一种引入情绪调控机制的机器人运动决策方法、系统、装置，旨在解决机器人决策速度与学习效率的问题。本系统方法包括利用环境感知模型，根据当前动作变量和状态值生成下一时刻的预测状态值；基于动作变量、状态值、即时奖励，更新状态‑动作值函数网络；基于环境感知模型获取预测轨迹，计算预测轨迹局部最优解，并进行微分动态规划，获取基于模型的最优决策；根据当前状态和策略，最小化状态‑动作值函数，获取无模型决策；基于状态预测误差、奖励预测误差及平均奖励值，通过情绪加工可计算模型生成情绪响应信号，根据信号的阈值选择路径决策。本发明在保证学习效率同时逐步提高决策速度。

Description

引入情绪调控机制的机器人运动决策方法、系统、装置

技术领域

本发明属于智能机器人领域，具体涉及一种引入情绪调控机制的机器人运动决策方法、系统、装置。

背景技术

当前机器人发展的一个巨大的挑战是：如何学会推理出环境潜在的动力学变化，以及学会如何有效地学习一种新的知识或技能。目前，科学家广泛借鉴人脑的工作机制，建立一系列脑启发的计算模型，试图实现类人智能。

决策过程是大脑中一种高级认知加工过程，大量的神经科学数据表明人类大脑系统中存在两种显著不同的决策系统：一种是可陈述的基于模型的决策系统，该系统主要用于完成一系列目标导向的行为；另一种是反射式的无模型决策系统，该系统则主要驱动一系列习惯性行为的产生。基于模型推理通常需要对外部环境进行建模，根据当前状态不断地预测未来可能的结果，进而以一种动态规划的形式找到一组最优的执行策略。这一过程通常来说拥有很高的学习效率和决策精度，但需要长时间计算，调度各方面的工作记忆来推断出一个可靠的结果；与之相反，无模型推理是通过与环境不断的交互，根据反馈的强化信号对大脑的神经网络进行修正，最终形成一种从状态到动作的直接映射，表现为习惯性行为。这一过程通常需要与环境进行大量交互，学习效率相对较低，但是决策速度快，对快速反应有着重要作用。然而，这两个并行工作的系统在大脑中如何产生一致性行为仍未可知。最近，大量神经科学研究表明，情绪是这两个决策仲裁过程中的一种重要的影响因素。

许多决策计算模型被纳入到强化学习框架当中，其中，行动-评价算法框架是最为流行的计算框架之一。基于模型的方法一般具有很高的采样有效性，如PILCO就是一种高效的基于模型的策略搜索方法，该方法将模型的不确定性整合到机器人的长期规划当中，极大提高了机器人的数据利用效率。但是学习模型采用的是高斯回归方法，解决高维决策问题时，计算复杂度非常高，严重影响决策速度。采用无模型方法进行学习，一般需要与环境进行大量交互，数据利用率很低。对此，许多学者探索如何将基于模型的学习算法同无模型的学习方法进行融合。将基于模型与无模型过程融合的最经典框架是Dyna，该框架将仿真模型产生的数据也加入到经验库中，对无模型网络进行训练，能够有效加快无模型算法的训练过程。但若仿真模型不太准确，势必会影响最后得到的最优。

将情绪调控决策的神经机制引入到机器人决策算法当中，在任务学习周期中，对基于模型和无模型决策过程进行动态分配，一方面更接近于大脑的决策过程，另一方面能够有效平衡学习效率和决策速度的关系。具体而言，在任务学习早期，由于经验知识匮乏，对环境状态预测以及奖励预测误差很大，会导致更多负性情绪产生(如压力、焦虑或不自信)，这会进一步驱动机器人采用更多基于模型推理的决策，决策速度慢，但学习效率高。随着训练次数增加，状态以及奖励预测误差都会有所降低，这会导致更多中性或正性情绪产生，促进机器人更多采用无模型决策方案，逐渐形成习惯性动作，提高决策速度。

发明内容

为了解决现有技术中的上述问题，即为了解决基于模型决策与无模型决策之间的调度过程，平衡决策速度与学习效率之间的问题，本发明第一方面，提出了一种引入情绪调控机制的机器人运动决策方法，该方法包括：

步骤S10，获取机器人t时刻动作变量u_t及状态值x_t，利用环境感知模型生成机器人t+1时刻的预测状态值x_t′₊₁；

步骤S20，获取t时刻即时奖励值r_t，将动作变量u_t、状态值x_t、即时奖励值r_t添加到经验库当中，利用经验库中批采样的数据更新状态-动作值函数网络Q(x,u)；

步骤S30，基于环境感知预测模型获取t到t+H时间段内的预测轨迹，在t+H时刻策略网络输出策略πθ的约束下计算所述预测轨迹在末端状态的状态-动作值函数Q(x_t+H,u)的局部最优解，对所述的局部最优解进行微分动态规划求解，获取基于模型的最优决策；

步骤S40，根据t时刻的状态x_t和策略神经网络输出策略πθ，最小化t时刻状态-动作值函数Q(x_t,u)，获取无模型决策；

步骤S50，基于状态预测误差、奖励预测误差以及平均奖励值，通过情绪加工可计算模型生成情绪响应信号，根据所述情绪响应信号的阈值选择路径决策；

其中，

所述的环境感知模型基于概率神经元网络构建，输入样本是当前状态-动作，输出样本是下一步状态变化；

所述的状态-动作值函数网络基于感知神经网络构建，用于根据状态-动作-奖励信息获取全局输出策略；

所述情绪加工可计算模型基于生物神经元动态模型构建，用于基于状态预测误差、奖励预测误差以及平均奖励值计算情绪响应信号；所述状态预测误差基于t时刻状态x_t与t时刻预测状态x′_t+1获取，所述奖励预测误差基于t时刻奖励值r_t、t时刻的状态-动作值函数Q_t和t+1时刻的状态-动作值函数Q_t+1获取，所述平均奖励值为截止t时刻的累积奖励值。

在一些优选的实施方式中，所述环境感知预测模型由N个结构相同的概率神经网络构成，其训练过程中，通过最小化每个网络输出与目标之间的负对数似然来进行所述环境感知模型的优化。

在一些优选的实施方式中，所述状态-动作值函数网络在训练过程中，采用多层感知器神经网络来拟合状态-动作值函数Q^π(x，u)，该函数为状态X和策略π下，未来长期的折扣回报之和，该函数需满足以下公式的更新原则：

Q^π(x_t,u_t)＝r(x_t,π(x_t))+γQ^π(x_t+1,π(x_t+1))

其中，r为t时刻从环境中获得的即时奖励，γ为值函数更新的折扣系数。

在一些优选的实施方式中，步骤S30“基于环境感知预测模型获取t到t+H时间段内的预测轨迹，在t+H时刻策略网络输出策略π_θ的约束下计算所述预测轨迹在末端状态的状态-动作值函数Q(x_t+H,u)的局部最优解，对所述的局部最优解进行微分动态规划求解，获取基于模型的最优决策”，其方法为：

采用无模型策略网络以及所述环境学习模型，初始化规划时间为H，利用环境学习模型预测下一步状态值x′_t+1递推生成状态转移轨迹；

基于无模型策略的引导，优化全局预测状态的状态-动作值函数Q(x_t+H,u)，求得局部最优值作为微分动态算法的终端约束值；

基于终端约束值，采用传统微分动态算法优化求得最优动作序列作为最优决策。

将人工设定的终端奖励约束r_f作为终端值函数，采用传统微分动态算法优化求得次优动作序列；

基于模型策略的引导，优化预设目标函数，得到基于模型的最优决策。

在一些优选的实施方式中，步骤S40“根据t时刻的状态x_t和策略神经网络输出策略π_θ，最小化t时刻状态-动作值函数Q(x_t,u)，获取无模型决策”，其方法为：

基于当前状态，利用策略神经网络获取动作路径决策；其中所述策略神经网络采用多层感知器网络构建，并根据t时刻反馈的奖励，迭代学习实现最小化当前状态-动作值函数Q(x_t,u)，进而求得所对应的无模型决策。

在一些优选的实施方式中，步骤S50中所述情绪加工可计算模型为神经动力学模型，该模型中每个神经元的膜电位服从生物神经元动态模型，并采用预设的动力学方程模拟突触之间神经递质的传递过程。

在一些优选的实施方式中，步骤S50中所述的设定阈值为0，所述情绪响应信号大于等于设定阈值时选择基于模型的最优决策，否则选择无模型决策。

本发明的第二方面，提出了一种引入情绪调控机制的机器人运动决策系统，该系统包括预测状态值模块、值函数学习模块、模型决策模块、无模型决策模块、情绪响应模块；

所述的预测状态值模块，配置为获取机器人t时刻动作变量u_t及状态值x_t，利用环境感知模型生成机器人t+1时刻的预测状态值x′_t+1；

所述的值函数学习模块，配置为获取t时刻即时奖励值r_t，将动作变量u_t、状态值x_t、即时奖励值r_t添加到经验库当中，利用经验库中批采样的数据更新状态-动作值函数网络Q(x,u)；

所述的基于模型决策模块，配置为基于环境感知预测模型获取t到t+H时间段内的预测轨迹，在t+H时刻策略网络输出策略π_θ的约束下计算所述预测轨迹在末端状态的状态-动作值函数Q(x_t+H,u)的局部最优解，对所述的局部最优解进行微分动态规划求解，获取基于模型的最优决策；

所述的无模型决策模块，配置为根据t时刻的状态x_t和策略神经网络输出策略π_θ，最小化t时刻状态-动作值函数Q(x_t,u)，获取无模型决策；

所述的情绪响应模块，配置为基于状态预测误差、奖励预测误差以及平均奖励值，通过情绪加工可计算模型生成情绪响应信号，根据所述情绪响应信号的阈值选择不同决策模式。

本发明的第三方面，提出了一种存储装置，其中存储有多条程序，所述程序应用由处理器加载并执行以实现上述的引入情绪调控机制的机器人运动决策方法。

本发明的第四方面，提出了一种处理设置，包括处理器、存储装置；处理器，适用于执行各条程序；存储装置，适用于存储多条程序；所述程序适用于由处理器加载并执行以实现上述的引入情绪调控机制的机器人运动决策方法。

本发明的有益效果：

本发明在保证机器人学习效率的前提下，逐步提高决策速度。本发明启发于大脑情绪对两个决策过程的调控机制，通过切换导向策略实现基于模型决策与无模型决策的动态分配，一方面更接近于大脑的决策，另一方面能够有效平衡基于模型和无模型两通路的决策过程。

附图说明

通过阅读参照以下附图所做的对非限制性实施例所做的详细描述，本申请的其他特征、目的和优点将会变得更明显。

图1是本发明一种实施例的引入情绪调控机制的机器人运动决策方法的流程示意图；

图2是本发明一种实施例的概率神经元集群网络结构的示例图；

图3是本发明一种实施例的情绪加工的神经网络结构的示例图；

图4本发明一种实施例的引入情绪调控机制的机器人运动决策系统的框架示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明的引入情绪调控机制的机器人运动决策方法，如图1所示，包括以下步骤：

步骤S10，获取机器人t时刻动作变量u_t及状态值x_t，利用环境感知模型生成机器人t+1时刻的预测状态值x′_t+1；

步骤S30，基于环境感知预测模型获取t到t+H时间段内的预测轨迹，在t+H时刻策略网络输出策略π_θ的约束下计算所述预测轨迹在末端状态的状态-动作值函数Q(x_t+H,u)的局部最优解，对所述的局部最优解进行微分动态规划求解，获取基于模型的最优决策；

步骤S40，根据t时刻的状态x_t和策略神经网络输出策略π_θ，最小化t时刻状态-动作值函数Q(x_t,u)，获取无模型决策；

其中，

为了更清晰地对本发明引入情绪调控机制的机器人运动决策方法进行说明，下面结合附图1对本发明方法一种实施例中各步骤进行展开详述。

步骤S10，获取机器人t时刻动作变量u_t及状态值x_t，利用环境感知模型生成机器人t+1时刻的预测状态值x′_t+1。

本实施例中，分析获取t时刻的动作变量数据u_t，建立各关节的坐标系，进行坐标运算和位置表示，基于所构建的机器人环境感知模型，判断机器人当前的状态和动作利用环境感知模型根据机器人的动作和状态生成机器人t+1时刻的预测状态值x′_t+1。动作变量一般包括关节t时刻的角度、角速度、末端点位置及期望力矩。

本实施例中，利用概率神经元集群网络结构，根据状态-动作的历史消息映射未来状态的变化，建立机器人环境感知模型。模型的目标是根据当前的状态和动作来预测下一步的状态变化，是由多个前向神经网络集成来估计模型学习的不确定性，能够有效克服高斯过程回归中昂贵的计算成本。如图2所示，图2示例性地给出了概率神经元集群网络结构，步骤如下：

步骤S101，捕捉模型的偶然不确定性。具体而言，假设所述模型由N个结构相同的概率神经网络构成，第n个网络被参数化为φ_n，每个神经网络能够编码一个高斯分布来捕捉模型的偶然不确定性，如公式(1)所示：

其中，

代表概率神经网络函数，

代表预测状态的协方差矩阵，

代表预测状态的均值，

代表高斯分布。

步骤S102，优化偶然不确定性。偶然不确定性是一种随机噪声，例如系统观测噪声或过程噪声，这种噪声往往源于系统的内部不确定性。在训练过程中，我们通过最小化每个网络输出与目标之间的负对数似然来进行优化，如公式(2)所示：

其中，

代表优化的目标函数，y代表的是下一个状态x_t+1，

代表预测状态协方差矩阵行列式的对数，

代表预测状态协方差矩阵的逆，T代表转置。

步骤S103，计算模型学习中的主观认知不确定性。单个子神经网络能够成功建模模型的偶然不确定性，但是不能够计算出模型学习中的主观认知不确定性。本发明根据当前状态分布，采样产生M个粒子，统计这些粒子的输出结果来评估每个子网络的认知不确定性。进一步，本发明统计不同子网络的预测情况，生成对下一步预测的状态分布。假设该分布也是高斯分布，其方差为

均值为

那么二者的计算过程如公式(3)、(4)所示：

其中，

代表第m个粒子的动作输出信号，

代表第m个粒子的状态预测信号，

代表第m个粒子的状态输入信号，

代表代表概率神经网络求得的最终均值，

代表方差函数，

代表均值函数，

代表概率神经网络求得的最终方差。

下一个状态的预测值能够通过采样当前的概率分布而获得，如式(5)所示：

其中，x_t+1代表下一个状态的预测值，

是表示函数的符号。

步骤S20，获取t时刻即时奖励值r_t，将动作变量u_t、状态值x_t、即时奖励值r_t添加到经验库当中，利用经验库中批采样的数据更新状态-动作值函数网络Q(x,u)。

本实施例中，采用多层感知器建立值函数学习网络，运用贝尔曼原则对该网络进行训练，使得该网络能够根据当前的策略和状态变化来预测未来奖励的变化。值函数学习网络的训练可以通过两种方式进行更新，一种为该值函数可根据实际状态-动作-奖励数据集进行更新；另一种为，采用步骤S1的学习模型产生预测数据，根据预测数据对值函数进行更新有助于加速值函数收敛。

(1)基于实际实验数据集训练

本实例中，采用多层感知神经网络来拟合状态-动作值函数Q^π(x，u)，它代表在当前状态x和策略π下，未来长期的折扣回报之和，如公式(6)所示：

其中，

是期望求取算子，p代表概率，γ代表折扣系数，r代表当前状态下的即时奖励值，χ代表状态所服从的分布，

代表期望概率，

代表服从分布χ的状态所对应的函数求取期望。

其中状态x全部取自于实际收集的数据库中，该状态-动作值函数满足公式(7)所示的Bellman更新原则：

Q^π(x_t，u_t)＝r(x_t，π(x_t))+γQ^π(x_t+1，π(x_t+1)) (7)

本发明中为了估计这个最优的值函数，假设值函数学习网络参数为

在训练过程中采用梯度下降法最小化上述Bellman误差平方，如式(8)所示：

其中，

代表对

进行求导，α代表学习率，x′为下一个状态值，目标值

能够通过目标值函数学习网络

来求得，

为期望策略，u′代表下一动作值，

代表目标值函数学习网络，

代表目标值函数网络的参数，目标网络参数

可通过原始网络参数进行滑动平均而求得，即

τ代表网络参数平滑系数，该方法能够提高值函数学习的稳定性。

(2)基于预测数据集训练

从经验数据库随机采样初始状态-动作-奖励组T₀，采用步骤S10中的环境学习模型来预测未来H步的状态-动作-奖励变化，形成轨迹T_0:H-1。依次选取轨迹的第k步作为当前状态，计算该状态下值函数的目标值如公式(9)所示：

其中，n代表预测期望奖励值的第n步，

代表终端状态预测值，

代表终端动作输出预测值，

代表第n步状态预测值，

代表第n步动作预测值。

优化式(10)，更新值函数学习网络的参数，参数更新完成后，仿真所产生的数据被清除，不加入到全局经验库。

其中，

代表对服从分布ν的状态所对应的函数求取期望，v代表预测状态的概率分布，

代表状态预测值，

代表动作预测值。

步骤S30，基于环境感知预测模型获取t到t+H时间段内的预测轨迹，在t+H时刻策略网络输出策略π_θ的约束下计算所述预测轨迹在末端状态的状态-动作值函数Q(x_t+H,u)的局部最优解，对所述的局部最优解进行微分动态规划求解，获取基于模型的最优决策。

本实施例中，基于模型的最优决策方案有两种方法：一、根据目标点的位置，利用微分动态规划将时间片进行离散化，建立中间目标，优化值函数学习网络得到当前的最优路径；二、在无模型策略的引导下先计算微分动态规划的终端约束，设置规划时间，微分动态规划过程，将初始值输出作为当前的最优路径。

1、在无模型策略导向下进行H步基于模型决策

步骤S31-1，初始化一个时长为H的状态转移轨迹。即对于H域内的任意时刻k，选择的动作为：u_k＝π_θ(x_k)，预测的下一步状态为：

依此递推，生成状态-动作转移轨迹T_0:H。

步骤S31-2，计算终端约束值。在第H步，在无模型策略π_θ(u|x_H)的引导下，优化下面目标函数，如式(11)、(12)、(13)、(14)所示：

其中，KL代表相对熵，

代表当前所要优化的策略，π_θ代表策略网络输出的策略，∈代表新策略与旧策略的相近程度，H(·)函数为熵函数。

通过拉格朗日乘子法能够求得该优化问题的闭环解，如式(15)所示：

其中，∝代表正比于，η^*和ω^*分别是相对熵KL和熵约束的最优对偶变量，这两个对偶变量的值能够通过优化以下对偶函数求得，如公式(16)所示：

其中，η代表相对熵KL所对应的对偶变量，ω代表熵约束项所对应的对偶变量，exp()代表自然常数e为底的指数函数，u代表无模型网络的输出动作，du代表对u积分。

假设Q(x_H，u)能够在任一点u₀处进行局部二阶泰勒级数展开为公式(17)所示：

其中，

是值函数学习网络的梯度，

是值函数学习网络的Hessian矩阵，

代表高阶无穷小量，

代表对u的二阶导数。

假设优化所得到的贪婪策略服从高斯分布

经过推导，该策略如公式(18)、(19)所示：

其中，

代表贪婪策略的协方差矩阵。

其中该策略中求解各参数如公式(20)、(21)、(22)所示：

G₀(x_H)＝g₀(x_H)-H₀(x_H)u₀ (22)

其中，F，L和G₀是中间变量，没有实际意义，

代表协方差矩阵的逆，μ_θ代表均值，二者都是θ的函数。

对偶变量η^*和ω^*可通过求解公式(23)优化方程：

其中，

代表求解对偶变量的函数，const代表常数。

进而最终求得在末端状态X_H处的局部最优策略

计算终端值如公式(24)、(25)、(26)所示：

其中，V代表状态值函数，V^x代表状态值函数对x的一阶导数，V^xx代表状态值函数对x的二阶导数。

S31-3，基于终端值，采用传统微分动态算法优化求得最优动作序列，优化目标如式(27)所示：

算法分为前向传播和反向传播两个过程，反向过程主要通过计算值函数的微分信息，求得控制量更新的参数值。具体形式如公式(28)、(29)、(30)、(31)、(32)所示：

其中，

代表状态-动作值函数对u的一阶导数，

代表状态动作值函数对u的二阶导数，

代表状态动作值函数先对u，后对x求偏导数，

代表状态-动作值函数对x的一阶导数，

代表状态动作值函数对x的二阶导数，

代表t时刻的奖励函数对x的一阶导数，

代表t时刻的奖励函数对x的二阶导数，

代表t时刻的奖励函数先对u再对x求偏导，

代表t时刻的环境预测模型对x的一阶导数，

代表t时刻的环境预测模型对u的一阶导数。

局部控制策略更新值

能够通过式(33)进行更新：

其中，

代表t时刻状态值的增量，

代表t时刻关节变量的增量。

状态值函数则用公式(34)、(35)、(36)进行更新：

在前向传播过程中，采用最新的I和L对上一步优化序列进行更新，更新形式如式(37)、(38)、(39)所示：

其中，λ代表动作更新系数。

求解优化获得最优轨迹

选择第一个动作

作为在无模型策略导向下进行H步基于模型决策的输出。

2、在基于模型策略导向下优化决策

与“1、在无模型策略导向下进行H步基于模型决策”不同，该方法先基于人工设定的终端约束搜索一个基于模型的最优动作序列，再在该序列的引导下优化全局值函数，得到可执行策略。

步骤S32-1，基于人工设定的终端奖励约束γ_f，采用传统微分动态算法优化求得最优动作序列，优化目标如式(40)所示：

令V(x_H)＝r_f(x_H)，

其中，γ_f(X_H)代表终端奖励值，

代表奖励函数的对x的导数在终端的值，则详细优化过程如步骤S31-3所述，得到在当前状态下局部最优策略

步骤S32-2，与步骤S31-2类似，在基于模型策略

的引导下，优化下面目标函数：

假设

其中，

代表基于模型的决策策略,则优化过程与步骤S31-2相同，能够求得输出策略

步骤S40，根据t时刻的状态x_t和策略神经网络输出策略π_θ，最小化t时刻状态-动作值函数Q(x_t,u)，获取无模型决策。

本实例中，基于当前状态，利用策略神经网络获取动作路径决策；其中所述策略神经网络采用多层感知器网络构建，并根据当前时刻反馈的奖励，迭代学习实现最小化当前状态-动作值函数Q(x_t,u)，进而求得所对应的动作输出。

采用多层感知网络构建本发明的策略神经网络，主要目的在于根据环境所不断反馈的奖励，训练网络根据当前状态直接计算动作，进行快速决策。假设策略网络的参数为θ，策略网络输出的是确定性策略u＝π_θ(x)，那么参数可通过式(41)进行更新：

采用了评价函数的一阶信息对权重进行更新，使得经过策略网络产生的策略最大化当前的评价函数。

步骤S50，基于状态预测误差、奖励预测误差以及平均奖励值，通过情绪加工可计算模型生成情绪响应信号，根据所述情绪响应信号的阈值选择不同的决策方式。

本实施例中，图3示例性给出了情绪加工的神经网络结构，该模型神经元的连接关系是启发于杏仁核对外部刺激的情绪化加工神经环路，主要包含四个区域：外侧杏仁核(LA)、基底杏仁核(BA)、中央杏仁核(CA)以及插入性细胞集群(ITC)，同时杏仁核还与前额叶皮层的边缘下区皮层(IL)存在密切的交互关系，每一部分在情绪加工都扮演着不同的角色。每个神经元的膜电位服从生物神经元动态模型Shunting Model，即每个神经元的神经动力学满足公式(42)：

其中，-A代表神经元激活衰减率，-D代表神经元活动的下界，B代表活动的上界，S代表输入的刺激信号，S⁺代表兴奋性输入信号，S^-代表抑制性输入信号，I和J代表兴奋与抑制通路的基电位，d_t代表时间变化量，

代表神经元激活状态的变化量。同时本发明还用到另一动力学方程来模拟突触之间神经递质的传递过程，如公式(43)所示：

该方程表示ω_i以固定速率H激活到最大值K，Lf(x_k)ω_k是其中一个反馈抑制项，

代表突触电位变化量。基于这两种模型，本发明中以SPE通路的神经元为例，其神经动力学方程如公式(44)、(45)、(46)、(47)、(48)、(49)、(50)、(51)、(52)、(53)所示：

其中，

代表LA神经元激活变化微分量，

代表BA神经元激活变化微分量，

代表通路0中LA神经元激活量，

代表通路0中BA神经元激活量，

代表通路0中ITC神经元激活变化微分量，

代表通路0中ITC神经元激活量，

代表通路1中LA神经元激活量，x_g代表输出神经元的激活量，

代表通路1中BA神经元激活量，

代表通路1中ITC神经元激活变化微分量，

代表通路0中ITC神经元激活量，

代表通路1中IL神经元激活量，

代表通路2中IL神经元激活量，

代表输出神经元的激活变化量微分，

代表SPE通道中Ge神经元激活变化微分量，

代表SPE通道中Ge神经元激活变化微分量，

代表RPE通道中Ge神经元激活量，

代表SPE通道中Ge神经元激活变化微分量，

代表通道0中LA突触激活变化微分量，w_BA代表BA突触激活量。

该网络包含三个输入变量分别是状态预测误差(SPE)、奖励预测误差(RPE)以及平均累积奖励(AVR)。其中状态预测误差衡量的是步骤S10中机器人环境感知模型所产生的下一步状态预测信息与当前实际观测到的状态预测信息进行比较。假设下一步的状态服从高斯分布

而预测的状态分布为

采用二者相关熵来衡量，如公式(54)所示：

其中，

代表预测状态的均值，N_x代表状态的维度。

并采用sigmoid型函数对其激活，将值约束在(0，1)之间，形式如公式(55)所示：

其中，σ(SPE)代表采用sigmoid函数激活SPE信号，α代表尺度因子，β为平移系数。

相似地，奖励预测误差衡量的是当前接收到的奖励值与上一步预测的奖励值之间的差别，本发明采用评价函数的损失来定义，如公式(56)所示：

其中，Q′代表目标状态-动作值函数，X′代表下一步状态，u′代表下一步的动作。

同样，经过sigmoid型函数激活，形式如式(57)所示：

而平均累计奖励是用每次尝试过后所得到的累积奖励值来更新，本发明采用tanh型函数对该值进行激活，将原始活动奖励信号分为兴奋性的和抑制性的，具体如下公式(58)、(59)所示：

其中，ρ代表累积平均奖励平滑系数，

代表累积奖励。

根据上述输入信号，情绪加工网络会产生相应的情绪性响应x_g，本发明一个实施例中当x_g≥0时，仲裁结果是采用基于模型的决策通路，否则的话采用无模型决策通路进行决策。

基于上述的仲裁结果执行导向策略规划的路径。

本发明第二实施例的一种引入情绪调控机制的机器人运动决策系统，如图4所示，包括：预测状态值模块100、值函数学习模块200、模型决策模块300、无模型决策模块400、情绪响应模块500；

预测状态值模块100，配置为获取机器人t时刻动作变量u_t及状态值x_t，利用环境感知模型生成机器人t+1时刻的预测状态值x′_t+1；

值函数学习模块200，配置为获取t时刻即时奖励值r_t，将动作变量u_t、状态值x_t、即时奖励值r_t添加到经验库当中，利用经验库中批采样的数据更新状态-动作值函数网络Q(x,u)；

模型决策模块300，配置为基于环境感知预测模型获取t到t+H时间段内的预测轨迹，在t+H时刻策略网络输出策略π_θ的约束下计算所述预测轨迹在末端状态的状态-动作值函数Q(x_t+H,u)的局部最优解，对所述的局部最优解进行微分动态规划求解，获取基于模型的最优决策；

无模型决策模块400，配置为根据t时刻的状态x_t和策略神经网络输出策略π_θ，最小化t时刻状态-动作值函数Q(x_t,u)，获取无模型决策；

情绪响应模块500，配置为基于状态预测误差、奖励预测误差以及平均奖励值，通过情绪加工可计算模型生成情绪响应信号，根据所述情绪响应信号的阈值选择不同的决策方式。

所述技术领域的技术人员可以清楚的了解到，为描述的方便和简洁，上述描述的系统的具体的工作过程及有关说明，可以参考签署方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的引入情绪调控机制的机器人运动决策系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种存储装置，其中存储有多条程序，所述程序适用于由处理器加载并实现上述的引入情绪调控机制的机器人运动决策方法。

本发明第四实施例的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的引入情绪调控机制的机器人运动决策方法。

所述技术领域的技术人员可以清楚的了解到，未描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考签署方法实例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种引入情绪调控机制的机器人运动决策方法，其特征在于，该方法包括：

步骤S20，获取t时刻即时奖励值r_t，将动作变量u_t、状态值x_t、即时奖励值rt添加到经验库当中，利用经验库中批采样的数据更新状态-动作值函数网络Q(x，u)；

步骤S30，基于环境感知预测模型获取t到t+H时间段内的预测轨迹，在t+H时刻策略网络输出策略π_θ的约束下计算所述预测轨迹在末端状态的状态-动作值函数Q(x_t+H，u)的局部最优解，对所述的局部最优解进行微分动态规划求解，获取基于模型的最优决策；

步骤S40，根据t时刻的状态x_t和策略神经网络输出策略π_θ，最小化t时刻状态-动作值函数Q(x_t，u)，获取无模型决策；

其中，

所述的环境感知模型基于概率神经元网络构建，用于基于当前状态-动作信息预测下一时刻状态变化；

2.根据权利要求1所述的引入情绪调控机制的机器人运动决策方法，其特征在于，所述环境感知模型由N个结构相同的概率神经网络构成，其训练过程中，通过最小化每个网络输出与目标之间的负对数似然来进行所述环境感知模型的优化。

3.根据权利要求1所述的引入情绪调控机制的机器人运动决策方法，其特征在于，所述状态-动作值函数网络在训练过程中，采用多层感知器神经网络来拟合状态-动作值函数Q^π(x，u)，该函数为状态x和策略π下，未来长期的折扣回报之和，该函数需满足以下公式的更新原则：

Q^π(x_t，u_t)＝r(x_t，π(x_t))+γQ^π(x_t+1，π(x_t+1))

其中，r为t时刻所获得的即时奖励值，γ为折扣系数。

4.根据权利要求1所述的引入情绪调控机制的机器人运动决策方法，其特征在于，步骤S30“基于环境感知预测模型获取t到t+H时间段内的预测轨迹，在t+H时刻策略网络输出策略π_θ的约束下计算所述预测轨迹在末端状态的状态-动作值函数Q(x_t+H，u)的局部最优解，对所述的局部最优解进行微分动态规划求解，获取基于模型的最优决策”，其方法为：

采用无模型策略网络以及所述环境感知模型，初始化规划时间为H，利用环境感知模型下一步预测状态值x′_t+1递推生成状态转移轨迹；

基于无模型策略的引导，优化全局预测状态的状态-动作值函数Q(x_t+H，u)，求得局部最优值作为微分动态算法的终端约束值；

5.根据权利要求1所述的引入情绪调控机制的机器人运动决策方法，其特征在于，步骤S30“基于环境感知预测模型获取t到t+H时间段内的预测轨迹，在t+H时刻策略网络输出策略π_θ的约束下计算所述预测轨迹在末端状态的状态-动作值函数Q(x_t+H，u)的局部最优解，对所述的局部最优解进行微分动态规划求解，获取基于模型的最优决策”，其方法为：

6.根据权利要求1所述的引入情绪调控机制的机器人运动决策方法，其特征在于，步骤S40“根据t时刻的状态x_t和策略神经网络输出策略π_θ，最小化t时刻状态-动作值函数Q(x_t，u)，获取无模型决策”，其方法为：

基于当前状态，利用策略神经网络获取动作路径决策；其中所述策略神经网络采用多层感知器网络构建，并根据t时刻反馈的奖励，迭代学习实现最小化当前状态-动作值函数Q(x_t，u)，进而求得所对应的无模型决策。

7.根据权利要求1所述的引入情绪调控机制的机器人运动决策方法，其特征在于，步骤S50中所述情绪加工可计算模型为神经动力学模型，该模型中每个神经元的膜电位服从生物神经元动态模型，并采用预设的动力学方程模拟突触之间神经递质的传递过程。

8.根据权利要求1所述的引入情绪调控机制的机器人运动决策方法，其特征在于，步骤S50中所述情绪响应信号大于等于阈值时选择基于模型的最优决策，否则选择无模型决策；所述阈值为0。

9.一种引入情绪调控机制的机器人运动决策系统，其特征在于，该系统包括预测状态值模块、值函数学习模块、基于模型决策模块、无模型决策模块、情绪响应模块；

所述的值函数学习模块，配置为获取t时刻即时奖励值r_t，将动作变量u_t、状态值x_t、即时奖励值r_t添加到经验库当中，利用经验库中批采样的数据更新状态-动作值函数网络Q(x，u)；

所述的基于模型决策模块，配置为基于环境感知预测模型获取t到t+H时间段内的预测轨迹，在t+H时刻策略网络输出策略π_θ的约束下计算所述预测轨迹在末端状态的状态-动作值函数Q(x_t+H，u)的局部最优解，对所述的局部最优解进行微分动态规划求解，获取基于模型的最优决策；

所述的无模型决策模块，配置为根据t时刻的状态x_t和策略神经网络输出策略π_θ，最小化t时刻状态-动作值函数Q(x_t，u)，获取无模型决策；

所述的情绪响应模块，配置为基于状态预测误差、奖励预测误差以及平均奖励值，通过情绪加工可计算模型生成情绪响应信号，根据所述情绪响应信号的阈值选择路径决策；

10.一种存储装置，其中存储有多条程序，其特征在于，所述程序应用由处理器加载并执行以实现权利要求1-8任一项所述的引入情绪调控机制的机器人运动决策方法。

11.一种处理设置，包括处理器、存储装置；处理器，适用于执行各条程序；存储装置，适用于存储多条程序；其特征在于，所述程序适用于由处理器加载并执行以实现权利要求1-8任一项所述的引入情绪调控机制的机器人运动决策方法。