CN113139656B

CN113139656B - 一种类脑快慢双通路无人自主决策方法

Info

Publication number: CN113139656B
Application number: CN202110453835.2A
Authority: CN
Inventors: 刘洪波; 王乃尧; 王怡洋; 汪大峰; 江欣; 刘凯
Original assignee: Dalian Maritime University
Current assignee: Dalian Maritime University
Priority date: 2021-04-26
Filing date: 2021-04-26
Publication date: 2023-06-30
Anticipated expiration: 2041-04-26
Also published as: CN113139656A

Abstract

本发明公开了一种类脑快慢双通路无人自主决策方法，构建一种基于类脑多任务时序预测的能量对抗模型，其中包含一个生成网络和一个能量网络两部分；引入一种概率分布裁剪机制，用于轨迹潜在空间的高概率密度区域采样，进而设计有效的能量网络来确定最能代表未来的一条轨迹；本发明通过预训练的卷积神经网络模块识别视觉信息中目标并通过自编码器编码其空间特征。然后将每个目标特征按时间顺序输入行为快照长短记忆网络，用以建模目标的时间动态变化。利用时间动态排序机制，设定目标优先级，以甄别冗余信息，降低模型复杂度。本发明提出的类脑快慢双通路模型依靠串联与并联的简洁的类脑结构，可以在少量参数调整的低功耗环境下进行训练。

Description

一种类脑快慢双通路无人自主决策方法

技术领域

本发明涉及一种自主决策技术，特别是一种类脑快慢双通路无人自主决策方法。

背景技术

人工智能和脑科学作为当今国际科技前沿热点，结合神经生物学原理发展的脑启发智能算法应用崛起，催生了新一代类脑人工智能系统，类脑智能技术已经成为国家新一代人工智能发展规划、中国脑计划研究的核心内容，为智能型机器人、通用人工智能等战略性新兴产业带来巨大的发展机遇。为了从大量数据中学习一种“好”的表示，深度学习构建具有一定“深度”的模型，并通过算法让模型自动学习。深度网络各层级从底层特征、到中层特征、再到高层特征形成级联，完成特征转换，把原始数据变成为更高层次、更抽象的表示。这些学习到的表示可以替代人工设计的特征，从而避免“特征工程”。

目前，过于复杂的网络结构、过于深度的网络级联、过多的超参调整，不仅需要消耗通常难以企及的算力，而且需要大量的有效数据，训练出具有泛化能力的模型，且无人设备执行任务大多依靠既定好的控制程序或人为干预辅助控制，不具有认知性，缺乏自主决策的能力，难以同时适应多项不同的任务，需要耗费高昂的人力经济资源。到目前为止，实现无人设备的自主决策技术仍是亟待解决的难题。

发明内容

为解决现有技术存在的上述问题，本发明要提出一种结构简洁、训练功耗低、泛化能力强、能智能认知的类脑快慢双通路无人自主决策方法。

为了实现上述目的，本发明依据无人自主智能体的感知-识别-预测-决策内在特性，提出技术方案如下：一种类脑快慢双通路无人自主决策方法，包括以下步骤：

A、建立任务预处理池化注意力机制

首先利用无人设备上的摄像头采集视频观测信息，然后对获取到的观测信息通过卷积神经网络进行特征提取得到特征向量，然后对得到的特征向量进行维度转化操作，使用长短期记忆神经网络进行编码操作，得到隐藏潜向量后进行对等平衡池化操作得到池化向量。具体步骤如下：

A1、获取场景观测信息，对观测信息通过预训练的卷积神经网络进行特征提取得到目标增强特征向量C和目标检测特征向量D，如公式(1)所示：

C,D＝VGG(X_i,X_1:N\i；W_cd) (1)

其中，VGG(·)表示卷积神经网络，X_i和X_1:N\i表示相应的场景中的i个观测信息和除了第i个观测信息之外的观测信息，N表示观测信息的总个数，W_cd是卷积神经网络的权重。

A2、对得到的目标增强特征向量C和目标检测特征向量D经过置换函数进行维度转化操作，并输入到长短期记忆神经网络中，如公式(2)所示：

H(h₁),H(h₂)＝Permute(C,D) (2)

其中，Permute(·)是维度转换函数，H(h₁),H(h₂)分别是目标增强特征向量C和目标检测特征向量D经过转换后的目标增强特征转置向量和目标检测特征转置向量。

A3、将H(h₁),H(h₂)作为输入经过长短期记忆神经网络编码后，得到图像增强和目标检测隐藏潜向量，如公式(3)所示：

其中，

是编码后得到的图像增强和目标检测的隐藏潜向量，LSTM(·)是长短期记忆神经网络，cell是细胞状态。

A4、将得到的隐藏潜向量输入到对等平衡池化模块操作得到池化向量，如公式(4)所示：

其中，函数PM(·)是对等平衡池化操作，记为

P_i为池化向量。

B、建立慢通路类脑多任务时序能量对抗模型

建立慢通路类脑多任务时序能量对抗模型，用以对无人设备的轨迹预测和路径跟踪任务进行定义和策略规划。首先构建类脑多任务时序动作生成网络，拼接预处理池化向量实现特征表示，然后依据概率分布划分策略使不同任务的噪声映射到对应的空间，对不同任务进行解码拆分并依据互信息正则化网络衡量噪声本质，最后构造多任务能量评价网络评测模型性能。具体步骤如下：

B1、对观测信息通过一个固定的任务编码网络得到一个固定的向量e_it，然后把这些编码后的向量送入长短期记忆神经网络中，具体的操作过程如公式(5)所示：

其中，φ(·)是带有激活函数为线性整流函数的编码神经网络，W_ee为编码神经网络权重，W_encoder是长短期记忆神经网络的权重且是被同一时观测信息共享。h_e3,h_e4是轨迹预测和目标跟踪编码的潜在隐变量。

B2、采用概率分布划分策略，让不同任务的噪声映射到不同的噪声空间内，通过对噪声的高密度区域进行采样来执行具体动作，其具体操作如公式(6)所示：

其中，PDC(·)是噪声划分网络，

是生成网络函数，U_θ是能量函数。W_traj,W_trac分别为轨迹噪声权重和跟踪噪声权重。

B3、通过概率分布划分策略得到拼接向量，并将拼接向量送入任务解码模块中的长短期记忆神经网络，作为长短期记忆神经网络的输入，如公式(7)所示：

其中，z_traj,z_trac为轨迹噪声和跟踪噪声，Concat(·)为向量拼接函数，

为轨迹和跟踪拼接后的轨迹预测任务向量和目标跟踪任务向量。经过长短期记忆神经网络得到下一时刻的任务的隐变量，最终通过任务分类网络γ(·)，执行具体任务。W_act是任务分类网络的权重，a_i,a_i+1分别为轨迹和跟踪的预测行为结果。如公式(8)所示：

B4、为了让未来生成的执行动作a_i更加精确，引入一种互信息正则化网络，最大化输入X_i与输出a_i之间的互信息，衡量输入X_i与输出a_i之间本质上的相关性。具体的计算过程如公式(9)所示：

X是随机打乱顺序的输入X，T_φ(·)表示两个变量间的互信息，

是一种激活函数，它的值如公式(10)所示：

互信息正则化损失函数

作用于预测动作的输出，使未来动作更加精确。M为一次送入神经网络的批尺寸batch_size的大小。

B5、构建能量评价网络，并采用能量对抗损失函数训练类脑多任务时序能量对抗模型，能量评价网络构建如公式(11)所示：

S_eng=MLP(h_eng；W_en2).

其中，FC_R()是带有权重W_en1的任务编码网络。

是轨迹和跟踪任务动作编码后的轨迹预测编码向量和目标跟踪编码向量，/>

是所有时间任务内的聚合隐变量。MLP()是带有权重W_en2的任务打分网络。W_en是长短期记忆神经网络LSTM()的权重。S_eng是经过任务打分网络得到的能量打分值。

能量对抗损失函数构建如公式(12)所示：

其中，p(x)代表真实数据分布，q(z)代表正态分布且z是采样噪声，m是铰链损失函数即Hinge Loss function的超参数且m0。

上述多任务时序动作生成网络G和多任务能量评价网络U组成慢通路类脑多任务时序能量对抗模型。

C、建立快通路显著性决策模型

首先通过任务预处理池化注意力机制中目标检测模块识别目标，并通过自编码器编码观测目标的空间特征。然后将每个目标的空间特征按时间顺序输入行为快照长短期记忆神经网络，用以建模目标的时间动态变化，即各目标短期内在水平、竖直方向上的位移量。利用时间动态排序机制，设定目标优先级，以此甄别冗余信息，降低模型复杂度。同时构建一种“履带式”交互模式，实现信息流转传播。最后通过显著角色加权机制捕捉显著行为目标并以加权方式将所有目标隐状态逐级聚合，导入最终的快速行为策略模块。具体步骤如下：

C1、通过任务预处理池化注意力机制中目标检测模块输出的目标特征序列，并通过自编码器编码目标空间特征，如公式(13)所示：

Z_i＝ε(D_i；W_ae) (13)

其中，D_i为目标检测特征向量，W_ae为自编码器神经网络参数，ε(·)为自编码器，Z_i为目标空间特征。

C2、将长度为l的目标短时空间特征输入行为快照长短期记忆神经网络中，用以建模目标的时间动态变化，行为快照长短期记忆神经网络构建如下，如公式(14)所示：

p_t＝σ(W_izZ_it+W_ihh_t-1+b_i),

f_t＝σ(W_fzZ_it+W_fhh_t-1+b_f),

v_t＝σ(W_vzZ_it+W_vhh_t-1+b_v),

g_t＝σ(W_gzZ_it+W_ghh_t-1+b_g), (14)

m_t＝f_t⊙m_t-1+p_t⊙g_t,

n_t＝v_t⊙ψ(m_t).

其中，p_t为输入门，f_t为遗忘门，v_t为输出门，g_t为输入调节门，m_t为细胞状态，n_t为隐状态，σ(·)是Sigmoid激活函数，⊙是点乘运算符，ψ(·)是tanh激活函数，W是行为快照长短期记忆神经网络的权重，b是行为快照长短期记忆神经网络的偏置。

C3、对短期各目标位移总量进行排序，同时将对应的隐状态导入优先级判别层，将优先级别较低的目标视作冗余目标并将其移除，降低模型复杂度，如公式(15)所示：

其中，u_i,j，v_i,j分别表示目标i在j时刻的水平、竖直方向的位移量，K表示优化目标个数，{o₁,o₂···}是由大到小排序后的序列索引，索引后释放n_t序列。

C4、令

分别表示为正向交互顺序和逆向交互顺序，通过定义“履带式”交互模式，实现信息流转传播，如公式(16)所示：

C5、通过加权方式突出显著角色在快通路显著性决策模型中的作用，为显著角色赋以较高权重，而次要角色赋以较低权重，然后对所有目标隐状态逐级聚合，编码成强化学习中的环境隐变量s，如公式(17)所示：

e_ij＝χ(d_i,d_j). (17)

其中，χ为双层长短期记忆神经网络构建的显著函数。

C6、构建以无模型独立强化学习的无人设备快通路控制策略，如公式(18)所示：

π₁(a₁|s；θ₁)＝f(s) (18)

其中，f(·)为深度控制网络。

D、构建快慢双通路强化博弈机制

设置快慢双通路用于无人设备自主决策来主动跟踪目标，利用多巴胺效能强化反馈奖励的变化，最后构造偏分零和博弈奖励结构，让无人设备进行最终决策并形成行为策略。具体步骤如下：

D1、对于快、慢通路的无人设备agent，定义下标1表示短期快通路应激agent₁，下标2表示长期慢通路规划agent₂。博弈由元组{S,A,R,P}控制，其中S，A，R，P分别表示状态空间、动作空间、奖励函数和环境状态转移概率。两个agent获得奖励值分别为r_1,t＝R(s_t,a_1,t)，r_2,t＝R(s_t,a_2,t)。其中s_i∈S,a_i∈A,r_i∈R，短期策略π₁(a_1,t|s_t)是基于当前环境状态s_t，输出瞬时追踪行为a_1,t的价值集合。依靠无模型独立强化学习来学习π₁，如公式(19)所示：

π₁(a_1,t|s_t；θ₁)＝f(s_t) (19)

重要的是，长期规划π₂(a_2,t|{_st-n→s_t},{a_t-n→a_t-1},{r_t-n→r_t-1})是基于t-n时刻到t时刻内的环境交互信息，输出‘深思’后的追踪行为a_2,t的价值集合。然后长期规划π₂是参数为θ₂的长短期记忆神经网络，如公式(20)所示：

D2、构造中脑多巴胺神经元模型携带时序差分学习的奖励预测误差信号反馈奖励的变化，加入一个对正向和负向误差迭代的不对称性，随着多巴胺神经递质浓度不同，对误差的反馈也不同，如公式(21)所示：。

其中，

是正向误差迭代系数，/>

是负向误差迭代系数。

D3、构造用于无人设备主动目标跟踪任务的偏分零和奖励结构，其奖励函数包含一个常数和一个误差惩罚项，目标的当前时刻位置和下一时刻位置分别用(ρ_t,σ_t)和(ρ_t+1,σ_t+1)表示。其中，ρ是目标到无人设备的直线距离，κ是目标到无人设备视角中心线的相对角度，如公式(22)所示：。

其中A＞0是奖励值上限，ζ＞0和ξ＞0分别是追踪距离和追踪角度的平衡系数。ρ_max是到无人设备的最大可观察距离。κ_max是摄像头最大观察视角的0.5倍。

当短期策略与长期规划的最优行为一致时，a_t＝a_1,t＝a_2,t。短期策略agent₁的奖励值r_1,t＝r_t。但是长期规划的奖励值如公式(23)所示：

其中，

是长期规划中预测的第t+i时刻的奖励值，ι是预测的时间跨度。

当短期策略与长期规划的最优行为不一致时，a_t＝max{V₁(a_1,t),V₂(a_2,t)}，其中V是评价所有行为的价值函数。此时若V₁(a_1,t)＞V₂(a_2,t)表示短期策略占据优势，最终决策a_t＝a_1,t，短期策略的奖励值r_1,t＝r_t，长期规划的奖励值如公式(24)所示：

其中μ和ν是控制惩罚项的可调参数，Γ是评估长期规划中预测的下一时刻环境状态与真实状态差距的距离函数。

反之，当V₁(a_1,t)＜V₂(a_2,t)表示长期规划占据上风。

与现有技术相比，本发明具有以下有益效果：

1、本发明采用研究人脑快慢双通路，发现映射方法，构建快慢双通路强化学习架构，合理地设计长--短期决策博弈策略，实现快慢通路各自有效强化机制，构造强化学习的奖励函数及其结构，实施通路间动态博弈，最终决策选择中两个通路既相对独立、又相互增强，实现整个类脑快慢双通路模型在迭代、回馈中有效形成直觉习惯，从而提升自主认知性能。增强任务级元强化学习，模拟额叶皮层为中心的循环网络实现学习内环，而这种内环算法则由多巴胺效能驱动的学习外环塑造而成。有效地进行人工智能模型与人脑认知机制之间的映射，真正将脑与认知中快慢双通路交互机制和原理启发式地构建所需的自主智能系统，使自主智能系统实现智能认知。

2、本发明采依据脑与认知和视觉信息处理机制，构建一种基于类脑多任务时序预测的能量对抗模型，其中包含一个生成网络和一个能量网络两部分，在生成网络中，利用f散度的局部变分推断去最大化输入与生成器的输出之间的互信息来优化序列熵，以达到能够覆盖所有轨迹分布模式，从而确保模型能够生成候选轨迹分布上的多样性。然后，引入一种概率分布裁剪机制，用于轨迹潜在空间的高概率密度区域采样，进而设计有效的能量网络来确定最能代表未来的一条轨迹，形成依由上到下的注意机制突出多样性分布意义上“百里挑一”功能的认知智能慢通路，尽可能减少自主设备搭载平台的能源消耗，同时又能完成对潜在目标感知增强，进而准确地识别、轨迹预测以及目标跟踪。将脑与认知机制中既分工又协作而且简洁地实现多任务能力实施到慢通路中，能真正的学习到任务的问题本质，从而在少量学习后变通的适应不同的任务，模型泛化能力强。

3、本发明构建的快通路以作出快速行为决策为主要目的，研究由独立目标行为编码，突出角色目标在行为决策中的关键作用。研究通过预训练的卷积神经网络模块识别视觉信息中目标并通过自编码器编码其空间特征。然后将每个目标特征按时间顺序输入行为快照长短记忆网络，用以建模目标的时间动态变化。利用时间动态排序机制，设定目标优先级，以甄别冗余信息，降低模型复杂度。同时构建一种“履带式”交互模式，实现信息流转传播。最后通过显著角色加权机制捕捉显著行为目标并以加权方式将所有目标隐状态逐级聚合，导入最终的快速行为策略模块。快通路依由下到上的注意机制实施快闪躲避灾害、快速接近目标，相较于传统复杂的深度学习网络以及海量参数调整的训练过程，本发明提出的类脑快慢双通路模型依靠串联与并联的简洁的类脑结构，可以在少量参数调整的低功耗环境下进行训练。

附图说明

本发明共有附图4张，其中：

图1是观测信息预处理增强与识别图像。

图2是类脑快慢双通路图。

图3是目标的轨迹预测与路径规划图。

图4是本发明的流程图。

具体实施方式

下面结合附图对本发明进行进一步地描述。按照图4所示的流程对类脑快慢双通路无人自主决策技术进行介绍，首先用图像采集设备对所需观测目标进行视觉观测信息采集，如图1所示，将观测信息依靠池化机制进行预处理，然后按照图2所示，针对观测信息编码的不同任务采取类脑快慢双通路进行处理。然后按照本发明的步骤B、C得到快慢不同的行为策略，如图3所示指导进行目标的轨迹预测与路径规划。快慢通路通过偏分零和博弈进行自主决策，针对不同任务选择不同的行为以最大化奖励，然后反向传播，由多巴胺神经递质调控实现效能强化迭代更新行为，实现无人设备的多任务自主决策。

本发明不局限于本实施例，任何在本发明披露的技术范围内的等同构思或者改变，均列为本发明的保护范围。

Claims

1.一种类脑快慢双通路无人自主决策方法，其特征在于：包括以下步骤：

A、建立任务预处理池化注意力机制

首先利用无人设备上的摄像头采集视频观测信息，然后对获取到的观测信息通过卷积神经网络进行特征提取得到特征向量，然后对得到的特征向量进行维度转化操作，使用长短期记忆神经网络进行编码操作，得到隐藏潜向量后进行对等平衡池化操作得到池化向量；具体步骤如下：

C,D＝VGG(X_i,X_1:N\i；W_cd) (1)

其中，VGG(·)表示卷积神经网络，X_i和X_1:N\i表示相应的场景中的i个观测信息和除了第i个观测信息之外的观测信息，N表示观测信息的总个数，W_cd是卷积神经网络的权重；

H(h₁),H(h₂)＝Permute(C,D) (2)

其中，Permute(·)是维度转换函数，H(h₁),H(h₂)分别是目标增强特征向量C和目标检测特征向量D经过转换后的目标增强特征转置向量和目标检测特征转置向量；

其中，

是编码后得到的图像增强和目标检测的隐藏潜向量，LSTM(·)是长短期记忆神经网络，cell是细胞状态；

其中，函数PM(·)是对等平衡池化操作，记为

P_i为池化向量；

B、建立慢通路类脑多任务时序能量对抗模型

建立慢通路类脑多任务时序能量对抗模型，用以对无人设备的轨迹预测和路径跟踪任务进行定义和策略规划；首先构建类脑多任务时序动作生成网络，拼接预处理池化向量实现特征表示，然后依据概率分布划分策略使不同任务的噪声映射到对应的空间，对不同任务进行解码拆分并依据互信息正则化网络衡量噪声本质，最后构造多任务能量评价网络评测模型性能；具体步骤如下：

B1、对观测信息通过一个固定的任务编码网络得到一个固定的向量

然后把这些编码后的向量送入长短期记忆神经网络中，具体的操作过程如公式(5)所示：

其中，φ(·)是带有激活函数为线性整流函数的编码神经网络，W_ee为编码神经网络权重，W_encoder是长短期记忆神经网络的权重且是被同一时观测信息共享；h_e3,h_e4是轨迹预测和目标跟踪编码的潜在隐变量；

其中，PDC(·)是噪声划分网络，

是生成网络函数，U_θ是能量函数；W_traj,W_trac分别为轨迹噪声权重和跟踪噪声权重；

为轨迹和跟踪拼接后的轨迹预测任务向量和目标跟踪任务向量；经过长短期记忆神经网络得到下一时刻的任务的隐变量，最终通过任务分类网络γ(·)，执行具体任务；W_act是任务分类网络的权重，a_i,a_i+1分别为轨迹和跟踪的预测行为结果；如公式(8)所示：

B4、为了让未来生成的执行动作a_i更加精确，引入一种互信息正则化网络，最大化输入X_i与输出a_i之间的互信息，衡量输入X_i与输出a_i之间本质上的相关性；具体的计算过程如公式(9)所示：

X是随机打乱顺序的输入X，T_φ(·)表示两个变量间的互信息，

是一种激活函数，它的值如公式(10)所示：

互信息正则化损失函数

作用于预测动作的输出，使未来动作更加精确；M为一次送入神经网络的批尺寸batch_size的大小；

其中，FC_R(·)是带有权重W_en1的任务编码网络；

是所有时间任务内的聚合隐变量；MLP(·)是带有权重W_en2的任务打分网络；W_en是长短期记忆神经网络LSTM()的权重；S_eng是经过任务打分网络得到的能量打分值；

能量对抗损失函数构建如公式(12)所示：

其中，p(x)代表真实数据分布，q(z)代表正态分布且z是采样噪声，m是铰链损失函数即Hinge Loss function的超参数且m＞0；

上述多任务时序动作生成网络G和多任务能量评价网络U组成慢通路类脑多任务时序能量对抗模型；

C、建立快通路显著性决策模型

首先通过任务预处理池化注意力机制中目标检测模块识别目标，并通过自编码器编码观测目标的空间特征；然后将每个目标的空间特征按时间顺序输入行为快照长短期记忆神经网络，用以建模目标的时间动态变化，即各目标短期内在水平、竖直方向上的位移量；利用时间动态排序机制，设定目标优先级，以此甄别冗余信息，降低模型复杂度；同时构建一种“履带式”交互模式，实现信息流转传播；最后通过显著角色加权机制捕捉显著行为目标并以加权方式将所有目标隐状态逐级聚合，导入最终的快速行为策略模块；具体步骤如下：

Z_i＝ε(D_i；W_ae) (13)

其中，D_i为目标检测特征向量，W_ae为自编码器神经网络参数，ε(·)为自编码器，Z_i为目标空间特征；

其中，p_t为输入门，f_t为遗忘门，v_t为输出门，g_t为输入调节门，m_t为细胞状态，n_t为隐状态，σ(·)是Sigmoid激活函数，⊙是点乘运算符，ψ(·)是tanh激活函数，W是行为快照长短期记忆神经网络的权重，b是行为快照长短期记忆神经网络的偏置；

其中，u_i,j，v_i,j分别表示目标i在j时刻的水平、竖直方向的位移量，K表示优化目标个数，{o₁,o₂…}是由大到小排序后的序列索引，索引后释放n_t序列；

C4、令

和/>

e_ij＝χ(d_i,d_j). (17)

其中，χ为双层长短期记忆神经网络构建的显著函数；

π₁(a₁|s；θ₁)＝f(s) (18)

其中，f(·)为深度控制网络；

D、构建快慢双通路强化博弈机制

设置快慢双通路用于无人设备自主决策来主动跟踪目标，利用多巴胺效能强化反馈奖励的变化，最后构造偏分零和博弈奖励结构，让无人设备进行最终决策并形成行为策略；具体步骤如下：

D1、对于快、慢通路的无人设备agent，定义下标1表示短期快通路应激agent₁，下标2表示长期慢通路规划agent₂；博弈由元组{S,A,R,P}控制，其中S，A，R，P分别表示状态空间、动作空间、奖励函数和环境状态转移概率；两个agent获得奖励值分别为r_1,t＝R(s_t,a_1,t)，r_2,t＝R(s_t,a_2,t)；其中s_i∈S,a_i∈A,r_i∈R，短期策略π₁(a_1,t|s_t)是基于当前环境状态s_t，输出瞬时追踪行为a_1,t的价值集合；依靠无模型独立强化学习来学习π₁，如公式(19)所示：

π₁(a_1,t|s_t；θ₁)＝f(s_t) (19)

重要的是，长期规划π₂(a_2,t|{s_t-n→s_t},{a_t-n→a_t-1},{r_t-n→r_t-1})是基于t-n时刻到t时刻内的环境交互信息，输出‘深思’后的追踪行为a_2,t的价值集合；然后长期规划π₂是参数为θ₂的长短期记忆神经网络，如公式(20)所示：

D2、构造中脑多巴胺神经元模型携带时序差分学习的奖励预测误差信号反馈奖励的变化，加入一个对正向和负向误差迭代的不对称性，随着多巴胺神经递质浓度不同，对误差的反馈也不同，如公式(21)所示：

D_i(t)←D_i(t-1)+λ_i ⁺r_t,r_t＞0,

其中，λ_i ⁺是正向误差迭代系数，λ_i ^-是负向误差迭代系数；

D3、构造用于无人设备主动目标跟踪任务的偏分零和奖励结构，其奖励函数包含一个常数和一个误差惩罚项，目标的当前时刻位置和下一时刻位置分别用(ρ_t,σ_t)和(ρ_t+1,σ_t+1)表示；其中，ρ是目标到无人设备的直线距离，κ是目标到无人设备视角中心线的相对角度，如公式(22)所示：

其中A＞0是奖励值上限，ζ＞0和ξ＞0分别是追踪距离和追踪角度的平衡系数；ρ_max是到无人设备的最大可观察距离；κ_max是摄像头最大观察视角的0.5倍；

当短期策略与长期规划的最优行为一致时，a_t＝a_1,t＝a_2,t；短期策略agent₁的奖励值r_1,t＝r_t；但是长期规划的奖励值如公式(23)所示：

其中，

是长期规划中预测的第t+i时刻的奖励值，ι是预测的时间跨度；

当短期策略与长期规划的最优行为不一致时，a_t＝max{V₁(a_1,t),V₂(a_2,t)}，其中V是评价所有行为的价值函数；此时若V₁(a_1,t)＞V₂(a_2,t)表示短期策略占据优势，最终决策a_t＝a_1,t，短期策略的奖励值r_1,t＝r_t，长期规划的奖励值如公式(24)所示：

其中μ和ν是控制惩罚项的可调参数，Γ是评估长期规划中预测的下一时刻环境状态与真实状态差距的距离函数；

反之，当V₁(a_1,t)＜V₂(a_2,t)表示长期规划占据上风。