CN113139656B - 一种类脑快慢双通路无人自主决策方法 - Google Patents

一种类脑快慢双通路无人自主决策方法 Download PDF

Info

Publication number
CN113139656B
CN113139656B CN202110453835.2A CN202110453835A CN113139656B CN 113139656 B CN113139656 B CN 113139656B CN 202110453835 A CN202110453835 A CN 202110453835A CN 113139656 B CN113139656 B CN 113139656B
Authority
CN
China
Prior art keywords
target
term
long
neural network
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110453835.2A
Other languages
English (en)
Other versions
CN113139656A (zh
Inventor
刘洪波
王乃尧
王怡洋
汪大峰
江欣
刘凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Maritime University
Original Assignee
Dalian Maritime University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Maritime University filed Critical Dalian Maritime University
Priority to CN202110453835.2A priority Critical patent/CN113139656B/zh
Publication of CN113139656A publication Critical patent/CN113139656A/zh
Application granted granted Critical
Publication of CN113139656B publication Critical patent/CN113139656B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Abstract

本发明公开了一种类脑快慢双通路无人自主决策方法,构建一种基于类脑多任务时序预测的能量对抗模型,其中包含一个生成网络和一个能量网络两部分;引入一种概率分布裁剪机制,用于轨迹潜在空间的高概率密度区域采样,进而设计有效的能量网络来确定最能代表未来的一条轨迹;本发明通过预训练的卷积神经网络模块识别视觉信息中目标并通过自编码器编码其空间特征。然后将每个目标特征按时间顺序输入行为快照长短记忆网络,用以建模目标的时间动态变化。利用时间动态排序机制,设定目标优先级,以甄别冗余信息,降低模型复杂度。本发明提出的类脑快慢双通路模型依靠串联与并联的简洁的类脑结构,可以在少量参数调整的低功耗环境下进行训练。

Description

一种类脑快慢双通路无人自主决策方法
技术领域
本发明涉及一种自主决策技术,特别是一种类脑快慢双通路无人自主决策方法。
背景技术
人工智能和脑科学作为当今国际科技前沿热点,结合神经生物学原理发展的脑启发智能算法应用崛起,催生了新一代类脑人工智能系统,类脑智能技术已经成为国家新一代人工智能发展规划、中国脑计划研究的核心内容,为智能型机器人、通用人工智能等战略性新兴产业带来巨大的发展机遇。为了从大量数据中学习一种“好”的表示,深度学习构建具有一定“深度”的模型,并通过算法让模型自动学习。深度网络各层级从底层特征、到中层特征、再到高层特征形成级联,完成特征转换,把原始数据变成为更高层次、更抽象的表示。这些学习到的表示可以替代人工设计的特征,从而避免“特征工程”。
目前,过于复杂的网络结构、过于深度的网络级联、过多的超参调整,不仅需要消耗通常难以企及的算力,而且需要大量的有效数据,训练出具有泛化能力的模型,且无人设备执行任务大多依靠既定好的控制程序或人为干预辅助控制,不具有认知性,缺乏自主决策的能力,难以同时适应多项不同的任务,需要耗费高昂的人力经济资源。到目前为止,实现无人设备的自主决策技术仍是亟待解决的难题。
发明内容
为解决现有技术存在的上述问题,本发明要提出一种结构简洁、训练功耗低、泛化能力强、能智能认知的类脑快慢双通路无人自主决策方法。
为了实现上述目的,本发明依据无人自主智能体的感知-识别-预测-决策内在特性,提出技术方案如下:一种类脑快慢双通路无人自主决策方法,包括以下步骤:
A、建立任务预处理池化注意力机制
首先利用无人设备上的摄像头采集视频观测信息,然后对获取到的观测信息通过卷积神经网络进行特征提取得到特征向量,然后对得到的特征向量进行维度转化操作,使用长短期记忆神经网络进行编码操作,得到隐藏潜向量后进行对等平衡池化操作得到池化向量。具体步骤如下:
A1、获取场景观测信息,对观测信息通过预训练的卷积神经网络进行特征提取得到目标增强特征向量C和目标检测特征向量D,如公式(1)所示:
C,D=VGG(Xi,X1:N\i;Wcd) (1)
其中,VGG(·)表示卷积神经网络,Xi和X1:N\i表示相应的场景中的i个观测信息和除了第i个观测信息之外的观测信息,N表示观测信息的总个数,Wcd是卷积神经网络的权重。
A2、对得到的目标增强特征向量C和目标检测特征向量D经过置换函数进行维度转化操作,并输入到长短期记忆神经网络中,如公式(2)所示:
H(h1),H(h2)=Permute(C,D) (2)
其中,Permute(·)是维度转换函数,H(h1),H(h2)分别是目标增强特征向量C和目标检测特征向量D经过转换后的目标增强特征转置向量和目标检测特征转置向量。
A3、将H(h1),H(h2)作为输入经过长短期记忆神经网络编码后,得到图像增强和目标检测隐藏潜向量,如公式(3)所示:
Figure BDA0003039846970000021
其中,
Figure BDA0003039846970000022
是编码后得到的图像增强和目标检测的隐藏潜向量,LSTM(·)是长短期记忆神经网络,cell是细胞状态。
A4、将得到的隐藏潜向量输入到对等平衡池化模块操作得到池化向量,如公式(4)所示:
Figure BDA0003039846970000031
其中,函数PM(·)是对等平衡池化操作,记为
Figure BDA0003039846970000032
Pi为池化向量。
B、建立慢通路类脑多任务时序能量对抗模型
建立慢通路类脑多任务时序能量对抗模型,用以对无人设备的轨迹预测和路径跟踪任务进行定义和策略规划。首先构建类脑多任务时序动作生成网络,拼接预处理池化向量实现特征表示,然后依据概率分布划分策略使不同任务的噪声映射到对应的空间,对不同任务进行解码拆分并依据互信息正则化网络衡量噪声本质,最后构造多任务能量评价网络评测模型性能。具体步骤如下:
B1、对观测信息通过一个固定的任务编码网络得到一个固定的向量eit,然后把这些编码后的向量送入长短期记忆神经网络中,具体的操作过程如公式(5)所示:
Figure BDA0003039846970000033
Figure BDA0003039846970000034
其中,φ(·)是带有激活函数为线性整流函数的编码神经网络,Wee为编码神经网络权重,Wencoder是长短期记忆神经网络的权重且是被同一时观测信息共享。he3,he4是轨迹预测和目标跟踪编码的潜在隐变量。
B2、采用概率分布划分策略,让不同任务的噪声映射到不同的噪声空间内,通过对噪声的高密度区域进行采样来执行具体动作,其具体操作如公式(6)所示:
Figure BDA0003039846970000035
其中,PDC(·)是噪声划分网络,
Figure BDA0003039846970000036
是生成网络函数,Uθ是能量函数。Wtraj,Wtrac分别为轨迹噪声权重和跟踪噪声权重。
B3、通过概率分布划分策略得到拼接向量,并将拼接向量送入任务解码模块中的长短期记忆神经网络,作为长短期记忆神经网络的输入,如公式(7)所示:
Figure BDA0003039846970000041
Figure BDA0003039846970000042
其中,ztraj,ztrac为轨迹噪声和跟踪噪声,Concat(·)为向量拼接函数,
Figure BDA0003039846970000043
为轨迹和跟踪拼接后的轨迹预测任务向量和目标跟踪任务向量。经过长短期记忆神经网络得到下一时刻的任务的隐变量,最终通过任务分类网络γ(·),执行具体任务。Wact是任务分类网络的权重,ai,ai+1分别为轨迹和跟踪的预测行为结果。如公式(8)所示:
Figure BDA0003039846970000044
Figure BDA0003039846970000045
Figure BDA0003039846970000046
B4、为了让未来生成的执行动作ai更加精确,引入一种互信息正则化网络,最大化输入Xi与输出ai之间的互信息,衡量输入Xi与输出ai之间本质上的相关性。具体的计算过程如公式(9)所示:
Figure BDA0003039846970000047
X是随机打乱顺序的输入X,Tφ(·)表示两个变量间的互信息,
Figure BDA00030398469700000410
是一种激活函数,它的值如公式(10)所示:
Figure BDA0003039846970000048
互信息正则化损失函数
Figure BDA0003039846970000049
作用于预测动作的输出,使未来动作更加精确。M为一次送入神经网络的批尺寸batchsize的大小。
B5、构建能量评价网络,并采用能量对抗损失函数训练类脑多任务时序能量对抗模型,能量评价网络构建如公式(11)所示:
Figure BDA0003039846970000051
Figure BDA0003039846970000052
Seng=MLP(heng;Wen2).
其中,FCR()是带有权重Wen1的任务编码网络。
Figure BDA0003039846970000053
是轨迹和跟踪任务动作编码后的轨迹预测编码向量和目标跟踪编码向量,/>
Figure BDA0003039846970000054
是所有时间任务内的聚合隐变量。MLP()是带有权重Wen2的任务打分网络。Wen是长短期记忆神经网络LSTM()的权重。Seng是经过任务打分网络得到的能量打分值。
能量对抗损失函数构建如公式(12)所示:
Figure BDA0003039846970000055
其中,p(x)代表真实数据分布,q(z)代表正态分布且z是采样噪声,m是铰链损失函数即Hinge Loss function的超参数且m0。
上述多任务时序动作生成网络G和多任务能量评价网络U组成慢通路类脑多任务时序能量对抗模型。
C、建立快通路显著性决策模型
首先通过任务预处理池化注意力机制中目标检测模块识别目标,并通过自编码器编码观测目标的空间特征。然后将每个目标的空间特征按时间顺序输入行为快照长短期记忆神经网络,用以建模目标的时间动态变化,即各目标短期内在水平、竖直方向上的位移量。利用时间动态排序机制,设定目标优先级,以此甄别冗余信息,降低模型复杂度。同时构建一种“履带式”交互模式,实现信息流转传播。最后通过显著角色加权机制捕捉显著行为目标并以加权方式将所有目标隐状态逐级聚合,导入最终的快速行为策略模块。具体步骤如下:
C1、通过任务预处理池化注意力机制中目标检测模块输出的目标特征序列,并通过自编码器编码目标空间特征,如公式(13)所示:
Zi=ε(Di;Wae) (13)
其中,Di为目标检测特征向量,Wae为自编码器神经网络参数,ε(·)为自编码器,Zi为目标空间特征。
C2、将长度为l的目标短时空间特征输入行为快照长短期记忆神经网络中,用以建模目标的时间动态变化,行为快照长短期记忆神经网络构建如下,如公式(14)所示:
pt=σ(WizZit+Wihht-1+bi),
ft=σ(WfzZit+Wfhht-1+bf),
vt=σ(WvzZit+Wvhht-1+bv),
gt=σ(WgzZit+Wghht-1+bg), (14)
mt=ft⊙mt-1+pt⊙gt,
nt=vt⊙ψ(mt).
其中,pt为输入门,ft为遗忘门,vt为输出门,gt为输入调节门,mt为细胞状态,nt为隐状态,σ(·)是Sigmoid激活函数,⊙是点乘运算符,ψ(·)是tanh激活函数,W是行为快照长短期记忆神经网络的权重,b是行为快照长短期记忆神经网络的偏置。
C3、对短期各目标位移总量进行排序,同时将对应的隐状态导入优先级判别层,将优先级别较低的目标视作冗余目标并将其移除,降低模型复杂度,如公式(15)所示:
Figure BDA0003039846970000061
Figure BDA0003039846970000062
Figure BDA0003039846970000063
其中,ui,j,vi,j分别表示目标i在j时刻的水平、竖直方向的位移量,K表示优化目标个数,{o1,o2···}是由大到小排序后的序列索引,索引后释放nt序列。
C4、令
Figure BDA0003039846970000064
分别表示为正向交互顺序和逆向交互顺序,通过定义“履带式”交互模式,实现信息流转传播,如公式(16)所示:
Figure BDA0003039846970000071
Figure BDA0003039846970000072
Figure BDA0003039846970000073
C5、通过加权方式突出显著角色在快通路显著性决策模型中的作用,为显著角色赋以较高权重,而次要角色赋以较低权重,然后对所有目标隐状态逐级聚合,编码成强化学习中的环境隐变量s,如公式(17)所示:
Figure BDA0003039846970000074
eij=χ(di,dj). (17)
其中,χ为双层长短期记忆神经网络构建的显著函数。
C6、构建以无模型独立强化学习的无人设备快通路控制策略,如公式(18)所示:
π1(a1|s;θ1)=f(s) (18)
其中,f(·)为深度控制网络。
D、构建快慢双通路强化博弈机制
设置快慢双通路用于无人设备自主决策来主动跟踪目标,利用多巴胺效能强化反馈奖励的变化,最后构造偏分零和博弈奖励结构,让无人设备进行最终决策并形成行为策略。具体步骤如下:
D1、对于快、慢通路的无人设备agent,定义下标1表示短期快通路应激agent1,下标2表示长期慢通路规划agent2。博弈由元组{S,A,R,P}控制,其中S,A,R,P分别表示状态空间、动作空间、奖励函数和环境状态转移概率。两个agent获得奖励值分别为r1,t=R(st,a1,t),r2,t=R(st,a2,t)。其中si∈S,ai∈A,ri∈R,短期策略π1(a1,t|st)是基于当前环境状态st,输出瞬时追踪行为a1,t的价值集合。依靠无模型独立强化学习来学习π1,如公式(19)所示:
π1(a1,t|st;θ1)=f(st) (19)
重要的是,长期规划π2(a2,t|{st-n→st},{at-n→at-1},{rt-n→rt-1})是基于t-n时刻到t时刻内的环境交互信息,输出‘深思’后的追踪行为a2,t的价值集合。然后长期规划π2是参数为θ2的长短期记忆神经网络,如公式(20)所示:
Figure BDA0003039846970000081
D2、构造中脑多巴胺神经元模型携带时序差分学习的奖励预测误差信号反馈奖励的变化,加入一个对正向和负向误差迭代的不对称性,随着多巴胺神经递质浓度不同,对误差的反馈也不同,如公式(21)所示:。
Figure BDA0003039846970000082
Figure BDA0003039846970000083
其中,
Figure BDA0003039846970000084
是正向误差迭代系数,/>
Figure BDA0003039846970000085
是负向误差迭代系数。
D3、构造用于无人设备主动目标跟踪任务的偏分零和奖励结构,其奖励函数包含一个常数和一个误差惩罚项,目标的当前时刻位置和下一时刻位置分别用(ρtt)和(ρt+1t+1)表示。其中,ρ是目标到无人设备的直线距离,κ是目标到无人设备视角中心线的相对角度,如公式(22)所示:。
Figure BDA0003039846970000086
其中A>0是奖励值上限,ζ>0和ξ>0分别是追踪距离和追踪角度的平衡系数。ρmax是到无人设备的最大可观察距离。κmax是摄像头最大观察视角的0.5倍。
当短期策略与长期规划的最优行为一致时,at=a1,t=a2,t。短期策略agent1的奖励值r1,t=rt。但是长期规划的奖励值如公式(23)所示:
Figure BDA0003039846970000087
其中,
Figure BDA0003039846970000088
是长期规划中预测的第t+i时刻的奖励值,ι是预测的时间跨度。
当短期策略与长期规划的最优行为不一致时,at=max{V1(a1,t),V2(a2,t)},其中V是评价所有行为的价值函数。此时若V1(a1,t)>V2(a2,t)表示短期策略占据优势,最终决策at=a1,t,短期策略的奖励值r1,t=rt,长期规划的奖励值如公式(24)所示:
Figure BDA0003039846970000091
其中μ和ν是控制惩罚项的可调参数,Γ是评估长期规划中预测的下一时刻环境状态与真实状态差距的距离函数。
反之,当V1(a1,t)<V2(a2,t)表示长期规划占据上风。
与现有技术相比,本发明具有以下有益效果:
1、本发明采用研究人脑快慢双通路,发现映射方法,构建快慢双通路强化学习架构,合理地设计长--短期决策博弈策略,实现快慢通路各自有效强化机制,构造强化学习的奖励函数及其结构,实施通路间动态博弈,最终决策选择中两个通路既相对独立、又相互增强,实现整个类脑快慢双通路模型在迭代、回馈中有效形成直觉习惯,从而提升自主认知性能。增强任务级元强化学习,模拟额叶皮层为中心的循环网络实现学习内环,而这种内环算法则由多巴胺效能驱动的学习外环塑造而成。有效地进行人工智能模型与人脑认知机制之间的映射,真正将脑与认知中快慢双通路交互机制和原理启发式地构建所需的自主智能系统,使自主智能系统实现智能认知。
2、本发明采依据脑与认知和视觉信息处理机制,构建一种基于类脑多任务时序预测的能量对抗模型,其中包含一个生成网络和一个能量网络两部分,在生成网络中,利用f散度的局部变分推断去最大化输入与生成器的输出之间的互信息来优化序列熵,以达到能够覆盖所有轨迹分布模式,从而确保模型能够生成候选轨迹分布上的多样性。然后,引入一种概率分布裁剪机制,用于轨迹潜在空间的高概率密度区域采样,进而设计有效的能量网络来确定最能代表未来的一条轨迹,形成依由上到下的注意机制突出多样性分布意义上“百里挑一”功能的认知智能慢通路,尽可能减少自主设备搭载平台的能源消耗,同时又能完成对潜在目标感知增强,进而准确地识别、轨迹预测以及目标跟踪。将脑与认知机制中既分工又协作而且简洁地实现多任务能力实施到慢通路中,能真正的学习到任务的问题本质,从而在少量学习后变通的适应不同的任务,模型泛化能力强。
3、本发明构建的快通路以作出快速行为决策为主要目的,研究由独立目标行为编码,突出角色目标在行为决策中的关键作用。研究通过预训练的卷积神经网络模块识别视觉信息中目标并通过自编码器编码其空间特征。然后将每个目标特征按时间顺序输入行为快照长短记忆网络,用以建模目标的时间动态变化。利用时间动态排序机制,设定目标优先级,以甄别冗余信息,降低模型复杂度。同时构建一种“履带式”交互模式,实现信息流转传播。最后通过显著角色加权机制捕捉显著行为目标并以加权方式将所有目标隐状态逐级聚合,导入最终的快速行为策略模块。快通路依由下到上的注意机制实施快闪躲避灾害、快速接近目标,相较于传统复杂的深度学习网络以及海量参数调整的训练过程,本发明提出的类脑快慢双通路模型依靠串联与并联的简洁的类脑结构,可以在少量参数调整的低功耗环境下进行训练。
附图说明
本发明共有附图4张,其中:
图1是观测信息预处理增强与识别图像。
图2是类脑快慢双通路图。
图3是目标的轨迹预测与路径规划图。
图4是本发明的流程图。
具体实施方式
下面结合附图对本发明进行进一步地描述。按照图4所示的流程对类脑快慢双通路无人自主决策技术进行介绍,首先用图像采集设备对所需观测目标进行视觉观测信息采集,如图1所示,将观测信息依靠池化机制进行预处理,然后按照图2所示,针对观测信息编码的不同任务采取类脑快慢双通路进行处理。然后按照本发明的步骤B、C得到快慢不同的行为策略,如图3所示指导进行目标的轨迹预测与路径规划。快慢通路通过偏分零和博弈进行自主决策,针对不同任务选择不同的行为以最大化奖励,然后反向传播,由多巴胺神经递质调控实现效能强化迭代更新行为,实现无人设备的多任务自主决策。
本发明不局限于本实施例,任何在本发明披露的技术范围内的等同构思或者改变,均列为本发明的保护范围。

Claims (1)

1.一种类脑快慢双通路无人自主决策方法,其特征在于:包括以下步骤:
A、建立任务预处理池化注意力机制
首先利用无人设备上的摄像头采集视频观测信息,然后对获取到的观测信息通过卷积神经网络进行特征提取得到特征向量,然后对得到的特征向量进行维度转化操作,使用长短期记忆神经网络进行编码操作,得到隐藏潜向量后进行对等平衡池化操作得到池化向量;具体步骤如下:
A1、获取场景观测信息,对观测信息通过预训练的卷积神经网络进行特征提取得到目标增强特征向量C和目标检测特征向量D,如公式(1)所示:
C,D=VGG(Xi,X1:N\i;Wcd) (1)
其中,VGG(·)表示卷积神经网络,Xi和X1:N\i表示相应的场景中的i个观测信息和除了第i个观测信息之外的观测信息,N表示观测信息的总个数,Wcd是卷积神经网络的权重;
A2、对得到的目标增强特征向量C和目标检测特征向量D经过置换函数进行维度转化操作,并输入到长短期记忆神经网络中,如公式(2)所示:
H(h1),H(h2)=Permute(C,D) (2)
其中,Permute(·)是维度转换函数,H(h1),H(h2)分别是目标增强特征向量C和目标检测特征向量D经过转换后的目标增强特征转置向量和目标检测特征转置向量;
A3、将H(h1),H(h2)作为输入经过长短期记忆神经网络编码后,得到图像增强和目标检测隐藏潜向量,如公式(3)所示:
Figure QLYQS_1
其中,
Figure QLYQS_2
是编码后得到的图像增强和目标检测的隐藏潜向量,LSTM(·)是长短期记忆神经网络,cell是细胞状态;
A4、将得到的隐藏潜向量输入到对等平衡池化模块操作得到池化向量,如公式(4)所示:
Figure QLYQS_3
其中,函数PM(·)是对等平衡池化操作,记为
Figure QLYQS_4
Pi为池化向量;
B、建立慢通路类脑多任务时序能量对抗模型
建立慢通路类脑多任务时序能量对抗模型,用以对无人设备的轨迹预测和路径跟踪任务进行定义和策略规划;首先构建类脑多任务时序动作生成网络,拼接预处理池化向量实现特征表示,然后依据概率分布划分策略使不同任务的噪声映射到对应的空间,对不同任务进行解码拆分并依据互信息正则化网络衡量噪声本质,最后构造多任务能量评价网络评测模型性能;具体步骤如下:
B1、对观测信息通过一个固定的任务编码网络得到一个固定的向量
Figure QLYQS_5
然后把这些编码后的向量送入长短期记忆神经网络中,具体的操作过程如公式(5)所示:
Figure QLYQS_6
Figure QLYQS_7
其中,φ(·)是带有激活函数为线性整流函数的编码神经网络,Wee为编码神经网络权重,Wencoder是长短期记忆神经网络的权重且是被同一时观测信息共享;he3,he4是轨迹预测和目标跟踪编码的潜在隐变量;
B2、采用概率分布划分策略,让不同任务的噪声映射到不同的噪声空间内,通过对噪声的高密度区域进行采样来执行具体动作,其具体操作如公式(6)所示:
Figure QLYQS_8
其中,PDC(·)是噪声划分网络,
Figure QLYQS_9
是生成网络函数,Uθ是能量函数;Wtraj,Wtrac分别为轨迹噪声权重和跟踪噪声权重;
B3、通过概率分布划分策略得到拼接向量,并将拼接向量送入任务解码模块中的长短期记忆神经网络,作为长短期记忆神经网络的输入,如公式(7)所示:
Figure QLYQS_10
Figure QLYQS_11
其中,ztraj,ztrac为轨迹噪声和跟踪噪声,Concat(·)为向量拼接函数,
Figure QLYQS_12
为轨迹和跟踪拼接后的轨迹预测任务向量和目标跟踪任务向量;经过长短期记忆神经网络得到下一时刻的任务的隐变量,最终通过任务分类网络γ(·),执行具体任务;Wact是任务分类网络的权重,ai,ai+1分别为轨迹和跟踪的预测行为结果;如公式(8)所示:
Figure QLYQS_13
B4、为了让未来生成的执行动作ai更加精确,引入一种互信息正则化网络,最大化输入Xi与输出ai之间的互信息,衡量输入Xi与输出ai之间本质上的相关性;具体的计算过程如公式(9)所示:
Figure QLYQS_14
X是随机打乱顺序的输入X,Tφ(·)表示两个变量间的互信息,
Figure QLYQS_15
是一种激活函数,它的值如公式(10)所示:
Figure QLYQS_16
互信息正则化损失函数
Figure QLYQS_17
作用于预测动作的输出,使未来动作更加精确;M为一次送入神经网络的批尺寸batchsize的大小;
B5、构建能量评价网络,并采用能量对抗损失函数训练类脑多任务时序能量对抗模型,能量评价网络构建如公式(11)所示:
Figure QLYQS_18
其中,FCR(·)是带有权重Wen1的任务编码网络;
Figure QLYQS_19
是轨迹和跟踪任务动作编码后的轨迹预测编码向量和目标跟踪编码向量,/>
Figure QLYQS_20
是所有时间任务内的聚合隐变量;MLP(·)是带有权重Wen2的任务打分网络;Wen是长短期记忆神经网络LSTM()的权重;Seng是经过任务打分网络得到的能量打分值;
能量对抗损失函数构建如公式(12)所示:
Figure QLYQS_21
其中,p(x)代表真实数据分布,q(z)代表正态分布且z是采样噪声,m是铰链损失函数即Hinge Loss function的超参数且m>0;
上述多任务时序动作生成网络G和多任务能量评价网络U组成慢通路类脑多任务时序能量对抗模型;
C、建立快通路显著性决策模型
首先通过任务预处理池化注意力机制中目标检测模块识别目标,并通过自编码器编码观测目标的空间特征;然后将每个目标的空间特征按时间顺序输入行为快照长短期记忆神经网络,用以建模目标的时间动态变化,即各目标短期内在水平、竖直方向上的位移量;利用时间动态排序机制,设定目标优先级,以此甄别冗余信息,降低模型复杂度;同时构建一种“履带式”交互模式,实现信息流转传播;最后通过显著角色加权机制捕捉显著行为目标并以加权方式将所有目标隐状态逐级聚合,导入最终的快速行为策略模块;具体步骤如下:
C1、通过任务预处理池化注意力机制中目标检测模块输出的目标特征序列,并通过自编码器编码目标空间特征,如公式(13)所示:
Zi=ε(Di;Wae) (13)
其中,Di为目标检测特征向量,Wae为自编码器神经网络参数,ε(·)为自编码器,Zi为目标空间特征;
C2、将长度为l的目标短时空间特征输入行为快照长短期记忆神经网络中,用以建模目标的时间动态变化,行为快照长短期记忆神经网络构建如下,如公式(14)所示:
Figure QLYQS_22
其中,pt为输入门,ft为遗忘门,vt为输出门,gt为输入调节门,mt为细胞状态,nt为隐状态,σ(·)是Sigmoid激活函数,⊙是点乘运算符,ψ(·)是tanh激活函数,W是行为快照长短期记忆神经网络的权重,b是行为快照长短期记忆神经网络的偏置;
C3、对短期各目标位移总量进行排序,同时将对应的隐状态导入优先级判别层,将优先级别较低的目标视作冗余目标并将其移除,降低模型复杂度,如公式(15)所示:
Figure QLYQS_23
其中,ui,j,vi,j分别表示目标i在j时刻的水平、竖直方向的位移量,K表示优化目标个数,{o1,o2…}是由大到小排序后的序列索引,索引后释放nt序列;
C4、令
Figure QLYQS_24
和/>
Figure QLYQS_25
分别表示为正向交互顺序和逆向交互顺序,通过定义“履带式”交互模式,实现信息流转传播,如公式(16)所示:
Figure QLYQS_26
C5、通过加权方式突出显著角色在快通路显著性决策模型中的作用,为显著角色赋以较高权重,而次要角色赋以较低权重,然后对所有目标隐状态逐级聚合,编码成强化学习中的环境隐变量s,如公式(17)所示:
Figure QLYQS_27
eij=χ(di,dj). (17)
其中,χ为双层长短期记忆神经网络构建的显著函数;
C6、构建以无模型独立强化学习的无人设备快通路控制策略,如公式(18)所示:
π1(a1|s;θ1)=f(s) (18)
其中,f(·)为深度控制网络;
D、构建快慢双通路强化博弈机制
设置快慢双通路用于无人设备自主决策来主动跟踪目标,利用多巴胺效能强化反馈奖励的变化,最后构造偏分零和博弈奖励结构,让无人设备进行最终决策并形成行为策略;具体步骤如下:
D1、对于快、慢通路的无人设备agent,定义下标1表示短期快通路应激agent1,下标2表示长期慢通路规划agent2;博弈由元组{S,A,R,P}控制,其中S,A,R,P分别表示状态空间、动作空间、奖励函数和环境状态转移概率;两个agent获得奖励值分别为r1,t=R(st,a1,t),r2,t=R(st,a2,t);其中si∈S,ai∈A,ri∈R,短期策略π1(a1,t|st)是基于当前环境状态st,输出瞬时追踪行为a1,t的价值集合;依靠无模型独立强化学习来学习π1,如公式(19)所示:
π1(a1,t|st;θ1)=f(st) (19)
重要的是,长期规划π2(a2,t|{st-n→st},{at-n→at-1},{rt-n→rt-1})是基于t-n时刻到t时刻内的环境交互信息,输出‘深思’后的追踪行为a2,t的价值集合;然后长期规划π2是参数为θ2的长短期记忆神经网络,如公式(20)所示:
Figure QLYQS_28
D2、构造中脑多巴胺神经元模型携带时序差分学习的奖励预测误差信号反馈奖励的变化,加入一个对正向和负向误差迭代的不对称性,随着多巴胺神经递质浓度不同,对误差的反馈也不同,如公式(21)所示:
Di(t)←Di(t-1)+λi +rt,rt>0,
Figure QLYQS_29
其中,λi +是正向误差迭代系数,λi -是负向误差迭代系数;
D3、构造用于无人设备主动目标跟踪任务的偏分零和奖励结构,其奖励函数包含一个常数和一个误差惩罚项,目标的当前时刻位置和下一时刻位置分别用(ρtt)和(ρt+1t+1)表示;其中,ρ是目标到无人设备的直线距离,κ是目标到无人设备视角中心线的相对角度,如公式(22)所示:
Figure QLYQS_30
其中A>0是奖励值上限,ζ>0和ξ>0分别是追踪距离和追踪角度的平衡系数;ρmax是到无人设备的最大可观察距离;κmax是摄像头最大观察视角的0.5倍;
当短期策略与长期规划的最优行为一致时,at=a1,t=a2,t;短期策略agent1的奖励值r1,t=rt;但是长期规划的奖励值如公式(23)所示:
Figure QLYQS_31
其中,
Figure QLYQS_32
是长期规划中预测的第t+i时刻的奖励值,ι是预测的时间跨度;
当短期策略与长期规划的最优行为不一致时,at=max{V1(a1,t),V2(a2,t)},其中V是评价所有行为的价值函数;此时若V1(a1,t)>V2(a2,t)表示短期策略占据优势,最终决策at=a1,t,短期策略的奖励值r1,t=rt,长期规划的奖励值如公式(24)所示:
Figure QLYQS_33
其中μ和ν是控制惩罚项的可调参数,Γ是评估长期规划中预测的下一时刻环境状态与真实状态差距的距离函数;
反之,当V1(a1,t)<V2(a2,t)表示长期规划占据上风。
CN202110453835.2A 2021-04-26 2021-04-26 一种类脑快慢双通路无人自主决策方法 Active CN113139656B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110453835.2A CN113139656B (zh) 2021-04-26 2021-04-26 一种类脑快慢双通路无人自主决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110453835.2A CN113139656B (zh) 2021-04-26 2021-04-26 一种类脑快慢双通路无人自主决策方法

Publications (2)

Publication Number Publication Date
CN113139656A CN113139656A (zh) 2021-07-20
CN113139656B true CN113139656B (zh) 2023-06-30

Family

ID=76813506

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110453835.2A Active CN113139656B (zh) 2021-04-26 2021-04-26 一种类脑快慢双通路无人自主决策方法

Country Status (1)

Country Link
CN (1) CN113139656B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113837121B (zh) * 2021-09-28 2024-03-01 中国科学技术大学先进技术研究院 一种基于类脑的防疫机器人视听觉协同感知方法及系统
CN114815904B (zh) * 2022-06-29 2022-09-27 中国科学院自动化研究所 基于注意力网络的无人集群对抗方法、装置及无人设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781838A (zh) * 2019-10-28 2020-02-11 大连海事大学 一种复杂场景下行人的多模态轨迹预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10956523B2 (en) * 2017-09-12 2021-03-23 Yu Huang Method and system for providing a highly-personalized recommendation engine

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781838A (zh) * 2019-10-28 2020-02-11 大连海事大学 一种复杂场景下行人的多模态轨迹预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于领域知识的神经网络泛化性能研究进展;胡铁松;严铭;赵萌;;武汉大学学报(工学版)(第03期);全文 *

Also Published As

Publication number Publication date
CN113139656A (zh) 2021-07-20

Similar Documents

Publication Publication Date Title
De Bruin et al. Integrating state representation learning into deep reinforcement learning
CN109711529B (zh) 一种基于值迭代网络的跨领域联邦学习模型及方法
Tang et al. Deep reinforcement learning with population-coded spiking neural network for continuous control
Ai et al. Coverage path planning for maritime search and rescue using reinforcement learning
Xiao et al. Deep neural networks with Koopman operators for modeling and control of autonomous vehicles
CN113139656B (zh) 一种类脑快慢双通路无人自主决策方法
CN110991027A (zh) 一种基于虚拟场景训练的机器人模仿学习方法
Jiang et al. Identification modeling and prediction of ship maneuvering motion based on LSTM deep neural network
Han et al. Hierarchical extreme learning machine for feedforward neural network
Wang et al. Path planning of maritime autonomous surface ships in unknown environment with reinforcement learning
Ma et al. Conditional generative adversarial networks for optimal path planning
Shen et al. A hybrid forecasting model for the velocity of hybrid robotic fish based on back-propagation neural network with genetic algorithm optimization
Lan et al. Path planning for underwater gliders in time-varying ocean current using deep reinforcement learning
Wei et al. An ensemble multi-step forecasting model for ship roll motion under different external conditions: A case study on the South China Sea
Song et al. Ensemble reinforcement learning: A survey
Gellert et al. Estimation of missing LiDAR data for accurate AGV localization
Wei et al. Deterministic and probabilistic ship pitch prediction using a multi-predictor integration model based on hybrid data preprocessing, reinforcement learning and improved QRNN
Zhou et al. Multirobot collaborative pursuit target robot by improved MADDPG
Dai et al. Building partially understandable convolutional neural networks by differentiating class-related neural nodes
Zhao et al. Deep learning and its development
Huang et al. A novel path planning approach for AUV based on improved whale optimization algorithm using segment learning and adaptive operator selection
Zeng et al. A survey on causal reinforcement learning
dos Santos Coelho et al. Nonlinear identification using a B-spline neural network and chaotic immune approaches
Visca et al. Deep learning traversability estimator for mobile robots in unstructured environments
Meng et al. Weighted multi-kernel relevance vector machine for 3 DOF ship manoeuvring modeling with full-scale trial data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant