CN116592883A - 一种基于注意力和循环ppo实现的导航决策方法 - Google Patents

一种基于注意力和循环ppo实现的导航决策方法 Download PDF

Info

Publication number
CN116592883A
CN116592883A CN202310455925.4A CN202310455925A CN116592883A CN 116592883 A CN116592883 A CN 116592883A CN 202310455925 A CN202310455925 A CN 202310455925A CN 116592883 A CN116592883 A CN 116592883A
Authority
CN
China
Prior art keywords
information
layer
attention
network
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310455925.4A
Other languages
English (en)
Other versions
CN116592883B (zh
Inventor
臧兆祥
吕相霖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Three Gorges University CTGU
Original Assignee
China Three Gorges University CTGU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Three Gorges University CTGU filed Critical China Three Gorges University CTGU
Priority to CN202310455925.4A priority Critical patent/CN116592883B/zh
Publication of CN116592883A publication Critical patent/CN116592883A/zh
Application granted granted Critical
Publication of CN116592883B publication Critical patent/CN116592883B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/20Instruments for performing navigational calculations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Automation & Control Theory (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

一种基于注意力和循环PPO实现的导航决策方法,它包括以下步骤:步骤1:智能体与环境交互获取环境图像数据信息;步骤2:对获取的图像信息进行编码,压缩状态信息,提高训练效率;步骤3:构建多核卷积神经网络模块对环境信息进行初步特征提取;步骤4:构建注意力模块与LSTM的结合网络对特征信息进行筛选与压缩,获取重要且关键的信息;步骤5:将经过模型提取的重要历史信息输入到actor网络获取动作,输入到critic网络评估价值;步骤6:智能体根据actor网络所得概率矩阵选取动作,与环境交互一定次数后,数据存入经验池;步骤7:随机抽取batch_size大小的数据进行训练,计算损失函数,进行梯度裁剪,最终通过反向传播进行参数更新。

Description

一种基于注意力和循环PPO实现的导航决策方法
技术领域
本发明涉及图像处理技术领域,具体涉及一种基于注意力和循环PPO实现的导航决策方法。
背景技术
路径规划是机器人导航必不可少的技术,该技术旨在让机器人以最小代价在所处环境中找到最短且无碰撞障碍物的路径。传统的路径规划技术有A*算法、粒子群优化算法、模拟退火算法等。但上述算法仅适用于完全可观测环境的路径规划,现实中的环境大多是部分可观测的,存在着状态信息不完整、稀疏奖励等困难情景,大大提高了智能体的探索难度。
得益于深度学习与强化学习的技术发展,大多学者开始考虑将深度学习的感知能力与强化学习的决策能力进行结合,为智能体在复杂环境的路径规划问题提供了解决方案。申请公布号为CN115469683A的专利文献公开了一种基于PPO算法的无人机编队飞行方法及系统,该方法基于深度强化学习PPO算法对每架无人机将收集的周围物体与其的距离和方向信息进行分析然后做出决策,实现了无人机自主编队飞行训练,经过训练的无人机能够形成编队,精确避开周围障碍物与其他无人机,顺利达到指点地点。申请公布号为CN113255890A的专利文献公开了一种基于PPO算法的强化学习智能体训练方法,该方法能解析环境的关键信息,提供自动模型生成功能。但上述方法都没有能力解决部分可观测环境的探索与避障问题或仅能解决受视野观察影响较小的部分可观测探索问题。
随着深度学习与强化学习的发展,引入循环神经网络算法的记忆功能可以很好地解决部分可观测环境的探索任务,同时具有一定的泛化能力,但存在这训练速度较慢这一问题。同样注意力机制的提出,能更好地提取环境中的重要关键信息,在部分可观测环境中获取高价值信息无疑是提高了训练的速度。循环神经网络与注意力机制在部分可观测环境探索任务中有着巨大优势。
因此,本专利提出一种基于注意力和循环PPO实现的导航决策方法。
发明内容
本发明的目的是为了解决现有技术存在的对于部分可观测环境探索任务中的状态信息分析能力差、依赖较多状态信息数据、且无法仅用PPO算法解决较为复杂的部分可观测环境探索任务的技术问题,而提供的一种基于注意力和循环PPO实现的导航决策方法。
为了解决上述技术问题,本发明采用的技术方案为:
一种基于注意力和循环PPO实现的导航决策方法,它包括以下步骤:
步骤1:智能体与环境交互获取环境图像数据信息;
步骤2:对获取的图像信息进行编码,压缩状态信息,提高训练效率;
步骤3:构建多核卷积神经网络模块对环境信息进行初步特征提取;
步骤4:构建注意力模块与LSTM的结合网络对特征信息进行筛选与压缩,获取重要且关键的信息;
步骤5:将经过模型提取的重要历史信息输入到actor网络获取动作,输入到critic网络评估价值;
步骤6:智能体根据actor网络所得概率矩阵选取动作,与环境交互一定次数后,数据存入经验池;
步骤7:随机抽取batch_size大小的数据进行训练,计算损失函数,进行梯度裁剪,最终通过反向传播进行参数更新。
步骤2具体包括以下子步骤:
步骤2-1)将由步骤1获取到的环境数据中的图像信息进行整体编码处理;
步骤2-2)根据图像中目标单位的颜色、状态这些信息进行编码设计;
步骤2-3)整合状态信息,将图像数据信息最终压缩成编码信息,提高训练效率。
在步骤3中,构建两层CNN卷积网层,使用多个卷积核对环境编码信息进行特征处理,采用的CNN卷积网络公式为:
xt=σcnn(wcnn⊙xt+bcnn)
xt表示当前的环境状态特征,wcnn表示过滤器的权重矩阵,bcnn表示偏置向量,σcnn是激活函数。
在步骤4中,具体包括以下子步骤:
步骤4-1)卷积网络模块提取的特征输入到注意力网络模块,其中多头注意力网络能够使模型在多个位置上共同关注不同子空间的信息,最后将各空间所得信息进行拼接,能够更好地对重要信息增加权重,多头注意力网络公式为:
Q=XWQ
K=XWK
V=XWV
Multi(Q,K,V)=Concat(headi,…,headi)WO
公式中Q表示查询矩阵,K表示键矩阵,V表示值矩阵,它们由输入的特征向量X分别与对应的权重矩阵WQ,WK,WV相乘所得,Attention(Q,K,V)表示注意力公式,由矩阵Q与矩阵K的转秩相乘的结果除以矩阵Q,K,V维数的平方根,然后乘以矩阵V所得,softmax表示激活函数,headi表示第i个头部的注意力信息,表示第i个头部对应Q的权重矩阵,/>表示第i个头部对应K的权重矩阵,/>表示第i个头部对应V的权重矩阵,Multi(Q,K,V)表示通过Conact连接函数整合各头部重要信息的多头注意力特征信息,WO表示计算头部注意力实例线性变换的矩阵;
4-2)将注意力模块的输出结果输入到LSTM网络;LSTM神经网络通过引入3个门控结构和1个长期记忆单元,来控制信息的流通和损失,其计算公式为:
ft=σ(Wfxt+Ufht-1+bf)
it=σ(Wixt+Uiht-1+bi)
ot=σ(Woxt+Uoht-1+bo)
其中ft表示t时刻遗忘门信息,it表示t时刻输入门信息,ot表示t时刻输出门信息,ct表示t时刻记忆细胞状态,前一时间的隐状态ht-1与序列xt输入到网络中,同时更新隐状态和记忆细胞状态,Wf,Wi,Wo,Uf,Ui,Uo表示对应各门控结构的权重矩阵,bf,bi,bo,bc表示偏置向量,Wc与Uc表示记忆细胞内的权重矩阵,σ代表Sigmoid激活函数,表示哈达玛积,Tanh为双曲正切函数。
在步骤5中,构建基于Actor-Critic的网络层,Actor网络使用全连接层对特征信息进行压缩,生成动作概率分布矩阵,Critic网络使用全连接层获取当前状态的评估值;
在步骤6中,智能体依概率选取动作,将选择的动作输入到环境的step函数中,获取当前选择的reward等数据,每交互后一定次数后,将所得的数据存入经验池。
在步骤7中,包括以下子步骤:
随机选取batch_size大小的样本数据进行训练,使用重要性采样评估新旧策略的差距,重要性采样公式为:
πθold(a|s)表示的在s状态下采取动作a后的旧策略,πθ(a|s)表示在s状态下采取动作a后的新策略,通过梯度裁剪,限制策略参数的更新幅度,其公式如:
A=Q(s,a)-V(s,a)
LCLIP(θ)=E[min(r(θ)A,clip(r(θ),1-ε,1+ε)A]
其中ε为超参数,A为优势函数,Q(s,a)代表在状态s下采取动作a的累积奖励值,V(s,a)为状态估计值,当优势函数A>0时,说明该动作比平均动作好,需要增大该动作选择概率,当A<0时,则需要减少该动作的选择概率,E表示期望函数,min为取最小值函数,r(θ)为上述公式所求的重要性采样比,clip为截断函数,PPO算法较其他深度强化学习算法更保守,设置了上限为1+ε,下限为1-ε的区间限制策略参数更新幅度,保证新策略与旧策略相差不大,更新策略参数,策略梯度参数更新公式为:
上述所使用的θ均表示策略参数,而策略参数更新的实质就是找到使得截断损失函数LCLIP(θ)期望值最大的策略参数,argmax为求使得函数取最大值的求参函数。
一种基于注意力与循环神经网络的ARPPO模型,它的结构为:
编码特征提取卷积模块的第一卷积层→编码特征提取卷积模块的第二卷积层→编码特征提取注意力模块的多头注意力层→编码特征提取注意力模块的第一全连接层→编码特征提取注意力模块的第一丢弃层→编码特征提取注意力模块的第二全连接层→编码特征提取注意力模块的第一标准化层→编码特征提取注意力模块的第二标准化层→编码特征提取注意力模块的第二丢弃层→编码特征提取注意力模块的第三丢弃层→编码特征提取循环神经网络模块的LSTM层;
编码特征提取循环神经网络模块的LSTM层→策略选择Actor网络模块的第一全连接层→策略选择Actor网络模块的第二全连接层;
编码特征提取循环神经网络模块的LSTM层→状态价值评估Critic网络模块的第一全连接层→动作价值评估Critic网络模块的第二全连接层。
该模型在工作时,采用以下步骤:
1)从环境中获取的初始状态信息,使用卷积网络模块对图像编码信息进行初步特征提取,通过第一卷积网络层与第二卷积网络层,提取数据的深层多维信息;
2)将提取出的深层多维信息输入到注意力模块中;首先输入至多头注意力网络中捕捉信息的关联性,在多个不同位置上提取特征信息中重要且关键的信息并拼接,然后通过第一全连接层、第一丢弃层进行特征处理并选择丢弃一部分数据防止出现过拟合现象,接着第二全连接层实现上一层全连接层的残差连接,使用第一标准化层、第二标准化层进行层归一化处理,解决层与层之间梯度的稳定性问题,最终再通过第二丢弃层、第三丢弃层丢弃部分数据,防止过拟合;
3)将注意力模块输出的特征信息输入到循环神经网络模块的LSTM层,通过引入LSTM网络提取数据的时域特性,使得智能体在探索过程中形成长时记忆;
4)最后将循环神经网络模块的输出特征输入到Actor网络模块与Critic网络模块,Actor网络模块通过第一全连接层进行特征信息综合,接着通过第二全连接层获取智能体所采取的动作及其概率分布,Critic网络模块使用第一全连接层综合特征信息,最后使用第二全连接层对智能体所处当前状态进行价值评分。
与现有技术相比,本发明具有如下技术效果:
1)本发明使用基于注意力网络与循环神经网络结合的深度强化学习PPO算法有利用使智能体获取更多有价值的信息,在部分可观测环境中使智能体能够形成长时记忆,且训练收敛速度很快,有助于指导智能体能够快速完成无地图的探索任务;
2)本发明通过添加LSTM网络为样本数据建立时序依赖关系,而引入注意力机制则强化了长距离中重要且关键的样本数据之间的依赖关系,使得智能体能形成长时记忆,能够解决动态随机性强的POMDP探索任务;
3)本发明无需要依赖过多的样本数据信息进行决策,智能体每回合根据时间步保留记忆信息,避免出现反复的无效探索动作,提高了探索效率,加快了算法的收敛速度,且通过记忆信息能达到精确避开障碍物,完成探索任务。
附图说明
下面结合附图和实施例对本发明作进一步说明:
图1为本发明中基于注意力与循环神经网络的ARPPO模型示意图;
图2为本发明步骤7中模型训练流程图。
具体实施方式
一种基于注意力和循环PPO实现的导航决策方法,包括以下步骤:
步骤1.智能体与环境交互获取环境图像数据信息;
步骤2.对获取的图像信息进行编码,压缩状态信息,提高训练效率;
步骤3.构建多核卷积神经网络模块对环境信息进行初步特征提取;
步骤4.构建注意力模块与LSTM的结合网络对特征信息进行筛选与压缩,获取重要且关键的信息;
步骤5.将经过模型提取的重要历史信息输入到actor网络获取动作,输入到critic网络评估价值;
步骤6.智能体根据actor网络所得概率矩阵选取动作,与环境交互一定次数后,数据存入经验池。
步骤7.随机抽取batch_size大小的数据进行训练,计算损失函数,进行梯度裁剪,最终通过反向传播进行参数更新。
步骤2具体包括:
2.1将步骤1获取到的环境数据中的图像信息进行整体编码处理。
2.2根据图像中某个单位的独特信息进行特殊细节编码设计。
2.3整合状态信息,将图像数据信息最终压缩成编码信息,提高训练效率。
步骤3具体包括:
构建两层CNN卷积网层,使用多个卷积核对环境编码信息进行特征处理,CNN卷积网络公式为:
xt=σcnn(wcnn⊙xt+bcnn)
xt表示当前的环境状态特征,wcnn表示过滤器的权重矩阵,bcnn表示偏置向量,σcnn是激活函数。
步骤4具体包括:
4.1卷积网络模块提取的特征输入到注意力模块,其中的多头注意力能够使模型在多个位置上共同关注不同子空间的信息,最后将各空间所得信息进行拼接,能够更好地对重要信息增加权重,多头注意力网络公式为:
Q=XWQ
K=XWK
V=XWV
Multi(Q,K,V)=Concat(headi,…,headi)WO
公式中Q,K,V分别表示为查询矩阵、键矩阵和值矩阵,它们由输入的X分别与对应的权重矩阵WQ,WK,WV相乘所得。Attention(Q,K,V)由Q与矩阵K的转秩相乘的结果除以Q,K,V维数的平方根,然后乘以矩阵V所得。Wo表示计算头部注意力实例线性变换的矩阵。
4.2将注意力模块的输出结果输入到LSTM网络。LSTM神经网络通过引入3个门控结构和1个长期记忆单元,来控制信息的流通和损失。其计算公式为:
ft=σ(Wfxt+Ufht-1+bf)
it=σ(Wixt+Uiht-1+bi)
ot=σ(Woxt+Uoht-1+bo)
其中f表示遗忘门,i表示输入门,o表示输出门,c表示记忆细胞状态。前一时间的隐状态ht-1与序列xt输入到网络中,同时更新隐状态和记忆细胞状态。Wf,Wi,Wo,Uf,Ui,Uo表示权重矩阵,bf,bi,bo,bc表示偏置向量。σ代表Sigmoid激活函数,表示哈达玛积,Tanh为双曲正切函数。
步骤5具体包括:
构建基于Actor-Critic的网络层,Actor使用全连接层对特征信息进行压缩,生成动作概率分布矩阵。Critic网络使用全连接层获取当前状态的评估值。
步骤6的具体包括:
智能体依概率选取动作,将选择的动作输入到环境的step函数中,获取当前选择的reward等数据,每交互后一定次数后,将所得的数据存入经验池。
步骤7具体包括:
随机选取batch_size大小的样本数据进行训练,使用重要性采样评估新旧策略的差距。重要性采样公式为:
通过梯度裁剪,限制策略参数的更新幅度,其公式如:
A=Q(s,a)-V(s,a)
LCLIP(θ)=E[min(r(θ)A,clip(r(θ),1-ε,1+ε)A]
其中ε为超参数,A为优势函数,Q(s,a)代表在状态s下采取动作a的累积奖励值,V(s,a)为状态估计值。当优势函数A>0时,说明该动作比平均动作好,需要增大该动作选择概率,当A<0时,则需要减少该动作的选择概率。PPO算法较其他深度强化学习算法更保守,设置了上限为1+ε,下限为1-ε的区间限制策略参数更新幅度,保证新策略与旧策略相差不大。
分别计算策略损失熵与价值损失熵。策略损失熵与价值损失熵乘以相应权重获取最终的损失函数值,最后反向传播,更新策略参数,策略梯度参数更新公式为:
下面结合具体实施例对本发明作进一步的解释;
一种基于注意力和循环PPO实现的导航决策方法;包括以下步骤:启动仿真环境进行探索任务获取图像信息、对图像信息编码、对状态信息进行特征提取、智能体与环境交互获得一批数据保存至经验池、随机选取数据进行训练、通过可视化工具以及模型评估观察模型效果。
步骤2:将图像像素信息进行编码,压缩信息空间,根据提升算法训练速度,获取到编码数据:x1,…,xt。具体环境信息如表1-3所示:
表1环境颜色编码信息
颜色 红色 绿色 蓝色 紫色 黄色 灰色
编号 0 1 2 3 4 5
表2环境目标物种类编码信息
目标物种类 不可见 无实物 地板
编号 0 1 2 3 4
表3环境目标物状态编码信息
目标物状态 开放 关闭 锁定
编号 0 1 2
步骤3:用本专利提出的ARPPO模型对环境信息进行处理,其结构由卷积网络模块,注意力网络模块,循环神经网络模块以及基于PPO算法的Actor-Critic模块构成。ARPPO模型的结构图如图1所示。首先对智能体所获取的环境信息输入到CNN网络,使用多卷积核处理信息,再通过多头注意力网络模块突出重要且关键的信息,接着输入到LSTM网络获取数据的时域图形,ARPPO模型进行特征处理,使智能体获取到重要且关键的信息并形成长时记忆,最终分别输入到Actor网络获得动作及其对应的概率信息,输入到Critic网络中评估智能体表现。该环境的动作空间如表4所示。
表4环境动作空间列表
动作名称 left Right forward pickup drop Toggle
动作内容 向左转 向右转 向前行进 拾取物体 丢弃物体 激活物体
编号 0 1 2 3 4 5
卷积模块由两层卷积网络构成。注意力模块由多头注意力网络层、全连接层、Norm层以及Dropout层构成。其中全连接层的计算公式为:
其中,wi是全连接层中的权重系数,xi是上一层第i个神经元的值,bi是对应的偏置量。Norm层则是将数据进行归一化处理,其具体公式为:
μ为样本数据的标准差,σ2为数据的方差,极小量∈是为了防止标准差为0导致溢出。Dropout层防止模型过拟合,以此提升模型泛化能力,具体公式为:
其中Bernoulli(p)函数是以概率p生成概率向量r,然后将概率矩阵乘以输入矩阵y(l)进行计算,然后经过全连接层得到输出结果最后通过激活函数得到新一次的迭代结果。
将注意力模块得到的输出结果输入到LSTM网络中提取数据的时域特性,然后特征处理的最终结果输入到Actor网络与Critic网络中。
步骤4:智能体每获取一次动作后,再将动作反馈给环境,智能体获得相应的新环境状态信息与即时奖励等信息数据。每当智能体与环境交互达到128次后,将训练所得数据(st,at,Rt,st+1)存入经验池,以供后续训练调用数据。
步骤5:从经验池中随机选取batch_size大小的样本数据,计算策略函数损失熵与价值函数损失熵以及优势函数等,通过梯度裁剪与泛化优势估计处理,最终整合求出最终的loss值,然后反向传播更新策略参数。为增大样本数据量,采用多环境并行运行为智能体提供训练数据。损失函数的计算公式如:
A=Q(s,a)-V(s,a)
LCLIP(θ)=E[min(r(θ)A,clip(r(θ),1-ε,1+ε)A]
A为通过动作价值函数Q与价值函数V计算所得的优势函数,r(θ)为重要性采样权重,clip函数通过设置上限1+ε,下限1-ε对策略进行限制,避免策略发生剧烈变化。θ表示策略参数,通过找到使得截断损失函数LCLIP(θ)期望值最大的策略参数进行更新。基于优势函数的Actor-Critic方法进行回报值估计,则会产生方差较小,而偏差较大的问题。本专利还采用了泛化优势估计(GAE)用于平衡方差与偏差,其公式为:
λ=0时,advantage的GAE表示退化成时序差分方法(one-step TD);λ=1时,advantage的GAE表示退化成蒙特卡洛方法;λ在(0,1)区间时,表示在偏差和方差之间做出折衷。最后通过反向传播更新策略参数,实现智能体的探索任务。图2为模型的整个训练流程图。
步骤6:为了评价训练模型的好坏,设置了评估模型模块,即从智能体与交互100个episode中提取表现的最差10次获取的reward值,与PPO模型、Attention-PPO模型,LSTM-PPO模型进行比较,分析出各模型的优劣。还设置了相应的可视化模型评估,观察基于ARPPO模型在环境中的每一步决策,分析模型的好坏。
本发明还包括一种基于注意力与循环神经网络的ARPPO模型,它的结构为:
编码特征提取卷积模块的第一卷积层1→编码特征提取卷积模块的第二卷积层2→编码特征提取注意力模块的多头注意力层3→编码特征提取注意力模块的第一全连接层4→编码特征提取注意力模块的第一丢弃层5→编码特征提取注意力模块的第二全连接层6→编码特征提取注意力模块的第一标准化层7→编码特征提取注意力模块的第二标准化层8→编码特征提取注意力模块的第二丢弃层9→编码特征提取注意力模块的第三丢弃层10→编码特征提取循环神经网络模块的LSTM层11;
编码特征提取循环神经网络模块的LSTM层11→策略选择Actor网络模块的第一全连接层12→策略选择Actor网络模块的第二全连接层13;
编码特征提取循环神经网络模块的LSTM层11→状态价值评估Critic网络模块的第一全连接层14→动作价值评估Critic网络模块的第二全连接层15。
该模型在工作时,采用以下步骤:
1)从环境中获取的初始状态信息,使用卷积网络模块对图像编码信息进行初步特征提取,通过第一卷积网络层1与第二卷积网络层2,提取数据的深层多维信息;
2)将提取出的深层多维信息输入到注意力模块中;首先输入至多头注意力网络3中捕捉信息的关联性,在多个不同位置上提取特征信息中重要且关键的信息并拼接,然后通过第一全连接层4、第一丢弃层5进行特征处理并选择丢弃一部分数据防止出现过拟合现象,接着第二全连接层6实现上一层全连接层5的残差连接,使用第一标准化层7、第二标准化层8进行层归一化处理,解决层与层之间梯度的稳定性问题,最终再通过第二丢弃层9、第三丢弃层10丢弃部分数据,防止过拟合;
3)将注意力模块输出的特征信息输入到循环神经网络模块的LSTM层11,通过引入LSTM网络提取数据的时域特性,使得智能体在探索过程中形成长时记忆;
4)最后将循环神经网络模块的输出特征输入到Actor网络模块与Critic网络模块,Actor网络模块通过第一全连接层12进行特征信息综合,接着通过第二全连接层13获取智能体所采取的动作及其概率分布,Critic网络模块使用第一全连接层14综合特征信息,最后使用第二全连接层15对智能体所处当前状态进行价值评分。

Claims (8)

1.一种基于注意力和循环PPO实现的导航决策方法,其特征在于,它包括以下步骤:
步骤1:智能体与环境交互获取环境图像数据信息;
步骤2:对获取的图像信息进行编码,压缩状态信息,提高训练效率;
步骤3:构建多核卷积神经网络模块对环境信息进行初步特征提取;
步骤4:构建注意力模块与LSTM的结合网络对特征信息进行筛选与压缩,获取重要且关键的信息;
步骤5:将经过模型提取的重要历史信息输入到actor网络获取动作,输入到critic网络评估价值;
步骤6:智能体根据actor网络所得概率矩阵选取动作,与环境交互一定次数后,数据存入经验池;
步骤7:随机抽取batch_size大小的数据进行训练,计算损失函数,进行梯度裁剪,最终通过反向传播进行参数更新。
2.根据权利要求1所述的方法,其特征在于,步骤2具体包括以下子步骤:
步骤2-1)将由步骤1获取到的环境数据中的图像信息进行整体编码处理;
步骤2-2)根据图像中目标单位的颜色、状态这些信息进行编码设计;
步骤2-3)整合状态信息,将图像数据信息最终压缩成编码信息,提高训练效率。
3.根据权利要求1所述的方法,其特征在于,在步骤3中,构建两层CNN卷积网层,使用多个卷积核对环境编码信息进行特征处理,采用的CNN卷积网络公式为:
xt=σcnn(wcnn⊙xt+bcnn)
xt表示当前的环境状态特征,wcnn表示过滤器的权重矩阵,bcnn表示偏置向量,σcnn是激活函数。
4.根据权利要求1所述的方法,其特征在于,在步骤4中,具体包括以下子步骤:
步骤4-1)卷积网络模块提取的特征输入到注意力网络模块,其中多头注意力网络能够使模型在多个位置上共同关注不同子空间的信息,最后将各空间所得信息进行拼接,能够更好地对重要信息增加权重,多头注意力网络公式为:
Q=XWQ
K=XWK
V=XWV
Multi(Q,K,V)=Concat(headi,…,headi)WO
公式中Q表示查询矩阵,K表示键矩阵,V表示值矩阵,它们由输入的特征向量X分别与对应的权重矩阵WQ,WK,WV相乘所得,Attention(Q,K,V)表示注意力公式,由矩阵Q与矩阵K的转秩相乘的结果除以矩阵Q,K,V维数的平方根,然后乘以矩阵V所得,softmax表示激活函数,headi表示第i个头部的注意力信息,Wi Q表示第i个头部对应Q的权重矩阵,表示第i个头部对应K的权重矩阵,/>表示第i个头部对应V的权重矩阵,Multi(Q,K,V)表示通过Concat连接函数整合各头部重要信息的多头注意力特征信息,WO表示计算头部注意力实例线性变换的矩阵;
4-2)将注意力模块的输出结果输入到LSTM网络;LSTM神经网络通过引入3个门控结构和1个长期记忆单元,来控制信息的流通和损失,其计算公式为:
ft=σ(Wfxt+Ufht-1+bf)
it=σ(Wixt+Uiht-1+bi)
ot=σ(Woxt+Uoht-1+bo)
其中ft表示t时刻遗忘门信息,it表示t时刻输入门信息,ot表示t时刻输出门信息,ct表示t时刻记忆细胞状态,前一时间的隐状态ht-1与序列xt输入到网络中,同时更新隐状态和记忆细胞状态,Wf,Wi,Wo,Uf,Ui,Uo表示对应各门控结构的权重矩阵,bf,bi,bo,bc表示偏置向量,Wc与Uc表示记忆细胞内的权重矩阵,σ代表Sigmoid激活函数,表示哈达玛积,Tanh为双曲正切函数。
5.根据权利要求1所述的方法,其特征在于,
在步骤5中,构建基于Actor-Critic的网络层,Actor网络使用全连接层对特征信息进行压缩,生成动作概率分布矩阵,Critic网络使用全连接层获取当前状态的评估值;
在步骤6中,智能体依概率选取动作,将选择的动作输入到环境的step函数中,获取当前选择的reward等数据,每交互后一定次数后,将所得的数据存入经验池。
6.根据权利要求1所述的方法,其特征在于,在步骤7中,包括以下子步骤:
随机选取batch_size大小的样本数据进行训练,使用重要性采样评估新旧策略的差距,重要性采样公式为:
πθold(a|s)表示的在s状态下采取动作a后的旧策略,πθ(a|s)表示在s状态下采取动作a后的新策略,通过梯度裁剪,限制策略参数的更新幅度,其公式如:
A=Q(s,a)-V(s,a)
LCLIP(θ)=E[min(r(θ)A,clip(r(θ),1-ε,1+ε)a]
其中ε为超参数,A为优势函数,Q(s,a)代表在状态s下采取动作a的累积奖励值,V(s,a)为状态估计值,当优势函数A>0时,说明该动作比平均动作好,需要增大该动作选择概率,当A<0时,则需要减少该动作的选择概率,E表示期望函数,min为取最小值函数,r(θ)为上述公式所求的重要性采样比,clip为截断函数,PPO算法较其他深度强化学习算法更保守,设置了上限为1+ε,下限为1-ε的区间限制策略参数更新幅度,保证新策略与旧策略相差不大,更新策略参数,策略梯度参数更新公式为:
上述所使用的θ均表示策略参数,而策略参数更新的实质就是找到使得截断损失函数LCLIP(θ)期望值最大的策略参数,argmax为求使得函数取最大值的求参函数。
7.一种基于注意力与循环神经网络的ARPPO模型,其特征在于,它的结构为:
编码特征提取卷积模块的第一卷积层(1)→编码特征提取卷积模块的第二卷积层(2)→编码特征提取注意力模块的多头注意力层(3)→编码特征提取注意力模块的第一全连接层(4)→编码特征提取注意力模块的第一丢弃层(5)→编码特征提取注意力模块的第二全连接层(6)→编码特征提取注意力模块的第一标准化层(7)→编码特征提取注意力模块的第二标准化层(8)→编码特征提取注意力模块的第二丢弃层(9)→编码特征提取注意力模块的第三丢弃层(10)→编码特征提取循环神经网络模块的LSTM层(11);
编码特征提取循环神经网络模块的LSTM层(11)→策略选择Actor网络模块的第一全连接层(12)→策略选择Actor网络模块的第二全连接层(13);
编码特征提取循环神经网络模块的LSTM层(11)→状态价值评估Critic网络模块的第一全连接层(14)→动作价值评估Critic网络模块的第二全连接层(15)。
8.根据权利要求7所述的模型,其特征在于,该模型在工作时,采用以下步骤:
1)从环境中获取的初始状态信息,使用卷积网络模块对图像编码信息进行初步特征提取,通过第一卷积网络层(1)与第二卷积网络层(2),提取数据的深层多维信息;
2)将提取出的深层多维信息输入到注意力模块中;首先输入至多头注意力网络(3)中捕捉信息的关联性,在多个不同位置上提取特征信息中重要且关键的信息并拼接,然后通过第一全连接层(4)、第一丢弃层(5)进行特征处理并选择丢弃一部分数据防止出现过拟合现象,接着第二全连接层(6)实现上一层全连接层(5)的残差连接,使用第一标准化层(7)、第二标准化层(8)进行层归一化处理,解决层与层之间梯度的稳定性问题,最终再通过第二丢弃层(9)、第三丢弃层(10)丢弃部分数据,防止过拟合;
3)将注意力模块输出的特征信息输入到循环神经网络模块的LSTM层(11),通过引入LSTM网络提取数据的时域特性,使得智能体在探索过程中形成长时记忆;
4)最后将循环神经网络模块的输出特征输入到Actor网络模块与Critic网络模块,Actor网络模块通过第一全连接层(12)进行特征信息综合,接着通过第二全连接层(13)获取智能体所采取的动作及其概率分布,Critic网络模块使用第一全连接层(14)综合特征信息,最后使用第二全连接层(15)对智能体所处当前状态进行价值评分。
CN202310455925.4A 2023-04-25 2023-04-25 一种基于注意力和循环ppo实现的导航决策方法 Active CN116592883B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310455925.4A CN116592883B (zh) 2023-04-25 2023-04-25 一种基于注意力和循环ppo实现的导航决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310455925.4A CN116592883B (zh) 2023-04-25 2023-04-25 一种基于注意力和循环ppo实现的导航决策方法

Publications (2)

Publication Number Publication Date
CN116592883A true CN116592883A (zh) 2023-08-15
CN116592883B CN116592883B (zh) 2024-04-30

Family

ID=87599910

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310455925.4A Active CN116592883B (zh) 2023-04-25 2023-04-25 一种基于注意力和循环ppo实现的导航决策方法

Country Status (1)

Country Link
CN (1) CN116592883B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117516530A (zh) * 2023-09-28 2024-02-06 中国科学院自动化研究所 机器人目标导航方法及装置
CN117613421A (zh) * 2023-11-23 2024-02-27 北京中铁建电气化设计研究院有限公司 一种基于神经网络的储能电池组管理系统的均衡方法及介质
CN117726133A (zh) * 2023-12-29 2024-03-19 国网江苏省电力有限公司信息通信分公司 一种基于强化学习的分布式能源实时调度方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200125957A1 (en) * 2018-10-17 2020-04-23 Peking University Multi-agent cooperation decision-making and training method
CN112216124A (zh) * 2020-09-17 2021-01-12 浙江工业大学 一种基于深度强化学习的交通信号控制方法
CN112965499A (zh) * 2021-03-08 2021-06-15 哈尔滨工业大学(深圳) 基于注意力模型和深度强化学习的无人车行驶决策方法
CN113625757A (zh) * 2021-08-12 2021-11-09 中国电子科技集团公司第二十八研究所 一种基于强化学习和注意力机制的无人机群调度方法
CN114839878A (zh) * 2022-04-27 2022-08-02 江苏科技大学 基于改进ppo算法的双足机器人行走稳定性优化方法
CN115002123A (zh) * 2022-05-25 2022-09-02 西南交通大学 基于移动边缘计算的快速适应任务卸载系统和方法
US20220397874A1 (en) * 2021-06-07 2022-12-15 Zhejiang University Non-Intrusive Load Decomposition Method Based on Informer Model Coding Structure

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200125957A1 (en) * 2018-10-17 2020-04-23 Peking University Multi-agent cooperation decision-making and training method
CN112216124A (zh) * 2020-09-17 2021-01-12 浙江工业大学 一种基于深度强化学习的交通信号控制方法
CN112965499A (zh) * 2021-03-08 2021-06-15 哈尔滨工业大学(深圳) 基于注意力模型和深度强化学习的无人车行驶决策方法
US20220397874A1 (en) * 2021-06-07 2022-12-15 Zhejiang University Non-Intrusive Load Decomposition Method Based on Informer Model Coding Structure
CN113625757A (zh) * 2021-08-12 2021-11-09 中国电子科技集团公司第二十八研究所 一种基于强化学习和注意力机制的无人机群调度方法
CN114839878A (zh) * 2022-04-27 2022-08-02 江苏科技大学 基于改进ppo算法的双足机器人行走稳定性优化方法
CN115002123A (zh) * 2022-05-25 2022-09-02 西南交通大学 基于移动边缘计算的快速适应任务卸载系统和方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
袁浩: "基于深度强化学习的机器人视觉导航算法研究", 中国优秀硕士学位论文全文数据库 信息科技辑, 15 February 2023 (2023-02-15) *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117516530A (zh) * 2023-09-28 2024-02-06 中国科学院自动化研究所 机器人目标导航方法及装置
CN117613421A (zh) * 2023-11-23 2024-02-27 北京中铁建电气化设计研究院有限公司 一种基于神经网络的储能电池组管理系统的均衡方法及介质
CN117726133A (zh) * 2023-12-29 2024-03-19 国网江苏省电力有限公司信息通信分公司 一种基于强化学习的分布式能源实时调度方法及系统

Also Published As

Publication number Publication date
CN116592883B (zh) 2024-04-30

Similar Documents

Publication Publication Date Title
CN116592883B (zh) 一种基于注意力和循环ppo实现的导航决策方法
CN108830157B (zh) 基于注意力机制和3d卷积神经网络的人体行为识别方法
Postels et al. Sampling-free epistemic uncertainty estimation using approximated variance propagation
CN107229914B (zh) 一种基于深度q学习策略的手写数字识别方法
Zhao et al. A brain-inspired decision making model based on top-down biasing of prefrontal cortex to basal ganglia and its application in autonomous UAV explorations
CN104318245A (zh) 基于稀疏深度网络的极化sar图像分类
CN112415521A (zh) 基于cgru的强时空特性雷达回波临近预报方法
Levine Exploring deep and recurrent architectures for optimal control
CN112464004A (zh) 一种多视角深度生成图像聚类方法
CN114898151A (zh) 一种基于深度学习与支持向量机融合的图像分类方法
CN112183742B (zh) 基于渐进式量化和Hessian信息的神经网络混合量化方法
CN112036556B (zh) 一种基于lstm神经网络的目标意图反演方法
CN112733602B (zh) 关系引导的行人属性识别方法
CN114399533B (zh) 一种基于多层次注意力机制的单目标追踪方法
CN112529865A (zh) 混合像元双线性深层解混方法、系统、应用及存储介质
CN112560966A (zh) 基于散射图卷积网络的极化sar图像分类方法、介质及设备
CN114494489A (zh) 一种基于深度孪生网络的自监督属性可控图像生成方法
CN111027630A (zh) 一种基于卷积神经网络的图像分类方法
CN111325259A (zh) 一种基于深度学习和二进制编码的遥感图像分类方法
CN113561995B (zh) 一种基于多维奖励架构深度q学习的自动驾驶决策方法
Shariff et al. Artificial (or) fake human face generator using generative adversarial network (gan) machine learning model
CN115816466B (zh) 一种提升视觉观测机器人控制稳定性的方法
CN110047088B (zh) 一种基于改进教与学优化算法的ht-29图像分割方法
CN115909027B (zh) 一种态势估计方法及装置
CN111353525A (zh) 一种不均衡不完整数据集的建模及缺失值填补方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant