CN116592883A

CN116592883A - 一种基于注意力和循环ppo实现的导航决策方法

Info

Publication number: CN116592883A
Application number: CN202310455925.4A
Authority: CN
Inventors: 臧兆祥; 吕相霖
Original assignee: China Three Gorges University CTGU
Current assignee: China Three Gorges University CTGU
Priority date: 2023-04-25
Filing date: 2023-04-25
Publication date: 2023-08-15
Anticipated expiration: 2043-04-25
Also published as: CN116592883B

Abstract

一种基于注意力和循环PPO实现的导航决策方法，它包括以下步骤：步骤1：智能体与环境交互获取环境图像数据信息；步骤2：对获取的图像信息进行编码，压缩状态信息，提高训练效率；步骤3：构建多核卷积神经网络模块对环境信息进行初步特征提取；步骤4：构建注意力模块与LSTM的结合网络对特征信息进行筛选与压缩，获取重要且关键的信息；步骤5：将经过模型提取的重要历史信息输入到actor网络获取动作，输入到critic网络评估价值；步骤6：智能体根据actor网络所得概率矩阵选取动作，与环境交互一定次数后，数据存入经验池；步骤7：随机抽取batch_size大小的数据进行训练，计算损失函数，进行梯度裁剪，最终通过反向传播进行参数更新。

Description

一种基于注意力和循环PPO实现的导航决策方法

技术领域

本发明涉及图像处理技术领域，具体涉及一种基于注意力和循环PPO实现的导航决策方法。

背景技术

路径规划是机器人导航必不可少的技术，该技术旨在让机器人以最小代价在所处环境中找到最短且无碰撞障碍物的路径。传统的路径规划技术有A^*算法、粒子群优化算法、模拟退火算法等。但上述算法仅适用于完全可观测环境的路径规划，现实中的环境大多是部分可观测的，存在着状态信息不完整、稀疏奖励等困难情景，大大提高了智能体的探索难度。

得益于深度学习与强化学习的技术发展，大多学者开始考虑将深度学习的感知能力与强化学习的决策能力进行结合，为智能体在复杂环境的路径规划问题提供了解决方案。申请公布号为CN115469683A的专利文献公开了一种基于PPO算法的无人机编队飞行方法及系统,该方法基于深度强化学习PPO算法对每架无人机将收集的周围物体与其的距离和方向信息进行分析然后做出决策，实现了无人机自主编队飞行训练，经过训练的无人机能够形成编队，精确避开周围障碍物与其他无人机，顺利达到指点地点。申请公布号为CN113255890A的专利文献公开了一种基于PPO算法的强化学习智能体训练方法，该方法能解析环境的关键信息,提供自动模型生成功能。但上述方法都没有能力解决部分可观测环境的探索与避障问题或仅能解决受视野观察影响较小的部分可观测探索问题。

随着深度学习与强化学习的发展，引入循环神经网络算法的记忆功能可以很好地解决部分可观测环境的探索任务，同时具有一定的泛化能力，但存在这训练速度较慢这一问题。同样注意力机制的提出，能更好地提取环境中的重要关键信息，在部分可观测环境中获取高价值信息无疑是提高了训练的速度。循环神经网络与注意力机制在部分可观测环境探索任务中有着巨大优势。

因此，本专利提出一种基于注意力和循环PPO实现的导航决策方法。

发明内容

本发明的目的是为了解决现有技术存在的对于部分可观测环境探索任务中的状态信息分析能力差、依赖较多状态信息数据、且无法仅用PPO算法解决较为复杂的部分可观测环境探索任务的技术问题，而提供的一种基于注意力和循环PPO实现的导航决策方法。

为了解决上述技术问题，本发明采用的技术方案为：

一种基于注意力和循环PPO实现的导航决策方法，它包括以下步骤：

步骤1：智能体与环境交互获取环境图像数据信息；

步骤2：对获取的图像信息进行编码，压缩状态信息，提高训练效率；

步骤3：构建多核卷积神经网络模块对环境信息进行初步特征提取；

步骤4：构建注意力模块与LSTM的结合网络对特征信息进行筛选与压缩，获取重要且关键的信息；

步骤5：将经过模型提取的重要历史信息输入到actor网络获取动作，输入到critic网络评估价值；

步骤6：智能体根据actor网络所得概率矩阵选取动作，与环境交互一定次数后，数据存入经验池；

步骤7：随机抽取batch_size大小的数据进行训练，计算损失函数，进行梯度裁剪，最终通过反向传播进行参数更新。

步骤2具体包括以下子步骤：

步骤2-1)将由步骤1获取到的环境数据中的图像信息进行整体编码处理；

步骤2-2)根据图像中目标单位的颜色、状态这些信息进行编码设计；

步骤2-3)整合状态信息，将图像数据信息最终压缩成编码信息，提高训练效率。

在步骤3中，构建两层CNN卷积网层，使用多个卷积核对环境编码信息进行特征处理，采用的CNN卷积网络公式为：

x^t＝σ_cnn(w_cnn⊙x_t+b_cnn)

x_t表示当前的环境状态特征，w_cnn表示过滤器的权重矩阵，b_cnn表示偏置向量，σ_cnn是激活函数。

在步骤4中，具体包括以下子步骤：

步骤4-1)卷积网络模块提取的特征输入到注意力网络模块，其中多头注意力网络能够使模型在多个位置上共同关注不同子空间的信息，最后将各空间所得信息进行拼接，能够更好地对重要信息增加权重，多头注意力网络公式为：

Q＝XW^Q

K＝XW^K

V＝XW^V

Multi(Q,K,V)＝Concat(head_i,…,head_i)W^O

公式中Q表示查询矩阵，K表示键矩阵，V表示值矩阵，它们由输入的特征向量X分别与对应的权重矩阵W^Q,W^K,W^V相乘所得，Attention(Q,K,V)表示注意力公式，由矩阵Q与矩阵K的转秩相乘的结果除以矩阵Q,K,V维数的平方根，然后乘以矩阵V所得，softmax表示激活函数，headi表示第i个头部的注意力信息，表示第i个头部对应Q的权重矩阵，/>表示第i个头部对应K的权重矩阵，/>表示第i个头部对应V的权重矩阵，Multi(Q,K,V)表示通过Conact连接函数整合各头部重要信息的多头注意力特征信息，W^O表示计算头部注意力实例线性变换的矩阵；

4-2)将注意力模块的输出结果输入到LSTM网络；LSTM神经网络通过引入3个门控结构和1个长期记忆单元，来控制信息的流通和损失，其计算公式为：

f_t＝σ(W_fx_t+U_fh_t-1+b_f)

i_t＝σ(W_ix_t+U_ih_t-1+b_i)

o_t＝σ(W_ox_t+U_oh_t-1+b_o)

其中f_t表示t时刻遗忘门信息，i_t表示t时刻输入门信息，o_t表示t时刻输出门信息，c_t表示t时刻记忆细胞状态，前一时间的隐状态h_t-1与序列x_t输入到网络中，同时更新隐状态和记忆细胞状态，W_f,W_i,W_o,U_f,U_i,U_o表示对应各门控结构的权重矩阵，b_f,b_i,b_o,b_c表示偏置向量，W_c与U_c表示记忆细胞内的权重矩阵，σ代表Sigmoid激活函数，表示哈达玛积，Tanh为双曲正切函数。

在步骤5中，构建基于Actor-Critic的网络层，Actor网络使用全连接层对特征信息进行压缩，生成动作概率分布矩阵，Critic网络使用全连接层获取当前状态的评估值；

在步骤6中，智能体依概率选取动作，将选择的动作输入到环境的step函数中，获取当前选择的reward等数据，每交互后一定次数后，将所得的数据存入经验池。

在步骤7中，包括以下子步骤：

随机选取batch_size大小的样本数据进行训练，使用重要性采样评估新旧策略的差距，重要性采样公式为：

π_θold(a|s)表示的在s状态下采取动作a后的旧策略，π_θ(a|s)表示在s状态下采取动作a后的新策略，通过梯度裁剪，限制策略参数的更新幅度，其公式如：

A＝Q(s,a)-V(s,a)

L^CLIP(θ)＝E[min(r(θ)A,clip(r(θ),1-ε,1+ε)A]

其中ε为超参数，A为优势函数，Q(s,a)代表在状态s下采取动作a的累积奖励值，V(s,a)为状态估计值，当优势函数A>0时，说明该动作比平均动作好，需要增大该动作选择概率，当A<0时，则需要减少该动作的选择概率，E表示期望函数，min为取最小值函数，r(θ)为上述公式所求的重要性采样比，clip为截断函数，PPO算法较其他深度强化学习算法更保守，设置了上限为1+ε，下限为1-ε的区间限制策略参数更新幅度，保证新策略与旧策略相差不大，更新策略参数,策略梯度参数更新公式为：

上述所使用的θ均表示策略参数，而策略参数更新的实质就是找到使得截断损失函数L^CLIP(θ)期望值最大的策略参数，argmax为求使得函数取最大值的求参函数。

一种基于注意力与循环神经网络的ARPPO模型，它的结构为：

编码特征提取卷积模块的第一卷积层→编码特征提取卷积模块的第二卷积层→编码特征提取注意力模块的多头注意力层→编码特征提取注意力模块的第一全连接层→编码特征提取注意力模块的第一丢弃层→编码特征提取注意力模块的第二全连接层→编码特征提取注意力模块的第一标准化层→编码特征提取注意力模块的第二标准化层→编码特征提取注意力模块的第二丢弃层→编码特征提取注意力模块的第三丢弃层→编码特征提取循环神经网络模块的LSTM层；

编码特征提取循环神经网络模块的LSTM层→策略选择Actor网络模块的第一全连接层→策略选择Actor网络模块的第二全连接层；

编码特征提取循环神经网络模块的LSTM层→状态价值评估Critic网络模块的第一全连接层→动作价值评估Critic网络模块的第二全连接层。

该模型在工作时，采用以下步骤：

1)从环境中获取的初始状态信息，使用卷积网络模块对图像编码信息进行初步特征提取，通过第一卷积网络层与第二卷积网络层，提取数据的深层多维信息；

2)将提取出的深层多维信息输入到注意力模块中；首先输入至多头注意力网络中捕捉信息的关联性，在多个不同位置上提取特征信息中重要且关键的信息并拼接，然后通过第一全连接层、第一丢弃层进行特征处理并选择丢弃一部分数据防止出现过拟合现象，接着第二全连接层实现上一层全连接层的残差连接，使用第一标准化层、第二标准化层进行层归一化处理，解决层与层之间梯度的稳定性问题，最终再通过第二丢弃层、第三丢弃层丢弃部分数据，防止过拟合；

3)将注意力模块输出的特征信息输入到循环神经网络模块的LSTM层，通过引入LSTM网络提取数据的时域特性，使得智能体在探索过程中形成长时记忆；

4)最后将循环神经网络模块的输出特征输入到Actor网络模块与Critic网络模块，Actor网络模块通过第一全连接层进行特征信息综合，接着通过第二全连接层获取智能体所采取的动作及其概率分布，Critic网络模块使用第一全连接层综合特征信息，最后使用第二全连接层对智能体所处当前状态进行价值评分。

与现有技术相比，本发明具有如下技术效果：

1)本发明使用基于注意力网络与循环神经网络结合的深度强化学习PPO算法有利用使智能体获取更多有价值的信息，在部分可观测环境中使智能体能够形成长时记忆，且训练收敛速度很快，有助于指导智能体能够快速完成无地图的探索任务；

2)本发明通过添加LSTM网络为样本数据建立时序依赖关系，而引入注意力机制则强化了长距离中重要且关键的样本数据之间的依赖关系，使得智能体能形成长时记忆，能够解决动态随机性强的POMDP探索任务；

3)本发明无需要依赖过多的样本数据信息进行决策，智能体每回合根据时间步保留记忆信息，避免出现反复的无效探索动作，提高了探索效率，加快了算法的收敛速度，且通过记忆信息能达到精确避开障碍物，完成探索任务。

附图说明

下面结合附图和实施例对本发明作进一步说明：

图1为本发明中基于注意力与循环神经网络的ARPPO模型示意图；

图2为本发明步骤7中模型训练流程图。

具体实施方式

一种基于注意力和循环PPO实现的导航决策方法，包括以下步骤：

步骤1.智能体与环境交互获取环境图像数据信息；

步骤2.对获取的图像信息进行编码，压缩状态信息，提高训练效率；

步骤3.构建多核卷积神经网络模块对环境信息进行初步特征提取；

步骤4.构建注意力模块与LSTM的结合网络对特征信息进行筛选与压缩，获取重要且关键的信息；

步骤5.将经过模型提取的重要历史信息输入到actor网络获取动作，输入到critic网络评估价值；

步骤6.智能体根据actor网络所得概率矩阵选取动作，与环境交互一定次数后，数据存入经验池。

步骤7.随机抽取batch_size大小的数据进行训练，计算损失函数，进行梯度裁剪，最终通过反向传播进行参数更新。

步骤2具体包括：

2.1将步骤1获取到的环境数据中的图像信息进行整体编码处理。

2.2根据图像中某个单位的独特信息进行特殊细节编码设计。

2.3整合状态信息，将图像数据信息最终压缩成编码信息，提高训练效率。

步骤3具体包括：

构建两层CNN卷积网层，使用多个卷积核对环境编码信息进行特征处理，CNN卷积网络公式为：

x^t＝σ_cnn(w_cnn⊙x_t+b_cnn)

步骤4具体包括：

4.1卷积网络模块提取的特征输入到注意力模块，其中的多头注意力能够使模型在多个位置上共同关注不同子空间的信息，最后将各空间所得信息进行拼接，能够更好地对重要信息增加权重，多头注意力网络公式为:

Q＝XW^Q

K＝XW^K

V＝XW^V

Multi(Q,K,V)＝Concat(head_i,…,head_i)W^O

公式中Q,K,V分别表示为查询矩阵、键矩阵和值矩阵，它们由输入的X分别与对应的权重矩阵W^Q,W^K,W^V相乘所得。Attention(Q,K,V)由Q与矩阵K的转秩相乘的结果除以Q,K,V维数的平方根，然后乘以矩阵V所得。W^o表示计算头部注意力实例线性变换的矩阵。

4.2将注意力模块的输出结果输入到LSTM网络。LSTM神经网络通过引入3个门控结构和1个长期记忆单元，来控制信息的流通和损失。其计算公式为：

f_t＝σ(W_fx_t+U_fh_t-1+b_f)

i_t＝σ(W_ix_t+U_ih_t-1+b_i)

o_t＝σ(W_ox_t+U_oh_t-1+b_o)

其中f表示遗忘门，i表示输入门，o表示输出门，c表示记忆细胞状态。前一时间的隐状态h_t-1与序列x_t输入到网络中，同时更新隐状态和记忆细胞状态。W_f,W_i,W_o,U_f,U_i,U_o表示权重矩阵，b_f,b_i,b_o,b_c表示偏置向量。σ代表Sigmoid激活函数，表示哈达玛积，Tanh为双曲正切函数。

步骤5具体包括：

构建基于Actor-Critic的网络层，Actor使用全连接层对特征信息进行压缩，生成动作概率分布矩阵。Critic网络使用全连接层获取当前状态的评估值。

步骤6的具体包括：

智能体依概率选取动作，将选择的动作输入到环境的step函数中，获取当前选择的reward等数据，每交互后一定次数后，将所得的数据存入经验池。

步骤7具体包括：

随机选取batch_size大小的样本数据进行训练，使用重要性采样评估新旧策略的差距。重要性采样公式为:

通过梯度裁剪，限制策略参数的更新幅度，其公式如：

A＝Q(s,a)-V(s,a)

L^CLIP(θ)＝E[min(r(θ)A,clip(r(θ),1-ε,1+ε)A]

其中ε为超参数，A为优势函数，Q(s,a)代表在状态s下采取动作a的累积奖励值，V(s,a)为状态估计值。当优势函数A>0时，说明该动作比平均动作好，需要增大该动作选择概率，当A<0时，则需要减少该动作的选择概率。PPO算法较其他深度强化学习算法更保守，设置了上限为1+ε，下限为1-ε的区间限制策略参数更新幅度，保证新策略与旧策略相差不大。

分别计算策略损失熵与价值损失熵。策略损失熵与价值损失熵乘以相应权重获取最终的损失函数值，最后反向传播，更新策略参数,策略梯度参数更新公式为：

下面结合具体实施例对本发明作进一步的解释；

一种基于注意力和循环PPO实现的导航决策方法；包括以下步骤：启动仿真环境进行探索任务获取图像信息、对图像信息编码、对状态信息进行特征提取、智能体与环境交互获得一批数据保存至经验池、随机选取数据进行训练、通过可视化工具以及模型评估观察模型效果。

步骤2：将图像像素信息进行编码，压缩信息空间，根据提升算法训练速度，获取到编码数据：x₁,…,x_t。具体环境信息如表1-3所示：

表1环境颜色编码信息

颜色	红色	绿色	蓝色	紫色	黄色	灰色
							编号	0	1	2	3	4	5

表2环境目标物种类编码信息

目标物种类	不可见	无实物	墙	地板	门
						编号	0	1	2	3	4

表3环境目标物状态编码信息

目标物状态	开放	关闭	锁定
				编号	0	1	2

步骤3：用本专利提出的ARPPO模型对环境信息进行处理，其结构由卷积网络模块，注意力网络模块，循环神经网络模块以及基于PPO算法的Actor-Critic模块构成。ARPPO模型的结构图如图1所示。首先对智能体所获取的环境信息输入到CNN网络，使用多卷积核处理信息，再通过多头注意力网络模块突出重要且关键的信息，接着输入到LSTM网络获取数据的时域图形，ARPPO模型进行特征处理，使智能体获取到重要且关键的信息并形成长时记忆，最终分别输入到Actor网络获得动作及其对应的概率信息，输入到Critic网络中评估智能体表现。该环境的动作空间如表4所示。

表4环境动作空间列表

动作名称

left

Right

forward

pickup

drop

Toggle

动作内容

向左转

向右转

向前行进

拾取物体

丢弃物体

激活物体

编号

0

1

2

3

4

5

卷积模块由两层卷积网络构成。注意力模块由多头注意力网络层、全连接层、Norm层以及Dropout层构成。其中全连接层的计算公式为:

其中，w_i是全连接层中的权重系数，x_i是上一层第i个神经元的值，b_i是对应的偏置量。Norm层则是将数据进行归一化处理，其具体公式为：

μ为样本数据的标准差，σ²为数据的方差，极小量∈是为了防止标准差为0导致溢出。Dropout层防止模型过拟合,以此提升模型泛化能力，具体公式为：

其中Bernoulli(p)函数是以概率p生成概率向量r，然后将概率矩阵乘以输入矩阵y^(l)进行计算，然后经过全连接层得到输出结果最后通过激活函数得到新一次的迭代结果。

将注意力模块得到的输出结果输入到LSTM网络中提取数据的时域特性，然后特征处理的最终结果输入到Actor网络与Critic网络中。

步骤4：智能体每获取一次动作后，再将动作反馈给环境，智能体获得相应的新环境状态信息与即时奖励等信息数据。每当智能体与环境交互达到128次后，将训练所得数据(s_t,a_t,R_t,s_t+1)存入经验池，以供后续训练调用数据。

步骤5：从经验池中随机选取batch_size大小的样本数据，计算策略函数损失熵与价值函数损失熵以及优势函数等，通过梯度裁剪与泛化优势估计处理，最终整合求出最终的loss值，然后反向传播更新策略参数。为增大样本数据量，采用多环境并行运行为智能体提供训练数据。损失函数的计算公式如：

A＝Q(s,a)-V(s,a)

L^CLIP(θ)＝E[min(r(θ)A,clip(r(θ),1-ε,1+ε)A]

A为通过动作价值函数Q与价值函数V计算所得的优势函数，r(θ)为重要性采样权重，clip函数通过设置上限1+ε，下限1-ε对策略进行限制，避免策略发生剧烈变化。θ表示策略参数，通过找到使得截断损失函数L^CLIP(θ)期望值最大的策略参数进行更新。基于优势函数的Actor-Critic方法进行回报值估计，则会产生方差较小，而偏差较大的问题。本专利还采用了泛化优势估计(GAE)用于平衡方差与偏差，其公式为：

λ＝0时，advantage的GAE表示退化成时序差分方法(one-step TD)；λ＝1时，advantage的GAE表示退化成蒙特卡洛方法；λ在(0,1)区间时，表示在偏差和方差之间做出折衷。最后通过反向传播更新策略参数，实现智能体的探索任务。图2为模型的整个训练流程图。

步骤6：为了评价训练模型的好坏，设置了评估模型模块，即从智能体与交互100个episode中提取表现的最差10次获取的reward值，与PPO模型、Attention-PPO模型，LSTM-PPO模型进行比较，分析出各模型的优劣。还设置了相应的可视化模型评估，观察基于ARPPO模型在环境中的每一步决策，分析模型的好坏。

本发明还包括一种基于注意力与循环神经网络的ARPPO模型，它的结构为：

编码特征提取卷积模块的第一卷积层1→编码特征提取卷积模块的第二卷积层2→编码特征提取注意力模块的多头注意力层3→编码特征提取注意力模块的第一全连接层4→编码特征提取注意力模块的第一丢弃层5→编码特征提取注意力模块的第二全连接层6→编码特征提取注意力模块的第一标准化层7→编码特征提取注意力模块的第二标准化层8→编码特征提取注意力模块的第二丢弃层9→编码特征提取注意力模块的第三丢弃层10→编码特征提取循环神经网络模块的LSTM层11；

编码特征提取循环神经网络模块的LSTM层11→策略选择Actor网络模块的第一全连接层12→策略选择Actor网络模块的第二全连接层13；

编码特征提取循环神经网络模块的LSTM层11→状态价值评估Critic网络模块的第一全连接层14→动作价值评估Critic网络模块的第二全连接层15。

该模型在工作时，采用以下步骤：

1)从环境中获取的初始状态信息，使用卷积网络模块对图像编码信息进行初步特征提取，通过第一卷积网络层1与第二卷积网络层2，提取数据的深层多维信息；

2)将提取出的深层多维信息输入到注意力模块中；首先输入至多头注意力网络3中捕捉信息的关联性，在多个不同位置上提取特征信息中重要且关键的信息并拼接，然后通过第一全连接层4、第一丢弃层5进行特征处理并选择丢弃一部分数据防止出现过拟合现象，接着第二全连接层6实现上一层全连接层5的残差连接，使用第一标准化层7、第二标准化层8进行层归一化处理，解决层与层之间梯度的稳定性问题，最终再通过第二丢弃层9、第三丢弃层10丢弃部分数据，防止过拟合；

3)将注意力模块输出的特征信息输入到循环神经网络模块的LSTM层11，通过引入LSTM网络提取数据的时域特性，使得智能体在探索过程中形成长时记忆；

4)最后将循环神经网络模块的输出特征输入到Actor网络模块与Critic网络模块，Actor网络模块通过第一全连接层12进行特征信息综合，接着通过第二全连接层13获取智能体所采取的动作及其概率分布，Critic网络模块使用第一全连接层14综合特征信息，最后使用第二全连接层15对智能体所处当前状态进行价值评分。

Claims

1.一种基于注意力和循环PPO实现的导航决策方法，其特征在于，它包括以下步骤：

步骤1：智能体与环境交互获取环境图像数据信息；

2.根据权利要求1所述的方法，其特征在于，步骤2具体包括以下子步骤：

3.根据权利要求1所述的方法，其特征在于，在步骤3中，构建两层CNN卷积网层，使用多个卷积核对环境编码信息进行特征处理，采用的CNN卷积网络公式为：

x^t＝σ_cnn(w_cnn⊙x_t+b_cnn)

4.根据权利要求1所述的方法，其特征在于，在步骤4中，具体包括以下子步骤：

Q＝XW^Q

K＝XW^K

V＝XW^V

Multi(Q,K,V)＝Concat(head_i,…,head_i)W^O

公式中Q表示查询矩阵，K表示键矩阵，V表示值矩阵，它们由输入的特征向量X分别与对应的权重矩阵W^Q,W^K,W^V相乘所得，Attention(Q,K,V)表示注意力公式，由矩阵Q与矩阵K的转秩相乘的结果除以矩阵Q,K,V维数的平方根，然后乘以矩阵V所得，softmax表示激活函数，head_i表示第i个头部的注意力信息，W_i ^Q表示第i个头部对应Q的权重矩阵，表示第i个头部对应K的权重矩阵，/>表示第i个头部对应V的权重矩阵，Multi(Q,K,V)表示通过Concat连接函数整合各头部重要信息的多头注意力特征信息，W^O表示计算头部注意力实例线性变换的矩阵；

f_t＝σ(W_fx_t+U_fh_t-1+b_f)

i_t＝σ(W_ix_t+U_ih_t-1+b_i)

o_t＝σ(W_ox_t+U_oh_t-1+b_o)

5.根据权利要求1所述的方法，其特征在于，

6.根据权利要求1所述的方法，其特征在于，在步骤7中，包括以下子步骤：

A＝Q(s,a)-V(s,a)

L^CLIP(θ)＝E[min(r(θ)A,clip(r(θ),1-ε,1+ε)a]

7.一种基于注意力与循环神经网络的ARPPO模型，其特征在于，它的结构为：

编码特征提取卷积模块的第一卷积层(1)→编码特征提取卷积模块的第二卷积层(2)→编码特征提取注意力模块的多头注意力层(3)→编码特征提取注意力模块的第一全连接层(4)→编码特征提取注意力模块的第一丢弃层(5)→编码特征提取注意力模块的第二全连接层(6)→编码特征提取注意力模块的第一标准化层(7)→编码特征提取注意力模块的第二标准化层(8)→编码特征提取注意力模块的第二丢弃层(9)→编码特征提取注意力模块的第三丢弃层(10)→编码特征提取循环神经网络模块的LSTM层(11)；

编码特征提取循环神经网络模块的LSTM层(11)→策略选择Actor网络模块的第一全连接层(12)→策略选择Actor网络模块的第二全连接层(13)；

编码特征提取循环神经网络模块的LSTM层(11)→状态价值评估Critic网络模块的第一全连接层(14)→动作价值评估Critic网络模块的第二全连接层(15)。

8.根据权利要求7所述的模型，其特征在于，该模型在工作时，采用以下步骤：

1)从环境中获取的初始状态信息，使用卷积网络模块对图像编码信息进行初步特征提取，通过第一卷积网络层(1)与第二卷积网络层(2)，提取数据的深层多维信息；

2)将提取出的深层多维信息输入到注意力模块中；首先输入至多头注意力网络(3)中捕捉信息的关联性，在多个不同位置上提取特征信息中重要且关键的信息并拼接，然后通过第一全连接层(4)、第一丢弃层(5)进行特征处理并选择丢弃一部分数据防止出现过拟合现象，接着第二全连接层(6)实现上一层全连接层(5)的残差连接，使用第一标准化层(7)、第二标准化层(8)进行层归一化处理，解决层与层之间梯度的稳定性问题，最终再通过第二丢弃层(9)、第三丢弃层(10)丢弃部分数据，防止过拟合；

3)将注意力模块输出的特征信息输入到循环神经网络模块的LSTM层(11)，通过引入LSTM网络提取数据的时域特性，使得智能体在探索过程中形成长时记忆；

4)最后将循环神经网络模块的输出特征输入到Actor网络模块与Critic网络模块，Actor网络模块通过第一全连接层(12)进行特征信息综合，接着通过第二全连接层(13)获取智能体所采取的动作及其概率分布，Critic网络模块使用第一全连接层(14)综合特征信息，最后使用第二全连接层(15)对智能体所处当前状态进行价值评分。