CN115392438B

CN115392438B - 基于多Agent环境的深度强化学习算法、设备和存储介质

Info

Publication number: CN115392438B
Application number: CN202211114004.3A
Authority: CN
Inventors: 王旭; 周诗佳; 张宇; 尤天舒; 徐勇; 富倩; 孙伟; 李力东; 杜丽英; 戴传祗
Original assignee: Jilin Jianzhu University
Current assignee: Jilin Jianzhu University
Priority date: 2022-09-14
Filing date: 2022-09-14
Publication date: 2023-07-07
Anticipated expiration: 2042-09-14
Also published as: CN115392438A

Abstract

本申请提供一种基于多Agent环境的深度强化学习算法、设备和存储介质，涉及深度强化学习算法技术领域；通过步骤S101、利用Agent中的目标网络，基于初始状态信息和动作信息，确定时间差分；步骤S102、根据预设的遮盖率，对初始状态信息进行随机遮盖，得到目标状态信息，利用Agent中的预测网络，以及时间差分，确定误差值；步骤S103：基于误差值，以及自适应修改参数，对Agent中的预测网络和目标网络各自对应的加权值进行更新；步骤S104：重复步骤S102和步骤S103预设次数，确定目标加权值，从而确定目标深度强化学习模型。具有保证了样本学习效率，并通过自适应修改参数对深度强化学习模型中的Agent进行迭代更新，以提高收敛速度的效果。

Description

基于多Agent环境的深度强化学习算法、设备和存储介质

技术领域

本申请涉及深度强化学习算法技术领域，具体而言，涉及一种基于多Agent环境的深度强化学习算法、装置和存储介质。

背景技术

多Agent强化学习是指在多Agent环境中，使用强化学习的算法使得智能体之间可以像人一样进行协作交流，达到智能博弈的效果。

目前多智能体深度确定性策略梯度(MADDPG，Multi-AgentDeep DeterministicPolicy Gradient)在Agent环境中具有较强的收敛性、复杂环境适应性以及自我学习能力，但随着Agent数量的增加，多Agent之间的管理交互的难度会呈现指数级上升，而且对于样本的利用与探索之间的权衡往往二者不可兼得，对于有价值的样本可能会被覆盖或遗忘，导致重要样本利用率不高，从而影响MADDPG在多Agent环境中的收敛速度以及收敛的奖励幅度。

发明内容

为了解决随着Agent数量的增加，多Agent之间的管理交互的难度会呈现指数级上升，而且对于样本的利用与探索之间的权衡往往二者不可兼得，对于有价值的样本可能会被覆盖或遗忘，导致重要样本利用率不高，从而影响MADDPG在多Agent环境中的收敛速度以及收敛的奖励幅度的问题，本申请提供了一种基于多Agent环境的深度强化学习算法、设备和存储介质。

本申请的实施例是这样实现的：

本申请实施例的提供一种基于多Agent环境的深度强化学习算法，应用于多Agent环境中的深度强化学习模型，所述深度强化学习算法包括：

步骤S101、利用所述Agent中的目标网络，基于智能体样本的初始状态信息，确定时间差分；

步骤S102、根据预设的遮盖率，对所述初始状态性信息进行随机遮盖，得到目标状态信息；利用所述Agent中的预测网络，根据所述目标状态信息、智能体样本的动作信息以及所述时间差分，确定误差值；

步骤S103：基于所述误差值，以及自适应修改参数，对所述Agent中的预测网络和目标网络各自对应的加权值进行更新；

步骤S104：重复步骤S102和步骤S103至预设次数，确定目标加权值，根据所述目标加权值确定目标深度强化学习模型。

上述方案中，所述目标网络包括目标actor网络和目标critic网络；

所述利用所述Agent中的目标网络，基于智能体样本的初始状态信息，确定时间差分，包括：

将所述初始状态信息输入至所述目标actor网络中进行预测，得到当前策略信息；

将所述初始状态信息和所述当前策略信息输入至所述目标critic网络中进行评价，得到对应的当前价值信息；

根据所述当前价值信息以及预设的环境奖惩参数，确定所述时间差分。

上述方案中，所述预测网络包括critic网络；

所述利用所述Agent中的预测网络，根据所述目标状态信息、智能体样本的动作信息以及所述时间差分，确定误差值，包括：

将所述目标状态信息和所述动作信息输入至所述critic网络中进行预测，得到目标价值信息；

根据所述目标价值信息和所述时间差分，确定所述误差值。

上述方案中，所述预测网络包括actor网络；

所述基于所述误差值，以及自适应修改参数，对所述Agent中的预测网络和目标网络各自对应的加权值进行更新，包括：

基于所述误差值，对所述critic网络的加权值进行更新；

对所述动作信息进行抽样，得到目标动作信息，根据所述目标动作信息对所述actor网络的加权值进行更新；

根据更新后的所述critic网络的加权值和更新后的所述actor网络的加权值，以及所述自适应修改参数，对所述目标actor网络和所述目标critic网络各自对应的加权值进行更新。

上述方案中，所述根据更新后的所述critic网络的加权值和更新后的所述actor网络的加权值，以及所述自适应修改参数，对所述目标actor网络和所述目标critic网络各自对应的加权值进行更新，包括：

基于预设的自适应加权平均更新模型，确定所述自适应修改参数；

根据所述自适应修改参数，确定网络更新模型；

根据网络更新模型，以及所述更新后的所述critic网络的加权值和所述更新后的所述actor网络的加权值，对所述目标actor网络和所述目标critic网络对应的加权值进行更新。

上述方案中，所述自适应加权平均更新模型为：

其中，τ代表所述自适应修改参数

batch为智能体样本个数，Q_i为所述当前价值信息，/>

为目标价值信息。

上述方案中，所述更新模型为：

ω′＝τω+(1-τ)ω′#

其中，τ代表所述自适应修改参数，τ小于等于1，ω＝(ω₁，...，ω_n}是所述预测值的集合，ω′＝(ω′₁，...，ω′_n}是所述目标值的集合。

上述方案中，所述根据所述目标加权值确定目标深度强化学习模型，包括：

根据所述目标加权值，分别对更新后所述critic网络的网络参数和更新后的所述actor网络的网络参数进行软拷贝，得到新的目标critic网络和新的目标actor网络；从而确定目标深度强化学习模型。

本申请实施例的还提供一种存储介质，包括所述存储介质中存储有至少一条指令，所示指令由处理器加载并执行以实现上述任一实施例所述基于多Agent环境中的深度强化学习算法。

本申请实施例的提供一种设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令，所示指令由处理器加载并执行以实现上述任一实施例所述基于多Agent环境中的深度强化学习算法。

本申请实施例提供一种基于多Agent环境的深度强化学习算法、设备和存储介质，其中，基于多Agent环境的深度强化学习算法，应用于多Agent环境中的深度强化学习模型，通过步骤S101、利用Agent中的目标网络，基于初始状态信息和动作信息，确定时间差分；步骤S102、根据预设的遮盖率，对初始状态信息进行随机遮盖，得到目标状态信息，利用Agent中的预测网络，以及时间差分，确定误差值；步骤S103：基于误差值，以及自适应修改参数，对Agent中的预测网络和目标网络各自对应的加权值进行更新；步骤S104：重复步骤S102和步骤S103预设次数，确定目标加权值，根据目标加权值确定目标深度强化学习模型。本申请实施例通过随机遮盖智能体样本的初始状态信息，使得每个Agent都有可能分配到智能体样本的状态信息，降低了Agent中critic网络的训练压力，同时也保证了智能体样本的样本学习效率，在对初始状态信息进行随机遮盖的基础上，通过自适应修改参数对深度强化学习模型中的Agent进行迭代更新，可以提高收敛速度，保证收敛的奖励幅度。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例中基于多Agent环境的深度强化学习算法的流程示意图之一；

图2为本申请实施例中多Agent环境的深度强化学习模型的网络结构示意图；

图3为本申请实施例中基于多Agent环境的深度强化学习算法的流程示意图之二；

图4为本申请实施例中实验模型环境simple_tag模型示意图；

图5为本申请实施例中实验模型环境simple_spread模型示意图；

图6为本申请实施例提供的SMMADDPG神经网络模型在simple_spread模型中与基于多Agent环境的深度强化学习算法、DDPG算法和MADDPG算法所有智能体奖励之和收敛对比分析结果示意图；

图7为本申请实施例提供的SMMADDPG神经网络模型在simple_tag模型中与基于多Agent环境的深度强化学习算法、DDPG算法和MADDPG算法捕食者智能体奖励之和收敛对比分析结果示意图；

图8为本申请实施例提供的SMMADDPG神经网络模型在simple_tag模型中与基于多Agent环境的深度强化学习算法、DDPG算法和MADDPG算法猎物智能体奖励之和收敛对比结果示意图；

图9为本申请实施例提供的SMMADDPG神经网络模型在simple_tag模型中与基于多Agent环境的深度强化学习算法、DDPG算法和MADDPG算法所有智能体奖励之和收敛对比分析结果示意图；

图10为本申请实施例提供的一种设备的实体结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例中基于多Agent环境的深度强化学习算法的流程示意图之一，如图1所示，本申请实施例的提供一种基于多Agent环境的深度强化学习算法，应用于多Agent环境中的深度强化学习模型，深度强化学习算法包括：

S101、利用Agent中的目标网络，基于智能体样本的初始状态信息，确定时间差分。

本申请实施例中，S101还可以包括：

S1011、将初始状态信息输入至目标actor网络中进行预测，得到当前策略信息。

S1012、将初始状态信息和当前策略信息输入至目标critic网络中进行评价，得到对应的当前价值信息。

S1013、根据当前价值信息以及预设的环境奖惩参数，确定时间差分。

本申请实施例中，图2为本申请实施例中多Agent环境的深度强化学习模型的网络结构示意图，如图2所示，多Agent环境中的深度强化学习模型包括至少两个Agent，至少两个Agent包括Agent₁，Agent₂，Agent_i和Agent_N，每个Agent包括actor网络、critic网络，目标actor(TargeActor)网络和目标critic(Targecritic)网络。设输入至Agent的信息为O,而Agent输出的信息为a，示例性的，输入至Agent₁的信息为O₁，输出的信息为a₁；输入至Agent₂的信息为O₂，输出的信息为a₂；输入至Agent_i的信息为O_i，输出的信息为a_i；输入至Agent_N的信息为O_N，输出的信息为a_N。

本申请实施例中，智能体样本的状态信息和动作信息将输入至Agent的critic网络的输入层中，critic网络对接收到的状态信息和动作信息进行学习，并将学习结果发送至actor网络，由actor网络进行预测；通过对actor网络的网络参数将按照加权值进行软拷贝，得到目标actor网络，通过对critic网络的网络参数将按照加权值进行软拷贝，得到目标critic网络。

S102、根据预设的遮盖率，对初始状态性信息进行随机遮盖，得到目标状态信息；利用Agent中的预测网络，根据目标状态信息、智能体样本的动作信息以及时间差分，确定误差值。

本申请实施例中，S102还可以包括：

S1021、将目标状态信息和动作信息输入至critic网络中进行预测，得到目标价值信息。

S1022、根据目标价值信息和时间差分，确定误差值。

可以理解的是，通过随机遮盖智能体样本的初始状态信息，使得每个Agent都有可能分配到智能体样本的状态信息，降低了Agent中critic网络的训练压力，同时也保证了智能体样本的样本学习效率，且在对初始状态信息进行随机遮盖的基础上，通过自适应修改参数对深度强化学习模型中的Agent进行迭代更新，可以提高收敛速度，保证收敛的奖励幅度。

S103、基于误差值，以及自适应修改参数，对Agent中的预测网络和目标网络各自对应的加权值进行更新。

本申请实施例中，S103还包括：

S1031、基于误差值，对critic网络的加权值进行更新；

S1032、对动作信息进行抽样，得到目标动作信息，根据目标动作信息对actor网络的加权值进行更新；

S1033、根据更新后的所述critic网络的加权值和更新后的所述actor网络的加权值，以及自适应修改参数，对目标actor网络和目标critic网络各自对应的加权值进行更新。

本申请的一些实施例中，S1033还包括：

S10331、基于预设的自适应加权平均更新模型，确定自适应修改参数。

自适应加权平均更新模型如公式(1-1)所示：

其中，τ代表自适应修改参数，ratio表示预测网络和目标网络的绝对平均值差距比例，

batch为智能体样本个数，Q_i为第i个智能体样本对应的当前价值信息，/>

为第i个智能体样本对应的目标价值信息。

S10332、根据自适应修改参数，确定网络更新模型。

更新模型如公式(1-2)所示：

ω'＝τω+(1-τ)ω' (1-2)

其中，τ代表自适应修改参数，τ小于等于1，ω＝{ω₁，...，ω_n}是预测值的集合，ω′＝{ω′₁，...，ω′_n}是目标值的集合。

S10333、根据网络更新模型，以及更新后的所述critic网络的加权值和更新后的所述actor网络的加权值，对目标actor网络和目标critic网络对应的加权值进行更新。

S104、重复步骤S102和步骤S103至预设次数，确定目标加权值，根据目标加权值确定目标深度强化学习模型。

可以理解的是，通过随机遮盖智能体样本的初始状态信息，使得每个Agent都有可能分配到智能体样本的状态信息，降低了Agent中critic网络的训练压力，同时也保证了智能体样本的样本学习效率，且在对初始状态信息进行随机遮盖的基础上，通过自适应修改参数对深度强化学习模型中的Agent中的预测网络对应的加权值进行迭代更新，之后根据预测网络每次更新后的加权值，通过软拷贝的方式对目标网络各自对应的加权值进行更新，从而实现对目标网络各自对应的加权值的迭代更新，得到目标深度强化学习模型，该过程中，自适应修改参数的加入，提高了深度强化学习模型的收敛速度，保证收敛的奖励幅度。

图3为本申请实施例中基于多Agent环境的深度强化学习算法的流程示意图之二，如图3所示，本申请实施例的提供一种基于多Agent环境的深度强化学习算法，包括：

S201、对全局状态信息(智能体样本的初始状态信息)随机遮盖以得到局部随机智能体状态信息(目标状态信息)，并将局部随机智能体状态信息输入SMMADDPG(Soft MaskedMulti-Agent Deep Deterministic Policy Gradient，遮盖软更新多智能体深度策略梯度)模型(基于多Agent环境的深度强化学习算法)中的价值(critic)网络。

本申请的一些实施例中，S201中将全局状态信息更改为局部随机智能体状态信息的过程为：首先根据预设的遮盖率进行随机遮盖输入进critic网络输入层的全局状态信息；并对于所有智能体的动作信息(action)不进行遮盖；以保留初始顺序，将随机覆盖后的全局状态信息和所有智能体的动作信息输入至critic网络。其中，策略(actor)网络和critic网络的更新方式均采用MADDPG(Multi-Agent Deep Deterministic PolicyGradient，智能体深度策略梯度)算法的更新方式。

S202、使用的Polyak平均更新进行参数自适应式修改，以对目标网络(目标critic网络和目标actor网络)和预测网络(critic网络和actor网络)进行更新。

S203、目标网络的权重(加权值)通过缓慢追踪当前状态的预测网络的权重(加权值)，根据公式(1-1)和公式(1-2)进行更新，

本申请的一些实施例中，本申请实施例的提供一种基于多Agent环境的深度强化学习算法，应用于SMMADDPG神经网络模型，其中，SMMADDPG神经网络模型得到参数可以如表1-1所示：

表1-1 SMMADDPG神经网络模型参数

在本申请的一些实施例中，设SMMADDPG神经网络模型中的目标actor网络、目标critic网络、actor网络和critic网络均设有m个，基于多Agent环境的深度强化学习算法包括：

S301、从经验回放数组中随机抽取一个四元组(s_t,a_t,r_t,s_t+1)；其中，s_t表示每个智能体样本当前的状态信息，a_t表示智能体样本当前的动作信息，)r_t表示当前的环境的奖惩参数，s_t+1表示每个智能体样本下一状态的状态。

S302、让m个目标actor网络做预测，得到

S303、让m个目标critic网络做出预测，得到

S304、计算时间差分(Temporal-Difference，TD)目标：

S305、通过random函数对全部初始状态信息s_t随机遮盖获取

将/>

输入至m个critic网络作预测：/>

其中，是/>

的公式如式(1-3)所示：

S306、计算TD误差：

S307、更新m个actor网络：

S308、让m个critic网络做预测：

S309、更新m个critic网络：

S310、更新m个目标actor网络和m个目标critic网络，更新方式与S203相同，此处不再赘述。

在本申请的一些实施例中，本申请实施例将OpenAI的经典多Agent环境模型中的simple_tag以及simple_spread作为实验模拟环境，基于多Agent环境的深度强化学习算法与现有的DDPG算法、MADDPG算法对SMMADDPG神经网络模型进行实验性的对比分析。

在本申请的一些实施例中，图4为本申请实施例中实验模型环境simple_tag模型示意图，如图4所示，simple_tag模型中，一共有10个智能体，其中3个绿色方作为猎物智能体，另外7个红色方作为捕食者智能体。猎物的速度要快于捕食者的速度，障碍物用于阻挡所有的智能体，属于合作于竞争模型。图5为本申请实施例中实验模型环境simple_spread模型示意图，如图5所示，simple_spread模型中有7个绿色方智能体，7个绿色方智能体要求实现到达7个目标地点，并且在去往目标地点的过程中所有的智能体互相之间都不能发生碰撞，属于合作模型。

在本申请的一些实施例中，SMMADDPG神经网络模型的运行环境如表1-2所示：

表1-2 SMMADDPG神经网络模型运行环境

开发工具	软件名称
		操作系统	Linux
编程语言	Python 3
		深度学习框架	Pytouch 1.8.2
集成开发环境	Visual Studio Code
		实验环境	Gym 0.10.0

在本申请的一些实施例中，在SMMADDPG神经网络模型训练过程中，部分超参数的设置如表1-3所示：

表1-3 SMMADDPG神经网络模型部分超参数设置

参数名称	参数值	参数说明
			learning start step	10000	训练的起始点
max grad norm	0.5	最大梯度范数
			tao	0.01	网络更新参数
gamma	0.97	critic网络Q值更新系数
			mae_ratio	0.5	tao参数更新系数
lr_a	1e-2	actor网络学习率
			lr_c	1e-2	critic网络学习率
batch_size	1256	一次训练所需样本数量
			memory_size	1e6	经验池存储大小

在本申请的一些实施例中，通过在simple_spread模型、simple_tag模型设置多个Agent进行协同博弈，确定基于多Agent环境的深度强化学习算法与现有的DDPG算法、MADDPG算法对SMMADDPG神经网络模型进行实验性的对比，得到对应的DDPG_returns、MADDPG_returns和SMMADDPG_returns，DDPG_returns、MADDPG_returns和SMMADDPG_returns的对比结果如表1-4、表1-5、表1-6、表1-7所示。

表1-4 SMMADDPG神经网络模型在simple_spread模型中与基于多Agent环境的深度强化学习算法、DDPG算法和MADDPG算法所有智能体奖励之和收敛对比

	DDPG_returns	MADDPG_returns	SMMADDPG_returns
				第2380轮	-9992.915	-9871.902	-8970.568
第3120轮	-9709.073	-9591.725	-8868.610
				第7800轮	-9454.473	-9525.316	-9062.522
第15400轮	-9320.185	-9339.938	-8672.810
				第20000轮	-9522.361	-9309.346	-8608.862

表1-5 SMMADDPG神经网络模型在simple_tag模型中与基于多Agent环境的深度强化学习算法、DDPG算法和MADDPG算法捕食者智能体奖励之和收敛对比

	DDPG_returns	MADDPG_returns	SMMADDPG_returns
				第2380轮	529.183	312.881	344.574
第3120轮	612.858	307.614	730.809
				第7800轮	466.511	737.071	381.803
第15400轮	561.646	482.969	303.819
				第18000轮	486.470	484.048	299.504

表1-6 SMMADDPG神经网络模型在simple_tag模型中与基于多Agent环境的深度强化学习算法、DDPG算法和MADDPG算法猎物智能体奖励之和收敛对比

	DDPG_returns	MADDPG_returns	SMMADDPG_returns
				第2380轮	-30.66	-17.61	-21.76
第3120轮	-31.92	-12.65	-46.03
				第7800轮	-26.65	-37.60	-30.31
第15400轮	-25.79	-25.48	-28.03
				第18000轮	-27.16	-27.97	-30.03

表1-7 SMMADDPG神经网络模型在simple_tag模型中与基于多Agent环境的深度强化学习算法、DDPG算法和MADDPG算法所有智能体奖励之和收敛对比

	DDPG_returns	MADDPG_returns	SMMADDPG_returns
				第2380轮	89.65	53.77	58.39
第3120轮	104.32	53.02	123.07
				第7800轮	81.96	123.57	66.83
第15400轮	95.53	83.92	55.18
				第18000轮	83.52	83.52	54.67

可以理解的是，图6为本申请实施例提供的SMMADDPG神经网络模型在simple_spread模型中与基于多Agent环境的深度强化学习算法、DDPG算法和MADDPG算法所有智能体奖励之和收敛对比分析结果示意图，图7为本申请实施例提供的SMMADDPG神经网络模型在simple_tag模型中与基于多Agent环境的深度强化学习算法、DDPG算法和MADDPG算法捕食者智能体奖励之和收敛对比分析结果示意图，图8为本申请实施例提供的SMMADDPG神经网络模型在simple_tag模型中与基于多Agent环境的深度强化学习算法、DDPG算法和MADDPG算法猎物智能体奖励之和收敛对比结果示意图，图9为本申请实施例提供的SMMADDPG神经网络模型在simple_tag模型中与基于多Agent环境的深度强化学习算法、DDPG算法和MADDPG算法所有智能体奖励之和收敛对比分析结果示意图，如图6、图7、图8和图9所示，结合表1-4、表1-5、表1-6和表1-7，可以得到相较于现有技术中DDPG算法和MADDPG算法，本申请实施例提供的基于多Agent环境的深度强化学习算法通过随机遮盖智能体样本的初始状态信息，使得每个Agent都有可能分配到智能体样本的状态信息，降低了Agent中critic网络的训练压力，同时也保证了智能体样本的样本学习效率，在对初始状态信息进行随机遮盖的基础上，通过自适应修改参数对深度强化学习模型中的Agent进行迭代更新，可以提高收敛速度，保证收敛的奖励幅度。

图10为本申请实施例提供的一种设备的实体结构示意图，如图10所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行上述任一实施例所述基于多Agent环境中的深度强化学习算法。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于多Agent环境的深度强化学习算法，其特征在于，应用于多Agent环境中的深度强化学习模型，所述深度强化学习算法包括：

步骤S101、利用所述Agent中的目标网络，基于智能体样本的初始状态信息，确定时间差分；所述智能体样本为猎物智能体和捕食者智能体；所述Agent中的目标网络用于基于所述智能体样本，模拟所述猎物智能体和所述捕食者智能体在障碍环境中的竞争路径或合作路径；所述Agent中的目标网络包括目标critic网络和目标actor网络；所述时间差分基于当前价值信息以及预设的环境奖惩参数确定；所述当前价值信息基于所述目标critic网络对所述初始状态信息和当前策略信息进行评价得到；所述当前策略信息基于所述目标actor网络对所述初始状态信息进行预测得到；

步骤S102、根据预设的遮盖率，对所述初始状态信息进行随机遮盖，得到目标状态信息；利用所述Agent中的预测网络，根据所述目标状态信息、智能体样本的动作信息以及所述时间差分，确定误差值；预设的所述遮盖率基于random函数对所述初始状态信息随机遮盖后，所述Agent中的预测网络对遮盖后的初始状态信息进行预测得到；

步骤S103：基于所述误差值，以及自适应修改参数，对所述Agent中的预测网络和所述Agent中的目标网络各自对应的加权值进行更新；

步骤S104：重复步骤S102和步骤S103至预设次数，确定目标加权值，根据所述目标加权值确定目标深度强化学习模型；所述目标深度强化学习模型用于确定猎物智能体和捕食者智能体在障碍环境下的合作路径或竞争路径。

2.根据权利要求1所述的基于多Agent环境的深度强化学习算法，其特征在于，所述Agent中的目标网络包括目标actor网络和目标critic网络；

3.根据权利要求1所述的基于多Agent环境的深度强化学习算法，其特征在于，所述Agent中的预测网络包括critic网络；

将所述目标状态信息和所述智能体样本的动作信息输入至所述critic网络中进行预测，得到目标价值信息；

根据所述目标价值信息和所述时间差分，确定所述误差值。

4.根据权利要求3所述的基于多Agent环境的深度强化学习算法，其特征在于，所述Agent中的预测网络包括actor网络；

所述基于所述误差值，以及自适应修改参数，对所述Agent中的预测网络和所述Agent中的目标网络各自对应的加权值进行更新，包括：

基于所述误差值，对所述critic网络的加权值进行更新；

对所述智能体样本的动作信息进行抽样，得到目标动作信息，根据所述目标动作信息对所述actor网络的加权值进行更新；

根据更新后的actor网络的加权值和更新后的critic网络的加权值，以及所述自适应修改参数，对所述目标actor网络和所述目标critic网络各自对应的加权值进行更新。

5.根据权利要求4所述的基于多Agent环境的深度强化学习算法，其特征在于，所述根据更新后的critic网络的加权值和更新后的actor网络的加权值，以及所述自适应修改参数，对所述目标actor网络和所述目标critic网络各自对应的加权值进行更新，包括：

根据所述自适应修改参数，确定网络更新模型；

根据网络更新模型，以及所述更新后的critic网络的加权值和所述更新后的actor网络的加权值，对所述目标actor网络和所述目标critic网络各自对应的加权值进行更新。

6.根据权利要求5所述的基于多Agent环境的深度强化学习算法，其特征在于，所述自适应加权平均更新模型为：

；

其中，

代表所述自适应修改参数，/>

，batch为智能体样本个数，/>

为第i个智能体样本对应的所述当前价值信息，/>

为第i个智能体样本对应的所述目标价值信息。

7.根据权利要求5或6所述的基于多Agent环境的深度强化学习算法，其特征在于，所述网络更新模型为：

；

其中，

代表所述自适应修改参数，/>

小于等于1，/>

是所述预测值的集合，/>

是所述目标值的集合。

8.根据权利要求4所述的基于多Agent环境的深度强化学习算法，其特征在于，所述根据所述目标加权值确定目标深度强化学习模型，包括：

根据所述目标加权值，分别对更新后的critic网络的网络参数和更新后的actor网络的网络参数进行软拷贝，得到新的目标critic网络和新的目标actor网络；从而确定目标深度强化学习模型。

9.一种存储介质，其特征在于，包所述存储介质中存储有至少一条指令，所示指令由处理器加载并执行以实现如权利要求1-8任一项所述基于多Agent环境中的深度强化学习算法。

10.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所示指令由处理器加载并执行以实现如权利要求1-8任一项所述基于多Agent环境中的深度强化学习算法。