CN115392438B - 基于多Agent环境的深度强化学习算法、设备和存储介质 - Google Patents
基于多Agent环境的深度强化学习算法、设备和存储介质 Download PDFInfo
- Publication number
- CN115392438B CN115392438B CN202211114004.3A CN202211114004A CN115392438B CN 115392438 B CN115392438 B CN 115392438B CN 202211114004 A CN202211114004 A CN 202211114004A CN 115392438 B CN115392438 B CN 115392438B
- Authority
- CN
- China
- Prior art keywords
- network
- target
- agent
- reinforcement learning
- deep reinforcement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 75
- 230000004048 modification Effects 0.000 claims abstract description 30
- 238000012986 modification Methods 0.000 claims abstract description 30
- 230000009471 action Effects 0.000 claims abstract description 24
- 230000003044 adaptive effect Effects 0.000 claims description 16
- 244000062645 predators Species 0.000 claims description 8
- 230000007613 environmental effect Effects 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 2
- 230000002860 competitive effect Effects 0.000 claims 1
- 238000000034 method Methods 0.000 abstract description 12
- 238000003062 neural network model Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 15
- 238000012549 training Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Business, Economics & Management (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供一种基于多Agent环境的深度强化学习算法、设备和存储介质,涉及深度强化学习算法技术领域;通过步骤S101、利用Agent中的目标网络,基于初始状态信息和动作信息,确定时间差分;步骤S102、根据预设的遮盖率,对初始状态信息进行随机遮盖,得到目标状态信息,利用Agent中的预测网络,以及时间差分,确定误差值;步骤S103:基于误差值,以及自适应修改参数,对Agent中的预测网络和目标网络各自对应的加权值进行更新;步骤S104:重复步骤S102和步骤S103预设次数,确定目标加权值,从而确定目标深度强化学习模型。具有保证了样本学习效率,并通过自适应修改参数对深度强化学习模型中的Agent进行迭代更新,以提高收敛速度的效果。
Description
技术领域
本申请涉及深度强化学习算法技术领域,具体而言,涉及一种基于多Agent环境的深度强化学习算法、装置和存储介质。
背景技术
多Agent强化学习是指在多Agent环境中,使用强化学习的算法使得智能体之间可以像人一样进行协作交流,达到智能博弈的效果。
目前多智能体深度确定性策略梯度(MADDPG,Multi-AgentDeep DeterministicPolicy Gradient)在Agent环境中具有较强的收敛性、复杂环境适应性以及自我学习能力,但随着Agent数量的增加,多Agent之间的管理交互的难度会呈现指数级上升,而且对于样本的利用与探索之间的权衡往往二者不可兼得,对于有价值的样本可能会被覆盖或遗忘,导致重要样本利用率不高,从而影响MADDPG在多Agent环境中的收敛速度以及收敛的奖励幅度。
发明内容
为了解决随着Agent数量的增加,多Agent之间的管理交互的难度会呈现指数级上升,而且对于样本的利用与探索之间的权衡往往二者不可兼得,对于有价值的样本可能会被覆盖或遗忘,导致重要样本利用率不高,从而影响MADDPG在多Agent环境中的收敛速度以及收敛的奖励幅度的问题,本申请提供了一种基于多Agent环境的深度强化学习算法、设备和存储介质。
本申请的实施例是这样实现的:
本申请实施例的提供一种基于多Agent环境的深度强化学习算法,应用于多Agent环境中的深度强化学习模型,所述深度强化学习算法包括:
步骤S101、利用所述Agent中的目标网络,基于智能体样本的初始状态信息,确定时间差分;
步骤S102、根据预设的遮盖率,对所述初始状态性信息进行随机遮盖,得到目标状态信息;利用所述Agent中的预测网络,根据所述目标状态信息、智能体样本的动作信息以及所述时间差分,确定误差值;
步骤S103:基于所述误差值,以及自适应修改参数,对所述Agent中的预测网络和目标网络各自对应的加权值进行更新;
步骤S104:重复步骤S102和步骤S103至预设次数,确定目标加权值,根据所述目标加权值确定目标深度强化学习模型。
上述方案中,所述目标网络包括目标actor网络和目标critic网络;
所述利用所述Agent中的目标网络,基于智能体样本的初始状态信息,确定时间差分,包括:
将所述初始状态信息输入至所述目标actor网络中进行预测,得到当前策略信息;
将所述初始状态信息和所述当前策略信息输入至所述目标critic网络中进行评价,得到对应的当前价值信息;
根据所述当前价值信息以及预设的环境奖惩参数,确定所述时间差分。
上述方案中,所述预测网络包括critic网络;
所述利用所述Agent中的预测网络,根据所述目标状态信息、智能体样本的动作信息以及所述时间差分,确定误差值,包括:
将所述目标状态信息和所述动作信息输入至所述critic网络中进行预测,得到目标价值信息;
根据所述目标价值信息和所述时间差分,确定所述误差值。
上述方案中,所述预测网络包括actor网络;
所述基于所述误差值,以及自适应修改参数,对所述Agent中的预测网络和目标网络各自对应的加权值进行更新,包括:
基于所述误差值,对所述critic网络的加权值进行更新;
对所述动作信息进行抽样,得到目标动作信息,根据所述目标动作信息对所述actor网络的加权值进行更新;
根据更新后的所述critic网络的加权值和更新后的所述actor网络的加权值,以及所述自适应修改参数,对所述目标actor网络和所述目标critic网络各自对应的加权值进行更新。
上述方案中,所述根据更新后的所述critic网络的加权值和更新后的所述actor网络的加权值,以及所述自适应修改参数,对所述目标actor网络和所述目标critic网络各自对应的加权值进行更新,包括:
基于预设的自适应加权平均更新模型,确定所述自适应修改参数;
根据所述自适应修改参数,确定网络更新模型;
根据网络更新模型,以及所述更新后的所述critic网络的加权值和所述更新后的所述actor网络的加权值,对所述目标actor网络和所述目标critic网络对应的加权值进行更新。
上述方案中,所述自适应加权平均更新模型为:
上述方案中,所述更新模型为:
ω′=τω+(1-τ)ω′#
其中,τ代表所述自适应修改参数,τ小于等于1,ω=(ω1,...,ωn}是所述预测值的集合,ω′=(ω′1,...,ω′n}是所述目标值的集合。
上述方案中,所述根据所述目标加权值确定目标深度强化学习模型,包括:
根据所述目标加权值,分别对更新后所述critic网络的网络参数和更新后的所述actor网络的网络参数进行软拷贝,得到新的目标critic网络和新的目标actor网络;从而确定目标深度强化学习模型。
本申请实施例的还提供一种存储介质,包括所述存储介质中存储有至少一条指令,所示指令由处理器加载并执行以实现上述任一实施例所述基于多Agent环境中的深度强化学习算法。
本申请实施例的提供一种设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令,所示指令由处理器加载并执行以实现上述任一实施例所述基于多Agent环境中的深度强化学习算法。
本申请实施例提供一种基于多Agent环境的深度强化学习算法、设备和存储介质,其中,基于多Agent环境的深度强化学习算法,应用于多Agent环境中的深度强化学习模型,通过步骤S101、利用Agent中的目标网络,基于初始状态信息和动作信息,确定时间差分;步骤S102、根据预设的遮盖率,对初始状态信息进行随机遮盖,得到目标状态信息,利用Agent中的预测网络,以及时间差分,确定误差值;步骤S103:基于误差值,以及自适应修改参数,对Agent中的预测网络和目标网络各自对应的加权值进行更新;步骤S104:重复步骤S102和步骤S103预设次数,确定目标加权值,根据目标加权值确定目标深度强化学习模型。本申请实施例通过随机遮盖智能体样本的初始状态信息,使得每个Agent都有可能分配到智能体样本的状态信息,降低了Agent中critic网络的训练压力,同时也保证了智能体样本的样本学习效率,在对初始状态信息进行随机遮盖的基础上,通过自适应修改参数对深度强化学习模型中的Agent进行迭代更新,可以提高收敛速度,保证收敛的奖励幅度。
附图说明
为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中基于多Agent环境的深度强化学习算法的流程示意图之一;
图2为本申请实施例中多Agent环境的深度强化学习模型的网络结构示意图;
图3为本申请实施例中基于多Agent环境的深度强化学习算法的流程示意图之二;
图4为本申请实施例中实验模型环境simple_tag模型示意图;
图5为本申请实施例中实验模型环境simple_spread模型示意图;
图6为本申请实施例提供的SMMADDPG神经网络模型在simple_spread模型中与基于多Agent环境的深度强化学习算法、DDPG算法和MADDPG算法所有智能体奖励之和收敛对比分析结果示意图;
图7为本申请实施例提供的SMMADDPG神经网络模型在simple_tag模型中与基于多Agent环境的深度强化学习算法、DDPG算法和MADDPG算法捕食者智能体奖励之和收敛对比分析结果示意图;
图8为本申请实施例提供的SMMADDPG神经网络模型在simple_tag模型中与基于多Agent环境的深度强化学习算法、DDPG算法和MADDPG算法猎物智能体奖励之和收敛对比结果示意图;
图9为本申请实施例提供的SMMADDPG神经网络模型在simple_tag模型中与基于多Agent环境的深度强化学习算法、DDPG算法和MADDPG算法所有智能体奖励之和收敛对比分析结果示意图;
图10为本申请实施例提供的一种设备的实体结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例中基于多Agent环境的深度强化学习算法的流程示意图之一,如图1所示,本申请实施例的提供一种基于多Agent环境的深度强化学习算法,应用于多Agent环境中的深度强化学习模型,深度强化学习算法包括:
S101、利用Agent中的目标网络,基于智能体样本的初始状态信息,确定时间差分。
本申请实施例中,S101还可以包括:
S1011、将初始状态信息输入至目标actor网络中进行预测,得到当前策略信息。
S1012、将初始状态信息和当前策略信息输入至目标critic网络中进行评价,得到对应的当前价值信息。
S1013、根据当前价值信息以及预设的环境奖惩参数,确定时间差分。
本申请实施例中,图2为本申请实施例中多Agent环境的深度强化学习模型的网络结构示意图,如图2所示,多Agent环境中的深度强化学习模型包括至少两个Agent,至少两个Agent包括Agent1,Agent2,Agenti和AgentN,每个Agent包括actor网络、critic网络,目标actor(TargeActor)网络和目标critic(Targecritic)网络。设输入至Agent的信息为O,而Agent输出的信息为a,示例性的,输入至Agent1的信息为O1,输出的信息为a1;输入至Agent2的信息为O2,输出的信息为a2;输入至Agenti的信息为Oi,输出的信息为ai;输入至AgentN的信息为ON,输出的信息为aN。
本申请实施例中,智能体样本的状态信息和动作信息将输入至Agent的critic网络的输入层中,critic网络对接收到的状态信息和动作信息进行学习,并将学习结果发送至actor网络,由actor网络进行预测;通过对actor网络的网络参数将按照加权值进行软拷贝,得到目标actor网络,通过对critic网络的网络参数将按照加权值进行软拷贝,得到目标critic网络。
S102、根据预设的遮盖率,对初始状态性信息进行随机遮盖,得到目标状态信息;利用Agent中的预测网络,根据目标状态信息、智能体样本的动作信息以及时间差分,确定误差值。
本申请实施例中,S102还可以包括:
S1021、将目标状态信息和动作信息输入至critic网络中进行预测,得到目标价值信息。
S1022、根据目标价值信息和时间差分,确定误差值。
可以理解的是,通过随机遮盖智能体样本的初始状态信息,使得每个Agent都有可能分配到智能体样本的状态信息,降低了Agent中critic网络的训练压力,同时也保证了智能体样本的样本学习效率,且在对初始状态信息进行随机遮盖的基础上,通过自适应修改参数对深度强化学习模型中的Agent进行迭代更新,可以提高收敛速度,保证收敛的奖励幅度。
S103、基于误差值,以及自适应修改参数,对Agent中的预测网络和目标网络各自对应的加权值进行更新。
本申请实施例中,S103还包括:
S1031、基于误差值,对critic网络的加权值进行更新;
S1032、对动作信息进行抽样,得到目标动作信息,根据目标动作信息对actor网络的加权值进行更新;
S1033、根据更新后的所述critic网络的加权值和更新后的所述actor网络的加权值,以及自适应修改参数,对目标actor网络和目标critic网络各自对应的加权值进行更新。
本申请的一些实施例中,S1033还包括:
S10331、基于预设的自适应加权平均更新模型,确定自适应修改参数。
自适应加权平均更新模型如公式(1-1)所示:
S10332、根据自适应修改参数,确定网络更新模型。
更新模型如公式(1-2)所示:
ω'=τω+(1-τ)ω' (1-2)
其中,τ代表自适应修改参数,τ小于等于1,ω={ω1,...,ωn}是预测值的集合,ω′={ω′1,...,ω′n}是目标值的集合。
S10333、根据网络更新模型,以及更新后的所述critic网络的加权值和更新后的所述actor网络的加权值,对目标actor网络和目标critic网络对应的加权值进行更新。
S104、重复步骤S102和步骤S103至预设次数,确定目标加权值,根据目标加权值确定目标深度强化学习模型。
可以理解的是,通过随机遮盖智能体样本的初始状态信息,使得每个Agent都有可能分配到智能体样本的状态信息,降低了Agent中critic网络的训练压力,同时也保证了智能体样本的样本学习效率,且在对初始状态信息进行随机遮盖的基础上,通过自适应修改参数对深度强化学习模型中的Agent中的预测网络对应的加权值进行迭代更新,之后根据预测网络每次更新后的加权值,通过软拷贝的方式对目标网络各自对应的加权值进行更新,从而实现对目标网络各自对应的加权值的迭代更新,得到目标深度强化学习模型,该过程中,自适应修改参数的加入,提高了深度强化学习模型的收敛速度,保证收敛的奖励幅度。
图3为本申请实施例中基于多Agent环境的深度强化学习算法的流程示意图之二,如图3所示,本申请实施例的提供一种基于多Agent环境的深度强化学习算法,包括:
S201、对全局状态信息(智能体样本的初始状态信息)随机遮盖以得到局部随机智能体状态信息(目标状态信息),并将局部随机智能体状态信息输入SMMADDPG(Soft MaskedMulti-Agent Deep Deterministic Policy Gradient,遮盖软更新多智能体深度策略梯度)模型(基于多Agent环境的深度强化学习算法)中的价值(critic)网络。
本申请的一些实施例中,S201中将全局状态信息更改为局部随机智能体状态信息的过程为:首先根据预设的遮盖率进行随机遮盖输入进critic网络输入层的全局状态信息;并对于所有智能体的动作信息(action)不进行遮盖;以保留初始顺序,将随机覆盖后的全局状态信息和所有智能体的动作信息输入至critic网络。其中,策略(actor)网络和critic网络的更新方式均采用MADDPG(Multi-Agent Deep Deterministic PolicyGradient,智能体深度策略梯度)算法的更新方式。
S202、使用的Polyak平均更新进行参数自适应式修改,以对目标网络(目标critic网络和目标actor网络)和预测网络(critic网络和actor网络)进行更新。
S203、目标网络的权重(加权值)通过缓慢追踪当前状态的预测网络的权重(加权值),根据公式(1-1)和公式(1-2)进行更新,
本申请的一些实施例中,本申请实施例的提供一种基于多Agent环境的深度强化学习算法,应用于SMMADDPG神经网络模型,其中,SMMADDPG神经网络模型得到参数可以如表1-1所示:
表1-1 SMMADDPG神经网络模型参数
在本申请的一些实施例中,设SMMADDPG神经网络模型中的目标actor网络、目标critic网络、actor网络和critic网络均设有m个,基于多Agent环境的深度强化学习算法包括:
S301、从经验回放数组中随机抽取一个四元组(st,at,rt,st+1);其中,st表示每个智能体样本当前的状态信息,at表示智能体样本当前的动作信息,)rt表示当前的环境的奖惩参数,st+1表示每个智能体样本下一状态的状态。
S309、更新m个critic网络:
S310、更新m个目标actor网络和m个目标critic网络,更新方式与S203相同,此处不再赘述。
在本申请的一些实施例中,本申请实施例将OpenAI的经典多Agent环境模型中的simple_tag以及simple_spread作为实验模拟环境,基于多Agent环境的深度强化学习算法与现有的DDPG算法、MADDPG算法对SMMADDPG神经网络模型进行实验性的对比分析。
在本申请的一些实施例中,图4为本申请实施例中实验模型环境simple_tag模型示意图,如图4所示,simple_tag模型中,一共有10个智能体,其中3个绿色方作为猎物智能体,另外7个红色方作为捕食者智能体。猎物的速度要快于捕食者的速度,障碍物用于阻挡所有的智能体,属于合作于竞争模型。图5为本申请实施例中实验模型环境simple_spread模型示意图,如图5所示,simple_spread模型中有7个绿色方智能体,7个绿色方智能体要求实现到达7个目标地点,并且在去往目标地点的过程中所有的智能体互相之间都不能发生碰撞,属于合作模型。
在本申请的一些实施例中,SMMADDPG神经网络模型的运行环境如表1-2所示:
表1-2 SMMADDPG神经网络模型运行环境
开发工具 | 软件名称 |
操作系统 | Linux |
编程语言 | Python 3 |
深度学习框架 | Pytouch 1.8.2 |
集成开发环境 | Visual Studio Code |
实验环境 | Gym 0.10.0 |
在本申请的一些实施例中,在SMMADDPG神经网络模型训练过程中,部分超参数的设置如表1-3所示:
表1-3 SMMADDPG神经网络模型部分超参数设置
参数名称 | 参数值 | 参数说明 |
learning start step | 10000 | 训练的起始点 |
max grad norm | 0.5 | 最大梯度范数 |
tao | 0.01 | 网络更新参数 |
gamma | 0.97 | critic网络Q值更新系数 |
mae_ratio | 0.5 | tao参数更新系数 |
lr_a | 1e-2 | actor网络学习率 |
lr_c | 1e-2 | critic网络学习率 |
batch_size | 1256 | 一次训练所需样本数量 |
memory_size | 1e6 | 经验池存储大小 |
在本申请的一些实施例中,通过在simple_spread模型、simple_tag模型设置多个Agent进行协同博弈,确定基于多Agent环境的深度强化学习算法与现有的DDPG算法、MADDPG算法对SMMADDPG神经网络模型进行实验性的对比,得到对应的DDPG_returns、MADDPG_returns和SMMADDPG_returns,DDPG_returns、MADDPG_returns和SMMADDPG_returns的对比结果如表1-4、表1-5、表1-6、表1-7所示。
表1-4 SMMADDPG神经网络模型在simple_spread模型中与基于多Agent环境的深度强化学习算法、DDPG算法和MADDPG算法所有智能体奖励之和收敛对比
DDPG_returns | MADDPG_returns | SMMADDPG_returns | |
第2380轮 | -9992.915 | -9871.902 | -8970.568 |
第3120轮 | -9709.073 | -9591.725 | -8868.610 |
第7800轮 | -9454.473 | -9525.316 | -9062.522 |
第15400轮 | -9320.185 | -9339.938 | -8672.810 |
第20000轮 | -9522.361 | -9309.346 | -8608.862 |
表1-5 SMMADDPG神经网络模型在simple_tag模型中与基于多Agent环境的深度强化学习算法、DDPG算法和MADDPG算法捕食者智能体奖励之和收敛对比
DDPG_returns | MADDPG_returns | SMMADDPG_returns | |
第2380轮 | 529.183 | 312.881 | 344.574 |
第3120轮 | 612.858 | 307.614 | 730.809 |
第7800轮 | 466.511 | 737.071 | 381.803 |
第15400轮 | 561.646 | 482.969 | 303.819 |
第18000轮 | 486.470 | 484.048 | 299.504 |
表1-6 SMMADDPG神经网络模型在simple_tag模型中与基于多Agent环境的深度强化学习算法、DDPG算法和MADDPG算法猎物智能体奖励之和收敛对比
DDPG_returns | MADDPG_returns | SMMADDPG_returns | |
第2380轮 | -30.66 | -17.61 | -21.76 |
第3120轮 | -31.92 | -12.65 | -46.03 |
第7800轮 | -26.65 | -37.60 | -30.31 |
第15400轮 | -25.79 | -25.48 | -28.03 |
第18000轮 | -27.16 | -27.97 | -30.03 |
表1-7 SMMADDPG神经网络模型在simple_tag模型中与基于多Agent环境的深度强化学习算法、DDPG算法和MADDPG算法所有智能体奖励之和收敛对比
DDPG_returns | MADDPG_returns | SMMADDPG_returns | |
第2380轮 | 89.65 | 53.77 | 58.39 |
第3120轮 | 104.32 | 53.02 | 123.07 |
第7800轮 | 81.96 | 123.57 | 66.83 |
第15400轮 | 95.53 | 83.92 | 55.18 |
第18000轮 | 83.52 | 83.52 | 54.67 |
可以理解的是,图6为本申请实施例提供的SMMADDPG神经网络模型在simple_spread模型中与基于多Agent环境的深度强化学习算法、DDPG算法和MADDPG算法所有智能体奖励之和收敛对比分析结果示意图,图7为本申请实施例提供的SMMADDPG神经网络模型在simple_tag模型中与基于多Agent环境的深度强化学习算法、DDPG算法和MADDPG算法捕食者智能体奖励之和收敛对比分析结果示意图,图8为本申请实施例提供的SMMADDPG神经网络模型在simple_tag模型中与基于多Agent环境的深度强化学习算法、DDPG算法和MADDPG算法猎物智能体奖励之和收敛对比结果示意图,图9为本申请实施例提供的SMMADDPG神经网络模型在simple_tag模型中与基于多Agent环境的深度强化学习算法、DDPG算法和MADDPG算法所有智能体奖励之和收敛对比分析结果示意图,如图6、图7、图8和图9所示,结合表1-4、表1-5、表1-6和表1-7,可以得到相较于现有技术中DDPG算法和MADDPG算法,本申请实施例提供的基于多Agent环境的深度强化学习算法通过随机遮盖智能体样本的初始状态信息,使得每个Agent都有可能分配到智能体样本的状态信息,降低了Agent中critic网络的训练压力,同时也保证了智能体样本的样本学习效率,在对初始状态信息进行随机遮盖的基础上,通过自适应修改参数对深度强化学习模型中的Agent进行迭代更新,可以提高收敛速度,保证收敛的奖励幅度。
本申请实施例的还提供一种存储介质,包括所述存储介质中存储有至少一条指令,所示指令由处理器加载并执行以实现上述任一实施例所述基于多Agent环境中的深度强化学习算法。
图10为本申请实施例提供的一种设备的实体结构示意图,如图10所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行上述任一实施例所述基于多Agent环境中的深度强化学习算法。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种基于多Agent环境的深度强化学习算法,其特征在于,应用于多Agent环境中的深度强化学习模型,所述深度强化学习算法包括:
步骤S101、利用所述Agent中的目标网络,基于智能体样本的初始状态信息,确定时间差分;所述智能体样本为猎物智能体和捕食者智能体;所述Agent中的目标网络用于基于所述智能体样本,模拟所述猎物智能体和所述捕食者智能体在障碍环境中的竞争路径或合作路径;所述Agent中的目标网络包括目标critic网络和目标actor网络;所述时间差分基于当前价值信息以及预设的环境奖惩参数确定;所述当前价值信息基于所述目标critic网络对所述初始状态信息和当前策略信息进行评价得到;所述当前策略信息基于所述目标actor网络对所述初始状态信息进行预测得到;
步骤S102、根据预设的遮盖率,对所述初始状态信息进行随机遮盖,得到目标状态信息;利用所述Agent中的预测网络,根据所述目标状态信息、智能体样本的动作信息以及所述时间差分,确定误差值;预设的所述遮盖率基于random函数对所述初始状态信息随机遮盖后,所述Agent中的预测网络对遮盖后的初始状态信息进行预测得到;
步骤S103:基于所述误差值,以及自适应修改参数,对所述Agent中的预测网络和所述Agent中的目标网络各自对应的加权值进行更新;
步骤S104:重复步骤S102和步骤S103至预设次数,确定目标加权值,根据所述目标加权值确定目标深度强化学习模型;所述目标深度强化学习模型用于确定猎物智能体和捕食者智能体在障碍环境下的合作路径或竞争路径。
2.根据权利要求1所述的基于多Agent环境的深度强化学习算法,其特征在于,所述Agent中的目标网络包括目标actor网络和目标critic网络;
所述利用所述Agent中的目标网络,基于智能体样本的初始状态信息,确定时间差分,包括:
将所述初始状态信息输入至所述目标actor网络中进行预测,得到当前策略信息;
将所述初始状态信息和所述当前策略信息输入至所述目标critic网络中进行评价,得到对应的当前价值信息;
根据所述当前价值信息以及预设的环境奖惩参数,确定所述时间差分。
3.根据权利要求1所述的基于多Agent环境的深度强化学习算法,其特征在于,所述Agent中的预测网络包括critic网络;
所述利用所述Agent中的预测网络,根据所述目标状态信息、智能体样本的动作信息以及所述时间差分,确定误差值,包括:
将所述目标状态信息和所述智能体样本的动作信息输入至所述critic网络中进行预测,得到目标价值信息;
根据所述目标价值信息和所述时间差分,确定所述误差值。
4.根据权利要求3所述的基于多Agent环境的深度强化学习算法,其特征在于,所述Agent中的预测网络包括actor网络;
所述基于所述误差值,以及自适应修改参数,对所述Agent中的预测网络和所述Agent中的目标网络各自对应的加权值进行更新,包括:
基于所述误差值,对所述critic网络的加权值进行更新;
对所述智能体样本的动作信息进行抽样,得到目标动作信息,根据所述目标动作信息对所述actor网络的加权值进行更新;
根据更新后的actor网络的加权值和更新后的critic网络的加权值,以及所述自适应修改参数,对所述目标actor网络和所述目标critic网络各自对应的加权值进行更新。
5.根据权利要求4所述的基于多Agent环境的深度强化学习算法,其特征在于,所述根据更新后的critic网络的加权值和更新后的actor网络的加权值,以及所述自适应修改参数,对所述目标actor网络和所述目标critic网络各自对应的加权值进行更新,包括:
基于预设的自适应加权平均更新模型,确定所述自适应修改参数;
根据所述自适应修改参数,确定网络更新模型;
根据网络更新模型,以及所述更新后的critic网络的加权值和所述更新后的actor网络的加权值,对所述目标actor网络和所述目标critic网络各自对应的加权值进行更新。
8.根据权利要求4所述的基于多Agent环境的深度强化学习算法,其特征在于,所述根据所述目标加权值确定目标深度强化学习模型,包括:
根据所述目标加权值,分别对更新后的critic网络的网络参数和更新后的actor网络的网络参数进行软拷贝,得到新的目标critic网络和新的目标actor网络;从而确定目标深度强化学习模型。
9.一种存储介质,其特征在于,包所述存储介质中存储有至少一条指令,所示指令由处理器加载并执行以实现如权利要求1-8任一项所述基于多Agent环境中的深度强化学习算法。
10.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令,所示指令由处理器加载并执行以实现如权利要求1-8任一项所述基于多Agent环境中的深度强化学习算法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211114004.3A CN115392438B (zh) | 2022-09-14 | 2022-09-14 | 基于多Agent环境的深度强化学习算法、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211114004.3A CN115392438B (zh) | 2022-09-14 | 2022-09-14 | 基于多Agent环境的深度强化学习算法、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115392438A CN115392438A (zh) | 2022-11-25 |
CN115392438B true CN115392438B (zh) | 2023-07-07 |
Family
ID=84126052
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211114004.3A Active CN115392438B (zh) | 2022-09-14 | 2022-09-14 | 基于多Agent环境的深度强化学习算法、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115392438B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111552183A (zh) * | 2020-05-17 | 2020-08-18 | 南京大学 | 一种基于自适应权重强化学习的六足机器人避障方法 |
CN112997128A (zh) * | 2021-04-19 | 2021-06-18 | 华为技术有限公司 | 一种自动驾驶场景的生成方法、装置及系统 |
CN113487039A (zh) * | 2021-06-29 | 2021-10-08 | 山东大学 | 基于深度强化学习的智能体自适应决策生成方法及系统 |
-
2022
- 2022-09-14 CN CN202211114004.3A patent/CN115392438B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111552183A (zh) * | 2020-05-17 | 2020-08-18 | 南京大学 | 一种基于自适应权重强化学习的六足机器人避障方法 |
CN112997128A (zh) * | 2021-04-19 | 2021-06-18 | 华为技术有限公司 | 一种自动驾驶场景的生成方法、装置及系统 |
CN113487039A (zh) * | 2021-06-29 | 2021-10-08 | 山东大学 | 基于深度强化学习的智能体自适应决策生成方法及系统 |
Non-Patent Citations (4)
Title |
---|
"Multi-agent deep deterministic policy gradient algorithm for peer-to-peer energy trading considering distribution network constraints";Jun Cao 等;《Applied Energy》;全文 * |
"基于多智能体深度强化学习的配电网无功优化策略";邓清唐 等;《电工电能新技术》;全文 * |
"基于深度强化学习的多智能体协作方法研究";黄旭忠;《中国优秀硕士学位论文全文数据库信息科技辑》;全文 * |
"基于深度强化学习的无线资源动态分配算法研究";康灿平;《中国优秀硕士学位论文全文数据库信息科技辑》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115392438A (zh) | 2022-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110168578B (zh) | 具有任务特定路径的多任务神经网络 | |
JP2021503644A (ja) | 重みデータの保存方法及びこの方法をベースとするニューラルネットワークプロセッサ | |
WO2017218699A1 (en) | System and methods for intrinsic reward reinforcement learning | |
WO2019155064A1 (en) | Data compression using jointly trained encoder, decoder, and prior neural networks | |
EP4105835A1 (en) | Neural network architecture search method and apparatus, device and medium | |
CN109690576A (zh) | 在多个机器学习任务上训练机器学习模型 | |
CN112884130A (zh) | 一种基于SeqGAN的深度强化学习数据增强防御方法和装置 | |
CN113568727A (zh) | 一种基于深度强化学习的移动边缘计算任务分配方法 | |
KR20190124846A (ko) | 재귀적 신경망에서 시계열 데이터의 데이터 누락 및 노이즈에 강건한 gru 기반의 셀 구조 설계 | |
CN113361777A (zh) | 基于vmd分解和ihho优化lstm的径流预测方法及系统 | |
CN116523079A (zh) | 一种基于强化学习联邦学习优化方法及系统 | |
CN114821204B (zh) | 一种基于元学习嵌入半监督学习图像分类方法与系统 | |
CN113962390B (zh) | 基于深度强化学习网络构建多样化搜索策略的模型的方法 | |
CN113392971A (zh) | 策略网络训练方法、装置、设备及可读存储介质 | |
CN112348155A (zh) | 一种模糊神经网络模型的优化方法及系统 | |
US9471885B1 (en) | Predictor-corrector method for knowledge amplification by structured expert randomization | |
CN111724370A (zh) | 一种基于不确定性和概率的多任务无参考图像质量评估方法及系统 | |
CN115392438B (zh) | 基于多Agent环境的深度强化学习算法、设备和存储介质 | |
CN114357526A (zh) | 抵御推断攻击的医疗诊断模型差分隐私联合训练方法 | |
JP7290608B2 (ja) | 機械学習装置、機械学習方法及び機械学習プログラム | |
CN115168722A (zh) | 内容交互预测方法以及相关设备 | |
CN114374608B (zh) | 切片实例备份任务调度方法、装置和电子设备 | |
CN117788983B (zh) | 基于大模型的图像数据处理方法及装置、存储介质 | |
Sikorra et al. | Allocation of container slots based on machine learning | |
CN115705492A (zh) | 一种神经网络剪枝方法及装置、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |