CN115392438B - 基于多Agent环境的深度强化学习算法、设备和存储介质 - Google Patents

基于多Agent环境的深度强化学习算法、设备和存储介质 Download PDF

Info

Publication number
CN115392438B
CN115392438B CN202211114004.3A CN202211114004A CN115392438B CN 115392438 B CN115392438 B CN 115392438B CN 202211114004 A CN202211114004 A CN 202211114004A CN 115392438 B CN115392438 B CN 115392438B
Authority
CN
China
Prior art keywords
network
target
agent
reinforcement learning
deep reinforcement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211114004.3A
Other languages
English (en)
Other versions
CN115392438A (zh
Inventor
王旭
周诗佳
张宇
尤天舒
徐勇
富倩
孙伟
李力东
杜丽英
戴传祗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin Jianzhu University
Original Assignee
Jilin Jianzhu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin Jianzhu University filed Critical Jilin Jianzhu University
Priority to CN202211114004.3A priority Critical patent/CN115392438B/zh
Publication of CN115392438A publication Critical patent/CN115392438A/zh
Application granted granted Critical
Publication of CN115392438B publication Critical patent/CN115392438B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供一种基于多Agent环境的深度强化学习算法、设备和存储介质,涉及深度强化学习算法技术领域;通过步骤S101、利用Agent中的目标网络,基于初始状态信息和动作信息,确定时间差分;步骤S102、根据预设的遮盖率,对初始状态信息进行随机遮盖,得到目标状态信息,利用Agent中的预测网络,以及时间差分,确定误差值;步骤S103:基于误差值,以及自适应修改参数,对Agent中的预测网络和目标网络各自对应的加权值进行更新;步骤S104:重复步骤S102和步骤S103预设次数,确定目标加权值,从而确定目标深度强化学习模型。具有保证了样本学习效率,并通过自适应修改参数对深度强化学习模型中的Agent进行迭代更新,以提高收敛速度的效果。

Description

基于多Agent环境的深度强化学习算法、设备和存储介质
技术领域
本申请涉及深度强化学习算法技术领域,具体而言,涉及一种基于多Agent环境的深度强化学习算法、装置和存储介质。
背景技术
多Agent强化学习是指在多Agent环境中,使用强化学习的算法使得智能体之间可以像人一样进行协作交流,达到智能博弈的效果。
目前多智能体深度确定性策略梯度(MADDPG,Multi-AgentDeep DeterministicPolicy Gradient)在Agent环境中具有较强的收敛性、复杂环境适应性以及自我学习能力,但随着Agent数量的增加,多Agent之间的管理交互的难度会呈现指数级上升,而且对于样本的利用与探索之间的权衡往往二者不可兼得,对于有价值的样本可能会被覆盖或遗忘,导致重要样本利用率不高,从而影响MADDPG在多Agent环境中的收敛速度以及收敛的奖励幅度。
发明内容
为了解决随着Agent数量的增加,多Agent之间的管理交互的难度会呈现指数级上升,而且对于样本的利用与探索之间的权衡往往二者不可兼得,对于有价值的样本可能会被覆盖或遗忘,导致重要样本利用率不高,从而影响MADDPG在多Agent环境中的收敛速度以及收敛的奖励幅度的问题,本申请提供了一种基于多Agent环境的深度强化学习算法、设备和存储介质。
本申请的实施例是这样实现的:
本申请实施例的提供一种基于多Agent环境的深度强化学习算法,应用于多Agent环境中的深度强化学习模型,所述深度强化学习算法包括:
步骤S101、利用所述Agent中的目标网络,基于智能体样本的初始状态信息,确定时间差分;
步骤S102、根据预设的遮盖率,对所述初始状态性信息进行随机遮盖,得到目标状态信息;利用所述Agent中的预测网络,根据所述目标状态信息、智能体样本的动作信息以及所述时间差分,确定误差值;
步骤S103:基于所述误差值,以及自适应修改参数,对所述Agent中的预测网络和目标网络各自对应的加权值进行更新;
步骤S104:重复步骤S102和步骤S103至预设次数,确定目标加权值,根据所述目标加权值确定目标深度强化学习模型。
上述方案中,所述目标网络包括目标actor网络和目标critic网络;
所述利用所述Agent中的目标网络,基于智能体样本的初始状态信息,确定时间差分,包括:
将所述初始状态信息输入至所述目标actor网络中进行预测,得到当前策略信息;
将所述初始状态信息和所述当前策略信息输入至所述目标critic网络中进行评价,得到对应的当前价值信息;
根据所述当前价值信息以及预设的环境奖惩参数,确定所述时间差分。
上述方案中,所述预测网络包括critic网络;
所述利用所述Agent中的预测网络,根据所述目标状态信息、智能体样本的动作信息以及所述时间差分,确定误差值,包括:
将所述目标状态信息和所述动作信息输入至所述critic网络中进行预测,得到目标价值信息;
根据所述目标价值信息和所述时间差分,确定所述误差值。
上述方案中,所述预测网络包括actor网络;
所述基于所述误差值,以及自适应修改参数,对所述Agent中的预测网络和目标网络各自对应的加权值进行更新,包括:
基于所述误差值,对所述critic网络的加权值进行更新;
对所述动作信息进行抽样,得到目标动作信息,根据所述目标动作信息对所述actor网络的加权值进行更新;
根据更新后的所述critic网络的加权值和更新后的所述actor网络的加权值,以及所述自适应修改参数,对所述目标actor网络和所述目标critic网络各自对应的加权值进行更新。
上述方案中,所述根据更新后的所述critic网络的加权值和更新后的所述actor网络的加权值,以及所述自适应修改参数,对所述目标actor网络和所述目标critic网络各自对应的加权值进行更新,包括:
基于预设的自适应加权平均更新模型,确定所述自适应修改参数;
根据所述自适应修改参数,确定网络更新模型;
根据网络更新模型,以及所述更新后的所述critic网络的加权值和所述更新后的所述actor网络的加权值,对所述目标actor网络和所述目标critic网络对应的加权值进行更新。
上述方案中,所述自适应加权平均更新模型为:
Figure BDA0003844748580000031
其中,τ代表所述自适应修改参数
Figure BDA0003844748580000032
batch为智能体样本个数,Qi为所述当前价值信息,/>
Figure BDA0003844748580000033
为目标价值信息。
上述方案中,所述更新模型为:
ω′=τω+(1-τ)ω′#
其中,τ代表所述自适应修改参数,τ小于等于1,ω=(ω1,...,ωn}是所述预测值的集合,ω′=(ω′1,...,ω′n}是所述目标值的集合。
上述方案中,所述根据所述目标加权值确定目标深度强化学习模型,包括:
根据所述目标加权值,分别对更新后所述critic网络的网络参数和更新后的所述actor网络的网络参数进行软拷贝,得到新的目标critic网络和新的目标actor网络;从而确定目标深度强化学习模型。
本申请实施例的还提供一种存储介质,包括所述存储介质中存储有至少一条指令,所示指令由处理器加载并执行以实现上述任一实施例所述基于多Agent环境中的深度强化学习算法。
本申请实施例的提供一种设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令,所示指令由处理器加载并执行以实现上述任一实施例所述基于多Agent环境中的深度强化学习算法。
本申请实施例提供一种基于多Agent环境的深度强化学习算法、设备和存储介质,其中,基于多Agent环境的深度强化学习算法,应用于多Agent环境中的深度强化学习模型,通过步骤S101、利用Agent中的目标网络,基于初始状态信息和动作信息,确定时间差分;步骤S102、根据预设的遮盖率,对初始状态信息进行随机遮盖,得到目标状态信息,利用Agent中的预测网络,以及时间差分,确定误差值;步骤S103:基于误差值,以及自适应修改参数,对Agent中的预测网络和目标网络各自对应的加权值进行更新;步骤S104:重复步骤S102和步骤S103预设次数,确定目标加权值,根据目标加权值确定目标深度强化学习模型。本申请实施例通过随机遮盖智能体样本的初始状态信息,使得每个Agent都有可能分配到智能体样本的状态信息,降低了Agent中critic网络的训练压力,同时也保证了智能体样本的样本学习效率,在对初始状态信息进行随机遮盖的基础上,通过自适应修改参数对深度强化学习模型中的Agent进行迭代更新,可以提高收敛速度,保证收敛的奖励幅度。
附图说明
为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中基于多Agent环境的深度强化学习算法的流程示意图之一;
图2为本申请实施例中多Agent环境的深度强化学习模型的网络结构示意图;
图3为本申请实施例中基于多Agent环境的深度强化学习算法的流程示意图之二;
图4为本申请实施例中实验模型环境simple_tag模型示意图;
图5为本申请实施例中实验模型环境simple_spread模型示意图;
图6为本申请实施例提供的SMMADDPG神经网络模型在simple_spread模型中与基于多Agent环境的深度强化学习算法、DDPG算法和MADDPG算法所有智能体奖励之和收敛对比分析结果示意图;
图7为本申请实施例提供的SMMADDPG神经网络模型在simple_tag模型中与基于多Agent环境的深度强化学习算法、DDPG算法和MADDPG算法捕食者智能体奖励之和收敛对比分析结果示意图;
图8为本申请实施例提供的SMMADDPG神经网络模型在simple_tag模型中与基于多Agent环境的深度强化学习算法、DDPG算法和MADDPG算法猎物智能体奖励之和收敛对比结果示意图;
图9为本申请实施例提供的SMMADDPG神经网络模型在simple_tag模型中与基于多Agent环境的深度强化学习算法、DDPG算法和MADDPG算法所有智能体奖励之和收敛对比分析结果示意图;
图10为本申请实施例提供的一种设备的实体结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例中基于多Agent环境的深度强化学习算法的流程示意图之一,如图1所示,本申请实施例的提供一种基于多Agent环境的深度强化学习算法,应用于多Agent环境中的深度强化学习模型,深度强化学习算法包括:
S101、利用Agent中的目标网络,基于智能体样本的初始状态信息,确定时间差分。
本申请实施例中,S101还可以包括:
S1011、将初始状态信息输入至目标actor网络中进行预测,得到当前策略信息。
S1012、将初始状态信息和当前策略信息输入至目标critic网络中进行评价,得到对应的当前价值信息。
S1013、根据当前价值信息以及预设的环境奖惩参数,确定时间差分。
本申请实施例中,图2为本申请实施例中多Agent环境的深度强化学习模型的网络结构示意图,如图2所示,多Agent环境中的深度强化学习模型包括至少两个Agent,至少两个Agent包括Agent1,Agent2,Agenti和AgentN,每个Agent包括actor网络、critic网络,目标actor(TargeActor)网络和目标critic(Targecritic)网络。设输入至Agent的信息为O,而Agent输出的信息为a,示例性的,输入至Agent1的信息为O1,输出的信息为a1;输入至Agent2的信息为O2,输出的信息为a2;输入至Agenti的信息为Oi,输出的信息为ai;输入至AgentN的信息为ON,输出的信息为aN
本申请实施例中,智能体样本的状态信息和动作信息将输入至Agent的critic网络的输入层中,critic网络对接收到的状态信息和动作信息进行学习,并将学习结果发送至actor网络,由actor网络进行预测;通过对actor网络的网络参数将按照加权值进行软拷贝,得到目标actor网络,通过对critic网络的网络参数将按照加权值进行软拷贝,得到目标critic网络。
S102、根据预设的遮盖率,对初始状态性信息进行随机遮盖,得到目标状态信息;利用Agent中的预测网络,根据目标状态信息、智能体样本的动作信息以及时间差分,确定误差值。
本申请实施例中,S102还可以包括:
S1021、将目标状态信息和动作信息输入至critic网络中进行预测,得到目标价值信息。
S1022、根据目标价值信息和时间差分,确定误差值。
可以理解的是,通过随机遮盖智能体样本的初始状态信息,使得每个Agent都有可能分配到智能体样本的状态信息,降低了Agent中critic网络的训练压力,同时也保证了智能体样本的样本学习效率,且在对初始状态信息进行随机遮盖的基础上,通过自适应修改参数对深度强化学习模型中的Agent进行迭代更新,可以提高收敛速度,保证收敛的奖励幅度。
S103、基于误差值,以及自适应修改参数,对Agent中的预测网络和目标网络各自对应的加权值进行更新。
本申请实施例中,S103还包括:
S1031、基于误差值,对critic网络的加权值进行更新;
S1032、对动作信息进行抽样,得到目标动作信息,根据目标动作信息对actor网络的加权值进行更新;
S1033、根据更新后的所述critic网络的加权值和更新后的所述actor网络的加权值,以及自适应修改参数,对目标actor网络和目标critic网络各自对应的加权值进行更新。
本申请的一些实施例中,S1033还包括:
S10331、基于预设的自适应加权平均更新模型,确定自适应修改参数。
自适应加权平均更新模型如公式(1-1)所示:
Figure BDA0003844748580000081
其中,τ代表自适应修改参数,ratio表示预测网络和目标网络的绝对平均值差距比例,
Figure BDA0003844748580000082
batch为智能体样本个数,Qi为第i个智能体样本对应的当前价值信息,/>
Figure BDA0003844748580000083
为第i个智能体样本对应的目标价值信息。
S10332、根据自适应修改参数,确定网络更新模型。
更新模型如公式(1-2)所示:
ω'=τω+(1-τ)ω' (1-2)
其中,τ代表自适应修改参数,τ小于等于1,ω={ω1,...,ωn}是预测值的集合,ω′={ω′1,...,ω′n}是目标值的集合。
S10333、根据网络更新模型,以及更新后的所述critic网络的加权值和更新后的所述actor网络的加权值,对目标actor网络和目标critic网络对应的加权值进行更新。
S104、重复步骤S102和步骤S103至预设次数,确定目标加权值,根据目标加权值确定目标深度强化学习模型。
可以理解的是,通过随机遮盖智能体样本的初始状态信息,使得每个Agent都有可能分配到智能体样本的状态信息,降低了Agent中critic网络的训练压力,同时也保证了智能体样本的样本学习效率,且在对初始状态信息进行随机遮盖的基础上,通过自适应修改参数对深度强化学习模型中的Agent中的预测网络对应的加权值进行迭代更新,之后根据预测网络每次更新后的加权值,通过软拷贝的方式对目标网络各自对应的加权值进行更新,从而实现对目标网络各自对应的加权值的迭代更新,得到目标深度强化学习模型,该过程中,自适应修改参数的加入,提高了深度强化学习模型的收敛速度,保证收敛的奖励幅度。
图3为本申请实施例中基于多Agent环境的深度强化学习算法的流程示意图之二,如图3所示,本申请实施例的提供一种基于多Agent环境的深度强化学习算法,包括:
S201、对全局状态信息(智能体样本的初始状态信息)随机遮盖以得到局部随机智能体状态信息(目标状态信息),并将局部随机智能体状态信息输入SMMADDPG(Soft MaskedMulti-Agent Deep Deterministic Policy Gradient,遮盖软更新多智能体深度策略梯度)模型(基于多Agent环境的深度强化学习算法)中的价值(critic)网络。
本申请的一些实施例中,S201中将全局状态信息更改为局部随机智能体状态信息的过程为:首先根据预设的遮盖率进行随机遮盖输入进critic网络输入层的全局状态信息;并对于所有智能体的动作信息(action)不进行遮盖;以保留初始顺序,将随机覆盖后的全局状态信息和所有智能体的动作信息输入至critic网络。其中,策略(actor)网络和critic网络的更新方式均采用MADDPG(Multi-Agent Deep Deterministic PolicyGradient,智能体深度策略梯度)算法的更新方式。
S202、使用的Polyak平均更新进行参数自适应式修改,以对目标网络(目标critic网络和目标actor网络)和预测网络(critic网络和actor网络)进行更新。
S203、目标网络的权重(加权值)通过缓慢追踪当前状态的预测网络的权重(加权值),根据公式(1-1)和公式(1-2)进行更新,
本申请的一些实施例中,本申请实施例的提供一种基于多Agent环境的深度强化学习算法,应用于SMMADDPG神经网络模型,其中,SMMADDPG神经网络模型得到参数可以如表1-1所示:
表1-1 SMMADDPG神经网络模型参数
Figure BDA0003844748580000101
在本申请的一些实施例中,设SMMADDPG神经网络模型中的目标actor网络、目标critic网络、actor网络和critic网络均设有m个,基于多Agent环境的深度强化学习算法包括:
S301、从经验回放数组中随机抽取一个四元组(st,at,rt,st+1);其中,st表示每个智能体样本当前的状态信息,at表示智能体样本当前的动作信息,)rt表示当前的环境的奖惩参数,st+1表示每个智能体样本下一状态的状态。
S302、让m个目标actor网络做预测,得到
Figure BDA0003844748580000102
S303、让m个目标critic网络做出预测,得到
Figure BDA0003844748580000103
Figure BDA0003844748580000104
S304、计算时间差分(Temporal-Difference,TD)目标:
Figure BDA0003844748580000105
Figure BDA0003844748580000106
S305、通过random函数对全部初始状态信息st随机遮盖获取
Figure BDA0003844748580000111
将/>
Figure BDA0003844748580000112
输入至m个critic网络作预测:/>
Figure BDA0003844748580000113
其中,是/>
Figure BDA0003844748580000114
的公式如式(1-3)所示:
Figure BDA0003844748580000115
S306、计算TD误差:
Figure BDA0003844748580000116
S307、更新m个actor网络:
Figure BDA0003844748580000117
Figure BDA0003844748580000118
S308、让m个critic网络做预测:
Figure BDA0003844748580000119
S309、更新m个critic网络:
Figure BDA00038447485800001110
S310、更新m个目标actor网络和m个目标critic网络,更新方式与S203相同,此处不再赘述。
在本申请的一些实施例中,本申请实施例将OpenAI的经典多Agent环境模型中的simple_tag以及simple_spread作为实验模拟环境,基于多Agent环境的深度强化学习算法与现有的DDPG算法、MADDPG算法对SMMADDPG神经网络模型进行实验性的对比分析。
在本申请的一些实施例中,图4为本申请实施例中实验模型环境simple_tag模型示意图,如图4所示,simple_tag模型中,一共有10个智能体,其中3个绿色方作为猎物智能体,另外7个红色方作为捕食者智能体。猎物的速度要快于捕食者的速度,障碍物用于阻挡所有的智能体,属于合作于竞争模型。图5为本申请实施例中实验模型环境simple_spread模型示意图,如图5所示,simple_spread模型中有7个绿色方智能体,7个绿色方智能体要求实现到达7个目标地点,并且在去往目标地点的过程中所有的智能体互相之间都不能发生碰撞,属于合作模型。
在本申请的一些实施例中,SMMADDPG神经网络模型的运行环境如表1-2所示:
表1-2 SMMADDPG神经网络模型运行环境
开发工具 软件名称
操作系统 Linux
编程语言 Python 3
深度学习框架 Pytouch 1.8.2
集成开发环境 Visual Studio Code
实验环境 Gym 0.10.0
在本申请的一些实施例中,在SMMADDPG神经网络模型训练过程中,部分超参数的设置如表1-3所示:
表1-3 SMMADDPG神经网络模型部分超参数设置
参数名称 参数值 参数说明
learning start step 10000 训练的起始点
max grad norm 0.5 最大梯度范数
tao 0.01 网络更新参数
gamma 0.97 critic网络Q值更新系数
mae_ratio 0.5 tao参数更新系数
lr_a 1e-2 actor网络学习率
lr_c 1e-2 critic网络学习率
batch_size 1256 一次训练所需样本数量
memory_size 1e6 经验池存储大小
在本申请的一些实施例中,通过在simple_spread模型、simple_tag模型设置多个Agent进行协同博弈,确定基于多Agent环境的深度强化学习算法与现有的DDPG算法、MADDPG算法对SMMADDPG神经网络模型进行实验性的对比,得到对应的DDPG_returns、MADDPG_returns和SMMADDPG_returns,DDPG_returns、MADDPG_returns和SMMADDPG_returns的对比结果如表1-4、表1-5、表1-6、表1-7所示。
表1-4 SMMADDPG神经网络模型在simple_spread模型中与基于多Agent环境的深度强化学习算法、DDPG算法和MADDPG算法所有智能体奖励之和收敛对比
DDPG_returns MADDPG_returns SMMADDPG_returns
第2380轮 -9992.915 -9871.902 -8970.568
第3120轮 -9709.073 -9591.725 -8868.610
第7800轮 -9454.473 -9525.316 -9062.522
第15400轮 -9320.185 -9339.938 -8672.810
第20000轮 -9522.361 -9309.346 -8608.862
表1-5 SMMADDPG神经网络模型在simple_tag模型中与基于多Agent环境的深度强化学习算法、DDPG算法和MADDPG算法捕食者智能体奖励之和收敛对比
DDPG_returns MADDPG_returns SMMADDPG_returns
第2380轮 529.183 312.881 344.574
第3120轮 612.858 307.614 730.809
第7800轮 466.511 737.071 381.803
第15400轮 561.646 482.969 303.819
第18000轮 486.470 484.048 299.504
表1-6 SMMADDPG神经网络模型在simple_tag模型中与基于多Agent环境的深度强化学习算法、DDPG算法和MADDPG算法猎物智能体奖励之和收敛对比
DDPG_returns MADDPG_returns SMMADDPG_returns
第2380轮 -30.66 -17.61 -21.76
第3120轮 -31.92 -12.65 -46.03
第7800轮 -26.65 -37.60 -30.31
第15400轮 -25.79 -25.48 -28.03
第18000轮 -27.16 -27.97 -30.03
表1-7 SMMADDPG神经网络模型在simple_tag模型中与基于多Agent环境的深度强化学习算法、DDPG算法和MADDPG算法所有智能体奖励之和收敛对比
DDPG_returns MADDPG_returns SMMADDPG_returns
第2380轮 89.65 53.77 58.39
第3120轮 104.32 53.02 123.07
第7800轮 81.96 123.57 66.83
第15400轮 95.53 83.92 55.18
第18000轮 83.52 83.52 54.67
可以理解的是,图6为本申请实施例提供的SMMADDPG神经网络模型在simple_spread模型中与基于多Agent环境的深度强化学习算法、DDPG算法和MADDPG算法所有智能体奖励之和收敛对比分析结果示意图,图7为本申请实施例提供的SMMADDPG神经网络模型在simple_tag模型中与基于多Agent环境的深度强化学习算法、DDPG算法和MADDPG算法捕食者智能体奖励之和收敛对比分析结果示意图,图8为本申请实施例提供的SMMADDPG神经网络模型在simple_tag模型中与基于多Agent环境的深度强化学习算法、DDPG算法和MADDPG算法猎物智能体奖励之和收敛对比结果示意图,图9为本申请实施例提供的SMMADDPG神经网络模型在simple_tag模型中与基于多Agent环境的深度强化学习算法、DDPG算法和MADDPG算法所有智能体奖励之和收敛对比分析结果示意图,如图6、图7、图8和图9所示,结合表1-4、表1-5、表1-6和表1-7,可以得到相较于现有技术中DDPG算法和MADDPG算法,本申请实施例提供的基于多Agent环境的深度强化学习算法通过随机遮盖智能体样本的初始状态信息,使得每个Agent都有可能分配到智能体样本的状态信息,降低了Agent中critic网络的训练压力,同时也保证了智能体样本的样本学习效率,在对初始状态信息进行随机遮盖的基础上,通过自适应修改参数对深度强化学习模型中的Agent进行迭代更新,可以提高收敛速度,保证收敛的奖励幅度。
本申请实施例的还提供一种存储介质,包括所述存储介质中存储有至少一条指令,所示指令由处理器加载并执行以实现上述任一实施例所述基于多Agent环境中的深度强化学习算法。
图10为本申请实施例提供的一种设备的实体结构示意图,如图10所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行上述任一实施例所述基于多Agent环境中的深度强化学习算法。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种基于多Agent环境的深度强化学习算法,其特征在于,应用于多Agent环境中的深度强化学习模型,所述深度强化学习算法包括:
步骤S101、利用所述Agent中的目标网络,基于智能体样本的初始状态信息,确定时间差分;所述智能体样本为猎物智能体和捕食者智能体;所述Agent中的目标网络用于基于所述智能体样本,模拟所述猎物智能体和所述捕食者智能体在障碍环境中的竞争路径或合作路径;所述Agent中的目标网络包括目标critic网络和目标actor网络;所述时间差分基于当前价值信息以及预设的环境奖惩参数确定;所述当前价值信息基于所述目标critic网络对所述初始状态信息和当前策略信息进行评价得到;所述当前策略信息基于所述目标actor网络对所述初始状态信息进行预测得到;
步骤S102、根据预设的遮盖率,对所述初始状态信息进行随机遮盖,得到目标状态信息;利用所述Agent中的预测网络,根据所述目标状态信息、智能体样本的动作信息以及所述时间差分,确定误差值;预设的所述遮盖率基于random函数对所述初始状态信息随机遮盖后,所述Agent中的预测网络对遮盖后的初始状态信息进行预测得到;
步骤S103:基于所述误差值,以及自适应修改参数,对所述Agent中的预测网络和所述Agent中的目标网络各自对应的加权值进行更新;
步骤S104:重复步骤S102和步骤S103至预设次数,确定目标加权值,根据所述目标加权值确定目标深度强化学习模型;所述目标深度强化学习模型用于确定猎物智能体和捕食者智能体在障碍环境下的合作路径或竞争路径。
2.根据权利要求1所述的基于多Agent环境的深度强化学习算法,其特征在于,所述Agent中的目标网络包括目标actor网络和目标critic网络;
所述利用所述Agent中的目标网络,基于智能体样本的初始状态信息,确定时间差分,包括:
将所述初始状态信息输入至所述目标actor网络中进行预测,得到当前策略信息;
将所述初始状态信息和所述当前策略信息输入至所述目标critic网络中进行评价,得到对应的当前价值信息;
根据所述当前价值信息以及预设的环境奖惩参数,确定所述时间差分。
3.根据权利要求1所述的基于多Agent环境的深度强化学习算法,其特征在于,所述Agent中的预测网络包括critic网络;
所述利用所述Agent中的预测网络,根据所述目标状态信息、智能体样本的动作信息以及所述时间差分,确定误差值,包括:
将所述目标状态信息和所述智能体样本的动作信息输入至所述critic网络中进行预测,得到目标价值信息;
根据所述目标价值信息和所述时间差分,确定所述误差值。
4.根据权利要求3所述的基于多Agent环境的深度强化学习算法,其特征在于,所述Agent中的预测网络包括actor网络;
所述基于所述误差值,以及自适应修改参数,对所述Agent中的预测网络和所述Agent中的目标网络各自对应的加权值进行更新,包括:
基于所述误差值,对所述critic网络的加权值进行更新;
对所述智能体样本的动作信息进行抽样,得到目标动作信息,根据所述目标动作信息对所述actor网络的加权值进行更新;
根据更新后的actor网络的加权值和更新后的critic网络的加权值,以及所述自适应修改参数,对所述目标actor网络和所述目标critic网络各自对应的加权值进行更新。
5.根据权利要求4所述的基于多Agent环境的深度强化学习算法,其特征在于,所述根据更新后的critic网络的加权值和更新后的actor网络的加权值,以及所述自适应修改参数,对所述目标actor网络和所述目标critic网络各自对应的加权值进行更新,包括:
基于预设的自适应加权平均更新模型,确定所述自适应修改参数;
根据所述自适应修改参数,确定网络更新模型;
根据网络更新模型,以及所述更新后的critic网络的加权值和所述更新后的actor网络的加权值,对所述目标actor网络和所述目标critic网络各自对应的加权值进行更新。
6.根据权利要求5所述的基于多Agent环境的深度强化学习算法,其特征在于,所述自适应加权平均更新模型为:
Figure QLYQS_1
其中,
Figure QLYQS_2
代表所述自适应修改参数,/>
Figure QLYQS_3
,batch为智能体样本个数,/>
Figure QLYQS_4
为第i个智能体样本对应的所述当前价值信息,/>
Figure QLYQS_5
为第i个智能体样本对应的所述目标价值信息。
7.根据权利要求5或6所述的基于多Agent环境的深度强化学习算法,其特征在于,所述网络更新模型为:
Figure QLYQS_6
其中,
Figure QLYQS_7
代表所述自适应修改参数,/>
Figure QLYQS_8
小于等于1,/>
Figure QLYQS_9
是所述预测值的集合,/>
Figure QLYQS_10
是所述目标值的集合。
8.根据权利要求4所述的基于多Agent环境的深度强化学习算法,其特征在于,所述根据所述目标加权值确定目标深度强化学习模型,包括:
根据所述目标加权值,分别对更新后的critic网络的网络参数和更新后的actor网络的网络参数进行软拷贝,得到新的目标critic网络和新的目标actor网络;从而确定目标深度强化学习模型。
9.一种存储介质,其特征在于,包所述存储介质中存储有至少一条指令,所示指令由处理器加载并执行以实现如权利要求1-8任一项所述基于多Agent环境中的深度强化学习算法。
10.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令,所示指令由处理器加载并执行以实现如权利要求1-8任一项所述基于多Agent环境中的深度强化学习算法。
CN202211114004.3A 2022-09-14 2022-09-14 基于多Agent环境的深度强化学习算法、设备和存储介质 Active CN115392438B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211114004.3A CN115392438B (zh) 2022-09-14 2022-09-14 基于多Agent环境的深度强化学习算法、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211114004.3A CN115392438B (zh) 2022-09-14 2022-09-14 基于多Agent环境的深度强化学习算法、设备和存储介质

Publications (2)

Publication Number Publication Date
CN115392438A CN115392438A (zh) 2022-11-25
CN115392438B true CN115392438B (zh) 2023-07-07

Family

ID=84126052

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211114004.3A Active CN115392438B (zh) 2022-09-14 2022-09-14 基于多Agent环境的深度强化学习算法、设备和存储介质

Country Status (1)

Country Link
CN (1) CN115392438B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111552183A (zh) * 2020-05-17 2020-08-18 南京大学 一种基于自适应权重强化学习的六足机器人避障方法
CN112997128A (zh) * 2021-04-19 2021-06-18 华为技术有限公司 一种自动驾驶场景的生成方法、装置及系统
CN113487039A (zh) * 2021-06-29 2021-10-08 山东大学 基于深度强化学习的智能体自适应决策生成方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111552183A (zh) * 2020-05-17 2020-08-18 南京大学 一种基于自适应权重强化学习的六足机器人避障方法
CN112997128A (zh) * 2021-04-19 2021-06-18 华为技术有限公司 一种自动驾驶场景的生成方法、装置及系统
CN113487039A (zh) * 2021-06-29 2021-10-08 山东大学 基于深度强化学习的智能体自适应决策生成方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"Multi-agent deep deterministic policy gradient algorithm for peer-to-peer energy trading considering distribution network constraints";Jun Cao 等;《Applied Energy》;全文 *
"基于多智能体深度强化学习的配电网无功优化策略";邓清唐 等;《电工电能新技术》;全文 *
"基于深度强化学习的多智能体协作方法研究";黄旭忠;《中国优秀硕士学位论文全文数据库信息科技辑》;全文 *
"基于深度强化学习的无线资源动态分配算法研究";康灿平;《中国优秀硕士学位论文全文数据库信息科技辑》;全文 *

Also Published As

Publication number Publication date
CN115392438A (zh) 2022-11-25

Similar Documents

Publication Publication Date Title
CN110168578B (zh) 具有任务特定路径的多任务神经网络
JP2021503644A (ja) 重みデータの保存方法及びこの方法をベースとするニューラルネットワークプロセッサ
WO2017218699A1 (en) System and methods for intrinsic reward reinforcement learning
WO2019155064A1 (en) Data compression using jointly trained encoder, decoder, and prior neural networks
EP4105835A1 (en) Neural network architecture search method and apparatus, device and medium
CN109690576A (zh) 在多个机器学习任务上训练机器学习模型
CN112884130A (zh) 一种基于SeqGAN的深度强化学习数据增强防御方法和装置
CN113568727A (zh) 一种基于深度强化学习的移动边缘计算任务分配方法
KR20190124846A (ko) 재귀적 신경망에서 시계열 데이터의 데이터 누락 및 노이즈에 강건한 gru 기반의 셀 구조 설계
CN113361777A (zh) 基于vmd分解和ihho优化lstm的径流预测方法及系统
CN116523079A (zh) 一种基于强化学习联邦学习优化方法及系统
CN114821204B (zh) 一种基于元学习嵌入半监督学习图像分类方法与系统
CN113962390B (zh) 基于深度强化学习网络构建多样化搜索策略的模型的方法
CN113392971A (zh) 策略网络训练方法、装置、设备及可读存储介质
CN112348155A (zh) 一种模糊神经网络模型的优化方法及系统
US9471885B1 (en) Predictor-corrector method for knowledge amplification by structured expert randomization
CN111724370A (zh) 一种基于不确定性和概率的多任务无参考图像质量评估方法及系统
CN115392438B (zh) 基于多Agent环境的深度强化学习算法、设备和存储介质
CN114357526A (zh) 抵御推断攻击的医疗诊断模型差分隐私联合训练方法
JP7290608B2 (ja) 機械学習装置、機械学習方法及び機械学習プログラム
CN115168722A (zh) 内容交互预测方法以及相关设备
CN114374608B (zh) 切片实例备份任务调度方法、装置和电子设备
CN117788983B (zh) 基于大模型的图像数据处理方法及装置、存储介质
Sikorra et al. Allocation of container slots based on machine learning
CN115705492A (zh) 一种神经网络剪枝方法及装置、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant