CN115860107A - 一种基于多智能体深度强化学习的多机探寻方法及系统 - Google Patents

一种基于多智能体深度强化学习的多机探寻方法及系统 Download PDF

Info

Publication number
CN115860107A
CN115860107A CN202310044962.6A CN202310044962A CN115860107A CN 115860107 A CN115860107 A CN 115860107A CN 202310044962 A CN202310044962 A CN 202310044962A CN 115860107 A CN115860107 A CN 115860107A
Authority
CN
China
Prior art keywords
network
virtual
virtual robot
moment
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310044962.6A
Other languages
English (en)
Other versions
CN115860107B (zh
Inventor
肖晓晖
张涵
张晓晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202310044962.6A priority Critical patent/CN115860107B/zh
Publication of CN115860107A publication Critical patent/CN115860107A/zh
Application granted granted Critical
Publication of CN115860107B publication Critical patent/CN115860107B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Image Analysis (AREA)
  • Manipulator (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明提供一种基于多智能体深度强化学习的多机探寻方法及系统,包括搭建机器人集群仿真平台,将机器人集群探寻任务建模为分布式部分可观测马尔可夫决策过程,获取虚拟机器人集群完成探寻任务的轨迹信息并储存在经验回放缓存中,针对虚拟机器人集群搭建图像特征提取网络、值估计网络和值分解网络,基于多智能体深度强化学习进行迭代优化,得到最佳参数,在仿真平台上将虚拟目标场景与虚拟机器人集群结合后进行组合训练,便于部署真实目标场景和真实机器人集群,本发明能够在训练时获取全局的信息进行集中式学习,使得机器人可以学习到集体行为,大大提升了工作效率,且不容易出现目标冲突、互相干扰等问题。

Description

一种基于多智能体深度强化学习的多机探寻方法及系统
技术领域
本发明涉及机器人技术领域,尤其涉及一种基于多智能体深度强化学习的多机探寻方法及系统。
背景技术
近年来,机器人技术在外界感知、运动控制、定位导航等方面的研究受到了广泛的关注。其中,机器人集群作为群体智能的代表,因其可以集体地、自发地组织行为完成任务,在个人、社会等层面都具有广阔的应用前景。
但是,由于多机探寻任务中机器人的部分可观测性和机器人之间通信的约束,以及随着机器人数量增加带来的决策空间的指数型扩大和场景的复杂度增加,机器人集群的协同决策面临着巨大的挑战。
使用传统强化学习的多机探寻方法将每个机器人作为单独的个体,忽略了机器人之间的交互作用,使得完成集群任务时经常出现目标冲突、互相干扰等问题,大大降低了工作效率。对于过大的决策空间和复杂的场景,使用传统深度强化学习的方法也容易出现无法收敛到最优解的问题,使得机器人集群在完成任务时,效率大大降低。
发明内容
根据现有技术的不足,本发明的目的是提供一种基于多智能体深度强化学习的多机探寻方法及系统,能够在训练时获取全局的信息进行集中式学习,使得机器人可以学习到集体行为,大大提升了工作效率,且不容易出现目标冲突、互相干扰等问题。
为了解决上述技术问题,本发明采用的技术方案为:
本发明提供一种基于多智能体深度强化学习的多机探寻方法,包括以下步骤:
一种基于多智能体深度强化学习的多机探寻方法,包括以下步骤:
步骤1、搭建机器人集群仿真平台,包括虚拟目标场景的设计、虚拟障碍物的布置以及对虚拟机器人集群的设计与组合,虚拟机器人集群包括N个虚拟机器人;
步骤2、将机器人集群探寻任务建模为分布式部分可观测马尔可夫决策过程;
步骤3、获取虚拟机器人集群完成探寻任务的轨迹信息,并储存在经验回放缓存中;
步骤4、针对虚拟机器人集群搭建图像特征提取网络、值估计网络和值分解网络,其中,值分解网络使用多头注意力机制估计全局状态价值;
步骤5、基于多智能体深度强化学习进行迭代优化,训练图像特征提取网络、值估计网络和值分解网络的网络参数,得到最佳网络参数;
步骤6、在仿真平台上,将虚拟目标场景与虚拟机器人集群结合后进行组合训练,进而部署于真实目标场景和真实机器人集群中。
进一步地,在所述的步骤2中,分布式部分可观测马尔可夫决策过程为:
Figure SMS_1
其中,
Figure SMS_8
为虚拟机器人个数,/>
Figure SMS_16
为状态空间,/>
Figure SMS_23
为动作空间,/>
Figure SMS_9
为/>
Figure SMS_13
时刻第/>
Figure SMS_20
个虚拟机器人选择的动作,/>
Figure SMS_25
,/>
Figure SMS_7
为/>
Figure SMS_17
时刻虚拟机器人集群选择的联合动作集,
Figure SMS_22
,/>
Figure SMS_29
为/>
Figure SMS_5
时刻的系统状态,/>
Figure SMS_11
为/>
Figure SMS_15
时刻的系统状态,/>
Figure SMS_24
Figure SMS_6
下选择/>
Figure SMS_14
后转移到/>
Figure SMS_27
的状态转移概率函数,/>
Figure SMS_31
为/>
Figure SMS_2
下选择/>
Figure SMS_10
的奖励函数,/>
Figure SMS_12
为观测空间,/>
Figure SMS_21
为第/>
Figure SMS_4
个虚拟机器人的观测,/>
Figure SMS_18
,/>
Figure SMS_26
为第/>
Figure SMS_30
个虚拟机器人选择/>
Figure SMS_3
后在/>
Figure SMS_19
下虚拟机器人观测到/>
Figure SMS_28
的条件观测概率,/>
Figure SMS_32
为折扣系数。
进一步地,在所述的步骤3中,虚拟机器人集群完成探索与搜寻任务的一条轨迹信息包含:
Figure SMS_33
Figure SMS_34
其中,
Figure SMS_36
和/>
Figure SMS_41
分别为/>
Figure SMS_44
时刻和/>
Figure SMS_37
时刻的系统状态,系统状态由以下全局俯视图组成:(1)全局环境图,(2)各个虚拟机器人的状态图;/>
Figure SMS_42
和/>
Figure SMS_46
分别为/>
Figure SMS_48
时刻和
Figure SMS_35
时刻的虚拟机器人观测,虚拟机器人观测由以下局部俯视图组成:(1)局部环境图,(2)虚拟机器人自身状态与观测到的其它虚拟机器人状态图,(3)由虚拟机器人到各个目标的最短路径图;/>
Figure SMS_39
为/>
Figure SMS_43
时刻虚拟机器人集群选择的联合动作集;/>
Figure SMS_47
为/>
Figure SMS_38
时刻获得的奖励;
Figure SMS_40
为起始时刻,/>
Figure SMS_45
为序列长度;
将所获得的轨迹信息储存在经验回放缓存
Figure SMS_49
中。
进一步地,在所述的步骤4中,特征提取网络、值估计网络和值分解网络的搭建如下:
特征提取网络共有两个且均使用卷积神经网络提取特征,其一用于提取系统状态特征,输入为
Figure SMS_52
时刻的系统状态/>
Figure SMS_55
,输出为/>
Figure SMS_58
时刻的系统状态特征图/>
Figure SMS_51
;其二用于提取虚拟机器人观测特征,输入为/>
Figure SMS_53
时刻第/>
Figure SMS_56
个虚拟机器人的观测/>
Figure SMS_59
,输出为/>
Figure SMS_50
时刻第/>
Figure SMS_54
个虚拟机器人的观测特征图/>
Figure SMS_57
值估计网络针对每个虚拟机器人分别搭建,使用循环神经网络估计虚拟机器人的状态价值,其输入为序列长度为
Figure SMS_61
的第/>
Figure SMS_66
个虚拟机器人的观测特征图序列/>
Figure SMS_67
,输出为序列长度为/>
Figure SMS_63
的值估计网络对第/>
Figure SMS_65
个虚拟机器人的状态价值函数的估计值序列/>
Figure SMS_69
,其中,/>
Figure SMS_71
为/>
Figure SMS_60
时刻第/>
Figure SMS_64
个虚拟机器人的估计值且大小与/>
Figure SMS_68
相等的图,/>
Figure SMS_70
为起始时刻,/>
Figure SMS_62
值分解网络使用多头注意力机制估计全局状态价值,其输入为
Figure SMS_73
时刻的系统状态特征图/>
Figure SMS_76
、/>
Figure SMS_80
时刻的虚拟机器人集群的观测特征图/>
Figure SMS_75
与/>
Figure SMS_79
时刻的联合动作集
Figure SMS_83
对应的估计值集合/>
Figure SMS_85
,/>
Figure SMS_72
为/>
Figure SMS_78
时刻虚拟机器人的观测,/>
Figure SMS_81
为/>
Figure SMS_84
时刻第/>
Figure SMS_74
个虚拟机器人选择的动作,输出为/>
Figure SMS_77
时刻的全局状态价值函数的估计值/>
Figure SMS_82
进一步地,所述步骤5具体包括:
步骤501、对特征提取网络
Figure SMS_89
和/>
Figure SMS_96
及分别对应的目标网络/>
Figure SMS_97
和/>
Figure SMS_88
、值估计网络/>
Figure SMS_90
及其目标网络/>
Figure SMS_92
和值分解网络/>
Figure SMS_94
及其目标网络/>
Figure SMS_86
进行参数初始化,并确定每次训练的批量大小/>
Figure SMS_91
、序列长度/>
Figure SMS_93
、目标网络更新时间/>
Figure SMS_95
和总体训练时长/>
Figure SMS_87
步骤502、随机初始化场景环境,获取
Figure SMS_99
时刻的系统状态/>
Figure SMS_103
和虚拟机器人观测/>
Figure SMS_110
,由值估计网络/>
Figure SMS_98
生成/>
Figure SMS_109
时刻第/>
Figure SMS_112
个虚拟机器人的估计值/>
Figure SMS_115
,然后选取每个虚拟机器人的估计值最大值在动作空间/>
Figure SMS_102
中所对应的动作的集合/>
Figure SMS_113
,作为采取的/>
Figure SMS_101
时刻虚拟机器人集群选择的联合动作集/>
Figure SMS_106
,与环境交互后得到/>
Figure SMS_104
时刻的奖励/>
Figure SMS_116
与/>
Figure SMS_105
时刻的系统状态/>
Figure SMS_108
和虚拟机器人的观测/>
Figure SMS_100
,重复步骤502直到得到/>
Figure SMS_107
个序列长度/>
Figure SMS_111
的序列,并储存在经验回放缓存/>
Figure SMS_114
中;
步骤503、在经验回放缓存
Figure SMS_120
中随机采样批量大小为/>
Figure SMS_123
的序列,通过特征提取网络
Figure SMS_125
和/>
Figure SMS_119
提取出系统状态特征图序列/>
Figure SMS_124
和虚拟机器人的观测特征图序列/>
Figure SMS_128
,/>
Figure SMS_129
为/>
Figure SMS_117
时刻的系统状态,/>
Figure SMS_122
为/>
Figure SMS_126
时刻第/>
Figure SMS_127
个虚拟机器人的观测,/>
Figure SMS_118
,/>
Figure SMS_121
为起始时刻;/>
步骤504、将虚拟机器人的观测特征图序列输入值估计网络
Figure SMS_134
,计算出估计值序列/>
Figure SMS_133
,其中,/>
Figure SMS_143
为/>
Figure SMS_132
时刻第/>
Figure SMS_141
个虚拟机器人的估计值,/>
Figure SMS_148
Figure SMS_149
为系统状态,/>
Figure SMS_136
为第/>
Figure SMS_145
个虚拟机器人的动作序列/>
Figure SMS_130
与观测序列
Figure SMS_144
组成的动作观测历史,其表达形式为
Figure SMS_135
,表示了虚拟机器人在/>
Figure SMS_142
时刻采取了动作/>
Figure SMS_137
后,获取到/>
Figure SMS_140
时刻的观测/>
Figure SMS_138
,以此类推直到虚拟机器人在/>
Figure SMS_147
时刻采取了动作/>
Figure SMS_139
后,获取到/>
Figure SMS_146
时刻的观测/>
Figure SMS_131
步骤505、将
Figure SMS_167
时刻的虚拟机器人集群的估计值/>
Figure SMS_153
和系统状态特征图
Figure SMS_164
输入值分解网络/>
Figure SMS_156
,计算/>
Figure SMS_169
时刻的全局估计值/>
Figure SMS_168
Figure SMS_172
其中,/>
Figure SMS_152
为与/>
Figure SMS_163
时刻的系统状态特征/>
Figure SMS_150
相关的常数,/>
Figure SMS_160
为多头注意力机制的头数,/>
Figure SMS_155
为多头注意力机制中来自不同头部的/>
Figure SMS_159
值分配权重,/>
Figure SMS_157
为值分解网络/>
Figure SMS_165
对第/>
Figure SMS_154
个虚拟机器人的值估计网络/>
Figure SMS_158
进行分解时第/>
Figure SMS_162
阶的系数/>
Figure SMS_171
,均由/>
Figure SMS_151
生成,其中,/>
Figure SMS_161
为/>
Figure SMS_166
Figure SMS_170
阶的微元;
步骤506、计算损失函数:
Figure SMS_173
其中,
Figure SMS_180
为批量大小,/>
Figure SMS_174
为特征提取网络、值估计网络及值分解网络组成的整体/>
Figure SMS_185
函数,/>
Figure SMS_179
为网络参数,/>
Figure SMS_186
为目标网络参数,/>
Figure SMS_190
为折扣系数,/>
Figure SMS_194
与/>
Figure SMS_181
为第/>
Figure SMS_188
条序列中/>
Figure SMS_178
时刻与/>
Figure SMS_187
时刻虚拟机器人集群选择的联合动作集,/>
Figure SMS_175
与/>
Figure SMS_182
为第/>
Figure SMS_177
条序列中/>
Figure SMS_183
时刻与/>
Figure SMS_189
时刻的系统状态,/>
Figure SMS_192
与/>
Figure SMS_191
为第/>
Figure SMS_193
条序列中/>
Figure SMS_176
时刻与/>
Figure SMS_184
时刻为虚拟机器人集群的动作观测历史;
步骤507、进行梯度下降,根据损失函数计算的值调整更新网络参数,当训练步长到达
Figure SMS_195
的整数倍时,将目标网络的参数与当前网络同步;
步骤508、重复步骤502至步骤507,直到训练步长到达总体训练时长
Figure SMS_196
进一步地,在所述的步骤6中,虚拟目标场景包括探索与搜寻场景,虚拟机器人为虚拟推进机器人、虚拟起重机器人或虚拟抛投机器人。
一种基于多智能体深度强化学习的多机探寻系统,包括:
仿真平台搭建模块,用于搭建机器人集群仿真平台,包括虚拟目标场景的设计、虚拟障碍物的布置以及对虚拟机器人集群的设计与组合,虚拟机器人集群包括N个虚拟机器人;
建模模块,用于将机器人集群探寻任务建模为分布式部分可观测马尔可夫决策过程;
探寻任务获取模块,用于获取虚拟机器人集群完成探寻任务的轨迹信息,并储存在经验回放缓存中;
特征提取模块,用于针对虚拟机器人集群搭建图像特征提取网络、值估计网络和值分解网络,其中,值分解网络使用多头注意力机制估计全局状态价值;
优化模块,用于基于多智能体深度强化学习进行迭代优化,训练图像特征提取网络、值估计网络和值分解网络的网络参数,得到最佳参数;
部署模块,用于在仿真平台上,将虚拟目标场景与虚拟机器人集群结合后进行组合训练,进而部署于真实目标场景和真实机器人集群中。
一种基于多智能体深度强化学习的多机探寻设备,其特征在于:包括处理器和用于存储能够在处理器上运行的计算机程序的存储器,所述处理器用于运行计算机程序时,执行上述任一项所述基于多智能体深度强化学习的多机探寻方法的步骤。
一种计算机存储介质,其特征在于:所述计算机存储介质中存储有计算机程序,所述计算机程序被处理器执行时,实现上述任一项基于多智能体深度强化学习的多机探寻方法的步骤。
与现有技术相比,本发明具有以下优点和有益效果:
(1)本发明提供的一种基于多智能体深度强化学习的多机探寻方法及系统,关注虚拟机器人集群行为,多智能体深度强化学习可以在训练时获取全局的信息进行集中式学习,使得虚拟机器人可以学习到集体行为而非个体行为,且在部署时分布式执行,使得部署后的计算负担较传统方法相差不多,但工作效率大大提升,且不容易出现目标冲突、互相干扰等问题。
(2)本发明提供的一种基于多智能体深度强化学习的多机探寻方法及系统,值分解网络使用多头注意力机制估计全局状态价值,加入了多头注意力机制后,本发明虚拟机器人集群面对大决策空间也能取得很好的效果,且适用于更复杂的场景。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分。本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明基于多智能体深度强化学习的多机探寻方法的流程图;
图2为本发明基于多智能体深度强化学习的多机探寻系统的示意图;
图3为本发明基于多智能体深度强化学习的多机探寻场景的示意图。
其中,1、虚拟起重机器人;2、目标物体;3、目标区域;4、边界。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本发明提供一种基于多智能体深度强化学习的多机探寻方法,如图1所示,包括以下步骤:
步骤1、搭建机器人集群仿真平台,包括虚拟目标场景的设计、虚拟障碍物的布置以及对虚拟机器人集群的设计与组合,虚拟机器人集群包括N个虚拟机器人;
步骤2、将机器人集群探寻任务建模为分布式部分可观测马尔可夫决策过程;
步骤3、获取虚拟机器人集群完成探寻任务的轨迹信息,并储存在经验回放缓存中;
步骤4、针对虚拟机器人集群搭建图像特征提取网络、值估计网络和值分解网络,其中,值分解网络使用多头注意力机制估计全局状态价值;
步骤5、基于多智能体深度强化学习进行迭代优化,训练图像特征提取网络、值估计网络和值分解网络的网络参数,得到最佳网络参数;
步骤6、在仿真平台上,将虚拟目标场景与虚拟机器人集群结合后进行组合训练,进而部署于真实目标场景和真实机器人集群中。
本发明提供的一种基于多智能体深度强化学习的多机探寻方法,关注机器人集群行为,多智能体深度强化学习可以在训练时获取全局的信息进行集中式学习,使得虚拟机器人可以学习到集体行为而非个体行为,且在部署时分布式执行,使得部署后的计算负担较传统方法相差不多,但工作效率大大提升,且不容易出现目标冲突、互相干扰等问题。
本发明提供的一种基于多智能体深度强化学习的多机探寻方法,值分解网络使用多头注意力机制估计全局状态价值,加入了多头注意力机制后,本发明虚拟机器人集群面对大决策空间也能取得很好的效果,且适用于更复杂的场景。
在步骤2中,由于机器人集群探寻任务属于多智能体决策问题,其特点是各个智能体只能获取局部观测信息,而奖励信号是全局共享的,因此本发明采用分布式部分可观测马尔可夫决策过程对任务进行建模,能够客观、准确地描述真实环境与虚拟机器人集群的状态,便于实现仿真到实际的迁移。
在步骤3中,将轨迹信息储存在经验回放缓存中,并在训练时随机抽取历史信息,可以大大提高样本效率,节省计算资源,并且可以消除采样数据之间的相关性,减小方差。
在步骤4中,由于系统状态与虚拟机器人观测由图的形式进行表示,使用图像特征提取网络可以有效地抽取特征,获得向量表示,值估计网络可以估计每个虚拟机器人可选取的所有动作的价值,并从中选取价值最高的动作作为最优解,是完成任务的关键,值分解网络对每个虚拟机器人选取动作的价值进行评估计算出加权和,解决了虚拟机器人观测的局限性,能站在全局的角度更好地学习到全局最优策略,同时消除了环境不稳定性。
本发明中,在所述的步骤2中,机器人集群探寻任务的分布式部分可观测马尔可夫决策过程模型为:
Figure SMS_197
其中,
Figure SMS_205
为虚拟机器人个数,/>
Figure SMS_213
为状态空间,/>
Figure SMS_220
为动作空间,/>
Figure SMS_201
为/>
Figure SMS_209
时刻第/>
Figure SMS_215
个虚拟机器人选择的动作,/>
Figure SMS_222
,/>
Figure SMS_200
为/>
Figure SMS_210
时刻虚拟机器人集群选择的联合动作集,
Figure SMS_217
,/>
Figure SMS_223
为/>
Figure SMS_204
时刻的系统状态,/>
Figure SMS_208
为/>
Figure SMS_218
时刻的系统状态,/>
Figure SMS_225
Figure SMS_202
下选择/>
Figure SMS_212
后转移到/>
Figure SMS_221
的状态转移概率函数,/>
Figure SMS_227
为/>
Figure SMS_198
下选择/>
Figure SMS_207
的奖励函数,/>
Figure SMS_214
为观测空间,/>
Figure SMS_219
为第/>
Figure SMS_199
个虚拟机器人的观测,/>
Figure SMS_211
,/>
Figure SMS_226
为第/>
Figure SMS_228
个虚拟机器人选择/>
Figure SMS_203
后在/>
Figure SMS_206
下虚拟机器人观测到/>
Figure SMS_216
的条件观测概率,/>
Figure SMS_224
为折扣系数。
本发明中,在所述的步骤3中,虚拟机器人集群完成探索与搜寻任务的一条轨迹信息包含:
虚拟机器人集群完成探索与搜寻任务的一条轨迹信息包含:
Figure SMS_229
Figure SMS_230
其中,
Figure SMS_234
和/>
Figure SMS_237
分别为/>
Figure SMS_241
时刻和/>
Figure SMS_232
时刻的系统状态,系统状态由以下全局俯视图组成:(1)全局环境图,(2)各个虚拟机器人的状态图;/>
Figure SMS_236
和/>
Figure SMS_239
分别为/>
Figure SMS_242
时刻和
Figure SMS_231
时刻的虚拟机器人观测,虚拟机器人观测由以下局部俯视图组成:(1)局部环境图,(2)虚拟机器人自身状态与观测到的其它虚拟机器人状态图,(3)由虚拟机器人到各个目标的最短路径图;/>
Figure SMS_235
为/>
Figure SMS_238
时刻虚拟机器人集群选择的联合动作集;/>
Figure SMS_240
为/>
Figure SMS_233
时刻获得的奖励;
Figure SMS_243
为起始时刻,/>
Figure SMS_244
为序列长度;
将所获得的轨迹信息储存在经验回放缓存
Figure SMS_245
中。
本发明中,在所述的步骤4中,特征提取网络、值估计网络和值分解网络的搭建如下:
特征提取网络共有两个且均使用卷积神经网络提取特征,其一用于提取系统状态特征,输入为
Figure SMS_248
时刻的系统状态/>
Figure SMS_249
,输出为/>
Figure SMS_252
时刻的系统状态特征图/>
Figure SMS_247
;其二用于提取虚拟机器人观测特征,输入为/>
Figure SMS_251
时刻第/>
Figure SMS_254
个虚拟机器人的观测/>
Figure SMS_255
,输出为/>
Figure SMS_246
时刻第/>
Figure SMS_250
个虚拟机器人的观测特征图/>
Figure SMS_253
值估计网络针对每个虚拟机器人分别搭建,使用循环神经网络估计虚拟机器人的状态价值,其输入为序列长度为
Figure SMS_257
的第/>
Figure SMS_260
个虚拟机器人的观测特征图序列
Figure SMS_263
,输出为序列长度为/>
Figure SMS_258
的值估计网络对第/>
Figure SMS_261
个虚拟机器人的状态价值函数的估计值序列/>
Figure SMS_264
,其中,/>
Figure SMS_267
为/>
Figure SMS_256
时刻第/>
Figure SMS_262
个虚拟机器人的估计值且大小与/>
Figure SMS_265
相等的图,/>
Figure SMS_266
为起始时刻,/>
Figure SMS_259
值分解网络使用多头注意力机制估计全局状态价值,其输入为
Figure SMS_271
时刻的系统状态特征图/>
Figure SMS_274
、/>
Figure SMS_278
时刻的虚拟机器人集群的观测特征图/>
Figure SMS_269
与/>
Figure SMS_272
时刻的联合动作集
Figure SMS_276
对应的估计值集合/>
Figure SMS_281
,/>
Figure SMS_268
为/>
Figure SMS_275
时刻虚拟机器人的观测,/>
Figure SMS_277
为/>
Figure SMS_280
时刻第/>
Figure SMS_270
个虚拟机器人选择的动作,输出为/>
Figure SMS_273
时刻的全局状态价值函数的估计值/>
Figure SMS_279
本发明中,所述步骤5具体包括:
步骤501、对特征提取网络
Figure SMS_284
和/>
Figure SMS_286
及分别对应的目标网络/>
Figure SMS_289
和/>
Figure SMS_283
、值估计网络/>
Figure SMS_287
及其目标网络/>
Figure SMS_290
和值分解网络/>
Figure SMS_292
及其目标网络/>
Figure SMS_282
进行参数初始化,并确定每次训练的批量大小/>
Figure SMS_288
、序列长度/>
Figure SMS_291
、目标网络更新时间/>
Figure SMS_293
和总体训练时长/>
Figure SMS_285
步骤502、随机初始化场景环境,获取
Figure SMS_295
时刻的系统状态/>
Figure SMS_297
和虚拟机器人观测/>
Figure SMS_304
,由值估计网络/>
Figure SMS_298
生成/>
Figure SMS_307
时刻第/>
Figure SMS_301
个虚拟机器人的估计值/>
Figure SMS_309
,然后选取每个虚拟机器人的估计值最大值在动作空间/>
Figure SMS_306
中所对应的动作的集合/>
Figure SMS_311
,作为采取的/>
Figure SMS_294
时刻虚拟机器人集群选择的联合动作集/>
Figure SMS_302
,与环境交互后得到/>
Figure SMS_296
时刻的奖励/>
Figure SMS_305
与/>
Figure SMS_300
时刻的系统状态/>
Figure SMS_303
和虚拟机器人的观测/>
Figure SMS_299
,重复步骤502直到得到/>
Figure SMS_308
个序列长度/>
Figure SMS_310
的序列,并储存在经验回放缓存/>
Figure SMS_312
中;
步骤503、在经验回放缓存
Figure SMS_314
中随机采样批量大小为/>
Figure SMS_318
的序列,通过特征提取网络/>
Figure SMS_322
和/>
Figure SMS_315
提取出系统状态特征图序列/>
Figure SMS_317
和虚拟机器人的观测特征图序列/>
Figure SMS_321
,/>
Figure SMS_324
为/>
Figure SMS_313
时刻的系统状态,/>
Figure SMS_320
为/>
Figure SMS_323
时刻第/>
Figure SMS_325
个虚拟机器人的观测,/>
Figure SMS_316
,/>
Figure SMS_319
为起始时刻;
步骤504、将虚拟机器人的观测特征图序列输入值估计网络
Figure SMS_332
,计算出估计值序列/>
Figure SMS_327
,其中,/>
Figure SMS_339
为/>
Figure SMS_331
时刻第/>
Figure SMS_337
个虚拟机器人的估计值,
Figure SMS_329
,/>
Figure SMS_340
为系统状态,/>
Figure SMS_342
为第/>
Figure SMS_345
个虚拟机器人的动作序列
Figure SMS_326
与观测序列/>
Figure SMS_338
组成的动作观测历史,其表达形式为
Figure SMS_330
,表示了虚拟机器人在/>
Figure SMS_334
时刻采取了动作/>
Figure SMS_335
后,获取到/>
Figure SMS_341
时刻的观测/>
Figure SMS_333
,以此类推直到虚拟机器人在/>
Figure SMS_336
时刻采取了动作/>
Figure SMS_343
后,获取到/>
Figure SMS_344
时刻的观测/>
Figure SMS_328
步骤505、将
Figure SMS_350
时刻的虚拟机器人集群的估计值/>
Figure SMS_351
和系统状态特征图
Figure SMS_354
输入值分解网络/>
Figure SMS_349
,计算/>
Figure SMS_359
时刻的全局估计值/>
Figure SMS_352
Figure SMS_360
其中,/>
Figure SMS_353
为与/>
Figure SMS_355
时刻的系统状态特征/>
Figure SMS_347
相关的常数,/>
Figure SMS_357
为多头注意力机制的头数,/>
Figure SMS_348
为多头注意力机制中来自不同头部的/>
Figure SMS_362
值分配权重,/>
Figure SMS_356
为值分解网络/>
Figure SMS_365
对第/>
Figure SMS_361
个虚拟机器人的值估计网络
Figure SMS_366
进行分解时第/>
Figure SMS_363
阶的系数/>
Figure SMS_368
,均由/>
Figure SMS_346
生成,其中,/>
Figure SMS_358
为/>
Figure SMS_364
第/>
Figure SMS_367
阶的微元;
步骤506、计算损失函数:
Figure SMS_369
其中,
Figure SMS_388
为批量大小,/>
Figure SMS_372
为特征提取网络、值估计网络及值分解网络组成的整体/>
Figure SMS_384
函数,/>
Figure SMS_375
为网络参数,/>
Figure SMS_385
为目标网络参数,/>
Figure SMS_387
为折扣系数,/>
Figure SMS_389
与/>
Figure SMS_377
为第/>
Figure SMS_381
条序列中/>
Figure SMS_370
时刻与/>
Figure SMS_378
时刻虚拟机器人集群选择的联合动作集,/>
Figure SMS_374
与/>
Figure SMS_382
为第/>
Figure SMS_376
条序列中/>
Figure SMS_383
时刻与/>
Figure SMS_371
时刻的系统状态,/>
Figure SMS_379
与/>
Figure SMS_386
为第/>
Figure SMS_390
条序列中/>
Figure SMS_373
时刻与
Figure SMS_380
时刻为虚拟机器人集群的动作观测历史;
步骤507、进行梯度下降,根据损失函数计算的值调整更新网络参数,当训练步长到达
Figure SMS_391
的整数倍时,将目标网络的参数与当前网络同步;
步骤508、重复步骤502至步骤507,直到训练步长到达总体训练时长
Figure SMS_392
在所述的步骤6中,虚拟目标场景包括探索与搜寻场景,虚拟机器人为虚拟推进机器人、虚拟起重机器人或虚拟抛投机器人。
综上所述,本发明使用多头注意力机制学习全局状态价值函数,在解决复杂的可分解问题时有着更好的性能,在虚拟机器人动作空间大、场景复杂的情况下表现更好;
本发明改进后的学习方法能适应输入为向量或图像、元组或序列等不同情况,泛化能力强,适应范围广,且收敛速度更快,效果更好。
在本发明的一个实施例中,如图3所示,在机器人集群仿真平台中搭建了探寻的虚拟目标场景,放置了4个虚拟起重机器人1和8个目标物体2,设置了虚拟目标场景的边界4使虚拟机器人能在固定区域内运动,确定了目标区域3为虚拟机器人将目标物体2送至的区域,并且在虚拟目标场景中设置了障碍物,以此模拟虚拟机器人集群探寻物体并送到指定位置。根据本发明提供的基于多智能体深度强化学习的多机探寻方法,4个虚拟起重机器人1组成的虚拟机器人集群根据神经网络输出的动作与环境进行交互,获取序列形式的经验储存在经验回放缓存中,在训练时取出对网络参数进行迭代优化,使4个虚拟起重机器人1组成的虚拟机器人集群完成搜寻任务的效率不断提升。训练完成后,将训练好的神经网络部署在真实目标场景的4个真实起重机器人上,使得真实目标场景的4个真实起重机器人可以在相似的、有障碍物的、物体可识别的真实场景中探寻物体并送到指定位置,实现由仿真环境向真实环境的迁移,并通过搭建多种不同虚拟机器人集群、不同物体、不同障碍物的虚拟目标场景使得虚拟机器人集群可以面对不同真实目标场景都能很好完成任务,如家庭服务、火场救援等,具有一定的泛化能力。
本发明还提供一种基于多智能体深度强化学习的多机探寻系统,如图2所示,包括:
仿真平台搭建模块,用于搭建机器人集群仿真平台,包括虚拟目标场景的设计、虚拟障碍物的布置以及对虚拟机器人集群的设计与组合,虚拟机器人集群包括N个虚拟机器人;
建模模块,用于将机器人集群探寻任务建模为分布式部分可观测马尔可夫决策过程;
探寻任务获取模块,用于获取虚拟机器人集群完成探寻任务的轨迹信息,并储存在经验回放缓存中;
特征提取模块,用于针对虚拟机器人集群搭建图像特征提取网络、值估计网络和值分解网络,其中,值分解网络使用多头注意力机制估计全局状态价值;
优化模块,用于基于多智能体深度强化学习进行迭代优化,训练图像特征提取网络、值估计网络和值分解网络的网络参数,得到最佳参数;
部署模块,用于在仿真平台上,将虚拟目标场景与虚拟机器人集群结合后进行组合训练,进而部署于真实目标场景和真实机器人集群中。
一种基于多智能体深度强化学习的多机探寻设备,包括处理器和用于存储能够在处理器上运行的计算机程序的存储器,所述处理器用于运行计算机程序时,执行上述任一项所述基于多智能体深度强化学习的多机探寻方法的步骤。
本发明实施例中的存储器用于存储各种类型的数据以支持基于多智能体深度强化学习的多机探寻设备的操作。这些数据的示例包括:用于在基于多智能体深度强化学习的多机探寻设备上操作的任何计算机程序。
本发明实施例揭示的基于多智能体深度强化学习的多机探寻方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,基于多智能体深度强化学习的多机探寻方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(DSP,DigitalSignalProcessor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成本发明实施例提供的基于多智能体深度强化学习的多机探寻方法的步骤。
在示例性实施例中,基于多智能体深度强化学习的多机探寻设备可以被一个或多个应用专用集成电路(ASIC,ApplicationSpecific Integrated Circuit)、DSP、可编程逻辑器件(PLD,ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD,ComplexProgrammable LogicDevice)、FPGA、通用处理器、控制器、微控制器(MCU,MicroController Unit)、微处理器(Microprocessor)、或者其他电子元件实现,用于执行前述方法。
可以理解,存储器可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,ReadOnly Memory)、可编程只读存储器(PROM,ProgrammableRead-Only Memory)、可擦除可编程只读存储器(EPROM,ErasableProgrammable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,ElectricallyErasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagneticrandom access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,CompactDisc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,RandomAccessMemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,StaticRandom Access Memory)、同步静态随机存取存储器(SSRAM,SynchronousStatic Random Access Memory)、动态随机存取存储器(DRAM,DynamicRandom Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamicRandom Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous DynamicRandom AccessMemory)、同步连接动态随机存取存储器(SLDRAM,SyncLinkDynamic Random AccessMemory)、直接内存总线随机存取存储器(DRRAM,DirectRambus Random Access Memory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
本发明还提供一种计算机存储介质,所述计算机存储介质中存储有计算机程序,所述计算机程序被处理器执行时,实现上述任一项基于多智能体深度强化学习的多机探寻方法的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (9)

1.一种基于多智能体深度强化学习的多机探寻方法,其特征在于,包括以下步骤:
步骤1、搭建机器人集群仿真平台,包括虚拟目标场景的设计、虚拟障碍物的布置以及对虚拟机器人集群的设计与组合,虚拟机器人集群包括N个虚拟机器人;
步骤2、将机器人集群探寻任务建模为分布式部分可观测马尔可夫决策过程;
步骤3、获取虚拟机器人集群完成探寻任务的轨迹信息,并储存在经验回放缓存中;
步骤4、针对虚拟机器人集群搭建图像特征提取网络、值估计网络和值分解网络,其中,值分解网络使用多头注意力机制估计全局状态价值;
步骤5、基于多智能体深度强化学习进行迭代优化,训练图像特征提取网络、值估计网络和值分解网络的网络参数,得到最佳网络参数;
步骤6、在仿真平台上,将虚拟目标场景与虚拟机器人集群结合后进行组合训练,进而部署于真实目标场景和真实机器人集群中。
2.根据权利要求1所述的基于多智能体深度强化学习的多机探寻方法,其特征在于:
在所述的步骤2中,分布式部分可观测马尔可夫决策过程为:
Figure QLYQS_1
其中,
Figure QLYQS_3
为虚拟机器人个数,/>
Figure QLYQS_5
为状态空间,/>
Figure QLYQS_6
为动作空间,/>
Figure QLYQS_10
为/>
Figure QLYQS_11
时刻第/>
Figure QLYQS_14
个虚拟机器人选择的动作,/>
Figure QLYQS_16
,/>
Figure QLYQS_18
为/>
Figure QLYQS_20
时刻虚拟机器人集群选择的联合动作集,/>
Figure QLYQS_22
,/>
Figure QLYQS_24
为/>
Figure QLYQS_25
时刻的系统状态,/>
Figure QLYQS_27
为/>
Figure QLYQS_30
时刻的系统状态,/>
Figure QLYQS_32
为/>
Figure QLYQS_2
下选择/>
Figure QLYQS_4
后转移到/>
Figure QLYQS_7
的状态转移概率函数,/>
Figure QLYQS_8
为/>
Figure QLYQS_9
下选择/>
Figure QLYQS_12
的奖励函数,/>
Figure QLYQS_13
为观测空间,
Figure QLYQS_15
为第/>
Figure QLYQS_17
个虚拟机器人的观测,/>
Figure QLYQS_19
,/>
Figure QLYQS_21
为第/>
Figure QLYQS_23
个虚拟机器人选择/>
Figure QLYQS_26
后在
Figure QLYQS_28
下虚拟机器人观测到/>
Figure QLYQS_29
的条件观测概率,/>
Figure QLYQS_31
为折扣系数。
3.根据权利要求1所述的基于多智能体深度强化学习的多机探寻方法,其特征在于:
在所述的步骤3中,虚拟机器人集群完成探索与搜寻任务的一条轨迹信息包含:
Figure QLYQS_33
,/>
Figure QLYQS_34
其中,
Figure QLYQS_36
和/>
Figure QLYQS_37
分别为/>
Figure QLYQS_40
时刻和/>
Figure QLYQS_42
时刻的系统状态,系统状态由以下全局俯视图组成:(1)全局环境图,(2)各个虚拟机器人的状态图;/>
Figure QLYQS_44
和/>
Figure QLYQS_46
分别为/>
Figure QLYQS_48
时刻和/>
Figure QLYQS_35
时刻的虚拟机器人观测,虚拟机器人观测由以下局部俯视图组成:(1)局部环境图,(2)虚拟机器人自身状态与观测到的其它虚拟机器人状态图,(3)由虚拟机器人到各个目标的最短路径图;/>
Figure QLYQS_38
为/>
Figure QLYQS_39
时刻虚拟机器人集群选择的联合动作集;/>
Figure QLYQS_41
为/>
Figure QLYQS_43
时刻获得的奖励;/>
Figure QLYQS_45
为起始时刻,/>
Figure QLYQS_47
为序列长度;
将所获得的轨迹信息储存在经验回放缓存
Figure QLYQS_49
中。/>
4.根据权利要求1所述的基于多智能体深度强化学习的多机探寻方法,其特征在于:
在所述的步骤4中,特征提取网络、值估计网络和值分解网络的搭建如下:
特征提取网络共有两个且均使用卷积神经网络提取特征,其一用于提取系统状态特征,输入为
Figure QLYQS_50
时刻的系统状态/>
Figure QLYQS_52
,输出为/>
Figure QLYQS_54
时刻的系统状态特征图/>
Figure QLYQS_56
;其二用于提取虚拟机器人观测特征,输入为/>
Figure QLYQS_57
时刻第/>
Figure QLYQS_58
个虚拟机器人的观测/>
Figure QLYQS_59
,输出为/>
Figure QLYQS_51
时刻第/>
Figure QLYQS_53
个虚拟机器人的观测特征图/>
Figure QLYQS_55
值估计网络针对每个虚拟机器人分别搭建,使用循环神经网络估计虚拟机器人的状态价值,其输入为序列长度为
Figure QLYQS_61
的第/>
Figure QLYQS_62
个虚拟机器人的观测特征图序列
Figure QLYQS_64
,输出为序列长度为/>
Figure QLYQS_66
的值估计网络对第/>
Figure QLYQS_68
个虚拟机器人的状态价值函数的估计值序列/>
Figure QLYQS_70
,其中,/>
Figure QLYQS_71
为/>
Figure QLYQS_60
时刻第/>
Figure QLYQS_63
个虚拟机器人的估计值且大小与/>
Figure QLYQS_65
相等的图,/>
Figure QLYQS_67
为起始时刻,/>
Figure QLYQS_69
值分解网络使用多头注意力机制估计全局状态价值,其输入为
Figure QLYQS_73
时刻的系统状态特征图/>
Figure QLYQS_74
、/>
Figure QLYQS_76
时刻的虚拟机器人集群的观测特征图/>
Figure QLYQS_79
与/>
Figure QLYQS_81
时刻的联合动作集/>
Figure QLYQS_83
对应的估计值集合/>
Figure QLYQS_84
,/>
Figure QLYQS_72
为/>
Figure QLYQS_75
时刻虚拟机器人的观测,/>
Figure QLYQS_77
为/>
Figure QLYQS_78
时刻第/>
Figure QLYQS_80
个虚拟机器人选择的动作,输出为/>
Figure QLYQS_82
时刻的全局状态价值函数的估计值/>
Figure QLYQS_85
5.根据权利要求1所述的基于多智能体深度强化学习的多机探寻方法,其特征在于,所述步骤5具体包括:
步骤501、对特征提取网络
Figure QLYQS_87
和/>
Figure QLYQS_89
及分别对应的目标网络/>
Figure QLYQS_91
和/>
Figure QLYQS_92
、值估计网络/>
Figure QLYQS_95
及其目标网络/>
Figure QLYQS_96
和值分解网络/>
Figure QLYQS_97
及其目标网络/>
Figure QLYQS_86
进行参数初始化,并确定每次训练的批量大小/>
Figure QLYQS_88
、序列长度/>
Figure QLYQS_90
、目标网络更新时间/>
Figure QLYQS_93
和总体训练时长
Figure QLYQS_94
步骤502、随机初始化场景环境,获取
Figure QLYQS_107
时刻的系统状态/>
Figure QLYQS_109
和虚拟机器人观测/>
Figure QLYQS_110
,由值估计网络/>
Figure QLYQS_112
生成/>
Figure QLYQS_114
时刻第/>
Figure QLYQS_115
个虚拟机器人的估计值/>
Figure QLYQS_116
,然后选取每个虚拟机器人的估计值最大值在动作空间/>
Figure QLYQS_98
中所对应的动作的集合/>
Figure QLYQS_100
,作为采取的/>
Figure QLYQS_103
时刻虚拟机器人集群选择的联合动作集/>
Figure QLYQS_105
,与环境交互后得到/>
Figure QLYQS_106
时刻的奖励/>
Figure QLYQS_108
与/>
Figure QLYQS_111
时刻的系统状态/>
Figure QLYQS_113
和虚拟机器人的观测/>
Figure QLYQS_99
,重复步骤502直到得到/>
Figure QLYQS_101
个序列长度/>
Figure QLYQS_102
的序列,并储存在经验回放缓存/>
Figure QLYQS_104
中;
步骤503、在经验回放缓存
Figure QLYQS_118
中随机采样批量大小为/>
Figure QLYQS_119
的序列,通过特征提取网络/>
Figure QLYQS_122
和/>
Figure QLYQS_123
提取出系统状态特征图序列/>
Figure QLYQS_125
和虚拟机器人的观测特征图序列/>
Figure QLYQS_127
,/>
Figure QLYQS_129
为/>
Figure QLYQS_117
时刻的系统状态,/>
Figure QLYQS_120
为/>
Figure QLYQS_121
时刻第/>
Figure QLYQS_124
个虚拟机器人的观测,/>
Figure QLYQS_126
,/>
Figure QLYQS_128
为起始时刻;
步骤504、将虚拟机器人的观测特征图序列输入值估计网络
Figure QLYQS_140
,计算出估计值序列
Figure QLYQS_142
,其中,/>
Figure QLYQS_145
为/>
Figure QLYQS_146
时刻第/>
Figure QLYQS_147
个虚拟机器人的估计值,/>
Figure QLYQS_148
Figure QLYQS_149
为系统状态,/>
Figure QLYQS_130
为第/>
Figure QLYQS_132
个虚拟机器人的动作序列/>
Figure QLYQS_135
与观测序列
Figure QLYQS_136
组成的动作观测历史,其表达形式为
Figure QLYQS_139
,表示了虚拟机器人在/>
Figure QLYQS_141
时刻采取了动作/>
Figure QLYQS_143
后,获取到/>
Figure QLYQS_144
时刻的观测/>
Figure QLYQS_131
,以此类推直到虚拟机器人在
Figure QLYQS_133
时刻采取了动作/>
Figure QLYQS_134
后,获取到/>
Figure QLYQS_137
时刻的观测/>
Figure QLYQS_138
步骤505、将
Figure QLYQS_166
时刻的虚拟机器人集群的估计值/>
Figure QLYQS_167
和系统状态特征图
Figure QLYQS_168
输入值分解网络/>
Figure QLYQS_169
,计算/>
Figure QLYQS_170
时刻的全局估计值/>
Figure QLYQS_171
Figure QLYQS_172
其中,/>
Figure QLYQS_150
为与/>
Figure QLYQS_152
时刻的系统状态特征/>
Figure QLYQS_154
相关的常数,/>
Figure QLYQS_157
为多头注意力机制的头数,/>
Figure QLYQS_159
为多头注意力机制中来自不同头部的/>
Figure QLYQS_160
值分配权重,/>
Figure QLYQS_162
为值分解网络/>
Figure QLYQS_164
对第/>
Figure QLYQS_151
个虚拟机器人的值估计网络/>
Figure QLYQS_153
进行分解时第/>
Figure QLYQS_155
阶的系数/>
Figure QLYQS_156
,均由/>
Figure QLYQS_158
生成,其中,/>
Figure QLYQS_161
为/>
Figure QLYQS_163
第/>
Figure QLYQS_165
阶的微元;
步骤506、计算损失函数:
Figure QLYQS_173
其中,
Figure QLYQS_186
为批量大小,/>
Figure QLYQS_188
为特征提取网络、值估计网络及值分解网络组成的整体/>
Figure QLYQS_189
函数,/>
Figure QLYQS_191
为网络参数,/>
Figure QLYQS_192
为目标网络参数,/>
Figure QLYQS_193
为折扣系数,/>
Figure QLYQS_194
与/>
Figure QLYQS_174
为第/>
Figure QLYQS_176
条序列中/>
Figure QLYQS_179
时刻与/>
Figure QLYQS_181
时刻虚拟机器人集群选择的联合动作集,/>
Figure QLYQS_182
与/>
Figure QLYQS_185
为第/>
Figure QLYQS_187
条序列中/>
Figure QLYQS_190
时刻与/>
Figure QLYQS_175
时刻的系统状态,/>
Figure QLYQS_177
与/>
Figure QLYQS_178
为第/>
Figure QLYQS_180
条序列中/>
Figure QLYQS_183
时刻与
Figure QLYQS_184
时刻为虚拟机器人集群的动作观测历史;
步骤507、进行梯度下降,根据损失函数计算的值调整更新网络参数,当训练步长到达
Figure QLYQS_195
的整数倍时,将目标网络的参数与当前网络同步;
步骤508、重复步骤502至步骤507,直到训练步长到达总体训练时长
Figure QLYQS_196
6.根据权利要求1所述的基于多智能体深度强化学习的多机探寻方法,其特征在于:
在所述的步骤6中,虚拟目标场景包括探索与搜寻场景,虚拟机器人为虚拟推进机器人、虚拟起重机器人或虚拟抛投机器人。
7.一种基于多智能体深度强化学习的多机探寻系统,其特征在于,包括:
仿真平台搭建模块,用于搭建机器人集群仿真平台,包括虚拟目标场景的设计、虚拟障碍物的布置以及对虚拟机器人集群的设计与组合,虚拟机器人集群包括N个虚拟机器人;
建模模块,用于将机器人集群探寻任务建模为分布式部分可观测马尔可夫决策过程;
探寻任务获取模块,用于获取虚拟机器人集群完成探寻任务的轨迹信息,并储存在经验回放缓存中;
特征提取模块,用于针对虚拟机器人集群搭建图像特征提取网络、值估计网络和值分解网络,其中,值分解网络使用多头注意力机制估计全局状态价值;
优化模块,用于基于多智能体深度强化学习进行迭代优化,训练图像特征提取网络、值估计网络和值分解网络的网络参数,得到最佳参数;
部署模块,用于在仿真平台上,将虚拟目标场景与虚拟机器人集群结合后进行组合训练,进而部署于真实目标场景和真实机器人集群中。
8.一种基于多智能体深度强化学习的多机探寻设备,其特征在于:包括处理器和用于存储能够在处理器上运行的计算机程序的存储器,所述处理器用于运行计算机程序时,执行上述权利要求1-6任一项所述基于多智能体深度强化学习的多机探寻方法的步骤。
9.一种计算机存储介质,其特征在于:所述计算机存储介质中存储有计算机程序,所述计算机程序被处理器执行时,实现上述权利要求1-6任一项基于多智能体深度强化学习的多机探寻方法的步骤。
CN202310044962.6A 2023-01-30 2023-01-30 一种基于多智能体深度强化学习的多机探寻方法及系统 Active CN115860107B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310044962.6A CN115860107B (zh) 2023-01-30 2023-01-30 一种基于多智能体深度强化学习的多机探寻方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310044962.6A CN115860107B (zh) 2023-01-30 2023-01-30 一种基于多智能体深度强化学习的多机探寻方法及系统

Publications (2)

Publication Number Publication Date
CN115860107A true CN115860107A (zh) 2023-03-28
CN115860107B CN115860107B (zh) 2023-05-16

Family

ID=85657341

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310044962.6A Active CN115860107B (zh) 2023-01-30 2023-01-30 一种基于多智能体深度强化学习的多机探寻方法及系统

Country Status (1)

Country Link
CN (1) CN115860107B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116432690A (zh) * 2023-06-15 2023-07-14 中国人民解放军国防科技大学 基于马尔科夫的智能决策方法、装置、设备及存储介质
CN117234216A (zh) * 2023-11-10 2023-12-15 武汉大学 一种机器人深度强化学习运动规划方法及计算机可读介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210158162A1 (en) * 2019-11-27 2021-05-27 Google Llc Training reinforcement learning agents to learn farsighted behaviors by predicting in latent space
CN113741528A (zh) * 2021-09-13 2021-12-03 中国人民解放军国防科技大学 一种面向多无人机碰撞规避的深度强化学习训练加速方法
WO2022023384A1 (en) * 2020-07-28 2022-02-03 Deepmind Technologies Limited Training an action selection system using relative entropy q-learning
US20220105626A1 (en) * 2020-10-05 2022-04-07 Autodesk, Inc. Techniques for force and torque-guided robotic assembly
CN114896899A (zh) * 2022-07-15 2022-08-12 中国人民解放军国防科技大学 一种基于信息交互的多智能体分散式决策方法及系统
CN114942633A (zh) * 2022-04-28 2022-08-26 华南农业大学 基于数字孪生和强化学习的多智能体协同避碰采摘方法
CN115016534A (zh) * 2022-06-02 2022-09-06 之江实验室 一种基于记忆增强学习的无人机自主避障导航方法
CN115167478A (zh) * 2022-08-23 2022-10-11 山东大学 基于深度强化学习的机器人无地图路径规划方法及系统
CN115186807A (zh) * 2022-05-19 2022-10-14 南京大学 利用乐观映射提升值分解多智能体强化学习算法性能的方法
CN115373415A (zh) * 2022-07-26 2022-11-22 西安电子科技大学 一种基于深度强化学习的无人机智能导航方法
CN115585813A (zh) * 2022-11-09 2023-01-10 东北大学 一种基于注意力机制的深度强化学习机器人导航方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210158162A1 (en) * 2019-11-27 2021-05-27 Google Llc Training reinforcement learning agents to learn farsighted behaviors by predicting in latent space
WO2022023384A1 (en) * 2020-07-28 2022-02-03 Deepmind Technologies Limited Training an action selection system using relative entropy q-learning
US20220105626A1 (en) * 2020-10-05 2022-04-07 Autodesk, Inc. Techniques for force and torque-guided robotic assembly
CN113741528A (zh) * 2021-09-13 2021-12-03 中国人民解放军国防科技大学 一种面向多无人机碰撞规避的深度强化学习训练加速方法
CN114942633A (zh) * 2022-04-28 2022-08-26 华南农业大学 基于数字孪生和强化学习的多智能体协同避碰采摘方法
CN115186807A (zh) * 2022-05-19 2022-10-14 南京大学 利用乐观映射提升值分解多智能体强化学习算法性能的方法
CN115016534A (zh) * 2022-06-02 2022-09-06 之江实验室 一种基于记忆增强学习的无人机自主避障导航方法
CN114896899A (zh) * 2022-07-15 2022-08-12 中国人民解放军国防科技大学 一种基于信息交互的多智能体分散式决策方法及系统
CN115373415A (zh) * 2022-07-26 2022-11-22 西安电子科技大学 一种基于深度强化学习的无人机智能导航方法
CN115167478A (zh) * 2022-08-23 2022-10-11 山东大学 基于深度强化学习的机器人无地图路径规划方法及系统
CN115585813A (zh) * 2022-11-09 2023-01-10 东北大学 一种基于注意力机制的深度强化学习机器人导航方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
KEYANG HE ET AL.: "Cooperative-Competitive Reinforcement Learning with History-Dependent Rewards", 《ARXIV:2010.08030V1 [CS.LG]》 *
SHAORONG XIE ET AL.: "ET-HF: A novel information sharing model to improve multi-agent cooperation", 《KNOWLEDGE-BASED SYSTEMS》 *
XUEGUANG LYU ET AL.: "A Deeper Understanding of State-Based Critics in Multi-Agent Reinforcement Learning", 《THE THIRTY-SIXTH AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE (AAAI-22)》 *
宋健等: "基于值分解的多目标多智能体深度强化学习方法", 《计算机工程》 *
杨明辉等: "室内动态环境下的移动机器人自主避障策略", 《中南大学学报(自然科学版)》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116432690A (zh) * 2023-06-15 2023-07-14 中国人民解放军国防科技大学 基于马尔科夫的智能决策方法、装置、设备及存储介质
CN116432690B (zh) * 2023-06-15 2023-08-18 中国人民解放军国防科技大学 基于马尔科夫的智能决策方法、装置、设备及存储介质
CN117234216A (zh) * 2023-11-10 2023-12-15 武汉大学 一种机器人深度强化学习运动规划方法及计算机可读介质
CN117234216B (zh) * 2023-11-10 2024-02-09 武汉大学 一种机器人深度强化学习运动规划方法及计算机可读介质

Also Published As

Publication number Publication date
CN115860107B (zh) 2023-05-16

Similar Documents

Publication Publication Date Title
Pong et al. Skew-fit: State-covering self-supervised reinforcement learning
CN115860107A (zh) 一种基于多智能体深度强化学习的多机探寻方法及系统
Mazoure et al. Leveraging exploration in off-policy algorithms via normalizing flows
Wang et al. A survey of learning‐based robot motion planning
CN112605973B (zh) 一种机器人运动技能学习方法及系统
WO2020190272A1 (en) Creation of digital twin of the interaction among parts of the physical system
CN107179077B (zh) 一种基于elm-lrf的自适应视觉导航方法
CN103544496A (zh) 基于空间与时间信息融合的机器人场景识别方法
Fang et al. Target‐driven visual navigation in indoor scenes using reinforcement learning and imitation learning
CN114162146B (zh) 行驶策略模型训练方法以及自动驾驶的控制方法
CN115265547A (zh) 一种未知环境下基于强化学习的机器人主动导航方法
CN114161419B (zh) 一种情景记忆引导的机器人操作技能高效学习方法
Hafez et al. Efficient intrinsically motivated robotic grasping with learning-adaptive imagination in latent space
Wu et al. Learning and planning with a semantic model
Bogdan et al. Toward enabling automated cognition and decision-making in complex cyber-physical systems
CN113910221B (zh) 一种机械臂自主运动规划方法、装置、设备及存储介质
WO2020062002A1 (en) Robot movement apparatus and related methods
Riccio et al. LoOP: Iterative learning for optimistic planning on robots
KR20230079804A (ko) 상태 전이를 선형화하는 강화 학습에 기반한 전자 장치 및 그 방법
CN116861962A (zh) 一种数据处理方法及装置
Li et al. Policy gradient methods with gaussian process modelling acceleration
Tang et al. Reinforcement learning for robots path planning with rule-based shallow-trial
Wang et al. Path planning model of mobile robots in the context of crowds
Li et al. Intelligent trainer for model-based reinforcement learning
Ma et al. Improving Model‐Based Deep Reinforcement Learning with Learning Degree Networks and Its Application in Robot Control

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant