CN115860107B - 一种基于多智能体深度强化学习的多机探寻方法及系统 - Google Patents

一种基于多智能体深度强化学习的多机探寻方法及系统 Download PDF

Info

Publication number
CN115860107B
CN115860107B CN202310044962.6A CN202310044962A CN115860107B CN 115860107 B CN115860107 B CN 115860107B CN 202310044962 A CN202310044962 A CN 202310044962A CN 115860107 B CN115860107 B CN 115860107B
Authority
CN
China
Prior art keywords
virtual
network
virtual robot
time
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310044962.6A
Other languages
English (en)
Other versions
CN115860107A (zh
Inventor
肖晓晖
张涵
张晓晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202310044962.6A priority Critical patent/CN115860107B/zh
Publication of CN115860107A publication Critical patent/CN115860107A/zh
Application granted granted Critical
Publication of CN115860107B publication Critical patent/CN115860107B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Image Analysis (AREA)
  • Manipulator (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明提供一种基于多智能体深度强化学习的多机探寻方法及系统,包括搭建机器人集群仿真平台,将机器人集群探寻任务建模为分布式部分可观测马尔可夫决策过程,获取虚拟机器人集群完成探寻任务的轨迹信息并储存在经验回放缓存中,针对虚拟机器人集群搭建图像特征提取网络、值估计网络和值分解网络,基于多智能体深度强化学习进行迭代优化,得到最佳参数,在仿真平台上将虚拟目标场景与虚拟机器人集群结合后进行组合训练,便于部署真实目标场景和真实机器人集群,本发明能够在训练时获取全局的信息进行集中式学习,使得机器人可以学习到集体行为,大大提升了工作效率,且不容易出现目标冲突、互相干扰等问题。

Description

一种基于多智能体深度强化学习的多机探寻方法及系统
技术领域
本发明涉及机器人技术领域,尤其涉及一种基于多智能体深度强化学习的多机探寻方法及系统。
背景技术
近年来,机器人技术在外界感知、运动控制、定位导航等方面的研究受到了广泛的关注。其中,机器人集群作为群体智能的代表,因其可以集体地、自发地组织行为完成任务,在个人、社会等层面都具有广阔的应用前景。
但是,由于多机探寻任务中机器人的部分可观测性和机器人之间通信的约束,以及随着机器人数量增加带来的决策空间的指数型扩大和场景的复杂度增加,机器人集群的协同决策面临着巨大的挑战。
使用传统强化学习的多机探寻方法将每个机器人作为单独的个体,忽略了机器人之间的交互作用,使得完成集群任务时经常出现目标冲突、互相干扰等问题,大大降低了工作效率。对于过大的决策空间和复杂的场景,使用传统深度强化学习的方法也容易出现无法收敛到最优解的问题,使得机器人集群在完成任务时,效率大大降低。
发明内容
根据现有技术的不足,本发明的目的是提供一种基于多智能体深度强化学习的多机探寻方法及系统,能够在训练时获取全局的信息进行集中式学习,使得机器人可以学习到集体行为,大大提升了工作效率,且不容易出现目标冲突、互相干扰等问题。
为了解决上述技术问题,本发明采用的技术方案为:
本发明提供一种基于多智能体深度强化学习的多机探寻方法,包括以下步骤:
一种基于多智能体深度强化学习的多机探寻方法,包括以下步骤:
步骤1、搭建机器人集群仿真平台,包括虚拟目标场景的设计、虚拟障碍物的布置以及对虚拟机器人集群的设计与组合,虚拟机器人集群包括N个虚拟机器人;
步骤2、将机器人集群探寻任务建模为分布式部分可观测马尔可夫决策过程;
步骤3、获取虚拟机器人集群完成探寻任务的轨迹信息,并储存在经验回放缓存中;
步骤4、针对虚拟机器人集群搭建图像特征提取网络、值估计网络和值分解网络,其中,值分解网络使用多头注意力机制估计全局状态价值;
步骤5、基于多智能体深度强化学习进行迭代优化,训练图像特征提取网络、值估计网络和值分解网络的网络参数,得到最佳网络参数;
步骤6、在仿真平台上,将虚拟目标场景与虚拟机器人集群结合后进行组合训练,进而部署于真实目标场景和真实机器人集群中。
进一步地,在所述的步骤2中,分布式部分可观测马尔可夫决策过程为:
Figure SMS_1
其中,
Figure SMS_3
为虚拟机器人个数,
Figure SMS_4
为状态空间,
Figure SMS_6
为动作空间,
Figure SMS_8
Figure SMS_11
时刻第
Figure SMS_13
个虚拟机器人选择的动作,
Figure SMS_15
Figure SMS_17
Figure SMS_19
时刻虚拟机器人集群选择的联合动作集,
Figure SMS_22
Figure SMS_23
Figure SMS_26
时刻的系统状态,
Figure SMS_28
Figure SMS_30
时刻的系统状态,
Figure SMS_32
Figure SMS_2
下选择
Figure SMS_5
后转移到
Figure SMS_7
的状态转移概率函数,
Figure SMS_9
Figure SMS_10
下选择
Figure SMS_12
的奖励函数,
Figure SMS_14
为观测空间,
Figure SMS_16
为第
Figure SMS_18
个虚拟机器人的观测,
Figure SMS_20
Figure SMS_21
为第
Figure SMS_24
个虚拟机器人选择
Figure SMS_25
后在
Figure SMS_27
下虚拟机器人观测到
Figure SMS_29
的条件观测概率,
Figure SMS_31
为折扣系数。
进一步地,在所述的步骤3中,虚拟机器人集群完成探索与搜寻任务的一条轨迹信息包含:
Figure SMS_33
Figure SMS_34
其中,
Figure SMS_36
Figure SMS_37
分别为
Figure SMS_39
时刻和
Figure SMS_42
时刻的系统状态,系统状态由以下全局俯视图组成:(1)全局环境图,(2)各个虚拟机器人的状态图;
Figure SMS_44
Figure SMS_46
分别为
Figure SMS_48
时刻和
Figure SMS_35
时刻的虚拟机器人观测,虚拟机器人观测由以下局部俯视图组成:(1)局部环境图,(2)虚拟机器人自身状态与观测到的其它虚拟机器人状态图,(3)由虚拟机器人到各个目标的最短路径图;
Figure SMS_38
Figure SMS_40
时刻虚拟机器人集群选择的联合动作集;
Figure SMS_41
Figure SMS_43
时刻获得的奖励;
Figure SMS_45
为起始时刻,
Figure SMS_47
为序列长度;
将所获得的轨迹信息储存在经验回放缓存
Figure SMS_49
中。
进一步地,在所述的步骤4中,特征提取网络、值估计网络和值分解网络的搭建如下:
特征提取网络共有两个且均使用卷积神经网络提取特征,其一用于提取系统状态特征,输入为
Figure SMS_51
时刻的系统状态
Figure SMS_53
,输出为
Figure SMS_55
时刻的系统状态特征图
Figure SMS_56
;其二用于提取虚拟机器人观测特征,输入为
Figure SMS_57
时刻第
Figure SMS_58
个虚拟机器人的观测
Figure SMS_59
,输出为
Figure SMS_50
时刻第
Figure SMS_52
个虚拟机器人的观测特征图
Figure SMS_54
值估计网络针对每个虚拟机器人分别搭建,使用循环神经网络估计虚拟机器人的状态价值,其输入为序列长度为
Figure SMS_61
的第
Figure SMS_62
个虚拟机器人的观测特征图序列
Figure SMS_65
,输出为序列长度为
Figure SMS_66
的值估计网络对第
Figure SMS_68
个虚拟机器人的状态价值函数的估计值序列
Figure SMS_70
,其中,
Figure SMS_71
Figure SMS_60
时刻第
Figure SMS_63
个虚拟机器人的估计值且大小与
Figure SMS_64
相等的图,
Figure SMS_67
为起始时刻,
Figure SMS_69
值分解网络使用多头注意力机制估计全局状态价值,其输入为
Figure SMS_73
时刻的系统状态特征图
Figure SMS_74
Figure SMS_76
时刻的虚拟机器人集群的观测特征图
Figure SMS_77
Figure SMS_80
时刻的联合动作集
Figure SMS_82
对应的估计值集合
Figure SMS_84
Figure SMS_72
Figure SMS_75
时刻虚拟机器人集群的观测,
Figure SMS_78
Figure SMS_79
时刻第
Figure SMS_81
个虚拟机器人选择的动作,输出为
Figure SMS_83
时刻的全局状态价值函数的估计值
Figure SMS_85
进一步地,所述步骤5具体包括:
步骤501、对特征提取网络
Figure SMS_87
Figure SMS_89
及分别对应的目标网络
Figure SMS_91
Figure SMS_93
、值估计网络
Figure SMS_94
及其目标网络
Figure SMS_96
和值分解网络
Figure SMS_97
及其目标网络
Figure SMS_86
进行参数初始化,并确定每次训练的批量大小
Figure SMS_88
、序列长度
Figure SMS_90
、目标网络更新时间
Figure SMS_92
和总体训练时长
Figure SMS_95
步骤502、随机初始化场景环境,获取
Figure SMS_106
时刻的系统状态
Figure SMS_108
和虚拟机器人观测
Figure SMS_110
,由值估计网络
Figure SMS_112
生成
Figure SMS_114
时刻第
Figure SMS_115
个虚拟机器人的估计值
Figure SMS_116
,然后选取每个虚拟机器人的估计值最大值在动作空间
Figure SMS_98
中所对应的动作的集合
Figure SMS_100
,作为采取的
Figure SMS_103
时刻虚拟机器人集群选择的联合动作集
Figure SMS_104
,与环境交互后得到
Figure SMS_107
时刻的奖励
Figure SMS_109
Figure SMS_111
时刻的系统状态
Figure SMS_113
和虚拟机器人的观测
Figure SMS_99
,重复步骤502直到得到
Figure SMS_101
个序列长度为
Figure SMS_102
的序列,并储存在经验回放缓存
Figure SMS_105
中;
步骤503、在经验回放缓存
Figure SMS_118
中随机采样批量大小为
Figure SMS_119
的序列,通过特征提取网络
Figure SMS_121
Figure SMS_122
提取出系统状态特征图序列
Figure SMS_124
和虚拟机器人的观测特征图序列
Figure SMS_126
Figure SMS_128
Figure SMS_117
时刻的系统状态,
Figure SMS_120
Figure SMS_123
时刻第
Figure SMS_125
个虚拟机器人的观测,
Figure SMS_127
Figure SMS_129
为起始时刻;
步骤504、将虚拟机器人的观测特征图序列输入值估计网络
Figure SMS_141
,计算出估计值序列
Figure SMS_143
,其中,
Figure SMS_145
Figure SMS_147
时刻第
Figure SMS_148
个虚拟机器人的估计值,
Figure SMS_149
Figure SMS_150
为系统状态,
Figure SMS_131
为第
Figure SMS_133
个虚拟机器人的动作序列
Figure SMS_134
与观测序列
Figure SMS_137
组成的动作观测历史,其表达形式为
Figure SMS_139
,表示了第
Figure SMS_142
个虚拟机器人在
Figure SMS_144
时刻采取了动作
Figure SMS_146
后,获取到
Figure SMS_130
时刻的观测
Figure SMS_132
,以此类推直到虚拟机器人在
Figure SMS_135
时刻采取了动作
Figure SMS_136
后,获取到
Figure SMS_138
时刻的观测
Figure SMS_140
步骤505、将
Figure SMS_167
时刻的虚拟机器人集群的估计值
Figure SMS_168
和系统状态特征图
Figure SMS_169
输入值分解网络
Figure SMS_170
,计算
Figure SMS_171
时刻的全局估计值
Figure SMS_172
Figure SMS_173
其中,
Figure SMS_151
为与
Figure SMS_153
时刻的系统状态特征
Figure SMS_155
相关的常数,
Figure SMS_157
为多头注意力机制的头数,
Figure SMS_159
为多头注意力机制中来自不同头部的
Figure SMS_161
值分配权重,
Figure SMS_163
为值分解网络
Figure SMS_165
对第
Figure SMS_152
个虚拟机器人的值估计网络
Figure SMS_154
进行分解时第
Figure SMS_156
阶的系数
Figure SMS_158
,均由
Figure SMS_160
生成,其中,
Figure SMS_162
Figure SMS_164
Figure SMS_166
阶的微元;
步骤506、计算损失函数:
Figure SMS_186
其中,
Figure SMS_188
为批量大小,
Figure SMS_191
为特征提取网络、值估计网络及值分解网络组成的整体
Figure SMS_192
函数,
Figure SMS_193
为网络参数,
Figure SMS_194
为目标网络参数,
Figure SMS_195
为折扣系数,
Figure SMS_175
Figure SMS_178
为第
Figure SMS_180
条序列中
Figure SMS_181
时刻与
Figure SMS_185
时刻虚拟机器人集群选择的联合动作集,
Figure SMS_187
Figure SMS_189
为第
Figure SMS_190
条序列中
Figure SMS_174
时刻与
Figure SMS_176
时刻的系统状态,
Figure SMS_177
Figure SMS_179
为第
Figure SMS_182
条序列中
Figure SMS_183
时刻与
Figure SMS_184
时刻为虚拟机器人集群的动作观测历史;
步骤507、进行梯度下降,根据损失函数计算的值调整更新网络参数,当训练步长到达
Figure SMS_196
的整数倍时,将目标网络的参数与当前网络同步;
步骤508、重复步骤502至步骤507,直到训练步长到达总体训练时长
Figure SMS_197
进一步地,在所述的步骤6中,虚拟目标场景包括探索与搜寻场景,虚拟机器人为虚拟推进机器人、虚拟起重机器人或虚拟抛投机器人。
一种基于多智能体深度强化学习的多机探寻系统,包括:
仿真平台搭建模块,用于搭建机器人集群仿真平台,包括虚拟目标场景的设计、虚拟障碍物的布置以及对虚拟机器人集群的设计与组合,虚拟机器人集群包括N个虚拟机器人;
建模模块,用于将机器人集群探寻任务建模为分布式部分可观测马尔可夫决策过程;
探寻任务获取模块,用于获取虚拟机器人集群完成探寻任务的轨迹信息,并储存在经验回放缓存中;
特征提取模块,用于针对虚拟机器人集群搭建图像特征提取网络、值估计网络和值分解网络,其中,值分解网络使用多头注意力机制估计全局状态价值;
优化模块,用于基于多智能体深度强化学习进行迭代优化,训练图像特征提取网络、值估计网络和值分解网络的网络参数,得到最佳参数;
部署模块,用于在仿真平台上,将虚拟目标场景与虚拟机器人集群结合后进行组合训练,进而部署于真实目标场景和真实机器人集群中。
一种基于多智能体深度强化学习的多机探寻设备,其特征在于:包括处理器和用于存储能够在处理器上运行的计算机程序的存储器,所述处理器用于运行计算机程序时,执行上述任一项所述基于多智能体深度强化学习的多机探寻方法的步骤。
一种计算机存储介质,其特征在于:所述计算机存储介质中存储有计算机程序,所述计算机程序被处理器执行时,实现上述任一项基于多智能体深度强化学习的多机探寻方法的步骤。
与现有技术相比,本发明具有以下优点和有益效果:
(1)本发明提供的一种基于多智能体深度强化学习的多机探寻方法及系统,关注虚拟机器人集群行为,多智能体深度强化学习可以在训练时获取全局的信息进行集中式学习,使得虚拟机器人可以学习到集体行为而非个体行为,且在部署时分布式执行,使得部署后的计算负担较传统方法相差不多,但工作效率大大提升,且不容易出现目标冲突、互相干扰等问题。
(2)本发明提供的一种基于多智能体深度强化学习的多机探寻方法及系统,值分解网络使用多头注意力机制估计全局状态价值,加入了多头注意力机制后,本发明虚拟机器人集群面对大决策空间也能取得很好的效果,且适用于更复杂的场景。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分。本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明基于多智能体深度强化学习的多机探寻方法的流程图;
图2为本发明基于多智能体深度强化学习的多机探寻系统的示意图;
图3为本发明基于多智能体深度强化学习的多机探寻场景的示意图。
其中,1、虚拟起重机器人;2、目标物体;3、目标区域;4、边界。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本发明提供一种基于多智能体深度强化学习的多机探寻方法,如图1所示,包括以下步骤:
步骤1、搭建机器人集群仿真平台,包括虚拟目标场景的设计、虚拟障碍物的布置以及对虚拟机器人集群的设计与组合,虚拟机器人集群包括N个虚拟机器人;
步骤2、将机器人集群探寻任务建模为分布式部分可观测马尔可夫决策过程;
步骤3、获取虚拟机器人集群完成探寻任务的轨迹信息,并储存在经验回放缓存中;
步骤4、针对虚拟机器人集群搭建图像特征提取网络、值估计网络和值分解网络,其中,值分解网络使用多头注意力机制估计全局状态价值;
步骤5、基于多智能体深度强化学习进行迭代优化,训练图像特征提取网络、值估计网络和值分解网络的网络参数,得到最佳网络参数;
步骤6、在仿真平台上,将虚拟目标场景与虚拟机器人集群结合后进行组合训练,进而部署于真实目标场景和真实机器人集群中。
本发明提供的一种基于多智能体深度强化学习的多机探寻方法,关注机器人集群行为,多智能体深度强化学习可以在训练时获取全局的信息进行集中式学习,使得虚拟机器人可以学习到集体行为而非个体行为,且在部署时分布式执行,使得部署后的计算负担较传统方法相差不多,但工作效率大大提升,且不容易出现目标冲突、互相干扰等问题。
本发明提供的一种基于多智能体深度强化学习的多机探寻方法,值分解网络使用多头注意力机制估计全局状态价值,加入了多头注意力机制后,本发明虚拟机器人集群面对大决策空间也能取得很好的效果,且适用于更复杂的场景。
在步骤2中,由于机器人集群探寻任务属于多智能体决策问题,其特点是各个智能体只能获取局部观测信息,而奖励信号是全局共享的,因此本发明采用分布式部分可观测马尔可夫决策过程对任务进行建模,能够客观、准确地描述真实环境与虚拟机器人集群的状态,便于实现仿真到实际的迁移。
在步骤3中,将轨迹信息储存在经验回放缓存中,并在训练时随机抽取历史信息,可以大大提高样本效率,节省计算资源,并且可以消除采样数据之间的相关性,减小方差。
在步骤4中,由于系统状态与虚拟机器人观测由图的形式进行表示,使用图像特征提取网络可以有效地抽取特征,获得向量表示,值估计网络可以估计每个虚拟机器人可选取的所有动作的价值,并从中选取价值最高的动作作为最优解,是完成任务的关键,值分解网络对每个虚拟机器人选取动作的价值进行评估计算出加权和,解决了虚拟机器人观测的局限性,能站在全局的角度更好地学习到全局最优策略,同时消除了环境不稳定性。
本发明中,在所述的步骤2中,机器人集群探寻任务的分布式部分可观测马尔可夫决策过程模型为:
Figure SMS_198
其中,
Figure SMS_200
为虚拟机器人个数,
Figure SMS_201
为状态空间,
Figure SMS_204
为动作空间,
Figure SMS_206
Figure SMS_208
时刻第
Figure SMS_209
个虚拟机器人选择的动作,
Figure SMS_211
Figure SMS_213
Figure SMS_216
时刻虚拟机器人集群选择的联合动作集,
Figure SMS_218
Figure SMS_220
Figure SMS_222
时刻的系统状态,
Figure SMS_223
Figure SMS_225
时刻的系统状态,
Figure SMS_227
Figure SMS_199
下选择
Figure SMS_202
后转移到
Figure SMS_203
的状态转移概率函数,
Figure SMS_205
Figure SMS_207
下选择
Figure SMS_210
的奖励函数,
Figure SMS_212
为观测空间,
Figure SMS_214
为第
Figure SMS_215
个虚拟机器人的观测,
Figure SMS_217
Figure SMS_219
为第
Figure SMS_221
个虚拟机器人选择
Figure SMS_224
后在
Figure SMS_226
下虚拟机器人观测到
Figure SMS_228
的条件观测概率,
Figure SMS_229
为折扣系数。
本发明中,在所述的步骤3中,虚拟机器人集群完成探索与搜寻任务的一条轨迹信息包含:
虚拟机器人集群完成探索与搜寻任务的一条轨迹信息包含:
Figure SMS_230
Figure SMS_231
其中,
Figure SMS_233
Figure SMS_235
分别为
Figure SMS_237
时刻和
Figure SMS_239
时刻的系统状态,系统状态由以下全局俯视图组成:(1)全局环境图,(2)各个虚拟机器人的状态图;
Figure SMS_242
Figure SMS_244
分别为
Figure SMS_245
时刻和
Figure SMS_232
时刻的虚拟机器人观测,虚拟机器人观测由以下局部俯视图组成:(1)局部环境图,(2)虚拟机器人自身状态与观测到的其它虚拟机器人状态图,(3)由虚拟机器人到各个目标的最短路径图;
Figure SMS_234
Figure SMS_236
时刻虚拟机器人集群选择的联合动作集;
Figure SMS_238
Figure SMS_240
时刻获得的奖励;
Figure SMS_241
为起始时刻,
Figure SMS_243
为序列长度;
将所获得的轨迹信息储存在经验回放缓存
Figure SMS_246
中。
本发明中,在所述的步骤4中,特征提取网络、值估计网络和值分解网络的搭建如下:
特征提取网络共有两个且均使用卷积神经网络提取特征,其一用于提取系统状态特征,输入为
Figure SMS_248
时刻的系统状态
Figure SMS_250
,输出为
Figure SMS_252
时刻的系统状态特征图
Figure SMS_253
;其二用于提取虚拟机器人观测特征,输入为
Figure SMS_254
时刻第
Figure SMS_255
个虚拟机器人的观测
Figure SMS_256
,输出为
Figure SMS_247
时刻第
Figure SMS_249
个虚拟机器人的观测特征图
Figure SMS_251
值估计网络针对每个虚拟机器人分别搭建,使用循环神经网络估计虚拟机器人的状态价值,其输入为序列长度为
Figure SMS_258
的第
Figure SMS_260
个虚拟机器人的观测特征图序列
Figure SMS_262
,输出为序列长度为
Figure SMS_264
的值估计网络对第
Figure SMS_266
个虚拟机器人的状态价值函数的估计值序列
Figure SMS_267
,其中,
Figure SMS_268
Figure SMS_257
时刻第
Figure SMS_259
个虚拟机器人的估计值且大小与
Figure SMS_261
相等的图,
Figure SMS_263
为起始时刻,
Figure SMS_265
值分解网络使用多头注意力机制估计全局状态价值,其输入为
Figure SMS_270
时刻的系统状态特征图
Figure SMS_271
Figure SMS_273
时刻的虚拟机器人集群的观测特征图
Figure SMS_276
Figure SMS_278
时刻的联合动作集
Figure SMS_280
对应的估计值集合
Figure SMS_281
Figure SMS_269
Figure SMS_272
时刻虚拟机器人集群的观测,
Figure SMS_274
Figure SMS_275
时刻第
Figure SMS_277
个虚拟机器人选择的动作,输出为
Figure SMS_279
时刻的全局状态价值函数的估计值
Figure SMS_282
本发明中,所述步骤5具体包括:
步骤501、对特征提取网络
Figure SMS_284
Figure SMS_285
及分别对应的目标网络
Figure SMS_287
Figure SMS_289
、值估计网络
Figure SMS_291
及其目标网络
Figure SMS_293
和值分解网络
Figure SMS_294
及其目标网络
Figure SMS_283
进行参数初始化,并确定每次训练的批量大小
Figure SMS_286
、序列长度
Figure SMS_288
、目标网络更新时间
Figure SMS_290
和总体训练时长
Figure SMS_292
步骤502、随机初始化场景环境,获取
Figure SMS_304
时刻的系统状态
Figure SMS_306
和虚拟机器人观测
Figure SMS_307
,由值估计网络
Figure SMS_309
生成
Figure SMS_311
时刻第
Figure SMS_312
个虚拟机器人的估计值
Figure SMS_313
,然后选取每个虚拟机器人的估计值最大值在动作空间
Figure SMS_295
中所对应的动作的集合
Figure SMS_297
,作为采取的
Figure SMS_299
时刻虚拟机器人集群选择的联合动作集
Figure SMS_301
,与环境交互后得到
Figure SMS_303
时刻的奖励
Figure SMS_305
Figure SMS_308
时刻的系统状态
Figure SMS_310
和虚拟机器人的观测
Figure SMS_296
,重复步骤502直到得到
Figure SMS_298
个序列长度为
Figure SMS_300
的序列,并储存在经验回放缓存
Figure SMS_302
中;
步骤503、在经验回放缓存
Figure SMS_315
中随机采样批量大小为
Figure SMS_317
的序列,通过特征提取网络
Figure SMS_319
Figure SMS_321
提取出系统状态特征图序列
Figure SMS_324
和虚拟机器人的观测特征图序列
Figure SMS_325
Figure SMS_326
Figure SMS_314
时刻的系统状态,
Figure SMS_316
Figure SMS_318
时刻第
Figure SMS_320
个虚拟机器人的观测,
Figure SMS_322
Figure SMS_323
为起始时刻;
步骤504、将虚拟机器人的观测特征图序列输入值估计网络
Figure SMS_339
,计算出估计值序列
Figure SMS_340
,其中,
Figure SMS_343
Figure SMS_344
时刻第
Figure SMS_345
个虚拟机器人的估计值,
Figure SMS_346
Figure SMS_347
为系统状态,
Figure SMS_327
为第
Figure SMS_330
个虚拟机器人的动作序列
Figure SMS_331
与观测序列
Figure SMS_334
组成的动作观测历史,其表达形式为
Figure SMS_336
,表示了第
Figure SMS_338
个虚拟机器人在
Figure SMS_341
时刻采取了动作
Figure SMS_342
后,获取到
Figure SMS_328
时刻的观测
Figure SMS_329
,以此类推直到虚拟机器人在
Figure SMS_332
时刻采取了动作
Figure SMS_333
后,获取到
Figure SMS_335
时刻的观测
Figure SMS_337
步骤505、将
Figure SMS_363
时刻的虚拟机器人集群的估计值
Figure SMS_365
和系统状态特征图
Figure SMS_366
输入值分解网络
Figure SMS_367
,计算
Figure SMS_368
时刻的全局估计值
Figure SMS_369
Figure SMS_370
其中,
Figure SMS_348
为与
Figure SMS_350
时刻的系统状态特征
Figure SMS_352
相关的常数,
Figure SMS_354
为多头注意力机制的头数,
Figure SMS_355
为多头注意力机制中来自不同头部的
Figure SMS_358
值分配权重,
Figure SMS_360
为值分解网络
Figure SMS_362
对第
Figure SMS_349
个虚拟机器人的值估计网络
Figure SMS_351
进行分解时第
Figure SMS_353
阶的系数
Figure SMS_356
,均由
Figure SMS_357
生成,其中,
Figure SMS_359
Figure SMS_361
Figure SMS_364
阶的微元;
步骤506、计算损失函数:
Figure SMS_371
其中,
Figure SMS_383
为批量大小,
Figure SMS_385
为特征提取网络、值估计网络及值分解网络组成的整体
Figure SMS_386
函数,
Figure SMS_388
为网络参数,
Figure SMS_390
为目标网络参数,
Figure SMS_391
为折扣系数,
Figure SMS_392
Figure SMS_373
为第
Figure SMS_375
条序列中
Figure SMS_377
时刻与
Figure SMS_380
时刻虚拟机器人集群选择的联合动作集,
Figure SMS_382
Figure SMS_384
为第
Figure SMS_387
条序列中
Figure SMS_389
时刻与
Figure SMS_372
时刻的系统状态,
Figure SMS_374
Figure SMS_376
为第
Figure SMS_378
条序列中
Figure SMS_379
时刻与
Figure SMS_381
时刻为虚拟机器人集群的动作观测历史;
步骤507、进行梯度下降,根据损失函数计算的值调整更新网络参数,当训练步长到达
Figure SMS_393
的整数倍时,将目标网络的参数与当前网络同步;
步骤508、重复步骤502至步骤507,直到训练步长到达总体训练时长
Figure SMS_394
在所述的步骤6中,虚拟目标场景包括探索与搜寻场景,虚拟机器人为虚拟推进机器人、虚拟起重机器人或虚拟抛投机器人。
综上所述,本发明使用多头注意力机制学习全局状态价值函数,在解决复杂的可分解问题时有着更好的性能,在虚拟机器人动作空间大、场景复杂的情况下表现更好;
本发明改进后的学习方法能适应输入为向量或图像、元组或序列等不同情况,泛化能力强,适应范围广,且收敛速度更快,效果更好。
在本发明的一个实施例中,如图3所示,在机器人集群仿真平台中搭建了探寻的虚拟目标场景,放置了4个虚拟起重机器人1和8个目标物体2,设置了虚拟目标场景的边界4使虚拟机器人能在固定区域内运动,确定了目标区域3为虚拟机器人将目标物体2送至的区域,并且在虚拟目标场景中设置了障碍物,以此模拟虚拟机器人集群探寻物体并送到指定位置。根据本发明提供的基于多智能体深度强化学习的多机探寻方法,4个虚拟起重机器人1组成的虚拟机器人集群根据神经网络输出的动作与环境进行交互,获取序列形式的经验储存在经验回放缓存中,在训练时取出对网络参数进行迭代优化,使4个虚拟起重机器人1组成的虚拟机器人集群完成搜寻任务的效率不断提升。训练完成后,将训练好的神经网络部署在真实目标场景的4个真实起重机器人上,使得真实目标场景的4个真实起重机器人可以在相似的、有障碍物的、物体可识别的真实场景中探寻物体并送到指定位置,实现由仿真环境向真实环境的迁移,并通过搭建多种不同虚拟机器人集群、不同物体、不同障碍物的虚拟目标场景使得虚拟机器人集群可以面对不同真实目标场景都能很好完成任务,如家庭服务、火场救援等,具有一定的泛化能力。
本发明还提供一种基于多智能体深度强化学习的多机探寻系统,如图2所示,包括:
仿真平台搭建模块,用于搭建机器人集群仿真平台,包括虚拟目标场景的设计、虚拟障碍物的布置以及对虚拟机器人集群的设计与组合,虚拟机器人集群包括N个虚拟机器人;
建模模块,用于将机器人集群探寻任务建模为分布式部分可观测马尔可夫决策过程;
探寻任务获取模块,用于获取虚拟机器人集群完成探寻任务的轨迹信息,并储存在经验回放缓存中;
特征提取模块,用于针对虚拟机器人集群搭建图像特征提取网络、值估计网络和值分解网络,其中,值分解网络使用多头注意力机制估计全局状态价值;
优化模块,用于基于多智能体深度强化学习进行迭代优化,训练图像特征提取网络、值估计网络和值分解网络的网络参数,得到最佳参数;
部署模块,用于在仿真平台上,将虚拟目标场景与虚拟机器人集群结合后进行组合训练,进而部署于真实目标场景和真实机器人集群中。
一种基于多智能体深度强化学习的多机探寻设备,包括处理器和用于存储能够在处理器上运行的计算机程序的存储器,所述处理器用于运行计算机程序时,执行上述任一项所述基于多智能体深度强化学习的多机探寻方法的步骤。
本发明实施例中的存储器用于存储各种类型的数据以支持基于多智能体深度强化学习的多机探寻设备的操作。这些数据的示例包括:用于在基于多智能体深度强化学习的多机探寻设备上操作的任何计算机程序。
本发明实施例揭示的基于多智能体深度强化学习的多机探寻方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,基于多智能体深度强化学习的多机探寻方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(DSP,Digital SignalProcessor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成本发明实施例提供的基于多智能体深度强化学习的多机探寻方法的步骤。
在示例性实施例中,基于多智能体深度强化学习的多机探寻设备可以被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,ComplexProgrammable LogicDevice)、FPGA、通用处理器、控制器、微控制器(MCU,MicroController Unit)、微处理器(Microprocessor)、或者其他电子元件实现,用于执行前述方法。
可以理解,存储器可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,RandomAccessMemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random AccessMemory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random AccessMemory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
本发明还提供一种计算机存储介质,所述计算机存储介质中存储有计算机程序,所述计算机程序被处理器执行时,实现上述任一项基于多智能体深度强化学习的多机探寻方法的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (7)

1.一种基于多智能体深度强化学习的多机探寻方法,其特征在于,包括以下步骤:
步骤1、搭建机器人集群仿真平台,包括虚拟目标场景的设计、虚拟障碍物的布置以及对虚拟机器人集群的设计与组合,虚拟机器人集群包括N个虚拟机器人;
步骤2、将机器人集群探寻任务建模为分布式部分可观测马尔可夫决策过程;
步骤3、获取虚拟机器人集群完成探寻任务的轨迹信息,并储存在经验回放缓存中;
步骤4、针对虚拟机器人集群搭建图像特征提取网络、值估计网络和值分解网络,其中,值分解网络使用多头注意力机制估计全局状态价值;
特征提取网络共有两个且均使用卷积神经网络提取特征,其一用于提取系统状态特征,输入为
Figure QLYQS_2
时刻的系统状态
Figure QLYQS_4
,输出为
Figure QLYQS_6
时刻的系统状态特征图
Figure QLYQS_7
;其二用于提取虚拟机器人观测特征,输入为
Figure QLYQS_8
时刻第
Figure QLYQS_9
个虚拟机器人的观测
Figure QLYQS_10
,输出为
Figure QLYQS_1
时刻第
Figure QLYQS_3
个虚拟机器人的观测特征图
Figure QLYQS_5
值估计网络针对每个虚拟机器人分别搭建,使用循环神经网络估计虚拟机器人的状态价值,其输入为序列长度为
Figure QLYQS_12
的第
Figure QLYQS_13
个虚拟机器人的观测特征图序列
Figure QLYQS_15
,输出为序列长度为
Figure QLYQS_17
的值估计网络对第
Figure QLYQS_19
个虚拟机器人的状态价值函数的估计值序列
Figure QLYQS_21
,其中,
Figure QLYQS_22
Figure QLYQS_11
时刻第
Figure QLYQS_14
个虚拟机器人的估计值且大小与
Figure QLYQS_16
相等的图,
Figure QLYQS_18
为起始时刻,
Figure QLYQS_20
值分解网络使用多头注意力机制估计全局状态价值,其输入为
Figure QLYQS_24
时刻的系统状态特征图
Figure QLYQS_25
Figure QLYQS_28
时刻的虚拟机器人集群的观测特征图
Figure QLYQS_29
Figure QLYQS_32
时刻的联合动作集
Figure QLYQS_33
对应的估计值集合
Figure QLYQS_35
Figure QLYQS_23
Figure QLYQS_26
时刻虚拟机器人集群的观测,
Figure QLYQS_27
Figure QLYQS_30
时刻第
Figure QLYQS_31
个虚拟机器人选择的动作,输出为
Figure QLYQS_34
时刻的全局状态价值函数的估计值
Figure QLYQS_36
步骤5、基于多智能体深度强化学习进行迭代优化,训练图像特征提取网络、值估计网络和值分解网络的网络参数,得到最佳网络参数;
步骤501、对特征提取网络
Figure QLYQS_38
Figure QLYQS_39
及分别对应的目标网络
Figure QLYQS_41
Figure QLYQS_43
、值估计网络
Figure QLYQS_45
及其目标网络
Figure QLYQS_47
和值分解网络
Figure QLYQS_48
及其目标网络
Figure QLYQS_37
进行参数初始化,并确定每次训练的批量大小
Figure QLYQS_40
、序列长度
Figure QLYQS_42
、目标网络更新时间
Figure QLYQS_44
和总体训练时长
Figure QLYQS_46
步骤502、随机初始化场景环境,获取
Figure QLYQS_58
时刻的系统状态
Figure QLYQS_60
和虚拟机器人观测
Figure QLYQS_61
,由值估计网络
Figure QLYQS_64
生成
Figure QLYQS_65
时刻第
Figure QLYQS_66
个虚拟机器人的估计值
Figure QLYQS_67
,然后选取每个虚拟机器人的估计值最大值在动作空间
Figure QLYQS_50
中所对应的动作的集合
Figure QLYQS_52
,作为采取的
Figure QLYQS_54
时刻虚拟机器人集群选择的联合动作集
Figure QLYQS_55
,与环境交互后得到
Figure QLYQS_57
时刻的奖励
Figure QLYQS_59
Figure QLYQS_62
时刻的系统状态
Figure QLYQS_63
和虚拟机器人的观测
Figure QLYQS_49
,重复步骤502直到得到
Figure QLYQS_51
个序列长度为
Figure QLYQS_53
的序列,并储存在经验回放缓存
Figure QLYQS_56
中;
步骤503、在经验回放缓存
Figure QLYQS_69
中随机采样批量大小为
Figure QLYQS_71
的序列,通过特征提取网络
Figure QLYQS_72
Figure QLYQS_74
提取出系统状态特征图序列
Figure QLYQS_76
和虚拟机器人的观测特征图序列
Figure QLYQS_79
Figure QLYQS_80
Figure QLYQS_68
时刻的系统状态,
Figure QLYQS_70
Figure QLYQS_73
时刻第
Figure QLYQS_75
个虚拟机器人的观测,
Figure QLYQS_77
Figure QLYQS_78
为起始时刻;
步骤504、将虚拟机器人的观测特征图序列输入值估计网络
Figure QLYQS_93
,计算出估计值序列
Figure QLYQS_96
,其中,
Figure QLYQS_97
Figure QLYQS_98
时刻第
Figure QLYQS_99
个虚拟机器人的估计值,
Figure QLYQS_100
Figure QLYQS_101
为系统状态,
Figure QLYQS_81
为第
Figure QLYQS_83
个虚拟机器人的动作序列
Figure QLYQS_85
与观测序列
Figure QLYQS_87
组成的动作观测历史,其表达形式为
Figure QLYQS_89
,表示了第
Figure QLYQS_92
个虚拟机器人在
Figure QLYQS_94
时刻采取了动作
Figure QLYQS_95
后,获取到
Figure QLYQS_82
时刻的观测
Figure QLYQS_84
,以此类推直到虚拟机器人在
Figure QLYQS_86
时刻采取了动作
Figure QLYQS_88
后,获取到
Figure QLYQS_90
时刻的观测
Figure QLYQS_91
步骤505、将
Figure QLYQS_118
时刻的虚拟机器人集群的估计值
Figure QLYQS_119
和系统状态特征图
Figure QLYQS_120
输入值分解网络
Figure QLYQS_121
,计算
Figure QLYQS_122
时刻的全局估计值
Figure QLYQS_123
Figure QLYQS_124
其中,
Figure QLYQS_102
为与
Figure QLYQS_105
时刻的系统状态特征
Figure QLYQS_107
相关的常数,
Figure QLYQS_108
为多头注意力机制的头数,
Figure QLYQS_111
为多头注意力机制中来自不同头部的
Figure QLYQS_113
值分配权重,
Figure QLYQS_115
为值分解网络
Figure QLYQS_117
对第
Figure QLYQS_103
个虚拟机器人的值估计网络
Figure QLYQS_104
进行分解时第
Figure QLYQS_106
阶的系数
Figure QLYQS_109
,均由
Figure QLYQS_110
生成,其中,
Figure QLYQS_112
Figure QLYQS_114
Figure QLYQS_116
阶的微元;
步骤506、计算损失函数:
Figure QLYQS_125
其中,
Figure QLYQS_138
为批量大小,
Figure QLYQS_139
为特征提取网络、值估计网络及值分解网络组成的整体
Figure QLYQS_141
函数,
Figure QLYQS_143
为网络参数,
Figure QLYQS_144
为目标网络参数,
Figure QLYQS_145
为折扣系数,
Figure QLYQS_146
Figure QLYQS_126
为第
Figure QLYQS_129
条序列中
Figure QLYQS_131
时刻与
Figure QLYQS_133
时刻虚拟机器人集群选择的联合动作集,
Figure QLYQS_135
Figure QLYQS_137
为第
Figure QLYQS_140
条序列中
Figure QLYQS_142
时刻与
Figure QLYQS_127
时刻的系统状态,
Figure QLYQS_128
Figure QLYQS_130
为第
Figure QLYQS_132
条序列中
Figure QLYQS_134
时刻与
Figure QLYQS_136
时刻为虚拟机器人集群的动作观测历史;
步骤507、进行梯度下降,根据损失函数计算的值调整更新网络参数,当训练步长到达
Figure QLYQS_147
的整数倍时,将目标网络的参数与当前网络同步;
步骤508、重复步骤502至步骤507,直到训练步长到达总体训练时长
Figure QLYQS_148
步骤6、在仿真平台上,将虚拟目标场景与虚拟机器人集群结合后进行组合训练,进而部署于真实目标场景和真实机器人集群中。
2.根据权利要求1所述的基于多智能体深度强化学习的多机探寻方法,其特征在于:
在所述的步骤2中,分布式部分可观测马尔可夫决策过程为:
Figure QLYQS_149
其中,
Figure QLYQS_151
为虚拟机器人个数,
Figure QLYQS_153
为状态空间,
Figure QLYQS_155
为动作空间,
Figure QLYQS_156
Figure QLYQS_159
时刻第
Figure QLYQS_161
个虚拟机器人选择的动作,
Figure QLYQS_163
Figure QLYQS_165
Figure QLYQS_167
时刻虚拟机器人集群选择的联合动作集,
Figure QLYQS_169
Figure QLYQS_171
Figure QLYQS_173
时刻的系统状态,
Figure QLYQS_175
Figure QLYQS_177
时刻的系统状态,
Figure QLYQS_180
Figure QLYQS_150
下选择
Figure QLYQS_152
后转移到
Figure QLYQS_154
的状态转移概率函数,
Figure QLYQS_157
Figure QLYQS_158
下选择
Figure QLYQS_160
的奖励函数,
Figure QLYQS_162
为观测空间,
Figure QLYQS_164
为第
Figure QLYQS_166
个虚拟机器人的观测,
Figure QLYQS_168
Figure QLYQS_170
为第
Figure QLYQS_172
个虚拟机器人选择
Figure QLYQS_174
后在
Figure QLYQS_176
下虚拟机器人观测到
Figure QLYQS_178
的条件观测概率,
Figure QLYQS_179
为折扣系数。
3.根据权利要求1所述的基于多智能体深度强化学习的多机探寻方法,其特征在于:
在所述的步骤3中,虚拟机器人集群完成探索与搜寻任务的一条轨迹信息包含:
Figure QLYQS_181
Figure QLYQS_182
其中,
Figure QLYQS_184
Figure QLYQS_186
分别为
Figure QLYQS_187
时刻和
Figure QLYQS_190
时刻的系统状态,系统状态由以下全局俯视图组成:(1)全局环境图,(2)各个虚拟机器人的状态图;
Figure QLYQS_191
Figure QLYQS_193
分别为
Figure QLYQS_195
时刻和
Figure QLYQS_183
时刻的虚拟机器人观测,虚拟机器人观测由以下局部俯视图组成:(1)局部环境图,(2)虚拟机器人自身状态与观测到的其它虚拟机器人状态图,(3)由虚拟机器人到各个目标的最短路径图;
Figure QLYQS_185
Figure QLYQS_188
时刻虚拟机器人集群选择的联合动作集;
Figure QLYQS_189
Figure QLYQS_192
时刻获得的奖励;
Figure QLYQS_194
为起始时刻,
Figure QLYQS_196
为序列长度;
将所获得的轨迹信息储存在经验回放缓存
Figure QLYQS_197
中。
4.根据权利要求1所述的基于多智能体深度强化学习的多机探寻方法,其特征在于:
在所述的步骤6中,虚拟目标场景包括探索与搜寻场景,虚拟机器人为虚拟推进机器人、虚拟起重机器人或虚拟抛投机器人。
5.一种基于多智能体深度强化学习的多机探寻系统,使用上述权利要求1-4任一项所述基于多智能体深度强化学习的多机探寻方法,其特征在于,包括:
仿真平台搭建模块,用于搭建机器人集群仿真平台,包括虚拟目标场景的设计、虚拟障碍物的布置以及对虚拟机器人集群的设计与组合,虚拟机器人集群包括N个虚拟机器人;
建模模块,用于将机器人集群探寻任务建模为分布式部分可观测马尔可夫决策过程;
探寻任务获取模块,用于获取虚拟机器人集群完成探寻任务的轨迹信息,并储存在经验回放缓存中;
特征提取模块,用于针对虚拟机器人集群搭建图像特征提取网络、值估计网络和值分解网络,其中,值分解网络使用多头注意力机制估计全局状态价值;
优化模块,用于基于多智能体深度强化学习进行迭代优化,训练图像特征提取网络、值估计网络和值分解网络的网络参数,得到最佳参数;
部署模块,用于在仿真平台上,将虚拟目标场景与虚拟机器人集群结合后进行组合训练,进而部署于真实目标场景和真实机器人集群中。
6.一种基于多智能体深度强化学习的多机探寻设备,其特征在于:包括处理器和用于存储能够在处理器上运行的计算机程序的存储器,所述处理器用于运行计算机程序时,执行上述权利要求1-4任一项所述基于多智能体深度强化学习的多机探寻方法的步骤。
7.一种计算机存储介质,其特征在于:所述计算机存储介质中存储有计算机程序,所述计算机程序被处理器执行时,实现上述权利要求1-4任一项基于多智能体深度强化学习的多机探寻方法的步骤。
CN202310044962.6A 2023-01-30 2023-01-30 一种基于多智能体深度强化学习的多机探寻方法及系统 Active CN115860107B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310044962.6A CN115860107B (zh) 2023-01-30 2023-01-30 一种基于多智能体深度强化学习的多机探寻方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310044962.6A CN115860107B (zh) 2023-01-30 2023-01-30 一种基于多智能体深度强化学习的多机探寻方法及系统

Publications (2)

Publication Number Publication Date
CN115860107A CN115860107A (zh) 2023-03-28
CN115860107B true CN115860107B (zh) 2023-05-16

Family

ID=85657341

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310044962.6A Active CN115860107B (zh) 2023-01-30 2023-01-30 一种基于多智能体深度强化学习的多机探寻方法及系统

Country Status (1)

Country Link
CN (1) CN115860107B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116432690B (zh) * 2023-06-15 2023-08-18 中国人民解放军国防科技大学 基于马尔科夫的智能决策方法、装置、设备及存储介质
CN117234216B (zh) * 2023-11-10 2024-02-09 武汉大学 一种机器人深度强化学习运动规划方法及计算机可读介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115167478A (zh) * 2022-08-23 2022-10-11 山东大学 基于深度强化学习的机器人无地图路径规划方法及系统
CN115585813A (zh) * 2022-11-09 2023-01-10 东北大学 一种基于注意力机制的深度强化学习机器人导航方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210158162A1 (en) * 2019-11-27 2021-05-27 Google Llc Training reinforcement learning agents to learn farsighted behaviors by predicting in latent space
US20230214649A1 (en) * 2020-07-28 2023-07-06 Deepmind Technologies Limited Training an action selection system using relative entropy q-learning
US20220105626A1 (en) * 2020-10-05 2022-04-07 Autodesk, Inc. Techniques for force and torque-guided robotic assembly
CN113741528B (zh) * 2021-09-13 2023-05-23 中国人民解放军国防科技大学 一种面向多无人机碰撞规避的深度强化学习训练加速方法
CN114942633A (zh) * 2022-04-28 2022-08-26 华南农业大学 基于数字孪生和强化学习的多智能体协同避碰采摘方法
CN115186807A (zh) * 2022-05-19 2022-10-14 南京大学 利用乐观映射提升值分解多智能体强化学习算法性能的方法
CN115016534A (zh) * 2022-06-02 2022-09-06 之江实验室 一种基于记忆增强学习的无人机自主避障导航方法
CN114896899B (zh) * 2022-07-15 2022-10-11 中国人民解放军国防科技大学 一种基于信息交互的多智能体分散式决策方法及系统
CN115373415A (zh) * 2022-07-26 2022-11-22 西安电子科技大学 一种基于深度强化学习的无人机智能导航方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115167478A (zh) * 2022-08-23 2022-10-11 山东大学 基于深度强化学习的机器人无地图路径规划方法及系统
CN115585813A (zh) * 2022-11-09 2023-01-10 东北大学 一种基于注意力机制的深度强化学习机器人导航方法

Also Published As

Publication number Publication date
CN115860107A (zh) 2023-03-28

Similar Documents

Publication Publication Date Title
CN115860107B (zh) 一种基于多智能体深度强化学习的多机探寻方法及系统
Haarnoja et al. Reinforcement learning with deep energy-based policies
CN111203878B (zh) 一种基于视觉模仿的机器人序列任务学习方法
Zhao et al. A spatial-temporal attention model for human trajectory prediction.
Wang et al. A survey of learning‐based robot motion planning
CN110874578B (zh) 一种基于强化学习的无人机视角车辆识别追踪方法
CN112605973B (zh) 一种机器人运动技能学习方法及系统
CN114162146B (zh) 行驶策略模型训练方法以及自动驾驶的控制方法
CN113920170A (zh) 结合场景上下文和行人社会关系的行人轨迹预测方法、系统及存储介质
CN115829171B (zh) 一种联合时空信息和社交互动特征的行人轨迹预测方法
CN113657573B (zh) 一种情景记忆引导下基于元学习的机器人技能获取方法
Hoy et al. Learning to predict pedestrian intention via variational tracking networks
CN111352419A (zh) 基于时序差分更新经验回放缓存的路径规划方法及系统
CN114161419B (zh) 一种情景记忆引导的机器人操作技能高效学习方法
CN115376103A (zh) 一种基于时空图注意力网络的行人轨迹预测方法
CN115265547A (zh) 一种未知环境下基于强化学习的机器人主动导航方法
CN115648204A (zh) 智能决策模型的训练方法、装置、设备以及存储介质
Jiang et al. Vision-based deep reinforcement learning for UR5 robot motion control
Jiang et al. A data-efficient goal-directed deep reinforcement learning method for robot visuomotor skill
Luo et al. Balance between efficient and effective learning: Dense2sparse reward shaping for robot manipulation with environment uncertainty
Ejaz et al. Autonomous visual navigation using deep reinforcement learning: An overview
Desai et al. Auxiliary tasks for efficient learning of point-goal navigation
CN116894530A (zh) 路径规划方法、装置、电子设备及存储介质
Khan et al. Learning sample-efficient target reaching for mobile robots
CN115862130A (zh) 基于人体姿态及其躯干运动场的行为识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant