CN115860107A - 一种基于多智能体深度强化学习的多机探寻方法及系统 - Google Patents
一种基于多智能体深度强化学习的多机探寻方法及系统 Download PDFInfo
- Publication number
- CN115860107A CN115860107A CN202310044962.6A CN202310044962A CN115860107A CN 115860107 A CN115860107 A CN 115860107A CN 202310044962 A CN202310044962 A CN 202310044962A CN 115860107 A CN115860107 A CN 115860107A
- Authority
- CN
- China
- Prior art keywords
- network
- virtual
- virtual robot
- moment
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 51
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 44
- 238000000605 extraction Methods 0.000 claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000004088 simulation Methods 0.000 claims abstract description 23
- 230000008569 process Effects 0.000 claims abstract description 12
- 238000005457 optimization Methods 0.000 claims abstract description 11
- 239000003795 chemical substances by application Substances 0.000 claims description 49
- 230000009471 action Effects 0.000 claims description 44
- 238000011156 evaluation Methods 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 24
- 238000010586 diagram Methods 0.000 claims description 21
- 230000007246 mechanism Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 12
- 238000013461 design Methods 0.000 claims description 12
- 230000004888 barrier function Effects 0.000 claims description 6
- 230000002123 temporal effect Effects 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000009916 joint effect Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 230000000306 recurrent effect Effects 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 241000764238 Isis Species 0.000 claims description 2
- 230000003993 interaction Effects 0.000 claims description 2
- 230000006399 behavior Effects 0.000 description 8
- 230000001360 synchronised effect Effects 0.000 description 8
- 230000000875 corresponding effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- QVRVXSZKCXFBTE-UHFFFAOYSA-N n-[4-(6,7-dimethoxy-3,4-dihydro-1h-isoquinolin-2-yl)butyl]-2-(2-fluoroethoxy)-5-methylbenzamide Chemical compound C1C=2C=C(OC)C(OC)=CC=2CCN1CCCCNC(=O)C1=CC(C)=CC=C1OCCF QVRVXSZKCXFBTE-UHFFFAOYSA-N 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Image Analysis (AREA)
- Manipulator (AREA)
- Feedback Control In General (AREA)
Abstract
本发明提供一种基于多智能体深度强化学习的多机探寻方法及系统,包括搭建机器人集群仿真平台,将机器人集群探寻任务建模为分布式部分可观测马尔可夫决策过程,获取虚拟机器人集群完成探寻任务的轨迹信息并储存在经验回放缓存中,针对虚拟机器人集群搭建图像特征提取网络、值估计网络和值分解网络,基于多智能体深度强化学习进行迭代优化,得到最佳参数,在仿真平台上将虚拟目标场景与虚拟机器人集群结合后进行组合训练,便于部署真实目标场景和真实机器人集群,本发明能够在训练时获取全局的信息进行集中式学习,使得机器人可以学习到集体行为,大大提升了工作效率,且不容易出现目标冲突、互相干扰等问题。
Description
技术领域
本发明涉及机器人技术领域,尤其涉及一种基于多智能体深度强化学习的多机探寻方法及系统。
背景技术
近年来,机器人技术在外界感知、运动控制、定位导航等方面的研究受到了广泛的关注。其中,机器人集群作为群体智能的代表,因其可以集体地、自发地组织行为完成任务,在个人、社会等层面都具有广阔的应用前景。
但是,由于多机探寻任务中机器人的部分可观测性和机器人之间通信的约束,以及随着机器人数量增加带来的决策空间的指数型扩大和场景的复杂度增加,机器人集群的协同决策面临着巨大的挑战。
使用传统强化学习的多机探寻方法将每个机器人作为单独的个体,忽略了机器人之间的交互作用,使得完成集群任务时经常出现目标冲突、互相干扰等问题,大大降低了工作效率。对于过大的决策空间和复杂的场景,使用传统深度强化学习的方法也容易出现无法收敛到最优解的问题,使得机器人集群在完成任务时,效率大大降低。
发明内容
根据现有技术的不足,本发明的目的是提供一种基于多智能体深度强化学习的多机探寻方法及系统,能够在训练时获取全局的信息进行集中式学习,使得机器人可以学习到集体行为,大大提升了工作效率,且不容易出现目标冲突、互相干扰等问题。
为了解决上述技术问题,本发明采用的技术方案为:
本发明提供一种基于多智能体深度强化学习的多机探寻方法,包括以下步骤:
一种基于多智能体深度强化学习的多机探寻方法,包括以下步骤:
步骤1、搭建机器人集群仿真平台,包括虚拟目标场景的设计、虚拟障碍物的布置以及对虚拟机器人集群的设计与组合,虚拟机器人集群包括N个虚拟机器人;
步骤2、将机器人集群探寻任务建模为分布式部分可观测马尔可夫决策过程;
步骤3、获取虚拟机器人集群完成探寻任务的轨迹信息,并储存在经验回放缓存中;
步骤4、针对虚拟机器人集群搭建图像特征提取网络、值估计网络和值分解网络,其中,值分解网络使用多头注意力机制估计全局状态价值;
步骤5、基于多智能体深度强化学习进行迭代优化,训练图像特征提取网络、值估计网络和值分解网络的网络参数,得到最佳网络参数;
步骤6、在仿真平台上,将虚拟目标场景与虚拟机器人集群结合后进行组合训练,进而部署于真实目标场景和真实机器人集群中。
进一步地,在所述的步骤2中,分布式部分可观测马尔可夫决策过程为:
其中,为虚拟机器人个数,/>为状态空间,/>为动作空间,/>为/>时刻第/>个虚拟机器人选择的动作,/>,/>为/>时刻虚拟机器人集群选择的联合动作集,,/>为/>时刻的系统状态,/>为/>时刻的系统状态,/>为下选择/>后转移到/>的状态转移概率函数,/>为/>下选择/>的奖励函数,/>为观测空间,/>为第/>个虚拟机器人的观测,/>,/>为第/>个虚拟机器人选择/>后在/>下虚拟机器人观测到/>的条件观测概率,/>为折扣系数。
进一步地,在所述的步骤3中,虚拟机器人集群完成探索与搜寻任务的一条轨迹信息包含:
其中,和/>分别为/>时刻和/>时刻的系统状态,系统状态由以下全局俯视图组成:(1)全局环境图,(2)各个虚拟机器人的状态图;/>和/>分别为/>时刻和时刻的虚拟机器人观测,虚拟机器人观测由以下局部俯视图组成:(1)局部环境图,(2)虚拟机器人自身状态与观测到的其它虚拟机器人状态图,(3)由虚拟机器人到各个目标的最短路径图;/>为/>时刻虚拟机器人集群选择的联合动作集;/>为/>时刻获得的奖励;为起始时刻,/>为序列长度;
进一步地,在所述的步骤4中,特征提取网络、值估计网络和值分解网络的搭建如下:
特征提取网络共有两个且均使用卷积神经网络提取特征,其一用于提取系统状态特征,输入为时刻的系统状态/>,输出为/>时刻的系统状态特征图/>;其二用于提取虚拟机器人观测特征,输入为/>时刻第/>个虚拟机器人的观测/>,输出为/>时刻第/>个虚拟机器人的观测特征图/>;
值估计网络针对每个虚拟机器人分别搭建,使用循环神经网络估计虚拟机器人的状态价值,其输入为序列长度为的第/>个虚拟机器人的观测特征图序列/>,输出为序列长度为/>的值估计网络对第/>个虚拟机器人的状态价值函数的估计值序列/>,其中,/>为/>时刻第/>个虚拟机器人的估计值且大小与/>相等的图,/>为起始时刻,/>;
值分解网络使用多头注意力机制估计全局状态价值,其输入为时刻的系统状态特征图/>、/>时刻的虚拟机器人集群的观测特征图/>与/>时刻的联合动作集对应的估计值集合/>,/>为/>时刻虚拟机器人的观测,/>为/>时刻第/>个虚拟机器人选择的动作,输出为/>时刻的全局状态价值函数的估计值/>。
进一步地,所述步骤5具体包括:
步骤501、对特征提取网络和/>及分别对应的目标网络/>和/>、值估计网络/>及其目标网络/>和值分解网络/>及其目标网络/>进行参数初始化,并确定每次训练的批量大小/>、序列长度/>、目标网络更新时间/>和总体训练时长/>;
步骤502、随机初始化场景环境,获取时刻的系统状态/>和虚拟机器人观测/>,由值估计网络/>生成/>时刻第/>个虚拟机器人的估计值/>,然后选取每个虚拟机器人的估计值最大值在动作空间/>中所对应的动作的集合/>,作为采取的/>时刻虚拟机器人集群选择的联合动作集/>,与环境交互后得到/>时刻的奖励/>与/>时刻的系统状态/>和虚拟机器人的观测/>,重复步骤502直到得到/>个序列长度/>的序列,并储存在经验回放缓存/>中;
步骤503、在经验回放缓存中随机采样批量大小为/>的序列,通过特征提取网络和/>提取出系统状态特征图序列/>和虚拟机器人的观测特征图序列/>,/>为/>时刻的系统状态,/>为/>时刻第/>个虚拟机器人的观测,/>,/>为起始时刻;/>
步骤504、将虚拟机器人的观测特征图序列输入值估计网络,计算出估计值序列/>,其中,/>为/>时刻第/>个虚拟机器人的估计值,/>,为系统状态,/>为第/>个虚拟机器人的动作序列/>与观测序列组成的动作观测历史,其表达形式为,表示了虚拟机器人在/>时刻采取了动作/>后,获取到/>时刻的观测/>,以此类推直到虚拟机器人在/>时刻采取了动作/>后,获取到/>时刻的观测/>;
步骤505、将时刻的虚拟机器人集群的估计值/>和系统状态特征图输入值分解网络/>,计算/>时刻的全局估计值/>:其中,/>为与/>时刻的系统状态特征/>相关的常数,/>为多头注意力机制的头数,/>为多头注意力机制中来自不同头部的/>值分配权重,/>为值分解网络/>对第/>个虚拟机器人的值估计网络/>进行分解时第/>阶的系数/>,均由/>生成,其中,/>为/>第阶的微元;
步骤506、计算损失函数:
其中,为批量大小,/>为特征提取网络、值估计网络及值分解网络组成的整体/>函数,/>为网络参数,/>为目标网络参数,/>为折扣系数,/>与/>为第/>条序列中/>时刻与/>时刻虚拟机器人集群选择的联合动作集,/>与/>为第/>条序列中/>时刻与/>时刻的系统状态,/>与/>为第/>条序列中/>时刻与/>时刻为虚拟机器人集群的动作观测历史;
进一步地,在所述的步骤6中,虚拟目标场景包括探索与搜寻场景,虚拟机器人为虚拟推进机器人、虚拟起重机器人或虚拟抛投机器人。
一种基于多智能体深度强化学习的多机探寻系统,包括:
仿真平台搭建模块,用于搭建机器人集群仿真平台,包括虚拟目标场景的设计、虚拟障碍物的布置以及对虚拟机器人集群的设计与组合,虚拟机器人集群包括N个虚拟机器人;
建模模块,用于将机器人集群探寻任务建模为分布式部分可观测马尔可夫决策过程;
探寻任务获取模块,用于获取虚拟机器人集群完成探寻任务的轨迹信息,并储存在经验回放缓存中;
特征提取模块,用于针对虚拟机器人集群搭建图像特征提取网络、值估计网络和值分解网络,其中,值分解网络使用多头注意力机制估计全局状态价值;
优化模块,用于基于多智能体深度强化学习进行迭代优化,训练图像特征提取网络、值估计网络和值分解网络的网络参数,得到最佳参数;
部署模块,用于在仿真平台上,将虚拟目标场景与虚拟机器人集群结合后进行组合训练,进而部署于真实目标场景和真实机器人集群中。
一种基于多智能体深度强化学习的多机探寻设备,其特征在于:包括处理器和用于存储能够在处理器上运行的计算机程序的存储器,所述处理器用于运行计算机程序时,执行上述任一项所述基于多智能体深度强化学习的多机探寻方法的步骤。
一种计算机存储介质,其特征在于:所述计算机存储介质中存储有计算机程序,所述计算机程序被处理器执行时,实现上述任一项基于多智能体深度强化学习的多机探寻方法的步骤。
与现有技术相比,本发明具有以下优点和有益效果:
(1)本发明提供的一种基于多智能体深度强化学习的多机探寻方法及系统,关注虚拟机器人集群行为,多智能体深度强化学习可以在训练时获取全局的信息进行集中式学习,使得虚拟机器人可以学习到集体行为而非个体行为,且在部署时分布式执行,使得部署后的计算负担较传统方法相差不多,但工作效率大大提升,且不容易出现目标冲突、互相干扰等问题。
(2)本发明提供的一种基于多智能体深度强化学习的多机探寻方法及系统,值分解网络使用多头注意力机制估计全局状态价值,加入了多头注意力机制后,本发明虚拟机器人集群面对大决策空间也能取得很好的效果,且适用于更复杂的场景。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分。本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明基于多智能体深度强化学习的多机探寻方法的流程图;
图2为本发明基于多智能体深度强化学习的多机探寻系统的示意图;
图3为本发明基于多智能体深度强化学习的多机探寻场景的示意图。
其中,1、虚拟起重机器人;2、目标物体;3、目标区域;4、边界。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本发明提供一种基于多智能体深度强化学习的多机探寻方法,如图1所示,包括以下步骤:
步骤1、搭建机器人集群仿真平台,包括虚拟目标场景的设计、虚拟障碍物的布置以及对虚拟机器人集群的设计与组合,虚拟机器人集群包括N个虚拟机器人;
步骤2、将机器人集群探寻任务建模为分布式部分可观测马尔可夫决策过程;
步骤3、获取虚拟机器人集群完成探寻任务的轨迹信息,并储存在经验回放缓存中;
步骤4、针对虚拟机器人集群搭建图像特征提取网络、值估计网络和值分解网络,其中,值分解网络使用多头注意力机制估计全局状态价值;
步骤5、基于多智能体深度强化学习进行迭代优化,训练图像特征提取网络、值估计网络和值分解网络的网络参数,得到最佳网络参数;
步骤6、在仿真平台上,将虚拟目标场景与虚拟机器人集群结合后进行组合训练,进而部署于真实目标场景和真实机器人集群中。
本发明提供的一种基于多智能体深度强化学习的多机探寻方法,关注机器人集群行为,多智能体深度强化学习可以在训练时获取全局的信息进行集中式学习,使得虚拟机器人可以学习到集体行为而非个体行为,且在部署时分布式执行,使得部署后的计算负担较传统方法相差不多,但工作效率大大提升,且不容易出现目标冲突、互相干扰等问题。
本发明提供的一种基于多智能体深度强化学习的多机探寻方法,值分解网络使用多头注意力机制估计全局状态价值,加入了多头注意力机制后,本发明虚拟机器人集群面对大决策空间也能取得很好的效果,且适用于更复杂的场景。
在步骤2中,由于机器人集群探寻任务属于多智能体决策问题,其特点是各个智能体只能获取局部观测信息,而奖励信号是全局共享的,因此本发明采用分布式部分可观测马尔可夫决策过程对任务进行建模,能够客观、准确地描述真实环境与虚拟机器人集群的状态,便于实现仿真到实际的迁移。
在步骤3中,将轨迹信息储存在经验回放缓存中,并在训练时随机抽取历史信息,可以大大提高样本效率,节省计算资源,并且可以消除采样数据之间的相关性,减小方差。
在步骤4中,由于系统状态与虚拟机器人观测由图的形式进行表示,使用图像特征提取网络可以有效地抽取特征,获得向量表示,值估计网络可以估计每个虚拟机器人可选取的所有动作的价值,并从中选取价值最高的动作作为最优解,是完成任务的关键,值分解网络对每个虚拟机器人选取动作的价值进行评估计算出加权和,解决了虚拟机器人观测的局限性,能站在全局的角度更好地学习到全局最优策略,同时消除了环境不稳定性。
本发明中,在所述的步骤2中,机器人集群探寻任务的分布式部分可观测马尔可夫决策过程模型为:
其中,为虚拟机器人个数,/>为状态空间,/>为动作空间,/>为/>时刻第/>个虚拟机器人选择的动作,/>,/>为/>时刻虚拟机器人集群选择的联合动作集,,/>为/>时刻的系统状态,/>为/>时刻的系统状态,/>为下选择/>后转移到/>的状态转移概率函数,/>为/>下选择/>的奖励函数,/>为观测空间,/>为第/>个虚拟机器人的观测,/>,/>为第/>个虚拟机器人选择/>后在/>下虚拟机器人观测到/>的条件观测概率,/>为折扣系数。
本发明中,在所述的步骤3中,虚拟机器人集群完成探索与搜寻任务的一条轨迹信息包含:
虚拟机器人集群完成探索与搜寻任务的一条轨迹信息包含:
其中,和/>分别为/>时刻和/>时刻的系统状态,系统状态由以下全局俯视图组成:(1)全局环境图,(2)各个虚拟机器人的状态图;/>和/>分别为/>时刻和时刻的虚拟机器人观测,虚拟机器人观测由以下局部俯视图组成:(1)局部环境图,(2)虚拟机器人自身状态与观测到的其它虚拟机器人状态图,(3)由虚拟机器人到各个目标的最短路径图;/>为/>时刻虚拟机器人集群选择的联合动作集;/>为/>时刻获得的奖励;为起始时刻,/>为序列长度;
本发明中,在所述的步骤4中,特征提取网络、值估计网络和值分解网络的搭建如下:
特征提取网络共有两个且均使用卷积神经网络提取特征,其一用于提取系统状态特征,输入为时刻的系统状态/>,输出为/>时刻的系统状态特征图/>;其二用于提取虚拟机器人观测特征,输入为/>时刻第/>个虚拟机器人的观测/>,输出为/>时刻第/>个虚拟机器人的观测特征图/>;
值估计网络针对每个虚拟机器人分别搭建,使用循环神经网络估计虚拟机器人的状态价值,其输入为序列长度为的第/>个虚拟机器人的观测特征图序列,输出为序列长度为/>的值估计网络对第/>个虚拟机器人的状态价值函数的估计值序列/>,其中,/>为/>时刻第/>个虚拟机器人的估计值且大小与/>相等的图,/>为起始时刻,/>;
值分解网络使用多头注意力机制估计全局状态价值,其输入为时刻的系统状态特征图/>、/>时刻的虚拟机器人集群的观测特征图/>与/>时刻的联合动作集对应的估计值集合/>,/>为/>时刻虚拟机器人的观测,/>为/>时刻第/>个虚拟机器人选择的动作,输出为/>时刻的全局状态价值函数的估计值/>。
本发明中,所述步骤5具体包括:
步骤501、对特征提取网络和/>及分别对应的目标网络/>和/>、值估计网络/>及其目标网络/>和值分解网络/>及其目标网络/>进行参数初始化,并确定每次训练的批量大小/>、序列长度/>、目标网络更新时间/>和总体训练时长/>;
步骤502、随机初始化场景环境,获取时刻的系统状态/>和虚拟机器人观测/>,由值估计网络/>生成/>时刻第/>个虚拟机器人的估计值/>,然后选取每个虚拟机器人的估计值最大值在动作空间/>中所对应的动作的集合/>,作为采取的/>时刻虚拟机器人集群选择的联合动作集/>,与环境交互后得到/>时刻的奖励/>与/>时刻的系统状态/>和虚拟机器人的观测/>,重复步骤502直到得到/>个序列长度/>的序列,并储存在经验回放缓存/>中;
步骤503、在经验回放缓存中随机采样批量大小为/>的序列,通过特征提取网络/>和/>提取出系统状态特征图序列/>和虚拟机器人的观测特征图序列/>,/>为/>时刻的系统状态,/>为/>时刻第/>个虚拟机器人的观测,/>,/>为起始时刻;
步骤504、将虚拟机器人的观测特征图序列输入值估计网络,计算出估计值序列/>,其中,/>为/>时刻第/>个虚拟机器人的估计值,,/>为系统状态,/>为第/>个虚拟机器人的动作序列与观测序列/>组成的动作观测历史,其表达形式为,表示了虚拟机器人在/>时刻采取了动作/>后,获取到/>时刻的观测/>,以此类推直到虚拟机器人在/>时刻采取了动作/>后,获取到/>时刻的观测/>;
步骤505、将时刻的虚拟机器人集群的估计值/>和系统状态特征图输入值分解网络/>,计算/>时刻的全局估计值/>:其中,/>为与/>时刻的系统状态特征/>相关的常数,/>为多头注意力机制的头数,/>为多头注意力机制中来自不同头部的/>值分配权重,/>为值分解网络/>对第/>个虚拟机器人的值估计网络进行分解时第/>阶的系数/>,均由/>生成,其中,/>为/>第/>阶的微元;
步骤506、计算损失函数:
其中,为批量大小,/>为特征提取网络、值估计网络及值分解网络组成的整体/>函数,/>为网络参数,/>为目标网络参数,/>为折扣系数,/>与/>为第/>条序列中/>时刻与/>时刻虚拟机器人集群选择的联合动作集,/>与/>为第/>条序列中/>时刻与/>时刻的系统状态,/>与/>为第/>条序列中/>时刻与时刻为虚拟机器人集群的动作观测历史;
在所述的步骤6中,虚拟目标场景包括探索与搜寻场景,虚拟机器人为虚拟推进机器人、虚拟起重机器人或虚拟抛投机器人。
综上所述,本发明使用多头注意力机制学习全局状态价值函数,在解决复杂的可分解问题时有着更好的性能,在虚拟机器人动作空间大、场景复杂的情况下表现更好;
本发明改进后的学习方法能适应输入为向量或图像、元组或序列等不同情况,泛化能力强,适应范围广,且收敛速度更快,效果更好。
在本发明的一个实施例中,如图3所示,在机器人集群仿真平台中搭建了探寻的虚拟目标场景,放置了4个虚拟起重机器人1和8个目标物体2,设置了虚拟目标场景的边界4使虚拟机器人能在固定区域内运动,确定了目标区域3为虚拟机器人将目标物体2送至的区域,并且在虚拟目标场景中设置了障碍物,以此模拟虚拟机器人集群探寻物体并送到指定位置。根据本发明提供的基于多智能体深度强化学习的多机探寻方法,4个虚拟起重机器人1组成的虚拟机器人集群根据神经网络输出的动作与环境进行交互,获取序列形式的经验储存在经验回放缓存中,在训练时取出对网络参数进行迭代优化,使4个虚拟起重机器人1组成的虚拟机器人集群完成搜寻任务的效率不断提升。训练完成后,将训练好的神经网络部署在真实目标场景的4个真实起重机器人上,使得真实目标场景的4个真实起重机器人可以在相似的、有障碍物的、物体可识别的真实场景中探寻物体并送到指定位置,实现由仿真环境向真实环境的迁移,并通过搭建多种不同虚拟机器人集群、不同物体、不同障碍物的虚拟目标场景使得虚拟机器人集群可以面对不同真实目标场景都能很好完成任务,如家庭服务、火场救援等,具有一定的泛化能力。
本发明还提供一种基于多智能体深度强化学习的多机探寻系统,如图2所示,包括:
仿真平台搭建模块,用于搭建机器人集群仿真平台,包括虚拟目标场景的设计、虚拟障碍物的布置以及对虚拟机器人集群的设计与组合,虚拟机器人集群包括N个虚拟机器人;
建模模块,用于将机器人集群探寻任务建模为分布式部分可观测马尔可夫决策过程;
探寻任务获取模块,用于获取虚拟机器人集群完成探寻任务的轨迹信息,并储存在经验回放缓存中;
特征提取模块,用于针对虚拟机器人集群搭建图像特征提取网络、值估计网络和值分解网络,其中,值分解网络使用多头注意力机制估计全局状态价值;
优化模块,用于基于多智能体深度强化学习进行迭代优化,训练图像特征提取网络、值估计网络和值分解网络的网络参数,得到最佳参数;
部署模块,用于在仿真平台上,将虚拟目标场景与虚拟机器人集群结合后进行组合训练,进而部署于真实目标场景和真实机器人集群中。
一种基于多智能体深度强化学习的多机探寻设备,包括处理器和用于存储能够在处理器上运行的计算机程序的存储器,所述处理器用于运行计算机程序时,执行上述任一项所述基于多智能体深度强化学习的多机探寻方法的步骤。
本发明实施例中的存储器用于存储各种类型的数据以支持基于多智能体深度强化学习的多机探寻设备的操作。这些数据的示例包括:用于在基于多智能体深度强化学习的多机探寻设备上操作的任何计算机程序。
本发明实施例揭示的基于多智能体深度强化学习的多机探寻方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,基于多智能体深度强化学习的多机探寻方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(DSP,DigitalSignalProcessor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成本发明实施例提供的基于多智能体深度强化学习的多机探寻方法的步骤。
在示例性实施例中,基于多智能体深度强化学习的多机探寻设备可以被一个或多个应用专用集成电路(ASIC,ApplicationSpecific Integrated Circuit)、DSP、可编程逻辑器件(PLD,ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD,ComplexProgrammable LogicDevice)、FPGA、通用处理器、控制器、微控制器(MCU,MicroController Unit)、微处理器(Microprocessor)、或者其他电子元件实现,用于执行前述方法。
可以理解,存储器可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,ReadOnly Memory)、可编程只读存储器(PROM,ProgrammableRead-Only Memory)、可擦除可编程只读存储器(EPROM,ErasableProgrammable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,ElectricallyErasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagneticrandom access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,CompactDisc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,RandomAccessMemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,StaticRandom Access Memory)、同步静态随机存取存储器(SSRAM,SynchronousStatic Random Access Memory)、动态随机存取存储器(DRAM,DynamicRandom Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamicRandom Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous DynamicRandom AccessMemory)、同步连接动态随机存取存储器(SLDRAM,SyncLinkDynamic Random AccessMemory)、直接内存总线随机存取存储器(DRRAM,DirectRambus Random Access Memory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
本发明还提供一种计算机存储介质,所述计算机存储介质中存储有计算机程序,所述计算机程序被处理器执行时,实现上述任一项基于多智能体深度强化学习的多机探寻方法的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (9)
1.一种基于多智能体深度强化学习的多机探寻方法,其特征在于,包括以下步骤:
步骤1、搭建机器人集群仿真平台,包括虚拟目标场景的设计、虚拟障碍物的布置以及对虚拟机器人集群的设计与组合,虚拟机器人集群包括N个虚拟机器人;
步骤2、将机器人集群探寻任务建模为分布式部分可观测马尔可夫决策过程;
步骤3、获取虚拟机器人集群完成探寻任务的轨迹信息,并储存在经验回放缓存中;
步骤4、针对虚拟机器人集群搭建图像特征提取网络、值估计网络和值分解网络,其中,值分解网络使用多头注意力机制估计全局状态价值;
步骤5、基于多智能体深度强化学习进行迭代优化,训练图像特征提取网络、值估计网络和值分解网络的网络参数,得到最佳网络参数;
步骤6、在仿真平台上,将虚拟目标场景与虚拟机器人集群结合后进行组合训练,进而部署于真实目标场景和真实机器人集群中。
3.根据权利要求1所述的基于多智能体深度强化学习的多机探寻方法,其特征在于:
在所述的步骤3中,虚拟机器人集群完成探索与搜寻任务的一条轨迹信息包含:
其中,和/>分别为/>时刻和/>时刻的系统状态,系统状态由以下全局俯视图组成:(1)全局环境图,(2)各个虚拟机器人的状态图;/>和/>分别为/>时刻和/>时刻的虚拟机器人观测,虚拟机器人观测由以下局部俯视图组成:(1)局部环境图,(2)虚拟机器人自身状态与观测到的其它虚拟机器人状态图,(3)由虚拟机器人到各个目标的最短路径图;/>为/>时刻虚拟机器人集群选择的联合动作集;/>为/>时刻获得的奖励;/>为起始时刻,/>为序列长度;
4.根据权利要求1所述的基于多智能体深度强化学习的多机探寻方法,其特征在于:
在所述的步骤4中,特征提取网络、值估计网络和值分解网络的搭建如下:
特征提取网络共有两个且均使用卷积神经网络提取特征,其一用于提取系统状态特征,输入为时刻的系统状态/>,输出为/>时刻的系统状态特征图/>;其二用于提取虚拟机器人观测特征,输入为/>时刻第/>个虚拟机器人的观测/>,输出为/>时刻第/>个虚拟机器人的观测特征图/>;
值估计网络针对每个虚拟机器人分别搭建,使用循环神经网络估计虚拟机器人的状态价值,其输入为序列长度为的第/>个虚拟机器人的观测特征图序列,输出为序列长度为/>的值估计网络对第/>个虚拟机器人的状态价值函数的估计值序列/>,其中,/>为/>时刻第/>个虚拟机器人的估计值且大小与/>相等的图,/>为起始时刻,/>;
5.根据权利要求1所述的基于多智能体深度强化学习的多机探寻方法,其特征在于,所述步骤5具体包括:
步骤501、对特征提取网络和/>及分别对应的目标网络/>和/>、值估计网络/>及其目标网络/>和值分解网络/>及其目标网络/>进行参数初始化,并确定每次训练的批量大小/>、序列长度/>、目标网络更新时间/>和总体训练时长;
步骤502、随机初始化场景环境,获取时刻的系统状态/>和虚拟机器人观测/>,由值估计网络/>生成/>时刻第/>个虚拟机器人的估计值/>,然后选取每个虚拟机器人的估计值最大值在动作空间/>中所对应的动作的集合/>,作为采取的/>时刻虚拟机器人集群选择的联合动作集/>,与环境交互后得到/>时刻的奖励/>与/>时刻的系统状态/>和虚拟机器人的观测/>,重复步骤502直到得到/>个序列长度/>的序列,并储存在经验回放缓存/>中;
步骤503、在经验回放缓存中随机采样批量大小为/>的序列,通过特征提取网络/>和/>提取出系统状态特征图序列/>和虚拟机器人的观测特征图序列/>,/>为/>时刻的系统状态,/>为/>时刻第/>个虚拟机器人的观测,/>,/>为起始时刻;
步骤504、将虚拟机器人的观测特征图序列输入值估计网络,计算出估计值序列,其中,/>为/>时刻第/>个虚拟机器人的估计值,/>,为系统状态,/>为第/>个虚拟机器人的动作序列/>与观测序列组成的动作观测历史,其表达形式为,表示了虚拟机器人在/>时刻采取了动作/>后,获取到/>时刻的观测/>,以此类推直到虚拟机器人在时刻采取了动作/>后,获取到/>时刻的观测/>;
步骤505、将时刻的虚拟机器人集群的估计值/>和系统状态特征图输入值分解网络/>,计算/>时刻的全局估计值/>:其中,/>为与/>时刻的系统状态特征/>相关的常数,/>为多头注意力机制的头数,/>为多头注意力机制中来自不同头部的/>值分配权重,/>为值分解网络/>对第/>个虚拟机器人的值估计网络/>进行分解时第/>阶的系数/>,均由/>生成,其中,/>为/>第/>阶的微元;
步骤506、计算损失函数:
其中,为批量大小,/>为特征提取网络、值估计网络及值分解网络组成的整体/>函数,/>为网络参数,/>为目标网络参数,/>为折扣系数,/>与/>为第/>条序列中/>时刻与/>时刻虚拟机器人集群选择的联合动作集,/>与/>为第/>条序列中/>时刻与/>时刻的系统状态,/>与/>为第/>条序列中/>时刻与时刻为虚拟机器人集群的动作观测历史;
6.根据权利要求1所述的基于多智能体深度强化学习的多机探寻方法,其特征在于:
在所述的步骤6中,虚拟目标场景包括探索与搜寻场景,虚拟机器人为虚拟推进机器人、虚拟起重机器人或虚拟抛投机器人。
7.一种基于多智能体深度强化学习的多机探寻系统,其特征在于,包括:
仿真平台搭建模块,用于搭建机器人集群仿真平台,包括虚拟目标场景的设计、虚拟障碍物的布置以及对虚拟机器人集群的设计与组合,虚拟机器人集群包括N个虚拟机器人;
建模模块,用于将机器人集群探寻任务建模为分布式部分可观测马尔可夫决策过程;
探寻任务获取模块,用于获取虚拟机器人集群完成探寻任务的轨迹信息,并储存在经验回放缓存中;
特征提取模块,用于针对虚拟机器人集群搭建图像特征提取网络、值估计网络和值分解网络,其中,值分解网络使用多头注意力机制估计全局状态价值;
优化模块,用于基于多智能体深度强化学习进行迭代优化,训练图像特征提取网络、值估计网络和值分解网络的网络参数,得到最佳参数;
部署模块,用于在仿真平台上,将虚拟目标场景与虚拟机器人集群结合后进行组合训练,进而部署于真实目标场景和真实机器人集群中。
8.一种基于多智能体深度强化学习的多机探寻设备,其特征在于:包括处理器和用于存储能够在处理器上运行的计算机程序的存储器,所述处理器用于运行计算机程序时,执行上述权利要求1-6任一项所述基于多智能体深度强化学习的多机探寻方法的步骤。
9.一种计算机存储介质,其特征在于:所述计算机存储介质中存储有计算机程序,所述计算机程序被处理器执行时,实现上述权利要求1-6任一项基于多智能体深度强化学习的多机探寻方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310044962.6A CN115860107B (zh) | 2023-01-30 | 2023-01-30 | 一种基于多智能体深度强化学习的多机探寻方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310044962.6A CN115860107B (zh) | 2023-01-30 | 2023-01-30 | 一种基于多智能体深度强化学习的多机探寻方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115860107A true CN115860107A (zh) | 2023-03-28 |
CN115860107B CN115860107B (zh) | 2023-05-16 |
Family
ID=85657341
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310044962.6A Active CN115860107B (zh) | 2023-01-30 | 2023-01-30 | 一种基于多智能体深度强化学习的多机探寻方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115860107B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116432690A (zh) * | 2023-06-15 | 2023-07-14 | 中国人民解放军国防科技大学 | 基于马尔科夫的智能决策方法、装置、设备及存储介质 |
CN117234216A (zh) * | 2023-11-10 | 2023-12-15 | 武汉大学 | 一种机器人深度强化学习运动规划方法及计算机可读介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210158162A1 (en) * | 2019-11-27 | 2021-05-27 | Google Llc | Training reinforcement learning agents to learn farsighted behaviors by predicting in latent space |
CN113741528A (zh) * | 2021-09-13 | 2021-12-03 | 中国人民解放军国防科技大学 | 一种面向多无人机碰撞规避的深度强化学习训练加速方法 |
WO2022023384A1 (en) * | 2020-07-28 | 2022-02-03 | Deepmind Technologies Limited | Training an action selection system using relative entropy q-learning |
US20220105626A1 (en) * | 2020-10-05 | 2022-04-07 | Autodesk, Inc. | Techniques for force and torque-guided robotic assembly |
CN114896899A (zh) * | 2022-07-15 | 2022-08-12 | 中国人民解放军国防科技大学 | 一种基于信息交互的多智能体分散式决策方法及系统 |
CN114942633A (zh) * | 2022-04-28 | 2022-08-26 | 华南农业大学 | 基于数字孪生和强化学习的多智能体协同避碰采摘方法 |
CN115016534A (zh) * | 2022-06-02 | 2022-09-06 | 之江实验室 | 一种基于记忆增强学习的无人机自主避障导航方法 |
CN115167478A (zh) * | 2022-08-23 | 2022-10-11 | 山东大学 | 基于深度强化学习的机器人无地图路径规划方法及系统 |
CN115186807A (zh) * | 2022-05-19 | 2022-10-14 | 南京大学 | 利用乐观映射提升值分解多智能体强化学习算法性能的方法 |
CN115373415A (zh) * | 2022-07-26 | 2022-11-22 | 西安电子科技大学 | 一种基于深度强化学习的无人机智能导航方法 |
CN115585813A (zh) * | 2022-11-09 | 2023-01-10 | 东北大学 | 一种基于注意力机制的深度强化学习机器人导航方法 |
-
2023
- 2023-01-30 CN CN202310044962.6A patent/CN115860107B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210158162A1 (en) * | 2019-11-27 | 2021-05-27 | Google Llc | Training reinforcement learning agents to learn farsighted behaviors by predicting in latent space |
WO2022023384A1 (en) * | 2020-07-28 | 2022-02-03 | Deepmind Technologies Limited | Training an action selection system using relative entropy q-learning |
US20220105626A1 (en) * | 2020-10-05 | 2022-04-07 | Autodesk, Inc. | Techniques for force and torque-guided robotic assembly |
CN113741528A (zh) * | 2021-09-13 | 2021-12-03 | 中国人民解放军国防科技大学 | 一种面向多无人机碰撞规避的深度强化学习训练加速方法 |
CN114942633A (zh) * | 2022-04-28 | 2022-08-26 | 华南农业大学 | 基于数字孪生和强化学习的多智能体协同避碰采摘方法 |
CN115186807A (zh) * | 2022-05-19 | 2022-10-14 | 南京大学 | 利用乐观映射提升值分解多智能体强化学习算法性能的方法 |
CN115016534A (zh) * | 2022-06-02 | 2022-09-06 | 之江实验室 | 一种基于记忆增强学习的无人机自主避障导航方法 |
CN114896899A (zh) * | 2022-07-15 | 2022-08-12 | 中国人民解放军国防科技大学 | 一种基于信息交互的多智能体分散式决策方法及系统 |
CN115373415A (zh) * | 2022-07-26 | 2022-11-22 | 西安电子科技大学 | 一种基于深度强化学习的无人机智能导航方法 |
CN115167478A (zh) * | 2022-08-23 | 2022-10-11 | 山东大学 | 基于深度强化学习的机器人无地图路径规划方法及系统 |
CN115585813A (zh) * | 2022-11-09 | 2023-01-10 | 东北大学 | 一种基于注意力机制的深度强化学习机器人导航方法 |
Non-Patent Citations (5)
Title |
---|
KEYANG HE ET AL.: "Cooperative-Competitive Reinforcement Learning with History-Dependent Rewards", 《ARXIV:2010.08030V1 [CS.LG]》 * |
SHAORONG XIE ET AL.: "ET-HF: A novel information sharing model to improve multi-agent cooperation", 《KNOWLEDGE-BASED SYSTEMS》 * |
XUEGUANG LYU ET AL.: "A Deeper Understanding of State-Based Critics in Multi-Agent Reinforcement Learning", 《THE THIRTY-SIXTH AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE (AAAI-22)》 * |
宋健等: "基于值分解的多目标多智能体深度强化学习方法", 《计算机工程》 * |
杨明辉等: "室内动态环境下的移动机器人自主避障策略", 《中南大学学报(自然科学版)》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116432690A (zh) * | 2023-06-15 | 2023-07-14 | 中国人民解放军国防科技大学 | 基于马尔科夫的智能决策方法、装置、设备及存储介质 |
CN116432690B (zh) * | 2023-06-15 | 2023-08-18 | 中国人民解放军国防科技大学 | 基于马尔科夫的智能决策方法、装置、设备及存储介质 |
CN117234216A (zh) * | 2023-11-10 | 2023-12-15 | 武汉大学 | 一种机器人深度强化学习运动规划方法及计算机可读介质 |
CN117234216B (zh) * | 2023-11-10 | 2024-02-09 | 武汉大学 | 一种机器人深度强化学习运动规划方法及计算机可读介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115860107B (zh) | 2023-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pong et al. | Skew-fit: State-covering self-supervised reinforcement learning | |
CN115860107A (zh) | 一种基于多智能体深度强化学习的多机探寻方法及系统 | |
Mazoure et al. | Leveraging exploration in off-policy algorithms via normalizing flows | |
Wang et al. | A survey of learning‐based robot motion planning | |
CN112605973B (zh) | 一种机器人运动技能学习方法及系统 | |
WO2020190272A1 (en) | Creation of digital twin of the interaction among parts of the physical system | |
CN107179077B (zh) | 一种基于elm-lrf的自适应视觉导航方法 | |
CN103544496A (zh) | 基于空间与时间信息融合的机器人场景识别方法 | |
Fang et al. | Target‐driven visual navigation in indoor scenes using reinforcement learning and imitation learning | |
CN114162146B (zh) | 行驶策略模型训练方法以及自动驾驶的控制方法 | |
CN115265547A (zh) | 一种未知环境下基于强化学习的机器人主动导航方法 | |
CN114161419B (zh) | 一种情景记忆引导的机器人操作技能高效学习方法 | |
Hafez et al. | Efficient intrinsically motivated robotic grasping with learning-adaptive imagination in latent space | |
Wu et al. | Learning and planning with a semantic model | |
Bogdan et al. | Toward enabling automated cognition and decision-making in complex cyber-physical systems | |
CN113910221B (zh) | 一种机械臂自主运动规划方法、装置、设备及存储介质 | |
WO2020062002A1 (en) | Robot movement apparatus and related methods | |
Riccio et al. | LoOP: Iterative learning for optimistic planning on robots | |
KR20230079804A (ko) | 상태 전이를 선형화하는 강화 학습에 기반한 전자 장치 및 그 방법 | |
CN116861962A (zh) | 一种数据处理方法及装置 | |
Li et al. | Policy gradient methods with gaussian process modelling acceleration | |
Tang et al. | Reinforcement learning for robots path planning with rule-based shallow-trial | |
Wang et al. | Path planning model of mobile robots in the context of crowds | |
Li et al. | Intelligent trainer for model-based reinforcement learning | |
Ma et al. | Improving Model‐Based Deep Reinforcement Learning with Learning Degree Networks and Its Application in Robot Control |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |