CN115860107B

CN115860107B - 一种基于多智能体深度强化学习的多机探寻方法及系统

Info

Publication number: CN115860107B
Application number: CN202310044962.6A
Authority: CN
Inventors: 肖晓晖; 张涵; 张晓晖
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2023-01-30
Filing date: 2023-01-30
Publication date: 2023-05-16
Anticipated expiration: 2043-01-30
Also published as: CN115860107A

Abstract

本发明提供一种基于多智能体深度强化学习的多机探寻方法及系统，包括搭建机器人集群仿真平台，将机器人集群探寻任务建模为分布式部分可观测马尔可夫决策过程，获取虚拟机器人集群完成探寻任务的轨迹信息并储存在经验回放缓存中，针对虚拟机器人集群搭建图像特征提取网络、值估计网络和值分解网络，基于多智能体深度强化学习进行迭代优化，得到最佳参数，在仿真平台上将虚拟目标场景与虚拟机器人集群结合后进行组合训练，便于部署真实目标场景和真实机器人集群，本发明能够在训练时获取全局的信息进行集中式学习，使得机器人可以学习到集体行为，大大提升了工作效率，且不容易出现目标冲突、互相干扰等问题。

Description

一种基于多智能体深度强化学习的多机探寻方法及系统

技术领域

本发明涉及机器人技术领域，尤其涉及一种基于多智能体深度强化学习的多机探寻方法及系统。

背景技术

近年来，机器人技术在外界感知、运动控制、定位导航等方面的研究受到了广泛的关注。其中，机器人集群作为群体智能的代表，因其可以集体地、自发地组织行为完成任务，在个人、社会等层面都具有广阔的应用前景。

但是，由于多机探寻任务中机器人的部分可观测性和机器人之间通信的约束，以及随着机器人数量增加带来的决策空间的指数型扩大和场景的复杂度增加，机器人集群的协同决策面临着巨大的挑战。

使用传统强化学习的多机探寻方法将每个机器人作为单独的个体，忽略了机器人之间的交互作用，使得完成集群任务时经常出现目标冲突、互相干扰等问题，大大降低了工作效率。对于过大的决策空间和复杂的场景，使用传统深度强化学习的方法也容易出现无法收敛到最优解的问题，使得机器人集群在完成任务时，效率大大降低。

发明内容

根据现有技术的不足，本发明的目的是提供一种基于多智能体深度强化学习的多机探寻方法及系统，能够在训练时获取全局的信息进行集中式学习，使得机器人可以学习到集体行为，大大提升了工作效率，且不容易出现目标冲突、互相干扰等问题。

为了解决上述技术问题，本发明采用的技术方案为：

本发明提供一种基于多智能体深度强化学习的多机探寻方法，包括以下步骤：

一种基于多智能体深度强化学习的多机探寻方法，包括以下步骤：

步骤1、搭建机器人集群仿真平台，包括虚拟目标场景的设计、虚拟障碍物的布置以及对虚拟机器人集群的设计与组合，虚拟机器人集群包括N个虚拟机器人；

步骤2、将机器人集群探寻任务建模为分布式部分可观测马尔可夫决策过程；

步骤3、获取虚拟机器人集群完成探寻任务的轨迹信息，并储存在经验回放缓存中；

步骤4、针对虚拟机器人集群搭建图像特征提取网络、值估计网络和值分解网络，其中，值分解网络使用多头注意力机制估计全局状态价值；

步骤5、基于多智能体深度强化学习进行迭代优化，训练图像特征提取网络、值估计网络和值分解网络的网络参数，得到最佳网络参数；

步骤6、在仿真平台上，将虚拟目标场景与虚拟机器人集群结合后进行组合训练，进而部署于真实目标场景和真实机器人集群中。

进一步地，在所述的步骤2中，分布式部分可观测马尔可夫决策过程为：

其中，

为虚拟机器人个数，

为状态空间，

为动作空间，

为

时刻第

个虚拟机器人选择的动作，

，

为

时刻虚拟机器人集群选择的联合动作集，

，

为

时刻的系统状态，

为

时刻的系统状态，

为

下选择

后转移到

的状态转移概率函数，

为

下选择

的奖励函数，

为观测空间，

为第

个虚拟机器人的观测，

，

为第

个虚拟机器人选择

后在

下虚拟机器人观测到

的条件观测概率，

为折扣系数。

进一步地，在所述的步骤3中，虚拟机器人集群完成探索与搜寻任务的一条轨迹信息包含：

，

其中，

和

分别为

时刻和

时刻的系统状态，系统状态由以下全局俯视图组成：（1）全局环境图，（2）各个虚拟机器人的状态图；

和

分别为

时刻和

时刻的虚拟机器人观测，虚拟机器人观测由以下局部俯视图组成：（1）局部环境图，（2）虚拟机器人自身状态与观测到的其它虚拟机器人状态图，（3）由虚拟机器人到各个目标的最短路径图；

为

时刻虚拟机器人集群选择的联合动作集；

为

时刻获得的奖励；

为起始时刻，

为序列长度；

将所获得的轨迹信息储存在经验回放缓存

中。

进一步地，在所述的步骤4中，特征提取网络、值估计网络和值分解网络的搭建如下：

特征提取网络共有两个且均使用卷积神经网络提取特征，其一用于提取系统状态特征，输入为

时刻的系统状态

，输出为

时刻的系统状态特征图

；其二用于提取虚拟机器人观测特征，输入为

时刻第

个虚拟机器人的观测

，输出为

时刻第

个虚拟机器人的观测特征图

；

值估计网络针对每个虚拟机器人分别搭建，使用循环神经网络估计虚拟机器人的状态价值，其输入为序列长度为

的第

个虚拟机器人的观测特征图序列

，输出为序列长度为

的值估计网络对第

个虚拟机器人的状态价值函数的估计值序列

，其中，

为

时刻第

个虚拟机器人的估计值且大小与

相等的图，

为起始时刻，

；

值分解网络使用多头注意力机制估计全局状态价值，其输入为

时刻的系统状态特征图

、

时刻的虚拟机器人集群的观测特征图

与

时刻的联合动作集

对应的估计值集合

，

为

时刻虚拟机器人集群的观测，

为

时刻第

个虚拟机器人选择的动作，输出为

时刻的全局状态价值函数的估计值

。

进一步地，所述步骤5具体包括：

步骤501、对特征提取网络

和

及分别对应的目标网络

和

、值估计网络

及其目标网络

和值分解网络

及其目标网络

进行参数初始化，并确定每次训练的批量大小

、序列长度

、目标网络更新时间

和总体训练时长

；

步骤502、随机初始化场景环境，获取

时刻的系统状态

和虚拟机器人观测

，由值估计网络

生成

时刻第

个虚拟机器人的估计值

，然后选取每个虚拟机器人的估计值最大值在动作空间

中所对应的动作的集合

，作为采取的

时刻虚拟机器人集群选择的联合动作集

，与环境交互后得到

时刻的奖励

与

时刻的系统状态

和虚拟机器人的观测

，重复步骤502直到得到

个序列长度为

的序列，并储存在经验回放缓存

中；

步骤503、在经验回放缓存

中随机采样批量大小为

的序列，通过特征提取网络

和

提取出系统状态特征图序列

和虚拟机器人的观测特征图序列

，

为

时刻的系统状态，

为

时刻第

个虚拟机器人的观测，

，

为起始时刻；

步骤504、将虚拟机器人的观测特征图序列输入值估计网络

，计算出估计值序列

，其中，

为

时刻第

个虚拟机器人的估计值，

，

为系统状态，

为第

个虚拟机器人的动作序列

与观测序列

组成的动作观测历史，其表达形式为

，表示了第

个虚拟机器人在

时刻采取了动作

后，获取到

时刻的观测

，以此类推直到虚拟机器人在

时刻采取了动作

后，获取到

时刻的观测

；

步骤505、将

时刻的虚拟机器人集群的估计值

和系统状态特征图

输入值分解网络

，计算

时刻的全局估计值

：

其中，

为与

时刻的系统状态特征

相关的常数，

为多头注意力机制的头数，

为多头注意力机制中来自不同头部的

值分配权重，

为值分解网络

对第

个虚拟机器人的值估计网络

进行分解时第

阶的系数

，均由

生成，其中，

为

第

阶的微元；

步骤506、计算损失函数：

其中，

为批量大小，

为特征提取网络、值估计网络及值分解网络组成的整体

函数，

为网络参数，

为目标网络参数，

为折扣系数，

与

为第

条序列中

时刻与

时刻虚拟机器人集群选择的联合动作集，

与

为第

条序列中

时刻与

时刻的系统状态，

与

为第

条序列中

时刻与

时刻为虚拟机器人集群的动作观测历史；

步骤507、进行梯度下降，根据损失函数计算的值调整更新网络参数，当训练步长到达

的整数倍时，将目标网络的参数与当前网络同步；

步骤508、重复步骤502至步骤507，直到训练步长到达总体训练时长

。

进一步地，在所述的步骤6中，虚拟目标场景包括探索与搜寻场景，虚拟机器人为虚拟推进机器人、虚拟起重机器人或虚拟抛投机器人。

一种基于多智能体深度强化学习的多机探寻系统，包括：

仿真平台搭建模块，用于搭建机器人集群仿真平台，包括虚拟目标场景的设计、虚拟障碍物的布置以及对虚拟机器人集群的设计与组合，虚拟机器人集群包括N个虚拟机器人；

建模模块，用于将机器人集群探寻任务建模为分布式部分可观测马尔可夫决策过程；

探寻任务获取模块，用于获取虚拟机器人集群完成探寻任务的轨迹信息，并储存在经验回放缓存中；

特征提取模块，用于针对虚拟机器人集群搭建图像特征提取网络、值估计网络和值分解网络，其中，值分解网络使用多头注意力机制估计全局状态价值；

优化模块，用于基于多智能体深度强化学习进行迭代优化，训练图像特征提取网络、值估计网络和值分解网络的网络参数，得到最佳参数；

部署模块，用于在仿真平台上，将虚拟目标场景与虚拟机器人集群结合后进行组合训练，进而部署于真实目标场景和真实机器人集群中。

一种基于多智能体深度强化学习的多机探寻设备，其特征在于：包括处理器和用于存储能够在处理器上运行的计算机程序的存储器，所述处理器用于运行计算机程序时，执行上述任一项所述基于多智能体深度强化学习的多机探寻方法的步骤。

一种计算机存储介质，其特征在于：所述计算机存储介质中存储有计算机程序，所述计算机程序被处理器执行时，实现上述任一项基于多智能体深度强化学习的多机探寻方法的步骤。

与现有技术相比，本发明具有以下优点和有益效果：

（1）本发明提供的一种基于多智能体深度强化学习的多机探寻方法及系统，关注虚拟机器人集群行为，多智能体深度强化学习可以在训练时获取全局的信息进行集中式学习，使得虚拟机器人可以学习到集体行为而非个体行为，且在部署时分布式执行，使得部署后的计算负担较传统方法相差不多，但工作效率大大提升，且不容易出现目标冲突、互相干扰等问题。

（2）本发明提供的一种基于多智能体深度强化学习的多机探寻方法及系统，值分解网络使用多头注意力机制估计全局状态价值，加入了多头注意力机制后，本发明虚拟机器人集群面对大决策空间也能取得很好的效果，且适用于更复杂的场景。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分。本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明基于多智能体深度强化学习的多机探寻方法的流程图；

图2为本发明基于多智能体深度强化学习的多机探寻系统的示意图；

图3为本发明基于多智能体深度强化学习的多机探寻场景的示意图。

其中，1、虚拟起重机器人；2、目标物体；3、目标区域；4、边界。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本发明提供一种基于多智能体深度强化学习的多机探寻方法，如图1所示，包括以下步骤：

本发明提供的一种基于多智能体深度强化学习的多机探寻方法，关注机器人集群行为，多智能体深度强化学习可以在训练时获取全局的信息进行集中式学习，使得虚拟机器人可以学习到集体行为而非个体行为，且在部署时分布式执行，使得部署后的计算负担较传统方法相差不多，但工作效率大大提升，且不容易出现目标冲突、互相干扰等问题。

本发明提供的一种基于多智能体深度强化学习的多机探寻方法，值分解网络使用多头注意力机制估计全局状态价值，加入了多头注意力机制后，本发明虚拟机器人集群面对大决策空间也能取得很好的效果，且适用于更复杂的场景。

在步骤2中，由于机器人集群探寻任务属于多智能体决策问题，其特点是各个智能体只能获取局部观测信息，而奖励信号是全局共享的，因此本发明采用分布式部分可观测马尔可夫决策过程对任务进行建模，能够客观、准确地描述真实环境与虚拟机器人集群的状态，便于实现仿真到实际的迁移。

在步骤3中，将轨迹信息储存在经验回放缓存中，并在训练时随机抽取历史信息，可以大大提高样本效率，节省计算资源，并且可以消除采样数据之间的相关性，减小方差。

在步骤4中，由于系统状态与虚拟机器人观测由图的形式进行表示，使用图像特征提取网络可以有效地抽取特征，获得向量表示，值估计网络可以估计每个虚拟机器人可选取的所有动作的价值，并从中选取价值最高的动作作为最优解，是完成任务的关键，值分解网络对每个虚拟机器人选取动作的价值进行评估计算出加权和，解决了虚拟机器人观测的局限性，能站在全局的角度更好地学习到全局最优策略，同时消除了环境不稳定性。

本发明中，在所述的步骤2中，机器人集群探寻任务的分布式部分可观测马尔可夫决策过程模型为：

其中，

为虚拟机器人个数，

为状态空间，

为动作空间，

为

时刻第

个虚拟机器人选择的动作，

，

为

时刻虚拟机器人集群选择的联合动作集，

，

为

时刻的系统状态，

为

时刻的系统状态，

为

下选择

后转移到

的状态转移概率函数，

为

下选择

的奖励函数，

为观测空间，

为第

个虚拟机器人的观测，

，

为第

个虚拟机器人选择

后在

下虚拟机器人观测到

的条件观测概率，

为折扣系数。

本发明中，在所述的步骤3中，虚拟机器人集群完成探索与搜寻任务的一条轨迹信息包含：

虚拟机器人集群完成探索与搜寻任务的一条轨迹信息包含：

，

其中，

和

分别为

时刻和

和

分别为

时刻和

为

时刻虚拟机器人集群选择的联合动作集；

为

时刻获得的奖励；

为起始时刻，

为序列长度；

将所获得的轨迹信息储存在经验回放缓存

中。

本发明中，在所述的步骤4中，特征提取网络、值估计网络和值分解网络的搭建如下：

时刻的系统状态

，输出为

时刻的系统状态特征图

；其二用于提取虚拟机器人观测特征，输入为

时刻第

个虚拟机器人的观测

，输出为

时刻第

个虚拟机器人的观测特征图

；

的第

个虚拟机器人的观测特征图序列

，输出为序列长度为

的值估计网络对第

个虚拟机器人的状态价值函数的估计值序列

，其中，

为

时刻第

个虚拟机器人的估计值且大小与

相等的图，

为起始时刻，

；

时刻的系统状态特征图

、

时刻的虚拟机器人集群的观测特征图

与

时刻的联合动作集

对应的估计值集合

，

为

时刻虚拟机器人集群的观测，

为

时刻第

个虚拟机器人选择的动作，输出为

时刻的全局状态价值函数的估计值

。

本发明中，所述步骤5具体包括：

步骤501、对特征提取网络

和

及分别对应的目标网络

和

、值估计网络

及其目标网络

和值分解网络

及其目标网络

进行参数初始化，并确定每次训练的批量大小

、序列长度

、目标网络更新时间

和总体训练时长

；

步骤502、随机初始化场景环境，获取

时刻的系统状态

和虚拟机器人观测

，由值估计网络

生成

时刻第

个虚拟机器人的估计值

，然后选取每个虚拟机器人的估计值最大值在动作空间

中所对应的动作的集合

，作为采取的

时刻虚拟机器人集群选择的联合动作集

，与环境交互后得到

时刻的奖励

与

时刻的系统状态

和虚拟机器人的观测

，重复步骤502直到得到

个序列长度为

的序列，并储存在经验回放缓存

中；

步骤503、在经验回放缓存

中随机采样批量大小为

的序列，通过特征提取网络

和

提取出系统状态特征图序列

和虚拟机器人的观测特征图序列

，

为

时刻的系统状态，

为

时刻第

个虚拟机器人的观测，

，

为起始时刻；

步骤504、将虚拟机器人的观测特征图序列输入值估计网络

，计算出估计值序列

，其中，

为

时刻第

个虚拟机器人的估计值，

，

为系统状态，

为第

个虚拟机器人的动作序列

与观测序列

组成的动作观测历史，其表达形式为

，表示了第

个虚拟机器人在

时刻采取了动作

后，获取到

时刻的观测

，以此类推直到虚拟机器人在

时刻采取了动作

后，获取到

时刻的观测

；

步骤505、将

时刻的虚拟机器人集群的估计值

和系统状态特征图

输入值分解网络

，计算

时刻的全局估计值

：

其中，

为与

时刻的系统状态特征

相关的常数，

为多头注意力机制的头数，

为多头注意力机制中来自不同头部的

值分配权重，

为值分解网络

对第

个虚拟机器人的值估计网络

进行分解时第

阶的系数

，均由

生成，其中，

为

第

阶的微元；

步骤506、计算损失函数：

其中，

为批量大小，

为特征提取网络、值估计网络及值分解网络组成的整体

函数，

为网络参数，

为目标网络参数，

为折扣系数，

与

为第

条序列中

时刻与

时刻虚拟机器人集群选择的联合动作集，

与

为第

条序列中

时刻与

时刻的系统状态，

与

为第

条序列中

时刻与

时刻为虚拟机器人集群的动作观测历史；

的整数倍时，将目标网络的参数与当前网络同步；

。

在所述的步骤6中，虚拟目标场景包括探索与搜寻场景，虚拟机器人为虚拟推进机器人、虚拟起重机器人或虚拟抛投机器人。

综上所述，本发明使用多头注意力机制学习全局状态价值函数，在解决复杂的可分解问题时有着更好的性能，在虚拟机器人动作空间大、场景复杂的情况下表现更好；

本发明改进后的学习方法能适应输入为向量或图像、元组或序列等不同情况，泛化能力强，适应范围广，且收敛速度更快，效果更好。

在本发明的一个实施例中，如图3所示，在机器人集群仿真平台中搭建了探寻的虚拟目标场景，放置了4个虚拟起重机器人1和8个目标物体2，设置了虚拟目标场景的边界4使虚拟机器人能在固定区域内运动，确定了目标区域3为虚拟机器人将目标物体2送至的区域，并且在虚拟目标场景中设置了障碍物，以此模拟虚拟机器人集群探寻物体并送到指定位置。根据本发明提供的基于多智能体深度强化学习的多机探寻方法，4个虚拟起重机器人1组成的虚拟机器人集群根据神经网络输出的动作与环境进行交互，获取序列形式的经验储存在经验回放缓存中，在训练时取出对网络参数进行迭代优化，使4个虚拟起重机器人1组成的虚拟机器人集群完成搜寻任务的效率不断提升。训练完成后，将训练好的神经网络部署在真实目标场景的4个真实起重机器人上，使得真实目标场景的4个真实起重机器人可以在相似的、有障碍物的、物体可识别的真实场景中探寻物体并送到指定位置，实现由仿真环境向真实环境的迁移，并通过搭建多种不同虚拟机器人集群、不同物体、不同障碍物的虚拟目标场景使得虚拟机器人集群可以面对不同真实目标场景都能很好完成任务，如家庭服务、火场救援等，具有一定的泛化能力。

本发明还提供一种基于多智能体深度强化学习的多机探寻系统，如图2所示，包括：

一种基于多智能体深度强化学习的多机探寻设备，包括处理器和用于存储能够在处理器上运行的计算机程序的存储器，所述处理器用于运行计算机程序时，执行上述任一项所述基于多智能体深度强化学习的多机探寻方法的步骤。

本发明实施例中的存储器用于存储各种类型的数据以支持基于多智能体深度强化学习的多机探寻设备的操作。这些数据的示例包括：用于在基于多智能体深度强化学习的多机探寻设备上操作的任何计算机程序。

本发明实施例揭示的基于多智能体深度强化学习的多机探寻方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，基于多智能体深度强化学习的多机探寻方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(DSP，Digital SignalProcessor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成本发明实施例提供的基于多智能体深度强化学习的多机探寻方法的步骤。

在示例性实施例中，基于多智能体深度强化学习的多机探寻设备可以被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，ComplexProgrammable LogicDevice)、FPGA、通用处理器、控制器、微控制器(MCU，MicroController Unit)、微处理器(Microprocessor)、或者其他电子元件实现，用于执行前述方法。

可以理解，存储器可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，RandomAccessMemory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM，Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM，SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random AccessMemory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random AccessMemory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本发明还提供一种计算机存储介质，所述计算机存储介质中存储有计算机程序，所述计算机程序被处理器执行时，实现上述任一项基于多智能体深度强化学习的多机探寻方法的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。