CN112215350A

CN112215350A - 一种基于强化学习的智能体控制方法及装置

Info

Publication number: CN112215350A
Application number: CN202010978786.XA
Authority: CN
Inventors: 史殿习; 姜浩; 薛超; 康颖; 金松昌; 郝锋; 秦伟
Original assignee: Tianjin (binhai) Intelligence Military-Civil Integration Innovation Center
Current assignee: Tianjin (binhai) Intelligence Military-Civil Integration Innovation Center
Priority date: 2020-09-17
Filing date: 2020-09-17
Publication date: 2021-01-12
Anticipated expiration: 2040-09-17
Also published as: CN112215350B

Abstract

本发明涉及一种基于强化学习的智能体控制方法及装置，包括：获取智能体的当前局部观察；将所述智能体的当前局部观察作为强化学习模型的输入，获取所述强化学习模型输出的智能体的当前执行动作；控制智能体执行所述智能体的当前执行动作；本发明提供的技术方案，能够有效的简化在大规模多智能系统中策略学习过程，并且易于智能体数量和种类的拓展，具有在大规模真实世界应用的潜在价值。

Description

一种基于强化学习的智能体控制方法及装置

技术领域

本发明涉及多智能体协同控制领域，具体涉及一种基于强化学习的智能体控制方法及装置。

背景技术

近年来，深度强化学习的迅速发展使研究者们对多智能体强化学习产生了极大的兴趣，希望它能解决复杂的、大规模的问题，如车辆自动驾驶、资源分配、群体机器人、人机交互等。目前在多智能体强化学习已经取得了一定的研究成果，如通信和自然语言处理、多智能体游戏、交通控制、社交困境等。同时越来越多的研究者开始关注大规模多智能体强化学习的研究。在大规模的多智能体系统中，大量具有不同目标的智能体，以及智能体之间复杂的交互，对策略学习过程提出了很大的挑战。因此，简化学习过程是一个重要的研究领域。以往的工作主要集中在松散耦合的多智能体系统，并采用博弈抽象和知识转移等技术来帮助加速多智能体强化学习。然而，在大规模的多智能体环境中，智能体通常与其他一些智能体相关，而不是独立的，这使得之前学习的单智能体知识的使用受到限制。

最近的工作要是通过预定义的规则(如智能体之间的距离或通信)来实现博弈抽象。然而，在复杂的大规模智能体系统中，同一目标智能体与不同目标智能体之间存在着不同类型的交互关系，很难用距离或通信来描述和简化系统中智能体之间复杂的交互关系。在大规模智能体系统中，合作策略学习的关键在于学习智能体之间的交互作用。最近的工作主要有采用“学习-共识方法”和“学习-交流方法”两种方法来学习智能体“我”和所有其他智能体的重要性分布，期望直接学习智能体“我”与所有其他智能体的合作策略。

马尔科夫决策过程(Markov Decision Process,MDP)是强化学习问题在数学上的理想化形式，也是一种通过交互式学习来实现目标的理论框架。通常将进行学习以及实施决策的机器人称为智能体，智能体之外所有与之相互作用的事物称为环境。智能体选择动作，环境对这些动作做出相应的回馈，并且向智能体呈现一个新的状态。同时环境也会产生一个收益(也就是奖励)，这个奖励就是智能体在选择动作过程中想要最大化的目标。该系列决策过程可以建模成MDP。

许多多智能体方法关注于推导出智能体的去中心化策略(演员actor)，每一种方法都将一个智能体的局部观察映射到它的个体行动。为了实现这些单独选择动作的智能体之间的协作，这些方法首先构造一个全局奖励或单个奖励的集中式批评者(critic)，然后使用集中式批评者推导出分散的演员(actor)。神经信息处理系统大会(NIPS 2017)上发表的文章MADDPG是行为者-批评者模型的扩展，适用于混合合作-竞争环境。美国人工智能协会(AAAI 2018)上发表的论文《Counterfactual Multi-Agent Policy Gradients》被提出来用于解决合作场景下的信用分配问题。

在合作环境中的去中心化策略中，许多其他的方法使用智能体之间的通信。在这个框架中，每个智能体学习如何向其他智能体发送消息，并处理从其他智能体收到的消息以决定一个单独的行动。在集中训练阶段，学习这种消息生成和处理程序，以诱导代理之间的合作。在执行阶段，代理之间交换消息以确定自己的行动。神经信息处理系统大会(NIPS2016)上发表的文章CommNet使用一个大型的单一神经网络来处理全局所有代理传送的所有消息，处理后的消息用于引导所有代理合作。阿里巴巴团队提出的方法BiCNet基于行为者-批评者模型的连续行动，使用递归网络将每个智能体的策略和价值网络连接起来。

QMIX学习了一个单调的多智能体价值近似函数Q_tot。QMIX将联合行动值Q_tot因式分解为每个智能体的单调非线性组合，每个智能体通过混合网络学习的单个价值Q_i。由参数网络产生的非负权重的混合网络负责将智能体所选动作的等效成Q_tot(s,a)。该分解可以实现高效的、可牵引的最大化，因为它可以在去中心化的策略中线性地执行，也可以轻松地进行去中心化。在学习过程中，QMIX代理使用贪婪探索来确保足够的探索。

尽管目前研究者提出了很多用来简化策略学习的过程，提高策略的性能的算法。但是在大规模多智能体环境中，尤其是智能体种类很多的环境中，算法效果仍然有限。寻找一种能够有效简化策略学习过程，有效降低智能体之间交互关系的复杂性的方法是解决该问题的有效技术。

发明内容

针对现有技术的不足，本发明的目的是提供一种既能够有效在简化策略学习过程，又能够易于智能体数量和种类的拓展且具有在大规模真实世界应用的潜在价值的智能体控制方法及装置。

本发明的目的是采用下述技术方案实现的：

本发明提供了一种基于强化学习的智能体控制方法，其改进之处在于，所述方法包括：

获取智能体的当前局部观察；

将所述智能体的当前局部观察作为强化学习模型的输入，获取所述强化学习模型输出的智能体的当前执行动作；

控制智能体执行所述智能体的当前执行动作。

优选的，所述强化学习模型采用Actor-Critic构架，所述Actor-Critic构架由估计Actor网络、目标Actor网络、估计Critic网络和目标Critic网络组成。

进一步的，采用反向传播算法更新所述Actor-Critic构架的网络参数。

进一步的，所述估计Critic网络或目标Critic网络计算联合价值Q_tot的过程包括：

以智能体的属性和目标任务为特征，采用聚类算法对智能体群中的智能体进行分组；

基于各组内智能体的当前局部观察和当前执行动作确定各组智能体的联合价值；

基于各组智能体的联合价值确定智能体群中所有智能体的联合价值。

进一步的，所述基于各组内智能体的当前局部观察和当前执行动作确定各组智能体的联合价值，包括：

通过全连接层将第k组中第i个智能体的当前局部观察

和当前执行动作

编码为第k组中第i个智能体的低级认知

将第k组中第i个智能体的低级认知

以及第k组中其他智能体的低级认知

作为长短时记忆网络的输入，获取所述长短时记忆网络输出的第k组中第i个智能体的高级认知

基于第k组中各智能体的高级认知确定第k组的高级认知V^k；

将第k组智能体的高级认知V^k作为双向长短时记忆网络的输入，获取所述双向长短时记忆网络输出的第k组智能体的联合价值

其中，

i∈[1，N^k]，k∈[1，K]，N^k为第k组中智能体的总数，K为智能体总组数。

进一步的，所述基于各组智能体的联合价值确定智能体群中所有智能体的联合价值，包括：

将智能体群中所有智能体的全局观察作为第一前馈神经网络的输入，获取所述第一前馈神经网络输出的第一矩阵；

将智能体群中各组智能体的联合价值作为第二前馈神经网络的输入，获取所述第二前馈神经网络输出的第二矩阵；

将所述第一矩阵和第二矩阵相乘，获取智能体群中所有智能体的联合价值Q_tot。

进一步的，每个智能体使用其各自对应的估计Actor网络和目标Actor网络，智能体群中所有智能体共用一个估计Critic网络和一个目标Critic网络。

基于同一发明构思，本发明还提供了一种基于强化学习的智能体控制装置，其改进之处在于，所述装置包括：

获取模块，用于获取智能体的当前局部观察；

分析模块，用于将所述智能体的当前局部观察作为强化学习模型的输入，获取所述强化学习模型输出的智能体的当前执行动作；

控制模块，用于控制智能体执行所述智能体的当前执行动作。

与最接近的现有技术相比，本发明具有的有益效果：

本发明提供的技术方案，首先获取智能体的当前局部观察，其次，将所述智能体的当前局部观察作为强化学习模型的输入，获取所述强化学习模型输出的智能体的当前执行动作，最后，控制智能体执行所述智能体的当前执行动作；该方案，能够有效的简化在大规模多智能系统中策略学习过程，并且易于智能体数量和种类的拓展，具有在大规模真实世界应用的潜在价值。

进一步的，该方案中使用了改进的强化学习模型，模型中的Critic网络首先基于智能体目标或属性对智能体进行分组；构建双层抽象网络提取智能体对环境的高级认知，实现小组认知一致性；构建一个通信编码器来说实现各个小组智能体之间的协调，最后利用价值分解的方法进一步加强各个小组的合作。能够在复杂多智能体系统中能够降低智能交互复杂度，简化策略学习过程，有效的提高策略的性能。

附图说明

图1是本发明的一种基于强化学习的智能体控制方法流程图；

图2是本发明实施例中估计Critic网络或目标Critic网络的结构示意图；

图3是本发明实施例中我方无人机群在不同控制方法下场景1中的平均胜率结果示意图；

图4是本发明实施例中我方无人机群在不同控制方法下场景2中的平均胜率结果示意图；

图5是本发明实施例中我方无人机群在不同控制方法下场景3中的平均胜率结果示意图；

图6是本发明实施例中我方无人机群在不同控制方法下场景1、2和3中战胜敌方无人机群的胜率结果示意图；

图7是本发明实施例中以GHGC控制的我方无人机群对战不同控制方法控制的敌方无人机群得到的归一化的奖励结果示意图；

图8是本发明实施例中我方无人机群在不同控制方法下场景1中的平均胜率结果示意图；

图9是本发明实施例中我方无人机群在不同控制方法下场景2中的平均胜率结果示意图；

图10是本发明实施例中我方无人机群在不同控制方法下场景3中的平均胜率结果示意图；

图11是本发明实施例中我方无人机群在不同控制方法下场景1、2和3中战胜敌方无人机群的胜率结果示意图；

图12是本发明实施例中以GHGC控制的我方无人机群对战不同控制方法控制的敌方无人机群得到的归一化的奖励结果示意图；

图13是一种基于强化学习的智能体控制装置的结构示意图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步的详细说明。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在多智能体协同控制领域，为了达到有效简化策略学习过程，降低智能体之间交互关系的复杂性的目的，本发明提供了一种基于强化学习的智能体控制方法，如图1所示，所述方法包括：

101获取智能体的当前局部观察；

102将所述智能体的当前局部观察作为强化学习模型的输入，获取所述强化学习模型输出的智能体的当前执行动作；

103控制智能体执行所述智能体的当前执行动作。

其中，所述强化学习模型采用Actor-Critic构架，所述Actor-Critic构架由估计Actor网络、目标Actor网络、估计Critic网络和目标Critic网络组成；该结构是DDPG算法的基础结构，每个智能体使用其各自对应的估计Actor网络和目标Actor网络，智能体群中所有智能体共用一个估计Critic网络和一个目标Critic网络；

Critic网络用来指导Actor网络的更新。估计网络和目标网络的更新频率不一致，即目标网络更新慢，估计网络更新快。在网络训练的时候只需要训练估计Actor网络和估计Critic网络的参数，而目标Actor网络和目标Critic网络的参数是由前面两个估计网络每隔一定的时间复制过去。每个Critic网络的网络结构主要包含三个部分，分别是双层抽络部分，通信编码部分和混合网络部分。

为提高采样数据的利用率，将在线学习变成离线学习，本发明提供的最优实施例中还提供了一个记忆回放池，回放池中存放每个智能体与环境交互过程中产生的历史信息。为了固定策略，使用更新较慢的目标网络来保存估计网络当前时刻的参数。因此目标网络的结构与估计网络完全相同，且其参数是由估计网络隔一段预设时间软更新复制过来。这样在预设时间内，网络就可以一直用当前采样的数据进行训练，而不需要时刻重新采样数据。

本发明提供的最优实施例中，可以采用反向传播算法更新所述Actor-Critic构架的网络参数。

进一步的，本发明提供的最优实施例中，所述估计Critic网络或目标Critic网络计算联合价值Q_tot的过程，如图2所示，包括：

以智能体的属性和目标任务为特征，采用聚类算法对智能体群中的智能体进行分组，其中，本发明提供的最优实施例中，所述智能体的属性可以为智能体的型号和类别；

其中，所述基于各组内智能体的当前局部观察和当前执行动作确定各组智能体的联合价值的目的是为了实现小组认知一致性，在部分可观察的情况下，智能体对环境有着不一样的认知。在此本发明将这种认知定义为：智能体对局部环境的理解。它包括同一小组中所有智能体的观察结果，以及从这些观察结果中提取的高级知识(例如，通过深度神经网络学习的知识)。智能体对环境保持一致认知对于实现有效的系统级合作至关重要。相反，当智能体对环境的认知没有达成共识的时候，很难保证智能体之间能用良好的合作。为保证小组认知一致性，步骤如下：

通过全连接层将第k组中第i个智能体的当前局部观察

和当前执行动作

编码为第k组中第i个智能体的低级认知

将第k组中第i个智能体的低级认知

以及第k组中其他智能体的低级认知

基于第k组中各智能体的高级认知确定第k组的高级认知V^k；

其中，

进一步的，为了进一步加强各小组间的合作，本发明基于各组智能体的联合价值确定智能体群中所有智能体的联合价值，包括：

为了实现单调，本发明使用ReLU函数保证前馈神经网络的权重(而不是ReLU偏差)被限制为非负数。这使前馈神经网络可以任意近似地逼近任何单调函数；

基于上述方案，本发明提供了一种基于强化学习的智能体控制方法的最优实施例，具体包括：构建包含无人机合作对抗下的强化学习控制的模拟场景，其中，如表1所示，场景1、场景2和场景3分别为在相同地图对应区域中设置我方2架干扰机和3架战斗机以及敌方2架干扰机和3架战斗机进行对战、设置我方3架干扰机和5架战斗机以及敌方3架干扰机和5架战斗机进行对战以及设置我方5架干扰机和7架战斗机以及敌方5架干扰机和7架战斗机进行对战，如表2所示，场景4、场景5和场景6分别为在相同地图对应区域中设置我方2架干扰机和2架战斗机以及敌方2架干扰机和2架战斗机进行对战、设置我方2架干扰机、2架战斗机和2架侦查机以及敌方2架干扰机、2架战斗机和2架侦查机进行对战、设置我方2架干扰机、2架战斗机、2架侦查机和2架隐形战斗机以及敌方2架干扰机、2架战斗机、2架侦查机和2架隐形战斗机进行对战；各无人机的简要介绍如表2所示：

表1

场景1	3战斗机，2干扰机	3战斗机，2干扰机	对战
				场景2	5战斗机，3干扰机	5战斗机，3干扰机	对战
场景3	7战斗机，5干扰机	7战斗机，5干扰机	对战

表2

表3

为了验证本发明提供的基于强化学习的智能体控制方法(GHGC)是否易于智能数量的拓展，本发明提供的最优实施例中在上述场景1、2和3中，利用本发明提供的基于强化学习的智能体控制方法(GHGC)、现有技术中基于深度多智能体强化学习的单调值函数分解方法(QMIX)、美国人工智能协会(AAAI 2018)上发表的论文提出的反事实梯度下降方法(COMA)以及阿里巴巴团队提出的多智能体双向协调网络方法(BiCNet)分别控制我方无人机群，利用基于规则的控制方法控制敌方无人机群，最终得到我方无人机群在不同控制方法下场景1中的平均胜率如图3所示，我方无人机群在不同控制方法下场景2中的平均胜率如图4所示，我方无人机群在不同控制方法下场景3中的平均胜率如图5所示，我方无人机群在不同控制方法下场景1、2和3中战胜敌方无人机群的胜率，如图6所示；

进一步的，在场景1、2和3中分别以GHGC控制的我方无人机群对战以QMIX控制的敌方无人机群、以GHGC控制的我方无人机群对战以COMA控制的敌方无人机群以及以GHGC控制的我方无人机群对战以BiCNet控制的敌方无人机群得到的归一化的奖励如图7所示；

基于上述实验结果可以看出，相比于基准算法，本发明提供的基于强化学习的智能体控制方法(GHGC)要比基准算法更易于智能体数量的拓展，随着智能体数量的增加，也能够保证较高的胜率；

为了验证本发明提供的基于强化学习的智能体控制方法(GHGC)是否易于智能种类的拓展，本发明提供的最优实施例中在上述场景4、5和6中，利用本发明提供的基于强化学习的智能体控制方法(GHGC)、现有技术中基于深度多智能体强化学习的单调值函数分解方法(QMIX)、美国人工智能协会(AAAI 2018)上发表的论文提出的反事实梯度下降方法(COMA)以及阿里巴巴团队提出的多智能体双向协调网络方法(BiCNet)分别控制我方无人机群，利用基于规则的控制方法控制敌方无人机群，最终得到我方无人机群在不同控制方法下场景4中的平均胜率如图8所示，我方无人机群在不同控制方法下场景5中的平均胜率如图9所示，我方无人机群在不同控制方法下场景6中的平均胜率如图10所示，我方无人机群在不同控制方法下场景4、5和6中战胜敌方无人机群的胜率，如图11所示；

进一步的，在场景4、5和6中分别以GHGC控制的我方无人机群对战以QMIX控制的敌方无人机群、以GHGC控制的我方无人机群对战以COMA控制的敌方无人机群以及以GHGC控制的我方无人机群对战以BiCNet控制的敌方无人机群得到的归一化的奖励如图12所示；

基于上述实验结果可以看出，相比于基准算法，本发明提供的基于强化学习的智能体控制方法(GHGC)随着智能体种类的增加，也能够保证较高的胜率。

上述实验过程中，实验设备为台式电脑，搭载因特尔i7-8700处理器，处理器频率为3.20GHz，RAM大小为32GB，显卡为Nvidia GTX 1050G大小为4GB，实验系统为乌班图16.04版本。首先基于无人机对战环境进行测试，环境参数使用默认设定。该环境是多智能体强化学习算法常用的测试环境。地图分别由盟军和敌军组成，盟军(称为智能体)利用本发明提供方法控制，而敌方部队则由内置的手工AI控制。每个智能体都有几个属性来描述，包括生命值(HP)，武器冷却(CD)，部队类型，最后行动以及被观察部队的相对距离。除排除CD外，其他方法相同。对智能体的部分观察是由单位的属性组成的，包括盟军单位和敌方单位，这些属性显示在其具有一定半径的圆的视线范围内。行动空间包含4个移动方向，进攻行动，其中固定敌方单位在地图中的最大数量，停止和不进行操作。输入维度和输出动作维度在智能体和敌方单位上以一定顺序固定。死亡的敌方单位将从行动空间中被掩盖，以确保执行的行动有效。在每个时间步长，智能体都会收到联合团队奖励，这是由智能体的总伤害和敌方的总伤害定义的。

基于同一发明构思，本发明还提供了一种基于强化学习的智能体控制装置，如图13所示，所述装置包括：

获取模块，用于获取智能体的当前局部观察；

通过全连接层将第k组中第i个智能体的当前局部观察

和当前执行动作

编码为第k组中第i个智能体的低级认知

将第k组中第i个智能体的低级认知

以及第k组中其他智能体的低级认知

基于第k组中各智能体的高级认知确定第k组的高级认知V^k；

其中，

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于强化学习的智能体控制方法，其特征在于，所述方法包括：

获取智能体的当前局部观察；

控制智能体执行所述智能体的当前执行动作。

2.如权利要求1所述的方法，其特征在于，所述强化学习模型采用Actor-Critic构架，所述Actor-Critic构架由估计Actor网络、目标Actor网络、估计Critic网络和目标Critic网络组成。

3.如权利要求2所述的方法，其特征在于，采用反向传播算法更新所述Actor-Critic构架的网络参数。

4.如权利要求2所述的方法，其特征在于，所述估计Critic网络或目标Critic网络计算联合价值Q_tot的过程包括：

5.如权利要求4所述的方法，其特征在于，所述基于各组内智能体的当前局部观察和当前执行动作确定各组智能体的联合价值，包括：

通过全连接层将第k组中第i个智能体的当前局部观察

和当前执行动作

编码为第k组中第i个智能体的低级认知

将第k组中第i个智能体的低级认知

以及第k组中其他智能体的低级认知

基于第k组中各智能体的高级认知确定第k组的高级认知V^k；

其中，

6.如权利要求4所述的方法，其特征在于，所述基于各组智能体的联合价值确定智能体群中所有智能体的联合价值，包括：

7.如权利要求3所述的方法，其特征在于，每个智能体使用其各自对应的估计Actor网络和目标Actor网络，智能体群中所有智能体共用一个估计Critic网络和一个目标Critic网络。

8.一种基于强化学习的智能体控制装置，其特征在于，所述装置包括：

获取模块，用于获取智能体的当前局部观察；

9.如权利要求8所述的装置，其特征在于，所述强化学习模型采用Actor-Critic构架，所述Actor-Critic构架由估计Actor网络、目标Actor网络、估计Critic网络和目标Critic网络组成。

10.如权利要求9所述的装置，其特征在于，采用反向传播算法更新所述Actor-Critic构架的网络参数。