CN113887708A

CN113887708A - 基于平均场的多智能体学习方法、存储介质及电子设备

Info

Publication number: CN113887708A
Application number: CN202111244170.0A
Authority: CN
Inventors: 洪万福; 黄勇; 奚少星
Original assignee: Xiamen Yuanting Information Technology Co ltd
Current assignee: Xiamen Yuanting Information Technology Co ltd
Priority date: 2021-10-26
Filing date: 2021-10-26
Publication date: 2022-01-04

Abstract

本发明提供一种基于平均场的多智能体学习方法、存储介质及电子设备，所述方法包括：从智能体仿真环境中获取各智能体当前环境对各智能体的反馈信息；将数据存入数据采样缓存器；对多智能体动作进行平均场估计；将每个智能体的动作进行联合，生成联合动作空间

对当前智能体和联合动作空间做平均场估计得到虚拟平均智能体

取代双边交互的其余智能体集合N(j)；基于多智能体强化学习的神经网络的策略学习器。本方法基于强化学习解决多智能体难以精确控制，难以适应复杂环境等现实问题，并基于平均场理论对多智能体的动作进行平均场估计，解决了大规模多智能体之间交互复杂、维度灾难、无法集群应用等问题。

Description

基于平均场的多智能体学习方法、存储介质及电子设备

技术领域

本发明涉及强化学习及平均场领域，尤其涉及一种基于平均场的多智能体学习方法、存储介质及电子设备。

背景技术

随着信息技术的快速发展，现实场景中的很多问题都逐渐可以使用控制多智能体协同去完成。大规模的多智能体组合，更适用一些复杂场景且降低人们危险系数并能够有效的控制成本。仿真技术的不断成熟，使得模拟真实场景越来越可行。算力的提升使得人们实现了使用强化学习训练。但当前的大规模智能体协同合作，受到环境复杂度，动作数量尤其是大数量级交互的制约，不论是模拟效果还是实际应用效果都有待提升，因此大规模多智能体协同执行任务，成为近期的研究热点。

传统的大规模智能体，在多智能体协同时，每个智能体作为中心智能体分别和周边的智能体进行交互，当周边智能体数量众多时，中心智能体会因承载运算量过大而发生过载损坏的风险，从而导致整个大规模智能体发生失控的风险。

发明内容

为克服上述的技术缺陷(不足)，本发明的目的是提供了一种多智能体强化学习方法，以解决大规模智能体协同时，每个智能体作为中心智能体需要和周边智能体进行交互，中心智能体因承载运算量过大而发生过载损坏的风险，从而导致整个大规模智能体发生失控风险的问题。

本申请第一方面提供了一种多智能体学习方法，包括以下步骤：

步骤S1、构建多智能体仿真环境，包括设置各个智能体及其状态信息，构建智能体动作状态空间和智能体奖励机制；

步骤S2、进行仿真，从仿真环境获取各智能体的经验数据，所述经验数据包括各智能体的状态信息、动作和奖励值；

步骤S3、将所述经验数据存放入数据采样缓存器；

步骤S4、对当前智能体的周边智能体的动作进行平均场估计：将当前智能体的周边智能体的的动作进行联合，生成联合动作空间

取代双边交互的其余智能体集合N(j)；

步骤S5、构建多智能体强化学习的神经网络模型，通过训练和推演，完成神经网络模型训练。

进一步的，所述步骤S2中的经验数据的基本形式为

其中

与

分别表示智能体j当前时刻和下一时刻的状态特征、环境特征，

表示智能体j的当前动作，r_t为多智能体仿真环境反馈的联合奖励值。

进一步的，所述步骤S4具体包括：

(1)应用平均场理论，将大规模交互转化为局部双边交互，其公式为：

式中N(j)为智能体j的邻近智能体的序号集合，大小为N^j＝|N(j)|；

(2)应用平均场估计，将智能体j与每个邻近智能体k之间的所有双边交互，简化为中心智能体j与虚拟平均智能体之间的交互，公式中双边交互Q^j(s，a^j，a^k)转化为

其中

表示智能体j周边的虚拟平均智能体。

进一步的，所述步骤S5中的神经网络模型为CNN、RNN、LSTM、BiLSTM、GRU、Transformer中的一种。

进一步的，所述步骤S5中的损失函数为均方误差函数或交叉熵损失函数。

进一步的，所述步骤S5中的优化算法为梯度下降算法。

进一步的，所述步骤S5中的训练过程包括：

步骤S501、设定多智能体强化学习的神经网络模型；

步骤S502、设置损失函数；

步骤S503、设置优化算法；

步骤S504、按批次从数据采样缓存器提取各智能体的数据s，a，r，s′，

输入神经网络进行前向传播，其中s为智能体的当前状态，s′为智能体的下一状态，r为智能体得到的联合奖励值，

为智能体周边的虚拟平均智能体；

步骤S505、通过损失函数计算损失，该损失通过优化算法的梯度进行反向传播，更新网络权重；

步骤S506、迭代N次，迭代完成后保存网络权重。

进一步的，所述步骤S5中的推演过程，具体包括：

(1)根据离线训练过程中的设定，设定推演过程的神经网络、损失函数和优化算法；

(2)按批次提取动作、状态、联合奖励和平均动作输入神经网络进行前向传播，得到动作结果。

本申请实施例第二方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请第一方面所述的基于平均场的多智能体学习方法中的步骤。

本申请实施例第三方面提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现本申请第一方面所述的基于平均场的多智能体学习方法中的步骤。

本申请的基于平均场的多智能体学习方法具有如下技术效果：

通过平均场理论把各智能体的周边智能体平均估计为单智能体，从而使各智能体与其周边智能体的平均智能体进行两两交互，即实现了交互也实现了降低交互复杂度，提升了大规模多智能体的协同效果。

附图说明

图1是本发明的基于平均场的多智能体学习方法框架图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

参考图1所示，本发明公开了一种基于平均场的多智能体学习方法，包括以下步骤：

步骤S1、构建多智能体仿真环境，设置环境信息、各智能体的状态信息、智能体动作状态空间及设置智能体奖励机制。

在现实生活中，很多任务往往需要多个智能体通过协作才能完成，例如物流机器人、无人驾驶、大型即时战略游戏等，这种需要通过多个智能体协作才能完成任务的系统称为多智能体系统，即多智能体。例如多无人机对抗场景构成一个多智能体，其中的每一个无人机为一个智能体。其中，智能体状态信息包括：无人机的当前飞行速度、当前高度、翻转角度、加速度、是否被锁定等，智能体动作状态空间包括打击、跟随、巡航等，智能体奖励机制包括命中得分、躲避得分等。

步骤S2、进行仿真，从仿真环境获取各智能体的经验数据，所述经验数据包括各智能体的状态信息、动作和奖励值。

在本实施例中，提取多智能体仿真环境中每个智能体当前的状态信息构成每个智能体当前的状态特征，表现形式为数据向量；提取以智能体为中心的环境信息构成每个智能体当前的环境特征，表现形式为数据向量；提取当前环境对各智能体反馈的奖励值。

将上述数据整合形成经验数据，所述经验数据的基本形式为

其中

与

表示智能体j当前时刻(t时刻)和下一时刻(t+1时刻)的状态特征、环境特征，

表示智能体j的当前动作，r_t为多智能体仿真环境反馈的奖励值。

步骤S3、将多智能体仿真环境中每个周期产生的经验数据存入数据采样缓存器(RB)中。

在本实施例中，会根据GPU、CPU和神经网络训练资源消耗情况，选定多少个周期作为一次训练的批次大小。

步骤S3、对多智能体动作进行平均场估计，将每个智能体的动作进行联合，生成联合动作空间

取代双边交互的其余智能体集合N(j)。

在本实施例中，步骤S4具体包括：

式中N(j)为智能体j邻近智能体的序号集合，大小为N^j＝|N(j)|；

其中

代表了智能体j周边的虚拟平均智能体的动作。

步骤S5、构建多智能体强化学习的神经网络模型，进行离线训练和推演，从而验证该神经网络模型训练的成熟度和准确性。

其中离线训练过程为：

步骤S501、设定多智能体强化学习的神经网络模型，该神经网络模型可以是CNN(卷积神经网络)、RNN(循环神经网络)、LSTM(长短时记忆网络)、BiLSTM(双向长短时记忆网络)、GRU(门控循环网络)或Transformer(双向编码器表示模型)等。

步骤S502、设置损失函数，所述损失函数可以是均方误差、交叉熵损失等函数；如采用均方误差函数，则损失函数表示为

步骤S503、设置优化算法，所述优化算法可以是SGD算法(随机梯度下降)、Adam算法等梯度下降算法；

步骤S504、按批次提取动作、状态、联合奖励和平均动作(即步骤S2和步骤S3获得的各智能体的经验数据

和虚拟平均智能体的动作

)输入神经网络进行前向传播。

在具体实施时，步骤S504包括以下步骤：

(1)将各智能体的经验数据输入至神经网络中的策略网络，得到智能体当前的策略网络总特征；

(2)在神经网络模型中，策略网络之后连接有一层全连接层，在全连接层上施加有softmax函数，给出动作值的概率；

(3)依据所述动作值的概率进行动作选择。

步骤S505、通过损失函数计算损失，该损失通过优化算法的梯度进行反向传播，更新网络权重。

步骤S506、设定的最大训练轮数N；或以达到预期效果为迭代的既定目标，进行迭代，迭代完成后，保存网络权重。

其中，网络权重主要包括：权重W、偏置、Dropout等参数。

其中推演过程(神经网络模型评价)为：

(1)根据离线训练过程中的设定，设定推演过程的神经网络模型、损失函数、优化算法和网络权重；

(2)按批次提取动作、状态、联合奖励和平均动作输入神经网络进行前向传播，得到动作结果。通过对动作结果的评估，可以评价大规模多智能体的协同效果。

在本实施例中，通过平均场理论把各智能体的周边智能体平均估计为单智能体，从而使各智能体与其周边智能体的平均智能体进行两两交互，即实现了交互也实现了降低交互复杂度，提升了大规模多智能体的协同效果。

基于同一发明构思，本申请另一实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请上述任一实施例所述的方法中的步骤。

基于同一发明构思，本申请另一实施例提供一种电子设备。该电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现本申请上述任一实施例所述的方法中的步骤。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器、半导体存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。