CN109617968A

CN109617968A - 多智能体协作系统及其智能体、智能体间的通信方法

Info

Publication number: CN109617968A
Application number: CN201811536781.0A
Authority: CN
Inventors: 彭鹏
Original assignee: Qiyuan World (beijing) Information Technology Service Co Ltd
Current assignee: Qiyuan World (beijing) Information Technology Service Co Ltd
Priority date: 2018-12-14
Filing date: 2018-12-14
Publication date: 2019-04-12
Anticipated expiration: 2038-12-14
Also published as: CN109617968B

Abstract

本发明属于人工智能技术领域，其公开了一种多智能体协作系统及其智能体、智能体间的通信方法。通信方法包括第一智能体通过经强化学习训练的深度神经网络对接收的第二协作消息和从环境中获取的状态进行处理，得到第一智能体执行的动作和通信对象，第二协作消息由至少一个第二智能体发送；根据第二协作消息和状态得到第一协作消息；向通信对象发送第一协作消息；通信对象包括至少一个第二智能体。智能体包括第一得到模块、第二得到模块和发送模块。多智能体协作系统包括多个智能体，智能体为上述智能体。本发明通过上述技术方案避免了多智能体协作系统中各智能体间通信时过高的通信负荷，降低了通信开销，加强了载有协作消息信号传输的针对性。

Description

多智能体协作系统及其智能体、智能体间的通信方法

技术领域

本发明属于人工智能技术领域，特别涉及一种多智能体协作系统及其智能体、智能体间的通信方法。

背景技术

MAS(Multi-Agent System，多智能体系统)是指能够协调控制多个智能体(Agent)进行决策的系统。在该系统中，智能体一方面通过与环境进行交互，根据所获取的环境状态进行决策；另一方面，根据交互所产生的数据对自身的模型进行训练以不断提高智能体的决策能力。该系统中的智能体是指能够在限定环境和动作空间中进行自主决策的单位，其可以是物理的实体，如机器人、飞行器；还可以是抽象的实体，如虚拟游戏中的角色。多智能体协作系统是一种特定的多智能体系统，在该系统中，多个智能体共享相同的目标，通过分工协作的方式来解决复杂的问题或来完成为其设定的复杂任务。为了实现分工协作，智能体间需进行通信以交换信息。

现有技术中，智能体间通信的方法包括：P2P(Peer to Peer，点到点)通信方法、基于广播的通信方法、基于平均场理论的通信方法和基于连通图的通信方法。在前述几种通信方法中，当系统中某个智能体发送信息时，接收该信息的智能体，即作为该智能体通信对象的智能体由该通信方法预先确定，如此使得通讯开销较高，降低了通信性能。

发明内容

为了解决上述问题，本发明一方面提供了一种多智能体协作系统中智能体间的通信方法，其包括：第一智能体通过经强化学习训练的深度神经网络对接收的第二协作消息和从环境中获取的状态进行处理，得到所述第一智能体执行的动作和通信对象，所述第二协作消息由至少一个第二智能体发送；根据所述第二协作消息和所述状态得到第一协作消息；向所述通信对象发送所述第一协作消息；其中，所述通信对象包括至少一个所述第二智能体；所述第一协作消息和所述第二协作消息均是为达到所述多智能体协作系统目标的协作消息。

在如上所述的通信方法中，优选地，所述根据所述状态和所述第二协作消息得到第一协作消息，具体包括：通过所述深度神经网络对所述状态和第二协作消息进行处理，得到所述第一协作消息。

在如上所述的通信方法中，优选地，在所述第一智能体通过经强化学习训练的深度神经网络对接收的第二协作消息和从环境中获取的状态进行处理之前，所述通信方法还包括：根据所述第二智能体与所述第一智能体的相关关系，得到第一预通信对象；在所述第一智能体通过经强化学习训练的深度神经网络对接收的第二协作消息和从环境中获取的状态进行处理之后，得到所述第一智能体执行的通信对象之前，所述通信方法还包括：得到所述第一智能体的第二预通信对象；根据所述第一预通信对象和所述第二预通信对象的共有通信对象，得到所述第一智能体的通信对象；其中，所述第一预通信对象和所述第二预通信对象均至少包括一个所述第二智能体。

在如上所述的通信方法中，优选地，当所述相关关系为相对距离时，所述根据所述第二智能体与所述第一智能体的相关关系，得到第一预通信对象，具体包括：判断各个所述第二智能体与所述第一智能体之间的距离，若判断所述距离在预设距离阈值内，则与该距离对应的所述第二智能体属于所述第一预通信对象。

在如上所述的通信方法中，优选地，当所述相关关系为相对方向角度时，所述根据所述第二智能体与所述第一智能体的相关关系，得到第一预通信对象，具体包括：判断各个所述第二智能体相对于所述第一智能体的方向角度，若判断所述方向角度在预设角度阈值内，则与该方向角度对应的所述第二智能体属于所述第一预通信对象。

本发明另一方面提供了一种智能体，其包括：第一得到模块，用于通过经强化学习训练的深度神经网络对接收的第二协作消息和从环境中获取的状态进行处理，得到所述第一智能体执行的动作和通信对象，所述第二协作消息由至少一个第二智能体发送；第二得到模块，用于根据所述第二协作消息和所述状态得到第一协作消息；发送模块，用于向所述通信对象发送所述第一协作消息，其中，所述通信对象包括至少一个所述第二智能体；其中，所述第一协作消息和所述第二协作消息均是为达到所述多智能体协作系统目标的协作消息。

在如上所述的智能体中，优选地，所述第二得到模块具体用于：通过所述深度神经网络对所述状态和第二协作消息进行处理，得到所述第一协作消息。

在如上所述的智能体中，优选地，所述智能体还包括：第三得到模块，用于根据所述第二智能体与所述第一智能体的相关关系，得到第一预通信对象；对应地，所述第一得到模块，用于通过经强化学习训练的深度神经网络对接收的第二协作消息和从环境中获取的状态进行处理，得到所述第一智能体执行的动作和第二预通信对象；所述智能体还包括：第四得到模块，用于根据所述第一预通信对象和所述第二预通信对象的共有通信对象，得到所述第一智能体的通信对象；其中，所述第一预通信对象和所述第二预通信对象均至少包括一个所述第二智能体。

在如上所述的智能体中，优选地，当所述相关关系为相对距离时，所述第三得到模块具体用于：判断各个所述第二智能体与所述第一智能体之间的距离，若判断所述距离在预设距离阈值内，则与该距离对应的所述第二智能体属于所述第一预通信对象。

本发明又一方面提供了一种多智能体协作系统，其包括：多个智能体，所述智能体为上述的智能体。

本发明实施例提供的技术方案带来的有益效果是：

通过基于强化学习方法对多智能体协作系统中第一智能体的通信对象进行筛选，从而确定多智能体协作系统中哪些第二智能体作为第一智能体的通信对象，避免了多智能体协作系统中各智能体间通信时过高的通信负荷，降低了通信开销，加强了载有协作消息信号传输的针对性。

附图说明

图1为本发明一实施例提供的一种多智能体协作系统中智能体间的通信方法的流程示意图。

图2为本发明另一实施例提供的一种多智能体协作系统中智能体间的通信方法的流程示意图。

图3为本发明一实施例提供的一种多智能体协作系统中智能体间的通信拓扑结构示意图。

图4为本发明一实施例提供的一种智能体的结构示意图。

图5为本发明一实施例提供的另一种智能体的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

以下对本发明实施例涉及的一些技术术语进行解释。

环境和动作均为强化学习(Reinforcement Learning，RL)中涉及的技术术语。环境是指智能体执行动作时所处的场景，其与智能体发生交互，将环境的当前状态发送给智能体。动作是指智能体响应于该环境的当前状态执行的动作。

参见图1，本发明一实施例提供了一种多智能体协作系统中智能体间的通信方法，其包括如下步骤：

步骤101，第一智能体通过经强化学习训练的深度神经网络对从环境中获取的状态和接收的由第二智能体发送的第二协作消息进行处理，得到第一智能体执行的动作和通信对象。

具体地，第一智能体包含第一得到模块，该模块用于对接收的由至少一个第二智能体发送的第二协作消息和从环境中获取的状态进行处理，得到第一智能体执行的动作和通信对象。第一得到模块为基于深度神经网络结构的模块，其输入信息包括：状态和第二协作消息，输出信息包括：动作和通信对象。对第一得到模块的深度神经网络进行训练时，输入信息和输出信息与前述一样，分别为：状态和第二协作消息、动作和通信对象。训练该深度神经网络结构使用的是强化学习方法，在训练过程中可以使用随机梯度下降算法对深度神经网络的参数进行更新。为了避免冗余信号的传输，深度神经网络使用了注意力机制(attention mechanism)得到通信对象，应用中，注意力机制对应的是该深度神经网络结构中的一部分参数。通过使用强化学习训练该深度神经网络结构，其具有更快的收敛速度、更低的损失值和更高的奖励。

第二协作消息是指：为达到多智能体协作系统目标的协作消息，其由第二智能体处理得到并发送，比如可以由该第二智能体通过对接收的多智能体协作系统中除该第二智能体以外的其他智能体发送的协作消息和从环境中获取的状态进行处理得到，其他智能体可以为多智能体协作系统中除该第二智能体以外的全部智能体，还可以为多智能体协作系统中除该第二智能体以外的部分智能体，本实施例对此不进行限定。第一智能体接收的第二协作信息可以来自于一个第二智能体，还可以来自于多个第二智能体，本实施例对此不进行限定。通信对象是指将与第一智能体进行通信的第二智能体以接收第一智能体所发送的第一协作信息。以应用场景为多足球机器人进行足球比赛为例说明第一协作信息和第二协作信息的内容，各协作信息包括但不限于：智能体本身的动作(或称行为)、向其他智能体发送的控制指令、以固定数据结构且用机器语言表示的内容。

需要说明的是：第一智能体和第二智能体可以为多智能体协作系统中的任一智能体，在本实施例中，“第一”、“第二”不用于对智能体和协作消息进行排序，仅为了描述方便和区分发送方和接收方。第一智能体表示发送信息的智能体，即发送方，第二智能体表示接收第一智能体所发送信息的智能体，即接收方。在多智能体协作系统中，当其中一个智能体作为发送方时，其他剩余的智能体均作为预接收方。

步骤102，根据接收的由至少一个第二智能体发送的第二协作消息和从环境中获取的状态得到第一协作消息。

具体地，第一智能体根据从环境中获取的状态和接收的至少一个第二智能体发送的第二协作信息得到第一协作消息，如第一智能体通过自身具有的知识源和/或预设的规则处理得到。第一协作消息是指：为达到多智能体协作系统目标的协作消息，由第一智能体处理得到，并发送。

需要说明的是，本实施例不对步骤101和步骤102的顺序进行限定，可以是先执行步骤101，后执行步骤102；也可以先执行步骤102，后执行步骤101；还可以步骤101和步骤102同时进行。

在其他的实施例中，该步骤102具体包括：第一智能体通过深度神经网络对状态和第二协作消息进行处理，得到第一协作消息。结合步骤101，深度神经网络的输入信息包括：状态和第二协作消息，输出信息包括：动作、通信对象和第一协作信息。经此方法得到的第一协作信息是筛选后的第一协作信息，相对于，未经深度神经网络处理的第一协作信息，该第一协作信息具有针对性强的优点，使得强化学习效率高。

步骤103，向通信对象发送第一协作消息。

具体地，第一智能体向经步骤101所确定的通信对象发送第一协作消息。

本发明实施例通过基于强化学习方法对多智能体协作系统中第一智能体的通信对象进行筛选，从而确定多智能体协作系统中哪些第二智能体作为第一智能体的通信对象，避免了多智能体协作系统中各智能体间通信时过高的通信负荷，降低了通信开销，加强了载有协作消息信号传输的针对性。

参见图2，本发明另一实施例提供了一种多智能体协作系统中智能体间的通信方法，其包括如下步骤：

步骤201，根据第二智能体与第一智能体的相关关系，得到第一预通信对象。

具体地，相关关系包括但不限于：相对距离、相对方向角度和功能。第一预通信对象至少包括一个第二智能体。当相关关系为相对距离时，该步骤具体包括：判断各个第二智能体与第一智能体之间的距离，若某个第二智能体与第一智能体之间的距离在预设距离阈值内，则该第二智能体属于第一预通信对象。按照前述判断方法对所有的第二智能体进行判断，得到第一预通信对象包括哪些第二智能体。获取相对距离的方法如：基于超声波的测距方法、基于定位系统的测距方法和基于信号强度的测距方法。距离阈值可以根据不同的应用场景进行设定，本实施例对其具体数值不进行限定。该场景尤其适用于多智能体协作系统各智能体通信时需考虑通信延迟和信号强度因素的情况。

当相关关系为相对方向角度时，该步骤具体包括：判断各个第二智能体相对于第一智能体的方向角度，若某个第二智能体相对于第一智能体的方向角度在预设角度阈值内，则该第二智能体属于第一预通信对象。按照前述判断方法对所有的第二智能体进行判断，得到第一预通信对象包括哪些第二智能体。角度阈值可以根据不同的应用场景进行设定，本实施例对其具体数值不进行限定。该场景尤其适用于多智能体协作系统各智能体通信时需考虑智能体视角因素的情况。

当相关关系为功能时，该步骤具体包括：判断各个第二智能体的功能与第一智能体的功能是否相同，若某个第二智能体与第一智能体的功能相同，则该第二智能体属于第一预通信对象。按照前述判断方法对所有的第二智能体进行判断，得到第一预通信对象包括哪些第二智能体。该场景尤其适用于多智能体协作系统中各智能体通信时需考虑智能体功能是否相同因素的情况。

步骤202，第一智能体通过经强化学习训练的深度神经网络对接收的第二协作消息和从环境中获取的状态进行处理，得到第一智能体的动作和第二预通信对象。

关于该步骤的描述具体可参见上述实施例中步骤101的相关表述，仅需将步骤101中的“通信对象”替换成“第二预通信对象”，在此不再一一赘述。

步骤203，根据第一预通信对象和第二预通信对象的共有通信对象，得到第一智能体的通信对象。

具体的，判断第二智能体是否符合既属于第一预通信对象，又属于第二预通信对象，若判断为符合，则确定该第二智能体属于第一智能体的通信对象，以此判断方法对所有的第二智能体进行判断，得到第一智能体的通信对象包括哪些第二智能体。在其他的实施例中，可以判断属于第一预通信对象的第二智能体是否属于第二预通信对象，若判断为是，则该第二智能体属于第一智能体的通信对象，以此判断方法对所有属于第一预通信对象的第二智能体进行判断，得到第一智能体的通信对象包括哪些第二智能体。

步骤204，根据接收的由至少一个第二智能体发送的第二协作消息和从环境中获取的状态得到第一协作消息。

关于该步骤的描述具体可参见上述实施例中步骤102的相关表述，在此不再一一赘述。

步骤205，向通信对象发送第一协作消息。

关于该步骤的描述具体可参见上述实施例中步骤103的相关表述，在此不再一一赘述。

本发明实施例通过基于强化学习方法和第二智能体与第一智能体的相对关系对多智能体协作系统中第一智能体的通信对象进行筛选，从而确定多智能体协作系统中哪些第二智能体作为第一智能体的通信对象，进一步避免了多智能体协作系统中各智能体间通信时过高的通信负荷，降低了通信开销，加强了载有协作消息信号传输的针对性。

参见图4，本发明一实施例提供了一种智能体，用于执行上述实施例提供的多智能体协作系统中智能体间的通信方法，其包括：第一得到模块301、第二得到模块302和发送模块303。

具体而言，第一得到模块301用于通过经强化学习训练的深度神经网络对接收的第二协作消息和从环境中获取的状态进行处理，得到第一智能体执行的动作和通信对象，第二协作消息由至少一个第二智能体发送，第二协作消息是为达到多智能体协作系统目标的协作消息。第二得到模块302用于根据第二协作消息和状态得到第一协作消息，第一协作消息是为达到多智能体协作系统目标的协作消息。发送模块303用于向通信对象发送第一协作消息，通信对象包括至少一个第二智能体。

优选地，第二得到模块302具体用于：通过深度神经网络对状态和第二协作消息进行处理，得到第一协作消息。

优选地，参见图5，智能体还包括：第三得到模块304，用于根据第二智能体与第一智能体的相关关系，得到第一预通信对象。对应地，第一得到模块301用于通过经强化学习训练的深度神经网络对接收的第二协作消息和从环境中获取的状态进行处理，得到第一智能体执行的动作和第二预通信对象。智能体还包括：第四得到模块305，用于根据第一预通信对象和第二预通信对象的共有通信对象，得到第一智能体的通信对象；其中，第一预通信对象和第二预通信对象均至少包括一个第二智能体。

优选地，当相关关系为相对距离时，第三得到模块304具体用于：判断各个第二智能体与第一智能体之间的距离，若判断距离在预设距离阈值内，则与该距离对应的第二智能体属于第一预通信对象。

优选地，当相关关系为相对方向角度时，第三得到模块304具体用于：判断各个第二智能体相对于第一智能体的方向角度，若判断方向角度在预设角度阈值内，则与该方向角度对应的第二智能体属于第一预通信对象。

其中，第一得到模块301的处理方式具体可参见上述实施例中的步骤101和步骤202的相关描述，第二得到模块302的处理方式具体可参见上述实施例中的步骤102和步骤204的相关描述，发送模块303的处理方式具体可参见上述实施例中的步骤103和步骤205的相关描述，第三得到模块304的处理方式具体可参见上述实施例中的步骤201的相关描述，第四得到模块305的处理方式具体可参见上述实施例中的步骤203的相关描述，此处不再一一赘述。

本发明再一实施例提供了一种多智能体协作系统，其包括：多个智能体，智能体为前述实施例提供的智能体。多智能体协作系统中智能体间的通信拓扑结构如图3所示，图3中的每个圆圈代表一个智能体。

多智能体协作系统可用于机器人智能控制、广告竞价、电子游戏和社会学等多个领域。多智能体协作的应用场景举例：多足球机器人比赛、虚拟游戏中多角色配合对战。

本发明再又一实施例提供了一种终端设备，其包括智能体，该智能体用于执行上述实施例提供的多智能体协作系统中智能体间的通信方法。

由技术常识可知，本发明可以通过其它的不脱离其精神实质或必要特征的实施方案来实现。因此，上述公开的实施方案，就各方面而言，都只是举例说明，并不是仅有的。所有在本发明范围内或在等同于本发明的范围内的改变均被本发明包含。

Claims

1.一种多智能体协作系统中智能体间的通信方法，其特征在于，所述通信方法包括：

第一智能体通过经强化学习训练的深度神经网络对接收的第二协作消息和从环境中获取的状态进行处理，得到所述第一智能体执行的动作和通信对象，所述第二协作消息由至少一个第二智能体发送；

根据所述第二协作消息和所述状态得到第一协作消息；

向所述通信对象发送所述第一协作消息；

其中，所述通信对象包括至少一个所述第二智能体；

所述第一协作消息和所述第二协作消息均是为达到所述多智能体协作系统目标的协作消息。

2.根据权利要求1所述的通信方法，其特征在于，所述根据第二协作消息和所述状态得到第一协作消息，具体包括：

通过所述深度神经网络对所述状态和第二协作消息进行处理，得到所述第一协作消息。

3.根据权利要求1所述的通信方法，其特征在于，在所述第一智能体通过经强化学习训练的深度神经网络对接收的第二协作消息和从环境中获取的状态进行处理之前，所述通信方法还包括：

根据所述第二智能体与所述第一智能体的相关关系，得到第一预通信对象；

在所述第一智能体通过经强化学习训练的深度神经网络对接收的第二协作消息和从环境中获取的状态进行处理之后，得到所述第一智能体执行的通信对象之前，所述通信方法还包括：

得到所述第一智能体的第二预通信对象；

根据所述第一预通信对象和所述第二预通信对象的共有通信对象，得到所述第一智能体的通信对象；

其中，所述第一预通信对象和所述第二预通信对象均至少包括一个所述第二智能体。

4.根据权利要求3所述的通信方法，其特征在于，

当所述相关关系为相对距离时，所述根据所述第二智能体与所述第一智能体的相关关系，得到第一预通信对象，具体包括：

判断各个所述第二智能体与所述第一智能体之间的距离，若判断所述距离在预设距离阈值内，则与该距离对应的所述第二智能体属于所述第一预通信对象。

5.根据权利要求3所述的通信方法，其特征在于，

当所述相关关系为相对方向角度时，所述根据所述第二智能体与所述第一智能体的相关关系，得到第一预通信对象，具体包括：

判断各个所述第二智能体相对于所述第一智能体的方向角度，若判断所述方向角度在预设角度阈值内，则与该方向角度对应的所述第二智能体属于所述第一预通信对象。

6.一种智能体，其特征在于，所述智能体包括：

第一得到模块，用于通过经强化学习训练的深度神经网络对接收的第二协作消息和从环境中获取的状态进行处理，得到所述第一智能体执行的动作和通信对象，所述第二协作消息由至少一个第二智能体发送；

第二得到模块，用于根据所述第二协作消息和所述状态得到第一协作消息；

发送模块，用于向所述通信对象发送所述第一协作消息，其中，所述通信对象包括至少一个所述第二智能体；

其中，所述第一协作消息和所述第二协作消息均是为达到所述多智能体协作系统目标的协作消息。

7.根据权利要求6所述的智能体，其特征在于，所述第二得到模块具体用于：

8.根据权利要求6所述的智能体，其特征在于，所述智能体还包括：

第三得到模块，用于根据所述第二智能体与所述第一智能体的相关关系，得到第一预通信对象；

对应地，所述第一得到模块，用于通过经强化学习训练的深度神经网络对接收的第二协作消息和从环境中获取的状态进行处理，得到所述第一智能体执行的动作和第二预通信对象；

所述智能体还包括：

第四得到模块，用于根据所述第一预通信对象和所述第二预通信对象的共有通信对象，得到所述第一智能体的通信对象；

9.根据权利要求8所述的智能体，其特征在于，当所述相关关系为相对距离时，所述第三得到模块具体用于：

10.一种多智能体协作系统，其特征在于，所述多智能体协作系统包括：多个智能体，所述智能体为权利要求6～9中任一项所述的智能体。