CN109617968A - 多智能体协作系统及其智能体、智能体间的通信方法 - Google Patents

多智能体协作系统及其智能体、智能体间的通信方法 Download PDF

Info

Publication number
CN109617968A
CN109617968A CN201811536781.0A CN201811536781A CN109617968A CN 109617968 A CN109617968 A CN 109617968A CN 201811536781 A CN201811536781 A CN 201811536781A CN 109617968 A CN109617968 A CN 109617968A
Authority
CN
China
Prior art keywords
intelligent body
cooperation
communication object
communication
message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811536781.0A
Other languages
English (en)
Other versions
CN109617968B (zh
Inventor
彭鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qiyuan World (beijing) Information Technology Service Co Ltd
Original Assignee
Qiyuan World (beijing) Information Technology Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qiyuan World (beijing) Information Technology Service Co Ltd filed Critical Qiyuan World (beijing) Information Technology Service Co Ltd
Priority to CN201811536781.0A priority Critical patent/CN109617968B/zh
Publication of CN109617968A publication Critical patent/CN109617968A/zh
Application granted granted Critical
Publication of CN109617968B publication Critical patent/CN109617968B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/043Distributed expert systems; Blackboards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L5/00Arrangements affording multiple use of the transmission path
    • H04L5/003Arrangements for allocating sub-channels of the transmission path
    • H04L5/0032Distributed allocation, i.e. involving a plurality of allocating devices, each making partial allocation
    • H04L5/0035Resource allocation in a cooperative multipoint environment

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明属于人工智能技术领域,其公开了一种多智能体协作系统及其智能体、智能体间的通信方法。通信方法包括第一智能体通过经强化学习训练的深度神经网络对接收的第二协作消息和从环境中获取的状态进行处理,得到第一智能体执行的动作和通信对象,第二协作消息由至少一个第二智能体发送;根据第二协作消息和状态得到第一协作消息;向通信对象发送第一协作消息;通信对象包括至少一个第二智能体。智能体包括第一得到模块、第二得到模块和发送模块。多智能体协作系统包括多个智能体,智能体为上述智能体。本发明通过上述技术方案避免了多智能体协作系统中各智能体间通信时过高的通信负荷,降低了通信开销,加强了载有协作消息信号传输的针对性。

Description

多智能体协作系统及其智能体、智能体间的通信方法
技术领域
本发明属于人工智能技术领域,特别涉及一种多智能体协作系统及其智能体、智能体间的通信方法。
背景技术
MAS(Multi-Agent System,多智能体系统)是指能够协调控制多个智能体(Agent)进行决策的系统。在该系统中,智能体一方面通过与环境进行交互,根据所获取的环境状态进行决策;另一方面,根据交互所产生的数据对自身的模型进行训练以不断提高智能体的决策能力。该系统中的智能体是指能够在限定环境和动作空间中进行自主决策的单位,其可以是物理的实体,如机器人、飞行器;还可以是抽象的实体,如虚拟游戏中的角色。多智能体协作系统是一种特定的多智能体系统,在该系统中,多个智能体共享相同的目标,通过分工协作的方式来解决复杂的问题或来完成为其设定的复杂任务。为了实现分工协作,智能体间需进行通信以交换信息。
现有技术中,智能体间通信的方法包括:P2P(Peer to Peer,点到点)通信方法、基于广播的通信方法、基于平均场理论的通信方法和基于连通图的通信方法。在前述几种通信方法中,当系统中某个智能体发送信息时,接收该信息的智能体,即作为该智能体通信对象的智能体由该通信方法预先确定,如此使得通讯开销较高,降低了通信性能。
发明内容
为了解决上述问题,本发明一方面提供了一种多智能体协作系统中智能体间的通信方法,其包括:第一智能体通过经强化学习训练的深度神经网络对接收的第二协作消息和从环境中获取的状态进行处理,得到所述第一智能体执行的动作和通信对象,所述第二协作消息由至少一个第二智能体发送;根据所述第二协作消息和所述状态得到第一协作消息;向所述通信对象发送所述第一协作消息;其中,所述通信对象包括至少一个所述第二智能体;所述第一协作消息和所述第二协作消息均是为达到所述多智能体协作系统目标的协作消息。
在如上所述的通信方法中,优选地,所述根据所述状态和所述第二协作消息得到第一协作消息,具体包括:通过所述深度神经网络对所述状态和第二协作消息进行处理,得到所述第一协作消息。
在如上所述的通信方法中,优选地,在所述第一智能体通过经强化学习训练的深度神经网络对接收的第二协作消息和从环境中获取的状态进行处理之前,所述通信方法还包括:根据所述第二智能体与所述第一智能体的相关关系,得到第一预通信对象;在所述第一智能体通过经强化学习训练的深度神经网络对接收的第二协作消息和从环境中获取的状态进行处理之后,得到所述第一智能体执行的通信对象之前,所述通信方法还包括:得到所述第一智能体的第二预通信对象;根据所述第一预通信对象和所述第二预通信对象的共有通信对象,得到所述第一智能体的通信对象;其中,所述第一预通信对象和所述第二预通信对象均至少包括一个所述第二智能体。
在如上所述的通信方法中,优选地,当所述相关关系为相对距离时,所述根据所述第二智能体与所述第一智能体的相关关系,得到第一预通信对象,具体包括:判断各个所述第二智能体与所述第一智能体之间的距离,若判断所述距离在预设距离阈值内,则与该距离对应的所述第二智能体属于所述第一预通信对象。
在如上所述的通信方法中,优选地,当所述相关关系为相对方向角度时,所述根据所述第二智能体与所述第一智能体的相关关系,得到第一预通信对象,具体包括:判断各个所述第二智能体相对于所述第一智能体的方向角度,若判断所述方向角度在预设角度阈值内,则与该方向角度对应的所述第二智能体属于所述第一预通信对象。
本发明另一方面提供了一种智能体,其包括:第一得到模块,用于通过经强化学习训练的深度神经网络对接收的第二协作消息和从环境中获取的状态进行处理,得到所述第一智能体执行的动作和通信对象,所述第二协作消息由至少一个第二智能体发送;第二得到模块,用于根据所述第二协作消息和所述状态得到第一协作消息;发送模块,用于向所述通信对象发送所述第一协作消息,其中,所述通信对象包括至少一个所述第二智能体;其中,所述第一协作消息和所述第二协作消息均是为达到所述多智能体协作系统目标的协作消息。
在如上所述的智能体中,优选地,所述第二得到模块具体用于:通过所述深度神经网络对所述状态和第二协作消息进行处理,得到所述第一协作消息。
在如上所述的智能体中,优选地,所述智能体还包括:第三得到模块,用于根据所述第二智能体与所述第一智能体的相关关系,得到第一预通信对象;对应地,所述第一得到模块,用于通过经强化学习训练的深度神经网络对接收的第二协作消息和从环境中获取的状态进行处理,得到所述第一智能体执行的动作和第二预通信对象;所述智能体还包括:第四得到模块,用于根据所述第一预通信对象和所述第二预通信对象的共有通信对象,得到所述第一智能体的通信对象;其中,所述第一预通信对象和所述第二预通信对象均至少包括一个所述第二智能体。
在如上所述的智能体中,优选地,当所述相关关系为相对距离时,所述第三得到模块具体用于:判断各个所述第二智能体与所述第一智能体之间的距离,若判断所述距离在预设距离阈值内,则与该距离对应的所述第二智能体属于所述第一预通信对象。
本发明又一方面提供了一种多智能体协作系统,其包括:多个智能体,所述智能体为上述的智能体。
本发明实施例提供的技术方案带来的有益效果是:
通过基于强化学习方法对多智能体协作系统中第一智能体的通信对象进行筛选,从而确定多智能体协作系统中哪些第二智能体作为第一智能体的通信对象,避免了多智能体协作系统中各智能体间通信时过高的通信负荷,降低了通信开销,加强了载有协作消息信号传输的针对性。
附图说明
图1为本发明一实施例提供的一种多智能体协作系统中智能体间的通信方法的流程示意图。
图2为本发明另一实施例提供的一种多智能体协作系统中智能体间的通信方法的流程示意图。
图3为本发明一实施例提供的一种多智能体协作系统中智能体间的通信拓扑结构示意图。
图4为本发明一实施例提供的一种智能体的结构示意图。
图5为本发明一实施例提供的另一种智能体的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
以下对本发明实施例涉及的一些技术术语进行解释。
环境和动作均为强化学习(Reinforcement Learning,RL)中涉及的技术术语。环境是指智能体执行动作时所处的场景,其与智能体发生交互,将环境的当前状态发送给智能体。动作是指智能体响应于该环境的当前状态执行的动作。
参见图1,本发明一实施例提供了一种多智能体协作系统中智能体间的通信方法,其包括如下步骤:
步骤101,第一智能体通过经强化学习训练的深度神经网络对从环境中获取的状态和接收的由第二智能体发送的第二协作消息进行处理,得到第一智能体执行的动作和通信对象。
具体地,第一智能体包含第一得到模块,该模块用于对接收的由至少一个第二智能体发送的第二协作消息和从环境中获取的状态进行处理,得到第一智能体执行的动作和通信对象。第一得到模块为基于深度神经网络结构的模块,其输入信息包括:状态和第二协作消息,输出信息包括:动作和通信对象。对第一得到模块的深度神经网络进行训练时,输入信息和输出信息与前述一样,分别为:状态和第二协作消息、动作和通信对象。训练该深度神经网络结构使用的是强化学习方法,在训练过程中可以使用随机梯度下降算法对深度神经网络的参数进行更新。为了避免冗余信号的传输,深度神经网络使用了注意力机制(attention mechanism)得到通信对象,应用中,注意力机制对应的是该深度神经网络结构中的一部分参数。通过使用强化学习训练该深度神经网络结构,其具有更快的收敛速度、更低的损失值和更高的奖励。
第二协作消息是指:为达到多智能体协作系统目标的协作消息,其由第二智能体处理得到并发送,比如可以由该第二智能体通过对接收的多智能体协作系统中除该第二智能体以外的其他智能体发送的协作消息和从环境中获取的状态进行处理得到,其他智能体可以为多智能体协作系统中除该第二智能体以外的全部智能体,还可以为多智能体协作系统中除该第二智能体以外的部分智能体,本实施例对此不进行限定。第一智能体接收的第二协作信息可以来自于一个第二智能体,还可以来自于多个第二智能体,本实施例对此不进行限定。通信对象是指将与第一智能体进行通信的第二智能体以接收第一智能体所发送的第一协作信息。以应用场景为多足球机器人进行足球比赛为例说明第一协作信息和第二协作信息的内容,各协作信息包括但不限于:智能体本身的动作(或称行为)、向其他智能体发送的控制指令、以固定数据结构且用机器语言表示的内容。
需要说明的是:第一智能体和第二智能体可以为多智能体协作系统中的任一智能体,在本实施例中,“第一”、“第二”不用于对智能体和协作消息进行排序,仅为了描述方便和区分发送方和接收方。第一智能体表示发送信息的智能体,即发送方,第二智能体表示接收第一智能体所发送信息的智能体,即接收方。在多智能体协作系统中,当其中一个智能体作为发送方时,其他剩余的智能体均作为预接收方。
步骤102,根据接收的由至少一个第二智能体发送的第二协作消息和从环境中获取的状态得到第一协作消息。
具体地,第一智能体根据从环境中获取的状态和接收的至少一个第二智能体发送的第二协作信息得到第一协作消息,如第一智能体通过自身具有的知识源和/或预设的规则处理得到。第一协作消息是指:为达到多智能体协作系统目标的协作消息,由第一智能体处理得到,并发送。
需要说明的是,本实施例不对步骤101和步骤102的顺序进行限定,可以是先执行步骤101,后执行步骤102;也可以先执行步骤102,后执行步骤101;还可以步骤101和步骤102同时进行。
在其他的实施例中,该步骤102具体包括:第一智能体通过深度神经网络对状态和第二协作消息进行处理,得到第一协作消息。结合步骤101,深度神经网络的输入信息包括:状态和第二协作消息,输出信息包括:动作、通信对象和第一协作信息。经此方法得到的第一协作信息是筛选后的第一协作信息,相对于,未经深度神经网络处理的第一协作信息,该第一协作信息具有针对性强的优点,使得强化学习效率高。
步骤103,向通信对象发送第一协作消息。
具体地,第一智能体向经步骤101所确定的通信对象发送第一协作消息。
本发明实施例通过基于强化学习方法对多智能体协作系统中第一智能体的通信对象进行筛选,从而确定多智能体协作系统中哪些第二智能体作为第一智能体的通信对象,避免了多智能体协作系统中各智能体间通信时过高的通信负荷,降低了通信开销,加强了载有协作消息信号传输的针对性。
参见图2,本发明另一实施例提供了一种多智能体协作系统中智能体间的通信方法,其包括如下步骤:
步骤201,根据第二智能体与第一智能体的相关关系,得到第一预通信对象。
具体地,相关关系包括但不限于:相对距离、相对方向角度和功能。第一预通信对象至少包括一个第二智能体。当相关关系为相对距离时,该步骤具体包括:判断各个第二智能体与第一智能体之间的距离,若某个第二智能体与第一智能体之间的距离在预设距离阈值内,则该第二智能体属于第一预通信对象。按照前述判断方法对所有的第二智能体进行判断,得到第一预通信对象包括哪些第二智能体。获取相对距离的方法如:基于超声波的测距方法、基于定位系统的测距方法和基于信号强度的测距方法。距离阈值可以根据不同的应用场景进行设定,本实施例对其具体数值不进行限定。该场景尤其适用于多智能体协作系统各智能体通信时需考虑通信延迟和信号强度因素的情况。
当相关关系为相对方向角度时,该步骤具体包括:判断各个第二智能体相对于第一智能体的方向角度,若某个第二智能体相对于第一智能体的方向角度在预设角度阈值内,则该第二智能体属于第一预通信对象。按照前述判断方法对所有的第二智能体进行判断,得到第一预通信对象包括哪些第二智能体。角度阈值可以根据不同的应用场景进行设定,本实施例对其具体数值不进行限定。该场景尤其适用于多智能体协作系统各智能体通信时需考虑智能体视角因素的情况。
当相关关系为功能时,该步骤具体包括:判断各个第二智能体的功能与第一智能体的功能是否相同,若某个第二智能体与第一智能体的功能相同,则该第二智能体属于第一预通信对象。按照前述判断方法对所有的第二智能体进行判断,得到第一预通信对象包括哪些第二智能体。该场景尤其适用于多智能体协作系统中各智能体通信时需考虑智能体功能是否相同因素的情况。
步骤202,第一智能体通过经强化学习训练的深度神经网络对接收的第二协作消息和从环境中获取的状态进行处理,得到第一智能体的动作和第二预通信对象。
关于该步骤的描述具体可参见上述实施例中步骤101的相关表述,仅需将步骤101中的“通信对象”替换成“第二预通信对象”,在此不再一一赘述。
步骤203,根据第一预通信对象和第二预通信对象的共有通信对象,得到第一智能体的通信对象。
具体的,判断第二智能体是否符合既属于第一预通信对象,又属于第二预通信对象,若判断为符合,则确定该第二智能体属于第一智能体的通信对象,以此判断方法对所有的第二智能体进行判断,得到第一智能体的通信对象包括哪些第二智能体。在其他的实施例中,可以判断属于第一预通信对象的第二智能体是否属于第二预通信对象,若判断为是,则该第二智能体属于第一智能体的通信对象,以此判断方法对所有属于第一预通信对象的第二智能体进行判断,得到第一智能体的通信对象包括哪些第二智能体。
步骤204,根据接收的由至少一个第二智能体发送的第二协作消息和从环境中获取的状态得到第一协作消息。
关于该步骤的描述具体可参见上述实施例中步骤102的相关表述,在此不再一一赘述。
步骤205,向通信对象发送第一协作消息。
关于该步骤的描述具体可参见上述实施例中步骤103的相关表述,在此不再一一赘述。
本发明实施例通过基于强化学习方法和第二智能体与第一智能体的相对关系对多智能体协作系统中第一智能体的通信对象进行筛选,从而确定多智能体协作系统中哪些第二智能体作为第一智能体的通信对象,进一步避免了多智能体协作系统中各智能体间通信时过高的通信负荷,降低了通信开销,加强了载有协作消息信号传输的针对性。
参见图4,本发明一实施例提供了一种智能体,用于执行上述实施例提供的多智能体协作系统中智能体间的通信方法,其包括:第一得到模块301、第二得到模块302和发送模块303。
具体而言,第一得到模块301用于通过经强化学习训练的深度神经网络对接收的第二协作消息和从环境中获取的状态进行处理,得到第一智能体执行的动作和通信对象,第二协作消息由至少一个第二智能体发送,第二协作消息是为达到多智能体协作系统目标的协作消息。第二得到模块302用于根据第二协作消息和状态得到第一协作消息,第一协作消息是为达到多智能体协作系统目标的协作消息。发送模块303用于向通信对象发送第一协作消息,通信对象包括至少一个第二智能体。
优选地,第二得到模块302具体用于:通过深度神经网络对状态和第二协作消息进行处理,得到第一协作消息。
优选地,参见图5,智能体还包括:第三得到模块304,用于根据第二智能体与第一智能体的相关关系,得到第一预通信对象。对应地,第一得到模块301用于通过经强化学习训练的深度神经网络对接收的第二协作消息和从环境中获取的状态进行处理,得到第一智能体执行的动作和第二预通信对象。智能体还包括:第四得到模块305,用于根据第一预通信对象和第二预通信对象的共有通信对象,得到第一智能体的通信对象;其中,第一预通信对象和第二预通信对象均至少包括一个第二智能体。
优选地,当相关关系为相对距离时,第三得到模块304具体用于:判断各个第二智能体与第一智能体之间的距离,若判断距离在预设距离阈值内,则与该距离对应的第二智能体属于第一预通信对象。
优选地,当相关关系为相对方向角度时,第三得到模块304具体用于:判断各个第二智能体相对于第一智能体的方向角度,若判断方向角度在预设角度阈值内,则与该方向角度对应的第二智能体属于第一预通信对象。
其中,第一得到模块301的处理方式具体可参见上述实施例中的步骤101和步骤202的相关描述,第二得到模块302的处理方式具体可参见上述实施例中的步骤102和步骤204的相关描述,发送模块303的处理方式具体可参见上述实施例中的步骤103和步骤205的相关描述,第三得到模块304的处理方式具体可参见上述实施例中的步骤201的相关描述,第四得到模块305的处理方式具体可参见上述实施例中的步骤203的相关描述,此处不再一一赘述。
本发明实施例通过基于强化学习方法对多智能体协作系统中第一智能体的通信对象进行筛选,从而确定多智能体协作系统中哪些第二智能体作为第一智能体的通信对象,避免了多智能体协作系统中各智能体间通信时过高的通信负荷,降低了通信开销,加强了载有协作消息信号传输的针对性。
本发明再一实施例提供了一种多智能体协作系统,其包括:多个智能体,智能体为前述实施例提供的智能体。多智能体协作系统中智能体间的通信拓扑结构如图3所示,图3中的每个圆圈代表一个智能体。
多智能体协作系统可用于机器人智能控制、广告竞价、电子游戏和社会学等多个领域。多智能体协作的应用场景举例:多足球机器人比赛、虚拟游戏中多角色配合对战。
本发明再又一实施例提供了一种终端设备,其包括智能体,该智能体用于执行上述实施例提供的多智能体协作系统中智能体间的通信方法。
由技术常识可知,本发明可以通过其它的不脱离其精神实质或必要特征的实施方案来实现。因此,上述公开的实施方案,就各方面而言,都只是举例说明,并不是仅有的。所有在本发明范围内或在等同于本发明的范围内的改变均被本发明包含。

Claims (10)

1.一种多智能体协作系统中智能体间的通信方法,其特征在于,所述通信方法包括:
第一智能体通过经强化学习训练的深度神经网络对接收的第二协作消息和从环境中获取的状态进行处理,得到所述第一智能体执行的动作和通信对象,所述第二协作消息由至少一个第二智能体发送;
根据所述第二协作消息和所述状态得到第一协作消息;
向所述通信对象发送所述第一协作消息;
其中,所述通信对象包括至少一个所述第二智能体;
所述第一协作消息和所述第二协作消息均是为达到所述多智能体协作系统目标的协作消息。
2.根据权利要求1所述的通信方法,其特征在于,所述根据第二协作消息和所述状态得到第一协作消息,具体包括:
通过所述深度神经网络对所述状态和第二协作消息进行处理,得到所述第一协作消息。
3.根据权利要求1所述的通信方法,其特征在于,在所述第一智能体通过经强化学习训练的深度神经网络对接收的第二协作消息和从环境中获取的状态进行处理之前,所述通信方法还包括:
根据所述第二智能体与所述第一智能体的相关关系,得到第一预通信对象;
在所述第一智能体通过经强化学习训练的深度神经网络对接收的第二协作消息和从环境中获取的状态进行处理之后,得到所述第一智能体执行的通信对象之前,所述通信方法还包括:
得到所述第一智能体的第二预通信对象;
根据所述第一预通信对象和所述第二预通信对象的共有通信对象,得到所述第一智能体的通信对象;
其中,所述第一预通信对象和所述第二预通信对象均至少包括一个所述第二智能体。
4.根据权利要求3所述的通信方法,其特征在于,
当所述相关关系为相对距离时,所述根据所述第二智能体与所述第一智能体的相关关系,得到第一预通信对象,具体包括:
判断各个所述第二智能体与所述第一智能体之间的距离,若判断所述距离在预设距离阈值内,则与该距离对应的所述第二智能体属于所述第一预通信对象。
5.根据权利要求3所述的通信方法,其特征在于,
当所述相关关系为相对方向角度时,所述根据所述第二智能体与所述第一智能体的相关关系,得到第一预通信对象,具体包括:
判断各个所述第二智能体相对于所述第一智能体的方向角度,若判断所述方向角度在预设角度阈值内,则与该方向角度对应的所述第二智能体属于所述第一预通信对象。
6.一种智能体,其特征在于,所述智能体包括:
第一得到模块,用于通过经强化学习训练的深度神经网络对接收的第二协作消息和从环境中获取的状态进行处理,得到所述第一智能体执行的动作和通信对象,所述第二协作消息由至少一个第二智能体发送;
第二得到模块,用于根据所述第二协作消息和所述状态得到第一协作消息;
发送模块,用于向所述通信对象发送所述第一协作消息,其中,所述通信对象包括至少一个所述第二智能体;
其中,所述第一协作消息和所述第二协作消息均是为达到所述多智能体协作系统目标的协作消息。
7.根据权利要求6所述的智能体,其特征在于,所述第二得到模块具体用于:
通过所述深度神经网络对所述状态和第二协作消息进行处理,得到所述第一协作消息。
8.根据权利要求6所述的智能体,其特征在于,所述智能体还包括:
第三得到模块,用于根据所述第二智能体与所述第一智能体的相关关系,得到第一预通信对象;
对应地,所述第一得到模块,用于通过经强化学习训练的深度神经网络对接收的第二协作消息和从环境中获取的状态进行处理,得到所述第一智能体执行的动作和第二预通信对象;
所述智能体还包括:
第四得到模块,用于根据所述第一预通信对象和所述第二预通信对象的共有通信对象,得到所述第一智能体的通信对象;
其中,所述第一预通信对象和所述第二预通信对象均至少包括一个所述第二智能体。
9.根据权利要求8所述的智能体,其特征在于,当所述相关关系为相对距离时,所述第三得到模块具体用于:
判断各个所述第二智能体与所述第一智能体之间的距离,若判断所述距离在预设距离阈值内,则与该距离对应的所述第二智能体属于所述第一预通信对象。
10.一种多智能体协作系统,其特征在于,所述多智能体协作系统包括:多个智能体,所述智能体为权利要求6~9中任一项所述的智能体。
CN201811536781.0A 2018-12-14 2018-12-14 多智能体协作系统及其智能体、智能体间的通信方法 Active CN109617968B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811536781.0A CN109617968B (zh) 2018-12-14 2018-12-14 多智能体协作系统及其智能体、智能体间的通信方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811536781.0A CN109617968B (zh) 2018-12-14 2018-12-14 多智能体协作系统及其智能体、智能体间的通信方法

Publications (2)

Publication Number Publication Date
CN109617968A true CN109617968A (zh) 2019-04-12
CN109617968B CN109617968B (zh) 2019-10-29

Family

ID=66009306

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811536781.0A Active CN109617968B (zh) 2018-12-14 2018-12-14 多智能体协作系统及其智能体、智能体间的通信方法

Country Status (1)

Country Link
CN (1) CN109617968B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112215364A (zh) * 2020-09-17 2021-01-12 天津(滨海)人工智能军民融合创新中心 一种基于强化学习的敌-友深度确定性策略方法及系统
WO2021164547A1 (zh) * 2020-02-21 2021-08-26 华为技术有限公司 智能体决策的方法和装置
CN113534784A (zh) * 2020-04-17 2021-10-22 华为技术有限公司 智能体动作的决策方法及相关设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103092199A (zh) * 2011-11-01 2013-05-08 镇江华扬信息科技有限公司 足球机器人智能决策系统
CN103715771A (zh) * 2013-12-27 2014-04-09 广东电网公司韶关供电局 一种自动发电协调控制平台
CN106964145A (zh) * 2017-03-28 2017-07-21 南京邮电大学 一种仿人足球机器人传球控制方法及球队控球方法
CN107053184A (zh) * 2017-06-22 2017-08-18 北京信息科技大学 基于私有云的多智能体协作处理系统和方法
CN107179777A (zh) * 2017-06-03 2017-09-19 复旦大学 多智能体集群协同方法与多无人机集群协同系统
CN107798388A (zh) * 2017-11-23 2018-03-13 航天天绘科技有限公司 基于Multi‑Agent与DNN的测控资源调度分配的方法
CN109116854A (zh) * 2018-09-16 2019-01-01 南京大学 一种基于强化学习的多组机器人协作控制方法及控制系统
CN109511277A (zh) * 2018-08-01 2019-03-22 东莞理工学院 多状态连续动作空间的合作式方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103092199A (zh) * 2011-11-01 2013-05-08 镇江华扬信息科技有限公司 足球机器人智能决策系统
CN103715771A (zh) * 2013-12-27 2014-04-09 广东电网公司韶关供电局 一种自动发电协调控制平台
CN106964145A (zh) * 2017-03-28 2017-07-21 南京邮电大学 一种仿人足球机器人传球控制方法及球队控球方法
CN107179777A (zh) * 2017-06-03 2017-09-19 复旦大学 多智能体集群协同方法与多无人机集群协同系统
CN107053184A (zh) * 2017-06-22 2017-08-18 北京信息科技大学 基于私有云的多智能体协作处理系统和方法
CN107798388A (zh) * 2017-11-23 2018-03-13 航天天绘科技有限公司 基于Multi‑Agent与DNN的测控资源调度分配的方法
CN109511277A (zh) * 2018-08-01 2019-03-22 东莞理工学院 多状态连续动作空间的合作式方法及系统
CN109116854A (zh) * 2018-09-16 2019-01-01 南京大学 一种基于强化学习的多组机器人协作控制方法及控制系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021164547A1 (zh) * 2020-02-21 2021-08-26 华为技术有限公司 智能体决策的方法和装置
CN113534784A (zh) * 2020-04-17 2021-10-22 华为技术有限公司 智能体动作的决策方法及相关设备
CN113534784B (zh) * 2020-04-17 2024-03-05 华为技术有限公司 智能体动作的决策方法及相关设备
CN112215364A (zh) * 2020-09-17 2021-01-12 天津(滨海)人工智能军民融合创新中心 一种基于强化学习的敌-友深度确定性策略方法及系统
CN112215364B (zh) * 2020-09-17 2023-11-17 天津(滨海)人工智能军民融合创新中心 一种基于强化学习的敌-友深度确定性策略方法及系统

Also Published As

Publication number Publication date
CN109617968B (zh) 2019-10-29

Similar Documents

Publication Publication Date Title
CN109617968B (zh) 多智能体协作系统及其智能体、智能体间的通信方法
Wu et al. Distributed UAV swarm formation and collision avoidance strategies over fixed and switching topologies
Dai et al. Task allocation without communication based on incomplete information game theory for multi-robot systems
CN110852448A (zh) 一种基于多智能体强化学习的合作型智能体的学习方法
Hu et al. Multiple-target surrounding and collision avoidance with second-order nonlinear multiagent systems
CN108107725B (zh) 基于事件触发的二阶时变时延多智能体系统包容控制方法
JP7066665B2 (ja) 人工ソーシャルネットワークを運用するためのシステム及び方法
CN110196554B (zh) 一种多智能体系统的安全一致性控制方法
CN111273685B (zh) 一种异构多无人机自主聚集、分离及合并集群方法
Alsamhi et al. Artificial intelligence-based techniques for emerging robotics communication: a survey and future perspectives
Li et al. A UAV path planning method based on deep reinforcement learning
Meng et al. A hybrid ACO/PSO control algorithm for distributed swarm robots
CN112462602B (zh) 一种在DoS攻击下保持移动舞台车队安全间距的分布式控制方法
CN111723931B (zh) 一种多智能体对抗动作预测方法及装置
CN110865655B (zh) 无人机系统中无人机的编队和避障控制方法
CN111489049B (zh) 一种多智能体分布式任务分配方法
Sun et al. Cooperative strategy for pursuit-evasion problem with collision avoidance
WO2024001267A1 (zh) 无人机飞行航线更新规划的方法、装置、设备及存储介质
Price et al. GA directed self-organized search and attack UAV swarms
Hunjet et al. Survivable communications and autonomous delivery service a generic swarming framework enabling communications in contested environments
CN114879742B (zh) 基于多智能体深度强化学习的无人机集群动态覆盖方法
Wang et al. Deep reinforcement learning based multi-uuv cooperative control for target capturing
CN111314015B (zh) 一种基于强化学习的脉冲干扰决策方法
Dong et al. Tracking of a third-order maneuvering target under an arbitrary topology
CN113050678A (zh) 基于人工智能的自主协同控制方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20190412

Assignee: Baiyang Times (Beijing) Technology Co., Ltd.

Assignor: Qiyuan World (Beijing) Information Technology Service Co., Ltd.

Contract record no.: X2019990000076

Denomination of invention: Multi-agent cooperation system, agents and communication methods among agents

License type: Common License

Record date: 20190904

EE01 Entry into force of recordation of patent licensing contract
GR01 Patent grant
GR01 Patent grant