CN113894780A - 多机器人协作对抗方法、装置、电子设备和存储介质 - Google Patents

多机器人协作对抗方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN113894780A
CN113894780A CN202111136603.0A CN202111136603A CN113894780A CN 113894780 A CN113894780 A CN 113894780A CN 202111136603 A CN202111136603 A CN 202111136603A CN 113894780 A CN113894780 A CN 113894780A
Authority
CN
China
Prior art keywords
robot
decision
current
sample
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111136603.0A
Other languages
English (en)
Other versions
CN113894780B (zh
Inventor
赵冬斌
唐振韬
朱圆恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202111136603.0A priority Critical patent/CN113894780B/zh
Publication of CN113894780A publication Critical patent/CN113894780A/zh
Application granted granted Critical
Publication of CN113894780B publication Critical patent/CN113894780B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1661Programme controls characterised by programming, planning systems for manipulators characterised by task planning, object-oriented languages
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/161Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1679Programme controls characterised by the tasks executed
    • B25J9/1682Dual arm manipulator; Coordination of several manipulators
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Automation & Control Theory (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Manipulator (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明提供一种多机器人协作对抗方法、装置、电子设备和存储介质,其中方法包括:获取对抗环境的当前全局状态信息,以及每一己方机器人的当前局部观测信息;将所述对抗环境的当前全局状态信息和每一己方机器人的当前局部观测信息输入至协作对抗模型,得到所述协作对抗模型输出的每一己方机器人的当前决策行为;基于每一己方机器人的当前决策行为,对每一己方机器人进行控制。本发明提供的方法、装置、电子设备和存储介质,利用了对方机器人的训练数据,扩大了训练样本,提高了训练数据的利用率,提高了协作对抗模型的鲁棒性和准确性。

Description

多机器人协作对抗方法、装置、电子设备和存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种多机器人协作对抗方法、装置、电子设备和存储介质。
背景技术
实体机器人对抗系统一直以来都是人工智能研究的重点。现有的实体机器人对抗系统的决策方法主要可分为两大类,一类是以有限状态机和行为决策树为代表的传统规则型方法,该类方法可结合博弈论模型或交互式动态影响图方法提升模型决策性能。另一类则是基于马尔科夫决策过程的决策型方法,将决策问题建模成马尔科夫决策过程进行求解,并且可以结合遗传算法或随机组合梯度下降的方法求解马尔科夫决策模型。
然而,随着状态空间的增加,求解目标优化问题的计算量会迅速增加,并且严重依赖于专家模型的质量,数据利用率低,模型决策效率低,模型准确性差。
发明内容
本发明提供一种多机器人协作对抗方法、装置、电子设备和存储介质,用于解决现有技术中的多机器人对抗方法的数据利用率低,模型决策效率低,模型准确性差的技术问题。
本发明提供一种多机器人协作对抗方法,包括:
获取对抗环境的当前全局状态信息,以及每一己方机器人的当前局部观测信息;
将所述对抗环境的当前全局状态信息和每一己方机器人的当前局部观测信息输入至协作对抗模型,得到所述协作对抗模型输出的每一己方机器人的当前决策行为;
基于每一己方机器人的当前决策行为,对每一己方机器人进行控制;
其中,所述协作对抗模型是基于样本全局状态信息、每一己方机器人的样本局部观测信息、每一己方机器人的样本决策行为、每一己方机器人的样本决策行为对应的奖励、每一对方机器人的样本局部观测信息、每一对方机器人的样本决策行为,以及每一对方机器人的样本决策行为对应的奖励进行训练后得到的。
根据本发明提供的多机器人协作对抗方法,所述每一己方机器人的当前决策行为对应的奖励包括探索奖励;所述探索奖励是基于如下步骤确定的:
基于所述对抗环境的当前全局状态信息,以及训练特征模型和目标特征模型,确定当前全局状态信息特征误差;
基于任一己方机器人的当前局部观测信息,以及训练特征模型和目标特征模型,确定当前局部观测信息特征误差;
基于所述当前全局状态信息特征误差,以及所述任一己方机器人的历史全局状态信息特征误差,确定所述任一己方机器人的全局状态奖励;
基于所述当前局部观测信息特征误差,以及所述任一己方机器人的历史局部观测信息特征误差,确定所述任一己方机器人的局部观测奖励;
基于所述任一己方机器人的全局状态奖励和局部观测奖励,确定所述任一己方机器人的探索奖励;
其中,所述训练特征模型的损失函数是基于所述训练特征模型和所述目标特征模型的均方和误差确定的。
根据本发明提供的多机器人协作对抗方法,所述将所述对抗环境的当前全局状态信息和每一己方机器人的当前局部观测信息输入至协作对抗模型,得到所述协作对抗模型输出的每一己方机器人的当前决策行为,包括:
将所述对抗环境的当前全局状态信息输入至所述协作对抗模型的全局态势感知层,得到所述全局态势感知层输出的全局态势特征向量;
将每一己方机器人的当前局部观测信息输入至所述协作对抗模型的分布决策评估层,得到所述分布决策层输出的每一己方机器人的决策评估值;
将所述全局态势特征向量和所述每一己方机器人的决策评估值输入至所述协作对抗模型的集中决策评估层,得到所述集中决策评估层输出的联合决策评估值;
将所述联合决策评估值输入至所述协作对抗模型的行为确定层,得到所述行为确定层输出的每一己方机器人的当前决策行为。
根据本发明提供的多机器人协作对抗方法,所述将所述全局态势特征向量和所述每一己方机器人的决策评估值输入至所述协作对抗模型的集中决策评估层,得到所述集中决策评估层输出的联合决策评估值,包括:
将所述全局态势特征向量输入所述集中决策评估层中的第一特征提取层,得到所述第一特征提取层输出的第一权重和第一偏置;
将所述全局态势特征向量输入所述集中决策评估层中的第二特征提取层,得到所述第二特征提取层输出的第二权重;
将所述全局态势特征向量输入所述集中决策评估层中的第三特征提取层,得到所述第三特征提取层输出的第二偏置;
将所述每一己方机器人的决策评估值、所述第一权重、所述第一偏置、所述第二权重和所述第二偏置输入至所述集中决策评估层中的结果输出层,得到所述结果输出层输出的联合决策评估值;
其中,所述第一特征提取层包括两个全连接层和一个绝对值激活函数激活层;所述第二特征提取层包括一个全连接层和一个绝对值激活函数激活层;所述第三特征提取层包括两个全连接层和两个ReLU函数激活层。
根据本发明提供的多机器人协作对抗方法,所述每一对方机器人的样本局部观测信息、每一对方机器人的样本决策行为,以及每一对方机器人的样本决策行为对应的奖励是基于如下步骤确定的:
构建行为决策树;
基于所述行为决策树,以及任一对方机器人的样本局部观测信息,确定所述任一对方机器人的样本决策行为;
基于预设的奖励规则,以及所述任一对方机器人的样本决策行为,确定所述任一对方机器人的样本决策行为对应的奖励。
根据本发明提供的多机器人协作对抗方法,所述协作对抗模型是基于如下步骤训练的:
确定当前次迭代训练中的训练样本和陪练样本;所述陪练样本在当前次迭代训练中的数量低于上一次迭代训练中的数量;
基于所述训练样本和所述陪练样本,对所述协作对抗模型进行训练;
其中,所述训练样本为多机器人协作对抗过程中生成的历史全局状态信息、每一己方机器人的历史局部观测信息、每一己方机器人的历史决策行为,以及每一己方机器人的历史决策行为对应的奖励,所述陪练样本为每一对方机器人的历史局部观测信息、每一对方机器人的历史决策行为,以及每一对方机器人的历史决策行为对应的奖励。
本发明提供一种多机器人协作对抗装置,包括:
获取单元,用于获取对抗环境的当前全局状态信息,以及每一己方机器人的当前局部观测信息;
决策单元,用于将所述对抗环境的当前全局状态信息和每一己方机器人的当前局部观测信息输入至协作对抗模型,得到所述协作对抗模型输出的每一己方机器人的当前决策行为;
控制单元,用于基于每一己方机器人的当前决策行为,对每一己方机器人进行控制;
其中,所述协作对抗模型是基于样本全局状态信息、每一己方机器人的样本局部观测信息、每一己方机器人的样本决策行为、每一己方机器人的样本决策行为对应的奖励、每一对方机器人的样本局部观测信息、每一对方机器人的样本决策行为,以及每一对方机器人的样本决策行为对应的奖励进行训练后得到的。
本发明提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现所述多机器人协作对抗方法的步骤。
本发明提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述多机器人协作对抗方法的步骤。
本发明提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现所述多机器人协作对抗方法的步骤。
本发明提供的多机器人协作对抗方法、装置、电子设备和存储介质,根据样本全局状态信息、每一己方机器人的样本局部观测信息、每一己方机器人的样本决策行为、每一己方机器人的样本决策行为对应的奖励、每一对方机器人的样本局部观测信息、每一对方机器人的样本决策行为,以及每一对方机器人的样本决策行为对应的奖励训练后得到协作对抗模型,所得到的协作对抗模型能够根据当前全局状态信息,以及每一己方机器人的当前局部观测信息得到当前决策行为,由于利用了对方机器人的训练数据,扩大了训练样本,提高了训练数据的利用率,提高了协作对抗模型的鲁棒性和准确性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的多机器人协作对抗方法的流程示意图;
图2是本发明提供的协作对抗模型的结构示意图;
图3是本发明提供的协作对抗模型的训练示意图;
图4是本发明提供的多机器人协作对抗装置的结构示意图;
图5是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明提供的多机器人协作对抗方法的流程示意图,如图1所示,该方法包括:
步骤110,获取对抗环境的当前全局状态信息,以及每一己方机器人的当前局部观测信息。
具体地,本发明实施例提供的多机器人协作对抗方法可以适用于无人机对抗、智能体对抗等场景。其中,多机器人可以包括多个己方机器人和多个对方机器人。本发明实施例对于己方和对方的机器人的具体数量不作限定。
当前全局状态信息为当前时刻的全局状态信息。全局状态信息为整个对抗环境中的各个机器人的状态信息,以及对抗环境中对机器人的状态产生影响的物体的状态信息。例如,全局状态信息可以包括每一己方机器人的位置和姿态,每一对方机器人的位置和姿态,对抗环境中的实时地图信息。实时地图信息包括机器人可行区域信息和障碍物信息等。
可以采用二维特征映射平面图来表示全局状态信息,即将机器人的对抗环境的场地按照单位尺寸间隔进行转换,得到二维特征平面图,然后将全局状态信息投影到二维特征平面图,得到二维特征映射平面图。例如,假定对抗场地尺寸为8m×5m,以每10cm作为一个单位间隔,得到80×50的二维特征平面图。将己方机器人和对方机器人的位置姿态,栅格化后分别物理投影到二维平面,并将其与运行状态通过线性映射进行对应。比如,物理投影处为1时表示运行状态,0时表示故障状态。又比如在二维特征平面图中对障碍物信息进行标注,0表示可行区域,1表示障碍物区域。
当前局部观测信息为当前时刻任一机器人自身观测到的整个对抗环境中的各个机器人的状态信息,以及对抗环境中对机器人的状态产生影响的物体的状态信息。也就是说,局部观测信息的信息种类与全局状态信息相同,区别在于,局部观测信息是从任一机器人上安装的传感器检测到的。可以采用一维特征向量来表示当前局部观测信息。
步骤120,将对抗环境的当前全局状态信息和每一己方机器人的当前局部观测信息输入至协作对抗模型,得到协作对抗模型输出的每一己方机器人的当前决策行为;其中,协作对抗模型是基于样本全局状态信息、每一己方机器人的样本局部观测信息、每一己方机器人的样本决策行为、每一己方机器人的样本决策行为对应的奖励、每一对方机器人的样本局部观测信息、每一对方机器人的样本决策行为,以及每一对方机器人的样本决策行为对应的奖励进行训练后得到的。
具体地,当前决策行为为每一己方机器人在当前时刻的决策行为。决策行为为机器人在协作对抗中的采取的行为行为。例如,决策行为可以为前进、后退、左转、右转、执行特定行为等。可以采用深度强化学习的方法,建立协作对抗模型,对每一己方机器人在协作对抗中的决策行为进行确定。
可以将对抗环境的当前全局状态信息和每一己方机器人的当前局部观测信息输入至协作对抗模型,由协作对抗模型对当前全局状态信息和每一己方机器人的当前局部观测信息进行学习,确定满足全局最优结果的每一己方机器人的当前决策行为。
协作对抗模型可以通过强化学习算法构建,其运行原理为:如果每一己方机器人根据当前全局状态信息和当前局部观测信息做出某个决策行为,该决策行为导致其对应的奖励增加,则每一己方机器人以后采取这个决策行为的趋势便会增强。协作对抗模型的目的是在每个时刻发现最优的决策行为,使得每一己方机器人采取最优的决策行为后能够获得最大的奖励。
协作对抗模型的训练样本包括样本全局状态信息、每一己方机器人的样本局部观测信息、每一己方机器人的样本决策行为、每一己方机器人的样本决策行为对应的奖励、每一对方机器人的样本局部观测信息、每一对方机器人的样本决策行为,以及每一对方机器人的样本决策行为对应的奖励作为训练样本。
训练样本可以来自训练过程中实时产生的数据,也可以来自之前协作对抗过程中产生的历史数据。
步骤130,基于每一己方机器人的当前决策行为,对每一己方机器人进行控制。
具体地,根据协作对抗模型输出的每一己方机器人的当前决策行为,控制每一己方机器人进行协作对抗,从而得到最佳的协作对抗效果。
本发明实施例提供的多机器人协作对抗方法,根据样本全局状态信息、每一己方机器人的样本局部观测信息、每一己方机器人的样本决策行为、每一己方机器人的样本决策行为对应的奖励、每一对方机器人的样本局部观测信息、每一对方机器人的样本决策行为,以及每一对方机器人的样本决策行为对应的奖励训练后得到协作对抗模型,所得到的协作对抗模型能够根据当前全局状态信息,以及每一己方机器人的当前局部观测信息得到当前决策行为,由于利用了对方机器人的训练数据,扩大了训练样本,提高了训练数据的利用率,提高了协作对抗模型的鲁棒性和准确性。
基于上述实施例,每一己方机器人的当前决策行为对应的奖励包括探索奖励;探索奖励是基于如下步骤确定的:
基于对抗环境的当前全局状态信息,以及训练特征模型和目标特征模型,确定当前全局状态信息特征误差;
基于任一己方机器人的当前局部观测信息,以及训练特征模型和目标特征模型,确定当前局部观测信息特征误差;
基于当前全局状态信息特征误差,以及任一己方机器人的历史全局状态信息特征误差,确定任一己方机器人的全局状态奖励;
基于当前局部观测信息特征误差,以及任一己方机器人的历史局部观测信息特征误差,确定任一己方机器人的局部观测奖励;
基于任一己方机器人的全局状态奖励和局部观测奖励,确定任一己方机器人的探索奖励;
其中,训练特征模型的损失函数是基于训练特征模型和目标特征模型的均方和误差确定的。
具体地,每一己方机器人的当前决策行为对应的奖励可以包括探索奖励,还可以包括根据协作对抗的规则确定的常规奖励。例如,训练过程中t时刻的总奖励
Figure BDA0003282607520000101
为常规奖励
Figure BDA0003282607520000102
与探索奖励
Figure BDA0003282607520000103
的累加和,用公式表示为:
Figure BDA0003282607520000104
常规奖励
Figure BDA0003282607520000105
是根据协作对抗的规则确定的,例如,常规奖励
Figure BDA0003282607520000106
反映对抗过程中己方的有效奖励,对应t时刻的第一资源奖励
Figure BDA0003282607520000107
第二资源奖励
Figure BDA0003282607520000108
行为附加奖励
Figure BDA0003282607520000109
及取胜奖励
Figure BDA00032826075200001010
具体表示为
Figure BDA00032826075200001011
其中,
Figure BDA00032826075200001012
Figure BDA00032826075200001013
为t时刻己方与对方的第一资源,
Figure BDA00032826075200001014
Figure BDA00032826075200001015
为t时刻己方与对方的第二资源,
Figure BDA00032826075200001016
Figure BDA00032826075200001017
为t时刻己方与对方的行为附加状态,
Figure BDA00032826075200001018
Figure BDA00032826075200001019
为t-1时刻己方与对方的第一资源,
Figure BDA00032826075200001020
Figure BDA00032826075200001021
为t-1时刻己方与对方的第二资源,
Figure BDA00032826075200001022
Figure BDA00032826075200001023
为t时刻己方与对方的行为附加状态。
探索奖励
Figure BDA00032826075200001024
基于好奇心驱动机制设计,具体步骤包括:
首先,可以以全连接神经网络为初始模型,随机初始化后分别建立训练特征模型f和目标特征模型
Figure BDA00032826075200001025
根据t时刻对抗环境的当前全局状态信息st,以及训练特征模型f和目标特征模型
Figure BDA00032826075200001026
确定当前全局状态信息特征误差
Figure BDA00032826075200001027
根据t时刻任一己方机器人的当前局部观测信息ot,以及训练特征模型f和目标特征模型
Figure BDA00032826075200001028
确定当前局部观测信息特征误差
Figure BDA00032826075200001029
基于当前全局状态信息特征误差
Figure BDA00032826075200001030
以及任一己方机器人的历史全局状态信息特征误差的平均值
Figure BDA0003282607520000111
确定任一己方机器人的全局状态奖励
Figure BDA0003282607520000112
基于当前局部观测信息特征误差
Figure BDA0003282607520000113
以及任一己方机器人的历史局部观测信息特征误差的平均值
Figure BDA0003282607520000114
确定任一己方机器人的局部观测奖励
Figure BDA0003282607520000115
基于任一己方机器人的全局状态奖励
Figure BDA0003282607520000116
和局部观测奖励
Figure BDA0003282607520000117
确定任一己方机器人的探索奖励
Figure BDA0003282607520000118
可以用公式表示为:
Figure BDA0003282607520000119
其中,clip表示截断函数,
Figure BDA00032826075200001110
Figure BDA00032826075200001111
表示局部观测信息与全局状态信息的历史数据的特征误差的平均值,std(erro)与std(errs)为对应的局部观测信息与全局状态信息的历史数据的特征误差的标准差。
其中,训练特征模型的损失函数err是基于训练特征模型f和目标特征模型
Figure BDA00032826075200001112
的均方和误差确定的,用公式表示为:
Figure BDA00032826075200001113
在机器人探索过程中,训练特征模型f通过最小化均方误差来逼近目标特征模型
Figure BDA00032826075200001114
该方式等价于促使机器人记录下已经历的对抗环境状态。
同时,为避免特征模型由于过早拟合而落入局部极值解陷阱,设计了一种目标特征模型权重更新机制,表示为:
Figure BDA0003282607520000121
其中,θf表示训练特征模型权重,
Figure BDA0003282607520000122
表示目标特征模型权重,α为惯性因子。通过该更新机制使模型具备适当的状态遗忘性,防止模型过早收敛而降低探索效率。
本发明实施例提供的多机器人协作对抗方法,采用了好奇心机制确定探索奖励,提升机器人在对抗环境中的探索效率,引导协作对抗模型向更多未知环境探索,提高模型的鲁棒性和准确性。
基于上述任一实施例,步骤120包括:
将对抗环境的当前全局状态信息输入至协作对抗模型的全局态势感知层,得到全局态势感知层输出的全局态势特征向量;
将每一己方机器人的当前局部观测信息输入至协作对抗模型的分布决策评估层,得到分布决策层输出的每一己方机器人的决策评估值;
将全局态势特征向量和每一己方机器人的决策评估值输入至协作对抗模型的集中决策评估层,得到集中决策评估层输出的联合决策评估值;
将联合决策评估值输入至协作对抗模型的行为确定层,得到行为确定层输出的每一己方机器人的当前决策行为。
具体地,图2是本发明提供的协作对抗模型的结构示意图,如图2所示,从结构上来看,协作对抗模型包括全局态势感知层、分布决策评估层、集中决策评估层和行为确定层。
全局态势感知层,用于对对抗环境的当前全局状态信息进行特征提取,得到全局态势特征向量。全局态势感知层以SqueezeNet的核心模块Fire Module作为二维特征提取层,因其具有通过卷积核参数设计来压缩权重数量的作用,故将其定义为卷积型权重压缩模块。该模块在保证神经网络模型性能的前提下减少模型训练权重数量。采用两层卷积型权重压缩模块进行二维特征提取,激活函数为线性整流函数(Rectified Linear Unit,简称ReLU)。对经过卷积型权重压缩模块输出的隐层信息进行平铺,随后将隐层信息接入到由全连接层构成的神经网络模型,并得到全局态势特征向量,对应激活函数同样为ReLU。
分布决策评估层,用于根据每一己方机器人的当前局部观测信息,确定每一己方机器人的决策评估值。分布决策评估层,可以包括多个机器人决策网络,机器人决策网络与己方机器人一一对应。
机器人决策网络以机器人局部观测信息作为输入,首先经过一层全连接网络,对输入信息进行压缩,对应激活函数为ReLU。然后再经过一层门控循环单元网络(GRU)适当保留时间序列信息,对应激活函数为双曲正切函数(tanh),最后再接一层全连接网络,将隐层信息转换为决策评估值输出。
集中决策评估层,用于根据全局态势特征向量和每一己方机器人的决策评估值,确定用于对每一己方机器人的决策行为进行整体评估的联合决策评估值。
行为确定层,用于根据联合决策评估值,确定每一己方机器人的当前决策行为。
基于上述任一实施例,将全局态势特征向量和每一己方机器人的决策评估值输入至协作对抗模型的集中决策评估层,得到集中决策评估层输出的联合决策评估值,包括:
将全局态势特征向量输入集中决策评估层中的第一特征提取层,得到第一特征提取层输出的第一权重和第一偏置;
将全局态势特征向量输入集中决策评估层中的第二特征提取层,得到第二特征提取层输出的第二权重;
将全局态势特征向量输入集中决策评估层中的第三特征提取层,得到第三特征提取层输出的第二偏置;
将每一己方机器人的决策评估值、第一权重、第一偏置、第二权重和第二偏置输入至集中决策评估层中的结果输出层,得到结果输出层输出的联合决策评估值;
其中,第一特征提取层包括两个全连接层和一个绝对值激活函数激活层;第二特征提取层包括一个全连接层和一个绝对值激活函数激活层;第三特征提取层包括两个全连接层和两个ReLU函数激活层。
具体地,集中决策评估层参考QMIX算法结构设计思路进行网络设计。从结构上看,集中决策评估层可以包括第一特征提取层、第二特征提取层、第三特征提取层和结果输出层。
第一特征提取层包括依次连接的两个全连接层和一个绝对值激活函数激活层。将全局态势特征向量输入集中决策评估层中的第一特征提取层,得到第一特征提取层输出的第一权重wh1和第一偏置bh1
第二特征提取层包括依次连接的一个全连接层和一个绝对值激活函数激活层。将全局态势特征向量输入集中决策评估层中的第二特征提取层,得到第二特征提取层输出的第二权重wfinal
第三特征提取层包括两个全连接层和两个ReLU函数激活层,连接顺序依次为第一全连接层、第一ReLU函数激活层、第二全连接层和第二ReLU函数激活层。将全局态势特征向量输入集中决策评估层中的第三特征提取层,得到第三特征提取层输出的第二偏置bfinal
将每一己方机器人的决策评估值Qi、第一权重wh1、第一偏置bh1、第二权重wfinal和第二偏置bfinal输入至集中决策评估层中的结果输出层,得到结果输出层输出的联合决策评估值Qtot。可以用公式表示为:
Figure BDA0003282607520000141
Qtot=(HTwfinal+bfinal)
其中,Elu为激活函数,H为中间计算量,T为转置运算符,QS为每一己方机器人的决策评估值Qi的拼接结果,i为己方机器人的标号。
基于上述任一实施例,根据多机器人深度强化学习,采用高效地联合观测-行为-状态值函数优化方法,对每个机器人的观测-行为值函数进行训练后,得到相应的决策行为。
相关具体步骤为:
首先,从个体角度,定义t时刻机器人i的局部观测信息为oi,t,决策行为为ai,t,全局状态信息为st
接着,在多机器人对抗过程中,保存对应机器人i的观测-行为序列轨迹τi,其表示为τi=(oi,0,ai,0,…,oi,t,ai,t),对应机器人i的观测-行为值函数为Qii,ai;θi),θi表示对应的模型权重。多机器人联合观测-行为序列轨迹τ=(τ1,…,τn),联合行为a=(a1,…,an),n为机器人数量。
然后,对每个机器人的观测-行为值函数进行直接求和,得到的多机器人联合观测-行为值函数Qtot(τ,a)表示为
Figure BDA0003282607520000151
在此基础之上,利用学习过程中的全局状态信息s,并且采用集中决策评估层对每个机器人的值函数进行合并得到最终的多机器人联合观测-行为-状态值函数Qtot(τ,a,s;θ),对应的训练损失函数L(θ)定义为:
L(θ)=(ytot-Qtot(τ,a,s;θ))2
为有效利用离策略样本数据,更新目标值采用离策略强化学习方法,目标值ytot为:
Figure BDA0003282607520000152
其中,r表示奖励信号,γ为折扣因子,
Figure BDA0003282607520000153
表示为多机器人联合观测-行为-状态值目标函数。
最后,为有效考虑机器人的累积奖励,采用资格迹方法TD(λ)进一步计算优化目标值,因此实际计算的目标值为:
Figure BDA0003282607520000161
其中,
Figure BDA0003282607520000162
表示从t时刻开始后j步的未来期望回报估计,k为时刻参数,λ为参数。并且,在训练网络权重θ的基础上,采用软更新(Soft-Update)方式更新目标网络权重
Figure BDA0003282607520000163
β为惯性因子,更新过程记为:
Figure BDA0003282607520000164
训练优化过程中采用自适应矩估计优化器(Adam)作为模型训练优化器。环境运行采用并行交互的方式生成训练数据,经验池回放方式为优先级经验回放,模型探索方式为∈-贪心,探索系数∈采用线性下降的方式,以逐步降低机器人模型的探索随机性。对手策略模型生成的数据保留率同样为线性下降的方式,以逐步降低机器人模型在训练过程中对对手行为数据的依赖性。
当协作对抗模型在训练过程中的胜率满足策略任务要求时,训练过程结束。反之,返回到上述步骤再次对模型进行迭代优化。
当训练过程结束后,由机器人网络得到对应训练完成的观测-动作值函数
Figure BDA0003282607520000165
o为机器人局部观测信息,对应的决策行为a*的取值方式为贪心方法,表示为:
Figure BDA0003282607520000166
训练过程中,QMIX算法假定多机器人的联合观测-行为-状态值函数Qtot(τ,a,s;θ)取argmax等价于每个机器人i的观测-行为值函数Qii,ai;θi)取argmax,表示全局与个体的单调性相同,具体表示为:
Figure BDA0003282607520000167
通过贪心方式获取每个个体Qi的最优行为。为使QMIX满足单调性,条件约束定义为
Figure BDA0003282607520000171
因此,以绝对值激活函数Abs作为第一特征提取层和第二特征提取层中全连接网络的激活函数。将多机器人决策Qi值经过相应权重和偏置的非线性变换,得到多机器人联合观测-行为-状态值函数Qtot(τ,a,s;θ)。
基于上述任一实施例,每一对方机器人的样本局部观测信息、每一对方机器人的样本决策行为,以及每一对方机器人的样本决策行为对应的奖励是基于如下步骤确定的:
构建行为决策树;
基于行为决策树,以及任一对方机器人的样本局部观测信息,确定任一对方机器人的样本决策行为;
基于预设的奖励规则,以及任一对方机器人的样本决策行为,确定任一对方机器人的样本决策行为对应的奖励。
具体地,可以通过构建行为决策树的方式,来生成高质量的训练样本,提高协作对抗模型的训练效率和准确性,还可以处理模型训练冷启动困难的问题。
可以根据协作对抗训练中的规则,确定对方机器人的行为逻辑,然后构建行为决策树。然后将任一对方机器人的样本局部观测信息输入至行为决策树中,确定该对方机器人的样本决策行为。
然后按照预设的奖励规则,根据该对方机器人的样本决策行为,确定该对方机器人的样本决策行为对应的奖励。
此处,预设的奖励规则确定的奖励,可以与己方机器人根据协作对抗的规则确定的常规奖励相同,也就是说,对方机器人的奖励仅包括常规奖励。
每一对方机器人的样本局部观测信息、每一对方机器人的样本决策行为,以及每一对方机器人的样本决策行为对应的奖励可以以三元组形式存储。
基于上述任一实施例,协作对抗模型是基于如下步骤训练的:
确定当前次迭代训练中的训练样本和陪练样本;陪练样本在当前次迭代训练中的数量低于上一次迭代训练中的数量;
基于训练样本和陪练样本,对协作对抗模型进行训练;
其中,训练样本为多机器人协作对抗过程中生成的历史全局状态信息、每一己方机器人的历史局部观测信息、每一己方机器人的历史决策行为,以及每一己方机器人的历史决策行为对应的奖励,陪练样本为每一对方机器人的历史局部观测信息、每一对方机器人的历史决策行为,以及每一对方机器人的历史决策行为对应的奖励。
具体地,以己方机器人的数据为训练样本,以对方机器人的数据为陪练样本,对协作对抗模型进行训练。在训练过程中,随着迭代训练次数的增加,使得陪练样本在当前次迭代训练中的数量低于上一次迭代训练中的数量,直至逐渐减少为零,避免协作对抗模型在进行迭代优化时被困在局部区域,得不到全局优化解。
图3是本发明提供的协作对抗模型的训练示意图,如图3所示,己方机器人和对方机器人的数量均为2,可以采用经验回放的方法训练协作对抗模型。以行为决策树作为训练过程中的对方的决策模型,将其在对抗过程中执行决策行为过程所产生的数据转化为深度强化学习模型对应的状态-动作-奖励三元组的形式,并且使行为决策树的生成数据作为深度强化学习决策模型训练集中的一部分,存入到对抗经验回放池。由此改善经验池数据的样本分布,加快模型优化训练过程。对抗过程中的队伍分为两方,随机以其中一方作为训练方(己方),另一方作为陪练方(对方)。训练方与陪练方在对抗过程中同时生成交互数据信息。开始时,陪练方数据以100%概率存入到对抗经验回放池。训练时从对抗经验回放池中进行随机采样数据,计算训练方的探索奖励。随后将对抗双方的全局状态-局部观测-动作-奖励构成的数据信息并入到训练批。最后通过多机器人深度强化学习更新优化所有网络模型,并随着训练迭代次数的增加,线性降低陪练方的样本存储概率,避免模型优化被困在局部区域。
基于上述任一实施例,图4是本发明提供的多机器人协作对抗装置的结构示意图,如图4所示,该装置包括:
获取单元410,用于获取对抗环境的当前全局状态信息,以及每一己方机器人的当前局部观测信息;
决策单元420,用于将对抗环境的当前全局状态信息和每一己方机器人的当前局部观测信息输入至协作对抗模型,得到协作对抗模型输出的每一己方机器人的当前决策行为;
控制单元430,用于基于每一己方机器人的当前决策行为,对每一己方机器人进行控制;
其中,协作对抗模型是基于样本全局状态信息、每一己方机器人的样本局部观测信息、每一己方机器人的样本决策行为、每一己方机器人的样本决策行为对应的奖励、每一对方机器人的样本局部观测信息、每一对方机器人的样本决策行为,以及每一对方机器人的样本决策行为对应的奖励进行训练后得到的。
本发明实施例提供的多机器人协作对抗装置,根据样本全局状态信息、每一己方机器人的样本局部观测信息、每一己方机器人的样本决策行为、每一己方机器人的样本决策行为对应的奖励、每一对方机器人的样本局部观测信息、每一对方机器人的样本决策行为,以及每一对方机器人的样本决策行为对应的奖励训练后得到协作对抗模型,所得到的协作对抗模型能够根据当前全局状态信息,以及每一己方机器人的当前局部观测信息得到当前决策行为,由于利用了对方机器人的训练数据,扩大了训练样本,提高了训练数据的利用率,提高了协作对抗模型的鲁棒性和准确性。
基于上述任一实施例,每一己方机器人的当前决策行为对应的奖励包括探索奖励;探索奖励是基于如下步骤确定的:
基于对抗环境的当前全局状态信息,以及训练特征模型和目标特征模型,确定当前全局状态信息特征误差;
基于任一己方机器人的当前局部观测信息,以及训练特征模型和目标特征模型,确定当前局部观测信息特征误差;
基于当前全局状态信息特征误差,以及任一己方机器人的历史全局状态信息特征误差,确定任一己方机器人的全局状态奖励;
基于当前局部观测信息特征误差,以及任一己方机器人的历史局部观测信息特征误差,确定任一己方机器人的局部观测奖励;
基于任一己方机器人的全局状态奖励和局部观测奖励,确定任一己方机器人的探索奖励;
其中,训练特征模型的损失函数是基于训练特征模型和目标特征模型的均方和误差确定的。
基于上述任一实施例,决策单元包括:
全局感知子单元,用于将对抗环境的当前全局状态信息输入至协作对抗模型的全局态势感知层,得到全局态势感知层输出的全局态势特征向量;
分布决策子单元,用于将每一己方机器人的当前局部观测信息输入至协作对抗模型的分布决策评估层,得到分布决策层输出的每一己方机器人的决策评估值;
集中决策子单元,用于将全局态势特征向量和每一己方机器人的决策评估值输入至协作对抗模型的集中决策评估层,得到集中决策评估层输出的联合决策评估值;
结果输出子单元,用于将联合决策评估值输入至协作对抗模型的动作确定层,得到动作确定层输出的每一己方机器人的当前决策行为。
基于上述任一实施例,集中决策子单元具体用于:
将全局态势特征向量输入集中决策评估层中的第一特征提取层,得到第一特征提取层输出的第一权重和第一偏置;
将全局态势特征向量输入集中决策评估层中的第二特征提取层,得到第二特征提取层输出的第二权重;
将全局态势特征向量输入集中决策评估层中的第三特征提取层,得到第三特征提取层输出的第二偏置;
将每一己方机器人的决策评估值、第一权重、第一偏置、第二权重和第二偏置输入至集中决策评估层中的结果输出层,得到结果输出层输出的联合决策评估值;
其中,第一特征提取层包括两个全连接层和一个绝对值激活函数激活层;第二特征提取层包括一个全连接层和一个绝对值激活函数激活层;第三特征提取层包括两个全连接层和两个ReLU函数激活层。
基于上述任一实施例,还包括:
陪练样本确定单元,用于构建行为决策树;
基于行为决策树,以及任一对方机器人的样本局部观测信息,确定任一对方机器人的样本决策行为;
基于预设的奖励规则,以及任一对方机器人的样本决策行为,确定任一对方机器人的样本决策行为对应的奖励。
基于上述任一实施例,还包括:
模型训练单元,用于确定当前次迭代训练中的训练样本和陪练样本;陪练样本在当前次迭代训练中的数量低于上一次迭代训练中的数量;
基于训练样本和陪练样本,对协作对抗模型进行训练;
其中,训练样本为多机器人协作对抗过程中生成的历史全局状态信息、每一己方机器人的历史局部观测信息、每一己方机器人的历史决策行为,以及每一己方机器人的历史决策行为对应的奖励,陪练样本为每一对方机器人的历史局部观测信息、每一对方机器人的历史决策行为,以及每一对方机器人的历史决策行为对应的奖励。
基于上述任一实施例,图5为本发明提供的电子设备的结构示意图,如图5所示,该电子设备可以包括:处理器(Processor)510、通信接口(Communications Interface)520、存储器(Memory)530和通信总线(Communications Bus)540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑命令,以执行如下方法:
获取对抗环境的当前全局状态信息,以及每一己方机器人的当前局部观测信息;将对抗环境的当前全局状态信息和每一己方机器人的当前局部观测信息输入至协作对抗模型,得到协作对抗模型输出的每一己方机器人的当前决策行为;基于每一己方机器人的当前决策行为,对每一己方机器人进行控制;其中,协作对抗模型是基于样本全局状态信息、每一己方机器人的样本局部观测信息、每一己方机器人的样本决策行为、每一己方机器人的样本决策行为对应的奖励、每一对方机器人的样本局部观测信息、每一对方机器人的样本决策行为,以及每一对方机器人的样本决策行为对应的奖励进行训练后得到的。
此外,上述的存储器530中的逻辑命令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干命令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例提供的电子设备中的处理器可以调用存储器中的逻辑指令,实现上述方法,其具体的实施方式与前述方法实施方式一致,且可以达到相同的有益效果,此处不再赘述。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法,例如包括:
获取对抗环境的当前全局状态信息,以及每一己方机器人的当前局部观测信息;将对抗环境的当前全局状态信息和每一己方机器人的当前局部观测信息输入至协作对抗模型,得到协作对抗模型输出的每一己方机器人的当前决策行为;基于每一己方机器人的当前决策行为,对每一己方机器人进行控制;其中,协作对抗模型是基于样本全局状态信息、每一己方机器人的样本局部观测信息、每一己方机器人的样本决策行为、每一己方机器人的样本决策行为对应的奖励、每一对方机器人的样本局部观测信息、每一对方机器人的样本决策行为,以及每一对方机器人的样本决策行为对应的奖励进行训练后得到的。
本发明实施例提供的非暂态计算机可读存储介质上存储的计算机程序被执行时,实现上述方法,其具体的实施方式与前述方法实施方式一致,且可以达到相同的有益效果,此处不再赘述。
本发明实施例提供一种计算机程序产品,包括计算机程序,其特征在于,计算机程序被处理器执行时实现如上述多机器人协作对抗方法的步骤。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干命令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种多机器人协作对抗方法,其特征在于,包括:
获取对抗环境的当前全局状态信息,以及每一己方机器人的当前局部观测信息;
将所述对抗环境的当前全局状态信息和每一己方机器人的当前局部观测信息输入至协作对抗模型,得到所述协作对抗模型输出的每一己方机器人的当前决策行为;
基于每一己方机器人的当前决策行为,对每一己方机器人进行控制;
其中,所述协作对抗模型是基于样本全局状态信息、每一己方机器人的样本局部观测信息、每一己方机器人的样本决策行为、每一己方机器人的样本决策行为对应的奖励、每一对方机器人的样本局部观测信息、每一对方机器人的样本决策行为,以及每一对方机器人的样本决策行为对应的奖励进行训练后得到的。
2.根据权利要求1所述的多机器人协作对抗方法,其特征在于,所述每一己方机器人的当前决策行为对应的奖励包括探索奖励;所述探索奖励是基于如下步骤确定的:
基于所述对抗环境的当前全局状态信息,以及训练特征模型和目标特征模型,确定当前全局状态信息特征误差;
基于任一己方机器人的当前局部观测信息,以及训练特征模型和目标特征模型,确定当前局部观测信息特征误差;
基于所述当前全局状态信息特征误差,以及所述任一己方机器人的历史全局状态信息特征误差,确定所述任一己方机器人的全局状态奖励;
基于所述当前局部观测信息特征误差,以及所述任一己方机器人的历史局部观测信息特征误差,确定所述任一己方机器人的局部观测奖励;
基于所述任一己方机器人的全局状态奖励和局部观测奖励,确定所述任一己方机器人的探索奖励;
其中,所述训练特征模型的损失函数是基于所述训练特征模型和所述目标特征模型的均方和误差确定的。
3.根据权利要求1所述的多机器人协作对抗方法,其特征在于,所述将所述对抗环境的当前全局状态信息和每一己方机器人的当前局部观测信息输入至协作对抗模型,得到所述协作对抗模型输出的每一己方机器人的当前决策行为,包括:
将所述对抗环境的当前全局状态信息输入至所述协作对抗模型的全局态势感知层,得到所述全局态势感知层输出的全局态势特征向量;
将每一己方机器人的当前局部观测信息输入至所述协作对抗模型的分布决策评估层,得到所述分布决策层输出的每一己方机器人的决策评估值;
将所述全局态势特征向量和所述每一己方机器人的决策评估值输入至所述协作对抗模型的集中决策评估层,得到所述集中决策评估层输出的联合决策评估值;
将所述联合决策评估值输入至所述协作对抗模型的行为确定层,得到所述行为确定层输出的每一己方机器人的当前决策行为。
4.根据权利要求3所述的多机器人协作对抗方法,其特征在于,所述将所述全局态势特征向量和所述每一己方机器人的决策评估值输入至所述协作对抗模型的集中决策评估层,得到所述集中决策评估层输出的联合决策评估值,包括:
将所述全局态势特征向量输入所述集中决策评估层中的第一特征提取层,得到所述第一特征提取层输出的第一权重和第一偏置;
将所述全局态势特征向量输入所述集中决策评估层中的第二特征提取层,得到所述第二特征提取层输出的第二权重;
将所述全局态势特征向量输入所述集中决策评估层中的第三特征提取层,得到所述第三特征提取层输出的第二偏置;
将所述每一己方机器人的决策评估值、所述第一权重、所述第一偏置、所述第二权重和所述第二偏置输入至所述集中决策评估层中的结果输出层,得到所述结果输出层输出的联合决策评估值;
其中,所述第一特征提取层包括两个全连接层和一个绝对值激活函数激活层;所述第二特征提取层包括一个全连接层和一个绝对值激活函数激活层;所述第三特征提取层包括两个全连接层和两个ReLU函数激活层。
5.根据权利要求1至4任一项所述的多机器人协作对抗方法,其特征在于,所述每一对方机器人的样本局部观测信息、每一对方机器人的样本决策行为,以及每一对方机器人的样本决策行为对应的奖励是基于如下步骤确定的:
构建行为决策树;
基于所述行为决策树,以及任一对方机器人的样本局部观测信息,确定所述任一对方机器人的样本决策行为;
基于预设的奖励规则,以及所述任一对方机器人的样本决策行为,确定所述任一对方机器人的样本决策行为对应的奖励。
6.根据权利要求1至4任一项所述的多机器人协作对抗方法,其特征在于,所述协作对抗模型是基于如下步骤训练的:
确定当前次迭代训练中的训练样本和陪练样本;所述陪练样本在当前次迭代训练中的数量低于上一次迭代训练中的数量;
基于所述训练样本和所述陪练样本,对所述协作对抗模型进行训练;
其中,所述训练样本为多机器人协作对抗过程中生成的历史全局状态信息、每一己方机器人的历史局部观测信息、每一己方机器人的历史决策行为,以及每一己方机器人的历史决策行为对应的奖励,所述陪练样本为每一对方机器人的历史局部观测信息、每一对方机器人的历史决策行为,以及每一对方机器人的历史决策行为对应的奖励。
7.一种多机器人协作对抗装置,其特征在于,包括:
获取单元,用于获取对抗环境的当前全局状态信息,以及每一己方机器人的当前局部观测信息;
决策单元,用于将所述对抗环境的当前全局状态信息和每一己方机器人的当前局部观测信息输入至协作对抗模型,得到所述协作对抗模型输出的每一己方机器人的当前决策行为;
控制单元,用于基于每一己方机器人的当前决策行为,对每一己方机器人进行控制;
其中,所述协作对抗模型是基于样本全局状态信息、每一己方机器人的样本局部观测信息、每一己方机器人的样本决策行为、每一己方机器人的样本决策行为对应的奖励、每一对方机器人的样本局部观测信息、每一对方机器人的样本决策行为,以及每一对方机器人的样本决策行为对应的奖励进行训练后得到的。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述多机器人协作对抗方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述多机器人协作对抗方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述多机器人协作对抗方法的步骤。
CN202111136603.0A 2021-09-27 2021-09-27 多机器人协作对抗方法、装置、电子设备和存储介质 Active CN113894780B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111136603.0A CN113894780B (zh) 2021-09-27 2021-09-27 多机器人协作对抗方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111136603.0A CN113894780B (zh) 2021-09-27 2021-09-27 多机器人协作对抗方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN113894780A true CN113894780A (zh) 2022-01-07
CN113894780B CN113894780B (zh) 2023-05-05

Family

ID=79029852

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111136603.0A Active CN113894780B (zh) 2021-09-27 2021-09-27 多机器人协作对抗方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN113894780B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114489144A (zh) * 2022-04-08 2022-05-13 中国科学院自动化研究所 无人机自主机动决策方法、装置及无人机
CN115268481A (zh) * 2022-07-06 2022-11-01 中国航空工业集团公司沈阳飞机设计研究所 一种无人机对抗策略决策方法及其系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170158A (zh) * 2017-12-05 2018-06-15 中国科学院自动化研究所 基于数据驱动的无人机智能对抗控制方法
CN112180724A (zh) * 2020-09-25 2021-01-05 中国人民解放军军事科学院国防科技创新研究院 一种在干扰条件下多智能体协同合作的训练方法及系统
CN112364984A (zh) * 2020-11-13 2021-02-12 南京航空航天大学 一种协作多智能体强化学习方法
CN112434791A (zh) * 2020-11-13 2021-03-02 北京圣涛平试验工程技术研究院有限责任公司 多智能体强对抗仿真方法、装置及电子设备
CN112783209A (zh) * 2020-12-31 2021-05-11 北京航空航天大学 一种基于鸽群智能竞争学习的无人机集群对抗控制方法
CN113283574A (zh) * 2021-07-22 2021-08-20 中国科学院自动化研究所 群体对抗中智能体控制方法、装置、电子设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170158A (zh) * 2017-12-05 2018-06-15 中国科学院自动化研究所 基于数据驱动的无人机智能对抗控制方法
CN112180724A (zh) * 2020-09-25 2021-01-05 中国人民解放军军事科学院国防科技创新研究院 一种在干扰条件下多智能体协同合作的训练方法及系统
CN112364984A (zh) * 2020-11-13 2021-02-12 南京航空航天大学 一种协作多智能体强化学习方法
CN112434791A (zh) * 2020-11-13 2021-03-02 北京圣涛平试验工程技术研究院有限责任公司 多智能体强对抗仿真方法、装置及电子设备
CN112783209A (zh) * 2020-12-31 2021-05-11 北京航空航天大学 一种基于鸽群智能竞争学习的无人机集群对抗控制方法
CN113283574A (zh) * 2021-07-22 2021-08-20 中国科学院自动化研究所 群体对抗中智能体控制方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114489144A (zh) * 2022-04-08 2022-05-13 中国科学院自动化研究所 无人机自主机动决策方法、装置及无人机
CN115268481A (zh) * 2022-07-06 2022-11-01 中国航空工业集团公司沈阳飞机设计研究所 一种无人机对抗策略决策方法及其系统

Also Published As

Publication number Publication date
CN113894780B (zh) 2023-05-05

Similar Documents

Publication Publication Date Title
CN111401556B (zh) 一种对抗式模仿学习中奖励函数的选择方法
US11491400B2 (en) Method, apparatus, and device for scheduling virtual objects in virtual environment
CN112596515B (zh) 一种多物流机器人移动控制方法及装置
CN113894780B (zh) 多机器人协作对抗方法、装置、电子设备和存储介质
CN111260040A (zh) 基于内在奖励的视频游戏决策方法
CN111783994A (zh) 强化学习的训练方法和装置
CN113919482A (zh) 智能体训练方法、装置、计算机设备和存储介质
CN113341972A (zh) 一种基于深度强化学习的机器人路径寻优规划方法
CN113741533A (zh) 一种基于模仿学习与强化学习的无人机智能决策系统
CN113947022B (zh) 一种基于模型的近端策略优化方法
CN112613608A (zh) 一种强化学习方法及相关装置
CN114757362A (zh) 一种基于边缘增强的多智能体系统通信方法及相关装置
CN116841317A (zh) 一种基于图注意力强化学习的无人机集群协同对抗方法
CN115409158A (zh) 基于分层深度强化学习模型的机器人行为决策方法及设备
CN116147627A (zh) 一种结合深度强化学习和内在动机的移动机器人自主导航方法
CN117828286A (zh) 基于深度强化学习的多智能体对抗决策方法及装置
CN117518907A (zh) 智能体的控制方法、装置、设备及存储介质
US20220395975A1 (en) Demonstration-conditioned reinforcement learning for few-shot imitation
Liu et al. Forward-looking imaginative planning framework combined with prioritized-replay double DQN
CN116047902A (zh) 一种机器人在人群中导航的方法、装置、设备及存储介质
WO2022127603A1 (zh) 一种模型处理方法及相关装置
CN114911157A (zh) 基于部分可观测强化学习的机器人导航控制方法及系统
CN114518751A (zh) 基于最小二乘截断时域差分学习的路径规划决策优化方法
WO2021140698A1 (ja) 情報処理装置、方法及びプログラム
Chen et al. Modified PPO-RND method for solving sparse reward problem in ViZDoom

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant