CN113894780B - 多机器人协作对抗方法、装置、电子设备和存储介质 - Google Patents
多机器人协作对抗方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN113894780B CN113894780B CN202111136603.0A CN202111136603A CN113894780B CN 113894780 B CN113894780 B CN 113894780B CN 202111136603 A CN202111136603 A CN 202111136603A CN 113894780 B CN113894780 B CN 113894780B
- Authority
- CN
- China
- Prior art keywords
- robot
- decision
- countermeasure
- current
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 80
- 238000012549 training Methods 0.000 claims abstract description 120
- 230000006399 behavior Effects 0.000 claims description 158
- 238000011156 evaluation Methods 0.000 claims description 90
- 238000000605 extraction Methods 0.000 claims description 52
- 230000006870 function Effects 0.000 claims description 47
- 230000004913 activation Effects 0.000 claims description 34
- 239000013598 vector Substances 0.000 claims description 30
- 230000008569 process Effects 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 15
- 230000008485 antagonism Effects 0.000 claims description 14
- 238000003066 decision tree Methods 0.000 claims description 14
- 230000009471 action Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 238000005457 optimization Methods 0.000 description 7
- 230000002787 reinforcement Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 239000004973 liquid crystal related substance Substances 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 230000036544 posture Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 206010027175 memory impairment Diseases 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002028 premature Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
- B25J9/1661—Programme controls characterised by programming, planning systems for manipulators characterised by task planning, object-oriented languages
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1602—Programme controls characterised by the control system, structure, architecture
- B25J9/161—Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1679—Programme controls characterised by the tasks executed
- B25J9/1682—Dual arm manipulator; Coordination of several manipulators
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Automation & Control Theory (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Manipulator (AREA)
- Feedback Control In General (AREA)
Abstract
本发明提供一种多机器人协作对抗方法、装置、电子设备和存储介质,其中方法包括:获取对抗环境的当前全局状态信息,以及每一己方机器人的当前局部观测信息;将所述对抗环境的当前全局状态信息和每一己方机器人的当前局部观测信息输入至协作对抗模型,得到所述协作对抗模型输出的每一己方机器人的当前决策行为;基于每一己方机器人的当前决策行为,对每一己方机器人进行控制。本发明提供的方法、装置、电子设备和存储介质,利用了对方机器人的训练数据,扩大了训练样本,提高了训练数据的利用率,提高了协作对抗模型的鲁棒性和准确性。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种多机器人协作对抗方法、装置、电子设备和存储介质。
背景技术
实体机器人对抗系统一直以来都是人工智能研究的重点。现有的实体机器人对抗系统的决策方法主要可分为两大类,一类是以有限状态机和行为决策树为代表的传统规则型方法,该类方法可结合博弈论模型或交互式动态影响图方法提升模型决策性能。另一类则是基于马尔科夫决策过程的决策型方法,将决策问题建模成马尔科夫决策过程进行求解,并且可以结合遗传算法或随机组合梯度下降的方法求解马尔科夫决策模型。
然而,随着状态空间的增加,求解目标优化问题的计算量会迅速增加,并且严重依赖于专家模型的质量,数据利用率低,模型决策效率低,模型准确性差。
发明内容
本发明提供一种多机器人协作对抗方法、装置、电子设备和存储介质,用于解决现有技术中的多机器人对抗方法的数据利用率低,模型决策效率低,模型准确性差的技术问题。
本发明提供一种多机器人协作对抗方法,包括:
获取对抗环境的当前全局状态信息,以及每一己方机器人的当前局部观测信息;
将所述对抗环境的当前全局状态信息和每一己方机器人的当前局部观测信息输入至协作对抗模型,得到所述协作对抗模型输出的每一己方机器人的当前决策行为;
基于每一己方机器人的当前决策行为,对每一己方机器人进行控制;
其中,所述协作对抗模型是基于样本全局状态信息、每一己方机器人的样本局部观测信息、每一己方机器人的样本决策行为、每一己方机器人的样本决策行为对应的奖励、每一对方机器人的样本局部观测信息、每一对方机器人的样本决策行为,以及每一对方机器人的样本决策行为对应的奖励进行训练后得到的。
根据本发明提供的多机器人协作对抗方法,所述每一己方机器人的当前决策行为对应的奖励包括探索奖励;所述探索奖励是基于如下步骤确定的:
基于所述对抗环境的当前全局状态信息,以及训练特征模型和目标特征模型,确定当前全局状态信息特征误差;
基于任一己方机器人的当前局部观测信息,以及训练特征模型和目标特征模型,确定当前局部观测信息特征误差;
基于所述当前全局状态信息特征误差,以及所述任一己方机器人的历史全局状态信息特征误差,确定所述任一己方机器人的全局状态奖励;
基于所述当前局部观测信息特征误差,以及所述任一己方机器人的历史局部观测信息特征误差,确定所述任一己方机器人的局部观测奖励;
基于所述任一己方机器人的全局状态奖励和局部观测奖励,确定所述任一己方机器人的探索奖励;
其中,所述训练特征模型的损失函数是基于所述训练特征模型和所述目标特征模型的均方误差确定的。
根据本发明提供的多机器人协作对抗方法,所述将所述对抗环境的当前全局状态信息和每一己方机器人的当前局部观测信息输入至协作对抗模型,得到所述协作对抗模型输出的每一己方机器人的当前决策行为,包括:
将所述对抗环境的当前全局状态信息输入至所述协作对抗模型的全局态势感知层,得到所述全局态势感知层输出的全局态势特征向量;
将每一己方机器人的当前局部观测信息输入至所述协作对抗模型的分布决策评估层,得到所述分布决策评估层输出的每一己方机器人的决策评估值;
将所述全局态势特征向量和所述每一己方机器人的决策评估值输入至所述协作对抗模型的集中决策评估层,得到所述集中决策评估层输出的联合决策评估值;
将所述联合决策评估值输入至所述协作对抗模型的行为确定层,得到所述行为确定层输出的每一己方机器人的当前决策行为。
根据本发明提供的多机器人协作对抗方法,所述将所述全局态势特征向量和所述每一己方机器人的决策评估值输入至所述协作对抗模型的集中决策评估层,得到所述集中决策评估层输出的联合决策评估值,包括:
将所述全局态势特征向量输入所述集中决策评估层中的第一特征提取层,得到所述第一特征提取层输出的第一权重和第一偏置;
将所述全局态势特征向量输入所述集中决策评估层中的第二特征提取层,得到所述第二特征提取层输出的第二权重;
将所述全局态势特征向量输入所述集中决策评估层中的第三特征提取层,得到所述第三特征提取层输出的第二偏置;
将所述每一己方机器人的决策评估值、所述第一权重、所述第一偏置、所述第二权重和所述第二偏置输入至所述集中决策评估层中的结果输出层,得到所述结果输出层输出的联合决策评估值;
其中,所述第一特征提取层包括两个全连接层和一个绝对值激活函数激活层;所述第二特征提取层包括一个全连接层和一个绝对值激活函数激活层;所述第三特征提取层包括两个全连接层和两个ReLU函数激活层。
根据本发明提供的多机器人协作对抗方法,所述每一对方机器人的样本局部观测信息、每一对方机器人的样本决策行为,以及每一对方机器人的样本决策行为对应的奖励是基于如下步骤确定的:
构建行为决策树;
基于所述行为决策树,以及任一对方机器人的样本局部观测信息,确定所述任一对方机器人的样本决策行为;
基于预设的奖励规则,以及所述任一对方机器人的样本决策行为,确定所述任一对方机器人的样本决策行为对应的奖励。
根据本发明提供的多机器人协作对抗方法,所述协作对抗模型是基于如下步骤训练的:
确定当前次迭代训练中的训练样本和陪练样本;所述陪练样本在当前次迭代训练中的数量低于上一次迭代训练中的数量;
基于所述训练样本和所述陪练样本,对所述协作对抗模型进行训练;
其中,所述训练样本为多机器人协作对抗过程中生成的历史全局状态信息、每一己方机器人的历史局部观测信息、每一己方机器人的历史决策行为,以及每一己方机器人的历史决策行为对应的奖励,所述陪练样本为每一对方机器人的历史局部观测信息、每一对方机器人的历史决策行为,以及每一对方机器人的历史决策行为对应的奖励。
本发明提供一种多机器人协作对抗装置,包括:
获取单元,用于获取对抗环境的当前全局状态信息,以及每一己方机器人的当前局部观测信息;
决策单元,用于将所述对抗环境的当前全局状态信息和每一己方机器人的当前局部观测信息输入至协作对抗模型,得到所述协作对抗模型输出的每一己方机器人的当前决策行为;
控制单元,用于基于每一己方机器人的当前决策行为,对每一己方机器人进行控制;
其中,所述协作对抗模型是基于样本全局状态信息、每一己方机器人的样本局部观测信息、每一己方机器人的样本决策行为、每一己方机器人的样本决策行为对应的奖励、每一对方机器人的样本局部观测信息、每一对方机器人的样本决策行为,以及每一对方机器人的样本决策行为对应的奖励进行训练后得到的。
本发明提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现所述多机器人协作对抗方法的步骤。
本发明提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述多机器人协作对抗方法的步骤。
本发明提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现所述多机器人协作对抗方法的步骤。
本发明提供的多机器人协作对抗方法、装置、电子设备和存储介质,根据样本全局状态信息、每一己方机器人的样本局部观测信息、每一己方机器人的样本决策行为、每一己方机器人的样本决策行为对应的奖励、每一对方机器人的样本局部观测信息、每一对方机器人的样本决策行为,以及每一对方机器人的样本决策行为对应的奖励训练后得到协作对抗模型,所得到的协作对抗模型能够根据当前全局状态信息,以及每一己方机器人的当前局部观测信息得到当前决策行为,由于利用了对方机器人的训练数据,扩大了训练样本,提高了训练数据的利用率,提高了协作对抗模型的鲁棒性和准确性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的多机器人协作对抗方法的流程示意图;
图2是本发明提供的协作对抗模型的结构示意图;
图3是本发明提供的协作对抗模型的训练示意图;
图4是本发明提供的多机器人协作对抗装置的结构示意图;
图5是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明提供的多机器人协作对抗方法的流程示意图,如图1所示,该方法包括:
步骤110,获取对抗环境的当前全局状态信息,以及每一己方机器人的当前局部观测信息。
具体地,本发明实施例提供的多机器人协作对抗方法可以适用于无人机对抗、智能体对抗等场景。其中,多机器人可以包括多个己方机器人和多个对方机器人。本发明实施例对于己方和对方的机器人的具体数量不作限定。
当前全局状态信息为当前时刻的全局状态信息。全局状态信息为整个对抗环境中的各个机器人的状态信息,以及对抗环境中对机器人的状态产生影响的物体的状态信息。例如,全局状态信息可以包括每一己方机器人的位置和姿态,每一对方机器人的位置和姿态,对抗环境中的实时地图信息。实时地图信息包括机器人可行区域信息和障碍物信息等。
可以采用二维特征映射平面图来表示全局状态信息,即将机器人的对抗环境的场地按照单位尺寸间隔进行转换,得到二维特征平面图,然后将全局状态信息投影到二维特征平面图,得到二维特征映射平面图。例如,假定对抗场地尺寸为8m×5m,以每10cm作为一个单位间隔,得到80×50的二维特征平面图。将己方机器人和对方机器人的位置姿态,栅格化后分别物理投影到二维平面,并将其与运行状态通过线性映射进行对应。比如,物理投影处为1时表示运行状态,0时表示故障状态。又比如在二维特征平面图中对障碍物信息进行标注,0表示可行区域,1表示障碍物区域。
当前局部观测信息为当前时刻任一机器人自身观测到的整个对抗环境中的各个机器人的状态信息,以及对抗环境中对机器人的状态产生影响的物体的状态信息。也就是说,局部观测信息的信息种类与全局状态信息相同,区别在于,局部观测信息是从任一机器人上安装的传感器检测到的。可以采用一维特征向量来表示当前局部观测信息。
步骤120,将对抗环境的当前全局状态信息和每一己方机器人的当前局部观测信息输入至协作对抗模型,得到协作对抗模型输出的每一己方机器人的当前决策行为;其中,协作对抗模型是基于样本全局状态信息、每一己方机器人的样本局部观测信息、每一己方机器人的样本决策行为、每一己方机器人的样本决策行为对应的奖励、每一对方机器人的样本局部观测信息、每一对方机器人的样本决策行为,以及每一对方机器人的样本决策行为对应的奖励进行训练后得到的。
具体地,当前决策行为为每一己方机器人在当前时刻的决策行为。决策行为为机器人在协作对抗中的采取的行为行为。例如,决策行为可以为前进、后退、左转、右转、执行特定行为等。可以采用深度强化学习的方法,建立协作对抗模型,对每一己方机器人在协作对抗中的决策行为进行确定。
可以将对抗环境的当前全局状态信息和每一己方机器人的当前局部观测信息输入至协作对抗模型,由协作对抗模型对当前全局状态信息和每一己方机器人的当前局部观测信息进行学习,确定满足全局最优结果的每一己方机器人的当前决策行为。
协作对抗模型可以通过强化学习算法构建,其运行原理为:如果每一己方机器人根据当前全局状态信息和当前局部观测信息做出某个决策行为,该决策行为导致其对应的奖励增加,则每一己方机器人以后采取这个决策行为的趋势便会增强。协作对抗模型的目的是在每个时刻发现最优的决策行为,使得每一己方机器人采取最优的决策行为后能够获得最大的奖励。
协作对抗模型的训练样本包括样本全局状态信息、每一己方机器人的样本局部观测信息、每一己方机器人的样本决策行为、每一己方机器人的样本决策行为对应的奖励、每一对方机器人的样本局部观测信息、每一对方机器人的样本决策行为,以及每一对方机器人的样本决策行为对应的奖励作为训练样本。
训练样本可以来自训练过程中实时产生的数据,也可以来自之前协作对抗过程中产生的历史数据。
步骤130,基于每一己方机器人的当前决策行为,对每一己方机器人进行控制。
具体地,根据协作对抗模型输出的每一己方机器人的当前决策行为,控制每一己方机器人进行协作对抗,从而得到最佳的协作对抗效果。
本发明实施例提供的多机器人协作对抗方法,根据样本全局状态信息、每一己方机器人的样本局部观测信息、每一己方机器人的样本决策行为、每一己方机器人的样本决策行为对应的奖励、每一对方机器人的样本局部观测信息、每一对方机器人的样本决策行为,以及每一对方机器人的样本决策行为对应的奖励训练后得到协作对抗模型,所得到的协作对抗模型能够根据当前全局状态信息,以及每一己方机器人的当前局部观测信息得到当前决策行为,由于利用了对方机器人的训练数据,扩大了训练样本,提高了训练数据的利用率,提高了协作对抗模型的鲁棒性和准确性。
基于上述实施例,每一己方机器人的当前决策行为对应的奖励包括探索奖励;探索奖励是基于如下步骤确定的:
基于对抗环境的当前全局状态信息,以及训练特征模型和目标特征模型,确定当前全局状态信息特征误差;
基于任一己方机器人的当前局部观测信息,以及训练特征模型和目标特征模型,确定当前局部观测信息特征误差;
基于当前全局状态信息特征误差,以及任一己方机器人的历史全局状态信息特征误差,确定任一己方机器人的全局状态奖励;
基于当前局部观测信息特征误差,以及任一己方机器人的历史局部观测信息特征误差,确定任一己方机器人的局部观测奖励;
基于任一己方机器人的全局状态奖励和局部观测奖励,确定任一己方机器人的探索奖励;
其中,训练特征模型的损失函数是基于训练特征模型和目标特征模型的均方误差确定的。
其中,与为t时刻己方与对方的第一资源,与为t时刻己方与对方的第二资源,与bufft opp为t时刻己方与对方的行为附加状态,与为t-1时刻己方与对方的第一资源,与为t-1时刻己方与对方的第二资源,与为t时刻己方与对方的行为附加状态。
可以用公式表示为:
同时,为避免特征模型由于过早拟合而落入局部极值解陷阱,设计了一种目标特征模型权重更新机制,表示为:
本发明实施例提供的多机器人协作对抗方法,采用了好奇心机制确定探索奖励,提升机器人在对抗环境中的探索效率,引导协作对抗模型向更多未知环境探索,提高模型的鲁棒性和准确性。
基于上述任一实施例,步骤120包括:
将对抗环境的当前全局状态信息输入至协作对抗模型的全局态势感知层,得到全局态势感知层输出的全局态势特征向量;
将每一己方机器人的当前局部观测信息输入至协作对抗模型的分布决策评估层,得到分布决策评估层输出的每一己方机器人的决策评估值;
将全局态势特征向量和每一己方机器人的决策评估值输入至协作对抗模型的集中决策评估层,得到集中决策评估层输出的联合决策评估值;
将联合决策评估值输入至协作对抗模型的行为确定层,得到行为确定层输出的每一己方机器人的当前决策行为。
具体地,图2是本发明提供的协作对抗模型的结构示意图,如图2所示,从结构上来看,协作对抗模型包括全局态势感知层、分布决策评估层、集中决策评估层和行为确定层。
全局态势感知层,用于对对抗环境的当前全局状态信息进行特征提取,得到全局态势特征向量。全局态势感知层以SqueezeNet的核心模块Fire Module作为二维特征提取层,因其具有通过卷积核参数设计来压缩权重数量的作用,故将其定义为卷积型权重压缩模块。该模块在保证神经网络模型性能的前提下减少模型训练权重数量。采用两层卷积型权重压缩模块进行二维特征提取,激活函数为线性整流函数(Rectified Linear Unit,简称ReLU)。对经过卷积型权重压缩模块输出的隐层信息进行平铺,随后将隐层信息接入到由全连接层构成的神经网络模型,并得到全局态势特征向量,对应激活函数同样为ReLU。
分布决策评估层,用于根据每一己方机器人的当前局部观测信息,确定每一己方机器人的决策评估值。分布决策评估层,可以包括多个机器人决策网络,机器人决策网络与己方机器人一一对应。
机器人决策网络以机器人局部观测信息作为输入,首先经过一层全连接网络,对输入信息进行压缩,对应激活函数为ReLU。然后再经过一层门控循环单元网络(GRU)适当保留时间序列信息,对应激活函数为双曲正切函数(tanh),最后再接一层全连接网络,将隐层信息转换为决策评估值输出。
集中决策评估层,用于根据全局态势特征向量和每一己方机器人的决策评估值,确定用于对每一己方机器人的决策行为进行整体评估的联合决策评估值。
行为确定层,用于根据联合决策评估值,确定每一己方机器人的当前决策行为。
基于上述任一实施例,将全局态势特征向量和每一己方机器人的决策评估值输入至协作对抗模型的集中决策评估层,得到集中决策评估层输出的联合决策评估值,包括:
将全局态势特征向量输入集中决策评估层中的第一特征提取层,得到第一特征提取层输出的第一权重和第一偏置;
将全局态势特征向量输入集中决策评估层中的第二特征提取层,得到第二特征提取层输出的第二权重;
将全局态势特征向量输入集中决策评估层中的第三特征提取层,得到第三特征提取层输出的第二偏置;
将每一己方机器人的决策评估值、第一权重、第一偏置、第二权重和第二偏置输入至集中决策评估层中的结果输出层,得到结果输出层输出的联合决策评估值;
其中,第一特征提取层包括两个全连接层和一个绝对值激活函数激活层;第二特征提取层包括一个全连接层和一个绝对值激活函数激活层;第三特征提取层包括两个全连接层和两个ReLU函数激活层。
具体地,集中决策评估层参考QMIX算法结构设计思路进行网络设计。从结构上看,集中决策评估层可以包括第一特征提取层、第二特征提取层、第三特征提取层和结果输出层。
第一特征提取层包括依次连接的两个全连接层和一个绝对值激活函数激活层。将全局态势特征向量输入集中决策评估层中的第一特征提取层,得到第一特征提取层输出的第一权重wh1和第一偏置bh1。
第二特征提取层包括依次连接的一个全连接层和一个绝对值激活函数激活层。将全局态势特征向量输入集中决策评估层中的第二特征提取层,得到第二特征提取层输出的第二权重wfinal。
第三特征提取层包括两个全连接层和两个ReLU函数激活层,连接顺序依次为第一全连接层、第一ReLU函数激活层、第二全连接层和第二ReLU函数激活层。将全局态势特征向量输入集中决策评估层中的第三特征提取层,得到第三特征提取层输出的第二偏置bfinal。
将每一己方机器人的决策评估值Qi、第一权重wh1、第一偏置bh1、第二权重wfinal和第二偏置bfinal输入至集中决策评估层中的结果输出层,得到结果输出层输出的联合决策评估值Qtot。可以用公式表示为:
Qtot=(HTwfinal+bfinal)
其中,Elu为激活函数,H为中间计算量,T为转置运算符,QS为每一己方机器人的决策评估值Qi的拼接结果,i为己方机器人的标号。
基于上述任一实施例,根据多机器人深度强化学习,采用高效地联合观测-行为-状态值函数优化方法,对每个机器人的观测-行为值函数进行训练后,得到相应的决策行为。
相关具体步骤为:
首先,从个体角度,定义t时刻机器人i的局部观测信息为oi,t,决策行为为ai,t,全局状态信息为st;
接着,在多机器人对抗过程中,保存对应机器人i的观测-行为序列轨迹τi,其表示为τi=(oi,0,ai,0,…,oi,t,ai,t),对应机器人i的观测-行为值函数为Qi(τi,ai;θi),θi表示对应的模型权重。多机器人联合观测-行为序列轨迹τ=(τ1,…,τn),联合行为a=(a1,…,an),n为机器人数量。
然后,对每个机器人的观测-行为值函数进行直接求和,得到的多机器人联合观测-行为值函数Qtot(τ,a)表示为
在此基础之上,利用学习过程中的全局状态信息s,并且采用集中决策评估层对每个机器人的值函数进行合并得到最终的多机器人联合观测-行为-状态值函数Qtot(τ,a,s;θ),对应的训练损失函数L(θ)定义为:
L(θ)=(ytot-Qtot(τ,a,s;θ))2
为有效利用离策略样本数据,更新目标值采用离策略强化学习方法,目标值ytot为:
最后,为有效考虑机器人的累积奖励,采用资格迹方法TD(λ)进一步计算优化目标值,因此实际计算的目标值为:
训练优化过程中采用自适应矩估计优化器(Adam)作为模型训练优化器。环境运行采用并行交互的方式生成训练数据,经验池回放方式为优先级经验回放,模型探索方式为∈-贪心,探索系数∈采用线性下降的方式,以逐步降低机器人模型的探索随机性。对手策略模型生成的数据保留率同样为线性下降的方式,以逐步降低机器人模型在训练过程中对对手行为数据的依赖性。
当协作对抗模型在训练过程中的胜率满足策略任务要求时,训练过程结束。反之,返回到上述步骤再次对模型进行迭代优化。
训练过程中,QMIX算法假定多机器人的联合观测-行为-状态值函数Qtot(τ,a,s;θ)取argmax等价于每个机器人i的观测-行为值函数Qi(τi,ai;θi)取argmax,表示全局与个体的单调性相同,具体表示为:
通过贪心方式获取每个个体Qi的最优行为。为使QMIX满足单调性,条件约束定义为
因此,以绝对值激活函数Abs作为第一特征提取层和第二特征提取层中全连接网络的激活函数。将多机器人决策Qi值经过相应权重和偏置的非线性变换,得到多机器人联合观测-行为-状态值函数Qtot(τ,a,s;θ)。
基于上述任一实施例,每一对方机器人的样本局部观测信息、每一对方机器人的样本决策行为,以及每一对方机器人的样本决策行为对应的奖励是基于如下步骤确定的:
构建行为决策树;
基于行为决策树,以及任一对方机器人的样本局部观测信息,确定任一对方机器人的样本决策行为;
基于预设的奖励规则,以及任一对方机器人的样本决策行为,确定任一对方机器人的样本决策行为对应的奖励。
具体地,可以通过构建行为决策树的方式,来生成高质量的训练样本,提高协作对抗模型的训练效率和准确性,还可以处理模型训练冷启动困难的问题。
可以根据协作对抗训练中的规则,确定对方机器人的行为逻辑,然后构建行为决策树。然后将任一对方机器人的样本局部观测信息输入至行为决策树中,确定该对方机器人的样本决策行为。
然后按照预设的奖励规则,根据该对方机器人的样本决策行为,确定该对方机器人的样本决策行为对应的奖励。
此处,预设的奖励规则确定的奖励,可以与己方机器人根据协作对抗的规则确定的常规奖励相同,也就是说,对方机器人的奖励仅包括常规奖励。
每一对方机器人的样本局部观测信息、每一对方机器人的样本决策行为,以及每一对方机器人的样本决策行为对应的奖励可以以三元组形式存储。
基于上述任一实施例,协作对抗模型是基于如下步骤训练的:
确定当前次迭代训练中的训练样本和陪练样本;陪练样本在当前次迭代训练中的数量低于上一次迭代训练中的数量;
基于训练样本和陪练样本,对协作对抗模型进行训练;
其中,训练样本为多机器人协作对抗过程中生成的历史全局状态信息、每一己方机器人的历史局部观测信息、每一己方机器人的历史决策行为,以及每一己方机器人的历史决策行为对应的奖励,陪练样本为每一对方机器人的历史局部观测信息、每一对方机器人的历史决策行为,以及每一对方机器人的历史决策行为对应的奖励。
具体地,以己方机器人的数据为训练样本,以对方机器人的数据为陪练样本,对协作对抗模型进行训练。在训练过程中,随着迭代训练次数的增加,使得陪练样本在当前次迭代训练中的数量低于上一次迭代训练中的数量,直至逐渐减少为零,避免协作对抗模型在进行迭代优化时被困在局部区域,得不到全局优化解。
图3是本发明提供的协作对抗模型的训练示意图,如图3所示,己方机器人和对方机器人的数量均为2,可以采用经验回放的方法训练协作对抗模型。以行为决策树作为训练过程中的对方的决策模型,将其在对抗过程中执行决策行为过程所产生的数据转化为深度强化学习模型对应的状态-动作-奖励三元组的形式,并且使行为决策树的生成数据作为深度强化学习决策模型训练集中的一部分,存入到对抗经验回放池。由此改善经验池数据的样本分布,加快模型优化训练过程。对抗过程中的队伍分为两方,随机以其中一方作为训练方(己方),另一方作为陪练方(对方)。训练方与陪练方在对抗过程中同时生成交互数据信息。开始时,陪练方数据以100%概率存入到对抗经验回放池。训练时从对抗经验回放池中进行随机采样数据,计算训练方的探索奖励。随后将对抗双方的全局状态-局部观测-动作-奖励构成的数据信息并入到训练批。最后通过多机器人深度强化学习更新优化所有网络模型,并随着训练迭代次数的增加,线性降低陪练方的样本存储概率,避免模型优化被困在局部区域。
基于上述任一实施例,图4是本发明提供的多机器人协作对抗装置的结构示意图,如图4所示,该装置包括:
获取单元410,用于获取对抗环境的当前全局状态信息,以及每一己方机器人的当前局部观测信息;
决策单元420,用于将对抗环境的当前全局状态信息和每一己方机器人的当前局部观测信息输入至协作对抗模型,得到协作对抗模型输出的每一己方机器人的当前决策行为;
控制单元430,用于基于每一己方机器人的当前决策行为,对每一己方机器人进行控制;
其中,协作对抗模型是基于样本全局状态信息、每一己方机器人的样本局部观测信息、每一己方机器人的样本决策行为、每一己方机器人的样本决策行为对应的奖励、每一对方机器人的样本局部观测信息、每一对方机器人的样本决策行为,以及每一对方机器人的样本决策行为对应的奖励进行训练后得到的。
本发明实施例提供的多机器人协作对抗装置,根据样本全局状态信息、每一己方机器人的样本局部观测信息、每一己方机器人的样本决策行为、每一己方机器人的样本决策行为对应的奖励、每一对方机器人的样本局部观测信息、每一对方机器人的样本决策行为,以及每一对方机器人的样本决策行为对应的奖励训练后得到协作对抗模型,所得到的协作对抗模型能够根据当前全局状态信息,以及每一己方机器人的当前局部观测信息得到当前决策行为,由于利用了对方机器人的训练数据,扩大了训练样本,提高了训练数据的利用率,提高了协作对抗模型的鲁棒性和准确性。
基于上述任一实施例,每一己方机器人的当前决策行为对应的奖励包括探索奖励;探索奖励是基于如下步骤确定的:
基于对抗环境的当前全局状态信息,以及训练特征模型和目标特征模型,确定当前全局状态信息特征误差;
基于任一己方机器人的当前局部观测信息,以及训练特征模型和目标特征模型,确定当前局部观测信息特征误差;
基于当前全局状态信息特征误差,以及任一己方机器人的历史全局状态信息特征误差,确定任一己方机器人的全局状态奖励;
基于当前局部观测信息特征误差,以及任一己方机器人的历史局部观测信息特征误差,确定任一己方机器人的局部观测奖励;
基于任一己方机器人的全局状态奖励和局部观测奖励,确定任一己方机器人的探索奖励;
其中,训练特征模型的损失函数是基于训练特征模型和目标特征模型的均方误差确定的。
基于上述任一实施例,决策单元包括:
全局感知子单元,用于将对抗环境的当前全局状态信息输入至协作对抗模型的全局态势感知层,得到全局态势感知层输出的全局态势特征向量;
分布决策子单元,用于将每一己方机器人的当前局部观测信息输入至协作对抗模型的分布决策评估层,得到分布决策评估层输出的每一己方机器人的决策评估值;
集中决策子单元,用于将全局态势特征向量和每一己方机器人的决策评估值输入至协作对抗模型的集中决策评估层,得到集中决策评估层输出的联合决策评估值;
结果输出子单元,用于将联合决策评估值输入至协作对抗模型的动作确定层,得到动作确定层输出的每一己方机器人的当前决策行为。
基于上述任一实施例,集中决策子单元具体用于:
将全局态势特征向量输入集中决策评估层中的第一特征提取层,得到第一特征提取层输出的第一权重和第一偏置;
将全局态势特征向量输入集中决策评估层中的第二特征提取层,得到第二特征提取层输出的第二权重;
将全局态势特征向量输入集中决策评估层中的第三特征提取层,得到第三特征提取层输出的第二偏置;
将每一己方机器人的决策评估值、第一权重、第一偏置、第二权重和第二偏置输入至集中决策评估层中的结果输出层,得到结果输出层输出的联合决策评估值;
其中,第一特征提取层包括两个全连接层和一个绝对值激活函数激活层;第二特征提取层包括一个全连接层和一个绝对值激活函数激活层;第三特征提取层包括两个全连接层和两个ReLU函数激活层。
基于上述任一实施例,还包括:
陪练样本确定单元,用于构建行为决策树;
基于行为决策树,以及任一对方机器人的样本局部观测信息,确定任一对方机器人的样本决策行为;
基于预设的奖励规则,以及任一对方机器人的样本决策行为,确定任一对方机器人的样本决策行为对应的奖励。
基于上述任一实施例,还包括:
模型训练单元,用于确定当前次迭代训练中的训练样本和陪练样本;陪练样本在当前次迭代训练中的数量低于上一次迭代训练中的数量;
基于训练样本和陪练样本,对协作对抗模型进行训练;
其中,训练样本为多机器人协作对抗过程中生成的历史全局状态信息、每一己方机器人的历史局部观测信息、每一己方机器人的历史决策行为,以及每一己方机器人的历史决策行为对应的奖励,陪练样本为每一对方机器人的历史局部观测信息、每一对方机器人的历史决策行为,以及每一对方机器人的历史决策行为对应的奖励。
基于上述任一实施例,图5为本发明提供的电子设备的结构示意图,如图5所示,该电子设备可以包括:处理器(Processor)510、通信接口(Communications Interface)520、存储器(Memory)530和通信总线(Communications Bus)540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑命令,以执行如下方法:
获取对抗环境的当前全局状态信息,以及每一己方机器人的当前局部观测信息;将对抗环境的当前全局状态信息和每一己方机器人的当前局部观测信息输入至协作对抗模型,得到协作对抗模型输出的每一己方机器人的当前决策行为;基于每一己方机器人的当前决策行为,对每一己方机器人进行控制;其中,协作对抗模型是基于样本全局状态信息、每一己方机器人的样本局部观测信息、每一己方机器人的样本决策行为、每一己方机器人的样本决策行为对应的奖励、每一对方机器人的样本局部观测信息、每一对方机器人的样本决策行为,以及每一对方机器人的样本决策行为对应的奖励进行训练后得到的。
此外,上述的存储器530中的逻辑命令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干命令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例提供的电子设备中的处理器可以调用存储器中的逻辑指令,实现上述方法,其具体的实施方式与前述方法实施方式一致,且可以达到相同的有益效果,此处不再赘述。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法,例如包括:
获取对抗环境的当前全局状态信息,以及每一己方机器人的当前局部观测信息;将对抗环境的当前全局状态信息和每一己方机器人的当前局部观测信息输入至协作对抗模型,得到协作对抗模型输出的每一己方机器人的当前决策行为;基于每一己方机器人的当前决策行为,对每一己方机器人进行控制;其中,协作对抗模型是基于样本全局状态信息、每一己方机器人的样本局部观测信息、每一己方机器人的样本决策行为、每一己方机器人的样本决策行为对应的奖励、每一对方机器人的样本局部观测信息、每一对方机器人的样本决策行为,以及每一对方机器人的样本决策行为对应的奖励进行训练后得到的。
本发明实施例提供的非暂态计算机可读存储介质上存储的计算机程序被执行时,实现上述方法,其具体的实施方式与前述方法实施方式一致,且可以达到相同的有益效果,此处不再赘述。
本发明实施例提供一种计算机程序产品,包括计算机程序,其特征在于,计算机程序被处理器执行时实现如上述多机器人协作对抗方法的步骤。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干命令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (9)
1.一种多机器人协作对抗方法,其特征在于,包括:
获取对抗环境的当前全局状态信息,以及每一己方机器人的当前局部观测信息;
将所述对抗环境的当前全局状态信息和每一己方机器人的当前局部观测信息输入至协作对抗模型,得到所述协作对抗模型输出的每一己方机器人的当前决策行为;
基于每一己方机器人的当前决策行为,对每一己方机器人进行控制;
其中,所述协作对抗模型是基于样本全局状态信息、每一己方机器人的样本局部观测信息、每一己方机器人的样本决策行为、每一己方机器人的样本决策行为对应的奖励、每一对方机器人的样本局部观测信息、每一对方机器人的样本决策行为,以及每一对方机器人的样本决策行为对应的奖励进行训练后得到的;
所述每一己方机器人的当前决策行为对应的奖励包括探索奖励;所述探索奖励是基于如下步骤确定的:
基于所述对抗环境的当前全局状态信息,以及训练特征模型和目标特征模型,确定当前全局状态信息特征误差;
基于任一己方机器人的当前局部观测信息,以及训练特征模型和目标特征模型,确定当前局部观测信息特征误差;
基于所述当前全局状态信息特征误差,以及所述任一己方机器人的历史全局状态信息特征误差,确定所述任一己方机器人的全局状态奖励;
基于所述当前局部观测信息特征误差,以及所述任一己方机器人的历史局部观测信息特征误差,确定所述任一己方机器人的局部观测奖励;
基于所述任一己方机器人的全局状态奖励和局部观测奖励,确定所述任一己方机器人的探索奖励;
其中,所述训练特征模型的损失函数是基于所述训练特征模型和所述目标特征模型的均方误差确定的。
2.根据权利要求1所述的多机器人协作对抗方法,其特征在于,所述将所述对抗环境的当前全局状态信息和每一己方机器人的当前局部观测信息输入至协作对抗模型,得到所述协作对抗模型输出的每一己方机器人的当前决策行为,包括:
将所述对抗环境的当前全局状态信息输入至所述协作对抗模型的全局态势感知层,得到所述全局态势感知层输出的全局态势特征向量;
将每一己方机器人的当前局部观测信息输入至所述协作对抗模型的分布决策评估层,得到所述分布决策评估层输出的每一己方机器人的决策评估值;
将所述全局态势特征向量和所述每一己方机器人的决策评估值输入至所述协作对抗模型的集中决策评估层,得到所述集中决策评估层输出的联合决策评估值;
将所述联合决策评估值输入至所述协作对抗模型的行为确定层,得到所述行为确定层输出的每一己方机器人的当前决策行为。
3.根据权利要求2所述的多机器人协作对抗方法,其特征在于,所述将所述全局态势特征向量和所述每一己方机器人的决策评估值输入至所述协作对抗模型的集中决策评估层,得到所述集中决策评估层输出的联合决策评估值,包括:
将所述全局态势特征向量输入所述集中决策评估层中的第一特征提取层,得到所述第一特征提取层输出的第一权重和第一偏置;
将所述全局态势特征向量输入所述集中决策评估层中的第二特征提取层,得到所述第二特征提取层输出的第二权重;
将所述全局态势特征向量输入所述集中决策评估层中的第三特征提取层,得到所述第三特征提取层输出的第二偏置;
将所述每一己方机器人的决策评估值、所述第一权重、所述第一偏置、所述第二权重和所述第二偏置输入至所述集中决策评估层中的结果输出层,得到所述结果输出层输出的联合决策评估值;
其中,所述第一特征提取层包括两个全连接层和一个绝对值激活函数激活层;所述第二特征提取层包括一个全连接层和一个绝对值激活函数激活层;所述第三特征提取层包括两个全连接层和两个ReLU函数激活层。
4.根据权利要求1至3任一项所述的多机器人协作对抗方法,其特征在于,所述每一对方机器人的样本局部观测信息、每一对方机器人的样本决策行为,以及每一对方机器人的样本决策行为对应的奖励是基于如下步骤确定的:
构建行为决策树;
基于所述行为决策树,以及任一对方机器人的样本局部观测信息,确定所述任一对方机器人的样本决策行为;
基于预设的奖励规则,以及所述任一对方机器人的样本决策行为,确定所述任一对方机器人的样本决策行为对应的奖励。
5.根据权利要求1至3任一项所述的多机器人协作对抗方法,其特征在于,所述协作对抗模型是基于如下步骤训练的:
确定当前次迭代训练中的训练样本和陪练样本;所述陪练样本在当前次迭代训练中的数量低于上一次迭代训练中的数量;
基于所述训练样本和所述陪练样本,对所述协作对抗模型进行训练;
其中,所述训练样本为多机器人协作对抗过程中生成的历史全局状态信息、每一己方机器人的历史局部观测信息、每一己方机器人的历史决策行为,以及每一己方机器人的历史决策行为对应的奖励,所述陪练样本为每一对方机器人的历史局部观测信息、每一对方机器人的历史决策行为,以及每一对方机器人的历史决策行为对应的奖励。
6.一种多机器人协作对抗装置,其特征在于,包括:
获取单元,用于获取对抗环境的当前全局状态信息,以及每一己方机器人的当前局部观测信息;
决策单元,用于将所述对抗环境的当前全局状态信息和每一己方机器人的当前局部观测信息输入至协作对抗模型,得到所述协作对抗模型输出的每一己方机器人的当前决策行为;
控制单元,用于基于每一己方机器人的当前决策行为,对每一己方机器人进行控制;
其中,所述协作对抗模型是基于样本全局状态信息、每一己方机器人的样本局部观测信息、每一己方机器人的样本决策行为、每一己方机器人的样本决策行为对应的奖励、每一对方机器人的样本局部观测信息、每一对方机器人的样本决策行为,以及每一对方机器人的样本决策行为对应的奖励进行训练后得到的;
所述每一己方机器人的当前决策行为对应的奖励包括探索奖励;所述探索奖励是基于如下步骤确定的:
基于所述对抗环境的当前全局状态信息,以及训练特征模型和目标特征模型,确定当前全局状态信息特征误差;
基于任一己方机器人的当前局部观测信息,以及训练特征模型和目标特征模型,确定当前局部观测信息特征误差;
基于所述当前全局状态信息特征误差,以及所述任一己方机器人的历史全局状态信息特征误差,确定所述任一己方机器人的全局状态奖励;
基于所述当前局部观测信息特征误差,以及所述任一己方机器人的历史局部观测信息特征误差,确定所述任一己方机器人的局部观测奖励;
基于所述任一己方机器人的全局状态奖励和局部观测奖励,确定所述任一己方机器人的探索奖励;
其中,所述训练特征模型的损失函数是基于所述训练特征模型和所述目标特征模型的均方误差确定的。
7.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述多机器人协作对抗方法的步骤。
8.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述多机器人协作对抗方法的步骤。
9.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述多机器人协作对抗方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111136603.0A CN113894780B (zh) | 2021-09-27 | 2021-09-27 | 多机器人协作对抗方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111136603.0A CN113894780B (zh) | 2021-09-27 | 2021-09-27 | 多机器人协作对抗方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113894780A CN113894780A (zh) | 2022-01-07 |
CN113894780B true CN113894780B (zh) | 2023-05-05 |
Family
ID=79029852
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111136603.0A Active CN113894780B (zh) | 2021-09-27 | 2021-09-27 | 多机器人协作对抗方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113894780B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114489144B (zh) * | 2022-04-08 | 2022-07-12 | 中国科学院自动化研究所 | 无人机自主机动决策方法、装置及无人机 |
CN115268481B (zh) * | 2022-07-06 | 2023-06-20 | 中国航空工业集团公司沈阳飞机设计研究所 | 一种无人机对抗策略决策方法及其系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108170158B (zh) * | 2017-12-05 | 2020-02-28 | 中国科学院自动化研究所 | 基于数据驱动的无人机智能对抗控制方法 |
CN112180724B (zh) * | 2020-09-25 | 2022-06-03 | 中国人民解放军军事科学院国防科技创新研究院 | 一种在干扰条件下多智能体协同合作的训练方法及系统 |
CN112434791A (zh) * | 2020-11-13 | 2021-03-02 | 北京圣涛平试验工程技术研究院有限责任公司 | 多智能体强对抗仿真方法、装置及电子设备 |
CN112364984A (zh) * | 2020-11-13 | 2021-02-12 | 南京航空航天大学 | 一种协作多智能体强化学习方法 |
CN112783209B (zh) * | 2020-12-31 | 2022-02-22 | 北京航空航天大学 | 一种基于鸽群智能竞争学习的无人机集群对抗控制方法 |
CN113283574B (zh) * | 2021-07-22 | 2021-12-07 | 中国科学院自动化研究所 | 群体对抗中智能体控制方法、装置、电子设备及存储介质 |
-
2021
- 2021-09-27 CN CN202111136603.0A patent/CN113894780B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113894780A (zh) | 2022-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11779837B2 (en) | Method, apparatus, and device for scheduling virtual objects in virtual environment | |
CN113110509B (zh) | 一种基于深度强化学习的仓储系统多机器人路径规划方法 | |
CN113894780B (zh) | 多机器人协作对抗方法、装置、电子设备和存储介质 | |
CN111766782B (zh) | 基于深度强化学习中Actor-Critic框架的策略选择方法 | |
CN111645065A (zh) | 一种基于深度强化学习的机械臂运动规划方法 | |
CN113408209A (zh) | 跨样本联邦分类建模方法及装置、存储介质、电子设备 | |
CN113176776A (zh) | 基于深度强化学习的无人艇天气自适应避障方法 | |
CN109726676B (zh) | 自动驾驶系统的规划方法 | |
CN113076615B (zh) | 基于对抗式深度强化学习的高鲁棒性机械臂操作方法及系统 | |
CN111352419B (zh) | 基于时序差分更新经验回放缓存的路径规划方法及系统 | |
CN113561986A (zh) | 自动驾驶汽车决策方法及装置 | |
CN111260040A (zh) | 基于内在奖励的视频游戏决策方法 | |
CN114139637A (zh) | 多智能体信息融合方法、装置、电子设备及可读存储介质 | |
CN114581502A (zh) | 基于单目图像的三维人体模型联合重建方法、电子设备及存储介质 | |
CN113741533A (zh) | 一种基于模仿学习与强化学习的无人机智能决策系统 | |
CN103218663A (zh) | 信息处理装置、信息处理方法和程序 | |
CN116841317A (zh) | 一种基于图注意力强化学习的无人机集群协同对抗方法 | |
CN114757362A (zh) | 一种基于边缘增强的多智能体系统通信方法及相关装置 | |
CN113947022B (zh) | 一种基于模型的近端策略优化方法 | |
CN109063827B (zh) | 有限空间内自动拿取特定行李的方法、系统、存储介质和终端 | |
Liu et al. | Distilling motion planner augmented policies into visual control policies for robot manipulation | |
Ramachandruni et al. | Attentive task-net: Self supervised task-attention network for imitation learning using video demonstration | |
CN116943220A (zh) | 一种游戏人工智能控制方法、装置、设备及存储介质 | |
CN116047902A (zh) | 一种机器人在人群中导航的方法、装置、设备及存储介质 | |
CN113887708A (zh) | 基于平均场的多智能体学习方法、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |