CN113589842B - 一种基于多智能体强化学习的无人集群任务协同方法 - Google Patents
一种基于多智能体强化学习的无人集群任务协同方法 Download PDFInfo
- Publication number
- CN113589842B CN113589842B CN202110841689.0A CN202110841689A CN113589842B CN 113589842 B CN113589842 B CN 113589842B CN 202110841689 A CN202110841689 A CN 202110841689A CN 113589842 B CN113589842 B CN 113589842B
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- unmanned
- reinforcement learning
- environment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000002787 reinforcement Effects 0.000 title claims abstract description 52
- 238000004088 simulation Methods 0.000 claims abstract description 19
- 238000013135 deep learning Methods 0.000 claims abstract description 4
- 239000003795 chemical substances by application Substances 0.000 claims description 83
- 230000009471 action Effects 0.000 claims description 61
- 238000004422 calculation algorithm Methods 0.000 claims description 33
- 230000006870 function Effects 0.000 claims description 29
- 230000003993 interaction Effects 0.000 claims description 15
- 239000013598 vector Substances 0.000 claims description 15
- 238000011156 evaluation Methods 0.000 claims description 9
- 230000001133 acceleration Effects 0.000 claims description 6
- 238000013515 script Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000013459 approach Methods 0.000 claims description 4
- 230000033001 locomotion Effects 0.000 claims description 4
- 230000007123 defense Effects 0.000 claims description 3
- 238000005265 energy consumption Methods 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims description 3
- 230000004888 barrier function Effects 0.000 claims description 2
- 230000007613 environmental effect Effects 0.000 claims description 2
- 239000000284 extract Substances 0.000 claims description 2
- 230000008569 process Effects 0.000 claims description 2
- 238000012549 training Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000002195 synergetic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
- G05D1/104—Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明公开了一种基于多智能体强化学习的无人集群任务协同方法,属于无人集群任务规划技术领域。本发明基于Unity搭建面向多无人系统任务规划的强化学习仿真环境;使用Gym将获取到的仿真环境的信息搭建成符合规范的强化学习环境;对无人机集群对抗环境建模;使用Tensorflow深度学习库搭建多智能体强化学习环境;使用协作深度确定性策略梯度方法求解多智能体强化学习问题;输出无人集群任务规划结果。本发明对现有技术进行了较大改进,能够得到更为良好的多无人系统协同任务规划结果。
Description
技术领域
本发明属于无人集群任务规划技术领域,特别是一种基于多智能体强化学习的无人集群任务协同方法。
背景技术
无人系统在军用和民用领域的应用日益广泛,尤其是无人机,它具有造价低廉、机动灵活、部署便捷、续航力长等特点,是替代有人驾驶飞机或卫星执行侦察、巡航等任务的最佳选择。由于单一无人机所携带设备的种类和数量有限,其能够发挥的效能也非常有限。近年来,无人机的发展聚焦于集群态势感知、信息共享、集群任务规划、集群任务协调与执行等。针对上述情况,通过釆用多架无人机协同配合弥补单架无人机任务执行能力的不足。因此,无人机技术的发展趋势必然是实现多机协同,完成更为复杂的多约束任务。
多无人系统间的任务分配是无人系统协同处理任务的基础。在多无人系统任务协同场景下,时间协同约束的异构类型任务处理要求增加了多无人系统任务分配问题的复杂度,进而制约了无人系统编队的任务执行能力。如何处理任务的多种约束要求,以及多无人系统协同产生的预定任务与突发任务之间的时序冲突,是多无人系统协同所面临的主要挑战。
多无人系统任务规划由协同目标分配、路径规划和任务执行三个部分组成。
无人系统协同目标分配目前常用的方法有:1)数学规划法:它是集中式解决分配问题的经典方法,如匈牙利算法、整数规划方法、动态规划等;2)协商法:分布式目标分配系统计算灵活,可以将协同和分配问题分布到各个节点上进行高速处理。适合解决大规模的目标分配问题。目前最常见的是基于合同网的协商方法;3)智能优化算法:采用进化规划、粒子群算法和蚁群算法等求解分配问题。
多无人系统协同路径规划的主要方法包括:1)从单无人系统路径规划方法发展来的多无人系统路径规划方法:如自动驾驶的A*算法、概率图(如Voronoi图)法、人工势场法等;2)适合群体计算的群智能算法:大量的路径规划研究都围绕着改进的进化算法来实现展开,如平行进化算法、量子遗传算法等,这些方法证明了利用物种进化机制和并行寻优方法来求解这类问题的可行性,能够较快搜索到解空间的最优位置;3)基于路径优化的规划方法等:无人系统的机动特性要求规划时必须考虑结果的动力学可行性,因此规划时还需要对航迹段进行平滑,以获得一条平滑可安全执行的路径。常用的曲线平滑方法有二次样条曲线、B样条曲线、Bezier曲线等。
多无人系统协同航迹重规划的方法主要有:1)将全局离线规划的方法直接扩展为动态重规划的方法:将经典的混合整数线性规划应用于动态环境中进行路径优化和避障。简言之,就是用数学规划的思想简化无人系统的引导;2)利用启发式搜索算法和智能理论算法进行航迹重规划,例如由A*算法改进而来的D*算法;3)强化学习方法。利用状态转移逐步进行区域的探索和预测,并通过学习来提高无人系统处理复杂未知环境的能力,该方法不仅考虑当前阶段航迹扩展的即时效应,还要考虑对将来继续决策产生的影响,适用于实时性的航迹重规划求解。
基于以上分析可见:多无人系统任务规划属于多约束、动态优化难题,当无人系统和任务数量较多且任务环境复杂多变时,难以用数学规划方法求解。因此研究适用于多无人系统协同任务规划问题的新型方法势在必行。
发明内容
本发明的目的是针对上述问题,提出了一种基于多智能体强化学习的无人集群任务协同方法,该方法能够得到更为良好的多无人系统协同任务规划结果。
为实现上述目的,本发明采用的技术方案为:
一种基于多智能体强化学习的无人集群任务协同方法,包括如下步骤:
步骤1,基于Unity搭建面向无人集群任务规划的强化学习仿真环境;
步骤2,使用Gym将获取到的仿真环境的信息搭建成符合规范的强化学习环境;
步骤3,对无人集群对抗环境建模;
步骤4,使用Tensorflow深度学习库搭建多智能体强化学习环境;
步骤5,使用协作深度确定性策略梯度方法求解多智能体强化学习问题;
步骤6,输出无人集群任务规划结果。
进一步的,步骤1所述的强化学习仿真环境包含场景中的实体对象及其功能函数;其中,实体对象包括:
①建筑群,组成了无人机飞行约束的障碍物约束;
②空气墙,组成无人机飞行约束的边界和高度约束;
③操场,作为入侵与防御目标的“领土”;
④光源,调节仿真环境亮度和阴影;
⑤相机模型,包括全景摄像头和俯视摄像头,用于实时可视化对抗;
⑥地面,作为环境整体,附带有一系列用于控制仿真环境的C#脚本;
⑦无人机模型,运行时由地面对象依照脚本预设参数生成,作为被控制的智能体,获取观测值,执行动作;
功能函数包括:
①Start(),启动程序时执行,按照设置分别生成两组若干个无人机对象,按照约束确定其初始位置;
②AgentReset(),按照设计的对抗规则完成时执行,重置无人机位置;
③CollectObservations(),获取当前时刻所有无人机坐标,归一化到[0,1]之间,传递到强化学习环境中;
④AgentAction(vectorAction),从强化学习算法得到N*3维向量的输出,N表示双方无人机数量,将向量调整为飞行约束范围内的速度值,按序号调用单个无人机的控制函数,作为速度来执行;
⑤destory(),关机,析构启动时生成的无人机对象;
⑥Continue_Control(vector3),针对无人机对象,将输入的三维向量转化为范围内的速度按序号传递给场景中的对象。
进一步的,步骤3中建模的规则如下:
有两组对抗的无人集群,红色无人机为防卫者,蓝色无人机为入侵者,双方拥有完全相同的飞行约束,环境中存在随机障碍物,无人机无法提前获知信息,无人机之间相撞或与建筑物相撞则退出环境,当防御者足够接近一架入侵者时,摧毁该入侵者,场景中央的绿色操场为目标“领土”,两队无人机围绕特定的目标“领土”进行对抗,入侵方目标为进入规定目标点,防守方目标为阻止入侵者接近,任何一架入侵者接近目标点,入侵方获胜;所有入侵者被摧毁或超时,判定为防御方获胜,无人机可以感知一定距离内建筑物与其他无人机的相对位置,并确定其坐标和速度;
无人机的飞行约束和对抗规则如下:
3a)无人机的飞行约束
无人机不能在场景中无限制的运动,需要遵从以下几点约束:初始坐标约束、边界和高度约束、速度和加速度约束、最大偏航角约束、障碍物约束;
3b)无人集群对抗规则
进攻无人机的目的是进入目标区域,防御无人机负责通过摧毁进攻无人机来保卫目标区域;无人机可侦测到自身范围内一定数量的敌方和己方单位坐标,防御无人机可摧毁自身攻击范围内的敌方单位;进攻无人机的获胜条件是足够接近目标区域;考虑能量消耗。
进一步的,步骤5的具体方式为:
5a)平均场强化学习
对于一个部分可观测的马尔可夫场景,在t时刻,智能体i的局部状态为st,i,动作为at,i,获得的奖励为rt,i,对智能体局部状态值进行扩展,引入其他所有智能体的局部状态的平均值得到了联合状态表示如下:
其中,d(i)是除了智能体i以外所有智能体的集合,|d(i)|是集合d(i)中智能体的数量;
动作表示如下:
其中,aj为智能体动作,为除了智能体i以外的所有智能体动作的平均;
智能体i的评价动作的Q值函数表示如下:
其中,x={s1...sn}为所有智能体状态的集合,a1,a2,...,ai,...,an均为智能体动作;
将其他智能体的奖励rt,j的平均值作为外部奖励,环境交互获得的奖励rt,i作为内部奖励,得到的联合奖励表示如下:
其中α为权重;
5b)Actor-Critic框架
采用Actor-Critic框架,每一个智能体都有Actor网络和Critic网络两个网络,Actor用于拟合智能体的策略函数,负责生成动作Action并和环境交互;Critic负责拟合价值函数,用于评估Actor的表现,并指导Actor下一阶段的动作;
5c)与环境的信息交互
状态空间:无人机i的状态包含自身位置xi、自身速度vi,到目标区域的距离di,m和离自己最近的无人机l的距离di,l,表示为:si=(xi,vi,di,m,di,1,...,di,l),其中di,l代表到无人机j的距离,si中所有的量都是有界且连续的;
动作空间:对于无人机i来说,动作空间是一个有界且连续的三维加速度向量ai=(ai,x,ai,y,ai,z);
奖励设置:对于入侵者i来说,它的奖励R1,i由距离奖励rd1和被摧毁的惩罚rp1组成,如下式所示:
R1,i=rd1+rp1
其中,距离奖励rd1和被摧毁的惩罚rp1的定义如下式所示:
其中,di,j和di,m分别代表到最近的防御者的距离和到目标区域的距离,N代表被摧毁无人机的数量,ψ,η,ζ是固定参数,Fs1和Fs2是布尔量,当入侵成功时Fs1为1,否则Fs1为0,当被摧毁时Fs2为1,否则Fs2为0;
对于防御者j来说,它的奖励R2,j由距离奖励rd2和摧毁敌方的奖励rp2组成,如下式所示:
R2,j=rd2+rp2
其中距离奖励rd2和摧毁敌方的奖励rp2如下式所示:
当目标区域被入侵时Fs1为1,否则Fs1为0,当无人机j摧毁其他无人机时Fs2为1,否则Fs2为0;
5d)强化学习流程
将Actor网络表示的函数标记为μ(s),输入状态si,输出单个状态对应的动作ai;Critic网络表示的函数标记为输入状态si、动作ai、其他智能体的平均动作/>输出Q值;Actor和Critic都有online和target两个版本的网络分别表示实时更新的网络和目前应用的网络,online网络参数按照策略梯度实时优化,target网络参数以固定步长向online网络参数靠拢;
每一个交互回合开始时,对每个智能体,首先根据当前状态si,从Actor网络获得一个确定的输出μ(si);为了策略的探索性,在μ(s)基础上加一个惯性噪声,得到具体每个智能体此轮执行的动作ai;在得到所有智能体的动作a={a1...an}后,执行动作与环境交互,得到奖励r和下一状态s′;此次交互得到分别代表当前联合状态、动作、联合奖励、下一联合状态、平均动作和结束信号;经验回放器D储存了最近的多轮交互的数据,每次随机抽取一批数据来更新Actor和Critic网络;
更新Critic的online网络,接下来更新Actor的online网络,最后用online网络分别更新Actor和Critic的target网络,采用软更新的方式。
本发明与现有技术相比具有如下优点:
1、本发明提出了协作深度确定性策略梯度方法(CODDPG),该方法将平均场强化学习理论与传统强化学习深度确定性策略梯度(DDPG)方法相结合,更适于求解多智能体强化学习。
2、本发明更新了强化学习奖励规则,传统方法直接使用环境得到的外部奖励作为自身奖励,这样难以学习到协作的策略,本方法将其他智能体的奖励的平均值作为外部奖励,将环境交互获得的奖励作为内部奖励,两者加权,可以更好反应队友的策略的影响,有利于协作。
3、本发明方法采用了集中式训练、分散式执行的架构,训练阶段算法使用全部智能体的状态、动作和奖励,而执行阶段智能体仅依靠自身局部状态信息做出决策,无需通信。
附图说明
图1是本发明的总流程图;
图2是无人机仿真对抗场景图,其中,(a)为全景图,(b)为俯视图;
图3是协作深度确定性策略梯度方法训练结构图,其中,environment表示环境,actor表示行动,critic表示策略,agent表示智能体;
图4是协作深度确定性策略梯度方法流程图,其中,actor表示行动,critic表示策略,OU noise表示惯性噪声,optimizer表示优化器;
图5是训练时的无人机对抗环境图;
图6是平均回报随训练轮数变换曲线图,横轴表示训练轮数,纵轴表示平均一轮的奖励;
图7是场景评价结果图,正斜杠填充区域表示DDPG,反斜杠填充区域表示MADDPG,横线填充区域表示CODDPG。
具体实施方式
以下结合附图对本发明的技术方案和实验结果作详细描述。
参照图1,一种基于多智能体强化学习的无人集群任务协同方法,其步骤如下:
步骤1,基于Unity搭建面向多无人系统任务规划的强化学习仿真环境,具体包含实体对象及其若干函数,简述如下:
1a)环境中的实体对象包括:
①建筑群,组成了无人机飞行约束的障碍物约束;
②空气墙,组成无人机飞行约束的边界和高度约束;
③操场,作为入侵与防御目标的“领土”;
④光源,调节仿真环境亮度和阴影;
⑤相机模型,包括全景摄像头和俯视摄像头,用于实时可视化对抗;
⑥地面,作为环境整体,附带有一系列用于控制仿真环境的C#脚本;
⑦无人机模型,运行时由地面对象依照脚本预设参数生成,作为被控制的智能体,获取观测值,执行动作;
1b)对象定义的若干函数包括:
①Start(),启动程序时执行,按照设置分别生成两组若干个无人机对象,按照约束确定其初始位置;
②AgentReset(),按照设计的对抗规则完成时执行,重置无人机位置;
③CollectObservations(),获取当前时刻所有无人机坐标,归一化到[0,1]之间,传递到强化学习环境中;
④AgentAction(vectorAction),从强化学习算法得到N*3维向量的输出,N表示双方无人机数量,将向量调整为飞行约束范围内的速度值,按序号调用单个无人机的控制函数,作为速度来执行;
⑤destory(),关机,析构启动时生成的无人机对象;
⑥Continue_Control(vector3),针对无人机对象,将输入的三维向量转化为范围内的速度按序号传递给场景中的对象。
步骤2,使用Gym将获取到的仿真环境的信息搭建成符合规范的强化学习环境;
步骤3,对无人集群对抗环境建模,如图2所示,建筑群中有两组对抗的无人集群,红色无人机为防卫者,蓝色无人机为入侵者,双方拥有完全相同的飞行约束,环境中存在随机障碍物,无人机无法提前获知信息,无人机之间相撞或与建筑物相撞则退出环境,至少n架防御者足够接近一架入侵者时,摧毁该入侵者,场景中央的绿色操场为目标“领土”,两队无人机围绕特定的目标“领土”进行对抗,入侵方目标为进入规定目标点,防守方目标为阻止入侵者接近,任何一架入侵者接近目标点,入侵方获胜;所有入侵者被摧毁或超时,判定为防御方获胜,无人机可以感知一定距离内建筑物与其他无人机的相对位置,并确定其坐标和速度,具体的无人机的飞行约束和对抗规则如下:
3a)无人机的飞行约束
无人机不能在场景中无限制的运动,需要遵从以下几点约束:初始坐标约束、边界和高度约束、速度和加速度约束、最大偏航角约束、障碍物约束。
3b)无人集群对抗规则
攻无人机的目的是进入目标区域,防御无人机负责通过摧毁进攻无人机来保卫目标区域;无人机可侦测到自身范围内一定数量的敌方和己方单位坐标,防御无人机可摧毁自身攻击范围内的敌方单位;进攻无人机的获胜条件是足够接近目标区域;考虑能量消耗。
步骤4,使用Tensorflow深度学习库搭建多智能体强化学习环境;
步骤5,使用协作深度确定性策略梯度方法(CODDPG)求解多智能体强化学习问题,该方法将平均场强化学习理论与传统强化学习深度确定性策略梯度方法结合,可以用于大规模的多智能体强化学习问题求解,具体操作步骤如下:
5a)平均场强化学习
对于一个部分可观测的马尔可夫场景,在t时刻,智能体i的局部状态为st,i,动作为at,i,获得的奖励为rt,i,CODDPG中对智能体局部状态值进行了扩展,引入了其他所有智能体的局部状态的平均值得到了联合状态,表示如下:
其中d(i)是除了智能体i以外所有智能体的集合,|d(i)|是集合d(i)中智能体的数量。
动作表示如下:
其中,为除了智能体i以外的所有智能体动作的平均。
智能体i的评价动作的Q值函数表示如下:
本方法将其他智能体的奖励rt,j的平均值作为外部奖励,其中α为权重,环境交互获得的奖励rti作为内部奖励,如下所示:
5b)Actor-Critic框架
CODDPG采用Actor-Critic框架,每一个智能体都有Actor网络和Critic网络两个网络,用π={π1…πn}来表示n个智能体的策略,用θ={θ1...θn}来表示它们的策略参数。对于每个智能体i来说,我们需要最大化它的预期回报,如下式所示:
确定性策略的策略梯度如下式所示:
其中,x={s1...sn}为所有智能体状态的集合,E表示期望,μ表示策略,D是经验回访器,从D中抽取数据进行训练,上式中的联合状态和动作的表示方法的维度随着智能体数量增加成指数增加,将上式中的联合状态x用替换,其他智能体的动作集合a={a1...ai-1,ai+1...an}用其他智能体动作的平均/>替换,Actor网络通过此策略梯度进行更新,表示如下:
上式用联合状态联合奖励/>平均动作/>分别代替状态x、奖励ri、其他智能体动作集合a={a1…ai-1,ai+1...an},所以Critic网络的损失函数可以被写为:
其中,为智能体i下一个时间步的联合状态,yi是对智能体i的Qi μ的估计,表示如下:
CODDPG采用集中式训练、分散式执行的架构,即训练阶段算法使用全部智能体的状态、动作和奖励,而执行阶段智能体仅依靠自身局部状态信息做出决策,无需通信,训练时的框架如图3所示。
5c)CODDPG与环境的信息交互
状态空间:无人机i的状态包含自身位置xi、自身速度vi,到目标区域的距离di,m和离自己最近的无人机l的距离di,l,表示为:si=(xi,vi,di,m,di,1,…,di,l),其中di,l代表到无人机j的距离,si中所有的量都是有界且连续的。
动作空间:对于无人机i来说,动作空间是一个有界且连续的三维加速度向量ai=(ai,x,ai,y,ai,z),需要注意的是,为了避免碰到障碍物,某些动作在一定条件下是无法选择的。
奖励设置:如果在对抗过程中仅依靠是否入侵成功或者是否摧毁地方无人机来设置奖励,会有很大的稀疏性和延迟性,使训练速度变得很慢,因此需要引入额外的外部奖励。
对于入侵者i来说,它的奖励R1,i由距离奖励rd1和被摧毁的惩罚rp1组成,如下式所示:
R1,i=rd1+rp1
其中距离奖励rd1和被摧毁的惩罚rp1的定义如下式所示:
其中di,j和di,m分别代表到最近的防御者的距离和到目标区域的距离,N代表被摧毁无人机的数量,ψ,η,ζ是人为规定的参数,Fs1和Fs2是布尔量,当入侵成功时Fs1为1,当被摧毁是Fs2为1,否则为0。
对于防御者j来说,它的奖励R2,j由距离奖励rd2和摧毁敌方的奖励rp2组成,如下式所示:
R2,j=rd2+rp2
其中距离奖励rd2和摧毁敌方的奖励rp2如下式所示,当目标区域被入侵时Fs1为1,当无人机j摧毁其他无人机时Fs2为1,否则为0。
5d)强化学习具体流程
对于具有n个无人机的对抗场景,CODDPG的主要流程如图4所示,Actor策略网络表示的函数标记为μ(s),输入状态si,输出单个状态对应的动作ai;Critic评价网络表示的函数标记为输入状态si、动作ai、其他智能体的平均动作/>输出Q值。Actor和Critic都有online和target两个版本的网络分别表示实时更新的网络和目前应用的网络,online网络参数按照策略梯度实时优化,target网络参数以较小的步长向online网络参数靠拢。
每一个交互回合开始时,对每个智能体,首先根据当前状态si,从Actor网络获得一个确定的输出μ(si)。为了策略的探索性,在μ(s)基础上加一个惯性噪声(Ornstein-Uhlenbeck noise)得到具体每个智能体此轮执行的动作ai。在得到所有智能体的动作a={a1...an}后,执行动作与环境交互,得到奖励r和下一状态s′。此次交互得到分别代表当前联合状态、动作、联合奖励、下一联合状态、平均动作和结束信号。经验回放器D储存了最近的若干轮交互的数据,每次随机抽取一小批数据来更新Actor和Critic网络。
先更新Critic的online网络,对于每一组训练数据,首先计算Q值的估计yi。Q值表示在状态下,采取动作a后,且如果持续执行策略μ的情况下,所获得的R的期望值。具体地,先用Actor的target网络决定下一时间步联合状态下的动作/>然后用Critic的target网络估计“未来”的Q值/>最后得到yi,并更新Critic的online网络。
接下来更新Actor的online网络,计算策略梯度,其中使用上一步更新的Critic的online网络,ai=μi(si)使用Actor的online网络。
最后用online网络分别更新Actor和Critic的target网络,采用软更新的方式,每次target的变动很小,以更多的更新次数为代价,提高网络的稳定性,加速收敛。
步骤6,输出多无人系统任务规划结果。
以下为一个具体实例:
1、实验条件与方法
硬件平台为:Intel(R)Core(TM)i5-9400F CPU@2.90GHZ、32GB RAM;
软件平台为:Tensorflow 1.8.0,Unity 4.6.1,gym 0.17.2;
实验方法:深度确定性策略梯度(DDPG)、多智能体深度确定性策略梯度(MADDPG)、本发明提出的协作深度确定性策略梯度算法(CODDPG)。
2、仿真内容与结果
设置了30个防御者和20个入侵者的场景,设置k=3,l=3,ψ=0.3,η=3,ζ=0.5(k是摧毁一个入侵者所需的防御者数量,l是一个UAV可以感知的UAV数量,ψ,η,ζ是奖励的相关系数),如图5所示。此时防守方正在集中消灭右下方向前来的入侵方。当所有入侵者被消灭或者任何入侵者进入目标区域时,场景结束。在这个场景中,入侵者使用不同的策略,防御者分别使用DDPG、MADDPG和CODDPG进行训练。此外,同一组无人机共享同一网络,以减少两种算法中的网络。
首先用DDPG算法训练无人机,然后保存入侵者的训练模型。然后分别用三种算法训练防御者,其中入侵者使用先前训练的DDPG网络模型。强化学习评价指标比较若干强化学习算法性能水平,通过平均回报和收敛速度两方面进行评价。防守者在训练中获得的平均奖励如图6所示,横轴表示训练轮数,纵轴表示平均一轮的奖励。从曲线上可以看出,在使用DDPG控制入侵者时,三种算法都能在一千轮迭代前快速收敛,其中COPPDG最早达到稳定。在三种算法均稳定之后,CODDPG算法的奖励最高。CODDPG算法最终以更好的收敛速度,获得了最高的回报。DDPG算法的回报最低,MADDPG算法中等。
3、场景评价指标
本方法用训练好的模型进行测试,对防守方在不同算法下的结果在多次实验后取平均进行评价。评价指标包括以下几点:
①胜率,包括将入侵方无人机全部消灭和超出时间范围,越大越好。
②平均用时,平均一轮对抗的用时,在确定了时间范围的情况下主要受消灭入侵者的效率影响,越小说明防御方取胜越快。
③追捕数量,追捕到的入侵者的数量,越大说明防御的成果越好。
④追捕用时,指平均每一个入侵者从进场到被消灭的用时,越小说明追捕的越快。
⑤方差,多次实验结果的方差,由于每次实验双方无人机的初始位置都是在约束下随机生成,每次的实验结果必然有微小差异,通过方差来衡量不同初始情况下算法的稳定性。
测试结果归一化后绘制直方图,如图7所示,其中CODDPG在胜率上略微超出MADDPG,平均用时和追捕用时上远超其他两算法,且方差最小,表面算法对于不确定的初始环境的泛用性。
总之,本发明提出了协作深度确定性策略梯度方法(CODDPG),该方法将平均场强化学习理论与传统强化学习深度确定性策略梯度(DDPG)方法结合,更善于求解多智能体强化学习;同时更新了强化学习奖励规则,传统的方法直接使用环境得到的外部奖励作为自身奖励,这样难以学习到协作的策略,本专利方法将其他智能体的奖励的平均值作为外部奖励,将环境交互获得的奖励作为内部奖励,两者加权,可以更好的反应队友的策略的影响,有利于协作;采用了集中式训练、分散式执行的架构,训练阶段算法使用全部智能体的状态、动作和奖励,而执行阶段智能体仅依靠自身局部状态信息做出决策,无需通信。
Claims (3)
1.一种基于多智能体强化学习的无人集群任务协同方法,其特征在于,包括如下步骤:
步骤1,基于Unity搭建面向无人集群任务规划的强化学习仿真环境;
步骤2,使用Gym将获取到的仿真环境的信息搭建成符合规范的强化学习环境;
步骤3,对无人集群对抗环境建模;
步骤4,使用Tensorflow深度学习库搭建多智能体强化学习环境;
步骤5,使用协作深度确定性策略梯度方法求解多智能体强化学习问题;具体方式为:
5a)平均场强化学习
对于一个部分可观测的马尔可夫场景,在t时刻,无人机智能体i的局部状态为st,i,动作为αt,i,获得的奖励为rt,i,对无人机智能体局部状态值进行扩展,引入其他所有无人机智能体的局部状态的平均值得到了联合状态表示如下:
其中,d(i)是除了无人机智能体i以外所有无人机智能体的集合,|d(i)|是集合d(i)中无人机智能体的数量;
动作表示如下:
其中,ak为无人机智能体动作,为除了无人机智能体i以外的所有无人机智能体动作的平均;
无人机智能体i的评价动作的Q值函数表示如下:
其中,x={s1...sn}为所有无人机智能体状态的集合,a1,…,an均为无人机智能体动作;
将其他无人机智能体的奖励rt,k的平均值作为外部奖励,环境交互获得的奖励rt,i作为内部奖励,得到的联合奖励表示如下:
其中α为权重;
5b)Actor-Critic框架
采用Actor-Critic框架,每一个无人机智能体都有Actor网络和Critic网络两个网络,Actor用于拟合无人机智能体的策略函数,负责生成动作Action并和环境交互;Critic负责拟合价值函数,用于评估Actor的表现,并指导Actor下一阶段的动作;
5c)与环境的信息交互
状态空间:无人机智能体i的状态包含自身位置xi、自身速度vi,到目标区域的距离di,m和离自己最近的l架无人机智能体的距离di,1,…,di,l,表示为:si=(xi,vi,di,m,di,1,…,di,l),其中di,l代表第l架无人机智能体到无人机智能体i的距离,si中所有的量都是有界且连续的;
动作空间:对于无人机智能体i来说,动作空间是一个有界且连续的三维加速度向量ai=(ai,x,ai,y,ai,z);
奖励设置:对于作为入侵者的无人机智能体i来说,它的奖励R1,i由距离奖励rd1和被摧毁的惩罚rp1组成,如下式所示:
R1,i=rd1+rp1
其中,距离奖励rd1和被摧毁的惩罚rp1的定义如下式所示:
其中,di,j和di,m分别代表到最近的防御者的距离和到目标区域的距离,N代表被摧毁无人机的数量,ψ,η,ζ是固定参数,Fs1和Fs2是布尔量,当入侵成功时Fs1为1,否则Fs1为0,当被摧毁时Fs2为1,否则Fs2为0;
对于防御者j来说,它的奖励R2,j由距离奖励rd2和摧毁敌方的奖励rp2组成,如下式所示:
R2,j=rd2+rp2
其中距离奖励rd2和摧毁敌方的奖励rp2如下式所示:
当目标区域被入侵时Fs1为1,否则Fs1为0,当防御者j摧毁其他无人机智能体时Fs2为1,否则Fs2为0;
5d)强化学习流程
将Actor网络表示的函数标记为μ(s),输入状态si,输出单个状态对应的动作ai;Critic网络表示的函数标记为输入状态si、动作ai、其他无人机智能体的平均动作/>输出Q值;Actor和Critic都有online和target两个版本的网络分别表示实时更新的网络和目前应用的网络,online网络参数按照策略梯度实时优化,target网络参数以固定步长向online网络参数靠拢;
每一个交互回合开始时,对每个无人机智能体,首先根据当前状态si,从Actor网络获得一个确定的输出μ(si);在μ(s)基础上加一个惯性噪声,得到具体每个无人机智能体此轮执行的动作ai;在得到所有无人机智能体的动作a={a1...an}后,执行动作与环境交互,得到奖励r和下一状态s';此次交互得到分别代表当前联合状态、动作、联合奖励、下一联合状态、平均动作和结束信号;经验回放器D储存了最近的多轮交互的数据,每次随机抽取一批数据来更新Actor和Critic网络;
更新Critic的online网络,接下来更新Actor的online网络,最后用online网络分别更新Actor和Critic的target网络,采用软更新的方式;
步骤6,输出无人集群任务规划结果。
2.根据权利要求1所述的一种基于多智能体强化学习的无人集群任务协同方法,其特征在于,步骤1所述的强化学习仿真环境包含场景中的实体对象及其功能函数;其中,实体对象包括:
①建筑群,组成了无人机飞行约束的障碍物约束;
②空气墙,组成无人机飞行约束的边界和高度约束;
③操场,作为入侵与防御目标的“领土”;
④光源,调节仿真环境亮度和阴影;
⑤相机模型,包括全景摄像头和俯视摄像头,用于实时可视化对抗;
⑥地面,作为环境整体,附带有一系列用于控制仿真环境的C#脚本;
⑦无人机模型,运行时由地面对象依照脚本预设参数生成,作为被控制的智能体,获取观测值,执行动作;
功能函数包括:
①Start(),启动程序时执行,按照设置分别生成两组若干个无人机对象,按照约束确定其初始位置;
②AgentReset(),按照设计的对抗规则完成时执行,重置无人机位置;
③CollectObservations(),获取当前时刻所有无人机坐标,归一化到[0,1]之间,传递到强化学习环境中;
④AgentAction(vectorAction),从强化学习算法得到N*3维向量的输出,N表示双方无人机数量,将向量调整为飞行约束范围内的速度值,按序号调用单个无人机的控制函数,作为速度来执行;
⑤destory(),关机,析构启动时生成的无人机对象;
⑥Continue_Control(vector3),针对无人机对象,将输入的三维向量转化为范围内的速度按序号传递给场景中的对象。
3.根据权利要求1所述的一种基于多智能体强化学习的无人集群任务协同方法,其特征在于,步骤3中建模的规则如下:
有两组对抗的无人集群,红色无人机为防卫者,蓝色无人机为入侵者,双方拥有完全相同的飞行约束,环境中存在随机障碍物,无人机无法提前获知信息,无人机之间相撞或与建筑物相撞则退出环境,当防御者足够接近一架入侵者时,摧毁该入侵者,场景中央的绿色操场为目标“领土”,两队无人机围绕特定的目标“领土”进行对抗,入侵方目标为进入规定目标点,防守方目标为阻止入侵者接近,任何一架入侵者接近目标点,入侵方获胜;所有入侵者被摧毁或超时,判定为防御方获胜,无人机可以感知一定距离内建筑物与其他无人机的相对位置,并确定其坐标和速度;
无人机的飞行约束和对抗规则如下:
3a)无人机的飞行约束
无人机不能在场景中无限制的运动,需要遵从以下几点约束:初始坐标约束、边界和高度约束、速度和加速度约束、最大偏航角约束、障碍物约束;
3b)无人集群对抗规则
进攻无人机的目的是进入目标区域,防御无人机负责通过摧毁进攻无人机来保卫目标区域;无人机可侦测到自身范围内一定数量的敌方和己方单位坐标,防御无人机可摧毁自身攻击范围内的敌方单位;进攻无人机的获胜条件是足够接近目标区域;考虑能量消耗。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110841689.0A CN113589842B (zh) | 2021-07-26 | 2021-07-26 | 一种基于多智能体强化学习的无人集群任务协同方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110841689.0A CN113589842B (zh) | 2021-07-26 | 2021-07-26 | 一种基于多智能体强化学习的无人集群任务协同方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113589842A CN113589842A (zh) | 2021-11-02 |
CN113589842B true CN113589842B (zh) | 2024-04-19 |
Family
ID=78249851
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110841689.0A Active CN113589842B (zh) | 2021-07-26 | 2021-07-26 | 一种基于多智能体强化学习的无人集群任务协同方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113589842B (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113110101B (zh) * | 2021-04-20 | 2022-06-21 | 济南大学 | 一种生产线移动机器人聚集式回收入库仿真方法及系统 |
CN113780688B (zh) * | 2021-11-10 | 2022-02-18 | 中国电力科学研究院有限公司 | 一种电热联合系统的优化运行方法、系统、设备及介质 |
CN114115342B (zh) * | 2021-11-19 | 2023-12-19 | 南京航空航天大学 | 一种基于冲突处理的无人集群多域协同系统及方法 |
CN114518772B (zh) * | 2022-02-25 | 2023-02-28 | 中发国研信息技术研究院(北京)有限公司 | 一种拒止环境下无人机蜂群自组织方法 |
CN114492845B (zh) * | 2022-04-01 | 2022-07-15 | 中国科学技术大学 | 资源受限条件下提高强化学习探索效率的方法 |
CN114489144B (zh) * | 2022-04-08 | 2022-07-12 | 中国科学院自动化研究所 | 无人机自主机动决策方法、装置及无人机 |
CN115175202B (zh) * | 2022-05-06 | 2023-11-07 | 中国科学院沈阳自动化研究所 | 一种基于强化学习的中继节点部署方法 |
CN114610474B (zh) * | 2022-05-12 | 2022-09-02 | 之江实验室 | 一种异构超算环境下多策略的作业调度方法及系统 |
CN115114723B (zh) * | 2022-06-07 | 2023-06-09 | 中国船舶集团有限公司系统工程研究院 | 一种水面无人艇任务规划学习器设计方法及系统 |
CN114971502B (zh) * | 2022-07-29 | 2023-05-05 | 白杨时代(北京)科技有限公司 | 一种配送中心的选址方法及装置 |
CN115361301B (zh) * | 2022-10-09 | 2023-01-10 | 之江实验室 | 一种基于dqn的分布式计算网络协同流量调度系统与方法 |
CN115454136B (zh) * | 2022-10-09 | 2024-04-30 | 北京航空航天大学 | 一种无人机集群协同攻防对抗决策方法 |
CN115330095B (zh) * | 2022-10-14 | 2023-07-07 | 青岛慧拓智能机器有限公司 | 矿车调度模型训练方法、装置、芯片、终端、设备及介质 |
CN115562357B (zh) * | 2022-11-23 | 2023-03-14 | 南京邮电大学 | 一种面向无人机集群的智能路径规划方法 |
CN115951881B (zh) * | 2022-12-30 | 2023-09-05 | 北京理工大学 | 一种基于sumo的多智能体强化学习自主开发接口 |
CN116760888B (zh) * | 2023-05-31 | 2024-05-28 | 中国科学院软件研究所 | 一种多无人机间数据智能组织与推送方法 |
CN116400737B (zh) * | 2023-06-02 | 2023-08-25 | 中国传媒大学 | 一种基于蚁群算法的安全路径规划系统 |
CN116430754B (zh) * | 2023-06-09 | 2023-09-12 | 北京中兵天工防务技术有限公司 | 一种无人机集群多任务控制半实物仿真方法 |
CN116738867B (zh) * | 2023-08-14 | 2023-10-31 | 厦门安智达信息科技有限公司 | 一种基于机器学习的无人机防御仿真方法及其系统 |
CN117371812A (zh) * | 2023-10-12 | 2024-01-09 | 中山大学 | 一种飞行器群协同决策生成方法、系统和设备 |
CN117572893B (zh) * | 2024-01-15 | 2024-03-19 | 白杨时代(北京)科技有限公司 | 基于强化学习的无人机集群对抗策略获取方法及相关设备 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108600379A (zh) * | 2018-04-28 | 2018-09-28 | 中国科学院软件研究所 | 一种基于深度确定性策略梯度的异构多智能体协同决策方法 |
CN110007688A (zh) * | 2019-04-25 | 2019-07-12 | 西安电子科技大学 | 一种基于强化学习的无人机集群分布式编队方法 |
CN110084375A (zh) * | 2019-04-26 | 2019-08-02 | 东南大学 | 一种基于深度强化学习的多agent协作框架 |
CN110531617A (zh) * | 2019-07-30 | 2019-12-03 | 北京邮电大学 | 多无人机3d悬停位置联合优化方法、装置和无人机基站 |
CN112131660A (zh) * | 2020-09-10 | 2020-12-25 | 南京大学 | 一种基于多智能体强化学习的无人机集群协同学习方法 |
CN112198892A (zh) * | 2020-05-13 | 2021-01-08 | 北京理工大学 | 一种多无人机智能协同突防对抗方法 |
CN112215364A (zh) * | 2020-09-17 | 2021-01-12 | 天津(滨海)人工智能军民融合创新中心 | 一种基于强化学习的敌-友深度确定性策略方法及系统 |
CN112231968A (zh) * | 2020-09-09 | 2021-01-15 | 山东师范大学 | 基于深度强化学习算法的人群疏散仿真方法及系统 |
JP2021034050A (ja) * | 2019-08-21 | 2021-03-01 | 哈爾浜工程大学 | 強化学習に基づくauv行動計画及び動作制御方法 |
CN112861442A (zh) * | 2021-03-10 | 2021-05-28 | 中国人民解放军国防科技大学 | 基于深度强化学习的多机协同空战规划方法及系统 |
-
2021
- 2021-07-26 CN CN202110841689.0A patent/CN113589842B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108600379A (zh) * | 2018-04-28 | 2018-09-28 | 中国科学院软件研究所 | 一种基于深度确定性策略梯度的异构多智能体协同决策方法 |
CN110007688A (zh) * | 2019-04-25 | 2019-07-12 | 西安电子科技大学 | 一种基于强化学习的无人机集群分布式编队方法 |
CN110084375A (zh) * | 2019-04-26 | 2019-08-02 | 东南大学 | 一种基于深度强化学习的多agent协作框架 |
CN110531617A (zh) * | 2019-07-30 | 2019-12-03 | 北京邮电大学 | 多无人机3d悬停位置联合优化方法、装置和无人机基站 |
JP2021034050A (ja) * | 2019-08-21 | 2021-03-01 | 哈爾浜工程大学 | 強化学習に基づくauv行動計画及び動作制御方法 |
CN112198892A (zh) * | 2020-05-13 | 2021-01-08 | 北京理工大学 | 一种多无人机智能协同突防对抗方法 |
CN112231968A (zh) * | 2020-09-09 | 2021-01-15 | 山东师范大学 | 基于深度强化学习算法的人群疏散仿真方法及系统 |
CN112131660A (zh) * | 2020-09-10 | 2020-12-25 | 南京大学 | 一种基于多智能体强化学习的无人机集群协同学习方法 |
CN112215364A (zh) * | 2020-09-17 | 2021-01-12 | 天津(滨海)人工智能军民融合创新中心 | 一种基于强化学习的敌-友深度确定性策略方法及系统 |
CN112861442A (zh) * | 2021-03-10 | 2021-05-28 | 中国人民解放军国防科技大学 | 基于深度强化学习的多机协同空战规划方法及系统 |
Non-Patent Citations (2)
Title |
---|
Research on UAV Swarm Confrontation Task Based on MADDPG Algorithm;Lei Xiang 等;2020 5th International Conference on Mechanical, Control and Computer Engineering (ICMCCE);20201231;全文 * |
基于多智能体强化学习的无人机集群攻防对抗策略研究;轩书哲 等;信号与信息处理;20210505;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113589842A (zh) | 2021-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113589842B (zh) | 一种基于多智能体强化学习的无人集群任务协同方法 | |
De Souza et al. | Decentralized multi-agent pursuit using deep reinforcement learning | |
CN111880563B (zh) | 一种基于maddpg的多无人机任务决策方法 | |
CN109254588B (zh) | 一种基于交叉变异鸽群优化的无人机集群协同侦察方法 | |
CN105892480B (zh) | 异构多无人机系统协同察打任务自组织方法 | |
Zhang et al. | Three-dimensional path planning for uninhabited combat aerial vehicle based on predator-prey pigeon-inspired optimization in dynamic environment | |
CN113791634B (zh) | 一种基于多智能体强化学习的多机空战决策方法 | |
Ma et al. | Multi-robot target encirclement control with collision avoidance via deep reinforcement learning | |
Wang et al. | Improving maneuver strategy in air combat by alternate freeze games with a deep reinforcement learning algorithm | |
CN109669475A (zh) | 基于人工蜂群算法的多无人机三维编队重构方法 | |
CN111859541B (zh) | 一种基于迁移学习改进的pmaddpg多无人机任务决策方法 | |
Kersandt et al. | Self-training by reinforcement learning for full-autonomous drones of the future | |
CN115291625A (zh) | 基于多智能体分层强化学习的多无人机空战决策方法 | |
CN114460959A (zh) | 一种基于多体博弈的无人机群协同自主决策方法及装置 | |
CN114510078B (zh) | 一种基于深度强化学习的无人机机动规避决策方法 | |
CN112651486A (zh) | 一种提高maddpg算法收敛速度的方法及其应用 | |
Yu et al. | Hawk and pigeon’s intelligence for UAV swarm dynamic combat game via competitive learning pigeon-inspired optimization | |
Bertram et al. | An efficient algorithm for multiple-pursuer-multiple-evader pursuit/evasion game | |
Gong et al. | UAV cooperative air combat maneuvering confrontation based on multi-agent reinforcement learning | |
Shen | Bionic communication network and binary pigeon-inspired optimization for multiagent cooperative task allocation | |
CN113741186B (zh) | 一种基于近端策略优化的双机空战决策方法 | |
Kong et al. | Hierarchical multi‐agent reinforcement learning for multi‐aircraft close‐range air combat | |
Nguyen et al. | Stag hunt game-based approach for cooperative UAVs | |
Sun et al. | Multi-agent air combat with two-stage graph-attention communication | |
CN115097861B (zh) | 一种基于cel-maddpg的多无人机围捕策略方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |