CN114578860A - 一种基于深度强化学习的大规模无人机集群飞行方法 - Google Patents
一种基于深度强化学习的大规模无人机集群飞行方法 Download PDFInfo
- Publication number
- CN114578860A CN114578860A CN202210310624.8A CN202210310624A CN114578860A CN 114578860 A CN114578860 A CN 114578860A CN 202210310624 A CN202210310624 A CN 202210310624A CN 114578860 A CN114578860 A CN 114578860A
- Authority
- CN
- China
- Prior art keywords
- network
- course
- unmanned aerial
- aerial vehicle
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 69
- 238000000034 method Methods 0.000 title claims abstract description 66
- 230000007246 mechanism Effects 0.000 claims abstract description 26
- 230000008569 process Effects 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 19
- 230000009471 action Effects 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 16
- 230000015654 memory Effects 0.000 claims description 14
- 230000004931 aggregating effect Effects 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 9
- 230000009916 joint effect Effects 0.000 claims description 8
- 241001481710 Cerambycidae Species 0.000 claims description 5
- 238000003780 insertion Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000000926 separation method Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000001133 acceleration Effects 0.000 claims description 2
- 230000002776 aggregation Effects 0.000 claims description 2
- 238000004220 aggregation Methods 0.000 claims description 2
- 238000004891 communication Methods 0.000 claims description 2
- 241000257161 Calliphoridae Species 0.000 abstract description 2
- 239000000047 product Substances 0.000 description 4
- RZVHIXYEVGDQDX-UHFFFAOYSA-N 9,10-anthraquinone Chemical compound C1=CC=C2C(=O)C3=CC=CC=C3C(=O)C2=C1 RZVHIXYEVGDQDX-UHFFFAOYSA-N 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000011217 control strategy Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明公开了一种基于深度强化学习的大规模无人机集群飞行方法,该方法将无人机集群防撞策略的学习过程依次划分为多个课程,使后一个课程的无人机集群规模大于前一个课程的无人机集群规模;构建基于执行器网络和评价器网络组成的课程强化学习框架,并在课程强化学习框架中设置基于注意力机制的群体恒定网络;根据课程强化学习框架依次对每个课程进行策略学习,得到每一架无人机的飞行策略;根据当前课程的前一个课程中的每一架无人机的经验数据,更新当前课程在策略学习过程中的执行器网络参数和评价器网络参数。本发明能够有效提高大规模无人机的学习和训练效率,有效避免大规模无人机集群飞行时发生碰撞,并具有强大的泛化能力。
Description
技术领域
本发明涉及无人机技术领域,具体涉及一种基于深度强化学习的大规模无人机集群飞行方法。
背景技术
近年来,随着机器人技术、机器学习技术以及智能控制技术的不断发展,无人机自主控制技术取得了长足的进步。固定翼无人机具有飞行速度快、续航能力强和有效载荷大等特点,在区域侦察、灾难搜救、边境管控等任务中得到了广泛的应用。上述任务通常需要通过多架无人机的协同配合来提高任务完成效率。然而,无人机群自主飞行与避障行为的获取难度与无人机的数量、任务复杂度都密切相关,仍然是一个极具挑战的理论难题。
传统的控制方法通常依赖于无人机平台和外界扰动的精确模型。但由于上述的精确模型具有复杂、时变和非线性的特点,并且受传感器误差、环境扰动等因素的影响,使得传统控制方法难以解决大规模无人机集群的控制问题。
近年来,强化学习方法在集群的自主控制问题中得到了初步应用。但是,由于固定翼无人机集群在实际应用中存在规模大、动态性强、训练时间长等挑战,现有的强化学习方法难以解决集群规模动态变化、任务复杂度不断提升的无人机集群防撞飞行控制问题。
发明内容
为解决现有技术中存在的问题,本发明提供一种基于深度强化学习的大规模无人机集群飞行方法,能够解决集群规模动态变化、任务复杂度不断提升的无人机集群防撞飞行控制问题,有效提高大规模无人机的学习和训练效率。
为达到上述目的,本发明的技术方案是这样实现的:
第一方面,本发明实施例提供了一种基于深度强化学习的大规模无人机集群飞行方法,包括步骤:
将无人机集群防撞策略的学习过程依次划分为多个课程,使后一个课程的无人机集群规模大于前一个课程的无人机集群规模;
构建基于执行器网络和评价器网络组成的课程强化学习框架,并在所述课程强化学习框架中设置基于注意力机制的群体恒定网络,所述基于注意力机制的群体恒定网络用于对输入所述执行器网络和所述评价器网络的多种不同维度的无人机状态参数进行聚合;
根据所述课程强化学习框架依次对每个课程进行策略学习,得到每一架无人机的飞行策略;并根据当前课程的前一个课程中的每一架无人机的经验数据,更新所述当前课程在策略学习过程中的执行器网络参数和评价器网络参数。
与现有技术相比,本发明第一方面具有以下有益效果:
本方法将无人机集群防撞策略的学习过程依次划分为多个课程,使后一个课程的无人机集群规模大于前一个课程的无人机集群规模;使用课程强化学习框架依次对每个课程进行策略学习,该课程强化学习框架基于注意力机制的群体恒定网络对输入执行器网络和评价器网络的多种不同维度的无人机状态参数进行聚合,并在当前课程的前一个课程中学习所得控制策略的基础上,继续更新当前课程在策略学习过程中的执行器网络参数和评价器网络参数。本方法通过基于注意力机制的群体恒定网络对输入执行器网络和评价器网络的多种不同维度的无人机状态参数进行聚合,能够对输入向量维度进行自适应动态调整以及允许加载之前的网络,通过课程强化学习框架有效提高大规模无人机的学习和训练效率,有效避免大规模无人机集群飞行时发生碰撞,并具有强大的泛化能力。
进一步,所述在所述课程强化学习框架中设置基于注意力机制的群体恒定网络,包括:
对所述僚机i的状态、所述邻居僚机j的状态和所述长机的状态进行编码,编码公式为:
其中,所述FC(·)表示由整流线性单元激活的一层全连接网络实现的嵌入函数,所述ei表示僚机i的嵌入,所述ej表示所述僚机i的邻居僚机j的嵌入,所述el表示长机的嵌入;
设计注意力嵌入模块,根据所述注意力嵌入模块将所有邻居僚机j的状态聚合成一个固定长度的向量ci,所述ci的计算公式为:
其中,所述Νi表示僚机i的邻居僚机的集合,所述ωij表示邻居僚机j对于以自我为中心的僚机i的重要性,所述ωij的计算公式为:
通过如下公式获得无人机的动作:
ai=MLP(ei||ci||el)
所述MLP(·)表示由整流线性单元和双曲正切函数激活的两层感知器,所述||表示级联操作符;
进一步,所述根据每一架无人机的经验数据,更新执行器网络参数和评价器网络参数,包括:
计算所有无人机的平均梯度,用于更新所述执行器网络μ的参数θμ,所述平均梯度计算公式为:
其中,所述μ表示所述执行器网络,所述执行器网络的参数为θμ,所述Q表示所述评价器网络,所述评价器网络的参数为θQ,所述s表示系统状态向量,所述o表示观测向量,所述a表示联合动作,所述D表示所有无人机的经验回放缓存池,所述I表示所有无人机的集合,所述表示以自我为中心的观测向量,所述表示以自我为中心的状态,所述a=(a1,...,an)表示所有无人机的联合动作;
从所述经验回放缓存池中随机采样经验数据,用于更新所述评价器网络Q的参数θQ,所述评价器网络的计算公式为:
其中,目标Q值yi的计算公式为所述r表示所有无人机的回报值,所述s'表示下一时刻的系统状态向量,所述μ-表示目标执行器网络,所述目标执行器网络的参数为所述Q-表示目标评价器网络,所述目标评价器网络的参数为所述表示目标评价器网络中以自我为中心的状态,所述a=(a1',...,a'n)表示目标评价器网络中所有无人机的联合动作。
进一步,通过如下公式更新所述目标执行器网络的参数和所述目标评价器网络的参数:
进一步,通过如下方式建立所述以自我为中心的状态和所述自我为中心的观测向量:
建立僚机i以自我为中心的状态公式:
其中,所述P(·)表示变换函数,所述变换函数将僚机i的系统状态向量s从全局坐标系中变换到以自我为中心的状态坐标系中,所述ξj:=(xj,yj,ψj,φj,vj)表示僚机j在全局坐标系中的状态,所述表示僚机i的自我状态,僚机j在僚机i的坐标系中的坐标为所述(xj,yj)表示僚机j的平面坐标,所述ψj表示僚机j的航向角,所述φj表示僚机j的滚转角,所述vj表示僚机j的速度,所述表示僚机j以自我为中心的状态系中的平面坐标,所述表示僚机j以自我为中心的状态系中的航向,所述表示僚机i以自我为中心的平面坐标,所述表示僚机i以自我为中心的航向角;
建立僚机i以自我为中心的观测向量公式:
其中,所述oi表示僚机i的观测向量。
进一步,所述根据所述课程强化学习框架依次对每个课程进行策略学习,得到每一架无人机的飞行策略,包括如下步骤:
初始化K个课程,并随机初始化所述执行器网络的参数θμ和所述评价器网络的参数θQ;
确定课程编号k=1,2,...,K的取值,从课程1到课程K,进行如下操作:
针对课程k,k>1,从课程k-1中初始化模型参数如下:
清空容量为N的经验回放缓存池D;
增加僚机的数量;
确定训练回合数e=1,2,...,M,从训练回合数1到训练回合数M,进行如下操作:
随机初始化系统状态向量s←(ξl,ξf);
获取初始观测向量o;
针对每个回合e,设定总时间步长Ns,从时间步长1到时间步长Ns,进行如下操作:
采用当前执行器网络μ和高斯随机探索策略Ν(0,σ2),选择僚机i的动作值如下:
其中,所述表示僚机i的滚动动作,所述表示僚机i的速度动作,所述φi表示僚机i的当前滚转角,所述vi表示僚机i的当前速度,所述[-rbd,rbd]表示下一时刻僚机i的滚转角的范围,所述vmax表示最大速度,所述vmin表示最小速度;
根据无人机动力学模型计算下一时刻的系统状态向量s';
计算僚机i的即时回报值ri,所述ri计算公式为:
其中,所述表示凝聚奖励,计算公式为所述表示分离奖励,计算公式为所述ρi表示长机和僚机i之间的距离,所述Ra表示僚机i的警戒半径,所述Δψi表示长机和僚机i之间的航向差,所述ω1和ω2表示调谐参数,所述Dij表示从僚机i到所述僚机i的第j个邻居的距离,常数P>>0,所述Rs表示僚机i的最小安全距离;
获取下一时刻的观测向量o';
将经验数据以(s,o,a,r,o',s')的形式存储至经验回放缓存池D;
若所述经验回放缓存池容量不足,则删除最旧的经验数据;
更新所述系统状态向量和所述观测向量的时间标签:s←s',o←o';
从所述经验回放缓存池D中选取数量为Nb的经验数据,根据数量为Nb的经验数据更新所述执行器网络的参数和所述评价器网络的参数其中,所述目标执行器网络的参数和所述目标评价器网络的参数每经过c时间步长更新一次;
在所有课程学习完后,获得每一架无人机的飞行策略。
进一步,通过如下公式构建无人机动力学模型:
其中,所述(x,y)表示无人机的平面坐标,所述ψ表示航向角,所述φ表示滚转角,所述v表示无人机的速度,所述αg表示重力加速度,干扰项ηx来自正态分布干扰项ηy来自正态分布干扰项ηψ来自正态分布所述fφ(φ,φref)表示滚转动力学,所述fv(v,vref)表示速度动力学。
第二方面,本发明实施例提供了一种基于深度强化学习的大规模无人机集群飞行系统,包括:
课程划分单元,用于将无人机集群防撞策略的学习过程依次划分为多个课程,使后一个课程的无人机集群规模大于前一个课程的无人机集群规模;
学习框架构建单元,用于构建基于执行器网络和评价器网络组成的课程强化学习框架,并在所述课程强化学习框架中设置基于注意力机制的群体恒定网络,所述基于注意力机制的群体恒定网络用于对输入所述执行器网络和所述评价器网络的多种不同维度的无人机状态参数进行聚合;
飞行策略计算单元,用于根据所述课程强化学习框架依次对每个课程进行策略学习,得到每一架无人机的飞行策略;并根据当前课程的前一个课程中的每一架无人机的经验数据,更新所述当前课程在策略学习过程中的执行器网络参数和评价器网络参数。
与现有技术相比,本发明第二方面具有以下有益效果:
本系统通过多个课程划分单元将无人机集群防撞策略的学习过程依次划分为多个课程,使后一个课程的无人机集群规模大于前一个课程的无人机集群规模;通过课程强化学习框架构建单元构建基于执行器网络和评价器网络组成的课程强化学习框架,并在课程强化学习框架中设置基于注意力机制的群体恒定网络,基于注意力机制的群体恒定网络用于对输入执行器网络和评价器网络的多种不同维度的无人机状态参数进行聚合;通过飞行策略获取单元根据课程强化学习框架依次对每个课程进行策略学习,得到每一架无人机的飞行策略;并在当前课程的前一个课程中学习所得控制策略的基础上,继续更新当前课程在策略学习过程中的执行器网络参数和评价器网络参数。本系统通过基于注意力机制的群体恒定网络对输入执行器网络和评价器网络的多种不同维度的无人机状态参数进行聚合,能够对输入向量维度进行自适应动态调整以及允许加载之前的网络,通过课程强化学习框架有效提高大规模无人机的学习和训练效率,有效避免大规模无人机集群飞行时发生碰撞,并具有强大的泛化能力。
第三方面,本发明实施例提供了一种基于深度强化学习的大规模无人机集群飞行设备,包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器;所述存储器存储有可被所述至少一个控制处理器执行的指令,所述指令被所述至少一个控制处理器执行,以使所述至少一个控制处理器能够执行如上所述的一种基于深度强化学习的大规模无人机集群飞行方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如上所述的一种基于深度强化学习的大规模无人机集群飞行方法。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明一个实施例提供的一种基于深度强化学习的大规模无人机集群飞行方法的流程图;
图2为本发明一个实施例提供的课程迁移学习框架示意图;
图3为本发明一个实施例提供的基于注意力机制的群体恒定网络的结构图;
图4为本发明一个实施例提供的一种基于深度强化学习的大规模无人机集群飞行系统的结构图。
具体实施方式
下面将结合附图,对本公开实施例的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。需要说明的是,在不冲突的情况下,本公开实施例及实施例中的特征可以相互组合。另外,附图的作用在于用图形补充说明书文字部分的描述,使人能够直观地、形象地理解本公开的每个技术特征和整体技术方案,但其不能理解为对本公开保护范围的限制。
在本发明的描述中,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
近年来,强化学习方法在集群的自主控制问题中得到了初步应用。但是,由于固定翼无人机集群在实际应用中存在规模大、动态性强、训练时间长等挑战,现有的强化学习方法难以解决集群规模动态变化、任务复杂度不断提升的无人机集群避障飞行控制问题。
为解决上述问题,通过基于注意力机制的群体恒定网络对输入执行器网络和评价器网络的多种不同维度的无人机状态参数进行聚合,能够对输入向量维度进行自适应动态调整以及允许加载之前的网络,通过课程强化学习框架有效提高大规模无人机的学习和训练效率,有效避免大规模无人机集群飞行时发生碰撞,并具有强大的泛化能力。
参照图1至图3,本发明实施例提供了一种基于深度强化学习的大规模无人机集群飞行方法,包括步骤:
步骤S100、将无人机集群防撞策略的学习过程依次划分为多个课程,使后一个课程的无人机集群规模大于前一个课程的无人机集群规模。
具体的,将无人机集群防撞策略的学习过程依次划分为多个课程,使后一个课程的无人机集群规模大于前一个课程的无人机集群规模,通过不断增加无人机数量扩大无人机集群规模。
步骤S200、构建基于执行器网络和评价器网络组成的课程强化学习框架,并在课程强化学习框架中设置基于注意力机制的群体恒定网络,基于注意力机制的群体恒定网络用于对输入执行器网络和评价器网络的多种不同维度的无人机状态参数进行聚合。
具体的,首先,建立以自我为中心的表征,具体如下:
建立僚机i以自我为中心的状态公式:
其中,P(·)表示变换函数,变换函数将僚机i的系统状态向量s从全局坐标系中变换到以自我为中心的状态坐标系中,ξj:=(xj,yj,ψj,φj,vj)表示僚机j在全局坐标系中的状态,表示僚机i的自我状态,僚机j在僚机i的坐标系中的坐标为表示僚机j的平面坐标,ψj表示僚机j的航向角,φj表示僚机j的滚转角,vj表示僚机j的速度,表示僚机j以自我为中心的状态系中的平面坐标,表示僚机j以自我为中心的状态系中的航向,表示僚机i以自我为中心的平面坐标,表示僚机i以自我为中心的航向角;
建立僚机i以自我为中心的观测向量公式:
然后,构建基于注意力机制的群体恒定网络,具体如下:
对僚机i的状态、邻居僚机j的状态和长机的状态进行编码,编码公式为:
其中,FC(·)表示由整流线性单元激活的一层全连接网络实现的嵌入函数,ei表示僚机i的嵌入,ej表示僚机i的邻居僚机j的嵌入,el表示长机的嵌入;
设计注意力嵌入模块,根据注意力嵌入模块将所有邻居僚机j的状态聚合成一个固定长度的向量ci,ci的计算公式为:
其中,Νi表示僚机i的邻居僚机的集合,ωij表示邻居僚机j对于以自我为中心的僚机i的重要性,ωij的计算公式为:
通过如下公式获得无人机的动作:
ai=MLP(ei||ci||el)
MLP(·)表示由整流线性单元和双曲正切函数激活的两层感知器,||表示级联操作符;
本实施例中,图2中的APINet表示基于注意力机制的群体恒定网络,图3中DotProduct表示向量点积,Softmax表示归一化指数函数,Scaled-Dot Product表示缩放点积,Ego-Centric Representation表示以自我为中心的表征,Roll表示输出僚机i的滚动,Speed表示输出僚机i的速度,Attention表示注意力嵌入模块,Q-values表示输出僚机i的Q值,本实施例通过注意力机制的群体恒定网络对输入执行器网络和评价器网络的多种不同维度的无人机状态参数进行聚合,能够对输入向量维度进行自适应动态调整以及允许加载之前的网络。
步骤S300、根据课程强化学习框架依次对每个课程进行策略学习,得到每一架无人机的飞行策略;并根据当前课程的前一个课程中的每一架无人机的经验数据,更新当前课程在策略学习过程中的执行器网络参数和评价器网络参数。
具体的,根据每一架无人机的经验数据,更新执行器网络参数和评价器网络参数,更新过程为:
计算所有无人机的平均梯度,用于更新执行器网络μ的参数θμ,平均梯度计算公式为:
其中,μ表示执行器网络,执行器网络的参数为θμ,Q表示评价器网络,评价器网络的参数为θQ,s表示系统状态向量,o表示观测向量,a表示联合动作,D表示所有无人机的经验回放缓存池,I表示所有无人机的集合,表示以自我为中心的观测向量,表示以自我为中心的状态,a=(a1,...,an)表示所有无人机的联合动作;
从经验回放缓存池中随机采样经验数据,用于更新评价器网络Q的参数θQ,评价器网络的计算公式为:
其中,目标Q值yi的计算公式为r表示所有无人机的回报值,s'表示下一时刻的系统状态向量,μ-表示目标执行器网络,目标执行器网络的参数为Q-表示目标评价器网络,目标评价器网络的参数为表示目标评价器网络中以自我为中心的状态,a=(a1',...,a'n)表示目标评价器网络中所有无人机的联合动作。
通过如下公式更新目标执行器网络的参数和目标评价器网络的参数:
基于上述参数的更新方式,根据课程强化学习框架依次对每个课程进行策略学习和训练,得到每一架无人机的飞行策略,学习和训练过程包括步骤:
初始化K个课程,并随机初始化执行器网络的参数θμ和评价器网络的参数θQ;
确定课程编号k=1,2,...,K的取值,从课程1到课程K,进行知识迁移操作:
针对课程k,k>1,从课程k-1中初始化模型参数如下:
清空容量为N的经验回放缓存池D;
增加僚机的数量;
确定训练回合数e=1,2,...,M,从训练回合数1到训练回合数M,进行策略学习操作:
随机初始化系统状态向量s←(ξl,ξf);
获取初始观测向量o;
针对每个回合e,设定总时间步长Ns,从时间步长1到时间步长Ns,进行如下操作:
采用当前执行器网络μ和高斯随机探索策略Ν(0,σ2),选择僚机i的动作值如下:
其中,表示僚机i的滚动动作,表示僚机i的速度动作,φi表示僚机i的当前滚转角,vi表示僚机i的当前速度,[-rbd,rbd]表示下一时刻僚机i的滚转角的范围,vmax表示最大速度,vmin表示最小速度;
根据无人机动力学模型计算下一时刻的系统状态向量s';
计算僚机i的即时回报值ri,ri计算公式为:
其中,表示凝聚奖励,计算公式为 表示分离奖励,计算公式为ρi表示长机和僚机i之间的距离,Ra表示僚机i的警戒半径,Δψi表示长机和僚机i之间的航向差,ω1和ω2表示调谐参数,Dij表示从僚机i到僚机i的第j个邻居的距离,常数P>>0,Rs表示僚机i的最小安全距离;
获取下一时刻的观测向量o';
将经验数据以(s,o,a,r,o',s')的形式存储至经验回放缓存池D;
若经验回放缓存池容量不足,则删除最旧的经验数据;
更新系统状态向量和观测向量的时间标签:s←s',o←o';
在所有课程学习完后,获得每一架无人机的飞行策略。
需要说明的是,N表示经验回放缓存池D的容量,Nb和c可以根据所需设定值,但Nb取值不会大于经验回放缓存池D的容量,c取值不会大于总时间步长。
在本发明实施例中,通过注意力机制的群体恒定网络对输入执行器网络和评价器网络的多种不同维度的无人机状态参数进行聚合,能够对输入向量维度进行自适应动态调整以及允许加载之前的网络,通过课程强化学习框架有效提高大规模无人机的学习和训练效率,有效避免大规模无人机集群飞行时发生碰撞,并具有强大的泛化能力。
参照图4,本发明实施例还提供了一种基于深度强化学习的大规模无人机集群飞行系统,包括:
课程划分单元,用于将无人机集群防撞策略的学习过程依次划分为多个课程,使后一个课程的无人机集群规模大于前一个课程的无人机集群规模;
学习框架构建单元,用于构建基于执行器网络和评价器网络组成的课程强化学习框架,并在课程强化学习框架中设置基于注意力机制的群体恒定网络,基于注意力机制的群体恒定网络用于对输入执行器网络和评价器网络的多种不同维度的无人机状态参数进行聚合;
飞行策略计算单元,用于根据课程强化学习框架依次对每个课程进行策略学习,得到每一架无人机的飞行策略;并根据当前课程的前一个课程中的每一架无人机的经验数据,更新当前课程在策略学习过程中的执行器网络参数和评价器网络参数。
需要说明的是,由于本实施例中的一种基于深度强化学习的大规模无人机集群飞行系统与上述的一种基于深度强化学习的大规模无人机集群飞行方法基于相同的发明构思,因此,方法实施例中的相应内容同样适用于本系统实施例,此处不再详述。
本发明实施例还提供了一种基于深度强化学习的大规模无人机集群飞行设备,包括:至少一个控制处理器和用于与至少一个控制处理器通信连接的存储器。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
实现上述实施例的一种基于深度强化学习的大规模无人机集群飞行方法所需的非暂态软件程序以及指令存储在存储器中,当被处理器执行时,执行上述实施例中的一种基于深度强化学习的大规模无人机集群飞行方法,例如,执行以上描述的图1中的方法步骤S100至步骤S300。
以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个控制处理器执行,可使得上述一个或多个控制处理器执行上述方法实施例中的一种基于深度强化学习的大规模无人机集群飞行方法,例如,执行以上描述的图1中的方法步骤S100至S300的功能。
通过以上的实施方式的描述,本领域技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现。本领域技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(ReadOnly Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上是对本发明的较佳实施进行了具体说明,但本发明并不局限于上述实施方式,熟悉本领域的技术人员在不违背本发明精神的共享条件下还可作出种种等同的变形或替换,这些等同的变形或替换均包括在本发明权利要求所限定的范围内。
Claims (10)
1.一种基于深度强化学习的大规模无人机集群飞行方法,其特征在于,包括步骤:
将无人机集群防撞策略的学习过程依次划分为多个课程,使后一个课程的无人机集群规模大于前一个课程的无人机集群规模;
构建基于执行器网络和评价器网络组成的课程强化学习框架,并在所述课程强化学习框架中设置基于注意力机制的群体恒定网络,所述基于注意力机制的群体恒定网络用于对输入所述执行器网络和所述评价器网络的多种不同维度的无人机状态参数进行聚合;
根据所述课程强化学习框架依次对每个课程进行策略学习,得到每一架无人机的飞行策略;并根据当前课程的前一个课程中的每一架无人机的经验数据,更新所述当前课程在策略学习过程中的执行器网络参数和评价器网络参数。
2.根据权利要求1所述的基于深度强化学习的大规模无人机集群飞行方法,其特征在于,所述在所述课程强化学习框架中设置基于注意力机制的群体恒定网络,包括:
对所述僚机i的状态、所述邻居僚机j的状态和所述长机的状态进行编码,编码公式为:
其中,所述FC(·)表示由整流线性单元激活的一层全连接网络实现的嵌入函数,所述ei表示僚机i的嵌入,所述ej表示所述僚机i的邻居僚机j的嵌入,所述el表示长机的嵌入;
设计注意力嵌入模块,根据所述注意力嵌入模块将所有邻居僚机j的状态聚合成一个固定长度的向量ci,所述ci的计算公式为:
其中,所述Νi表示僚机i的邻居僚机的集合,所述ωij表示邻居僚机j对于以自我为中心的僚机i的重要性,所述ωij的计算公式为:
通过如下公式获得无人机的动作:
ai=MLP(ei||ci||el)
所述MLP(·)表示由整流线性单元和双曲正切函数激活的两层感知器,所述||表示级联操作符;
3.根据权利要求2所述的基于深度强化学习的大规模无人机集群飞行方法,其特征在于,所述根据每一架无人机的经验数据,更新执行器网络参数和评价器网络参数,包括:
计算所有无人机的平均梯度,用于更新所述执行器网络μ的参数θμ,所述平均梯度计算公式为:
其中,所述μ表示所述执行器网络,所述执行器网络的参数为θμ,所述Q表示所述评价器网络,所述评价器网络的参数为θQ,所述s表示系统状态向量,所述o表示观测向量,所述a表示联合动作,所述D表示所有无人机的经验回放缓存池,所述I表示所有无人机的集合,所述表示以自我为中心的观测向量,所述s~i表示以自我为中心的状态,所述a=(a1,...,an)表示所有无人机的联合动作;
从所述经验回放缓存池中随机采样经验数据,用于更新所述评价器网络Q的参数θQ,所述评价器网络的计算公式为:
5.根据权利要求4所述的基于深度强化学习的大规模无人机集群飞行方法,其特征在于,通过如下方式建立所述以自我为中心的状态和所述自我为中心的观测向量:
建立僚机i以自我为中心的状态公式:
其中,所述P(·)表示变换函数,所述变换函数将僚机i的系统状态向量s从全局坐标系中变换到以自我为中心的状态坐标系中,所述ξj:=(xj,yj,ψj,φj,vj)表示僚机j在全局坐标系中的状态,所述表示僚机i的自我状态,僚机j在僚机i的坐标系中的坐标为所述(xj,yj)表示僚机j的平面坐标,所述ψj表示僚机j的航向角,所述φj表示僚机j的滚转角,所述vj表示僚机j的速度,所述表示僚机j以自我为中心的状态系中的平面坐标,所述表示僚机j以自我为中心的状态系中的航向,所述表示僚机i以自我为中心的平面坐标,所述表示僚机i以自我为中心的航向角;
建立僚机i以自我为中心的观测向量公式:
其中,所述oi表示僚机i的观测向量。
6.根据权利要求5所述的基于深度强化学习的大规模无人机集群飞行方法,其特征在于,所述根据所述课程强化学习框架依次对每个课程进行策略学习,得到每一架无人机的飞行策略,包括如下步骤:
初始化K个课程,并随机初始化所述执行器网络的参数θμ和所述评价器网络的参数θQ;
确定课程编号k=1,2,...,K的取值,从课程1到课程K,进行如下操作:
针对课程k,k>1,从课程k-1中初始化模型参数如下:
清空容量为N的经验回放缓存池D;
增加僚机的数量;
确定训练回合数e=1,2,...,M,从训练回合数1到训练回合数M,进行如下操作:
随机初始化系统状态向量s←(ξl,ξf);
获取初始观测向量o;
针对每个回合e,设定总时间步长Ns,从时间步长1到时间步长Ns,进行如下操作:
采用当前执行器网络μ和高斯随机探索策略Ν(0,σ2),选择僚机i的动作值如下:
其中,所述表示僚机i的滚动动作,所述表示僚机i的速度动作,所述φi表示僚机i的当前滚转角,所述vi表示僚机i的当前速度,所述[-rbd,rbd]表示下一时刻僚机i的滚转角的范围,所述vmax表示最大速度,所述vmin表示最小速度;
根据无人机动力学模型计算下一时刻的系统状态向量s';
计算僚机i的即时回报值ri,所述ri计算公式为:
其中,所述表示凝聚奖励,计算公式为所述表示分离奖励,计算公式为所述ρi表示长机和僚机i之间的距离,所述Ra表示僚机i的警戒半径,所述Δψi表示长机和僚机i之间的航向差,所述ω1和ω2表示调谐参数,所述Dij表示从僚机i到所述僚机i的第j个邻居的距离,常数P>>0,所述Rs表示僚机i的最小安全距离;
获取下一时刻的观测向量o';
将经验数据以(s,o,a,r,o',s')的形式存储至经验回放缓存池D;
若所述经验回放缓存池容量不足,则删除最旧的经验数据;
更新所述系统状态向量和所述观测向量的时间标签:s←s',o←o';
从所述经验回放缓存池D中选取数量为Nb的经验数据,根据数量为Nb的经验数据更新所述执行器网络的参数和所述评价器网络的参数其中,所述目标执行器网络的参数和所述目标评价器网络的参数每经过c时间步长更新一次;
在所有课程学习完后,获得每一架无人机的飞行策略。
8.一种基于深度强化学习的大规模无人机集群飞行系统,其特征在于,包括:
课程划分单元,用于将无人机集群防撞策略的学习过程依次划分为多个课程,使后一个课程的无人机集群规模大于前一个课程的无人机集群规模;
学习框架构建单元,用于构建基于执行器网络和评价器网络组成的课程强化学习框架,并在所述课程强化学习框架中设置基于注意力机制的群体恒定网络,所述基于注意力机制的群体恒定网络用于对输入所述执行器网络和所述评价器网络的多种不同维度的无人机状态参数进行聚合;
飞行策略计算单元,用于根据所述课程强化学习框架依次对每个课程进行策略学习,得到每一架无人机的飞行策略;并根据当前课程的前一个课程中的每一架无人机的经验数据,更新所述当前课程在策略学习过程中的执行器网络参数和评价器网络参数。
9.一种基于深度强化学习的大规模无人机集群飞行设备,其特征在于,包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器;所述存储器存储有可被所述至少一个控制处理器执行的指令,所述指令被所述至少一个控制处理器执行,以使所述至少一个控制处理器能够执行如权利要求1至7任一项所述的一种基于深度强化学习的大规模无人机集群飞行方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1至7任一项所述的一种基于深度强化学习的大规模无人机集群飞行方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210310624.8A CN114578860A (zh) | 2022-03-28 | 2022-03-28 | 一种基于深度强化学习的大规模无人机集群飞行方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210310624.8A CN114578860A (zh) | 2022-03-28 | 2022-03-28 | 一种基于深度强化学习的大规模无人机集群飞行方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114578860A true CN114578860A (zh) | 2022-06-03 |
Family
ID=81777498
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210310624.8A Pending CN114578860A (zh) | 2022-03-28 | 2022-03-28 | 一种基于深度强化学习的大规模无人机集群飞行方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114578860A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115507852A (zh) * | 2022-09-07 | 2022-12-23 | 广东工业大学 | 一种基于区块链和强化注意力学习的多无人机路径规划方法 |
CN117826867A (zh) * | 2024-03-04 | 2024-04-05 | 之江实验室 | 无人机集群路径规划方法、装置和存储介质 |
-
2022
- 2022-03-28 CN CN202210310624.8A patent/CN114578860A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115507852A (zh) * | 2022-09-07 | 2022-12-23 | 广东工业大学 | 一种基于区块链和强化注意力学习的多无人机路径规划方法 |
CN115507852B (zh) * | 2022-09-07 | 2023-11-03 | 广东工业大学 | 一种基于区块链和强化注意力学习的多无人机路径规划方法 |
CN117826867A (zh) * | 2024-03-04 | 2024-04-05 | 之江实验室 | 无人机集群路径规划方法、装置和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7066546B2 (ja) | 航空機を自律的に操縦する方法及びシステム | |
Wang et al. | A reinforcement learning approach for UAV target searching and tracking | |
CN112015174B (zh) | 一种多agv运动规划方法、装置和系统 | |
CN114578860A (zh) | 一种基于深度强化学习的大规模无人机集群飞行方法 | |
CN108594858B (zh) | 马尔科夫运动目标的无人机搜索方法及装置 | |
JP2021515724A (ja) | 自動運転車において3dcnnネットワークを用いてソリューション推断を行うlidar測位 | |
CN111142557A (zh) | 无人机路径规划方法、系统、计算机设备及可读存储介质 | |
CN112711271B (zh) | 基于深度强化学习的自主导航无人机功率优化方法 | |
Behjat et al. | Learning reciprocal actions for cooperative collision avoidance in quadrotor unmanned aerial vehicles | |
CN111414006B (zh) | 基于分布式顺次分配的无人机集群侦察任务规划方法 | |
Yang et al. | Fault tolerant control using Gaussian processes and model predictive control | |
Pandey et al. | Aerial path planning using meta-heuristics: A survey | |
CN113110546A (zh) | 一种基于离线强化学习的无人机自主飞行控制方法 | |
Long et al. | A multi-subpopulation bacterial foraging optimisation algorithm with deletion and immigration strategies for unmanned surface vehicle path planning | |
CN116679751A (zh) | 考虑飞行约束的多飞行器协同搜索方法 | |
Xue et al. | Multi-agent deep reinforcement learning for uavs navigation in unknown complex environment | |
Barták et al. | Using machine learning to identify activities of a flying drone from sensor readings | |
CN109003329A (zh) | 一种目标货物堆监控设备及存储介质 | |
US20210398014A1 (en) | Reinforcement learning based control of imitative policies for autonomous driving | |
Khamis et al. | Deep learning for unmanned autonomous vehicles: A comprehensive review | |
Brunskill et al. | Provably efficient learning with typed parametric models | |
Lee et al. | Autopilot design for unmanned combat aerial vehicles (UCAVs) via learning-based approach | |
Hensel et al. | Object Detection and Mapping with Unmanned Aerial Vehicles Using Convolutional Neural Networks | |
CN110536266B (zh) | 无人机编队通信能耗的周期性在线均衡方法和装置 | |
Khaleghi et al. | Analysis of uav/ugv control strategies in a dddams-based surveillance system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |