CN110502033B - 一种基于强化学习的固定翼无人机群集控制方法 - Google Patents
一种基于强化学习的固定翼无人机群集控制方法 Download PDFInfo
- Publication number
- CN110502033B CN110502033B CN201910832116.4A CN201910832116A CN110502033B CN 110502033 B CN110502033 B CN 110502033B CN 201910832116 A CN201910832116 A CN 201910832116A CN 110502033 B CN110502033 B CN 110502033B
- Authority
- CN
- China
- Prior art keywords
- evaluator
- wing
- layer
- actuator
- unmanned aerial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000002787 reinforcement Effects 0.000 title claims abstract description 19
- 230000009471 action Effects 0.000 claims abstract description 39
- 238000005096 rolling process Methods 0.000 claims abstract description 35
- 238000013528 artificial neural network Methods 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 18
- 230000003993 interaction Effects 0.000 claims abstract description 16
- 238000005070 sampling Methods 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 7
- 230000003321 amplification Effects 0.000 claims description 6
- 238000004891 communication Methods 0.000 claims description 6
- 230000001186 cumulative effect Effects 0.000 claims description 6
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 4
- 230000003213 activating effect Effects 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 claims 1
- 238000004088 simulation Methods 0.000 abstract description 4
- 230000008901 benefit Effects 0.000 abstract description 2
- 239000003795 chemical substances by application Substances 0.000 description 14
- 230000006872 improvement Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000012546 transfer Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
- G05D1/104—Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种基于强化学习的固定翼无人机群集控制方法,其包括:步骤S1、训练阶段:建立随机无人机动力学模型、执行器深度神经网络和评价器深度神经网络,持续采集智能体与环境进行交互的历史经验,并存储到经验池中;从经验池中随机进行批次采样,不断更新执行器和评价器的网络参数,最终形成保存评价器网络模型;步骤S2、执行阶段:僚机通过传感器获取自身位置和姿态信息,载入评价器网络模型,评价器根据当前系统联合状态输出僚机最佳滚转动作,长机滚转角设定值由操控员给出;直至完成飞行任务。本发明具有较强的实时性和适应性、能够将仿真中训练得到的策略迁移到真实环境中等优点。
Description
技术领域
本发明主要涉及到无人机技术领域,特指一种基于强化学习的固定翼无人机群集控制方法。
背景技术
近年来,随着传感器技术、通信技术以及智能控制技术的不断发展,无人机技术取得了长足的进步。固定翼无人机具有飞行速度快、续航能力强和有效载荷大等特点,在灾难搜救、边境巡逻、反恐等领域得到了广泛的应用。由于单架无人机性能的不足,上述任务通常需要多架无人机协同配合方能高效完成。然而,操控多架固定翼无人机需要大量的人力来监控每架飞机的状态,协调多架无人机遂行任务仍面临一定的挑战。
一致性理论被广泛用于解决无人机的群集控制问题。但该类方法依赖于平台和扰动的精确模型。这一模型通常具有复杂、时变、非线性的特点,加之传感器误差、环境扰动等随机因素的影响,往往难以精确建模,这严重限制了该类方法在真实世界的适用性。作为代替,应用强化学习方法解决上述矛盾得到了越来越多的关注。现有基于强化学习的群集控制解决方案主要针对旋翼无人机。与旋翼机相比,由于固定翼无人机的飞行动力学的非完整约束,固定翼无人机群集控制更加复杂,将强化学习算法应用于固定翼无人机协群集控制中的研究成果仍然较少。
发明内容
本发明要解决的技术问题就在于:针对现有技术存在的技术问题,本发明提供一种具有较强的实时性和适应性、能够将仿真中训练得到的策略迁移到真实环境中的基于强化学习的固定翼无人机群集控制方法。
为解决上述技术问题,本发明采用以下技术方案:
一种基于强化学习的固定翼无人机群集控制方法,其包括:
步骤S1、训练阶段:建立随机无人机动力学模型、执行器深度神经网络和评价器深度神经网络,持续采集智能体与环境进行交互的历史经验,并存储到经验池中;从经验池中随机进行批次采样,不断更新执行器和评价器的网络参数,最终形成保存评价器网络模型;
步骤S2、执行阶段:僚机通过传感器获取自身位置和姿态信息,载入评价器网络模型,评价器根据当前系统联合状态输出僚机最佳滚转动作,长机滚转角设定值由操控员给出;直至完成飞行任务。
作为本发明的进一步改进:所述步骤S1中包括:
步骤S11、考虑无人机在恒定高度飞行,其动力学模型用简化的四自由度模型描述;在滚转、空速各个子状态引入随机性,建立随机无人机动力学模型;
步骤S12、分别建立执行器深度神经网络和评价器深度神经网络,将输入状态映射到输出动作和该状态的累计折扣回报,并随机初始化网络参数;
步骤S13、持续采集智能体与环境进行交互的历史经验,所述智能体为僚机,并存储到经验池中;
步骤S14、从经验池中随机进行批次采样,应用Adam算法不断更新执行器和评价器的网络参数;所有样本均会用于更新评价器网络的参数,但只有TD误差为正的样本才会使执行器的网络参数发生改变;
步骤S15、当训练情节数达到预设条件时,结束所述交互过程,并保存评价器网络的模型参数。
作为本发明的进一步改进:所述步骤S13中,所述历史经验为四元组(zk,ak,gk,zk+1),其中zk为当前状态,ak为执行动作,gk为执行动作ak获取的回报,zk+1为执行动作ak后达到的状态;所述交互过程为:长机的滚转动作随机产生以增加系统的随机性;智能体获取长机的状态信息及自身的状态信息,组成联合状态信息输入到执行器中,高斯探索策略根据执行器输出选取僚机的滚转动作;分别将长机和僚机的滚转指令输入随机无人机动力学模型,得到长机和僚机下一时刻的状态和回报函数值。
作为本发明的进一步改进:所述建立执行器网络,执行器对应动作选择策略,使用多层感知机将输入状态映射到输出动作;所述执行器MLP包括1层输入层、4层隐含层和1层输出层;隐含层的节点数分别取128、256、256和64;隐含层均使用ReLU激活函数,其表达式为:f(x)=max(0,x);输出层使用tanh激活函数,其表达式为f(x)=(ex-e-x)/(ex+e-x),以保证评价器输出值在[-1,+1]之间,线性放大后即映射到滚转动作空间。
作为本发明的进一步改进:所述建立评价器网络,评价器对应价值函数,使用MLP将输入状态映射到该状态的累计折扣回报所述评价器MLP包括1层输入层、4层隐含层和1层输出层;隐含层的节点数分别取128、256、256和64;隐含层均使用ReLU激活函数,其表达式为:f(x)=max(0,x);输出层使用linear激活函数,其表达式为:f(x)=x。
作为本发明的进一步改进:所述步骤S2中包括:
步骤S21、智能体通过传感器获取自身位置和姿态信息,并通过通信链路获取长机的位置和姿态信息,进而组成系统联合状态;
步骤S22、载入评价器网络模型,评价器根据当前系统联合状态输出僚机最佳滚转动作;长机滚转角设定值由操控员给出;
步骤S23、长机和僚机的自驾仪根据各自的滚转角设定值,由PID控制器完成底层闭环控制;
步骤S24、重复上述过程,直至完成飞行任务。
作为本发明的进一步改进:所述评价器网络模型运行在僚机机载电脑上,输出的滚转指令每隔1s更新一次。
与现有技术相比,本发明的优点在于:
1、本发明的一种基于强化学习的固定翼无人机群集控制方法,应用强化学习算法在连续状态空间和动作空间内解决Leader-Follower拓扑下的固定翼无人机的群集控制问题,赋予僚机跟随长机自主飞行的能力。
2、本发明的一种基于强化学习的固定翼无人机群集控制方法,具有较强的实时性和适应性,能够将仿真中训练得到的策略迁移到真实环境中,赋予僚机跟随长机自主飞行的能力。
3、本发明的一种基于强化学习的固定翼无人机群集控制方法,不依赖平台和环境的精确模型,能够在连续状态空间和动作空间下解决固定翼无人机的群集控制问题。仿真中训练得到的策略直接应用到真实环境中,具有较强的实时性和适应性。本发明能够赋予僚机跟随长机自主飞行的能力,大大减少无人机操控员的工作负担,对于无人机多机编队协同遂行任务具有重要意义。
附图说明
图1是长机与僚机期望位置关系图。
图2是训练阶段僚机-环境交互示意图。
图3是1架长机与2架僚机飞行轨迹图。
图4是本发明方法的流程示意图。
具体实施方式
以下将结合说明书附图和具体实施例对本发明做进一步详细说明。
如图1和图4所示,本发明的一种基于强化学习的固定翼无人机群集控制方法,包括:
步骤S1、训练阶段:建立随机无人机动力学模型、执行器深度神经网络和评价器深度神经网络,持续采集智能体与环境进行交互的历史经验,并存储到经验池中;从经验池中随机进行批次采样,不断更新执行器和评价器的网络参数,最终形成保存评价器网络模型;
步骤S2、执行阶段:僚机通过传感器获取自身位置和姿态信息,载入评价器网络模型,评价器根据当前系统联合状态输出僚机最佳滚转动作,长机滚转角设定值由操控员给出;直至完成飞行任务。
在具体应用实例中,所述训练阶段的具体实现步骤如下:
步骤S11、考虑无人机在恒定高度飞行,其动力学模型可用简化的四自由度模型描述;为弥补简化带来和精度损失,同时考虑环境扰动的影响,在滚转、空速等各个子状态引入随机性,建立随机无人机动力学模型。
步骤S13、持续采集智能体(僚机)与环境进行交互的历史经验,并存储到经验池中。所述历史经验为四元组(zk,ak,gk,zk+1),其中zk为当前状态,ak为执行动作,gk为执行动作ak获取的回报,zk+1为执行动作ak后达到的状态;所述交互过程为:长机的滚转动作随机产生以增加系统的随机性;智能体获取长机的状态信息及自身的状态信息,组成联合状态信息输入到执行器中,高斯探索策略根据执行器输出选取僚机的滚转动作;分别将长机和僚机的滚转指令输入随机无人机动力学模型,得到长机和僚机下一时刻的状态和回报函数值。
步骤S14、从经验池中随机进行批次采样,应用Adam算法不断更新执行器和评价器的网络参数。所有样本均会用于更新评价器网络的参数,但只有TD误差为正的样本才会使执行器的网络参数发生改变。所述经验回放技术克服了经验数据的相关性,并提高了经验的利用率。
步骤S15、当训练情节数达到预设条件时,结束所述交互过程,并保存评价器网络的模型参数。
在具体应用实例中,所述执行阶段的具体实现步骤如下:
步骤S21、智能体通过传感器获取自身位置和姿态信息,并通过通信链路获取长机的位置和姿态信息,进而组成系统联合状态。
步骤S22、载入评价器网络模型,评价器根据当前系统联合状态输出僚机最佳滚转动作;所述评价器网络模型运行在僚机机载电脑上,输出的滚转指令每隔1s更新一次;长机滚转角设定值由操控员给出。
步骤S23、长机和僚机的自驾仪根据各自的滚转角设定值,由PID控制器完成底层闭环控制。
步骤S24、重复上述过程,直至完成飞行任务。
以一个具体应用实例为例来说明本发明的方法,如图1所示,本实施例在以下场景想定下进行固定翼无人机群集控制:系统采用Leader-Follower拓扑,即编队中由一架长机和若干架僚机组成;不同无人机在不同的固定高度层以恒定速度飞行,以此来消解飞机之间的碰撞问题,因此僚机可使用相同的控制策略;滚转角是唯一的控制量,每一架无人机均配备有自驾仪,用于完成滚转指令的底层闭环控制;长机根据操控员的滚转指令飞行,并通过无线通信链路将其状态信息广播给僚机;僚机通过传感器获取自身状态信息,并联合获取的长机信息组成系统状态,自主确定当前状态的最佳滚转角设定值,以维持僚机与长机之间的合理位置关系(d1<ρ<d2)。
本发明基于执行器-评价器强化学习框架,在连续状态空间和动作空间下解决固定翼无人机群集控制问题。所述解决方案分为训练阶段和执行阶段两个阶段:
所述训练阶段主要包括以下步骤:
步骤I-1:考虑无人机在恒定高度飞行,其动力学模型可用简化的四自由度模型描述;为弥补简化带来和精度损失,同时考虑环境扰动的影响,故而在滚转、空速等各个子状态引入随机性,建立随机无人机动力学模型:
式中:(x,y)表示无人机的xy平面位置;ψ表示无人机的航向角;φ表示无人机的滚转角;αg表示重力加速度;s代表无人机的空速,空速服从正态分布扰动项(ηx,ηx,ηψ)分别服从正态分布 和模拟无人机位置和航向因环境因素而产生的扰动;函数f(φ,r)定义了期望滚转角r(输入)与实际滚转角φ(响应)之间的关系:使用二阶系统模拟无人机滚转通道的动态响应,并引入随机项使得该响应更具真实性。假定二阶系统的无阻尼自然频率ωn和阻尼系数ζ分别服从正态分布和所需参数根据真实飞机滚转指令的实际响应情况确定。
步骤I-2:建立执行器深度神经网络和评价器深度神经网络。
步骤I-2-1:建立执行器网络。执行器对应动作选择策略,在本实施例中,使用多层感知机(MLP)将输入状态映射到输出动作(Act*:S→A,其中Act*代表输入状态s的最优动作)。所述执行器MLP包括1层输入层、4层隐含层和1层输出层;隐含层的节点数分别取128、256、256和64;隐含层均使用ReLU激活函数,其表达式为:f(x)=max(0,x);输出层使用tanh激活函数,其表达式为f(x)=(ex-e-x)/(ex+e-x),以保证评价器输出值在[-1,+1]之间,线性放大后即可映射到滚转动作空间。
步骤I-2-2:建立评价器网络。评价器对应价值函数,在本实施例中,同样使用MLP将输入状态映射到该状态的累计折扣回报所述评价器MLP包括1层输入层、4层隐含层和1层输出层;隐含层的节点数分别取128、256、256和64;隐含层均使用ReLU激活函数,其表达式为:f(x)=max(0,x);输出层使用linear激活函数,其表达式为:f(x)=x。
步骤I-2-3:随机初始化评价器网络和评价器网络的权值和阈值参数。
步骤I-3:持续采集智能体(僚机)与环境进行交互的历史经验,并存储到经验池中。所述历史经验为四元组(sk,ak,rk,sk+1),其中sk为当前状态,ak为执行动作,rk为执行动作ak获取的回报,sk+1为执行动作ak后达到的状态;如图2所示,在训练阶段,所述交互过程为:
步骤I-3-1:建立容量为N的数据缓存区D用于保存历史经验,初始化为空。
步骤I-3-2:智能体获取长机的状态信息ξf:=(xf,yf,ψf,φf)及自身的状态信息ξl:=(xl,yl,ψl,φl),组成联合状态信息z:=(z1,z2,z3,z4,z5,z6):
式中:(z1,z2)表示僚机相对于长机的平面位置;z3表示僚机与长机航向角之差;rl表示长机的滚转指令,即其即将执行的滚转角设定值。该值在训练时随机生成,以增加系统的随机性。
步骤I-3-3:采用高斯探索策略根据执行器输出Actk(zk)选择僚机的滚转动作:
其中,σ为探索参数,表示高斯分布的宽度。在本实施例中,动作空间是一维的。
步骤I-3-4:根据高斯探索策略的输出,即僚机的滚转动作ar,计算僚机的滚转角设定值:
其中,φl表示僚机当前滚转角;amax表示僚机滚转角单步最大变化量,即僚机每次可在[-amax,+amax]的范围内改变自身滚转角;rbd表示僚机机滚转角的边界值,即滚转角设定值的范围被限定在[-rbd,rbd]之间。为避免滚转角的剧烈变化影响无人机的安全飞行,在本实施例中,amax=15°,rbd=30°。
步骤I-3-5:根据长机和僚机的滚转角设定值,由无人机动力学模型计算得出下一时刻的状态;进而由式(2)得出下一时刻系统联合状态z',回报函数值g可由式(5)得出:
其中,参数d1和d2分别定义了圆环的内半径和外半径(以长机为中心,见图1);ρ表示长机与僚机之间的距离;d表示僚机到圆环的距离;ω是调整因子,用以调整d的权重。在本实施例中,d1=40,d1=60,ω=0.05。
步骤I-3-6:将历史经验数据(z,ar,g,z′)保存到经验池中。若经验池中数据的数量大于经验池的最大容量,则使用最新的经验数据取代最老的经验数据。
步骤I-4:从经验池中随机进行批次采样,应用Adam算法不断更新执行器和评价器的网络参数。在本实施例中,Batch size设置为32,损失函数类型为MSE。所述评价器网络的更新目标为:
TargetV(sk)=rk+γ·Vk(sk+1) (6)
则其更新公式为:
Vk+1(sk)=Vk(sk)+βδk (7)
其中:
δk=TargetV(sk)-Vk(sk) (8)
式中:0≤γ≤1代表折扣因子;0≤β≤1表示评价器的学习率;δk表示当前的TD误差。
与评价器网络的更新方式不同,执行器网络仅在TD误差大于零时进行更新,其更新目标为:
TargetA(sk)=ak ifδk>0 (9)
则其更新公式为:
式中:0≤α≤1表示执行器的学习率。
步骤I-5:当训练情节数达到期望次数时,结束所述交互过程,并保存评价器网络的模型参数。
所述执行阶段的主要实现步骤如下:
步骤II-1:智能体(僚机)通过传感器获取自身位置和姿态信息,并通过通信链路获取长机的位置和姿态信息,进而根据式(2)计算系统联合状态。
步骤II-2:载入评价器网络模型,评价器根据当前系统联合状态输出僚机最佳滚转动作,进而根据式(4)得出滚转角设定值;所述评价器网络模型运行在僚机机载电脑上,输出的滚转指令每隔1s更新一次;长机滚转角设定值由操控员给出。
步骤II-3:长机和僚机的自驾仪根据各自的滚转角设定值,由PID控制器完成底层闭环控制。
步骤II-4:重复上述过程,直至完成飞行任务。在本实施例中,飞行任务共持续120s,所得飞行轨迹图如图3所示。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。
Claims (5)
1.一种基于强化学习的固定翼无人机群集控制方法,其特征在于,包括:
步骤S1、训练阶段:建立随机无人机动力学模型、执行器深度神经网络和评价器深度神经网络,持续采集智能体与环境进行交互的历史经验,并存储到经验池中;从经验池中随机进行批次采样,不断更新执行器和评价器的网络参数,最终形成保存评价器网络模型;
步骤S2、执行阶段:僚机通过传感器获取自身位置和姿态信息,载入评价器网络模型,评价器根据当前系统联合状态输出僚机最佳滚转动作,长机滚转角设定值由操控员给出;直至完成飞行任务;
所述步骤S1中包括:
步骤S11、考虑无人机在恒定高度飞行,其动力学模型用简化的四自由度模型描述;在滚转、空速各个子状态引入随机性,建立随机无人机动力学模型;
步骤S12、分别建立执行器深度神经网络和评价器深度神经网络,将输入状态映射到输出动作和该状态的累计折扣回报,并随机初始化网络参数;
步骤S13、持续采集智能体与环境进行交互的历史经验,所述智能体为僚机,并存储到经验池中;
步骤S14、从经验池中随机进行批次采样,应用Adam算法不断更新执行器和评价器的网络参数;所有样本均会用于更新评价器网络的参数,但只有TD误差为正的样本才会使执行器的网络参数发生改变;
步骤S15、当训练情节数达到预设条件时,结束交互过程,并保存评价器网络的模型参数;
所述步骤S2中包括:
步骤S21、智能体通过传感器获取自身位置和姿态信息,并通过通信链路获取长机的位置和姿态信息,进而组成系统联合状态;
步骤S22、载入评价器网络模型,评价器根据当前系统联合状态输出僚机最佳滚转动作;长机滚转角设定值由操控员给出;
步骤S23、长机和僚机的自驾仪根据各自的滚转角设定值,由PID控制器完成底层闭环控制;
步骤S24、重复上述过程,直至完成飞行任务。
2.根据权利要求1所述的基于强化学习的固定翼无人机群集控制方法,其特征在于,所述步骤S13中,所述历史经验为四元组(zk,ak,gk,zk+1),其中zk为当前状态,ak为执行动作,gk为执行动作ak获取的回报,zk+1为执行动作ak后达到的状态;所述交互过程为:长机的滚转动作随机产生以增加系统的随机性;智能体获取长机的状态信息及自身的状态信息,组成联合状态信息输入到执行器中,高斯探索策略根据执行器输出选取僚机的滚转动作;分别将长机和僚机的滚转指令输入随机无人机动力学模型,得到长机和僚机下一时刻的状态和回报函数值。
3.根据权利要求1所述的基于强化学习的固定翼无人机群集控制方法,其特征在于,所述建立执行器深度神经网络,执行器对应动作选择策略,使用多层感知机将输入状态映射到输出动作;执行器MLP包括1层输入层、4层隐含层和1层输出层;隐含层的节点数分别取128、256、256和64;隐含层均使用ReLU激活函数,其表达式为:f(x)=max(0,x);输出层使用tanh激活函数,其表达式为f(x)=(ex-e-x)/(ex+e-x),以保证评价器输出值在[-1,+1]之间,线性放大后即映射到滚转动作空间。
4.根据权利要求1所述的基于强化学习的固定翼无人机群集控制方法,其特征在于,所述建立评价器深度神经网络,评价器对应价值函数,使用MLP将输入状态映射到该状态的累计折扣回报;评价器MLP包括1层输入层、4层隐含层和1层输出层;隐含层的节点数分别取128、256、256和64;隐含层均使用ReLU激活函数,其表达式为:f(x)=max(0,x);输出层使用linear激活函数,其表达式为:f(x)=x。
5.根据权利要求1所述的基于强化学习的固定翼无人机群集控制方法,其特征在于,所述评价器网络模型运行在僚机机载电脑上,输出的滚转指令每隔1s更新一次。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910832116.4A CN110502033B (zh) | 2019-09-04 | 2019-09-04 | 一种基于强化学习的固定翼无人机群集控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910832116.4A CN110502033B (zh) | 2019-09-04 | 2019-09-04 | 一种基于强化学习的固定翼无人机群集控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110502033A CN110502033A (zh) | 2019-11-26 |
CN110502033B true CN110502033B (zh) | 2022-08-09 |
Family
ID=68591193
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910832116.4A Active CN110502033B (zh) | 2019-09-04 | 2019-09-04 | 一种基于强化学习的固定翼无人机群集控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110502033B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111240356B (zh) * | 2020-01-14 | 2022-09-02 | 西北工业大学 | 一种基于深度强化学习的无人机集群会合方法 |
CN111694365B (zh) * | 2020-07-01 | 2021-04-20 | 武汉理工大学 | 一种基于深度强化学习的无人船艇编队路径跟踪方法 |
CN111857184B (zh) * | 2020-07-31 | 2023-06-23 | 中国人民解放军国防科技大学 | 基于深度强化学习的固定翼无人机群避碰方法及装置 |
CN111880567B (zh) * | 2020-07-31 | 2022-09-16 | 中国人民解放军国防科技大学 | 基于深度强化学习的固定翼无人机编队协调控制方法及装置 |
CN111897224B (zh) * | 2020-08-13 | 2022-04-01 | 福州大学 | 基于演员-评论家强化学习和模糊逻辑的多智能体编队控制方法 |
CN114118434A (zh) * | 2020-08-27 | 2022-03-01 | 朱宝 | 智能机器人及其学习方法 |
CN112034888B (zh) * | 2020-09-10 | 2021-07-30 | 南京大学 | 一种固定翼无人机自主控制协作策略训练方法 |
CN112162564B (zh) * | 2020-09-25 | 2021-09-28 | 南京大学 | 基于模仿学习和强化学习算法的无人机飞行控制方法 |
CN112051863A (zh) * | 2020-09-25 | 2020-12-08 | 南京大学 | 一种无人机自主反侦察及躲避敌方攻击的方法 |
CN112650272B (zh) * | 2020-11-24 | 2022-11-01 | 太原理工大学 | 基于5g的煤矿井下无人机巡视信息感知方法及其感知系统 |
CN112286218B (zh) * | 2020-12-29 | 2021-03-26 | 南京理工大学 | 基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法 |
CN113093526B (zh) * | 2021-04-02 | 2022-05-24 | 浙江工业大学 | 一种基于强化学习的无超调pid控制器参数整定方法 |
CN113848974B (zh) * | 2021-09-28 | 2023-08-15 | 西安因诺航空科技有限公司 | 一种基于深度强化学习的飞行器轨迹规划方法及系统 |
CN113885576A (zh) * | 2021-10-29 | 2022-01-04 | 南京航空航天大学 | 基于深度强化学习的无人机编队环境建立与控制方法 |
CN115234442B (zh) * | 2022-06-15 | 2023-04-04 | 北京百度网讯科技有限公司 | 翼型集群能量采集方法、系统、电子设备及存储介质 |
CN117826860A (zh) * | 2024-03-04 | 2024-04-05 | 北京航空航天大学 | 一种基于强化学习的固定翼无人机控制策略的确定方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104503467A (zh) * | 2015-01-19 | 2015-04-08 | 中国人民解放军国防科学技术大学 | 基于双核架构的无人机自主起降飞行控制系统 |
WO2018115963A2 (en) * | 2016-12-23 | 2018-06-28 | Mobileye Vision Technologies Ltd. | Navigational system with imposed liability constraints |
CN108319286A (zh) * | 2018-03-12 | 2018-07-24 | 西北工业大学 | 一种基于强化学习的无人机空战机动决策方法 |
CN108521670A (zh) * | 2018-03-14 | 2018-09-11 | 中国人民解放军国防科技大学 | 面向多机紧密编队飞行基于uwb通信与定位方法及一体化系统 |
US10133275B1 (en) * | 2017-03-01 | 2018-11-20 | Zoox, Inc. | Trajectory generation using temporal logic and tree search |
CN109884897A (zh) * | 2019-03-21 | 2019-06-14 | 中山大学 | 一种基于深度强化学习的无人机任务匹配与计算迁移方法 |
CN110068335A (zh) * | 2019-04-23 | 2019-07-30 | 中国人民解放军国防科技大学 | 一种gps拒止环境下无人机集群实时定位方法及系统 |
-
2019
- 2019-09-04 CN CN201910832116.4A patent/CN110502033B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104503467A (zh) * | 2015-01-19 | 2015-04-08 | 中国人民解放军国防科学技术大学 | 基于双核架构的无人机自主起降飞行控制系统 |
WO2018115963A2 (en) * | 2016-12-23 | 2018-06-28 | Mobileye Vision Technologies Ltd. | Navigational system with imposed liability constraints |
US10133275B1 (en) * | 2017-03-01 | 2018-11-20 | Zoox, Inc. | Trajectory generation using temporal logic and tree search |
CN108319286A (zh) * | 2018-03-12 | 2018-07-24 | 西北工业大学 | 一种基于强化学习的无人机空战机动决策方法 |
CN108521670A (zh) * | 2018-03-14 | 2018-09-11 | 中国人民解放军国防科技大学 | 面向多机紧密编队飞行基于uwb通信与定位方法及一体化系统 |
CN109884897A (zh) * | 2019-03-21 | 2019-06-14 | 中山大学 | 一种基于深度强化学习的无人机任务匹配与计算迁移方法 |
CN110068335A (zh) * | 2019-04-23 | 2019-07-30 | 中国人民解放军国防科技大学 | 一种gps拒止环境下无人机集群实时定位方法及系统 |
Non-Patent Citations (2)
Title |
---|
Multi-Critic DDPG Method and Double Experience Replay;Jiao Wu,等;《2018 IEEE International Conference on Systems, Man, and Cybernetics》;20181231;第165-171页 * |
有人机/无人机协同作战研究现状及关键技术浅析;樊洁茹,等;《无人系统技术》;20190215;第39-47页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110502033A (zh) | 2019-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110502033B (zh) | 一种基于强化学习的固定翼无人机群集控制方法 | |
CN111880567B (zh) | 基于深度强化学习的固定翼无人机编队协调控制方法及装置 | |
CN110502034B (zh) | 一种基于深度强化学习的固定翼无人机群集控制方法 | |
CN110806759B (zh) | 一种基于深度强化学习的飞行器航线跟踪方法 | |
CN110806756B (zh) | 基于ddpg的无人机自主引导控制方法 | |
CN110531786B (zh) | 基于dqn的无人机机动策略自主生成方法 | |
CN109696830B (zh) | 小型无人直升机的强化学习自适应控制方法 | |
Nie et al. | Three‐Dimensional Path‐Following Control of a Robotic Airship with Reinforcement Learning | |
Kamanditya et al. | Elman recurrent neural networks based direct inverse control for quadrotor attitude and altitude control | |
Bao et al. | Design of a fixed-wing UAV controller based on adaptive backstepping sliding mode control method | |
Albaker et al. | Flight path PID controller for propeller-driven fixed-wing unmanned aerial vehicles | |
Velagić et al. | Design of LQR controller for 3D trajectory tracking of octocopter unmanned aerial vehicle | |
Olaz et al. | Quadcopter neural controller for take-off and landing in windy environments | |
Howard | A platform that directly evolves multirotor controllers | |
Montella et al. | Reinforcement learning for autonomous dynamic soaring in shear winds | |
Kimathi | Application of reinforcement learning in heading control of a fixed wing uav using x-plane platform | |
Fletcher et al. | Improvements in learning to control perched landings | |
Valencia et al. | Trajectory tracking control for multiple quadrotors based on a neurobiological-inspired system | |
CN113885549B (zh) | 基于维度裁剪的ppo算法的四旋翼姿态轨迹控制方法 | |
Housny et al. | Robust sliding mode control for quadrotor UAV | |
Li et al. | Autopilot controller of fixed-wing planes based on curriculum reinforcement learning scheduled by adaptive learning curve | |
Abouheaf et al. | An online reinforcement learning wing-tracking mechanism for flexible wing aircraft | |
Yuan et al. | Distributed model predictive formation control for a group of uavs with newton-euler dynamics | |
Henninger et al. | Energy-minimal target retrieval for quadrotor UAVs: trajectory generation and tracking | |
Agarwal et al. | Attitude control in unmanned aerial vehicles using reinforcement learning—a survey |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |