CN111880567B - 基于深度强化学习的固定翼无人机编队协调控制方法及装置 - Google Patents

基于深度强化学习的固定翼无人机编队协调控制方法及装置 Download PDF

Info

Publication number
CN111880567B
CN111880567B CN202010761029.7A CN202010761029A CN111880567B CN 111880567 B CN111880567 B CN 111880567B CN 202010761029 A CN202010761029 A CN 202010761029A CN 111880567 B CN111880567 B CN 111880567B
Authority
CN
China
Prior art keywords
wing
layer
network
plane
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010761029.7A
Other languages
English (en)
Other versions
CN111880567A (zh
Inventor
闫超
王菖
相晓嘉
吴立珍
黄依新
兰珍
刘兴宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202010761029.7A priority Critical patent/CN111880567B/zh
Publication of CN111880567A publication Critical patent/CN111880567A/zh
Application granted granted Critical
Publication of CN111880567B publication Critical patent/CN111880567B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0088Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • G05D1/104Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Radar, Positioning & Navigation (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Molecular Biology (AREA)
  • Remote Sensing (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开一种基于深度强化学习的固定翼无人机编队协调控制方法及装置,该方法步骤包括:步骤S1、建立固定翼无人机运动学模型以及基于深度神经网络建立执行器网络、评价器网络,并使用各僚机与环境之间交互过程中的历史数据更新执行器网络、评价器网络的网络参数,训练形成执行器网络模型;步骤S2、各僚机分别实时获取自身、长机以及除当前僚机以外其他僚机的当前状态信息构成联合状态,载入训练后形成的执行器网络模型,由执行器网络模型根据联合状态输出各僚机的控制指令。本发明能够应用深度强化学习实现固定翼无人机编队协调控制并避免机间碰撞,具有实现方法简单、实时性及可扩展性强、控制灵活等优点。

Description

基于深度强化学习的固定翼无人机编队协调控制方法及装置
技术领域
本发明涉及固定翼无人机控制技术领域,尤其涉及一种基于深度强化学习的固定翼无人机编队协调控制方法及装置。
背景技术
近年来,随着传感器技术、无线通信技术以及智能控制技术的不断发展与进步,无人机在军事和民用领域得到了广泛的应用,并取得了显著的成功。但受限于单体无人机的固有缺陷,其在复杂环境下执行多样化任务仍面临较大困难。在可以预见的未来,无人机编队将是执行任务的主要载体。因此,无人机编队协调控制技术已成为无人机系统技术领域的一个研究热点。
针对无人机编队协调控制,现有技术中通常是采用如模型预测控制、一致性理论等实现,通常需要平台和扰动的精确模型来进行控制率设计,但是这一模型通常具有复杂、时变、非线性的特点,加之传感器误差、环境扰动等随机因素的影响,往往难以精确建模,这严重限制了传统分析方法的适用范围。作为一种代替方法,应用无模型强化学习方法可以解决上述问题,但是现有技术中基于强化学习的无人机编队协调控制解决方案主要是针对旋翼无人机,而与旋翼机相比,由于固定翼无人机的飞行运动学的非完整约束,固定翼无人机编队协调控制会更加复杂。
有从业者提出使用深度强化学习方法解决固定翼无人机编队协调控制问题,但是该研究尚处于比较初级的阶段,均是通过简化问题来实现,一般都是假设无人机在不高度层飞行,不考虑无人机之间的碰撞问题,但在某些实际应用场景中,无人机编队需要在相同高度层飞行以遂行任务,避免机间碰撞是一个必须考虑的问题,而采用上述简化的控制方式来实现固定翼无人机编队控制,无人机之间会存在碰撞风险。
发明内容
本发明要解决的技术问题就在于:针对现有技术存在的技术问题,本发明提供一种实现方法简单、实时性及可扩展性强、控制灵活的基于深度强化学习的固定翼无人机编队协调控制方法及装置,能够利用深度强化学习实现固定翼无人机编队协调控制,避免无人机之间的碰撞。
为解决上述技术问题,本发明提出的技术方案为:
一种基于深度强化学习的固定翼无人机编队协调控制方法,步骤包括:
步骤S1、训练阶段:建立无人机运动学模型以及基于深度神经网络建立执行器网络、评价器网络,并使用各僚机与环境交互过程中的历史数据更新所述执行器网络、评价器网络的网络参数,训练形成执行器网络模型,所述历史数据包括当前状态、执行动作、执行动作获取的回报以及执行动作后达到的状态,所述交互过程中由僚机获取自身、长机以及除当前僚机以外其他僚机的当前状态信息构成联合状态,由所述执行器网络根据所述联合状态输出各僚机的控制指令,并根据所述无人机运动学模型得到长机以及僚机的下一时刻状态;
步骤S2、执行阶段:执行飞行任务时,各僚机分别实时获取自身、长机以及除当前僚机以外其他僚机的当前状态信息构成联合状态,载入训练后形成的所述执行器网络模型,由所述执行器网络模型根据实时获取的所述联合状态输出各僚机的控制指令,所述控制指令包括滚转角控制指令、速度控制指令。
进一步的,所述步骤S1中无人机运动学模型具体采用四自由度模型,并引入包括滚转和/或空速子状态的随机项形成具有随机性的固定翼无人机运动学模型。
进一步的,建立的所述固定翼无人机运动学模型具体为:
Figure BDA0002613088240000021
其中,(x,y)表示无人机的x-y平面位置;ψ表示无人机的航向角;φ表示无人机的滚转角;αg表示重力加速度;ηxxψ分别为扰动项且分别服从正态分布以用于模拟无人机位置和航向因环境因素而产生的扰动;f(φ,φd)为期望滚转角φd与实际滚转角φ之间的函数关系,f(v,vd)为期望空速vd与实际空速v之间的函数关系。
进一步的,所述执行器网络包括一个动作选择网络以将输入状态映射到输出动作,所述动作选择网络包括2层全连接层和1层输出层,其中全连接层均使用ReLU激活函数,输出层使用tanh激活函数将执行器输出值控制在(-1,+1)之间,线性放大后映射到滚转动作空间和速度动作空间;所述评价器网络包括一个价值评估网络以将输入状态映射到所述输入状态对应的价值函数,其中所述价值评估网络包括2层全连接层和1层输出层,其中全连接层均使用ReLU激活函数,输出层使用linear激活函数;
所述执行器网络以及所述评价器网络均还包括一个特征提取网络,所述特征提取网络分别包括1层全连接层、1个嵌入模块和1层合并层;所述嵌入模块包括1层填充层、2层卷积层、2个SE模块、2层转置层、1层最大池化层以及1层压平层;所述SE模块包括1层全局平均池化层、2层全连接层及1层缩放层,所述全连接层用于处理长机与僚机之间的联合状态,所述嵌入模块用于处理僚机与其他僚机之间的联合状态,所述合并层用于融合全连接层和嵌入模块的输出,生成所述联合状态输出。
进一步的,所述嵌入模块包括1层填充层、2层卷积层、2个SE模块、2层转置层、1层最大池化层和1层压平层;所述SE模块包括1层缩放层、1层全局平均池化层以及2层全连接层,其中2层卷积层中第一卷积层的卷积核尺寸与当前僚机、其他僚机之间联合状态的维度相等,所述2个SE模块中第一SE模块的第一全连接层的网络节点数等于所述第一卷积层的卷积核数的1/4,第二全连接层的网络节点数等于所述第一卷积层的卷积核数;所述2层卷积层中第二卷积层的卷积核尺寸与所述第一卷积层的卷积核数相等,所述2个SE模块中第二SE模块的第一全连接层的网络节点数等于所示第二卷积层的卷积核数的1/4,第二全连接层的网络节点数等于所述第二卷积层的卷积核数。
进一步的,所述步骤S1中训练形成执行器网络模型的具体步骤为:
步骤S1-1、由执行器对应动作选择策略,使用深度神经网络将输入状态映射到输出动作,以及由评价器对应价值函数,使用深度神经网络将输入状态映射到该状态的价值函数,分别建立得到执行器网络和评价器网络,并随机初始化网络参数;
步骤S1-2、持续采集僚机与环境交互过程中的历史数据并存储到经验数据池中,所述历史数据包括四元组(st,at,rt,st+1),其中st为当前状态、at为执行动作、rt为执行动作at获取的回报,st+1为执行动作at后达到的状态;
步骤S1-3、从所述经验数据池中进行随机批次采样,并使用采样到的数据不断更新所述执行器网络和评价器网络的网络参数;
步骤S1-4、当训练次数达到预设条件时,结束训练过程,最终形成并保存所述执行器网络模型。
进一步的,所述构成联合特征的步骤包括:
步骤SA1、各僚机获取长机状态信息ξl:=(xl,ylll,vl)以及自身状态信息ξe:=(xe,yeee,ve),构建得到当前僚机与长机之间的联合状态se
Figure BDA0002613088240000031
Figure BDA0002613088240000041
其中式中:
Figure BDA0002613088240000042
表示当前僚机相对于长机的平面位置;
Figure BDA0002613088240000043
表示当前僚机与长机航向角之差;
Figure BDA0002613088240000044
Figure BDA0002613088240000045
分别表示长机的期望滚转角和速度;
步骤SA2、各僚机获取自身的状态信息ξe:=(xe,yeee,ve)及除当前僚机外其他僚机的状态信息
Figure BDA0002613088240000046
构建得到当前僚机与其他僚机之间的联合状态so
Figure BDA0002613088240000047
Figure BDA00026130882400000411
其中,
Figure BDA0002613088240000048
表示其他僚机相对于当前僚机的平面位置;
Figure BDA0002613088240000049
表示其他僚机与当前僚机航向角之差;
步骤SA3、根据当前僚机与长机之间的联合状态se和当前僚机与其他僚机之间的联合状态so构建得到最终的系统联合状态s:=(se,so)输出。
进一步的,具体按照下式计算执行动作获取的回报值r:
Figure BDA00026130882400000410
其中,rl表示跟随奖励且满足:
Figure BDA0002613088240000051
Figure BDA0002613088240000052
表示碰撞惩罚,且满足:
Figure BDA0002613088240000053
其中,参数d1和d2分别为圆环的内半径和外半径,ρ表示当前僚机与长机之间的距离,
Figure BDA0002613088240000054
表示当前僚机与其他僚机j之间的距离,de表示当前僚机到圆环的距离,ω和m是调整因子。
进一步的,根据所述联合状态输出各僚机的控制指令时,具体根据执行器的输出选择僚机的滚转指令ar和速度指令av,并根据所述滚转指令ar和速度指令av分别计算僚机的滚转角设定值:
Figure BDA0002613088240000055
以及速度设定值:
Figure BDA0002613088240000056
其中,φ表示僚机当前滚转角,amax表示僚机滚转角单步最大变化量,rbd表示僚机滚转角的边界值。
一种基于深度强化学习的固定翼无人机编队协调控制装置,包括:
训练模块,用于建立无人机运动学模型以及基于深度神经网络建立执行器网络、评价器网络,并使用各僚机与环境交互过程中的历史数据更新所述执行器网络、评价器网络的网络参数,训练形成执行器网络模型,所述交互过程中由僚机获取自身、长机以及除当前僚机以外其他僚机的当前状态信息构成联合状态,由所述执行器网络根据所述联合状态输出各僚机的控制指令,并根据所述无人机运动学模型得到长机以及僚机的下一时刻状态;
执行模块,用于执行飞行任务时,各僚机分别实时获取自身、长机以及除当前僚机以外其他僚机的当前状态信息构成联合状态,载入训练后形成的所述执行器网络模型,由所述执行器网络模型根据实时获取的所述联合状态输出各僚机的控制指令,所述控制指令包括滚转角控制指令、速度控制指令。
与现有技术相比,本发明的优点在于:
1、本发明通过在无人机多机编队协同遂行任务中,由僚机感知长机信息的基础上,还获取其他僚机的状态信息构成联合状态,基于该联合状态进行深度强化学习算法的训练,能够获得具有避撞功能的控制策略,在连续状态空间和动作空间内解决了Leader-Follower拓扑下的固定翼无人机编队协调控制问题,从而不需依赖平台和环境的精确模型,即可使得僚机能够准确跟随长机自主飞行并避免机间碰撞,大大减小了无人机操控员的工作负担,提高控制效率及灵活性。
2、本发明进一步通过考虑无人机在恒定高度飞行的特性,采用简化的四自由度模型描述无人机运动学模型,同时考虑环境扰动的影响,在滚转、空速等各个子状态引入随机项,能够模拟真实世界的随机性,弥补简化模型带来的精度损失,建立得到具有随机性的固定翼无人机运动学模型,使得在该环境中训练得到的控制策略能够直接迁移到真实世界中,同时在无人机模型中还设置了速度响应函数,允许无人机改变自身速度飞行,更加贴近现实情况,从而构建得到更为精确的固定翼无人机运动学模型。
3、本发明进一步通过构建执行器网络、评价器网络,同时配置特征提取网络中的嵌入模块,能够将可变维度的系统状态输入编码为固定维度的特征向量,使得基于深度强化学习的协调控制策略具有良好的可扩展性,能够适用于不同规模的无人机编队,且具备注意力机制,能够更好的提取当前僚机与其他僚机交互的特征。
4、本发明进一步通过回报函数计算动作获取的回报值时,不仅考虑了跟随奖励,同时考虑了碰撞惩罚,结合强化学习算法的训练,能够进一步得到具有更佳避撞性能的控制策略,提高固定翼无人机编队协调控制中的避障安全性。
附图说明
图1是本实施例基于深度强化学习的固定翼无人机编队协调控制方法的实现流程示意图。
图2是本发明在具体应用实施例中长机与僚机期望位置关系的示意图。
图3是本发明在具体应用实施例中执行器网络和评价器网络的结构示意图。
图4是本发明在具体应用实施例中嵌入模块的结构示意图。
图5是本发明在具体应用实施例中得到的长机与各僚机的飞行轨迹图。
具体实施方式
以下结合说明书附图和具体优选的实施例对本发明作进一步描述,但并不因此而限制本发明的保护范围。
如图1所示,本实施例基于深度强化学习的固定翼无人机编队协调控制方法的步骤包括:
步骤S1、训练阶段:建立无人机运动学模型以及基于深度神经网络建立执行器网络、评价器网络,并使用各僚机与环境交互过程中的历史数据更新执行器网络、评价器网络的网络参数,训练形成执行器网络模型,历史数据包括当前状态、执行动作、执行动作获取的回报以及执行动作后达到的状态,交互过程中由僚机获取自身、长机以及除当前僚机以外其他僚机的当前状态信息构成联合状态,由执行器网络根据联合状态输出各僚机的控制指令,并根据无人机运动学模型得到长机以及僚机的下一时刻状态;
步骤S2、执行阶段:执行飞行任务时,各僚机分别实时获取自身、长机以及除当前僚机以外其他僚机的当前状态信息构成联合状态,载入训练后形成的执行器网络模型,由执行器网络模型根据实时获取的联合状态输出各僚机的控制指令,控制指令包括滚转角控制指令、速度控制指令。
本实施例通过在无人机多机编队协同遂行任务中,由僚机感知长机信息的基础上,还获取其他僚机的状态信息构成联合状态,基于该联合状态进行深度强化学习算法的训练,能够获得具有避撞功能的控制策略,在连续状态空间和动作空间内解决了Leader-Follower拓扑下的固定翼无人机编队协调控制问题,从而不需依赖平台和环境的精确模型,即可使得僚机能够准确跟随长机自主飞行并避免机间碰撞,大大减小了无人机操控员的工作负担,提高控制效率及灵活性。
考虑无人机在恒定高度飞行,本实施例步骤S1中无人机运动学模型具体采用简化四自由度模型,并引入包括滚转、空速等子状态的随机项形成具有随机性的固定翼无人机运动学模型,建立的固定翼无人机运动学模型具体为:
Figure BDA0002613088240000071
其中,(x,y)表示无人机的x-y平面位置;ψ表示无人机的航向角;φ表示无人机的滚转角;αg表示重力加速度;ηxxψ分别为扰动项且分别服从正态分布以用于模拟无人机位置和航向因环境因素而产生的扰动,扰动项(ηxxψ)具体分别服从正态分布
Figure BDA0002613088240000072
Figure BDA0002613088240000073
Figure BDA0002613088240000074
f(φ,φd)为期望滚转角φd(输入)与实际滚转角φ(响应)之间的函数关系,f(v,vd)为期望空速vd(输入)与实际空速v(响应)之间的函数关系。
本实施例通过考虑无人机在恒定高度飞行的特性,采用简化的四自由度模型描述无人机运动学模型,同时考虑环境扰动的影响,在滚转、空速等各个子状态引入随机项,能够模拟真实世界的随机性,弥补简化模型带来的精度损失,建立得到具有随机性的固定翼无人机运动学模型,使得在该环境中训练得到的控制策略能够直接迁移到真实世界中,同时在无人机模型中还设置了速度响应函数,允许无人机改变自身速度飞行,更加贴近现实情况,从而构建得到更为精确的固定翼无人机运动学模型。
本实施例具体使用二阶系统模拟无人机滚转和速度通道的动态响应,并引入随机项使得该响应更具真实性。假定滚转通道二阶系统的无阻尼自然频率
Figure BDA0002613088240000081
和阻尼系数ζr分别服从正态分布
Figure BDA0002613088240000082
Figure BDA0002613088240000083
速度通道二阶系统的无阻尼自然频率
Figure BDA0002613088240000084
和阻尼系数ζv分别服从正态分布
Figure BDA0002613088240000085
Figure BDA0002613088240000086
所需参数可根据自驾仪滚转和速度指令的实际响应情况确定。
本实施例中,执行器输出具体为2维,分别表示速度和滚转角,执行器网络具体包括一个动作选择网络以将输入状态映射到输出动作,动作选择网络包括2层全连接层(Dense)和1层输出层,其中全连接层均使用ReLU激活函数,其表达式为:f(x)=max(0,x),输出层使用tanh激活函数,其表达式为f(x)=(ex-e-x)/(ex+e-x),以确保将执行器输出值控制在(-1,+1)之间,线性放大后即可映射到滚转动作空间和速度动作空间;执行器网络还包括一个特征提取网络,该特征提取网络包含1层全连接层(Dense)、1个嵌入模块(Embedding)和1层合并层(Merge),其中全连接层用于处理长机与僚机的联合状态se,嵌入模块用于处理当前僚机与其他僚机之间的联合状态so,合并层用于融合全连接层和嵌入模块的输出,生成联合状态的特征输出。
本实施例中,评价器网络具体包括一个价值评估网络以将输入状态映射到输入状态对应的价值函数,其中价值评估网络包括2层全连接层和1层输出层,其中全连接层均使用ReLU激活函数,输出层使用linear激活函数;评价器网络还包括一个特征提取网络,特征提取网络的结构与上述执行器网络中特征提取网络的结构相同。
本实施例中,嵌入(Embedding)模块具体包括1层填充层(Padding)、2层卷积层(Conv)、2个SE模块(SE Block)、2层转置层(Permute)、1层最大池化层(MaxPooling)和1层压平层(Flatten);SE模块包括1层缩放层(Multiply)、1层全局平均池化层(GlobalAvgPooling)以及2层全连接层(Dense),其中2层卷积层中第一卷积层的卷积核尺寸与当前僚机、其他僚机之间联合状态的维度相等,激活函数为ReLU;2个SE模块中第一SE模块的第一全连接层的网络节点数等于第一卷积层的卷积核数的1/4,使用ReLU激活函数,第二全连接层的网络节点数等于第一卷积层的卷积核数,使用Sigmoid激活函数,其表达式为:f(x)=1/(1+e-x);2层卷积层中第二卷积层的卷积核尺寸与第一卷积层的卷积核数相等,激活函数为ReLU,2个SE模块中第二SE模块的第一全连接层的网络节点数等于所示第二卷积层的卷积核数的1/4,使用ReLU激活函数,第二全连接层的网络节点数等于第二卷积层的卷积核数,使用Sigmoid激活函数。
无人机编队在实际执行任务时规模会根据执行任务的不同有所变化,本实施例通过采用上述构建的执行器网络、评价器网络,执行器和评价器网络的输入是可变的,可以适应不同的无人机规模,同时配置特征提取网络中的嵌入模块的填充层和池化层形成上述结构,能够将可变维度的联合状态输入编码为固定维度的特征向量,使得基于深度强化学习的协调控制策略具有良好的可扩展性,能够适用于不同规模的无人机编队,即可实现可变规模无人机编队的协调控制,且嵌入模块还设置有2个SE模块,该模块具备注意力(attention)机制,能够更好的提取当前僚机与其他僚机交互的特征。
本实施例中,步骤S1中训练形成执行器网络模型的具体步骤为:
步骤S1-1、由执行器对应动作选择策略,使用深度神经网络将输入状态映射到输出动作(Act*(s|θA):S→A,其中Act*(s|θA)代表输入状态s的最佳动作),以及由评价器对应价值函数,使用深度神经网络将输入状态映射到该状态的价值函数
Figure BDA0002613088240000091
分别建立得到执行器网络和评价器网络,并随机初始化执行器网络参数θA和评价器网络参数θV
步骤S1-2、持续采集僚机与环境之间交互过程中的历史数据并存储到经验数据池中,历史数据具体包括四元组(st,at,rt,st+1),其中st为当前状态、at为执行动作、rt为执行动作at获取的回报,st+1为执行动作at后达到的状态,即历史数据包括当前状态、执行动作、执行动作获取的回报以及执行动作后达到的状态;
步骤S1-3、从经验数据池中进行随机批次采样,并使用采样到的数据不断更新执行器网络和评价器网络的网络参数;
步骤S1-4、当训练次数达到预设条件时,结束训练过程,最终形成并保存执行器网络模型。
上述交互过程具体为:长机的滚转指令和速度指令随机产生以增加系统的随机性;智能体获取长机、其他僚机及自身的状态信息,组成联合状态信息输入到执行器中,使用高斯探索策略根据执行器输出选取僚机的滚转指令和速度指令;分别将长机和僚机的控制指令输入随机无人机运动学模型,得到长机和僚机下一时刻的状态,并计算其对应的回报函数值。
上述步骤S1-3中更新网络参数时,具体可使用应用Adam算法不断更新执行器和评价器的网络参数,所有样本均会用于更新评价器网络的参数,但只有TD误差为正的样本才会使执行器的网络参数发生改变,通过经验回放方式可以去除经验数据的相关性,提高了经验的利用率。
本实施例上述通过获取僚机与环境之间交互过程中的交互数据,构成联合特征的步骤包括:
步骤SA1、各僚机获取长机状态信息ξl:=(xl,ylll,vl)以及自身状态信息ξe:=(xe,yeee,ve),构建得到当前僚机与长机之间的联合状态se
Figure BDA0002613088240000101
Figure BDA0002613088240000102
其中式中:
Figure BDA0002613088240000103
表示当前僚机相对于长机的平面位置;
Figure BDA0002613088240000104
表示当前僚机与长机航向角之差;
Figure BDA0002613088240000105
Figure BDA0002613088240000106
分别表示长机的期望滚转角和速度;
步骤SA2、各僚机获取自身的状态信息ξe:=(xe,yeee,ve)及除当前僚机外其他僚机的状态信息
Figure BDA0002613088240000107
构建得到当前僚机与其他僚机之间的联合状态so
Figure BDA0002613088240000108
Figure BDA0002613088240000109
其中,
Figure BDA0002613088240000111
表示其他僚机相对于当前僚机的平面位置;
Figure BDA0002613088240000112
表示其他僚机与当前僚机航向角之差;
步骤SA3、根据当前僚机与长机之间的联合状态se和当前僚机与其他僚机之间的联合状态so构建得到最终的系统联合状态s:=(se,so)输出。
本实施例中,具体按照下式(6)计算执行动作获取的回报值r:
Figure BDA0002613088240000113
其中,rl表示跟随奖励且满足:
Figure BDA0002613088240000114
Figure BDA0002613088240000115
表示碰撞惩罚,且满足:
Figure BDA0002613088240000116
其中,参数d1和d2分别为圆环的内半径和外半径,ρ表示当前僚机与长机之间的距离,
Figure BDA0002613088240000117
表示当前僚机与其他僚机j之间的距离,de表示当前僚机到圆环的距离,ω和m是调整因子。
本实施例通过采用上述回报函数计算动作获取的回报值,不仅考虑了跟随奖励,同时考虑了碰撞惩罚,结合强化学习算法的训练,能够进一步得到具有更佳避撞性能的控制策略,提高固定翼无人机编队协调控制中的避障安全性。
本实施例中,上述根据联合状态输出各僚机的控制指令时,具体根据执行器的输出选择僚机的滚转指令ar和速度指令av,并根据滚转指令ar和速度指令av分别计算僚机的滚转角设定值:
Figure BDA0002613088240000118
以及速度设定值:
以及速度设定值:
Figure BDA0002613088240000121
其中,φ表示僚机当前滚转角,amax表示僚机滚转角单步最大变化量,rbd表示僚机滚转角的边界值。
本实施例中,执行阶段的具体实现步骤如下:
步骤S2-1、僚机获取自身位置和姿态信息以及长机及其他僚机的位置和姿态信息,分别构建当前僚机与长机之间的联合状态和当前僚机与其他僚机之间的联合状态,进而组成系统联合状态;
步骤S2-2、载入训练后的执行器网络模型,执行器根据当前系统联合状态输出僚机最佳滚转和速度指令;执行器网络模型运行在僚机机载处理器上,输出的滚转和速度指令每隔指定时间更新一次,长机滚转角和速度设定值可具体设定;
步骤S2-3、长机和僚机根据各自的滚转角和速度设定值,由PID控制器完成底层闭环控制。
步骤S2-4、重复上述过程,直至完成飞行任务。
上述步骤S2-1构成联合状态、步骤S2-2执行器根据当前系统联合状态输出僚机最佳滚转和速度指令的具体步骤分别与步骤S1中前述对应步骤相同,具体如上所述。
以下以在Leader-Follower拓扑进行固定翼无人机编队协调控制的具体应用实例为例来进一步说明本发明的方法。
如图2所示,本实施例编队具体由一架长机和n架僚机组成,僚机在某一固定高度层飞行,控制量为滚转角和速度,每一架僚机均配备有自驾仪,用于完成滚转和速度指令的底层闭环控制;长机根据操控员的控制指令飞行,并通过无线通信链路将其状态信息广播给僚机;僚机可通过传感器获取自身状态信息,并通过无线通信链路获取长机及其他僚机的状态信息。为实现无人机编队的协调控制,各个僚机需要自主实时选择其滚转角和速度指令,以维持僚机与长机之间的合理位置关系(d1<ρ<d2),并避免机间碰撞。
本实施例控制分为训练阶段和执行阶段两个阶段:
训练阶段主要包括以下步骤:
步骤I-1:如上式(1)构建建立具有随机性的固定翼无人机运动学模型。
步骤I-2:建立执行器深度神经网络和评价器深度神经网络。
步骤I-2-1:建立执行器深度神经网络。
本实施例中,执行器对应动作选择策略,使用深度神经网络将输入状态分别映射到输出动作(Act*(s|θA):S→A,其中Act*(s|θA)代表输入状态s的最佳动作)。如图3所示,本实施例中执行器深度神经网络包括特征提取网络和动作选择网络,其中动作选择网络包括2层全连接层(Dense)和1层输出层,网络节点数分别取256、256和2;全连接层均使用ReLU激活函数;输出层使用tanh激活函数;特征提取网络包含1层全连接层(Dense)、1个嵌入模块(Embedding)和1层合并层(Merge),全连接层的网络节点数取64,用于处理长机与僚机的联合状态se,嵌入模块用于处理僚机与其他僚机之间的联合状态so,合并层用于融合全连接层和嵌入模块的输出,生成系统联合状态的特征输出;
如图4所示,嵌入模块具体包含1层填充层(Padding)、2层卷积层(Conv)、2个SE模块(SE Block)、2层转置层(Permute)、1层最大池化层(MaxPooling)和1层压平层(Flatten);所述SE模块包括1层缩放层(Multiply)、1层全局平均池化层(GlobalAvgPooling)、2层全连接层(Dense),其中第一卷积层的卷积核数量取32,卷积核尺寸与当前僚机-其他僚机联合状态so的维度相等,即1×5,步长取1,激活函数为ReLU;第一SE模块的第一全连接层的网络节点数等于第一卷积层卷积核数的1/4,即8,使用ReLU激活函数,第二全连接层的网络节点数等于第一卷积层卷积核数,即32,使用Sigmoid激活函数;第二卷积层的卷积核数量取64,卷积核尺寸与第一卷积层卷积核数相等,即1×32,步长取1,激活函数为ReLU;第二SE模块的第一全连接层的网络节点数等于第二卷积层卷积核数的1/4,即16,使用ReLU激活函数,第二全连接层的网络节点数等于第二卷积层卷积核数,即64,使用Sigmoid激活函数。
步骤I-2-2:建立评价器深度神经网络。
本实施例中,评价器对应价值函数,同样使用深度神经网络将输入状态映射到该状态的价值函数
Figure BDA0002613088240000131
如图3所示,评价器深度神经网络具体包括包含特征提取网络和价值评估网络,价值评估网络包括2层全连接层(Dense)和1层输出层,网络节点数分别取256、256和1;全连接层均使用ReLU激活函数,输出层使用linear激活函数,评价器的特征提取网络与执行器的特征提取网络的结构相同。
步骤I-2-3:随机初始化执行器的网络参数θA和评价器的网络参数θV
步骤I-3:持续采集智能体(僚机)与环境进行交互的历史数据,并存储到经验池中,其中历史数据为四元组(st,at,rt,st+1),交互过程具体步骤为:
步骤I-3-1:建立容量为N的数据缓存区D用于保存历史经验,初始化为空,具体N=100000。
步骤I-3-2:智能体获取长机状态信息ξl:=(xl,ylll,vl)及自身状态信息ξe:=(xe,yeee,ve),按照式(2)、(3)构建当前僚机-长机联合状态
Figure BDA0002613088240000141
步骤I-3-3:智能体获取自身状态信息ξe:=(xe,yeee,ve)及其他僚机状态信息
Figure BDA0002613088240000142
按照式(4)、(5)构建当前僚机-其他僚机联合状态
Figure BDA0002613088240000143
步骤I-3-4:根据当前僚机-长机联合状态se和当前僚机-其他僚机联合状态so,构建系统联合状态s:=(se,so),该系统联合状态的维度是不固定的,其尺寸与僚机数量n有关。
步骤I-3-5:采用高斯探索策略根据执行器输出Act(s|θA)选择僚机的动作:
Figure BDA0002613088240000144
其中,σ为探索参数,表示高斯分布的宽度。在本实施例中,动作空间是二维的:a:=(ar,av),分别表示滚转指令和速度指令;探索参数σ在500000时间步内从0.5线性衰减到0.05。
步骤I-3-6:根据高斯探索策略的输出,即僚机的滚转指令ar和速度指令av,分别按照式(9)、(10)计算僚机的滚转角设定值。
步骤I-3-7:根据长机和僚机的滚转角和速度设定值,由无人机运动学模型计算得出下一时刻的状态;进而由式(2)、(3)构建下一时刻系统联合状态s',按照式(6)、(7)、(8)计算回报函数值r。
步骤I-3-8:将历史经验数据(s,a,r,s′)保存到经验池D中,若经验池中数据的数量大于经验池的最大容量,则使用最新的经验数据取代最早的经验数据。
步骤I-4:从经验池中进行随机批次采样,应用Adam算法不断更新执行器的网络参数θA和评价器的网络参数θV。本实施例中Batch size具体设置为64,损失函数类型为MSE。
评价器网络的更新方式具体为:
Vt+1(stV)=Vt(stV)+β·δt (12)
其中:
δt=rt+γ·Vt(st+1V)-Vt(stV) (13)
在损失函数||δt||2的指引下,评价器的网络参数θV通过梯度下降算法进行优化:
Figure BDA0002613088240000151
式中:0≤γ≤1代表折扣因子;0≤β≤1表示评价器的学习率;δt表示当前的TD误差。
本实施例中具体γ=0.95,β=0.0001。
与评价器网络的更新方式不同,执行器网络仅在TD误差大于零时进行更新,其更新规则具体为:
Figure BDA0002613088240000152
当TD误差大于零时,在损失函数||at-Actt(stA)||2的指引下,Actor的网络参数θA亦通过梯度下降算法进行优化:
Figure BDA0002613088240000153
式中:0≤α≤1表示执行器的学习率。本实施例中具体α=0.001。
步骤I-5:当训练回合数达到期望次数时,结束上述交互过程,并保存执行器网络的模型参数。本实施例中具体共进行30000回合的训练,每回合60时间步。
执行阶段的主要实现步骤如下:
步骤II-1:智能体通过传感器获取自身位置和姿态信息,并通过通信链路获取长机及其他僚机的位置和姿态信息,分别根据式(2)~(5)构建当前僚机-长机联合状态和当前僚机-其他僚机联合状态,进而组成系统联合状态。
步骤II-2:载入训练后的执行器网络模型,执行器根据当前系统联合状态输出僚机最佳滚转和速度指令,进而根据式(9)、(10)得出滚转角设定值和速度设定值;执行器网络模型运行在僚机机载处理器上,输出的滚转和速度指令每隔1s更新一次;长机滚转角和速度设定值由操控员给出。
步骤II-3:长机和僚机的自驾仪分别根据各自的滚转角和速度设定值,由PID控制器完成底层闭环控制。
步骤II-4:重复上述过程,直至完成飞行任务。
本实施例中行任务具体共持续180s,所得飞行轨迹图如图5所示,其中,ρ表示僚机与长机之间的距离,mindis表示僚机之间的最小机间距离;从图5中可以看出,无论长机平直飞行还是盘旋机动,5架僚机(Follower 1~Follower 5)均能稳定地跟随长机组成编队协同飞行,同时避免机间碰撞。即本发明固定翼无人机编队协调控制方法,基于执行器-评价器强化学习框架,不依赖平台和环境的精确模型,能够解决解决Leader-Follower拓扑下的固定翼无人机编队协调控制问题,避免无人机之间的碰撞问题。
本实施例基于深度强化学习的固定翼无人机编队协调控制装置,包括:
训练模块,用于建立无人机运动学模型以及基于深度神经网络建立执行器网络、评价器网络,并使用各僚机与环境交互过程中的历史数据更新执行器网络、评价器网络的网络参数,训练形成执行器网络模型,历史数据包括当前状态、执行动作、执行动作获取的回报以及执行动作后达到的状态,交互过程中由僚机获取自身、长机以及除当前僚机以外其他僚机的当前状态信息构成联合状态,由执行器网络根据联合状态输出各僚机最佳的控制指令,并根据无人机运动学模型得到长机以及僚机的下一时刻状态;
执行模块,用于执行飞行任务时,各僚机分别实时获取自身、长机以及除当前僚机以外其他僚机的当前状态信息构成联合状态,载入训练后形成的执行器网络模型,由执行器网络模型根据实时获取的联合状态输出各僚机的控制指令,控制指令包括滚转角控制指令、速度控制指令。
本实施例上述执行器网络、评价器网络如图3所示,执行器网络、评价器网络中嵌入模块如图4所示,具体原理如上述所述。
本实施例基于深度强化学习的固定翼无人机编队协调控制装置与上述基于深度强化学习的固定翼无人机编队协调控制方法为一一对应,在此不再一一赘述。
上述只是本发明的较佳实施例,并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明。因此,凡是未脱离本发明技术方案的内容,依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均应落在本发明技术方案保护的范围内。

Claims (9)

1.一种基于深度强化学习的固定翼无人机编队协调控制方法,其特征在于,步骤包括:
步骤S1、训练阶段:建立无人机运动学模型以及基于深度神经网络建立执行器网络、评价器网络,并使用各僚机与环境交互过程中的历史数据更新所述执行器网络、评价器网络的网络参数,训练形成执行器网络模型,所述历史数据包括当前状态、执行动作、执行动作获取的回报以及执行动作后达到的状态,所述交互过程中由僚机获取自身、长机以及除当前僚机以外其他僚机的当前状态信息构成联合状态,由所述执行器网络根据所述联合状态输出各僚机的控制指令,并根据所述无人机运动学模型得到长机以及僚机的下一时刻状态;
步骤S2、执行阶段:执行飞行任务时,各僚机分别实时获取自身、长机以及除当前僚机以外其他僚机的当前状态信息构成联合状态,载入训练后形成的所述执行器网络模型,由所述执行器网络模型根据实时获取的所述联合状态输出各僚机的控制指令,所述控制指令包括滚转角控制指令、速度控制指令;
所述执行器网络包括一个动作选择网络以将输入状态映射到输出动作,所述动作选择网络包括2层全连接层和1层输出层,其中全连接层均使用ReLU激活函数,输出层使用tanh激活函数将执行器输出值控制在(-1,+1)之间,线性放大后映射到滚转动作空间和速度动作空间;所述评价器网络包括一个价值评估网络以将输入状态映射到所述输入状态对应的价值函数,其中所述价值评估网络包括2层全连接层和1层输出层,其中全连接层均使用ReLU激活函数,输出层使用linear激活函数;
所述执行器网络以及所述评价器网络均还包括一个特征提取网络,所述特征提取网络分别包括1层全连接层、1个嵌入模块和1层合并层;所述嵌入模块包括1层填充层、2层卷积层、2个SE模块、2层转置层、1层最大池化层以及1层压平层;所述SE模块包括1层全局平均池化层、2层全连接层及1层缩放层,所述全连接层用于处理长机与僚机之间的联合状态,所述嵌入模块用于处理僚机与其他僚机之间的联合状态,所述合并层用于融合全连接层和嵌入模块的输出,生成所述联合状态输出。
2.根据权利要求1所述的基于深度强化学习的固定翼无人机编队协调控制方法,其特征在于,所述步骤S1中无人机运动学模型具体采用四自由度模型,并引入包括滚转和/或空速子状态的随机项形成具有随机性的固定翼无人机运动学模型。
3.根据权利要求2所述的基于深度强化学习的固定翼无人机编队协调控制方法,其特征在于,建立的所述固定翼无人机运动学模型具体为:
Figure FDA0003689314010000021
其中,(x,y)表示无人机的x-y平面位置;ψ表示无人机的航向角;φ表示无人机的滚转角;αg表示重力加速度;ηxyψ分别为扰动项且分别服从正态分布以用于模拟无人机位置和航向因环境因素而产生的扰动;f(φ,φd)为期望滚转角φd与实际滚转角φ之间的函数关系,f(v,vd)为期望空速vd与实际空速v之间的函数关系。
4.根据权利要求1所述的基于深度强化学习的固定翼无人机编队协调控制方法,其特征在于,所述嵌入模块包括1层填充层、2层卷积层、2个SE模块、2层转置层、1层最大池化层和1层压平层;所述SE模块包括1层缩放层、1层全局平均池化层以及2层全连接层,其中2层卷积层中第一卷积层的卷积核尺寸与当前僚机、其他僚机之间联合状态的维度相等,所述2个SE模块中第一SE模块的第一全连接层的网络节点数等于所述第一卷积层的卷积核数的1/4,第二全连接层的网络节点数等于所述第一卷积层的卷积核数;所述2层卷积层中第二卷积层的卷积核尺寸与所述第一卷积层的卷积核数相等,所述2个SE模块中第二SE模块的第一全连接层的网络节点数等于所述第二卷积层的卷积核数的1/4,第二全连接层的网络节点数等于所述第二卷积层的卷积核数。
5.根据权利要求1所述的基于深度强化学习的固定翼无人机编队协调控制方法,其特征在于,所述步骤S1中训练形成执行器网络模型的具体步骤为:
步骤S1-1、由执行器对应动作选择策略,使用深度神经网络将输入状态映射到输出动作,以及由评价器对应价值函数,使用深度神经网络将输入状态映射到该状态的价值函数,分别建立得到执行器网络和评价器网络,并随机初始化网络参数;
步骤S1-2、持续采集僚机与环境交互过程中的历史数据并存储到经验数据池中,所述历史数据包括四元组(st,at,rt,st+1),其中st为当前状态、at为执行动作、rt为执行动作at获取的回报,st+1为执行动作at后达到的状态;
步骤S1-3、从所述经验数据池中进行随机批次采样,并使用采样到的数据不断更新所述执行器网络和评价器网络的网络参数;
步骤S1-4、当训练次数达到预设条件时,结束训练过程,最终形成并保存所述执行器网络模型。
6.根据权利要求1~5中任意一项所述的基于深度强化学习的固定翼无人机编队协调控制方法,其特征在于,所述构成联合状态的步骤包括:
步骤SA1、各僚机获取长机状态信息ξl:=(xl,ylll,vl)以及自身状态信息ξe:=(xe,yeee,ve),构建得到当前僚机与长机之间的联合状态se
Figure FDA0003689314010000031
Figure FDA0003689314010000032
其中式中:
Figure FDA0003689314010000033
表示当前僚机相对于长机的平面位置;
Figure FDA0003689314010000034
表示当前僚机与长机航向角之差;
Figure FDA0003689314010000035
Figure FDA0003689314010000036
分别表示长机的期望滚转角和速度;
步骤SA2、各僚机获取自身的状态信息ξe:=(xe,yeee,ve)及除当前僚机外其他僚机的状态信息
Figure FDA0003689314010000037
构建得到当前僚机与其他僚机之间的联合状态so
Figure FDA0003689314010000038
Figure FDA0003689314010000039
其中,
Figure FDA00036893140100000310
表示其他僚机相对于当前僚机的平面位置;
Figure FDA00036893140100000311
表示其他僚机与当前僚机航向角之差;
步骤SA3、根据当前僚机与长机之间的联合状态se和当前僚机与其他僚机之间的联合状态so构建得到最终的系统联合状态s:=(se,so)输出。
7.根据权利要求1~5中任意一项所述的基于深度强化学习的固定翼无人机编队协调控制方法,其特征在于,具体按照下式计算执行动作获取的回报值r:
Figure FDA0003689314010000041
其中,rl表示跟随奖励且满足:
Figure FDA0003689314010000042
Figure FDA0003689314010000043
表示碰撞惩罚,且满足:
Figure FDA0003689314010000044
其中,参数d1和d2分别为圆环的内半径和外半径,ρ表示当前僚机与长机之间的距离,
Figure FDA0003689314010000047
表示当前僚机与其他僚机j之间的距离,de表示当前僚机到圆环的距离,ω和m是调整因子。
8.根据权利要求1~5中任意一项所述的基于深度强化学习的固定翼无人机编队协调控制方法,其特征在于,根据所述联合状态输出各僚机的控制指令时,具体根据执行器的输出选择僚机的滚转指令ar和速度指令av,并根据所述滚转指令ar和速度指令av分别计算僚机的滚转角设定值:
Figure FDA0003689314010000045
以及速度设定值:
Figure FDA0003689314010000046
其中,φ表示僚机当前滚转角,amax表示僚机滚转角单步最大变化量,rbd表示僚机滚转角的边界值。
9.一种基于深度强化学习的固定翼无人机编队协调控制装置,其特征在于,包括:
训练模块,用于建立无人机运动学模型以及基于深度神经网络建立执行器网络、评价器网络,并使用各僚机与环境交互过程中的历史数据更新所述执行器网络、评价器网络的网络参数,训练形成执行器网络模型,所述历史数据包括当前状态、执行动作、执行动作获取的回报以及执行动作后达到的状态,所述交互过程中由僚机获取自身、长机以及除当前僚机以外其他僚机的当前状态信息构成联合状态,由所述执行器网络根据所述联合状态输出各僚机的控制指令,并根据所述无人机运动学模型得到长机以及僚机的下一时刻状态;
执行模块,用于执行飞行任务时,各僚机分别实时获取自身、长机以及除当前僚机以外其他僚机的当前状态信息构成联合状态,载入训练后形成的所述执行器网络模型,由所述执行器网络模型根据实时获取的所述联合状态输出各僚机的控制指令,所述控制指令包括滚转角控制指令、速度控制指令;
所述执行器网络包括一个动作选择网络以将输入状态映射到输出动作,所述动作选择网络包括2层全连接层和1层输出层,其中全连接层均使用ReLU激活函数,输出层使用tanh激活函数将执行器输出值控制在(-1,+1)之间,线性放大后映射到滚转动作空间和速度动作空间;所述评价器网络包括一个价值评估网络以将输入状态映射到所述输入状态对应的价值函数,其中所述价值评估网络包括2层全连接层和1层输出层,其中全连接层均使用ReLU激活函数,输出层使用linear激活函数;
所述执行器网络以及所述评价器网络均还包括一个特征提取网络,所述特征提取网络分别包括1层全连接层、1个嵌入模块和1层合并层;所述嵌入模块包括1层填充层、2层卷积层、2个SE模块、2层转置层、1层最大池化层以及1层压平层;所述SE模块包括1层全局平均池化层、2层全连接层及1层缩放层,所述全连接层用于处理长机与僚机之间的联合状态,所述嵌入模块用于处理僚机与其他僚机之间的联合状态,所述合并层用于融合全连接层和嵌入模块的输出,生成所述联合状态输出。
CN202010761029.7A 2020-07-31 2020-07-31 基于深度强化学习的固定翼无人机编队协调控制方法及装置 Active CN111880567B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010761029.7A CN111880567B (zh) 2020-07-31 2020-07-31 基于深度强化学习的固定翼无人机编队协调控制方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010761029.7A CN111880567B (zh) 2020-07-31 2020-07-31 基于深度强化学习的固定翼无人机编队协调控制方法及装置

Publications (2)

Publication Number Publication Date
CN111880567A CN111880567A (zh) 2020-11-03
CN111880567B true CN111880567B (zh) 2022-09-16

Family

ID=73205206

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010761029.7A Active CN111880567B (zh) 2020-07-31 2020-07-31 基于深度强化学习的固定翼无人机编队协调控制方法及装置

Country Status (1)

Country Link
CN (1) CN111880567B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112835368A (zh) * 2021-01-06 2021-05-25 上海大学 一种多无人艇协同编队控制方法及系统
CN112947084B (zh) * 2021-02-08 2022-09-23 重庆大学 一种基于强化学习的模型未知多智能体一致性控制方法
CN113485323B (zh) * 2021-06-11 2024-04-12 同济大学 一种级联多移动机器人灵活编队方法
CN113885576A (zh) * 2021-10-29 2022-01-04 南京航空航天大学 基于深度强化学习的无人机编队环境建立与控制方法
CN114237293B (zh) * 2021-12-16 2023-08-25 中国人民解放军海军航空大学 一种基于动态目标分配的深度强化学习队形变换方法及系统
CN114237298B (zh) * 2021-12-21 2024-04-05 中国人民解放军海军航空大学 一种无人机编队飞行中僚机跟随长机的控制方法及系统
CN114815882A (zh) * 2022-04-08 2022-07-29 北京航空航天大学 一种基于强化学习的无人飞行器自主编队智能控制方法
CN115470894B (zh) * 2022-10-31 2023-01-31 中国人民解放军国防科技大学 基于强化学习的无人机知识模型分时调用方法及装置
CN115857556B (zh) * 2023-01-30 2023-07-14 中国人民解放军96901部队 一种基于强化学习的无人飞行器协同探测规划方法
CN117320083B (zh) * 2023-11-30 2024-01-26 北京航空航天大学 一种基于规模无关强化学习的多无人机通信资源分配方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109032168A (zh) * 2018-05-07 2018-12-18 西安电子科技大学 一种基于dqn的多无人机协同区域监视的航路规划方法
CN110196605A (zh) * 2019-04-26 2019-09-03 大连海事大学 一种强化学习的无人机群在未知海域内协同搜索多动态目标方法
CN110502034A (zh) * 2019-09-04 2019-11-26 中国人民解放军国防科技大学 一种基于深度强化学习的固定翼无人机群集控制方法
CN110502033A (zh) * 2019-09-04 2019-11-26 中国人民解放军国防科技大学 一种基于强化学习的固定翼无人机群集控制方法
CN110926470A (zh) * 2019-09-25 2020-03-27 吉林大学珠海学院 一种agv导航控制方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107479368B (zh) * 2017-06-30 2021-09-21 北京百度网讯科技有限公司 一种基于人工智能的训练无人机控制模型的方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109032168A (zh) * 2018-05-07 2018-12-18 西安电子科技大学 一种基于dqn的多无人机协同区域监视的航路规划方法
CN110196605A (zh) * 2019-04-26 2019-09-03 大连海事大学 一种强化学习的无人机群在未知海域内协同搜索多动态目标方法
CN110502034A (zh) * 2019-09-04 2019-11-26 中国人民解放军国防科技大学 一种基于深度强化学习的固定翼无人机群集控制方法
CN110502033A (zh) * 2019-09-04 2019-11-26 中国人民解放军国防科技大学 一种基于强化学习的固定翼无人机群集控制方法
CN110926470A (zh) * 2019-09-25 2020-03-27 吉林大学珠海学院 一种agv导航控制方法及系统

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
Chao Yan ; Xiaojia Xiang.A Path Planning Algorithm for UAV Based on Improved Q-Learning.《2018 2nd International Conference on Robotics and Automation Sciences (ICRAS)》.2018, *
Coactive design of explainable agent-based task planning and deep reinforcement learning for human-UAVs teamwork;Chang WANG,Lizhen WU,Chao YAN,Zhichao WANG,Han LONG,ChaoYU;《ScienceDirect》;20200527;全文 *
Collision-Free Flocking with a Dynamic Squad of Fixed-Wing UAVs Using Deep Reinforcement Learning;Chao Yan, Xiaojia Xiang, Chang Wang,Zhen Lan;《arxiv》;20210120;全文 *
Fang Bin ; Feng XiaoFeng ; Xu Shuo.Research on Cooperative Collision Avoidance Problem of Multiple UAV Based on Reinforcement Learning.《2017 10th International Conference on Intelligent Computation Technology and Automation (ICICTA)》.2017, *
Fixed-Wing UAVs flocking in continuous spaces: A deep reinforcement learning approach;ChaoYanXiaojiaXiangChangWang;《ScienceDirect》;20200618;1-25 *
Zezhi Sui ; Zhiqiang Pu ; Jianqiang Yi ; Tianyi Xiong.Formation Control with Collision Avoidance through Deep Reinforcement Learning.《2019 International Joint Conference on Neural Networks (IJCNN)》.2019, *
基于宽度学习和深度集成的图像分类;贾贺姿;《中国优秀硕士学位论文全文数据库 信息科技辑》;20200215;全文 *

Also Published As

Publication number Publication date
CN111880567A (zh) 2020-11-03

Similar Documents

Publication Publication Date Title
CN111880567B (zh) 基于深度强化学习的固定翼无人机编队协调控制方法及装置
CN110502033B (zh) 一种基于强化学习的固定翼无人机群集控制方法
CN110806756B (zh) 基于ddpg的无人机自主引导控制方法
CN110673620B (zh) 一种基于深度强化学习的四旋翼无人机航线跟随控制方法
Nascimento et al. Position and attitude control of multi-rotor aerial vehicles: A survey
CN110531786B (zh) 基于dqn的无人机机动策略自主生成方法
Cichella et al. Cooperative path following of multiple multirotors over time-varying networks
CN110502034B (zh) 一种基于深度强化学习的固定翼无人机群集控制方法
Nie et al. Three-dimensional path-following control of a robotic airship with reinforcement learning
Kapnopoulos et al. A cooperative particle swarm optimization approach for tuning an MPC-based quadrotor trajectory tracking scheme
CN111857184A (zh) 基于深度强化学习的固定翼无人机群集控制避碰方法及装置
Bai et al. Formation control of quad-rotor UAV via PIO
Salimi et al. Deep reinforcement learning for flocking control of uavs in complex environments
Garibeh et al. Motion planning of unmanned aerial vehicles in dynamic 3D space: a potential force approach
Kimathi Application of reinforcement learning in heading control of a fixed wing uav using x-plane platform
CN116382078A (zh) 基于深度强化学习的无人机视觉伺服fov约束控制方法
Kanjanawanishkul Coordinated path following for mobile robots using a virtual structure strategy with model predictive control
Kwon et al. EKF based sliding mode control for a quadrotor attitude stabilization
Yuan et al. Distributed model predictive formation control for a group of uavs with newton-euler dynamics
Housny et al. Robust sliding mode control for quadrotor UAV
Agarwal et al. Attitude control in unmanned aerial vehicles using reinforcement learning—a survey
Alothman Optimal control of multiple quadrotors for transporting a cable suspended payload
Esfandiari et al. Reinforcement Learning Control of an Aerial Robot Based on a Tuned Proximal Policy Optimization in Takeoff and Hover Phases
CN110703792A (zh) 基于增强学习的水下机器人姿态控制方法
de Medeiros Esper et al. Heading controller for a fixed wing UAV with reduced control surfaces based on ANFIS

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant