CN110502034B - 一种基于深度强化学习的固定翼无人机群集控制方法 - Google Patents
一种基于深度强化学习的固定翼无人机群集控制方法 Download PDFInfo
- Publication number
- CN110502034B CN110502034B CN201910832120.0A CN201910832120A CN110502034B CN 110502034 B CN110502034 B CN 110502034B CN 201910832120 A CN201910832120 A CN 201910832120A CN 110502034 B CN110502034 B CN 110502034B
- Authority
- CN
- China
- Prior art keywords
- network
- plane
- wing
- unmanned aerial
- aerial vehicle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000002787 reinforcement Effects 0.000 title claims abstract description 21
- 230000009471 action Effects 0.000 claims abstract description 74
- 230000006870 function Effects 0.000 claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 31
- 238000005096 rolling process Methods 0.000 claims abstract description 27
- 230000009977 dual effect Effects 0.000 claims abstract description 20
- 230000002860 competitive effect Effects 0.000 claims abstract description 16
- 238000011156 evaluation Methods 0.000 claims abstract description 6
- 230000008569 process Effects 0.000 claims description 23
- 230000003993 interaction Effects 0.000 claims description 13
- 238000004891 communication Methods 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000003213 activating effect Effects 0.000 claims 2
- 238000004088 simulation Methods 0.000 abstract description 4
- 230000008901 benefit Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 5
- 230000006872 improvement Effects 0.000 description 5
- 239000003795 chemical substances by application Substances 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 201000004569 Blindness Diseases 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000002592 echocardiography Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- RZVHIXYEVGDQDX-UHFFFAOYSA-N 9,10-anthraquinone Chemical compound C1=CC=C2C(=O)C3=CC=CC=C3C(=O)C2=C1 RZVHIXYEVGDQDX-UHFFFAOYSA-N 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 229910052739 hydrogen Inorganic materials 0.000 description 1
- 239000001257 hydrogen Substances 0.000 description 1
- 125000004435 hydrogen atom Chemical class [H]* 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明公开了一种基于深度强化学习的固定翼无人机群集控制方法,其步骤包括:步骤S1、离线训练阶段:建立随机无人机动力学模型,基于竞争双重Q网络的Q函数评估之后,进行动作选择;所述竞争双重Q网络为D3QN网络;步骤S2、在线执行阶段:构建竞争双重Q网络,并载入训练好的网络模型,所述网络模型和动作选择策略运行在僚机的机载电脑上,长机滚转动作由操控员给出,长机和僚机的自驾仪分别根据各自的滚转动作,直至完成飞行任务。本发明具有较强的实时性和适应性,能够将仿真中训练得到的策略迁移到真实环境等优点。
Description
技术领域
本发明主要涉及到无人机技术领域,特指一种基于深度强化学习的固定翼无人机群集控制方法。
背景技术
近年来,随着传感器技术、通信技术以及智能控制技术的不断发展,无人机技术取得了长足的进步。固定翼无人机具有飞行速度快、续航能力强和有效载荷大等特点,在灾难搜救、边境巡逻、反恐等领域得到了广泛的应用。由于单架无人机性能的不足,上述任务通常需要多架无人机协同配合方能高效完成。然而,操控多架固定翼无人机需要大量的人力来监控每架飞机的状态,协调多架无人机遂行任务仍面临一定的挑战。
“一致性理论”被广泛用于解决无人机的群集控制问题。但该类方法依赖于平台和扰动的精确模型。这一模型通常具有复杂、时变、非线性的特点,加之传感器误差、环境扰动等随机因素的影响,往往难以精确建模,这严重限制了该类方法在真实世界的适用性。作为代替,应用强化学习方法解决上述矛盾得到了越来越多的关注。
目前,现有基于强化学习的群集控制解决方案主要针对旋翼无人机。与旋翼机相比,由于固定翼无人机的飞行动力学的非完整约束,固定翼无人机群集控制更加复杂,将强化学习算法应用于固定翼无人机协群集控制中的研究成果仍然较少。
发明内容
本发明要解决的技术问题就在于:针对现有技术存在的技术问题,本发明提供一种具有较强的实时性和适应性,能够将仿真中训练得到的策略迁移到真实环境中的基于深度强化学习的固定翼无人机群集控制方法。
为解决上述技术问题,本发明采用以下技术方案:
一种基于深度强化学习的固定翼无人机群集控制方法,其步骤包括:
步骤S1、离线训练阶段:建立随机无人机动力学模型,基于竞争双重Q网络的Q函数评估之后,进行动作选择;所述竞争双重Q网络为D3QN网络;
步骤S2、在线执行阶段:构建竞争双重Q网络,并载入训练好的网络模型,所述网络模型和动作选择策略运行在僚机的机载电脑上,长机滚转动作由操控员给出,长机和僚机的自驾仪分别根据各自的滚转动作,直至完成飞行任务。
作为本发明的进一步改进:所述离线训练阶段包括如下步骤:
步骤S11、建立随机无人机动力学模型;考虑无人机在恒定高度飞行,动力学模型用简化的四自由度模型描述;在滚转、空速等各个子状态引入随机性,建立随机无人机动力学模型;
步骤S12、基于竞争双重Q网络的Q函数评估;
步骤S13、动作选择;在离线训练阶段,所述动作选择策略使用结合示范教学的ε-greedy策略;即僚机以ε的概率选择最小Q值对应的动作,以1-ε的概率模仿长机动作;所述动作集合为无人机滚转角的变化量,即{+15°,0,-15°}。
作为本发明的进一步改进:所述步骤S12包括:
步骤S121、构建D3QN的主网络和目标网络,并随机初始化网络参数;
步骤S122、在与环境的不断交互中更新网络参数。
作为本发明的进一步改进:所述步骤S122包括:
步骤S1221:持续采集僚机与环境进行交互的历史经验,并存储到经验池中;所述交互过程为:智能体获取长机的状态信息及自身的状态信息,组成联合状态信息z输入到D3QN中,动作选择策略根据D3QN的输出选取僚机的滚转动作ar;分别将长机的滚转动作随机产生以增加系统的随机性和僚机的滚转指令输入随机无人机动力学模型,得到长机和僚机下一时刻的状态z′和回报函数值g;
步骤S1222:从经验池中进行随机采样,批次更新D3QN的网络参数;每一时间步,应用Adam算法批次更新主网络参数;每隔一定的时间步,对目标网络参数进行软更新,即朝向主网络参数更新目标网络参数;
步骤S1223:当训练回合数达到预设条件时,结束所述更新过程,并保存D3QN的模型参数。
作为本发明的进一步改进:更新过程是以回合为单位进行的;在每一回合的更新过程中,随机初始化长机和僚机的初始状态;当每回合的时间步达到一定步数,该回合结束,重新开始下一回合的学习。
作为本发明的进一步改进:所述步骤S2包括:
步骤S21、僚机通过传感器获取自身位置和姿态信息,并通过通信链路获取长机的位置和姿态信息,进而组成系统联合状态;
步骤S22、构建竞争双重Q网络,并载入训练好的网络模型;D3QN预测当前状态下所有待选动作的Q值,动作选择策略每隔1s更新僚机滚转指令,即当前状态下最小Q值所对应的动作;所述网络模型和动作选择策略运行在僚机的机载电脑上;长机滚转动作由操控员给出;
步骤S23、长机和僚机的自驾仪分别根据各自的滚转动作,由PID控制器完成底层闭环控制;
步骤S24、重复上述过程,直至完成飞行任务。
与现有技术相比,本发明的优点在于:
1、本发明的基于深度强化学习的固定翼无人机群集控制方法,应用深度强化学习算法在连续状态空间内解决Leader-Follower拓扑下的固定翼无人机的群集控制问题,赋予僚机跟随长机自主飞行的能力。
2、本发明的基于深度强化学习的固定翼无人机群集控制方法,具有较强的实时性和适应性,能够将仿真中训练得到的策略迁移到真实环境中,赋予僚机跟随长机自主飞行的能力。
3、本发明的基于深度强化学习的固定翼无人机群集控制方法,不依赖平台和环境的精确模型,能够在连续状态空间中解决固定翼无人机的群集控制问题。仿真中训练得到的策略直接应用到真实环境中,具有较强的实时性和适应性。本发明能够赋予僚机跟随长机自主飞行的能力,大大减少无人机操控员的工作负担,对于无人机多机编队协同遂行任务具有重要意义。
4、本发明的基于深度强化学习的固定翼无人机群集控制方法在应用之后,在无人机编队飞行过程中,僚机通过通信链路获取长机的位置和姿态信息,并通过传感器获取自身位置和姿态信息。基于深度强化学习的群集控制器根据上述信息,计算出僚机最佳滚转角期望值,然后由底层飞控完成闭环控制。本发明可有效提高僚机的自主决策能力,具有较高的鲁棒性能和应用价值。
附图说明
图1是本发明实施例中长机与僚机期望位置关系图;
图2是本发明实施例训练阶段僚机-环境交互示意图;
图3是本发明实施例中D3QN网络结构示意图;
图4是本发明实施例中1架长机与2架僚机飞行轨迹图。
图5是本发明方法的流程示意图。
具体实施方式
以下将结合说明书附图和具体实施例对本发明做进一步详细说明。
如图1和图5所示,本发明的一种基于深度强化学习的固定翼无人机群集控制方法,其步骤包括:
步骤S1、离线训练阶段:建立随机无人机动力学模型,基于竞争双重Q网络(D3QN,Dueling Double Deep Q-Network)的Q函数评估之后,进行动作选择;
步骤S2、在线执行阶段:构建竞争双重Q网络,并载入训练好的网络模型,所述网络模型和动作选择策略运行在僚机的机载电脑上,长机滚转动作由操控员给出,长机和僚机的自驾仪分别根据各自的滚转动作,直至完成飞行任务。
在具体应用实例中,所述离线训练阶段包括如下步骤:
步骤S11、建立随机无人机动力学模型;
考虑无人机在恒定高度飞行,其动力学模型可用简化的四自由度模型描述;为弥补简化带来和精度损失,同时考虑环境扰动的影响,在滚转、空速等各个子状态引入随机性,建立随机无人机动力学模型。
步骤S12、基于竞争双重Q网络(D3QN)的Q函数评估;
步骤S121、构建D3QN的主网络和目标网络,并随机初始化网络参数。
步骤S122、在与环境的不断交互中更新网络参数。
步骤S13、动作选择;
在离线训练阶段,所述动作选择策略使用结合示范教学的ε-greedy策略。具体而言,僚机以ε的概率选择最小Q值对应的动作,以1-ε的概率模仿长机动作。所述动作集合为无人机滚转角的变化量,即{+15°,0,-15°}。所述动作选择策略减少了训练阶段探索过程的盲目性,提高了训练效率。
进一步的,在具体应用实例中,所述步骤S122中D3QN网络参数的更新过程为:
步骤S1221:持续采集智能体(僚机)与环境进行交互的历史经验,并存储到经验池中。所述交互过程为:智能体获取长机的状态信息及自身的状态信息,组成联合状态信息z输入到D3QN中,动作选择策略根据D3QN的输出选取僚机的滚转动作ar;分别将长机(长机的滚转动作随机产生以增加系统的随机性)和僚机的滚转指令输入随机无人机动力学模型,得到长机和僚机下一时刻的状态z′和回报函数值g。所述历史经验为四元组(z,ar,g,z′)。
步骤S1222:从经验池中进行随机采样,批次更新D3QN的网络参数。每一时间步,应用Adam算法批次更新主网络参数;每隔一定的时间步,对目标网络参数进行软更新,即朝向主网络参数更新目标网络参数。
步骤S1223:当训练回合数达到预设条件时,结束所述更新过程,并保存D3QN的模型参数。
所述更新过程是以回合为单位进行的。在每一回合的更新过程中,随机初始化长机和僚机的初始状态。当每回合的时间步达到一定步数,该回合结束,重新开始下一回合的学习。
在具体应用实例中,步骤S2在线执行阶段的具体实现步骤如下:
步骤S21、僚机通过传感器获取自身位置和姿态信息,并通过通信链路获取长机的位置和姿态信息,进而组成系统联合状态。
步骤S22、构建竞争双重Q网络,并载入训练好的网络模型。D3QN预测当前状态下所有待选动作的Q值,动作选择策略每隔1s更新僚机滚转指令,即当前状态下最小Q值所对应的动作。所述网络模型和动作选择策略运行在僚机的机载电脑上;长机滚转动作由操控员给出。
步骤S23、长机和僚机的自驾仪分别根据各自的滚转动作,由PID控制器完成底层闭环控制。
步骤S24、重复上述过程,直至完成飞行任务。
以一个具体应用实例来说明本发明的方法,如图1所示,本实施例在以下场景想定下进行固定翼无人机群集控制:系统采用Leader-Follower拓扑,即编队中由一架长机和若干架僚机组成;不同无人机在不同的固定高度层以恒定速度飞行,以此来消解飞机之间的碰撞问题,因此僚机可使用相同的控制策略;滚转角是唯一的控制量,每一架无人机均配备有自驾仪,用于完成滚转指令的底层闭环控制;长机根据操控员的滚转指令飞行,并通过无线通信链路将其状态信息广播给僚机;僚机通过传感器获取自身状态信息,并联合获取的长机信息组成系统状态,自主确定当前状态的最佳滚转角设定值,以维持僚机与长机之间的合理位置关系(d1<ρ<d2)。
本发明基于深度强化学习框架,在连续状态空间下解决固定翼无人机群集控制问题。所述解决方案分为离线训练阶段和在线执行阶段两个阶段:
所述训练阶段主要包括以下步骤:
步骤S11:建立随机无人机动力学模型;
考虑无人机在恒定高度飞行,其动力学模型可用简化的四自由度模型描述;为弥补简化带来和精度损失,同时考虑环境扰动的影响,故而在滚转、空速等各个子状态引入随机性,建立随机无人机动力学模型:
式中:(x,y)表示无人机的xy平面位置;ψ表示无人机的航向角;φ表示无人机的滚转角;αg表示重力加速度;s代表无人机的空速,空速服从正态分布扰动项(ηx,ηx,ηψ)分别服从正态分布和模拟无人机位置和航向因环境因素而产生的扰动;函数f(φ,r)定义了期望滚转角r(输入)与实际滚转角φ(响应)之间的关系,该关系可根据真实飞机滚转指令的实际响应情况确定。在本实施例中,使用二阶系统模拟无人机滚转通道的动态响应,并假设二阶系统的无阻尼自然频率ωn和阻尼系数ζ分别服从正态分布和所述随机项的引入使得该响应更具真实性。
步骤S12:基于竞争双重Q网络(D3QN)的Q函数评估;
步骤S121:构建竞争双重Q网络。如图3所示,在本实施例中,所述D3QN由两个子网络组成:多层感知机和竞争网络。所述多层感知机包含三层全连接层,隐含节点数分别为64、256和128,激活函数均使用ReLU,其表达式为f(x)=max(0,x)。所述竞争网络包含两个分支:状态值函数分支和优势函数分支。状态值函数分支和优势函数分支均包含两层全连接层。两分支第一全连接层的隐含节点数均为64,且均使用ReLU激活函数。状态值函数分支和优势函数分支第二全连接层的隐含节点数分别为1和3,分别表示当前状态的值函数和当前状态下3个待选动作的优势函数。所述竞争网络输出层的输出为当前状态下各个待选动作的Q值,其计算公式为:
步骤S122:随机初始化D3QN主网络的参数θ,初始化目标网络参数θ-←θ。
步骤S123:在与环境的不断交互中更新网络参数。
步骤S13:动作选择;
在离线训练阶段,所述动作选择策略使用结合示范教学的ε-greedy策略。具体而言,僚机以ε的概率选择最小Q值对应的动作,以1-ε的概率模仿长机动作。所述动作集合为无人机滚转角的变化量,即{+15°,0,-15°}。所述动作选择策略减少了训练阶段探索过程的盲目性,提高了训练效率。
进一步的,所述步骤S123中D3QN网络参数的更新过程为:
步骤1:建立容量为N的数据缓存区D用于保存历史经验,初始化为空。在本实施例中,N=100000。
步骤2:持续采集智能体(僚机)与环境进行交互的历史经验,并存储到经验池中。
如图2所示,在离线训练阶段,所述交互过程为:
步骤2-1:智能体(僚机)获取长机的状态信息ξf:=(xf,yf,ψf,φf)及自身的状态信息ξl:=(xl,yl,ψl,φl),组成联合状态信息z:=(z1,z2,z3,z4,z5,z6):
式中:(z1,z2)表示僚机相对于长机的平面位置;z3表示僚机与长机航向角之差;rl表示长机的滚转指令,即其即将执行的滚转角设定值。在本实施例中,所述长机滚转指令rl在训练时随机生成,以增加系统的随机性。
步骤2-2:动作选择策略,即结合示范教学的ε-greedy策略输出当前状态下僚机的滚转动作ar,进而根据式(5)计算僚机的滚转角设定值:
其中,φf表示僚机当前滚转角;rbd表示僚机滚转角的边界值,即滚转角设定值的范围被限定在[-rbd,rbd]之间。为避免滚转角的剧烈变化影响无人机的安全飞行,在本实施例中,rbd=30°;探索参数ε在10000回合内从0.5线性衰减到0.1,并在此之后固定为0.1。
步骤2-3:根据长机和僚机的滚转角设定值,由无人机动力学模型计算得出下一时刻的状态;进而由式(4)得出下一时刻系统联合状态z',回报函数值g可由式(6)得出:
其中,参数d1和d2分别定义了圆环的内半径和外半径(以长机为中心,见图1);ρ表示长机与僚机之间的距离;d表示僚机到圆环的距离;ω是调整因子,用以调整d的权重。在本实施例中,d1=40,d1=60,ω=0.05。
步骤2-4:将历史经验数据(z,ar,g,z′)保存到经验池中。若经验池中数据的数量大于经验池的最大容量,则使用最新的经验数据取代最老的经验数据。
步骤3:从经验池中随机进行批次采样,批次更新D3QN的网络参数。
每一时间步,应用Adam算法根据损失函数批次更新主网络参数。所述损失函数L定义为
其中
yj=g+γQ(s′,arg maxa′Q(s′,a′;θ);θ-) (8)
式中:Nb表示Batch size,0≤γ≤1代表折扣因子。
每隔一定的时间步N-,对目标网络参数进行软更新,即朝向主网络参数θ缓慢更新目标网络参数θ-:
θ-←τθ+(1-τ)θ- (9)
其中,τ为软更新率。
在本实施例中,Nb=32,γ=0.9,N-=4;主网络的学习率和目标网络的软更新率τ每隔5000回合指数衰减一次,衰减率为0.9。
步骤4:当训练回合数达到预设条件时,结束所述更新过程,并保存D3QN的模型参数。
所述更新过程是以回合为单位进行的。在每一回合的更新过程中,随机初始化长机和僚机的初始状态。当每回合的时间步达到一定步数,该回合结束,重新开始下一回合的学习。在本实施例中,训练阶段共进行100000次回合的训练,每回合的最大时间步数为30。
所述在线执行阶段的主要实现步骤如下:
步骤S21:僚机通过传感器获取自身位置和姿态信息,并通过通信链路获取长机的位置和姿态信息,进而根据式(4)计算系统联合状态。
步骤S22:构建竞争双重Q网络,并载入训练好的网络模型。D3QN预测当前状态下所有待选动作的Q值,动作选择策略每隔1s更新滚转指令,即最小Q值所对应的动作。长机滚转角设定值由操控员给出。
步骤S23:长机和僚机的自驾仪根据各自的滚转角设定值,由PID控制器完成底层闭环控制。
步骤S24:重复上述过程,直至完成飞行任务。在本实施例中,飞行任务共持续120s,所得飞行轨迹图如图3所示。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。
Claims (5)
1.一种基于深度强化学习的固定翼无人机群集控制方法,其特征在于,步骤包括:
步骤S1、离线训练阶段:建立随机无人机动力学模型,基于竞争双重Q网络的Q函数评估之后,进行动作选择;所述竞争双重Q网络为D3QN网络;
步骤S2、在线执行阶段:构建竞争双重Q网络,并载入训练好的网络模型,所述网络模型和动作选择策略运行在僚机的机载电脑上,长机滚转动作由操控员给出,长机和僚机的自驾仪分别根据各自的滚转动作,直至完成飞行任务;
所述离线训练阶段包括如下步骤:
步骤S11、建立随机无人机动力学模型;考虑无人机在恒定高度飞行,动力学模型用简化的四自由度模型描述;在滚转、空速各个子状态引入随机性,建立随机无人机动力学模型;
步骤S12、基于竞争双重Q网络的Q函数评估;
步骤S13、动作选择;在离线训练阶段,所述动作选择策略使用结合示范教学的ε-greedy策略;即僚机以ε的概率选择最小Q值对应的动作,以1-ε的概率模仿长机动作;所述动作集合为无人机滚转角的变化量,即{+15°,0,-15°};
所述步骤S12包括:
步骤S121、构建D3QN的主网络和目标网络,并随机初始化网络参数;
步骤S122、在与环境的不断交互中更新网络参数。
2.根据权利要求1所述基于深度强化学习的固定翼无人机群集控制方法,其特征在于,所述步骤S122包括:
步骤S1221:持续采集僚机与环境进行交互的历史经验,并存储到经验池中;所述交互过程为:智能体获取长机的状态信息及自身的状态信息,组成联合状态信息z输入到D3QN中,动作选择策略根据D3QN的输出选取僚机的滚转动作ar;分别将长机的滚转动作随机产生以增加系统的随机性和僚机的滚转指令输入随机无人机动力学模型,得到长机和僚机下一时刻的状态z′和回报函数值g;
步骤S1222:从经验池中进行随机采样,批次更新D3QN的网络参数;每一时间步,应用Adam算法批次更新主网络参数;每隔一定的时间步,对目标网络参数进行软更新,即朝向主网络参数更新目标网络参数;
步骤S1223:当训练回合数达到预设条件时,结束所述更新过程,并保存D3QN的模型参数。
3.根据权利要求2所述基于深度强化学习的固定翼无人机群集控制方法,其特征在于,更新过程是以回合为单位进行的;在每一回合的更新过程中,随机初始化长机和僚机的初始状态;当每回合的时间步达到一定步数,该回合结束,重新开始下一回合的学习。
4.根据权利要求1-3中任意一项所述基于深度强化学习的固定翼无人机群集控制方法,其特征在于,所述步骤S2包括:
步骤S21、僚机通过传感器获取自身位置和姿态信息,并通过通信链路获取长机的位置和姿态信息,进而组成系统联合状态;
步骤S22、构建竞争双重Q网络,并载入训练好的网络模型;D3QN预测当前状态下所有待选动作的Q值,动作选择策略每隔1s更新僚机滚转指令,即当前状态下最小Q值所对应的动作;所述网络模型和动作选择策略运行在僚机的机载电脑上;长机滚转动作由操控员给出;
步骤S23、长机和僚机的自驾仪分别根据各自的滚转动作,由PID控制器完成底层闭环控制;
步骤S24、重复上述过程,直至完成飞行任务。
5.根据权利要求1-3中任意一项所述基于深度强化学习的固定翼无人机群集控制方法,其特征在于,所述D3QN网络由两个子网络组成:多层感知机和竞争网络;所述多层感知机包含三层全连接层,隐含节点数分别为64、256和128,激活函数均使用ReLU,其表达式为f(x)=max(0,x);所述竞争网络包含两个分支:状态值函数分支和优势函数分支;状态值函数分支和优势函数分支均包含两层全连接层;两分支第一全连接层的隐含节点数均为64,且均使用ReLU激活函数;状态值函数分支和优势函数分支第二全连接层的隐含节点数分别为1和3,分别表示当前状态的值函数和当前状态下3个待选动作的优势函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910832120.0A CN110502034B (zh) | 2019-09-04 | 2019-09-04 | 一种基于深度强化学习的固定翼无人机群集控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910832120.0A CN110502034B (zh) | 2019-09-04 | 2019-09-04 | 一种基于深度强化学习的固定翼无人机群集控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110502034A CN110502034A (zh) | 2019-11-26 |
CN110502034B true CN110502034B (zh) | 2022-08-09 |
Family
ID=68591197
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910832120.0A Active CN110502034B (zh) | 2019-09-04 | 2019-09-04 | 一种基于深度强化学习的固定翼无人机群集控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110502034B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111142383B (zh) * | 2019-12-30 | 2022-09-23 | 中国电子科技集团公司信息科学研究院 | 一种非线性系统最优控制器的在线学习方法 |
CN111880567B (zh) * | 2020-07-31 | 2022-09-16 | 中国人民解放军国防科技大学 | 基于深度强化学习的固定翼无人机编队协调控制方法及装置 |
CN111857184B (zh) * | 2020-07-31 | 2023-06-23 | 中国人民解放军国防科技大学 | 基于深度强化学习的固定翼无人机群避碰方法及装置 |
CN112162564B (zh) * | 2020-09-25 | 2021-09-28 | 南京大学 | 基于模仿学习和强化学习算法的无人机飞行控制方法 |
CN112198890B (zh) * | 2020-12-03 | 2021-04-13 | 中国科学院自动化研究所 | 基于强化学习的飞行器姿态控制方法、系统、装置 |
CN113885576A (zh) * | 2021-10-29 | 2022-01-04 | 南京航空航天大学 | 基于深度强化学习的无人机编队环境建立与控制方法 |
CN114063438B (zh) * | 2021-11-12 | 2023-09-22 | 辽宁石油化工大学 | 一种数据驱动的多智能体系统pid控制协议自学习方法 |
CN114489144B (zh) * | 2022-04-08 | 2022-07-12 | 中国科学院自动化研究所 | 无人机自主机动决策方法、装置及无人机 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107179777A (zh) * | 2017-06-03 | 2017-09-19 | 复旦大学 | 多智能体集群协同方法与多无人机集群协同系统 |
CN107703966A (zh) * | 2017-07-06 | 2018-02-16 | 北京航空航天大学 | 一种基于雁群自组织飞行的无人机自主编队控制方法 |
CN109032168A (zh) * | 2018-05-07 | 2018-12-18 | 西安电子科技大学 | 一种基于dqn的多无人机协同区域监视的航路规划方法 |
CN109785289A (zh) * | 2018-12-18 | 2019-05-21 | 中国科学院深圳先进技术研究院 | 一种输电线路缺陷检测方法、系统及电子设备 |
CN109870162A (zh) * | 2019-04-04 | 2019-06-11 | 北京航空航天大学 | 一种基于竞争深度学习网络的无人机飞行路径规划方法 |
CN109884897A (zh) * | 2019-03-21 | 2019-06-14 | 中山大学 | 一种基于深度强化学习的无人机任务匹配与计算迁移方法 |
CN109906132A (zh) * | 2016-09-15 | 2019-06-18 | 谷歌有限责任公司 | 机器人操纵的深度强化学习 |
CN109919319A (zh) * | 2018-12-31 | 2019-06-21 | 中国科学院软件研究所 | 基于多个历史最佳q网络的深度强化学习方法及设备 |
CN110007688A (zh) * | 2019-04-25 | 2019-07-12 | 西安电子科技大学 | 一种基于强化学习的无人机集群分布式编队方法 |
-
2019
- 2019-09-04 CN CN201910832120.0A patent/CN110502034B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109906132A (zh) * | 2016-09-15 | 2019-06-18 | 谷歌有限责任公司 | 机器人操纵的深度强化学习 |
CN107179777A (zh) * | 2017-06-03 | 2017-09-19 | 复旦大学 | 多智能体集群协同方法与多无人机集群协同系统 |
CN107703966A (zh) * | 2017-07-06 | 2018-02-16 | 北京航空航天大学 | 一种基于雁群自组织飞行的无人机自主编队控制方法 |
CN109032168A (zh) * | 2018-05-07 | 2018-12-18 | 西安电子科技大学 | 一种基于dqn的多无人机协同区域监视的航路规划方法 |
CN109785289A (zh) * | 2018-12-18 | 2019-05-21 | 中国科学院深圳先进技术研究院 | 一种输电线路缺陷检测方法、系统及电子设备 |
CN109919319A (zh) * | 2018-12-31 | 2019-06-21 | 中国科学院软件研究所 | 基于多个历史最佳q网络的深度强化学习方法及设备 |
CN109884897A (zh) * | 2019-03-21 | 2019-06-14 | 中山大学 | 一种基于深度强化学习的无人机任务匹配与计算迁移方法 |
CN109870162A (zh) * | 2019-04-04 | 2019-06-11 | 北京航空航天大学 | 一种基于竞争深度学习网络的无人机飞行路径规划方法 |
CN110007688A (zh) * | 2019-04-25 | 2019-07-12 | 西安电子科技大学 | 一种基于强化学习的无人机集群分布式编队方法 |
Non-Patent Citations (5)
Title |
---|
"Application of reinforcement learning in UAV cluster task scheduling";Jun Yang等;《Future Generation Computer Systems》;20190131;全文 * |
"Q learning algorithm based UAV path learning and obstacle avoidence approach";Zhao Yijing等;《2017 36th Chinese Control Conference (CCC)》;20171231;全文 * |
"基于深度强化学习的微电网储能调度策略研究";王亚东等;《可再生能源》;20190831;第39卷(第8期);全文 * |
"基于深度强化学习的无人机自主部署及能效优化策略";周毅等;《物联网学报》;2019063;第3卷(第2期);全文 * |
"无人机集群作战概念及关键技术分析";彭辉等;《航空学报》;20081231;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110502034A (zh) | 2019-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110502034B (zh) | 一种基于深度强化学习的固定翼无人机群集控制方法 | |
CN110502033B (zh) | 一种基于强化学习的固定翼无人机群集控制方法 | |
CN111880567B (zh) | 基于深度强化学习的固定翼无人机编队协调控制方法及装置 | |
CN110673620B (zh) | 一种基于深度强化学习的四旋翼无人机航线跟随控制方法 | |
Yang et al. | Maneuver decision of UAV in short-range air combat based on deep reinforcement learning | |
CN111522258B (zh) | 多无人机协同控制仿真系统及其构建方法、仿真方法 | |
CN110806759B (zh) | 一种基于深度强化学习的飞行器航线跟踪方法 | |
Yan et al. | Fixed-Wing UAVs flocking in continuous spaces: A deep reinforcement learning approach | |
CN110531786B (zh) | 基于dqn的无人机机动策略自主生成方法 | |
CN112180967B (zh) | 基于评判-执行架构的多无人机协同对抗决策方法 | |
CN112034888B (zh) | 一种固定翼无人机自主控制协作策略训练方法 | |
CN111857184B (zh) | 基于深度强化学习的固定翼无人机群避碰方法及装置 | |
Bao et al. | Design of a fixed-wing UAV controller based on adaptive backstepping sliding mode control method | |
CN108549210A (zh) | 基于bp神经网络pid控制的多无人机协同飞行方法 | |
Wang et al. | A continuous actor-critic reinforcement learning approach to flocking with fixed-wing UAVs | |
CN111077909A (zh) | 一种基于视觉信息的新型无人机自组群自洽优化控制方法 | |
CN114003059A (zh) | 运动学约束条件下基于深度强化学习的uav路径规划方法 | |
De Marco et al. | A deep reinforcement learning control approach for high-performance aircraft | |
Clarke et al. | Closed-loop Q-learning control of a small unmanned aircraft | |
Richter et al. | Using double deep q-learning to learn attitude control of fixed-wing aircraft | |
CN117311388A (zh) | 一种无人直升机集群的编队巡逻飞行方法及装置 | |
Kimathi | Application of reinforcement learning in heading control of a fixed wing uav using x-plane platform | |
Li et al. | Autopilot controller of fixed-wing planes based on curriculum reinforcement learning scheduled by adaptive learning curve | |
Zhu et al. | A model-free flat spin recovery scheme for miniature fixed-wing unmanned aerial vehicle | |
Jiang et al. | Safely Learn to Fly Aircraft From Human: An Offline-Online Reinforcement Learning Strategy and Its Application to Aircraft Stall Recovery |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |