CN114428517A - 一种无人机无人艇协同平台端对端自主降落控制方法 - Google Patents

一种无人机无人艇协同平台端对端自主降落控制方法 Download PDF

Info

Publication number
CN114428517A
CN114428517A CN202210094898.8A CN202210094898A CN114428517A CN 114428517 A CN114428517 A CN 114428517A CN 202210094898 A CN202210094898 A CN 202210094898A CN 114428517 A CN114428517 A CN 114428517A
Authority
CN
China
Prior art keywords
aerial vehicle
unmanned aerial
unmanned
landing
moment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210094898.8A
Other languages
English (en)
Other versions
CN114428517B (zh
Inventor
张卫东
董博韬
谢威
韩鹏
董超
曾青
张永辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hainan University
Original Assignee
Hainan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hainan University filed Critical Hainan University
Priority to CN202210094898.8A priority Critical patent/CN114428517B/zh
Publication of CN114428517A publication Critical patent/CN114428517A/zh
Application granted granted Critical
Publication of CN114428517B publication Critical patent/CN114428517B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • G05D1/104Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明涉及一种无人机无人艇协同平台端对端自主降落控制方法,该方法包括以下步骤:步骤1:根据无人机和无人艇各自的动力学模型构建无人机无人艇平台自主降落仿真环境;步骤2:将无人机向无人艇的渐进移动阶段建立为MDP模型,并设定奖励函数;步骤3:将无人机向无人艇的跟踪降落阶段建立为POMDP模型,并设定奖励函数;步骤4:基于Actor‑Critic框架对无人机分别搭建两个阶段各自的行动网络和评价网络;步骤5:基于PPO算法分别对两个阶段的行动网络和评价网络的参数进行优化训练;步骤6:将两阶段各自的最佳行动网络参数进行部署并应用于无人机降落任务,与现有技术相比,本发明具有提升策略的鲁棒性以及保证其能够应用于无人船体晃动较大的场景等优点。

Description

一种无人机无人艇协同平台端对端自主降落控制方法
技术领域
本发明涉及无人机无人艇协同控制领域,尤其是涉及一种无人机无人艇协同平台端对端自主降落控制方法。
背景技术
近年来,由于对海洋资源的开发利用,无人船领域受到了越来越多的重视。但是无人船的感知能力有限,难以应用于环境复杂的作业任务,而船载无人机得益于飞行优势,能够提升无人船的感知能力,从而扩展无人船的应用领域。
船载无人机执行任务结束后的回收降落过程是机艇协同领域的一个热点和难点问题,由于在降落过程中无人船存在不可避免的晃动,因此需要高精度的引导算法指引无人机向无人艇上降落,之前的研究者大多使用图像处理的方法从机载摄像头拍摄的图像中解算出无人机和无人艇的相对位置以及姿态角度等信息,然后基于相应的控制算法控制无人机的降落过程,在这种方法中,对图像数据进行实时计算处理需要消耗大量的计算资源,无法稳定地应用于船体晃动较大的场景,并且可能出现图片缺失和图片畸变等问题,图片缺失和图片畸变等问题从可能导致控制器无法从图片数据中解算出正确的相对位置和姿态角度等信息,从而出现无人机降落失败的情况。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种无人机无人艇协同平台端对端自主降落控制方法。
本发明的目的可以通过以下技术方案来实现:
一种无人机无人艇协同平台端对端自主降落控制方法,该方法包括以下步骤:
步骤1:根据无人机和无人艇各自的动力学模型构建无人机无人艇平台自主降落仿真环境;
步骤2:将无人机向无人艇的渐进移动阶段建立为马尔可夫决策过程模型,并设定渐进移动阶段的总奖励函数;
步骤3:将无人机向无人艇的跟踪降落阶段建立为部分可观测马尔可夫决策过程模型,并设定跟踪降落阶段的奖励函数;
步骤4:基于Actor-Critic框架对无人机分别搭建渐进移动阶段和跟踪降落阶段的行动网络和评价网络;
步骤5:基于PPO算法分别对渐进移动阶段的行动网络和评价网络和跟踪降落阶段的行动网络和评价网络的参数进行优化训练,得到两阶段各自的行动网络和评价网络的最佳参数;
步骤6:将得到的两阶段各自的行动网络的最佳参数进行实施部署并应用于实际场景中的无人机降落任务。
所述的步骤2中,无人机向无人艇的渐进移动阶段的状态向量st为无人机向无人艇渐进移动阶段中所需要的各项信息构成的向量,所述的各项信息包括无人机在时刻为t时的位置坐标、无人机在时刻为t时的速度大小、无人机在时刻为t时的飞行姿态角和无人船在时刻为t时的位置坐标。
所述的步骤2中,马尔可夫决策过程模型表示在每个马尔可夫时间步,系统处在状态
Figure BDA0003490652220000021
执行动作
Figure BDA0003490652220000022
以P(st+1|st,at)概率转换到状态
Figure BDA0003490652220000023
并且得到一个奖励值
Figure BDA0003490652220000024
无人机向无人艇的渐进移动过程的马尔可夫决策过程模型为:
Figure BDA0003490652220000025
其中,
Figure BDA0003490652220000026
为状态空间,
Figure BDA0003490652220000027
为动作空间,η表示初始概率分布,η(s0)∈[0,1]表示系统初始状态的概率分布,
Figure BDA0003490652220000028
为时刻为t时的状态向量,
Figure BDA0003490652220000029
为时刻为t时无人机的动作向量,P(st+1|st,at)∈[0,1]表示在系统状态st采取动作at后,系统状态转移到st+1的概率,
Figure BDA00034906522200000210
为奖励函数,
Figure BDA00034906522200000211
由当前时刻的状态向量和无人机的动作向量决定,表示时刻为t系统状态为st且无人机采取动作at时,无人机所能够获得的奖励值,γ为衰减率,表征智能体对当前奖励和未奖励重视情况;
根据无人机向无人船上的渐进移动过程对当前的状态向量st进行建模,渐进移动阶段的状态向量st包括时刻为t时无人船的状态
Figure BDA00034906522200000212
和时刻为t时无人机的状态
Figure BDA00034906522200000213
Figure BDA00034906522200000214
Figure BDA0003490652220000031
Figure BDA0003490652220000032
其中,
Figure BDA0003490652220000033
为时刻为t时无人船的状态向量,
Figure BDA0003490652220000034
为时刻为t时无人机的状态向量,
Figure BDA0003490652220000035
为时刻为t时无人船在地球坐标系中的三维坐标位置,
Figure BDA0003490652220000036
为时刻为t时无人机在地球坐标系中的三维坐标位置,
Figure BDA0003490652220000037
为时刻为t时无人机在地球坐标系中的三维速度,
Figure BDA0003490652220000038
为时刻为t时无人机的飞行姿态角,
Figure BDA0003490652220000039
表示时刻为t时无人机的横滚角,
Figure BDA00034906522200000310
表示时刻为t时无人机的俯仰角,
Figure BDA00034906522200000311
表示时刻为t时无人机的偏航角;
根据无人机的动力学模型对渐进移动阶段的动作向量at进行建模:
Figure BDA00034906522200000312
其中,
Figure BDA00034906522200000313
表示时刻为t时无人机1号电机的转速,
Figure BDA00034906522200000314
表示时刻为t时无人机2号电机的转速,
Figure BDA00034906522200000315
表示时刻为t时无人机3号电机的转速,
Figure BDA00034906522200000316
表示时刻为t时无人机4号电机的转速。
所述的步骤2中,无人机向无人艇的渐进移动阶段的总奖励函数由目标点奖励、飞行姿态奖励和高度控制奖励三部分通过线性加权得到,渐进移动阶段无人机的总奖励函数的计算公式为:
rt=rt height+rt target+rt attitude
其中,rt为渐进移动阶段无人机的总奖励函数;
目标点奖励的计算公式为:
Figure BDA00034906522200000317
其中,rt target为目标点奖励,α1为设定的超参数,用以调整目标点奖励在总奖励函数中的权重,当无人船和无人机的距离较远时,赋予无人机大的惩罚值以驱动无人机向无人船方向渐进移动,
Figure BDA00034906522200000318
为无人机与无人船的实时距离,
Figure BDA00034906522200000319
为时刻为t时无人船在地球坐标系中的二维坐标位置,
Figure BDA00034906522200000320
为时刻为t时无人机在地球坐标系中的二维坐标位置;
飞行姿态奖励的计算公式为:
Figure BDA00034906522200000321
其中,rt attitude为飞行姿态奖励,飞行姿态奖励用以驱动无人机克服随机风阻干扰进行平稳的飞行过程,α2为设定的超参数,用以调整飞行姿态奖励在总奖励函数中的权重,
Figure BDA0003490652220000041
为时刻为t时无人机的飞行姿态角;
高度控制奖励的计算公式为:
Figure BDA0003490652220000042
其中,rt height为高度控制奖励,α3为设定的超参数,用以调整高度控制奖励在总奖励函数中的权重,zdesired为设定的无人机期望高度,当无人机的真实高度在期望高度附近时,赋予无人机大的高度奖励,当无人机的真实高度显著高于或者显著低于期望高度时,赋予无人机大的惩罚值以驱动无人机将高度控制在期望高度附近,
Figure BDA0003490652220000043
为时刻为t时无人机在地球坐标系中的高度坐标。
所述的步骤3中,无人机向无人艇的跟踪降落阶段的状态向量st为无人机向无人艇降落过程中所需要的各项信息构成的向量,所述的各项信息包括无人机在时刻为t时的位置坐标、无人机在时刻为t时的速度大小、无人机在时刻为t时的飞行姿态角、无人船在时刻为t时的位置坐标、无人船在时刻为t时的速度大小、无人船在时刻为t时的航行姿态角以及用以表示是否已成功降落的布尔值C。
所述的步骤3中,部分可观测马尔可夫决策过程模型表示在每个马尔可夫时间步,系统处在状态
Figure BDA0003490652220000044
执行动作
Figure BDA0003490652220000045
以P(st+1|st,at)概率转换到状态
Figure BDA0003490652220000046
同时,系统以O(ot+1|st+1,at)概率得到一个观测向量ot+1∈Ω,并且得到一个奖励值
Figure BDA0003490652220000047
无人机向无人艇的跟踪降落阶段的部分可观测马尔可夫决策过程模型为:
Figure BDA0003490652220000048
其中,
Figure BDA0003490652220000049
为状态空间,
Figure BDA00034906522200000410
为动作空间,η表示初始概率分布,η(s0)∈[0,1]表示系统初始状态的概率分布,
Figure BDA00034906522200000411
为时刻为t时无人机的状态向量,
Figure BDA00034906522200000412
为时刻为t时无人机的动作向量,P(st+1|st,at)∈[0,1]表示在系统状态st采取动作at后,系统状态转移到st+1的概率,
Figure BDA00034906522200000413
为奖励函数,
Figure BDA00034906522200000414
由当前时刻的状态向量和无人机的动作向量决定,表示时刻为t系统状态为st且无人机采取动作at时,无人机所能够获得的奖励值,Ω为无人机的观测结果集,O(ot|st,at-1)∈[0,1]为条件观测概率,γ为衰减率,表示智能体对当前奖励和未奖励重视情况;
根据无人机向无人船上的降落过程对当前的状态向量st进行建模,跟踪降落阶段的当前状态st包括时刻为t时无人船的状态
Figure BDA00034906522200000415
时刻为t时无人机的状态
Figure BDA00034906522200000416
和用来表征是否降落成功的状态量Ct
Figure BDA0003490652220000051
Figure BDA0003490652220000052
Figure BDA0003490652220000053
其中,
Figure BDA0003490652220000054
表示时刻为t时无人船的状态向量,
Figure BDA0003490652220000055
表示时刻为t时无人船在地球坐标系中的三维坐标位置,
Figure BDA0003490652220000056
表示时刻为t时无人船在地球坐标系中的三维速度,
Figure BDA0003490652220000057
表示时刻为t时无人船的航行姿态角,其中
Figure BDA0003490652220000058
表示时刻为t时无人船的纵摇角,
Figure BDA0003490652220000059
表示时刻为t时无人船的横摇角,
Figure BDA00034906522200000510
表示时刻为t时无人船的艏摇角,
Figure BDA00034906522200000511
表示时刻为t时无人机的状态向量,
Figure BDA00034906522200000512
表示时刻为t时无人机在地球坐标系中的三维坐标位置,
Figure BDA00034906522200000513
表示时刻为t时无人机在地球坐标系中的三维速度,
Figure BDA00034906522200000514
表示时刻为t时无人机的飞行姿态角,其中
Figure BDA00034906522200000515
表示时刻为t时无人机的横滚角,
Figure BDA00034906522200000516
表示时刻为t时无人机的俯仰角,
Figure BDA00034906522200000517
表示时刻为t时无人机的偏航角,Ct表示无人机是否成功降落到无人船平台上,Ct=1表示时刻为t时无人机已经成功降落在无人船上,Ct=0表示时刻为t时无人机尚未降落在无人船上,Ct由无人船降落平台上的压力传感器测量得到;
在无人机跟踪降落阶段采用基于图像数据的端对端无人机跟踪降落控制方法,根据无人机向无人船上的降落过程对观测向量ot进行建模:
将由无人机携带的俯视摄像头拍摄获得的图像数据作为时刻t时的观测向量ot,时刻为t时的观测向量ot为128×128×1的灰度图像,跟踪降落阶段的状态向量st无法确切得到,且在跟踪降落阶段的行动网络的输入为观测向量ot
根据无人机的动力学模型对跟踪降落阶段的动作向量at进行建模:
Figure BDA00034906522200000518
其中,
Figure BDA00034906522200000519
为时刻为t时无人机1号电机的转速,
Figure BDA00034906522200000520
表示时刻为t时无人机2号电机的转速,
Figure BDA00034906522200000521
表示时刻为t时无人机3号电机的转速,
Figure BDA00034906522200000522
表示时刻为t时无人机4号电机的转速。
所述的步骤3中,无人机向无人艇的跟踪降落阶段的总奖励函数由越界奖励、跟踪奖励、着陆奖励、飞行姿态奖励和速度控制奖励通过线性加权得到,跟踪降落阶段的总奖励函数计算公式为:
rt=rt over+rt target+rt attitude+rt land+rt speed
其中,rt为跟踪降落阶段无人机的总奖励函数;
越界奖励的计算公式为:
Figure BDA0003490652220000061
其中,
Figure BDA0003490652220000062
为时刻为t时无人机在地球坐标系中的三维坐标位置,
Figure BDA0003490652220000063
表示时刻为t时无人船在地球坐标系中的三维坐标位置,xmax、ymax和zmax为事先设定的坐标边界,rt over为越界奖励,表示当无人机的坐标位置超出设定的边界时,赋予无人机大的惩罚值;
跟踪奖励的计算公式为:
Figure BDA0003490652220000064
其中,rt target为跟踪奖励,用以使无人机始终跟踪无人船的水平坐标,即使无人机保持在无人船降落平台的正上方,β1为设定的超参数,用以调整跟踪奖励在总奖励函数中的权重;
飞行姿态奖励的计算公式为:
Figure BDA0003490652220000065
其中,rt attitude为飞行姿态奖励,用以驱动无人机在随机风阻干扰的条件下保持自身良好的飞行姿态从而进行平稳的降落过程,β2为设定的超参数,用以调整飞行姿态奖励在总奖励函数中的权重;
着陆奖励的计算公式为:
Figure BDA0003490652220000066
其中,rt land为着陆奖励,用以使无人机安全顺利地降落至无人船平台上,β3为设定的超参数,用以调整着陆奖励在总奖励函数中的权重,b为无人机降落平台的半径,ε为设定的高度阈值,当无人机和无人船二者的高度差小于ε时,无人机准备向无人船上降落;
速度控制奖励的计算公式为:
Figure BDA0003490652220000067
其中,rt speed为速度控制奖励,用以当无人机准备着陆时控制无人机的着陆速度,避免由于着陆速度过大导致的设备损坏,β4为设定的超参数,用以调整速度控制奖励在总奖励函数中的权重,ε为设定的高度阈值。
所述的步骤4中,对渐进移动阶段的无人机搭建行动网络
Figure BDA0003490652220000071
由三层全连接层构成,行动网络
Figure BDA0003490652220000072
的输入为当前时刻无人机的状态向量st,输出为无人机在当前时刻所要输出的动作向量
Figure BDA0003490652220000073
对渐进移动阶段的无人机搭建评价网路
Figure BDA0003490652220000074
由两层全连接层构成,评价网络
Figure BDA0003490652220000075
的输入为当前时刻无人机的状态向量st,输出为评价网络
Figure BDA0003490652220000076
对无人机的当前状态价值函数的估计值;
对跟踪降落阶段的无人机搭建行动网络
Figure BDA0003490652220000077
跟踪降落阶段的行动网络结构包括两层卷积层、一层LSTM层和一层全连接层,跟踪降落阶段的行动网络
Figure BDA0003490652220000078
的输入为当前时刻无人机的观测向量ot,输出为无人机在当前时刻所要输出的动作向量
Figure BDA0003490652220000079
对跟踪降落阶段的无人机搭建评价网络
Figure BDA00034906522200000710
跟踪降落阶段的评价结构包括两层卷积层、一层LSTM层和一层全连接层,跟踪降落阶段的评价网络
Figure BDA00034906522200000711
的输入为当前时刻无人机的观测向量ot,输出为评价网络对无人机的当前状态价值函数的估计值。
所述的步骤5中,基于PPO算法分别对渐进移动阶段的行动网络和评价网络和跟踪降落阶段的行动网络和评价网络的参数进行优化训练的过程具体包括以下步骤:
步骤501:将渐进移动阶段的行动网络
Figure BDA00034906522200000712
和评价网路
Figure BDA00034906522200000713
的参数初始化,并设定批量大小Bmove和参数迭代更新次数Nmove
步骤502:根据系统初始状态的概率分布η(s0)选取初始状态s0,从初始状态s0出发,无人机根据当前渐进移动阶段的行动网络
Figure BDA00034906522200000714
的参数产生动作向量并与环境进行交互,直到当前策略与环境交互得到Bmove条策略轨迹,并将Bmove条策略轨迹存入经验存储模块
Figure BDA00034906522200000715
中;
步骤503:建立广义优势估计器,根据广义优势估计器计算各个时刻优势函数的估计值
Figure BDA00034906522200000716
Figure BDA00034906522200000717
其中,
Figure BDA00034906522200000718
为t时刻时优势函数的估计值,γ为衰减率,
Figure BDA00034906522200000719
为渐进移动阶段的评价网路,st为渐进移动阶段的状态向量,i为迭代指数,T为迭代长度;
步骤504:采用梯度法对渐进移动阶段的行动网络参数进行优化更新:
Figure BDA0003490652220000081
Figure BDA0003490652220000082
Figure BDA0003490652220000083
其中,θk+1为k+1时刻时渐进移动阶段的行动网络参数,
Figure BDA0003490652220000084
为设定的渐进移动阶段的行动网络学习率,是一个超参数,
Figure BDA0003490652220000085
为求导算子,
Figure BDA0003490652220000086
为从经验存储模块
Figure BDA0003490652220000087
中提取数据并计算期望估计值的符号,rt(θ)为渐进移动阶段的重要性采样率,
Figure BDA0003490652220000088
为当前渐进移动阶段的行动网络,
Figure BDA0003490652220000089
为渐进移动过程中的控制策略函数,clip为剪裁函数,ε为设定的高度阈值,x为剪裁函数的第一参数;
步骤505:为了使渐进移动阶段的评价网络能够给出较为准确的值函数估计值,将其评价网络的目标函数设为状态价值函数的采样值和评价网络得到的状态价值函数估计值之间欧氏距离平方的期望值,依据该目标函数对评价网络参数进行梯度下降优化更新:
Figure BDA00034906522200000810
其中,φk+1为k+1时刻时渐进移动阶段的评价网络参数,
Figure BDA00034906522200000811
为事先设定的渐进移动阶段的评价网络学习率,是一个超参数,
Figure BDA00034906522200000812
为状态价值函数的采样值;
步骤506:当参数总迭代更新次数小于Nmove时,重复步骤502~步骤506,当参数总迭代更新次数大于等于Nmove时则,记录渐进移动阶段的行动网络
Figure BDA00034906522200000813
和评价网路
Figure BDA00034906522200000814
的参数,并结束渐进移动阶段的参数迭代更新过程;
步骤507:将跟踪降落阶段的行动网络
Figure BDA00034906522200000815
和评价网路
Figure BDA00034906522200000816
的参数进行初始化,并设定批量大小Bland和参数迭代更新次数Nland
步骤508:根据系统初始状态的概率分布η(s0)选取初始状态s0,从初始状态s0出发,无人机根据当前跟踪降落阶段的行动网络
Figure BDA00034906522200000817
的参数产生动作向量并与环境进行交互,直到当前策略与环境交互得到Bland条策略轨迹,并将这Bland条策略轨迹存入经验存储模块
Figure BDA00034906522200000818
中;
步骤509:建立广义优势估计器,并根据广义优势估计器计算各个时刻优势函数的估计值
Figure BDA0003490652220000091
Figure BDA0003490652220000092
其中,
Figure BDA0003490652220000093
为t时刻时优势函数的估计值,γ为衰减率,
Figure BDA0003490652220000094
为跟踪降落阶段的评价网路,st为跟踪降落阶段的状态向量,i为迭代指数,T为迭代长度;
步骤510:采用梯度法对跟踪降落阶段的行动网络参数进行优化更新:
Figure BDA0003490652220000095
Figure BDA0003490652220000096
Figure BDA0003490652220000097
其中,ωk+1为k+1时刻跟踪降落阶段的行动网络参数,
Figure BDA0003490652220000098
为设定的跟踪降落阶段的行动网络学习率,是一个超参数,
Figure BDA0003490652220000099
为求导算子,
Figure BDA00034906522200000910
为从经验存储模块
Figure BDA00034906522200000911
中提取数据并计算期望估计值的符号,rt(ω)为跟踪降落阶段的重要性采样率,
Figure BDA00034906522200000912
为当前跟踪降落阶段的行动网络,
Figure BDA00034906522200000913
为降落过程中的控制策略函数,clip为剪裁函数,ε为设定的高度阈值,x为剪裁函数的第一参数;
步骤511:为了使跟踪降落阶段的评价网络得到准确的值函数估计值,将跟踪降落阶段的评价网络的目标函数设为状态价值函数的采样值和评价网络得到的状态价值函数估计值之间欧氏距离平方的期望值,依据该目标函数对跟踪降落阶段的评价网络参数进行梯度下降优化更新:
Figure BDA00034906522200000914
其中,
Figure BDA00034906522200000915
为k+1时刻时跟踪降落阶段的评价网络参数,
Figure BDA00034906522200000916
为设定的跟踪降落阶段的评价网络学习率,是一个超参数,
Figure BDA00034906522200000917
为状态价值函数的采样值;
步骤512:当参数总迭代更新次数小于Nland时,重复步骤508~步骤512,当参数总迭代更新次数大于等于Nland时,记录渐进跟踪降落行动网络
Figure BDA00034906522200000918
和评价网路
Figure BDA00034906522200000919
的网络参数,并结束渐进移动阶段的参数迭代更新过程。
所述的步骤6中,将得到的两阶段各自的行动网络的最佳参数进行实施部署并应用于实际场景中的无人机降落任务的过程具体为:
当无人机与无人艇的水平距离大于等于设定的阈值时,无人机采用渐进移动阶段的控制器作为实际控制器驱动无人机向无人艇靠近;当无人机与无人艇的水平距离小于设定的阈值时,无人机采用跟踪降落阶段的控制器作为实际控制器驱动无人机向无人艇降落:
Figure BDA0003490652220000101
其中,
Figure BDA0003490652220000102
表示时刻为t时无人机实际部署的策略,F为设定控制器切换的距离阈值,
Figure BDA0003490652220000103
为时刻为t时无人船在地球坐标系中的二维坐标位置,
Figure BDA0003490652220000104
为时刻为t时无人机在地球坐标系中的二维坐标位置。
与现有技术相比,本发明具有以下优点:
一、本发明提出的基于深度强化学习的无人机无人艇协同平台端对端自主降落控制方法,在策略部署过程中仅需策略网络的前向传播过程,即可得到无人机输出的动作,无需大量的计算资源;
二、本发明通过采用基于深度强化学习的端对端降落控制算法,该算法依赖大量样本进行学习,提升了策略的鲁棒性,保证了本发明能够应用于无人船体晃动较大的场景;
三、本发明由于在策略网络和行动网络中加入了LSTM层,使得网络能够保存历史输入信息,从而对无人机的状态向量产生预测,能够在存在图片缺失和图片畸变的情况下保证较高的无人机降落成功率。
附图说明
图1为本发明的流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例
一种无人机无人艇协同平台端对端自主降落控制方法,本方法分为两阶段:第一阶段为无人机向无人艇的渐进移动阶段,第二阶段为无人机跟踪降落阶段,在渐进移动阶段,无人机向无人艇方向移动,并最终保持在无人艇上方一定高度处,当无人机与无人艇的水平距离小于设定的阈值时,将无人机控制器切换成跟踪降落阶段的控制器,无人机开始对无人船进行跟踪降落,在跟踪降落阶段,无人机在水平坐标系中跟踪无人艇的移动轨迹,并且逐步降低自身高度,最终降落至无人艇平台上,该方法包括以下步骤:
步骤1:根据无人机和无人艇各自的动力学模型,构建无人机无人艇平台自主降落仿真环境;
步骤2:将无人机向无人艇的渐进移动阶段建立为MDP(马尔可夫决策过程MarkovDecision Process)模型,并设计渐进移动阶段合适的奖励函数;
步骤3:将无人机向无人艇的跟踪降落阶段建立为POMDP(部分可观测马尔可夫决策过程Partially Observable Markov Decision Process)模型,并设定跟踪降落阶段合理的奖励函数;
步骤4:基于Actor-Critic框架对无人机分别搭建渐进移动过程和跟踪降落过程各自的行动(Actor)网络和评价(Critic)网络;
步骤5:基于PPO算法分别对渐进移动阶段的行动网络和评价网络和跟踪降落阶段的行动网络和评价网络的参数进行优化训练,得出两阶段各自行动网络和评价网络的最佳参数;
步骤6:将经过PPO算法多次迭代优化得到的两阶段各自的最佳行动网络参数进行实施部署,应用于实际场景中的无人机降落任务。
在步骤2中,无人机向无人艇的渐进移动阶段的状态向量st为无人机向无人艇渐进移动阶段中所需要的各项信息构成的向量,所述的各项信息包括无人机在时刻为t时的位置坐标、无人机在时刻为t时的速度大小、无人机在时刻为t时的飞行姿态角和无人船在时刻为t时的位置坐标。
在步骤2中,马尔可夫决策过程模型表示在每个马尔可夫时间步,系统处在状态
Figure BDA0003490652220000111
执行动作
Figure BDA0003490652220000112
以P(st+1|st,at)概率转换到状态
Figure BDA0003490652220000113
并且得到一个奖励值
Figure BDA0003490652220000114
无人机向无人艇的渐进移动过程的马尔可夫决策过程模型为:
Figure BDA0003490652220000115
其中,
Figure BDA0003490652220000116
为状态空间,
Figure BDA0003490652220000117
为动作空间,η表示初始概率分布,η(s0)∈[0,1]表示系统初始状态的概率分布,
Figure BDA0003490652220000118
为时刻为t时的状态向量,
Figure BDA0003490652220000119
为时刻为t时无人机的动作向量,P(st+1|st,at)∈[0,1]表示在系统状态st采取动作at后,系统状态转移到st+1的概率,
Figure BDA00034906522200001110
为奖励函数,
Figure BDA00034906522200001111
由当前时刻的状态向量和无人机的动作向量决定,表示时刻为t系统状态为st且无人机采取动作at时,无人机所能够获得的奖励值,γ为衰减率,表征智能体对当前奖励和未奖励重视情况;
根据无人机向无人船上的渐进移动阶段对当前的状态向量st进行建模,渐进移动阶段的状态向量st包括时刻为t时无人船的状态
Figure BDA0003490652220000121
和时刻为t时无人机的状态
Figure BDA0003490652220000122
Figure BDA0003490652220000123
Figure BDA0003490652220000124
Figure BDA0003490652220000125
其中,
Figure BDA0003490652220000126
为时刻为t时无人船的状态向量,
Figure BDA0003490652220000127
为时刻为t时无人机的状态向量,
Figure BDA0003490652220000128
为时刻为t时无人船在地球坐标系中的三维坐标位置,
Figure BDA0003490652220000129
为时刻为t时无人机在地球坐标系中的三维坐标位置,
Figure BDA00034906522200001210
为时刻为t时无人机在地球坐标系中的三维速度,
Figure BDA00034906522200001211
为时刻为t时无人机的飞行姿态角,
Figure BDA00034906522200001212
表示时刻为t时无人机的横滚角,
Figure BDA00034906522200001213
表示时刻为t时无人机的俯仰角,
Figure BDA00034906522200001214
表示时刻为t时无人机的偏航角;
根据无人机的动力学模型对渐进移动阶段的动作向量at进行建模:
Figure BDA00034906522200001215
其中,
Figure BDA00034906522200001216
表示时刻为t时无人机1号电机的转速,
Figure BDA00034906522200001217
表示时刻为t时无人机2号电机的转速,
Figure BDA00034906522200001218
表示时刻为t时无人机3号电机的转速,
Figure BDA00034906522200001219
表示时刻为t时无人机4号电机的转速。
在步骤2中,无人机向无人艇的渐进移动阶段的总奖励函数由目标点奖励、飞行姿态奖励和高度控制奖励三部分通过线性加权得到:
目标点奖励的计算公式为:
Figure BDA00034906522200001220
其中,rt target为目标点奖励,α1为设定的超参数,用以调整目标点奖励在总奖励函数中的权重,当无人船和无人机的距离较远时,赋予无人机大的惩罚值以驱动无人机向无人船方向渐进移动,
Figure BDA00034906522200001221
为无人机与无人船的实时距离,
Figure BDA00034906522200001222
为时刻为t时无人船在地球坐标系中的二维坐标位置,
Figure BDA00034906522200001223
为时刻为t时无人机在地球坐标系中的二维坐标位置;
飞行姿态奖励的计算公式为:
Figure BDA00034906522200001224
其中,rt attitude为飞行姿态奖励,飞行姿态奖励用以驱动无人机克服随机风阻干扰进行平稳的飞行过程,α2为设定的超参数,用以调整飞行姿态奖励在总奖励函数中的权重;
高度控制奖励为:
Figure BDA0003490652220000131
其中,rt height为高度控制奖励,α3为设定的超参数,用以调整高度控制奖励在总奖励函数中的权重,zdesired为设定的无人机期望高度,当无人机的真实高度在期望高度附近时,赋予无人机大的高度奖励,当无人机的真实高度显著高于或者显著低于期望高度时,赋予无人机大的惩罚值以驱动无人机将高度控制在期望高度附近,
Figure BDA0003490652220000132
为时刻为t时无人机在地球坐标系中的高度坐标;
渐进移动阶段无人机的总奖励函数的计算公式为:
rt=rt height+rt target+rt attitude
其中,rt为渐进移动阶段无人机的总奖励函数。
在步骤3中,无人机向无人艇的跟踪降落阶段的状态向量st为无人机向无人艇降落过程中所需要的各项信息构成的向量,所需的各项信息包括无人机在时刻为t时的位置坐标、无人机在时刻为t时的速度大小、无人机在时刻为t时的飞行姿态角、无人船在时刻为t时的位置坐标、无人船在时刻为t时的速度大小、无人船在时刻为t时的航行姿态角以及用以表示是否已成功降落的布尔值C;
部分可观测马尔可夫决策过程模型表示在每个马尔可夫时间步,系统处在状态
Figure BDA0003490652220000133
执行动作
Figure BDA0003490652220000134
以P(st+1|st,at)概率转换到状态
Figure BDA0003490652220000135
同时,系统以O(ot+1|st+1,at)概率得到一个观测向量ot+1∈Ω,并且得到一个奖励值
Figure BDA0003490652220000136
无人机向无人艇的跟踪降落阶段的部分可观测马尔可夫决策过程模型为:
Figure BDA0003490652220000137
其中,
Figure BDA0003490652220000138
为状态空间,
Figure BDA0003490652220000139
为动作空间,η表示初始概率分布,η(s0)∈[0,1]表示系统初始状态的概率分布,
Figure BDA00034906522200001310
为时刻为t时无人机的状态向量,
Figure BDA00034906522200001311
为时刻为t时无人机的动作向量,P(st+1|st,at)∈[0,1]表示在系统状态st采取动作at后,系统状态转移到st+1的概率,
Figure BDA00034906522200001312
为奖励函数,
Figure BDA00034906522200001313
由当前时刻的状态向量和无人机的动作向量决定,表示时刻为t系统状态为st且无人机采取动作at时,无人机所能够获得的奖励值,Ω为无人机的观测结果集,O(ot|st,at-1)∈[0,1]为条件观测概率,γ为衰减率,表示智能体对当前奖励和未奖励重视情况;
根据无人机向无人船上的降落过程对当前的状态向量st进行建模,跟踪降落阶段的当前状态st包括时刻为t时无人船的状态
Figure BDA0003490652220000141
时刻为t时无人机的状态
Figure BDA0003490652220000142
和用来表征是否降落成功的状态量Ct
Figure BDA0003490652220000143
Figure BDA0003490652220000144
Figure BDA0003490652220000145
其中,
Figure BDA0003490652220000146
表示时刻为t时无人船的状态向量,
Figure BDA0003490652220000147
表示时刻为t时无人船在地球坐标系中的三维坐标位置,
Figure BDA0003490652220000148
表示时刻为t时无人船在地球坐标系中的三维速度,
Figure BDA0003490652220000149
表示时刻为t时无人船的航行姿态角,其中
Figure BDA00034906522200001410
表示时刻为t时无人船的纵摇角,
Figure BDA00034906522200001411
表示时刻为t时无人船的横摇角,
Figure BDA00034906522200001412
表示时刻为t时无人船的艏摇角,
Figure BDA00034906522200001413
表示时刻为t时无人机的状态向量,
Figure BDA00034906522200001414
表示时刻为t时无人机在地球坐标系中的三维坐标位置,
Figure BDA00034906522200001415
表示时刻为t时无人机在地球坐标系中的三维速度,
Figure BDA00034906522200001416
表示时刻为t时无人机的飞行姿态角,其中
Figure BDA00034906522200001417
表示时刻为t时无人机的横滚角,
Figure BDA00034906522200001418
表示时刻为t时无人机的俯仰角,
Figure BDA00034906522200001419
表示时刻为t时无人机的偏航角,Ct表示无人机是否成功降落到无人船平台上,Ct=1表示时刻为t时无人机已经成功降落在无人船上,Ct=0表示时刻为t时无人机尚未降落在无人船上,Ct由无人船降落平台上的压力传感器测量得到;
在无人机跟踪降落阶段,由于民用GPS的定位精度低等问题,上述无人机和无人艇的三维坐标位置、三维速度和姿态角度等信息存在较为严重的噪声干扰,无法继续使用GPS来引导无人机来进行高精度的跟踪降落任务,因此,在跟踪降落阶段采用基于图像数据的端对端无人机跟踪降落控制方法,根据无人机向无人船上的降落过程对观测向量ot进行建模:
将由无人机携带的俯视摄像头拍摄获得的图像数据作为时刻t时的观测向量ot,时刻为t时的观测向量ot为128×128×1的灰度图像。由于跟踪降落阶段不使用GPS进行导航,因此状态向量st是无法确切得到的,在跟踪降落阶段,行动网络的输入为观测向量ot
根据无人机的动力学模型对跟踪降落阶段的动作向量at进行建模:
Figure BDA00034906522200001420
其中,
Figure BDA00034906522200001421
为时刻为t时无人机1号电机的转速,
Figure BDA00034906522200001422
表示时刻为t时无人机2号电机的转速,
Figure BDA0003490652220000151
表示时刻为t时无人机3号电机的转速,
Figure BDA0003490652220000152
表示时刻为t时无人机4号电机的转速。
在步骤3中,无人机向无人艇的渐进移动阶段的总奖励函数由越界奖励、跟踪奖励、着陆奖励、飞行姿态奖励和速度控制奖励通过线性加权得到,
越界奖励的计算公式为:
Figure BDA0003490652220000153
其中,
Figure BDA0003490652220000154
为时刻为t时无人机在地球坐标系中的三维坐标位置,
Figure BDA0003490652220000155
表示时刻为t时无人船在地球坐标系中的三维坐标位置,xmax、ymax和zmax为事先设定的坐标边界,rt over为越界奖励,表示当无人机的坐标位置超出设定的边界时,赋予无人机大的惩罚值;
跟踪奖励的计算公式为:
Figure BDA0003490652220000156
其中,rt target为跟踪奖励,用以使无人机始终跟踪无人船的水平坐标,即使无人机保持在无人船降落平台的正上方,β1为事先设定的超参数,用以调整跟踪奖励在总奖励函数中的权重;
飞行姿态奖励的计算公式为:
Figure BDA0003490652220000157
其中,rt attitude为飞行姿态奖励,用以驱动无人机在随机风阻干扰的条件下保持自身良好的飞行姿态从而进行平稳的降落过程,β2为设定的超参数,用以调整飞行姿态奖励在总奖励函数中的权重;
着陆奖励的计算公式为:
Figure BDA0003490652220000158
其中,rt land为着陆奖励,用以使无人机安全顺利地降落至无人船平台上,β3为设定的超参数,用以调整着陆奖励在总奖励函数中的权重,b为无人机降落平台的半径,ε为设定的高度阈值,当无人机和无人船二者的高度差小于ε时,无人机准备向无人船上降落;
速度控制奖励的计算公式为:
Figure BDA0003490652220000161
其中,rt speed为速度控制奖励,用以当无人机准备着陆时控制无人机的着陆速度,避免由于着陆速度过大导致的设备损坏,β4为设定的超参数,用以调整速度控制奖励在总奖励函数中的权重,ε为设定的高度阈值;
跟踪降落阶段无人机的总奖励函数计算公式为:
rt=rt over+rt target+rt attitude+rt land+rt speed
其中,rt为跟踪降落阶段无人机的总奖励函数。
在步骤4中,对渐进移动阶段的无人机搭建行动网络
Figure BDA0003490652220000162
(其参数为θ),由三层全连接层构成,行动网络
Figure BDA0003490652220000163
的输入为当前时刻无人机的状态向量st,输出为无人机在当前时刻所要输出的动作向量
Figure BDA0003490652220000164
对渐进移动阶段的无人机搭建评价网路
Figure BDA0003490652220000165
(其参数为φ),由两层全连接层构成,评价网络
Figure BDA0003490652220000166
的输入为当前时刻无人机的状态向量st,输出为评价网络
Figure BDA0003490652220000167
对无人机的当前状态价值函数的估计值;
对跟踪降落阶段的无人机搭建行动网络
Figure BDA0003490652220000168
(其参数为ω),跟踪降落阶段的行动网络结构包括两层卷积层、一层LSTM层和一层全连接层,跟踪降落阶段的行动网络
Figure BDA0003490652220000169
的输入为当前时刻无人机的观测向量ot,输出为无人机在当前时刻所要输出的动作向量
Figure BDA00034906522200001610
对跟踪降落阶段的无人机搭建评价网络
Figure BDA00034906522200001611
(其参数为
Figure BDA00034906522200001612
),跟踪降落阶段的评价结构包括两层卷积层、一层LSTM层和一层全连接层,跟踪降落阶段的评价网络
Figure BDA00034906522200001613
的输入为当前时刻无人机的观测向量ot,输出为评价网络对无人机的当前状态价值函数的估计值。
在步骤5中,基于PPO算法对步骤4中搭建的行动网络(
Figure BDA00034906522200001614
Figure BDA00034906522200001615
)和评价网络(
Figure BDA00034906522200001616
Figure BDA00034906522200001617
)进行参数优化训练的过程具体包括以下步骤:
步骤501:将渐进移动阶段的行动网络
Figure BDA00034906522200001618
和评价网路
Figure BDA00034906522200001619
的参数初始化,并设定批量大小Bmove和参数迭代更新次数Nmove
步骤502:根据系统初始状态的概率分布η(s0)选取初始状态s0,从初始状态s0出发,无人机根据当前渐进移动阶段的行动网络
Figure BDA00034906522200001620
的参数产生动作向量并与环境进行交互,直到当前策略与环境交互得到Bmove条策略轨迹,并将Bmove条策略轨迹存入经验存储模块
Figure BDA00034906522200001721
中;
步骤503:建立广义优势估计器,根据广义优势估计器计算各个时刻优势函数的估计值
Figure BDA0003490652220000171
Figure BDA0003490652220000172
其中,
Figure BDA0003490652220000173
为t时刻时优势函数的估计值,γ为衰减率,
Figure BDA0003490652220000174
为渐进移动阶段的评价网路,st为渐进移动阶段的状态向量,i为迭代指数,T为迭代长度;
步骤504:采用梯度法对渐进移动阶段的行动网络参数进行优化更新:
Figure BDA0003490652220000175
Figure BDA0003490652220000176
Figure BDA0003490652220000177
其中,θk+1为k+1时刻时渐进移动阶段的行动网络参数,
Figure BDA0003490652220000178
为设定的渐进移动阶段的行动网络学习率,是一个超参数,
Figure BDA0003490652220000179
为求导算子,
Figure BDA00034906522200001710
为从经验存储模块
Figure BDA00034906522200001711
中提取数据并计算期望估计值的符号,rt(θ)为渐进移动阶段的重要性采样率,
Figure BDA00034906522200001712
为当前渐进移动阶段的行动网络,
Figure BDA00034906522200001713
为渐进移动过程中的控制策略函数,clip为剪裁函数,ε为设定的高度阈值,x为剪裁函数的第一参数;
步骤505:为了使渐进移动阶段的评价网络能够给出较为准确的值函数估计值,将其评价网络的目标函数设为状态价值函数的采样值和评价网络得到的状态价值函数估计值之间欧氏距离平方的期望值,依据该目标函数对评价网络参数进行梯度下降优化更新:
Figure BDA00034906522200001714
其中,φk+1为k+1时刻时渐进移动阶段的评价网络参数,
Figure BDA00034906522200001715
为事先设定的渐进移动阶段的评价网络学习率,是一个超参数,
Figure BDA00034906522200001716
为状态价值函数的采样值;
步骤506:当参数总迭代更新次数小于Nmove时,重复步骤502~步骤506,当参数总迭代更新次数大于等于Nmove时则,记录渐进移动阶段的行动网络
Figure BDA00034906522200001717
和评价网路
Figure BDA00034906522200001718
的参数,并结束渐进移动阶段的参数迭代更新过程;
步骤507:将跟踪降落阶段的行动网络
Figure BDA00034906522200001719
和评价网路
Figure BDA00034906522200001720
的参数进行初始化,并设定批量大小Bland和参数迭代更新次数Nland
步骤508:根据系统初始状态的概率分布η(s0)选取初始状态s0,从初始状态s0出发,无人机根据当前跟踪降落阶段的行动网络
Figure BDA0003490652220000181
的参数产生动作向量并与环境进行交互,直到当前策略与环境交互得到Bland条策略轨迹,并将这Bland条策略轨迹存入经验存储模块
Figure BDA0003490652220000182
中;
步骤509:建立广义优势估计器,并根据广义优势估计器计算各个时刻优势函数的估计值
Figure BDA0003490652220000183
Figure BDA0003490652220000184
其中,
Figure BDA0003490652220000185
为t时刻时优势函数的估计值,γ为衰减率,
Figure BDA0003490652220000186
为跟踪降落阶段的评价网路,st为跟踪降落阶段的状态向量,i为迭代指数,T为迭代长度;
步骤510:采用梯度法对跟踪降落阶段的行动网络参数进行优化更新:
Figure BDA0003490652220000187
Figure BDA0003490652220000188
Figure BDA0003490652220000189
其中,ωk+1为k+1时刻跟踪降落阶段的行动网络参数,
Figure BDA00034906522200001810
为设定的跟踪降落阶段的行动网络学习率,是一个超参数,
Figure BDA00034906522200001811
为求导算子,
Figure BDA00034906522200001812
为从经验存储模块
Figure BDA00034906522200001813
中提取数据并计算期望估计值的符号,rt(ω)为跟踪降落阶段的重要性采样率,
Figure BDA00034906522200001814
为当前跟踪降落阶段的行动网络,
Figure BDA00034906522200001815
为降落过程中的控制策略函数,clip为剪裁函数,ε为设定的高度阈值,x为剪裁函数的第一参数;
步骤511:为了使跟踪降落阶段的评价网络得到准确的值函数估计值,将跟踪降落阶段的评价网络的目标函数设为状态价值函数的采样值和评价网络得到的状态价值函数估计值之间欧氏距离平方的期望值,依据该目标函数对跟踪降落阶段的评价网络参数进行梯度下降优化更新:
Figure BDA00034906522200001816
其中,
Figure BDA00034906522200001817
为k+1时刻时跟踪降落阶段的评价网络参数,
Figure BDA00034906522200001818
为设定的跟踪降落阶段的评价网络学习率,是一个超参数,
Figure BDA00034906522200001819
为状态价值函数的采样值;
步骤512:当参数总迭代更新次数小于Nland时,重复步骤508~步骤512,当参数总迭代更新次数大于等于Nland时,记录渐进跟踪降落行动网络
Figure BDA0003490652220000191
和评价网路
Figure BDA0003490652220000192
的网络参数,并结束渐进移动阶段的参数迭代更新过程。
在步骤6中,将得到的两阶段各自的行动网络的最佳参数进行实施部署并应用于实际场景中的无人机降落任务的过程具体为:
当无人机与无人艇的水平距离大于等于设定的阈值时,无人机采用渐进移动阶段的控制器作为实际控制器驱动无人机向无人艇靠近;当无人机与无人艇的水平距离小于设定的阈值时,无人机采用跟踪降落阶段的控制器作为实际控制器驱动无人机向无人艇降落:
Figure BDA0003490652220000193
其中,
Figure BDA0003490652220000194
表示时刻为t时无人机实际部署的策略,F为设定控制器切换的距离阈值,
Figure BDA0003490652220000195
为时刻为t时无人船在地球坐标系中的二维坐标位置,
Figure BDA0003490652220000196
为时刻为t时无人机在地球坐标系中的二维坐标位置。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的工作人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种无人机无人艇协同平台端对端自主降落控制方法,其特征在于,该方法包括以下步骤:
步骤1:根据无人机和无人艇各自的动力学模型构建无人机无人艇平台自主降落仿真环境;
步骤2:将无人机向无人艇的渐进移动阶段建立为马尔可夫决策过程模型,并设定渐进移动阶段的总奖励函数;
步骤3:将无人机向无人艇的跟踪降落阶段建立为部分可观测马尔可夫决策过程模型,并设定跟踪降落阶段的奖励函数;
步骤4:基于Actor-Critic框架对无人机分别搭建渐进移动阶段和跟踪降落阶段的行动网络和评价网络;
步骤5:基于PPO算法分别对渐进移动阶段的行动网络和评价网络和跟踪降落阶段的行动网络和评价网络的参数进行优化训练,得到两阶段各自的行动网络和评价网络的最佳参数;
步骤6:将得到的两阶段各自的行动网络的最佳参数进行实施部署并应用于实际场景中的无人机降落任务。
2.根据权利要求1所述的一种无人机无人艇协同平台端对端自主降落控制方法,其特征在于,所述的步骤2中,无人机向无人艇的渐进移动阶段的状态向量st为无人机向无人艇渐进移动阶段中所需要的各项信息构成的向量,所述的各项信息包括无人机在时刻为t时的位置坐标、无人机在时刻为t时的速度大小、无人机在时刻为t时的飞行姿态角和无人船在时刻为t时的位置坐标。
3.根据权利要求2所述的一种无人机无人艇协同平台端对端自主降落控制方法,其特征在于,所述的步骤2中,马尔可夫决策过程模型表示在每个马尔可夫时间步,系统处在状态
Figure FDA0003490652210000011
执行动作
Figure FDA0003490652210000012
以P(st+1|st,at)概率转换到状态
Figure FDA0003490652210000013
并且得到一个奖励值
Figure FDA0003490652210000014
无人机向无人艇的渐进移动过程的马尔可夫决策过程模型为:
Figure FDA0003490652210000015
其中,
Figure FDA0003490652210000016
为状态空间,
Figure FDA0003490652210000017
为动作空间,η表示初始概率分布,η(s0)∈[0,1]表示系统初始状态的概率分布,
Figure FDA0003490652210000021
为时刻为t时的状态向量,
Figure FDA0003490652210000022
为时刻为t时无人机的动作向量,P(st+1|st,at)∈[0,1]表示在系统状态st采取动作at后,系统状态转移到st+1的概率,
Figure FDA0003490652210000023
为奖励函数,
Figure FDA0003490652210000024
由当前时刻的状态向量和无人机的动作向量决定,表示时刻为t系统状态为st且无人机采取动作at时,无人机所能够获得的奖励值,γ为衰减率,表征智能体对当前奖励和未奖励重视情况;
根据无人机向无人船上的渐进移动过程对当前的状态向量st进行建模,渐进移动阶段的状态向量st包括时刻为t时无人船的状态
Figure FDA0003490652210000025
和时刻为t时无人机的状态
Figure FDA0003490652210000026
Figure FDA0003490652210000027
Figure FDA0003490652210000028
Figure FDA0003490652210000029
其中,
Figure FDA00034906522100000210
为时刻为t时无人船的状态向量,
Figure FDA00034906522100000211
为时刻为t时无人机的状态向量,
Figure FDA00034906522100000212
为时刻为t时无人船在地球坐标系中的三维坐标位置,
Figure FDA00034906522100000213
为时刻为t时无人机在地球坐标系中的三维坐标位置,
Figure FDA00034906522100000214
为时刻为t时无人机在地球坐标系中的三维速度,
Figure FDA00034906522100000215
为时刻为t时无人机的飞行姿态角,
Figure FDA00034906522100000216
表示时刻为t时无人机的横滚角,
Figure FDA00034906522100000217
表示时刻为t时无人机的俯仰角,
Figure FDA00034906522100000218
表示时刻为t时无人机的偏航角;
根据无人机的动力学模型对渐进移动阶段的动作向量at进行建模:
Figure FDA00034906522100000219
其中,
Figure FDA00034906522100000220
表示时刻为t时无人机1号电机的转速,
Figure FDA00034906522100000221
表示时刻为t时无人机2号电机的转速,
Figure FDA00034906522100000222
表示时刻为t时无人机3号电机的转速,
Figure FDA00034906522100000223
表示时刻为t时无人机4号电机的转速。
4.根据权利要求1所述的一种无人机无人艇协同平台端对端自主降落控制方法,其特征在于,所述的步骤2中,无人机向无人艇的渐进移动阶段的总奖励函数由目标点奖励、飞行姿态奖励和高度控制奖励三部分通过线性加权得到,渐进移动阶段无人机的总奖励函数的计算公式为:
Figure FDA00034906522100000224
其中,rt为渐进移动阶段无人机的总奖励函数;
目标点奖励的计算公式为:
Figure FDA0003490652210000031
其中,rt target为目标点奖励,α1为设定的超参数,用以调整目标点奖励在总奖励函数中的权重,当无人船和无人机的距离较远时,赋予无人机大的惩罚值以驱动无人机向无人船方向渐进移动,
Figure FDA0003490652210000032
为无人机与无人船的实时距离,
Figure FDA0003490652210000033
为时刻为t时无人船在地球坐标系中的二维坐标位置,
Figure FDA0003490652210000034
为时刻为t时无人机在地球坐标系中的二维坐标位置;
飞行姿态奖励的计算公式为:
Figure FDA0003490652210000035
其中,
Figure FDA0003490652210000036
为飞行姿态奖励,飞行姿态奖励用以驱动无人机克服随机风阻干扰进行平稳的飞行过程,α2为设定的超参数,用以调整飞行姿态奖励在总奖励函数中的权重,
Figure FDA0003490652210000037
为时刻为t时无人机的飞行姿态角;
高度控制奖励的计算公式为:
Figure FDA0003490652210000038
其中,rt height为高度控制奖励,α3为设定的超参数,用以调整高度控制奖励在总奖励函数中的权重,zdesired为设定的无人机期望高度,当无人机的真实高度在期望高度附近时,赋予无人机大的高度奖励,当无人机的真实高度显著高于或者显著低于期望高度时,赋予无人机大的惩罚值以驱动无人机将高度控制在期望高度附近,
Figure FDA0003490652210000039
为时刻为t时无人机在地球坐标系中的高度坐标。
5.根据权利要求1所述的一种无人机无人艇协同平台端对端自主降落控制方法,其特征在于,所述的步骤3中,无人机向无人艇的跟踪降落阶段的状态向量st为无人机向无人艇降落过程中所需要的各项信息构成的向量,所述的各项信息包括无人机在时刻为t时的位置坐标、无人机在时刻为t时的速度大小、无人机在时刻为t时的飞行姿态角、无人船在时刻为t时的位置坐标、无人船在时刻为t时的速度大小、无人船在时刻为t时的航行姿态角以及用以表示是否已成功降落的布尔值C。
6.根据权利要求5所述的一种无人机无人艇协同平台端对端自主降落控制方法,其特征在于,所述的步骤3中,部分可观测马尔可夫决策过程模型表示在每个马尔可夫时间步,系统处在状态
Figure FDA00034906522100000310
执行动作
Figure FDA00034906522100000311
以P(st+1|st,at)概率转换到状态
Figure FDA00034906522100000312
同时,系统以O(ot+1|st+1,at)概率得到一个观测向量ot+1∈Ω,并且得到一个奖励值
Figure FDA0003490652210000041
无人机向无人艇的跟踪降落阶段的部分可观测马尔可夫决策过程模型为:
Figure FDA0003490652210000042
其中,
Figure FDA0003490652210000043
为状态空间,
Figure FDA0003490652210000044
为动作空间,η表示初始概率分布,η(s0)∈[0,1]表示系统初始状态的概率分布,
Figure FDA0003490652210000045
为时刻为t时无人机的状态向量,
Figure FDA0003490652210000046
为时刻为t时无人机的动作向量,P(st+1|st,at)∈[0,1]表示在系统状态st采取动作at后,系统状态转移到st+1的概率,
Figure FDA0003490652210000047
为奖励函数,
Figure FDA0003490652210000048
由当前时刻的状态向量和无人机的动作向量决定,表示时刻为t系统状态为st且无人机采取动作at时,无人机所能够获得的奖励值,Ω为无人机的观测结果集,O(ot|st,at-1)∈[0,1]为条件观测概率,γ为衰减率,表示智能体对当前奖励和未奖励重视情况;
根据无人机向无人船上的降落过程对当前的状态向量st进行建模,跟踪降落阶段的当前状态st包括时刻为t时无人船的状态
Figure FDA0003490652210000049
时刻为t时无人机的状态
Figure FDA00034906522100000410
和用来表征是否降落成功的状态量Ct
Figure FDA00034906522100000411
Figure FDA00034906522100000412
Figure FDA00034906522100000413
其中,
Figure FDA00034906522100000414
表示时刻为t时无人船的状态向量,
Figure FDA00034906522100000415
表示时刻为t时无人船在地球坐标系中的三维坐标位置,
Figure FDA00034906522100000416
表示时刻为t时无人船在地球坐标系中的三维速度,
Figure FDA00034906522100000417
表示时刻为t时无人船的航行姿态角,其中
Figure FDA00034906522100000418
表示时刻为t时无人船的纵摇角,
Figure FDA00034906522100000419
表示时刻为t时无人船的横摇角,
Figure FDA00034906522100000420
表示时刻为t时无人船的艏摇角,
Figure FDA00034906522100000421
表示时刻为t时无人机的状态向量,
Figure FDA00034906522100000422
表示时刻为t时无人机在地球坐标系中的三维坐标位置,
Figure FDA00034906522100000423
表示时刻为t时无人机在地球坐标系中的三维速度,
Figure FDA00034906522100000424
表示时刻为t时无人机的飞行姿态角,其中
Figure FDA00034906522100000425
表示时刻为t时无人机的横滚角,
Figure FDA00034906522100000426
表示时刻为t时无人机的俯仰角,
Figure FDA00034906522100000427
表示时刻为t时无人机的偏航角,Ct表示无人机是否成功降落到无人船平台上,Ct=1表示时刻为t时无人机已经成功降落在无人船上,Ct=0表示时刻为t时无人机尚未降落在无人船上,Ct由无人船降落平台上的压力传感器测量得到;
在无人机跟踪降落阶段采用基于图像数据的端对端无人机跟踪降落控制方法,根据无人机向无人船上的降落过程对观测向量ot进行建模:
将由无人机携带的俯视摄像头拍摄获得的图像数据作为时刻t时的观测向量ot,时刻为t时的观测向量ot为128×128×1的灰度图像,跟踪降落阶段的状态向量st无法确切得到,且在跟踪降落阶段的行动网络的输入为观测向量ot
根据无人机的动力学模型对跟踪降落阶段的动作向量at进行建模:
Figure FDA0003490652210000051
其中,
Figure FDA0003490652210000052
为时刻为t时无人机1号电机的转速,
Figure FDA0003490652210000053
表示时刻为t时无人机2号电机的转速,
Figure FDA0003490652210000054
表示时刻为t时无人机3号电机的转速,
Figure FDA0003490652210000055
表示时刻为t时无人机4号电机的转速。
7.根据权利要求1所述的一种无人机无人艇协同平台端对端自主降落控制方法,其特征在于,所述的步骤3中,无人机向无人艇的跟踪降落阶段的总奖励函数由越界奖励、跟踪奖励、着陆奖励、飞行姿态奖励和速度控制奖励通过线性加权得到,跟踪降落阶段的总奖励函数计算公式为:
Figure FDA0003490652210000056
其中,rt为跟踪降落阶段无人机的总奖励函数;
越界奖励的计算公式为:
Figure FDA0003490652210000057
其中,
Figure FDA0003490652210000058
为时刻为t时无人机在地球坐标系中的三维坐标位置,
Figure FDA0003490652210000059
表示时刻为t时无人船在地球坐标系中的三维坐标位置,xmax、ymax和zmax为事先设定的坐标边界,rt over为越界奖励,表示当无人机的坐标位置超出设定的边界时,赋予无人机大的惩罚值;
跟踪奖励的计算公式为:
Figure FDA00034906522100000510
其中,rt target为跟踪奖励,用以使无人机始终跟踪无人船的水平坐标,即使无人机保持在无人船降落平台的正上方,β1为设定的超参数,用以调整跟踪奖励在总奖励函数中的权重;
飞行姿态奖励的计算公式为:
Figure FDA00034906522100000511
其中,rt attitude为飞行姿态奖励,用以驱动无人机在随机风阻干扰的条件下保持自身良好的飞行姿态从而进行平稳的降落过程,β2为设定的超参数,用以调整飞行姿态奖励在总奖励函数中的权重;
着陆奖励的计算公式为:
Figure FDA0003490652210000061
其中,
Figure FDA0003490652210000062
为着陆奖励,用以使无人机安全顺利地降落至无人船平台上,β3为设定的超参数,用以调整着陆奖励在总奖励函数中的权重,b为无人机降落平台的半径,ε为设定的高度阈值,当无人机和无人船二者的高度差小于ε时,无人机准备向无人船上降落;
速度控制奖励的计算公式为:
Figure FDA0003490652210000063
其中,rt speed为速度控制奖励,用以当无人机准备着陆时控制无人机的着陆速度,避免由于着陆速度过大导致的设备损坏,β4为设定的超参数,用以调整速度控制奖励在总奖励函数中的权重,ε为设定的高度阈值。
8.根据权利要求1所述的一种无人机无人艇协同平台端对端自主降落控制方法,其特征在于,所述的步骤4中,对渐进移动阶段的无人机搭建行动网络
Figure FDA0003490652210000064
由三层全连接层构成,行动网络
Figure FDA0003490652210000065
的输入为当前时刻无人机的状态向量st,输出为无人机在当前时刻所要输出的动作向量
Figure FDA0003490652210000066
对渐进移动阶段的无人机搭建评价网路
Figure FDA0003490652210000067
由两层全连接层构成,评价网络
Figure FDA0003490652210000068
的输入为当前时刻无人机的状态向量st,输出为评价网络
Figure FDA0003490652210000069
对无人机的当前状态价值函数的估计值;
对跟踪降落阶段的无人机搭建行动网络
Figure FDA00034906522100000610
跟踪降落阶段的行动网络结构包括两层卷积层、一层LSTM层和一层全连接层,跟踪降落阶段的行动网络
Figure FDA00034906522100000611
的输入为当前时刻无人机的观测向量ot,输出为无人机在当前时刻所要输出的动作向量
Figure FDA00034906522100000612
对跟踪降落阶段的无人机搭建评价网络
Figure FDA00034906522100000613
跟踪降落阶段的评价结构包括两层卷积层、一层LSTM层和一层全连接层,跟踪降落阶段的评价网络
Figure FDA00034906522100000614
的输入为当前时刻无人机的观测向量ot,输出为评价网络对无人机的当前状态价值函数的估计值。
9.根据权利要求1所述的一种无人机无人艇协同平台端对端自主降落控制方法,其特征在于,所述的步骤5中,基于PPO算法分别对渐进移动阶段的行动网络和评价网络和跟踪降落阶段的行动网络和评价网络的参数进行优化训练的过程具体包括以下步骤:
步骤501:将渐进移动阶段的行动网络
Figure FDA0003490652210000071
和评价网路
Figure FDA0003490652210000072
的参数初始化,并设定批量大小Bmove和参数迭代更新次数Nmove
步骤502:根据系统初始状态的概率分布η(s0)选取初始状态s0,从初始状态s0出发,无人机根据当前渐进移动阶段的行动网络
Figure FDA0003490652210000073
的参数产生动作向量并与环境进行交互,直到当前策略与环境交互得到Bmove条策略轨迹,并将Bmove条策略轨迹存入经验存储模块
Figure FDA0003490652210000074
中;
步骤503:建立广义优势估计器,根据广义优势估计器计算各个时刻优势函数的估计值
Figure FDA0003490652210000075
Figure FDA0003490652210000076
其中,
Figure FDA0003490652210000077
为t时刻时优势函数的估计值,γ为衰减率,
Figure FDA0003490652210000078
为渐进移动阶段的评价网路,st为渐进移动阶段的状态向量,i为迭代指数,T为迭代长度;
步骤504:采用梯度法对渐进移动阶段的行动网络参数进行优化更新:
Figure FDA0003490652210000079
Figure FDA00034906522100000710
Figure FDA00034906522100000711
其中,θk+1为k+1时刻时渐进移动阶段的行动网络参数,
Figure FDA00034906522100000712
为设定的渐进移动阶段的行动网络学习率,是一个超参数,
Figure FDA00034906522100000713
为求导算子,
Figure FDA00034906522100000714
为从经验存储模块
Figure FDA00034906522100000715
中提取数据并计算期望估计值的符号,rt(θ)为渐进移动阶段的重要性采样率,
Figure FDA00034906522100000716
为当前渐进移动阶段的行动网络,
Figure FDA00034906522100000717
为渐进移动过程中的控制策略函数,clip为剪裁函数,ε为设定的高度阈值,x为剪裁函数的第一参数;
步骤505:为了使渐进移动阶段的评价网络能够给出较为准确的值函数估计值,将其评价网络的目标函数设为状态价值函数的采样值和评价网络得到的状态价值函数估计值之间欧氏距离平方的期望值,依据该目标函数对评价网络参数进行梯度下降优化更新:
Figure FDA0003490652210000081
其中,φk+1为k+1时刻时渐进移动阶段的评价网络参数,
Figure FDA0003490652210000082
为事先设定的渐进移动阶段的评价网络学习率,是一个超参数,
Figure FDA0003490652210000083
为状态价值函数的采样值;
步骤506:当参数总迭代更新次数小于Nmove时,重复步骤502~步骤506,当参数总迭代更新次数大于等于Nmove时则,记录渐进移动阶段的行动网络
Figure FDA0003490652210000084
和评价网路
Figure FDA0003490652210000085
的参数,并结束渐进移动阶段的参数迭代更新过程;
步骤507:将跟踪降落阶段的行动网络
Figure FDA0003490652210000086
和评价网路
Figure FDA0003490652210000087
的参数进行初始化,并设定批量大小Bland和参数迭代更新次数Nland
步骤508:根据系统初始状态的概率分布η(s0)选取初始状态s0,从初始状态s0出发,无人机根据当前跟踪降落阶段的行动网络
Figure FDA0003490652210000088
的参数产生动作向量并与环境进行交互,直到当前策略与环境交互得到Bland条策略轨迹,并将这Bland条策略轨迹存入经验存储模块
Figure FDA0003490652210000089
中;
步骤509:建立广义优势估计器,并根据广义优势估计器计算各个时刻优势函数的估计值
Figure FDA00034906522100000810
Figure FDA00034906522100000811
其中,
Figure FDA00034906522100000812
为t时刻时优势函数的估计值,γ为衰减率,
Figure FDA00034906522100000813
为跟踪降落阶段的评价网路,st为跟踪降落阶段的状态向量,i为迭代指数,T为迭代长度;
步骤510:采用梯度法对跟踪降落阶段的行动网络参数进行优化更新:
Figure FDA00034906522100000814
Figure FDA00034906522100000815
Figure FDA00034906522100000816
其中,ωk+1为k+1时刻跟踪降落阶段的行动网络参数,
Figure FDA00034906522100000817
为设定的跟踪降落阶段的行动网络学习率,是一个超参数,
Figure FDA00034906522100000818
为求导算子,
Figure FDA00034906522100000819
为从经验存储模块
Figure FDA00034906522100000820
中提取数据并计算期望估计值的符号,rt(ω)为跟踪降落阶段的重要性采样率,
Figure FDA00034906522100000821
为当前跟踪降落阶段的行动网络,
Figure FDA0003490652210000091
为降落过程中的控制策略函数,clip为剪裁函数,ε为设定的高度阈值,x为剪裁函数的第一参数;
步骤511:为了使跟踪降落阶段的评价网络得到准确的值函数估计值,将跟踪降落阶段的评价网络的目标函数设为状态价值函数的采样值和评价网络得到的状态价值函数估计值之间欧氏距离平方的期望值,依据该目标函数对跟踪降落阶段的评价网络参数进行梯度下降优化更新:
Figure FDA0003490652210000092
其中,
Figure FDA0003490652210000093
为k+1时刻时跟踪降落阶段的评价网络参数,
Figure FDA0003490652210000094
为设定的跟踪降落阶段的评价网络学习率,是一个超参数,
Figure FDA0003490652210000095
为状态价值函数的采样值;
步骤512:当参数总迭代更新次数小于Nland时,重复步骤508~步骤512,当参数总迭代更新次数大于等于Nland时,记录渐进跟踪降落行动网络
Figure FDA0003490652210000096
和评价网路
Figure FDA0003490652210000097
的网络参数,并结束渐进移动阶段的参数迭代更新过程。
10.根据权利要求9所述的一种无人机无人艇协同平台端对端自主降落控制方法,其特征在于,所述的步骤6中,将得到的两阶段各自的行动网络的最佳参数进行实施部署并应用于实际场景中的无人机降落任务的过程具体为:
当无人机与无人艇的水平距离大于等于设定的阈值时,无人机采用渐进移动阶段的控制器作为实际控制器驱动无人机向无人艇靠近;当无人机与无人艇的水平距离小于设定的阈值时,无人机采用跟踪降落阶段的控制器作为实际控制器驱动无人机向无人艇降落:
Figure FDA0003490652210000098
其中,
Figure FDA0003490652210000099
表示时刻为t时无人机实际部署的策略,F为设定控制器切换的距离阈值,
Figure FDA00034906522100000910
为时刻为t时无人船在地球坐标系中的二维坐标位置,
Figure FDA00034906522100000911
为时刻为t时无人机在地球坐标系中的二维坐标位置。
CN202210094898.8A 2022-01-26 2022-01-26 一种无人机无人艇协同平台端对端自主降落控制方法 Active CN114428517B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210094898.8A CN114428517B (zh) 2022-01-26 2022-01-26 一种无人机无人艇协同平台端对端自主降落控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210094898.8A CN114428517B (zh) 2022-01-26 2022-01-26 一种无人机无人艇协同平台端对端自主降落控制方法

Publications (2)

Publication Number Publication Date
CN114428517A true CN114428517A (zh) 2022-05-03
CN114428517B CN114428517B (zh) 2023-07-21

Family

ID=81313422

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210094898.8A Active CN114428517B (zh) 2022-01-26 2022-01-26 一种无人机无人艇协同平台端对端自主降落控制方法

Country Status (1)

Country Link
CN (1) CN114428517B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115291619A (zh) * 2022-08-23 2022-11-04 山东大学 基于深度强化学习和cpg的机器人运动控制方法及系统
US20230400302A1 (en) * 2022-06-13 2023-12-14 Polar Research Institute Of China Systems and methods for measuring water capacity of polar lakes

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120158222A1 (en) * 2009-06-12 2012-06-21 Saab Ab Centering above a predetermined area of a landing platform
US9828107B1 (en) * 2014-08-25 2017-11-28 Stc.Unm Redundant component and intelligent computerized control system for multi-rotor VTOL aircraft
CN108983812A (zh) * 2018-07-25 2018-12-11 哈尔滨工业大学 一种无人机海上着陆的船载控制系统
CN111026147A (zh) * 2019-12-25 2020-04-17 北京航空航天大学 基于深度强化学习的零超调量无人机位置控制方法及装置
CN111338375A (zh) * 2020-02-27 2020-06-26 中国科学院国家空间科学中心 基于混合策略的四旋翼无人机移动降落的控制方法及系统
CN112947431A (zh) * 2021-02-03 2021-06-11 海之韵(苏州)科技有限公司 一种基于强化学习的无人船路径跟踪方法
CN113110592A (zh) * 2021-04-23 2021-07-13 南京大学 一种无人机避障与路径规划方法
CN113741449A (zh) * 2021-08-30 2021-12-03 南京信息工程大学 一种面向海空协同观测任务的多智能体控制方法
CN113741528A (zh) * 2021-09-13 2021-12-03 中国人民解放军国防科技大学 一种面向多无人机碰撞规避的深度强化学习训练加速方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120158222A1 (en) * 2009-06-12 2012-06-21 Saab Ab Centering above a predetermined area of a landing platform
US9828107B1 (en) * 2014-08-25 2017-11-28 Stc.Unm Redundant component and intelligent computerized control system for multi-rotor VTOL aircraft
CN108983812A (zh) * 2018-07-25 2018-12-11 哈尔滨工业大学 一种无人机海上着陆的船载控制系统
CN111026147A (zh) * 2019-12-25 2020-04-17 北京航空航天大学 基于深度强化学习的零超调量无人机位置控制方法及装置
CN111338375A (zh) * 2020-02-27 2020-06-26 中国科学院国家空间科学中心 基于混合策略的四旋翼无人机移动降落的控制方法及系统
CN112947431A (zh) * 2021-02-03 2021-06-11 海之韵(苏州)科技有限公司 一种基于强化学习的无人船路径跟踪方法
CN113110592A (zh) * 2021-04-23 2021-07-13 南京大学 一种无人机避障与路径规划方法
CN113741449A (zh) * 2021-08-30 2021-12-03 南京信息工程大学 一种面向海空协同观测任务的多智能体控制方法
CN113741528A (zh) * 2021-09-13 2021-12-03 中国人民解放军国防科技大学 一种面向多无人机碰撞规避的深度强化学习训练加速方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵伟伟: "无人机集群编队及其避障控制关键技术研究" *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230400302A1 (en) * 2022-06-13 2023-12-14 Polar Research Institute Of China Systems and methods for measuring water capacity of polar lakes
US12111155B2 (en) * 2022-06-13 2024-10-08 Polar Research Institute Of China Systems and methods for measuring water capacity of polar lakes
CN115291619A (zh) * 2022-08-23 2022-11-04 山东大学 基于深度强化学习和cpg的机器人运动控制方法及系统

Also Published As

Publication number Publication date
CN114428517B (zh) 2023-07-21

Similar Documents

Publication Publication Date Title
CN109976349B (zh) 一种含约束无人船的路径跟踪制导与控制结构的设计方法
CN114428517A (zh) 一种无人机无人艇协同平台端对端自主降落控制方法
CN111538241B (zh) 一种平流层飞艇水平轨迹智能控制方法
CN108919640B (zh) 无人机自适应多目标跟踪的实现方法
CN107168312A (zh) 一种补偿uuv运动学和动力学干扰的空间轨迹跟踪控制方法
CN112286218B (zh) 基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法
CN112965471B (zh) 一种考虑角速度约束和改进斥力场的人工势场路径规划方法
CN113033119A (zh) 一种基于双评论家强化学习技术的水下航行器目标区域上浮控制方法
CN114879671B (zh) 一种基于强化学习mpc的无人艇轨迹跟踪控制方法
CN114077258B (zh) 一种基于强化学习ppo2算法的无人艇位姿控制方法
CN112947431A (zh) 一种基于强化学习的无人船路径跟踪方法
CN115903888B (zh) 一种基于天牛群算法的旋翼无人机自主路径规划方法
CN113268074A (zh) 一种基于联合优化的无人机航迹规划方法
CN114995468B (zh) 一种基于贝叶斯深度强化学习的水下机器人智能控制方法
CN116679711A (zh) 一种基于有模型与无模型强化学习的机器人避障方法
CN116697829A (zh) 一种基于深度强化学习的火箭着陆制导方法及系统
CN115079565A (zh) 变系数的带落角约束制导方法、装置和飞行器
CN117215196B (zh) 基于深度强化学习的舰载综合控制计算机智能决策方法
CN114840928B (zh) 一种基于深度学习的水下航行器集群运动仿真方法
CN109101035B (zh) 一种用于高空滑翔uuv纵平面弹道控制的方法
CN115303455B (zh) 水下仿生机器人运动控制方法、装置、设备及存储介质
CN116679710A (zh) 一种基于多任务学习的机器人避障策略训练与部署方法
CN114740882B (zh) 一种无人机保证可视性的弹性目标跟踪的轨迹生成方法
Lagoda et al. Dynamic Reward in DQN for Autonomous Navigation of UAVs Using Object Detection
CN113359471B (zh) 基于协状态辅助的自适应动态规划最优控制方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant