CN114428517A - 一种无人机无人艇协同平台端对端自主降落控制方法 - Google Patents
一种无人机无人艇协同平台端对端自主降落控制方法 Download PDFInfo
- Publication number
- CN114428517A CN114428517A CN202210094898.8A CN202210094898A CN114428517A CN 114428517 A CN114428517 A CN 114428517A CN 202210094898 A CN202210094898 A CN 202210094898A CN 114428517 A CN114428517 A CN 114428517A
- Authority
- CN
- China
- Prior art keywords
- aerial vehicle
- unmanned aerial
- unmanned
- landing
- moment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 103
- 238000011156 evaluation Methods 0.000 claims abstract description 93
- 230000009471 action Effects 0.000 claims abstract description 66
- 230000008901 benefit Effects 0.000 claims abstract description 18
- 238000005457 optimization Methods 0.000 claims abstract description 14
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims abstract description 7
- 238000004088 simulation Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 123
- 230000000750 progressive effect Effects 0.000 claims description 92
- 230000008569 process Effects 0.000 claims description 61
- 238000004364 calculation method Methods 0.000 claims description 27
- 238000005070 sampling Methods 0.000 claims description 18
- 239000003795 chemical substances by application Substances 0.000 claims description 6
- 238000011217 control strategy Methods 0.000 claims description 6
- 230000007704 transition Effects 0.000 claims description 6
- 238000013459 approach Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims 1
- 230000002787 reinforcement Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000003734 kidney Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
- G05D1/104—Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明涉及一种无人机无人艇协同平台端对端自主降落控制方法,该方法包括以下步骤:步骤1:根据无人机和无人艇各自的动力学模型构建无人机无人艇平台自主降落仿真环境;步骤2:将无人机向无人艇的渐进移动阶段建立为MDP模型,并设定奖励函数;步骤3:将无人机向无人艇的跟踪降落阶段建立为POMDP模型,并设定奖励函数;步骤4:基于Actor‑Critic框架对无人机分别搭建两个阶段各自的行动网络和评价网络;步骤5:基于PPO算法分别对两个阶段的行动网络和评价网络的参数进行优化训练;步骤6:将两阶段各自的最佳行动网络参数进行部署并应用于无人机降落任务,与现有技术相比,本发明具有提升策略的鲁棒性以及保证其能够应用于无人船体晃动较大的场景等优点。
Description
技术领域
本发明涉及无人机无人艇协同控制领域,尤其是涉及一种无人机无人艇协同平台端对端自主降落控制方法。
背景技术
近年来,由于对海洋资源的开发利用,无人船领域受到了越来越多的重视。但是无人船的感知能力有限,难以应用于环境复杂的作业任务,而船载无人机得益于飞行优势,能够提升无人船的感知能力,从而扩展无人船的应用领域。
船载无人机执行任务结束后的回收降落过程是机艇协同领域的一个热点和难点问题,由于在降落过程中无人船存在不可避免的晃动,因此需要高精度的引导算法指引无人机向无人艇上降落,之前的研究者大多使用图像处理的方法从机载摄像头拍摄的图像中解算出无人机和无人艇的相对位置以及姿态角度等信息,然后基于相应的控制算法控制无人机的降落过程,在这种方法中,对图像数据进行实时计算处理需要消耗大量的计算资源,无法稳定地应用于船体晃动较大的场景,并且可能出现图片缺失和图片畸变等问题,图片缺失和图片畸变等问题从可能导致控制器无法从图片数据中解算出正确的相对位置和姿态角度等信息,从而出现无人机降落失败的情况。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种无人机无人艇协同平台端对端自主降落控制方法。
本发明的目的可以通过以下技术方案来实现:
一种无人机无人艇协同平台端对端自主降落控制方法,该方法包括以下步骤:
步骤1:根据无人机和无人艇各自的动力学模型构建无人机无人艇平台自主降落仿真环境;
步骤2:将无人机向无人艇的渐进移动阶段建立为马尔可夫决策过程模型,并设定渐进移动阶段的总奖励函数;
步骤3:将无人机向无人艇的跟踪降落阶段建立为部分可观测马尔可夫决策过程模型,并设定跟踪降落阶段的奖励函数;
步骤4:基于Actor-Critic框架对无人机分别搭建渐进移动阶段和跟踪降落阶段的行动网络和评价网络;
步骤5:基于PPO算法分别对渐进移动阶段的行动网络和评价网络和跟踪降落阶段的行动网络和评价网络的参数进行优化训练,得到两阶段各自的行动网络和评价网络的最佳参数;
步骤6:将得到的两阶段各自的行动网络的最佳参数进行实施部署并应用于实际场景中的无人机降落任务。
所述的步骤2中,无人机向无人艇的渐进移动阶段的状态向量st为无人机向无人艇渐进移动阶段中所需要的各项信息构成的向量,所述的各项信息包括无人机在时刻为t时的位置坐标、无人机在时刻为t时的速度大小、无人机在时刻为t时的飞行姿态角和无人船在时刻为t时的位置坐标。
其中,为状态空间,为动作空间,η表示初始概率分布,η(s0)∈[0,1]表示系统初始状态的概率分布,为时刻为t时的状态向量,为时刻为t时无人机的动作向量,P(st+1|st,at)∈[0,1]表示在系统状态st采取动作at后,系统状态转移到st+1的概率,为奖励函数,由当前时刻的状态向量和无人机的动作向量决定,表示时刻为t系统状态为st且无人机采取动作at时,无人机所能够获得的奖励值,γ为衰减率,表征智能体对当前奖励和未奖励重视情况;
其中,为时刻为t时无人船的状态向量,为时刻为t时无人机的状态向量,为时刻为t时无人船在地球坐标系中的三维坐标位置,为时刻为t时无人机在地球坐标系中的三维坐标位置,为时刻为t时无人机在地球坐标系中的三维速度,为时刻为t时无人机的飞行姿态角,表示时刻为t时无人机的横滚角,表示时刻为t时无人机的俯仰角,表示时刻为t时无人机的偏航角;
根据无人机的动力学模型对渐进移动阶段的动作向量at进行建模:
所述的步骤2中,无人机向无人艇的渐进移动阶段的总奖励函数由目标点奖励、飞行姿态奖励和高度控制奖励三部分通过线性加权得到,渐进移动阶段无人机的总奖励函数的计算公式为:
rt=rt height+rt target+rt attitude
其中,rt为渐进移动阶段无人机的总奖励函数;
目标点奖励的计算公式为:
其中,rt target为目标点奖励,α1为设定的超参数,用以调整目标点奖励在总奖励函数中的权重,当无人船和无人机的距离较远时,赋予无人机大的惩罚值以驱动无人机向无人船方向渐进移动,为无人机与无人船的实时距离,为时刻为t时无人船在地球坐标系中的二维坐标位置,为时刻为t时无人机在地球坐标系中的二维坐标位置;
飞行姿态奖励的计算公式为:
其中,rt attitude为飞行姿态奖励,飞行姿态奖励用以驱动无人机克服随机风阻干扰进行平稳的飞行过程,α2为设定的超参数,用以调整飞行姿态奖励在总奖励函数中的权重,为时刻为t时无人机的飞行姿态角;
高度控制奖励的计算公式为:
其中,rt height为高度控制奖励,α3为设定的超参数,用以调整高度控制奖励在总奖励函数中的权重,zdesired为设定的无人机期望高度,当无人机的真实高度在期望高度附近时,赋予无人机大的高度奖励,当无人机的真实高度显著高于或者显著低于期望高度时,赋予无人机大的惩罚值以驱动无人机将高度控制在期望高度附近,为时刻为t时无人机在地球坐标系中的高度坐标。
所述的步骤3中,无人机向无人艇的跟踪降落阶段的状态向量st为无人机向无人艇降落过程中所需要的各项信息构成的向量,所述的各项信息包括无人机在时刻为t时的位置坐标、无人机在时刻为t时的速度大小、无人机在时刻为t时的飞行姿态角、无人船在时刻为t时的位置坐标、无人船在时刻为t时的速度大小、无人船在时刻为t时的航行姿态角以及用以表示是否已成功降落的布尔值C。
所述的步骤3中,部分可观测马尔可夫决策过程模型表示在每个马尔可夫时间步,系统处在状态执行动作以P(st+1|st,at)概率转换到状态同时,系统以O(ot+1|st+1,at)概率得到一个观测向量ot+1∈Ω,并且得到一个奖励值无人机向无人艇的跟踪降落阶段的部分可观测马尔可夫决策过程模型为:
其中,为状态空间,为动作空间,η表示初始概率分布,η(s0)∈[0,1]表示系统初始状态的概率分布,为时刻为t时无人机的状态向量,为时刻为t时无人机的动作向量,P(st+1|st,at)∈[0,1]表示在系统状态st采取动作at后,系统状态转移到st+1的概率,为奖励函数,由当前时刻的状态向量和无人机的动作向量决定,表示时刻为t系统状态为st且无人机采取动作at时,无人机所能够获得的奖励值,Ω为无人机的观测结果集,O(ot|st,at-1)∈[0,1]为条件观测概率,γ为衰减率,表示智能体对当前奖励和未奖励重视情况;
其中,表示时刻为t时无人船的状态向量,表示时刻为t时无人船在地球坐标系中的三维坐标位置,表示时刻为t时无人船在地球坐标系中的三维速度,表示时刻为t时无人船的航行姿态角,其中表示时刻为t时无人船的纵摇角,表示时刻为t时无人船的横摇角,表示时刻为t时无人船的艏摇角,表示时刻为t时无人机的状态向量,表示时刻为t时无人机在地球坐标系中的三维坐标位置,表示时刻为t时无人机在地球坐标系中的三维速度,表示时刻为t时无人机的飞行姿态角,其中表示时刻为t时无人机的横滚角,表示时刻为t时无人机的俯仰角,表示时刻为t时无人机的偏航角,Ct表示无人机是否成功降落到无人船平台上,Ct=1表示时刻为t时无人机已经成功降落在无人船上,Ct=0表示时刻为t时无人机尚未降落在无人船上,Ct由无人船降落平台上的压力传感器测量得到;
在无人机跟踪降落阶段采用基于图像数据的端对端无人机跟踪降落控制方法,根据无人机向无人船上的降落过程对观测向量ot进行建模:
将由无人机携带的俯视摄像头拍摄获得的图像数据作为时刻t时的观测向量ot,时刻为t时的观测向量ot为128×128×1的灰度图像,跟踪降落阶段的状态向量st无法确切得到,且在跟踪降落阶段的行动网络的输入为观测向量ot;
根据无人机的动力学模型对跟踪降落阶段的动作向量at进行建模:
所述的步骤3中,无人机向无人艇的跟踪降落阶段的总奖励函数由越界奖励、跟踪奖励、着陆奖励、飞行姿态奖励和速度控制奖励通过线性加权得到,跟踪降落阶段的总奖励函数计算公式为:
rt=rt over+rt target+rt attitude+rt land+rt speed
其中,rt为跟踪降落阶段无人机的总奖励函数;
越界奖励的计算公式为:
其中,为时刻为t时无人机在地球坐标系中的三维坐标位置,表示时刻为t时无人船在地球坐标系中的三维坐标位置,xmax、ymax和zmax为事先设定的坐标边界,rt over为越界奖励,表示当无人机的坐标位置超出设定的边界时,赋予无人机大的惩罚值;
跟踪奖励的计算公式为:
其中,rt target为跟踪奖励,用以使无人机始终跟踪无人船的水平坐标,即使无人机保持在无人船降落平台的正上方,β1为设定的超参数,用以调整跟踪奖励在总奖励函数中的权重;
飞行姿态奖励的计算公式为:
其中,rt attitude为飞行姿态奖励,用以驱动无人机在随机风阻干扰的条件下保持自身良好的飞行姿态从而进行平稳的降落过程,β2为设定的超参数,用以调整飞行姿态奖励在总奖励函数中的权重;
着陆奖励的计算公式为:
其中,rt land为着陆奖励,用以使无人机安全顺利地降落至无人船平台上,β3为设定的超参数,用以调整着陆奖励在总奖励函数中的权重,b为无人机降落平台的半径,ε为设定的高度阈值,当无人机和无人船二者的高度差小于ε时,无人机准备向无人船上降落;
速度控制奖励的计算公式为:
其中,rt speed为速度控制奖励,用以当无人机准备着陆时控制无人机的着陆速度,避免由于着陆速度过大导致的设备损坏,β4为设定的超参数,用以调整速度控制奖励在总奖励函数中的权重,ε为设定的高度阈值。
对跟踪降落阶段的无人机搭建行动网络跟踪降落阶段的行动网络结构包括两层卷积层、一层LSTM层和一层全连接层,跟踪降落阶段的行动网络的输入为当前时刻无人机的观测向量ot,输出为无人机在当前时刻所要输出的动作向量
对跟踪降落阶段的无人机搭建评价网络跟踪降落阶段的评价结构包括两层卷积层、一层LSTM层和一层全连接层,跟踪降落阶段的评价网络的输入为当前时刻无人机的观测向量ot,输出为评价网络对无人机的当前状态价值函数的估计值。
所述的步骤5中,基于PPO算法分别对渐进移动阶段的行动网络和评价网络和跟踪降落阶段的行动网络和评价网络的参数进行优化训练的过程具体包括以下步骤:
步骤502:根据系统初始状态的概率分布η(s0)选取初始状态s0,从初始状态s0出发,无人机根据当前渐进移动阶段的行动网络的参数产生动作向量并与环境进行交互,直到当前策略与环境交互得到Bmove条策略轨迹,并将Bmove条策略轨迹存入经验存储模块中;
步骤504:采用梯度法对渐进移动阶段的行动网络参数进行优化更新:
其中,θk+1为k+1时刻时渐进移动阶段的行动网络参数,为设定的渐进移动阶段的行动网络学习率,是一个超参数,为求导算子,为从经验存储模块中提取数据并计算期望估计值的符号,rt(θ)为渐进移动阶段的重要性采样率,为当前渐进移动阶段的行动网络,为渐进移动过程中的控制策略函数,clip为剪裁函数,ε为设定的高度阈值,x为剪裁函数的第一参数;
步骤505:为了使渐进移动阶段的评价网络能够给出较为准确的值函数估计值,将其评价网络的目标函数设为状态价值函数的采样值和评价网络得到的状态价值函数估计值之间欧氏距离平方的期望值,依据该目标函数对评价网络参数进行梯度下降优化更新:
步骤506:当参数总迭代更新次数小于Nmove时,重复步骤502~步骤506,当参数总迭代更新次数大于等于Nmove时则,记录渐进移动阶段的行动网络和评价网路的参数,并结束渐进移动阶段的参数迭代更新过程;
步骤508:根据系统初始状态的概率分布η(s0)选取初始状态s0,从初始状态s0出发,无人机根据当前跟踪降落阶段的行动网络的参数产生动作向量并与环境进行交互,直到当前策略与环境交互得到Bland条策略轨迹,并将这Bland条策略轨迹存入经验存储模块中;
步骤510:采用梯度法对跟踪降落阶段的行动网络参数进行优化更新:
其中,ωk+1为k+1时刻跟踪降落阶段的行动网络参数,为设定的跟踪降落阶段的行动网络学习率,是一个超参数,为求导算子,为从经验存储模块中提取数据并计算期望估计值的符号,rt(ω)为跟踪降落阶段的重要性采样率,为当前跟踪降落阶段的行动网络,为降落过程中的控制策略函数,clip为剪裁函数,ε为设定的高度阈值,x为剪裁函数的第一参数;
步骤511:为了使跟踪降落阶段的评价网络得到准确的值函数估计值,将跟踪降落阶段的评价网络的目标函数设为状态价值函数的采样值和评价网络得到的状态价值函数估计值之间欧氏距离平方的期望值,依据该目标函数对跟踪降落阶段的评价网络参数进行梯度下降优化更新:
步骤512:当参数总迭代更新次数小于Nland时,重复步骤508~步骤512,当参数总迭代更新次数大于等于Nland时,记录渐进跟踪降落行动网络和评价网路的网络参数,并结束渐进移动阶段的参数迭代更新过程。
所述的步骤6中,将得到的两阶段各自的行动网络的最佳参数进行实施部署并应用于实际场景中的无人机降落任务的过程具体为:
当无人机与无人艇的水平距离大于等于设定的阈值时,无人机采用渐进移动阶段的控制器作为实际控制器驱动无人机向无人艇靠近;当无人机与无人艇的水平距离小于设定的阈值时,无人机采用跟踪降落阶段的控制器作为实际控制器驱动无人机向无人艇降落:
与现有技术相比,本发明具有以下优点:
一、本发明提出的基于深度强化学习的无人机无人艇协同平台端对端自主降落控制方法,在策略部署过程中仅需策略网络的前向传播过程,即可得到无人机输出的动作,无需大量的计算资源;
二、本发明通过采用基于深度强化学习的端对端降落控制算法,该算法依赖大量样本进行学习,提升了策略的鲁棒性,保证了本发明能够应用于无人船体晃动较大的场景;
三、本发明由于在策略网络和行动网络中加入了LSTM层,使得网络能够保存历史输入信息,从而对无人机的状态向量产生预测,能够在存在图片缺失和图片畸变的情况下保证较高的无人机降落成功率。
附图说明
图1为本发明的流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例
一种无人机无人艇协同平台端对端自主降落控制方法,本方法分为两阶段:第一阶段为无人机向无人艇的渐进移动阶段,第二阶段为无人机跟踪降落阶段,在渐进移动阶段,无人机向无人艇方向移动,并最终保持在无人艇上方一定高度处,当无人机与无人艇的水平距离小于设定的阈值时,将无人机控制器切换成跟踪降落阶段的控制器,无人机开始对无人船进行跟踪降落,在跟踪降落阶段,无人机在水平坐标系中跟踪无人艇的移动轨迹,并且逐步降低自身高度,最终降落至无人艇平台上,该方法包括以下步骤:
步骤1:根据无人机和无人艇各自的动力学模型,构建无人机无人艇平台自主降落仿真环境;
步骤2:将无人机向无人艇的渐进移动阶段建立为MDP(马尔可夫决策过程MarkovDecision Process)模型,并设计渐进移动阶段合适的奖励函数;
步骤3:将无人机向无人艇的跟踪降落阶段建立为POMDP(部分可观测马尔可夫决策过程Partially Observable Markov Decision Process)模型,并设定跟踪降落阶段合理的奖励函数;
步骤4:基于Actor-Critic框架对无人机分别搭建渐进移动过程和跟踪降落过程各自的行动(Actor)网络和评价(Critic)网络;
步骤5:基于PPO算法分别对渐进移动阶段的行动网络和评价网络和跟踪降落阶段的行动网络和评价网络的参数进行优化训练,得出两阶段各自行动网络和评价网络的最佳参数;
步骤6:将经过PPO算法多次迭代优化得到的两阶段各自的最佳行动网络参数进行实施部署,应用于实际场景中的无人机降落任务。
在步骤2中,无人机向无人艇的渐进移动阶段的状态向量st为无人机向无人艇渐进移动阶段中所需要的各项信息构成的向量,所述的各项信息包括无人机在时刻为t时的位置坐标、无人机在时刻为t时的速度大小、无人机在时刻为t时的飞行姿态角和无人船在时刻为t时的位置坐标。
其中,为状态空间,为动作空间,η表示初始概率分布,η(s0)∈[0,1]表示系统初始状态的概率分布,为时刻为t时的状态向量,为时刻为t时无人机的动作向量,P(st+1|st,at)∈[0,1]表示在系统状态st采取动作at后,系统状态转移到st+1的概率,为奖励函数,由当前时刻的状态向量和无人机的动作向量决定,表示时刻为t系统状态为st且无人机采取动作at时,无人机所能够获得的奖励值,γ为衰减率,表征智能体对当前奖励和未奖励重视情况;
其中,为时刻为t时无人船的状态向量,为时刻为t时无人机的状态向量,为时刻为t时无人船在地球坐标系中的三维坐标位置,为时刻为t时无人机在地球坐标系中的三维坐标位置,为时刻为t时无人机在地球坐标系中的三维速度,为时刻为t时无人机的飞行姿态角,表示时刻为t时无人机的横滚角,表示时刻为t时无人机的俯仰角,表示时刻为t时无人机的偏航角;
根据无人机的动力学模型对渐进移动阶段的动作向量at进行建模:
在步骤2中,无人机向无人艇的渐进移动阶段的总奖励函数由目标点奖励、飞行姿态奖励和高度控制奖励三部分通过线性加权得到:
目标点奖励的计算公式为:
其中,rt target为目标点奖励,α1为设定的超参数,用以调整目标点奖励在总奖励函数中的权重,当无人船和无人机的距离较远时,赋予无人机大的惩罚值以驱动无人机向无人船方向渐进移动,为无人机与无人船的实时距离,为时刻为t时无人船在地球坐标系中的二维坐标位置,为时刻为t时无人机在地球坐标系中的二维坐标位置;
飞行姿态奖励的计算公式为:
其中,rt attitude为飞行姿态奖励,飞行姿态奖励用以驱动无人机克服随机风阻干扰进行平稳的飞行过程,α2为设定的超参数,用以调整飞行姿态奖励在总奖励函数中的权重;
高度控制奖励为:
其中,rt height为高度控制奖励,α3为设定的超参数,用以调整高度控制奖励在总奖励函数中的权重,zdesired为设定的无人机期望高度,当无人机的真实高度在期望高度附近时,赋予无人机大的高度奖励,当无人机的真实高度显著高于或者显著低于期望高度时,赋予无人机大的惩罚值以驱动无人机将高度控制在期望高度附近,为时刻为t时无人机在地球坐标系中的高度坐标;
渐进移动阶段无人机的总奖励函数的计算公式为:
rt=rt height+rt target+rt attitude
其中,rt为渐进移动阶段无人机的总奖励函数。
在步骤3中,无人机向无人艇的跟踪降落阶段的状态向量st为无人机向无人艇降落过程中所需要的各项信息构成的向量,所需的各项信息包括无人机在时刻为t时的位置坐标、无人机在时刻为t时的速度大小、无人机在时刻为t时的飞行姿态角、无人船在时刻为t时的位置坐标、无人船在时刻为t时的速度大小、无人船在时刻为t时的航行姿态角以及用以表示是否已成功降落的布尔值C;
部分可观测马尔可夫决策过程模型表示在每个马尔可夫时间步,系统处在状态执行动作以P(st+1|st,at)概率转换到状态同时,系统以O(ot+1|st+1,at)概率得到一个观测向量ot+1∈Ω,并且得到一个奖励值无人机向无人艇的跟踪降落阶段的部分可观测马尔可夫决策过程模型为:
其中,为状态空间,为动作空间,η表示初始概率分布,η(s0)∈[0,1]表示系统初始状态的概率分布,为时刻为t时无人机的状态向量,为时刻为t时无人机的动作向量,P(st+1|st,at)∈[0,1]表示在系统状态st采取动作at后,系统状态转移到st+1的概率,为奖励函数,由当前时刻的状态向量和无人机的动作向量决定,表示时刻为t系统状态为st且无人机采取动作at时,无人机所能够获得的奖励值,Ω为无人机的观测结果集,O(ot|st,at-1)∈[0,1]为条件观测概率,γ为衰减率,表示智能体对当前奖励和未奖励重视情况;
其中,表示时刻为t时无人船的状态向量,表示时刻为t时无人船在地球坐标系中的三维坐标位置,表示时刻为t时无人船在地球坐标系中的三维速度,表示时刻为t时无人船的航行姿态角,其中表示时刻为t时无人船的纵摇角,表示时刻为t时无人船的横摇角,表示时刻为t时无人船的艏摇角,表示时刻为t时无人机的状态向量,表示时刻为t时无人机在地球坐标系中的三维坐标位置,表示时刻为t时无人机在地球坐标系中的三维速度,表示时刻为t时无人机的飞行姿态角,其中表示时刻为t时无人机的横滚角,表示时刻为t时无人机的俯仰角,表示时刻为t时无人机的偏航角,Ct表示无人机是否成功降落到无人船平台上,Ct=1表示时刻为t时无人机已经成功降落在无人船上,Ct=0表示时刻为t时无人机尚未降落在无人船上,Ct由无人船降落平台上的压力传感器测量得到;
在无人机跟踪降落阶段,由于民用GPS的定位精度低等问题,上述无人机和无人艇的三维坐标位置、三维速度和姿态角度等信息存在较为严重的噪声干扰,无法继续使用GPS来引导无人机来进行高精度的跟踪降落任务,因此,在跟踪降落阶段采用基于图像数据的端对端无人机跟踪降落控制方法,根据无人机向无人船上的降落过程对观测向量ot进行建模:
将由无人机携带的俯视摄像头拍摄获得的图像数据作为时刻t时的观测向量ot,时刻为t时的观测向量ot为128×128×1的灰度图像。由于跟踪降落阶段不使用GPS进行导航,因此状态向量st是无法确切得到的,在跟踪降落阶段,行动网络的输入为观测向量ot;
根据无人机的动力学模型对跟踪降落阶段的动作向量at进行建模:
在步骤3中,无人机向无人艇的渐进移动阶段的总奖励函数由越界奖励、跟踪奖励、着陆奖励、飞行姿态奖励和速度控制奖励通过线性加权得到,
越界奖励的计算公式为:
其中,为时刻为t时无人机在地球坐标系中的三维坐标位置,表示时刻为t时无人船在地球坐标系中的三维坐标位置,xmax、ymax和zmax为事先设定的坐标边界,rt over为越界奖励,表示当无人机的坐标位置超出设定的边界时,赋予无人机大的惩罚值;
跟踪奖励的计算公式为:
其中,rt target为跟踪奖励,用以使无人机始终跟踪无人船的水平坐标,即使无人机保持在无人船降落平台的正上方,β1为事先设定的超参数,用以调整跟踪奖励在总奖励函数中的权重;
飞行姿态奖励的计算公式为:
其中,rt attitude为飞行姿态奖励,用以驱动无人机在随机风阻干扰的条件下保持自身良好的飞行姿态从而进行平稳的降落过程,β2为设定的超参数,用以调整飞行姿态奖励在总奖励函数中的权重;
着陆奖励的计算公式为:
其中,rt land为着陆奖励,用以使无人机安全顺利地降落至无人船平台上,β3为设定的超参数,用以调整着陆奖励在总奖励函数中的权重,b为无人机降落平台的半径,ε为设定的高度阈值,当无人机和无人船二者的高度差小于ε时,无人机准备向无人船上降落;
速度控制奖励的计算公式为:
其中,rt speed为速度控制奖励,用以当无人机准备着陆时控制无人机的着陆速度,避免由于着陆速度过大导致的设备损坏,β4为设定的超参数,用以调整速度控制奖励在总奖励函数中的权重,ε为设定的高度阈值;
跟踪降落阶段无人机的总奖励函数计算公式为:
rt=rt over+rt target+rt attitude+rt land+rt speed
其中,rt为跟踪降落阶段无人机的总奖励函数。
对跟踪降落阶段的无人机搭建行动网络(其参数为ω),跟踪降落阶段的行动网络结构包括两层卷积层、一层LSTM层和一层全连接层,跟踪降落阶段的行动网络的输入为当前时刻无人机的观测向量ot,输出为无人机在当前时刻所要输出的动作向量
对跟踪降落阶段的无人机搭建评价网络(其参数为),跟踪降落阶段的评价结构包括两层卷积层、一层LSTM层和一层全连接层,跟踪降落阶段的评价网络的输入为当前时刻无人机的观测向量ot,输出为评价网络对无人机的当前状态价值函数的估计值。
步骤502:根据系统初始状态的概率分布η(s0)选取初始状态s0,从初始状态s0出发,无人机根据当前渐进移动阶段的行动网络的参数产生动作向量并与环境进行交互,直到当前策略与环境交互得到Bmove条策略轨迹,并将Bmove条策略轨迹存入经验存储模块中;
步骤504:采用梯度法对渐进移动阶段的行动网络参数进行优化更新:
其中,θk+1为k+1时刻时渐进移动阶段的行动网络参数,为设定的渐进移动阶段的行动网络学习率,是一个超参数,为求导算子,为从经验存储模块中提取数据并计算期望估计值的符号,rt(θ)为渐进移动阶段的重要性采样率,为当前渐进移动阶段的行动网络,为渐进移动过程中的控制策略函数,clip为剪裁函数,ε为设定的高度阈值,x为剪裁函数的第一参数;
步骤505:为了使渐进移动阶段的评价网络能够给出较为准确的值函数估计值,将其评价网络的目标函数设为状态价值函数的采样值和评价网络得到的状态价值函数估计值之间欧氏距离平方的期望值,依据该目标函数对评价网络参数进行梯度下降优化更新:
步骤506:当参数总迭代更新次数小于Nmove时,重复步骤502~步骤506,当参数总迭代更新次数大于等于Nmove时则,记录渐进移动阶段的行动网络和评价网路的参数,并结束渐进移动阶段的参数迭代更新过程;
步骤508:根据系统初始状态的概率分布η(s0)选取初始状态s0,从初始状态s0出发,无人机根据当前跟踪降落阶段的行动网络的参数产生动作向量并与环境进行交互,直到当前策略与环境交互得到Bland条策略轨迹,并将这Bland条策略轨迹存入经验存储模块中;
步骤510:采用梯度法对跟踪降落阶段的行动网络参数进行优化更新:
其中,ωk+1为k+1时刻跟踪降落阶段的行动网络参数,为设定的跟踪降落阶段的行动网络学习率,是一个超参数,为求导算子,为从经验存储模块中提取数据并计算期望估计值的符号,rt(ω)为跟踪降落阶段的重要性采样率,为当前跟踪降落阶段的行动网络,为降落过程中的控制策略函数,clip为剪裁函数,ε为设定的高度阈值,x为剪裁函数的第一参数;
步骤511:为了使跟踪降落阶段的评价网络得到准确的值函数估计值,将跟踪降落阶段的评价网络的目标函数设为状态价值函数的采样值和评价网络得到的状态价值函数估计值之间欧氏距离平方的期望值,依据该目标函数对跟踪降落阶段的评价网络参数进行梯度下降优化更新:
步骤512:当参数总迭代更新次数小于Nland时,重复步骤508~步骤512,当参数总迭代更新次数大于等于Nland时,记录渐进跟踪降落行动网络和评价网路的网络参数,并结束渐进移动阶段的参数迭代更新过程。
在步骤6中,将得到的两阶段各自的行动网络的最佳参数进行实施部署并应用于实际场景中的无人机降落任务的过程具体为:
当无人机与无人艇的水平距离大于等于设定的阈值时,无人机采用渐进移动阶段的控制器作为实际控制器驱动无人机向无人艇靠近;当无人机与无人艇的水平距离小于设定的阈值时,无人机采用跟踪降落阶段的控制器作为实际控制器驱动无人机向无人艇降落:
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的工作人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种无人机无人艇协同平台端对端自主降落控制方法,其特征在于,该方法包括以下步骤:
步骤1:根据无人机和无人艇各自的动力学模型构建无人机无人艇平台自主降落仿真环境;
步骤2:将无人机向无人艇的渐进移动阶段建立为马尔可夫决策过程模型,并设定渐进移动阶段的总奖励函数;
步骤3:将无人机向无人艇的跟踪降落阶段建立为部分可观测马尔可夫决策过程模型,并设定跟踪降落阶段的奖励函数;
步骤4:基于Actor-Critic框架对无人机分别搭建渐进移动阶段和跟踪降落阶段的行动网络和评价网络;
步骤5:基于PPO算法分别对渐进移动阶段的行动网络和评价网络和跟踪降落阶段的行动网络和评价网络的参数进行优化训练,得到两阶段各自的行动网络和评价网络的最佳参数;
步骤6:将得到的两阶段各自的行动网络的最佳参数进行实施部署并应用于实际场景中的无人机降落任务。
2.根据权利要求1所述的一种无人机无人艇协同平台端对端自主降落控制方法,其特征在于,所述的步骤2中,无人机向无人艇的渐进移动阶段的状态向量st为无人机向无人艇渐进移动阶段中所需要的各项信息构成的向量,所述的各项信息包括无人机在时刻为t时的位置坐标、无人机在时刻为t时的速度大小、无人机在时刻为t时的飞行姿态角和无人船在时刻为t时的位置坐标。
3.根据权利要求2所述的一种无人机无人艇协同平台端对端自主降落控制方法,其特征在于,所述的步骤2中,马尔可夫决策过程模型表示在每个马尔可夫时间步,系统处在状态执行动作以P(st+1|st,at)概率转换到状态并且得到一个奖励值无人机向无人艇的渐进移动过程的马尔可夫决策过程模型为:
其中,为状态空间,为动作空间,η表示初始概率分布,η(s0)∈[0,1]表示系统初始状态的概率分布,为时刻为t时的状态向量,为时刻为t时无人机的动作向量,P(st+1|st,at)∈[0,1]表示在系统状态st采取动作at后,系统状态转移到st+1的概率,为奖励函数,由当前时刻的状态向量和无人机的动作向量决定,表示时刻为t系统状态为st且无人机采取动作at时,无人机所能够获得的奖励值,γ为衰减率,表征智能体对当前奖励和未奖励重视情况;
其中,为时刻为t时无人船的状态向量,为时刻为t时无人机的状态向量,为时刻为t时无人船在地球坐标系中的三维坐标位置,为时刻为t时无人机在地球坐标系中的三维坐标位置,为时刻为t时无人机在地球坐标系中的三维速度,为时刻为t时无人机的飞行姿态角,表示时刻为t时无人机的横滚角,表示时刻为t时无人机的俯仰角,表示时刻为t时无人机的偏航角;
根据无人机的动力学模型对渐进移动阶段的动作向量at进行建模:
4.根据权利要求1所述的一种无人机无人艇协同平台端对端自主降落控制方法,其特征在于,所述的步骤2中,无人机向无人艇的渐进移动阶段的总奖励函数由目标点奖励、飞行姿态奖励和高度控制奖励三部分通过线性加权得到,渐进移动阶段无人机的总奖励函数的计算公式为:
其中,rt为渐进移动阶段无人机的总奖励函数;
目标点奖励的计算公式为:
其中,rt target为目标点奖励,α1为设定的超参数,用以调整目标点奖励在总奖励函数中的权重,当无人船和无人机的距离较远时,赋予无人机大的惩罚值以驱动无人机向无人船方向渐进移动,为无人机与无人船的实时距离,为时刻为t时无人船在地球坐标系中的二维坐标位置,为时刻为t时无人机在地球坐标系中的二维坐标位置;
飞行姿态奖励的计算公式为:
高度控制奖励的计算公式为:
5.根据权利要求1所述的一种无人机无人艇协同平台端对端自主降落控制方法,其特征在于,所述的步骤3中,无人机向无人艇的跟踪降落阶段的状态向量st为无人机向无人艇降落过程中所需要的各项信息构成的向量,所述的各项信息包括无人机在时刻为t时的位置坐标、无人机在时刻为t时的速度大小、无人机在时刻为t时的飞行姿态角、无人船在时刻为t时的位置坐标、无人船在时刻为t时的速度大小、无人船在时刻为t时的航行姿态角以及用以表示是否已成功降落的布尔值C。
6.根据权利要求5所述的一种无人机无人艇协同平台端对端自主降落控制方法,其特征在于,所述的步骤3中,部分可观测马尔可夫决策过程模型表示在每个马尔可夫时间步,系统处在状态执行动作以P(st+1|st,at)概率转换到状态同时,系统以O(ot+1|st+1,at)概率得到一个观测向量ot+1∈Ω,并且得到一个奖励值无人机向无人艇的跟踪降落阶段的部分可观测马尔可夫决策过程模型为:
其中,为状态空间,为动作空间,η表示初始概率分布,η(s0)∈[0,1]表示系统初始状态的概率分布,为时刻为t时无人机的状态向量,为时刻为t时无人机的动作向量,P(st+1|st,at)∈[0,1]表示在系统状态st采取动作at后,系统状态转移到st+1的概率,为奖励函数,由当前时刻的状态向量和无人机的动作向量决定,表示时刻为t系统状态为st且无人机采取动作at时,无人机所能够获得的奖励值,Ω为无人机的观测结果集,O(ot|st,at-1)∈[0,1]为条件观测概率,γ为衰减率,表示智能体对当前奖励和未奖励重视情况;
其中,表示时刻为t时无人船的状态向量,表示时刻为t时无人船在地球坐标系中的三维坐标位置,表示时刻为t时无人船在地球坐标系中的三维速度,表示时刻为t时无人船的航行姿态角,其中表示时刻为t时无人船的纵摇角,表示时刻为t时无人船的横摇角,表示时刻为t时无人船的艏摇角,表示时刻为t时无人机的状态向量,表示时刻为t时无人机在地球坐标系中的三维坐标位置,表示时刻为t时无人机在地球坐标系中的三维速度,表示时刻为t时无人机的飞行姿态角,其中表示时刻为t时无人机的横滚角,表示时刻为t时无人机的俯仰角,表示时刻为t时无人机的偏航角,Ct表示无人机是否成功降落到无人船平台上,Ct=1表示时刻为t时无人机已经成功降落在无人船上,Ct=0表示时刻为t时无人机尚未降落在无人船上,Ct由无人船降落平台上的压力传感器测量得到;
在无人机跟踪降落阶段采用基于图像数据的端对端无人机跟踪降落控制方法,根据无人机向无人船上的降落过程对观测向量ot进行建模:
将由无人机携带的俯视摄像头拍摄获得的图像数据作为时刻t时的观测向量ot,时刻为t时的观测向量ot为128×128×1的灰度图像,跟踪降落阶段的状态向量st无法确切得到,且在跟踪降落阶段的行动网络的输入为观测向量ot;
根据无人机的动力学模型对跟踪降落阶段的动作向量at进行建模:
7.根据权利要求1所述的一种无人机无人艇协同平台端对端自主降落控制方法,其特征在于,所述的步骤3中,无人机向无人艇的跟踪降落阶段的总奖励函数由越界奖励、跟踪奖励、着陆奖励、飞行姿态奖励和速度控制奖励通过线性加权得到,跟踪降落阶段的总奖励函数计算公式为:
其中,rt为跟踪降落阶段无人机的总奖励函数;
越界奖励的计算公式为:
其中,为时刻为t时无人机在地球坐标系中的三维坐标位置,表示时刻为t时无人船在地球坐标系中的三维坐标位置,xmax、ymax和zmax为事先设定的坐标边界,rt over为越界奖励,表示当无人机的坐标位置超出设定的边界时,赋予无人机大的惩罚值;
跟踪奖励的计算公式为:
其中,rt target为跟踪奖励,用以使无人机始终跟踪无人船的水平坐标,即使无人机保持在无人船降落平台的正上方,β1为设定的超参数,用以调整跟踪奖励在总奖励函数中的权重;
飞行姿态奖励的计算公式为:
其中,rt attitude为飞行姿态奖励,用以驱动无人机在随机风阻干扰的条件下保持自身良好的飞行姿态从而进行平稳的降落过程,β2为设定的超参数,用以调整飞行姿态奖励在总奖励函数中的权重;
着陆奖励的计算公式为:
其中,为着陆奖励,用以使无人机安全顺利地降落至无人船平台上,β3为设定的超参数,用以调整着陆奖励在总奖励函数中的权重,b为无人机降落平台的半径,ε为设定的高度阈值,当无人机和无人船二者的高度差小于ε时,无人机准备向无人船上降落;
速度控制奖励的计算公式为:
其中,rt speed为速度控制奖励,用以当无人机准备着陆时控制无人机的着陆速度,避免由于着陆速度过大导致的设备损坏,β4为设定的超参数,用以调整速度控制奖励在总奖励函数中的权重,ε为设定的高度阈值。
8.根据权利要求1所述的一种无人机无人艇协同平台端对端自主降落控制方法,其特征在于,所述的步骤4中,对渐进移动阶段的无人机搭建行动网络由三层全连接层构成,行动网络的输入为当前时刻无人机的状态向量st,输出为无人机在当前时刻所要输出的动作向量
对跟踪降落阶段的无人机搭建行动网络跟踪降落阶段的行动网络结构包括两层卷积层、一层LSTM层和一层全连接层,跟踪降落阶段的行动网络的输入为当前时刻无人机的观测向量ot,输出为无人机在当前时刻所要输出的动作向量
9.根据权利要求1所述的一种无人机无人艇协同平台端对端自主降落控制方法,其特征在于,所述的步骤5中,基于PPO算法分别对渐进移动阶段的行动网络和评价网络和跟踪降落阶段的行动网络和评价网络的参数进行优化训练的过程具体包括以下步骤:
步骤502:根据系统初始状态的概率分布η(s0)选取初始状态s0,从初始状态s0出发,无人机根据当前渐进移动阶段的行动网络的参数产生动作向量并与环境进行交互,直到当前策略与环境交互得到Bmove条策略轨迹,并将Bmove条策略轨迹存入经验存储模块中;
步骤504:采用梯度法对渐进移动阶段的行动网络参数进行优化更新:
其中,θk+1为k+1时刻时渐进移动阶段的行动网络参数,为设定的渐进移动阶段的行动网络学习率,是一个超参数,为求导算子,为从经验存储模块中提取数据并计算期望估计值的符号,rt(θ)为渐进移动阶段的重要性采样率,为当前渐进移动阶段的行动网络,为渐进移动过程中的控制策略函数,clip为剪裁函数,ε为设定的高度阈值,x为剪裁函数的第一参数;
步骤505:为了使渐进移动阶段的评价网络能够给出较为准确的值函数估计值,将其评价网络的目标函数设为状态价值函数的采样值和评价网络得到的状态价值函数估计值之间欧氏距离平方的期望值,依据该目标函数对评价网络参数进行梯度下降优化更新:
步骤506:当参数总迭代更新次数小于Nmove时,重复步骤502~步骤506,当参数总迭代更新次数大于等于Nmove时则,记录渐进移动阶段的行动网络和评价网路的参数,并结束渐进移动阶段的参数迭代更新过程;
步骤508:根据系统初始状态的概率分布η(s0)选取初始状态s0,从初始状态s0出发,无人机根据当前跟踪降落阶段的行动网络的参数产生动作向量并与环境进行交互,直到当前策略与环境交互得到Bland条策略轨迹,并将这Bland条策略轨迹存入经验存储模块中;
步骤510:采用梯度法对跟踪降落阶段的行动网络参数进行优化更新:
其中,ωk+1为k+1时刻跟踪降落阶段的行动网络参数,为设定的跟踪降落阶段的行动网络学习率,是一个超参数,为求导算子,为从经验存储模块中提取数据并计算期望估计值的符号,rt(ω)为跟踪降落阶段的重要性采样率,为当前跟踪降落阶段的行动网络,为降落过程中的控制策略函数,clip为剪裁函数,ε为设定的高度阈值,x为剪裁函数的第一参数;
步骤511:为了使跟踪降落阶段的评价网络得到准确的值函数估计值,将跟踪降落阶段的评价网络的目标函数设为状态价值函数的采样值和评价网络得到的状态价值函数估计值之间欧氏距离平方的期望值,依据该目标函数对跟踪降落阶段的评价网络参数进行梯度下降优化更新:
10.根据权利要求9所述的一种无人机无人艇协同平台端对端自主降落控制方法,其特征在于,所述的步骤6中,将得到的两阶段各自的行动网络的最佳参数进行实施部署并应用于实际场景中的无人机降落任务的过程具体为:
当无人机与无人艇的水平距离大于等于设定的阈值时,无人机采用渐进移动阶段的控制器作为实际控制器驱动无人机向无人艇靠近;当无人机与无人艇的水平距离小于设定的阈值时,无人机采用跟踪降落阶段的控制器作为实际控制器驱动无人机向无人艇降落:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210094898.8A CN114428517B (zh) | 2022-01-26 | 2022-01-26 | 一种无人机无人艇协同平台端对端自主降落控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210094898.8A CN114428517B (zh) | 2022-01-26 | 2022-01-26 | 一种无人机无人艇协同平台端对端自主降落控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114428517A true CN114428517A (zh) | 2022-05-03 |
CN114428517B CN114428517B (zh) | 2023-07-21 |
Family
ID=81313422
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210094898.8A Active CN114428517B (zh) | 2022-01-26 | 2022-01-26 | 一种无人机无人艇协同平台端对端自主降落控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114428517B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115291619A (zh) * | 2022-08-23 | 2022-11-04 | 山东大学 | 基于深度强化学习和cpg的机器人运动控制方法及系统 |
US20230400302A1 (en) * | 2022-06-13 | 2023-12-14 | Polar Research Institute Of China | Systems and methods for measuring water capacity of polar lakes |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120158222A1 (en) * | 2009-06-12 | 2012-06-21 | Saab Ab | Centering above a predetermined area of a landing platform |
US9828107B1 (en) * | 2014-08-25 | 2017-11-28 | Stc.Unm | Redundant component and intelligent computerized control system for multi-rotor VTOL aircraft |
CN108983812A (zh) * | 2018-07-25 | 2018-12-11 | 哈尔滨工业大学 | 一种无人机海上着陆的船载控制系统 |
CN111026147A (zh) * | 2019-12-25 | 2020-04-17 | 北京航空航天大学 | 基于深度强化学习的零超调量无人机位置控制方法及装置 |
CN111338375A (zh) * | 2020-02-27 | 2020-06-26 | 中国科学院国家空间科学中心 | 基于混合策略的四旋翼无人机移动降落的控制方法及系统 |
CN112947431A (zh) * | 2021-02-03 | 2021-06-11 | 海之韵(苏州)科技有限公司 | 一种基于强化学习的无人船路径跟踪方法 |
CN113110592A (zh) * | 2021-04-23 | 2021-07-13 | 南京大学 | 一种无人机避障与路径规划方法 |
CN113741449A (zh) * | 2021-08-30 | 2021-12-03 | 南京信息工程大学 | 一种面向海空协同观测任务的多智能体控制方法 |
CN113741528A (zh) * | 2021-09-13 | 2021-12-03 | 中国人民解放军国防科技大学 | 一种面向多无人机碰撞规避的深度强化学习训练加速方法 |
-
2022
- 2022-01-26 CN CN202210094898.8A patent/CN114428517B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120158222A1 (en) * | 2009-06-12 | 2012-06-21 | Saab Ab | Centering above a predetermined area of a landing platform |
US9828107B1 (en) * | 2014-08-25 | 2017-11-28 | Stc.Unm | Redundant component and intelligent computerized control system for multi-rotor VTOL aircraft |
CN108983812A (zh) * | 2018-07-25 | 2018-12-11 | 哈尔滨工业大学 | 一种无人机海上着陆的船载控制系统 |
CN111026147A (zh) * | 2019-12-25 | 2020-04-17 | 北京航空航天大学 | 基于深度强化学习的零超调量无人机位置控制方法及装置 |
CN111338375A (zh) * | 2020-02-27 | 2020-06-26 | 中国科学院国家空间科学中心 | 基于混合策略的四旋翼无人机移动降落的控制方法及系统 |
CN112947431A (zh) * | 2021-02-03 | 2021-06-11 | 海之韵(苏州)科技有限公司 | 一种基于强化学习的无人船路径跟踪方法 |
CN113110592A (zh) * | 2021-04-23 | 2021-07-13 | 南京大学 | 一种无人机避障与路径规划方法 |
CN113741449A (zh) * | 2021-08-30 | 2021-12-03 | 南京信息工程大学 | 一种面向海空协同观测任务的多智能体控制方法 |
CN113741528A (zh) * | 2021-09-13 | 2021-12-03 | 中国人民解放军国防科技大学 | 一种面向多无人机碰撞规避的深度强化学习训练加速方法 |
Non-Patent Citations (1)
Title |
---|
赵伟伟: "无人机集群编队及其避障控制关键技术研究" * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230400302A1 (en) * | 2022-06-13 | 2023-12-14 | Polar Research Institute Of China | Systems and methods for measuring water capacity of polar lakes |
US12111155B2 (en) * | 2022-06-13 | 2024-10-08 | Polar Research Institute Of China | Systems and methods for measuring water capacity of polar lakes |
CN115291619A (zh) * | 2022-08-23 | 2022-11-04 | 山东大学 | 基于深度强化学习和cpg的机器人运动控制方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114428517B (zh) | 2023-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109976349B (zh) | 一种含约束无人船的路径跟踪制导与控制结构的设计方法 | |
CN114428517A (zh) | 一种无人机无人艇协同平台端对端自主降落控制方法 | |
CN111538241B (zh) | 一种平流层飞艇水平轨迹智能控制方法 | |
CN108919640B (zh) | 无人机自适应多目标跟踪的实现方法 | |
CN107168312A (zh) | 一种补偿uuv运动学和动力学干扰的空间轨迹跟踪控制方法 | |
CN112286218B (zh) | 基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法 | |
CN112965471B (zh) | 一种考虑角速度约束和改进斥力场的人工势场路径规划方法 | |
CN113033119A (zh) | 一种基于双评论家强化学习技术的水下航行器目标区域上浮控制方法 | |
CN114879671B (zh) | 一种基于强化学习mpc的无人艇轨迹跟踪控制方法 | |
CN114077258B (zh) | 一种基于强化学习ppo2算法的无人艇位姿控制方法 | |
CN112947431A (zh) | 一种基于强化学习的无人船路径跟踪方法 | |
CN115903888B (zh) | 一种基于天牛群算法的旋翼无人机自主路径规划方法 | |
CN113268074A (zh) | 一种基于联合优化的无人机航迹规划方法 | |
CN114995468B (zh) | 一种基于贝叶斯深度强化学习的水下机器人智能控制方法 | |
CN116679711A (zh) | 一种基于有模型与无模型强化学习的机器人避障方法 | |
CN116697829A (zh) | 一种基于深度强化学习的火箭着陆制导方法及系统 | |
CN115079565A (zh) | 变系数的带落角约束制导方法、装置和飞行器 | |
CN117215196B (zh) | 基于深度强化学习的舰载综合控制计算机智能决策方法 | |
CN114840928B (zh) | 一种基于深度学习的水下航行器集群运动仿真方法 | |
CN109101035B (zh) | 一种用于高空滑翔uuv纵平面弹道控制的方法 | |
CN115303455B (zh) | 水下仿生机器人运动控制方法、装置、设备及存储介质 | |
CN116679710A (zh) | 一种基于多任务学习的机器人避障策略训练与部署方法 | |
CN114740882B (zh) | 一种无人机保证可视性的弹性目标跟踪的轨迹生成方法 | |
Lagoda et al. | Dynamic Reward in DQN for Autonomous Navigation of UAVs Using Object Detection | |
CN113359471B (zh) | 基于协状态辅助的自适应动态规划最优控制方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |