CN114326438A - 基于控制障碍函数的安全强化学习四旋翼控制系统及方法 - Google Patents
基于控制障碍函数的安全强化学习四旋翼控制系统及方法 Download PDFInfo
- Publication number
- CN114326438A CN114326438A CN202111660133.8A CN202111660133A CN114326438A CN 114326438 A CN114326438 A CN 114326438A CN 202111660133 A CN202111660133 A CN 202111660133A CN 114326438 A CN114326438 A CN 114326438A
- Authority
- CN
- China
- Prior art keywords
- control
- controller
- reinforcement learning
- aerial vehicle
- unmanned aerial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 74
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000006870 function Effects 0.000 title claims description 28
- 238000004088 simulation Methods 0.000 claims abstract description 36
- 230000004888 barrier function Effects 0.000 claims abstract description 25
- 238000005457 optimization Methods 0.000 claims abstract description 18
- 230000009471 action Effects 0.000 claims description 22
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 230000001133 acceleration Effects 0.000 claims description 3
- 230000000087 stabilizing effect Effects 0.000 claims 1
- 230000000052 comparative effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 230000007774 longterm Effects 0.000 description 4
- 230000001186 cumulative effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000005484 gravity Effects 0.000 description 2
- 238000005096 rolling process Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明公开了一种基于控制障碍函数的安全强化学习四旋翼控制系统,包括仿真平台和控制器,所述接收仿真模型输出的状态量,向无人机或仿真模型输出控制指令,所述控制器包括强化学习子控制器和控制障碍函数子控制器,通过控制障碍函数与近端策略优化法结合的方式,解决了强化学习类的控制器安全性低的问题,提高了系统的稳定性。
Description
技术领域
本发明涉及一种基于控制障碍函数的安全强化学习四旋翼控制方法,属于无人机控制技术领域。
背景技术
四旋翼作为一个典型的多输入多输出的非线性系统,具有强耦合,欠驱动等等一系列控制难点。随着人工智能的发展,基于强化学习的四旋翼控制被广为研究。
强化学习(Reinforcement Learning,RL)是一种专注于寻找最大化长期奖励的智能体策略算法。强化学习通过不断观测环境状态,并基于环境采用相应的策略以获得环境反馈得到的奖励。随着时间的不断推移,强化学习方法利用与环境交互获得到的数据训练自身策略以最大化长期累计汇报。
但是,现有的基于强化学习的四旋翼控制方法往往只侧重于最大化长期回报,导致智能体在探索过程中出现不安全的策略行为,这使得现有强化学习方法在很难应用于实际的硬件部署。
现有技术中还具有基于安全的强化学习方法,基于安全的强化学习方法在尝试学习一个能最大化预期回报的同时,其策略需满足某些特定的安全约束。然而,这些方法都是基于model-free的方法,很难保证在没有模型借鉴的情况下智能体学习过程的安全性,该类方法只实现在足够的学习时间后,智能体策略的近似安全。
因此,有必要研究一种能够解决上述问题的基于强化学习的四旋翼控制方法。
发明内容
为了克服上述问题,本发明人进行了深入研究,一方面,设计出一种基于控制障碍函数的安全强化学习四旋翼控制系统,其特征在于,包括仿真平台和控制器,
所述仿真平台用于对无人机运动状态进行仿真,其接收控制指令,输出无人机的状态量,
所述接收仿真模型输出的状态量,向无人机或仿真模型输出控制指令。
优选地,所述仿真平台包括电机执行器、电机转矩分配和四旋翼动力学模型,
所述电机执行器表示为:
r=Cr*u+Wb
T=Ct*r2
M=Cm*r2
其中,Cr为电机转速比例参数,Wb为电机转速偏置参数,Ct为螺旋桨推力系数,Cm为螺旋桨扭力系数;
所述电机转矩分配用于分配无人机不同电机的功率;
所述四旋翼动力学模型表示为:
其中,u0表示升力,u1表示滚转力矩,u2表示俯仰力矩,u3表示偏航力矩,m表示无人机质量,g表示重力加速度,Jyy,Jzz,Jxx表示无人机三轴的转动惯量,JR表示电机转子和螺旋桨绕机体转轴的总转动惯量,ΩR表示电机转速,L表示电机到无人机质心的距离。
优选地,所述控制器包括强化学习子控制器和控制障碍函数子控制器,
所述强化学习子控制器包括一个神经网络,其通过给定的初始策略的条件下,通过不断的优化策略,对神经网络进行训练,使得训练后的神经网络实现最大化累计奖励,其输入为无人机的状态量x,输出为强化学习后的动作指令url;
所述控制障碍函数子控制器,基于无人机的状态量x,对强化学习后的动作指令url进行修正,使其满足安全性保证,输出修正后的控制指令ucbf;
无人机的状态量x表示为:
其中,px,y,pz表示无人机的三轴位置信息,表示滚转角,θ表示俯仰角,ψ表示偏航角。
优选地,在强化学习子控制器中采用近端策略优化法。
优选地,在强化学习子控制器中,将近端策略优化法的奖励设置为当前时刻和上一时刻的距离差,减去加权后的动作指令url和控制指令ucbf的绝对值。
优选地,所述控制障碍函数子控制器中采用控制障碍函数法对强化学习后的动作指令url进行修正,通过设置安全性条件,采用约束使得无人机的姿态稳定到一个固定的范围内,
所述安全性条件为:φ,θ的角度在[-∈,∈]之间,
所述约束为:
α11、α10、α21、α20、α31、α30、α41、α40为参数,每个参数均满足:Fb-Gbα属于hurwitz矩阵,
其中,α∈[α11,α10,α21,α20,α31,α30,α41,α40];
优选地,所述控制障碍函数子控制器设置为:
另一方面,本发明还提供了一种基于控制障碍函数的安全强化学习四旋翼控制方法,包括以下步骤:
S1、建立仿真平台;
S2、设置控制器结构;
S3、对设置的控制器结构进行训练,获得最终的控制器。
优选地,在S2中,所述控制器包括强化学习子控制器和控制障碍函数子控制器;
在强化学习子控制器中采用近端策略优化法,近端策略优化法中状态设置为无人机的状态量x和目标位置,状态量表示为动作设置为无人机不同电机对应的占空比,奖励设置为当前时刻和上一时刻的距离差,减去加权后的动作指令url和控制指令ucbf的绝对值。
优选地,在S3中,进行强化学习训练,训练过程按照如下步骤迭代进行:
强化学习子控制器基于无人机状态信息、目标位置信息,生成相应的强化学习控制指令url;
控制障碍函数子控制器基于无人机状态信息,对强化学习控制指令url进行修正,使其满足安全性保证,输出修正后的控制指令ucbf;
仿真平台接收修正后的控制指令ucbf,根据指令进行仿真,输出无人机的无人机状态信息。
本发明所具有的有益效果包括:
(1)将强化学习方法与控制障碍函数结合在一起,共同解决了强化学习类的控制器安全性低的问题;
(2)强化学习的效果更好,奖励梯度异常率降低,提高了稳定性。
附图说明
图1示出根据本发明一种优选实施方式的基于控制障碍函数的安全强化学习四旋翼控制系统整体结构示意图;
图2示出根据本发明一种优选实施方式的基于控制障碍函数的安全强化学习四旋翼控制系统仿真平台结构示意图;
图3示出根据本发明实验例1中强化学习奖励曲线对比图;
图4示出根据本发明实验例1中无人机安全性百分比对比图;
图5示出根据本发明实验例1中无人机到达目标点百分比对比图。
具体实施方式
下面通过附图和实施例对本发明进一步详细说明。通过这些说明,本发明的特点和优点将变得更为清楚明确。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
本发明公开了一种基于控制障碍函数的安全强化学习四旋翼控制系统,包括仿真平台和控制器,如图1所示。
所述仿真平台用于对无人机运动状态进行仿真,其接收控制指令u,输出无人机的状态量。
所述控制器用于生成无人机控制指令,其内设置有神经网络,接收仿真模型输出的状态量,向无人机或仿真模型输出控制指令。
所述无人机的状态量x表示为:
其中,px,py,pz表示无人机的三轴位置信息,φ表示滚转角,θ表示俯仰角,ψ表示偏航角。
根据本发明,所述仿真平台可以采用任意一种无人机仿真平台,优选为数字模拟平台,更优选地,所述仿真平台包括电机执行器、电机转矩分配和四旋翼动力学模型,如图2所示。
所述电机执行器接收控制指令u,输出电机升力T和电机力矩M,
在一个优选的实施方式中,选择电机为线性表达的电机执行器,该电机执行器结构简单,运算量小,能够快速获得仿真结果,虽然该模型与真实无人机运行结果具有一定的误差,但实际检测此误差对控制器的训练过程影响较小。
所述电机执行器可以表示为:
其中,Cr为电机转速比例参数,Wb为电机转速偏置参数,Ct为螺旋桨推力系数,Cm为螺旋桨扭力系数。
所述电机转矩分配用于分配无人机不同电机的功率,可按照实际需要进行设置,例如,采用十字无人机电机排布时,所述电机转矩分配为:
其中,τ0表示无人机的总升力,τ1、τ2、τ3表示无人机的三轴力矩。
进一步地,所述四旋翼动力学模型表示为:
其中,u0表示升力,u1表示滚转力矩,u2表示俯仰力矩,u3表示偏航力矩,m表示无人机质量,g表示重力加速度,Jyy,Jzz,Jxx表示无人机三轴的转动惯量,JR表示电机转子和螺旋桨绕机体转轴的总转动惯量,ΩR表示电机转速,L表示电机到无人机质心的距离。
根据式一和式四,无人机的状态量x可以表示为:
在本发明中,所述控制器包括强化学习子控制器和控制障碍函数子控制器。
与传统的强化学习神经网络相同,所述强化学习子控制器包括一个神经网络,其通过给定的初始策略π(a|s)的条件下,通过不断的优化策略π(a|s),对神经网络进行训练,使得训练后的神经网络实现最大化累计奖励,其输入为无人机的状态量x,输出为强化学习后的动作指令url。
在本发明中,对所述神经网络的具体结构不做特别限定,可以采用任意一种在强化学习中常用的神经网络。
优选地,在强化学习子控制器中采用近端策略优化法(Proximal PolicyOptimization,PPO),以增强对数据的利用效率,提高算法的稳定性。
所述近端策略优化法为一种经典的深度强化学习方法,可以从Open AI项目获取,其具体在本发明中不做赘述。
传统的强化学习四旋翼控制系统,仅具有强化学习子控制器,通过强化学习子控制器生成无人机的控制指令,此种方式只侧重于最大化长期回报,常导致控制指令超出无人机的硬件承载能力。
在本发明中,通过设置控制障碍函数子控制器,保证仿真平台在执行最终动作时,仍是有安全性保障。
所述控制障碍函数子控制器,基于无人机的状态量x,对强化学习后的动作指令url进行修正,使其满足安全性保证,输出修正后的控制指令ucbf。
根据本发明,所述控制障碍函数子控制器采用控制障碍函数法(Control BarrierFunction,CBF)对强化学习后的动作指令url进行修正。
所述控制障碍函数法为ECC 2019年的tutorial paper中Control BarrierFunctions:Theory and Application介绍的方法,该方法通过定义安全集合,采用约束将系统状态维持在安全集合中。
进一步地,在控制障碍函数子控制器中,设置安全性条件,采用约束使得无人机的姿态稳定到一个固定的范围内。
具体地,所述安全性条件为:φ,θ的角度在[-∈,∈]之间,对应的边界函数h为:
即:
边界函数的微分为:
进一步地,在本发明中,将所述控制障碍函数子控制器的约束限制为:
即:
根据式八及式十,可获得控制障碍函数子控制器最终可表示为:
其中,α11、α10、α21、α20、α31、α30、α41、α40为参数,每个参数均满足:Fb-Gbα属于hurwitz矩阵,
其中,α∈[α11,α10,α21,α20,α31,α30,α41,α40];
所述hurwitz矩阵是由Adolf Hurwitz在1895年建立的一种矩阵形式,为稳定控制中常用的矩阵之一。
根据本发明一个优选的实施方式,在强化学习子控制器中,将近端策略优化法的奖励设置为当前时刻和上一时刻的距离差,减去加权后的动作指令url和控制指令ucbf的绝对值,表示为:
r=(dl-dc)-β|ucbf-url|
其中,r表示奖励,dl为无人机上一时刻距离目标位置的距离,dc为当前无人机距离目标的位置,β|ucbf-url|为对控制障碍函数子控制器的惩罚项,β为标量参数,本领域技术人员可根据经验设置。
本发明还公开了一种基于控制障碍函数的安全强化学习四旋翼控制方法,包括以下步骤:
S1、建立仿真平台;
S2、设置控制器结构;
S3、对设置的控制器结构进行训练,获得最终的控制器。
根据本发明,S1、S2的执行顺序可以相互更换。
在S1中,所述仿真平台可以采用任意一种无人机仿真平台,优选为数字模拟平台,更优选地,所述仿真平台为上述包括电机执行器、电机转矩分配和四旋翼动力学模型的仿真平台。
在S2中,所述控制器包括强化学习子控制器和控制障碍函数子控制器。
在强化学习子控制器中采用近端策略优化法,近端策略优化法中状态设置为无人机的状态量x和目标位置,状态量表示为动作设置为无人机不同电机对应的占空比,奖励设置为当前时刻和上一时刻的距离差,减去加权后的动作指令url和控制指令ucbf的绝对值,表示为:
r=(dl-dc)-β|ucbf-url|
其中,r表示奖励,dl为无人机上一时刻距离目标位置的距离,dc为当前无人机距离目标的位置,α|ucbf-url|为对控制障碍函数子控制器的惩罚项,β为标量参数。。
控制障碍函数子控制器采用控制障碍函数法,设置安全性条件为φ,θ的角度在[-∈,∈]之间,设置对应的约束限制为:
则所述控制障碍函数子控制器设置为:
其中,α11、α10、α21、α20、α31、α30、α41、α40为参数,每个参数均满足:Fb-Gbα属于hurwitz矩阵,
其中,α∈[α11,α10,α21,α20,α31,α30,α41,α40];
在S3中,进行强化学习训练,训练过程按照如下步骤迭代进行:
强化学习子控制器基于无人机状态信息、目标位置信息,生成相应的强化学习控制指令url;
控制障碍函数子控制器基于无人机状态信息,对强化学习控制指令url进行修正,使其满足安全性保证,输出修正后的控制指令ucbf;
仿真平台接收修正后的控制指令ucbf,根据指令进行仿真,输出无人机的无人机状态信息。
实施例
实施例1
进行四旋翼无人机的位置控制实验,四旋翼无人机从x=0,y=[-1.5,1.5],z=0位置出发,到x=0,y=0,z=1位置,其中四旋翼的俯仰滚转姿态为[-10°,10°]。
所述仿真平台如图2所示,包括电机执行器、电机转矩分配和四旋翼动力学模型。
所述电机执行器可以表示为:
r=Cr*u+Wb
T=Ct*r2
M=Cm*r2
电机采用十字排布,电机转矩分配为:
τ0=T0+T1+T2+T3
τ1=T1-T0
τ2=T3-T2
τ3=M3+M2-M1-M0
所述四旋翼动力学模型表示为:
所述控制器包括强化学习子控制器和控制障碍函数子控制器,在强化学习子控制器中采用近端策略优化法,其中,状态设置为无人机的状态量x和目标位置,状态量表示为 动作设置为无人机不同电机对应的占空比,奖励设置为当前时刻和上一时刻的距离差,减去加权后的RL动作和CBF动作的绝对值,表示为:
r=(dl-dc)-α|ucbf-url|
控制障碍函数子控制器采用控制障碍函数法,设置安全性条件为φ,θ的角度在[-∈,∈]之间,设置对应的约束限制为:
则所述控制障碍函数子控制器设置为:
其中,
Jxx=0.0175
Jyy=0.0175
Jzz=0.0318
JR=9.9e-5
m=1.50
L=0.450
其中,α11、α10、α21、α20、α31、α30、α41、α40为参数,每个参数均满足:Fb-Gbα属于hurwitz矩阵,
其中,α∈[α11,α10,α21,α20,α31,α30,α41,α40];
在本实施例中,∈设置为45度,即∈=π/4。
对设置的控制器结构进行训练,获得最终的控制器。
实施例2
进行与实施例1相同的实验,区别在于,∈设置为60度,即∈=π/3。
对比例1
进行与实施例1相同的实验,区别在于,不设置控制障碍函数子控制器,近端策略优化中的奖励为:
r=(dl-dc)
对比例2
进行与对比例1相同的实验,区别在于,∈设置为60度,即∈=π/3。
实验例
对比实施例1、实施例2、对比例1、对比例2的获得的控制器的性能,
其中强化学习奖励曲线对比图如图3所示,无人机安全性百分比对比图如图4所示,无人机到达目标点百分比对比图如图5所示,从图3~5上可以看出,实施例1、实施例2能够在整个训练阶段都保证四旋翼的安全性,在对其动作进行限制后其实际的效果也达到了较为安全的效果。
在本发明的描述中,需要说明的是,术语“上”、“下”、“内”、“外”、“前”、“后”等指示的方位或位置关系为基于本发明工作状态下的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”、“第四”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”“相连”“连接”应作广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体的连接普通;可以是机械连接,也可以是电连接;可以是直接连接,也可以通过中间媒介间接连接,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
以上结合了优选的实施方式对本发明进行了说明,不过这些实施方式仅是范例性的,仅起到说明性的作用。在此基础上,可以对本发明进行多种替换和改进,这些均落入本发明的保护范围内。
Claims (10)
1.一种基于控制障碍函数的安全强化学习四旋翼控制系统,其特征在于,包括仿真平台和控制器,
所述仿真平台用于对无人机运动状态进行仿真,其接收控制指令,输出无人机的状态量,
所述控制器接收仿真模型输出的状态量,向无人机或仿真模型输出控制指令。
2.根据权利要求1所述的基于控制障碍函数的安全强化学习四旋翼控制系统,其特征在于,
所述仿真平台包括电机执行器、电机转矩分配和四旋翼动力学模型,
所述电机执行器表示为:
r=Cr*u+Wb
T=Ct*r2
M=Cm*r2
其中,Cr为电机转速比例参数,Wb为电机转速偏置参数,Ct为螺旋桨推力系数,Cm为螺旋桨扭力系数;
所述电机转矩分配用于分配无人机不同电机的功率;
所述四旋翼动力学模型表示为:
其中,u0表示升力,u1表示滚转力矩,u2表示俯仰力矩,u3表示偏航力矩,m表示无人机质量,g表示重力加速度,Jyy,Jzz,Jxx表示无人机三轴的转动惯量,JR表示电机转子和螺旋桨绕机体转轴的总转动惯量,ΩR表示电机转速,L表示电机到无人机质心的距离。
3.根据权利要求1所述的基于控制障碍函数的安全强化学习四旋翼控制系统,其特征在于,
所述控制器包括强化学习子控制器和控制障碍函数子控制器,
所述强化学习子控制器包括一个神经网络,其通过给定的初始策略的条件下,通过不断的优化策略,对神经网络进行训练,使得训练后的神经网络实现最大化累计奖励,其输入为无人机的状态量x,输出为强化学习后的动作指令url;
所述控制障碍函数子控制器,基于无人机的状态量x,对强化学习后的动作指令url进行修正,使其满足安全性保证,输出修正后的控制指令ucbf;
无人机的状态量x表示为:
其中,px,py,pz表示无人机的三轴位置信息,φ表示滚转角,θ表示俯仰角,ψ表示偏航角。
4.根据权利要求3所述的基于控制障碍函数的安全强化学习四旋翼控制系统,其特征在于,
在强化学习子控制器中采用近端策略优化法。
5.根据权利要求3所述的基于控制障碍函数的安全强化学习四旋翼控制系统,其特征在于,
在强化学习子控制器中,将近端策略优化法的奖励设置为当前时刻和上一时刻的距离差,减去加权后的动作指令url和控制指令ucbf的绝对值。
8.一种基于控制障碍函数的安全强化学习四旋翼控制方法,包括以下步骤:
S1、建立仿真平台;
S2、设置控制器结构;
S3、对设置的控制器结构进行训练,获得最终的控制器。
10.根据权利要求8所述的基于控制障碍函数的安全强化学习四旋翼控制方法,其特征在于,
在S3中,进行强化学习训练,训练过程按照如下步骤迭代进行:
强化学习子控制器基于无人机状态信息、目标位置信息,生成相应的强化学习控制指令url;
控制障碍函数子控制器基于无人机状态信息,对强化学习控制指令url进行修正,使其满足安全性保证,输出修正后的控制指令ucbf;
仿真平台接收修正后的控制指令ucbf,根据指令进行仿真,输出无人机的无人机状态信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111660133.8A CN114326438B (zh) | 2021-12-30 | 2021-12-30 | 基于控制障碍函数的安全强化学习四旋翼控制系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111660133.8A CN114326438B (zh) | 2021-12-30 | 2021-12-30 | 基于控制障碍函数的安全强化学习四旋翼控制系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114326438A true CN114326438A (zh) | 2022-04-12 |
CN114326438B CN114326438B (zh) | 2023-12-19 |
Family
ID=81018671
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111660133.8A Active CN114326438B (zh) | 2021-12-30 | 2021-12-30 | 基于控制障碍函数的安全强化学习四旋翼控制系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114326438B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115098941A (zh) * | 2022-05-31 | 2022-09-23 | 复旦大学 | 面向智能算法敏捷部署的无人机数字孪生控制方法和平台 |
CN116483107A (zh) * | 2023-05-11 | 2023-07-25 | 哈尔滨工业大学(深圳) | 一种四旋翼无人机的非级联控制障碍函数 |
CN116880213A (zh) * | 2023-08-16 | 2023-10-13 | 北京航空航天大学 | 无人机抗干扰安全控制方法及相关产品 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104950695A (zh) * | 2015-07-15 | 2015-09-30 | 浙江工业大学 | 一种通用的无人机视觉仿真平台 |
CN109696830A (zh) * | 2019-01-31 | 2019-04-30 | 天津大学 | 小型无人直升机的强化学习自适应控制方法 |
CN110470306A (zh) * | 2019-08-27 | 2019-11-19 | 中山大学 | 一种可保证连通性约束的基于深度强化学习的多机器人编队导航方法 |
CN110879595A (zh) * | 2019-11-29 | 2020-03-13 | 江苏徐工工程机械研究院有限公司 | 一种基于深度强化学习的无人矿卡循迹控制系统及方法 |
CN112818463A (zh) * | 2021-01-21 | 2021-05-18 | 清华大学 | 一种多模态陆空两栖车辆平台仿真系统 |
CN112936290A (zh) * | 2021-03-25 | 2021-06-11 | 西湖大学 | 一种基于分层强化学习的四足机器人运动规划方法 |
CN113485443A (zh) * | 2021-08-10 | 2021-10-08 | 北京宇系航通科技有限公司 | 基于深度学习的无人机控制方法、存储介质及设备 |
CN113534668A (zh) * | 2021-08-13 | 2021-10-22 | 哈尔滨工程大学 | 基于最大熵的演员-评论家框架的auv运动规划方法 |
CN113625757A (zh) * | 2021-08-12 | 2021-11-09 | 中国电子科技集团公司第二十八研究所 | 一种基于强化学习和注意力机制的无人机群调度方法 |
US20210365596A1 (en) * | 2019-12-23 | 2021-11-25 | Hrl Laboratories, Llc | Automated system for generating approximate safety conditions for monitoring and verification |
CN113703319A (zh) * | 2021-08-26 | 2021-11-26 | 合肥工业大学 | 基于强化学习的关节模组不等式约束最优鲁棒控制方法 |
CN113741533A (zh) * | 2021-09-16 | 2021-12-03 | 中国电子科技集团公司第五十四研究所 | 一种基于模仿学习与强化学习的无人机智能决策系统 |
CN113759751A (zh) * | 2020-10-30 | 2021-12-07 | 北京京东乾石科技有限公司 | 一种基于仿真系统的强化学习方法、装置和系统 |
CN113805483A (zh) * | 2021-09-17 | 2021-12-17 | 中国人民解放军国防科技大学 | 基于模型预测的机器人控制方法、装置和计算机设备 |
-
2021
- 2021-12-30 CN CN202111660133.8A patent/CN114326438B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104950695A (zh) * | 2015-07-15 | 2015-09-30 | 浙江工业大学 | 一种通用的无人机视觉仿真平台 |
CN109696830A (zh) * | 2019-01-31 | 2019-04-30 | 天津大学 | 小型无人直升机的强化学习自适应控制方法 |
CN110470306A (zh) * | 2019-08-27 | 2019-11-19 | 中山大学 | 一种可保证连通性约束的基于深度强化学习的多机器人编队导航方法 |
CN110879595A (zh) * | 2019-11-29 | 2020-03-13 | 江苏徐工工程机械研究院有限公司 | 一种基于深度强化学习的无人矿卡循迹控制系统及方法 |
US20210365596A1 (en) * | 2019-12-23 | 2021-11-25 | Hrl Laboratories, Llc | Automated system for generating approximate safety conditions for monitoring and verification |
CN113759751A (zh) * | 2020-10-30 | 2021-12-07 | 北京京东乾石科技有限公司 | 一种基于仿真系统的强化学习方法、装置和系统 |
CN112818463A (zh) * | 2021-01-21 | 2021-05-18 | 清华大学 | 一种多模态陆空两栖车辆平台仿真系统 |
CN112936290A (zh) * | 2021-03-25 | 2021-06-11 | 西湖大学 | 一种基于分层强化学习的四足机器人运动规划方法 |
CN113485443A (zh) * | 2021-08-10 | 2021-10-08 | 北京宇系航通科技有限公司 | 基于深度学习的无人机控制方法、存储介质及设备 |
CN113625757A (zh) * | 2021-08-12 | 2021-11-09 | 中国电子科技集团公司第二十八研究所 | 一种基于强化学习和注意力机制的无人机群调度方法 |
CN113534668A (zh) * | 2021-08-13 | 2021-10-22 | 哈尔滨工程大学 | 基于最大熵的演员-评论家框架的auv运动规划方法 |
CN113703319A (zh) * | 2021-08-26 | 2021-11-26 | 合肥工业大学 | 基于强化学习的关节模组不等式约束最优鲁棒控制方法 |
CN113741533A (zh) * | 2021-09-16 | 2021-12-03 | 中国电子科技集团公司第五十四研究所 | 一种基于模仿学习与强化学习的无人机智能决策系统 |
CN113805483A (zh) * | 2021-09-17 | 2021-12-17 | 中国人民解放军国防科技大学 | 基于模型预测的机器人控制方法、装置和计算机设备 |
Non-Patent Citations (2)
Title |
---|
ENDER ÇETIN 等: "Drone Navigation and Avoidance of Obstacles Through Deep Reinforcement Learning", 2019 IEEE/AIAA 38TH DIGITAL AVIONICS SYSTEMS CONFERENCE (DASC) * |
裴培 等: "一种深度强化学习制导控制一体化算法", 宇航学报, vol. 42, no. 10 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115098941A (zh) * | 2022-05-31 | 2022-09-23 | 复旦大学 | 面向智能算法敏捷部署的无人机数字孪生控制方法和平台 |
CN115098941B (zh) * | 2022-05-31 | 2023-08-04 | 复旦大学 | 面向智能算法敏捷部署的无人机数字孪生控制方法和平台 |
CN116483107A (zh) * | 2023-05-11 | 2023-07-25 | 哈尔滨工业大学(深圳) | 一种四旋翼无人机的非级联控制障碍函数 |
CN116880213A (zh) * | 2023-08-16 | 2023-10-13 | 北京航空航天大学 | 无人机抗干扰安全控制方法及相关产品 |
CN116880213B (zh) * | 2023-08-16 | 2024-02-13 | 北京航空航天大学 | 无人机抗干扰安全控制方法及相关产品 |
Also Published As
Publication number | Publication date |
---|---|
CN114326438B (zh) | 2023-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114326438B (zh) | 基于控制障碍函数的安全强化学习四旋翼控制系统及方法 | |
CN108445766B (zh) | 基于rpd-smc和rise的无模型四旋翼无人机轨迹跟踪控制器及方法 | |
CN106647781B (zh) | 基于重复控制补偿神经模糊pid四旋翼飞行器的控制方法 | |
CN107065902B (zh) | 基于非线性模型的无人机姿态模糊自适应预测控制方法及系统 | |
CN106054922B (zh) | 一种无人机-无人车联合编队协同控制方法 | |
CN112987567B (zh) | 非线性系统的固定时间自适应神经网络滑模控制方法 | |
Goecks et al. | Efficiently combining human demonstrations and interventions for safe training of autonomous systems in real-time | |
CN110262494B (zh) | 一种同构多无人艇系统的协同学习与编队控制方法 | |
CN109933021A (zh) | 考虑车辆动力学参数不确定性的车辆队列稳定性控制方法 | |
CN111273688B (zh) | 基于事件触发的四旋翼无人机一致性编队控制方法 | |
CN114578691A (zh) | 考虑舵面故障的飞翼无人机主动抗扰容错姿态控制方法 | |
CN106200665A (zh) | 携带不确定负载的四轴飞行器的建模与自适应控制方法 | |
CN114935943A (zh) | 一种无人机与无人车集群编队跟踪控制方法及系统 | |
CN117850212A (zh) | 基于非奇异终端滑模的四旋翼无人机姿态跟踪控制方法 | |
CN114967716A (zh) | 一种基于四元数球面线性插值的固定翼飞机姿态控制方法 | |
Bingöl et al. | Fixed-time neuro-sliding mode controller design for quadrotor UAV transporting a suspended payload | |
CN106292297A (zh) | 基于pid控制器和l1自适应控制器的姿态控制方法 | |
CN114253137A (zh) | 基于控制分配的无人机系统故障诊断与容错控制方法 | |
CN111413994B (zh) | 一种四旋翼无人机直接自适应模糊控制方法 | |
CN116107339B (zh) | 一种推力损失故障下的蜂群无人机容错协同控制方法 | |
CN114995163B (zh) | 一种无人机免疫控制方法 | |
CN114995521B (zh) | 多无人机分布式编队控制方法、装置及电子设备 | |
Bakshi et al. | Indirect model reference adaptive control of quadrotor UAVs using neural networks | |
CN116627156A (zh) | 一种四旋翼无人机姿态抗扰控制方法 | |
CN116449714A (zh) | 一种多航天器追捕博弈轨道控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |