CN114115358B - 一种基于高斯强化学习的信号源遍历方法 - Google Patents

一种基于高斯强化学习的信号源遍历方法 Download PDF

Info

Publication number
CN114115358B
CN114115358B CN202111215372.2A CN202111215372A CN114115358B CN 114115358 B CN114115358 B CN 114115358B CN 202111215372 A CN202111215372 A CN 202111215372A CN 114115358 B CN114115358 B CN 114115358B
Authority
CN
China
Prior art keywords
aerial vehicle
unmanned aerial
function
representing
square
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111215372.2A
Other languages
English (en)
Other versions
CN114115358A (zh
Inventor
吕强
林维雨
傅琳
尹克
张波涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202111215372.2A priority Critical patent/CN114115358B/zh
Publication of CN114115358A publication Critical patent/CN114115358A/zh
Application granted granted Critical
Publication of CN114115358B publication Critical patent/CN114115358B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/12Target-seeking control

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种基于高斯强化学习的信号源遍历方法。首先离散化任务环境,并在离散化的环境中,确定每一个方格的中心位置;然后,根据当前检测到的信号强度信息和历史检测到的信号强度信息,采用高斯过程方法预测区域内每一个方格中心位置的信号强度信息,并将该信号强度信息作为强化学习中对应的奖励函数;根据奖励函数,计算每一个方格的状态值函数,并依据状态值函数,采用滚动优化思想,得到最优方格序列,并将第一个方格作为四旋翼无人机下一步的目标位置;开发了预测控制方法,能够根据目标位置,控制四旋翼无人机沿着光滑的轨迹到达目标位置,最后完成信号源遍历任务。本发明采用的方法可以有效提高信号源遍历速度,缩短飞行路径。

Description

一种基于高斯强化学习的信号源遍历方法
技术领域
本发明属于自动化技术领域,具体涉及一种基于高斯强化学习的信号源遍历方法。
背景技术
信号源遍历问题是近年来机器人领域中的一个热门方向,例如在生物、化学、辐射、火灾等环境中,均需要控制机器人实施信号源遍历任务,构建环境信号强度的分布地图。传统的信号源遍历方法,通常采用定向传感器,收集信号强度信息,利用粒子滤波、进化粒子滤波等方法判断信号源所处位置,然后利用PID控制等方法,控制机器人到达该位置。然而,使用定向方向的传感器限制了机器人运动,特别是四旋翼无人机的灵活性,因此,现在多使用非定向方向的传感器用来检测环境信号强度信息。此外,传统的信号源遍历方法,采用四旋翼无人机时,无法有效利用非定向传感器所获得的信号强度信息。特别是对于多信号源遍历时,传统的方法仍然采用人工设定的判断准则完成信号源遍历,然而这样的遍历路径往往不是最优的。再次,由于预测的信号源位置随着信号强度信息的接收不断变动,导致无人机运动时轨迹不光滑,并且方向变动频繁,影响硬件寿命。在这一背景下,本发明弥补了现有技术的不足。
发明内容
本发明的目标是针对现有技术的不足之处,提出了一种基于高斯强化学习的信号源遍历方法。该方法针对无定向方向传感器,采用高斯强化学习获得信号源遍历最优路径。采用预测控制方法控制无人机,根据最优路径实施信号源遍历任务,获得信号强度分布地图。
为了实现以上发明目的,本发明的具体步骤如下:
第一步:准备工作和模型计算;具体步骤如下:
a.将任务区域进行网格化处理,
b.设计四旋翼无人机的动力学模型,
c.设计X型四旋翼无人机姿态动力学模型
第二步:基于采集到的信号强度信息,通过高斯过程回归预测任务区域内各网格的信号强度。
第三步:计算状态值函数;基于高斯过程对每一个方格中心位置sij的信号强度的预测,作为状态行为奖励,借助强化学习的思想,进一步计算每一个方格的状态值函数,具体步骤如下:
a.预测环境网格的信号强度值,用一个二维数组Arr表示,如下式(6)所示:
其中:代表第i行,第j列方格中心位置sij上的信号强度值。
b.网格中心位置预测信号强度值作为状态行为奖励,如(7)所示:
其中:为第i行,第h列方格中心位置sij上的状态行为奖励;/>是第i行,第j列方格中心位置sij采用行为a后,所在方格s′ij上的信号强度值。
c.计算每一个方格的状态值函数,如(8)所示:
其中:i=1,...,n;j=1,...,m;A是无人机动作的集合,无人机动作的集合包括向前、向后、向左、向右;a是无人机采取的动作;γ是衰减因子;S是所有网格中心位置的集合;s′ij是无人机在行为a后可能到达的方格中心位置;V(sij)是方格中心位置sij的状态值函数;V(s′ij)是方格中心位置s′ij的状态值函数;π(a|sij)是在方格sij上采取行为a的概率。如果sij在障碍物上,则V(sij)为零;
d.确定下一运动目标位置,如(9)所示:
其中:M是预测的长度;max(·)最大值函数;V(kk|sij)是从方格sij出发,四旋翼无人机可行动作允许的情况下可飞行的方格的状态值函数,并且最多为M个方格;是具有最大/>的可行方格位置序列/>但每次仅用第一个/>作为目标位置。
第四步:采取滚动优化方法,四旋翼无人机向运动目标位置移动。具体步骤如下:
a.代价函数包含三个部分:一部分是保证四旋翼飞行器靠近目标航路点,一部分是避开障碍物,一部分是尽可能缩短飞行时间。因此,代价函数如(10)式所示:
其中:xt代表t时刻飞行器的水平方向的位置;代表目标航路点;xob代表障碍物位置;r0'表示无人机和障碍物的安全距离;Vt表示t时刻四旋翼飞行器的速度;k1,k2,k3是权重因子。如果未检测到障碍物,则令k2为零。
b.无人机的控制量根据(11)获得:
其中:表示该式取最小值时,/>的取值;/>是[ti,ti+TN]内的最优控制序列,并将[ti,ti+tk]范围内的最优控制序列施加到四旋翼飞行器;tk是第k次信号检测时刻;xτ代表τ时刻四旋翼飞行器的位置;Vτ表示τ时刻飞行器的速度。s.t.表示约束条件;Ξ是位置变量xτ的范围和Υ是控制变量uti的可行范围,ζ表示速度上限,(1)表示四旋翼飞行器动力学模型,(2)表示四旋翼无人机姿态动力学模型;
第五步:如果终止条件满足,则飞行器停止运行,并将信号源位置输出;如果终止条件没有满足,则返回第二步继续执行。
作为优选,所述的第一步:准备工作和模型计算;具体步骤如下:
a.将任务区域进行网格化处理,将其分割为n×m个均匀的网格,每个网格的中心位置用sij表示,i=1,...,n,j=1,...,m。
b.四旋翼无人机的动力学模型,如公式(1)所示:
其中:X,Y,Z分别代表四旋翼无人机在惯性坐标系下三个方向上的位置;分别为X,Y,Z的二阶导数;/>分别代表四旋翼无人机的横滚角,偏航角和俯仰角;g是重力加速度;m是四旋翼无人机的质量;/>代表四旋翼无人机螺旋桨产生的总拉力,其中/>分别代表四个螺旋桨的转速;CT为无量纲拉力系数;sin(·),cos(·)分别为正弦函数和余弦函数;让pk=(X,Y)表示四旋翼无人机进行第k次信号强度检测时,在水平方向的位置。
c.X型四旋翼无人机姿态动力学模型如(2)所示:
其中:
其中:τx,τy,τz分别为惯性坐标系下三个方向上的力矩;d表示机体中心和任一电机的距离;CM为无量纲转矩系数;Ix,Iy,Iz表示三个轴上的惯性矩;分别为/>的一阶导数;/>分别为/>的二阶导数。
作为优选,所述的基于采集到的信号强度信息,通过高斯过程回归预测任务区域内各网格的信号强度。具体步骤如下:
a.将机器人所在的位置pk,检测到的信号强度值yk,存储到数据集D,并满足:
yk=g(pk)+∈ (3)
其中:为实数集,/>代表二维的实数集,h为存储的数据数量;∈表示独立噪声,满足正态分布/>σy 2为方差。
b.预测区域内其它各网格中心位置的信号强度信息,用集合表示sij是网格中心位置;g(sij)是位置sij上的预测信号强度,i=1,...,n,j=1,...,m;S是所有网格中心位置的集合。根据(3)式和数据集D,预测输出满足下式(4):
其中:p=[p1,...,ph],y=[y1,...,yh];是正态分布,具有均值μ*和协方差矩阵∑*
其中:K(p,s)=[λ(pk,sij)],s==s21/> i*=1,...,n;j*=1,...,m;k*=1,...,h;σf代表振幅参数,l是长度尺度,||·||代表2范数;I是单位矩阵;T表示转置;exp(·)是指数函数。
c.噪声方差和所有高斯过程超参数被收集到一个向量中,根据集合D,通过梯度优化方法优化Θ,如下(5)式所示:
其中:min(·)是最小值函数;arg(·)是获取变量函数;表示在L(Θ)取最小值时,Θ的取值;L(Θ)=-log p(y|p,Θ)表示样本条件概率的负对数似然函数。
作为优选,所述的终止条件为:给定的最大搜索时间已经达到。
本发明提出的一种基于高斯强化学习的信号源遍历方法,首先利用非定向传感器所获得的信号强度信息,采用高斯过程回归预测网格化后环境的信号强度分布。再利用强化学习的思想以信号强度值为奖励,寻找通往信号源位置的最优路径。并设计了预测控制方法有效地提高了四旋翼无人机遍历信号源的速度。
具体实施方式
以无线传感器网络为例,设定任务监测范围长为100米,宽为100米,建立坐标系统[-50,50]×[-50,50]。其中,3个传感器位于[-20,20],[20,40],[15,-30],并持续向周围发送信号序列。具体实施步骤如下:
第一步:准备工作和模型计算。具体步骤如下:
a.将任务区域进行网格化处理,将其分割为1000×1000个均匀的网格,每个网格的中心位置用sij表示,i=1,...,1000,j=1,...,1000。
b.设定四旋翼无人机的动力学模型如公式(1)所示:
其中:X,Y,Z分别代表四旋翼无人机在惯性坐标系下三个方向上的位置;分别为X,Y,Z的二阶导数;/>分别代表四旋翼无人机的横滚角,偏航角和俯仰角;g=9.8m/s2;m=1.0kg;/>代表四旋翼无人机螺旋桨产生的总拉力,其中分别代表四个螺旋桨的转速;CT=3;;sin(·),cos(·)分别为正弦函数和余弦函数;让pk=(X,Y)表示四旋翼无人机进行第k次信号强度检测时,在水平方向的位置。
c.X型四旋翼无人机姿态动力学模型如(2)所示:
其中:
其中:τx,τy,τz分别为惯性坐标系下三个方向上的力矩;d=0.16;CM=1;Ix,Iy,Iz的取值分别为0.04kgm2,0.04kgm2,0.1kgm2分别为/>的一阶导数;/>分别为的二阶导数。
第二步:基于采集到的信号强度信息,通过高斯过程回归预测任务区域内各网格的信号强度。具体步骤如下:
a.将四旋翼无人机所在的位置pk,检测到的信号强度值yk,存储到数据集D,并满足:
yk=g(pk)+∈ (3)
其中:为实数集,/>代表二维的实数集,h为存储的数据数量;∈表示独立噪声,满足正态分布/>σy 2=2.17为方差。
b.预测区域内其它各网格中心位置的信号强度信息,可以用集合表示sij是网格中心位置;g(sij)是位置sij上的预测信号强度,i=1,...,n,j=1,...,m;S是所有网格中心位置的集合。根据(3)式和数据集D,预测输出满足下式(4):
其中:p=[p1,...,ph],y=[y1,...,yh];是正态分布,具有均值μ*和协方差矩阵∑*
其中:K(p,s)=[λ(pk,sij)],s=[s11,...,s1m,s2l,...,snm];/> i*=1,...,n;j*=1,...,m;k*=1,...,h;初始化σf=0.85,l=15,||·||代表2范数;I是单位矩阵;T表示转置;exp(·)是指数函数。
c.噪声方差和所有高斯过程超参数被收集到一个向量中,根据集合D,通过梯度优化方法优化Θ,如下(5)式所示:
其中:min(·)是最小值函数;arg(·)是获取变量函数;表示在L(Θ)取最小值时,Θ的取值;L(Θ)=-logp(y|p,Θ)表示样本条件概率的负对数似然函数。
第三步:计算状态值函数。基于高斯过程对每一个方格中心位置sij的信号强度的预测,作为状态行为奖励,借助强化学习的思想,进一步计算每一个方格的状态值函数,具体步骤如下:
a.预测环境网格的信号强度值,用一个二维数组Arr表示,如下式(6)所示:
其中:代表第i行,第j列方格中心位置sij上的信号强度值。
b.网格中心位置预测信号强度值作为状态行为奖励,如(7)所示:
其中:为第i行,第j列方格中心位置sij上的状态行为奖励;/>是第i行,第j列方格中心位置sij采用行为a后,所在方格s′ij上的信号强度值。
c.计算每一个方格的状态值函数,如(8)所示:
其中:i=1,...,n;i=1,...,m;A是无人机动作的集合(向前、向后、向左、向右);a是无人机采取的动作;γ=0.8;S是所有网格中心位置的集合;s′ij是无人机在行为a后可能到达的方格中心位置;V(sij)是方格中心位置sij的状态值函数;V(s′ij)是方格中心位置s′ij的状态值函数;π(a|sij)=0.25。如果sij在障碍物上,则V(sij)为零。
d.确定下一运动目标位置,如(9)所示:
其中:M=5;max(·)最大值函数;V(kk|sij)是从方格sij出发,四旋翼无人机可行动作允许的情况下可飞行的方格的状态值函数,并且最多为M个方格;是具有最大的可行方格位置序列/>但每次仅用第一个/>作为目标位置。
第四步:采取滚动优化方法,四旋翼无人机向运动目标位置移动。具体步骤如下:
a.代价函数包含三个部分:一部分是保证四旋翼飞行器靠近目标航路点,一部分是避开障碍物,一部分是尽可能缩短飞行时间。因此,代价函数如(10)式所示:
其中:xt代表t时刻飞行器的水平方向的位置;代表目标航路点;xob代表障碍物位置;r0'=0.5m;Vt表示t时刻四旋翼飞行器的速度;k1=0.5,k2=0.4,k3=0.2。如果未检测到障碍物,则令k2为零。
b.无人机的控制量根据(11)获得:
其中:表示该式取最小值时,/>的取值;/>是[ti,ti+TN]内的最优控制序列,并将[ti,ti+tk]范围的最优控制序列施加到飞行器;TN=0.5;tk=0.05;xτ代表τ时刻飞行器的位置;Vτ表示τ时刻飞行器的速度。s.t.表示约束条件;Ξ是位置变量xτ的范围和Υ是控制变量uti的可行范围。
第五步:如果终止条件满足,例如:给定的最大搜索时间已经达到,则飞行器停止运行,并将信号源位置输出;如果终止条件没有满足,则返回第二步继续执行。

Claims (3)

1.一种基于高斯强化学习的信号源遍历方法,其特征在于,该方法的具体步骤如下:
第一步:准备工作和模型计算;具体步骤如下:
a.将任务区域进行网格化处理,将其分割为n×m个均匀的网格,每个网格的中心位置用sij表示,i=1,...,n,j=1,...,m;
b.设计四旋翼无人机的动力学模型,如公式(1)所示:
其中:X,Y,Z分别代表四旋翼无人机在惯性坐标系下三个方向上的位置;分别为X,Y,Z的二阶导数;φ,/>θ分别代表四旋翼无人机的横滚角,偏航角和俯仰角;g是重力加速度;m是四旋翼无人机的质量;/>代表四旋翼无人机螺旋桨产生的总拉力,其中/>分别代表四个螺旋桨的转速;CT为无量纲拉力系数;sin(·),cos(·)分别为正弦函数和余弦函数;让pk=(X,Y)表示四旋翼无人机进行第k次信号强度检测时,在水平方向的位置;
c.设计X型四旋翼无人机姿态动力学模型,如(2)所示:
其中:
其中:τx,τy,τz分别为惯性坐标系下三个方向上的力矩;d表示机体中心和任一电机的距离;CM为无量纲转矩系数;Ix,Iy,Iz表示三个轴上的惯性矩;分别为φ,θ,/>的一阶导数;/>分别为φ,θ,/>的二阶导数,
第二步:基于采集到的信号强度信息,通过高斯过程回归预测任务区域内各网格的信号强度;
第三步:计算状态值函数;基于高斯过程对每一个方格中心位置sij的信号强度的预测,作为状态行为奖励,借助强化学习的思想,进一步计算每一个方格的状态值函数,具体步骤如下:
a.预测环境网格的信号强度值,用一个二维数组Arr表示,如下式(6)所示:
其中:代表第i行,第j列方格中心位置sij上的信号强度值;
b.网格中心位置预测信号强度值作为状态行为奖励,如(7)所示:
其中:为第i行,第j列方格中心位置sij上的状态行为奖励;/>是第i行,第j列方格中心位置sij采用行为a后,所在方格s′ij上的信号强度值;
c.计算每一个方格的状态值函数,如(8)所示:
其中:i=1,...,n;j=1,...,m;A是无人机动作的集合,无人机动作的集合包括向前、向后、向左、向右;a是无人机采取的动作;γ是衰减因子;S是所有网格中心位置的集合;s′ij是无人机在行为a后可能到达的方格中心位置;V(sij)是方格中心位置sij的状态值函数;V(s′ij)是方格中心位置s′ij的状态值函数;π(a|sij)是在方格sij上采取行为a的概率;如果sij在障碍物上,则V(sij)为零;
d.确定下一运动目标位置,如(9)所示:
其中:M是预测的长度;max(·)最大值函数;V(kk|sij)是从方格sij出发,四旋翼无人机可行动作允许的情况下可飞行的方格的状态值函数,并且最多为M个方格;是具有最大的可行方格位置序列/>但每次仅用第一个/>作为目标位置;
第四步:采取滚动优化方法,四旋翼无人机向运动目标位置移动;具体步骤如下:
a.代价函数包含三个部分:一部分是保证四旋翼飞行器靠近目标航路点,一部分是避开障碍物,一部分是尽可能缩短飞行时间;因此,代价函数如(10)式所示:
其中:xt代表t时刻飞行器的水平方向的位置;代表目标航路点;xob代表障碍物位置;r0'表示无人机和障碍物的安全距离;Vt表示t时刻四旋翼飞行器的速度;k1,k2,k3是权重因子;如果未检测到障碍物,则令k2为零;
b.无人机的控制量根据(11)获得:
其中:表示该式取最小值时,/>的取值;/>是[ti,ti+TN]内的最优控制序列,并将[ti,ti+tk]范围内的最优控制序列施加到四旋翼飞行器;tk是第k次信号检测时刻;xτ代表τ时刻四旋翼飞行器的位置;Vτ表示τ时刻飞行器的速度;s.t.表示约束条件;Ξ是位置变量xτ的范围和γ是控制变量uti的可行范围,ζ表示速度上限,(1)表示四旋翼飞行器动力学模型,(2)表示四旋翼无人机姿态动力学模型;
第五步:如果终止条件满足,则飞行器停止运行,并将信号源位置输出;如果终止条件没有满足,则返回第二步继续执行。
2.根据权利要求1所述的一种基于高斯强化学习的信号源遍历方法,其特征在于:所述的基于采集到的信号强度信息,通过高斯过程回归预测任务区域内各网格的信号强度;具体步骤如下:
a.将机器人所在的位置pk,检测到的信号强度值yk,存储到数据集D,并满足:
yk=g(pk)+∈ (3)
其中: 为实数集,/>代表二维的实数集,h为存储的数据数量;∈表示独立噪声,满足正态分布/>σy 2为方差;
b.预测区域内其它各网格中心位置的信号强度信息,用集合表示sij是网格中心位置;g(sij)是位置sij上的预测信号强度,i=1,...,n,j=1,...,m;S是所有网格中心位置的集合;根据(3)式和数据集D,预测输出满足下式(4):
其中:p=[p1,...,ph],y=[y1,...,yh];是正态分布,具有均值μ*和协方差矩阵∑*
其中:K(p,s)=[λ(pk,sij)],s=[s11,...,s1m,s21,...,snm];/> σf代表振幅参数,l是长度尺度,||·||代表2范数;I是单位矩阵;T表示转置;exp(·)是指数函数;
c.噪声方差和所有高斯过程超参数被收集到一个向量中,根据集合D,通过梯度优化方法优化Θ,如下(5)式所示:
其中:min(·)是最小值函数;arg(·)是获取变量函数;表示在L(Θ)取最小值时,Θ的取值;L(Θ)=-log p(y|p,Θ)表示样本条件概率的负对数似然函数。
3.根据权利要求1所述的一种基于高斯强化学习的信号源遍历方法,其特征在于:所述的终止条件为:给定的最大搜索时间已经达到。
CN202111215372.2A 2021-10-19 2021-10-19 一种基于高斯强化学习的信号源遍历方法 Active CN114115358B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111215372.2A CN114115358B (zh) 2021-10-19 2021-10-19 一种基于高斯强化学习的信号源遍历方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111215372.2A CN114115358B (zh) 2021-10-19 2021-10-19 一种基于高斯强化学习的信号源遍历方法

Publications (2)

Publication Number Publication Date
CN114115358A CN114115358A (zh) 2022-03-01
CN114115358B true CN114115358B (zh) 2024-03-29

Family

ID=80376430

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111215372.2A Active CN114115358B (zh) 2021-10-19 2021-10-19 一种基于高斯强化学习的信号源遍历方法

Country Status (1)

Country Link
CN (1) CN114115358B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107563044A (zh) * 2017-08-29 2018-01-09 武汉科技大学 基于在线安全学习的四旋翼无人机路径跟踪控制方法
CN108388270A (zh) * 2018-03-21 2018-08-10 天津大学 面向安全域的集群无人机轨迹姿态协同控制方法
CN111897215A (zh) * 2020-07-01 2020-11-06 杭州电子科技大学 基于数据驱动学习的滚动优化控制方法
CN113406965A (zh) * 2021-05-31 2021-09-17 南京邮电大学 一种基于强化学习的无人机能耗优化方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9715234B2 (en) * 2015-11-30 2017-07-25 Metal Industries Research & Development Centre Multiple rotors aircraft and control method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107563044A (zh) * 2017-08-29 2018-01-09 武汉科技大学 基于在线安全学习的四旋翼无人机路径跟踪控制方法
CN108388270A (zh) * 2018-03-21 2018-08-10 天津大学 面向安全域的集群无人机轨迹姿态协同控制方法
CN111897215A (zh) * 2020-07-01 2020-11-06 杭州电子科技大学 基于数据驱动学习的滚动优化控制方法
CN113406965A (zh) * 2021-05-31 2021-09-17 南京邮电大学 一种基于强化学习的无人机能耗优化方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于动态运动基元的微小型四旋翼无人机路径规划;陈鹏震;吴怀宇;陈洋;;高技术通讯;20160215(第02期);全文 *
基于深度学习的四旋翼无人机控制系统设计;徐一鸣;李笑;杨凯凯;杨宇;;计算机测量与控制;20200525(第05期);全文 *

Also Published As

Publication number Publication date
CN114115358A (zh) 2022-03-01

Similar Documents

Publication Publication Date Title
CN111667513B (zh) 一种基于ddpg迁移学习的无人机机动目标跟踪方法
CN109696830B (zh) 小型无人直升机的强化学习自适应控制方法
CN107743299B (zh) 面向无人机机载移动传感器网络的一致性信息滤波算法
Doukhi et al. Neural network-based robust adaptive certainty equivalent controller for quadrotor UAV with unknown disturbances
CN109871031B (zh) 一种固定翼无人机的轨迹规划方法
Hérissé et al. A terrain-following control approach for a vtol unmanned aerial vehicle using average optical flow
CN110262555B (zh) 连续障碍环境下无人机实时避障控制方法
CN113268074B (zh) 一种基于联合优化的无人机航迹规划方法
CN112198901B (zh) 一种基于三维动态碰撞区的无人机自主避撞决策方法
CN113848984B (zh) 一种无人机集群控制方法及系统
Yue et al. Deep reinforcement learning and its application in autonomous fitting optimization for attack areas of UCAVs
CN113848974A (zh) 一种基于深度强化学习的飞行器轨迹规划方法及系统
CN107703953B (zh) 一种无人机的姿态控制方法、装置、无人机及存储介质
Niu et al. UAV track planning based on evolution algorithm in embedded system
CN115431271A (zh) 一种飞行机械臂末端抗干扰指向控制方法
Daadi et al. Sliding mode controller based on the sliding mode observer for a qball 2+ quadcopter with experimental validation
CN114138022A (zh) 一种基于精英鸽群智能的无人机集群分布式编队控制方法
Vong et al. Trajectory tracking control of quadcopters under tunnel effects
CN113156813B (zh) 基于鸽群优化控制的带臂四旋翼无人机系统及控制方法
CN114115358B (zh) 一种基于高斯强化学习的信号源遍历方法
Guan et al. A new integrated navigation system for the indoor unmanned aerial vehicles (UAVs) based on the neural network predictive compensation
CN116301007A (zh) 基于强化学习的多四旋翼无人机集结型任务路径规划方法
Peringal et al. Design of Dynamics Invariant LSTM for Touch Based Human–UAV Interaction Detection
Hamissi et al. A new nonlinear control design strategy for fixed wing aircrafts piloting
Li et al. Vision-based formation control of a heterogeneous unmanned system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant