CN111580544B - 一种基于强化学习ppo算法的无人机目标跟踪控制方法 - Google Patents

一种基于强化学习ppo算法的无人机目标跟踪控制方法 Download PDF

Info

Publication number
CN111580544B
CN111580544B CN202010216559.3A CN202010216559A CN111580544B CN 111580544 B CN111580544 B CN 111580544B CN 202010216559 A CN202010216559 A CN 202010216559A CN 111580544 B CN111580544 B CN 111580544B
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
network structure
target
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202010216559.3A
Other languages
English (en)
Other versions
CN111580544A (zh
Inventor
蔡志浩
李明君
赵江
王英勋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202010216559.3A priority Critical patent/CN111580544B/zh
Publication of CN111580544A publication Critical patent/CN111580544A/zh
Application granted granted Critical
Publication of CN111580544B publication Critical patent/CN111580544B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于强化学习PPO算法的无人机目标跟踪控制方法,包括无人机目标跟踪典型环境建模、训练数据归一化预处理、基于欧式距离的奖励函数设计、针对性深度神经网络结构设计、基于PPO算法的控制器训练与无人机目标跟踪控制器使用。本发明的方法采用一体化控制器替代了传统的内外环控制器,同时具有较好的鲁棒性能与较小计算量的优点。

Description

一种基于强化学习PPO算法的无人机目标跟踪控制方法
技术领域
本发明属于无人机控制技术领域,尤其涉及一种基于强化学习PPO算法的无人机目标跟踪控制方法。
背景技术
随着无人机技术的发展,无人机被应用在各种各样的场所,使用领域不断扩宽。无论是在军事领域还是民用领域,常见的一种无人机使用方式是使用无人机跟踪指定的目标。例如,在军事战争中使用无人机跟踪敌方行进中的坦克,在恰当时刻对其打击;在民用领域,使用无人机对指定的目标跟踪航拍或是使无人机飞回指定目标位置等。在这些场景中都是希望无人机能够在飞行过程中跟踪指定的任务目标。无人机通过自身携带的传感器,例如图像、雷达等,或者无线通信的方式获取任务目标的位置信息,并以此为方向持续的跟踪目标,使其不脱离自身的监控范围。
无人机平台使用的传统目标跟踪控制方法为:获取无人机平台当前的位置信息以及跟踪目标的位置信息,以此为基础通过优化算法解算出无人机跟踪目标的航路轨迹,航路轨迹由一系列的无人机航点组成。无人机按照航点序列依次从前一个航点飞向下一个航点,这一部分称为无人机的外环控制。无人机从一个航点飞向临近航点时需要解算当前时刻无人机的飞行速度和偏航角速度并响应当前的速度指令,同时需要在飞行过程中保持无人机的滚转角与俯仰角的稳定,这一部分称为无人机的内环控制部分。传统控制算法将无人机目标跟踪的过程分为了外环和内环两部分,特别的,当无人机的跟踪目标处于运动状态时,在无人机外环部分,需要每时刻重新调用优化算法规划新的航路轨迹,若是采用复杂的优化算法时,每时刻的航路重规划需要耗费较多的计算资源。
强化学习是机器学习的一个分支。机器学习是以知识的自动获取和产生为研究目标,是人工智能的核心问题之一。机器学习与统计学、心理学、机械学等许多学科都有交叉。其中,心理学与机器学习的交叉综合直接促进了强化学习理论与算法的产生和发展。强化学习算法理论的形成可以追溯到上个世界七八十年代,几十年来强化学习算法一直在不断的更新迭代。与常见的监督学习、无监督学习不同,强化学习的本质是一种以环境反馈作为输入的、适应环境的机器学习方法。它模仿了自然界中人类或动物学习的基本途径,通过与环境不断交互和试错的过程,利用评价性的反馈信号来优化所采取的行为决策。
在强化学习中有两个主要的组成部分,智能体(Agent)和环境(Environment),智能体是指采用强化学习进行学习的事物本身,可以通过学习而自动获取有价值信息的计算机(或者含有计算机的机器),环境是指智能体所依赖并活动、交互的世界。在每一次智能体与环境相交互的过程中,智能体会观察当前时刻自身在环境中所呈现的状态(State),或者部分状态,并以此为依据来决定自身在当前时刻所应该采取的行为(Action)。同时,在每一次智能体与环境交互的过程中,智能体会从环境中接受到一个反馈信息,这里称为奖励(Reward)。奖励是用一个具体的数值来表示,它会告诉智能体,当前时刻其在环境的状态表现是有多好或者有多糟糕。智能体的学习目标是为了获得最大的累计奖励,这里称为回报(Return)。强化学习就是一种在智能体与环境不断的信息交互中使得智能体学习如何采取行为来达到它目标的一种方法。
PPO算法是一种基于策略的强化学习算法,为了具体的说明PPO算法,做出符号设定如表1所示。
表1 PPO算法符号说明表
Figure GDA0002952651290000021
Figure GDA0002952651290000031
强化学习算法的本质是使得智能体学习到最优的策略,最大化一条完整轨迹上所能获得的累计奖励,即回报。一种回报的形式可以是有限时域内的无折扣回报:
Figure GDA0002952651290000032
形象来说,策略相当于智能体的大脑,控制智能体的行为,其本质就是智能体的控制器。策略本质上是一组带参数的可计算函数,最常用的是带有权重参数和偏置参数的神经网络。策略的输出是智能体的行为,通过梯度下降算法来调整策略的参数,以此来改变智能体采取的行为。在PPO算法中,智能体在学习过程中采取的为随机策略,通常用符号θ来表示策略中的参数,表示为:at~πθ(·|st),
强化学习的目的是为了得到一个最大化期望回报的策略,期望回报表示为:
J(πθ)=Eτ~πθ[R(τ)]
其中,τ表示一段智能体以πθ为使用策略,与环境进行交互的过程,可以状态-行为的序列来表示:
s0,a0,…,sT-1,aT-1,sT,...
方便推导过程,认为τ代表一段有限时间域内的状态-行为序列,可以计算这段时间内智能体所能获得的回报为:
Figure GDA0002952651290000033
通过策略梯度下降的方法优化最终的目标J(πθ),每次参数更新时的迭代过程为:
Figure GDA0002952651290000041
Figure GDA0002952651290000042
即为当前策略所表现的效果关于策略参数的梯度,该算法主要是通过计算这个策略梯度来完成策略的优化过程,因此被称为策略梯度算法。策略梯度法的关键在于策略梯度该如何数值性的计算。经过推导得到策略梯度计算公式:
Figure GDA0002952651290000043
在PPO算法中,为了使得每次更新的新策略与更新之前的旧策略不会出现差异太大而导致训练过程发散的现象,对策略的更新加入一定的约束条件,表示为:
智能体采用新策略所获得的期望回报相较于采用旧策略所获得的期望回报,性能的提高不期望超过一定的阈值,称为裁剪值,用ε表示(裁剪值通常取为0.2)。由于当策略还未更新时,无法计算新策略的期望回报值,引入重要性采样的方法,使用旧策略的分布来估算新策略的分布,计算更新后的策略期望回报值为:
Figure GDA0002952651290000044
加入裁剪限制后,新策略的期望回报如下所示,被限制在一定的范围之内:
Figure GDA0002952651290000045
通过梯度下降的方式求解策略网络的参数θ来获取限制范围内最大的
Figure GDA0002952651290000046
以此完成策略网络的更新。
在计算迭代策略网络的时候需要计算优势函数,需要通过状态价值函数来间接计算。为了减小数据的采样,提高算法的性能,额外使用一个神经网络来估算状态价值函数。同样采用梯度下降的方法对该网络进行更新迭代,使其拟合真实的状态价值函数,算法的伪代码如表2所示。
表2 Proximal Policy Optimization–Clip算法的伪代码
Figure GDA0002952651290000051
发明内容
针对无人机跟踪指定目标的控制问题,本发明提出一种基于强化学习PPO算法的无人机目标跟踪控制方法,采用一体化控制器替代了传统的内外环控制器,同时具有较好的鲁棒性能与较小计算量的特点。本发明的具体技术方案如下:
一种基于强化学习PPO算法的无人机目标跟踪控制方法,其特征在于,包括以下步骤:
S1:无人机目标跟踪过程的典型环境建模;
针对无人机目标跟踪,无人机本身与被跟踪目标相对于整个动态环境视为质点,同时无人机跟踪目标的过程与纵向空间无关,无人机与跟踪目标在空间中的相对位置能够投影到二维平面,故无人机目标跟踪过程的典型环境模型简化成如下典型形式:
记无人机的质量为M,控制机构作用于无人机上的直接控制量分别记为Fx与Fy,其中,Fx为控制机构对无人机产生的前向控制力,Fy为控制机构对无人机产生的侧向控制力;无人机在控制机构的作用下能够在二位平面内任意运动,无人机运动的数学模型为:
ax=Fx/M,ay=Fy/M,
Figure GDA0002952651290000061
Figure GDA0002952651290000062
其中,坐标(x,y)表示无人机在环境中的位置,vx为无人机的前向速度,vy为无人机的侧向速度,ax为无人机的前向加速度,ay为无人机的侧向加速度,无人机的合速度为
Figure GDA0002952651290000063
跟踪目标点的坐标为(xe,ye),无人机通过自身的传感器实时探测跟踪目标点的位置坐标;环境模型中限定无人机受到的前向力Fx与侧向力Fy存在最大值,分别记为Fx_max和Fy_max,无人机能够保持的最大飞行速度为vmax
S2:训练数据归一化预处理;
S2-1:典型环境模型优化;
将目标的随机运动轨迹看成一个时间序列的位置坐标点,无人机在每时刻能够追踪当前目标所处的位置,即能够在整个时间序列上完成对目标点位置跟踪,故在使用PPO算法对无人机进行目标跟踪训练时,只训练无人机对静止目标的跟踪,将训练好的控制器直接应用于随机运动的目标跟踪;因此,将典型的无人机目标跟踪问题环境模型优化为如下形式:将环境模型限定在总面积为4l2的正方形区域内,其中,l为正方形区域边长的一半,此区域设定为无人机与目标的运动区域,训练过程中目标始终保持静止状态处于区域的中心位置,记为环境模型的坐标原点;训练初始时刻,无人机处于区域内的任意位置;
S2-2:数据归一化;
根据环境模型,记无人机状态量为s=[Δx Δy vx vy],其中,Δx和Δy为无人机与目标在平面投影上的相对位置,有Δx=xe-x=-x,Δy=ye-y=-y;记无人机控制量为a,表示为a=[Fx Fy];
分别对无人机状态量和无人机控制量除以上限值,使其中每个元素在进入算法训练之前的值域为[-1 1],归一化处理后的无人机状态量记为s_norm,且
Figure GDA0002952651290000071
归一化处理后的无人机控制量记为a_norm,且
Figure GDA0002952651290000072
其中,vmax为无人机能够保持的最大飞行速度,Fx_max为控制机构能够为无人机施加的最大前向作用力,Fy_max为控制机构能够为无人机施加的最大侧向作用力;
无人机每时刻的采样数据经过归一化处理后被算法程序收集,用于无人机目标跟踪控制器的训练过程;
S3:设计基于欧式距离的奖励函数;
训练的目标是使无人机能够朝向目标点运动,无人机与目标点之间距离越小,获得的奖励越高,为了使无人机在目标跟踪过程中平稳追踪目标,无人机的速度也作为奖励函数设计的一部分,设计针对无人机目标跟踪问题强化学习算法中使用的奖励函数为
Figure GDA0002952651290000073
其中,r为每时刻无人机得到的奖励值,v为无人机的合速度;
记训练初期无人机能够获取到奖励的平均值为rmean,对得到的奖励做归一化处理:
Figure GDA0002952651290000074
其中,rnorm为归一化处理后无人机每时刻获得的奖励值,使用rnorm作为控制器训练时的数据;
S4:设计针对性深度神经网络结构;
深度神经网络结构包括状态价值函数估计器网络结构和策略网络结构,
状态价值函数估计器网络结构为四层,包括状态价值函数估计器网络结构的第一隐藏层、状态价值函数估计器网络结构的第二隐藏层、状态价值函数估计器网络结构的第三隐藏层和状态价值函数估计器网络结构的输出层,隐藏层的节点数依次为128个、64个、32个,状态价值函数估计器网络结构的第一隐藏层和状态价值函数估计器网络结构的第二隐藏层在传递时加入Rule激活函数,状态价值函数估计器网络结构的第三隐藏层到网络的输出层不加Rule激活函数,状态价值函数估计器网络结构的输入为归一化处理后的无人机状态量s_norm,输出为当前无人机状态量对应价值量的估计值;
策略网络结构的输入量是归一化处理后的无人机状态量s_norm,输出量为归一化处理后的无人机控制量a_norm,策略网络结构分别计算输出量的均值和方差,分别记为ε和δ,计算输出量均值部分的神经网络包含三层隐藏层,分别为策略网络结构计算输出量均值部分的第一隐藏层,策略网络结构计算输出量均值部分的第二隐藏层以及策略网络结构计算输出量均值部分的第三隐藏层,节点数依次是128个、64个、32个;计算输出量方差部分的神经网络包含二层隐藏层,分别为策略网络结构计算输出量方差部分的第一隐藏层和策略网络结构计算输出量方差部分的第二隐藏层,节点数依次是128个、32个;此处,策略网络结构计算输出量均值部分的第一隐藏层和策略网络结构计算输出量方差部分的第一隐藏层是同一网络结构层,策略网络结构的所有隐藏层之间的激活函数均为Relu激活函数,计算输出量均值ε的输出层之前的激活函数为Tanh激活函数,计算输出量方差δ之前的激活函数为Softplus激活函数,策略网络结构的输出为一个高斯分布的采样值:a_norm~N(ε,δ);
S5:基于PPO算法的控制器训练;
使用PPO算法进行无人机的目标跟踪控制器训练,设定训练的总周期数目N,在每个周期内无人机与环境进行信息交互,即模拟无人机在环境中对目标进行一次跟踪的过程,无论跟踪的结果如何,交互的信息数据都将被按照时间序列存储在经验池中;每当经验池数据存满时,将数据全部取出,依照PPO算法对策略网络结构进行参数迭代,直到设定的训练周期数目全部训练结束,将策略网络结构取出作为无人机的目标跟踪控制器来使用,训练的周期数目需满足最终训练的策略网络结构收敛至稳定状态;
S6:无人机目标跟踪控制器使用;
经过步骤S5训练好的策略网络结构直接被用来当作无人机的控制器,输入为归一化处理后的无人机状态量s_norm,输出为归一化处理后的无人机控制量a_norm;
在使用策略网络结构作为无人机的控制器时,无需再引入训练时才需添加的随机性,策略网络结构的输出直接为a_norm=ε;控制器的输入为归一化后的无人机状态量s_norm,输出为归一化后的无人机控制量a_norm,a_norm经过逆向运算放大,得到无人机控制量a,作为无人机所应该被施加的真实控制量。
本发明的有益效果在于:
1.本发明提出的方法训练出来的控制器为一体化控制器,不同于传统的无人机目标跟踪控制器将无人机目标跟踪控制分为外环控制与内环控制两部分,通过无人机当前的状态直接解算出无人机的控制指令,简化了无人机目标跟踪控制过程。
2.本发明采用PPO算法训练出来的无人机目标控制器实际上为深度神经网络,具有较好的鲁棒性能,适用于无人机跟踪各种运动方式(例如匀速、变速、直线运动、随机运动)的目标。
3.本发明训练出来的无人机目标控制器在计算时的主要运算为加法和乘法,以及简单的激活函数运算。控制器所需要的计算性能要远远低于传统无人机目标跟踪方法中,使用优化算法规划无人机目标跟踪航路所需的计算性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他的附图。其中:
图1是本发明的基于强化学习的控制器与采用传统方法的控制器比较;
图2是强化学习学习原理示意图;
图3是PPO算法数据流程图;
图4是无人机目标跟踪的环境模型示意图;
图5是本发明的优化后的无人机目标跟踪的环境模型示意图;
图6(a)是本发明的策略网络结构设计图;
图6(b)是本发明的状态价值函数估计器网络结构设计图;
图7是本发明的基于PPO算法的无人机目标跟踪问题训练流程图;
图8是本发明的训练后无人机目标跟踪控制策略网络使用示意图;
图9是本发明实施例的无人机跟踪静止目标100次仿真试验轨迹图;
图10(a)是本发明实施例的无人机跟踪静止目标单次仿真试验轨迹图;
图10(b)是本发明实施例的无人机跟踪静止目标单次仿真试验控制量示意图;
图11是本发明实施例的无人机跟踪匀速运动目标单次仿真试验轨迹图;
图12是本发明实施例的无人机跟踪匀速运动目标单次仿真试验控制量示意图;
图13是本发明实施例的无人机跟踪随机运动目标单次仿真试验轨迹图;
图14是本发明实施例的无人机跟踪随机运动目标单次仿真试验控制量示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
传统的无人机目标跟踪控制是将跟踪过程分为外环轨迹规划和内环稳定控制两部分,不同于传统的无人机目标跟踪控制方法,本发明的一种采用强化学习中的PPO算法来训练无人机的目标跟踪控制方法将传统的外环与内环控制统一起来,使用一体化的控制器完成无人机对目标的跟踪控制。控制器的输入为无人机与跟踪目标的相对位置信息,输出直接为无人机的控制量,使得无人机稳定的朝向目标运动。本方法将通过PPO算法训练一体化的控制器,直接生成无人机的控制指令,不需要将控制过程分为外环与内环两部分;采用强化学习的无人机目标跟踪控制器与传统无人机目标跟踪控制器的区别如图1所示。强化学习的原理如图2所示,完整PPO算法的数据流程如图3所示。
由于强化学习算法具有较好的鲁棒性能,只需要采用本发明中的方法训练无人机对静止目标的跟踪控制器,训练出来的跟踪控制器对各种运动形式(例如匀速、变速、直线运动、随机运动)的目标均具有较好的跟踪能力,使用范围广。采用强化学习训练的控制器本质上是一个深度神经网络。使用该控制器时只需要用到乘法、加法和部分激活函数的运算,总体计算量非常小,远非传统的无人机跟踪控制器所需的计算量可比。
如图4-图8所示,一种基于强化学习PPO算法的无人机目标跟踪控制方法,其特征在于,包括以下步骤:
S1:无人机目标跟踪过程的典型环境建模;
针对无人机目标跟踪,无人机本身与被跟踪目标相对于整个动态环境视为质点,同时无人机跟踪目标的过程与纵向空间无关,无人机与跟踪目标在空间中的相对位置能够投影到二维平面,故无人机目标跟踪过程的典型环境模型简化成如下典型形式:
记无人机的质量为M,控制机构作用于无人机上的直接控制量分别记为Fx与Fy,其中,Fx为控制机构对无人机产生的前向控制力,Fy为控制机构对无人机产生的侧向控制力;无人机在控制机构的作用下能够在二位平面内任意运动,无人机运动的数学模型为:
ax=Fx/M,ay=Fy/M,
Figure GDA0002952651290000111
Figure GDA0002952651290000112
其中,坐标(x,y)表示无人机在环境中的位置,vx为无人机的前向速度,vy为无人机的侧向速度,ax为无人机的前向加速度,ay为无人机的侧向加速度,无人机的合速度为
Figure GDA0002952651290000113
跟踪目标点的坐标为(xe,ye),无人机通过自身的传感器实时探测跟踪目标点的位置坐标;环境模型中限定无人机受到的前向力Fx与侧向力Fy存在最大值,分别记为Fx_max和Fy_max,无人机能够保持的最大飞行速度为vmax;整个无人机目标跟踪的环境模型如图4所示。
S2:训练数据归一化预处理;
S2-1:典型环境模型优化;
将目标的随机运动轨迹看成一个时间序列的位置坐标点,无人机在每时刻能够追踪当前目标所处的位置,即能够在整个时间序列上完成对目标点位置跟踪,故在使用PPO算法对无人机进行目标跟踪训练时,只训练无人机对静止目标的跟踪,将训练好的控制器直接应用于随机运动的目标跟踪;因此,将典型的无人机目标跟踪问题环境模型优化为如下形式:将环境模型限定在总面积为4l2的正方形区域内,其中,l为正方形区域边长的一半,此区域设定为无人机与目标的运动区域,训练过程中目标始终保持静止状态处于区域的中心位置,记为环境模型的坐标原点;训练初始时刻,无人机处于区域内的任意位置;
将典型的无人机目标跟踪问题环境模型优化为如图5所示的形式;对无人机目标跟踪的环境模型进行优化的好处在于方便对训练数据进行归一化数据预处理,预处理后的数据有助于加速控制器的训练过程,提高训练过程的稳定性。
S2-2:数据归一化;
根据环境模型,记无人机状态量为s=[Δx Δy vx vy],其中,Δx和Δy为无人机与目标在平面投影上的相对位置,有Δx=xe-x=-x,Δy=ye-y=-y;记无人机控制量为a,表示为a=[Fx Fy];在训练之前对训练数据做归一化处理,降低采样数据的方差,提高训练过程中的稳定性,并减少训练时间;
分别对无人机状态量和无人机控制量除以上限值,使其中每个元素在进入算法训练之前的值域为[-11],归一化处理后的无人机状态量记为s_norm,且
Figure GDA0002952651290000121
归一化处理后的无人机控制量记为a_norm,且
Figure GDA0002952651290000122
其中,vmax为无人机能够保持的最大飞行速度,Fx_max为控制机构能够为无人机施加的最大前向作用力,Fy_max为控制机构能够为无人机施加的最大侧向作用力;
无人机每时刻的采样数据经过归一化处理后被算法程序收集,用于无人机目标跟踪控制器的训练过程;
S3:设计基于欧式距离的奖励函数;
训练的目标是使无人机能够朝向目标点运动,无人机与目标点之间距离越小,获得的奖励越高,为了使无人机在目标跟踪过程中平稳追踪目标,无人机的速度也作为奖励函数设计的一部分,设计针对无人机目标跟踪问题强化学习算法中使用的奖励函数为
Figure GDA0002952651290000123
其中,r为每时刻无人机得到的奖励值,v为无人机的合速度。
为了使得控制器在训练过程中尽量的保持稳定,不至于导致训练过程发散,需要对奖励做归一化处理,记训练初期无人机能够获取到奖励的平均值为rmean,对得到的奖励做归一化处理:
Figure GDA0002952651290000124
其中,rnorm为归一化处理后无人机每时刻获得的奖励值,使用rnorm作为控制器训练时的数据;
S4:设计针对性深度神经网络结构;
由于神经网络在非线性函数拟合上具有优秀的性能,在PPO算法中,使用深度神经网络来设计无人机的策略和状态价值函数估计器,分别用来计算无人机的行为输出和状态价值函数值。
本发明的深度神经网络结构包括状态价值函数估计器网络结构和策略网络结构,满足无人机目标跟踪控制问题的需要,足够拟合无人机从状态量到行为量的映射关系和状态量到状态价值函数值的映射关系;同时,由于设计的深度神经网络结构不至于过于复杂、参数量过多而出现难以在训练过程中稳定的收敛的情况;本发明设计的深度神经网络结构对于所有无人机目标跟踪控制类问题均适用。具体如图6(a)和图6(b)所示。
状态价值函数估计器网络结构为四层,包括状态价值函数估计器网络结构的第一隐藏层、状态价值函数估计器网络结构的第二隐藏层、状态价值函数估计器网络结构的第三隐藏层和状态价值函数估计器网络结构的输出层,隐藏层的节点数依次为128个、64个、32个,状态价值函数估计器网络结构的第一隐藏层和状态价值函数估计器网络结构的第二隐藏层在传递时加入Rule激活函数,状态价值函数估计器网络结构的第三隐藏层到网络的输出层不加Rule激活函数,状态价值函数估计器网络结构的输入为归一化处理后的无人机状态量s_norm,输出为当前无人机状态量对应价值量的估计值;
策略网络结构的输入量是归一化处理后的无人机状态量s_norm,输出量为归一化处理后的无人机控制量a_norm,策略网络结构分别计算输出量的均值和方差,分别记为ε和δ,计算输出量均值部分的神经网络包含三层隐藏层,分别为策略网络结构计算输出量均值部分的第一隐藏层,策略网络结构计算输出量均值部分的第二隐藏层以及策略网络结构计算输出量均值部分的第三隐藏层,节点数依次是128个、64个、32个;计算输出量方差部分的神经网络包含二层隐藏层,分别为策略网络结构计算输出量方差部分的第一隐藏层和策略网络结构计算输出量方差部分的第二隐藏层,节点数依次是128个、32个;此处,策略网络结构计算输出量均值部分的第一隐藏层和策略网络结构计算输出量方差部分的第一隐藏层是同一网络结构层,策略网络结构的所有隐藏层之间的激活函数均为Relu激活函数,计算输出量均值ε的输出层之前的激活函数为Tanh激活函数,计算输出量方差δ之前的激活函数为Softplus激活函数,策略网络结构的输出为一个高斯分布的采样值:a_norm~N(ε,δ);
S5:基于PPO算法的控制器训练;
在步骤S1-步骤S4的基础上,使用PPO算法来进行无人机的目标跟踪控制器训练,控制器训练的原理参照PPO算法的原理,通过不断运行无人机目标跟踪问题环境模型,收集历史经验数据来对策略网络进行参数优化,控制器训练的流程如图7所示。
使用PPO算法进行无人机的目标跟踪控制器训练,设定训练的总周期数目N,在每个周期内无人机与环境进行信息交互,即模拟无人机在环境中对目标进行一次跟踪的过程。无论跟踪的结果如何,交互的信息数据(每时刻无人机的状态、行为以及获得的奖励为一组数据)都将被按照时间序列存储在经验池中;每当经验池数据存满时,将数据全部取出,依照PPO算法对策略网络结构进行参数迭代,直到设定的训练周期数目全部训练结束,将策略网络结构取出作为无人机的目标跟踪控制器来使用,训练的周期数目需满足最终训练的策略网络结构收敛至稳定状态;
S6:无人机目标跟踪控制器使用;
如图8所示,经过步骤S5训练好的策略网络结构直接被用来当作无人机的控制器,本质上是一个深度神经网络,输入为归一化处理后的无人机状态量s_norm,输出为归一化处理后的无人机控制量a_norm;
在使用策略网络结构作为无人机的控制器时,无需再引入训练时才需添加的随机性,策略网络结构的输出直接为a_norm=ε;控制器的输入为归一化后的无人机状态量s_norm,输出为归一化后的无人机控制量a_norm,a_norm经过逆向运算放大,得到无人机控制量a,作为无人机所应该被施加的真实控制量。
为了方便理解本发明的上述技术方案,以下通过具体实施例对本发明的上述技术方案进行详细说明。
实施例1
假定当前的无人机在其可侦察的范围内有一个随机运动的小型坦克。现通过本发明的方法,设计并训练无人机的目标跟踪控制器,使得其可以稳定跟踪指定的坦克目标。整个控制器设计、训练与验证过程均在仿真环境下完成。
在开始设计训练之前先做出如下合理的假设:
(1)对于目标跟踪问题而言,无论是作为被训练的无人机,还是作为被跟踪的坦克目标,均可以看作是质点。
(2)无人机始终保持在一定高度对地面坦克目标进行跟踪,无人机与坦克之间的空间相对位置可以通过二位平面投影表示。
(3)无人机通过自身携带的传感器设备可以实时获取目标坦克与自身的相对位置关系。
(4)依据发明内容中的要求,设定对于该特定任务的参数有:
Figure GDA0002952651290000151
在具体的任务和数值基础上,依照本发明的方法训练出无人机对地面坦克目标的跟踪控制器,并将训练好的控制器应用于以下三个不同的场景中,验证训练好的控制器跟踪效果,说明本发明方法的有效性。
A.跟踪目标保持静止状态。
初始时,无人机处于空间中的随意位置,坦克目标保持静止并位于空间的中心位置。采用训练好的控制器使得无人机跟踪静止的坦克目标。随机进行了100次跟踪测试,每次开始时无人机处于训练区域中的随机位置,目标处于坐标原点处,得到无人机的跟踪轨迹如图9所示,图中空心小圆表示无人机的初始位置,实心小圆表示无人机的终点位置,100次随机跟踪仿真试验表明该无人机目标跟踪控制能够稳定从随机位置跟踪位于中间的坦克目标。
取其中任意一组试验结果,无人机在目标跟踪控制器的作用下跟踪位于中间静止坦克目标的轨迹以及无人机的控制信号如图10所示。
B.跟踪目标保持匀速直线运动。
初始时,无人机处于空间中的随意位置,坦克目标位于空间的中心位置并以3m/s的速度沿着X轴方向匀速向前运动。使用训练出的控制器控制无人机跟踪匀速运动目标的仿真试验结果如图11所示,图中实线表示无人机的运动轨迹,虚线表示目标坦克的运动轨迹,空心小圆表示无人机和目标的初始位置,实心小圆表示无人机和目标的终点位置。由图可以看出无人机从随机初始位置出发后,最终可以稳定的跟踪运动目标,试验的控制器输出如图12所示。
C.跟踪目标为匀速随机运动。
初始时,无人机处于空间中的随意位置,目标坦克位于空间的中心位置。目标坦克保持3m/s的速度随机选择一个方向运动,并每隔2秒重新选择运动方向。无人机使用训练好的控制器对目标进行跟踪,整个跟踪过程持续25秒。随机进行一组无人机目标跟踪仿真试验,无人机与目标的运动轨迹如图13所示,图中实线表示无人机的运动轨迹,虚线表示目标坦克的运动轨迹,空心小圆表示无人机和目标的初始位置,实心小圆表示无人机和目标的终点位置。由图可以看出无人机从随机初始位置出发后,最终可以稳定的跟踪运动目标,试验的控制器输出如图14所示。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触,也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且,第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本发明中,术语“第一”、“第二”、“第三”、“第四”仅用于描述目的,而不能理解为指示或暗示相对重要性。术语“多个”指两个或两个以上,除非另有明确的限定。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种基于强化学习PPO算法的无人机目标跟踪控制方法,其特征在于,包括以下步骤:
S1:无人机目标跟踪过程的典型环境建模;
针对无人机目标跟踪,无人机本身与被跟踪目标相对于整个动态环境视为质点,同时无人机跟踪目标的过程与纵向空间无关,无人机与跟踪目标在空间中的相对位置能够投影到二维平面,故无人机目标跟踪过程的典型环境模型简化成如下典型形式:
记无人机的质量为M,控制机构作用于无人机上的直接控制量分别记为Fx与Fy,其中,Fx为控制机构对无人机产生的前向控制力,Fy为控制机构对无人机产生的侧向控制力;无人机在控制机构的作用下能够在二位平面内任意运动,无人机运动的数学模型为:
ax=Fx/M,ay=Fy/M,
Figure FDA0002952651280000011
Figure FDA0002952651280000012
其中,坐标(x,y)表示无人机在环境中的位置,vx为无人机的前向速度,vy为无人机的侧向速度,ax为无人机的前向加速度,ay为无人机的侧向加速度,无人机的合速度为
Figure FDA0002952651280000013
跟踪目标点的坐标为(xe,ye),无人机通过自身的传感器实时探测跟踪目标点的位置坐标;环境模型中限定无人机受到的前向力Fx与侧向力Fy存在最大值,分别记为Fx_max和Fy_max,无人机能够保持的最大飞行速度为vmax
S2:训练数据归一化预处理;
S2-1:典型环境模型优化;
将目标的随机运动轨迹看成一个时间序列的位置坐标点,无人机在每时刻能够追踪当前目标所处的位置,即能够在整个时间序列上完成对目标点位置跟踪,故在使用PPO算法对无人机进行目标跟踪训练时,只训练无人机对静止目标的跟踪,将训练好的控制器直接应用于随机运动的目标跟踪;因此,将典型的无人机目标跟踪问题环境模型优化为如下形式:将环境模型限定在总面积为4l2的正方形区域内,其中,l为正方形区域边长的一半,此区域设定为无人机与目标的运动区域,训练过程中目标始终保持静止状态处于区域的中心位置,记为环境模型的坐标原点;训练初始时刻,无人机处于区域内的任意位置;
S2-2:数据归一化;
根据环境模型,记无人机状态量为s=[Δx Δy vx vy],其中,Δx和Δy为无人机与目标在平面投影上的相对位置,有Δx=xe-x=-x,Δy=ye-y=-y;记无人机控制量为a,表示为a=[Fx Fy];
分别对无人机状态量和无人机控制量除以对应的上限值,使其中每个元素在进入算法训练之前的值域为[-1 1],归一化处理后的无人机状态量记为s_norm,且
Figure FDA0002952651280000021
归一化处理后的无人机控制量记为a_norm,且
Figure FDA0002952651280000022
其中,vmax为无人机能够保持的最大飞行速度,Fx_max为控制机构能够为无人机施加的最大前向作用力,Fy_max为控制机构能够为无人机施加的最大侧向作用力;
无人机每时刻的采样数据经过归一化处理后被算法程序收集,用于无人机目标跟踪控制器的训练过程;
S3:设计基于欧式距离的奖励函数;
训练的目标是使无人机能够朝向目标点运动,无人机与目标点之间距离越小,获得的奖励越高,为了使无人机在目标跟踪过程中平稳追踪目标,无人机的速度也作为奖励函数设计的一部分,设计针对无人机目标跟踪问题强化学习算法中使用的奖励函数为
Figure FDA0002952651280000023
其中,r为每时刻无人机得到的奖励值,v为无人机的合速度;
记训练初期无人机能够获取到奖励的平均值为rmean,对得到的奖励做归一化处理:
Figure FDA0002952651280000024
其中,rnorm为归一化处理后无人机每时刻获得的奖励值,使用rnorm作为控制器训练时的数据;
S4:设计针对性深度神经网络结构;
深度神经网络结构包括状态价值函数估计器网络结构和策略网络结构,
状态价值函数估计器网络结构为四层,包括状态价值函数估计器网络结构的第一隐藏层、状态价值函数估计器网络结构的第二隐藏层、状态价值函数估计器网络结构的第三隐藏层和状态价值函数估计器网络结构的输出层,隐藏层的节点数依次为128个、64个、32个,状态价值函数估计器网络结构的第一隐藏层和状态价值函数估计器网络结构的第二隐藏层在传递时加入Rule激活函数,状态价值函数估计器网络结构的第三隐藏层到网络的输出层不加Rule激活函数,状态价值函数估计器网络结构的输入为归一化处理后的无人机状态量s_norm,输出为当前无人机状态量对应价值量的估计值;
策略网络结构的输入量是归一化处理后的无人机状态量s_norm,输出量为归一化处理后的无人机控制量a_norm,策略网络结构分别计算输出量的均值和方差,分别记为ε和δ,计算输出量均值部分的神经网络包含三层隐藏层,分别为策略网络结构计算输出量均值部分的第一隐藏层,策略网络结构计算输出量均值部分的第二隐藏层以及策略网络结构计算输出量均值部分的第三隐藏层,节点数依次是128个、64个、32个;计算输出量方差部分的神经网络包含二层隐藏层,分别为策略网络结构计算输出量方差部分的第一隐藏层和策略网络结构计算输出量方差部分的第二隐藏层,节点数依次是128个、32个;此处,策略网络结构计算输出量均值部分的第一隐藏层和策略网络结构计算输出量方差部分的第一隐藏层是同一网络结构层,策略网络结构的所有隐藏层之间的激活函数均为Relu激活函数,计算输出量均值ε的输出层之前的激活函数为Tanh激活函数,计算输出量方差δ之前的激活函数为Softplus激活函数,策略网络结构的输出为一个高斯分布的采样值:a_norm~N(ε,δ);
S5:基于PPO算法的控制器训练;
使用PPO算法进行无人机的目标跟踪控制器训练,设定训练的总周期数目N,在每个周期内无人机与环境进行信息交互,即模拟无人机在环境中对目标进行一次跟踪的过程,无论跟踪的结果如何,交互的信息数据都将被按照时间序列存储在经验池中;每当经验池数据存满时,将数据全部取出,依照PPO算法对策略网络结构进行参数迭代,直到设定的训练周期数目全部训练结束,将策略网络结构取出作为无人机的目标跟踪控制器来使用,训练的周期数目需满足最终训练的策略网络结构收敛至稳定状态;
S6:无人机目标跟踪控制器使用;
经过步骤S5训练好的策略网络结构直接被用来当作无人机的控制器,输入为归一化处理后的无人机状态量s_norm,输出为归一化处理后的无人机控制量a_norm;
在使用策略网络结构作为无人机的控制器时,策略网络结构的输出直接为a_norm=ε;控制器的输入为归一化后的无人机状态量s_norm,输出为归一化后的无人机控制量a_norm,a_norm经过逆向运算放大,得到无人机控制量a,作为无人机所应该被施加的真实控制量。
CN202010216559.3A 2020-03-25 2020-03-25 一种基于强化学习ppo算法的无人机目标跟踪控制方法 Expired - Fee Related CN111580544B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010216559.3A CN111580544B (zh) 2020-03-25 2020-03-25 一种基于强化学习ppo算法的无人机目标跟踪控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010216559.3A CN111580544B (zh) 2020-03-25 2020-03-25 一种基于强化学习ppo算法的无人机目标跟踪控制方法

Publications (2)

Publication Number Publication Date
CN111580544A CN111580544A (zh) 2020-08-25
CN111580544B true CN111580544B (zh) 2021-05-07

Family

ID=72122520

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010216559.3A Expired - Fee Related CN111580544B (zh) 2020-03-25 2020-03-25 一种基于强化学习ppo算法的无人机目标跟踪控制方法

Country Status (1)

Country Link
CN (1) CN111580544B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112102366B (zh) * 2020-09-24 2024-04-02 湘潭大学 基于动态目标的无人机跟踪改进算法
CN112051863A (zh) * 2020-09-25 2020-12-08 南京大学 一种无人机自主反侦察及躲避敌方攻击的方法
CN112435275A (zh) * 2020-12-07 2021-03-02 中国电子科技集团公司第二十研究所 一种融合卡尔曼滤波和ddqn算法的无人机机动目标追踪方法
CN113139655B (zh) * 2021-03-31 2022-08-19 北京大学 一种基于强化学习的目标追踪的训练方法、追踪方法
CN113110550B (zh) * 2021-04-23 2022-09-23 南京大学 一种基于强化学习与网络模型蒸馏的无人机飞行控制方法
CN113821903B (zh) * 2021-07-09 2024-02-06 腾讯科技(深圳)有限公司 温度控制方法和设备、模块化数据中心及存储介质
CN114077258B (zh) * 2021-11-22 2023-11-21 江苏科技大学 一种基于强化学习ppo2算法的无人艇位姿控制方法
CN113885549B (zh) * 2021-11-23 2023-11-21 江苏科技大学 基于维度裁剪的ppo算法的四旋翼姿态轨迹控制方法
CN115841163A (zh) * 2023-02-20 2023-03-24 浙江吉利控股集团有限公司 一种模型预测控制mpc的训练方法、装置及电子设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11216954B2 (en) * 2018-04-18 2022-01-04 Tg-17, Inc. Systems and methods for real-time adjustment of neural networks for autonomous tracking and localization of moving subject
CN108803321B (zh) * 2018-05-30 2020-07-10 清华大学 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
CN109407682B (zh) * 2018-09-29 2021-06-15 大连海洋大学 基于图像特征深度强化学习的auv管道循管方法
CN110488861B (zh) * 2019-07-30 2020-08-28 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
CN110806759B (zh) * 2019-11-12 2020-09-08 清华大学 一种基于深度强化学习的飞行器航线跟踪方法
CN110852448A (zh) * 2019-11-15 2020-02-28 中山大学 一种基于多智能体强化学习的合作型智能体的学习方法

Also Published As

Publication number Publication date
CN111580544A (zh) 2020-08-25

Similar Documents

Publication Publication Date Title
CN111580544B (zh) 一种基于强化学习ppo算法的无人机目标跟踪控制方法
CN112947562A (zh) 一种基于人工势场法和maddpg的多无人机运动规划方法
CN112183288B (zh) 一种基于模型的多智能体强化学习方法
CN111338375B (zh) 基于混合策略的四旋翼无人机移动降落的控制方法及系统
CN114020013B (zh) 一种基于深度强化学习的无人机编队避撞方法
CN113282061A (zh) 一种基于课程学习的无人机空中博弈对抗的解决方法
Güçkıran et al. Autonomous car racing in simulation environment using deep reinforcement learning
CN115755956B (zh) 一种知识与数据协同驱动的无人机机动决策方法与系统
CN116661503B (zh) 一种基于多智能体安全强化学习的集群航迹自动规划方法
CN113962012A (zh) 无人机对抗策略优化方法及装置
CN112651486A (zh) 一种提高maddpg算法收敛速度的方法及其应用
CN116679719A (zh) 基于动态窗口法与近端策略的无人车自适应路径规划方法
CN116136945A (zh) 一种基于反事实基线的无人机集群对抗博弈仿真方法
CN115033022A (zh) 面向移动平台基于专家经验的ddpg无人机降落方法
CN114089776B (zh) 一种基于深度强化学习的无人机避障方法
Kaifang et al. A learning-based flexible autonomous motion control method for UAV in dynamic unknown environments
Zhang et al. Situational continuity-based air combat autonomous maneuvering decision-making
CN117406762A (zh) 一种基于分段式强化学习的无人机远程控制算法
CN116796843A (zh) 一种基于pso-m3ddpg的无人机多对多追逃博弈方法
CN115097861B (zh) 一种基于cel-maddpg的多无人机围捕策略方法
Liu et al. Her-pdqn: A reinforcement learning approach for uav navigation with hybrid action spaces and sparse rewards
CN116400726A (zh) 一种基于强化学习的旋翼无人机逃逸方法及系统
CN116227622A (zh) 基于深度强化学习的多智能体地标覆盖方法及系统
Fischer et al. Guiding Belief Space Planning with Learned Models for Interactive Merging
CN115826621B (zh) 一种基于深度强化学习的无人机运动规划方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210507