CN113721655A - 一种控制周期自适应的强化学习无人机稳定飞行控制方法 - Google Patents

一种控制周期自适应的强化学习无人机稳定飞行控制方法 Download PDF

Info

Publication number
CN113721655A
CN113721655A CN202110988096.7A CN202110988096A CN113721655A CN 113721655 A CN113721655 A CN 113721655A CN 202110988096 A CN202110988096 A CN 202110988096A CN 113721655 A CN113721655 A CN 113721655A
Authority
CN
China
Prior art keywords
action
aerial vehicle
unmanned aerial
current
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110988096.7A
Other languages
English (en)
Other versions
CN113721655B (zh
Inventor
俞扬
詹德川
黎铭
周志华
罗凡明
袁雷
吴银霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202110988096.7A priority Critical patent/CN113721655B/zh
Publication of CN113721655A publication Critical patent/CN113721655A/zh
Application granted granted Critical
Publication of CN113721655B publication Critical patent/CN113721655B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开一种控制周期自适应的强化学习无人机稳定飞行控制方法。本发明针对无人机飞行时灵敏性与稳定性的权衡问题,提出了基于强化学习的无人机自适应周期的控制方法。共包含以下关键环节:(1)构造动作增广的策略模型,在策略模型的动作输出中加入是否需要执行该动作的标志位。(2)在环境中运行策略模型时,若标志位为“是”,则执行策略模型输出的动作,并计一定的动作惩罚值;否则不执行该动作,且无惩罚值。(3)使用强化学习算法,通过策略模型与环境的交互,以最大化环境奖励并最小化动作惩罚值为目标,对策略模型进行优化。本发明使得无人机能够对其控制周期进行自适应的调整,同时保证了无人机的性能与飞行稳定性。

Description

一种控制周期自适应的强化学习无人机稳定飞行控制方法
技术领域
本发明涉及无人机自主飞行控制方法,具体是一种控制周期自适应的强化学习无人机飞行稳定控制方法,属于无人机飞行控制技术领域。
背景技术
无人机由于其结构简单、灵活且机动性强,在航拍、测绘、物流及导航等领域中有着无可替代的地位。无人机系统控制技术近年来发展迅速,其中自主飞行技术是其核心技术之一。无人机飞行的稳定性在很多场景至关重要,如在载人、搭载精密仪器等场景下,需要无人机能够平稳的飞行,以免所搭载的人或物经历过高的颠簸导致其损坏或不适。因此,飞行稳定性已经作为自主飞行的一项重要技术指标。但灵敏性与稳定性是需要权衡的两个指标。过高的稳定性一般以牺牲无人机的灵活性为代价,致使无人机的响应速度降低。而无人机若反应过于灵敏,则会导致其在飞行过程中过于颠簸。如何平衡稳定性与灵活性是无人机控制领域的一个亟待解决的问题。
强化学习通过在环境中的试错交互以搜索在环境中的最优策略。近年来强化学习在各种控制领域中,均表现出了卓越的效果。因此,针对无人机飞行的稳定控制问题,越来越多的研究者致力于研究如何使用强化学习的方法去解决该问题。在模拟环境的帮助下,现阶段强化学习能够以较低的代价得到非常灵敏的无人机控制策略。但现今主流的强化学习探索方式是对动作加入独立的噪声,这个过程会导致连续两次的控制量有很大的差异,从而导致无人机抖动。提升无人机的控制周期能够缓解这种抖动的现象,因为在更高的控制周期的情况下,在更长的一段时间,无人机会维持同一控制量,高频率的抖动也会被过滤。但是控制周期的增长会使得策略的控制延迟增大,从而无人机在关键且需要高频决策的时候无法立即做出响应,导致飞行性能降低。
发明内容
发明目的:为了权衡基于强化学习的无人机的稳定性与灵敏性,本发明提出了一种控制周期自适应的强化学习无人机稳定飞行控制方法。本发明将无人机的控制周期也作为策略的决策项,并通过强化学习的方法对其进行控制策略进行搜索。
强化学习算法是针对马尔可夫决策过程(MDP),MDP包括五要素:<S,A,p,R,γ>,其中,S表示状态空间,即所有可能出现的状态;A表示动作空间,即所有可能执行的动作;p(s′|s,a)为状态转移概率分布,即环境进行状态转移时所参照的分布;表示在状态s下执行动作a将以什么样的概率转移至新的状态s′;R(s,a)为奖赏函数,定义在状态s下执行动作a所获得的即时奖赏;γ为折扣因子,控制智能体对长期回报的重视程度,若γ越小,智能体将会越注重即时的奖赏,反之,将会越注重长期的回报收益。强化学习的目的是通过与环境的试错交互,搜索得到一个策略π(a|s),使得在环境中获得最高的期望累积回报E[∑tγtR(st,at)]。那么在无人机的控制问题上,状态空间一般是由各种传感器数据的空间构成的;动作空间则是无人机的执行器的控制范围;状态转移分布则是根据无人机所执行的动作对无人机的状态进行改变;奖赏函数则是根据无人机所执行的具体任务而定的,如在根据指定航线飞行时,奖赏函数可以是无人机在每一时刻距离既定航线的距离的相反数;折扣因子则根据任务的执行时间而定。
强化学习用值函数表示在某状态或在某状态下执行某动作后的期望累积回报:动作值函数Qπ(s,a)=E[∑tγt(st,at)|s0=s,a0=a]表示智能体按照策略π(a|s)在状态s执行动作a后,在环境中获得的期望累积回报。由于神经网络强大的拟合能力,深度强化学习使用深度神经网络来对值函数与策略进行近似的表示,假设策略网络的与值函数网络的参数分别为θ和φ。那么策略网络与值函数网络可以分别表示为π(a|s;θ),Q(s,a;φ)。在现有的深度强化学习算法中,策略与值函数往往是同时学习且相辅相成的。以Soft Actor-Critic(SAC)算法为例,算法由一个策略网络π(a|s;θ)和两个值函数网络Q1(s,a;φ1),Q2(s,a;φ2)以及一个经验回放池P构成。其训练过程分为两部分:与环境交互以及网络参数优化。在环境交互过程中,首先智能体拿到其自身状态s,然后从策略分布π(a|s;θ)中采一动作a,并将该动作作用于环境,环境根据状态转移分布p(s′|s,a),得到下一时刻状态s′,同时根据奖赏函数得到即时奖赏R(s,a)。然后策略根据下一时刻状态s′继续采样动作并执行,循环若干次后,将每一步采集到的数据保存入经验重放池P中,并进行参数更新。在参数更新过程中,每次从经验重放池P中采集一批样本B,计算动作值函数损失:
L(φ1)=Es,a,r,s′~B[(Q1(s,a;φ1)-Qtarget(s,a,r,s′))2],
L(φ2)=Es,a,r,s′~B[(Q2(s,a;φ2)-Qtarget(s,a,r,s′))2],
Figure BDA0003231479570000021
其中,
Figure BDA0003231479570000022
Figure BDA0003231479570000023
分别为Q1(s,a;φ1),Q2(s,a;φ2)的滑动平均,即其参数由历次Q1,Q2更新后的参数经过滑动平均变来,β控制熵的增益。
随后SAC会对策略网络进行更新,策略参数的损失函数为:
L(θ)=Es~B,a~π(a|s)[βlogπ(a|s)-min(Q1(s,a;φ1),Q2(s,a;φ2))].
对于深度神经网络模型,我们会使用基于梯度的优化方法如随机梯度下降或带惯量的梯度下降方法对φ12,θ进行优化。再经过对参数的优化之后,智能体将会再次进入采样模式,使用当前策略参数在环境中采集样本,并再次将样本放入经验重放池中,并对参数进行优化,并反复进行采样与优化两个操作。
从上述步骤可以看出相邻两次决策之间的动作是从两个不同分布中独立采集来的:假设当前为第t步,下一步为第t+1步。那么这两步所执行的动作分别从π(at|st)和π(at+1|st+1)中采到。且二者是独立采集的,因此,在智能体采样的过程中,由于动作采样的独立性,两次决策之间可能会有比较大的抖动,这种抖动会导致最终学到的策略也存在这样的抖动现象,使得无人机的飞行稳定性降低。这种稳定性会随着控制频率的增大而增大,因为控制频率的增大会放大控制量的变化速度,对于策略的稳定控制是非常不利的。相反,若我们降低策略的决策频率,那么稳定性降低的稳定则会有所缓解,因为动作的变化速率会相应降低。但是过低的决策频率会降低无人机的机动性能,使得策略的表现变得迟缓。但是实际上无人机并不是时时刻刻都需要保持在较高的决策频率,只有在关键时刻,决策频率需要维持的比较高,但是若仅仅用简单的规则在分类何时需要高频控制何时需要低频控制,是很难考虑到所有情况的。因此本发明针对这个问题,提出了数据驱动的控制周期控制方法。
技术方案:一种控制周期自适应的强化学习无人机稳定飞行控制方法,在策略模型中对无人机的动作空间进行增广,正常情况下,无人机的动作空间为A,在经过了动作空间的增广之后,无人机的动作空间增广为A×{False,True},动作变为(a,e),其中e为一个二值变量,可以取True或者False。它表示是否执行当前的动作a,若e=False,则执行上一步所执行的动作;若e=True,则立刻执行当前输出的动作。这样就将是否执行当前动作的决定作为动作的一维,并交给强化学习策略去决定了。假设最小的动作执行间隔为T,那么,策略实际上的决策间隔将会大于等于T。若每次决策e都为True,则策略退化为加入自适应周期调整技巧前的策略了,若每次决策e都为False,则策略的输出永远与第一次采取的动作一样,策略的性能表现会很低。因此智能体可以主动的通过对动作e的控制来控制决策周期,以此来弥补动作独立采样导致的控制抖动问题。
对无人机的动作空间进行增广实现无人机飞行控制训练的方法,主要包括如下内容:
构建策略模型,所述策略模型的输入为无人机当前的状态s,输出为预测的无人机当前步的动作a以及用于判断是否需要执行当前所预测的动作的参数——执行当前动作标志位e,从数学表达式角度将策略模型增广为π(a,e|s;θ),θ为策略模型的参数。其中a为无人机所可以控制的动作,执行当前动作标志位e为一个二值变量,可以取True或者False。它表示是否执行当前的动作a,若e=False,则执行上一步所执行的动作;若e=True,则立刻执行当前输出的动作。这样就将是否执行当前动作的决定作为动作的一维,并交给强化学习策略去决定。
控制策略的训练过程包括两部分:采样与参数优化。通过SAC算法实现采样与参数优化的步骤如下。
采样:将控制策略π(a,e|s;θ)与环境进行交互并采样。与环境的交互步骤如下:
步骤301:对环境进行重置,回到初始状态,即从马尔科夫转移过程中的初始状态中随机采集一个作为初始状态。
步骤302:从环境中获取当前状态,并从中提取出无人机所需的各种特征,并编码为输入至策略的状态向量s。
步骤303:将当前状态向量s输入至策略π(a,e|s;θ)中,根据此状态分布,采样得到当前步的动作a以及判断是否需要执行当前所预测的动作的参数——执行当前动作标志位e。
步骤304:若执行当前动作标志位e为True,则执行当前动作a至当前环境中;若执行当前动作标志位e为False,则执行上一步所执行的动作至环境中。
步骤305:动作a被执行之后,从状态转移分布p(s′|s,a)中采样得到下一时刻状态s′,并同时判断轨迹是否终止,得到轨迹终止标志done。
步骤306:对当前奖赏函数R(s,A)进行增广,由于我们在策略模型构造时就引入了是否执行当前动作的标志位e,因此在这里,我们将e也加入当前奖赏函数,将当前奖赏函数增广为
Figure BDA0003231479570000041
Figure BDA0003231479570000042
Figure BDA0003231479570000043
其中,c为一负常数,用于控制智能体对飞行稳定性的依赖,即若无人机没有执行与上一步一样的动作,则对当前决策进行一个惩罚,这样无人机就会倾向于执行与上一步一样的动作,也就是输出e=False,这样无人机的动作就会倾向于平稳。但注意c的大小不应该大于任务完成时的奖赏,防止无人机为了使策略输出平稳的动作而不努力完成任务。随后根据所述增广的奖赏函数,计算当前步的奖赏
Figure BDA0003231479570000044
步骤307:判断当前轨迹终止标志done,若轨迹终止标志为真,终止轨迹,回到步骤301回到起始状态并采集新的一条轨迹;若轨迹终止标志为假,继续采集当前轨迹,即进入下一时间步,回到步骤302。
步骤308:若轨迹采集到指定数量,停止采集轨迹,进入参数优化步骤。
将上述采集到的环境交互数据<s,a,s′,r,done>存入经验重放池P。
参数优化:从经验重放池中采集一批数据B:{<s,a,s′,r,done>},并使用B对值函数与策略函数的参数进行优化。
步骤401:记策略为π(a,e|s;θ),其参数为θ,并记两值函数网络分别为Q1(s,a,e;φ1)与Q2(s,a,e;φ2),其参数分别为φ1和φ2。首先根据下式计算动作值函数的损失函数
L(φ1)=Es,a,r,s′~B[(Q1(s,a,e;φ1)-Qtarget(s,a,e,r,s′))2],
L(φ2)=Es,a,r,s′~B[(Q2(s,a,e;φ2)-Qtarget(s,a,e,r,s′))2],
Figure BDA0003231479570000051
其中,β控制熵的增益,
Figure BDA0003231479570000052
Figure BDA0003231479570000053
分别为Q1(s,a,e;φ1),Q2(s,a,e;φ2)的滑动平均,即其参数由历次Q1,Q2更新后的参数经过滑动平均变来,Qtarget为一中间变量,为动作值函数优化的目标值。假设
Figure BDA0003231479570000054
的参数分别为ψ1,ψ2,那么ψ1,ψ2的更新方式为
ψ1=(1-λ)ψ1+λφ1,
ψ2=(1-λ)ψ2+λφ2.
其中λ为平滑系数。
步骤402:计算策略函数的损失
L(θ)=Es~B,a~π(a,e|s)[βlogπ(a|s)-min(Q1(s,a,e;φ1),Q2(s,a,e;φ2))]
其中,logπ表示策略分布取自然对数;min(·)表示取最小值操作。
步骤403:使用梯度下降等优化算法对值函数与策略参数进行优化
Figure BDA0003231479570000055
Figure BDA0003231479570000056
Figure BDA0003231479570000057
其中,
Figure BDA0003231479570000058
为梯度计算符号,
Figure BDA0003231479570000059
分别表示对两个值函数与策略函数的参数进行梯度的计算。
步骤404:计算熵的正则化系数β的损失:
L(β)=-βEs~B,a~π(a|s)[(logπ(a|s)+TargetEntropy)].
其中TargetEntropy为目标的用于探索的熵,用于控制探索的大小,并对该loss进行优化。
Figure BDA00032314795700000510
这样的优化能够使得策略的熵维持在TargetEntropy的大小,保证了熵的稳定控制。
在经过反复的采样与参数优化之后,策略模型将会逐渐收敛至一个能够自适应对控制周期进行调整的策略,基于数据驱动的方法同时兼顾无人机飞行的稳定性与灵活性。这样也就达到的我们最初的自适应控制周期的目的。
一种计算机设备,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如上所述的控制周期自适应的强化学习无人机稳定飞行控制方法。
一种计算机可读存储介质,该计算机可读存储介质存储有执行如上所述的控制周期自适应的强化学习无人机稳定飞行控制方法的计算机程序。
有益效果:与现有技术相比,本发明提供的控制周期自适应的强化学习无人机稳定飞行控制方法,具有如下优点:
(1)本发明易于实现,能够很快的融合入现有各类强化学习算法与策略模型。
(2)本发明不会对算法的运行性能有所影响,相比于传统强化学习算法,本方法与之的区别仅在于增加了一维度是否执行的标志位。
(3)本发明能够很好的适用于无人机的稳定性与灵敏性的权衡问题,且通过强化学习的方式,对这个问题进行了自适应的求解。
(4)本发明所需要调整的参数仅仅在于奖赏函数中对执行当前动作为真时的惩罚,易于调参。
附图说明
图1为本发明实施例中的策略模型采样时的流程示意图;
图2为本发明实施例中的参数优化时的流程示意图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种控制周期自适应的强化学习无人机稳定飞行控制方法,在策略模型中对是否执行当前动作进行了预测,即增广的一维动作e;在值函数模型中需要多输入一维是否执行当前动作e;使用强化学习对策略模型与值函数模型进行优化;当e=True时执行当前动作,当e=False时执行上一次执行的动作;对奖赏函数进行增广,惩罚执行当前动作的决策,使得策略尽可能少的去改变当前动作;使用的优化算法包括但不限于SAC;通过与环境的交互采集样本;通过梯度下降方法对参数策略进行优化;通过引入是否执行当前动作e来通过强化学习对当前策略的执行周期时长进行自适应的决策。
无人机通过强化学习的方式对其控制周期进行自适应的控制。其中包括策略模型的搭建,样本的采集以及参数的优化。其中策略模型的结构可以是各种类型的,如神经网络模型与树模型等。模型输入为当前的状态s,输出为预测的当前步的动作a以及是否需要执行当前所预测的动作的参数——执行当前动作标志位e,即策略模型增广为π(a,e|s;θ),θ为其参数。而策略的优化与传统强化学习算法无异,包括两部分:采样与参数优化。下面将以SAC算法为例,结合图1、2对本发明的采样与优化进行阐述。
图1为本发明实施例中的策略模型采样时的流程示意图。其描述了策略模型与环境交互采样的过程:
步骤101,使用当前策略π(a,e|s;θ)开始整个采样流程。模型输入为当前的状态S,输出为预测的当前步的动作A以及是否需要执行当前所预测的动作的参数——执行当前动作标志位e,θ为其参数。其中a为无人机所可以控制的动作,e为一个二值变量,可以取True或者False。它表示是否执行当前的动作a,若e=False,则执行上一步所执行的动作;若e=True,则立刻执行当前输出的动作。这样就将是否执行当前动作的决定作为动作的一维,并交给强化学习策略去决定。以下我们假设策略分布为高斯分布即
Figure BDA0003231479570000071
Figure BDA0003231479570000072
其中
Figure BDA0003231479570000073
为用神经网络表示的四个函数分别表示无人机动作a的均值、方差以及是否执行当前动作的原始值
Figure BDA0003231479570000074
的均值、方差。若
Figure BDA0003231479570000075
大于0,则执行当前动作,e=True,否则不执行当前动作,e=False。
步骤102,对环境进行初始化,即从马尔科夫转移过程中的初始状态中随机采一个作为初始状态,并重新开始采集一条轨迹。
步骤103,从环境中获取当前状态,并从中提取出无人机所需的各种特征,并编码为输入至策略的状态向量s。
步骤104,将当前状态向量s输入至策略π(a,e|s;θ)中,根据此状态分布
Figure BDA0003231479570000076
Figure BDA0003231479570000077
采样得到当前步的动作a以及是否需要执行当前所预测的动作的参数——执行当前动作标志位e。
步骤105,标志位e有两种可能的值:True或者False。对e的值进行判断。
步骤106,若e为True,那么说明此时应当在环境中执行当前动作a,在环境中执行当前动作a。
步骤107,若e为False,那么说明此时不应该在环境中执行当前动作a,那么在环境中执行上一步执行的动作。
步骤108,判断当前样本量是否足够用来训练或者达到预设的值。
步骤109,若步骤108不满足,则继续采样,并判断当前轨迹结束条件,得到轨迹结束标志位done。若当前轨迹已经结束,则回到步骤102,重新对环境初始化。
步骤110,若轨迹未结束,则时间步推进一步,根据状态转移分布p(s′|s,a),得到下一时刻状态s′,并回到步骤103,重新构造状态向量。
步骤111,若步骤108已经满足,则停止采样,结束采样流程,并将每一时刻的转移<s,a,s′,done>储存入经验回放池P,同时计算每一步的奖赏,同时对当前奖赏函数R(s,a)进行增广,由于我们在策略模型构造时就引入了是否执行当前动作的标志位e,因此在这里,我们将e也加入当前奖赏函数,将当前奖赏函数增广为
Figure BDA0003231479570000081
Figure BDA0003231479570000082
Figure BDA0003231479570000083
其中,c为一负常数,用于控制智能体对飞行稳定性的依赖,即若无人机没有执行与上一步一样的动作,则对当前决策进行一个惩罚,这样无人机就会倾向于执行与上一步一样的动作,也就是输出e=False,这样无人机的动作就会倾向于平稳。但注意c的大小不应该大于任务完成时的奖赏,防止无人机为了使策略输出平稳的动作而不努力完成任务。随后根据所增广的奖赏函数,计算当前步的奖赏
Figure BDA0003231479570000084
同时将计算出的每一步的奖赏r一块存入经验回放池P,这样经验回放池的数据结构应当为<s,a,s′,r,done>。
图2为本发明实施例中的参数优化时的流程示意图。其描述了策略模型与值函数模型的参数优化过程:
步骤201,准备当前策略模型π(a,e|s;θ),值函数模型Q1(s,a,e;φ1),Q2(s,a,e;φ2)。
步骤202,根据下式计算动作值函数的损失函数:
L(φ1)=Es,a,r,s′~B[(Q1(s,a,e;φ1)-Qtarget(s,a,e,r,s′))2],
L(φ2)=Es,a,r,s′~B[(Q2(s,a,e;φ2)-Qtarget(s,a,e,r,s′))2],
Figure BDA0003231479570000085
其中,β控制熵的增益,
Figure BDA0003231479570000086
Figure BDA0003231479570000087
分别为Q1(s,a,e;φ1),Q2(s,a,e;φ2)的滑动平均,即其参数由历次Q1,Q2更新后的参数经过滑动平均变来,Qtarget为一中间变量,为动作值函数优化的目标值。假设
Figure BDA0003231479570000088
的参数分别为ψ1,ψ2,那么ψ1,ψ2的更新方式为
ψ1=(1-λ)ψ1+λφ1,
ψ2=(1-λ)ψ2+λφ2.
其中λ为平滑系数。
步骤203,计算策略函数的损失
L(θ)=Es~B,a~π(a,e|s)[βlogπ(a|s)-min(Q1(s,a,e;φ1),Q2(s,a,e;φ2))].
其中,logπ表示策略分布取自然对数;min(·)表示取最小值操作。
步骤204,使用梯度下降等优化算法对值函数与策略参数进行优化
Figure BDA0003231479570000091
Figure BDA0003231479570000092
Figure BDA0003231479570000093
其中,
Figure BDA0003231479570000094
为梯度计算符号,
Figure BDA0003231479570000095
分别表示对两个值函数与策略函数的参数进行梯度的计算。
步骤205,计算熵的正则化系数β的损失:
L(β)=-βEs~B,a~π(a|s)[(logπ(a|s)+TargetEntropy)].
其中TargetEntropy为目标的用于探索的熵,用于控制探索的大小,并对该损失进行优化
Figure BDA0003231479570000096
这样的优化能够使得策略的熵维持在TargetEntropy的大小,保证了熵的稳定控制。
步骤206,将步骤204、205中得到的所有新的模型参数应用至当前模型上。
显然,本领域的技术人员应该明白,上述的本发明实施例的控制周期自适应的强化学习无人机稳定飞行控制方法各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。

Claims (10)

1.一种控制周期自适应的强化学习无人机稳定飞行控制方法,其特征在于,基于强化学习求解控制策略模型,并在策略模型中对无人机的动作空间进行增广,在策略模型中对是否执行当前动作进行了预测,无人机的动作空间增广为A×{False,True},动作为(a,e),其中e为一个二值变量,取True或者False;在值函数模型中需要多输入一维执行当前动作标志位e;使用强化学习对策略模型与值函数模型进行优化;当e=True时执行当前动作,当e=False时执行上一次执行的动作。
2.根据权利要求1所述的控制周期自适应的强化学习无人机稳定飞行控制方法,其特征在于,策略模型训练过程中对奖赏函数进行增广。
3.根据权利要求1所述的控制周期自适应的强化学习无人机稳定飞行控制方法,其特征在于,无人机通过强化学习的方式对其控制周期进行自适应的控制,其中包括策略模型的搭建,样本的采集以及参数的优化;模型输入为当前的状态s,输出为预测的当前步的动作a以及是否需要执行当前所预测的动作的参数——执行当前动作标志位e,即策略模型增广为π(a,e|s;θ),θ为其参数。
4.根据权利要求3所述的控制周期自适应的强化学习无人机稳定飞行控制方法,其特征在于,采样过程中,将策略π(a,e|s;θ)与环境进行交互并采样;环境的交互步骤如下:
步骤301:对环境进行重置,从马尔科夫转移过程中的初始状态中随机采集一个作为初始状态;
步骤302:从环境中获取当前状态,并从中提取出无人机所需的各种特征,并编码为输入至策略的状态向量s;
步骤303:将当前状态向量s输入至策略π(a,e|s;θ)中,根据此状态分布,采样得到当前步的动作a以及判断是否需要执行当前所预测的动作的参数——执行当前动作标志位e;
步骤304:若执行当前动作标志位e为True,则执行当前动作a至当前环境中;若执行当前动作标志位e为False,则执行上一步所执行的动作至环境中;
步骤305:从状态转移分布p(s′|s,a)中采样得到下一时刻状态s′,并同时判断轨迹是否终止,得到轨迹终止标志done;
步骤306:对当前奖赏函数R(s,a)进行增广,将当前奖赏函数增广为
Figure FDA0003231479560000011
Figure FDA0003231479560000012
Figure FDA0003231479560000013
其中,c为一负常数,根据所述增广的奖赏函数,计算当前步的奖赏
Figure FDA0003231479560000014
步骤307:判断当前轨迹终止标志done,若轨迹终止标志为真,终止轨迹,回到步骤301回到起始状态并采集新的一条轨迹;若轨迹终止标志为假,继续采集当前轨迹,即进入下一时间步,回到步骤302;
步骤308:若轨迹采集到指定数量,停止采集轨迹,将采集到的环境交互数据<s,a,s′,r,done>存入经验重放池P。
5.根据权利要求3所述的控制周期自适应的强化学习无人机稳定飞行控制方法,其特征在于,参数优化过程中:从经验重放池中采集一批数据B:{<s,a,s′,r,done>},并使用B对值函数与策略函数的参数进行优化。
6.根据权利要求5所述的控制周期自适应的强化学习无人机稳定飞行控制方法,其特征在于,参数优化包括:
步骤401:首先根据下式计算动作值函数的损失函数
L(φ1)=Es,a,r,s′~B[(Q1(s,a,e;φ1)-Qtarget(s,a,e,r,s′))2],
L(φ2)=Es,a,r,s′~B[(Q2(s,a,e;φ2)-Qtarget(s,a,e,r,s′))2],
Figure FDA0003231479560000021
其中,β控制熵的增益,Qtarget为一中间变量,为动作值函数优化的目标值,
Figure FDA0003231479560000022
Figure FDA0003231479560000023
分别为Q1(s,a,e;φ1),Q2(s,a,e;φ2)的滑动平均,φ1与φ2分别为值函数网络Q1与Q2的参数;假设
Figure FDA0003231479560000024
的参数分别为ψ1,ψ2,那么ψ1,ψ2的更新方式为
ψ1=(1-λ)ψ1+λφ1
ψ2=(1-λ)ψ2+λφ2
其中λ为平滑系数;
步骤402:计算策略函数的损失
L(θ)=Es~B,a~π(a,e|s)[βlogπ(a|s)-min(Q1(s,a,e;φ1),Q2(s,a,e;φ2))]
其中,logπ表示策略分布取自然对数;min(·)表示取最小值操作;
步骤403:使用梯度下降等优化算法对值函数与策略参数进行优化
Figure FDA0003231479560000025
Figure FDA0003231479560000026
Figure FDA0003231479560000031
其中,
Figure FDA0003231479560000032
为梯度计算符号,
Figure FDA0003231479560000033
分别表示对两个值函数与策略函数的参数进行梯度的计算。
7.根据权利要求5所述的控制周期自适应的强化学习无人机稳定飞行控制方法,其特征在于,参数优化过程中:计算熵的正则化系数β的损失:
L(β)=-βEs~B,a~π(a|s)[(logπ(a|s)+TargetEntropy)]
其中TargetEntropy为目标的用于探索的熵,用于控制探索的大小,并对该loss进行优化;
Figure FDA0003231479560000034
这样的优化能够使得策略的熵维持在TargetEntropy的大小,保证了熵的稳定控制。
8.根据权利要求4所述的控制周期自适应的强化学习无人机稳定飞行控制方法,其特征在于,所述步骤306中,c为一负常数,用于控制智能体对飞行稳定性的依赖,即若无人机没有执行与上一步一样的动作,则对当前决策进行一个惩罚;c的大小小于等于任务完成时的奖赏。
9.一种计算机设备,其特征在于:该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如权利要求1-8中任一项所述的控制周期自适应的强化学习无人机稳定飞行控制方法。
10.一种计算机可读存储介质,其特征在于:该计算机可读存储介质存储有执行如权利要求1-8中任一项所述的控制周期自适应的强化学习无人机稳定飞行控制方法的计算机程序。
CN202110988096.7A 2021-08-26 2021-08-26 一种控制周期自适应的强化学习无人机稳定飞行控制方法 Active CN113721655B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110988096.7A CN113721655B (zh) 2021-08-26 2021-08-26 一种控制周期自适应的强化学习无人机稳定飞行控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110988096.7A CN113721655B (zh) 2021-08-26 2021-08-26 一种控制周期自适应的强化学习无人机稳定飞行控制方法

Publications (2)

Publication Number Publication Date
CN113721655A true CN113721655A (zh) 2021-11-30
CN113721655B CN113721655B (zh) 2023-06-16

Family

ID=78678161

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110988096.7A Active CN113721655B (zh) 2021-08-26 2021-08-26 一种控制周期自适应的强化学习无人机稳定飞行控制方法

Country Status (1)

Country Link
CN (1) CN113721655B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115061371A (zh) * 2022-06-20 2022-09-16 中国航空工业集团公司沈阳飞机设计研究所 一种防止策略抖动的无人机控制策略强化学习生成方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109696830A (zh) * 2019-01-31 2019-04-30 天津大学 小型无人直升机的强化学习自适应控制方法
US20190302708A1 (en) * 2018-03-30 2019-10-03 Fujitsu Limited Reinforcement learning method and device
CN110488861A (zh) * 2019-07-30 2019-11-22 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
CN110488859A (zh) * 2019-07-15 2019-11-22 北京航空航天大学 一种基于改进Q-learning算法的无人机航路规划方法
CN112148025A (zh) * 2020-09-24 2020-12-29 东南大学 一种基于积分补偿强化学习的无人飞行器稳定控制算法
CN112198870A (zh) * 2020-06-01 2021-01-08 西北工业大学 基于ddqn的无人机自主引导机动决策方法
CN112363519A (zh) * 2020-10-20 2021-02-12 天津大学 四旋翼无人机强化学习非线性姿态控制方法
CN113110546A (zh) * 2021-04-20 2021-07-13 南京大学 一种基于离线强化学习的无人机自主飞行控制方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190302708A1 (en) * 2018-03-30 2019-10-03 Fujitsu Limited Reinforcement learning method and device
CN109696830A (zh) * 2019-01-31 2019-04-30 天津大学 小型无人直升机的强化学习自适应控制方法
CN110488859A (zh) * 2019-07-15 2019-11-22 北京航空航天大学 一种基于改进Q-learning算法的无人机航路规划方法
CN110488861A (zh) * 2019-07-30 2019-11-22 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
CN112198870A (zh) * 2020-06-01 2021-01-08 西北工业大学 基于ddqn的无人机自主引导机动决策方法
CN112148025A (zh) * 2020-09-24 2020-12-29 东南大学 一种基于积分补偿强化学习的无人飞行器稳定控制算法
CN112363519A (zh) * 2020-10-20 2021-02-12 天津大学 四旋翼无人机强化学习非线性姿态控制方法
CN113110546A (zh) * 2021-04-20 2021-07-13 南京大学 一种基于离线强化学习的无人机自主飞行控制方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KAIFANG WAN 等: "Robust Motion Control for UAV in Dynamic Uncertain Environments Using Deep Reinforcement Learning", 《WEB OF SCIENCE》 *
牟治宇 等: "基于深度强化学习的无人机数据采集和路径规划研究", 《物联网学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115061371A (zh) * 2022-06-20 2022-09-16 中国航空工业集团公司沈阳飞机设计研究所 一种防止策略抖动的无人机控制策略强化学习生成方法
CN115061371B (zh) * 2022-06-20 2023-08-04 中国航空工业集团公司沈阳飞机设计研究所 一种防止策略抖动的无人机控制策略强化学习生成方法

Also Published As

Publication number Publication date
CN113721655B (zh) 2023-06-16

Similar Documents

Publication Publication Date Title
US11783227B2 (en) Method, apparatus, device and readable medium for transfer learning in machine learning
CN110956148B (zh) 无人车的自主避障方法及装置、电子设备、可读存储介质
CN112465151A (zh) 一种基于深度强化学习的多智能体联邦协作方法
CN111260027B (zh) 一种基于强化学习的智能体自动决策方法
CN110132282B (zh) 无人机路径规划方法及装置
CN114162146B (zh) 行驶策略模型训练方法以及自动驾驶的控制方法
CN110442129B (zh) 一种多智能体编队的控制方法和系统
CN109726676B (zh) 自动驾驶系统的规划方法
CN111768028B (zh) 一种基于深度强化学习的gwlf模型参数调节方法
CN111783994A (zh) 强化学习的训练方法和装置
CN111788585A (zh) 一种深度学习模型的训练方法、系统
CN116596060B (zh) 深度强化学习模型训练方法、装置、电子设备及存储介质
CN116448117A (zh) 一种融合深度神经网络和强化学习方法的路径规划方法
CN114268986A (zh) 一种无人机计算卸载与充电服务效能优化方法
CN113721655A (zh) 一种控制周期自适应的强化学习无人机稳定飞行控制方法
CN113341696A (zh) 一种运载火箭姿态控制参数智能整定方法
CN111488208B (zh) 基于可变步长蝙蝠算法的边云协同计算节点调度优化方法
CN115205577A (zh) 用于图像分类的卷积神经网络的自适应优化训练方法
CN113985870B (zh) 一种基于元强化学习的路径规划方法
CN115453880A (zh) 基于对抗神经网络的用于状态预测的生成模型的训练方法
CN111539989B (zh) 基于优化方差下降的计算机视觉单目标跟踪方法
CN114662656A (zh) 一种深度神经网络模型训练方法、自主导航方法及系统
CN111862158A (zh) 一种分阶段目标跟踪方法、装置、终端及可读存储介质
CN117311374A (zh) 一种基于强化学习的飞行器控制方法、终端设备及介质
KR20220084969A (ko) 샘플 효율적인 탐색을 위한 샘플-인지 엔트로피 정규화 기법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant