CN115061371B - 一种防止策略抖动的无人机控制策略强化学习生成方法 - Google Patents
一种防止策略抖动的无人机控制策略强化学习生成方法 Download PDFInfo
- Publication number
- CN115061371B CN115061371B CN202210701895.6A CN202210701895A CN115061371B CN 115061371 B CN115061371 B CN 115061371B CN 202210701895 A CN202210701895 A CN 202210701895A CN 115061371 B CN115061371 B CN 115061371B
- Authority
- CN
- China
- Prior art keywords
- strategy
- network
- control strategy
- reinforcement learning
- aerial vehicle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本申请提供了一种防止策略抖动的无人机控制策略强化学习生成方法,包括:初始化无人机控制策略网络及值网络;无人机控制策略在环境中的采样;采用GAE方法,根据样本估计优势函数;在优势函数上叠加防止无人机操控策略抖动的规范化项;更新无人机控制策略网络与值网络;重复上述步骤直至收敛,从而完成无人机控制策略的强化学习。本申请提供的方法基于行为者‑评论家强化学习方法架构,将当前状态下、当前执行动作情况下切换动作所带来的收益附加值作为评价动作切换的规范化项,用以抑制不必要的动作切换,实现不改变原有最优策略情况下,有效降低强化学习方法生成策略的抖动,使强化学习生成的策略更容易应用于真实环境中。
Description
技术领域
本申请涉及飞行控制技术领域,特别涉及一种防止策略抖动的无人机控制策略强化学习生成方法。
背景技术
近年来,随着机器学习在智能控制领域上的应用,基于神经网络构成的深度强化学习方法已被用于解决自动驾驶、无人机控制、机器人控制等领域问题。
由于强化学习算法基于对环境的自主探索与环境给出的奖励函数生成策略,并且将最大化累计奖励值作为单一的目标函数,导致其无法考虑环境本身的领域需求。如在自动驾驶领域,希望汽车可以稳定运动、无人机操控领域希望飞机接受平稳的控制指令。使用强化学习虽然可以生成完成既定任务的策略,但是策略输出动作有可能过于抖动、导致控制系统存在安全隐患或用户体验不佳。现有技术中通常采取强行限制策略的一致性方法,但该方法策略过于保守,导致错过最优策略。如果能够实现在不对环境硬性限制的情况下生成尽量少的抖动最优策略,则有望解决强化学习生成策略过度抖动的问题,加速算法向真实控制系统迁移的进程。
发明内容
本申请的目的是提供了一种防止策略抖动的无人机控制策略强化学习生成方法,以解决或减轻背景技术中的至少一个问题。
本申请的技术方案是:一种防止策略抖动的无人机控制策略强化学习生成方法,包括:
1)初始化无人机控制策略网络及值网络;
2)无人机控制策略在环境中的采样;
3)采用GAE方法,根据样本估计优势函数;
4)在优势函数上叠加防止无人机操控策略抖动的规范化项;
5)更新无人机控制策略网络与值网络;
6)重复步骤2到步骤5,直至收敛,从而完成无人机控制策略的强化学习。
进一步的,所述初始化无人机控制策略网络及值网络的过程包括:
初始化行为者-评论家强化学习架构中的策略网络Policy-Net和值网络Value-Net,其参数空间分别为θ和其中策略网络的输入为当前的状态与为正在执行的动作编码后的拼接,输出为下一时间步长的动作a选择的概率分布p(a);值网络输入为当前的状态s,下一时间步长的动作a,输出该状态下的状态行为值函数q,记为:p(a)=fθ(s),q=fφ(s,a)。
进一步的,所述无人机控制策略在环境中的采样的过程包括:
基于当前控制策略网络对环境进行交互并采样出若干条飞行轨迹,并于每一个时间步i记录状态s、上一步动作a-1、当前执行动作a、奖励值r与下一时间步的状态s',生成的飞行轨迹样本按形式写入样本池:Sample<i>=<s,a-1,a,s',r>。
进一步的,所述采用GAE方法,根据样本估计优势函数的过程包括:
不断重复采样过程,并在收集一定量样本后进行训练,其中,值网络的训练方法为:
q=fφ(s,a),q'=fφ(s',a')
φ=argminφ∑(r+γq'-q)2
无人机控制策略网络采用基于近端优化策略的训练方法,采用GAE方法计算优势函数At:δt=rt+γqφ(st+1,at+1)-qφ(st,at)。
进一步的,所述在优势函数上叠加防止无人机操控策略抖动的规范化项的过程包括:
规范化项regt用于防止无效的动作切换,计算方式为:
优势函数与规范化项的和指导策略为:
θ=argmaxθ((At+α·regt)log(p(at|st))
式中α为控制该规范化项影响程度的超参数。
进一步的,所述更新无人机飞行控制策略网络与值网络的过程包括:
在引入近端策略优化中的重要性采样后,记At'=At+α·regt:
本申请提供的方法基于行为者-评论家强化学习方法架构,在此基础上将当前状态下、当前执行动作情况下切换动作所带来的收益附加值作为评价动作切换的规范化项,用以抑制不必要的动作切换。使用该方法可以实现不改变原有最优策略情况下,有效降低强化学习方法生成策略的抖动,使强化学习生成的策略更容易应用于真实环境中。
附图说明
为了更清楚地说明本申请提供的技术方案,下面将对附图作简单地介绍。显而易见地,下面描述的附图仅仅是本申请的一些实施例。
图1为本申请的防止策略抖动的无人机控制策略强化学习生成方法示意图。
具体实施方式
为使本申请实施的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行更加详细的描述。
首先,在给定离散动作空间中定义策略抖动。由于强化学习的目标函数为获取飞机轨迹τ,使其累计奖励回报R(τ)最大,定义符合公式(1)的动作切换为一次动作抖动:
at=ai|ai≠at-1,aj=at-1,R(τi)≤R(τj)
式中,a为无人机操纵中的动作指令,R(τ)为无人机操纵轨迹的累计回报值,其可以根据无人机完成的具体任务进行设置。
上述公式的含义为,在选择t时刻的动作at时,可以选择与上一时间步长的动作at-1保持一致(记为aj),也可以选择执行另一动作(记为ai)。如果切换动作所带来的累计回报没有增长,即R(τi)≤R(τj)(执行ai时对应轨迹τi,执行aj时对应轨迹τj),那么在此时切换动作对于获取更多累计奖励回报是没有贡献的,这次的动作切换是一次抖动,此时保持当前所执行动作不影响之前所获得的累计奖励。基于以上分析,使用状态行为值函数q(s,a)评价当前状态切换动作的贡献值,即动作抖动的度量方法由(1)变更为如下:
at=ai|(ai≠at-1,aj=at-1,q(si,ai)≤q(si,aj))
由于强化学习中的状态行为值函数通常由神经网络拟合,其输出通常带有一定误差值,为了增强该防止抖动算法的实际可操作性,将动作抖动判断条件中改为如下:
at=ai|(ai≠at-1,aj=at-1,|q(si,ai)-q(si,aj)|<η)
改动后的含义为,在当前状态下改变动作(执行ai≠at-1)所带来的后续奖励值变化不大(小于阈值η)那么这次动作切换被视作一次动作抖动,抖动动作的集合记为O。无人机策略抖动定义为动作抖动的平均程度,至此已经完成了策略抖动的数学定义。
如图1所示,本申请基于策略抖动的定义,提出了一种防止此类策略抖动的无人机控制策略强化学习生成方法,具体包括:
1)初始化无人机控制策略网络及值网络
初始化行为者-评论家强化学习架构中的策略网络Policy-Net和值网络Value-Net,其参数空间分别为θ和其中策略网络的输入为当前的状态与为正在执行的动作编码后的拼接,输出为下一时间步长的动作a选择的概率分布p(a);值网络输入为当前的状态s,下一时间步长的动作a,输出该状态下的状态行为值函数q,记为:p(a)=fθ(s),q=fφ(s,a)。
2)无人机控制策略在环境中的采样
基于当前控制策略网络对环境进行交互并采样出若干条飞行轨迹,并于每一个时间步i记录状态s、上一步动作a-1、当前执行动作a、奖励值r与下一时间步的状态s',生成的飞行轨迹样本按形式写入样本池:
Sample<i>=<s,a-1,a,s',r>。
3)采用GAE(Generalized Advantage Estimator)方法,根据样本估计优势函数;
不断重复采样过程,并在收集一定量样本后进行训练,其中,值网络的训练方法为:
q=fφ(s,a),q'=fφ(s',a')
φ=argminφ∑(r+γq'-q)2
策略网络采用基于近端优化策略的训练方法(Proximal Policy Optimization,PPO):
采用GAE方法计算优势函数At:
δt=rt+γqφ(st+1,at+1)-qφ(st,at)
4)在优势函数上叠加防止无人机操控策略抖动的规范化项;
规范化项regt用于防止无效的动作抖动,计算方式为:
使用优势函数与规范化项的和指导无人机控制策略网络参数更新:
θ=argmaxθ((At+α·regt)log(p(at|st))
5)更新无人机飞行控制策略网络与值网络
在引入近端策略优化中的重要性采样后,记A't=At+α·regt:
6)重复步骤2到步骤5,直至收敛,从而完成无人机控制策略的强化学习。
本申请提供的方法基于行为者-评论家强化学习方法架构,在此基础上将当前状态下、当前执行动作情况下切换动作所带来的收益附加值作为评价动作切换的规范化项,用以抑制不必要的动作切换。使用该方法可以实现不改变原有最优策略情况下,有效降低强化学习方法生成策略的抖动,使强化学习生成的策略更容易应用于真实环境中。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (1)
1.一种防止策略抖动的无人机控制策略强化学习生成方法,其特征在于,包括:
1)初始化无人机控制策略网络及值网络,包括:初始化行为者-评论家强化学习架构中的策略网络和值网络,其参数空间分别为算子θ和值神经网络参数其中策略网络的输入为当前的状态与为正在执行的动作编码后的拼接,输出为下一时间步的动作a+1选择的概率分布p(a);值网络输入为当前的状态s,下一时间步的动作a+1,输出该状态下的状态行为值函数q,记为:p(a)=fθ(s),q=fφ(s,a);
2)无人机控制策略与环境交互,获得飞行轨迹样本,包括:
基于当前控制策略网络对环境进行交互并采样出若干条飞行轨迹,并于每一个时间步i记录状态s、上一步动作a-1、当前执行动作a、奖励值r与下一时间步的状态s',生成的飞行轨迹样本按形式写入样本池:Sample<i>=<s,a-1,a,s',r>;
3)采用广义优势估计方法,根据样本估计优势函数,包括:
不断重复无人机控制策略采样过程,并在收集一定量样本后进行训练,其中,值网络的训练方法为:
q=fφ(s,a),q'=fφ(s',a')
φ=argminφ∑(r+γq'-q)2
策略网络采用基于近端优化策略的训练方法,采用广义优势估计方法计算优势函数At:δt=rt+γqφ(st+1,at+1)-qφ(st,at);
4)在优势函数上叠加防止无人机操控策略抖动的规范化项,包括:
规范化项regt用于防止无效的动作抖动,计算方式为:
优势函数与规范化项的和指导策略为:
θ=argmaxθ((At+α·regt)log(p(at|st))
式中α为控制该规范化项影响程度的超参数;
5)更新无人机控制策略网络与值网络,包括:
在引入近端策略优化中的重要性采样后,记A′t=At+α·regt:
6)重复步骤2到步骤5,直至收敛,从而完成无人机控制策略的强化学习。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210701895.6A CN115061371B (zh) | 2022-06-20 | 2022-06-20 | 一种防止策略抖动的无人机控制策略强化学习生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210701895.6A CN115061371B (zh) | 2022-06-20 | 2022-06-20 | 一种防止策略抖动的无人机控制策略强化学习生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115061371A CN115061371A (zh) | 2022-09-16 |
CN115061371B true CN115061371B (zh) | 2023-08-04 |
Family
ID=83203223
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210701895.6A Active CN115061371B (zh) | 2022-06-20 | 2022-06-20 | 一种防止策略抖动的无人机控制策略强化学习生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115061371B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110488861A (zh) * | 2019-07-30 | 2019-11-22 | 北京邮电大学 | 基于深度强化学习的无人机轨迹优化方法、装置和无人机 |
CN112363519A (zh) * | 2020-10-20 | 2021-02-12 | 天津大学 | 四旋翼无人机强化学习非线性姿态控制方法 |
CN113276852A (zh) * | 2021-04-08 | 2021-08-20 | 南京大学 | 一种基于最大熵强化学习框架的无人驾驶车道保持方法 |
CN113467248A (zh) * | 2021-07-22 | 2021-10-01 | 南京大学 | 基于强化学习的无人机传感器故障时容错控制方法 |
CN113721655A (zh) * | 2021-08-26 | 2021-11-30 | 南京大学 | 一种控制周期自适应的强化学习无人机稳定飞行控制方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113677485A (zh) * | 2019-01-23 | 2021-11-19 | 谷歌有限责任公司 | 使用基于元模仿学习和元强化学习的元学习的用于新任务的机器人控制策略的高效自适应 |
-
2022
- 2022-06-20 CN CN202210701895.6A patent/CN115061371B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110488861A (zh) * | 2019-07-30 | 2019-11-22 | 北京邮电大学 | 基于深度强化学习的无人机轨迹优化方法、装置和无人机 |
CN112363519A (zh) * | 2020-10-20 | 2021-02-12 | 天津大学 | 四旋翼无人机强化学习非线性姿态控制方法 |
CN113276852A (zh) * | 2021-04-08 | 2021-08-20 | 南京大学 | 一种基于最大熵强化学习框架的无人驾驶车道保持方法 |
CN113467248A (zh) * | 2021-07-22 | 2021-10-01 | 南京大学 | 基于强化学习的无人机传感器故障时容错控制方法 |
CN113721655A (zh) * | 2021-08-26 | 2021-11-30 | 南京大学 | 一种控制周期自适应的强化学习无人机稳定飞行控制方法 |
Non-Patent Citations (1)
Title |
---|
闫达帅.强化学习的航拍视频运动小目标检测方法研究.《西安电子科技大学硕士学位论文》.2020, * |
Also Published As
Publication number | Publication date |
---|---|
CN115061371A (zh) | 2022-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112668235B (zh) | 基于离线模型预训练学习的ddpg算法的机器人控制方法 | |
Wei et al. | Multiagent soft q-learning | |
Tessler et al. | A deep hierarchical approach to lifelong learning in minecraft | |
EP3675035A1 (en) | Active tracking method, device and system | |
Strehl et al. | Incremental model-based learners with formal learning-time guarantees | |
CN111913803B (zh) | 一种基于akx混合模型的服务负载细粒度预测方法 | |
Shuprajhaa et al. | Reinforcement learning based adaptive PID controller design for control of linear/nonlinear unstable processes | |
CN111008449A (zh) | 一种用于战场仿真环境下深度强化学习推演决策训练的加速方法 | |
CN111300390A (zh) | 基于蓄水池采样和双经验池的机械臂智能控制系统 | |
JP6841852B2 (ja) | 制御装置及び制御方法 | |
CN116448117A (zh) | 一种融合深度神经网络和强化学习方法的路径规划方法 | |
CN115409158A (zh) | 基于分层深度强化学习模型的机器人行为决策方法及设备 | |
CN115061371B (zh) | 一种防止策略抖动的无人机控制策略强化学习生成方法 | |
CN114690623A (zh) | 一种值函数快速收敛的智能体高效全局探索方法及系统 | |
CN113848711B (zh) | 一种基于安全模型强化学习的数据中心制冷控制算法 | |
Xue et al. | Neural network-based event-triggered integral reinforcement learning for constrained H∞ tracking control with experience replay | |
Arora et al. | Online inverse reinforcement learning under occlusion | |
CN117010482A (zh) | 一种基于双经验池优先采样和DuelingDQN实现的策略方法 | |
CN113240118B (zh) | 优势估计方法、装置、电子设备和存储介质 | |
CN114053712B (zh) | 一种虚拟对象的动作生成方法、装置及设备 | |
Liu et al. | Forward-looking imaginative planning framework combined with prioritized-replay double DQN | |
Kishikawa et al. | Multi-objective deep inverse reinforcement learning through direct weights and rewards estimation | |
CN114518751A (zh) | 基于最小二乘截断时域差分学习的路径规划决策优化方法 | |
Zhou et al. | Deep reinforcement learning based intelligent decision making for two-player sequential game with uncertain irrational player | |
Zhang et al. | Gliding control of underwater gliding snake-like robot based on reinforcement learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |