CN115061371A

CN115061371A - 一种防止策略抖动的无人机控制策略强化学习生成方法

Info

Publication number: CN115061371A
Application number: CN202210701895.6A
Authority: CN
Inventors: 彭宣淇; 朴海音; 詹光; 孙阳; 冯勇明; 杨晟琦; 于津; 张健
Original assignee: Shenyang Aircraft Design and Research Institute Aviation Industry of China AVIC
Current assignee: Shenyang Aircraft Design and Research Institute Aviation Industry of China AVIC
Priority date: 2022-06-20
Filing date: 2022-06-20
Publication date: 2022-09-16
Anticipated expiration: 2042-06-20
Also published as: CN115061371B

Abstract

本申请提供了一种防止策略抖动的无人机控制策略强化学习生成方法，包括：初始化无人机控制策略网络及值网络；无人机控制策略在环境中的采样；采用GAE方法，根据样本估计优势函数；在优势函数上叠加防止无人机操控策略抖动的规范化项；更新无人机控制策略网络与值网络；重复上述步骤直至收敛，从而完成无人机控制策略的强化学习。本申请提供的方法基于行为者‑评论家强化学习方法架构，将当前状态下、当前执行动作情况下切换动作所带来的收益附加值作为评价动作切换的规范化项，用以抑制不必要的动作切换，实现不改变原有最优策略情况下，有效降低强化学习方法生成策略的抖动，使强化学习生成的策略更容易应用于真实环境中。

Description

一种防止策略抖动的无人机控制策略强化学习生成方法

技术领域

本申请涉及飞行控制技术领域，特别涉及一种防止策略抖动的无人机控制策略强化学习生成方法。

背景技术

近年来，随着机器学习在智能控制领域上的应用，基于神经网络构成的深度强化学习方法已被用于解决自动驾驶、无人机控制、机器人控制等领域问题。

由于强化学习算法基于对环境的自主探索与环境给出的奖励函数生成策略，并且将最大化累计奖励值作为单一的目标函数，导致其无法考虑环境本身的领域需求。如在自动驾驶领域，希望汽车可以稳定运动、无人机操控领域希望飞机接受平稳的控制指令。使用强化学习虽然可以生成完成既定任务的策略，但是策略输出动作有可能过于抖动、导致控制系统存在安全隐患或用户体验不佳。现有技术中通常采取强行限制策略的一致性方法，但该方法策略过于保守，导致错过最优策略。如果能够实现在不对环境硬性限制的情况下生成尽量少的抖动最优策略，则有望解决强化学习生成策略过度抖动的问题，加速算法向真实控制系统迁移的进程。

发明内容

本申请的目的是提供了一种防止策略抖动的无人机控制策略强化学习生成方法，以解决或减轻背景技术中的至少一个问题。

本申请的技术方案是：一种防止策略抖动的无人机控制策略强化学习生成方法，包括：

1)初始化无人机控制策略网络及值网络；

2)无人机控制策略在环境中的采样；

3)采用GAE方法，根据样本估计优势函数；

4)在优势函数上叠加防止无人机操控策略抖动的规范化项；

5)更新无人机控制策略网络与值网络；

6)重复步骤2到步骤5，直至收敛，从而完成无人机控制策略的强化学习。

进一步的，所述初始化无人机控制策略网络及值网络的过程包括：

初始化行为者-评论家强化学习架构中的策略网络Policy-Net和值网络Value-Net，其参数空间分别为θ和

其中策略网络的输入为当前的状态与为正在执行的动作编码后的拼接，输出为下一时间步长的动作a选择的概率分布p(a)；值网络输入为当前的状态s，下一时间步长的动作a，输出该状态下的状态行为值函数q，记为：p(a)＝f_θ(s),q＝f_φ(s,a)。

进一步的，所述无人机控制策略在环境中的采样的过程包括：

基于当前控制策略网络对环境进行交互并采样出若干条飞行轨迹，并于每一个时间步i记录状态s、上一步动作a^-1、当前执行动作a、奖励值r与下一时间步的状态s'，生成的飞行轨迹样本按形式写入样本池：Sample＜i＞＝＜s,a^-1,a,s',r＞。

进一步的，所述采用GAE方法，根据样本估计优势函数的过程包括：

不断重复采样过程，并在收集一定量样本后进行训练，其中，值网络的训练方法为：

q＝f_φ(s,a),q'＝f_φ(s',a')

φ＝argmin_φ∑(r+γq'-q)²

无人机控制策略网络采用基于近端优化策略的训练方法，采用GAE方法计算优势函数A_t：

δ_t＝r_t+γq_φ(s_t+1,a_t+1)-q_φ(s_t,a_t)。

进一步的，所述在优势函数上叠加防止无人机操控策略抖动的规范化项的过程包括：

规范化项reg_t用于防止无效的动作切换，计算方式为：

优势函数与规范化项的和指导策略为：

θ＝argmax_θ((A_t+α·reg_t)log(p(a_t|s_t))

式中α为控制该规范化项影响程度的超参数。

进一步的，所述更新无人机飞行控制策略网络与值网络的过程包括：

在引入近端策略优化中的重要性采样后，记A_t'＝A_t+α·reg_t：

本申请提供的方法基于行为者-评论家强化学习方法架构，在此基础上将当前状态下、当前执行动作情况下切换动作所带来的收益附加值作为评价动作切换的规范化项，用以抑制不必要的动作切换。使用该方法可以实现不改变原有最优策略情况下，有效降低强化学习方法生成策略的抖动，使强化学习生成的策略更容易应用于真实环境中。

附图说明

为了更清楚地说明本申请提供的技术方案，下面将对附图作简单地介绍。显而易见地，下面描述的附图仅仅是本申请的一些实施例。

图1为本申请的防止策略抖动的无人机控制策略强化学习生成方法示意图。

具体实施方式

为使本申请实施的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行更加详细的描述。

首先，在给定离散动作空间中定义策略抖动。由于强化学习的目标函数为获取飞机轨迹τ，使其累计奖励回报R(τ)最大，定义符合公式(1)的动作切换为一次动作抖动：

a_t＝a_i|a_i≠a_t-1,a_j＝a_t-1,R(τ_i)≤R(τ_j)

式中，a为无人机操纵中的动作指令，R(τ)为无人机操纵轨迹的累计回报值，其可以根据无人机完成的具体任务进行设置。

上述公式的含义为，在选择t时刻的动作a_t时，可以选择与上一时间步长的动作a_t-1保持一致(记为a_j)，也可以选择执行另一动作(记为a_i)。如果切换动作所带来的累计回报没有增长，即R(τ_i)≤R(τ_j)(执行a_i时对应轨迹τ_i，执行a_j时对应轨迹τ_j)，那么在此时切换动作对于获取更多累计奖励回报是没有贡献的，这次的动作切换是一次抖动，此时保持当前所执行动作不影响之前所获得的累计奖励。基于以上分析，使用状态行为值函数q(s,a)评价当前状态切换动作的贡献值，即动作抖动的度量方法由(1)变更为如下：

a_t＝a_i|(a_i≠a_t-1,a_j＝a_t-1,q(s_i,a_i)≤q(s_i,a_j))

由于强化学习中的状态行为值函数通常由神经网络拟合，其输出通常带有一定误差值，为了增强该防止抖动算法的实际可操作性，将动作抖动判断条件中改为如下：

a_t＝a_i|(a_i≠a_t-1,a_j＝a_t-1,|q(s_i,a_i)-q(s_i,a_j)|＜η)

改动后的含义为，在当前状态下改变动作(执行a_i≠a_t-1)所带来的后续奖励值变化不大(小于阈值η)那么这次动作切换被视作一次动作抖动，抖动动作的集合记为O。无人机策略抖动定义为动作抖动的平均程度，至此已经完成了策略抖动的数学定义。

如图1所示，本申请基于策略抖动的定义，提出了一种防止此类策略抖动的无人机控制策略强化学习生成方法，具体包括：

1)初始化无人机控制策略网络及值网络

2)无人机控制策略在环境中的采样

基于当前控制策略网络对环境进行交互并采样出若干条飞行轨迹，并于每一个时间步i记录状态s、上一步动作a^-1、当前执行动作a、奖励值r与下一时间步的状态s'，生成的飞行轨迹样本按形式写入样本池：

Sample＜i＞＝＜s,a^-1,a,s',r＞。

3)采用GAE(Generalized Advantage Estimator)方法，根据样本估计优势函数；

q＝f_φ(s,a),q'＝f_φ(s',a')

φ＝argmin_φ∑(r+γq'-q)²

策略网络采用基于近端优化策略的训练方法(Proximal Policy Optimization，PPO)：

采用GAE方法计算优势函数A_t：

δ_t＝r_t+γq_φ(s_t+1,a_t+1)-q_φ(s_t,a_t)

4)在优势函数上叠加防止无人机操控策略抖动的规范化项；

规范化项reg_t用于防止无效的动作抖动，计算方式为：

使用优势函数与规范化项的和指导无人机控制策略网络参数更新：

θ＝argmax_θ((A_t+α·reg_t)log(p(a_t|s_t))

5)更新无人机飞行控制策略网络与值网络

在引入近端策略优化中的重要性采样后，记A'_t＝A_t+α·reg_t：

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种防止策略抖动的无人机控制策略强化学习生成方法，其特征在于，包括：

1)初始化无人机控制策略网络及值网络；

2)无人机控制策略与环境交互，获得飞行轨迹样本；

3)采用GAE方法，根据样本估计优势函数^[1]；

4)在优势函数上叠加防止无人机操控策略抖动的规范化项；

5)更新无人机控制策略网络与值网络；

2.如权利要求1所述的防止策略抖动的无人机控制策略强化学习生成方法，其特征在于，所述初始化无人机控制策略网络及值网络的过程包括：

其中策略网络的输入为当前的状态与正在执行的动作编码后的拼接，输出为下一时间步长的动作a选择的概率分布p(a)；值网络输入为当前的状态s，下一时间步长的动作a，输出该状态下的状态行为值函数q，记为：p(a)＝f_θ(s),q＝f_φ(s,a)。

3.如权利要求2所述的防止策略抖动的无人机控制策略强化学习生成方法，其特征在于，所述无人机控制策略在环境中的采样的过程包括：

基于当前无人机控制策略网络对环境进行交互并采样出若干条飞行轨迹，并于每一个时间步i记录状态s、上一步动作a^-1、当前执行动作a、奖励值r与下一时间步的状态s'，生成的飞行轨迹样本按形式写入样本池：Sample＜i＞＝＜s,a^-1,a,s',r＞。

4.如权利要求3所述的防止策略抖动的无人机控制策略强化学习生成方法，其特征在于，所述采用GAE方法，根据样本估计优势函数的过程包括：

不断重复无人机控制策略采样过程，并在收集预定量样本后进行训练，其中，值网络的训练方法为：

q＝f_φ(s,a),q'＝f_φ(s',a')

φ＝arg min_φ∑(r+γq'-q)²

策略网络采用基于近端优化策略^[2]的训练方法，采用GAE方法计算优势函数A_t：

δ_t＝r_t+γq_φ(s_t+1,a_t+1)-q_φ(s_t,a_t)。

5.如权利要求4所述的防止策略抖动的无人机控制策略强化学习生成方法，其特征在于，所述在优势函数上叠加防止无人机控制策略抖动的规范化项的过程包括：

规范化项reg_t用于防止无效的动作抖动，计算方式为：

优势函数与规范化项的和指导策略为：

θ＝arg max_θ((A_t+α·reg_t)log(p(a_t|s_t))

式中α为控制该规范化项影响程度的超参数。

6.如权利要求5所述的防止策略抖动的无人机控制策略强化学习生成方法，其特征在于，所述更新无人机飞行控制策略网络与值网络的过程包括：

在引入近端策略优化中的重要性采样后，记A′_t＝A_t+α·reg_t：