CN114326438A

CN114326438A - 基于控制障碍函数的安全强化学习四旋翼控制系统及方法

Info

Publication number: CN114326438A
Application number: CN202111660133.8A
Authority: CN
Inventors: 张福彪; 周天泽; 林德福; 莫雳; 宋韬; 王亚凯; 陈祺; 刘明成; 郎帅鹏; 孙之问; 王昭舜
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-04-12
Anticipated expiration: 2041-12-30
Also published as: CN114326438B

Abstract

本发明公开了一种基于控制障碍函数的安全强化学习四旋翼控制系统，包括仿真平台和控制器，所述接收仿真模型输出的状态量，向无人机或仿真模型输出控制指令，所述控制器包括强化学习子控制器和控制障碍函数子控制器，通过控制障碍函数与近端策略优化法结合的方式，解决了强化学习类的控制器安全性低的问题，提高了系统的稳定性。

Description

基于控制障碍函数的安全强化学习四旋翼控制系统及方法

技术领域

本发明涉及一种基于控制障碍函数的安全强化学习四旋翼控制方法，属于无人机控制技术领域。

背景技术

四旋翼作为一个典型的多输入多输出的非线性系统，具有强耦合，欠驱动等等一系列控制难点。随着人工智能的发展，基于强化学习的四旋翼控制被广为研究。

强化学习(Reinforcement Learning,RL)是一种专注于寻找最大化长期奖励的智能体策略算法。强化学习通过不断观测环境状态，并基于环境采用相应的策略以获得环境反馈得到的奖励。随着时间的不断推移，强化学习方法利用与环境交互获得到的数据训练自身策略以最大化长期累计汇报。

但是，现有的基于强化学习的四旋翼控制方法往往只侧重于最大化长期回报，导致智能体在探索过程中出现不安全的策略行为，这使得现有强化学习方法在很难应用于实际的硬件部署。

现有技术中还具有基于安全的强化学习方法，基于安全的强化学习方法在尝试学习一个能最大化预期回报的同时，其策略需满足某些特定的安全约束。然而，这些方法都是基于model-free的方法，很难保证在没有模型借鉴的情况下智能体学习过程的安全性，该类方法只实现在足够的学习时间后，智能体策略的近似安全。

因此，有必要研究一种能够解决上述问题的基于强化学习的四旋翼控制方法。

发明内容

为了克服上述问题，本发明人进行了深入研究，一方面，设计出一种基于控制障碍函数的安全强化学习四旋翼控制系统，其特征在于，包括仿真平台和控制器，

所述仿真平台用于对无人机运动状态进行仿真，其接收控制指令，输出无人机的状态量，

所述接收仿真模型输出的状态量，向无人机或仿真模型输出控制指令。

优选地，所述仿真平台包括电机执行器、电机转矩分配和四旋翼动力学模型，

所述电机执行器表示为：

r＝Cr*u+Wb

T＝Ct*r²

M＝Cm*r²

其中，C_r为电机转速比例参数，W_b为电机转速偏置参数，C_t为螺旋桨推力系数，C_m为螺旋桨扭力系数；

所述电机转矩分配用于分配无人机不同电机的功率；

所述四旋翼动力学模型表示为：

其中，u₀表示升力，u₁表示滚转力矩，u₂表示俯仰力矩，u₃表示偏航力矩，m表示无人机质量，g表示重力加速度，J_yy，J_zz，J_xx表示无人机三轴的转动惯量，J_R表示电机转子和螺旋桨绕机体转轴的总转动惯量，Ω_R表示电机转速，L表示电机到无人机质心的距离。

优选地，所述控制器包括强化学习子控制器和控制障碍函数子控制器，

所述强化学习子控制器包括一个神经网络，其通过给定的初始策略的条件下，通过不断的优化策略，对神经网络进行训练，使得训练后的神经网络实现最大化累计奖励，其输入为无人机的状态量x，输出为强化学习后的动作指令u_rl；

所述控制障碍函数子控制器，基于无人机的状态量x，对强化学习后的动作指令u_rl进行修正，使其满足安全性保证，输出修正后的控制指令u_cbf；

无人机的状态量x表示为：

其中，p_x，_y，p_z表示无人机的三轴位置信息，表示滚转角，θ表示俯仰角，ψ表示偏航角。

优选地，在强化学习子控制器中采用近端策略优化法。

优选地，在强化学习子控制器中，将近端策略优化法的奖励设置为当前时刻和上一时刻的距离差，减去加权后的动作指令u_rl和控制指令u_cbf的绝对值。

优选地，所述控制障碍函数子控制器中采用控制障碍函数法对强化学习后的动作指令u_rl进行修正，通过设置安全性条件，采用约束使得无人机的姿态稳定到一个固定的范围内，

所述安全性条件为：φ,θ的角度在[-∈,∈]之间，

所述约束为：

α₁₁、α₁₀、α₂₁、α₂₀、α₃₁、α₃₀、α₄₁、α₄₀为参数，每个参数均满足：F_b-G_bα属于hurwitz矩阵，

其中，α∈[α₁₁，α₁₀，α₂₁，α₂₀，α₃₁，α₃₀，α₄₁，α₄₀]；

优选地，所述控制障碍函数子控制器设置为：

另一方面，本发明还提供了一种基于控制障碍函数的安全强化学习四旋翼控制方法，包括以下步骤：

S1、建立仿真平台；

S2、设置控制器结构；

S3、对设置的控制器结构进行训练，获得最终的控制器。

优选地，在S2中，所述控制器包括强化学习子控制器和控制障碍函数子控制器；

在强化学习子控制器中采用近端策略优化法，近端策略优化法中状态设置为无人机的状态量x和目标位置，状态量表示为

动作设置为无人机不同电机对应的占空比，奖励设置为当前时刻和上一时刻的距离差，减去加权后的动作指令u_rl和控制指令u_cbf的绝对值。

优选地，在S3中，进行强化学习训练，训练过程按照如下步骤迭代进行：

强化学习子控制器基于无人机状态信息、目标位置信息，生成相应的强化学习控制指令u_rl；

控制障碍函数子控制器基于无人机状态信息，对强化学习控制指令u_rl进行修正，使其满足安全性保证，输出修正后的控制指令u_cbf；

仿真平台接收修正后的控制指令u_cbf，根据指令进行仿真，输出无人机的无人机状态信息。

本发明所具有的有益效果包括：

(1)将强化学习方法与控制障碍函数结合在一起，共同解决了强化学习类的控制器安全性低的问题；

(2)强化学习的效果更好，奖励梯度异常率降低，提高了稳定性。

附图说明

图1示出根据本发明一种优选实施方式的基于控制障碍函数的安全强化学习四旋翼控制系统整体结构示意图；

图2示出根据本发明一种优选实施方式的基于控制障碍函数的安全强化学习四旋翼控制系统仿真平台结构示意图；

图3示出根据本发明实验例1中强化学习奖励曲线对比图；

图4示出根据本发明实验例1中无人机安全性百分比对比图；

图5示出根据本发明实验例1中无人机到达目标点百分比对比图。

具体实施方式

下面通过附图和实施例对本发明进一步详细说明。通过这些说明，本发明的特点和优点将变得更为清楚明确。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

本发明公开了一种基于控制障碍函数的安全强化学习四旋翼控制系统，包括仿真平台和控制器，如图1所示。

所述仿真平台用于对无人机运动状态进行仿真，其接收控制指令u，输出无人机的状态量。

所述控制器用于生成无人机控制指令，其内设置有神经网络，接收仿真模型输出的状态量，向无人机或仿真模型输出控制指令。

所述无人机的状态量x表示为：

其中，p_x，p_y，p_z表示无人机的三轴位置信息，φ表示滚转角，θ表示俯仰角，ψ表示偏航角。

根据本发明，所述仿真平台可以采用任意一种无人机仿真平台，优选为数字模拟平台，更优选地，所述仿真平台包括电机执行器、电机转矩分配和四旋翼动力学模型，如图2所示。

所述电机执行器接收控制指令u，输出电机升力T和电机力矩M，

在一个优选的实施方式中，选择电机为线性表达的电机执行器，该电机执行器结构简单，运算量小，能够快速获得仿真结果，虽然该模型与真实无人机运行结果具有一定的误差，但实际检测此误差对控制器的训练过程影响较小。

所述电机执行器可以表示为：

其中，C_r为电机转速比例参数，W_b为电机转速偏置参数，C_t为螺旋桨推力系数，C_m为螺旋桨扭力系数。

所述电机转矩分配用于分配无人机不同电机的功率，可按照实际需要进行设置，例如，采用十字无人机电机排布时，所述电机转矩分配为：

其中，τ₀表示无人机的总升力，τ₁、τ₂、τ₃表示无人机的三轴力矩。

进一步地，所述四旋翼动力学模型表示为：

根据式一和式四，无人机的状态量x可以表示为：

在本发明中，所述控制器包括强化学习子控制器和控制障碍函数子控制器。

与传统的强化学习神经网络相同，所述强化学习子控制器包括一个神经网络，其通过给定的初始策略π(a|s)的条件下，通过不断的优化策略π(a|s)，对神经网络进行训练，使得训练后的神经网络实现最大化累计奖励，其输入为无人机的状态量x，输出为强化学习后的动作指令u_rl。

在本发明中，对所述神经网络的具体结构不做特别限定，可以采用任意一种在强化学习中常用的神经网络。

优选地，在强化学习子控制器中采用近端策略优化法(Proximal PolicyOptimization,PPO)，以增强对数据的利用效率，提高算法的稳定性。

所述近端策略优化法为一种经典的深度强化学习方法，可以从Open AI项目获取，其具体在本发明中不做赘述。

传统的强化学习四旋翼控制系统，仅具有强化学习子控制器，通过强化学习子控制器生成无人机的控制指令，此种方式只侧重于最大化长期回报，常导致控制指令超出无人机的硬件承载能力。

在本发明中，通过设置控制障碍函数子控制器，保证仿真平台在执行最终动作时，仍是有安全性保障。

所述控制障碍函数子控制器，基于无人机的状态量x，对强化学习后的动作指令u_rl进行修正，使其满足安全性保证，输出修正后的控制指令u_cbf。

根据本发明，所述控制障碍函数子控制器采用控制障碍函数法(Control BarrierFunction,CBF)对强化学习后的动作指令u_rl进行修正。

所述控制障碍函数法为ECC 2019年的tutorial paper中Control BarrierFunctions:Theory and Application介绍的方法，该方法通过定义安全集合，采用约束将系统状态维持在安全集合中。

进一步地，在控制障碍函数子控制器中，设置安全性条件，采用约束使得无人机的姿态稳定到一个固定的范围内。

具体地，所述安全性条件为：φ,θ的角度在[-∈,∈]之间，对应的边界函数h为：

即：

边界函数的微分为：

进一步地，在本发明中，将所述控制障碍函数子控制器的约束限制为：

即：

根据式八及式十，可获得控制障碍函数子控制器最终可表示为：

其中，α₁₁、α₁₀、α₂₁、α₂₀、α₃₁、α₃₀、α₄₁、α₄₀为参数，每个参数均满足：F_b-G_bα属于hurwitz矩阵，

所述hurwitz矩阵是由Adolf Hurwitz在1895年建立的一种矩阵形式，为稳定控制中常用的矩阵之一。

根据本发明一个优选的实施方式，在强化学习子控制器中，将近端策略优化法的奖励设置为当前时刻和上一时刻的距离差，减去加权后的动作指令u_rl和控制指令u_cbf的绝对值，表示为：

r＝(d_l-d_c)-β|u_cbf-u_rl|

其中，r表示奖励，d_l为无人机上一时刻距离目标位置的距离，d_c为当前无人机距离目标的位置，β|u_cbf-u_rl|为对控制障碍函数子控制器的惩罚项，β为标量参数，本领域技术人员可根据经验设置。

本发明还公开了一种基于控制障碍函数的安全强化学习四旋翼控制方法，包括以下步骤：

S1、建立仿真平台；

S2、设置控制器结构；

S3、对设置的控制器结构进行训练，获得最终的控制器。

根据本发明，S1、S2的执行顺序可以相互更换。

在S1中，所述仿真平台可以采用任意一种无人机仿真平台，优选为数字模拟平台，更优选地，所述仿真平台为上述包括电机执行器、电机转矩分配和四旋翼动力学模型的仿真平台。

在S2中，所述控制器包括强化学习子控制器和控制障碍函数子控制器。

动作设置为无人机不同电机对应的占空比，奖励设置为当前时刻和上一时刻的距离差，减去加权后的动作指令u_rl和控制指令u_cbf的绝对值，表示为：

r＝(d_l-d_c)-β|u_cbf-u_rl|

其中，r表示奖励，d_l为无人机上一时刻距离目标位置的距离，d_c为当前无人机距离目标的位置，α|u_cbf-u_rl|为对控制障碍函数子控制器的惩罚项，β为标量参数。。

控制障碍函数子控制器采用控制障碍函数法，设置安全性条件为φ,θ的角度在[-∈,∈]之间，设置对应的约束限制为：

则所述控制障碍函数子控制器设置为：

在S3中，进行强化学习训练，训练过程按照如下步骤迭代进行：

实施例

实施例1

进行四旋翼无人机的位置控制实验，四旋翼无人机从x＝0,y＝[-1.5,1.5],z＝0位置出发，到x＝0,y＝0,z＝1位置，其中四旋翼的俯仰滚转姿态为[-10°,10°]。

所述仿真平台如图2所示，包括电机执行器、电机转矩分配和四旋翼动力学模型。

所述电机执行器可以表示为：

r＝Cr*u+Wb

T＝Ct*r²

M＝Cm*r²

电机采用十字排布，电机转矩分配为：

τ₀＝T₀+T₁+T₂+T₃

τ₁＝T₁-T₀

τ₂＝T₃-T₂

τ₃＝M₃+M₂-M₁-M₀

所述四旋翼动力学模型表示为：

所述控制器包括强化学习子控制器和控制障碍函数子控制器，在强化学习子控制器中采用近端策略优化法，其中，状态设置为无人机的状态量x和目标位置，状态量表示为

动作设置为无人机不同电机对应的占空比，奖励设置为当前时刻和上一时刻的距离差，减去加权后的RL动作和CBF动作的绝对值，表示为：

r＝(d_l-d_c)-α|u_cbf-u_rl|

则所述控制障碍函数子控制器设置为：

其中，

J_xx＝0.0175

J_yy＝0.0175

J_zz＝0.0318

J_R＝9.9e-5

m＝1.50

L＝0.450

在本实施例中，∈设置为45度，即∈＝π/4。

对设置的控制器结构进行训练，获得最终的控制器。

实施例2

进行与实施例1相同的实验，区别在于，∈设置为60度，即∈＝π/3。

对比例1

进行与实施例1相同的实验，区别在于，不设置控制障碍函数子控制器，近端策略优化中的奖励为：

r＝(d_l-d_c)

对比例2

进行与对比例1相同的实验，区别在于，∈设置为60度，即∈＝π/3。

实验例

对比实施例1、实施例2、对比例1、对比例2的获得的控制器的性能，

其中强化学习奖励曲线对比图如图3所示，无人机安全性百分比对比图如图4所示，无人机到达目标点百分比对比图如图5所示，从图3～5上可以看出，实施例1、实施例2能够在整个训练阶段都保证四旋翼的安全性，在对其动作进行限制后其实际的效果也达到了较为安全的效果。

在本发明的描述中，需要说明的是，术语“上”、“下”、“内”、“外”、“前”、“后”等指示的方位或位置关系为基于本发明工作状态下的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”、“第四”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”“相连”“连接”应作广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体的连接普通；可以是机械连接，也可以是电连接；可以是直接连接，也可以通过中间媒介间接连接，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

以上结合了优选的实施方式对本发明进行了说明，不过这些实施方式仅是范例性的，仅起到说明性的作用。在此基础上，可以对本发明进行多种替换和改进，这些均落入本发明的保护范围内。