CN110928189B

CN110928189B - 一种基于强化学习和李雅普诺夫函数的鲁棒控制方法

Info

Publication number: CN110928189B
Application number: CN201911260424.0A
Authority: CN
Inventors: 潘杰森; 郑磊; 成慧; 胡海峰
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2022-04-29
Anticipated expiration: 2039-12-10
Also published as: CN110928189A

Abstract

本发明涉及一种基于强化学习和李雅普诺夫函数的鲁棒控制方法，通过自适应在线贝叶斯推理对机器人动力学进行建模，基于李雅普诺夫构造带约束强化学习问题，通过构建控制李雅普诺夫函数和控制屏障函数策略,实现机器人高效性学习、稳定性工作、安全探索；解决了非线性、混合动力学安全关键机器人系统在状态、动作空间受限的任务场景中，面对自身系统不确定性和外部环境不确定性存在不安全性、不稳定、不高效的技术问题。

Description

一种基于强化学习和李雅普诺夫函数的鲁棒控制方法

技术领域

本发明涉及机器人控制领域，更具体地，涉及一种基于强化学习和李雅普诺夫函数的鲁棒控制方法。

背景技术

随着时代的发展，机器人在现代生活的各个领域中发挥着重要作用，如智能制造、交通、医疗保健、抢险救灾等。现实世界环境具有非结构化、动态不确定性，因此面对具有非线性、混合动力学模型且状态、动作空间受限的复杂机器人系统，在安全性极其关键的任务场景中，需要设计一个高效、稳定并同时能保证安全性的自适应控制器。

为达到上述的目标，采用的方法有两种，一种是最优控制方法，另一种是基于强化学习的控制方法；最优控制方法是通过设置特定的目标函数，基于系统模型，运用最优化方法进行问题求解，但因为系统动力学的限制性，致使优化问题求解困难，故目标函数设置耗时且困难，且对模型依赖性强，在模型不精确情况下，难以产生有效策略。基于强化学习的控制方法分为两类，无模型的强化学习方法和基于模型的强化学习方法，前者存在着奖励函数设置困难、数据效率低下、训练复杂难以收敛、泛化性不足等问题；后者存在模型依赖性强，在复杂动力学系统难以建模情况下，难以产生有效策略的问题。

无论是最优控制方法、基于模型的强化学习方法或无模型的强化学习方法，在面对未知的内在系统扰动、外部环境干扰、复杂非线性动力学模型时，皆难以保证策略的安全性和稳定性。

发明内容

本发明为克服上述现有技术中机器人控制方法安全性和稳定性低的问题，提供一种基于强化学习和李雅普诺夫函数的鲁棒控制方法，通过自适应在线贝叶斯推理对机器人动力学进行建模，基于李雅普诺夫构造带约束强化学习问题，实现机器人高效性学习、稳定性工作、安全探索。

为解决上述技术问题，本发明采用的技术方案是：提供一种基于强化学习和李雅普诺夫函数的鲁棒控制方法，包括以下步骤：

步骤一：构建仿射系统模型，然后基于高斯过程，对系统动力学模型存在的不确定性进行建模；高斯过程回归通过贝叶斯推理得到机器人状态s_*；

步骤二：构建全连接神经网络，以机器人状态s为神经网络的输入，以机器人动作为神经网络的输出；

步骤三：获取机器人当前时刻的状态s_t和奖励r_t，构建模型预测控制框架和强化学习算法为基准策略得到机器人动作，通过模型预测控制框架求解固定时域H内最大化累积奖励的动作序列，并将动作序列的第一个动作a_t作为策略的输出u_rl；

步骤四：步骤二中的全连接神经网络以当前时刻状态s_t作为输入，得到输出u_nn；

步骤五：构建控制李雅普诺夫函数并结合高斯过程，将机器人状态渐进收敛到设置的平衡点，在高置信度下保证基准策略的稳定性；构建控制屏障函数并结合高斯过程，在高置信度下将机器人探索和动作空间约束在安全可行域内，且可将不安全域内的状态渐进收敛到安全域内，通过联合控制李雅普诺夫函数和控制屏障函数构建不等式约束的二次规划问题，并得到最佳动作u_{cbf_clf}；

步骤六：将动作a_t＝u_rl+u_nn+u_{cbf_clf}应用于机器人的与环境的交互中；

步骤七：在线收集控制李雅普诺夫函数和控制屏障函数策略的状态和动作序列，训练全连接神经网络；

步骤八：在线收集机器人与环境交互的状态和动作序列，更新高斯过程；

步骤九：重复步骤三至步骤八直至交互结束。

优选的，在所述步骤一中，非线性仿射系统可建模为：

其中f(s)+g(s)a代表对系统动力学、运动学建模所得的先验模型，d(s)代表模型与真实环境的偏差。

优选的，在所述步骤一中，通过在线收集的数据集

高斯过程回归通过贝叶斯推理得到状态s_*的下偏差d(s_*)的均值和方差：

其中，k(s_i,s_j)是GP中所定义的核函数，k_n＝[k(s₁,s_*),k(s₂,s_*),...,k(s_n,s_*)]，[K]_i,j＝k(s_i,s_j)为核矩阵，

是标签向量，σ_noise是标签数据噪音的标准差，I为单位矩阵；

得到关于d(s)的高置信区间：D(s)＝{d|μ(s)-c_δσ(s)≤d≤μ(s)+c_δσ(s)}，其中μ(s)是偏差d(s)的均值，σ(s)是偏差d(s)的标准差，c_δ>0是高斯分布中 (1-δ)置信度对应的常数。

优选的，在所述步骤三中，所述强化学习算法基于交叉熵方法。交叉熵方法(CEM)是一种求解步骤三中问题的随机型近似优化方法

优选的，在所述步骤三中，模型预测控制框架求解固定时域H内最大化累积奖励的动作序列的具体公式为：

其中，

为t+h时刻的奖励值，

为t至t+H时刻的动作序列。

首先以高斯分布采样大量动作序列样本

将这些动作序列放入强化学习模型进行状态预测并以奖励函数对这些动作序列进行优劣评估，选出累积奖励最高的部分样本重新拟合高斯分布进行进一步采样、评估，反复迭代收敛后即可得到近似的(局部)最优解。最后，根据MPC框架的思想，只采取动作序列

的第一个动作a_t作为策略的输出u_rl。

优选的，在所述步骤五中，不等式约束的二次规划问题的具体公式为：

s.t.-L_gh(s)a-L_fh(s)-L_μh(s)+c_σ|L_σh(s)|-κh(s)≤ε, -L_gV(s)a-L_fV(s)-L_μV(s)+c_σ|L_σV(s)|-κV(s)≤η, a_min≤a≤a_max,

其中，V(s),h(s)分别为能量函数和屏障函数，a是机器人动作，a_max,a_min则对应其上界与下界，对角矩阵H(s)代表每一维动作的权重，ε,η代表松弛变量而K_ε,K_η则是对应的系数，c_σ是方项对应的系数，符号L代表李氏导数，κ是一个k类函数。

与现有技术相比，本发明的有益效果是：解决了非线性、混合动力学安全关键机器人系统在状态、动作空间受限的任务场景中，面对自身系统不确定性和外部环境不确定性存在不安全性、不稳定、不高效的技术问题；通过高斯过程对机器人动力学的不确定性进行建模，基于李雅普诺夫构造带约束强化学习，实现机器人高效性学习、稳定性工作、安全性探索；以模型预测控制框架和强化学习算法为基准策略，解决基于梯度算法奖励函数设置困难性问题，以滚动时域优化缓解决策中不精确模型带来的误差传播问题，并可以通过递归重要性采样，引导策略收敛到高奖励区，实现策略高效率优化；基于高斯过程通过在线收集交互数据及贝叶斯推理在高置信度下实现对环境的在线自适应，以建模系统动力学模型和环境交互的不确定性，并保证模型局部李普希兹连续；基于控制李雅普诺夫函数和高斯过程，在高置信度下保证基准策略的稳定性；基于控制屏障函数和高斯过程，在高置信度下将机器人探索和动作空间约束在安全可行域内，且可将不安全域内的状态渐进收敛到安全域内，保证机器人安全域自由探索，以实现基准策略探索高效性和安全性。基于控制屏障函数和控制李雅普诺夫函数历史策略，建立神经网络以引导机器人探索，实现基准策略进化，达到高效探索和学习的目的。

附图说明

图1是本发明的一种基于强化学习和李雅普诺夫函数的鲁棒控制方法的框架流程图；

图2是本发明的一种基于强化学习和李雅普诺夫函数的鲁棒控制方法的实施例2的跟踪效果示意图；

图3是本发明的一种基于强化学习和李雅普诺夫函数的鲁棒控制方法的实施例2的跟踪误差示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明，不能理解为对本专利的限制。

下面通过具体实施例，并结合附图，对本发明的技术方案作进一步的具体描述：

实施例1

如图1所示为一种基于强化学习和李雅普诺夫函数的鲁棒控制方法的实施例，包括以下步骤：

步骤一：构建仿射系统模型，然后基于高斯过程，对系统动力学模型存在的不确定性进行建模；非线性仿射系统可建模为：

其中 f(s)+g(s)a代表对系统动力学、运动学建模所得的先验模型，d(s)代表模型与真实环境的偏差；高斯过程回归通过贝叶斯推理得到状态s_*的下偏差d(s_*)的均值和方差：

步骤二：构建全连接神经网络，以机器人状态为神经网络的输入，以机器人动作为神经网络的输出；

步骤三：机器人和环境交互，获取机器人当前时刻的状态s_t和奖励r_t，构建模型预测控制框架和基于交叉熵的强化学习算法为基准策略得到机器人动作，通过模型预测控制框架求解固定时域H内最大化累积奖励的动作序列，并将动作序列的第一个动作a_t作为策略的输出u_rl；模型预测控制框架求解固定时域H 内最大化累积奖励的动作序列的具体公式为：

其中，

为t+h时刻的奖励值，

为t至t+H时刻的动作序列。

步骤五：构建控制李雅普诺夫函数并结合高斯过程，将机器人状态渐进收敛到设置的平衡点，在高置信度下保证基准策略的稳定性；构建控制屏障函数并结合高斯过程，在高置信度下将机器人探索和动作空间约束在安全可行域内，且可将不安全域内的状态渐进收敛到安全域内，通过联合控制李雅普诺夫函数和控制屏障函数构建不等式约束的二次规划问题，并得到最佳动作u_{cbf_clf}；不等式约束的二次规划问题的具体公式为：

其中，V(s),h(s)分别为能量函数和屏障函数，a是机器人动作，a_max,a_min则对应其上界与下界，对角矩阵H(s)代表每一维动作的权重，ε,η代表松弛变量而K_ε,K_η则是对应的系数，c_σ是方项对应的系数，符号L代表李氏导数，κ是一个k类函数；

步骤六：将机器人动作a_t＝u_rl+u_nn+u_{cbf_clf}应用于机器人的与环境的交互中；

步骤九：重复步骤三至步骤八直至交互结束。

本实施例的有益效果：解决了非线性、混合动力学安全关键机器人系统在状态、动作空间受限的任务场景中，面对自身系统不确定性和外部环境不确定性存在不安全性、不稳定、不高效的技术问题。

通过高斯过程对机器人动力学的不确定性进行建模，基于李雅普诺夫构造带约束强化学习，实现机器人高效性学习、稳定性工作、安全性探索；以模型预测控制框架和强化学习算法为基准策略，解决基于梯度算法奖励函数设置困难性问题，以滚动时域优化缓解决策中不精确模型带来的误差传播问题，并可以通过递归重要性采样，引导策略收敛到高奖励区，实现策略高效率优化；基于高斯过程通过在线收集交互数据及贝叶斯推理在高置信度下实现对环境的在线自适应，以建模系统动力学模型和环境交互的不确定性，并保证模型局部李普希兹连续；基于控制李雅普诺夫函数和高斯过程，在高置信度下保证基准策略的稳定性；基于控制屏障函数和高斯过程，在高置信度下将机器人探索和动作空间约束在安全可行域内，且可将不安全域内的状态渐进收敛到安全域内，保证机器人安全域自由探索，以实现基准策略探索高效性和安全性。基于控制屏障函数和控制李雅普诺夫函数历史策略，建立神经网络以引导机器人探索，实现基准策略进化，达到高效探索和学习的目的。

实施例2

如图1-3所示，本实施例在实施例1的基础上，以在带有随机风场干扰下的四旋翼无人机轨迹跟踪及避障任务为例，说明本方法的具体实现步骤：

步骤一：本实例根据机器人动力学的先验知识和实际的任务场景，建立基准非线性仿射系统模型，并设置一条三维空间的参数化轨迹包括轨迹起点、终点等，记为r(t)∈R³。

根据任务场景定义无人机的安全状态空间：C＝{x|h(x)≥0}和目标平衡点，如：避开障碍物、轨迹点为平衡点，设计相应的控制屏障函数(CBF)h(s_t)和李雅普诺夫函数(CLF)V(s_t)。

步骤二:选取模型预测控制的框架作为四轴无人机的基准策略框架，得出无人机在当前状态下的策略动作，同时基于室内全局捕捉系统和四轴无人机机载传感器，实时获取无人的状态信息，包括：无人机的位置x,y,z坐标，无人机的速度v_x,v_y,v_z,无人机的欧拉角φ，θ，

通过递归重要性采样进行样本收集，并设置奖励函数进行策略评估以优化基准策略。

步骤三：通过定义的CBF和CLF函数给四轴无人机的基准策略构造安全和稳定约束，通过拉格朗日乘子法求解上述约束，使四轴无人机的状态空间维持在安全域和稳定域内。

步骤四：本实例中，选取径向基函数(RBF)核和线性核为高斯过程核函数，初始化相应高斯过程模型。四旋翼无人机初始化高斯模型有6个，分别对应无人机的三个位置和三个角度。本发明选取无人机的状态维度为模型输入，无人机和环境的实际交互误差为输出，通过在线收集数据集(s_t,a_t,s_t+1)，更新高斯过程模型，实现对四轴无人机系统动力学进行建模，得出交互不确定性的高斯分布。

步骤五：本实例中，搭建神经网络，包括一个输入层，两个隐含层，一个输出层。基于室内全局捕捉系统在线收集CBF、CLF控制器的状态序列和动作序列对网络进行训练，将输出的动作作为基准策略的校正量，将引导基准策略的探索和收敛。

步骤六：基于室内全局捕捉系统，机器人通过基准策略得到最优控制动作，并通过CBF控制器、CLF控制器对其动作进行安全性和稳定性约束，采用最终得到的动作与环境进行交互。

步骤七：重复步骤二至六，直至达到期望目标或最大实验设定时长。

本实施例的有益效果：在三维无人机系统中，无人机能在环境风场引起的不确定性下，能通过本发明提出的算法实现目标轨迹的安全、稳定、高效跟踪。如图2-3所示，即使在起始点相距较远的情况下，无人机依然能实现跟踪的渐进稳定。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于强化学习和李雅普诺夫函数的鲁棒控制方法，其特征在于，包括以下步骤：

步骤一：构建仿射系统模型，然后基于高斯过程，对系统动力学模型存在的不确定性进行建模；高斯过程回归通过贝叶斯推理得到机器人状态s_*；仿射系统建模为：

其中f(s)+g(s)a代表对系统动力学、运动学建模所得的先验模型，d(s)代表模型与真实环境的偏差；

通过在线收集的数据集

得到关于d(s)的高置信区间：

D(s)＝{d(s)|μ(s)-c_δσ(s)≤d(s)≤μ(s)+c_δσ(s)}

其中μ(s)是偏差d(s)的均值，σ(s)是偏差d(s)的标准差，c_δ>0是高斯分布中(1-δ)置信度对应的常数

步骤二：构建全连接神经网络，以机器人状态s为神经网络的输入，以机器人动作a为神经网络的输出；

步骤三：获取机器人当前时刻的状态s_t和奖励r_t，构建模型预测控制框架和强化学习算法为基准策略得到机器人动作，通过模型预测控制框架求解固定时域H内最大化累积奖励的动作序列，并将动作序列的第一个动作a_t作为策略的输出u_rl；模型预测控制框架求解固定时域H内最大化累积奖励的动作序列的具体公式为：

其中，

为t+h时刻的奖励值，

为t至t+H时刻的动作序列；

步骤五：构建控制李雅普诺夫函数并结合高斯过程，将机器人状态渐进收敛到设置的平衡点，在高置信度下保证基准策略的稳定性；构建控制屏障函数并结合高斯过程，在高置信度下将机器人探索和动作空间约束在安全可行域内，且将不安全域内的状态渐进收敛到安全域内，通过联合控制李雅普诺夫函数和控制屏障函数构建不等式约束的二次规划问题，并得到最佳动作u_{cbf_clf}；不等式约束的二次规划问题的具体公式为：

s.t.-L_gh(s)a-L_fh(s)-L_μh(s)+c_σ|L_σh(s)|-κh(s)≤ε,-L_gV(s)a-L_fV(s)-L_μV(s)+c_σ|L_σV(s)|-κV(s)≤η,a_min≤a≤a_max,

步骤九：重复步骤三至步骤八直至交互结束。

2.根据权利要求1所述的一种基于强化学习和李雅普诺夫函数的鲁棒控制方法，其特征在于，在所述步骤三中，所述强化学习算法基于交叉熵方法。