CN110928189A - 一种基于强化学习和李雅普诺夫函数的鲁棒控制方法 - Google Patents

一种基于强化学习和李雅普诺夫函数的鲁棒控制方法 Download PDF

Info

Publication number
CN110928189A
CN110928189A CN201911260424.0A CN201911260424A CN110928189A CN 110928189 A CN110928189 A CN 110928189A CN 201911260424 A CN201911260424 A CN 201911260424A CN 110928189 A CN110928189 A CN 110928189A
Authority
CN
China
Prior art keywords
robot
function
reinforcement learning
action
control method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911260424.0A
Other languages
English (en)
Other versions
CN110928189B (zh
Inventor
潘杰森
郑磊
成慧
胡海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201911260424.0A priority Critical patent/CN110928189B/zh
Publication of CN110928189A publication Critical patent/CN110928189A/zh
Application granted granted Critical
Publication of CN110928189B publication Critical patent/CN110928189B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)
  • Manipulator (AREA)

Abstract

本发明涉及一种基于强化学习和李雅普诺夫函数的鲁棒控制方法,通过自适应在线贝叶斯推理对机器人动力学进行建模,基于李雅普诺夫构造带约束强化学习问题,通过构建控制李雅普诺夫函数和控制屏障函数策略,实现机器人高效性学习、稳定性工作、安全探索;解决了非线性、混合动力学安全关键机器人系统在状态、动作空间受限的任务场景中,面对自身系统不确定性和外部环境不确定性存在不安全性、不稳定、不高效的技术问题。

Description

一种基于强化学习和李雅普诺夫函数的鲁棒控制方法
技术领域
本发明涉及机器人控制领域,更具体地,涉及一种基于强化学习和李雅普诺夫函数的鲁棒控制方法。
背景技术
随着时代的发展,机器人在现代生活的各个领域中发挥着重要作用,如智能制造、交通、医疗保健、抢险救灾等。现实世界环境具有非结构化、动态不确定性,因此面对具有非线性、混合动力学模型且状态、动作空间受限的复杂机器人系统,在安全性极其关键的任务场景中,需要设计一个高效、稳定并同时能保证安全性的自适应控制器。
为达到上述的目标,采用的方法有两种,一种是最优控制方法,另一种是基于强化学习的控制方法;最优控制方法是通过设置特定的目标函数,基于系统模型,运用最优化方法进行问题求解,但因为系统动力学的限制性,致使优化问题求解困难,故目标函数设置耗时且困难,且对模型依赖性强,在模型不精确情况下,难以产生有效策略。基于强化学习的控制方法分为两类,无模型的强化学习方法和基于模型的强化学习方法,前者存在着奖励函数设置困难、数据效率低下、训练复杂难以收敛、泛化性不足等问题;后者存在模型依赖性强,在复杂动力学系统难以建模情况下,难以产生有效策略的问题。
无论是最优控制方法、基于模型的强化学习方法或无模型的强化学习方法,在面对未知的内在系统扰动、外部环境干扰、复杂非线性动力学模型时,皆难以保证策略的安全性和稳定性。
发明内容
本发明为克服上述现有技术中机器人控制方法安全性和稳定性低的问题,提供一种基于强化学习和李雅普诺夫函数的鲁棒控制方法,通过自适应在线贝叶斯推理对机器人动力学进行建模,基于李雅普诺夫构造带约束强化学习问题,实现机器人高效性学习、稳定性工作、安全探索。
为解决上述技术问题,本发明采用的技术方案是:提供一种基于强化学习和李雅普诺夫函数的鲁棒控制方法,包括以下步骤:
步骤一:构建仿射系统模型,然后基于高斯过程,对系统动力学模型存在的不确定性进行建模;高斯过程回归通过贝叶斯推理得到机器人状态s*
步骤二:构建全连接神经网络,以机器人状态s为神经网络的输入,以机器人动作为神经网络的输出;
步骤三:获取机器人当前时刻的状态st和奖励rt,构建模型预测控制框架和强化学习算法为基准策略得到机器人动作,通过模型预测控制框架求解固定时域H内最大化累积奖励的动作序列,并将动作序列的第一个动作at作为策略的输出url
步骤四:步骤二中的全连接神经网络以当前时刻状态st作为输入,得到输出unn
步骤五:构建控制李雅普诺夫函数并结合高斯过程,将机器人状态渐进收敛到设置的平衡点,在高置信度下保证基准策略的稳定性;构建控制屏障函数并结合高斯过程,在高置信度下将机器人探索和动作空间约束在安全可行域内,且可将不安全域内的状态渐进收敛到安全域内,通过联合控制李雅普诺夫函数和控制屏障函数构建不等式约束的二次规划问题,并得到最佳动作ucbf_clf
步骤六:将动作at=url+unn+ucbf_clf应用于机器人的与环境的交互中;
步骤七:在线收集控制李雅普诺夫函数和控制屏障函数策略的状态和动作序列,训练全连接神经网络;
步骤八:在线收集机器人与环境交互的状态和动作序列,更新高斯过程;
步骤九:重复步骤三至步骤八直至交互结束。
优选的,在所述步骤一中,非线性仿射系统可建模为:
Figure RE-GDA0002370254120000021
其中f(s)+g(s)a代表对系统动力学、运动学建模所得的先验模型,d(s)代表模型与真实环境的偏差。
优选的,在所述步骤一中,通过在线收集的数据集
Figure BDA0002311467270000022
高斯过程回归通过贝叶斯推理得到状态s*的下偏差d(s*)的均值和方差:
Figure BDA0002311467270000023
Figure BDA0002311467270000024
其中,k(si,sj)是GP中所定义的核函数,kn=[k(s1,s*),k(s2,s*),...,k(sn,s*)],[K]i,j=k(si,sj)为核矩阵,
Figure BDA0002311467270000031
是标签向量,σnoise是标签数据噪音的标准差,I为单位矩阵;
得到关于d(s)的高置信区间:D(s)={d|μ(s)-cδσ(s)≤d≤μ(s)+cδσ(s)},其中μ(s)是偏差d(s)的均值,σ(s)是偏差d(s)的标准差,cδ>0是高斯分布中 (1-δ)置信度对应的常数。
优选的,在所述步骤三中,所述强化学习算法基于交叉熵方法。交叉熵方法(CEM)是一种求解步骤三中问题的随机型近似优化方法
优选的,在所述步骤三中,模型预测控制框架求解固定时域H内最大化累积奖励的动作序列的具体公式为:
Figure BDA0002311467270000032
其中,
Figure BDA0002311467270000033
为t+h时刻的奖励值,
Figure BDA0002311467270000034
为t至t+H时刻的动作序列。
首先以高斯分布采样大量动作序列样本
Figure BDA0002311467270000035
将这些动作序列放入强化学习模型进行状态预测并以奖励函数对这些动作序列进行优劣评估,选出累积奖励最高的部分样本重新拟合高斯分布进行进一步采样、评估,反复迭代收敛后即可得到近似的(局部)最优解。最后,根据MPC框架的思想,只采取动作序列
Figure BDA0002311467270000036
的第一个动作at作为策略的输出url
优选的,在所述步骤五中,不等式约束的二次规划问题的具体公式为:
Figure BDA0002311467270000037
s.t.-Lgh(s)a-Lfh(s)-Lμh(s)+cσ|Lσh(s)|-κh(s)≤ε, -LgV(s)a-LfV(s)-LμV(s)+cσ|LσV(s)|-κV(s)≤η, amin≤a≤amax,
其中,V(s),h(s)分别为能量函数和屏障函数,a是机器人动作,amax,amin则对应其上界与下界,对角矩阵H(s)代表每一维动作的权重,ε,η代表松弛变量而Kε,Kη则是对应的系数,cσ是方项对应的系数,符号L代表李氏导数,κ是一个k类函数。
与现有技术相比,本发明的有益效果是:解决了非线性、混合动力学安全关键机器人系统在状态、动作空间受限的任务场景中,面对自身系统不确定性和外部环境不确定性存在不安全性、不稳定、不高效的技术问题;通过高斯过程对机器人动力学的不确定性进行建模,基于李雅普诺夫构造带约束强化学习,实现机器人高效性学习、稳定性工作、安全性探索;以模型预测控制框架和强化学习算法为基准策略,解决基于梯度算法奖励函数设置困难性问题,以滚动时域优化缓解决策中不精确模型带来的误差传播问题,并可以通过递归重要性采样,引导策略收敛到高奖励区,实现策略高效率优化;基于高斯过程通过在线收集交互数据及贝叶斯推理在高置信度下实现对环境的在线自适应,以建模系统动力学模型和环境交互的不确定性,并保证模型局部李普希兹连续;基于控制李雅普诺夫函数和高斯过程,在高置信度下保证基准策略的稳定性;基于控制屏障函数和高斯过程,在高置信度下将机器人探索和动作空间约束在安全可行域内,且可将不安全域内的状态渐进收敛到安全域内,保证机器人安全域自由探索,以实现基准策略探索高效性和安全性。基于控制屏障函数和控制李雅普诺夫函数历史策略,建立神经网络以引导机器人探索,实现基准策略进化,达到高效探索和学习的目的。
附图说明
图1是本发明的一种基于强化学习和李雅普诺夫函数的鲁棒控制方法的框架流程图;
图2是本发明的一种基于强化学习和李雅普诺夫函数的鲁棒控制方法的实施例2的跟踪效果示意图;
图3是本发明的一种基于强化学习和李雅普诺夫函数的鲁棒控制方法的实施例2的跟踪误差示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明,不能理解为对本专利的限制。
下面通过具体实施例,并结合附图,对本发明的技术方案作进一步的具体描述:
实施例1
如图1所示为一种基于强化学习和李雅普诺夫函数的鲁棒控制方法的实施例,包括以下步骤:
步骤一:构建仿射系统模型,然后基于高斯过程,对系统动力学模型存在的不确定性进行建模;非线性仿射系统可建模为:
Figure RE-GDA0002370254120000051
其中 f(s)+g(s)a代表对系统动力学、运动学建模所得的先验模型,d(s)代表模型与真实环境的偏差;高斯过程回归通过贝叶斯推理得到状态s*的下偏差d(s*)的均值和方差:
Figure BDA0002311467270000052
Figure BDA0002311467270000053
其中,k(si,sj)是GP中所定义的核函数,kn=[k(s1,s*),k(s2,s*),...,k(sn,s*)],[K]i,j=k(si,sj)为核矩阵,
Figure BDA0002311467270000054
是标签向量,σnoise是标签数据噪音的标准差,I为单位矩阵;
得到关于d(s)的高置信区间:D(s)={d|μ(s)-cδσ(s)≤d≤μ(s)+cδσ(s)},其中μ(s)是偏差d(s)的均值,σ(s)是偏差d(s)的标准差,cδ>0是高斯分布中 (1-δ)置信度对应的常数。
步骤二:构建全连接神经网络,以机器人状态为神经网络的输入,以机器人动作为神经网络的输出;
步骤三:机器人和环境交互,获取机器人当前时刻的状态st和奖励rt,构建模型预测控制框架和基于交叉熵的强化学习算法为基准策略得到机器人动作,通过模型预测控制框架求解固定时域H内最大化累积奖励的动作序列,并将动作序列的第一个动作at作为策略的输出url;模型预测控制框架求解固定时域H 内最大化累积奖励的动作序列的具体公式为:
Figure BDA0002311467270000055
其中,
Figure BDA0002311467270000056
为t+h时刻的奖励值,
Figure BDA0002311467270000057
为t至t+H时刻的动作序列。
步骤四:步骤二中的全连接神经网络以当前时刻状态st作为输入,得到输出unn
步骤五:构建控制李雅普诺夫函数并结合高斯过程,将机器人状态渐进收敛到设置的平衡点,在高置信度下保证基准策略的稳定性;构建控制屏障函数并结合高斯过程,在高置信度下将机器人探索和动作空间约束在安全可行域内,且可将不安全域内的状态渐进收敛到安全域内,通过联合控制李雅普诺夫函数和控制屏障函数构建不等式约束的二次规划问题,并得到最佳动作ucbf_clf;不等式约束的二次规划问题的具体公式为:
Figure BDA0002311467270000061
s.t.-Lgh(s)a-Lfh(s)-Lμh(s)+cσ|Lσh(s)|-κh(s)≤ε, -LgV(s)a-LfV(s)-LμV(s)+cσ|LσV(s)|-κV(s)≤η, amin≤a≤amax,
其中,V(s),h(s)分别为能量函数和屏障函数,a是机器人动作,amax,amin则对应其上界与下界,对角矩阵H(s)代表每一维动作的权重,ε,η代表松弛变量而Kε,Kη则是对应的系数,cσ是方项对应的系数,符号L代表李氏导数,κ是一个k类函数;
步骤六:将机器人动作at=url+unn+ucbf_clf应用于机器人的与环境的交互中;
步骤七:在线收集控制李雅普诺夫函数和控制屏障函数策略的状态和动作序列,训练全连接神经网络;
步骤八:在线收集机器人与环境交互的状态和动作序列,更新高斯过程;
步骤九:重复步骤三至步骤八直至交互结束。
本实施例的有益效果:解决了非线性、混合动力学安全关键机器人系统在状态、动作空间受限的任务场景中,面对自身系统不确定性和外部环境不确定性存在不安全性、不稳定、不高效的技术问题。
通过高斯过程对机器人动力学的不确定性进行建模,基于李雅普诺夫构造带约束强化学习,实现机器人高效性学习、稳定性工作、安全性探索;以模型预测控制框架和强化学习算法为基准策略,解决基于梯度算法奖励函数设置困难性问题,以滚动时域优化缓解决策中不精确模型带来的误差传播问题,并可以通过递归重要性采样,引导策略收敛到高奖励区,实现策略高效率优化;基于高斯过程通过在线收集交互数据及贝叶斯推理在高置信度下实现对环境的在线自适应,以建模系统动力学模型和环境交互的不确定性,并保证模型局部李普希兹连续;基于控制李雅普诺夫函数和高斯过程,在高置信度下保证基准策略的稳定性;基于控制屏障函数和高斯过程,在高置信度下将机器人探索和动作空间约束在安全可行域内,且可将不安全域内的状态渐进收敛到安全域内,保证机器人安全域自由探索,以实现基准策略探索高效性和安全性。基于控制屏障函数和控制李雅普诺夫函数历史策略,建立神经网络以引导机器人探索,实现基准策略进化,达到高效探索和学习的目的。
实施例2
如图1-3所示,本实施例在实施例1的基础上,以在带有随机风场干扰下的四旋翼无人机轨迹跟踪及避障任务为例,说明本方法的具体实现步骤:
步骤一:本实例根据机器人动力学的先验知识和实际的任务场景,建立基准非线性仿射系统模型,并设置一条三维空间的参数化轨迹包括轨迹起点、终点等,记为r(t)∈R3
根据任务场景定义无人机的安全状态空间:C={x|h(x)≥0}和目标平衡点,如:避开障碍物、轨迹点为平衡点,设计相应的控制屏障函数(CBF)h(st)和李雅普诺夫函数(CLF)V(st)。
步骤二:选取模型预测控制的框架作为四轴无人机的基准策略框架,得出无人机在当前状态下的策略动作,同时基于室内全局捕捉系统和四轴无人机机载传感器,实时获取无人的状态信息,包括:无人机的位置x,y,z坐标,无人机的速度vx,vy,vz,无人机的欧拉角φ,θ,
Figure BDA0002311467270000071
通过递归重要性采样进行样本收集,并设置奖励函数进行策略评估以优化基准策略。
步骤三:通过定义的CBF和CLF函数给四轴无人机的基准策略构造安全和稳定约束,通过拉格朗日乘子法求解上述约束,使四轴无人机的状态空间维持在安全域和稳定域内。
步骤四:本实例中,选取径向基函数(RBF)核和线性核为高斯过程核函数,初始化相应高斯过程模型。四旋翼无人机初始化高斯模型有6个,分别对应无人机的三个位置和三个角度。本发明选取无人机的状态维度为模型输入,无人机和环境的实际交互误差为输出,通过在线收集数据集(st,at,st+1),更新高斯过程模型,实现对四轴无人机系统动力学进行建模,得出交互不确定性的高斯分布。
步骤五:本实例中,搭建神经网络,包括一个输入层,两个隐含层,一个输出层。基于室内全局捕捉系统在线收集CBF、CLF控制器的状态序列和动作序列对网络进行训练,将输出的动作作为基准策略的校正量,将引导基准策略的探索和收敛。
步骤六:基于室内全局捕捉系统,机器人通过基准策略得到最优控制动作,并通过CBF控制器、CLF控制器对其动作进行安全性和稳定性约束,采用最终得到的动作与环境进行交互。
步骤七:重复步骤二至六,直至达到期望目标或最大实验设定时长。
本实施例的有益效果:在三维无人机系统中,无人机能在环境风场引起的不确定性下,能通过本发明提出的算法实现目标轨迹的安全、稳定、高效跟踪。如图2-3所示,即使在起始点相距较远的情况下,无人机依然能实现跟踪的渐进稳定。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (6)

1.一种基于强化学习和李雅普诺夫函数的鲁棒控制方法,其特征在于,包括以下步骤:
步骤一:构建仿射系统模型,然后基于高斯过程,对系统动力学模型存在的不确定性进行建模;高斯过程回归通过贝叶斯推理得到机器人状态s*
步骤二:构建全连接神经网络,以机器人状态s为神经网络的输入,以机器人动作a为神经网络的输出;
步骤三:获取机器人当前时刻的状态st和奖励rt,构建模型预测控制框架和强化学习算法为基准策略得到机器人动作,通过模型预测控制框架求解固定时域H内最大化累积奖励的动作序列,并将动作序列的第一个动作at作为策略的输出url
步骤四:步骤二中的全连接神经网络以当前时刻状态st作为输入,得到输出unn
步骤五:构建控制李雅普诺夫函数并结合高斯过程,将机器人状态渐进收敛到设置的平衡点,在高置信度下保证基准策略的稳定性;构建控制屏障函数并结合高斯过程,在高置信度下将机器人探索和动作空间约束在安全可行域内,且可将不安全域内的状态渐进收敛到安全域内,通过联合控制李雅普诺夫函数和控制屏障函数构建不等式约束的二次规划问题,并得到最佳动作ucbf_clf
步骤六:将机器人动作at=url+unn+ucbf_clf应用于机器人的与环境的交互中;
步骤七:在线收集控制李雅普诺夫函数和控制屏障函数策略的状态和动作序列,训练全连接神经网络;
步骤八:在线收集机器人与环境交互的状态和动作序列,更新高斯过程;
步骤九:重复步骤三至步骤八直至交互结束。
2.根据权利要求1所述的一种基于强化学习和李雅普诺夫函数的鲁棒控制方法,其特征在于,在所述步骤一中,非线性仿射系统可建模为:
Figure RE-FDA0002370254110000011
其中f(s)+g(s)a代表对系统动力学、运动学建模所得的先验模型,d(s)代表模型与真实环境的偏差。
3.根据权利要求2所述的一种基于强化学习和李雅普诺夫函数的鲁棒控制方法,其特征在于,在所述步骤一中,通过在线收集的数据集
Figure FDA0002311467260000012
高斯过程回归通过贝叶斯推理得到状态s*的下偏差d(s*)的均值和方差:
Figure FDA0002311467260000021
Figure FDA0002311467260000022
其中,k(si,sj)是GP中所定义的核函数,kn=[k(s1,s*),k(s2,s*),...,k(sn,s*)],[K]i,j=k(si,sj)为核矩阵,
Figure FDA0002311467260000023
是标签向量,σnoise是标签数据噪音的标准差,I为单位矩阵;
得到关于d(s)的高置信区间:D(s)={d|μ(s)-cδσ(s)≤d≤μ(s)+cδσ(s)},其中μ(s)是偏差d(s)的均值,σ(s)是偏差d(s)的标准差,cδ>0是高斯分布中(1-δ)置信度对应的常数。
4.根据权利要求1所述的一种基于强化学习和李雅普诺夫函数的鲁棒控制方法,其特征在于,在所述步骤三中,所述强化学习算法基于交叉熵方法。
5.根据权利要求1所述的一种基于强化学习和李雅普诺夫函数的鲁棒控制方法,其特征在于,在所述步骤三中,模型预测控制框架求解固定时域H内最大化累积奖励的动作序列的具体公式为:
Figure FDA0002311467260000024
其中,
Figure FDA0002311467260000025
为t+h时刻的奖励值,
Figure FDA0002311467260000026
为t至t+H时刻的动作序列。
6.根据权利要求1所述的一种基于强化学习和李雅普诺夫函数的鲁棒控制方法,其特征在于,在所述步骤五中,不等式约束的二次规划问题的具体公式为:
Figure FDA0002311467260000027
s.t.-Lgh(s)a-Lfh(s)-Lμh(s)+cσ|Lσh(s)|-κh(s)≤ε,
-LgV(s)a-LfV(s)-LμV(s)+cσ|LσV(s)|-κV(s)≤η,
amin≤a≤amax,
其中,V(s),h(s)分别为能量函数和屏障函数,a是机器人动作,amax,amin则对应其上界与下界,对角矩阵H(s)代表每一维动作的权重,ε,η代表松弛变量而Kε,Kη则是对应的系数,cσ是方项对应的系数,符号L代表李氏导数,κ是一个k类函数。
CN201911260424.0A 2019-12-10 2019-12-10 一种基于强化学习和李雅普诺夫函数的鲁棒控制方法 Active CN110928189B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911260424.0A CN110928189B (zh) 2019-12-10 2019-12-10 一种基于强化学习和李雅普诺夫函数的鲁棒控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911260424.0A CN110928189B (zh) 2019-12-10 2019-12-10 一种基于强化学习和李雅普诺夫函数的鲁棒控制方法

Publications (2)

Publication Number Publication Date
CN110928189A true CN110928189A (zh) 2020-03-27
CN110928189B CN110928189B (zh) 2022-04-29

Family

ID=69858715

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911260424.0A Active CN110928189B (zh) 2019-12-10 2019-12-10 一种基于强化学习和李雅普诺夫函数的鲁棒控制方法

Country Status (1)

Country Link
CN (1) CN110928189B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111552301A (zh) * 2020-06-21 2020-08-18 南开大学 一种基于强化学习的蝾螈机器人路径跟踪的分层控制方法
CN111897213A (zh) * 2020-06-18 2020-11-06 中山大学 一种模型不确定下的汽车自适应巡航控制方法
CN112416021A (zh) * 2020-11-17 2021-02-26 中山大学 一种基于学习的旋翼无人机路径跟踪预测控制方法
CN112498334A (zh) * 2020-12-15 2021-03-16 清华大学 智能网联混合动力汽车的鲁棒能量管理方法及系统
CN112506194A (zh) * 2020-12-03 2021-03-16 中山大学 一种移动机器人集群分布式安全学习控制方法
CN113031437A (zh) * 2021-02-26 2021-06-25 同济大学 一种基于动态模型强化学习的倒水服务机器人控制方法
CN113568422A (zh) * 2021-07-02 2021-10-29 厦门大学 基于模型预测控制优化强化学习的四足机器人控制方法
CN113885330A (zh) * 2021-10-26 2022-01-04 哈尔滨工业大学 一种基于深度强化学习的信息物理系统安全控制方法
CN114147716A (zh) * 2021-12-09 2022-03-08 乐聚(深圳)机器人技术有限公司 机器人的控制方法、装置、控制器及存储介质
CN115257697A (zh) * 2022-09-20 2022-11-01 北京理工大学 一种混动车辆能量管理及协同控制方法、系统及应用
CN116540553A (zh) * 2023-07-05 2023-08-04 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于强化学习的移动机器人安全运动方法
CN116880213A (zh) * 2023-08-16 2023-10-13 北京航空航天大学 无人机抗干扰安全控制方法及相关产品
CN117856284A (zh) * 2023-11-29 2024-04-09 国家电网有限公司华东分部 基于深度强化学习的电网频率的控制方法及装置
WO2024114458A1 (zh) * 2022-12-02 2024-06-06 中国科学院深圳先进技术研究院 基于李雅普诺夫神经网络的无人系统控制方法及控制系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955220A (zh) * 2014-04-30 2014-07-30 西北工业大学 一种空间绳系机器人跟踪最优轨迹协调控制方法
CN107561942A (zh) * 2017-09-12 2018-01-09 重庆邮电大学 基于模型补偿的智能车辆轨迹跟踪模型预测控制方法
CN109375639A (zh) * 2018-11-27 2019-02-22 浙江工业大学 一种基于非对称改进型障碍李雅普诺夫函数的刚性飞行器姿态约束跟踪控制方法
CN109514564A (zh) * 2019-01-22 2019-03-26 江西理工大学 一种复合二次型多关节机械臂最优控制方法
CN109683626A (zh) * 2018-11-08 2019-04-26 浙江工业大学 一种基于自适应rbf神经网络的四旋翼无人机编队控制方法
CN109702744A (zh) * 2019-01-15 2019-05-03 北京工业大学 一种基于动态系统模型的机器人模仿学习的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955220A (zh) * 2014-04-30 2014-07-30 西北工业大学 一种空间绳系机器人跟踪最优轨迹协调控制方法
CN107561942A (zh) * 2017-09-12 2018-01-09 重庆邮电大学 基于模型补偿的智能车辆轨迹跟踪模型预测控制方法
CN109683626A (zh) * 2018-11-08 2019-04-26 浙江工业大学 一种基于自适应rbf神经网络的四旋翼无人机编队控制方法
CN109375639A (zh) * 2018-11-27 2019-02-22 浙江工业大学 一种基于非对称改进型障碍李雅普诺夫函数的刚性飞行器姿态约束跟踪控制方法
CN109702744A (zh) * 2019-01-15 2019-05-03 北京工业大学 一种基于动态系统模型的机器人模仿学习的方法
CN109514564A (zh) * 2019-01-22 2019-03-26 江西理工大学 一种复合二次型多关节机械臂最优控制方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A.D.AMES等: "Control barrier function based quadratic programs for safety critical systems", 《IEEE TRANSACTIONS ON AUTOMATIC CONTROL》 *
L.WANG等: "Safe learning of quadrotor dynamics using barrier certificates", 《2018 IEEE INTERNATIONAL CONFERENCE ON ROBOTICS AND AUTOMATION (ICRA)》 *
成慧 等: "基于视觉的无人机地面目标自主跟踪系统", 《人工智能》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111897213A (zh) * 2020-06-18 2020-11-06 中山大学 一种模型不确定下的汽车自适应巡航控制方法
CN111552301A (zh) * 2020-06-21 2020-08-18 南开大学 一种基于强化学习的蝾螈机器人路径跟踪的分层控制方法
CN111552301B (zh) * 2020-06-21 2022-05-20 南开大学 一种基于强化学习的蝾螈机器人路径跟踪的分层控制方法
CN112416021A (zh) * 2020-11-17 2021-02-26 中山大学 一种基于学习的旋翼无人机路径跟踪预测控制方法
CN112506194A (zh) * 2020-12-03 2021-03-16 中山大学 一种移动机器人集群分布式安全学习控制方法
CN112506194B (zh) * 2020-12-03 2022-03-29 中山大学 一种移动机器人集群分布式安全学习控制方法
CN112498334B (zh) * 2020-12-15 2022-03-11 清华大学 智能网联混合动力汽车的鲁棒能量管理方法及系统
CN112498334A (zh) * 2020-12-15 2021-03-16 清华大学 智能网联混合动力汽车的鲁棒能量管理方法及系统
CN113031437A (zh) * 2021-02-26 2021-06-25 同济大学 一种基于动态模型强化学习的倒水服务机器人控制方法
CN113568422A (zh) * 2021-07-02 2021-10-29 厦门大学 基于模型预测控制优化强化学习的四足机器人控制方法
CN113568422B (zh) * 2021-07-02 2024-01-23 厦门大学 基于模型预测控制优化强化学习的四足机器人控制方法
CN113885330B (zh) * 2021-10-26 2022-06-17 哈尔滨工业大学 一种基于深度强化学习的信息物理系统安全控制方法
CN113885330A (zh) * 2021-10-26 2022-01-04 哈尔滨工业大学 一种基于深度强化学习的信息物理系统安全控制方法
CN114147716A (zh) * 2021-12-09 2022-03-08 乐聚(深圳)机器人技术有限公司 机器人的控制方法、装置、控制器及存储介质
CN115257697A (zh) * 2022-09-20 2022-11-01 北京理工大学 一种混动车辆能量管理及协同控制方法、系统及应用
CN115257697B (zh) * 2022-09-20 2023-01-06 北京理工大学 一种混动车辆能量管理及协同控制方法、系统及应用
WO2024114458A1 (zh) * 2022-12-02 2024-06-06 中国科学院深圳先进技术研究院 基于李雅普诺夫神经网络的无人系统控制方法及控制系统
CN116540553A (zh) * 2023-07-05 2023-08-04 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于强化学习的移动机器人安全运动方法
CN116540553B (zh) * 2023-07-05 2023-08-25 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于强化学习的移动机器人安全运动方法
CN116880213A (zh) * 2023-08-16 2023-10-13 北京航空航天大学 无人机抗干扰安全控制方法及相关产品
CN116880213B (zh) * 2023-08-16 2024-02-13 北京航空航天大学 无人机抗干扰安全控制方法及相关产品
CN117856284A (zh) * 2023-11-29 2024-04-09 国家电网有限公司华东分部 基于深度强化学习的电网频率的控制方法及装置
CN117856284B (zh) * 2023-11-29 2024-06-07 国家电网有限公司华东分部 基于深度强化学习的电网频率的控制方法及装置

Also Published As

Publication number Publication date
CN110928189B (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
CN110928189B (zh) 一种基于强化学习和李雅普诺夫函数的鲁棒控制方法
CN109992000B (zh) 一种基于分层强化学习的多无人机路径协同规划方法及装置
Mohajerin et al. Multistep prediction of dynamic systems with recurrent neural networks
Karkus et al. Particle filter networks with application to visual localization
CN109445447B (zh) 一种多智能体编队跟踪控制方法及系统
Wai et al. Adaptive neural network control and optimal path planning of UAV surveillance system with energy consumption prediction
Liang et al. Distributed coordinated tracking control of multiple unmanned surface vehicles under complex marine environments
Long et al. Deep-learned collision avoidance policy for distributed multiagent navigation
Amarjyoti Deep reinforcement learning for robotic manipulation-the state of the art
Song et al. New chaotic PSO-based neural network predictive control for nonlinear process
US10962976B1 (en) Motion control method and system for biomimetic robotic fish based on adversarial structured control
CN111300390B (zh) 基于蓄水池采样和双经验池的机械臂智能控制系统
Botteghi et al. On reward shaping for mobile robot navigation: A reinforcement learning and SLAM based approach
Saviolo et al. Learning quadrotor dynamics for precise, safe, and agile flight control
EP3201694B1 (en) System and method for controller adaptation
Zhang et al. Recurrent neural network‐based model predictive control for multiple unmanned quadrotor formation flight
Al-Sagban et al. Neural-based navigation of a differential-drive mobile robot
CN113741533A (zh) 一种基于模仿学习与强化学习的无人机智能决策系统
CN116700327A (zh) 一种基于连续动作优势函数学习的无人机轨迹规划方法
CN113848984A (zh) 一种无人机集群控制方法及系统
Ma et al. Target tracking control of UAV through deep reinforcement learning
Jurado et al. A wavelet neural control scheme for a quadrotor unmanned aerial vehicle
Gün Attitude control of a quadrotor using PID controller based on differential evolution algorithm
Zhang et al. A safety planning and control architecture applied to a quadrotor autopilot
CN109375642B (zh) 一种无人机节能控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant