CN110928189B - 一种基于强化学习和李雅普诺夫函数的鲁棒控制方法 - Google Patents
一种基于强化学习和李雅普诺夫函数的鲁棒控制方法 Download PDFInfo
- Publication number
- CN110928189B CN110928189B CN201911260424.0A CN201911260424A CN110928189B CN 110928189 B CN110928189 B CN 110928189B CN 201911260424 A CN201911260424 A CN 201911260424A CN 110928189 B CN110928189 B CN 110928189B
- Authority
- CN
- China
- Prior art keywords
- robot
- function
- action
- state
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 230000006870 function Effects 0.000 title claims abstract description 45
- 230000002787 reinforcement Effects 0.000 title claims abstract description 29
- 230000009471 action Effects 0.000 claims abstract description 49
- 230000004888 barrier function Effects 0.000 claims abstract description 18
- 230000008569 process Effects 0.000 claims description 28
- 238000013528 artificial neural network Methods 0.000 claims description 18
- 230000003993 interaction Effects 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 12
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 7
- 238000009826 distribution Methods 0.000 claims description 6
- 230000001186 cumulative effect Effects 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 238000005457 optimization Methods 0.000 description 6
- 238000005070 sampling Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000005096 rolling process Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005312 nonlinear dynamic Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
- G05B13/027—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
- Manipulator (AREA)
Abstract
本发明涉及一种基于强化学习和李雅普诺夫函数的鲁棒控制方法,通过自适应在线贝叶斯推理对机器人动力学进行建模,基于李雅普诺夫构造带约束强化学习问题,通过构建控制李雅普诺夫函数和控制屏障函数策略,实现机器人高效性学习、稳定性工作、安全探索;解决了非线性、混合动力学安全关键机器人系统在状态、动作空间受限的任务场景中,面对自身系统不确定性和外部环境不确定性存在不安全性、不稳定、不高效的技术问题。
Description
技术领域
本发明涉及机器人控制领域,更具体地,涉及一种基于强化学习和李雅普诺夫函数的鲁棒控制方法。
背景技术
随着时代的发展,机器人在现代生活的各个领域中发挥着重要作用,如智能制造、交通、医疗保健、抢险救灾等。现实世界环境具有非结构化、动态不确定性,因此面对具有非线性、混合动力学模型且状态、动作空间受限的复杂机器人系统,在安全性极其关键的任务场景中,需要设计一个高效、稳定并同时能保证安全性的自适应控制器。
为达到上述的目标,采用的方法有两种,一种是最优控制方法,另一种是基于强化学习的控制方法;最优控制方法是通过设置特定的目标函数,基于系统模型,运用最优化方法进行问题求解,但因为系统动力学的限制性,致使优化问题求解困难,故目标函数设置耗时且困难,且对模型依赖性强,在模型不精确情况下,难以产生有效策略。基于强化学习的控制方法分为两类,无模型的强化学习方法和基于模型的强化学习方法,前者存在着奖励函数设置困难、数据效率低下、训练复杂难以收敛、泛化性不足等问题;后者存在模型依赖性强,在复杂动力学系统难以建模情况下,难以产生有效策略的问题。
无论是最优控制方法、基于模型的强化学习方法或无模型的强化学习方法,在面对未知的内在系统扰动、外部环境干扰、复杂非线性动力学模型时,皆难以保证策略的安全性和稳定性。
发明内容
本发明为克服上述现有技术中机器人控制方法安全性和稳定性低的问题,提供一种基于强化学习和李雅普诺夫函数的鲁棒控制方法,通过自适应在线贝叶斯推理对机器人动力学进行建模,基于李雅普诺夫构造带约束强化学习问题,实现机器人高效性学习、稳定性工作、安全探索。
为解决上述技术问题,本发明采用的技术方案是:提供一种基于强化学习和李雅普诺夫函数的鲁棒控制方法,包括以下步骤:
步骤一:构建仿射系统模型,然后基于高斯过程,对系统动力学模型存在的不确定性进行建模;高斯过程回归通过贝叶斯推理得到机器人状态s*;
步骤二:构建全连接神经网络,以机器人状态s为神经网络的输入,以机器人动作为神经网络的输出;
步骤三:获取机器人当前时刻的状态st和奖励rt,构建模型预测控制框架和强化学习算法为基准策略得到机器人动作,通过模型预测控制框架求解固定时域H内最大化累积奖励的动作序列,并将动作序列的第一个动作at作为策略的输出url;
步骤四:步骤二中的全连接神经网络以当前时刻状态st作为输入,得到输出unn;
步骤五:构建控制李雅普诺夫函数并结合高斯过程,将机器人状态渐进收敛到设置的平衡点,在高置信度下保证基准策略的稳定性;构建控制屏障函数并结合高斯过程,在高置信度下将机器人探索和动作空间约束在安全可行域内,且可将不安全域内的状态渐进收敛到安全域内,通过联合控制李雅普诺夫函数和控制屏障函数构建不等式约束的二次规划问题,并得到最佳动作ucbf_clf;
步骤六:将动作at=url+unn+ucbf_clf应用于机器人的与环境的交互中;
步骤七:在线收集控制李雅普诺夫函数和控制屏障函数策略的状态和动作序列,训练全连接神经网络;
步骤八:在线收集机器人与环境交互的状态和动作序列,更新高斯过程;
步骤九:重复步骤三至步骤八直至交互结束。
其中,k(si,sj)是GP中所定义的核函数,kn=[k(s1,s*),k(s2,s*),...,k(sn,s*)],[K]i,j=k(si,sj)为核矩阵,是标签向量,σnoise是标签数据噪音的标准差,I为单位矩阵;
得到关于d(s)的高置信区间:D(s)={d|μ(s)-cδσ(s)≤d≤μ(s)+cδσ(s)},其中μ(s)是偏差d(s)的均值,σ(s)是偏差d(s)的标准差,cδ>0是高斯分布中 (1-δ)置信度对应的常数。
优选的,在所述步骤三中,所述强化学习算法基于交叉熵方法。交叉熵方法(CEM)是一种求解步骤三中问题的随机型近似优化方法
优选的,在所述步骤三中,模型预测控制框架求解固定时域H内最大化累积奖励的动作序列的具体公式为:
首先以高斯分布采样大量动作序列样本将这些动作序列放入强化学习模型进行状态预测并以奖励函数对这些动作序列进行优劣评估,选出累积奖励最高的部分样本重新拟合高斯分布进行进一步采样、评估,反复迭代收敛后即可得到近似的(局部)最优解。最后,根据MPC框架的思想,只采取动作序列的第一个动作at作为策略的输出url。
优选的,在所述步骤五中,不等式约束的二次规划问题的具体公式为:
s.t.-Lgh(s)a-Lfh(s)-Lμh(s)+cσ|Lσh(s)|-κh(s)≤ε, -LgV(s)a-LfV(s)-LμV(s)+cσ|LσV(s)|-κV(s)≤η, amin≤a≤amax,
其中,V(s),h(s)分别为能量函数和屏障函数,a是机器人动作,amax,amin则对应其上界与下界,对角矩阵H(s)代表每一维动作的权重,ε,η代表松弛变量而Kε,Kη则是对应的系数,cσ是方项对应的系数,符号L代表李氏导数,κ是一个k类函数。
与现有技术相比,本发明的有益效果是:解决了非线性、混合动力学安全关键机器人系统在状态、动作空间受限的任务场景中,面对自身系统不确定性和外部环境不确定性存在不安全性、不稳定、不高效的技术问题;通过高斯过程对机器人动力学的不确定性进行建模,基于李雅普诺夫构造带约束强化学习,实现机器人高效性学习、稳定性工作、安全性探索;以模型预测控制框架和强化学习算法为基准策略,解决基于梯度算法奖励函数设置困难性问题,以滚动时域优化缓解决策中不精确模型带来的误差传播问题,并可以通过递归重要性采样,引导策略收敛到高奖励区,实现策略高效率优化;基于高斯过程通过在线收集交互数据及贝叶斯推理在高置信度下实现对环境的在线自适应,以建模系统动力学模型和环境交互的不确定性,并保证模型局部李普希兹连续;基于控制李雅普诺夫函数和高斯过程,在高置信度下保证基准策略的稳定性;基于控制屏障函数和高斯过程,在高置信度下将机器人探索和动作空间约束在安全可行域内,且可将不安全域内的状态渐进收敛到安全域内,保证机器人安全域自由探索,以实现基准策略探索高效性和安全性。基于控制屏障函数和控制李雅普诺夫函数历史策略,建立神经网络以引导机器人探索,实现基准策略进化,达到高效探索和学习的目的。
附图说明
图1是本发明的一种基于强化学习和李雅普诺夫函数的鲁棒控制方法的框架流程图;
图2是本发明的一种基于强化学习和李雅普诺夫函数的鲁棒控制方法的实施例2的跟踪效果示意图;
图3是本发明的一种基于强化学习和李雅普诺夫函数的鲁棒控制方法的实施例2的跟踪误差示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明,不能理解为对本专利的限制。
下面通过具体实施例,并结合附图,对本发明的技术方案作进一步的具体描述:
实施例1
如图1所示为一种基于强化学习和李雅普诺夫函数的鲁棒控制方法的实施例,包括以下步骤:
步骤一:构建仿射系统模型,然后基于高斯过程,对系统动力学模型存在的不确定性进行建模;非线性仿射系统可建模为:其中 f(s)+g(s)a代表对系统动力学、运动学建模所得的先验模型,d(s)代表模型与真实环境的偏差;高斯过程回归通过贝叶斯推理得到状态s*的下偏差d(s*)的均值和方差:
其中,k(si,sj)是GP中所定义的核函数,kn=[k(s1,s*),k(s2,s*),...,k(sn,s*)],[K]i,j=k(si,sj)为核矩阵,是标签向量,σnoise是标签数据噪音的标准差,I为单位矩阵;
得到关于d(s)的高置信区间:D(s)={d|μ(s)-cδσ(s)≤d≤μ(s)+cδσ(s)},其中μ(s)是偏差d(s)的均值,σ(s)是偏差d(s)的标准差,cδ>0是高斯分布中 (1-δ)置信度对应的常数。
步骤二:构建全连接神经网络,以机器人状态为神经网络的输入,以机器人动作为神经网络的输出;
步骤三:机器人和环境交互,获取机器人当前时刻的状态st和奖励rt,构建模型预测控制框架和基于交叉熵的强化学习算法为基准策略得到机器人动作,通过模型预测控制框架求解固定时域H内最大化累积奖励的动作序列,并将动作序列的第一个动作at作为策略的输出url;模型预测控制框架求解固定时域H 内最大化累积奖励的动作序列的具体公式为:
步骤四:步骤二中的全连接神经网络以当前时刻状态st作为输入,得到输出unn;
步骤五:构建控制李雅普诺夫函数并结合高斯过程,将机器人状态渐进收敛到设置的平衡点,在高置信度下保证基准策略的稳定性;构建控制屏障函数并结合高斯过程,在高置信度下将机器人探索和动作空间约束在安全可行域内,且可将不安全域内的状态渐进收敛到安全域内,通过联合控制李雅普诺夫函数和控制屏障函数构建不等式约束的二次规划问题,并得到最佳动作ucbf_clf;不等式约束的二次规划问题的具体公式为:
s.t.-Lgh(s)a-Lfh(s)-Lμh(s)+cσ|Lσh(s)|-κh(s)≤ε, -LgV(s)a-LfV(s)-LμV(s)+cσ|LσV(s)|-κV(s)≤η, amin≤a≤amax,
其中,V(s),h(s)分别为能量函数和屏障函数,a是机器人动作,amax,amin则对应其上界与下界,对角矩阵H(s)代表每一维动作的权重,ε,η代表松弛变量而Kε,Kη则是对应的系数,cσ是方项对应的系数,符号L代表李氏导数,κ是一个k类函数;
步骤六:将机器人动作at=url+unn+ucbf_clf应用于机器人的与环境的交互中;
步骤七:在线收集控制李雅普诺夫函数和控制屏障函数策略的状态和动作序列,训练全连接神经网络;
步骤八:在线收集机器人与环境交互的状态和动作序列,更新高斯过程;
步骤九:重复步骤三至步骤八直至交互结束。
本实施例的有益效果:解决了非线性、混合动力学安全关键机器人系统在状态、动作空间受限的任务场景中,面对自身系统不确定性和外部环境不确定性存在不安全性、不稳定、不高效的技术问题。
通过高斯过程对机器人动力学的不确定性进行建模,基于李雅普诺夫构造带约束强化学习,实现机器人高效性学习、稳定性工作、安全性探索;以模型预测控制框架和强化学习算法为基准策略,解决基于梯度算法奖励函数设置困难性问题,以滚动时域优化缓解决策中不精确模型带来的误差传播问题,并可以通过递归重要性采样,引导策略收敛到高奖励区,实现策略高效率优化;基于高斯过程通过在线收集交互数据及贝叶斯推理在高置信度下实现对环境的在线自适应,以建模系统动力学模型和环境交互的不确定性,并保证模型局部李普希兹连续;基于控制李雅普诺夫函数和高斯过程,在高置信度下保证基准策略的稳定性;基于控制屏障函数和高斯过程,在高置信度下将机器人探索和动作空间约束在安全可行域内,且可将不安全域内的状态渐进收敛到安全域内,保证机器人安全域自由探索,以实现基准策略探索高效性和安全性。基于控制屏障函数和控制李雅普诺夫函数历史策略,建立神经网络以引导机器人探索,实现基准策略进化,达到高效探索和学习的目的。
实施例2
如图1-3所示,本实施例在实施例1的基础上,以在带有随机风场干扰下的四旋翼无人机轨迹跟踪及避障任务为例,说明本方法的具体实现步骤:
步骤一:本实例根据机器人动力学的先验知识和实际的任务场景,建立基准非线性仿射系统模型,并设置一条三维空间的参数化轨迹包括轨迹起点、终点等,记为r(t)∈R3。
根据任务场景定义无人机的安全状态空间:C={x|h(x)≥0}和目标平衡点,如:避开障碍物、轨迹点为平衡点,设计相应的控制屏障函数(CBF)h(st)和李雅普诺夫函数(CLF)V(st)。
步骤二:选取模型预测控制的框架作为四轴无人机的基准策略框架,得出无人机在当前状态下的策略动作,同时基于室内全局捕捉系统和四轴无人机机载传感器,实时获取无人的状态信息,包括:无人机的位置x,y,z坐标,无人机的速度vx,vy,vz,无人机的欧拉角φ,θ,通过递归重要性采样进行样本收集,并设置奖励函数进行策略评估以优化基准策略。
步骤三:通过定义的CBF和CLF函数给四轴无人机的基准策略构造安全和稳定约束,通过拉格朗日乘子法求解上述约束,使四轴无人机的状态空间维持在安全域和稳定域内。
步骤四:本实例中,选取径向基函数(RBF)核和线性核为高斯过程核函数,初始化相应高斯过程模型。四旋翼无人机初始化高斯模型有6个,分别对应无人机的三个位置和三个角度。本发明选取无人机的状态维度为模型输入,无人机和环境的实际交互误差为输出,通过在线收集数据集(st,at,st+1),更新高斯过程模型,实现对四轴无人机系统动力学进行建模,得出交互不确定性的高斯分布。
步骤五:本实例中,搭建神经网络,包括一个输入层,两个隐含层,一个输出层。基于室内全局捕捉系统在线收集CBF、CLF控制器的状态序列和动作序列对网络进行训练,将输出的动作作为基准策略的校正量,将引导基准策略的探索和收敛。
步骤六:基于室内全局捕捉系统,机器人通过基准策略得到最优控制动作,并通过CBF控制器、CLF控制器对其动作进行安全性和稳定性约束,采用最终得到的动作与环境进行交互。
步骤七:重复步骤二至六,直至达到期望目标或最大实验设定时长。
本实施例的有益效果:在三维无人机系统中,无人机能在环境风场引起的不确定性下,能通过本发明提出的算法实现目标轨迹的安全、稳定、高效跟踪。如图2-3所示,即使在起始点相距较远的情况下,无人机依然能实现跟踪的渐进稳定。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (2)
1.一种基于强化学习和李雅普诺夫函数的鲁棒控制方法,其特征在于,包括以下步骤:
步骤一:构建仿射系统模型,然后基于高斯过程,对系统动力学模型存在的不确定性进行建模;高斯过程回归通过贝叶斯推理得到机器人状态s*;仿射系统建模为:其中f(s)+g(s)a代表对系统动力学、运动学建模所得的先验模型,d(s)代表模型与真实环境的偏差;
其中,k(si,sj)是GP中所定义的核函数,kn=[k(s1,s*),k(s2,s*),...,k(sn,s*)],[K]i,j=k(si,sj)为核矩阵,是标签向量,σnoise是标签数据噪音的标准差,I为单位矩阵;
得到关于d(s)的高置信区间:
D(s)={d(s)|μ(s)-cδσ(s)≤d(s)≤μ(s)+cδσ(s)}
其中μ(s)是偏差d(s)的均值,σ(s)是偏差d(s)的标准差,cδ>0是高斯分布中(1-δ)置信度对应的常数
步骤二:构建全连接神经网络,以机器人状态s为神经网络的输入,以机器人动作a为神经网络的输出;
步骤三:获取机器人当前时刻的状态st和奖励rt,构建模型预测控制框架和强化学习算法为基准策略得到机器人动作,通过模型预测控制框架求解固定时域H内最大化累积奖励的动作序列,并将动作序列的第一个动作at作为策略的输出url;模型预测控制框架求解固定时域H内最大化累积奖励的动作序列的具体公式为:
步骤四:步骤二中的全连接神经网络以当前时刻状态st作为输入,得到输出unn;
步骤五:构建控制李雅普诺夫函数并结合高斯过程,将机器人状态渐进收敛到设置的平衡点,在高置信度下保证基准策略的稳定性;构建控制屏障函数并结合高斯过程,在高置信度下将机器人探索和动作空间约束在安全可行域内,且将不安全域内的状态渐进收敛到安全域内,通过联合控制李雅普诺夫函数和控制屏障函数构建不等式约束的二次规划问题,并得到最佳动作ucbf_clf;不等式约束的二次规划问题的具体公式为:
s.t.-Lgh(s)a-Lfh(s)-Lμh(s)+cσ|Lσh(s)|-κh(s)≤ε,-LgV(s)a-LfV(s)-LμV(s)+cσ|LσV(s)|-κV(s)≤η,amin≤a≤amax,
其中,V(s),h(s)分别为能量函数和屏障函数,a是机器人动作,amax,amin则对应其上界与下界,对角矩阵H(s)代表每一维动作的权重,ε,η代表松弛变量而Kε,Kη则是对应的系数,cσ是方项对应的系数,符号L代表李氏导数,κ是一个k类函数;
步骤六:将机器人动作at=url+unn+ucbf_clf应用于机器人的与环境的交互中;
步骤七:在线收集控制李雅普诺夫函数和控制屏障函数策略的状态和动作序列,训练全连接神经网络;
步骤八:在线收集机器人与环境交互的状态和动作序列,更新高斯过程;
步骤九:重复步骤三至步骤八直至交互结束。
2.根据权利要求1所述的一种基于强化学习和李雅普诺夫函数的鲁棒控制方法,其特征在于,在所述步骤三中,所述强化学习算法基于交叉熵方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911260424.0A CN110928189B (zh) | 2019-12-10 | 2019-12-10 | 一种基于强化学习和李雅普诺夫函数的鲁棒控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911260424.0A CN110928189B (zh) | 2019-12-10 | 2019-12-10 | 一种基于强化学习和李雅普诺夫函数的鲁棒控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110928189A CN110928189A (zh) | 2020-03-27 |
CN110928189B true CN110928189B (zh) | 2022-04-29 |
Family
ID=69858715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911260424.0A Active CN110928189B (zh) | 2019-12-10 | 2019-12-10 | 一种基于强化学习和李雅普诺夫函数的鲁棒控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110928189B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111897213A (zh) * | 2020-06-18 | 2020-11-06 | 中山大学 | 一种模型不确定下的汽车自适应巡航控制方法 |
CN111552301B (zh) * | 2020-06-21 | 2022-05-20 | 南开大学 | 一种基于强化学习的蝾螈机器人路径跟踪的分层控制方法 |
CN112416021B (zh) * | 2020-11-17 | 2021-12-21 | 中山大学 | 一种基于学习的旋翼无人机路径跟踪预测控制方法 |
CN112506194B (zh) * | 2020-12-03 | 2022-03-29 | 中山大学 | 一种移动机器人集群分布式安全学习控制方法 |
CN112498334B (zh) * | 2020-12-15 | 2022-03-11 | 清华大学 | 智能网联混合动力汽车的鲁棒能量管理方法及系统 |
CN113031437B (zh) * | 2021-02-26 | 2022-10-25 | 同济大学 | 一种基于动态模型强化学习的倒水服务机器人控制方法 |
CN113568422B (zh) * | 2021-07-02 | 2024-01-23 | 厦门大学 | 基于模型预测控制优化强化学习的四足机器人控制方法 |
CN113885330B (zh) * | 2021-10-26 | 2022-06-17 | 哈尔滨工业大学 | 一种基于深度强化学习的信息物理系统安全控制方法 |
CN114147716A (zh) * | 2021-12-09 | 2022-03-08 | 乐聚(深圳)机器人技术有限公司 | 机器人的控制方法、装置、控制器及存储介质 |
CN115257697B (zh) * | 2022-09-20 | 2023-01-06 | 北京理工大学 | 一种混动车辆能量管理及协同控制方法、系统及应用 |
CN115933467A (zh) * | 2022-12-02 | 2023-04-07 | 中国科学院深圳先进技术研究院 | 基于李雅普诺夫神经网络的无人系统控制方法及控制系统 |
CN116540553B (zh) * | 2023-07-05 | 2023-08-25 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种基于强化学习的移动机器人安全运动方法 |
CN116880213B (zh) * | 2023-08-16 | 2024-02-13 | 北京航空航天大学 | 无人机抗干扰安全控制方法及相关产品 |
CN117856284B (zh) * | 2023-11-29 | 2024-06-07 | 国家电网有限公司华东分部 | 基于深度强化学习的电网频率的控制方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103955220A (zh) * | 2014-04-30 | 2014-07-30 | 西北工业大学 | 一种空间绳系机器人跟踪最优轨迹协调控制方法 |
CN107561942A (zh) * | 2017-09-12 | 2018-01-09 | 重庆邮电大学 | 基于模型补偿的智能车辆轨迹跟踪模型预测控制方法 |
CN109375639A (zh) * | 2018-11-27 | 2019-02-22 | 浙江工业大学 | 一种基于非对称改进型障碍李雅普诺夫函数的刚性飞行器姿态约束跟踪控制方法 |
CN109514564A (zh) * | 2019-01-22 | 2019-03-26 | 江西理工大学 | 一种复合二次型多关节机械臂最优控制方法 |
CN109683626A (zh) * | 2018-11-08 | 2019-04-26 | 浙江工业大学 | 一种基于自适应rbf神经网络的四旋翼无人机编队控制方法 |
CN109702744A (zh) * | 2019-01-15 | 2019-05-03 | 北京工业大学 | 一种基于动态系统模型的机器人模仿学习的方法 |
-
2019
- 2019-12-10 CN CN201911260424.0A patent/CN110928189B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103955220A (zh) * | 2014-04-30 | 2014-07-30 | 西北工业大学 | 一种空间绳系机器人跟踪最优轨迹协调控制方法 |
CN107561942A (zh) * | 2017-09-12 | 2018-01-09 | 重庆邮电大学 | 基于模型补偿的智能车辆轨迹跟踪模型预测控制方法 |
CN109683626A (zh) * | 2018-11-08 | 2019-04-26 | 浙江工业大学 | 一种基于自适应rbf神经网络的四旋翼无人机编队控制方法 |
CN109375639A (zh) * | 2018-11-27 | 2019-02-22 | 浙江工业大学 | 一种基于非对称改进型障碍李雅普诺夫函数的刚性飞行器姿态约束跟踪控制方法 |
CN109702744A (zh) * | 2019-01-15 | 2019-05-03 | 北京工业大学 | 一种基于动态系统模型的机器人模仿学习的方法 |
CN109514564A (zh) * | 2019-01-22 | 2019-03-26 | 江西理工大学 | 一种复合二次型多关节机械臂最优控制方法 |
Non-Patent Citations (3)
Title |
---|
Control barrier function based quadratic programs for safety critical systems;A.D.Ames等;《IEEE Transactions on Automatic Control》;20161213;第62卷(第8期);第3861-3876页 * |
Safe learning of quadrotor dynamics using barrier certificates;L.Wang等;《2018 IEEE International Conference on Robotics and Automation (ICRA)》;20180525;第2460-2465页 * |
基于视觉的无人机地面目标自主跟踪系统;成慧 等;《人工智能》;20171210(第6期);第52-61页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110928189A (zh) | 2020-03-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110928189B (zh) | 一种基于强化学习和李雅普诺夫函数的鲁棒控制方法 | |
CN109992000B (zh) | 一种基于分层强化学习的多无人机路径协同规划方法及装置 | |
Mohajerin et al. | Multistep prediction of dynamic systems with recurrent neural networks | |
Karkus et al. | Particle filter networks with application to visual localization | |
Long et al. | Deep-learned collision avoidance policy for distributed multiagent navigation | |
Yan et al. | Consensus formation tracking for multiple AUV systems using distributed bioinspired sliding mode control | |
US10962976B1 (en) | Motion control method and system for biomimetic robotic fish based on adversarial structured control | |
Ferdaus et al. | Towards the use of fuzzy logic systems in rotary wing unmanned aerial vehicle: a review | |
Ma et al. | Target tracking control of UAV through deep reinforcement learning | |
CN112506194B (zh) | 一种移动机器人集群分布式安全学习控制方法 | |
CN113741533A (zh) | 一种基于模仿学习与强化学习的无人机智能决策系统 | |
Al-Sagban et al. | Neural-based navigation of a differential-drive mobile robot | |
Gün | Attitude control of a quadrotor using PID controller based on differential evolution algorithm | |
CN114859899A (zh) | 移动机器人导航避障的演员-评论家稳定性强化学习方法 | |
CN116700327A (zh) | 一种基于连续动作优势函数学习的无人机轨迹规划方法 | |
Guo et al. | Research on multi-sensor information fusion and intelligent optimization algorithm and related topics of mobile robots | |
Jurado et al. | A wavelet neural control scheme for a quadrotor unmanned aerial vehicle | |
CN117302204B (zh) | 依托强化学习的多风格车辆轨迹跟踪避撞控制方法及装置 | |
Liu et al. | Hierarchical reinforcement learning integrating with human knowledge for practical robot skill learning in complex multi-stage manipulation | |
Tutsoy et al. | Minimum Distance and Minimum Time Optimal Path Planning With Bioinspired Machine Learning Algorithms for Faulty Unmanned Air Vehicles | |
CN116203987A (zh) | 一种基于深度强化学习的无人机集群协同避障方法 | |
CN115562258A (zh) | 基于神经网络的机器人社会自适应路径规划方法及系统 | |
CN114911157A (zh) | 基于部分可观测强化学习的机器人导航控制方法及系统 | |
Farid et al. | Control and identification of dynamic plants using adaptive neuro-fuzzy type-2 strategy | |
CN114326826A (zh) | 多无人机队形变换方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |