CN113805483B - 基于模型预测的机器人控制方法、装置和计算机设备 - Google Patents

基于模型预测的机器人控制方法、装置和计算机设备 Download PDF

Info

Publication number
CN113805483B
CN113805483B CN202111090098.0A CN202111090098A CN113805483B CN 113805483 B CN113805483 B CN 113805483B CN 202111090098 A CN202111090098 A CN 202111090098A CN 113805483 B CN113805483 B CN 113805483B
Authority
CN
China
Prior art keywords
function
value
control
network
control strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111090098.0A
Other languages
English (en)
Other versions
CN113805483A (zh
Inventor
张兴龙
徐昕
方强
周星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202111090098.0A priority Critical patent/CN113805483B/zh
Publication of CN113805483A publication Critical patent/CN113805483A/zh
Application granted granted Critical
Publication of CN113805483B publication Critical patent/CN113805483B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本申请涉及一种基于模型预测的机器人控制方法、装置、计算机设备和存储介质。方法包括:通过表示机器人的控制约束和状态约束的障碍函数,构建机器人安全相关的代价函数和控制策略结构,构造值函数网络,在任意时刻k,根据k+1,…,k+L预测时刻的代价函数的累加和k+L+1时刻的值函数网络,得到多步策略评估的参考代价函数,通过最小化值函数网络和参考代价函数的误差的平方,得到值函数权值更新律;构造策略逼近网络,得到策略权值矩阵的策略权值更新律,用于计算机器人的控制量。本发明提出一种基于障碍函数的控制策略,可实现最优性和安全性的平衡,采用多步策略评估的方法对策略的安全性进行评估,可处理时变约束。

Description

基于模型预测的机器人控制方法、装置和计算机设备
技术领域
本申请涉及计算机技术领域,特别是涉及一种基于模型预测的机器人控制方法、装置、计算机设备和存储介质。
背景技术
随着机器人技术的发展,机器人在服务、工业和国防等领域有了越来越多的应用。机器人的动力学是高度非线性的,而且多数机器人的控制需要考虑安全约束,例如无人车需要考虑安全避碰,机械手需要在受限工作区域工作。因此,在设计控制器时不仅要保证最优的控制性能还需要满足安全约束的要求。基于数值求解的模型预测控制能够满足上述控制要求,但需要在线实时求解,在线计算量大,很难实现高频率实时部署。目前比较流行的基于策略优化的方法例如强化学习方法,在计算效率方面具有明显的优势。但是强化学习需要通过试错实现策略优化,很难满足安全约束。因此,现有的机器人学习控制方法亟需解决安全性无法保证的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种基于模型预测的机器人控制方法、装置、计算机设备和存储介质。
一种基于模型预测的机器人控制方法,所述方法包括:
获取机器人的控制约束信息和状态约束信息,根据所述控制约束信息得到第一障碍函数,根据所述状态约束信息得到第二障碍函数,根据所述第一障碍函数和所述第二障碍函数构建所述机器人安全相关的代价函数和控制策略结构;所述控制策略结构中还包括引入的预控制量;
根据所述第二障碍函数构造值函数网络;所述值函数网络中包括值函数权值矩阵;
获取机器人的控制约束信息和状态约束信息,根据所述控制约束信息得到第一障碍函数,根据所述状态约束信息得到第二障碍函数,根据所述第一障碍函数和所述第二障碍函数构建所述机器人安全相关的代价函数和控制策略结构;所述控制策略结构中还包括引入的预控制量;
根据所述第二障碍函数构造值函数网络;所述值函数网络中包括值函数权值矩阵;
在机器人控制过程中的任意时刻k,根据k+1,…,k+L预测时刻的所述代价函数的累加和k+L+1预测时刻的所述值函数网络,得到多步策略评估的参考代价函数;
根据所述值函数网络的值和所述参考代价函数的值,得到第一逼近误差,通过最小化所述第一逼近误差的平方,得到所述值函数权值矩阵的值函数权值更新律;
根据所述预控制量和所述第一障碍函数以及所述第二障碍函数构造控制策略逼近网络;所述控制策略逼近网络包括控制策略权值矩阵;
根据所述控制策略逼近网络的值和第一障碍函数定义一个合成控制量;根据所述合成控制量和预先定义的合成控制量的期望值,得到第二逼近误差,通过最小化所述第二逼近误差的欧几里得范数,得到所述控制策略权值矩阵的控制策略权值更新律;所述合成控制量的期望值中包括k+1预测时刻的值函数网络对k+1预测时刻的状态量求偏导得到的值;
根据所述控制策略权值更新律和所述控制策略逼近网络得到机器人在任意k时刻的控制量。
在其中一个实施例中,还包括:获取机器人的控制约束信息和状态约束信息,根据所述控制约束信息得到第一障碍函数,根据所述状态约束信息得到第二障碍函数,根据所述第一障碍函数和所述第二障碍函数构建所述机器人安全相关的代价函数和控制策略结构;所述代价函数为:
Figure BDA0003267069450000021
其中,
Figure BDA0003267069450000022
Figure BDA0003267069450000023
是状态和控制变量,k是离散时间指针,
Figure BDA0003267069450000031
是时变约束集合,
Figure BDA0003267069450000032
Figure BDA0003267069450000033
是连续函数,
Figure BDA0003267069450000034
Figure BDA0003267069450000035
Figure BDA0003267069450000036
是正定对称矩阵,μ>0是可调参数,γ是折扣因子,
Figure BDA00032670694500000326
为障碍函数,
Figure BDA00032670694500000327
为所述第一障碍函数,
Figure BDA00032670694500000328
为所述第二障碍函数;
所述控制策略结构为:
Figure BDA0003267069450000037
其中
Figure BDA0003267069450000038
表示所述预控制量,是一个新引入的变量,
Figure BDA0003267069450000039
Figure BDA00032670694500000310
是待优化的变量,
Figure BDA00032670694500000311
表示为对变量v的偏导,
Figure BDA00032670694500000312
表示为对变量x的偏导,
Figure BDA00032670694500000313
表示由控制约束的所述第一障碍函数产生的相斥力,当vk越靠近约束集合
Figure BDA00032670694500000324
的边界,所述
Figure BDA00032670694500000314
的值越大;
Figure BDA00032670694500000315
表示由状态约束的所述第二障碍函数产生的相斥力,当xk越靠近约束集合
Figure BDA00032670694500000316
的边界,所述
Figure BDA00032670694500000317
的值越大。
在其中一个实施例中,还包括:针对一个约束集合
Figure BDA00032670694500000318
障碍函数为:
Figure BDA00032670694500000319
对所述障碍函数
Figure BDA00032670694500000320
重新中心化,得到:
Figure BDA00032670694500000321
其中,如果
Figure BDA00032670694500000325
zc=0,否则,选择
Figure BDA00032670694500000322
在其中一个实施例中,还包括:根据所述第二障碍函数构造值函数网络;所述值函数网络为:
Figure BDA00032670694500000323
其中,
Figure BDA0003267069450000041
Figure BDA0003267069450000042
是权值矩阵,
Figure BDA0003267069450000043
是基函数向量,Wc=(Wc1,Wc2),
Figure BDA00032670694500000414
在其中一个实施例中,还包括:在机器人控制过程中的任意时刻k,根据k+1,…,k+L预测时刻的所述代价函数的累加和k+L+1预测时刻的所述值函数网络,得到多步策略评估的参考代价函数;所述参考代价函数为:
Figure BDA0003267069450000044
在其中一个实施例中,还包括:根据所述值函数网络的值和所述参考代价函数的值,得到第一逼近误差为:
Figure BDA0003267069450000045
通过最小化
Figure BDA0003267069450000046
得到所述值函数权值矩阵的值函数权值更新律为:
Figure BDA0003267069450000047
其中,γc是预设的更新律。
在其中一个实施例中,还包括:根据所述预控制量和所述第一障碍函数以及所述第二障碍函数构造控制策略逼近网络;所述控制策略逼近网络为:
Figure BDA0003267069450000048
其中
Figure BDA0003267069450000049
是权值矩阵,
Figure BDA00032670694500000410
是基函数向量,
Figure BDA00032670694500000411
Figure BDA00032670694500000412
在其中一个实施例中,还包括:定义所述合成控制量为:
Figure BDA00032670694500000413
获取预先定义的合成控制量期望值为:
Figure BDA0003267069450000051
其中
Figure BDA0003267069450000052
Figure BDA0003267069450000053
表示为对变量u的偏导,f(x,u)为机器人动力学模型xk+1=f(xk,uk)的模型函数;
根据所述合成控制量和所述合成控制量期望,得到第二逼近误差为:
Figure BDA0003267069450000054
通过最小化所述第二逼近误差的欧几里得范数δa,k=||εa,k||2,得到所述控制策略权值矩阵的控制策略权值更新律为:
Figure BDA0003267069450000055
Figure BDA0003267069450000056
其中,γa是预设的更新律。
一种基于模型预测的机器人控制装置,所述装置包括:
代价函数和控制策略构建模块,用于获取机器人的控制约束信息和状态约束信息,根据所述控制约束信息得到第一障碍函数,根据所述状态约束信息得到第二障碍函数,根据所述第一障碍函数和所述第二障碍函数构建所述机器人安全相关的代价函数和控制策略结构;所述控制策略结构中还包括引入的预控制量;
值函数网络构建模块,用于根据所述第二障碍函数构造值函数网络;所述值函数网络中包括值函数权值矩阵;
参考代价函数构建模块,用于在机器人控制过程中的任意时刻k,根据k+1,…,k+L预测时刻的所述代价函数的累加和k+L+1预测时刻的所述值函数网络,得到多步策略评估的参考代价函数;
值函数权值更新律确定模块,用于根据所述值函数网络的值和所述参考代价函数的值,得到第一逼近误差,通过最小化所述第一逼近误差的平方,得到所述值函数权值矩阵的值函数权值更新律;
控制策略逼近网络构建模块,用于根据所述预控制量和所述第一障碍函数以及所述第二障碍函数构造控制策略逼近网络;所述控制策略逼近网络包括控制策略权值矩阵;
控制策略权值更新律确定模块,用于根据所述控制策略逼近网络的值和第一障碍函数定义一个合成控制量;根据所述合成控制量和预先定义的合成控制量的期望值,得到第二逼近误差,通过最小化所述第二逼近误差的欧几里得范数,得到所述控制策略权值矩阵的控制策略权值更新律;所述合成控制量的期望值中包括k+1预测时刻的值函数网络对k+1预测时刻的状态量求偏导得到的值;
机器人控制量确定模块,用于根据所述控制策略权值更新律和所述控制策略逼近网络得到机器人在任意k时刻的控制量。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取机器人的控制约束信息和状态约束信息,根据所述控制约束信息得到第一障碍函数,根据所述状态约束信息得到第二障碍函数,根据所述第一障碍函数和所述第二障碍函数构建所述机器人安全相关的代价函数和控制策略结构;所述控制策略结构中还包括引入的预控制量;
根据所述第二障碍函数构造值函数网络;所述值函数网络中包括值函数权值矩阵;
在机器人控制过程中的任意时刻k,根据k+1,…,k+L预测时刻的所述代价函数的累加和k+L+1预测时刻的所述值函数网络,得到多步策略评估的参考代价函数;
根据所述值函数网络的值和所述参考代价函数的值,得到第一逼近误差,通过最小化所述第一逼近误差的平方,得到所述值函数权值矩阵的值函数权值更新律;
根据所述预控制量和所述第一障碍函数以及所述第二障碍函数构造控制策略逼近网络;所述控制策略逼近网络包括控制策略权值矩阵;
根据所述控制策略逼近网络的值和第一障碍函数定义一个合成控制量;根据所述合成控制量和预先定义的合成控制量的期望值,得到第二逼近误差,通过最小化所述第二逼近误差的欧几里得范数,得到所述控制策略权值矩阵的控制策略权值更新律;所述合成控制量的期望值中包括k+1预测时刻的值函数网络对k+1预测时刻的状态量求偏导得到的值;
根据所述控制策略权值更新律和所述控制策略逼近网络得到机器人在任意k时刻的控制量。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取机器人的控制约束信息和状态约束信息,根据所述控制约束信息得到第一障碍函数,根据所述状态约束信息得到第二障碍函数,根据所述第一障碍函数和所述第二障碍函数构建所述机器人安全相关的代价函数和控制策略结构;所述控制策略结构中还包括引入的预控制量;
根据所述第二障碍函数构造值函数网络;所述值函数网络中包括值函数权值矩阵;
在机器人控制过程中的任意时刻k,根据k+1,…,k+L预测时刻的所述代价函数的累加和k+L+1预测时刻的所述值函数网络,得到多步策略评估的参考代价函数;
根据所述值函数网络的值和所述参考代价函数的值,得到第一逼近误差,通过最小化所述第一逼近误差的平方,得到所述值函数权值矩阵的值函数权值更新律;
根据所述预控制量和所述第一障碍函数以及所述第二障碍函数构造控制策略逼近网络;所述控制策略逼近网络包括控制策略权值矩阵;
根据所述控制策略逼近网络的值和第一障碍函数定义一个合成控制量;根据所述合成控制量和预先定义的合成控制量的期望值,得到第二逼近误差,通过最小化所述第二逼近误差的欧几里得范数,得到所述控制策略权值矩阵的控制策略权值更新律;所述合成控制量的期望值中包括k+1预测时刻的值函数网络对k+1预测时刻的状态量求偏导得到的值;
根据所述控制策略权值更新律和所述控制策略逼近网络得到机器人在任意k时刻的控制量。
上述基于模型预测的机器人控制方法、装置、计算机设备和存储介质,通过表示机器人的控制约束的第一障碍函数和表示机器人状态约束的第二障碍函数,构建机器人安全相关的代价函数和控制策略结构,构造值函数网络,在机器人控制过程中的任意时刻k,根据k+L预测时刻的代价函数的累加和k+L+1预测时刻的值函数网络,得到多步策略评估的参考代价函数,根据值函数网络的值和参考代价函数的值,得到第一逼近误差,通过最小化第一逼近误差的平方,得到值函数权值矩阵的值函数权值更新律;根据控制策略中的预控制量、第一障碍函数和第二障碍函数构造控制策略逼近网络,根据预先定义的合成控制量和包括k+1时刻的值函数网络的值的合成控制量期望值,得到第二逼近误差,通过最小化第二逼近误差的欧几里得范数,得到控制策略权值矩阵的控制策略权值更新律,根据控制策略权值更新律和控制策略逼近网络得到机器人在任意k时刻的控制量。本发明提出一种基于障碍函数的控制策略,可以实现最优性和安全性的平衡,同时,采用多步策略评估的方法对策略的安全性进行评估,使得本发明的控制方法有能力处理时变约束。
附图说明
图1为一个实施例中基于模型预测的机器人控制方法的流程示意图;
图2为一个实施例中基于模型预测的机器人控制装置的结构框图;
图3为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种基于模型预测的机器人控制方法,包括以下步骤:
步骤102,获取机器人的控制约束信息和状态约束信息,根据控制约束信息得到第一障碍函数,根据状态约束信息得到第二障碍函数,根据第一障碍函数和第二障碍函数构建机器人安全相关的代价函数和控制策略结构。
本发明考虑一个机器人动力学模型:
xk+1=f(xk,uk)
其中,
Figure BDA0003267069450000091
Figure BDA0003267069450000092
是状态和控制变量,k是离散时间指针,
Figure BDA0003267069450000093
是时变约束集合,
Figure BDA0003267069450000094
Figure BDA0003267069450000095
是连续函数;其中,
Figure BDA0003267069450000096
可以形式化为状态安全约束,例如在轮式机器人中其可以表示为机器人本身的状态约束,也可以表示由避障而形式化的约束。
控制目标是:从初始状态
Figure BDA0003267069450000097
寻找一个控制策略uk=u(xk)能够最小化如下性能指标:
Figure BDA0003267069450000098
同时需要满足模型约束xk+1=f(xk,uk),
Figure BDA0003267069450000099
γ是折扣因子。
针对上述问题,本发明提出一种安全强化学习方法来实现安全近似最优控制。
控制策略结构中包括与控制约束相关的第一障碍函数、与状态约束相关的第二障碍函数和一个预控制量。预控制量是一个新引入的变量,与当前控制量以及当前控制约束的障碍函数产生的相斥力相关。
步骤104,根据第二障碍函数构造值函数网络。
值函数网络中包括值函数权值矩阵。
步骤106,在机器人控制过程中的任意时刻k,根据k+1,…,k+L预测时刻的代价函数的累加和k+L+1预测时刻的值函数网络,得到多步策略评估的参考代价函数。
多步策略评价能够处理时变约束,也就是未来约束变化反映在未来的障碍函数中,被提前评估并用于策略更新。
步骤108,根据值函数网络的值和参考代价函数的值,得到第一逼近误差,通过最小化第一逼近误差的平方,得到值函数权值矩阵的值函数权值更新律。
步骤110,根据预控制量和第一障碍函数以及第二障碍函数构造控制策略逼近网络。
控制策略逼近网络包括控制策略权值矩阵。
步骤112,根据控制策略逼近网络的值和第一障碍函数定义一个合成控制量根据合成控制量和预先定义的合成控制量的期望值,得到第二逼近误差,通过最小化第二逼近误差的欧几里得范数,得到控制策略权值矩阵的控制策略权值更新律。
合成控制量的期望值中包括k+1预测时刻的值函数网络对k+1预测时刻的状态量求偏导得到的值。
步骤114,根据控制策略权值更新律和控制策略逼近网络得到机器人在任意k时刻的控制量。
上述基于模型预测的机器人控制方法中,通过表示机器人的控制约束的第一障碍函数和表示机器人状态约束的第二障碍函数,构建机器人安全相关的代价函数和控制策略结构,构造值函数网络,在机器人控制过程中的任意时刻k,根据k+L预测时刻的代价函数的累加和k+L+1预测时刻的值函数网络,得到多步策略评估的参考代价函数,根据值函数网络的值和参考代价函数的值,得到第一逼近误差,通过最小化第一逼近误差的平方,得到值函数权值矩阵的值函数权值更新律;根据控制策略中的预控制量、第一障碍函数和第二障碍函数构造控制策略逼近网络,根据预先定义的合成控制量和包括k+1时刻的值函数网络的值的合成控制量期望值,得到第二逼近误差,通过最小化第二逼近误差的欧几里得范数,得到控制策略权值矩阵的控制策略权值更新律,根据控制策略权值更新律和控制策略逼近网络得到机器人在任意k时刻的控制量。本发明提出一种基于障碍函数的控制策略,可以实现最优性和安全性的平衡,同时,采用多步策略评估的方法对策略的安全性进行评估,使得本发明的控制方法有能力处理时变约束。
在其中一个实施例中,还包括:获取机器人的控制约束信息和状态约束信息,根据控制约束信息得到第一障碍函数,根据状态约束信息得到第二障碍函数,根据第一障碍函数和第二障碍函数构建机器人安全相关的代价函数和控制策略结构;代价函数为:
Figure BDA0003267069450000111
其中,
Figure BDA0003267069450000112
Figure BDA0003267069450000113
是状态和控制变量,k是离散时间指针,
Figure BDA0003267069450000114
是时变约束集合,
Figure BDA0003267069450000115
Figure BDA0003267069450000116
是连续函数,
Figure BDA0003267069450000117
Figure BDA0003267069450000118
Figure BDA0003267069450000119
是正定对称矩阵,μ>0是可调参数,γ是折扣因子,
Figure BDA00032670694500001124
为障碍函数,
Figure BDA00032670694500001125
为第一障碍函数,
Figure BDA00032670694500001126
为第二障碍函数;
控制策略结构为:
Figure BDA00032670694500001110
其中
Figure BDA00032670694500001111
表示预控制量,是一个新引入的变量,
Figure BDA00032670694500001112
是待优化的变量,
Figure BDA00032670694500001113
表示为对变量v的偏导,
Figure BDA00032670694500001114
表示为对变量x的偏导,
Figure BDA00032670694500001115
表示由控制约束的第一障碍函数产生的相斥力,当vk越靠近约束集合
Figure BDA00032670694500001127
的边界,所述
Figure BDA00032670694500001116
的值越大;
Figure BDA00032670694500001117
表示由状态约束的所述第二障碍函数产生的相斥力,当xk越靠近约束集合
Figure BDA00032670694500001123
的边界,所述
Figure BDA00032670694500001118
的值越大。
在其中一个实施例中,还包括:针对一个约束集合
Figure BDA00032670694500001119
障碍函数为:
Figure BDA00032670694500001120
对障碍函数
Figure BDA00032670694500001121
重新中心化,得到:
Figure BDA00032670694500001122
其中,如果
Figure BDA0003267069450000121
否则,选择
Figure BDA0003267069450000122
在其中一个实施例中,还包括:根据第二障碍函数构造值函数网络;值函数网络为:
Figure BDA0003267069450000123
其中,
Figure BDA0003267069450000124
Figure BDA0003267069450000125
是权值矩阵,
Figure BDA0003267069450000126
是基函数向量,Wc=(Wc1,Wc2),
Figure BDA00032670694500001216
在其中一个实施例中,还包括:在机器人控制过程中的任意时刻k,根据k+1,…,k+L预测时刻的代价函数的累加和k+L+1预测时刻的值函数网络,得到多步策略评估的参考代价函数;参考代价函数为:
Figure BDA0003267069450000127
在其中一个实施例中,还包括:根据值函数网络的值和参考代价函数的值,得到第一逼近误差为:
Figure BDA0003267069450000128
通过最小化
Figure BDA0003267069450000129
得到值函数权值矩阵的值函数权值更新律为:
Figure BDA00032670694500001210
其中,γc是预设的更新律。
在其中一个实施例中,还包括:根据预控制量和第一障碍函数以及第二障碍函数构造控制策略逼近网络;控制策略逼近网络为:
Figure BDA00032670694500001211
其中
Figure BDA00032670694500001212
Figure BDA00032670694500001213
是权值矩阵,
Figure BDA00032670694500001214
是基函数向量,
Figure BDA00032670694500001215
Figure BDA0003267069450000131
在其中一个实施例中,还包括:定义合成控制量为:
Figure BDA0003267069450000132
获取预先定义的合成控制量期望值为:
Figure BDA0003267069450000133
其中
Figure BDA0003267069450000134
Figure BDA0003267069450000135
表示为对变量u的偏导,f(x,u)为机器人动力学模型xk+1=f(xk,uk)的模型函数;
根据合成控制量和合成控制量期望,得到第二逼近误差为:
Figure BDA0003267069450000136
通过最小化第二逼近误差的欧几里得范数δa,k=||εa,k||2,得到控制策略权值矩阵的控制策略权值更新律为:
Figure BDA0003267069450000137
Figure BDA0003267069450000138
其中,γa是预设的更新律。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图2所示,提供了一种基于模型预测的机器人控制装置,包括:代价函数和控制策略构建模块202、值函数网络构建模块204、参考代价函数构建模块206、值函数权值更新律确定模块208、控制策略逼近网络构建模块210、控制策略权值更新律确定模块212和机器人控制量确定模块214,其中:
代价函数和控制策略构建模块202,用于获取机器人的控制约束信息和状态约束信息,根据控制约束信息得到第一障碍函数,根据状态约束信息得到第二障碍函数,根据第一障碍函数和第二障碍函数构建机器人安全相关的代价函数和控制策略结构;控制策略结构中还包括引入的预控制量;
值函数网络构建模块204,用于根据第二障碍函数构造值函数网络;值函数网络中包括值函数权值矩阵;
参考代价函数构建模块206,用于在机器人控制过程中的任意时刻k,根据k+1,…,k+L预测时刻的代价函数的累加和k+L+1预测时刻的值函数网络,得到多步策略评估的参考代价函数;
值函数权值更新律确定模块208,用于根据值函数网络的值和参考代价函数的值,得到第一逼近误差,通过最小化第一逼近误差的平方,得到值函数权值矩阵的值函数权值更新律;
控制策略逼近网络构建模块210,用于根据预控制量和第一障碍函数以及第二障碍函数构造控制策略逼近网络;控制策略逼近网络包括控制策略权值矩阵;
控制策略权值更新律确定模块212,用于根据控制策略逼近网络的值和第一障碍函数定义一个合成控制量;根据合成控制量和预先定义的合成控制量的期望值,得到第二逼近误差,通过最小化第二逼近误差的欧几里得范数,得到控制策略权值矩阵的控制策略权值更新律;合成控制量的期望值中包括k+1预测时刻的值函数网络对k+1预测时刻的状态量求偏导得到的值;
机器人控制量确定模块214,用于根据控制策略权值更新律和控制策略逼近网络得到机器人在任意k时刻的控制量。
代价函数和控制策略构建模块202还用于获取机器人的控制约束信息和状态约束信息,根据控制约束信息得到第一障碍函数,根据状态约束信息得到第二障碍函数,根据第一障碍函数和第二障碍函数构建机器人安全相关的代价函数和控制策略结构;代价函数为:
Figure BDA0003267069450000141
其中,
Figure BDA0003267069450000151
Figure BDA0003267069450000152
是状态和控制变量,k是离散时间指针,
Figure BDA0003267069450000153
是时变约束集合,
Figure BDA0003267069450000154
Figure BDA0003267069450000155
是连续函数,
Figure BDA0003267069450000156
Figure BDA0003267069450000157
Figure BDA0003267069450000158
是正定对称矩阵,μ>0是可调参数,γ是折扣因子,
Figure BDA00032670694500001524
为障碍函数,
Figure BDA00032670694500001525
为第一障碍函数,
Figure BDA00032670694500001526
为第二障碍函数;
控制策略结构为:
Figure BDA0003267069450000159
其中
Figure BDA00032670694500001510
表示预控制量,是一个新引入的变量,
Figure BDA00032670694500001511
是待优化的变量,
Figure BDA00032670694500001512
表示为对变量υ的偏导,
Figure BDA00032670694500001513
表示为对变量x的偏导,
Figure BDA00032670694500001514
表示由控制约束的第一障碍函数产生的相斥力,当vk越靠近约束集合
Figure BDA00032670694500001527
的边界,所述
Figure BDA00032670694500001515
的值越大;
Figure BDA00032670694500001516
表示由状态约束的所述第二障碍函数产生的相斥力,当xk越靠近约束集合
Figure BDA00032670694500001517
的边界,所述
Figure BDA00032670694500001518
的值越大。
值函数网络构建模块204还用于根据第二障碍函数构造值函数网络;值函数网络为:
Figure BDA00032670694500001519
其中,
Figure BDA00032670694500001520
Figure BDA00032670694500001521
是权值矩阵,
Figure BDA00032670694500001522
是基函数向量,Wc=(Wc1,Wc2),
Figure BDA00032670694500001528
参考代价函数构建模块206还用于在机器人控制过程中的任意时刻k,根据k+1,…,k+L预测时刻的代价函数的累加和k+L+1预测时刻的值函数网络,得到多步策略评估的参考代价函数;参考代价函数为:
Figure BDA00032670694500001523
值函数权值更新律确定模块208还用于根据值函数网络的值和参考代价函数的值,得到第一逼近误差为:
Figure BDA0003267069450000161
通过最小化
Figure BDA0003267069450000162
得到值函数权值矩阵的值函数权值更新律为:
Figure BDA0003267069450000163
其中,γc是预设的更新律。
策略逼近网络构建模块210还用于根据预控制量和第一障碍函数以及第二障碍函数构造控制策略逼近网络;控制策略逼近网络为:
Figure BDA0003267069450000164
其中
Figure BDA0003267069450000165
Figure BDA0003267069450000166
是权值矩阵,
Figure BDA0003267069450000167
是基函数向量,
Figure BDA0003267069450000168
Figure BDA0003267069450000169
策略权值更新律确定模块212还用于定义合成控制量为:
Figure BDA00032670694500001610
获取预先定义的合成控制量期望值为:
Figure BDA00032670694500001611
其中
Figure BDA00032670694500001612
Figure BDA00032670694500001613
表示为对变量u的偏导,f(x,u)为机器人动力学模型xk+1=f(xk,uk)的模型函数;
根据合成控制量和合成控制量期望,得到第二逼近误差为:
Figure BDA00032670694500001614
通过最小化第二逼近误差的欧几里得范数δa,k=||εa,k||2,得到控制策略权值矩阵的控制策略权值更新律为:
Figure BDA0003267069450000171
Figure BDA0003267069450000172
其中,γa是预设的更新律。
关于基于模型预测的机器人控制装置的具体限定可以参见上文中对于基于模型预测的机器人控制方法的限定,在此不再赘述。上述基于模型预测的机器人控制装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于模型预测的机器人控制方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (3)

1.一种基于模型预测的机器人控制方法,其特征在于,所述方法包括:
获取机器人的控制约束信息和状态约束信息,根据所述控制约束信息得到第一障碍函数,根据所述状态约束信息得到第二障碍函数,根据所述第一障碍函数和所述第二障碍函数构建所述机器人安全相关的代价函数和控制策略结构;所述控制策略结构中还包括引入的预控制量;所述代价函数为:
Figure FDA0003648251380000011
其中,
Figure FDA0003648251380000012
Figure FDA0003648251380000013
是状态和控制变量,k是离散时间指针,
Figure FDA0003648251380000014
是时变约束集合,
Figure FDA0003648251380000015
Figure FDA0003648251380000016
是连续函数,
Figure FDA0003648251380000017
Figure FDA0003648251380000018
Figure FDA0003648251380000019
是正定对称矩阵,μ>是可调参数,γ是折扣因子,
Figure FDA00036482513800000110
为障碍函数,
Figure FDA00036482513800000111
为所述第一障碍函数,
Figure FDA00036482513800000112
为所述第二障碍函数;
所述控制策略结构为:
Figure FDA00036482513800000113
其中
Figure FDA00036482513800000114
表示所述预控制量,是一个新引入的变量,
Figure FDA00036482513800000115
是待优化的变量,
Figure FDA00036482513800000116
表示为对变量υ的偏导,
Figure FDA00036482513800000117
表示为对变量x的偏导,
Figure FDA00036482513800000118
表示由控制约束的所述第一障碍函数产生的相斥力,当vk越靠近约束集合
Figure FDA00036482513800000119
的边界,所述
Figure FDA00036482513800000120
的值越大;
Figure FDA00036482513800000121
表示由状态约束的所述第二障碍函数产生的相斥力,当xk越靠近约束集合
Figure FDA00036482513800000122
的边界,所述
Figure FDA00036482513800000123
的值越大;所述障碍函数
Figure FDA00036482513800000124
的定义为:
针对一个约束集合
Figure FDA00036482513800000125
障碍函数为:
Figure FDA00036482513800000126
对所述障碍函数
Figure FDA00036482513800000127
重新中心化,得到:
Figure FDA00036482513800000128
其中,如果
Figure FDA0003648251380000021
zc=0,否则,选择
Figure FDA0003648251380000022
根据所述第二障碍函数构造值函数网络;所述值函数网络中包括值函数权值矩阵;所述值函数网络为:
Figure FDA0003648251380000023
其中,
Figure FDA0003648251380000024
Figure FDA0003648251380000025
是权值矩阵,
Figure FDA0003648251380000026
是基函数向量,Wc=(Wc1,Wc2),
Figure FDA0003648251380000027
在机器人控制过程中的任意时刻k,根据k+1,…,k+L预测时刻的所述代价函数的累加和k+K+1预测时刻的所述值函数网络,得到多步策略评估的参考代价函数;所述参考代价函数为:
Figure FDA0003648251380000028
根据所述值函数网络的值和所述参考代价函数的值,得到第一逼近误差为:
Figure FDA0003648251380000029
通过最小化
Figure FDA00036482513800000210
得到所述值函数权值矩阵的值函数权值更新律为:
Figure FDA00036482513800000211
其中,γc是预设的更新律;
根据所述预控制量和所述第一障碍函数以及所述第二障碍函数构造控制策略逼近网络;所述控制策略逼近网络包括控制策略权值矩阵;所述控制策略逼近网络为:
Figure FDA00036482513800000212
其中
Figure FDA00036482513800000213
是权值矩阵,
Figure FDA00036482513800000214
是基函数向量,
Figure FDA00036482513800000215
Figure FDA0003648251380000031
定义合成控制量为:
Figure FDA0003648251380000032
所述合成控制量的期望值中包括k+1时刻的值函数网络对k+1时刻的状态量求偏导得到的值;
获取预先定义的合成控制量期望值为:
Figure FDA0003648251380000033
其中
Figure FDA0003648251380000034
Figure FDA0003648251380000035
表示为对变量u的偏导,f(x,u)为机器人动力学模型xk+1=f(xk,uk)的模型函数;
根据所述合成控制量和所述合成控制量期望,得到第二逼近误差为:
Figure FDA0003648251380000036
通过最小化所述第二逼近误差的欧几里得范数δa,k=||εa,k||2,得到所述控制策略权值矩阵的控制策略权值更新律为:
Figure FDA0003648251380000037
Figure FDA0003648251380000038
其中,γa是预设的更新律;
根据所述控制策略权值更新律和所述控制策略逼近网络得到机器人在任意k时刻的控制量。
2.一种基于模型预测的机器人控制装置,其特征在于,所述装置包括:
代价函数和控制策略构建模块,用于获取机器人的控制约束信息和状态约束信息,根据所述控制约束信息得到第一障碍函数,根据所述状态约束信息得到第二障碍函数,根据所述第一障碍函数和所述第二障碍函数构建所述机器人安全相关的代价函数和控制策略结构;所述控制策略结构中还包括引入的预控制量;所述代价函数为:
Figure FDA0003648251380000041
其中,
Figure FDA0003648251380000042
Figure FDA0003648251380000043
是状态和控制变量,k是离散时间指针,
Figure FDA0003648251380000044
是时变约束集合,
Figure FDA0003648251380000045
Figure FDA0003648251380000046
是连续函数,
Figure FDA0003648251380000047
Figure FDA0003648251380000048
Figure FDA0003648251380000049
是正定对称矩阵,μ>0是可调参数,γ是折扣因子,
Figure FDA00036482513800000410
为障碍函数,
Figure FDA00036482513800000411
为所述第一障碍函数,
Figure FDA00036482513800000412
为所述第二障碍函数;
所述控制策略结构为:
Figure FDA00036482513800000413
其中
Figure FDA00036482513800000414
表示所述预控制量,是一个新引入的变量,
Figure FDA00036482513800000415
是待优化的变量,
Figure FDA00036482513800000416
表示为对变量υ的偏导,
Figure FDA00036482513800000417
表示为对变量x的偏导,
Figure FDA00036482513800000418
表示由控制约束的所述第一障碍函数产生的相斥力,当vk越靠近约束集合
Figure FDA00036482513800000419
的边界,所述
Figure FDA00036482513800000420
的值越大;
Figure FDA00036482513800000421
表示由状态约束的所述第二障碍函数产生的相斥力,当xk越靠近约束集合
Figure FDA00036482513800000422
的边界,所述
Figure FDA00036482513800000423
的值越大;所述障碍函数
Figure FDA00036482513800000424
的定义为:
针对一个约束集合
Figure FDA00036482513800000425
障碍函数为:
Figure FDA00036482513800000426
对所述障碍函数
Figure FDA00036482513800000427
重新中心化,得到:
Figure FDA00036482513800000428
其中,如果
Figure FDA00036482513800000429
zc=0,否则,选择
Figure FDA00036482513800000430
值函数网络构建模块,用于根据所述第二障碍函数构造值函数网络;所述值函数网络中包括值函数权值矩阵;所述值函数网络为:
Figure FDA00036482513800000431
其中,
Figure FDA0003648251380000051
Figure FDA0003648251380000052
是权值矩阵,
Figure FDA0003648251380000053
是基函数向量,Wc=(Wc1,Wc2),
Figure FDA0003648251380000054
参考代价函数构建模块,用于在机器人控制过程中的任意时刻k,根据k+1,…,k+L预测时刻的所述代价函数的累加和k+L+1预测时刻的所述值函数网络,得到多步策略评估的参考代价函数;所述参考代价函数为:
Figure FDA0003648251380000055
值函数权值更新律确定模块,用于根据所述值函数网络的值和所述参考代价函数的值,得到第一逼近误差为:
Figure FDA0003648251380000056
通过最小化
Figure FDA0003648251380000057
得到所述值函数权值矩阵的值函数权值更新律为:
Figure FDA0003648251380000058
其中,γc是预设的更新律;
控制策略逼近网络构建模块,用于根据所述预控制量和所述第一障碍函数以及所述第二障碍函数构造控制策略逼近网络;所述控制策略逼近网络包括控制策略权值矩阵;所述控制策略逼近网络为:
Figure FDA0003648251380000059
其中
Figure FDA00036482513800000510
是权值矩阵,
Figure FDA00036482513800000511
是基函数向量,
Figure FDA00036482513800000512
Figure FDA00036482513800000513
控制策略权值更新律确定模块,用于定义合成控制量为:
Figure FDA00036482513800000514
所述合成控制量的期望值中包括k+1时刻的值函数网络对k+1时刻的状态量求偏导得到的值;
获取预先定义的合成控制量期望值为:
Figure FDA0003648251380000061
其中
Figure FDA0003648251380000062
Figure FDA0003648251380000063
表示为对变量u的偏导,f(x,u)为机器人动力学模型xk+1=f(xk,uk)的模型函数;
根据所述合成控制量和所述合成控制量期望,得到第二逼近误差为:
Figure FDA0003648251380000064
通过最小化所述第二逼近误差的欧几里得范数δa,k=||εa,k||2,得到所述控制策略权值矩阵的控制策略权值更新律为:
Figure FDA0003648251380000065
Figure FDA0003648251380000066
其中,γa是预设的更新律;
机器人控制量确定模块,用于根据所述控制策略权值更新律和所述控制策略逼近网络得到机器人在任意k时刻的控制量。
3.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1所述方法的步骤。
CN202111090098.0A 2021-09-17 2021-09-17 基于模型预测的机器人控制方法、装置和计算机设备 Active CN113805483B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111090098.0A CN113805483B (zh) 2021-09-17 2021-09-17 基于模型预测的机器人控制方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111090098.0A CN113805483B (zh) 2021-09-17 2021-09-17 基于模型预测的机器人控制方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
CN113805483A CN113805483A (zh) 2021-12-17
CN113805483B true CN113805483B (zh) 2022-07-12

Family

ID=78895649

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111090098.0A Active CN113805483B (zh) 2021-09-17 2021-09-17 基于模型预测的机器人控制方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN113805483B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114326438B (zh) * 2021-12-30 2023-12-19 北京理工大学 基于控制障碍函数的安全强化学习四旋翼控制系统及方法
CN114610040A (zh) * 2022-04-02 2022-06-10 天津大学 一种应用于无人操作系统的自主避障学习控制方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110161865A (zh) * 2019-06-13 2019-08-23 吉林大学 一种基于非线性模型预测控制的智能车换道轨迹规划方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104898659B (zh) * 2015-03-11 2017-08-11 北京理工大学 一种基于模型预测的人机协同控制方法
CN107357168B (zh) * 2017-06-01 2019-12-31 同济大学 一种基于机会约束模型预测控制的无人车避障方法
CN107861508B (zh) * 2017-10-20 2021-04-20 纳恩博(北京)科技有限公司 一种移动机器人局部运动规划方法及装置
US11099575B2 (en) * 2018-01-30 2021-08-24 Brain Corporation Systems and methods for precise navigation of autonomous devices
JP6992719B2 (ja) * 2018-09-27 2022-01-13 オムロン株式会社 制御装置
CN110647042B (zh) * 2019-11-11 2022-04-26 中国人民解放军国防科技大学 一种基于数据驱动的机器人鲁棒学习预测控制方法
CN112558483B (zh) * 2020-12-29 2023-05-16 北京电子工程总体研究所 一种基于模型预测控制的编队控制方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110161865A (zh) * 2019-06-13 2019-08-23 吉林大学 一种基于非线性模型预测控制的智能车换道轨迹规划方法

Also Published As

Publication number Publication date
CN113805483A (zh) 2021-12-17

Similar Documents

Publication Publication Date Title
CN113805483B (zh) 基于模型预测的机器人控制方法、装置和计算机设备
US8452423B2 (en) Methods and systems for the design and implementation of optimal multivariable model predictive controllers for fast-sampling constrained dynamic systems
CN113534669B (zh) 基于数据驱动的无人车控制方法、装置和计算机设备
Wu et al. Adaptive fuzzy control for perturbed strict-feedback nonlinear systems with predefined tracking accuracy
CN112987577B (zh) 一种无人车数据驱动自适应控制方法和装置
CN113759724B (zh) 基于数据驱动的机器人控制方法、装置和计算机设备
US20210003973A1 (en) System and Method for Control Constrained Operation of Machine with Partially Unmodeled Dynamics Using Lipschitz Constant
Peng et al. A novel fast model predictive control with actuator saturation for large-scale structures
CN102314533B (zh) 将计算出的曲线拟合到目标曲线的方法和系统
Yi et al. Adaptive fuzzy output feedback control for nonlinear nonstrict-feedback time-delay systems with full state constraints
CN113495531B (zh) 数控模型的速度控制方法、装置、计算机设备和存储介质
CN114999182A (zh) 基于lstm回馈机制的车流量预测方法、装置及设备
CN110824496B (zh) 运动估计方法、装置、计算机设备和存储介质
CN112230679B (zh) 基于延时的群组耦合系统协同控制方法和装置
US6738688B2 (en) Method of predicting carrying time in automatic warehouse system
Emam et al. Sensitivity updates for linear-quadratic optimization problems in multi-step model predictive control
CN115598979A (zh) 一种液压系统的模型参数辨识方法、装置及液压工程机械
CN113805587A (zh) 多无人车分布式编队控制方法、装置和设备
CN114670871A (zh) 一种自动驾驶车辆的预测控制方法和装置
CN114721272A (zh) 轨迹跟踪控制方法、装置、设备与计算机可读存储介质
Zietkiewicz Non-minimum phase properties and feedback linearization control of nonlinear chemical reaction
CN111125809A (zh) 建筑钢柱生成方法、装置、计算机设备和存储介质
Shokry et al. Dynamic optimization of batch processes under uncertainty via meta-multiparametric approach
Katz et al. Model approximation in multiparametric optimization and control–a computational study
CN112989499A (zh) 一种无人车数据驱动控制方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant