CN113759724B - 基于数据驱动的机器人控制方法、装置和计算机设备 - Google Patents
基于数据驱动的机器人控制方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN113759724B CN113759724B CN202111090060.3A CN202111090060A CN113759724B CN 113759724 B CN113759724 B CN 113759724B CN 202111090060 A CN202111090060 A CN 202111090060A CN 113759724 B CN113759724 B CN 113759724B
- Authority
- CN
- China
- Prior art keywords
- function
- control strategy
- control
- value
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000011217 control strategy Methods 0.000 claims abstract description 176
- 238000011156 evaluation Methods 0.000 claims abstract description 17
- 230000008569 process Effects 0.000 claims abstract description 16
- 230000006870 function Effects 0.000 claims description 231
- 239000011159 matrix material Substances 0.000 claims description 60
- 238000012549 training Methods 0.000 claims description 51
- 230000004888 barrier function Effects 0.000 claims description 39
- 238000010276 construction Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 abstract description 3
- 230000000875 corresponding effect Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 4
- 230000001276 controlling effect Effects 0.000 description 3
- 230000002787 reinforcement Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
- Manipulator (AREA)
Abstract
本申请涉及一种基于数据驱动的机器人控制方法、装置、计算机设备和存储介质。所述方法包括:通过表示机器人状态约束的障碍函数构建机器人安全相关的代价函数和控制策略结构,构造值函数网络,在机器人控制过程中的任意时刻k,根据k时刻的所述代价函数和k+1预测时刻的所述值函数网络,得到策略评估的参考代价函数;构造控制策略逼近网络,根据获取的多组数据对序列,得到值函数更新律和控制策略权值更新律,对机器人进行控制。本发明提出了一种基于障碍函数的控制策略可实现最优性和安全性的平衡,算法不需要模型信息,只需要事先采集数据对信息,同时,采用策略评估的方法对策略的安全性进行评估,可处理状态约束。
Description
技术领域
本申请涉及机器人控制领域,特别是涉及一种基于数据驱动的机器人控制方法、装置、计算机设备和存储介质。
背景技术
随着机器人技术的发展,机器人在服务和工业等领域有了越来越多的应用。机器人的动力学是高度非线性的,而且多数机器人的控制需要考虑安全约束,例如机器人需要考虑安全避碰,机械手需要在受限工作区域工作。因此,在设计控制器时不仅要保证最优的控制性能还需要满足安全约束的要求。基于数值求解的模型预测控制能够满足上述控制要求,但需要在线实时求解,在线计算量大,很难实现高频率实时部署。目前比较流行的基于策略优化的方法例如强化学习方法,在计算效率方面具有明显的优势。但是强化学习需要通过试错实现策略优化,很难满足安全约束。因此,现有的机器人学习控制方法亟需解决安全性无法保证的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高机器人控制安全性的基于数据驱动的机器人控制方法、装置、计算机设备和存储介质。
一种基于数据驱动的机器人控制方法,所述方法包括:
离线获取多组数据对序列,每组所述数据对序列中包括两个相邻时间序列的控制量和状态量信息;
在线训练时,在线获取机器人的状态约束信息,离线训练时,获取离线数据中无人车的状态约束信息,根据所述状态约束信息得到障碍函数,根据所述障碍函数构建机器人安全相关的代价函数和控制策略结构;所述控制策略结构中还包括引入的预控制量;
根据所述障碍函数构造值函数网络;所述值函数网络中包括值函数权值矩阵;
在机器人控制过程中的任意时刻k,根据k时刻的所述代价函数和k+1预测时刻的所述值函数网络,得到策略评估的参考代价函数;
根据所述多组数据对序列,令每组数据对对应的值函数网络的值与所述参考代价函数相等,得到所述值函数权值矩阵的值函数更新律;
根据所述预控制量和所述障碍函数构造控制策略逼近网络;所述控制策略逼近网络包括控制策略权值矩阵;
根据所述多组数据对,根据所述数据对信息计算所述控制策略逼近网络对控制策略的梯度的平均值,得到所述控制策略权值矩阵的控制策略权值更新律;所述控制量的期望值中包括k+1时刻的值函数网络对k+1时刻的状态量求偏导得到的值;
在线训练在线部署时,根据每个时刻更新的控制策略权值更新律和控制策略逼近网络得到无人车在任意k时刻的控制量,先离线训练后部署时,根据离线训练完成后得到的控制策略权值更新律和控制策略逼近网络进行无人车的控制。
在其中一个实施例中,还包括:获取机器人的状态约束信息,根据所述状态约束信息得到障碍函数,根据所述障碍函数构建机器人安全相关的代价函数和控制策略结构;所述代价函数为:
其中,和/>是状态和控制变量,k是离散时间指针,是约束集合,/>是连续函数,和是正定对称矩阵,μ>0是可调参数,γ是折扣因子,/>为所述障碍函数;
所述控制策略结构为:
其中表示所述预控制量,是一个新引入的变量,/>是待优化的变量,/>表示为对变量x的偏导,/>表示由状态约束的障碍函数产生的相斥力,当xk越靠近约束集合/>的边界,所述/>的值越大。
在其中一个实施例中,还包括:针对一个约束集合障碍函数为:
对所述障碍函数重新中心化,得到:
其中,如果zc=0,否则,选择/>
在其中一个实施例中,还包括:根据所述障碍函数构造值函数网络;所述值函数网络为:
其中,和/>是权值矩阵,/>是基函数向量,Wc=(Wc1,Wc2),/>
在其中一个实施例中,还包括:在无人车控制过程中的任意时刻k,根据k时刻的所述代价函数和k+1预测时刻的所述值函数网络,得到策略评估的参考代价函数;所述参考代价函数为:
在其中一个实施例中,还包括:从所述多组数据对序列中随机选择N组,得到数据对序列信息为:
令可以得到:
定义A=[a1…aN],B=[b1…bN],得到所述值函数权值矩阵的值函数更新律为:
其中,αc>0,γc>0,为预设的更新律。
在其中一个实施例中,还包括:根据所述预控制量和所述障碍函数构造控制策略逼近网络,所述控制策略逼近网络为:
其中,是权值矩阵,/>是基函数向量,
在其中一个实施例中,还包括:从所述多组数据对中随机选择N组,得到数据对信息为:
根据所述数据对信息计算所述控制策略逼近网络对控制策略的梯度的平均值:
得到所述控制策略权值矩阵的控制策略权值更新律为:
其中,αa>0,γa>0,为预设的更新律。
一种基于数据驱动的机器人控制装置,所述装置包括:
数据对序列获取模块,用于离线获取多组数据对序列,每组所述数据对序列中包括两个相邻时间序列的控制量和状态量信息;
代价函数和控制策略构建模块,用于在线训练时,在线获取机器人的状态约束信息,离线训练时,获取离线数据中无人车的状态约束信息,根据所述状态约束信息得到障碍函数,根据所述障碍函数构建机器人安全相关的代价函数和控制策略结构;所述控制策略结构中还包括引入的预控制量;
值函数网络构建模块,用于根据所述障碍函数构造值函数网络;所述值函数网络中包括值函数权值矩阵;
参考代价函数构建模块,用于在机器人控制过程中的任意时刻k,根据k时刻的所述代价函数和k+1预测时刻的所述值函数网络,得到策略评估的参考代价函数;
值函数权值更新律确定模块,用于根据所述多组数据对序列,令每组数据对对应的值函数网络的值与所述参考代价函数相等,得到所述值函数权值矩阵的值函数更新律;
控制策略逼近网络构建模块,用于根据所述预控制量和所述障碍函数构造控制策略逼近网络;所述控制策略逼近网络包括控制策略权值矩阵;
控制策略权值更新律确定模块,用于根据所述多组数据对序列,根据所述数据对信息计算所述控制策略逼近网络对控制策略的梯度的平均值,得到所述控制策略权值矩阵的控制策略权值更新律;所述控制量的期望值中包括k+1时刻的值函数网络对k+1时刻的状态量求偏导得到的值;
机器人控制量确定模块,在线训练在线部署时,根据每个时刻更新的控制策略权值更新律和控制策略逼近网络得到无人车在任意k时刻的控制量,先离线训练后部署时,根据离线训练完成后得到的控制策略权值更新律和控制策略逼近网络进行无人车的控制。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
离线获取多组数据对序列,每组所述数据对序列中包括两个相邻时间序列的控制量和状态量信息;
在线训练时,在线获取机器人的状态约束信息,离线训练时,获取离线数据中无人车的状态约束信息,根据所述状态约束信息得到障碍函数,根据所述障碍函数构建机器人安全相关的代价函数和控制策略结构;所述控制策略结构中还包括引入的预控制量;
根据所述障碍函数构造值函数网络;所述值函数网络中包括值函数权值矩阵;
在机器人控制过程中的任意时刻k,根据k时刻的所述代价函数和k+1预测时刻的所述值函数网络,得到策略评估的参考代价函数;
根据所述多组数据对序列,令每组数据对对应的值函数网络的值与所述参考代价函数相等,得到所述值函数权值矩阵的值函数更新律;
根据所述预控制量和所述障碍函数构造控制策略逼近网络;所述控制策略逼近网络包括控制策略权值矩阵;
根据所述多组数据对,根据所述数据对信息计算所述控制策略逼近网络对控制策略的梯度的平均值,得到所述控制策略权值矩阵的控制策略权值更新律;所述控制量的期望值中包括k+1时刻的值函数网络对k+1时刻的状态量求偏导得到的值;
在线训练在线部署时,根据每个时刻更新的控制策略权值更新律和控制策略逼近网络得到无人车在任意k时刻的控制量,先离线训练后部署时,根据离线训练完成后得到的控制策略权值更新律和控制策略逼近网络进行无人车的控制。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
离线获取多组数据对序列,每组所述数据对序列中包括两个相邻时间序列的控制量和状态量信息;
在线训练时,在线获取机器人的状态约束信息,离线训练时,获取离线数据中无人车的状态约束信息,根据所述状态约束信息得到障碍函数,根据所述障碍函数构建机器人安全相关的代价函数和控制策略结构;所述控制策略结构中还包括引入的预控制量;
根据所述障碍函数构造值函数网络;所述值函数网络中包括值函数权值矩阵;
在机器人控制过程中的任意时刻k,根据k时刻的所述代价函数和k+1预测时刻的所述值函数网络,得到策略评估的参考代价函数;
根据所述多组数据对序列,令每组数据对对应的值函数网络的值与所述参考代价函数相等,得到所述值函数权值矩阵的值函数更新律;
根据所述预控制量和所述障碍函数构造控制策略逼近网络;所述控制策略逼近网络包括控制策略权值矩阵;
根据所述多组数据对,根据所述数据对信息计算所述控制策略逼近网络对控制策略的梯度的平均值,得到所述控制策略权值矩阵的控制策略权值更新律;所述控制量的期望值中包括k+1时刻的值函数网络对k+1时刻的状态量求偏导得到的值;
在线训练在线部署时,根据每个时刻更新的控制策略权值更新律和控制策略逼近网络得到无人车在任意k时刻的控制量,先离线训练后部署时,根据离线训练完成后得到的控制策略权值更新律和控制策略逼近网络进行无人车的控制。
上述基于数据驱动的机器人控制方法、装置、计算机设备和存储介质,通过离线获取多组数据对序列,每组所述数据对序列中包括两个相邻时间序列的控制量和状态量信息,在线训练时,在线获取机器人的状态约束信息,离线训练时,获取离线数据中无人车的状态约束信息,根据状态约束信息得到障碍函数,根据障碍函数构建机器人安全相关的代价函数和控制策略结构;根据障碍函数构造值函数网络,在机器人控制过程中的任意时刻k,根据k时刻的所述代价函数和k+1预测时刻的所述值函数网络,得到策略评估的参考代价函数;根据多组数据对序列,令每组数据对序列对应的值函数网络的值与所述参考代价函数相等,得到值函数权值矩阵的值函数更新律;根据预控制量和障碍函数构造控制策略逼近网络,根据多组数据对序列,根据所述数据对信息计算所述控制策略逼近网络对控制策略的梯度的平均值,得到控制策略权值矩阵的控制策略权值更新律;在线训练在线部署时,根据每个时刻更新的控制策略权值更新律和控制策略逼近网络得到无人车在任意k时刻的控制量,先离线训练后部署时,根据离线训练完成后得到的控制策略权值更新律和控制策略逼近网络进行无人车的控制。本发明提出了一种新型基于障碍函数的控制策略可以实现最优性和安全性的平衡,算法不需要模型信息,只需要事先采集数据对信息即可,同时,对策略的安全性进行评估,使得本发明的控制方法有能力处理状态约束。
附图说明
图1为一个实施例中基于数据驱动的机器人控制方法的流程示意图;
图2为一个实施例中基于数据驱动的机器人控制装置的结构框图;
图3为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种基于数据驱动的机器人控制方法,包括以下步骤:
步骤102,离线获取多组数据对序列,每组数据对序列中包括两个相邻时间序列的控制量和状态量信息。
步骤104,在线训练时,在线获取机器人的状态约束信息,离线训练时,获取离线数据中无人车的状态约束信息,根据状态约束信息得到障碍函数,根据障碍函数构建机器人安全相关的代价函数和控制策略结构。
本发明考虑一个机器人动力学模型:
xk+1=f(xk,uk)
其中,和/>是状态和控制变量,k是离散时间指针,是约束集合,/>是连续函数;其中,/>可以形式化为状态安全约束,例如在轮式机器人中其可以表示为机器人本身的状态约束,也可以表示由避障而形式化的约束。
控制目标是:从初始状态寻找一个控制策略uk=u(xk)能够最小化如下性能指标:
同时需要满足模型约束xk+1=f(xk,uk),γ是折扣因子。
针对上述问题,本发明提出一种安全强化学习方法来实现安全近似最优控制。
控制策略结构中还包括引入的预控制量。预控制量是一个新引入的变量,与当前控制量以及当前控制约束的障碍函数产生的相斥力相关。
步骤106,根据障碍函数构造值函数网络。
值函数网络中包括值函数权值矩阵。
步骤108,在机器人控制过程中的任意时刻k,根据k时刻的代价函数和k+1预测时刻的值函数网络,得到策略评估的参考代价函数。
本发明所处理的约束都为时不变约束。
步骤110,根据多组数据对序列,令每组数据对序列对应的值函数网络的值与参考代价函数相等,得到值函数权值矩阵的值函数更新律。
步骤112,根据预控制量和障碍函数构造控制策略逼近网络。
控制策略逼近网络包括控制策略权值矩阵。
步骤114,根据多组数据对序列,根据数据对信息计算控制策略逼近网络对控制策略的梯度的平均值,得到控制策略权值矩阵的控制策略权值更新律。
控制量的期望值中包括k+1时刻的值函数网络对k+1时刻的状态量求偏导得到的值。
步骤116,在线训练在线部署时,根据每个时刻更新的控制策略权值更新律和控制策略逼近网络得到无人车在任意k时刻的控制量,先离线训练后部署时,根据离线训练完成后得到的控制策略权值更新律和控制策略逼近网络进行无人车的控制。
上述基于数据驱动的机器人控制方法中,上述基于数据驱动的机器人控制方法、装置、计算机设备和存储介质,通过离线获取多组数据对序列,每组数据对序列中包括两个相邻时间序列的控制量和状态量信息,在线训练时,在线获取机器人的状态约束信息,离线训练时,获取离线数据中无人车的状态约束信息,根据状态约束信息得到障碍函数,根据障碍函数构建机器人安全相关的代价函数和控制策略结构;根据障碍函数构造值函数网络,在机器人控制过程中的任意时刻k,根据k时刻的代价函数和k+1预测时刻的值函数网络,得到策略评估的参考代价函数;根据多组数据对序列,令每组数据对序列对应的值函数网络的值与参考代价函数相等,得到值函数权值矩阵的值函数更新律;根据预控制量和障碍函数构造控制策略逼近网络,根据多组数据对序列,根据数据对信息计算控制策略逼近网络对控制策略的梯度的平均值,得到控制策略权值矩阵的控制策略权值更新律;在线训练在线部署时,根据每个时刻更新的控制策略权值更新律和控制策略逼近网络得到无人车在任意k时刻的控制量,先离线训练后部署时,根据离线训练完成后得到的控制策略权值更新律和控制策略逼近网络进行无人车的控制。本发明提出了一种新型基于障碍函数的控制策略可以实现最优性和安全性的平衡,算法不需要模型信息,只需要事先采集数据对信息即可,同时,对策略的安全性进行评估,使得本发明的控制方法有能力处理状态约束。
在其中一个实施例中,还包括:获取机器人的状态约束信息,根据状态约束信息得到障碍函数,根据障碍函数构建机器人安全相关的代价函数和控制策略结构;代价函数为:
其中,和/>是状态和控制变量,k是离散时间指针,是约束集合,/>是连续函数,和是正定对称矩阵,μ>0是可调参数,γ是折扣因子,/>为障碍函数;
控制策略结构为:
其中表示预控制量,是一个新引入的变量,/>是待优化的变量,/>表示为对变量x的偏导,/>表示由状态约束的障碍函数产生的相斥力,当xk越靠近约束集合/>的边界,/>的值越大。
在其中一个实施例中,还包括:针对一个约束集合障碍函数为:
对障碍函数重新中心化,得到:
其中,如果zc=0,否则,选择/>
在其中一个实施例中,还包括:根据障碍函数构造值函数网络;值函数网络为:
其中,和/>是权值矩阵,/>是基函数向量,Wc=(Wc1,Wc2),/>
在其中一个实施例中,还包括:在无人车控制过程中的任意时刻k,根据k时刻的代价函数和k+1预测时刻的值函数网络,得到策略评估的参考代价函数;参考代价函数为:
在其中一个实施例中,还包括:从多组数据对序列中随机选择N组,得到数据对序列信息为:
令可以得到:
定义A=[a1…aN],B=[b1…bN],得到值函数权值矩阵的值函数更新律为:
其中,αc>0,γc>0,为预设的更新律。
在其中一个实施例中,还包括:根据预控制量和障碍函数构造控制策略逼近网络,控制策略逼近网络为:
其中,是权值矩阵,/>是基函数向量,
在其中一个实施例中,还包括:根据预控制量和障碍函数构造控制策略逼近网络,控制策略逼近网络为:
其中,是权值矩阵,/>是基函数向量,
在其中一个实施例中,还包括:从多组数据对中随机选择N组,得到数据对信息为:
根据所述数据对信息计算所述控制策略逼近网络对控制策略的梯度的平均值:
得到控制策略权值矩阵的控制策略权值更新律为:
其中,αa>0,γa>0,为预设的更新律。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图2所示,提供了一种基于数据驱动的机器人控制装置,包括:数据对序列获取模块202、代价函数和控制策略构建模块204、值函数网络构建模块206、参考代价函数构建模块208、值函数权值更新律确定模块210、控制策略逼近网络构建模块212、控制策略权值更新律确定模块214和机器人控制量确定模块216,其中:
数据对序列获取模块202,用于离线获取多组数据对序列,每组数据对序列中包括两个相邻时间序列的控制量和状态量信息;
代价函数和控制策略构建模块204,用于在线训练时,在线获取机器人的状态约束信息,离线训练时,获取离线数据中无人车的状态约束信息,根据状态约束信息得到障碍函数,根据障碍函数构建机器人安全相关的代价函数和控制策略结构;控制策略结构中还包括引入的预控制量;
值函数网络构建模块206,用于根据障碍函数构造值函数网络值函数网络中包括值函数权值矩阵;
参考代价函数构建模块208,用于在机器人控制过程中的任意时刻k,根据k时刻的代价函数和k+1预测时刻的值函数网络,得到策略评估的参考代价函数;
值函数权值更新律确定模块210,用于根据多组数据对序列,令每组数据对对应的值函数网络的值与参考代价函数相等,得到值函数权值矩阵的值函数更新律;
控制策略逼近网络构建模块212,用于根据预控制量和障碍函数构造控制策略逼近网络;控制策略逼近网络包括控制策略权值矩阵;
控制策略权值更新律确定模块214,用于根据多组数据对序列,根据数据对信息计算控制策略逼近网络对控制策略的梯度的平均值,得到控制策略权值矩阵的控制策略权值更新律;控制量的期望值中包括k+1时刻的值函数网络对k+1时刻的状态量求偏导得到的值;
机器人控制量确定模块216,在线训练在线部署时,根据每个时刻更新的控制策略权值更新律和控制策略逼近网络得到无人车在任意k时刻的控制量,先离线训练后部署时,根据离线训练完成后得到的控制策略权值更新律和控制策略逼近网络进行无人车的控制。
代价函数和控制策略构建模块204还用于获取机器人的状态约束信息,根据状态约束信息得到障碍函数,根据障碍函数构建机器人安全相关的代价函数和控制策略结构;代价函数为:
其中,和/>是状态和控制变量,k是离散时间指针,是约束集合,/>是连续函数,和是正定对称矩阵,μ>0是可调参数,γ是折扣因子,/>为障碍函数;
控制策略结构为:
其中表示预控制量,是一个新引入的变量,/>是待优化的变量,/>表示为对变量x的偏导,/>表示由状态约束的障碍函数产生的相斥力,当xk越靠近约束集合/>的边界,/>的值越大。
值函数网络构建模块206还用于根据障碍函数构造值函数网络;值函数网络为:
其中,和/>是权值矩阵,/>是基函数向量,Wc=(Wc1,Wc2),/>
参考代价函数构建模块208还用于在无人车控制过程中的任意时刻k,根据k时刻的所述代价函数和k+1预测时刻的所述值函数网络,得到策略评估的参考代价函数;所述参考代价函数为:
值函数权值更新律确定模块210还用于从多组数据对序列中随机选择N组,得到数据对序列信息为:
令可以得到:
定义A=[a1…aN],B=[b1…bN],得到值函数权值矩阵的值函数更新律为:
其中,αc>0,γc>0,为预设的更新律。
控制策略逼近网络构建模块212还用于根据预控制量和障碍函数构造控制策略逼近网络,控制策略逼近网络为:
其中,是权值矩阵,/>是基函数向量,
控制策略权值更新律确定模块214还用于从多组数据对中随机选择N组,得到数据对信息为:
根据数据对信息计算控制策略逼近网络对控制策略的梯度的平均值:
得到控制策略权值矩阵的控制策略权值更新律为:
其中,αa>0,γa>0,为预设的更新律。
关于基于数据驱动的机器人控制装置的具体限定可以参见上文中对于基于数据驱动的机器人控制方法的限定,在此不再赘述。上述基于数据驱动的机器人控制装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于数据驱动的机器人控制方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (9)
1.一种基于数据驱动的机器人控制方法,其特征在于,所述方法包括:
离线获取多组数据对序列,每组所述数据对序列中包括两个相邻时间序列的控制量和状态量信息;
在线训练时,在线获取机器人的状态约束信息,离线训练时,获取离线数据中无人车的状态约束信息,根据所述状态约束信息得到障碍函数,根据所述障碍函数构建机器人安全相关的代价函数和控制策略结构;所述控制策略结构中还包括引入的预控制量;所述代价函数为:
其中,和/>是状态和控制变量,k是离散时间指针,是约束集合,/>是连续函数, 和是正定对称矩阵,μ>0是可调参数,γ是折扣因子,/>为所述障碍函数;
所述控制策略结构为:
其中表示所述预控制量,是一个新引入的变量,/>是待优化的变量,/>表示为对变量x的偏导,/>表示由状态约束的障碍函数产生的相斥力,当xk越靠近约束集合/>的边界,所述/>的值越大;
根据所述障碍函数构造值函数网络;所述值函数网络中包括值函数权值矩阵;
在机器人控制过程中的任意时刻k,根据k时刻的所述代价函数和k+1预测时刻的所述值函数网络,得到策略评估的参考代价函数;
根据所述多组数据对序列,令每组数据对对应的值函数网络的值与所述参考代价函数相等,得到所述值函数权值矩阵的值函数更新律;
根据所述预控制量和所述障碍函数构造控制策略逼近网络;所述控制策略逼近网络包括控制策略权值矩阵;
根据所述多组数据对,根据所述数据对信息计算所述控制策略逼近网络对控制策略的梯度的平均值,得到所述控制策略权值矩阵的控制策略权值更新律;所述控制量的期望值中包括k+1时刻的值函数网络对k+1时刻的状态量求偏导得到的值;
在线训练在线部署时,根据每个时刻更新的控制策略权值更新律和控制策略逼近网络得到无人车在任意k时刻的控制量,先离线训练后部署时,根据离线训练完成后得到的控制策略权值更新律和控制策略逼近网络进行无人车的控制。
2.根据权利要求1所述的方法,其特征在于,所述障碍函数的定义为:
针对一个约束集合障碍函数为:
对所述障碍函数重新中心化,得到:
其中,如果zc=0,否则,选择/>
3.根据权利要求2所述的方法,其特征在于,根据所述障碍函数构造值函数网络,包括:
根据所述障碍函数构造值函数网络;所述值函数网络为:
其中,和/>是权值矩阵,/>是基函数向量,Wc=(Wc1,Wc2),
4.根据权利要求3所述的方法,其特征在于,在无人车控制过程中的任意时刻k,根据k时刻的所述代价函数和k+1预测时刻的所述值函数网络,得到策略评估的参考代价函数,包括:
在无人车控制过程中的任意时刻k,根据k时刻的所述代价函数和k+1预测时刻的所述值函数网络,得到策略评估的参考代价函数;所述参考代价函数为:
5.根据权利要求4所述的方法,其特征在于,根据所述多组数据对序列,令每组数据对序列对应的值函数网络的值与所述参考代价函数相等,得到所述值函数权值矩阵的值函数更新律,包括:
从所述多组数据对序列中随机选择N组,得到数据对序列信息为:
令可以得到:
定义A=[a1…aN],B=[b1…bN],得到所述值函数权值矩阵的值函数更新律为:
其中,αc>0,γc>0,为预设的更新律。
6.根据权利要求5所述的方法,其特征在于,根据所述预控制量和所述障碍函数构造控制策略逼近网络,包括:
根据所述预控制量和所述障碍函数构造控制策略逼近网络,所述控制策略逼近网络为:
其中,是权值矩阵,/>是基函数向量,
7.根据权利要求6所述的方法,其特征在于,根据所述多组数据对,根据所述数据对信息计算所述控制策略逼近网络对控制策略的梯度的平均值,得到所述控制策略权值矩阵的控制策略权值更新律,包括:
从所述多组数据对中随机选择N组,得到数据对信息为:
根据所述数据对信息计算所述控制策略逼近网络对控制策略的梯度的平均值:
得到所述控制策略权值矩阵的控制策略权值更新律为:
其中,αa>0,γa>0,为预设的更新律。
8.一种基于数据驱动的机器人控制装置,其特征在于,所述装置包括:
数据对序列获取模块,用于离线获取多组数据对序列,每组所述数据对序列中包括两个相邻时间序列的控制量和状态量信息;
代价函数和控制策略构建模块,用于在线训练时,在线获取机器人的状态约束信息,离线训练时,获取离线数据中无人车的状态约束信息,根据所述状态约束信息得到障碍函数,根据所述障碍函数构建机器人安全相关的代价函数和控制策略结构;所述控制策略结构中还包括引入的预控制量;所述代价函数为:
其中,和/>是状态和控制变量,k是离散时间指针,是约束集合,/>是连续函数,和是正定对称矩阵,μ>0是可调参数,γ是折扣因子,/>为所述障碍函数;
所述控制策略结构为:
其中表示所述预控制量,是一个新引入的变量,/>是待优化的变量,/>表示为对变量x的偏导,/>表示由状态约束的障碍函数产生的相斥力,当xk越靠近约束集合/>的边界,所述/>的值越大;
值函数网络构建模块,用于根据所述障碍函数构造值函数网络;所述值函数网络中包括值函数权值矩阵;
参考代价函数构建模块,用于在机器人控制过程中的任意时刻k,根据k时刻的所述代价函数和k+1预测时刻的所述值函数网络,得到策略评估的参考代价函数;
值函数权值更新律确定模块,用于根据所述多组数据对序列,令每组数据对对应的值函数网络的值与所述参考代价函数相等,得到所述值函数权值矩阵的值函数更新律;
控制策略逼近网络构建模块,用于根据所述预控制量和所述障碍函数构造控制策略逼近网络;所述控制策略逼近网络包括控制策略权值矩阵;
控制策略权值更新律确定模块,用于根据所述多组数据对序列,根据所述数据对信息计算所述控制策略逼近网络对控制策略的梯度的平均值,得到所述控制策略权值矩阵的控制策略权值更新律;所述控制量的期望值中包括k+1时刻的值函数网络对k+1时刻的状态量求偏导得到的值;
机器人控制量确定模块,在线训练在线部署时,根据每个时刻更新的控制策略权值更新律和控制策略逼近网络得到无人车在任意k时刻的控制量,先离线训练后部署时,根据离线训练完成后得到的控制策略权值更新律和控制策略逼近网络进行无人车的控制。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111090060.3A CN113759724B (zh) | 2021-09-17 | 2021-09-17 | 基于数据驱动的机器人控制方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111090060.3A CN113759724B (zh) | 2021-09-17 | 2021-09-17 | 基于数据驱动的机器人控制方法、装置和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113759724A CN113759724A (zh) | 2021-12-07 |
CN113759724B true CN113759724B (zh) | 2023-08-15 |
Family
ID=78796132
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111090060.3A Active CN113759724B (zh) | 2021-09-17 | 2021-09-17 | 基于数据驱动的机器人控制方法、装置和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113759724B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114610040A (zh) * | 2022-04-02 | 2022-06-10 | 天津大学 | 一种应用于无人操作系统的自主避障学习控制方法及装置 |
CN115319741B (zh) * | 2022-08-05 | 2023-10-10 | 美的集团(上海)有限公司 | 机器人控制模型的训练方法和机器人控制方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110308650A (zh) * | 2019-06-27 | 2019-10-08 | 广东工业大学 | 一种基于数据驱动的压电陶瓷驱动器控制方法 |
CN110647042A (zh) * | 2019-11-11 | 2020-01-03 | 中国人民解放军国防科技大学 | 一种基于数据驱动的机器人鲁棒学习预测控制方法 |
CN112348113A (zh) * | 2020-11-27 | 2021-02-09 | 腾讯科技(深圳)有限公司 | 离线元强化学习模型的训练方法、装置、设备及存储介质 |
CN112965487A (zh) * | 2021-02-05 | 2021-06-15 | 浙江工业大学 | 基于策略迭代的移动机器人轨迹跟踪控制方法 |
CN112987577A (zh) * | 2021-04-22 | 2021-06-18 | 中国人民解放军国防科技大学 | 一种无人车数据驱动自适应控制方法和装置 |
WO2021152047A1 (en) * | 2020-01-28 | 2021-08-05 | Five AI Limited | Planning in mobile robots |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11106189B2 (en) * | 2019-03-06 | 2021-08-31 | Mitsubishi Electric Research Laboratories, Inc. | System and method for data-driven control of constrained system |
-
2021
- 2021-09-17 CN CN202111090060.3A patent/CN113759724B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110308650A (zh) * | 2019-06-27 | 2019-10-08 | 广东工业大学 | 一种基于数据驱动的压电陶瓷驱动器控制方法 |
CN110647042A (zh) * | 2019-11-11 | 2020-01-03 | 中国人民解放军国防科技大学 | 一种基于数据驱动的机器人鲁棒学习预测控制方法 |
WO2021152047A1 (en) * | 2020-01-28 | 2021-08-05 | Five AI Limited | Planning in mobile robots |
CN112348113A (zh) * | 2020-11-27 | 2021-02-09 | 腾讯科技(深圳)有限公司 | 离线元强化学习模型的训练方法、装置、设备及存储介质 |
CN112965487A (zh) * | 2021-02-05 | 2021-06-15 | 浙江工业大学 | 基于策略迭代的移动机器人轨迹跟踪控制方法 |
CN112987577A (zh) * | 2021-04-22 | 2021-06-18 | 中国人民解放军国防科技大学 | 一种无人车数据驱动自适应控制方法和装置 |
Non-Patent Citations (1)
Title |
---|
蒲俊 ; 马清亮 ; 李远冬 ; 顾凡.基于数据驱动自适应动态规划的输入约束的 非线性系统H∞控制.电光与控制.2019,第26卷(第007期),7. * |
Also Published As
Publication number | Publication date |
---|---|
CN113759724A (zh) | 2021-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111708355B (zh) | 基于强化学习的多无人机动作决策方法和装置 | |
CN113759724B (zh) | 基于数据驱动的机器人控制方法、装置和计算机设备 | |
CN110647042B (zh) | 一种基于数据驱动的机器人鲁棒学习预测控制方法 | |
EP2107439B1 (en) | Method and system for the design and implementation of optimal multivariable model predictive controllers for fast-sampling constrained dynamic systems | |
CN113534669B (zh) | 基于数据驱动的无人车控制方法、装置和计算机设备 | |
US20100049339A1 (en) | Method for the computer-assisted control and/or regulation of a technical system | |
Liu et al. | Multi-kernel online reinforcement learning for path tracking control of intelligent vehicles | |
CN113609786B (zh) | 一种移动机器人导航方法、装置、计算机设备和存储介质 | |
CN113805483B (zh) | 基于模型预测的机器人控制方法、装置和计算机设备 | |
CN112698572A (zh) | 一种基于强化学习的结构振动控制方法、介质及设备 | |
CN112987577B (zh) | 一种无人车数据驱动自适应控制方法和装置 | |
EP3404497B1 (en) | A method and system for providing an optimized control of a complex dynamical system | |
CN112232426A (zh) | 目标检测模型的训练方法、装置、设备及可读存储介质 | |
CN110990135A (zh) | 基于深度迁移学习的Spark作业时间预测方法和装置 | |
CN114999182A (zh) | 基于lstm回馈机制的车流量预测方法、装置及设备 | |
CN110824496B (zh) | 运动估计方法、装置、计算机设备和存储介质 | |
CN114168318A (zh) | 存储释放模型的训练方法、存储释放方法及设备 | |
US20240009841A1 (en) | Dynamic target tracking method, robot and computer-readable storage medium | |
JP2004010349A (ja) | 自動倉庫システムの搬送時間予測方法 | |
CN113805587B (zh) | 多无人车分布式编队控制方法、装置和设备 | |
CN114722581A (zh) | 基于曼哈顿距离的移动状态监测方法、装置、计算机设备 | |
Okabe et al. | Efficient pso-based algorithm for parameter estimation of mckibben pam model | |
CN113609947A (zh) | 运动轨迹预测方法、装置、计算机设备和存储介质 | |
CN113627646A (zh) | 一种基于神经网络的路径规划方法、装置、设备及介质 | |
US20190258922A1 (en) | Model calculation unit and control unit for calculating an rbf model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |