CN113759724B

CN113759724B - 基于数据驱动的机器人控制方法、装置和计算机设备

Info

Publication number: CN113759724B
Application number: CN202111090060.3A
Authority: CN
Inventors: 张兴龙; 徐昕; 谢海斌; 方强; 周星
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-09-17
Filing date: 2021-09-17
Publication date: 2023-08-15
Anticipated expiration: 2041-09-17
Also published as: CN113759724A

Abstract

本申请涉及一种基于数据驱动的机器人控制方法、装置、计算机设备和存储介质。所述方法包括：通过表示机器人状态约束的障碍函数构建机器人安全相关的代价函数和控制策略结构，构造值函数网络，在机器人控制过程中的任意时刻k，根据k时刻的所述代价函数和k+1预测时刻的所述值函数网络，得到策略评估的参考代价函数；构造控制策略逼近网络，根据获取的多组数据对序列，得到值函数更新律和控制策略权值更新律，对机器人进行控制。本发明提出了一种基于障碍函数的控制策略可实现最优性和安全性的平衡，算法不需要模型信息，只需要事先采集数据对信息，同时，采用策略评估的方法对策略的安全性进行评估，可处理状态约束。

Description

基于数据驱动的机器人控制方法、装置和计算机设备

技术领域

本申请涉及机器人控制领域，特别是涉及一种基于数据驱动的机器人控制方法、装置、计算机设备和存储介质。

背景技术

随着机器人技术的发展，机器人在服务和工业等领域有了越来越多的应用。机器人的动力学是高度非线性的，而且多数机器人的控制需要考虑安全约束，例如机器人需要考虑安全避碰，机械手需要在受限工作区域工作。因此，在设计控制器时不仅要保证最优的控制性能还需要满足安全约束的要求。基于数值求解的模型预测控制能够满足上述控制要求，但需要在线实时求解，在线计算量大，很难实现高频率实时部署。目前比较流行的基于策略优化的方法例如强化学习方法，在计算效率方面具有明显的优势。但是强化学习需要通过试错实现策略优化，很难满足安全约束。因此，现有的机器人学习控制方法亟需解决安全性无法保证的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高机器人控制安全性的基于数据驱动的机器人控制方法、装置、计算机设备和存储介质。

一种基于数据驱动的机器人控制方法，所述方法包括：

离线获取多组数据对序列，每组所述数据对序列中包括两个相邻时间序列的控制量和状态量信息；

在线训练时，在线获取机器人的状态约束信息，离线训练时，获取离线数据中无人车的状态约束信息，根据所述状态约束信息得到障碍函数，根据所述障碍函数构建机器人安全相关的代价函数和控制策略结构；所述控制策略结构中还包括引入的预控制量；

根据所述障碍函数构造值函数网络；所述值函数网络中包括值函数权值矩阵；

在机器人控制过程中的任意时刻k，根据k时刻的所述代价函数和k+1预测时刻的所述值函数网络，得到策略评估的参考代价函数；

根据所述多组数据对序列，令每组数据对对应的值函数网络的值与所述参考代价函数相等，得到所述值函数权值矩阵的值函数更新律；

根据所述预控制量和所述障碍函数构造控制策略逼近网络；所述控制策略逼近网络包括控制策略权值矩阵；

根据所述多组数据对，根据所述数据对信息计算所述控制策略逼近网络对控制策略的梯度的平均值，得到所述控制策略权值矩阵的控制策略权值更新律；所述控制量的期望值中包括k+1时刻的值函数网络对k+1时刻的状态量求偏导得到的值；

在线训练在线部署时，根据每个时刻更新的控制策略权值更新律和控制策略逼近网络得到无人车在任意k时刻的控制量，先离线训练后部署时，根据离线训练完成后得到的控制策略权值更新律和控制策略逼近网络进行无人车的控制。

在其中一个实施例中，还包括：获取机器人的状态约束信息，根据所述状态约束信息得到障碍函数，根据所述障碍函数构建机器人安全相关的代价函数和控制策略结构；所述代价函数为：

其中，和/>是状态和控制变量，k是离散时间指针，是约束集合，/>是连续函数，和是正定对称矩阵，μ＞0是可调参数，γ是折扣因子，/>为所述障碍函数；

所述控制策略结构为：

其中表示所述预控制量，是一个新引入的变量，/>是待优化的变量，/>表示为对变量x的偏导，/>表示由状态约束的障碍函数产生的相斥力，当x_k越靠近约束集合/>的边界，所述/>的值越大。

在其中一个实施例中，还包括：针对一个约束集合障碍函数为：

对所述障碍函数重新中心化，得到：

其中，如果z_c＝0，否则，选择/>

在其中一个实施例中，还包括：根据所述障碍函数构造值函数网络；所述值函数网络为：

其中，和/>是权值矩阵，/>是基函数向量，W_c＝(W_c1，W_c2)，/>

在其中一个实施例中，还包括：在无人车控制过程中的任意时刻k，根据k时刻的所述代价函数和k+1预测时刻的所述值函数网络，得到策略评估的参考代价函数；所述参考代价函数为：

在其中一个实施例中，还包括：从所述多组数据对序列中随机选择N组，得到数据对序列信息为：

令可以得到：

定义A＝[a¹…a^N]，B＝[b¹…b^N]，得到所述值函数权值矩阵的值函数更新律为：

其中，α_c＞0，γ_c＞0，为预设的更新律。

在其中一个实施例中，还包括：根据所述预控制量和所述障碍函数构造控制策略逼近网络，所述控制策略逼近网络为：

其中，是权值矩阵，/>是基函数向量，

在其中一个实施例中，还包括：从所述多组数据对中随机选择N组，得到数据对信息为：

根据所述数据对信息计算所述控制策略逼近网络对控制策略的梯度的平均值：

得到所述控制策略权值矩阵的控制策略权值更新律为：

其中，α_a＞0，γ_a＞0，为预设的更新律。

一种基于数据驱动的机器人控制装置，所述装置包括：

数据对序列获取模块，用于离线获取多组数据对序列，每组所述数据对序列中包括两个相邻时间序列的控制量和状态量信息；

代价函数和控制策略构建模块，用于在线训练时，在线获取机器人的状态约束信息，离线训练时，获取离线数据中无人车的状态约束信息，根据所述状态约束信息得到障碍函数，根据所述障碍函数构建机器人安全相关的代价函数和控制策略结构；所述控制策略结构中还包括引入的预控制量；

值函数网络构建模块，用于根据所述障碍函数构造值函数网络；所述值函数网络中包括值函数权值矩阵；

参考代价函数构建模块，用于在机器人控制过程中的任意时刻k，根据k时刻的所述代价函数和k+1预测时刻的所述值函数网络，得到策略评估的参考代价函数；

值函数权值更新律确定模块，用于根据所述多组数据对序列，令每组数据对对应的值函数网络的值与所述参考代价函数相等，得到所述值函数权值矩阵的值函数更新律；

控制策略逼近网络构建模块，用于根据所述预控制量和所述障碍函数构造控制策略逼近网络；所述控制策略逼近网络包括控制策略权值矩阵；

控制策略权值更新律确定模块，用于根据所述多组数据对序列，根据所述数据对信息计算所述控制策略逼近网络对控制策略的梯度的平均值，得到所述控制策略权值矩阵的控制策略权值更新律；所述控制量的期望值中包括k+1时刻的值函数网络对k+1时刻的状态量求偏导得到的值；

机器人控制量确定模块，在线训练在线部署时，根据每个时刻更新的控制策略权值更新律和控制策略逼近网络得到无人车在任意k时刻的控制量，先离线训练后部署时，根据离线训练完成后得到的控制策略权值更新律和控制策略逼近网络进行无人车的控制。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述基于数据驱动的机器人控制方法、装置、计算机设备和存储介质，通过离线获取多组数据对序列，每组所述数据对序列中包括两个相邻时间序列的控制量和状态量信息，在线训练时，在线获取机器人的状态约束信息，离线训练时，获取离线数据中无人车的状态约束信息，根据状态约束信息得到障碍函数，根据障碍函数构建机器人安全相关的代价函数和控制策略结构；根据障碍函数构造值函数网络，在机器人控制过程中的任意时刻k，根据k时刻的所述代价函数和k+1预测时刻的所述值函数网络，得到策略评估的参考代价函数；根据多组数据对序列，令每组数据对序列对应的值函数网络的值与所述参考代价函数相等，得到值函数权值矩阵的值函数更新律；根据预控制量和障碍函数构造控制策略逼近网络，根据多组数据对序列，根据所述数据对信息计算所述控制策略逼近网络对控制策略的梯度的平均值，得到控制策略权值矩阵的控制策略权值更新律；在线训练在线部署时，根据每个时刻更新的控制策略权值更新律和控制策略逼近网络得到无人车在任意k时刻的控制量，先离线训练后部署时，根据离线训练完成后得到的控制策略权值更新律和控制策略逼近网络进行无人车的控制。本发明提出了一种新型基于障碍函数的控制策略可以实现最优性和安全性的平衡，算法不需要模型信息，只需要事先采集数据对信息即可，同时，对策略的安全性进行评估，使得本发明的控制方法有能力处理状态约束。

附图说明

图1为一个实施例中基于数据驱动的机器人控制方法的流程示意图；

图2为一个实施例中基于数据驱动的机器人控制装置的结构框图；

图3为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种基于数据驱动的机器人控制方法，包括以下步骤：

步骤102，离线获取多组数据对序列，每组数据对序列中包括两个相邻时间序列的控制量和状态量信息。

步骤104，在线训练时，在线获取机器人的状态约束信息，离线训练时，获取离线数据中无人车的状态约束信息，根据状态约束信息得到障碍函数，根据障碍函数构建机器人安全相关的代价函数和控制策略结构。

本发明考虑一个机器人动力学模型：

x_k+1＝f(x_k，u_k)

其中，和/>是状态和控制变量，k是离散时间指针，是约束集合，/>是连续函数；其中，/>可以形式化为状态安全约束，例如在轮式机器人中其可以表示为机器人本身的状态约束，也可以表示由避障而形式化的约束。

控制目标是：从初始状态寻找一个控制策略u_k＝u(x_k)能够最小化如下性能指标：

同时需要满足模型约束x_k+1＝f(x_k，u_k)，γ是折扣因子。

针对上述问题，本发明提出一种安全强化学习方法来实现安全近似最优控制。

控制策略结构中还包括引入的预控制量。预控制量是一个新引入的变量，与当前控制量以及当前控制约束的障碍函数产生的相斥力相关。

步骤106，根据障碍函数构造值函数网络。

值函数网络中包括值函数权值矩阵。

步骤108，在机器人控制过程中的任意时刻k，根据k时刻的代价函数和k+1预测时刻的值函数网络，得到策略评估的参考代价函数。

本发明所处理的约束都为时不变约束。

步骤110，根据多组数据对序列，令每组数据对序列对应的值函数网络的值与参考代价函数相等，得到值函数权值矩阵的值函数更新律。

步骤112，根据预控制量和障碍函数构造控制策略逼近网络。

控制策略逼近网络包括控制策略权值矩阵。

步骤114，根据多组数据对序列，根据数据对信息计算控制策略逼近网络对控制策略的梯度的平均值，得到控制策略权值矩阵的控制策略权值更新律。

控制量的期望值中包括k+1时刻的值函数网络对k+1时刻的状态量求偏导得到的值。

步骤116，在线训练在线部署时，根据每个时刻更新的控制策略权值更新律和控制策略逼近网络得到无人车在任意k时刻的控制量，先离线训练后部署时，根据离线训练完成后得到的控制策略权值更新律和控制策略逼近网络进行无人车的控制。

上述基于数据驱动的机器人控制方法中，上述基于数据驱动的机器人控制方法、装置、计算机设备和存储介质，通过离线获取多组数据对序列，每组数据对序列中包括两个相邻时间序列的控制量和状态量信息，在线训练时，在线获取机器人的状态约束信息，离线训练时，获取离线数据中无人车的状态约束信息，根据状态约束信息得到障碍函数，根据障碍函数构建机器人安全相关的代价函数和控制策略结构；根据障碍函数构造值函数网络，在机器人控制过程中的任意时刻k，根据k时刻的代价函数和k+1预测时刻的值函数网络，得到策略评估的参考代价函数；根据多组数据对序列，令每组数据对序列对应的值函数网络的值与参考代价函数相等，得到值函数权值矩阵的值函数更新律；根据预控制量和障碍函数构造控制策略逼近网络，根据多组数据对序列，根据数据对信息计算控制策略逼近网络对控制策略的梯度的平均值，得到控制策略权值矩阵的控制策略权值更新律；在线训练在线部署时，根据每个时刻更新的控制策略权值更新律和控制策略逼近网络得到无人车在任意k时刻的控制量，先离线训练后部署时，根据离线训练完成后得到的控制策略权值更新律和控制策略逼近网络进行无人车的控制。本发明提出了一种新型基于障碍函数的控制策略可以实现最优性和安全性的平衡，算法不需要模型信息，只需要事先采集数据对信息即可，同时，对策略的安全性进行评估，使得本发明的控制方法有能力处理状态约束。

在其中一个实施例中，还包括：获取机器人的状态约束信息，根据状态约束信息得到障碍函数，根据障碍函数构建机器人安全相关的代价函数和控制策略结构；代价函数为：

其中，和/>是状态和控制变量，k是离散时间指针，是约束集合，/>是连续函数，和是正定对称矩阵，μ＞0是可调参数，γ是折扣因子，/>为障碍函数；

控制策略结构为：

其中表示预控制量，是一个新引入的变量，/>是待优化的变量，/>表示为对变量x的偏导，/>表示由状态约束的障碍函数产生的相斥力，当x_k越靠近约束集合/>的边界，/>的值越大。

对障碍函数重新中心化，得到：

其中，如果z_c＝0，否则，选择/>

在其中一个实施例中，还包括：根据障碍函数构造值函数网络；值函数网络为：

其中，和/>是权值矩阵，/>是基函数向量，W_c＝(W_c1，W_c2)，/>

在其中一个实施例中，还包括：在无人车控制过程中的任意时刻k，根据k时刻的代价函数和k+1预测时刻的值函数网络，得到策略评估的参考代价函数；参考代价函数为：

在其中一个实施例中，还包括：从多组数据对序列中随机选择N组，得到数据对序列信息为：

令可以得到：

定义A＝[a¹…a^N]，B＝[b¹…b^N]，得到值函数权值矩阵的值函数更新律为：

其中，α_c＞0，γ_c＞0，为预设的更新律。

在其中一个实施例中，还包括：根据预控制量和障碍函数构造控制策略逼近网络，控制策略逼近网络为：

其中，是权值矩阵，/>是基函数向量，

在其中一个实施例中，还包括：从多组数据对中随机选择N组，得到数据对信息为：

得到控制策略权值矩阵的控制策略权值更新律为：

其中，α_a＞0，γ_a＞0，为预设的更新律。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图2所示，提供了一种基于数据驱动的机器人控制装置，包括：数据对序列获取模块202、代价函数和控制策略构建模块204、值函数网络构建模块206、参考代价函数构建模块208、值函数权值更新律确定模块210、控制策略逼近网络构建模块212、控制策略权值更新律确定模块214和机器人控制量确定模块216，其中：

数据对序列获取模块202，用于离线获取多组数据对序列，每组数据对序列中包括两个相邻时间序列的控制量和状态量信息；

代价函数和控制策略构建模块204，用于在线训练时，在线获取机器人的状态约束信息，离线训练时，获取离线数据中无人车的状态约束信息，根据状态约束信息得到障碍函数，根据障碍函数构建机器人安全相关的代价函数和控制策略结构；控制策略结构中还包括引入的预控制量；

值函数网络构建模块206，用于根据障碍函数构造值函数网络值函数网络中包括值函数权值矩阵；

参考代价函数构建模块208，用于在机器人控制过程中的任意时刻k，根据k时刻的代价函数和k+1预测时刻的值函数网络，得到策略评估的参考代价函数；

值函数权值更新律确定模块210，用于根据多组数据对序列，令每组数据对对应的值函数网络的值与参考代价函数相等，得到值函数权值矩阵的值函数更新律；

控制策略逼近网络构建模块212，用于根据预控制量和障碍函数构造控制策略逼近网络；控制策略逼近网络包括控制策略权值矩阵；

控制策略权值更新律确定模块214，用于根据多组数据对序列，根据数据对信息计算控制策略逼近网络对控制策略的梯度的平均值，得到控制策略权值矩阵的控制策略权值更新律；控制量的期望值中包括k+1时刻的值函数网络对k+1时刻的状态量求偏导得到的值；

机器人控制量确定模块216，在线训练在线部署时，根据每个时刻更新的控制策略权值更新律和控制策略逼近网络得到无人车在任意k时刻的控制量，先离线训练后部署时，根据离线训练完成后得到的控制策略权值更新律和控制策略逼近网络进行无人车的控制。

代价函数和控制策略构建模块204还用于获取机器人的状态约束信息，根据状态约束信息得到障碍函数，根据障碍函数构建机器人安全相关的代价函数和控制策略结构；代价函数为：

控制策略结构为：

值函数网络构建模块206还用于根据障碍函数构造值函数网络；值函数网络为：

其中，和/>是权值矩阵，/>是基函数向量，W_c＝(W_c1，W_c2)，/>

参考代价函数构建模块208还用于在无人车控制过程中的任意时刻k，根据k时刻的所述代价函数和k+1预测时刻的所述值函数网络，得到策略评估的参考代价函数；所述参考代价函数为：

值函数权值更新律确定模块210还用于从多组数据对序列中随机选择N组，得到数据对序列信息为：

令可以得到：

其中，α_c＞0，γ_c＞0，为预设的更新律。

控制策略逼近网络构建模块212还用于根据预控制量和障碍函数构造控制策略逼近网络，控制策略逼近网络为：

其中，是权值矩阵，/>是基函数向量，

控制策略权值更新律确定模块214还用于从多组数据对中随机选择N组，得到数据对信息为：

根据数据对信息计算控制策略逼近网络对控制策略的梯度的平均值：

得到控制策略权值矩阵的控制策略权值更新律为：

其中，α_a＞0，γ_a＞0，为预设的更新律。

关于基于数据驱动的机器人控制装置的具体限定可以参见上文中对于基于数据驱动的机器人控制方法的限定，在此不再赘述。上述基于数据驱动的机器人控制装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于数据驱动的机器人控制方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于数据驱动的机器人控制方法，其特征在于，所述方法包括：

在线训练时，在线获取机器人的状态约束信息，离线训练时，获取离线数据中无人车的状态约束信息，根据所述状态约束信息得到障碍函数，根据所述障碍函数构建机器人安全相关的代价函数和控制策略结构；所述控制策略结构中还包括引入的预控制量；所述代价函数为：

所述控制策略结构为：

其中表示所述预控制量，是一个新引入的变量，/>是待优化的变量，/>表示为对变量x的偏导，/>表示由状态约束的障碍函数产生的相斥力，当x_k越靠近约束集合/>的边界，所述/>的值越大；

2.根据权利要求1所述的方法，其特征在于，所述障碍函数的定义为：

针对一个约束集合障碍函数为：

对所述障碍函数重新中心化，得到：

其中，如果z_c＝0，否则，选择/>

3.根据权利要求2所述的方法，其特征在于，根据所述障碍函数构造值函数网络，包括：

根据所述障碍函数构造值函数网络；所述值函数网络为：

其中，和/>是权值矩阵，/>是基函数向量，W_c＝(W_c1，W_c2),

4.根据权利要求3所述的方法，其特征在于，在无人车控制过程中的任意时刻k，根据k时刻的所述代价函数和k+1预测时刻的所述值函数网络，得到策略评估的参考代价函数，包括：

在无人车控制过程中的任意时刻k，根据k时刻的所述代价函数和k+1预测时刻的所述值函数网络，得到策略评估的参考代价函数；所述参考代价函数为：

5.根据权利要求4所述的方法，其特征在于，根据所述多组数据对序列，令每组数据对序列对应的值函数网络的值与所述参考代价函数相等，得到所述值函数权值矩阵的值函数更新律，包括：

从所述多组数据对序列中随机选择N组，得到数据对序列信息为：

令可以得到：

定义A＝[a¹…a^N],B＝[b¹…b^N],得到所述值函数权值矩阵的值函数更新律为：

其中，α_c＞0，γ_c＞0，为预设的更新律。

6.根据权利要求5所述的方法，其特征在于，根据所述预控制量和所述障碍函数构造控制策略逼近网络，包括：

根据所述预控制量和所述障碍函数构造控制策略逼近网络，所述控制策略逼近网络为：

其中，是权值矩阵，/>是基函数向量，

7.根据权利要求6所述的方法，其特征在于，根据所述多组数据对，根据所述数据对信息计算所述控制策略逼近网络对控制策略的梯度的平均值，得到所述控制策略权值矩阵的控制策略权值更新律，包括：

从所述多组数据对中随机选择N组，得到数据对信息为：

得到所述控制策略权值矩阵的控制策略权值更新律为：

其中，α_a＞0，γ_a＞0，为预设的更新律。

8.一种基于数据驱动的机器人控制装置，其特征在于，所述装置包括：

代价函数和控制策略构建模块，用于在线训练时，在线获取机器人的状态约束信息，离线训练时，获取离线数据中无人车的状态约束信息，根据所述状态约束信息得到障碍函数，根据所述障碍函数构建机器人安全相关的代价函数和控制策略结构；所述控制策略结构中还包括引入的预控制量；所述代价函数为：

所述控制策略结构为：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。