CN113534669B

CN113534669B - 基于数据驱动的无人车控制方法、装置和计算机设备

Info

Publication number: CN113534669B
Application number: CN202111089771.9A
Authority: CN
Inventors: 蒋薇; 张兴龙; 彭耀仟; 徐昕
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-09-17
Filing date: 2021-09-17
Publication date: 2021-11-30
Anticipated expiration: 2041-09-17
Also published as: CN113534669A

Abstract

本申请涉及一种基于数据驱动的无人车控制方法、装置和计算机设备。所述方法包括：通过表示无人车状态约束的障碍函数构建无人车安全相关的代价函数和控制策略结构，构造值函数网络，得到多步策略评估的参考代价函数；构造控制策略逼近网络，根据获取的多组数据对序列，得到值函数更新律和控制策略权值更新律，对无人车进行控制。本发明提出了一种基于障碍函数的控制策略可实现最优性和安全性的平衡，算法不需要模型信息，只需要事先采集数据对信息，同时，采用多步策略评估的方法对策略的安全性进行评估，可处理时变约束，可以边在线训练边部署，也可以先离线训练再部署。

Description

基于数据驱动的无人车控制方法、装置和计算机设备

技术领域

本申请涉及无人车控制领域，特别是涉及一种基于数据驱动的无人车控制方法、装置和计算机设备。

背景技术

随着无人车技术的发展，无人车在服务和工业等领域有了越来越多的应用。无人车的动力学是高度非线性的，而且多数无人车的控制需要考虑安全约束，例如无人车需要考虑安全避碰，机械手需要在受限工作区域工作。因此，在设计控制器时不仅要保证最优的控制性能还需要满足安全约束的要求。基于数值求解的模型预测控制能够满足上述控制要求，但需要在线实时求解，在线计算量大，很难实现高频率实时部署。目前比较流行的基于策略优化的方法例如强化学习方法，在计算效率方面具有明显的优势。但是强化学习需要通过试错实现策略优化，很难满足安全约束。因此，现有的无人车学习控制方法亟需解决安全性无法保证的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高无人车控制安全性的基于数据驱动的无人车控制方法、装置、计算机设备和存储介质。

一种基于数据驱动的无人车控制方法，所述方法包括：

离线获取多组数据对序列，每组所述数据对序列中包括

个相邻时间序列的控制量和状态量；

获取无人车的状态约束信息，根据所述状态约束信息得到障碍函数，根据所述障碍函数构建无人车安全相关的代价函数和控制策略结构；所述控制策略结构中还包括引入的预控制量；

根据所述障碍函数构造值函数网络；所述值函数网络中包括值函数权值矩阵；

在无人车控制过程中的任意时刻

，根据

预测时刻的所述代价函数的累加和

预测时刻的所述值函数网络，得到多步策略评估的参考代价函数；

根据所述多组数据对序列，令每组数据对序列对应的值函数网络的值与参考代价函数的值相等，得到所述值函数权值矩阵的值函数更新律；

根据所述预控制量和所述障碍函数构造控制策略逼近网络；所述控制策略逼近网络包括控制策略权值矩阵；

根据所述多组数据对序列，根据所述数据对信息计算所述控制策略逼近网络对控制策略的梯度的平均值，得到所述控制策略权值矩阵的控制策略权值更新律；所述控制量的期望值中包括

时刻的值函数网络对

时刻的状态量求偏导得到的值；

在线训练在线部署时，根据每个时刻更新的控制策略权值更新律和控制策略逼近网络得到无人车在任意时刻的控制量，先离线训练后部署时，根据离线训练完成后得到的控制策略权值更新律和控制策略逼近网络进行无人车的控制。

在其中一个实施例中，还包括：获取无人车的状态约束信息，根据所述状态约束信息得到障碍函数，根据所述障碍函数构建无人车安全相关的代价函数和控制策略结构；所述代价函数为：

其中，

和

是状态和控制变量，

是离散时间指针，

是时变约束集合，

是连续函数，

，

，

和

是正定对称矩阵，

是可调参数，

是折扣因子，

为所述障碍函数；

所述控制策略结构为：

其中

表示所述预控制量，是一个新引入的变量，

是待优化的变量，

表示为对变量的偏导，

表示由状态约束的障碍函数产生的相斥力，当

越靠近约束集合

的边界，所述

的值越大。

在其中一个实施例中，还包括：针对一个约束集合

，障碍函数为：

对所述障碍函数

重新中心化，得到：

其中，如果

，

，否则，选择

。

在其中一个实施例中，还包括：根据所述障碍函数构造值函数网络；所述值函数网络为：

其中，

和

是权值矩阵，

是基函数向量，

,

。

在其中一个实施例中，还包括：在无人车控制过程中的任意时刻

，根据

预测时刻的所述代价函数的累加和

预测时刻的所述值函数网络，得到多步策略评估的参考代价函数；所述参考代价函数为：

。

在其中一个实施例中，还包括：从所述多组数据对序列中随机选择

组，得到数据对信息为：

令

, 可以得到：

；

定义

,

,得到所述值函数权值矩阵的值函数更新律为：

其中，

，为预设的更新律。

在其中一个实施例中，还包括：根据所述预控制量和所述障碍函数构造控制策略逼近网络，所述控制策略逼近网络为：

其中，

，

是权值矩阵，

是基函数向量，

，

。

组，得到数据对信息为：

；

根据所述数据对信息计算所述控制策略逼近网络对控制策略的梯度的平均值：

得到所述控制策略权值矩阵的控制策略权值更新律为：

其中，

，为预设的更新律。

一种基于数据驱动的无人车控制装置，所述装置包括：

数据对序列获取模块，用于离线获取多组数据对序列，每组所述数据对序列中包括

个相邻时间序列的控制量和状态量；

代价函数和控制策略构建模块，用于获取无人车的状态约束信息，根据所述状态约束信息得到障碍函数，根据所述障碍函数构建无人车安全相关的代价函数和控制策略结构；所述控制策略结构中还包括引入的预控制量；

值函数网络构建模块，用于根据所述障碍函数构造值函数网络；所述值函数网络中包括值函数权值矩阵；

参考代价函数构建模块，用于在无人车控制过程中的任意时刻

，根据

预测时刻的所述代价函数的累加和

值函数权值更新律确定模块，用于根据所述多组数据对序列，令每组数据对序列对应的值函数网络的值与参考代价函数的值相等，得到所述值函数权值矩阵的值函数更新律；

控制策略逼近网络构建模块，用于根据所述预控制量和所述障碍函数构造控制策略逼近网络；所述控制策略逼近网络包括控制策略权值矩阵；

控制策略权值更新律确定模块，用于根据所述多组数据对序列，根据所述数据对信息计算所述控制策略逼近网络对控制策略的梯度的平均值，得到所述控制策略权值矩阵的控制策略权值更新律；所述控制量的期望值中包括

时刻的值函数网络对

时刻的状态量求偏导得到的值；

无人车控制量确定模块，在线训练在线部署时，根据每个时刻更新的控制策略权值更新律和控制策略逼近网络得到无人车在任意

时刻的控制量，先离线训练后部署时，根据离线训练完成后得到的控制策略权值更新律和控制策略逼近网络进行无人车的控制。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

离线获取多组数据对序列，每组所述数据对序列中包括

个相邻时间序列的控制量和状态量；

在无人车控制过程中的任意时刻

，根据

预测时刻的所述代价函数的累加和

时刻的值函数网络对

时刻的状态量求偏导得到的值；

在线训练在线部署时，根据每个时刻更新的控制策略权值更新律和控制策略逼近网络得到无人车在任意

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

离线获取多组数据对序列，每组所述数据对序列中包括

个相邻时间序列的控制量和状态量；

在无人车控制过程中的任意时刻

，根据

预测时刻的所述代价函数的累加和

时刻的值函数网络对

时刻的状态量求偏导得到的值；

上述基于数据驱动的无人车控制方法、装置、计算机设备和存储介质，通过离线获取多组数据对序列，每组数据对序列中包括

个相邻时间序列的控制量和状态量，获取无人车的状态约束信息，根据状态约束信息得到障碍函数，根据障碍函数构建无人车安全相关的代价函数和控制策略结构；根据障碍函数构造值函数网络，在无人车控制过程中的任意时刻

，根据

预测时刻的代价函数的累加和

预测时刻的值函数网络，得到多步策略评估的参考代价函数；根据多组数据对序列，令每组数据对序列对应的值函数网络的值与参考代价函数的值相等，得到值函数权值矩阵的值函数更新律；根据预控制量和障碍函数构造控制策略逼近网络，根据多组数据对序列，根据所述数据对信息计算控制策略逼近网络对控制策略的梯度的平均值，得到控制策略权值矩阵的控制策略权值更新律；在线训练在线部署时，根据每个时刻更新的控制策略权值更新律和控制策略逼近网络得到无人车在任意

时刻的控制量，先离线训练后部署时，根据离线训练完成后得到的控制策略权值更新律和控制策略逼近网络进行无人车的控制。本发明提出了一种新型基于障碍函数的控制策略可以实现最优性和安全性的平衡，算法不需要模型信息，只需要事先采集数据对信息即可，同时，采用多步策略评估的方法对策略的安全性进行评估，使得本发明的控制方法有能力处理时变约束。

附图说明

图1为一个实施例中基于数据驱动的无人车控制方法的流程示意图；

图2为一个实施例中基于数据驱动的无人车控制装置的结构框图；

图3为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种基于数据驱动的无人车控制方法，包括以下步骤：

步骤102，离线获取多组数据对序列，每组数据对序列中包括

个相邻时间序列的控制量和状态量；

步骤104，获取无人车的状态约束信息，根据状态约束信息得到障碍函数，根据障碍函数构建无人车安全相关的代价函数和控制策略结构。

本发明考虑一个机器人动力学模型：

其中，

和

是状态和控制变量，

是离散时间指针，

，是时变约束集合，

是连续函数；其中，

可以形式化为状态安全约束，例如在轮式机器人中其可以表示为机器人本身的状态约束，也可以表示由避障而形式化的约束。

控制目标是：从初始状态

，寻找一个控制策略

能够最小化如下性能指标：

同时需要满足模型约束

,

，

；

是折扣因子。

针对上述问题，本发明提出一种安全强化学习方法来实现安全近似最优控制。

控制策略结构中还包括引入的预控制量。预控制量是一个新引入的变量，与当前控制量以及当前控制约束的障碍函数产生的相斥力相关。

步骤106，根据障碍函数构造值函数网络。

值函数网络中包括值函数权值矩阵。

步骤108，在无人车控制过程中的任意时刻

，根据

预测时刻的代价函数的累加和

预测时刻的值函数网络，得到多步策略评估的参考代价函数。

多步策略评价能够处理时变约束，也就是未来约束变化反映在未来的障碍函数中，被提前评估并用于策略更新。

步骤110，根据多组数据对序列，令每组数据对序列对应的值函数网络的值与参考代价函数的值相等，得到值函数权值矩阵的值函数更新律。

步骤112，根据预控制量和障碍函数构造控制策略逼近网络。

控制策略逼近网络包括控制策略权值矩阵。

步骤114，根据多组数据对序列，根据数据对信息计算控制策略逼近网络对控制策略的梯度的平均值，得到控制策略权值矩阵的控制策略权值更新律。

控制量的期望值中包括

时刻的值函数网络对

时刻的状态量求偏导得到的值。

步骤116，在线训练在线部署时，根据每个时刻更新的控制策略权值更新律和控制策略逼近网络得到无人车在任意时刻

的控制量，先离线训练后部署时，根据离线训练完成后得到的控制策略权值更新律和控制策略逼近网络进行无人车的控制。

上述基于数据驱动的无人车控制方法中，通过离线获取多组数据对序列，每组数据对序列中包括

，根据

预测时刻的代价函数的累加和

预测时刻的值函数网络，得到多步策略评估的参考代价函数；根据多组数据对序列，令每组数据对序列对应的值函数网络的值与参考代价函数的值相等，得到值函数权值矩阵的值函数更新律；根据预控制量和障碍函数构造控制策略逼近网络，根据多组数据对序列，根据数据对信息计算控制策略逼近网络对控制策略的梯度的平均值，得到控制策略权值矩阵的控制策略权值更新律；在线训练在线部署时，根据每个时刻更新的控制策略权值更新律和控制策略逼近网络得到无人车在任意

在其中一个实施例中，还包括：获取无人车的状态约束信息，根据状态约束信息得到障碍函数，根据障碍函数构建无人车安全相关的代价函数和控制策略结构；代价函数为：

其中，

和

是状态和控制变量，

是离散时间指针，

，是时变约束集合，

是连续函数，

，

，

和

是正定对称矩阵，

是可调参数，

是折扣因子，

为障碍函数；

控制策略结构为：

其中

表示预控制量，是一个新引入的变量，

是待优化的变量，

表示为对变量

的偏导，当

越靠近约束集合

的边界，

的值越大。

在其中一个实施例中，还包括：针对一个约束集合

，障碍函数为：

对障碍函数

重新中心化，得到：

其中，如果

，

，否则，选择

。

在其中一个实施例中，还包括：根据障碍函数构造值函数网络；值函数网络为：

其中，

和

是权值矩阵，

是基函数向量，

,

。

，根据

预测时刻的代价函数的累加和

预测时刻的值函数网络，得到多步策略评估的参考代价函数；参考代价函数为：

。

在其中一个实施例中，还包括：从多组数据对序列中随机选择

组，得到数据对信息为：

；

令

, 可以得到：

；

定义

,

,得到值函数权值矩阵的值函数更新律为：

其中，

，为预设的更新律。

在其中一个实施例中，还包括：根据预控制量和障碍函数构造控制策略逼近网络，控制策略逼近网络为：

其中，

，

是权值矩阵，

是基函数向量，

，

。

组，得到数据对信息为：

；

得到控制策略权值矩阵的控制策略权值更新律为：

其中，

，为预设的更新律。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图2所示，提供了一种基于数据驱动的无人车控制装置，包括：数据对序列获取模块202，代价函数和控制策略构建模块204、值函数网络构建模块206、参考代价函数构建模块208、值函数权值更新律确定模块210、控制策略逼近网络构建模块212、控制策略权值更新律确定模块214和无人车控制量确定模块216，其中：

数据对序列获取模块202，用于离线获取多组数据对序列，每组数据对序列中包括

个相邻时间序列的控制量和状态量；

代价函数和控制策略构建模块204，用于获取无人车的状态约束信息，根据状态约束信息得到障碍函数，根据障碍函数构建无人车安全相关的代价函数和控制策略结构；控制策略结构中还包括引入的预控制量；

值函数网络构建模块206，用于根据障碍函数构造值函数网络；值函数网络中包括值函数权值矩阵；

参考代价函数构建模块208，用于在无人车控制过程中的任意时刻

，根据

预测时刻的代价函数的累加和

预测时刻的值函数网络，得到多步策略评估的参考代价函数；

值函数权值更新律确定模块210，用于根据多组数据对序列，令每组数据对序列对应的值函数网络的值与参考代价函数的值相等，得到值函数权值矩阵的值函数更新律；

控制策略逼近网络构建模块212，用于根据预控制量和障碍函数构造控制策略逼近网络；控制策略逼近网络包括控制策略权值矩阵；

控制策略权值更新律确定模块214，用于根据多组数据对序列，根据数据对信息计算控制策略逼近网络对控制策略的梯度的平均值，得到控制策略权值矩阵的控制策略权值更新律；控制量的期望值中包括

时刻的值函数网络对

时刻的状态量求偏导得到的值；

无人车控制量确定模块216，在线训练在线部署时，根据每个时刻更新的控制策略权值更新律和控制策略逼近网络得到无人车在任意

代价函数和控制策略构建模块204还用于获取无人车的状态约束信息，根据状态约束信息得到障碍函数，根据障碍函数构建无人车安全相关的代价函数和控制策略结构；代价函数为：

其中，

和

是状态和控制变量，

是离散时间指针，

是时变约束集合，

是连续函数，

，

，

和

是正定对称矩阵，

是可调参数，

是折扣因子，

为障碍函数；

控制策略结构为：

其中

表示预控制量，是一个新引入的变量，

是待优化的变量，

表示为对变量的偏导，

表示由状态约束的障碍函数产生的相斥力，当

越靠近约束集合

的边界，

的值越大。

值函数网络构建模块206还用于根据障碍函数构造值函数网络；值函数网络为：

其中，

和

是权值矩阵，

是基函数向量，

,

。

参考代价函数构建模块208还用于在无人车控制过程中的任意时刻

，根据

预测时刻的代价函数的累加和

。

值函数权值更新律确定模块210还用于从多组数据对序列中随机选择

组，得到数据对信息为：

；

令

, 可以得到：

；

定义

,

,得到值函数权值矩阵的值函数更新律为：

其中，

，为预设的更新律。

控制策略逼近网络构建模块212还用于根据预控制量和障碍函数构造控制策略逼近网络，控制策略逼近网络为：

其中，

，

是权值矩阵，

是基函数向量，

，

。

控制策略权值更新律确定模块214还用于从多组数据对序列中随机选择

组，得到数据对信息为：

；

得到控制策略权值矩阵的控制策略权值更新律为：

其中，

，为预设的更新律。

关于基于数据驱动的无人车控制装置的具体限定可以参见上文中对于基于数据驱动的无人车控制方法的限定，在此不再赘述。上述基于数据驱动的无人车控制装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于数据驱动的无人车控制方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。