CN113534669B - 基于数据驱动的无人车控制方法、装置和计算机设备 - Google Patents

基于数据驱动的无人车控制方法、装置和计算机设备 Download PDF

Info

Publication number
CN113534669B
CN113534669B CN202111089771.9A CN202111089771A CN113534669B CN 113534669 B CN113534669 B CN 113534669B CN 202111089771 A CN202111089771 A CN 202111089771A CN 113534669 B CN113534669 B CN 113534669B
Authority
CN
China
Prior art keywords
value
control strategy
function
control
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111089771.9A
Other languages
English (en)
Other versions
CN113534669A (zh
Inventor
蒋薇
张兴龙
彭耀仟
徐昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202111089771.9A priority Critical patent/CN113534669B/zh
Publication of CN113534669A publication Critical patent/CN113534669A/zh
Application granted granted Critical
Publication of CN113534669B publication Critical patent/CN113534669B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本申请涉及一种基于数据驱动的无人车控制方法、装置和计算机设备。所述方法包括:通过表示无人车状态约束的障碍函数构建无人车安全相关的代价函数和控制策略结构,构造值函数网络,得到多步策略评估的参考代价函数;构造控制策略逼近网络,根据获取的多组数据对序列,得到值函数更新律和控制策略权值更新律,对无人车进行控制。本发明提出了一种基于障碍函数的控制策略可实现最优性和安全性的平衡,算法不需要模型信息,只需要事先采集数据对信息,同时,采用多步策略评估的方法对策略的安全性进行评估,可处理时变约束,可以边在线训练边部署,也可以先离线训练再部署。

Description

基于数据驱动的无人车控制方法、装置和计算机设备
技术领域
本申请涉及无人车控制领域,特别是涉及一种基于数据驱动的无人车控制方法、装置和计算机设备。
背景技术
随着无人车技术的发展,无人车在服务和工业等领域有了越来越多的应用。无人车的动力学是高度非线性的,而且多数无人车的控制需要考虑安全约束,例如无人车需要考虑安全避碰,机械手需要在受限工作区域工作。因此,在设计控制器时不仅要保证最优的控制性能还需要满足安全约束的要求。基于数值求解的模型预测控制能够满足上述控制要求,但需要在线实时求解,在线计算量大,很难实现高频率实时部署。目前比较流行的基于策略优化的方法例如强化学习方法,在计算效率方面具有明显的优势。但是强化学习需要通过试错实现策略优化,很难满足安全约束。因此,现有的无人车学习控制方法亟需解决安全性无法保证的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高无人车控制安全性的基于数据驱动的无人车控制方法、装置、计算机设备和存储介质。
一种基于数据驱动的无人车控制方法,所述方法包括:
离线获取多组数据对序列,每组所述数据对序列中包括
Figure 517542DEST_PATH_IMAGE001
个相邻时间序列的控制量和状态量;
获取无人车的状态约束信息,根据所述状态约束信息得到障碍函数,根据所述障碍函数构建无人车安全相关的代价函数和控制策略结构;所述控制策略结构中还包括引入的预控制量;
根据所述障碍函数构造值函数网络;所述值函数网络中包括值函数权值矩阵;
在无人车控制过程中的任意时刻
Figure 315733DEST_PATH_IMAGE002
,根据
Figure 249054DEST_PATH_IMAGE003
预测时刻的所述代价函数的累加和
Figure 308146DEST_PATH_IMAGE004
预测时刻的所述值函数网络,得到多步策略评估的参考代价函数;
根据所述多组数据对序列,令每组数据对序列对应的值函数网络的值与参考代价函数的值相等,得到所述值函数权值矩阵的值函数更新律;
根据所述预控制量和所述障碍函数构造控制策略逼近网络;所述控制策略逼近网络包括控制策略权值矩阵;
根据所述多组数据对序列,根据所述数据对信息计算所述控制策略逼近网络对控制策略的梯度的平均值,得到所述控制策略权值矩阵的控制策略权值更新律;所述控制量的期望值中包括
Figure 98248DEST_PATH_IMAGE005
时刻的值函数网络对
Figure 524681DEST_PATH_IMAGE005
时刻的状态量求偏导得到的值;
在线训练在线部署时,根据每个时刻更新的控制策略权值更新律和控制策略逼近网络得到无人车在任意时刻的控制量,先离线训练后部署时,根据离线训练完成后得到的控制策略权值更新律和控制策略逼近网络进行无人车的控制。
在其中一个实施例中,还包括:获取无人车的状态约束信息,根据所述状态约束信息得到障碍函数,根据所述障碍函数构建无人车安全相关的代价函数和控制策略结构;所述代价函数为:
Figure 792851DEST_PATH_IMAGE006
其中,
Figure 50657DEST_PATH_IMAGE007
Figure 136294DEST_PATH_IMAGE008
是状态和控制变量,
Figure 909078DEST_PATH_IMAGE009
是离散时间指针,
Figure 856305DEST_PATH_IMAGE010
是时变约束集合,
Figure 30935DEST_PATH_IMAGE011
是连续函数,
Figure 100522DEST_PATH_IMAGE012
Figure 508673DEST_PATH_IMAGE013
Figure 118646DEST_PATH_IMAGE014
Figure 288727DEST_PATH_IMAGE015
是正定对称矩阵,
Figure 529216DEST_PATH_IMAGE016
是可调参数,
Figure 542171DEST_PATH_IMAGE017
是折扣因子,
Figure 80469DEST_PATH_IMAGE018
为所述障碍函数;
所述控制策略结构为:
Figure 964111DEST_PATH_IMAGE019
其中
Figure 313184DEST_PATH_IMAGE020
表示所述预控制量,是一个新引入的变量,
Figure 282277DEST_PATH_IMAGE021
是待优化的变量,
Figure 358686DEST_PATH_IMAGE022
表示为对变量的偏导,
Figure 565677DEST_PATH_IMAGE023
表示由状态约束的障碍函数产生的相斥力,当
Figure 944705DEST_PATH_IMAGE024
越靠近约束集合
Figure 542040DEST_PATH_IMAGE025
的边界,所述
Figure 500769DEST_PATH_IMAGE026
的值越大。
在其中一个实施例中,还包括:针对一个约束集合
Figure 624582DEST_PATH_IMAGE027
,障碍函数为:
Figure 564726DEST_PATH_IMAGE028
对所述障碍函数
Figure 711673DEST_PATH_IMAGE029
重新中心化,得到:
Figure 5251DEST_PATH_IMAGE030
其中,如果
Figure 858938DEST_PATH_IMAGE031
Figure 845348DEST_PATH_IMAGE032
,否则,选择
Figure 479592DEST_PATH_IMAGE033
在其中一个实施例中,还包括:根据所述障碍函数构造值函数网络;所述值函数网络为:
Figure 701495DEST_PATH_IMAGE034
其中,
Figure 534321DEST_PATH_IMAGE035
Figure 894896DEST_PATH_IMAGE036
是权值矩阵,
Figure 954119DEST_PATH_IMAGE037
是基函数向量,
Figure 589499DEST_PATH_IMAGE038
,
Figure 480095DEST_PATH_IMAGE039
在其中一个实施例中,还包括:在无人车控制过程中的任意时刻
Figure 932942DEST_PATH_IMAGE040
,根据
Figure 338515DEST_PATH_IMAGE041
预测时刻的所述代价函数的累加和
Figure 918532DEST_PATH_IMAGE042
预测时刻的所述值函数网络,得到多步策略评估的参考代价函数;所述参考代价函数为:
Figure 460372DEST_PATH_IMAGE043
在其中一个实施例中,还包括:从所述多组数据对序列中随机选择
Figure 162749DEST_PATH_IMAGE044
组,得到数据对信息为:
Figure 914673DEST_PATH_IMAGE045
Figure 157436DEST_PATH_IMAGE046
, 可以得到:
Figure 22623DEST_PATH_IMAGE047
定义
Figure 568005DEST_PATH_IMAGE048
,
Figure 948171DEST_PATH_IMAGE049
,得到所述值函数权值矩阵的值函数更新律为:
Figure 853679DEST_PATH_IMAGE050
其中,
Figure 573373DEST_PATH_IMAGE051
,为预设的更新律。
在其中一个实施例中,还包括:根据所述预控制量和所述障碍函数构造控制策略逼近网络,所述控制策略逼近网络为:
Figure 414291DEST_PATH_IMAGE052
其中,
Figure 157119DEST_PATH_IMAGE053
Figure 944946DEST_PATH_IMAGE054
是权值矩阵,
Figure 315885DEST_PATH_IMAGE055
是基函数向量,
Figure 717916DEST_PATH_IMAGE056
Figure 541515DEST_PATH_IMAGE057
在其中一个实施例中,还包括:从所述多组数据对序列中随机选择
Figure 133034DEST_PATH_IMAGE044
组,得到数据对信息为:
Figure 499424DEST_PATH_IMAGE058
根据所述数据对信息计算所述控制策略逼近网络对控制策略的梯度的平均值:
Figure 682144DEST_PATH_IMAGE059
得到所述控制策略权值矩阵的控制策略权值更新律为:
Figure 383252DEST_PATH_IMAGE060
其中,
Figure 512882DEST_PATH_IMAGE061
,为预设的更新律。
一种基于数据驱动的无人车控制装置,所述装置包括:
数据对序列获取模块,用于离线获取多组数据对序列,每组所述数据对序列中包括
Figure 592834DEST_PATH_IMAGE062
个相邻时间序列的控制量和状态量;
代价函数和控制策略构建模块,用于获取无人车的状态约束信息,根据所述状态约束信息得到障碍函数,根据所述障碍函数构建无人车安全相关的代价函数和控制策略结构;所述控制策略结构中还包括引入的预控制量;
值函数网络构建模块,用于根据所述障碍函数构造值函数网络;所述值函数网络中包括值函数权值矩阵;
参考代价函数构建模块,用于在无人车控制过程中的任意时刻
Figure 87400DEST_PATH_IMAGE063
,根据
Figure 151171DEST_PATH_IMAGE064
预测时刻的所述代价函数的累加和
Figure 818913DEST_PATH_IMAGE065
预测时刻的所述值函数网络,得到多步策略评估的参考代价函数;
值函数权值更新律确定模块,用于根据所述多组数据对序列,令每组数据对序列对应的值函数网络的值与参考代价函数的值相等,得到所述值函数权值矩阵的值函数更新律;
控制策略逼近网络构建模块,用于根据所述预控制量和所述障碍函数构造控制策略逼近网络;所述控制策略逼近网络包括控制策略权值矩阵;
控制策略权值更新律确定模块,用于根据所述多组数据对序列,根据所述数据对信息计算所述控制策略逼近网络对控制策略的梯度的平均值,得到所述控制策略权值矩阵的控制策略权值更新律;所述控制量的期望值中包括
Figure 409163DEST_PATH_IMAGE066
时刻的值函数网络对
Figure 199265DEST_PATH_IMAGE066
时刻的状态量求偏导得到的值;
无人车控制量确定模块,在线训练在线部署时,根据每个时刻更新的控制策略权值更新律和控制策略逼近网络得到无人车在任意
Figure 422436DEST_PATH_IMAGE067
时刻的控制量,先离线训练后部署时,根据离线训练完成后得到的控制策略权值更新律和控制策略逼近网络进行无人车的控制。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
离线获取多组数据对序列,每组所述数据对序列中包括
Figure 97131DEST_PATH_IMAGE068
个相邻时间序列的控制量和状态量;
获取无人车的状态约束信息,根据所述状态约束信息得到障碍函数,根据所述障碍函数构建无人车安全相关的代价函数和控制策略结构;所述控制策略结构中还包括引入的预控制量;
根据所述障碍函数构造值函数网络;所述值函数网络中包括值函数权值矩阵;
在无人车控制过程中的任意时刻
Figure 151674DEST_PATH_IMAGE067
,根据
Figure 50360DEST_PATH_IMAGE069
预测时刻的所述代价函数的累加和
Figure 213357DEST_PATH_IMAGE070
预测时刻的所述值函数网络,得到多步策略评估的参考代价函数;
根据所述多组数据对序列,令每组数据对序列对应的值函数网络的值与参考代价函数的值相等,得到所述值函数权值矩阵的值函数更新律;
根据所述预控制量和所述障碍函数构造控制策略逼近网络;所述控制策略逼近网络包括控制策略权值矩阵;
根据所述多组数据对序列,根据所述数据对信息计算所述控制策略逼近网络对控制策略的梯度的平均值,得到所述控制策略权值矩阵的控制策略权值更新律;所述控制量的期望值中包括
Figure 488481DEST_PATH_IMAGE071
时刻的值函数网络对
Figure 397531DEST_PATH_IMAGE071
时刻的状态量求偏导得到的值;
在线训练在线部署时,根据每个时刻更新的控制策略权值更新律和控制策略逼近网络得到无人车在任意
Figure 670380DEST_PATH_IMAGE067
时刻的控制量,先离线训练后部署时,根据离线训练完成后得到的控制策略权值更新律和控制策略逼近网络进行无人车的控制。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
离线获取多组数据对序列,每组所述数据对序列中包括
Figure 868143DEST_PATH_IMAGE072
个相邻时间序列的控制量和状态量;
获取无人车的状态约束信息,根据所述状态约束信息得到障碍函数,根据所述障碍函数构建无人车安全相关的代价函数和控制策略结构;所述控制策略结构中还包括引入的预控制量;
根据所述障碍函数构造值函数网络;所述值函数网络中包括值函数权值矩阵;
在无人车控制过程中的任意时刻
Figure 743695DEST_PATH_IMAGE073
,根据
Figure 163044DEST_PATH_IMAGE074
预测时刻的所述代价函数的累加和
Figure 403533DEST_PATH_IMAGE075
预测时刻的所述值函数网络,得到多步策略评估的参考代价函数;
根据所述多组数据对序列,令每组数据对序列对应的值函数网络的值与参考代价函数的值相等,得到所述值函数权值矩阵的值函数更新律;
根据所述预控制量和所述障碍函数构造控制策略逼近网络;所述控制策略逼近网络包括控制策略权值矩阵;
根据所述多组数据对序列,根据所述数据对信息计算所述控制策略逼近网络对控制策略的梯度的平均值,得到所述控制策略权值矩阵的控制策略权值更新律;所述控制量的期望值中包括
Figure 416488DEST_PATH_IMAGE076
时刻的值函数网络对
Figure 705518DEST_PATH_IMAGE076
时刻的状态量求偏导得到的值;
在线训练在线部署时,根据每个时刻更新的控制策略权值更新律和控制策略逼近网络得到无人车在任意
Figure 792423DEST_PATH_IMAGE073
时刻的控制量,先离线训练后部署时,根据离线训练完成后得到的控制策略权值更新律和控制策略逼近网络进行无人车的控制。
上述基于数据驱动的无人车控制方法、装置、计算机设备和存储介质,通过离线获取多组数据对序列,每组数据对序列中包括
Figure 266130DEST_PATH_IMAGE077
个相邻时间序列的控制量和状态量,获取无人车的状态约束信息,根据状态约束信息得到障碍函数,根据障碍函数构建无人车安全相关的代价函数和控制策略结构;根据障碍函数构造值函数网络,在无人车控制过程中的任意时刻
Figure 359856DEST_PATH_IMAGE073
,根据
Figure 780473DEST_PATH_IMAGE078
预测时刻的代价函数的累加和
Figure 784202DEST_PATH_IMAGE079
预测时刻的值函数网络,得到多步策略评估的参考代价函数;根据多组数据对序列,令每组数据对序列对应的值函数网络的值与参考代价函数的值相等,得到值函数权值矩阵的值函数更新律;根据预控制量和障碍函数构造控制策略逼近网络,根据多组数据对序列,根据所述数据对信息计算控制策略逼近网络对控制策略的梯度的平均值,得到控制策略权值矩阵的控制策略权值更新律;在线训练在线部署时,根据每个时刻更新的控制策略权值更新律和控制策略逼近网络得到无人车在任意
Figure 304176DEST_PATH_IMAGE073
时刻的控制量,先离线训练后部署时,根据离线训练完成后得到的控制策略权值更新律和控制策略逼近网络进行无人车的控制。本发明提出了一种新型基于障碍函数的控制策略可以实现最优性和安全性的平衡,算法不需要模型信息,只需要事先采集数据对信息即可,同时,采用多步策略评估的方法对策略的安全性进行评估,使得本发明的控制方法有能力处理时变约束。
附图说明
图1为一个实施例中基于数据驱动的无人车控制方法的流程示意图;
图2为一个实施例中基于数据驱动的无人车控制装置的结构框图;
图3为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种基于数据驱动的无人车控制方法,包括以下步骤:
步骤102,离线获取多组数据对序列,每组数据对序列中包括
Figure 963827DEST_PATH_IMAGE080
个相邻时间序列的控制量和状态量;
步骤104,获取无人车的状态约束信息,根据状态约束信息得到障碍函数,根据障碍函数构建无人车安全相关的代价函数和控制策略结构。
本发明考虑一个机器人动力学模型:
Figure 984873DEST_PATH_IMAGE081
其中,
Figure 46370DEST_PATH_IMAGE082
Figure 986513DEST_PATH_IMAGE083
是状态和控制变量,
Figure 930198DEST_PATH_IMAGE084
是离散时间指针,
Figure 692618DEST_PATH_IMAGE085
,是时变约束集合,
Figure 280725DEST_PATH_IMAGE086
是连续函数;其中,
Figure 532715DEST_PATH_IMAGE087
可以形式化为状态安全约束,例如在轮式机器人中其可以表示为机器人本身的状态约束,也可以表示由避障而形式化的约束。
控制目标是:从初始状态
Figure 166958DEST_PATH_IMAGE088
, 寻找一个控制策略
Figure 388861DEST_PATH_IMAGE089
能够最小化如下性能指标:
Figure 221688DEST_PATH_IMAGE090
同时需要满足模型约束
Figure 582262DEST_PATH_IMAGE091
,
Figure 375906DEST_PATH_IMAGE092
Figure 276866DEST_PATH_IMAGE093
Figure 167461DEST_PATH_IMAGE094
是折扣因子。
针对上述问题,本发明提出一种安全强化学习方法来实现安全近似最优控制。
控制策略结构中还包括引入的预控制量。预控制量是一个新引入的变量,与当前控制量以及当前控制约束的障碍函数产生的相斥力相关。
步骤106,根据障碍函数构造值函数网络。
值函数网络中包括值函数权值矩阵。
步骤108,在无人车控制过程中的任意时刻
Figure 885888DEST_PATH_IMAGE095
,根据
Figure 229144DEST_PATH_IMAGE096
预测时刻的代价函数的累加和
Figure 668216DEST_PATH_IMAGE097
预测时刻的值函数网络,得到多步策略评估的参考代价函数。
多步策略评价能够处理时变约束,也就是未来约束变化反映在未来的障碍函数中,被提前评估并用于策略更新。
步骤110,根据多组数据对序列,令每组数据对序列对应的值函数网络的值与参考代价函数的值相等,得到值函数权值矩阵的值函数更新律。
步骤112,根据预控制量和障碍函数构造控制策略逼近网络。
控制策略逼近网络包括控制策略权值矩阵。
步骤114,根据多组数据对序列,根据数据对信息计算控制策略逼近网络对控制策略的梯度的平均值,得到控制策略权值矩阵的控制策略权值更新律。
控制量的期望值中包括
Figure 351001DEST_PATH_IMAGE098
时刻的值函数网络对
Figure 850115DEST_PATH_IMAGE098
时刻的状态量求偏导得到的值。
步骤116,在线训练在线部署时,根据每个时刻更新的控制策略权值更新律和控制策略逼近网络得到无人车在任意时刻
Figure 680668DEST_PATH_IMAGE099
的控制量,先离线训练后部署时,根据离线训练完成后得到的控制策略权值更新律和控制策略逼近网络进行无人车的控制。
上述基于数据驱动的无人车控制方法中,通过离线获取多组数据对序列,每组数据对序列中包括
Figure 313644DEST_PATH_IMAGE100
个相邻时间序列的控制量和状态量,获取无人车的状态约束信息,根据状态约束信息得到障碍函数,根据障碍函数构建无人车安全相关的代价函数和控制策略结构;根据障碍函数构造值函数网络,在无人车控制过程中的任意时刻
Figure 178832DEST_PATH_IMAGE099
,根据
Figure 114426DEST_PATH_IMAGE101
预测时刻的代价函数的累加和
Figure 838800DEST_PATH_IMAGE102
预测时刻的值函数网络,得到多步策略评估的参考代价函数;根据多组数据对序列,令每组数据对序列对应的值函数网络的值与参考代价函数的值相等,得到值函数权值矩阵的值函数更新律;根据预控制量和障碍函数构造控制策略逼近网络,根据多组数据对序列,根据数据对信息计算控制策略逼近网络对控制策略的梯度的平均值,得到控制策略权值矩阵的控制策略权值更新律;在线训练在线部署时,根据每个时刻更新的控制策略权值更新律和控制策略逼近网络得到无人车在任意
Figure 88516DEST_PATH_IMAGE099
时刻的控制量,先离线训练后部署时,根据离线训练完成后得到的控制策略权值更新律和控制策略逼近网络进行无人车的控制。本发明提出了一种新型基于障碍函数的控制策略可以实现最优性和安全性的平衡,算法不需要模型信息,只需要事先采集数据对信息即可,同时,采用多步策略评估的方法对策略的安全性进行评估,使得本发明的控制方法有能力处理时变约束。
在其中一个实施例中,还包括:获取无人车的状态约束信息,根据状态约束信息得到障碍函数,根据障碍函数构建无人车安全相关的代价函数和控制策略结构;代价函数为:
Figure 870527DEST_PATH_IMAGE103
其中,
Figure 914706DEST_PATH_IMAGE104
Figure 641223DEST_PATH_IMAGE105
是状态和控制变量,
Figure 429050DEST_PATH_IMAGE106
是离散时间指针,
Figure 799989DEST_PATH_IMAGE107
,是时变约束集合,
Figure 952752DEST_PATH_IMAGE108
是连续函数,
Figure 245194DEST_PATH_IMAGE109
Figure 367870DEST_PATH_IMAGE110
Figure 249108DEST_PATH_IMAGE111
Figure 635090DEST_PATH_IMAGE112
是正定对称矩阵,
Figure 211564DEST_PATH_IMAGE113
是可调参数,
Figure 13298DEST_PATH_IMAGE114
是折扣因子,
Figure 562091DEST_PATH_IMAGE115
为障碍函数;
控制策略结构为:
Figure 181291DEST_PATH_IMAGE116
其中
Figure 182746DEST_PATH_IMAGE117
表示预控制量,是一个新引入的变量,
Figure 37438DEST_PATH_IMAGE118
是待优化的变量,
Figure 503054DEST_PATH_IMAGE119
表示为对变量
Figure 230839DEST_PATH_IMAGE120
的偏导,当
Figure 391693DEST_PATH_IMAGE121
越靠近约束集合
Figure 191022DEST_PATH_IMAGE122
的边界,
Figure 448828DEST_PATH_IMAGE123
的值越大。
在其中一个实施例中,还包括:针对一个约束集合
Figure 534464DEST_PATH_IMAGE124
,障碍函数为:
Figure 307248DEST_PATH_IMAGE125
对障碍函数
Figure 582372DEST_PATH_IMAGE126
重新中心化,得到:
Figure 632367DEST_PATH_IMAGE127
其中,如果
Figure 764271DEST_PATH_IMAGE128
Figure 962035DEST_PATH_IMAGE129
,否则,选择
Figure 227800DEST_PATH_IMAGE130
在其中一个实施例中,还包括:根据障碍函数构造值函数网络;值函数网络为:
Figure 194619DEST_PATH_IMAGE131
其中,
Figure 497424DEST_PATH_IMAGE132
Figure 120166DEST_PATH_IMAGE133
是权值矩阵,
Figure 737092DEST_PATH_IMAGE134
是基函数向量,
Figure 620735DEST_PATH_IMAGE135
,
Figure 484655DEST_PATH_IMAGE136
在其中一个实施例中,还包括:在无人车控制过程中的任意时刻
Figure 657010DEST_PATH_IMAGE137
,根据
Figure 139944DEST_PATH_IMAGE138
预测时刻的代价函数的累加和
Figure 753459DEST_PATH_IMAGE139
预测时刻的值函数网络,得到多步策略评估的参考代价函数;参考代价函数为:
Figure 601329DEST_PATH_IMAGE140
在其中一个实施例中,还包括:从多组数据对序列中随机选择
Figure 323298DEST_PATH_IMAGE044
组,得到数据对信息为:
Figure 282026DEST_PATH_IMAGE141
Figure 264895DEST_PATH_IMAGE142
, 可以得到:
Figure 80404DEST_PATH_IMAGE143
定义
Figure 227351DEST_PATH_IMAGE144
,
Figure 661875DEST_PATH_IMAGE145
,得到值函数权值矩阵的值函数更新律为:
Figure 640195DEST_PATH_IMAGE146
其中,
Figure 829868DEST_PATH_IMAGE147
,为预设的更新律。
在其中一个实施例中,还包括:根据预控制量和障碍函数构造控制策略逼近网络,控制策略逼近网络为:
Figure 385483DEST_PATH_IMAGE148
其中,
Figure 686015DEST_PATH_IMAGE149
Figure 518841DEST_PATH_IMAGE150
是权值矩阵,
Figure 817099DEST_PATH_IMAGE151
是基函数向量,
Figure 673059DEST_PATH_IMAGE152
Figure 574019DEST_PATH_IMAGE153
在其中一个实施例中,还包括:从多组数据对序列中随机选择
Figure 651565DEST_PATH_IMAGE044
组,得到数据对信息为:
Figure 183041DEST_PATH_IMAGE154
根据所述数据对信息计算所述控制策略逼近网络对控制策略的梯度的平均值:
Figure 588615DEST_PATH_IMAGE155
得到控制策略权值矩阵的控制策略权值更新律为:
Figure 903052DEST_PATH_IMAGE156
其中,
Figure 648154DEST_PATH_IMAGE157
,为预设的更新律。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图2所示,提供了一种基于数据驱动的无人车控制装置,包括:数据对序列获取模块202,代价函数和控制策略构建模块204、值函数网络构建模块206、参考代价函数构建模块208、值函数权值更新律确定模块210、控制策略逼近网络构建模块212、控制策略权值更新律确定模块214和无人车控制量确定模块216,其中:
数据对序列获取模块202,用于离线获取多组数据对序列,每组数据对序列中包括
Figure 412848DEST_PATH_IMAGE158
个相邻时间序列的控制量和状态量;
代价函数和控制策略构建模块204,用于获取无人车的状态约束信息,根据状态约束信息得到障碍函数,根据障碍函数构建无人车安全相关的代价函数和控制策略结构;控制策略结构中还包括引入的预控制量;
值函数网络构建模块206,用于根据障碍函数构造值函数网络;值函数网络中包括值函数权值矩阵;
参考代价函数构建模块208,用于在无人车控制过程中的任意时刻
Figure 164772DEST_PATH_IMAGE159
,根据
Figure 610797DEST_PATH_IMAGE160
预测时刻的代价函数的累加和
Figure 272723DEST_PATH_IMAGE161
预测时刻的值函数网络,得到多步策略评估的参考代价函数;
值函数权值更新律确定模块210,用于根据多组数据对序列,令每组数据对序列对应的值函数网络的值与参考代价函数的值相等,得到值函数权值矩阵的值函数更新律;
控制策略逼近网络构建模块212,用于根据预控制量和障碍函数构造控制策略逼近网络;控制策略逼近网络包括控制策略权值矩阵;
控制策略权值更新律确定模块214,用于根据多组数据对序列,根据数据对信息计算控制策略逼近网络对控制策略的梯度的平均值,得到控制策略权值矩阵的控制策略权值更新律;控制量的期望值中包括
Figure 146001DEST_PATH_IMAGE162
时刻的值函数网络对
Figure 135953DEST_PATH_IMAGE162
时刻的状态量求偏导得到的值;
无人车控制量确定模块216,在线训练在线部署时,根据每个时刻更新的控制策略权值更新律和控制策略逼近网络得到无人车在任意
Figure 447986DEST_PATH_IMAGE159
时刻的控制量,先离线训练后部署时,根据离线训练完成后得到的控制策略权值更新律和控制策略逼近网络进行无人车的控制。
代价函数和控制策略构建模块204还用于获取无人车的状态约束信息,根据状态约束信息得到障碍函数,根据障碍函数构建无人车安全相关的代价函数和控制策略结构;代价函数为:
Figure 902101DEST_PATH_IMAGE163
其中,
Figure 867652DEST_PATH_IMAGE164
Figure 735114DEST_PATH_IMAGE165
是状态和控制变量,
Figure 522941DEST_PATH_IMAGE166
是离散时间指针,
Figure 769246DEST_PATH_IMAGE167
是时变约束集合,
Figure 46644DEST_PATH_IMAGE168
是连续函数,
Figure 339085DEST_PATH_IMAGE169
Figure 851974DEST_PATH_IMAGE170
Figure 77419DEST_PATH_IMAGE171
Figure 728981DEST_PATH_IMAGE172
是正定对称矩阵,
Figure 180822DEST_PATH_IMAGE173
是可调参数,
Figure 310452DEST_PATH_IMAGE174
是折扣因子,
Figure 655982DEST_PATH_IMAGE175
为障碍函数;
控制策略结构为:
Figure 399816DEST_PATH_IMAGE176
其中
Figure 401270DEST_PATH_IMAGE177
表示预控制量,是一个新引入的变量,
Figure 396908DEST_PATH_IMAGE178
是待优化的变量,
Figure 472312DEST_PATH_IMAGE179
表示为对变量的偏导,
Figure 200096DEST_PATH_IMAGE180
表示由状态约束的障碍函数产生的相斥力,当
Figure 485584DEST_PATH_IMAGE181
越靠近约束集合
Figure 143967DEST_PATH_IMAGE182
的边界,
Figure 401773DEST_PATH_IMAGE183
的值越大。
值函数网络构建模块206还用于根据障碍函数构造值函数网络;值函数网络为:
Figure 628355DEST_PATH_IMAGE184
其中,
Figure 604402DEST_PATH_IMAGE185
Figure 286050DEST_PATH_IMAGE186
是权值矩阵,
Figure 726258DEST_PATH_IMAGE187
是基函数向量,
Figure 795846DEST_PATH_IMAGE188
,
Figure 203997DEST_PATH_IMAGE189
参考代价函数构建模块208还用于在无人车控制过程中的任意时刻
Figure 79549DEST_PATH_IMAGE190
,根据
Figure 311947DEST_PATH_IMAGE191
预测时刻的代价函数的累加和
Figure 490119DEST_PATH_IMAGE192
预测时刻的值函数网络,得到多步策略评估的参考代价函数;参考代价函数为:
Figure 237495DEST_PATH_IMAGE193
值函数权值更新律确定模块210还用于从多组数据对序列中随机选择
Figure 854421DEST_PATH_IMAGE194
组,得到数据对信息为:
Figure 128277DEST_PATH_IMAGE195
Figure 867562DEST_PATH_IMAGE196
, 可以得到:
Figure 758027DEST_PATH_IMAGE197
定义
Figure 709802DEST_PATH_IMAGE198
,
Figure 588897DEST_PATH_IMAGE199
,得到值函数权值矩阵的值函数更新律为:
Figure 233505DEST_PATH_IMAGE200
其中,
Figure 814528DEST_PATH_IMAGE201
,为预设的更新律。
控制策略逼近网络构建模块212还用于根据预控制量和障碍函数构造控制策略逼近网络,控制策略逼近网络为:
Figure 569994DEST_PATH_IMAGE202
其中,
Figure 365912DEST_PATH_IMAGE203
Figure 56787DEST_PATH_IMAGE204
是权值矩阵,
Figure 472DEST_PATH_IMAGE205
是基函数向量,
Figure 684263DEST_PATH_IMAGE206
Figure 662584DEST_PATH_IMAGE207
控制策略权值更新律确定模块214还用于从多组数据对序列中随机选择
Figure 993202DEST_PATH_IMAGE194
组,得到数据对信息为:
Figure 689763DEST_PATH_IMAGE208
根据所述数据对信息计算所述控制策略逼近网络对控制策略的梯度的平均值:
Figure 911665DEST_PATH_IMAGE209
得到控制策略权值矩阵的控制策略权值更新律为:
Figure 744492DEST_PATH_IMAGE210
其中,
Figure 511591DEST_PATH_IMAGE211
,为预设的更新律。
关于基于数据驱动的无人车控制装置的具体限定可以参见上文中对于基于数据驱动的无人车控制方法的限定,在此不再赘述。上述基于数据驱动的无人车控制装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于数据驱动的无人车控制方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (9)

1.一种基于数据驱动的无人车控制方法,其特征在于,所述方法包括:
离线获取多组数据对序列,每组所述数据对序列中包括
Figure 797660DEST_PATH_IMAGE001
个相邻时间序列的控制量和状态量;
在线训练时,在线获取无人车的状态约束信息,根据所述状态约束信息得到障碍函数,根据所述障碍函数构建无人车安全相关的代价函数和控制策略结构;所述控制策略结构中还包括引入的预控制量;所述代价函数为:
Figure 356817DEST_PATH_IMAGE002
其中,
Figure 272821DEST_PATH_IMAGE003
Figure 134598DEST_PATH_IMAGE004
是状态和控制变量,
Figure 831158DEST_PATH_IMAGE005
是离散时间指针,
Figure 803793DEST_PATH_IMAGE006
是时变约束集合,
Figure 371041DEST_PATH_IMAGE007
是连续函数,
Figure 731615DEST_PATH_IMAGE008
Figure 259680DEST_PATH_IMAGE009
Figure 426219DEST_PATH_IMAGE010
Figure 988918DEST_PATH_IMAGE011
是正定对称矩阵,
Figure 520394DEST_PATH_IMAGE012
是可调参数,
Figure 660388DEST_PATH_IMAGE013
是折扣因子,
Figure 977756DEST_PATH_IMAGE014
为所述障碍函数;
所述控制策略结构为:
Figure 519595DEST_PATH_IMAGE015
其中
Figure 159655DEST_PATH_IMAGE016
表示所述预控制量,是一个新引入的变量,
Figure 786946DEST_PATH_IMAGE017
是待优化的变量,
Figure 232970DEST_PATH_IMAGE018
表示为对变量
Figure 770262DEST_PATH_IMAGE019
的偏导,
Figure 705857DEST_PATH_IMAGE020
表示由状态约束的障碍函数产生的相斥力,当
Figure 430231DEST_PATH_IMAGE021
越靠近约束集合
Figure 679946DEST_PATH_IMAGE022
的边界,所述
Figure 196378DEST_PATH_IMAGE023
的值越大;
根据所述障碍函数构造值函数网络;所述值函数网络中包括值函数权值矩阵;
在无人车控制过程中的任意时刻
Figure 912662DEST_PATH_IMAGE024
,根据
Figure 514544DEST_PATH_IMAGE025
预测时刻的所述代价函数的累加和
Figure 974476DEST_PATH_IMAGE026
预测时刻的所述值函数网络,得到多步策略评估的参考代价函数;
根据所述多组数据对序列,令每组数据对序列对应的值函数网络的值与参考代价函数的值相等,得到所述值函数权值矩阵的值函数更新律;
根据所述预控制量和所述障碍函数构造控制策略逼近网络;所述控制策略逼近网络包括控制策略权值矩阵;
根据所述多组数据对序列,计算所述控制策略逼近网络对控制策略的梯度的平均值,得到所述控制策略权值矩阵的控制策略权值更新律;所述控制量的期望值中包括
Figure 548676DEST_PATH_IMAGE027
时刻的值函数网络对
Figure 560495DEST_PATH_IMAGE027
时刻的状态量求偏导得到的值;
在线训练在线部署时,根据每个时刻更新的控制策略权值更新律和控制策略逼近网络得到无人车在任意
Figure 790619DEST_PATH_IMAGE028
时刻的控制量,先离线训练后部署时,根据离线训练完成后得到的控制策略权值更新律和控制策略逼近网络进行无人车的控制。
2.根据权利要求1所述的方法,其特征在于,所述障碍函数
Figure 913296DEST_PATH_IMAGE029
的定义为:
针对一个约束集合
Figure 607582DEST_PATH_IMAGE030
,障碍函数为:
Figure 665668DEST_PATH_IMAGE031
对所述障碍函数
Figure 242143DEST_PATH_IMAGE032
重新中心化,得到:
Figure 40947DEST_PATH_IMAGE033
其中,如果
Figure 589740DEST_PATH_IMAGE034
Figure 943361DEST_PATH_IMAGE035
,否则,选择
Figure 616919DEST_PATH_IMAGE036
3.根据权利要求2所述的方法,其特征在于,根据所述障碍函数构造值函数网络,包括:
根据所述障碍函数构造值函数网络;所述值函数网络为:
Figure 612557DEST_PATH_IMAGE037
其中,
Figure 15856DEST_PATH_IMAGE038
Figure 415745DEST_PATH_IMAGE039
是权值矩阵,
Figure 701233DEST_PATH_IMAGE040
是基函数向量,
Figure 375928DEST_PATH_IMAGE041
Figure 430471DEST_PATH_IMAGE042
4.根据权利要求3所述的方法,其特征在于,在无人车控制过程中的任意时刻
Figure 329157DEST_PATH_IMAGE043
,根据
Figure 977307DEST_PATH_IMAGE044
预测时刻的所述代价函数的累加和
Figure 314748DEST_PATH_IMAGE045
预测时刻的所述值函数网络,得到多步策略评估的参考代价函数,包括:
在无人车控制过程中的任意时刻
Figure 99164DEST_PATH_IMAGE046
,根据
Figure 231068DEST_PATH_IMAGE047
预测时刻的所述代价函数的累加和
Figure 100935DEST_PATH_IMAGE048
预测时刻的所述值函数网络,得到多步策略评估的参考代价函数;所述参考代价函数为:
Figure 179750DEST_PATH_IMAGE049
5.根据权利要求4所述的方法,其特征在于,根据所述多组数据对序列,令每组数据对序列对应的值函数网络的值与参考代价函数的值相等,得到所述值函数权值矩阵的值函数更新律,包括:
从所述多组数据对序列中随机选择
Figure 943306DEST_PATH_IMAGE050
组,得到数据对信息为:
Figure 387057DEST_PATH_IMAGE051
Figure 868854DEST_PATH_IMAGE052
,得到:
Figure 485780DEST_PATH_IMAGE053
定义
Figure 236000DEST_PATH_IMAGE054
Figure 709706DEST_PATH_IMAGE055
,得到所述值函数权值矩阵的值函数更新律为:
Figure 819745DEST_PATH_IMAGE056
其中,
Figure 37100DEST_PATH_IMAGE057
,为预设的更新律。
6.根据权利要求5所述的方法,其特征在于,根据所述预控制量和所述障碍函数构造控制策略逼近网络,包括:
根据所述预控制量和所述障碍函数构造控制策略逼近网络,所述控制策略逼近网络为:
Figure 978511DEST_PATH_IMAGE058
其中,
Figure 498485DEST_PATH_IMAGE059
Figure 220453DEST_PATH_IMAGE060
是权值矩阵,
Figure 851286DEST_PATH_IMAGE061
是基函数向量,
Figure 709521DEST_PATH_IMAGE062
Figure 462713DEST_PATH_IMAGE063
7.根据权利要求6所述的方法,其特征在于,根据所述多组数据对序列,计算所述控制策略逼近网络对控制策略的梯度的平均值,得到所述控制策略权值矩阵的控制策略权值更新律,包括:
从所述多组数据对序列中随机选择
Figure 281764DEST_PATH_IMAGE064
组,得到数据对信息为:
Figure 106501DEST_PATH_IMAGE065
根据所述数据对信息计算所述控制策略逼近网络对控制策略的梯度的平均值:
Figure 694608DEST_PATH_IMAGE066
得到所述控制策略权值矩阵的控制策略权值更新律为:
Figure 681019DEST_PATH_IMAGE067
其中,
Figure 49683DEST_PATH_IMAGE068
,为预设的更新律。
8.一种基于数据驱动的无人车控制装置,其特征在于,所述装置包括:
数据对序列获取模块,用于离线获取多组数据对序列,每组所述数据对序列中包括
Figure 22318DEST_PATH_IMAGE069
个相邻时间序列的控制量和状态量;
代价函数和控制策略构建模块,用于在线训练时,在线获取无人车的状态约束信息,根据所述状态约束信息得到障碍函数,根据所述障碍函数构建无人车安全相关的代价函数和控制策略结构;所述控制策略结构中还包括引入的预控制量;所述代价函数为:
Figure 120724DEST_PATH_IMAGE070
其中,
Figure 153402DEST_PATH_IMAGE071
Figure 9363DEST_PATH_IMAGE072
是状态和控制变量,
Figure 910323DEST_PATH_IMAGE073
是离散时间指针,
Figure 470093DEST_PATH_IMAGE074
是时变约束集合,
Figure 63885DEST_PATH_IMAGE075
是连续函数,
Figure 79246DEST_PATH_IMAGE076
Figure 721580DEST_PATH_IMAGE077
Figure 263419DEST_PATH_IMAGE078
Figure 903479DEST_PATH_IMAGE079
是正定对称矩阵,
Figure 530770DEST_PATH_IMAGE080
是可调参数,
Figure 976794DEST_PATH_IMAGE081
是折扣因子,
Figure 248507DEST_PATH_IMAGE082
为所述障碍函数;
所述控制策略结构为:
Figure 184102DEST_PATH_IMAGE083
其中
Figure 174055DEST_PATH_IMAGE084
表示所述预控制量,是一个新引入的变量,
Figure 423770DEST_PATH_IMAGE085
是待优化的变量,
Figure 674623DEST_PATH_IMAGE086
表示为对变量
Figure 656486DEST_PATH_IMAGE087
的偏导,
Figure 258368DEST_PATH_IMAGE088
表示由状态约束的障碍函数产生的相斥力,当
Figure 718300DEST_PATH_IMAGE089
越靠近约束集合
Figure 292500DEST_PATH_IMAGE090
的边界,所述
Figure 304319DEST_PATH_IMAGE091
的值越大;
值函数网络构建模块,用于根据所述障碍函数构造值函数网络;所述值函数网络中包括值函数权值矩阵;
参考代价函数构建模块,用于在无人车控制过程中的任意时刻
Figure 534443DEST_PATH_IMAGE092
,根据
Figure 657120DEST_PATH_IMAGE093
预测时刻的所述代价函数的累加和
Figure 85827DEST_PATH_IMAGE094
预测时刻的所述值函数网络,得到多步策略评估的参考代价函数;
值函数权值更新律确定模块,用于根据所述多组数据对序列,令每组数据对序列对应的值函数网络的值与参考代价函数的值相等,得到所述值函数权值矩阵的值函数更新律;
控制策略逼近网络构建模块,用于根据所述预控制量和所述障碍函数构造控制策略逼近网络;所述控制策略逼近网络包括控制策略权值矩阵;
控制策略权值更新律确定模块,用于根据所述多组数据对序列,根据所述数据对信息计算所述控制策略逼近网络对控制策略的梯度的平均值,得到所述控制策略权值矩阵的控制策略权值更新律;所述控制量的期望值中包括
Figure 412422DEST_PATH_IMAGE095
时刻的值函数网络对
Figure 988897DEST_PATH_IMAGE095
时刻的状态量求偏导得到的值;
无人车控制量确定模块,在线训练在线部署时,根据每个时刻更新的控制策略权值更新律和控制策略逼近网络得到无人车在任意
Figure 790631DEST_PATH_IMAGE096
时刻的控制量,先离线训练后部署时,根据离线训练完成后得到的控制策略权值更新律和控制策略逼近网络进行无人车的控制。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
CN202111089771.9A 2021-09-17 2021-09-17 基于数据驱动的无人车控制方法、装置和计算机设备 Active CN113534669B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111089771.9A CN113534669B (zh) 2021-09-17 2021-09-17 基于数据驱动的无人车控制方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111089771.9A CN113534669B (zh) 2021-09-17 2021-09-17 基于数据驱动的无人车控制方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
CN113534669A CN113534669A (zh) 2021-10-22
CN113534669B true CN113534669B (zh) 2021-11-30

Family

ID=78093292

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111089771.9A Active CN113534669B (zh) 2021-09-17 2021-09-17 基于数据驱动的无人车控制方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN113534669B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114218867B (zh) * 2021-12-20 2022-06-28 暨南大学 基于熵优化安全强化学习的特种设备流程控制方法及系统
CN114610040A (zh) * 2022-04-02 2022-06-10 天津大学 一种应用于无人操作系统的自主避障学习控制方法及装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109986564A (zh) * 2019-05-20 2019-07-09 上海应用技术大学 工业机械臂路径规划方法
CN110345948A (zh) * 2019-08-16 2019-10-18 重庆邮智机器人研究院有限公司 基于神经网络与q学习算法结合的动态避障方法
CN110647042A (zh) * 2019-11-11 2020-01-03 中国人民解放军国防科技大学 一种基于数据驱动的机器人鲁棒学习预测控制方法
CN111665853A (zh) * 2020-07-07 2020-09-15 中国人民解放军国防科技大学 一种面向规划控制联合优化的无人车辆运动规划方法
CN112799386A (zh) * 2019-10-25 2021-05-14 中国科学院沈阳自动化研究所 基于人工势场与强化学习的机器人路径规划方法
CN112987577A (zh) * 2021-04-22 2021-06-18 中国人民解放军国防科技大学 一种无人车数据驱动自适应控制方法和装置
CN112987573A (zh) * 2021-02-26 2021-06-18 中国计量大学 基于离策强化学习的小车倒立摆系统的鲁棒最优控制方法
CN113093727A (zh) * 2021-03-08 2021-07-09 哈尔滨工业大学(深圳) 一种基于深度安全强化学习的机器人无地图导航方法
CN113110478A (zh) * 2021-04-27 2021-07-13 广东工业大学 一种多机器人运动规划的方法、系统及存储介质
CN113119119A (zh) * 2021-03-30 2021-07-16 广州大学 一种机器人动作的执行方法、装置和存储介质
CN113282093A (zh) * 2021-07-21 2021-08-20 中国科学院自动化研究所 机器人导航方法、装置、电子设备及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109986564A (zh) * 2019-05-20 2019-07-09 上海应用技术大学 工业机械臂路径规划方法
CN110345948A (zh) * 2019-08-16 2019-10-18 重庆邮智机器人研究院有限公司 基于神经网络与q学习算法结合的动态避障方法
CN112799386A (zh) * 2019-10-25 2021-05-14 中国科学院沈阳自动化研究所 基于人工势场与强化学习的机器人路径规划方法
CN110647042A (zh) * 2019-11-11 2020-01-03 中国人民解放军国防科技大学 一种基于数据驱动的机器人鲁棒学习预测控制方法
CN111665853A (zh) * 2020-07-07 2020-09-15 中国人民解放军国防科技大学 一种面向规划控制联合优化的无人车辆运动规划方法
CN112987573A (zh) * 2021-02-26 2021-06-18 中国计量大学 基于离策强化学习的小车倒立摆系统的鲁棒最优控制方法
CN113093727A (zh) * 2021-03-08 2021-07-09 哈尔滨工业大学(深圳) 一种基于深度安全强化学习的机器人无地图导航方法
CN113119119A (zh) * 2021-03-30 2021-07-16 广州大学 一种机器人动作的执行方法、装置和存储介质
CN112987577A (zh) * 2021-04-22 2021-06-18 中国人民解放军国防科技大学 一种无人车数据驱动自适应控制方法和装置
CN113110478A (zh) * 2021-04-27 2021-07-13 广东工业大学 一种多机器人运动规划的方法、系统及存储介质
CN113282093A (zh) * 2021-07-21 2021-08-20 中国科学院自动化研究所 机器人导航方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
A Dual-level Model Predictive Control Scheme for Multi-timescale dynamical systems;Xinglong ZHANG ETC;《SYSTEMS AND CONTROL》;20210316;全文 *

Also Published As

Publication number Publication date
CN113534669A (zh) 2021-10-22

Similar Documents

Publication Publication Date Title
CN113534669B (zh) 基于数据驱动的无人车控制方法、装置和计算机设备
Ellis et al. Integrating dynamic economic optimization and model predictive control for optimal operation of nonlinear process systems
EP2107439B1 (en) Method and system for the design and implementation of optimal multivariable model predictive controllers for fast-sampling constrained dynamic systems
CN111708355A (zh) 基于强化学习的多无人机动作决策方法和装置
CN113759724B (zh) 基于数据驱动的机器人控制方法、装置和计算机设备
CN113805483B (zh) 基于模型预测的机器人控制方法、装置和计算机设备
EP2296063A2 (en) System and method for predicting future disturbances in model predictive control applications
CN112987577B (zh) 一种无人车数据驱动自适应控制方法和装置
US10953891B2 (en) Method and system for providing an optimized control of a complex dynamical system
CN113561994A (zh) 轨迹规划方法、装置、存储介质及电子设备
CN117581166A (zh) 基于借助高斯假设密度滤波器的不确定性传播的随机非线性预测控制器及方法
CN114239974B (zh) 多智能体的位置预测方法、装置、电子设备及存储介质
CN114999182A (zh) 基于lstm回馈机制的车流量预测方法、装置及设备
US6738688B2 (en) Method of predicting carrying time in automatic warehouse system
CN110824496B (zh) 运动估计方法、装置、计算机设备和存储介质
CN110826695B (zh) 数据处理方法、装置和计算机可读存储介质
EP4184269A1 (en) Improving surrogate approximations for process models
CN114722581A (zh) 基于曼哈顿距离的移动状态监测方法、装置、计算机设备
Deisenroth et al. Model-based reinforcement learning with continuous states and actions
CN114721272A (zh) 轨迹跟踪控制方法、装置、设备与计算机可读存储介质
CN113805587A (zh) 多无人车分布式编队控制方法、装置和设备
CN114690630A (zh) 神经网络控制器与基于模型的控制器相组合的车辆控制
CN114299714B (zh) 一种基于异策略强化学习的多匝道协调控制方法
Nakonechnyi et al. Study of the Car Speed Control System Using the Variable Structure Principle
CN117962929A (zh) 一种车辆轨迹跟踪控制方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant