CN113534669B - 基于数据驱动的无人车控制方法、装置和计算机设备 - Google Patents
基于数据驱动的无人车控制方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN113534669B CN113534669B CN202111089771.9A CN202111089771A CN113534669B CN 113534669 B CN113534669 B CN 113534669B CN 202111089771 A CN202111089771 A CN 202111089771A CN 113534669 B CN113534669 B CN 113534669B
- Authority
- CN
- China
- Prior art keywords
- value
- control strategy
- function
- control
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
本申请涉及一种基于数据驱动的无人车控制方法、装置和计算机设备。所述方法包括:通过表示无人车状态约束的障碍函数构建无人车安全相关的代价函数和控制策略结构,构造值函数网络,得到多步策略评估的参考代价函数;构造控制策略逼近网络,根据获取的多组数据对序列,得到值函数更新律和控制策略权值更新律,对无人车进行控制。本发明提出了一种基于障碍函数的控制策略可实现最优性和安全性的平衡,算法不需要模型信息,只需要事先采集数据对信息,同时,采用多步策略评估的方法对策略的安全性进行评估,可处理时变约束,可以边在线训练边部署,也可以先离线训练再部署。
Description
技术领域
本申请涉及无人车控制领域,特别是涉及一种基于数据驱动的无人车控制方法、装置和计算机设备。
背景技术
随着无人车技术的发展,无人车在服务和工业等领域有了越来越多的应用。无人车的动力学是高度非线性的,而且多数无人车的控制需要考虑安全约束,例如无人车需要考虑安全避碰,机械手需要在受限工作区域工作。因此,在设计控制器时不仅要保证最优的控制性能还需要满足安全约束的要求。基于数值求解的模型预测控制能够满足上述控制要求,但需要在线实时求解,在线计算量大,很难实现高频率实时部署。目前比较流行的基于策略优化的方法例如强化学习方法,在计算效率方面具有明显的优势。但是强化学习需要通过试错实现策略优化,很难满足安全约束。因此,现有的无人车学习控制方法亟需解决安全性无法保证的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高无人车控制安全性的基于数据驱动的无人车控制方法、装置、计算机设备和存储介质。
一种基于数据驱动的无人车控制方法,所述方法包括:
获取无人车的状态约束信息,根据所述状态约束信息得到障碍函数,根据所述障碍函数构建无人车安全相关的代价函数和控制策略结构;所述控制策略结构中还包括引入的预控制量;
根据所述障碍函数构造值函数网络;所述值函数网络中包括值函数权值矩阵;
根据所述多组数据对序列,令每组数据对序列对应的值函数网络的值与参考代价函数的值相等,得到所述值函数权值矩阵的值函数更新律;
根据所述预控制量和所述障碍函数构造控制策略逼近网络;所述控制策略逼近网络包括控制策略权值矩阵;
根据所述多组数据对序列,根据所述数据对信息计算所述控制策略逼近网络对控制策略的梯度的平均值,得到所述控制策略权值矩阵的控制策略权值更新律;所述控制量的期望值中包括时刻的值函数网络对时刻的状态量求偏导得到的值;
在线训练在线部署时,根据每个时刻更新的控制策略权值更新律和控制策略逼近网络得到无人车在任意时刻的控制量,先离线训练后部署时,根据离线训练完成后得到的控制策略权值更新律和控制策略逼近网络进行无人车的控制。
在其中一个实施例中,还包括:获取无人车的状态约束信息,根据所述状态约束信息得到障碍函数,根据所述障碍函数构建无人车安全相关的代价函数和控制策略结构;所述代价函数为:
所述控制策略结构为:
在其中一个实施例中,还包括:根据所述障碍函数构造值函数网络;所述值函数网络为:
在其中一个实施例中,还包括:根据所述预控制量和所述障碍函数构造控制策略逼近网络,所述控制策略逼近网络为:
根据所述数据对信息计算所述控制策略逼近网络对控制策略的梯度的平均值:
得到所述控制策略权值矩阵的控制策略权值更新律为:
一种基于数据驱动的无人车控制装置,所述装置包括:
代价函数和控制策略构建模块,用于获取无人车的状态约束信息,根据所述状态约束信息得到障碍函数,根据所述障碍函数构建无人车安全相关的代价函数和控制策略结构;所述控制策略结构中还包括引入的预控制量;
值函数网络构建模块,用于根据所述障碍函数构造值函数网络;所述值函数网络中包括值函数权值矩阵;
值函数权值更新律确定模块,用于根据所述多组数据对序列,令每组数据对序列对应的值函数网络的值与参考代价函数的值相等,得到所述值函数权值矩阵的值函数更新律;
控制策略逼近网络构建模块,用于根据所述预控制量和所述障碍函数构造控制策略逼近网络;所述控制策略逼近网络包括控制策略权值矩阵;
控制策略权值更新律确定模块,用于根据所述多组数据对序列,根据所述数据对信息计算所述控制策略逼近网络对控制策略的梯度的平均值,得到所述控制策略权值矩阵的控制策略权值更新律;所述控制量的期望值中包括时刻的值函数网络对时刻的状态量求偏导得到的值;
无人车控制量确定模块,在线训练在线部署时,根据每个时刻更新的控制策略权值更新律和控制策略逼近网络得到无人车在任意时刻的控制量,先离线训练后部署时,根据离线训练完成后得到的控制策略权值更新律和控制策略逼近网络进行无人车的控制。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取无人车的状态约束信息,根据所述状态约束信息得到障碍函数,根据所述障碍函数构建无人车安全相关的代价函数和控制策略结构;所述控制策略结构中还包括引入的预控制量;
根据所述障碍函数构造值函数网络;所述值函数网络中包括值函数权值矩阵;
根据所述多组数据对序列,令每组数据对序列对应的值函数网络的值与参考代价函数的值相等,得到所述值函数权值矩阵的值函数更新律;
根据所述预控制量和所述障碍函数构造控制策略逼近网络;所述控制策略逼近网络包括控制策略权值矩阵;
根据所述多组数据对序列,根据所述数据对信息计算所述控制策略逼近网络对控制策略的梯度的平均值,得到所述控制策略权值矩阵的控制策略权值更新律;所述控制量的期望值中包括时刻的值函数网络对时刻的状态量求偏导得到的值;
在线训练在线部署时,根据每个时刻更新的控制策略权值更新律和控制策略逼近网络得到无人车在任意时刻的控制量,先离线训练后部署时,根据离线训练完成后得到的控制策略权值更新律和控制策略逼近网络进行无人车的控制。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取无人车的状态约束信息,根据所述状态约束信息得到障碍函数,根据所述障碍函数构建无人车安全相关的代价函数和控制策略结构;所述控制策略结构中还包括引入的预控制量;
根据所述障碍函数构造值函数网络;所述值函数网络中包括值函数权值矩阵;
根据所述多组数据对序列,令每组数据对序列对应的值函数网络的值与参考代价函数的值相等,得到所述值函数权值矩阵的值函数更新律;
根据所述预控制量和所述障碍函数构造控制策略逼近网络;所述控制策略逼近网络包括控制策略权值矩阵;
根据所述多组数据对序列,根据所述数据对信息计算所述控制策略逼近网络对控制策略的梯度的平均值,得到所述控制策略权值矩阵的控制策略权值更新律;所述控制量的期望值中包括时刻的值函数网络对时刻的状态量求偏导得到的值;
在线训练在线部署时,根据每个时刻更新的控制策略权值更新律和控制策略逼近网络得到无人车在任意时刻的控制量,先离线训练后部署时,根据离线训练完成后得到的控制策略权值更新律和控制策略逼近网络进行无人车的控制。
上述基于数据驱动的无人车控制方法、装置、计算机设备和存储介质,通过离线获取多组数据对序列,每组数据对序列中包括个相邻时间序列的控制量和状态量,获取无人车的状态约束信息,根据状态约束信息得到障碍函数,根据障碍函数构建无人车安全相关的代价函数和控制策略结构;根据障碍函数构造值函数网络,在无人车控制过程中的任意时刻,根据预测时刻的代价函数的累加和预测时刻的值函数网络,得到多步策略评估的参考代价函数;根据多组数据对序列,令每组数据对序列对应的值函数网络的值与参考代价函数的值相等,得到值函数权值矩阵的值函数更新律;根据预控制量和障碍函数构造控制策略逼近网络,根据多组数据对序列,根据所述数据对信息计算控制策略逼近网络对控制策略的梯度的平均值,得到控制策略权值矩阵的控制策略权值更新律;在线训练在线部署时,根据每个时刻更新的控制策略权值更新律和控制策略逼近网络得到无人车在任意时刻的控制量,先离线训练后部署时,根据离线训练完成后得到的控制策略权值更新律和控制策略逼近网络进行无人车的控制。本发明提出了一种新型基于障碍函数的控制策略可以实现最优性和安全性的平衡,算法不需要模型信息,只需要事先采集数据对信息即可,同时,采用多步策略评估的方法对策略的安全性进行评估,使得本发明的控制方法有能力处理时变约束。
附图说明
图1为一个实施例中基于数据驱动的无人车控制方法的流程示意图;
图2为一个实施例中基于数据驱动的无人车控制装置的结构框图;
图3为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种基于数据驱动的无人车控制方法,包括以下步骤:
步骤104,获取无人车的状态约束信息,根据状态约束信息得到障碍函数,根据障碍函数构建无人车安全相关的代价函数和控制策略结构。
本发明考虑一个机器人动力学模型:
针对上述问题,本发明提出一种安全强化学习方法来实现安全近似最优控制。
控制策略结构中还包括引入的预控制量。预控制量是一个新引入的变量,与当前控制量以及当前控制约束的障碍函数产生的相斥力相关。
步骤106,根据障碍函数构造值函数网络。
值函数网络中包括值函数权值矩阵。
多步策略评价能够处理时变约束,也就是未来约束变化反映在未来的障碍函数中,被提前评估并用于策略更新。
步骤110,根据多组数据对序列,令每组数据对序列对应的值函数网络的值与参考代价函数的值相等,得到值函数权值矩阵的值函数更新律。
步骤112,根据预控制量和障碍函数构造控制策略逼近网络。
控制策略逼近网络包括控制策略权值矩阵。
步骤114,根据多组数据对序列,根据数据对信息计算控制策略逼近网络对控制策略的梯度的平均值,得到控制策略权值矩阵的控制策略权值更新律。
步骤116,在线训练在线部署时,根据每个时刻更新的控制策略权值更新律和控制策略逼近网络得到无人车在任意时刻的控制量,先离线训练后部署时,根据离线训练完成后得到的控制策略权值更新律和控制策略逼近网络进行无人车的控制。
上述基于数据驱动的无人车控制方法中,通过离线获取多组数据对序列,每组数据对序列中包括个相邻时间序列的控制量和状态量,获取无人车的状态约束信息,根据状态约束信息得到障碍函数,根据障碍函数构建无人车安全相关的代价函数和控制策略结构;根据障碍函数构造值函数网络,在无人车控制过程中的任意时刻,根据预测时刻的代价函数的累加和预测时刻的值函数网络,得到多步策略评估的参考代价函数;根据多组数据对序列,令每组数据对序列对应的值函数网络的值与参考代价函数的值相等,得到值函数权值矩阵的值函数更新律;根据预控制量和障碍函数构造控制策略逼近网络,根据多组数据对序列,根据数据对信息计算控制策略逼近网络对控制策略的梯度的平均值,得到控制策略权值矩阵的控制策略权值更新律;在线训练在线部署时,根据每个时刻更新的控制策略权值更新律和控制策略逼近网络得到无人车在任意时刻的控制量,先离线训练后部署时,根据离线训练完成后得到的控制策略权值更新律和控制策略逼近网络进行无人车的控制。本发明提出了一种新型基于障碍函数的控制策略可以实现最优性和安全性的平衡,算法不需要模型信息,只需要事先采集数据对信息即可,同时,采用多步策略评估的方法对策略的安全性进行评估,使得本发明的控制方法有能力处理时变约束。
在其中一个实施例中,还包括:获取无人车的状态约束信息,根据状态约束信息得到障碍函数,根据障碍函数构建无人车安全相关的代价函数和控制策略结构;代价函数为:
控制策略结构为:
在其中一个实施例中,还包括:根据障碍函数构造值函数网络;值函数网络为:
在其中一个实施例中,还包括:根据预控制量和障碍函数构造控制策略逼近网络,控制策略逼近网络为:
根据所述数据对信息计算所述控制策略逼近网络对控制策略的梯度的平均值:
得到控制策略权值矩阵的控制策略权值更新律为:
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图2所示,提供了一种基于数据驱动的无人车控制装置,包括:数据对序列获取模块202,代价函数和控制策略构建模块204、值函数网络构建模块206、参考代价函数构建模块208、值函数权值更新律确定模块210、控制策略逼近网络构建模块212、控制策略权值更新律确定模块214和无人车控制量确定模块216,其中:
代价函数和控制策略构建模块204,用于获取无人车的状态约束信息,根据状态约束信息得到障碍函数,根据障碍函数构建无人车安全相关的代价函数和控制策略结构;控制策略结构中还包括引入的预控制量;
值函数网络构建模块206,用于根据障碍函数构造值函数网络;值函数网络中包括值函数权值矩阵;
值函数权值更新律确定模块210,用于根据多组数据对序列,令每组数据对序列对应的值函数网络的值与参考代价函数的值相等,得到值函数权值矩阵的值函数更新律;
控制策略逼近网络构建模块212,用于根据预控制量和障碍函数构造控制策略逼近网络;控制策略逼近网络包括控制策略权值矩阵;
控制策略权值更新律确定模块214,用于根据多组数据对序列,根据数据对信息计算控制策略逼近网络对控制策略的梯度的平均值,得到控制策略权值矩阵的控制策略权值更新律;控制量的期望值中包括时刻的值函数网络对时刻的状态量求偏导得到的值;
无人车控制量确定模块216,在线训练在线部署时,根据每个时刻更新的控制策略权值更新律和控制策略逼近网络得到无人车在任意时刻的控制量,先离线训练后部署时,根据离线训练完成后得到的控制策略权值更新律和控制策略逼近网络进行无人车的控制。
代价函数和控制策略构建模块204还用于获取无人车的状态约束信息,根据状态约束信息得到障碍函数,根据障碍函数构建无人车安全相关的代价函数和控制策略结构;代价函数为:
控制策略结构为:
值函数网络构建模块206还用于根据障碍函数构造值函数网络;值函数网络为:
控制策略逼近网络构建模块212还用于根据预控制量和障碍函数构造控制策略逼近网络,控制策略逼近网络为:
根据所述数据对信息计算所述控制策略逼近网络对控制策略的梯度的平均值:
得到控制策略权值矩阵的控制策略权值更新律为:
关于基于数据驱动的无人车控制装置的具体限定可以参见上文中对于基于数据驱动的无人车控制方法的限定,在此不再赘述。上述基于数据驱动的无人车控制装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于数据驱动的无人车控制方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (9)
1.一种基于数据驱动的无人车控制方法,其特征在于,所述方法包括:
在线训练时,在线获取无人车的状态约束信息,根据所述状态约束信息得到障碍函数,根据所述障碍函数构建无人车安全相关的代价函数和控制策略结构;所述控制策略结构中还包括引入的预控制量;所述代价函数为:
所述控制策略结构为:
根据所述障碍函数构造值函数网络;所述值函数网络中包括值函数权值矩阵;
根据所述多组数据对序列,令每组数据对序列对应的值函数网络的值与参考代价函数的值相等,得到所述值函数权值矩阵的值函数更新律;
根据所述预控制量和所述障碍函数构造控制策略逼近网络;所述控制策略逼近网络包括控制策略权值矩阵;
8.一种基于数据驱动的无人车控制装置,其特征在于,所述装置包括:
代价函数和控制策略构建模块,用于在线训练时,在线获取无人车的状态约束信息,根据所述状态约束信息得到障碍函数,根据所述障碍函数构建无人车安全相关的代价函数和控制策略结构;所述控制策略结构中还包括引入的预控制量;所述代价函数为:
所述控制策略结构为:
值函数网络构建模块,用于根据所述障碍函数构造值函数网络;所述值函数网络中包括值函数权值矩阵;
值函数权值更新律确定模块,用于根据所述多组数据对序列,令每组数据对序列对应的值函数网络的值与参考代价函数的值相等,得到所述值函数权值矩阵的值函数更新律;
控制策略逼近网络构建模块,用于根据所述预控制量和所述障碍函数构造控制策略逼近网络;所述控制策略逼近网络包括控制策略权值矩阵;
控制策略权值更新律确定模块,用于根据所述多组数据对序列,根据所述数据对信息计算所述控制策略逼近网络对控制策略的梯度的平均值,得到所述控制策略权值矩阵的控制策略权值更新律;所述控制量的期望值中包括时刻的值函数网络对时刻的状态量求偏导得到的值;
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111089771.9A CN113534669B (zh) | 2021-09-17 | 2021-09-17 | 基于数据驱动的无人车控制方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111089771.9A CN113534669B (zh) | 2021-09-17 | 2021-09-17 | 基于数据驱动的无人车控制方法、装置和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113534669A CN113534669A (zh) | 2021-10-22 |
CN113534669B true CN113534669B (zh) | 2021-11-30 |
Family
ID=78093292
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111089771.9A Active CN113534669B (zh) | 2021-09-17 | 2021-09-17 | 基于数据驱动的无人车控制方法、装置和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113534669B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114218867B (zh) * | 2021-12-20 | 2022-06-28 | 暨南大学 | 基于熵优化安全强化学习的特种设备流程控制方法及系统 |
CN114610040A (zh) * | 2022-04-02 | 2022-06-10 | 天津大学 | 一种应用于无人操作系统的自主避障学习控制方法及装置 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109986564A (zh) * | 2019-05-20 | 2019-07-09 | 上海应用技术大学 | 工业机械臂路径规划方法 |
CN110345948A (zh) * | 2019-08-16 | 2019-10-18 | 重庆邮智机器人研究院有限公司 | 基于神经网络与q学习算法结合的动态避障方法 |
CN110647042A (zh) * | 2019-11-11 | 2020-01-03 | 中国人民解放军国防科技大学 | 一种基于数据驱动的机器人鲁棒学习预测控制方法 |
CN111665853A (zh) * | 2020-07-07 | 2020-09-15 | 中国人民解放军国防科技大学 | 一种面向规划控制联合优化的无人车辆运动规划方法 |
CN112799386A (zh) * | 2019-10-25 | 2021-05-14 | 中国科学院沈阳自动化研究所 | 基于人工势场与强化学习的机器人路径规划方法 |
CN112987577A (zh) * | 2021-04-22 | 2021-06-18 | 中国人民解放军国防科技大学 | 一种无人车数据驱动自适应控制方法和装置 |
CN112987573A (zh) * | 2021-02-26 | 2021-06-18 | 中国计量大学 | 基于离策强化学习的小车倒立摆系统的鲁棒最优控制方法 |
CN113093727A (zh) * | 2021-03-08 | 2021-07-09 | 哈尔滨工业大学(深圳) | 一种基于深度安全强化学习的机器人无地图导航方法 |
CN113110478A (zh) * | 2021-04-27 | 2021-07-13 | 广东工业大学 | 一种多机器人运动规划的方法、系统及存储介质 |
CN113119119A (zh) * | 2021-03-30 | 2021-07-16 | 广州大学 | 一种机器人动作的执行方法、装置和存储介质 |
CN113282093A (zh) * | 2021-07-21 | 2021-08-20 | 中国科学院自动化研究所 | 机器人导航方法、装置、电子设备及存储介质 |
-
2021
- 2021-09-17 CN CN202111089771.9A patent/CN113534669B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109986564A (zh) * | 2019-05-20 | 2019-07-09 | 上海应用技术大学 | 工业机械臂路径规划方法 |
CN110345948A (zh) * | 2019-08-16 | 2019-10-18 | 重庆邮智机器人研究院有限公司 | 基于神经网络与q学习算法结合的动态避障方法 |
CN112799386A (zh) * | 2019-10-25 | 2021-05-14 | 中国科学院沈阳自动化研究所 | 基于人工势场与强化学习的机器人路径规划方法 |
CN110647042A (zh) * | 2019-11-11 | 2020-01-03 | 中国人民解放军国防科技大学 | 一种基于数据驱动的机器人鲁棒学习预测控制方法 |
CN111665853A (zh) * | 2020-07-07 | 2020-09-15 | 中国人民解放军国防科技大学 | 一种面向规划控制联合优化的无人车辆运动规划方法 |
CN112987573A (zh) * | 2021-02-26 | 2021-06-18 | 中国计量大学 | 基于离策强化学习的小车倒立摆系统的鲁棒最优控制方法 |
CN113093727A (zh) * | 2021-03-08 | 2021-07-09 | 哈尔滨工业大学(深圳) | 一种基于深度安全强化学习的机器人无地图导航方法 |
CN113119119A (zh) * | 2021-03-30 | 2021-07-16 | 广州大学 | 一种机器人动作的执行方法、装置和存储介质 |
CN112987577A (zh) * | 2021-04-22 | 2021-06-18 | 中国人民解放军国防科技大学 | 一种无人车数据驱动自适应控制方法和装置 |
CN113110478A (zh) * | 2021-04-27 | 2021-07-13 | 广东工业大学 | 一种多机器人运动规划的方法、系统及存储介质 |
CN113282093A (zh) * | 2021-07-21 | 2021-08-20 | 中国科学院自动化研究所 | 机器人导航方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
A Dual-level Model Predictive Control Scheme for Multi-timescale dynamical systems;Xinglong ZHANG ETC;《SYSTEMS AND CONTROL》;20210316;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113534669A (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113534669B (zh) | 基于数据驱动的无人车控制方法、装置和计算机设备 | |
Ellis et al. | Integrating dynamic economic optimization and model predictive control for optimal operation of nonlinear process systems | |
EP2107439B1 (en) | Method and system for the design and implementation of optimal multivariable model predictive controllers for fast-sampling constrained dynamic systems | |
CN111708355A (zh) | 基于强化学习的多无人机动作决策方法和装置 | |
CN113759724B (zh) | 基于数据驱动的机器人控制方法、装置和计算机设备 | |
CN113805483B (zh) | 基于模型预测的机器人控制方法、装置和计算机设备 | |
EP2296063A2 (en) | System and method for predicting future disturbances in model predictive control applications | |
CN112987577B (zh) | 一种无人车数据驱动自适应控制方法和装置 | |
US10953891B2 (en) | Method and system for providing an optimized control of a complex dynamical system | |
CN113561994A (zh) | 轨迹规划方法、装置、存储介质及电子设备 | |
CN117581166A (zh) | 基于借助高斯假设密度滤波器的不确定性传播的随机非线性预测控制器及方法 | |
CN114239974B (zh) | 多智能体的位置预测方法、装置、电子设备及存储介质 | |
CN114999182A (zh) | 基于lstm回馈机制的车流量预测方法、装置及设备 | |
US6738688B2 (en) | Method of predicting carrying time in automatic warehouse system | |
CN110824496B (zh) | 运动估计方法、装置、计算机设备和存储介质 | |
CN110826695B (zh) | 数据处理方法、装置和计算机可读存储介质 | |
EP4184269A1 (en) | Improving surrogate approximations for process models | |
CN114722581A (zh) | 基于曼哈顿距离的移动状态监测方法、装置、计算机设备 | |
Deisenroth et al. | Model-based reinforcement learning with continuous states and actions | |
CN114721272A (zh) | 轨迹跟踪控制方法、装置、设备与计算机可读存储介质 | |
CN113805587A (zh) | 多无人车分布式编队控制方法、装置和设备 | |
CN114690630A (zh) | 神经网络控制器与基于模型的控制器相组合的车辆控制 | |
CN114299714B (zh) | 一种基于异策略强化学习的多匝道协调控制方法 | |
Nakonechnyi et al. | Study of the Car Speed Control System Using the Variable Structure Principle | |
CN117962929A (zh) | 一种车辆轨迹跟踪控制方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |