CN115626184B

CN115626184B - 自动驾驶车辆的权重系数和控制策略自学习方法及装置

Info

Publication number: CN115626184B
Application number: CN202211629437.2A
Authority: CN
Inventors: 段京良; 张发旺; 马飞; 陈良发; 焦春绚; 闫昊琪; 曹星宇; 许皓渊; 肖礼明
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2022-12-19
Filing date: 2022-12-19
Publication date: 2023-07-21
Anticipated expiration: 2042-12-19
Also published as: CN115626184A

Abstract

本发明公开了一种自动驾驶车辆的权重系数和控制策略自学习方法及装置，涉及车辆自动驾驶控制技术领域。包括：获取待优化的控制策略；将待优化的控制策略输入到构建好的控制策略双层优化模型；其中，控制策略双层优化模型包括权重系数优化层以及控制策略优化层；根据待优化的控制策略、权重系数优化层以及控制策略优化层，得到优化后的控制策略，基于优化后的控制策略对自动驾驶车辆进行控制。本发明基于给定的专家驾驶策略，通过模仿该目标控制策略实现控制代价函数权重系数和控制策略的自学习。本发明能够解决在控制自动驾驶车辆时，为了实现良好的控制性能而面临的不断调整代价函数的权重系数，且该方法能够实现控制策略的自提升。

Description

自动驾驶车辆的权重系数和控制策略自学习方法及装置

技术领域

本发明涉及车辆自动驾驶控制技术领域，特别是指一种自动驾驶车辆的权重系数和控制策略自学习方法及装置。

背景技术

车辆的智能控制技术是智能化汽车的核心体现。模型预测控制因为其能够考虑未来时刻信息，目前是智能驾驶的控制主流方法。然而模型预测控制由于通过滚动时域优化求解控制量，存在求解效率低下的难题。业界和学术界通过在线优化和离线预求解的方法来提高模型预测控制的求解速度。在线优化方法包含暖启动和提前终止迭代等方法，能够加快求解速度，但面对复杂问题时，求解效率仍然难以满足车辆的控制需求。离线预求解方法主要是显式MPC（Model Predictive Control，模型预测控制），该方法对状态空间进行划分，离线建立从状态量到最优控制律之间的映射关系，映射关系等可以用表格和神经网络等存储，在线应用时通过查表或者神经网络直接映射得到控制量，该方法能够在很大程度上提高求解实时性。然而为了追求高品质的控制效果，需要不断调整权重系数再训练策略以满足控制要求。这导致在实现自动驾驶快速求解和高品质控制的时候，耗费大量的时间和精力，不利于控制技术的应用落地。

发明内容

本发明针对模型预测控制由于通过滚动时域优化求解控制量，存在求解效率低下的难题，以及在实现自动驾驶快速求解和高品质控制的时候，需要不断调整权重系数再训练策略以满足控制要求，耗费大量的时间和精力，不利于控制技术的应用落地的问题，提出了本发明。

为解决上述技术问题，本发明提供如下技术方案：

一方面，本发明提供了一种自动驾驶车辆的权重系数和控制策略自学习方法，该方法由电子设备实现，该方法包括：

S1、获取待优化的控制策略。

S2、将待优化的控制策略输入到构建好的控制策略双层优化模型；其中，控制策略双层优化模型包括权重系数优化层以及控制策略优化层。

S3、根据待优化的控制策略、权重系数优化层以及控制策略优化层，得到优化后的控制策略，基于优化后的控制策略对自动驾驶车辆进行控制。

可选地，S3中的根据待优化的控制策略、权重系数优化层以及控制策略优化层，得到优化后的控制策略，包括：

S31、获取初始化的权重系数；设定k=1。

S32、判断k是否大于n，如果k大于n，则转去执行S36，如果k小于或等于n，则执行S33；其中，n表示预设迭代次数。

S33、基于控制策略优化层以及权重系数，对待优化的控制策略进行更新，得到更新后的控制策略。

S34、基于权重系数优化层以及更新后的控制策略，对权重系数进行更新，得到更新后的权重系数。

S35、根据更新后的权重系数，k=k+1，转去执行S32。

S36、停止循环，输出优化后的控制策略。

可选地，S33中的基于控制策略优化层以及权重系数，对待优化的控制策略进行更新，得到更新后的控制策略，包括：

S331、基于权重系数以及待优化的控制策略，构建最优控制问题。

S332、将最优控制问题的期望作为控制策略更新的目标函数。

S333、对目标函数进行最小化，得到更新后的控制策略。

可选地，S34中的基于权重系数优化层以及更新后的控制策略，对权重系数进行更新，得到更新后的权重系数，包括：

S341、基于专家驾驶策略生成专家驾驶数据。

S342、根据更新后的控制策略生成状态和控制轨迹。

S343、基于专家驾驶数据以及状态和控制轨迹，构建损失函数。

S344、对损失函数进行最小化，得到更新后的权重系数。

可选地，S341中的专家驾驶数据，包括驾驶员执行控制任务时的控制信息、车辆的状态信息以及车辆的定位信息。

可选地，S343中的损失函数，如下式（1）所示：

其中，为专家驾驶数据，/>为状态和控制轨迹，/>为未知变量。

可选地，S344中的对损失函数进行最小化，得到更新后的权重系数，包括：

基于损失函数、辅助控制系统以及链式求导法则，对未知变量进行优化，得到更新后的权重系数。

另一方面，本发明提供了一种自动驾驶车辆的权重系数和控制策略自学习装置，该装置应用于实现自动驾驶车辆的权重系数和控制策略自学习方法，该装置包括：

获取模块，用于获取待优化的控制策略。

输入模块，用于将待优化的控制策略输入到构建好的控制策略双层优化模型；其中，控制策略双层优化模型包括权重系数优化层以及控制策略优化层。

输出模块，用于根据待优化的控制策略、权重系数优化层以及控制策略优化层，得到优化后的控制策略，基于优化后的控制策略对自动驾驶车辆进行控制。

可选地，输出模块，进一步用于：

S31、获取初始化的权重系数；设定k=1。

S35、根据更新后的权重系数，k=k+1，转去执行S32。

S36、停止循环，输出优化后的控制策略。

可选地，输出模块，进一步用于：

S32、将最优控制问题的期望作为控制策略更新的目标函数。

S333、对目标函数进行最小化，得到更新后的控制策略。

可选地，输出模块，进一步用于：

S341、基于专家驾驶策略生成专家驾驶数据。

S342、根据更新后的控制策略生成状态和控制轨迹。

S344、对损失函数进行最小化，得到更新后的权重系数。

可选地，专家驾驶数据，包括驾驶员执行控制任务时的控制信息、车辆的状态信息以及车辆的定位信息。

可选地，损失函数，如下式（1）所示：

可选地，输出模块，进一步用于：

一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述自动驾驶车辆的权重系数和控制策略自学习方法。

一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述自动驾驶车辆的权重系数和控制策略自学习方法。

本发明实施例提供的技术方案带来的有益效果至少包括：

上述方案中，公开了一种自动驾驶车辆控制代价函数权重系数和控制策略自学习方法，该方法包含双层优化结构，上层为权重系数优化层，下层为控制策略优化层，通过不断迭代上下层实现自动驾驶车辆控制代价函数权重系数和控制策略自学习。本方法保证学习控制目标代价函数权重系数的同时还能实现控制策略的不断优化。能够解决在控制自动驾驶车辆时，为了实现良好的控制性能而面临的不断调整代价函数的权重系数，且该方法能够实现控制策略的自提升。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的自动驾驶车辆的权重系数和控制策略自学习方法流程示意图；

图2是本发明实施例提供的自学习方法双层优化结构示意图；

图3是本发明实施例提供的自动驾驶车辆的权重系数和控制策略自学习装置框图；

图4是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

如图1所示，本发明实施例提供了一种自动驾驶车辆的权重系数和控制策略自学习方法，该方法可以由电子设备实现。如图1所示的自动驾驶车辆的权重系数和控制策略自学习方法流程图，该方法的处理流程可以包括如下的步骤：

S1、获取待优化的控制策略。

S2、将待优化的控制策略输入到构建好的控制策略双层优化模型。

其中，控制策略双层优化模型包括权重系数优化层以及控制策略优化层。

一种可行的实施方式中，如图2所示，控制策略双层优化模型为双层优化结构，上层为权重系数优化层，下层为控制策略优化层，通过不断交互迭代上下层实现自动驾驶车辆控制代价函数权重系数和控制策略的自学习。

可选地，上述步骤S3可以包括如下步骤S31-S34：

S31、获取初始化的权重系数。

S32、基于控制策略优化层以及权重系数，对待优化的控制策略进行更新，得到更新后的控制策略。

可选地，上述步骤S32可以包括如下步骤S321-S323：

S321、基于权重系数以及待优化的控制策略，构建最优控制问题。

一种可行的实施方式中，设待优化的代价函数权重系数为和/>，待优化的控制策略为/>，控制策略以神经网络为载体，/>为控制策略网络的待优化参数。构建的最优控制问题，如下式（1）所示：

S322、将最优控制问题的期望作为控制策略更新的目标函数。

一种可行的实施方式中，以所构建的最优控制问题的期望为策略更新的目标函数，如下式（2）所示：

S323、对目标函数进行最小化，得到更新后的控制策略。

一种可行的实施方式中，通过最小化该目标函数，实现对策略参数的更新，即：

其中，为神经网络参数更新的步长。

S33、基于权重系数优化层以及更新后的控制策略，对权重系数进行更新，得到更新后的权重系数。

可选地，上述步骤S33可以包括如下步骤S331-S334：

S331、基于专家驾驶策略生成专家驾驶数据。

一种可行的实施方式中，专家驾驶策略和专家数据是根据具体控制任务，选择富有经验的驾驶员驾驶车辆，记录并存储专家驾驶数据/>，该数据包含驾驶员执行控制任务时的控制信息和车辆的状态以及定位等信息。

S332、根据更新后的控制策略生成状态和控制轨迹。

一种可行的实施方式中，设待优化权重系数为和/>，/>表示未知变量。在控制系统/>中，利用更新后的优化策略/>生成状态和控制轨迹/>。

S333、基于专家驾驶数据以及状态和控制轨迹，构建损失函数。

可选地，S333中的损失函数，如下式（4）所示：

S334、对损失函数进行最小化，得到更新后的权重系数。

一种可行的实施方式中，对分别对/>和/>求偏导得/>和/>，利用辅助控制系统求得偏导数/>，利用链式求导法则求得/>，/>。更新待优化变量，。

进一步地，辅助控制系统用于求解偏导数/>。为了求解/>，即，，对极大值原理相关方程左右分别对/>求偏导，得：

微分动力学方程，如下式（5）所示：

微分协态方程，如下式（6）所示：

微分输入方程，如下式（7）所示：

微分边界条件，如下式（8）所示：

式中：，/>为效用函数，/>表示状态转移方程，/>，/>，/>，/>，/>，，/>，/>，/>，/>。

令，/>，则求解/>等价于求解，如下式（9）所示：

满足动力学方程：

这是一个常规的带约束最优控制问题，可以利用现成求解器求解，以上求解/>的过程称为辅助控制系统/>。

S34、根据更新后的权重系数，转去执行S32，直至达到预设迭代次数，输出优化后的控制策略。

一种可行的实施方式中，在每一轮迭代中，权重系数优化层以专家驾驶策略生成的专家数据和待优化策略/>生成的状态和控制轨迹/>构建损失函数，最小化该损失函数实现对权重系数的更新；控制策略优化层基于上层所更新的权重系数/>和/>，最小化控制目标函数/>，实现对策略网络的更新。

进一步地，对训练完毕的控制策略进行在线应用，以控制自动驾驶车辆。

进一步地，对神经网络进行离线训练的伪代码，如下表1所示：

表1

举例来说，以具备自动驾驶功能的乘用车为控制对象，控制任务为轨迹跟踪，车辆模型采用三自由度单轨模型，轮胎力采用线性轮胎模型，具体参数如下表2所示：

表2

根据具体控制任务，收集并存储专家驾驶数据。

策略优化层：设待优化的代价函数权重系数为和/>，待优化的策略为/>，，策略用神经网络近似，/>为策略网络的待优化参数，具体神经网络超参数如下表3所示。构建的最优控制问题，如下式（10）所示：

满足，该方程为三自由度单轨模型的离散化模型。/>为预测时域，/>为参考状态，包含参考轨迹和参考车速等。策略更新的目标函数为/>的期望，即：

进一步地，通过最小化该目标函数，实现对策略参数的更新，即：，/>为神经网络参数更新的步长。

进一步地，权重系数优化层：待优化权重系数为和/>，/>为待优化变量，给定权重系数更新步长/>，具体参数如下表3所示。在控制系统/>中，利用更新后的优化策略/>生成状态和控制轨迹/>，以专家数据/>和/>构建损失函数/>。对/>分别对/>和/>求偏导得/>和/>，利用辅助控制系统/>求得偏导数/>，利用链式求导法则求得/>，/>。更新待优化变量，/>，实现待优化权重系数为和/>的更新。

通过不断迭代策略优化层和权重系数优化层，实现控制代价函数和控制策略的自学习。将所学到的策略进行在线应用，经过对比发现，本方法能够实现控制策略和控制代价函数权重系数的自学习。

表3

本发明实施例中，公开了一种自动驾驶车辆控制代价函数权重系数和控制策略自学习方法，该方法包含双层优化结构，上层为权重系数优化层，下层为控制策略优化层，通过不断迭代上下层实现自动驾驶车辆控制代价函数权重系数和控制策略自学习。本方法保证学习控制目标代价函数权重系数的同时还能实现控制策略的不断优化。能够解决在控制自动驾驶车辆时，为了实现良好的控制性能而面临的不断调整代价函数的权重系数，且该方法能够实现控制策略的自提升。

如图3所示，本发明实施例提供了一种自动驾驶车辆的权重系数和控制策略自学习装置300，该装置300应用于实现自动驾驶车辆的权重系数和控制策略自学习方法，该装置300包括：

获取模块310，用于获取待优化的控制策略。

输入模块320，用于将待优化的控制策略输入到构建好的控制策略双层优化模型；其中，控制策略双层优化模型包括权重系数优化层以及控制策略优化层。

输出模块330，用于根据待优化的控制策略、权重系数优化层以及控制策略优化层，得到优化后的控制策略，基于优化后的控制策略对自动驾驶车辆进行控制。

可选地，输出模块330，进一步用于：

S31、获取初始化的权重系数；设定k=1。

S35、根据更新后的权重系数，k=k+1，转去执行S32。

S36、停止循环，输出优化后的控制策略。

可选地，输出模块330，进一步用于：

S332、将最优控制问题的期望作为控制策略更新的目标函数。

S333、对目标函数进行最小化，得到更新后的控制策略。

可选地，输出模块330，进一步用于：

S341、基于专家驾驶策略生成专家驾驶数据。

S342、根据更新后的控制策略生成状态和控制轨迹。

S344、对损失函数进行最小化，得到更新后的权重系数。

可选地，损失函数，如下式（1）所示：

可选地，输出模块330，进一步用于：

图4是本发明实施例提供的一种电子设备400的结构示意图，该电子设备400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（centralprocessing units，CPU）401和一个或一个以上的存储器402，其中，存储器402中存储有至少一条指令，至少一条指令由处理器401加载并执行以实现下述自动驾驶车辆的权重系数和控制策略自学习方法：

S1、获取待优化的控制策略。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述自动驾驶车辆的权重系数和控制策略自学习方法。例如，计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种自动驾驶车辆的权重系数和控制策略自学习方法，其特征在于，所述方法包括：

S1、获取待优化的控制策略；

S2、将所述待优化的控制策略输入到构建好的控制策略双层优化模型；其中，所述控制策略双层优化模型包括权重系数优化层以及控制策略优化层；

S3、根据所述待优化的控制策略、权重系数优化层以及控制策略优化层，得到优化后的控制策略，基于所述优化后的控制策略对自动驾驶车辆进行控制；

步骤S3包括如下步骤S31-S34：

S31、获取初始化的权重系数；

S32、基于控制策略优化层以及权重系数，对待优化的控制策略进行更新，得到更新后的控制策略；

步骤S32包括如下步骤S321-S323：

S321、基于权重系数以及待优化的控制策略，构建最优控制问题；

设待优化的代价函数权重系数为Q_θ和R_θ，待优化的控制策略为π^ω，控制策略以神经网络为载体，ω为控制策略网络的待优化参数，构建的最优控制问题，如下式(1)所示：

S322、将最优控制问题的期望作为控制策略更新的目标函数；

以所构建的最优控制问题的期望为策略更新的目标函数，如下式(2)所示：

S323、对目标函数进行最小化，得到更新后的控制策略；

通过最小化所述目标函数，实现对策略参数ω的更新，即：

其中，α_ω为神经网络参数更新的步长；

S33、基于权重系数优化层以及更新后的控制策略，对权重系数进行更新，得到更新后的权重系数；

步骤S33包括如下步骤S331-S334：

S331、基于专家驾驶策略生成专家驾驶数据；

专家驾驶策略和专家数据ξ_d是根据具体控制任务，选择富有经验的驾驶员驾驶车辆，记录并存储专家驾驶数据ξ_d，所述数据包含驾驶员执行控制任务时的控制信息和车辆的状态以及定位等信息；

S332、根据更新后的控制策略生成状态和控制轨迹；

设待优化权重系数为Q_θ和R_θ，θ表示未知变量，在控制系统∑(π^ω,θ)中，利用更新后的优化策略π^ω生成状态和控制轨迹ξ_θ；

S333、基于专家驾驶数据以及状态和控制轨迹，构建损失函数；

S333中的损失函数，如下式(4)所示：

L_θ＝(ξ_θ,ξ_d；θ) (4)

其中，ξ_d为专家驾驶数据，ξ_θ为状态和控制轨迹，θ为未知变量；

S334、对损失函数进行最小化，得到更新后的权重系数；

对L_θ分别对θ和ξ_θ求偏导得和/>利用辅助控制系统/>求得偏导数/>利用链式求导法则求得/>更新待优化变量，/>

所述辅助控制系统用于求解偏导数/>为了求解/>对极大值原理相关方程左右分别对θ求偏导，得：

微分动力学方程，如下式(5)所示：

微分协态方程，如下式(6)所示：

微分输入方程，如下式(7)所示：

微分边界条件，如下式(8)所示：

式中：H_t＝c_t(x_t,u_t；θ)+f(x_t,u_t；θ)′λ_t+1，c_t(·)为效用函数，f(·)表示状态转移方程，

令则求解/>等价于求解，如下式(9)所示：

满足动力学方程：X_t+1＝F_tX_t+G_tU_t+E_t,X₀＝0

以上求解的过程称为辅助控制系统/>

2.一种自动驾驶车辆的权重系数和控制策略自学习装置，其特征在于，所述装置包括：

获取模块，用于获取待优化的控制策略；

输入模块，用于将所述待优化的控制策略输入到构建好的控制策略双层优化模型；其中，所述控制策略双层优化模型包括权重系数优化层以及控制策略优化层；

输出模块，用于根据所述待优化的控制策略、权重系数优化层以及控制策略优化层，得到优化后的控制策略，基于所述优化后的控制策略对自动驾驶车辆进行控制；

所述输出模块，具体用于：

S31、获取初始化的权重系数；

步骤S32包括如下步骤S321-S323：

S322、将最优控制问题的期望作为控制策略更新的目标函数；

S323、对目标函数进行最小化，得到更新后的控制策略；

通过最小化所述目标函数，实现对策略参数ω的更新，即：

其中，α_ω为神经网络参数更新的步长；

步骤S33包括如下步骤S331-S334：

S331、基于专家驾驶策略生成专家驾驶数据；

S332、根据更新后的控制策略生成状态和控制轨迹；

S333中的损失函数，如下式(4)所示：

L_θ＝(ξ_θ,ξ_d；θ) (4)

S334、对损失函数进行最小化，得到更新后的权重系数；

微分动力学方程，如下式(5)所示：

微分协态方程，如下式(6)所示：

微分输入方程，如下式(7)所示：

微分边界条件，如下式(8)所示：

令则求解/>等价于求解，如下式(9)所示：

满足动力学方程：X_t+1＝F_tX_t+G_tU_t+E_t,X₀＝0

以上求解的过程称为辅助控制系统/>