CN113239986A

CN113239986A - 车辆轨迹评价网络模型的训练方法、装置和存储介质

Info

Publication number: CN113239986A
Application number: CN202110450469.5A
Authority: CN
Inventors: 朱越美; 张立志
Original assignee: Zhejiang Geely Holding Group Co Ltd; Geely Automobile Research Institute Ningbo Co Ltd
Current assignee: Zhejiang Geely Holding Group Co Ltd; Geely Automobile Research Institute Ningbo Co Ltd
Priority date: 2021-04-25
Filing date: 2021-04-25
Publication date: 2021-08-10
Anticipated expiration: 2041-04-25
Also published as: CN113239986B

Abstract

本发明涉及一种车辆轨迹评价网络模型的训练方法、装置和存储介质，训练方法包括：获取实车数据；以实车数据为基础，通过路径规划算法和采样算法生成采样规划轨迹；获取人类驾驶员驾驶车辆形成的专家规划轨迹；将采样规划轨迹和专家规划轨迹转换为多维时间序列，得到样本数据集；以样本数据集为基础，训练得到评价网络模型。与现有技术相比，本发明基于采集的实车数据得到采样规划路径，结合人类驾驶员驾驶车辆形成的专家规划路径得到样本数据集，基于样本数据集训练得到评价网络模型，越符合人类驾驶经验的规划轨迹在评价网络模型中的代价越低，这样能够更加客观的对驾驶时的候选轨迹进行评价，得到更贴合人类实际驾驶的候选轨迹。

Description

车辆轨迹评价网络模型的训练方法、装置和存储介质

技术领域

本发明涉及智能驾驶领域，尤其是涉及一种车辆轨迹评价网络模型的训练方法、装置和存储介质。

背景技术

随着社会的发展，汽车保有量持续增加，自动驾驶也越来越受到各界的关注，在学界和产业界大力投入下获得飞速发展。决策规划作为自动驾驶的重要模块，负责提供自动驾驶车辆在未来一段时间内(即规划周期内)的规划轨迹。自动驾驶车辆的决策规划存在以下难点：需要覆盖多场景，同时遵守交通规则以及保证安全性和舒适性。各国学者引入了许多先进方法来解决自动驾驶车辆的决策规划问题，例如传统轨迹规划方法，基于模仿学习的轨迹规划方法，基于强化学习的方法，基于视觉特征的模型等，但是，现有的车辆轨迹规划方法都存在着不足之处。

传统轨迹规划方法通过优化预先设定的代价函数来获得规划轨迹，对驾驶过程中的每一种场景都要进行大量的定制化的建模与分析，严重阻碍了轨迹规划模块在多种场景下的部署，增加了轨迹规划模块的维护问题。基于模仿学习的方法将专家轨迹和采样的轨迹经过预设的计算形式得到特征向量，使用模仿学习获得评价特征向量的评价网络，通过评价网络获得最优规划轨迹作为推荐轨迹，尽管融入了专家的先验知识，但是在轨迹评价方式上仍然选择手动设计的评价函数，这些评价函数严重依赖根据经验设置的超参数，鲁棒性很差，在泛化性能上严重依赖于数据集的多样性。基于强化学习的方法难以找到一个最优的奖励函数，并且受限于安全性的限制，一般在仿真环境内完成训练过程，很少使用真实环境数据训练，造成模型偏离真实数据分布，在真实环境中容易做出错误的决策。基于视觉特征的模型容易受数据分布迁移的影响，比如在虚拟环境中训练的模型，由于Domaingap(域差异)，在真实环境下表现很差。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种车辆轨迹评价网络模型的训练方法、装置和存储介质，以采集的实车数据为基础，得到采样规划轨迹和人类驾驶员的专家规划轨迹作为样本数据集，通过网络结构搜索的方式确定评价网络模型的结构，训练评价网络模型，越符合人类驾驶经验的规划轨迹在评价网络模型中的代价越低，且采样规划轨迹与专家规划轨迹的代价的间隔最大，这样得到的评价网络模型可以找到最符合人类驾驶经验的规划轨迹。

本发明的目的可以通过以下技术方案来实现：

一种车辆轨迹评价网络模型的训练方法，包括以下步骤：

获取样本数据集，所述样本数据集是基于多条采样规划轨迹和多条人类驾驶员驾驶车辆形成的专家规划轨迹得到的；

初始化生成评价网络模型；

以样本数据集为基础，训练所述评价网络模型，使得专家规划轨迹在评价网络模型中的代价最低，且专家规划轨迹与采样规划轨迹在评价网络模型中的代价的间隔最大。

进一步的，获取样本数据集的过程如下：获取包含多组实车数据的原始数据集，以原始数据集为基础，通过路径规划算法和采样算法生成多条采样规划轨迹；获取多条人类驾驶员驾驶车辆形成的专家规划轨迹；将采样规划轨迹和专家规划轨迹转换为多维时间序列，得到样本数据集。

更进一步的，所述实车数据包括道路信息、自车状态信息和障碍物信息。

更进一步的，所述样本数据集中还包括扰动专家规划轨迹转换的多维时间序列，扰动专家规划轨迹的获取过程为：在专家规划轨迹的横向和纵向上改变速度和偏差，得到多条初步规划轨迹，将通过碰撞检测的初步规划轨迹作为扰动专家规划轨迹。

更进一步的，所述样本数据集中还包括障碍专家轨迹转换的多维时间序列，障碍专家规划轨迹的获取过程为：获取实车数据中的障碍物信息，提取障碍物中机动车的行驶轨迹，去除行驶异常的机动车的行驶轨迹，包括停车时间过长的行驶轨迹、存在超速的行驶轨迹和存在碰撞的行驶轨迹，得到障碍专家规划轨迹。

更进一步的，所述多维时间序列为状态量在规划周期内的多个时刻的取值，所述状态量包括道路信息状态量、自车状态信息状态量和障碍物信息状态量。

更进一步的，所述多维时间序列中还包括规划轨迹的曲率。

更进一步的，所述道路信息状态量包括道路的限速；所述自车状态信息包括速度和加速度；所述障碍物信息状态量包括车辆周边各个区域内距离车辆最近的障碍物信息，所述障碍物信息包括障碍物类型、障碍物的坐标和障碍物的速度。

更进一步的，车辆的周边区域包括左前方、正前方、右前方、正右方、右后方、正后方、左后方和正左方。

更进一步的，使用路径规划算法获得车辆的路径和路径曲线方程；使用采样算法对路径进行采样，得到采样规划轨迹，采样过程具体为：

获取规划周期T、时间采样间隔δ、单位速度增量μ、最大采样速度υ、最大采样加速度α、最大采样负加速度-α和车辆在初始时刻t₀的初始速度η；

根据规划周期T和时间采样间隔δ获得采样时刻t₁，t₂，t₃……T；根据最大采样速度υ和单位速度增量μ获得所有可能的采样速度μ,2μ,3μ……υ；

依次确定各个采样时刻t₁，t₂，t₃……T的速度，其中，相邻的采样时刻的速度差值不超过最大采样加速度α和最大采样负加速度-α；

根据每个采样时刻的速度计算车辆的纵向位置坐标，得到表示时间和纵向位置坐标的ST轨迹{(s0,t₀)，(s1,t₁),(s2,t₂),……(sT,T)}，将ST轨迹中每个采样时刻的纵向位置坐标代入路径曲线方程，得到采样规划轨迹。

进一步的，以网络结构搜索的方式确定评价网络模型的结构，初始化生成评价网络模型，具体为：

选定候选网络结构1～n；初始化候选网络结构的参数W1～Wn和权重a1～an；获取训练集和验证集；

将训练集作为输入，输入经过候选网络结构得到S1～Sn的输出，将输出乘以a1～an的softmax形式A1～An，再将所有的乘积求和，得到最终的输出；

使用验证集来更新候选网络的权重a1～an，再使用训练集更新候选网络的参数，如果候选网络没有收敛，则重复此步骤直至候选网络收敛；

对A1～An进行排序，选择其中最大的k个权重所对应的候选网络结构作为评价网络模型的结构。

一种车辆轨迹评价网络模型的训练装置，包括：

样本数据集获取模块，用于获取基于采样规划轨迹和专家规划轨迹的样本数据集；

评价网络模型生成模块，用于确定评价网络模型的结构，初始化生成评价网络模型；

评价网络模型训练模块，用于根据样本数据集对评价网络模型进行训练，训练完成的评价网络模型中，专家规划轨迹的代价最低，且专家规划轨迹与采样规划轨迹的代价的间隔最大。

一种存储介质，其上存储有计算机程序，所述计算机程序被执行时实现评价网络模型训练方法的步骤。

与现有技术相比，本发明具有以下有益效果：

(1)以采集的实车数据为基础，得到采样规划轨迹和人类驾驶员的专家规划轨迹作为样本数据集，通过网络结构搜索的方式确定评价网络模型的结构，训练评价网络模型，越符合人类驾驶经验的规划轨迹在评价网络模型中的代价越低，且采样规划轨迹与专家规划轨迹的代价的间隔最大，这样得到的评价网络模型可以找到最符合人类驾驶经验的规划轨迹。

(2)与传统的轨迹规划方法相比，本申请是基于采集的实车数据实现的，不需要定制化建模或仿真，实现实车数据的持续优化和迭代，能更加快速的适应新增的驾驶场景。

(3)与基于模仿学习的轨迹规划方法相比，评价函数的设计不再依赖手动设计，以专家规划轨迹的代价最低，且采样规划轨迹与专家规划轨迹的代价的间隔最大为目标，得到的评价网络模型可以评价更加多样的轨迹。

(4)在样本数据集中增加了扰动专家规划轨迹和障碍专家规划轨迹，扩充了样本数据集的多样性和规模，增强了评价网络模型的泛化性能。

附图说明

图1为本发明的流程图；

图2为路径规划算法中笛卡尔坐标系到Frenet坐标系的转换示意图；

图3为实施例中ST轨迹的示意图；

图4为实施例中生成扰动专家规划轨迹的示意图；

图5为实施例中车辆周边区域划分示意图；

图6为实施例中网络结构搜索示意图；

图7为实施例中候选网络结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例1：

一种车辆轨迹评价网络模型的训练方法，包括以下步骤：

获取样本数据集，样本数据集是基于多条采样规划轨迹和多条人类驾驶员驾驶车辆形成的专家规划轨迹得到的；

初始化生成评价网络模型；

以样本数据集为基础，训练评价网络模型，使得专家规划轨迹在评价网络模型中的代价最低，且专家规划轨迹与采样规划轨迹在评价网络模型中的代价的间隔最大。

其中，获取样本数据集的过程如下：获取包含多组实车数据的原始数据集，以原始数据集为基础，通过路径规划算法和采样算法生成多条采样规划轨迹；获取多条人类驾驶员驾驶车辆形成的专家规划轨迹；将采样规划轨迹和专家规划轨迹转换为多维时间序列，得到样本数据集；实车数据包括道路信息、自车状态信息和障碍物信息。

本申请使用EM planner的路径规划方法获得在Frenet坐标系下的路径，笛卡尔坐标系转换到Frenet坐标系后如图2所示，使用五次多项式拟合路径，获得路径曲线方程式，路径曲线方程式如下所示：

l＝c5·s⁵+c4·s⁴+c3·s³+c2·s²+c1·s¹+c0

其中，l(即lateral)为横向位置坐标，s(即station)为纵向位置坐标，c5，c4，c3，c2，c1,c0为多项式系数。

路径为包含车辆位置信息的一系列路径点，即只包含车辆在规划周期内的位置信息，不包括各个位置对应的时间点。获得路径后，在时间维度上对车辆速度进行采样，得到多条包含位置和相对时刻的采样规划轨迹。

采样算法具体为：

获取路径和路径曲线方程；获取规划周期T、时间采样间隔δ、单位速度增量μ、最大采样速度υ、最大采样加速度α、最大采样负加速度-α和车辆在初始时刻t₀的初始速度η；

本实施例中，规划周期T为8s，时间采样间隔为1s，单位速度增量μ为0.5m/s，最大采样加速度α和最大采样负加速度-α分别为2.5m/s²、-2.5m/s²，最大采样速度υ与道路限速相等，比如在主干路，车速不高于60km/h，在支路，车速不高于40km/h。

依次确定各个采样时刻t₁，t₂，t₃……T的速度，其中，相邻采样时刻的速度的差值不超过最大采样加速度α和最大采样负加速度-α；

根据每个采样时刻的速度计算车辆的纵向位置坐标，得到表示时间和纵向位置坐标的ST轨迹{(s0,t₀),(s1,t₁),(s2，t₂)，……(sT，T)}，将ST轨迹中每个采样时刻的纵向位置坐标代入路径曲线方程，得到ST轨迹对应的采样规划轨迹。

以t₁时刻为例，如图3所示，遍历所有的采样速度，若采用μ作为t₁时刻的速度，则ST轨迹的第一个点的纵向位置在s1，若采用3μ作为t₁时刻的速度，则ST轨迹的第一个点的纵向位置在s2。确定t₂时刻的速度时，只能考虑与t₁时刻的速度的差值不超过最大采样加速度α和最大采样负加速度-α的采样速度。这样，可以得到多条ST轨迹，如图3中的ST轨迹1、ST轨迹2、ST轨迹3和ST轨迹4。

得到ST轨迹后，将每个时刻的纵向位置坐标带入路径曲线方程获得对应纵向位置的lateral坐标，即横向位置坐标，由此获得每条ST轨迹对应的SLT轨迹，也称为采样规划轨迹。

为了扩充样本数据集的多样性和规模，有效利用采集的实车数据，增强评价网络模型的泛化性能，在样本数据集中增加扰动专家规划轨迹和障碍专家规划轨迹。

扰动专家规划轨迹的获取过程为：在专家规划轨迹的横向和纵向上改变速度和偏差，得到多条初步规划轨迹，将通过碰撞检测的初步规划轨迹作为扰动专家规划轨迹。本实施例中，如图4所示，黑色实线为专家规划轨迹，在专家规划轨迹的t3，t4，t5时刻对自车在横向上减去的偏差，如图4中浅灰色轨迹所示，其他时刻与专家规划轨迹保持一致，由此获得一条在横向上与专家规划轨迹偏差较小的新样本；在纵向上对专家规划轨迹加入一定扰动，例如增加纵向速度，使自车提前到达最终规划位置，如图4中深灰色轨迹所示，其他时刻的轨迹与专家规划轨迹保持一致，由此获得一条在纵向上与专专家规划轨迹偏差较小的新样本；上述生成的新样本需要进行碰撞检测，与障碍车辆发生碰撞的轨迹(如图4中虚线所示的轨迹)不会加入数据集。

以车辆行驶过程中采集到的障碍车辆的行驶轨迹作为障碍专家规划轨迹。在获取障碍物的行驶轨迹后，去除其中行人和非机动车的运动轨迹，只保留机动车的行驶轨迹；再去除不合理的行驶轨迹，例如停止时间过长，存在超速，碰撞等异常情况，剩下的不存在异常情况的机动车轨迹可以作为碰撞专家规划轨迹。

多维时间序列为状态量在规划周期内的多个时刻的取值，状态量包括道路信息状态量、自车状态信息状态量和障碍物信息状态量；道路信息状态量包括道路的限速；自车状态信息包括速度和加速度；障碍物状态信息状态量包括车辆周边每个区域内距离车辆最佳的障碍物的信息，障碍物信息包括障碍物类型、障碍物的坐标和障碍物的速度。

在实际驾驶过程中，需要考虑以车辆为中心，所有方向上的障碍物，如图5所示，本申请将车辆的周边区域划分为左前方、正前方、右前方、正右方、右后方、正后方、左后方和正左方。由于只有距离车辆最近的障碍物对车辆的决策产生影响，因此只考虑每个区域中距离车辆最近障碍物的状态，即图5中左前方和正左方的车辆，右前方和右后方的行人，对于每个障碍物，将障碍物的类型、是否静止、横向和纵向坐标、横向和纵向的速度、与自车的夹角等作为状态量。

考虑到如果规划轨迹的曲率过大，会对车辆行驶有一定影响，因此规划轨迹的曲率也作为重要因素加入多维时间序列中。

对于评价网络模型，通过网络结构搜索的方式确定评价网络模型的结构，探索网络结构，以反向传播算法学习网络参数，从而得到评价网络模型，以最大化专家规划轨迹与采样规划轨迹的代价的间隔为优化目标，如图6所示，具体为：

将训练集中的多维时间序列作为输入，输入经过候选网络结构得到S1～Sn的输出，将输出乘以a1～an的softmax形式A1～An，再将所有的乘积求和，得到最终的输出；

使用验证集来更新候选网络的权重a1～an，再使用训练集更新候选网络的参数，如果候选网络没有收敛，则重复此步骤直至候选网络收敛：

本实施例中，在确定评价网络模型的结构时，如图7所示，使用以下候选网络结构：LSTM1，隐层节点数为100个；LSTM2，隐层节点数为50个；GRU1，隐层节点数为100个；GRU2，隐层节点数为50个，训练过程中，评价网络的输出计算方式如下：

Z＝exp(a1)+exp(a2)+exp(a3)+exp(a4)

采用交替更新的方式优化候选网络结构的参数W和候选网络结构的权重a1～a4，在候选网络收敛后，再对最终的得到网络结构进行训练。

本实施例还提供了一种车辆轨迹评价网络模型的训练装置，该训练装置失效的功能对应上述训练方法执行的步骤，包括：

样本数据集获取模块，用于获取基于采样规划轨迹和专家规划轨迹的样本数据集，以及进行数据扩充和数据增广，在样本数据集中增加扰动专家规划轨迹和障碍专家规划轨迹；

评价网络模型生成模块，通过网络结构搜索的方式确定评价网络模型的结构，初始化生成评价网络模型；

评价网络模型训练模块，根据样本数据集对评价网络模型进行训练，训练完成的评价网络模型中，专家规划轨迹的代价最低，且专家规划轨迹与采样规划轨迹的代价的间隔最大。

一种存储介质，其上存储有计算机程序，计算机程序被执行时实现评价网络模型训练方法的步骤。

得到评价网络模型后，应用在实车中。实际应用时，获取实车数据后，首先通过路径规划算法及采样算法获得候选轨迹集合；通过比较所有候选轨迹在评价网络模型的代价，选择代价最低的候选轨迹作为推荐行驶轨迹，按照推荐行驶轨迹行驶。

评价网络模型用于评价一条规划轨迹在某些方面的表现，比如安全，舒适性等方面。本申请建立了评价网络模型，人类驾驶轨迹在评价网络模型的评价标准下，能够获得最好的表现，即最低的代价，而一条符合人类驾驶经验的规划轨迹，经过评价网络模型，也能获得最好的评价，即最低的代价，因此，生成多条候选轨迹后，根据评价网络模型输出的代价，选择代价最低的一条轨迹，作为推荐驾驶轨迹，也就是最符合人类驾驶经验的轨迹作为推荐驾驶轨迹。

本申请提供的评价网络模型训练方法，以采集的实车数据为基础，得到采样规划轨迹和人类驾驶员的专家规划轨迹作为样本数据集，通过网络结构搜索的方式确定评价网络模型的结构，训练评价网络模型，越符合人类驾驶经验的规划轨迹在评价网络模型中的代价越低，且采样规划轨迹与专家规划轨迹的代价的间隔最大，这样得到的评价网络模型可以找到最符合人类驾驶经验的规划轨迹。

与传统的轨迹规划方法相比，本申请是基于采集的实车数据实现的，不需要定制化建模或仿真，实现实车数据的持续优化和迭代，能更加快速的适应新增的驾驶场景。

与基于模仿学习的轨迹规划方法相比，评价函数的设计不再依赖手动设计，以专家规划轨迹的代价最低，且采样规划轨迹与专家规划轨迹的代价的间隔最大为目标，得到的评价网络模型可以评价更加多样的轨迹。

在样本数据集中增加了扰动专家规划轨迹和障碍专家规划轨迹，扩充了样本数据集的多样性和规模，增强了评价网络模型的泛化性能。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种车辆轨迹评价网络模型的训练方法，其特征在于，包括以下步骤：

初始化生成评价网络模型；

2.根据权利要求1所述的车辆轨迹评价网络模型的训练方法，其特征在于，获取样本数据集的过程如下：获取包含多组实车数据的原始数据集，以原始数据集为基础，通过路径规划算法和采样算法生成多条采样规划轨迹；获取多条人类驾驶员驾驶车辆形成的专家规划轨迹；将采样规划轨迹和专家规划轨迹转换为多维时间序列，得到样本数据集。

3.根据权利要求2所述的车辆轨迹评价网络模型的训练方法，其特征在于，所述样本数据集中还包括扰动专家规划轨迹转换的多维时间序列，扰动专家规划轨迹的获取过程为：在专家规划轨迹的横向和纵向上改变速度和偏差，得到多条初步规划轨迹，将通过碰撞检测的初步规划轨迹作为扰动专家规划轨迹。

4.根据权利要求2所述的车辆轨迹评价网络模型的训练方法，其特征在于，所述样本数据集中还包括障碍专家轨迹转换的多维时间序列，障碍专家规划轨迹的获取过程为：获取实车数据中的障碍物信息，提取障碍物中机动车的行驶轨迹，去除行驶异常的机动车的行驶轨迹，得到障碍专家规划轨迹。

5.根据权利要求2所述的车辆轨迹评价网络模型的训练方法，其特征在于，所述多维时间序列为状态量在规划周期内的多个时刻的取值，所述状态量包括道路信息状态量、自车状态信息状态量和障碍物信息状态量。

6.根据权利要求5所述的车辆轨迹评价网络模型的训练方法，其特征在于，所述道路信息状态量包括道路的限速；所述自车状态信息包括速度和加速度；所述障碍物信息状态量包括车辆周边各个区域内距离车辆最近的障碍物信息，所述障碍物信息包括障碍物类型、障碍物的坐标和障碍物的速度。

7.根据权利要求2所述的车辆轨迹评价网络模型的训练方法，其特征在于，使用路径规划算法获得车辆的路径和路径曲线方程；使用采样算法对路径进行采样，得到采样规划轨迹，采样过程具体为：

8.根据权利要求1所述的车辆轨迹评价网络模型的训练方法，其特征在于，以网络结构搜索的方式确定评价网络模型的结构，初始化生成评价网络模型，具体为：

9.一种车辆轨迹评价网络模型的训练装置，其特征在于，包括：

10.一种存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被执行时实现如权利要求1-8中任一所述的评价网络模型训练方法的步骤。