CN116820993A

CN116820993A - 一种自动驾驶轨迹预测模型鲁棒性及泛化性测试方法

Info

Publication number: CN116820993A
Application number: CN202310834287.7A
Authority: CN
Inventors: 金高杰; 张亮; 李仞珏; 张立军
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2023-07-07
Filing date: 2023-07-07
Publication date: 2023-09-29

Abstract

本发明公开了一种自动驾驶轨迹预测模型鲁棒性及泛化性测试方法，其步骤包括：1)在测试平台中设置若干自动驾驶轨迹预测模型、一运行脚本以及多个通用统一数据格式的数据集；当用户需要上传新的数据集时，测试平台接收该新的数据集以及用户为该新的数据集编写的数据集转换脚本，并在测试平台中配置该新的数据集的数据目录和数据设置，用于测试平台调用该新的数据集时根据转换脚本将其转换为通用统一数据格式的数据集；2)选取一自动驾驶轨迹预测模型作为待评估模型及数据集，测试平台针对所选数据集中的场景进行攻击，生成攻击数据，运行脚本利用攻击数据和对应数据集对待评估模型进行测试；3)测试平台根据待评估模型的测试结果确定其鲁棒性。

Description

一种自动驾驶轨迹预测模型鲁棒性及泛化性测试方法

技术领域

本发明涉及计算机软件技术领域，特别涉及一种自动驾驶轨迹预测模型鲁棒性及泛化性测试方法。

背景技术

在过去几十年中，深度学习领域的持续研究推动了各种神经网络模型算法的涌现。这些算法不仅展现出惊人的学习能力，适用于各类数据，还渗透进入了各行各业，成为各个领域不可或缺的工具。深度学习的发展促进了自动驾驶相关技术的迅猛发展，这些技术正逐渐走进人们的生活中。在自动驾驶系统中，感知和预测是重要的组成部分之一。虽然近年来轨迹预测的准确性得到了长足的进步，出现了多种表现优异的轨迹预测模型，但是对其安全性(具体表现为鲁棒性，即模型面对不影响历史轨迹本身属性的扰动攻击保持预测准确性的能力)和泛化性方面的评估相对缺乏。

现有的许多测试评估工作往往基于多种不同的数据集，采用的方法也纷繁多样，配置繁杂，缺乏统一的评估标准，从而给不同模型的可靠性测试评估和比较带来了较大的困难。

发明内容

针对现有技术存在的不足，本发明的目的在于提供一种通用的对于不同数据集、不同模型、不同攻击方法的自动驾驶轨迹预测模型鲁棒性及泛化性测试方法，以解决对于不同模型的可靠性评估工作量大、配置繁杂、编写代码多、标准难以统一的问题。

为解决上述技术问题，本发明创建了一种基于Python的对自动驾驶轨迹预测模型可靠性进行评估的方法，用户使用步骤如下：

用户使用步骤一、用户将自己提供的数据集按照平台提出的通用统一数据格式编写数据集转换脚本，在平台中配置新加入数据集的数据目录和数据设置，其后平台自动调用用户脚本生成标准格式数据。平台内置了已经完成通用统一数据格式转换的几种流行数据集，如果使用平台提供的数据集进行评估，用户可以跳过本步骤；

用户使用步骤二、用户为待评估模型编写适配平台的运行脚本，运行脚本会接受一组数据，这组数据既包括应有的测试数据，也包括平台通过攻击算法生成的攻击数据。用户编写的脚本需要处理这组数据，将标准格式数据转换为适配模型的输入数据，使用待评估模型进行预测，并将预测结果转换为平台通用标准格式数据；

用户使用步骤三、在平台配置文件中添加模型与数据集配置，运行平台，生成评估结果。配置文件是为了平台可以确定要对哪个模型在哪个数据集上进行测试。

因为不同的模型最终预测时的数据格式是不同的，要对一个模型进行安全性验证，势必要在多个数据集上进行验证，而要是每一个模型与每一个数据集之前都编写一套适配的代码，工作量非常大也非常麻烦；所以本发明将模型只适配一种标准数据格式，并且将其他的数据集都转换成标准数据格式，便可以只编写一次运行脚本，在所有其他的数据集上都可以执行。作为本发明的进一步优选，步骤一中描述的通用数据集格式定义如下：

观测长度：表示观测了多少帧；

预测长度：表示将要预测多少帧；

时间间隔：表示帧与帧之间间隔多长时间；

特征维度数量：表示当前数据集在基础属性之外有多少不同的特征，例如物体大小，朝向，速度等；

物体：记录了当前数据中每个物体的具体信息。

对于物体，其有统一格式的数据，我们使用该物体的唯一编码来定位其数据，每个物体的格式如下：

类型：表示该物体的类型，例如汽车，行人等；

是否完整：表示该物体是否在所有帧上都有观测数据；

是否可见：表示该物体是否在观测的最后一帧有观测数据；

观测轨迹：表示该物体在所有观测帧上的位置数据；

观测特征：表示该物体在所有观测帧上的特征数据；

是否有观测数据：表示该物体在每一观测帧上是否有数据；

未来轨迹：表示该物体在所有未来帧上的位置数据；

未来特征：表示该物体在所有未来帧上的特征数据；

是否有未来数据：表示该物体在每一未来帧上是否有数据；

预测轨迹：表示该物体在所有未来帧上的预测数据。

作为本发明的进一步优选，步骤一中平台内置的进行了标准格式转换的数据集如下：

Apolloscape：ApolloScape是Apollo自动驾驶项目的一部分，旨在促进自动驾驶各个方面的创新，包括感知、导航和控制。Apolloscape轨迹数据集包括基于摄像头的图像、激光雷达扫描点云和手动注释的轨迹。它是在各种照明条件和交通密度下收集的，更具体地说，它包含了高度复杂的交通流混合着车辆、骑行者和行人；

nuScenes：nuScenes数据集是由Motional团队(前身为nuTonomy)开发的用于自动驾驶的公共大规模数据集，其在波士顿和新加坡这两个以交通拥堵和高难度驾驶情况著称的城市中收集了1000个行车场景。这些20秒长的场景是手动选择的，以展示多样化和有趣的驾驶操作、交通状况和意外行为；

NGSIM：Next Generation Simulation(NGSIM)计划的研究人员在洛杉矶南行美国101号公路和Lankershim Boulevard、Emeryville东行I-80以及乔治亚州亚特兰大Peachtree Street收集了详细的车辆轨迹数据。该车辆轨迹数据提供了每个0.1秒内研究区域内每辆车精确位置，从而得到了详细的道路位置和相对于其他车辆位置信息；

Argoverse 1：Argoverse 1的数据来自于Argo AI在迈阿密和匹兹堡两个美国城市进行自动驾驶测试车辆操作的区域子集，Argoverse 1运动预测数据集是一个由324,557个场景组成的策划集合，每个场景长达5秒，用于训练和验证。每个场景包含以10Hz采样的每个跟踪对象的2D鸟瞰视图质心。

接收到用户提供的数据集与模型运行脚本后，平台运行步骤如下：

平台运行步骤一、检查配置项中的数据集是否都已经生成。如果没有(说明用户提供了新数据集)，则调用用户使用步骤一中的数据生成脚本生成数据。载入配置的模型运行脚本与数据集；一个数据集中有着多组数组，一组数据中有着多个攻击项。

平台运行步骤二、对数据集中待预测场景进行攻击，生成当前数据在当前攻击项下的攻击数据，并调用模型运行脚本，传入数据集与攻击数据进行预测，直到所有攻击项都完成了攻击并生成了相应的预测结果。重复此步骤，直到完成数据集中所有数据的攻击和预测；

平台运行步骤三、保存预测结果，对数据进行分析，评估当前模型在测试数据及不同攻击方法下的表现，并将攻击结果进行可视化。

作为本发明的进一步优选，平台运行步骤二中描述的攻击项如下：

白盒测试：基于投影梯度下降(PGD)进行设计，随机生成初始扰动数据，之后约束扰动，将扰动添加到历史轨迹上，进行预测和计算损失，之后使用梯度下降更新扰动，最后找到最佳扰动；

黑盒测试：基于粒子群优化(PSO)的黑盒攻击方法，初始化粒子为一个扰动序列，优化目标就是损失，搜索空间由硬约束条件定义，最后找出最佳扰动。

白盒测试与黑盒测试中都包含6个攻击项：

ADE：攻击目标为使预测轨迹与实际轨迹每个对应位置的平均偏差尽可能大；

FDE：攻击目标为使预测轨迹与实际轨迹的终点位置偏差尽可能大；

Front：攻击目标为使预测轨迹与实际轨迹在纵向方向正前方偏离程度尽可能大；

Rear：攻击目标为使预测轨迹与实际轨迹在纵向方向正后方偏离程度尽可能大；

Left：攻击目标为使预测轨迹与实际轨迹在横向方向左侧偏离程度尽可能大；

Right：攻击目标为使预测轨迹与实际轨迹在横向方向右侧偏离程度尽可能大。

作为本发明的进一步优选，平台运行步骤三中描述的评价指标具体如下：

最小终点位移误差(minFDE)：最佳预测轨迹终点与实际轨迹终点之间的L2距离；

最小平均位移误差(minADE)：最佳预测轨迹与实际轨迹之间的平均L2距离；

左侧平均偏差：预测轨迹对于实际轨迹确定的方向向左的偏差量；

右侧平均偏差：预测轨迹对于实际轨迹确定的方向向右的偏差量；

前侧平均偏差：预测轨迹对于实际轨迹确定的方向向前的偏差量；

后侧平均偏差：预测轨迹对于实际轨迹确定的方向向后的偏差量；

误差率(MR)：根据最小终点位移误差，假设最佳预测轨迹终点在实际轨迹终点2.0米以内的场景数为m，总场景数为n，则误差率为(n-m)/n；

可行驶区域符合率(DAC)：假设一个模型产生了a个可能的未来轨迹，并且其中b个在某些时刻退出了可行驶区域，则该模型的DAC为(a-b)/a；即a为待评估模型产生的未来轨迹最大个数，b为退出可行驶区域的未来轨迹个数；

概率化最小终点位移误差(p-minFDE)：预测的最佳路径终点与实际路径终点的L2距离加上(-log(p),-log(0.05))，其中p对应于预测的最佳路径概率值；

概率化最小平均位移误差(p-minADE)：预测的最佳路径与实际路径的平均L2距离加上(-log(p),-log(0.05))，其中p对应于预测的最佳路径概率值；

概率化误差率(p-MR)：类似于误差率，唯一不同之处在于当最佳预测轨迹的终点误差小于2.0m时，以(1-p)而不是0作为当前场景误差，其中p对应于预测出来的最佳路径概率值，最后总误差除以总场景数n作为概率化误差率；设m个场景的(1-p)累加起来为s，则总误差为s+n-m。

Brier最小终点位移误差(brier-minFDE)：预测的最佳路径终点与实际路径终点的L2距离加上(1-p)^2，其中p对应于预测出来的最佳路径概率值；

Brier最小平均位移误差(brier-minADE)：预测的最佳路径与实际路径的平均L2距离加上(1-p)^2，其中p对应于预测出来的最佳路径概率值。

以上评价指标与攻击项相对应，每一项指标的评估结果将在平台生成数据文档，包含三列数据：

第一列表示是第几组数据；第二列表示数据内被攻击的目标的编号；第三列为评价的值(绝对值越小表明模型在对应场景的预测的鲁棒性越强)。

作为本发明的进一步优选，平台运行步骤三中攻击结果的可视化具体如下：

用空心圆点标记预测目标车辆与周围车辆不同时刻的位置，用实线连接的即为目标车辆的历史轨迹与真实轨迹，用空心星号标记预测车辆或攻击车辆的每一帧历史位置与预测位置，其中用实线连接的是历史轨迹，虚线连接的是预测轨迹。

一种测试平台，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行上述方法中各步骤的指令。

一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述方法的步骤。

本发明的自动驾驶轨迹预测模型鲁棒性及泛化性测试平台与现有技术相比，有以下优势：

(1)通过提供一种对于不同数据集、不同模型、不同攻击方法的自动驾驶轨迹预测模型均可进行鲁棒性及泛化性测试的平台，解决了对于不同轨迹预测模型的可靠性评估工作量大、配置繁杂、编写代码多、标准难以统一的问题。具有很强的通用性和可拓展性；

(2)实现了一整套规范化的体系与评价标准，可以对今后的测试与开发工作有较强的指导和参考意义。

附图说明

图1为本发明实现的自动驾驶轨迹预测模型鲁棒性及泛化性测试平台使用流程图。

图2为本发明实现的自动驾驶轨迹预测模型鲁棒性及泛化性测试平台运行流程图。

图3为本发明实现的自动驾驶轨迹预测模型鲁棒性及泛化性测试平台对GRIP模型在Apolloscape数据集上进行白盒攻击的可视化效果图；

(a)为原始预测误差，(b)为定向攻击后平均误差，(c)为定向攻击后终点位移误差，

(d)为定向攻击后前向偏差，(e)为定向攻击后后向偏差、(f)为定向攻击后左侧偏差，

(g)为定向攻击后右侧偏差。

具体实施方式

为了更加清楚明白地描述本发明的目的、技术方案及优点，下面将结合附图以及实施案例对本发明进行进一步说明。以下所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1展示了本发明实现的自动驾驶轨迹预测模型鲁棒性及泛化性测试平台用户使用的具体流程，包括以下步骤：

用户使用步骤一、用户将自己提供的数据集按照平台提出的通用统一数据格式编写数据集转换脚本，在平台中配置新加入数据集的数据目录和数据设置，其后平台自动调用用户脚本生成标准格式数据。平台内置了已经完成通用统一数据格式转换的当前流行的几种数据集，如果使用平台提供的数据集进行评估，用户可以跳过本步骤；

用户使用步骤三、在平台配置文件中添加模型与数据集配置，运行平台，生成评估结果。

作为本发明的进一步优选，步骤一中描述的通用数据集格式定义如下：

观测长度：表示观测了多少帧；

预测长度：表示将要预测多少帧；

时间间隔：表示帧与帧之间间隔多长时间；

物体：记录了当前数据中每个物体的具体信息。

类型：表示该物体的类型，例如汽车，行人等；

是否完整：表示该物体是否在所有帧上都有观测数据；

是否可见：表示该物体是否在观测的最后一帧有观测数据；

观测轨迹：表示该物体在所有观测帧上的位置数据；

观测特征：表示该物体在所有观测帧上的特征数据；

是否有观测数据：表示该物体在每一观测帧上是否有数据；

未来轨迹：表示该物体在所有未来帧上的位置数据；

未来特征：表示该物体在所有未来帧上的特征数据；

是否有未来数据：表示该物体在每一未来帧上是否有数据；

预测轨迹：表示该物体在所有未来帧上的预测数据。

作为本发明的进一步优选，用户使用步骤三中提到的模型与数据集配置如下：

数据集配置：数据集名称，观测帧数，预测帧数，时间间隔，攻击长度，数据目录；

模型配置：模型名称，数据集名称，模型地址，其他个性化配置。

图2展示了本发明实现的自动驾驶轨迹预测模型鲁棒性及泛化性测试平台运行的具体流程，包括以下步骤：

平台运行步骤一、检查配置项中的数据集是否都已经生成。如果没有(说明用户提供了新数据集)，则调用用户使用步骤一中的数据生成脚本生成数据。载入配置的模型运行脚本与数据集；

平台运行步骤二、对数据集中待预测场景进行攻击，生成当前数据在当前攻击项下的攻击数据，并调用模型运行脚本，传入测试数据与攻击数据进行预测，直到所有攻击项都完成了攻击并生成了相应的预测结果。重复此步骤，直到完成数据集中所有数据的攻击和预测；

白盒测试与黑盒测试中都包含6个攻击项：

可行驶区域符合率(DAC)：假设一个模型产生了n个可能的未来轨迹，并且其中m个在某些时刻退出了可行驶区域，则该模型的DAC为(n-m)/n；

概率化误差率(p-MR)：类似于误差率，唯一不同之处在于当最佳预测轨迹的终点误差小于2.0m时，以(1-p)而不是0作为当前场景误差，其中p对应于预测出来的最佳路径概率值，最后总误差除以总场景数作为概率化误差率；

用蓝色点标记预测目标车辆与周围车辆不同时刻的位置，用蓝色实线连接的即为目标车辆的历史轨迹与真实轨迹，用红色点标记预测车辆或攻击车辆的每一帧历史位置与预测位置，其中用实线连接的是历史轨迹，虚线连接的是预测轨迹，每个小图的下标说明了对应的攻击项。

图3为本发明实现的自动驾驶轨迹预测模型鲁棒性及泛化性测试平台对GRIP模型在Apolloscape数据集上进行白盒攻击的可视化效果图。所有子图均使用同一组测试数据；其中图3(a)表示的是场景内所有物体的轨迹，其中空心圆点表示所有物体的历史、未来轨迹，空心星点表示物体的预测轨迹；在剩下的攻击图示中，只有一个物体有着空心星点，也就是被攻击物体的预测轨迹。

相应用户使用过程包括以下几个步骤：

用户使用步骤一、此处Apolloscape为平台内置测试数据集，故不需要设置数据集；

用户使用步骤二、用户为待评估模型GRIP编写适配平台的运行脚本，运行脚本会接受一组数据，这组数据既包括应有的测试数据，也包括平台通过PGD攻击生成的攻击数据。用户编写的脚本需要处理这组数据，将标准格式数据转换为适配模型的输入数据，使用待评估模型进行预测，并将预测结果转换为平台通用标准格式数据；

用户使用步骤三、在平台配置文件中添加模型与数据集配置：配置模型为GRIP，GRIP模型下配置数据集Apolloscape，配置GRIP模型所需要的参数，如训练好的模型的文件地址，修改比例，节点数量等。配置完成后，运行平台启动脚本test，指定模型为GRIP、数据集为Apolloscape、黑盒攻击为false(即使用白盒攻击)，生成图3所示可视化效果。

最后需要说明的是，以上实施例仅用以说明本发明的技术方案而非限制技术方案，本领域的普通技术人员应当理解，那些对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，均应涵盖在本发明的权利要求范围当中。

Claims

1.一种自动驾驶轨迹预测模型鲁棒性及泛化性测试方法，其步骤包括：

1)在测试平台中设置若干自动驾驶轨迹预测模型、一运行脚本以及多个通用统一数据格式的数据集；当用户需要上传新的数据集时，测试平台接收该新的数据集以及用户为该新的数据集编写的数据集转换脚本，并在测试平台中配置该新的数据集的数据目录和数据设置，用于测试平台调用该新的数据集时根据该数据集转换脚本将该新的数据集转换为通用统一数据格式的数据集；

2)选取一所述自动驾驶轨迹预测模型作为待评估模型和对该待评估模型进行测试的数据集，所述测试平台针对所选数据集中的场景进行攻击，生成对应数据集的攻击数据，所述运行脚本利用所述攻击数据和对应数据集对该待评估模型进行测试；当用户需要上传新的待评估模型时，所述测试平台接收该新的待评估模型，所述运行脚本利用该新的待评估模型对应的攻击数据和数据集对该新的待评估模型进行测试；

3)所述测试平台根据待评估模型的测试结果确定该待评估模型的鲁棒性。

2.根据权利要求1所述的方法，其特征在于，所述通用统一数据格式包括：观测长度，用于记录观测的帧数；预测长度，用于记录要预测的帧数；帧与帧之间的时间间隔；特征维度数量；物体，用于记录当前数据中每个物体的具体信息。

3.根据权利要求2所述的方法，其特征在于，所述物体的数据格式包括：物体的类型、是否完整、观测轨迹、观测特征、是否有观测数据、未来轨迹、未来特征、是否有未来数据和预测轨迹。

4.根据权利要求1或2或3所述的方法，其特征在于，所述测试平台中配置的多个通用统一数据格式的数据集包括：Apolloscape轨迹数据集、nuScenes数据集、NGSIM车辆轨迹数据集和Argoverse 1运动预测数据集。

5.根据权利要求1或2或3所述的方法，其特征在于，分别利用白盒测试、黑盒测试生成所述攻击数据。

6.根据权利要求5所述的方法，其特征在于，所述白盒测试、黑盒测试均包含6个攻击项：

a)ADE：攻击目标为使预测轨迹与实际轨迹每个对应位置的平均偏差尽可能大；

b)FDE：攻击目标为使预测轨迹与实际轨迹的终点位置偏差尽可能大；

c)Front：攻击目标为使预测轨迹与实际轨迹在纵向方向正前方偏离程度尽可能大；

d)Rear：攻击目标为使预测轨迹与实际轨迹在纵向方向正后方偏离程度尽可能大；

e)Left：攻击目标为使预测轨迹与实际轨迹在横向方向左侧偏离程度尽可能大；

f)Right：攻击目标为使预测轨迹与实际轨迹在横向方向右侧偏离程度尽可能大。

7.根据权利要求6所述的方法，其特征在于，确定该待评估模型的鲁棒性的指标包括：

最小终点位移误差：最佳预测轨迹终点与实际轨迹终点之间的L2距离；

最小平均位移误差：最佳预测轨迹与实际轨迹之间的平均L2距离；

误差率＝(n-m)/n；其中，最佳预测轨迹终点在实际轨迹终点设定距离内的场景数为m，总场景数为n；

可行驶区域符合率＝(a-b)/a；其中，a为待评估模型产生的未来轨迹最大个数，b为退出可行驶区域的未来轨迹个数；

概率化最小终点位移误差：预测的最佳路径终点与实际路径终点的L2距离加上(-log(p),-log(0.05))，其中p对应于预测的最佳路径概率值；

概率化最小平均位移误差：预测的最佳路径与实际路径的平均L2距离加上(-log(p),-log(0.05))；

概率化误差率：当最佳预测轨迹的终点误差小于设定距离时，以(1-p)作为当前场景误差，利用待评估模型的总误差除以总场景数n作为概率化误差率；

Brier最小终点位移误差：预测的最佳路径终点与实际路径终点的L2距离加上(1-p)^2；

Brier最小平均位移误差：预测的最佳路径与实际路径的平均L2距离加上(1-p)^2。

8.一种测试平台，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1至7任一所述方法中各步骤的指令。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一所述方法的步骤。