CN110991523A

CN110991523A - 一种面向无人驾驶车辆检测算法性能的可解释性评估方法

Info

Publication number: CN110991523A
Application number: CN201911203533.9A
Authority: CN
Inventors: 刘跃虎; 尚碧瑶; 张驰
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2020-04-10

Abstract

本发明公开一种面向无人驾驶车辆检测算法性能的可解释性评估方法，包括以下步骤：对测试样例进行语义概念的描述并构建语义概念空间；利用卷积神经网络提取测试样例的特征并构建测试样例空间；利用岭回归探索测试样例与待评估车辆检测算法的评估结果之间的内在联系；利用字典学习进行测试样例的语义概念表征学习；通过回归的方法对语义概念与评估结果的关联性进行建模，再根据建模结果进行面向无人驾驶车辆检测算法性能的可解释性评估，该方法实现对面向无人驾驶车辆检测算法性能的可解释性评估。

Description

一种面向无人驾驶车辆检测算法性能的可解释性评估方法

技术领域

本发明属于智能交通系统技术中的无人驾驶评估领域，具体涉及一种面向无人驾驶车辆检测算法性能的可解释性评估方法。

背景技术

随着无人车技术的迅速发展，为了保障无人驾驶车辆的安全性，针对无人驾驶车辆的智能测试和系统评估成为了核心研究之一。面向无人驾驶车辆检测算法即交通场景视觉感知算法作为无人车环境感知算法的基础，也被研究者通过各种智能测试方法不断检验。

无人车离线测试作为环境感知算法的智能测试方法之一，它通过组织不同交通场景下采集的多传感数据序列，按照确定的时-空顺序输入自动驾驶系统认知算法，利用特定指标的计算方法来对其性能进行评估。常见的无人车算法评估计算方法，例如准确率，召回率等等，都是在黑盒测试的基础上对算法性能的量化表示，而算法测试评估的目的不仅在于特定指标值的对比，更在于发现算法性能表现的潜在模式，如算法在不同测试用例下的性能变化规律。从而为测试评估提供补充信息，有助于发现视觉感知算法性能表现的潜在规律，例如算法盲点，崩溃模式等等。

发明内容

本发明的目的在于克服上述现有技术的缺点，提供了一种面向无人驾驶车辆检测算法性能的可解释性评估方法，该方法实现对面向无人驾驶车辆检测算法性能的可解释性评估。

为达到上述目的，本发明所述的面向无人驾驶车辆检测算法性能的可解释性评估方法包括以下步骤：

对测试样例进行语义概念的描述并构建语义概念空间；利用卷积神经网络提取测试样例的特征并构建测试样例空间；利用岭回归探索测试样例与待评估车辆检测算法的评估结果之间的内在联系；利用字典学习进行测试样例的语义概念表征学习；通过回归的方法对语义概念与评估结果的关联性进行建模，再根据建模结果进行面向无人驾驶车辆检测算法性能的可解释性评估。

具体包含以下步骤：

1)构建语义概念空间

基于领域知识对测试样例进行语义概念的描述，并构建语义概念空间，将针对交通场景测试样例的语义概念分为图像级语义概念及目标级语义概念，并利用语义概念描述测试样例；

2)构建测试样例空间

利用卷积神经网络提取测试样例的特征，并构建测试样例空间，再分别利用不同的预训练网络对图像级及目标级的特征进行提取；

3)探究测试样例与评估结果内在联系

对车辆检测算法输入不同测试样例，获得不同评估结果，再对测试样例的特征变化与其对应的不同评估结果之间利用岭回归进行相关分析；

4)隐空间嵌入与回归分析

利用字典学习联合测试样例空间和语义概念空间学习隐空间，进行测试样例的语义概念表征学习，再通过回归的方法对语义概念与评估结果的关联性进行建模，并在隐空间嵌入的基础上，进行隐空间与输出评估结果空间之间的关联性建模；

5)联合建模与计算

使用隐空间作为步骤4)中隐空间嵌入与回归方法的中间变量，联合求解隐空间嵌入与语义-性能回归问题，同时利用步骤3)分析得到的关联结果对字典的学习过程进行约束，再利用隐空间字典学习框架通过迭代求取整体最优解；

6)评估解释

利用目标函数各项的映射系数与线性关系推导出不同语义概念在特定测试样例范围内对评估结果的影响情况。

步骤1)的具体操作过程为：

1.1)基于领域知识提出语义概念时分两类概念：一类概念为描述测试样例整体特征的图像级语义概念，即对交通场景的基本描述；另一类概念为在任务间具有特异性的语义概念，记作目标级语义概念；

1.2)在构建语义概念空间时，图像级概念分为道路类型、场景类型、时间类型及天气类型，其中，道路类型包括高速、乡村、城区、居民区及郊区；场景类型包括隧道、路口、施工路段、铁路、收费站及高架桥；时间类型包括白天、黄昏及夜晚；天气类型包括晴天、阴天、多云、雨天、雪天及雾天，以上概念中，同一测试样例的场景类型可以为多个，同一测试样例的道路类型、时间类型及天气类型为唯一的，设量化后所得图像级概念描述矩阵为A_I；

1.3)在构建语义概念空间时，车辆检测任务的目标级概念包括车辆高度、车辆宽度、距离视点车辆的纵向距离、距离视点车辆的横向距离、遮挡程度及截断程度，标注结果为像素值，该标注结果通过以原测试样例的像素大小为标准进行转换计算，再通过归一化将其值置于0和1之间得到，设量化后所得目标级概念描述矩阵为A_O；

1.4)将量化后所得图像级概念描述矩阵A_I和量化后所得目标级概念描述矩阵A_O进行矩阵拼接，得针对任务的语义概念A_S＝{A_I，A_O}，其中，同一帧图像上的目标共享相同的图像级语义概念，A_S即为语义概念空间表征。

步骤2)的具体操作过程为：

2.1)根据语义概念的不同分类，测试样例的空间构建同样分为图像级特征空间及目标级特征空间，在提取图像级特征时，使用原始图像，且目标级图像在原始图像上进行裁剪得到，设定目标车辆在原始图像中的横坐标为x、纵坐标为y、车辆宽度为w以及车辆高度为h，由于正检与否与IOU阈值有关，故规定范围内的特征均需被考虑，其中，IOU阈值为：

2.2)将原始图像作为输入，利用在大型场景分类数据集Places365上预训练的VGG16网络，提取VGG16网络的FC7层4096维特征作为图像级特征X_I；

2.3)将裁剪得到的目标图像作为输入，利用在大型物体分类数据集ImageNet上预训练的VGG16网络，提取VGG16网络的FC7层4096维特征作为目标级特征X_O；

2.4)将图像级特征X_I和目标级特征X_O直接进行矩阵拼接，得8192维特征X_S＝{X_I，X_O}，其中，同一帧图像上的目标共享相同的图像级特征，X_S即为测试样例空间表征。

步骤3)的具体操作过程为：

3.1)针对车辆检测任务对待评估车辆检测算法进行测试样例的输入，得待评估车辆检测算法的评估结果O_S；

利用包括IOU，Precision，Recall，F-measure等针对车辆检测任务的评估方法对输出进行计算后得算法评估结果，即为O_S；

3.2)设φ_S表示测试样例特征与评估结果O_S之间的相关性，使用岭回归求解φ_S的方法为：

得φ_S的解析解为：

步骤4)的具体操作过程为：

4.1)设Y_s为嵌入了语义概念的测试样例空间的降维隐空间，W为从语义概念A_s隐空间Y_s的映射，字典D学习了从高维测试样例空间到隐空间的降维关系，则隐空间嵌入如下式所示：

4.2)在步骤4.1)的基础上加入从隐空间Y_s到评估结果O_s的回归，其中，回归系数矩阵为φ_Y，联合求解隐属性嵌入和性能回归的目标函数为：

步骤5)的具体操作为：

5.1)使用测试样例与评估结果之间的直接相关性作为一项约束，保证从测试样例到语义概念，再到评估结果多项之间的关联一致性。利用分别借助原始数据X_s和隐属性Y_s，与测试输出之间的相关性矩阵φ_s与φ_Y构建一致性约束，并建立完整解释性框架目标函数为：

5.2)将测试样例空间X_s、语义概念空间A_s、车辆检测算法的评估结果O_s及测试样例空间与评估结果之间的关联矩阵φ_s输入到完整解释性框架目标函数中，得隐空间Y_s、测试样例空间与隐空间之间的映射字典D、隐空间与语义概念空间之间的映射W及评估结果与隐空间之间的回归矩阵φ_Y；

其中，所述完整解释性框架目标函数为非凸函数，但对于每一项而言，固定其他变量时该项为凸函数，故利用交替优化迭代求解所述完整解释性框架目标函数，得解释矩阵φ_YW。其中，求解的具体过程为：

计算

利用

求解D；

计算

计算

其中，

步骤6)的具体操作为：

根据目标函数近似线性的关系

通过解释矩阵φ_YW解释描述在特定测试样例范围内的语义概念对评估结果的影响关系，其中，解释矩阵φ_YW中数值的符号用于解释语义概念对评估结果影响的正负相关性，对于待测算法而言，负相关性对应的语义概念需要关注，因为解释矩阵φ_YW中的数值为负号时表示：相对其他语义概念，对车辆检测算法输入包含当前语义概念的图像或目标时，会使得车辆检测算法的评估结果变差。解释矩阵φ_YW中数值的绝对值用于解释当前语义概念对评估结果的影响大小，绝对值越大，影响越大，反之，影响越小。

本发明具有以下有益效果：

本发明面向无人驾驶车辆检测算法性能的可解释性评估方法再具体操作时，先构建语义概念空间及测试样例空间，根据黑箱测试的原理，利用岭回归探索测试样例与待评估车辆检测算法的评估结果之间的内在联系，并通过回归的方法对语义概念与评估结果的关联性进行建模，并根据建模的结果对待评估检测算法的评估结果，由于不同测试样例对交通场景环境感知算法的不同影响可由人类能够理解的语义概念所描述，例如，隧道场景的条件下，待测的无人车环境感知能力算法的表现结果可能较差；而高速道路时，算法的表现结果较好，所以本发明能够科学合理地解释环境感知算法在由不同语义概念描述的不同测试样例下的表现情况。

附图说明

图1为本发明的实现框架图；

图2为测试中各个空间的具体实现以及解释性与各空间的关系图；

图3为目标函数矩阵优化及解释过程示意图；

图4为目标级图像的裁剪方法图；

图5为图像级的仿真实验解释矩阵图；

图6为图像级仿真实验解释矩阵的有效性验证图。

具体实施方式

本发明所述的面向无人驾驶车辆检测算法性能的可解释性评估方法包括以下步骤：

对测试样例进行语义概念的描述并构建语义概念空间；利用卷积神经网络提取测试样例的特征并构建测试样例空间；利用岭回归探索测试样例与待评估车辆检测算法的评估结果之间的内在联系；利用字典学习进行测试样例的语义概念表征学习；通过回归的方法对语义概念与评估结果的关联性进行建模。

具体包含以下步骤：

1)构建语义概念空间

2)构建测试样例空间

3)探究测试样例与评估结果内在联系

4)隐空间嵌入与回归分析

5)联合建模与计算

6)评估解释

其中，步骤1)的具体操作过程为：

步骤2)的具体操作过程为：

步骤3)的具体操作过程为：

得φ_S的解析解为：

步骤4)的具体操作过程为：

步骤5)的具体操作为：

计算

利用

求解D；

计算

计算

其中，

步骤6)的具体操作为：

根据目标函数近似线性的关系

通过解释矩阵φ_YW解释描述在特定测试样例范围内的语义概念对评估结果的影响关系，其中，解释矩阵φ_YW中数值的符号用于解释语义概念对评估结果影响的正负相关性，对于待测算法而言，负相关性对应的语义概念需要特别关注。因为解释矩阵φ_YW中的数值为负号时表示：相对其他语义概念，对车辆检测算法输入包含当前语义概念的图像或目标时，会使得车辆检测算法的评估结果变差。解释矩阵φ_YW中数值的绝对值用于解释当前语义概念对评估结果的影响大小，绝对值越大，影响越大，反之，影响越小。

车辆检测算法的图像级评估解释仿真实验

数据集准备

与目前存在的大部分数据集相似，仿真实验所使用的EVB数据集也将标注重点放在目标的类别上，共计包含11个车辆与道路信息的标签，边框与坐标，另外，不同的地方在于TSD数据集还包含21个场景属性(天气、时间、场景类型、道路类型和光照)以更加完备的描述该图像数据集，以及两个与车辆边框有关的属性，车辆的截断百分比和车辆的遮挡百分比。在数据的采集过程中，有五路摄像机同时处于同坐状态，两两之间的夹角为36°，因此五路摄像机的拍摄结果综合分析，便可以获得完整180°的视频视角。

选择车载三号摄像机所拍摄的视频数据生成原始的图片数据，即摄像机所对应的角度为车辆行驶方向的正前方，由于图片数据是从大量的视频数据中截取得到的，大约有3万张，在这些图片中不可避免地会出现场景过于连续或者过于相似的的图片，该问题可以通过四人随机抽取的方式来弥补缺陷，以增加数据集的复杂度及多样性，最终挑选出1400张图片作为EVB数据集最终的内容。

EVB数据集中每一帧数据的来源均为西安交通大学无人车在西安和常熟两地进行实地测试时所采集的视频信息，人工筛选出有代表性的帧数据，使得场景的多样性与复杂度实现最大化，最终筛选出的1400张图片作为EVB测试数据集的数据构成，每张图片的大小均为1280×1024。

标注过程中，将整个EVB测试数据集随机平均分为四等份，每一份共包含350帧图片，分别由四个人来执行标注工作。标注工程一共分为两轮，在第一轮标注中，标注者应要求将图像中所有11个标签类别和2个车辆信息所指示的场景全部标注出来，并且选择相对应的场景属性。标签类别分别有以下几种，汽车、公交车、卡车、摩托车、自行车、三轮车、有轨电车、行人、交通标识、交通信号灯以及司机。车辆信息为遮挡和截断。场景属性分为以下5大类，21小类。道路类型包括高速、乡村、城区、社区以及郊区。时间包括白天、黄昏以及夜晚；场景类型包括隧道、路口、施工、铁路、收费站和高架桥；天气类型包括晴天、阴天、多云、雨天、雪天和雾霾天气；最后还有单独的一类，复杂光照；在第二轮交叉验证中，四位标注者分别以等间隔采样的方式来验证其它几位标注者的标注质量，以确保标注结果的准确性。

仿真实验及细节

作为对比选取Mask-RCNN、SSD和YOLO三种车辆检测算法的检测结果来作为测试基准，为了保证实验的平等与可解释性，三种算法均在MS-COCO数据集上进行了预训练并在EVB数据集上获取了图像级别的检测结果。在对数据进行实验验证前，应该对数据进行标准化预处理以此期得到更好的结果；迭代次数设置为200轮次以希望变量能够收敛到全局最优并做更好的比较。其中，数据预处理选择中心化与Z-Score标准化两种，故加上未经过预处理的实验尝试，针对每一个特定的算法，均有三种不同数据输入的实验方式。考虑到实验中需要将可解释性表征Y_s与属性A_s能够通过隐式映射W在一定程度上对应起来，因此需要Y_s尽可能的准确反映出A_s的特性。考虑到A_s在标注过程中分类的特点，根据不同的语义特征划分成5大类，故实验中希望Y_s能够通过5维向量来描述图像特征，接下来的实验结果证明，这种假设是合理有效的。

仿真结果验证及解释

为了保证学习到的Y_s能够正确有效的表征原始的测试数据，需要验证字典D的有效性，因为字典D的优劣决定了Y_s的优劣，并且字典D同时也作为可解释性模型的验证。验证字典的有效性所采用的方法是利用D^-1X_s＝Y_s的方法来计算，若利用原始的X_s与计算所得的Y_s对场景语义概念的标签进行分类预测的准确率无较大偏差的话，则证明由学习到的字典D得到的Y_s可以较好的复现原始数据。由于在原始VGG网络中，从全连接层到输出层为线性关系，因此采用线性SVM进行分类实验，其中，分类实验中将数据集随机平均的分为两份，一部分作为字典学习的训练数据，由这部分数据学习获得字典D，则字典D为测试样例空间到隐空间的隐式映射；另一部分作为分类测试的数据，利用此部分数据结合学习到的D计算出Y_s与原始特征X_s分别作为SVM分类测试的对照组，与每一帧图像的场景语义概念标签作为输出进行实验，采用交叉验证的方式来确定模型参数。

以完整目标函数计算得到映射系数为基础的分类实验结果如表1所示，以去掉最后一项约束项的目标函数(前三项)计算得到的映射系数为基础的分类实验结果如表2所示，所述前三项指的是在损失函数中缺少第四项全局约束

而加上这一项的原因在于希望可以借助原始数据X_s与测试输出之间的相关性分析，更加有效的选择出对结果有着显著影响的变量，由实验结果可以看出，加上全局约束后，SVM分类的准确率在不同的预处理的条件下和使用不同的分类算法的条件下均有不同程度的提高，所以可以从侧面说明字典D是有效果的，并且相比仅使用前三项的情况下，完整的目标函数可以更好的解释原始数据。

表1

表2

图5展示了仅在21维图像级概念上，Y_s作为5维隐空间时，使用Center方法作为预处理时的解释矩阵，解释矩阵经过绝对值与归一化的处理，以便让影响系数均有着同样的尺度。观察F-measure(调和平均值)的解释可知，在实验有限的测试样例中，包含社区概念的测试样例影响最大，而包含隧道场景的测试样例影响最小。另外，通过人为调整具有高速场景的图像的检测得分(三项指标的即检测成功率)，固定除高速场景外其它场景的得分，最终在相同的迭代条件下计算得到解释矩阵图，高速场景对于检测结果输出的影响从趋于中间值变化为最大正影响，调整后的解释矩阵如图6所示，该实验也验证了模型对针对车辆检测算法的评估解释的有效性。

Claims

1.一种面向无人驾驶车辆检测算法性能的可解释性评估方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的面向无人驾驶车辆检测算法性能的可解释性评估方法，其特征在于，具体包含以下步骤：

1)构建语义概念空间

2)构建测试样例空间

3)探究测试样例与评估结果内在联系

4)隐空间嵌入与回归分析

5)联合建模与计算

6)评估解释

3.根据权利要求2所述的面向无人驾驶车辆检测算法性能的可解释性评估方法，其特征在于，步骤1)的具体操作过程为：

4.根据权利要求2所述的面向无人驾驶车辆检测算法性能的可解释性评估方法，其特征在于，步骤2)的具体操作过程为：

5.根据权利要求2所述面向无人驾驶车辆检测算法性能的可解释性评估方法，其特征在于，步骤3)的具体操作过程为：

得φ_S的解析解为：

6.根据权利要求2所述面向无人驾驶车辆检测算法性能的可解释性评估方法，其特征在于，步骤4)的具体操作过程为：

7.根据权利要求2所述的面向无人驾驶车辆检测算法性能的可解释性评估方法，其特征在于，步骤5)的具体操作为：

5.1)使用测试样例与评估结果之间的直接相关性作为一项约束，保证从测试样例到语义概念，再到评估结果多项之间的关联一致性，利用分别借助原始数据X_s和隐属性Y_s与测试输出之间的相关性矩阵φ_s与φ_Y构建一致性约束，并建立完整解释性框架目标函数为：

计算

利用

求解D；

计算

计算

其中，

8.根据权利要求2所述面向无人驾驶车辆检测算法性能的可解释性评估方法，其特征在于，步骤6)的具体操作为：

根据目标函数近似线性的关系

通过解释矩阵φ_YW解释描述在特定测试样例范围内的语义概念对评估结果的影响关系，其中，解释矩阵φ_YW中数值的符号用于解释语义概念对评估结果影响的正负相关性，对于待测算法而言，负相关性对应的语义概念需要关注，因为解释矩阵φ_YW中的数值为负号时表示：相对其他语义概念，对车辆检测算法输入包含当前语义概念的图像或目标时，会使得车辆检测算法的评估结果变差，解释矩阵φ_YW中数值的绝对值用于解释当前语义概念对评估结果的影响大小，绝对值越大，影响越大，反之，影响越小。