CN114022705A

CN114022705A - 一种基于场景复杂度预分类的自适应目标检测方法

Info

Publication number: CN114022705A
Application number: CN202111270003.3A
Authority: CN
Inventors: 李曙光; 王海; 欧俊宏; 薛飞; 赵洋; 程洪
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2022-02-08
Anticipated expiration: 2041-10-29
Also published as: CN114022705B

Abstract

本发明公开了一种基于场景复杂度预分类的自适应目标检测方法，该方法采用谱聚类方法将交通场景图像分为了简单、中等复杂和复杂三个场景复杂度等级，分类结果具有合理性；基于场景复杂度预分类的自适应目标检测模型利用复杂度预分类CNN网络模型对基本交通场景进行复杂度预判，后端则根据复杂度调整合适规模的目标检测网络模型进行识别，整体上使得所述基于场景复杂度预分类的自适应目标检测模型的目标识别效率得到了提升，能够显著提高规模可变目标检测网络模型在实际运行时的推理计算速度。

Description

一种基于场景复杂度预分类的自适应目标检测方法

技术领域

本发明涉及计算机技术领域，具体涉及一种基于场景复杂度预分类的自适应目标检测方法。

背景技术

由于计算能力与存储能力的提高，人工神经网络得到越来越广泛的应用。通过深度卷积网络进行目标检测已经成为图像识别领域主流的研究方向。在自动驾驶系统中的目标检测主要任务在于快速、准确、稳定地检测车辆当前场景下包括行人、车辆等交通参与者以及道路、交通灯等重要信息。

虽然，卷积神经网络识别准确性已经达到比较高的水平，但其运算速度与可靠性还需要进一步提高，从而更好地满足有限的计算资源与严格的性能要求。

发明内容

本发明公开了一种基于场景复杂度预分类的自适应目标检测方法，该方法是一种用于自动驾驶系统的目标检测方法，该自适应目标检测方法包括如下步骤：

步骤S1：获取场景复杂度数据集(ComplexityDataSet)，所述场景复杂度数据集中每一个场景复杂度数据包括一张交通场景图像及其对应的场景复杂度分类结果；

步骤S2：构建复杂度预分类CNN网络模型，复杂度预分类CNN网络模型包含两个卷积层和一个分类器，采用步骤S1所述场景复杂度数据集(ComplexityDataSet)训练所述复杂度预分类CNN网络模型，得到训练好的复杂度预分类CNN网络模型。将待分类的交通场景图像序列中的交通场景图像按帧依次输入所述训练好的复杂度预分类CNN网络模型，所述训练好的复杂度预分类CNN网络模型输出每一帧交通场景图像分别为简单、中等复杂和复杂三个场景复杂度类型的分类预测概率，选择三个分类预测概率最大者对应的复杂度类型为该帧交通场景图像的场景复杂度分类预测结果；

步骤S3：构建用于目标检测的网络模型，即规模可变目标检测网络模型，所述规模可变目标检测网络模型包含一个用于特征下采样的主干特征提取网络(Backbone&SPP)，一个用于各阶段特征图融合的Neck模块，以及最后用于目标预测的Head模块，其中Neck模块由可叠加的三层PAN网络构成，当叠加三层PAN网络时实现复杂图像识别、叠加两层PAN网络时实现中等图像识别、叠加一层PAN网络时实现简单图像识别；

步骤S4：综合S2所述复杂度预分类CNN网络模型与S3所述规模可变目标检测网络模型可构成基于场景复杂度预分类的自适应目标检测模型。具体的集成是由所述训练好的复杂度预分类CNN网络模型的输出信号，即场景复杂度分类预测结果，实现对规模可变目标检测网络模型的PAN网络叠加个数进行控制，从而形成整体上能够根据交通场景图像的不同场景复杂度类型进行自适应调整的目标识别检测网络模型，即所述基于场景复杂度预分类的自适应目标检测模型。从而所述自适应目标检测模型可以通过复杂度预分类CNN网络模型根据交通场景图像的场景复杂度分类预测结果动态地调节规模可变目标检测网络模型的PAN网络大小，从而实现规模可变目标检测网络模型规模自适应。由于简单场景以及中等复杂场景采用相比复杂场景更小的网络进行运算，推理速度相比复杂场景网络更快且性能不变，从而提高了规模可变目标检测网络模型在使用时的运行速度。最终基于场景复杂度预分类的自适应目标检测模型输出每一帧交通场景图像中目标检测框的位置坐标及目标物体标签类别，其中目标物体标签类别包括汽车、货车、卡车、行人、坐着的人、骑行者、电车、杂项以及可忽略目标。

本发明采用谱聚类方法将交通场景分为了简单、中等复杂和复杂三个场景复杂度等级，分类结果具有合理性；基于场景复杂度预分类的自适应目标检测模型利用前端网络(复杂度预分类CNN网络模型)对基本交通场景进行复杂度预判，后端则根据复杂度调整合适规模的目标检测网络模型进行识别，整体上使得所述自适应目标检测模型的目标识别效率得到了提升。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明自适应目标检测模型的原理示意图；

图2是所述KITTI数据集中目标物体标注信息示意图；

图3是本发明的KITTI数据集目标物体识别难易度示意图；

图4是本发明的KITTI数据集场景复杂度分类的方法流程图；

图5是本发明特征图切分示例图；

图6是本发明的KITTI数据集场景复杂度分类后分类统计分析图；

图7是本发明所提出自适应目标检测模型的具体结构示意图；

图8是本发明在KITTI数据集上的检测示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本发明提出了一种基于场景复杂度预分类的自适应目标检测方法，如图1所示，该方法主要包括如下步骤：

步骤S2：构建复杂度预分类CNN网络模型(见图1)，复杂度预分类CNN网络模型包含两个卷积层和一个分类器，采用步骤S1所述场景复杂度数据集(ComplexityDataSet)训练所述复杂度预分类CNN网络模型，得到训练好的复杂度预分类CNN网络模型。将待分类的交通场景图像序列中的交通场景图像按帧依次输入所述训练好的复杂度预分类CNN网络模型，所述训练好的复杂度预分类CNN网络模型输出每一帧交通场景图像分别为简单、中等复杂和复杂三个场景复杂度类型的分类预测概率，选择三个分类预测概率最大者对应的复杂度类型为该帧交通场景图像的场景复杂度分类预测结果；

步骤S3：构建用于目标检测的网络模型，即规模可变目标检测网络模型，所述规模可变目标检测网络模型包含一个用于特征下采样的主干特征提取网络(Backbone&SPP)，一个用于各阶段特征图融合的Neck模块，以及最后用于目标预测的Head模块，其中Neck模块由可叠加的三层PAN网络构成，当叠加三层PAN网络时实现复杂图像识别、叠加两层PAN网络时实现中等复杂图像识别、叠加一层PAN网络时实现简单图像识别；

步骤S4：综合S2所述复杂度预分类CNN网络模型与S3所述规模可变目标检测网络模型可构成基于场景复杂度预分类的自适应目标检测模型，如图7所示。具体的集成是由所述训练好的复杂度预分类CNN网络模型的输出信号，即场景复杂度分类预测结果，实现对规模可变目标检测网络模型的PAN网络叠加个数进行控制，从而形成整体上能够根据交通场景图像的不同场景复杂度类型进行自适应调整的目标识别检测网络模型，即所述基于场景复杂度预分类的自适应目标检测模型。从而所述自适应目标检测模型可以通过复杂度预分类CNN网络模型根据交通场景图像的场景复杂度分类预测结果动态地调节规模可变目标检测网络模型的PAN网络大小，从而实现规模可变目标检测网络模型规模自适应。由于简单场景以及中等复杂场景采用相比复杂场景更小的网络进行运算，推理速度相比复杂场景网络更快且性能不变，从而提高了规模可变目标检测网络模型在使用时的运行速度。最终基于场景复杂度预分类的自适应目标检测模型输出每一帧交通场景图像中目标检测框的位置坐标及目标物体标签类别，其中目标物体标签类别包括汽车、货车、卡车、行人、坐着的人、骑行者、电车、杂项以及可忽略目标。

其中，步骤S1获取场景复杂度数据集的方法为：S11)获取KITTI数据集中的数据，包括每一张交通场景图像及图像中目标物体标注信息，所述目标物体标注信息包括：目标物体识别难易度，目标物体截断程度，目标物体遮挡程度，目标物体的标签类别和目标检测框的位置坐标，图2展示了所述KITTI数据集中目标物体标注信息(加粗、无横划线部分)；S12)基于S11)获得KITTI数据集中的数据，提取四个场景复杂度特征，这些特征用于无监督场景复杂度分类；S13)采用YOLOv4目标检测模型对KITTI数据集进行识别，并统计所述KITTI数据集中每一张交通场景图像中识别漏检的目标物体数量作为第五个场景复杂度特征S14)基于S12)和S13)获得的五个场景复杂度特征进行谱聚类分类，从而形成可用于训练复杂度预分类CNN网络模型的场景复杂度数据集，如图3所示，为所述KITTI数据集中目标物体识别难易度示意图，目标物体识别难易度分为容易识别、中等难度和识别困难；

所述KITTI数据集是目前最通用的自动驾驶视觉模块训练数据，其包含多种驾驶场景的交通场景图像信息，包括城市道路、乡村道路、高速公路、住宅区道路、校园、路边行人等场景，图像中的目标物体标签类别信息主要分为汽车、货车、卡车、行人、坐着的人、骑行者、电车、杂项以及可忽略目标。KITTI数据集包括7481张训练图片(即交通场景图像)，任取一张交通场景图像的目标物体标注信息如图2所示，其中未划线部分为本发明取用信息(划线信息为未进行使用的信息)。

详细的场景复杂度数据集制作过程如图4所示。

步骤A、B：由于我们采用现有的KITTI数据集，该KITTI数据集包含交通场景图像、目标检测框的位置坐标、目标物体遮挡程度标注值、目标物体截断程度标注值(标注值为该KITTI数据集预设)，因而这里跳过步骤A、B。KITTI数据集原本目标物体标注信息包括目标物体检测框大小、目标物体遮挡情况、目标物体截断情况。

步骤C：同时我们采用KITTI数据集确定交通场景图像中目标物体识别难易度规则：容易识别的目标物体定义为其检测框最小边框高度大于(或等于)40个像素点，目标物体完全没有遮挡，最大截断比例小于15％。识别难度为中等难度的目标物体定义为其检测框最小边框高度大于(或等于)25个像素点，目标物体部分遮挡，最大截断比例小于30％。识别困难的目标物体定义为其检测框最小边框高度大于(或等于)25个像素点，目标物体严重遮挡，最大截断比例小于50％，采用标注值0表示目标物体完全没有遮挡、1表示部分遮挡、2和3表示严重遮挡。

步骤D：根据步骤C确定的交通场景图像中目标物体识别难易度规则，我们可以计算KITTI数据集中每一张交通场景图像中四个场景复杂度特征：图像中包括的容易识别的目标物体数量、识别难度为中等难度的目标物体数量、识别困难的目标物体数量及图像中上述这三类目标物体的总数。

步骤E：当利用所述KITTI数据集已有的目标物体标注信息进行场景复杂度分类，虽然所述KITTI数据集中每张交通场景图像中已经含有目标物体的难度信息，但是由于每张交通场景图像均含有不同识别难度的物体，仅依靠比如识别物体的占比直接进行场景复杂度分类并不符合实际检测结果的统计规律，因此本发明引入比较先进的YOLOv4目标检测模型对KITTI数据集中的每一张交通场景图像进行识别，并统计每一张交通场景图像中识别漏检的目标物体数量作为附加场景复杂度特征。

步骤F：通过以上步骤C-E得到所述KITTI数据集中每张交通场景图像的五个场景复杂度特征，分别为1)识别困难的物体在交通场景图像中的个数，2)识别难度为中等难度的物体在交通场景图像中的个数，3)容易识别的物体交通场景图像中的个数，4)交通场景图像中物体的总量，5)YOLOv4在交通场景图像中出现漏检的个数。

步骤G：将所述KITTI数据集中任意一张交通场景图像的五个场景复杂度特征作为该张交通场景图像的场景复杂度分类的特征样本，输入谱聚类算法进行场景复杂度分类，对所述KITTI数据集中的所有交通场景图像均进行场景复杂度分类。

步骤H：通过谱聚类算法输出所述KITTI数据集中每一张交通场景图像的场景复杂度分类结果，将任意一张交通场景图像的场景复杂度分类结果与其对应的交通场景图像结合形成一个场景复杂度数据，所有交通场景图像的场景复杂度分类结果与其对应的交通场景图像构成场景复杂度数据集。

这里对所述步骤G中采用的谱聚类算法进行详述。谱聚类算法由于来源于图论的思想，建立图结构使得输入谱聚类算法的数据能够在任意的特征空间聚类，同时谱聚类把聚类问题转化为图的最优划分问题，可以实现全局最优值。相对于其他聚类算法，K-means算法需要数据集为凸集，谱聚类则不需要。而且由于采用对图进行分割的方式，不会出现K-means算法将离散的小类进行聚集的情况。与高斯混合聚类算法相比，谱聚类不需要对数据的概率分布进行假设，运行速度也更快。

使用所述KITTI数据集中所有交通场景图像的场景复杂度分类的特征样本输入谱聚类算法中对所有交通场景图像进行场景复杂度分类，场景复杂度分类类型分为简单、中等复杂、复杂，任意一张交通场景图像的场景复杂度分类的特征样本称为一个特征样本点，场景复杂度分类包括特征图构建和特征图切分两部分。特征图切分示例效果如图5所示，由编号1-10的特征点被划分为4类(图中10个样本点及分类为举例说明)。

对于特征图构建，首先度量两个特征样本点之间的距离，这里采用高斯相似度s_(i,j)作为距离衡量，表示为：

其中x_i,y_j表示空间(该空间维度等于特征样本维度)上的两个特征样本点，||x_i-y_j||²表示特征样本点x_i,y_j之间的欧氏距离，σ是表示高斯距离中的方差，这里取0.9。任意两个特征样本点之间距离的集合可以表示为相似度矩阵W，如果计算全部特征样本点之间的距离值则为全连接的构图方式，构成相似度矩阵W，该矩阵W中元素的计算可表示为：

其中，W_(i,j)表示相似度矩阵W中第i行第j列的元素，其值为第i个特征样本点与第j个特征样本点之间的高斯距离。

同时通过计算所述相似度矩阵W的每一列非零元素之和作为单位对称矩阵对角线值获得度矩阵D，度矩阵D为每一个特征样本点所连其他特征样本点的个数，度矩阵D中元素值的计算如公式(3)所示，度矩阵D中仅有对角线上的值大于或等于零，其中ω_i,j为W第j列的非零元素和，并进一步计算得到拉普拉斯矩阵L：

其中D_(i,j)表示度矩阵D中第i行第j列的元素，ω_i,j、D_(i,j)与W_(i,j)中的i，j的含义一致。

L＝D-W (4)

由于相似度矩阵W与度矩阵D均为对称阵，易证拉普拉斯矩阵L为对称阵，且半正定，这样的性质对后续问题的优化十分有利。

特征图切分的目的是找到权重最小的边，这里的最小权重代表两个特征样本点之间的距离最远，把图切开，并使得切开后的子图尽量平衡。如图5所示，一个整图被切分为4个子图。其中切分后的子图的集合为：{A₁,A₂,…,A_k}，子图间满足A₁∪A₂∪…∪A_k＝V，

的性质，其中V表示整图，k表示切分后的子图总数、A_k表示第k个子图。对于k个子图点的集合{A₁,A₂,…,A_k}，定义切图cut为：

这里

为A_i′的补集，

表示A_i′与其补集

的权重和。由于目的是找到权重最小的边，并使得切开后的子图尽量平衡，即子图间连边的权重小，而子图内部的连边权重大。因此问题转化为求cut(A₁,A₂,…,A_k)的最小值,表示为公式(6)：

min(cut(A₁,A₂,…,A_k)) (6)

而公式(6)的最优化问题，可以采用Ncut方法，表示为公式(7)，Ncut切图和RatioCut切图很类似，但是把Ratiocut的分母|A_i′|替换为vol(A_i′)。由于子图样本的个数多并不一定权重就大，我们切图时基于权重也更合我们的目标，因此一般来说Ncut切图优于RatioCut切图：

其中，vol(A_i′)表示A_i′中所有边的权重和,1/vol(A_i′)用来代替表示A_i′的指示向量h_i′。将min(cut(A₁,A₂,…,A_k))问题转化为min(Ncut(A₁,A₂,…,A_k))问题，进一步可以得到，min(Ncut(A₁,A₂,…,A_k))可以转化为公式(8)：

arg(min_HTr(H^TLH))

s.t.H^TDH＝I (8)

其中，arg(min_HTr(H^TLH))表示使式子Tr(H^TLH)达到最小值时H的取值。I表示单位矩阵，H＝{h₁,h₂,...,h_i′,...,h_k}，h_i′＝{h_i′1,h_i′2,...,h_i′j′,...,h_i′n}，k表示子图总数，n表示所述KITTI数据集中特征样本点的个数。公式(8)中的L与D分别表示拉普拉斯矩阵和度矩阵，Tr(H^TLH)表示H^TLH的迹，而

其中v_j′表示所述KITTI数据集中第j′个特征样本点的特征向量，A_i′表示第i′个子图。如果在所述KITTI数据集中第j′个特征样本点被分割到子图A_i′里，则h_i′的第j′个元素为

否则为0。

再进一步，令H＝D^-1/2F，F为待求的特征矩阵，则公式(8)可以简化为：

对于公式(10)，只需要求出D^-1/2LD^-1/2前k(这里的k是前面的子图总数k)个最小的特征值及其对应的特征向量，并将这k个特征向量标准化后得到特征矩阵F，F代表了所述KITTI数据集中所有特征样本点的特征信息，再采用K-means聚类即可得到所述KITTI数据集中每一张交通场景图像的最终分类结果(本发明中k＝3)，最终分类结果为三种场景复杂度类型之一。

通过将KITTI数据集中的每一张训练图片(即交通场景图像)的场景复杂度分类的特征样本数据归一化，得到用于谱聚类算法聚类使用的输入数据，即归一化数据集，归一化数据集中每张训练图片对应五个维度特征数据，包括：归一化后的容易识别的物体在交通场景图像中的个数，归一化后的识别难度为中等难度的物体在交通场景图像中的个数，归一化后的识别困难的物体在交通场景图像中的个数，归一化后的交通场景图像中物体的总数，归一化后的YOLOv4在交通场景图像中漏检物体的个数。归一化数据集输入谱聚类算法得到每张训练图片的最终分类结果。通过使用谱聚类进行场景复杂度分类后数据呈现如图6所示，该图说明了基于谱聚类的复杂度分类的有效性。通过统计分析发现通过谱聚类分类后的场景复杂度标注具有较好的可解释性，在聚类为复杂的所有训练图片中，无论容易识别物体、中等识别难度物体、识别困难物体的个数均值都是最多的。中等复杂与简单图片中难易程度不同的物体数占比各异，也即，对于简单图像，其容易识别物体数占比在三类场景复杂度类型图像中最高，而其中识别困难物体数占比在简单图像、中等复杂图像和复杂图像这三类中最低；对于复杂图像，其容易识别物体数占比在简单图像、中等复杂图像和复杂图像这三类中最低，而识别困难物体数占比在三类中最高；中等复杂图像中各类物体占比适中。

基于场景复杂度预分类的自适应目标检测模型的基本原理如图1所示，由复杂度预分类CNN网络模型和规模可变目标检测网络模型构成，详细如图7所示。

其中规模可变目标检测网络模型主要的实现基于聚类结果，该部分研究表明待分类的交通场景图像序列中的任意一帧交通场景图像可以被一个浅层神经网络分为简单(S)、中等复杂(M)和复杂(H)这三种场景复杂度类别，那么通过浅层神经网络得到一张交通场景图像分别为上述三种场景复杂度类别的概率。

P(Img＝D_i′)＝F(Img),D_i′∈{S,M,H} (11)

其中，P表示交通场景图像Img为不同场景复杂度类别的概率，D_i′代表场景复杂度类别，i′＝1,2,3，D₁为S、D₂为M、D₃为H；P(Img＝D_i′)表示交通场景图像Img的场景复杂度类别概率；F(*)代表所述训练好的复杂度预分类CNN网络模型执行的操作，F作为一帧交通场景图像到识别类的映射关系，输出一帧交通场景图像分别为简单、中等复杂和复杂三种场景复杂度类别的概率，最高场景复杂度类别概率对应的场景复杂度类别为该帧交通场景图像的场景复杂度分类预测结果。

在得到待分类的交通场景图像序列中任意一帧交通场景图像的最高场景复杂度类别概率之后，如果直接依照该类别概率对应的场景复杂度类别信息实时改变规模可变目标检测网络模型结构，会带来数据加载的延迟，因此，需要根据所述待分类的交通场景图像序列中下一帧交通场景图像的最高场景复杂度类别概率以及累计误差来确定是否改变规模可变目标检测网络模型结构，下一帧交通场景图像的场景复杂度类别概率可用一个全概率公式表示，具体为：

其中，P(Img_t+1＝D_i′|Img_t＝D_i′)，

通过实际路测样本得到，

表示D_i′的补集；t表示时间点t，一个时间点预测一帧交通场景图像，Img_t表示待分类的交通场景图像序列中第t帧交通场景图像，Img_t+1表示时间点t的下一个时间点出现的交通场景图像；

得到下一帧交通场景图像的场景复杂度类别概率后，按照马尔科夫链的规则，可以直接得到未来K′帧的难度估计，在循环累计小于K′时，只计算当下的概率值而不更新预测值。K′可以取为30，在得到难度估计后，累计误差L_DT定义为：

其中，

表示当前第t帧交通场景图像计算的最高场景复杂度类别概率对应的场景复杂度与所述训练好的复杂度预分类CNN网络模型预测的场景复杂度是否符合的情况，不符合实际分类情况表示为1，符合实际则表示为0。e_t作为预设系数用以表明在当前时间点t往前K′个时间点的时间段内，离当前时间点t越近的时间点的判断更为重要。如果在这个时间段内，L_DT大于预设常数值C，则说明这个时间段内的交通场景图像场景复杂度类别发生了改变，即可改变规模可变目标检测网络模型的结构。

基于场景复杂度预分类的自适应目标检测模型的基本结构包括：复杂度预分类CNN网络模型、Backbone&SPP、PAN以及Head四个部分组成，其中：

复杂度预分类CNN网络模型是整个网络的关键部分，主要由卷积层与分类器构成，通过使用得到的场景复杂度数据集训练获得场景复杂度判别能力，得到训练好的复杂度预分类CNN网络模型，将待分类的交通场景图像序列输入所述训练好的复杂度预分类CNN网络模型，得到序列中每一帧交通场景图像的场景复杂度分类预测结果，并向PAN网络输入场景复杂度分类预测结果；

主干神经网络Backbone采用SHNet网络(Saliency-aware Hybrid Network)，其功能用于对交通场景图像进行复合卷积操作，通过卷积获得交通场景图像的特征信息(即特征图像)；SPP结构主要由三个不同的平行池化操作组成，其功能在于将Backbone输出的特征图像进行特征加强；Backbone&SPP的组合共同构成了卷积网络的纵向主特征提取模块。交通场景图像在主特征提取模块中经过卷积层处理的层数越深，得到的图像特征越抽象。

PAN网络为动态结构部分，其输入为主干神经网络以及SPP网络输出的不同阶段的特征图像。PAN网络整体上为三层结构，如图7所示，每一个PAN网络的输入对应三种不同深度的卷积输出特征图像，且包含两次上采样与两次下采样，上采样是对当前特征图像进行通道缩小使得分辨率增加，下采样是对当前特征图像进行通道扩张使得分辨率减少，在这个过程中融合不同抽象程度的特征图像，PAN网络叠加越多，得到的图像的特征信息越多，从而能够识别更加复杂的图像。因此，可以根据训练好的复杂度预分类CNN网络模型的不同场景复杂度分类预测结果控制PAN网络上下采样层规模叠加实现对交通场景图像的不同识别深度，从而得到交通场景图像的融合特征图。Head网络层用于接收PAN网络的融合特征图并由此进行目标检测框回归以及目标物体标签类别的判定。

规模可变目标检测网络模型的训练通过采用所述KITTI数据集进行训练得到，训练所需的输入为道路交通图像，输出则为目标检测框及其位置坐标以及对应的目标物体标签类别。经过多次迭代训练后得到收敛后的模型参数文件。

表1本发明模型与YOLOv4性能对比结果

本发明采用基于场景复杂度预分类的自适应目标检测模型能够显著提高规模可变目标检测网络模型在实际运行时的推理计算速度，根据表1所示，相比YOLOv4网络，本发明的基于场景复杂度预分类的自适应目标检测模型处理识别图像速度(帧率)由34.87FPS上升到43.04FPS，提高23.74％，根据图8和表2可知，所述自适应目标检测模型(DSHNet)的各类物体识别漏检均值均低于YOLOv4，并且准确率更高，其中，图8为在KITTI数据集上，本发明的自适应目标检测方法比YOLOv4多检测出一个物体的示例图，圆圈圈出物体为YOLOv4漏检而本发明检测出的物体，方框(即目标检测框)检测出的目标物体。

表2本发明在KITTI数据集上的检测漏检均值与YOLOv4的对比结果

图像难度	YOLO-V4漏检均值	DSHNet漏检均值
			Easy	0.244	0.060
Median	0.297	0.135
			Hard	0.346	0.290
Total	0.290	0.154

本发明对场景评估方法，创新性地结合了KITTI数据集原始标注特征与YOLOv4的漏检情况，利用谱聚类方法成功对场景进行了分级，通过分析发现该分类策略具有较强的解释性。本发明自适应控制采用小型预分类模型控制大网络模型，通过小网络对场景的复杂度预测信息实现对大网络规模的实时控制，该方法不同于其他基于置信度、基于任务进行规模调整的网络，能够在自动驾驶应用场景下有效地适应不同类型的识别任务。

以上所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

Claims

1.一种基于场景复杂度预分类的自适应目标检测方法，其特征在于，该方法具体包括如下步骤：

步骤S1：获取场景复杂度数据集，所述场景复杂度数据集中每一个场景复杂度数据包括一张交通场景图像及其对应的场景复杂度分类结果；

步骤S2：构建复杂度预分类CNN网络模型，所述复杂度预分类CNN网络模型包含两个卷积层和一个分类器，采用步骤S1获取的所述场景复杂度数据集训练所述复杂度预分类CNN网络模型，得到训练好的复杂度预分类CNN网络模型；将待分类的交通场景图像序列中的交通场景图像按帧依次输入所述训练好的复杂度预分类CNN网络模型，所述训练好的复杂度预分类CNN网络模型输出每一帧交通场景图像分别为简单、中等复杂和复杂三个场景复杂度类型的分类预测概率，选择三个分类预测概率最大者对应的复杂度类型为该帧交通场景图像的场景复杂度分类预测结果；

步骤S3：构建规模可变目标检测网络模型，所述规模可变目标检测网络模型包含一个用于特征下采样的主干特征提取网络Backbone&SPP，一个用于各阶段特征图融合的Neck模块，以及最后用于目标预测的Head模块，其中Neck模块由可叠加的三层PAN网络构成，当叠加三层PAN网络时实现复杂图像识别、叠加两层PAN网络时实现中等复杂图像识别、叠加一层PAN网络时实现简单图像识别；

步骤S4：综合步骤S2所述复杂度预分类CNN网络模型与步骤S3所述规模可变目标检测网络模型构成基于场景复杂度预分类的自适应目标检测模型，具体的构成方式是根据所述训练好的复杂度预分类CNN网络模型输出的场景复杂度分类预测结果，实现对规模可变目标检测网络模型的PAN网络叠加个数进行控制，从而形成整体上能够根据交通场景图像的不同场景复杂度类型进行自适应调整的目标检测模型，由于简单场景以及中等复杂场景采用相比复杂场景更小的网络进行运算，推理速度相比复杂场景网络更快且性能不变，从而提高了规模可变目标检测网络模型在使用时的运行速度；最终基于场景复杂度预分类的自适应目标检测模型输出每一帧交通场景图像中目标检测框的位置坐标及目标物体标签类别，其中目标物体标签类别包括汽车、货车、卡车、行人、坐着的人、骑行者、电车、杂项以及可忽略目标。

2.根据权利要求1所述的基于场景复杂度预分类的自适应目标检测方法，其特征在于，所述场景复杂度数据集的制作方法包括：

步骤S11：获取KITTI数据集，该KITTI数据集包含交通场景图像以及图像中目标物体标注信息，其中，所述目标物体标注信息包括目标检测框的位置坐标、目标物体遮挡程度标注值、目标物体截断程度标注值；

步骤S12：确定KITTI数据集中交通场景图像的目标物体识别难易度规则：容易识别的目标物体定义为其检测框最小边框高度大于或等于40个像素点，目标物体完全没有遮挡，最大截断比例小于15％；识别难度为中等难度的目标物体定义为其检测框最小边框高度大于或等于25个像素点，目标物体部分遮挡，最大截断比例小于30％；识别困难的目标物体定义为其检测框最小边框高度大于或等于25个像素点，目标物体严重遮挡，最大截断比例小于50％；采用标注值0表示目标物体完全没有遮挡、1表示目标物体部分遮挡、2和3表示目标物体严重遮挡；

步骤S13：根据步骤S12确定的目标物体识别难易度规则计算KITTI数据集中每一张交通场景图像的四个场景复杂度特征：图像中包括的容易识别的目标物体数量、识别难度为中等难度的目标物体数量、识别困难的目标物体数量及图像中这三类目标物体的总数；

步骤S14：引入YOLOv4目标检测模型分别对KITTI数据集中的每一张交通场景图像进行识别，并统计每一张交通场景图像中识别漏检的目标物体数量作为附加场景复杂度特征；

步骤S15：根据步骤S13和步骤S14获得所述KITTI数据集中每张交通场景图像的五个场景复杂度特征，分别为：容易识别的目标物体数量、识别难度为中等难度的目标物体数量、识别困难的目标物体数量、图像中上述三类目标物体的总数及YOLOv4在交通场景图像中出现别漏检的目标物体数量；

步骤S16：将所述KITTI数据集中任意一张交通场景图像的五个场景复杂度特征作为该张交通场景图像的场景复杂度分类的特征样本，输入谱聚类算法进行场景复杂度分类，对所述KITTI数据集中的所有交通场景图像均进行场景复杂度分类，场景复杂度分类类型分为简单、中等复杂和复杂；

步骤S17：通过谱聚类算法输出所述KITTI数据集中每一张交通场景图像的场景复杂度分类结果，将任意一张交通场景图像的场景复杂度分类结果与其对应的交通场景图像结合形成一个场景复杂度数据，所有交通场景图像的场景复杂度分类结果与其对应的交通场景图像一起构成场景复杂度数据集。

3.根据权利要求2所述的基于场景复杂度预分类的自适应目标检测方法，其特征在于，所述谱聚类算法具体为：通过将KITTI数据集中的每一张交通场景图像的场景复杂度分类的特征样本数据归一化，得到用于谱聚类算法聚类使用的输入数据，即归一化数据集，所述归一化数据集中每张交通场景图像对应五个维度特征数据，包括：归一化后的容易识别的目标物体数量，归一化后的识别难度为中等难度的目标物体数量，归一化后的识别困难的目标物体数量，归一化后的交通场景图像中目标物体的总数，归一化后的YOLOv4在交通场景图像中漏检物体的个数，将任意一张交通场景图像归一化后的场景复杂度分类的特征样本称为一个特征样本点；

场景复杂度分类包括特征图构建和特征图切分两部分，对于特征图构建，首先度量两个特征样本点之间的距离，这里采用高斯相似度s_(i,j)作为距离衡量，表示为：

其中x_i,y_j表示空间上的任意两个特征样本点，||x_i-y_j||²表示特征样本点x_i,y_j之间的欧氏距离，σ是表示高斯距离中的方差，任意两个特征样本点之间距离的集合表示为相似度矩阵W，该矩阵W中元素的计算表示为：

其中，W_(i,j)表示相似度矩阵W中第i行第j列的元素，其值为第i个特征样本点与第j个特征样本点之间的高斯距离；

其中D_(i,j)表示度矩阵D中第i行第j列的元素；

L＝D-W (4)

由于相似度矩阵W与度矩阵D均为对称阵，拉普拉斯矩阵L也为对称阵，且半正定；

特征图切分的目的是找到权重最小的边，这里的权重最小代表两个特征样本点之间的距离最远，把图切开，并使得切开后的子图尽量平衡，即子图间连边的权重小，而子图内部的连边权重大，切分后的子图的集合为：{A₁,A₂,…,A_k}，子图间满足A₁∪A₂∪…∪A_k＝V，

的性质，其中V表示整图，k表示切分后的子图总数、A_k表示第k个子图，定义切图cut为：

这里

为A_i′的补集，

表示A_i′与其补集

的权重和，因此问题转化为求cut(A₁，A₂，…，A_k)的最小值，表示为公式(6)：

min(cut(A₁，A₂，…，A_k)) (6)

而公式(6)的最优化问题，采用Ncut方法，表示为公式(7)：

其中，vol(A_i′)表示A_i′中所有边的权重和，1/vol(A_i′)用来代替表示A_i′的指示向量h_i′，将min(cut(A₁，A₂，…，A_k))问题转化为min(Ncut(A₁，A₂，…，A_k))问题，min(Ncut(A₁，A₂，…，A_k))转化为公式(8)：

arg(min_HTr(H^TLH))

s.t.H^TDH＝I (8)

其中，arg(min_HTr(H^TLH))表示使式子Tr(H^TLH)达到最小值时H的取值，I表示单位矩阵，H＝{h₁，h₂，...，h_i′，...，h_k}，h_i′＝{h_i′1，h_i′2，...，h_i′j′，...，h_i′n}，k表示子图总数，n表示所述KITTI数据集中特征样本点的个数，公式(8)中的L与D分别表示拉普拉斯矩阵和度矩阵，Tr(H^TLH)表示H^TLH的迹，而

其中v_j′表示所述KITTI数据集中第j′个特征样本点的特征向量，A_i′表示第i′个子图；

对于公式(10)，求出D^-1/2LD^-1/2前k个最小的特征值及其对应的特征向量，并将这k个特征向量标准化后得到特征矩阵F，F代表了所述KITTI数据集中所有特征样本点的特征信息，再采用K-means聚类即可得到所述KITTI数据集中每一张交通场景图像的场景复杂度分类结果。

4.根据权利要求3所述的基于场景复杂度预分类的自适应目标检测方法，其特征在于，所述规模可变目标检测网络模型的实现基于聚类结果，待分类的交通场景图像序列中的任意一帧交通场景图像通过训练好的复杂度预分类CNN网络模型后，得到该帧交通场景图像分别为简单S、中等复杂M和复杂H三种场景复杂度类别的概率，

P(Img＝D_i′)＝F(Img)，D_i′∈{S，M，H} (11)

其中，D_i′代表场景复杂度类别，i′＝1，2，3，D₁为S、D₂为M、D₃为H；P(Img＝D_i′)表示交通场景图像Img的场景复杂度类别概率；F(*)代表所述训练好的复杂度预分类CNN网络模型执行的操作，输出一帧交通场景图像分别为简单、中等复杂和复杂三种场景复杂度类别概率，其中最高场景复杂度类别概率对应的场景复杂度类别为该帧交通场景图像的场景复杂度分类预测结果；

在得到待分类的交通场景图像序列中任意一帧交通场景图像的最高场景复杂度类别概率后，需要根据所述待分类的交通场景图像序列中下一帧交通场景图像的最高场景复杂度类别概率以及累计误差来确定是否改变规模可变目标检测网络模型结构；下一帧交通场景图像的场景复杂度类别概率采用全概率公式表示，具体为：

其中，P(Img_t+1＝D_i′|Img_t＝D_i′)，

通过实际路测样本得到，

表示D_i′的补集；Img_t表示待分类的交通场景图像序列中第t帧交通场景图像，Img_t+1表示第t+1帧交通场景图像；

得到下一帧交通场景图像的场景复杂度类别概率后，按照马尔科夫链的规则，得到未来K′帧的难度估计，在得到难度估计后，累计误差L_DT定义为：

其中，

表示当前第t帧交通场景图像计算的最高场景复杂度类别概率对应的场景复杂度与所述训练好的复杂度预分类CNN网络模型预测的场景复杂度是否符合的情况，不符合的情况表示为1，符合的情况则表示为0；e_t作为预设系数用以表明在当前时间点t往前K′个时间点的时间段内，离当前时间点t越近的时间点的判断更为重要，如果在这个时间段内，L_DT大于预设常数值C，则说明这个时间段内的交通场景图像场景复杂度类别发生了改变，即可改变规模可变目标检测网络模型的结构；

所述规模可变目标检测网络模型的训练通过采用所述KITTI数据集进行训练得到，训练所需的输入为道路交通图像，输出则为目标检测框及其位置坐标以及对应的目标物体标签类别，经过迭代训练后得到收敛后的模型参数文件。

5.根据权利要求4所述的基于场景复杂度预分类的自适应目标检测方法，其特征在于，所述主干特征提取网络Backbone&SPP中的主干神经网络Backbone采用SHNet网络(Saliency-aware Hybrid Network)，其功能用于对交通场景图像进行复合卷积操作，通过卷积获得交通场景图像的特征图像；所述主干特征提取网络Backbone&SPP中的SPP网络主要由三个不同的平行池化操作组成，其功能在于将Backbone输出的特征图像进行特征加强；Backbone&SPP的组合共同构成了卷积网络的纵向主特征提取模块，交通场景图像在纵向主特征提取模块中经过卷积层处理的层数越深，得到的图像特征越抽象。

6.根据权利要求5所述的基于场景复杂度预分类的自适应目标检测方法，其特征在于，所述PAN网络为动态结构部分，其输入为主干神经网络Backbone以及SPP网络输出的不同阶段的特征图像，PAN网络整体上为三层结构，每一个PAN网络的输入对应三种不同深度的卷积输出特征图像，且包含两次上采样与两次下采样，上采样是对当前特征图像进行通道缩小使得分辨率增加，下采样是对当前特征图像进行通道扩张使得分辨率减少，在这个过程中融合不同抽象程度的特征图像，PAN网络叠加越多，得到的图像的特征信息越多，从而能够识别更加复杂的图像，因此，根据所述训练好的复杂度预分类CNN网络模型的不同场景复杂度分类预测结果控制PAN网络上下采样层规模叠加实现对交通场景图像的不同识别深度，从而得到交通场景图像的融合特征图。

7.根据权利要求6所述的基于场景复杂度预分类的自适应目标检测方法，其特征在于，所述Head模块用于接收PAN网络的融合特征图，并由此进行目标检测框回归以及目标物体标签类别的判定。

8.根据权利要求7所述的基于场景复杂度预分类的自适应目标检测方法，其特征在于，所述σ＝0.9。

9.根据权利要求8所述的基于场景复杂度预分类的自适应目标检测方法，其特征在于，所述K′＝30。