CN113435324A

CN113435324A - 一种车辆目标检测方法、装置及计算机可读存储介质

Info

Publication number: CN113435324A
Application number: CN202110713970.6A
Authority: CN
Inventors: 李良群; 谢渊良
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2021-06-25
Filing date: 2021-06-25
Publication date: 2021-09-24
Anticipated expiration: 2041-06-25
Also published as: CN113435324B

Abstract

本发明公开了一种车辆目标检测方法、装置及计算机可读存储介质，对训练数据集的标注框尺寸进行聚类，根据聚类结果配置理论感受野；基于理论感受野构建骨干网络；针对骨干网络所有输出特征层分层配置不同损失函数，构建车辆检测模型；基于训练数据集中训练样本对车辆检测模型进行训练；将待检测数据输入至训练完成的车辆检测模型，输出车辆目标检测结果。通过本发明的实施，引入感受野大小与场景车辆尺寸大小的匹配策略对车辆检测模型进行构建，有效降低了车辆检测模型的参数量和计算量，提高了模型对车辆的检测精度，并增强了车辆检测的鲁棒性。

Description

一种车辆目标检测方法、装置及计算机可读存储介质

技术领域

本发明涉及目标检测技术领域，尤其涉及一种车辆目标检测方法、装置及计算机可读存储介质。

背景技术

随着智慧城市、智能交通等概念的提出，在道路交通监控场景下对过往车辆进行准确的检测需求愈加的强烈。但目前研究者一般使用基于深度学习的通用目标检测模型在交通监控场景下对车辆进行检测，这就避免不了模型计算量大且对远处小物体检测不佳的情况。

面对上述问题，一般的解决方案是在模型结构上进行改进，以深度可分离卷积作为基础模块进行轻量化模型结构的设计。这种设计虽然能够提高推理速度，但是依然存在参数冗余和检测精度大幅下降的问题。由此可见，亟需一种对道路交通监控场景下进行适应性设计的轻量级车辆检测模型，来解决当前道路交通监控场景下通用目标检测模型在车辆检测任务中存在的精度与速度不平衡的问题。

发明内容

本发明实施例的主要目的在于提供一种车辆目标检测方法、装置及计算机可读存储介质，至少能够解决相关技术中所提供的目标检测模型无法兼顾检测精度和检测速度的问题。

为实现上述目的，本发明实施例第一方面提供了一种车辆目标检测方法，该方法包括：

对训练数据集的标注框尺寸进行聚类，根据聚类结果配置理论感受野；

基于所述理论感受野构建骨干网络；其中，所述骨干网络的输出特征层的感受野与道路场景下车辆尺寸相匹配；

针对所述骨干网络所有输出特征层分层配置不同损失函数，构建车辆检测模型；

基于所述训练数据集中训练样本对所述车辆检测模型进行训练；

将待检测数据输入至训练完成的所述车辆检测模型，输出车辆目标检测结果；其中，所述车辆目标检测结果包括：位置信息、类别信息。

为实现上述目的，本发明实施例第二方面提供了一种车辆目标检测装置，该装置包括：

配置模块，用于对训练数据集的标注框尺寸进行聚类，根据聚类结果配置理论感受野；

第一构建模块，用于基于所述理论感受野构建骨干网络；其中，所述骨干网络的输出特征层的感受野与道路场景下车辆尺寸相匹配；

第二构建模块，用于针对所述骨干网络所有输出特征层分层配置不同损失函数，构建车辆检测模型；

训练模块，用于基于所述训练数据集中训练样本对所述车辆检测模型进行训练；

检测模块，用于将待检测数据输入至训练完成的所述车辆检测模型，输出车辆目标检测结果；其中，所述车辆目标检测结果包括：位置信息、类别信息。

为实现上述目的，本发明实施例第三方面提供了一种电子装置，该电子装置包括：处理器、存储器和通信总线；

所述通信总线用于实现所述处理器和存储器之间的连接通信；

所述处理器用于执行所述存储器中存储的一个或者多个程序，以实现上述任意一种车辆目标检测方法的步骤。

为实现上述目的，本发明实施例第四方面提供了一种计算机可读存储介质，该计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现上述任意一种车辆目标检测方法的步骤。

根据本发明实施例提供的车辆目标检测方法、装置及计算机可读存储介质，对训练数据集的标注框尺寸进行聚类，根据聚类结果配置理论感受野；基于理论感受野构建骨干网络；针对骨干网络所有输出特征层分层配置不同损失函数，构建车辆检测模型；基于训练数据集中训练样本对车辆检测模型进行训练；将待检测数据输入至训练完成的车辆检测模型，输出车辆目标检测结果。通过本发明的实施，引入感受野大小与场景车辆尺寸大小的匹配策略对车辆检测模型进行构建，有效降低了车辆检测模型的参数量和计算量，提高了模型对车辆的检测精度，并增强了车辆检测的鲁棒性。

本发明其他特征和相应的效果在说明书的后面部分进行阐述说明，且应当理解，至少部分效果从本发明说明书中的记载变的显而易见。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明第一实施例提供的车辆目标检测方法的流程示意图；

图2为本发明第一实施例提供的一种感受野配置方法的流程示意图；

图3为本发明第一实施例提供的一种标注框尺寸分布示意图；

图4为本发明第一实施例提供的一种聚类结果示意图；

图5为本发明第一实施例提供的一种网络模型结构示意图；

图6为本发明第二实施例提供的车辆目标检测装置的程序模块示意图；

图7为本发明第三实施例提供的电子装置的结构示意图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

第一实施例：

随着以图形处理器(GPU)为代表的并行计算范式的崛起，卷积神经网络在图像特征提取方面的优势逐渐显现。在2012年的ImageNet图像分类比赛上，Alexnet以极大优势取得了比赛冠军。从而基于深度学习的分类和检测方法开始成为研究者和科技公司的重点关注对象。随后VGG、GoogLeNet、ResNet的出现，进一步提高了卷积神经网络自动提取特征的能力。因为基于深度学习的检测也是一种对目标进行建模的检测方法，分类网络的快速发展自然而然也促进了基于深度学习检测模型的快速发展。在2018年Jedom再次提出了YOLOv3模型，此模型吸收了ResNet的残差网络结构和特征图的多尺度融合的方法，使得YOLOv3在COCO数据集上取得精度与速度的良好平衡。但是对于道路交通监控场景下的车辆检测，YOLOv3算法依然存在计算量过大以至于受到设备算力的限制，较难在该场景下进行车辆检测。

为了解决相关技术中所提供的目标检测模型无法兼顾检测精度和检测速度的问题，本实施例提出了一种车辆目标检测方法，如图1所示为本实施例提供的车辆目标检测方法的流程示意图，本实施例提出的车辆目标检测方法包括以下的步骤：

步骤101、对训练数据集的标注框尺寸进行聚类，根据聚类结果配置理论感受野。

具体的，本实施例首先在实际道路监控场景下采集车辆监控视频，并对视频进行分帧标注，制作用于模型训练和测试的车辆数据集。在一种优选的实施方式中，首先，采集道路交通监控场景下的车辆视频，并构建车辆检测数据集ATR-vehicle；然后收集道路交通车辆检测任务代表性数据集UA-DTRAC；最后，将ATR-vehicle与UA-DTRAC数据集进行合并，得到一个综合的道路交通监控数据集，并将该数据集划分为训练数据集与测试数据集，其中，训练数据集用于车辆检测模型的训练，而测试数据集用于测试训练完成的车辆检测模型的有效性。

在本实施例中，在实际天桥下使用相机采集车辆监控视频，并对视频进行分帧标注，制作ATR-vehicle数据集。在本实施例中总共采集有4000帧车辆监控图片，对于远处以及旁侧道路的汽车采用掩码标注，以便在训练时进行掩盖。其中训练数据集与测试数据集的比例为3:1。另外，收集道路交通车辆检测任务代表性数据集UA-DETRAC，将训练集用于训练，测试集中选用三个天桥监控场景下的监控视频帧进行测试。将ATR-vehicle与UA-DETRAC数据集中训练集进行合并，用于模型的训练；测试集则分开进行测试，以便同时测试模型的检测精度与鲁棒性。

应当说明的是，在卷积神经网络中，感受野(Receptive Field)的定义是卷积神经网络每一层输出的特征图(Feature Map)上的像素点在输入图片上映射的区域大小。

如图2所示为本实施例提供的一种感受野配置方法的流程示意图，在本实施例一种可选的实施方式中，上述对训练数据集的标注框尺寸进行聚类，根据聚类结果配置理论感受野的步骤，具体包括如下流程：

步骤1011、对训练数据集的标注框尺寸大小分布进行统计，得到标注框的尺寸范围分布信息；

步骤1012、根据尺寸范围分布信息选定输出特征层的个数和下采样率；

步骤1013、针对选定下采样率的输出特征层，对训练数据集中的标注框进行聚类；

步骤1014、将聚类得到的锚框作为相应尺寸范围下的代表性标注框，并通过锚框的尺寸配置理论感受野。

具体的，本实施例首先对训练数据集标注框的尺寸大小分布进行统计，得出标注框的尺寸范围分布情况，并确定输出特征层的个数；然后将标注框数据进行聚类得到中心聚类点的宽和高，用于计算该特征图所需理论感受野的大小。

在本实施例中，针对统计真实标注框尺寸大小的分布情况，首先对训练数据集标注框的最长边大小的分布情况进行统计，如图3所示为本实施例提供的一种标注框尺寸分布示意图，从中可以发现大部分的标注框都小于128，所以训练数据标注框中的中小物体占大部分。由于过大的特征图下采样率会导致小车辆在下采样过程中严重丢失语义特征，导致小物体检测效果差的问题，因此模型输出特征图的最低下采样率设置为4倍下采样，而为了使模型对于大货车也具有良好的检测能力，可以选择输出4个下采样率分别为4×，8×，16×，32×的特征图。

针对将标注框数据进行聚类得到中心聚类点的宽和高的具体实现，对于4个选定下采样率的特征图，通过使用K-Means算法对训练数据中的标注框进行聚类，其中以原点作为标注框的中心点，并与标注框的宽和高组成一个固定中心点的标注框，数据格式为(0,0,w,h)。在K-Means算法中使用固定在原点的标注框计算交并比(Intersection-Over-Union,IOU)，并以1-IOU作为度量值度量不同标注框之间的距离。本实施例可以通过聚类的方法获取标注框在某个范围下最具代表性的宽与高的大小。因为选择了4个特征图，所以选择聚类点的个数为4个。使用K-Means算法对640×360图片尺寸下的标注框数据进行聚类，结果如图4所示，其中黄色五角星为聚类中心点，不同的归属层具有不同的颜色。可以观察到聚类中心点大致在坐标轴的对角线上，表明该聚类划分的范围较为合理。

针对计算特征图所需理论感受野的大小的具体实现，在不同特征层所对应的尺寸范围内，将聚类得到的锚框作为在该尺寸范围下最具代表性的标注框，并通过这些锚框的大小来配置模型的有效感受野，最终确定该尺度下所对应的理论感受野大小。对于小物体的检测，有效感受野的范围应大于锚框的尺寸大小，这样有助于模型利用周边信息来对小物体进行响应；而对于尺寸较大的车辆，则可让有效感受野与尺寸范围大致相等，因为大尺寸的物体本身包含有丰富的纹理和局部特征，不需要额外增加上下文信息。此种设计方法在固定场景下，较为有效的设计了不同输出特征图的有效感受野。

步骤102、基于理论感受野构建骨干网络。

具体的，本实施例的骨干网络的输出特征层的感受野与道路场景下车辆尺寸相匹配，在实际应用中，参考理论感受野的大小设计网络模型深度，再根据网络模型深度构建骨干网络。在本实施例中，根据不同特征层所需理论感受野的大小，使用理论感受野的计算方法，对骨干网络的卷积层进行设计。LVD-net骨干网络结构设计如下表所示。该骨干网络主要以3×3卷积核进行构建，在Small-part前全部使用深度可分离卷积模块进行构建，且输出通道数固定为64；在Small-part后每个part部分的第一个卷积模块是步长为2的普通卷积模块，同时输出通道数翻倍。LVD-net骨干网络分别在Tiny-Part、Small-part、Middle-part、Large-part的尾部输出特征图进行检测框的预测，应当理解的是，下标最右边一栏的RF(Receptive Field)为对应特征层的理论感受野大小。

步骤103、针对骨干网络所有输出特征层分层配置不同损失函数，构建车辆检测模型。

具体的，针对特征层样本分配干扰问题，本实施例针对浅层和深层的特征图分别设计了不同的置信度损失计算方法，其中，将骨干网络所有输出特征层区分为浅层特征层与深层特征层；针对浅层特征层配置高斯热图损失函数，以及针对深层特征图配置YOLO置信度损失函数。通过联合不同置信度损失函数的特征层对车辆进行回归定位。

在本实施例一种可选的实施方式中，车辆检测模型包括23层卷积层，第14层、第17层、第20层以及第23层卷积层为输出特征层，第14层、第17层、第20层以及第23层卷积层的下采样率分别为4倍、8倍、16倍以及32倍。

具体的，构建基于交通监控场景的LVD-net检测模型。LVD-net使用基本的深度可分离卷积模块组件进行网络模型的搭建，最终构建的LVD-net网络模型如图5所示，模型总共有23层卷积层，其中最小的模型结构为深度可分离卷积模块LVD-net通过引入深度可分离卷积模块来降低模型的参数量，并随着特征层下采样率的增加，特征层通道数也随之进行翻倍增加。在模型的输出部分，将分类损失与位置损失通过设置两条支路分别进行计算。这种设计能够缓和分类任务和定位任务的特征冲突问题。其中LVD-net主要输出4个特征图的预测结果，其中分别为c14，c17，c20，c23。他们的下采样率分别是4×，8×，16×，32×。其中输入的图片尺寸大小固定为640×640。其中对于浅层特征c14、c17输出特征图，使用高斯热图损失；对于c20、c23较深层的输出特征图，由于其张量的尺寸较小，所以其正负样本不平衡的情况得到一定的缓解，因此在这两层使用基于YOLO的置信度损失。

步骤104、基于训练数据集中训练样本对车辆检测模型进行训练。

对于模型训练，作为本实施例一种优选实现，首先，统计训练数据集中训练样本每个通道的均值与方差，对各训练样本各通道的像素值进行标准化，其中，标准化后各训练样本各通道的值归一化至[-1,1]的区间；其次，将标准化后的训练样本进行数据增强处理，其中，数据增强处理包括随机裁剪、随机扩展、随机反转、色彩抖动、对比度增强中至少一种；最后，采用处理完成的训练样本对车辆检测模型进行训练。

具体的，因为计算机储存图片的格式为uint8类型，且数值为0-255之间，如果直接输入到检测网络中，则输入层的梯度就会变得很大，而下一层的输入因为经过批量规范化，则浅层的分布差异大，在较小的学习率下训练时，则会导致网络学习慢的问题。由此，本实施例统计图像中每个通道的均值与方差，对每张图像各通道的像素值进行标准化，使每个通道的值归一化到[-1,1]之间。为了防止检测模型对训练数据产生过拟合的效果，同时对输入的训练数据进行数据增强，以此提高检测模型的泛化能力。其中数据增强方法包括随机裁剪、随机扩展、随机翻转、色彩抖动、对比度增强。

另外，还应当说明的是，在本实施例中，使用的训练图片尺寸固定为640×640，在训练中本实施例可以对检测模型的权重进行随机初始化，该检测模型用随机梯度下降法训练30轮，下降动量大小设置为0.9，批量图片数量为16张，学习率初始大小设置为1×10^-3，并采用余弦退火策略来调整学习率至1×10^-5。

在本实施例一种可选的实施方式中，上述基于训练数据集中训练样本对车辆检测模型进行训练的步骤之前，还包括：在层内与层间进行正负样本分配时，针对分配有歧义的训练样本，采用与标注框最大交并比的规则分配于对应单个输出特征层进行预测。

具体的，本实施例在层内与层间的正负样本分配策略中，对分配有歧义的样本采用最优分配策略，次优匹配样本不再进行损失函数的计算，从而有效缓解训练过程中监督信息的不准确性，提高模型收敛的速度。

在本实施例中，对于浅层特征，即图5中的c14、c17输出特征图，则使用高斯热图损失。令输入图片为I∈R^W×H×3，I为输入图片，R^W×H×3是3维张量，W和H分别代表图片的宽与高的大小，3为输入图片的通道数。对于每个输出特征图的下采样步长为S∈[4,8,16,32]，其中包含4倍、8倍、16倍、32倍下采样，则输出前后背景置信度特征图为

同时我们也设置与输出的预测特征图相对应的真实置信度标签图Y，其中，

Y为一个三维的张量图，但每个张量值是离散的，取值为0或者1，而

表明预测背景置信度图是一个包含三个维度的张量图，其张量值在0到1值之间，且为开区间。

对于每个批量中包含有K个标注框样本，第k个中心坐标和宽高为(x^(k),y^(k),w^(k),h^(k))，其中，x、y代表标注框的中心坐标，w，h分别代表标注框的宽和高，那么其落在以S为下采样率的特征图上的位置为

也即真实标注框落在特征图上的位置，那么对Y真值图进行赋值：

其中，第k个真实标注框在相应下采样率S下的中心坐标位置表示为：

第k个真实标注框在相应下采样率S下的宽与高表示为：

那么，

其中，i、j表明真实置信度标签图的横纵坐标，如果i、j与第k个真实标注框在相应下采样率S下的中心坐标位置相等，那么在

这个位置上进行赋值1，其余赋值0。

在实际应用中，歧义样本分配问题可被描述为：当一个标注框样本被层间的分配策略进行分配，但是发现此样本对于不同下采样率的特征层S₁、S₂都具有良好的匹配性，如果只将该样本分配给其中一个特征图作为正样本，而另一个特征图中该样本所在张量标记为负样本，则会造成监督信息不准确。因此采取类似YOLO置信度损失的忽略处理方法。对于一个物体标注框O(x^(k),y^(k),w^(k),h^(k))规定只能分配于一个特征层进行预测。B(0,0,w^(k),h^(k))为标注框样本以原点为中心点的张量。对于不同下采样率的特征层S_n，其对应的锚框为

层间样本分配策略采取与标注框最大交并比的规则进行分配。则不同层的真实标签特征张量按如下进行分配：

其中，

表示单个张量值，下标i、j表示特征层S_n对应横、纵坐标，IOU()表示交并比计算函数，

为与相应序号特征层相对应的锚框；

对于使用高斯热图的浅层特征则将α_ij修改为：

对于使用基于YOLO置信度损失的深层特征则将N_ij修改为：

其中，β表示超参数，一般设置为4，

表示正负样本权重张量，N_ij表示负样本的真实置信度标签图在横坐标i、纵坐标j下的张量值。

步骤105、将待检测数据输入至训练完成的车辆检测模型，输出车辆目标检测结果。

具体的，本实施例的车辆目标检测结果包括：位置信息、类别信息。在本实施例中，使用训练后得到的权重进行视频帧的推理。模型在训练完后得到训练权重，输入单帧视频帧，并对该帧进行归一化处理，然后输入到已经加载固定权重的检测模型中。通过模型推理，解码得到检测框的位置与类别信息，然后通过极大值抑制方法消除重叠的检测框，最后完成检测任务。本实施例采用基于聚类锚框进行感受野匹配的方法，构建了基于深度学习的场景适应车辆检测模型，其不仅计算量小，而且检测精度也优于轻量化的通用目标检测模型，并且对道路监控场景下的车辆检测具有良好的检测鲁棒性。

在本实施例一种可选的实施方式中，本实施例的车辆数据集还包括测试数据集，上述将待检测数据输入至训练完成的车辆检测模型的步骤之前，还包括：将测试数据集输入至车辆检测模型，输出测试检测数据；将测试检测数据与测试数据集的原始标注数据进行AP(average precision，平均正确率)度量指标的计算；在计算得到的AP度量指标超过通用检测模型的AP度量指标时，确定训练完成的车辆检测模型有效，然后执行将待检测数据输入至训练完成的车辆检测模型的步骤，由此可以保证车辆目标检测的准确性。

如下表所示为本实施例提供的测试数据集不同模型AP度量指标的对比结果表：

由上表可知，LVD-net的模型可训练参数量相较于Tiny-YOLOv3缩小了近9倍，计算量缩小了近2倍，但在测试数据集的检测精度上，LVD-net的AP值超过Tiny-YOLOv3近2.5％。当输入图片尺寸为640×640时，LVD-net使用GPU运行的推理速度低于Tiny-YOLOv3；但当使用CPU进行推理时，LVD-net的推理速度超过Tiny-YOLOv3。虽然LVD-net与Shufflenetv2-YOLOv3取得相同的检测精度，但是LVD-net的参数量和计算量都比Shufflenetv2-YOLOv3小，而且推理速度也大于Shufflenetv2-YOLOv3，体现了LVD-net设计的优势。结果表明，相比于通用目标检测模型，LVD-net的模型设计方法在道路交通监控场景下具有一定的优势。

根据本发明实施例提供的车辆目标检测方法，对训练数据集的标注框尺寸进行聚类，根据聚类结果配置理论感受野；基于理论感受野构建骨干网络；针对骨干网络所有输出特征层分层配置不同损失函数，构建车辆检测模型；基于训练数据集中训练样本对车辆检测模型进行训练；将待检测数据输入至训练完成的车辆检测模型，输出车辆目标检测结果。通过本发明的实施，引入感受野大小与场景车辆尺寸大小的匹配策略对车辆检测模型进行构建，有效降低了车辆检测模型的参数量和计算量，提高了模型对车辆的检测精度，并增强了车辆检测的鲁棒性。

第二实施例：

为了解决相关技术中所提供的目标检测模型无法兼顾检测精度和检测速度的问题，本实施例示出了一种车辆目标检测装置，具体请参见图6，本实施例的车辆目标检测装置包括：

配置模块601，用于对训练数据集的标注框尺寸进行聚类，根据聚类结果配置理论感受野；

第一构建模块602，用于基于理论感受野构建骨干网络；其中，骨干网络的输出特征层的感受野与道路场景下车辆尺寸相匹配；

第二构建模块603，用于针对骨干网络所有输出特征层分层配置不同损失函数，构建车辆检测模型；

训练模块604，用于基于训练数据集中训练样本对车辆检测模型进行训练；

检测模块605，用于将待检测数据输入至训练完成的车辆检测模型，输出车辆目标检测结果；其中，车辆目标检测结果包括：位置信息、类别信息。

在本实施例的一些实施方式中，配置模块具体用于：对训练数据集的标注框尺寸大小分布进行统计，得到标注框的尺寸范围分布信息；根据尺寸范围分布信息选定输出特征层的个数和下采样率；针对选定下采样率的输出特征层，对训练数据集中的标注框进行聚类；将聚类得到的锚框作为相应尺寸范围下的代表性标注框，并通过锚框的尺寸配置理论感受野。相应的，第一构建模块具体用于：参考理论感受野的大小设计网络模型深度；根据网络模型深度构建骨干网络。

在本实施例的一些实施方式中，第二构建模块在执行针对骨干网络所有输出特征层分层配置不同损失函数的功能时，具体用于：将骨干网络所有输出特征层区分为浅层特征层与深层特征层；针对浅层特征层配置高斯热图损失函数，以及针对深层特征图配置YOLO置信度损失函数。

在本实施例的一些实施方式中，车辆目标检测装置还包括：分配模块，用于在基于训练数据集中训练样本对车辆检测模型进行训练的步骤之前，在层内与层间进行正负样本分配时，针对分配有歧义的训练样本，采用与标注框最大交并比的规则分配于对应单个输出特征层进行预测。

进一步地，在本实施例的一些实施方式中，分配模块具体用于：针对不同输出特征层的真实标签特征张量采用预设分配公式进行分配，分配公式表示为：

对于使用高斯热图损失函数的浅层特征层，将α_ij修改为：

对于使用YOLO置信度损失函数的深层特征层，将N_ij修改为：

其中，

表示真实标签特征张量，IOU()表示交并比计算函数，i、j表示特征层S_n对应横、纵坐标，

为与相应序号特征层相对应的锚框，

表示正负样本权重张量，β表示超参数，N_ij表示负样本的真实置信度标签图在横坐标i、纵坐标j下的张量。

在本实施例的一些实施方式中，车辆检测模型包括23层卷积层，第14层、第17层、第20层以及第23层卷积层为输出特征层，第14层、第17层、第20层以及第23层卷积层的下采样率分别为4倍、8倍、16倍以及32倍。

在本实施例的一些实施方式中，车辆目标检测装置还包括：测试模块，用于在将待检测数据输入至训练完成的车辆检测模型的步骤之前，将测试数据集输入至车辆检测模型，输出测试检测数据；将测试检测数据与测试数据集的原始标注数据进行AP度量指标计算；其中，在计算得到的AP度量指标超过通用检测模型的AP度量指标时，确定训练完成的车辆检测模型有效。

在本实施例的一些实施方式中，训练模块具体用于：统计训练数据集中训练样本每个通道的均值与方差，对各训练样本各通道的像素值进行标准化；其中，标准化后各训练样本各通道的值归一化至[-1,1]的区间；将标准化后的训练样本进行数据增强处理；其中，数据增强处理包括随机裁剪、随机扩展、随机反转、色彩抖动、对比度增强中至少一种；采用处理完成的训练样本对车辆检测模型进行训练。

应当说明的是，前述实施例中的车辆目标检测方法均可基于本实施例提供的车辆目标检测装置实现，所属领域的普通技术人员可以清楚的了解到，为描述的方便和简洁，本实施例中所描述的车辆目标检测装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

采用本实施例提供的车辆目标检测装置，对训练数据集的标注框尺寸进行聚类，根据聚类结果配置理论感受野；基于理论感受野构建骨干网络；针对骨干网络所有输出特征层分层配置不同损失函数，构建车辆检测模型；基于训练数据集中训练样本对车辆检测模型进行训练；将待检测数据输入至训练完成的车辆检测模型，输出车辆目标检测结果。通过本发明的实施，引入感受野大小与场景车辆尺寸大小的匹配策略对车辆检测模型进行构建，有效降低了车辆检测模型的参数量和计算量，提高了模型对车辆的检测精度，并增强了车辆检测的鲁棒性。

第三实施例：

本实施例提供了一种电子装置，参见图7所示，其包括处理器701、存储器702及通信总线703，其中：通信总线703用于实现处理器701和存储器702之间的连接通信；处理器701用于执行存储器702中存储的一个或者多个计算机程序，以实现上述实施例一中的车辆目标检测方法中的至少一个步骤。

本实施例还提供了一种计算机可读存储介质，该计算机可读存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、计算机程序模块或其他数据)的任何方法或技术中实施的易失性或非易失性、可移除或不可移除的介质。计算机可读存储介质包括但不限于RAM(Random Access Memory，随机存取存储器),ROM(Read-Only Memory，只读存储器),EEPROM(Electrically Erasable Programmable read only memory，带电可擦可编程只读存储器)、闪存或其他存储器技术、CD-ROM(Compact Disc Read-Only Memory，光盘只读存储器)，数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。

本实施例中的计算机可读存储介质可用于存储一个或者多个计算机程序，其存储的一个或者多个计算机程序可被处理器执行，以实现上述实施例一中的方法的至少一个步骤。

本实施例还提供了一种计算机程序，该计算机程序可以分布在计算机可读介质上，由可计算装置来执行，以实现上述实施例一中的方法的至少一个步骤；并且在某些情况下，可以采用不同于上述实施例所描述的顺序执行所示出或描述的至少一个步骤。

本实施例还提供了一种计算机程序产品，包括计算机可读装置，该计算机可读装置上存储有如上所示的计算机程序。本实施例中该计算机可读装置可包括如上所示的计算机可读存储介质。

可见，本领域的技术人员应该明白，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件(可以用计算装置可执行的计算机程序代码来实现)、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。

此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、计算机程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。所以，本发明不限制于任何特定的硬件和软件结合。

以上内容是结合具体的实施方式对本发明实施例所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。