CN110008882A

CN110008882A - 基于掩模与边框相似性损失的车辆检测方法

Info

Publication number: CN110008882A
Application number: CN201910243464.8A
Authority: CN
Inventors: 周智恒; 黄宇
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-03-28
Filing date: 2019-03-28
Publication date: 2019-07-12
Anticipated expiration: 2039-03-28
Also published as: CN110008882B

Abstract

本发明公开了一种基于掩模与边框相似性损失的车辆检测方法，包括如下步骤：使用Mask RCNN模型预训练；利用Mask RCNN模型预检测；构造车辆检测模型；输入车辆数据集及对应的预检测结果，由主干网络获取卷积神经网络的特征并使用预检测框提取车辆特征，使用掩模对该特征的每一通道应用Hadamard积得到分离后的车辆特征；根据预检测结果构造边框相似性损失训练车辆检测模型。本发明基于掩模与边框相似性损失，利用可见部分掩模分离本车辆的特征与周围车辆特征，通过排除遮挡物体的干扰提高准确率；构建关联边框的相似性损失，提高边框回归的质量。

Description

基于掩模与边框相似性损失的车辆检测方法

技术领域

本发明涉及深度学习车辆检测领域，具体涉及一种基于掩模与边框相似性损失的车辆检测方法。

背景技术

车辆检测是辅助驾驶系统(ADAS)和自动驾驶系统的重要组成部分。准确率更高，能够应对复杂环境的车辆检测算法在车辆检测中具有重大意义。基于深度学习的车辆检测算法具有很高的准确率以及鲁棒性，主要有Fast RCNN、Faster RCNN、SSD等。基于深度学习的车辆检测算法中，一般流程是先使用基础网络提取图像特征，在训练阶段选择IoU大于0.5的候选框作为正样本其余候选框作为负样本训练，在测试阶段对预测的边框使用非极大值抑制算法滤除多余的检测框得到最后的检测结果。

在传统的深度学习检测方法中，直接使用IoU判断正负样本，进而对这些样本当作单独的个体去训练，忽视了这些个体之间的联系。同时，由于遮挡的存在使得检测算法选择的特征有可能包括其他物体的特征。没有把当前车辆的检测框与周围车辆的检测框关联起来和没有对特征进行很好的分离使得被遮挡的物体的检测框不够精确并且使得召回率不够高。

发明内容

本发明的目的是为了解决现有技术中的上述缺陷，提供一种基于掩模与边框相似性损失的车辆检测方法。

本发明的目的可以通过采取如下技术方案达到：

一种基于掩模与边框相似性损失的车辆检测方法，所述的车辆检测方法包括如下步骤：

S1、使用Mask RCNN模型在COCO数据集上预训练，其中Mask RCNN模型的输入为H_Mask×H_Mask，H_Mask表示模型输入图片的边长；

S2、预检测阶段，利用预训练的Mask RCNN模型对车辆数据集中的图片进行滑动检测，融合检测结果得到预检测结果，该预检测结果包括车辆的检测框和可见部分的掩模，也叫做Mask；

S3、构造车辆检测模型，该车辆检测模型由车辆检测主干网络和检测子网络依次连接得到；

S4、构造车辆检测数据集，将车辆图片输入到车辆检测主干网络获取卷积特征，使用预检测结果提取车辆特征，对掩模与卷积特征的每一通道应用Hadamard积得到分离后的车辆特征，将分离后的车辆特征与预检测结果输入至检测子网络得到检测子网络的输出结果；

S5、由预检测结果与检测子网络的输出结果构造边框相似性损失，训练车辆检测模型；

S6、通过训练后得到的车辆检测模型进行车辆检测。

进一步地，所述的步骤S2具体如下：

S21、在预检测阶段，以步长s进行滑动，对车辆数据集的图片以H_car×H_car进行裁剪，其中H_car表示图片的高度，以双立方插值法放大裁剪出的图像至H_Mask×H_Mask，若滑动窗口在最后一步超出图像边界时，选取图像的右边界作为滑动窗口的右边界，以保证滑动窗口的图像完全包括车辆数据集的图片，对于一张车辆数据集中的图片，对其裁剪放大操作后的图像数目记为N_s；

S22、将N_s个裁剪放大的图像使用Mask RCNN进行车辆检测，得到N_s张图像的检测结果D；

S23、对检测结果D，进行聚合，聚合的条件为：IoU>t_iou，其中t_iou为IoU聚合的阈值，IoU是交并比(Intersection over Union,IoU)，对聚合在一起的检测框进行筛选，将集合内的检测框个数小于t_num的检测框的集合剔除，其中t_num表示的是集合的筛选阈值，最后，对剔除后每个集合中的检测框取平均值，包括置信度和边框位置的平均，并对Mask取平均得到预检测结果D′。

进一步地，所述的车辆检测主干网络具体结构如下：

从输入层至输出层依次连接为：卷积层conv1_1、BN层conv1_1_bn、Relu层conv1_1_relu、卷积层conv1_2、BN层conv1_2_bn、Relu层conv1_2_relu、池化层max_pooling1、卷积层conv2_1、BN层conv2_1_bn、Relu层conv2_1_relu、卷积层conv2_2、BN层conv2_2_bn、Relu层conv2_2_relu、池化层max_pooling2、卷积层conv3_1、BN层conv3_1_bn、Relu层conv3_1_relu、卷积层conv3_2、BN层conv3_2_bn、Relu层conv3_2_relu、卷积层conv3_3、BN层conv3_3_bn、Relu层conv3_3_relu、池化层max_pooling3、卷积层conv4_1、BN层conv4_1_bn、Relu层conv4_1_relu、卷积层conv4_2、BN层conv4_2_bn、Relu层conv4_2_relu、卷积层conv4_3、BN层conv4_3_bn、Relu层conv4_3_relu、池化层max_pooling4、卷积层conv5_1、BN层conv5_1_bn、Relu层conv5_1_relu、卷积层conv5_2、BN层conv5_2_bn、Relu层conv5_2_relu、卷积层conv5_3、BN层conv5_3_bn、Relu层conv5_3_relu、池化层max_pooling5；

所述的检测子网络包括共享部分、分类部分和边框回归部分，其中，共享部分与分类部分连接组成分类器，共享部分与边框回归部分连接组成边框回归器，

所述的共享部分的结构如下：从输入层至输出层依次连接为自适应池化层RoIpooling、卷积层conv1_subnet、BN层bn1_subnet、Relu激活层relu1_subnet、卷积层conv2_subnet、Relu激活层relu2_subnet；

所述的分类部分的结构如下：从输入层至输出层依次连接为全连接层fc_cls、softmax层；

所述的边框回归部分为全连接层fc_reg。

进一步地，所述的步骤S4具体如下：

S41、构造车辆检测数据集，对于车辆检测数据集的准备，需要注意以下三个方面：首先，数据集中的图像要有遮挡的车辆，并且根据遮挡比例对遮挡水平进行分级：L1,L2,L3代表由易到难的三个等级；其次，数据集中的图像宽度要大于高度；最后，数据集的中的标签框需要包括完整的车辆；将车辆图片输入到车辆检测主干网络得到卷积特征，使用预检测结果提取车辆特征；

S42、使用掩模对卷积特征的每一通道应用Hadamard积得到分离后的车辆特征，用W_m×H_m表示图像掩模,并把它写为M，其中W_m与H_m分别表示图像掩模的宽度和高度，用D_f×W_f×H_f表示未分离的车辆特征，并把它记为F，其中D_f、W_f、H_f分别表示未分离的车辆特征的通道数、宽度、高度，分离后的车辆特征记为F′，对M下采样得到其中M_bicubic表示下采样后的图像掩模，将M_bicubic扩展到3维张量其中表示扩展后的三维张量，通过Hadamard积得到分离的车辆特征：

将分离后的车辆特征与预检测结果输入至检测子网络得到检测子网络的输出结果，检测子网络的输出结果包括置信度和边框的偏移量。

进一步地，所述的步骤S5具体如下：

S51、用四元组表示第i个预检测框B_i，其中分别表示预检测框B_i的中心的横坐标、中心的纵坐标、宽度、高度，对每一个预检测框寻找与其匹配程度最大的标签框B,B＝(c_x,c_y,w,h)，其中c_x,c_y,w,h分别表示标签框B的中心的横坐标、中心的纵坐标、宽度、高度，该标签框的遮挡级别为L，所回归的置信度为C_L，对L1，L2，L3遮挡级别分别回归不同的置信度C_L1，C_L2，C_L3；匹配程度定义如下：对于预检测框B_i，若B_i的边与标签框B的对应边的差值占标签框的对应边的比例小于阈值t_sim，其中t_sim表示边的相似阈值，则为相似边，相似边数目最多的标签框的匹配程度最高；在相似边数目相等的情况下，计算相似边的差值比例p之和，其值越小则匹配程度越高；定义置信度损失如下：

其中R表示回归器，表示检测子网络预测的置信度；

S52、定义目标框回归向量Δ_i＝(δ_x,δ_y,δ_w,δ_h)，其参数可由下列式子计算：

δ_w＝log(w_i/w)

δ_h＝log(h_i/h)

其中δ_x,δ_y,δ_w,δ_h分别表示目标框中心的横坐标偏移、中心的纵坐标偏移、宽度偏移、高度偏移，从而得到边框回归损失，用表示检测子网络预测的边框偏移:

S53、对于预检测框B_i，其匹配程度最大的标签框B,B＝(c_x,c_y,w,h)，定义边框相似性掩模其中分别表示检测框的左边界的掩模、检测框的上边界的掩模、检测框的右边界的掩模、检测框的下边界的掩模，S中的元素为0时表示不匹配，元素为1时表示匹配，下标x_min,y_min,x_max,y_max分别表示边框的左边界，上边界，右边界，下边界；寻找除了标签框B以外与标签框B重叠度最大的标签框B′，定义边框相似性损失如下：

Δ_i,wh＝(δ′_w,δ′_h)，δ′_w＝log(w_i/w′)，δ′_h＝log(h_i/h′)

其中，λ_self,λ_other分别为自身边框相似性损失和该边框与周围车辆的宽度和高度相似性损失的平衡参数，s_l为边界的掩模，L_S的左边一项约束了B的相似边尽可能地与预检测框一致，L_S的右边一项含义为：B与B′的IoU越高，则该项的损失越大，并且使得本车辆预测框与邻近IoU最大的标签框有着相似的高和宽，其中Δ_i,wh分别表示检测子网络预测的边框的宽高偏移和边框的宽高偏移的标签，δ′_w，δ′_h分别表示检测子网络预测的边框相对于B′的宽度和高度的偏移，w′，h′分别表示B′的宽度和高度；

S54、将S51、S52、S53的损失合并得到总的损失函数：

L＝λ_CL_C+λ_BL_B+λ_SL_S

其中，λ_C，λ_B，λ_S分别为置信度损失、边框回归损失、边框相似性损失的平衡参数。

本发明相对于现有技术具有如下的优点及效果：

(1)本发明利用可见部分Mask提取了自身车辆的特征，排除了遮挡物体的干扰，从而提高了准确率；

(2)本发明通过边框相似性损失，约束了相似边，并使得当前车辆的预测框的高和宽和与其IoU最高的其他车辆的标签框相似，从而使得预测的边框更加的精确。

附图说明

图1是本发明公开的一种基于掩模与边框相似性损失的车辆检测方法的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

如图1所示，一种基于掩模与边框相似性损失的车辆检测方法，具体包括下列步骤：

步骤S1、使用Mask RCNN模型在COCO数据集上预训练。其中Mask RCNN模型的输入为H_Mask×H_Mask，H_Mask表示模型输入图片的边长。在本发明中，取H_Mask＝1024。

步骤S2、预检测阶段，利用预训练的Mask RCNN模型对车辆数据集中的图片进行滑动检测，融合检测结果得到预检测结果。该预检测结果包括车辆的检测框和可见部分的掩模，也叫做Mask。具体如下：

S21、在预检测阶段，以步长s进行滑动，本发明取s＝100，对车辆数据集的图片以H_car×H_car进行裁剪，其中H_car表示图片的高度。以双立方插值法放大裁剪出的图像至H_Mask×H_Mask，其中H_Mask表示裁剪后的图像宽度和高度。特别地，若滑动窗口在最后一步超出图像边界时，选取图像的右边界作为滑动窗口的右边界，以保证滑动窗口的图像完全包括车辆数据集的图片。对于一张车辆数据集中的图片，对其裁剪放大操作后的图像数目记为N_s。

S22、将N_s个裁剪放大的图像使用Mask RCNN进行车辆检测，得到N_s张图像的检测结果D。

S23、对检测结果D，进行聚合，聚合的条件为：IoU>t_iou，其中t_iou为IoU聚合的阈值，在本发明中取t_iou＝0.7。对聚合在一起的检测框进行筛选，将集合内的检测框个数小于t_num的检测框的集合剔除，在本发明中取t_num＝3。最后，对剔除后每个集合中的检测框取平均值，包括置信度和边框位置的平均，并对Mask取平均得到预检测结果D′。

步骤S3、构造车辆检测模型，车辆检测模型由车辆检测主干网络和检测子网络组成，具体如下：

所述的主干网络具体结构如下：

所述的检测子网络的共享部分具体结构为：

从输入层至输出层依次连接为：自适应池化层RoI pooling、卷积层conv1_subnet、BN层bn1_subnet、Relu激活层relu1_subnet、卷积层conv2_subnet、Relu激活层relu2_subnet；

检测子网络的分类部分具体结构为：从输入层至输出层依次连接为：全连接层fc_cls、softmax层；

检测子网络的边框回归部分为：全连接层fc_reg；

检测子网络的具体结构为：检测子网络的共享部分与分类部分连接组成分类器、检测子网络的共享部分与边框回归部分连接组成边框回归器；

车辆检测模型由车辆检测主干网络和检测子网络依次连接得到。

步骤S4、构造车辆检测数据集，将车辆图片输入到车辆检测主干网络获取卷积特征，使用预检测结果提取车辆特征，对掩模与卷积特征的每一通道应用Hadamard积得到分离后的车辆特征，将分离后的车辆特征与预检测结果输入至检测子网络得到检测子网络的输出结果。具体如下：

S41、构造车辆检测数据集，对于车辆检测数据集的准备，需要注意以下三个方面：首先，数据集中的图像要有遮挡的车辆，并且根据遮挡比例对遮挡水平进行分级：L1,L2,L3代表由易到难的三个等级，在本发明中，取15％，30％，50％遮挡比例；其次，数据集中的图像宽度要大于高度；最后，数据集的中的标签框需要包括完整的车辆。将车辆图片输入到车辆检测主干网络得到卷积特征，使用预检测结果提取车辆特征。

S42、使用掩模对卷积特征的每一通道应用Hadamard积得到分离后的车辆特征。用W_m×H_m表示图像掩模,并把它写为M，其中W_m与H_m分别表示图像掩模的宽度和高度。用D_f×W_f×H_f表示未分离的车辆特征，并把它写为F，其中D_f、W_f、H_f分别表示未分离的车辆特征的通道数、宽度、高度，分离后的车辆特征记为F′。对M下采样得到其中M_bicubic表示下采样后的图像掩模，将M_bicubic扩展到3维张量其中表示扩展后的三维张量。通过Hadamard积得到分离的车辆特征：

步骤S5、由预检测结果与检测子网络的输出结果构造边框相似性损失，训练车辆检测模型。具体如下：

S51、用四元组表示第i个预检测框B_i，其中分别表示预检测框B_i的中心的横坐标、中心的纵坐标、宽度、高度，对每一个预检测框寻找与其匹配程度最大的标签框B,B＝(c_x,c_y,w,h)，其中c_x,c_y,w,h分别表示标签框B的中心的横坐标、中心的纵坐标、宽度、高度，该标签框的遮挡级别为L，所回归的置信度为C_L。对L1，L2，L3遮挡级别分别回归不同的置信度C_L1，C_L2，C_L3，在本发明中分别取1.0、0.9、0.8。匹配程度定义如下：对于预检测框B_i，若B_i的边与标签框B的对应边的差值占标签框的对应边的比例小于阈值t_sim，其中t_sim表示边的相似阈值，则为相似边，相似边数目最多的标签框的匹配程度最高，本发明取t_sim＝0.1；在相似边数目相等的情况下，计算相似边的差值比例p之和，其值越小则匹配程度越高。定义置信度损失如下：

其中R表示回归器，表示检测子网络预测的置信度。

δ_w＝log(w_i/w)

δ_h＝log(h_i/h)

其中δ_x,δ_y,δ_w,δ_h分别表示目标框中心的横坐标偏移、中心的纵坐标偏移、宽度偏移、高度偏移，从而可以得到边框回归损失，用表示检测子网络预测的边框偏移:

S53、对S51中的预检测框B_i，其匹配程度最大的标签框B,B＝(c_x,c_y,w,h)，定义边框相似性掩模其中分别表示检测框的左边界的掩模、检测框的上边界的掩模、检测框的右边界的掩模、检测框的下边界的掩模，S中的元素为0时表示不匹配，元素为1时表示匹配，下标x_min,y_min,x_max,y_max分别表示边框的左边界，上边界，右边界，下边界。寻找除了标签框B以外与标签框B重叠度最大的标签框B′。定义边框相似性损失如下：

Δ_i,wh＝(δ′_w,δ′_h)，δ′_w＝log(w_i/w′)，δ′_h＝log(h_i/h′)

其中，λ_self,λ_other分别为自身边框相似性损失和该边框与周围车辆的宽度和高度相似性损失的平衡参数，s_l为边界的掩模，L_S的左边一项约束了B的相似边尽可能地与预检测框一致，L_S的右边一项含义为：B与B′的IoU越高，则该项的损失越大，并且使得本车辆预测框与邻近IoU最大的标签框有着相似的高和宽，其中Δ_i,wh分别表示检测子网络预测的边框的宽高偏移和边框的宽高偏移的标签，δ′_w，δ′_h分别表示检测子网络预测的边框相对于B′的宽度和高度的偏移，w′，h′分别表示B′的宽度和高度

S54、将S51、S52、S53的损失合并得到总的损失函数：

L＝λ_CL_C+λ_BL_B+λ_SL_S

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包括在本发明的保护范围之内。

Claims

1.一种基于掩模与边框相似性损失的车辆检测方法，其特征在于，所述的车辆检测方法包括如下步骤：

S2、利用预训练的Mask RCNN模型对车辆数据集中的图片进行滑动检测，融合检测结果得到预检测结果，该预检测结果包括车辆的检测框和可见部分的掩模；

S6、通过训练后得到的车辆检测模型进行车辆检测。

2.根据权利要求1所述的基于掩模与边框相似性损失的车辆检测方法，其特征在于，所述的步骤S2具体如下：

S21、以步长s进行滑动，对车辆数据集的图片以H_car×H_car进行裁剪，其中H_car表示图片的高度，以双立方插值法放大裁剪出的图像至H_Mask×H_Mask，若滑动窗口在最后一步超出图像边界时，选取图像的右边界作为滑动窗口的右边界，以保证滑动窗口的图像完全包括车辆数据集的图片，对于一张车辆数据集中的图片，对其裁剪放大操作后的图像数目记为N_s；

S23、对检测结果D，进行聚合，聚合的条件为：IoU>t_iou，其中t_iou为IoU聚合的阈值，IoU是交并比，对聚合在一起的检测框进行筛选，将集合内的检测框个数小于t_num的检测框的集合剔除，其中t_num表示的是集合的筛选阈值，最后，对剔除后每个集合中的检测框取平均值，包括置信度和边框位置的平均，并对Mask取平均得到预检测结果D′。

3.根据权利要求1所述的基于掩模与边框相似性损失的车辆检测方法，其特征在于，所述的车辆检测主干网络具体结构如下：

从输入层至输出层依次连接为：卷积层conv1_1、BN层conv1_1_bn、Relu层conv1_1_relu、卷积层conv1_2、BN层conv1_2_bn、Relu层conv1_2_relu、池化层max_pooling1、卷积层conv2_1、BN层conv2_1_bn、Relu层conv2_1_relu、卷积层conv2_2、BN层conv2_2_bn、Relu层conv2_2_relu、池化层max_pooling2、卷积层conv3_1、BN层conv3_1_bn、Relu层conv3_1_relu、卷积层conv3_2、BN层conv3_2_bn、Relu层conv3_2_relu、卷积层conv3_3、BN层conv3_3_bn、Relu层conv3_3_relu、池化层max_pooling3、卷积层conv4_1、BN层conv4_1_bn、Relu层conv4_1_relu、卷积层conv4_2、BN层conv4_2_bn、Relu层conv4_2_relu、卷积层conv4_3、BN层conv4_3_bn、Relu层conv4_3_relu、池化层max_pooling4、卷积层conv5_1、BN层conv5_1_bn、Relu层conv5_1_relu、卷积层conv5_2、BN层conv5_2_bn、Relu层conv5_2_relu、卷积层conv5_3、BN层conv5_3_bn、Relu层conv5_3_relu、池化层max_pooling5。

4.根据权利要求1所述的基于掩模与边框相似性损失的车辆检测方法，其特征在于，所述的检测子网络包括共享部分、分类部分和边框回归部分，其中，共享部分与分类部分连接组成分类器，共享部分与边框回归部分连接组成边框回归器，

所述的边框回归部分为全连接层fc_reg。

5.根据权利要求1所述的基于掩模与边框相似性损失的车辆检测方法，其特征在于，所述的步骤S4具体如下：

S41、构造车辆检测数据集，将车辆图片输入到车辆检测主干网络得到卷积特征，使用预检测结果提取车辆特征；

将分离后的车辆特征与预检测结果输入至检测子网络得到检测子网络的输出结果。

6.根据权利要求5所述的基于掩模与边框相似性损失的车辆检测方法，其特征在于，所述的车辆检测数据集中，首先，数据集中的图像要有遮挡的车辆，并且根据遮挡比例对遮挡水平进行分级：L1,L2,L3代表由易到难的三个等级；其次，数据集中的图像宽度要大于高度；最后，数据集的中的标签框需要包括完整的车辆。

7.根据权利要求5所述的基于掩模与边框相似性损失的车辆检测方法，其特征在于，所述的检测子网络的输出结果包括置信度和边框的偏移量。

8.根据权利要求1所述的基于掩模与边框相似性损失的车辆检测方法，其特征在于，所述的步骤S5具体如下：

S51、用四元组表示第i个预检测框B_i，其中w_i,h_i分别表示预检测框B_i的中心的横坐标、中心的纵坐标、宽度、高度，对每一个预检测框寻找与其匹配程度最大的标签框B,B＝(c_x,c_y,w,h)，其中c_x,c_y,w,h分别表示标签框B的中心的横坐标、中心的纵坐标、宽度、高度，该标签框的遮挡级别为L，所回归的置信度为C_L，对L1，L2，L3遮挡级别分别回归不同的置信度C_L1，C_L2，C_L3；匹配程度定义如下：对于预检测框B_i，若B_i的边与标签框B的对应边的差值占标签框的对应边的比例小于阈值t_sim，其中t_sim表示边的相似阈值，则为相似边，相似边数目最多的标签框的匹配程度最高；在相似边数目相等的情况下，计算相似边的差值比例p之和，其值越小则匹配程度越高；定义置信度损失如下：

其中R表示回归器，表示检测子网络预测的置信度；

δ_w＝log(w_i/w)

δ_h＝log(h_i/h)

Δ_i,wh＝(δ′_w,δ′_h)，δ′_w＝log(w_i/w′)，δ′_h＝log(h_i/h′)

S54、将S51、S52、S53的损失合并得到总的损失函数：

L＝λ_CL_C+λ_BL_B+λ_SL_S