CN110008882B - 基于掩模与边框相似性损失的车辆检测方法 - Google Patents

基于掩模与边框相似性损失的车辆检测方法 Download PDF

Info

Publication number
CN110008882B
CN110008882B CN201910243464.8A CN201910243464A CN110008882B CN 110008882 B CN110008882 B CN 110008882B CN 201910243464 A CN201910243464 A CN 201910243464A CN 110008882 B CN110008882 B CN 110008882B
Authority
CN
China
Prior art keywords
frame
detection
layer
vehicle
mask
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910243464.8A
Other languages
English (en)
Other versions
CN110008882A (zh
Inventor
周智恒
黄宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201910243464.8A priority Critical patent/CN110008882B/zh
Publication of CN110008882A publication Critical patent/CN110008882A/zh
Application granted granted Critical
Publication of CN110008882B publication Critical patent/CN110008882B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • G06V20/584Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of vehicle lights or traffic lights

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于掩模与边框相似性损失的车辆检测方法,包括如下步骤:使用Mask RCNN模型预训练;利用Mask RCNN模型预检测;构造车辆检测模型;输入车辆数据集及对应的预检测结果,由主干网络获取卷积神经网络的特征并使用预检测框提取车辆特征,使用掩模对该特征的每一通道应用Hadamard积得到分离后的车辆特征;根据预检测结果构造边框相似性损失训练车辆检测模型。本发明基于掩模与边框相似性损失,利用可见部分掩模分离本车辆的特征与周围车辆特征,通过排除遮挡物体的干扰提高准确率;构建关联边框的相似性损失,提高边框回归的质量。

Description

基于掩模与边框相似性损失的车辆检测方法
技术领域
本发明涉及深度学习车辆检测领域,具体涉及一种基于掩模与边框相似性损失的车辆检测方法。
背景技术
车辆检测是辅助驾驶系统(ADAS)和自动驾驶系统的重要组成部分。准确率更高,能够应对复杂环境的车辆检测算法在车辆检测中具有重大意义。基于深度学习的车辆检测算法具有很高的准确率以及鲁棒性,主要有Fast RCNN、Faster RCNN、SSD等。基于深度学习的车辆检测算法中,一般流程是先使用基础网络提取图像特征,在训练阶段选择IoU大于0.5的候选框作为正样本其余候选框作为负样本训练,在测试阶段对预测的边框使用非极大值抑制算法滤除多余的检测框得到最后的检测结果。
在传统的深度学习检测方法中,直接使用IoU判断正负样本,进而对这些样本当作单独的个体去训练,忽视了这些个体之间的联系。同时,由于遮挡的存在使得检测算法选择的特征有可能包括其他物体的特征。没有把当前车辆的检测框与周围车辆的检测框关联起来和没有对特征进行很好的分离使得被遮挡的物体的检测框不够精确并且使得召回率不够高。
发明内容
本发明的目的是为了解决现有技术中的上述缺陷,提供一种基于掩模与边框相似性损失的车辆检测方法。
本发明的目的可以通过采取如下技术方案达到:
一种基于掩模与边框相似性损失的车辆检测方法,所述的车辆检测方法包括如下步骤:
S1、使用Mask RCNN模型在COCO数据集上预训练,其中Mask RCNN模型的输入为HMask×HMask,HMask表示模型输入图片的边长;
S2、预检测阶段,利用预训练的Mask RCNN模型对车辆数据集中的图片进行滑动检测,融合检测结果得到预检测结果,该预检测结果包括车辆的检测框和可见部分的掩模,也叫做Mask;
S3、构造车辆检测模型,该车辆检测模型由车辆检测主干网络和检测子网络依次连接得到;
S4、构造车辆检测数据集,将车辆图片输入到车辆检测主干网络获取卷积特征,使用预检测结果提取车辆特征,对掩模与卷积特征的每一通道应用Hadamard积得到分离后的车辆特征,将分离后的车辆特征与预检测结果输入至检测子网络得到检测子网络的输出结果;
S5、由预检测结果与检测子网络的输出结果构造边框相似性损失,训练车辆检测模型;
S6、通过训练后得到的车辆检测模型进行车辆检测。
进一步地,所述的步骤S2具体如下:
S21、在预检测阶段,以步长s进行滑动,对车辆数据集的图片以Hcar×Hcar进行裁剪,其中Hcar表示图片的高度,以双立方插值法放大裁剪出的图像至HMask×HMask,若滑动窗口在最后一步超出图像边界时,选取图像的右边界作为滑动窗口的右边界,以保证滑动窗口的图像完全包括车辆数据集的图片,对于一张车辆数据集中的图片,对其裁剪放大操作后的图像数目记为Ns
S22、将Ns个裁剪放大的图像使用Mask RCNN进行车辆检测,得到Ns张图像的检测结果D;
S23、对检测结果D,进行聚合,聚合的条件为:IoU>tiou,其中tiou为IoU聚合的阈值,IoU是交并比(Intersection over Union,IoU),对聚合在一起的检测框进行筛选,将集合内的检测框个数小于tnum的检测框的集合剔除,其中tnum表示的是集合的筛选阈值,最后,对剔除后每个集合中的检测框取平均值,包括置信度和边框位置的平均,并对Mask取平均得到预检测结果D′。
进一步地,所述的车辆检测主干网络具体结构如下:
从输入层至输出层依次连接为:卷积层conv1_1、BN层conv1_1_bn、Relu层conv1_1_relu、卷积层conv1_2、BN层conv1_2_bn、Relu层conv1_2_relu、池化层max_pooling1、卷积层conv2_1、BN层conv2_1_bn、Relu层conv2_1_relu、卷积层conv2_2、BN层conv2_2_bn、Relu层conv2_2_relu、池化层max_pooling2、卷积层conv3_1、BN层conv3_1_bn、Relu层conv3_1_relu、卷积层conv3_2、BN层conv3_2_bn、Relu层conv3_2_relu、卷积层conv3_3、BN层conv3_3_bn、Relu层conv3_3_relu、池化层max_pooling3、卷积层conv4_1、BN层conv4_1_bn、Relu层conv4_1_relu、卷积层conv4_2、BN层conv4_2_bn、Relu层conv4_2_relu、卷积层conv4_3、BN层conv4_3_bn、Relu层conv4_3_relu、池化层max_pooling4、卷积层conv5_1、BN层conv5_1_bn、Relu层conv5_1_relu、卷积层conv5_2、BN层conv5_2_bn、Relu层conv5_2_relu、卷积层conv5_3、BN层conv5_3_bn、Relu层conv5_3_relu、池化层max_pooling5;
所述的检测子网络包括共享部分、分类部分和边框回归部分,其中,共享部分与分类部分连接组成分类器,共享部分与边框回归部分连接组成边框回归器,
所述的共享部分的结构如下:从输入层至输出层依次连接为自适应池化层RoIpooling、卷积层conv1_subnet、BN层bn1_subnet、Relu激活层relu1_subnet、卷积层conv2_subnet、Relu激活层relu2_subnet;
所述的分类部分的结构如下:从输入层至输出层依次连接为全连接层fc_cls、softmax层;
所述的边框回归部分为全连接层fc_reg。
进一步地,所述的步骤S4具体如下:
S41、构造车辆检测数据集,对于车辆检测数据集的准备,需要注意以下三个方面:首先,数据集中的图像要有遮挡的车辆,并且根据遮挡比例对遮挡水平进行分级:L1,L2,L3代表由易到难的三个等级;其次,数据集中的图像宽度要大于高度;最后,数据集的中的标签框需要包括完整的车辆;将车辆图片输入到车辆检测主干网络得到卷积特征,使用预检测结果提取车辆特征;
S42、使用掩模对卷积特征的每一通道应用Hadamard积得到分离后的车辆特征,用Wm×Hm表示图像掩模,并把它写为M,其中Wm与Hm分别表示图像掩模的宽度和高度,用Df×Wf×Hf表示未分离的车辆特征,并把它记为F,其中Df、Wf、Hf分别表示未分离的车辆特征的通道数、宽度、高度,分离后的车辆特征记为F′,对M下采样得到
Figure BDA0002010376390000041
其中Mbicubic表示下采样后的图像掩模,将Mbicubic扩展到3维张量
Figure BDA0002010376390000042
其中
Figure BDA0002010376390000043
表示扩展后的三维张量,通过Hadamard积得到分离的车辆特征:
Figure BDA0002010376390000044
将分离后的车辆特征与预检测结果输入至检测子网络得到检测子网络的输出结果,检测子网络的输出结果包括置信度和边框的偏移量。
进一步地,所述的步骤S5具体如下:
S51、用四元组
Figure BDA0002010376390000045
表示第i个预检测框Bi,其中
Figure BDA0002010376390000046
分别表示预检测框Bi的中心的横坐标、中心的纵坐标、宽度、高度,对每一个预检测框寻找与其匹配程度最大的标签框B,B=(cx,cy,w,h),其中cx,cy,w,h分别表示标签框B的中心的横坐标、中心的纵坐标、宽度、高度,该标签框的遮挡级别为L,所回归的置信度为CL,对L1,L2,L3遮挡级别分别回归不同的置信度CL1,CL2,CL3;匹配程度定义如下:对于预检测框Bi,若Bi的边与标签框B的对应边的差值占标签框的对应边的比例小于阈值tsim,其中tsim表示边的相似阈值,则为相似边,相似边数目最多的标签框的匹配程度最高;在相似边数目相等的情况下,计算相似边的差值比例p之和,其值越小则匹配程度越高;定义置信度损失如下:
Figure BDA0002010376390000051
其中R表示回归器,
Figure BDA0002010376390000052
表示检测子网络预测的置信度;
S52、定义目标框回归向量Δi=(δxywh),其参数可由下列式子计算:
Figure BDA0002010376390000053
Figure BDA0002010376390000054
δw=log(wi/w)
δh=log(hi/h)
其中δxywh分别表示目标框中心的横坐标偏移、中心的纵坐标偏移、宽度偏移、高度偏移,从而得到边框回归损失,用
Figure BDA0002010376390000055
表示检测子网络预测的边框偏移:
Figure BDA0002010376390000056
S53、对于预检测框Bi,其匹配程度最大的标签框B,B=(cx,cy,w,h),定义边框相似性掩模
Figure BDA0002010376390000057
其中分别
Figure BDA0002010376390000058
表示检测框的左边界的掩模、检测框的上边界的掩模、检测框的右边界的掩模、检测框的下边界的掩模,S中的元素为0时表示不匹配,元素为1时表示匹配,下标xmin,ymin,xmax,ymax分别表示边框的左边界,上边界,右边界,下边界;寻找除了标签框B以外与标签框B重叠度最大的标签框B′,定义边框相似性损失如下:
Figure BDA0002010376390000059
Δi,wh=(δ′w,δ′h),δ′w=log(wi/w′),δ′h=log(hi/h′)
其中,λselfother分别为自身边框相似性损失和该边框与周围车辆的宽度和高度相似性损失的平衡参数,sl为边界的掩模,LS的左边一项约束了B的相似边尽可能地与预检测框一致,LS的右边一项含义为:B与B′的IoU越高,则该项的损失越大,并且使得本车辆预测框与邻近IoU最大的标签框有着相似的高和宽,其中
Figure BDA0002010376390000061
Δi,wh分别表示检测子网络预测的边框的宽高偏移和边框的宽高偏移的标签,δ′w,δ′h分别表示检测子网络预测的边框相对于B′的宽度和高度的偏移,w′,h′分别表示B′的宽度和高度;
S54、将S51、S52、S53的损失合并得到总的损失函数:
L=λCLCBLBSLS
其中,λC,λB,λS分别为置信度损失、边框回归损失、边框相似性损失的平衡参数。
本发明相对于现有技术具有如下的优点及效果:
(1)本发明利用可见部分Mask提取了自身车辆的特征,排除了遮挡物体的干扰,从而提高了准确率;
(2)本发明通过边框相似性损失,约束了相似边,并使得当前车辆的预测框的高和宽和与其IoU最高的其他车辆的标签框相似,从而使得预测的边框更加的精确。
附图说明
图1是本发明公开的一种基于掩模与边框相似性损失的车辆检测方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
如图1所示,一种基于掩模与边框相似性损失的车辆检测方法,具体包括下列步骤:
步骤S1、使用Mask RCNN模型在COCO数据集上预训练。其中Mask RCNN模型的输入为HMask×HMask,HMask表示模型输入图片的边长。在本发明中,取HMask=1024。
步骤S2、预检测阶段,利用预训练的Mask RCNN模型对车辆数据集中的图片进行滑动检测,融合检测结果得到预检测结果。该预检测结果包括车辆的检测框和可见部分的掩模,也叫做Mask。具体如下:
S21、在预检测阶段,以步长s进行滑动,本发明取s=100,对车辆数据集的图片以Hcar×Hcar进行裁剪,其中Hcar表示图片的高度。以双立方插值法放大裁剪出的图像至HMask×HMask,其中HMask表示裁剪后的图像宽度和高度。特别地,若滑动窗口在最后一步超出图像边界时,选取图像的右边界作为滑动窗口的右边界,以保证滑动窗口的图像完全包括车辆数据集的图片。对于一张车辆数据集中的图片,对其裁剪放大操作后的图像数目记为Ns
S22、将Ns个裁剪放大的图像使用Mask RCNN进行车辆检测,得到Ns张图像的检测结果D。
S23、对检测结果D,进行聚合,聚合的条件为:IoU>tiou,其中tiou为IoU聚合的阈值,在本发明中取tiou=0.7。对聚合在一起的检测框进行筛选,将集合内的检测框个数小于tnum的检测框的集合剔除,在本发明中取tnum=3。最后,对剔除后每个集合中的检测框取平均值,包括置信度和边框位置的平均,并对Mask取平均得到预检测结果D′。
步骤S3、构造车辆检测模型,车辆检测模型由车辆检测主干网络和检测子网络组成,具体如下:
所述的主干网络具体结构如下:
从输入层至输出层依次连接为:卷积层conv1_1、BN层conv1_1_bn、Relu层conv1_1_relu、卷积层conv1_2、BN层conv1_2_bn、Relu层conv1_2_relu、池化层max_pooling1、卷积层conv2_1、BN层conv2_1_bn、Relu层conv2_1_relu、卷积层conv2_2、BN层conv2_2_bn、Relu层conv2_2_relu、池化层max_pooling2、卷积层conv3_1、BN层conv3_1_bn、Relu层conv3_1_relu、卷积层conv3_2、BN层conv3_2_bn、Relu层conv3_2_relu、卷积层conv3_3、BN层conv3_3_bn、Relu层conv3_3_relu、池化层max_pooling3、卷积层conv4_1、BN层conv4_1_bn、Relu层conv4_1_relu、卷积层conv4_2、BN层conv4_2_bn、Relu层conv4_2_relu、卷积层conv4_3、BN层conv4_3_bn、Relu层conv4_3_relu、池化层max_pooling4、卷积层conv5_1、BN层conv5_1_bn、Relu层conv5_1_relu、卷积层conv5_2、BN层conv5_2_bn、Relu层conv5_2_relu、卷积层conv5_3、BN层conv5_3_bn、Relu层conv5_3_relu、池化层max_pooling5;
所述的检测子网络的共享部分具体结构为:
从输入层至输出层依次连接为:自适应池化层RoI pooling、卷积层conv1_subnet、BN层bn1_subnet、Relu激活层relu1_subnet、卷积层conv2_subnet、Relu激活层relu2_subnet;
检测子网络的分类部分具体结构为:从输入层至输出层依次连接为:全连接层fc_cls、softmax层;
检测子网络的边框回归部分为:全连接层fc_reg;
检测子网络的具体结构为:检测子网络的共享部分与分类部分连接组成分类器、检测子网络的共享部分与边框回归部分连接组成边框回归器;
车辆检测模型由车辆检测主干网络和检测子网络依次连接得到。
步骤S4、构造车辆检测数据集,将车辆图片输入到车辆检测主干网络获取卷积特征,使用预检测结果提取车辆特征,对掩模与卷积特征的每一通道应用Hadamard积得到分离后的车辆特征,将分离后的车辆特征与预检测结果输入至检测子网络得到检测子网络的输出结果。具体如下:
S41、构造车辆检测数据集,对于车辆检测数据集的准备,需要注意以下三个方面:首先,数据集中的图像要有遮挡的车辆,并且根据遮挡比例对遮挡水平进行分级:L1,L2,L3代表由易到难的三个等级,在本发明中,取15%,30%,50%遮挡比例;其次,数据集中的图像宽度要大于高度;最后,数据集的中的标签框需要包括完整的车辆。将车辆图片输入到车辆检测主干网络得到卷积特征,使用预检测结果提取车辆特征。
S42、使用掩模对卷积特征的每一通道应用Hadamard积得到分离后的车辆特征。用Wm×Hm表示图像掩模,并把它写为M,其中Wm与Hm分别表示图像掩模的宽度和高度。用Df×Wf×Hf表示未分离的车辆特征,并把它写为F,其中Df、Wf、Hf分别表示未分离的车辆特征的通道数、宽度、高度,分离后的车辆特征记为F′。对M下采样得到
Figure BDA0002010376390000091
其中Mbicubic表示下采样后的图像掩模,将Mbicubic扩展到3维张量
Figure BDA0002010376390000092
其中
Figure BDA0002010376390000093
表示扩展后的三维张量。通过Hadamard积得到分离的车辆特征:
Figure BDA0002010376390000094
将分离后的车辆特征与预检测结果输入至检测子网络得到检测子网络的输出结果,检测子网络的输出结果包括置信度和边框的偏移量。
步骤S5、由预检测结果与检测子网络的输出结果构造边框相似性损失,训练车辆检测模型。具体如下:
S51、用四元组
Figure BDA0002010376390000095
表示第i个预检测框Bi,其中
Figure BDA0002010376390000096
分别表示预检测框Bi的中心的横坐标、中心的纵坐标、宽度、高度,对每一个预检测框寻找与其匹配程度最大的标签框B,B=(cx,cy,w,h),其中cx,cy,w,h分别表示标签框B的中心的横坐标、中心的纵坐标、宽度、高度,该标签框的遮挡级别为L,所回归的置信度为CL。对L1,L2,L3遮挡级别分别回归不同的置信度CL1,CL2,CL3,在本发明中分别取1.0、0.9、0.8。匹配程度定义如下:对于预检测框Bi,若Bi的边与标签框B的对应边的差值占标签框的对应边的比例小于阈值tsim,其中tsim表示边的相似阈值,则为相似边,相似边数目最多的标签框的匹配程度最高,本发明取tsim=0.1;在相似边数目相等的情况下,计算相似边的差值比例p之和,其值越小则匹配程度越高。定义置信度损失如下:
Figure BDA0002010376390000101
其中R表示回归器,
Figure BDA0002010376390000102
表示检测子网络预测的置信度。
S52、定义目标框回归向量Δi=(δxywh),其参数可由下列式子计算:
Figure BDA0002010376390000103
Figure BDA0002010376390000104
δw=log(wi/w)
δh=log(hi/h)
其中δxywh分别表示目标框中心的横坐标偏移、中心的纵坐标偏移、宽度偏移、高度偏移,从而可以得到边框回归损失,用
Figure BDA0002010376390000109
表示检测子网络预测的边框偏移:
Figure BDA0002010376390000105
S53、对S51中的预检测框Bi,其匹配程度最大的标签框B,B=(cx,cy,w,h),定义边框相似性掩模
Figure BDA0002010376390000106
其中分别
Figure BDA0002010376390000107
表示检测框的左边界的掩模、检测框的上边界的掩模、检测框的右边界的掩模、检测框的下边界的掩模,S中的元素为0时表示不匹配,元素为1时表示匹配,下标xmin,ymin,xmax,ymax分别表示边框的左边界,上边界,右边界,下边界。寻找除了标签框B以外与标签框B重叠度最大的标签框B′。定义边框相似性损失如下:
Figure BDA0002010376390000108
Δi,wh=(δ′w,δ′h),δ′w=log(wi/w′),δ′h=log(hi/h′)
其中,λselfother分别为自身边框相似性损失和该边框与周围车辆的宽度和高度相似性损失的平衡参数,sl为边界的掩模,LS的左边一项约束了B的相似边尽可能地与预检测框一致,LS的右边一项含义为:B与B′的IoU越高,则该项的损失越大,并且使得本车辆预测框与邻近IoU最大的标签框有着相似的高和宽,其中
Figure BDA0002010376390000111
Δi,wh分别表示检测子网络预测的边框的宽高偏移和边框的宽高偏移的标签,δ′w,δ′h分别表示检测子网络预测的边框相对于B′的宽度和高度的偏移,w′,h′分别表示B′的宽度和高度
S54、将S51、S52、S53的损失合并得到总的损失函数:
L=λCLCBLBSLS
其中,λC,λB,λS分别为置信度损失、边框回归损失、边框相似性损失的平衡参数。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包括在本发明的保护范围之内。

Claims (5)

1.一种基于掩模与边框相似性损失的车辆检测方法,其特征在于,所述的车辆检测方法包括如下步骤:
S1、使用Mask RCNN模型在COCO数据集上预训练,其中Mask RCNN模型的输入为HMask×HMask,HMask表示模型输入图片的边长;
S2、利用预训练的Mask RCNN模型对车辆数据集中的图片进行滑动检测,融合检测结果得到预检测结果,该预检测结果包括车辆的检测框和可见部分的掩模;
S3、构造车辆检测模型,该车辆检测模型由车辆检测主干网络和检测子网络依次连接得到,其中,所述的车辆检测主干网络具体结构如下:
从输入层至输出层依次连接为:卷积层conv1_1、BN层conv1_1_bn、Relu层conv1_1_relu、卷积层conv1_2、BN层conv1_2_bn、Relu层conv1_2_relu、池化层max_pooling1、卷积层conv2_1、BN层conv2_1_bn、Relu层conv2_1_relu、卷积层conv2_2、BN层conv2_2_bn、Relu层conv2_2_relu、池化层max_pooling2、卷积层conv3_1、BN层conv3_1_bn、Relu层conv3_1_relu、卷积层conv3_2、BN层conv3_2_bn、Relu层conv3_2_relu、卷积层conv3_3、BN层conv3_3_bn、Relu层conv3_3_relu、池化层max_pooling3、卷积层conv4_1、BN层conv4_1_bn、Relu层conv4_1_relu、卷积层conv4_2、BN层conv4_2_bn、Relu层conv4_2_relu、卷积层conv4_3、BN层conv4_3_bn、Relu层conv4_3_relu、池化层max_pooling4、卷积层conv5_1、BN层conv5_1_bn、Relu层conv5_1_relu、卷积层conv5_2、BN层conv5_2_bn、Relu层conv5_2_relu、卷积层conv5_3、BN层conv5_3_bn、Relu层conv5_3_relu、池化层max_pooling5;
所述的检测子网络包括共享部分、分类部分和边框回归部分,其中,共享部分与分类部分连接组成分类器,共享部分与边框回归部分连接组成边框回归器,
所述的共享部分的结构如下:从输入层至输出层依次连接为自适应池化层RoIpooling、卷积层conv1_subnet、BN层bn1_subnet、Relu激活层relu1_subnet、卷积层conv2_subnet、Relu激活层relu2_subnet;
所述的分类部分的结构如下:从输入层至输出层依次连接为全连接层fc_cls、softmax层;
所述的边框回归部分为全连接层fc_reg;
S4、构造车辆检测数据集,将车辆图片输入到车辆检测主干网络获取卷积特征,使用预检测结果提取车辆特征,对掩模与卷积特征的每一通道应用Hadamard积得到分离后的车辆特征,将分离后的车辆特征与预检测结果输入至检测子网络得到检测子网络的输出结果;
S5、由预检测结果与检测子网络的输出结果构造边框相似性损失,训练车辆检测模型,所述的步骤S5具体如下:
S51、用四元组
Figure FDA0002944074470000021
表示第i个预检测框Bi,其中
Figure FDA0002944074470000022
wi,hi分别表示预检测框Bi的中心的横坐标、中心的纵坐标、宽度、高度,对每一个预检测框寻找与其匹配程度最大的标签框B,B=(cx,cy,w,h),其中cx,cy,w,h分别表示标签框B的中心的横坐标、中心的纵坐标、宽度、高度,该标签框的遮挡级别为L,所回归的置信度为CL,对L1,L2,L3遮挡级别分别回归不同的置信度CL1,CL2,CL3;匹配程度定义如下:对于预检测框Bi,若Bi的边与标签框B的对应边的差值占标签框的对应边的比例小于阈值tsim,其中tsim表示边的相似阈值,则为相似边,相似边数目最多的标签框的匹配程度最高;在相似边数目相等的情况下,计算相似边的差值比例p之和,其值越小则匹配程度越高;定义置信度损失如下:
Figure FDA0002944074470000023
其中R表示回归器,
Figure FDA0002944074470000024
表示检测子网络预测的置信度;
S52、定义目标框回归向量Δi=(δxywh),其参数可由下列式子计算:
Figure FDA0002944074470000031
Figure FDA0002944074470000032
δw=log(wi/w)
δh=log(hi/h)
其中δxywh分别表示目标框中心的横坐标偏移、中心的纵坐标偏移、宽度偏移、高度偏移,从而得到边框回归损失,用
Figure FDA0002944074470000033
表示检测子网络预测的边框偏移:
Figure FDA0002944074470000034
S53、对于预检测框Bi,其匹配程度最大的标签框B,B=(cx,cy,w,h),定义边框相似性掩模
Figure FDA0002944074470000035
其中
Figure FDA0002944074470000036
分别表示检测框的左边界的掩模、检测框的上边界的掩模、检测框的右边界的掩模、检测框的下边界的掩模,S中的元素为0时表示不匹配,元素为1时表示匹配,下标xmin,ymin,xmax,ymax分别表示边框的左边界,上边界,右边界,下边界;寻找除了标签框B以外与标签框B重叠度最大的标签框B′,定义边框相似性损失如下:
Figure FDA0002944074470000037
Δi,wh=(δ′w,δ′h),δ′w=log(wi/w′),δ′h=log(hi/h′)
其中,λselfother分别为自身边框相似性损失和该边框与周围车辆的宽度和高度相似性损失的平衡参数,sl为边界的掩模,LS的左边一项约束了B的相似边尽可能地与预检测框一致,LS的右边一项含义为:B与B′的IoU越高,则该项的损失越大,并且使得本车辆预测框与邻近IoU最大的标签框有着相似的高和宽,其中
Figure FDA0002944074470000038
Δi,wh分别表示检测子网络预测的边框的宽高偏移和边框的宽高偏移的标签,δ′w,δ′h分别表示检测子网络预测的边框相对于B′的宽度和高度的偏移,w′,h′分别表示B′的宽度和高度;
S54、将S51、S52、S53的损失合并得到总的损失函数:
L=λCLCBLBSLS
其中,λC,λB,λS分别为置信度损失、边框回归损失、边框相似性损失的平衡参数;
S6、通过训练后得到的车辆检测模型进行车辆检测。
2.根据权利要求1所述的基于掩模与边框相似性损失的车辆检测方法,其特征在于,所述的步骤S2具体如下:
S21、以步长s进行滑动,对车辆数据集的图片以Hcar×Hcar进行裁剪,其中Hcar表示图片的高度,以双立方插值法放大裁剪出的图像至HMask×HMask,若滑动窗口在最后一步超出图像边界时,选取图像的右边界作为滑动窗口的右边界,以保证滑动窗口的图像完全包括车辆数据集的图片,对于一张车辆数据集中的图片,对其裁剪放大操作后的图像数目记为Ns
S22、将Ns个裁剪放大的图像使用Mask RCNN进行车辆检测,得到Ns张图像的检测结果D;
S23、对检测结果D,进行聚合,聚合的条件为:IoU>tiou,其中tiou为IoU聚合的阈值,IoU是交并比,对聚合在一起的检测框进行筛选,将集合内的检测框个数小于tnum的检测框的集合剔除,其中tnum表示的是集合的筛选阈值,最后,对剔除后每个集合中的检测框取平均值,包括置信度和边框位置的平均,并对Mask取平均得到预检测结果D′。
3.根据权利要求1所述的基于掩模与边框相似性损失的车辆检测方法,其特征在于,所述的步骤S4具体如下:
S41、构造车辆检测数据集,将车辆图片输入到车辆检测主干网络得到卷积特征,使用预检测结果提取车辆特征;
S42、使用掩模对卷积特征的每一通道应用Hadamard积得到分离后的车辆特征,用Wm×Hm表示图像掩模,并把它写为M,其中Wm与Hm分别表示图像掩模的宽度和高度,用Df×Wf×Hf表示未分离的车辆特征,并把它记为F,其中Df、Wf、Hf分别表示未分离的车辆特征的通道数、宽度、高度,分离后的车辆特征记为F′,对M下采样得到
Figure FDA0002944074470000051
其中Mbicubic表示下采样后的图像掩模,将Mbicubic扩展到3维张量
Figure FDA0002944074470000052
其中
Figure FDA0002944074470000053
表示扩展后的三维张量,通过Hadamard积得到分离的车辆特征:
Figure FDA0002944074470000054
将分离后的车辆特征与预检测结果输入至检测子网络得到检测子网络的输出结果。
4.根据权利要求3所述的基于掩模与边框相似性损失的车辆检测方法,其特征在于,所述的车辆检测数据集中,首先,数据集中的图像要有遮挡的车辆,并且根据遮挡比例对遮挡水平进行分级:L1,L2,L3代表由易到难的三个等级;其次,数据集中的图像宽度要大于高度;最后,数据集的中的标签框需要包括完整的车辆。
5.根据权利要求3所述的基于掩模与边框相似性损失的车辆检测方法,其特征在于,所述的检测子网络的输出结果包括置信度和边框的偏移量。
CN201910243464.8A 2019-03-28 2019-03-28 基于掩模与边框相似性损失的车辆检测方法 Active CN110008882B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910243464.8A CN110008882B (zh) 2019-03-28 2019-03-28 基于掩模与边框相似性损失的车辆检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910243464.8A CN110008882B (zh) 2019-03-28 2019-03-28 基于掩模与边框相似性损失的车辆检测方法

Publications (2)

Publication Number Publication Date
CN110008882A CN110008882A (zh) 2019-07-12
CN110008882B true CN110008882B (zh) 2021-06-08

Family

ID=67168645

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910243464.8A Active CN110008882B (zh) 2019-03-28 2019-03-28 基于掩模与边框相似性损失的车辆检测方法

Country Status (1)

Country Link
CN (1) CN110008882B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532894B (zh) * 2019-08-05 2021-09-03 西安电子科技大学 基于边界约束CenterNet的遥感目标检测方法
CN110738238B (zh) * 2019-09-18 2023-05-26 平安科技(深圳)有限公司 一种证件信息的分类定位方法及装置
CN113408478A (zh) * 2021-07-07 2021-09-17 深圳市宏申工业智能有限公司 基于Mask RCNN的图像分割模型训练方法及粒径检测方法
CN113670268B (zh) * 2021-08-04 2023-08-01 国网福建省电力有限公司泉州供电公司 基于双目视觉的无人机和电力杆塔距离测量方法
CN114495509B (zh) * 2022-04-08 2022-07-12 四川九通智路科技有限公司 基于深度神经网络监控隧道运行状态的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108830188A (zh) * 2018-05-30 2018-11-16 西安理工大学 基于深度学习的车辆检测方法
CN108875589A (zh) * 2018-05-25 2018-11-23 武汉东智科技股份有限公司 一种道路区域的视频检测方法
CN109359684A (zh) * 2018-10-17 2019-02-19 苏州大学 基于弱监督定位和子类别相似性度量的细粒度车型识别方法
CN109447071A (zh) * 2018-11-01 2019-03-08 博微太赫兹信息科技有限公司 一种基于fpga和深度学习的毫米波成像危险物品检测方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10832123B2 (en) * 2016-08-12 2020-11-10 Xilinx Technology Beijing Limited Compression of deep neural networks with proper use of mask
CN108648197B (zh) * 2018-04-12 2021-09-07 天津大学 一种基于图像背景掩膜的目标候选区域提取方法
CN109284669A (zh) * 2018-08-01 2019-01-29 辽宁工业大学 基于Mask RCNN的行人检测方法
CN109345527B (zh) * 2018-09-28 2021-05-04 广西师范大学 一种基于MaskRcnn的膀胱肿瘤检测方法
CN109492416B (zh) * 2019-01-07 2022-02-11 南京信息工程大学 一种基于安全区域的大数据图像保护方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108875589A (zh) * 2018-05-25 2018-11-23 武汉东智科技股份有限公司 一种道路区域的视频检测方法
CN108830188A (zh) * 2018-05-30 2018-11-16 西安理工大学 基于深度学习的车辆检测方法
CN109359684A (zh) * 2018-10-17 2019-02-19 苏州大学 基于弱监督定位和子类别相似性度量的细粒度车型识别方法
CN109447071A (zh) * 2018-11-01 2019-03-08 博微太赫兹信息科技有限公司 一种基于fpga和深度学习的毫米波成像危险物品检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Inshore Ship Detection Based on Mask R-CNN";Shanlan Nie等;《IGARSS 2018 - 2018 IEEE International Geoscience and Remote Sensing Symposium》;20181105;第693-696页 *
"基于深度学习的车辆检测方法";杨恺等;《计算机与网络》;20181031(第19期);第58-61页 *
"结合Faster R-CNN 的多类型火焰检测";回天等;《中国图象图形学报》;20190131;第24卷(第1期);第73-83页 *

Also Published As

Publication number Publication date
CN110008882A (zh) 2019-07-12

Similar Documents

Publication Publication Date Title
CN110008882B (zh) 基于掩模与边框相似性损失的车辆检测方法
CN109829893B (zh) 一种基于注意力机制的缺陷目标检测方法
CN110363182B (zh) 基于深度学习的车道线检测方法
CN108334848B (zh) 一种基于生成对抗网络的微小人脸识别方法
CN110532970B (zh) 人脸2d图像的年龄性别属性分析方法、系统、设备和介质
JP5673550B2 (ja) 画像修復システム、画像修復方法及び画像修復プログラム
CN108062525B (zh) 一种基于手部区域预测的深度学习手部检测方法
CN108090919A (zh) 一种基于超像素光流和自适应学习因子改进的核相关滤波跟踪方法
CN104077577A (zh) 一种基于卷积神经网络的商标检测方法
CN111814753A (zh) 针对雾天条件下的目标检测方法和装置
CN111640136B (zh) 一种复杂环境中的深度目标跟踪方法
CN113076871A (zh) 一种基于目标遮挡补偿的鱼群自动检测方法
CN107273870A (zh) 一种监控场景下融合上下文信息的行人位置检测方法
CN114742799B (zh) 基于自监督异构网络的工业场景未知类型缺陷分割方法
CN111126278A (zh) 针对少类别场景的目标检测模型优化与加速的方法
CN114926747A (zh) 一种基于多特征聚合与交互的遥感图像定向目标检测方法
CN112446292B (zh) 一种2d图像显著目标检测方法及系统
CN104537689A (zh) 基于局部对比显著性联合特征的目标跟踪方法
CN109360191B (zh) 一种基于变分自编码器的图像显著性检测方法
CN108010065A (zh) 低空目标快速检测方法及装置、存储介质及电子终端
CN110827319B (zh) 一种基于局部敏感直方图改进的Staple目标跟踪方法
CN109543498A (zh) 一种基于多任务网络的车道线检测方法
CN114332655A (zh) 一种车辆自适应融合检测方法及系统
CN117409244A (zh) 一种SCKConv多尺度特征融合增强的低照度小目标检测方法
CN114943843A (zh) 基于形状感知的焊接缺陷检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant