CN112101175A

CN112101175A - 基于局部图像的高速公路车辆检测及多属性特征提取方法

Info

Publication number: CN112101175A
Application number: CN202010939051.6A
Authority: CN
Inventors: 郭军; 张娅杰; 刘韬; 闫永明; 刘艳伟; 李晨光
Original assignee: Shenyang Dixin Artificial Intelligence Industry Research Institute Co ltd
Current assignee: Shenyang Dixin Artificial Intelligence Industry Research Institute Co ltd
Priority date: 2020-09-09
Filing date: 2020-09-09
Publication date: 2020-12-18
Anticipated expiration: 2040-09-09
Also published as: CN112101175B

Abstract

本发明提供一种基于局部图像的高速公路车辆检测及多属性特征提取方法，涉及智能交通技术领域。视频采集终端实时读取高速公路监控视频并传输到边缘端，边缘端采用背景差分法对实时视频数据进行分析选取出关键帧；云端利用VOC2007数据集和高速公路采集的车辆图片训练YOLO_v3_tiny检测模型，边缘端加载训练好的YOLO_v3_tiny检测模型对选取的关键帧中的车辆边界框位置进行预测，进而获得车辆的局部图像，并传输到云端；云端利用带有多标签类型的训练集数据训练ResNet‑50残差神经网络模型，边缘端加载训练好的ResNet‑50残差神经网络模型，并将获取的车辆局部图像输入该神经网络模型实现车辆的多属性特征的提取；并将提取的车辆的多属性特征制成标签，上传至云端。

Description

基于局部图像的高速公路车辆检测及多属性特征提取方法

技术领域

本发明涉及智能交通技术领域，尤其涉及一种基于局部图像的高速公路车辆检测及多属性特征提取方法。

背景技术

近些年，随着高速交通条件的改善，机动车数量随之急剧增加，对高速公路的监管造成了困难。各个城市的高速公路卡口部署了大量的摄像头，每天都能产生大量的视频数据，选取视频的关键帧能够有效地减少存储的数据量。在车辆的重识别过程中，有效的车辆检测和特征提取方法可以提高对目标车辆的匹配度。目前，传统的特征提取方法比如HOG特征、Haaris特征比较简单，易受外界环境的干扰，单一的特征在车辆识别上不具有鲁棒性。另外，传统的视频处理方法集中于云中心，导致了视频传输耗时长、网络带宽占用大和云中心计算负载大等问题。

发明内容

本发明要解决的技术问题是针对上述现有技术的不足，提供一种基于局部图像的高速公路车辆检测及多属性特征提取方法，实现对高速公路车辆的检测及多属性特征提取。

为解决上述技术问题，本发明所采取的技术方案是：基于局部图像的高速公路车辆检测及多属性特征提取方法，涉及视频采集终端、边缘端和云端，具体包括以下步骤：

步骤1：视频采集终端实时读取高速公路监控视频并传输到边缘端，边缘端采用背景差分法对实时视频数据进行分析，从视频数据中选取出关键帧；

步骤1.1：边缘端基于混合高斯背景建模法建立背景图像，并去除图像中因光照突变以及其他外界环境的影响造成的噪声；

读取高速公路监控视频，运用混合高斯模型对视频中每一帧进行处理进而建立背景图像，然后利用背景分割函数对每一帧处理去除噪音；

步骤1.2：利用计算目标轮廓的函数实时计算每一帧图像中车辆轮廓的面积大小，并设定一个阈值λ，当车辆轮廓的面积大于阈值λ时，选取该车辆所在帧为候选关键帧；

步骤1.3：根据实际场景中摄像头的视域大小，在摄像头的视域中心位置划定检测区域，当候选关键帧中车辆轮廓在划定的检测区域内，则判定此帧为关键帧；

设定(x,y,w,h)为预设定的摄像头视域内的检测区域左上角顶点坐标和矩形区域的宽、高，(x_i,y_i)表示第i个候选关键帧中车辆轮廓框左上角顶点坐标，i＝1,2,…,n，n为候选关键帧总数，(w_i,h_i)表示第i个候选关键帧中车辆轮廓的宽、高；当x_i>x&&(x_i+w_i)<(x+w)&&y_i>y&&(y_i+h_i)<(y+h)时，即候选的关键帧中车辆轮廓的框在设定的区域内，保存当前帧为关键帧；

步骤2：云端利用VOC2007数据集和高速公路采集的带有标注的车辆图片训练YOLO_v3_tiny检测模型，边缘端加载训练好的YOLO_v3_tiny检测模型对步骤1选取的关键帧中的车辆边界框位置进行预测，进而获得车辆的局部图像，并传输到云端；

步骤2.1：对YOLO_v3_tiny网络结构进行调整，使YOLO_v3_tiny网络对输入图像分别在32倍降采样和16倍降采样时进行检测；

步骤2.2：对VOC2007数据集进行适应性修改，仅保留数据集中与车辆相关的正负样本，在云中心服务器上使用修改后的VOC2007数据集对YOLO_v3_tiny检测模型进行训练；

使用修改后的VOC2007数据集，加载YOLO_v3_tiny.weights文件对预训练权重初始化，训练过程中不断调节YOLO_v3_tiny检测模型参数；

步骤2.3：将边缘端采集到的车辆样本数据建立高速公路车辆样本数据集，使用labelImg工具对数据集做标注，对YOLO_v3_tiny车辆检测模型进行训练；

步骤2.4：将训练好的YOLO_v3_tiny检测模型迁移至边缘端，并将步骤1中获取的关键帧输入到训练好的YOLO_v3_tiny检测模型中，进而检测出关键帧中车辆所在位置的边界框，同时计算YOLO_v3_tiny检测模型预测得到的视频关键帧中的车辆边界框中有物体的置信分数；

步骤2.4.1：根据高速公路车辆样本数据集中车辆真实框的坐标(G_x,G_y,G_w,G_h)计算车辆预测框(t_x,t_y,t_w,t_h)的公式如下：

其中，(c_x,c_y)为YOLO_v3_tiny检测模型经过卷积层、池化层后生成的特征图中网格单元左上角顶点坐标，p_w,p_h是预设的锚框映射到特征图上的宽和高；(t_x,t_y,t_w,t_h)为YOLO_v3_tiny检测模型预测的结果，其中(t_x,t_y)是预测的坐标偏移值，(t_w,t_h)是尺度缩放；

t_x和t_y分别经过sigmoid函数σ()输出0-1之间的偏移量，与c_x,c_y相加后得到车辆边界框中心点的位置，t_w,t_h别与p_w,p_h作用后得到车辆边界框的宽和高；

则YOLO_v3_tiny检测模型最终预测得到的视频关键帧中车辆边界框的坐标值(b_x,b_y,b_w,b_h)如下公式所示：

其中，(b_x,b_y)为YOLO_v3_tiny检测模型预测得到的关键帧中车辆边界框中心点的位置坐标，b_w,b_h分别为车辆边界框的宽和高；

步骤2.4.2：再通过YOLO检测方法常用的评价指标IoU，输出YOLO_v3_tiny检测模型预测得到的视频关键帧中的车辆边界框中有物体的置信分数，如下公式所示：

其中，A_over为YOLO_v3_tiny检测模型预测的车辆边界框框与车辆真实框之间的重叠部分面积，A_union为车辆的边界框与车辆真实框之间的并集面积；

步骤2.5：在边缘端将YOLO_v3_tiny检测模型检测出的车辆边界框进行裁剪，分割视频帧中的车辆与背景，获取车辆的局部图像；

步骤3：云端利用带有多标签类型的训练集数据训练ResNet-50残差神经网络模型，边缘端加载训练好的ResNet-50残差神经网络模型，并将步骤2获取的车辆局部图像输入该ResNet-50残差神经网络模型实现车辆的多属性特征的提取；

步骤3.1：将车辆的颜色特征、类型特征和行驶方向三类多属性特征进行串联排列；所述颜色特征分别为黑、蓝、棕、灰、金、红、白和黄；车辆类型特征分别为大客车、轿车、SUV、拖车、卡车、面包车和货车；行驶方向分别为车头朝前和车头朝后；

步骤3.2：将含有三类属性特征的车辆图像按车辆属性特征顺序排列输入ResNet-50残差神经网络在云端进行训练；同时对这三类属性分别使用损失函数计算损失，并计算这三类属性的平均损失；

步骤3.2.1：首先加载训练集中的训练数据，并设置训练的批次，每批次训练的车辆图像数，学习率及重量衰减参数；所述训练集中数据的标签是多标签类型，按照车辆的颜色-类型-行驶方向的排列顺序进行排列；

步骤3.2.2：基于训练集对ResNet-50网络模型进行训练并计算损失；按照预设好的批次和批量大小进行批量训练；对输出向量分段采用交叉熵损失函数计算损失；

所述ResNet-50网络模型训练过程中，选取多分类交叉熵函数计算损失，如下公式所示：

其中，loss()为损失函数，x是ResNet-50网络输出的各个类别的预测值，class是各样本的真实标签，x_class为class类样本的预测值，x_j为第j类样本的预测值；

进一步运算得到：

在训练过程中，设定方向特征的权重是颜色、车型特征权重的2倍，则交叉熵损失函数公式计算公式为进一步修改为：

其中，w_class为不同特征类别的权重；

步骤3.3：将训练好的ResNet-50残差神经网络模型迁移至边缘端，并将步骤2获取的车辆局部图像输入到ResNet-50残差神经网络中，得到车辆颜色、类型、行驶方向三类不同的属性特征；

将关键帧中截取的车辆局部图像输入训练好的ResNet-50残差神经网络模型，利用softmax分类函数对输出结果进行分段取值，确定车辆的不同特征；

softmax分类函数输出17维向量，取前8维向量的最大值对应的颜色作为该车辆的颜色特征，取中间的7维向量的最大值对应的类型作为车型特征，取最后两维向量中最大值对应的特征作为方向特征，得到车辆的多属性特征M_color+M_type+M_direction，其中，M_color为车辆图像M的颜色特征，M_type为车辆图像M的车型特征，M_direction为车辆图像M的行驶方向特征；

步骤4、将步骤3提取的车辆的多属性特征制成标签，上传至云端的云中心服务器。

采用上述技术方案所产生的有益效果在于：本发明提供的基于局部图像的高速公路车辆检测及多属性特征提取方法，保证了边缘端存储空间的有效利用，减少无效帧的存储，充分发挥了云-边各自的存储、计算优势。本发明方法在云中心和终端设备之间拓展一个边缘层，使得部分视频分析任务迁移到边缘层执行，缓解了云端的存储和计算压力。另外，云端可以对算法进行更新和迭代，增强了实用性和设计的合理性。研究交通视频的关键帧选取的方法，利用背景差分结合检测区域提取包含车辆的关键帧，有效降低边缘端的存储，减少上传的数据量。然后使用YOLO_v3_tiny轻量级网络对车辆的位置进行框选，相比于网络层数较多的YOLO_v3，YOLO_v3_tiny运行速度较快，检测效果较好。传统特征提取方法在摄像头视角变化、光线变化时不具有鲁棒性，本发明方法研究基于深度学习的车辆多属性特征提取方法，融合三种外观特征对车辆图像进行表示，并利用多属性分类模型的识别结果制作车辆数据集标签，上传云端，为后面的车辆重识别研究打下基础。

附图说明

图1为本发明实施例提供的基于局部图像的高速公路车辆检测及多属性特征提取方法的流程图；

图2为本发明实施例提供的背景差分法结合车辆检测区域的关键帧选取流程图；

图3为本发明实施例提供的基于YOLO_v3_tiny网络的车辆图像检测过程示意图；

图4本发明实施例提供的三辆车的多属性特征标签结果示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本实施例中，基于局部图像的高速公路车辆检测及多属性特征提取方法，涉及视频采集终端、边缘端和云端，如图1所示，具体包括以下步骤：

步骤1：视频采集终端实时读取高速公路监控视频并传输到边缘端，边缘端采用背景差分法对实时视频数据进行分析，从视频数据中选取出关键帧，如图2所示；

步骤2：云端利用VOC2007数据集和高速公路采集的带有标注的车辆图片训练YOLO_v3_tiny检测模型，边缘端加载训练好的YOLO_v3_tiny检测模型对步骤1选取的关键帧中的车辆候选框位置进行预测，进而获得车辆的局部图像，并传输到云端；

YOLO_v3_tiny网络主要分为三个部分：输入、结构和输出。本发明对YOLO_v3_tiny网络结构进行调整，如图3所示。YOLO_v3_tiny网络对输入图像进行两次检测，分别是在32倍降采样和16倍降采样时进行检测。所以YOLO_v3_tiny网络对于特征图featuremap的提取分为两种情况：(1)如图3右侧分支所示，对输入图像在32倍降采样处提取特征图featuremap，此时特征图较小，虽然能够获取深层网络特征，但是对于小目标的检测效果较差。(2)对输入图像在16倍降采样时提取特征图，此时又分为两种情况，如图3左侧分支所示：直接从16倍降采样处提取浅层特征向下传播。在经过多个卷积层、池化层后提取深层网络特征，提取32倍降采样特征图，再经过一次步长为2的up-sample(上采样)，将特征图feature map的大小提升一倍，仍是提取16倍降采样特征图。这样的特征图提取方式让网络同时学习深层和浅层特征，表达效果更好。为适应摄像头拍摄的图片尺寸，将YOLO_v3_tiny网络输入图像大小修改为768*448*3。

为了从关键帧中检测出车辆的位置，首先需要从图像中区分出车辆，其次要定位到车辆的位置并用一个最小外接矩形框出。最初使用VOC2007数据集对YOLO_v3_tiny检测模型进行训练，其涵盖20个物体种类，其中包括车辆，并且数据集包含目标物体在图像中的位置，用坐标标识。通过训练VOC2007数据集，可以达到本发明方法的要求。由于本发明方法仅需要区分出车辆与非车辆，所以在训练时会对VOC2007数据集进行适应性修改，仅保留车辆相关的正负样本进行训练即可，修改后的数据集保存为YOLO_v3_tiny.cfg文件，classes修改为1，filters为3*(classes+1+4)＝18。

为了提高训练效率，加载YOLO_v3_tiny.weights文件对预训练权重初始化，训练过程中需要调节YOLO_v3_tiny检测模型参数。batch设置的越大对小目标检测越好，训练时batch设置为128，subdivison设置为4，即每次从总数据集中抽取128张图片，然后分成4个批次，每训练128张图片改变一次网络的参数。为了能够从不同角度的图像中检测目标车辆，本实施例通过调整angel参数通过旋转角度来生成更多训练样本。为了减少高速公路应用场景中的光照因素，明暗变化的影响，通过调整saturation、exposure参数来调整样本图片的饱和度和曝光量生成更多训练样本，减少旋转角度、光照、明暗变化等条件对模型检测结果的影响。本实施例中，模型训练算法采用BP，过程中初始学习率设置为0.0005，学习率的值不能过大，过大容易导致越过最优值导致函数无法收敛，但也不能过小，过小训练速度太慢，长时间无法收敛。所以学习率在经过多个epochs后可以进行适应性调整。由于神经网络的训练是样本不断的前向传播计算并通过反向传播调节网络参数，但却难以达到停止条件，本实施例中设定最大训练次数设为5000，训练5000次后停止训练，并将最终训练的模型保存。步骤2.3：将边缘端采集到的车辆样本数据建立高速公路车辆样本数据集，使用labelImg工具对数据集做标注后保存到车辆样本库1中，对YOLO_v3_tiny车辆检测模型进行训练，训练过程同修改后的VOC2007数据集的训练过程；

步骤2.4.1：YOLO_v3_tiny检测模型最终通过2个分支输出作预测，输出的特征图大小分别为12*7和24*14。每个特征图使用3个锚点作为预测框的初始宽高(w，h)。本实施例中，12*7的特征图使用(81，82)，(135，169)，(344，319)这三个锚点，24*14的特征图使用(10，14)，(23，27)，(37，58)这三个锚点。所以输出的每个位置预测3个boundingbox。输出的每个box的参数包括t_x,t_y,t_w,t_h，及该box有物体的置信分数；根据高速公路车辆样本数据集中车辆真实框的坐标(G_x,G_y,G_w,G_h)计算车辆预测框(t_x,t_y,t_w,t_h)的公式如下：

其中，(c_x,c_y)为YOLO_v3_tiny检测模型经过卷积层、池化层后生成的特征图中网格单元左上角顶点坐标，p_w,p_h是预设的锚框映射到特征图上的宽和高；(t_x,t_y,t_w,t_h)为YOLO_v3_tiny检测模型输出的预测结果，其中，(t_x,t_y)是预测的坐标偏移值，(t_w,t_h)是尺度缩放；t_x和t_y分别经过sigmoid函数σ()输出0-1之间的偏移量，与c_x,c_y相加后得到车辆边界框中心点的位置，t_w,t_h别与p_w,p_h作用后得到车辆边界框的宽和高；

经过缩放能够得到实际原图大小尺寸下车辆的边界框，即识别出车辆并对其框选；

其中，A_over为YOLO_v3_tiny检测模型预测的车辆边界框框与车辆真实框之间的重叠部分面积，A_union为车辆的边界框与车辆真实框之间的并集面积；本实施例中，取IoU>0.8为正例；

步骤3.2.1：首先加载存储在云端车辆样本库2中的训练集中的训练数据，并设置训练的批次为100，每批次训练64张车辆图像，学习率设置为0.005，重量衰减参数设置为e^-8；所述训练集中数据的标签是多标签类型，按照车辆的颜色-类型-行驶方向的排列顺序进行排列；

其中，loss()为损失函数，x是ResNet-50网络输出的各个类别的预测值，class是真实标签，x_class为class类样本的预测值，x_j为第j类样本的预测值；

进一步运算得到：

其中，w_class为不同特征类别的权重；

公式5没有加入权重值表示计算平均损失即可，公式6中加入了权重值，表示不同分类的占比不同，再根据权重计算平均损失；计算平均损失后再反向更新ResNet-50网络模型参数；

将关键帧中截取的车辆局部图像输入训练好的ResNet-50残差神经网络模型，利用softmax分类函数进行分段取值，确定车辆的不同特征；

步骤4、将步骤3提取的车辆的多属性特征制成标签，上传至云端的云中心服务器的车辆样本库3中。

本实施例中，视频采集终端为采集高速公路视频数据的摄像头，边缘端为3B+版本的树莓派，云端为HPZ820工作站。对采集的高速公路车辆图像样本进行分类，选取80％的样本作为训练集，选取20％的样本作为测试集。并通过labelImg工具制作样本标签，训练时对车辆图像尺寸进行放缩。

本实施例在关键帧提取的过程中，使用本发明基于视频分析的关键帧选取方法和现有的基于帧间差分强度的关键帧提取方法两种不同的关键帧提取方法对8组高速公路监控视频分析，通过关键帧数、有效帧数进行对比分析，关键帧是通过关键帧提取算法从视频选取视频帧，有效帧为车辆图像位于摄像头视域中心位置的视频帧。采用的高速公路监控视频时长均为1min，帧率为25帧/s，共8组，每组视频样本中包含车辆数目并不完全相同。本发明方法是基于视频分析的关键帧选取方法，在背景差分法的基础上加入检测区域线，对车辆行驶进入检测区域线的帧保存为关键帧。与现有基于帧间差分强度的关键帧提取方法进行实验对比，对比结果如表1所示，通过表1可知本发明方法的关键帧选取方法效果更佳。

表1不同关键帧选取方法的效果对比

在车辆检测的实验过程中，使用高速公路上采集的不同光照、不同拍摄角度的车辆图片训练YOLO_v3_tiny检测模型，用IoU值做为检测结果的评价指标，本实施例中测试数据集中共240张车辆图片，随机选取7组测试结果计算IoU，与高斯混合模型的背景差分法的检测效果作对比，如表2所示。对比结果表明，基于YOLO_v3_tiny算法检测车辆位置的准确性较好，而基于高斯混合模型的背景差分法检测的准确性较差。

表2本发明方法与基于背景差分法检测运动目标的IoU对比

在车辆局部图像多属性特征提取过程中，本实施例选取VeRi-776数据集中的2000张车辆图像以及在某城市三环高速公路采集的1200张车辆图像，制作车辆样本数据集，80％样本用于训练，20％样本用于测试。将常用的深度学习网络VGG-16、ResNet-18、ResNet-50作为多属性特征提取网络，使用相同的训练数据，验证ResNet-50模型的效果。边缘端加载在云端训练好的ResNet-50残差网络模型提取车辆多属性特征，并将提取出的多属性特征用于制作车辆标签，包括车身颜色、车辆类型、行驶方向，并融合三种特征颜色-车型-车辆行驶方向作为车辆的身份信息，如图4所示，并将其上传到云端。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种基于局部图像的高速公路车辆检测及多属性特征提取方法，涉及视频采集终端、边缘端和云端，其特征在于：具体包括以下步骤：

2.根据权利要求1所述的基于局部图像的高速公路车辆检测及多属性特征提取方法，其特征在于：所述步骤1的具体方法为：

设定(x,y,w,h)为预设定的摄像头视域内的检测区域左上角顶点坐标和矩形区域的宽、高，(x_i,y_i)表示第i个候选关键帧中车辆轮廓框左上角顶点坐标，i＝1,2,…,n，n为候选关键帧总数，(w_i,h_i)表示第i个候选关键帧中车辆轮廓的宽、高；当x_i＞x&&(x_i+w_i)＜(x+w)&&y_i＞y&&(y_i+h_i)＜(y+h)时，即候选的关键帧中车辆轮廓的框在设定的区域内，保存当前帧为关键帧。

3.根据权利要求2所述的基于局部图像的高速公路车辆检测及多属性特征提取方法，其特征在于：所述步骤2的具体方法为：

步骤2.5：在边缘端将YOLO_v3_tiny检测模型检测出的车辆边界框进行裁剪，分割视频帧中的车辆与背景，获取车辆的局部图像。

4.根据权利要求3所述的基于局部图像的高速公路车辆检测及多属性特征提取方法，其特征在于：所述步骤2.4的具体方法为：

其中，A_over为YOLO_v3_tiny检测模型预测的车辆边界框框与车辆真实框之间的重叠部分面积，A_union为车辆的边界框与车辆真实框之间的并集面积。

5.根据权利要求4所述的基于局部图像的高速公路车辆检测及多属性特征提取方法，其特征在于：所述步骤3的具体方法为：

步骤3.3：将训练好的ResNet-50残差神经网络模型迁移至边缘端，并将步骤2获取的车辆局部图像输入到ResNet-50残差神经网络中，得到车辆颜色、类型、行驶方向三类不同的属性特征。

6.根据权利要求5所述的基于局部图像的高速公路车辆检测及多属性特征提取方法，其特征在于：所述步骤3.2的具体方法为：

进一步运算得到：

其中，w_class为不同特征类别的权重。

7.根据权利要求6所述的基于局部图像的高速公路车辆检测及多属性特征提取方法，其特征在于：所述步骤3.3的具体方法为：

softmax分类函数输出17维向量，取前8维向量的最大值对应的颜色作为该车辆的颜色特征，取中间的7维向量的最大值对应的类型作为车型特征，取最后两维向量中最大值对应的特征作为方向特征，得到车辆的多属性特征M_color+M_type+M_direction，其中，M_color为车辆图像M的颜色特征，M_type为车辆图像M的车型特征，M_direction为车辆图像M的行驶方向特征。