CN111695448A

CN111695448A - 一种基于视觉传感器的路侧车辆识别方法

Info

Publication number: CN111695448A
Application number: CN202010458902.5A
Authority: CN
Inventors: 李旭; 金鹏; 徐启敏
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-05-27
Filing date: 2020-05-27
Publication date: 2020-09-22
Anticipated expiration: 2040-05-27
Also published as: CN111695448B

Abstract

一种基于视觉传感器的路侧车辆识别方法，该方法针对路侧视角下多尺度车辆目标识别准确率低的问题，搭建基于视觉传感器的路侧车辆识别网络，首先构建残差注意力模块；其次，将残差注意力模块引入到YOLOv3网络的多尺度特征融合结构，形成基于残差注意力模块的路侧车辆识别网络YOLO‑A；然后，在YOLO‑A网络的基础上加入无锚框特征选择模块，形成改进YOLOv3网络的路侧车辆识别模型YOLO‑AF；接下来，训练YOLO‑AF网络；最后，使用训练好的YOLO‑AF网络进行路侧车辆识别。本发明提出的一种基于视觉传感器的路侧车辆识别方法具有较高的准确率和良好的实时性。

Description

一种基于视觉传感器的路侧车辆识别方法

技术领域

本发明属于深度学习和环境感知领域，涉及一种基于视觉传感器的路侧车辆识别方法。

背景技术

随着现代社会经济的高速发展，城市化进程的加速，汽车在人们生产生活中占据越来越重要的地位。而随着车辆的急剧增加，交通逐渐成为社会发展的热点问题。智能车路系统应运而生，旨在借助现代化科学技术，改善交通通行状况，实现“人-车-路-云”的高度协同，是解决当前城市交通问题的有效途径。

在以车和路的智能化为条件的智能车路系统中，“聪明的车”和“智慧的路”是重要的双驱。“聪明的车”即智能汽车，“智慧的路”即智能路侧设备。在智能车路系统中，智能汽车的环境感知来源主要可以分为两大类，即自主式环境感知和协同式环境感知。自主式环境感知是利用毫米波雷达、摄像机等车载传感器进行环境感知；协同式环境感知是以车联网为基础，基于智能路侧设备捕获微观高分辨交通信息(周围车辆位置、车辆数量、行人位置与行人数量等)，并通过类似DSRC的无线传输设备广播到相关车辆和行人，作为辅助信息提供给车辆，感知更大范围的交通情况。其中，车辆作为主要的交通参与者，精准感知其空间位置、数量和类型等交通信息对降低车辆拥堵、减少交通事故发生具有重要意义。

此外，常见的环境感知传感器包括视觉传感器、雷达等。其中，视觉传感器具有探测范围广、成本低、采集的颜色信息丰富等优点，在目标识别尤其是目标分类方面，具有比较突出的优势。随着传统数字图像处理以及深度学习技术的快速发展，基于视觉传感器的车辆识别技术逐渐成为研究热点，在环境感知邻域中起到十分重要的作用。因此本文研究了一种基于视觉传感器的路侧车辆识别方法。

在路侧复杂交通场景中，车辆由远及近分布，路侧感知传感器获取的远近车辆信息的丰富度不同，尤其是远处车辆，数据分辨率较低，难以进行准确识别与定位。因此如何利用路侧端视觉传感器的数据信息，提高远处车辆目标的识别准确率，获取准确的车辆位置信息，保持较高的系统实时性，是极具挑战性且亟待解决的难题。

发明内容

针对上述难题，本发明提出了一种基于视觉传感器的路侧车辆识别方法，该方法包括如下步骤：

(1)首先，构建残差注意力模块；设深层低分辨率语义特征图为S₀，浅层高分辨率特征图为T，生成的注意力特征图为S；在残差注意力模块中，先将特征图S₀进行卷积、上采样处理，得到注意力图S₂；然后，将注意力图S₂与图T依次进行像素级相乘、像素级相加操作，生成最终的注意力特征图S；具体步骤为：

步骤一：对特征图S₀进行核为3×3的卷积处理，得到语义特征权重图S₁；卷积处理过程中采用Sigmoid函数进行非线性激活，Sigmoid函数解析式为：

在式1中，f()是Sigmoid函数表达式，z是特征图中点的语义值，e是自然常数；

步骤二：对语义权重图S₁进行上采样处理，得到与T空间大小相同的注意力图S₂；

步骤三：注意力图S₂与图T像素级相乘，生成的特征图与图T进行像素级相加运算，得到注意力特征图S，表达式如下：

S(x,y,c)＝(1+S₂(x,y,c))·T(x,y,c) (2)

在式2中，x、y、c表示特征图上点的横、纵坐标以及通道数；

(2)其次，将残差注意力模块引入到YOLOv3网络的多尺度特征融合结构，形成基于残差注意力模块的改进YOLOv3路侧车辆识别模型YOLO-A；YOLOv3特征金字塔的特征图按照由浅到深顺序依次设为S_u、S_m、S_d，设多尺度融合后的特征图为S′_u、S′_m；在残差注意力模块引入过程中，先将特征图S_d与S_m利用残差注意力模块进行融合，生成特征图S′_m；然后将特征图S′_m与S_u基于残差注意力模块进行融合，生成特征图S′_u；具体步骤如下：

步骤一：将特征图S_d与S_m利用残差注意力模块进行融合，生成特征图S′_m，具体子步骤如下：

子步骤①：将S_d作为深层低分辨率图、S_m作为浅层高分辨率图，输入到残差注意力模块，生成注意力图S_m0；

子步骤②：将特征图S_d输入到YOLOv3基本卷积组件，然后将结果进行上采样处理，得到特征图S_d0；其中，YOLOv3基本卷积组件由核为3×3的卷积层、批量归一化层以及LeakyRELU激活函数组成；

子步骤③：将特征图S_d0与S_m0进行通道级联，并将融合后的特征图输入到YOLOv3基本卷积组件进行5次卷积操作，得到最终融合结果S′_m；

步骤二：将特征图S′_m与S_u基于残差注意力模块进行融合，生成特征图S′_u，具体子步骤如下：

子步骤①：将S′_m作为深层低分辨率图、S_u作为浅层高分辨率图，输入到残差注意力模块，生成注意力图S_u0；

子步骤②：将特征图S′_m输入到YOLOv3基本卷积组件，将处理后的结果进行上采样操作，得到特征图S_m0；

子步骤③：将特征图S_m0与S_u0进行通道级联，并将融合后的特征图输入到YOLOv3基本卷积组件进行5次卷积操作，得到最终融合结果S′_u；

(3)然后，在YOLO-A网络的基础上加入无锚框特征选择模块，形成改进YOLOv3网络的路侧车辆识别模型YOLO-AF；其中无锚框特征选择模块的加入过程包括监督信号的建立、无锚框预测分支的加入和在线特征层选择三部分，具体步骤如下：

步骤一监督信号的建立：监督信号是目标真值匹配特征层的依据，由两部分组成：类别输出损失函数、目标框输出损失函数，具体子步骤如下所示：

子步骤①：在YOLOv3网络中，设定l为特征金字塔中特征图的层级，目标真值为I，其矩形框位置信息为b＝[x,y,w,h]，其中(x,y)为矩形框中心点坐标，w、h分别为宽和高，则影响目标类别判断的有效区域、无效区域的计算公式如下：

在式3中，

为第l层级的目标框的位置信息，

分别为第l层级的有效区域、忽略区域的位置信息，ε_e、ε_i分别为有效区域、忽略区域与目标真值框的面积比；其中，有效区域为目标存在的区域；忽略区域，表示该部分像素梯度值不会传播到网络中；目标I的分类损失函数

计算公式如下：

式4中，

表示

区域的像素点数，F(l,i,j)表示Focal-loss函数，i、j分别表示像素点的横、纵坐标；

子步骤②：设定影响目标框定位的四个因素分别为有效区域像素点距离目标矩形框顶边、左边、底边和右边的位置偏移量

和

则目标框损失函数

的计算公式如下：

式5中，

表示

区域的像素点数，IoU(l,i,j)表示交并比损失函数，i、j分别表示像素点的横、纵坐标；

步骤二无锚框预测分支的加入：在YOLOv3网络多尺度预测分支的基础上，将无锚框预测分支加入到YOLOv3网络中，具体子步骤如下所示：

子步骤①：将特征图S′_u输入到YOLOv3基本卷积组件进行卷积操作，然后进行核为1×1、通道数为K+4的卷积操作，得到尺度为52×52×(K+4)的无锚框预测图；其中，52为网格数目，K表示车辆类别数目，4为影响目标框定位的位置偏移量的数目；

子步骤②：将特征图S′_m输入到YOLOv3基本卷积组件进行卷积操作，然后进行核为1×1、通道数为K+4的卷积操作，得到尺度为26×26×(K+4)的无锚框预测图；其中，26为网格数目，K表示车辆类别数目，4为影响目标框定位的位置偏移量的数目；

子步骤③：将特征图S_d输入到YOLOv3基本卷积组件进行卷积操作，然后进行核为1×1、通道数为K+4的卷积操作，得到尺度为13×13×(K+4)的无锚框预测图；其中，13为网格数目，K表示车辆类别数目，4为影响目标框定位的位置偏移量的数目；

步骤三无锚框模块在线特征层选择：首先，使车辆目标语义信息前向传播经过特征金字塔中所有的层；然后，计算出每个特征层所对应的损失值l^*；接着，选取损失值l^*最小的特征层作为最优特征层；在训练过程中，目标特征依据损失值的大小会匹配到最优特征层；损失值l^*计算公式如下：

在式6中，目标的焦点损失函数Focal-loss为

交并比损失函数IoU-loss为

(4)接下来，训练设计的基于视觉传感器的路侧车辆识别网络YOLO-AF，获得网络参数；

(5)最后，使用基于视觉传感器的路侧车辆识别网络进行路侧车辆识别。

与现有技术相比，本发明的技术方案具有以下有益技术效果：

(1)路侧车辆识别精度高。针对远处车辆数据分辨率较低，难以精准定位的难题，本发明在YOLOv3的基础上引入了残差注意力模块，基于深层特征图语义的有效性，在多尺度特征结构中突出有效特征、抑制无效噪声，提高了车辆识别的精度。

(2)路侧车辆识别准确率高。针对YOLOv3网络锚框机制的不足，本发明加入无锚框特征选择模块，在网络训练过程中，根据目标真值语义信息匹配到最优特征层，提高了路侧车辆识别的准确率。

(3)实时性好。本发明在YOLOv3网络的基础上进行改进，改进的路侧车辆识别网络YOLO-AF属于单阶段目标检测网络，实时性较好，基本能够满足路侧车辆识别模型对实时性的需求。

附图说明

图1是本发明的一种基于视觉传感器的路侧车辆识别方法流程图；

图2是YOLOv3网络结构示意图；

图3是残差注意力模块结构示意图；

图4是YOLOv3多尺度特征融合示意图；

图5是YOLO-AF网络基于残差注意力模块的多尺度融合结构示意图；

图6是无锚框特征选择模块监督信号示意图；

图7是YOLOv3引入无锚框特征选择模块模块示意图；

图8是LSVH数据集上的部分测试结果图片。

具体实施方式

在路侧复杂交通场景中，车辆由远及近分布，路侧感知传感器获取的远近车辆信息的丰富度不同，尤其是远处车辆，其图像呈现出小尺度化特征，数据分辨率较低，难以进行准确识别与定位。因此如何利用路侧端视觉传感器的数据信息，提高远处车辆目标的识别准确率，获取准确的车辆位置信息，保持较高的系统实时性，是极具挑战性且亟待解决的难题。

在计算机视觉领域，解决小尺度目标识别精度低的方法大致分为三类：构建图像金字塔结构、构建特征金字塔结构和锚框机制。构建图像金子塔方法是对待处理图像按照不同比例进行缩小，之后对每幅金字塔图像进行检测，最后将检测结果进行合并，该方法提取不同尺度图像特征，在一定程度上可以解决小尺度目标检测问题，但是运算耗时较为严重；锚框机制是用不同大小、长宽比的锚框去处理整个图片空间，有选择性地调整锚框位置，以更接近目标真正地位置；构建特征金子塔方法是利用了深度卷积神经网络具有层次性的特点，即随着网络层数的增加，各层的特征逐渐从边缘、纹理等泛化的特征，转变为具有高层语义的特征，因此构成一个特征金子塔。近年来，基于卷积神经网络特征的诸多算法以不同的形式利用特征金字塔结构与锚框机制，融合不同层级的特征，以达到回归和分类任务更加精确的实现。但是，特征金字塔内不同层次语义特征融合的充分度以及锚框机制的缺陷，都限制了小尺度目标识别的精度。

针对上述难题，本发明提出了一种基于视觉传感器的路侧车辆识别方法。该方法主要面对路侧交通环境，将彩色摄像机作为环境感知器件，选用YOLOv3网络作为车辆识别模型，引入残差注意力模块突出特征金字塔内特征图的有效性，同时加入无锚框特征选择模块来改善锚框机制的不足，提高了远处车辆识别的准确率。

如图1所述，该方法包括五大步，下面结合附图与具体实施方式对本发明作进一步详细描述：

(1)构建残差注意力模块

常见的基于神经网络的目标识别算法有R-CNN、SPP-Net、Fast R-CNN、YOLO、SSD。其中，YOLO网络放弃了以往算法使用的候选区域提名策略，并将目标识别问题作为一个回归问题来处理，从而减小了算法复杂度，实时性好。因此本文以YOLOv3网络作为基础模型。YOLOv3网络整体结构，参见说明书附图2，主要由特征提取网络、多尺度特征融合以及多尺度分支预测三部分组成。其中，YOLOv3基本卷积组件由核为3×3的卷积层、批量归一化层以及Leaky RELU激活函数组成。

在YOLOv3特征提取网络中，随着卷积层数的增加，图像经过卷积、下采样等处理，大尺度物体高阶语义特征逐渐被提取出来，而小尺度目标特征越来越稀疏。在路侧交通场景图像中，远处车辆所占像素点较少，属于小尺度目标，其识别精度主要依赖于浅卷积层生成的高分辨率特征图。在浅层高分辨率特征图中，目标图像特征与大量无效特征(比如道路周边场景等图像信息)并存，而无效特征的存在会严重影响车辆识别的准确率。因此，本发明采用残差注意力模块，利用深层特征图的高阶语义信息，突出浅层特征图的有效信息、抑制无效干扰噪声。

残差注意力模块的整体结构，参见说明书附图3。其中，S₀表示深层低分辨率语义特征图，T表示浅层高分辨率特征图，S表示生成注意力特征图。在残差注意力模块中，先将特征图S₀进行卷积、上采样处理，得到注意力图S₂；然后，将注意力图S₂与图T依次进行像素级相乘、像素级相加操作，生成最终的注意力特征图S。具体步骤如下所示：

S(x,y,c)＝(1+S₂(x,y,c))·T(x,y,c) (2)

在式2中，x、y、c表示特征图上点的横、纵坐标以及通道数。

对上述残差注意力模块作出三点补充说明：1.对图S₀进行卷积处理，可以调整通道数与特征图T一致，为接下来的像素级操作做准备；2.注意力图S₂与图T像素级相乘，能够让特征图T的有效特征被突出，无效信息被抑制；3.像素级相加运算，一方面保留了特征图T的原始语义信息，另一方面借鉴了残差网络的短接结构，在一定程度上可以防止梯度消失。

(2)残差注意力模块的引入

YOLOv3网络的多尺度特征融合方式，参见说明书附图4。YOLOv3网络将深层低分辨特征图进行上采样处理，与浅层高分辨率特征图进行通道相加，从而实现多尺度特征融合。该方法在一定程度上兼顾了两种不同尺度的语义特征，但只是简单地以通道叠加的方式进行融合，没有考虑到深层、浅层特征图之间的关系。而残差注意力模块可以基于深层特征图语义的有效性对浅层图进行赋权，突出有效信息、抑制无效噪声。因此残差注意力模块的引入，可以提高网络对车辆识别的精准度，具体结构参见说明书附图5。YOLOv3特征金字塔的特征图按照由浅到深顺序依次设为S_u、S_m、S_d，设多尺度融合后的特征图为S′_u、S′_m。在残差注意力模块引入过程中，先将特征图S_d与S_m利用残差注意力模块进行融合，生成特征图S′_m；然后将特征图S′_m与S_u基于残差注意力模块进行融合，生成特征图S′_u。具体步骤如下：

子步骤②：将特征图S_d输入到YOLOv3基本卷积组件，然后将结果进行上采样处理，得到特征图S_d0；

子步骤③：将特征图S_m0与S_u0进行通道级联，并将融合后的特征图输入到YOLOv3基本卷积组件进行5次卷积操作，得到最终融合结果S′_u。

(3)无锚框特征选择模块的加入

针对多尺度目标识别的难题，YOLOv3网络在YOLO、YOLOv2的基础上作出改进，融合了特征金字塔与锚框机制两种方法，提升了小尺度目标的识别精度。具体融合方法为：YOLOv3网络选取三个尺寸不一的特征图构建特征金子塔，并为每个特征图预设三种尺寸的锚框。浅层特征图包含丰富的目标细节特征信息，预设小尺寸锚框利于小尺度目标特征的提取；深层特征图具有较多的高阶全图语义信息，预设大尺寸锚框有益于大尺寸物体的精准检测及定位。

然而，基于锚框机制的YOLOv3网络存在一定缺陷，具体表现为：1)锚框尺寸需预先设定，由相应数据集聚类得到，难以适应于不同交通场景；2)锚框机制是启发式选择特征，而不是根据目标语义信息选择特征层。网络训练过程中，每个目标真值根据IoU的大小匹配到最相近的锚框，而锚框与对应特征图相关联，因此目标真值对应特征层的选择是启发式引导，而不是根据目标语义信息。此方法会导致目标匹配的特征层不是最优的，在一定程度上影响了多尺度目标识别效果。无锚框特征选择模块是一种根据目标语义信息来匹配最优特征层的结构，因此无锚框特征选择模块，可以弥补锚框机制的不足，提高网络对车辆识别的精度。无锚框特征选择模块的引入的具体步骤如下：

步骤一监督信号的建立：监督信号是目标真值匹配特征层的依据，由两部分组成：类别输出损失函数、目标框输出损失函数，参见说明书附图6，具体子步骤如下所示：

在式3中，

为第l层级的目标框的位置信息，

分别为第l层级的有效区域、忽略区域的位置信息，ε_e、ε_i分别为有效区域、忽略区域与目标真值框的面积比，ε_e在0.2～0.3内取值，ε_i在0.5～0.6内取值。其中，有效区域表示目标存在；忽略区域，表示该部分像素梯度值不会传播到网络中。目标I的分类损失函数

计算公式如下：

式4中，

表示

区域的像素点数，F(l,i,j)表示Focal-loss函数，i、j分别表示像素点的横、纵坐标。

子步骤②：设定影响目标框定位的四个位置偏移量分别为有效区域像素点距离目标矩形框顶边、左边、底边和右边的位置偏移量

和

则目标框损失函数

的计算公式如下：

式5中，

表示

区域的像素点数，IoU(l,i,j)表示交并比损失函数，i、j分别表示像素点的横、纵坐标。

步骤二无锚框特征选择模块的加入：在YOLOv3网络多尺度预测分支的基础上，将无锚框特征选择模块加入到YOLOv3网络中，参见说明书附图7，具体子步骤如下所示：

步骤三无锚框模块在线特征层选择：首先，使车辆目标语义信息前向传播经过特征金字塔中所有的层；然后，计算出每个特征层所对应的损失值l^*；接着，选取损失值l^*最小的特征层作为最优特征层。在训练过程中，目标特征依据损失值的大小会匹配到最优特征层。损失值l^*计算公式如下：

在式6中，目标的焦点损失函数Focal-loss为

交并比损失函数IoU-loss为

(4)训练YOLO-AF网络

利用路侧数据集，采用梯度下降方法对YOLO-AF网络进行训练，获得网络参数。

(5)YOLO-AF网络识别路侧车辆

使用已经训练好的基于视觉传感器的路侧车辆识别网络YOLO-AF进行路侧车辆识别，得到车辆位置、数量等信息。

为检验本发明所设计的基于视觉传感器的路侧车辆识别方法的实际效果，进行路侧数据集测试实验。实验基本情况如下：

实验目的：检验所设计的基于视觉传感器的路侧车辆识别方法的精准度和实时性。

实验设备：本发明所用的实验计算机操作系统为Ubuntu16.04，内存为48G，计算机平台配备了三块英伟达GTX TITAN XP显卡以及英特尔至强E3系列CPU。

实验数据集及评价指标：智能交通领域的公开数据集主要有KITTI、LSVH和UA-DETRAC等。其中，KITTI数据集主要是车载驾驶场景，LSVH和UA-DETRAC数据集是路侧视角交通监控场景，更符合本发明的研究需求，所以本发明采用LSVH和UA-DETRAC两大数据集进行实验验证，并以平均精度均值mAP、平均精度AP、召回率以及平均处理时间作为评价指标。

实验结果：本发明提出的基于视觉传感器的路侧车辆识别网络YOLO-AF具有良好的性能，具体体现在：①如表1所示，相对于YOLOv3网络，对多尺度车辆目标的识别精度有显著提升，在LSVH、UA-DETRAC数据集上提升的平均精度均值分别为8.99％、5.68％，在UA-DETRAC数据集的平均精度均值达到了93.77％，完全满足路侧车辆识别的精度要求；②如表2所示，相对于YOLOv3网络，对多尺度车辆目标的识别精度有显著提升；③如表3所示，虽然YOLO-AF算法识别速度稍慢，平均耗时为74ms，但普通摄像机的拍摄频率为25～30Hz，相邻帧间隔时间为33～40ms，为YOLO-AF网络的平均耗时的一半。由于相邻帧间图像相似度较高，所以YOLO-AF网络基本满足路侧车辆识别方法实时性的要求。

YOLOv3、YOLO-AF在LSVH数据集上部分测试结果如图8所示。由图8可知，路侧交通环境中车辆由近及远，目标尺度逐渐变小。对于图像中的大尺度、中等尺度目标，两种网络模型具有较好的识别效果，其中，YOLO-AF由于加入了残差注意力模块，对车辆的识别精度更好。对于图像中的小尺度目标，YOLOv3网络的识别效果欠佳，出现“漏检”现象的同时，识别精度也较低。相应的，YOLO-AF网络在引入残差注意力模块后，显著突出了有效语义信息，抑制了无效信息，使得车辆定位精度得到提升；在引入无锚框特征选择模块后，根据语义特征去匹配特征层，提高了小尺度目标的识别率。

总体来说，本发明提出的基于视觉传感器的路侧车辆识别网络YOLO-AF可以兼顾精度和效率，能够满足路侧车辆识别方法对实时性与识别精准度的要求。

表1各网络路侧车辆识别精度

表2车辆识别召回率测试结果

表3各模型在UA-DETRAC数据集上实时性表现