CN113822375A

CN113822375A - 一种改进的交通图像目标检测方法

Info

Publication number: CN113822375A
Application number: CN202111316427.9A
Authority: CN
Inventors: 李永; 余凤
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-11-08
Filing date: 2021-11-08
Publication date: 2021-12-21
Anticipated expiration: 2041-11-08
Also published as: CN113822375B

Abstract

本发明公开了一种改进的交通图像目标检测方法，面向海量的交通图像目标检测数据，针对Darknet‑53模型中三个尺度特征图提取特性的不同，分别采用了不同的替换策略来对三个阶段的残差模块进行改进。对Darknet‑53中的残差结构进行改进，得到了L‑CCR模块，通过将原本的3x3SpatialConvolution替换为LambdaConvolution，赋予卷积网络捕获长距离交互信息的能力，提升交通图像目标检测的精度，同时因为LambdaLayer层的引入是线性级别上的计算，所以速度方面不会有太大的影响，能够保证原本模型的实时性；并且构建的交通图像目标检测模型具有计算效率很高的优点。

Description

一种改进的交通图像目标检测方法

技术领域

本发明属于图像识别领域，尤其涉及交通图像目标检测的相关方法。

背景技术

随着信息化时代的快速发展，人工智能在生活中的应用逐渐普遍，目标检测作为计算机视觉和数字图像处理的一个热门方向，被广泛应用在智能交通系统中，目标检测作为系统的基础任务，对整体的性能起着决定性的作用。然而基于视频的目标检测所需处理的数据量相当庞大，简单的算法实时性好但准确度不高，而复杂的算法准确度高实时性较差，因而如何平衡好目标检测技术的准确性和实时性，成为了当今学术界的研究热点。

目标检测技术的研究由来已久，早期目标检测算法通常采用传统机器学习和图像处理技术的结合实现目标检测，利用Harr、LBP、HOG、ACF等算法提取目标的特征，然后采用Adaboost、SVM、决策树等分类器实现目标的检测，这类算法需要根据具体场景设计目标特征描述算子，流程复杂，并且提取到的目标特征效果不好，因此算法的通用性和鲁棒性较差，导致该类算法难以应用到实际工业中。伴随着深度学习的发展，基于深度学习的目标检测算法取得了显著成果，按照处理步骤的不同大致分为两阶段和一阶段这两种类型。两阶段检测算法将检测过程分为生成候选区域、对候选区域做进一步分类和调整边界框这两个步骤，最具代表性的是Ross Girshick等人提出的R-CNN，该算法采用选择性搜索的方法，通过合并相似区域，把穷举遍历生成的数万个待检测区域减少至2000个左右，大大提升了检测的速度，但是在对候选区域进行特征提取时存在重复计算的问题。一阶段检测算法主要有YOLO系列、SSD系列等，这类算法不需要提取候选框，直接在原始图片上的不同位置处进行目标的分类与回归，最大优势是在检测速度上获得了较大的提升，但是精度相较于两阶段检测算法较差一些。随着Transformer在自然语言处理领域的优秀表现，学者们开始将自注意力机制引入到目标检测模型中，然而，自注意力机制的二次内存占用问题妨碍了它对长序列或多维输入的适用性，使得这类检测算法存在较大的性能消耗。

发明内容

在交通图像识别领域，交通图像的目标检测是整个交通图像识别的基础，而基于交通图像的目标检测所需处理的数据量相当庞大，存在简单的模型实时性好但准确度不高、复杂的模型准确度高而实时性差这两个关键问题。

本发明主要解决的技术问题是简单的模型实时性好但准确度不高的问题，在不影响模型实时性的情况下，提升交通图像目标检测模型的检测精度，提出一种适合交通图像识别的且能够关注长程交互信息的交通图像目标检测模型，Lambda Yolo V3(L-Yolov3)，是基于Ross Girshick等人提出的Yolo v3改进而来，我们将长程交互信息捕获层LambdaLayer引入主干网络Darknet-53中，形成了全新的交通图像目标检测模型。

本发明面向海量的交通图像目标检测数据，提出一种兼顾速度和精度的交通图像目标检测模型。对Darknet-53中的残差结构进行改进，得到了L-CCR模块，通过将原本的3x3Spatial Convolution替换为Lambda Convolution，赋予卷积网络捕获长距离交互信息的能力，提升交通图像目标检测的精度，同时因为Lambda Layer层的引入是线性级别上的计算，所以速度方面不会有太大的影响，能够保证原本模型的实时性。

本发明针对Darknet-53模型中三个尺度特征图提取特性的不同，分别采用了不同的替换策略来对三个阶段的残差模块进行改进。第三阶段的特征图大小为52x52，用来对交通图像中的小目标物体检测，提升模型在小目标物体检测上的准确性，因为特征图尺寸比较大，所以上下文结构信息建模成本不高，因此对于这一阶段的8个CCR模块，采用两个L-CCR模块来替换最尾的两个模块；第四阶段的特征图大小为26x26，主要是用来检测交通图像中的中等大小物体，对于中等大小的特征图采用适中的L-CCR模块来构建上下文结构信息，因此此处用4个L-CCR模块个数来进行替换；第五阶段的特征图大小为13x13，针对交通图像中的大物体目标检测，需要捕获更多的全局和局部信息，因此对于这一阶段的4个CCR模块，全部用L-CCR模块进行替换，增强模型对图像上下文交互信息的捕获能力。

一种改进的交通图像目标检测模型包括以下步骤：

步骤1：通过本发明提出的想法，搭建具有Lambda Layer的L-CCR模块，并将该模块替换进主干特征提取网络Darknet-53的第三、第四和第五阶段的残差结构中，构建Lambda-Yolo v3交通图像目标检测模型。

步骤2：对原始交通图像进行预处理，将标注转化为yolo格式，运用数据增强技术处理数据，提升图片的多样性和目标数量，并将交通图像resize成大小为416*416。

步骤3：将经过步骤2预处理后的图片作为输入，输入到步骤1中构建的L-Yolo v3模型中进行训练，直到验证函数损失收敛为止，得到训练好的模型的权重文件。

步骤4：加载步骤3中训练好的权重文件，使用这个训练好的模型对测试集数据进行预测，得到三个预测支路y1、y2和y3，根据设定的每个网格预测的box数m，得到(52*52+26*26+13*13)*m个候选框。

步骤5：对步骤4中得到的(52*52+26*26+13*13)*m个候选框采用非极大值抑制处理，设定合适的iou值，并计算score值，过滤掉多余的候选框，找到最佳的目标边界框，得到最终预测框。

步骤6：将步骤5中得到的最终预测框映射到原图像，得到最终的交通图像目标检测结果。

与现有技术相比，本发明具有以下明显优势：

一、在运用深度学习方法进行交通图像目标检测时，长程交互信息的捕获对交通图像目标检测的准确度有很重要的影响，而现有的经典交通图像目标检测模型大都没有关注这方面的信息，而本发明将长程交互信息捕获层引入到现有交通图像目标检测模型中，使得输入可以和上下文结构信息进行组合，进而得到输出结果，从而提高交通图像目标检测的精确度。

二、Lambda Layer是线性级别的注意力关注层，能够通过很小的内存成本建模长程交互信息，对比自注意力机制的二次内存空间占用，Lambda Layer将上下文信息汇总成固定大小的线性函数，从而避免了对内存消耗大的注意力图的需求，这样构建的交通图像目标检测模型具有计算效率很高的优点。

附图说明

图1为本发明所涉及的方法流程图。

图2L-CCR模块细节图。

图3为本发明的Lambda Yolo v3模型图。

具体实施方式

以下结合具体网络模型图，并参照附图，对本发明进一步详细说明。

本发明所用到的硬件设备有PC机一台，显卡rtx3070一块。

这一部分针对提出的想法，进行了实验，以验证提出的发明的可行性，具体包括以下步骤：

步骤1：搭建本发明提出的Lambda-Yolo v3目标检测模型，作为本发明最核心的部分，它主要包含以下步骤：

步骤1.1：将Darknet-53中的残差模块部分中的Convolution(3x3)中的Conv2d层替换为Lambda Conv层，得到L-CCR模块。

步骤1.2：对Darknet-53中第三阶段的8个CCR残差模块进行改进，将第7和第8个CCR模块替换为步骤1.1中新生成的L-CCR模块。

步骤1.3：对Darknet-53中第四阶段的8个CCR残差模块进行改进，将第5、第6、第7和第8个CCR模块替换为步骤1.1中新生成的L-CCR模块。

步骤1.4：将Darknet-53中第五阶段的4个CCR残差模块全部用L-CCR模块进行替换。

步骤1.5：得到Lambda Yolo v3交通图像目标检测模型。

步骤2：对初始交通图片进行预处理，将数据集转化为yolo格式的标注，运用Mosaic数据增强方法，提升数据集的多样性和目标数量，并将图片resize成大小为416*416。

步骤3：下载Yolo v3模型预训练权重，将该权重文件加载到步骤1中搭建的LambdaYolo v3模型中，将经过预处理的图片，输入到Lambda Yolo v3模型中进行训练，直到验证函数损失收敛为止，得到训练好的权重文件lambda-yolov3-obj.weights文件，使用的损失函数包含交通图像目标定位偏移量损失L_loc(l,g)、交通图像目标置信度损失L_conf(o,c)和交通图像目标类别损失L_cla(O,C)三个部分,其中λ₁、λ₂、λ₃是平衡系数。

L(O,o,C,c,l,g)＝λ₁L_conf(o,c)+λ₂L_cla(O,C)+λ₃L_loc(l,g)

交通图像目标置信度损失L_conf(o,c)：交通图像目标置信度损失主要是用来预测交通图像中目标矩形框内存在目标的概率，采用的是二值交叉熵损失(Binary CrossEntropy)，其中o_i∈{0,1}，标识预测目标边界框i中是否真实存在目标，0表示不存在，1表示存在。

表示预测目标矩形框i内是否存在目标的Sigmoid概率(将预测值c_i通过sigmoid函数得到)。

交通图像目标类别损失L_cla(O,C)：同样采用的是二值交叉熵损失，用来应对同一个交通目标可同时归为多类等这样的复杂场景。其中O_ij∈{0,1}，标识预测目标边界框i中是否真实存在第j类目标，0表示不存在，1表示存在。

表示网络预测目标矩形框i内存在第j类目标的Sigmoid概率(将预测值C_ij通过sigmoid函数得到)。

交通图像目标定位偏移量损失L_loc(l,g)：采用的是真实偏差值和预测偏差值差的平方和，其中

表示预测矩形框坐标偏移量，

表示与之匹配的Ground Truth Box与默认框之间的坐标偏移量，(b^x，b^y，b^w，b^h)为预测的目标矩形框参数，(c^x，c^y，p^w，p^h)为默认矩形框参数，(g^x，g^y，g^w，g^h)为与之匹配的真实目标矩形框参数，这些参数都是映射在预测特征图上的。

步骤4：加载步骤3中训练好的权重文件lambda-yolov3-obj.weights，将测试集数据输入模型中进行预测，得到三个预测支路y1、y2和y3，边长规律是13：26：52，以边长为13的grid为例，输入为(1，3*(5+c)，13，13)，resize为(1，3，13，13，(5+c))，其中(c+5)的0～5位分别为(Cx、Cy、Cw、Ch、conf、cls_pre)，将(x，y，conf，cls_pre)进行sigmoid，初始化grid_x,grid_y值，并根据缩放尺度计算出anchor_w、anchor_h在特征图上的大小，计算出预测的候选框在13*13尺度的特征图上的中心点位置(x＝Cx+grid_x,y＝Cy+grid_y,w＝e^Cw+anchor_w,h＝e^Ch+anchor_h)，从而得到新的(1，3*13*13，(c+5))的数据，返回13，26，52经过cat后的新的(1，10647，(c+5))数据。

步骤5：对步骤4中得到的10647个候选框采用非极大值抑制处理，将其中的(Cx、Cy、Cw、Ch)转化成(左上角x、y坐标、右下角x坐标、y坐标)，设定iou值为0.45，过滤掉低于0.45的box，然后计算score，其中score＝conf*(和预测类别中概率最大的类的概率)，将候选框的项按照score的大小进行排列，找与其分类相同的框值，进行加权计算最优值，作为最后的预测框输出，最后输出每个类别的最优值预测框(类别数，7)，其中7为：新的左上角x、y坐标，新的右下角x、y坐标，conf、cls_pre、class。

步骤6：将步骤5中得到的最佳预测框rescale到原图大小显示，即可得到最终预测结果。

本发明，使用平均准确度均值对比不同算法与本发明所提出的算法在相同的数据集上的表现效果，总体涉及到的计算公式如下：

P(精确率)：P＝TP/(TP+FP)

R(召回率)：R＝TP/(TP+FN)

AP(平均准确度)：

mAP(平均准确度均值)：

以上实施例仅为本发明的示例性实施例，不用于限制本发明，本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内，对本发明做出各种修改或等同替换，这种修改或等同替换也应视为落在本发明的保护范围内。

Claims

1.一种改进的交通图像目标检测方法，其特征在于：该方法包括以下步骤：

步骤1：搭建具有Lambda Layer的L-CCR模块，并将该模块替换进主干特征提取网络Darknet-53的第三、第四和第五阶段的残差结构中，构建Lambda-Yolo v3交通图像目标检测模型；

步骤2：对原始交通图像进行预处理，将标注转化为yolo格式，运用数据增强技术处理数据，提升图片的多样性和目标数量，并将交通图像resize成大小为416*416；

步骤3：将经过步骤2预处理后的图片作为输入，输入到步骤1中构建的L-Yolo v3模型中进行训练，直到验证函数损失收敛为止，得到训练好的模型的权重文件；

步骤4：加载步骤3中训练好的权重文件，使用这个训练好的模型对测试集数据进行预测，得到三个预测支路y1、y2和y3，根据设定的每个网格预测的box数m，得到(52*52+26*26+13*13)*m个候选框；

步骤5：对步骤4中得到的(52*52+26*26+13*13)*m个候选框采用非极大值抑制处理，设定合适的iou值，并计算score值，过滤掉多余的候选框，找到最佳的目标边界框，得到最终预测框；

2.根据权利要求1所述的一种改进的交通图像目标检测方法，其特征在于：步骤1中包括，步骤1.1：将Darknet-53中的残差模块部分中的Convolution(3x3)中的Conv2d层替换为Lambda Conv层，得到L-CCR模块；

步骤1.2：对Darknet-53中第三阶段的8个CCR残差模块进行改进，将第7和第8个CCR模块替换为步骤1.1中新生成的L-CCR模块；

步骤1.3：对Darknet-53中第四阶段的8个CCR残差模块进行改进，将第5、第6、第7和第8个CCR模块替换为步骤1.1中新生成的L-CCR模块；

步骤1.4：将Darknet-53中第五阶段的4个CCR残差模块全部用L-CCR模块进行替换；

步骤1.5：得到Lambda Yolo v3交通图像目标检测模型。

3.根据权利要求1所述的一种改进的交通图像目标检测方法，其特征在于：步骤3中包括，下载Yolo v3模型预训练权重，将该权重文件加载到步骤1中搭建的Lambda Yolo v3模型中，将经过预处理的图片，输入到Lambda Yolo v3模型中进行训练，直到验证函数损失收敛为止，得到训练好的权重文件lambda-yolov3-obj.weights文件，使用的损失函数包含交通图像目标定位偏移量损失L_loc(1，g)、交通图像目标置信度损失L_conf(o，c)和交通图像目标类别损失L_cla(O，C)三个部分，其中λ₁、λ₂、λ₃是平衡系数；

L(O，o，C，c，l，g)＝λ₁L_conf(o，c)+λ₂L_cld(O，C)+λ₃L_loc(l，g)

交通图像目标置信度损失L_conf(o，c)：交通图像目标置信度损失主要是用来预测交通图像中目标矩形框内存在目标的概率，采用的是二值交叉熵损失，其中o_i∈{0，1}，标识预测目标边界框i中是否真实存在目标，0表示不存在，1表示存在；

表示预测目标矩形框i内是否存在目标的Sigmoid概率；

交通图像目标类别损失L_cla(O，C)：同样采用的是二值交叉熵损失，用来应对同一个交通目标可同时归为多类等这样的复杂场景；其中O_ij∈{0，1}，标识预测目标边界框i中是否真实存在第j类目标，0表示不存在，1表示存在；

表示网络预测目标矩形框i内存在第j类目标的Sigmoid概率；

交通图像目标定位偏移量损失L_loc(l，g)：采用的是真实偏差值和预测偏差值差的平方和，其中

表示预测矩形框坐标偏移量，

表示与之匹配的Ground Truth Box与默认框之间的坐标偏移量，(b^x，b^y，b^w，b^h)为预测的目标矩形框参数，(c^x，c^y，p^w，p^h)为默认矩形框参数，(g^x，g^y，g^w，g^h)为与之匹配的真实目标矩形框参数，这些参数都是映射在预测特征图上的；

4.根据权利要求3所述的一种改进的交通图像目标检测方法，其特征在于：步骤4中包括，加载步骤3中训练好的权重文件lambda-yolov3-obj.weights，将测试集数据输入模型中进行预测，得到三个预测支路y1、y2和y3，边长规律是13∶26∶52，以边长为13的grid为例，输入为(1，3*(5+c)，13，13)，resize为(1，3，13，13，(5+c))，其中(c+5)的0～5位分别为(Cx、Cy、Cw、Ch、conf、cls_pre)，将(x，y，conf，cls_pre)进行sigmoid，初始化grid_x，grid_y值，并根据缩放尺度计算出anchor_w、anchor_h在特征图上的大小，计算出预测的候选框在13*13尺度的特征图上的中心点位置(x＝Cx+grid_x，y＝Cy+grid_y，w＝e∧Cw+anchor_w，h＝e∧Ch+anchorh)，从而得到新的(1，3*13*13，(c+5))的数据，返回13，26，52经过cat后的新的(1，10647，(c+5))数据。

5.根据权利要求4所述的一种改进的交通图像目标检测方法，其特征在于：步骤53中包括，对步骤4中得到的10647个候选框采用非极大值抑制处理，将其中的(Cx、Cy、Cw、Ch)转化成(左上角x、y坐标、右下角x坐标、y坐标)，设定iou值为0.45，过滤掉低于0.45的box，然后计算score，其中score＝conf*(和预测类别中概率最大的类的概率)，将候选框的项按照score的大小进行排列，找与其分类相同的框值，进行加权计算最优值，作为最后的预测框输出，最后输出每个类别的最优值预测框(类别数，7)，其中7为：新的左上角x、y坐标，新的右下角x、y坐标，conf、cls_pre、class。

6.根据权利要求1所述的一种改进的交通图像目标检测方法，其特征在于：步骤6中包括，

使用平均准确度均值在相同的数据集上的表现效果，总体涉及到的计算公式如下：

P(精确率)：P＝TP/(TP+FP)

R(召回率)：R＝TP/(TP+FN)

AP(平均准确度)：

mAP(平均准确度均值)：