CN112232240A

CN112232240A - 一种基于优化交并比函数的道路抛洒物检测与识别方法

Info

Publication number: CN112232240A
Application number: CN202011129588.2A
Authority: CN
Inventors: 谢非; 章悦; 陆飞; 汪璠; 周钟文; 陈瑾杰; 叶欣雨; 汪铁铮; 吴俊�; 汪壬甲
Original assignee: Nanjing Normal University
Current assignee: Nanjing Normal University
Priority date: 2020-10-21
Filing date: 2020-10-21
Publication date: 2021-01-15
Anticipated expiration: 2040-10-21
Also published as: CN112232240B

Abstract

本发明公开了一种基于优化交并比函数的道路抛洒物检测与识别方法，包括如下步骤：搭建基于优化交并比函数的道路抛洒物检测与识别模型；采集道路交通监控视频并进行分帧处理生成道路抛洒物数据集，对训练集图像进行标注，生成标签文件；将训练集全部图像和标签文件输入道路抛洒物检测与识别模型中进行训练，得到训练好的模型；将测试集图像输入训练好的道路抛洒物检测与识别模型进行检测识别，输出对于道路抛洒物的检测识别结果。本发明能够在复杂道路交通背景下对道路抛洒物进行检测和识别，能够输出道路抛洒物位置信息、类别信息以及大致形状特征，对于小目标有较好的检测识别效果，检测速度快、识别精度高。

Description

一种基于优化交并比函数的道路抛洒物检测与识别方法

技术领域

本发明涉及深度学习及计算机视觉的技术领域，具体涉及一种基于优化交并比函数的道路抛洒物检测与识别方法。

背景技术

随着人工智能技术的飞速发展，深度学习与计算机视觉领域的技术越来越多的应用到了现代化城市管理当中。道路抛洒物事件作为道路交通常见的事件具有一定的风险，严重时会导致交通事故的发生。常见的道路抛洒物如石块、掉落的废旧纸箱、渣土沙砾、废旧抛洒布等物品不易被车辆驾驶者发现，其中多数尺寸较小，不易被及时检测和排除，同时道路交通环境相对复杂，这也增加了抛洒物检测的难度。目前，计算机视觉中的实例分割技术已经被广泛用于自动驾驶、医疗图像处理、卫星图像等领域。由此，设想实例分割也可被应用于城市道路交通事件检测中。

我国对于道路交通事件检测这一领域的研究开始较晚，现有的道路抛洒物检测与识别方法多是基于传统图像处理算法，主要包括帧间差分法、光流法、特征提取法等方法。这些方法都存在着不可避免的缺陷，例如识别准确率低，实时性较差，对于小尺寸目标的识别情况不好，可扩展性差。

所以，需要一个新的技术方案来解决这些问题。

发明内容

发明目的：为了克服现有技术中存在的不足，提供一种基于优化交并比函数的道路抛洒物检测与识别方法，其以监控摄像头采集包含道路交通抛洒事件的视频，通过神经网络模型训练的方式得到基于优化交并比函数的道路抛洒物检测与识别模型，成本较低，实现方式简便，同时本发明方法在小尺寸目标的检测和识别上效果较好，可以达到实时运行的效果，能够在对道路抛洒物检测和识别基础上进行道路抛洒物的掩膜分割，可以输出道路抛洒物类别信息、位置信息与大致形状特征，具有识别精度高、可扩展性强、抗复杂道路交通环境干扰性强的特点。

技术方案：为实现上述目的，本发明提供一种基于优化交并比函数的道路抛洒物检测与识别方法，包括如下步骤：

S1：搭建基于优化交并比函数的道路抛洒物检测与识别模型；

S2：采集道路交通监控视频并进行分帧处理生成道路抛洒物数据集，对道路抛洒物数据集中的图像按比例划分存储为测试集图像和训练集图像，对训练集图像进行标注，生成json格式的标签文件；

S3：将训练集全部图像和标签文件输入步骤S1的道路抛洒物检测与识别模型中进行训练，得到训练好的模型；

S4：将道路交通监控视频分帧处理得到的测试集图像输入训练好的道路抛洒物检测与识别模型进行检测识别，输出对于道路抛洒物的检测识别结果。

进一步的，所述步骤S1中基于优化交并比函数的道路抛洒物检测与识别模型的搭建方法包括如下步骤：

A1：构建基于空洞卷积优化的主干神经网络，主干神经网络通过对输入的训练集中的图像进行卷积得到输入图像中的特征图，提取出的特征图作为后续处理的输入；

A2：构建多尺度处理模块，使用特征金字塔网络FPN进行多尺度处理；在进行道路抛洒物检测识别的场景中，使用FPN能发挥其多尺度识别的优势，在很大程度上缓解模糊性。

A3：构建基于优化交并比函数的目标检测与识别算法，目标检测与识别算法通过对经过多尺度处理的特征图进行目标检测与识别，得到边界框bounding box信息与目标的类别信息；

A4：构建掩膜分割分支：使用空间注意力引导掩膜生成空间注意力特征描述子，通过空间注意力引导特征去加强原始输入特征并对每一目标生成掩膜。

进一步的，所述步骤A3中基于优化交并比函数的目标检测与识别算法，由分类、边界框预测和中心度centerness三个分支构成。

进一步的，所述步骤A1具体为：主干神经网络使用残差网络ResNet50，残差卷积网络通过引入残差块，有效避免了普通神经网络卷积过程中随着层数越深，初始化参数越趋向于0的梯度消失问题，实现了模型精度的提升。

残差块的输入数据通过跳跃连接shortcut connection进行直接映射，同时将输入数据进行卷积操作并通过线性修正单元ReLU进行激活运算，输出残差部分，ResNet50包括1个7x7x64的输入卷积和16个残差块，最后有一层用于分类输出的全卷积层，其中每一残差块包含3层卷积层，卷积时采用空洞卷积的方法进行优化，设定卷积核扩张率为3，最终输出5个不同阶段的特征图C₁、C₂、C₃、C₄、C₅。

进一步的，所述步骤A2具体为：采用特征金字塔网络FPN进行多尺度处理，将经过主干神经网络卷积后得到的特征图C₃、C₄、C₅进行1×1卷积得到F₃、F₄、F₅，并将F₅、F₆再次进行步长为2的卷积得到F₆、F₇，输出5个阶段的特征图F₃、F₄、F₅、F₆、F₇。

进一步的，所述步骤A3具体包括如下步骤：

B1：令

为经过主干神经网络和多尺度处理后第i层的特征图，其中H、W分别表示特征图的高度和宽度，Q表示所有待检测目标的类别数；通过4组卷积操作，其中每组包括步长为1的3×3卷积、群组归一化Group Normalization和线性修正单元ReLU，对特征图进行边界框回归并使用优化交并比函数DIoU进行优化，生成边界框回归损失函数；

B2：通过4组步长为1的3×3卷积对特征图进行分类，生成分类损失函数；同时通过中心度centerness分支来抑制低质量的检测边界框；

B3：目标识别算法输出目标损失函数并通过自适应的感兴趣区域RoI分配机制来保证目标检测器对于小尺度目标的检测精度。

进一步的，所述步骤B1中DIoU函数用于计算边界框回归损失函数。DIoU函数将重叠率以及尺度都考虑在内，使得目标框回归变得更加稳定，不易出现发散等问题，检测精度更高。边界框回归损失函数的计算过程为：

式中，B表示预测框，B^gt表示真实检测框，b、b^gt分别表示预测框和真实框的中心点位置，ρ表示计算这两个中心点之间的欧式距离，l表示同时包含了预测检测框和真实检测框的最小闭包区域的对角线距离；

对于特征图F_i上的每一个位置(x,y)都可以对应到原图上的一个坐标。如果位置(x,y)落在任意真实检测框内，那么它就被认定是正样本，否则为负样本。除了对正负样本进行分类，同时也可以得到一个4维向量s^*＝(l^*,t^*,r^*,b^*)，这个向量表示了位置(x,y)用于回归的偏移向量。其中l^*,t^*,r^*,b^*分别代表了这一位置的点到边界框左、上、右、下四边的水平距离。

所述步骤B2中中心度centerness的定义如下：

其中，min(l^*,r^*)表示取l^*,r^*中的最小值，max(l^*,r^*)表示取l^*,r^*中的最大值，min(t^*,b^*)表示取t^*,b^*中的最小值，max(t^*,b^*)表示取t^*,b^*中的最大值，中心度使用二值交叉熵进行训练，中心度的值在0到1范围内。中心度可以降低远离目标中心边界框的权重，从而显著提升检测性能。

进一步的，所述步骤B3中输出的目标损失函数L({q_x,y},{s_x,y})所示如下：

式中，q_x,y表示位置(x,y)预测得出的分类标签，

表示位置(x,y)的真实类别，s_x,y表示位置(x,y)所在的边界框坐标，

表示位置(x,y)于回归的偏移向量，N_pos表示正样本数量，L_cls表示分类损失函数，使用了焦点损失，L_reg表示边界框回归损失函数，λ设置为1用于平衡两类损失，I表示指示函数；

式(5)表示一种自适应的RoI分配机制，式中K表示感兴趣区域的映射关系，k_max表示对应的FPN层级，本研究中FPN分为五个层级，所以k_max＝5，A_input表示输入图像数据的面积，A_RoI表示感兴趣区域的面积。

进一步的，所述步骤A4中掩膜分割分支的构建过程为：

C1：将经过自适应的RoI区域分配机制预测得到的特征图馈送到四个3×3卷积转换层和空间注意模块中依次处理，得到空间注意力特征描述子，计算过程如下所示：

将经过目标检测输入掩膜分支的特征图定义为X_i，对输入特征图

进行最大池化和平均池化之后得到的特征f_max,

进行连接聚合，聚合后输入一个3×3的卷积层，并使用sigmoid函数进行归一化，式中，A_sag(X_i)表示输出的空间注意力特征描述子，C_3×3表示进行3×3的卷积，符号

表示进行连接聚合，σ表示sigmoid函数；

C2：利用C1得到的空间注意力特征描述子生成空间注意力引导特征图，并使用2×2的卷积进行上采样，通过一个1×1卷积层预测特定类的掩膜；

空间注意力引导特征图X_sag的公式如上所示，其中，

表示对元素进行对应乘积计算；主要目的是通过空间注意力引导特征去加强原始输入特征。

C3：计算道路抛洒物检测与识别模型的损失函数：

L＝L_cls+L_center+L_reg+L_mask (16)

其中，L表示道路抛洒物检测与识别模型整体的损失函数，L_cls表示分类损失，L_center表示中心度损失，L_reg表示边界框回归损失，L_mask表示掩膜损失，采用二值交叉熵进行计算。

进一步的，所述步骤S2具体包括如下步骤：

D1：采集包含道路抛洒事件的道路交通监控视频，并保存；

D2：对于存储的道路交通监控视频进行分帧操作，设置每5秒提取一帧待处理图像，并将图像输出进行存储；

D3：对于存储的全部图像利用图像标注软件进行标注处理，按照80％和20％的比例进行划分，分别存储为训练集和测试集，后续利用训练集全部图像输入模型进行训练。

所述步骤S4具体包括如下步骤：

E1：将道路交通监控视频分帧处理得到的测试集图像输入训练好的道路交通抛洒物识别模型中进行目标识别；

E2：基于优化交并比函数的道路抛洒物检测与识别模型中优化的识别算法对目标物体框中的所有点都进行边界框预测；

E3：使用非极大值快速抑制算法过滤质量低的边界框，最终生成目标边界框与分类信息，进一步输入到掩膜分割分支生成掩膜。

进一步的，所述步骤S4中道路抛洒物的检测识别结果包括目标框位置、类别信息和分割掩膜。

有益效果：本发明与现有技术相比，具备如下优点：

1、本发明以监控摄像头采集包含道路交通抛洒事件的视频，通过神经网络模型训练的方式得到基于优化交并比函数的道路抛洒物检测与识别模型，通过各路段已有监控视频就能完成识别过程，成本较低，实现方式简便。

2、本发明在小尺寸目标的检测和识别上效果较好，不但可以达到实时运行的效果，而且识别精度高，误差小。

3、本发明能够在对道路抛洒物检测和识别基础上进行道路抛洒物的掩膜分割，可以输出道路抛洒物类别信息与位置信息，具有识别精度高、检测速度快、可扩展性强、抗复杂道路交通环境干扰性强的优势。

附图说明

图1是本发明方法的流程框图；

图2是本发明中基于优化交并比函数的道路抛洒物检测与识别模型结构图；

图3是本发明使用的主干神经网络ResNet50的结构图；

图4是常规卷积与空洞卷积的对比图；

图5是距离交并比DIoU函数的原理图；

图6是道路抛洒物识别单张图像中全部目标的用时图；

图7是本发明方法的识别效果图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，本发明提供一种基于优化交并比函数的道路抛洒物检测与识别方法，如图1和图2所示，包括以下步骤：

S4：将道路交通监控视频分帧处理得到的测试集图像输入训练好的道路抛洒物检测与识别模型进行检测识别，输出道路抛洒物的目标框位置、类别信息和分割掩膜。

本实施例中步骤S1的具体过程如下：

A2：构建多尺度处理模块，使用特征金字塔网络FPN进行多尺度处理；在进行道路抛洒物检测识别的场景中，使用FPN能发挥其多尺度识别的优势，在很大程度上缓解模糊性；

A3：构建基于优化交并比函数的目标检测与识别算法，该算法由分类、边界框预测和中心度centerness三个分支构成，目标检测与识别算法通过对经过多尺度处理的特征图进行目标检测与识别，得到边界框bounding box信息与目标的类别信息；

本实施例中步骤A1的具体过程如下：

主干神经网络使用残差网络ResNet50，本实施例中的残差卷积网络通过引入残差块，有效避免了普通神经网络卷积过程中随着层数越深，初始化参数越趋向于0的梯度消失问题，实现了模型精度的提升。

残差块的输入数据通过跳跃连接shortcut connection进行直接映射，同时将输入数据进行卷积操作并通过线性修正单元ReLU进行激活运算，输出残差部分。

如图3所示，本实施例中残差网络ResNet50包括1个7x7x64的输入卷积和16个残差块(包括卷积残差块Conv Block和不改变维度的残差块ID Block，图中Batch Norm表示批正则化操作，Max Pool表示最大池化操作，Avg Pool表示平均池化操作)，其中每一残差块包含3层卷积层，最后有一层用于分类输出的全卷积层FC。本实施例中卷积时采用空洞卷积的方法进行优化，一般卷积与空洞卷积原理图具体如图4所示。设定卷积核扩张率为3，最终输出5个不同阶段的特征图C₁、C₂、C₃、C₄、C₅。

本实施例中步骤A2的具体过程如下：

采用特征金字塔网络FPN进行多尺度处理，将经过主干神经网络卷积后得到的特征图C₃、C₄、C₅进行1×1卷积得到F₃、F₄、F₅，并将F₅、F₆再次进行步长为2的卷积得到F₆、F₇，输出5个阶段的特征图F₃、F₄、F₅、F₆、F₇。

本实施例中步骤A3的具体过程如下：

B1：令

这里需要说明的是，DIoU函数的原理图如图5所示，具体可见：

DIoU函数用于计算边界框回归损失函数。DIoU函数将重叠率以及尺度都考虑在内，使得目标框回归变得更加稳定，不易出现发散等问题，检测精度更高。计算过程如下所示：

式中，B表示预测框，B^gt表示真实检测框，b、b^gt分别表示预测框和真实框的中心点位置，ρ表示计算这两个中心点之间的欧式距离，l表示同时包含了预测检测框和真实检测框的最小闭包区域的对角线距离。如图3所示d表示这两个中心点之间的欧式距离，d＝ρ²(b,b^gt)。

中心度centerness的定义如下：

输出的目标损失函数L({q_x,y},{s_x,y})所示如下：

式中，q_x,y表示位置(x,y)预测得出的分类标签，

本实施例中步骤A4的具体过程如下：

进行最大池化和平均池化之后得到的特征f_max,

表示进行连接聚合，σ表示sigmoid函数；

空间注意力引导特征图X_sag的公式如上所示，其中，

表示对元素进行对应乘积计算，主要目的是通过空间注意力引导特征去加强原始输入特征。

C3：计算道路抛洒物检测与识别模型的损失函数：

L＝L_cls+L_center+L_reg+L_mask (24)

本实施例中步骤S2的具体过程如下：

D1：采集某时段内包含道路抛洒事件的道路交通监控视频，并保存；

本实施例中步骤S4的具体过程如下：

本实施例中利用上述方法对单张图像中全部抛洒物目标进行识别和分割，如图6所示，具体的用时为0.26s，可见本发明方法具备极好的检测和识别速度。

本实施例中为了验证本发明方法的实际效果，对本发明方法进行了实际场景的应用，对道路抛洒物识别和分割效果具体如图7所示，图7分为a、b、c和d四张效果图，对应的抛洒物分别为渣土、废旧纸箱、废旧抛洒布和石块，可见，图a、b、c和d能够清楚、高效的识别和分割出道路上的渣土、废旧纸箱、废旧抛洒布和石块，验证了本发明方法的实际效果。

Claims

1.一种基于优化交并比函数的道路抛洒物检测与识别方法，其特征在于：包括如下步骤：

S2：采集道路交通监控视频并进行分帧处理生成道路抛洒物数据集，对道路抛洒物数据集中的图像按比例划分存储为测试集图像和训练集图像，对训练集图像进行标注，生成标签文件；

2.根据权利要求1所述的一种基于优化交并比函数的道路抛洒物检测与识别方法，其特征在于：所述步骤S1中基于优化交并比函数的道路抛洒物检测与识别模型的搭建方法包括如下步骤：

A2：构建多尺度处理模块，使用特征金字塔网络FPN进行多尺度处理；

3.根据权利要求2所述的一种基于优化交并比函数的道路抛洒物检测与识别方法，其特征在于：所述步骤A3中基于优化交并比函数的目标检测与识别算法，由分类、边界框预测和中心度centerness三个分支构成。

4.根据权利要求1所述的一种基于优化交并比函数的道路抛洒物检测与识别方法，其特征在于：所述步骤A1具体为：主干神经网络使用残差网络ResNet50，残差卷积网络通过引入残差块，残差块的输入数据通过跳跃连接shortcut connection进行直接映射，同时将输入数据进行卷积操作并通过线性修正单元ReLU进行激活运算，输出残差部分，ResNet50包括1个7x7x64的输入卷积和16个残差块，最后有一层用于分类输出的全卷积层，其中每一残差块包含3层卷积层，卷积时采用空洞卷积的方法进行优化，设定卷积核扩张率为3，最终输出5个不同阶段的特征图C₁、C₂、C₃、C₄、C₅。

5.根据权利要求4所述的一种基于优化交并比函数的道路抛洒物检测与识别方法，其特征在于：所述步骤A2具体为：采用特征金字塔网络FPN进行多尺度处理，将经过主干神经网络卷积后得到的特征图C₃、C₄、C₅进行1×1卷积得到F₃、F₄、F₅，并将F₅、F₆再次进行步长为2的卷积得到F₆、F₇，输出5个阶段的特征图F₃、F₄、F₅、F₆、F₇。

6.根据权利要求3所述的一种基于优化交并比函数的道路抛洒物检测与识别方法，其特征在于：所述步骤A3具体包括如下步骤：

B1：令