CN113221943A

CN113221943A - 一种柴油车黑烟图像识别方法、系统及存储介质

Info

Publication number: CN113221943A
Application number: CN202110357519.5A
Authority: CN
Inventors: 康宇; 周汉胜; 曹洋; 许镇义; 夏秀山; 李兵兵
Original assignee: Anhui Ecological Environment Monitoring Center Anhui Heavy Pollution Weather Forecast And Early Warning Center; Institute of Advanced Technology University of Science and Technology of China
Current assignee: Anhui Ecological Environment Monitoring Center Anhui Heavy Pollution Weather Forecast And Early Warning Center; Institute of Advanced Technology University of Science and Technology of China
Priority date: 2021-04-01
Filing date: 2021-04-01
Publication date: 2021-08-06
Anticipated expiration: 2041-04-01
Also published as: CN113221943B

Abstract

本发明的一种柴油车黑烟图像识别方法、系统及存储介质，包括获取柴油车黑烟视频，输入事先训练好的黑烟图像识别模型中，进行测试得到动态的黑烟分割视频，并识别出黑烟团；黑烟图像识别模型训练步骤包括：样本构建：数据为红绿灯路口监控拍摄柴油车启动的视频，记录到排放出的黑色空气污染物，视频分为若干帧数；网络构建：通过在每k帧中，第c*k帧是当前待处理的帧，在[(c‑1)*k,c*k)帧中随机选取2帧来考虑与当前帧的上下文联系，即将系统结构分成前2帧关联信息信息提取模块即CEM和当前帧分割模块CFSM。本发明基于一种语义分割的深度学习方法，不仅可以检测出是否有黑烟，而且可以实时智能的描绘出排放黑烟的大小形状，有利于评估车辆的污染程度。

Description

一种柴油车黑烟图像识别方法、系统及存储介质

技术领域

本发明涉及柴油车尾气智能分割技术领域，具体涉及一种柴油车黑烟图像识别方法、系统及存储介质。

背景技术

柴油车所排放的黑烟废气中含有约两百种不同的化合物，是造成细颗粒物、光化学烟雾污染的主要原因之一。综合考虑柴油车行驶里程和排放系数，一辆无法达到国三排放标准或更低排放标准的柴油车的氮氧化物和细颗粒物排放量，相当于两百多辆国四排放标准小轿车排放量之和。针对城市道路机动车保有量迅速增加、尾气污染日益凸显、管控压力不断加大的现状，急需一种准确率高成本合适的尾气检测系统传统方法。

之前已开展的绝大多数黑烟检测研究工作都是针对森林火灾或者工厂烟囱排放烟雾的高空视角，其应用场景中的运动干扰物较少，背景相对固定，使之难以成为适用于各种场景的通用烟雾检测方法。而本发明所涉及的自然条件下的交通道口监控摄像机工作场景，其中存在光照变化频繁剧烈，路面颜色灰暗，水渍污渍遍布，道路旁杂物较多，车辆间存在相互遮挡，烟羽轮廓面积多变等问题。传统烟雾检测算法所使用的基于经验阈值和实验统计阈值的人工特征提取方法，如人工设计建模烟雾的颜色特征、频域特征、纹理特征等，难以胜任如此复杂场景下的检测任务。

目前机器学习算法的所有计算任务都只能部署在CPU上进行，实时性很差，难以根据具体的应用场景进行特定优化以及支持GPU并行计算加速。考虑深度学习方法可以在GPU上并行运算，并且可以得到更高的精度。

发明内容

本发明提出的一种柴油车黑烟图像识别方法、系统及存储介质，利用深度学习中非常成熟的语义分割技术，构建柴油车尾气智能分割系统，可解决上述技术问题。

为实现上述目的，本发明采用了以下技术方案：

一种柴油车黑烟图像识别方法，包括以下步骤，

获取柴油车黑烟视频，输入事先训练好的黑烟图像识别模型中，进行测试得到动态的黑烟分割视频，并识别出黑烟团；

所述黑烟图像识别模型训练步骤包括：

样本构建：数据为红绿灯路口监控拍摄柴油车启动的视频，记录到排放出的黑色空气污染物，视频分为若干帧数；

网络构建：通过在每k帧中，第c*k帧是当前待处理的帧，在 [(c-1)*k,c*k)帧中随机选取2帧来考虑与当前帧的上下文联系，即将系统结构分成了两大部分：前2帧关联信息信息提取模块即CEM和当前帧分割模块CFSM。

进一步的，网络构建具体包括改进的resnet18、U-Net、卷积块、 softmax层和深度监督结构；

将随机选取的三个相关帧输入到改进resnet18中去，在此基础上去掉了池化层、全连接层以及softmax层，将conv1、conv2_x、conv3_x、 conv4_x和conv5_x最后一层卷积层修改为3×3的空洞卷积，除此以外所有的卷积核大小均为3×3，同时通道数逐渐从64、128、256到 512；将其输出出入到并列的卷积通道中去，每个通道包含了一个1×1 和3×3的卷积块，卷积块的具体网络结构包括卷积核为1×1和3×3的卷积层，在每个卷积层后包括了BatchNormalization和relu激活函数层， relu函数公式如下：

f(x)＝max(x,0)

x为输入，f(x)为relu激活函数的输出；卷积完之后经过通道上相连接和转置后得到权重图；

间当前帧图片输入到U-Net中，U-Net特征提取器的结构有：编码器包括四个卷积块；每个卷积块都执行两个连续的卷积，内核大小为3，步长为2，每个卷积都进行了批量归一化，relu激活和最大池化；解码器包括四个转置的卷积块；每个转置的卷积块由最近邻居实现上采样，然后进行卷积，内核大小为3，批处理归一化，并激活relu，具有相同比例的编码器和解码器的特征图沿着通道维度连接在一起同时导出特征图，再对特征图进行上采样，使其大小相同，将5张特征图在通道上相连，复制成两份，一份传递给辅助分类器进行深度监督，另一份传递到1×1卷积块进行通道融合，得到两张特征图；

将关联信息信息提取模块点乘当前帧分割模块得到加权之后的结果，经过softmax层将选出最合适分割结果其中softmax层是将多个神经元的输出，映射到(0,1)区间内，看成概率来理解，从而来进行分类，公式如下：

S_i为第i类的概率，则发现所有类概率之和为1。

进一步的，所述所述黑烟图像识别模型的训练步骤如下：

数据准备；

数据预处理；

搭建网络；

训练和测试；

其中，数据准备包括选择若干n条数据中其中一条监控视频V为例，取排放黑烟时间t的片段，帧数f的视频；每隔k帧取一张图片进行语义分割实验，同时随机选择k帧内的其余2帧；

现有视频n条，视频分辨率为W×H，令m＝n×f×t×3/k，数据集表示为S＝m×W×H；

对应数据通过人工标注获得带有标签的数据，将目标标记为y＝1 背景标记为y＝0，所有的像素标签构成了标签集Y；

将数据按照8:1:1的比例划分为训练集、验证集和测试集。

进一步的，所述数据预处理通过对图像垂直或者水平翻转以及调节图像亮度的方式对数据进行增广，同时图像原RGB减去RGB的平均值，重新调整图像大小，随机从图像中截取一部分，即将图片转成 Tensor，归一化至[0,1]的方式进行数据预处理。

进一步的，所述搭建网络包括，

将抽取出来的3帧图片input_rf作为CEM的输入3×1×W×H，经过修改过的resnet18，分别通过conv1通道变为64，经过4次3×3通道数为64的卷积，最后一次卷积改为3×3的空洞卷积的conv2_x，往后依次经过conv3_x、conv4_x和conv5_x，除了通道数依次递增到128、 256,、512外，其他与conv2_x相同，得到3×512×H×W；

分别经过1×1卷积块融合各个通道上的值，输入到和3×3卷积块中再次进行特征提取，此时得到3张特征图3×1×W×H；经过 softmax和转置筛选出所需要的权重，结果为out_rf＝1×1×H×W，经过转置后与当前帧提取出的特征图相乘，通过权重的形式来表达前3帧对当前帧的影响；

将当前帧input_cf作为CFSM的输入，进入U-Net进行特征提取，将其平行位置特征图抽取出来，再对每个特征图进行上采样，让其大小对齐，并且5张图在通道上相连，得到1×5×W×H；将相连结果复制一份，一份输入给辅助分类器进行深度监督，另一份继续通过主干网络的1×1卷积块后将特征图进行融合为out_cf＝1×1×W×H，再与CEM的结果out_rf点乘，得到最后的分割图。

进一步的，所述搭建网络包括，搭建网络还包括：

考虑到存在辅助分类器，还包括损失函数，损失函数分为两大部分：

④主干网络的损失函数：

⑤辅助分类器的损失函数：

⑥总损失函数：loss_a＝μ₁loss_m+μ₂loss_s；

相关符号说明：W，H分别是是图片的宽和高，m为分割网络的张数，

表示为第k张图的(i,j)像素位置的标签，

和

分别是主干网络和辅助分类器的预测标签，μ₁和μ₂是两个损失函数的权重系数。

进一步的，所述训练和测试步骤包括，

将得到的数据进行预处理；

当训练卷积神经网络时，使用Adam算法，学习率设置为0.001；

采用mini-batch训练方式，batch-size设置为50；

学习策略设置为“step”，总的迭代次数设为500；

将训练集数据输入网络进行训练，当达到迭代次数后，完成训练；

输入一段视频，进行测试得到动态的黑烟分割视频，进而黑烟团的大小。

另一方面，一种柴油车黑烟图像识别系统，包括以下单元，

数据获取单元，用于获取柴油车黑烟视频；

黑烟识别单元，用于把获取到的数据进行处理后输入事先训练好的黑烟图像识别模型中，进行测试得到动态的黑烟分割视频，并识别出黑烟团；

黑烟图像识别模型单元，包括样本构建单元和网络构建单元；

样本构建单元：数据为红绿灯路口监控拍摄柴油车启动的视频，记录到排放出的黑色空气污染物，视频分为若干帧数；

网络构建单元：通过在每k帧中，第c*k帧是当前待处理的帧，在[(c-1)*k,c*k)帧中随机选取2帧来考虑与当前帧的上下文联系，即将系统结构分成了两大部分：前2帧关联信息信息提取模块即CEM和当前帧分割模块CFSM。

第三方面，本发明还公开一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如上述方法的步骤。

由上述技术方案可知，本发明的柴油车黑烟图像识别方法即柴油车黑烟检测技术，一般仅实现了尾气的检测和动态跟踪，本发明提出一种语义分割的深度学习方法，不仅可以检测出是否有黑烟，而且可以实时智能的描绘出排放黑烟的大小形状，有利于评估车辆的污染程度。

附图说明

图1为本发明的卷积模块示意图；

图2为U-Net的架构示意图；

图3为本发明的总体网络结构；

图4和图5是本发明应用的效果图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

如图1、图2及图3所示，本实施例所述的柴油车黑烟图像识别方法，包括以下内容：

1、样本构建：

数据为红绿灯路口监控拍摄柴油车启动的视频，可以记录到排放出的黑色空气污染物。视频可以分为若干帧数，假设现有n条路口监控视频，每个视频时长为t，视频的帧数为f，每k帧选取3张图片 (k≥3)，其中包括第c*k(c＝1,2,3…)帧，图片的分辨率为W×H构建数据集Set＝n×t×f×3/k×W×H，令m＝n×t×f×3/k则数据集为Set＝m×W×H。

2、基于语义分割的柴油车黑烟视频跟踪：

本系统通过在每k帧中，第c*k帧是当前待处理的帧，在 [(c-1)*k,c*k)帧中随机选取2帧来考虑与当前帧的上下文联系。这样将系统结构大致分成了两大部分：前2帧关联信息信息提取模块 (contextextractmodule)和当前帧分割模块(currentframesegmodule)，上述两模块后续以CEM和CFSM代替。

2.1网络结构各组成说明

本网络中主要结构包括改进的resnet18、U-Net、卷积块、softmax 层和深度监督等结构。

①将随机选取的三个相关帧输入到改进resnet18中去，其结构如表一所示，本发明在此基础上去掉了池化层、全连接层以及softmax 层，考虑到缺少池化层，感受野或减少，将conv1、conv2_x、conv3_x、conv4_x和conv5_x最后一层卷积层修改为3×3的空洞卷积，这样做的目的是在保持原有分辨率输出的同时还能够增大感受野，除此以外所有的卷积核大小均为3×3，同时通道数逐渐从64、128、256到512。将其输出出入到并列的卷积通道中去，每个通道包含了一个1×1和 3×3的卷积块，卷积块的具体网络结构主要包括卷积核为1×1和3×3 的卷积层，在每个卷积层后包括了BatchNormalization和relu激活函数层，如图1所示。relu函数公式如下：

f(x)＝max(x,0)

x为输入，f(x)为relu激活函数的输出。卷积完之后经过通道上相连接和转置后得到权重图。

表一为改进后resnet的基本结构

②CFSM，间当前帧图片输入到U-Net中，U-Net特征提取器的结构有：编码器包括四个卷积块。每个卷积块都执行两个连续的卷积，内核大小为3，步长为2，每个卷积都进行了批量归一化，relu激活和最大池化。解码器包括四个转置的卷积块。每个转置的卷积块由最近邻居实现上采样，然后进行卷积，内核大小为3，批处理归一化，并激活relu，如图2所示。具有相同比例的编码器和解码器的特征图沿着通道维度连接在一起同时导出特征图，再对特征图进行上采样，使其大小相同，将5张特征图在通道上相连，复制成两份，一份传递给辅助分类器进行深度监督，另一份传递到1×1卷积块进行通道融合，得到两张特征图。

③将CEM点乘CFSM得到加权之后的结果，经过softmax层将选出最合适分割结果其中softmax层是将多个神经元的输出，映射到(0,1) 区间内，可以看成概率来理解，从而来进行分类。公式如下：

S_i为第i类的概率，不难发现所有类概率之和为1。

以下具体说明：

1.数据准备

选择若干n条数据中其中一条监控视频V为例，取排放黑烟时间t 的片段，帧数f的视频。由于相近或者相邻帧之间的图像区别很小，本发明可以每隔k帧取一张图片进行语义分割实验，同时随机选择k帧内的其余2帧。现有视频n条，视频分辨率为W×H，可以令m＝n×f×t×3/k，数据集可以表示为S＝m×W×H。对应数据通过人工标注获得带有标签的数据，一般将目标标记为y＝1背景标记为 y＝0，所有的像素标签构成了标签集Y。将数据按照8:1:1的比例划分为训练集、验证集和测试集。

2.数据预处理：

可以通过对图像垂直或者水平翻转以及调节图像亮度的方式对数据进行增广，同时图像原RGB减去RGB的平均值，重新调整图像大小，随机从图像中截取一部分，即将图片转成Tensor，归一化至[0,1]的方式进行数据预处理。

3，搭建网络

本发明中使用的模型框架如图3所示，将抽取出来的3帧图片 input_rf作为CEM的输入3×1×W×H，经过修改过的resnet18，分别通过conv1通道变为64，经过4次3×3通道数为64的卷积，最后一次卷积改为3×3的空洞卷积的conv2_x，往后依次经过conv3_x、 conv4_x和conv5_x，除了通道数依次递增到128、256,、512外，其他与conv2_x相同，得到3×512×H×W。分别经过1×1卷积块融合各个通道上的值，输入到和3×3卷积块中再次进行特征提取，此时得到3张特征图3×1×W×H。经过softmax和转置筛选出所需要的权重，结果为out_rf＝1×1×H×W，这里经过转置后可以与当前帧提取出的特征图相乘，通过权重的形式来表达前3帧对当前帧的影响。

将当前帧input_cf作为CFSM的输入，进入U-Net进行特征提取，将其平行位置特征图抽取出来，再对每个特征图进行上采样，让其大小对齐，并且5张图在通道上相连，得到1×5×W×H。此时本发明将相连结果复制一份，一份输入给辅助分类器进行深度监督，另一份继续通过主干网络的1×1卷积块后将特征图进行融合为out_cf＝1×1× W×H，再与CEM的结果out_rf点乘，得到最后的分割图。

考虑到存在辅助分类器，因此损失函数可以分为两大部分：

①主干网络的损失函数主要分为两部分：

②辅助分类器的损失函数：

③总损失函数：loss_a＝μ₁loss_m+μ₂loss_s

表示为第k张图的(i,j)像素位置的标签，

和

分别是主干网络和辅助分类器的预测标签。μ₁和μ₂是两个损失函数的权重系数。

4.训练和测试

将得到的数据然数据预处理节中提到的方式进行预处理。当训练卷积神经网络时，使用Adam算法，学习率设置为0.001。采用 mini-batch训练方式，batch-size设置为50。学习策略设置为“step”，总的迭代次数设为500。

将训练集数据输入网络进行训练，当达到迭代次数后，完成训练。

输入一段视频，进行测试会得到动态的黑烟分割视频，能够很好的衡量黑烟团的大小。

黑烟车检测中，一般利用检测框标记出黑烟的大致位置，语义分割是像素级别的分类任务，可以完全勾勒出排放出黑烟的大小和形状。其效果类似于图4和图5。

综上所述，本发明不仅可以检测出是否有黑烟，而且可以实时智能的描绘出排放黑烟的大小形状，有利于评估车辆的污染程度。

另一方面，一种柴油车黑烟图像识别系统，包括以下单元，

数据获取单元，用于获取柴油车黑烟视频；

可理解的是，本发明实施例提供的系统与本发明实施例提供的方法相对应，相关内容的解释、举例和有益效果可以参考上述方法中的相应部分。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和 /或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图1个流程或多个流程和/或方框图1个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图1个流程或多个流程和/或方框图1个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图1个流程或多个流程和/或方框图1个方框或多个方框中指定的功能的步骤。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种柴油车黑烟图像识别方法，其特征在于：包括以下步骤，

所述黑烟图像识别模型训练步骤包括：

网络构建：通过在每k帧中，第c*k帧是当前待处理的帧，在[(c-1)*k,c*k)帧中随机选取2帧来考虑与当前帧的上下文联系，即将系统结构分成了两大部分：前2帧关联信息信息提取模块即CEM和当前帧分割模块CFSM。

2.根据权利要求1所述的柴油车黑烟图像识别方法，其特征在于：网络构建具体包括改进的resnet18、U-Net、卷积块、softmax层和深度监督结构；

将随机选取的三个相关帧输入到改进resnet18中去，在此基础上去掉了池化层、全连接层以及softmax层，将conv1、conv2_x、conv3_x、conv4_x和conv5_x最后一层卷积层修改为3×3的空洞卷积，除此以外所有的卷积核大小均为3×3，同时通道数逐渐从64、128、256到512；将其输出出入到并列的卷积通道中去，每个通道包含了一个1×1和3×3的卷积块，卷积块的具体网络结构包括卷积核为1×1和3×3的卷积层，在每个卷积层后包括了BatchNormalization和relu激活函数层，relu函数公式如下：

f(x)＝max(x,0)

S_i为第i类的概率，则发现所有类概率之和为1。

3.根据权利要求2所述的柴油车黑烟图像识别方法，其特征在于：所述所述黑烟图像识别模型的训练步骤如下：

数据准备；

数据预处理；

搭建网络；

训练和测试；

对应数据通过人工标注获得带有标签的数据，将目标标记为y＝1背景标记为y＝0，所有的像素标签构成了标签集Y；

将数据按照8:1:1的比例划分为训练集、验证集和测试集。

4.根据权利要求3所述的柴油车黑烟图像识别方法，其特征在于：所述数据预处理通过对图像垂直或者水平翻转以及调节图像亮度的方式对数据进行增广，同时图像原RGB减去RGB的平均值，重新调整图像大小，随机从图像中截取一部分，即将图片转成Tensor，归一化至[0,1]的方式进行数据预处理。

5.根据权利要求4所述的柴油车黑烟图像识别方法，其特征在于：所述搭建网络包括，

将抽取出来的3帧图片input_rf作为CEM的输入3×1×W×H，经过修改过的resnet18，分别通过conv1通道变为64，经过4次3×3通道数为64的卷积，最后一次卷积改为3×3的空洞卷积的conv2_x，往后依次经过conv3_x、conv4_x和conv5_x，除了通道数依次递增到128、256,、512外，其他与conv2_x相同，得到3×512×H×W；

分别经过1×1卷积块融合各个通道上的值，输入到和3×3卷积块中再次进行特征提取，此时得到3张特征图3×1×W×H；经过softmax和转置筛选出所需要的权重，结果为out_rf＝1×1×H×W，经过转置后与当前帧提取出的特征图相乘，通过权重的形式来表达前3帧对当前帧的影响；

6.根据权利要求5所述的柴油车黑烟图像识别方法，其特征在于：所述搭建网络包括，搭建网络还包括：

①主干网络的损失函数：