CN112749654A

CN112749654A - 一种用于视频大雾监测的深度神经网络模型构建方法、系统及装置

Info

Publication number: CN112749654A
Application number: CN202011637801.0A
Authority: CN
Inventors: 彭路; 张兴海; 柳俊凯
Original assignee: Nanjing Enruite Industrial Co Ltd
Current assignee: Nanjing Enruite Industrial Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-05-04

Abstract

本发明提供了一种深度神经网络模型构建方法、系统及装置，方法包括如下步骤：构建视频大雾识别数据集，所述视频大雾识别数据集包括大雾视频数据和无大雾视频数据；提取所述视频数据的单帧图像形成样本集，并将其划分为训练集和测试集；构建深度神经网络模型；利用训练集训练深度神经网络模型，优化模型参数；利用测试集测试经过训练的深度神经网络模型。本发明能够提取出单帧图像的静态特征，结构简单，识别准确率高，并可以实现监控视频下的实时烟大雾监测识别，满足非气象用户对大雾识别业务需求。在各能见度等级下的白天黑夜大雾识别中，白天识别率平均在85.4%以上，而晚上的平均识别率为69.7%，该结果基本能满足摄像头辅助监测大雾等级需要。

Description

一种用于视频大雾监测的深度神经网络模型构建方法、系统及装置

技术领域

本发明属于气象监测技术领域，具体涉及一种用于视频大雾监测的深度神经网络模型构建方法、系统及装置。

背景技术

大雾天气是影响高速公路安全的重要灾害性天气，提高大雾天气的监测技术水平是确保交通安全的重要措施。近些年来，通过在高速公路沿线布设能见度自动站来监测大雾，这一做法在保障交通安全方面发挥了重要作用。然而能见度自动站一般间距较远，在10km以上，对小范围的局地大雾和团雾无法提供监测预警服务，这些小范围的团雾往往容易导致驾驶员疏忽或躲避不及，造成严重的交通事故。

随着监控水平和信息化的发展，交通管理部门在高速公路沿线(如高速公路的收费站、服务区、主干线)布设了密度更高的视频监控设备。交管部门在对大雾能见度等级进行判定时，主要还是通过人工巡查的方式查看道路天气状况，该方式费时费力且频次低，难以及时发现恶劣的天气情况。

视频监控设备(摄像头)具有安装简便灵活的特点，可用于大雾的长时间连续观测，能够快速积累大量大雾的图像数据。当大雾天气发生时，视频图像受到低能见度的影响会发生模糊和退化，具有明显的图像特征。

随着基于人工智能的图像识别技术的快速发展，深度神经网络能够自动提取图像的有效特征，能够较好地解决通用图像分类问题。因此，通过建立深度神经网络，从视频图像中提取有效的视觉特征，并通过积累的历史数据训练特征与大雾的关系模型，可实现大雾天气的智能识别与判断。

近几年，深度学习技术在图像识别领域取得了突破性进展，在视频大雾等级识别中，利用深度学习技术对海量的视频图像进行特征训练，建立能见度等级估测模型，将极大地弥补能见度站点布设成本高、距离稀疏的问题，对进一步提高团雾的监测能力、为气象和交通管理部门监测大雾提供了低成本、高效率的辅助手段。

发明内容

本发明所要解决的技术问题是：提供一种用于视频大雾监测的深度神经网络模型构建方法、系统及装置，能够弥补能见度站点布设成本高、距离稀疏的问题，对进一步提高团雾的监测能力、为气象和交通管理部门监测大雾提供了低成本、高效率的辅助手段。

本发明是这样实现的：一种用于视频大雾监测的深度神经网络模型构建方法，包括如下步骤：

构建视频大雾识别数据集，所述视频大雾识别数据集包括大雾视频数据和无大雾视频数据；

提取所述视频数据的单帧图像形成样本集，并将其划分为训练集和测试集；

构建深度神经网络模型；

利用训练集训练深度神经网络模型，优化模型参数；

利用测试集测试经过训练的深度神经网络模型。

进一步地，所述提取所述视频数据的单帧图像形成样本集的过程具体如下：

按照一定频率提取单帧图像，

对所述单帧图像进行信息标注，所述信息包括能见度数值、时间、地点；

选取所有单帧图像中标注有能见度值的单帧图像形成样本集。

进一步地，还包括如下步骤：

对所述样本集进行预处理，并将处理结果作为训练所述深度神经网络模型的输入。

进一步地，所述对所述样本集进行预处理，并将处理结果作为训练所述深度神经网络模型的输入的过程具体如下：

将所述样本集进行归一化处理；

将归一化后的样本集进行HSV直方图转换处理；

将换转后的样本集进行筛选处理；

将筛选后的样本集分为白天样本集和夜晚样本集；

根据能见度数值、时间和白天样本集和夜晚样本集各自的大雾能见度等级将样本集归类成白天大雾能见度等级样本集和夜晚大雾能见度等级样本集；

根据随机抽取的方式，将所述白天大雾能见度等级样本集和夜晚大雾能见度等级样本集划分成训练集和测试集。

进一步地，所述深度神经网络模型包括八个卷积层、三个全链接层和一个SVM层；所述卷积层将输入图像依次处理成特征图，所述全链接层依次将所述特征图降维处理成特征向量，所述SVM层将所述特征向量转换为当前帧的最佳分类准确率。

进一步地，所述深度神经网络模型包括：

卷积层1，用于采用32个3×3×3的核去卷积224×224×3大小的图像输入，得到224×224×32大小的特征图，再经过2×2的最大值池化和ReLU函数，得到112×112×32大小的特征图；

卷积层2，用于采用64个3×3×32的核去卷积所述112×112×32大小的特征图，得到112×112×64大小的特征图，再经过2×2的最大值池化和ReLU函数，得到51×51×64大小的特征图；

卷积层3，用于采用128个3×3×64的核去卷积51×51×64大小的特征图，得到51×51×128大小的特征图；

卷积层4，用于采用128个3×3×128的核去卷积51×51×128大小的特征图，得到新的51×51×128大小的特征图，再经过2×2的最大值池化和ReLU函数，得到25×25×128大小的特征图；

卷积层5，用于采用256个3×3×128的核去卷积25×25×128大小的特征图，得到25×25×256大小的特征图；

卷积层6，用于采用256个3×3×256的核去卷积25×25×256大小的特征图，得到新的25×25×256大小的特征图，再经过2×2的最大值池化和ReLU函数，得到12×12×256大小的特征图；

卷积层7，用于采用256个3×3×256的核去卷积12×12×256大小的特征图，得到新的12×12×256大小的特征图；

卷积层8，用于采用256个3×3×256的核去卷积12×12×256大小的特征图，得到新的12×12×256大小的特征图，再经过2×2的最大值池化和ReLU函数，得到6×6×256大小的特征图；

全连接层9，含有4096个神经元，用于与6×6×256的特征图全连接，得到4096维特征向量；

全连接层10，含有2048个神经元，用于与全连接层9的4096个神经元全连接，得到2048维特征向量；

全连接层11，含有1024个神经元，用于与全连接层10的2048个神经元全连接，得到1024维特征向量；

SVM层12，用于根据1024维特征向量，采用线性核函数计算当前帧最高分类准确率的能见度等级。

进一步地，所述利用训练集训练深度神经网络模型，优化模型参数的过程具体如下：

使用图像分类的通用数据集对卷积层和全连接层进行预训练，预训练结束后记录每个层的参数；

使用训练集对预训练网络进行微调，采用增强学习的策略学习训练集，优化模型参数。

进一步地，所述使用图像分类的通用数据集对卷积层和全连接层进行预训练，预训练结束后记录每个层的参数的的过程具体如下：

提取单帧图像的特征信息，并将输入图像映射成一定规格的特征图；

根据损失函数计算一个样本的损失值，然后按照一定的学习率梯度的反方向更新参数，直至逐渐遍历所有的样本。

本发明还提供了一种用于视频大雾监测的深度神经网络模型构建系统，包括：

构建数据集模块，用于构建视频大雾识别数据集，所述视频大雾识别数据集包括大雾视频数据和无大雾视频数据；

提取模块，用于提取所述视频数据的单帧图像形成样本集，并将其划分为训练集和测试集；

构建模型模块，用于构建深度神经网络模型；

训练模块，用于利用训练集训练深度神经网络模型，优化模型参数；

测试模块，用于利用测试集测试经过训练的深度神经网络模型。

本发明还提供了一种用于视频大雾监测的深度神经网络模型构建装置，包括处理器和存储器；所述存储器存储有计算机程序，所述处理器执行计算机程序时实现上述方法的步骤。

本发明带来的有益效果是：

(1)本发明构建的深度神经网络模型能够提取出单帧图像的静态特征，结构简单，识别准确率高，并可以实现监控视频下的实时烟大雾监测识别，满足非气象用户对大雾识别业务需求。在各能见度等级下的白天黑夜大雾识别中，白天识别率平均在85.4％以上，而晚上的平均识别率为69.7％，该结果基本能满足摄像头辅助监测大雾等级需要。

(2)本发明深度神经网络模型最后采用SVM替换soft-max层作为分类器，进一步提高了大雾等级分类准确率，对通过卷积神经网络提取出的单帧图像的静态特征进行准确分类；同时，支持向量机(SVM)是基于结构风险最小化原则，从而避免了过学习问题，提高了泛化性能，实现了对测试视频的实时大雾识别。

附图说明

图1为本发明中构建方法的流程图；

图2为本发明中深度神经网络模型的框架示意图；

图3为本发明中大雾和非大雾视频的样例图；其中(a)、(b)为大雾图，(c)、(d)为非大雾图，(c)为降雨图，(d)为降雪图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

如图1所示，本实施例提供了一种用于视频大雾监测的深度神经网络模型构建方法，包括如下步骤：

S1、构建视频大雾识别数据集。自2019年1月1日到2019年4月30日，利用79个摄像头(71个来自气象站，8个来自雷达站)进行视频采集，如图3所示，所述视频大雾识别数据集包括大雾视频和无大雾视频，其中无大雾视频包括类似大雾的干扰视频。

S2、提取所述视频数据的单帧图像形成样本集。将搜集到的视频截取视频剪辑，每10min保存一帧图像，累计截取近67万张图像；然后对这些图像进行能见度数值、时间、地点信息的标注，其中有效标注能见度的图像约52万张，抽取标注有能见度值的20万张样本进行大雾识别结果分析。

S3、对样本集进行归一化处理。将S2中样本图像归一化为224×224×3格式的图像。图像归一化是通过一系列变换，将待处理的原始图像转换成相应的唯一标准形式。利用PIL(python imaging library，图像处理标准库)对采集的大雾图像格式进行归一化，将之前BMP和JPG格式的图像统一转化为JPG格式，在实验中将特征块图像归一化为224dpi×224dpi像素的3通道图像。

S4、将归一化后的样本集进行HSV直方图转换处理。提取S3中的彩色图像中的色度信息，结合HSV色彩空间3个分量的无关性，基于HSV空间彩色图像处理算法，将图像的颜色值从RGB(red，green，blue)空间转换到HSV空间，合理结合边缘提取、区域生长和区域合并的方法，实现彩色图像的处理。HSV直方图最大的特点就是色系比较明显，对整个图像渲染功能很强，可以辅助系统去除周边环境干扰。充分利用HSV模型和RGB模型间的转换，可实现图像处理功能。

S5、将换转后的样本集进行筛选处理。筛选标准结合主观评价和客观评价。其中，主观评价指被测图像相对于标准图像在人眼视觉系统中产生误差的程度。客观评价细分为9个评测维度：曝光、清晰度、颜色、质感、噪音、防手抖、闪光灯、对焦和伪像。筛选的结果是将样本库划分为训练样本库及弱质量样本库，目的是剔除弱质量样本。由于摄像头所处环境多样化，加上夜间光照不足，视频图像容易出现失真、模糊、黑屏和曝光不足等问题，提出了弱质量图像的概念，并通过多层次分析模型进行筛选过滤。

S6、将筛选后的样本集分为白天样本集和夜晚样本集。由于白天和夜晚图像差别较大，为了提升识别性能，根据图片的真实情况构建了白天和夜晚两个数据集。

S7、根据能见度数值、时间和白天样本集和夜晚样本集各自的大雾能见度等级将样本集归类成白天大雾能见度等级样本集和夜晚大雾能见度等级样本集。白天大雾能见度等级分为4个级别，即0～200m、200～500m、500～1000m和1000m以上，分别对应1～4级，而夜晚大雾能见度等级则分为3个级别，即500m以下、500～1000m和1000m以上，分别对应1～3级，并根据能见度仪的数值和时间，将采集相关的图像数据归类成白天大雾能见度等级样本和夜晚大雾能见度等级样本，形成样本均衡的数据集，然后按照6:2:2的比例来随机抽取样本，将样本分成训练集、验证集和测试集，以用于模型的训练和评估。训练集(train set)用于模型拟合的数据样本。在训练过程中对训练误差进行梯度下降，进行学习，可训练的权重参数。验证集(validation set)是模型训练过程中单独留出的样本集，它可以用于调整模型的超参数和用于对模型的能力进行初步评估。测试集(test set)用来评估模最终模型的泛化能力。但不能作为调参、选择特征等算法相关的选择的依据。

验证集可以用在训练的过程中，一般在训练时，几个epoch结束后输入一次验证集验证训练效果。(验证得太频繁会影响训练速度)这样做的第一个好处是，可以及时发现模型或者参数的问题，比如模型在验证集上是否发散、出现很奇怪的结果(如无穷大)、mAP(mean Average Precision)不增长或者增长很慢等等情况，这时可以及时终止训练，重新调参或者调整模型，而不需要等到训练结束。另外一个好处是验证模型的泛化能力，如果在验证集上的效果比训练集上差很多，就该考虑模型是否过拟合了。同时，还可以通过验证集对比不同的模型。在一般的神经网络中，用验证数据集去寻找最优的网络深度(number ofhidden layers)，或者决定反向传播算法的停止点或者在神经网络中选择隐藏层神经元的数量。20万张样本中，12万张样本为模型训练集数据，4万张样本为模型验证集数据，其余样本为模型测试集数据。若训练集中包含N个训练样本，则可记为X＝{x₁,x₁,…,x_N}，而对于训练集中的第n个样本可以表示为x_n，对应的尺寸为224×224×3，y_n表示第n个训练图像的真实值标签，即能见度等级。

S8、将训练集输入已构建的深度神经网络模型进行训练，并根据随机梯度下降法进行迭代以优化网络参数。该步骤具体包括如下子步骤：

S81、使用图像分类的通用数据集ImageNet对深度神经网络模型的卷积层和全连接层进行预训练，预训练的初始学习率为η₁，冲量项为m₁，迭代样本数为N₁，预训练结束后记录模型的参数。参数包括核大小、神经网络层数、激活函数、损失函数、所用的优化器(梯度下降、RMSprop)、批大小、训练的epoch数量。

S82、使用视频大雾识别数据集对预训练网络进行微调，进行微调时设置初始学习率为η₂,冲量项为m₂，每次迭代送入样本数为N₂，采用增强学习的策略学习训练样本，卷积层用于图像的特征提取，全连接层和SVM学习单帧图像的静态特征并实现输入的多分类，具体包括：

卷积层自动提取单帧图像的特征信息，并将224×224×3的输入映射成6×6×256的特征图，表达式为：F_n＝conv(x_n,θ_conv)。

其中，x_n为输出的第n幅图像，F_n为卷积层提取的特征，θ_conv为卷积层参数，涉及每个卷积层所用到的卷积核。

对整个深度神经网络模型监督学习，监督学习的损失函数表达式为：

其中，J(θ)是损失函数，n为样本x的维度，m代表每次进行训练取的样本数，h_θ就是要预测的目标值。如果采用随机梯度下降法进行训练，那每次随机取一组样本，m＝1；如果是批处理，则m等于每次抽取作为训练样本的数量。θ是权重参数，对应θ₀,θ₁,θ₂,…,θ_n也均为权重参数。h_θ的表达式如下：

目标是让损失函数J(θ)的值最小，根据梯度下降法，首先要用J(θ)对θ求偏导：

因为要最小化损失函数，所以参数θ按其负梯度方向来更新，表达式为：

每一次迭代只计算一个样本的损失值，按照一定的学习率沿梯度的反方向更新参数，然后再逐渐遍历所有的样本，完成一轮的计算。这样能够使计算量大大减少，计算速度也可以得到极大的提升。

该步骤中用到的深度神经网络模型结构改进了VGG16神经网络，以尺寸为224×224×3的图像作为输入，共使用11层神经网络层，其中包括8个卷积层和3个全链接层，使用ReLU(rectified linear unit，线性整流函数)作为激活函数，模型最后将soft-max层置换为SVM作为分类器，进一步提高了大雾等级分类准确率；卷积层将输入为224×224×3的单帧图像投影成6×6×256的特征图，该特征图与全连接层和SVM连接；全连接层可将特征图降维至2048维特征向量并通过SVM分类器输出当前帧的最佳分类准确率。如图2所示，该模型的神经网络层具体包括：

卷积层1，用于采用32个3×3×3的核去卷积224×224×3大小的图像输入，得到224×224×32大小的特征图，再经过2×2的最大值池化和ReLU函数，得到112×112×32大小的特征图。

卷积层2，用于采用64个3×3×32的核去卷积所述112×112×32大小的特征图，得到112×112×64大小的特征图，再经过2×2的最大值池化和ReLU函数，得到51×51×64大小的特征图。

卷积层3，用于采用128个3×3×64的核去卷积51×51×64大小的特征图，得到51×51×128大小的特征图。

卷积层4，用于采用128个3×3×128的核去卷积51×51×128大小的特征图，得到新的51×51×128大小的特征图，再经过2×2的最大值池化和ReLU函数，得到25×25×128大小的特征图。

卷积层5，用于采用256个3×3×128的核去卷积25×25×128大小的特征图，得到25×25×256大小的特征图。

卷积层6，用于采用256个3×3×256的核去卷积25×25×256大小的特征图，得到新的25×25×256大小的特征图，再经过2×2的最大值池化和ReLU函数，得到12×12×256大小的特征图。

卷积层7，用于采用256个3×3×256的核去卷积12×12×256大小的特征图，得到新的12×12×256大小的特征图。

卷积层8，用于采用256个3×3×256的核去卷积12×12×256大小的特征图，得到新的12×12×256大小的特征图，再经过2×2的最大值池化和ReLU函数，得到6×6×256大小的特征图。

全连接层9，含有4096个神经元，用于与6×6×256的特征图全连接，得到4096维特征向量。

全连接层10，含有2048个神经元，用于与全连接层9的4096个神经元全连接，得到2048维特征向量。

全连接层11，含有1024个神经元，用于与全连接层10的2048个神经元全连接，得到1024维特征向量。

需要说明的是，卷积层输出的三维图，需要进行扁平化处理，从而得到一维向量(x₁,x₂,x₃,…,x_n)n＝6×6×256，然后送入全连接层9的4096个神经元，每个神经元通过表达式y＝w₁x₁+w₂x₂+…+w_nx_n+b输出特征向量，其中w_i i∈[1,n]为权重参数，b为偏置，4096个神经元每个神经元都输出一个y，得到4096维的特征向量。同理，全连接层10和全连接层11也进行如此操作，从而最终得到1024维特征向量。

S9、测试深度神经网络模型。利用测试样本集对经过训练的深度神经网络模型进行测试，保存该模型的卷积层、全连接层和SVM分类器及其对应参数，将测试样本图像的当前帧归一化并转换成224×224的3通道图像送入到测试网络中，通过网络的前向传播得出当前帧的能见度等级。

S10、将采集到的图像输入经过测试的深度神经网络模型，得到当前帧的能见度等级结果。见下表：

通过计算大雾能见度等级识别的TP、FN、FP、TN的值，计算出模型识别的精准率Precision＝TP/(TP+FP)为99.91％，召回率Recall＝TP/(TP+FN)为77.93％，整体识别的准确率Acc＝(TP+TN)/(TP+FN+FP+TN)为78.02％。

对71个气象站和8个雷达站摄像头，分别使用大雾识别模型进行检测分析，平均识别率在78.02％以上，其中有26个站点识别率在90％以上，有39个站点识别率在80％以上。

依据日出日落时刻表将数据集划分为白天(时间范围在6时～17时)和黑夜(时间范围在17时～6时)后，白天大雾识别准确率较高，都在平均识别率(78.02％)以上，其他时段由于受光照强度的影响，识别率较低。大雾监测系统对于白天环境下的平均准确率为85.4％，对于黑夜环境，由于受关照强度等因素的影响，平均准确识别率为75.2％。

构件数据集模块，用于构建视频大雾识别数据集，所述视频大雾识别数据集包括大雾视频数据和无大雾视频数据；

提取模块，用于提取所述视频数据的单帧图像形成样本集；

归一化模块，用于对样本集进行归一化处理；

转换模块，用于将归一化后的样本集进行HSV直方图转换处理；

筛选模块，用于将换转后的样本集进行筛选处理；

划分模块，用于将筛选后的样本集分为白天样本集和夜晚样本集；

归类模块，用于根据能见度数值、时间和白天样本集和夜晚样本集各自的大雾能见度等级将样本集归类成白天大雾能见度等级样本集和夜晚大雾能见度等级样本集；

模型构建模块，用于构建深度神经网络模块；

训练模块，用于将训练集输入已构建的深度神经网络模型进行训练，并根据随机梯度下降法进行迭代以优化网络参数；

测试模块，用于测试深度神经网络模型；

监测模块，用于将采集到的图像输入经过测试的深度神经网络模型，得到当前帧的能见度等级结果。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种用于视频大雾监测的深度神经网络模型构建方法，其特征在于，包括如下步骤：

构建深度神经网络模型；

利用训练集训练深度神经网络模型，优化模型参数；

利用测试集测试经过训练的深度神经网络模型。

2.根据权利要求1所述的一种用于视频大雾监测的深度神经网络模型构建方法，其特征在于，所述提取所述视频数据的单帧图像形成样本集的过程具体如下：

按照一定频率提取单帧图像，

3.根据权利要求1所述的一种用于视频大雾监测的深度神经网络模型构建方法，其特征在于，还包括如下步骤：

4.根据权利要求3所述的一种用于视频大雾监测的深度神经网络模型构建方法，其特征在于，所述对所述样本集进行预处理，并将处理结果作为训练所述深度神经网络模型的输入的过程具体如下：

将所述样本集进行归一化处理；

将归一化后的样本集进行HSV直方图转换处理；

将换转后的样本集进行筛选处理；

将筛选后的样本集分为白天样本集和夜晚样本集；

5.根据权利要求1所述的一种用于视频大雾监测的深度神经网络模型构建方法，其特征在于，所述深度神经网络模型包括八个卷积层、三个全链接层和一个SVM层；所述卷积层将输入图像依次处理成特征图，所述全链接层依次将所述特征图降维处理成特征向量，所述SVM层将所述特征向量转换为当前帧的最佳分类准确率。

6.根据权利要求5所述的一种用于视频大雾监测的深度神经网络模型构建方法，其特征在于，所述深度神经网络模型包括：

7.根据权利要求5或6所述的一种用于视频大雾监测的深度神经网络模型构建方法，其特征在于，所述利用训练集训练深度神经网络模型，优化模型参数的过程具体如下：

8.根据权利要求7所述的一种用于视频大雾监测的深度神经网络模型构建方法，其特征在于，所述使用图像分类的通用数据集对卷积层和全连接层进行预训练，预训练结束后记录每个层的参数的的过程具体如下：

9.一种用于视频大雾监测的深度神经网络模型构建系统，其特征在于，包括：

构建模型模块，用于构建深度神经网络模型；

10.一种用于视频大雾监测的深度神经网络模型构建装置，其特征在于，包括处理器和存储器；所述存储器存储有计算机程序，所述处理器执行计算机程序时实现如权利要求1所述方法的步骤。