CN112395964A

CN112395964A - 一种基于深度学习的能见度估计方法

Info

Publication number: CN112395964A
Application number: CN202011229245.3A
Authority: CN
Inventors: 张晓峰; 王梅; 陈哲; 欧垚君; 丁红; 叶竹文; 魏浩坤; 皇甫嘉琪; 许健
Original assignee: Nantong University
Current assignee: Nantong University
Priority date: 2020-11-06
Filing date: 2020-11-06
Publication date: 2021-02-23

Abstract

本发明提供了一种基于深度学习的能见度估计方法，包括以下步骤：步骤一：选用3D ResNet18卷积神经网络；步骤二：选用多层感知器进行融合；步骤三：将上述3D ResNet18卷积神经网络和多层感知器(MLP)模型进行融合和步骤四：在测试集上进行了模型的精度评估。本发明的有益效果为：本发明主要是将3D ResNet18卷积神经网络与多层感知器(MLP)结合起来进行基于深度学习的能见度估计，对视频数据进行特征向量提取，对提取的特征向量进行分类，实现分类估计，相比于传统方法中只选取少量视频、截取图像中的某些固有特征的局限性，它充分利用视频的连续信息，并添加多层感知器进行分类估计，提高了估计精度。

Description

一种基于深度学习的能见度估计方法

技术领域

本发明涉及计算机图像处理，结合多层感知器(MLP)与3D卷积神经网络技术领域，尤其涉及一种基于深度学习的能见度估计方法。

背景技术

视频能见度检测方法是将大气光学分析与图像处理及人工智能技术结合，通过对视频图像的分析处理，建立视频图像与真实场景之间的关系，再根据图像特征的变化，间接计算出能见度数值。但现有的基于视频图像的能见度检测方法，由于是间接计算，很难准确地估算能见度。特别地，这些方法中大多数只选取少量视频、截取图像中的某些固有特征，基于Koschmieder定律进行估计，并没有充分利用视频的连续信息，所以估计的精度不高，有较大的改进空间。

深度学习是一类模式分析方法的统称，是用于建立、模拟人脑进行分析学习的神经网络并模仿人脑机制来解释数据的一种机器学习技术。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征向量。

卷积神经网络是一种常用于处理图像数据的深度学习模型，ResNet是其中一种，按卷积层数，ResNet卷积神经网络常分为5种形式：ResNet18、ResNet34、ResNet50、ResNet101、 ResNet152，其中，数字代表该网络的卷积层数。一般来说，卷积层数越多，模型的精度会相应提高，但由于计算量提高，模型推理速度一般会有所下降。

传统的2D ResNet18卷积神经网络只能提取少量视频、截取单帧图像中的某些固有特征，无法对长时间视频中包含的连续信息进行建模。因此，为充分利用视频的连续信息，提高估计精度。

另外，单个感知器对图像分类效果不是特别显著，并且它只能学习线性可分函数，无法解决非线性问题。另一方面，仅利用卷积神经网络或者多层感知器对数据的处理不够充分，得到的结果精度也不高。

发明内容

本发明的目的在于提供一种基于深度学习的能见度估计方法，该方法能够对长时间视频中包含的连续信息进行建模，充分利用视频的连续信息，改进估计精度，选用3DResNet18 卷积神经网络对视频数据进行特征向量提取，并添加多层感知器对提取的特征向量进行分类，实现分类估计。

本发明的思想为：本发明是选用3D ResNet18卷积神经网络3D卷积神经网络和普通的2D卷积神经网络的区别如图1所示，上半部分是2D卷积的过程，下半部分是3D卷积的过程，可以看出，2D卷积的卷积核是一个k*k的平面，而3D卷积的卷积核是d*k*k 的一个长方体，比2D卷积核增加了一个维度，通过增加的一个维度，3D卷积核不但能提取到图像的空间信息，还可以提取到视频中的连续信息，解决了单个感知器对图像分类效果不是特别显著，并且它只能学习线性可分函数，无法解决非线性问题，以及仅利用卷积神经网络或者多层感知器对数据的处理不够充分，得到的结果精度也不高的问题。

本发明是通过如下措施实现的：一种基于深度学习的能见度估计方法，包括以下步骤：

步骤一：为充分利用视频的连续信息，提高估计精度，我们选用3D ResNet18卷积神经网络；它由1个卷积层和4个基本块组成，具体结构如下表所示：

表1 3D ResNet18卷积神经网络

从表1中可以看出，每个基本块包含两组卷积，卷积核大小均为3×3×3，第一个块的卷积核数为64，即代表64个通道数，后面各块卷积核数依次翻倍，最后一个块的卷积核数达到512，模型最后是一个平均池化层，模型输入的图片尺寸为224×224，最后一层卷积层输出7×7的特征图；

步骤二：选用多层感知器进行融合，多层感知器是单个感知器的扩展，能解决单个感知器无法解决的非线性问题。多层感知器包含多个层级，除了输入输出层，它中间可以有多个隐层，具体结构如图2所示：如图2，左边为输入层，中间为隐层，右边为输出层，每一层由不同个数的神经元组成，输入层与隐层存在函数关系：

Z₁＝W₁x+b₁

A₁＝relu(Z₁)

其中，x为输入特征向量，W₁为输入层到隐层权重系数，b₁为偏置，所得Z₁为输入层线性组合，A₁为Z₁通过激活函数Relu的值，Relu函数定义如下：

relu:a＝max(0，Z)

同时，A₁也是隐层与输出层间函数关系的输入值；

同理，隐层与输出层间存在函数关系：

Z₂＝W₂A₁+b₂

A₂＝relu(Z₂)

Y＝A₂

W₂为隐层到输出层权重系数，b₂为偏置，所得Z₂为隐层线性组合，A₂为Z₂通过激活函数 relu的值，Y即为最终输出；

步骤三：为了能较好的估计能见度，将上述3D ResNet18卷积神经网络和多层感知器 (MLP)模型进行融合，3D ResNet18卷积神经网络用于提取视频中的时间和空间特征，再将提取的时空特征作为多层感知器(MLP)模型的输入，多层感知器(MLP)模型根据输入特征估计当前的能见度，整个模型的结构如图3所示。

从图3中可以看出，模型输入为视频中的多帧图像，输出为用于分类的一维向量，中间包括3D ResNet18卷积神经网络和多层感知器(MLP)网络。3D ResNet18卷积神经网络利用了网络的残差结构，如图中的“加号”所示，能够更加充分的提取图片不同分辨率上的特征，而且能在一定程度上避免梯度消失的问题。在经过3D ResNet18卷积神经网络的4 个基础块提取视频的时空信息特征后，将提取的特征转化为一维特征向量，即卷积神经网络的输出，然后将此特征向量作为多层感知器(MLP)的输入，经隐层转化，最终实现分类。

模型输入的数据格式为16帧224×224图片，为了使模型有较强的鲁棒性和较好泛化性能，我们使用了多种数据增强方式进行数据扩充，如图像左右翻转，随机裁剪等。实验发现，当模型的学习率设置为0.001，batch_size设置为2，并使用Adam优化算法进行模型的迭代优化时，模型的效果最好。

Adam是一种自适应动量的随机优化方法，经常作为深度学习中的优化器算法。Adam算法主要有3个优点：

(1)惯性保持:Adam算法记录了梯度的一阶矩，即过往所有梯度与当前梯度的平均, 使得每一次更新时，上一次更新的梯度与当前更新的梯度不会相差太大，即梯度平滑、稳定的过渡，可以适应不稳定的目标函数。

(2)环境感知:Adam记录了梯度的二阶矩，即过往梯度平方与当前梯度平方的平均，这体现了环境感知能力，为不同参数产生自适应的学习速率。

(3)超参数,即α、β₁、β₂，ε具有很好的解释性，且通常无需调整或仅需很少的微调。

Adam算法在梯度下降中的优化过程如下：

(1)更新steps

(2)计算原目标函数f(θ)对参数θ的梯度

(3)计算梯度的一阶矩(first moment)，即过往梯度与当前梯度的平均，类似平滑操作，如m_t

(4)计算梯度的二阶距(second moment)，即过往梯度平方与当前梯度平方的平均,如 v_t

(5)对一阶矩m_t进行校正，因为m_t初始值为0,所以它会向0偏置，这样处理后会减少这种偏置影响，具体计算公式为：

其中

指的是β₁的t次方

(6)对二阶矩v_t进行校正，因为v_t初始值为0，所以它会向0偏置,这样处理后会减少这种偏置影响，具体计算公式为:

其中

指的是β₂的t次方

(7)更新参数θ_t,注意此时可将

看成更新参数θ_t的学习率,

看成更新参数θ_t的梯度。

其中，主要参数如下表所示：

模型学习的过程就是模型的权重不断更新的过程，直到损失函数值趋于稳定。所用损失函数为交叉熵损失函数

我们通过模型的输出和观测到的实际能见度值计算损失函数，再通过反向传播算法更新模型的权重。反向传播算法如式所示：

其中，

即

所以，

o₁₁＝z₁₁w₁₁+z₁₂w₂₁+z₁₃w₃₁+b₁

o₁₂＝z₂₁w₁₁+z₂₂w₂₁+z₂₃w₃₁+b₁

o₂₁＝z₁₁w₁₂+z₁₂w₂₂+z₁₃w₃₂+b₂

o₂₂＝z₂₁w₁₂+z₂₂w₂₂+z₂₃w₃₂+b₂

步骤四，为了真实的反应模型的预测精度，我们在测试集上进行了模型的精度评估，将其他模型与此模型进行对比，从精度和时间两方面进行对比。

与现有技术相比，本发明的有益效果为：本发明主要是将3D ResNet18卷积神经网络与多层感知器(MLP)结合起来进行基于深度学习的能见度估计，首先对视频数据进行特征向量提取，然后对提取的特征向量进行分类，实现分类估计，相比于传统方法中只选取少量视频、截取图像中的某些固有特征的局限性，它充分利用视频的连续信息，并添加多层感知器进行分类估计，进一步提高了估计精度。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1为本发明中2D卷积与3D卷积对比图。

图2为本发明中多层感知器结构图。

图3为本发明中ResNet-MLP模型结构图。

图4为本发明中四种滤波方式对比图。

图5为本发明中左右翻转示意图。

图6为本发明中随机裁剪示意图。

图7为本发明中损失函数训练图示意图。

图8为本发明中C3D模型结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。当然，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例1

参见图1至图8，本发明提供其技术方案为，一种基于深度学习的能见度估计方法，包括以下步骤：

表1 3D ResNet18卷积神经网络

Z₁＝W₁x+b₁

A₁＝relu(Z₁)

relu:a＝max(0，Z)

同时，A₁也是隐层与输出层间函数关系的输入值；

同理，隐层与输出层间存在函数关系：

Z₂＝W₂A₁+b₂

A₂＝relu(Z₂)

Y＝A₂

Adam算法在梯度下降中的优化过程如下：

(1)更新steps

(2)计算原目标函数f(θ)对参数θ的梯度

其中

指的是β₁的t次方

其中

指的是β₂的t次方

(7)更新参数θ_t,注意此时可将

看成更新参数θ_t的学习率,

看成更新参数θ_t的梯度。

其中，主要参数如下表所示：

我们通过模型的输出和观测到的实际能见度值计算损失函数，再通过反向传播算法更新模型的权重，反向传播算法如式所示：

其中，

即

所以，

o₁₁＝z₁₁w₁₁+z₁₂w₂₁+z₁₃w₃₁+b₁

o₁₂＝z₂₁w₁₁+z₂₂w₂₁+z₂₃w₃₁+b₁

o₂₁＝z₁₁w₁₂+z₁₂w₂₂+z₁₃w₃₂+b₂

o₂₂＝z₂₁w₁₂+z₂₂w₂₂+z₂₃w₃₂+b₂

为了更好地实现本发明的目的，本发明还提供如下实例进一步验证本发明的深度学习的能见度估计方法：

根据某机场的观测数据以及视频信息分析，视频大致是从2020年03月13日零时至12 时，而观测数据是从2020年03月12日8时至2020年03月13日8时。为了将视频和观测数据关联，我们将2020年03月13日往后的视频数据按每秒一帧的帧率切分成27960帧，再按4:1的比率划分训练集和测试集，最终划分成1488个训练样本和352个测试样本，每个样本包括顺序的16帧图像，这16帧图像可以充分利用视频的时间和空间的信息。将每个样本所在的时间点和观测时间点一一对应，给每个样本标记一个实际的能见度标签，根据数据的特点，将能见度每隔25米作为一个类别，总共分为120个类别，可以使用监督学习的方法求解的建立的深度学习模型。

模型输入的数据格式为16帧224×224图片，为了使模型有较强的鲁棒性和较好泛化性能，首先对图像进行去噪，对比了4种去噪方式，实验结果如图所示。

图4中，左上角为中值滤波，右上角为均值滤波，左下角为高斯滤波，右下角为双边滤波，通过观察，发现中值滤波的效果较好，故本问题选用中值滤波。

使用了多种数据增强方式进行数据扩充，如图像左右翻转，随机裁剪等，如图5、6所示。

模型把全部数据迭代训练了共10次，当损失函数值趋于稳定时，停止训练。

从图7中可以看出，损失函数值随着训练次数的增加而不断下降，趋于收敛。

为了真实的反应模型的预测精度，在测试集上进行了模型的精度评估，测试集包含352 个测试样本，每个样本16帧，共5632帧图像，使用训练得到的模型，模型包含了卷积神经网络和多层感知器(MLP)网络的各层权重，对测试集的样本进行测试，为了验证模型的优势，对比3D ResNet-MLP和C3D-MLP模型。

C3D-MLP模型也是3D卷积神经网络，但没有残差结构。C3D是较早的在视频领域成功应用的三维卷积神经网络，它的特点是网络结构简洁，准确率较高。其结构图如下图8所示。

如图8所示，C3D网络总共有7部分组成，第一、第二部分都是由一个卷积层加一个池化层组成；第三到第五部分则都是由两个卷积层加一个池化层组成；第六部分是两个全连接层；第七部分是softmax层，其实验环境：CPU为英特尔酷睿i7-8750H六核处理器；显卡型号为NVIDIA GeForce GTX 1060；内存8G；操作系统为Ubuntu18.04；编程语言为 Python；深度学习框架为Tensorflow2.0 GPU版。

通过测试对比，结果如下表所示：

表2 3D ResNet-MLP和C3D-MLP模型精度对比

模型	精度	推理时间
			3D Resnet-MLP	80.3％	0.25
C3D-MLP	75.6％	0.29

可以看到，模型精度达到了80.3％，比C3D-MLP模型的精度高了近5％。而且，3DResNet-MLP模型的推理时间比C3D-MLP模型更快。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的能见度估计方法，其特征在于，包括以下步骤：

步骤一：选用3D ResNet18卷积神经网络；它由1个卷积层和4个基本块组成，具体结构如下表所示：

步骤二：选用多层感知器进行融合，多层感知器是单个感知器的扩展，多层感知器包含多个层级，除了输入输出层，它中间可以有多个隐层，左边为输入层，中间为隐层，右边为输出层，每一层由不同个数的神经元组成，输入层与隐层存在函数关系：

Z₁＝W₁x+b₁

A₁＝relu(Z₁)

relu:a＝max(0，Z)

同时，A₁也是隐层与输出层间函数关系的输入值；

同理，隐层与输出层间存在函数关系：

Z₂＝W₂A₁+b₂

A₂＝relu(Z₂)

Y＝A₂

W₂为隐层到输出层权重系数，b₂为偏置，所得Z₂为隐层线性组合，A₂为Z₂通过激活函数relu的值，Y即为最终输出；

步骤三：将上述3D ResNet18卷积神经网络和多层感知器(MLP)模型进行融合，3DResNet18卷积神经网络用于提取视频中的时间和空间特征，再将提取的时空特征作为多层感知器(MLP)模型的输入，多层感知器(MLP)模型根据输入特征估计当前的能见度；

模型输入为视频中的多帧图像，输出为用于分类的一维向量，中间包括3D ResNet18卷积神经网络和多层感知器(MLP)网络，在经过3D ResNet18卷积神经网络的4个基础块提取视频的时空信息特征后，将提取的特征转化为一维特征向量，即卷积神经网络的输出，然后将此特征向量作为多层感知器(MLP)的输入，经隐层转化，最终实现分类；

模型输入的数据格式为16帧224×224图片，使用多种数据增强方式进行数据扩充，图像左右翻转，随机裁剪实验发现，当模型的学习率设置为0.001，batch_size设置为2，并使用Adam优化算法进行模型的迭代优化时；

Adam算法在梯度下降中的优化过程具体内容如下：

(1)更新steps；

(2)计算原目标函数f(θ)对参数θ的梯度；

(3)计算梯度的一阶矩(first moment)，即过往梯度与当前梯度的平均，类似平滑操作，如m_t；

(4)计算梯度的二阶距(second moment)，即过往梯度平方与当前梯度平方的平均,如v_t；