CN112395964A - 一种基于深度学习的能见度估计方法 - Google Patents

一种基于深度学习的能见度估计方法 Download PDF

Info

Publication number
CN112395964A
CN112395964A CN202011229245.3A CN202011229245A CN112395964A CN 112395964 A CN112395964 A CN 112395964A CN 202011229245 A CN202011229245 A CN 202011229245A CN 112395964 A CN112395964 A CN 112395964A
Authority
CN
China
Prior art keywords
model
layer
gradient
input
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202011229245.3A
Other languages
English (en)
Inventor
张晓峰
王梅
陈哲
欧垚君
丁红
叶竹文
魏浩坤
皇甫嘉琪
许健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nantong University
Original Assignee
Nantong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nantong University filed Critical Nantong University
Priority to CN202011229245.3A priority Critical patent/CN112395964A/zh
Publication of CN112395964A publication Critical patent/CN112395964A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于深度学习的能见度估计方法,包括以下步骤:步骤一:选用3D ResNet18卷积神经网络;步骤二:选用多层感知器进行融合;步骤三:将上述3D ResNet18卷积神经网络和多层感知器(MLP)模型进行融合和步骤四:在测试集上进行了模型的精度评估。本发明的有益效果为:本发明主要是将3D ResNet18卷积神经网络与多层感知器(MLP)结合起来进行基于深度学习的能见度估计,对视频数据进行特征向量提取,对提取的特征向量进行分类,实现分类估计,相比于传统方法中只选取少量视频、截取图像中的某些固有特征的局限性,它充分利用视频的连续信息,并添加多层感知器进行分类估计,提高了估计精度。

Description

一种基于深度学习的能见度估计方法
技术领域
本发明涉及计算机图像处理,结合多层感知器(MLP)与3D卷积神经网络技术领域,尤其涉及一种基于深度学习的能见度估计方法。
背景技术
视频能见度检测方法是将大气光学分析与图像处理及人工智能技术结合,通过对视频图像的分析处理,建立视频图像与真实场景之间的关系,再根据图像特征的变化,间接计算出能见度数值。但现有的基于视频图像的能见度检测方法,由于是间接计算,很难准确地估算能见度。特别地,这些方法中大多数只选取少量视频、截取图像中的某些固有特征,基于Koschmieder定律进行估计,并没有充分利用视频的连续信息,所以估计的精度不高,有较大的改进空间。
深度学习是一类模式分析方法的统称,是用于建立、模拟人脑进行分析学习的神经网络并模仿人脑机制来解释数据的一种机器学习技术。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征向量。
卷积神经网络是一种常用于处理图像数据的深度学习模型,ResNet是其中一种,按卷积层数,ResNet卷积神经网络常分为5种形式:ResNet18、ResNet34、ResNet50、ResNet101、 ResNet152,其中,数字代表该网络的卷积层数。一般来说,卷积层数越多,模型的精度会相应提高,但由于计算量提高,模型推理速度一般会有所下降。
传统的2D ResNet18卷积神经网络只能提取少量视频、截取单帧图像中的某些固有特征,无法对长时间视频中包含的连续信息进行建模。因此,为充分利用视频的连续信息,提高估计精度。
另外,单个感知器对图像分类效果不是特别显著,并且它只能学习线性可分函数,无法解决非线性问题。另一方面,仅利用卷积神经网络或者多层感知器对数据的处理不够充分,得到的结果精度也不高。
发明内容
本发明的目的在于提供一种基于深度学习的能见度估计方法,该方法能够对长时间视频中包含的连续信息进行建模,充分利用视频的连续信息,改进估计精度,选用3DResNet18 卷积神经网络对视频数据进行特征向量提取,并添加多层感知器对提取的特征向量进行分类,实现分类估计。
本发明的思想为:本发明是选用3D ResNet18卷积神经网络3D卷积神经网络和普通的2D卷积神经网络的区别如图1所示,上半部分是2D卷积的过程,下半部分是3D卷积的过程,可以看出,2D卷积的卷积核是一个k*k的平面,而3D卷积的卷积核是d*k*k 的一个长方体,比2D卷积核增加了一个维度,通过增加的一个维度,3D卷积核不但能提取到图像的空间信息,还可以提取到视频中的连续信息,解决了单个感知器对图像分类效果不是特别显著,并且它只能学习线性可分函数,无法解决非线性问题,以及仅利用卷积神经网络或者多层感知器对数据的处理不够充分,得到的结果精度也不高的问题。
本发明是通过如下措施实现的:一种基于深度学习的能见度估计方法,包括以下步骤:
步骤一:为充分利用视频的连续信息,提高估计精度,我们选用3D ResNet18卷积神经网络;它由1个卷积层和4个基本块组成,具体结构如下表所示:
表1 3D ResNet18卷积神经网络
Figure RE-GDA0002875632360000021
从表1中可以看出,每个基本块包含两组卷积,卷积核大小均为3×3×3,第一个块的卷积核数为64,即代表64个通道数,后面各块卷积核数依次翻倍,最后一个块的卷积核数达到512,模型最后是一个平均池化层,模型输入的图片尺寸为224×224,最后一层卷积层输出7×7的特征图;
步骤二:选用多层感知器进行融合,多层感知器是单个感知器的扩展,能解决单个感知器无法解决的非线性问题。多层感知器包含多个层级,除了输入输出层,它中间可以有多个隐层,具体结构如图2所示:如图2,左边为输入层,中间为隐层,右边为输出层,每一层由不同个数的神经元组成,输入层与隐层存在函数关系:
Z1=W1x+b1
A1=relu(Z1)
其中,x为输入特征向量,W1为输入层到隐层权重系数,b1为偏置,所得Z1为输入层线性组合,A1为Z1通过激活函数Relu的值,Relu函数定义如下:
relu:a=max(0,Z)
同时,A1也是隐层与输出层间函数关系的输入值;
同理,隐层与输出层间存在函数关系:
Z2=W2A1+b2
A2=relu(Z2)
Y=A2
W2为隐层到输出层权重系数,b2为偏置,所得Z2为隐层线性组合,A2为Z2通过激活函数 relu的值,Y即为最终输出;
步骤三:为了能较好的估计能见度,将上述3D ResNet18卷积神经网络和多层感知器 (MLP)模型进行融合,3D ResNet18卷积神经网络用于提取视频中的时间和空间特征,再将提取的时空特征作为多层感知器(MLP)模型的输入,多层感知器(MLP)模型根据输入特征估计当前的能见度,整个模型的结构如图3所示。
从图3中可以看出,模型输入为视频中的多帧图像,输出为用于分类的一维向量,中间包括3D ResNet18卷积神经网络和多层感知器(MLP)网络。3D ResNet18卷积神经网络利用了网络的残差结构,如图中的“加号”所示,能够更加充分的提取图片不同分辨率上的特征,而且能在一定程度上避免梯度消失的问题。在经过3D ResNet18卷积神经网络的4 个基础块提取视频的时空信息特征后,将提取的特征转化为一维特征向量,即卷积神经网络的输出,然后将此特征向量作为多层感知器(MLP)的输入,经隐层转化,最终实现分类。
模型输入的数据格式为16帧224×224图片,为了使模型有较强的鲁棒性和较好泛化性能,我们使用了多种数据增强方式进行数据扩充,如图像左右翻转,随机裁剪等。实验发现,当模型的学习率设置为0.001,batch_size设置为2,并使用Adam优化算法进行模型的迭代优化时,模型的效果最好。
Adam是一种自适应动量的随机优化方法,经常作为深度学习中的优化器算法。Adam算法主要有3个优点:
(1)惯性保持:Adam算法记录了梯度的一阶矩,即过往所有梯度与当前梯度的平均, 使得每一次更新时,上一次更新的梯度与当前更新的梯度不会相差太大,即梯度平滑、稳定的过渡,可以适应不稳定的目标函数。
(2)环境感知:Adam记录了梯度的二阶矩,即过往梯度平方与当前梯度平方的平均,这体现了环境感知能力,为不同参数产生自适应的学习速率。
(3)超参数,即α、β1、β2,ε具有很好的解释性,且通常无需调整或仅需很少的微调。
Adam算法在梯度下降中的优化过程如下:
(1)更新steps
(2)计算原目标函数f(θ)对参数θ的梯度
(3)计算梯度的一阶矩(first moment),即过往梯度与当前梯度的平均,类似平滑操作,如mt
(4)计算梯度的二阶距(second moment),即过往梯度平方与当前梯度平方的平均,如 vt
(5)对一阶矩mt进行校正,因为mt初始值为0,所以它会向0偏置,这样处理后会减少这种偏置影响,具体计算公式为:
Figure RE-GDA0002875632360000042
其中
Figure RE-GDA0002875632360000046
指的是β1的t次方
(6)对二阶矩vt进行校正,因为vt初始值为0,所以它会向0偏置,这样处理后会减少这种偏置影响,具体计算公式为:
Figure RE-GDA0002875632360000043
其中
Figure RE-GDA0002875632360000044
指的是β2的t次方
(7)更新参数θt,注意此时可将
Figure RE-GDA0002875632360000045
看成更新参数θt的学习率,
Figure RE-GDA0002875632360000047
看成更新参数θt的梯度。
其中,主要参数如下表所示:
Figure RE-GDA0002875632360000041
Figure RE-GDA0002875632360000051
模型学习的过程就是模型的权重不断更新的过程,直到损失函数值趋于稳定。所用损失函数为交叉熵损失函数
Figure RE-GDA0002875632360000052
我们通过模型的输出和观测到的实际能见度值计算损失函数,再通过反向传播算法更新模型的权重。反向传播算法如式所示:
Figure RE-GDA0002875632360000053
其中,
Figure RE-GDA0002875632360000054
Figure RE-GDA0002875632360000055
Figure RE-GDA0002875632360000056
Figure RE-GDA0002875632360000057
Figure RE-GDA0002875632360000058
所以,
o11=z11w11+z12w21+z13w31+b1
o12=z21w11+z22w21+z23w31+b1
o21=z11w12+z12w22+z13w32+b2
o22=z21w12+z22w22+z23w32+b2
步骤四,为了真实的反应模型的预测精度,我们在测试集上进行了模型的精度评估,将其他模型与此模型进行对比,从精度和时间两方面进行对比。
与现有技术相比,本发明的有益效果为:本发明主要是将3D ResNet18卷积神经网络与多层感知器(MLP)结合起来进行基于深度学习的能见度估计,首先对视频数据进行特征向量提取,然后对提取的特征向量进行分类,实现分类估计,相比于传统方法中只选取少量视频、截取图像中的某些固有特征的局限性,它充分利用视频的连续信息,并添加多层感知器进行分类估计,进一步提高了估计精度。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
图1为本发明中2D卷积与3D卷积对比图。
图2为本发明中多层感知器结构图。
图3为本发明中ResNet-MLP模型结构图。
图4为本发明中四种滤波方式对比图。
图5为本发明中左右翻转示意图。
图6为本发明中随机裁剪示意图。
图7为本发明中损失函数训练图示意图。
图8为本发明中C3D模型结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。当然,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例1
参见图1至图8,本发明提供其技术方案为,一种基于深度学习的能见度估计方法,包括以下步骤:
步骤一:为充分利用视频的连续信息,提高估计精度,我们选用3D ResNet18卷积神经网络;它由1个卷积层和4个基本块组成,具体结构如下表所示:
表1 3D ResNet18卷积神经网络
Figure RE-GDA0002875632360000061
Figure RE-GDA0002875632360000071
从表1中可以看出,每个基本块包含两组卷积,卷积核大小均为3×3×3,第一个块的卷积核数为64,即代表64个通道数,后面各块卷积核数依次翻倍,最后一个块的卷积核数达到512,模型最后是一个平均池化层,模型输入的图片尺寸为224×224,最后一层卷积层输出7×7的特征图;
步骤二:选用多层感知器进行融合,多层感知器是单个感知器的扩展,能解决单个感知器无法解决的非线性问题。多层感知器包含多个层级,除了输入输出层,它中间可以有多个隐层,具体结构如图2所示:如图2,左边为输入层,中间为隐层,右边为输出层,每一层由不同个数的神经元组成,输入层与隐层存在函数关系:
Z1=W1x+b1
A1=relu(Z1)
其中,x为输入特征向量,W1为输入层到隐层权重系数,b1为偏置,所得Z1为输入层线性组合,A1为Z1通过激活函数Relu的值,Relu函数定义如下:
relu:a=max(0,Z)
同时,A1也是隐层与输出层间函数关系的输入值;
同理,隐层与输出层间存在函数关系:
Z2=W2A1+b2
A2=relu(Z2)
Y=A2
W2为隐层到输出层权重系数,b2为偏置,所得Z2为隐层线性组合,A2为Z2通过激活函数 relu的值,Y即为最终输出;
步骤三:为了能较好的估计能见度,将上述3D ResNet18卷积神经网络和多层感知器 (MLP)模型进行融合,3D ResNet18卷积神经网络用于提取视频中的时间和空间特征,再将提取的时空特征作为多层感知器(MLP)模型的输入,多层感知器(MLP)模型根据输入特征估计当前的能见度,整个模型的结构如图3所示。
从图3中可以看出,模型输入为视频中的多帧图像,输出为用于分类的一维向量,中间包括3D ResNet18卷积神经网络和多层感知器(MLP)网络。3D ResNet18卷积神经网络利用了网络的残差结构,如图中的“加号”所示,能够更加充分的提取图片不同分辨率上的特征,而且能在一定程度上避免梯度消失的问题。在经过3D ResNet18卷积神经网络的4 个基础块提取视频的时空信息特征后,将提取的特征转化为一维特征向量,即卷积神经网络的输出,然后将此特征向量作为多层感知器(MLP)的输入,经隐层转化,最终实现分类。
模型输入的数据格式为16帧224×224图片,为了使模型有较强的鲁棒性和较好泛化性能,我们使用了多种数据增强方式进行数据扩充,如图像左右翻转,随机裁剪等。实验发现,当模型的学习率设置为0.001,batch_size设置为2,并使用Adam优化算法进行模型的迭代优化时,模型的效果最好。
Adam是一种自适应动量的随机优化方法,经常作为深度学习中的优化器算法。Adam算法主要有3个优点:
(1)惯性保持:Adam算法记录了梯度的一阶矩,即过往所有梯度与当前梯度的平均, 使得每一次更新时,上一次更新的梯度与当前更新的梯度不会相差太大,即梯度平滑、稳定的过渡,可以适应不稳定的目标函数。
(2)环境感知:Adam记录了梯度的二阶矩,即过往梯度平方与当前梯度平方的平均,这体现了环境感知能力,为不同参数产生自适应的学习速率。
(3)超参数,即α、β1、β2,ε具有很好的解释性,且通常无需调整或仅需很少的微调。
Adam算法在梯度下降中的优化过程如下:
(1)更新steps
(2)计算原目标函数f(θ)对参数θ的梯度
(3)计算梯度的一阶矩(first moment),即过往梯度与当前梯度的平均,类似平滑操作,如mt
(4)计算梯度的二阶距(second moment),即过往梯度平方与当前梯度平方的平均,如 vt
(5)对一阶矩mt进行校正,因为mt初始值为0,所以它会向0偏置,这样处理后会减少这种偏置影响,具体计算公式为:
Figure RE-GDA0002875632360000091
其中
Figure RE-GDA0002875632360000092
指的是β1的t次方
(6)对二阶矩vt进行校正,因为vt初始值为0,所以它会向0偏置,这样处理后会减少这种偏置影响,具体计算公式为:
Figure RE-GDA0002875632360000093
其中
Figure RE-GDA0002875632360000094
指的是β2的t次方
(7)更新参数θt,注意此时可将
Figure RE-GDA0002875632360000095
看成更新参数θt的学习率,
Figure RE-GDA0002875632360000096
看成更新参数θt的梯度。
其中,主要参数如下表所示:
Figure RE-GDA0002875632360000097
Figure RE-GDA0002875632360000101
模型学习的过程就是模型的权重不断更新的过程,直到损失函数值趋于稳定。所用损失函数为交叉熵损失函数
Figure RE-GDA0002875632360000102
我们通过模型的输出和观测到的实际能见度值计算损失函数,再通过反向传播算法更新模型的权重,反向传播算法如式所示:
Figure RE-GDA0002875632360000103
其中,
Figure RE-GDA0002875632360000104
Figure RE-GDA0002875632360000105
Figure RE-GDA0002875632360000106
Figure RE-GDA0002875632360000107
Figure RE-GDA0002875632360000108
所以,
o11=z11w11+z12w21+z13w31+b1
o12=z21w11+z22w21+z23w31+b1
o21=z11w12+z12w22+z13w32+b2
o22=z21w12+z22w22+z23w32+b2
步骤四,为了真实的反应模型的预测精度,我们在测试集上进行了模型的精度评估,将其他模型与此模型进行对比,从精度和时间两方面进行对比。
为了更好地实现本发明的目的,本发明还提供如下实例进一步验证本发明的深度学习的能见度估计方法:
根据某机场的观测数据以及视频信息分析,视频大致是从2020年03月13日零时至12 时,而观测数据是从2020年03月12日8时至2020年03月13日8时。为了将视频和观测数据关联,我们将2020年03月13日往后的视频数据按每秒一帧的帧率切分成27960帧,再按4:1的比率划分训练集和测试集,最终划分成1488个训练样本和352个测试样本,每个样本包括顺序的16帧图像,这16帧图像可以充分利用视频的时间和空间的信息。将每个样本所在的时间点和观测时间点一一对应,给每个样本标记一个实际的能见度标签,根据数据的特点,将能见度每隔25米作为一个类别,总共分为120个类别,可以使用监督学习的方法求解的建立的深度学习模型。
模型输入的数据格式为16帧224×224图片,为了使模型有较强的鲁棒性和较好泛化性能,首先对图像进行去噪,对比了4种去噪方式,实验结果如图所示。
图4中,左上角为中值滤波,右上角为均值滤波,左下角为高斯滤波,右下角为双边滤波,通过观察,发现中值滤波的效果较好,故本问题选用中值滤波。
使用了多种数据增强方式进行数据扩充,如图像左右翻转,随机裁剪等,如图5、6所示。
模型把全部数据迭代训练了共10次,当损失函数值趋于稳定时,停止训练。
从图7中可以看出,损失函数值随着训练次数的增加而不断下降,趋于收敛。
为了真实的反应模型的预测精度,在测试集上进行了模型的精度评估,测试集包含352 个测试样本,每个样本16帧,共5632帧图像,使用训练得到的模型,模型包含了卷积神经网络和多层感知器(MLP)网络的各层权重,对测试集的样本进行测试,为了验证模型的优势,对比3D ResNet-MLP和C3D-MLP模型。
C3D-MLP模型也是3D卷积神经网络,但没有残差结构。C3D是较早的在视频领域成功应用的三维卷积神经网络,它的特点是网络结构简洁,准确率较高。其结构图如下图8所示。
如图8所示,C3D网络总共有7部分组成,第一、第二部分都是由一个卷积层加一个池化层组成;第三到第五部分则都是由两个卷积层加一个池化层组成;第六部分是两个全连接层;第七部分是softmax层,其实验环境:CPU为英特尔酷睿i7-8750H六核处理器;显卡型号为NVIDIA GeForce GTX 1060;内存8G;操作系统为Ubuntu18.04;编程语言为 Python;深度学习框架为Tensorflow2.0 GPU版。
通过测试对比,结果如下表所示:
表2 3D ResNet-MLP和C3D-MLP模型精度对比
模型 精度 推理时间
3D Resnet-MLP 80.3% 0.25
C3D-MLP 75.6% 0.29
可以看到,模型精度达到了80.3%,比C3D-MLP模型的精度高了近5%。而且,3DResNet-MLP模型的推理时间比C3D-MLP模型更快。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种基于深度学习的能见度估计方法,其特征在于,包括以下步骤:
步骤一:选用3D ResNet18卷积神经网络;它由1个卷积层和4个基本块组成,具体结构如下表所示:
Figure FDA0002764621230000011
从表1中可以看出,每个基本块包含两组卷积,卷积核大小均为3×3×3,第一个块的卷积核数为64,即代表64个通道数,后面各块卷积核数依次翻倍,最后一个块的卷积核数达到512,模型最后是一个平均池化层,模型输入的图片尺寸为224×224,最后一层卷积层输出7×7的特征图;
步骤二:选用多层感知器进行融合,多层感知器是单个感知器的扩展,多层感知器包含多个层级,除了输入输出层,它中间可以有多个隐层,左边为输入层,中间为隐层,右边为输出层,每一层由不同个数的神经元组成,输入层与隐层存在函数关系:
Z1=W1x+b1
A1=relu(Z1)
其中,x为输入特征向量,W1为输入层到隐层权重系数,b1为偏置,所得Z1为输入层线性组合,A1为Z1通过激活函数Relu的值,Relu函数定义如下:
relu:a=max(0,Z)
同时,A1也是隐层与输出层间函数关系的输入值;
同理,隐层与输出层间存在函数关系:
Z2=W2A1+b2
A2=relu(Z2)
Y=A2
W2为隐层到输出层权重系数,b2为偏置,所得Z2为隐层线性组合,A2为Z2通过激活函数relu的值,Y即为最终输出;
步骤三:将上述3D ResNet18卷积神经网络和多层感知器(MLP)模型进行融合,3DResNet18卷积神经网络用于提取视频中的时间和空间特征,再将提取的时空特征作为多层感知器(MLP)模型的输入,多层感知器(MLP)模型根据输入特征估计当前的能见度;
模型输入为视频中的多帧图像,输出为用于分类的一维向量,中间包括3D ResNet18卷积神经网络和多层感知器(MLP)网络,在经过3D ResNet18卷积神经网络的4个基础块提取视频的时空信息特征后,将提取的特征转化为一维特征向量,即卷积神经网络的输出,然后将此特征向量作为多层感知器(MLP)的输入,经隐层转化,最终实现分类;
模型输入的数据格式为16帧224×224图片,使用多种数据增强方式进行数据扩充,图像左右翻转,随机裁剪实验发现,当模型的学习率设置为0.001,batch_size设置为2,并使用Adam优化算法进行模型的迭代优化时;
Adam算法在梯度下降中的优化过程具体内容如下:
(1)更新steps;
(2)计算原目标函数f(θ)对参数θ的梯度;
(3)计算梯度的一阶矩(first moment),即过往梯度与当前梯度的平均,类似平滑操作,如mt
(4)计算梯度的二阶距(second moment),即过往梯度平方与当前梯度平方的平均,如vt
(5)对一阶矩mt进行校正,因为mt初始值为0,所以它会向0偏置,这样处理后会减少这种偏置影响,具体计算公式为:
Figure FDA0002764621230000021
其中
Figure FDA0002764621230000022
指的是β1的t次方;
(6)对二阶矩vt进行校正,因为vt初始值为0,所以它会向0偏置,这样处理后会减少这种偏置影响,具体计算公式为:
Figure FDA0002764621230000023
其中
Figure FDA0002764621230000024
指的是β2的t次方;
(7)更新参数θt,注意此时可将
Figure FDA0002764621230000025
看成更新参数θt的学习率,
Figure FDA0002764621230000026
看成更新参数θt的梯度;
其中,主要参数如下表所示:
Figure FDA0002764621230000031
模型学习的过程就是模型的权重不断更新的过程,直到损失函数值趋于稳定,所用损失函数为交叉熵损失函数
Figure FDA0002764621230000032
通过模型的输出和观测到的实际能见度值计算损失函数,再通过反向传播算法更新模型的权重,反向传播算法如式所示:
Figure FDA0002764621230000033
其中,
Figure FDA0002764621230000041
Figure FDA0002764621230000042
Figure FDA0002764621230000043
Figure FDA0002764621230000044
Figure FDA0002764621230000045
所以,
o11=z11w11+z12w21+z13w31+b1
o12=z21w11+z22w21+z23w31+b1
o21=z11w12+z12w22+z13w32+b2
o22=z21w12+z22w22+z23w32+b2
步骤四,在测试集上进行了模型的精度评估,将其他模型与此模型进行对比,从精度和时间两方面进行对比。
CN202011229245.3A 2020-11-06 2020-11-06 一种基于深度学习的能见度估计方法 Withdrawn CN112395964A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011229245.3A CN112395964A (zh) 2020-11-06 2020-11-06 一种基于深度学习的能见度估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011229245.3A CN112395964A (zh) 2020-11-06 2020-11-06 一种基于深度学习的能见度估计方法

Publications (1)

Publication Number Publication Date
CN112395964A true CN112395964A (zh) 2021-02-23

Family

ID=74599139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011229245.3A Withdrawn CN112395964A (zh) 2020-11-06 2020-11-06 一种基于深度学习的能见度估计方法

Country Status (1)

Country Link
CN (1) CN112395964A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114047691A (zh) * 2022-01-10 2022-02-15 杭州海康威视数字技术股份有限公司 自适应学习率协同优化的目标识别方法、装置及电子设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114047691A (zh) * 2022-01-10 2022-02-15 杭州海康威视数字技术股份有限公司 自适应学习率协同优化的目标识别方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN113936339B (zh) 基于双通道交叉注意力机制的打架识别方法和装置
CN107633513B (zh) 基于深度学习的3d图像质量的度量方法
CN109584248B (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
CN108133188B (zh) 一种基于运动历史图像与卷积神经网络的行为识别方法
CN111091045A (zh) 一种基于时空注意力机制的手语识别方法
CN110619352A (zh) 基于深度卷积神经网络的典型红外目标分类方法
CN107784288A (zh) 一种基于深度神经网络的迭代定位式人脸检测方法
CN112991278A (zh) RGB空域特征与LoG时域特征结合的Deepfake视频检测方法及系统
CN114898284B (zh) 一种基于特征金字塔局部差异注意力机制的人群计数方法
EP4377898A1 (en) Neural radiance field generative modeling of object classes from single two-dimensional views
CN111739037B (zh) 一种针对室内场景rgb-d图像的语义分割方法
CN114170088A (zh) 一种基于图结构数据的关系型强化学习系统及方法
CN112418032A (zh) 一种人体行为识别方法、装置、电子设备及存储介质
Wang A survey on IQA
CN113239866B (zh) 一种时空特征融合与样本注意增强的人脸识别方法及系统
KAWAKAMI et al. Automated Color Image Arrangement Method Based on Histogram Matching-Investigation of Kansei impression between HE and HMGD
WO2022205416A1 (zh) 一种基于生成式对抗网络的人脸表情生成方法
CN113850182A (zh) 基于DAMR_3DNet的动作识别方法
CN112395964A (zh) 一种基于深度学习的能见度估计方法
CN111401209B (zh) 一种基于深度学习的动作识别方法
CN117409244A (zh) 一种SCKConv多尺度特征融合增强的低照度小目标检测方法
CN116977872A (zh) 一种CNN+Transformer遥感图像检测方法
CN116977200A (zh) 视频去噪模型的处理方法、装置、计算机设备和存储介质
CN117011219A (zh) 物品质量检测方法、装置、设备、存储介质和程序产品
CN113591797B (zh) 一种深度视频行为识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20210223