CN111967511A

CN111967511A - 一种基于异构特征融合网络的地基云图分类方法

Info

Publication number: CN111967511A
Application number: CN202010770721.6A
Authority: CN
Inventors: 王敏; 付昱承; 储荣; 朱首贤
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2020-08-04
Filing date: 2020-08-04
Publication date: 2020-11-20
Anticipated expiration: 2040-08-04
Also published as: CN111967511B

Abstract

本发明公开了一种基于异构特征融合网络的地基云图分类方法，包括如下步骤：(1)对多幅带有噪声的地基云图进行预处理；(2)分别对处理后的地基云图提取特征，使用手工特征提取方法结合费舍尔向量编码得到每张地基云图对应的特征向量；(3)将步骤(2)的输出投入一个四层全连接层网络，该网络的输出记为f_c；(4)扩增训练集后，训练卷积神经网络模型，将f_c与最后一个池化层得到的深层语义特征f_g融合，经过全连接层得到每类对应的分类概率。本发明能够显著的提高地基云图分类识别任务的泛化能力，模型的鲁棒性强，多角度结合视觉信息，即使人为加入噪声也能精确定位云状，取得良好的识别结果。

Description

一种基于异构特征融合网络的地基云图分类方法

技术领域

本发明涉及模式识别技术领域，尤其是一种基于异构特征融合网络的地基云图分类方法。

背景技术

在气象研究领域，对云全面且一致的观测是非常重要的。在气象预测中，云量和云类等宏观参数起着至关重要的作用。近几十年来，地基云图的分类方法得到了广泛的研究。传统的云分类方法依赖于专家经验，方法不可靠、耗时，并且在某种程度上依赖于操作员的经验，分类结果通常带有一些不确定性和偏差。此外，人眼观测已逐渐趋于高成本。因此，迫切需要一种自动、准确的云分类方法。

近些年来，该领域已涌现出很多重要的学术成果。在研究早期，大多都是运用颜色特征来分离云和天空。Shield等人使用红蓝分量比(R/B)图像来检测不透明的较厚云层，该特征图像增加了云和天空之间的差异，一定程度上缓解了光照的变化。之后，人们意识到纹理和结构特征与云状息息相关。Antti Isosalo等人使用LBP描述符对云的纹理外观进行局部纹理测量建模。Lei Liu等人基于卷云、积云和波形云三类不具有复杂混合类型的云类，通过形态学边缘检测，得到封闭且相对光滑的云的边缘，并基于这种模式提出了几种结构特征。Liu等人考虑到了不同的大气条件对云图的影响，提出了一种新的云分类纹理描述符ICLTP。该描述符通过引入光照不变因子有效地处理光照变化。深度学习近年来发展迅速，Zhang等人提出了一种名为CloudNet的卷积神经网络模型，可以准确的预测11类云状。Liu等人提出了一种新的基于层次的多模态融合的方法，将深度视觉特征和深度多模态特征在不同层次上融合。

发明内容

本发明所要解决的技术问题在于，提供一种基于异构特征融合网络的地基云图分类方法，能够显著的提高地基云图分类识别任务的泛化能力，模型的鲁棒性强，多角度结合视觉信息，即使人为加入噪声也能精确定位云状，取得良好的识别结果。

为解决上述技术问题，本发明提供一种基于异构特征融合网络的地基云图分类方法，包括如下步骤：

(1)对多幅带有噪声的地基云图进行预处理，使每幅图像的视觉特征更为明显且更易提取；

(2)分别对处理后的地基云图提取特征，使用手工特征提取方法结合费舍尔向量编码得到每张地基云图对应的特征向量；

(3)将步骤(2)的输出投入一个四层全连接层网络，其神经元数目分别为64、256、512和2048，即输出维数为2048；其中批量归一化处理应用于前3层，ReLU激活函数应用于全部4层，该网络的输出记为f_c；

(4)扩增训练集后，训练卷积神经网络模型，将f_c与最后一个池化层得到的深层语义特征f_g融合，经过全连接层得到每类对应的分类概率。

优选的，步骤(1)中，对多幅带有噪声的地基云图进行预处理具体包括如下步骤：

(11)对原图像做图像增强，改善图片质量；

(12)使用最大最小平均法将图像转换为灰度图像，之后做灰度值腐蚀操作，抑制相对亮的像素。

优选的，步骤(2)中，分别对处理后的地基云图提取特征，使用手工特征提取方法结合费舍尔向量编码得到每张地基云图对应的特征向量具体包括如下步骤：

(21)使用包含不同区域大小结构信息的空间金字塔策略，金字塔分为4层，将图像分为1、4、9、16块；

(22)对每个局部区域提取相应的手工特征；

(23)使用费舍尔向量编码各手工特征向量，同时解决每张图像手工特征不一致的问题，并增加特征维数。

优选的，步骤(22)中，对每个局部区域提取相应的手工特征具体包括如下步骤：

(221)提取SIFT特征：SIFT变换通过高斯微分函数来提炼不会消失的点，并基于图像局部的梯度方向，分配给每个关键点位置一个或多个方向，每个关键点默认存储128维的信息，根据情况进行调整；即每个区域返回一个(x_i×128)维的特征向量集，融合这些区域得到表征整张图像的(x×128)维向量集；

(222)对局部二值模式LBP进行改进，以直方图统计出一种既能捕获粗糙结构信息，又能捕获纹理信息的特征；对于每个区域，以3×3尺寸的滑块，以滑块中心像素为阈值，将相邻的8个像素的灰度值与其进行比较，若周围像素值大于等于中心像素值，则该像素点的位置被标记为1，否则为0；这样，3×3邻域内的8个点经比较产生8位二进制数，将这8位数从左到右排列，得到一个0-255之间的十进制数，则得到一张特征图，对其进行直方图分布统计，可得到一个256维的直方图特征；

(223)提取基于灰度共生矩阵的特征：由于纹理是由灰度分布在空间位置上反复出现而形成的，因而在图像中相隔一定距离的两像素之间会存在一定的灰度关系；使用Haralick提出的基于灰度共生矩阵的其中3种统计方法，灰度共生矩阵是一个G维方阵，其列数等于灰度的阶数；矩阵中的每个元素P^Δ(a,b)代表每两个像素出现的频率，把它称为灰度差；使用图像的灰度图用于统计，将每两个元素存储为一个元组，每有新的元组出现，灰度共生矩阵的灰度级就加1，得到灰度共生矩阵后，就可以直接运用上述的统计特征进行计算；

(224)提取基于红蓝通道差异的特征：需要直接使用裁剪过的RGB彩色图像进行计算；云和天空之间主要需要考虑红蓝通道的差异，红蓝成分比特征除了可以有效分离云类外，还可用来描述云状之间的差异，定义为：

NBR＝(B-R)/(B+R)

最终同样使用统计直方图对NBR特征图进行统计，将bin个数设为10，每个区域对应一个(1×10)维的特征向量。

优选的，步骤(23)中，使用费舍尔向量解决每张图像手工特征不一致的问题，并增加特征维数具体包括如下步骤：

(231)将数据集中所有的描述子并联，形成一个(x×128)维的向量集；

(232)假定所有的这些特征服从包含N个成分的混合高斯分布，使用最大期望EM算法估计这个混合高斯模型的最优参数；

(233)使用EM算法求出高斯混合模型中N个高斯分布在该特征集下的最优参数后，费舍尔向量对这些参数求偏导，再归一化得到结果；设有D个特征点，最后的费舍尔向量维数可以扩张到(2D+1)×N维。

优选的，步骤(4)中，扩增训练集后，训练卷积神经网络模型，将f_c与最后一个池化层得到的深层语义特征f_g融合，经过全连接层得到每类对应的分类概率具体包括如下步骤：

(41)运用随机裁剪、翻转、改变亮度数据扩增方法，扩充训练数据；

(42)训练模型，该模型以VGG16为基础，稍加修改，其架构包含4个卷积层和3个池化层，同样使用批量归一化和RELU激活函数，采用dropout策略防止过拟合，最终输入到softmax层中判断分类结果，深层语义特征由最后一个池化层输出；

(43)设立两个权重参数β₁和β₂来调整两种异构特征对损失函数的影响力，融合为向量f_cg,其表达为：

(44)最后将融合后的向量f_cg经过最后一个全连接层，将它的输出输入softmax激活，得到对11个类别的一系列标签预测来表示每个类别的概率。

优选的，步骤(41)中，运用随机裁剪、翻转、改变亮度等数据扩增方法，扩充训练数据具体包括如下步骤：

(411)随机裁剪，原始图片的大小为256×256，将图片随机裁剪为224×224，通道数不变；

(412)旋转角度，以45°角为间距随机旋转图像，使数据集增加7倍；

(413)随机调整亮度、对比度、饱和度和色相。每张图片都有0.5的概率被随机调整。其中亮度调整因子、对比度参数和饱和度参数在[0.9，1.1]区间内随机选择，色相参数在[-0.1，0.1]区间内随机选择。

本发明的有益效果为：本发明能够显著的提高地基云图分类识别任务的泛化能力，模型的鲁棒性强，多角度结合视觉信息，即使人为加入噪声也能精确定位云状，取得良好的识别结果。

附图说明

图1为本发明的方法流程示意图。

具体实施方式

如图1所示，本发明的地基云图分类方法分为两部分，分别是手工特征提取过程和深层语义特征提取过程。手工特征提取过程首先要针对不同数据集的图像使用不同的预处理方法，然后使用空间金字塔策略将图像批量分割为不同尺寸的局部区域，接下来针对每个局部区域提取SIFT、局部二值模式、基于灰度共生矩阵的特征等结构纹理特征和基于红蓝通道差异提取的颜色特征，之后将特征向量变换为费舍尔向量，解决单张图像特征长度不一致的问题，最后将每张图像所有局部区域的特征向量串联，得到每张图像的手工特征向量，将费舍尔向量放入一个四层全连接层的网络，得到向量f_c。

深层语义特征提取过程首先需要对数据集进行随机裁剪、翻转等数据扩增方法，接下来投入经过修改的VGG16网络模型中训练，经过最后一个池化层得到深层语义特征向量f_g。之后将费舍尔向量f_c和深层语义特征向量f_g按不同权重比例融合，输入softmax层中激活，得到对11个类别的一系列标签预测来表示每个类别的概率。

不同于大多数图像分类任务，云图数据集中的图像之间存在很大差异，其拍摄地点、时间、地理气候、光照强度的不同都会导致这种差异，这使得分类方法的泛化能力受到了极大的考验。我们希望通过这种特征融合的方法从多角度表征图像信息，在不同的气候条件下也有很好的识别效果。实验以在不同气象条件下构建的CCSN数据集为例，该数据集包括2543张云图，根据世界气象组织的分类建议被分为11类，分别是卷云、卷层云、卷积云、高积云、高层云、积云、积雨云、雨层云、层积云、层云和航迹云。在实验之前，先进行一次人工裁剪，去除比较大的建筑物，树，电线杆等噪声。

在识别更细致的纹理之前，将云状和天空分离是处理地基云图的关键。本发明通过一些预处理操作清晰云状的边缘。由于涉及二值化，这些操作并未应用在颜色特征的提取中，步骤(1)所述如下：

(11)为了减小图像的突变梯度，对原图像做图像增强，改善图片质量。

(12)由于RGB云图像红蓝通道之间的差异比较明显，对于每个像素，大多数情况下蓝红像素分别为最大和最小值，所以使用最大最小平均法丢弃绿通道，将图像转换为灰度图像，之后做灰度值腐蚀操作，抑制相对亮的像素，减小不同光照强度对图像的影响。

特征提取是本发明的关键步骤。本发明将纹理、结构、颜色特征融合，可以使计算机有效分辨云与天空、云与云以及云与其他噪声之间的细微差异。步骤(2)所述如下:

提取特征之前，为了更好的表征云图像的局部细节信息，精细化云状的分类，使得纹理结构信息更加突出，本发明使用包含不同区域大小结构信息的空间金字塔策略，步骤(21)所述如下：

金字塔分为4层，将图像分为1，4，9，16块，对于一个M×N尺寸的图像矩阵O，设每一层的中心点为：

p(c_i,c_j),i,j＝1,2…,l

则对于图像的每一个像素，都按下述公式分给最近的块：

其中

是一个参数，它衡量颜色相似度和空间相似度之间的相对重要性。当

较小时，空间相似度更重要，块更紧凑。特别是当

时，公式的结果等价于传统的矩形块空间金字塔。当

较大时，块则更紧密地附着在云边界上，大小和形状也不那么规则。对于某些没有明显边缘的云类型，例如层云和高层云，自动块分配方法将分配类似于矩形的块，在实验中

这些局部区域块已经能大体上分离出云状部分和天空部分，在此基础上做特征提取，单个区域内的信息会更相似，不同区域间的差异更大。

针对不同形状、大小的局部区域，提取下列手工特征，步骤(22)所述如下：

(221)提取SIFT特征。作为经典的可提取纹理细节的描述子，它对旋转、尺度、亮度等变化都能保持不变，非常适合用于地基云图分类任务中。由于之前的预处理操作已将图像转化为灰度图，则直接进行SIFT变换。SIFT变换通过高斯微分函数来提炼一些十分突出的不会因光照、尺度、旋转等因素而消失的点，并基于图像局部的梯度方向，分配给每个关键点位置一个或多个方向，每个关键点一般默认存储128维的信息，可根据情况进行调整。即每个区域返回一个(x_i×128)维的特征向量集，融合这些区域得到可以表征整张图像的(x×128)维向量集。之后的特征提取操作也都是局部提取后再融合，这里不再复述。

(222)对局部二值模式(LBP)进行改进，以直方图统计出一种既能捕获粗糙结构信息，又能捕获纹理信息的特征。实现方法是，对于每个区域，以3×3尺寸的滑块，以滑块中心像素为阈值，将相邻的8个像素的灰度值与其进行比较，若周围像素值大于等于中心像素值，则该像素点的位置被标记为1，否则为0。这样，3×3邻域内的8个点经比较可产生8位二进制数，将这8位数从左到右排列，得到一个0-255之间的十进制数。则可以得到一张特征图，对其进行直方图分布统计，可得到一个256维的直方图特征。需要注意，空间金字塔策略分割出的区域是不规则的，正方形滑块尺寸不宜过大，且需指定平移和竖移的步长SX,SY随机采样，否则会丢失很多区域的边缘信息。

(223)提取基于灰度共生矩阵的特征。由于纹理是由灰度分布在空间位置上反复出现而形成的，因而在图像中相隔一定距离的两像素之间会存在一定的灰度关系。本发明使用Haralick提出的基于灰度共生矩阵的其中3种统计方法，灰度共生矩阵是一个G维方阵，其列数等于灰度的阶数。矩阵中的每个元素P^Δ(a,b)代表每两个像素出现的频率,我们把它称为灰度差。其方法的公式如下：

-能量

能量能表示灰度差的均匀程度。

-熵

熵是对灰度差随机性的度量。

-对比度

对比度是一种衡量局部变化的灰度差。

我们使用图像的灰度图用于统计，将每两个元素存储为一个元组，每有新的元组出现，灰度共生矩阵的灰度级就加1，得到灰度共生矩阵后，就可以直接运用上述的统计特征进行计算。

(224)提取基于红蓝通道差异的特征。该方法需要直接使用裁剪过的RGB彩色图像进行计算。云和天空之间主要需要考虑红蓝通道的差异。红蓝成分比特征除了可以有效分离云类外，还可用来描述云状之间的差异，定义为：

NBR＝(B-R)/(B+R)

最终同样使用统计直方图对NBR特征图进行统计，将bin个数设为10,每个区域对应一个(1×10)维的特征向量。

提取的各类特征可以从视觉的多角度表征图像。我们将其融合之后，会发现每张图像的特征向量维数不一样，这主要是由于SIFT变换对于每张图像识别出的描述子数目都不固定。为了解决该问题，本发明引入了费舍尔向量的概念，它主要是使用由一幅图像中多个特征点计算出的似然函数的梯度向量来表达一幅图像，相对原特征向量做了升维，升维之后的特征集更加线性可分，并且包含了图像的部分结构性信息，对图像的表达更加细致。以SIFT描述子为例，步骤(23)所述如下：

(231)将数据集中所有的描述子并联，形成一个(x×128)维的向量集。

(232)我们假定所有的这些特征服从包含N个成分的混合高斯分布，使用最大期望(EM)算法估计这个混合高斯模型的最优参数。实验中当N＝5时效果最好。

(233)在使用EM算法求出高斯混合模型中N个高斯分布在该特征集下的最优参数后，FV向量本质上就是对这些参数(均值，标准差，权重)求偏导，最后再归一化得到的结果。设有D个特征点，最后的FV向量维数可以扩张到(2D+1)×N维。

本发明自主实现了EM算法，下面给出其概念：

假设有描述符集{x¹...x^m}，其中的描述符相互之间独立同分布，又设有n个参数位置的高斯分布{z¹...zⁿ}，要估计概率模型p(xⁱ,z)的参数，但由于每个描述符对应的类别z⁽ⁱ⁾未知，那么就不能使用最大似然估计。即我们需要假设z⁽ⁱ⁾已知。假设目标函数L表示为：

分子分母同乘一个不为0的数，变为式2：

我们期望得到这个函数取最大值情况下的参数θ。

引入Jensen不等式概念：假设f(x)为凸函数，x为随机变量，则有：E[f(X)]>＝f(E[X])，即函数的期望大于等于期望的函数，若f(x)为凹函数，反之亦然。特别地，如果f是严格凸函数，当且仅当P(X＝EX)＝1，即x是常量时，上式取等号。

借用上述定理，式2中Q_i(z⁽ⁱ⁾)是概率p(x)，

是随机变量x，

是典型的凹函数。因此式2中的

相当于E(X)＝∑x*p(x)，E(f(x))＝∑f(x)*p(x)，且概率和∑_zQ_i(z⁽ⁱ⁾)＝1，因此对照凹函数的Jensen不等式，可得到式3的模式，进而推导出式4：

EM算法的主要思想就是不断地增加式4右边的最大值，相应的使得L(θ)每一次的迭代都找到局部最优，最后达到全局最优。

使用EM算法得到每个描述子属于某个高斯分布的概率后，对似然函数L(θ)的参数θ求偏导，将求得的偏导串联为一个，即得到最终的费舍尔向量，它包含了更多原特征向量没有的结构信息。对于高斯分布来说这里的θ应该包含均值、协方差和每个高斯分布对应的权重。我们将上述四种手工特征都变换为费舍尔向量，再串联得到传统特征提取方法最终的结果。

得到费舍尔向量集后，由于通过不同种类方法获取的，本发明设计了四个全连接层，其神经元数目分别为64、256、512和2048，即f_c维数为2048。其中批量归一化处理应用于前3层，ReLU激活函数应用于全部4层。该网络的输出记为f_c。

为了增加模型的泛化能力，本发明还设计了一个网络，该网络以VGG16为基础，稍加修改，其架构包含4个卷积层和3个池化层，同样使用批量归一化和RELU激活函数，采用dropout策略防止过拟合，最终输入到softmax层中判断分类结果。步骤(4)所述如下：

在训练之前我们使用数据扩增让有限的数据产生更多的数据,增加训练样本的数量及多样性，增加噪声数据，提升模型的鲁棒性。在扩增之前，数据同样经过了步骤(1)的预处理过程。其步骤(41)所述如下：

(413)随机调整亮度、对比度、饱和度和色相。每张图片都有0.5的概率被随机调整。其中亮度调整因子、对比度参数和饱和度参数在[0.9，1.1]区间内随机选择，色相参数在[-0.1，0.1]区间内随机选择。模型对光照强度的鲁棒性对于云图分类任务是非常重要的。

通过上述方式我们获得了近20000张图像。接下来训练模型，该模型以VGG16为基础，稍加修改，其架构包含4个卷积层和3个池化层，同样使用批量归一化和RELU激活函数，采用dropout策略防止过拟合，最终输入到softmax层中判断分类结果，深层语义特征由最后一个池化层输出；步骤(42)如下所述：

发明采用的是交叉熵损失函数，epoch＝10000，batch＝64，运用了动态调整学习率的策略，每1000个epoch使学习率下降10倍。

将原数据集以单张输入未训练的网络，但在最后一个池化层后就输出并铺平特征图，得到向量f_g，其维数同样也是2048维。之后，我们希望将f_c和f_g这两种异构特征融合，步骤(43)如下所述：

f_g是从整个云图像中学习的，由于是从网络的更深层次中提取，因此包含了更多的深层语义信息。f_c从基于视觉的多角度来描述云。为了充分利用它们之间的优势互补，本发明将它们按不同的权重融合，其可表述为：

其中β₁和β₂表示两种异构特征的重要程度，取值范围为[0,1]，也作为参数交由网络去训练。

最后将融合后的向量f_cg经过最后一个全连接层，步骤(44)如下所述：

我们将它的输出输入softmax激活，得到对11个类别的一系列标签预测来表示每个类别的概率。softmax定义为：

其中x_k和y_k分别为全连接层的第k个神经元的值和第k个类别的预测概率。

交叉熵损失函数定义为：

其中q_k为地基云图判别正确的概率。

Claims

1.一种基于异构特征融合网络的地基云图分类方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于异构特征融合网络的地基云图分类方法，其特征在于，步骤(1)中，对多幅带有噪声的地基云图进行预处理具体包括如下步骤：

(11)对原图像做图像增强，改善图片质量；

3.如权利要求1所述的基于异构特征融合网络的地基云图分类方法，其特征在于，步骤(2)中，分别对处理后的地基云图提取特征，使用手工特征提取方法结合费舍尔向量编码得到每张地基云图对应的特征向量具体包括如下步骤：

(22)对每个局部区域提取相应的手工特征；

4.如权利要求3所述的基于异构特征融合网络的地基云图分类方法，其特征在于，步骤(22)中，对每个局部区域提取相应的手工特征具体包括如下步骤：

(223)提取基于灰度共生矩阵的特征：由于纹理是由灰度分布在空间位置上反复出现而形成的，因而在图像中相隔一定距离的两像素之间会存在一定的灰度关系；使用Haralick提出的基于灰度共生矩阵的其中3种统计方法，灰度共生矩阵是一个G维方阵，其列数等于灰度的阶数；矩阵中的每个元素P^Δ(a，b)代表每两个像素出现的频率，把它称为灰度差；使用图像的灰度图用于统计，将每两个元素存储为一个元组，每有新的元组出现，灰度共生矩阵的灰度级就加1，得到灰度共生矩阵后，就可以直接运用上述的统计特征进行计算；

NBR＝(B-R)/(B+R)

5.如权利要求3所述的基于异构特征融合网络的地基云图分类方法，其特征在于，步骤(23)中，使用费舍尔向量解决每张图像手工特征不一致的问题，并增加特征维数具体包括如下步骤：

6.如权利要求1所述的基于异构特征融合网络的地基云图分类方法，其特征在于，步骤(4)中，扩增训练集后，训练卷积神经网络模型，将f_c与最后一个池化层得到的深层语义特征f_g融合，经过全连接层得到每类对应的分类概率具体包括如下步骤：

(43)设立两个权重参数β₁和β₂来调整两种异构特征对损失函数的影响力，融合为向量f_cg，其表达为：

7.如权利要求6所述的基于异构特征融合网络的地基云图分类方法，其特征在于，步骤(41)中，运用随机裁剪、翻转、改变亮度等数据扩增方法，扩充训练数据具体包括如下步骤：