CN111723674B

CN111723674B - 基于马尔科夫链蒙特卡洛与变分推断的半贝叶斯深度学习的遥感图像场景分类方法

Info

Publication number: CN111723674B
Application number: CN202010454385.4A
Authority: CN
Inventors: 王鑫; 张之露; 石爱业; 吕国芳
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2020-05-26
Filing date: 2020-05-26
Publication date: 2022-08-05
Anticipated expiration: 2040-05-26
Also published as: CN111723674A

Abstract

本发明公开了一种基于马尔科夫链蒙特卡洛与变分推断的半贝叶斯深度学习遥感场景分类方法。首先，搭建一个半贝叶斯深度卷积神经网络，针对卷积层，只采用一半的卷积层对权重参数使用高斯分布方法来表示，全连接层的权重参数则都使用高斯分布方法来表示。其次，利用变分推断方法初步得到近似的权重参数分布。然后，利用马尔科夫链蒙特卡洛方法和变分对比散度方法进一步迭代改进近似的权重参数分布，得到更加准确的近似的权重参数分布。本发明利用半贝叶斯深度学习的方法，把深度卷积神经网络中的部分权重参数当成随机变量，在网络模型中引入不确定性，避免了过拟合现象，增强了网络模型的鲁棒性，在遥感图像场景分类应用中表现良好。

Description

基于马尔科夫链蒙特卡洛与变分推断的半贝叶斯深度学习的遥感图像场景分类方法

技术领域

本发明属于图像处理领域，尤其涉及一种基于马尔科夫链蒙特卡洛与变分推断的半贝叶斯深度学习遥感场景分类方法。

背景技术

遥感图像分类是遥感领域的一个重要的研究方向之一，被广泛用于地质勘测、灾害监测、交通监管以及全球气温变化等多个应用领域。因此，对遥感图像分类的深入研究对未来社会的发展有着重要的应用价值。针对遥感图像的分类算法种类繁多，例如ISODATA、K均值、最小距离、最大似然等算法。根据上述分类算法的原理和侧重点不同将其分为监督与非监督、参数与非参数、基于像元、亚像元和对象等不同的几种类别。但是随着遥感技术的不断进步，遥感图像的空间分辨率不断提升，使得遥感图像所包含的地物目标细节更加明显、地物光谱特征更加复杂，导致传统的遥感图像场景分类算法的分类准确率降低。

近年来，随着深度学习理论在图像处理、模式识别、和机器学习领域的不断发展，研究学者开始将深度学习理论应用于遥感图像分类问题中。其中，卷积神经网络作为深度学习中典型的深度神经网络，提取到的特征能够涵盖全面的语义信息，同时具有一定的平移不变性和旋转不变性，鲁棒性强。因此，可以被用于遥感图像的分类问题上。

公开号CN103345643A一种遥感图像分类方法，通过分割得到多个图像块集合，人工标注部分图像块，然后利用图像块分类模型和图像像素点分类模型来构造一个过滤筛选器，以此能够从矛盾样本池中筛选出信息量较大的样本。该方法和随机采样以及经典的边缘采样主动学习方法相比，图像分类结果更加准确，但是，该方法要对图像进行复杂的预处理，并且需要人为进行图像标注，效率低下。

公开号CN108596248A一种基于改进深度卷积神经网络的遥感影像分类模型，对待输入遥感影像进行降维，降低深度卷积神经网络遥感影像分类模型训练时的卷积计算量；同时，针对遥感影像的空间相关性，构建通道洗牌结构，提升分组卷积阶段神经网络的特征提取能力。针对遥感影像的空间位置特征，提高了可深度卷积神经网络模型对遥感影像的空间位置特征识别度。但是这种方法仍然采用点估计权重参数的形式，缺乏对于不确定性的表征能力，容易造成过拟合。

向泽君等人在2019年《计算机工程与设计》上发表基于IFCM(improved Fuzzy C-means)聚类与变分推断的遥感影像分类论文。该论文针对高分影像地物繁多，特征混杂导致现有模糊C均值算法稳定性差、分类精度低的问题，提出一种IFCM聚类与变分推断结合的遥感影像分类算法。在聚类分割目标函数计算阶段，考虑像素区域特征的同时，邻域像元采用吸引力模型进行距离测度；特征提取阶段使用空间像素模板法提取像斑特征点，基于贝叶斯统计中的变分推断逼近参数后验分布，获取较好的影像分类结果。但是该算法单纯依靠变分推断逼近算法的后验分布，近似分布没有准确性的保证，算法鲁棒性不强。

综上，现有的遥感图像场景分类方法，存在的诸多局限性主要表现在：

(1)特征提取复杂且低效：传统的分类方法需要借助不同的图像特征提取算法，提取图像的各种类型的特征，过程繁琐复杂。同时这些分类算法一般只具有浅层的结构，学习到的表达特征不能全面涵盖遥感图像信息，存在冗余信息，其分类性能和泛化能力都明显不足。

(2)缺少对预测不确定性的度量：现有的应用于遥感分类的卷积神经网络模型采用点估计的方法表示权重，在经过大量的训练过后能较好地拟合训练图像样本，但是却会在测试图像样本上造成过拟合的现象，无法正确预测图像标签。

(3)变分推断得到近似分布函数与真实分布函数之间存在偏差：对于贝叶斯估计方法，一般采用变分推断方法来近似分布函数，但是近似分布函数无法保证和真实分布函数之间近似的效果，算法鲁棒性不足，分类性能差。

发明内容

发明目的：针对现有技术中存在的问题，本发明提供一种基于马尔科夫链蒙特卡洛与变分推断的半贝叶斯深度学习遥感场景分类方法。该方法可以避免传统复杂的特征提取过程，同时利用半贝叶斯深度学习的方法，把深度卷积神经网络中的部分权重参数当成随机变量，在网络模型中引入不确定性，避免了过拟合现象，增强了网络模型的鲁棒性，增加预测分类的准确性。

技术方案：为实现本发明的目的，本发明所采用的技术方案是：一种基于马尔科夫链蒙特卡洛与变分推断的半贝叶斯深度学习遥感场景分类方法，包含训练阶段和测试阶段，具体步骤如下：

(1)构建遥感图像数据集，制作每个输入样本对应的标签类别，同时随机打乱数据集，将每类遥感场景图像数据集分为训练集Train和测试集Test；

(2)选择搭建八层的半贝叶斯卷积神经网络，其中第二层卷积层、第四层卷积层以及最后的三层全连接层的权重参数，以高斯分布的方式来表示，剩下的第一层卷积层、第三层卷积层和第五层卷积层的权重参数使用单点分布的方式来表示；

(3)使用训练集对半贝叶斯卷积神经网络进行第一次训练，利用变分推断的方法，对于步骤(2)中以高斯分布表示的权重参数，随机初始化高斯分布来模拟真实的权重参数的高斯分布，对以单点分布表示的权重参数，随机初始化单点的值，通过最小化KL散度(Kullback-Leibler divergence)的方式进行权重分布的更新，得到整个网络模型近似的权重参数分布；

(4)使用训练集对半贝叶斯卷积神经网络进行第二次训练，利用马尔科夫链蒙特卡洛(Markov Chain Monte Carlo，MCMC)在步骤(3)中得到的近似的权重参数分布上进行多次的采样迭代，通过最小化变分对比散度的方式进行权重分布的更新，得到更为准确的近似的权重参数分布，完成模型的训练；

(5)将测试集输入到步骤(4)中的训练好的半贝叶斯卷积神经网络中，通过多次对权重参数采样得到每张图像的分类预测集合；

(6)将步骤(5)中每张图像的分类预测集合进行整合统计，选取最优分类结果作为图像的分类预测标签。

其中，步骤(1)中的构建样本集合和集合分类方法如下：

(1.1)构建X＝{x_i|i＝1,2,...,N}为输入的遥感图像数据样本，Y＝{y_i|i＝1,2,...,N}为输入的遥感图像数据样本对应的类别标签集合，y_i∈R^c表示标签向量，C为总的标签类别，N为总的训练样本数量；

(1.2)将每类数据集分为训练集部分Train和测试集部分Test，假设数据集中每个类别的图片数量为n，从每个类别的遥感图像中随机抽取m张图片构建训练集

剩下的n-m张图片构成测试集

下标i表示图片属于哪一类别，下标j表示图片的数目排序。

其中，步骤(2)中的半贝叶斯卷积神经网络结构如下：

(2.1)在输入层中，将每一个遥感场景图像归一化为227×227×3大小的RGB图像格式；

(2.2)在第一层的卷积层中，定义96个尺寸为11×11×3的卷积核，设定步长为4，不扩充边缘；在layer1的池化层，池化方法设为MAX pooling；

(2.3)在第二层layer2的卷积层中，定义256个尺寸为5×5×48的卷积核，步长定为1，填充值为2；在layer2的池化层，池化方法设为MAX pooling；

(2.4)在第三层的卷积层中，定义384个尺寸为3×3×256的卷积核，步长定为1；

(2.5)在第四层的卷积层中，定义384个尺寸为3×3×192的卷积核，步长定为1；

(2.6)在第五层的卷积层中，定义256个尺寸为3×3×128的卷积核，步长定为1；在layer5的池化层，池化方法设为MAX pooling；

(2.7)第六层为全连接层，神经元个数为4096个；

(2.8)第七层为全连接层，神经元个数为2048个；

(2.9)第八层为全连接层，神经元个数为图像分类类别的数目；

当初始化参数时，第二层的卷积层、第四层的卷积层以及最后三层的全连接层的权重参数均采用高斯分布的形式来表示，剩下层数的权重参数则以单点分布的方式表示。

其中，步骤(3)中，第一次训练得到近似的权重参数分布的方法如下：

(3.1)通过变分推断方法，设定w为网络中的权重参数，包含高斯分布和单点分布两种权重的分布形式，D为已知的数据集，即训练集，p(w|D)为在训练集D下w真实的权重参数分布，即后验分布，q_θ(w|D)为设计的在训练集D下w的近似的权重参数分布，设定总参数θ＝{μ,σ²,α}，μ为w中高斯分布权重的期望，σ²为w中高斯分布权重的方差，α为w中点数分布权重的数值，q_θ(w|D)和p(w|D)之间的近似程度通过KL散度KL[q_θ(w|D)||p(w|D)]来衡量，具体为：

p(w|D)≈q_θ(w|D)

结合贝叶斯公式，定义p(w)为随机初始化w的权重分布，即先验分布，p(D|w)是在当前权重分布w下，正确分类训练集D得到的概率分布，即似然分布，p(D)为考虑所有可能模型正确预测训练集D的值，是一个固定值，在w取值空间中，通过计算所有值对应的似然分布p(D|w)得到：

p(D)＝∫p(D|w)p(w)dw

利用上式，通过最小化近似权重分布q_θ(w|D)和后验权重分布p(w|D)的KL散度KL[q_θ(w|D)||p(w|D)]来优化总参数θ，D为训练集，w为权重参数，其中θ^opt表示优化目标θ，

表示当函数f(x)取最小值时，参数θ的取值：

其中，

是基于近似分布q_θ(w|D)下的似然分布p(D|w)的对数期望，所有模型正确预测训练集概率p(D)的对数logp(D)为固定值，p(w)为权重参数w的先验分布；

(3.2)为了对权重参数w进行训练，需要从近似的权重参数分布q_θ(w|D)中对权重参数w进行采样，得到确定的值然后进行前向传播；

反向传播过程中，对于表示为高斯分布形式的权重参数w，直接采样会导致表示为w～N(μ,σ²)中期望μ和方差σ²不可导，导致网络无法训练，所以引入局部重参数化的方法，设定随机变量ε～N(0,1)，将权重参数w表示为关于变量ε的函数f(ε)，*代表卷积操作，令

f(ε)＝w＝ε*σ+μ,ε～N(0,1)

然后从标准高斯分布ε～N(0,1)中采样，可导地引入μ和σ²，f代表训练的优化函数，η代表学习率，△μ和△σ为期望和均方差的梯度，通过这种方式更新高斯分布权重参数w中的期望μ和方差σ²：

μ＝μ-η△μ

σ＝σ-η△σ

对于表示为单点分布形式的权重参数w，α为w中点数分布权重的数值，f代表训练的优化函数，η代表学习率，△α为α的梯度，α被更新为：

α＝α-η△α

(3.3)综合上述内容，设定训练的优化函数f表示为总参数θ和训练集D的函数F(D,θ)，M为采样的总数，w⁽ⁱ⁾为第i次采样的权重参数，q_θ(w⁽ⁱ⁾|D)为第i次采样权重参数w⁽ⁱ⁾在训练集D下的近似权重参数分布值，p(w⁽ⁱ⁾)为第i次采样的权重参数w⁽ⁱ⁾的初始化的先验分布值，p(D|w⁽ⁱ⁾)为在第i次采样的权重参数w⁽ⁱ⁾下训练集D的预测概率的似然分布值，那么近似权重分布q_θ(w|D)和后验权重分布p(w|D)的KL散度KL[q_θ(w|D)||p(w|D)]就可以转化为：

然后通过反向传播过程不断更新总参数θ＝{μ,σ²,α}，完成第一次的训练过程，得到近似权重参数分布q_θ(w|D)。

其中，步骤(4)中的，结合马尔科夫链蒙特卡洛MCMC和变分对比散度方法进行第二次模型训练，得到更为准确的近似的权重参数分布方法如下：

(4.1)设定w为网络中的权重参数，包含高斯分布和单点分布两种权重的分布形式，D为已知的数据集，即训练集，总参数θ＝{μ,σ²,α}，μ为w中高斯分布权重的期望，σ²为w中高斯分布权重的方差，α为w中点数分布权重的数值；q_θ(w|D)为第二次训练过程中在训练集D下w的近似权重参数分布，将步骤(3)中第一次训练完成得到的在训练集D下w的近似权重参数分布表示为q_θ(w₀|D)，代表变分推断分布，作为q_θ(w|D)的初始值；设定Q(w|w₀)为MCMC的转移矩阵，初始权重参数w₀经过转移矩阵变换为新的权重参数w，t为转移的次数，是设置的转移次数，Q^(t)(w|w₀)为t次转移矩阵操作，q_θ ^(t)(w|D)代表变分推断分布q_θ(w₀|D)经过t次转移矩阵Q^(t)(w|w₀)后最后得到的新分布：

q_θ ^(t)(w|D)＝∫Q^(t)(w|w₀)q_θ(w₀|D)d(w₀|D)

它模拟了真实的后验分布，并不能求出具体的数学分布，但是有助于更新近似权重参数分布q_θ(w|D)，使它更加接近真实的后验分布；

(4.2)设定L_VCD(θ)表示变分对比散度，p(w|D)为在训练集D下w真实的权重参数分布，即后验分布，考虑p(w|D)、在训练集D下w的近似变分推断权重参数分布q_θ(w|D)以及在训练集D下经过t次转换矩阵后得到近似的权重参数分布q_θ ^(t)(w|D)这三者之间的KL散度，p(D)为考虑所有可能模型正确预测训练集D的值，是一个固定值，在w取值空间中，通过计算所有值对应的似然分布得到，p(w,D)表示权重参数w和训练数据集D的联合密度分布，运用贝叶斯公式，得到变分对比散度的表达式：

其中，f_θ(w|D)为引入的关于权重参数w和训练数据集D的一个函数，定义为联合密度分布p(w,D)的对数与在训练集D下w的近似权重参数分布q_θ(w|D)的对数之差：

从在训练集D下经过t次转换矩阵后得到近似的权重参数分布q_θ ^(t)(w|D)和在训练集D下w的近似权重参数分布q_θ(w|D)中进行蒙特卡洛采样，依据样本值计算出变分对比散度L_VCD(θ)，通过后向传播过程，最小化L_VCD(θ)更新q_θ(w|D)中的参数θ，η为设定的学习率，

为变分对比散度的梯度：

经过多次迭代参数，当L_VCD(θ)收敛时，完成第二次模型的训练，得到最后的训练集D下w的近似权重参数分布q_θ(w|D)。

其中，步骤(5)中，采样得到每张图像的分类预测集合方法如下：

将测试集图像输入训练好的半贝叶斯卷积神经网络中，从训练好的模型中多次采样权重参数w，通过前向传播得到预测标签分布p(y_test|x_test)，x_test和y_test代表测试集输入图像和对应的预测标签。

其中，步骤(6)中，选取最优分类结果作为图像的分类预测标签的方法为：

(6.1)计算预测分布的期望和方差，设定w为网络中的权重参数，包含高斯分布和单点分布两种权重的分布形式，D为已知的数据集，即训练集，总参数θ＝{μ,σ²,α}，μ为w中高斯分布权重的期望，σ²为w中高斯分布权重的方差，α为w中点数分布权重的数值，其中，w⁽ⁱ⁾为第i次采样的权重参数，M为总的采样次数，q_θ(w|D)代表步骤(4)中训练完成的在训练集D下w的近似的权重参数分布，x_test和y_test代表测试集输入图像和对应的预测标签，p(y_test|x_test)代表步骤(5)中得到的预测标签的分布，p_w(y_test|x_test)代表在模型权重参数分布w下的预测标签分布，p_w(i)(y_test|x_test)代表第t次采样的权重参数w⁽ⁱ⁾下的具体的预测标签，y_test ^T代表预测标签的转置，测试集预测标签分布的期望

和方差

表示为：

(6.2)设定Label为最后的输出分类标签，ρ为方差的影响因子，z代表期望

减去方差

与影响因子乘积的值，表示为：

对z进行取整操作，得到最后的分类标签Label。

有益效果：本发明采用上述技术方案，具有以下有益效果：

(1)本发明的方法直接将原始遥感场景图像输入到深度卷积神经网络中，进行特征的自动学习，避免了对图像的复杂前期预处理和不同种类特征提取过程，减少了人为的干预过程，提取的特征具有更加丰富的语义性，涵盖了更多的图像信息，算法简单并且高效；

(2)引入了半贝叶斯的方法，把深度卷积神经网络中的部分权重参数当成随机变量，用概率分布估计来代替传统的点估计，在网络模型中引入不确定性，避免了过拟合现象，加强了算法的鲁棒性；

(3)结合马尔科夫链蒙特卡洛方法和变分推断结合的方法，把变分推断中得到的近似分布函数作为马尔科夫链蒙特卡洛的初始采样分布，利用变分对比散度优化权重参数，同时解决了变分推断近似分布函数准确性的问题和马尔科夫链蒙特卡洛耗时过长的问题，加强了算法的准确性和鲁棒性，提高了分类性能。

附图说明

图1为本发明方法的框架图。

图2为变分推断和马尔科夫链蒙特卡洛两种方法的原理图。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步的说明。

如图1所示，本发明的技术方案进一步的详细描述如下：

(1)选择半贝叶斯卷积神经网络作为遥感场景分类应用，搭建了八层半贝叶斯卷积神经网络模型，其中第二层卷积层、第四层卷积层以及最后的三层全连接层的权重参数，以高斯分布的方式来表示，剩下的第一层卷积层、第三层卷积层和第五层卷积层的权重参数使用单点分布的方式来表示。

(1.1)构建X＝{x_i|i＝1,2,...,N}为输入的遥感图像数据样本，Y＝{y_i|i＝1,2,...,N}为输入的遥感图像数据样本对应的类别标签集合，y_i∈R^c表示标签向量，C为总的标签类别，N为总的训练样本数量，本发明选用遥感场景图像公共数据集UCMerced_LandUse进行实验，该数据集包含21类遥感场景图像。

剩下的n-m张图片构成测试集

下标i表示图片属于哪一类别，下标j表示图片的数目排序，本发明取n＝100,m＝80。

(1.3)搭建一个八层半贝叶斯卷积神经网络，其中，前五层分别用layer1，layer2，layer3，layer4，layer5表示。layer1，layer2，和layer5又分别包括卷积层和池化层；layer3和layer4分别只有一个卷积层；第六层、第七层和第八层称为全连接层，分别用fc6、fc7和fc8表示。具体网络结构如下：

(a)在输入层中，将每一个遥感场景图像归一化为227×227×3大小的RGB图像格式；

(b)在第一层的卷积层中，定义96个尺寸为11×11×3的卷积核，设定步长为4，不扩充边缘；在layer1的池化层，池化方法设为MAX pooling；

(c)在第二层layer2的卷积层中，定义256个尺寸为5×5×48的卷积核，步长定为1，填充值为2；在layer2的池化层，池化方法设为MAX pooling；

(d)在第三层的卷积层中，定义384个尺寸为3×3×256的卷积核，步长定为1；

(e)在第四层的卷积层中，定义384个尺寸为3×3×192的卷积核，步长定为1；

(f)在第五层的卷积层中，定义256个尺寸为3×3×128的卷积核，步长定为1；在layer5的池化层，池化方法设为MAX pooling；

(g)第六层为全连接层，神经元个数为4096个；

(h)第七层为全连接层，神经元个数为2048个；

(i)第八层为全连接层，神经元个数为图像分类类别的数目；

考虑到权重参数的分布缺乏先验知识，选择适用这种情形的高斯分布作为权重参数的分布，但是如果将所有的权重参数都表示为高斯分布的形式会引入过多的计算成本，导致模型过于复杂难以进行训练。为了降低模型的复杂度，采用半贝叶斯的方法，在初始化参数时，将第二层的卷积层、第四层的卷积层以及最后三层的全连接层的权重参数均采用高斯分布的形式来表示，剩下层数的权重参数则以单点分布的方式表示。

(2)使用训练集对半贝叶斯卷积神经网络进行两次训练，如图2所示，变分推断和马尔科夫链蒙特卡洛算法是依据直接近似和采样统计两种不同原理求解近似分布，结合两种方法，第一次训练时利用变分推断的方法近似真实权重参数的分布，通过最小化KL散度更新权重参数得到一个近似的权重参数分布。第二次训练时把得到的近似的权重参数分布作为MCMC方法的初始值，利用多次转移矩阵得到模拟的真实后验分布，通过最小化变分对比散度的方法，更新近似分布，完成第二次网络模型的训练。

(2.1)通过变分推断方法，设定w为网络中的权重参数，包含高斯分布和单点分布两种权重的分布形式，D为已知的数据集，即训练集，p(w|D)为在训练集D下w真实的权重参数分布，即后验分布，q_θ(w|D)为设计的在训练集D下w的近似的权重参数分布，设定总参数θ＝{μ,σ²,α}，μ为w中高斯分布权重的期望，σ²为w中高斯分布权重的方差，α为w中点数分布权重的数值，q_θ(w|D)和p(w|D)之间的近似程度通过KL散度KL[q_θ(w|D)||p(w|D)]来衡量，具体为：

p(w|D)≈q_θ(w|D)

p(D)＝∫p(D|w)p(w)dw

表示当函数f(x)取最小值时，参数θ的取值：

其中，

为了对权重参数w进行训练，需要从近似的权重参数分布q_θ(w|D)中对权重参数w进行采样，得到确定的值然后进行前向传播；

f(ε)＝w＝ε*σ+μ,ε～N(0,1)

μ＝μ-η△μ

σ＝σ-η△σ

α＝α-η△α

综合上述内容，设定训练的优化函数f表示为总参数θ和训练集D的函数F(D,θ)，M为采样的总数，w⁽ⁱ⁾为第i次采样的权重参数，q_θ(w⁽ⁱ⁾|D)为第i次采样权重参数w⁽ⁱ⁾在训练集D下的近似权重参数分布值，p(w⁽ⁱ⁾)为第i次采样的权重参数w⁽ⁱ⁾的初始化的先验分布值，p(D|w⁽ⁱ⁾)为在第i次采样的权重参数w⁽ⁱ⁾下训练集D的预测概率的似然分布值，那么近似权重分布q_θ(w|D)和后验权重分布p(w|D)的KL散度KL[q_θ(w|D)||p(w|D)]就可以转化为：

(2.2)然后开始进行第二次的训练，设定w为网络中的权重参数，包含高斯分布和单点分布两种权重的分布形式，D为已知的数据集，即训练集，总参数θ＝{μ,σ²,α}，μ为w中高斯分布权重的期望，σ²为w中高斯分布权重的方差，α为w中点数分布权重的数值；q_θ(w|D)为第二次训练过程中在训练集D下w的近似权重参数分布，将第一次训练完成得到的在训练集D下w的近似权重参数分布表示为q_θ(w₀|D)，代表变分推断分布，作为q_θ(w|D)的初始值；设定Q(w|w₀)为MCMC的转移矩阵，初始权重参数w₀经过转移矩阵变换为新的权重参数w，t为转移的次数，是设置的转移次数，Q^(t)(w|w₀)为t次转移矩阵操作，q_θ ^(t)(w|D)代表变分推断分布q_θ(w₀|D)经过t次转移矩阵Q^(t)(w|w₀)后最后得到的新分布：

q_θ ^(t)(w|D)＝∫Q^(t)(w|w₀)q_θ(w₀|D)d(w₀|D)

设定L_VCD(θ)表示变分对比散度，p(w|D)为在训练集D下w真实的权重参数分布，即后验分布，考虑p(w|D)、在训练集D下w的近似变分推断权重参数分布q_θ(w|D)以及在训练集D下经过t次转换矩阵后得到近似的权重参数分布q_θ ^(t)(w|D)这三者之间的KL散度，p(D)为考虑所有可能模型正确预测训练集D的值，是一个固定值，在w取值空间中，通过计算所有值对应的似然分布得到，p(w,D)表示权重参数w和训练数据集D的联合密度分布，运用贝叶斯公式，得到变分对比散度的表达式：

为变分对比散度的梯度：

(3)对于每一张输入的测试集遥感图像，多次采样得到每张图像的分类预测集合分布，计算分布的偏置和方差值，选择最优结果作为分类预测标签。

(3.1)将测试集图像输入训练好的半贝叶斯卷积神经网络中，从训练好的模型中多次采样权重参数w，通过前向传播得到预测标签分布p(y_test|x_test)，x_test和y_test代表测试集输入图像和对应的预测标签。

(3.2)计算预测分布的期望和方差，设定w为网络中的权重参数，包含高斯分布和单点分布两种权重的分布形式，D为已知的数据集，即训练集，总参数θ＝{μ,σ²,α}，μ为w中高斯分布权重的期望，σ²为w中高斯分布权重的方差，α为w中点数分布权重的数值，其中，w⁽ⁱ⁾为第i次采样的权重参数，M为总的采样次数，q_θ(w|D)代表步骤(4)中训练完成的在训练集D下w的近似的权重参数分布，x_test和y_test代表测试集输入图像和对应的预测标签，p(y_test|x_test)代表步骤(5)中得到的预测标签的分布，p_w(y_test|x_test)代表在模型权重参数分布w下的预测标签分布，p_w(i)(y_test|x_test)代表第t次采样的权重参数w⁽ⁱ⁾下的具体的预测标签，y_test ^T代表预测标签的转置，测试集预测标签分布的期望

和方差

表示为：

(3.3)设定Label为最后的输出分类标签，ρ为方差的影响因子，z代表期望

减去方差

与影响因子乘积的值，表示为：

对z进行取整操作，得到最后的分类标签Label，将预测的分类标签Label和真实的标签进行对比，就可以得到网络模型分类预测的准确度。

本发明选用两个不同的遥感图像场景分类模型算法与提出的方法进行比较，选用的两个比较算法分别是传统的AlexNet模型算法和Vgg16模型算法。

Claims

1.一种基于马尔科夫链蒙特卡洛与变分推断的半贝叶斯深度学习遥感场景分类方法，包含训练阶段和测试阶段，其特征在于，该方法包括如下步骤：

2.根据权利要求1的一种基于马尔科夫链蒙特卡洛与变分推断的半贝叶斯深度学习遥感场景分类方法，其特征在于，步骤(1)中的构建样本集合和集合分类方法如下：

剩下的n-m张图片构成测试集

下标i表示图片属于哪一类别，下标j表示图片的数目排序。

3.根据权利要求1的一种基于马尔科夫链蒙特卡洛与变分推断的半贝叶斯深度学习遥感场景分类方法，步骤(2)中，半贝叶斯卷积神经网络结构如下：

(2.7)第六层为全连接层，神经元个数为4096个；

(2.8)第七层为全连接层，神经元个数为2048个；

4.根据权利要求1的一种基于马尔科夫链蒙特卡洛与变分推断的半贝叶斯深度学习遥感场景分类方法，步骤(3)中，第一次训练得到近似的权重参数分布的方法如下：

p(w|D)≈q_θ(w|D)

p(D)＝∫p(D|w)p(w)dw

表示当函数f(x)取最小值时，参数θ的取值：

其中，

f(ε)＝w＝ε*σ+μ,ε～N(0,1)

μ＝μ-η△μ

σ＝σ-η△σ

α＝α-η△α

(3.3)设定训练的优化函数f表示为总参数θ和训练集D的函数F(D,θ)，M为采样的总数，w⁽ⁱ⁾为第i次采样的权重参数，q_θ(w⁽ⁱ⁾|D)为第i次采样权重参数w⁽ⁱ⁾在训练集D下的近似权重参数分布值，p(w⁽ⁱ⁾)为第i次采样的权重参数w⁽ⁱ⁾的初始化的先验分布值，p(D|w⁽ⁱ⁾)为在第i次采样的权重参数w⁽ⁱ⁾下训练集D的预测概率的似然分布值，那么近似权重分布q_θ(w|D)和后验权重分布p(w|D)的KL散度KL[q_θ(w|D)||p(w|D)]就可以转化为：

5.根据权利要求1的一种基于马尔科夫链蒙特卡洛与变分推断的半贝叶斯深度学习的遥感场景分类方法，步骤(4)中的，结合马尔科夫链蒙特卡洛MCMC和变分对比散度方法进行第二次模型训练，得到更为准确的近似的权重参数分布方法如下：

q_θ ^(t)(w|D)＝∫Q^(t)(w|w₀)q_θ(w₀|D)d(w₀|D)

为变分对比散度的梯度：

6.根据权利要求5的一种基于马尔科夫链蒙特卡洛与变分推断的半贝叶斯深度学习遥感场景分类方法，步骤(5)中，采样得到每张图像的分类预测集合方法如下：将测试集图像输入训练好的半贝叶斯卷积神经网络中，从训练好的模型中多次采样权重参数w，通过前向传播得到预测标签分布p(y_test|x_test)，x_test和y_test代表测试集输入图像和对应的预测标签。

7.根据权利要求6的一种基于马尔科夫链蒙特卡洛与变分推断的半贝叶斯深度学习遥感场景分类方法，步骤(6)中，选取最优分类结果作为图像的分类预测标签的方法为：

(6.1)计算预测分布的期望和方差，设定w为网络中的权重参数，包含高斯分布和单点分布两种权重的分布形式，D为已知的数据集，即训练集，总参数θ＝{μ,σ²,α}，μ为w中高斯分布权重的期望，σ²为w中高斯分布权重的方差，α为w中点数分布权重的数值，其中，w⁽ⁱ⁾为第i次采样的权重参数，M为总的采样次数，q_θ(w|D)代表步骤(4)中训练完成的在训练集D下w的近似的权重参数分布，x_test和y_test代表测试集输入图像和对应的预测标签，p(y_test|x_test)代表步骤(5)中得到的预测标签的分布，p_w(y_test|x_test)代表在模型权重参数分布w下的预测标签分布，

代表第t次采样的权重参数w⁽ⁱ⁾下的具体的预测标签，y_test ^T代表预测标签的转置，测试集预测标签分布的期望

和方差

表示为：

减去方差

与影响因子乘积的值，表示为：

对z进行取整操作，得到最后的分类标签Label。