CN111079847B

CN111079847B - 一种基于深度学习的遥感影像自动标注方法

Info

Publication number: CN111079847B
Application number: CN201911332974.9A
Authority: CN
Inventors: 赫晓慧; 李盼乐; 程淅杰; 邱芳冰; 李志强; 乔梦佳; 李代栋
Original assignee: Zhengzhou University
Current assignee: Zhengzhou University
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2023-05-02
Anticipated expiration: 2039-12-20
Also published as: CN111079847A

Abstract

本发明涉及一种基于深度学习的遥感影像自动标注方法，包括以下步骤：将从电子地图中获取的遥感影像进行配准，获取对应遥感影像中的建筑物和道路的矢量数据；将获取的矢量数据转化为栅格影像，用于模型训练的含有噪声的数据集；通过滑动窗口将原始数据集进行剪裁，利用剪裁得到的数据集对多任务深度学习模型(MDLF)进行训练，通过对该深度神经网络进行调整，得到最优的训练模型，得到训练好的多任务深度学习模型；将待测试的遥感影像输入至深度神经网络；通过深度神经网络对测试集进行遥感影像分类输出结果，从而得到待测遥感影像的目标识别结果；本发明不需要设置大量的网络训练参数，结构简单，训练速度快。

Description

一种基于深度学习的遥感影像自动标注方法

技术领域

本发明属于遥感影像标记技术领域，具体涉及一种基于深度学习的遥感影像自动标注方法。

背景技术

近年来，在大数据和计算能力的支撑下，深度学习在众多领域均取得了突破性进展。在遥感影像解译领域，深度学习技术也受到了广泛关注和应用，国内外诸多研究者进行了有益的探索，表明了深度学习技术在遥感图像解译领域的应用潜力。

从遥感影像中提取物体是一个非常受欢迎的主题，因为该技术具有广泛的应用，例如城市规划，土地利用分析，救灾和自动地图制作。卷积神经网络(CNNs)被认为是最成功的图像分类模型之一。然而，使用CNN方法的主要缺点是需要大量的标记数据用于训练。繁琐的标记过程阻碍了这些完全监督的方法在遥感影像分类中的应用。直到最近，也没有对遥感影像的大量标记和准确的训练数据被公开。

为了克服这个限制，一些组织提出了使用构建神经网络训练数据集的方法，用于遥感影像分类。这种技术显著降低了标记的成本，由于OpenStreetMap和GoogleMaps等地图的使用，几乎可以无限数量的注释。但是，由于各种类型的噪声，这些数据集的标签极其不可靠，对CNN的分类准确性产生不利影响。

处理噪声标签的一种非常常见的方法是使用噪声数据预先训练网络，然后使用准确的数据集对网络进行微调。然而，当准确标签的数量有限时难以获得良好的性能。噪声标签问题具有挑战性，因为该问题导致分类结果不准确。解决该问题的主要方法是提高模型对标签噪声存在的鲁棒性。目前，已经研究出了通过正则化的许多变异体用来增强CNN的稳健性。Azadi等人利用图像下的非线性流形结构，并为CNN提供了一种新颖的辅助图像正则化器(AIR)来处理标签噪声。在遥感领域，Saito等人使用不同类别的相关性来规范损失，并提出用于训练CNN的信道方式抑制softmax(CIS)损失。魏等人发现了基于道路结构的损失，以改善CNN的噪声稳健性。这些方法通过在损耗中添加额外结构信息来改善模型噪声稳健性。这些研究人员在马萨诸塞州的数据集上进行了实验，并取得了很好的成绩。然而，这些方法不能充分利用CNN获得的高级特征，因此，长时间的训练会导致性能下降。

另一个突出的方法是明确建模标签噪声并减小神经网络训练中的负面影响。Mnih和Hinton以及Mnih将(未知)真实标签视为隐藏变量并构建了用于航空图像分类的噪声模型。这种方法可以增强CNN对抗噪声和配准噪声的鲁棒性。但是，这种方法只能解决二进制分类问题。在类似的情况下，Bekker和Goldberger定义了多标签分类问题的概率模型，而赵等人提出了一种概率转移CNN(PTCNN)来自动分类SAR图像。最近，Sukhbaatar、Sukhbaatar和Fergus等人提出了一种简单有效的噪声模型来处理神经网络背景下的噪声标签。这些研究人员在网络顶部添加了一个softmax层来估计标签切换的概率。已经应用类似的方法来提高逻辑回归对标记噪声的鲁棒性。虽然模拟标签噪声的方法表现出良好的性能，但这些方法认为标签噪声有条件地依赖于真实标签。大多数现有的噪声标签处理方法被设计用于一般计算机视觉应用，并不能直接扩展到遥感影像分类，因为遥感影像太复杂而不能精确分类。

发明内容

本发明的目的是克服现有技术的不足而提供一种实现高精度的语义标记的基于深度学习的遥感影像自动标注方法。

本发明的技术方案如下：

一种基于深度学习的遥感影像自动标注方法，其特征在于，包括以下步骤：

S1、将从电子地图中获取的遥感影像进行配准，获取对应遥感影像中的建筑物和道路的矢量数据；

S2、将步骤S1中获取的矢量数据转化为栅格影像，用于对含有噪声影像的数据集的训练；

S3、通过大小为24*24的滑动窗口将大小为1500*1500的对S2中的含有噪声标签的影像数据集进行裁剪，所有的原始影像裁剪为92*92的影像样本，标签裁剪为24*24的标签样本；

S4、利用S3步骤所得的数据集对多任务深度学习模型(MDLF)进行训练，通过对该深度神经网络进行调整，得到最优的训练模型，得到训练好的多任务深度学习模型(MDLF)；

S5、将待测试的遥感影像输入至深度神经网络；

S6、通过深度神经网络对测试集进行遥感影像分类输出结果，从而得到待测遥感影像的目标识别结果。

进一步，所述数据集包括含有噪声标签的影像数据集和标签数据集，所述标签数据集包括道路标签、建筑物标签和背景标签，所述含有噪声标签的影像数据集和标签数据集的像素均为三通道，所述标签数据集中每个标签的每个像素对应特定的类别，具体的，标签数据集中对应目标像素的元素赋值为1，其余赋值为0；所述标签数据集的每个像素为一特征向量；所述的特征向量根据以下步骤确定各个遥感影像的特征向量：：

首先，判断所述标签数据集中每个标签的每个像素的值，使得每个像素都属于一个类别；

其次，根据遥感影像的类别，对每一个像素进行赋值，将对应维数的元素赋值为1，其余赋值为0，即得到该遥感影像的标签。

进一步，在步骤S4中，多任务深度学习模型(MDLF)是包括噪声估计器和用于图像分类的特征提取器；

所述特征提取器从输入图像中提取抽象和高级特征；

所述噪声估计器对噪声空间中的结构进行建模，并根据所述高级特征来学习从真实标签到噪声标签的映射；

对所述多任务深度学习模型(MDLF)进行训练的具体方式为，将数据集输入到模型的输入层，其中模型前一层输出作为后一层的输入，实现端到端的无监督学习，具体的，首先将遥感影像输入到多任务深度学习模型(MDLF)，从输入图像中提取抽象和高级的特征并进行图像的注释，最后通过对该深度神经网络进行调整，得到最优的训练模型。

进一步，所述特征提取器包含五层，包括三个卷积层(C1，C2和C3)和两个最大池化层(P1和P2)，具体的，所述特征提取的公式描述为：

y＝f(s；θ₁)，

其中，s表示模型的输入(即遥感影像)，θ₁表示特征提取器的参数；

图像分类器包含完整连接层(F1)，包括4,096个神经单元，以及softmax层(S1)，S1具有1,152/1,728个单元，分别用于两个分类和三个分类；

其中图像分类器将输出特征作为该目标分类层的输入，同时将目标的类别数量作为目标分类层输出，在该目标分类层中，softmax层进行目标分类，其表达式为：

其中，θ₁标识分类器中的所有参数，Φ_j(y)是线性层第j个输出，Φ_a(y)是线性层第a个输出；

所述图像分类器的输出p(m|y)，是一个K*w₁维度向量，用于编码标签图像中每个像素的视觉呈现的可能性，其中K是标签类别的数量。

进一步，所述噪声估计器包含三个完整的连接层(F2，F3和F4)，F2有2,034/5,184个神经单位，描述了从真实标签到噪声标签的转换概率，F3和F4分别具有4,096和1,152/1,728个神经元；

噪声估计模型由噪声估计器转换的真正标签与噪声标签

匹配，噪声估计顶部

用于捕捉真实标签、高级特征和噪声标签之间的依赖关系；

噪声估计模型包括基于真实标签的估计p(m|m)和基于特征的估计p(m|y)；

采用基于真实标签的估计器捕获真实标签和嘈杂标签之间的依赖关系；

采用基于特征的估计器描述高级特征和噪声标签之间的统计依赖性；

所述噪声估计模型的公式描述为，

其中，μ_ja和υ_j是权重和偏置；

对上式进行简化，采用θ₃，

标识基于特征的估计器中的所有参数，θ₃，

的表达式为，

采用基于真正的标签的估计器描述真实标签和噪声标签之间的关系，基于特征的估计器估计高级特征对噪声标签的重要性；

采用噪声估计器末端的隐藏线性层组合

和

将真实标签转换为噪声标签，其公式描述为，

进一步，还包括，对具有目标分类层的多任务深度学习模型(MDLF)进行参数调整，得到最优的多任务深度学习模型(MDLF)。

进一步，在进行所述参数调整时，将训练遥感影像输入至所述深度神经网络，得到相应的预测值，计算所述预测值与所述训练遥感影像的真实值之间的差值，得到差值函数，根据所述差值函数确定优化目标函数，接着，计算优化目标函数对于参数的梯度值，根据所述梯度值，利用梯度下降算法进行参数调整，得到优化的多任务深度学习模型(MDLF)参数。

进一步，通过组合交叉熵函数和图像的高级特征来提出新的损失函数以学习参数θ＝{θ₁，θ₂，θ₃}；

首先，得出m，m和y的联合分布条件：

概率分布p(y|s)高级特征y在s上的概率分布p(m|y)的语义意义表示真实标签与高级特征之间的关系；

噪声标签的条件概率可以从m，m和y的联合分布条件得到：

根据最大似然原理，定义基于交叉熵和高级特征(CE-HF)的损失函数，其公式描述为，

其中，D表示训练数据集，N代表训练样本的数量，sn和n是第n张训练图像和相应标签图中的训练样本；

其中，高级特征(CE-HF)包括两个部分，即p(m|y)和

具体的，p(m|y)将真实标签信息贡献给损失函数，

有助于获得嘈杂标签信息的损失功能；

当训练数据的risk指最小时，定义最优分类器函数，其公式描述为，

当

达到训练数据集的最小值时，得到最优参数θ；

在计算优化目标函数对于参数的梯度值时，使用随机梯度下降(SGD)来更新参数θ，高级特征(CE-HF)对参数υ_ka梯度值的公式描述为，

其中，

相应的，高级特征(CE-HF)对参数υ_ka，g_k和g_k梯度值的公式描述为，

对上式进行多次迭代计算即可得到最优的网络模型。

进一步，还包括，将测试数据输入至所述最优的网络模型中，进行目标分类测试。

与现有技术相比，本发明的有益效果是：

本发明的高级特征(CE-HF)通过反向传播传递框架的所有部分，增强噪声估计器以捕获噪声分布，同时促进图像分类器很好地对像素进行分类，基于高级特征提出的损失函数用于模型学习的图像特征，同时减少了噪声附加激活；本发明，从电子地图中获取的遥感影像进行配准，获取对应遥感影像中的建筑物和道路的矢量数据，利用矢量数据与影像的配准获得好友训练的数据集；利用训练数据集进行影像的高级特征提取，之后通过噪声估计模型捕获高级特征和噪声标签之间的依赖性，减小噪声对训练的影像，模型训练结束后，通过目标分类层进行目标的分类，最后通过对该深度神经网络进行调整，得到最优的训练模型，最后利用最优的模型对大规模的遥感影像进行目标自动标记，从而实现利用含有噪声的数据集得到大规模没有噪声的数据集。

具体实施方式

下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

S4、利用S3所得到的数据集对多任务深度学习模型(MDLF)进行训练，通过对该深度神经网络进行调整，得到最优的训练模型，得到训练好的多任务深度学习模型(MDLF)；

S5、将待测试的遥感影像输入至深度神经网络；

所述电子地图为OpenstreetMap(OSM)和Bing地图，在进行步骤S1时，首先利用OpenStreentMap获得大量影像的矢量数据，然后从Bing地图中下载高精度的遥感影像，利用矢量数据与影像的配准获得好友训练的数据集。

本实施例中，所述数据集包括含有噪声标签的影像数据集和标签数据集，所述标签数据集包括道路标签、建筑物标签和背景标签，所述含有噪声标签的影像数据集和标签数据集的像素均为三通道，所述标签数据集中每个标签的每个像素对应特定的类别，具体的，标签数据集中对应目标像素的元素赋值为1，其余赋值为0；所述标签数据集的每个像素为一特征向量；所述的特征向量根据以下步骤确定各个遥感影像的特征向量：：

首先，判断所述标签数据集中每个标签的每个像素的值，对每个像素值找到对应的类别进行分类；

本实施例中，在步骤S4中，多任务深度学习模型(MDLF)是包括噪声估计器和用于图像分类的特征提取器；

所述特征提取器从输入图像中提取抽象和高级特征；

本实施例中，所述特征提取器包含五层，包括三个卷积层(C1，C2和C3)和两个最大池化层(P1和P2)，具体的，所述特征提取的公式描述为：

y＝f(s；θ₁)，

本实施中，所述噪声估计器包含三个完整的连接层(F2，F3和F4)，F2有2,034/5,184个神经单位，描述了从真实标签到噪声标签的转换概率，F3和F4分别具有4,096和1,152/1,728个神经元；

噪声估计模型由噪声估计器转换的真正标签与噪声标签

匹配，噪声估计顶部

用于捕捉真实标签、高级特征和噪声标签之间的依赖关系；

所述噪声估计模型的公式描述为，

其中，μ_ja和υ_j是权重和偏置；

对上式进行简化，采用θ₃，

标识基于特征的估计器中的所有参数，θ₃，

的表达式为，

采用噪声估计器末端的隐藏线性层组合

和

将真实标签转换为噪声标签，其公式描述为，

本实施中，还包括，对具有目标分类层的多任务深度学习模型(MDLF)进行参数调整，得到最优的多任务深度学习模型(MDLF)。

本实施例中，在进行所述参数调整时，将训练遥感影像输入至所述深度神经网络，得到相应的预测值，计算所述预测值与所述训练遥感影像的真实值之间的差值，得到差值函数，根据所述差值函数确定优化目标函数，接着，计算优化目标函数对于参数的梯度值，根据所述梯度值，利用梯度下降算法进行参数调整，得到优化的多任务深度学习模型(MDLF)参数。

本实施例中，通过组合交叉熵函数和图像的高级特征来提出新的损失函数以学习参数θ＝{θ₁，θ₂，θ₃}；

首先，得出m，m和y的联合分布条件：

噪声标签的条件概率可以从m，m和y的联合分布条件得到：

其中，高级特征(CE-HF)包括两个部分，即p(m|y)和

具体的，p(m|y)将真实标签信息贡献给损失函数，

有助于获得嘈杂标签信息的损失功能；

当

达到训练数据集的最小值时，得到最优参数θ；

其中，

对上式进行多次迭代计算即可得到最优的网络模型。

在测试阶段，所有特征图都被重新整形为24×24×K堆叠在一起，每个像素具有类似于多类分类中的类分布的预测向量；通过softmax函数对其进行归一化；归一化矢量的每个元素指示像素被分类的概率；在训练中，使用包含相对噪声的标记数据来进行损失函数的最优化；

模型以端到端的方式进行培训，不使用预处理或后处理，使用stochas-tic梯度下降训练网络，其中2个图像作为小批量，权重以学习率0.0001更新，每200k次迭代将学习率降低0.1，动量初始化为0.9，并且在200次迭代后除以100，。所有滤波器的权重都用均匀的随机数初始化，所有的偏差都用零初始化。

尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的遥感影像自动标注方法，其特征在于，包括以下步骤：

S4、利用经过步骤S3剪裁处理后得到的数据集对多任务深度学习模型(MDLF)进行训练，通过对该深度神经网络进行调整，得到最优的训练模型，得到训练好的多任务深度学习模型(MDLF)；

S5、将待测试的遥感影像输入至深度神经网络；

S6、通过深度神经网络对测试集进行遥感影像分类输出结果，从而得到待测遥感影像的目标识别结果；

在步骤S4中，多任务深度学习模型(MDLF)是包括噪声估计器和用于图像分类的特征提取器；

所述特征提取器从输入图像中提取抽象和高级特征；

2.根据权利要求1所述的基于深度学习的遥感影像自动标注方法，其特征在于：所述数据集包括含有噪声标签的影像数据集和标签数据集，所述标签数据集包括道路标签、建筑物标签和背景标签，所述含有噪声标签的影像数据集和标签数据集的像素均为三通道，所述标签数据集的每个像素为一特征向量；所述的特征向量根据以下步骤确定各个遥感影像的特征向量：

3.根据权利要求1所述的基于深度学习的遥感影像自动标注方法，其特征在于：所述特征提取器包含五层，包括三个卷积层C1,C2和C3和两个最大池化层P1和P2，具体的，所述特征提取的公式描述为：

y＝f(s；θ₁)，

其中，s表示模型的输入，即遥感影像，θ₁表示特征提取器的参数；

图像分类器包含完整连接层F1，包括4,096个神经单元，以及softmax层S1，S1具有1,152或1,728个单元，分别用于两个分类和三个分类；

其中图像分类器将输出特征作为该目标分类层的输入,同时将目标的类别数量作为目标分类层输出,在该目标分类层中,softmax层进行目标分类,其表达式为：