CN115063695A

CN115063695A - 基于强化学习的遥感样本迁移方法

Info

Publication number: CN115063695A
Application number: CN202210984607.2A
Authority: CN
Inventors: 彭哲; 段红伟; 邹圣兵
Original assignee: Beijing Shuhui Spatiotemporal Information Technology Co ltd
Current assignee: Beijing Shuhui Spatiotemporal Information Technology Co ltd
Priority date: 2022-08-17
Filing date: 2022-08-17
Publication date: 2022-09-16
Anticipated expiration: 2042-08-17
Also published as: CN115063695B

Abstract

本发明公开一种基于强化学习的遥感样本迁移方法，该方法包括：S1从第一影像和第二影像上分别获取第一样本集和第二样本集；S2构建包括样本筛选模块和任务模块的强化学习模型；S3基于地学知识分别对第一影像和第二影像进行适应性划分，得到第一影像和第二影像的地学参照数据；S4将所述第一样本集、所述第二样本集、第一影像的地学参照数据和第二影像的地学参照数据输入至所述强化学习模型，对所述强化学习模型进行迭代训练，得到训练好的强化学习模型；S5使用所述训练好的强化学习模型的任务模块对第二影像进行任务处理。该方法通过构建强化学习模型，并引入地学知识训练强化学习模型，实现了顾及遥感样本特性的从源域到目标域的样本迁移。

Description

基于强化学习的遥感样本迁移方法

技术领域

本发明涉及遥感影像处理领域，具体涉及一种基于强化学习的遥感样本迁移方法。

背景技术

近年来，遥感技术的飞速发展推动了遥感技术在各个领域的广泛应用。其中，多颗卫星的对地实时监测为整个遥感领域的发展提供了海量多元遥感影像数据支持，奠定了遥感技术飞速发展的基础。有效的利用海量遥感影像数据是遥感领域发展的重要方向之一。

目前，遥感技术被广泛应用于森林资源规划、农作物估产、环境评估、灾害监测等地学应用中。最热门的技术发展方向为结合人工智能快速自动完成各类地物分类、地物分割、目标检测以及变化检测等任务。该领域有着巨大的发展前景。然而，训练网络模型需要大量的已标注训练样本。获取训练样本是一个耗时耗力的过程。

通过迁移学习能够将源域已标注的大量样本应用于目标域，迁移方法主要包括四大类：基于样本的迁移、基于模型的迁移、基于特征的迁移和基于关系的迁移。在基于样本的迁移中，使用不同的训练样本对于迁移学习的效果有着不同的影响。筛选最适于迁移的样本能够大大提高迁移学习的效果，从而能够最大化已标注样本的利用率，无需在目标域开展耗时耗力的样本标注工作。通过对样本价值的量化能够实现逐样本的精准筛选。

通过留一法可以对具体的样本进行价值评估，并根据估值进行样本筛选，然而留一法有以下两个缺点：（1）需要消耗大量的计算，效率低、工程实用性低下；（2）当两个样本差异较小时，该方法会低估所述样本的价值，导致精度低下。其余的评估方法如DataShapley方法，同样面临着计算复杂度高的问题。另一方面，遥感地物本身有着其特殊的地学特性，在机器学习应用中，所述地学特性的价值并没有得到充分的利用。

发明内容

本发明提出一种基于强化学习的遥感样本迁移方法，能够解决上述现有技术的问题，构建了包括样本筛选模块和任务模块的强化学习模型，通过样本筛选模块对第一样本进行优选，得到适用于第二样本域任务的第一样本，通过将上述第一样本输入任务模块并引入遥感地学知识辅助训练，得到训练好的强化学习模型，使用所述训练好的强化学习模型的任务模块对第二影像进行任务处理。实现了使用少量第二样本和遥感地学知识完成第一样本域向第二样本域的样本迁移。实现了顾及遥感样本特性的迁移学习。强化学习智能体也能够通过历史策略和动作实现持续学习，对不同样本域的样本进行快速的迁移。

为实现上述技术目的，本发明的技术方案如下：

一种基于强化学习的遥感样本迁移方法，该方法包括以下步骤：

S1 从第一影像和第二影像上分别获取第一样本集和第二样本集，所述第一样本集包括多个第一样本，所述第二样本集包括多个第二样本；

S2 构建包括样本筛选模块和任务模块的强化学习模型；

S3 基于地学知识分别对第一影像和第二影像进行适应性划分，得到第一影像的地学参照数据和第二影像的地学参照数据；

S4 将所述第一样本集、所述第二样本集、第一影像的地学参照数据和第二影像的地学参照数据输入至所述强化学习模型，对所述强化学习模型进行迭代训练，直至训练结束，得到训练好的强化学习模型；

其中，在所述迭代训练中，利用样本筛选模块对第一样本集进行样本筛选，利用筛选出的样本训练任务模块，利用第二样本集和第二影像的地学参照数据对任务模块进行验证，利用第一影像的地学参照数据对样本筛选模块进行验证；

S5 使用所述训练好的强化学习模型的任务模块对第二影像进行任务处理，得到任务结果。

可选地，步骤S4，包括：

S41 将所述第一样本集输入至所述样本筛选模块的价值评估网络，获得第一样本集的估值，所述第一样本集的估值为第一样本集中每个第一样本的估值，估值以概率的形式表征，且取值范围为0-1；

S42 基于第一样本集的估值和第一影像的地学参照数据，得到估值分数；

S43 将所述第一样本集和所述第一样本集的估值输入至所述样本筛选模块的采样网络，以使所述采样网络对所述样本估值进行二值化，并筛选出二值化后估值为1的样本；

S44 将所述筛选得到的样本输入至所述任务模块的任务处理网络以对任务处理网络进行训练；

S45 使用训练好的任务处理网络对第二样本集进行任务处理，得到任务处理结果；

S46 将所述第二样本集和第二影像的地学参照数据输入至所述任务模块的任务评价网络，以使所述任务评价网络以所述第二样本集和所述第二影像的地学参照数据为验证数据对所述任务处理结果进行评价并输出分数；

S47 将所述分数和估值分数输入至所述任务模块的奖惩网络，以通过奖励函数输出奖惩值；

将所述奖惩值和所述第一样本输入至所述价值评估网络，并通过所述强化学习模型中的强化学习智能体根据所述奖惩值和历史策略决定当前动作，以更改所述价值评估网络对输入样本的估值；

S48 迭代上述步骤，直至所述任务评价网络输出的分数连续预设次数大于第一预设阈值且相邻预设次数迭代的分数的的变化量小于第二预设阈值。

可选地，所述第一样本集和所述第二样本集均包括普通样本和地学适应性样本，普通样本的地物类型包括水体、房屋、道路，地学适应性样本的地物类型包括林、草、农作物。

可选地，步骤S3，包括：

根据地学适应性样本的地物类型选取地学知识，所述地学知识包括DEM高程数据、不变点和指数知识，所述指数知识包括植被指数、土壤指数、地质指数、人造特性指数、景观指数、水体指数、雪指数；

根据所选取的地学知识分别对第一影像和第二影像进行划分，获得第一影像的地学参照数据和第二影像的地学参照数据；

其中，第一影像的地学参照数据为第一样本集的地学适应性样本在第一影像上的适宜区和非适宜区，第二影像的地学参照数据为第二样本集的地学适应性样本在第二影像上的适宜区和非适宜区。

可选地，步骤S46，包括：

对任务处理结果中的普通样本地物类型，任务评价网络以所述第二样本为验证数据，对任务处理结果进行评价，得到第一评分：

其中，TP为第二样本集中正样本分类正确的像元数量，TN为第二样本集中负样本分类正确的像元数量，FP为第二样本集中正样本分类错误的像元数量，FN为第二样本集中负样本分类错误的像元数量；

对任务处理结果中的地学适应性样本地物类型，任务评价网络以所述第二样本和第二影像的地学参照数据为验证数据，对任务处理结果进行评价，得到评分：

其中，TG为适宜区分类正确的像元数量，TB为非适宜区分类正确的像元数量，FG为适宜区分类错误的像元数量，FB为非适宜区分类错误的像元数量，

和

为预设参数，

；

基于第一评分和第二评分得到输出的分数：

其中，X1为任务处理结果中普通样本地物类型所占比例，X2为任务处理结果中地学适应性样本地物类型所占比例。

可选地，步骤S42，包括：

其中N为第一样本集中地学适应性样本的样本数量，PGi为第i个样本的地学估值，TLi为第i个样本中像元位于适宜区的数量，FLi为第i个样本中像元位于非适宜区的数量，PVi为第i个样本的价值评估网络输出的估值。

可选地，步骤S47，包括：

使用移动平均法对所述分数和所述分数对应的历史分数进行计算，得到移动平均分数：

其中，N为时间周期，St为当前分数，t表示第t期；

将所述分数、所述移动平均分数和所述估值分数输入至所述奖惩网络，以通过奖励函数输出奖惩值，奖励函数为：

其中，w1、w2和w3为权重参数。

可选地，所述第一样本和所述第二样本均为已标注样本。

可选地，所述任务处理的任务类型为基于像元的遥感影像分类任务、面向对象的遥感影像分类任务、遥感影像目标检测任务、遥感样本标注任务、遥感影像变化检测任务中的至多一种。

本发明提出了一种基于强化学习的遥感样本迁移方法，从第一影像和第二影像上分别获取第一样本集和第二样本集，所述第一样本集包括多个第一样本，所述第二样本集包括多个第二样本；构建包括样本筛选模块和任务模块的强化学习模型；基于地学知识分别对第一影像和第二影像进行适应性划分，得到第一影像的地学参照数据和第二影像的地学参照数据；将所述第一样本集、所述第二样本集、第一影像的地学参照数据和第二影像的地学参照数据输入至所述强化学习模型，对所述强化学习模型进行迭代训练，直至训练结束，得到训练好的强化学习模型；其中，在所述迭代训练中，利用样本筛选模块对第一样本集进行样本筛选，利用筛选出的样本训练任务模块，利用第二样本集和第二影像的地学参照数据对任务模块进行验证，利用第一影像的地学参照数据对样本筛选模块进行验证；使用所述训练好的强化学习模型的任务模块对第二影像进行任务处理，得到任务结果。

本发明的有益效果为：

（1）通过使用地学知识对影像进行适应性划分，将得到的地学参照数据作为辅助数据，帮助模型训练，实现了顾及遥感样本特性的样本迁移学习，降低了样本迁移中对标注样本的依赖性；

（2）通过强化学习模型中的价值评估网络实现了逐样本的价值评估，并进一步通过影像的地学参照数据和样本集的估值生成估值分数，将估值分数作为奖励的一部分，迭代优化价值评估网络，加速了价值评估网络收敛的速度，提升了整个模型训练的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例中基于强化学习的遥感样本迁移方法实施例的流程示意图；

图2为本发明一实施例中强化学习模型的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。需要说明的是，只要不构成冲突，本发明中的各个实施例以及各实施例的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

需要说明的是，迁移学习作为机器学习的一个重要分支，关注于知识迁移，它将从源域学习到的知识用来解决另一个不同但相关的目标域的问题。不同于传统机器学习方法，迁移学习的训练数据和测试数据服从不同的分布，在没有足够训练样本或者没有带有标签样本的情况下仍可以得到不错的效果。现实中存在以下四个方面的问题：大数据与少标注之间的矛盾、大数据与弱计算之间的矛盾、普适化模型与个性化需求之间的矛盾、特定应用的需求，因而迁移学习也越来越被关注。

基于此，本发明考虑将迁移学习技术应用到遥感图像中。针对遥感样本图像，利用标注好的遥感样本数据集和恰当的迁移学习方法利用旧的知识训练模型，并完成目标域的任务，提高分类效果。

进一步地，本发明考虑到在应用过程中，遥感样本图像相比于自然图像包含的信息更加丰富，并且源域和目标域数据之间差异较大。而强化学习是智能体以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏，强化学习不同于一般机器学习方法，主要表现在强化信号上，强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价，而不是告诉强化学习系统如何去产生正确的动作。由于外部环境提供的信息很少，强化学习系统必须靠自身的经历进行学习。通过这种方式，强化学习系统在行动-评价的环境中获得知识，改进行动方案以适应环境。

基于上述原因和技术，本发明提供了一种基于强化学习的遥感样本迁移方法。

请参照图1，图1为本发明基于强化学习的遥感样本迁移方法实施例的流程示意图，该方法包括以下步骤：

S1 从第一影像和第二影像上分别获取第一样本集和第二样本集，所述第一样本集包括多个第一样本，所述第二样本集包括多个第二样本。

于本发明一具体实施例中，所述第一样本集和所述第二样本集均包括普通样本和地学适应性样本，普通样本的地物类型包括水体、房屋、道路，地学适应性样本的地物类型包括林、草、农作物。

可以理解的是，迁移学习是将一个领域（源域）的知识迁移到另外一个领域（目标域），使得目标域能够取得更好的学习效果。本发明中第一影像和第二影像分别对应第一样本域（源域）和第二样本域（目标域），域间的差异可以是不同时相、不同空间区域、不同星源、不同传感器导致的。

本实施例中第一样本和第二样本均为已标注样本数据，目的为借助少量标注的第二样本数据作为鉴别数据，使用充足的第一样本数据实现第一样本域向第二样本域的样本迁移。

需要说明的是，地学适应性样本为能够通过地学信息得到该类型地物的适宜区的样本。

S2 构建包括样本筛选模块和任务模块的强化学习模型。

需要说明的是，迁移学习一般可以分为以下几类：基于样本的迁移学习方法、基于特征的迁移学习方法、基于模型的迁移学习方法和基于关系的迁移学习方法。本实施例中采用基于样本的迁移学习方法。基于样本的迁移学习方法是通过一些方法来对源域的样本进行权重权衡后，再对源域和目标域的样本进行迁移。源域中和目标域相似的样本赋予高权重，不相似的赋予低权重。

本实施例中构建的强化学习模型如图2所示，该模型由样本筛选模块和任务模块组成，样本筛选模块用于筛选第一样本域中最适合用作样本迁移的样本，任务模块通过将筛选出的样本用于第二样本域目标任务的输入，根据目标任务完成的质量、程度、效率进行评价并反馈奖惩至样本筛选模块，强化学习模型中的强化学习智能体根据奖惩和历史策略决定样本筛选模块的下一选择动作。

具体的，样本筛选模块包括：价值评估网络和采样网络。本实施例中使用一个多层感知机（MLP，Multilayer Perceptron）构建价值评估网络。MLP包含两个隐层，使用sigmoid函数作为激活函数。

本发明通过价值评估网络对输入样本进行估值，获得样本估值，所述样本估值以概率的形式表征，且取值范围为0-1，估值越大表示输入样本的价值越高。

本实施例中采样网络由二值化单元和乘法器组成，取样本的估值中值作为阈值，将小于阈值的估值二值化为0，大于阈值的估值二值化为1，将第一样本与其对应的二值化估值相乘，筛选出估值为1的样本并输出至任务模块。本实施例中，阈值设置为0.5。

具体的，任务模块包括：任务处理网络、任务评价网络和奖惩网络。任务处理网络处理第二样本域下的目标任务，所述目标任务为：基于像元的遥感影像分类任务、面向对象的遥感影像分类任务、遥感影像目标检测任务、遥感样本标注任务、遥感影像变化检测任务中的至多一种。任务评价网络根据任务完成的质量、程度或效率对任务处理网络完成的任务进行评价并输出分数；奖惩网络，根据任务评价网络输出的分数的变化值，通过奖励函数确定奖惩值并输出。

本实施例中第二样本域下的目标任务具体为面向对象的样本分类任务。实际应用中使用ResNet-34构建任务处理网络。

S3 基于地学知识分别对第一影像和第二影像进行适应性划分，得到第一影像的地学参照数据和第二影像的地学参照数据。

可以理解的是，根据地学知识可以粗略地对影像基于遥感特征进行划分，划分后的影像能够作为地学辅助信息帮助强化学习模型和智能体实现更高效的训练。对不同类型的目标任务和目标任务涉及的地物种类，所需的地学知识有所不同。一般包括DEM高程数据、不变点和指数知识等。其中，通过指数知识可以将影像进行第一步划分，如划分为水体和非水体，陆域和海域，指数知识一般包括植被指数、地质指数、人造特性指数、燃烧指数、水体指数和雪指数。DEM高程数据可以用于将区域进一步划分为目标地物适宜区和不适宜区。不变点通常用于第一样本域和第二样本域处于不同时相且区域有重叠的情况下的影像配准。

本实施例中使用ArcGIS Pro 2.8工具计算DEM高程指数和地学指数，先通过多尺度分割将第二样本域的目标任务影像划分为多个小斑块，对每个斑块计算水体归一化指数NDWI，生成其指数分布图并根据该指数分布图将目标任务影像划分为陆域和水域。进一步通过植被归一化指数NDVI根据其指数分布图将影像划分为植被区域和非植被区域。其中NDWI和NDVI的计算公式分别如下：

其中G为当前斑块绿色波段均值，R为当前斑块红色波段均值，NIR为当前斑块近红外波段均值。

使用Focal函数计算DEM最大高程值和最小高程值，将最大高程值和最小高程值进行插值运算，得到地形起伏度。将植被区域中地形起伏度小的区域进一步划分为目标样本适宜区，起伏度大的区域划分为非适宜区。

于本发明一具体实施例中，针对红树林样本进行适宜性划分的过程为：

通过水体指数将样本划分为水体和非水体两类，使用机器学习算法，将按分割尺度为S分割的遥感影像斑块分为陆域和海域。

将陆域进行分割，分割尺度为M，通过植被归一化指数NDVI将属于陆域的样本划分植被和非植被两类，使用机器学习算法，将按分割尺度为M分割的陆域斑块分为植被区和非植被区。

根据DEM高程数据，将植被区划分为红树林地形适宜区和红树林地形不适宜区。

其中，将植被区划分为红树林地形适宜区和红树林地形不适宜区的具体方法为：计算植被区按分割尺度为M分割的每一斑块中的DEM高程数据的均值。

计算植被区按分割尺度为M分割的每一斑块中的DEM高程数据95%分位点之内的均值和95%分位点之外的均值的高差，作为该斑块的地形起伏度。

将DEM高程数据的均值和地形起伏度都不大于50m的植被区中的斑块的集合，设置为红树林地形适宜区，植被区其他区域设置为红树林地形不适宜区。

于本发明一具体实施例中，针对油棕林样本进行适宜性划分的过程为：

对遥感影像进行图像分割，计算分割后的每一斑块的植被归一化指数NDVI，提取遥感影像中的植被区。

根据DEM高程数据，将植被区划分为油棕林地形适宜区和油棕林地形不适宜区：

计算植被区每一斑块中的DEM高程数据的均值。

计算植被区每一斑块中的DEM高程数据95％分位点之内的均值和95％分位点之外的均值的高差，作为该斑块的地形起伏度。

将DEM高程数据的均值和地形起伏度都不大于200m的植被区中的斑块的集合，设为油棕林地形适宜区，其余区域设为油棕林地形不适宜区。

其中，在所述迭代训练中，利用样本筛选模块对第一样本集进行样本筛选，利用筛选出的样本训练任务模块，利用第二样本集和第二影像的地学参照数据对任务模块进行验证，利用第一影像的地学参照数据对样本筛选模块进行验证。

于本发明一实施例中，步骤S4，包括：

S41 将所述第一样本集输入至所述样本筛选模块的价值评估网络，获得第一样本集的估值，所述第一样本集的估值为第一样本集中每个第一样本的估值，估值以概率的形式表征，且取值范围为0-1。

S42 基于第一样本集的估值和第一影像的地学参照数据，得到估值分数。

S43 将所述第一样本集和所述第一样本集的估值输入至所述样本筛选模块的采样网络，以使所述采样网络对所述样本估值进行二值化，并筛选出二值化后估值为1的样本。

S44 将所述筛选得到的样本输入至所述任务模块的任务处理网络以对任务处理网络进行训练。

于本发明一具体实施例中，步骤S46，包括：

其中，TP为第二样本集中正样本分类正确的像元数量，TN为第二样本集中负样本分类正确的像元数量，FP为第二样本集中正样本分类错误的像元数量，FN为第二样本集中负样本分类错误的像元数量。

和

为预设参数，

。

基于第一评分和第二评分得到输出的分数：

其中，X₁为任务处理结果中普通样本地物类型所占比例，X₂为任务处理结果中地学适应性样本地物类型所占比例。

于本发明一具体实施例中，步骤S42，包括：

其中N为第一样本集中地学适应性样本的样本数量，PG_i为第i个样本的地学估值，TL_i为第i个样本中像元位于适宜区的数量，FL_i为第i个样本中像元位于非适宜区的数量，PV_i为第i个样本的价值评估网络输出的估值。通过估值分数能够体现价值评估网络输出的估值与地学信息的一致性。

于本发明一具体实施例中，步骤S47，包括：

其中N为时间周期，S_t为当前分数，t表示第t期，本实施例中选取N=5。

需要说明的是，本实施例中使用移动平均分数的目的是为了提升模型训练过程的稳定性。

将所述分数、所述移动平均分数和所述估值分数输入至所述奖惩网络，以通过奖励函数输出奖惩值。奖励函数为：

其中，w₁、w₂和w₃为权重参数。通过该奖励函数能够指导强化学习智能体从第一样本集中选取合适的样本，S_t和S_avg两项能够保证选取的样本对第二样本域的适用性，从而得到准确率较高的任务处理网络。在迭代训练初期，价值评估网络主要通过随机赋值进行估值，S_g能够帮助指导估值与第一影像地学信息保持一致性，因而能够大大提高迭代训练初期强化学习模型收敛的效率。

本实施例中，当移动平均分数连续五次大于0.9，且这五次的波动值小于0.01时判定模型收敛，停止迭代训练。

通过上述训练过程后，能够得到泛化性能较好的任务处理网络，将第影像输入该任务处理网络，能够获得效果较好的任务结果。

本发明的有益效果为：

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。