CN116824291A

CN116824291A - 一种遥感图像学习方法、装置以及设备

Info

Publication number: CN116824291A
Application number: CN202310117198.0A
Authority: CN
Inventors: 盛龙帅
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2023-01-17
Filing date: 2023-01-17
Publication date: 2023-09-29

Abstract

本说明书实施例公开了遥感图像学习方法。包括：利用遥感图像的第一标注数据集，训练得到目标检测学习模型；利用所述目标检测学习模型，对遥感图像的未标注数据集进行预测，得到未标注的遥感图像的检测框相关信息；根据所述检测框相关信息，在所述未标注数据集中剔除未检测到目标的遥感图像，以及检测框置信水平超出设定水平的遥感图像，得到剩余的遥感图像集合，作为待标注数据集；获取对所述待标注数据集进行标注得到的第二标注数据集；利用所述第二标注数据集，对所述目标检测学习模型进行训练。

Description

一种遥感图像学习方法、装置以及设备

技术领域

本说明书涉及机器学习技术领域，尤其涉及一种遥感图像学习方法、装置以及设备。

背景技术

近年来，对于遥感图像处理任务的研究十分火热，训练遥感图像分类模型时，数据集的标注消耗大量人工成本，而且分类效果不佳。

原因包括：遥感图像是海量的，而其中包含目标物的图像较少，而背景图像较多，不仅如此，这些目标物在遥感图像中往往还比较小。从而，会影响相应的训练效果，难以有效充分地针对遥感图像进行学习。

基于此，需要低成本且更有效充分地针对遥感图像学习的方案。

发明内容

本说明书一个或多个实施例提供一种遥感图像学习方法、装置、设备以及存储介质，用以解决如下技术问题：需要低成本且更有效充分地针对遥感图像学习的方案。

为解决上述技术问题，本说明书一个或多个实施例是这样实现的：

本说明书一个或多个实施例提供的一种遥感图像学习方法，包括：

利用遥感图像的第一标注数据集，训练得到目标检测学习模型；

利用所述目标检测学习模型，对遥感图像的未标注数据集进行预测，得到未标注的遥感图像的检测框相关信息；

根据所述检测框相关信息，在所述未标注数据集中剔除未检测到目标的遥感图像，以及检测框置信水平超出设定水平的遥感图像，得到剩余的遥感图像集合，作为待标注数据集；

获取对所述待标注数据集进行标注得到的第二标注数据集；

利用所述第二标注数据集，对所述目标检测学习模型进行训练。

本说明书一个或多个实施例提供的一种遥感图像学习装置，包括：

模型初训练模块，利用遥感图像的第一标注数据集，训练得到目标检测学习模型；

未标注预测模块，利用所述目标检测学习模型，对遥感图像的未标注数据集进行预测，得到未标注的遥感图像的检测框相关信息；

遥感图像剔除模块，根据所述检测框相关信息，在所述未标注数据集中剔除未检测到目标的遥感图像，以及检测框置信水平超出设定水平的遥感图像，得到剩余的遥感图像集合，作为待标注数据集；

数据再标注模块，获取对所述待标注数据集进行标注得到的第二标注数据集；

模型再训练模块，利用所述第二标注数据集，对所述目标检测学习模型进行训练。

本说明书一个或多个实施例提供的一种遥感图像学习设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：

获取对所述待标注数据集进行标注得到的第二标注数据集；

本说明书一个或多个实施例提供的一种非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：

获取对所述待标注数据集进行标注得到的第二标注数据集；

本说明书一个或多个实施例采用的上述至少一个技术方案能够达到以下有益效果：与常见的用于图像分类的学习方案不同，遥感图像中的目标物通常较小，不能很好地用分类算法区分，通过利用相对少量的已标注的遥感图像对目标检测学习模型训练，再对遥感图像大数量级的未标注数据集进行预测，得到可能包含目标的遥感图像和相应的置信水平，避免了直接进行图像分类，再据此对未标注数据集进行筛选以显著减少标注量，降低成本，也有助于精确获得信息量尚未充分挖掘学习价值更高的样本，供优先标注，由此，能够更快地得到新的标注数据集来迭代模型，进而更有效充分地主动学习遥感图像。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书一个或多个实施例提供的一种遥感图像学习方法的流程示意图；

图2为本说明书一个或多个实施例提供的一种应用场景下，图1中的方法的一种实施方案示意图；

图3为本说明书一个或多个实施例提供的一种目标检测模块的主要结构示意图；

图4为本说明书一个或多个实施例提供的一种遥感图像学习装置的结构示意图；

图5为本说明书一个或多个实施例提供的一种遥感图像学习设备的结构示意图。

具体实施方式

本说明书实施例提供一种遥感图像学习方法、装置、设备以及存储介质。

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本说明书实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

遥感图像中包含目标的图像较少，而背景图像较多，而遥感图像的总量又十分庞大，难以获得全量的标注数据集，本申请考虑在模型迭代期间，阶段性地小量级地标注新数据集进行模型优化，并精确地将大量不需要标注的遥感图像从庞大的未标注数据集中剔除。常见的基于图像分类算法的学习，对未标注数据集中背景较少，目标较大的图像学习效果较好，但对包含较多背景图像，且目标物在图像中较小的遥感图像进行学习时效果不好，基于此，本申请避免直接进行图像分类，而是基于可变注意力进行目标检测，来识别遥感图像中的目标位置及置信得分，根据预测结果可以有效地将无价值和低价值的遥感图像从未标注数据集中剔除，实现了高效的主动学习，而且计算压力小。下面基于这样的思路继续说明。

图1为本说明书一个或多个实施例提供的一种遥感图像学习方法的流程示意图。该流程可以在图像处理相关设备上执行，比如，图像分析服务器、无人机监控终端，等等。流程中的某些输入参数或者中间结果允许人工干预调节，以帮助提高准确性。

图1中的流程包括以下步骤：

S102：利用遥感图像的第一标注数据集，训练得到目标检测学习模型。

遥感图像通常是从高空俯拍地面景物得到，可以包括航空照片、卫星照片等。在实际应用中，相比于背景(一般是山川大海等自然地貌)，会更关注遥感图像中可能存在的目标，比如，机场、楼宇、农田、大棚、舰船、桥梁、车站等特定物体。

在本说明书一个或多个实施例中，所提到的标注数据集、未标注数据集可以由多个乃至大量遥感图像构成，标注数据集中的遥感图像是已标记的，具有相应的标签，标签比如可以指示该遥感图像中是否具有目标、目标类型、目标位置，等等。

除了有第一标注数据集以外，还有未标注数据集。第一标注数据集的规模可以是较小的，是方便于以能够接受的成本进行人工标注的。而对于遥感图像的未标注数据集，其规模可以远大于第一标注数据集的规模，以至于难以人工对未标注数据集中的全部遥感图像进行标注。

基于第一标注数据集，有监督训练得到目标检测学习模型，这个阶段是初步的训练阶段，训练得到的目标检测学习模型具有了一定程度的预测能力，不过受限于标注数据集的规模不足，实际上尚未能充分学习遥感图像，通过后续进一步的主动学习来提升效果。

在本说明书一个或多个实施例中，构建包含编解码器(即编码器和对应的解码器)的目标检测模型，用于训练后作为目标检测学习模型，其中，编码器和/或解码器采用了基于查询(query)元素和键值(key)元素的可变注意力，为各查询元素分别确定局部区域而非全局对应的键值元素，以将输入特征转换为可变注意力特征，比如，基于可变注意力权重对相应的值项(value)元素求加权和得到可变注意力特征。如此，可以减少query元素对应的key元素集合规模，有助于提高计算效率，同时在遥感图像中目标偏小且稀疏的普遍情况加持下，仍能保证所计算出的注意力权重的可靠性。

S104：利用所述目标检测学习模型，对遥感图像的未标注数据集进行预测，得到未标注的遥感图像的检测框相关信息。

在本说明书一个或多个实施例中，利用目标检测学习模型，对未标注数据集中的至少部分遥感图像进行预测，虽然难以大批量地对未标注数据集进行人工标记，但是，由于该预测过程是机器执行的而非人工，因此有能力对未标注数据集的预测。对目标检测学习模型的训练与对遥感图像的预测可以是阶段性交替进行的，以逐步提高预测效果。

在本说明书一个或多个实施例中，对于所关注的目标(可以是多种类型的)，通过模型预测，尝试在未标注的遥感图像中检测出这样的目标。若预测出遥感图像中存在(有可能误判)这样的目标，则能够得到检测框相关信息，可以包括检测框的位置(比如用检测框的中心点坐标，以及宽高表示)、检测框内的目标的类型等。

S106：根据所述检测框相关信息，在所述未标注数据集中剔除未检测到目标的遥感图像，以及检测框置信水平超出设定水平的遥感图像，得到剩余的遥感图像集合，作为待标注数据集。

在本说明书一个或多个实施例中，考虑到遥感图像量级十分庞大且各不相同，而且实际具有目标的只占很小一部分，因此，通过预测将占绝大部分的未包含目标的遥感图像从未标注数据集中剔除无需人工标注。

不仅如此，对于认定为预测结果足够准确的遥感图像，认为这样的样本所隐含的信息量模型已经充分学习过了，则该样本的学习价值相对较低，可以不再进行人工标注和学习，因此，将这样的遥感图像也从未标注数据集中剔除。预测结果包含反映检测框置信水平的数据，比如，置信概率值或非概率形式的置信分数等，一般与置信水平正相关，置信水平越高则认为预测出的检测框越可信。在实际应用中，可能会在遥感图像中预测出一个或多个检测框，在未标注数据集中剔除所包含的全部检测框分别的置信分数均高于设定阈值的遥感图像，这种情况下，设定水平可以是一个较高的水平，设定阈值可以是一个较高的阈值，而若其中至少一个检测框的置信分数未高于设定阈值，则还有潜在的学习价值，可以考虑将对应的遥感图像保留。

在本说明书一个或多个实施例中，即使包含目标，该目标在遥感图像中往往很小，这也是本申请采用目标检测而不采用图像分类的主要原因。因此，尤其挖掘小目标的学习价值，具体地，在未标注数据集中确定检测框置信水平超出设定水平的遥感图像，作为备选待剔除遥感图像，判断备选待剔除遥感图像中是否存在检测框大于设定尺寸，若是，则认为不属于小目标，学习价值相对低，则在未标注数据集中剔除备选待剔除遥感图像。在这种情况下，设定水平可以相对低一些，或者，也可以不考虑置信水平而是将未标注数据集中的遥感图像都作为备选待剔除遥感图像。

进一步地，本申请采用了可变注意力，为query元素仅关注附近的局部区域的key元素，这种情况下，同一个遥感图像中可能存在的多个邻近目标可能加剧对可变注意力的干扰，对此考虑加强学习。基于此，对遥感图像上的检测框的整体离散度进行检测，整体离散度越小，则表示检测框越聚集，相对更有加强学习价值，则可以判断备选待剔除遥感图像中是否存在检测框大于设定尺寸，和/或整体离散度大于设定程度，若是，则学习价值相对低，可以在未标注数据集中剔除备选待剔除遥感图像。

S108：获取对所述待标注数据集进行标注得到的第二标注数据集。

在本说明书一个或多个实施例中，筛选出来的待标注数据集是小量级的，其规模小于甚至远小于未标注数据集，有效降低了需标注的遥感图像的量级，有助于实现高价值的精准标注。人工标注待标注数据集的成本相对能够接受，适于实际实施。

S110：利用所述第二标注数据集，对所述目标检测学习模型进行训练。

由前面的分析可见，第二标注数据集更适应于遥感图像的目标及分布特点，以及更适应于可变注意力，是更有针对性的训练样本，对目标检测学习模型进行加强的有监督训练，以提高模型准确性和鲁棒性。

通过图1的方法，与常见的用于图像分类的学习方案不同，遥感图像中的目标物通常较小，不能很好地用分类算法区分，通过利用相对少量的已标注的遥感图像对目标检测学习模型训练，再对遥感图像大数量级的未标注数据集进行预测，得到可能包含目标的遥感图像和相应的置信水平，避免了直接进行图像分类，再据此对未标注数据集进行筛选以显著减少标注量，降低成本，也有助于精确获得信息量尚未充分挖掘学习价值更高的样本，供优先标注，由此，能够更快地得到新的标注数据集来迭代模型，进而更有效充分地主动学习遥感图像。

基于图1的方法，本说明书还提供了该方法的一些具体实施方案和扩展方案，下面继续进行说明。

在本说明书一个或多个实施例中，构建包含图像特征提取模块(以采用残差网络模块为例，优点在于能够防止梯度消失，有利于提高模型收敛速度)、特征融合模块(比如，采用通道映射模块)和目标检测模块的目标检测模型，这三个模块依次连接，上述的编解码器包含于目标检测模块中。残差网络模块用于从输入的遥感图像中提取特征，形成相应的特征图，通道映射模块用于针对特征图进行特征融合，以实现特征图通道数降维，目标检测模块用于以前置处理后得到的特征图作为输入，对遥感图像进行目标检测。

进一步地，对于目标检测模块，在采用可变注意力的情况下，可选地引入更多的与位置相关的信息作为特征补充，以提高可变注意力的鲁棒性。对于目标检测学习模型，训练时与实际预测时对输入数据在模型内处理过程是一致的，为了便于描述以训练时为例，在利用遥感图像的第一标注数据集，训练得到目标检测学习模型的过程中，具体地，确定第一标注数据集中的遥感图像对应的特征图，确定特征图在编码时对应的编码位置嵌入向量，将特征图和编码位置嵌入向量输入目标检测模型中的编码器处理，根据解码器相应输出的解码结果，对所述目标检测模型进行训练，得到目标检测学习模型。编码位置嵌入向量也可以同时作为解码器的输入之一，帮助对编码器的编码结果更准确地解码。

在本说明书一个或多个实施例中，在计算注意力权重时，对于当前的特征采样点，只关注该采样点附近的关键采样点，为每个query元素分配较少的key元素。这样的处理方式，有助于在保障可靠性的基础上，以尽量小的计算代价更高效地检测遥感图像中的小目标，尤其是分布较为稀疏的小目标。

基于上一段的思路，在编解码器为各query元素分别确定局部区域对应的key元素的过程中，具体地，接收作为输入特征的特征图，并在所述特征图上确定当前的采样点，对采样点对应的query元素的表征特征进行线性映射，得到采样偏移量，根据采样偏移量，获取采样点附近的局部区域对应的key元素，用于计算可变注意力权重。

进一步地，还可以采用多头处理，为同一个采样点关注不同方向附近的关键采样点。类似地，还可以通过多头进行多尺度处理以提高鲁棒性，比如，从遥感图像的特征图提取分辨率不同的多尺度特征图，以相应地通过多头进行不同尺度的解码处理。

在本说明书一个或多个实施例中，目标检测模型中的解码器包含跨注意力子模块和自注意力子模块。在将特征图和编码位置嵌入向量输入目标检测模型中的编码器处理之后，响应于编码器的输入，通过解码器变换得到query元素集合的表征特征，在跨注意力子模块中，从编码器的输出中提取key元素的表征特征，用于计算跨注意力权重，在自注意力模块中，从查询元素集合的表征特征中提取key元素的表征特征，用于计算自注意力权重。可以看到，对于跨注意力而言，query元素与key元素分别所属的空间距离更远，配合自注意力使用，有助于矫正编码器和/或解码器中隐藏状态多次变换(导致了该空间距离)过程中可能引入的注意力区域偏差。

根据上面的说明，本说明书一个或多个实施例提供了一种应用场景下，图1中的方法的一种实施方案示意图，如图2所示。在该应用场景下，数据集为遥感图像数据集，以ResNet50作为图像特征提取模块，Channel Mapper作为特征融合模块，基于可变注意力和Transformer的编解码器构建了图像目标检测模块，三者依次连接构成目标检测模型M。

该实施方案概括而言包括以下步骤：

随机选择一部分遥感图像进行标注，得到标注数据集D_a(作为上述的第一标注数据集)，标注数据集D_a由ResNet50提取图像特征，Channel Mapper特征融合，基于可变注意力的图像目标检测模块作为目标检测模型M进行初步的训练，训练后作为目标检测学习模型M_a；

使用目标检测学习模型M_a对未标注数据集D_u进行目标检测，得到包含每张图像目标检测框和检测框得分的检测结果；

根据目标检测的结果对未标注数据集D_u进行筛选，剔除其中未检测到目标的图像，再剔除其中所有检测框的置信分数均较高的遥感图像，得到待标注数据集，对待标注数据集进行标注得到新的标注数据集D_i(作为上述的第二标注数据集)；

将新的标注数据集D_i和标注数据集D_a共同作为训练集，对目标检测学习模型M_a进行强化训练，得到强化训练后的遥感图像目标检测学习模型M_ai。

更具体地，仍以初步训练的过程为例，示例性地说明各模块的具体工作。

假定所使用的遥感图像的分辨率为1024*1024，比如是采集的原始图像或从中裁剪得到，初始时，遥感图像全部都属于未标注数据集，一般约有90％为不含目标的背景图像。

从中选择n张图像，记作{p₁...p_i...p_n}，对其中的单类目标(比如，大棚)进行标注，得到目标的位置尺寸信息，作为训练标签，将训练标签与原图共同构成标注数据集D_a，使用标注数据集D_a作为训练集，训练目标检测模型M。

目标检测模型M由ResNet50网络作为脊柱(backbone)层用来提取特征，在backbone阶段，输入一个批次的RGB三通道1024*1024分辨率的遥感图像，记作P_b＝[b,3,1024,1024]，经过ResNet50提取特征，输出1、2、3层的特征图。ResNet50包含4个块(block)，各block中分别有3、4、6、3个瓶颈层(Bottleneck)，输出可选地记作Y＝F(P_b)+P_b。

ChannelMapper作为目标检测模型M的颈部(neck)层用来进行特征融合，在neck阶段，将输入的512维，1024维，2048维的特征图的通道数统一变为256。

基于可变注意力的图像目标检测模块作为目标检测模型M的头部(head)层，使用多尺度的特征图，输出ROI回归值，类别数为1。

图3为本说明书一个或多个实施例提供的一种目标检测模块的主要结构示意图，省略了编码位置嵌入向量。

目标检测模块的输入为由ResNet50提取的特征图可以使用Transformer的编解码器对输入特征图进行变换，得到目标query元素集合的表征特征，在解码器输出的目标query特征上，使用三层前馈神经网络和线性映射作为检测头，三层前馈神经网络作为回归分支，预测目标的检测框记作b＝{b_x,b_y,b_w,b_h}，其中的参数分别表示边框中心的坐标和边框的宽度和高度。

对于编码器而言，query元素和key元素都可以是特征图上的像素点，输入是ResNet50加了编码位置嵌入向量的特征图。对于解码器而言，输入包括编码器的特征图、编码位置嵌入向量表示的N个目标queries元素，解码器中包含跨注意力子模块和自注意力模块子模块。在跨注意力子模块中，目标query元素从解码器特征图上提取特征，query元素来自目标query元素，key元素来自编码器输出的特征图。在自注意力子模块中，key元素来自目标query元素。

注意力子模块只关注作为参考点的当前采样点附近的关键采样点，为每个query元素分配较少的key元素，给定用q作为一个query元素的索引，表征特征为z_q，参考点P_q，可以通过如下公式，计算可变注意力特征DA：

其中，m为注意力头的索引，k为采样key元素的索引，K是所有采样key元素的个数(K＜＜HW)。ΔP_mqk和A_mqk分别表示第m个注意力头中的第k个采样点的采样偏移量和注意力权重。标量注意力权重A_mqk位于[0,1]之间，用做归一化。/>为二维实数。可以采用双线性插值得到x(P_q+ΔP_mqk)，对z_q做线性映射得到ΔP_mqk和A_mqk。z_q输入进一个3MK个通道的线性映射操作符，前2MK个通道编码采样偏移量ΔP_mqk，剩余MK个通道则输入进一个SoftMax操作符，得到注意力权重A_mqk。

注意力子模块是支持多尺度的，使用表示输入多尺度特征图，其中，表示每个query元素q的参考点归一化后的坐标，可以通过如下公式，计算多尺度注意力特征MSDA：

其中，m是注意力头的索引，l是特征图层级的索引，k是采样点的索引。ΔP_mlqk和A_mlqk分别表示第m个注意力头在第l个特征层级上第k个采样点的采样偏移量和注意力权重。标量注意力权重A_mlqk用做归一化，归一化坐标/>(0,0)和(1,1)分别表示图像的左上角和右下角，/>对归一化的/>缩放到第l个特征图层级。

对于多尺度的注意力子模块，在编码器中，从ResNet50的C3到C5输出的特征图中，提取多尺度特征图其中，C1的分辨率比原始输入图像低2^l倍。对最后的C5使用步长为2的3*3卷积，得到分辨率最低的特征图x^L，记作C6，所有的多尺度特征图都是256通道的。

由标注数据集D_a对目标检测模型M进行训练，得到目标检测主动学习模型M_a；使用目标检测主动学习模型M_a对未标数据集D_u进行目标检测，得到包含每张图像目标检测框和检测框的置信分数b_box_score的检测结果，据此对未标数据集D_u进行筛选，剔除其中未检测到目标的遥感图像，以及剔除其中所有检测框的置信分数b_box_score均大于0.8的图像，得到待标注数据集，对待标注数据集进行标注得到新的标注数据集D_i，将新的标注数据集D_i和标注数据集D_a共同作为训练集，对目标检测学习模型M_a进行强化训练，得到强化训练后的遥感图像目标检测学习模型M_ai。

基于同样的思路，本说明书一个或多个实施例还提供了上述方法对应的装置和设备，如图4、图5所示。装置和设备能够相应执行上述方法及相关的可选方案。

图4为本说明书一个或多个实施例提供的一种遥感图像学习装置的结构示意图，所述装置包括：

模型初训练模块402，利用遥感图像的第一标注数据集，训练得到目标检测学习模型；

未标注预测模块404，利用所述目标检测学习模型，对遥感图像的未标注数据集进行预测，得到未标注的遥感图像的检测框相关信息；

遥感图像剔除模块406，根据所述检测框相关信息，在所述未标注数据集中剔除未检测到目标的遥感图像，以及检测框置信水平超出设定水平的遥感图像，得到剩余的遥感图像集合，作为待标注数据集；

数据再标注模块408，获取对所述待标注数据集进行标注得到的第二标注数据集；

模型再训练模块410，利用所述第二标注数据集，对所述目标检测学习模型进行训练。

可选地，所述模型初训练模块402，在所述利用遥感图像的第一标注数据集，训练得到目标检测学习模型之前，构建包含编解码器的目标检测模型，用于训练后作为所述目标检测学习模型；

其中，所述编解码器采用了基于查询元素和键值元素的可变注意力，为各查询元素分别确定局部区域对应的键值元素，以将输入特征转换为可变注意力特征。

可选地，所述模型初训练模块402，确定第一标注数据集中的遥感图像对应的特征图；

确定所述特征图在编码时对应的编码位置嵌入向量；

将所述特征图和所述编码位置嵌入向量输入所述目标检测模型中的编码器处理；

根据所述解码器相应输出的解码结果，对所述目标检测模型进行训练，得到目标检测学习模型。

可选地，所述模型初训练模块402，构建包含残差网络模块、通道映射模块和目标检测模块的目标检测模型，所述编解码器包含于所述目标检测模块中；

所述残差网络模块用于从输入的遥感图像中提取特征，形成相应的特征图，所述通道映射模块用于针对所述特征图进行特征融合，以实现特征图通道数降维，所述目标检测模块用于以所述特征融合后的特征图作为输入，对所述遥感图像进行目标检测。

可选地，所述目标检测模型中的解码器包含跨注意力子模块和自注意力子模块；

所述模型初训练模块402，在所述将所述特征图和所述编码位置嵌入向量输入所述目标检测模型中的编码器处理之后，响应于所述编码器的输入，通过所述解码器变换得到查询元素集合的表征特征；

在所述跨注意力子模块中，从所述编码器的输出中提取键值元素的表征特征，用于计算跨注意力权重；

在所述自注意力模块中，从所述查询元素集合的表征特征中提取键值元素的表征特征，用于计算自注意力权重。

可选地，所述编解码器，接收作为输入特征的特征图，并在所述特征图上确定当前的采样点；

对所述采样点对应的查询元素的表征特征进行线性映射，得到采样偏移量；

根据所述采样偏移量，获取所述采样点附近的局部区域对应的键值元素，用于计算可变注意力权重。

可选地，所述模型初训练模块402，在所述将所述特征图和所述编码位置嵌入向量输入所述目标检测模型中的编码器处理之后，从所述特征图提取分辨率不同的多尺度特征图，以相应地通过多头进行不同尺度的解码处理。

可选地，所述遥感图像剔除模块406，在所述未标注数据集中剔除所包含的全部检测框分别的置信分数均高于设定阈值的遥感图像。

可选地，所述遥感图像剔除模块406，在所述未标注数据集中确定检测框置信水平超出设定水平的遥感图像，作为备选待剔除遥感图像；

判断所述备选待剔除遥感图像中是否存在检测框大于设定尺寸，和/或整体离散度大于设定程度，若是，则在所述未标注数据集中剔除所述备选待剔除遥感图像。

可选地，所述待标注数据集的规模远小于所述未标注数据集的规模。

图5为本说明书一个或多个实施例提供的一种遥感图像学习设备的结构示意图，所述设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

获取对所述待标注数据集进行标注得到的第二标注数据集；

基于同样的思路，本说明书一个或多个实施例还提供了一种非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：

获取对所述待标注数据集进行标注得到的第二标注数据集；

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本说明书实施例可提供为方法、系统、或计算机程序产品。因此，本说明书实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备、非易失性计算机存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上所述仅为本说明书的一个或多个实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书的一个或多个实施例可以有各种更改和变化。凡在本说明书的一个或多个实施例的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种遥感图像学习方法，包括：

获取对所述待标注数据集进行标注得到的第二标注数据集；

2.如权利要求1所述的方法，所述利用遥感图像的第一标注数据集，训练得到目标检测学习模型之前，所述方法还包括：

构建包含编解码器的目标检测模型，用于训练后作为所述目标检测学习模型；

3.如权利要求2所述的方法，所述利用遥感图像的第一标注数据集，训练得到目标检测学习模型，具体包括：

确定第一标注数据集中的遥感图像对应的特征图；

确定所述特征图在编码时对应的编码位置嵌入向量；

4.如权利要求2所述的方法，所述构建包含编解码器的目标检测模型，具体包括：

构建包含残差网络模块、通道映射模块和目标检测模块的目标检测模型，所述编解码器包含于所述目标检测模块中；

5.如权利要求3所述的方法，所述目标检测模型中的解码器包含跨注意力子模块和自注意力子模块；

所述将所述特征图和所述编码位置嵌入向量输入所述目标检测模型中的编码器处理之后，所述方法还包括：

响应于所述编码器的输入，通过所述解码器变换得到查询元素集合的表征特征；

6.如权利要求2所述的方法，所述为各查询元素分别确定局部区域对应的键值元素，具体包括：

接收作为输入特征的特征图，并在所述特征图上确定当前的采样点；

7.如权利要求3所述的方法，所述将所述特征图和所述编码位置嵌入向量输入所述目标检测模型中的编码器处理之后，所述方法还包括：

从所述特征图提取分辨率不同的多尺度特征图，以相应地通过多头进行不同尺度的解码处理。

8.如权利要求1所述的方法，所述在所述未标注数据集中剔除检测框置信水平超出设定水平的遥感图像，具体包括：

在所述未标注数据集中剔除所包含的全部检测框分别的置信分数均高于设定阈值的遥感图像。

9.如权利要求1所述的方法，所述在所述未标注数据集中剔除检测框置信水平超出设定水平的遥感图像，具体包括：

在所述未标注数据集中确定检测框置信水平超出设定水平的遥感图像，作为备选待剔除遥感图像；

10.如权利要求1所述的方法，所述待标注数据集的规模远小于所述未标注数据集的规模。

11.一种遥感图像学习装置，包括：

12.如权利要求11所述的装置，所述模型初训练模块，在所述利用遥感图像的第一标注数据集，训练得到目标检测学习模型之前，构建包含编解码器的目标检测模型，用于训练后作为所述目标检测学习模型；

13.如权利要求12所述的装置，所述模型初训练模块，确定第一标注数据集中的遥感图像对应的特征图；

确定所述特征图在编码时对应的编码位置嵌入向量；

14.如权利要求12所述的装置，所述模型初训练模块，构建包含残差网络模块、通道映射模块和目标检测模块的目标检测模型，所述编解码器包含于所述目标检测模块中；

15.如权利要求13所述的装置，所述目标检测模型中的解码器包含跨注意力子模块和自注意力子模块；

所述模型初训练模块，在所述将所述特征图和所述编码位置嵌入向量输入所述目标检测模型中的编码器处理之后，响应于所述编码器的输入，通过所述解码器变换得到查询元素集合的表征特征；

16.如权利要求12所述的装置，所述编解码器，接收作为输入特征的特征图，并在所述特征图上确定当前的采样点；

17.如权利要求13所述的装置，所述模型初训练模块，在所述将所述特征图和所述编码位置嵌入向量输入所述目标检测模型中的编码器处理之后，从所述特征图提取分辨率不同的多尺度特征图，以相应地通过多头进行不同尺度的解码处理。

18.如权利要求11所述的装置，所述遥感图像剔除模块，在所述未标注数据集中剔除所包含的全部检测框分别的置信分数均高于设定阈值的遥感图像。

19.如权利要求11所述的装置，所述遥感图像剔除模块，在所述未标注数据集中确定检测框置信水平超出设定水平的遥感图像，作为备选待剔除遥感图像；

20.如权利要求11所述的装置，所述待标注数据集的规模远小于所述未标注数据集的规模。

21.一种遥感图像学习设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行：

获取对所述待标注数据集进行标注得到的第二标注数据集；