CN114485694A

CN114485694A - 用于自动检测建筑物覆盖区的系统和方法

Info

Publication number: CN114485694A
Application number: CN202111341813.3A
Authority: CN
Inventors: 陈理; 布尔维·戈埃尔; 伊尔克努尔·卡伊纳尔·喀布尔; 杨东哲
Original assignee: Meta Platforms Inc
Current assignee: Meta Platforms Inc
Priority date: 2020-11-13
Filing date: 2021-11-12
Publication date: 2022-05-13
Also published as: US11836223B2; US20220156526A1; EP4002297A1

Abstract

本申请涉及用于自动检测建筑物覆盖区的系统和方法。所公开的计算机实现的方法可以包括收集将图像的训练集合内的多边形标记为建筑结构的标签集合。该方法还可以包括通过扭曲图像的训练集合内的多个多边形的边界来创建具有预定噪声程度的有噪声标签集合。此外，该方法可以包括通过应用相互教导方法从有噪声标签集合中学习来同时训练两个神经网络。该方法还可以包括基于两个经训练的神经网络提取训练数据的优先列表。此外，该方法可以包括用训练数据的优先列表训练机器学习模型。最后，该方法可以包括使用经训练的机器学习模型识别目标图像中的一个或更多个建筑物覆盖区。还公开了各种其他方法、系统和计算机可读介质。

Description

用于自动检测建筑物覆盖区的系统和方法

相关申请的交叉引用

本申请要求2020年11月13日提交的美国临时申请第63/113，805号和2021年6月17日提交的美国非临时专利申请第17/350，594号的权益，其公开内容通过引用整体结合于此。

附图简述

附图示出了许多示例性实施例，并且是说明书的一部分。这些附图与以下描述一起展示并解释了本公开的各种原理。

图1是用于自动检测建筑物覆盖区(building footprint)的示例性方法的流程图。

图2是用于自动检测建筑物覆盖区的示例性系统的框图。

图3A和图3B示出了示例性图像中多边形的示例性标签。

图4A和图4B示出了用于训练标签的示例性图像中多边形的示例性扭曲。

图5是示例性相互教导(co-teaching)方法的框图。

图6是用于训练和评估用于相互教导的示例性神经网络的示例性模型的框图。

图7是标签精度的示例性评估的框图。

图8是示例性训练数据的示例性优先排名的框图。

在全部附图中，相同的参考符号和描述指示相似的但不一定相同的元件。虽然本文描述的示例性实施例易于进行各种修改和替代形式，但是特定实施例已经在附图中以示例的方式被示出，并且将在本文详细描述。然而，本文描述的示例性实施例并不旨在局限于所公开的特定形式。相反，本公开覆盖了落入所附权利要求范围内的所有修改、等同物和替代物。

示例性实施例的详细描述

卫星图像可能有助于创建地图或识别全球范围内的位置。例如，用户可以使用在图像上识别街道和建筑物的软件应用来计算两点之间的距离，从而为旅行规划路线。因为这些应用依赖于准确地识别图像中的构造，所以准确地确定这些构造的尺寸、位置和形状(例如识别建筑物的覆盖区)是至关重要的。

处理卫星图像的一些传统方法依赖于用户输入来帮助识别和标记图像内的构造。然而，这些用户通常未经训练，可能会错误地给图像贴错标签，导致人类标注的标签稀疏或不准确。另一方面，雇佣训练有素的用户来标记图像仍然会导致标记错误，并且可能在时间和金钱方面都很昂贵。此外，用户可能不同意标签，或者可能由于图像的固有问题(例如未对齐或特定图像中缺乏信息或细节)而犹豫不决。

为克服用户错误和缺乏领域专业知识而自动化这些标记过程的传统尝试往往有其自身的问题。一些简单的算法在预测建筑物覆盖区的精确形状时可能不准确，或者可能错误地标记图像。其他方法可能总体上更准确，但可能难以解释有噪声的标签或稀疏的信息，导致泛化能力差。例如，对于大规模数据集，异常值或异常可能变得过于简单，无法描述有噪声的标签，这可能会歪曲预测模型的结果。因此，需要更好的方法来快速准确地识别图像构造，如建筑物覆盖区，以改善对数据标签中潜在噪声的处理。

本公开总体上涉及用于自动检测建筑物覆盖区的系统和方法。如下文将更详细解释的，本公开的实施例可以通过操纵表示训练图像中的建筑物覆盖区的多边形来模仿潜在的真实世界噪声，例如图像中的扭曲和错误标记的图像。通过从有噪声的图像或包含有噪声的标签的图像中提取特征，这里描述的系统和方法可以确保训练数据模拟标签噪声，使得得到的模型也可以处理潜在的噪声。然后，所公开的系统和方法可以使用相互教导方法，该方法使用模拟的噪声数据来训练两个神经网络，以相互改进，并从具有有噪声的标签的图像集中选择更好的训练数据。此外，所公开的系统和方法不仅可以评估神经网络，还可以评估训练数据，以对训练数据的优先列表进行排名和识别。所公开的系统和方法然后可以使用优选的训练数据来训练机器学习模型，以更准确地识别任何给定图像中的建筑物覆盖区。

此外，本文描述的系统和方法可以通过提高自动图像标记的速度和精度来改善计算设备的功能，特别是对于有噪声或稀疏的数据。这些系统和方法还可以通过提供一个框架来模拟真实世界的图像和通过多边形扭曲来标记噪声，而不是简单地调整分类变量的概率，以及通过使用相互教导神经网络来使深度学习更加鲁棒，从而改进图像处理和空间计算领域。因此，所公开的系统和方法可以通过有意地扭曲训练图像以创建有噪声的标签来改进识别建筑物的传统方法，该有噪声的标签训练神经网络来处理有噪声的训练数据以更准确地识别建筑物覆盖区。

来自本文描述的任何实施例的特征可以根据本文描述的一般原理彼此组合使用。通过结合附图和权利要求阅读以下详细描述，将会更全面地理解这些和其他实施例、特征和优点。

下面将参考图1，详细描述用于自动检测建筑物覆盖区的计算机实现的方法。将结合图2提供相应的示例性系统的详细描述。此外，将结合图3A和图3B提供示例性图像中多边形的示例性标签的详细描述。将结合图4A和图4B提供用于训练标签的示例性图像中的多边形的示例性扭曲的详细描述。此外，将结合图5和图6提供用于训练和评估用于相互教导的示例性神经网络的示例性相互教导方法和示例性模型的详细描述。还将结合图7提供对标签精度的示例性评估的详细描述。最后，将结合图8提供示例性训练数据的示例性优先排名的详细描述。

图1是用于自动检测建筑物覆盖区的示例性计算机实现的方法100的流程图。图1所示的步骤可以由任何合适的计算机可执行代码和/或计算系统来执行，包括图2所示的系统200和计算设备202。在一个示例中，图1所示的每个步骤可以表示其结构包括多个子步骤和/或由多个子步骤表示的算法，其示例将在下面更详细地提供。

如图1所示，在步骤110，这里描述的一个或更多个系统可以收集标签集合，其将图像的训练集合内的多边形标记为建筑结构。例如，图2是用于自动检测建筑物覆盖区的示例性系统200的框图。如图2所示，作为系统200的一部分，收集模块204可以收集标签集合220，其将图像的训练集合216内的多边形218(1)-(N)标记为建筑结构。

本文描述的系统可以以多种方式执行步骤110。在一个示例中，图2的系统200可以表示一个或更多个计算设备或服务器，其可以用图2的模块编程和/或可以存储这里描述的全部或部分数据。例如，系统200可以表示能够存储和/或管理图像数据(例如图像的训练集合216和标签集合220)的服务器，并且能够读取计算机可执行指令。系统200的其他示例可以包括但不限于应用服务器和数据库服务器，其被配置为提供各种数据库服务和/或运行某些软件应用，例如视频存储和流服务。

在一些实施例中，计算设备202通常可以表示能够训练模型来分析图像数据的任何类型或形式的计算设备。计算设备202的示例可以包括但不限于笔记本电脑、平板电脑、台式机、服务器、蜂窝电话、个人数字助理(PDA)、多媒体播放器、嵌入式系统、可穿戴设备(例如，智能手表、智能眼镜等)、游戏控制台，其中的一个或更多个的组合，或任何其他合适的计算设备。

此外，在一些实施例中，系统200和/或计算设备202可以经由无线或有线网络与其他计算设备和系统通信，例如从卫星网络接收图像和/或从远程用户收集标签。在一些示例中，术语“网络”可以指能够促进通信或数据传输的任何介质或架构。网络的示例包括但不限于内联网、广域网(WAN)、局域网(LAN)、个人区域网(PAN)、互联网、电力线通信(PLC)、蜂窝网络(例如全球移动通信系统(GSM)网络)等。

在一些示例中，术语“训练数据”和“训练集合”可以指在机器学习和数据挖掘中使用以创建可以对附加数据进行预测(例如预测其他图像中建筑物覆盖区的标签)的函数和分类器的数据。在一些示例中，术语“机器学习”可以指创建计算算法的方法，该计算算法可以从数据中学习以便做出预测。机器学习的示例可以包括但不限于支持向量机、神经网络、聚类、决策树、回归分析、分类、其中的一个或更多个的变化或组合，和/或任何其他合适的监督、半监督或无监督方法。

在一个实施例中，收集模块204可以首先收集图像的训练集合216，然后收集图像的训练集合216中的图像的标签集合220。在其他实施例中，图像的训练集合216可能已经被标记，并且收集模块204可以识别对应于图像的训练集合216的标签集合220。在一个示例中，图像的训练集合216可以表示描绘地理区域的卫星图像，该地理区域可以包括建筑物的视图。在本示例中，建筑物覆盖区可能作为建筑物或建筑结构的俯视图可见。

在一些示例中，收集模块204可以通过识别图像的训练集合216并收集图像的训练集合216中的图像的众包标签来收集标签集合220。在一些实施例中，术语“众包”可以指从大量人员收集数据或将工作外包给大量人员的过程，例如从web社区收集图像标签。例如，收集模块204可以从诸如OpenStreetMap(OSM)的开源资源收集标签集合220，该开源资源众包用于建筑物多边形的用户标签。在该示例中，每个图像可以表示包括一个或更多个建筑物多边形和/或一个或更多个用户标签的图块(tile)。在其他示例中，用户可以基于地理区域的物理探索来标记位置，例如将标签应用于房屋、停车库、企业和/或其他建筑结构的位置。

如图3A所示，图像302可以包括多边形218(1)-(3)。在该示例中，标签304(1)-(3)可以准确地将多边形218(1)-(3)中的每一个识别为建筑结构。如图3B的替代示例所示，一些标签可能不准确。在该示例中，多边形218(2)和多边形218(3)可能缺少标签，并且标签304(2)可能被错误地应用于不包括建筑物的区域。

此外，在一些示例中，收集模块204可以收集来自不同国家或地理区域的图像或图块，以提供多样化的图像的训练集合。例如，收集模块204可以限制从每个感兴趣的国家或区域收集的图像的数量，以避免一个区域与数据集中的其他区域相比具有太大的权重。

回到图1，在步骤120，这里描述的一个或更多个系统可以通过扭曲图像的训练集合内多个多边形的边界来创建具有预定噪声程度的有噪声标签集合。例如，创建模块206可以作为图2中的计算设备202的一部分，通过扭曲图像的训练集合216内的多个多边形218(1)-(N)的边界来创建具有预定噪声程度224的有噪声标签集合222。

本文描述的系统可以以多种方式执行步骤120。在一个实施例中，预定噪声程度224可以包括基于地理区域的众包标签的计算的噪声程度。例如，创建模块206可以尝试模拟真实世界的设置中的噪声水平，例如从特定区域的OSM标签计算的噪声百分比。在该示例中，众包标签可能频繁地将错误引入标签中，例如在图3B的示例中，并且有噪声标签集合222可以模仿众包错误来为现实世界的情况提供更准确的训练。在另一个实施例中，预定噪声程度224可以包括手动调整的噪声程度。例如，创建模块206可以使用户能够灵活地调整先前模拟的噪声程度，以模拟真实世界的设置。

在一些示例中，创建模块206可以通过调整多边形的比例、旋转多边形、移动多边形的位置和/或倾斜多边形的边界来扭曲多边形的边界。例如，扭曲的多边形可能表示从卫星照片拍摄的未对齐图像或其他图像错误。在另外的示例中，创建模块206可以基于期望的噪声范围来扭曲多个多边形的边界。

在一些示例中，创建模块206然后可以通过将标签集合220应用于扭曲的多边形来创建有噪声标签集合222。在这些示例中，产生的有噪声多边形及其相关标签可以用作有噪声标签来训练机器学习模型。附加地或替代地，创建模块206可以从图像的训练集合216中移除多边形218(1)-(N)中的一部分，和/或可以调整图像的训练集合216内多边形类型的分布。在这些示例中，创建模块206可以移除一定百分比的多边形以模仿众包标签的稀疏性，或者调整分布以模仿地理区域中多边形类型的相似分布。

如图4A所示，图像302(1)和302(2)的初始集合可以包括表示建筑物覆盖区的多边形218(1)-(5)。在该示例中，精确的标签集合220可以包括对应于多边形218(1)-(5)中的每一个的标签304(1)-(5)。相反，如图4B所示，图像302(1)和302(2)可以被扭曲以移除多边形218(3)和218(5)，导致标签304(3)和304(5)从标签集合220中相应移除，以产生有噪声标签集合222。此外，多边形218(1)、218(2)和218(4)可以被几何扰动以模拟图像扭曲，从而将噪声引入到对应的标签304(1)、304(2)和304(4)中，这些标签可以标记图像302(1)和302(2)中原始建筑物覆盖区的像素。

回到图1，在步骤130，这里描述的一个或更多个系统可以通过应用相互教导方法从有噪声标签集合中学习来同时训练两个神经网络。例如，相互教导模块208可以作为图2中计算设备202的一部分，通过应用相互教导方法226从有噪声标签集合222中学习来同时训练神经网络228(1)和228(2)。

本文描述的系统可以以多种方式执行步骤130。在一些实施例中，术语“神经网络”可以指基于输入数据加权并用于估计函数的连接数据模型。例如，深度学习神经网络可以使用输入数据的无监督训练来检测数据内的特征。神经网络的示例可以包括人工神经网络、深度信念神经网络、深度学习神经网络、卷积神经网络和/或可以使用多个处理层从数据中学习以模拟神经网络的其他形式的机器学习方法。例如，所公开的系统和方法可以使用具有语义分割模型的特征提取来训练卷积神经网络，以在全球范围内从卫星图像分割建筑物覆盖区。在该示例中，术语“语义分割”可以指在像素级识别图像中的内容、将像素链接到诸如建筑物的类别标签的过程。在一些示例中，术语“特征提取”可以指导出特征的过程，该特征表示为值或向量，可以作为机器学习的一部分进行分析。

在一个实施例中，相互教导模块208可以通过以下方式来训练神经网络228(1)和228(2)：根据图像的训练集合216的嵌入训练神经网络228(1)和228(2)，使用由神经网络228(2)选择的训练数据更新神经网络228(1)，以及使用由神经网络228(1)选择的训练数据更新神经网络228(2)。在一些示例中，术语“相互教导方法”可以指的是使用机器学习模型在多次迭代训练中相互教导和改进。换句话说，神经网络228(1)和228(2)可以各自选择当前在一次迭代中可用的最佳训练数据，并将该训练数据馈送给另一个神经网络，这可以依次改进其对训练数据的选择。

在一些实施例中，术语“嵌入(embedding)”可以指分类变量到数值向量的映射，使得该变量可以被数值分析。例如，分类多边形标签的嵌入可以由对于相似的多边形更接近的向量来表示。在一些示例中，每个训练图像可以表示具有设定数量的像素的图块，每个像素表示设定长度的地面，并且标签指示每个像素是否是建筑物覆盖区的一部分。然后，这些图像的嵌入可以表示指示像素是否被标记为建筑物覆盖区的向量，其然后可以被用作训练数据。

如图5和图6所示，相互教导模块208可以首先从图像的训练集合216提取嵌入502。在图6的示例中，相互教导模块208然后可以训练神经网络228(1)和228(2)，以使用从图像的训练集合216导出的嵌入502并使用有噪声标签集合222来选择最佳训练数据。通过使用相互教导方法226来训练神经网络228(1)和228(2)，相互教导模块208可以使神经网络228(1)和228(2)能够利用如图5所示的由另一个神经网络在多次迭代中选择的改进的训练数据504(1)和504(2)来各自更新。换句话说，神经网络228(1)和228(2)可以用前馈机制来相互训练，以便随着时间的推移选择更好的数据。在一些示例中，相互教导模块208可以继续改进神经网络228(1)和228(2)，直到顺序迭代显示出最小的改进，或者直到用户确定神经网络达到优选的精度水平。

回到图1，在步骤140，这里描述的一个或更多个系统可以基于两个经训练的神经网络提取训练数据的优先列表。例如，提取模块210可以作为图2中计算设备202的一部分，基于经训练的神经网络228(1)和228(2)提取训练数据的优先列表230。

本文描述的系统可以以多种方式执行步骤140。在一个实施例中，提取模块210可以通过评估图像的训练集合216的标签的精度并且用精度较高的标签交换精度低的标签来提取训练数据的优先列表230。例如，有噪声标签可以模仿人类标记，并且提取模块210可以用更好的标签交换被认为太不准确的标签，以避免不准确地训练机器学习模型。在这个示例中，高度不准确的标签可以在一定的置信水平下被交换，以保持干净和过滤的训练数据集。

如图7所示，有噪声标签集合222可以包括具有不同精度702(1)-(3)的标签304(1)-(3)。然而，在该示例中，标签304(3)可以被确定为低于精度阈值，并且提取模块210可以用具有高精度702(4)的标签304(4)替换标签304(3)，以改进使用有噪声标签集合222的训练数据。在其他示例中，提取模块210可以调整有噪声标签集合222来添加或移除标签，以更好地对应于现实世界的标签精度。

在一些实施例中，提取模块210可以通过基于相互教导方法226的损失函数对训练数据进行排名，并基于该排名将训练数据添加到训练数据的优先列表230，来提取训练数据的优先列表230。在一些示例中，术语“损失函数”可以指计算一组情况的代价的数学函数。例如，机器学习模型的损失函数可以计算不准确预测的概率。在这些实施例中，提取模块210可以执行训练数据可靠性评估，以确定什么数据是更可靠的以用于训练机器学习模型。例如，提取模块210可以基于准确对应标签的可能性来对训练图像进行排名，并选择排名最高的图像作为训练数据集。

在一些示例中，提取模块210可以通过评估神经网络228(1)和/或神经网络228(2)是否选择训练图像的代表性样本来提取训练数据的优先列表230，以用于训练机器学习模型。如图6所示，提取模块210可以评估由神经网络228(1)和228(2)选择的训练数据，作为相互教导方法226的结果。在其他示例中，训练数据可以被排名以指示训练数据的标签可以被信任多少，这可以有助于损失函数的计算。

如图8所示，相互教导方法226可以包括神经网络228(1)和228(2)在初始迭代中分别从图像的训练集合216中选择训练数据504(1)和504(2)。神经网络228(1)然后可以将训练数据504(1)馈送到神经网络228(2)，并且神经网络228(2)可以将训练数据504(2)馈送到神经网络228(1)。在该示例中，在训练数据504(2)的评估中，神经网络228(1)可以确定图像302(4)不包括建筑物多边形或者可能不代表真实世界的感兴趣区域，因此可能是训练的不良选择。另外，神经网络228(1)可以确定替代标签304(5)为图像302(3)提供比神经网络228(2)当前在训练数据504(2)中选择的标签304(4)更准确的标签。因此，神经网络228(1)可以在第二次迭代中将训练数据504(2)改进为训练数据504(3)。随后，神经网络228(2)可以确定训练数据504(1)和504(3)的组合是最准确和最有代表性的数据，并且因此可以输出训练数据504(4)作为结果。此外，在该示例中，提取模块210可以使用损失函数802来创建训练数据504(1)-(4)的排名804，并且随后可以确定训练数据504(4)是排名最高的数据集。因此，提取模块210可以使用训练数据504(4)作为训练数据的优先列表230。在其他示例中，提取模块210和/或用户可以包括附加的高排名训练数据，以根据区域属性提供更具代表性的图像样本。

返回图1，在步骤150，这里描述的一个或更多个系统可以用训练数据的优先列表训练机器学习模型。例如，作为图2中计算设备202的一部分，训练模块212可以用训练数据的优先列表230来训练机器学习模型232。

本文描述的系统可以以多种方式执行步骤150。在一些示例中，训练模块212可以基于排名804使用训练数据的优先列表230，如图8所示。在一个实施例中，训练模块212可以结合沙漏模型来处理所有比例和图像尺寸的特征，并合并这些特征以最好地捕获与模型从训练图像推断的建筑物覆盖区相关联的空间关系。沙漏模型可以重复自下而上和自上而下的处理，例如通过执行池化(pooling)和上采样的多个连续步骤来产生最终的预测集合。换句话说，机器学习模型232可以将图像分解成组成部分和/或在训练期间组合它们，以精确预测各种图像尺寸的建筑物覆盖区。

返回图1，在步骤160，这里描述的一个或更多个系统可以使用经训练的机器学习模型识别目标图像中的一个或更多个建筑物覆盖区。例如，作为图2中计算设备202的一部分，识别模块214可以使用经训练的机器学习模型232来识别目标图像234中的建筑物覆盖区236。

本文描述的系统可以以多种方式执行步骤160。在一些实施例中，机器学习模型232可以确定目标图像234的尺寸和比例。在这些实施例中，机器学习模型232然后可以识别目标图像234的对应于建筑物覆盖区236的像素。在识别所有建筑物像素之后，识别模块214可以通过识别多边形的边界来组合像素以识别建筑物覆盖区236的形状。

在一些示例中，本文描述的系统和方法可以进一步评估两个经训练的神经网络的预测精度。例如，如图6所示，评估模块602可以代表图2的计算设备202的附加模块，并且可以评估神经网络228(1)和228(2)的预测精度。另外，评估模块602可以修改神经网络228(1)和/或神经网络228(2)，以提高一个或两个神经网络的预测精度。

在一个实施例中，评估模块602可以通过计算为图像像素计算的交并比(IOU)度量、精确分数、召回分数和/或F分数来评估神经网络228(1)和228(2)的预测精度。在一些示例中，术语“交并比”可以指用于评估检测特定类型的数据(例如建筑物覆盖区)的精度的度量。在一些示例中，术语“精确分数”可以指计算准确识别的对象与总体识别的对象的比率的度量，例如与所有识别的建筑物(包括不准确的识别)相比准确识别的建筑物的数量。在一些示例中，术语“召回分数”可以指计算潜在遗漏的识别的度量。在一些示例中，术语“F分数”可以指评估模型精度的度量，其可以包括使用精确分数和召回分数。例如，在评估模型时，F₁分数可能同样重视精确度和召回率。通过评估整体精度，评估模块602可以改进用于训练机器学习模型232的训练数据的优先列表230的选择，这然后可以改进对目标图像234中的建筑物覆盖区236的检测。

如上文结合图1中的方法100所解释的，所公开的系统和方法可以通过引入扰动来直接操纵多边形几何形状，从而改进分类变量(例如卫星图像中建筑物覆盖区的标签)中的噪声模拟。具体而言，所公开的系统和方法可以首先收集训练图像集合和用于图像中的建筑物的相应标签。所公开的系统和方法然后可以通过调整训练图像中表示建筑物的多边形以及调整各种类型的建筑物和标签的百分比来模拟有噪声的标签。例如，所公开的系统和方法可以倾斜建筑物覆盖区的边界，或者添加和移除整个多边形或标签。在此描述的系统和方法可以随后将训练图像和有噪声的标签馈送到两个神经网络，这两个神经网络彼此相互教导，以从可用的数据集中选择最佳训练数据。

此外，本文描述的系统和方法可以使用相互教导神经网络来评估数据集并对其进行排名，以识别用于对图像进行分类以识别建筑物覆盖区的最佳训练数据。通过提供使用不确定估计来评估标签的框架，所公开的系统和方法可以提供为模型生成的有噪声标签是否是有用的置信水平。例如，太不准确的标签可以被交换成更好的标签，并且各种数据集可以被排名以找到最佳数据集来训练机器学习模型。因此，通过创建用于深度学习的有噪声标签，所公开的系统和方法可以训练更鲁棒的机器学习模型，该模型可以处理标签噪声以更准确地识别建筑物覆盖区。因此，这里描述的系统和方法可以改进训练数据的评估，以及训练更精确的机器学习模型，以识别图像数据中可能高度稀疏和有噪声的分类变量。

示例实施例

示例1：一种用于自动检测建筑物覆盖区的计算机实现的方法可以包括：1)收集将图像的训练集合内的多边形标记为建筑结构的标签集合，2)通过扭曲图像的训练集合内的多个多边形的边界来创建具有预定噪声程度的有噪声标签集合，3)通过应用相互教导方法从有噪声标签集合中学习来同时训练两个神经网络，4)基于两个经训练的神经网络提取训练数据的优先列表，5)用训练数据的优先列表训练机器学习模型，以及6)使用经训练的机器学习模型识别目标图像中的一个或更多个建筑物覆盖区。

示例2：根据示例1的计算机实现的方法，其中收集标签集合可以包括识别图像的训练集合和收集图像的训练集合中的图像的众包标签。

示例3：根据示例1和2中任一个的计算机实现的方法，其中预定噪声程度可以包括基于地理区域的众包标签的计算的噪声程度和/或手动调整的噪声程度。

示例4：根据示例1-3中任一个的计算机实现的方法，其中扭曲多边形的边界可以包括调整多边形的比例、旋转多边形、移动多边形的位置和/或倾斜多边形的边界。

示例5：根据示例1-4中任一个的计算机实现的方法，其中创建有噪声标签集合可以包括将标签集合应用于扭曲的多边形，从图像的训练集合中移除一部分多边形，和/或调整图像的训练集合内的多边形的类型的分布。

示例6：根据示例1-5中任一个的计算机实现的方法，其中训练两个神经网络可以包括根据图像的训练集合的嵌入训练两个神经网络，使用由第二神经网络选择的训练数据更新第一神经网络，以及使用由第一神经网络选择的训练数据更新第二神经网络。

示例7：根据示例1-6中任一个的计算机实现的方法，其中提取训练数据的优先列表可以包括评估用于图像的训练集合的标签的精度，并且用精度较高的标签交换精度低的标签。

示例8：根据示例1-7中任一个的计算机实现的方法，其中提取训练数据的优先列表可以包括基于相互教导方法的损失函数对训练数据进行排名，并且基于排名将训练数据添加到训练数据的优先列表。

示例9：根据示例1-8中任一个的计算机实现的方法可以进一步包括评估两个经训练的神经网络的预测精度，并修改两个神经网络以提高预测精度。

示例10：根据示例9的计算机实现的方法，其中评估两个经训练的神经网络的预测精度可以包括计算为图像像素计算的交并比度量、精确分数、召回分数和/或F分数。

示例11：用于自动检测建筑物覆盖区的相应系统可以包括存储在存储器中的几个模块，包括1)收集模块，其收集将图像的训练集合内的多边形标记为建筑结构的标签集合，2)创建模块，其通过扭曲图像的训练集合内的多个多边形的边界来创建具有预定噪声程度的有噪声标签集合，3)相互教导模块，其通过应用相互教导方法从有噪声标签集合中学习来同时训练两个神经网络，4)提取模块，其基于两个经训练的神经网络提取训练数据的优先列表，5)训练模块，其利用训练数据的优先列表训练机器学习模型，以及6)识别模块，其使用经训练的机器学习模型识别目标图像中的一个或更多个建筑物覆盖区。该系统还可以包括一个或更多个硬件处理器，其执行收集模块、创建模块、相互教导模块、提取模块、训练模块和识别模块。

示例12：根据示例11的系统，其中收集模块可以通过识别图像的训练集合并收集图像的训练集合中的图像的众包标签来收集标签集合。

示例13：根据示例11和12中任一个的系统，其中预定噪声程度可以包括基于地理区域的众包标签的计算的噪声程度和/或手动调整的噪声程度。

示例14：根据示例11-13中任一个的系统，其中创建模块可以通过调整多边形的比例、旋转多边形、移动多边形的位置和/或倾斜多边形的边界来扭曲多边形的边界。

示例15：根据示例11-14中任一个的系统，其中创建模块可以通过将该标签集合应用于扭曲的多边形、从图像的训练集合中移除一部分多边形和/或调整图像的训练集合内的多边形的类型的分布来创建有噪声标签集合。

示例16：根据示例11-15中任一个的系统，其中相互教导模块可以通过根据图像的训练集合的嵌入训练两个神经网络，使用由第二神经网络选择的训练数据更新第一神经网络，以及使用由第一神经网络选择的训练数据更新第二神经网络，来训练两个神经网络。

示例17：根据示例11-16中任一个的系统，其中，提取模块可以通过评估图像的训练集合的标签的精度并用精度较高的标签交换精度低的标签来提取训练数据的优先列表。

示例18：根据示例11-17中任一个的系统，其中，提取模块可以通过基于相互教导方法的损失函数对训练数据进行排名，并且基于排名将训练数据添加到训练数据的优先列表，来提取训练数据的优先列表。

示例19：根据示例11-18中任一个的系统，还包括存储在存储器中的评估模块，该评估模块评估两个经训练的神经网络的预测精度，并修改两个神经网络以提高预测精度。

示例20：上述方法可以被编码为计算机可读介质上的计算机可读指令。例如，计算机可读介质可以包括一个或更多个计算机可执行指令，当由计算设备的一个或更多个处理器执行时，这些指令可以使得计算设备1)收集将图像的训练集合内的多边形标记为建筑结构的标签集合，2)通过扭曲图像的训练集合内的多个多边形的边界来创建具有预定噪声程度的有噪声标签集合，3)通过应用相互教导方法从有噪声标签集合中学习来同时训练两个神经网络，4)基于两个经训练的神经网络提取训练数据的优先列表，5)用训练数据的优先列表训练机器学习模型，以及6)使用经训练的机器学习模型识别目标图像中的至少一个建筑物覆盖区。

如上面所详述的，本文描述和/或示出的计算设备和系统广泛地表示能够执行计算机可读指令(例如在本文描述的模块内包含的那些指令)的任何类型或形式的计算设备或系统。在它们的最基本的配置中，这些计算设备(一个或多个)可以各自包括至少一个存储器设备和至少一个物理处理器。

在一些示例中，术语“存储器设备”通常指能够存储数据和/或计算机可读指令的任何类型或形式的易失性或非易失性存储设备或介质。在一个示例中，存储器设备可以存储、加载和/或维护本文描述的模块中的一个或更多个。存储器设备的示例包括但不限于随机存取存储器(RAM)、只读存储器(ROM)、闪存、硬盘驱动器(HDD)、固态驱动器(SSD)、光盘驱动器、高速缓存、这些部件中的一个或更多个的变形或组合、或者任何其他合适的储存存储器。

在一些示例中，术语“物理处理器”通常指能够解析和/或执行计算机可读指令的任何类型或形式的硬件实现的处理单元。在一个示例中，物理处理器可以访问和/或修改存储在上述存储器设备中的一个或更多个模块。物理处理器的示例包括但不限于微处理器、微控制器、中央处理单元(CPU)、实现软核处理器的现场可编程门阵列(FPGA)、专用集成电路(ASIC)、它们中的一个或更多个的部分、这些处理器中的一个或更多个的变体或组合或任何其他合适的物理处理器。

尽管被示为单独的元件，但是本文描述和/或示出的模块可以表示单个模块或应用的部分。此外，在某些实施例中，这些模块中的一个或更多个可以表示一个或更多个软件应用或程序，该一个或更多个软件应用或程序在由计算设备执行时可以使计算设备执行一个或更多个任务。例如，本文描述和/或示出的一个或更多个模块可以表示被存储在并被配置成在本文描述和/或示出的一个或更多个计算设备或系统上运行的模块。这些模块中的一个或更多个还可以表示被配置为执行一个或更多个任务的一个或更多个专用计算机的全部或部分。

此外，本文描述的一个或更多个模块可以将数据、物理设备和/或物理设备的表示从一种形式变换成另一种形式。例如，本文所述的一个或更多个模块可以接收待变换的训练图像数据，变换训练图像以引入噪声和误差，输出变换结果以执行相互教导方法，使用变换结果来识别优先训练数据集，以及存储变换结果以提供用于机器学习模型的训练数据来识别卫星图像中的建筑物覆盖区。附加地或替代地，本文所述的模块中的一个或更多个可以通过在计算设备上执行、在计算设备上存储数据、和/或以其他方式与计算设备交互来将处理器、易失性存储器、非易失性存储器和/或物理计算设备的任何其他部分从一种形式变换成另一种形式。

在一些实施例中，术语“计算机可读介质”通常指能够存储或携带计算机可读指令的任何形式的设备、载体或介质。计算机可读介质的示例包括但不限于传输型介质(例如，载波)以及非暂时性类型的介质，例如，磁存储介质(例如，硬盘驱动器、磁带驱动器和软盘)、光存储介质(例如，光盘(CD)、数字视频盘(DVD)和BLU-RAY盘)、电子存储介质(例如，固态驱动器和闪存介质)以及其他分发系统。

本文描述和/或示出的过程参数和步骤的顺序仅作为示例被给出，并且可以根据需要变化。例如，虽然本文示出和/或描述的步骤可以以特定顺序示出或讨论，但是这些步骤不一定需要以所示出或讨论的顺序执行。本文描述和/或示出的各种示例性方法也可以省略在本文描述或示出的一个或更多个步骤，或者包括除了那些所公开的步骤之外的附加步骤。

提供前面的描述以使本领域中的其他技术人员能够最好地利用本文公开的示例性实施例的各种方面。该示例性描述并不旨在是穷尽的或受限于所公开的任何精确形式。在不背离本公开的精神和范围的情况下，许多修改和变化是可能的。本文公开的实施例应该被认为在所有方面都是说明性的，而不是限制性的。在确定本公开的范围时，应参考所附权利要求及其等同形式。

除非另有说明，否则如在说明书和权利要求中使用的术语“连接到”和“耦合到”(及其派生词)应被解释为允许直接和间接(即，经由其他元件或部件)连接。此外，如在说明书和权利要求中使用的术语“一个(a)”或“一个(an)”应被解释为意指“......中的至少一个”。最后，为了容易使用，如在说明书和权利要求中使用的术语“包括(including)”和“具有”(及其派生词)与词“包括(comprising)”可互换并具有与词“包括(comprising)”相同的含义。

Claims

1.一种计算机实现的方法，包括：

收集将图像的训练集合内的多边形标记为建筑结构的标签集合；

通过扭曲所述图像的训练集合内的多个多边形的边界来创建具有预定噪声程度的有噪声标签集合；

通过应用相互教导方法从所述有噪声标签集合中学习来同时训练两个神经网络；

基于两个经训练的神经网络提取训练数据的优先列表；

用所述训练数据的优先列表训练机器学习模型；和

使用经训练的机器学习模型识别目标图像中的至少一个建筑物覆盖区。

2.根据权利要求1所述的方法，其中，收集所述标签集合包括：

识别所述图像的训练集合；和

收集所述图像的训练集合中的图像的众包标签。

3.根据权利要求1所述的方法，其中，所述预定噪声程度包括以下至少一项：

基于地理区域的众包标签的计算的噪声程度；或者

手动调节的噪声程度。

4.根据权利要求1所述的方法，其中，扭曲多边形的边界包括以下至少一项：

调整所述多边形的比例；

旋转所述多边形；

移动所述多边形的位置；或者

倾斜所述多边形的边界。

5.根据权利要求1所述的方法，其中，创建所述有噪声标签集合包括以下至少一项：

将所述标签集合应用于扭曲的多边形；

从所述图像的训练集合中移除一部分多边形；或者

调整所述图像的训练集合内的多边形的类型的分布。

6.根据权利要求1所述的方法，其中，训练所述两个神经网络包括：

根据所述图像的训练集合的嵌入训练所述两个神经网络；

使用由第二神经网络选择的训练数据更新第一神经网络；和

使用由所述第一神经网络选择的训练数据更新所述第二神经网络。

7.根据权利要求1所述的方法，其中，提取所述训练数据的优先列表包括：

评估所述图像的训练集合的标签的精度；和

用精度较高的标签交换精度低的标签。

8.根据权利要求1所述的方法，其中，提取所述训练数据的优先列表包括：

基于所述相互教导方法的损失函数对训练数据进行排名；和

基于所述排名将训练数据添加到所述训练数据的优先列表。

9.根据权利要求1所述的方法，还包括：

评估所述两个经训练的神经网络的预测精度；和

修改所述两个神经网络以提高所述预测精度。

10.根据权利要求9所述的方法，其中，评估所述两个经训练的神经网络的预测精度包括计算以下至少一项：

为图像像素计算的交并比度量；

精确分数；

召回分数；或者

F分数。

11.一种系统，包括：

存储在存储器中的收集模块，所述收集模块收集将图像的训练集合内的多边形标记为建筑结构的标签集合；

存储在存储器中的创建模块，所述创建模块通过扭曲所述图像的训练集合内的多个多边形的边界来创建具有预定噪声程度的有噪声标签集合；

存储在存储器中的相互教导模块，所述相互教导模块通过应用相互教导方法从所述有噪声标签集合中学习来同时训练两个神经网络；

存储在存储器中的提取模块，所述提取模块基于两个经训练的神经网络提取训练数据的优先列表；

存储在存储器中的训练模块，所述训练模块用所述训练数据的优先列表训练机器学习模型；

存储在存储器中的识别模块，所述识别模块使用经训练的机器学习模型识别目标图像中的至少一个建筑物覆盖区；和

至少一个处理器，所述至少一个处理器执行所述收集模块、所述创建模块、所述相互教导模块、所述提取模块、所述训练模块和所述识别模块。

12.根据权利要求11所述的系统，其中，所述收集模块通过以下方式收集所述标签集合：