CN112857268A

CN112857268A - 对象面积测量方法、装置、电子设备和存储介质

Info

Publication number: CN112857268A
Application number: CN202110081896.0A
Authority: CN
Inventors: 彭岩; 龙翔; 韩树民; 郑弘晖; 贾壮; 王晓迪; 苑鹏程; 冯原; 张滨; 辛颖
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-01-21
Filing date: 2021-01-21
Publication date: 2021-05-28
Anticipated expiration: 2041-01-21
Also published as: US11669990B2; US20210390728A1; CN112857268B; EP3913532A3; EP3913532A2

Abstract

本公开提供了一种对象面积测量方法，涉及人工智能领域，尤其涉及计算机视觉和深度学习技术。实现方案为：获取具有空间分辨率的原始图像，原始图像包含目标对象。获取对象识别模型，对象识别模型包括至少两组分类模型。基于原始图像，生成一个或多个原始图像块。对每个原始图像块进行包括以下各项的操作：对每个原始图像块进行至少两种尺度的缩放，以得到至少两种尺度的缩放图像块，至少两种尺度的缩放图像块分别对应于至少两组分类模型，以及将至少两种尺度的缩放图像块输入到对象识别模型，以得到该原始图像块中目标对象的识别结果。基于一个或多个原始图像块各自的识别结果和原始图像的空间分辨率，确定目标对象的面积。

Description

对象面积测量方法、装置、电子设备和存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及计算机视觉和深度学习技术，具体涉及一种用于对象面积测量的方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

背景技术

人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术:人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

对象面积测量，例如对地物面积的测量在农作物种植、城乡规划、防汛救灾等领域具有很高的实用价值。在相关技术中，对地物面积测量的技术方案还有很大的提高空间。

在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明，否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地，除非另有指明，否则此部分中提及的问题不应认为在任何现有技术中已被公认。

发明内容

本公开提供了一种对象面积测量的方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

根据本公开的一方面，提供了一种对象面积测量方法，包括：获取具有空间分辨率的原始图像，原始图像包含目标对象。获取对象识别模型，对象识别模型包括至少两组分类模型，至少两组分类模型中的每一组包括至少两种语义分割网络模型。基于所述原始图像，生成一个或多个原始图像块。对每个原始图像块进行包括以下各项的操作：对每个原始图像块进行至少两种尺度的缩放，以得到至少两种尺度的缩放图像块，其中，至少两种尺度的缩放图像块分别对应于至少两组分类模型，以及，将所述至少两种尺度的缩放图像块输入到对象识别模型，以得到该原始图像块中目标对象的识别结果。基于一个或多个原始图像块各自的识别结果和原始图像的空间分辨率，确定目标对象的面积。

根据本公开的另一方面，提供了一种对象面积测量装置，包括：第一获取单元，被配置为获取具有空间分辨率的原始图像，原始图像包括目标对象。第二获取单元，被配置为获取对象识别模型，对象识别模型包括至少两组分类模型，至少两组分类模型中的每一组包括至少两种语义分割网络模型。生成单元，被配置为基于原始图像，生成一个或多个原始图像块。执行单元，被配置为对每个原始图像块进行包括以下的各项操作：对每个原始图像块进行至少两种尺度的缩放，以得到至少两种尺度的缩放图像块，至少两种尺度的缩放图像块分别对应于所述至少两组分类模型，以及，将至少两种尺度的缩放图像块输入到对象识别模型，以得到该原始图像块中目标对象的识别结果。确定单元，被配置为基于一个或多个原始图像块各自的识别结果和原始图像的空间分辨率，确定目标对象的面积。

根据本公开的另一方面，提供了一种电子设备，包括：存储器、处理器以及存储在存储器上的计算机程序。其中，处理器被配置为执行计算机程序以实现上述方法的步骤。

根据本公开的另一方面，提供了一种非暂态计算机可读存储介质，其上存储有计算机程序。其中，计算机程序被处理器执行时实现上述方法的步骤。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序。其中，计算机程序被处理器执行时实现上述方法的步骤。

本公开实施例提供的技术方案带来的有益技术效果至少包括：

根据本公开的一个或多个实施例，可以使用基于人工智能对对象面积进行测量，通过使用多尺度、多模型融合的方式进行预测，提高了测量精度。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图示例性地示出了实施例并且构成说明书的一部分，与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的，并不限制权利要求的范围。在所有附图中，相同的附图标记指代类似但不一定相同的要素。

图1示出了根据本公开的实施例的可以在其中实施本文描述的各种方法的示例性系统的示意图；

图2示出了根据本公开的实施例的对象面积测量的方法的流程图；

图3示出了根据本公开的实施例的图像裁切和缩放过程的示例操作的示意图；

图4示出了根据本公开的实施例的在图2的方法中得到目标对象识别结果的示例操作的流程图；

图5示出了根据本公开的实施例的在图4的方法中融合预测图的示例操作的流程图；

图6示出了根据本公开的实施例的得到对象预测图的示例操作的示意图；

图7示出了根据本公开的实施例的融合预测图的示例操作的示意图；

图8示出了根据本公开的实施例的在图2方法中的确定目标对象的面积的示例操作的流程图；

图9示出了根据本公开的实施例的对象面积测量的装置的结构框图；

图10示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在本公开中，除非另有说明，否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系，这种术语只是用于将一个元件与另一元件区分开。在一些示例中，第一要素和第二要素可以指向该要素的同一实例，而在某些情况下，基于上下文的描述，它们也可以指代不同实例。

在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的，而并非旨在进行限制。除非上下文另外明确地表明，如果不特意限定要素的数量，则该要素可以是一个也可以是多个。此外，本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。

在相关技术中，对地物面积的测量主要由人工实地测量、使用传统图像算法对遥感影像进行处理后估算，其需要消耗大量人力，且精度较低。

为解决上述相关技术中的问题，本公开基于深度学习图像分割的方式，采用多尺度、多模型融合，提供了以下对目标对象的面积进行预测的技术方案。

下面将结合附图详细描述本公开的实施例。

图1示出了根据本公开的实施例可以将本文描述的各种方法和装置在其中实施的示例性系统100的示意图。参考图1，该系统100包括一个或多个客户端设备101、102、103、104、105和106、服务器120以及将一个或多个客户端设备耦接到服务器120的一个或多个通信网络110。客户端设备101、102、103、104、105和106可以被配置为执行一个或多个应用程序。

在本公开的实施例中，服务器120可以运行使得能够执行对象面积测量的方法的一个或多个服务或软件应用。

在某些实施例中，服务器120还可以提供可以包括非虚拟环境和虚拟环境的其他服务或软件应用。在某些实施例中，这些服务可以作为基于web的服务或云服务提供，例如在软件即服务(SaaS)模型下提供给客户端设备101、102、103、104、105和/或106的用户。

在图1所示的配置中，服务器120可以包括实现由服务器120执行的功能的一个或多个组件。这些组件可以包括可由一个或多个处理器执行的软件组件、硬件组件或其组合。操作客户端设备101、102、103、104、105和/或106的用户可以依次利用一个或多个客户端应用程序来与服务器120进行交互以利用这些组件提供的服务。应当理解，各种不同的系统配置是可能的，其可以与系统100不同。因此，图1是用于实施本文所描述的各种方法的系统的一个示例，并且不旨在进行限制。

用户可以使用客户端设备101、102、103、104、105和/或106来测量目标对象的面积。客户端设备可以提供使客户端设备的用户能够与客户端设备进行交互的接口。客户端设备还可以经由该接口向用户输出信息。尽管图1仅描绘了六种客户端设备，但是本领域技术人员将能够理解，本公开可以支持任何数量的客户端设备。

客户端设备101、102、103、104、105和/或106可以包括各种类型的计算机设备，例如便携式手持设备、通用计算机(诸如个人计算机和膝上型计算机)、工作站计算机、可穿戴设备、游戏系统、瘦客户端、各种消息收发设备、传感器或其他感测设备等。这些计算机设备可以运行各种类型和版本的软件应用程序和操作系统，例如Microsoft Windows、AppleiOS、类UNIX操作系统、Linux或类Linux操作系统(例如Google Chrome OS)；或包括各种移动操作系统，例如Microsoft Windows Mobile OS、iOS、Windows Phone、Android。便携式手持设备可以包括蜂窝电话、智能电话、平板电脑、个人数字助理(PDA)等。可穿戴设备可以包括头戴式显示器和其他设备。游戏系统可以包括各种手持式游戏设备、支持互联网的游戏设备等。客户端设备能够执行各种不同的应用程序，例如各种与Internet相关的应用程序、通信应用程序(例如电子邮件应用程序)、短消息服务(SMS)应用程序，并且可以使用各种通信协议。

网络110可以是本领域技术人员熟知的任何类型的网络，其可以使用多种可用协议中的任何一种(包括但不限于TCP/IP、SNA、IPX等)来支持数据通信。仅作为示例，一个或多个网络110可以是局域网(LAN)、基于以太网的网络、令牌环、广域网(WAN)、因特网、虚拟网络、虚拟专用网络(VPN)、内部网、外部网、公共交换电话网(PSTN)、红外网络、无线网络(例如蓝牙、WIFI)和/或这些和/或其他网络的任意组合。

服务器120可以包括一个或多个通用计算机、专用服务器计算机(例如PC(个人计算机)服务器、UNIX服务器、中端服务器)、刀片式服务器、大型计算机、服务器群集或任何其他适当的布置和/或组合。服务器120可以包括运行虚拟操作系统的一个或多个虚拟机，或者涉及虚拟化的其他计算架构(例如可以被虚拟化以维护服务器的虚拟存储设备的逻辑存储设备的一个或多个灵活池)。在各种实施例中，服务器120可以运行提供下文所描述的功能的一个或多个服务或软件应用。

服务器120中的计算单元可以运行包括上述任何操作系统以及任何商业上可用的服务器操作系统的一个或多个操作系统。服务器120还可以运行各种附加服务器应用程序和/或中间层应用程序中的任何一个，包括HTTP服务器、FTP服务器、CGI服务器、JAVA服务器、数据库服务器等。

在一些实施方式中，服务器120可以包括一个或多个应用程序，以分析和合并从客户端设备101、102、103、104、105和106的用户接收的数据馈送和/或事件更新。服务器120还可以包括一个或多个应用程序，以经由客户端设备101、102、103、104、105和106的一个或多个显示设备来显示数据馈送和/或实时事件。

在一些实施方式中，服务器120可以为分布式系统的服务器，或者是结合了区块链的服务器。服务器120也可以是云服务器，或者是带人工智能技术的智能云计算服务器或智能云主机。云服务器是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器(VPS，Virtual Private Server)服务中存在的管理难度大、业务扩展性弱的缺陷。

系统100还可以包括一个或多个数据库130。在某些实施例中，这些数据库可以用于存储数据和其他信息。例如，数据库130中的一个或多个可用于存储诸如音频文件和视频文件的信息。数据存储库130可以驻留在各种位置。例如，由服务器120使用的数据存储库可以在服务器120本地，或者可以远离服务器120且可以经由基于网络或专用的连接与服务器120通信。数据存储库130可以是不同的类型。在某些实施例中，由服务器120使用的数据存储库可以是数据库，例如关系数据库。这些数据库中的一个或多个可以响应于命令而存储、更新和检索到数据库以及来自数据库的数据。

在某些实施例中，数据库130中的一个或多个还可以由应用程序使用来存储应用程序数据。由应用程序使用的数据库可以是不同类型的数据库，例如键值存储库，对象存储库或由文件系统支持的常规存储库。

图1的系统100可以以各种方式配置和操作，以使得能够应用根据本公开所描述的各种方法和装置。

图2示出了根据本公开的实施例的对象面积测量的方法200的流程图。如图2所示，方法200包括步骤210至步骤250。

在步骤210，获取具有空间分辨率的原始图像，原始图像包含目标对象。

在步骤220，获取对象识别模型，对象识别模型包括至少两组分类模型，至少两组分类模型中的每一组包括至少两种语义分割网络模型。

在步骤230，基于原始图像，生成一个或多个原始图像块。

在步骤240，对每个原始图像块进行包括以下各项的操作：对每个原始图像块进行至少两种尺度的缩放，以得到至少两种尺度的缩放图像块，至少两种尺度的缩放图像块分别对应于至少两组分类模型，以及将至少两种尺度的缩放图像块输入到对象识别模型，以得到该原始图像块中目标对象的识别结果。

在步骤250，基于一个或多个原始图像块各自的识别结果和原始图像的空间分辨率，确定目标对象的面积。

根据一些示例性实施例，包含目标对象的原始图像可以使遥感影像，并且目标对象可以是例如水域、耕地或街道等。

根据一些示例性实施例，原始图像的空间分辨率可以表示图像上能够详细区分的最小单元的尺寸或大小。

根据一些示例性实施例，生成一个或多个原始图像块可以包括将原始图像裁切为一个或多个原始图像块，并且每个原始图像块具有预定尺度。

根据一些示例性实施例，对原始图像的裁切的大小可以根据应用方法200的设备的计算性能来调整。示例性地，对于高计算性能，原始图像可以作为单一的原始图像块。可选地，对于较低计算性能，原始图像可以被裁切为多个原始图像块，进而节省对象预测的处理时间。

图3示出了根据本公开的实施例的图像裁切和缩放过程300的示例操作的示意图。如图3所示，原始图像310可以沿着经标注的原始图像320中的横向和纵向线裁切。原始图像320中包括部分原始图像322和324。将原始图像进行裁切后，可以生成一个或多个原始图像块330。一个或多个原始图像块330中包括原始图像块322和324。应该理解的是，图中对原始图像310的裁切方式仅仅是示例性的。可以根据运算时间或其他考虑而选择任意的裁切方式。

接下来，将一个或多个原始图像块330进行至少两种尺度的缩放，以得到至少两种尺度的缩放图像块。示例性地，可以对原始图像块322进行缩放，生成缩放图像块340。缩放图像块340可以包括第一尺度缩放图像块342、第二尺度缩放图像块344、第三尺度缩放图像块346等等。类似地，可以对原始图像块324进行缩放，生成缩放图像块350。该缩放图像块350可以包括第一尺度缩放图像块352、第二尺度缩放图像块354、第三尺度缩放图像块356等等。

在一些示例性实施例中，对象识别模型可以包括至少两组分类模型。至少两种尺度的缩放图像块340、350等分别对应于至少两组分类模型，即，进行缩放的尺度的种数与对象识别模型中的分类模型的组数相对应。

在一些示例性实施例中，可以通过训练来获取目标识别模型。可以首先获取原始遥感影像样本，对原始遥感影像样本中的地物进行逐像素地二分类标注。例如关注水体的面积，则可以将每个像素标注为是水体、不是水体这两类。

然后可以裁切所述经标注后的原始遥感影像样本。再将经裁切后的原始遥感影像样本进行至少两种尺度缩放，以得到至少两种尺度的原始遥感影像样本。示例性地，可以将原始遥感影像裁切为512×512的各个样本块，再进行256×256、512×512和1024×1024这三种尺度上的缩放。

接下来，对至少两种尺度的原始遥感影像样本中的每一种，按照比例划分为具有该尺度的训练集和验证集。示例性地，可以将数据划按照9：1划分为训练集和验证集。

接下来，可以使用不用的多种深度学习语义分割网络模型，基于不同尺度的图像样本进行训练，进而得到对应于各个尺度样本的模型。

接下来，可以使用训练得到的模型对验证集中对应尺度的图片进行预测，则可以得到对应于各个尺度和各个语义分割网络模型的多个预测结果。将多个预测结果缩放为同一尺度，使用投票的方式对每个像素点进行分类。

最后，可以将分类结果与原始样本中的标注结果进行对比分析。可选地，可以预测结果与标注结果的统计均交并比(mIoU)值，并反复训练，直到mIoU值达到预先设定的阈值，进而获得对象识别模型。

根据一些示例性实施例，至少两种语义分割模型中的每一个可以是人体姿态估算模型HR-Net、DeepLabV3+模型或U-Net模型。

综上所述，本公开的实施例采用深度学习图像分割的方式，对已知分辨率的遥感影像进行放缩，再使用不同种类的分割模型对多种尺寸的遥感影像进行预测，将多种模型预测出的不同尺寸的结果缩放至相同大小，然后融合模型每个尺度下的结果。最后，按照分类结果的像素数量，根据分辨率计算面积。该方法由于使用多尺度、多模型预测，提高了对对象分割的准确性以及预测的精度。

图4示出了根据本公开的实施例的在图2方法中的得到目标对象识别结果的示例操作的流程图。如图4所示，在图2方法中的至少两种尺度的缩放图像块输入到对象识别模型，以得到该原始图像块中目标对象的识别结果(步骤240)可以包括步骤410至步骤430。

在步骤410，将至少两种尺度的缩放图像块输入到所述至少两组分类模型中的对应组分类模型。

在步骤420，提取每组分类模型的至少两种语义分割模型针对至少两种尺度的缩放图像块中的对应尺度的缩放图像块生成的预测图，每个预测图的各像素点分别指示该对应尺度的缩放图像块的各像素点的预测类别。

在步骤430，融合至少两组分类模型的语义分割模型各自的预测图，以得到该原始图像块中目标对象的识别结果。

在一些示例性实施例中，在生成缩放后的原始图像块后，可以将每个尺度下的原始图像块分别输入到该尺度下的分类模型中。示例性地，可以将原始图像块缩放为256×256、512×512和1024×1024这三种尺度。对应于该缩放尺度，对象识别模型可以包括三组分类模型：分类模型256、分类模型512和分类模型1024。示例性地，可以将256×256尺度下的原始图像块输入到分类模型256中、将512×512尺度下的原始图像块输入到分类模型512中以及将1024×1024尺度下的原始图像块输入到分类模型1024中。

接下来，分类模型中的至少两种语义分割模型可以提取缩放图像块的预测图。示例性地，分类模型256中的至少两种语义分割模型可以提取缩放图像块256×256的预测图。类似地，分类模型512中的至少两种语义分割模型可以提取缩放图像块512×512的预测图并且分类模型1024中的至少两种语义分割模型可以提取缩放图像块1024×1024的预测图。每个预测图的各像素点分别可以指示该对应尺度的缩放图像块的各像素点的预测类别。

进一步地，对于原始图像块中的每个像素点，可以得到在各个尺度下的对应于该像素点的多个预测类别：256×256下的多个预测类别、512×512下的多个预测类别和1024×1024下的多个预测类别。此外，对于例如在256×256下的多个预测类别，可以包括对应于其中语义分割模型种类数量的多个预测类别。示例性地，每组分割模型可以包括三种语义分割网络模型例如HR-Net，DeepLabV3+和U-Net。进而，每个像素点在256×256尺度下的多个预测类别可以包括HR-Net(256)，DeepLabV3+(256)和U-Net(256)。类似的，相同的像素点在512×512尺度下的多个预测类别可以包括HR-Net(512)，DeepLabV3+(512)和U-Net(512)；并且相同的像素点在1024×1024尺度下的多个预测类别可以包括HR-Net(1024)，DeepLabV3+(1024)和U-Net(1024)。故而，对于每个像素点，对象识别模型可以生成多个预测类别。示例性地，每个像素点可以具有HR-Net(256)、DeepLabV3+(256)、U-Net(256)HR-Net(512)、DeepLabV3+(512)、U-Net(512)、HR-Net(1024)、DeepLabV3+(1024)和U-Net(1024)共九个预测类别。

最后，可以融合至少两组分类模型的语义分割模型各自的预测类别，以得到该原始图像块中目标对象的识别结果。

综上所述，本公开的实施例采用不同种类的分割模型对多种尺寸的遥感影像进行预测，多尺度确保了图像特征的多样性，并且多模型克服了单一模型在特定情况下预测结果不稳定的问题。最后通过融合各个模型的预测结果，提高了对象分割预测的准确性。

图5示出了根据本公开的实施例的在图4的方法中融合预测图的示例操作的流程图。如图5所示，图4方法中的融合所述至少两组分类模型的语义分割模型各自的预测结果，以得到该原始图像块中所述目标对象的识别结果(步骤430)可以包括步骤510至步骤530。

在步骤510，将至少两组分类模型的语义分割模型各自生成的预测图缩放至每一个均具有预定尺度，以使得经缩放的每个预测图的各像素点与该原始图像块的各像素点一一对应。

在步骤520，对于该原始图像块的每个像素点：统计经缩放的多个预测图在该像素点位置处各自的预测类别；以及从预测类别的统计结果中选择具有最高统计数量的预测类别作为该像素点的最终类别。

在步骤530，将该原始图像块中最终类别为目标对象类别的所有像素点确定为目标对象在该原始图像块中的识别区域。

在一些示范性实施例中，可以将原始图像裁切为具有预定尺度512×512的原始图像块。由于多尺度缩放下对该原始图像块的预测图为多尺度，可以将每个尺度下的预测图缩放为预定尺度512×512的预测图。

图6示出了根据本公开的实施例的得到对象预测图的示例操作600的示意图。如图6所示，经缩放的一个或多个原始图像块可以包括第一尺度610、第二尺度620、第三尺度630等。第一尺度610下包括缩放图像块612、614等。第二尺度620下包括缩放图像块622、624等。第三尺度630下包括缩放图像块632、634等。对象识别模型640可以包括多组分类模型例如分类模型650、分类模型660、分类模型670等。进一步地，分类模型650可以包括语义分割模型652、语义分割模型654、语义分割模型656等。

示例性地，第一尺度610下的缩放图像块612可以输入到分类模型650中的语义分割模型652、语义分割模型654、语义分割模型656等。进而得到对缩放图像块612在第一尺度610下的多个预测图。在第一尺度610下的多个预测图包括语义分割模型652的预测图682、语义分割模型654的预测图684、语义分割模型656的预测图686等。

示例性地，第二尺度620下的缩放图像块622可以输入到分类模型660中，进而得到对缩放图像块622在第二尺度620下的多个预测图。在第二尺度620下的多个预测图包括多个语义分割模型提取预测图692、694、696等。

应当注意的是，第一尺度610下的缩放图像块612和第二尺度620下的缩放图像块622对应于同一个原始图像块。类似地，第一尺度610下的缩放图像块614和第二尺度620下的缩放图像块624也对应于同一个原始图像块。

示例性地，可以将缩放图像块612在第一尺度610下的多个预测图和在第二尺度620下的多个预测图缩放为具有预定尺度的多个预测图682’、684’、686’、692’、694’和696’，以使得经缩放的每个预测图的各像素点与所对应的同一原始图像块的各像素点一一对应。

图7示出了根据本公开的实施例的得到融合预测图的示例操作700的示意图。如图7所示，示例操作700包括在第一尺度710下经缩放后均具有预定尺度的多个预测图740、预测图750、预测图760等，以及在第二尺度720下经缩放后均具有预定尺度的多个预测图770、预测图780、预测图790等。对所有预测图进行融合，以得到对原始图像块的识别结果730。

示例性地，在第一尺度710下经缩放后具有预定尺度的预测图740、750和760中的像素点742、752和762可以分别指示第一尺度710下的缩放图像块中所对应的像素点的预测类别。例如像素点742可以指示预测类别为T，像素点752可以指示预测类别为F。其他像素点762、772、782和792可以分别指示相同像素点的预测类别为T、T、F和T。对所有预测类别进行统计，从统计结果中选择具有最高统计数量的预测类别作为该像素点的最终类别732。示例性地，该像素点的预测类别中具有四个T类别和两个F类别。因此，具有最高统计数量的为T类别。故而，该像素点的最终类别732为T。

示例性地，T类别可以表示该像素点位于目标区域，F类别可以表示该像素点不属于目标区域。

综上所述，本公开的实施例使用不同种类的分割模型对多种尺寸的遥感影像进行预测，将多种模型预测出的不同尺寸的结果缩放为具有相同大小的预测图，然后可以使用投票的方式对每个像素点进行分类，以得到最终分类结果。由于该方法使用多尺度、多模型预测，可以生成多个预测结果。故而能够提出少数不准确的预测结果，提高了目标分割类型的准确性。

图8示出了根据本公开的实施例的在图2方法中的确定目标对象的面积的示例操作的流程图。如图8所示，图2中基于一个或多个原始图像块各自的识别结果和原始图像的空间分辨率，确定目标对象的面积(步骤250)可以包括步骤810至步骤840。

在步骤810，根据目标对象在一个或多个原始图像块中各自的识别区域，得出原始图像中目标对象的总识别区域，总识别区域包括一个或多个连通域。

在步骤820，统计一个或多个连通域中的像素点的个数。

在步骤830，根据像素点的个数的统计结果，从一个或多个连通域中确定最终识别区域。

在步骤840，基于最终识别区域中的像素点的个数和原始图像的空间分辨率，计算目标对象的面积。

示例性地，对于多个预测分类结果，可以将具有相同分类结果的区域作为目标的识别区域，并且拼接每个原始图像块中该目标的所有识别区域，以得到在原始图像中该目标的最终区域。

示例性地，目标的最终区域可以包括一个或多个连通域。可以通过统计每个连通域中像素点的个数，并设定最小像素点个数阈值。进而可以响应于确定一个或多个连通域中任一连通域中的像素点的个数小于阈值，确定该连通域不属于所述最终识别区域。

示例性地，可以丢弃低于阈值的连通域，将剩余部分最为最后的目标分类结果。

示例性地，可以统计指定类别的像素点个数，并乘以分辨率的平方，从而获得该目标的最终面积。

综上所述，通过设定目标连通域中像素点个数的最低阈值，可以提出小连通域。由于低于阈值的小连通域可能来自图像噪声或其他误差，因此剔除分类结果过小的连通域可以提高分类的准确性以及面积计算的精度。

图9示出了根据本公开的实施例的对象面积测量的装置900的结构框图。如图9所示，装置900可以包括第一获取单元910、第二获取单元920、生成单元930、执行单元940和确定单元950。

第一获取单元910可以被配置为获取具有空间分辨率的原始图像。原始图像包括目标对象。

第二获取单元920可以被配置为获取对象识别模型。对象识别模型包括至少两组分类模型。至少两组分类模型中的每一组包括至少两种语义分割网络模型。

生成单元930可以被配置为基于原始图像，生成一个或多个原始图像块。

执行单元940可以被配置为对每个原始图像块进行包括以下的各项操作：

对每个原始图像块进行至少两种尺度的缩放，以得到至少两种尺度的缩放图像块。至少两种尺度的缩放图像块分别对应于所述至少两组分类模型，以及

将至少两种尺度的缩放图像块输入到对象识别模型，以得到该原始图像块中目标对象的识别结果。

确定单元950可以被配置为基于一个或多个原始图像块各自的识别结果和原始图像的空间分辨率，确定目标对象的面积。

在一些示例性实施例中，生成单元930可以被配置为将原始图像裁切为一个或多个。每个图像块具有预定尺度。

在一些示例性实施例中，执行单元940可以进一步包括输入子单元960、提取子单元970和融合子单元980。

输入子单元960可以被配置为将至少两种尺度的缩放图像块输入到至少两组分类模型中的对应组分类模型；

提取子单元970可以被配置为提取每组分类模型的至少两种语义分割模型针对至少两种尺度的缩放图像块中的对应尺度的缩放图像块生成的预测图，其中，每个预测图的各像素点分别指示该对应尺度的缩放图像块的各像素点的预测类别；以及

融合子单元980可以被配置为融合至少两组分类模型的语义分割模型各自生成的预测图，以得到该原始图像块中目标对象的识别结果。

在一些示例性实施例中，融合子单元980可以进一步包括缩放子单元982、处理子单元984和第一确定子单元986。

缩放子单元982可以被配置为将所述至少两组分类模型的语义分割模型各自生成的预测图缩放至每一个均具有预定尺度，以使得经缩放的每个预测图的各像素点与该原始图像块的各像素点一一对应。

处理子单元984可以被配置为对于该原始图像块的每个像素点：

统计经缩放的多个预测图在该像素点位置处各自的预测类别，以及

从预测类别的统计结果中选择具有最高统计数量的预测类别作为该像素点的最终类别。

第一确定子单元986可以被配置为将该原始图像块中最终类别为目标对象类别的所有像素点确定为目标对象在该原始图像块中的识别区域。

在一些示例性实施例中，确定单元950可以进一步包括第二确定子单元952、统计子单元954第三确定子单元956和计算子单元958。

第二确定子单元952可以被配置为根据目标对象在一个或多个原始图像块中各自的识别区域，得出原始图像中目标对象的总识别区域，总识别区域包括一个或多个连通域。

统计子单元954可以被配置为统计一个或多个连通域中的像素点的个数。

第三确定子单元956可以被配置为根据像素点的个数的统计结果，从一个或多个连通域中确定最终识别区域。

计算子单元958可以被配置为基于最终识别区域中的像素点的个数和原始图像的空间分辨率，计算目标对象的面积。

在一些示例性实施例中，第三确定子单元可以被配置为响应于确定一个或多个连通域中任一连通域中的像素点的个数小于阈值，确定该连通域不属于最终识别区域。

应当理解，图9中所示的装置900的各个单元和子单元可以与参考图2至图8描述的方法200中的各个步骤相对应。由此，上面针对方法200描述的操作、特征和优点同样适用于装置900及其包括的单元和子单元，并且为了简洁起见不再赘述。

虽然上面参考特定单元讨论了特定功能，但是应当注意，本文讨论的各个单元的功能可以分为多个单元，和/或多个单元的至少一些功能可以组合成单个单元。本文讨论的特定单元执行动作包括该特定单元本身执行该动作，或者替换地该特定单元调用或以其他方式访问执行该动作(或结合该特定单元一起执行该动作)的另一个组件或单元。因此，执行动作的特定单元可以包括执行动作的该特定单元本身和/或该特定单元调用或以其他方式访问的、执行动作的另一单元。

本文可以在软件硬件元件或程序模块的一般上下文中描述各种技术。上面描述的各个单元、子单元可以在硬件中或在结合软件和/或固件的硬件中实现。例如，这些单元、子单元可以被实现为计算机程序代码/指令，该计算机程序代码/指令被配置为在一个或多个处理器中执行并存储在计算机可读存储介质中。可替换地，这些模块可以被实现为硬件逻辑/电路。例如，单元、子单元中的一个或多个可以一起被实现在片上系统(SOC)中。SOC可以包括集成电路芯片(其包括处理器(例如，中央处理单元(CPU)、微控制器、微处理器、数字信号处理器(DSP)等)、存储器、一个或多个通信接口、和/或其他电路中的一个或多个部件)，并且可以可选地执行所接收的程序代码和/或包括嵌入式固件以执行功能。

根据本公开的另一方面，提供了一种电子设备，包括：存储器、处理器以及存储在存储器上的计算机程序。其中，处理器被配置为执行计算机程序以实现本公开上述的方法的步骤。

根据本公开的另一方面，提供了一种非暂态计算机可读存储介质，其上存储有计算机程序。其中，计算机程序被处理器执行时实现本公开上述的方法的步骤。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序。其中，计算机程序被处理器执行时实现本公开上述的方法的步骤。

在下文中，结合图10描述这样的电子设备、非暂态计算机可读存储介质和计算机程序产品的示例。图10示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。

参考图10，现将描述可以作为本公开的服务器或客户端的电子设备1000的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序，来执行各种适当的动作和处理。在RAM 1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006、输出单元1007、存储单元1008以及通信单元1009。输入单元1006可以是能向设备1000输入信息的任何类型的设备，输入单元1006可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入，并且可以包括但不限于鼠标、键盘、触摸屏、轨迹板、轨迹球、操作杆、麦克风和/或遥控器。输出单元1007可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元1008可以包括但不限于磁盘、光盘。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、1302.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如方法200。例如，在一些实施例中，方法200可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时，可以执行上文描述的方法200的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法200。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行、也可以顺序地或以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

虽然已经参照附图描述了本公开的实施例或示例，但应理解，上述的方法、系统和设备仅仅是示例性的实施例或示例，本发明的范围并不由这些实施例或示例限制，而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外，可以通过不同于本公开中描述的次序来执行各步骤。进一步地，可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进，在此描述的很多要素可以由本公开之后出现的等同要素进行替换。

Claims

1.一种对象面积测量方法，包括：

获取具有空间分辨率的原始图像，所述原始图像包含目标对象；

获取对象识别模型，所述对象识别模型包括至少两组分类模型，所述至少两组分类模型中的每一组包括至少两种语义分割网络模型；

基于所述原始图像，生成一个或多个原始图像块；

对每个原始图像块进行包括以下各项的操作：

对每个原始图像块进行至少两种尺度的缩放，以得到至少两种尺度的缩放图像块，其中，所述至少两种尺度的缩放图像块分别对应于所述至少两组分类模型；以及

将所述至少两种尺度的缩放图像块输入到所述对象识别模型，以得到该原始图像块中所述目标对象的识别结果；以及

基于所述一个或多个原始图像块各自的识别结果和所述原始图像的空间分辨率，确定所述目标对象的面积。

2.如权利要求1所述的方法，其中，所述基于所述原始图像，生成一个或多个原始图像块包括：将所述原始图像裁切为所述一个或多个原始图像块，其中，每个原始图像块具有预定尺度。

3.如权利要求2所述的方法，其中，所述将所述至少两种尺度的缩放图像块输入到所述对象识别模型，以得到该原始图像块中所述目标对象的识别结果包括：

将所述至少两种尺度的缩放图像块输入到所述至少两组分类模型中的对应组分类模型；

提取每组分类模型的所述至少两种语义分割模型针对所述至少两种尺度的缩放图像块中的对应尺度的缩放图像块生成的预测图，其中，每个预测图的各像素点分别指示该对应尺度的缩放图像块的各像素点的预测类别；以及

融合所述至少两组分类模型的语义分割模型各自生成的预测图，以得到该原始图像块中所述目标对象的识别结果。

4.如权利要求3所述的方法，其中，所述融合所述至少两组分类模型的语义分割模型各自的预测图，以得到该原始图像块中所述目标对象的识别结果包括：

将所述至少两组分类模型的语义分割模型各自生成的预测图缩放至每一个均具有所述预定尺度，以使得经缩放的每个预测图的各像素点与该原始图像块的各像素点一一对应；

对于该原始图像块的每个像素点：

统计经缩放的所述多个预测图在该像素点位置处各自的预测类别；以及

从所述预测类别的统计结果中选择具有最高统计数量的预测类别作为该像素点的最终类别；以及

将该原始图像块中最终类别为目标对象类别的所有像素点确定为所述目标对象在该原始图像块中的识别区域。

5.如权利要求4所述的方法，其中，所述基于所述一个或多个原始图像块各自的识别结果和所述原始图像的空间分辨率，确定所述目标对象的面积包括：

根据所述目标对象在所述一个或多个原始图像块中各自的识别区域，得出所述原始图像中所述目标对象的总识别区域，所述总识别区域包括一个或多个连通域；

统计所述一个或多个连通域中的像素点的个数；

根据所述像素点的个数的统计结果，从所述一个或多个连通域中确定最终识别区域；以及

基于所述最终识别区域中的像素点的个数和所述原始图像的空间分辨率，计算所述目标对象的面积。

6.如权利要求5所述的方法，其中，所述根据所述像素点的个数的统计结果，从所述一个或多个连通域中确定最终识别区域包括：响应于确定所述一个或多个连通域中任一连通域中的像素点的个数小于阈值，确定该连通域不属于所述最终识别区域。

7.如权利要求1至6中任一项所述的方法，其中，所述至少两种语义分割模型中的每一个包括从以下各项所组成的组中选择的一项：人体姿态估算模型HR-NET、DEEPLABV3+模型和U-NET模型。

8.一种对象面积测量装置，包括

第一获取单元，被配置为获取具有空间分辨率的原始图像，所述原始图像包括目标对象；

第二获取单元，被配置为获取对象识别模型，所述对象识别模型包括至少两组分类模型，所述至少两组分类模型中的每一组包括至少两种语义分割网络模型；

生成单元，被配置为基于所述原始图像，生成一个或多个原始图像块；

执行单元，被配置为对每个原始图像块进行包括以下的各项操作：

确定单元，被配置为基于所述一个或多个原始图像块各自的识别结果和所述原始图像的空间分辨率，确定所述目标对象的面积。

9.如权利要求8所述的装置，其中，所述生成单元被配置为将所述原始图像裁切为所述一个或多个原始图像块，其中，每个原始图像块具有预定尺度。

10.如权利要求9所述的装置，其中，所述执行单元包括：

输入子单元，被配置为将所述至少两种尺度的缩放图像块输入到所述至少两组分类模型中的对应组分类模型；

提取子单元，被配置为提取每组分类模型的所述至少两种语义分割模型针对所述至少两种尺度的缩放图像块中的对应尺度的缩放图像块生成的预测图，其中，每个预测图的各像素点分别指示该对应尺度的缩放图像块的各像素点的预测类别；以及

融合子单元，被配置为融合所述至少两组分类模型的语义分割模型各自生成的预测图，以得到该原始图像块中所述目标对象的识别结果。

11.如权利要求10所述的装置，其中，所述融合子单元包括：

缩放子单元，被配置为将所述至少两组分类模型的语义分割模型各自生成的预测图缩放至每一个均具有所述预定尺度，以使得经缩放的每个预测图的各像素点与该原始图像块的各像素点一一对应；

处理子单元，被配置为对于该原始图像块的每个像素点：

第一确定子单元，被配置为将该原始图像块中最终类别为目标对象类别的所有像素点确定为所述目标对象在该原始图像块中的识别区域。

12.如权利要求11所述的装置，其中，所述确定单元包括：

第二确定子单元，被配置为根据所述目标对象在所述一个或多个原始图像块中各自的识别区域，得出所述原始图像中所述目标对象的总识别区域，所述总识别区域包括一个或多个连通域；

统计子单元，被配置为统计所述一个或多个连通域中的像素点的个数；

第三确定子单元，被配置为根据所述像素点的个数的统计结果，从所述一个或多个连通域中确定最终识别区域；以及

计算子单元，被配置为基于所述最终识别区域中的像素点的个数和所述原始图像的空间分辨率，计算所述目标对象的面积。

13.如权利要求12所述的装置，其中，所述第三确定子单元被配置为响应于确定所述一个或多个连通域中任一连通域中的像素点的个数小于阈值，确定该连通域不属于所述最终识别区域。

14.一种计算机设备，包括：

存储器、处理器以及存储在所述存储器上的计算机程序，

其中，所述处理器被配置为执行所述计算机程序以实现权利要求1-7中任一项所述的方法的步骤。

15.一种非暂态计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现权利要求1-7中任一项所述的方法的步骤。

16.一种计算机程序产品，包括计算机程序，其中，所述计算机程序被处理器执行时实现权利要求1-7中任一项所述的方法的步骤。