CN114341870A

CN114341870A - 用于使用图像平铺进行对象检测的系统和方法

Info

Publication number: CN114341870A
Application number: CN201980098141.2A
Authority: CN
Inventors: 涂吉林; 王江; 陈惠中; 朱向欣; 戴声扬
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2019-08-05
Filing date: 2019-08-05
Publication date: 2022-04-12
Also published as: EP3973452A1; WO2021025677A1; US20220254137A1

Abstract

一种用于检测图像中的对象的计算系统能够执行操作，所述操作包括生成图像金字塔，图像金字塔包括与第一分辨率的图像相对应的第一级和与第二分辨率的图像相对应的第二级。所述操作能够包括：通过将第一级划分为第一多个图块并且将第二级划分为第二多个图块来平铺第一级和第二级；将第一多个图块和第二多个图块输入到机器学习对象检测模型中；接收对象检测数据作为机器学习对象检测模型的输出，对象检测数据包括分别关于第一多个图块和第二多个图块中的单个图块定义的边界框；以及通过将对象检测数据映射到图像的图像空间上来生成图像对象检测输出。

Description

用于使用图像平铺进行对象检测的系统和方法

技术领域

本公开总体上涉及机器学习。更具体地，本公开涉及用于使用图像平铺进行对象检测的系统和方法。

背景技术

机器学习模型能够被训练以检测图像内的对象。然而，对于这样的机器学习模型，检测同一图像内的小对象和大对象两者会是困难的。更具体地，小对象通常被尚未被训练以识别这样的小对象的机器学习模型遗漏或错误识别。因此，改进的机器学习对象检测和/或识别模型以及用于训练其的方法将在本领域受到欢迎。

发明内容

本公开的实施例的方面和优点将在以下描述中部分地阐述，或者能够从描述中学习，或者能够通过实施例的实践来学习。

本公开的一个方面涉及一种计算系统，所述计算系统包括至少一个处理器和机器学习对象检测模型，机器学习对象检测模型被配置为接收多个图块，并且响应于接收到多个图块，输出多个图块的对象检测数据。对象检测数据能够包括分别关于多个图块中的单个图块定义的多个边界框。计算系统能够包括至少一个存储指令的有形的非暂时性计算机可读介质，当指令由至少一个处理器执行时使得至少一个处理器执行操作。所述操作能够包括基于具有图像空间的图像生成图像金字塔。图像金字塔能够包括与第一分辨率的图像相对应的第一级和与不同于第一分辨率的第二分辨率的图像相对应的第二级。所述操作能够包括：通过将第一级划分为第一多个图块并且将第二级划分为第二多个图块来平铺第一级和第二级；将第一多个图块和第二多个图块输入到机器学习对象检测模型中；接收对象检测数据作为机器学习对象检测模型的输出，对象检测数据包括分别关于第一多个图块和第二多个图块中的单个图块定义的多个边界框；以及通过将对象检测数据映射到图像的图像空间上来生成图像对象检测输出。

本公开的另一方面涉及一种训练机器学习对象检测模型的方法。所述方法能够包括：对于多个训练图像中的每个训练图像，执行一系列步骤，包括由一个或多个计算设备基于具有相应图像空间的相应训练图像来生成图像金字塔，图像金字塔包括与第一分辨率的相应训练图像相对应的第一级和与不同于第一分辨率的第二分辨率的相应训练图像相对应的第二级。所述步骤能够包括：由一个或多个计算设备通过将第一级划分为第一多个图块并且将第二级划分为第二多个图块来平铺第一级和第二级；由一个或多个计算设备将第一多个图块和第二多个图块输入到机器学习对象检测模型中；由一个或多个计算设备接收对象检测数据作为机器学习对象检测模型的输出，对象检测数据包括分别关于第一多个图块和第二多个图块中的单个图块定义的多个边界框；由一个或多个计算设备通过将对象检测数据映射到相应训练图像的相应图像空间上来生成图像对象检测输出；以及由一个或多个计算设备基于图像对象检测输出和与多个训练图像中的相应训练图像相对应的真值对象位置数据的比较来调整机器学习对象检测模型的参数。

本公开的另一方面涉及一种检测图像中的对象的位置的方法。所述方法能够包括由一个或多个计算设备基于具有图像空间的图像来生成图像金字塔。图像金字塔能够包括与第一分辨率的图像相对应的第一级和与不同于第一分辨率的第二分辨率的图像相对应的第二级。所述方法能够包括：由一个或多个计算设备通过将第一级划分为第一多个图块并将第二级划分为第二多个图块来平铺第一级和第二级；由一个或多个计算设备将第一多个图块和第二多个图块输入到机器学习对象检测模型中；由一个或多个计算设备接收对象检测数据作为机器学习对象检测模型的输出，对象检测数据包括分别关于第一多个图块和第二多个图块中的单个图块定义的多个边界框；以及由一个或多个计算设备通过将对象检测数据映射到图像的图像空间上来生成图像对象检测输出。

本公开的其他方面涉及各种系统、装置、非暂时性计算机可读介质、用户界面和电子设备。

参考以下描述和所附权利要求，将更好地理解本公开的各种实施例的这些和其他特征、方面和优点。并入本说明书中并构成本说明书的一部分的附图图示了本公开的示例实施例，并且与说明书一起用于解释相关原理。

附图说明

参考附图在说明书中阐述了针对本领域普通技术人员的实施例的详细讨论，其中：

图1A描绘了根据本公开的示例实施例的用于检测图像中的对象的位置的示例计算系统的框图。

图1B描绘了根据本公开的示例实施例的用于检测图像中的对象的位置的示例计算系统的框图。

图1C描绘了根据本公开的示例实施例的用于生成建议动作并向计算系统的用户提供建议动作的示例计算系统的框图。

图2A描绘了根据本公开的示例实施例的示例机器学习对象检测模型的框图。

图2B描绘了根据本公开的示例实施例的示例初步机器学习对象检测模型和机器学习对象检测模型的框图。

图3是根据本公开的示例实施例的用于检测图像中的对象的位置的方法的简化流程图。

图4是根据本公开的示例实施例的用于检测图像中的对象的位置的方法的简化流程图。

图5A是图4的图像金字塔的第一级的第一多个图块的简化示图。

图5B是图4的图像金字塔的第二级的第二多个图块的简化示图。

图5C图示了覆盖在图5B的第二多个图块上的图5A的第一多个图块。

图6描绘了根据本发明的示例实施例的包括多个边界框的图像金字塔的简化级。

图7描绘了根据本公开的方面的用于检测图像中的对象的位置的方法的流程图。

图8描绘了根据本公开的方面的用于训练机器学习对象检测模型的方法的流程图。

图9描绘了针对召回绘制的实验检测精度，其中，在归一化到1024×1024的图像中识别对象。

图10描绘了针对召回绘制的第一数据集的实验检测精度，其中，训练图像被平铺为256×256，输入图像被设置为529×529，并且在没有平铺的情况下在大小为1024×2048的测试图像上评估模型。

图11描绘了针对召回绘制的第一数据集的实验检测精度，其中，训练图像被平铺为256×256，输入图像被设置为529×529，在平铺的大小为1024×2048的测试图像上评估模型，并且使用非极大抑制去除冗余对象识别数据。

图12描绘了针对召回绘制的第一数据集的实验检测精度，其中，使用非极大抑制去除冗余边界框，去除或“修剪”部分检测边界框，训练图像被平铺为256×256，输入图像被设置为529×529，并且在平铺的大小为1024×2048的测试图像上评估模型。

图13描绘了针对召回绘制的第二数据集的实验检测精度，其中，使用了AutoML后端模型，并且输入图像被设置为1024×1024。

图14描绘了针对召回绘制的第二数据集的实验检测精度，其中，使用AutoML后端模型，训练图像被平铺为640×640，输入图像被设置为1024×1024，并且使用非极大抑制去除冗余对象识别数据。

图15描绘了针对召回绘制的第二数据集的实验检测精度，其中，使用AutoML后端模型，将训练图像平铺为640×640，将输入图像设置为1024×1024，使用非极大抑制去除冗余对象识别数据，并且还去除或“修剪”部分检测边界框。

在多个附图中重复的附图标记旨在标识各种实施方式中的相同特征。

具体实施方式

概述

通常，本公开涉及用于检测图像中的对象的位置并训练模型以进行检测的系统和方法。能够使用本文公开的实施方式在同一图像中检测非常小的对象和非常大的对象两者的位置。例如，能够基于图像生成包括两个或多于两个级的图像金字塔。图像金字塔的级能够与不同分辨率的图像相对应。能够将级划分为图块(例如，“平铺”)，并且能够使用机器学习模型对每个图块执行对象检测，以产生关于每个图块的对象检测数据。通过对每个图块执行对象检测，能够更好地检测图像中描绘的小对象。对象检测数据能够包括描述在图像金字塔的多个级的相应图块中显示的对象的位置的边界框(或其他数据)。能够将对象检测数据映射到图像的图像空间上以生成图像对象检测输出。这样，标识图像中的小对象的位置的边界框能够被映射回图像空间，使得图像对象检测输出识别小对象的这样的位置。

如上文所指示，能够基于图像生成图像金字塔。图像金字塔能够包括与第一分辨率的图像相对应的第一级和与不同于第一分辨率的第二分辨率的图像相对应的第二级。第一级和第二级均能够通过将第一级划分为第一多个图块并且将第二级划分为第二多个图块来进行平铺。

在一些实施方式中，第一多个图块能够关于第二多个图块重叠，使得图像中描绘的每个对象完全位于图块中的至少一个内。另外，图像金字塔的给定层内的图块(例如，第一多个图块内)能够与同一给定层内的相邻图块重叠。这能够确保如上所述的修剪边界框不会不期望地移除与特定图像相对应的所有边界框。在一个示例中，第一多个图块中的每一个能够与第二多个图块中的至少两个重叠。例如，第一多个图块中的每一个能够与第一多个图块(在相同的图像金字塔层内)和/或第二多个图块(在不同的图像金字塔层内)中的相邻图块重叠50％。

机器学习对象检测模型能够用于检测各种图块内的对象。更具体地，能够将第一多个图块和第二多个图块输入到机器学习对象检测模型中。能够接收对象检测数据作为机器学习对象检测模型的输出，其包括分别关于第一多个图块和第二多个图块中的单个图块定义的多个边界框。因此，机器学习对象检测模型能够用于生成标识各种图块内的对象的位置的边界框。

如上所述，能够将对象检测数据映射到图像的图像空间上，以生成描述图像中检测到的对象的位置的图像对象检测输出。换句话说，标识位于各种图块内的对象的边界框能够被映射回图像空间，使得它们识别位于图像内的对象。

在一些实施方式中，能够“修剪”图像对象检测输出以改进图像对象检测输出的质量。能够从对象检测数据中选择或“修剪”图像对象检测输出的边界框，以生成图像对象检测输出。更具体地，能够识别和移除与图块的一个或多个边界相交的边界框。移除这样的边界框能够通过减少和/或移除部分和/或重复检测来改进图像对象检测输出的质量。如本文中所使用，“相交”能够指边界框的边界在图块的边界的阈值距离内。例如，如果边界框在图块边界的阈值K像素内，则边界框的边界能够被认为与图块的边界“相交”，其中，K能够等于2或更小。然而，在一些实施例中，阈值能够等于4或更小，并且在一些实施例中，阈值能够等于10或更小。

作为一个示例，能够移除与其内定义边界框的图块的一个或多个边界相交的边界框。与边界相交能够指示与“部分”检测相对应的边界框，在“部分”检测中，检测到的对象跨越图像金字塔的相应级的多个图块。换句话说，这样的相交能够指示检测到的对象不完全被包含在边界框内。通过去除这些边界框，能够从图像对象检测输出中移除部分检测，从而改进图像对象检测输出的质量。

作为另一示例，能够识别和移除以下边界框，其跨越其内定义边界框的相应图块，使得边界框与相应图块的(第一)边界和与(第一)边界平行的(第二)相对边界相交。这种布置能够指示检测到的对象延伸到图块之外。

作为又一示例，能够识别和移除以下边界框，其与在其内定义边界框的图块的边界和图像金字塔的相应级的边缘两者相交。

在一些实施方式中，能够识别和移除与在其内定义边界框的图块的边界相交的每个边界框。作为结果，图像对象检测输出能够没有与其内定义它们的相应图块的任何边界相交的边界框。作为结果，能够移除与部分检测相对应的边界框，使得仅保留与完整检测相对应的边界框。

在一些实施方式中，能够从图像对象检测输出移除冗余或重复的边界框。例如，使用非极大抑制或其变型，能够移除具有低检测分数或置信度的边界框。

在一些实施方式中，可以进行图像的初步处理以生成能够用于生成图像金字塔的一个或多个中间特征表示。例如，能够使用初步机器学习对象检测模型来生成中间特征表示。然后能够基于中间特征表示生成图像金字塔。更具体地，能够将图像平铺成多个初步图块。多个初步图块能够被输入到初步机器学习对象检测模型，并且能够接收分别与多个初步图块相对应的多个中间特征表示作为初步机器学习对象检测模型的输出。能够基于多个中间特征表示来生成图像金字塔的级。

例如，初步图块能够与具有多个级的初步图像金字塔相对应。初步图像金字塔的一个级能够用于生成图像金字塔的多个级。更具体地，能够将初步图像金字塔的各个级缩小到分别与图像金字塔的多个级相对应的不同分辨率。能够对图像金字塔执行所述方法的剩余步骤以如本文所描述来检测图像中所描绘的对象。如本文所描述的生成中间特征表示能够减少识别图像中的对象所需的计算资源。

本公开的方面还涉及用于训练一个或多个机器学习模型以检测图像中的对象的位置的方法。例如，所述方法能够包括对多个训练图像中的每个训练图像执行以下步骤：基于多个训练图像中的相应训练图像生成图像金字塔，平铺图像金字塔的级，将多个图块输入到机器学习对象检测模型中，接收对象检测数据作为机器学习对象检测模型的输出，以及通过将对象检测数据映射到图像的图像空间上来生成图像对象检测输出。用于训练机器学习模型的方法能够包括基于图像对象检测输出和与多个训练图像的相应训练图像相对应的真值对象位置数据的比较来调整机器学习对象检测模型的参数。真值对象位置数据能够描述一组真值图像中的对象的位置。

在一些实施方式中，能够使用重新加权和/或重新采样来重新平衡训练数据中检测到的对象的大小和/或类别的分布。当平铺训练图像时，小对象可能会在所得到的平铺训练集中变得更加主导。另外，由于相同的原因，通常较小的对象类别能够变得主导。因此，重新加权和/或重新采样训练数据能够被用于修正小对象的这种主导。

作为一个示例，本公开的系统和方法能够包括或以其他方式用于应用、浏览器插件的上下文中或其他上下文中。因此，在一些实施方式中，本公开的模型能够被包括在诸如膝上型计算机、平板计算机或智能电话的用户计算设备中或以其他方式由诸如膝上型计算机、平板计算机或智能电话的用户计算设备存储和实现。作为又一示例，模型能够被包括在根据客户端-服务器关系与用户计算设备通信的服务器计算设备中或以其他方式由服务器计算设备存储和实现。例如，模型能够由服务器计算设备实现为web服务(例如，web电子邮件服务)的一部分。

本公开的系统和方法提供了许多技术效果和益处。更具体地，能够改进大图像中的小对象的检测。另外，“修剪”边界框能够通过移除与跨越多个图块的对象的部分检测相对应的边界框来改进对象识别数据的质量。改进的对象识别数据能够更准确，需要更少的空间来存储，和/或需要更少的计算资源用于后续处理。此外，如上所述，使用初步模型和初步图块能够减少识别图像中的对象所需的计算资源(例如，存储空间、处理能力、触发器数量、随机存取存储器的大小等)。

现在参考附图，将更详细地讨论本公开的示例实施例。

示例设备和系统

图1A描绘了根据本公开的示例实施例的用于检测图像中的对象的位置并训练模型以进行相同操作的示例计算系统100的框图。系统100包括通过网络180通信地耦接的用户计算设备102、服务器计算系统130和训练计算系统150。

用户计算设备102能够是任何类型的计算设备，诸如例如个人计算设备(例如，膝上型计算机或台式计算机)、移动计算设备(例如，智能电话或平板计算机)、游戏控制台或控制器、可穿戴计算设备、嵌入式计算设备或任何其他类型的计算设备。

用户计算设备102包括一个或多个处理器112和存储器114。一个或多个处理器112可以是任何合适的处理设备(例如，处理器核、微处理器、ASIC、FPGA、控制器、微控制器等)，并且能够是一个处理器或可操作地连接的多个处理器。存储器114能够包括一个或多个非暂时性计算机可读存储介质，诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等及其组合。存储器114能够存储由处理器112执行以使得用户计算设备102执行操作的数据116和指令118。

用户计算设备102能够存储或包括一个或多个机器学习对象检测模型120。例如，机器学习对象检测模型120能够是或能够包括各种机器学习模型，诸如神经网络(例如，深度神经网络)或其他多层非线性模型。神经网络能够包括递归神经网络(例如，长短期记忆递归神经网络)、前馈神经网络或其他形式的神经网络。参考图2A和图2B讨论了示例机器学习对象检测模型120。

在一些实施方式中，一个或多个机器学习对象检测模型120能够通过网络180从服务器计算系统130被接收，被存储在用户计算设备存储器114中，并且由一个或多个处理器112使用或以其他方式实现。在一些实施方式中，用户计算设备102能够实现单个机器学习对象检测模型120的多个并行实例(例如，以跨模型120的多个实例执行并行对象检测)。

附加地或可替代地，一个或多个机器学习对象检测模型140能够被包括在服务器计算系统130中或由服务器计算系统130存储和实现，其中，服务器计算系统130根据客户端-服务器关系与用户计算设备102通信。例如，机器学习对象检测模型140能够由服务器计算系统130实现为web服务(例如，图像处理服务)的一部分。因此，能够在用户计算设备102处存储和实现一个或多个对象检测模型120，和/或能够在服务器计算系统130处存储和实现一个或多个对象检测模型140。

用户计算设备102还能够包括接收用户输入的一个或多个用户输入组件122。例如，用户输入组件122能够是对用户输入对象(例如，手指或触笔)的触摸敏感的触敏组件(例如，触敏显示屏或触摸板)。触敏组件能够用于实现虚拟键盘。其他示例用户输入组件包括麦克风、传统键盘或用户能够通过其输入通信的其他工具。

服务器计算系统130包括一个或多个处理器132和存储器134。一个或多个处理器132能够是任何合适的处理设备(例如，处理器核、微处理器、ASIC、FPGA、控制器、微控制器等)，并且能够是一个处理器或可操作地连接的多个处理器。存储器134能够包括一个或多个非暂时性计算机可读存储介质，诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等及其组合。存储器134能够存储由处理器132执行以使得服务器计算系统130执行操作的数据136和指令138。

在一些实施方式中，服务器计算系统130包括一个或多个服务器计算设备或以其他方式由一个或多个服务器计算设备实现。在服务器计算系统130包括多个服务器计算设备的情况下，这样的服务器计算设备能够根据顺序计算架构、并行计算架构或其某种组合来操作。

如上所述，服务器计算系统130可以存储或包括一个或多个机器学习对象检测模型140。例如，模型140能够作为或能够包括各种机器学习模型，诸如神经网络(例如，深度递归神经网络)或其他多层非线性模型。参考图2A和图2B讨论了示例模型140。

服务器计算系统130能够经由与通过网络180通信地耦接的训练计算系统150的交互来训练模型140。训练计算系统150能够与服务器计算系统130分离，或者能够是服务器计算系统130的一部分。

训练计算系统150包括一个或多个处理器152和存储器154。一个或多个处理器152能够是任何合适的处理设备(例如，处理器核、微处理器、ASIC、FPGA、控制器、微控制器等)，并且能够是一个处理器或可操作地连接的多个处理器。存储器154能够包括一个或多个非暂时性计算机可读存储介质，诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等及其组合。存储器154能够存储由处理器152执行以使得训练计算系统150执行操作的数据156和指令158。在一些实施方式中，训练计算系统150包括一个或多个服务器计算设备或由一个或多个服务器计算设备实现。

训练计算系统150能够包括模型训练器160，其能够训练存储在服务器计算系统130处的机器学习模型140，例如，如下面参考图8所述(例如，使用各种训练或学习技术，诸如，作为示例，误差的反向传播)。在一些实施方式中，执行误差的反向传播能够包括通过时间执行截断反向传播。模型训练器160能够执行多种泛化技术(例如，权重衰减、丢弃(dropout)等)以改进正被训练的模型的泛化能力。

特别地，模型训练器160能够基于训练数据142的集合来训练对象检测模型140。训练数据142能够包括训练图像集合和/或描述真值图像集合中的对象的位置的真值对象位置数据。

在一些实施方式中，如果用户已经提供同意，则训练示例能够由用户计算设备102提供(例如，基于先前由用户计算设备102的用户提供的通信)。因此，在这样的实施方式中，提供给用户计算设备102的模型120能够由训练计算系统150在从用户计算设备102接收的用户特定的通信数据上训练。在一些情况下，所述过程能够被称为个性化模型。

模型训练器160包括用于提供期望功能的计算机逻辑。模型训练器160能够以控制通用处理器的硬件、固件和/或软件来实现。例如，在一些实施方式中，模型训练器160包括存储在存储设备上、加载到存储器中并由一个或多个处理器执行的程序文件。在其他实施方式中，模型训练器160包括存储在诸如RAM硬盘或光学或磁性介质的有形计算机可读存储介质中的一组或多组计算机可执行指令。

网络180能够是任何类型的通信网络，诸如局域网(例如，内联网)、广域网(例如，互联网)或其某种组合，并且能够包括任何数量的有线或无线链路。通常，通过网络180的通信能够使用各种各样的通信协议(例如，TCP/IP、HTTP、SMTP、FTP)、编码或格式(例如，HTML、XML)和/或保护方案(例如，VPN、安全HTTP、SSL)经由任何类型的有线和/或无线连接来承载。

图1A图示了能够用于实现本公开的一个示例计算系统。也能够使用其他计算系统。例如，在一些实施方式中，用户计算设备102能够包括模型训练器160和训练数据集162。在这样的实施方式中，能够在用户计算设备102处本地训练和使用模型120。在一些这样的实施方式中，用户计算设备102能够实现模型训练器160以基于用户特定的数据来个性化模型120。

图1B描绘了根据本公开的示例实施例执行的示例计算设备10的框图。计算设备10能够是用户计算设备或服务器计算设备。

计算设备10包括多个应用(例如，应用1至N)。每个应用包含其自己的机器学习库和机器学习模型。例如，每个应用能够包括机器学习模型。示例应用包括文本消息传送应用、电子邮件应用、听写应用、虚拟键盘应用、浏览器应用等。

如图1B所示，每个应用能够与计算设备的多个其他组件通信，诸如，作为示例，一个或多个传感器、上下文管理器、设备状态组件和/或附加组件。在一些实施方式中，每个应用能够使用API(例如，公共API)与每个设备组件通信。在一些实施方式中，由每个应用使用的API特定于所述应用。

图1C描绘了根据本公开的示例实施例执行的示例计算设备50的框图。计算设备50能够是用户计算设备或服务器计算设备。

计算设备50包括多个应用(例如，应用1至N)。每个应用与中央智能层通信。示例应用包括文本消息传送应用、电子邮件应用、听写应用、虚拟键盘应用、浏览器应用等。在一些实施方式中，每个应用能够使用API(例如，跨所有应用的公共API)与中央智能层(以及存储在其中的模型)通信。

中央智能层包括多个机器学习模型。例如，如图1C所示，能够为每个应用提供相应的机器学习模型(例如，模型)并由中央智能层管理。在其他实施方式中，两个或更多个应用能够共享单个机器学习模型。例如，在一些实施方式中，中央智能层能够为所有应用提供单个模型(例如，单个模型)。在一些实施方式中，中央智能层被包括在计算设备50的操作系统内或由计算设备50的操作系统实现。

中央智能层能够与中央设备数据层通信。中央设备数据层能够是用于计算设备50的集中式数据仓库。如图1C所示，中央设备数据层能够与计算设备的多个其他组件通信，诸如，作为示例，一个或多个传感器、上下文管理器、设备状态组件和/或附加组件。在一些实施方式中，中央设备数据层能够使用API(例如，私有API)与每个设备组件通信。

示例模型布置

图2A描绘了根据本公开的示例实施例的示例机器学习对象检测模型200的框图。在一些实施方式中，机器学习对象检测模型200被训练以接收多个图块202，并且输出对象检测数据204作为接收多个图块202的结果。例如，如下文参考图3到图8所描述，多个图块202能够与图像金字塔的相应级相对应。例如，如下文参考图3到图8所描述，对象检测数据204能够包括描述在图像金字塔的多个级的相应图块202中显示的对象的位置的边界框(或其他数据)。

图2B描绘了根据本公开的示例实施例的示例初步机器学习对象检测模型250和机器学习对象检测模型252的框图。可以利用初步对象检测模型250进行图像的初步处理，以生成能够用于生成图像金字塔256的一个或多个中间特征表示254。更具体地，图像251能够被平铺成多个初步图块253。多个初步图块253能够被输入到初步机器学习对象检测模型250。中间特征表示254能够被接收作为初步机器学习对象检测模型250的输出，并且能够分别与多个初步图块253相对应。

能够基于多个中间特征表示254生成图像金字塔256的级。例如，初步图块253能够与具有多个级的初步图像金字塔相对应。初步图像金字塔的一个级能够用于生成图像金字塔256的多个级。初步图像金字塔的相应级能够缩小到分别与图像金字塔256的多个级相对应的不同分辨率。在一些实施方式中，初步图块253能够不重叠(例如，在给定金字塔层内)，并且图像金字塔256的图块能够重叠(例如，给定图像金字塔层内的相应图块能够重叠同一图像金字塔层内的相邻图块)，使得能够从单个初步图块253生成图像金字塔256的多个图块。

例如，如上文关于图2A所描述的，图像金字塔256的级能够被平铺并输入到对象检测模型252中。例如，如上文关于图2B所描述的，能够接收对象检测数据258作为对象检测模型252的输出。

示例方法

图3是根据本公开的示例实施例的用于检测图像中的对象的位置的方法300的简化流程图。如上所述，能够在同一图像中检测非常小和非常大的图像两者的位置。能够基于图像302生成图像金字塔304，也称为“图像张量”。图像金字塔的级能够与不同分辨率的图像302相对应。级能够被划分为图块306(例如，“平铺”)，并且能够在(308)处使用一个或多个机器学习模型310对每个图块306执行对象检测，以产生关于每个图块306的对象检测数据312。通过对每个图块执行对象检测，能够更好地检测图像中描绘的小对象。对象检测数据312能够包括描述在图像金字塔304的多个级的相应图块306中显示的对象的位置的边界框(或其他数据)。在(314)处，对象检测数据312能够被映射到图像302的图像空间上，以生成图像对象检测输出316。

对象检测数据312的边界框能够标识图像302中的对象的位置。当对图像金字塔304的级的单个图块306执行对象检测时，与对整个图像302执行对象检测相比，能够更好地检测图像302中的小对象的位置。

图4是根据本公开的示例实施例的用于检测图像中的对象的位置的方法400的简化图。如上文所指示，能够基于图像404生成图像金字塔402。图像金字塔402能够包括与第一分辨率的图像404相对应的第一级406和与不同于第一分辨率的第二分辨率的图像404相对应的第二级408。能够通过将第一级406划分为第一多个图块并且将第二级408划分为第二多个图块来对第一级406和第二级408均进行平铺。图像金字塔402能够包括与附加分辨率的图像404相对应的一个或多个附加级410。级406、408、410能够被划分或“平铺”成图块411。图块411还被表示为覆盖在图像404上的框412并且被表示为在图像金字塔402的各个级406、408、410中限定的框414。图块411能够被输入到机器学习对象检测模型中，并且，例如，如参考图2A所描述的，能够接收描述在相应图块内检测到的对象的位置的对象检测数据作为机器学习对象检测模型的输出。对象检测数据能够包括标识在图块411中检测到的对象420的位置的边界框416。包括边界框416的对象检测数据能够被映射到图像404的图像空间上以生成描述图像404中的检测到的对象420的位置的图像对象检测输出418。

图5A是图4的图像金字塔402的第一级406的第一多个图块500的简化示图。图5B是图4的图像金字塔402的第二级408的第二多个图块502的简化示图。图5C示出了覆盖在第二多个图块502上的第一多个图块500。如图5C中最佳所示，第一多个图块500能够关于第二多个图块502重叠，使得图像404(图4)中描绘的每个对象能够完全位于图块500、502中的至少一个内。在一个示例中，第一多个图块500中的每一个能够与第二多个图块502中的至少两个重叠。例如，第一多个图块500中的每一个能够与第二多个图块502的相邻图块重叠至少50％。在一些实施方式中，第一多个图块500中的每一个能够与第二多个图块502的相邻图块重叠50％。另外，在一些实施方式中，给定图像金字塔层内的相应图块能够与给定图像金字塔层内的相邻图块重叠。例如，第一多个图块500中的相应图块能够与第一多个图块500内的相邻图块重叠。作为另一示例，第二多个图块502中的相应图块能够与第二多个图块502内的相邻图块重叠。

图6描绘了根据本公开的示例实施例的包括多个边界框416的图像金字塔402(图4)的简化级600。在一些实施方案中，能够“修剪”图像对象检测输出以改进图像对象检测输出的质量。能够从对象检测数据中移除或“修剪”图像对象检测输出的边界框，以改进图像对象检测输出的质量。更具体地，能够识别并移除与图块606的一个或多个边界604相交的边界框602。通过移除与部分和/或重复检测相对应的至少一些边界框602来移除这样的边界框602能够改进图像对象检测输出的质量。

作为一个示例，边界框602能够被移除，其与在其中定义边界框602的图块606的一个或多个边界604相交。与边界604相交能够指示边界框602与“部分”检测相对应，在“部分”检测中，检测到的对象跨越图像金字塔402(图4)的相应级处的多个图块606。换句话说，这样的相交能够指示检测到的对象不完全被包含在边界框602内。

作为又一示例，边界框615能够被识别并移除，其与图块610的边界616和图像金字塔的相应级600的边缘618两者相交，其中，在图块610的边界616内定义相应边界框614。这能够指示检测到的对象延伸到相应图块610之外。

在一些实施方式中，与图块606的边界604相交的所有边界框602能够被识别并移除。作为结果，图像对象检测输出能够没有边界框602，边界框602与其内定义它们的相应图块606的任何边界相交。作为结果，能够移除与部分检测相对应的所有边界框602，使得只有与完整检测相对应的边界框620保留在图像对象检测输出中。

在一些实施方式中，能够从图像对象检测输出移除冗余或重复的边界框。能够移除具有低检测分数或置信度的边界框，例如使用非极大抑制(NMS)或其变型。例如，能够使用以下算法来应用NMS和/或Soft-NMS，NMS的变型：

Input：B＝{b₁,…b_N},S＝{S₁,…S_N},N_t

B是初始检测框的列表

S包含对应的检测分数

N_t是NMS阈值

图7描绘了根据本公开的方面的用于检测图像中的对象的位置的示例方法700的流程图。尽管图7出于说明和讨论的目的描绘了以特定顺序执行的步骤，但是本公开的方法不限于特定示出的顺序或布置。在不脱离本公开的范围的情况下，能够以各种方式省略、重新布置、组合和/或调整方法700的各个步骤。

在702处，计算系统能够基于具有图像空间的图像来生成图像金字塔。例如，如上文参考图3和图4所描述的，图像金字塔能够包括与第一分辨率的图像相对应的第一级和与不同于第一分辨率的第二分辨率的图像相对应的第二级。

在704处，例如，如上文参考图3和图4所描述的，计算系统能够通过将第一级划分为第一多个图块并将第二级划分为第二多个图块来对图像金字塔的第一级和第二级进行平铺。作为示例，第一级能够关于第一级的高度方向和/或第一级的宽度方向被均匀地划分为第一多个图块。作为结果，多个图块能够形成网格，使得第一多个图块中的一些或全部具有相同的大小和形状(例如，矩形、正方形、平行四边形等)。第二多个图块能够具有与第一多个图块相同的大小、形状、布置等。然而，在一些实施方式中，图块的大小、形状、布置等能够在级之间变化。例如，随着级的分辨率增加，图块的大小能够减小或增加。在其他实施方式中，第一多个图块和/或第二多个图块能够是不规则形状的和/或形成其他形状，诸如三角形。

在706处，例如，如上面参考图2A所描述的，计算系统能够将第一多个图块和第二多个图块输入到机器学习对象检测模型中。

在708处，计算系统能够接收对象检测数据作为机器学习对象检测模型的输出。例如，如上面参考图2A所描述的，对象检测数据能够包括分别关于第一多个图块和第二多个图块中的单个图块定义的多个边界框。

在708处，例如，如上面参考图3和图4所描述的，计算系统能够通过将对象检测数据映射到图像的图像空间上来生成图像对象检测输出。如上文所讨论的，在一些实施方式中，能够移除与部分对象检测相对应的图像对象检测输出的边界框中的一些。能够识别与其内对应相应边界框的图块的边界相交的边界框，并从图像对象检测输出中移除所述边界框。

图8描绘了根据本公开的方面的用于训练机器学习对象检测模型的示例方法800的流程图。尽管图8出于说明和讨论的目的描绘了以特定顺序执行的步骤，但是本公开的方法不限于特定示出的顺序或布置。在不脱离本公开的范围的情况下，能够以各种方式省略、重新布置、组合和/或调整方法800的各个步骤。

方法800能够包括对多个训练图像中的每个训练图像执行下面描述的每组步骤。更具体地，方法800能够包括在(802)处基于具有相应图像空间的相应训练图像来生成图像金字塔。图像金字塔能够包括与第一分辨率的相应训练图像相对应的第一级和与不同于第一分辨率的第二分辨率的相应训练图像相对应的第二级。方法800能够包括在(804)处通过将第一级划分为第一多个图块并将第二级划分为第二多个图块来平铺第一级和第二级。方法800可以包括在(806)处，将第一多个图块和第二多个图块输入到机器学习对象检测模型中，并且在(808)处，接收对象检测数据作为机器学习对象检测模型的输出。对象检测数据能够包括分别关于第一多个图块和第二多个图块中的单个图块定义的多个边界框。方法800能够包括在(810)处，例如，如上面参考图2A至图4所描述的，通过将对象检测数据映射到相应训练图像的相应图像空间上来生成图像对象检测输出。

方法800还能够包括在(812)处，基于图像对象检测输出和与多个训练图像中的相应训练图像相对应的真值对象位置数据的比较来调整机器学习对象检测模型的参数。例如，能够评估描述所述比较的损失函数。能够计算损失函数的梯度，并且，例如，通过机器学习对象检测模型的层的误差的反向传播，能够调整机器学习模型的参数。

如上所述，在一些实施方式中，例如，如上面参考图2B所描述的，计算系统能够包括初步机器学习模型。在这样的实施方式中，能够基于比较和/或损失函数来调整初步机器学习模型的参数。误差能够通过机器学习模型和初步机器学习模型中的每一个反向传播。能够调整一个或两个模型的参数。因此，能够以端到端的方式训练模型。

另外，在一些实施方式中，方法800还能够包括，例如，如上文参考图5A到图6所描述的，移除图像对象检测输出的与部分对象检测相对应的边界框。

应当理解，本公开的各种方面能够在训练期间、推断期间或两者期间实现。例如，平铺能够用于训练如上所述的模型和/或在例如参考图7所述的推断期间。然而，能够单独在训练期间或单独在推断期间使用平铺。类似地，在训练期间、推断期间或两者期间，能够移除冗余边界框和/或能够移除或“修剪”部分检测框。

附加公开

本文讨论的技术参考服务器、数据库、软件应用和其他基于计算机的系统，以及所采取的动作和发送到这些系统和从这些系统发送的信息。基于计算机的系统的固有灵活性允许组件之间和之中的任务和功能的各种可能的配置、组合和划分。例如，本文讨论的过程能够使用单个设备或组件或组合工作的多个设备或组件来实现。数据库和应用能够在单个系统上实现或跨多个系统分布。分布式组件能够顺序地或并行地操作。

参考图9，在归一化为1024×1024的图像中识别对象。针对召回绘制精度。

图10至图12图示了对包括城市景观的图像的第一数据集的实验收集的数据。参考图10，训练图像被平铺为256×256，并且输入图像被设置为529×529。在没有平铺的情况下，在大小为1024×2048的测试图像上评估模型。参考图11，训练图像被平铺为256×256，并且输入图像被设置为529×529。在平铺的大小为1024×2048的测试图像上评估模型。使用非极大抑制去除冗余对象识别数据。参考图12，如本文所述，使用非极大抑制去除冗余边界框，并且去除或“修剪”部分检测边界框。更具体地，训练图像被平铺为256×256，并且输入图像被设置为529×529。在平铺的大小为1024×2048的测试图像上评估模型。

图13至图15图示了对第二数据集的实验收集的数据。参考图13，使用了AutoML后端模型。输入数据被设置为1024×1024。参考图14，使用了AutoML后端模型。训练图像被平铺为640×640，并且输入图像被设置为1024×1024。使用非极大抑制去除冗余对象识别数据。参考图15，使用AutoML后端模型。训练图像被平铺为640×640，并且输入图像被设置为1024×1024。使用非极大抑制去除冗余对象识别数据。如关于图5A至图6所描述的，部分检测边界框也被移除或“修剪”。

虽然已经关于本主题的各种具体示例实施例详细描述了本主题，但是每个示例是通过解释而不是限制本公开的方式提供的。本领域技术人员在获得对前述内容的理解后，可以容易地产生对这些实施例的改变、变化和等同物。因此，本主题公开不排除包括对本主题的这样的修改、变化和/或添加，这对于本领域普通技术人员来说是易于理解的。例如，作为一个实施例的一部分示出或描述的特征能够与另一个实施例一起使用以产生又一个实施例。因此，本公开旨在覆盖这些改变、变化和等同物。

Claims

1.一种计算系统，包括：

至少一个处理器；

机器学习对象检测模型，被配置为接收多个图块，并且响应于接收到多个图块，输出多个图块的对象检测数据，对象检测数据包括分别关于多个图块中的单个图块定义的多个边界框；以及

至少一个有形的非暂时性计算机可读介质，其存储指令，当指令由至少一个处理器执行时使得至少一个处理器执行操作，包括：

基于具有图像空间的图像生成图像金字塔，图像金字塔包括与第一分辨率的图像相对应的第一级和与不同于第一分辨率的第二分辨率的图像相对应的第二级；

通过将第一级划分为第一多个图块并且将第二级划分为第二多个图块来平铺第一级和第二级；

将第一多个图块和第二多个图块输入到机器学习对象检测模型中；

接收对象检测数据作为机器学习对象检测模型的输出，对象检测数据包括分别关于第一多个图块和第二多个图块中的单个图块定义的多个边界框；以及

通过将对象检测数据映射到图像的图像空间上来生成图像对象检测输出。

2.根据前述权利要求中任一项所述的计算系统，其中，所述操作还包括：

基于图像对象检测输出的至少一个边界框与第一多个图块或第二多个图块中的一个或多个的边界相交，识别所述至少一个边界框；以及

从图像对象检测输出移除所述至少一个边界框。

3.根据权利要求2所述的计算系统，其中，基于至少一个边界框跨越第一多个图块或第二多个图块中的一个或多个，使得所述至少一个边界框与第一多个图块或第二多个图块中的一个或多个的边界和与所述边界平行的相对边界相交，来识别所述至少一个边界框。

4.根据权利要求2所述的计算系统，其中，基于至少一个边界框与第一多个图块或第二多个图块中的一个或多个的边界相交并且与图像金字塔的相应级的边缘相交，来识别所述至少一个边界框。

5.根据权利要求2所述的计算系统，其中，从图像对象检测输出移除至少一个边界框包括移除与第一多个图块或第二多个图块的多个边界中的任何边界相交的每个边界框。

6.根据前述权利要求中任一项所述的计算系统，还包括：初步机器学习对象检测模型，被配置为接收图像，并且响应于接收到图像，输出中间特征表示，并且其中，基于图像生成图像金字塔包括：

将图像输入到初步机器学习对象检测模型中；

接收中间特征表示作为初步机器学习对象检测模型的输出；以及

基于中间特征表示生成图像金字塔的第一级和第二级。

7.根据前述权利要求中任一项所述的计算系统，还包括：初步机器学习对象检测模型，被配置为接收多个初步图块，并且响应于接收到多个初步图块，输出分别与多个初步图块相对应的多个中间特征表示，并且其中，基于图像生成图像金字塔包括：

将图像平铺成多个初步图块；

将多个初步图块输入到初步机器学习对象检测模型中；

接收分别与多个初步图块相对应的多个中间特征表示，作为初步机器学习对象检测模型的输出；以及

基于多个中间特征表示生成图像金字塔的第一级和第二级。

8.根据权利要求7所述的计算系统，其中，多个初步图块与第一分辨率的第一初步级相对应，并且其中，基于图像生成图像金字塔包括在平铺第一级和第二级之前缩小第一初步级以生成第二分辨率的第二初步级。

9.一种用于训练机器学习对象检测模型的方法，所述方法包括：

对于多个训练图像中的每个训练图像：

由一个或多个计算设备基于具有相应图像空间的相应训练图像来生成图像金字塔，图像金字塔包括与第一分辨率的相应训练图像相对应的第一级和与不同于第一分辨率的第二分辨率的相应训练图像相对应的第二级；

由一个或多个计算设备通过将第一级划分为第一多个图块并且将第二级划分为第二多个图块来平铺第一级和第二级；

由一个或多个计算设备将第一多个图块和第二多个图块输入到机器学习对象检测模型中；

由一个或多个计算设备接收对象检测数据作为机器学习对象检测模型的输出，对象检测数据包括分别关于第一多个图块和第二多个图块中的单个图块限定的多个边界框；

由所述一个或多个计算设备通过将对象检测数据映射到相应训练图像的相应图像空间上来生成图像对象检测输出；以及

由一个或多个计算设备基于图像对象检测输出和与多个训练图像中的相应训练图像相对应的真值对象位置数据的比较来调整机器学习对象检测模型的参数。

10.根据权利要求9所述的方法，还包括：

由一个或多个计算设备基于图像对象检测输出的至少一个边界框与第一多个图块或第二多个图块中的一个或多个的边界相交，识别所述至少一个边界框；以及

由一个或多个计算设备从图像对象检测输出移除所述至少一个边界框。

11.根据权利要求10所述的方法，其中，由一个或多个计算设备基于至少一个边界框跨越第一多个图块或第二多个图块中的一个或多个，使得至少一个边界框与第一多个图块或第二多个图块中的一个或多个的边界和与所述边界平行的相对边界相交，来识别所述至少一个边界框。

12.根据权利要求10所述的方法，其中，由一个或多个计算设备基于至少一个边界框与第一多个图块或第二多个图块中的一个或多个的边界相交并且与图像金字塔的各个级的边缘相交，来识别所述至少一个边界框。

13.根据权利要求10所述的方法，其中，由一个或多个计算设备从图像对象检测输出移除至少一个边界框包括：由一个或多个计算设备移除与第一多个图块或第二多个图块的多个边界中的任何边界相交的每个边界框。

14.根据权利要求9至13中任一项所述的方法，还包括：

由一个或多个计算设备将描述相应训练图像的数据输入到初步机器学习对象检测模型中，初步机器学习对象检测模型被配置为接收描述相应训练图像的数据，并且响应于接收到描述相应训练图像的数据，输出中间特征表示，并且其中，基于训练图像生成图像金字塔包括：

由一个或多个计算设备接收中间特征表示作为初步机器学习对象检测模型的输出；以及

由一个或多个计算设备基于中间特征表示来生成图像金字塔的第一级和第二级。

15.根据权利要求9至14中任一项所述的方法，还包括：

将相应训练图像平铺成多个初步图块；

将多个初步图块输入到初步机器学习对象检测模型中，初步机器学习对象检测模型被配置为接收多个初步图块，并且响应于接收到多个初步图块，输出分别与多个初步图块相对应的多个中间特征表示，并且其中，基于相应训练图像生成图像金字塔包括：

基于多个中间特征表示生成图像金字塔的第一级和第二级，并且其中，所述方法还包括：

由一个或多个计算设备基于相应图像对象检测输出和与多个训练图像中的相应训练图像相对应的真值对象位置数据的比较来调整初步机器学习对象检测模型的参数。

16.根据权利要求15所述的方法，其中，多个初步图块与第一分辨率的第一初步级相对应，并且其中，基于相应训练图像生成图像金字塔包括在平铺第一级和第二级之前缩小第一初步级以生成第二分辨率的第二初步级。

17.一种检测图像中的对象的位置的方法，所述方法包括：

由一个或多个计算设备基于具有图像空间的图像生成图像金字塔，图像金字塔包括与第一分辨率的图像相对应的第一级和与不同于第一分辨率的第二分辨率的图像相对应的第二级；

由一个或多个计算设备接收对象检测数据作为机器学习对象检测模型的输出，对象检测数据包括分别关于第一多个图块和第二多个图块中的单个图块定义的多个边界框；以及

由一个或多个计算设备通过将对象检测数据映射到图像的图像空间上来生成图像对象检测输出。