CN113243026A

CN113243026A - 用于高分辨率对象检测的装置和方法

Info

Publication number: CN113243026A
Application number: CN202080007136.9A
Authority: CN
Inventors: 李柄元; 马春飞; 梁胜智; 崔準向; 崔冲桓
Original assignee: SK Telecom Co Ltd
Current assignee: SK Telecom Co Ltd
Priority date: 2019-10-04
Filing date: 2020-06-10
Publication date: 2021-08-10
Also published as: US20210286997A1; KR20210040551A; KR102340988B1; KR102489113B1; WO2021066290A1; KR20210093820A

Abstract

本公开内容提供了对象检测装置和方法，其中，基于对象检测的在先结果和对象跟踪的结果来针对高分辨率图像自适应地生成部分图像，并且通过将数据增强应用于部分图像来生成增强图像。因此，可以通过使用生成的增强图像基于人工智能(AI)来检测和跟踪对象，并且可以基于检测和跟踪的结果来执行再推理。

Description

用于高分辨率对象检测的装置和方法

技术领域

在一些实施方式中，本公开内容涉及用于从高分辨率图像中检测对象的装置和方法。

背景技术

该部分中的陈述仅提供与本公开内容有关的背景信息，并且不一定构成现有技术。

在安全领域中，使用无人机进行图像拍摄和图像分析是物理安全市场(physicalsecurity market)一项重要技术，其为技术竞争力的衡量。附加地，就拍摄到的图像的传送、存储和分析而言，图像拍摄和分析技术是对第五代(5G)通信技术进行频繁使用的技术。因此，这种图像处理技术被分类为主要电信公司为技术开发而竞争的领域。

用于无人机拍摄到的图像(在下文中称为“无人机图像”或“图像”)的现有分析技术针对通过在约30m高处飞行的无人机拍摄到的全高清(FHD，例如，1K)图像。现有图像分析技术从拍摄到的图像中检测诸如行人、汽车、公共汽车、卡车、自行车和摩托车的对象，并且利用检测结果来提供诸如无人侦察、入侵检测和犯罪暴露的服务。

以大容量和低时延特性为特征的5G通信技术为允许使用在更高高度处以更宽的视野拍摄的高分辨率无人机图像提供了基础，所述高分辨率无人机图像包括例如2K全高清(FHD)无人机图像或4K超高清(UHD)无人机图像。拍摄高度的增加和图像分辨率的增加致使被拍摄的对象更小，这将大大增加对象检测的难度。因此，需要不同于常规分析技术的技术。

图3是使用基于人工智能(AI)的深度学习模型的常规对象检测方法的示例图。该方法包括将图像输入至预先学习的深度学习模型以执行推理并且基于推理结果来检测图像中的对象。图3所示的方法适用于具有较低分辨率的图像。

将图3所示的方法应用于高分辨率图像的尝试由于输入图像的分辨率而受到性能限制。首先，因为要检测的对象的尺寸与整个图像的尺寸之比太小，因此小物体的检测性能可能大大降低。其次，用于推理所需的内部存储器空间注定要与图像大小成比例地以指数方式增加，从而消耗大量的硬件资源，这将需要大的存储器和高端的图形处理单元(GPU)。

图4是针对高分辨率图像使用深度学习模型的常规对象检测方法的另一示例图。图4所示的方案可以被用于改善图3所示的技术的性能约束。由图4所示的方法所使用的深度学习模型假设具有与由图3所示的方法所使用的模型相同或相似的结构和性能。

该方案包括将高分辨率的整个图像划分成相同大小的交叠的分割图像并且利用分割图像以批处理方法执行推理。将每个分割图像中检测到的对象的位置映射至整个图像使得能够检测出存在于高分辨率整个图像上的对象。图4所示的方案显示出节省占用的存储器空间的优点，但是在改善对于非常小的对象的检测性能方面仍然受到基本限制。

因此，需要一种具有经改善的性能的高分辨率对象检测方法，所述方法能够在有效地使用现有深度学习模型和有限的硬件资源的同时从高分辨率图像中检测非常小的对象。

发明内容

[技术问题]

本公开内容在一些实施方式中基于针对高分辨率图像的在先对象检测结果和对象跟踪结果来自适应地生成部分图像，并且通过将数据增强应用于部分图像来生成增强图像。本公开内容力图提供一种对象检测装置和对象检测方法，所述对象检测装置和对象检测方法能够通过使用生成的增强图像基于AI来检测和跟踪对象，并且能够基于检测结果和跟踪结果来执行再推理。

[概括]

本公开内容的至少一个方面提供了一种对象检测装置，该对象检测装置包括：输入单元、候选区域选择单元、部分图像生成单元、数据增强单元、AI推理单元和控制单元。输入单元被配置成获得整个图像。候选区域选择单元被配置成基于针对整个图像的至少一部分的第一检测结果来在整个图像中选择整个图像中的要执行增强检测的一个或更多个候选区域。部分图像生成单元被配置成从整个图像中获得与候选区域相对应的一个或更多个部分图像。数据增强单元被配置成将数据增强技术应用于部分图像中的每一个，并且从而生成增强图像。AI推理单元被配置成从增强图像中检测对象，并且从而生成增强检测结果。控制单元被配置成基于增强检测结果来在整个图像中定位对象并且被配置成生成第二检测结果。

本公开内容的另一方面提供了一种通过计算机装置执行的对象检测方法，所述对象检测方法包括：获得整个图像；以及基于针对整个图像的至少一部分的第一检测结果来在整个图像中选择整个图像中的要执行增强检测的一个或更多个候选区域；以及从整个图像中获得分别与候选区域相对应的一个或更多个部分图像；以及通过将数据增强技术应用于部分图像中的每一个来生成增强图像；以及通过基于增强图像通过使用预训练的AI推理单元检测针对部分图像中的每一个的对象来生成增强检测结果；以及通过基于增强检测结果在整个图像中定位对象来生成第二检测结果。

本公开内容的又一方面提供了一种非暂态计算机可读介质，所述非暂态计算机可读介质存储包括计算机可执行指令的计算机程序，所述计算机可执行指令用于在由计算机执行时使计算机执行对象检测方法，所述对象检测方法包括：获得整个图像；以及基于针对整个图像的至少一部分的第一检测结果来在整个图像中选择整个图像中的要执行增强检测的一个或更多个候选区域；以及从整个图像中获得分别与候选区域相对应的一个或更多个部分图像；以及通过将数据增强技术应用于部分图像中的每一个来生成增强图像；以及通过基于增强图像通过使用预训练的AI推理单元检测针对部分图像中的每一个的对象来生成增强检测结果；以及通过基于增强检测结果在整个图像中定位对象来生成第二检测结果。

[有益效果]

如上所述，本公开内容的一些实施方式提供了一种对象检测装置和对象检测方法，所述对象检测装置和对象检测方法能够通过使用增强图像基于AI来检测和跟踪对象，并且能够基于检测结果和跟踪结果来执行再推理。利用对象检测装置和对象检测方法可以在有效地使用有限的硬件资源的同时实现对无人机服务中所需的复杂且模糊的小对象的检测性能的改善。

根据本公开内容的一些实施方式，对象检测装置和对象检测方法通过分析在更高的高度上以更宽的视场捕获的高分辨率图像，提供了优于常规的基于无人机的方法的能力，减轻了无人机基于电池容量的飞行时间的检测限制，这允许用无人机提供差异化的安全服务。

此外，根据本公开内容的实施方式，可以通过利用具有高清晰度、大容量和低时延特性的5G通信技术来处理由无人机拍摄的高分辨率图像，从而有利于安全领域。

附图说明

图1是根据本公开内容的至少一个实施方式的对象检测装置的配置图。

图2中的(a)和图2中的(b)是根据本公开内容的至少一个实施方式的对象检测方法的流程图。

图3是使用基于AI的深度学习模型的常规对象检测方法的示例图。

图4是用于针对高分辨率图像使用深度学习模型的另一常规对象检测方法的示例图。

图5a、图5b和图5c是根据本公开内容的一些实施方式的推理和再推理的示例图。

具体实施方式

在下文中，将参照附图详细描述本公开内容的一些实施方式。在下面的描述中，尽管元件示出在不同的附图中，但是相同的附图标记优选地指示相同的元件。此外，在一些实施方式的下面的描述中，为了清楚和简洁的目的，将省略并入其中的已知功能和配置的详细描述。

附加地，诸如第一、第二、A、B、(a)、(b)等的各种术语仅用于区分一个组件与其他组件，而不隐含或暗示部件的基本内容、顺序或次序。在整个此说明书中，当组件“包括”或“包含”部件时，该组件意指还包括其他部件，除非有相反的明确说明，否则不排除其他部件。诸如“单元”、“模块”等的术语是指用于处理至少一个功能或操作的一个或更多个单元，所述一个或更多个单元可以通过硬件、软件或其组合来实现。

在下文中连同附图一起公开的具体实施方式旨在描述本公开内容的示例性实施方式，而不旨在表示可以实践本公开内容的唯一实施方式。

本公开内容示出了高分辨率对象检测装置和高分辨率对象检测方法的实施方式。更详细地，所述实施方式使用高分辨率图像执行对象检测，并且包括生成其自适应部分图像并且将数据增强应用于部分图像以生成增强图像。通过使用所生成的增强图像，可以通过由本公开内容的实施方式提供的对象检测装置和对象检测方法基于AI来执行对象检测和再推理。

在实施方式中，作为对象检测的结果，在给定图像上识别对象存在的位置，并且同时，还确定对象的类型。附加地，包括对象的矩形边界框用于指示对象的位置。

图1是根据本公开内容的至少一个实施方式的对象检测装置100的配置的图。

在本公开内容的至少一个实施方式中，对象检测装置100从高分辨率图像生成增强图像，并且使用所生成的增强图像基于AI来检测用于无人机拍摄到的图像所需水平的小对象。对象检测装置100包括候选区域选择单元111、数据增强单元112、AI推理单元113、控制单元114和对象跟踪单元115中的全部或一些。

包括在根据本公开内容的一些实施方式的对象检测装置100中的部件不必限于这些具体部件。例如，附加地设置在对象检测装置100上的可以是用于获得高分辨率图像的输入单元(未示出)和用于生成部分图像的部分图像生成单元(未示出)。

图1的图示是根据至少一个实施方式的示例性配置，其可以根据候选区域选择方法、数据增强技术、AI推理单元的结构和对象跟踪方法等可变地实现成包括不同的部件或部件之间的不同连接。

本公开内容的实施方式假设无人机提供高分辨率(例如，2K或4K分辨率)图像，这不意指限制本公开内容并且可以包括能够提供高分辨率图像的任何设备。对于实时分析或延时分析，可以通过使用高速传送技术例如5G通信技术将高分辨率图像传送至服务器(未示出)。

假设根据一些实施方式的对象检测装置100安装在服务器或具有相当于服务器的计算能力的计算能力的可编程系统中。

附加地，根据实施方式的对象检测装置100可以被安装在生成高分辨率图像的设备例如无人机中。因此，对象检测装置100的操作中的全部或一些操作可以由所安装的设备基于设备的计算能力来执行。

根据本公开内容的实施方式的对象检测装置100可以通过对每个高分辨率图像执行三个或更多个推理来提高检测性能。第一推理被表示为在先推理(precedinginference)，第二推理被表示为当前推理(current inference)，以及第三或以后的推理被表示为再推理(re-inference)。附加地，在先推理生成在先推理结果作为第一检测结果，当前推理产生最终推理结果作为第二检测结果，以及再推理生成再推理结果。

为了便于说明实施方式，可以可交换地使用高分辨率图像与整个图像。

在下文中，将参照图1的图示来描述对象检测装置100的各个部件的操作。

根据本公开内容的一些实施方式的对象检测装置100具有用于获得高分辨率图像即来自无人机的整个图像的输入单元。

根据一些实施方式的对象检测装置100通过对整个图像执行在先推理来生成在先检测结果。如图4所示的常规技术，对象检测装置100首先将整个图像分割成相同大小的分割图像，其中，图像部分地交叠。此后，基于使用AI推理单元113针对分割图像中的每一个推理出的对象，对象检测装置100在整个图像中确定性地定位所述对象以最终生成在先检测结果。

附加地，对象跟踪单元115基于在先检测结果使用基于机器学习的对象跟踪算法来暂时地跟踪对象，以生成跟踪信息。下面将描述对象跟踪单元115的详情。

下面通过图5a、图5b和图5c来描述节省计算能力的示例方法。

图5a至图5c是根据本公开内容的一些实施方式的推理和再推理的示例图。

图5a至图5c的图示在水平方向上以时间单位指示帧的进度，并且在垂直方向上指示所执行的在先推理、当前推理和重复的再推理。

如图5a所示，对象检测装置100利用高分辨率的整个图像来在每帧单位时间执行在先推理和当前推理，并且然后，如果需要再推理，则对象检测装置100可以利用重复的再推理来使对象检测性能最大化。

在另一实施方式中，为了减少消耗的计算能力，本公开内容针对所输入的整个图像来针对每个特定时段生成在先检测结果。

如图5b所示，对象检测装置100利用在具有特定周期或时间间隔的每一帧中获得的高分辨率的整个图像执行在先推理，以获得第一或在先检测结果。对于在特定时间段期间的剩余的每一帧，对象检测装置100利用先前帧的推理或检测结果对部分图像进行当前推理和再推理，这可以节省高分辨率图像分析所需的计算能力。

在本公开内容的另一实施方式中，对象检测装置100首先通过使用诸如下采样的图像处理技术来生成具有相对低分辨率的整个图像。此后，对象检测装置100可以使用低分辨率的整个图像作为基础来分割整个图像或跳过分割过程以利用AI推理单元113生成在先检测结果。通过使用低分辨率的整个图像，对象检测装置100可以节省为了生成在先检测结果而消耗的计算能力。

如图5c所示，对象检测装置100利用具有特定周期或时间间隔的每一帧中的低分辨率的整个图像执行在先推理，以获得第一或在先检测结果，并且在对部分图像的当前推理和再推理过程中，对象检测装置100可以利用高分辨率图像来使计算量的效率最大化。

根据一些实施方式的候选区域选择单元111基于在先检测结果和由对象跟踪单元115提供的跟踪信息从整个图像中如下选择一个或更多个候选区域。

候选区域选择单元111基于整个图像的在先检测结果来选择拥挤或混乱区域。混乱区域是指由于许多对象集中在小区域中而可能影响精确检测的区域。

将通用对象检测技术应用于混乱区域往往会产生较大的定位误差。这将导致对象的边界框被摇动而没有定义对象的确切位置，或者由于错误检测对象而导致出现重叠框。因此，选择混乱区域作为详细分析的候选区域。

候选区域选择单元111基于在先检测结果检测低置信度对象。为重新进行AI推理单元113在在先推理中的模糊判断，候选区域选择单元111可以选择检测到低置信度对象的区域作为候选区域，并且对AI推理单元113的模糊判断生成的低置信度对象进行二次判断。

候选区域选择单元111基于在先检测结果确定小于基于安装在无人机上的摄像装置所拥有的周围地形信息所预测的尺寸的对象。候选区域选择单元111可以选择包括小对象的周围区域作为候选区域，以对AI推理单元113的模糊判断进行二次判断。

候选区域选择单元111基于在先检测结果和跟踪信息来估计当前图像中的丢失对象。候选区域选择单元111可以选择包括丢失对象的周围区域作为候选区域，并且考虑对象的暂时位置的变化来重新确定对象。

如上所述，由于候选区域选择单元111执行控制功能以选择各种候选区域，因此它也可以被称为候选区域控制单元。

假设由候选区域选择单元111选择的各个候选区域具有相同的尺寸以方便AI推理单元的推理。为了均衡候选区域的大小，候选区域选择单元111可以使用已知的图像处理方法例如零插入和插值。

根据一些实施方式的候选区域选择单元111基于当前推理结果从整个图像中选择至少一个候选区域进行再推理。

候选区域选择单元111将在在先推理或当前推理中检测到的每个对象包括到所选择的候选区域中的至少一个中。另外，通过组合由候选区域选择单元111选择的所有候选区域获得的区域可能不是整个图像的全部。因此，根据本公开内容的对象检测装置100可以通过仅使用所选择的候选区域而不是整个图像作为对象检测目标区域来降低高分辨率图像分析所需的计算能力。

当候选区域选择单元111不能基于在先检测结果和跟踪信息选择单个候选区域时，例如，当整个图像中没有感兴趣的对象时，对象检测装置100可以省略当前推理并且终止推理。

在一些实施方式中，本公开内容具有用于从整个图像中获得与各个候选区域对应的一个或更多个部分图像的部分图像生成单元。

根据一些实施方式的数据增强单元112通过将自适应数据增强技术应用于各个部分图像来生成增强图像。

数据增强单元112使用各种技术，包括但不一定限于上采样、旋转、翻转和色彩空间调制作为数据增强技术。此处，上采样是放大图像的技术，而旋转是对图像进行旋转。另外，翻转是获得竖直或水平对称的镜像的技术，而色彩空间调制是获得应用滤色器的部分图像的技术。

数据增强单元112可以通过借助于对候选区域中的每一个应用自适应数据增强技术以补充其检测性能恶化的原因来使检测性能最大化。

关于针对混乱区域的部分图像，数据增强单元112可以通过应用诸如上采样、旋转、翻转和色彩空间调制的增强技术来生成增加数目的增强图像。通过应用增强技术，可以提供多个交叉检查以提高对象检测装置100的整体性能。

针对包括低置信对象的部分图像，数据增强单元112可以通过限制性地应用一至两种指定的增强技术来补充低置信度对象的可靠性。

对于包括小对象的部分图像，数据增强单元112可以通过基于上采样处理数据来提高小对象的检测性能。

关于包括丢失对象的部分图像，数据增强单元112可以通过限制性地应用一至两种指定的增强技术来提高当前图像中的检测性能。

数据增强单元112通过应用如上所述的数据增强技术针对各个部分图像生成相同数目或增加数目的增强图像。

为了便于AI推理单元的推理，假设由数据增强单元111生成的增强图像的大小都相同。为了均衡增强图像的大小，数据增强单元111可以使用已知的图像处理方法例如零插入和插值。

假设在由候选区域选择单元111选择的候选区域、由部分图像生成单元生成的部分图像以及由数据增强单元112生成的增强图像之间共享统一大小。

当执行再推理时，为了使对象检测性能最大化，数据增强单元112可以在同一部分图像上应用与应用于在先推理的技术不同的数据增强技术。在执行再推理时，对同一增强图像重复相同的在先推理只会得到类似的结果。因此，通过以不同的方式增强和放大部分图像并综合判断结果，可以确保优于在先推理的对象检测性能。

作为用于再推理的数据增强技术，数据增强单元112使用各种图像处理技术，包括但不必限于上采样、旋转、翻转、色彩空间调制以及高动态范围转换(HDR)。本公开内容以通过使用这些各种增强技术放大的数据作为再推理的结果的基础，产生多重决策效应并且有助于再推理结果的性能改善。

在再推理的过程中，数据增强单元112可以在根据目标对象和当前图像状态确定哪种数据增强技术有效时使用正确的判断。当期望检测诸如行人/自行车的相对小的对象时，数据增强单元112可以生成上采样的增强图像，并且当确定对象的颜色和背景颜色相似时，它可以生成对其应用色彩空间调制的增强图像。另外，在确定没有检测到具有足够大和标准化形状的对象例如车辆时，数据增强单元112可以生成对其应用诸如旋转/翻转的技术的增强图像，并且当由于天气/照明的变化而导致处于太暗或太亮的情况时，它可以生成对其应用HDR技术的增强图像。为了在再推理的过程中提高图像质量和对象检测性能，数据增强单元112可以使用包括上述技术的各种现有的图像处理技术。

AI推理单元113通过基于对增强图像的批量执行检测针对每个增强图像的对象来执行当前推理，并且生成增强检测结果。AI推理单元113的用于通过使用增强图像来检测对象的操作提供了以各种方式交叉检测一个对象的效果。

AI推理单元113被实现为基于深度学习的模型，该模型可以是任何可用于对象检测的模型，例如，You Only Look Once(YOLO)或基于区域的卷积神经网络(R-CNN)系列模型(例如，快速R-CNN、掩膜R-CNN等)、单次多框检测器(Single Shot Multibox Detector)(SSD)等。深度学习模型可以通过使用训练图像来预先训练。

无论进行在先推理、当前推理还是再推理，都假定AI推理单元113具有相同的结构和功能。

控制单元114基于增强检测结果确定对象在整个图像中的位置以生成最终检测结果。控制单元114可以通过使用由AI推理单元113交叉检测对象的检测频率和可靠性来生成最终检测结果。

控制单元114可以基于最终检测结果使用对象跟踪单元115来生成针对对象的跟踪信息，并且基于最终检测结果、在先检测结果和追踪信息来确定是否进一步执行再推理。

控制单元114基于最终检测结果、在先检测结果和由对象跟踪单元115提供的跟踪信息来计算用于选择候选区域的确定度量的变化量。控制单元114可以通过分析确定度量的变化量来确定是否执行再推理。

如上所述，由于控制单元114通过使用所获得和/或所生成的信息来确定是否执行再推理，因此可以将其称为再推理控制单元。

除了对确定量度的变化量的分析之外，下面描述其中做出是否执行再推理的决定的各种实施方式。

当在当前第t帧中没有检测到在先前的第(t-a)帧中检测到的对象时，则确定该对象已经被遗漏，并且可以将该对象先前存在的区域设置为候选再推理区域。

当对象检测结果显示彼此交叠使得难以确定准确的对象位置时，相关区域可以被设置为候选再推理区域。

一般来说，对象经常在图像的边界出现/消失，而在图像的内部出现/消失的频率低。因此，当在当前推理中在图像内部突然检测到不存在的对象时，可以使用再推理过程来确定相关对象是新出现的建筑物、树木或其他结构中的对象还是它是被错误检测到的。

当检测具有高重要性的对象时，例如，在安全入侵检测中，对人的检测是最重要的，即使在先推理中检测置信度较低，也需要确定可疑情况。因此，为了尽量减少遗漏对人的检测的情况，可以将相关区域设置为候选再推理区域。

当整个图像有特定的部分，所述特定的部分由于外部环境因素使其检测变得愈发困难时，例如当特定部分被建筑物遮挡并且变得比图像的其他部分暗时，该部分可以被设置为候选再推理区域。

对象跟踪单元115通过借助于使用基于机器学习的对象跟踪算法基于最终检测结果暂时地跟踪对象来生成跟踪信息。此处，要使用的基于机器学习的算法可以是开源算法例如信道和空间可靠性跟踪器(CSRT)、最小平方误差输出和(MOSSE)和使用回归网络的通用对象跟踪(GOTURN)中的任何一种。

由对象跟踪单元115生成的跟踪信息可以是关于通过从先前图像中的对象位置及时预测当前图像中的对象位置而生成的对象位置的信息。附加地，跟踪信息可以包括关于通过从先前图像的候选区域预测当前图像中的候选区域而生成的候选区域的信息。

对象跟踪单元115可以在诸如在先推理、当前推理和再推理的所有过程中执行对象跟踪。对象跟踪单元115将其生成的跟踪信息提供给控制单元114和候选区域选择单元111。

图2中的(a)和图2中的(b)是根据本公开内容的至少一个实施方式的对象检测方法的流程图。图2中的(a)中的流程图示出了在在先推理、当前推理和再推理的执行方面的对象跟踪方法。图2中的(b)中的流程图示出了当前推理(或再推理)步骤。

下面描述图2中的(a)中的流程图。

根据本公开内容的一些实施方式的对象检测装置100获得高分辨率的整个图像(在步骤S201中)。

对象检测装置100通过执行在先推理来生成在先检测结果，并且基于在先检测结果生成对象跟踪信息(S202)。生成在先检测结果和对象跟踪信息的过程与上文所述相同。

对象检测装置100通过对整个图像执行当前推理处理来生成最终检测结果，并且基于最终检测结果生成对象跟踪信息(S203)。对象检测装置100可以通过对整个图像执行再推理处理来生成再推理结果，并且基于再推理结果来生成对象跟踪信息。

下面将用图2中的(b)中的流程图描述当前推理(或再推理)过程。

对象检测装置100确定是否执行再推理(S204)。对象检测装置100进一步基于在先检测结果、最终检测结果以及基于对象跟踪信息的确定结果执行再推理(S203)，或者对象检测装置100终止推理。

下面描述了如图2中的(b)中的流程图所示的序列中的当前推理(或再推理)步骤。

根据本公开内容的一些实施方式的对象检测装置100从整个图像中选择一个或更多个候选区域(S205)。

候选区域包括但不限于混乱区域、包含低置信度对象的区域、包含小对象的区域、包含丢失对象的区域等。

对象检测装置100可以基于在先推理结果——特别是在先检测结果和通过使用在先检测结果生成的对象跟踪信息——来从整个图像中选择一个或更多个候选区域进行当前推理。

对象检测装置100可以基于当前推理结果——特别是最终检测结果和通过使用最终检测结果生成的对象跟踪信息——来从整个图像中选择一个或更多个候选区域进行再推理。

通过在先推理或当前推理检测到的各个对象被包括在候选区域中的至少一个中。由选择的候选区域组成的区域可能不是整个图像的全部。因此，在当前推理或再推理时，根据一些实施方式的对象检测装置100可以仅使用选择的候选区域而不是整个图像作为用于对象检测的目标区域，从而降低高分辨率图像分析要求的计算能力。

当不能基于在先检测结果和跟踪信息选择候选区域时，例如，当整个图像中没有感兴趣的对象时，对象检测装置100可以省略当前推理并且终止推理。

对象检测装置100从整个图像生成分别与候选区域对应的一个或更多个部分图像(S206)。

对象检测装置100对部分图像中的每一个应用自适应数据增强以生成增强图像(S207)。使用各种数据增强技术，包括但不限于上采样、旋转、翻转和色彩空间调制。

对象检测装置100通过应用各种数据增强技术针对各个部分图像生成相同数目或增加数目的增强图像。

对象检测装置100可以通过借助于应用适合每个选择的候选区域的自适应数据增强技术来补偿检测性能恶化的原因来使检测性能最大化。

当执行再推理时，可以将与应用于在先推理的数据增强技术不同的数据增强技术应用于同一部分图像。

对象检测装置100从增强图像中检测对象(S208)。

对象检测装置100通过使用AI推理单元113来执行当前推理(或再推理)。AI推理单元113分别针对增强图像中的每一个检测对象。为了便于AI推理单元113的推理，假设各个候选区域和从候选区域得到的增强图像都共享统一的大小。利用增强图像进行对象检测提供了以各种方式交叉检测单个对象的效果。

对象检测装置100生成针对整个图像的最终检测结果(S209)。

对象检测装置100通过基于交叉检测对象的检测频率和可靠性在整个图像中决定性地定位对象来生成最终检测结果。

对象检测装置100通过使用最终检测结果来生成对象跟踪信息(S210)。

对象检测装置100基于当前推理(或再推理)的检测结果通过借助于使用基于机器学习的对象跟踪算法暂时地跟踪对象来生成跟踪信息。

所生成的跟踪信息可以是关于通过从先前图像中的对象位置及时预测当前图像中的对象位置而生成的对象位置的信息。附加地，跟踪信息可以包括关于通过从先前图像的候选区域预测当前图像中的候选区域而生成的候选区域的信息。

如上所述，本公开内容的一些实施方式提供了能够通过使用增强图像基于AI检测和跟踪对象并且能够基于检测和跟踪结果执行再推理的对象检测装置和对象检测方法。利用所述对象检测装置和对象检测方法在有效利用有限的硬件资源的同时实现了对无人机业务所需的复杂、模糊的小对象的检测性能的改善。

根据本公开内容的一些实施方式，对象检测装置和对象检测方法通过分析在更高的高度上以更宽的视场捕获的高分辨率图像提供了优于常规的基于无人机的方法的能力，减轻了无人机的基于电池容量的飞行时间的检测限制，这允许用无人机提供差异化的安全服务。

此外，根据本公开内容的实施方式，可以通过利用具有高清晰度、大容量、低时延特性的5G通信技术来处理由无人机拍摄的高分辨率图像，从而有利于安全领域。

本文中描述的系统和方法的各种实现方式可以通过数字电子电路、集成电路、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、计算机硬件、固件、软件和/或它们的组合来实现。这些各种实现方式可以包括在可编程系统上可执行的一个或更多个计算机程序中实现的那些。可编程系统包括至少一个可编程处理器，其被耦接以从存储系统接收数据和指令以及向存储系统发送数据和指令；至少一个输入设备；以及至少一个输出设备，其中，可编程处理器可以是专用处理器或通用处理器。计算机程序(也称为程序、软件、软件应用或代码)包含用于可编程处理器的指令并且被存储在“计算机可读记录介质”中。

计算机可读记录介质表示用于向可编程处理器提供指令和/或数据的实体，例如任何计算机程序产品、装置和/或设备，例如非易失性或非暂态记录介质如CD-ROM、ROM、存储卡、硬盘、磁光盘、存储设备。

本文中描述的系统和技术的各种实现方式可以由可编程计算机实现。此处，计算机包括可编程处理器、数据存储系统(包括易失性存储器、非易失性存储器或任何其他类型的存储系统或其组合)和至少一个通信接口。例如，可编程计算机可以是服务器、网络设备、机顶盒、嵌入式设备、计算机扩展模块、个人计算机、膝上型计算机、个人数据助理(PDA)、云计算系统或移动设备中的一种。

虽然为了说明的目的已描述了本公开内容的示例性实施方式，但是本领域技术人员将理解，在不脱离所要求保护的发明的构思和范围的情况下，各种修改、添加和替换是可能的。因此，为了简洁和清楚起见，已经描述了本公开内容的示例性实施方式。本实施方式的技术构思的范围不受图示的限制。因此，普通技术人员将理解所要求保护的发明的范围不受以上明确描述的实施方式的限制，而是受权利要求及其等同内容的限制。

[附图标记]

100：对象检测装置 111：候选区域选择单元

112：数据增强单元 113：AI推理单元

114：控制单元 115：对象跟踪单元

Claims

1.一种对象检测装置，包括：

输入单元，其被配置成获得整个图像；

候选区域选择单元，其被配置成基于针对所述整个图像的至少一部分的第一检测结果来在所述整个图像中选择所述整个图像中的要执行增强检测的一个或更多个候选区域；

部分图像生成单元，其被配置成从所述整个图像中获得与所述候选区域相对应的一个或更多个部分图像；

数据增强单元，所述数据增强单元被配置成将数据增强技术应用于所述部分图像中的每一个，并且从而生成增强图像；

人工智能(AI)推理单元，其被配置成从所述增强图像中检测对象，并且从而生成增强检测结果；以及

控制单元，其被配置成基于所述增强检测结果来在所述整个图像中定位所述对象，并且被配置成生成第二检测结果。

2.根据权利要求1所述的对象检测装置，其中，所述控制单元被配置成基于所述第一检测结果和所述第二检测结果来确定是否允许所述AI推理单元进一步对所述候选区域执行再推理。

3.根据权利要求1所述的对象检测装置，其中，所述AI推理单元被配置成通过从所述整个图像中推理对象来预先生成所述第一检测结果。

4.根据权利要求1所述的对象检测装置，其中，所述候选区域选择单元被配置成基于针对所述整个图像的至少一部分的第一检测结果从以下任一项中选择所述候选区域：

多个对象集中在狭小面积中的混乱区域；

检测到低置信度对象的区域；以及

呈现比基于周围地形信息预测的尺寸小的对象的区域。

5.根据权利要求1所述的对象检测装置，其中，所述候选区域选择单元被配置成将根据所述第一检测结果检测到的对象中的每一个包括在所述候选区域中的至少一个中。

6.根据权利要求1所述的对象检测装置，其中，所述数据增强单元被配置成通过将一个或更多个数据增强技术应用于所述候选区域中的每一个来针对所述部分图像中的每一个生成一个或更多个增强图像。

7.根据权利要求2所述的对象检测装置，其中，当由所述控制单元确定要执行对所述整个图像的所述再推理时，所述数据增强单元将与先前应用于推理的数据增强技术不同的数据增强技术应用于相应的部分图像。

8.根据权利要求1所述的对象检测装置，其中，所述AI推理单元被配置成被实现为基于深度学习的模型，所述基于深度学习的模型通过使用用于训练的图像而被预训练。

9.根据权利要求2所述的对象检测装置，其中，所述控制单元被配置成基于所述第一检测结果和所述第二检测结果来计算用于选择所述候选区域的确定度量的变化量，并且被配置成基于所述变化量确定是否执行所述再推理。

10.根据权利要求2所述的对象检测装置，还包括：

对象跟踪单元，其被配置成基于所述第一检测结果和所述第二检测结果通过使用基于机器学习的对象跟踪算法来暂时地跟踪所述对象以生成跟踪信息；

其中，所述跟踪信息包括：

指示根据先前图像中的对象位置预测的当前图像中的预测对象位置的信息，或者

指示根据先前图像的候选区域预测的当前图像中的一个或更多个预测候选区域的信息。

11.根据权利要求10所述的对象检测装置，其中，所述控制单元被配置成进一步使用所述跟踪信息来确定是否执行所述再推理。

12.根据权利要求10所述的对象检测装置，其中，所述候选区域选择单元通过使用所述第一检测结果和所述跟踪信息来附加地选择包含丢失对象——当发生时——的区域作为所述候选区域之一。

13.一种通过计算机装置执行的对象检测方法，包括：

获得整个图像；

基于针对所述整个图像的至少一部分的第一检测结果来在所述整个图像中选择所述整个图像中的要执行增强检测的一个或更多个候选区域；

从所述整个图像中获得分别与所述候选区域相对应的一个或更多个部分图像；

通过将数据增强技术应用于所述部分图像中的每一个来生成增强图像；

通过基于所述增强图像通过使用预训练的人工智能(AI)推理单元检测针对所述部分图像中的每一个的对象来生成增强检测结果；以及

通过基于所述增强检测结果在所述整个图像中定位所述对象来生成第二检测结果。

14.根据权利要求13所述的对象检测方法，还包括：

基于所述第一检测结果和所述第二检测结果确定是否允许所述AI推理单元进一步对所述候选区域执行再推理。

15.根据权利要求13所述的对象检测方法，其中，所述AI推理单元被配置成通过从所述整个图像中推理对象来预先生成所述第一检测结果。

16.根据权利要求14所述的对象检测方法，还包括：

通过基于所述第二检测结果通过使用基于机器学习的对象跟踪算法来暂时地跟踪所述对象来生成跟踪信息，

其中，所述跟踪信息被配置成用于选择所述候选区域以及确定是否执行所述再推理。

17.一种非暂态计算机可读介质，其存储包括计算机可执行指令的计算机程序，所述计算机可执行指令用于在由计算机执行时使所述计算机执行对象检测方法，所述对象检测方法包括：

获得整个图像；

18.根据权利要求17所述的非暂态计算机可读介质，其中，所述计算机可执行指令在由所述计算机执行时使所述计算机进一步执行：

19.根据权利要求17所述的非暂态计算机可读介质，其中，所述计算机可执行指令在由所述计算机执行时使所述计算机允许所述AI推理单元通过从所述整个图像中推理对象来预先生成所述第一检测结果。

20.根据权利要求18所述的非暂态计算机可读介质，其中，所述计算机可执行指令在由所述计算机执行时使所述计算机进一步执行：