CN113837185B

CN113837185B - 目标检测方法、系统、装置及存储介质

Info

Publication number: CN113837185B
Application number: CN202111390259.8A
Authority: CN
Inventors: 王程; 艾国; 杨作兴; 房汝明; 向志宏
Original assignee: Shenzhen MicroBT Electronics Technology Co Ltd
Current assignee: Shenzhen MicroBT Electronics Technology Co Ltd
Priority date: 2021-11-23
Filing date: 2021-11-23
Publication date: 2022-08-23
Anticipated expiration: 2041-11-23
Also published as: CN113837185A

Abstract

本公开涉及目标检测方法、系统、装置及存储介质。一种目标检测方法包括：对训练图像执行如下处理：对每个训练图像中的目标进行标注以获得目标的中心点坐标及类别，以及对每个训练图像进行重叠分块以获得多个训练图像块，所述多个训练图像块中的相邻训练图像块彼此部分重叠，使得重叠范围不小于目标尺寸；将经处理的训练图像输入到卷积神经网络模型，以训练卷积神经网络模型；以及将检测图像输入到经训练的卷积神经网络模型，以获得检测图像中的目标的中心点坐标及类别。

Description

目标检测方法、系统、装置及存储介质

技术领域

本公开涉及计算机视觉技术领域，并且更具体地，涉及一种目标检测方法、系统、装置及存储介质。

背景技术

目标检测是目前计算机视觉领域的重要基础任务之一，并且通常是许多现实应用中的第一步工作，包括机器人、自动驾驶、卫星图像分析、医学图像中的组织与肿瘤定位等。近年来，目标检测取得了较大发展，主要归功于深度学习算法和卷积神经网络在目标检测中的应用代替了原有的基于人工规则提取特征的方法。目前用于目标检测的深度学习方法主要分为两类：双阶段的目标检测算法和单阶段的目标检测算法。双阶段的目标检测算法是先由算法生成一系列作为样本的候选框，再通过卷积神经网络进行样本分类。单阶段的目标检测算法则不用产生候选框，直接将目标边框定位的问题转化为回归问题处理。一般而言，双阶段的目标检测算法在检测精度上占优，而单阶段的目标检测算法在检测速度上占优。

发明内容

根据本公开的第一方面，提供了一种目标检测方法，包括：对训练图像执行如下处理：对每个训练图像中的目标进行标注以获得目标的中心点坐标及类别，以及对每个训练图像进行重叠分块以获得多个训练图像块，所述多个训练图像块中的相邻训练图像块彼此部分重叠，使得重叠范围不小于目标尺寸；将经处理的训练图像输入到卷积神经网络模型，以训练卷积神经网络模型；以及将检测图像输入到经训练的卷积神经网络模型，以获得检测图像中的目标的中心点坐标及类别。

根据本公开的第二方面，提供了一种目标检测系统，包括：训练图像处理单元，被配置为对训练图像执行如下处理：对每个训练图像中的目标进行标注以获得目标的中心点坐标及类别，以及对每个训练图像进行重叠分块以获得多个训练图像块，所述多个训练图像块中的相邻训练图像块彼此部分重叠，使得重叠范围不小于目标尺寸；模型训练单元，被配置为接收经训练图像处理单元处理的训练图像并将其输入到卷积神经网络模型，以训练卷积神经网络模型；以及模型推理单元，被配置为接收检测图像并将其输入到经模型训练单元训练的卷积神经网络模型，以获得检测图像中的目标的中心点坐标及类别。

根据本公开的第三方面，提供了一种目标检测装置，包括：一个或多个处理器；以及存储计算机可执行指令的存储器，所述计算机可执行指令在被所述一个或多个处理器执行时使得所述一个或多个处理器执行根据本公开的第一方面所述的目标检测方法。

根据本公开的第四方面，提供了一种其上存储有计算机可执行指令的非瞬态存储介质，所述计算机可执行指令在被计算机执行时使得计算机执行根据本公开的第一方面所述的目标检测方法。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得更为清楚。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同说明书一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1示出了根据本公开的一些实施例的目标检测方法的流程图；

图2示出了根据本公开的一些实施例的目标检测方法中用于处理训练图像的方法的流程图；

图3A示例性示出了经标注的训练图像的示意图；

图3B示例性示出了经数据增强的图3A中的训练图像的示意图；

图4示例性示出了根据本公开的一些实施例的目标检测方法中对图像进行重叠分块的示意图；

图5示例性示出了根据本公开的一些实施例的目标检测方法所采用的卷积神经网络模型的示意结构图；

图6A和图6B分别示例性示出了针对训练图像块中标注的不同类别的目标计算的参考热图；

图7A和图7B分别示例性示出了卷积神经网络模型的检测头模块的不同输出通道针对训练图像块中的相应类别的目标所输出的特征图和经激活函数处理的特征图；

图8示例性示出了根据本公开的一些实施例的目标检测方法所采用的卷积神经网络模型的示意结构图；

图9示出了根据本公开的一些实施例的目标检测系统的示意性框图；

图10示出了根据本公开的一些实施例的目标检测装置的示意性框图。

注意，在以下说明的实施方式中，有时在不同的附图之间共同使用同一附图标记来表示相同部分或具有相同功能的部分，而省略其重复说明。在本说明书中，使用相似的标号和字母表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

为了便于理解，在附图等中所示的各结构的位置、尺寸及范围等有时不表示实际的位置、尺寸及范围等。因此，所公开的发明并不限于附图等所公开的位置、尺寸及范围等。此外，附图不必按比例绘制，一些特征可能被放大以示出具体组件的细节。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应当注意，除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。本领域的技术人员将会理解，它们仅仅说明可以用来实施本公开的示例性方式，而不是穷尽的方式。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

目标检测通常可以包括小目标检测和大目标检测，更精细地还可以包括中等目标检测。通常，尺寸小于32*32像素的目标可以被认为是小目标，尺寸在32*32像素和96*96像素之间的目标可以被认为是中等目标，而尺寸大于96*96像素的目标可以被认为是大目标。小目标检测在许多应用场景中都相当重要。例如，在部署于各种高层建筑物顶上的高空瞭望相机监视区域入侵时，需要监视地面上出现的行人或车辆等，然而这些行人或车辆在高空瞭望相机采集的高分辨率图像中非常小而不易被检测到。虽然目标检测领域在近年来的进展突飞猛进，但是小目标检测领域相比于大目标检测领域还是存在不小的差距。很多目标检测算法在应用于小目标检测时都有显著的性能下降。

为此，本公开提供了一种目标检测方法，其针对目标检测特别是针对小目标检测具有改进的检测精度，并且可以简单而迅速地获取目标的类别和位置信息。

图1示出了根据本公开的一些实施例的目标检测方法100。如图1所示，目标检测方法100包括在步骤S102处处理训练图像。训练图像可以是直接采集的，也可以是从其它合适的途径获取的。例如，可以接收由第三方采集的训练图像。本文所述的“图像”可以是静态图像或者从动态视频中抽取的一帧图像。例如，在高空瞭望相机监视应用中，可以经由高空瞭望相机拍摄静态图像或者动态视频，然后可以将静态图像或从动态视频中抽取的一帧或多帧图像作为训练图像以填充到训练图像集。为了更清楚地阐述本公开，以下描述将以高空瞭望相机监视应用作为具体示例，但本领域技术人员都将理解这不是限制性的。在高空瞭望相机监视应用中，感兴趣的目标可以是人和车辆。

图2示出了对训练图像的一些示例处理。

具体地，可以在步骤S1021处对每个训练图像中的目标进行标注以获得目标的中心点坐标及类别。例如，图3A示出了多个训练图像200A、200B，其中，训练图像200A包括在人行道上行走的人211a，训练图像200B包括在人行道上行走的人221a和在机动车道上行驶的车辆221b。标注方式例如可以采用包围目标的主干部分的包围框。如图3A所示，在经标注的训练图像200A中包围框212a包围人211a，在经标注的训练图像200B中包围框222a包围人221a，包围框222b包围车辆221b。通过标注，可以获得训练图像200A中的目标211a的中心点坐标(其可以是包围框212a的中心点坐标)和类别(即，人)，训练图像200B中的目标221a的中心点坐标(其可以是包围框222a的中心点坐标)和类别(即，人)，训练图像200B中的目标221b的中心点坐标(其可以是包围框222b的中心点坐标)和类别(即，车辆)。在一些实施例中，可以对尺寸在预定尺寸范围内的目标进行标注。该预定尺寸范围例如可以基于图像的尺寸来设置。在一些示例中，对于4K图像，可以仅对宽度尺寸不小于20个像素的目标进行标注。在一些示例中，对于4K图像，可以对尺寸在20*20像素和32*32像素之间的目标进行标注。合理设置预定尺寸范围的上限可以便于后续在训练卷积神经网络模型时使得卷积神经网络模型更注重于学习小目标的特性。合理设置预定尺寸范围的下限可以降低卷积神经网络模型的学习难度，便于卷积神经网络模型的轻量化设计。

由于图像中通常包含的小目标数量特别少，因此需要对图像进行数据增强。在一些实施例中，可以在步骤S1022处将所标注的目标中的至少一个目标复制到至少一个训练图像的指定区域，并且在步骤S1023处对所复制的目标进行标注以获得目标的中心点坐标及类别。例如，目标可以被随机复制到任意一张图像的指定区域。如图3B所示，经数据增强的训练图像200A’进一步包括由训练图像200A中的目标(人)211a复制得到的目标(人)211a’(被包围框212a’标注)、由训练图像200B中的目标(人)221a复制得到的目标(人)221a’(被包围框222a’标注)、由训练图像200B中的目标(车辆)221b复制得到的目标(车辆)221b’(被包围框222b’标注)，经数据增强的训练图像200B’进一步包括由训练图像200A中的目标(人)211a复制得到的目标(人)211a’(被包围框212a’标注)。可以按照目标的包围框对目标进行抠取并复制。

在一些实施例中，可以对所有在步骤S1021处标注出的目标都进行一次或多次复制。在一些实施例中，每个目标被复制的次数不超过次数阈值。例如，该次数阈值可以被设置为两次。设置次数阈值可以防止经处理的训练图像由于包含过多的目标而显著偏离于实际要检测的图像，从而提高经训练的卷积神经网络模型的准确性、可靠性。

在一些实施例中，上述指定区域可以满足以下条件中的至少一个：(1)在复制之前该指定区域不包括任何目标；(2)在真实世界中要复制的目标出现在该指定区域的可能性超过可能性阈值；(3)复制后的目标完全在训练图像内。条件(1)是为了避免与已有目标重叠。条件(2)是为了尽可能贴近实际要检测的图像。例如，如果要复制的目标是人，那么指定区域可以是人行道，而不是绿化带(例如，树上)。条件(3)是为了避免目标被复制在图像边界上导致目标在图像内的有效尺寸减小。

在一些实施例中，在训练卷积神经网络模型时，可以对其中目标的数量超过数量阈值的训练图像进行过采样。在本文中，过采样可以是指将同一张训练图像多次重复应用于训练。例如，由于大多数高空瞭望图像中并不包括人这种目标，因此可以对人较多的高空瞭望图像进行过采样，以便多次训练这种样本。可以根据具体需要合理地设置该数量阈值。

由于目标在整个图像中所占的比例很小，如果直接缩放到卷积神经网络中会丢失关键语义信息，甚至有可能在缩放后的图像中目标的尺寸小于一个像素而导致信息完全丢失，因此本公开提出了对图像先分块再检测的分而治之的方法。经过分块之后，相同的目标在图像块中所占的比例相比于在完整图像中所占的比例明显提升，使得在缩放后进入卷积神经网络时仍具有足够的语义信息，并且在经过卷积神经网络处理后仍有很好的特征表达。

具体地，在一些实施例中，在步骤S1024处，可以对每个训练图像进行重叠分块以获得多个训练图像块，所述多个训练图像块中的相邻训练图像块彼此部分重叠，使得重叠范围不小于目标尺寸。图4示意性地示出了根据本公开的重叠分块方式。对图像200执行重叠分块以得到图像块210、220、230、240。图像块210、220、230、240中的相邻训练图像块彼此部分重叠，例如图像块210与图像块240彼此部分重叠，使得重叠范围214(如阴影所示)不小于目标尺寸。通常，可以使各个图像块的尺寸彼此相同，以便对各个图像块应用相同的卷积神经网络训练模型。当然，也可以使各个图像块的尺寸彼此不相同。

在一些实施例中，当后续要在检测图像中检测多个类别的目标时，相邻训练图像块的重叠范围不小于该多个类别的目标的目标尺寸中的最大者。例如，需要在高空瞭望图像中检测人和车辆，因此可以使相邻训练图像块的重叠范围不小于车辆尺寸。使相邻图像块的重叠范围不小于目标尺寸能够保证至少一个图像块可以完整地涵盖目标，从而保证分块边界处的目标的信息不丢失。在一些实施例中，可以根据目标尺寸相对于训练图像尺寸的比例，确定对训练图像进行重叠分块而获得的训练图像块的数量，以使得目标尺寸相对于训练图像块尺寸的比例落在预定比例范围内。如果训练图像块的数量过少，则图像分块的效果不明显，不足以保证目标在缩放后进入卷积神经网络时具有足够的语义信息。如果训练图像块的数量过大，会增加计算负担。

在一些实施例中，还可以在步骤S1025处向训练图像增加噪声，例如可以增加椒盐噪声或高斯噪声。实际要检测的图像可能由于编解码等处理而包含噪声。通过用被主动增加有噪声的训练图像训练的卷积神经网络模型，可以在实际检测中对噪声图像有增强的适应能力。

继续参考图1，目标检测方法100还包括：在步骤S104处，将经处理的训练图像输入到卷积神经网络模型，以训练卷积神经网络模型；在步骤S106处，将检测图像输入到经训练的卷积神经网络模型，以获得检测图像中的目标的中心点坐标及类别。在训练图像被重叠分块的实施例中，在步骤S104处可以将多个训练图像块分别输入到卷积神经网络模型。由于小目标的尺寸很小，因此在许多场景中仅需要明确小目标的类别及大概位置信息即可，而不需要小目标的严格轮廓。因此，在本公开中，可以以回归目标的中心点坐标为目的训练卷积神经网络模型，这不仅可以简化卷积神经网络模型，还可以快速获得有效信息。

可以根据输入的图像块尺寸、目标的尺寸范围、用于执行卷积神经网络模型的计算单元的计算能力、实时性要求等因素中的一者或多者设计专用的卷积神经网络模型。在一些实施例中，卷积神经网络模型可以包括：骨干网络模块，被配置为从输入的图像块中提取多个不同层次的特征图；特征金字塔网络模块，与骨干网络模块耦接，并且被配置为融合所述多个不同层次的特征图；检测头模块，与特征金字塔网络模块耦接，并且被配置为经由与目标的类别对应的输出通道输出用于确定相应类别的目标的中心点坐标的特征图；参考热图模块，被配置为针对训练图像块计算提供关于所标注的每个类别的目标的中心点坐标的信息的参考热图；以及损失函数模块，与检测头模块和参考热图模块耦接，并且被配置为将从检测头模块获取的特征图与从参考热图模块获取的参考热图输入到损失函数中，其中卷积神经网络模型经训练以使得所述损失函数最小化。损失函数越来越小意味着检测头模块输出的特征图和参考热图越来越接近。

图5示出了根据本公开的一些实施例的卷积神经网络模型300。可以理解，图5所示的结构仅仅是示例性的而非限制性的。卷积神经网络模型300包括骨干网络模块301、特征金字塔网络模块302、检测头模块303、参考热图模块304和损失函数模块305。在图5中，各个层的“(？→？)”是指该层的输入通道数和输出通道数，例如“(3→24)”是指3个输入通道和24个输出通道。“A”层是指3*3卷积核且步长为2的卷积层结合批归一化层(BatchNormalization，BN)结合激活层(这里选用的激活函数为ReLU函数)。“B”层是指3*3卷积核且步长为1的卷积层结合BN层结合ReLU层。“C”层是指1*1卷积核且步长为1的卷积层。“D”层是指3*3卷积核且步长为1的深度(Depthwise)卷积层结合BN层结合ReLU层。“E”层是指3*3卷积核且步长为1的卷积层。“上采样”层被配置为使特征图的分辨率变为两倍。“相加”层被配置为将两个层输出的特征图相加。“sigmoid”层为其激活函数采用sigmoid函数的激活层。结合BN层和ReLU层可以实现更好的特征选择作用。最大池化层可以用于提取主要特征。图5所示的卷积神经网络模型300是轻量级的，其卷积层数量和通道数量都较为精简，检测头模块303仅有4个卷积层，这样精简的网络和检测头的设计可以占用较少的计算资源，实现快速的推理过程。

在图5的示例中，以分辨率为416*416的RGB三通道图像块为输入，检测头模块303最终输出N个分辨率为104*104的特征图，其中N是输出通道的数量，其也对应于目标的类别的数量。例如，在要检测人和车辆的高空瞭望相机监视应用中，N可以是2。图7A示出了在以图3B所示的训练图像200A’经过如图4所示的重叠分块后得到的四个训练图像块为输入的情况下，检测头模块303从对应于第一目标类别(人)的输出通道输出的特征图Hcpt_a1至Hcpt_a4，而特征图Hcpt_a1至Hcpt_a4在经过sigmoid激活函数处理后变为特征图Hcpt_a1’至Hcpt_a4’。图7B示出了在以图3B所示的训练图像200A’经过如图4所示的重叠分块后得到的四个训练图像块为输入的情况下，检测头模块303从对应于第二目标类别(车辆)的输出通道输出的特征图Hcpt_b1至Hcpt_b4，而特征图Hcpt_b1至Hcpt_b4在经过sigmoid激活函数处理后变为特征图Hcpt_b1’至Hcpt_b4’。特征图Hcpt_a1至Hcpt_a4和Hcpt_b1至Hcpt_b4的浓淡分布代表中心点坐标的概率分布。在经sigmoid激活函数处理后，根据特征图Hcpt_a1’至Hcpt_a4’和Hcpt_b1’至Hcpt_b4’可以得到卷积神经网络模型300所推理出的目标的中心点坐标。

另一方面，经标注的训练图像块除了被提供至骨干网络模块301之外，还被提供给参考热图模块304，并由参考热图模块304计算参考热图，用于与检测头模块303输出的特征图一起提供给损失函数模块305以进行回归。在一些实施例中，参考热图模块被配置为：令I∈R^W×H×n为训练图像块，其中W为训练图像块的宽度，H为训练图像块的高度，n为训练图像块的通道数，并且R为特征图的缩放系数；根据训练图像块中标注的目标的中心点坐标，通过缩放系数R得到在特征图的分辨率上的目标的中心点坐标；以及通过高斯核

将在特征图的分辨率上的目标的中心点坐标分散到热图

其中c是目标的类别的数量，σ_p是目标尺度自适应方差，

和

分别是x坐标和y坐标的均值，并且其中

表示目标的中心点而

表示背景。在上述示例中，输入分辨率为416*416，输出分辨率为104*104，因而缩放系数R为4。在一些实施例中，如果对于同一目标类别有两个高斯函数发生重叠，可以选择元素级最大的那一个。

图6A示出了参考热图模块304对于图3B所示的训练图像200A’及其经过如图4所示的重叠分块后得到的四个训练图像块所计算的针对第一目标类别(人)的参考热图Href_a及Href_a1至Href_a4。图6B示出了参考热图模块304对于图3B所示的训练图像200A’及其经过如图4所示的重叠分块后得到的四个训练图像块所计算的针对第二目标类别(车辆)的参考热图Href_b及Href_b1至Href_b4。可以将参考热图Href_a1至Href_a4、Href_b1至Href_b4与特征图Hcpt_a1’至Hcpt_a4’、Hcpt_b1’至Hcpt_b4’一起提供给损失函数模块305以进行回归。卷积神经网络模型训练的目的在于回归目标的中心点坐标。例如，训练可以采用随机梯度下降算法并采用余弦学习率衰减等策略进行参数更新，损失函数模块305可以采用如下所示的均方误差损失函数。

当然，也可以采用其它合适的回归算法、学习率更新策略、损失函数等。

在一些实施例中，卷积神经网络模型还可以包括上下文增强模块，该上下文增强模块可以耦接在特征金字塔网络模块与检测头模块之间，并且被配置为用于融合不同感受野的特征图以增大输出的特征图的感受野。例如，如图8所示，卷积神经网络模型300’相比于图5的卷积神经网络模型300还包括上下文增强模块306，其耦接在特征金字塔网络模块302与检测头模块303之间，从而增大输出的特征图的感受野。

应理解，虽然在图5和图8的示例中以RGB三通道图像为例进行说明，但是本公开可以适用于任何单通道图像和多通道图像。

在训练好卷积神经网络模型之后，可以将检测图像输入到经训练的卷积神经网络模型以检测目标的中心点坐标和类别。在将检测图像输入到经训练的卷积神经网络模型之前，可以对检测图像进行分块。在一些实施例中，将检测图像输入到经训练的卷积神经网络模型包括：对检测图像进行重叠分块以得到多个检测图像块，所述多个检测图像块中的相邻检测图像块彼此部分重叠，使得重叠范围不小于目标尺寸；以及将所述多个检测图像块中的每个检测图像块分别输入到经训练的卷积神经网络模型。在一些实施例中，检测图像的重叠分块可以与训练图像的重叠分块保持一致。在一些实施例中，可以在训练卷积神经网络模型时对图像或图像块本身进行处理，而在应用训练好的卷积神经网络模型时(即，模型推理阶段)可以直接输入相应区域的图像数组。在一些实施例中，检测图像块可以在经历减均值除标准差处理后被输入到经训练的卷积神经网络模型。在一些实施例中，将所述多个检测图像块中的每个检测图像块分别输入到经训练的卷积神经网络模型包括：与所述多个检测图像块相应地提供多个专用计算单元，每个专用计算单元被配置为针对所述多个检测图像块中的相应一个检测图像块独立地执行经训练的卷积神经网络模型。由此，通过多个专用计算单元并行处理，可以大大提高计算效率。另外，相比于处理整个检测图像的单个计算单元，对于这样的多个专用计算单元中的每一个的性能要求相对较低。

由于检测头模块的每个输出通道对应相应一个目标类别，而输出的特征图包含了目标的中心点位置信息，因此在一些实施例中，获得检测图像中的目标的中心点坐标及类别可以包括根据检测头模块的输出通道，确定检测图像中的目标的类别，还可以包括针对检测图像中的每个类别的目标：根据从相应的输出通道输出的特征图，确定特征图中的目标的中心点坐标；以及根据特征图中的目标的中心点坐标、输出的特征图与输入的检测图像块之间的对应关系、输入的检测图像块与检测图像之间的对应关系、以及检测图像的检测图像块之间的重叠范围，确定检测图像中的目标的中心点坐标。具体地，可以将特征图中的像素点坐标对应到原检测图像块，并且根据检测图像块之间的重叠范围对于重复检测到的点坐标进行去除，然后可以根据检测图像块与原检测图像之间的对应关系，获得目标在原检测图像中的中心点坐标。在一些实施例中，可以对检测图像设置感兴趣区域，并且从卷积神经网络模型的计算结果中仅返回感兴趣区域中的目标的中心点坐标与类别。

在一些实施例中，可以在训练卷积神经网络模型时进行多任务学习，而在模型推理阶段仅使用单任务输出，所述单任务是所述多任务之一。这样，可以提高单任务输出的检测精度。例如，在一些实施例中，对训练图像执行的处理还可以包括对每个训练图像中的目标进行标注以获得目标的包围框，训练卷积神经网络模型可以以回归目标的中心点坐标和包围框二者为目的，并且在用经训练的卷积神经网络模型对检测图像进行检测时，可以仅输出用于确定目标的中心点坐标的特征图。通过在训练卷积神经网络模型既学习回归中心点坐标又学习回归包围框，可以提高在模型推理阶段输出的中心点坐标的检测精度。

基于以上，根据本公开的目标检测方法可以具有改进的目标检测精度，尤其是对于小目标检测具有改进的检测精度，并且具有强的场景适应性。另外，通过对图像进行重叠分块再检测，可以在保证输入分辨率足以保存目标的语义信息的基础上尽可能地加速模型推理。由于每个图像块的输入分辨率被合理控制而不会过高，并且多个图像块可以并行检测，所以可以对每个图像块应用轻量级卷积神经网络模型，以较少的计算资源简单且迅速地获取目标的类别及位置信息。而卷积神经网络模型中所采用的特征金字塔网络模块、上下文增强模块等进一步增强了模型的小目标检测能力。此外，本公开的目标检测方法采用了无锚框(anchorfree)的网络架构，避免了小目标的锚框难以设置和训练的问题，实现了简单且高效的网络架构，并且易于部署在专用计算单元内。

本公开还提供了一种目标检测系统。如图9所示，目标检测系统400包括训练图像处理单元402、模型训练单元404和模型推理单元406。训练图像处理单元402被配置为对训练图像执行如下处理：对每个训练图像中的目标进行标注以获得目标的中心点坐标及类别；以及对每个训练图像进行重叠分块以获得多个训练图像块，所述多个训练图像块中的相邻训练图像块彼此部分重叠，使得重叠范围不小于目标尺寸。可以采集或从其它合适的途径获取训练图像以供经由训练图像处理单元402处理用于训练。在一些实施例中，目标检测系统400可以包括训练图像采集单元，其被配置为采集训练图像。在一些实施例中，目标检测系统400可以包括训练图像接收单元，其被配置为接收训练图像。所接收的训练图像可以是由第三方采集的。模型训练单元404被配置为接收经训练图像处理单元402处理的训练图像并将其输入到卷积神经网络模型，以训练卷积神经网络模型。模型推理单元406被配置为接收检测图像并将其输入到经模型训练单元404训练的卷积神经网络模型，以获得检测图像中的目标的中心点坐标及类别。

在一些实施例中，训练图像处理单元402还可以被配置为：根据目标尺寸相对于训练图像尺寸的比例，确定对训练图像进行重叠分块而获得的训练图像块的数量，以使得目标尺寸相对于训练图像块尺寸的比例落在预定比例范围内。在一些实施例中，当要在检测图像中检测多个类别的目标时，所述多个训练图像块中的相邻训练图像块的重叠范围不小于所述多个类别的目标的目标尺寸中的最大者。在一些实施例中，训练图像处理单元402还可以被配置为向训练图像增加噪声。在一些实施例中，训练图像处理单元402还可以被配置为：将所标注的目标中的至少一个目标复制到至少一个训练图像的指定区域，并对所复制的目标进行标注以获得目标的中心点坐标及类别。在一些示例中，每个目标被复制的次数不超过次数阈值。在一些示例中，所述指定区域满足以下各项中的至少一项：在复制之前所述指定区域不包括任何目标；在真实世界中要复制的目标出现在所述指定区域的可能性超过可能性阈值；复制后的目标完全在训练图像内。

在一些实施例中，模型训练单元404还可以被配置为：在训练卷积神经网络模型时，对其中目标的数量超过数量阈值的训练图像进行过采样。

在一些实施例中，卷积神经网络模型可以包括：骨干网络模块，被配置为从输入的图像块中提取多个不同层次的特征图；特征金字塔网络模块，与骨干网络模块耦接，并且被配置为融合所述多个不同层次的特征图；检测头模块，与特征金字塔网络模块耦接，并且被配置为经由与目标的类别对应的输出通道输出用于确定相应类别的目标的中心点坐标的特征图；参考热图模块，被配置为针对训练图像块计算提供关于所标注的每个类别的目标的中心点坐标的信息的参考热图；以及损失函数模块，与检测头模块和参考热图模块耦接，并且被配置为将从检测头模块获取的特征图与从参考热图模块获取的参考热图输入到损失函数中，其中卷积神经网络模型经训练以使得所述损失函数最小化。在一些实施例中，卷积神经网络模型还可以包括：上下文增强模块，耦接在特征金字塔网络模块与检测头模块之间，并且被配置用于融合不同感受野的特征图以增大输出的特征图的感受野。在一些实施例中，参考热图模块可以被配置为：令I∈R^W×H×n为训练图像块，其中W为训练图像块的宽度，H为训练图像块的高度，n为训练图像块的通道数，并且R为特征图的缩放系数；根据训练图像块中标注的目标的中心点坐标，通过缩放系数R得到在特征图的分辨率上的目标的中心点坐标；以及通过高斯核

将在特征图的分辨率上的目标的中心点坐标分散到热图

其中c是目标的类别的数量，σ_p是目标尺度自适应方差，

和

分别是x坐标和y坐标的均值，并且其中

表示目标的中心点而

表示背景。

在一些实施例中，模型推理单元406还可以被配置为：对检测图像进行重叠分块以得到多个检测图像块，所述多个检测图像块中的相邻检测图像块彼此部分重叠，使得重叠范围不小于目标尺寸；以及将所述多个检测图像块中的每个检测图像块分别输入到经模型训练单元404训练的卷积神经网络模型。在一些实施例中，模型推理单元406可以被配置为通过以下获得检测图像中的目标的中心点坐标及类别：根据检测头模块的输出通道，确定检测图像中的目标的类别；以及针对检测图像中的每个类别的目标：根据从相应的输出通道输出的特征图，确定特征图中的目标的中心点坐标；以及根据特征图中的目标的中心点坐标、输出的特征图与输入的检测图像块之间的对应关系、输入的检测图像块与检测图像之间的对应关系、以及检测图像的检测图像块之间的重叠范围，确定检测图像中的目标的中心点坐标。在一些实施例中，模型推理单元406可以包括与所述多个检测图像块相应地提供的多个专用计算单元，每个专用计算单元被配置为针对所述多个检测图像块中的相应一个检测图像块独立地执行经训练的卷积神经网络模型。在一些实施例中，检测图像的重叠分块与训练图像的重叠分块一致。

在一些实施例中，训练图像处理单元402还可以被配置为对每个训练图像中的目标进行标注以获得目标的包围框，模型训练单元404还可以被配置为以回归目标的中心点坐标和包围框二者为目的训练卷积神经网络模型，并且模型推理单元406还可以被配置为在用经模型训练单元训练的卷积神经网络模型对检测图像进行检测时，仅输出用于确定目标的中心点坐标的特征图。

目标检测系统400可以被配置为执行根据本公开的任一实施例所述的目标检测方法，因而目标检测系统400的实施例基本类似于目标检测方法的前述实施例，在此不再赘述，相关之处可参见对目标检测方法的前述说明。

本公开还提供了一种目标检测装置，其可以包括一个或多个处理器以及存储计算机可执行指令的存储器，计算机可执行指令在被一个或多个处理器执行时使得一个或多个处理器执行根据本公开的前述任一实施例所述的目标检测方法。如图10所示，目标检测装置500可以包括(一个或多个)处理器501以及存储计算机可执行指令的存储器502，计算机可执行指令在被(一个或多个)处理器501执行时使得(一个或多个)处理器501执行根据本公开的前述任一实施例所述的目标检测方法。(一个或多个)处理器501例如可以是目标检测装置500的中央处理单元(CPU)。(一个或多个)处理器501可以是任何类型的通用处理器，或者可以是专门设计用于目标检测的处理器，诸如专用集成电路(“ASIC”)。存储器502可以包括可由(一个或多个)处理器501访问的各种计算机可读介质。在各种实施例中，本文描述的存储器502可以包括易失性和非易失性介质、可移除和不可移除介质。例如，存储器502可以包括以下的任何组合：随机存取存储器(“RAM”)、动态RAM(“DRAM”)、静态RAM(“SRAM”)、只读存储器(“ROM”)、闪存、高速缓冲存储器和/或任何其它类型的非瞬态计算机可读介质。存储器502可以存储在被处理器501执行时使得处理器501执行根据本公开的前述任一实施例所述的目标检测方法。

另外，本公开还提供了一种其上存储有计算机可执行指令的非瞬态存储介质，计算机可执行指令在被计算机执行时使得计算机执行根据本公开的前述任一实施例所述的目标检测方法。

说明书及权利要求中的词语“左”、“右”、“前”、“后”、“顶”、“底”、“上”、“下”、“高”、“低”等，如果存在的话，用于描述性的目的而并不一定用于描述不变的相对位置。应当理解，这样使用的词语在适当的情况下是可互换的，使得在此所描述的本公开的实施例，例如，能够在与在此所示出的或另外描述的那些取向不同的其它取向上操作。例如，在附图中的装置倒转时，原先描述为在其它特征“之上”的特征，此时可以描述为在其它特征“之下”。装置还可以以其它方式定向(旋转90度或在其它方位)，此时将相应地解释相对空间关系。

在说明书及权利要求中，称一个元件位于另一元件“之上”、“附接”至另一元件、“连接”至另一元件、“耦接”至另一元件、或“接触”另一元件等时，该元件可以直接位于另一元件之上、直接附接至另一元件、直接连接至另一元件、直接耦接至另一元件或直接接触另一元件，或者可以存在一个或多个中间元件。相对照的是，称一个元件“直接”位于另一元件“之上”、“直接附接”至另一元件、“直接连接”至另一元件、“直接耦接”至另一元件或“直接接触”另一元件时，将不存在中间元件。在说明书及权利要求中，一个特征布置成与另一特征“相邻”，可以指一个特征具有与相邻特征重叠的部分或者位于相邻特征上方或下方的部分。

如在此所使用的，词语“示例性的”意指“用作示例、实例或说明”，而不是作为将被精确复制的“模型”。在此示例性描述的任意实现方式并不一定要被解释为比其它实现方式优选的或有利的。而且，本公开不受在技术领域、背景技术、发明内容或具体实施方式中所给出的任何所表述的或所暗示的理论所限定。

如在此所使用的，词语“基本上”意指包含由设计或制造的缺陷、器件或元件的容差、环境影响和/或其它因素所致的任意微小的变化。词语“基本上”还允许由寄生效应、噪声以及可能存在于实际的实现方式中的其它实际考虑因素所致的与完美的或理想的情形之间的差异。

另外，仅仅为了参考的目的，还可以在本文中使用“第一”、“第二”等类似术语，并且因而并非意图限定。例如，除非上下文明确指出，否则涉及结构或元件的词语“第一”、“第二”和其它此类数字词语并没有暗示顺序或次序。

还应理解，“包括/包含”一词在本文中使用时，说明存在所指出的特征、整体、步骤、操作、单元和/或组件，但是并不排除存在或增加一个或多个其它特征、整体、步骤、操作、单元和/或组件以及/或者它们的组合。

在本公开中，术语“提供”从广义上用于涵盖获得对象的所有方式，因此“提供某对象”包括但不限于“购买”、“制备/制造”、“布置/设置”、“安装/装配”、和/或“订购”对象等。

如本文所使用的，术语“和/或”包括相关联的列出项目中的一个或多个的任何和所有组合。本文中使用的术语只是出于描述特定实施例的目的，并不旨在限制本公开。如本文中使用的，单数形式“一”、“一个”和“该”也旨在包括复数形式，除非上下文另外清楚指示。

本领域技术人员应当意识到，在上述操作之间的边界仅仅是说明性的。多个操作可以结合成单个操作，单个操作可以分布于附加的操作中，并且操作可以在时间上至少部分重叠地执行。而且，另选的实施例可以包括特定操作的多个实例，并且在其它各种实施例中可以改变操作顺序。但是，其它的修改、变化和替换同样是可能的。可以以任何方式和/或与其它实施例的方面或元件相结合地组合以上公开的所有实施例的方面和元件，以提供多个附加实施例。因此，本说明书和附图应当被看作是说明性的，而非限制性的。

虽然已通过示例对本公开的一些特定实施例进行了详细说明，但本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本公开的范围。在此公开的各实施例可以任意组合，而不脱离本公开的精神和范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本公开的范围和精神。本公开的范围由所附权利要求来限定。

Claims

1.一种小目标检测方法，包括：

对训练图像执行如下处理：

对每个训练图像中的目标尺寸不低于预定尺寸阈值的目标进行标注以获得目标的中心点坐标及类别，所述目标是小目标；

根据目标尺寸相对于训练图像尺寸的比例，确定对训练图像进行重叠分块而获得的训练图像块的数量，以使得目标尺寸相对于训练图像块尺寸的比例落在预定比例范围内，所述预定比例范围具有下限和上限；以及

按照所确定的训练图像块的数量，对每个训练图像进行重叠分块以获得多个训练图像块，所述多个训练图像块中的相邻训练图像块彼此部分重叠，使得重叠范围不小于目标尺寸；

将经处理的训练图像输入到卷积神经网络模型，以训练卷积神经网络模型；以及

将检测图像输入到经训练的卷积神经网络模型，以获得检测图像中的目标的中心点坐标及类别，

其中，将检测图像输入到经训练的卷积神经网络模型包括：

对检测图像进行重叠分块以得到多个检测图像块，所述多个检测图像块中的相邻检测图像块彼此部分重叠，使得重叠范围不小于目标尺寸，以及

将所述多个检测图像块中的每个检测图像块分别输入到经训练的卷积神经网络模型，

其中，获得检测图像中的目标的中心点坐标包括：

针对检测图像中的每个类别的目标：

根据从相应的输出通道输出的特征图，确定特征图中的目标的中心点坐标；以及

根据特征图中的目标的中心点坐标、输出的特征图与输入的检测图像块之间的对应关系、输入的检测图像块与检测图像之间的对应关系、以及检测图像的检测图像块之间的重叠范围，确定检测图像中的目标的中心点坐标，其中：

根据输出的特征图与输入的检测图像块之间的对应关系将输出的特征图中的目标的中心点坐标对应到输入的检测图像块，从而获得检测图像块中的目标的中心点坐标；

根据检测图像块之间的重叠范围对检测图像块中的重复检测到的目标的中心点坐标进行去除；

根据输入的检测图像块与检测图像之间的对应关系将检测图像块中的经去重的目标的中心点坐标对应到原始的检测图像，从而获得检测图像中的目标的中心点坐标。

2.根据权利要求1所述的小目标检测方法，还包括：

在训练卷积神经网络模型时，对其中目标的数量超过数量阈值的训练图像进行过采样。

3.根据权利要求1所述的小目标检测方法，其中，当要在检测图像中检测多个类别的目标时，所述多个训练图像块中的相邻训练图像块的重叠范围不小于所述多个类别的目标的目标尺寸中的最大者。

4.根据权利要求1所述的小目标检测方法，其中，对训练图像执行的处理还包括：向训练图像增加噪声。

5.根据权利要求1所述的小目标检测方法，其中，对训练图像执行的处理还包括：将所标注的目标中的至少一个目标复制到至少一个训练图像的指定区域，并对所复制的目标进行标注以获得目标的中心点坐标及类别。

6.根据权利要求5所述的小目标检测方法，其中，

每个目标被复制的次数不超过次数阈值。

7.根据权利要求5所述的小目标检测方法，其中，所述指定区域满足以下各项中的至少一项：

在复制之前所述指定区域不包括任何目标；

在真实世界中要复制的目标出现在所述指定区域的可能性超过可能性阈值；

复制后的目标完全在训练图像内。

8.根据权利要求1所述的小目标检测方法，其中，卷积神经网络模型包括：

骨干网络模块，被配置为从输入的图像块中提取多个不同层次的特征图；

特征金字塔网络模块，与骨干网络模块耦接，并且被配置为融合所述多个不同层次的特征图；

检测头模块，与特征金字塔网络模块耦接，并且被配置为经由与目标的类别对应的输出通道输出用于确定相应类别的目标的中心点坐标的特征图；

参考热图模块，被配置为针对训练图像块计算提供关于所标注的每个类别的目标的中心点坐标的信息的参考热图；以及

损失函数模块，与检测头模块和参考热图模块耦接，并且被配置为将从检测头模块获取的特征图与从参考热图模块获取的参考热图输入到损失函数中，其中卷积神经网络模型经训练以使得所述损失函数最小化。

9.根据权利要求8所述的小目标检测方法，其中，卷积神经网络模型还包括：

上下文增强模块，耦接在特征金字塔网络模块与检测头模块之间，并且被配置为用于融合不同感受野的特征图以增大输出的特征图的感受野。

10.根据权利要求8所述的小目标检测方法，其中，获得检测图像中的目标的类别包括：

根据检测头模块的输出通道，确定检测图像中的目标的类别。

11.根据权利要求8所述的小目标检测方法，其中，所述参考热图模块被配置为：

令I∈R^W×H×n为训练图像块，其中W为训练图像块的宽度，H为训练图像块的高度，n为训练图像块的通道数，并且R为特征图的缩放系数；

根据训练图像块中标注的目标的中心点坐标，通过缩放系数R得到在特征图的分辨率上的目标的中心点坐标；以及

通过高斯核

将在特征图的分辨率上的目标的中心点坐标分散到热图

其中c是目标的类别的数量，σ_p是目标尺度自适应方差，

和

分别是x坐标和y坐标的均值，并且其中

表示目标的中心点而

表示背景。

12.根据权利要求1所述的小目标检测方法，其中，将所述多个检测图像块中的每个检测图像块分别输入到经训练的卷积神经网络模型包括：

与所述多个检测图像块相应地提供多个专用计算单元，每个专用计算单元被配置为针对所述多个检测图像块中的相应一个检测图像块独立地执行经训练的卷积神经网络模型。

13.根据权利要求1所述的小目标检测方法，其中，

检测图像的重叠分块与训练图像的重叠分块一致。

14.根据权利要求1所述的小目标检测方法，

其中，对训练图像执行的处理还包括对每个训练图像中的目标进行标注以获得目标的包围框，

其中，训练卷积神经网络模型以回归目标的中心点坐标和包围框二者为目的，并且

其中，在用经训练的卷积神经网络模型对检测图像进行检测时，仅输出用于确定目标的中心点坐标的特征图。

15.一种小目标检测系统，包括：

训练图像处理单元，被配置为对训练图像执行如下处理：

模型训练单元，被配置为接收经训练图像处理单元处理的训练图像并将其输入到卷积神经网络模型，以训练卷积神经网络模型；以及

模型推理单元，被配置为接收检测图像并将其输入到经模型训练单元训练的卷积神经网络模型，以获得检测图像中的目标的中心点坐标及类别，

其中，模型推理单元被配置为通过以下操作将检测图像输入到经模型训练单元训练的卷积神经网络模型：

其中，模型推理单元被配置为通过以下操作获得检测图像中的目标的中心点坐标：

针对检测图像中的每个类别的目标：

16.一种小目标检测装置，包括：

一个或多个处理器；以及

存储计算机可执行指令的存储器，所述计算机可执行指令在被所述一个或多个处理器执行时使得所述一个或多个处理器执行根据权利要求1至14中任一项所述的小目标检测方法。

17.一种其上存储有计算机可执行指令的非瞬态存储介质，所述计算机可执行指令在被计算机执行时使得计算机执行根据权利要求1至14中任一项所述的小目标检测方法。