CN113762266B

CN113762266B - 目标检测方法、装置、电子设备和计算机可读介质

Info

Publication number: CN113762266B
Application number: CN202111020410.9A
Authority: CN
Inventors: 张韵东; 孙向东; 隋红丽; 饶颖; 李振华; 黄发亮; 刘小涛; 徐祥
Original assignee: Beijing Zhongxingtianshi Technology Co ltd
Current assignee: Beijing Zhongxingtianshi Technology Co ltd
Priority date: 2021-09-01
Filing date: 2021-09-01
Publication date: 2024-04-26
Anticipated expiration: 2041-09-01
Also published as: CN113762266A

Abstract

本公开的实施例公开了目标检测方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括：将获取到的影像切分成各个影像子图，得到影像子图集合；将影像子图集合中的每个影像子图进行二值划分处理以生成二值影像，得到二值影像集合；从二值影像集合中选择含有显著性区域的二值影像作为目标二值影像，得到目标二值影像集合；从影像子图集合中选择对应于目标二值影像的影像子图作为目标子图，得到目标子图集合；对目标子图集合中的每个目标子图进行细粒度目标检测以生成目标影像，得到目标影像集合，其中，目标影像集合中的目标影像包括目标定位信息和目标分类信息。该实施方式缩短了处理影像时长，减少了处理过程中对于内存资源的耗费。

Description

目标检测方法、装置、电子设备和计算机可读介质

技术领域

本公开的实施例涉及计算机技术领域，具体涉及目标检测方法、装置、电子设备和计算机可读介质。

背景技术

目标检测是一种基于目标几何和统计特征的图像分割。传统的目标检测方法，主要采用前景背景分离、手工设计特征、训练分类器等步骤对目标进行定位和识别，算法的鲁棒性和灵活性差，且准确率低。基于深度学习的目标检测算法，利用海量的遥感图像数据，经深度提取特征后，进行分类和回归慢。

然而，当采用上述方式进行目标检测时，经常会存在如下技术问题：

第一，利用深度学习的目标检测算法，耗时久，耗费大量内存资源；

第二，未进行重叠滤除处理，得到的影像上同一目标被标注多次，无法投入实际生产使用。

发明内容

本公开的内容部分用于以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

本公开的一些实施例提出了目标检测方法、装置、电子设备和计算机可读介质，来解决以上背景技术部分提到的技术问题中的一项或多项。

第一方面，本公开的一些实施例提供了一种目标检测方法，该方法包括：将获取到的影像切分成各个影像子图，得到影像子图集合；将影像子图集合中的每个影像子图进行二值划分处理以生成二值影像，得到二值影像集合；从二值影像集合中选择含有显著性区域的二值影像作为目标二值影像，得到目标二值影像集合；根据目标二值影像集合中的每个目标二值影像，从影像子图集合中选择对应于目标二值影像的影像子图作为目标子图，得到目标子图集合；对目标子图集合中的每个目标子图进行细粒度目标检测以生成目标影像，得到目标影像集合，其中，目标影像集合中的目标影像包括目标定位信息和目标分类信息。

第二方面，本公开的一些实施例提供了一种目标检测装置，装置包括：切分单元，被配置成将获取到的影像切分成各个影像子图，得到影像子图集合；划分单元，被配置成将影像子图集合中的每个影像子图进行二值划分处理以生成二值影像，得到二值影像集合；第一选择单元，被配置成从二值影像集合中选择含有显著性区域的二值影像作为目标二值影像，得到目标二值影像集合；第二选择单元，被配置成根据目标二值影像集合中的每个目标二值影像，从影像子图集合中选择对应于目标二值影像的影像子图作为目标子图，得到目标子图集合；检测单元，被配置成对目标子图集合中的每个目标子图进行细粒度目标检测以生成目标影像，得到目标影像集合，其中，目标影像集合中的目标影像包括目标定位信息和目标分类信息。

第三方面，本公开的一些实施例提供了一种电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现上述第一方面任一实现方式所描述的方法。

第四方面，本公开的一些实施例提供了一种计算机可读介质，其上存储有计算机程序，其中，程序被处理器执行时实现上述第一方面任一实现方式所描述的方法。

本公开的上述各个实施例中具有如下有益效果：通过本公开的一些实施例的目标检测方法得到的目标影像集合，缩短了处理影像时长，减少了处理过程中对于内存资源的耗费。具体来说，造成处理影像时间长，处理过程中耗费内存资源的原因在于：利用深度学习的目标检测算法，耗时久，耗费大量内存资源。基于此，本公开的一些实施例的目标检测方法，首先，将获取到的影像切分成各个影像子图，得到影像子图集合。由此，无需对整幅影像进行后续操作，仅需对上述影像子图进行后续操作，缩短了处理时长。然后，将影像子图集合中的每个影像子图进行二值划分处理以生成二值影像，得到二值影像集合。由此，对于只包含单一目标，且上述单一目标所在的区域与其他区域区分明显的影像子图，可以得到区分程度明显的二值影像，以进行后续操作。其次，从二值影像集合中选择含有显著性区域的二值影像作为目标二值影像，得到目标二值影像集合。由此，完成了对上述二值影像的筛选，筛选得到的每个目标二值影像包括显著性区域，使得后续减少了不必要操作，节约了内存资源。然后，根据目标二值影像集合中的每个目标二值影像，从影像子图集合中选择对应于目标二值影像的影像子图作为目标子图，得到目标子图集合。由此，可以对影像子图通过标识号进行筛选，对含有显著性区域的影像子图进行后续操作，节约内存资源。最后，对目标子图集合中的每个目标子图进行细粒度目标检测以生成目标影像，得到目标影像集合。由此，可以实现细粒度目标检测，从而得到目标定位信息和目标分类信息以供后续使用。也因为避免了对不含显著性区域的影像子图进行操作，减少了处理影像子图的数据量，进而缩短了处理影像时长，减少了处理过程中对于内存资源的耗费。

附图说明

结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，元件和元素不一定按照比例绘制。

图1是本公开的一些实施例的目标检测方法的一个应用场景的示意图；

图2是根据本公开的目标检测方法的一些实施例的流程图；

图3是根据本公开的目标检测方法的另一些实施例的流程图；

图4是根据本公开的目标检测装置的一些实施例的结构示意图；

图5是适于用来实现本公开的一些实施例的电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例。相反，提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

下面将参考附图并结合实施例来详细说明本公开。

图1是本公开的一些实施例的目标检测方法的一个应用场景的示意图。

在图1的应用场景中，首先，计算设备101可以将获取到的影像102切分成各个影像子图，得到影像子图集合103。然后，计算设备101可以将影像子图集合103中的每个影像子图进行二值划分处理以生成二值影像，得到二值影像集合104。之后，计算设备101可以从二值影像集合104中选择含有显著性区域的二值影像作为目标二值影像，得到目标二值影像集合105。然后，计算设备101可以根据目标二值影像集合105中的每个目标二值影像，从影像子图集合103中选择对应于目标二值影像的影像子图作为目标子图，得到目标子图集合106。最后，计算设备101可以对目标子图集合106中的每个目标子图进行细粒度目标检测以生成目标影像，得到目标影像集合107。其中，目标影像集合107中的目标影像包括目标定位信息和目标分类信息。

需要说明的是，上述计算设备101可以是硬件，也可以是软件。当计算设备为硬件时，可以实现成多个服务器或终端设备组成的分布式集群，也可以实现成单个服务器或单个终端设备。当计算设备体现为软件时，可以安装在上述所列举的硬件设备中。其可以实现成例如用来提供分布式服务的多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。

应该理解，图1中的计算设备的数目仅仅是示意性的。根据实现需要，可以具有任意数目的计算设备。

继续参考图2，示出了根据本公开的目标检测方法的一些实施例的流程200。该目标检测方法，包括以下步骤：

步骤201，将获取到的影像切分成各个影像子图，得到影像子图集合。

在一些实施例中，目标检测方法的执行主体(如图1所示的计算设备101)可以将获取到的影像切分成各个影像子图，得到影像子图集合。上述影像可以为广域宽幅遥感影像。上述各个影像子图的尺寸相同。实践中，可以对上述影像进行滑动窗口切分处理。上述滑动窗口可以为正方形。上述正方形的边长为预设边长。上述预设边长大于最大的目标的长度。上述目标为用户预先定义的需要获取相关信息的影像的部分。例如，上述目标可以为海洋遥感影像上的船只。通常情况下，上述滑动窗口的大小可以为1024像素×1024像素。上述滑动窗口的大小也可以根据现有数据集进行选择。现有数据集可以为基于高分二号的多类目标细粒度检测识别数据集。利用上述滑动窗口遍历上述影像，可以形成各个子图，得到影像子图集合，完成对上述影像的切分处理。由此，无需对整幅影像进行后续操作，仅需对上述影像子图进行后续操作，缩短了处理时长。

在一些实施例的一些可选的实现方式中，上述执行主体可以基于目标滑动窗口尺寸，对上述影像进行切分，得到切分后的各个子图作为影像子图。上述目标滑动窗口尺寸为最大目标的长度尺寸。例如，上述目标滑动窗口尺寸可以为300像素。若此时的滑动窗口的大小为1024像素×1024像素，则对上述影像执行两次切分处理得到的两张影像子图存在重叠区域。设置上述目标滑动窗口尺寸，对进行两次滑动窗口切分处理中滑动窗口移动的步长加以限制，使得两张相邻影像子图存在重叠的区域，以及上述两次滑动窗口切分处理得到的两张影像子图上都包含完整的上述目标。由此，可以避免影像子图上出现不完整的目标。

步骤202，将影像子图集合中的每个影像子图进行二值划分处理以生成二值影像，得到二值影像集合。

在一些实施例中，上述执行主体可以将影像子图集合中的每个影像子图进行二值划分处理以生成二值影像，得到二值影像集合。实践中，可以将影像子图集合中的每个影像子图进行掩膜二值划分处理以生成二值影像。上述掩膜为二维矩阵数组。实践中，可以利用上述现有数据集预先制作上述掩模。上述执行主体可以对上述影像子图和上述掩模进行预设运算以完成二值划分处理。上述预设运算可以为乘积运算。上述二值影像为每一个像素只有两种可能的像素值的影像。例如，上述二值影像可以是黑白影像。上述黑白影像上的每一个像素的像素值只能为白色像素的像素值对应的0或黑色像素的像素值对应的1。由此，对于只包含单一目标，且上述单一目标所在的区域与其他区域区分明显的影像子图，可以得到区分程度明显的二值影像，以进行后续操作。

在一些实施例的一些可选的实现方式中，可以将上述影像子图输入至语义分割模型以生成响应特征图。上述语义分割模型可以通过对上述影像子图的每个像素进行密集的预测，从而使每个像素都被标记为其封闭像素区域的类别，并输出被标记的影像作为响应特征图。上述封闭像素区域可以为上述影像子图中的景物。上述景物可以包括但不限于：海洋，船只。上述每个影像子图都包括多个类别。上述响应特征图可以将对应的影像子图的不同景物的特征以不同颜色展现。上述响应特征图的每个像素的像素值可以在0-1之间。实践中，可以将上述影像子图输入至轻量级的语义分割模型。上述轻量级的语义分割模型为运算量小，模型结构简单的语义分割模型。例如，上述轻量级的语义分割模型可以为mobile-unet(移动-U形网络)模型。由此，可以得到响应特征图，以进行后续操作。

在一些实施例的一些可选的实现方式中，可以对上述响应特征图进行图像二值化处理，得到图像二值化处理后的响应特征图作为二值影像。上述图像二值化处理可以为将上述响应特征图的像素值大于等于0.5的像素的像素值确定为1，以及将上述响应特征图的像素值小于0.5的像素的像素值确定为0的处理。由此，针对一张影像子图包含的类别为两类的影像子图，经过图像二值化处理后得到的二值影像类别明确，目标显著。

可选的，在将影像子图集合中的每个影像子图进行二值划分处理以生成二值影像之前，上述执行主体可以先对上述影像子图集合中的每个影像子图进行预处理，将预处理后的影像子图作为执行下一步操作的影像子图。上述预处理可以对影像子图集合中的每个影像子图的每个像素的像素值进行先减均值、后除方差的处理。上述均值和方差可以根据在先获取的数据集的所有像素的均值和方差来确定。上述在现获取的数据集可以为ImageNet(图像网络)数据集。由此，可以将上述影像子图归一化，以加快后续处理的速度。

步骤203，从二值影像集合中选择含有显著性区域的二值影像作为目标二值影像，得到目标二值影像集合。

在一些实施例中，上述执行主体可以从二值影像集合中选择含有显著性区域的二值影像作为目标二值影像，得到目标二值影像集合。上述显著性区域为二值影像中预先设定的的感兴趣区域。例如，对于一张二值影像上像素值为0和1的每个像素，可以设定其中像素值为0的像素位于二值影像的区域为显著性区域。实践中，可以将一张二值影像上每个像素的像素值依次与预设像素值进行比较，并将满足预设条件的像素的像素值位于上述二值影像的区域确定为显著性区域，将含有显著性区域的二值影像作为目标二值影像。上述预设像素值包括但不限于以下一项：0、1。上述预设条件与上述预设像素值相关联。例如，上述预设像素值为0时，上述预设条件为“像素的像素值等于预设像素值”。上述预设像素值为1时，上述预设条件为“像素的像素值大于或小于预设像素值”。由此，完成了对上述二值影像的筛选，筛选得到的每个目标二值影像包括显著性区域，使得后续减少了不必要操作，节约了内存资源。

在一些实施例的一些可选的实现方式中，对于上述二值影像集合中的每个二值影像，可以将二值影像中像素值等于预设像素值的像素的个数确定为语义像素数。例如，上述预设像素值可以为0。上述二值影像中像素值等于预设像素值0的像素的个数可以为300。则上述二值影像的语义像素数为300。由此，求得的参数可以用于二值影像的筛选。

在一些实施例的一些可选的实现方式中，可以将二值影像集合中语义像素数大于等于预设语义像素数的二值影像确定为目标二值影像，得到目标二值影像集合。上述预设语义像素数为预先设定的语义像素数。上述预设语义像素数由目标的大小决定。例如，上述二值影像集合中可以存在语义像素数为100、200、300和400的二值影像。上述预设语义像素数可以为300。则上述执行主体可以将语义像素数为300、400的二值影像确定为目标二值影像。由此，避免了目标二值影像包括的显著性区域存在误差，使得后续减少了不必要操作，节约了内存资源。

步骤204，根据目标二值影像集合中的每个目标二值影像，从影像子图集合中选择对应于目标二值影像的影像子图作为目标子图，得到目标子图集合。

在一些实施例中，上述执行主体可以根据目标二值影像集合中的每个目标二值影像，从影像子图集合中选择对应于目标二值影像的影像子图作为目标子图，得到目标子图集合。实践中，响应于上述影像子图集合中存在标识号与上述目标二值影像的标识号相同的影像子图，将标识号与上述目标二值影像的标识号相同的影像子图确定为目标子图。上述标识号为可以唯一确定对应的目标二值影像或对应的影像子图的标识码。其中，上述目标二值影像的标识号可以在目标二值影像集合中唯一确定上述目标二值影像。上述影像子图的标识号可以在影像子图集合中唯一确定上述影像子图。由此，可以对影像子图通过标识号进行筛选，对含有显著性区域的影像子图进行后续操作，节约内存资源。

在一些实施例的一些可选的实现方式中，响应于上述影像子图集合中存在命名前缀与上述目标二值影像的命名前缀相同的影像子图，将命名前缀与上述目标二值影像的命名前缀相同的影像子图确定为目标子图。上述命名前缀可以为位于图像的命名的包含“_”和数字且以数字结尾的部分。例如，目标二值影像的命名可以为1_123_bin_roi。影像子图集合中存在命名为1_123的影像子图。上述目标二值影像与上述影像子图的命名前缀相同，均为1_123，上述执行主体可以将上述命名为1_123的影像子图确定为目标子图。由此，避免对不含有显著性区域的影像子图进行后续操作，减少内存资源的浪费。

步骤205，对目标子图集合中的每个目标子图进行细粒度目标检测以生成目标影像，得到目标影像集合。

在一些实施例中，上述执行主体可以对目标子图集合中的每个目标子图进行细粒度目标检测以生成目标影像，得到目标影像集合。其中，目标影像集合中的目标影像包括目标定位信息和目标分类信息。上述目标定位信息为目标在目标影像上的区域的坐标信息。上述目标分类信息为上述目标的分类结果。例如，上述目标分类信息可以包括但不限于：轮船、货船。实践中，上述执行主体可以采用目标检测算法对目标子图集合中的每个目标子图进行细粒度目标检测以生成目标影像。上述目标检测算法为对上述目标子图中的目标进行检测的检测算法。上述目标检测算法可以为YOLO(You Only Look Once:Unified,Real-Time Object Detection，你只看一次：统一、实时的物体检测)检测算法、SSD(Single ShotMultiBox Detector，单激发多盒探测器)检测算法。由此，可以实现细粒度目标检测，从而得到目标定位信息和目标分类信息以供后续使用。

在一些实施例的一些可选方式中，上述执行主体可以将目标子图集合中的每个目标子图输入至细粒度目标检测模型以生成目标影像，得到目标影像集合。上述细粒度目标检测模型可以对目标子图中的目标进行细粒度检测，得到目标的位置信息作为目标定位信息，得到目标细分的类别的信息作为目标分类信息。上述细分的类别为类别的下一级分类。例如，类别可以为船只，细分的类别可以为：客船、摩托艇、渔船、拖船、工程船、液货船、干货船、军舰。上述细粒度目标检测模型可以包括但不限于：glidingvertex(滑动顶点)模型，RSDet(Remote Sensing Detection，遥感检测)模型。由此，可以实现细粒度目标检测，从而得到更加精确的目标定位信息和目标分类信息。

进一步参考图3，其示出了目标检测方法的另一些实施例的流程300。该目标检测方法的流程300，包括以下步骤：

步骤301，将获取到的影像切分成各个影像子图，得到影像子图集合。步骤302，将影像子图集合中的每个影像子图进行二值划分处理以生成二值影像，得到二值影像集合。

步骤303，从二值影像集合中选择含有显著性区域的二值影像作为目标二值影像，得到目标二值影像集合。

步骤304，根据目标二值影像集合中的每个目标二值影像，从影像子图集合中选择对应于目标二值影像的影像子图作为目标子图，得到目标子图集合。

步骤305，对目标子图集合中的每个目标子图进行细粒度目标检测以生成目标影像，得到目标影像集合。

在一些实施例中，步骤301-305的具体实现及其带来的技术效果可以参考图2对应的那些实施例中的步骤201-205，在此不再赘述。

步骤306，响应于获取到影像集合，对影像集合中的各个影像进行融合处理，得到融合影像。

在一些实施例中，目标检测方法的执行主体(如图1所示的计算设备101)可以响应于获取到影像集合，对影像集合中的各个影像进行融合处理，得到融合影像。实践中，可以将上述影像集合中的全部影像融合成一张融合影像。其中，上述影像集合中的全部影像的坐标系相同。通常对上述影像进行变换处理以得到融合影像。上述变换处理为对遥感影像的信息进行合成。上述变换处理的方法可以包括但不限于：K-L变换，乘积变换，小波变换。由此，可以得到当前地域对应的一张融合影像，避免了一处地域对应多张影像带来的使用影像上的不便。

步骤307，对目标影像集合中的各个目标影像的坐标与坐标系进行转换处理，得到转换后的各个目标影像作为转换后目标影像集合。

在一些实施例中，上述执行主体可以对目标影像集合中的各个目标影像的坐标与坐标系进行转换处理，得到转换后的各个目标影像作为转换后目标影像集合。其中，转换后目标影像集合中的各个转换后目标影像的坐标系与融合影像的坐标系对应。实践中，上述执行主体可以将目标影像集合中的各个目标影像输入参数转换模型以得到转换后的各个目标影像。上述参数转换模型可以将目标影像的第一坐标系转换为第二坐标系。上述第一坐标系为目标影像的坐标系。上述第二坐标系为转换后的目标影像的坐标系。上述参数转换模型可以将在目标影像的第一坐标系下的坐标转换为在目标影像的第二坐标系下的坐标。上述参数转换模型可以包括但不限于：三参数转换模型，七参数转换模型。其中，转换后目标影像集合中的各个转换后目标影像的坐标系与融合影像的坐标系相同。由此，同一目标在目标影像上的目标定位信息与在融合影像上的目标定位信息相同。

步骤308，根据转换后目标影像集合中的各个转换后目标影像包括的目标定位信息和目标分类信息，对融合影像进行标注处理，得到标注后的融合影像作为标注影像。

在一些实施例中，上述执行主体可以根据转换后目标影像集合中的各个转换后目标影像包括的目标定位信息和目标分类信息，对融合影像进行标注处理，得到标注后的融合影像作为标注影像。实践中，上述转换后目标影像集合中的各个转换后目标影像与融合影像的坐标系相同，同一目标在目标影像上的目标定位信息与在融合影像上的目标定位信息相同，可以将上述目标在目标影像上的目标定位信息和目标分类信息同步至上述融合影像，使得上述融合影像包含上述目标的目标定位信息和目标分类信息。并求得上述目标的最小外接矩形，将最小外接矩形的矩形框标注至融合影像，将上述目标的目标分类信息以文字的形式标注在上述矩形框的一侧。上述执行主体可以将上述目标的目标定位信息作为自变量，使用函数minboundrect.m(最小边界矩形)以求得上述目标的最小外接矩形的坐标组。上述矩形框的位置的坐标组为上述最小外接矩形在上述融合影像上的坐标组。由此，可以得到标注影像，其中，上述标注影像包括目标定位信息和目标分类信息。

步骤309，对标注影像进行重叠滤除处理，得到目标无重叠影像。

在一些实施例中，上述执行主体可以对标注影像进行重叠滤除处理，得到目标无重叠影像。实践中，上述执行主体可以采用NMS(non maximum suppression，非极大值抑制)算法滤除上述标注影像上同一目标的重复矩形框，以及滤除上述重复矩形框对应的目标定位信息和目标分类信息，以实现对于目标的重复标注的滤除，得到的目标无重叠影像上的一个目标包括一个目标定位信息和一个目标分类信息。

步骤309及其相关内容作为本公开的实施例的一个发明点，解决了背景技术提及的技术问题二“未进行重叠滤除处理，得到的影像上同一目标被标注多次，无法投入实际生产使用”。导致无法投入实际生产使用的因素如下：缺少重叠滤除处理以滤除重复矩形框。如果解决了上述因素，就能达到将上述目标的目标定位信息和目标分类信息投入实际生产使用的效果。为了达到这一效果，本公开执行了上述重叠滤除处理，使得目标无重叠影像上的一个目标包括一个目标定位信息和一个目标分类信息。因此，上述目标无重叠影像上的上述目标包括的目标定位信息和目标分类信息可以投入实际生产使用。

从图3中可以看出，与图2对应的一些实施例的描述相比，图3对应的一些实施例中的页面展示方法的流程300体现了对标注影像进行重叠滤除处理的步骤。由此，这些实施例描述的方案可以使得目标在目标影像上只被标注一次，从而得到目标无重叠影像。

进一步参考图4，作为对上述各图所示方法的实现，本公开提供了一种目标检测装置的一些实施例，这些装置实施例与图2所示的那些方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图2所示，一些实施例的目标检测装置400包括：切分单元401、划分单元402、第一选择单元403、第二选择单元404、检测单元405。其中，切分单元401被配置成将获取到的影像切分成各个影像子图，得到影像子图集合；划分单元402被配置成将影像子图集合中的每个影像子图进行二值划分处理以生成二值影像，得到二值影像集合；第一选择单元403被配置成从二值影像集合中选择含有显著性区域的二值影像作为目标二值影像，得到目标二值影像集合；第二选择单元404被配置成根据目标二值影像集合中的每个目标二值影像，从影像子图集合中选择对应于目标二值影像的影像子图作为目标子图，得到目标子图集合；检测单元405被配置成对目标子图集合中的每个目标子图进行细粒度目标检测以生成目标影像，得到目标影像集合，其中，目标影像集合中的目标影像包括目标定位信息和目标分类信息。

可以理解的是，该装置400中记载的诸单元与参考图2描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作、特征以及产生的有益效果同样适用于装置400及其中包含的单元，在此不再赘述。

下面参考图5，其示出了适于用来实现本公开的一些实施例的电子设备(如图1所示的计算设备101)500的结构示意图。图5示出的电子设备仅仅是一个示例，不应对本公开的实施例的功能和使用范围带来任何限制。

如图5所示，电子设备500可以包括处理装置(例如中央处理器、图形处理器等)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储装置508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有电子设备500操作所需的各种程序和数据。处理装置501、ROM 502以及RAM503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

通常，以下装置可以连接至I/O接口505：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置506；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置507；包括例如磁带、硬盘等的存储装置508；以及通信装置509。通信装置509可以允许电子设备500与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的电子设备500，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图5中示出的每个方框可以代表一个装置，也可以根据需要代表多个装置。

特别地，根据本公开的一些实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的一些实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的一些实施例中，该计算机程序可以通过通信装置509从网络上被下载和安装，或者从存储装置508被安装，或者从ROM 502被安装。在该计算机程序被处理装置501执行时，执行本公开的一些实施例的方法中限定的上述功能。

需要说明的是，本公开的一些实施例中记载的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的一些实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的一些实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

在一些实施方式中，客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol，超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)，广域网(“WAN”)，网际网(例如，互联网)以及端对端网络(例如，ad hoc端对端网络)，以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：将获取到的影像切分成各个影像子图，得到影像子图集合。将影像子图集合中的每个影像子图进行二值划分处理以生成二值影像，得到二值影像集合。从二值影像集合中选择含有显著性区域的二值影像作为目标二值影像，得到目标二值影像集合。根据目标二值影像集合中的每个目标二值影像，从影像子图集合中选择对应于目标二值影像的影像子图作为目标子图，得到目标子图集合。对目标子图集合中的每个目标子图进行细粒度目标检测以生成目标影像，得到目标影像集合，其中，目标影像集合中的目标影像包括目标定位信息和目标分类信息。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的一些实施例的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开的一些实施例中的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括切分单元、划分单元、第一选择单元、第二选择单元、检测单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，切分单元还可以被描述为“将获取到的影像切分成各个影像子图，得到影像子图集合的单元”。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开的实施例中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种目标检测方法，包括：

将获取到的影像切分成各个影像子图，得到影像子图集合；

将所述影像子图集合中的每个影像子图进行二值划分处理以生成二值影像，得到二值影像集合；

从所述二值影像集合中选择含有显著性区域的二值影像作为目标二值影像，得到目标二值影像集合；

根据所述目标二值影像集合中的每个目标二值影像，从所述影像子图集合中选择对应于所述目标二值影像的影像子图作为目标子图，得到目标子图集合；

对所述目标子图集合中的每个目标子图进行细粒度目标检测以生成目标影像，得到目标影像集合，其中，所述目标影像集合中的目标影像包括目标定位信息和目标分类信息；

响应于获取到目标影像集合，对所述目标影像集合中的各个影像进行融合处理，得到融合影像；

对所述目标影像集合中的各个目标影像的坐标与坐标系进行转换处理，得到转换后的各个目标影像作为转换后目标影像集合，其中，所述转换后目标影像集合中的各个转换后目标影像的坐标系与所述融合影像的坐标系对应；

根据所述转换后目标影像集合中的各个转换后目标影像包括的目标定位信息和目标分类信息，对所述融合影像进行标注处理，得到标注后的融合影像作为标注影像，其中，转换后目标影像集合中的各个转换后目标影像与融合影像的坐标系相同，同一目标在目标影像上的目标定位信息与在融合影像上的目标定位信息相同，将所述目标在目标影像上的目标定位信息和目标分类信息同步至所述融合影像，使得所述融合影像包含所述目标的目标定位信息和目标分类信息，求得所述目标的最小外接矩形，将最小外接矩形的矩形框标注至融合影像，将所述目标的目标分类信息以文字的形式标注在所述矩形框的一侧，将所述目标的目标定位信息作为自变量，使用函数最小边界矩形以求得所述目标的最小外接矩形的坐标组，所述矩形框的位置的坐标组为所述最小外接矩形在所述融合影像上的坐标组，得到标注影像，其中，所述标注影像包括目标定位信息和目标分类信息；

对标注影像进行重叠滤除处理，得到目标无重叠影像。

2.根据权利要求1所述的方法，其中，所述将获取到的影像切分成各个影像子图，包括：

基于目标滑动窗口尺寸，对所述影像进行切分，得到切分后的各个子图作为影像子图。

3.根据权利要求1所述的方法，其中，所述将所述影像子图集合中的每个影像子图进行二值划分处理以生成二值影像，包括：

将所述影像子图输入至语义分割模型以生成响应特征图；

对所述响应特征图进行图像二值化处理，得到图像二值化处理后的响应特征图作为二值影像。

4.根据权利要求1所述的方法，其中，所述从所述二值影像集合中选择含有显著性区域的二值影像作为目标二值影像，包括：

对于所述二值影像集合中的每个二值影像，将所述二值影像中像素值等于预设像素值的像素的个数确定为语义像素数；

将所述二值影像集合中语义像素数大于等于预设语义像素数的二值影像确定为目标二值影像，得到目标二值影像集合。

5.根据权利要求1所述的方法，其中，所述从所述影像子图集合中选择对应于所述目标二值影像的影像子图作为目标子图，包括：

响应于所述影像子图集合中存在命名前缀与所述目标二值影像的命名前缀相同的影像子图，将命名前缀与所述目标二值影像的命名前缀相同的影像子图确定为目标子图。

6.根据权利要求1所述的方法，其中，所述对所述目标子图集合中的每个目标子图进行细粒度目标检测以生成目标影像，包括：

将所述目标子图集合中的每个目标子图输入至细粒度目标检测模型以生成目标影像，得到目标影像集合。

7.一种目标检测装置，包括：

切分单元，被配置成将获取到的影像切分成各个影像子图，得到影像子图集合；

划分单元，被配置成将所述影像子图集合中的每个影像子图进行二值划分处理以生成二值影像，得到二值影像集合；

第一选择单元，被配置成从所述二值影像集合中选择含有显著性区域的二值影像作为目标二值影像，得到目标二值影像集合；

第二选择单元，被配置成根据所述目标二值影像集合中的每个目标二值影像，从所述影像子图集合中选择对应于所述目标二值影像的影像子图作为目标子图，得到目标子图集合；

检测单元，被配置成对所述目标子图集合中的每个目标子图进行细粒度目标检测以生成目标影像，得到目标影像集合，其中，所述目标影像集合中的目标影像包括目标定位信息和目标分类信息；

融合处理单元，被配置成响应于获取到目标影像集合，对所述目标影像集合中的各个影像进行融合处理，得到融合影像；

转换处理单元，被配置成对所述目标影像集合中的各个目标影像的坐标与坐标系进行转换处理，得到转换后的各个目标影像作为转换后目标影像集合，其中，所述转换后目标影像集合中的各个转换后目标影像的坐标系与所述融合影像的坐标系对应；

标注处理单元，被配置成根据所述转换后目标影像集合中的各个转换后目标影像包括的目标定位信息和目标分类信息，对所述融合影像进行标注处理，得到标注后的融合影像作为标注影像，其中，转换后目标影像集合中的各个转换后目标影像与融合影像的坐标系相同，同一目标在目标影像上的目标定位信息与在融合影像上的目标定位信息相同，将所述目标在目标影像上的目标定位信息和目标分类信息同步至所述融合影像，使得所述融合影像包含所述目标的目标定位信息和目标分类信息，求得所述目标的最小外接矩形，将最小外接矩形的矩形框标注至融合影像，将所述目标的目标分类信息以文字的形式标注在所述矩形框的一侧，将所述目标的目标定位信息作为自变量，使用函数最小边界矩形以求得所述目标的最小外接矩形的坐标组，所述矩形框的位置的坐标组为所述最小外接矩形在所述融合影像上的坐标组，得到标注影像，其中，所述标注影像包括目标定位信息和目标分类信息；

重叠滤除处理单元，被配置成对标注影像进行重叠滤除处理，得到目标无重叠影像。

8.一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1至6中任一所述的方法。

9.一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1至6中任一所述的方法。