CN112101134B

CN112101134B - 物体的检测方法及装置、电子设备和存储介质

Info

Publication number: CN112101134B
Application number: CN202010858259.5A
Authority: CN
Inventors: 孙明珊; 暴天鹏; 吴立威
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2020-08-24
Filing date: 2020-08-24
Publication date: 2024-01-02
Anticipated expiration: 2040-08-24
Also published as: CN112101134A

Abstract

本申请实施例公开了一种物体的检测方法和相关产品，该方法包括：基基于目标图像，得到第一子图像集；所述第一子图像集中的多个子图像均包含于所述目标图像且所述多个子图像中任一子图像的尺寸小于所述目标图像的尺寸；对所述第一子图像集中的各子图像进行目标检测，得到多个子图像检测结果；基于所述多个子图像检测结果，得到目标检测结果；所述目标检测结果包含所述目标物体在所述目标图像中的边界框的坐标和所述目标物体的类别信息。本申请实施例中，先对多个尺寸较小的子图像进行目标检测以得到多个子图像检测结果，再基于该多个子图像检测结果，得到目标检测结果；能够准确地定位出目标图像中尺寸较小的物体。

Description

物体的检测方法及装置、电子设备和存储介质

技术领域

本申请涉及计算机视觉领域，尤其涉及一种物体的检测方法及装置、电子设备和存储介质。

背景技术

计算机视觉是一门关于如何运用照相机和计算机来获取我们所需的，被拍摄对象的数据与信息的学问。形象地说，就是给计算机安装上眼睛(照相机)和大脑(算法)，让计算机能够感知环境。

作为计算机视觉中最基本和最具有挑战性的问题之一，目标检测近年来受到了极大的关注。目标检测是一项基本的计算机视觉任务，它提供了用于图像和视频理解语义分割的基本信息，也能够用于检测图像中特定类别视觉对象的实例。目标检测，也叫目标提取，是一种基于目标几何和统计特征的图像分割，它将目标的分割和识别合二为一，其准确性和实时性是整个系统的一项重要能力。

随着计算机技术的发展和计算机视觉原理的广泛应用，如何准确地利用计算机图像处理技术对图像中的目标(例如极小物体)进行定位是急需解决的问题。

发明内容

本申请实施例公开了一种物体的检测方法和相关产品。

第一方面，本申请实施例提供了一种物体的检测方法，该方法包括：基于目标图像，得到第一子图像集；所述第一子图像集中的多个子图像均包含于所述目标图像且所述多个子图像中任一子图像的尺寸小于所述目标图像的尺寸；对所述第一子图像集中的各子图像进行目标检测，得到多个子图像检测结果；所述多个子图像检测结果与所述多个子图像一一对应，所述多个子图像检测结果包含针对所述多个子图像中任一子图像进行目标检测得到的第一子图像检测结果，所述任一子图像中包括目标物体，所述第一子图像检测结果包括用于确定所述目标物体在所述目标图像中的边界框的信息和所述目标物体的类别信息；基于所述多个子图像检测结果，得到目标检测结果；所述目标检测结果包含所述目标物体在所述目标图像中的边界框的坐标和所述目标物体的类别信息。

本申请实施例提供的物体的检测方法适用于定位图像中较小物体的场景，尤其适用于定位图像中极小物体的场景，例如通过对图像进行目标检测得到图像中各极小物体的边界框和类别信息的场景。图像中的极小物体可以是在图像对应的像素点的个数不超过参考阈值的物体，参考阈值可以是20、50、100、200等；也可以是在图像中占用的区域相比于整个图像的比例小于比例阈值的物体，该比例阈值可以是0.001、0.01等；还可以是物体检测装置对目标图像进行目标检测可识别出的物体，物体检测装置为本申请实施例的执行主体。举例来说，目标图像为高铁触网巡检车车顶上的高清成像设备采集得到接触网图片，采用本申请实施例提供的方法可定位接触网图片中的极小零部件，例如螺母、螺栓、开口销等。又举例来说，本申请实施例提供的方法可应用于生产流水线上各种零部件的故障定位。本申请实施例提供的定位方法的主要原理是：将目标图像切分为多个子图像；分别对每个子图像进行目标检测，得到多个子图像检测结果；根据多个子图像检测结果，得到目标检测结果。应理解，由于目标图像中极小物体(例如目标物体)占用的区域很小，即占用的像素点个数很少，对该目标图像进行目标检测不能准确地定位中极小物体的边界框。本申请实施例中，将目标图像切分为多个子图像，对每个子图像进行目标检测可以更准确地定位出极小物体的边界框以及更准确地对极小物体进行分类。

本申请实施例中，先对多个尺寸较小的子图像进行目标检测以得到多个子图像检测结果，再基于该多个子图像检测结果，得到目标检测结果；能够准确地定位出目标图像中尺寸较小的物体。

在一个可能的实现方式中，所述基于目标图像，得到第一子图像集包括：将所述目标图像切割为多个目标尺寸的子图像，得到所述第一子图像集；所述第一子图像集中任意两个在所述目标图像中相邻的子图像存在交叠。

示例性的，目标尺寸为1600x1600。应理解，目标尺寸还可以是其他尺寸，本申请不作限定。在该实现方式中，可以快速地将目标图像切分为多个目标尺寸的子图像。

第一子图像集中的每个子图像可理解为一个滑窗子图，任意两个相邻的滑窗子图之间有多个(例如200)像素点的交叠。在该实现方式中，第一子图像集中任意两个在目标图像中相邻的子图像交叠，进而确保目标图像中的极小物体(例如零部件)被切割开仍能完整检出。

在一个可能的实现方式中，所述将所述目标图像切割为多个目标尺寸的子图像，得到所述第一子图像集包括：将所述目标图像切割为多个所述目标尺寸的子图像，得到第二子图像集；从所述第二子图像集中剔除属于纯背景的子图像，得到所述第一子图像集。

可以理解，第二子图像集中属于纯背景的子图像中必然不包括待检测的极小物体，因此没必要对属于纯背景的子图像进行目标检测。在该实现方式中，通过从第二子图像集中剔除属于纯背景的子图像，可以减少进行目标检测的次数，进而提高检测效率。

在一个可能的实现方式中，所述从所述第二子图像集中剔除属于纯背景的子图像，得到所述第一子图像集包括：计算所述第二子图像集中各子图像的方差；从所述第二子图像集中剔除方差小于方差阈值的子图像，得到所述第一子图像集。

在该实现方式中，可以准确、快速地从第二子图像集中剔除属于纯背景的子图像。

在一个可能的实现方式中，所述基于所述多个子图像检测结果，得到目标检测结果包括：基于所述多个子图像检测结果包含的至少一个物体在子图像中的边界框的坐标以及所述多个子图像在所述目标图像中的位置信息，确定所述至少一个物体在所述目标图像中对应的边界框的坐标；所述目标检测结果包含所述至少一个物体在所述目标图像中对应的边界框中的至少一个边界框的坐标。

任一个子图像检测结果包含的任意物体在子图像中的边界框的坐标是相对于子图像而已的，最终还需将对子图像进行目标检测得到的子图像中的边界框的坐标映射回目标图像中，其映射坐标是该子图像中所有边界框的坐标分别和子图像的左上角相对于目标图像的坐标相加而得。

在该实现方式中，可以快速准确地将得到至少一个物体在目标图像中对应的边界框的坐标。

在一个可能的实现方式中，所述用于确定所述目标物体在所述目标图像中的边界框的信息为所述任一子图像中包含所述目标物体的第一矩形框的四个顶点在以所述任一子图像中的第一坐标为原点的坐标系中的坐标，所述第一坐标为所述任一子图像中的任一坐标；所述基于所述多个子图像检测结果包含的至少一个物体在子图像中的边界框的坐标以及所述多个子图像在所述目标图像中的位置信息，确定所述至少一个物体在所述目标图像中对应的边界框的坐标包括：分别计算所述第一矩形框的四个顶点在以所述第一坐标为原点的坐标系中的坐标和所述第一坐标在以所述目标图像中的第二坐标为原点的坐标系中的坐标之和，得到所述目标图像中包含所述目标物体的第二矩形框的四个顶点在以所述第二坐标为原点的坐标系中的坐标；所述第二坐标为所述目标图像中的任一坐标，所述目标物体在所述目标图像中对应的边界框的坐标为所述第二矩形框的四个顶点在以所述第二坐标为原点的坐标系中的坐标。

在一个可能的实现方式中，所述至少一个物体在所述目标图像中对应的边界框包括第一边界框和第二边界框；在确定所述至少一个物体在所述目标图像中对应的边界框的坐标之后，所述方法还包括：在所述第一边界框和所述第二边界框的重合度超过重合度阈值的情况下，去除所述第二边界框；所述第二边界框的分类得分低于所述第一边界框的分类得分，所述第一边界框的分类得分为对所述第一边界框包含的物体做目标检测得到的分类得分，所述第二边界框的分类得分为对所述第二边界框包含的物体做目标检测得到的分类得分。

第一子图像集中任意两个在目标图像中相邻的子图像交叠，这些交叠区域被检测两次可能会得到两个不同的边界框。也就是说，目标图像中同一个物体可能被检测两次，导致得到两个不同的边界框。

在该实现方式中，在第一边界框和第二边界框的重合度超过重合度阈值时，去除分类得分较低的第二边界框，可以准确地去除多余的边界框。

在一个可能的实现方式中，所述基于目标图像，得到第一子图像集之前，所述方法还包括：获取原始图像；对所述原始图像进行预处理得到所述目标图像；所述目标图像中的像素点与所述原始图像中的像素点一一对应，所述目标图像中第一位置的像素点的亮度值大于所述原始图像中所述第一位置的像素点的亮度值。

所述原始图像可以是高铁触网巡检车车顶上的高清成像设备拍摄高铁接触网得到的图像，也可以是成像设备(例如相机)拍摄生产流水线上各种零部件得到的图像，还可以是其他包含极小物体的图像。获取原始图像可以是从其他设备获取所述原始图像，也可以是从自身存储器获取所述原始图像。对所述原始图像进行预处理得到所述目标图像可以是对所述原始图像进行伽马矫正处理得到所述目标图像。原始图像很可能是在有光线不足的场景下拍摄得到的，原始图像中暗区(即亮度值较低的区域)的极小物体通常难以准确地进行定位，因此需要对原始图像进行预处理以提高原始图像的亮度。

在该实现方式中，对原始图像进行预处理得到目标图像，能够更准确地定位图像中的物体。

第二方面，本申请实施例提供了一种物体检测装置，包括：处理单元，用于基于目标图像，得到第一子图像集；所述第一子图像集中的多个子图像均包含于所述目标图像且所述多个子图像中任一子图像的尺寸小于所述目标图像的尺寸；目标检测单元，用于对所述第一子图像集中的各子图像进行目标检测，得到多个子图像检测结果；所述多个子图像检测结果与所述多个子图像一一对应，所述多个子图像检测结果包含针对所述多个子图像中任一子图像进行目标检测得到的第一子图像检测结果，所述任一子图像中包括目标物体，所述第一子图像检测结果包括用于确定所述目标物体在所述目标图像中的边界框的信息和所述目标物体的类别信息；所述处理单元，还用于基于所述多个子图像检测结果，得到目标检测结果；所述目标检测结果包含所述目标物体在所述目标图像中的边界框的坐标和所述目标物体的类别信息。

在一个可能的实现方式中，所述处理单元，具体用于将所述目标图像切割为多个目标尺寸的子图像，得到所述第一子图像集；所述第一子图像集中任意两个在所述目标图像中相邻的子图像存在交叠。

在一个可能的实现方式中，所述处理单元，具体用于将所述目标图像切割为多个所述目标尺寸的子图像，得到第二子图像集；从所述第二子图像集中剔除属于纯背景的子图像，得到所述第一子图像集。

在一个可能的实现方式中，所述处理单元，具体用于计算所述第二子图像集中各子图像的方差；从所述第二子图像集中剔除方差小于方差阈值的子图像，得到所述第一子图像集。

在一个可能的实现方式中，所述处理单元，具体用于基于所述多个子图像检测结果包含的至少一个物体在子图像中的边界框的坐标以及所述多个子图像在所述目标图像中的位置信息，确定所述至少一个物体在所述目标图像中对应的边界框的坐标；所述目标检测结果包含所述至少一个物体在所述目标图像中对应的边界框中的至少一个边界框的坐标。

在一个可能的实现方式中，所述用于确定所述目标物体在所述目标图像中的边界框的信息为所述任一子图像中包含所述目标物体的第一矩形框的四个顶点在以所述任一子图像中的第一坐标为原点的坐标系中的坐标，所述第一坐标为所述任一子图像中的任一坐标；所述处理单元，具体用于分别计算所述第一矩形框的四个顶点在以所述第一坐标为原点的坐标系中的坐标和所述第一坐标在以所述目标图像中的第二坐标为原点的坐标系中的坐标之和，得到所述目标图像中包含所述目标物体的第二矩形框的四个顶点在以所述第二坐标为原点的坐标系中的坐标；所述第二坐标为所述目标图像中的任一坐标，所述目标物体在所述目标图像中对应的边界框的坐标为所述第二矩形框的的四个顶点在以所述第二坐标为原点的坐标系中的坐标。

在一个可能的实现方式中，所述至少一个物体在所述目标图像中对应的边界框包括第一边界框和第二边界框；所述处理单元，还用于在所述第一边界框和所述第二边界框的重合度超过重合度阈值的情况下，去除所述第二边界框；所述第二边界框的分类得分低于所述第一边界框的分类得分，所述第一边界框的分类得分为对所述第一边界框包含的物体做目标检测得到的分类得分，所述第二边界框的分类得分为对所述第二边界框包含的物体做目标检测得到的分类得分。

在一个可能的实现方式中，所述物体检测装置还包括：获取单元，用于获取原始图像；所述处理单元，还用于对所述原始图像进行预处理得到所述目标图像；所述目标图像中的像素点与所述原始图像中的像素点一一对应，所述目标图像中第一位置的像素点的亮度值大于所述原始图像中所述第一位置的像素点的亮度值。

关于第二方面或各种可能的实施方式所带来的技术效果，可参考对于第一方面或相应的实现方式的技术效果的介绍。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括：处理器和存储器，其中，所述存储器用于存储指令，所述处理器用于执行所述存储器存储的指令，使得所述处理器执行如上述第一方面以及任一种可能的实现方式的方法。

第四方面，本申请实施例提供了一种芯片，该芯片包括数据接口和处理器，其中，所述处理器用于执行第一方面或第一方面的任意可能实现方式中的方法。

第五方面，本申请实施例提供了一种计算机可读存储介质，该计算机存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令当被处理器执行时使该处理器执行上述第一方面以及任一种可能的实现方式的方法。

第六方面，本申请实施例提供了一种计算机程序产品，该计算机程序产品包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述第一方面以及任一种可能的实现方式的方法。

附图说明

为了更清楚地说明本申请实施例或背景技术中的技术方案，下面将对本申请实施例或背景技术中所需要使用的附图进行说明。

图1为本申请实施例提供的一种物体的检测方法流程图；

图2为本申请实施例提供的一种切割目标图像的示例的示意图；

图3为本申请实施例提供的一种从第二子图像集中剔除属于纯背景的子图像的示例的对比示意图；

图4为本申请实施例提供的一种多个子图像检测结果包含的边界框的示例的示意图；

图5为本申请实施例提供的一种展示目标检测结果包含的边界框和类别信息的示例的示意图；

图6为本申请实施例提供的一种边界框交叠的示意图；

图7为本申请实施例提供一种原始图像和目标图像的对比示意图；

图8为本申请实施例提供的另一种物体的检测方法流程图；

图9为本申请实施例提供的一种图像中的物体的定位方法的交互流程图；

图10为本申请实施例提供的一种物体检测装置的结构示意图；

图11是本申请实施例提供的另一种服务器的结构示意图；

图12为本申请实施例提供的一种终端设备的结构示意图。

具体实施方式

本申请的说明书、权利要求书及附图中的术语“第一”和“第二”等仅用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备等，没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元等，或可选地还包括对于这些过程、方法、产品或设备等固有的其它步骤或单元。

在本文中提及的“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员可以显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上，“至少两个(项)”是指两个或三个及三个以上。

如背景所述，如何准确地利用计算机图像处理技术对图像中的目标(例如极小物体)进行定位是急需解决的问题。为解决对图像中的极小物体进行定位的问题，本申请实施例提供了一种物体的检测方法。本申请实施例提供的物体的检测方法适用于定位图像中较小物体的场景，尤其适用于定位图像中极小物体的场景。下面分别对本申请实施例提供的物体的检测方法适用的场景进行简单的介绍。

场景：拍照设备(例如相机)或者摄像设备(例如摄像机、监控设备等)将采集的图像传输至终端设备或者服务器，终端设备或者服务器对图像中的极小物体进行目标检测，以得到极小物体的边界框和极小物体的类别。对图像中的物体进行目标检测以得到物体的边界框和物体的类别可以理解为定位图像中的物体。举例来说，高铁触网巡检车车顶上的高清成像设备将采集得到的接触网图片发送给终端设备或者服务器，终端设备或者服务器对接触网图片中的极小物体(例如螺母、螺栓、鸡心环、定位钩、开口销等)进行目标检测，以得到各种极小物体在图像中的边界框和各种极小物体的类别。又举例来说，拍照设备将拍摄生产线上的各种零部件得到的图像传输至终端设备或者服务器，终端设备或者服务器对图像中的极小物体(即各种零部件)进行目标检测，以得到各种极小物体在图像中的边界框和各种极小物体的类别。

本申请实施例提供的物体的检测方法适用于对图像中的极小物体进行定位的场景中，能够较准确地确定图像中极小物体的边界框和类别。下面结合附图来介绍本申请实施例提供的物体的检测方法。

图1为本申请实施例提供的一种物体的检测方法流程图，如图1所示，该方法可包括：

步骤101、物体检测装置基于目标图像，得到第一子图像集。

上述第一子图像集中的多个子图像均包含于上述目标图像且上述多个子图像中任一子图像的尺寸小于上述目标图像的尺寸。物体检测装置可以是手机、个人电脑、平板电脑、笔记本电脑、台式电脑等具备图像处理功能的终端设备，也可以是云服务器、网络服务器、应用服务器以及管理服务器等。

步骤101一种可选的实现如下：将上述目标图像切割为多个目标尺寸的子图像，得到上述第一子图像集。示例性的，目标尺寸为1600x1600。应理解，目标尺寸还可以是其他尺寸，本申请不作限定。在一些实施例中，物体检测装置可根据目标图像的长和宽，自适应的选择合适的切割数目(即切割得到的子图像的个数)，以确保每个子图像为目标尺寸(例如1600x1600)。在一些实施例中，第二子图像和第三子图像为上述第一子图像集中任意两个在上述目标图像中相邻的子图像，上述第二子图像包含的像素点和上述第三子图像包含的像素点存在交叠。也就是说，在目标图像中相邻的任意两个子图像之间有多个(例如200个)像素点的交叠，以便确保极小物体(例如零部件)被切割开仍能完整检出。图2为本申请实施例提供的一种切割目标图像的示例的示意图。如图2所示，左图为目标图像，右图为切割目标图像得到的6个子图像；其中，6个子图像均为目标尺寸，子图像2001的长度为201指示的长，子图像2001的宽度为202指示的宽，子图像2002的长度为203指示的长，子图像2002的宽度为202指示的宽，子图像2003的长度为205指示的长，子图像2003的宽度为202指示的宽，子图像2004的长度为201指示的长，子图像2004的宽度为204指示的宽，子图像2005的长度为203指示的长，子图像2005的宽度为204指示的宽，子图像2006的长度为205指示的长，子图像2006的宽度为204指示的宽。图2中，子图像2001和子图像2002相邻，子图像2001和子图像2002之间有多个交叠的像素点，子图像2001和子图像2004相邻，子图像2001和子图像2004之间有多个交叠的像素点。也就是说，在目标图像中相邻的任意两个子图像之间有多个(例如200个)像素点的交叠。

可选的，步骤101的实现方式如下：将上述目标图像切割为多个上述目标尺寸的子图像，得到第二子图像集；从上述第二子图像集中剔除属于纯背景的子图像，得到上述第一子图像集。属于纯背景的子图像是指未包含极小物体的子图像。可以理解，第二子图像集中属于纯背景的子图像中必然不包括待检测的极小物体，因此没必要对属于纯背景的子图像进行目标检测。因此，通过从第二子图像集中剔除属于纯背景的子图像，可以减少进行目标检测的次数，进而提高检测效率。图3为本申请实施例提供的一种从第二子图像集中剔除属于纯背景的子图像的示例的对比示意图。图3中，左图中的2001至2006分别表示第二子图集中的子图像，右图中的2001、2002、2003、2004、2006表示第一子图集中的子图像。从图3可以看出，2005表示的子图像为第二子图像集中属于纯背景的子图像。一种可选的从第二子图像集中剔除属于纯背景的子图像，得到第一子图像集的实现方式如下：计算上述第二子图像集中各子图像的方差；从上述第二子图像集中剔除方差小于方差阈值的子图像，得到上述第一子图像集。上述方差阈值可以是3、4、5、6等，本申请不作限定。应理解，物体检测装置可根据实际需要设置方差阈值。举例来说，零件拍摄图(例如接触网图片)中往往伴随着纯背景，利用纯背景中无任何实例因此像素变化较小的特点，物体检测装置可根据子图像的方差来过滤掉第二子图像集中属于纯背景的子图像，从而有效减小检测时间。一种可选的方差计算公式如下：

其中，x_i,j代表子图像中第i行第j列的像素值，为子图像中所有像素的均值，m和n中的一个表示子图像每行的像素点的个数，另一个表示子图像每列的像素点的个数，x_std表示子图像的方差。物体检测装置可根据子图像的方差准确、快速地从第二子图像集中剔除属于纯背景的子图像，进而减少待检测的子图像的个数。

步骤102、物体检测装置对第一子图像集中的各子图像进行目标检测，得到多个子图像检测结果。

上述多个子图像检测结果与上述多个子图像一一对应，上述多个子图像检测结果包含针对上述多个子图像中任一子图像进行目标检测得到的第一子图像检测结果，上述任一子图像中包括目标物体，上述第一子图像检测结果包括用于确定上述目标物体在上述目标图像中的边界框的信息和上述目标物体的类别信息。也就是说，物体检测装置对一个子图像进行目标检测，可得到一个针对该子图像的子图像检测结果。在一些实施例中，物体检测装置可将第一子图像集中的各子图像分别输入至目标检测器，得到每个子图像中的各极小物体在子图像中的矩形框的坐标和类别信息。目标检测器可以是训练好的深度学习模型，例如深度神经网络模型、卷积神经网络模型、循环神经网络模型等。也就是说，目标检测器可以是物体检测装置或者其他设备利用训练数据训练某个深度学习模型得到的。在一些实施例中，物体检测装置可先通过深度神经网络的强大识别能力利用训练数据进行建模(对应于模型训练)，以得到目标检测器(即训练好的深度神经网络模型)。举例来说，物体检测装置可利用接触网图片训练深度神经网络模型以得到能够检测出接触网图片中的零部件(即极小物体)的目标检测器。图4为本申请实施例提供的一种多个子图像检测结果包含的边界框的示例的示意图。图4中，每个子图像包含的矩形框为对该子图像进行目标检测得到的边界框，即一个矩形框表示一个物体(例如极小物体)在子图像中的边界框，子图像检测结果可以包括每个矩形框中的物体的类别信息。图4中，2个子图像中未包含矩形框，表明对这2个子图像进行目标检测未检测到极小物体。

步骤103、物体检测装置基于上述多个子图像检测结果，得到目标检测结果。

上述目标检测结果包含上述目标物体在上述目标图像中的边界框的坐标和上述目标物体的类别信息。

步骤103一种可选的实现如下：基于上述多个子图像检测结果包含的至少一个物体在子图像中的边界框的坐标以及上述多个子图像在上述目标图像中的位置信息，确定上述至少一个物体在上述目标图像中对应的边界框的坐标；上述目标检测结果包含上述至少一个物体在上述目标图像中对应的边界框中的至少一个边界框的坐标。

应理解，每个子图像检测结果可以包含一个或多个极小物体(例如目标物体)在子图像中的边界框以及该一个或多个极小物体的类别信息，也可以不包含任何极小物体在子图像中的边界框以及类别信息。如果一个子图像检测结果不包含任何极小物体在子图像中的边界框以及类别信息，那么物体检测装置可忽略该子图像检测结果。如果一个子图像检测结果包含一个或多个极小物体在子图像中的边界框以及该一个或多个极小物体的类别信息，那么物体检测装置可确定该一个或多个极小物体在目标图像中的边界框。也就是说，极小物体在子图像中的边界框可映射回目标图像中，即由极小物体在子图像中的边界框得到极小物体在目标图像中的边界框。以第一子图像检测结果为例，该第一子图像检测结果包含上述任一子图像中包含上述目标物体的第一矩形框(即目标物体在该任一子图像中的边界框)的四个顶点在以上述任一子图像中的第一坐标为原点的坐标系中的坐标(即用于确定上述目标物体在上述目标图像中的边界框的信息)和该目标物体的类别信息；确定该目标物体在目标图像中的边界框的坐标的实现方式如下：分别计算上述第一矩形框的四个顶点在以上述第一坐标为原点的坐标系中的坐标和上述第一坐标在以上述目标图像中的第二坐标为原点的坐标系中的坐标之和，得到上述目标图像中包含上述目标物体的第二矩形框的四个顶点在以上述第二坐标为原点的坐标系中的坐标；上述第二坐标为上述目标图像中的任一坐标，上述目标物体在上述目标图像中对应的边界框的坐标为上述第二矩形框的四个顶点在以上述第二坐标为原点的坐标系中的坐标。示例性的，上述第一坐标为上述任一子图像的左上角的坐标，上述第二坐标为上述目标图像的左上角的坐标。

应理解，物体检测装置可采用类似的方式根据任意子图像检测结果包含的任意极小物体在其对应的子图像中的边界框的坐标以及该子图像的左上角在上述目标图像中的坐标，确定该任意极小物体在目标图像中的边界框的坐标。任一个子图像检测结果包含的任意极小物体在子图像中的边界框的坐标是相对于子图像而言的，最终还需将对子图像进行目标检测得到的子图像中的边界框的坐标映射回目标图像中，其映射坐标是该子图像中所有边界框的坐标分别和该子图像左上角相对目标图像的坐标相加而得。图5为本申请实施例提供的一种展示目标检测结果包含的边界框和类别信息的示例的示意图。图5中的矩形框可以理解为对目标图像进行目标检测得到的极小物体的边界框，目标检测结果还包括每个矩形框中的物体的类别信息。图5中的矩形框可以是物体检测装置将图4中的矩形框映射至目标图像之后，去除重合度超过重合度阈值的两个边界框中分类得到较低的边界框得到的。

在一些实施例中，上述至少一个物体在上述目标图像中对应的边界框包括第一边界框和第二边界框；物体检测装置在确定上述至少一个物体在上述目标图像中对应的边界框的坐标之后，还可执行如下操作：在上述第一边界框和上述第二边界框的重合度超过重合度阈值的情况下，去除上述第二边界框；上述第二边界框的分类得分低于上述第一边界框的分类得分，上述第一边界框的分类得分为对上述第一边界框包含的物体做目标检测得到的分类得分，上述第二边界框的分类得分为对上述第二边界框包含的物体做目标检测得到的分类得分。两个边界框的重合度是指两个边界框(例如矩形框)的交叠面积除以两个边界框的并集面积。重合度阈值可以是0.2、0.25、0.3、0.35等，本申请不作限定。图6为本申请实施例提供的一种边界框交叠的示意图。图6中，黑色矩形区域为两个边界框的交叠部分，包含黑色矩形区域的两个矩形区域表示两个边界框，黑色矩形区域的面积表示两个边界框的交叠面积，横线底纹区域601的面积和竖线底纹区域602的面积之和为两个边界框的并集面积。第一子图像集中任意两个在目标图像中相邻的子图像交叠，这些交叠区域被检测两次可能会得到两个不同的边界框，因此需要去除多余的边界框。在实际应用中，物体检测装置在基于上述多个子图像检测结果，得到目标检测结果的过程中，在得到在目标图像中交叠的两个边界框之后，可计算两两发生交叠的边界框的重合度，在任意两个边界框的重合度超过重合度阈值的情况下，去除对应的分类得分较低的边界框。物体检测装置在对每个子图像进行目标检测之后，可记录每个子图像中的极小物体的分类得分(对应于类别信息)，极小物体的分类得分即为该极小物体的边界框对应的分类得分。物体检测装置对子图像中的极小物体进行目标检测可得到该极小物体属于各类别的得分，并将得分最高的类别作为该极小物体的类别(对应于类别信息)。类别信息用于指示极小物体的类别，或者类别信息包含极小物体的类别。

物体检测装置通过去除重合度超过重合度阈值的两个边界框中分类得分较低的边界框，可以准确地去除由于子图像交叠产生多余的边界框。

本申请实施例中，先对多个尺寸较小的子图像进行目标检测以得到多个子图像检测结果，再基于该多个子图像检测结果将极小物体在子图像中的边界框映射回目标图像，得到目标检测结果；能够准确地定位出目标图像中的极小物体。

由于前述实施例未描述如何获得目标图像的实现方式，下面介绍一些可能的获得目标图像的实现方式。

在一些实施例中，物体检测装置在执行步骤101之前，可执行如下操作：获取原始图像；对上述原始图像进行预处理得到上述目标图像；上述目标图像中的像素点与上述原始图像中的像素点一一对应，上述目标图像中第一位置的像素点的亮度值大于上述原始图像中上述第一位置的像素点的亮度值。图7为本申请实施例提供一种原始图像和目标图像的对比示意图。图7中，左图为原始图像，右图为目标图像。

上述原始图像可以是高铁触网巡检车车顶上的高清成像设备拍摄高铁接触网得到的图像，也可以是成像设备(例如相机)拍摄生产流水线上各种零部件得到的图像，还可以是其他包含极小物体的图像。获取原始图像可以是从其他设备获取上述原始图像，也可以是从自身存储器获取上述原始图像。对上述原始图像进行预处理得到上述目标图像可以是对上述原始图像进行伽马矫正处理得到上述目标图像。原始图像很可能是在有光线不足的场景下拍摄得到的，原始图像中暗区(即亮度值较低的区域)的极小物体通常难以准确地进行定位，因此需要对原始图像进行预处理以提高原始图像的亮度。一种可选的对原始图像进行伽马(gamma)矫正处理满足如下公式：

x'_i,j＝(x_i,j/255)^1/gamma (2)；

其中，x_i,j为gamma矫正处理之前原始图像中第i行第j列的像素值，x'_i,j为做完gamma矫正处理之后第i行j列的像素值，gamma为一个超出参数，可选的gamma超参为2.8。

下面介绍相比于图1的方法流程更加细化和完善的方法流程。图8为本申请实施例提供的另一种物体的检测方法流程图，如图8所示，该方法包括：

步骤801、物体检测装置获取原始图像。

物体检测装置获取原始图像可以是物体检测装置从其他设备获取上述原始图像，也可以是从自身存储器获取上述原始图像，还可以是接收其他设备(例如相机)传输来的原始图像。

步骤802、物体检测装置对原始图像进行伽马矫正处理以得到目标图像。

可选的，物体检测装置采用上述公式(2)对原始图像进行伽马矫正处理以得到目标图像。

步骤803、物体检测装置将目标图像切割为多个目标尺寸的子图像，得到第二子图像集。

在一些实施例中，第二子图像和第三子图像为上述第一子图像集中任意两个在上述目标图像中相邻的子图像，上述第二子图像包含的像素点和上述第三子图像包含的像素点存在交叠。物体检测装置可根据目标图像的长和宽，自适应的选择合适的切割数目(即切割得到的子图像的个数)，以确保每个子图像为目标尺寸(例如1600x1600)。

步骤804、物体检测装置从第二子图像集中剔除属于纯背景的子图像，得到第一子图像集。

步骤805、物体检测装置对第一子图像集中的各子图像进行目标检测，得到多个子图像检测结果。

上述多个子图像检测结果与上述多个子图像一一对应，上述多个子图像检测结果包含针对上述多个子图像中任一子图像进行目标检测得到的第一子图像检测结果，上述任一子图像中包括目标物体，上述第一子图像检测结果包括用于确定上述目标物体在上述目标图像中的边界框的信息和上述目标物体的类别信息。步骤805的实现方式可与步骤102的实现方式相同。

步骤806、物体检测装置基于上述多个子图像检测结果，得到目标检测结果。

上述目标检测结果包含上述目标物体在上述目标图像中的边界框的坐标和上述目标物体的类别信息。步骤806的实现方式可与步骤103的实现方式相同。

前面介绍了物体检测装置对目标图像中的极小物体进行定位(对应于目标检测)的方法流程。下面介绍本申请实施例提供的图像中的物体的定位方法在实际场景中的一种举例。图9为本申请实施例提供的一种图像中的物体的定位方法的交互流程图。如图9所示，该方法可包括：

步骤901、拍照设备采集图像，并将采集的图像传输至服务器。

举例来说，高铁触网巡检车车顶40米处的高清成像设备采集图像，其中20个相机朝向车头的斜上方，另外20处相机朝向车尾的斜上方。拍摄设备采集的图像为采集的接触网悬挂的支持装置、悬挂等物体的图像。高铁触网巡检车于夜间在高铁线路作业，车载传感装置，每检测到立柱即触发相机拍照，最终的图像来自不同的相机拍摄的不同角度。

步骤902、服务器对每帧图像进行目标检测，得到每帧图像的检测结果。

每帧图像的检测结果可包括该帧图像中包含的极小物体的边界框和类别信息。服务器可执行图1或者图8中的方法流程来对每帧图像进行目标检测。

步骤903、服务器输出检测结果。

步骤903一种可选的实现方式如下：输出包含极小物体的边界框和类别信息的图像，例如图5。

本申请实施例中，服务器可准确地对图像中的极小物体进行定位，漏检率低。

前面描述了本申请实施例提供的图像中的物体的定位方法，下面介绍可实现本申请实施例提供的图像中的物体的定位方法的物体检测装置的各部件的功能。图10为本申请实施例提供的一种物体检测装置的结构示意图。如图10所示，物体检测装置可包括：

处理单元1001，用于基于目标图像，得到第一子图像集；上述第一子图像集中的多个子图像均包含于上述目标图像且上述多个子图像中任一子图像的尺寸小于上述目标图像的尺寸；

目标检测单元1002，用于对上述第一子图像集中的各子图像进行目标检测，得到多个子图像检测结果；上述多个子图像检测结果与上述多个子图像一一对应，上述多个子图像检测结果包含针对上述多个子图像中任一子图像进行目标检测得到的第一子图像检测结果，上述任一子图像中包括目标物体，上述第一子图像检测结果包括用于确定上述目标物体在上述目标图像中的边界框的信息和上述目标物体的类别信息；

处理单元1001，还用于基于上述多个子图像检测结果，得到目标检测结果；上述目标检测结果包含上述目标物体在上述目标图像中的边界框的坐标和上述目标物体的类别信息。

在一个可能的实现方式中，处理单元1001，具体用于将上述目标图像切割为多个目标尺寸的子图像，得到上述第一子图像集；上述第一子图像集中任意两个在上述目标图像中相邻的子图像存在交叠。

在一个可能的实现方式中，处理单元1001，具体用于将上述目标图像切割为多个上述目标尺寸的子图像，得到第二子图像集；从上述第二子图像集中剔除属于纯背景的子图像，得到上述第一子图像集。

在一个可能的实现方式中，处理单元1001，具体用于计算上述第二子图像集中各子图像的方差；从上述第二子图像集中剔除方差小于方差阈值的子图像，得到上述第一子图像集。

在一个可能的实现方式中，处理单元1001，具体用于基于上述多个子图像检测结果包含的至少一个物体在子图像中的边界框的坐标以及上述多个子图像在上述目标图像中的位置信息，确定上述至少一个物体在上述目标图像中对应的边界框的坐标；上述目标检测结果包含上述至少一个物体在上述目标图像中对应的边界框中的至少一个边界框的坐标。

在一个可能的实现方式中，上述用于确定上述目标物体在上述目标图像中的边界框的信息为上述任一子图像中包含上述目标物体的第一矩形框的四个顶点在以上述任一子图像中的第一坐标为原点的坐标系中的坐标，上述第一坐标为上述任一子图像中的任一坐标；

处理单元1001，具体用于分别计算上述第一矩形框的四个顶点在以上述第一坐标为原点的坐标系中的坐标和上述第一坐标在以上述目标图像中的第二坐标为原点的坐标系中的坐标之和，得到上述目标图像中包含上述目标物体的第二矩形框的四个顶点在以上述第二坐标为原点的坐标系中的坐标；上述第二坐标为上述目标图像中的任一坐标，上述目标物体在上述目标图像中对应的边界框的坐标为上述第二矩形框的的四个顶点在以上述第二坐标为原点的坐标系中的坐标。

在一个可能的实现方式中，上述至少一个物体在上述目标图像中对应的边界框包括第一边界框和第二边界框；

处理单元1001，还用于在上述第一边界框和上述第二边界框的重合度超过重合度阈值的情况下，去除上述第二边界框；上述第二边界框的分类得分低于上述第一边界框的分类得分，上述第一边界框的分类得分为对上述第一边界框包含的物体做目标检测得到的分类得分，上述第二边界框的分类得分为对上述第二边界框包含的物体做目标检测得到的分类得分。

在一个可能的实现方式中，上述物体检测装置还包括：

获取单元1003，用于获取原始图像；

处理单元1001，还用于对上述原始图像进行预处理得到上述目标图像；上述目标图像中的像素点与上述原始图像中的像素点一一对应，上述目标图像中第一位置的像素点的亮度值大于上述原始图像中上述第一位置的像素点的亮度值。

应理解以上物体检测装置的各个单元的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。例如，以上各个单元可以为单独设立的处理元件，也可以集成同一个芯片中实现，此外，也可以以程序代码的形式存储于控制器的存储元件中，由处理器的某一个处理元件调用并执行以上各个单元的功能。此外各个单元可以集成在一起，也可以独立实现。这里的处理元件可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个单元可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。该处理元件可以是通用处理器，例如中央处理器(英文：central processing unit，简称：CPU)，还可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(英文：application-specific integrated circuit，简称：ASIC)，或，一个或多个微处理器(英文：digitalsignal processor，简称：DSP)，或，一个或者多个现场可编程门阵列(英文：field-programmable gate array，简称：FPGA)等。

图11是本申请实施例提供的另一种服务器的结构示意图，该服务器1100可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessing units，CPU)1122(例如，一个或一个以上处理器)和存储器1132，一个或一个以上存储应用程序1142或数据1144的存储介质1130(例如一个或一个以上海量存储设备)。其中，存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1122可以设置为与存储介质1130通信，在服务器1100上执行存储介质1130中的一系列指令操作。服务器1100可以上述物体检测装置。

服务器1100还可以包括一个或一个以上电源1126，一个或一个以上有线或无线网络接口1150，一个或一个以上输入输出接口1158，和/或，一个或一个以上操作系统1141，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由物体检测装置所执行的步骤可以基于该图11所示的服务器结构。具体的，中央处理器1122可实现图10中的处理单元1001和目标检测单元1002的功能，输入输出接口1158可实现图10中的获取单元1003的功能。

图12为本申请实施例提供的一种终端设备的结构示意图。如图12所示，该终端设备120包括处理器1201、存储器1202、通信接口1203该处理器1201、存储器1202和通信接口1203通过总线相互连接。图12中的终端设备可以为前述实施例中的物体检测装置。

存储器1202包括但不限于是随机存储记忆体(random access memory，RAM)、只读存储器(read-only memory，ROM)、可擦除可编程只读存储器(erasable programmablereadonly memory，EPROM)、或便携式只读存储器(compact disc read-only memory，CDROM)，该存储器1202用于相关指令及数据。通信接口1203用于接收和发送数据。

处理器1201可以是一个或多个中央处理器(central processing unit，CPU)，在处理器1201是一个CPU的情况下，该CPU可以是单核CPU，也可以是多核CPU。上述实施例中由物体检测装置所执行的步骤可以基于该图12所示的终端设备的结构。具体的，处理器1201可实现处理单元1001和目标检测单元1002的功能；通信接口1203可实现获取单元1003的功能。

在本申请的实施例中提供一种计算机可读存储介质，上述计算机可读存储介质存储有计算机程序，上述计算机程序被处理器执行时实现前述实施例所提供的物体的检测方法。

本申请实施例提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行前述实施例所提供的物体的检测方法。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种物体的检测方法，其特征在于，包括：

基于目标图像，得到第一子图像集；所述第一子图像集中的多个子图像均包含于所述目标图像且所述多个子图像中任一子图像的尺寸小于所述目标图像的尺寸；

对所述第一子图像集中的各子图像进行目标检测，得到多个子图像检测结果；所述多个子图像检测结果与所述多个子图像一一对应，所述多个子图像检测结果包含针对所述多个子图像中任一子图像进行目标检测得到的第一子图像检测结果，所述任一子图像中包括目标物体，所述第一子图像检测结果包括用于确定所述目标物体在所述目标图像中的边界框的信息和所述目标物体的类别信息；

基于所述多个子图像检测结果，得到目标检测结果；所述目标检测结果包含所述目标物体在所述目标图像中的边界框的坐标和所述目标物体的类别信息。

2.根据权利要求1所述的方法，其特征在于，所述基于目标图像，得到第一子图像集包括：

将所述目标图像切割为多个目标尺寸的子图像，得到所述第一子图像集；所述第一子图像集中任意两个在所述目标图像中相邻的子图像存在交叠。

3.根据权利要求2所述的方法，其特征在于，所述将所述目标图像切割为多个目标尺寸的子图像，得到所述第一子图像集包括：

将所述目标图像切割为多个所述目标尺寸的子图像，得到第二子图像集；

从所述第二子图像集中剔除属于纯背景的子图像，得到所述第一子图像集。

4.根据权利要求3所述的方法，其特征在于，所述从所述第二子图像集中剔除属于纯背景的子图像，得到所述第一子图像集包括：

计算所述第二子图像集中各子图像的方差；

从所述第二子图像集中剔除方差小于方差阈值的子图像，得到所述第一子图像集。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述基于所述多个子图像检测结果，得到目标检测结果包括：

基于所述多个子图像检测结果包含的至少一个物体在子图像中的边界框的坐标以及所述多个子图像在所述目标图像中的位置信息，确定所述至少一个物体在所述目标图像中对应的边界框的坐标；所述目标检测结果包含所述至少一个物体在所述目标图像中对应的边界框中的至少一个边界框的坐标。

6.根据权利要求5所述的方法，其特征在于，所述用于确定所述目标物体在所述目标图像中的边界框的信息为所述任一子图像中包含所述目标物体的第一矩形框的四个顶点在以所述任一子图像中的第一坐标为原点的坐标系中的坐标，所述第一坐标为所述任一子图像中的任一坐标；所述基于所述多个子图像检测结果包含的至少一个物体在子图像中的边界框的坐标以及所述多个子图像在所述目标图像中的位置信息，确定所述至少一个物体在所述目标图像中对应的边界框的坐标包括：

分别计算所述第一矩形框的四个顶点在以所述第一坐标为原点的坐标系中的坐标和所述第一坐标在以所述目标图像中的第二坐标为原点的坐标系中的坐标之和，得到所述目标图像中包含所述目标物体的第二矩形框的四个顶点在以所述第二坐标为原点的坐标系中的坐标；所述第二坐标为所述目标图像中的任一坐标，所述目标物体在所述目标图像中对应的边界框的坐标为所述第二矩形框的四个顶点在以所述第二坐标为原点的坐标系中的坐标。

7.根据权利要求6所述的方法，其特征在于，所述至少一个物体在所述目标图像中对应的边界框包括第一边界框和第二边界框；在确定所述至少一个物体在所述目标图像中对应的边界框的坐标之后，所述方法还包括：

在所述第一边界框和所述第二边界框的重合度超过重合度阈值的情况下，去除所述第二边界框；所述第二边界框的分类得分低于所述第一边界框的分类得分，所述第一边界框的分类得分为对所述第一边界框包含的物体做目标检测得到的分类得分，所述第二边界框的分类得分为对所述第二边界框包含的物体做目标检测得到的分类得分。

8.根据权利要求1至7任一项所述的方法，其特征在于，所述基于目标图像，得到第一子图像集之前，所述方法还包括：

获取原始图像；

对所述原始图像进行预处理得到所述目标图像；所述目标图像中的像素点与所述原始图像中的像素点一一对应，所述目标图像中第一位置的像素点的亮度值大于所述原始图像中所述第一位置的像素点的亮度值。

9.一种物体检测装置，其特征在于，包括：

处理单元，用于基于目标图像，得到第一子图像集；所述第一子图像集中的多个子图像均包含于所述目标图像且所述多个子图像中任一子图像的尺寸小于所述目标图像的尺寸；

目标检测单元，用于对所述第一子图像集中的各子图像进行目标检测，得到多个子图像检测结果；所述多个子图像检测结果与所述多个子图像一一对应，所述多个子图像检测结果包含针对所述多个子图像中任一子图像进行目标检测得到的第一子图像检测结果，所述任一子图像中包括目标物体，所述第一子图像检测结果包括用于确定所述目标物体在所述目标图像中的边界框的信息和所述目标物体的类别信息；

所述处理单元，还用于基于所述多个子图像检测结果，得到目标检测结果；所述目标检测结果包含所述目标物体在所述目标图像中的边界框的坐标和所述目标物体的类别信息。

10.一种电子设备，其特征在于，包括存储器和处理器，其中，所述存储器用于存储指令，所述处理器用于执行所述存储器存储的指令，使得所述处理器执行如权利要求1至8任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，使所述处理器执行权利要求1至8任意一项所述的方法。