CN114140427A

CN114140427A - 一种物体检测方法及装置

Info

Publication number: CN114140427A
Application number: CN202111441880.2A
Authority: CN
Inventors: 石雅洁
Original assignee: Shenzhen Jizhi Digital Technology Co Ltd
Current assignee: Shenzhen Xumi Yuntu Space Technology Co Ltd
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2022-03-04

Abstract

本公开提供了一种物体检测方法及装置。该方法先对待检测图像进行识别精度较低的目标物体检测，得到初始检测图像；再利用待检测图像的图像全局信息对该初始检测图像进行图像增强处理，即可以利用待检测图像的图像全局信息恢复该初始检测图像的图像细节信息，得到分辨率更高的增强检测图像；这样，便可以提高目标物体对应的图像区域的分辨率，以及可以基于分辨率更高的增强检测图像对目标物体进行检测识别，得到待检测图像对应的目标物体检测结果。可见，本实施例所提供的方法可以通过对待检测图像中较小的目标物体的图像区域进行放大处理并同时恢复图像细节信息，从而可以提高待检测图像对应的目标物体检测结果的精确度，进而提高用户体验。

Description

一种物体检测方法及装置

技术领域

本公开涉及计算机技术领域，尤其涉及一种物体检测方法及装置。

背景技术

随着图像处理技术的发展，图像识别技术在越来越多的场景均得到应用。但是，目前的图像识别技术在识别图像中较小的物体时，难以识别到较小的物体，另外，由于较小物体的图像信息较少，也会大大增加了检测结果错误的可能性。例如，对于施工工地、办公区等公共场所需要禁止吸烟，故需要检测是否有人抽烟或者地面是否存在烟头的情况，但由于烟头过小，一般很难利用图像识别技术识别到烟头；或者，对于寻找耳环或者纽扣等较小物体的场景下，由于耳环或者纽扣过小，一般很难利用图像识别技术识别到丢失的耳环或者纽扣。因此，亟需一种新的物体检测的方案。

发明内容

有鉴于此，本公开实施例提供了一种物体检测方法、装置、计算机设备及计算机可读存储介质，以解决现有技术中在识别图像中较小的物体时，难以识别到较小的物体且检测结果错误的可能性较高的问题。

本公开实施例的第一方面，提供了一种物体检测方法，所述方法包括：

获取待检测图像，以及，提取所述待检测图像的图像全局信息；

根据所述待检测图像，确定所述待检测图像中的目标物体对应的初始检测图像；

根据所述图像全局信息和所述初始检测图像，生成所述初始检测图像的增强检测图像，其中，所述增强检测图像的分辨率大于所述初始检测图像；

根据所述图像全局信息和所述增强检测图像，生成所述待检测图像对应的目标物体检测结果。

本公开实施例的第二方面，提供了一种物体检测装置，所述装置包括：

信息获取模块，用于获取待检测图像，以及，提取所述待检测图像的图像全局信息；

图像确定模块，用于根据所述待检测图像，确定所述待检测图像中的目标物体对应的初始检测图像；

图像增强模块，用于根据所述图像全局信息和所述初始检测图像，生成所述初始检测图像的增强检测图像，其中，所述增强检测图像的分辨率大于所述初始检测图像；

结果生成模块，用于根据所述图像全局信息和所述增强检测图像，生成所述待检测图像对应的目标物体检测结果。

本公开实施例的第三方面，提供了一种计算机设备，包括存储器、处理器以及存储在存储器中并且可以在处理器上运行的计算机程序，该处理器执行计算机程序时实现上述方法的步骤。

本公开实施例的第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

本公开实施例与现有技术相比存在的有益效果是：本公开实施例可以先获取待检测图像，以及，提取所述待检测图像的图像全局信息；然后，可以根据所述待检测图像，确定所述待检测图像中的目标物体对应的初始检测图像；接着，可以根据所述图像全局信息和所述初始检测图像，生成所述初始检测图像的增强检测图像，其中，所述增强检测图像的分辨率大于所述初始检测图像；最后，可以根据所述图像全局信息和所述增强检测图像，生成所述待检测图像对应的目标物体检测结果。由于本实施例所提供的方法先对待检测图像进行识别精度较低的目标物体检测，得到初始检测图像；再利用待检测图像的图像全局信息对该初始检测图像进行图像增强处理，也就是说，可以利用待检测图像的图像全局信息恢复该初始检测图像的图像细节信息，得到分辨率更高的增强检测图像；这样，便可以提高目标物体对应的图像区域的分辨率，以及可以基于分辨率更高的增强检测图像对目标物体进行检测识别，得到待检测图像对应的目标物体检测结果。可见，本实施例所提供的方法可以通过对待检测图像中较小的目标物体的图像区域进行放大处理并同时恢复图像细节信息，从而可以提高待检测图像对应的目标物体检测结果的精确度，进而提高了用户体验。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本公开实施例的应用场景的场景示意图；

图2是本公开实施例提供的物体检测方法的流程图；

图3是本公开实施例提供物体检测模型的网络架构示意图；

图4是本公开实施例提供的物体检测装置的框图；

图5是本公开实施例提供的计算机设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本公开实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本公开的描述。

下面将结合附图详细说明根据本公开实施例的一种物体检测方法和装置。

在现有技术中，由于目前的图像识别技术在识别图像中较小的物体时，难以识别到较小的物体，另外，由于较小物体的图像信息较少，也会大大增加了检测结果错误的可能性。因此，亟需一种新的物体检测的方案。

为了解决上述问题。本发明提供了一种物体检测方法，在本方法中，由于本实施例所提供的方法先对待检测图像进行识别精度较低的目标物体检测，得到初始检测图像；再利用待检测图像的图像全局信息对该初始检测图像进行图像增强处理，也就是说，可以利用待检测图像的图像全局信息恢复该初始检测图像的图像细节信息，得到分辨率更高的增强检测图像；这样，便可以提高目标物体对应的图像区域的分辨率，以及可以基于分辨率更高的增强检测图像对目标物体进行检测识别，得到待检测图像对应的目标物体检测结果。可见，本实施例所提供的方法可以通过对待检测图像中较小的目标物体的图像区域进行放大处理并同时恢复图像细节信息，从而可以提高待检测图像对应的目标物体检测结果的精确度，进而提高了用户体验。

举例说明，本发明实施例可以应用到如图1所示的应用场景。在该场景中，可以包括终端设备1和服务器2。

终端设备1可以是硬件，也可以是软件。当终端设备1为硬件时，其可以是具有采集图像、存储图像功能且支持与服务器2通信的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、数码照像机、监控器、录像机和台式计算机等；当终端设备1为软件时，其可以安装在如上该的电子设备中。终端设备1可以实现为多个软件或软件模块，也可以实现为单个软件或软件模块，本公开实施例对此不作限制。进一步地，终端设备1上可以安装有各种应用，例如图像采集应用、图像存储应用、即时聊天应用等。

服务器2可以是提供各种服务的服务器，例如，对与其建立通信连接的终端设备发送的请求进行接收的后台服务器，该后台服务器可以对终端设备发送的请求进行接收和分析等处理，并生成处理结果。服务器2可以是一台服务器，也可以是由若干台服务器组成的服务器集群，或者还可以是一个云计算服务中心，本公开实施例对此不作限制。

需要说明的是，服务器2可以是硬件，也可以是软件。当服务器2为硬件时，其可以是为终端设备1提供各种服务的各种电子设备。当服务器2为软件时，其可以是为终端设备1提供各种服务的多个软件或软件模块，也可以是为终端设备1提供各种服务的单个软件或软件模块，本公开实施例对此不作限制。

终端设备1与服务器2可以通过网络进行通信连接。网络可以是采用同轴电缆、双绞线和光纤连接的有线网络，也可以是无需布线就能实现各种通信设备互联的无线网络，例如，蓝牙(Bluetooth)、近场通信(Near Field Communication，NFC)、红外(Infrared)等，本公开实施例对此不作限制。

具体地，用户可以通过终端设备1确定待检测图像，并将待检测图像向服务器2发送。服务器2接收到该待检测图像后，服务器2可以提取该待检测图像的图像全局信息，以及，根据该待检测图像，确定该待检测图像中的目标物体对应的初始检测图像。然后，服务器2可以根据该图像全局信息和该初始检测图像，生成该初始检测图像的增强检测图像。接着，服务器2可以根据该图像全局信息和该增强检测图像，生成该待检测图像对应的目标物体检测结果。最后，服务器2可以将该目标物体检测结果向终端设备1发送，以便终端设备1向用户展示该目标物体检测结果。这样，由于本实施例所提供的方法先对待检测图像进行识别精度较低的目标物体检测，得到初始检测图像；再利用待检测图像的图像全局信息对该初始检测图像进行图像增强处理，也就是说，可以利用待检测图像的图像全局信息恢复该初始检测图像的图像细节信息，得到分辨率更高的增强检测图像；这样，便可以提高目标物体对应的图像区域的分辨率，以及可以基于分辨率更高的增强检测图像对目标物体进行检测识别，得到待检测图像对应的目标物体检测结果。可见，本实施例所提供的方法可以通过对待检测图像中较小的目标物体的图像区域进行放大处理并同时恢复图像细节信息，从而可以提高待检测图像对应的目标物体检测结果的精确度，进而提高了用户体验。

需要说明的是，终端设备1和服务器2以及网络的具体类型、数量和组合可以根据应用场景的实际需求进行调整，本公开实施例对此不作限制。

需要注意的是，上述应用场景仅是为了便于理解本公开而示出，本公开的实施方式在此方面不受任何限制。相反，本公开的实施方式可以应用于适用的任何场景。

图2是本公开实施例提供的一种物体检测方法的流程图。图2的一种物体检测方法可以由图1的终端设备或服务器执行。如图2所示，该物体检测方法包括：

S201：获取待检测图像，以及，提取所述待检测图像的图像全局信息。

在本实施例中，可以将需要进行物体检测的图像或者视频帧称之为待检测图像。其中，可以将需要进行检测的物体称之为目标物体。在一种实现方式中，目标物体可以理解为较小体积的物体或者在待检测图像中所占画面面积小于预设阈值的物体，例如，目标物体可以为烟头、耳环、戒指、钥匙等物体。

作为一种示例，终端设备可以提供一个页面，用户可以通过该页面上传图像，并点击预设按键，以触发对该图像进行物体检测，此时，便可以将该图像作为待检测图像。当然，用户也可以通过使用终端设备进行拍照得到待检测图像。另外，用户还需要确定需要检测的目标物体，或者系统预设了需要检测的目标物体。

需要说明的是，由于目标物体的体积较小或者在待检测图像中所占画面面积小于预设阈值，因此，目标物体的图像信息较少。为了在后续阶段中可以实现对待检测图像中较小的目标物体的图像区域进行放大处理并同时恢复图像细节信息，可以在获取到待检测图像后，提取待检测图像的图像全局信息。需要说明的是，在本实施例中，图像全局信息是指能表示整幅图像上的特征，可以理解为用于描述图像的颜色和形状等整体特征，例如，图像全局信息可以包括待检测图像的颜色特征、纹理特征和形状特征，比如强度直方图等。可以理解的是，由于图像全局信息能够表征待检测图像的图像整体特征，因此，可以利用图像全局信息对待检测图像中的局部图像进行图像细节信息的补充，以提高待检测图像中的局部图像的分辨率，使得待检测图像中的局部图像更加清晰。

S202：根据所述待检测图像，确定所述待检测图像中的目标物体对应的初始检测图像。

在本实施例中，在获取到待检测图像后，可以先对待检测图像中的目标物体进行一个初步的检测，例如，可以先判断待检测图像中是否存在目标物体，以及目标物体在待检测图像中的初始区域信息，从而可以得到待检测图像中的目标物体对应的初始检测图像，这样，可以先确定需要重点关注和处理的图像区域，以便于提高检测目标物体的效率。

需要说明的是，为了便于描述，可以将目标物体在待检测图像中的初始区域信息称之为初始检测图像。需要说明的是，初始检测图像并不需要精确地检测到目标物体的边缘，而仅仅是粗略地确定目标物体在待检测图像中的一个区域范围，也就是说，可以先对待检测图像进行识别精度较低的目标物体检测，得到初始检测图像。可以理解的是，目标物体对应的初始检测图像可以包括目标物体的完整图像以及其它背景图像，也可以仅包括目标物体的部分图像以及其它背景图像，比如，假设目标物体为烟头，则目标物体对应的初始检测图像可以为包括烟头的全部图像区域和烟头的背景图像区域的图像，或者，可以为包括烟头的部分图像区域和烟头的背景图像区域的图像。

需要说明的是，目标物体对应的初始检测图像可以为标记有反映目标物体在待检测图像中的初始区域信息的标记框的待检测图像，或者可以为目标物体在待检测图像中的初始区域信息对应的图像。

S203：根据所述图像全局信息和所述初始检测图像，生成所述初始检测图像的增强检测图像。

由于目标物体的图像信息较少且目标物体的图像区域面积过小，因此，为了能够检测出目标物体或者提高检测目标物体的精确度，在获取到目标物体对应的初始检测图像后，应该先对初始检测图像进行增强处理，生成所述初始检测图像的增强检测图像，例如可以通过对待检测图像中较小的目标物体的图像区域进行放大处理并同时恢复图像细节信息，以便可以提高初始检测图像的分辨率，从而提高目标物体对应的图像区域的分辨率，进而可以使得目标物体对应的图像区域更加清晰。可以理解的是，初始检测图像的增强检测图像的分辨率大于该初始检测图像。

作为一种示例，在本实施例中，可以利用待检测图像的图像全局信息和初始检测图像的语义信息，对该初始检测图像进行图像增强处理，得到该初始检测图像的增强检测图像。也就是说，可以利用待检测图像的图像全局信息和和初始检测图像的语义信息，恢复该初始检测图像的图像细节信息，得到分辨率更高的增强检测图像。其中，初始检测图像的语义信息可以理解为能够反映图像内容的特征信息。在一种实现方式中，初始检测图像的语义信息可以分为视觉层语义信息、对象层语义信息和概念层语义信息；具体地，视觉层语义信息可以理解为图像的底层特征语义信息，例如颜色、纹理和形状等等；对象层语义信息通常可以包含图像的属性特征，比如某一对象在某一时刻的状态；概念层语义信息可以理解为图像中特征语义信息比较丰富的高层特征语义信息，即概念层语义信息可以反映图像所表现出的语义。

S204：根据所述图像全局信息和所述增强检测图像，生成所述待检测图像对应的目标物体检测结果。

由于初始检测图像仅仅是粗略地确定目标物体在待检测图像中的一个区域范围，为了获取到待检测图像中目标物体的精确检测结果，在获取到增强检测图像后，可以利用待检测图像的图像全局信息和增强检测图像，对增强检测图像中的目标物体对应的区域进行调整，以及对目标物体的边缘进行检测，得到待检测图像对应的目标物体检测结果。可以理解的是，对增强检测图像所进行的目标物体检测比初始检测图像的检测的检测精度更高。

作为一种示例，可以根据待检测图像的图像全局信息和增强检测图像，先对增强检测图像中的目标物体对应的图像区域进行校正调整，保证获取到目标物体的完整图像。然后，可以对增强检测图像中的目标物体进行边缘检测，得到目标物体的边缘信息，其中，目标物体的边缘信息可以理解为目标物体与背景图像的交界线。接着，可以根据目标物体的边缘信息，确定目标物体检测结果。

需要说明的是，目标物体检测结果能够反映目标物体在待检测图像中的位置信息，例如，目标物体检测结果可以为在目标物体对应的图像区域标记有标记框的增强检测图像或者待检测图像，或者可以为目标物体对应的图像区域的标记框在增强检测图像或者待检测图像中的坐标信息(比如标记框为矩形时，坐标信息可以为矩形的四个顶点的坐标)，或者也可以为目标物体对应的图像，或者还可以为目标物体的边界的像素点在增强检测图像或者待检测图像中的位置信息。比如，假设目标物体为烟头，则待检测图像对应的目标物体检测结果可以为标记有烟头边缘对应的标记框的增强检测图像或者待检测图像，或者可以为烟头边缘对应的标记框的顶点的坐标，或者可以为烟头对应的图像(比如可以为根据烟头边缘进行裁剪所得到的图像)，或者还可以为烟头的边缘的像素点在增强检测图像或者待检测图像中的位置信息。

可见，本公开实施例与现有技术相比存在的有益效果是：本公开实施例可以先获取待检测图像，以及，提取所述待检测图像的图像全局信息；然后，可以根据所述待检测图像，确定所述待检测图像中的目标物体对应的初始检测图像；接着，可以根据所述图像全局信息和所述初始检测图像，生成所述初始检测图像的增强检测图像，其中，所述增强检测图像的分辨率大于所述初始检测图像；最后，可以根据所述图像全局信息和所述增强检测图像，生成所述待检测图像对应的目标物体检测结果。由于本实施例所提供的方法先对待检测图像进行识别精度较低的目标物体检测，得到初始检测图像；再利用待检测图像的图像全局信息对该初始检测图像进行图像增强处理，也就是说，可以利用待检测图像的图像全局信息恢复该初始检测图像的图像细节信息，得到分辨率更高的增强检测图像；这样，便可以提高目标物体对应的图像区域的分辨率，以及可以基于分辨率更高的增强检测图像对目标物体进行检测识别，得到待检测图像对应的目标物体检测结果。可见，本实施例所提供的方法可以通过对待检测图像中较小的目标物体的图像区域进行放大处理并同时恢复图像细节信息，从而可以提高待检测图像对应的目标物体检测结果的精确度，进而提高了用户体验。

接下来，将介绍S201中“提取所述待检测图像的图像全局信息”的一种实现方式，即如何提取所述待检测图像的图像全局信息。在本实施例中，S201“提取所述待检测图像的图像全局信息”可以包括以下步骤：

将所述待检测图像输入全局检测模型，得到所述待检测图像的图像全局信息。

其中，所述全局检测模型可以包括多个级联的卷积块。在一种实现方式中，如图3所示，全局检测模型可以包括5个卷积块(即Conv)，并且，这5个卷积块之间为级联连接。这样，在获取到待检测图像后，可以将待检测图像输入全局检测模型，利用全局检测模型中的多个级联的卷积块提取待检测图像的图像全局信息。

接下来，将介绍S202的一种实现方式，即如何确定待检测图像中的目标物体对应的初始检测图像。在本实施例中，S202可以包括以下步骤：

将所述待检测图像输入第一检测模型，得到所述待检测图像的初始检测图像。

在本实施例中，如图3所示，第一检测模型可以包括图像特征提取模块、分类模块和区域提取模块。在一种实现方式中，如图3所示，图像特征提取模块可以包括resnet网络和fpn网络；分类模块可以包括若干卷积块(比如可以包括三个卷积块)；区域提取模块可以包括若干卷积块(比如可以包括三个卷积块)。

在本实施例中，可以先将所述待检测图像输入所述图像特征提取模块，得到所述待检测图像的第一图像特征。其中，待检测图像的第一图像特征可以理解为待检测图像的语义特征，即能够反映图像内容的特征信息。作为一种示例，可以先将待检测图像输入resnet网络，得到resnet网络输出的四个尺度不同的特征；接着，将这四个尺度不同的特征输入fpn网络，fpn网络将这四个特征融合为第一图像特征，并输出该第一图像特征。

然后，可以将第一图像特征输入所述分类模型，得到所述检测图像的目标物体的初始检测标签(即图3中的cls)。其中，检测图像的目标物体的初始检测标签可以反映检测图像中是否包括目标物体，具体地，在一种实现方式中，检测图像的目标物体的初始检测标签可以包括初始检测结果和结果对应的置信度，其中，若置信度越高说明该初始检测结果的真实性越高，反之，若置信度越低说明初始检测结果的真实性越低；例如，假设目标物体为烟头，则待检测图像的目标物体的初始检测标签可以包括检测结果“待检测图像包括烟头”以及该结果对应的置信度，或者，可以包括检测结果“待检测图像不包括烟头”以及该结果对应的置信度。

将所述第一图像特征输入所述区域提取模块，得到所述待检测图像中的目标物体的初始检测图像区域(即图3中的bbox)，其中，待检测图像中的目标物体的初始检测图像区域可以是采用在待检测图像中标注框标注的方式体现，也可以是采用标注框在待检测图像中的顶点坐标的方式体现，还可以是采用对待检测图像进行裁剪得到初始检测图像区域的方式。作为一种示例，区域提取模块还可以输出待检测图像中的目标物体的初始检测图像区域的对应的置信度，其中，若置信度越高说明该初始检测图像区域包含了目标物体的图像区域的概率越高，反之，若置信度越低说明该初始检测图像区域包含了目标物体的图像区域的概率越低。

根据所述初始检测标签和所述初始检测图像区域，确定所述待检测图像的初始检测图像。具体地，若初始检测标签的初始检测结果为包括目标物体以及该结果对应的置信度满足预设结果阈值，且，初始检测图像区域的对应的置信度也满足预设区域阈值，则可以根据初始检测图像区域，在待检测图像中确定与初始检测图像区域对应的一图像区域，并将该图像区域确定为待检测图像的初始检测图像。

接下来，将介绍S203的一种实现方式，即如何生成初始检测图像的增强检测图像。在本实施例中，S203可以包括以下步骤：

将所述图像全局信息和所述初始检测图像输入增强图像生成模型，得到所述初始检测图像的增强检测图像。

在本实施例中，可以先将图像全局信息和初始检测图像进行叠加后，再输入增强图像生成模型，以得到所述初始检测图像的增强检测图像。其中，所述增强图像生成模型为已训练的生成对抗网络中的生成器，主要用于生成初始检测图像对应的增强图像(即增强检测图像)，以便可以提高初始检测图像的分辨率。在一种实现方式中，如图3所述，增强图像生成模型可以包括若干残差网络和若干上采样网络，例如，增强图像生成模型可以包括5个残差网络、2个上采样网络和一个卷积块，其中，所有网络和模块之间的连接方式为级联。其中，每个残差网络包括两个卷积网络(即图3中的Conv)、一个归一化网络(即图3中的BN)、一个激活函数(即图3中的ReLU)和一个残差边网络(即图3中的元素相加模块)；每个上采样网络可以包括反卷积块(即图3中的Deconv)和激活函数网络(即图3中的Relu)。

作为一种示例，可以先利用所述增强图像生成模型根据所述图像全局信息，确定所述待检测图像中目标物体的背景图像信息。在本实施例的一种实现方式中，可以利用若干残差网络根据待检测图像的图像全局信息，提取待检测图像中背景区域图像的图像特征，并将该背景区域图像的图像特征作为待检测图像中目标物体的背景图像信息。

然后，可以利用所述增强图像生成模型根据所述初始检测图像，确定所述初始检测图像的第二图像特征。在本实施例的一种实现方式中，可以利用若干残差网络根据待检测图像的图像全局信息，提取待检测图像中初始检测图像的第二图像特征。可以理解的是，初始检测图像的第二图像特征为初始检测图像的语义信息，即为能够反映图像内容的特征信息。

接着，可以利用所述增强图像根据所述背景图像信息和所述第二图像特征，确定所述初始检测图像的增强检测图像。在获取到背景图像信息和第二图像特征后，由于背景图像信息和第二图像特征均能够反映目标物体对应的图像区域的图像细节信息，因此，可以利用背景图像信息和第二图像特征恢复初始检测图像的更多图像细节信息。具体地，可以利用若干残差网络根据所述背景图像信息和所述第二图像特征，恢复初始检测图像的更多图像细节信息，得到恢复图像特征；接着，可以将恢复图像特征输入若干上采样网络进行上采样处理，得到初始检测图像的增强检测图像，例如增强图像生成模型包括2个上采样网络时，在经过两次上采样后，增强检测图像的高宽变为初始检测图像的4倍，同时，增强检测图像的更多图像细节信息也得到恢复，从而实现增强检测图像的分辨率的提升。

需要说明的是，增强图像生成模型的残差表示可以为：

其中，F_l、F_s分别表示尺寸大的特征图和尺寸小的特征图；G为增强图像生成模型对应的模型学习生成器函数，G用于将F_s的表示转换成具有与原始表示相似超分辨率G(Fs)的Fl，也就是说，G用于学习将数据Fs从噪声分布

映射到数据Fl上的分布

D表示判别网络，用于估计样本来自数据分布

的概率。需要说明的是，由于F₁中包含的图像信息有限，因此需要引入F_s的低级特征f，这样，增强图像生成模型可以通过残差学习在F_l、F_s的表示之间生成残差表示。

接下来，将介绍S204的一种实现方式，即如何生成待检测图像对应的目标物体检测结果。在本实施例中，S204可以包括以下步骤：

S204a：根据所述图像全局信息，生成全局特征池化信息。

在本实施例中，在获取到图像全局信息后，可以先对全局信息进行池化处理，得到全局特征池化信息。

S204b:将所述全局特征池化信息和所述增强检测图像输入第二检测模型，得到所述待检测图像对应的目标物体检测结果。

在本实施例中，可以先对全局特征池化信息和增强检测图像进行叠加融合得超分辨率特征，再将超分辨率特征输入第二检测模型，得到待检测图像对应的目标物体检测结果。在一种实现方式中，如图3所示，第二检测模型可以包括判别网络和检测网络，其中，判别网络可以为所述已训练的生成对抗网络中的判别器，可以理解的是，第二检测模型中判别网络和增强图像生成模型可以为一个生成对抗网络。具体地，判别网络可以包括3个全连接层(即图3中的FC)和一个sigmoid层；检测网络包括两个全连接层(即图3中两个级联的FC)和两个关联输出层(即图3中两个并联的FC)；其中，判别网络和检测网络中的前两个级联的全连接层的输出单元数(即通道数)分别为4096和1024。

作为一种示例，可以先将所述全局特征池化信息和所述增强检测图像输入所述判别网络，得到所述增强检测图像的真实概率值。所述增强检测图像的真实概率值用于表征所述增强检测图像为所述目标物体的概率，需要说明的是，增强检测图像的真实概率值越大，说明增强检测图像为所述目标物体的概率越大，反之，增强检测图像的真实概率值越小，说明增强检测图像为所述目标物体的概率越小。可以理解的是，判别网络所输出的增强检测图像的真实概率值是用于监督增强图像生成模型所生成的增强检测图像更接近初始检测图像，也就是说，判别网络为了尽可能的找出初始检测图像的图像特征和增强检测图像的图像特征的不同，以此监督增强图像生成模型生成更接近初始检测图像的图像特征，从而可以保证增强图像生成模型所生成的增强检测图像不会失真。

其中，可以将

表示为优化目标函数为θ_g的增强图像生成模型，通过优化损失函数L_dis得到θ_g：

其中，L_dis是判别网络的损失函数L_{dis_a}和检测损失函数L_{dis_p}的加权组合。训练判别网络的对抗性分支，通过为生成的尺寸大的数据

的超分辨率特征和尺寸小的数据F_l的特征分配正确的标签来最大化概率。假设判别网络

是由优化目标函数θ_a参数化的增强图像生成模型的对抗分支。通过优化特定的损失函数来获得θ：_a

将每个标注框的表示

作为输入，该分支输出为属于F_s的输入表示的估计概率，可以表示为

其中，判别网络的损失函数L_{dis_a}可以定义为：

接着，可以将所述全局特征池化信息和所述增强检测图像输入所述检测网络，得到所述增强检测图像中的目标物体检测图像。在本实施例中，将所述全局特征池化信息和所述增强检测图像输入所述检测网络，可以得到目标检测标签(即图3检测网络中的cls)和目标物体的目标检测图像区域(即图3检测网络中的bbox)；然后，可以根据目标检测标签和目标检测图像区域，确定增强检测图像中的目标物体检测图像。

其中，目标检测标签可以反映增强检测图像中是否包括目标物体，具体地，在一种实现方式中，增强检测图像的目标物体的目标检测标签可以包括目标检测结果和结果对应的置信度，其中，若置信度越高说明该目标检测结果的真实性越高，反之，若置信度越低说明目标检测结果的真实性越低；例如，假设目标物体为烟头，则增强检测图像的目标物体的目标检测标签可以包括目标检测结果“待检测图像包括烟头”以及该结果对应的置信度，或者，可以包括目标检测结果“待检测图像不包括烟头”以及该结果对应的置信度。

其中，增强检测图像中的目标物体的目标检测图像区域可以是采用在待检测图像或增强检测图像中标注框标注的方式体现，也可以是采用标注框在待检测图像或增强检测图像中的顶点坐标的方式体现，还可以是采用对待检测图像或增强检测图像进行裁剪得到目标检测图像区域的方式。作为一种示例，还可以输出增强检测图像中的目标物体的目标检测图像区域的对应的置信度，其中，若置信度越高说明该目标检测图像区域包含了目标物体的图像区域的概率越高，反之，若置信度越低说明该目标检测图像区域包含了目标物体的图像区域的概率越低。

并且，可以根据所述目标检测标签和所述目标检测图像区域，确定增强检测图像中的目标物体检测图像。具体地，若目标检测标签的目标检测结果为包括目标物体以及该结果对应的置信度满足预设结果阈值，且，目标检测图像区域的对应的置信度也满足预设区域阈值，则可以根据目标检测图像区域，在增强检测图像中确定与目标检测图像区域对应的一图像区域，并将该图像区域确定为增强检测图像中的目标物体检测图像。

需要说明的是，将

表示为由优化函数θ_p参数化的判别网络的检测分支(即检测检测网络)。通过使用尺寸大的特征图F₁的表示优化特定的损失函数L_{dis_p}来获得θ_p：

其中，L_{dis_p}是目标检测标签和目标检测图像区域回归的多任务损失函数。每个训练都标有真实标签g和真实检测图像区域回归目标r^*；检测检测网络的多任务损失函数L_{dis_p}为：

L_{dis_p}＝L_cls(p，g)+1[g≥1]L_loc(r_g，r^*)

其中，L_cls和L_loc分别是目标检测标签和目标检测图像区域回归的损失函数，Lcls(p，g)＝-logp_g是真实g的对数损失函数，而L_loc是平滑L₁的损失函数。对于背景图像区域而言，g＝0，L_loc被忽略。L_{dis_a}为给定对抗性损失，L_{dis_p}为感知损失，最终损失函数L_dis可以为L_{dis_a}和L_{dis_p}两个单独损失分量的加权总和。w₁和w₂为给定加权参数，比如，L_dis＝w₁×L_{dis_a}+w₂×L_{dis_p}。在一种实现方式中，可以将将w₁和w₂都设置为1。

最后，可以根据所述增强检测图像的真实概率值和所述目标物体检测图像，确定所述待检测图像对应的目标物体检测结果。作为一种示例，若增强检测图像的真实概率值满足预设真实概率阈值，则可以根据目标物体检测图像确定待检测图像对应的目标物体检测结果。例如，可以根据目标物体检测图像在待检测图像或增强检测图像中标注有标记框，即该标记框用于标记目标物体检测图像在待检测图像或增强检测图像中的图像区域；或者，可以根据目标物体检测图像对待检测图像或增强检测图像进行裁剪，得到一裁剪后的图像，并将该裁剪后的图像作为待检测图像对应的目标物体检测结果；当然，还可以采用其它实现方式，在此不再一一赘述。可见，本实施例提供的图3所示的物体检测模型为端到端的粗略、精修检测模块结合的模型，从而可以使得该模型可以应用到更多终端上。

需要说明的是，上述模型的训练样本可以包括样本待检测图像和样本待检测图像对应的目标物体检测结果。其中，为了丰富训练样本的多样性，可以先将样本待检测图像进行预处理，例如，可以采用缩放、翻折、旋转等方式对样本待检测图像进行变换，得到新的样本待检测图像。并且，可以将目标物体贴到新的样本待检测图像中的任意位置并生成新的标注，并可以对粘贴的进行随机变换，这种方式可以通过增加每个样本待检测图像中目标物体数量，增加匹配的锚点或锚框(anchor)的数量，进而提升目标物体在训练阶段对损失计算的贡献。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图4是本公开实施例提供的物体检测装置的示意图。如图4所示，该物体检测装置包括：

信息获取模块401，用于获取待检测图像，以及，提取所述待检测图像的图像全局信息；

图像确定模块402，用于根据所述待检测图像，确定所述待检测图像中的目标物体对应的初始检测图像；

图像增强模块403，用于根据所述图像全局信息和所述初始检测图像，生成所述初始检测图像的增强检测图像，其中，所述增强检测图像的分辨率大于所述初始检测图像；

结果生成模块404，用于根据所述图像全局信息和所述增强检测图像，生成所述待检测图像对应的目标物体检测结果。

在一些实施例中，所述信息获取模块401，用于：

将所述待检测图像输入全局检测模型，得到所述待检测图像的图像全局信息；其中，所述全局检测模型包括多个级联的卷积块。

在一些实施例中，所述图像确定模块402，用于：

在一些实施例中，所述第一检测模型包括图像特征提取模块、分类模块和区域提取模块；所述图像确定模块402，具体用于：

将所述待检测图像输入所述图像特征提取模块，得到所述待检测图像的第一图像特征；

将所述第一图像特征输入所述分类模型，得到所述检测图像的目标物体的初始检测标签；

将所述第一图像特征输入所述区域提取模块，得到所述待检测图像中的目标物体的初始检测图像区域；

根据所述初始检测标签和所述初始检测图像区域，确定所述待检测图像的初始检测图像。

在一些实施例中，所述图像增强模块403，具体用于：

将所述图像全局信息和所述初始检测图像输入增强图像生成模型，得到所述初始检测图像的增强检测图像；其中，所述增强图像生成模型为已训练的生成对抗网络中的生成器。

在一些实施例中，所述图像增强模块403，具体用于：

利用所述增强图像生成模型根据所述图像全局信息，确定所述待检测图像中目标物体的背景图像信息；

利用所述增强图像生成模型根据所述初始检测图像，确定所述初始检测图像的第二图像特征；

利用所述增强图像根据所述背景图像信息和所述第二图像特征，确定所述初始检测图像的增强检测图像。

在一些实施例中，所述增强图像生成模型包括若干残差网络和若干上采样网络；其中，每个残差网络包括两个卷积网络、一个归一化网络、一个激活函数和一个残差边网络，每个上采样网络包括反卷积块和激活函数网络。

在一些实施例中，结果生成模块404，具体用于：

根据所述图像全局信息，生成全局特征池化信息；

将所述全局特征池化信息和所述增强检测图像输入第二检测模型，得到所述待检测图像对应的目标物体检测结果。

在一些实施例中，所述第二检测模型包括判别网络和检测网络，其中，所述判别网络为所述已训练的生成对抗网络中的判别器；所述结果生成模块404，具体用于：

将所述全局特征池化信息和所述增强检测图像输入所述判别网络，得到所述增强检测图像的真实概率值；所述增强检测图像的真实概率值用于表征所述增强检测图像为所述目标物体的概率；

将所述全局特征池化信息和所述增强检测图像输入所述检测网络，得到所述增强检测图像中的目标物体检测图像；

根据所述增强检测图像的真实概率值和所述目标物体检测图像，确定所述待检测图像对应的目标物体检测结果。

在一些实施例中，所述目标物体为烟头。

根据本公开实施例提供的技术方案，物体检测装置包括：信息获取模块，用于获取待检测图像，以及，提取所述待检测图像的图像全局信息；图像确定模块，用于根据所述待检测图像，确定所述待检测图像中的目标物体对应的初始检测图像；图像增强模块，用于根据所述图像全局信息和所述初始检测图像，生成所述初始检测图像的增强检测图像，其中，所述增强检测图像的分辨率大于所述初始检测图像；结果生成模块，用于根据所述图像全局信息和所述增强检测图像，生成所述待检测图像对应的目标物体检测结果。由于本实施例所提供的方法先对待检测图像进行识别精度较低的目标物体检测，得到初始检测图像；再利用待检测图像的图像全局信息对该初始检测图像进行图像增强处理，也就是说，可以利用待检测图像的图像全局信息恢复该初始检测图像的图像细节信息，得到分辨率更高的增强检测图像；这样，便可以提高目标物体对应的图像区域的分辨率，以及可以基于分辨率更高的增强检测图像对目标物体进行检测识别，得到待检测图像对应的目标物体检测结果。可见，本实施例所提供的方法可以通过对待检测图像中较小的目标物体的图像区域进行放大处理并同时恢复图像细节信息，从而可以提高待检测图像对应的目标物体检测结果的精确度，进而提高了用户体验。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本公开实施例的实施过程构成任何限定。

图5是本公开实施例提供的计算机设备5的示意图。如图5所示，该实施例的计算机设备5包括：处理器501、存储器502以及存储在该存储器502中并且可以在处理器501上运行的计算机程序503。处理器501执行计算机程序503时实现上述各个方法实施例中的步骤。或者，处理器501执行计算机程序503时实现上述各装置实施例中各模块/模块的功能。

示例性地，计算机程序503可以被分割成一个或多个模块/模块，一个或多个模块/模块被存储在存储器502中，并由处理器501执行，以完成本公开。一个或多个模块/模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序503在计算机设备5中的执行过程。

计算机设备5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算机设备。计算机设备5可以包括但不仅限于处理器501和存储器502。本领域技术人员可以理解，图5仅仅是计算机设备5的示例，并不构成对计算机设备5的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如，计算机设备还可以包括输入输出设备、网络接入设备、总线等。

处理器501可以是中央处理模块(Central Processing Unit，CPU)，也可以是其它通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器502可以是计算机设备5的内部存储模块，例如，计算机设备5的硬盘或内存。存储器502也可以是计算机设备5的外部存储设备，例如，计算机设备5上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，存储器502还可以既包括计算机设备5的内部存储模块也包括外部存储设备。存储器502用于存储计算机程序以及计算机设备所需的其它程序和数据。存储器502还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能模块、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块、模块完成，即将装置的内部结构划分成不同的功能模块或模块，以完成以上描述的全部或者部分功能。实施例中的各功能模块、模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中，上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。另外，各功能模块、模块的具体名称也只是为了便于相互区分，并不用于限制本公开的保护范围。上述系统中模块、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

在本公开所提供的实施例中，应该理解到，所揭露的装置/计算机设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/计算机设备实施例仅仅是示意性的，例如，模块或模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或模块的间接耦合或通讯连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

集成的模块/模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本公开实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可以存储在计算机可读存储介质中，该计算机程序在被处理器执行时，可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如，在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围，均应包含在本公开的保护范围之内。

Claims

1.一种物体检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述提取所述待检测图像的图像全局信息，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述待检测图像，确定所述待检测图像中的目标物体对应的初始检测图像，包括：

4.根据权利要求3所述的方法，其特征在于，所述第一检测模型包括图像特征提取模块、分类模块和区域提取模块；所述将所述待检测图像输入第一检测模型，得到所述待检测图像的初始检测图像，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述图像全局信息和所述初始检测图像，生成所述初始检测图像的增强检测图像，包括：

6.根据权利要求5所述的方法，其特征在于，所述将所述图像全局信息和所述初始检测图像输入增强图像生成模型，得到所述初始检测图像的增强检测图像，包括：

7.根据权利要求6所述的方法，其特征在于，所述增强图像生成模型包括若干残差网络和若干上采样网络；其中，每个残差网络包括两个卷积网络、一个归一化网络、一个激活函数和一个残差边网络，每个上采样网络包括反卷积块和激活函数网络。

8.根据权利要求5所述的方法，其特征在于，所述根据所述图像全局信息和所述增强检测图像，生成所述待检测图像对应的目标物体检测结果，包括：

根据所述图像全局信息，生成全局特征池化信息；

9.根据权利要求8所述的方法，其特征在于，所述第二检测模型包括判别网络和检测网络，其中，所述判别网络为所述已训练的生成对抗网络中的判别器；所述将所述全局特征池化信息和所述增强检测图像输入第二检测模型，得到所述待检测图像对应的目标物体检测结果，包括：

10.根据权利要求1-9中任一所述的方法，其特征在于，所述目标物体为烟头。

11.一种物体检测装置，其特征在于，所述装置包括：

12.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并且可以在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至10中任一项所述方法的步骤。

13.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至10中任一项所述方法的步骤。