CN109376667B

CN109376667B - 目标检测方法、装置及电子设备

Info

Publication number: CN109376667B
Application number: CN201811274871.7A
Authority: CN
Inventors: 王远江; 袁野; 俞刚
Original assignee: Beijing Kuangshi Technology Co Ltd
Current assignee: Beijing Kuangshi Technology Co Ltd
Priority date: 2018-10-29
Filing date: 2018-10-29
Publication date: 2021-10-01
Anticipated expiration: 2038-10-29
Also published as: CN109376667A

Abstract

本发明提供了一种目标检测方法、装置及电子设备，属于图像处理技术领域。本发明提供的目标检测方法、装置及电子设备，通过获取RGB图像对应的深度图像，在进行目标检测时，从RGB图像中提取初步特征图，从深度图像中提取深度特征图，将初步特征图和深度特征图输入特征融合网络，得到融合特征图，基于融合特征图进行目标检测。上述过程结合RGB图像的特征信息和RGB图像对应的深度图像的特征信息进行检测，提高了目标检测的精度，尤其对于暗光环境下拍摄的图像，提高了目标检测的精度和准确率。

Description

目标检测方法、装置及电子设备

技术领域

本发明属于图像处理技术领域，尤其是涉及一种目标检测方法、装置及电子设备。

背景技术

目标检测的目的在于将图像或视频中的目标区域与背景区域进行区分，确定目标对象在图像或视频中的位置信息。例如，人脸检测即确定图像或视频中所有人脸的位置、大小或姿态等。目前，人脸检测在安防、直播视频及摄影等许多领域有着广泛的应用。在实际应用过程中，对于在暗光环境下拍摄的图像，现有的目标检测方法检测精度较低，常常存在检测不到目标对象或者检测到错误的目标对象的情况。

发明内容

有鉴于此，本发明的目的在于提供一种目标检测方法、装置及电子设备，可以提高检测精度。

为了实现上述目的，本发明实施例采用的技术方案如下：

第一方面，本发明实施例提供了一种目标检测方法，包括：

获取包含待检测目标的RGB图像及所述RGB图像对应的深度图像；

从所述RGB图像中提取初步特征图；

从所述深度图像中提取深度特征图；

将所述初步特征图和所述深度特征图输入特征融合网络，得到所述特征融合网络输出的融合特征图；

基于所述融合特征图进行目标检测。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，

所述特征融合网络包括第一特征金字塔网络、第二特征金字塔网络和融合金字塔网络；将所述初步特征图和所述深度特征图输入特征融合网络，得到所述特征融合网络输出的融合特征图的步骤，包括：

通过所述第一特征金字塔网络提取所述初步特征图的多个尺度的子特征图；

通过所述第二特征金字塔网络提取所述深度特征图的多个尺度的子特征图；

通过所述融合金字塔网络对所述初步特征图和所述深度特征图的多个尺度的子特征图进行特征融合，得到所述融合特征图。

结合第一方面的第一种可能的实施方式，本发明实施例提供了第一方面的第二种可能的实施方式，其中，通过所述融合金字塔网络对所述初步特征图和所述深度特征图的多个尺度的子特征图进行特征融合，得到所述融合特征图的步骤，包括：

将所述初步特征图的多个尺度的子特征图与所述深度特征图的对应尺度的子特征图进行级联，得到多个尺度的级联子特征图；

将所述多个尺度的级联子特征图输入所述融合金字塔网络，得到所述融合金字塔网络输出的融合特征图。

结合第一方面的第一种可能的实施方式，本发明实施例提供了第一方面的第三种可能的实施方式，其中，所述第一特征金字塔网络和/或所述第二特征金字塔网络包括多个特征网络层，每个特征网络层包括至少一个卷积层；每个特征网络层输出一个尺度的子特征图。

结合第一方面的第三种可能的实施方式，本发明实施例提供了第一方面的第四种可能的实施方式，其中，所述每个特征网络层中至少一个卷积层的步长大于或等于2。

结合第一方面的第三种可能的实施方式，本发明实施例提供了第一方面的第五种可能的实施方式，其中，所述每个特征网络层包括至少一个池化层。

结合第一方面的第二种可能的实施方式，本发明实施例提供了第一方面的第六种可能的实施方式，其中，所述融合金字塔网络包括输入层和多层融合网络层；所述多个尺度的级联子特征图按照尺度由小到大的顺序分别对应输入所述输入层和每层所述融合网络层；所述输入层用于根据接收到的级联子特征图生成输入层的融合子特征图传递至第一层融合网络层；每层所述融合网络层将接收到的融合子特征图和级联子特征图进行融合，得到本层融合网络层的融合子特征图传递至下一融合网络层。

结合第一方面的第六种可能的实施方式，本发明实施例提供了第一方面的第七种可能的实施方式，其中，每层所述融合网络层包括上采样层和卷积层；所述上采样层用于对接收到的融合子特征图进行上采样；所述卷积层用于将本层融合网络层接收到的级联子特征图和经上采样的融合子特征图进行融合，生成本层融合网络层的融合子特征图。

结合第一方面，本发明实施例提供了第一方面的第八种可能的实施方式，其中，基于所述融合特征图进行目标检测的步骤，包括：

将所述融合特征图输入目标检测网络，得到目标检测网络输出的检测结果；所述目标检测网络包括分类子网络和/或回归子网络；所述分类子网络用于确定所述RGB图像是否包含目标对象；所述回归子网络用于确定所述RGB图像所包含的目标对象的位置。

结合第一方面或第一方面的第八种可能的实施方式，本发明实施例提供了第一方面的第十二种可能的实施方式，其中，所述获取RGB图像及所述RGB图像对应的深度图像的步骤之前，所述方法还包括：

获取训练图像样本集；所述训练图像样本集包括训练图像和每张训练图像对应的深度图像；

采用所述训练图像样本集对网络模型进行训练；所述网络模型至少包括特征融合网络或目标检测网络。

第二方面，本发明实施例还提供一种目标检测装置，包括：

图像获取模块，用于获取包含待检测目标的RGB图像及所述RGB图像对应的深度图像；

特征提取模块，用于从所述RGB图像中提取初步特征图；以及从所述深度图像中提取深度特征图；

特征融合模块，用于将所述初步特征图和所述深度特征图进行融合，得到融合特征图；

目标检测模块，用于基于所述融合特征图进行目标检测。

第三方面，本发明实施例提供了一种电子设备，包括图像采集装置、存储器、处理器；

所述图像采集装置，用于采集图像数据；

所述存储器中存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述第一方面中任一项所述的方法的步骤。

结合第三方面，本发明实施例提供了第三方面的第一种可能的实施方式，其中，所述图像采集装置包括彩色相机和深度相机。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述第一方面任一项所述的方法的步骤。

本发明实施例提供了一种目标检测方法、装置及电子设备，通过获取RGB图像对应的深度图像，在进行目标检测时，从RGB图像中提取初步特征图，从深度图像中提取深度特征图，将初步特征图和深度特征图输入特征融合网络，得到融合特征图，基于融合特征图进行目标检测。上述过程结合RGB图像的特征信息和RGB图像对应的深度图像的特征信息进行检测，提高了目标检测的精度，尤其对于暗光环境下拍摄的图像，提高了目标检测的精度和准确率。

本公开的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本公开的上述技术即可得知。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例所提供的一种电子设备的结构示意图；

图2示出了本发明实施例所提供的一种目标检测方法的流程图；

图3示出了本发明实施例所提供的一种目标检测方法的网络的执行过程示意图；

图4示出了本发明实施例所提供的一种特征融合网络的执行过程示意图；

图5示出了本发明实施例所提供的一种目标检测装置的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

由于现有的目标检测方法检测精度较低，对于在暗光环境下拍摄的图像，常常存在检测不到目标对象或者检测到错误的目标对象的情况。为了提高目标检测的精度和准确度，本发明实施例提供了一种目标检测方法、装置、电子设备和计算机存储介质。其中，目标检测方法可以用于检测任意的目标对象，如检测人脸、人体的其它部位、车辆、动物、植物或其它感兴趣的目标等。本发明实施例并不对具体的应用场景作限制，任何使用本发明实施例提供的目标检测方法进行目标检测或使用本发明实施例提供的网络模型进行目标检测的方案均在本发明保护范围内。

实施例一：

首先，参照图1来描述用于实现本发明实施例的目标检测方法的示例电子设备100。该示例电子设备100可以是监控设备，如道路监控设备；也可以是智能手机、平板电脑、相机等移动终端；还可以是计算机或服务器等其它设备。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储器104、输入装置106、输出装置108以及图像采集装置110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以是中央处理器(CPU)、图形处理器(Graphics ProcessingUnit，GPU)或者具有数据处理能力、图像处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储器104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的图像分割功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种图像等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如，用户)输出各种信息(例如，图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述图像采集装置110可以拍摄用户期望的图像(例如照片、视频等)，并且将所拍摄的图像存储在所述存储器104中以供其它组件使用。可选地，图像采集装置110包括彩色相机和深度相机。

彩色相机用于拍摄相机视野内的物体的RGB图像(彩色图像)，RGB图像可以保留被拍摄的物体的细节信息。

深度相机用于拍摄相机视野内的物体的深度图像，深度图像可以表现出被拍摄物体的不同部位与相机之间的距离，进而体现被拍摄物体的三维信息。深度相机可以采用红外深度相机，一般具有两个红外摄像头，相当于人的两只眼睛，因此也可称为红外双目视觉相机。将深度相机和RGB相机调整为拍摄角度一致，即可得到RGB图像和RGB图像对应的深度图像。

实施例二：

本实施例提供了一种目标检测方法，可以提高目标检测的精度和准确度，图2示出了该目标检测方法的流程图；图3示出了该目标检测方法的网络的执行过程示意图。该需要说明的是，在图2的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。以下对本实施例进行详细介绍。

如图2和图3所示，本实施例提供的目标检测方法，包括如下步骤：

步骤S202，获取包含待检测目标的RGB图像及RGB图像对应的深度图像。

其中，RGB图像可以是图像采集装置中的彩色相机(RGB相机)实时采集的图像，也可以为预先存储的图像。如果RGB图像是预先存储的图像，也需要同时存储RGB图像对应的深度图像。RGB图像对应的深度图像为图像采集装置中的深度相机采集的，深度相机与彩色相机对应设置。RGB图像及对应的深度图像是同步采集的。深度图像可以表现出被拍摄物体的不同部位与相机之间的距离，进而体现被拍摄物体的三维信息。另外，RGB图像可以是图片格式的图像，也可以是视频中的图像帧，本发明实施例不作限制。

本发明实施例提供的目标检测方法可以检测RGB图像中是否包含目标对象，还可以检测目标对象的位置。所述目标对象包括但不限于人脸、行人、车辆、动物或植物等。目标对象还可以是动物的一部分或植物的一部分。

步骤S204，从RGB图像中提取初步特征图。

可选地，可以通过第一特征提取网络对RGB图像进行特征提取，得到初步特征图。第一特征提取网络可以采用全卷积神经网络(Fully Convolutional Neuron networks，FCN)的网络结构。

在一种可选的实施例中，全卷积神经网络可以包括至少一个卷积层和至少一个池化层，卷积层和池化层可以间隔设置，即相邻的池化层之间可以设置一个或多个卷积层。每个卷积层包括一个或多个用于从RGB图像的像素矩阵中提取特征信息的第一卷积核，用第一卷积核按照一定的步长遍历RGB图像的像素矩阵，得到至少一个特征值，由至少一个特征值组成特征图。池化层用于将卷积层输出的特征图进行降维处理，减小特征图的尺度。全卷积神经网络的最后一个池化层输出的特征图为初步特征图。在另一种可选的实施例中，全卷积神经网络还可以包括至少一个上采样层，上采样层连接在最后一个池化层之后，用于将最后一个池化层输出的特征图放大，可以得到与RGB图像大小相同的初步特征图。

步骤S206，从深度图像中提取深度特征图。

可选地，可以通过第二特征提取网络对深度图像进行特征提取，得到深度特征图。第二特征提取网络也可以采用全卷积神经网络的网络结构，用于对RGB图像对应的深度图像进行特征提取。第二特征提取网络的网络结构可以与第一特征提取网络的网络结构相同，在此不再赘述。

考虑到如果拍摄环境较暗，深度相机的感光元件在光线不足的情况下所拍摄的深度图像，通常会出现局部噪点较多，拍摄的物体细节丢失等现象。为了保证目标检测的精度，可以先对获取的深度图像进行去噪处理，再将去噪处理后的深度图像输入第二特征提取网络，得到深度特征图。

可选地，可以通过降噪网络对获取的深度图像(原有深度图像)进行去噪处理。将深度图像输入降噪网络，降噪网络输出与原有深度图像大小相同的去噪处理后的深度图像。降噪网络可以采用卷积-反卷积神经网络。该卷积-反卷积神经网络包括卷积神经网络和反卷积神经网络。其中，卷积神经网络和反卷积神经网络可以采用对称的结构。卷积神经网络用于降低原有深度图像的噪点，得到原有深度图像的降噪特征图。反卷积神经网络用于将降噪特征图映射至原有深度图像的大小，得到去噪处理后的深度图像。

示例性地，降噪网络的卷积神经网络包含至少一个卷积层，至少一个卷积层中的每个卷积层包括一个或多个用于从原有深度图像的像素矩阵中降低图像噪点，提取有用信息的第二卷积核，用第二卷积核按照一定的步长遍历原有深度图像的像素矩阵，得到至少一个降噪特征值，由至少一个降噪特征值组成降噪特征图。反卷积神经网络包含至少一个反卷积层，并且至少一个反卷积层中的每个反卷积层可以包含有与对应卷积层相同数量的第三卷积核，通过反卷积层后，可以得到与原有深度图像大小相同的去噪处理后的深度图像。例如，将一幅大小为256*256*1的深度图像输入降噪网络，经过卷积神经网络，得到16*16*512的降噪特征图，降噪特征图经过反卷积神经网络，可以得到256*256*1的去噪处理后的深度图像。

可选地，还可以通过常规的图像去噪算法对获取的深度图像进行去噪处理，如均值滤波算法、高斯滤波算法等等。

为了节省电子设备的电能，可以仅将暗光环境下拍摄的深度图像进行去噪处理。例如，在拍摄深度图像时，可以先判断当前拍摄环境中的光线亮度是否小于设定的亮度阈值。具体地，可以通过感光元件(如光敏传感器)感知当前拍摄环境中的光线亮度。如果当前拍摄环境中的光线亮度小于设定的亮度阈值，则对获取的深度图像进行去噪处理，将去噪处理后的深度图像输入第二特征提取网络，得到深度特征图。如果当前拍摄环境中的光线亮度大于或等于设定的亮度阈值，则将获取的深度图像直接输入第二特征提取网络，得到深度特征图。

步骤S208，将初步特征图和深度特征图输入特征融合网络，得到特征融合网络输出的融合特征图。

示例性地，特征融合网络可以包括第一特征金字塔网络、第二特征金字塔网络和融合金字塔网络。通过第一特征金字塔网络提取初步特征图的多个尺度的子特征图；通过第二特征金字塔网络提取所述深度特征图的多个尺度的子特征图；将初步特征图的多个尺度的子特征图与深度特征图的对应尺度的子特征图进行级联，得到多个尺度的级联子特征图；将多个尺度的级联子特征图输入融合金字塔网络，得到融合金字塔网络输出的融合特征图。

具体地说，第一特征金字塔网络包括多个特征网络层，每个特征网络层输出初步特征图的一个尺度的子特征图，每个特征网络层输出的子特征图的尺度与其它特征网络层不同，因此，第一特征金字塔网络可以提取初步特征图的多个不同尺度的子特征图。一种可选的网络结构为：每个特征网络层包括至少一个卷积层和至少一个池化层，卷积层用于提取初步特征图中的特征信息，生成子特征图，池化层用于缩小子特征图的尺度。另一种可选的网络结构为：每个特征网络层包括多个卷积层，其中，至少一个卷积层的步长大于或等于2，用于缩小子特征图的尺度，起到与池化层相同的作用。

第二特征金字塔网络可以采用与第一特征金字塔网络相同的网络结构，在此不再赘述。第二特征金字塔网络所包含的特征网络层的层数也可以与第一特征金字塔网络相同。

融合金字塔网络包括多层融合网络层，每个融合网络层包括上采样层和卷积层。每层融合网络层将上一融合网络层传递的融合子特征图与本层融合网络层接收到的级联子特征图进行融合，得到本层融合网络层的融合子特征图传递至下一融合网络层。

在一具体的实施例中，如图4所示，第一特征金字塔网络包括一个输入层和三个顺次连接的特征网络层，第二特征金字塔网络也包括一个输入层和三个顺次连接的特征网络层，融合金字塔网络包括一个输入层、三个顺次连接的融合网络层和一个输出层。

初步特征图经第一特征金字塔网络的输入层后，得到第一初步子特征图。第一初步子特征图经第一特征金字塔网络的第一特征网络层后，得到第二初步子特征图。第二初步子特征图经第一特征金字塔网络的第二特征网络层后，得到第三初步子特征图。第三初步子特征图经第一特征金字塔网络的第三特征网络层后，得到第四初步子特征图。由于三个特征网络层顺次连接，所以第二初步子特征图、第三初步子特征图和第四初步子特征图的尺度依次减小。

深度特征图经第二特征金字塔网络的输入层后，得到第一深度子特征图。第一深度子特征图经第二特征金字塔网络的第一特征网络层后，得到第二深度子特征图。第二深度子特征图经第二特征金字塔网络的第二特征网络层后，得到第三深度子特征图。第三深度子特征图经第二特征金字塔网络的第三特征网络层后，得到第四深度子特征图。由于三个特征网络层顺次连接，所以第二深度子特征图、第三深度子特征图和第四深度子特征图的尺度依次减小。

其中，第四初步子特征图与第四深度子特征图进行级联，生成第一级联子特征图，第一级联子特征图输入融合金字塔网络的输入层，经输入层的卷积层得到第一融合子特征图。第三初步子特征图与第三深度子特征图进行级联，生成第二级联子特征图输入第一融合网络层，第一融合子特征图经第一融合网络层的上采样层后尺度放大，第二级联子特征图和尺度放大的第一融合子特征图经第一融合网络层的卷积层进行特征融合，得到第二融合子特征图。第二初步子特征图与第二深度子特征图进行级联，生成第三级联子特征图输入第二融合网络层，第二融合子特征图经第二融合网络层的上采样层后尺度放大，第二级联子特征图和尺度放大的第二融合子特征图经第二融合网络层的卷积层进行特征融合，得到第三融合子特征图。第二级联子特征图和尺度放大的第一融合子特征图经第一融合网络层的卷积层进行特征融合，得到第二融合子特征图。第一初步子特征图与第一深度子特征图进行级联，生成第一级联子特征图输入第三融合网络层，第三融合子特征图经第三融合网络层的上采样层后尺度放大，第一级联子特征图和尺度放大的第三融合子特征图经第三融合网络层的卷积层进行特征融合，得到第四融合子特征图。其中，第四级联子特征图、第三级联子特征图、第二级联子特征图和第一级联子特征图的尺度逐一增大。可以说，多个尺度的级联子特征图按照尺度由小到大的顺序分别对应输入上述输入层和每层融合网络层，即尺度最小的第四级联子特征图输入上述输入层，尺度最大的第一级联子特征图输入第三融合网络层。

在一可选的实施例中，可以将第四融合子特征图作为融合特征图直接输出。在图4所示的特征融合网络中，第四融合子特征图经融合金字塔网络的输出层后，输出融合特征图。

示例性地，第一特征金字塔网络和第二特征金字塔网络的每个特征网络层可以将输入的特征图缩小至原来的1/2。融合金字塔网络的每个融合网络层可以将输入的特征图放大至原来的2倍。

以待检测的目标对象为人脸为例，由于特征融合网络采用了特征金字塔网络，可以获取多个不同尺度的子特征图，感受野的变化范围也较大，可以检测出不同尺度的人脸。感受野又可称为接收野，被定义为卷积神经网络特征所能看到输入图像的区域，也可理解为特征图上的一个点对应输入图像上的区域。感受野小的特征图有助于检测小目标，感受野大的特征图有助于检测大目标。综上所述，本发明实施例采用的特征融合网络，具有多种感受野，能够对不同尺度的目标对象进行检测。并且，采用特征融合网络，可以使RGB图像的特征信息和深度图像的特征信息更全面的融合。

步骤S210，基于融合特征图进行目标检测。

将融合特征图输入目标检测网络，得到目标检测网络输出的检测结果。检测结果可以包括RGB图像是否包含目标对象，还可以包括目标对象在RGB图像中的位置。

其中，目标检测网络可以包括分类子网络和/或回归子网络；所述分类子网络用于确定RGB图像是否包含目标对象；所述回归子网络用于确定RGB图像所包含的目标对象的位置。当目标检测网络包括分类子网络和回归子网络时，分类子网络和回归子网络并行设置。

分类子网络(classification subnet)包括多个卷积层，主要用于目标分类。将融合特征图输入分类子网络，分类子网络可以判断输入的融合特征图中是否有目标对象出现，输出目标对象出现的可能性，即目标对象在RGB图像中出现的可能性。例如，在人脸检测任务中，分类子网络可以输出“是否存在人脸”的检测结果。

回归子网络(regression subnet)也包括多个卷积层，主要用于目标定位，目标定位任务也可认为是回归任务。将融合特征图输入回归子网络，回归子网络可以确定输入的融合特征图中目标对象的位置，即目标对象在RGB图像中的位置。回归子网络可以输出标示目标对象位置的矩形包围框。例如，在人脸检测任务中，回归子网络可以输出“人脸的回归框坐标”，回归框也即回归子网络预测的人脸的矩形包围框，表征人脸所在的具体位置。

应当说明的是，本发明实施例提供目标检测方法并不以图2以及上述的具体顺序为限制。如步骤S204和步骤S206可以根据实际需要相互交换。

本发明实施例提供的目标检测方法，通过获取RGB图像对应的深度图像，在进行目标检测时，结合RGB图像的特征信息和RGB图像对应的深度图像的特征信息进行检测，提高了目标检测的精度，尤其对于暗光环境下拍摄的图像，提高了目标检测的精度和准确率，减少了在暗光图像中无法检测到目标对象的情况。

为了使上述第一特征金字塔网络、第二特征金字塔网络、特征融合网络和目标检测网络可以直接应用于对RGB图像进行目标检测，输出较为准确可靠的结果，需要预先对第一特征金字塔网络、第二特征金字塔网络、特征融合网络和目标检测网络进行训练。以下详细说明第一特征金字塔网络、第二特征金字塔网络、特征融合网络和目标检测网络的训练过程。

获取训练图像样本集，采用训练图像样本集对网络模型进行训练；所述网络模型至少包括以下网络之一：第一特征提取网络、第二特征提取网络、特征融合网络、目标检测网络。所述训练图像样本集包括多张训练图像和每张训练图像对应的深度图像。其中，训练图像可以是通过彩色相机拍摄的图片或视频中的图像帧，深度图像是通过深度相机拍摄的深度图。训练图像与其对应的深度图像是同步拍摄的。多张训练图像中的一些包含目标对象，另一些不包含目标对象。在包含目标对象的训练图像中，通过人工标注的方式设置标签，标出目标对象的位置。

在一种可选的实施例中，对第一特征金字塔网络、第二特征金字塔网络、特征融合网络和目标检测网络进行训练时，从训练图像样本集中随机选取一张训练图像和该训练图像对应的深度图像；将训练图像输入第一特征金字塔网络，得到训练图像的初步特征图；将深度图像输入第二特征金字塔网络，得到训练图像的深度特征图；将训练图像的初步特征图和深度特征图输入特征融合网络，得到训练图像的融合特征图。将训练图像的融合特征图输入目标检测网络，得到训练图像的检测结果。将训练图像的检测结果与人工标注的标签进行对比，采用预设的损失函数计算损失值。损失值是判定实际的输出与期望的输出的接近程度。损失值越小，说明实际的输出越接近期望的输出。可以采用反向传播算法，根据损失值调整第一特征金字塔网络、第二特征金字塔网络、特征融合网络和目标检测网络的参数，直至损失值收敛至预设的期望值时，完成对第一特征金字塔网络、第二特征金字塔网络、特征融合网络和目标检测网络的训练，将当前参数作为第一特征金字塔网络、第二特征金字塔网络、特征融合网络和目标检测网络的参数。

实施例三：

对应于上述方法实施例，本实施例提供了一种目标检测装置，参见图5所示的一种目标检测装置的结构示意图，该装置包括：

图像获取模块51，用于获取包含待检测目标的RGB图像及所述RGB图像对应的深度图像；

特征提取模块52，用于从所述RGB图像中提取初步特征图，以及从所述深度图像中提取深度特征图；

特征融合模块53，用于将所述初步特征图和所述深度特征图输入特征融合网络，得到所述特征融合网络输出的融合特征图；

目标检测模块54，用于基于所述融合特征图进行目标检测。

其中，特征提取模块52还可以用于：通过第一特征提取网络对所述RGB图像进行特征提取，得到初步特征图；通过第二特征提取网络对所述深度图像进行特征提取，得到深度特征图；所述第一特征提取网络和/或第二特征提取网络采用全卷积神经网络的网络结构。

特征提取模块52还可以用于：对获取的所述深度图像进行去噪处理；将去噪处理后的深度图像输入所述第二特征提取网络，得到所述深度特征图。

所述特征融合网络包括第一特征金字塔网络、第二特征金字塔网络和融合金字塔网络。特征融合模块53还可以用于：通过所述第一特征金字塔网络提取所述初步特征图的多个尺度的子特征图；通过所述第二特征金字塔网络提取所述深度特征图的多个尺度的子特征图；通过所述融合金字塔网络对所述初步特征图和所述深度特征图的多个尺度的子特征图进行特征融合，得到所述融合特征图。例如，将所述初步特征图的多个尺度的子特征图与所述深度特征图的对应尺度的子特征图进行级联，得到多个尺度的级联子特征图；将所述多个尺度的级联子特征图输入所述融合金字塔网络，得到所述融合金字塔网络输出的融合特征图。

可选地，所述第一特征金字塔网络和/或所述第二特征金字塔网络包括多个特征网络层，每个特征网络层包括至少一个卷积层；每个特征网络层输出一个尺度的子特征图。所述每个特征网络层中至少一个卷积层的步长大于或等于2。或者，所述每个特征网络层包括至少一个池化层。

所述融合金字塔网络包括输入层和多层融合网络层；所述多个尺度的级联子特征图按照尺度由小到大的顺序分别对应输入所述输入层和每层所述融合网络层；所述输入层用于根据接收到的级联子特征图生成输入层的融合子特征图传递至第一层融合网络层；每层融合网络层将接收到的融合子特征图和级联子特征图进行融合，得到本层融合网络层的融合子特征图传递至下一融合网络层。每个融合网络层包括上采样层和卷积层；所述上采样层用于对接收到的融合子特征图进行上采样；所述卷积层用于将本层融合网络层接收到的级联子特征图和经上采样的融合子特征图进行融合，生成本层融合网络层的融合子特征图。

目标检测模块54还可以用于：将所述融合特征图输入目标检测网络，得到目标检测网络输出的检测结果；所述目标检测网络包括分类子网络和/或回归子网络；所述分类子网络用于确定所述RGB图像是否包含目标对象；所述回归子网络用于确定所述RGB图像所包含的目标对象的位置。

在一种可选的实施例中，上述目标检测装置还可以包括训练模块，训练模块与图像获取模块51连接，用于获取训练图像样本集；所述训练图像样本集包括训练图像和每张训练图像对应的深度图像；采用所述训练图像样本集对网络模型进行训练；所述网络模型至少包括以下网络之一：第一特征提取网络、第二特征提取网络、特征融合网络、目标检测网络。

本发明实施例提供了一种目标检测装置，通过获取RGB图像对应的深度图像，在进行目标检测时，结合RGB图像的特征信息和RGB图像对应的深度图像的特征信息进行检测，提高了目标检测的精度，尤其对于暗光环境下拍摄的图像，提高了目标检测的精度和准确率。

本实施例所提供的装置，其实现原理及产生的技术效果和前述实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

本发明实施例还提供了一种电子设备，包括图像采集装置、存储器、处理器。所述图像采集装置，用于采集图像数据；所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现前述方法实施例所记载的方法。

可选地，图像采集装置可以包括彩色相机和深度相机。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的电子设备的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

进一步，本实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述前述方法实施例所提供的方法的步骤，具体实现可参见方法实施例，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种目标检测方法，其特征在于，包括：

从所述RGB图像中提取初步特征图；

从所述深度图像中提取深度特征图；

通过特征融合网络提取所述初步特征图的多个尺度的子特征图和所述深度特征图的多个尺度的子特征图；

将所述多个尺度的级联子特征图输入融合金字塔网络，得到所述融合金字塔网络输出的融合特征图；所述融合金字塔网络包括输入层和与所述输入层顺次连接的多层融合网络层；所述多个尺度的级联子特征图按照尺度由小到大的顺序分别对应输入所述输入层和每层所述融合网络层；

基于所述融合特征图进行目标检测。

2.根据权利要求1所述的方法，其特征在于，所述特征融合网络包括第一特征金字塔网络、第二特征金字塔网络和所述融合金字塔网络；所述第一特征金字塔网络和/或所述第二特征金字塔网络包括多个特征网络层，每个特征网络层包括至少一个卷积层；每个特征网络层输出一个尺度的子特征图。

3.根据权利要求2所述的方法，其特征在于，所述每个特征网络层中至少一个卷积层的步长大于或等于2。

4.根据权利要求2所述的方法，其特征在于，所述每个特征网络层包括至少一个池化层。

5.根据权利要求1所述的方法，其特征在于，所述输入层用于根据接收到的级联子特征图生成输入层的融合子特征图传递至第一层融合网络层；每层所述融合网络层将接收到的融合子特征图和级联子特征图进行融合，得到本层融合网络层的融合子特征图传递至下一融合网络层。

6.根据权利要求1所述的方法，其特征在于，每层所述融合网络层包括上采样层和卷积层；所述上采样层用于对接收到的融合子特征图进行上采样；所述卷积层用于将本层融合网络层接收到的级联子特征图和经上采样的融合子特征图进行融合，生成本层融合网络层的融合子特征图。

7.根据权利要求1所述的方法，其特征在于，基于所述融合特征图进行目标检测的步骤，包括：

8.根据权利要求1或7所述的方法，其特征在于，所述获取RGB图像及所述RGB图像对应的深度图像的步骤之前，所述方法还包括：

9.一种目标检测装置，其特征在于，包括：

特征提取模块，用于从所述RGB图像中提取初步特征图，以及从所述深度图像中提取深度特征图；

特征融合模块，用于通过特征融合网络提取所述初步特征图的多个尺度的子特征图和所述深度特征图的多个尺度的子特征图；

目标检测模块，用于基于所述融合特征图进行目标检测。

10.一种电子设备，其特征在于，包括图像采集装置、存储器、处理器；

所述图像采集装置，用于采集图像数据；

所述存储器中存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1～8中任一项所述的方法的步骤。

11.根据权利要求10所述的电子设备，其特征在于，所述图像采集装置包括彩色相机和深度相机。

12.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行上述权利要求1至8任一项所述的方法的步骤。