CN107610113A

CN107610113A - 一种图像中基于深度学习的小目标的检测方法及装置

Info

Publication number: CN107610113A
Application number: CN201710820882.XA
Authority: CN
Inventors: 马华东; 刘武; 程鹏
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2017-09-13
Filing date: 2017-09-13
Publication date: 2018-01-19

Abstract

本发明实施例提供了一种图像中基于深度学习的小目标的检测方法及装置，所述方法包括：获取待检测图像；基于待检测图像及预先训练完成的目标检测器模型，获得待检测图像中目标的类别及其在待检测图像中位置坐标，该过程包括：将待检测图像输入目标特征提取器，得到特征图；将特征图输入目标区域生成网络，得到候选框的坐标；将候选框坐标输入上下文信息层，根据候选框坐标，按照预设计算方式进行计算，得到垂直候选框坐标及水平候选框坐标；将各候选框坐标及特征图输入目标区域分类网络，得到目标的类别及位置坐标。即使对于图像中较小的目标，由于目标区域分类网络得到了更多的特征信息，因此提高了在检测像交通指示牌之类的小目标时的准确率。

Description

一种图像中基于深度学习的小目标的检测方法及装置

技术领域

本发明涉及图像处理技术领域，特别是涉及一种图像中基于深度学习的小目标的检测方法及装置。

背景技术

图像中目标的检测在各个领域应用广泛，例如，在自动驾驶领域中，图像中交通指示牌的检测是非常重要的环节，其目的是检测图像中的交通指示牌位置，进而通过交通指示牌的识别，指导车辆的行驶，保证行车安全。

图像中目标的检测技术中，Faster r-cnn(加速区域卷积神经网络)检测器最为常用。该检测器由三个部分构成，特征提取器，区域生成网络及区域分类网络，在实际检测前需要对Faster r-cnn检测器进行训练。在实际检测过程中，首先将图像输入特征提取器中进行卷积运算，得到整张图像的特征图。然后将得到的特征图送入区域生成的网络中，通过区域生成网络的卷积运算，确定有可能成为候选框的矩形框的坐标，坐标表示为(x₁，y₁，x₂，y₂)，其中(x₁，y₁)表示矩形框的左上角的坐标，(x₂，y₂)表示矩形框的右下角的坐标，通过这两个坐标可以唯一确定矩形框的位置。最后将特征图和候选框的坐标(x₁，y₁，x₂，y₂)输入区域分类网络中，区域分类网络根据候选框的坐标提取出整张特征图中候选框的特征，根据其包含的特征与类别的对应关系，得到候选框中物体的类别，并根据候选框中物体在图像中的宽和高，对候选框的坐标进行精调，于是可以得到类别为检测目标的候选框和精调后的候选框坐标，完成图像中目标的检测，可以理解的是，精调后的候选框坐标对应的区域即为图像中目标所在区域。

在上述方法中，对于在图像中面积较小的目标，由于特征提取器得到的特征图中特征信息非常少，这意味着难以进行分类，检测器在检测像交通指示牌之类的小目标时是非常困难的。例如，Faster r-cnn的特征提取器采用的VGG16(牛津VGG深度卷积网络)的架构，对于最后一层卷积层来说，特征提取器的提取出来的特征图相比于原图像缩小16倍。这意味着当目标在原图像中的像素不足16*16的时候，在特征图中，该目标的特征将小于1个像素。即使区域生成网络准确的提供了目标的位置，由于目标的特征信息少于一个像素，特征信息太过稀少，区域分类网络也无法进行分类。

发明内容

本发明实施例的目的在于提供一种图像中基于深度学习的小目标的检测方法及装置，以提高对图像中面积较小的目标的检测准确率。具体技术方案如下：

第一方面，本发明实施例提供了一种图像中基于深度学习的小目标的检测方法，所述方法包括：

获取待检测图像；

基于所述待检测图像及预先训练完成的目标检测器模型，获得所述待检测图像中目标的类别及其在所述待检测图像中位置坐标，其中，所述目标检测器模型包括目标特征提取器、目标区域生成网络、预先建立的上下文信息层及目标区域分类网络，所述获得所述目标的类别及其在所述待检测图像中位置坐标的过程包括：

将所述待检测图像输入所述目标特征提取器，对所述待检测图像进行第一预设卷积运算，得到特征图；

将所述特征图输入所述目标区域生成网络，对所述特征图进行第二预设卷积运算，得到候选框的坐标；

将所述候选框坐标输入所述上下文信息层，根据候选框坐标，按照预设计算方式进行计算，得到垂直候选框坐标及水平候选框坐标；

将所述垂直候选框坐标、水平候选框坐标、候选框坐标及所述特征图输入所述目标区域分类网络，根据所包含的特征与类别的对应关系、所述垂直候选框坐标、水平候选框坐标、候选框坐标及所述特征图，得到所述目标的类别及位置坐标。

可选的，所述将所述候选框坐标输入所述上下文信息层，根据候选框坐标，按照预设计算方式进行计算，得到垂直候选框坐标及水平候选框坐标的步骤，包括：

将所述候选框坐标输入所述上下文信息层；

所述上下文信息层根据公式x_1h＝x₁,x_2h＝x₂,y_1h＝max(0，2y₁-y₂)，y_2h＝min(H，2y₂-y₁)，计算垂直候选框坐标(x_1h，y_1h，x_2h，y_2h)；

根据公式x_1w＝max(0，2x₁-x₂),x_2w＝min(W，2x₂-x₁),y_1w＝y₁，y_2w＝y₂，计算水平候选框坐标(x_1w，y_1w，x_2w，y_2w)；

其中，(x₁，y₁，x₂，y₂)为以所述特征图的左上角为原点的所述候选框的坐标，H为所述待检测图像的高度，W为所述待检测图像的宽度。

可选的，所述将所述垂直候选框坐标、水平候选框坐标、候选框坐标及所述特征图输入所述目标区域分类网络，根据所包含的特征与类别的对应关系、所述垂直候选框坐标、水平候选框坐标、候选框坐标及所述特征图，得到所述目标的类别及位置坐标的步骤，包括：

将所述垂直候选框坐标、水平候选框坐标、候选框坐标及所述特征图输入所述目标区域分类网络；

所述目标区域分类网络分别根据所述垂直候选框坐标、水平候选框坐标、候选框坐标，从所述特征图中提取垂直候选框特征、水平候选框特征及候选框特征；

将所述垂直候选框特征、水平候选框特征及候选框特征进行拼接，并进行降维处理，得到目标特征，其中，所述目标特征的维度与所述候选框特征的维度相同；

根据所述目标特征以及包含的特征与类别的对应关系，得到所述目标特征对应的类别，并对所述候选框的坐标进行精调，得到精调后的候选框坐标；

将所述目标特征对应的类别确定为所述目标的类别，将所述精调后的候选框坐标确定为所述目标的位置坐标。

可选的，所述目标检测器模型的训练方式包括：

构建初始检测器模型，其中，所述初始检测器模型包括初始特征提取器、初始区域生成网络、上下文信息层及初始区域分类网络；

获取图像样本，记录所述图像样本中目标的位置坐标及目标的类别；

将所述图像样本、所述图像样本中目标的位置坐标及目标的类别输入所述初始检测器模型，得到预测的目标的类别及位置坐标；

分别计算所记录的位置坐标与预测的位置坐标的第一残差，及所记录的目标的类别与预测的目标的类别的第二残差；

根据所述第一残差及所述第二残差，调整所述初始特征提取器、初始区域生成网络及初始区域分类网络的参数；

当迭代次数达到预设次数时，完成训练，得到包含目标特征提取器、目标区域生成网络、上下文信息层及目标区域分类网络的目标检测器模型。

第二方面，本发明实施例提供了一种图像中基于深度学习的小目标的检测装置，所述装置包括：

待检测图像获取模块，用于获取待检测图像；

目标检测模块，用于基于所述待检测图像及由检测器模型训练模块预先训练完成的目标检测器模型，获得所述待检测图像中目标的类别及其在所述待检测图像中位置坐标，其中，所述目标检测器模型包括目标特征提取器、目标区域生成网络、预先建立的上下文信息层及目标区域分类网络；

所述目标检测模块，具体用于将所述待检测图像输入所述目标特征提取器，对所述待检测图像进行第一预设卷积运算，得到特征图；将所述特征图输入所述目标区域生成网络，对所述特征图进行第二预设卷积运算，得到候选框的坐标；将所述候选框坐标输入所述上下文信息层，根据候选框坐标，按照预设计算方式进行计算，得到垂直候选框坐标及水平候选框坐标；将所述垂直候选框坐标、水平候选框坐标、候选框坐标及所述特征图输入所述目标区域分类网络，根据所包含的特征与类别的对应关系、所述垂直候选框坐标、水平候选框坐标、候选框坐标及所述特征图，得到所述目标的类别及位置坐标。

可选的，所述目标检测模块包括：

上下文信息提取单元，用于将所述候选框坐标输入所述上下文信息层；所述上下文信息层根据公式x_1h＝x₁,x_2h＝x₂,y_1h＝max(0，2y₁-y₂)，y_2h＝min(H，2y₂-y₁)，计算垂直候选框坐标(x_1h，y_1h，x_2h，y_2h)；根据公式x_1w＝max(0，2x₁-x₂),x_2w＝min(W，2x₂-x₁),y_1w＝y₁，y_2w＝y₂，计算水平候选框坐标(x_1w，y_1w，x_2w，y_2w)；其中，(x₁，y₁，x₂，y₂)为以所述特征图的左上角为原点的所述候选框的坐标，H为所述待检测图像的高度，W为所述待检测图像的宽度。

可选的，所述目标检测模块包括：

目标检测单元，用于将所述垂直候选框坐标、水平候选框坐标、候选框坐标及所述特征图输入所述目标区域分类网络；所述目标区域分类网络分别根据所述垂直候选框坐标、水平候选框坐标、候选框坐标，从所述特征图中提取垂直候选框特征、水平候选框特征及候选框特征；将所述垂直候选框特征、水平候选框特征及候选框特征进行拼接，并进行降维处理，得到目标特征；根据所述目标特征以及包含的特征与类别的对应关系，得到所述目标特征对应的类别，并对所述候选框的坐标进行精调，得到精调后的候选框坐标；将所述目标特征对应的类别确定为所述目标的类别，将所述精调后的候选框坐标确定为所述目标的位置坐标，其中，所述目标特征的维度与所述候选框特征的维度相同。

可选的，所述检测器模型训练模块包括：

检测器模型构建单元，用于构建初始检测器模型，其中，所述初始检测器模型包括初始特征提取器、初始区域生成网络、上下文信息层及初始区域分类网络；

图像样本获取单元，用于获取图像样本，记录所述图像样本中目标的位置坐标及目标的类别；

图像样本输入单元，用于将所述图像样本、所述图像样本中目标的位置坐标及目标的类别输入所述初始检测器模型，得到预测的目标的类别及位置坐标；

残差计算单元，用于分别计算所记录的位置坐标与预测的位置坐标的第一残差，及所记录的目标的类别与预测的目标的类别的第二残差；

参数调整单元，用于根据所述第一残差及所述第二残差，调整所述初始特征提取器、初始区域生成网络及初始区域分类网络的参数；

训练结束单元，用于当迭代次数达到预设次数时，完成训练，得到包含目标特征提取器、目标区域生成网络、上下文信息层及目标区域分类网络的目标检测器模型。

第三方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述的方法步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法步骤。

本发明实施例提供的方案中，首先获取待检测图像，然后基于待检测图像及预先训练完成的目标检测器模型，获得目标的类别及其在所述待检测图像中位置坐标，其中，获得目标的类别及其在待检测图像中位置坐标的过程包括：将待检测图像输入目标特征提取器，对待检测图像进行第一预设卷积运算，得到特征图，将特征图输入目标区域生成网络，对特征图进行第二预设卷积运算，得到候选框的坐标，然后将候选框坐标输入上下文信息层，根据候选框坐标，按照预设计算方式进行计算，得到垂直候选框坐标及水平候选框坐标，将垂直候选框坐标、水平候选框坐标、候选框坐标及特征图输入目标区域分类网络，根据所包含的特征与类别的对应关系、所述垂直候选框坐标、水平候选框坐标、候选框坐标及所述特征图，得到目标的类别及位置坐标。由于目标区域分类网络可以根据上下文信息层输出的垂直候选框坐标及水平候选框坐标得到目标的类别及位置坐标，对于图像中面积较小的目标，由于目标区域分类网络得到了更多的特征信息，因此提高了在检测像交通指示牌之类的小目标时的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所提供的一种图像中基于深度学习的小目标的检测方法的流程图；

图2为图1所示实施例中步骤S102的具体流程图；

图3为图2所示实施例中步骤S204的具体流程图；

图4为图1所示实施例中目标检测器模型的训练方式的流程图；

图5为本发明实施例所提供的一种图像中基于深度学习的小目标的检测装置的结构示意图；

图6为本发明实施例所提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了提高检测图像中像交通指示牌之类的小目标时的准确率，本发明实施例提供了一种图像中基于深度学习的小目标的检测方法、装置、电子设备及计算机可读存储介质。

下面首先对本发明实施例所提供的一种图像中基于深度学习的小目标的检测方法进行介绍。

需要说明的是，本发明实施例所提供的一种图像中基于深度学习的小目标的检测方法可以应用于任意需要进行图像检测处理的电子设备，以下简称电子设备。可以为电脑、平板电脑等，在此不做具体限定。

如图1所示，一种图像中基于深度学习的小目标的检测方法，所述方法包括：

S101，获取待检测图像；

可以理解的是，待检测图像即为包含所需检测的目标的图像。该待检测图像可以是电子设备本地存储的图像，当然也可以是与电子设备建立通信连接的图像采集设备采集并发送的图像。对于无人驾驶等需要实时进行图像检测的情况，该待检测图像可以是图像采集设备采集并实时发送的，这都是合理的。

S102，基于所述待检测图像及预先训练完成的目标检测器模型，获得所述待检测图像中目标的类别及其在所述待检测图像中位置坐标。

电子设备获取待检测图像后，便可以将该待检测图像输入预先训练完成的目标检测器模型中，经目标检测器模型处理，进而得到待检测图像中目标的类别及其在待检测图像中位置坐标。其中，该目标检测器可以包括目标特征提取器、目标区域生成网络、预先建立的上下文信息层及目标区域分类网络。

具体来说，如图2所示，上述获得目标的类别及其在待检测图像中位置坐标的过程可以包括：

S201，将所述待检测图像输入所述目标特征提取器，对所述待检测图像进行第一预设卷积运算，得到特征图；

首先待检测图像会被输入目标特征提取器中，目标特征提取器可以为VGG16中的卷积层组成的特征提取器，目标特征提取器对待检测图像进行第一预设卷积运算。其中，第一预设卷积运算的卷积核大小及步长可以根据实际检测需要等因素进行设定，在此不做具体限定。例如，采用卷积核大小为(3*3)，步长为(1*1)的卷积层对待检测图像进行第一预设卷积运算，进而，便可以得到待检测图像的特征图。可以理解的是，由于卷积运算的特性，在该特征图中，所有物体之间的相对位置与在待检测图像中是相同的。

上述目标特征提取器可能包括多层卷积层，分别对前一层卷积层的输出结果进行卷积运算，不同卷积层的卷积核和步长有可能不同，具体数值可以根据实际特征提取需要确定。特征图一般便为最后一层卷积层的输出结果。

S202，将所述特征图输入所述目标区域生成网络，对所述特征图进行第二预设卷积运算，得到候选框的坐标；

目标特征提取器输出的特征图，输入目标区域生成网络中，目标区域生成网络对特征图进行第二预设卷积运算，进而得到得到候选框的坐标。

在一种实施方式中，可以采用输出分别为2*9＝18，4*9＝36，卷积核大小为1*1，步长为1的两个卷积层分别对特征图进行卷积运算。其中，2*9中的2表示2个类别，即前景或者背景，可以理解的是，目标区域生成网络需要的生成的是类别为前景的候选框。2*9中的9表示特征图中每个特征点生成了9个选框，该9个选框的大小可以是预先设置的，在此不做具体限定。选框的中心点则为特征点。需要说明的是，上述9个选框用来在训练目标检测器时计算选框残差，而并不影响候选框的生成。

4*9中的4则表示候选框的四个坐标点，即x₁、y₁、x₂及y₂。而9和上述2*9中的9一样，代表着每个特征点生成了9个选框，而该9个选框也用来在训练目标检测器时计算残差，不影响候选框的生成。

可以理解的是，目标区域生成网络需要类别为前景的侯选框的坐标即可，侯选框的坐标表示为(x₁，y₁，x₂，y₂)，其中，(x₁，y₁)表示侯选框的左上角的坐标，(x₂，y₂)表示侯选框的右下角的坐标，通过这两个坐标可以唯一确定侯选框的位置，即为一个矩形框。

S203，将所述候选框坐标输入所述上下文信息层，根据候选框坐标，按照预设计算方式进行计算，得到垂直候选框坐标及水平候选框坐标；

目标区域生成网络得到上述候选框坐标后，将其输入预先建立的上下文信息层，上下文信息层按照预设计算方式进行计算，得到垂直候选框坐标(x_1h，y_1h，x_2h，y_2h)及水平候选框坐标(x_1w，y_1w，x_2w，y_2w)。

该垂直候选框及水平候选框即为上述候选框在垂直方向及水平方向上的候选框，可以理解的是，垂直候选框对应的待检测图像中的区域包含了候选框对应区域的垂直方向上的信息。同理的，水平候选框对应的待检测图像中的区域包含了候选框对应区域的水平方向上的信息。

为了方案清楚及布局清晰，后续将会对垂直候选框坐标及水平候选框坐标的具体计算方式进行举例介绍。

S204，将所述垂直候选框坐标、水平候选框坐标、候选框坐标及所述特征图输入所述目标区域分类网络，根据所包含的特征与类别的对应关系、所述垂直候选框坐标、水平候选框坐标、候选框坐标及所述特征图，得到所述目标的类别及位置坐标。

得到上述垂直候选框坐标及水平候选框坐标后，便可以将垂直候选框坐标、水平候选框坐标、候选框坐标及特征图输入目标区域分类网络，目标区域分类网络便可以根据其所包含的特征与类别的对应关系、垂直候选框坐标、水平候选框坐标、候选框坐标及特征图，得到待检测图像中目标的类别及位置坐标，进而完成目标检测。

在一种实施方式中，目标区域分类网络可以首先从特征图中，根据垂直候选框坐标、水平候选框坐标、候选框坐标，提取垂直候选框特征、水平候选框特征及候选框特征，然后进行特征拼接，得到目标特征，进而根据其所其所包含的特征与类别的对应关系，得到目标特征对应的类别，并根据目标特征对应的目标在待检测图像中的实际大对候选框的坐标进行精调，得到精调后的候选框坐标，进而，便得到了目标的类别及位置坐标。

为了方案清楚及布局清晰，后续将会对目标的类别及位置坐标确定方式的具体过程进行举例介绍。

可见，本发明实施例提供的方案中，电子设备首先获取待检测图像，然后基于待检测图像及预先训练完成的目标检测器模型，获得目标的类别及其在所述待检测图像中位置坐标，其中，获得目标的类别及其在待检测图像中位置坐标的过程包括：将待检测图像输入目标特征提取器，对待检测图像进行第一预设卷积运算，得到特征图，将特征图输入目标区域生成网络，对特征图进行第二预设卷积运算，得到候选框的坐标，然后将候选框坐标输入上下文信息层，根据候选框坐标，按照预设计算方式进行计算，得到垂直候选框坐标及水平候选框坐标，将垂直候选框坐标、水平候选框坐标、候选框坐标及特征图输入目标区域分类网络，根据所包含的特征与类别的对应关系、所述垂直候选框坐标、水平候选框坐标、候选框坐标及所述特征图，得到目标的类别及位置坐标。由于目标区域分类网络可以根据上下文信息层输出的垂直候选框坐标及水平候选框坐标得到目标的类别及位置坐标，对于图像中面积较小的目标，由于目标区域分类网络得到了更多的特征信息，因此提高了在检测像交通指示牌之类的小目标时的准确率。

作为本发明实施例的一种实施方式，上述将所述候选框坐标输入所述上下文信息层，根据候选框坐标，按照预设计算方式进行计算，得到垂直候选框坐标及水平候选框坐标的步骤，可以包括：

将所述候选框坐标输入所述上下文信息层；所述上下文信息层根据公式x_1h＝x₁,x_2h＝x₂,y_1h＝max(0，2y₁-y₂)，y_2h＝min(H，2y₂-y₁)，计算垂直候选框坐标(x_1h，y_1h，x_2h，y_2h)；根据公式x_1w＝max(0，2x₁-x₂),x_2w＝min(W，2x₂-x₁),y_1w＝y₁，y_2w＝y₂，计算水平候选框坐标(x_1w，y_1w，x_2w，y_2w)；

根据上述公式，上下文信息层便可以计算得到垂直候选框坐标(x_1h，y_1h，x_2h，y_2h)及水平候选框坐标(x_1w，y_1w，x_2w，y_2w)。需要说明的是，(x_1h，y_1h，x_2h，y_2h)所表示的垂直候选框即为以(x_1h，y_1h)为左上角，以(x_2h，y_2h)为右下角的矩形框。同理的，(x_1w，y_1w，x_2w，y_2w)所表示的垂直候选框即为以(x_1w，y_1w)为左上角，以(x_2w，y_2w)为右下角的矩形框。

可以看出，从矩形框的角度来看，垂直候选框的宽度和候选框的宽度相同，但是高度是候选框的3倍，代表的是候选框在垂直方向上的上下文信息。而水平候选框的高度和候选框的高度相同，但是水平候选框的宽度是候选框的3倍，代表的是候选框在水平方向上的上下文信息。

y_2h的取值为H和2y₂-y₁中较小的一个，这样可以保证y_2h的取值不会超出待检测图像的高度方向上的坐标范围。同理的，x_2h的取值为W和2x₂-x₁中较小的一个，这样可以保证x_2h的取值不会超出待检测图像的宽度方向上的坐标范围，保证上下文信息层所得到的垂直候选框坐标及水平候选框坐标的可实现性。

作为本发明实施例的一种实施方式，如图3所示，上述将所述垂直候选框坐标、水平候选框坐标、候选框坐标及所述特征图输入所述目标区域分类网络，根据所包含的特征与类别的对应关系、所述垂直候选框坐标、水平候选框坐标、候选框坐标及所述特征图，得到所述目标的类别及位置坐标的步骤，可以包括：

S301，将所述垂直候选框坐标、水平候选框坐标、候选框坐标及所述特征图输入所述目标区域分类网络；

上下文信息层输出的垂直候选框坐标和水平候选框坐标，以及候选框坐标及特征图作为输入内容，输入目标区域分类网络。

S302，所述目标区域分类网络分别根据所述垂直候选框坐标、水平候选框坐标、候选框坐标，从所述特征图中提取垂直候选框特征、水平候选框特征及候选框特征；

目标区域分类网络可以为由选框池化层构成，选框池化层根据垂直候选框坐标、水平候选框坐标、候选框坐标，从特征图中，分别将垂直候选框坐标、水平候选框坐标、候选框坐标对应的特征剪切出来，得到垂直候选框特征、水平候选框特征及候选框特征。

然后将垂直候选框特征、水平候选框特征及候选框特征池化成固定的大小维度。例如，若要将大小为A*B的特征池化成p1*p2的大小，那么将池化核的大小设置为即可，在一种实施方式中，p1和p2可以设置为6。

S303，将所述垂直候选框特征、水平候选框特征及候选框特征进行拼接，并进行降维处理，得到目标特征；

可以理解的是，垂直候选框特征、水平候选框特征及候选框特征均为三维矩阵，得到该三个矩阵后，可以将该三个矩阵进行拼接，形成一个矩阵，拼接为一个特征，即目标特征。接下来，可以采用卷积核大小为1*1的卷积运算对目标特征进行降维处理。

举例来说，假设垂直候选框特征、水平候选框特征及候选框特征均为了256*6*6的矩阵，那么拼接后的目标特征的维度即为768*6*6，此时便可以采用输出为256，卷积核大小为1*1，步长为1的卷积层，对目标特征进行卷积运算，使目标特征的维度变为256*6*6，即得到的目标特征的维度与垂直候选框特征的维度相同。

S304，根据所述目标特征以及包含的特征与类别的对应关系，得到所述目标特征对应的类别，并对所述候选框的坐标进行精调，得到精调后的候选框坐标；

S305，将所述目标特征对应的类别确定为所述目标的类别，将所述精调后的候选框坐标确定为所述目标的位置坐标。

得到上述目标特征后，目标区域分类网络便可以根据其所包含的特征与类别的对应关系，得到目标特征对应的类别。可以理解的是，特征与类别的对应关系是在训练目标检测器时学习得到的。例如，在训练目标检测器时，输出2对应的目标类别为交通指示牌，那么当目标特征对应的输出为2时，目标的类别即为交通指示牌。

对候选框坐标的精调则可以采用输出为4的全连接层实现，其中，4对应的输出内容为(x，y，w，h)，(x，y)为精调后的候选框左上角的坐标，w和h则分别为精调后的候选框的宽和高，这样便可以唯一确定一个矩形框，即为精调后的候选框。

可以理解的是，目标特征对应的类别即为待检测图像中目标的类别，精调后的候选框坐标即为目标的位置坐标。

作为本发明实施例的一种实施方式，如图4所示，上述目标检测器模型的训练方式包括：

S401，构建初始检测器模型；

首先可以构建初始检测器模型，该初始检测器模型可以包括初始特征提取器、初始区域生成网络、上下文信息层及初始区域分类网络。

S402，获取图像样本，记录所述图像样本中目标的位置坐标及目标的类别；

电子设备可以获取大量图像样本用于训练初始检测器模型。为了保证训练得到的目标检测器的检测准确度，该图像样本可以在于待检测图像的采集环境相同或相近的条件下采集，且包含与目标相同或相似的物体。例如，若待检测图像中需要检测的目标为交通指示牌，那么图像样本中一般包含相同或相似的交通指示牌。

获取图像样本后，电子设备可以记录图像样本中目标的位置坐标及目标的类别。依然以交通指示牌为例，电子设备可以记录图像样本中交通指示牌的位置坐标和类别，其中，该类别可以为预设的数字，例如2，那么在训练完成得到的目标检测器输出内容为2时，目标类别即为交通指示牌。

S403，将所述图像样本、所述图像样本中目标的位置坐标及目标的类别输入所述初始检测器模型，得到预测的目标的类别及位置坐标；

接下来，电子设备可以将图像样本、图像样本中目标的位置坐标及目标的类别输入初始检测器模型，通过初始特征提取器、初始区域生成网络、上下文信息层及初始区域分类网络的处理，进而，得到预测的目标的类别及位置坐标。由于初始特征提取器、初始区域生成网络、上下文信息层及初始区域分类网络对图像样本的处理，与上述目标特征提取器、目标区域生成网络、上下文信息层及目标区域分类网络对待检测图像的处理方式相同，在此不再赘述。

S404，分别计算所记录的位置坐标与预测的位置坐标的第一残差，及所记录的目标的类别与预测的目标的类别的第二残差；

第一残差与第二残差的和为总残差，计算公式如下：

其中，为第一残差，为第二残差，L({pi}，{ti})为二者之和。下面首先介绍第二残差的具体计算方式。

在第二残差中，Ncls可以设定为256，i则表示第i个选框，后面的求和则是对每一个选框都计算残差后求和。pi表示选框的预测的类别，pi*则表示选框的真实类别，pi*有两个值，一般为1或0，其中，1表示该选框为前景，0则表示该选框为背景。由于选框是初始区域生成网络预测的，它的真实类别并不能确定，所以在一般情况下，如果选框和已知物体的真实选框的重叠率超过了0.5，则定义该选框为前景，pi*为1，否则为背景，pi*为0。对于重叠率的计算方式可以采用相关技术中任意计算方式，在此不做具体限定和说明。

对于上述每个选框的残差计算公式为：

L({p}，{t})＝Lcls(p，p^*)+[p*＝1]Lloc(t，t^*)

其中，为了方便描述，以下将Lcls(p，p^*)称为类别分类残差，以下将[p*＝1]Lloc(t，t^*)称为坐标精调残差。每个选框的残差是由初始区域分类网络生成的，具体来说，当pi*为1时，也就是该选框类别为目标类别时，类别分类残差为Lcls(p，p^*)＝-log pi。否则，残差为0。pi表示预测的类别，pi*表示该选框真实的类别。

当p*为1时，也就是该选框类别为目标类别时，坐标精调残差为：

其中，

当p*不为1时，坐标精调残差为0。

上述第二残差中Lcls的计算公式如下：

Lcls＝-[pi^*logpi+(1-pi^*)log(1-pi)]

通过上述计算公式即可得到第二残差。

下面介绍第一残差的计算方式，在训练过程中，初始区域生成网络产生关于位置坐标的残差，即第一残差。

在第一残差中，Nreg代表的是选框的个数，一般情况下，大约为2400个，为设置的参数，一般可以设置为λ＝10，这样可以使第一残差和第二残差对应的系数保持基本一致，保证在调整参数时，两个残差所起的作用的基本相同的。t_i表示位置坐标的预测值，t_i ^*表示位置坐标的真实值。

坐标Lreg的计算方法如下：

对于t_i和t_i ^*给出如下定义：

t_x＝(x-x_a)/w_a，t_y＝(y-y_a)/h_a，t_w＝log(w/w_a)，t_h＝log(h/h_a)；

t_x ^*＝(x^*-x_a)/w_a，t_y ^*＝(y^*-y_a)/h_a，t_w ^*＝log(w^*/w_a)，t_h ^*＝log(h^*/h_a)；

其中，t_i包括t_x、t_y、t_w及t_h，t_i ^*包括t_x ^*、t_y ^*、t_w ^*及t_h ^*。x，y，w，h分别表示预测的选框的左上角的坐标(x，y)，以及预测选框的宽w(x₂-x₁)和预测选框的高h(y₂-y₁)。带上*号则表示分别对应的真实值。而x_a，y_a，w_a，h_a则表示设定的选框中的一个选框，例如上述设定的9个形状大小各不相同选框。进而，通过上述公式即可计算得到第一残差。

S405，根据所述第一残差及所述第二残差，调整所述初始特征提取器、初始区域生成网络及初始区域分类网络的参数；

计算得到第一残差及所述第二残差后，可以采用反向传播法调整初始特征提取器、初始区域生成网络及初始区域分类网络的参数。对于反向传播法的具体实现方式可以采用相关技术中的反向传播方式，在此不做具体限定及说明。

需要说明的是，在调整参数时，由于上下文信息层的计算方式已经设定，所以不需要调整上下文信息层的参数。

S406，当迭代次数达到预设次数时，完成训练，得到包含目标特征提取器、目标区域生成网络、上下文信息层及目标区域分类网络的目标检测器模型。

当迭代次数达到预设次数时，便可以完成训练，得到目标检测器模型，该目标检测器模型包含目标特征提取器、目标区域生成网络、上下文信息层及目标区域分类网络。

例如，当预设次数为20时，那么当所有图像样本遍历20次时，便可以停止训练，得到目标检测器模型。

相应于上述方法实施例，本发明实施例还提供了一种图像中基于深度学习的小目标的检测装置。

下面对本发明实施例所提供的一种图像中基于深度学习的小目标的检测装置进行介绍。

如图5所示，一种图像中基于深度学习的小目标的检测装置，其特征在于，所述装置包括：

待检测图像获取模块510，用于获取待检测图像；

目标检测模块520，用于基于所述待检测图像及由检测器模型训练模块预先训练完成的目标检测器模型，获得所述待检测图像中目标的类别及其在所述待检测图像中位置坐标，其中，所述目标检测器模型包括目标特征提取器、目标区域生成网络、上下文信息层及目标区域分类网络；

所述目标检测模块520，具体用于将所述待检测图像输入所述目标特征提取器，对所述待检测图像进行第一预设卷积运算，得到特征图；将所述特征图输入所述目标区域生成网络，对所述特征图进行第二预设卷积运算，得到候选框的坐标；将所述候选框坐标输入所述上下文信息层，根据候选框坐标，按照预设计算方式进行计算，得到垂直候选框坐标及水平候选框坐标；将所述垂直候选框坐标、水平候选框坐标、候选框坐标及所述特征图输入所述目标区域分类网络，根据所包含的特征与类别的对应关系、所述垂直候选框坐标、水平候选框坐标、候选框坐标及所述特征图，得到所述目标的类别及位置坐标。

作为本发明实施例的一种实施方式，所述目标检测模块520可以包括：

上下文信息提取单元(图5中未示出)，用于将所述候选框坐标输入所述上下文信息层；所述上下文信息层根据公式x_1h＝x₁,x_2h＝x₂,y_1h＝max(0，2y₁-y₂)，y_2h＝min(H，2y₂-y₁)，计算垂直候选框坐标(x_1h，y_1h，x_2h，y_2h)；根据公式x_1w＝max(0，2x₁-x₂),x_2w＝min(W，2x₂-x₁),y_1w＝y₁，y_2w＝y₂，计算水平候选框坐标(x_1w，y_1w，x_2w，y_2w)；其中，(x₁，y₁，x₂，y₂)为以所述特征图的左上角为原点的所述候选框的坐标，H为所述待检测图像的高度，W为所述待检测图像的宽度。

目标检测单元(图5中未示出)，用于将所述垂直候选框坐标、水平候选框坐标、候选框坐标及所述特征图输入所述目标区域分类网络；所述目标区域分类网络分别根据所述垂直候选框坐标、水平候选框坐标、候选框坐标，从所述特征图中提取垂直候选框特征、水平候选框特征及候选框特征；将所述垂直候选框特征、水平候选框特征及候选框特征进行拼接，并进行降维处理，得到目标特征；根据所述目标特征以及包含的特征与类别的对应关系，得到所述目标特征对应的类别，并对所述候选框的坐标进行精调，得到精调后的候选框坐标；将所述目标特征对应的类别确定为所述目标的类别，将所述精调后的候选框坐标确定为所述目标的位置坐标，其中，所述目标特征的维度与所述候选框特征的维度相同。

作为本发明实施例的一种实施方式，所述检测器模型训练模块(图5中未示出)可以包括：

检测器模型构建单元(图5中未示出)，用于构建初始检测器模型，其中，所述初始检测器模型包括初始特征提取器、初始区域生成网络、上下文信息层及初始区域分类网络；

图像样本获取单元(图5中未示出)，用于获取图像样本，记录所述图像样本中目标的位置坐标及目标的类别；

图像样本输入单元(图5中未示出)，用于将所述图像样本、所述图像样本中目标的位置坐标及目标的类别输入所述初始检测器模型，得到预测的目标的类别及位置坐标；

残差计算单元(图5中未示出)，用于分别计算所记录的位置坐标与预测的位置坐标的第一残差，及所记录的目标的类别与预测的目标的类别的第二残差；

参数调整单元(图5中未示出)，用于根据所述第一残差及所述第二残差，调整所述初始特征提取器、初始区域生成网络及初始区域分类网络的参数；

训练结束单元(图5中未示出)，用于当迭代次数达到预设次数时，完成训练，得到包含目标特征提取器、目标区域生成网络、上下文信息层及目标区域分类网络的目标检测器模型。

本发明实施例还提供了一种电子设备，如图6所示，包括处理器601、通信接口602、存储器603和通信总线604，其中，处理器601，通信接口602，存储器603通过通信总线604完成相互间的通信，

存储器603，用于存放计算机程序；

处理器601，用于执行存储器603上所存放的程序时，实现如下步骤：

获取待检测图像；

基于所述待检测图像及预先训练完成的目标检测器模型，获得所述待检测图像中目标的类别及其在所述待检测图像中位置坐标，其中，所述目标检测器模型包括目标特征提取器、目标区域生成网络、上下文信息层及目标区域分类网络，所述获得所述目标的类别及其在所述待检测图像中位置坐标的过程包括：

可见，本发明实施例提供的方案中，由于目标区域分类网络可以根据上下文信息层输出的垂直候选框坐标及水平候选框坐标得到目标的类别及位置坐标，对于图像中面积较小的目标，由于目标区域分类网络得到了更多的特征信息，因此提高了在检测像交通指示牌之类的小目标时的准确率。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

其中，上述将所述候选框坐标输入所述上下文信息层，根据候选框坐标，按照预设计算方式进行计算，得到垂直候选框坐标及水平候选框坐标的步骤，可以包括：

将所述候选框坐标输入所述上下文信息层；

其中，上述将所述垂直候选框坐标、水平候选框坐标、候选框坐标及所述特征图输入所述目标区域分类网络，根据所包含的特征与类别的对应关系、所述垂直候选框坐标、水平候选框坐标、候选框坐标及所述特征图，得到所述目标的类别及位置坐标的步骤，可以包括：

其中，上述目标检测器模型的训练方式可以包括：

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取待检测图像；

将所述候选框坐标输入所述上下文信息层；

其中，上述目标检测器模型的训练方式可以包括：

需要说明的是，对于上述装置、电子设备及计算机可读存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种图像中基于深度学习的小目标的检测方法，其特征在于，所述方法包括：

获取待检测图像；

2.根据权利要求1所述的方法，其特征在于，所述将所述候选框坐标输入所述上下文信息层，根据候选框坐标，按照预设计算方式进行计算，得到垂直候选框坐标及水平候选框坐标的步骤，包括：

将所述候选框坐标输入所述上下文信息层；

根据公式x_1w＝max(0，2x₁-x₂),x_2w＝min(W，2x₂-x₁),,y_1w＝y₁，y_2w＝y₂，计算水平候选框坐标(x_1w，y_1w，x_2w，y_2w)；

3.根据权利要求2所述的方法，其特征在于，所述将所述垂直候选框坐标、水平候选框坐标、候选框坐标及所述特征图输入所述目标区域分类网络，根据所包含的特征与类别的对应关系、所述垂直候选框坐标、水平候选框坐标、候选框坐标及所述特征图，得到所述目标的类别及位置坐标的步骤，包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，所述目标检测器模型的训练方式包括：

5.一种图像中基于深度学习的小目标的检测装置，其特征在于，所述装置包括：

待检测图像获取模块，用于获取待检测图像；

6.根据权利要求5所述的装置，其特征在于，所述目标检测模块包括：

7.根据权利要求5所述的装置，其特征在于，所述目标检测模块包括：

8.根据权利要求5-7任一项所述的装置，其特征在于，所述检测器模型训练模块包括：

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-4任一所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-4任一所述的方法步骤。