CN110363211B

CN110363211B - 检测网络模型和目标检测方法

Info

Publication number: CN110363211B
Application number: CN201810317750.XA
Authority: CN
Inventors: 秦暕
Original assignee: Navinfo Co Ltd
Current assignee: Navinfo Co Ltd
Priority date: 2018-04-10
Filing date: 2018-04-10
Publication date: 2022-05-03
Anticipated expiration: 2038-04-10
Also published as: CN110363211A

Abstract

本发明实施例提供一种检测网络模型和目标检测方法。本发明的检测网络模型，包括：多尺度融合模块、超像素分类模块、检测框回归模块以及串联的N个网络基础模块；所述N个网络基础模块分别输出不同尺度特征的图像信息，所述多尺度融合模块用于将所述不同尺度特征的图像信息进行融合生成融合后的数据，所述超像素分类模块对所述融合后的数据进行分类处理，输出超像素的分类结果，所述检测框回归模块用于对所述融合后的数据进行检测框回归处理，输出超像素的检测框回归结果。本发明可以实现对小目标的有效检测和识别。

Description

检测网络模型和目标检测方法

技术领域

本发明实施例涉及图像处理技术，尤其涉及一种检测网络模型和目标检测方法。

背景技术

在自动驾驶、驾驶辅助预警等领域，其需要利用各种技术手段，例如超声波、雷达、机器视觉、红外线等，获取车辆周围环境信息，即对车辆周围环境中的目标物进行探测。其中，基于机器视觉的目标检测成本低、尺寸小、质量轻、功耗小、视觉范围广。

基于机器视觉的目标检测方法具体可以采用基于神经网络的目标检测方法，该基于神经网络的目标检测方法包括单阶段检测方法和双阶段检测方法，双阶段检测方法主要是R-CNN(Regions with Convolutional Neural Network Features)方法及其改进，单阶段检测方法包括SSD、YOLO及其改进。

其中，YOLO方法由于引入了全连接(Fully Connected)层，所以只能检测固定的图片的大小，并且对小目标(尺寸较小的目标，例如远处的人或物)识别能力较低。

发明内容

本发明实施例提供一种检测网络模型和目标检测方法，以实现对小目标的有效检测和识别。

第一方面，本发明实施例提供一种检测网络模型，包括：

多尺度融合模块、超像素分类模块、检测框回归模块以及串联的N个网络基础模块；

其中，每个网络基础模块的输出端与所述多尺度融合模块的输入端连接，所述多尺度融合模块的输出端与所述超像素分类模块和所述检测框回归模块连接；

所述N个网络基础模块用于对待处理图像进行N次非线性变换，并分别输出不同尺度特征的图像信息，所述多尺度融合模块用于将所述N个不同尺度特征的图像信息进行融合生成融合后的数据，所述超像素分类模块对所述融合后的数据进行分类处理，输出超像素的分类结果，所述检测框回归模块用于对所述融合后的数据进行检测框回归处理，输出超像素的检测框回归结果。

结合第一方面，在第一方面的一种可能的实现方式中，所述多尺度融合模块包括N个反卷积模块和一个尺度融合模块；

一个网络基础模块的输出端与一个反卷积模块的输入端连接，所述N个反卷积模块的输出端均与所述尺度融合模块的输入端连接，所述尺度融合模块的输出端与所述超像素分类模块和所述检测框回归模块连接；

其中，所述N个反卷积模块分别用于将所述N个不同尺度特征的图像信息转换为相同尺度特征的图像信息，所述尺度融合模块用于对所述N个反卷积模块输出的相同尺度特征的图像信息进行融合，生成融合后的数据。

结合第一方面或第一方面的一种可能的实现方式，在第一方面的另一种可能的实现方式中，所述多尺度融合模块包括(N-1)个尺度融合模块；

其中，所述(N-1)个尺度融合模块用于对所述N个不同尺度特征的图像信息中任意两个不同尺度特征的图像信息进行第一尺度融合，生成第1个中间结果；将所述第j个中间结果与一个图像信息进行第j尺度融合，生成第j个中间结果，其中，j取1至(N-1)中的整数，第1至第N个图像信息的尺度特征不同；所述第(N-1)个中间结果为所述融合后的数据。

结合第一方面或第一方面的任一种可能的实现方式，在第一方面的另一种可能的实现方式中，所述网络基础模块包括网络层和尺度变化层，所述网络层包括残差网络ResiduelNet层、密集网络DenseNet层和谷歌网络GoogLeNet层中任意一项。

结合第一方面或第一方面的任一种可能的实现方式，在第一方面的另一种可能的实现方式中，所述尺度变化层包括卷积层或池化层。

第二方面，本发明实施例提供一种利用上述第一方面或第一方面任一种可能的实现方式所述的检测网络模型实现目标检测的方法，所述方法包括：

将待处理图像输入所述检测网络模型；

对所述待处理图像进行N次非线性变化，分别输出N个不同尺度特征的图像信息；

将所述N个不同尺度特征的图像信息进行融合生成融合后的数据；

对所述融合后的数据进行分类处理，输出超像素的分类结果；

对所述融合后的数据进行检测框回归处理，输出超像素的检测框回归结果。

结合第二方面，在第二方面的一种可能的实现方式中，所述方法还包括：

根据所述超像素的分类结果和待检测目标类别生成类掩码矩阵；

根据所述类掩码矩阵和所述超像素的检测框回归结果，获取所述待检测目标类别的超像素的检测框回归结果；

对所述待检测目标类别的超像素的检测框回归结果进行归并和去重处理，输出目标检测结果。

结合第二方面或第二方面的一种可能的实现方式，在第二方面的另一种可能的实现方式中，所述对所述待处理图像进行N次非线性变化，分别输出N个不同尺度特征的图像信息，包括：

对所述待处理图像进行第1次非线性变化，输出第1个图像信息；

对所述第i个图像信息进行第i+1次非线性变化，输出第i+1个图像信息；

其中，i取1至(N-1)中的整数，第1至第N个图像信息的尺度特征不同。

结合第二方面或第二方面的任一种可能的实现方式，在第二方面的另一种可能的实现方式中，所述将所述N个不同尺度特征的图像信息进行融合生成融合后的数据，包括：

将所述N个不同尺度特征的图像信息转换为相同尺度特征的图像信息；

对N个相同尺度特征的图像信息进行融合，生成融合后的数据。

对所述N个不同尺度特征的图像信息中任意两个不同尺度特征的图像信息进行第一尺度融合，生成第1个中间结果；

将所述第j个中间结果与一个图像信息进行第j尺度融合，生成第j个中间结果，其中，j取1至(N-1)中的整数，第1至第N个图像信息的尺度特征不同；

所述第(N-1)个中间结果为所述融合后的数据。

结合第二方面或第二方面的任一种可能的实现方式，在第二方面的另一种可能的实现方式中，所述方法还包括：

使用分类训练数据和检测框训练数据对所述检测网络模型进行训练调整；

所述分类训练数据包括每个超像素的分类结果，所述检测框训练数据包括检测框内的每个超像素对应的位置向量。

本发明实施例的检测网络模型，串联的N个网络基础模块中的每个网络基础模块的输出端与所述多尺度融合模块的输入端连接，所述多尺度融合模块的输出端与所述超像素分类模块和所述检测框回归模块连接，N个网络基础模块分别输出不同尺度特征的图像信息，由多尺度融合模块对不同尺度特征的图像信息进行融合，输出的融合后的数据具有超像素级别信息，对该融合后的数据进行分类处理和检测框回归处理，可以有效检测微小目标。其中多尺度融合模块结合了多个尺度特征的空间位置信息，使用融合后的数据进行分类预测和目标框检测，可以更好的识别出不同大小的目标物。本发明实施例的目标检测方法，通过将待处理图像输入检测网络模型，对所述待处理图像进行N次非线性变化，分别输出N个不同尺度特征的图像信息，将所述N个不同尺度特征的图像信息进行融合生成融合后的数据，对所述融合后的数据进行分类处理，输出超像素的分类结果，对所述融合后的数据进行检测框回归处理，输出超像素的检测框回归结果，实现对微小目标的有效检测。并且本实施例的目标检测方法对输入的待处理图像的像素个数无固定要求，可以处理不同像素个数的图像。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种检测网络模型的结构示意图；

图2为本发明另一种检测网络模型的结构示意图；

图3为本发明另一种检测网络模型的结构示意图；

图4为本发明的一种目标检测方法的流程图；

图5为利用本发明实施例的检测网络模型实现对行人检测场景的目标检测结果的示意图；

图6为本发明的目标检测装置实施例一的结构示意图；

图7为本发明的终端设备实施例一的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本文所涉及的“超像素(superpixel)”指由一系列位置相邻且颜色、亮度、纹理等特征相似的像素点组成的小区域。通过超像素分割把一幅原本是像素级(pixel-level)的图，划分成区域级(district-level)的图，其中一个区域为一个超像素，一个超像素与原图中的多个像素点对应。

本文所涉及的“微小目标”具体可以指分辨率小于20*20的目标物。

图1为本发明的一种检测网络模型的结构示意图，如图1所示，本实施例的检测网络模型可以包括：串联的N个网络基础模块(101、102、……、以及10N)、多尺度融合模块201、超像素分类模块301和检测框回归模块401。

其中，每个网络基础模块(101、102、……、或10N)的输出端与所述多尺度融合模块201的输入端连接，所述多尺度融合模块201的输出端与所述超像素分类模块301和所述检测框回归模块401连接。

所述N个网络基础模块(101、102、……、以及10N)用于对待处理图像进行N次非线性变换，并分别输出不同尺度特征的图像信息，所述多尺度融合模块201用于将所述N个不同尺度特征的图像信息进行融合生成融合后的数据，所述超像素分类模块301对所述融合后的数据进行分类处理，输出超像素的图像分类结果，所述检测框回归模块401用于对所述融合后的数据进行检测框回归处理，输出超像素的检测框回归结果。

其中，N取大于1的任意正整数。其可以根据需求进行灵活设置。

具体的，如图1所示，串联的N个网络基础模块(101、102、……、以及10N)具体指，网络基础模块101的输出端与网络基础模块102的输入端连接，网络基础模块102的输出端与网络基础模块103的输入端连接，依次类推，网络基础模块10(N-1)的输出端与网络基础模块10N的输入端连接。

并且，各个网络基础模块的输出端还均与所述多尺度融合模块201的输入端连接。

其中，每个网络基础模块均可以对其输入端输入的图像信息进行非线性变化，而输出不同尺度特征的图像信息。其中，网络基础模块101可以接收输入的待处理图像，对该待处理图像进行第1次非线性变换后，输出具有一个尺度特征的图像信息，即1个图像信息，并将该第1个图像信息分别输入至网络基础模块102和多尺度融合模块。网络基础模块10(i+1)可以接收网络基础模块10i输出的第i个图像信息，对该第i个图像信息进行第i+1次非线性变换，输出第i+1个图像信息，并将该第i+1个图像信息分别输入至网络基础模块10(i+2)和多尺度融合模块，其中，i取1至(N-1)中的整数，第1至第N个图像信息的尺度特征不同。由多尺度融合模块201对N个不同尺度特征的图像信息进行融合。该多尺度融合模块201可以融合多个尺度特征的图像信息，输出的融合后的数据具有超像素级别信息，对该融合后的数据进行分类处理和检测框回归处理，可以有效检测微小目标。

并且通过本实施例的检测网络模型对不同尺度特征的处理，保证了该检测网络模型的接受域(Receptive Field)的范围，实现对输入的待处理图像的像素个数无固定要求，可以处理不同像素个数的图像。

可选的，每个网络基础模块可以包括网络层和尺度变化层，所述网络层包括残差网络(ResiduelNet)层、密集网络(DenseNet)层和谷歌网络(GoogLeNet)层中任意一项。需要说明的是，该网络层也可以采用其他神经网络，此处不一一举例说明。

其中，所述尺度变化层包括卷积层或池化层。该尺度变化层用于改变输入的图像信息的尺度。例如，网络基础模块101输出100*100的图像信息，网络输出模块102输出50*50的图像信息。

上述图像信息具体指从原图(例如上述待处理图像)提取出的用于反映原图的特征的信息，举例而言，该图像信息可以反映原图的直角特征、边缘特征等，此处不一一举例说明。

本实施例的检测网络模型，串联的N个网络基础模块中的每个通过网络基础模块的输出端与所述多尺度融合模块的输入端连接，所述多尺度融合模块的输出端与所述超像素分类模块和所述检测框回归模块连接，N个网络基础模块分别输出不同尺度特征的图像信息，由多尺度融合模块对不同尺度特征的图像信息进行融合，输出的融合后的数据具有超像素级别信息，对该融合后的数据进行分类处理和检测框回归处理，可以有效检测微小目标。其中多尺度融合模块结合了多个尺度特征的空间位置信息，使用融合后的数据进行分类预测和目标框检测，可以更好的识别出不同大小的目标物。并且本实施例的检测网络模型对输入的待处理图像的像素个数无固定要求，可以处理不同像素个数的图像。

需要说明的是，上述N取值越大，该检测网络模型便可以使用更多的尺度特征进行分类预测和目标框检测，从而使得对微小目标的识别更加敏感和准确。

并且本发明实施例的检测网络模型的网络结构简单，可以支持高清图像的实时处理。具体的，本发明实施例的检测网络模型属于单阶段检测，其相对于双阶段检测(例如R-CNN)网络结构简单，运行速度快。

并且本发明实施例的检测网络模型的各个模块可以根据不同任务需求进行灵活调整，可以实现针对不同应用场景的快速部署。

下面采用几个具体的实施例，对图1所示的检测网络模型的技术方案进行详细说明。

图2为本发明另一种检测网络模型的结构示意图，如图2所示，本实施例的检测网络模型在图1所示检测网络模型结构的基础上，进一步地，该多尺度融合模块201可以包括N个反卷积模块(2011、2012、……、201N)和一个尺度融合模块2001。

其中，一个网络基础模块的输出端与一个反卷积模块的输入端连接，所述N个反卷积模块(2011、2012、……、201N)的输出端均与所述尺度融合模块2001的输入端连接，所述尺度融合模块2001的输出端与所述超像素分类模块301和所述检测框回归模块401连接；

其中，所述N个反卷积模块(2011、2012、……、201N)分别用于将N个不同尺度特征的图像信息转换为相同尺度特征的图像信息，所述尺度融合模块用于对所述N个反卷积模块输出的相同尺度特征的图像信息进行融合，生成融合后的数据。

如图2所示，网络基础模块101的输出端与反卷积模块2011的输入端连接，网络基础模块102的输出端与反卷积模块2012的输入端连接，依此类推，网络基础模块10N的输出端与反卷积模块201N的输入端连接。

即由各个反卷积模块将不同尺度特征的图像信息进行处理，统一到一个相同的尺度特征，之后由尺度融合模块2001、超像素分类模块301和所述检测框回归模块401进行处理，输出超像素的分类结果和超像素的检测框回归结果。

本实施例的检测网络模型，通过一个网络基础模块的输出端与一个反卷积模块的输入端连接，N个反卷积模块的输出端均与所述尺度融合模块的输入端连接，所述尺度融合模块的输出端与所述超像素分类模块和所述检测框回归模块连接，将不同尺度特征的图像信息进行处理，统一到一个相同的尺度特征，并经过融合处理、分类处理和检测框回归处理，输出超像素的分类结果和超像素的检测框回归结果。多尺度融合模块对不同尺度特征的图像信息进行融合，输出的融合后的数据具有超像素级别信息，对该融合后的数据进行分类处理和检测框回归处理，可以有效检测微小目标。

图3为本发明另一种检测网络模型的结构示意图，如图3所示，本实施例的检测网络模型在图1所示检测网络模型结构的基础上，进一步地，该多尺度融合模块201可以包括(N-1)个尺度融合模块(2031、2032、……、203(N-1))；

其中，所述(N-1)个尺度融合模块(2031、2032、……、203(N-1))用于对所述N个不同尺度特征的图像信息中任意两个不同尺度特征的图像信息进行第一尺度融合，生成第1个中间结果；将所述第j个中间结果与一个图像信息进行第j尺度融合，生成第j个中间结果，其中，j取1至(N-1)中的整数，第1至第N个图像信息的尺度特征不同；所述第(N-1)个中间结果为所述融合后的数据。

一种可实现方式，如图3所示，网络基础模块10N的输出端和网络基础模块10(N-1)的输出端均与尺度融合模块2031的输入端连接，网络基础模块10(N-2)的输出端和尺度融合模块2031的输出端均与尺度融合模块2032的输入端连接，网络基础模块10(N-3)的输出端和尺度融合模块2032的输出端均与尺度融合模块2033的输入端连接，依此类推，最终尺度融合模块203(N-1)的输入端与超像素分类模块301和检测框回归模块401连接。

本实施例的检测网络模型，通过(N-1)个尺度融合模块，将不同尺度特征的图像信息进行处理，统一到一个相同的尺度特征，并经过融合处理、分类处理和检测框回归处理，输出超像素的分类结果和超像素的检测框回归结果。多尺度融合模块对不同尺度特征的图像信息进行融合，输出的融合后的数据具有超像素级别信息，对该融合后的数据进行分类处理和检测框回归处理，可以有效检测微小目标。

图4为本发明的一种目标检测方法的流程图，如图4所示，本实施例的方法可以包括：

步骤101、将待处理图像输入所述检测网络模型。

具体的，将待处理图像输入至上述图1至图3任一实施例所示的检测网络模型。

其中，在步骤101之前，还可以进行图像预处理，获取该待处理图像，例如，进行色彩校正等处理。

步骤102、对所述待处理图像进行N次非线性变化，分别输出N个不同尺度特征的图像信息。

具体的，待处理图像输入至N个网络基础模块，进行N次非线性变化，一个网络基础模块输出一个尺度特征的图像信息。

步骤103、将所述N个不同尺度特征的图像信息进行融合生成融合后的数据。

具体的，N个不同尺度特征的图像信息输入至多尺度融合模块，由该多尺度融合模块进行融合，生成融合后的数据。

步骤104、对所述融合后的数据进行分类处理，输出超像素的分类结果。

其中，分类结果具体指分类类别，可以使用数字编号指代不同类别。

步骤105、对所述融合后的数据进行检测框回归处理，输出超像素的检测框回归结果。

其中，检测框回归结果可以有很多不同的表示形式，例如，每个检测框的回归结果包括四个顶点的坐标，或者包括两个顶点的坐标点(左上角和右下角)，其可以根据需求进行灵活设置。

可选的，本发明实施例还可以根据需求设置待检测目标类别，例如，上述分类类别包括人、动物和植物，如果仅需要检测人，则可以将待检测目标类别设置为人，还可以根据所述超像素的分类结果和待检测目标类别生成类掩码矩阵(class mask)，该类掩码矩阵(class mask)具体是根据待检测目标类别对超像素的分类结果进行二值化处理生成，以上述待检测目标类别设置为人为例做进一步举例说明，将超像素的分类结果中人对应的位置设置为1，将超像素的分类结果中其他类别对应的位置设置为0，生成该类掩码矩阵(classmask)。根据所述类掩码矩阵和所述超像素的检测框回归结果，获取所述待检测目标类别的超像素的检测框回归结果，即使用该类掩码矩阵从该超像素的检测框回归结果中提取出待检测目标类别的检测框。对所述待检测目标类别的超像素的检测框回归结果进行归并和去重处理，输出目标检测结果。由于目标物可以占据一个或多个超像素的面积，所有需要归并和去重处理。

可选的，该归并和去重处理可以包括非最大值抑制、检测框重合面积加权归并或者聚类算法等，其可以根据需求进行灵活设置。

可选的，上述步骤102具体可以包括：对所述待处理图像进行第1次非线性变化，输出第1个图像信息；对所述第i个图像信息进行第i+1次非线性变化，输出第i+1个图像信息；其中，i取1至(N-1)中的整数，第1至第N个图像信息的尺度特征不同。

采用如图2所示的检测网络模型，上述步骤103具体可以包括：分别对所述N个不同尺度特征的图像信息转换为相同尺度特征的图像信息；对N个相同尺度特征的图像信息进行融合，生成融合后的数据。

采用如图3所示的检测网络模型，上述步骤103具体可以包括：对所述N个不同尺度特征的图像信息中任意两个不同尺度特征的图像信息进行第一尺度融合，生成第一个中间结果；将所述第j个中间结果与一个图像信息进行第j尺度融合，生成第j个中间结果，其中，j取1至(N-1)中的整数，第1至第N个图像信息的尺度特征不同；所述第(N-1)个中间结果为所述融合后的数据。

可选的，本实施例的方法还可以包括：使用分类训练数据和检测框训练数据对所述检测网络模型进行训练调整；所述分类训练数据包括每个超像素的分类结果，所述检测框训练数据包括检测框内的每个超像素对应的位置向量。

其中，上述分类训练数据具体可以通过超像素分类标注的方式生成，即生成数据格式为像素分割的类别信息格式，每个超像素对应该超像素的类别。

上述检测框训练数据具体可以检测框回归标注的方式生成，举例而言，每个位于标注中检测框内的超像素对应一个[dx0,dy0,dx1,dy1]向量，分别代表该超像素距离检测框的左上点(x0,y0)和右下点(x1,y1)的绝对像素距离，或者相对全图长宽的相对距离。检测框外的超像素对应向量可以置0。针对每个超像素的检测框回归结果，归一化回归框距离的值，以限制可能的max(dx0+dx1)与max(dy0+dy1)为1,保证训练时的损失代价(Loss)值可以在合理范围内。

上述训练调整的过程具体可以是，使用SoftmaxLoss直接训练超像素分类。具体的，利用超像素分类标注，针对每个超像素，将需要与无需检测框的类别二值化，需要检测框类别设置为1，其他设置为0，生成一个class-mask。将检测框回归的预测结果的四个向量分别与生成class-mask相乘，以过滤掉在标注的检测框位置外的超像素的预测值。过滤后的预测结果与标注结果都分别与归一化辅助数据进行运算，实现归一化。之后讲归一化的标注结果与预测结果交由L1或者L2Loss或者其他可用于回归任务的Loss进行训练。

本实施例，通过将待处理图像输入所述检测网络模型，对所述待处理图像进行N次非线性变化，分别输出N个不同尺度特征的图像信息，将所述N个不同尺度特征的图像信息进行融合生成融合后的数据，对所述融合后的数据进行分类处理，输出超像素的分类结果，对所述融合后的数据进行检测框回归处理，输出超像素的检测框回归结果，实现对微小目标的有效检测。并且本实施例的目标检测方法对输入的待处理图像的像素个数无固定要求，可以处理不同像素个数的图像。

图5为利用本发明实施例的检测网络模型实现对行人检测场景的目标检测结果的示意图，如图5所示，使用本发明实施例的检测网络模型可以对远距离的目标进行有效检测。本实施例的检测网络模型可以应用于道路环境感知系统、自主泊车系统、以及自动驾驶系统等。

图6为本发明的目标检测装置实施例一的结构示意图，如图6所示，本实施例的装置可以包括：获取模块61和检测网络模型模块62，其中，该获取模块61用于获取待处理图像，并将该待处理图像输入该检测网络模型模块62，该检测网络模型模块62用于对所述待处理图像进行N次非线性变化，分别输出N个不同尺度特征的图像信息；将所述N个不同尺度特征的图像信息进行融合生成融合后的数据；对所述融合后的数据进行分类处理，输出超像素的分类结果；对所述融合后的数据进行检测框回归处理，输出超像素的检测框回归结果。

可选的，该目标检测装置还包括目标检测结果确定模块63，该目标检测结果确定模块63用于根据所述超像素的分类结果和待检测目标类别生成类掩码矩阵；根据所述类掩码矩阵和所述超像素的检测框回归结果，获取所述待检测目标类别的超像素的检测框回归结果；对所述待检测目标类别的超像素的检测框回归结果进行归并和去重处理，输出目标检测结果。

可选的，所述该检测网络模型模块62用于：对所述待处理图像进行第1次非线性变化，输出第1个图像信息；对第i个图像信息进行第i+1次非线性变化，输出第i+1个图像信息；其中，i取1至(N-1)中的整数，第1至第N个图像信息的尺度特征不同。

可选的，所述该检测网络模型模块62用于：将所述N个不同尺度特征的图像信息转换为相同尺度特征的图像信息；对N个相同尺度特征的图像信息进行融合，生成融合后的数据。

可选的，所述该检测网络模型模块62用于：对所述N个不同尺度特征的图像信息中任意两个不同尺度特征的图像信息进行第一尺度融合，生成第1个中间结果；将所述第j个中间结果与一个图像信息进行第j尺度融合，生成第j个中间结果，其中，j取1至(N-1)中的整数，第1至第N个图像信息的尺度特征不同；所述第(N-1)个中间结果为所述融合后的数据。

可选的，该目标检测装置还包括训练模块64，该训练模块64用于使用分类训练数据和检测框训练数据对所述检测网络模型模块62进行训练调整；所述分类训练数据包括每个超像素的分类结果，所述检测框训练数据包括检测框内的每个超像素对应的位置向量。

本实施例的装置，可以用于执行图4所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

本发明实施例还提供一种计算机存储介质，其上存储有计算机程序或指令，当所述计算机程序或指令被处理器或计算机执行时，实现如上述图4所示实施例所述的方法。

需要说明的是，本发明实施例的上述目标检测装置可以是终端设备，也可以是终端设备中的一个部件，例如一个芯片。

图7为本发明的终端设备实施例一的结构示意图，如图7所示，本实施例的终端设备，包括：处理器711、存储器712、收发器713以及总线714。其中，处理器711、存储器712和收发器713通过总线714相互连接。其中，总线714可以是外设部件互连标准(PeripheralComponent Interconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。上述总线714可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

在硬件实现上，以上图6所示的各个功能模块可以以硬件形式内嵌于或独立于终端设备的处理器211中。

所述收发器713可以包括混频器等必要的射频通信器件。所述处理器711可以包括中央处理单元(Central Processing Unit，CPU)、数字信号处理器(digital signalprocessor，DSP)、微控制器(Microcontroller Unit，MCU)、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)或现场可编程逻辑门阵列(Field－ProgrammableGate Array，FPGA)中的至少一个。

存储器712用于存储程序指令，处理器711用于调用存储器712中的程序指令执行上述方案。

所述程序指令可以以软件功能单元的形式实现并能够作为独立的产品销售或使用，所述存储器712可以是任意形式的计算机可读取存储介质。基于这样的理解，本申请的技术方案的全部或部分可以以软件产品的形式体现出来，包括若干指令用以使得一台计算机设备，具体可以是处理器711，来执行本申请各个实施例中第一终端的全部或部分步骤。而前述的计算机可读存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本实施例以上所述的终端设备，可以用于执行上述方法实施例中的技术方案，其实现原理和技术效果类似，其中各个器件的功能可以参考方法实施例中相应的描述，此处不再赘述。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种检测网络模型，其特征在于，应用于远距离的目标检测，包括：

所述N个网络基础模块用于对待处理图像进行N次非线性变换，并分别输出N个不同尺度特征的图像信息，所述多尺度融合模块用于将所述N个不同尺度特征的图像信息进行融合生成融合后的数据，所述超像素分类模块对所述融合后的数据进行分类处理，输出超像素的分类结果，所述检测框回归模块用于对所述融合后的数据进行检测框回归处理，输出超像素的检测框回归结果；

所述多尺度融合模块包括（N-1）个尺度融合模块；

其中，所述（N-1）个尺度融合模块用于对所述N个不同尺度特征的图像信息中任意两个不同尺度特征的图像信息进行第一尺度融合，生成第1个中间结果；将第j个中间结果与一个图像信息进行第j尺度融合，生成第j个中间结果，其中，j取1至（N-1）中的整数，第1至第N个图像信息的尺度特征不同；第（N-1）个中间结果为所述融合后的数据。

2.根据权利要求1所述的检测网络模型，其特征在于，所述多尺度融合模块包括N个反卷积模块和一个尺度融合模块；

其中，所述N个反卷积模块用于将所述N个不同尺度特征的图像信息转换为相同尺度特征的图像信息，所述尺度融合模块用于对所述N个反卷积模块输出的相同尺度特征的图像信息进行融合，生成融合后的数据。

3.根据权利要求1或2所述的检测网络模型，其特征在于，所述网络基础模块包括网络层和尺度变化层，所述网络层包括残差网络ResiduelNet层、密集网络DenseNet层和谷歌网络GoogLeNet层中任意一项。

4.根据权利要求3所述的检测网络模型，其特征在于，所述尺度变化层包括卷积层或池化层。

5.一种目标检测方法，其特征在于，应用于远距离的目标检测，所述方法包括：

将待处理图像输入检测网络模型；

对所述融合后的数据进行检测框回归处理，输出超像素的检测框回归结果；

所述将所述N个不同尺度特征的图像信息进行融合生成融合后的数据，包括：

将第j个中间结果与一个图像信息进行第j尺度融合，生成第j个中间结果，其中，j取1至（N-1）中的整数，第1至第N个图像信息的尺度特征不同；

第（N-1）个中间结果为所述融合后的数据。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

7.根据权利要求5所述的方法，其特征在于，所述对所述待处理图像进行N次非线性变化，分别输出N个不同尺度特征的图像信息，包括：

对第i个图像信息进行第i+1次非线性变化，输出第i+1个图像信息；

其中，i取1至（N-1）中的整数，第1至第N个图像信息的尺度特征不同。

8.根据权利要求7所述的方法，其特征在于，所述将所述N个不同尺度特征的图像信息进行融合生成融合后的数据，包括：

9.根据权利要求5至8任一项所述的方法，其特征在于，所述方法还包括：

使用分类训练数据和检测框训练数据对检测网络模型进行训练调整；