CN109902697B

CN109902697B - 多目标检测方法、装置及移动终端

Info

Publication number: CN109902697B
Application number: CN201711285636.5A
Authority: CN
Inventors: 刘阳; 林福辉
Original assignee: Spreadtrum Communications Tianjin Co Ltd
Current assignee: Spreadtrum Communications Tianjin Co Ltd
Priority date: 2017-12-07
Filing date: 2017-12-07
Publication date: 2022-10-28
Anticipated expiration: 2037-12-07
Also published as: CN109902697A

Abstract

本发明提供一种多目标检测方法，包括：预处理模块对待检测图像进行卷积和池化操作；第一密集连接模块对预处理模块的输出进行卷积操作后与预处理模块的输出进行串联操作；第一过渡模块对第一密集连接模块的输出进行卷积和池化操作；第二密集连接模块对第一过渡模块的输出进行卷积操作后与第一过渡模块的输出进行串联操作；第二过渡模块对第二密集连接模块的输出进行卷积操作；第三过渡模块对第一过渡模块的输出进行池化和卷积操作；提取特征层对第一过渡模块的输出以及第二过渡模块和第三过渡模块的输出的串联结果进行卷积操作和残差模块处理；预测层对提取特征层的输出进行处理，解码预测的目标位置；非极值抑制模块对预测层的输出进行后处理。

Description

多目标检测方法、装置及移动终端

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种多目标检测方法、装置及移动终端。

背景技术

目标检测是计算机视觉领域的核心问题，主要目的是对图像或视频信息进行分析，判定是否存在某些物体(如人脸、行人、汽车等)，如果存在，还要给出这些物体的具体位置。目标检测技术可广泛应用于安防监控、自动驾驶、人机交互等领域，是后续的行为分析、语义解析等高阶任务的前提。

目标检测的方法有很多，传统方法中影响力最大的是基于部件的变形模型(Deformable Part-based Model，DPM)和自提升级联模型(AdaBoost Cascaded Model)。前者成功的应用于行人检测等领域，后者则主要适用于人脸检测领域。

近年来，基于卷积神经网络(Convolutional Neural Network，CNN)的深度学习方法开始被应用在目标检测领域。大致可以分为两类：

第一类是基于目标候选窗口的方法，典型代表是更快速基于区域的卷积神经网络(Faster Regions with CNN，Faster R-CNN)。主要原理是在共享的卷积特征层上，采用区域候选窗口网络(Region Proposal Network，RPN)计算出若干目标候选窗口；再对目标候选窗口内的特征信息进行分类和回归，获取目标类别信息和位置信息，从而完成目标检测任务。

第二类则是候选窗口无关(Proposal Free)的方法，典型代表是单次多窗口检测器(Single Shot MultiBox Detector，SSD)和(You Only Look Once，YOLO)检测器。这类方法不需要额外计算出目标候选窗口以及相应的特征重采样过程。而是直接在全图区域预设若干个不同尺度和横纵比的锚点窗口(Anchor Box)。在检测时只需前向传播整个网络，再针对每个锚点窗口计算出目标类别的置信度，同时在锚点窗口基础上调整偏移量来获取准确的目标位置。相比YOLO，SSD会提取多个卷积特征层的信息来进行预测，相当于使用了多尺度信息，因此具备更高的检测精度。

传统方法如DPM和Adaboost在行人和人脸领域较为成功，但其检测精度和适应性已被基于CNN的深度学习方法超越。

基于Faster R-CNN的检测器，在目前能获得较高的检测精度。但因为依赖于RPN来获取目标候选窗口，会大大影响检测器的速度。在实时性要求高的场合并不适用。基于YOLO的检测器，只依赖于最高层的卷积特征层进行分类和回归。这种做法会丧失较多的信息，对小目标的检测效果不好，此外对目标的定位精度不够。基于SSD的检测器，因为使用多个卷积特征层进行分类和回归，相比YOLO而言，对小目标的检测效果较好，目标的定位精度也有所提高。

但以上三种基于CNN的检测器均存在一个局限，即都是在预训练模型上进行微调训练。通常做法是先在ImageNet数据集上训练一个图像分类模型，如VGG16Net、GoogleNet、Darknet等。再对这些模型进行裁剪，添加新的结构。然后在目标检测的数据集如MicrosoftCOCO、PASCAL VOC上进行微调训练。这些方法的不足可以归为以下三点：1、在庞大的ImageNet数据集上训练分类模型耗时耗力；2、依赖于预训练模型来进行微调的迁移学习(Transfer Learning)模式有一定的局限性，即数据集之间的偏差可能会导致迁移学习无法达到最优解；3、使用预训练模型限制了模型架构的设计空间，不利于设计灵活高效的检测模型。

发明内容

本发明提供的多目标检测方法、装置及移动终端，检测方式更加灵活高效，并且能够提高检测效果。

第一方面，本发明提供一种多目标检测方法，包括：

预处理模块对待检测图像进行卷积和池化操作；

第一密集连接模块对所述预处理模块的输出进行卷积操作，并将卷积操作结果与所述预处理模块的输出进行通道维数上的串联操作；

第一过渡模块对所述第一密集连接模块的输出进行卷积和池化操作；

第二密集连接模块对所述第一过渡模块的输出进行卷积操作，并将卷积操作结果与所述第一过渡模块的输出进行通道维数上的串联操作；

第二过渡模块对所述第二密集连接模块的输出进行卷积操作；

第三过渡模块对所述第一过渡模块的输出进行池化和卷积操作；

提取特征层对所述第一过渡模块的输出以及所述第二过渡模块的输出和所述第三过渡模块的输出的串联结果分别进行卷积操作和残差模块处理；

预测层对所述提取特征层的输出进行处理，获得类别置信度和位置预测值，解码预测的目标位置；

非极值抑制模块对所述预测层的输出使用非极值抑制进行后处理，完成多目标检测。

可选地，所述方法还包括：

降采样模块对所述第二过渡模块的输出和所述第三过渡模块的输出的串联结果进行卷积操作；

所述第三过渡模块对所述第二过渡模块的输出和所述第三过渡模块的输出的串联结果进行池化和卷积操作；

所述提取特征层对所述降采样模块的输出和所述第三过渡模块的输出的串联结果进行卷积操作和残差模块处理。

可选地，所述第一过渡模块对所述第一密集连接模块的输出进行卷积和池化操作包括：所述第一过渡模块对所述第一密集连接模块的输出进行1×1卷积和2×2池化操作。

可选地，所述第二过渡模块对所述第二密集连接模块的输出进行卷积操作包括：所述第二过渡模块对所述第二密集连接模块的输出进行1×1卷积操作

可选地，所述第三过渡模块对所述第一过渡模块的输出进行池化和卷积操作包括：所述第三过渡模块对所述第一过渡模块的输出进行2×2池化和1×1卷积操作。

可选地，所述降采样模块对所述第二过渡模块的输出和所述第三过渡模块的输出的串联结果进行卷积操作包括：所述降采样模块对所述第二过渡模块的输出和所述第三过渡模块的输出的串联结果依次进行1×1卷积和步长为2的3×3卷积操作。

可选地，所述残差模块处理包括：进行重复多次的残差单元处理；

所述残差单元处理包括：在等价映射的基础上，进行连续两组批处理归一化、受限线性单元以及1×1卷积操作，并与所述等价映射进行元素级的相加。

可选地，所述提取特征层对所述第一过渡模块的输出以及所述第二过渡模块的输出和所述第三过渡模块的输出的串联结果分别进行卷积操作和残差模块处理包括：

使用训练集的目标标注窗口的宽度、高度如式(3)、(4)所示进行归一化和开方，生成的特征

将用于聚类分析；

其中w_box和h_box为目标标注窗口的宽度、高度，w_Image和h_Image是对应图像的宽度、高度；

采用基于K均值聚类统计目标横纵比分布的算法，计算得到的n_cluster个目标横纵比，提取特征层中的每个3×3卷积层的输出通道数就是n_cluster×(p+4)，每一组提取的特征就对应的特定尺度s_k下，n_cluster种横纵比的目标信息。

可选地，所述采用基于K均值聚类统计目标横纵比分布的算法包括：

初始化：设定聚类中心的数目q的初始值为2，聚类代价初始值为cost_prev＝FLOAT_MAX(即最大浮点数)；

主模块{

随机选取q个聚类中心，为μ₁，...，μ_q

重复下面过程直至收敛{

对于每一样本a_i，计算属于哪个聚类中心

s⁽ⁱ⁾：＝argmin_j||a_i-μ_j||²

更新每个聚类中心

}

计算聚类代价

当cost_curr＜(θ×cost_prev)时，q＝q+1，cost_prev＝cost_curr，继续执行主模块。其中θ为改进系数；

}

使用最终的聚类中心，计算训练集中目标标注窗口的横纵比。

第二方面，本发明提供一种多目标检测装置，包括：

预处理模块，用于对待检测图像进行卷积和池化操作；

第一密集连接模块，用于对所述预处理模块的输出进行卷积操作，并将卷积操作结果与所述预处理模块的输出进行通道维数上的串联操作；

第一过渡模块，用于对所述第一密集连接模块的输出进行卷积和池化操作；

第二密集连接模块，用于对所述第一过渡模块的输出进行卷积操作，并将卷积操作结果与所述第一过渡模块的输出进行通道维数上的串联操作；

第二过渡模块，用于对所述第二密集连接模块的输出进行卷积操作；

第三过渡模块，用于对所述第一过渡模块的输出进行池化和卷积操作；

提取特征层，用于对所述第一过渡模块的输出以及所述第二过渡模块的输出和所述第三过渡模块的输出的串联结果分别进行卷积操作和残差模块处理；

预测层，用于对所述提取特征层的输出进行处理，获得类别置信度和位置预测值，解码预测的目标位置；

非极值抑制模块，用于对所述预测层的输出使用非极值抑制进行后处理，完成多目标检测。

可选地，所述装置还包括：

降采样模块，用于对所述第二过渡模块的输出和所述第三过渡模块的输出的串联结果进行卷积操作；

所述第三过渡模块，还用于对所述第二过渡模块的输出和所述第三过渡模块的输出的串联结果进行池化和卷积操作；

所述提取特征层，还用于对所述降采样模块的输出和所述第三过渡模块的输出的串联结果进行卷积操作和残差模块处理。

可选地，所述第一过渡模块，用于对所述第一密集连接模块的输出进行1×1卷积和2×2池化操作。

可选地，所述第二过渡模块，用于对所述第二密集连接模块的输出进行1×1卷积操作。

可选地，所述第三过渡模块，用于对所述第一过渡模块的输出进行2×2池化和1×1卷积操作。

可选地，所述降采样模块，用于对所述第二过渡模块的输出和所述第三过渡模块的输出的串联结果依次进行1×1卷积和步长为2的3×3卷积操作。

可选地，所述残差模块包括多个残差单元；所述残差单元，用于在等价映射的基础上，进行连续两组批处理归一化、受限线性单元以及1×1卷积操作，并与所述等价映射进行元素级的相加。

可选地，所述提取特征层，用于使用训练集的目标标注窗口的宽度、高度如式(3)、(4)所示进行归一化和开方，生成的特征

将用于聚类分析；

主模块{

随机选取q个聚类中心，为μ₁，...，μ_q

重复下面过程直至收敛{

对于每一样本a_i，计算属于哪个聚类中心

s⁽ⁱ⁾：＝argmin_j||a_i-μ_j||²

更新每个聚类中心

}

计算聚类代价

}

第三方面，本发明提供一种移动终端，所述移动终端包括上述多目标检测装置。

本发明实施例提供的多目标检测方法、装置及移动终端，采用单次多窗口检测器作为基本框架，训练时不使用传统的预训练模型进行微调，借鉴密集连接卷积网络的思想来构建灵活的基础网络，可以自行设计灵活高效的网络结构；同时采用密集连接卷积网络模块和残差网络模块，能够提高检测效果。

附图说明

图1为本发明一实施例多目标检测方法的流程图；

图2为本发明实施例提供的SSD模型架构图；

图3为本发明实施例提供的锚点窗口示意图；

图4为本发明实施例提供的密集连接卷积网络示意图；

图5为本发明实施例提供的残差网络结构示意图；

图6为本发明实施例提供的预处理模块示意图；

图7为本发明实施例提供的密集连接模块示意图；

图8为本发明实施例提供的过渡模块示意图；

图9为本发明实施例提供的检测器的基础网络架构图；

图10为本发明实施例提供的检测器的整体架构图；

图11为本发明实施例提供的多目标检测结果的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种多目标检测方法，如图1所示，所述方法包括：

S11、预处理模块对待检测图像进行卷积和池化操作；

S12、第一密集连接模块对所述预处理模块的输出进行卷积操作，并将卷积操作结果与所述预处理模块的输出进行通道维数上的串联操作；

S13、第一过渡模块对所述第一密集连接模块的输出进行卷积和池化操作；

S14、第二密集连接模块对所述第一过渡模块的输出进行卷积操作，并将卷积操作结果与所述第一过渡模块的输出进行通道维数上的串联操作；

S15、第二过渡模块对所述第二密集连接模块的输出进行卷积操作；

S16、第三过渡模块对所述第一过渡模块的输出进行池化和卷积操作；

S17、提取特征层对所述第一过渡模块的输出以及所述第二过渡模块的输出和所述第三过渡模块的输出的串联结果分别进行卷积操作和残差模块处理；

S18、预测层对所述提取特征层的输出进行处理，获得类别置信度和位置预测值，解码预测的目标位置；

S19、非极值抑制模块对所述预测层的输出使用非极值抑制进行后处理，完成多目标检测。

本发明实施例提供的多目标检测方法，采用单次多窗口检测器作为基本框架，训练时不使用传统的预训练模型进行微调，借鉴密集连接卷积网络的思想来构建灵活的基础网络，可以自行设计灵活高效的网络结构；同时采用密集连接卷积网络模块和残差网络模块，能够提高检测效果。

下面对本发明实施例多目标检测方法进行详细说明。

(1)SSD检测器

SSD检测器是在一个前向传播的卷积神经网络的基础上，选取多个卷积特征层的信息来对预设的锚点窗口进行预测，预测变量包括目标类别的置信度和目标位置的偏移量，再经过一些后处理如非极值抑制(Non Maximum Suppression，NMS)来获取最终的检测结果。以下将分三个环节，分别介绍SSD检测器的模型架构、训练方法和检测过程。

1.1、模型架构

一般SSD会采用一个预训练模型作为基础网络(Base Network)，然后在目标检测的数据集上进行微调(Fine-tune)，这种过程也被称为迁移学习(Transfer Learning)。这种方案的优点是能够较快的收敛到比较好的优化解。预训练模型指的是预定义一个初始值都是噪声的模型，从头开始训练得到的模型。图像识别领域的应用通常是在ImageNet数据集上进行预训练，这是业界的通常做法，本发明不再详述。SSD采用的预训练模型一般是VGG16模型，下面将以此为例进行图示说明。也可以使用ResNet101等模型，方法类似。

图2为SSD模型架构图，以下将详细说明。选择VGG16模型作为基础网络后，需要做一些改动。即将全连接层(Full Connected Layer)FC6和FC7转换为卷积层Conv6和Conv7，然后将选择跳过层(Dropout Layer)和全连接层FC8裁剪掉。之后需要在基础网络上添加一些新的结构，如：提取特征层、预测层、非极值抑制模块等。

图2中的大框中左侧的四个小框部分为新添加的卷积模块，分别生成了Conv8～Conv11的卷积特征层。这些卷积特征层的尺寸逐步减小，对应着多种尺度。SSD检测器会在多个卷积特征层上提取信息用于预测，包括新添加的Conv8～Conv11层，和原有的Conv4_3层以及转换后的Conv7层。图2中的卷积层均是四维张量(Tensor)，数据维度是[K，K，m_in，m_out]，维度数值分别是卷积层的高度、宽度、输入通道数和输出通道数。每个卷积层由m_out个卷积核组成，每个卷积核维度为[K，K，m_in]。如1×1卷积层代表K＝1。3×3卷积-步长2代表K＝3、滑动步长为2的卷积层。不做特别说明的卷积层滑动步长均为1。按照习惯，图中没有显式写出各卷积层的通道数。预训练模型的卷积层通道数可以参考现有技术，额外添加的卷积层通道数可以根据任务需求进行调节。

提取特征层为多组3×3卷积层，分别作用于上述选择的卷积特征层上。可以生成预测层中的数据，包括目标类别的置信度和目标位置的偏移量。以下举例说明：

对某一选择的卷积特征层X_i，数据维度是[H_i，W_i，C_i]，维度数值分别是卷积特征层的高度、宽度和通道数；对应的卷积层为F_i，数据维度是[K，K，C_i，p+4]，维度数值分别是卷积层的高度、宽度、输入通道数和输出通道数，其中p代表目标类别的数目，4对应的是目标的四个位置参数。如式(1)所示，可以生成预测数据Y_i，数据维度是[H_i，W_i，p+4]。

其中

代表卷积操作。

由于实际场景中的目标具有不同的尺度和横纵比，SSD对于上述选择的卷积特征层上的任一位置会生成若干锚点窗口，如图2所示。具体做法是根据选择的卷积特征层的索引k来计算一个专属的尺度参数s_k，如式(2)所示：

其中s_min是最小尺度，s_max是最大尺度，m是选择的卷积特征层数量，s_k是已选择的卷积特征层中第k层的目标尺度。

此外，SSD还设定了一个横纵比的序列a_r∈{1，2，3，1/2，1/3}，则第k层卷积特征层的任一锚点窗口的宽和高即为

这种人为设定的参数并不能贴切的符合实际目标的横纵比分布，因此本发明提出一种基于K均值聚类的方法，可以在训练集中统计分析出目标的横纵比分布，并用于训练和检测任务。

使用训练集的目标标注窗口(Object Annotation Box)的宽度、高度如式(3)、(4)所示进行归一化和开方，生成的特征

将用于聚类分析。

其中w_box和h_box为目标标注窗口的宽度、高度，w_Image和h_Image是对应图像的宽度、高度。则基于K均值聚类统计目标横纵比分布的算法如下：

初始化：设定聚类中心的数目q的初始值为2，聚类代价初始值为cost_prev＝FLOAT_MAX(即最大浮点数)。

主模块{

1、随机选取q个聚类中心，为μ₁，...，μ_q

2、重复下面过程直至收敛{

对于每一样本a_i，计算属于哪个聚类中心

s⁽ⁱ⁾：＝argmin_j||a_i-μ_j||²

更新每个聚类中心

}

3、计算聚类代价

4、当cost_curr＜(θ×cost_prev)时，q＝q+1，cost_prev＝cost_curr，继续执行主模块。其中θ为改进系数。

}

采用上述算法，计算得到的n_cluster个目标横纵比，提取特征层中的每个3×3卷积层的输出通道数就是n_cluster×(p+4)。这样，每一组提取的特征就对应的特定尺度s_k下，n_cluster种横纵比的目标信息。

1.2、训练方法

SSD的训练目标函数允许多个目标类别，因此能同时检测多个类别的目标。设定

为一个指示器，作为第i个锚点窗口和第j个目标类别为p的标注窗口的匹配结果。若两窗口的重叠率高于阈值Thre_overlap，则

为1，否则为0。匹配策略允许

这样多个目标可以和一个锚点窗口匹配。训练的整体目标损失函数是置信度损失函数和定位损失函数的加权和，如式(5)所示：

其中，N是匹配上的窗口数目。若N为0，则目标损失为0。α是定位损失的权重系数。f代表指示器矢量，c代表置信度矢量，t代表预测窗口位置矢量，g代表目标标注窗口矢量。L_conf(f，c)是置信度损失函数，L_loc(f，t，g)是定位损失函数。

置信度损失函数是对多个类别的置信度计算Softmax损失，如式(6)、(7)所示：

其中，log是对数函数，exp是指数函数，

是第i个预测窗口属于目标类别p的置信度。Pos代表正样本集，Neg代表负样本集。某窗口与所有目标标注窗口的重叠率小于Thre_overlap时，便属于负样本。p＝0代表背景类别，即负样本类别。

定位损失函数是对预测窗口和目标标注窗口之间差异的量化估计。计算损失函数之前，先使用锚点窗口对目标标注窗口进行编码，如式(8)、(9)、(10)、(11)所示：

其中，

是第i个锚点窗口的中心位置横坐标、纵坐标、宽度、高度；

是第j个目标标注窗口的中心位置横坐标、纵坐标、宽度、高度；

是第j个目标标注窗口编码后的中心位置横坐标、纵坐标、宽度、高度；

再使用平滑的一阶范数来计算定位损失函数，如式(12)、(13)所示：

其中m∈(cx，cy，w，h)即为窗口位置参数，分别是中心位置横坐标、纵坐标、宽度、高度。

是第i个预测窗口的第m个位置参数，

是第j个目标标注窗口编码后的第m个位置参数。平滑一阶范数smooth_L1如式(13)所示：

SSD的训练过程是使用训练数据作为输入，对整个网络结构进行前向传播，并根据式(5)计算损失值。再反向传播，更新整个网络的模型参数。这个过程具体是使用随机梯度下降(Stochastic Gradient Descent，SGD)方法来进行迭代优化，这是通用的优化算法，此处不再详述。

1.3、检测过程

完成训练后，可以使用训练得到的模型参数对新的图像进行目标检测任务。具体做法是使用新图像作为输入，对模型进行前向传播。在预测层获得类别置信度

和位置预测值

然后如式(14)、(15)、(16)、(17)所示，解码预测的目标位置

然后使用非极值抑制进行后处理，完成检测。

(2)密集连接卷积网络(Densely Connected Convolutional Network，DenseNet)和残差网络(Residual Network，ResNet)

2.1、密集连接卷积网络

如图4所示，密集连接卷积网络的核心是密集连接模块，模块中的每一个特征层都会被后续的特征层复用。这样特征复用的方式使得模型参数具有更高的使用效率，同时可以降低训练难度。与残差网络的不同之处在于，这里特征层之间的连接不是简单的元素级相加(Element-wise Addition)，而是如式(18)所示在通道维度上的串联(Concatenate)，以及非线性操作：

X_l＝H_l([X₀，X₁，...，X_l-1]) (18)

其中[X₀，X₁，...，X_l-1]是将已处理过的特征层在通道维度上进行串联；H_l是非线性操作，由批处理归一化(Batch Normalization，BN)模块，受限线性单元(Rectified LinearUnit，ReLU)模块和一个3×3卷积层组成。批处理归一化、受限线性单元均为业界通用技术，不再详述。

由于串联操作要求特征层的宽度和高度一致，而通常卷积神经网络会使用池化(Pooling)层来降低特征层的宽度和高度。密集连接卷积网络为了解决这个问题，加上了如图4所示的过渡模块。过渡模块包括1×1卷积层和2×2的池化层。本发明的池化层都指的最大值池化(Max Pooling)，这属于业界通用技术，不再详述。每经过一次过渡模块，特征层的尺寸会降为原特征层的一半，同时1×1的卷积层可以方便的改变特征层的通道数。

2.2、残差网络

残差网络是一种可以降低深度神经网络训练难度的结构，同时提高模型的泛化能力。如图5所示，小框内为一个残差单元，残差模块是重复多次的残差单元。这种“加性”结构可以确保深度神经网络在反向传播时等概率的传播到每一层，避免了梯度消失(GradientVanishing)的问题。

数学角度上，残差单元是在等价映射的基础上，加上了一组非线性的跳跃结构，这里的非线性处理单元是连续两组批处理归一化，受限线性单元，1×1卷积层的组合。最后是元素级的相加(Element-wise Addition)，即两个维度相同的张量做对应位置数据的相加。残差模块是重复多次的残差单元，如式(19)所示：

其中，G(*)是上文提到的非线性处理单元，X_l和X_L分别是第l层残差单元和第L层残差单元的输入值。

在反向传播时，如式(20)所示，l层的梯度由两部分相加组成，第一部分

可以无损的传递到任意层，第二部分

则包含了各残差单元的梯度信息。传统的深度神经网络结构，反向传播时类似于第二部分，是一个“乘性”的传播过程。如果网络的深度越深，传播的梯度信息会越小，容易出现梯度消失的问题。

其中，ε是损失函数，

是损失函数对第l层残差单元输入值的偏导梯度。

(3)本发明实施例提供的检测器

本发明检测器的框架类似于SSD，但有以下几点不同：1、本发明借鉴密集连接卷积网络的思想来构建灵活的基础网络；2、本发明使用的目标横纵比先验值是使用K均值聚类在训练集上获得，更符合具体任务的要求；3、本发明在预测层中使用密集连接模块，可以提高检测效果；4、本发明在提取特征层中添加残差模块，可以提高检测效果。

3.1、基础网络

本发明的基础网络，依赖于以下几种模块：预处理模块、密集连接模块、过渡模块。下文将分别介绍。

图6小框内为预处理模块，由若干卷积层、池化层组成，提取信息的同时可以缩小特征层的尺寸。图中给出的预处理模块包括三个卷积层和一个池化层，但均可以根据具体任务进行调节。

图7小框部分为本发明使用的密集连接模块，借鉴了密集连接卷积网络的思路，可以复用特征信息来提高效率。一条支路是上一个特征层的等价映射，另一条是上一个特征层经过1×1卷积层和3×3卷积层的结果，两条支路进行通道维数上的串联操作。密集连接模块是重复多次的串联结构，具体次数可以根据任务需求进行调节。

通常卷积神经网络会不断的使用池化层或是带步长的卷积层来缩小特征层的尺寸，这样可以尽量减小计算量。过渡模块的作用即是缩小特征层的尺寸或是调整特征层的通道数。图8介绍了两种过渡模块，第一种是1×1卷积层和2×2池化层的组合，可以同时调整特征层的通道数和尺寸。第二种只有1×1卷积层，只调整特征层的通道数。

图9中小框部分为本发明使用的基础网络，在预处理模块之后，会交替的使用密集连接模块和过渡模块。这里共交替使用了四组模块，其中最后两组的过渡模块是无池化层的，不改变特征层的尺寸。图中的模块数目是根据输入图像尺寸为300像素来设计的，实际也可以根据任务需求来增减模块数目。参考SSD提取特征层的做法，本发明采用第二个过渡模块的1×1卷积结果作为一个特征层用于后续处理，这样做可以提高对小尺寸目标的检测效果。相比Faster R-CNN、SSD等方法，本发明可以设计灵活的基础模型，针对使用场景调节相应参数以满足实际需求。

3.2、整体架构

本发明不仅在基础网络里使用密集连接结构，在生成预测层的环节也使用了密集连接结构。本发明检测器的整体架构如图10所示。其中大框中左侧第二列的小框区域为过渡模块III，由2×2池化层和1×1卷积层组成。与上文过渡模块I稍有不同，这里池化层的次序在前可以降低计算量；大框中左侧第一列的小框区域为降采样模块，由1×1卷积层和步长为2的3×3卷积层组成。

参考SSD的做法，本发明使用基础网络第2个过渡模块的1×1卷积结果作为一条支路信息用于预测。同时，这条支路信息经过过渡模块III，和基础网络的输出信息进行串联。串联后的结果分三个方向来使用，一是用于预测，二是经过过渡模块III用于下一组特征层的串联，三是经过降采样模块用于下一组特征层的串联。如图10所示，本发明在生成预测信息的过程中，嵌套使用了五次密集连接模块。使用密集连接模块的次数可以根据实际任务进行调节。本发明采用密集连接的方式来复用特征信息，相比SSD的方案能够进一步利用多尺度信息，从而改善检测效果。

如图10所示，本发明的另一个要点是在提取特征层中加入残差模块，即图5中的残差网络结构。其目的是在反向传播时，预测层的梯度信息可以等概率的传播到不同的数据层上。

图11为一张多目标检测结果的示意图。

(4)本发明实施例提供的检测器与SSD检测器的性能对比

为了进行性能对比，参照SSD检测器的做法，本发明检测器在PASCAL VOC数据集上进行了训练和测试。采用VOC2012trainval数据集和VOC2007trainval数据集合并，作为训练集；采用VOC2007test数据集作为测试集。参考SSD检测器使用了尺寸为300像素的图像作为输入，本发明在基础网络中交替使用了四组密集连接模块和过渡模块(其中密集连接模块为重复六次的串联结构)。此外在生成预测层的环节嵌套使用了五次密集连接模块，残差模块中使用了两次残差单元。训练和测试都是在单块Titan X GPU上完成的。

VOC数据集有20类目标，评估检测性能的指标是平均精度均值(meanAveragePrecision，mAP)，如式(21)、(22)、(23)所示：

其中，r指召回率(Recall)，p(r)指对应于某一召回率的精度(Precision)，p_interp(r)为召回率大于r时的最大精度，AP是在召回率为{0，0.1，...，1.0}等十一个级别上计算精度均值，mAP是指对多类目标计算精度均值的平均，使用VOC数据集时Q＝20。

平均精度均值取值范围为[0-1]，数值越大代表检测器性能越好。此外，本发明还比较了检测器的模型大小和运行速度。通常是希望模型尽量小，运行速度尽量快。

为了体现本发明检测器在模型设计上的灵活性，使用了两种模型结构。第一种在基础网络的密集连接模块中，串联结构的卷积层输出通道数设为48，作为本发明检测器；第二种在基础网络的密集连接模块中，串联结构的卷积层输出通道数设为16，作为本发明检测器的简化版本。本发明对这两种模型和SSD检测器进行了性能对比，详见表1。

可以看到本发明检测器的平均精度均值高于SSD，同时模型大小只有SSD检测器的二分之一左右。本发明检测器使用简化参数时，虽然平均精度均值略低于SSD检测器，但模型大小只有SSD检测器的五分之一，同时速度也与SSD检测器相差不大。通过对比可以发现，在达到类似或者更高的检测精度的条件下，本发明检测器具备更小规模的模型参数，适合部署在移动终端或嵌入式设备中。同时，本发明检测器不受限于预训练模型的约束，可以灵活的调整模型参数和规模，十分利于实现模型大小和检测性能的权衡。在运行速度上，本发明检测器略低于SSD检测器，主要是密集连接模块的串联操作造成的。因为测试都是在GPU上进行运算的，GPU架构目前没有针对密集连接模块进行优化，相信本发明检测器的速度可以通过专业的硬件设计来提升。

表1、各检测器性能对比

需要说明的是，以上提及的具体参数是为了进行性能对比而设定的。在实际使用中，可以根据具体的场景要求进行调节。

本发明实施例还提供一种多目标检测装置，所述装置包括：

预处理模块，用于对待检测图像进行卷积和池化操作；

本发明实施例提供的多目标检测装置，采用单次多窗口检测器作为基本框架，训练时不使用传统的预训练模型进行微调，借鉴密集连接卷积网络的思想来构建灵活的基础网络，可以自行设计灵活高效的网络结构；同时采用密集连接卷积网络模块和残差网络模块，能够提高检测效果。

可选地，所述装置还包括：

将用于聚类分析；

主模块{

随机选取q个聚类中心，为μ₁，...，μ_q

重复下面过程直至收敛{

对于每一样本a_i，计算属于哪个聚类中心

s⁽ⁱ⁾：＝argmin_j||a_i-μ_j||²

更新每个聚类中心

}

计算聚类代价

}

本实施例的装置，可以用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

本发明实施例还提供一种移动终端，所述移动终端包括上述多目标检测装置。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。