CN112464982A

CN112464982A - 基于改进ssd算法的目标检测模型、方法及应用

Info

Publication number: CN112464982A
Application number: CN202011166365.3A
Authority: CN
Inventors: 甄然; 苏康; 吴学礼
Original assignee: Hebei University of Science and Technology
Current assignee: Hebei University of Science and Technology
Priority date: 2020-10-27
Filing date: 2020-10-27
Publication date: 2021-03-09

Abstract

本发明公开了基于改进SSD算法的目标检测模型、方法及应用，涉及图像分类技术领域；模型包括第一、第二add融合器、卷积层Conv9_2、Conv10_2、Conv4_3和Conv7；方法为调整特征图L9_2和特征图L10_2的通道数量、以反卷积的形式进行上采样、通过第一add融合器与特征图L4_3进行特征融合并形成第一add融合特征图，调整特征图L9_2和特征图L10_2的通道数量、以反卷积的形式进行上采样、通过第二add融合器与特征图L7进行融合并形成第二add融合特征图；应用为将上述目标检测模型或者目标检测方法应用在无人机的分类系统上；其通过上述模型、方法或应用等，实现提高目标检测工作效率。

Description

基于改进SSD算法的目标检测模型、方法及应用

技术领域

本发明涉及图像分类技术领域，尤其涉及一种基于改进SSD算法的目标检测模型、方法及应用。

背景技术

卷积神经网络是一种经典的前馈神经网络，结构一般包括卷积层、下采样层、和全连接层。下采样层一般连在卷积层之后，与卷积层交替出现，最后连接全连接层。卷积神经网络采用局部连接、权值共享和空间和时间相关的下采样方法，从而获得更好的平移、缩放、和扭曲不变性，使提取的特征更具区分性。网络结构中每层包含若干特征图，特征图是图像在网络的不同层之间进行下采样或卷积操作的运算后保存的结果即矩阵。每个特征图中包含若干神经元，每个特征图对应一个过滤器，并对应一种特征。

SSD(Single Shot Detector)算法，是仅需要单个卷积神经网络就能完成目标检测的算法。SSD算法将目标框的输出空间离散化为一组在每个特征图位置不同大小和形状的默认框。预测时，网络对位于每个默认框类的物体类别进行打分，并修正默认框位置来更好的匹配物体的位置。此外，SSD网络在不同分辨率的特征图上预测，这样就可以处理大小不同的物体。SSD算法以VGG-16为基础网络，同时在基础网络后增加卷积特征层，这些层按大小减小的次序连接。抽取卷积层Conv4_3、Conv7、Conv8_2、Conv9_2、Conv10_2和Conv11_2的特征图，然后分别在这些特征图层上面的每一个点构造若干个不同尺度大小的先验框，然后分别进行检测和分类。

传统的SSD算法直接使用卷积神经网络产生的特征图，作为检测样本。因为对小目标的检测主要依赖特征图L4_3，但这一层特征图经过的卷积少，其语义性更低，所以导致对小目标的检测率不高。另外，因为随着卷积神经网络层数的加深，产生的特征图所包含的信息也在变化，低层包含更多的位置、细节信息。深层语义性更强，直接用来检测，导致各层特征信息未被充分利用。

现有技术问题及思考：

如何解决目标检测工作效率较低的技术问题。

发明内容

本发明所要解决的技术问题是提供一种基于改进SSD算法的目标检测模型、方法及应用，其通过卷积层Conv9_2的输出端、卷积层Conv10_2的输出端和卷积层Conv4_3的输出端分别与第一add融合器的输入端连接，卷积层Conv9_2的输出端、卷积层Conv10_2的输出端和卷积层Conv7的输出端分别与第二add融合器的输入端连接等，实现提高目标检测工作效率。

为解决上述技术问题，本发明所采取的技术方案是：一种基于改进SSD算法的目标检测模型包括卷积神经网络，还包括融合网络结构，所述融合网络结构的数量为两个分别是第一融合网络结构和第二融合网络结构，所述第一融合网络结构包括卷积层Conv9_2、卷积层Conv10_2、卷积层Conv4_3和第一add融合器，所述卷积层Conv9_2的输出端、卷积层Conv10_2的输出端和卷积层Conv4_3的输出端分别与第一add融合器的输入端连接；所述第二融合网络结构包括卷积层Conv9_2、卷积层Conv10_2、卷积层Conv7和第二add融合器，所述卷积层Conv9_2的输出端、卷积层Conv10_2的输出端和卷积层Conv7的输出端分别与第二add融合器的输入端连接。

进一步的技术方案在于：所述卷积神经网络还包括分类和回归模块，所述融合网络结构还包括目标检测模块，所述第一add融合器的输出端与分类和回归模块的输入端连接，所述第二add融合器的输出端与分类和回归模块的输入端连接，所述目标检测模块为程序模块，用于调整卷积层Conv9_2形成的特征图和卷积层Conv10_2形成的特征图的通道数量、以反卷积的形式进行上采样、通过第一add融合器与卷积层Conv4_3形成的特征图进行特征融合并形成第一add融合特征图，调整卷积层Conv9_2形成的特征图和卷积层Conv10_2形成的特征图的通道数量、以反卷积的形式进行上采样、通过第二add融合器与卷积层Conv7形成的特征图进行特征融合并形成第二add融合特征图，将第一add融合特征图和第二add融合特征图发送至分类和回归模块并进行图像分类。

一种基于改进SSD算法的目标检测方法，基于卷积层Conv9_2、卷积层Conv10_2、卷积层Conv4_3、卷积层Conv7、第一add融合器和第二add融合器，调整卷积层Conv9_2形成的特征图和卷积层Conv10_2形成的特征图的通道数量、以反卷积的形式进行上采样、通过第一add融合器与卷积层Conv4_3形成的特征图进行特征融合并形成第一add融合特征图，调整卷积层Conv9_2形成的特征图和卷积层Conv10_2形成的特征图的通道数量、以反卷积的形式进行上采样、通过第二add融合器与卷积层Conv7形成的特征图进行特征融合并形成第二add融合特征图，将第一add融合特征图和第二add融合特征图发送至分类和回归模块并进行图像分类。

进一步的技术方案在于：具体地包括如下步骤：

第一步骤，输入图片，经过预处理后输入到预训练好的检测网络；

第二步骤，抽取卷积层Conv4_3、Conv7、Conv8_2、Conv9_2、Conv10_2、Conv11_2、Conv4_3_1和Conv7_1的特征图，分别在这些特征图上的每一个点构造相应数量和相应尺度大小的先验框，分别进行检测和分类并生成先验框；

第三步骤，将每一特征图获得的先验框结合起来，经过NMS非极大值抑制方法来抑制掉一部分重叠或者不正确的边界框，生成最终的边界框集合即检测结果。

一种基于改进SSD算法的目标检测应用，将上述目标检测模型或者目标检测方法应用在无人机的分类系统上。

采用上述技术方案所产生的有益效果在于：

一种基于改进SSD算法的目标检测模型包括卷积神经网络，还包括融合网络结构，所述融合网络结构的数量为两个分别是第一融合网络结构和第二融合网络结构，所述第一融合网络结构包括卷积层Conv9_2、卷积层Conv10_2、卷积层Conv4_3和第一add融合器，所述卷积层Conv9_2的输出端、卷积层Conv10_2的输出端和卷积层Conv4_3的输出端分别与第一add融合器的输入端连接；所述第二融合网络结构包括卷积层Conv9_2、卷积层Conv10_2、卷积层Conv7和第二add融合器，所述卷积层Conv9_2的输出端、卷积层Conv10_2的输出端和卷积层Conv7的输出端分别与第二add融合器的输入端连接。其通过卷积层Conv9_2的输出端、卷积层Conv10_2的输出端和卷积层Conv4_3的输出端分别与第一add融合器的输入端连接，卷积层Conv9_2的输出端、卷积层Conv10_2的输出端和卷积层Conv7的输出端分别与第二add融合器的输入端连接等，实现提高目标检测工作效率。

一种基于改进SSD算法的目标检测方法，基于卷积层Conv9_2、卷积层Conv10_2、卷积层Conv4_3、卷积层Conv7、第一add融合器和第二add融合器，调整特征图L9_2和特征图L10_2的通道数量、以反卷积的形式进行上采样、通过第一add融合器与特征图L4_3进行特征融合并形成第一add融合特征图，调整特征图L9_2和特征图L10_2的通道数量、以反卷积的形式进行上采样、通过第二add融合器与特征图L7进行融合并形成第二add融合特征图，将第一add融合特征图和第二add融合特征图发送至分类和回归模块并进行图像分类。其通过调整卷积层Conv9_2形成的特征图和卷积层Conv10_2形成的特征图的通道数量、以反卷积的形式进行上采样、通过第一add融合器与卷积层Conv4_3形成的特征图进行特征融合并形成第一add融合特征图，调整卷积层Conv9_2形成的特征图和卷积层Conv10_2形成的特征图的通道数量、以反卷积的形式进行上采样、通过第二add融合器与卷积层Conv7形成的特征图进行特征融合并形成第二add融合特征图的方法步骤等，实现提高目标检测工作效率。

一种基于改进SSD算法的目标检测应用，将上述目标检测模型或者目标检测方法应用在无人机的分类系统上，实现提高目标检测工作效率。

详见具体实施方式部分描述。

附图说明

图1是本发明实施例1的原理框图；

图2是本发明实施例1中第一融合网络结构的原理框图；

图3是本发明实施例1中第二融合网络结构的原理框图；

图4是本发明实施例1中卷积层Conv4_3的特征图；

图5是本发明实施例1中卷积层Conv7的特征图；

图6是本发明实施例1中卷积层Conv9_2的特征图；

图7是本发明实施例1中卷积层Conv10_2的特征图；

图8是本发明实施例1的第一add融合特征图；

图9是本发明实施例1的第二add融合特征图；

图10是本发明实施例2的流程图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本申请及其应用或使用的任何限制。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本申请，但是本申请还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施例的限制。

实施例1：

如图1～图3所示，本发明公开了一种基于改进SSD算法的目标检测模型包括卷积神经网络和融合网络结构，所述卷积神经网络包括分类和回归模块、VGG16基础网络模块和附加特征提取模块，所述融合网络结构包括第一融合网络结构和第二融合网络结构以及目标检测模块。

所述第一融合网络结构包括卷积层Conv9_2、卷积层Conv10_2、卷积层Conv4_3和第一add融合器，所述卷积层Conv9_2的输出端、卷积层Conv10_2的输出端和卷积层Conv4_3的输出端分别与第一add融合器的输入端连接，所述第一add融合器的输出端与分类和回归模块的输入端连接；所述第二融合网络结构包括卷积层Conv9_2、卷积层Conv10_2、卷积层Conv7和第二add融合器，所述卷积层Conv9_2的输出端、卷积层Conv10_2的输出端和卷积层Conv7的输出端分别与第二add融合器的输入端连接，所述第二add融合器的输出端与分类和回归模块的输入端连接。

所述目标检测模块为程序模块，用于调整卷积层Conv9_2形成的特征图和卷积层Conv10_2形成的特征图的通道数量、以反卷积的形式进行上采样、通过第一add融合器与卷积层Conv4_3形成的特征图进行特征融合并形成第一add融合特征图，调整卷积层Conv9_2形成的特征图和卷积层Conv10_2形成的特征图的通道数量、以反卷积的形式进行上采样、通过第二add融合器与卷积层Conv7形成的特征图进行特征融合并形成第二add融合特征图，将第一add融合特征图和第二add融合特征图发送至分类和回归模块并进行图像分类。

实施例2：

如图10所示，本发明公开了一种基于改进SSD算法的目标检测方法，基于实施例1的模型，具体地包括如下步骤：

第一步骤，输入图片，经过预处理后输入到预训练好的检测网络。

第二步骤，抽取卷积层Conv4_3、Conv7、Conv8_2、Conv9_2、Conv10_2、Conv11_2、Conv4_3_1和Conv7_1的特征图，分别在这些特征图上的每一个点构造相应数量和相应尺度大小的先验框，分别进行检测和分类并生成先验框。

实施例3：

本发明公开了一种基于改进SSD算法的目标检测应用为将实施例1的目标检测模型应用在无人机的分类系统上。

实施例4：

本发明公开了一种基于改进SSD算法的目标检测应用为将实施例2的目标检测方法应用在无人机的分类系统上。

本申请的发明构思：

在多层卷积神经网络中，低层特征分辨率更高，包含更多的位置、细节信息，但经过的卷积更少，其语义性更低，噪声更多。高层特征具有更强的语义信息，但分辨率更低，对细节的感知能力较差。本发明要解决不同层的特征如何融合才能高效充分的利用。

特征融合feature fusion是将卷积神经网络提取的不同特征通过某种方法生成新的特征，使新特征对分类、检测更有效。融合不同尺度的特征是提高分割性能的一个重要手段。低层特征分辨率更高，包含更多位置、细节信息，但是由于经过的卷积更少，其语义性更低，噪声更多。高层特征具有更强的语义信息，但是分辨率很低，对细节的感知能力较差。如何将两者高效融合，取其长处，弃之糟泊，是改善模型分类、检测能力的关键。多层特征融合一般采用add或concat两种方法，本发明采用add的方式将目标层特征进行融合。

concat每个通道对应着对应的卷积核。而add形式则将对应的特征图相加，再进行卷积操作，相当于加了一个先验：对应通道的特征图语义类似，从而对应的特征图共享一个卷积核。因此add可以认为是特殊的concat形式。但是add的计算量要比concat的计算量小得多。add是描述图像的特征下的信息量增多了，但是描述图像的维度本身并没有增加，只是每一维下的信息量在增加，这显然是对最终的图像的分类是有益的。

在进行特征融合之前，需要将特征图缩放到相同的大小。本发明方法以低层网络特征图为主进行融合，采用上采样的方式对深层特征图进行扩大，具体操作为反卷积。反卷积可以对低分辨率的特征图进行放大，使得信息能够反向重构，最终获得的特征图语义信息更强。

针对SSD算法的改进有很多，其中二级特征融合与本发明最接近。二级特征融合第一步将特征图L4_3分别与特征图L7、L8_2、L9_2、L10_2和L11_2的特征进行融合，产生五个一级融合特征，第二部将第一步产生的特征进行融合，称之为第二级融合，产生一个融合后的特征图。第三步将融合的特征图和融合以前的特征图一起进行检测、分类。

近年来，CNN在各类图像识别任务中都取得了良好的效果，如人脸识别、人眼检测、行人检测、车牌识别等。但是随着科技发展，图像识别技术被逐渐应用在航空业，工业等各个领域中，对于图像识别的精度、可靠度等要求越来越高。随着我国低空空域的逐步开放和科技的发展，无人机数量不断增多，未来在同一空域内还可能包含民用机，军用机等，所以，无人机是否能准确的对障碍物进行目标检测，是关乎无人机后续避障和路径规划的关键问题。

课题组成员将改进的SSD算法应用于对低空空域常出现的各种飞行器进行目标检测，并进行相应的仿真实验，验证该模型的可行性。

本申请的技术贡献：

本发明的关键点是SSD算法不同卷积层的特征图进行融合，充分利用不同层特征图的有效信息，提高检测准确率。本发明的欲保护点是将改进后的SSD算法应用在无人机目标检测系统中。

本申请的目的：

传统的SSD算法直接使用卷积神经网络产生的特征图，作为检测样本。因为对小目标的检测主要依赖特征图L4_3，但这一层特征图经过的卷积少，其语义性更低，所以导致对小目标的检测率不高。另外，因为随着卷积神经网络层数的加深，产生的特征图所办含的信息也在变化，低层包含更多的位置、细节信息。深层语义性更强，直接用来检测，导致各层特征信息未被充分利用。

针对以上两点问题，本申请将利用特征让融合的方法，达到使不同层特征信息充分利用以及提高检测率的目的。

技术方案说明：

核心部分：

如图1～图3所示，本发明在目标检测SSD算法的基础之上将特征图L9_2、特征图L10_2以反卷积的形式进行上采样后分别与特征图L4_3、特征图L7进行特征融合，融合方式为add。产生同时包含位置、细节和语义性信息特征图。通过仿真模型验证方案可行性。

技术方案验证：

本发明通过预先用数据集训练改进的SSD算法模型，将特征图L9_2、特征图L10_2以反卷积的形式进行上采样后用add的方法分别和特征图L4_3、特征图L7进行特征融合，产生更全面的特征信息，将改进前后的特征图进行可视化对比，将改进后效果更好的特征图输入到后续网络中进行目标检测。

如图4～图7所示，依次为特征图L4_3、L7、L9_2、L10_2可视化效果。

如图8和图9所示，为特征图L9_2、特征图L10_2融合之后分别和特征图L4_3、特征图L7再融合后的特征图。从融合之后的图8、图9可以看出，相比融合之前的特征图包含更多的有效信息，达到了预期目的。

改进的SSD算法：

如图1所示，改进后的算法特征提取部分仍然使用VGG16作为基础网络，并将VGG16的两个全连接层转换成了普通的卷积层，之后又接了四个卷积层。首先将特征图L9_2依次经过大小为1×1×256×512卷积运算、非线性激活、反卷积，得到特征图L9_2_1。特征图L10_2依次经过大小为1×1×256×512卷积运算、非线性激活、反卷积，得到特征图L10_2_1。

如图2和图3所示，将特征图L9_2_1、特征图L10_2_1、特征图L4_3进行add融合后经过非线性激活和批量归一化得到特征图L4_3_1。其次将特征图L9_2依次经过大小为1×1×256×1024卷积运算、非线性激活、反卷积，得到特征图L9_2_1。特征图L10_2依次经过大小为1×1×256×1024卷积运算、非线性激活、反卷积，得到特征图L10_2_1。将特征图L9_2_1、特征图L10_2_1、特征图L7进行add融合后经过非线性激活和批量归一化得到特征图L7_1。将融合后的特征图以及特征图L4_3、特征图L7、特征图L8_2、特征图L9_2、特征图L10_2和特征图L11_2都连接到了最后的分类和回归模块。

如图10所示，目标检测过程的基本步骤：

步骤一、输入一幅图片，经过预处理将其输入到预训练好的检测网络。

第一层，将预处理之后的图像先经过卷积核大小为3×3×3×64的卷积运算和非线性激活操作，再经过卷积核大小为3×3×64×64的卷积运算和非线性操作，最后经过池化输出大小为150×150×64的特征图。

第二层、将第一层输出的特征图先经过卷积核大小为3×3×64×128的卷积运算和非线性激活操作，再经过卷积核大小为3×3×128×128的卷积运算和非线性激活操作，最后经过池化输出大小为75×75×128的特征图。

第三层，将第二层输出的特征图首先经过大小为3×3×128×256的卷积运算和非线性激活操作，其次经过大小为3×3×256×256的卷积运算和非线性激活操作，然后再经过大小为3×3×256×256的卷积运算和非线性激活操作，最后经过池化输出大小为38×38×256的特征图。

第四层，将第三层输出的特征图首先经过大小为3×3×256×512的卷积运算和非线性激活操作，其次经过大小为3×3×512×512的卷积运算和非线性激活操作，然后再经过大小为3×3×512×512的卷积运算和非线性激活操作，最后经过池化输出大小为19×19×512的特征图。

第五层，将第四层输出的特征图首先经过大小为3×3×512×512的卷积运算和非线性激活操作，其次经过大小为3×3×512×512的卷积运算和非线性激活操作，然后再经过大小为3×3×512×512的卷积运算和非线性激活操作，最后经过池化输出大小为19×19×512的特征图。

第六层，将第五层输出的特征图经过3×3×512×1024的卷积运算和非线性激活操作。输出大小为19×19×1024的特征图。

第七层，将第六层输出的特征图经过1×1×1024×1024的卷积运算和非线性激活操作。输出大小为19×19×1024的特征图。

第八层，将第七层输出的特征图先经过卷积核大小为1×1×1024×1024的卷积运算和非线性激活操作，再经过卷积核大小为3×3×256×512的卷积运算和非线性激活操作，最后经过池化输出大小为10×10×512的特征图。

第九层，将第八层输出的特征图先经过卷积核大小为1×1×512×128的卷积运算和非线性激活操作，再经过卷积核大小为3×3×128×256的卷积运算和非线性激活操作，最后经过池化输出大小为5×5×256的特征图。

第十层，将第九层输出的特征图先经过卷积核大小为1×1×256×128的卷积运算和非线性激活操作，再经过卷积核大小为3×3×128×256的卷积运算和非线性激活操作，最后经过池化输出大小为3×3×256的特征图。

第十一层，将第十层输出的特征图先经过卷积核大小为1×1×256×128的卷积运算和非线性激活操作，再经过卷积核大小为3×3×128×256的卷积运算和非线性激活操作，最后经过池化输出大小为1×1×256的特征图。

将特征图L9_2依次经过大小为1×1×256×512卷积运算、非线性激活、反卷积，得到特征图L9_2_1。特征图L10_2依次经过大小为1×1×256×512卷积运算、非线性激活、反卷积，得到特征图L10_2_1。将特征图L9_2_1、特征图L10_2_1、特征图L4_3进行add融合得到特征图L4_3_1。

将特征图L9_2依次经过大小为1×1×256×1024卷积运算、非线性激活、反卷积，得到特征图L9_2_1。特征图L10_2依次经过大小为1×1×256×1024卷积运算、非线性激活、反卷积，得到特征图L10_2_1。将特征图L9_2_1、特征图L10_2_1、特征图L7进行add融合得到特征图L7_1。

步骤二，抽取特征图L4_3、特征图L7、特征图L8_2、特征图L9_2、特征图L10_2、特征图L11_2、特征图L4_3_1和特征图L7_1，然后分别在这些特征图层上面的每一个点构造不同尺度大小的先验框。然后分别进行检测和分类，生成多个初步符合条件的先验框。

步骤三，将不同特征图获得的先验框结合起来，经过NMS非极大值抑制方法来抑制掉一部分重叠或者不正确的边界框，生成最终的边界框集合即检测结果。

采用多尺度特征图检测，所谓多尺度就是采用大小不同的特征图，卷积神经网络一般前面的特征图比较大，后面会逐渐采用步长为1或2的卷积以及池化层来降低特征图大小，一个比较大的特征图和一个比较小的特征图，它们都用来做检测。这样做的好处是比较大的特征图来用来检测相对较小的目标，而小的特征图负责检测大目标。

本算法在特征图的每个单元设置尺度或者长宽比不同的先验框，预测的边界框是以这些先验框为基准的，在一定程度上减少训练难度。一般情况下，每个单元会设置多个先验框，其尺度和长宽比存在差异。融合后得出的两张特征图性质及设置分别与特征图L4_3、特征图L7保持一致。融合后的两层特征图加上特征图L4_3、特征图L7、特征图L8_2、特征图L9_2、特征图L10_2和特征图L11_2，共提取八个特征图。其大小分别为(38,38)(19,19)(38,38)(19,19)(10,10)(5,5)(3,3)(1,1)。但是不同特征图设置的先验框数目不同。先验框的设置，包括尺度scale和长宽比aspect ratio两个方面。对于先验框的尺度，其遵守一个线性递增规则：随着特征图大小降低，先验框尺度线性增加，计算形式为：

这里是s_min0.2，表示最底层的尺度是0.2,；s_max是0.9，表示最高层的尺度是0.9。通过这种计算方法，可以得出六个特征图的先验框尺度分别为：[30,60,111,162,213,264]。长宽比用a_r表示为下式，注意这里一共有五种长宽比：

通过下面的公式计算先验框的宽度W和高度h：

默认情况下，每个特征图会有一个a_r＝1且尺度为s_k的先验框，除此之外，还会设置一个尺度为

且a_r＝1的先验框，这样每个特征图都设置了两个长宽比为1但大小不同的正方形先验框。因此，每个特征图一共有六个先验框，但是在实现时，Conv4_3，Conv10_2和Conv11_2层仅使用4个先验框，它们不使用长宽比为3,1/3的先验框。

改进后SSD算法的先验框个数为：

2×(38×38×4+19×9×6)+10×10×6+5×5×6+3×3×4+1×1×4＝16674

本发明算法直接采用卷积对不同的特征图来进行提取检测结果，对网络中八个特征图分别用两个3×3的卷积核进行卷积，一个输出分类用的置信度，每个先验框生成n个置信度，n与网络识别的目标种类有关。一个输出回归用的位置坐标localization，每个先验框生成四个坐标值x,y,w,h。检测值包含两个部分：类别置信度和边界框位置，各采用一次3×3卷积来进行完成。令k为该特征图所采用的先验框数目，那么类别置信度需要的卷积核数量为k×n，而边界框位置需要的卷积核数量为k×4。

在训练过程中，首先要确定训练图片中的真实目标ground truth与哪个先验框来进行匹配，与之匹配的先验框所对应的边界框将负责预测它。SSD的先验框与ground truth的匹配原则主要有两点。在训练时，ground truth与先验框按照如下方式进行配对：

首先，寻找与每一个边界框有最大IoU的先验框，这样就能保证每一个groundtruth能与至少一个先验框对应起来。

SSD之后又将剩余还没有配对的先验框与任意一个ground truth尝试配对，只要两者之间的IoU大于阈值，就进行匹配。

IOU公式如下：

损失函数定义为位置误差locatization loss，loc与置信度误差confidenceloss,conf的加权和：

其中N是先验框的正样本数量。c为类别置信度预测值。l为先验框的所对应边界框的位置预测值，而g是ground truth的位置参数。权重系数α通过交叉验证设置为1。

对于位置误差，其采用Smooth L1 loss，定义如下：

这里x∈{1,0}为一个指示参数，当x＝1时表示第i个先验框与第j个ground truth匹配，并且ground truth的类别为g。由于x的存在，所以位置误差仅针对正样本进行计算。

对于置信度误差，其采用softmax loss，定义如下：

在SSD算法中，NMS至关重要。因为多个特征图最后会产生大量的边界框，即最终检测结果。然而在这些边界框中存在着大量的错误的、重叠的、不准确的样本，这不仅造成了巨大的计算量，如果处理不好会影响算法的性能。仅仅依赖于IOU是不现实的，IOU值设置的太大，可能就会丢失一部分检测的目标，即会出现大量的漏检情况；IOU值设置的太小，则会出现大量的重叠检测，会大大影响检测器的性能。即使在IOU处理掉大部分的边界框之后，仍然会存在大量的错误的、重叠的、不准确的边界框，这就需要NMS进行迭代优化。

NMS简单原理：对于边界框Bounding Box的列表B及其对应的置信度S，选择具有最大预测分数score的检测框M，将其从B集合中移除并加入到最终的检测结果D中。通常将B中剩余检测框中与M的IoU大于阈值的框从B中移除。重复这个过程，直到B为空。

预测过程比较简单，对于每个先验框，首先根据类别置信度确定其类别即置信度最大者与置信度值，并过滤掉属于背景的预测框。然后根据置信度阈值，如0.5，过滤掉阈值较低的预测框。对于留下的预测框进行解码，根据先验框得到其真实的位置参数，一般需要根据置信度进行降序排列，然后仅保留top-k，如400，个预测框。最后就是进行NMS算法，过滤掉那些重叠度较大的预测框。最后剩余的预测框就是检测结果了。

本发明是通过针对通用目标检测模型进行修改从而更好地检测目标。

如图10所示，检测模型包括模型训练部分和模型测试部分。

本申请保密运行一段时间后，现场技术人员反馈的有益之处在于：

在卷积神经网路中低层特征分辨率更高，包含更多位置、细节信息，但是由于经过的卷积更少，其语义性更低，噪声更多。高层特征具有更强的语义信息，但是分辨率很低，对细节的感知能力较差。将两者高效融合，取其长处，弃之糟泊，融合之后的特征图包含的信息更加丰富，有利于提高目标检测准确率。

RSSD算法对特征提取模块的改进同样达到了充分利用不同层特征图，提高检测率的目的，但其融合方法过于复杂，计算量较大。相比之下本发明不仅可以达到预期目的，计算量也较小。

术语解释：

Conv4_3:第四层第三次卷积运算，对应特征图L4_3。

Conv7:第七层卷积，对应特征图L7。

Conv8_2:第八层的第二次卷积运算，对应特征图L8_2。

Conv9_2:第九层的第二次卷积运算，对应特征图L9_2。

Conv10_2:第十层的第二次卷积运算，对应特征图L10_2。

Conv11_2:第十一层的第二次卷积运算，对应特征图L11_2。

卷积神经网络：受Hubel和Wiesel对猫视觉皮层电生理研究启发，有人提出卷积神经网络CNN。卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。在卷积神经网络的卷积层中，一个神经元只与部分邻层神经元连接。在CNN的一个卷积层中，通常包含若干个特征平面featureMap，每个特征平面由一些矩形排列的的神经元组成，同一特征平面的神经元共享权值，这里共享的权值就是卷积核。卷积核一般以随机小数矩阵的形式初始化，在网络的训练过程中卷积核将学习得到合理的权值。共享权值即卷积核带来的直接好处是减少网络各层之间的连接，同时又降低了过拟合的风险。子采样也叫做池化pooling，通常有均值子采样mean pooling和最大值子采样max pooling两种形式。子采样可以看作一种特殊的卷积过程。卷积和子采样大大简化了模型复杂度，减少了模型的参数。

目标检测：也叫目标提取，是一种基于目标几何和统计特征的图像分割，它将目标的分割和识别合二为一，其准确性和实时性是整个系统的一项重要能力。尤其是在复杂场景中，需要对多个目标进行实时处理时，目标自动提取和识别就显得特别重要。目标检测的任务是找出图像中所有感兴趣的目标，确定它们的位置和类别。

Claims

1.一种基于改进SSD算法的目标检测模型，包括卷积神经网络，其特征在于：还包括融合网络结构，所述融合网络结构的数量为两个分别是第一融合网络结构和第二融合网络结构，所述第一融合网络结构包括卷积层Conv9_2、卷积层Conv10_2、卷积层Conv4_3和第一add融合器，所述卷积层Conv9_2的输出端、卷积层Conv10_2的输出端和卷积层Conv4_3的输出端分别与第一add融合器的输入端连接；所述第二融合网络结构包括卷积层Conv9_2、卷积层Conv10_2、卷积层Conv7和第二add融合器，所述卷积层Conv9_2的输出端、卷积层Conv10_2的输出端和卷积层Conv7的输出端分别与第二add融合器的输入端连接。

2.根据权利要求1所述的基于改进SSD算法的目标检测模型，其特征在于：所述卷积神经网络还包括分类和回归模块，所述融合网络结构还包括目标检测模块，所述第一add融合器的输出端与分类和回归模块的输入端连接，所述第二add融合器的输出端与分类和回归模块的输入端连接，所述目标检测模块为程序模块，用于调整卷积层Conv9_2形成的特征图和卷积层Conv10_2形成的特征图的通道数量、以反卷积的形式进行上采样、通过第一add融合器与卷积层Conv4_3形成的特征图进行特征融合并形成第一add融合特征图，调整卷积层Conv9_2形成的特征图和卷积层Conv10_2形成的特征图的通道数量、以反卷积的形式进行上采样、通过第二add融合器与卷积层Conv7形成的特征图进行特征融合并形成第二add融合特征图，将第一add融合特征图和第二add融合特征图发送至分类和回归模块并进行图像分类。

3.一种基于改进SSD算法的目标检测方法，其特征在于：基于卷积层Conv9_2、卷积层Conv10_2、卷积层Conv4_3、卷积层Conv7、第一add融合器和第二add融合器，调整卷积层Conv9_2形成的特征图和卷积层Conv10_2形成的特征图的通道数量、以反卷积的形式进行上采样、通过第一add融合器与卷积层Conv4_3形成的特征图进行特征融合并形成第一add融合特征图，调整卷积层Conv9_2形成的特征图和卷积层Conv10_2形成的特征图的通道数量、以反卷积的形式进行上采样、通过第二add融合器与卷积层Conv7形成的特征图进行特征融合并形成第二add融合特征图，将第一add融合特征图和第二add融合特征图发送至分类和回归模块并进行图像分类。

4.根据权利要求3所述的基于改进SSD算法的目标检测方法，其特征在于：具体地包括如下步骤：

5.一种基于改进SSD算法的目标检测应用，其特征在于：将权利要求1或2的目标检测模型或者权利要求3或4的目标检测方法应用在无人机的分类系统上。