CN111860683A

CN111860683A - 一种基于特征融合的目标检测方法

Info

Publication number: CN111860683A
Application number: CN202010751441.0A
Authority: CN
Inventors: 崔玉宁; 史殿习; 刘哲; 杨思宁; 李林
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2020-10-30
Anticipated expiration: 2040-07-30
Also published as: CN111860683B

Abstract

本发明公开了一种基于特征融合的目标检测方法，目的是解决目前检测方法小尺寸目标检测精度低的缺点。技术方案是构建由特征提取模块、间接特征融合模块、直接特征融合模块、2个变形模块、检测模块构成的目标检测系统；采用训练后的目标检测系统对图像进行特征提取、间接特征融合、直接特征融合，检测识别目标的位置和类别。其中间接特征融合模块将高层和低层特征图拼接成一个特征图，然后对拼接好的特征图计算不同像素间的依赖关系，将依赖关系在不同特征图间共享，实现了高层特征和低层特征之间的信息传递；直接特征融合模块将高层特征图信息逐层向低层特征图传递，使小尺寸目标的低层特征中的语义和位置信息增强，提升了小目标检测精度。

Description

一种基于特征融合的目标检测方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于特征融合的目标检测方法。

背景技术

目标检测是计算机视觉领域重要的研究方向之一，传统的目标检测方法是通过对一定区域内的图像构建特征描述子(如方向梯度直方图等)提取特征，然后利用分类器对特征进行分类实现目标检测，如支持向量机SVM(Support Vector Machine)等。近来随着卷积神经网络的发展，工程特征大部分已经被卷积神经网络特征所取代，目标检测系统在精度和速度上都取得了很大的进步。

当前，基于深度学习的目标检测方法分为双阶段检测方法和单阶段检测方法。

双阶段检测方法采用Fast R-CNN、Faster R-CNN、R-FCN双阶段网络，首先对输入图片提取候选区域，然后对提取的候选区域进行分类和定位。目前，该类方法达到了检测精度非常好的效果，但是存在速度较慢的缺点，达不到实时性的要求，因此在对检测实时性要求较高的领域不能用双阶段检测方法。

单阶段检测方法采用SSD(Single Shot MultiBox Detector，单阶段多参考窗口检测器)等单阶段网络直接对设置的默认框进行定位和分类，省略了双阶段方法中提取候选区域的操作，检测速度得到了提升，但是检测精度较双阶段方法略有下降，尤其是对小尺寸目标的检测。出现这种情况主要是因为面向小尺寸目标检测的低层特征(指经过卷积神经网路层数较少的特征图，低层和高层是相对的叫法，一般将特征提取阶段得到的六个特征图中的尺寸小的三个特征图定为高层特征图，尺寸大的三个特征图定为低层特征图)的卷积层数少，语义信息不够丰富，导致小目标的检测效果仍然不尽如人意，导致常有未识别出小目标或识别错误的现象发生。

因此，如何将单阶段检测方法中高层特征(指经过卷积神经网络层数较多的特征图)和低层特征进行融合，是本领域技术人员正在探讨的热点问题。

发明内容

本发明要解决的技术问题是解决目前单阶段检测方法小尺寸目标检测精度低的缺点。

本发明提供一种基于特征融合的目标检测方法，在单阶段SSD网络中加入特征融合机制，达到提升目标检测尤其是小目标检测精度的目的。

为解决上述技术问题，本发明的技术方案是：首先构建由特征提取模块、间接特征融合模块、直接特征融合模块、2个变形模块、检测模块构成的目标检测系统。然后选择PASCAL VOC 2007、PASCAL 2012的训练集和验证集的组合数据集作为对目标检测网络进行训练的训练数据集，拟合后得到目标检测系统的网络参数。最后采用训练后的目标检测系统对单帧图像进行特征提取、间接特征融合、直接特征融合，检测识别目标的位置和类别。

本发明主要包括以下具体步骤：

第一步：构建目标检测系统。该系统由特征提取模块、间接特征融合模块、直接特征融合模块、2个变形模块(即第一变形模块和第二变形模块)、检测模块组成。

特征提取模块为一个卷积神经网络，与第一变形模块相连。特征提取模块共包括23个卷积层，5个池化层，共28层。池化层分别为第3、6、10、14、18层，其他层均为卷积层。特征提取模块接收图像I，对图像I进行特征提取，得到多尺度特征图集合F(I)，将F(I)发送给第一变形模块。多尺度特征图集合包含六个尺度的特征图，六个尺度的特征图的尺寸分别为512×38×38，1024×19×19，512×10×10，256×5×5，256×3×3，256×1×1，分别由第13层、第21层、第23层、第25层、第27层、第28层输出给语义提升模块。其中，第13层、第21层、第23层、第25层、第27层特征既输出给第一变形模块，也输出给它们各自的下一层。(即，第13层将尺寸为512×38×38的特征图输出给第一变形模块和第14层；第21层将尺寸为1024×19×19的特征图输出给第一变形模块和第22层；第23层将尺寸为512×10×10的特征图输出给第一变形模块和第24层；第25层将尺寸为256×5×5的特征图输出给第一变形模块和第26层；第27层将尺寸为256×3×3的特征图输出给第一变形模块和第28层；第28层将尺寸为256×1×1的特征图输出给第一变形模块。)特征图的尺寸的含义是：第一个维度为通道数，后两个维度是特征图中每个通道中的像素点的坐标，即像素点的横坐标和纵坐标。以尺寸为256×10×10的特征图为例，256为通道数，后两个维度是特征图中每个通道中的像素点的横坐标和纵坐标。

第一变形模块是对F(I)进行插值和下采样操作的模块，与特征提取模块、间接特征融合模块相连；对F(I)中的特征图进行下采样或插值操作，统一特征图的尺寸，得到A₁(I)，将A₁(I)发送给间接特征融合模块，A₁(I)包含的6个特征图尺寸为512×10×10，1024×10×10，512×10×10，256×10×10，256×10×10，256×10×10。其中，尺寸为512×10×10，1024×10×10，512×10×10的特征图为低层特征图，尺寸为256×10×10，256×10×10，256×10×10的特征图为高层特征图。

间接特征融合模块与第一变形模块、直接特征融合模块相连，间接特征融合模块由第一通道变换模块、特征拼接模块、6个注意力模块组成；间接特征融合模块从第一变形模块接收A₁(I)，将A₁(I)中高层特征图的特征图像素间的依赖关系和低层特征图的特征图像素间的依赖关系进行融合，运用融合的像素间的依赖关系，通过加权计算得到经过间接特征融合的特征图h₁,h₂,h₃,h₄,h₅,h₆，将h₁,h₂,h₃,h₄,h₅,h₆发送给直接特征融合模块。

第一通道变换模块包含6个1×1卷积神经网络，与第一变形模块、特征拼接模块、直接特征融合模块相连，从第一变形模块接收A₁(I)，分别对A₁(I)中的每个特征图进行1×1卷积神经操作，将A₁(I)中6个特征图的通道数统一为256，以减小后续计算量，得到A₂(I)＝{a₂₁，a₂₂，a₂₃，a₂₄，a₂₅，a₂₆}(序号越大代表特征图经过的神经网络层数越多)，将A₂(I)输出给特征拼接模块、直接特征融合模块。A₂(I)中的特征图尺寸都为256×10×10。由于缩小特征图会损失信息，在没引入较大计算量的前提下，为了减少特征图的信息损失，统一将特征图尺寸调整至256×10×10。

特征拼接模块与第一通道变换模块、6个注意力模块相连，从第一通道变换模块接收A₂(I)，对A₂(I)中的6个特征图进行特征拼接操作，将A₂(I)中的6个特征图拼接成第一特征图I₁,将I₁发送给6个注意力模块，I₁的尺寸为1536×10×10。

第i(1≤i≤6，i表示注意力模块的序号)个注意力模块与特征拼接模块、直接特征融合模块相连，对I₁提取像素间的依赖关系，根据此依赖关系，加权计算得到经过间接特征融合的特征图h_i，将h_i发送给直接特征融合模块。第i个注意力模块由查询模块、键模块、值模块、依赖关系模块、归一化模块、像素赋权模块、特征相加模块组成。

查询模块与特征拼接模块、依赖关系模块相连，从特征拼接模块接收I₁，对I₁进行1×1卷积操作，以减少通道数，从而减少计算量，得到第二特征图I₂”,I₂”的尺寸为192×10×10；对I₂”进行维度合并操作，将第二维度和第三维度合并，得到第二合并后特征图I₂’，I₂’的尺寸为192×100；对I₂’进行转置操作，得到第二转置后特征图I₂，I₂的尺寸为100×192，将I₂发送给依赖关系模块。

键模块与特征拼接模块、依赖关系模块相连，从特征拼接模块接收I₁，对I₁进行1×1卷积操作，以减少通道数，从而减少计算量，得到第三特征图I₃’，I₃’的尺寸为192×10×10；对I₃’进行维度合并操作，将第二维度和第三维度合并，得到第三合并后特征图I₃，I₃的尺寸为192×100，将I₃发送给依赖关系模块。

依赖关系模块与查询模块、键模块、归一化模块相连，从查询模块接收I₂、从键模块接收I₃，对I₂、I₃进行向量乘法操作，得到I₂、I₃不同像素间的依赖关系图I₄，I₄的尺寸为100×100，将I₄发送给归一化模块。

归一化模块与依赖关系模块和像素赋权模块相连，从依赖关系模块接收I₄，对I₄的每一行进行归一化操作，得到归一化后的像素间依赖关系图I₅，I₅的尺寸为100×100，将I₅发送给像素赋权模块。

值模块与特征拼接模块、像素赋权模块相连，从特征拼接模块接收I₁，对I₁进行1×1卷积操作，得到第六特征图I₆”，I₆”的尺寸为1536×10×10，对I₆”进行维度合并操作，将第二维度和第三维度合并，得到第六合并后特征图I₆’，I₆’的尺寸为1536×100；对I₆’进行转置操作，得到第六转置后特征图I₆，I₆的尺寸为100×1536，将I₆发送给像素赋权模块。

像素赋权模块与值模块、归一化模块、特征相加模块相连，从值模块接收I₆、从归一化模块接收I₅，对I₅、I₆执行矩阵乘法操作以对像素赋权，得到像素赋权后特征图I₇”,I₇”的尺寸为100×1536；对I₇”进行转置操作，得到I₇’，I₇’的尺寸为1536×100；对I₇’的第二维进行维度拆分操作，得到维度拆分后的特征图I₇，I₇的尺寸为1536×10×10，将I₇发送给特征相加模块。

特征相加模块与特征拼接模块、像素赋权模块、直接特征融合模块相连，从特征拼接模块接收I₁、从像素赋权模块接收I₇，对I₁、I₇进行像素级别加法操作以利于梯度回传和优化，得到经过特征相加后的特征图h_i，h_i的尺寸为1536×10×10，将h_i发送给直接特征融合模块。

直接特征融合模块与间接特征融合模块、第二变形模块相连，从间接特征融合模块中的第一通道变换模块接收A₂(I)、从间接特征融合模块中的6个注意力模块接收h₁,h₂,h₃,h₄,h₅,h₆,对h₁,h₂,h₃,h₄,h₅,h₆变换通道数后，进行直接特征融合，得到经过直接特征融合后的特征图集合J(I)，将J(I)发送给第二变形模块。直接特征融合模块由第二通道变换模块、侧向连接模块组成。

第二通道变换模块包含6个1×1卷积神经网络，与间接特征融合模块、侧向连接模块相连，从间接特征融合模块的6个注意力模块中的特征相加模块接收h₁,h₂,h₃,h₄,h₅,h₆，分别对h₁,h₂,h₃,h₄,h₅,h₆进行1×1卷积神经操作，将h₁,h₂,h₃,h₄,h₅,h₆的通道数变换为256，以减小后续计算量，得到特征图集合A₈(I)，将A₈(I)发送给侧向连接模块。A₈(I)中的6个特征图尺寸都为256×10×10。

侧向连接模块是进行像素级别加法操作的模块，与第二通道变换模块、第二变形模块、间接特征融合模块的第一通道变换模块相连，从第二通道变换模块接收A₈(I)、从第一通道变换模块接收A₂(I)，对A₈(I)和A₂(I)进行侧向连接操作(从A₈(I)最高层特征图h₆开始，对h₆特征图与h₅特征图进行相加并除2，得到h₆₅，再将h₆₅与h₄进行相加并除2，得到h₅₄，以此类推，直到获得h₂₁，将h₆，h₆₅，h₅₄，h₄₃，h₃₂，h₂₁放入到集合J(I)’中，此步为不同特征图间像素值的加法操作(称为直接运算)，因此命名为“直接特征融合”)，将J(I)’与A₂(I)执行像素加法操作，以利于梯度回传和优化，得到J(I)＝{j₁,j₂,j₃,j₄,j₅,j₆}，j₁,j₂,j₃,j₄,j₅,j₆尺寸均为256×10×10。将J(I)发送给第二变形模块。

第二变形模块与直接特征融合模块、检测模块相连。从直接特征融合模块接收J(I)，对J(I)中的特征图进行插值或下采样操作，得到D(I)，D(I)中包含d₁,d₂,d₃,d₄,d₅,d₆，这6个特征图。d₁,d₂,d₃尺寸分别为256×1×1，256×3×3，256×5×5；d₅,d₆尺寸分别为256×19×19，256×38×38，将D(I)发送给检测模块。

检测模块与第二变形模块相连，由分类网络、定位网络和非极大值抑制(NMS)模块组成。定位网络与第二变形模块、非极大值抑制模块相连，是一个卷积核大小为3×3、卷积核个数为k×E的卷积网络(其中k为图片上每个位置预定义框的数量，E为训练数据集中包含的目标类别数量)；定位网络从第二变形模块接收D(I)，对D(I)中的每一个特征图进行卷积操作，向非极大值抑制模块输出预测目标的坐标值(即预测框坐标值，包括左上和右下2个坐标，共4个值)；分类网络与第二变形模块、非极大值抑制模块相连，是一个卷积核大小为3×3、卷积核数量为k×4的卷积网络(其中4表示需要用4个坐标值表示一个预测目标的位置)，从第二变形模块接收D(I)，对D(I)中的每一个特征图进行卷积操作，向NMS模块输出预测目标的类别(即目标最属于某类的概率值)。非极大值抑制模块与分类网络和定位网络相连，采用非极大值抑制方法(NMS，Non-Maximum Suppression方法，见文献“EfficientNon-Maximum Suppression.”18^th International Conference on Pattern Recognition(ICPR’06)3(2006):850-855,Neubeck,Alexander和Luc Van Gool的论文：有效的非极大值抑制方法)将重复预测的目标的坐标值和类别去除，获得目标最佳的预测框坐标值和预测类别。

第二步：准备目标检测系统的训练数据集。方法为：

选择PASCAL VOC 2007、PASCAL VOC 2012(见文献“M.Everingham,L.Van Gool,C.K.I.Williams,J.Winn,and A.Zisserman.The pascal visual object classes VOCchallenge[J]//International Journal of Computer Vision.2010:303-338”，MarkEveringham的论文：视觉目标类别挑战，2010年出版的《国际计算机视觉杂志》第303页)的训练集、验证集中的所有图片作为训练数据集，训练数据集图片中共包含E种目标类别，E为正整数。对于训练数据集中的第d(1≤d≤16551)张图片，PASCAL VOC 2007、PASCAL VOC2012中给出了第d张图片所包含的目标的类别以及位置向量g_d＝{g_d1,g_d2,...,g_dz,...,g_dZ}，dZ表示第d张图片中包含的目标数量，其中

为包含四个值的一维向量，

为第d张图片的第z个目标区域矩形框的左上角的坐标值，

为第d张图片的第z个目标区域矩形框的右下角的坐标值，四个坐标值均为标量，

中的四个值表示出第d张图片的第z个目标区域矩形的目标区域。

第三步，采用第二步构建的训练数据集训练目标检测系统中的各个模块，方法是：

3.1采用SSD(见文献“SSD:Single Shot MultiBox Detector.”EuropeanConference on Computer Vision,2016.”Liu Wei等人的论文：单阶段多参考窗口检测器)中的初始化方法对特征提取模块的网络参数Φ₁进行初始化；采用Kaiming初始化方法(见文献“Delving deep into rectifiers:Surpassing human-level performance onimagenet classification.”Proceedings of the IEEE international conference oncomputer vision.2015.He Kaiming等人的论文：深入研究整流器：在ImageNet数据集上超越人类水平的性能)对其余模块(即间接特征融合模块的网络参数Φ₂、直接特征融合模块的网络参数Φ₃、检测模块的网络参数Φ₄)进行初始化。

3.2将训练数据集中的图片依次输入到目标检测系统中，对目标检测系统进行训练，拟合得到目标检测系统的网络参数，具体步骤是：

3.2.1初始化迭代次数epoch＝1；初始化批处理大小batchsize＝32；初始化学习率

lr＝4*10^-3；

3.2.2采用训练数据集中的图片对目标检测系统进行训练，具体步骤为：

3.2.2.1.初始化变量d＝1；

3.2.2.2.将训练数据集中的第d张至第(d+batchsize)张图片输入到目标检测系统中，使用随机梯度下降算法(SGD)(见文献“Backpropagation applied to handwrittenzip code recognition[J]//Neural Computation,1989”，Yann Lecun等人的论文：反向传播应用于手写邮政编码识别)使损失函数最小化，以更新目标检测系统中各模块的网络参数。所述损失函数采用SSD中的损失函数作为训练的损失函数，形式为：

其中L为总损失函数，L_loc为位置预测损失函数，通过计算预测框和真实框(即真实图像的左上坐标和右下坐标围起来的框)之间的Smooth L1损失函数获得，L_conf为类别预测损失函数，通过计算预测类别和真实类别之间的Softmax损失函数获得，N为训练数据集中图片的预测目标的坐标框与真实框匹配的样本数量，即训练数据集中所有IOU大于0.5的样本数量，也即：

的样本数量。

其中，IOU表示交并比，A表示定位网络输出的一个目标框的坐标所包围的面积，B表示目标真实坐标值所包围的面积。

3.2.2.3.若d+2*batchsize＜16551，令d＝d+batchsize，转3.2.2.2；若d+2*batchsize≥16551，转3.2.3。

3.2.3若epoch<160，令epoch＝epoch+1，转3.2.2；若epoch＝160，令lr＝lr*0.1，令epoch＝epoch+1，转3.2.2；若160<epoch≤250，令epoch＝epoch+1，转3.2.2；若epoch＞250，转3.2.4。

3.2.4将各个模块更新所得的参数作为最终的目标检测系统的网络参数。

第四步：利用目标检测系统进行目标检测，方法是：

4.1从相机或文件获得需要检测的图像I；

4.2将训练得到的目标检测系统的网络参数载入到目标检测系统中；

4.3特征提取模块对被检测图像I进行特征提取，得到多尺度特征图集合F(I)，将F(I)发送给第一变形模块。F(I)中包含6张图，尺寸分别为512×38×38，1024×19×19，512×10×10，256×5×5，256×3×3，256×1×1。F(I)的6个特征图中，低层特征图(512×38×38，1024×19×19，512×10×10)，位置信息比较准确，但是语义信息不足，无法辨别目标属于的类别；高层特征图(256×5×5，256×3×3，256×1×1)，位置信息不准确，但是语义信息丰富。

4.4第一变形模块从特征提取模块接收F(I)，对F(I)中的特征图进行下采样或插值操作，统一特征图的尺寸，得到A₁(I)，将A₁(I)发送给间接特征融合模块。A₁(I)包含的特征图尺寸为512×10×10，1024×10×10，512×10×10，256×10×10，256×10×10，256×10×10。方法是：采用下采样方法分别将F(I)中的512×38×38，1024×19×19特征图的后两个维度缩小至10×10；采用插值方法分别将F(I)中的256×5×5，256×3×3，256×1×1特征图的后两个维度放大至10×10，对F(I)中原有的512×10×10特征图不作处理；将后两个维度统一后的6个特征图(均为10×10)放到集合A₁(I)中，将A₁(I)发送给间接特征融合模块。

4.5间接特征融合模块从第一变形模块接收A₁(I)，将A₁(I)中高层特征图(256×10×10，256×10×10，256×10×10)像素间的依赖关系和低层特征图(512×10×10，1024×10×10，512×10×10)像素间的依赖关系进行融合，运用融合的像素间的依赖关系，通过加权计算得到经过间接特征融合的特征图h₁,h₂,h₃,h₄,h₅,h₆，将h₁,h₂,h₃,h₄,h₅,h₆发送给直接特征融合模块。具体方法为：

4.5.1第一通道变换模块从第一变形模块接收A₁(I)，对A₁(I)中的特征图分别采用1×1卷积神经网络进行通道变换操作(通过调用pytorch(见文献“Automaticdifferentiation in pytorch.”in NIPS Workshop,2017.Adam Paszke等的论文：pytorch中的自动微分)内置的函数nn.Conv2d(in_channels,out_channels,kernel_size)实现，其中in_channels表示输入特征图的通道数；out_channels表示输出特征图的通道数，设置为256；kernel_size表示卷积网络卷积核的大小，设置为1)，得到A₂(I)＝{a₂₁，a₂₂，a₂₃，a₂₄，a₂₅，a₂₆}，a₂₁，a₂₂，a₂₃，a₂₄，a₂₅，a₂₆均为尺寸为256×10×10的特征图，将A₂(I)发送给特征拼接模块、直接特征融合模块。

4.5.2特征拼接模块从第一通道变换模块接收A₂(I)，对A₂(I)进行特征拼接操作，将6个特征图拼接成第一特征图I₁，I₁的尺寸为1536×10×10。将I₁发送给6个注意力模块。

4.5.36个注意力模块同时从特征拼接模块接收I₁，并行地运用矩阵乘法操作对I₁提取不同像素间的依赖关系。将所有特征图(高层特征图和低层特征图)的信息都考虑在内，实现不同特征图间的间接信息融合。运用融合后的像素间的依赖关系，通过像素赋权模块和特征相加模块得到特征图h₁,h₂,h₃,h₄,h₅,h₆，将h₁,h₂,h₃,h₄,h₅,h₆发送给直接特征融合模块。6个注意力模块的操作完全相同，第i个注意力模块生成第i个经过间接特征融合的特征图h_i的方法为:

4.5.3.1查询模块从特征拼接模块接收I₁，采用1×1卷积对I₁进行卷积操作，以减少通道数，从而减少计算量，得到第二特征图I₂”,I₂”的尺寸为192×10×10；对I₂”进行维度合并操作，将第二维度和第三维度合并，得到第三特征图I₂’，I₂’的尺寸为192×100；对I₂’将进行转置操作，得到第四特征图I₂，I₂的尺寸为100×192，将I₂发送给依赖关系模块；同时，键模块从特征拼接模块接收I₁，采用1×1卷积对I₁进行卷积操作，以减少通道数，从而减少计算量，得到第五特征图I₃’，I₃’的尺寸为192×10×10；对I₃’进行维度合并操作，将第二维度和第三维度合并，得到第六特征图I₃，I₃的尺寸为192×100，将I₃发送给依赖关系模块。

4.5.3.2依赖关系模块从查询模块接收I₂、从键模块接收I₃，对I₂、I₃进行向量乘法操作，得到不同像素间的依赖关系图I₄，I₄的尺寸为100×100，将I₄发送给归一化模块。

4.5.3.3归一化模块从依赖关系模块接收I₄，采用Softmax函数对I₄的每一列进行归一化操作，得到归一化后的像素间依赖关系I₅，I₅的尺寸为100×100，将I₅发送给像素赋权模块。同时，值模块从特征拼接模块接收I₁，采用1×1卷积对I₁进行卷积操作，得到第七特征图I₆”，I₆”的尺寸为1536×10×10，对I₆”进行维度合并操作，将第二维度和第三维度合并，得到第八特征图I₆’，I₆’的尺寸为1536×100；对I₆’进行转置操作，得到第九特征图I₆，I₆的尺寸为100×1536，将I₆发送给像素赋权模块。

4.5.3.4像素赋权模块从值模块接收I₆、从归一化模块接收I₅，对I₅、I₆进行矩阵乘法操作，得到经过像素赋权后的特征图I₇”,I₇”的尺寸为100×1536；对I₇”进行转置操作，得到第十特征图I₇’，I₇’的尺寸为1536×100；通过调用pytorch内置的函数I₇’.view(1536,10,10)对I₇’的第二维进行维度拆分操作，得到第十一特征图I₇，I₇的尺寸为1536×10×10，将I₇发送给特征相加模块。

4.5.3.5特征相加模块从像素赋权模块接收I₇、从特征拼接模块接收I₁，对I₁、I₇进行像素级别加法操作以利于梯度回传和网络优化，得到特征图h_i，h_i的尺寸为1536×10×10，将h_i发送给直接特征融合模块。

4.6直接特征融合模块从间接特征融合模块中的第一通道变换模块接收A₂(I)、从间接特征融合模块中的6个注意力模块接收h₁,h₂,h₃,h₄,h₅,h₆，将h₁,h₂,h₃,h₄,h₅,h₆统一通道数后，进行直接特征融合，得到经过直接特征融合后的特征集合J(I)＝{j₁，j₂，j₃，j₄，j₅，j₆}，j_i的尺寸为256×10×10，将J(I)发送给第二变形模块。具体方法为：

4.6.1第二通道变换模块从间接特征融合模块的6个注意力模块接收h₁,h₂,h₃,h₄,h₅,h₆，分别对h₁,h₂,h₃,h₄,h₅,h₆进行1×1卷积神经操作，将h₁,h₂,h₃,h₄,h₅,h₆的通道数变换为256，以减小后续计算量，得到特征图集合A₈(I)，将A₈(I)发送给侧向连接模块。A₈(I)中的特征图尺寸都为256×10×10。

4.6.2侧向连接模块从第二通道变换模块接收A₈(I)、从第一通道变换模块接收A₂(I)，对A₈(I)和A₂(I)进行侧向连接操作，即从A₈(I)最高层特征图h₆开始，对h₆特征图与h₅特征图进行相加并除2，得到h₆₅，再将h₆₅与h₄进行相加并除2，得到h₅₄，以此类推，直到获得h₂₁，将h₆，h₆₅，h₅₄，h₄₃，h₃₂，h₂₁放入到集合J(I)’中，将J(I)’与A₂(I)执行像素加法操作，得到J(I)＝{j₁,j₂,j₃,j₄,j₅,j₆}，j₁,j₂,j₃,j₄,j₅,j₆尺寸均为256×10×10，将J(I)发送给第二变形模块；具体计算方法为：

4.6.2.1.初始化i＝6；

4.6.2.2.j_i’＝h_i；j_i＝j_i’+a_2i；

4.6.2.3.i＝i-1；若i＝0，转4.7；若i>0，转4.6.2.4；

4.6.2.4.j_i’＝(h_i+j_i+1’)/2；j_i＝j_i’+a_2i，转4.6.2.3；

4.7第二变形模块从直接特征融合模块接收J(I)，对J(I)中的特征图进行插值或下采样操作，得到D(I)。具体方法为：对j₁，j₂，j₃分别进行下采样操作，得到d₁，d₂，d₃，尺寸分别为256×1×1，256×3×3，256×5×5；对j₅，j₆分别进行插值操作，得到d₅，d₆，尺寸分别为256×19×19，256×38×38；对j₄不做处理；将d₁，d₂，d₃，j₄，d₅，d₆放到集合D(I)中，将D(I)发送给检测模块。

4.8检测模块从直接特征融合模块接收D(I)，利用分类网络获得预测目标的概率集合C(I)＝{c₁,c₂,c₃,…,c_e,…,c_E}，E为训练数据集图片中共包含的目标类别数；c_e＝{c_e2,c_e3,c_e4,…,c_ep,…,c_eP}，表示预测目标属于第e类的概率集合，c_ep表示属于第e类的预测目标中第ep个目标属于第e类的概率；利用定位网络获得预测目标的坐标值集合L(I)＝{l₁,l₂,l₃,…,l_e,…,l_E}，l_e＝{l_e2,l_e3,l_e4,…,l_ep,…,l_eP},表示预测目标属于第e个类别的坐标向量集合，

是坐标系中预测目标框左上角横坐标，

是预测目标框左上角纵坐标，

是预测目标框右下角横坐标，

是预测目标框右下角纵坐标。l_e和c_e中相同序号的元素对应相同的预测目标，然后利用非最大值抑制模块对L(I)和C(I)进行筛选，获得最终的目标检测结果。

具体方法为：

4.8.1.分类网络接收D(I)，生成预测目标的类别概率C(I)＝{c₁,c₂,c₃,…,c_e,…,c_E}；

4.8.2.定位网络接收D(I)，生成预测目标的坐标值集合L(I)＝{l₁,l₂,l₃,…,l_e,…,l_E}；

4.8.3.利用非最大值抑制模块对L(I)和C(I)进行筛选：

4.8.3.1.初始化e＝1；

4.8.3.2.将c_e中的概率值按照降序排列；

4.8.3.3.将l_e中坐标值按照c_e的排序结果重新排列，保证属于同一个预测目标的类别概率和坐标值的元素序号相同；

4.8.3.4.初始化p＝1；

4.8.3.5.计算l_e(p+1)预测目标框与l_ep预测目标框的交并比。若交并比小于阈值t(0.7＜t＜0.9)，则删除l_e(p+1)目标框对应的预测目标，转4.8.3.6；若交并比大于t，则保留l_e(p+1)对应的预测目标，转4.8.3.6；

4.8.3.6.若p＜P，则令p＝p+1，转4.8.3.5；若p＝P，转4.8.3.7；

4.8.3.7.若e＜E，则令e＝e+1，转4.8.3.2；若e＝E，转4.8.3.8；

4.8.3.8.收集C(I)中被保留的类别概率，收集L(I)中被保留的坐标值，作为目标检测系统最终的预测结果。

采用本发明可以达到以下技术效果：

1、本发明特征提取模块对输入的图像数据进行多尺度特征图的提取，间接特征融合模块采用注意力模块中的特征拼接模块首先将高层和低层的特征图拼接成一个特征图，然后通过依赖关系模块对此拼接特征图计算不同像素之间的依赖关系，因此此依赖关系中同时包含了高层特征图和低层特征图的信息，最后像素赋权模块通过矩阵运算将此依赖关系在不同特征图间共享，不仅实现了同一特征图不同像素之间的信息传递，而且实现了高层特征和低层特征之间的信息传递增强了不同特征图中的有用像素信息，更有利于当前目标的检测；

2、本发明直接特征融合模块通过侧向连接模块将高层特征图信息逐层向低层特征图传递，通过对相邻特征图相加结果取均值的方式减小特征图像素值相加操作带来的像素值的数量级变化，使得负责小尺寸目标检测任务的低层特征中的语义信息得到了增强，更有利于小尺寸目标的检测。

附图说明

图1为本发明的整体流程图；

图2为本发明第一步构建的目标检测系统逻辑结构图。

具体实施方式

图1为本发明的整体流程图；如图1所示，本发明包括以下步骤：

第一步：构建目标检测系统。该系统如图1所示，由特征提取模块、间接特征融合模块、直接特征融合模块、2个变形模块(即第一变形模块和第二变形模块)、检测模块组成。

特征提取模块为一个卷积神经网络，与第一变形模块相连。特征提取模块共包括23个卷积层，5个池化层，共28层。池化层分别为第3、6、10、14、18层，其他层均为卷积层。特征提取模块接收图像I，对图像I进行特征提取，得到多尺度特征图集合F(I)，将F(I)发送给第一变形模块。多尺度特征图集合包含六个尺度的特征图，六个尺度的特征图的尺寸分别为512×38×38，1024×19×19，512×10×10，256×5×5，256×3×3，256×1×1，分别由第13层、第21层、第23层、第25层、第27层、第28层输出给语义提升模块。其中，第13层、第21层、第23层、第25层、第27层特征既输出给第一变形模块，也输出给它们各自的下一层。

间接特征融合模块与第一变形模块、直接特征融合模块相连，间接特征融合模块由第一通道变换模块、特征拼接模块、6个注意力模块组成；间接特征融合模块从第一变形模块接收A₁(I)，将A₁(I)中高层特征图像素间的依赖关系和低层特征图像素间的依赖关系进行融合，运用融合的像素间的依赖关系，通过加权计算得到经过间接特征融合的特征图h₁,h₂,h₃,h₄,h₅,h₆，将h₁,h₂,h₃,h₄,h₅,h₆发送给直接特征融合模块。

第一通道变换模块包含6个1×1卷积神经网络，与第一变形模块、特征拼接模块、直接特征融合模块相连，从第一变形模块接收A₁(I)，分别对A₁(I)中的每个特征图进行1×1卷积神经操作，将A₁(I)中6个特征图的通道数统一为256，以减小后续计算量，得到A₂(I)＝{a₂₁，a₂₂，a₂₃，a₂₄，a₂₅，a₂₆}(序号越大代表特征图经过的神经网络层数越多)，将A₂(I)输出给特征拼接模块、直接特征融合模块。A₂(I)中的特征图尺寸都为256×10×10。

侧向连接模块是进行像素级别加法操作的模块，与第二通道变换模块、第二变形模块、间接特征融合模块的第一通道变换模块相连，从第二通道变换模块接收A₈(I)、从第一通道变换模块接收A₂(I)，对A₈(I)和A₂(I)进行侧向连接操作(即“直接特征融合”)，将J(I)’与A₂(I)执行像素加法操作，以利于梯度回传和优化，得到J(I)＝{j₁,j₂,j₃,j₄,j₅,j₆}，j₁,j₂,j₃,j₄,j₅,j₆尺寸均为256×10×10。将J(I)发送给第二变形模块。

第二变形模块与直接特征融合模块、检测模块相连。从直接特征融合模块接收J(I)，对J(I)中的特征图进行插值或下采样操作，得到D(I)，D(I)中包含d₁，d₂，d₃，j₄，d₅，d₆，这6个特征图。d₁，d₂，d₃尺寸分别为256×1×1，256×3×3，256×5×5；d₅，d₆尺寸分别为256×19×19，256×38×38，将D(I)发送给检测模块。

检测模块与第二变形模块相连，由分类网络、定位网络和非极大值抑制(NMS)模块组成。定位网络与第二变形模块、非极大值抑制模块相连，是一个卷积核大小为3×3、卷积核个数为k×E的卷积网络(其中k为图片上每个位置预定义框的数量，E为训练数据集中包含的目标类别数量)；定位网络从第二变形模块接收D(I)，对D(I)中的每一个特征图进行卷积操作，向非极大值抑制模块输出预测目标的坐标值(即预测框坐标值，包括左上和右下2个坐标，共4个值)；分类网络与第二变形模块、非极大值抑制模块相连，是一个卷积核大小为3×3、卷积核数量为k×4的卷积网络(其中4表示需要用4个坐标值表示一个预测目标的位置)，从第二变形模块接收D(I)，对D(I)中的每一个特征图进行卷积操作，向NMS模块输出预测目标的类别(即目标最属于某类的概率值)。非极大值抑制模块与分类网络和定位网络相连，采用非极大值抑制方法将重复预测的目标的坐标值和类别去除，获得目标最佳的预测框坐标值和预测类别。

第二步：准备目标检测系统的训练数据集。方法为：

选择PASCAL VOC 2007、PASCAL VOC 2012的训练集、验证集中的所有图片作为训练数据集，训练数据集图片中共包含E种目标类别，E为正整数。对于训练数据集中的第d(1≤d≤16551)张图片，PASCAL VOC 2007、PASCAL VOC 2012中给出了第d张图片所包含的目标的类别以及位置向量g_d＝{g_d1,g_d2,...,g_dz,...,g_dZ}，dZ表示第d张图片中包含的目标数量，其中

为包含四个值的一维向量，

为第d张图片的第z个目标区域矩形框的左上角的坐标值，

3.1采用SSD中的初始化方法对特征提取模块的网络参数Φ₁进行初始化；采用Kaiming初始化方法对其余模块(即间接特征融合模块的网络参数Φ₂、直接特征融合模块的网络参数Φ₃、检测模块的网络参数Φ₄)进行初始化。

3.2.1初始化迭代次数epoch＝1；初始化批处理大小batchsize＝32；初始化学习率lr＝4*10^-3；

3.2.2.1.初始化变量d＝1；

3.2.2.2.将训练数据集中的第d张至第(d+batchsize)张图片输入到目标检测系统中，使用随机梯度下降算法(SGD)使损失函数最小化，以更新目标检测系统中各模块的网络参数。所述损失函数采用SSD中的损失函数作为训练的损失函数，形式为：

的样本数量。

第四步：利用目标检测系统进行目标检测，方法是：

4.1从相机或文件获得需要检测的图像I；

4.3特征提取模块对被检测图像I进行特征提取，得到多尺度特征图集合F(I)，将F(I)发送给第一变形模块。F(I)中包含6张图，尺寸分别为512×38×38，1024×19×19，512×10×10，256×5×5，256×3×3，256×1×1。F(I)的6个特征图中，低层特征图(512×38×38，1024×19×19，512×10×10)，位置信息比较准确，但是语义信息不足；高层特征图(256×5×5，256×3×3，256×1×1)，位置信息不准确，但是语义信息丰富。

4.6.2.1.初始化i＝6；

4.6.2.2.j_i’＝h_i；j_i＝j_i’+a_2i；

4.6.2.3.i＝i-1；若i＝0，转4.7；若i>0，转4.6.2.4；

4.6.2.4.j_i’＝(h_i+j_i+1’)/2；j_i＝j_i’+a_2i，转4.6.2.3；

是坐标系中预测目标框左上角横坐标，

是预测目标框左上角纵坐标，

是预测目标框右下角横坐标，

具体方法为：

4.8.3.利用非最大值抑制模块对L(I)和C(I)进行筛选：

4.8.3.1.初始化e＝1；

4.8.3.2.将c_e中的概率值按照降序排列；

4.8.3.4.初始化p＝1；

4.8.3.6.若p＜P，则令p＝p+1，转4.8.3.5；若p＝P，转4.8.3.7；

4.8.3.7.若e＜E，则令e＝e+1，转4.8.3.2；若e＝E，转4.8.3.8；

表1给出了本发明与经典单阶段目标检测方法SSD方法在目标检测数据集PASCALVOC2007测试集上的对比结果。

表1本发明与经典SSD方法在VOC数据集的测试集上的检测精度对比

表1中第一行是VOC 2007数据集的测试数据集图片中包含的类别，第二行是SSD方法对于每种类别的检测精度，第三行是本发明的检测精度，加粗字体标识每种类别的最高精度。从表1中可以看出，在20种类别中的18种类别上，本发明的检测精度高于SSD方法的检测精度，尤其在“瓶子”类别上提升了7.9％的检测精度，在“飞机”类别上提升了6.7％的检测精度，在“绿植”类别上提升了5.6％的精测精度，在“牛”类别上提升了5.1％的检测精度，说明本发明明显提升了对于较小目标的检测精度。

表2给出了本发明中不同特征融合方法与经典SSD算法相比带来的增益效果

表2本发明中不同特征融合方法与经典SSD算法相比带来的增益效果

方法	mAP(％)
		SSD	77.5
SSD+间接特征模块	79.4
		SSD+直接特征模块	79.3
SSD+间接特征模块+直接特征模块	80.3

从表2中可以看出，本发明中第4.5步的间接特征融合模块对高层特征图和低层特征图像素间的依赖关系进行融合和第4.6步的直接特征融合模块将高层特征图向低层特征图的逐层直接融合获得的检测结果分别比经典SSD方法提升了1.9％、1.8％的检测精度；当两种特征融合方法都使用时，比经典SSD方法提升了2.8％的检测精度。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，熟悉该本领域的技术人员应该明白本发明包括但不限于附图和上面具体实施方式中描述的内容。任何不偏离本发明的功能和结构原理的修改都将包括在权利要求书的范围中。

Claims

1.一种基于特征融合的目标检测方法，其特征在于包括以下步骤：

第一步：构建目标检测系统，目标检测系统由特征提取模块、间接特征融合模块、直接特征融合模块、第一变形模块、第二变形模块、检测模块组成；

特征提取模块为一个卷积神经网络，与第一变形模块相连；特征提取模块接收图像I，对图像I进行特征提取，得到多尺度特征图集合F(I)，将F(I)发送给第一变形模块；

第一变形模块是对F(I)进行插值和下采样操作的模块，与特征提取模块、间接特征融合模块相连；对F(I)中的特征图进行下采样或插值操作，统一特征图的尺寸，得到A₁(I)，将A₁(I)发送给间接特征融合模块；

间接特征融合模块与第一变形模块、直接特征融合模块相连，间接特征融合模块由第一通道变换模块、特征拼接模块、6个注意力模块组成；间接特征融合模块从第一变形模块接收A₁(I)，将A₁(I)中高层特征图的像素间的依赖关系和低层特征图像素间的依赖关系进行融合，运用融合的像素间的依赖关系，通过加权计算得到经过间接特征融合的特征图h₁,h₂,h₃,h₄,h₅,h₆，将h₁,h₂,h₃,h₄,h₅,h₆发送给直接特征融合模块；

第一通道变换模块包含6个1×1卷积神经网络，与第一变形模块、特征拼接模块、直接特征融合模块相连，从第一变形模块接收A₁(I)，分别对A₁(I)中的每个特征图进行1×1卷积神经操作，将A₁(I)中6个特征图的通道数统一为256，得到A₂(I)＝{a₂₁，a₂₂，a₂₃，a₂₄，a₂₅，a₂₆}，将A₂(I)输出给特征拼接模块、直接特征融合模块；A₂(I)中的特征图尺寸都为256×10×10；

特征拼接模块与第一通道变换模块、6个注意力模块相连，从第一通道变换模块接收A₂(I)，对A₂(I)中的6个特征图进行特征拼接操作，将A₂(I)中的6个特征图拼接成第一特征图I₁,将I₁发送给6个注意力模块，I₁的尺寸为1536×10×10；

第i个注意力模块与特征拼接模块、直接特征融合模块相连，对I₁提取像素间的依赖关系，根据依赖关系加权计算得到经过间接特征融合的特征图h_i，将h_i发送给直接特征融合模块；第i个注意力模块由查询模块、键模块、值模块、依赖关系模块、归一化模块、像素赋权模块、特征相加模块组成；1≤i≤6；

查询模块与特征拼接模块、依赖关系模块相连，从特征拼接模块接收I₁，对I₁进行1×1卷积操作，得到第二特征图I₂”,I₂”的尺寸为192×10×10；对I₂”进行维度合并操作，将第二维度和第三维度合并，得到第二合并后特征图I₂’，I₂’的尺寸为192×100；对I₂’进行转置操作，得到第二转置后特征图I₂，I₂的尺寸为100×192，将I₂发送给依赖关系模块；

键模块与特征拼接模块、依赖关系模块相连，从特征拼接模块接收I₁，对I₁进行1×1卷积操作，得到第三特征图I₃’，I₃’的尺寸为192×10×10；对I₃’进行维度合并操作，将第二维度和第三维度合并，得到第三合并后特征图I₃，I₃的尺寸为192×100，将I₃发送给依赖关系模块；

依赖关系模块与查询模块、键模块、归一化模块相连，从查询模块接收I₂、从键模块接收I₃，对I₂、I₃进行向量乘法操作，得到I₂、I₃不同像素间的依赖关系图I₄，I₄的尺寸为100×100，将I₄发送给归一化模块；

归一化模块与依赖关系模块和像素赋权模块相连，从依赖关系模块接收I₄，对I₄的每一行进行归一化操作，得到归一化后的像素间依赖关系图I₅，I₅的尺寸为100×100，将I₅发送给像素赋权模块；

值模块与特征拼接模块、像素赋权模块相连，从特征拼接模块接收I₁，对I₁进行1×1卷积操作，得到第六特征图I₆”，I₆”的尺寸为1536×10×10，对I₆”进行维度合并操作，将第二维度和第三维度合并，得到第六合并后特征图I₆’，I₆’的尺寸为1536×100；对I₆’进行转置操作，得到第六转置后特征图I₆，I₆的尺寸为100×1536，将I₆发送给像素赋权模块；

像素赋权模块与值模块、归一化模块、特征相加模块相连，从值模块接收I₆、从归一化模块接收I₅，对I₅、I₆执行矩阵乘法操作以对像素赋权，得到像素赋权后特征图I₇”,I₇”的尺寸为100×1536；对I₇”进行转置操作，得到I₇’，I₇’的尺寸为1536×100；对I₇’的第二维进行维度拆分操作，得到维度拆分后的特征图I₇，I₇的尺寸为1536×10×10，将I₇发送给特征相加模块；

特征相加模块与特征拼接模块、像素赋权模块、直接特征融合模块相连，从特征拼接模块接收I₁、从像素赋权模块接收I₇，对I₁、I₇进行像素级别加法操作以利于梯度回传和优化，得到经过特征相加后的特征图h_i，h_i的尺寸为1536×10×10，将h_i发送给直接特征融合模块；

直接特征融合模块与间接特征融合模块、第二变形模块相连，从间接特征融合模块中的第一通道变换模块接收A₂(I)、从间接特征融合模块中的6个注意力模块接收h₁,h₂,h₃,h₄,h₅,h₆,对h₁,h₂,h₃,h₄,h₅,h₆变换通道数后，进行直接特征融合，得到经过直接特征融合后的特征图集合J(I)，将J(I)发送给第二变形模块；直接特征融合模块由第二通道变换模块、侧向连接模块组成；

第二通道变换模块包含6个1×1卷积神经网络，与间接特征融合模块、侧向连接模块相连，从间接特征融合模块的6个注意力模块中的特征相加模块接收h₁,h₂,h₃,h₄,h₅,h₆，分别对h₁,h₂,h₃,h₄,h₅,h₆进行1×1卷积神经操作，将h₁,h₂,h₃,h₄,h₅,h₆的通道数变换为256，得到特征图集合A₈(I)，将A₈(I)发送给侧向连接模块；

侧向连接模块是进行像素级别加法操作的模块，与第二通道变换模块、第二变形模块、间接特征融合模块的第一通道变换模块相连，从第二通道变换模块接收A₈(I)、从第一通道变换模块接收A₂(I)，对A₈(I)和A₂(I)进行侧向连接操作即直接特征融合，得到J(I)＝{j₁,j₂,j₃,j₄,j₅,j₆}，j₁,j₂,j₃,j₄,j₅,j₆尺寸均为256×10×10，将J(I)发送给第二变形模块；

第二变形模块与直接特征融合模块、检测模块相连；从直接特征融合模块接收J(I)，对J(I)中的特征图进行插值或下采样操作，得到D(I)，D(I)中包含d₁,d₂,d₃,d₄,d₅,d₆这6个特征图；将D(I)发送给检测模块；

检测模块与第二变形模块相连，由分类网络、定位网络和非极大值抑制模块组成；定位网络与第二变形模块、非极大值抑制模块相连，定位网络从第二变形模块接收D(I)，对D(I)中的每一个特征图进行卷积操作，向非极大值抑制模块输出预测目标的坐标值即预测框坐标值；分类网络与第二变形模块、非极大值抑制模块相连，分类网络从第二变形模块接收D(I)，对D(I)中的每一个特征图进行卷积操作，向非极大值抑制模块输出预测目标的类别即目标最属于某类的概率值；非极大值抑制模块与分类网络和定位网络相连，采用非极大值抑制方法将重复预测的目标的坐标值和类别去除，获得目标最佳的预测框坐标值和预测类别；

第二步：准备目标检测系统的训练数据集，方法为：

选择PASCAL VOC 2007、PASCAL VOC 2012的训练集、验证集中的所有图片作为训练数据集，训练数据集图片中共包含E种目标类别，E为正整数；对于训练数据集中的第d张图片，1≤d≤16551，PASCAL VOC 2007、PASCAL VOC 2012中给出了第d张图片所包含的目标的类别以及位置向量g_d＝{g_d1,g_d2,...,g_dz,...,g_dZ}，dZ表示第d张图片中包含的目标数量，其中

为包含四个值的一维向量，

为第d张图片的第z个目标区域矩形框的左上角的坐标值，

中的四个值表示出第d张图片的第z个目标区域矩形的目标区域；

3.1对特征提取模块的网络参数Φ₁、间接特征融合模块的网络参数Φ₂、直接特征融合模块的网络参数Φ₃、检测模块的网络参数Φ₄进行初始化；

3.2将训练数据集中的图片依次输入到目标检测系统中，对目标检测系统进行训练，拟合得到目标检测系统的网络参数；

第四步：利用目标检测系统进行目标检测，方法是：

4.1从相机或文件获得需要检测的图像I；

4.3特征提取模块对被检测图像I进行特征提取，得到多尺度特征图集合F(I)，将F(I)发送给第一变形模块；F(I)中包含6张图，尺寸分别为512×38×38，1024×19×19，512×10×10，256×5×5，256×3×3，256×1×1；尺寸为512×38×38，1024×19×19，512×10×10的为低层特征图；尺寸为256×5×5，256×3×3，256×1×1的为高层特征图；

4.4第一变形模块从特征提取模块接收F(I)，对F(I)中的特征图进行下采样或插值操作，统一特征图的尺寸，得到A₁(I)，将A₁(I)发送给间接特征融合模块；A₁(I)包含的特征图尺寸为512×10×10，1024×10×10，512×10×10，256×10×10，256×10×10，256×10×10；

4.5间接特征融合模块从第一变形模块接收A₁(I)，将A₁(I)中高层特征图即尺寸为256×10×10，256×10×10，256×10×10的特征图像素间的依赖关系和低层特征图即尺寸为512×10×10，1024×10×10，512×10×10的特征图像素间的依赖关系进行融合，运用融合的像素间的依赖关系，通过加权计算得到经过间接特征融合的特征图h₁,h₂,h₃,h₄,h₅,h₆，将h₁,h₂,h₃,h₄,h₅,h₆发送给直接特征融合模块；具体方法为：

4.5.1第一通道变换模块从第一变形模块接收A₁(I)，对A₁(I)中的特征图分别采用1×1卷积神经网络进行通道变换操作，得到A₂(I)＝{a₂₁，a₂₂，a₂₃，a₂₄，a₂₅，a₂₆}，a₂₁，a₂₂，a₂₃，a₂₄，a₂₅，a₂₆均为尺寸为256×10×10的特征图，将A₂(I)发送给特征拼接模块、直接特征融合模块；

4.5.2特征拼接模块从第一通道变换模块接收A₂(I)，对A₂(I)进行特征拼接操作，将6个特征图拼接成第一特征图I₁，I₁的尺寸为1536×10×10；将I₁发送给6个注意力模块；

4.5.3 6个注意力模块同时从特征拼接模块接收I₁，并行地运用矩阵乘法操作对I₁提取不同像素间的依赖关系；将所有特征图的信息都考虑在内，实现不同特征图间的间接信息融合；运用融合后的像素间的依赖关系，通过像素赋权模块和特征相加模块得到特征图h₁,h₂,h₃,h₄,h₅,h₆，将h₁,h₂,h₃,h₄,h₅,h₆发送给直接特征融合模块；。

4.6直接特征融合模块从间接特征融合模块中的第一通道变换模块接收A₂(I)、从间接特征融合模块中的6个注意力模块接收h₁,h₂,h₃,h₄,h₅,h₆，将h₁,h₂,h₃,h₄,h₅,h₆统一通道数后，进行直接特征融合，得到经过直接特征融合后的特征集合J(I)＝{j₁，j₂，j₃，j₄，j₅，j₆}，j_i的尺寸为256×10×10，将J(I)发送给第二变形模块，具体方法为：

4.6.1第二通道变换模块从间接特征融合模块的6个注意力模块接收h₁,h₂,h₃,h₄,h₅,h₆，分别对h₁,h₂,h₃,h₄,h₅,h₆进行1×1卷积神经操作，将h₁,h₂,h₃,h₄,h₅,h₆的通道数变换为256，以减小后续计算量，得到特征图集合A₈(I)，将A₈(I)发送给侧向连接模块；A₈(I)中的特征图尺寸都为256×10×10；

4.6.2侧向连接模块从第二通道变换模块接收A₈(I)、从第一通道变换模块接收A₂(I)，对A₈(I)和A₂(I)进行侧向连接操作，即从A₈(I)最高层特征图h₆开始，对h₆特征图与h₅特征图进行相加并除2，得到h₆₅，再将h₆₅与h₄进行相加并除2，得到h₅₄，以此类推，直到获得h₂₁，将h₆，h₆₅，h₅₄，h₄₃，h₃₂，h₂₁放入到集合J(I)’中，将J(I)’与A₂(I)执行像素加法操作，得到J(I)＝{j₁,j₂,j₃,j₄,j₅,j₆}，j₁,j₂,j₃,j₄,j₅,j₆尺寸均为256×10×10，将J(I)发送给第二变形模块；

4.7第二变形模块从直接特征融合模块接收J(I)，对j₁，j₂，j₃分别进行下采样操作，得到d₁，d₂，d₃，尺寸分别为256×1×1，256×3×3，256×5×5；对j₅，j₆分别进行插值操作，得到d₅，d₆，尺寸分别为256×19×19，256×38×38；将d₁，d₂，d₃，j₄，d₅，d₆放到集合D(I)中，将D(I)发送给检测模块；

是坐标系中预测目标框左上角横坐标，

是预测目标框左上角纵坐标，

是预测目标框右下角横坐标，

是预测目标框右下角纵坐标。l_e和c_e中相同序号的元素对应相同的预测目标，然后利用非最大值抑制模块对L(I)和C(I)进行筛选，获得最终的目标检测结果，具体方法为：

4.8.3.利用非最大值抑制模块对L(I)和C(I)进行筛选：

4.8.3.1.初始化e＝1；

4.8.3.2.将c_e中的概率值按照降序排列；

4.8.3.4.初始化p＝1；

4.8.3.5.计算l_e(p+1)预测目标框与l_ep预测目标框的交并比；若交并比小于阈值t，则删除l_e(p+1)目标框对应的预测目标，转4.8.3.6；若交并比大于t，则保留l_e(p+1)对应的预测目标，转4.8.3.6；

4.8.3.6.若p＜P，则令p＝p+1，转4.8.3.5；若p＝P，转4.8.3.7；

4.8.3.7.若e＜E，则令e＝e+1，转4.8.3.2；若e＝E，转4.8.3.8；

2.如权利要求1所述的一种基于特征融合的目标检测方法，其特征在于所述特征提取模块共包括23个卷积层，5个池化层，共28层；池化层分别为第3、6、10、14、18层，其他层均为卷积层；第13层将尺寸为512×38×38的特征图输出给第一变形模块和第14层；第21层将尺寸为1024×19×19的特征图输出给第一变形模块和第22层；第23层将尺寸为512×10×10的特征图输出给第一变形模块和第24层；第25层将尺寸为256×5×5的特征图输出给第一变形模块和第26层；第27层将尺寸为256×3×3的特征图输出给第一变形模块和第28层；第28层将尺寸为256×1×1的特征图输出给第一变形模块。

3.如权利要求1所述的一种基于特征融合的目标检测方法，其特征在于所述定位网络是一个卷积核大小为3×3、卷积核个数为k×E的卷积网络，k为图片上每个位置预定义框的数量，E为训练数据集中包含的目标类别数量。

4.如权利要求1所述的一种基于特征融合的目标检测方法，其特征在于所述分类网络是一个卷积核大小为3×3、卷积核数量为k×4的卷积网络，k为图片上每个位置预定义框的数量。

5.如权利要求1所述的一种基于特征融合的目标检测方法，其特征在于所述3.1步对特征提取模块的网络参数Φ₁进行初始化的方法是SSD即单阶段多参考窗口检测器中的初始化方法；对间接特征融合模块的网络参数Φ₂、直接特征融合模块的网络参数Φ₃、检测模块的网络参数Φ₄进行初始化的方法是Kaiming初始化方法。

6.如权利要求1所述的一种基于特征融合的目标检测方法，其特征在于3.2步所述对目标检测系统进行训练，拟合得到目标检测系统参数的具体方法是：

3.2.2.1初始化变量d＝1；

3.2.2.2将训练数据集中的第d张至第d+batchsize张图片输入到目标检测系统中，使用随机梯度下降算法SGD使损失函数最小化，以更新目标检测系统中各模块的网络参数；

3.2.2.3若d+2*batchsize＜16551，令d＝d+batchsize，转3.2.2.2；若d+2*batchsize≥16551，转3.2.3；

3.2.3若epoch<160，令epoch＝epoch+1，转3.2.2；若epoch＝160，令lr＝lr*0.1，令epoch＝epoch+1，转3.2.2；若160<epoch≤250，令epoch＝epoch+1，转3.2.2；若epoch＞250，转3.2.4；

7.如权利要求6所述的一种基于特征融合的目标检测方法，其特征在于所述训练的损失函数采用SSD中的损失函数，形式为：

其中L为总损失函数，L_loc为位置预测损失函数，通过计算预测框和真实框之间的Smooth L1损失函数获得，L_conf为类别预测损失函数，通过计算预测类别和真实类别之间的Softmax损失函数获得，N为训练数据集中图片的预测目标的坐标框与真实框匹配的样本数量，即训练数据集中所有IOU大于0.5的样本数量，也即：

的样本数量；

8.如权利要求1所述的一种基于特征融合的目标检测方法，其特征在于4.4步所述第一变形模块对F(I)中的特征图统一尺寸的方法是：采用下采样方法分别将F(I)中的512×38×38，1024×19×19特征图的后两个维度缩小至10×10；采用插值方法分别将F(I)中的256×5×5，256×3×3，256×1×1特征图的后两个维度放大至10×10，对F(I)中原有的512×10×10特征图不作处理；将维度统一后的6个特征图放到集合A₁(I)中。

9.如权利要求1所述的一种基于特征融合的目标检测方法，其特征在于4.5.1步所述第一通道变换模块对A₁(I)中的特征图进行通道变换操作是通过调用pytorch内置的函数nn.Conv2d(in_channels,out_channels,kernel_size)实现，其中in_channels表示输入特征图的通道数；out_channels表示输出特征图的通道数，设置为256；kernel_size表示卷积网络卷积核的大小，设置为1。

10.如权利要求1所述的一种基于特征融合的目标检测方法，其特征在于4.5.3步所述第i个注意力模块生成第i个经过间接特征融合的特征图h_i的方法为:

4.5.3.1查询模块从特征拼接模块接收I₁，采用1×1卷积对I₁进行卷积操作，得到第二特征图I₂”,I₂”的尺寸为192×10×10；对I₂”进行维度合并操作，将第二维度和第三维度合并，得到第三特征图I₂’，I₂’的尺寸为192×100；对I₂’将进行转置操作，得到第四特征图I₂，I₂的尺寸为100×192，将I₂发送给依赖关系模块；同时，键模块从特征拼接模块接收I₁，采用1×1卷积对I₁进行卷积操作，得到第五特征图I₃’，I₃’的尺寸为192×10×10；对I₃’进行维度合并操作，将第二维度和第三维度合并，得到第六特征图I₃，I₃的尺寸为192×100，将I₃发送给依赖关系模块；

4.5.3.2依赖关系模块从查询模块接收I₂、从键模块接收I₃，对I₂、I₃进行向量乘法操作，得到不同像素间的依赖关系图I₄，I₄的尺寸为100×100，将I₄发送给归一化模块；

4.5.3.3归一化模块从依赖关系模块接收I₄，采用Softmax函数对I₄的每一列进行归一化操作，得到归一化后的像素间依赖关系I₅，I₅的尺寸为100×100，将I₅发送给像素赋权模块；同时，值模块从特征拼接模块接收I₁，采用1×1卷积对I₁进行卷积操作，得到第七特征图I₆”，I₆”的尺寸为1536×10×10，对I₆”进行维度合并操作，将第二维度和第三维度合并，得到第八特征图I₆’，I₆’的尺寸为1536×100；对I₆’进行转置操作，得到第九特征图I₆，I₆的尺寸为100×1536，将I₆发送给像素赋权模块；

4.5.3.4像素赋权模块从值模块接收I₆、从归一化模块接收I₅，对I₅、I₆进行矩阵乘法操作，得到经过像素赋权后的特征图I₇”,I₇”的尺寸为100×1536；对I₇”进行转置操作，得到第十特征图I₇’，I₇’的尺寸为1536×100；对I₇’的第二维进行维度拆分操作，得到第十一特征图I₇，I₇的尺寸为1536×10×10，将I₇发送给特征相加模块；

4.5.3.5特征相加模块从像素赋权模块接收I₇、从特征拼接模块接收I₁，对I₁、I₇进行像素级别加法操作得到特征图h_i，h_i的尺寸为1536×10×10，将h_i发送给直接特征融合模块。

11.如权利要求10所述的一种基于特征融合的目标检测方法，其特征在于4.5.3.4步所述像素赋权模块通过调用pytorch内置的函数I₇.view(1536,10,10)对I₇’的第二维进行维度拆分操作，得到第十一特征图I₇。

12.如权利要求1所述的一种基于特征融合的目标检测方法，其特征在于4.6.2步所述侧向连接模块得到J(I)的方法为：

4.6.2.1初始化i＝6；

4.6.2.2j_i’＝h_i；j_i＝j_i’+a_2i；

4.6.2.3i＝i-1；若i＝0，表示得到了J(I)，结束；若i>0，转4.6.2.4；

4.6.2.4j_i’＝(h_i+j_i+1’)/2，j_i＝j_i’+a_2i，转4.6.2.3。

13.如权利要求1所述的一种基于信息增强的目标检测方法，其特征在于所述阈值t满足0.7＜t＜0.9。