CN111612017A

CN111612017A - 一种基于信息增强的目标检测方法

Info

Publication number: CN111612017A
Application number: CN202010647374.8A
Authority: CN
Inventors: 史殿习; 崔玉宁; 刘哲; 杨思宁; 李林
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-07-07
Filing date: 2020-07-07
Publication date: 2020-09-01
Anticipated expiration: 2040-07-07
Also published as: CN111612017B

Abstract

本发明公开了一种基于信息增强的目标检测方法，目的是解决单阶段检测方法精度低的缺点。技术方案是构建由特征提取模块、语义提升模块、特征选择模块、特征融合模块、检测模块构成的目标检测系统，采用训练数据集对目标检测网络进行训练，采用训练后的目标检测系统对单帧图像进行特征提取、语义提升、特征选择、特征融合，识别目标的位置和类别。本发明语义提升模块丰富多尺度特征的语义信息，特征选择模块采用注意力模块增强不同尺度特征图中的有用信息、抑制无用信息，达到了增强信息的目的；特征融合模块将经过特征选择的全局语义特征图融合到多尺度特征图上，使每个特征图都具有更准确的位置和语义信息，提高了检测精度。

Description

一种基于信息增强的目标检测方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于信息增强的的目标检测方法。

背景技术

目标检测是计算机视觉领域重要的研究方向之一，传统的目标检测方法是通过对一定区域内的图像构建特征描述子(如方向梯度直方图等)提取特征，然后利用分类器对特征进行分类实现目标检测，如支持向量机SVM(Support Vector Machine)等。近来随着卷积神经网络的发展，工程特征大部分已经被卷积神经网络特征所取代，目标检测系统在精度和速度上都取得了很大的进步。

当前，基于深度学习的目标检测方法分为双阶段检测方法和单阶段检测方法。

双阶段检测方法采用Fast R-CNN、Faster R-CNN、R-FCN双阶段网络，首先对输入图片提取候选区域，然后对提取的候选区域进行分类和定位。目前，该类方法达到了检测精度非常好的效果，但是存在速度较慢的缺点，达不到实时性的要求。

单阶段检测方法采用SSD(Single Shot MultiBox Detector，单阶段多参考窗口检测器)等单阶段网络直接对设置的默认框进行定位和分类，省略了双阶段方法中提取候选区域的操作，检测速度得到了提升，但是检测精度较双阶段方法略有下降，尤其是对小尺寸目标的检测。出现这种情况主要是因为面向小尺寸目标检测的低层特征的卷积层数少，语义信息不够丰富，导致小目标的检测效果仍然不尽如人意。

FPN(见文献“Lin,Tsung-Yi,et al.Feature pyramid networks for objectdetection[C]//Proceedings of the IEEE conference on computer vision andpattern recognition.2017”,Lin Tsung-Yi的论文：目标检测特征金字塔网络)网络通过侧向连接将高层特征丰富的语义逐层传递给低层特征，Libra r-cnn(见文献“Pang,Jiangmiao,et al.Libra r-cnn:Towards balanced learning for object detection[C]//Proceedings of the IEEE Conference on Computer Vision and PatternRecognition.2019”，Pang Jiangmiao的论文：针对目标检测的平衡学习)网络通过特征相加求均值的方法使每层特征都获得了其他所有特征的信息。采用了FPN和Libra r-cnn网络进行特征融合的目标检测方法都是将已有特征直接进行结合，没有经过筛选以抑制无用的信息、增强有用的信息，无法达到很好的融合效果，因此检测精度仍然比较低。

因此，如何充分利用全局信息，在不降低单阶段检测方法速度的同时，提供一种检测精度更高的目标检测方法，是本领域技术人员正在探讨的热点问题。

发明内容

本发明要解决的技术问题是解决目前单阶段检测方法虽然检测速度快，但精度低的缺点。

本发明提供一种基于信息增强的目标检测方法，在单阶段SSD网络中加入注意力机制，达到提升目标检测尤其是小目标检测精度的目的。

为解决上述技术问题，本发明的技术方案是：首先构建由特征提取模块、语义提升模块、特征选择模块、特征融合模块、检测模块构成的目标检测系统。然后选择PASCAL VOC2007、PASCAL 2012的训练集和验证集的组合数据集作为对目标检测网络进行训练的训练数据集，拟合后得到目标检测系统的网络参数。最后采用训练后的目标检测系统对单帧图像进行特征提取、语义提升、特征选择、特征融合，识别目标的位置和类别。

本发明主要包括以下具体步骤：

第一步：构建目标检测系统。该系统由特征提取模块、语义提升模块、特征选择模块、特征融合模块、检测模块组成。

特征提取模块为一个卷积神经网络，与语义提升模块相连。特征提取模块共包括23个卷积层，5个池化层，共28层。池化层分别为第3、6、10、14、18层，其他层均为卷积层。特征提取模块接收图像I，对图像I进行特征提取，得到多尺度特征图集合F(I)，将F(I)发送给语义提升模块。多尺度特征图集合包含六个尺度的特征图，六个尺度的特征图的尺寸分别为38×38×512，19×19×1024，10×10×512，5×5×256，3×3×256，1×1×256，分别由第13层、第21层、第23层、第25层、第27层、第28层输出给语义提升模块。其中，第13层、第21层、第23层、第25层、第27层特征既输出给语义提升模块，也输出给它们各自的下一层。(即，第13层将尺寸为38×38×512的特征图输出给语义提升模块和第14层；第21层将尺寸为19×19×1024的特征图输出给语义提升模块和第22层；第23层将尺寸为10×10×512的特征图输出给语义提升模块和第24层；第25层将尺寸为5×5×256的特征图输出给语义提升模块和第26层；第27层将尺寸为3×3×256的特征图输出给语义提升模块和第28层；第28层将尺寸为1×1×256的特征图输出给语义提升模块。)特征图的尺寸的含义是：前两个维度是特征图中每个通道中的像素长和宽，第三个维度为通道数。以尺寸为10×10×256的特征图为例，256为通道数，前两个维度是特征图中每个通道中的像素点的坐标。

语义提升模块包含一个1×1卷积层和一个ReLU激活函数(见文献“Krizhevsky,Alex,et al.ImageNet Classification with Deep Convolutional Neural Networks[C]//Advances in neural information processing systems,2012”,Krizhevsky,Alex的论文：ImageNet分类与深度卷积神经网络)，与特征提取模块、特征选择模块、特征融合模块相连。语义提升模块的1×1卷积层从特征提取模块接收F(I)，对F(I)中的6个特征图逐张进行卷积操作，将F(I)中的6个特征图的第三个维度统一为256，得到S'(I)，将S'(I)发送给ReLU激活函数；ReLU激活函数从1×1卷积网络接收到S'(I)，对S'(I)进行激活操作，以提升特征的语义信息，得到S(I)，将S(I)输出给特征选择模块和特征融合模块。S(I)包含的特征图尺寸分别为38×38×256，19×19×256，10×10×256，5×5×256，3×3×256，1×1×256。

特征选择模块与语义提升模块、特征融合模块相连，对S(I)进行选择性地融合，得到全局特征图集合G(I)，将G(I)发送给特征融合模块。特征选择模块由第一变形模块、第一特征图相加模块、全局池化模块、非线性增加模块、特征生成模块(含6个注意力模块、归一化模块、通道赋权模块)、第二特征图相加模块、第二变形模块组成。

第一变形模块是对S(I)进行插值和下采样操作的模块，与语义提升模块和第一特征图相加模块相连；对S(I)中的特征图进行上采样或插值操作，统一特征图的尺寸，得到A₁(I)，将A₁(I)发送给第一特征图相加模块，A₁(I)包含的6个特征图尺寸都为10×10×256，由于缩小特征图会损失信息，在没引入较大计算量的前提下，为了减少特征图的信息损失，统一将特征图尺寸调整至10×10×256。

第一特征图相加模块与第一变形模块和全局池化模块连接，对A₁(I)中的六个特征图执行像素级别的加法操作，获得尺寸为10×10×256的第一全局特征图，记为I₂，将I₂发送给全局池化模块。

全局池化模块和第一特征图相加模块和非线性增加模块相连，对I₂进行全局池化操作，获得第一一维向量A₃(I)，将A₃(I)发送给非线性增加模块。A₃(I)中共有256个元素。

非线性增加模块包含一个全连接层和一个ReLU激活函数，与全局池化模块、特征生成模块相连，对A₃(I)采用全连接操作，以降低模型复杂度，得到包含16个元素的激活前向量A₄(I)'，将A₄(I)'发送给ReLU激活函数；ReLU激活函数从全连接层接收到A₄(I)'，对A₄(I)'进行激活操作，提升A₄(I)'的非线性，得到第二一维向量A₄(I)，A₄(I)中包含16个元素，将A₄(I)发送给特征生成模块。

特征生成模块和非线性增加模块、第二特征图相加模块相连。特征生成模块由6个注意力模块、1个归一化模块和1个通道赋权模块组成。6个注意力模块均为一层全连接层。注意力模块是一种注意力模型，注意力模型可以宏观上理解为一个查询(Query)到一系列(键Key-值Value)对的映射。将Source(源)中的构成元素想象成由一系列的<Key,Value>数据对构成，给定某个Query(查询)，通过注意力模块计算Query和各个Key的相似性或者相关性，得到每个Key对应Value的权重系数。

6个注意力模块均与非线性增加模块和归一化模块相连，6个注意力模块并行地对A₄(I)进行全连接操作，分别得到6个包含256个元素的一维向量，这6个一维向量即为S(I)中6个特征图的权重系数，用w₁,w₂,w₃,w₄,w₅,w₆表示，w_i(1≤i≤6)为S(I)中第i个特征图的权重系数。6个注意力模块分别将w₁,w₂,w₃,w₄,w₅,w₆发送给归一化模块。归一化模块与6个注意力模块、通道赋权模块相连，归一化模块对w₁,w₂,w₃,w₄,w₅,w₆的256个元素分别执行softmax操作以进行归一化，得到归一化后的权重系数s₁,s₂,s₃,s₄,s₅,s₆，将s₁,s₂,s₃,s₄,s₅,s₆，发送给通道赋权模块。

通道赋权模块和归一化模块、第一变形模块相连，对s₁,s₂,s₃,s₄,s₅,s₆，与A₁(I)中对应的特征图分别执行通道级乘法操作，以获得A₁(I)中更符合检测目标尺度的特征图信息，得到6个经过赋权后的特征图，将这6个经过赋权后的特征图放到特征图集合A₅(I)中，将A₅(I)发送给第二特征图相加模块。

第二特征图相加模块与通道赋权模块、第二变形模块相连，对A₅(I)中的6个特征图执行加法操作，获得第二全局特征图I₃，I₃中融合了不同尺度特征图的信息，尺寸为10×10×256。将I₃发送给第二变形模块。

第二变形模块与第二特征图相加模块、特征融合模块相连。第二变形模块对I₃进行变形，即进行插值和下采样操作，得到变形后的特征图集合G(I)，G(I)包含的特征图尺寸分别为38×38×256，19×19×256，10×10×256，5×5×256，3×3×256，1×1×256，将G(I)发送给特征融合模块。

特征融合模块与特征选择模块、语义提升模块、检测模块相连，它从特征选择模块接收G(I)、从语义提升模块接收S(I)，将G(I)和S(I)中相同尺寸的特征图相加，得到用于检测的特征图集合D(I)。在相加过程中，多尺度特征图的尺寸不变，D(I)具有与G(I)和S(I)相同的尺寸，但融合了G(I)和S(I)的特征图信息，使得特征图包含的位置信息和语义信息得到了增强。

检测模块与特征融合模块相连，由分类网络、定位网络和非极大值抑制(NMS)模块组成。定位网络与特征融合模块、非极大值抑制模块相连，是一个卷积核大小为3×3、卷积核个数为k×E的卷积网络(其中k为图片上每个位置预定义框的数量，E为数据集中包含的目标类别数量)；定位网络从特征融合模块接收D(I)，对D(I)中的每一个特征图进行卷积操作，向非极大值抑制模块输出预测目标的坐标值(即预测框坐标值，包括左上和右下2个坐标，共4个值)；分类网络与特征融合模块、非极大值抑制模块相连，是一个卷积核大小为3×3、卷积核数量为k×4的卷积网络(其中4表示需要用4个坐标值表示一个预测目标的位置)，从特征融合模块接收D(I)，对D(I)中的每一个特征图进行卷积操作，向NMS模块输出预测目标的类别(即目标最属于某类的概率值)。非极大值抑制模块与分类网络和定位网络相连，采用非极大值抑制方法(NMS，Non-Maximum Suppression方法，见文献“Efficient Non-Maximum Suppression.”18^th International Conference on Pattern Recognition(ICPR’06)3(2006):850-855,Neubeck,Alexander和Luc Van Gool的论文：有效的非极大值抑制方法)将重复预测的目标的坐标值和类别去除，获得目标最佳的预测框坐标值和预测类别。

第二步：准备目标检测系统的训练数据集。方法为：

选择PASCAL VOC 2007、PASCAL VOC 2012(见文献“M.Everingham,L.Van Gool,C.K.I.Williams,J.Winn,and A.Zisserman.The pascal visual object classes VOCchallenge[J]//International Journal of Computer Vision.2010:303-338”，MarkEveringham的论文：视觉目标类别挑战，2010年出版的《国际计算机视觉杂志》第303页)的训练集、验证集中的所有图片作为训练数据集，训练数据集图片中共包含E种目标类别，E为正整数。对于训练数据集中的第d(1≤d≤16551)张图片，PASCAL VOC 2007、PASCAL VOC2012中给出了第d张图片所包含的目标的类别以及位置向量g_d，

为包含四个值的一维向量，z表示一张图片中的第z个目标，

为目标区域矩形框的左上角的坐标值，

为目标区域举行框的右下角的坐标值，四个坐标值均为标量，四个值表示出一个矩形的目标区域。

第三步，采用第二步构建的训练数据集训练目标检测系统中的各个模块，方法是：

3.1 采用SSD(见文献“SSD:Single Shot MultiBox Detector.”EuropeanConference on Computer Vision,2016.”Liu Wei等人的论文：单阶段多参考窗口检测器)中的初始化方法对特征提取模块的网络参数Φ₁进行初始化；采用Kaiming初始化方法(见文献“Delving deep into rectifiers:Surpassing human-level performance onimagenet classification.”Proceedings of the IEEE international conference oncomputer vision.2015.He Kaiming等人的论文：深入研究整流器：在ImageNet数据集上超越人类水平的性能)对其余模块(即语义提升模块的网络参数Φ₂、特征选择模块的网络参数Φ₂、特征融合模块的网络参数Φ₃、检测模块的网络参数Φ₄)进行初始化。

3.2 将训练数据集中的图片依次输入到目标检测系统中，对目标检测系统进行训练，拟合得到目标检测系统的网络参数，具体步骤是：

3.2.1 初始化迭代次数epoch＝1；初始化批处理大小batchsize＝32；初始化学习率lr＝4*10^-3；

3.2.2 采用训练数据集中的图片对目标检测系统进行训练，具体步骤为：

3.2.2.1.初始化变量d＝1；

3.2.2.2.将训练数据集中的第d张至第(d+batchsize)张图片输入到目标检测系统中，使用随机梯度下降算法(SGD)(见文献“Backpropagation applied to handwrittenzip code recognition[J]//Neural Computation,1989”，Yann Lecun等人的论文：反向传播应用于手写邮政编码识别)使损失函数最小化，以更新目标检测系统中各模块的网络参数。所述损失函数采用SSD中的损失函数作为训练的损失函数，形式为：

其中L为总损失函数，L_loc为位置预测损失函数，通过计算预测框和真实框(即真实图像的左上坐标和右下坐标围起来的框)之间的Smooth L1损失函数获得，L_conf为类别预测损失函数，通过计算预测类别和真实类别之间的Softmax损失函数获得，N为训练数据集中图片的预测目标的坐标框与真实框匹配的样本数量，即训练数据集中所有IOU大于0.5的样本数量，也即：

的样本数量。

其中，IOU表示交并比，A表示定位网络输出的一个目标框的坐标所包围的面积，B表示目标真实坐标值所包围的面积。

3.2.2.3.若d+2*batchsize＜16551，令d＝d+batchsize，转3.2.2.2；若d+2*batchsize≥16551，转3.2.3。

3.2.3 若epoch<160，令epoch＝epoch+1，转3.2.2；若epoch＝160，令lr＝lr*0.1，令epoch＝epoch+1，转3.2.2；若160<epoch≤250，令epoch＝epoch+1，转3.2.2；若epoch＞250，转3.2.4。

3.2.4 将各个模块更新所得的参数作为最终的目标检测系统的网络参数。

第四步：利用目标检测系统进行目标检测，方法是：

4.1 通过相机获得需要检测的图像I；

4.2 将训练得到的目标检测系统的网络参数载入到目标检测系统中；

4.3 特征提取模块对被检测图像I进行特征提取，得到多尺度特征图集合F(I)，F(I)中包含6张图，尺寸分别为38×38×512，19×19×1024，10×10×512，5×5×256，3×3×256，1×1×256。F(I)的6个特征图中，在特征提取模块中经过卷积神经网络处理次数少的特征层，位置信息比较准确，但是语义信息不足，无法辨别目标属于的类别；在特征提取模块中经过卷积神经网络处理次数多的特征层，位置信息不准确，但是语义信息丰富。

4.4 语义提升模块从特征提取模块接收F(I)，对F(I)中的特征图逐张进行卷积操作，提升特征图中包含的语义信息，得到语言提升特征图集合S(I)，S(I)包含的特征图尺寸分别为38×38×256，19×19×256，10×10×256，5×5×256，3×3×256，1×1×256。

4.5 特征选择模块为S(I)中的每一个通道的特征图学习一个权重系数，对S(I)进行信息增强，以增强S(I)中的有用信息、抑制无用信息，并通过加法运算和放缩，获得全局语义特征图集合G(I)。通过把S(I)中6个特征图相加，得到第二全局特征图，既具有准确的位置信息，又有丰富的语义信息。具体方法为：

4.5.1 第一变形模块从语义提升模块接收S(I)，对S(I)中的特征图统一尺寸，得到A₁(I)，A₁(I)包含的特征图尺寸都为10×10×256。方法是：采用下采样方法将S(I)中的38×38×256，19×19×256特征图的前两个维度缩小至10×10×256；采用插值方法将S(I)中的5×5×256，3×3×256，1×1×256特征图的前两个维度放大，得到3个10×10×256的特征图，对S(I)中原有的10×10×256特征图不作处理；将尺寸统一后的6个特征图放到集合A₁(I)中。

4.5.2 第一特征图相加模块从第一变形模块接收A₁(I)，对A₁(I)中的6个特征图执行像素级别的加法运算，获得尺寸为10×10×256的第一全局特征图，记为I₂，将I₂发送给全局池化模块。

4.5.3 全局池化模块从第一特征图相加模块接收I₂，对I₂进行全局池化操作，得到A₃(I)，A₃(I)的为包含256个元素的第一一维向量，将A₃(I)发送给非线性增加模块。A₃(I)中共有256个元素，第c(1≤c≤256)个元素(即全局特征图I₂中第c(1≤c≤256)个通道经过全局平均池化后的值)A₃(I)_c为：

H、W表示I₂的长和宽，a、b(1≤a≤H,1≤b≤W)表示第c个通道中像素点的坐标。

4.5.4 非线性增加模块从全局池化模块接收A₃(I)，非线性增加模块的全连接层对A₃(I)进行全连接操作，得到包含16个元素的激活前向量A₄(I)'，将A₄(I)'发送给ReLU激活函数；ReLU激活函数从全连接层接收A₄(I)'，对A₄(I)'进行激活操作，提升A₄(I)'的非线性，得到包含16个元素的第二一维向量A₄(I)，将A₄(I)发送给特征生成模块；

4.5.5 特征生成模块通过6个注意力模块、归一化模块和通道赋权模块生成S(I)中每个特征图中的每个通道对应的权重参数，并对每个通道的像素进行赋权操作，获得S(I)中更符合检测目标尺度的特征图信息。具体方法为：

4.5.5.1 6个注意力模块从非线性增加模块分别接收A₄(I)，并行地对A₄(I)进行全连接操作，分别得到6个包含256个元素的一维向量，即w₁,w₂,w₃,w₄,w₅,w₆，w_i(1≤i≤6)为S(I)中第i个特征图的权重系数。6个注意力模块分别将w₁,w₂,w₃,w₄,w₅,w₆发送给归一化模块。

4.5.5.2 归一化模块从6个注意力模块分别接收w₁,w₂,w₃,w₄,w₅,w₆，对w₁,w₂,w₃,w₄,w₅,w₆采用softmax进行归一化操作，得到6个包含256个元素的一维向量s₁,s₂,s₃,s₄,s₅,s₆，将s₁,s₂,s₃,s₄,s₅,s₆发送给通道赋权模块。

4.5.5.3通道赋权模块从归一化模块接收s₁,s₂,s₃,s₄,s₅,s₆、从第一变形模块接收A₁(I)，对s₁,s₂,s₃,s₄,s₅,s₆和A₁(I)中对应的特征图进行通道级乘法操作，得到特征图集合A₅(I)，将A₅(I)发送给第二特征图相加模块。A₅(I)包含的特征图尺寸分别为38×38×256，19×19×256，10×10×256，5×5×256，3×3×256，1×1×256。A₅(I)中第i个特征图的第c个通道中的元素A₅(I)_ic为：

A₅(I)_ic＝A₁(I)_ic×s_ic

其中，i是A₅(I)中的第i个特征图的序号；

4.5.6 第二特征图相加模块从通道赋权模块接收A₅(I)，对A₅(I)中的6个特征图执行像素级别的相加，获得具有多尺度信息的第二全局特征图I₃，I₃的尺寸为10×10×256，将I₃发送给第二变形模块。

4.5.7 第二变形模块从第二特征图相加模块接收I₃，对I₃进行变形，方法是先对I₃进行两次并行插值操作，将I₃放大至38×38×256，19×19×256；再对I₃进行三次并行下采样操作，将I₃缩小至5×5×256，3×3×256，1×1×256；将I₃以及放缩后5个特征图构成变形后的特征图集合G(I)，将G(I)发送给特征融合模块。

4.6 特征融合模块从特征选择模块接收G(I)、从语义提升模块接收S(I)，将G(I)和S(I)相加，得到检测特征图集合D(I)，将D(I)发送给检测模块，D(I)包含的特征图尺寸分别为38×38×256，19×19×256，10×10×256，5×5×256，3×3×256，1×1×256。

4.7 检测模块从特征融合模块接收D(I)，利用分类网络获得预测目标的概率集合C(I)＝{c₁,c₂,c₃,…,c_e,…,c_E}，E为训练数据集图片中共包含的目标类别数；c_e＝{c_e2,c_e3,c_e4,…,c_ep,…,c_eP}，表示预测目标属于第e类的概率集合，c_ep表示属于第e类的预测目标中第ep个目标属于第e类的概率；利用定位网络获得预测目标的坐标值集合L(I)＝{l₁,l₂,l₃,…,l_e,…,l_E}，l_e＝{l_e2,l_e3,l_e4,…,l_ep,…,l_eP},表示预测目标属于第e个类别的坐标向量集合，

是坐标系中预测目标框左上角横坐标，

是预测目标框左上角纵坐标，

是预测目标框右下角横坐标，

是预测目标框右下角纵坐标。l_e和c_e中相同序号的元素对应相同的预测目标，然后利用非最大值抑制模块对L(I)和C(I)进行筛选，获得最终的目标检测结果。具体方法为：

4.7.1.分类网络接收D(I)，生成预测目标的类别概率C(I)＝{c₁,c₂,c₃,…,c_e,…,c_E}；

4.7.2.定位网络接收D(I)，生成预测目标的坐标值集合L(I)＝{l₁,l₂,l₃,…,l_e,…,l_E}；

4.7.3.利用非最大值抑制模块对L(I)和C(I)进行筛选：

4.7.3.1.初始化m＝1；

4.7.3.2.将c_m中的概率值按照降序排列；

4.7.3.3.将l_m中坐标值按照c_m的排序结果重新排列，保证属于同一个预测目标的类别概率和坐标值的元素序号相同；

4.7.3.4.初始化n＝1；

4.7.3.5.计算l_m(n+1)与l_mn的交并比。若交并比小于阈值t(0.7＜t＜0.9)，则删除l_m(n+1)对应的预测目标，转4.7.3.6；若交并比大于t，则保留l_m(n+1)对应的预测目标，转4.7.3.6；

4.7.3.6.若n＜eP，则令n＝n+1，转4.7.3.5；若n＝eP，转4.7.3.7；

4.7.3.7.若m＜E，则令m＝m+1，转4.7.3.2；若m＝E，转4.7.3.8；

4.7.3.8.收集C(I)中被保留的类别概率，收集L(I)中被保留的坐标值，作为目标检测系统最终的预测结果。

采用本发明可以达到以下技术效果：

1、本发明特征提取模块对输入的图像数据进行多尺度特征图的提取，语义提升模块丰富多尺度特征的语义信息，特征选择模块采用注意力模块增强不同尺度特征图中的有用信息、抑制无用信息，达到了增强信息的目的，使特征图中的信息更适用于图片的检测目标；

2、本发明特征融合模块将经过特征选择的全局语义特征图融合到多尺度特征图上，使多尺度特征图集合中的每个特征图都具有了更加准确的位置信息和语义信息，提高了目标检测的精度。

3、本发明在提高检测精度的同时没有丢失单阶段网络检测速度快的优点，仍然满足实时性要求。

附图说明

图1为本发明的整体流程图；

图2为本发明第一步构建的目标检测系统逻辑结构图；

图3为图2中的特征选择模块的逻辑结构图。

具体实施方式

图1是本发明的总体流程图。如图1所示，本发明包括以下步骤：

第一步：构建目标检测系统。该系统如图2所示，由特征提取模块、语义提升模块、特征选择模块、特征融合模块、检测模块组成。

特征提取模块为一个卷积神经网络，与语义提升模块相连。特征提取模块共包括23个卷积层，5个池化层，共28层。池化层分别为第3、6、10、14、18层，其他层均为卷积层。特征提取模块接收图像I，对图像I进行特征提取，得到多尺度特征图集合F(I)，将F(I)发送给语义提升模块。多尺度特征图集合包含六个尺度的特征图，六个尺度的特征图的尺寸分别为38×38×512，19×19×1024，10×10×512，5×5×256，3×3×256，1×1×256，分别由第13层、第21层、第23层、第25层、第27层、第28层输出给语义提升模块。其中，第13层、第21层、第23层、第25层、第27层特征既输出给语义提升模块，也输出给它们各自的下一层。

语义提升模块包含一个1×1卷积层和一个ReLU激活函数，与特征提取模块、特征选择模块、特征融合模块相连。语义提升模块的1×1卷积层从特征提取模块接收F(I)，对F(I)中的6个特征图逐张进行卷积操作，将F(I)中的6个特征图的第三个维度统一为256，得到S'(I)，将S'(I)发送给ReLU激活函数；ReLU激活函数从1×1卷积网络接收到S'(I)，对S'(I)进行激活操作，以提升特征的语义信息，得到S(I)，将S(I)输出给特征选择模块和特征融合模块。S(I)包含的特征图尺寸分别为38×38×256，19×19×256，10×10×256，5×5×256，3×3×256，1×1×256。

特征选择模块与语义提升模块、特征融合模块相连，对S(I)进行选择性地融合，得到全局特征图集合G(I)，将G(I)发送给特征融合模块。特征选择模块如图3所示，由第一变形模块、第一特征图相加模块、全局池化模块、非线性增加模块、特征生成模块(含6个注意力模块、归一化模块、通道赋权模块)、第二特征图相加模块、第二变形模块组成。

非线性增加模块包含一个全连接层和一个ReLU激活函数，与全局池化模块、特征生成模块相连，对A₃(I)采用全连接操作，得到包含16个元素的激活前向量A₄(I)'，将A₄(I)'发送给ReLU激活函数；ReLU激活函数从全连接层接收到A₄(I)'，对A₄(I)'进行激活操作，提升A₄(I)'的非线性，得到第二一维向量A₄(I)，A₄(I)中包含16个元素，将A₄(I)发送给特征生成模块。

特征生成模块和非线性增加模块、第二特征图相加模块相连。特征生成模块由6个注意力模块、1个归一化模块和1个通道赋权模块组成。6个注意力模块均为一层全连接层。

通道赋权模块和归一化模块、第一变形模块相连，对s₁,s₂,s₃,s₄,s₅,s₆与A₁(I)中对应的特征图分别执行通道级乘法操作，以获得A₁(I)中更符合检测目标尺度的特征图信息，得到6个经过赋权后的特征图，将这6个经过赋权后的特征图放到特征图集合A₅(I)中，将A₅(I)发送给第二特征图相加模块。

特征融合模块与特征选择模块、语义提升模块、检测模块相连，它从特征选择模块接收G(I)、从语义提升模块接收S(I)，将G(I)和S(I)中相同尺寸的特征图相加，得到用于检测的特征图集合D(I)。D(I)具有与G(I)和S(I)相同的尺寸，但融合了G(I)和S(I)的特征图信息，使得特征图包含的位置信息和语义信息得到了增强。

检测模块与特征融合模块相连，由分类网络、定位网络和非极大值抑制(NMS)模块组成。定位网络与特征融合模块、非极大值抑制模块相连，是一个卷积核大小为3×3、卷积核个数为k×E的卷积网络(其中k为图片上每个位置预定义框的数量，E为数据集中包含的目标类别数量)；定位网络从特征融合模块接收D(I)，对D(I)中的每一个特征图进行卷积操作，向非极大值抑制模块输出预测目标的坐标值(即预测框坐标值，包括左上和右下2个坐标，共4个值)；分类网络与特征融合模块、非极大值抑制模块相连，是一个卷积核大小为3×3、卷积核数量为k×4的卷积网络(其中4表示需要用4个坐标值表示一个预测目标的位置)，从特征融合模块接收D(I)，对D(I)中的每一个特征图进行卷积操作，向NMS模块输出预测目标的类别(即目标最属于某类的概率值)。非极大值抑制模块与分类网络和定位网络相连，采用非极大值抑制方法将重复预测的目标的坐标值和类别去除，获得目标最佳的预测框坐标值和预测类别。

第二步：准备目标检测系统的训练数据集。方法为：

选择PASCAL VOC 2007、PASCAL VOC 2012的训练集、验证集中的所有图片作为训练数据集，训练数据集图片中共包含E种目标类别，E为正整数。PASCAL VOC 2007、PASCAL VOC2012中给出训练数据集中第d(1≤d≤16551)张图片所包含的目标的类别以及位置向量g_d，

为包含四个值的一维向量，z表示一张图片中的第z个目标，

为目标区域矩形框的左上角的坐标值，

3.1 采用SSD中的初始化方法对特征提取模块的网络参数Φ₁进行初始化；采用Kaiming初始化方法对其余模块(即语义提升模块的网络参数Φ₂、特征选择模块的网络参数Φ₂、特征融合模块的网络参数Φ₃、检测模块的网络参数Φ₄)进行初始化。

3.2.2.4.初始化变量d＝1；

3.2.2.5.将训练数据集中的第d张至第(d+batchsize)张图片输入到目标检测系统中，使用随机梯度下降算法(SGD)使损失函数最小化，以更新目标检测系统中各模块的网络参数。所述损失函数采用SSD中的损失函数作为训练的损失函数，形式为：

其中L为总损失函数，L_loc为位置预测损失函数，通过计算预测框和真实框之间的Smooth L1损失函数获得，L_conf为类别预测损失函数，通过计算预测类别和真实类别之间的Softmax损失函数获得，N为训练数据集中图片的预测目标的坐标框与真实框匹配的样本数量，即训练数据集中所有IOU大于0.5的样本数量，也即：

的样本数量。

3.2.2.6.若d+2*batchsize＜16551，令d＝d+batchsize，转3.2.2.2；若d+2*batchsize≥16551，转3.2.3。

第四步：利用目标检测系统进行目标检测，方法是：

4.1 通过相机获得需要检测的图像I；

4.3 特征提取模块对被检测图像I进行特征提取，得到多尺度特征图集合F(I)，F(I)中包含6张图，尺寸分别为38×38×512，19×19×1024，10×10×512，5×5×256，3×3×256，1×1×256。

4.4 语义提升模块从特征提取模块接收F(I)，对F(I)中的特征图逐张进行卷积操作，提升特征图中包含的语义信息，得到S(I)，S(I)包含的特征图尺寸分别为38×38×256，19×19×256，10×10×256，5×5×256，3×3×256，1×1×256。

4.5 特征选择模块为S(I)中的每一个通道的特征图学习一个权重系数，对S(I)进行信息增强，以增强S(I)中的有用信息、抑制无用信息，并通过加法运算和放缩，获得具有全局语义的特征图集合G(I)。通过把S(I)中6个特征图相加，得到第二全局特征图，既具有准确的位置信息，又有丰富的语义信息。具体方法为：

4.5.3 全局池化模块从第一特征图相加模块接收I₂，对I₂进行全局池化操作，得到A₃(I)，A₃(I)的为包含256个元素的第一一维向量，将A₃(I)发送给非线性增加模块。A₃(I)中共有256个元素，第c(1≤c≤256)个元素A₃(I)_c为：

4.5.5.3 通道赋权模块从归一化模块接收s₁,s₂,s₃,s₄,s₅,s₆、从第一变形模块接收A₁(I)，对s₁,s₂,s₃,s₄,s₅,s₆和A₁(I)中对应的特征图进行通道级乘法操作，得到特征图集合A₅(I)，将A₅(I)发送给第二特征图相加模块。A₅(I)包含的特征图尺寸分别为38×38×256，19×19×256，10×10×256，5×5×256，3×3×256，1×1×256。A₅(I)中第i个特征图的第c个通道中的元素A₅(I)_ic为：

A₅(I)_ic＝A₁(I)_ic×s_ic

其中，i是A₅(I)中的第i个特征图的序号；

是坐标系中预测目标框左上角横坐标，

是预测目标框左上角纵坐标，

是预测目标框右下角横坐标，

4.7.3.利用非最大值抑制模块对L(I)和C(I)进行筛选：

4.7.3.1.初始化m＝1；

4.7.3.2.将c_m中的概率值按照降序排列；

4.7.3.4.初始化n＝1；

4.7.3.6.若n＜eP，则令n＝n+1，转4.7.3.5；若n＝eP，转4.7.3.7；

4.7.3.7.若m＜E，则令m＝m+1，转4.7.3.2；若m＝E，转4.7.3.8；

目标识别领域采用平均精度均值mAP(mean average precision)来表示检测的准确性能，表示m个类别平均精度AP的平均值，mAP越大表示检测的效果越好。每个类别的AP指标综合考虑了查全率(recall)和查准率(precision)，能够全面地评测目标检测方法的性能。其中，查准率用来表示被正确检测的目标数与被检测到的目标总数之比，查全率用来表示被正确检测的目标数与应当被检测到的目标数之比。

检测速度用FPS(frames per second)来衡量，表示每秒检测的帧数，FPS越大表示检测速度越快。

表1给出了本发明与经典单阶段目标检测方法SSD方法在目标检测数据集PASCALVOC2007测试集上的对比结果。

表1本发明与经典SSD方法在VOC数据集的测试集上的检测精度对比

表1中第一行是VOC 2007数据集的测试数据集图片中包含的类别，第二行是SSD方法对于每种类别的检测精度，第三行是本发明的检测精度，加粗字体标识每种类别的最高精度。从表1中可以看出，在20种类别中的19种类别上，本发明的检测精度高于SSD方法的检测精度，尤其在“飞机”类别上提升了5％的检测精度，在“瓶子”类别上提升了5.7％的检测精度，在“牛”类别上提升了4.4％的精测精度，说明本发明明显提升了对于较小目标的检测精度。

表2给出了本发明与经典单阶段目标检测方法SSD方法、FPN方法和Libra r-cnn方法在目标检测数据集ASCAL VOC 2007测试集上的检测精度和运行速度对比。

表2本发明与不同特征增强方、SSD方法在VOC数据集的测试机上的检测精度对比

方法	mAP(％)	FPS
			SSD	77.5	106.4
FPN	78.3	94
			Libra r-cnn	79.3	99
本发明	79.9	98

从表2中可以看出，本发明的信息增强方法优于FPN方法和Libra r-cnn方法，同时比经典单阶段目标检测方法的检测精度提高了2.4％。同时，在1080Ti显卡上测试了检测的速度，经典SSD算法的检测速度为106.4FPS，本方法的检测速度为98FPS。说明本方法在提升目标检测精度的同时，保持了检测的速度。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，熟悉该本领域的技术人员应该明白本发明包括但不限于附图和上面具体实施方式中描述的内容。任何不偏离本发明的功能和结构原理的修改都将包括在权利要求书的范围中。

Claims

1.一种基于信息增强的目标检测方法，其特征在于包括以下步骤：

第一步：构建目标检测系统，目标检测系统由特征提取模块、语义提升模块、特征选择模块、特征融合模块、检测模块组成；

特征提取模块为一个卷积神经网络，与语义提升模块相连；特征提取模块接收图像I，对图像I进行特征提取，得到多尺度特征图集合F(I)，将F(I)发送给语义提升模块；

语义提升模块包含一个1×1卷积层和一个ReLU激活函数，与特征提取模块、特征选择模块、特征融合模块相连；语义提升模块的1×1卷积层从特征提取模块接收F(I)，对F(I)中的特征图逐张进行卷积操作，得到S'(I)，将S'(I)发送给ReLU激活函数；ReLU激活函数对S'(I)进行激活操作，得到S(I)，将S(I)输出给特征选择模块和特征融合模块；

特征选择模块与语义提升模块、特征融合模块相连，对S(I)进行选择性地融合，得到全局特征图集合G(I)，将G(I)发送给特征融合模块；特征选择模块由第一变形模块、第一特征图相加模块、全局池化模块、非线性增加模块、特征生成模块、第二特征图相加模块、第二变形模块组成；特征生成模块由6个注意力模块、归一化模块、通道赋权模块组成；

第一变形模块与语义提升模块和第一特征图相加模块相连，统一S(I)中特征图的尺寸，得到A₁(I)，将A₁(I)发送给第一特征图相加模块；

第一特征图相加模块与第一变形模块和全局池化模块连接，对A₁(I)中的六个特征图执行加法操作，获得第一全局特征图I₂，将I₂发送给全局池化模块；

全局池化模块和第一特征图相加模块和非线性增加模块相连，对I₂进行全局池化操作，获得第一一维向量A₃(I)，将A₃(I)发送给非线性增加模块；

非线性增加模块包含一个全连接层和一个ReLU激活函数，与全局池化模块、特征生成模块相连，全连接层对A₃(I)进行全连接操作，得到激活前向量A₄(I)'，将A₄(I)'发送给ReLU激活函数；ReLU激活函数从全连接层接收到A₄(I)'，对A₄(I)'进行激活操作，得到第二一维向量A₄(I)，将A₄(I)发送给特征生成模块；

特征生成模块和非线性增加模块、第二特征图相加模块相连；特征生成模块由6个注意力模块、1个归一化模块和1个通道赋权模块组成；6个注意力模块均为一层全连接层；

6个注意力模块均与非线性增加模块和归一化模块相连，6个注意力模块并行地对A₄(I)进行全连接操作，分别得到S(I)中6个特征图的权重系数，用w₁,w₂,w₃,w₄,w₅,w₆表示，w_i为S(I)中第i个特征图的权重系数，1≤i≤6；6个注意力模块分别将w₁,w₂,w₃,w₄,w₅,w₆发送给归一化模块；归一化模块与6个注意力模块、通道赋权模块相连，对w₁,w₂,w₃,w₄,w₅,w₆的256个元素进行归一化，得到归一化后的权重系数s₁,s₂,s₃,s₄,s₅,s₆，将s₁,s₂,s₃,s₄,s₅,s₆，发送给通道赋权模块；

通道赋权模块和归一化模块、第一变形模块相连，对S中的s₁,s₂,s₃,s₄,s₅,s₆与A₁(I)中对应的特征图分别执行通道级乘法操作，得到6个经过赋权后的特征图，将这6个经过赋权后的特征图放到特征图集合A₅(I)中，将A₅(I)发送给第二特征图相加模块；

第二特征图相加模块与通道赋权模块、第二变形模块相连，对A₅(I)中的6个特征图执行加法操作，获得第二全局特征图I₃，将I₃发送给第二变形模块；

第二变形模块与第二特征图相加模块、特征融合模块相连；第二变形模块对I₃进行变形，得到变形后的特征图集合G(I)，将G(I)发送给特征融合模块；

特征融合模块与特征选择模块、语义提升模块、检测模块相连，它从特征选择模块接收G(I)、从语义提升模块接收S(I)，将G(I)和S(I)中相同尺寸的特征图相加，得到用于检测的特征图集合D(I)；

检测模块与特征融合模块相连，由分类网络、定位网络和非极大值抑制模块即NMS模块组成；定位网络与特征融合模块、非极大值抑制模块相连，定位网络从特征融合模块接收D(I)，对D(I)中的每一个特征图进行卷积操作，向非极大值抑制模块输出预测目标的坐标值；分类网络与特征融合模块、非极大值抑制模块相连，从特征融合模块接收D(I)，对D(I)中的每一个特征图进行卷积操作，向NMS模块输出预测目标的类别；非极大值抑制模块与分类网络和定位网络相连，将重复预测的目标的坐标值和类别去除，获得目标最佳的预测框坐标值和预测类别；

第二步：准备目标检测系统的训练数据集，方法为：

选择PASCAL VOC 2007、PASCAL VOC 2012的训练集、验证集中的所有图片作为训练数据集，训练数据集图片中共包含E种目标类别，E为正整数；对于训练数据集中的第d张图片，1≤d≤16551，PASCAL VOC 2007、PASCAL VOC 2012中给出了第d张图片所包含的目标的类别以及位置向量g_d，

为包含四个值的一维向量，z表示一张图片中的第z个目标，

为目标区域矩形框的左上角的坐标值，

为目标区域举行框的右下角的坐标值，四个坐标值均为标量，四个值表示出一个矩形的目标区域；

3.1对特征提取模块的网络参数Φ₁、语义提升模块的网络参数Φ₂、特征选择模块的网络参数Φ₂、特征融合模块的网络参数Φ₃、检测模块的网络参数Φ₄进行初始化；

3.2将训练数据集中的图片依次输入到目标检测系统中，对目标检测系统进行训练，拟合得到目标检测系统的网络参数；

第四步：利用目标检测系统进行目标检测，方法是：

4.1通过相机获得需要检测的图像I；

4.2将训练得到的目标检测系统的网络参数载入到目标检测系统中；

4.3特征提取模块对被检测图像I进行特征提取，得到多尺度特征图集合F(I)，F(I)中包含6张图，尺寸分别为38×38×512，19×19×1024，10×10×512，5×5×256，3×3×256，1×1×256；

4.4语义提升模块的1×1卷积层从特征提取模块接收F(I)，对F(I)中的特征图逐张进行卷积操作，将F(I)中的6个特征图的第三个维度统一为256，得到S'(I)，将S'(I)发送给ReLU激活函数；ReLU激活函数从1×1卷积网络接收到S'(I)，对S'(I)进行激活操作，提升特征的语义信息，得到语言提升特征图集合S(I)，将S(I)输出给特征选择模块和特征融合模块；S(I)包含的特征图尺寸分别为38×38×256，19×19×256，10×10×256，5×5×256，3×3×256，1×1×256；

4.5特征选择模块为S(I)中的每一个通道的特征图学习一个权重系数，对S(I)进行信息增强，即增强S(I)中的有用信息、抑制无用信息，并通过加法运算和放缩，获得全局语义特征图集合G(I)；具体方法为：

4.5.1第一变形模块从语义提升模块接收S(I)，对S(I)中的特征图统一尺寸，得到A₁(I)，A₁(I)包含的6个特征图尺寸都为10×10×256；

4.5.2第一特征图相加模块从第一变形模块接收A₁(I)，对A₁(I)中的6个特征图执行像素级别的加法运算，获得尺寸为10×10×256的第一全局特征图I₂，将I₂发送给全局池化模块；

4.5.3全局池化模块从第一特征图相加模块接收I₂，对I₂进行全局池化操作，得到第一一维向量A₃(I)，将A₃(I)发送给非线性增加模块；A₃(I)中共有256个元素，第c个元素即全局特征图I₂中第c个通道经过全局平均池化后的值A₃(I)_c为：

H、W表示I₂的长和宽，a、b表示第c个通道中像素点的坐标，1≤a≤H,1≤b≤W，1≤c≤256；

4.5.4非线性增加模块从全局池化模块接收A₃(I)，非线性增加模块的全连接层对A₃(I)进行全连接操作，得到包含16个元素的激活前向量A₄(I)'，将A₄(I)'发送给ReLU激活函数；ReLU激活函数从全连接层接收A₄(I)'，对A₄(I)'进行激活操作，提升A₄(I)'的非线性，得到包含16个元素的第二一维向量A₄(I)，将A₄(I)发送给特征生成模块；

4.5.5特征生成模块通过6个注意力模块、归一化模块和通道赋权模块生成S(I)中每个特征图中的每个通道对应的权重参数，并对每个通道的像素进行赋权操作，获得S(I)中更符合检测目标尺度的特征图信息；具体方法为：

4.5.5.1 6个注意力模块从非线性增加模块分别接收A₄(I)，并行地对A₄(I)进行全连接操作，分别得到6个包含256个元素的一维向量，即w₁,w₂,w₃,w₄,w₅,w₆，w_i为S(I)中第i个特征图的权重系数；6个注意力模块分别将w₁,w₂,w₃,w₄,w₅,w₆发送给归一化模块；

4.5.5.2归一化模块从6个注意力模块分别接收w₁,w₂,w₃,w₄,w₅,w₆，对w₁,w₂,w₃,w₄,w₅,w₆采用softmax进行归一化操作，得到包含256个元素的权重系数s₁,s₂,s₃,s₄,s₅,s₆，将s₁,s₂,s₃,s₄,s₅,s₆发送给通道赋权模块；s_i中的第c个元素s_ic为：

4.5.5.3通道赋权模块从归一化模块接收s₁,s₂,s₃,s₄,s₅,s₆、从第一变形模块接收A₁(I)，对s₁,s₂,s₃,s₄,s₅,s₆和A₁(I)中对应的特征图进行通道级乘法操作，得到6个经过赋权后的特征图，将这6个经过赋权后的特征图放到特征图集合A₅(I)，将A₅(I)发送给第二特征图相加模块；A₅(I)包含的特征图尺寸分别为38×38×256，19×19×256，10×10×256，5×5×256，3×3×256，1×1×256；A₅(I)中第i个特征图的第c个通道中的元素A₅(I)_ic为：

A₅(I)_ic＝A₁(I)_ic×s_ic；

4.5.6第二特征图相加模块从通道赋权模块接收A₅(I)，对A₅(I)中的6个特征图执行像素级别的相加，获得具有多尺度信息的第二全局特征图I₃，I₃的尺寸为10×10×256，将I₃发送给第二变形模块；

4.5.7第二变形模块从第二特征图相加模块接收I₃，先对I₃进行两次并行插值操作，将I₃放大至38×38×256，19×19×256；再对I₃进行三次并行下采样操作，将I₃缩小至5×5×256，3×3×256，1×1×256；将I₃以及放缩后5个特征图构成变形后的特征图集合G(I)，将G(I)发送给特征融合模块；

4.6特征融合模块从特征选择模块接收G(I)、从语义提升模块接收S(I)，将G(I)和S(I)相加，得到检测特征图集合D(I)，将D(I)发送给检测模块，D(I)包含的特征图尺寸分别为38×38×256，19×19×256，10×10×256，5×5×256，3×3×256，1×1×256；

4.7检测模块从特征融合模块接收D(I)，利用分类网络获得预测目标的概率集合C(I)＝{c₁,c₂,c₃,…,c_e,…,c_E}，E为训练数据集图片中共包含的目标类别数，c_e＝{c_e2,c_e3,c_e4,…,c_ep,…,c_eP}，表示预测目标属于第e类的概率集合，c_ep表示属于第e类的预测目标中第ep个目标属于第e类的概率；利用定位网络获得预测目标的坐标值集合L(I)＝{l₁,l₂,l₃,…,l_e,…,l_E}，l_e＝{l_e2,l_e3,l_e4,…,l_ep,…,l_eP},表示预测目标属于第e个类别的坐标向量集合，

是坐标系中预测目标框左上角横坐标，

是预测目标框左上角纵坐标，

是预测目标框右下角横坐标，

是预测目标框右下角纵坐标；l_e和c_e中相同序号的元素对应相同的预测目标，然后利用非最大值抑制模块对L(I)和C(I)进行筛选，获得最终的目标检测结果；具体方法为：

4.7.3.利用非最大值抑制模块对L(I)和C(I)进行筛选：

4.7.3.1.初始化m＝1；

4.7.3.2.将c_m中的概率值按照降序排列；

4.7.3.4.初始化n＝1；

4.7.3.5.计算l_m(n+1)与l_mn的交并比；若交并比小于阈值t，删除l_m(n+1)对应的预测目标，转

4.7.3.6；若交并比大于t，则保留l_m(n+1)对应的预测目标，转4.7.3.6；

4.7.3.6.若n＜eP，则令n＝n+1，转4.7.3.5；若n＝eP，转4.7.3.7；

4.7.3.7.若m＜E，则令m＝m+1，转4.7.3.2；若m＝E，转4.7.3.8；

2.如权利要求1所述的一种基于信息增强的目标检测方法，其特征在于所述特征提取模块共包括23个卷积层，5个池化层，共28层；池化层分别为第3、6、10、14、18层，其他层均为卷积层；第13层将尺寸为38×38×512的特征图输出给语义提升模块和第14层；第21层将尺寸为19×19×1024的特征图输出给语义提升模块和第22层；第23层将尺寸为10×10×512的特征图输出给语义提升模块和第24层；第25层将尺寸为5×5×256的特征图输出给语义提升模块和第26层；第27层将尺寸为3×3×256的特征图输出给语义提升模块和第28层；第28层将尺寸为1×1×256的特征图输出给语义提升模块。

3.如权利要求1所述的一种基于信息增强的目标检测方法，其特征在于所述定位网络是一个卷积核大小为3×3、卷积核个数为k×E的卷积网络，k为图片上每个位置预定义框的数量，E为训练数据集中包含的目标类别数量。

4.如权利要求1所述的一种基于信息增强的目标检测方法，其特征在于所述分类网络是一个卷积核大小为3×3、卷积核数量为k×4的卷积网络，k为图片上每个位置预定义框的数量。

5.如权利要求1所述的一种基于信息增强的目标检测方法，其特征在于所述3.1步对特征提取模块的网络参数Φ₁进行初始化的方法是SSD中的初始化方法；对语义提升模块的网络参数Φ₂、特征选择模块的网络参数Φ₂、特征融合模块的网络参数Φ₃、检测模块的网络参数Φ₄进行初始化的方法是Kaiming初始化方法。

6.如权利要求1所述的一种基于信息增强的目标检测方法，其特征在于3.2步所述对目标检测系统进行训练，拟合得到目标检测系统参数的具体方法是：

3.2.1初始化迭代次数epoch＝1；初始化批处理大小batchsize＝32；初始化学习率lr＝4*10^-3；

3.2.2采用训练数据集中的图片对目标检测系统进行训练，具体步骤为：

3.2.2.1.初始化变量d＝1；

3.2.2.2.将训练数据集中的第d张至第d+batchsize张图片输入到目标检测系统中，使用随机梯度下降算法SGD使损失函数最小化，以更新目标检测系统中各模块的网络参数；

3.2.2.3.若d+2*batchsize＜16551，令d＝d+batchsize，转3.2.2.2；若d+2*batchsize≥16551，转3.2.3；

3.2.3若epoch<160，令epoch＝epoch+1，转3.2.2；若epoch＝160，令lr＝lr*0.1，令epoch＝epoch+1，转3.2.2；若160<epoch≤250，令epoch＝epoch+1，转3.2.2；若epoch＞250，转3.2.4；

3.2.4将各个模块更新所得的参数作为最终的目标检测系统的网络参数。

7.如权利要求6所述的一种基于信息增强的目标检测方法，其特征在于所述训练的损失函数采用SSD中的损失函数，形式为：

的样本数量；

8.如权利要求1所述的一种基于信息增强的目标检测方法，其特征在于4.5.1步所述第一变形模块对S(I)中的特征图统一尺寸的方法是：采用下采样方法将S(I)中的38×38×256，19×19×256特征图的前两个维度缩小至10×10×256；采用插值方法将S(I)中的5×5×256，3×3×256，1×1×256特征图的前两个维度放大，得到3个10×10×256的特征图，对S(I)中原有的10×10×256特征图不作处理；将尺寸统一后的6个特征图放到集合A₁(I)中。

9.如权利要求1所述的一种基于信息增强的目标检测方法，其特征在于4.5.7步所述第二变形模块对I₃进行变形的方法是：先对I₃进行两次并行插值操作，将I₃放大至38×38×256，19×19×256；再对I₃进行三次并行下采样操作，将I₃缩小至5×5×256，3×3×256，1×1×256；将I₃以及放缩后5个特征图构成变形后的特征图集合G(I)。

10.如权利要求1所述的一种基于信息增强的目标检测方法，其特征在于所述阈值t满足0.7＜t＜0.9。