CN112906718B

CN112906718B - 一种基于卷积神经网络的多目标检测方法

Info

Publication number: CN112906718B
Application number: CN202110252770.5A
Authority: CN
Inventors: 肖嵩; 张兆琦; 杨子轩; 杨翌晗; 张同振; 董文倩; 曲家慧
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-03-09
Filing date: 2021-03-09
Publication date: 2023-08-22
Anticipated expiration: 2041-03-09
Also published as: CN112906718A

Abstract

本发明公开了一种基于卷积神经网络的多目标检测方法。主要解决了现有实时目标检测方法对小目标检测精度不足的技术问题。其实现方案包括：获取待检测目标的图像数据；将图像数据通过卷积神经网络分析获得多层特征图；将多层特征图通过特征融合网络进行融合，学习不同感受野分支的重要程度后，再将高层全局语义信息和底层局部细节信息融合输出，获得第三融合特征图；最后将第三融合特征图根据预设尺度生成候选框，利用候选框分析处理获得目标检测结果，实现多目标检测。本发明通过融合多层特征图的信息加强特征之间信息相关性，能够有效提高多目标检测的准确度。

Description

一种基于卷积神经网络的多目标检测方法

技术领域

本发明涉及人工智能技术领域，具体涉及一种基于卷积神经网络的多目标检测方法。

背景技术

自从深度学习发展以来，计算机视觉逐渐成为国内外非常热门的研究方向。所谓计算机视觉，即是让计算机拥有类似人类的视觉，能够“看到”外界的信息，拥有人类对信息的处理能力，包括图像分类、目标检测、目标跟踪和图像分割等任务，其中目标检测是其中的基础一环，对后续的目标跟踪等任务具有至关重要的作用。多目标检测的任务是将一张图像中感兴趣的所有目标用包围框标注出来，并获取该目标的类别信息。

近年来，随着视频监控系统的迅猛发展和普及应用，图像、视频数据量急剧增长，如何对采集到的图像、视频数据实现实时检测成为研究的热点。

目前主流的目标检测算法分为双阶段、单阶段和anchor-free的算法。双阶段算法在检测网络之前包括两个步骤，特征提取网络和一个额外的卷积神经网络称为区域建议网络RPN，RPN用来生成只包含预测目标的候选框，然后将预测框送入后面的检测网络进行目标的定位和识别，这类方法以faster-RCNN系列为代表，需要通过额外的区域建议网络去生成高质量的预测框。单阶段的检测算法是一种基于回归方法的算法，直接在网络中提取特征通过预设的anchor来预测物体类别和位置，不需要产生候选区域。所以，双阶段的目标检测算法和单阶段的目标检测算法的主要差别在于是否使用候选区域生成网络。通常使用候选区域生成网络的双阶段模型的准确度比较高，但是相对来讲单阶段的算法在单个图像的检测任务中处理的速度更快，单阶段方法的代表是yolo系列以及SSD系列。近年来anchor-free的方法也逐渐成为新的研究方向，比如cornerNET等方法通过预测框的角点来检测目标，但是这类方法的检测速度相较单阶段方法还是较慢。所以在本发明中选择yolo系列方法作为基础框架，yolo是一种基于anchor的端到端的多目标检测算法，该算法在拥有较高的检测精度的同时也具有很好的实时性。最新的yolov5可以通过参数灵活控制卷积神经网络的深度和宽度。yolo算法虽然速度很快，但是利用卷积神经网络提取特征时，随着网络深度不断加深，提取到的特征更多是语义信息，而空间信息很少，导致小目标特征难以被学习，使得算法整体准确度下降。

发明内容

本发明目的在于针对上述现有技术的不足，提出一种基于卷积神经网络的多目标检测方法，用于解决现有实时目标检测方法对小目标检测精度不足的技术问题。首先获取待检测目标的图像数据；将图像数据通过卷积神经网络分析获得多层特征图；然后将多层特征图通过特征融合网络进行融合，学习不同感受野分支的重要程度后，再将高层全局语义信息和底层局部细节信息融合输出，获得第三融合特征图；最后将第三融合特征图根据预设尺度生成候选框，利用候选框分析处理获得目标检测结果。本发明通过融合多层特征图的信息加强特征之间信息相关性，能够有效提高多目标检测的准确度，实现多目标检测。

本发明实现上述目的具体步骤如下：

(1)获取待检测目标的图像数据；

(2)将yolov5检测框架中的CSPDarknet53网络作为提取特征的卷积神经网络；

(3)利用卷积神经网络从图像数据中进行特征提取，输出多层特征图；

(4)将特征图中的信息进行融合，获得第三融合特征图：

(4.1)在每层特征图分别提取不同尺度感受野的特征并融合输出，得到第一融合特征图；

(4.2)将每层的第一融合特征图与其下一层的第一融合特征图再次进行融合，得到第二融合特征图；

(4.3)通过注意力机制将每层的第一融合特征图加权融合至第二融合特征图，获得第三融合特征图；

(5)根据预设的anchor参数在第三融合特征图上生成候选框，利用全卷积层对候选框进行回归和分类，得到目标的位置信息、分类分数和置信度分数，完成目标检测。

本发明与现有技术相比具有以下优点：

第一、本发明通过学习不同感受野分支的重要程度融合特征图，并进一步通过高层全局语义信息与底层局部细节相融合加强语义信息和空间信息的相关性，从而能够更好的融合特征，提高算法精度；

第二、由于本发明采用焦点损失函数结合TOU信息作为分类损失函数，使检测网络可以给容易区分的样本添加较小权重、给难以区分的样本添加较大权重，有效提升了目标检测结果的准确率。

附图说明

图1为本发明方法的实现流程图；

图2为本发明的门控空间金字塔空洞卷积网络结构示意图；

图3为本发明中门控机制的网络示意图；

图4为本发明中注意力机制的网络示意图；

图5为本发明的特征融合网络示意图；

图6为根据本发明方法检测原理搭建的检测系统示意图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例对本发明做进一步的描述。

实施例1：

参照附图1，本发明提出的一种基于卷积神经网络的多目标检测方法，包括如下步骤：

步骤S1：获取待检测目标的图像数据；

本发明实施例将多目标检测方法应用到工业相机接口图像采集平台上，利用工业相机采集图像数据实现多目标检测，使得应用范围和环境更加广泛。

步骤S2：提取图像数据获得多层特征图。

本发明实施例选取yolov5检测框架作为改进的基准模型，工业相机获取图像数据后，将图像数据进行随机缩放、随机裁剪、随机排布等方式进行拼接，丰富检测数据集。

利用yolov5检测框架中的主干网络，将yolov5检测框架中的CSPDarknet53网络作为提取特征的卷积神经网络；利用卷积神经网络从图像数据中进行特征提取，输出多层特征图。由于yolov5主干网络结构为公知技术在此不多赘述。每层特征图包含的信息具有差异，高层特征拥有更多的用于分类的全局语义信息，底层特征拥有更多的用于定位的局部细节信息。

步骤S3：将特征图中的信息进行融合，获得第三融合特征图：

卷积神经网络获得的多个特征图拥有不同尺度的感受野，首先在每层特征图分别提取不同尺度感受野的特征，学习不同尺度感受野分支的重要程度并将其融合输出，获得图像数据更加细粒度的第一融合特征图；然后将每层的第一融合特征图与其下一层的第一融合特征图再次进行融合，得到第二融合特征图；最后通过注意力机制将每层的第一融合特征图加权融合至第二融合特征图，获得第三融合特征图，将高层的全局语义信息通过注意力机制映射到低层特征上，用来引导高层与低层之间的特征融合，加强了语义信息与空间信息的相关性。

优选的，本本发明实施例分别将不同尺度的特征图输入进不同扩张率的空洞卷积支路和门控机制中，将各支路空洞卷积输出的结果分别与门控机制输出的结果相乘，并连接相乘结果，调整网络输出通道后输出第一特征图。上述门控机制用于对输入数据进行全局平均池化处理，然后将单元输出通道数量调整为与空洞卷积支路数量相等，输出空洞卷积支路的权重系数。

步骤S4：将第三融合特征图根据预设尺度生成候选框，即根据预设的anchor参数在第三融合特征图上生成候选框，利用全卷积层对候选框进行回归和分类，得到目标的位置信息、分类分数和置信度分数，完成目标检测。本实施例根据特征融合网络输出的三个输出结果，根据预设尺度生成候选框，将候选框送入检测网络对候选框分析处理进行目标检测，获得目标检测结果。

实施例2：

基于实施例1步骤S3，本发明实施例提供了一种门控空间金字塔空洞卷积网络，其结构如图2所示，包括：输入层101、门控机制102、第一卷积103、第二卷积104、第三卷积105、第四卷积106、连接单元107、第五卷积108和输出层109。

输入层101将特征图分别输入至门控机制102、第一卷积103、第二卷积104、第三卷积105和第四卷积106中。将四个卷积的输出分别与门控机制102的输出相乘，然后将相乘结果通过连接单元107连接起来。第五卷积108目的在于调整输出通道数，使连接单元107的输出结果按照相应通道从输出层109输出第一融合特征图。在本实施例中，第一卷积103和第五卷积108的卷积核大小为1×1。第二卷积104、第三卷积105和第四卷积106的卷积核大小都为3×3的空洞卷积，扩张率分别为1,2,3。

上述门控机制处理方法包括：将输入数据进行全局平均池化处理，调整单元输出通道数量与空洞卷积数量相等，按照单元输出通道输出结果，即输出空洞卷积支路的权重系数。参照图3，门控机制的网络示意图，其包括：第一全局池化层201、第六卷积202和门控输出层203。门控机制102接收到输入数据后利用第一全局池化层201对特征图进行全局平均池化处理，然后经过第六卷积202处理将通道数量压缩至4个，最后利用门控输出层203的激活函数按通道数量输出。在本实施例中，第六卷积202的卷积核的大小为1×1，第一激活函数采用Hardswish函数。

实施例3：

基于实施例1步骤S3，在获得第二融合特征图后，本发明引入了注意力机制；参照图4，注意力机制网络包括：第二全局池化层301、第七卷积302、第二激活函数303、第八卷积304和第三激活函数305。输入数据经过第二全局池化层301进行全局平均池化，然后通过第七卷积302进行通道压缩，利用第二激活函数303激活后经过第八卷积304恢复通道数，最后利用第三激活函数305生成最终通道权重，输出结果。在本实施例中，第七卷积302和第八卷积304为大小1×1的逐点卷积，第二激活函数采用Hardswish函数，第三激活函数采用sigmod激活函数。

实施例4：

基于实施例2参和3，本发明将门控空间金字塔空洞卷积网络和注意力机制相结合得到的特征融合网络如图5所示；

特征融合网络将卷积神经网络输出的多层特征按照特征包含的信息分为低层特征401、中层特征404和高层特征412三种。低层特征401输入进第一门控空间金字塔空洞卷积网络402进行处理，获得更加细粒度的特征信息，处理结果作为第九卷积403、第一注意力机制410和第四连接层425的输入。输入第九卷积403的数据经过上采样操作将数据尺寸放大送入第一连接层406，与经过第二门控空间金字塔空洞卷积网络405处理后的中层特征404相连接获得中层的第二融合特征图，然后通过第一瓶颈层407输出，送入第十卷积408。第一注意力机制410将处理后的数据与第十卷积408的输出结果通过第一乘法模块409相乘再和第十卷积408的输出结果通过第一加法模块411相加，进行两层信息的融合。第一加法模块411的相加结果通过上采样将数据放大后，与经过第三门控空间金字塔空洞卷积网络413处理的高层特征412通过第二连接层414相连接完成特征层的融合即得到高层的第二融合特征图。第二连接层414将连接结果通过第二瓶颈层415处理后输出，输出结果为高层特征融合特征418，将高层特征融合特征418通过第十一卷积416进行下采样处理将数据信息降维。第一加法模块411的相加结果通过第二注意力机制417处理后与第十一卷积416处理后的下采样结果通过第二乘法模块419相乘。第二乘法模块419的输出与第十一卷积416处理后的下采样结果通过第二加法模块420相加。第二加法模块420的相加结果与第十卷积408的输出结果通过第三连接层421连接，进行语义信息的融合。第三连接层421的连接结果通过第三瓶颈层422处理后输出，输出结果为中层特征融合特征423。中层特征融合特征423通过第十二卷积424处理与第一门控金字塔空间卷积网络处理过的小目标通过第四连接层425相连接。第四连接层425的连接结果通过第四瓶颈层426处理后输出低层特征融合特征427。低层特征融合特征427、中层特征融合特征423和高层特征融合特征418即为第三融合特征图。在本实施例中，第九卷积403和第十卷积408的卷积核大小为1×1。第十一卷积416和第十二卷积424的卷积核大小为3×3/2。

实施例5：

本发明提出的一种基于卷积神经网络的多目标检测方法同实施例1-4，此外，这里参照图6，提供一种根据本发明方法检测原理搭建的检测系统，包括：图像获取模块501、特征提取模块502、特征融合模块503和检测模块504。

图像获取模块501用于获取待检测目标的图像数据。

特征提取模块502用于提取图像数据获得多层特征图。

特征融合模块503用于将每层特征图分别提取不同尺度感受野的特征并融合输出，得到第一融合特征图。以上一层的第一融合特征图和下一层的第一融合特征图进行融合得到第二融合特征图，并通过注意力机制将上一层的第一融合特征图加权融合至第二融合特征图，获得第三融合特征图。

检测模块504用于将第三融合特征图根据预设尺度生成候选框，对候选框分析处理获得目标检测结果。

优选的，特征融合模块503还包括第一融合特征图获取模块。第一融合特征图获取模块用于将图像数据输入进多个不同扩张率的空洞卷积和门控机制中。将空洞卷积输出的结果分别与门控机制输出的结果相乘，然后将相乘结果连接起来，调整网络输出通道后输出第一特征图。

特征融合模块503还包括注意力机制模块。注意力机制模块用于将注意力机制输入数据经过全局池化处理。对处理后的数据输出通道压缩。将数据激活后恢复通道数。生成最终通道权重并输出。

综上所述，本发明提供了一种基于卷积神经网络的多目标检测方法。通过卷积神经网络分析图像数据获得多层特征图。将特征图通过特征融合网络进行融合，学习不同感受野分支的重要程度并融合输出，将高层全局语义信息与底层局部细节信息融合获得融合后的第三融合特征图。将第三融合特征图根据预设尺度生成候选框，根据候选框分析处理获得目标检测结果，实现多目标检测。

上述各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

本发明未详细说明部分属于本领域技术人员公知常识。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，显然对于本领域的专业人员来说，在了解了本发明内容和原理后，都可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修正和改变，但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims

1.一种基于卷积神经网络的多目标检测方法，其特征在于，包括如下步骤：

(1)获取待检测目标的图像数据；

(4)将特征图中的信息进行融合，获得第三融合特征图：

(4.1)在每层特征图分别提取不同尺度感受野的特征并融合输出，得到第一融合特征图，具体是：分别将不同尺度的特征图输入进不同扩张率的空洞卷积支路和门控机制中，将各支路空洞卷积输出的结果分别与门控机制输出的结果相乘，并连接相乘结果，输出第一融合特征图；所述门控机制用于对输入数据进行全局平均池化处理，然后将单元输出通道数量调整为与空洞卷积支路数量相等，输出空洞卷积支路的权重系数；

2.根据权利要求1所述的方法，其特征在于：步骤(1)中的图像数据通过工业相机获取。

3.根据权利要求1所述的方法，其特征在于：步骤(4.3)中所述注意力机制将每层的第一融合特征图加权融合至第二融合特征图，之后，通过深度可分离卷积处理输出第三融合特征图。

4.根据权利要求3所述的方法，其特征在于：所述注意力机制用于对输入数据经过全局池化处理，再对处理后的数据输出通道进行压缩，接着将数据激活后恢复通道数，生成最终通道权重并输出。