CN112541532B - 基于密集连接结构的目标检测方法 - Google Patents

基于密集连接结构的目标检测方法 Download PDF

Info

Publication number
CN112541532B
CN112541532B CN202011416821.5A CN202011416821A CN112541532B CN 112541532 B CN112541532 B CN 112541532B CN 202011416821 A CN202011416821 A CN 202011416821A CN 112541532 B CN112541532 B CN 112541532B
Authority
CN
China
Prior art keywords
target
dense connection
class
feature
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011416821.5A
Other languages
English (en)
Other versions
CN112541532A (zh
Inventor
蒋加伏
蒋利佳
颜丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changsha University of Science and Technology
Original Assignee
Changsha University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changsha University of Science and Technology filed Critical Changsha University of Science and Technology
Priority to CN202011416821.5A priority Critical patent/CN112541532B/zh
Publication of CN112541532A publication Critical patent/CN112541532A/zh
Application granted granted Critical
Publication of CN112541532B publication Critical patent/CN112541532B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/60Rotation of a whole image or part thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明提出一种基于密集连接结构的目标检测方法,定义需要检测的目标类别,对收集的图像数据中目标物体打标签,得到图像数据中目标物体的实际边框,并标注其目标类别,得到数据集;构建由基础网络模块、特征融合模块、密集连接模块和特征聚合模块组成的目标检测网络模型,同时确定损失函数;使用数据集对所构建的目标检测网络模型进行训练,直至损失函数收敛,则训练过程完成,保存此时对应的权重参数,得到训练好的目标检测网络模型;将待检测目标类别的图像输入到训练好的目标检测模型,实现目标检测。本发明通过结合密集连接方式和特征融合、聚集的方式,提升提取特征能力,缓解梯度下降问题,有效提高检测的效率和准确率。

Description

基于密集连接结构的目标检测方法
技术领域
本发明涉及基于深度学习的深度卷积神经网络和计算机视觉技术领域,具体涉及一种基于密集连接结构的目标检测方法。
背景技术
随着信息化技术的高速发展,人们生活中的方方面面每时每刻都有海量的数据产生。图像是众多数据类型中的一种,对理解图像数据所传递的信息内容是一个基本的研究目标,是计算机视觉的一项基本任务。
近年来高性能计算技术的进步和高效计算设备的出现,深度学习和人工智能技术的发展,在机器人视觉、消费电子、智能视频监控和基于内容的图像检索等许多方面,目标检测技术都被广泛应用。然而在使用传统方法处理图像数据时存在精度低、耗时久和不能批量处理等缺点。深度学习方法的出现,使用深度学习技术处理图像数据的方法取得了重大进展。深度学习方法为从事这方面的学者开创了新的思路和方向。虽然用深度学习的方法取得了重大突破,但也有很多问题尚待解决,如目标尺度变换、遮挡与数据样本分布不平衡等问题,解决这些技术问题对目标检测方法的研究具有理论与实际意义。
现在的许多目标检测网络在提取特征阶段使用的方法都是基于分类而来的。由于是针对分类任务而提出的基础网络,用到目标检测时,具有提取特征能力低和不能充分利用多尺度区域特征的缺点,这将会对后面检测网络的分类和定位产生影响,进而影响检测准确率,造成正确率低。
因此,针对上述问题本领域技术人员有必要研究一种提升图像特征的目标检测方法。
发明内容
针对现有技术存在的问题,本发明提出一种基于密集连接结构的目标检测方法,其通过设计一个密集连接结构来增强特征提取能力,从而充分利用多尺度特征。
为实现上述技术目的,本发明采用的具体技术方案如下:
基于密集连接结构的目标检测方法,包括:
定义需要检测的目标类别,收集大量图像数据,对收集的图像数据中目标物体打标签,得到图像数据中目标物体的实际边框,并标注其目标类别,得到数据集;构建由基础网络模块、特征融合模块、密集连接模块和特征聚合模块组成的目标检测网络模型,同时确定损失函数;使用数据集中的数据对所构建的目标检测网络模型进行训练,直至损失函数收敛,则训练过程完成,保存此时对应的权重参数,得到训练好的目标检测网络模型;
对于待检测目标类别的图像,将其输入到训练好的目标检测网络模型,实现目标检测。
本发明中,还包括对训练好的目标检测网络模型进行测试,将数据集按照一定的比例划分为训练集、测试集和验证集,训练集用于构建好的目标检测网络模型,测试集和验证集对训练好的目标检测网络模型进行测试,判断目标检测网络模型是否训练好的评价指标包括分类损失曲线、定位损失曲线、召回率和检测精度,当分类损失曲线和定位损失曲线逐渐趋于平稳,即网络模型要收敛,而召回率和检测精度这两个指标开始有下降趋势时,则可终止网络模型的训练,并把此时网络模型对应的各项权重参数保存,得到最终训练好的目标检测网络模型。
本发明中的基础网络模块、特征融合模块、密集连接模块和特征聚合模块组成,每个模块都是由一些卷积层和池化层组成,每个卷积层对图像数据进行卷积运算,每次运算提取图像中不同特征,低层的卷积层提取图像的边缘,线条等简单的图像结构,高层的卷积层则提取抽象的结构特征,池化层在尽可能保存图像特征的基础上对卷积运算后的特征图进行压缩。
其中基础网络模块使用ResNet50,ResNet50是由一系列的残差单元组成。
特征融合模块将基础网络模块从输入图像数据中提取到的特征图进行融合,将基础网络模块中两个不同尺度的特征图作为输入,分别对其使用1x1的卷积层对其通道数进行压缩,然后使用上采样操作,将不同尺度的特征图变换为同一尺度,最后对变为相同尺度的特征图进行级联操作,从而融合特征图。
本发明中的密集连接模块包括多个密集连接单元,各密集连接单元具有多个卷积神经网络层。各密集连接单元的输入是各密集连接单元之前的前一层输出的特征图,其中第1层密集连接单元的输入是特征融合模块输出的融合特征图。第l层密集连接单元操作的表达式如下:
xl=f(yl)=f(xl-1*wl+bl)
其中,l表示密集连接模块中的第l层,xl表示第l层第l层密集连接单元的输入,wl表示第l层密集连接单元的权重参数矩阵,bl表示第l层密集连接单元的偏置参数矩阵,*表示卷积操作,f(.)表示激活函数,yl表示中间变量。
本发明中的特征聚合模块,将相同通道维度的密集连接模块输出的密集特征连接在一起,完成级联操作,得到聚合特征。进一步地,得到聚合特征之后,使用通道注意力机制,然后进行压缩操作,压缩时使用全局最大池化进行压缩,最后使用两个全连接层处理后,输出预测结果,即预测边框。
本发明所述的损失函数是为了计算预测值和真实值的差,所构建的损失函数为:
其中,FL(.)表示分类损失,FL(pt)=-αt(1-pt)γlog(pt),αt表示正负样本之间的比例关系,其中为正样本时直接用αt本身表示,负样本则用1-αt表示,其中p∈[0,1],表示一个物体属于这个类别的概率。γ∈[0,5],/>表示定位损失,IoU表示模型输出的预测边框A与标注出的实际边框B的交集和模型输出的预测边框A与标注出的实际边框B的并集两者的比值,C表示能同时包含图像中任意两个预测或/和实际边框的最小边框。
在训练模型之前,为了增加模型的鲁棒性,在训练时使用了数据扩增技术、多尺度训练策略和批量正则化技术,数据扩增技术包括,图像随机旋转、随机填充、随机裁剪和颜色随机翻转等;原始的训练技术在训练时只输入一种尺度大小的图片进行训练,而多尺度训练是指在训练时输入多种尺度的图像进行训练,具体而言是在每个一定迭代次数之后改变输入图像数据的尺度;批量正则化不仅可以加快模型的收敛速度,也可对结果起到一定的正则化作用,降低模型的过拟合现象,具体操作是在每个卷积层后面添加BatchNormalization层,即简称BN层,抛弃使用droput层。
与现有技术相比,本发明具有以下优点:
针对现有目标检测网络没有专门用于目标检测的基础提取特征网络,具有提取特征能力低和不能充分利用多尺度区域特征的缺点。本发明设计了一个密集连接模块来增强特征提取能力,从而充分利用多尺度特征。本发明通过结合密集连接方式和特征融合、聚集的方式,提升提取特征能力,缓解梯度下降问题,有效提高检测的效率和准确率。此外,在选取候选框的问题上,只是简单的计算两个框的重合面积,而不管两个物体是怎样重合,所以本发明采用的损失函数是评价指标本身的GIoU损失函数。
附图说明
图1为本发明实施例1中的流程图;
图2为本发明实施例1中构建的目标检测网络模型的结构图;
图3为本发明实施例1中的密集连接模块示意图;
图4为本发明实施例1中的特征融合模块示意图;
图5为本发明实施例1中的特征聚合模块示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面将以附图及详细叙述清楚说明本发明所揭示内容的精神,任何所属技术领域技术人员在了解本发明内容的实施例后,当可由本发明内容所教示的技术,加以改变及修饰,其并不脱离本发明内容的精神与范围。本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
实施例1:
参照图1至5,本实施例提供一种基于密集连接结构的目标检测方法,包括以下步骤:
S1:定义需要检测的目标类别,收集大量图像数据,对收集的图像数据按照所定义的目标类别进行分类标注,得到数据集。
根据检测需要定义需要检测的目标类别。通过人工拍摄和安装拍摄设备的方法收集需要的图像数据或者通过爬虫技术,在网页上爬取需要检测目标类别的数据,并将收集的数据按所定义的目标类别分类整理,利用图像标注工具labelling对图像数据中目标物体打标签,得到目标物体的实际边框,并标注其目标类别,得到数据集。按照随机划分原则,将标注完的数据按照60%训练集,20%测试集,20%验证集的比例进行划分,完成数据的准备工作。
S2:构建目标检测网络模型,确定损失函数。
本实施例中的目标检测网络模型由基础网络模块、特征融合模块、密集连接模块和特征聚合模块组成。目标检测网络模型的每个组成模块都是由一些卷积层和池化层组成,每个卷积层对输入的图像数据进行卷积运算,每次运算提取图像中不同特征,低层的卷积层提取图像的边缘,线条等简单的图像结构,高层的卷积层则提取抽象的结构特征,池化层在尽可能保存图像特征的基础上对卷积运算后的特征图进行压缩。
考虑到准确率和运算效率这两者的平衡,在选择基础网络模块时,选用网络深度适中提取特征效果不错的的ResNet50,ResNet50是由一系列的残差单元组成,其中任一个残差单元的操作表达如下:
Yl=xl+F(xl,wl)
上式中,l表示基础网络模块的第l个残差单元,yl表示基础网络模块的第l个残差单元的输出,xl表示基础网络模块的第l个残差单元的输入,wl表示基础网络模块的第l个残差单元使用的权重参数,F表示残差操作。
特征融合模块将基础网络模块从输入图像数据中提取到的特征图进行融合,将基础网络模块中两个不同尺度的特征图作为输入,分别对其使用1x1的卷积层对其通道数进行压缩,然后使用上采样操作,将不同尺度的特征图变换为同一尺度,最后对变为相同尺度的特征图进行级联操作,从而融合特征图。参照图4,两个不同尺度的输入特征图一和输入特征图二作为输入,分别对其使用连续的多个1x1的卷积层对其通道数进行压缩,后使用上采样操作,将不同尺度的特征图变换为同一尺度,最后对变为相同尺度的特征图进行特征连接操作,从而融合特征图。
图3是本发明一实施例中的密集连接模块的结构示意图,一个密集连接模块由多个密集连接单元组成,而每个密集连接单元如图右边所示,在进入卷积层之前先对输入密集连接模块的特征进行BN(批量正则化)和ReLU(激活函数)操作,然后再进行卷积操作,然后再重复进行BN(批量正则化)和ReLU(激活函数)操作,最后进行卷积操作后输出当前密集连接模块的输出结果,将其作为下一个密集连接单元的输入。各密集连接单元的输入是各密集连接单元之前的前一层输出的特征图,其中第1层密集连接单元的输入是特征融合模块输出的融合特征图。第l层密集连接单元操作的表达式如下:
xl=f(yl)=f(xl-1*wl+bl)
其中,l表示密集连接模块中的第l层,xl表示第l层第l层密集连接单元的输入,wl表示第l层密集连接单元的权重参数矩阵,bl表示第l层密集连接单元的偏置参数矩阵,*表示卷积操作,f(.)表示激活函数,yl表示中间变量。
参照图5为特征聚合模块的示意图。特征聚合模块,首先将相同通道维度的各密集连接单元输出的密集特征图连接在一起,级联得到的聚合特征图,得到聚合特征图之后,对聚合特征图进行压缩操作,压缩时使用全局最大池化进行压缩,最后使用两个全连接层处理后,输出预测结果,即预测边框。
损失函数是为了计算预测值和真实值的差。本实施例中所构建的的损失函数为:
其中,FL(.)表示分类损失,FL(pt)=-αt(1-pt)γlog(pt),模型输出的预测边框与标注出的实际边框重合程度大于定义的阈值,则判断模型输出的预测边框为正样本,否则就则为负样本,αt表示正负样本之间的比例关系,其中为正样本时直接用αt本身表示,负样本则用1-αt表示。
其中,p∈[0,1],表示对一个物体属于这个类别的概率,y表示真实样本的标签类别,y=1表示为属于第1类目标类别,第1类目标类别即图像中存在目标物体,y=0表示属于第0类目标类别,第0类目标类别即图像中不存在目标物体。γ∈[0,5],用于调整难分类与易分类之间的权重关系,在本实施例中γ设为2。/>表示定位损失,/> IoU表示模型输出的预测边框A与标注出的实际边框B的交集和模型输出的预测边框A与标注出的实际边框B的并集两者的比值,C表示能同时包含图像中任意两个预测或/和实际边框的最小边框。
S3:使用训练集对所构建的目标检测网络模型进行训练,直至损失函数收敛,则训练过程完成,保存此时对应的权重参数,得到训练好的目标检测网络模型。
先将训练集中的训练样本进行旋转、水平翻转和随机裁剪等操作,增大样本数,以丰富训练样本,得到最终的具有足量样本数的训练集。
将训练集中的训练样本数据加载到S2所构建的目标检测网络模型中,之后对网络模型中的参数进行初始设置,然后进行网络初始化,最后运行网络模型进行训练,训练一定的时间判断损失函数是否收敛,如果不收敛则继续训练,一直训练到损失函数收敛为止,则训练过程完成,保存此时对应的权重参数,得到训练好的目标检测网络模型。训练过程中,采用随机梯度下降方法更新网络的权重,初始学习率设置为0.0001,训练集完整迭代一次为一个epoch,当迭代到40个epoch和50epoch时,学习率下降到原始的十分之一。
进一步地,本实施例还包括用测试集和验证集对训练好的目标检测网络模型进行测试。判断目标检测网络模型是否训练好的评价指标由分类损失曲线、定位损失曲线、召回率和检测精度等组成。当分类损失曲线和定位损失曲线逐渐趋于平稳,即网络模型要收敛,而召回率和检测精度这两个指标开始有下降趋势时,则可终止网络模型的训练,并把此时网络模型对应的各项权重参数保存。
本实施例对网络进行测评的评价指标由召回率(Recall)、IoU和mAP三个指标构成。其中:召回率(Recall)是测试集中全部的正样本,被正确识别成正样本的比例,由下列表达计算而来:
其中,tp表示为测试集中正样本被准确的识别成正样本的数目,fn表示为假负样本,即测试集中正样本被误认为负样本的数目。
IoU表示模型输出的预测边框和标注出的实际边框两者的重合度,即模型输出的预测边框与标注出的实际边框的交集和模型输出的预测边框与标注出的实际边框的并集,如下式所示:
其中,A表示为测试集中的数据样本经训练好的目标检测网络模型检测后输出的预测边框,B表示为标注出的实际边框。
mAP表示的是当一个检测网络要检测多个类别的物体时,对每个类别的准确率再次求平均得到的,该指标的值越大表示其检测效果越好。
S4:对于待检测目标类别的图像,将其输入到训练好的目标检测网络模型,实现目标检测。
本实施例通过创新网络结构,优化损失函数等方式,实现了检测准确率的提升,使用公共数据集对本实施例进行检测,其检测准确率取得了优秀的结果。
实施例2:
本实施例提供一种基于密集连接结构的目标检测方法,包括以下步骤:
S1:与实施例1完全相同,即定义需要检测的目标类别,收集大量图像数据,对收集的图像数据按照所定义的目标类别进行分类标注,得到数据集。
S2:构建目标检测网络模型,确定损失函数。其中本实施例中的目标检测网络模型由基础网络模块、特征融合模块、密集连接模块和特征聚合模块组成。目标检测网络模型的每个组成模块都是由一些卷积层和池化层组成,每个卷积层对输入的图像数据进行卷积运算,每次运算提取图像中不同特征,低层的卷积层提取图像的边缘,线条等简单的图像结构,高层的卷积层则提取抽象的结构特征,池化层在尽可能保存图像特征的基础上对卷积运算后的特征图进行压缩。
本实施例中的基础网络模块、密集连接模块和特征聚合模块均与实施例1相同。相对于实施例1,本实施例对特征融合模块进行不同的设计,具体如下:
特征融合模块将基础网络模块从输入图像数据中提取到的特征图进行融合,将基础网络模块中两个不同尺度的特征图作为输入,分别对其使用1x1的卷积层对其通道数进行压缩,然后使用上采样操作,将不同尺度的特征图变换为同一尺度,最后对变为相同尺度的特征图进行级联操作,从而融合特征图。在本实施例中,除了包含输入特征一和输入特征二之外,并且还改变了特征融合模块结构的连接方式,即在在直接一层一层的连接上,增加了一个跳跃连接分支。
由于低层的特征图分辨率高,包含的许多位置、物体轮廓等具体的信息,其缺点是经过的非线性卷积计算次数少,噪声干扰厉害,而语义信息不足。而高层的特征图,其分辨率低,反应的是更加抽象的信息,对细节不敏感。更改之后的特征融合模块,不仅包含低层特征,也包含高层的特征图。
S3:使用训练集对所构建的目标检测网络模型进行训练,直至损失函数收敛,则训练过程完成,保存此时对应的权重参数,得到训练好的目标检测网络模型,并对训练号的目标检测网络模型进行检测。本实施例的训练方法以及模型检测方法与实施例1相同,在此不再赘述。
S4:对于待检测目标类别的图像,将其输入到训练好的目标检测网络模型,实现目标检测。
本实施例通过改变融合模块的连接结构,实现多层特征融合,使得目标检测的性能得到提高。
实施例3:
本实施例提供一种基于密集连接结构的目标检测方法,包括以下步骤:
S1:定义需要检测的目标类别,收集大量图像数据,对收集的图像数据按照所定义的目标类别进行分类标注,得到数据集。
S2:构建目标检测网络模型,确定损失函数。其中本实施例中的目标检测网络模型由基础网络模块、特征融合模块、密集连接模块和特征聚合模块组成。目标检测网络模型的每个组成模块都是由一些卷积层和池化层组成,每个卷积层对输入的图像数据进行卷积运算,每次运算提取图像中不同特征,低层的卷积层提取图像的边缘,线条等简单的图像结构,高层的卷积层则提取抽象的结构特征,池化层在尽可能保存图像特征的基础上对卷积运算后的特征图进行压缩。
本实施例中的基础网络模块、特征融合模块和特征聚合模块均与实施例1相同。相对于实施例1,本实施例对密集连接模块进行不同的设计,具体如下:
实施例1中的密集连接模块包括多个密集连接单元,各密集连接单元具有多个卷积神经网络层。各密集连接单元的输入是各密集连接单元之前的前一层输出的特征图,其中第1层密集连接单元的输入是特征融合模块输出的融合特征图。第l层密集连接单元操作的表达式如下:
xl=f(yl)=f(xl-1*wl+bl)
其中,l表示密集连接模块中的第l层,xl表示第l层第l层密集连接单元的输入,wl表示第l层密集连接单元的权重参数矩阵,bl表示第l层密集连接单元的偏置参数矩阵,*表示卷积操作,f(.)表示激活函数,yl表示中间变量。
当卷积神经网络反向传播时,梯度损失函数则表示为:
其中,L表示损失函数,wl表示第l层密集连接单元的权重参数矩阵,yl=xl-1*wl+bl,yl-1=xl-2*wl-1+bl-1,δl表示第l层的梯度损失,rot180(.),表示权重参数矩阵w180度逆时针旋转,⊙表示为Hadamard乘积。在网络中,梯度沿着一层一层逐层传播,梯度可以表示为激活函数的求导与权重参数的乘积,随着网络层数的加深,其值会越来越小,会造成梯度消失的问题。
本实施例与实施例1不同之处时,改变密集连接方式和密集连接模块的数目。为了找出适合本发明的最佳密集连接方式,即将前l-1层的特征图连接起来作为第l层的输入,其操作可以表示为:xl=f(yl)=f([x0,x1,x2,…,xl-1]*wl+bl)其中,l表示第l层,xl表示第l层卷积网络的输入,wl表示l层的权重参数矩阵,bl表示l层的偏置参数矩阵,*表示卷积操作,f(.)表示激活函数,yl表示中间变量。
那么,梯度损失函数则可表示为:
其中,rot180(.),表示权重参数矩阵w180度逆时针旋转,⊙表示为Hadamard乘积。
比较实施例1与实施例3,实施例3的导数项比实施例1的倒数项总是比一直都与之前层的输入项有关,梯度损失也一直与由前一层的损失计算而来,这样便可一定程度上缓解梯度消失的问题,可以提升检测准确率。
此外,除了改变密集连接模块的输入和梯度损失函数,实施例3还改变了密集连接模块的个数。实施例3设置了当密集连接模块分别有1,2,4和8个组成时,比较其性能,找出适合本发明的最佳组合。
S3:使用训练集对所构建的目标检测网络模型进行训练,直至损失函数收敛,则训练过程完成,保存此时对应的权重参数,得到训练好的目标检测网络模型,并对训练号的目标检测网络模型进行检测。本实施例的训练方法以及模型检测方法与实施例1相同,在此不再赘述。
S4:对于待检测目标类别的图像,将其输入到训练好的目标检测网络模型,实现目标检测。
实施例4:
本实施例提供一种基于密集连接结构的目标检测方法,包括以下步骤:
S1:定义需要检测的目标类别,收集大量图像数据,对收集的图像数据按照所定义的目标类别进行分类标注,得到数据集。
S2:构建目标检测网络模型,确定损失函数。其中本实施例中的目标检测网络模型由基础网络模块、特征融合模块、密集连接模块和特征聚合模块组成。目标检测网络模型的每个组成模块都是由一些卷积层和池化层组成,每个卷积层对输入的图像数据进行卷积运算,每次运算提取图像中不同特征,低层的卷积层提取图像的边缘,线条等简单的图像结构,高层的卷积层则提取抽象的结构特征,池化层在尽可能保存图像特征的基础上对卷积运算后的特征图进行压缩。
本实施例中的基础网络模块、特征融合模块和密集连接模块均与实施例1相同。相对于实施例1,本实施例对特征聚合模块进行不同的设计,具体如下:
实施例1中的特征聚合模块,首先将相同通道维度的特征连接在一起,级联得到的聚合特征,得到表示为X=[X1,X2,...,Xi],聚合特征之后,使用通道注意力机制,然后进行压缩操作,压缩时使用全局最大池化进行压缩,最后使用两个全连接层学习注意力机制,输出预测边框。
特征聚合模块是为了聚合不同层,不同尺度的特征图。因此,简单的级联聚合没有足够的自适应性,不过灵活,所以本实施例与实施例1不同的是,在级联操作之后,加入通道注意力机制,加入通道注意力机制的作用是使得聚合特征模块能够去关注那些最有利于定位目标和能反映要识别物体的特征,然后使用平局池化进行数据压缩,为了使通道注意力机制保持独立性,通过以下两个完全连接层学习注意力机制,即:
y=F(z,w)=σ(w1δ(w2z))
其中,σ表示为ReLU激活函数,δ表示为sigmoid激活函数,w1,w2表示为两个全连接层的权重参数矩阵,z表示为平均池化压缩后的通道统计数据。
最后的输出结果通过使用激活函数对输入X加权来获得最终输出:
其中表示为尺度缩放操作会使得那些明显的特征增强或者减弱某些不明显的特征,/>表示通道,i表示第i个特征。
S3:使用训练集对所构建的目标检测网络模型进行训练,直至损失函数收敛,则训练过程完成,保存此时对应的权重参数,得到训练好的目标检测网络模型,并对训练号的目标检测网络模型进行检测。本实施例的训练方法以及模型检测方法与实施例1相同,在此不再赘述。
S4:对于待检测目标类别的图像,将其输入到训练好的目标检测网络模型,实现目标检测。
实施例5:
本实施例提供一种基于密集连接结构的目标检测方法,包括以下步骤:
S1:定义需要检测的目标类别,收集大量图像数据,对收集的图像数据按照所定义的目标类别进行分类标注,得到数据集。
S2:构建目标检测网络模型,确定损失函数。其中本实施例中的目标检测网络模型由基础网络模块、特征融合模块、密集连接模块和特征聚合模块组成。目标检测网络模型的每个组成模块都是由一些卷积层和池化层组成,每个卷积层对输入的图像数据进行卷积运算,每次运算提取图像中不同特征,低层的卷积层提取图像的边缘,线条等简单的图像结构,高层的卷积层则提取抽象的结构特征,池化层在尽可能保存图像特征的基础上对卷积运算后的特征图进行压缩。
本实施例中的基础网络模块、特征融合模块、密集连接模块和特征聚合模块均与实施例1相同,在此不再赘述。
损失函数是为了计算预测值和真实值的差。本实施例设置了几组分类损失与定位损失的组合,用于对比,选出最优的损失函数组合,具体如下:
第一组是选取分类交叉熵损失函数作为分类损失,定位损失保持不变,改变之后的损失函数表达式可以表示为:
其中,F(.)表示为分类损失,其表达式为其中,y表示真实样本的标签,y=1表示为属于第一类目标类别的概率,第1类目标类别即图像中存在目标物体,y=0表示属于第零类目标类别的概率,第0类目标类别即图像中不存在目标物体。p∈[0,1],表示一个物体属于这个类别的概率,即当实际边框属于第一类目标类别时,则希望预测边框属于第一类目标类别的概率高,则log(p)的值越小,产生的损失值也越小,反之亦然。表示为定位损失,其表达式为/>而GIoU又可表示为:IoU表示模型输出的预测边框A与标注出的实际边框B的交集和模型输出的预测边框A与标注出的实际边框B的并集两者的比值,C表示能同时包含图像中任意两个预测或/和实际边框的最小边框。
第二组则是使用常用的分类损失和定位损失,即分类损失使用交叉熵损失,定位损失使用Smooth L1损失函数,则损失函数表达式为:
其中,F(.)表示为分类损失,其表达式为y=1表示为属于第1类目标类别,第1类目标类别即图像中存在目标物体,y=0表示属于第0类目标类别,第0类目标类别即图像中不存在目标物体。p∈[0,1],表示一个物体属于这个类别的概率,即当实际边框属于第1类目标类别时,则希望预测边框的属于第1类目标类别的概率高,则log(p)的值越小,产生的损失值也越小,反之亦然。/>表示为定位损失,其表达式为/>x为反应预测边框和实际边框两者之间的差。
最后一组的损失函数中:分类损失使用焦点损失,定位损失相较于第二组不变,仍然使用Smooth L1损失函数,则损失函数表达式为:
其中,FL(.)表示为分类损失,其表达式为FL(pt)=-αt(1-pt)γlog(pt),模型输出的预测边框与标注出的实际边框重合程度大于定义的阈值,则判断模型输出的预测边框为正样本,否则为负样本,αt表示正负样本之间的比例关系,其中为正样本时直接用αt本身表示,负样本则用1-αt表示,pt表示为预测到的物体属于对应类别正确的概率,其中pt表达式为,其中,p∈[0,1],表示对一个物体属于这个类别的概率,y=1表示为属于第1类目标类别,第1类目标类别即图像中存在目标物体,y=0表示属于第0类目标类别,第0类目标类别即图像中不存在目标物体,γ∈[0,5],γ是调整难分类与易分类之间的权重关系,其取值范围为γ∈[0,5],在本实施例中γ设这为2。/>表示为定位损失,其表达式为/>x为反应预测边框和实际边框两者之间的差。
本发明提高提取特征能力和缓解梯度消失问题,使用了密集连接结构,并且还运用了特征融合方式提高检测准确率,此外,还改变了损失函数,特征聚合压缩特征以提高运算速率,结合这些优点,能够达到较高的准确率和运算效率。
综上所述,虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明,任何本领域普通技术人员,在不脱离本发明的精神和范围内,当可作各种更动与润饰,因此本发明的保护范围当视权利要求书界定的范围为准。

Claims (7)

1.基于密集连接结构的目标检测方法,其特征在于,包括:
定义需要检测的目标类别,收集大量图像数据,对收集的图像数据中目标物体打标签,得到图像数据中目标物体的实际边框,并标注其目标类别,得到数据集;构建由基础网络模块、特征融合模块、密集连接模块和特征聚合模块组成的目标检测网络模型,同时确定损失函数;使用数据集中的数据对所构建的目标检测网络模型进行训练,直至损失函数收敛,则训练过程完成,保存此时对应的权重参数,得到训练好的目标检测网络模型;特征融合模块将基础网络模块从输入图像数据中提取到的特征图进行融合,将基础网络模块中两个不同尺度的特征图作为输入,分别对其使用1x1的卷积层对其通道数进行压缩,然后使用上采样操作,将不同尺度的特征图变换为同一尺度,最后对变为相同尺度的特征图进行级联操作,从而融合特征图;
密集连接模块包括多个密集连接单元,各密集连接单元具有多个卷积神经网络层;各密集连接单元的输入是各密集连接单元之前的前一层输出的特征图,其中第1层密集连接单元的输入是特征融合模块输出的融合特征图;第l层密集连接单元操作的表达式如下:
xl=f(yl)=f(xl-1*wl+bl)
其中,l表示密集连接模块中的第l层,xl表示第l层密集连接单元的输入,wl表示第l层密集连接单元的权重参数矩阵,bl表示第l层密集连接单元的偏置参数矩阵,*表示卷积操作,f(.)表示激活函数,yl表示中间变量;
特征聚合模块,将相同通道维度的各密集连接单元输出的密集特征图连接在一起,级联得到的聚合特征图,得到聚合特征图之后,对聚合特征图进行压缩操作,压缩时使用全局最大池化进行压缩,最后使用两个全连接层处理后,输出预测结果,即预测边框;
对于待检测目标类别的图像,将其输入到训练好的目标检测网络模型,实现目标检测。
2.根据权利要求1所述的基于密集连接结构的目标检测方法,其特征在于,还包括对训练好的目标检测网络模型进行测试,将数据集按照一定的比例划分为训练集、测试集和验证集,训练集用于训练构建好的目标检测网络模型,测试集和验证集对训练好的目标检测网络模型进行测试,判断目标检测网络模型是否训练好的评价指标包括分类损失曲线、定位损失曲线、召回率和检测精度,当分类损失曲线和定位损失曲线逐渐趋于平稳,即网络模型要收敛,而召回率和检测精度这两个指标开始有下降趋势时,则可终止网络模型的训练,并把此时网络模型对应的各项权重参数保存,得到最终训练好的目标检测网络模型。
3.根据权利要求1或2所述的基于密集连接结构的目标检测方法,其特征在于,基础网络模块使用ResNet50,ResNet50是由一系列的残差单元组成。
4.根据权利要求1所述的基于密集连接结构的目标检测方法,其特征在于,损失函数为:
其中,FL(.)表示分类损失,FL(pt)=-αt(1-pt)γlog(pt),模型输出的预测边框与标注出的实际边框重合程度大于定义的阈值,则判断模型输出的预测边框为正样本,否则为负样本,αt表示正负样本之间的比例关系,其中为正样本时直接用αt本身表示,负样本则用1-αt表示,其中p∈[0,1],表示一个物体属于这个类别的概率,y=1表示为属于第1类目标类别,第1类目标类别即图像中存在目标物体,y=0表示属于第0类目标类别,第0类目标类别即图像中不存在目标物体;γ∈[0,5],/>表示定位损失, IoU表示模型输出的预测边框A与标注出的实际边框B的交集和模型输出的预测边框A与标注出的实际边框B的并集两者的比值,C表示能同时包含图像中任意两个预测或/和实际边框的最小边框。
5.根据权利要求1所述的基于密集连接结构的目标检测方法,其特征在于,损失函数表示为:
其中,F(.)表示为分类损失,其表达式为其中,y=1表示为属于第1类目标类别,第1类目标类别即图像中存在目标物体,y=0表示属于第0类目标类别,第0类目标类别即图像中不存在目标物体,p∈[0,1],表示一个物体属于这个类别的概率,即当实际边框属于第一类目标类别时,则希望预测边框属于第一类目标类别的概率高,则log(p)的值越小,产生的损失值也越小,反之亦然;/>表示为定位损失,其表达式为/>而GIoU又可表示为:/>IoU表示模型输出的预测边框A与标注出的实际边框B的交集和模型输出的预测边框A与标注出的实际边框B的并集两者的比值,C表示能同时包含图像中任意两个预测或/和实际边框的最小边框。
6.根据权利要求1所述的基于密集连接结构的目标检测方法,其特征在于,损失函数表达式为:
其中,F(.)表示为分类损失,其表达式为y=1表示为属于第1类目标类别,第1类目标类别即图像中存在目标物体,y=0表示属于第0类目标类别,第0类目标类别即图像中不存在目标物体;p∈[0,1],表示一个物体属于这个类别的概率,即当实际边框属于第1类目标类别时,则希望预测边框的属于第1类目标类别的概率高,则log(p)的值越小,产生的损失值也越小,反之亦然;/>表示为定位损失,其表达式为/> x为反应预测边框和实际边框两者之间的差。
7.根据权利要求1所述的基于密集连接结构的目标检测方法,其特征在于,损失函数表达式为:
其中,FL(.)表示为分类损失,其表达式为FL(pt)=-αt(1-pt)γlog(pt),模型输出的预测边框与标注出的实际边框重合程度大于定义的阈值,则判断模型输出的预测边框为正样本,否则为负样本,αt表示正负样本之间的比例关系,其中为正样本时直接用αt本身表示,负样本则用1-αt表示,pt表示为预测到的物体属于对应类别正确的概率,其中pt表达式为,其中,p∈[0,1],表示对一个物体属于这个类别的概率,y=1表示为属于第1类目标类别,第1类目标类别即图像中存在目标物体,y=0表示属于第0类目标类别,第0类目标类别即图像中不存在目标物体,γ∈[0,5],/>表示为定位损失,其表达式为/>x为反应预测边框和实际边框两者之间的差。
CN202011416821.5A 2020-12-07 2020-12-07 基于密集连接结构的目标检测方法 Active CN112541532B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011416821.5A CN112541532B (zh) 2020-12-07 2020-12-07 基于密集连接结构的目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011416821.5A CN112541532B (zh) 2020-12-07 2020-12-07 基于密集连接结构的目标检测方法

Publications (2)

Publication Number Publication Date
CN112541532A CN112541532A (zh) 2021-03-23
CN112541532B true CN112541532B (zh) 2024-03-01

Family

ID=75016277

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011416821.5A Active CN112541532B (zh) 2020-12-07 2020-12-07 基于密集连接结构的目标检测方法

Country Status (1)

Country Link
CN (1) CN112541532B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113177511A (zh) * 2021-05-20 2021-07-27 中国人民解放军国防科技大学 基于多数据流的旋转边框智能感知目标检测方法
CN113282215A (zh) * 2021-05-24 2021-08-20 湖南大学 一种rpa系统中基于目标检测技术的ui元素拾取方法和系统
CN113807386B (zh) * 2021-07-21 2023-08-01 广东工业大学 一种融合多尺度信息的目标检测方法、系统及计算机设备
CN113963167B (zh) * 2021-10-29 2022-05-27 北京百度网讯科技有限公司 应用于目标检测的方法、装置及计算机程序产品
CN113870422B (zh) * 2021-11-30 2022-02-08 华中科技大学 一种点云重建方法、装置、设备及介质
CN115761259B (zh) * 2022-11-14 2023-11-24 湖南大学 基于类别平衡损失函数的厨余垃圾目标检测方法和系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108710826A (zh) * 2018-04-13 2018-10-26 燕山大学 一种交通标志深度学习模式识别方法
CN109614985A (zh) * 2018-11-06 2019-04-12 华南理工大学 一种基于密集连接特征金字塔网络的目标检测方法
CN109685152A (zh) * 2018-12-29 2019-04-26 北京化工大学 一种基于dc-spp-yolo的图像目标检测方法
CN110298266A (zh) * 2019-06-10 2019-10-01 天津大学 基于多尺度感受野特征融合的深度神经网络目标检测方法
CN110489584A (zh) * 2019-07-19 2019-11-22 长沙理工大学 基于密集连接的MobileNets模型的图像分类方法及系统
WO2020093042A1 (en) * 2018-11-02 2020-05-07 Deep Lens, Inc. Neural networks for biomedical image analysis
CN111339862A (zh) * 2020-02-17 2020-06-26 中国地质大学(武汉) 一种基于通道注意力机制的遥感场景分类方法及装置
CN111832668A (zh) * 2020-09-21 2020-10-27 北京同方软件有限公司 一种自适应特征及数据分布的目标检测方法
CN111898439A (zh) * 2020-06-29 2020-11-06 西安交通大学 基于深度学习的交通场景联合目标检测和语义分割方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201709672D0 (en) * 2017-06-16 2017-08-02 Ucl Business Plc A system and computer-implemented method for segmenting an image

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108710826A (zh) * 2018-04-13 2018-10-26 燕山大学 一种交通标志深度学习模式识别方法
WO2020093042A1 (en) * 2018-11-02 2020-05-07 Deep Lens, Inc. Neural networks for biomedical image analysis
CN109614985A (zh) * 2018-11-06 2019-04-12 华南理工大学 一种基于密集连接特征金字塔网络的目标检测方法
CN109685152A (zh) * 2018-12-29 2019-04-26 北京化工大学 一种基于dc-spp-yolo的图像目标检测方法
CN110298266A (zh) * 2019-06-10 2019-10-01 天津大学 基于多尺度感受野特征融合的深度神经网络目标检测方法
CN110489584A (zh) * 2019-07-19 2019-11-22 长沙理工大学 基于密集连接的MobileNets模型的图像分类方法及系统
CN111339862A (zh) * 2020-02-17 2020-06-26 中国地质大学(武汉) 一种基于通道注意力机制的遥感场景分类方法及装置
CN111898439A (zh) * 2020-06-29 2020-11-06 西安交通大学 基于深度学习的交通场景联合目标检测和语义分割方法
CN111832668A (zh) * 2020-09-21 2020-10-27 北京同方软件有限公司 一种自适应特征及数据分布的目标检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Jiang LiJia 等.Object detection method based on dense connection and feature fusion.《2020 5th International Conference on Mechanical, Control and Computer Engineering》.2021,1736-1741. *
蒋利佳.基于深度卷积神经网络的目标检测方法研究.《中国优秀硕士学位论文全文数据库 信息科技辑》.2023,2023年(第01期),I138-1095. *

Also Published As

Publication number Publication date
CN112541532A (zh) 2021-03-23

Similar Documents

Publication Publication Date Title
CN112541532B (zh) 基于密集连接结构的目标检测方法
CN111259930B (zh) 自适应注意力指导机制的一般性目标检测方法
CN110059554B (zh) 一种基于交通场景的多支路目标检测方法
CN110929577A (zh) 一种基于YOLOv3的轻量级框架改进的目标识别方法
CN112733749A (zh) 融合注意力机制的实时行人检测方法
CN109086799A (zh) 一种基于改进卷积神经网络模型AlexNet的作物叶片病害识别方法
CN111126202A (zh) 基于空洞特征金字塔网络的光学遥感图像目标检测方法
CN112801169B (zh) 一种基于改进yolo算法的伪装目标检测方法、系统、装置及存储介质
CN111352965B (zh) 序列挖掘模型的训练方法、序列数据的处理方法及设备
CN108921198A (zh) 基于深度学习的商品图像分类方法、服务器及系统
CN111783772A (zh) 一种基于RP-ResNet网络的抓取检测方法
CN112819063B (zh) 一种基于改进的Focal损失函数的图像识别方法
CN114565048A (zh) 基于自适应特征融合金字塔网络的三阶段害虫图像识别方法
CN114972759A (zh) 基于分级轮廓代价函数的遥感图像语义分割方法
CN113032613B (zh) 一种基于交互注意力卷积神经网络的三维模型检索方法
CN115099461A (zh) 基于双分支特征提取的太阳辐射预测方法及系统
CN114566052A (zh) 一种基于车流方向判别高速公路车流监控设备转动的方法
Ouf Leguminous seeds detection based on convolutional neural networks: Comparison of faster R-CNN and YOLOv4 on a small custom dataset
CN110728186A (zh) 一种基于多网融合的火灾检测方法
CN117371511A (zh) 图像分类模型的训练方法、装置、设备及存储介质
CN111598580A (zh) 一种基于XGBoost算法的区块链产品检测方法、系统及装置
CN115223017B (zh) 一种基于深度可分离卷积的多尺度特征融合桥梁检测方法
CN115423090A (zh) 一种面向细粒度识别的类增量学习方法
Bahrami et al. Image concept detection in imbalanced datasets with ensemble of convolutional neural networks
CN113344005A (zh) 一种基于优化小尺度特征的图像边缘检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant