CN110716792A - 一种目标检测器及其构建方法和应用 - Google Patents

一种目标检测器及其构建方法和应用 Download PDF

Info

Publication number
CN110716792A
CN110716792A CN201910888965.1A CN201910888965A CN110716792A CN 110716792 A CN110716792 A CN 110716792A CN 201910888965 A CN201910888965 A CN 201910888965A CN 110716792 A CN110716792 A CN 110716792A
Authority
CN
China
Prior art keywords
background
training sample
training
core
background detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910888965.1A
Other languages
English (en)
Other versions
CN110716792B (zh
Inventor
胡静
熊涛
卢鑫鑫
蒋侃
高翔
张旭阳
康愫愫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201910888965.1A priority Critical patent/CN110716792B/zh
Publication of CN110716792A publication Critical patent/CN110716792A/zh
Application granted granted Critical
Publication of CN110716792B publication Critical patent/CN110716792B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种目标检测器及其构建方法和应用,方法包括:搭建Faster R‑CNN目标检测模型框架,包括区域建议网络模块RPN和多个级联的多核多背景检测结构;采用RPN生成训练样本集;基于训练样本集及其权重分布,采用损失函数迭代训练多个级联的多核多背景检测结构,得到Faster R‑CNN目标检测模型;其中每次迭代训练时训练完每一个多核多背景检测结构后,更新权重分布且其中损失函数值大的训练样本则其权重大,并基于更新的权重分布以及当前多核多背景检测结构产生的回归样本,训练级联的下一多核多背景检测结构。本发明在Faster R‑CNN中引入多个级联的多核多背景检测结构,并基于权重分布及其更新进行训练,提高整个检测器分类精度,使其在复杂背景下有较好的检测性能。

Description

一种目标检测器及其构建方法和应用
技术领域
本发明属于目标检测领域,更具体地,涉及一种目标检测器及其构建方法和应用。
背景技术
目标检测是一个复杂的问题,需要解决两个主要任务,首先检测器必须解决识别问题,区分目标和背景,并为其分配相应的类别标签。其次,检测器必须解决定位问题(也即回归),为目标分配准确的边界框。这两个任务都特别困难,因为图像中有很多与目标特征十分接近的疑似目标,这会影响检测器的判断。因此,检测器必须在抑制这些疑似目标的同时找到真正的目标。
当目标(特别是无人机)处于复杂背景中时,检测器很难正确地检测到目标,检测器的性能会受到极大的影响。在复杂背景下进行目标检测,主要有两种情况会导致检测性能变差:(1)背景被判别为目标。这种情况主要是因为背景的颜色、纹理等图像特征与目标极为接近,导致检测器误检,这样会降低检测的精确率。(2)目标被判断为背景。这种情况主要是因为目标被物体遮挡,或者目标淹没在背景中,检测器没有提取到足够多的特征,导致检测器漏检,这样会降低检测的召回率。之所以出现以上情况,是因为在对建议区域进行分类时,背景置信度与前景置信度相差不大,所以导致误判。
在目标检测领域,主要包括传统的目标检测算法、基于分类方法的深度学习目标检测算法以及基于回归方法的深度学习目标检测算法。传统的目标检测算法将目标检测任务转化为目标分类任务来解决。先是选取候选区域,再从候选区域中提取人工设计的特征,最后根据每个候选区域的特征训练分类器。基于分类方法的深度学习目标检测算法是两阶段(Two-stage)的检测方法:首先通过提取图像特征来产生建议区域(Region proposal),然后对建议区域进行进一步的分类和边框回归。很多目标检测算法遵循这样的思想(如R-CNN、Fast R-CNN、Faster R-CNN、R-FCN、Mask-RCNN、HyperNet等模型)。基于回归方法的深度学习目标检测算法将检测任务当成一个单一的回归问题来处理。使用神经网络框架直接从图像中预测出边界框的坐标、类别及其置信度。很多目标检测算法遵循这样的思想(如YOLO、YOLOv2、SSD、DSSD等模型)。
由于有些目标如无人机的检测任务对准确率和定位精度方面要求更高,基于分类方法的深度学习目标检测算法特别是Faster R-CNN检测方法具有优异的性能,然而,Faster R-CNN检测方法在背景复杂时容易将背景与目标混淆,其分类器对于目标和背景的分类得分的区分度不大,容易导致虚警或者漏检。
发明内容
本发明提供一种目标检测器及其构建方法和应用,用以解决现有目标检测器存在的目标检测易受背景干扰导致分类精度不高的技术问题。
本发明解决上述技术问题的技术方案如下:一种目标检测器的构建方法,包括:
搭建Faster R-CNN目标检测模型框架,该框架包括区域建议网络模块和多个级联的多核多背景检测结构;
采用所述区域建议网络模块,生成训练样本集;
基于所述训练样本集及其权重分布,采用损失函数,迭代训练所述多个级联的多核多背景检测结构,得到Faster R-CNN目标检测模型;
其中,每次迭代训练时,训练完每一个多核多背景检测结构后,更新所述权重分布且其中损失函数值大的训练样本则其权重大,并基于所述更新的权重分布以及当前多核多背景检测结构产生的回归样本,训练级联的下一个多核多背景检测结构。
本发明的有益效果是:本发明提出了一种基于多核多背景检测结构的目标检测器,具体在Faster R-CNN中引入多核多背景检测结构作为检测单元,替换原有的特征提取器、分类器和回归器,多核多背景的检测结构可以更好的区分各种目标和各种背景,加大背景和目标特征的区分度,提高在目标检测中对目标识别的灵敏度。进一步对多核多背景检测结构进行级联提升,上一级的输出作为下一级的输入,以期提取更丰富的图像特征并加强整个检测器的分类能力。另外,在每次训练过程中,对每个训练样本赋予一个权重,对每一级多核多背景检测结构的分类功能进行训练时,通过对各训练样本的当前损失函数值做加权和作为该级检测结构的分类结果,同时通过所有训练样本的当前损失函数值更新每个训练样本的权重以用于下一级多核多背景检测结构的分类功能的训练,具体的,在更新权重时,当前损失函数值大的训练样本的更新权重大于当前损失函数值小的训练样本,以在下一级多核多背景检测结构的分类功能训练时更多的补偿上一级多核多背景检测结构对该训练样本的分类误差,加强了各级多核多背景检测结果的分类能力,提高整个检测器的分类精度,使得检测器在复杂背景下有较好的检测性能。
上述技术方案的基础上,本发明还可以做如下改进。
进一步,每个所述多核多背景检测结构包括:依次连接的ROI池化层、Inception网络结构、Maxout结构多背景分类框架和回归器,其中,所述Inception网络结构作为特征提取器,所述多背景分类框架作为分类器。
本发明的进一步有益效果是:首先对Faster R-CNN的主体部分做了改进,使用基于Inception网络结构的特征提取器和基于Maxout结构的多背景分类器。改进后的主体部分称为多核多背景检测结构。由于Inception网络结构的功能为对上一层特征向量使用不同大小的卷积核进行卷积,然后将不同尺度的特征进行融合,使得背景和目标的特征更有区分度,同时其所含参数远少于Faster R-CNN中原始特征提取器(包括两个全连接层)。另外,Maxout结构多背景分类框架能够细化背景类别,而不是将所有背景通定为一种进行置信度输出,提高对目标的检测灵敏度,避免虚警或者漏检问题,从而能够缓解复杂背景下分类不准确的问题。
进一步,所述多背景分类框架采用softmax激活函数,得到c+k维置信度向量,其中,c表示目标类别个数,k表示背景类别个数。
本发明的进一步有益效果是:在分类任务中,计算每个节点的输出值,所有节点的输出值中最大的值所对应的类别即为分类结果。在原有分类过程中假设目标类别个数为c,则softmax激活函数的输出节点个数为n=c+1,多加的一类表示背景,而本发明采用多背景分类框架,将输入的样本数据分为目标类别1、目标类别2、…、目标类别c、背景1、背景2、…、背景k共c+k种类别,用这种方式来描述比较复杂的背景,然后取背景1、背景2、…、背景k中的最高得分作为背景的得分,最终得到背景得分和各个目标类别的得分,能够极大提高目标和背景的区分度,避免虚警或者漏检问题。
进一步,所述多核多背景检测结构的个数为三个。
进一步,所述迭代训练,具体为:
s1、将所述训练样本集输入到第一个多核多背景检测结构,并初始化训练样本集的权重分布;
s2、当前多核多背景检测结构中,特征提取器提取每个训练样本的一特征向量,分类器采用softmax激活函数得到每个特征向量对应的最大类别置信度,回归器对每个特征向量回归得到新的特征向量;
s3、基于所述权重分布和每个训练样本的所述最大类别置信度,计算每个训练样本的当前损失函数值以及所有当前损失函数值之间的加和;
s4、将每个训练样本的当前损失函数值除以归一化因子,作为所述权重分布中该训练样本的新的权重,将每个所述新的特征向量作为新的训练样本输入至级联的下一个多核多背景检测结构,完成本次迭代训练中当前多核多背景检测结构的训练并重复执行s2,直至所有多核多背景检测结构完成,之后重复s1直至满足迭代训练次数,其中,所述归一化因子为所有所述当前损失函数值的平均值。
本发明的进一步有益效果是:归一化因子为所述当前损失函数值的平均值,并且利用当前损失函数值除以该归一化因子来更新权重,这样可以使得更新之后的权重分布成为一个概率分布,并且样本的概率分布和为1。同时,可以保证被当前分类器误分类样本(损失函数值大的样本)的权值得到扩大,而被正确分类样本(损失函数值小的样本)的权值得到缩小。不断改变训练样本的权值分布,使得训练样本在分类器的学习中起到不同的作用。
进一步,所述初始化训练样本集的权重分布为:
D0=(w01,…w0i,…w0N),w0i=1,i=1,2,…N,N为训练样本个数。
本发明的进一步有益效果是:在级联的第一个多核多背景检测结构,在训练时采用初始化的权重分布,即每个训练样本的权重均为1,以在初始分类时使得每个训练样本平等地贡献该次分类的损失函数值,客观性较强,后续各级多核多背景检测结构,会根据前一次分类时得到的每个训练样本的损失函数值,进行权重更新,以保证上一级被错误分类的样本在下一级受到更多的关注,提高整个检测器的分类能力。
进一步,所述s3中,所述计算每个训练样本的当前损失函数值,具体为:
计算每个训练样本的当前softmax损失函数值cls_loss=w(m-1)i×softmax_loss,w(m-1)i为第i个训练样本在训练上一个多核多背景检测结构时得到的权重,m为当前多核多背景检测结构的序号,softmax_loss=-log Pi,i=1,2,…N,Pi为第i个训练样本的最大类别置信度。
本发明的进一步有益效果是:计算每个训练样本在当前分类的损失函数值时采用该级分类得到的softmax函数值与其在上一级分类后更新的权重相乘,作为该训练样本在该级分类的当前softmax损失函数值。各训练样本的当前softmax损失函数值相加,作为该级分类的总的损失函数值,因此不同训练样本的权重不同,对该级分类的损失函数值贡献大小不同。以保证了上一级被错误分类的样本在该级受到更多的关注。
进一步,所述s2中,所述回归器对每个特征向量回归得到新的特征向量,具体为:
回归器基于smooth L1损失函数,并采用全连接层网络,回归得到新的特征向量。
本发明还提供一种目标检测器,采用如上所述任一种目标检测器的构建方法构建得到。
本发明的有益效果是:采用上述构建方法构建的目标检测器,充分发挥了传统滤波算法和机器学习算法各自的优势,避免了人工选取阈值,在不同云层背景下都具有良好的鲁棒性,同时具有较高的分类精度。
本发明还提供一种存储介质,所述存储介质中存储有指令,当计算机读取所述指令时,使所述计算机执行如上述任一种目标检测器的构建方法。
附图说明
图1为本发明实施例提供的一种目标检测器的构建方法的流程框图;
图2为本发明实施例提供的Faster R-CNN网络结构图;
图3为本发明实施例提供的Inception特征提取器结构图;
图4为本发明实施例提供的Maxout多背景分类器的结构示意图;
图5为本发明实施例提供的目标检测器的级联结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
实施例一
一种目标检测器的构建方法100,如图1所示,包括:
步骤110、搭建Faster R-CNN目标检测模型框架,该框架包括区域建议网络模块和多个级联的多核多背景检测结构;
步骤120、采用区域建议网络模块,生成训练样本集;
步骤130、基于训练样本集及其权重分布,采用损失函数,迭代训练多个级联的多核多背景检测结构,得到Faster R-CNN目标检测模型;
其中,每次迭代训练时,训练完每一个多核多背景检测结构后,更新权重分布且其中损失函数值大的训练样本则其权重大,并基于更新的权重分布以及当前多核多背景检测结构产生的回归样本,训练级联的下一个多核多背景检测结构。
本实施例提出了一种基于多核多背景检测结构的目标检测器,具体在Faster R-CNN中引入多核多背景检测结构作为检测单元,替换原有的特征提取器、分类器和回归器,多核多背景的检测结构可以更好的区分各种目标和各种背景,加大背景和目标特征的区分度,提高在目标检测中对目标识别的灵敏度。进一步对多核多背景检测结构进行级联提升,上一级的输出作为下一级的输入,以期提取更丰富的图像特征并加强整个检测器的分类能力。
另外,在每次训练过程中,对每个训练样本赋予一个权重,对每一级多核多背景检测结构的分类功能进行训练时,通过对各训练样本的当前损失函数值做加权和作为该级检测结构的分类结果,同时通过所有训练样本的当前损失函数值更新每个训练样本的权重以用于下一级多核多背景检测结构的分类功能的训练,具体的,在更新权重时,当前损失函数值大的训练样本的更新权重大于当前损失函数值小的训练样本,以在下一级多核多背景检测结构的分类功能训练时更多的补偿上一级多核多背景检测结构对该训练样本的分类误差,加强了各级多核多背景检测结果的分类能力,提高整个检测器的分类精度,使得检测器在复杂背景下有较好的检测性能。特别适用于复杂背景下的无人机检测。
优选的,每个多核多背景检测结构包括:依次连接的ROI池化层、Inception网络结构、Maxout结构多背景分类框架和回归器,其中,Inception网络结构作为特征提取器,多背景分类框架作为分类器。
原始Faster R-CNN的结构如图2所示,Head模块即为主体部分(包括池化层、特征提取器、分类器和回归器),RPN表示区域建议网络模块,用于是提取一系列可能存在目标的位置框,但不区分提取框之间的具体的类别,只区分前景背景,所以有用到二分类,回归器也只是针对预提取框进行回归,经过分类加回归的预提取框自然更加准确。
本实施例首先对Faster R-CNN的主体部分做了改进,使用基于Inception网络结构的特征提取器和基于Maxout结构的多背景分类器。改进后的主体部分称为多核多背景检测结构。由于Inception网络结构的功能为对上一层特征向量使用不同大小的卷积核进行卷积,然后将不同尺度的特征进行融合,使得背景和目标的特征更有区分度,同时其所含参数远少于Faster R-CNN中原始特征提取器(包括两个全连接层),具体的,Inception网络结构可如图3所示(虚线框内)。另外,Maxout结构多背景分类框架能够细化背景类别,而不是将所有背景通定为一种进行置信度输出,提高对目标的检测灵敏度,避免虚警或者漏检问题,从而能够缓解复杂背景下分类不准确的问题。
优选的,多背景分类框架采用softmax激活函数,得到c+k维置信度向量,其中,c表示目标类别个数,k表示背景类别个数。
在分类任务中,计算每个节点的输出值,所有节点的输出值中最大的值所对应的类别即为分类结果。Faster R-CNN中原始的分类器为目标和背景的多分类,通常使用softmax激活函数,假设输入特征向量为x,输出向量为z,则softmax激活函数的计算公式为:
Figure BDA0002208143030000091
其中,n为输入向量和输出向量的维度,在多分类问题中,n为类别个数。
在输出向量中,每一个节点对应一个类别,输出向量在某个节点的值即为输入向量属于对应类别的置信度。在分类任务中,计算每个节点的输出值,所有节点的输出值中最大的值所对应的类别即为分类结果。在目标和背景的分类问题中,假设目标类别个数为c,则softmax激活函数的输出节点个数为n=c+1,多加的一类表示背景。
而基于Maxout结构的多背景分类框架,如图4所示,将输入样本(特征向量)分为目标类别1、目标类别2、…、目标类别c、背景1、背景2、…、背景k共c+k种类别,用这种方式来描述比较复杂的背景,然后取背景1、背景2、…、背景k中的最高得分作为背景的得分,最终得到背景得分和各个目标类别的得分(损失函数值),能够极大提高目标和背景的区分度,避免虚警或者漏检问题。
优选的,多核多背景检测结构的个数为三个。
优选的,上述迭代训练,如图5所示,具体为:
步骤131、将训练样本集输入到第一个多核多背景检测结构,并初始化训练样本集的权重分布;
步骤132、当前多核多背景检测结构中,特征提取器提取每个训练样本的一特征向量,分类器采用softmax激活函数得到每个特征向量对应的最大类别置信度,回归器对每个特征向量回归得到新的特征向量;
步骤133、基于权重分布和每个训练样本的最大类别置信度,计算每个训练样本的当前损失函数值以及所有当前损失函数值之间的加和;
步骤134、将每个训练样本的当前损失函数值除以归一化因子,作为权重分布中该训练样本的新的权重,将每个新的特征向量作为新的训练样本输入至级联的下一个多核多背景检测结构,完成本次迭代训练中当前多核多背景检测结构的训练并重复执行步骤132,直至所有多核多背景检测结构完成,之后重复步骤131直至满足迭代训练次数,其中,上述归一化因子为所有所述当前损失函数值的平均值。
归一化因子为所述当前损失函数值的平均值,并且利用当前损失函数值除以该归一化因子来更新权重,这样可以使得更新之后的权重分布成为一个概率分布,并且样本的概率分布和为1。同时,可以保证被当前分类器误分类样本(损失函数值大的样本)的权值得到扩大,而被正确分类样本(损失函数值小的样本)的权值得到缩小。不断改变训练样本的权值分布,使得训练样本在分类器的学习中起到不同的作用。
需要说明的是,图5的共享卷积层表示:在Faster RCNN检测网络中,RPN网络以及分类器、回归器共用同一个基础特征模型,利用共享卷积层来为全图提取特征,产生特征图。即相当于提取了两次特征,最开始利用共享卷积层先提取特征(此时不涉及到分类和回归),然后在每一级的分类和回归之前,再做一次特征提取(此时是为分类和回归做准备的,采用的是Inception网络结构),最初的初始训练样本,需要共享卷积层,来提取特征,然后用RPN产生建议区域(也即训练样本)。
另外,图5中,特征提取器0、分类器0和回归器0均属于区域建议网络模块(RPN),RPN产生的建议区域是整个级联多核多背景检测结构(即图中所示的I&M-Head)的输入。图中级联的三个多核多背景检测结构(I&M-Head)的网络结构是相同的,特征提取器均使用前面所述的Inception结构,分类器均使用前面所述的Maxout多背景分类框架,回归器与RoI池化仍使用Faster R-CNN原始版本。在训练过程中,级联的多核多背景检测结构(I&M-Head)是依次训练的,上一级的输出作为下一级的输入,各个多核多背景检测结构(I&M-Head)学习到的网络权重参数是不同的。在检测过程中,RPN产生的建议区域依次进入三个多核多背景检测结构(I&M-Head)进行计算和处理,最后一级多核多背景检测结构(I&M-Head)的分类器和回归器的输出作为整个检测算法的最终结果,也就是初始化的训练样本集是由0级来产生,其对应的初始化训练样本集的权重分布即下述D0。
优选的,初始化训练样本集的权重分布为:
D0=(w01,…w0i,…w0N),w0i=1,i=1,2,…N,N为训练样本个数。
在级联的第一个多核多背景检测结构,在训练时采用初始化的权重分布,即每个训练样本的权重均为1,以在初始分类时使得每个训练样本平等地贡献该次分类的损失函数值,客观性较强,后续各级多核多背景检测结构,会根据前一次分类时得到的每个训练样本的损失函数值,进行权重更新,以保证上一级被错误分类的样本在下一级受到更多的关注,提高整个检测器的分类能力。
优选的,所述s3中,所述计算每个训练样本的当前损失函数值,具体为:计算每个训练样本的当前softmax损失函数值cls_loss=w(m-1)i×softmax_loss,w(m-1)i为第i个训练样本在训练上一个多核多背景检测结构时得到的权重,m为当前多核多背景检测结构的序号,softmax_loss=-log Pi,i=1,2,…N,Pi为第i个训练样本的最大类别置信度。
计算每个训练样本在当前分类的损失函数值时采用该级分类得到的softmax函数值与其在上一级分类后更新的权重相乘,作为该训练样本在该级分类的当前softmax损失函数值。各训练样本的当前softmax损失函数值相加,作为该级分类的总的损失函数值,因此不同训练样本的权重不同,对该级分类的损失函数值贡献大小不同。以保证了上一级被错误分类的样本在该级受到更多的关注。
优选的,所述s2中,所述回归器对每个特征向量回归得到新的特征向量,具体为:
回归器基于smooth L1损失函数,并采用全连接层网络,回归得到新的特征向量。
对了验证本实施例方法得到的目标检测器对复杂背景下无人机的检测效果,根据无人机数据集的标注信息,将数据集划分为复杂背景图像和简单背景图像,无人机数据集中复杂背景和简单背景的图像数量如下表所示:
简单背景 复杂背景 合计
训练集 3509 724 4233
验证集 1212 266 1478
测试集 1208 252 1460
整体数据集 5929 1242 7229
数据集准备好之后,需要进行模型训练和测试,具体过程如下:
使用整体训练集共4233张图像训练本发明的检测模型。训练初始阶段使用在ImageNet数据集上预训练过的ResNet-50的网络参数对模型参数进行初始化。训练过程中,基础学习率设置为0.005,训练迭代次数设置为120000次,学习率在第80000次和第106600次迭代之后衰减十倍,动量设置为0.9,权重衰减倍数设置为0.0001。
使用训练好的网络分别对整体测试集、简单背景测试集、复杂背景测试集进行测试,同时使用其他几种深度学习目标检测方法对测试集进行测试,计算测试集上的AP,实验结果如下表所示:
Figure BDA0002208143030000131
由表中的实验结果可以看出,在检测精度方面,本实施例提出的检测器达到了最高的整体AP,整体AP比次优的算法高出0.0209;本实施例提出的检测器对简单背景的检测性能优于其他检测器,简单背景AP比次优的检测器高出0.0025;本实施例提出的检测器对复杂背景的检测性能优于其他检测器,复杂背景AP比次优的算法高出0.0785。
实施例二
一种目标检测器,采用如上所述任一种目标检测器的构建方法构建得到。采用上述构建方法构建的目标检测器,充分发挥了传统滤波算法和机器学习算法各自的优势,避免了人工选取阈值,在不同云层背景下都具有良好的鲁棒性,同时具有较高的分类精度。
相关技术方案同实施例一,在此不再赘述。
实施例三
一种存储介质,所述存储介质中存储有指令,当计算机读取所述指令时,使所述计算机执行如上实施例一所述任一种目标检测器的构建方法。
相关技术方案同实施例一,在此不再赘述。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种目标检测器的构建方法,其特征在于,包括:
搭建Faster R-CNN目标检测模型框架,该框架包括区域建议网络模块和多个级联的多核多背景检测结构;
采用所述区域建议网络模块,生成训练样本集;
基于所述训练样本集及其权重分布,采用损失函数,迭代训练所述多个级联的多核多背景检测结构,得到Faster R-CNN目标检测模型;
其中,每次迭代训练时,训练完每一个多核多背景检测结构后,更新所述权重分布且其中损失函数值大的训练样本则其权重大,并基于所述更新的权重分布以及当前多核多背景检测结构产生的回归样本,训练级联的下一个多核多背景检测结构。
2.根据权利要求1所述的一种目标检测器的构建方法,其特征在于,每个所述多核多背景检测结构包括:依次连接的ROI池化层、Inception网络结构、Maxout结构多背景分类框架和回归器,其中,所述Inception网络结构作为特征提取器,所述多背景分类框架作为分类器。
3.根据权利要求1所述的一种目标检测器的构建方法,其特征在于,所述多背景分类框架采用softmax激活函数,得到c+k维置信度向量,其中,c表示目标类别个数,k表示背景类别个数。
4.根据权利要求1所述的一种目标检测器的构建方法,其特征在于,所述多核多背景检测结构的个数为三个。
5.根据权利要求1至4任一项所述的一种目标检测器的构建方法,其特征在于,所述迭代训练,具体为:
s1、将所述训练样本集输入到第一个多核多背景检测结构,并初始化训练样本集的权重分布;
s2、当前多核多背景检测结构中,特征提取器提取每个训练样本的特征向量,分类器采用softmax激活函数得到每个特征向量对应的最大类别置信度,回归器对每个特征向量回归得到新的特征向量;
s3、基于所述权重分布和每个训练样本的所述最大类别置信度,计算每个训练样本的当前损失函数值以及所有当前损失函数值之间的加和;
S4、将每个训练样本的当前损失函数值除以归一化因子,作为所述权重分布中该训练样本的新的权重,将每个所述新的特征向量作为新的训练样本输入至级联的下一个多核多背景检测结构,完成本次迭代训练中当前多核多背景检测结构的训练并重复执行s2,直至所有多核多背景检测结构完成,之后重复s1直至满足迭代训练次数,其中,所述归一化因子为所有所述当前损失函数值的平均值。
6.根据权利要求5所述的一种目标检测器的构建方法,其特征在于,所述初始化训练样本集的权重分布为D0=(w01,…w0i,…w0N),w0i=1,i=1,2,…N,N为训练样本个数。
7.根据权利要求5所述的一种目标检测器的构建方法,其特征在于,所述s3中,所述计算每个训练样本的当前损失函数值,具体为:
计算每个训练样本的当前softmax损失函数值cls_loss=w(m-1)i×softmax_loss,w(m-1)i为第i个训练样本在训练上一个多核多背景检测结构时得到的权重,m为当前多核多背景检测结构的序号,softmax_loss=-logPi,i=1,2,…N,Pi为第i个训练样本的最大类别置信度。
8.根据权利要求5所述的一种目标检测器的构建方法,其特征在于,所述s2中,所述回归器对每个特征向量回归得到新的特征向量,具体为:
回归器基于smooth L1损失函数,并采用全连接层网络,回归得到新的特征向量。
9.一种目标检测器,其特征在于,采用如权利要求1至8任一项所述的一种目标检测器的构建方法构建得到。
10.一种存储介质,其特征在于,所述存储介质中存储有指令,当计算机读取所述指令时,使所述计算机执行上述如权利要求1至8任一项所述的一种目标检测器的构建方法。
CN201910888965.1A 2019-09-19 2019-09-19 一种目标检测器及其构建方法和应用 Active CN110716792B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910888965.1A CN110716792B (zh) 2019-09-19 2019-09-19 一种目标检测器及其构建方法和应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910888965.1A CN110716792B (zh) 2019-09-19 2019-09-19 一种目标检测器及其构建方法和应用

Publications (2)

Publication Number Publication Date
CN110716792A true CN110716792A (zh) 2020-01-21
CN110716792B CN110716792B (zh) 2023-06-06

Family

ID=69210645

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910888965.1A Active CN110716792B (zh) 2019-09-19 2019-09-19 一种目标检测器及其构建方法和应用

Country Status (1)

Country Link
CN (1) CN110716792B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723852A (zh) * 2020-05-30 2020-09-29 杭州迪英加科技有限公司 针对目标检测网络的鲁棒训练方法
CN111832406A (zh) * 2020-06-05 2020-10-27 中国科学院计算技术研究所 一种长尾目标检测方法与系统
CN111860265A (zh) * 2020-07-10 2020-10-30 武汉理工大学 一种基于样本损失的多检测框损失均衡道路场景理解算法
CN112364712A (zh) * 2020-10-21 2021-02-12 厦门大学 一种基于人体姿态的坐姿识别方法、系统及计算机可读存储介质
CN113378780A (zh) * 2021-06-30 2021-09-10 山东建筑大学 一种基于集成视觉的建筑物损伤智能检测系统与方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229557A (zh) * 2017-12-29 2018-06-29 中国人民解放军陆军装甲兵学院 一种具有标签的神经网络的加速训练方法及系统
CN108416324A (zh) * 2018-03-27 2018-08-17 百度在线网络技术(北京)有限公司 用于检测活体的方法和装置
CN108416394A (zh) * 2018-03-22 2018-08-17 河南工业大学 基于卷积神经网络的多目标检测模型构建方法
CN109902806A (zh) * 2019-02-26 2019-06-18 清华大学 基于卷积神经网络的噪声图像目标边界框确定方法
CN110189292A (zh) * 2019-04-15 2019-08-30 浙江工业大学 一种基于Faster R-CNN和密度估计的癌细胞检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229557A (zh) * 2017-12-29 2018-06-29 中国人民解放军陆军装甲兵学院 一种具有标签的神经网络的加速训练方法及系统
CN108416394A (zh) * 2018-03-22 2018-08-17 河南工业大学 基于卷积神经网络的多目标检测模型构建方法
CN108416324A (zh) * 2018-03-27 2018-08-17 百度在线网络技术(北京)有限公司 用于检测活体的方法和装置
CN109902806A (zh) * 2019-02-26 2019-06-18 清华大学 基于卷积神经网络的噪声图像目标边界框确定方法
CN110189292A (zh) * 2019-04-15 2019-08-30 浙江工业大学 一种基于Faster R-CNN和密度估计的癌细胞检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ZHAOWAI CAI,NUNO VASCONCELOS: "Cascade R-CNN: Delving into High Quality Object Detection", 《ARXIV》 *
刘清波: "基于深度学习的行人检测研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
高志强等: "《深度学习 从入门到实践》", 30 June 2018 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723852A (zh) * 2020-05-30 2020-09-29 杭州迪英加科技有限公司 针对目标检测网络的鲁棒训练方法
CN111723852B (zh) * 2020-05-30 2022-07-22 杭州迪英加科技有限公司 针对目标检测网络的鲁棒训练方法
CN111832406A (zh) * 2020-06-05 2020-10-27 中国科学院计算技术研究所 一种长尾目标检测方法与系统
CN111832406B (zh) * 2020-06-05 2022-12-06 中国科学院计算技术研究所 一种长尾目标检测方法与系统
CN111860265A (zh) * 2020-07-10 2020-10-30 武汉理工大学 一种基于样本损失的多检测框损失均衡道路场景理解算法
CN111860265B (zh) * 2020-07-10 2024-01-05 武汉理工大学 一种基于样本损失的多检测框损失均衡道路场景理解算法
CN112364712A (zh) * 2020-10-21 2021-02-12 厦门大学 一种基于人体姿态的坐姿识别方法、系统及计算机可读存储介质
CN113378780A (zh) * 2021-06-30 2021-09-10 山东建筑大学 一种基于集成视觉的建筑物损伤智能检测系统与方法

Also Published As

Publication number Publication date
CN110716792B (zh) 2023-06-06

Similar Documents

Publication Publication Date Title
CN110716792B (zh) 一种目标检测器及其构建方法和应用
CN113378632B (zh) 一种基于伪标签优化的无监督域适应行人重识别方法
CN109919108B (zh) 基于深度哈希辅助网络的遥感图像快速目标检测方法
CN110334765B (zh) 基于注意力机制多尺度深度学习的遥感影像分类方法
CN110020592B (zh) 物体检测模型训练方法、装置、计算机设备及存储介质
Wu et al. Cascaded fully convolutional networks for automatic prenatal ultrasound image segmentation
CN109559320B (zh) 基于空洞卷积深度神经网络实现视觉slam语义建图功能的方法及系统
US11816183B2 (en) Methods and systems for mining minority-class data samples for training a neural network
CN112101430B (zh) 用于图像目标检测处理的锚框生成方法及轻量级目标检测方法
CN108596053A (zh) 一种基于ssd和车辆姿态分类的车辆检测方法和系统
US20150235079A1 (en) Learning device, learning method, and program
CN114841257B (zh) 一种基于自监督对比约束下的小样本目标检测方法
CN111652317A (zh) 基于贝叶斯深度学习的超参数图像分割方法
CN110751027B (zh) 一种基于深度多示例学习的行人重识别方法
CN110082738B (zh) 基于高斯混合和张量循环神经网络的雷达目标识别方法
CN115049952B (zh) 一种基于多尺度级联感知深度学习网络的幼鱼肢体识别方法
CN112364747B (zh) 一种有限样本下的目标检测方法
CN108460336A (zh) 一种基于深度学习的行人检测方法
CN112085765A (zh) 结合粒子滤波及度量学习的视频目标跟踪方法
CN112036367A (zh) 一种yolo卷积神经网络的人数检测方法
CN111582091A (zh) 基于多分支卷积神经网络的行人识别方法
CN110516700B (zh) 基于度量学习的细粒度图像分类方法
CN115393631A (zh) 基于贝叶斯层图卷积神经网络的高光谱图像分类方法
CN116883457B (zh) 一种基于检测跟踪联合网络和混合密度网络的轻量化多目标跟踪方法
CN113989655A (zh) 基于自动化深度学习的雷达或声呐图像目标检测与分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant