CN110321867B - 基于部件约束网络的遮挡目标检测方法 - Google Patents

基于部件约束网络的遮挡目标检测方法 Download PDF

Info

Publication number
CN110321867B
CN110321867B CN201910616951.4A CN201910616951A CN110321867B CN 110321867 B CN110321867 B CN 110321867B CN 201910616951 A CN201910616951 A CN 201910616951A CN 110321867 B CN110321867 B CN 110321867B
Authority
CN
China
Prior art keywords
layer
convolution
convolutional layer
twenty
convolutional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910616951.4A
Other languages
English (en)
Other versions
CN110321867A (zh
Inventor
张中强
高大化
刘丹华
牛毅
石光明
张学聪
姜嵩
秦健瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201910616951.4A priority Critical patent/CN110321867B/zh
Publication of CN110321867A publication Critical patent/CN110321867A/zh
Application granted granted Critical
Publication of CN110321867B publication Critical patent/CN110321867B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Abstract

本发明公开了一种基于部件约束网络的遮挡目标检测方法,通过在目标检测网络中融入遮挡目标的部件特征,克服了现有技术都是基于对遮挡目标的全局特征进行学习,并没有关注到遮挡目标部件特征的学习的缺点。本发明实现的步骤是:(1)构建部件库;(2)生成训练样本集和测试集;(3)构建部件约束网络;(4)构建全局网络;(5)训练部件约束网络和全局网络;(6)对测试样本集进行检测识别。本发明具有在目标位置预测准确率更高、解决遮挡目标检测识别问题的优点,可用于自然图像的中的目标检测识别。

Description

基于部件约束网络的遮挡目标检测方法
技术领域
本发明属于图像处理技术领域,更进一步涉及目标检测技术领域中的一种基于部件约束网络的遮挡目标检测方法。本发明可用于对自然图像下具有难度的遮挡目标进行检测识别。
背景技术
自然图像是指通过相机等拍摄设备对自然场景进行拍摄得到的图片,对自然场景下获取的目标进行识别是指对获取的图像进行图像特征提取,依据获取的图像特征信息进行目标检测识别,这是计算机视觉领域中重要任务之一,在安全监控,病人监护系统具有重要意义。然而自然图像中经常有一些目标会被其他目标或相似目标遮挡,有时候遮挡面积占到整个目标的1/4,1/2,3/4。这样就导致了图像的特征不全,信息缺失,进而影响了最终的目标检测结果。
Ren Shaoqing等人在其发表的论文“Faster R-CNN:Towards Real-Time ObjectDetection with Region Proposal Networks”(IEEE Transactions on PatternAnalysis and Machine Intelligence,2017)中提出一种基于深度卷积神经网络对车、摩托车和飞机等20类不同目标的图像进行目标检测识别的方法。该Faster R-CNN网络由残差网络模块,区域建议模块,分类回归模块构成,残差网络模块从图像中提取出具有更高级别的特征,更高级别的特征是以加权的形式将较低级的特征组合在一起,即前一层的激活与下一层神经元的权重相乘并相加,然后传递到激励函数中,更高级别的特征用于后续的区域建议模块和分类回归模块使用。区域建议模块接收到残差模块特征图后首先生成一堆的anchor boxes,对其进行裁剪过滤后通过softmax层判断anchors属于前景(foreground)还是后景(background)。另一个边界框回归修正anchor boxes,形成较为精确的建议框。然后ROI Pooling层利用这些建议框和残差模块生成的特征图得到固定大小的ROI(region ofinterest)特征图进入到分类回归模块。该分类回归模块利用softmax层进行具体类别的分类,同时利用边界框回归操作获得物体的精确位置。但是,该方法仍然存在的不足之处是,该Faster R-CNN网络对于图像特征的连接权值是等价的,并没有关注到图像中一些目标部件特征的学习,从而导致该方法在目标发生遮挡时出现漏检或检测准确率不高的情况。
桂林电子科技大学在其申请的专利文献“一种利用特征图融合的目标检测方法”(专利申请号:CN 201810843493.3,申请公布号:CN 109034245A)中公开了一种针对自然图像的通用目标利用特征图融合方法进行检测。该方法的具体步骤是:首先利用ZF网络提取图像特征并得到一系列处于不同层次的特征图;其次将ZF网络提取的图像特征图中的最深层特征图和浅层特征图相融合得到新特征图;再次将新特征图输入到RPN(regionproposal network)模块汇总得到区域建议框;最后将新特征图和区域检测输入到ROIPooling层中得到区域建议的特征并同时对特征进行分类和对区域建议进行边框回归得到目标检测结果。但是,该方法仍然存在的不足之处是,该方法对于目标特征的连接是等价的,并没有关注到图像中遮挡目标的部件特征,从而导致对遮挡目标检测效果差。
除此上述列举的卷积神经网络目标检测方法之外,目前基于深度卷积网络的目标检测方法都与上述两个方法类似,但是他们都有一个共性,都是进行全局的图像特征学习,即对于目标特征的连接权值是等价的,并没有特别关注到目标中某些部件特征的学习,从而导致该方法在目标发生遮挡的情况下出现漏检或检测准确率不高的情况。
发明内容
本发明的目的在于针对上述现有技术的不足,提出了一种基于部件约束网络的遮挡目标检测方法,以解决自然图像下具有难度的遮挡目标检测识别问题。
实现本发明目的的思路是,依据人眼视觉系统对遮挡目标的识别:人眼很容易关注到复杂环境中遮挡目标的重要部件,当目标发生遮挡时,人眼依旧能够根据这些重要的部件信息来识别目标。以轿车和摩托车为例,其中轿车和摩托车共有的部件有车灯、车轮和反光镜。在轿车和摩托车发生遮挡时,这些部件往往还在人视野中,因此人眼依旧能够识别轿车和摩托车。这种机制主要是人在识别的时候依据了很多以前习得的先验知识,这些先验知识可以帮助现有的检测网络学习到重要的目标部件信息。本发明提出在目标检测网络的学习过程中,添加图像的重要部件特征(先验知识),以使得网络在检测识别过程中能着重关注到这些重要的部件特征,本发明将模拟人利用先验知识这种机制,构建一种基于部件约束网络的遮挡目标检测模型。
这些先验信息主要指的是根据人们对遮挡目标的理解所构造的部件库,部件约束网络通过对部件库中所有标注遮挡目标部件坐标位置图片的学习来获得部件的特征。该特征用于对全局网络学习到的全局目标特征进行增强构建一种新型的针对遮挡目标检测识别的网络模型。该模型可以解决遮挡目标的问题。
为实现上述目的,本发明的具体步骤如下:
(1)构造部件库:
(1a)构造一个所有待检测目标类别的部件库,其中每一类别至少包含200张带有遮挡目标图片;
(1b)对每张含有遮挡目标图片标注遮挡目标部件的坐标位置;
(2)生成训练样本集和测试集:
将摄像机获取的至少10000张图像组成样本集,每张图像包含被遮挡目标,取样本集中的55%的样本组成训练集,其余的样本组成测试集;
(3)构建部件约束网络:
(3a)搭建一个VGG16特征提取模块并设置每层的参数;
(3b)搭建一个部件RPN感兴趣区域提取模块并设置每层的参数;
(3c)搭建一个部件分类回归模块并设置每层的参数;
(3d)将VGG16特征提取模块、部件RPN感兴趣区域提取模块、部件分类回归模块串联组成部件约束网络;
(4)构建全局网络:
(4a)搭建一个ResNet34特征提取模块并设置每层的参数;
(4b)搭建一个由两个子RPN模块并联组成的全局RPN模块并设置每层的参数;
(4c)搭建一个全局分类回归模块并设置每层的参数;
(4d)将ResNet34特征提取模块、全局RPN模块、全局分类回归模块串联组成全局网络;
(5)训练部件约束网络和全局网络:
(5a)将部件库中所有标注遮挡目标部件坐标位置的图片,输入到部件约束网络中,对部件约束网络参数更新迭代5000次,得到训练好的部件约束网络;
(5b)将训练好部件约束网络时的部件RPN模块参数,加载到全局网络的一个子RPN模块中,得到预训练后的全局网络;
(5c)将训练样本集中所有包含被遮挡目标的图像,输入到预训练后的全局网络中,对预训练的全局网络参数更新迭代8000次,得到训练好的全局网络;
(6)对测试样本集进行检测识别:
(6a)将测试样本集中所有包含被遮挡目标的图像,输入到训练好的全局网络中的ResNet34特征提取模块中,输出每个样本图像对应的高级特征图;
(6b)将所有样本图像的高级特征图输入到全局RPN模块,输出感兴趣区域ROI建议框,将感兴趣区域ROI建议框的坐标位置在高级特征图上做映射,生成感兴趣区域ROI目标特征图;
(6c)将感兴趣区域ROI目标特征图输入到全局分类回归模块中,得到遮挡目标的检测识别结果。
本发明与现有的技术相比具有以下优点:
第一,由于本发明构建了遮挡目标的部件库,用于训练部件约束网络,并将部件RPN模块参数加载到全局网络的一个子RPN模块中,在对遮挡目标检测时,克服了现有技术都是基于对遮挡目标的全局特征进行学习,并没有关注到遮挡目标中某些目标部件特征的学习的缺点。使得本发明提高了目标检测识别效率。
第二,由于本发明搭建的部件约束网络可从部件库中所有标注遮挡目标部件坐标位置的图片学习到遮挡目标部件特征,克服了现有技术中图像遮挡目标特征的连接权值都是等价的缺点,使得本发明对遮挡目标更加鲁棒。
第三,由于本发明在搭建的全局网络中加载了部件约束网络中部件RPN模块参数,克服了现有技术在目标定位时坐标位置不够准确的缺点,使得本发明经全局网络最后预测的目标位置更加准确,即在并集上的交集IOU阈值更高的情况下,全局网络依旧具有较高的检测识别准确率。
第四,由于本发明构建的部件库可根据不同的待检测遮挡目标来进行扩充。客服了现有技术中网络参数一旦固定则可识别的遮挡目标类别也固定的缺点,全局网络可以对更多的遮挡目标进行识别,泛化能力强。
附图说明
图1是本发明的流程图;
图2是本发明遮挡目标检测识别模型结构示意图。
具体实施方式
下面结合附图对本发明做进一步的描述。
参照附图1,对本发明的实现具体步骤做进一步的描述。
步骤1,构造部件库。
构造一个所有待检测目标类别的部件库,其中每一类别至少包含200张带有遮挡目标图片。
对每张含有遮挡目标图片标注遮挡目标部件的坐标位置。
步骤2,生成训练样本集和测试集。
将摄像机获取的至少10000张图像组成样本集,每张图像包含被遮挡目标,取样本集中的55%的样本组成训练集,其余的样本组成测试集。
步骤3,构建部件约束网络。
搭建一个VGG16特征提取模块并设置每层的参数。
所述VGG16特征提取模块的结构依次为:第一卷积层—>第一池化层—>第二卷积层—>第二池化层—>第三卷积层—>第三池化层—>第四卷积层—>第四池化层—>第五卷积层—>第五池化层—>第六卷积层—>第六池化层—>第七卷积层—>第七池化层—>第八卷积层—>第八池化层—>第九卷积层—>第九池化层—>第十卷积层—>第十池化层—>第十一卷积层—>第十一池化层—>第十二卷积层—>第十二池化层—>第十三卷积层—>第十三池化层—>全连接层。
所述VGG16特征提取模块每层参数设置如下:将第一第二卷积层的卷积核大小设置为3*3,个数设置为64,将第三第四卷积层的卷积核大小设置为3*3,个数设置为128,将第五至第七卷积层的卷积核大小设置为3*3,个数设置为256,将第八至第十三卷积层的卷积核大小设置为3*3,个数设置为512;每个池化层均采用最大池化方式,每个池化层的卷积池化核大小均设置为2*2。
搭建一个部件RPN模块并设置每层的参数。
所述部件RPN模块的结构由三个卷积层构成,第一卷积层的卷积核为3*3,个数设置为512,第二卷积层和第三卷积层并联,第二卷积层的卷积核为1*1,个数设置为18,第三卷积层卷积核为1*1,个数设置为36。
搭建一个部件分类回归模块并设置每层的参数。
所述的部件分类回归模块由两个串联的全连接层和两个并联的全连接层构成,第一、第二全连接层串联且维度均为4096,第三全连接层和第四全连接层并联,第三全连接层的维度为21,第四全连接层的维度为84。
将VGG16特征提取模块、部件RPN模块、部件分类回归模块串联组成部件约束网络。
步骤4,构建全局网络。
搭建一个ResNet34特征提取模块并设置每层的参数。ResNet34特征提取模块用于获得输入图像的高级特征图,
所述ResNet34特征提取模块的结构依次为:第一卷积层—>第一池化层—>第二卷积层—>第三卷积层—>第四卷积层—>第五卷积层—>第六卷积层—>第七卷积层—>第八卷积层—>第八池化层—>第九卷积层—>第十卷积层—>第十一卷积层—>第十二池化层—>第十三卷积层—>第十四卷积层—>第十五卷积层—>第十六卷积层—>第十六池化层—>第十七卷积层—>第十八卷积层—>第十九卷积层—>第二十卷积层—>第二十一卷积层—>第二十二卷积层—>第二十三卷积层—>第二十四卷积层—>第二十五卷积层—>第二十六卷积层—>第二十七卷积层—>第二十八卷积层—>第二十八池化层—>第二十九卷积层—>第三十卷积层—>第三十一卷积层—>第三十二卷积层—>第三十三卷积层—>第三十三卷积层—>全连接。
所述ResNet34特征提取模块每层参数设置如下:将第一卷积层的卷积核大小为7*7,个数为64,第二至第七卷积层的卷积核大小设置为3*3,个数设置为64,将第八至第十五卷积层的卷积核大小设置为3*3,个数设置为128,将第十六至第二十七卷积层的卷积核大小设置为3*3,个数设置为256,将第二十八至第三十三卷积层的卷积核大小设置为3*3,个数设置为512;每个池化层均采用最大池化方式,每个池化层的卷积池化核大小均设置为2*2。
搭建一个由两个子RPN模块并联组成的全局RPN模块并设置每层的参数,全局RPN模块获得的感兴趣区域建议框与高级特征图做剪切操作获得ROI目标特征图。
所述的子RPN模块的结构由三个卷积层构成,第一卷积层的卷积核为3*3,个数设置为512,第二卷积层和第三卷积层并联,第二卷积层的卷积核为1*1,个数设置为18,第三卷积层卷积核为1*1,个数设置为36。
搭建一个全局分类回归模块并设置每层的参数,
所述的全局分类回归模块由两个串联的全连接层和两个并联的全连接层构成,第一、第二全连接层串联且维度均为4096,第三全连接层和第四全连接层并联,第三全连接层的维度为21,第四全连接层的维度为84。
将ResNet34特征提取模块、全局RPN模块、全局分类回归模块串联组成全局网络。
步骤5,训练部件约束网络和全局网络。
将部件库中所有标注遮挡目标部件坐标位置的图片,输入到部件约束网络中,对部件约束网络参数更新迭代5000次,得到训练好的部件约束网络。
将训练好部件约束网络时的部件RPN模块参数,加载到全局网络的一个子RPN模块中,得到预训练后的全局网络。使得全局网络具有了部件约束网络的部件特征提取能力,在训练全局网络时可以提取出遮挡目标的部件特征,进而增强全局网络的全局特征,可以更加准确的预测遮挡目标所在位置。
将训练样本集中所有包含被遮挡目标的图像,输入到预训练后的全局网络中,对预训练的全局网络参数更新迭代8000次,得到训练好的全局网络。
步骤6,对测试样本集进行检测识别。
将测试样本集中所有包含被遮挡目标的图像,输入到训练好的全局网络中的ResNet34特征提取模块中,输出每个样本图像对应的高级特征图。
将所有样本图像的高级特征图输入到全局RPN模块,输出感兴趣区域ROI建议框,将感兴趣区域ROI建议框的坐标位置在高级特征图上做映射,生成感兴趣区域ROI目标特征图。
将感兴趣区域ROI目标特征图输入到全局分类回归模块中,得到遮挡目标的检测识别结果。
参照附图2,对本发明的全局网络检测遮挡目标的过程做进一步的说明。
本发明的遮挡目标检测结果是基于部件约束网络下的全局网络预测值得到,全局网络是由ResNet34特征提取模块、全局RPN模块、全局分类回归模块组成的检测网络输出图像中遮挡目标的检测识别结果。
图2中首先将带有遮挡目标的自然图像输入到ResNet34特征提取模块中,获得图像的高级特征图,图像的高级特征图再输入到全局RPN模块中,获得感兴趣区域ROI建议框,感兴趣区域ROI建议框坐标位置在高级特征图上做映射,生成感兴趣区域ROI目标特征图,将感兴趣区域ROI目标特征图再输入到全局分类回归模块获得遮挡目标的检测识别结果。
下面结合仿真实验对本发明的效果做进一步说明。
1.仿真实验条件:
本发明的仿真实验的硬件平台为:Inter core i7-6700,频率为3.4GHz,NvidiaGeForce GTX1080Ti。本发明的仿真实验的软件使用pytorch。
2.仿真内容及其结果分析:
本发明的仿真实验是采用本发明和两个现有技术(Faster R-CNN方法、YOLOv3目标检测方法)分别对PASCAL VOC2012和COCO数据集中轿车和摩托车两类目标图片进行目标检测。本发明中使用PASCAL VOC2012中的1812张训练集,1856张测试集。使用的COCO数据集中1881张训练集,744张测试集。其中PASCAL VOC2012数据集是由英国牛津大学MarkEveringham等人建立的用于目标检测的自然图像数据集,本发明仿真实验所使用的数据集采自官网:http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html。COCO数据集是由微软公司的Lin Tsung-Yi等人构造的用于目标检测的自然图像数据集,本发明仿真实验所使用的数据集采自官网:http://cocodataset.org/。
在仿真实验中,采用的两个现有技术是指:
Faster R-CNN方法是指:Ren Shaoqing等人在“Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks”(IEEE Transactions onPattern Analysis and Machine Intelligence,2017)中提出的图像目标检测识别方法,简称Faster R-CNN方法。
YOLOv3目标检测方法是指:Joseph Redmon等人在“YOLOv3:An IncrementalImprovement”(http://arxiv.org/abs/1804.02767,2018)中提出的一种图像目标快速检测识别方法,简称YOLOv3方法。
为了验证本发明的高效性和良好的检测识别性能,采用在不同的并集上的交集IOU阈值下检测准确率AP和平均检测准确率mAP指标来评价本发明仿真实验的结果:第一个评价指标是针对轿车和摩托车的检测率,检测率数值越高,说明该类目标检测出来的越多。第二个评价指标是平均检测准确率,表示所有目标类别检测准确率的平均值,该值越大,说明该方法在相应数据集上检测效果越好,对每张图像来说,正确检测识别是指模型预测类别与图像目标标签相同且预测的边界框和真值边界框的交集大于设定的并集上的交集IOU。
仿真实验中并集上的交集IOU设置为0.5或0.9,AP@IOU,mAP@IOU分别指的是在并集上的交集IOU阈值下检测准确率AP和平均检测准确率mAP。并集上的交集IOU,检测准确率AP,平均检测准确率mAP的计算方式如下:
Figure BDA0002124272490000091
Figure BDA0002124272490000092
Figure BDA0002124272490000093
将本发明和两个现有技术在PASCAL VOC2012和COCO数据集中轿车和摩托车两类目标测试集上的计算结果绘制成表1:
表1不同数据集下本发明与现有技术目标检测结果的定量分析表
Figure BDA0002124272490000094
表1为本发明方法与Faster R-CNN、YOLOv3网络分别在PASCAL VOC2012和COCO数据集上训练后,对测试集识别准确率的比较情况,由表1可以看出,本发明的在PASCALVOC2012和COCO数据集下,获得较高的识别准确率,从表1可以看到我们的方法在两个数据集上均有较高的检测准确率。且在并集上的交集IOU=0.5的情况下,在PASCAL VOC2012和COCO上,我们的模型比Faster R-CNN、YOLOv3高出1.49、5.98和3.22、3.53个百分点。而在并集上的交集IOU=0.9时,这些数值变成了4.08、72.4和5.53、67.51个百分点。这直接说明了本发明所提出的方法可以更加准确的预测出目标所在的坐标位置。
以上仿真实验表明:本发明的方法利用构造的部件库,能够获取遮挡目标的部件坐标位置,利用搭建的部件约束网络,能够获得遮挡目标的部件特征,利用了搭建基于部件约束网络下的全局网络,能够提取、融合遮挡目标的部件特征和全局特征使得网络更加关注到遮挡目标的部件信息,解决了现有技术方法中存在的只用全局空间特征信息、并没有关注到遮挡目标的部件特征,从而导致在目标发生遮挡时出现漏检或检测准确率不高的情况,是一种非常实用的针对遮挡目标的检测识别方法。

Claims (6)

1.一种基于部件约束网络的遮挡目标检测方法,其特征在于,构造一个部件库,搭建部件约束网络,搭建全局网络,将训练好的部件约束网络的部件RPN模块参数加载到全局网络中,用训练集训练全局网络;该方法的具体步骤包括如下:
(1)构造部件库:
(1a)构造一个所有待检测目标类别的部件库,其中每一类别至少包含200张带有遮挡目标图片;
(1b)对每张含有遮挡目标图片标注遮挡目标部件的坐标位置;
(2)生成训练样本集和测试集:
将摄像机获取的至少10000张图像组成样本集,每张图像包含被遮挡目标,取样本集中的55%的样本组成训练集,其余的样本组成测试集;
(3)构建部件约束网络:
(3a)搭建一个VGG16特征提取模块并设置每层的参数;
(3b)搭建一个部件RPN感兴趣区域提取模块并设置每层的参数;
(3c)搭建一个部件分类回归模块并设置每层的参数;
(3d)将VGG16特征提取模块、部件RPN感兴趣区域提取模块、部件分类回归模块串联组成部件约束网络;
(4)构建全局网络:
(4a)搭建一个ResNet34特征提取模块并设置每层的参数;
(4b)搭建一个由两个子RPN模块并联组成的全局RPN模块并设置每层的参数;
(4c)搭建一个全局分类回归模块并设置每层的参数;
(4d)将ResNet34特征提取模块、全局RPN模块、全局分类回归模块串联组成全局网络;
(5)训练部件约束网络和全局网络:
(5a)将部件库中所有标注遮挡目标部件坐标位置的图片,输入到部件约束网络中,对部件约束网络参数更新迭代5000次,得到训练好的部件约束网络;
(5b)将训练好部件约束网络时的部件RPN模块参数,加载到全局网络的一个子RPN模块中,得到预训练后的全局网络;
(5c)将训练样本集中所有包含被遮挡目标的图像,输入到预训练后的全局网络中,对预训练的全局网络参数更新迭代8000次,得到训练好的全局网络;
(6)对测试样本集进行检测识别:
(6a)将测试样本集中所有包含被遮挡目标的图像,输入到训练好的全局网络中的ResNet34特征提取模块中,输出每个样本图像对应的高级特征图;
(6b)将所有样本图像的高级特征图输入到全局RPN模块,输出感兴趣区域ROI建议框,将感兴趣区域ROI建议框的坐标位置在高级特征图上做映射,生成感兴趣区域ROI目标特征图;
(6c)将感兴趣区域ROI目标特征图输入到全局分类回归模块中,得到遮挡目标的检测识别结果。
2.根据权利要求1所述的基于部件约束网络的遮挡目标检测方法,其特征在于,步骤(3a)中所述VGG16特征提取模块的结构依次为:第一卷积层—>第一池化层—>第二卷积层—>第二池化层—>第三卷积层—>第三池化层—>第四卷积层—>第四池化层—>第五卷积层—>第五池化层—>第六卷积层—>第六池化层—>第七卷积层—>第七池化层—>第八卷积层—>第八池化层—>第九卷积层—>第九池化层—>第十卷积层—>第十池化层—>第十一卷积层—>第十一池化层—>第十二卷积层—>第十二池化层—>第十三卷积层—>第十三池化层—>全连接层;
所述VGG16特征提取模块每层参数设置如下:将第一第二卷积层的卷积核大小设置为3*3,个数设置为64,将第三第四卷积层的卷积核大小设置为3*3,个数设置为128,将第五至第七卷积层的卷积核大小设置为3*3,个数设置为256,将第八至第十三卷积层的卷积核大小设置为3*3,个数设置为512;每个池化层均采用最大池化方式,每个池化层的池化核大小均设置为2*2。
3.根据权利要求1所述的基于部件约束网络的遮挡目标检测方法,其特征在于,步骤(3b)中所述部件RPN感兴趣区域提取模块的结构由三个卷积层构成,第一卷积层的卷积核为3*3,个数设置为512,第二卷积层和第三卷积层并联,第二卷积层的卷积核为1*1,个数设置为18,第三卷积层卷积核为1*1,个数设置为36。
4.根据权利要求1所述的基于部件约束网络的遮挡目标检测方法,其特征在于,步骤(3c)中所述的部件分类回归模块由两个串联的全连接层和两个并联的全连接层构成,第一、第二全连接层串联且维度均为4096,第三全连接层和第四全连接层并联,第三全连接层的维度为21,第四全连接层的维度为84。
5.根据权利要求1所述的基于部件约束网络的遮挡目标检测方法,其特征在于,步骤(4a)中所述ResNet34特征提取模块的结构依次为:第一卷积层—>第一池化层—>第二卷积层—>第三卷积层—>第四卷积层—>第五卷积层—>第六卷积层—>第七卷积层—>第八卷积层—>第八池化层—>第九卷积层—>第十卷积层—>第十一卷积层—>第十二池化层—>第十三卷积层—>第十四卷积层—>第十五卷积层—>第十六卷积层—>第十六池化层—>第十七卷积层—>第十八卷积层—>第十九卷积层—>第二十卷积层—>第二十一卷积层—>第二十二卷积层—>第二十三卷积层—>第二十四卷积层—>第二十五卷积层—>第二十六卷积层—>第二十七卷积层—>第二十八卷积层—>第二十八池化层—>第二十九卷积层—>第三十卷积层—>第三十一卷积层—>第三十二卷积层—>第三十三卷积层—>第三十三卷积层—>全连接;
所述ResNet34特征提取模块每层参数设置如下:将第一卷积层的卷积核大小为7*7,个数为64,第二至第七卷积层的卷积核大小设置为3*3,个数设置为64,将第八至第十五卷积层的卷积核大小设置为3*3,个数设置为128,将第十六至第二十七卷积层的卷积核大小设置为3*3,个数设置为256,将第二十八至第三十三卷积层的卷积核大小设置为3*3,个数设置为512;每个池化层均采用最大池化方式,每个池化层的卷积池化核大小均设置为2*2。
6.根据权利要求1所述的基于部件约束网络的遮挡目标检测方法,其特征在于,步骤(4c)中所述的全局分类回归模块由两个串联的全连接层和两个并联的全连接层构成,第一、第二全连接层串联且维度均为4096,第三全连接层和第四全连接层并联,第三全连接层的维度为21,第四全连接层的维度为84。
CN201910616951.4A 2019-07-09 2019-07-09 基于部件约束网络的遮挡目标检测方法 Active CN110321867B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910616951.4A CN110321867B (zh) 2019-07-09 2019-07-09 基于部件约束网络的遮挡目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910616951.4A CN110321867B (zh) 2019-07-09 2019-07-09 基于部件约束网络的遮挡目标检测方法

Publications (2)

Publication Number Publication Date
CN110321867A CN110321867A (zh) 2019-10-11
CN110321867B true CN110321867B (zh) 2022-03-04

Family

ID=68121782

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910616951.4A Active CN110321867B (zh) 2019-07-09 2019-07-09 基于部件约束网络的遮挡目标检测方法

Country Status (1)

Country Link
CN (1) CN110321867B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110895707B (zh) * 2019-11-28 2023-06-20 江南大学 一种强遮挡条件下洗衣机内衣物类型的深度判别方法
CN113657462A (zh) * 2021-07-28 2021-11-16 讯飞智元信息科技有限公司 用于训练车辆识别模型的方法、车辆识别方法和计算设备
CN115432331A (zh) * 2022-10-10 2022-12-06 浙江绿达智能科技有限公司 一种智能分类垃圾箱

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105488515A (zh) * 2014-09-17 2016-04-13 富士通株式会社 训练卷积神经网路分类器的方法和图像处理装置
CN106504233A (zh) * 2016-10-18 2017-03-15 国网山东省电力公司电力科学研究院 基于Faster R‑CNN的无人机巡检图像电力小部件识别方法及系统
CN107038448A (zh) * 2017-03-01 2017-08-11 中国科学院自动化研究所 目标检测模型构建方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9324005B2 (en) * 2012-09-07 2016-04-26 Massachusetts Institute of Technology Quanta Computer Inc. Complex-valued phase-based eulerian motion modulation
US10628961B2 (en) * 2017-10-13 2020-04-21 Qualcomm Incorporated Object tracking for neural network systems

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105488515A (zh) * 2014-09-17 2016-04-13 富士通株式会社 训练卷积神经网路分类器的方法和图像处理装置
CN106504233A (zh) * 2016-10-18 2017-03-15 国网山东省电力公司电力科学研究院 基于Faster R‑CNN的无人机巡检图像电力小部件识别方法及系统
CN107038448A (zh) * 2017-03-01 2017-08-11 中国科学院自动化研究所 目标检测模型构建方法

Also Published As

Publication number Publication date
CN110321867A (zh) 2019-10-11

Similar Documents

Publication Publication Date Title
CN110084292B (zh) 基于DenseNet和多尺度特征融合的目标检测方法
CN109584248B (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
CN105938559B (zh) 使用卷积神经网络的数字图像处理
CN108764063B (zh) 一种基于特征金字塔的遥感影像时敏目标识别系统及方法
CN106874894B (zh) 一种基于区域全卷积神经网络的人体目标检测方法
CN109886312B (zh) 一种基于多层特征融合神经网络模型的桥梁车辆车轮检测方法
CN113902897B (zh) 目标检测模型的训练、目标检测方法、装置、设备和介质
CN109087510B (zh) 交通监测方法及装置
CN109086668B (zh) 基于多尺度生成对抗网络的无人机遥感影像道路信息提取方法
CN108038846A (zh) 基于多层卷积神经网络的输电线路设备图像缺陷检测方法及系统
CN110321867B (zh) 基于部件约束网络的遮挡目标检测方法
CN110348437B (zh) 一种基于弱监督学习与遮挡感知的目标检测方法
CN111898651A (zh) 一种基于Tiny YOLOV3算法的树木检测方法
CN110879982A (zh) 一种人群计数系统及方法
CN114140683A (zh) 一种航拍图像目标检测的方法、设备与介质
CN110991444A (zh) 面向复杂场景的车牌识别方法及装置
CN113191204B (zh) 一种多尺度遮挡行人检测方法及系统
CN114926747A (zh) 一种基于多特征聚合与交互的遥感图像定向目标检测方法
CN115797736B (zh) 目标检测模型的训练和目标检测方法、装置、设备和介质
CN116385958A (zh) 一种用于电网巡检和监控的边缘智能检测方法
CN116206223A (zh) 一种基于无人机边缘计算的火灾检测方法及系统
CN111178178B (zh) 结合区域分布的多尺度行人重识别方法、系统、介质及终端
Cai et al. Vehicle detection based on deep dual-vehicle deformable part models
CN116824335A (zh) 一种基于YOLOv5改进算法的火灾预警方法及系统
CN115861756A (zh) 基于级联组合网络的大地背景小目标识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant