CN114882340A - 基于边界框回归的弱监督目标检测方法 - Google Patents

基于边界框回归的弱监督目标检测方法 Download PDF

Info

Publication number
CN114882340A
CN114882340A CN202210398499.0A CN202210398499A CN114882340A CN 114882340 A CN114882340 A CN 114882340A CN 202210398499 A CN202210398499 A CN 202210398499A CN 114882340 A CN114882340 A CN 114882340A
Authority
CN
China
Prior art keywords
network
bounding box
target
layer
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210398499.0A
Other languages
English (en)
Other versions
CN114882340B (zh
Inventor
金灿
盛立杰
苗启广
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202210398499.0A priority Critical patent/CN114882340B/zh
Publication of CN114882340A publication Critical patent/CN114882340A/zh
Application granted granted Critical
Publication of CN114882340B publication Critical patent/CN114882340B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于边界框回归的弱监督目标检测方法,用于解决现有技术中存在的目标检测准确率较低以及检测过程繁琐的技术问题,具体步骤如下:(1)获取训练样本集和测试样本集;(2)构建基于边界框回归的弱监督目标检测网络模型H;(3)对基于边界框回归的弱监督目标检测网络模型H进行迭代训练;(4)获取弱监督目标检测结果。本发明构建了一个包含有边界框回归网络的弱监督目标检测网络模型,在对该模型进行训练的过程中,利用两个检测同一目标的边界框有更大的交并比实现边界框的合并操作,为边界框回归提供了更加精确的伪标签,有效提高了目标检测的准确率。

Description

基于边界框回归的弱监督目标检测方法
技术领域
本发明属于图像处理技术领域,更进一步涉及模式识别与计算机视觉技术领域中的一种加入边界框回归的弱监督目标检测方法,可用于在缺少目标位置标签的情况下对图像进行目标检测。
背景技术
强监督学习下的目标检测为了解决复杂场景下的检测精度问题,通常会使用大量的数据来提高算法的泛化能力,这就势必需要大量的标注工作。而弱监督学习的目标检测就是为了解决标注工作量大的问题。传统目标检测算法,即强监督学习的目标检测算法,使用的训练数据集中包含训练数据和对应的标注信息,标注信息包括目标类别标签和目标位置标签两部分,即图像级标注信息和实例级标注信息。弱监督学习目标检测舍弃了最费时费力的实例级标注信息,尝试只利用图像级标注信息来进行目标检测工作,这将节省大量数据标注工作的时间成本和经济成本。
由于实例级标注信息的缺失,要想获得精准度更高的检测框,需要应用多实例学习网络为边界框评分。而多实例学习是一个非凸优化问题,其结果会随着参数的初值的变化而变化,在网络参数的迭代过程中,最终的结果很有可能是一个极值点,而非最值点。具体表现为多实例学习网络在评分时会优先选择更具有辨识度的边界框,而非包裹目标更紧密的边界框,这会导致最终检测出的边界框只会覆盖目标的一部分,从而令整个网络的检测精度无法进一步提升。因此如何构建网络才能让模型的目标检测准确率提升是亟需解决的问题。
申请公布号为CN113989558A,名称为“基于迁移学习与边界框调节的弱监督目标检测方法”的专利申请,公开了一种基于迁移学习与边界框调节的弱监督目标检测方法。该方法的具体步骤为:构建目标弱监督目标检测网络模块f、辅助弱监督目标检测网络模块faux和可学习的边界框调节网络模块g;利用多阶段迁移学习方法及辅助弱监督目标检测网络模块faux对可学习的边界框调节网络模块g进行训练,获得训练后的可学习的边界框调节网络模块g';利用上一步获得的训练后的可学习的边界框调节网络模块g'对目标弱监督目标检测网络模块f进行训练,获得训练后的目标弱监督目标检测网络模块f';利用训练后的目标弱监督目标检测网络模块f'对待检测图像进行目标检测,从而获得目标检测结果,从而完成目标检测。该方法存在的不足之处是:其源数据集与目标数据集的匹配度对迁移效果影响较大,导致目标检测的准确率低,且该发明采用的迁移学习,需要先在源数据集上进行训练得到初始模型,再在初始模型的基础上在目标数据集上进行训练得到最终模型,导致整个训练过程繁琐。
发明内容
本发明的目的在于克服上述现有技术的存在的缺陷,提出了一种基于边界框回归的弱监督目标检测方法,用于解决现有技术中存在的目标检测准确率较低以及目标检测过程繁琐的技术问题。
实现本发明目的的思路是:获取训练样本集和测试样本集,搭建包含特征提取网络、多实例检测网络、自训练网络和边界框回归网络的基于边界框回归的弱监督目标检测网络模型H。利用训练样本集训练基于边界框回归的弱监督目标检测网络模型H,得到训练好的基于边界框回归的弱监督目标检测网络模型H*。将测试样本集作为训练好的基于边界框回归的弱监督目标检测网络模型H*的输入进行检测得到每个测试样本的目标预测类别和目标预测边界框。
根据上述技术思路,实现本发明目的所采取的技术方案包括如下步骤:
(1)获取训练样本集和测试样本集:
获取包括C个目标类别的N幅RGB图像,并对每幅图像中的目标类别进行标注,然后对目标类别标注后的每幅图像进行归一化,最后将N幅归一化RGB图像中半数以上的图像及其目标类别标签组成训练样本集,将其余图像及其目标类别标签组成测试样本集,其中,C≥2,N≥5000;
(2)构建基于边界框回归的弱监督目标检测网络模型H:
构建包括特征提取网络以及与其输出端连接的多实例检测网络、自训练网络和边界框回归网络的弱监督目标检测网络模型H,其中:
特征提取网络包括多个卷积层、多个最大池化层和多个第一全连接层;
多实例检测网络包括并行排布的两个网络层,该两个网络层均包括顺次连接的第二全连接层和Softmax层,该两个网络层的输出进行级联;
自训练网络包括并行排布的三个网络层,该三个网络层均包括顺次连接的第三全连接层和Softmax层;
边界框回归网络包括并行排布的两个网络层,其中一个网络层包括顺次连接的第四全连接层和Softmax层,用于实现目标分类,另一个网络层采用第五全连接层,用于实现目标定位;
(3)对基于边界框回归的弱监督目标检测网络模型H进行迭代训练:
(3a)初始化迭代次数为w,最大迭代次数为W,W≥20000,并令w=1;
(3b)将训练样本集作为基于边界框回归的弱监督目标检测网络模型H的输入,特征提取网络对每个训练样本进行特征提取;多实例检测网络利用所提取特征图对其对应的训练样本进行边界框分类,得到边界框得分矩阵x0;自训练网络中的第k个网络层分别利用所提取特征图对其对应的训练样本进行边界框分类,得到边界框得分矩阵xk;边界框回归网络利用所提取特征图对其对应的训练样本进行目标分类和目标定位,得到每个训练样本的目标预测类别与目标预测边界框,其中,k∈{1,2,3};
(3c)对弱监督目标检测网络模型所包含的四个子网络中的权值参数进行更新,得到本次迭代的弱监督目标检测网络模型Hw,其中更新过程中计算边界框回归网络中两个网络层的损失值时,采用的是利用自训练网络中第三个网络层得到的边界框得分矩阵x3生成的伪标签;
(3d)判断w=W是否成立,若是,得到训练好的基于边界框回归的弱监督目标检测网络模型H*,否则,令w=w+1,并执行步骤(3b);
(4)获取弱监督目标检测结果:
将测试样本集作为训练好的基于边界框回归的弱监督目标检测网络模型H*的输入,边界框回归网络利用特征提取网络所提取特征图对其对应的测试样本进行目标分类和目标定位,得到每个测试样本的目标预测类别与目标预测边界框。
本发明与现有技术相比,具有以下优点:
1、本发明所构建的弱监督目标检测网络模型包含有边界框回归网络,在对该模型进行训练的过程中,利用两个检测同一目标的边界框有更大的交并比IOU实现边界框的合并操作,为边界框回归提供了更加精确的伪标签,进而提高了整个网络模型的回归定位能力,与现有技术相比,有效提高了目标检测的准确率。
2、本发明通过仅使用一个网络模型完成目标检测,避免了现有技术采用的迁移学习,需要先在源数据集上进行训练得到初始模型,再在初始模型的基础上在目标数据集上进行训练得到最终模型导致的整个检测过程繁琐的缺陷,有效提高了目标检测效率。
附图说明
图1是本发明的实现流程图;
图2是本发明构建的弱监督目标检测网络模型的结构示意图。
具体实施方式
下面结合附图和具体实施例,对本发明作进一步详细描述:
参照图1,本发明包括如下步骤:
步骤1)获取训练样本集和测试样本集:
获取包括C个目标类别的N幅RGB图像,并对每幅图像中的目标类别进行标注,然后对目标类别标注后的每幅图像进行归一化,最后将N幅归一化RGB图像中半数以上的图像及其目标类别标签组成训练样本集,将其余图像及其目标类别标签组成测试样本集,其中,C≥2,N≥5000;
本实施例中,C=20,N=9963;
步骤2)构建基于边界框回归的弱监督目标检测网络模型H,其结构如图2所示:
其中附图标记为:
FC1-第一全连接层;FC2-第二全连接层;FC3-第三全连接层;FC4-第四全连接层;FC5-第五全连接层;SPP-空间金字塔池化层;边界框得分矩阵0-边界框得分矩阵x0;边界框得分矩阵1-边界框得分矩阵x1;边界框得分矩阵2-边界框得分矩阵x2;边界框得分矩阵3-边界框得分矩阵x3
构建包括特征提取网络以及与其输出端连接的多实例检测网络、自训练网络和边界框回归网络的弱监督目标检测网络模型H,其中:
特征提取网络包括多个卷积层、多个最大池化层和多个第一全连接层;
多实例检测网络包括并行排布的两个网络层,该两个网络层均包括顺次连接的第二全连接层和Softmax层,该两个网络层的输出进行级联;
自训练网络包括并行排布的三个网络层,该三个网络层均包括顺次连接的第三全连接层和Softmax层;
边界框回归网络包括并行排布的两个网络层,其中一个网络层包括顺次连接的第四全连接层和Softmax层,用于实现目标分类,另一个网络层采用第五全连接层,用于实现目标定位;
特征提取网络包括的卷积层的个数为13,最大池化层的个数为3,第一全连接层的个数为2,该特征提取网络的具体结构为:第一至第二卷积层→最大池化层→第三至第四卷积层→最大池化层→第五至第七卷积层→最大池化层→第八至第十三卷积层→第一全连接层→第一全连接层;所有卷积层的卷积核尺寸均为3×3,移动步长均为1,第一至第二卷积层卷积核的个数均为64,第三至第四卷积层卷积核的个数均为128,第五至第七卷积层卷积核的个数均为256,第八至第十三卷积层卷积核的个数均为512;所有最大池化层的池化核尺寸均为2×2,移动步长均为2;所有第一全连接层的隐藏单元个数均为4096;
参照图2,特征提取网络在VGG16的基础上,将VGG16的最后一个最大池化层替换为空间金字塔池化层,将VGG16的最后一个全连接层和Softmax层替换为两个第一全连接层;
多实例检测网络,其中两个网络层包含的第二全连接层的隐藏单元个数与目标类别的个数C相等;
自训练网络,其中三个网络层包含的第三全连接层的隐藏单元个数均为C+1;
设计自训练网络的原因为:多实例学习的非凸性质导致多实例检测网络在评分时会优先选择更具有辨识度的边界框,即边界框仅覆盖目标的一部分,通过加入自训练网络对多实例检测网络得到的边界框得分矩阵进行精细化操作,能够有效解决评分时优先选择更具有辨识度的边界框的问题;
边界框回归网络,其中包含的第四全连接层的隐藏单元个数为C+1,第五全连接层的隐藏单元个数为4×(C+1);
设计边界框回归网络的原因为:弱监督目标检测缺少实例级标注信息,在网络训练过程中仅能利用图像级标注信息,导致目标检测准确率低,通过加入边界框回归网络利用生成的伪标签进行训练,能够有效提升目标检测的准确率;
步骤3)对基于边界框回归的弱监督目标检测网络模型H进行迭代训练:
(3a)初始化迭代次数为w,最大迭代次数为W,W≥20000,并令w=1;
本实施例中,W=70000,设计W=70000是为了让网络训练更充分;
(3b)将训练样本集作为基于边界框回归的弱监督目标检测网络模型H的输入,特征提取网络对每个训练样本进行特征提取;多实例检测网络利用所提取特征图对其对应的训练样本进行边界框分类,得到边界框得分矩阵x0;自训练网络中的第k个网络层分别利用所提取特征图对其对应的训练样本进行边界框分类,得到边界框得分矩阵xk;边界框回归网络利用所提取特征图对其对应的训练样本进行目标分类和目标定位,得到每个训练样本的目标预测类别与目标预测边界框,其中,k∈{1,2,3};
步骤(3b)中所述的特征提取网络对每个训练样本进行特征提取,实现步骤为:
每个训练样本利用选择性搜索、VGG16分别生成对应的候选区域集合、卷积特征图,每个训练样本的候选区域集合和卷积特征图共同利用空间金字塔池化层生成每个训练样本对应的候选区域特征图,每个训练样本对应的候选区域特征图利用两个第一全连接层生成每个训练样本对应的候选区域特征向量,即特征提取网络最终提取的特征图,其中,候选区域集合中的每个候选区域对应一个边界框;
步骤(3b)中所述的多实例检测网络利用所提取特征图对其对应的训练样本进行边界框分类,得到边界框得分矩阵x0,实现步骤为:
(3b1)多实例检测网络的两个网络层分别经过第二全连接层得到两个特征矩阵xc和xd,两者的大小相等,均为C×|R|;
(3b2)两个特征矩阵xc和xd经过Softmax层进行不同维度上的运算,得到两个新的矩阵σ(xc)和σ(xd);
(3b3)两个矩阵经过矩阵元素相乘运算得到多实例检测网络的边界框得分矩阵x0=σ(xc)⊙σ(xd);
其中,|R|表示边界框的数量,⊙表示矩阵元素相乘运算;
(3c)对弱监督目标检测网络模型所包含的四个子网络中的权值参数进行更新,得到本次迭代的弱监督目标检测网络模型Hw,其中更新过程中计算边界框回归网络中两个网络层的损失值时,采用的是利用自训练网络中第三个网络层得到的边界框得分矩阵x3生成的伪标签;
步骤(3c)中所述的对弱监督目标检测网络模型所包含的四个子网络中的权值参数进行更新,实现步骤为:
(3c1)多实例检测网络采用交叉熵损失函数,并通过边界框得分矩阵x0和每个训练样本的目标类别标签Y={y1,y2,...,yC}计算边界框的分类损失值Lm
Figure BDA0003598530900000071
Figure BDA0003598530900000072
其中,yc表示每个训练样本的第c个目标类别标签,
Figure BDA0003598530900000073
表示边界框得分矩阵x0中第c个目标类别下第r个边界框的得分;
(3c2)自训练网络的第k个网络层分别利用边界框得分矩阵xk-1生成的边界框监督信息矩阵sk,并采用交叉熵损失函数,通过边界框得分矩阵xk和sk计算边界框分类损失值
Figure BDA0003598530900000074
Figure BDA0003598530900000075
其中,xk-1在k-1=0时表示多实例检测网络生成的边界框得分矩阵x0,在k-1≥1时表示自训练网络第k-1个网络层的边界框得分矩阵,
Figure BDA0003598530900000076
表示自训练网络第k个网络层的监督信息矩阵sk中第c个目标类别下第r个边界框的监督信息,
Figure BDA0003598530900000077
表示自训练网络第k个网络层生成的边界框得分矩阵xk中第c个目标类别下第r个边界框的得分;
步骤(3c2)中所述的自训练网络的第k个网络层分别利用边界框得分矩阵xk-1生成的边界框监督信息矩阵sk,实现步骤为:
(3c2-1)对于自训练网络的第k个网络层,创建集合I={I1,I2,...,IR},并将集合I中的所有元素的值均置为负无穷;
(3c2-2)设置
Figure BDA0003598530900000081
(3c2-3)对于每个训练样本的目标类别标签Y={y1,y2,...,yC},如果yc=1,选择
Figure BDA0003598530900000082
中得分最高的边界框a;
(3c2-4)计算其余边界框与边界框a的IOU,如果第r个边界框与边界框a的IOUIr'大于Ir,那么令Ir=Ir',并设置
Figure BDA0003598530900000083
其中,
Figure BDA0003598530900000084
表示边界框得分矩阵xk-1第c个目标类别的得分向量,Ir表示I的第r个位置的值;
(3c3)边界框回归网络中的用于实现目标分类的网络层采用交叉熵损失函数,并通过目标的预测类别概率和利用x3生成的伪标签计算目标的分类损失值Lcls;用于实现目标定位的网络层采用SmoothL1损失函数,并通过目标的预测边界框和利用x3生成的伪标签计算目标的位置损失函数Lreg,将Lcls、Lreg相加得到边界框回归网络的总损失函数Lb
Figure BDA0003598530900000085
Figure BDA0003598530900000086
Figure BDA0003598530900000087
其中,
Figure BDA0003598530900000088
表示伪标签中第r个边界框,tr表示第r个预测边界框,pr表示第r个边界框的类别预测概率向量,pcr表示第c个目标类别下第r个边界框的预测概率,
Figure BDA0003598530900000091
表示伪标签中第r个边界框的类别标签向量,若第r个边界框的类别为c,则
Figure BDA0003598530900000092
1的位置在类别标签向量
Figure BDA0003598530900000093
的第c个位置,
Figure BDA0003598530900000094
Figure BDA0003598530900000095
的第c个位置的值;
步骤(3c3)中所述的利用x3生成的伪标签,实现步骤为:
(3c3-1)创建集合G={G1,G2,...,GC+1},集合G中的所有元素均为边界框集合,并将集合G中的所有元素置为空集;
(3c3-2)对于每个训练样本的目标类别标签Y={y1,y2,...,yC},如果yc=1,选择
Figure BDA0003598530900000096
中得分最高的边界框j,并将边界框j的得分置为零;
(3c3-3)计算边界框j与其他边界框的IOU,将所有与边界框j的IOU大于阈值T的边界框的得分均置为零,然后合并这些边界框为一个更大的边界框g,并将边界框g加入集合Gc
(3c3-4)判断
Figure BDA0003598530900000097
中所有边界框得分是否均为零,若是,执行(3c3-5),否则,执行(3c3-2);
(3c3-5)将集合Gc中的所有边界框作为目标为类别c的伪标签;
其中,
Figure BDA0003598530900000098
表示边界框得分矩阵x3第c个目标类别的得分向量,Gc表示第c个目标类别的边界框集合;
本实施例中,T=0.8;
(3c4)采用随机梯度下降法,并通过Lm
Figure BDA0003598530900000099
与Lb的和
Figure BDA00035985309000000910
对特征提取网络中的卷积核权重参数ωw和特征提取网络、多实例检测网络、自训练网络以及边界框回归网络中的全连接层结点之间的连接权重参数θw进行更新,更新公式分别为:
Figure BDA00035985309000000911
Figure BDA00035985309000000912
其中,η表示学习率,0.00001≤η≤0.1,ωw+1和θw+1分别表示ωw和θw更新后的结果,
Figure BDA0003598530900000101
表示偏导计算;
本实施例中,初始学习率η=0.001,在迭代到第4万次时,学习率η=0.0001,学习率在网络迭代到一定次数时进行衰减是为了防止损失函数陷入局部最小值;
(3d)判断w=W是否成立,若是,得到训练好的基于边界框回归的弱监督目标检测网络模型H*,否则,令w=w+1,并执行步骤(3b);
步骤4)获取弱监督目标检测结果:
将测试样本集作为训练好的基于边界框回归的弱监督目标检测网络模型H*的输入,边界框回归网络利用特征提取网络所提取特征图对其对应的测试样本进行目标分类和目标定位,得到每个测试样本的目标预测类别与目标预测边界框。
下面结合仿真实验对本发明的效果做进一步的描述:
1、仿真实验条件:
本发明的仿真实验所用数据为公开的Pascal VOC挑战赛中的VOC 2007数据集,包含20种不同类别的目标,共有9963张图片,其中训练集包含5011张图片,测试集包含4952张图片。仿真实验硬件平台为Intel酷睿i7 8700K@3.7GHz CPU、64GB RAM、NVIDIA GeforceGTX1080 Ti GPU,仿真实验软件平台为Python3.6和PyTorch 1.6。
2、仿真实验内容与结果分析:
本发明的仿真实验是在相同的数据集下,应用本发明方法与当前取得最优结果的方法对图像进行目标检测,并分别计算各种方法的检测准确率。在本发明的方法中,使用训练样本集训练神经网络,得到训练好的网络模型。然后使用测试样本集在训练好的网络模型上进行测试,得到本发明的检测准确率。
各种方法在训练结束后的检测准确率结果如表1所示。
表1 VOC 2007数据集检测准确率对比表
仿真实验方法 Wetectron WSOD2 C-MIDN C-MIL 本发明方法
检测准确率 54.9% 53.6% 52.6% 50.5% 56.2%
从表1中可以看出,本发明提出的基于边界框回归的弱监督目标检测方法相比当前取得最优结果的方法在检测准确率上的表现可圈可点,说明本发明中通过合并边界框生成伪标签的方法能够提高目标检测的准确率,在该研究问题上的竞争力较强,具有重要的实际意义。

Claims (3)

1.一种基于边界框回归的弱监督目标检测方法,其特征在于,通过在弱监督目标检测中加入边界框回归网络提升网络模型的检测精度,包括如下步骤:
(1)获取训练样本集和测试样本集:
获取包括C个目标类别的N幅RGB图像,并对每幅图像中的目标类别进行标注,然后对目标类别标注后的每幅图像进行归一化,最后将N幅归一化RGB图像中半数以上的图像及其目标类别标签组成训练样本集,将其余图像及其目标类别标签组成测试样本集,其中,C≥2,N≥5000;
(2)构建基于边界框回归的弱监督目标检测网络模型H:
构建包括特征提取网络以及与其输出端连接的多实例检测网络、自训练网络和边界框回归网络的弱监督目标检测网络模型H,其中:
特征提取网络包括多个卷积层、多个最大池化层和多个第一全连接层;
多实例检测网络包括并行排布的两个网络层,该两个网络层均包括顺次连接的第二全连接层和Softmax层,该两个网络层的输出进行级联;
自训练网络包括并行排布的三个网络层,该三个网络层均包括顺次连接的第三全连接层和Softmax层;
边界框回归网络包括并行排布的两个网络层,其中一个网络层包括顺次连接的第四全连接层和Softmax层,用于实现目标分类,另一个网络层采用第五全连接层,用于实现目标定位;
(3)对基于边界框回归的弱监督目标检测网络模型H进行迭代训练:
(3a)初始化迭代次数为w,最大迭代次数为W,W≥20000,并令w=1;
(3b)将训练样本集作为基于边界框回归的弱监督目标检测网络模型H的输入,特征提取网络对每个训练样本进行特征提取;多实例检测网络利用所提取特征图对其对应的训练样本进行边界框分类,得到边界框得分矩阵x0;自训练网络中的第k个网络层分别利用所提取特征图对其对应的训练样本进行边界框分类,得到边界框得分矩阵xk;边界框回归网络利用所提取特征图对其对应的训练样本进行目标分类和目标定位,得到每个训练样本的目标预测类别与目标预测边界框,其中,k∈{1,2,3};
(3c)对弱监督目标检测网络模型所包含的四个子网络中的权值参数进行更新,得到本次迭代的弱监督目标检测网络模型Hw,其中更新过程中计算边界框回归网络中两个网络层的损失值时,采用的是利用自训练网络中第三个网络层得到的边界框得分矩阵x3生成的伪标签;
(3d)判断w=W是否成立,若是,得到训练好的基于边界框回归的弱监督目标检测网络模型H*,否则,令w=w+1,并执行步骤(3b);
(4)获取弱监督目标检测结果:
将测试样本集作为训练好的基于边界框回归的弱监督目标检测网络模型H*的输入,边界框回归网络利用特征提取网络所提取特征图对其对应的测试样本进行目标分类和目标定位,得到每个测试样本的目标预测类别与目标预测边界框。
2.根据权利要求1所述的基于边界框回归的弱监督目标检测方法,其特征在于,步骤(2)中所述的基于边界框回归的弱监督目标检测网络模型H,其中:
特征提取网络包括的卷积层的个数为13,最大池化层的个数为3,第一全连接层的个数为2,该特征提取网络的具体结构为:第一至第二卷积层→最大池化层→第三至第四卷积层→最大池化层→第五至第七卷积层→最大池化层→第八至第十三卷积层→第一全连接层→第一全连接层;所有卷积层的卷积核尺寸均为3×3,移动步长均为1,第一至第二卷积层卷积核的个数均为64,第三至第四卷积层卷积核的个数均为128,第五至第七卷积层卷积核的个数均为256,第八至第十三卷积层卷积核的个数均为512;所有最大池化层的池化核尺寸均为2×2,移动步长均为2;所有第一全连接层的隐藏单元个数均为4096;
多实例检测网络,其中两个网络层包含的第二全连接层的隐藏单元个数与目标类别的个数C相等;
自训练网络,其中三个网络层包含的第三全连接层的隐藏单元个数均为C+1;
边界框回归网络,其中包含的第四全连接层的隐藏单元个数为C+1,第五全连接层的隐藏单元个数为4×(C+1)。
3.根据权利要求1所述的基于边界框回归的弱监督目标检测方法,其特征在于,步骤(3c)中所述的对弱监督目标检测网络模型所包含的四个子网络中的权值参数进行更新,实现步骤为:
(3c1)多实例检测网络采用交叉熵损失函数,并通过边界框得分矩阵x0和每个训练样本的目标类别标签计算边界框的分类损失值Lm
Figure FDA0003598530890000031
Figure FDA0003598530890000032
其中,yc表示每个训练样本的第c个目标类别标签,
Figure FDA0003598530890000033
表示边界框得分矩阵x0中第c个目标类别下第r个边界框的得分,|R|表示边界框的数量;
(3c2)自训练网络的第k个网络层分别利用边界框得分矩阵xk-1生成的边界框监督信息矩阵sk,并采用交叉熵损失函数,通过边界框得分矩阵xk和sk计算边界框分类损失值
Figure FDA0003598530890000034
Figure FDA0003598530890000035
其中,xk-1在k-1=0时表示多实例检测网络生成的边界框得分矩阵x0,在k-1≥1时表示自训练网络第k-1个网络层的边界框得分矩阵,
Figure FDA0003598530890000036
表示自训练网络第k个网络层的监督信息矩阵sk中第c个目标类别下第r个边界框的监督信息,
Figure FDA0003598530890000037
表示自训练网络第k个网络层生成的边界框得分矩阵xk中第c个目标类别下第r个边界框的得分;
(3c3)边界框回归网络中的用于实现目标分类的网络层采用交叉熵损失函数,并通过目标的预测类别概率和利用x3生成的伪标签计算目标的分类损失值Lcls;用于实现目标定位的网络层采用SmoothL1损失函数,并通过目标的预测边界框和利用x3生成的伪标签计算目标的位置损失值Lreg,然后通过Lcls和Lreg计算边界框回归网络的总损失值Lb
Figure FDA0003598530890000038
Figure FDA0003598530890000039
Figure FDA0003598530890000041
其中,
Figure FDA0003598530890000042
表示伪标签中第r个边界框,tr表示第r个预测边界框,pr表示第r个边界框的类别预测概率向量,pcr表示第c个目标类别下第r个边界框的预测概率,
Figure FDA0003598530890000043
表示伪标签中第r个边界框的类别标签向量,若第r个边界框的类别为c,则
Figure FDA0003598530890000044
1的位置在类别标签向量
Figure FDA0003598530890000045
的第c个位置,
Figure FDA0003598530890000046
Figure FDA0003598530890000047
的第c个位置的值;
(3c4)采用随机梯度下降法,并通过Lm
Figure FDA0003598530890000048
与Lb的和
Figure FDA0003598530890000049
对特征提取网络中的卷积核权重参数ωw,以及特征提取网络、多实例检测网络、自训练网络和边界框回归网络中的全连接层结点之间的连接权重参数θw进行更新,更新公式分别为:
Figure FDA00035985308900000410
Figure FDA00035985308900000411
其中,η表示学习率,1e-6≤η≤0.1,ωw+1和θw+1分别表示ωw和θw更新后的结果,
Figure FDA00035985308900000412
表示偏导计算。
CN202210398499.0A 2022-04-15 2022-04-15 基于边界框回归的弱监督目标检测方法 Active CN114882340B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210398499.0A CN114882340B (zh) 2022-04-15 2022-04-15 基于边界框回归的弱监督目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210398499.0A CN114882340B (zh) 2022-04-15 2022-04-15 基于边界框回归的弱监督目标检测方法

Publications (2)

Publication Number Publication Date
CN114882340A true CN114882340A (zh) 2022-08-09
CN114882340B CN114882340B (zh) 2024-09-24

Family

ID=82668784

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210398499.0A Active CN114882340B (zh) 2022-04-15 2022-04-15 基于边界框回归的弱监督目标检测方法

Country Status (1)

Country Link
CN (1) CN114882340B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116012719A (zh) * 2023-03-27 2023-04-25 中国电子科技集团公司第五十四研究所 一种基于多实例学习的弱监督旋转目标检测方法
CN116206201A (zh) * 2023-02-21 2023-06-02 北京理工大学 一种监督目标检测识别方法、装置、设备及存储介质
CN116612420A (zh) * 2023-07-20 2023-08-18 中国科学技术大学 弱监督视频时序动作检测方法、系统、设备及存储介质
CN116665095A (zh) * 2023-05-18 2023-08-29 中国科学院空间应用工程与技术中心 一种运动舰船检测方法、系统、存储介质和电子设备
CN116978008A (zh) * 2023-07-12 2023-10-31 睿尔曼智能科技(北京)有限公司 一种融合rgbd的半监督目标检测方法和系统
CN117541782A (zh) * 2024-01-09 2024-02-09 北京闪马智建科技有限公司 对象的识别方法、装置、存储介质及电子装置
CN117911954A (zh) * 2024-01-25 2024-04-19 山东建筑大学 一种用于新能源电站运维的弱监督目标检测方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110533067A (zh) * 2019-07-22 2019-12-03 杭州电子科技大学 基于深度学习的边框回归的端到端弱监督目标检测方法
CN113989558A (zh) * 2021-10-28 2022-01-28 哈尔滨工业大学 基于迁移学习与边界框调节的弱监督目标检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110533067A (zh) * 2019-07-22 2019-12-03 杭州电子科技大学 基于深度学习的边框回归的端到端弱监督目标检测方法
CN113989558A (zh) * 2021-10-28 2022-01-28 哈尔滨工业大学 基于迁移学习与边界框调节的弱监督目标检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BOWEN DONG等: "Boosting Weakly Supervised Object Detection via Learning Bounding Box Adjusters", 《ICCV 2021》, 3 August 2021 (2021-08-03) *
金灿: "基于弱监督学习的目标检测算法研究", 《万方数据》, 27 April 2023 (2023-04-27) *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116206201A (zh) * 2023-02-21 2023-06-02 北京理工大学 一种监督目标检测识别方法、装置、设备及存储介质
CN116012719A (zh) * 2023-03-27 2023-04-25 中国电子科技集团公司第五十四研究所 一种基于多实例学习的弱监督旋转目标检测方法
CN116665095A (zh) * 2023-05-18 2023-08-29 中国科学院空间应用工程与技术中心 一种运动舰船检测方法、系统、存储介质和电子设备
CN116665095B (zh) * 2023-05-18 2023-12-22 中国科学院空间应用工程与技术中心 一种运动舰船检测方法、系统、存储介质和电子设备
CN116978008A (zh) * 2023-07-12 2023-10-31 睿尔曼智能科技(北京)有限公司 一种融合rgbd的半监督目标检测方法和系统
CN116978008B (zh) * 2023-07-12 2024-04-26 睿尔曼智能科技(北京)有限公司 一种融合rgbd的半监督目标检测方法和系统
CN116612420A (zh) * 2023-07-20 2023-08-18 中国科学技术大学 弱监督视频时序动作检测方法、系统、设备及存储介质
CN116612420B (zh) * 2023-07-20 2023-11-28 中国科学技术大学 弱监督视频时序动作检测方法、系统、设备及存储介质
CN117541782A (zh) * 2024-01-09 2024-02-09 北京闪马智建科技有限公司 对象的识别方法、装置、存储介质及电子装置
CN117911954A (zh) * 2024-01-25 2024-04-19 山东建筑大学 一种用于新能源电站运维的弱监督目标检测方法及系统

Also Published As

Publication number Publication date
CN114882340B (zh) 2024-09-24

Similar Documents

Publication Publication Date Title
CN114882340A (zh) 基于边界框回归的弱监督目标检测方法
CN111860495B (zh) 一种层级化网络结构搜索方法、设备及可读存储介质
CN113486981B (zh) 基于多尺度特征注意力融合网络的rgb图像分类方法
Sharma Deep challenges associated with deep learning
CN104850845B (zh) 一种基于非对称卷积神经网络的交通标志识别方法
US20180018555A1 (en) System and method for building artificial neural network architectures
CN110569738B (zh) 基于密集连接网络的自然场景文本检测方法、设备和介质
CN110288030A (zh) 基于轻量化网络模型的图像识别方法、装置及设备
CN112183620B (zh) 基于图卷积神经网络的小样本分类模型的发育方法及系统
CN109740679B (zh) 一种基于卷积神经网络和朴素贝叶斯的目标识别方法
CN113177560A (zh) 一种普适性轻量级深度学习车辆检测方法
CN113222011B (zh) 一种基于原型校正的小样本遥感图像分类方法
CN113010683B (zh) 基于改进图注意力网络的实体关系识别方法及系统
CN106203625A (zh) 一种基于多重预训练的深层神经网络训练方法
CN112529005A (zh) 基于语义特征一致性监督金字塔网络的目标检测方法
CN107563430A (zh) 一种基于稀疏自动编码器和灰度关联分析法的卷积神经网络算法优化方法
CN113673482B (zh) 基于动态标签分配的细胞抗核抗体荧光识别方法及系统
CN103971136A (zh) 一种面向大规模数据的并行结构化支持向量机分类方法
CN113255892A (zh) 一种解耦合的网络结构搜索方法、设备及可读存储介质
CN112364974B (zh) 一种基于激活函数改进的YOLOv3算法
CN112766283A (zh) 一种基于多尺度卷积网络的两相流流型识别方法
CN112364747A (zh) 一种有限样本下的目标检测方法
CN117576038A (zh) 基于YOLOv8网络的织物瑕疵检测方法及系统
CN110110426A (zh) 一种开关电源滤波电容失效检测方法
CN113255543A (zh) 基于图卷积网络的面部表情识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant