CN114882340A - 基于边界框回归的弱监督目标检测方法 - Google Patents
基于边界框回归的弱监督目标检测方法 Download PDFInfo
- Publication number
- CN114882340A CN114882340A CN202210398499.0A CN202210398499A CN114882340A CN 114882340 A CN114882340 A CN 114882340A CN 202210398499 A CN202210398499 A CN 202210398499A CN 114882340 A CN114882340 A CN 114882340A
- Authority
- CN
- China
- Prior art keywords
- network
- bounding box
- target
- layer
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 114
- 238000012549 training Methods 0.000 claims abstract description 89
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000012360 testing method Methods 0.000 claims abstract description 22
- 230000008569 process Effects 0.000 claims abstract description 10
- 239000011159 matrix material Substances 0.000 claims description 44
- 238000000605 extraction Methods 0.000 claims description 31
- 238000011176 pooling Methods 0.000 claims description 19
- 238000002372 labelling Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 2
- 238000004088 simulation Methods 0.000 description 7
- 238000013526 transfer learning Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 101000712531 Gallus gallus RAF proto-oncogene serine/threonine-protein kinase Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种基于边界框回归的弱监督目标检测方法,用于解决现有技术中存在的目标检测准确率较低以及检测过程繁琐的技术问题,具体步骤如下:(1)获取训练样本集和测试样本集;(2)构建基于边界框回归的弱监督目标检测网络模型H;(3)对基于边界框回归的弱监督目标检测网络模型H进行迭代训练;(4)获取弱监督目标检测结果。本发明构建了一个包含有边界框回归网络的弱监督目标检测网络模型,在对该模型进行训练的过程中,利用两个检测同一目标的边界框有更大的交并比实现边界框的合并操作,为边界框回归提供了更加精确的伪标签,有效提高了目标检测的准确率。
Description
技术领域
本发明属于图像处理技术领域,更进一步涉及模式识别与计算机视觉技术领域中的一种加入边界框回归的弱监督目标检测方法,可用于在缺少目标位置标签的情况下对图像进行目标检测。
背景技术
强监督学习下的目标检测为了解决复杂场景下的检测精度问题,通常会使用大量的数据来提高算法的泛化能力,这就势必需要大量的标注工作。而弱监督学习的目标检测就是为了解决标注工作量大的问题。传统目标检测算法,即强监督学习的目标检测算法,使用的训练数据集中包含训练数据和对应的标注信息,标注信息包括目标类别标签和目标位置标签两部分,即图像级标注信息和实例级标注信息。弱监督学习目标检测舍弃了最费时费力的实例级标注信息,尝试只利用图像级标注信息来进行目标检测工作,这将节省大量数据标注工作的时间成本和经济成本。
由于实例级标注信息的缺失,要想获得精准度更高的检测框,需要应用多实例学习网络为边界框评分。而多实例学习是一个非凸优化问题,其结果会随着参数的初值的变化而变化,在网络参数的迭代过程中,最终的结果很有可能是一个极值点,而非最值点。具体表现为多实例学习网络在评分时会优先选择更具有辨识度的边界框,而非包裹目标更紧密的边界框,这会导致最终检测出的边界框只会覆盖目标的一部分,从而令整个网络的检测精度无法进一步提升。因此如何构建网络才能让模型的目标检测准确率提升是亟需解决的问题。
申请公布号为CN113989558A,名称为“基于迁移学习与边界框调节的弱监督目标检测方法”的专利申请,公开了一种基于迁移学习与边界框调节的弱监督目标检测方法。该方法的具体步骤为:构建目标弱监督目标检测网络模块f、辅助弱监督目标检测网络模块faux和可学习的边界框调节网络模块g;利用多阶段迁移学习方法及辅助弱监督目标检测网络模块faux对可学习的边界框调节网络模块g进行训练,获得训练后的可学习的边界框调节网络模块g';利用上一步获得的训练后的可学习的边界框调节网络模块g'对目标弱监督目标检测网络模块f进行训练,获得训练后的目标弱监督目标检测网络模块f';利用训练后的目标弱监督目标检测网络模块f'对待检测图像进行目标检测,从而获得目标检测结果,从而完成目标检测。该方法存在的不足之处是:其源数据集与目标数据集的匹配度对迁移效果影响较大,导致目标检测的准确率低,且该发明采用的迁移学习,需要先在源数据集上进行训练得到初始模型,再在初始模型的基础上在目标数据集上进行训练得到最终模型,导致整个训练过程繁琐。
发明内容
本发明的目的在于克服上述现有技术的存在的缺陷,提出了一种基于边界框回归的弱监督目标检测方法,用于解决现有技术中存在的目标检测准确率较低以及目标检测过程繁琐的技术问题。
实现本发明目的的思路是:获取训练样本集和测试样本集,搭建包含特征提取网络、多实例检测网络、自训练网络和边界框回归网络的基于边界框回归的弱监督目标检测网络模型H。利用训练样本集训练基于边界框回归的弱监督目标检测网络模型H,得到训练好的基于边界框回归的弱监督目标检测网络模型H*。将测试样本集作为训练好的基于边界框回归的弱监督目标检测网络模型H*的输入进行检测得到每个测试样本的目标预测类别和目标预测边界框。
根据上述技术思路,实现本发明目的所采取的技术方案包括如下步骤:
(1)获取训练样本集和测试样本集:
获取包括C个目标类别的N幅RGB图像,并对每幅图像中的目标类别进行标注,然后对目标类别标注后的每幅图像进行归一化,最后将N幅归一化RGB图像中半数以上的图像及其目标类别标签组成训练样本集,将其余图像及其目标类别标签组成测试样本集,其中,C≥2,N≥5000;
(2)构建基于边界框回归的弱监督目标检测网络模型H:
构建包括特征提取网络以及与其输出端连接的多实例检测网络、自训练网络和边界框回归网络的弱监督目标检测网络模型H,其中:
特征提取网络包括多个卷积层、多个最大池化层和多个第一全连接层;
多实例检测网络包括并行排布的两个网络层,该两个网络层均包括顺次连接的第二全连接层和Softmax层,该两个网络层的输出进行级联;
自训练网络包括并行排布的三个网络层,该三个网络层均包括顺次连接的第三全连接层和Softmax层;
边界框回归网络包括并行排布的两个网络层,其中一个网络层包括顺次连接的第四全连接层和Softmax层,用于实现目标分类,另一个网络层采用第五全连接层,用于实现目标定位;
(3)对基于边界框回归的弱监督目标检测网络模型H进行迭代训练:
(3a)初始化迭代次数为w,最大迭代次数为W,W≥20000,并令w=1;
(3b)将训练样本集作为基于边界框回归的弱监督目标检测网络模型H的输入,特征提取网络对每个训练样本进行特征提取;多实例检测网络利用所提取特征图对其对应的训练样本进行边界框分类,得到边界框得分矩阵x0;自训练网络中的第k个网络层分别利用所提取特征图对其对应的训练样本进行边界框分类,得到边界框得分矩阵xk;边界框回归网络利用所提取特征图对其对应的训练样本进行目标分类和目标定位,得到每个训练样本的目标预测类别与目标预测边界框,其中,k∈{1,2,3};
(3c)对弱监督目标检测网络模型所包含的四个子网络中的权值参数进行更新,得到本次迭代的弱监督目标检测网络模型Hw,其中更新过程中计算边界框回归网络中两个网络层的损失值时,采用的是利用自训练网络中第三个网络层得到的边界框得分矩阵x3生成的伪标签;
(3d)判断w=W是否成立,若是,得到训练好的基于边界框回归的弱监督目标检测网络模型H*,否则,令w=w+1,并执行步骤(3b);
(4)获取弱监督目标检测结果:
将测试样本集作为训练好的基于边界框回归的弱监督目标检测网络模型H*的输入,边界框回归网络利用特征提取网络所提取特征图对其对应的测试样本进行目标分类和目标定位,得到每个测试样本的目标预测类别与目标预测边界框。
本发明与现有技术相比,具有以下优点:
1、本发明所构建的弱监督目标检测网络模型包含有边界框回归网络,在对该模型进行训练的过程中,利用两个检测同一目标的边界框有更大的交并比IOU实现边界框的合并操作,为边界框回归提供了更加精确的伪标签,进而提高了整个网络模型的回归定位能力,与现有技术相比,有效提高了目标检测的准确率。
2、本发明通过仅使用一个网络模型完成目标检测,避免了现有技术采用的迁移学习,需要先在源数据集上进行训练得到初始模型,再在初始模型的基础上在目标数据集上进行训练得到最终模型导致的整个检测过程繁琐的缺陷,有效提高了目标检测效率。
附图说明
图1是本发明的实现流程图;
图2是本发明构建的弱监督目标检测网络模型的结构示意图。
具体实施方式
下面结合附图和具体实施例,对本发明作进一步详细描述:
参照图1,本发明包括如下步骤:
步骤1)获取训练样本集和测试样本集:
获取包括C个目标类别的N幅RGB图像,并对每幅图像中的目标类别进行标注,然后对目标类别标注后的每幅图像进行归一化,最后将N幅归一化RGB图像中半数以上的图像及其目标类别标签组成训练样本集,将其余图像及其目标类别标签组成测试样本集,其中,C≥2,N≥5000;
本实施例中,C=20,N=9963;
步骤2)构建基于边界框回归的弱监督目标检测网络模型H,其结构如图2所示:
其中附图标记为:
FC1-第一全连接层;FC2-第二全连接层;FC3-第三全连接层;FC4-第四全连接层;FC5-第五全连接层;SPP-空间金字塔池化层;边界框得分矩阵0-边界框得分矩阵x0;边界框得分矩阵1-边界框得分矩阵x1;边界框得分矩阵2-边界框得分矩阵x2;边界框得分矩阵3-边界框得分矩阵x3;
构建包括特征提取网络以及与其输出端连接的多实例检测网络、自训练网络和边界框回归网络的弱监督目标检测网络模型H,其中:
特征提取网络包括多个卷积层、多个最大池化层和多个第一全连接层;
多实例检测网络包括并行排布的两个网络层,该两个网络层均包括顺次连接的第二全连接层和Softmax层,该两个网络层的输出进行级联;
自训练网络包括并行排布的三个网络层,该三个网络层均包括顺次连接的第三全连接层和Softmax层;
边界框回归网络包括并行排布的两个网络层,其中一个网络层包括顺次连接的第四全连接层和Softmax层,用于实现目标分类,另一个网络层采用第五全连接层,用于实现目标定位;
特征提取网络包括的卷积层的个数为13,最大池化层的个数为3,第一全连接层的个数为2,该特征提取网络的具体结构为:第一至第二卷积层→最大池化层→第三至第四卷积层→最大池化层→第五至第七卷积层→最大池化层→第八至第十三卷积层→第一全连接层→第一全连接层;所有卷积层的卷积核尺寸均为3×3,移动步长均为1,第一至第二卷积层卷积核的个数均为64,第三至第四卷积层卷积核的个数均为128,第五至第七卷积层卷积核的个数均为256,第八至第十三卷积层卷积核的个数均为512;所有最大池化层的池化核尺寸均为2×2,移动步长均为2;所有第一全连接层的隐藏单元个数均为4096;
参照图2,特征提取网络在VGG16的基础上,将VGG16的最后一个最大池化层替换为空间金字塔池化层,将VGG16的最后一个全连接层和Softmax层替换为两个第一全连接层;
多实例检测网络,其中两个网络层包含的第二全连接层的隐藏单元个数与目标类别的个数C相等;
自训练网络,其中三个网络层包含的第三全连接层的隐藏单元个数均为C+1;
设计自训练网络的原因为:多实例学习的非凸性质导致多实例检测网络在评分时会优先选择更具有辨识度的边界框,即边界框仅覆盖目标的一部分,通过加入自训练网络对多实例检测网络得到的边界框得分矩阵进行精细化操作,能够有效解决评分时优先选择更具有辨识度的边界框的问题;
边界框回归网络,其中包含的第四全连接层的隐藏单元个数为C+1,第五全连接层的隐藏单元个数为4×(C+1);
设计边界框回归网络的原因为:弱监督目标检测缺少实例级标注信息,在网络训练过程中仅能利用图像级标注信息,导致目标检测准确率低,通过加入边界框回归网络利用生成的伪标签进行训练,能够有效提升目标检测的准确率;
步骤3)对基于边界框回归的弱监督目标检测网络模型H进行迭代训练:
(3a)初始化迭代次数为w,最大迭代次数为W,W≥20000,并令w=1;
本实施例中,W=70000,设计W=70000是为了让网络训练更充分;
(3b)将训练样本集作为基于边界框回归的弱监督目标检测网络模型H的输入,特征提取网络对每个训练样本进行特征提取;多实例检测网络利用所提取特征图对其对应的训练样本进行边界框分类,得到边界框得分矩阵x0;自训练网络中的第k个网络层分别利用所提取特征图对其对应的训练样本进行边界框分类,得到边界框得分矩阵xk;边界框回归网络利用所提取特征图对其对应的训练样本进行目标分类和目标定位,得到每个训练样本的目标预测类别与目标预测边界框,其中,k∈{1,2,3};
步骤(3b)中所述的特征提取网络对每个训练样本进行特征提取,实现步骤为:
每个训练样本利用选择性搜索、VGG16分别生成对应的候选区域集合、卷积特征图,每个训练样本的候选区域集合和卷积特征图共同利用空间金字塔池化层生成每个训练样本对应的候选区域特征图,每个训练样本对应的候选区域特征图利用两个第一全连接层生成每个训练样本对应的候选区域特征向量,即特征提取网络最终提取的特征图,其中,候选区域集合中的每个候选区域对应一个边界框;
步骤(3b)中所述的多实例检测网络利用所提取特征图对其对应的训练样本进行边界框分类,得到边界框得分矩阵x0,实现步骤为:
(3b1)多实例检测网络的两个网络层分别经过第二全连接层得到两个特征矩阵xc和xd,两者的大小相等,均为C×|R|;
(3b2)两个特征矩阵xc和xd经过Softmax层进行不同维度上的运算,得到两个新的矩阵σ(xc)和σ(xd);
(3b3)两个矩阵经过矩阵元素相乘运算得到多实例检测网络的边界框得分矩阵x0=σ(xc)⊙σ(xd);
其中,|R|表示边界框的数量,⊙表示矩阵元素相乘运算;
(3c)对弱监督目标检测网络模型所包含的四个子网络中的权值参数进行更新,得到本次迭代的弱监督目标检测网络模型Hw,其中更新过程中计算边界框回归网络中两个网络层的损失值时,采用的是利用自训练网络中第三个网络层得到的边界框得分矩阵x3生成的伪标签;
步骤(3c)中所述的对弱监督目标检测网络模型所包含的四个子网络中的权值参数进行更新,实现步骤为:
(3c1)多实例检测网络采用交叉熵损失函数,并通过边界框得分矩阵x0和每个训练样本的目标类别标签Y={y1,y2,...,yC}计算边界框的分类损失值Lm:
其中,xk-1在k-1=0时表示多实例检测网络生成的边界框得分矩阵x0,在k-1≥1时表示自训练网络第k-1个网络层的边界框得分矩阵,表示自训练网络第k个网络层的监督信息矩阵sk中第c个目标类别下第r个边界框的监督信息,表示自训练网络第k个网络层生成的边界框得分矩阵xk中第c个目标类别下第r个边界框的得分;
步骤(3c2)中所述的自训练网络的第k个网络层分别利用边界框得分矩阵xk-1生成的边界框监督信息矩阵sk,实现步骤为:
(3c2-1)对于自训练网络的第k个网络层,创建集合I={I1,I2,...,IR},并将集合I中的所有元素的值均置为负无穷;
(3c3)边界框回归网络中的用于实现目标分类的网络层采用交叉熵损失函数,并通过目标的预测类别概率和利用x3生成的伪标签计算目标的分类损失值Lcls;用于实现目标定位的网络层采用SmoothL1损失函数,并通过目标的预测边界框和利用x3生成的伪标签计算目标的位置损失函数Lreg,将Lcls、Lreg相加得到边界框回归网络的总损失函数Lb:
其中,表示伪标签中第r个边界框,tr表示第r个预测边界框,pr表示第r个边界框的类别预测概率向量,pcr表示第c个目标类别下第r个边界框的预测概率,表示伪标签中第r个边界框的类别标签向量,若第r个边界框的类别为c,则1的位置在类别标签向量的第c个位置,为的第c个位置的值;
步骤(3c3)中所述的利用x3生成的伪标签,实现步骤为:
(3c3-1)创建集合G={G1,G2,...,GC+1},集合G中的所有元素均为边界框集合,并将集合G中的所有元素置为空集;
(3c3-3)计算边界框j与其他边界框的IOU,将所有与边界框j的IOU大于阈值T的边界框的得分均置为零,然后合并这些边界框为一个更大的边界框g,并将边界框g加入集合Gc;
(3c3-5)将集合Gc中的所有边界框作为目标为类别c的伪标签;
本实施例中,T=0.8;
(3c4)采用随机梯度下降法,并通过Lm、与Lb的和对特征提取网络中的卷积核权重参数ωw和特征提取网络、多实例检测网络、自训练网络以及边界框回归网络中的全连接层结点之间的连接权重参数θw进行更新,更新公式分别为:
本实施例中,初始学习率η=0.001,在迭代到第4万次时,学习率η=0.0001,学习率在网络迭代到一定次数时进行衰减是为了防止损失函数陷入局部最小值;
(3d)判断w=W是否成立,若是,得到训练好的基于边界框回归的弱监督目标检测网络模型H*,否则,令w=w+1,并执行步骤(3b);
步骤4)获取弱监督目标检测结果:
将测试样本集作为训练好的基于边界框回归的弱监督目标检测网络模型H*的输入,边界框回归网络利用特征提取网络所提取特征图对其对应的测试样本进行目标分类和目标定位,得到每个测试样本的目标预测类别与目标预测边界框。
下面结合仿真实验对本发明的效果做进一步的描述:
1、仿真实验条件:
本发明的仿真实验所用数据为公开的Pascal VOC挑战赛中的VOC 2007数据集,包含20种不同类别的目标,共有9963张图片,其中训练集包含5011张图片,测试集包含4952张图片。仿真实验硬件平台为Intel酷睿i7 8700K@3.7GHz CPU、64GB RAM、NVIDIA GeforceGTX1080 Ti GPU,仿真实验软件平台为Python3.6和PyTorch 1.6。
2、仿真实验内容与结果分析:
本发明的仿真实验是在相同的数据集下,应用本发明方法与当前取得最优结果的方法对图像进行目标检测,并分别计算各种方法的检测准确率。在本发明的方法中,使用训练样本集训练神经网络,得到训练好的网络模型。然后使用测试样本集在训练好的网络模型上进行测试,得到本发明的检测准确率。
各种方法在训练结束后的检测准确率结果如表1所示。
表1 VOC 2007数据集检测准确率对比表
仿真实验方法 | Wetectron | WSOD2 | C-MIDN | C-MIL | 本发明方法 |
检测准确率 | 54.9% | 53.6% | 52.6% | 50.5% | 56.2% |
从表1中可以看出,本发明提出的基于边界框回归的弱监督目标检测方法相比当前取得最优结果的方法在检测准确率上的表现可圈可点,说明本发明中通过合并边界框生成伪标签的方法能够提高目标检测的准确率,在该研究问题上的竞争力较强,具有重要的实际意义。
Claims (3)
1.一种基于边界框回归的弱监督目标检测方法,其特征在于,通过在弱监督目标检测中加入边界框回归网络提升网络模型的检测精度,包括如下步骤:
(1)获取训练样本集和测试样本集:
获取包括C个目标类别的N幅RGB图像,并对每幅图像中的目标类别进行标注,然后对目标类别标注后的每幅图像进行归一化,最后将N幅归一化RGB图像中半数以上的图像及其目标类别标签组成训练样本集,将其余图像及其目标类别标签组成测试样本集,其中,C≥2,N≥5000;
(2)构建基于边界框回归的弱监督目标检测网络模型H:
构建包括特征提取网络以及与其输出端连接的多实例检测网络、自训练网络和边界框回归网络的弱监督目标检测网络模型H,其中:
特征提取网络包括多个卷积层、多个最大池化层和多个第一全连接层;
多实例检测网络包括并行排布的两个网络层,该两个网络层均包括顺次连接的第二全连接层和Softmax层,该两个网络层的输出进行级联;
自训练网络包括并行排布的三个网络层,该三个网络层均包括顺次连接的第三全连接层和Softmax层;
边界框回归网络包括并行排布的两个网络层,其中一个网络层包括顺次连接的第四全连接层和Softmax层,用于实现目标分类,另一个网络层采用第五全连接层,用于实现目标定位;
(3)对基于边界框回归的弱监督目标检测网络模型H进行迭代训练:
(3a)初始化迭代次数为w,最大迭代次数为W,W≥20000,并令w=1;
(3b)将训练样本集作为基于边界框回归的弱监督目标检测网络模型H的输入,特征提取网络对每个训练样本进行特征提取;多实例检测网络利用所提取特征图对其对应的训练样本进行边界框分类,得到边界框得分矩阵x0;自训练网络中的第k个网络层分别利用所提取特征图对其对应的训练样本进行边界框分类,得到边界框得分矩阵xk;边界框回归网络利用所提取特征图对其对应的训练样本进行目标分类和目标定位,得到每个训练样本的目标预测类别与目标预测边界框,其中,k∈{1,2,3};
(3c)对弱监督目标检测网络模型所包含的四个子网络中的权值参数进行更新,得到本次迭代的弱监督目标检测网络模型Hw,其中更新过程中计算边界框回归网络中两个网络层的损失值时,采用的是利用自训练网络中第三个网络层得到的边界框得分矩阵x3生成的伪标签;
(3d)判断w=W是否成立,若是,得到训练好的基于边界框回归的弱监督目标检测网络模型H*,否则,令w=w+1,并执行步骤(3b);
(4)获取弱监督目标检测结果:
将测试样本集作为训练好的基于边界框回归的弱监督目标检测网络模型H*的输入,边界框回归网络利用特征提取网络所提取特征图对其对应的测试样本进行目标分类和目标定位,得到每个测试样本的目标预测类别与目标预测边界框。
2.根据权利要求1所述的基于边界框回归的弱监督目标检测方法,其特征在于,步骤(2)中所述的基于边界框回归的弱监督目标检测网络模型H,其中:
特征提取网络包括的卷积层的个数为13,最大池化层的个数为3,第一全连接层的个数为2,该特征提取网络的具体结构为:第一至第二卷积层→最大池化层→第三至第四卷积层→最大池化层→第五至第七卷积层→最大池化层→第八至第十三卷积层→第一全连接层→第一全连接层;所有卷积层的卷积核尺寸均为3×3,移动步长均为1,第一至第二卷积层卷积核的个数均为64,第三至第四卷积层卷积核的个数均为128,第五至第七卷积层卷积核的个数均为256,第八至第十三卷积层卷积核的个数均为512;所有最大池化层的池化核尺寸均为2×2,移动步长均为2;所有第一全连接层的隐藏单元个数均为4096;
多实例检测网络,其中两个网络层包含的第二全连接层的隐藏单元个数与目标类别的个数C相等;
自训练网络,其中三个网络层包含的第三全连接层的隐藏单元个数均为C+1;
边界框回归网络,其中包含的第四全连接层的隐藏单元个数为C+1,第五全连接层的隐藏单元个数为4×(C+1)。
3.根据权利要求1所述的基于边界框回归的弱监督目标检测方法,其特征在于,步骤(3c)中所述的对弱监督目标检测网络模型所包含的四个子网络中的权值参数进行更新,实现步骤为:
(3c1)多实例检测网络采用交叉熵损失函数,并通过边界框得分矩阵x0和每个训练样本的目标类别标签计算边界框的分类损失值Lm:
其中,xk-1在k-1=0时表示多实例检测网络生成的边界框得分矩阵x0,在k-1≥1时表示自训练网络第k-1个网络层的边界框得分矩阵,表示自训练网络第k个网络层的监督信息矩阵sk中第c个目标类别下第r个边界框的监督信息,表示自训练网络第k个网络层生成的边界框得分矩阵xk中第c个目标类别下第r个边界框的得分;
(3c3)边界框回归网络中的用于实现目标分类的网络层采用交叉熵损失函数,并通过目标的预测类别概率和利用x3生成的伪标签计算目标的分类损失值Lcls;用于实现目标定位的网络层采用SmoothL1损失函数,并通过目标的预测边界框和利用x3生成的伪标签计算目标的位置损失值Lreg,然后通过Lcls和Lreg计算边界框回归网络的总损失值Lb:
其中,表示伪标签中第r个边界框,tr表示第r个预测边界框,pr表示第r个边界框的类别预测概率向量,pcr表示第c个目标类别下第r个边界框的预测概率,表示伪标签中第r个边界框的类别标签向量,若第r个边界框的类别为c,则1的位置在类别标签向量的第c个位置,为的第c个位置的值;
(3c4)采用随机梯度下降法,并通过Lm、与Lb的和对特征提取网络中的卷积核权重参数ωw,以及特征提取网络、多实例检测网络、自训练网络和边界框回归网络中的全连接层结点之间的连接权重参数θw进行更新,更新公式分别为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210398499.0A CN114882340B (zh) | 2022-04-15 | 2022-04-15 | 基于边界框回归的弱监督目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210398499.0A CN114882340B (zh) | 2022-04-15 | 2022-04-15 | 基于边界框回归的弱监督目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114882340A true CN114882340A (zh) | 2022-08-09 |
CN114882340B CN114882340B (zh) | 2024-09-24 |
Family
ID=82668784
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210398499.0A Active CN114882340B (zh) | 2022-04-15 | 2022-04-15 | 基于边界框回归的弱监督目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114882340B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116012719A (zh) * | 2023-03-27 | 2023-04-25 | 中国电子科技集团公司第五十四研究所 | 一种基于多实例学习的弱监督旋转目标检测方法 |
CN116206201A (zh) * | 2023-02-21 | 2023-06-02 | 北京理工大学 | 一种监督目标检测识别方法、装置、设备及存储介质 |
CN116612420A (zh) * | 2023-07-20 | 2023-08-18 | 中国科学技术大学 | 弱监督视频时序动作检测方法、系统、设备及存储介质 |
CN116665095A (zh) * | 2023-05-18 | 2023-08-29 | 中国科学院空间应用工程与技术中心 | 一种运动舰船检测方法、系统、存储介质和电子设备 |
CN116978008A (zh) * | 2023-07-12 | 2023-10-31 | 睿尔曼智能科技(北京)有限公司 | 一种融合rgbd的半监督目标检测方法和系统 |
CN117541782A (zh) * | 2024-01-09 | 2024-02-09 | 北京闪马智建科技有限公司 | 对象的识别方法、装置、存储介质及电子装置 |
CN117911954A (zh) * | 2024-01-25 | 2024-04-19 | 山东建筑大学 | 一种用于新能源电站运维的弱监督目标检测方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110533067A (zh) * | 2019-07-22 | 2019-12-03 | 杭州电子科技大学 | 基于深度学习的边框回归的端到端弱监督目标检测方法 |
CN113989558A (zh) * | 2021-10-28 | 2022-01-28 | 哈尔滨工业大学 | 基于迁移学习与边界框调节的弱监督目标检测方法 |
-
2022
- 2022-04-15 CN CN202210398499.0A patent/CN114882340B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110533067A (zh) * | 2019-07-22 | 2019-12-03 | 杭州电子科技大学 | 基于深度学习的边框回归的端到端弱监督目标检测方法 |
CN113989558A (zh) * | 2021-10-28 | 2022-01-28 | 哈尔滨工业大学 | 基于迁移学习与边界框调节的弱监督目标检测方法 |
Non-Patent Citations (2)
Title |
---|
BOWEN DONG等: "Boosting Weakly Supervised Object Detection via Learning Bounding Box Adjusters", 《ICCV 2021》, 3 August 2021 (2021-08-03) * |
金灿: "基于弱监督学习的目标检测算法研究", 《万方数据》, 27 April 2023 (2023-04-27) * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116206201A (zh) * | 2023-02-21 | 2023-06-02 | 北京理工大学 | 一种监督目标检测识别方法、装置、设备及存储介质 |
CN116012719A (zh) * | 2023-03-27 | 2023-04-25 | 中国电子科技集团公司第五十四研究所 | 一种基于多实例学习的弱监督旋转目标检测方法 |
CN116665095A (zh) * | 2023-05-18 | 2023-08-29 | 中国科学院空间应用工程与技术中心 | 一种运动舰船检测方法、系统、存储介质和电子设备 |
CN116665095B (zh) * | 2023-05-18 | 2023-12-22 | 中国科学院空间应用工程与技术中心 | 一种运动舰船检测方法、系统、存储介质和电子设备 |
CN116978008A (zh) * | 2023-07-12 | 2023-10-31 | 睿尔曼智能科技(北京)有限公司 | 一种融合rgbd的半监督目标检测方法和系统 |
CN116978008B (zh) * | 2023-07-12 | 2024-04-26 | 睿尔曼智能科技(北京)有限公司 | 一种融合rgbd的半监督目标检测方法和系统 |
CN116612420A (zh) * | 2023-07-20 | 2023-08-18 | 中国科学技术大学 | 弱监督视频时序动作检测方法、系统、设备及存储介质 |
CN116612420B (zh) * | 2023-07-20 | 2023-11-28 | 中国科学技术大学 | 弱监督视频时序动作检测方法、系统、设备及存储介质 |
CN117541782A (zh) * | 2024-01-09 | 2024-02-09 | 北京闪马智建科技有限公司 | 对象的识别方法、装置、存储介质及电子装置 |
CN117911954A (zh) * | 2024-01-25 | 2024-04-19 | 山东建筑大学 | 一种用于新能源电站运维的弱监督目标检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114882340B (zh) | 2024-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114882340A (zh) | 基于边界框回归的弱监督目标检测方法 | |
CN111860495B (zh) | 一种层级化网络结构搜索方法、设备及可读存储介质 | |
CN113486981B (zh) | 基于多尺度特征注意力融合网络的rgb图像分类方法 | |
Sharma | Deep challenges associated with deep learning | |
CN104850845B (zh) | 一种基于非对称卷积神经网络的交通标志识别方法 | |
US20180018555A1 (en) | System and method for building artificial neural network architectures | |
CN110569738B (zh) | 基于密集连接网络的自然场景文本检测方法、设备和介质 | |
CN110288030A (zh) | 基于轻量化网络模型的图像识别方法、装置及设备 | |
CN112183620B (zh) | 基于图卷积神经网络的小样本分类模型的发育方法及系统 | |
CN109740679B (zh) | 一种基于卷积神经网络和朴素贝叶斯的目标识别方法 | |
CN113177560A (zh) | 一种普适性轻量级深度学习车辆检测方法 | |
CN113222011B (zh) | 一种基于原型校正的小样本遥感图像分类方法 | |
CN113010683B (zh) | 基于改进图注意力网络的实体关系识别方法及系统 | |
CN106203625A (zh) | 一种基于多重预训练的深层神经网络训练方法 | |
CN112529005A (zh) | 基于语义特征一致性监督金字塔网络的目标检测方法 | |
CN107563430A (zh) | 一种基于稀疏自动编码器和灰度关联分析法的卷积神经网络算法优化方法 | |
CN113673482B (zh) | 基于动态标签分配的细胞抗核抗体荧光识别方法及系统 | |
CN103971136A (zh) | 一种面向大规模数据的并行结构化支持向量机分类方法 | |
CN113255892A (zh) | 一种解耦合的网络结构搜索方法、设备及可读存储介质 | |
CN112364974B (zh) | 一种基于激活函数改进的YOLOv3算法 | |
CN112766283A (zh) | 一种基于多尺度卷积网络的两相流流型识别方法 | |
CN112364747A (zh) | 一种有限样本下的目标检测方法 | |
CN117576038A (zh) | 基于YOLOv8网络的织物瑕疵检测方法及系统 | |
CN110110426A (zh) | 一种开关电源滤波电容失效检测方法 | |
CN113255543A (zh) | 基于图卷积网络的面部表情识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |