CN111275044A - 基于样本选择和自适应难例挖掘的弱监督目标检测方法 - Google Patents

基于样本选择和自适应难例挖掘的弱监督目标检测方法 Download PDF

Info

Publication number
CN111275044A
CN111275044A CN202010108427.9A CN202010108427A CN111275044A CN 111275044 A CN111275044 A CN 111275044A CN 202010108427 A CN202010108427 A CN 202010108427A CN 111275044 A CN111275044 A CN 111275044A
Authority
CN
China
Prior art keywords
target
image
candidate
score
candidate frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010108427.9A
Other languages
English (en)
Inventor
程塨
杨钧宇
高德成
韩军伟
郭雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202010108427.9A priority Critical patent/CN111275044A/zh
Publication of CN111275044A publication Critical patent/CN111275044A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/245Aligning, centring, orientation detection or correction of the image by locating a pattern; Special marks for positioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于样本选择和自适应难例挖掘的弱监督目标检测方法。首先,对输入图像进行预处理,并用选择性搜索算法生成图像的候选框;然后,把候选框和预处理后的图像输入卷积神经网络提取特征,再将输出的特征向量输入全连接层得到每个候选框的得分;接着,根据得分迭代选择正样本,再从目标位置和图像标签两个角度挖掘难负样本,并对不同样本赋予不同权重,基于这些权重计算损失函数;采用梯度下降法回传网络损失进行网络参数更新;最后,利用训练好的网络对图像进行目标类别和位置预测,再经过非极大值抑制处理,得到图像多类目标的精确检测结果。本发明方法具有较高的检测精度,且方法鲁棒性强。

Description

基于样本选择和自适应难例挖掘的弱监督目标检测方法
技术领域
本发明属图像处理技术领域,具体涉及一种基于样本选择和自适应难例挖掘的弱监督目标检测方法,实现了在线自适应选择高质量的弱监督训练样本,可以应用于各种类型的弱监督目标检测任务。
背景技术
随着目标检测任务的高速发展,其高标注成本的弊端也逐渐显现。由于目标检测任务的目的是得到图片中目标的分类结果和位置信息,因此在训练模型时,不仅要像分类任务一样,标注出图片有哪几类目标,还要标注出目标的具体位置及其类别属性。虽然目前有成熟的标注工具,但这无疑耗费了大量的人力物力,因此弱监督目标检测任务应运而生,即用图片级标签实现检测目标具体位置的任务,这就对神经网络模型的运用和训练样本的选择提出了更高的要求。
目前,最常用的弱监督目标检测框架是WSDDN(Weakly Supervised DeepDetection Networks)和OICR(Online Instance Classifier Refinement)。其中,WSDDN基于目标检测任务的经典框架Fast-RCNN(Fast Region-based Convolutional NeuralNetwork),设计出了基于特征提取、样本选择和损失函数设计三个步骤的弱监督目标检测框架,后续的弱监督目标检测任务基本沿用这一步骤规范。其中,样本选择和损失函数设计对于模型的训练最为重要,也最能体现弱监督学习的创新性。
OICR框架意图扩大卷积神经网络对目标的敏感区域,因此,基于WSDDN框架,首先在样本选择上,选择最高得分框及其周围交并比(Intersection over Union,IOU)较大的候选框为正样本,其余候选框为负样本;对于损失函数,设计出加权交叉熵损失函数,将候选框得分作为权重用于计算损失。这两点改进虽然有效提升了模型的检测精度,但是相对于复杂的图像信息,其样本选择过程还是显得过于简单。在正样本选择的过程中,由于大多数图像包含多个目标而非一个目标,所以只选择最高得分框及其周围候选框为正样本就显得有所欠缺。另外,除了最高得分区域,其余的图像信息还相当复杂,其中应该包括得分较低的目标、简单背景和难负样本,如果将它们一概归为难例会产生大量噪声,影响训练。
发明内容
为了克服现有技术的不足,本发明提供一种基于样本选择和自适应难例挖掘的弱监督目标检测方法。首先,对输入图像进行预处理,并用选择性搜索(Selective Search)算法生成图像的候选框;然后,把候选框和预处理后的图像输入卷积神经网络提取特征,再将输出的特征向量输入全连接层得到每个候选框的得分;接着,根据得分迭代选择正样本,再从目标位置和图像标签两个角度挖掘难负样本,并对不同样本赋予不同权重,基于这些权重计算损失函数;采用梯度下降算法回传损失的梯度进行网络参数更新;最后,利用训练好的网络对图像进行目标类别和位置预测,再经过非极大值抑制(Non MaximumSuppression,NMS)处理,得到图像多类目标的精确检测结果。本发明方法不但可以尽可能地遍历图像中的所有目标,从而产生更多的正样本,而且可以自适应的挖掘图像中的高质量难例,并更新损失函数,具有较高的检测精度和定位精度。
一种基于样本选择和自适应难例挖掘的弱监督目标检测方法,其特征在于步骤如下:
步骤1,数据预处理和候选框提取:对原始输入图像进行尺寸调整,然后,对调整尺寸后的图像像素值进行归一化处理,得到预处理后的图像;所述的尺寸调整是指在给定的尺寸范围内随机选择一个作为调整后图像的短边尺寸,并按原始图像比例确定调整后图像的长边尺寸,然后将原始图像调整为确定的长短边尺寸大小;
同时,采用选择性搜索算法对原始图像提取目标区域候选框;
步骤2,网络前向计算:
步骤2.1,特征提取:将预处理后的图像输入VGG16卷积神经网络,得到卷积特征图,然后将卷积特征图和候选框输入RoI池化层,再输入两层串联的全连接层,输出得到每个候选框的特征向量;将所有候选框的特征向量输入一个全连接层的分类分支,输出得到维度大小为N×C的分类得分矩阵;同时将所有候选框的特征向量输入一个全连接层的检测分支,输出得到维度大小均为N×C的检测得分矩阵,其中,N代表候选框的数量,C代表目标类别的数量;
步骤2.2,计算图像分类损失:将分类得分矩阵从C维度经过Softmax运算得到一个新矩阵,将检测得分矩阵从N维度经过Softmax运算得到一个新矩阵,将两个新矩阵的对应元素相乘,得到用于图像分类的得分矩阵;将用于图像分类的得分矩阵在N维度上对应元素相加,再从C维度上经过Softmax运算,得到大小为1×C的图像级得分向量;使用多类别交叉熵损失函数对图像级得分向量和已知的图像级标签计算得到图像分类损失;
步骤2.3,获取候选框得分矩阵:将步骤2.1得到每个候选框的特征向量输入一个全连接层的候选框评分分支,此分支全连接层输出为C+1维,在C个类别的基础上增加一个背景类,输出得到维度大小为N×(C+1)的候选框得分矩阵,其中,N代表候选框的数量,C+1代表目标类别的数量加背景类;
步骤2.4,在线迭代正样本选择:根据步骤2.3得到的候选框得分矩阵,选择每一类目标得分最高的候选框及与该得分最高候选框交并比大于等于0.5的候选框为该类目标的正样本,然后继续从该类目标除已选择为正样本外的剩余候选框中按前述方法选择正样本,重复此过程,直至该目标类别除已选择为正样本外的所有剩余候选框的得分都小于0.5,停止选择,得到该类目标的所有正样本;
对每个类别的目标都按照上述过程进行正样本选择,得到每类目标的正样本;
步骤2.5,自适应难负例挖掘:对于每一类目标,将与步骤2.4中每次迭代选择的得分最高候选框交并比在0.1到0.5之间的所有候选框归入该类目标的基于目标位置的难负例集合N1;在所有候选框中除去该类目标的正样本集合和难负样例集合N1后,将剩余候选框中得分最高、对应类别为图像标签中不存在的类别的候选框,归入该类别目标的基于图像标签的难负例集合N2
步骤2.6,计算目标级损失:对于每一类目标的难负例集合N1中的每一个候选框,将其与其对应的得分最高候选框的交并比和其得分的乘积取自然对数,作为该候选框的难负例权重;对于每一类目标的难负例集合N2中的每一个候选框,以其得分的自然对数为其难负例权重;对于每一类目标的正样本,权重统一设置为1;所有除正样本和两个难负例集合中的候选框以外的剩余候选框的得分权重均置为零;
然后,使用加权多类别交叉熵损失函数计算目标级损失:
Figure BDA0002389159260000031
其中,L表示目标级损失,
Figure BDA0002389159260000032
表示按上述过程得到的第c类目标的第r个候选框的权重,w表示图像中正样本的最高得分,
Figure BDA0002389159260000033
为候选框r在目标类别c上的类别标签,
Figure BDA0002389159260000034
为候选框r在类别c上的得分;
步骤3,网络端到端训练:将目标级损失和图像分类损失相加作为网络总损失,重复步骤2,使用随机梯度下降算法回传损失梯度进行网络训练,得到训练好的网络;其中,训练过程共设置20个epoch,初始学习率为0.001,学习率每5个epoch下降一次,下降速率为0.1,到第20个epoch时,学习率降低为0.0000001,随机梯度下降的批次设置为2;
步骤4,目标检测:利用训练好的网络模型对测试图像中目标的类别和位置进行预测,输出为带类别预测的检测框,采用非极大值抑制方法过滤掉冗余的检测框,得到最终的检测结果。
本发明的有益效果是:(1)由于进行了自适应样本选择,使得网络在训练过程中选择出更多更全面的正样本,能够训练得到鲁棒性更强的网络。(2)针对图像中存在的类别,通过在正样本周围挖掘更多混淆性强的难负样例集合N1,可以在训练过程中重点抑制这些样本的得分;针对图像中不存在的类别,通过挖掘难负样例集合N2,可以在训练过程中重点抑制这些样本的得分;通过抑制这两类样本的得到,可以使训练得到的网络具有更好的目标检测效果。(3)由于设计了自适应损失函数,使得网络损失的计算更加准确。
附图说明
图1是本发明的基于样本选择和自适应难例挖掘的弱监督目标检测方法流程图;
图中,FC6-全连接层一,FC7-全连接层二,FC8c-分类分支全连接层,FC8d-检测分支全连接层,FC9-1-第一次迭代候选框评分分支全连接层,FC9-K-第K次迭代候选框评分分支全连接层,σcls-经过softmax层处理的分类得分矩阵,σdet-经过softmax层处理的检测得分矩阵,WSDDN-阴影部分为经典弱监督目标检测网络结构Weakly Supervised DeepDetection Networks;
图2是实验所使用的数据库部分图像示例;
图3是采用本发明方法得到的检测结果示例。
具体实施方式
下面结合附图和实施例对本发明进一步说明,本发明包括但不仅限于下述实施例。
如图1所示,本发明提供了一种基于样本选择和自适应难例挖掘的弱监督目标检测方法,其具体实现过程如下:
1、数据预处理和候选框提取
对原始输入图像进行尺寸调整,然后,对原始输入图像的像素值进行归一化处理,得到预处理后的图像;所述的尺寸调整是指在给定的尺寸范围内随机选择一个作为调整后图像的短边尺寸W,如在[480,576,688,864,1200]中随机选择一个,并按原始图像比例确定调整后图像的长边尺寸L,然后将原始图像按照短边尺寸和长边尺寸进行等比例缩放。
图像归一化方法如下:
Figure BDA0002389159260000051
其中,imgori代表未处理的原始图像数据,imgafter代表归一化后的图像数据,mean代表原始图像数据的RGB分量均值,即mean=(Rave,Gave,Bave),Rave代表原始图像数据的R分量均值,Gave代表原始图像数据的G分量均值,Bave代表原始图像数据的B分量均值,std代表原始图像数据的RGB分量标准差,即std=(Rstd,Gstd,Bstd),Rstd代表原始图像数据的R分量标准差,Gstd代表原始图像数据的G分量标准差,Bstd代表原始图像数据的B分量标准差。
同时,采用选择性搜索(Selective Search)算法对原始图像提取目标区域候选框。
2、特征提取
将预处理后的图像输入卷积神经网络,以VGG16作为框架的主干网络,首先,通过64通道的1×1卷积核将原图处理为W×L×64的特征图;然后,通过2×2的最大池化处理,将特征图的维度从W×L降为W/2×L/2,并用3×3的卷积核将通道数从64增加为128;之后,通过相同的2×2的最大池化操作和3×3的卷积操作,进一步增加特征图的通道数,降低特征图的维度,在RoI池化层之前的卷积层得到了(W/16)×(L/16)×512的特征图。
然后,通过RoI池化层将图像特征图和候选框相结合,再输入两层串联的全连接层,输出得到候选框的特征向量,再将候选框的特征向量分别经过一个全连接层的分类分支和一个全连接层的检测分支,得到维度大小均为N×C的分类得分矩阵和检测得分矩阵,其中,N代表候选框的数量,C代表目标类别的数量。
所述的Vgg16网络结构记载在文献“Simonyan,Karen,Zisserman,Andrew.VeryDeep Convolutional Networks for Large-Scale Image Recognition[C].Int.Conf.Learn.Represent.,2014.”中;所述的RoI池化操作记载在文献“R.Girshick.Fast r-cnn[C].IEEE Int.Conf.Comput.Vision,pp.2015:1440–1448.”中。
3、计算图像分类损失
将分类得分矩阵和检测得分矩阵分别从C和N两个维度经过Softmax运算,得到两个新的矩阵后再将对应元素相乘,得到最终的候选框得分矩阵;将候选框得分矩阵在N维度上对应元素相加,得到1×C图像级得分向量;用图像级得分向量与图像级标签计算图像分类损失,其中,图像分类损失使用的是多类别交叉熵损失函数,图像级标签是已知的。
所述的多类别交叉熵损失函数的计算方法记载在文献“P.Tang,X.Wang,X.Bai,and W.Liu.Multiple instance detection network with online instance classifierrefinement[C].IEEE Int.Conf.Comput.Vision Pattern Recognit.2017:2843–2851.”中。
4、获取候选框得分矩阵
将步骤2得到每个候选框的特征向量输入一个全连接层的候选框评分分支,此分支全连接层输出为C+1维,在C个类别的基础上增加了一个背景类,输出得到维度大小为N×(C+1)的候选框得分矩阵,其中,N代表候选框的数量,C+1代表目标类别的数量加背景类;
5、在线迭代正样本选择
对于每一类目标,基于步骤4得到的候选框得分矩阵,选择该目标类别对应的最高得分框及其周围交并比大于等于0.5的候选框为正样本,然后在剩余候选框中继续选择该目标类别对应的最高得分框及其周围交并比大于等于0.5的候选框为正样本。迭代此过程,直到该目标类别对应的最高得分框的得分小于0.5。
6、自适应难负例挖掘
对于每一类目标,首先选出基于目标位置的难负例集合N1,即通过步骤5每次迭代选出的最高得分框,选取与其交并比在0.1到0.5之间的所有候选框为难负例集合N1。然后,选出基于图像标签的难负例集合N2,即图像标签中没有该目标类别,但候选框得分为所有类别中最高,选取这些候选框为难负例集合N2
7、计算目标级损失
针对难负例集合N1,将所有候选框与其对应的最高得分框计算交并比,并乘以其得分再经过自然对数的处理作为难负例权重;针对难负例集合N2,只用自然对数处理其得分作为难负例权重;针对正样本,其权重统一设置为1。用公式表示为:
Figure BDA0002389159260000071
其中,c为目标类别序号,r为候选框序号,
Figure BDA0002389159260000072
为候选框r在目标类别上r的权重,IOUr为候选框r与其最高得分框的交并比,
Figure BDA0002389159260000073
为候选框r在类别c上的得分,c=1,…,C,r=1,…,N。
再用所有这些样本权重计算目标级损失,其中,计算目标级损失使用的是加权多类别交叉熵损失函数,定义为:
Figure BDA0002389159260000074
其中,L表示目标级损失,w表示图像中正样本的最高得分,
Figure BDA0002389159260000075
为第r个候选框在目标类别上c的类别标签。在计算目标级损失时,将所有除正样本和两个难负例集合中的候选框以外的剩余候选框的得分权重均置为零。
公式(4)设计的损失函数意味着混淆效果更明显的难例提供了更大的损失。
8、网络端到端训练
步骤2-6详细叙述了从预处理图像输入网络到网络输出得分再与标签计算损失的前向传播过程。在回传损失更新卷积神经网络参数时,将目标级损失和图像分类损失相加,使用随机梯度下降算法,回传梯度更新网络参数。训练总共设置20个epoch,初始学习率设置为0.001,学习率每5个epoch下降一次,下降速率为0.1,到第20个epoch时,学习率降低为0.0000001。随机梯度下降(SGD)的批次(batch-size)设置为2。
9、目标检测
利用训练好的网络对测试图像进行目标的类别和位置预测,输出目标的类别得分和回归框,采用非极大值抑制方法过滤掉冗余的检测框,本实施例设置得分阈值为0.3,然后使用阈值为0.5的NMS过滤掉针对同一目标产生的冗余检测框,从而得到最终的检测结果。
为验证本发明方法的有效性,在硬件环境:Intel(R)Xeon(R)CPU E5-2698 v4@2.20GHz CPU服务器、GeForce GTX 1080Ti GPU、256GB内存下,采用Pycharm2016和Ubuntu16.04.5LTS软件进行实验。实验使用公开的Pascal VOC2007数据集,该数据集包含训练图片5011幅,测试图片4952幅,共计9963幅图,及20个种类(飞机、自行车、鸟、船、瓶子、公交车、小汽车、猫、椅子、牛、饭桌、狗、马、摩托车、人、盆景、羊、沙发、火车、电视机)。
使用平均检测精度(mAP)和平均定位精度对本发明方法的有效性进行评估。平均检测精度和平均定位精度的值越高,表明方法的性能越好。mAP定义为:
Figure BDA0002389159260000081
其中,C代表数据集中的目标类别总数,c代表目标类别序号,APc代表第c类目标的平均精度值。将本发明所得的检测结果与目前国际上常见的10种弱监督目标检测算法进行了对比,对比结果如表1所示,可以明显看出本发明方法的优越性。
表1
算法 平均检测精度(%) 平均定位精度(%)
WSDDN 34.8 53.5
DSTL 41.7 56.1
WCCN 42.8 56.7
PCL 43.5 62.7
TS<sup>2</sup>C 44.3 61.0
MELM 47.3 61.4
ZLDN 47.6 61.2
C-WSL 45.6 63.3
WSRPN 45.3 63.8
OICR 41.2 60.6
本发明方法 47.7 65.8
WSDDN方法的结果记载在文献“H.Bilen,A.Vedaldi.Weakly supervised deepdetection networks[C].IEEE Int.Conf.Comput.Vision Pattern Recognit.2016:2846–2854.”中;DSTL方法的结果记载在文献“Z.Jie,Y.Wei,X.Jin,J.Feng,and W.Liu.Deepself-taught learning for weakly supervised object localization[C].IEEEInt.Conf.Comput.Vision Pattern Recognit.2017:1377–1385.”中;WCCN方法的结果记载在文献“A.Diba,V.Sharma,A.Pazandeh,H.Pirsiavash,and L.Van Goo.Weaklysupervised cascaded convolutional networks[C].IEEE Int.Conf.Comput.VisionPattern Recognit.2017:914–922.”中;PCL方法的结果记载在文献“Tang P,Wang X,BaiS,et al.PCL:Proposal Cluster Learning for Weakly Supervised Object Detection[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2018:1-1.”中;TS2C方法的结果记载在文献“Y.Wei,Z.Shen,B.Cheng,H.Shi,J.Xiong,J.Feng,andT.Huang.Ts2c:Tight box mining with surrounding segmentation context forweakly supervised object detection[C].Eur.Conf.Comput.Vis.2018:434–450.”中;MELM方法的结果记载在文献“F.Wan,P.Wei,J.Jiao,Z.Han,and Q.Ye.Min-entropy latentmodel for weakly supervised object detection[C].IEEE Int.Conf.Comput.VisionPattern Recognit.2018:1297-1306.”中;ZLDN方法的结果记载在文献“X.Zhang,J.Feng,H.Xiong,and Q.Tian.Zigzag learning for weakly supervised object detection[C].IEEE Int.Conf.Comput.Vision Pattern Recognit.2018:4262–4270.”中;C-WSL方法的结果记载在文献“M.Gao,A.Li,R.Yu,V.I.Morariu,and L.S.Davis,“C-wsl:Countguidedweakly supervised localization,”in Proc.Eur.Conf.Comput.Vis.2018:152–168.”中;WSRPN方法的结果记载在文献“P.Tang,X.Wang,A.Wang,Y.Yan,W.Liu,J.Huang,andA.Yuille,“Weakly supervised region proposal network and object detection,”inProc.Eur.Conf.Comput.Vis.2018:352–368.”中;OICR方法的结果记载在文献“P.Tang,X.Wang,X.Bai,and W.Liu.Multiple instance detection network with onlineinstance classifier refinement[C].IEEE Int.Conf.Comput.Vision PatternRecognit.2017:2843–2851.”中。

Claims (1)

1.一种基于样本选择和自适应难例挖掘的弱监督目标检测方法,其特征在于步骤如下:
步骤1,数据预处理和候选框提取:对原始输入图像进行尺寸调整,然后,对调整尺寸后的图像像素值进行归一化处理,得到预处理后的图像;所述的尺寸调整是指在给定的尺寸范围内随机选择一个作为调整后图像的短边尺寸,并按原始图像比例确定调整后图像的长边尺寸,然后将原始图像调整为确定的长短边尺寸大小;
同时,采用选择性搜索算法对原始图像提取目标区域候选框;
步骤2,网络前向计算:
步骤2.1,特征提取:将预处理后的图像输入VGG16卷积神经网络,得到卷积特征图,然后将卷积特征图和候选框输入RoI池化层,再输入两层串联的全连接层,输出得到每个候选框的特征向量;将所有候选框的特征向量输入一个全连接层的分类分支,输出得到维度大小为N×C的分类得分矩阵;同时将所有候选框的特征向量输入一个全连接层的检测分支,输出得到维度大小均为N×C的检测得分矩阵,其中,N代表候选框的数量,C代表目标类别的数量;
步骤2.2,计算图像分类损失:将分类得分矩阵从C维度经过Softmax运算得到一个新矩阵,将检测得分矩阵从N维度经过Softmax运算得到一个新矩阵,将两个新矩阵的对应元素相乘,得到用于图像分类的得分矩阵;将用于图像分类的得分矩阵在N维度上对应元素相加,再从C维度上经过Softmax运算,得到大小为1×C的图像级得分向量;使用多类别交叉熵损失函数对图像级得分向量和已知的图像级标签计算得到图像分类损失;
步骤2.3,获取候选框得分矩阵:将步骤2.1得到每个候选框的特征向量输入一个全连接层的候选框评分分支,此分支全连接层输出为C+1维,在C个类别的基础上增加一个背景类,输出得到维度大小为N×(C+1)的候选框得分矩阵,其中,N代表候选框的数量,C+1代表目标类别的数量加背景类;
步骤2.4,在线迭代正样本选择:根据步骤2.3得到的候选框得分矩阵,选择每一类目标得分最高的候选框及与该得分最高候选框交并比大于等于0.5的候选框为该类目标的正样本,然后继续从该类目标除已选择为正样本外的剩余候选框中按前述方法选择正样本,重复此过程,直至该目标类别除已选择为正样本外的所有剩余候选框的得分都小于0.5,停止选择,得到该类目标的所有正样本;
对每个类别的目标都按照上述过程进行正样本选择,得到每类目标的正样本;
步骤2.5,自适应难负例挖掘:对于每一类目标,将与步骤2.4中每次迭代选择的得分最高候选框交并比在0.1到0.5之间的所有候选框归入该类目标的基于目标位置的难负例集合N1;在所有候选框中除去该类目标的正样本集合和难负样例集合N1后,将剩余候选框中得分最高、对应类别为图像标签中不存在的类别的候选框,归入该类别目标的基于图像标签的难负例集合N2
步骤2.6,计算目标级损失:对于每一类目标的难负例集合N1中的每一个候选框,将其与其对应的得分最高候选框的交并比和其得分的乘积取自然对数,作为该候选框的难负例权重;对于每一类目标的难负例集合N2中的每一个候选框,以其得分的自然对数为其难负例权重;对于每一类目标的正样本,权重统一设置为1;所有除正样本和两个难负例集合中的候选框以外的剩余候选框的得分权重均置为零;
然后,使用加权多类别交叉熵损失函数计算目标级损失:
Figure FDA0002389159250000021
其中,L表示目标级损失,
Figure FDA0002389159250000022
表示按上述过程得到的第c类目标的第r个候选框的权重,w表示图像中正样本的最高得分,
Figure FDA0002389159250000023
为候选框r在目标类别c上的类别标签,
Figure FDA0002389159250000024
为候选框r在类别c上的得分;
步骤3,网络端到端训练:将目标级损失和图像分类损失相加作为网络总损失,重复步骤2,使用随机梯度下降算法回传损失梯度进行网络训练,得到训练好的网络;其中,训练过程共设置20个epoch,初始学习率为0.001,学习率每5个epoch下降一次,下降速率为0.1,到第20个epoch时,学习率降低为0.0000001,随机梯度下降的批次设置为2;
步骤4,目标检测:利用训练好的网络模型对测试图像中目标的类别和位置进行预测,输出为带类别预测的检测框,采用非极大值抑制方法过滤掉冗余的检测框,得到最终的检测结果。
CN202010108427.9A 2020-02-21 2020-02-21 基于样本选择和自适应难例挖掘的弱监督目标检测方法 Pending CN111275044A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010108427.9A CN111275044A (zh) 2020-02-21 2020-02-21 基于样本选择和自适应难例挖掘的弱监督目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010108427.9A CN111275044A (zh) 2020-02-21 2020-02-21 基于样本选择和自适应难例挖掘的弱监督目标检测方法

Publications (1)

Publication Number Publication Date
CN111275044A true CN111275044A (zh) 2020-06-12

Family

ID=70997191

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010108427.9A Pending CN111275044A (zh) 2020-02-21 2020-02-21 基于样本选择和自适应难例挖掘的弱监督目标检测方法

Country Status (1)

Country Link
CN (1) CN111275044A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111709945A (zh) * 2020-07-17 2020-09-25 成都三零凯天通信实业有限公司 一种基于深度局部特征的视频拷贝检测方法
CN111738373A (zh) * 2020-08-28 2020-10-02 北京瑞莱智慧科技有限公司 多样本对抗扰动生成方法、装置、存储介质和计算设备
CN112215252A (zh) * 2020-08-12 2021-01-12 南强智视(厦门)科技有限公司 一种基于在线难易样本挖掘的弱监督目标检测方法
CN112464769A (zh) * 2020-11-18 2021-03-09 西北工业大学 一种基于一致多阶段检测的高分遥感图像目标检测方法
CN112560928A (zh) * 2020-12-08 2021-03-26 北京百度网讯科技有限公司 负样本挖掘方法、装置、电子设备及存储介质
CN112597994A (zh) * 2020-11-30 2021-04-02 北京迈格威科技有限公司 候选框处理方法、装置、设备及介质
CN113052103A (zh) * 2021-03-31 2021-06-29 株洲时代电子技术有限公司 一种基于神经网络的电气设备缺陷检测方法及装置
WO2021135330A1 (zh) * 2020-07-28 2021-07-08 平安科技(深圳)有限公司 图像样本选择方法及相关设备
CN113128575A (zh) * 2021-04-01 2021-07-16 西安电子科技大学广州研究院 一种基于软标签的目标检测样本平衡方法
CN113222904A (zh) * 2021-04-21 2021-08-06 重庆邮电大学 改进PoolNet网络结构的混凝土路面裂缝检测方法
CN113449738A (zh) * 2021-07-06 2021-09-28 国网信息通信产业集团有限公司 基于样本特性的先验框参数自适应改进frc检测方法
CN114627437A (zh) * 2022-05-16 2022-06-14 科大天工智能装备技术(天津)有限公司 一种交通目标识别方法及系统
CN115035409A (zh) * 2022-06-20 2022-09-09 北京航空航天大学 一种基于相似性对比学习的弱监督遥感图像目标检测算法
CN115880266A (zh) * 2022-12-27 2023-03-31 深圳市大数据研究院 一种基于深度学习的肠道息肉检测系统和方法
EP4163822A4 (en) * 2020-06-29 2023-12-20 Huawei Cloud Computing Technologies Co., Ltd. APPARATUS AND METHOD FOR DATA ANNOTATION, AND COMPUTER DEVICE AND RECORDING MEDIUM

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682696A (zh) * 2016-12-29 2017-05-17 华中科技大学 基于在线示例分类器精化的多示例检测网络及其训练方法
CN107330027A (zh) * 2017-06-23 2017-11-07 中国科学院信息工程研究所 一种弱监督的深度台标检测方法
CN107657237A (zh) * 2017-09-28 2018-02-02 东南大学 基于深度学习的汽车碰撞检测方法及系统
CN108304835A (zh) * 2018-01-30 2018-07-20 百度在线网络技术(北京)有限公司 文字检测方法和装置
US20180300880A1 (en) * 2017-04-12 2018-10-18 Here Global B.V. Small object detection from a large image
CN109145939A (zh) * 2018-07-02 2019-01-04 南京师范大学 一种小目标敏感的双通道卷积神经网络语义分割方法
CN110096202A (zh) * 2019-04-23 2019-08-06 华中师范大学 一种基于深度强化学习的轻量级图像自动裁剪系统及方法
CN110363182A (zh) * 2019-07-24 2019-10-22 北京信息科技大学 基于深度学习的车道线检测方法
CN110443366A (zh) * 2019-07-30 2019-11-12 上海商汤智能科技有限公司 神经网络的优化方法及装置、目标检测方法及装置
CN110458022A (zh) * 2019-07-10 2019-11-15 中国地质大学(武汉) 一种基于域适应的可自主学习目标检测方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682696A (zh) * 2016-12-29 2017-05-17 华中科技大学 基于在线示例分类器精化的多示例检测网络及其训练方法
US20180300880A1 (en) * 2017-04-12 2018-10-18 Here Global B.V. Small object detection from a large image
CN107330027A (zh) * 2017-06-23 2017-11-07 中国科学院信息工程研究所 一种弱监督的深度台标检测方法
CN107657237A (zh) * 2017-09-28 2018-02-02 东南大学 基于深度学习的汽车碰撞检测方法及系统
CN108304835A (zh) * 2018-01-30 2018-07-20 百度在线网络技术(北京)有限公司 文字检测方法和装置
CN109145939A (zh) * 2018-07-02 2019-01-04 南京师范大学 一种小目标敏感的双通道卷积神经网络语义分割方法
CN110096202A (zh) * 2019-04-23 2019-08-06 华中师范大学 一种基于深度强化学习的轻量级图像自动裁剪系统及方法
CN110458022A (zh) * 2019-07-10 2019-11-15 中国地质大学(武汉) 一种基于域适应的可自主学习目标检测方法
CN110363182A (zh) * 2019-07-24 2019-10-22 北京信息科技大学 基于深度学习的车道线检测方法
CN110443366A (zh) * 2019-07-30 2019-11-12 上海商汤智能科技有限公司 神经网络的优化方法及装置、目标检测方法及装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
SHENG LU 等: "Dynamic Weighted Cross Entropy for Semantic Segmentation with Extremely Imbalanced Data", 《2019 INTERNATIONAL CONFERENCE ON ARTIFICIAL INTELLIGENCE AND ADVANCED MANUFACTURING (AIAM)》 *
THOMAS DESELAERS 等: "Weakly Supervised Localization and Learning with Generic Knowledge", 《INTERNATIONAL JOURNAL OF COMPUTER VISION》 *
刘芷含: "遗漏负样本挖掘的行人检测方法", 《计算机与数字工程》 *
尹彦卿: "基于深度学习的遥感图像典型目标检测", 《中国硕士学位论文全文数据库 工程科技Ⅱ辑》 *
张文辉: "基于深度学习的监控视频车辆实时监测", 《软件导刊》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4163822A4 (en) * 2020-06-29 2023-12-20 Huawei Cloud Computing Technologies Co., Ltd. APPARATUS AND METHOD FOR DATA ANNOTATION, AND COMPUTER DEVICE AND RECORDING MEDIUM
CN111709945B (zh) * 2020-07-17 2023-06-30 深圳市网联安瑞网络科技有限公司 一种基于深度局部特征的视频拷贝检测方法
CN111709945A (zh) * 2020-07-17 2020-09-25 成都三零凯天通信实业有限公司 一种基于深度局部特征的视频拷贝检测方法
WO2021135330A1 (zh) * 2020-07-28 2021-07-08 平安科技(深圳)有限公司 图像样本选择方法及相关设备
CN112215252A (zh) * 2020-08-12 2021-01-12 南强智视(厦门)科技有限公司 一种基于在线难易样本挖掘的弱监督目标检测方法
CN112215252B (zh) * 2020-08-12 2023-05-30 南强智视(厦门)科技有限公司 一种基于在线难易样本挖掘的弱监督目标检测方法
CN111738373A (zh) * 2020-08-28 2020-10-02 北京瑞莱智慧科技有限公司 多样本对抗扰动生成方法、装置、存储介质和计算设备
CN111738373B (zh) * 2020-08-28 2022-09-02 北京瑞莱智慧科技有限公司 多样本对抗扰动生成方法、装置、存储介质和计算设备
CN112464769A (zh) * 2020-11-18 2021-03-09 西北工业大学 一种基于一致多阶段检测的高分遥感图像目标检测方法
CN112597994B (zh) * 2020-11-30 2024-04-30 北京迈格威科技有限公司 候选框处理方法、装置、设备及介质
CN112597994A (zh) * 2020-11-30 2021-04-02 北京迈格威科技有限公司 候选框处理方法、装置、设备及介质
CN112560928A (zh) * 2020-12-08 2021-03-26 北京百度网讯科技有限公司 负样本挖掘方法、装置、电子设备及存储介质
CN112560928B (zh) * 2020-12-08 2021-10-26 北京百度网讯科技有限公司 负样本挖掘方法、装置、电子设备及存储介质
CN113052103A (zh) * 2021-03-31 2021-06-29 株洲时代电子技术有限公司 一种基于神经网络的电气设备缺陷检测方法及装置
CN113128575A (zh) * 2021-04-01 2021-07-16 西安电子科技大学广州研究院 一种基于软标签的目标检测样本平衡方法
CN113222904A (zh) * 2021-04-21 2021-08-06 重庆邮电大学 改进PoolNet网络结构的混凝土路面裂缝检测方法
CN113449738A (zh) * 2021-07-06 2021-09-28 国网信息通信产业集团有限公司 基于样本特性的先验框参数自适应改进frc检测方法
CN113449738B (zh) * 2021-07-06 2023-06-23 国网信息通信产业集团有限公司 基于样本特性的先验框参数自适应改进frc检测方法
CN114627437B (zh) * 2022-05-16 2022-08-05 科大天工智能装备技术(天津)有限公司 一种交通目标识别方法及系统
CN114627437A (zh) * 2022-05-16 2022-06-14 科大天工智能装备技术(天津)有限公司 一种交通目标识别方法及系统
CN115035409A (zh) * 2022-06-20 2022-09-09 北京航空航天大学 一种基于相似性对比学习的弱监督遥感图像目标检测算法
CN115035409B (zh) * 2022-06-20 2024-05-28 北京航空航天大学 一种基于相似性对比学习的弱监督遥感图像目标检测算法
CN115880266A (zh) * 2022-12-27 2023-03-31 深圳市大数据研究院 一种基于深度学习的肠道息肉检测系统和方法

Similar Documents

Publication Publication Date Title
CN111275044A (zh) 基于样本选择和自适应难例挖掘的弱监督目标检测方法
CN110020592B (zh) 物体检测模型训练方法、装置、计算机设备及存储介质
CN109034210B (zh) 基于超特征融合与多尺度金字塔网络的目标检测方法
CN107657279B (zh) 一种基于少量样本的遥感目标检测方法
CN110135503B (zh) 一种装配机器人零件深度学习识别方法
CN110399884B (zh) 一种特征融合自适应锚框模型车辆检测方法
CN107784288B (zh) 一种基于深度神经网络的迭代定位式人脸检测方法
CN103390279B (zh) 联合显著性检测与判别式学习的目标前景协同分割方法
CN109029363A (zh) 一种基于深度学习的目标测距方法
CN112183153A (zh) 一种基于视频分析的对象行为检测方法及装置
CN109102511A (zh) 一种脑血管分割方法、系统及电子设备
CN108550131B (zh) 基于特征融合稀疏表示模型的sar图像车辆检测方法
CN103020582A (zh) 计算机通过视频图像识别车辆类型的方法
Li et al. Robust vehicle detection in high-resolution aerial images with imbalanced data
CN111652317A (zh) 基于贝叶斯深度学习的超参数图像分割方法
CN111539957A (zh) 一种用于目标检测的图像样本生成方法、系统及检测方法
CN117746077B (zh) 一种芯片缺陷的检测方法、装置、设备和存储介质
CN111985488B (zh) 一种基于离线高斯模型的目标检测分割方法及系统
CN113420640A (zh) 红树林高光谱图像分类方法、装置、电子设备及存储介质
CN111738237B (zh) 一种基于异构卷积的多核迭代rpn的目标检测方法
CN112883915A (zh) 一种基于迁移学习的麦穗自动识别方法和系统
CN115439654A (zh) 动态约束下的弱监督农田地块精细化分割方法及系统
Kundur et al. Insect pest image detection and classification using deep learning
CN112926592B (zh) 一种基于改进Fast算法的商标检索方法及装置
CN111091140B (zh) 目标分类方法、装置及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200612