CN110348437B - 一种基于弱监督学习与遮挡感知的目标检测方法 - Google Patents

一种基于弱监督学习与遮挡感知的目标检测方法 Download PDF

Info

Publication number
CN110348437B
CN110348437B CN201910567434.2A CN201910567434A CN110348437B CN 110348437 B CN110348437 B CN 110348437B CN 201910567434 A CN201910567434 A CN 201910567434A CN 110348437 B CN110348437 B CN 110348437B
Authority
CN
China
Prior art keywords
layer
target detection
representing
target
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910567434.2A
Other languages
English (en)
Other versions
CN110348437A (zh
Inventor
徐杰
王菡苑
汪伟
胡堰翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201910567434.2A priority Critical patent/CN110348437B/zh
Publication of CN110348437A publication Critical patent/CN110348437A/zh
Application granted granted Critical
Publication of CN110348437B publication Critical patent/CN110348437B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于弱监督学习与遮挡感知的目标检测方法,先对图片进行多层特征融合,得到包含更多信息和细节的特征图,并结合特征图提取上下文信息块;再通过弱监督方法来定位判别性区域,并利用含有丰富信息的特征图遮挡目标的判别性区域来生成难例样本,最后基于难例样本和上下文信息块进行模型训练和目标检测。

Description

一种基于弱监督学习与遮挡感知的目标检测方法
技术领域
本发明属于图像处理技术领域,更为具体地讲,涉及一种基于弱监督学习与遮挡感知的目标检测方法。
背景技术
近年来,随着物联网在智能城市和智能家居方面的应用与需求日益增长,目标检测相关研究发展迅速。目标检测的主要任务是在图片中精确找到物体所在位置,并对该物体进行分类。目前的目标检测模型主要分为两种类型:基于区域提取的方法和基于非区域提取的方法。其中,基于区域提取的方法主要侧重于提高目标检测模型的检测准确率,而基于非区域提取的方法主要侧重于提供目标检测模型的检测效率。这些方法都为目标检测技术的发展奠定了基础。
虽然这目标检测模型取得了很好的效果,但在提供模型鲁棒性方面仍有很多内容值得研究。例如,目标检测模型通常对输入图像中的干扰和遮挡较敏感,甚至微小的干扰都会导致目标检测的失败。在实际应用中,网络经常需要检测被干扰的图像。我们可以将这些图像分为两类:(1)、如图1(a)目标的某些部分被遮挡,这种遮挡通常出现在多目标图像中,通常前景目标总是会遮挡其后面的目标的一些特征。(2)、如图1(b)目标超出图像边界,这种遮挡图像通常由于目标超出图像边界,因此目标的一些特征会丢失。这两张遮挡图像在本文中都称为难例。
由于难例具有较强的可转移性,因此网络难以学习用于检测的带有判别信息的特征,所以分类错误的情况时有发生。因此,增加模型对图像干扰和遮挡的鲁棒性是很意义的。换句话说,需要增强模型从被遮挡图像中挖掘提取有用信息的能力。
然而,仅仅使用普通数据集里的图像来训练并提高一个模型的鲁棒性是比较困难的。其中一个解决方案是在训练阶段中加入难例挖掘分支。但仍然不能解决本质问题,因为尽管在大型数据中难例也是屈指可数的。所以,一种有效的方法是通过数据集来生成难例。很多文献都致力于解决样本生成问题,其中通过生成对抗网络来生成真实的难例样本是一个有效的方法,另一个有用的方法是是直接在原始图像上生成遮挡蒙版。例如,在训练阶段生成了带有遮挡的难例样本。
其次,许多基于区域的目标检测模型对每个建议区域都进行分类和边界回归。在著名的目标检测模型R-CNN之后,Faster R-CNN通过ROI-pooling层提高了模型监测效率。在快速的R-CNN中,区域提案网络(RPN)比选择性搜索产生更精确的提议。我们的工作建立在更快的R-CNN之上,这是一种非凡的端到端方法。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于弱监督学习与遮挡感知的目标检测方法,通过过弱监督方法来定位判别性区域,并且通过遮挡目标的判别性区域来生成难例样本,进而训练出用于目标检测的目标检测网络。
为实现上述发明目的,本发明一种基于弱监督学习与遮挡感知的目标检测方法,其特征在于,包括以下步骤:
(1)、提取包含图片空间信息的特征图
(1.1)、基于基础特征提取模型VGG-16框架,对VGG-16框架中卷积层第四层进行降维池化操作,得到卷积层第五层;再对得到的卷积层第五层进行池化操作,使卷积层第四层的尺寸与卷积层第五层的尺寸相同;
(1.2)、基于基础特征提取模型VGG-16框架,对VGG-16框架中卷积层第五层进行降维池化操作,得到卷积层第六层;再对得到的卷积层第六层进行池化操作,使卷积层第六层尺寸与卷积层第五层的尺寸相同;
(1.3)、分别对卷积层第四层、第五层和第六层的输出进行L2归一化处理,统一每层输出的特征图的幅值;
其中,L2归一化处理的过程为:
Figure BDA0002110033310000021
其中,xi表示第i个元素的幅值,xk表示第k个元素的幅值,n表示元素个数,yi表示第i个元素归一化后的输出幅值;
(1.4)、将归一化后的三幅特征图进行融合,得到包含更多空间信息的总特征图;
(2)、通过弱监督学习生成难例样本
(2.1)、基于特征图进行弱监督目标定位,得到类别激活图CAM;
(2.1.1)、计算全局平均池化后的输出值;
设特征图上空间位置(x,y)处最后一层卷积数值为f(x,y),那么全局平均池化后的输出F为:
Figure BDA0002110033310000031
(2.1.2)、计算类别分类分数Sc
Figure BDA0002110033310000032
其中,c表示类别,c=1,2,…,N,N表示类别总数;
Figure BDA0002110033310000033
表示类别c中第i个特征映射的分类层的权重,i=1,2,…,M,M表示最后一个卷积层中的特征映射的数量;
(2.1.3)、判断类别分类是否正确;
判断类别分类分数Sc是否大于预设阈值,如果大于,则
Figure BDA0002110033310000034
有效,
Figure BDA0002110033310000035
反映了F对类别c的重要性;否则,更新权重
Figure BDA0002110033310000036
再返回步骤(2.1.2);
(2.1.4)、计算类别c的激活图CAMc
Figure BDA0002110033310000037
(2.2)、基于类别激活图CAMc进行特征图遮挡
设训练集中包含N个待训练特征图像,且pi是待训练特征图像Ii的被遮挡区域,pi,x,y是激活图
Figure BDA0002110033310000038
在位置(x,y)处的像素值;
如果pi,x,y大于难例阈值,则将位置(x,y)挖掘出来,并将挖掘出来的位置(x,y)的像素值设为0,完成特征图遮挡,然后将挖掘后的特征图像构成难例样本;
(3)、提取上下文信号块
总特征图通过ROI-pooling层(region of interest-pooling,感兴趣区域池化层)生成目标区域块和上下文区域块,然后通过像素级相加的方式合并目标区域块和上下文区域块,从而得到上下文信息块;
(4)、基于难例样本和上下文信息块进行模型训练和目标检测
(4.1)、先利用区域生成网络(RPN)生成选框,然后基于上下文信息块,再将选框分为K+1类,同时对分类后的选框进行选框回归;
(4.2)、联合训练目标检测网络
先采用端到端训练方式将目标检测网络和区域生成网络合并为一个网络模型;
构建最小化多任务损失函数:
Figure BDA0002110033310000041
其中,Ncls表示需要进行分类的总选框数目,Nreg表示需要进行回归的总选框数目,λ表示平衡权重参数,pi表示候选框i是被检测目标的预测概率,
Figure BDA0002110033310000042
表示候选框i的真实值标签,
Figure BDA0002110033310000043
表示此选框为正标签,
Figure BDA0002110033310000044
表示此选框为负标签;ti表示候选框i的预测偏移量,
Figure BDA0002110033310000045
表示候选框i相对于标签的实际偏移量;
Figure BDA0002110033310000046
是对于分类的交叉熵损失函数,
Figure BDA0002110033310000047
是对于回归的损失函数,函数R表示鲁棒性的损失函数;
在训练过程中,基于最小化多任务损失函数,通过目标损失和反向传播算法更新网络模型权重,使网络模型达到收敛,得到训练好的目标检测网络;
(4.3)、将待检测图片输入至训练好的目标检测网络,从而输入检测目标。
本发明的发明目的是这样实现的:
本发明一种基于弱监督学习与遮挡感知的目标检测方法,先对图片进行多层特征融合,得到包含更多信息和细节的特征图,并结合特征图提取上下文信息块;再通过弱监督方法来定位判别性区域,并利用含有丰富信息的特征图遮挡目标的判别性区域来生成难例样本,最后基于难例样本和上下文信息块进行模型训练和目标检测。
同时,本发明一种基于弱监督学习与遮挡感知的目标检测方法还具有以下有益效果:
(1)、本发明提出了一种端到端的训练方法,可以提高目标检测模型的鲁棒性,并有效提高目标检测的准确率和性能。
(2)、本发明提出了一种遮挡生成模型,它使用弱监督的方法来定位并生成遮挡,实验表明遮挡生成模型可以生成较真实的难例样本,并有效地运用在模型训练中。
(3)、本发明提出了一种多层特征融合的方法,将丰富的空间信息与高级语义信息相结合,实验证明此方法可以提高映射特征图的丰富度。
附图说明
图1是难例样本示意图;
图2是本发明基于弱监督学习与遮挡感知的目标检测方法流程图;
图3是多层融合特征提取模型示意图;
图4是弱监督学习生成难例样本示意图;
图5是上下文特征提取模块示意图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图2是本发明基于弱监督学习与遮挡感知的目标检测方法流程图。
在本实施例中,如图2所示,本发明一种基于弱监督学习与遮挡感知的目标检测方法,包括以下步骤:
S1、如图3所示,提取包含图片空间信息的特征图
S1.1、基于基础特征提取模型VGG-16框架,对VGG-16框架中卷积层第四层进行降维池化操作,得到卷积层第五层;再对得到的卷积层第五层进行池化操作,使卷积层第四层的尺寸与卷积层第五层的尺寸相同;
S1.2、基于基础特征提取模型VGG-16框架,对VGG-16框架中卷积层第五层进行降维池化操作,得到卷积层第六层;再对得到的卷积层第六层进行池化操作,使卷积层第六层尺寸与卷积层第五层的尺寸相同;
S1.3、分别对卷积层第四层、第五层和第六层的输出进行L2归一化处理,统一每层输出的特征图的幅值;
其中,L2归一化处理的过程为:
Figure BDA0002110033310000061
其中,xi表示第i个元素的幅值,xk表示第k个元素的幅值,n表示元素个数,yi表示第i个元素归一化后的输出幅值;
下面证明了归一化在多层特征融合中的重要性。如表1所示,我们比较了两种归一化方法:L2归一化和局部响应归一化(LRN)[40]。LRN响应标准化实现了一种横向抑制形式,在使用不同内核计算的神经元输出之间的创造了对比竞争,但它只是局部归一化。很明显,L2归一化更有效。因此,我们进一步比较了在L2归一化下的不同尺寸之间的性能,如表2所示,并发现在尺寸为15时,L2归一化性能最好。值得注意的是,当把L2归一化的尺寸设置为1时,网络难以训练,因为所学习的特征太小而不能有效检测。
L2 10 15 20
mAP(%) 73.7 75.4 74.8
表1
Figure BDA0002110033310000062
表2
S1.4、将归一化后的三幅特征图进行融合,得到包含更多空间信息的总特征图;
S2、通过弱监督学习生成难例样本
S2.1、基于特征图进行弱监督目标定位,得到类别激活图CAM;
S2.1.1、计算全局平均池化后的输出值;
设特征图上空间位置(x,y)处最后一层卷积数值为f(x,y),那么全局平均池化后的输出F为:
Figure BDA0002110033310000071
S2.1.2、计算类别分类分数Sc
Figure BDA0002110033310000072
其中,c表示类别,c=1,2,…,N,N表示类别总数;
Figure BDA0002110033310000073
表示类别c中第i个特征映射的分类层的权重,i=1,2,…,M,M表示最后一个卷积层中的特征映射的数量;
S2.1.3、判断类别分类是否正确;
判断类别分类分数Sc是否大于预设阈值,如果大于,则
Figure BDA0002110033310000074
有效,
Figure BDA0002110033310000075
反映了F对类别c的重要性;否则,更新权重
Figure BDA0002110033310000076
再返回步骤S2.1.2;
S2.1.4、计算类别c的激活图CAMc
Figure BDA0002110033310000077
S2.2、基于类别激活图CAMc进行特征图遮挡
设训练集中包含N个待训练特征图像,且pi是待训练特征图像Ii的被遮挡区域,pi,x,y是激活图
Figure BDA0002110033310000078
在位置(x,y)处的像素值;
如果pi,x,y大于难例阈值,则将位置(x,y)挖掘出来,并将挖掘出来的位置(x,y)的像素值设为0,完成特征图遮挡,然后将挖掘后的特征图像构成难例样本,如图4所示;
S3、提取上下文信息块
如图5所示,总特征图通过ROI-pooling层(region of interest-pooling,感兴趣区域池化层)生成两个尺寸为7×7×512的目标区域块和上下文区域块,然后通过像素级相加的方式合并目标区域块和上下文区域块,从而得到上下文信息块;
S4、基于难例样本和上下文信息块进行模型训练和目标检测
S4.1、先利用区域生成网络(RPN)生成选框,然后基于上下文信息块,再将选框分为K+1类,K=20,同时对分类后的选框进行选框回归;
在本实施例中,使用区域生成网络(RPN)来生成各种选框,这些框通过三个尺度{128,256,512}和三个长宽比{1:1,2:1,1:2}来覆盖不同尺寸的目标。在区域生成层之后,一些建议区域会彼此重叠。为了删除重叠,我们对这些建议区域采用非极大值抑制算法(NMS)。对于建议区域,NMS会抑制其他交叉比(IOU)高于阈值的区域,从而减少冗余。本方法将重叠阈值设置为0.7,并提取前300个区域进行检测。
S4.2、联合训练目标检测网络
先采用端到端训练方式将目标检测网络和区域生成网络合并为一个网络模型;
构建最小化多任务损失函数:
Figure BDA0002110033310000081
其中,Ncls表示需要进行分类的总选框数目,Nreg表示需要进行回归的总选框数目,λ表示平衡权重参数,pi表示候选框i是被检测目标的预测概率,
Figure BDA0002110033310000082
表示候选框i的真实值标签,
Figure BDA0002110033310000083
表示此选框为正标签,
Figure BDA0002110033310000084
表示此选框为负标签;ti表示候选框i的预测偏移量,
Figure BDA0002110033310000085
表示候选框i相对于标签的实际偏移量;
Figure BDA0002110033310000086
是对于分类的交叉熵损失函数,
Figure BDA0002110033310000087
是对于回归的损失函数,函数R表示鲁棒性的损失函数;
在训练过程中,基于最小化多任务损失函数,通过目标损失和反向传播算法更新网络模型权重,使网络模型达到收敛,得到训练好的目标检测网络;
在本实施例中,在每次训练迭代中,RPN生成一组建议区域用来预测分类分数和回归框位置,这是前向传播的预计算。对于生成的建议区域,本文给交叉联合(IOU)高于0.7或与GROUND-TRUTH匹配度最高的的框正面标签。相反,给予IOU低于0.3的框负面标签。在反向传播中,梯度信号来自区域建议生成和检测的损失。
S4.3、将待检测图片输入至训练好的目标检测网络,从而输入检测目标。
实验及结果
我们在以下目标检测数据集上进行实验:PASCAL VOC 2007,PASCAL VOC 2012[35]和COCO[36]。对于PASCAL VOC,所有模型都是通过VOC 2007训练集和VOC 2012训练集(“07+12”)联合培训,并分别在PASCAL VOC 200和PASCAL VOC 2012测试集上测试所有模型。对于MS COCO,我们在训练集上训练模型并通过TEST-DEV服务器评估测试结果。并且结果有平均精度(MAP)来度量。
实验设置
我们所有的模型都建立在Fast R-CNN框架和VGG-16架构[30]上的。在每次迭代训练中,我们使用统一尺寸训练,调整图像大小使得较短边为608像素,最长边的最大尺寸为1024像素。测试图像的比例与训练图像相同。对于求解器参数,我们采用随机梯度下降(SGD)来最小化目标函数。其中,初始学习率设置为0.001,每50,000次迭代后下降至原来的10倍。我们将权重衰减设定为0.0005并将动量设定为0.9,因此前50K mini-batch的学习率为0.001,接下来的20K的学习率为0.0001。使用“Xavier”初始化所有新图层的权重,使其根据输入神经元的数量自动确定初始化的比例。所有模型都基于相同VGG-16模型在ImageNet数据集上进行预训练,然后在目标检测数据集上进行微调。
(1)、PASCAL VOC 2007数据集
对于PASCAL VOC2007检测任务,我们将模型检测结果与最新的几个检测器进行比较,如表3所示。除图像尺寸外,所有实验参数均与Faster R-CNN。当只加入遮挡生成模块时,模型测试得到的MAP为76.9%。当测试包含三个模块的完整模型时,目标检测性能提高到77.4%,最终结果比Faster R-CNN高了4.2%。加入边界框投票模块[37]后,整体性能提高了0.5%。在边界框投票模块中,通过在IOU超过0.5的框中进行加权投票,网络评估每个感兴趣区域(ROI)并得到最终的选框定位。
Figure BDA0002110033310000101
表3
(2)、PASCAL VOC 2012数据集
我们通过提交结果至公共评估服务器来评估我们在PASCAL VOC 2012测试集上的模型。测试时所使用的设置与VOC 2007相同。我们在VOC 2007训练集和VOC 2012训练集上联合训练,但没有VOC 2007测试集。表4中比较了我们的模型与一些最新模型的对比。我们的模型获得到了74.3%的MAP,并且在某些类里获得最高准确率。
Figure BDA0002110033310000102
Figure BDA0002110033310000111
表4
(3)、MS COCO数据集
除PASCAL VOC数据集外,我们还在MS COCO TEST-DEV 2017上测试我们的模型,并从公共评估服务器获取报告。在表5中,我们的模型在TEST-DEV评分上达到了24.6%,优于基线更快的R-CNN。我们观察到我们的模型的精度为0.5:0.95IOU低于ION,SSD300和DSSD321,但小面积的结果是可比的。因此,由于使用了多尺度特征融合模块,我们的方法对于小物体检测更有效。请注意,DSSD321基于RESIDUAL-101网络,但我们的网络基于VGG16架构。
Figure BDA0002110033310000112
表5
为了进一步研究多层特征融合和上下文感知在模型中的作用,我们用FasterRCNN进行一些比较实验。如表6所示,我们的方法在加入遮挡生成器模板时将mAP从基础的73.2%提高到76.9%。加入多层特征融合和上下文感知后,模型准确率分别提高到77.0%和77.2%。但更重要的是,我们的完整模型得到了77.4%的MAP。整个过程中,我们使用与其他模型相同的参数设置和图像尺寸来保证比较公平性。所有模型均在VOC 2007和VOC 2012数据集上联合训练,并在VOC 2007测试集上测试,
Figure BDA0002110033310000113
Figure BDA0002110033310000121
表6
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (1)

1.一种基于弱监督学习与遮挡感知的目标检测方法,其特征在于,包括以下步骤:
(1)、提取包含图片空间信息的特征图
(1.1)、基于基础特征提取模型VGG-16框架,对VGG-16框架中卷积层第四层进行降维池化操作,得到卷积层第五层;再对得到的卷积层第五层进行池化操作,使卷积层第四层的尺寸与卷积层第五层的尺寸相同;
(1.2)、基于基础特征提取模型VGG-16框架,对VGG-16框架中卷积层第五层进行降维池化操作,得到卷积层第六层;再对得到的卷积层第六层进行池化操作,使卷积层第六层尺寸与卷积层第五层的尺寸相同;
(1.3)、分别对卷积层第四层、第五层和第六层的输出进行L2归一化处理,统一每层输出的特征图的幅值;
其中,L2归一化处理的过程为:
Figure FDA0002110033300000011
其中,xi表示第i个元素的幅值,xk表示第k个元素的幅值,n表示元素个数,yi表示第i个元素归一化后的输出幅值;
(1.4)、将归一化后的三幅特征图进行融合,得到包含更多空间信息的总特征图;
(2)、通过弱监督学习生成难例样本
(2.1)、基于特征图进行弱监督目标定位,得到类别激活图CAM;
(2.1.1)、计算全局平均池化后的输出值;
设特征图上空间位置(x,y)处最后一层卷积数值为f(x,y),那么全局平均池化后的输出F为:
Figure FDA0002110033300000012
(2.1.2)、计算类别分类分数Sc
Figure FDA0002110033300000013
其中,c表示类别,c=1,2,…,N,N表示类别总数;
Figure FDA0002110033300000014
表示类别c中第i个特征映射的分类层的权重,i=1,2,…,M,M表示最后一个卷积层中的特征映射的数量;
(2.1.3)、判断类别分类是否正确;
判断类别分类分数Sc是否大于预设阈值,如果大于,则
Figure FDA0002110033300000021
有效,
Figure FDA0002110033300000022
反映了F对类别c的重要性;否则,更新权重
Figure FDA0002110033300000023
再返回步骤(2.1.2);
(2.1.4)、计算类别c的激活图CAMc
Figure FDA0002110033300000024
(2.2)、基于类别激活图CAMc进行特征图遮挡
设训练集中包含N个待训练特征图像,且pi是待训练特征图像Ii的被遮挡区域,pi,x,y是激活图
Figure FDA0002110033300000025
在位置(x,y)处的像素值;
如果pi,x,y大于难例阈值,则将位置(x,y)挖掘出来,并将挖掘出来的位置(x,y)的像素值设为0,完成特征图遮挡,然后将挖掘后的特征图像构成难例样本;
(3)、提取上下文信息块
总特征图通过ROI-pooling层(region of interest-pooling,感兴趣区域池化层)生成目标区域块和上下文区域块,然后通过像素级相加的方式合并目标区域块和上下文区域块,从而得到上下文信息块;
(4)、基于难例样本和上下文信息块进行模型训练和目标检测
(4.1)、先利用区域生成网络(RPN)生成选框,然后基于上下文信息块,再将选框分为K+1类,同时对分类后的选框进行选框回归;
(4.2)、联合训练目标检测网络
先采用端到端训练方式将目标检测网络和区域生成网络合并为一个网络模型;
构建最小化多任务损失函数:
Figure FDA0002110033300000026
Figure FDA0002110033300000027
Figure FDA0002110033300000028
Figure FDA0002110033300000031
其中,Ncls表示需要进行分类的总选框数目,Nreg表示需要进行回归的总选框数目,pi表示候选框i是被检测目标的预测概率,
Figure FDA0002110033300000032
表示候选框i的真实值标签,
Figure FDA0002110033300000033
表示此选框为正标签,
Figure FDA0002110033300000034
表示此选框为负标签;ti表示候选框i的预测偏移量,
Figure FDA0002110033300000035
表示候选框i相对于标签的实际偏移量;
Figure FDA0002110033300000036
是对于分类的交叉熵损失函数,
Figure FDA0002110033300000037
是对于回归的损失函数,函数R表示鲁棒性的损失函数;
在训练过程中,基于最小化多任务损失函数,通过目标损失和反向传播算法更新网络模型权重,使网络模型达到收敛,得到训练好的目标检测网络;
(4.3)、将待检测图片输入至训练好的目标检测网络,从而输入检测目标。
CN201910567434.2A 2019-06-27 2019-06-27 一种基于弱监督学习与遮挡感知的目标检测方法 Active CN110348437B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910567434.2A CN110348437B (zh) 2019-06-27 2019-06-27 一种基于弱监督学习与遮挡感知的目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910567434.2A CN110348437B (zh) 2019-06-27 2019-06-27 一种基于弱监督学习与遮挡感知的目标检测方法

Publications (2)

Publication Number Publication Date
CN110348437A CN110348437A (zh) 2019-10-18
CN110348437B true CN110348437B (zh) 2022-03-25

Family

ID=68176749

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910567434.2A Active CN110348437B (zh) 2019-06-27 2019-06-27 一种基于弱监督学习与遮挡感知的目标检测方法

Country Status (1)

Country Link
CN (1) CN110348437B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110895707B (zh) * 2019-11-28 2023-06-20 江南大学 一种强遮挡条件下洗衣机内衣物类型的深度判别方法
CN111291809B (zh) * 2020-02-03 2024-04-12 华为技术有限公司 一种处理装置、方法及存储介质
CN111368775A (zh) * 2020-03-13 2020-07-03 西北工业大学 一种基于局部上下文感知的复杂场景密集目标检测方法
CN111523586B (zh) * 2020-04-16 2022-09-06 厦门大学 一种基于噪声可知的全网络监督目标检测方法
CN111652216B (zh) * 2020-06-03 2023-04-07 北京工商大学 基于度量学习的多尺度目标检测模型方法
CN111783590A (zh) * 2020-06-24 2020-10-16 西北工业大学 一种基于度量学习的多类别小目标检测方法
CN112434745B (zh) * 2020-11-27 2023-01-24 西安电子科技大学 基于多源认知融合的遮挡目标检测识别方法
CN112861917B (zh) * 2021-01-14 2021-12-28 西北工业大学 基于图像属性学习的弱监督目标检测方法
CN114596468A (zh) * 2022-03-14 2022-06-07 瀚云科技有限公司 病虫害识别及模型训练方法、装置、电子设备及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101879207B1 (ko) * 2016-11-22 2018-07-17 주식회사 루닛 약한 지도 학습 방식의 객체 인식 방법 및 장치
CN106874894B (zh) * 2017-03-28 2020-04-14 电子科技大学 一种基于区域全卷积神经网络的人体目标检测方法
CN108564097B (zh) * 2017-12-05 2020-09-22 华南理工大学 一种基于深度卷积神经网络的多尺度目标检测方法
CN108573222B (zh) * 2018-03-28 2020-07-14 中山大学 基于循环对抗生成网络的行人图像遮挡检测方法
CN108510012B (zh) * 2018-05-04 2022-04-01 四川大学 一种基于多尺度特征图的目标快速检测方法
CN108875588B (zh) * 2018-05-25 2022-04-15 武汉大学 基于深度学习的跨摄像头行人检测跟踪方法
CN109359559B (zh) * 2018-09-27 2021-11-12 天津师范大学 一种基于动态遮挡样本的行人再识别方法

Also Published As

Publication number Publication date
CN110348437A (zh) 2019-10-18

Similar Documents

Publication Publication Date Title
CN110348437B (zh) 一种基于弱监督学习与遮挡感知的目标检测方法
He et al. Defect detection of hot rolled steels with a new object detection framework called classification priority network
CN110309747B (zh) 一种支持多尺度快速深度行人检测模型
CN106897738A (zh) 一种基于半监督学习的行人检测方法
US20240257423A1 (en) Image processing method and apparatus, and computer readable storage medium
CN109242883B (zh) 基于深度sr-kcf滤波的光学遥感视频目标跟踪方法
CN115797736B (zh) 目标检测模型的训练和目标检测方法、装置、设备和介质
CN110826457B (zh) 一种复杂场景下的车辆检测方法及装置
CN103810266B (zh) 语义网络目标识别判证方法
CN111368634B (zh) 基于神经网络的人头检测方法、系统及存储介质
KR20220047228A (ko) 이미지 분류 모델 생성 방법 및 장치, 전자 기기, 저장 매체, 컴퓨터 프로그램, 노변 장치 및 클라우드 제어 플랫폼
CN108875456A (zh) 目标检测方法、目标检测装置和计算机可读存储介质
CN112270671B (zh) 图像检测方法、装置、电子设备及存储介质
CN116310850B (zh) 基于改进型RetinaNet的遥感图像目标检测方法
CN114595352A (zh) 一种图像识别方法、装置、电子设备及可读存储介质
Viraktamath et al. Comparison of YOLOv3 and SSD algorithms
Liang et al. Car detection and classification using cascade model
Zhang et al. PSNet: Perspective-sensitive convolutional network for object detection
AFFES et al. Comparison of YOLOV5, YOLOV6, YOLOV7 and YOLOV8 for Intelligent Video Surveillance.
CN113408564A (zh) 图处理方法、网络训练方法、装置、设备以及存储介质
CN112733686A (zh) 用于云联邦的图像中的目标物识别方法及装置
CN115294176B (zh) 一种双光多模型长时间目标跟踪方法、系统及存储介质
Ziabari et al. A two-tier convolutional neural network for combined detection and segmentation in biological imagery
KR102485359B1 (ko) 현장 적응형 인공지능 모델 강화 방법
Attaoui et al. Search-based DNN Testing and Retraining with GAN-enhanced Simulations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant