CN110287970B - 一种基于cam与掩盖的弱监督物体定位方法 - Google Patents
一种基于cam与掩盖的弱监督物体定位方法 Download PDFInfo
- Publication number
- CN110287970B CN110287970B CN201910554530.3A CN201910554530A CN110287970B CN 110287970 B CN110287970 B CN 110287970B CN 201910554530 A CN201910554530 A CN 201910554530A CN 110287970 B CN110287970 B CN 110287970B
- Authority
- CN
- China
- Prior art keywords
- image
- cam
- thermodynamic diagram
- saliency
- covering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/28—Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
Abstract
本发明公开了一种基于CAM与掩盖的弱监督物体定位方法,其包括以下步骤:S1、基于CAM获取第一显著性热力图;S2、获取边界框及框选区域;S3、获取掩码图;S4、对掩码图进行取反操作,得到掩盖了框选区域的新掩码图;S5、将新掩码图与原图相乘得到掩盖了原图中框选区域的图像A;S6、基于CAM方法获取图像A对应的第二显著性热力图;S7、合并并归一化第一显著性热力图和第二显著性热力图,得到框选了整体显著区域的图像,完成基于CAM与掩盖的弱监督物体定位方法。本方法可提高弱监督物体定位准确率,可以应用于多种网络结构,能很便捷的与其他网络结构相结合,具有很强的灵活性。
Description
技术领域
本发明涉及弱监督物体定位领域,具体涉及一种基于CAM与掩盖的弱监督物体定位方法。
背景技术
弱监督物体定位是仅根据图片的标签来学习物体的位置。近些年,随着深度学习的发展,已经在计算机视觉的各个领域任务中取得了显著的提升。深度学习最为基础的仍然是数据,数据量越大,信息越丰富,相应的模型效果也就更好。然而,海量标注数据的获取是一项非常耗时费力的工作,而且往往在实际应用中难以实现。因此弱监督学习,仅需要图像的类别标签,就成为了解决数据问题的重要方法。随着深度学习的蓬勃发展,弱监督学习已被证实在各个领域中有良好的应用,如目标检测,语义分割,视觉属性定位等。因此WSL(弱监督物体定位)是一项既有挑战性又有实际意义的任务。相对于有监督学习,它需要较少的细节标注,因此有可能借助Web上大量弱标签的可视数据来完成多项的大规模图像任务。
当前的WSL方法主要是通过挖掘判别图像区域或特征或通过分析由训练用于图像分类的深层网络生成的高级特征来生成的。卷积滤波器可以作为检测器来激活深度特征图上的位置,这为图像分类提供了信息证据。CAM(类激活映射,Class Activation Mapping)方法在最后一层卷积之后使用全局平均池化层(GAP)代替神经网络全连接层,可获得更大尺寸的特征图。为了确保更详细的特征,CAM使用与分类结果对应的完全连接层中的神经元的权重来优化卷积层的最后一层的输出的特征图。因此,CAM的定位效果与分类的准确性密切相关。但是,CAM仅关注对象的最突出区域,忽略对象的不太重要的区域。最突出领域的信息往往并不完美,这些不太重要的信息是最重要的区域的良好补充和完善。因此,由于类别内的变化或仅仅依赖于分类目标,CAM方法通常不识别对象的整个范围,而是仅定位图像中最具辨别力的区域。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于CAM与掩盖的弱监督物体定位方法通过获取次显著区域解决了仅依赖最显著区域来进行弱监督物体定位造成的定位偏差问题。
为了达到上述发明目的,本发明采用的技术方案为:
提供一种基于CAM与掩盖的弱监督物体定位方法,其包括以下步骤:
S1、基于CAM方法获取待处理图像的热力图,得到第一显著性热力图;
S2、将第一显著性热力图转换为二值图像,通过阈值获取连通区域,得到边界框及框选区域;
S3、对框选区域进行插值缩放使其大小与原图一致,并通过标准化操作得到掩码图;
S4、对掩码图进行取反操作,得到掩盖了框选区域的新掩码图;
S5、将新掩码图与原图相乘得到掩盖了原图中框选区域的图像A;
S6、基于CAM方法获取图像A的热力图,得到第二显著性热力图;
S7、合并并归一化第一显著性热力图和第二显著性热力图,得到框选了整体显著区域的图像,完成基于CAM与掩盖的弱监督物体定位方法。
进一步地,步骤S1的具体方法包括以下子步骤:
S1-1、将待处理图像送入CAM的卷积神经网络,获取最后一个卷积层的特征f和全连接层的分类结果s和对应的权重Ws;
S1-2、根据公式
获取待处理图像的热力图,即第一显著性热力图M1;其中Ws i表示与第i个分类结果相对应的权重;fi表示与第i个分类结果相对应的特征。
进一步地,步骤S5的具体方法为:
根据公式
将j个通道下的新掩码图与原图相乘得到j个通道下掩盖了原图中框选区域的图像进而得到每个通道下掩盖了原图中框选区域的图像A;其中Ma为步骤S4中得到的新掩码图;Ij为原图;j∈{0,1,2},表示图像的第j个通道。
进一步地,步骤S7的具体方法为:
根据公式
M=Normalize(βM1+γM2)
合并并归一化第一显著性热力图M1和第二显著性热力图M2,得到框选了整体显著区域的图像M;其中β为第一显著性热力图M1的权重;γ为第二显著性热力图M2的权重;Normalize(·)为归一化函数。
本发明的有益效果为:本发明首先使用CAM方法提取最显著的区域,然后掩盖了最具辨别力的区域,并使用CAM来提取剩余区域中的次显著区域,最后将这两个区域集成在一起以获得整个对象范围。本方法非常方便,只需要数据集的相应分类网络,不需要训练定位网络,解决了仅依赖最显著区域来进行弱监督物体定位造成的定位偏差问题。
附图说明
图1为本发明的流程示意图;
图2为本方法得到的显著性区域热力图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,该基于CAM与掩盖的弱监督物体定位方法包括以下步骤:
S1、基于CAM方法获取待处理图像的热力图,得到第一显著性热力图;
S2、将第一显著性热力图转换为二值图像,通过阈值获取连通区域,得到边界框及框选区域;
S3、对框选区域进行插值缩放使其大小与原图一致,并通过标准化操作得到掩码图;
S4、对掩码图进行取反操作,得到掩盖了框选区域的新掩码图;
S5、将新掩码图与原图相乘得到掩盖了原图中框选区域的图像A;
S6、基于CAM方法获取图像A的热力图,得到第二显著性热力图;
S7、合并并归一化第一显著性热力图和第二显著性热力图,得到框选了整体显著区域的图像,完成基于CAM与掩盖的弱监督物体定位方法。
步骤S1的具体方法包括以下子步骤:
S1-1、将待处理图像送入CAM的卷积神经网络,获取最后一个卷积层的特征f和全连接层的分类结果s和对应的权重Ws;
S1-2、根据公式
获取待处理图像的热力图,即第一显著性热力图M1;其中Ws i表示与第i个分类结果相对应的权重;fi表示与第i个分类结果相对应的特征。
步骤S5的具体方法为:根据公式
将j个通道下的新掩码图与原图相乘得到j个通道下掩盖了原图中框选区域的图像进而得到每个通道下掩盖了原图中框选区域的图像A;其中Ma为步骤S4中得到的新掩码图;Ij为原图;j∈{0,1,2},表示图像的第j个通道。
步骤S7的具体方法为:根据公式
M=Normalize(βM1+γM2)
合并并归一化第一显著性热力图M1和第二显著性热力图M2,得到框选了整体显著区域的图像M;其中β为第一显著性热力图M1的权重;γ为第二显著性热力图M2的权重;Normalize(·)为归一化函数。
在具体实施过程中,本方法采用的深度学习框架为Caffe,并使用基于Ubuntu16.04.3的Linux系统,使用的编程语言是Python。在本实施过程中,本方法采用的是ImageNet数据集来验证定位方法的准确性。
当GAP(全局平均池化层)之前的最后一个卷积层输出的特征图具有更高的空间分辨率时,网络的定位能力能得到提高,并称之为映射分辨率。为此,我们从一些网络中删除了几个卷积层:对于AlexNet网络,我们在conv5之后删除了层(即pool5到prob),导致映射分辨率为13×13。对于VGGnet网络,我们在conv5-3之后删除了层(即pool5到prob),导致映射分辨率为14×14。对于GoogLeNet网络,我们在初始4e之后删除了层(即pool4到prob),导致映射分辨率为14×14。对于上述每个网络,我们添加了一个卷积层大小为3×3,步幅为1,小区1为1024个单位,接着是GAP层和softmax层。然后,这些网络中的每一个都在ILSVRC(ImageNet大规模视觉识别挑战赛)的1.3M训练图像上进行微调,用于1000个对象分类,分别产生我们的最终网络AlexNet-GAP,VGGnet-GAP和GoogLeNet-GAP。
在测试过程中,对于每一张图片都进行10次的过采样剪裁方式,分别取该图的(左上,左下,右上,右下,正中)以及它们的水平翻转。对这十个图片分别提取CNNs特征图以及预测的分类结果。最后合并这十个特征图以获取最终的热力图。
对于ILSVRC的定位任务来说,是与分类任务相辅相成的。每张图片的真实标签我们用Ck,k=1,...,n表示,这意味着每张图片不只有一个标签。对于每个标签(第k个标签),都有对应的边界框Bkm(m=1,...,Mk),其中Mk为在该图像中此物体出现的次数。当ci=Ck时令d(ci,Ck)=0,否则d(ci,Ck)=1;其中ci为预测的分类。当bi与Bkm重叠面积超过50%时,令f(bi,Bkm)=1,否则f(bi,Bkm)=0,其中bi为预测的边界框。因此,对于每张图片的错误率可以用以下两种度量方式计算:
1)、只计算分类:
其中e为错误率;
2)、分类与定位:
其中e为错误率。
由上述度量公式可以看出,ImageNet的定位任务需要先判断分类是否准确。如果图片的分类错误,定位也是错误。如果图片的分类正确,再接着计算定位的错误率。当计算预估的边界框与标签的边界框的重叠面积时,采用的是与图像检测任务中一致的Intersection-Over-Union(IoU:交并比)。
本实施中分别以AlexNet-GAP,VGGnet-GAP和GoogLeNet-GAP为特征提取网络来评估本方法在ILSVRC2012Validation数据集上的分类与定位错误率。
表1:显著性区域定位结果
如表1所示,本方法在AlexNet-GAP上定位错误率降低了2.11%,在VGG-GAP上降低了3.9%,在GoogLeNet-GAP上降低了0.9%。从表中不同基础网络架构上的提升有着较大的差异,AlexNet与VGG上本方法提升相对于GoogLeNet较大。这都证明了本方法相对于CAM更加关注了物体的整体部分,从而提高了定位的准确率。相比于Grad-CAM,本方法在VGG-GAP上提高了3.21%。Hide-and-Seek是在训练过程中随机掩盖图片中的一些区域,这是一种类似于数据增强的方法,因此在AlexNet与GoogLeNet识别的准确率上有显著的提高,识别准确率的提高也相应的会提高定位的准确率。因此Hide-and-Seek的定位准确率较高。GoogLeNet-HaS-32表示基础架构GoogLeNet,在训练过程中将图片划分为32×32个小网格并随机掩盖后得到的结果。AlexNet-HaS-Mixed表示基础架构AlexNet,在训练过程中随机将图片划分为N×N,N=1,16,32,44,56,其中N=1表示神经网络正常训练,不随机掩盖。因为本方法是有目的性的掩盖图片中的区域,省去了训练的过程,仅需要线下的特征提取与整合。同时,本方法与其也有一定的优势,本方法在AlexNet上定位的错误率降低了0.71%。
如图2所示,图中第一行表示基于CAM方法生成的热力图和框选区域;第二行为掩盖了框选区域后的图像对应的热力图;第三行为本方法最终得到的图像的热力图。从该图中可以看出,本方法可以发现多个显著性区域,以得到物体整体的区域。
在另一个实施例中,以GoogLeNet为基础网络,σ=40,θ=0.6时(σ为获取边界框时的阈值,θ为转换为二值图时采用的阈值),一共有48238张测试图片(若干图片的标注存在问题,因此测试图像不足50000张),最终定位错误的图片有26345张,图像识别正确但是IoU低于指标的图片有9832张,识别错误的图片有16513张。因此有37.3%的错误是显著性区域的选取有错,63.7%的错误是由图像识别错误导致的。因此大部分的定位错误来源于图像识别的错误。
在本实施例中,假设所有图片的分类是正确的,只关注显著性区域的选取是否正确。从表2中可以发现,当神经网络知晓图片的正确类别时,定位的错误率有了大幅度的降低:在GoogLeNet-GAP上,定位错误率降低了19%;在VGGnet-GAP上,定位错误率降低了17%;在AlexNet-GAP上,定位错误率降低了23%;在Hide-and-seek中,也使用了GroundTruth作为预测标签。与之相比,本项目的结果在GoogLeNet与AlexNet都高了2%~3%。说明在排除了识别准确率的影响后,定位的效果有了显著的提升。单从显著性区域选取的角度来说,本方法在ILSVRC2012数据集上的表现较好。并且本方法可以应用于多种网络结构,能很便捷的与其他网络结构相结合,具有很强的灵活性。
表2:定位错误率
综上所述,本发明通过CAM提取最显著区域,通过掩盖算法产生抑制最显著区域的权重图,与原图结合后通过CAM提取次显著性区域,结合最显著区域与次显著区域后,得到最终的热力图以定位物体。本方法可提高弱监督物体定位准确率,可以应用于多种网络结构,能很便捷的与其他网络结构相结合,具有很强的灵活性。
Claims (4)
1.一种基于CAM与掩盖的弱监督物体定位方法,其特征在于,包括以下步骤:
S1、基于CAM方法获取待处理图像的热力图,得到第一显著性热力图;
S2、将第一显著性热力图转换为二值图像,通过阈值获取连通区域,得到边界框及框选区域;
S3、对框选区域进行插值缩放使其大小与原图一致,并通过标准化操作得到掩码图;
S4、对掩码图进行取反操作,得到掩盖了框选区域的新掩码图;
S5、将新掩码图与原图相乘得到掩盖了原图中框选区域的图像A;
S6、基于CAM方法获取图像A的热力图,得到第二显著性热力图;
S7、合并并归一化第一显著性热力图和第二显著性热力图,得到框选了整体显著区域的图像,完成基于CAM与掩盖的弱监督物体定位方法。
4.根据权利要求1所述的基于CAM与掩盖的弱监督物体定位方法,其特征在于,所述步骤S7的具体方法为:
根据公式
M=Normalize(βM1+γM2)
合并并归一化第一显著性热力图M1和第二显著性热力图M2,得到框选了整体显著区域的图像M;其中β为第一显著性热力图M1的权重;γ为第二显著性热力图M2的权重;Normalize(·)为归一化函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910554530.3A CN110287970B (zh) | 2019-06-25 | 2019-06-25 | 一种基于cam与掩盖的弱监督物体定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910554530.3A CN110287970B (zh) | 2019-06-25 | 2019-06-25 | 一种基于cam与掩盖的弱监督物体定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110287970A CN110287970A (zh) | 2019-09-27 |
CN110287970B true CN110287970B (zh) | 2021-07-27 |
Family
ID=68005583
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910554530.3A Active CN110287970B (zh) | 2019-06-25 | 2019-06-25 | 一种基于cam与掩盖的弱监督物体定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110287970B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111797771B (zh) * | 2020-07-07 | 2022-09-09 | 南京理工大学 | 一种基于迭代学习的弱监督视频行为检测方法及系统 |
CN111882531B (zh) * | 2020-07-15 | 2021-08-17 | 中国科学技术大学 | 髋关节超声图像自动分析方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018176035A1 (en) * | 2017-03-24 | 2018-09-27 | The United Of America, As Represented By The Secretary, Department Of Health And Human Services | Method and system of building hospital-scale chest x-ray database for entity extraction and weakly-supervised classification and localization of common thorax diseases |
CN108594321A (zh) * | 2018-05-02 | 2018-09-28 | 深圳市唯特视科技有限公司 | 一种基于数据增强的弱监督目标定位方法 |
CN109034258A (zh) * | 2018-08-03 | 2018-12-18 | 厦门大学 | 基于特定物体像素梯度图的弱监督目标检测方法 |
CN109359684A (zh) * | 2018-10-17 | 2019-02-19 | 苏州大学 | 基于弱监督定位和子类别相似性度量的细粒度车型识别方法 |
CN109447966A (zh) * | 2018-10-26 | 2019-03-08 | 科大讯飞股份有限公司 | 医学图像的病灶定位识别方法、装置、设备及存储介质 |
CN109657567A (zh) * | 2018-11-30 | 2019-04-19 | 深圳大学 | 一种基于3d指纹图像的弱监督的特征分析方法及系统 |
CN109784203A (zh) * | 2018-12-24 | 2019-05-21 | 中国科学院大学 | 基于分层传播和激活的弱监督x光图像违禁品检查方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101879207B1 (ko) * | 2016-11-22 | 2018-07-17 | 주식회사 루닛 | 약한 지도 학습 방식의 객체 인식 방법 및 장치 |
US10504007B2 (en) * | 2017-10-27 | 2019-12-10 | Facebook, Inc. | Determination of population density using convoluted neural networks |
-
2019
- 2019-06-25 CN CN201910554530.3A patent/CN110287970B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018176035A1 (en) * | 2017-03-24 | 2018-09-27 | The United Of America, As Represented By The Secretary, Department Of Health And Human Services | Method and system of building hospital-scale chest x-ray database for entity extraction and weakly-supervised classification and localization of common thorax diseases |
CN108594321A (zh) * | 2018-05-02 | 2018-09-28 | 深圳市唯特视科技有限公司 | 一种基于数据增强的弱监督目标定位方法 |
CN109034258A (zh) * | 2018-08-03 | 2018-12-18 | 厦门大学 | 基于特定物体像素梯度图的弱监督目标检测方法 |
CN109359684A (zh) * | 2018-10-17 | 2019-02-19 | 苏州大学 | 基于弱监督定位和子类别相似性度量的细粒度车型识别方法 |
CN109447966A (zh) * | 2018-10-26 | 2019-03-08 | 科大讯飞股份有限公司 | 医学图像的病灶定位识别方法、装置、设备及存储介质 |
CN109657567A (zh) * | 2018-11-30 | 2019-04-19 | 深圳大学 | 一种基于3d指纹图像的弱监督的特征分析方法及系统 |
CN109784203A (zh) * | 2018-12-24 | 2019-05-21 | 中国科学院大学 | 基于分层传播和激活的弱监督x光图像违禁品检查方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110287970A (zh) | 2019-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dong et al. | Tablesense: Spreadsheet table detection with convolutional neural networks | |
CN111783576B (zh) | 基于改进型YOLOv3网络和特征融合的行人重识别方法 | |
Li et al. | Adaptive deep convolutional neural networks for scene-specific object detection | |
WO2021227366A1 (zh) | 一种多个小目标的自动准确检测方法 | |
CN107633226B (zh) | 一种人体动作跟踪特征处理方法 | |
CN110738247B (zh) | 一种基于选择性稀疏采样的细粒度图像分类方法 | |
CN112115879B (zh) | 一种遮挡敏感的自监督行人重识别方法及系统 | |
CN114648665A (zh) | 一种弱监督目标检测方法及系统 | |
CN113269257A (zh) | 一种图像分类方法、装置、终端设备及存储介质 | |
CN112365497A (zh) | 基于TridentNet和Cascade-RCNN结构的高速目标检测方法和系统 | |
CN111967527B (zh) | 一种基于人工智能牡丹品种识别方法及识别系统 | |
Wang et al. | S 3 d: scalable pedestrian detection via score scale surface discrimination | |
CN110287970B (zh) | 一种基于cam与掩盖的弱监督物体定位方法 | |
CN114821014A (zh) | 基于多模态与对抗学习的多任务目标检测识别方法及装置 | |
CN112634369A (zh) | 空间与或图模型生成方法、装置、电子设备和存储介质 | |
Dong et al. | Multi-scale discriminative location-aware network for few-shot semantic segmentation | |
CN111598155A (zh) | 一种基于深度学习的细粒度图像弱监督目标定位方法 | |
CN111242028A (zh) | 基于U-Net的遥感图像地物分割方法 | |
CN112418207B (zh) | 一种基于自注意力蒸馏的弱监督文字检测方法 | |
CN110659585B (zh) | 一种基于交互属性监督的行人检测方法 | |
Jaimes et al. | Unsupervised semantic segmentation of aerial images with application to UAV localization | |
CN116091946A (zh) | 一种基于YOLOv5的无人机航拍图像目标检测方法 | |
Peng et al. | Semi-Supervised Bolt Anomaly Detection Based on Local Feature Reconstruction | |
CN112199984B (zh) | 一种大尺度遥感图像的目标快速检测方法 | |
CN114927236A (zh) | 一种面向多重目标图像的检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |