CN113128487A - 一种基于双梯度的弱监督目标定位方法及装置 - Google Patents
一种基于双梯度的弱监督目标定位方法及装置 Download PDFInfo
- Publication number
- CN113128487A CN113128487A CN202110367847.3A CN202110367847A CN113128487A CN 113128487 A CN113128487 A CN 113128487A CN 202110367847 A CN202110367847 A CN 202110367847A CN 113128487 A CN113128487 A CN 113128487A
- Authority
- CN
- China
- Prior art keywords
- gradient
- vector
- category
- calculating
- probability vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 239000013598 vector Substances 0.000 claims abstract description 119
- 230000006870 function Effects 0.000 claims abstract description 38
- 238000010586 diagram Methods 0.000 claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 24
- 238000013135 deep learning Methods 0.000 claims abstract description 23
- 238000013145 classification model Methods 0.000 claims abstract description 20
- 238000013136 deep learning model Methods 0.000 claims abstract description 14
- 238000004364 calculation method Methods 0.000 claims description 17
- 230000004807 localization Effects 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 4
- 230000009977 dual effect Effects 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 description 21
- 238000002372 labelling Methods 0.000 description 7
- 238000011160 research Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000003014 reinforcing effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于双梯度的弱监督目标定位方法,包括:将图像数据集作为训练集,训练原始深度学习分类模型,得到深度学习模型;图像数据集包括多个图像数据和标注向量,深度学习模型输出卷积特征图、多个类别和每个类别的概率向量;根据类别、概率向量和每个类别的标注向量,计算概率向量与标注向量的交叉熵损失;计算交叉熵损失关于卷积特征图的第一梯度;根据第一梯度对卷积特征图进行信息增强,得到类别信息增强图;计算概率向量关于卷积特征图的第二梯度;根据类别信息增强图和第二梯度,计算定位图;根据定位图和预设的阈值,确定蒙版;根据预设的函数,确定蒙版中的多个连通域;连通域具有边界线;根据边界线,确定目标定位边框。
Description
技术领域
本发明涉及深度学习和计算机视觉技术领域,尤其涉及一种基于双梯度的弱监督目标定位方法及装置。
背景技术
视觉是人类获取信息的重要来源,研究表明,人类通过视觉渠道获取80%以上的外界信息。图像是多媒体中的重要信息形式,形象、生动直观地承载着大量的信息,因此研究如何用计算机系统解释图像,实现类似人类视觉系统理解外部世界具有重要意义。其中,目标检测是计算机视觉中的一个基本且重要的问题,目标检测的目的是,给定一张图片,通过计算机系统准确找到目标的位置以及判别目标的类别。目标检测在很多领域都有应用需求,被广为研究的有人脸检测,行人检测,车辆检测等检测任务。
近年来,深度学习技术迅猛发展,在目标检测领域得到越来越多的关注,克服了很多基于特征的传统目标检测方法。目前基于深度学习的全监督目标检测算法有两大类:基于回归的一级目标(one-stage)检测算法,以及基于候选框的二级目标(two-stage)检测算法。基于候选框的two-stage检测算法分为提取候选框模块和分类模块,具有代表性的算法有区域卷积神经网络(R-CNN,Region Convolutional Neural Network),快速区域卷积神经网络(Faster-RCNN)等方法。基于回归的one-stage检测算法直接通过回归来学习目标的位置及类别,代表的算法有YOLO、(Single Shot MultiBox Detector,SSD)等算法,由于相对于基于候选框的目标检测算法而言基于回归的目标检测算法只有一步,所以大大加快了目标检测的速度。然而上述中的全监督目标检测需要大量且昂贵的边界框标注信息。有标注的数据虽然提升了基于深度学习的目标检测算法的性能,但是也耗费了大量的时间成本和人力成本。现实世界中有巨量的未标注过的数据,无法训练全监督目标检测算法。
弱监督定位算法不需要昂贵的边界框标注信息,只需要图像级别的类别标签,即可学习到图像中目标的位置信息。因此如何实现高精度的弱监督定位是有很大的研究和应用价值。目前弱监督目标定位研究通过训练一个深度学习分类模型,然后通过最后分类器的特殊类别权值对最后一层卷积特征图进行加权来获取定位图。然而由于分类模型更倾向于识别图像中物体的局部区域,导致无法定位成功。针对这一问题目前已有科研团队进行相应的研究,例如Zhang X,Wei Y,Feng J,et al.Adversarial Complementary Learningfor Weakly Supervised Object Localization[J].2018提出了一种基于擦除的弱监督定位方法,该方法利用两个全连接分类器对全卷积网络提取的特征进行分类,其中分类器2所输入的特征已经擦除掉分类器1发现的显著性区域。Zhang X,Wei Y,Kang G,et al.Self-produced Guidance for Weakly-supervised Object Localization[J].2018提出了通过将显著性区域作为种子,再通过中间层特征作为弱监督标签,依靠种子来学习到精确的目标位置。Singh K K,Lee Y J.Hide-and-seek:Forcing a network to be meticulous forweakly-supervised object and action localization[C]//2017 IEEE internationalconference on computer vision(ICCV).IEEE,2017:3544-3553提出一种基于隐藏据局部图像的数据增强方式来实现弱监督定位,但是仍然基于缺乏高级引导。授权公告号为CN108764292A的发明专利,引入带参可学习池化层来学习目标的特征表达。
上述现有技术的缺点为:
1,忽略了损失函数的梯度对卷积层特征的类别信息增强能力;
2,忽略了类别的梯度对卷积层特征的类别选择能力;
3,忽略了除最后一层卷积层外其他卷积层特征的目标定位能力,限制了目标位置信息搜索范围;
4,额外的网络层和数据增强操作需要更多的计算资源以及增加了定位时间;
5,定位精度低,时间长。
发明内容
本发明实施例的目的是提供一种基于双梯度的弱监督目标定位方法及装置,以解决现有技术中存在的问题。
为解决现有技术中所存在的问题,第一方面,本发明提供了一种基于双梯度的弱监督目标定位方法,所述方法包括:
将图像数据集作为训练集,训练原始深度学习分类模型,得到深度学习模型;所述图像数据集包括多个图像数据和每个图像数据的标注向量,所述深度学习模型输出卷积特征图、多个类别和每个类别的概率向量;
根据所述类别、概率向量和每个类别的标注向量,计算概率向量与标注向量的交叉熵损失;
计算所述交叉熵损失关于所述卷积特征图的第一梯度;
根据第一梯度对所述卷积特征图进行信息增强,得到类别信息增强图;
计算概率向量关于卷积特征图的第二梯度;
根据所述类别信息增强图和所述第二梯度,计算定位图;
根据所述定位图和预设的阈值,确定蒙版;
根据预设的函数,确定蒙版中的多个连通域;所述连通域具有边界线;
根据所述边界线,确定目标定位边框。
在一种可能的实现方式中,所述根据所述类别、概率向量和每个类别的标注向量,计算概率向量与标注向量的交叉熵损失具体包括:
根据公式计算交叉熵损失函数;其中,L(p,yc)表示概率向量与标注向量的交叉熵损失函数,d为类别总数,p为概率向量,yc为第c类别的标注向量,表示标注向量yc的第k个元素,pk表示概率向量p的第k个元素。
在一种可能的实现方式中,所述计算所述交叉熵损失关于所述卷积特征图的第一梯度具体包括:
在一种可能的实现方式中,所述根据第一梯度对所述卷积特征图进行信息增强,得到类别信息增强图具体包括:
根据公式E=l2(S)-l2(G1)确定类别增强信息图;
其中,E为类别增强信息图,l2为l2归一化函数,l2(S)为对卷积特征图S进行归一化,l2(G1)为对第一梯度进行归一化。
在一种可能的实现方式中,所述计算概率向量关于卷积特征图的第二梯度具体包括:
在一种可能的实现方式中,所述根据所述类别信息增强图和所述第二梯度,计算定位图具体包括:
根据A=∑E·G2计算定位图;其中,A为定位图,E为类别增强信息图,G2为第二梯度。
在一种可能的实现方式中,所述根据所述定位图和预设的阈值,确定蒙版具体包括:
根据mask=abs(sign(A-th))确定蒙版;其中,A为定位图,th为预设阈值,mask为蒙版。
第二方面,本发明提供了一种基于双梯度的弱监督目标定位装置,所述装置包括:
训练模块,所述训练模块用于将图像数据集作为训练集,训练原始深度学习分类模型,得到深度学习模型;所述图像数据集包括多个图像数据和每个图像数据的标注向量,所述深度学习模型输出卷积特征图、多个类别和每个类别的概率向量;
计算模块,所述计算模块用于根据所述类别、概率向量和每个类别的标注向量,计算概率向量与标注向量的交叉熵损失;
所述计算模块还用于,计算所述交叉熵损失关于所述卷积特征图的第一梯度;
信息增强模块,所述信息增强模块用于根据第一梯度对所述卷积特征图进行信息增强,得到类别信息增强图;
所述计算模块还用于,计算概率向量关于卷积特征图的第二梯度;
所述计算模块还用于,根据所述类别信息增强图和所述第二梯度,计算定位图;
确定模块,所述确定模块用于根据所述定位图和预设的阈值,确定蒙版;
所述确定模块还用于,根据预设的函数,确定蒙版中的多个连通域;所述连通域具有边界线;
所述确定模块还用于,根据所述边界线,确定目标定位边框。
在一种可能的实现方式中,所述计算模块具体用于:
根据公式计算交叉熵损失函数;其中,L(p,yc)表示概率向量与标注向量的交叉熵损失函数,d为类别总数,p为概率向量,yc为第c类别的标注向量,表示标注向量yc的第k个元素,pk表示概率向量p的第k个元素。
在一种可能的实现方式中,所述计算模块具体用于:
通过应用本发明实施例提供的基于双梯度的弱监督目标定位方法,通过引入两种梯度挖掘了任一卷积层特征图的定位能力,扩大了目标位置信息搜索的范围;通过梯度对卷积特征图的类别信息加强,能够得到更全面的目标区域。并且相对于深度学习分类模型来说,不需要增加额外的卷积层和额外的针对定位的训练,不需要增加额外的网络层,所以提高了定位的精度,减少了定位的时间。
附图说明
图1为本发明实施例一提供的深度学习分类模型结构图;
图2为本发明实施例一提供的基于双梯度的弱监督目标定位方法的实现原理示意图;
图3为本发明实施例一提供的基于双梯度的弱监督目标定位方法流程示意图;
图4为本发明实施例二提供的基于双梯度的弱监督目标定位装置结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1为本发明实施例提供的深度学习分类模型结构图。图2为本发明实施例提供的基于双梯度的弱监督目标定位方法的实现原理示意图。图3为本发明实施例提供的基于双梯度的弱监督目标定位方法流程示意图,结合图1至图3,对本申请的基于双梯度的弱监督目标定位方法的步骤进行说明。另外,除目标定位之外,本发明中的双梯度方法还可以应用到其他弱监督任务中,例如弱监督分割,弱监督检测等任务。
步骤310,将图像数据集作为训练集,训练原始深度学习分类模型,得到深度学习模型;图像数据集包括多个图像数据和每个图像数据的标注向量,深度学习模型输出卷积特征图和每个类别的概率向量;
具体的,带有类别标签的图像数据集中包括多个图像数据,每一个图像数据都可以作为一个样本。对每个图像数据可以通过自动图像标注技术进行标注,得到和该图像数据对应的标注向量,并将图像数据和标注向量作为训练集来训练原始深度学习分类模型。其中N为图像数据集中的样本数量,xi和yi分别表示第i个样本数据及其标注向量。深度学习分类模型结构如图1所示,其中深度学习分类模型的组成及其顺序为:全卷积网络模型、全局平均池化层、一层带有softmax函数的全连接网络层。全卷积网络可以使用任何经典网络,例如视觉几何组网络(Visual Geometry Group Network,VGG)、inception、resnet等网络模型。使用带有多层全连接的网络结构时,例如VGG需要将全连接层移除后再作为全卷积网络。
经过针对分类任务训练之后,得到具有分类能力的深度学习分类模型。将测试图像数据经过全卷积网络提取卷积特征图,然后输入到全局平均池化层,进一步输入最后一层全连接网络层,最终经过softmax函数后输出各个类别的预测概率向量,后面简称概率向量。其中,在对原始深度学习分类模型进行训练的过程中,可以预先对输入的图像进行预处理,此处的预处理包括多尺度变换、随机裁剪、水平翻转等,从而对预处理后的图像数据进行训练,提高了训练的效率,保证了训练得到的深度学习分类模型的准确性。
步骤320,根据类别、概率向量和每个类别的标注向量,计算概率向量与标注向量的交叉熵损失;
具体的,本申请可在任意全卷积网络的卷积层实现定位,首先假定全卷积网络预测的类别总数为d类,网络输出的概率向量为p,第c类的标注向量为yc。不失一般性,假设在卷积特征图S上实现定位第c类别目标。在本实施例中,可以采用交叉熵函数L作为分类的损失函数,则概率向量p与第c类标注向量yc的交叉熵损失可表示为:
步骤330,计算交叉熵损失关于卷积特征图的第一梯度;
具体的,可以利用损失函数关于卷积特征图S的第一梯度G1来对卷积特征图S进行类别信息增强。
本申请可以通过引入增强系数α来实现信息增强的目的,即首先在标注向量yc上进行类别信息增强,然后将增强关系通过交叉熵损失函数L中的标注向量yc与概率向量p联系起来,最后通过反向传播算法将增强关系传递到第一梯度G1上。可以通过如下公式获得第一梯度G1:
步骤340,根据第一梯度对卷积特征图进行信息增强,得到类别信息增强图;
具体的,可以使用第一梯度G1来对卷积特征图S进行类别信息增强,从而得到类别信息增强图E,具体公式如下:
E=l2(S)-l2(G1) 公式(3)
其中,由于卷积特征图S与第一梯度G1不在一个尺度上,需要通过l2归一化来统一到同一尺度上。l2为l2归一化函数,即对卷积特征图S和第一梯度G1进行了l2范数归一化。类别信息增强图E中由于增加了类别c的信息,使得随后获得定位图时,能够覆盖更多的目标区域,而不是只定位到目标的局部区域。
步骤350,计算概率向量关于卷积特征图的第二梯度;
具体的,在深度学习分类模型中,卷积特征图S提取图像中的特征,并通过特征将图像进行分类。所以说卷积特征图S中包含各个类别的信息,若将c类别的信息提取出来,则可得到对预测的c类别做出贡献的区域,进一步就可以实现定位。在此步骤中,本申请采用第二梯度G2选择卷积特征图S的方式来获得特定类别的信息,可以通过如下公式获取第二梯度G2:
其中,第二梯度G2是针对特定第c类别的概率向量pc的梯度,包含更多的第c类别的变化信息,适合用来选择卷积特征图S上的第c类别的信息。
步骤360,根据类别信息增强图和第二梯度,计算定位图;
具体的,可以通过如下公式计算定位图:
A=∑E·G2 公式(5)
其中,公式(5)中求和是沿通道维度的,即A为高为h宽为w的二维图像。类别增强信息图E与第二梯度G2的形状大小是一样的,所以这一特定类别选择过程是像素级别的。
步骤370,根据定位图和预设的阈值,确定蒙版;
具体的,在获得最终定位边框,得到定位图之后,需要进一步获得蒙版,然后进一步通过蒙版获得最终的定位边框。可以通过如下公式获得蒙版:
mask=abs(sign(A-th)) 公式(6)
本申请可以通过阈值策略来获得蒙版,可以取置信度大于阈值的像素,从而得到蒙版mask,mask是一个0/1的二值矩阵。具体而言,先将定位图A减去预设的阈值th,随后输入符号函数sign中,将大于0的值映射到1,小于0的值映射到-1,最后输入绝对值函数abs中去除负数,进而获得二值蒙版mask。
其中,针对不同的全卷积网络模型,不同的卷积层所采取的阈值th不同。本申请中的阈值th可以是多次实验的经验值。
步骤380,根据预设的函数,确定蒙版中的多个连通域;连通域具有边界线;
具体的,获得蒙版之后不仅可以来进行定位,也可以用来进行分割,因为蒙版是像素级别的,可以通过蒙版中不同连通域的边界来获得最终的边界框。
具体来说,本申请可以使用opencv的cv2.fi ndContours函数来进行轮廓检测,以获取蒙版中的不同连通域,并将连通域的上下左右边界线作为最终的边界框。
步骤390,根据边界线,确定目标定位边框。
具体的,可以将最终的边界框进行连线,从而确定目标定位边框。
其中,不同连通域的边界线可能会有交集,但不同连通域代表不同目标,边界线的重合不需要处理。
和现有技术相比,本申请一方面挖掘了全卷积网络上任意卷积特征图的目标定位能力,而现有的技术都只在全卷积网络的最后一层上进行目标定位;另一方面,利用损失函数关于卷积特征图的梯度对卷积特征图进行类别信息增强来定位到更多的目标区域,利用梯度是一种高级的信息增强,现有技术采用擦除、数据增强等方式来迫使网络关注对类别贡献小的区域,然而有些目标没有那么多的贡献小的区域。最后,本申请提供的方案是线下方案,可以很方便的和现有弱监督定位技术融合,且不需要对现有弱监督定位技术的网络结构进行更改。因此,本发明提供的解决方案具有高度可扩展、高精度,低计算资源特性,更加满足于实际生产需求。
通过应用本发明实施例提供的基于双梯度的弱监督目标定位方法,通过引入两种梯度挖掘了任一卷积层特征图的定位能力,扩大了目标位置信息搜索的范围;通过梯度对卷积特征图的类别信息加强,能够得到更全面的目标区域。并且相对于深度学习分类模型来说,不需要增加额外的卷积层和额外的针对定位的训练,不需要增加额外的网络层,所以提高了定位的精度,减少了定位的时间。
图4为本发明实施例二提供的基于双梯度的弱监督目标定位装置结构示意图。该基于双梯度的弱监督目标定位装置应用在基于双梯度的弱监督目标定位方法中,如图4所示,该基于双梯度的弱监督目标定位装置包括:训练模块410、计算模块420、信息增强模块430和确定模块440。
训练模块410用于将图像数据集作为训练集,训练原始深度学习分类模型,得到深度学习模型;图像数据集包括多个图像数据和每个图像数据的标注向量,深度学习模型输出卷积特征图、多个类别和每个类别的概率向量;
计算模块420用于根据类别、概率向量和每个类别的标注向量,计算概率向量与标注向量的交叉熵损失;
计算模块420还用于,计算交叉熵损失关于卷积特征图的第一梯度;
信息增强模块430用于根据第一梯度对卷积特征图进行信息增强,得到类别信息增强图;
计算模块420还用于,计算概率向量关于卷积特征图的第二梯度;
计算模块420还用于,根据类别信息增强图和第二梯度,计算定位图;
确定模块440用于根据定位图和预设的阈值,确定蒙版;
确定模块440还用于,根据预设的函数,确定蒙版中的多个连通域;连通域具有边界线;
确定模块440还用于,根据边界线,确定目标定位边框。
进一步的,计算模块420具体用于:
根据公式计算交叉熵损失函数;其中,L(p,yc)表示概率向量与标注向量的交叉熵损失函数,d为类别总数,p为概率向量,yc为第c类别的标注向量,表示标注向量yc的第k个元素,pk表示概率向量p的第k个元素。
进一步的,计算模块420具体用于:
进一步的,信息增强模块430具体用于:
根据公式E=l2(S)-l2(G1)确定类别增强信息图;
其中,E为类别增强信息图,l2为l2归一化函数,l2(S)为对卷积特征图S进行归一化,l2(G1)为对第一梯度进行归一化。
进一步的,计算模块420具体用于:
进一步的,计算模块420具体用于:
根据A=∑E·G2计算定位图;其中,A为定位图,E为类别增强信息图,G2为第二梯度。
进一步的,确定模块440具体用于:
根据mask=abs(sign(A-th))确定蒙版;其中,A为定位图,th为预设阈值,mask为蒙版。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于双梯度的弱监督目标定位方法,其特征在于,所述方法包括:
将图像数据集作为训练集,训练原始深度学习分类模型,得到深度学习模型;所述图像数据集包括多个图像数据和每个图像数据的标注向量,所述深度学习模型输出卷积特征图、多个类别和每个类别的概率向量;
根据所述类别、概率向量和每个类别的标注向量,计算概率向量与标注向量的交叉熵损失;
计算所述交叉熵损失关于所述卷积特征图的第一梯度;
根据第一梯度对所述卷积特征图进行信息增强,得到类别信息增强图;
计算概率向量关于卷积特征图的第二梯度;
根据所述类别信息增强图和所述第二梯度,计算定位图;
根据所述定位图和预设的阈值,确定蒙版;
根据预设的函数,确定蒙版中的多个连通域;所述连通域具有边界线;
根据所述边界线,确定目标定位边框。
4.根据权利要求1所述的方法,其特征在于,所述根据第一梯度对所述卷积特征图进行信息增强,得到类别信息增强图具体包括:
根据公式E=l2(S)-l2(G1)确定类别增强信息图;
其中,E为类别增强信息图,l2为l2归一化函数,l2(S)为对卷积特征图S进行归一化,l2(G1)为对第一梯度进行归一化。
6.根据权利要求1所述的方法,其特征在于,所述根据所述类别信息增强图和所述第二梯度,计算定位图具体包括:
根据A=∑E·G2计算定位图;其中,A为定位图,E为类别增强信息图,G2为第二梯度。
7.根据权利要求1所述的方法,其特征在于,所述根据所述定位图和预设的阈值,确定蒙版具体包括:
根据mask=abs(sign(A-th))确定蒙版;其中,A为定位图,th为预设阈值,mask为蒙版。
8.一种基于双梯度的弱监督目标定位装置,其特征在于,所述装置包括:
训练模块,所述训练模块用于将图像数据集作为训练集,训练原始深度学习分类模型,得到深度学习模型;所述图像数据集包括多个图像数据和每个图像数据的标注向量,所述深度学习模型输出卷积特征图、多个类别和每个类别的概率向量;
计算模块,所述计算模块用于根据所述类别、概率向量和每个类别的标注向量,计算概率向量与标注向量的交叉熵损失;
所述计算模块还用于,计算所述交叉熵损失关于所述卷积特征图的第一梯度;
信息增强模块,所述信息增强模块用于根据第一梯度对所述卷积特征图进行信息增强,得到类别信息增强图;
所述计算模块还用于,计算概率向量关于卷积特征图的第二梯度;
所述计算模块还用于,根据所述类别信息增强图和所述第二梯度,计算定位图;
确定模块,所述确定模块用于根据所述定位图和预设的阈值,确定蒙版;
所述确定模块还用于,根据预设的函数,确定蒙版中的多个连通域;所述连通域具有边界线;
所述确定模块还用于,根据所述边界线,确定目标定位边框。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110367847.3A CN113128487A (zh) | 2021-04-06 | 2021-04-06 | 一种基于双梯度的弱监督目标定位方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110367847.3A CN113128487A (zh) | 2021-04-06 | 2021-04-06 | 一种基于双梯度的弱监督目标定位方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113128487A true CN113128487A (zh) | 2021-07-16 |
Family
ID=76774949
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110367847.3A Pending CN113128487A (zh) | 2021-04-06 | 2021-04-06 | 一种基于双梯度的弱监督目标定位方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113128487A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109740588A (zh) * | 2018-12-24 | 2019-05-10 | 中国科学院大学 | 基于弱监督和深度响应重分配的x光图片违禁品定位方法 |
CN109977918A (zh) * | 2019-04-09 | 2019-07-05 | 华南理工大学 | 一种基于无监督域适应的目标检测定位优化方法 |
CN111460984A (zh) * | 2020-03-30 | 2020-07-28 | 华南理工大学 | 一种基于关键点与梯度均衡损失的全局车道线检测方法 |
CN112131967A (zh) * | 2020-09-01 | 2020-12-25 | 河海大学 | 基于多分类器对抗迁移学习的遥感场景分类方法 |
CN112465909A (zh) * | 2020-12-07 | 2021-03-09 | 南开大学 | 基于卷积神经网络的类激活映射目标定位方法及系统 |
-
2021
- 2021-04-06 CN CN202110367847.3A patent/CN113128487A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109740588A (zh) * | 2018-12-24 | 2019-05-10 | 中国科学院大学 | 基于弱监督和深度响应重分配的x光图片违禁品定位方法 |
CN109977918A (zh) * | 2019-04-09 | 2019-07-05 | 华南理工大学 | 一种基于无监督域适应的目标检测定位优化方法 |
CN111460984A (zh) * | 2020-03-30 | 2020-07-28 | 华南理工大学 | 一种基于关键点与梯度均衡损失的全局车道线检测方法 |
CN112131967A (zh) * | 2020-09-01 | 2020-12-25 | 河海大学 | 基于多分类器对抗迁移学习的遥感场景分类方法 |
CN112465909A (zh) * | 2020-12-07 | 2021-03-09 | 南开大学 | 基于卷积神经网络的类激活映射目标定位方法及系统 |
Non-Patent Citations (2)
Title |
---|
BOLEI ZHOU ET AL.: ""Learning Deep Features for Discriminative Localization"", 《ARXIV》 * |
CHUANGCHUANG TAN ET AL.: ""Dual-Gradients Localization Framework for Weakly Supervised Object Localization"", 《MM "20》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106547880B (zh) | 一种融合地理区域知识的多维度地理场景识别方法 | |
Tian et al. | A dual neural network for object detection in UAV images | |
CN111259930A (zh) | 自适应注意力指导机制的一般性目标检测方法 | |
Li et al. | Adaptive deep convolutional neural networks for scene-specific object detection | |
CN110414344B (zh) | 一种基于视频的人物分类方法、智能终端及存储介质 | |
CN107633226B (zh) | 一种人体动作跟踪特征处理方法 | |
CN110782420A (zh) | 一种基于深度学习的小目标特征表示增强方法 | |
CN110633708A (zh) | 一种基于全局模型和局部优化的深度网络显著性检测方法 | |
Bae | Object detection based on region decomposition and assembly | |
CN108734200B (zh) | 基于bing特征的人体目标视觉检测方法和装置 | |
CN110008899B (zh) | 一种可见光遥感图像候选目标提取与分类方法 | |
JP2024513596A (ja) | 画像処理方法および装置、ならびにコンピュータ可読ストレージ媒体 | |
Shu et al. | Center-point-guided proposal generation for detection of small and dense buildings in aerial imagery | |
CN112434618A (zh) | 基于稀疏前景先验的视频目标检测方法、存储介质及设备 | |
Wu et al. | Improvement of Mask-RCNN object segmentation algorithm | |
CN112733942A (zh) | 一种基于多级特征自适应融合的变尺度目标检测方法 | |
Zhou et al. | Building segmentation from airborne VHR images using Mask R-CNN | |
Fan et al. | A novel sonar target detection and classification algorithm | |
Zhao et al. | BiTNet: a lightweight object detection network for real-time classroom behavior recognition with transformer and bi-directional pyramid network | |
Xing et al. | The Improved Framework for Traffic Sign Recognition Using Guided Image Filtering | |
Yu et al. | SignHRNet: Street-level traffic signs recognition with an attentive semi-anchoring guided high-resolution network | |
Li | A deep learning-based text detection and recognition approach for natural scenes | |
CN111832463A (zh) | 一种基于深度学习的交通标志检测方法 | |
CN116681961A (zh) | 基于半监督方法和噪声处理的弱监督目标检测方法 | |
Xu et al. | Compressed YOLOv5 for oriented object detection with integrated network slimming and knowledge distillation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210716 |