CN116152575A - 基于类激活采样引导的弱监督目标定位方法、装置和介质 - Google Patents
基于类激活采样引导的弱监督目标定位方法、装置和介质 Download PDFInfo
- Publication number
- CN116152575A CN116152575A CN202310410038.5A CN202310410038A CN116152575A CN 116152575 A CN116152575 A CN 116152575A CN 202310410038 A CN202310410038 A CN 202310410038A CN 116152575 A CN116152575 A CN 116152575A
- Authority
- CN
- China
- Prior art keywords
- class
- classification network
- loss function
- target positioning
- resampled
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000004913 activation Effects 0.000 title claims abstract description 63
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000005070 sampling Methods 0.000 title claims abstract description 38
- 239000011159 matrix material Substances 0.000 claims abstract description 62
- 238000012549 training Methods 0.000 claims abstract description 54
- 238000012952 Resampling Methods 0.000 claims abstract description 39
- 238000012360 testing method Methods 0.000 claims abstract description 12
- 238000011176 pooling Methods 0.000 claims description 12
- 230000004927 fusion Effects 0.000 claims description 11
- 238000010586 diagram Methods 0.000 claims description 7
- 238000011478 gradient descent method Methods 0.000 claims description 7
- 230000004807 localization Effects 0.000 claims description 4
- 230000006870 function Effects 0.000 description 48
- 238000012545 processing Methods 0.000 description 10
- 238000013507 mapping Methods 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于类激活采样引导的弱监督目标定位方法、装置和介质,该方法首先构建训练集和测试集以及分类网络和交叉熵损失函数,实现分类网络的初步训练;然后获取原始图像、原始编码特征和原始类别概率,并根据原始编码特征生成类激活矩阵;再构建权重采样矩阵,并进行像素重采样,得到重采样图像和重采样特征以及重采样编码特征和重采样类别概率;然后构建一致性损失函数和重采样的交叉熵损失函数并进行训练,以获取最终训练好的分类网络;最后针对类激活矩阵构建阈值,以获取目标定位。本发明内容新颖,有效挖掘容易被忽略的目标次判别性区域,目标定位能力更优,能够解决仅包含图像属性分类标签情况下的弱监督目标定位问题。
Description
技术领域
本发明涉及图像目标检测领域,尤其涉及了一种基于类激活采样引导的弱监督目标定位方法、装置和介质。
背景技术
全监督条件下的深度学习目标定位方法已经取得了巨大的发展和广泛的应用。然而,全监督目标定位总是需要大量准确的标记数据,而这些数据的获取成本很高。近年来,弱监督目标定位作为一个重要而具有挑战性的研究领域,得到了广泛关注。
弱监督目标定位的目标是仅利用图像级别的标签(如图像分类标签)实现图像目标的定位功能,其中最重要的方法是类激活映射。类激活映射先使用分类模型进行图像分类训练,再利用分类模型最后一个卷积层的激活映射生成图像中目标的检测框信息。类激活映射方法存在以下问题:一方面,由于图像分类更倾向于关注物体最具辨识性的区域,而不是整体,基于类激活映射方法得到的目标框往往过于局部,难以涵盖整个目标。另一方面,当场景复杂时,类激活映射方法容易受背景干扰,导致多处背景发生误激活情况。为了克服上述问题,过去提出了许多类激活映射的改进方法,如图神经、多任务关联训练、多抗性擦除等,但这些方法要么从网络结构层面加强特征提取,要么抑制最判别性区域的特征信息,较少从图像层面同时考虑最判别性区域的抑制和次判别性区域的增强。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于类激活采样引导的弱监督目标定位方法、装置和介质。
本发明的目的是通过以下技术方案来实现的:本发明实施例第一方面提供了一种基于类激活采样引导的弱监督目标定位方法,包括以下步骤:
(1)构建自然图像分类数据集,所述分类数据集包括训练集和测试集;
(2)构建CNN分类网络和交叉熵损失函数,并采用所述步骤(1)中构建的训练集基于交叉熵损失函数对分类网络进行训练,以获取初步训练好的分类网络;所述分类网络包括特征编码器和分类器,所述分类网络的输入为图像,所述分类网络的输出为类别概率;
(3)根据所述步骤(1)中构建的训练集和所述步骤(2)获取的初步训练好的分类网络获取原始图像、原始编码特征和原始类别概率,并根据原始编码特征生成类激活矩阵;
(4)基于所述步骤(3)中的类激活矩阵构建权重采样矩阵,并根据权重采样矩阵对所述步骤(3)中的原始图像和原始编码特征进行像素重采样,以获取重采样图像和重采样特征;
(5)根据所述步骤(4)获取的重采样图像和初步训练好的分类网络获取重采样编码特征和重采样类别概率,并构建一致性损失函数和重采样的交叉熵损失函数;
(6)基于所述步骤(5)构建的一致性损失函数和重采样的交叉熵损失函数对所述步骤(2)获取的初步训练好的分类网络进行训练,以获取最终训练好的分类网络;
(7)根据所述步骤(1)构建的测试集和所述步骤(6)获取的最终训练好的分类网络获取当前编码特征,并根据当前编码特征生成当前类激活矩阵,根据当前类激活矩阵生成二值图,根据二值图获取目标定位。
可选地,所述分类数据集包括图像样本和图像样本的属性分类标签。
可选地,所述步骤(2)包括以下子步骤:
(2.1)构建CNN分类网络,所述分类网络包括特征编码器和分类器,所述特征编码器使用resnet50,所述分类器包括全局平均池化层和与之相连的全连接层;
(2.2)根据所述分类网络输出的类别概率和属性分类标签构建交叉熵损失函数;
(2.3)根据所述步骤(1)中构建的训练集对分类网络进行训练,并基于所述步骤(2.2)中构建的交叉熵损失函数采用梯度下降法反向更新分类网络的参数,直至损失收敛,以获取初步训练好的分类网络。
可选地,所述分类网络的参数包括特征编码器的可训练参数和全连接层的可训练矩阵参数。
可选地,所述步骤(3)具体为:将所述步骤(1)构建的训练集中的图像作为原始图像输入到所述步骤(2)获取的初步训练好的分类网络中,提取特征编码器的输出结果作为原始编码特征,提取分类器的输出结果作为原始类别概率,并根据原始编码特征沿类别维度进行特征融合,以生成类激活矩阵。
可选地,所述步骤(5)包括以下子步骤:
(5.1)将所述步骤(4)获取的重采样图像输入到所述步骤(2)获取的初步训练好的分类网络中,以获取重采样编码特征和重采样类别概率;
(5.2)根据所述步骤(4)获取的重采样特征和所述步骤(5.1)获取的重采样编码特征构建一致性损失函数;
(5.3)根据所述步骤(3)获取的原始类别概率、所述步骤(5.1)获取的重采样类别概率和属性分类标签构建重采样的交叉熵损失函数。
可选地,所述步骤(6)具体为:首先基于所述步骤(5)构建的一致性损失函数和重采样的交叉熵损失函数构建最终用于训练的总损失函数;然后将所述步骤(1)构建的训练集中的图像输入所述步骤(2)获取的初步训练好的分类网络中进行训练,并基于总损失函数采用梯度下降法反向更新分类网络的参数,直至损失收敛,以获取最终训练好的分类网络。
可选地,所述步骤(7)具体为:将所述步骤(1)构建的测试集中的图像输入所述步骤(6)获取的最终训练好的分类网络中,提取特征编码器的输出结果作为当前编码特征,并将当前编码特征沿类别维度基于全连接层可训练矩阵进行特征融合,以生成当前类激活矩阵;构建阈值,将当前类激活矩阵中值大于阈值的置255,小于阈值的置0,以生成二值图;根据二值图构建等级树结构,获取矩形框信息,以获取目标定位。
本发明实施例第二方面提供了一种基于类激活采样引导的弱监督目标定位装置,包括一个或多个处理器,用于实现上述的基于类激活采样引导的弱监督目标定位方法。
本发明实施例第三方面提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,用于实现上述的基于类激活采样引导的弱监督目标定位方法。
本发明的有益效果是,本发明能够解决在仅包含图像属性分类标签情况下的弱监督目标定位问题;相较于以往的弱监督定位方法,本发明方法内容新颖,能够有效挖掘容易被忽略的目标次判别性区域,目标定位能力更优;通过本发明方法有助于获取覆盖整个目标的目标框,且不易受背景干扰,因此也不易发生误定位的问题,有助于区分背景和前景,不易混淆。
附图说明
图1是本发明的基于类激活采样引导的弱监督目标定位方法流程图;
图2是本发明的基于类激活采样引导的弱监督目标定位方法结构图;
图3是本发明的原图和对应的热度图结果图;
图4是本发明的原图和对应的目标定位结果图;
图5是本发明的基于类激活采样引导的弱监督目标定位装置的一种结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
下面结合附图,对本发明进行详细说明。在不冲突的情况下,下述的实施例及实施方式中的特征可以相互组合。
参见图1-图2,本发明的基于类激活采样引导的弱监督目标定位方法,包括以下步骤:
(1)构建自然图像分类数据集,其中,分类数据集包括训练集和测试集。
本实施例中,构建包含鸟类、动物、植物、人等1000个类别的自然图像分类数据集,该分类数据集中共120多万张自然图像,其中,训练集120万张,测试集5万张。例如,可以使用公开数据集ImageNet-1k。
(2)构建CNN(Convolutional Neural Networks,卷积神经网络)分类网络和交叉熵损失函数,并采用训练集基于交叉熵损失函数对分类网络进行训练,以获取初步训练好的分类网络。其中,分类网络包括特征编码器和分类器,分类网络的输入为图像,分类网络的输出为类别概率。
(2.1)构建CNN分类网络,分类网络包括特征编码器和分类器,特征编码器使用resnet50,分类器包括全局平均池化层和与之相连的全连接层。
本实施例中,特征编码器用于提取图像的特征,分类器用于根据图像的特征获取类别概率,表示为:
其中,F表示编码特征,表示特征编码操作,x表示图像样本,/>为特征编码器的可训练参数,D、H、W分别表示编码特征的特征深度、特征高、特征宽信息,C表示分类类别数;g表示全局平均池化层的输出结果,/>表示全局池化操作;p表示分类网络的类别概率向量,T表示转置操作,/>表示矩阵乘法操作,/>表示全连接层的可训练矩阵参数,该矩阵的高为特征深度值D,宽为分类类别数C。
(2.2)根据分类网络输出的类别概率和属性分类标签构建交叉熵损失函数。
本实施例中,交叉熵损失函数的表达式为:
应当理解的是,独热(One-Hot)编码形式,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效,它能够处理非连续型数值特征,且同时在一定程度上也扩充了特征。
(2.3)根据步骤(1)中构建的训练集对分类网络进行训练,并基于步骤(2.2)中构建的交叉熵损失函数采用梯度下降法反向更新分类网络的参数,直至损失收敛,以获取初步训练好的分类网络。
其中,分类网络的参数包括特征编码器的可训练参数和全连接层的可训练矩阵参数。
具体地,将训练集中的宽、高都为224像素的RGB图像输入到分类网络中,输出该图像对应的类别概率,根据输出的类别概率和训练集中对应的属性分类标签通过交叉熵损失函数计算损失,以损失值最小为目标,采用梯度下降法反向更新分类网络的参数,重复训练分类网络并更新分类网络的参数直至损失收敛,即分类准确率不再上升的时候停止训练,即可获取初步训练好的分类网络,此时,特征编码器的可训练参数更新为,全连接层的可训练矩阵参数更新为/>。应当理解的是,本实施例基于Pytorch框架进行,在自然图像数据集上使用初始学习率为0.1,动量参数为0.9的SGD优化器进行训练。
需要说明的是,在训练过程中,图像尺寸调整至256*256像素,再随机裁剪至224*224像素大小并且进行随机左右翻转,训练过程使用4个GPU(Graphics Processing Unit,图形处理器),每个GPU的batch size(训练批次大小)设置为512。
(3)根据步骤(1)中构建的训练集和步骤(2)获取的初步训练好的分类网络获取原始图像、原始编码特征和原始类别概率,并根据原始编码特征生成类激活矩阵。
具体地,将步骤(1)中构建的训练集中的图像作为原始图像输入到步骤(2)获取的初步训练好的分类网络中,提取特征编码器的输出结果作为原始编码特征,提取分类器的输出结果作为原始类别概率,并根据原始编码特征沿类别维度进行特征融合,以生成类激活矩阵。
本实施例中,将训练集中的图像送入步骤(2)获取的初步训练好的分类网络中,提取特征编码器的输出结果作为原始编码特征,提取分类器的输出结果作为原始类别概率,表示为:
本实施例中,对原始编码特征沿类别维度进行特征融合,可以生成类激活矩阵,表示为:
其中,B表示原始编码特征基于全连接层可训练矩阵进行特征融合后的结果,表示B的指数归一化结果,/>表示深度维度上的第ci个矩阵,y表示图像的属性分类标签,A表示类激活矩阵。本实施例中,B和/>均为深度为C、高度为H、宽度为W的矩阵。
(4)基于步骤(3)生成的类激活矩阵构建权重采样矩阵,并根据权重采样矩阵对步骤(3)中的原始图像和原始编码特征进行像素重采样,以获取重采样图像和重采样特征。
本实施例中,基于步骤(3)生成的类激活矩阵构建权重采样矩阵,并利用权重采样矩阵构建行向和列向的积分公式:
本实施例中,利用权重采样矩阵对步骤(3)中的原始图像和原始编码特征进行像素重采样,可以得到原始可判别区域被压缩、背景前景易混淆区域被放大的重采样图像和重采样特征,表示为:
其中,、/>分别表示第hi行第wi列的重采样图像和重采样特征,wi、hi分别表示权重采样矩阵列向、行向的系数,/>、/>分别表示积分公式/>、/>的逆函数,/>、/>分别表示第/>行第/>列的原始图像和原始编码特征。
(5)根据步骤(4)获取的重采样图像和步骤(2)获取的初步训练好的分类网络获取重采样编码特征和重采样类别概率,并构建一致性损失函数和重采样的交叉熵损失函数。
(5.1)将步骤(4)获取的重采样图像输入到步骤(2)获取的初步训练好的分类网络中,以获取重采样编码特征和重采样类别概率,表示为:
(5.2)根据步骤(4)获取的重采样特征和步骤(5.1)获取的重采样编码特征构建一致性损失函数。
本实施例中,分类网络的全连接层的可训练矩阵参数分别与步骤(4)获取的重采样特征和步骤(5.1)获取的重采样编码特征进行矩阵乘法操作,并对矩阵乘法结果进行指数归一化操作,然后基于指数归一化结果构建一致性损失函数,表示为:
其中,表示一致性损失函数,/>、/>分别表示重采样特征和重采样编码特征,/>表示重采样特征基于全连接层可训练矩阵进行特征融合后的结果,表示/>的指数归一化结果,/>表示/>在深度维度上的第ci个矩阵,/>表示重采样编码特征基于全连接层可训练矩阵进行特征融合后的结果,表示/>的指数归一化结果,/>表示/>在深度维度上的第ci个矩阵。
(5.3)根据步骤(3)获取的原始类别概率、步骤(5.1)获取的重采样类别概率和属性分类标签构建重采样的交叉熵损失函数,表示为:
(6)基于步骤(5)构建的一致性损失函数和重采样的交叉熵损失函数对步骤(2)获取的初步训练好的分类网络进行训练,以获取最终训练好的分类网络。
本实施例中,首先基于步骤(5)构建的一致性损失函数和重采样的交叉熵损失函数构建最终用于训练的总损失函数,表示为:
然后基于该总损失函数对步骤(2)获取的初步训练好的分类网络进行训练,将步骤(1)构建的训练集中的图像输入到步骤(2)获取的初步训练好的分类网络中,输出该图像对应的类别概率,根据输出的类别概率和训练集中该图像对应的属性分类标签通过总损失函数计算损失,以损失值最小为目标,采用梯度下降法反向更新分类网络的参数,重复训练分类网络并更新分类网络的参数直至损失收敛,即可获取最终训练好的分类网络。
应当理解的是,本实施例基于Pytorch框架进行,在自然图像数据集上使用初始学习率为0.1,动量参数为0.9的SGD优化器进行训练。
(7)根据步骤(1)构建的测试集和步骤(6)获取的最终训练好的分类网络获取当前编码特征,并根据当前编码特征生成当前类激活矩阵,根据当前类激活矩阵生成二值图,根据二值图获取目标定位。
具体地,将步骤(1)构建的测试集中的图像输入步骤(6)获取的最终训练好的分类网络中,提取特征编码器的输出结果作为当前编码特征,并将当前编码特征沿类别维度基于全连接层可训练矩阵进行特征融合,以生成当前类激活矩阵;构建阈值,将当前类激活矩阵中值大于阈值的置255,小于阈值的置0,以生成二值图;根据二值图构建等级树结构,获取矩形框信息,以获取目标定位,即可实现目标定位功能,如图4所示,其中,灰色矩形框表示目标定位框。
本实施例中,阈值的取值可以在0-1之间,例如可设置为0.5,具体可以根据实际情况进行设置。另外,可以采用python中的cv2.findContours函数基于二值图构建等级树结构,从而获取矩形框信息,即可获取目标定位。
示例性地,采用本发明所述的方法获取目标定位,结果如图3和图4所示,其中,奇数列为原图,偶数列为本发明所述的方法跑出的热度图结果。
本发明主要解决仅包含图像分类标签情况下的弱监督目标定位问题。弱监督定位最重要的方法是类激活映射。该方法首先将图像送入由特征编码器和分类器组成的分类网络,基于分类网络输出的类别概率和属性分类标签构建交叉熵损失函数,实现分类网络的初步训练。接着,训练集原始图像送入已初步训练的分类网络,分别得到原始特征和原始类别概率;原始特征沿类别维度进行特征融合,得到类激活矩阵。然后,利用基于类激活矩阵构建权重采样矩阵,分别对原始图像和原始特征进行像素重采样操作,得到重采样图像和重采样特征;重采样图片再送入分类网络得到重采样编码特征和重采样类别概率。其次,利用重采样特征和重采样编码特征构建一致性损失函数,再利用原始类别概率、重采样类别概率和属性分类标签构建重采样的交叉熵损失函数。再结合一致性损失函数和重采样的交叉熵损失函数对初步训练好的分类网络进行训练,以获取最终训练好的分类网络。最后,测试过程中,针对类激活矩阵构建阈值,获得目标检测框信息,实现目标定位。相较于以往的弱监督定位方法,本发明的内容新颖,有效挖掘容易被忽略的目标次判别性区域,目标定位能力更优。
与前述基于类激活采样引导的弱监督目标定位方法的实施例相对应,本发明还提供了基于类激活采样引导的弱监督目标定位装置的实施例。
参见图5,本发明实施例提供的一种基于类激活采样引导的弱监督目标定位装置,包括一个或多个处理器,用于实现上述实施例中的基于类激活采样引导的弱监督目标定位方法。
本发明基于类激活采样引导的弱监督目标定位装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图5所示,为本发明基于类激活采样引导的弱监督目标定位装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于类激活采样引导的弱监督目标定位方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于类激活采样引导的弱监督目标定位方法,其特征在于,包括以下步骤:
(1)构建自然图像分类数据集,所述分类数据集包括训练集和测试集;
(2)构建CNN分类网络和交叉熵损失函数,并采用所述步骤(1)中构建的训练集基于交叉熵损失函数对分类网络进行训练,以获取初步训练好的分类网络;所述分类网络包括特征编码器和分类器,所述分类网络的输入为图像,所述分类网络的输出为类别概率;
(3)根据所述步骤(1)中构建的训练集和所述步骤(2)获取的初步训练好的分类网络获取原始图像、原始编码特征和原始类别概率,并根据原始编码特征生成类激活矩阵;
(4)基于所述步骤(3)中的类激活矩阵构建权重采样矩阵,并根据权重采样矩阵对所述步骤(3)中的原始图像和原始编码特征进行像素重采样,以获取重采样图像和重采样特征;
(5)根据所述步骤(4)获取的重采样图像和初步训练好的分类网络获取重采样编码特征和重采样类别概率,并构建一致性损失函数和重采样的交叉熵损失函数;
(6)基于所述步骤(5)构建的一致性损失函数和重采样的交叉熵损失函数对所述步骤(2)获取的初步训练好的分类网络进行训练,以获取最终训练好的分类网络;
(7)根据所述步骤(1)构建的测试集和所述步骤(6)获取的最终训练好的分类网络获取当前编码特征,并根据当前编码特征生成当前类激活矩阵,根据当前类激活矩阵生成二值图,根据二值图获取目标定位。
2.根据权利要求1所述的基于类激活采样引导的弱监督目标定位方法,其特征在于,所述分类数据集包括图像样本和图像样本的属性分类标签。
3.根据权利要求1所述的基于类激活采样引导的弱监督目标定位方法,其特征在于,所述步骤(2)包括以下子步骤:
(2.1)构建CNN分类网络,所述分类网络包括特征编码器和分类器,所述特征编码器使用resnet50,所述分类器包括全局平均池化层和与之相连的全连接层;
(2.2)根据所述分类网络输出的类别概率和属性分类标签构建交叉熵损失函数;
(2.3)根据所述步骤(1)中构建的训练集对分类网络进行训练,并基于所述步骤(2.2)中构建的交叉熵损失函数采用梯度下降法反向更新分类网络的参数,直至损失收敛,以获取初步训练好的分类网络。
4.根据权利要求3所述的基于类激活采样引导的弱监督目标定位方法,其特征在于,所述分类网络的参数包括特征编码器的可训练参数和全连接层的可训练矩阵参数。
5.根据权利要求1所述的基于类激活采样引导的弱监督目标定位方法,其特征在于,所述步骤(3)具体为:将所述步骤(1)构建的训练集中的图像作为原始图像输入到所述步骤(2)获取的初步训练好的分类网络中,提取特征编码器的输出结果作为原始编码特征,提取分类器的输出结果作为原始类别概率,并根据原始编码特征沿类别维度进行特征融合,以生成类激活矩阵。
6.根据权利要求1所述的基于类激活采样引导的弱监督目标定位方法,其特征在于,所述步骤(5)包括以下子步骤:
(5.1)将所述步骤(4)获取的重采样图像输入到所述步骤(2)获取的初步训练好的分类网络中,以获取重采样编码特征和重采样类别概率;
(5.2)根据所述步骤(4)获取的重采样特征和所述步骤(5.1)获取的重采样编码特征构建一致性损失函数;
(5.3)根据所述步骤(3)获取的原始类别概率、所述步骤(5.1)获取的重采样类别概率和属性分类标签构建重采样的交叉熵损失函数。
7.根据权利要求1所述的基于类激活采样引导的弱监督目标定位方法,其特征在于,所述步骤(6)具体为:首先基于所述步骤(5)构建的一致性损失函数和重采样的交叉熵损失函数构建最终用于训练的总损失函数;然后将所述步骤(1)构建的训练集中的图像输入所述步骤(2)获取的初步训练好的分类网络中进行训练,并基于总损失函数采用梯度下降法反向更新分类网络的参数,直至损失收敛,以获取最终训练好的分类网络。
8.根据权利要求1所述的基于类激活采样引导的弱监督目标定位方法,其特征在于,所述步骤(7)具体为:将所述步骤(1)构建的测试集中的图像输入所述步骤(6)获取的最终训练好的分类网络中,提取特征编码器的输出结果作为当前编码特征,并将当前编码特征沿类别维度基于全连接层可训练矩阵进行特征融合,以生成当前类激活矩阵;构建阈值,将当前类激活矩阵中值大于阈值的置255,小于阈值的置0,以生成二值图;根据二值图构建等级树结构,获取矩形框信息,以获取目标定位。
9.一种基于类激活采样引导的弱监督目标定位装置,其特征在于,包括一个或多个处理器,用于实现权利要求1-8中任一项所述的基于类激活采样引导的弱监督目标定位方法。
10.一种计算机可读存储介质,其特征在于,其上存储有程序,该程序被处理器执行时,用于实现权利要求1-8中任一项所述的基于类激活采样引导的弱监督目标定位方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310410038.5A CN116152575B (zh) | 2023-04-18 | 2023-04-18 | 基于类激活采样引导的弱监督目标定位方法、装置和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310410038.5A CN116152575B (zh) | 2023-04-18 | 2023-04-18 | 基于类激活采样引导的弱监督目标定位方法、装置和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116152575A true CN116152575A (zh) | 2023-05-23 |
CN116152575B CN116152575B (zh) | 2023-07-21 |
Family
ID=86362152
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310410038.5A Active CN116152575B (zh) | 2023-04-18 | 2023-04-18 | 基于类激活采样引导的弱监督目标定位方法、装置和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116152575B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116912184A (zh) * | 2023-06-30 | 2023-10-20 | 哈尔滨工业大学 | 一种基于篡改区域分离和区域约束损失的弱监督深度修复图像篡改定位方法及系统 |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180330205A1 (en) * | 2017-05-15 | 2018-11-15 | Siemens Aktiengesellschaft | Domain adaptation and fusion using weakly supervised target-irrelevant data |
CN110689081A (zh) * | 2019-09-30 | 2020-01-14 | 中国科学院大学 | 一种基于分歧学习的弱监督目标分类和定位方法 |
CN110717534A (zh) * | 2019-09-30 | 2020-01-21 | 中国科学院大学 | 一种基于网络监督的目标分类和定位方法 |
CN110765458A (zh) * | 2019-09-19 | 2020-02-07 | 浙江工业大学 | 一种基于深度学习的恶意软件检测方法及其装置 |
US20210150281A1 (en) * | 2019-11-14 | 2021-05-20 | Nec Laboratories America, Inc. | Domain adaptation for semantic segmentation via exploiting weak labels |
WO2021125539A1 (ko) * | 2019-12-20 | 2021-06-24 | 주식회사 케이티 | 영상에 포함된 객체를 분류하는 장치, 방법 및 컴퓨터 프로그램 |
CN113657560A (zh) * | 2021-10-20 | 2021-11-16 | 南京理工大学 | 基于节点分类的弱监督图像语义分割方法及系统 |
CN114359631A (zh) * | 2021-12-24 | 2022-04-15 | 黑龙江省微甄光电科技有限责任公司 | 基于编码-译码弱监督网络模型的目标分类与定位方法 |
CN114494791A (zh) * | 2022-04-06 | 2022-05-13 | 之江实验室 | 一种基于注意力选择的transformer运算精简方法及装置 |
CN114596471A (zh) * | 2022-02-23 | 2022-06-07 | 中山大学 | 基于浅层特征背景抑制的弱监督目标定位方法及装置 |
CN114677515A (zh) * | 2022-04-25 | 2022-06-28 | 电子科技大学 | 基于类间相似性的弱监督语义分割方法 |
CN114743027A (zh) * | 2022-04-11 | 2022-07-12 | 郑州轻工业大学 | 弱监督学习引导的协同显著性检测方法 |
CN114820655A (zh) * | 2022-04-26 | 2022-07-29 | 中国地质大学(武汉) | 可靠区域作为注意力机制监督的弱监督建筑物分割方法 |
CN115311504A (zh) * | 2022-10-10 | 2022-11-08 | 之江实验室 | 一种基于注意力重定位的弱监督定位方法和装置 |
CN115482221A (zh) * | 2022-09-22 | 2022-12-16 | 深圳先进技术研究院 | 一种病理图像的端到端弱监督语义分割标注方法 |
CN115908955A (zh) * | 2023-03-06 | 2023-04-04 | 之江实验室 | 基于梯度蒸馏的少样本学习的鸟类分类系统、方法与装置 |
CN115937852A (zh) * | 2022-12-12 | 2023-04-07 | 浙江大学 | 一种基于文本驱动的高效弱监督语义分割方法及装置 |
-
2023
- 2023-04-18 CN CN202310410038.5A patent/CN116152575B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180330205A1 (en) * | 2017-05-15 | 2018-11-15 | Siemens Aktiengesellschaft | Domain adaptation and fusion using weakly supervised target-irrelevant data |
CN110765458A (zh) * | 2019-09-19 | 2020-02-07 | 浙江工业大学 | 一种基于深度学习的恶意软件检测方法及其装置 |
CN110689081A (zh) * | 2019-09-30 | 2020-01-14 | 中国科学院大学 | 一种基于分歧学习的弱监督目标分类和定位方法 |
CN110717534A (zh) * | 2019-09-30 | 2020-01-21 | 中国科学院大学 | 一种基于网络监督的目标分类和定位方法 |
US20210150281A1 (en) * | 2019-11-14 | 2021-05-20 | Nec Laboratories America, Inc. | Domain adaptation for semantic segmentation via exploiting weak labels |
WO2021125539A1 (ko) * | 2019-12-20 | 2021-06-24 | 주식회사 케이티 | 영상에 포함된 객체를 분류하는 장치, 방법 및 컴퓨터 프로그램 |
CN113657560A (zh) * | 2021-10-20 | 2021-11-16 | 南京理工大学 | 基于节点分类的弱监督图像语义分割方法及系统 |
CN114359631A (zh) * | 2021-12-24 | 2022-04-15 | 黑龙江省微甄光电科技有限责任公司 | 基于编码-译码弱监督网络模型的目标分类与定位方法 |
CN114596471A (zh) * | 2022-02-23 | 2022-06-07 | 中山大学 | 基于浅层特征背景抑制的弱监督目标定位方法及装置 |
CN114494791A (zh) * | 2022-04-06 | 2022-05-13 | 之江实验室 | 一种基于注意力选择的transformer运算精简方法及装置 |
CN114743027A (zh) * | 2022-04-11 | 2022-07-12 | 郑州轻工业大学 | 弱监督学习引导的协同显著性检测方法 |
CN114677515A (zh) * | 2022-04-25 | 2022-06-28 | 电子科技大学 | 基于类间相似性的弱监督语义分割方法 |
CN114820655A (zh) * | 2022-04-26 | 2022-07-29 | 中国地质大学(武汉) | 可靠区域作为注意力机制监督的弱监督建筑物分割方法 |
CN115482221A (zh) * | 2022-09-22 | 2022-12-16 | 深圳先进技术研究院 | 一种病理图像的端到端弱监督语义分割标注方法 |
CN115311504A (zh) * | 2022-10-10 | 2022-11-08 | 之江实验室 | 一种基于注意力重定位的弱监督定位方法和装置 |
CN115937852A (zh) * | 2022-12-12 | 2023-04-07 | 浙江大学 | 一种基于文本驱动的高效弱监督语义分割方法及装置 |
CN115908955A (zh) * | 2023-03-06 | 2023-04-04 | 之江实验室 | 基于梯度蒸馏的少样本学习的鸟类分类系统、方法与装置 |
Non-Patent Citations (2)
Title |
---|
YUNHAO LIANG 等: "Joint framework with deep feature distillation and adaptive focal loss for weakly supervised audio tagging and acoustic event detection", 《DIGITAL SIGNAL PROCESSING》, pages 1 - 10 * |
施方迤;汪子扬;梁军;: "基于半监督密集阶梯网络的工业故障识别", 化工学报, no. 07, pages 286 - 294 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116912184A (zh) * | 2023-06-30 | 2023-10-20 | 哈尔滨工业大学 | 一种基于篡改区域分离和区域约束损失的弱监督深度修复图像篡改定位方法及系统 |
CN116912184B (zh) * | 2023-06-30 | 2024-02-23 | 哈尔滨工业大学 | 一种基于篡改区域分离和区域约束损失的弱监督深度修复图像篡改定位方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116152575B (zh) | 2023-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lei et al. | Coupled adversarial training for remote sensing image super-resolution | |
CN111754596B (zh) | 编辑模型生成、人脸图像编辑方法、装置、设备及介质 | |
US20190180154A1 (en) | Text recognition using artificial intelligence | |
CN111242841B (zh) | 一种基于语义分割和深度学习的图片背景风格迁移方法 | |
CN110414344B (zh) | 一种基于视频的人物分类方法、智能终端及存储介质 | |
CN112418292B (zh) | 一种图像质量评价的方法、装置、计算机设备及存储介质 | |
CN112164002B (zh) | 人脸矫正模型的训练方法、装置、电子设备及存储介质 | |
CN112288831B (zh) | 基于生成对抗网络的场景图像生成方法和装置 | |
CN111079683A (zh) | 基于卷积神经网络的遥感图像云雪检测方法 | |
CN111612010A (zh) | 图像处理方法、装置、设备以及计算机可读存储介质 | |
CN113111716B (zh) | 一种基于深度学习的遥感影像半自动标注方法和装置 | |
US20210081677A1 (en) | Unsupervised Video Object Segmentation and Image Object Co-Segmentation Using Attentive Graph Neural Network Architectures | |
Feng et al. | Bag of visual words model with deep spatial features for geographical scene classification | |
CN116152575B (zh) | 基于类激活采样引导的弱监督目标定位方法、装置和介质 | |
CN112017192A (zh) | 基于改进U-Net网络的腺体细胞图像分割方法及系统 | |
Liu et al. | An indoor scene classification method for service robot Based on CNN feature | |
CN110942057A (zh) | 一种集装箱箱号识别方法、装置和计算机设备 | |
Gonçalves et al. | Carcass image segmentation using CNN-based methods | |
CN116311310A (zh) | 一种结合语义分割和序列预测的通用表格识别方法和装置 | |
CN116486419A (zh) | 一种基于孪生卷积神经网络的书法字识别方法 | |
CN115661860A (zh) | 一种狗行为动作识别技术的方法、装置、系统及存储介质 | |
Qin et al. | Depth estimation by parameter transfer with a lightweight model for single still images | |
CN110852102B (zh) | 一种中文的词性标注方法、装置、存储介质及电子设备 | |
CN117351348A (zh) | 基于Unet改进特征提取和损失函数的图像道路提取方法 | |
CN116524352A (zh) | 一种遥感图像水体提取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |