CN111461265B - 基于粗-细粒度多图多标签学习的场景图像标注方法 - Google Patents
基于粗-细粒度多图多标签学习的场景图像标注方法 Download PDFInfo
- Publication number
- CN111461265B CN111461265B CN202010459805.8A CN202010459805A CN111461265B CN 111461265 B CN111461265 B CN 111461265B CN 202010459805 A CN202010459805 A CN 202010459805A CN 111461265 B CN111461265 B CN 111461265B
- Authority
- CN
- China
- Prior art keywords
- graph
- label
- packet
- value
- level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 19
- 230000006870 function Effects 0.000 claims abstract description 85
- 238000000034 method Methods 0.000 claims abstract description 24
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 32
- 238000012549 training Methods 0.000 claims description 25
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 5
- 230000000295 complement effect Effects 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 4
- 241000282472 Canis lupus familiaris Species 0.000 description 2
- 241001494479 Pecora Species 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于粗‑细粒度多图多标签学习的场景图像标注方法,涉及图像分类技术领域。该方法首先获得原始场景图像数据集与对应的标签集,并对原始场景图像数据集进行数据预处理得到多图数据结构即图包;定义基于图核的图级分值函数和每个标签的包级分值函数;构建基于排序损失的目标函数;通过次梯度下降算法优化基于排序损失的目标函数,得到每个标签的最优权重值,进而构建图级和包级的分类器,从而实现对未知多图数据包的标签集和包中图的标签集进行预测,完成场景图像的标注。本发明方法基于定义的图级和包级分值函数,允许在粗粒度(包级)和细粒度(包中的图)上同时进行标签预测,扩展了传统多图多标签分类的范畴。
Description
技术领域
本发明涉及图像分类技术领域,尤其涉及一种基于粗-细粒度多图多标签学习的场景图像标注方法。
背景技术
随着摄影设备的广泛应用以及互联网服务的发展,每天都会产生大量的场景图像。这些场景图像中的单幅场景图像一般会涉及多个主题,语义比较复杂。同时,互联网所产生的大量场景图像一般不具有能够充分描述图像内容的分类标签。对于这些语义复杂且不具备分类标签的海量场景图像,如何利用这些图像为互联网用户提供相关的服务,这是场景图像标注的核心任务。
目前的场景图像标注技术总是假设每个样本都可以表示为一个或多个特征向量(示例)的形式。但是图像往往具有复杂的语义,不仅包含局部信息还具有全局空间信息,这样示例表示会造成信息损失,无法准确描述图像的语义,从而无法准确预测图像标记。现实应用中,很多数据是以具有结构的图来表示的,而非特征向量。
多图多标签(MGML)分类方法可以很自然的应用在许多现实的学习任务中。在该框架下,研究对象被表示为多个图组成的包,并带有多个标签,学习任务是从训练样本中获得标签概念,为未标签的样本预测所有可能的标签。例如在基于内容的图像标注任务中,一幅图像往往有多个标签。一幅图像被划分为若干个区域,每个区域基于像素点或超像素点表示为一个图,这样一幅图像被表示为多个图组成的一个包。
然而,当前的多图多标签方法的缺点有两个方面。首先,所有现有的多图学习算法只能预测粗粒度级别(包)的标签,而不能预测细粒度级别(每个包中的图)。其次,目前研究工作中常用的预测多图包的标签的方法是找到最有代表性的子图,去掉那些不经常出现的子图,这样会丢失一些关键的分类信息。同时,发现最有代表性的子图的复杂度几乎总是NP(非确定性多项式)难的。为了在多实例多标签学习(MIML)中自动标签粗粒度和细粒度(如包和实例)级别的标签,已经进行了大量的研究工作。但MIML中使用的现有方法不能直接应用于MGML学习环境,因为图没有MIML学习模型所需的特征示例向量。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种基于粗-细粒度多图多标签学习的场景图像标注方法,实现对多图数据包的标签集和包中图的标签集进行预测。
为解决上述技术问题,本发明所采取的技术方案是:基于粗-细粒度多图多标签学习的场景图像标注方法,包括以下步骤:
步骤1:获得原始场景图像数据集与对应的标签集;
步骤2:对原始场景图像数据集进行数据预处理,得到多图数据结构即图包,并选取一部分作为训练集;
首先按场景图像的各个标签把图像切割成多个区域,每个区域对应于一个标签;然后使用超像素分割算法(SLIC)将图像的每个区域分割成多个超像素结点,相邻的超像素结点之间有边相连;每个超像素结点的标签取颜色直方图特征和方向梯度直方图特征的向量合值;因此图像的每个区域被转化为一个图,则一个场景图像则被表示为多图结构,即图包;
步骤3:将多图数据映射到高维特征空间,并通过定义基于图核的图级分值函数对图包中各个图进行评分,以此建模标签与图之间的关系;
为标签一个图,对图中每个标签定义基于图核的图级分值函数,如下公式所示:
fc(g)=<wc,φ(g)> (1)
其中,fc(.g)为标签c的图级分值函数,wc是标签c的权重向量,g是训练集中的图包里的图,φ(·)表示使用特定的图核函数将图空间映射到具有内积<·,·>的Hilbert空间;
步骤4:从图包中选取最有价值的图作为代表图来定义每个标签的包级分值函数;
图包的标签是图包内图标签的并集,即如果标签c是包B的标签,则包含c类的包B中至少存在一个标签为c的图,因此定义每个标签的包级分值函数,如下公式所示:
其中,B为图包,Fc(B)为标签c的包级分值函数,表示在标签c上实现图包B的最大分值的代表图,即/>为图包B中最有价值的图;
步骤5:设定与图包相关的标签的排名总在与图包不相关的标签之前,构建基于排序损失的目标函数;
排序损失建立了预测标签与每个标签的排序得分之间的关系模型,若标签排序不正确会对目标函数进行惩罚,则基于排序损失的目标函数如下公式所示:
其中,W*为目标函数的最优解,W为每个标签对应的权重向量构成的权重矩阵,λ表示正则化参数,C代表训练集中类标签的总个数,n代表训练集中图包的总个数,Yi +表示与图包Bi相对应的相关标签的索引集,Yi -是Yi +的补集,li表示|Yi +|·|Yi -|,|·|表示基数,wq、wp分别表示标签q、p的权重向量,/>分别表示在标签q、p上实现第i个图包的最大分值的代表图;另外对|a|+,如果a>0,则|a|+=a,否则|a|+=0;目标函数的第一项通过惩罚权重矩阵W的范数来控制模型的复杂度;第二项度量图g上的标签超平面/>在相关标签与非相关标签之间的差异;
步骤6:通过次梯度下降算法优化步骤5构建的基于排序损失的目标函数,得到每个标签的最优权重值,进而构建图级和包级的分类器,从而实现对未知多图数据包的标签集和包中图的标签集进行预测,完成场景图像的标注;
步骤6.1:采用次梯度下降算法通过两个阶段R轮迭代优化基于排序损失的目标函数,得到每个标签的最优权重值;
第一阶段,若此阶段在第一轮迭代中,随机从一个图包中选择一个图作为代表图;若在其它轮迭代中,使用上一轮迭代中第二阶段采用次梯度下降算法得到的最终权重值更新训练集中的代表图;
第二阶段,使用第一阶段得到的代表图运行次梯度下降算法,通过迭代更新每个标签的权重值得到每个标签的最优权重;
设定次梯度下降算法总共迭代T次,在第t次迭代时,基于排序损失的目标函数关于标签c的权重向量wc的次梯度计算如下公式所示:
其中,表示第t次迭代时标签c的权重向量wc的次梯度,对于/>若标签c=p,则若c=q,则/>否则/>
则第t+1次迭代时,标签c的权重向量其中,ηt=1/(λt)为迭代步长;
通过消除递归,第t+1次迭代时标签c的权重向量重写为如下公式所示:
对上式(5)互换求和顺序,并定义:
将上式(6)转换为迭代公式:
再令与zi=λtnli,则第t+1次迭代时,标签c的权重向量/>改写成如下式所示:
由上式,将标签对应的权重w视为代表图在高维空间的加权和,其中μ代表权值,换言之,权重w用变量μ进行表示,不需要显示访问权重w;在第一次迭代时,变量μ初始化为零,并使用上一轮计算得到的标签对应的权重值对其进行更新;
在t+2次迭代时,使用计算次梯度计算公式(7)中的/>为:
其中,为核函数;
步骤6.2、通过对图级分值函数与包级分值函数设定阈值,并利用每个标签的最优权重值,分别构建图级分类器和包级分类器,从而实现对未知多图数据包的标签集和包中图的标签集进行预测,完成场景图像的标注;
如果有新的图G或图包D要进行标签预测,则利用步骤6.1得到的每个标签的最优权重值,计算该图G对应标签c的图级分值函数值fc(G)或图包D对应标签c的包级分值函数值Fc(D),如果图级分值函数fc(G)或包级分值函数Fc(D)的函数值大于等于阈值,则对应标签c预测为1,表示该图或图包具有标签c,否则,如果其值小于阈值,则标记标签c的预测为-1,表示该图或图包没有这个标签。
采用上述技术方案所产生的有益效果在于:本发明提供的基于粗-细粒度多图多标签学习的场景图像标注方法,通过使用基于图核的分值函数来选择图和包级别的标签,不仅实现图级和包级的标签预测功能,而且足够通用,即可以对不同的标注问题采用不同的图核。基于定义的图级和包级分值函数,允许在粗粒度(包级)和细粒度(包中的图)上同时进行标签预测,扩展了传统多图多标签分类的范畴。同时,提出了一种有效的次梯度下降优化方法,解决了损失目标函数中的非凸优化问题,大大降低了计算的时间复杂度。本发明方法把转化为多图多标签数据,使数据复杂语义得到合理表示,提高了场景图像标注的精确度。
附图说明
图1为本发明实施例提供的基于粗-细粒度多图多标签学习的场景图像标注方法的流程图;
图2为本发明实施例提供的优化目标函数得到每个标签的最优权重值的训练过程示意图;
图3为本发明实施例提供的更新参数值的具体过程示意图。
图4为本发明实施例提供的待标注图像及标注后的结果图,其中,(a)为待标注图像,(b)为标注结果图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本实施例中,基于粗-细粒度多图多标签学习的场景图像标注方法,如图1所示,包括以下步骤:
步骤1:获得原始场景图像数据集与对应的标签集;
本发明实施例中,以真实图像数据集:PASCAL VISUAL Object Challenge 2012数据集(VOC12)作为原始场景图数据集;该数据集共有1073个图像,每个图像都有相应的多个对象,每个对象都有一个标签。该数据集中共包括20类对象,如“汽车”、“船”、“狗”、“人”、“羊”和“椅子”等。
步骤2:对原始场景图像数据集进行数据预处理,得到多图数据结构即图包,并选取一部分作为训练集;
首先按场景图像的各个标签把图像切割成多个区域,每个区域对应于一个标签;例如一张图像中包含的羊和狗分别切割成两个区域。然后使用超像素分割算法(SLIC)将图像的每个区域分割成多个超像素结点,相邻的超像素结点之间有边相连;每个超像素结点的标签取颜色直方图特征和方向梯度直方图特征的向量合值;因此图像的每个区域被转化为一个图,则一个场景图像则被表示为多图结构,即图包;另外,对于不同的多图多标签数据集,选取训练集的数目不一样,所得模型的泛化性能会有一定的差别。如果训练集包括绝大多数样本,训练出来的模型可能更准确;如果训练集的样本过少,训练出来模型的泛化性能就不太好。因此,选取的训练集大小为多图多标签数据集的2/3~4/5。
步骤3:将多图数据映射到高维特征空间,并通过定义图级分值函数对图包中各个图进行评分,以此建模标签与图之间的关系;
为标签一个图,对图中每个标签定义基于图核的图级分值函数,如下所示:
fc(g)=<wc,φ(g)> (1)
其中,fc(g)为标签c的图级分值函数,wc是标签c的权重向量,g是训练集中的图包里的图,φ(·)表示使用特定的图核函数将图空间映射到具有内积<·,·>的Hilbert空间;图级分值函数fc(g)能够对标签和图形之间的相关性建模,其中该分值函数的较高分值表示较高的相关性。该策略对不同的分类问题采用相应的图核函数,保证了算法的通用性,因为可以对不同的分类问题采用相应的图核函数。如对于可用于表示图像数据的节点属性图,使用Graph Hopper核,对于用于表示文本数据的节点标签图,使用Weisfeiler Lehman(WL)核。
步骤4:从图包中选取最有价值的图作为代表图来定义每个标签的包级分值函数;
图包的标签是图包内图标签的并集,即如果标签c是包B的标签,则包含c类的包B中至少存在一个标签为c的图,因此定义每个标签的包级分值函数,如下公式所示:
其中,B为图包,Fc(B)为标签c的包级分值函数,表示在标签c上实现图包B的最大分值的代表图,因为分值越大表示这个图越有可能具有该类标签,即/>为图包B中最有价值的图;具体地说,如果图包中的图与标签相关,则该图包的标签集必包含该标签。
步骤5:设定与图包相关的标签的排名总在与图包不相关的标签之前,构建基于排序损失的目标函数;
排序损失建立了预测标签与每个标签的排序得分之间的关系模型,若标签排序不正确会对目标函数进行惩罚,则基于排序损失的目标函数如下公式所示:
其中,W*为目标函数的最优解,W为每个标签对应的权重向量构成的权重矩阵,λ表示正则化参数,C代表训练集中类标签的总个数,n代表训练集中图包的总个数,Yi+表示与图包Bi相对应的相关标签的索引集,Yi -是Yi +的补集,li表示|Yi +|·|Yi -|,|·|表示基数,wq、wp分别表示标签q、p的权重向量,/>分别表示在标签q、p上实现第i个图包的最大分值的代表图;另外对|a|+,如果a>0,则|a|+=a,否则|a|+=0。目标函数的第一项通过惩罚权重矩阵W的范数来控制模型的复杂度;第二项度量图g上的标签超平面/>在相关标签与非相关标签之间的差异;
步骤6:通过次梯度下降算法优化步骤5构建的基于排序损失的目标函数,得到每个标签的最优权重值,进而构建图级和包级的分类器,从而实现对未知多图数据包的标签集和包中图的标签集进行预测,完成场景图像的标注;
步骤6.1:采用次梯度下降算法通过两个阶段R轮迭代(对上述数据集R=10时算法收敛)优化基于排序损失的目标函数,得到每个标签的最优权重值;
由于该正则化损失函数是非凸的,为解决这个问题,我们第一阶段先找到代表图于是所有代表图都可以被当作常数。然后第二阶段使用一种新的次梯度下降算法来优化损失函数。本发明通过反复迭代这两个过程得到最优权重值,假设优化算法一共迭代R轮。
第一阶段,若此阶段在第一轮迭代中,随机从一个图包中选择一个图作为代表图;若在其它轮迭代中,使用上一轮迭代中第二阶段采用次梯度下降算法得到的最终权重值更新训练集中的代表图;
第二阶段,使用第一阶段得到的代表图运行次梯度下降算法,通过迭代更新每个标签的权重值得到每个标签的最优权重;
设定次梯度下降算法总共迭代T次(对上述数据集T=100时目标函数收敛),在第t次迭代时,基于排序损失的目标函数关于标签c的权重向量wc的次梯度计算如下公式所示:
其中,表示第t次迭代时标签c的权重向量wc的次梯度,对于/>若标签c=p,则若c=q,则/>否则/>
则第t+1次迭代时,标签c的权重向量其中,ηt=1/(λt)为迭代步长;
通过消除递归,第t+1次迭代时标签c的权重向量重写为:
对上式(5)互换求和顺序,并定义:
将上式(6)转换为迭代公式:
再令与zi=λtnli,则第t+1次迭代时,标签c的权重向量/>改写成:
由上式,将标签对应的权重w视为代表图在高维空间的加权和,其中μ代表权值,换言之,权重w用变量μ进行表示,不需要显示访问权重w;在第一次迭代时,变量μ初始化为零,并使用上一轮计算得到的标签对应的权重值对其进行更新;
在t+2次迭代时,使用计算次梯度计算公式(7)中的/>为:
其中,为核函数;
因此,此过程对目标函数中权重进行更新不需要直接访问高维特征表示和权重向量/>而仅需提供核函数计算;
总言之,在每一次的次梯度下降迭代t中,均使用上一次迭代t-1中更新的参数变量μ来执行次梯度下降过程。通过足够次数的迭代得到最优权重值。
步骤6.2、通过对图级分值函数与包级分值函数设定阈值,并利用每个标签的最优权重值,分别构建图级分类器和包级分类器,从而实现对未知多图数据包的标签集和包中图的标签集进行预测,完成场景图像的标注;
一般将阈值设置为0,如果有新的图G或图包D要进行标签预测,则利用步骤6.1得到的每个标签的最优权重值,计算该图G对应标签c的图级分值函数值fc(G)或图包D对应标签c的包级分值函数值Fc(D),如果图级分值函数fc(G)或Fc(D)的函数值大于等于阈值0,则对应标签c预测为1,表示该图或图包具有标签c,否则,如果其值小于阈值0,则标记标签c的预测为-1,表示该图或图包没有这个标签。
本实施例中,对步骤6.1通过次梯度下降算法优化步骤5构建的基于排序损失的目标函数得到每个标签的最优权重值的训练如图2所示,具体过程为:
步骤S1:对代表图在高维空间的加权的权值参数μ赋初值并随机初始化每个图包的代表图;首先将参数μ初始化为零,对于每个图包,随机选取图包中的一个图作为该图包的代表图;
步骤S2:从训练集选取一幅图像Bi(即图包),并获得他的相关标签集Yi +与非相关标签集Yi -;
步骤S3:从图包Bi的相关标签集Yi +与非相关标签集Yi -中分别取出一个相关标签p和非相关标签q,使用当前代表图计算图包Bi对应的参数μp,i与μq,i是否符合标签排序要求,若不符合,则更新参数值μp,i与μq,i,否则继续执行步骤S4,如图3所示;
从图包Bi的相关标签集Yi +与非相关标签集Yi -中分别取出一个相关标签p和非相关标签q;使用当前代表图计算图包Bi对应的参数μp,i与μq,i是否符合标签排序要求,即计算是否满足条件Fq(Bi)>Fp(Bi)-1,如果满足该条件,则非相关标签q的分值排在相关标签p之前,违背了标签排序要求,因此需要更新参数μq,i=μq,i-1;μp,i=μp,i+1;
步骤S4:继续从Yi +与Yi -中选取标签p和q,并更新图包对应的参数直至全部遍历选完所有相关标签和非相关标签;具体而言,判断是否已经全部从Yi +与Yi -中遍历取完标签p和q,若是则执行S5,否则重新执行步骤S3执行。
步骤S5:判断是否已经全部遍历完所有训练集中的图包,若是则执行S6,否则重新执行步骤S2。
步骤S6:反复迭代运行步骤S2至步骤S5,直至迭代次数达到设定的迭代次数T,然后执行步骤S7;
步骤S7:使用步骤S6得到的最新参数值μ更新每个图包的代表图然后将参数μ清零;
通过计算更新所有图包的代表图,其中μc,:代表类标签c下的对于所有图包的参数向量,/>代表类标签c下的对于所有图包的代表图组成的向量,然后将参数μ清零。
步骤S8:判断迭代轮数是否达到设定的R轮,若是则结束训练过程,否则重新执行步骤S2。
本实施例中,给定待标注场景图像如图4(a)所示,将该图经过本发明方法进行标注后的结果图如图4(b)所示,从图中可以看出,本发明方法能够对场景图中的各对象进行准确标注。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。
Claims (3)
1.一种基于粗-细粒度多图多标签学习的场景图像标注方法,其特征在于:包括以下步骤:
步骤1:获得原始场景图像数据集与对应的标签集;
步骤2:对原始场景图像数据集进行数据预处理,得到多图数据结构即图包,并选取一部分作为训练集;
首先按场景图像的各个标签把图像切割成多个区域,每个区域对应于一个标签;然后使用超像素分割算法将图像的每个区域分割成多个超像素结点,相邻的超像素结点之间有边相连;每个超像素结点的标签取颜色直方图特征和方向梯度直方图特征的向量合值;因此图像的每个区域被转化为一个图,则一个场景图像则被表示为多图结构,即图包;
步骤3:将多图数据映射到高维特征空间,并通过定义基于图核的图级分值函数对图包中各个图进行评分,以此建模标签与图之间的关系;
基于图核的图级分值函数,如下公式所示:
fc(g)=<wc,φ(g)> (1)
其中,fc(g)为标签c的图级分值函数,wc是标签c的权重向量,g是训练集中的图包里的图,φ(·)表示使用特定的图核函数将图空间映射到具有内积<·,·>的Hilbert空间;
步骤4:从图包中选取最有价值的图作为代表图来定义每个标签的包级分值函数;
每个标签的包级分值函数,如下公式所示:
其中,B为图包,Fc(B)为标签c的包级分值函数,表示在标签c上实现图包B的最大分值的代表图,即/>为图包B中最有价值的图;
步骤5:设定与图包相关的标签的排名总在与图包不相关的标签之前,构建基于排序损失的目标函数;
步骤6:通过次梯度下降算法优化步骤5构建的基于排序损失的目标函数,得到每个标签的最优权重值,进而构建图级和包级的分类器,从而实现对未知多图数据包的标签集和包中图的标签集进行预测,完成场景图像的标注;
步骤6.1:采用次梯度下降算法通过两个阶段R轮迭代优化基于排序损失的目标函数,得到每个标签的最优权重值;
第一阶段,若此阶段在第一轮迭代中,随机从一个图包中选择一个图作为代表图;若在其它轮迭代中,使用上一轮迭代中第二阶段采用次梯度下降算法得到的最终权重值更新训练集中的代表图;
第二阶段,使用第一阶段得到的代表图运行次梯度下降算法,通过迭代更新每个标签的权重值得到每个标签的最优权重;
步骤6.2、通过对图级分值函数与包级分值函数设定阈值,并利用每个标签的最优权重值,分别构建图级分类器和包级分类器,从而实现对未知多图数据包的标签集和包中图的标签集进行预测,完成场景图像的标注;
如果有新的图或图包要进行标签预测,则利用步骤6.1得到的每个标签的最优权重值,计算该图对应标签的图级分值函数值或图包对应标签的包级分值函数值,如果图级分值函数或包级分值函数的函数值大于等于阈值,则对应标签预测为1,表示该图或图包具有标签,否则,如果其值小于阈值,则标记对应标签的预测为-1,表示该图或图包没有这个标签。
2.根据权利要求1所述的基于粗-细粒度多图多标签学习的场景图像标注方法,其特征在于:所述步骤5的具体方法为:
排序损失建立了预测标签与每个标签的排序得分之间的关系模型,若标签排序不正确会对目标函数进行惩罚,则基于排序损失的目标函数如下公式所示:
其中,W*为目标函数的最优解,W为每个标签对应的权重向量构成的权重矩阵,λ表示正则化参数,C代表训练集中类标签的总个数,n代表训练集中图包的总个数,/>表示与图包Bi相对应的相关标签的索引集,/>是/>的补集,li表示/>|·|表示基数,wq、wp分别表示标签q、p的权重向量,/>分别表示在标签q、p上实现第i个图包的最大分值的代表图;另外对|a|+,如果a>0,则|a|+=a,否则|a|+=0;目标函数的第一项通过惩罚权重矩阵W的范数来控制模型的复杂度;第二项度量图g上的标签超平面/>在相关标签与非相关标签之间的差异。
3.根据权利要求2所述的基于粗-细粒度多图多标签学习的场景图像标注方法,其特征在于:步骤6.1所述运行次梯度下降算法,通过迭代更新每个标签的权重值得到每个标签的最优权重的具体方法为:
设定次梯度下降算法总共迭代T次,在第t次迭代时,基于排序损失的目标函数关于标签c的权重向量wc的次梯度计算如下公式所示:
其中,表示第t次迭代时标签c的权重向量wc的次梯度,对于/>若标签c=p,则若c=q,则/>否则/>
则第t+1次迭代时,标签c的权重向量其中,ηt=1/(λt)为迭代步长;
通过消除递归,第t+1次迭代时标签c的权重向量重写为如下公式所示:
对上式(5)互换求和顺序,并定义:
将上式(6)转换为迭代公式:
再令与zi=λtnli,则第t+1次迭代时,标签c的权重向量改写成如下式所示:
由上式,将标签对应的权重w视为代表图在高维空间的加权和,其中μ代表权值,换言之,权重w用变量μ进行表示,不需要显示访问权重w;在第一次迭代时,变量μ初始化为零,并使用上一轮计算得到的标签对应的权重值对其进行更新;
在t+2次迭代时,使用计算次梯度/>为:
其中,为核函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010459805.8A CN111461265B (zh) | 2020-05-27 | 2020-05-27 | 基于粗-细粒度多图多标签学习的场景图像标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010459805.8A CN111461265B (zh) | 2020-05-27 | 2020-05-27 | 基于粗-细粒度多图多标签学习的场景图像标注方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111461265A CN111461265A (zh) | 2020-07-28 |
CN111461265B true CN111461265B (zh) | 2023-07-25 |
Family
ID=71682881
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010459805.8A Active CN111461265B (zh) | 2020-05-27 | 2020-05-27 | 基于粗-细粒度多图多标签学习的场景图像标注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111461265B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114255376A (zh) * | 2020-09-23 | 2022-03-29 | 复旦大学 | 一种基于显著图的多标签图像识别系统 |
CN113283509B (zh) * | 2021-05-28 | 2024-03-29 | 深圳一清创新科技有限公司 | 一种自动标注标签的方法、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105117429A (zh) * | 2015-08-05 | 2015-12-02 | 广东工业大学 | 基于主动学习和多标签多示例学习的场景图像标注方法 |
CN105446988A (zh) * | 2014-06-30 | 2016-03-30 | 华为技术有限公司 | 预测类别的方法和装置 |
CN106951830A (zh) * | 2017-02-23 | 2017-07-14 | 北京联合大学 | 一种基于先验条件约束的图像场景多对象标记方法 |
CN107491731A (zh) * | 2017-07-17 | 2017-12-19 | 南京航空航天大学 | 一种面向精确打击的地面运动目标检测与识别方法 |
WO2020073951A1 (zh) * | 2018-10-10 | 2020-04-16 | 腾讯科技(深圳)有限公司 | 用于图像识别的模型的训练方法、装置、网络设备和存储介质 |
-
2020
- 2020-05-27 CN CN202010459805.8A patent/CN111461265B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105446988A (zh) * | 2014-06-30 | 2016-03-30 | 华为技术有限公司 | 预测类别的方法和装置 |
CN105117429A (zh) * | 2015-08-05 | 2015-12-02 | 广东工业大学 | 基于主动学习和多标签多示例学习的场景图像标注方法 |
CN106951830A (zh) * | 2017-02-23 | 2017-07-14 | 北京联合大学 | 一种基于先验条件约束的图像场景多对象标记方法 |
CN107491731A (zh) * | 2017-07-17 | 2017-12-19 | 南京航空航天大学 | 一种面向精确打击的地面运动目标检测与识别方法 |
WO2020073951A1 (zh) * | 2018-10-10 | 2020-04-16 | 腾讯科技(深圳)有限公司 | 用于图像识别的模型的训练方法、装置、网络设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
秦莹华 ; 李菲菲 ; 陈虬 ; .基于迁移学习的多标签图像标注.电子科技.2018,(08),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111461265A (zh) | 2020-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110084296B (zh) | 一种基于特定语义的图表示学习框架及其多标签分类方法 | |
US7657089B2 (en) | Automatic classification of photographs and graphics | |
CN110362723B (zh) | 一种题目特征表示方法、装置及存储介质 | |
CN111275092B (zh) | 一种基于无监督域适应的图像分类方法 | |
WO2021139191A1 (zh) | 数据标注的方法以及数据标注的装置 | |
Da Silva et al. | Active learning paradigms for CBIR systems based on optimum-path forest classification | |
CN112508975A (zh) | 一种图像识别方法、装置、设备及存储介质 | |
CN111461265B (zh) | 基于粗-细粒度多图多标签学习的场景图像标注方法 | |
CN114298122B (zh) | 数据分类方法、装置、设备、存储介质及计算机程序产品 | |
CN111126464A (zh) | 一种基于无监督域对抗领域适应的图像分类方法 | |
US20240127575A1 (en) | Artificial intelligence system with iterative two-phase active learning | |
CN116258937A (zh) | 基于注意力机制的小样本分割方法、装置、终端及介质 | |
CN116883751A (zh) | 基于原型网络对比学习的无监督领域自适应图像识别方法 | |
CN113408652B (zh) | 基于群表示特征的半监督学习图像分类方法 | |
WO2024159819A1 (zh) | 训练方法、版面分析、质量评估方法、装置、设备和介质 | |
CN111914949B (zh) | 基于强化学习的零样本学习模型的训练方法及装置 | |
CN111506832B (zh) | 一种基于块矩阵补全的异构对象补全方法 | |
CN113255720A (zh) | 基于分层图池化的多视角聚类方法及系统 | |
CN111401122B (zh) | 一种基于知识分类的复杂目标渐近识别方法及装置 | |
CN115952438B (zh) | 社交平台用户属性预测方法、系统、移动设备及存储介质 | |
CN117173512A (zh) | 训练流量检测模型、流量检测的方法、装置及电子设备 | |
CN116974249A (zh) | 柔性作业车间调度方法和柔性作业车间调度装置 | |
CN113408546B (zh) | 基于相互全局上下文注意力机制的单样本目标检测方法 | |
CN115982645A (zh) | 信创环境下基于机器学习实现数据标注的方法、装置、处理器及其计算机可读存储介质 | |
CN116091784A (zh) | 一种目标跟踪方法、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |