CN111461265A - 基于粗-细粒度多图多标签学习的场景图像标注方法 - Google Patents

基于粗-细粒度多图多标签学习的场景图像标注方法 Download PDF

Info

Publication number
CN111461265A
CN111461265A CN202010459805.8A CN202010459805A CN111461265A CN 111461265 A CN111461265 A CN 111461265A CN 202010459805 A CN202010459805 A CN 202010459805A CN 111461265 A CN111461265 A CN 111461265A
Authority
CN
China
Prior art keywords
graph
label
package
packet
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010459805.8A
Other languages
English (en)
Other versions
CN111461265B (zh
Inventor
赵宇海
王业江
印莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN202010459805.8A priority Critical patent/CN111461265B/zh
Publication of CN111461265A publication Critical patent/CN111461265A/zh
Application granted granted Critical
Publication of CN111461265B publication Critical patent/CN111461265B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于粗‑细粒度多图多标签学习的场景图像标注方法,涉及图像分类技术领域。该方法首先获得原始场景图像数据集与对应的标签集,并对原始场景图像数据集进行数据预处理得到多图数据结构即图包;定义基于图核的图级分值函数和每个标签的包级分值函数;构建基于排序损失的目标函数;通过次梯度下降算法优化基于排序损失的目标函数,得到每个标签的最优权重值,进而构建图级和包级的分类器,从而实现对未知多图数据包的标签集和包中图的标签集进行预测,完成场景图像的标注。本发明方法基于定义的图级和包级分值函数,允许在粗粒度(包级)和细粒度(包中的图)上同时进行标签预测,扩展了传统多图多标签分类的范畴。

Description

基于粗-细粒度多图多标签学习的场景图像标注方法
技术领域
本发明涉及图像分类技术领域,尤其涉及一种基于粗-细粒度多图多标签学习的场景图像标注方法。
背景技术
随着摄影设备的广泛应用以及互联网服务的发展,每天都会产生大量的场景图像。这些场景图像中的单幅场景图像一般会涉及多个主题,语义比较复杂。同时,互联网所产生的大量场景图像一般不具有能够充分描述图像内容的分类标签。对于这些语义复杂且不具备分类标签的海量场景图像,如何利用这些图像为互联网用户提供相关的服务,这是场景图像标注的核心任务。
目前的场景图像标注技术总是假设每个样本都可以表示为一个或多个特征向量(示例)的形式。但是图像往往具有复杂的语义,不仅包含局部信息还具有全局空间信息,这样示例表示会造成信息损失,无法准确描述图像的语义,从而无法准确预测图像标记。现实应用中,很多数据是以具有结构的图来表示的,而非特征向量。
多图多标签(MGML)分类方法可以很自然的应用在许多现实的学习任务中。在该框架下,研究对象被表示为多个图组成的包,并带有多个标签,学习任务是从训练样本中获得标签概念,为未标签的样本预测所有可能的标签。例如在基于内容的图像标注任务中,一幅图像往往有多个标签。一幅图像被划分为若干个区域,每个区域基于像素点或超像素点表示为一个图,这样一幅图像被表示为多个图组成的一个包。
然而,当前的多图多标签方法的缺点有两个方面。首先,所有现有的多图学习算法只能预测粗粒度级别(包)的标签,而不能预测细粒度级别(每个包中的图)。其次,目前研究工作中常用的预测多图包的标签的方法是找到最有代表性的子图,去掉那些不经常出现的子图,这样会丢失一些关键的分类信息。同时,发现最有代表性的子图的复杂度几乎总是NP(非确定性多项式)难的。为了在多实例多标签学习(MIML)中自动标签粗粒度和细粒度(如包和实例)级别的标签,已经进行了大量的研究工作。但MIML中使用的现有方法不能直接应用于MGML学习环境,因为图没有MIML学习模型所需的特征示例向量。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种基于粗-细粒度多图多标签学习的场景图像标注方法,实现对多图数据包的标签集和包中图的标签集进行预测。
为解决上述技术问题,本发明所采取的技术方案是:基于粗-细粒度多图多标签学习的场景图像标注方法,包括以下步骤:
步骤1:获得原始场景图像数据集与对应的标签集;
步骤2:对原始场景图像数据集进行数据预处理,得到多图数据结构即图包,并选取一部分作为训练集;
首先按场景图像的各个标签把图像切割成多个区域,每个区域对应于一个标签;然后使用超像素分割算法(SLIC)将图像的每个区域分割成多个超像素结点,相邻的超像素结点之间有边相连;每个超像素结点的标签取颜色直方图特征和方向梯度直方图特征的向量合值;因此图像的每个区域被转化为一个图,则一个场景图像则被表示为多图结构,即图包;
步骤3:将多图数据映射到高维特征空间,并通过定义基于图核的图级分值函数对图包中各个图进行评分,以此建模标签与图之间的关系;
为标签一个图,对图中每个标签定义基于图核的图级分值函数,如下公式所示:
fc(g)=<wc,φ(g)> (1)
其中,fc(.g)为标签c的图级分值函数,wc是标签c的权重向量,g是训练集中的图包里的图,φ(·)表示使用特定的图核函数将图空间映射到具有内积<·,·>的Hilbert空间;
步骤4:从图包中选取最有价值的图作为代表图来定义每个标签的包级分值函数;
图包的标签是图包内图标签的并集,即如果标签c是包B的标签,则包含c类的包B中至少存在一个标签为c的图,因此定义每个标签的包级分值函数,如下公式所示:
Figure BDA0002510598150000021
其中,B为图包,Fc(B)为标签c的包级分值函数,
Figure BDA0002510598150000022
表示在标签c上实现图包B的最大分值的代表图,即
Figure BDA0002510598150000023
为图包B中最有价值的图;
步骤5:设定与图包相关的标签的排名总在与图包不相关的标签之前,构建基于排序损失的目标函数;
排序损失建立了预测标签与每个标签的排序得分之间的关系模型,若标签排序不正确会对目标函数进行惩罚,则基于排序损失的目标函数如下公式所示:
Figure BDA0002510598150000024
其中,W*为目标函数
Figure BDA0002510598150000025
的最优解,W为每个标签对应的权重向量构成的权重矩阵,λ表示正则化参数,C代表训练集中类标签的总个数,n代表训练集中图包的总个数,Yi +表示与图包Bi相对应的相关标签的索引集,Yi -是Yi +的补集,li表示|Yi +|·|Yi -|,|·|表示基数,wq、wp分别表示标签q、p的权重向量,
Figure BDA0002510598150000026
分别表示在标签q、p上实现第i个图包的最大分值的代表图;另外对|a|+,如果a>0,则|a|+=a,否则|a|+=0;目标函数的第一项通过惩罚权重矩阵W的范数来控制模型的复杂度;第二项度量图g上的标签超平面
Figure BDA0002510598150000031
在相关标签与非相关标签之间的差异;
步骤6:通过次梯度下降算法优化步骤5构建的基于排序损失的目标函数,得到每个标签的最优权重值,进而构建图级和包级的分类器,从而实现对未知多图数据包的标签集和包中图的标签集进行预测,完成场景图像的标注;
步骤6.1:采用次梯度下降算法通过两个阶段R轮迭代优化基于排序损失的目标函数,得到每个标签的最优权重值;
第一阶段,若此阶段在第一轮迭代中,随机从一个图包中选择一个图作为代表图;若在其它轮迭代中,使用上一轮迭代中第二阶段采用次梯度下降算法得到的最终权重值更新训练集中的代表图;
第二阶段,使用第一阶段得到的代表图运行次梯度下降算法,通过迭代更新每个标签的权重值得到每个标签的最优权重;
设定次梯度下降算法总共迭代T次,在第t次迭代时,基于排序损失的目标函数关于标签c的权重向量wc的次梯度计算如下公式所示:
Figure BDA0002510598150000032
其中,
Figure BDA0002510598150000033
表示第t次迭代时标签c的权重向量wc的次梯度,对于
Figure BDA0002510598150000034
若标签c=p,则
Figure BDA0002510598150000035
若c=q,则
Figure BDA0002510598150000036
否则
Figure BDA0002510598150000037
则第t+1次迭代时,标签c的权重向量
Figure BDA0002510598150000038
其中,ηt=1/(λt)为迭代步长;
通过消除递归,第t+1次迭代时标签c的权重向量
Figure BDA0002510598150000039
重写为如下公式所示:
Figure BDA00025105981500000310
对上式(5)互换求和顺序,并定义:
Figure BDA00025105981500000311
将上式(6)转换为迭代公式:
Figure BDA00025105981500000312
再令
Figure BDA00025105981500000313
与zi=λtnli,则第t+1次迭代时,标签c的权重向量
Figure BDA00025105981500000314
改写成如下式所示:
Figure BDA00025105981500000315
由上式,将标签对应的权重w视为代表图在高维空间的加权和,其中μ代表权值,换言之,权重w用变量μ进行表示,不需要显示访问权重w;在第一次迭代时,变量μ初始化为零,并使用上一轮计算得到的标签对应的权重值对其进行更新;
在t+2次迭代时,使用
Figure BDA0002510598150000041
计算次梯度计算公式(7)中的
Figure BDA0002510598150000042
为:
Figure BDA0002510598150000043
其中,
Figure BDA0002510598150000044
为核函数;
步骤6.2、通过对图级分值函数与包级分值函数设定阈值,并利用每个标签的最优权重值,分别构建图级分类器和包级分类器,从而实现对未知多图数据包的标签集和包中图的标签集进行预测,完成场景图像的标注;
如果有新的图G或图包D要进行标签预测,则利用步骤6.1得到的每个标签的最优权重值,计算该图G对应标签c的图级分值函数值fc(G)或图包D对应标签c的包级分值函数值Fc(D),如果图级分值函数fc(G)或包级分值函数Fc(D)的函数值大于等于阈值,则对应标签c预测为1,表示该图或图包具有标签c,否则,如果其值小于阈值,则标记标签c的预测为-1,表示该图或图包没有这个标签。
采用上述技术方案所产生的有益效果在于:本发明提供的基于粗-细粒度多图多标签学习的场景图像标注方法,通过使用基于图核的分值函数来选择图和包级别的标签,不仅实现图级和包级的标签预测功能,而且足够通用,即可以对不同的标注问题采用不同的图核。基于定义的图级和包级分值函数,允许在粗粒度(包级)和细粒度(包中的图)上同时进行标签预测,扩展了传统多图多标签分类的范畴。同时,提出了一种有效的次梯度下降优化方法,解决了损失目标函数中的非凸优化问题,大大降低了计算的时间复杂度。本发明方法把转化为多图多标签数据,使数据复杂语义得到合理表示,提高了场景图像标注的精确度。
附图说明
图1为本发明实施例提供的基于粗-细粒度多图多标签学习的场景图像标注方法的流程图;
图2为本发明实施例提供的优化目标函数得到每个标签的最优权重值的训练过程示意图;
图3为本发明实施例提供的更新参数值的具体过程示意图。
图4为本发明实施例提供的待标注图像及标注后的结果图,其中,(a)为待标注图像,(b)为标注结果图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本实施例中,基于粗-细粒度多图多标签学习的场景图像标注方法,如图1所示,包括以下步骤:
步骤1:获得原始场景图像数据集与对应的标签集;
本发明实施例中,以真实图像数据集:PASCAL VISUAL Object Challenge 2012数据集(VOC12)作为原始场景图数据集;该数据集共有1073个图像,每个图像都有相应的多个对象,每个对象都有一个标签。该数据集中共包括20类对象,如“汽车”、“船”、“狗”、“人”、“羊”和“椅子”等。
步骤2:对原始场景图像数据集进行数据预处理,得到多图数据结构即图包,并选取一部分作为训练集;
首先按场景图像的各个标签把图像切割成多个区域,每个区域对应于一个标签;例如一张图像中包含的羊和狗分别切割成两个区域。然后使用超像素分割算法(SLIC)将图像的每个区域分割成多个超像素结点,相邻的超像素结点之间有边相连;每个超像素结点的标签取颜色直方图特征和方向梯度直方图特征的向量合值;因此图像的每个区域被转化为一个图,则一个场景图像则被表示为多图结构,即图包;另外,对于不同的多图多标签数据集,选取训练集的数目不一样,所得模型的泛化性能会有一定的差别。如果训练集包括绝大多数样本,训练出来的模型可能更准确;如果训练集的样本过少,训练出来模型的泛化性能就不太好。因此,选取的训练集大小为多图多标签数据集的2/3~4/5。
步骤3:将多图数据映射到高维特征空间,并通过定义图级分值函数对图包中各个图进行评分,以此建模标签与图之间的关系;
为标签一个图,对图中每个标签定义基于图核的图级分值函数,如下所示:
fc(g)=<wc,φ(g)> (1)
其中,fc(g)为标签c的图级分值函数,wc是标签c的权重向量,g是训练集中的图包里的图,φ(·)表示使用特定的图核函数将图空间映射到具有内积<·,·>的Hilbert空间;图级分值函数fc(g)能够对标签和图形之间的相关性建模,其中该分值函数的较高分值表示较高的相关性。该策略对不同的分类问题采用相应的图核函数,保证了算法的通用性,因为可以对不同的分类问题采用相应的图核函数。如对于可用于表示图像数据的节点属性图,使用Graph Hopper核,对于用于表示文本数据的节点标签图,使用Weisfeiler Lehman(WL)核。
步骤4:从图包中选取最有价值的图作为代表图来定义每个标签的包级分值函数;
图包的标签是图包内图标签的并集,即如果标签c是包B的标签,则包含c类的包B中至少存在一个标签为c的图,因此定义每个标签的包级分值函数,如下公式所示:
Figure BDA0002510598150000061
其中,B为图包,Fc(B)为标签c的包级分值函数,
Figure BDA0002510598150000062
表示在标签c上实现图包B的最大分值的代表图,因为分值越大表示这个图越有可能具有该类标签,即
Figure BDA0002510598150000063
为图包B中最有价值的图;具体地说,如果图包中的图与标签相关,则该图包的标签集必包含该标签。
步骤5:设定与图包相关的标签的排名总在与图包不相关的标签之前,构建基于排序损失的目标函数;
排序损失建立了预测标签与每个标签的排序得分之间的关系模型,若标签排序不正确会对目标函数进行惩罚,则基于排序损失的目标函数如下公式所示:
Figure BDA0002510598150000064
其中,W*为目标函数
Figure BDA0002510598150000065
的最优解,W为每个标签对应的权重向量构成的权重矩阵,λ表示正则化参数,C代表训练集中类标签的总个数,n代表训练集中图包的总个数,Yi+表示与图包Bi相对应的相关标签的索引集,Yi -是Yi +的补集,li表示|Yi +|·|Yi -|,|·|表示基数,wq、wp分别表示标签q、p的权重向量,
Figure BDA0002510598150000066
分别表示在标签q、p上实现第i个图包的最大分值的代表图;另外对|a|+,如果a>0,则|a|+=a,否则|a|+=0。目标函数的第一项通过惩罚权重矩阵W的范数来控制模型的复杂度;第二项度量图g上的标签超平面
Figure BDA0002510598150000067
在相关标签与非相关标签之间的差异;
步骤6:通过次梯度下降算法优化步骤5构建的基于排序损失的目标函数,得到每个标签的最优权重值,进而构建图级和包级的分类器,从而实现对未知多图数据包的标签集和包中图的标签集进行预测,完成场景图像的标注;
步骤6.1:采用次梯度下降算法通过两个阶段R轮迭代(对上述数据集R=10时算法收敛)优化基于排序损失的目标函数,得到每个标签的最优权重值;
由于该正则化损失函数是非凸的,为解决这个问题,我们第一阶段先找到代表图
Figure BDA0002510598150000068
于是所有代表图都可以被当作常数。然后第二阶段使用一种新的次梯度下降算法来优化损失函数。本发明通过反复迭代这两个过程得到最优权重值,假设优化算法一共迭代R轮。
第一阶段,若此阶段在第一轮迭代中,随机从一个图包中选择一个图作为代表图;若在其它轮迭代中,使用上一轮迭代中第二阶段采用次梯度下降算法得到的最终权重值更新训练集中的代表图;
第二阶段,使用第一阶段得到的代表图运行次梯度下降算法,通过迭代更新每个标签的权重值得到每个标签的最优权重;
设定次梯度下降算法总共迭代T次(对上述数据集T=100时目标函数收敛),在第t次迭代时,基于排序损失的目标函数关于标签c的权重向量wc的次梯度计算如下公式所示:
Figure BDA0002510598150000071
其中,
Figure BDA0002510598150000072
表示第t次迭代时标签c的权重向量wc的次梯度,对于
Figure BDA0002510598150000073
若标签c=p,则
Figure BDA0002510598150000074
若c=q,则
Figure BDA0002510598150000075
否则
Figure BDA0002510598150000076
则第t+1次迭代时,标签c的权重向量
Figure BDA0002510598150000077
其中,ηt=1/(λt)为迭代步长;
通过消除递归,第t+1次迭代时标签c的权重向量
Figure BDA0002510598150000078
重写为:
Figure BDA0002510598150000079
对上式(5)互换求和顺序,并定义:
Figure BDA00025105981500000710
将上式(6)转换为迭代公式:
Figure BDA00025105981500000711
再令
Figure BDA00025105981500000712
与zi=λtnli,则第t+1次迭代时,标签c的权重向量
Figure BDA00025105981500000713
改写成:
Figure BDA00025105981500000714
由上式,将标签对应的权重w视为代表图在高维空间的加权和,其中μ代表权值,换言之,权重w用变量μ进行表示,不需要显示访问权重w;在第一次迭代时,变量μ初始化为零,并使用上一轮计算得到的标签对应的权重值对其进行更新;
在t+2次迭代时,使用
Figure BDA00025105981500000715
计算次梯度计算公式(7)中的
Figure BDA00025105981500000716
为:
Figure BDA00025105981500000717
其中,
Figure BDA00025105981500000718
为核函数;
因此,此过程对目标函数中权重进行更新不需要直接访问高维特征表示
Figure BDA00025105981500000719
和权重向量
Figure BDA00025105981500000720
而仅需提供核函数计算;
总言之,在每一次的次梯度下降迭代t中,均使用上一次迭代t-1中更新的参数变量μ来执行次梯度下降过程。通过足够次数的迭代得到最优权重值。
步骤6.2、通过对图级分值函数与包级分值函数设定阈值,并利用每个标签的最优权重值,分别构建图级分类器和包级分类器,从而实现对未知多图数据包的标签集和包中图的标签集进行预测,完成场景图像的标注;
一般将阈值设置为0,如果有新的图G或图包D要进行标签预测,则利用步骤6.1得到的每个标签的最优权重值,计算该图G对应标签c的图级分值函数值fc(G)或图包D对应标签c的包级分值函数值Fc(D),如果图级分值函数fc(G)或Fc(D)的函数值大于等于阈值0,则对应标签c预测为1,表示该图或图包具有标签c,否则,如果其值小于阈值0,则标记标签c的预测为-1,表示该图或图包没有这个标签。
本实施例中,对步骤6.1通过次梯度下降算法优化步骤5构建的基于排序损失的目标函数得到每个标签的最优权重值的训练如图2所示,具体过程为:
步骤S1:对代表图在高维空间的加权的权值参数μ赋初值并随机初始化每个图包的代表图;首先将参数μ初始化为零,对于每个图包,随机选取图包中的一个图作为该图包的代表图;
步骤S2:从训练集选取一幅图像Bi(即图包),并获得他的相关标签集Yi +与非相关标签集Yi -
步骤S3:从图包Bi的相关标签集Yi +与非相关标签集Yi -中分别取出一个相关标签p和非相关标签q,使用当前代表图
Figure BDA0002510598150000081
计算图包Bi对应的参数μp,i与μq,i是否符合标签排序要求,若不符合,则更新参数值μp,i与μq,i,否则继续执行步骤S4,如图3所示;
从图包Bi的相关标签集Yi +与非相关标签集Yi -中分别取出一个相关标签p和非相关标签q;使用当前代表图
Figure BDA0002510598150000082
计算图包Bi对应的参数μp,i与μq,i是否符合标签排序要求,即计算是否满足条件Fq(Bi)>Fp(Bi)-1,如果满足该条件,则非相关标签q的分值排在相关标签p之前,违背了标签排序要求,因此需要更新参数μq,i=μq,i-1;μp,i=μp,i+1;
步骤S4:继续从Yi +与Yi -中选取标签p和q,并更新图包对应的参数直至全部遍历选完所有相关标签和非相关标签;具体而言,判断是否已经全部从Yi +与Yi -中遍历取完标签p和q,若是则执行S5,否则重新执行步骤S3执行。
步骤S5:判断是否已经全部遍历完所有训练集中的图包,若是则执行S6,否则重新执行步骤S2。
步骤S6:反复迭代运行步骤S2至步骤S5,直至迭代次数达到设定的迭代次数T,然后执行步骤S7;
步骤S7:使用步骤S6得到的最新参数值μ更新每个图包的代表图
Figure BDA0002510598150000083
然后将参数μ清零;
通过计算
Figure BDA0002510598150000084
更新所有图包的代表图,其中μc,:代表类标签c下的对于所有图包的参数向量,
Figure BDA0002510598150000085
代表类标签c下的对于所有图包的代表图组成的向量,然后将参数μ清零。
步骤S8:判断迭代轮数是否达到设定的R轮,若是则结束训练过程,否则重新执行步骤S2。
本实施例中,给定待标注场景图像如图4(a)所示,将该图经过本发明方法进行标注后的结果图如图4(b)所示,从图中可以看出,本发明方法能够对场景图中的各对象进行准确标注。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims (7)

1.一种基于粗-细粒度多图多标签学习的场景图像标注方法,其特征在于:包括以下步骤:
步骤1:获得原始场景图像数据集与对应的标签集;
步骤2:对原始场景图像数据集进行数据预处理,得到多图数据结构即图包,并选取一部分作为训练集;
步骤3:将多图数据映射到高维特征空间,并通过定义基于图核的图级分值函数对图包中各个图进行评分,以此建模标签与图之间的关系;
步骤4:从图包中选取最有价值的图作为代表图来定义每个标签的包级分值函数;
步骤5:设定与图包相关的标签的排名总在与图包不相关的标签之前,构建基于排序损失的目标函数;
步骤6:通过次梯度下降算法优化步骤5构建的基于排序损失的目标函数,得到每个标签的最优权重值,进而构建图级和包级的分类器,从而实现对未知多图数据包的标签集和包中图的标签集进行预测,完成场景图像的标注。
2.根据权利要求1所述的基于粗-细粒度多图多标签学习的场景图像标注方法,其特征在于:步骤2所述对原始场景图像数据集进行数据预处理,得到多图数据结构即图包的具体方法为:
首先按场景图像的各个标签把图像切割成多个区域,每个区域对应于一个标签;然后使用超像素分割算法将图像的每个区域分割成多个超像素结点,相邻的超像素结点之间有边相连;每个超像素结点的标签取颜色直方图特征和方向梯度直方图特征的向量合值;因此图像的每个区域被转化为一个图,则一个场景图像则被表示为多图结构,即图包。
3.根据权利要求1所述的基于粗-细粒度多图多标签学习的场景图像标注方法,其特征在于:步骤3所述定义的基于图核的图级分值函数,如下公式所示:
fc(g)=<wc,φ(g)> (1)
其中,fc(g)为标签c的图级分值函数,wc是标签c的权重向量,g是训练集中的图包里的图,φ(·)表示使用特定的图核函数将图空间映射到具有内积<.,.>的Hilbert空间。
4.根据权利要求3所述的基于粗-细粒度多图多标签学习的场景图像标注方法,其特征在于:步骤4所述定义的每个标签的包级分值函数,如下公式所示:
Figure FDA0002510598140000011
其中,B为图包,Fc(B)为标签c的包级分值函数,
Figure FDA0002510598140000012
表示在标签c上实现图包B的最大分值的代表图,即
Figure FDA0002510598140000013
为图包B中最有价值的图。
5.根据权利要求4所述的基于粗-细粒度多图多标签学习的场景图像标注方法,其特征在于:所述步骤5的具体方法为:
排序损失建立了预测标签与每个标签的排序得分之间的关系模型,若标签排序不正确会对目标函数进行惩罚,则基于排序损失的目标函数如下公式所示:
Figure FDA0002510598140000021
其中,W*为目标函数
Figure FDA0002510598140000022
的最优解,W为每个标签对应的权重向量构成的权重矩阵,λ表示正则化参数,C代表训练集中类标签的总个数,n代表训练集中图包的总个数,
Figure FDA0002510598140000023
表示与图包Bi相对应的相关标签的索引集,
Figure FDA0002510598140000024
Figure FDA0002510598140000025
的补集,li表示
Figure FDA0002510598140000026
|·|表示基数,wq、wp分别表示标签q、p的权重向量,
Figure FDA0002510598140000027
分别表示在标签q、p上实现第i个图包的最大分值的代表图;另外对|a|+,如果a>0,则|a|+=a,否则|a|+=0;目标函数的第一项通过惩罚权重矩阵W的范数来控制模型的复杂度;第二项度量图g上的标签超平面
Figure FDA0002510598140000028
在相关标签与非相关标签之间的差异。
6.根据权利要求5所述的基于粗-细粒度多图多标签学习的场景图像标注方法,其特征在于:所述步骤6的具体方法为:
步骤6.1:采用次梯度下降算法通过两个阶段R轮迭代优化基于排序损失的目标函数,得到每个标签的最优权重值;
第一阶段,若此阶段在第一轮迭代中,随机从一个图包中选择一个图作为代表图;若在其它轮迭代中,使用上一轮迭代中第二阶段采用次梯度下降算法得到的最终权重值更新训练集中的代表图;
第二阶段,使用第一阶段得到的代表图运行次梯度下降算法,通过迭代更新每个标签的权重值得到每个标签的最优权重;
步骤6.2、通过对图级分值函数与包级分值函数设定阈值,并利用每个标签的最优权重值,分别构建图级分类器和包级分类器,从而实现对未知多图数据包的标签集和包中图的标签集进行预测,完成场景图像的标注。
如果有新的图或图包要进行标签预测,则利用步骤6.1得到的每个标签的最优权重值,计算该图对应标签的图级分值函数值或图包对应标签的包级分值函数值,如果图级分值函数或包级分值函数的函数值大于等于阈值,则对应标签预测为1,表示该图或图包具有标签,否则,如果其值小于阈值,则标记对应标签的预测为-1,表示该图或图包没有这个标签。
7.根据权利要求6所述的基于粗-细粒度多图多标签学习的场景图像标注方法,其特征在于:步骤6.1所述运行次梯度下降算法,通过迭代更新每个标签的权重值得到每个标签的最优权重的具体方法为:
设定次梯度下降算法总共迭代T次,在第t次迭代时,基于排序损失的目标函数关于标签c的权重向量wc的次梯度计算如下公式所示:
Figure FDA0002510598140000031
其中,
Figure FDA0002510598140000032
表示第t次迭代时标签c的权重向量wc的次梯度,对于
Figure FDA0002510598140000033
若标签c=p,则
Figure FDA0002510598140000034
若c=q,则
Figure FDA0002510598140000035
否则
Figure FDA0002510598140000036
则第t+1次迭代时,标签c的权重向量
Figure FDA0002510598140000037
其中,ηt=1/(λt)为迭代步长;
通过消除递归,第t+1次迭代时标签c的权重向量
Figure FDA0002510598140000038
重写为如下公式所示:
Figure FDA0002510598140000039
对上式(5)互换求和顺序,并定义:
Figure FDA00025105981400000310
将上式(6)转换为迭代公式:
Figure FDA00025105981400000311
再令
Figure FDA00025105981400000312
与zi=λtnli,则第t+1次迭代时,标签c的权重向量
Figure FDA00025105981400000313
改写成如下式所示:
Figure FDA00025105981400000314
由上式,将标签对应的权重w视为代表图在高维空间的加权和,其中μ代表权值,换言之,权重w用变量μ进行表示,不需要显示访问权重w;在第一次迭代时,变量μ初始化为零,并使用上一轮计算得到的标签对应的权重值对其进行更新;
在t+2次迭代时,使用
Figure FDA00025105981400000315
计算次梯度计算公式(7)中的
Figure FDA00025105981400000316
为:
Figure FDA00025105981400000317
其中,
Figure FDA00025105981400000318
为核函数。
CN202010459805.8A 2020-05-27 2020-05-27 基于粗-细粒度多图多标签学习的场景图像标注方法 Active CN111461265B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010459805.8A CN111461265B (zh) 2020-05-27 2020-05-27 基于粗-细粒度多图多标签学习的场景图像标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010459805.8A CN111461265B (zh) 2020-05-27 2020-05-27 基于粗-细粒度多图多标签学习的场景图像标注方法

Publications (2)

Publication Number Publication Date
CN111461265A true CN111461265A (zh) 2020-07-28
CN111461265B CN111461265B (zh) 2023-07-25

Family

ID=71682881

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010459805.8A Active CN111461265B (zh) 2020-05-27 2020-05-27 基于粗-细粒度多图多标签学习的场景图像标注方法

Country Status (1)

Country Link
CN (1) CN111461265B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113283509A (zh) * 2021-05-28 2021-08-20 深圳一清创新科技有限公司 一种自动标注标签的方法、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105117429A (zh) * 2015-08-05 2015-12-02 广东工业大学 基于主动学习和多标签多示例学习的场景图像标注方法
CN105446988A (zh) * 2014-06-30 2016-03-30 华为技术有限公司 预测类别的方法和装置
CN106951830A (zh) * 2017-02-23 2017-07-14 北京联合大学 一种基于先验条件约束的图像场景多对象标记方法
CN107491731A (zh) * 2017-07-17 2017-12-19 南京航空航天大学 一种面向精确打击的地面运动目标检测与识别方法
WO2020073951A1 (zh) * 2018-10-10 2020-04-16 腾讯科技(深圳)有限公司 用于图像识别的模型的训练方法、装置、网络设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105446988A (zh) * 2014-06-30 2016-03-30 华为技术有限公司 预测类别的方法和装置
CN105117429A (zh) * 2015-08-05 2015-12-02 广东工业大学 基于主动学习和多标签多示例学习的场景图像标注方法
CN106951830A (zh) * 2017-02-23 2017-07-14 北京联合大学 一种基于先验条件约束的图像场景多对象标记方法
CN107491731A (zh) * 2017-07-17 2017-12-19 南京航空航天大学 一种面向精确打击的地面运动目标检测与识别方法
WO2020073951A1 (zh) * 2018-10-10 2020-04-16 腾讯科技(深圳)有限公司 用于图像识别的模型的训练方法、装置、网络设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
秦莹华;李菲菲;陈虬;: "基于迁移学习的多标签图像标注" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113283509A (zh) * 2021-05-28 2021-08-20 深圳一清创新科技有限公司 一种自动标注标签的方法、电子设备及存储介质
CN113283509B (zh) * 2021-05-28 2024-03-29 深圳一清创新科技有限公司 一种自动标注标签的方法、电子设备及存储介质

Also Published As

Publication number Publication date
CN111461265B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
CN109558942B (zh) 一种基于浅度学习的神经网络迁移方法
CN114067107B (zh) 基于多粒度注意力的多尺度细粒度图像识别方法及系统
CN106127197B (zh) 基于显著标签排序的图像显著性目标检测方法和装置
CN111444966A (zh) 媒体信息分类方法及装置
JP2016045943A (ja) シーンの取得画像を意味的にラベル付けする方法
CN111275092A (zh) 一种基于无监督域适应的图像分类方法
EP3660750B1 (en) Method and system for classification of data
CN116129286A (zh) 基于知识图谱的图神经网络遥感图像分类方法
Lonij et al. Open-world visual recognition using knowledge graphs
CN111461265A (zh) 基于粗-细粒度多图多标签学习的场景图像标注方法
Aviles-Rivero et al. Beyond supervised classification: Extreme minimal supervision with the graph 1-laplacian
CN111914949B (zh) 基于强化学习的零样本学习模型的训练方法及装置
CN111506832B (zh) 一种基于块矩阵补全的异构对象补全方法
CN117173512A (zh) 训练流量检测模型、流量检测的方法、装置及电子设备
CN116883751A (zh) 基于原型网络对比学习的无监督领域自适应图像识别方法
CN112329879A (zh) 基于反事实多智能体学习的图像场景图的生成方法和系统
CN116363374A (zh) 图像语义分割网络持续学习方法、系统、设备及存储介质
CN108460406B (zh) 基于最小单纯形融合特征学习的场景图像属性识别方法
CN116188428A (zh) 一种桥接多源域自适应的跨域组织病理学图像识别方法
CN113408546B (zh) 基于相互全局上下文注意力机制的单样本目标检测方法
CN115019342A (zh) 一种基于类关系推理的濒危动物目标检测方法
CN115249313A (zh) 一种基于元模块融合增量学习的图像分类方法
Celestine et al. Investigations on adaptive connectivity and shape prior based fuzzy graph‐cut colour image segmentation
CN114693997A (zh) 基于迁移学习的图像描述生成方法、装置、设备及介质
Pal et al. Generative adversarial data programming

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant