CN111783831A - 基于多源多标签共享子空间学习的复杂图像精确分类方法 - Google Patents

基于多源多标签共享子空间学习的复杂图像精确分类方法 Download PDF

Info

Publication number
CN111783831A
CN111783831A CN202010475862.5A CN202010475862A CN111783831A CN 111783831 A CN111783831 A CN 111783831A CN 202010475862 A CN202010475862 A CN 202010475862A CN 111783831 A CN111783831 A CN 111783831A
Authority
CN
China
Prior art keywords
label
image
source
target domain
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010475862.5A
Other languages
English (en)
Other versions
CN111783831B (zh
Inventor
王鑫
张鑫
张之露
吕国芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN202010475862.5A priority Critical patent/CN111783831B/zh
Publication of CN111783831A publication Critical patent/CN111783831A/zh
Application granted granted Critical
Publication of CN111783831B publication Critical patent/CN111783831B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多源多标签共享子空间学习的复杂图像精确分类方法。首先,针对包含多层语义信息的图像,采用全局Gist特征提取方法获得图像的全局语义信息描述;其次,引入多个与目标域样本集相关联但不相同的多标签图像数据集作为多个源领域对目标域中的训练样本进行多标签化预处理,将多源域中的先验判别信息迁移至目标域中,改善目标域预测模型的性能;然后,基于样本的训练和多源域赋予的先验伪标签设计新的经验风险函数,通过增加训练样本的重要性权重改善了模型拟合的优化性能,最终获得理想的类别预测模型(即多标签分类模型),以对待分类图像进行类别预测,可以提升相应分类方案的灵活性,有利于相应目标分类器性能的提升和改善。

Description

基于多源多标签共享子空间学习的复杂图像精确分类方法
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于多源多标签共享子空间学习的复杂图像精确分类方法。
背景技术
图像分类是图像处理和模式识别领域研究的热门课题,其已经广泛应用于军事战场,生物医学等实际应用中。当前的图像分类技术研究主要以图像的单一标签描述为基础,即一幅图像只有唯一的标签表示,这样虽然比较简单直接,但也存在着无法精确描述图像的缺陷。基于此,多标签学习通过对图像进行全面的描述正越来越多地引起研究者们的关注。多标签是由于图像本身的“多义性”造成的,若一个“多义”的对象仅使用一种标签来描述会导致其在表示阶段就丢失了许多重要信息,为对象赋予多样化的描述也可以满足图像分类技术实际应用的需求。图像多标签分类的主要挑战在于随着标签种类的增多,分类的结果组合数目将会呈现指数级的增长,分类任务因而变得更加繁琐复杂,相关的研究存在着很大的难度和挑战。
当前的多标签学习相关研究主要可以概括为两种思路:一种是问题转换方法,即把多标签学习问题转换为独立的单标签学习问题来处理;第二种为算法自适应方法,即运用已成熟的学习算法来适应图像多标签学习的使用场景。目前已有众多学者提出并改进了很多优秀的多标签图像分类算法,如Binary Relevance,Classifier Chains,ML-KNN(Multi-label k-Nearest Neighbors)算法等,它们将多标签学习问题进行拆解和转化,最终通过解决相对简单的二分类问题来完成多标签学习任务。上述这些方法虽然可以在一定程度上解决多标签图像分类问题,但它们没有对多种标签之间的相关性进行充分有效的探索,使用的场景也有着诸多的限制,分类的性能将会受到较大的影响。为此,又有研究者提出了共享子空间学习方法,通过假设多个标签之间共享一个公共子空间,以训练样本预测风险函数最小为准则,通过广义特征值分解获得最佳的空间转换矩阵,继而在子空间中进行多标签学习。多标签学习与单标签学习方法相比存在较大的差异,不同标签之间的相关性是研究的核心。
在图像分类问题中,传统的机器学习分类器虽然可以获得良好的性能,但应用的弊端也非常明显。当新的样本数据分布发生了改变或模型的输出场景产生了变化时,原有的模型将无法适用于新的场景,需要重新进行训练学习,灵活性较差。迁移学习作为机器学习中新的研究分支,在数据分布不完全一致或者模型的应用场景有一定改变时,可以选择相似的领域来进行自适应学习或者对已有的普适化模型进行微调,具有非常好的适应性。迁移学习通过从不同领域中寻找对建立目标域模型有帮助的知识进行迁移来帮助完成目标模型的建立,模型的有效性很大程度地取决于源领域与目标域之间的相关性,关联越强则迁移的效果越好。然而当只有单一的源领域可以进行迁移时,即便其与目标域非常相关,目标域模型的性能也会因为可迁移的知识有限而受到限制。针对该问题,多源迁移学习通过研究从多个源领域中提取更多有用的判别信息来不断提升目标模型的性能,这样一来,迁移学习的效果可以得到更加明显的改善。
公开号为CN109816009A的基于图卷积的多标签图像分类方法、装置及设备,它在获取图像的特征信息后,利用图卷积网络进行多标签关系建模并学习得到分类器,根据多标签分类器输出的标签分数来确定图像的标签,提高了图像分类的精度。尽管该方法对标签之间的关联信息进行了充分的利用,借助图卷积网络完成多标签学习任务,但最终的分类性能依赖于建图的质量,建模的是局部图片标签的关系而非全局关系。
还有方案提出了一种基于多视图多实例的多标签图像分类框架,首先提取图像的局部候选区域,将每幅图像当作一个包;然后提取候选区域作为实例,将多标签图像分类转化为多类别多实例学习问题。此外,除了对局部区域提取特征外,框架还利用图像自身的真实标签和局部区域的近邻关系来添加更深一层的局部标签信息。该框架通过问题转化方法在一定程度上改善了多标签学习的性能,但是对不同标签共享的结构信息仍然没有进行非常充分的利用,仍然存在着很大的改进空间。
可见对于现有的,常用的图像多标签分类方法,其往往存在的局限性,容易限制了目标分类器性能的提升和改善。
发明内容
针对以上问题,本发明提出一种基于多源多标签共享子空间学习的复杂图像精确分类方法。
为实现本发明的目的,提供一种基于多源多标签共享子空间学习的复杂图像精确分类方法,包括如下步骤:
S10,获取多个不同的多标签图像数据集,指定多标签图像数据集中的一个作为目标域样本集,其余的作为多个源领域样本集;其中,各个多标签图像数据集之间存在着多个公共类别;
S20,对多标签图像数据集中包含多种语义信息的图像提取全局Gist特征作为样本图像的全局语义特征表示;
S30,对各个源领域样本集分别训练独立的分类模型,并对目标域样本集进行预测构造先验伪标签集,实现多源域先验判别信息的有效迁移;
S40,将目标域样本集的真实标签与伪标签集结合为新的标签集,基于训练样本设计目标分类模型的优化风险函数,通过共享标签子空间学习寻找不同标签内在的依赖性并获得模型参数的最优解,以得到性能优良的多标签分类模型;
S50,采用多标签分类模型对待分类图像进行分类。
在一个实施例中,对多标签图像数据集中包含多种语义信息的图像提取全局Gist特征作为多标签图像数据集的全局语义特征表示包括:
将多标签图像数据集中的图像分别与4个不同尺度、8个不同方向的Gabor滤波器分别进行滤波得到32个大小一致的特征图;
将每幅特征图划分为4×4的网格块,对每个网格块求取平均值;
级联所有网格块的均值获得特征图的16维特征向量,将所有特征图的16维特征向量串联融合,得到多标签图像数据集中的图像的Gist特征表示;其中Gist特征的特征维数为4×8×4×4=512维。
具体地,若一幅待Gist特征提取的图像为I(x,y),则该图像的Gist特征为:
Figure BDA0002515809820000031
其中,G(x,y)表示Gist特征,
Figure BDA0002515809820000032
表示32通道滤波器特征图的级联,gf(x,y)为Gabor滤波器组,*表示卷积运算。
在一个实施例中,利用多个源领域训练所得的分类器为目标域训练样本构造先验伪标签集,并将目标域样本集的真实标签与伪标签集结合为新的标签集包括:
对各个源领域样本集分别训练独立的预测分类器,记为C1,C2,…,Cn
对于目标域样本集中的训练样本xi∈T,分别采用多个源领域中训练所得的预测分类器进行预测,获得先验伪标签lp1,lp2,…,lpn,其中
Figure BDA0002515809820000033
将训练样本的真实标签yi与先验伪标签一起,组成目标域训练样本的新标签y′i=(yi,lp1,lp2,…,lpn)T
在一个实施例中,通过共享标签子空间学习寻找不同标签内在的依赖性并获得各个分类模型的最优解,以得到性能优良的多标签分类模型包括:
借助目标域训练样本设计目标分类模型的经验风险函数,通过共享标签子空间学习寻找不同标签内在的关联信息,并得到分类模型的优化目标表达式;对于优化目标表达式使用偏导数法求取重要参数的最优解以获得模型的优化表达,并确定性能优良的多标签分类模型。
上述基于多源多标签共享子空间学习的复杂图像精确分类方法,针对包含多语义信息的图像,采用全局Gist特征提取方法获得图像的全局语义信息描述,通过引入多个与目标域样本集相关联但不相同的多标签图像数据集作为多个源领域对目标域中的训练样本进行多标签化预处理,将多源域中的先验判别信息迁移至目标域中,改善目标域预测模型的性能,然后改进了现有的共享标签子空间学习方法,基于样本的训练和多源域赋予的先验伪标签设计了新的风险优化函数,通过增加训练样本的重要性权重改善了模型拟合的优化性能,最终获得理想的类别预测模型(即多标签分类模型),以对待分类图像进行分类,可以提升相应分类方案的灵活性,有利于相应目标分类器性能(即多标签分类模型)的提升和改善。
附图说明
图1是一个实施例的基于多源多标签共享子空间学习的复杂图像精确分类方法流程图;
图2是另一个实施例的基于多源多标签共享子空间学习的复杂图像精确分类方法流程图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
参考图1所示,图1为一个实施例的基于多源多标签共享子空间学习的复杂图像精确分类方法流程图,包括如下步骤:
S10,获取多个不同的多标签图像数据集,指定多标签图像数据集中的一个作为目标域样本集,其余的作为多个源领域样本集;其中,各个多标签图像数据集之间存在着多个公共类别。
上述步骤利用不同的多标签图像数据集构造多个源领域及目标域。选取的图像集包含丰富的类别且图像集之间存在着多个公共类别。从多个图像集中选取一个作为目标域样本集,剩下的构建多个源领域样本集。
在一个实施例中,可以选取多个不同的多标签图像数据集且保证数据集之间存在着交叉类别,选定其中一个作为目标域样本集,其余的作为多源域样本集。例如,其操作过程如下:借助COREL 5K数据集,IAPR TC-12数据集,MIR FLICKR数据集以及PASCAL VOC2007数据集,其中前3个构成多源样本集(分别记作SD1,SD2,SD3),最后的PASCAL VOC2007数据集设定为目标域样本集。这4个数据集均包含了充足的训练样本与测试样本,覆盖了至少20种不同的类别。数据集中每幅图像均可由多个标签进行描述,图像的类别标签多种多样,尺寸也各不相同。
S20,对多标签图像数据集中包含多种语义信息的图像提取全局Gist特征作为多标签图像数据集的全局语义特征表示。
上述Gist特征(全局Gist特征)可以反映图像的本质信息,全局Gist特征是高效的特征表示方法,所得到的特征数据将在后续过程中用于训练分类模型。
在一个实施例中,对多标签图像数据集中包含多种语义信息的图像提取全局Gist特征作为多标签图像数据集的全局语义特征表示包括:
将多标签图像数据集中的图像分别与4个不同尺度、8个不同方向的Gabor滤波器分别进行滤波得到32个大小一致的特征图;
将每幅特征图划分为4×4的网格块,对每个网格块求取平均值;
级联所有网格块的均值获得特征图的16维特征向量,将所有特征图的16维特征向量串联融合,得到多标签图像数据集中的图像的Gist特征表示;其中Gist特征的特征维数为4×8×4×4=512维。
具体地,若一幅待Gist特征提取的图像为I(x,y),则该图像的Gist特征为:
Figure BDA0002515809820000061
其中,G(x,y)表示Gist特征,
Figure BDA0002515809820000062
表示32通道滤波器特征图的级联,gf(x,y)为Gabor滤波器组,*表示卷积运算。
上述Gist特征是一种高性能的全局特征,其通过模拟人的视觉神经系统,可以准确地捕获图像中的上下文信息,最终形成简单但足以描述图像特性的全局语义表示。此外,Gist特征提取过程中通过不同尺度和方向的滤波器进行图像滤波可以实现多尺度特征融合,提高特征表达的性能。
具体地,在一个实施例中,当提取图像Gist特征时,首先将图像分别与4个不同尺度、8个不同方向的Gabor滤波器进行滤波得到32个大小一致的特征图;其次,将每幅特征图划分为4×4大小的网格块,对每个网格求取平均值;然后,级联所有网格块的均值获得特征图的一个16维特征向量;最后,将所有特征图的特征向量串联融合,可以得到图像的Gist特征表示,特征维数为512维。设有一幅待Gist特征提取的图像I(x,y),则其Gist特征可以表示为:
Figure BDA0002515809820000063
其中,
Figure BDA0002515809820000064
表示32通道滤波器特征图的级联,gf(x,y)为Gabor滤波器组,*表示卷积运算。虽然多个多标签图像集中的图像尺寸无法保持一致,但最终都可以通过512维的Gist特征来表达全局语义信息,实现多尺度的特征融合。
S30,对各个源领域样本集分别训练独立的分类模型,并对目标域样本集进行预测构造先验伪标签集,实现多源域先验判别信息的有效迁移。
由于源领域与目标域之间存在着公共类别,目标域的预测模型与源领域的分类模型之间一定存在着相关性。例如,对于相同类别的目标域训练样本,源领域的分类器同样可以进行准确的判别,若将其作为训练目标域模型的先验知识,可以直接提升目标模型的性能;而对于不同类别的目标域训练样本,源领域的分类器虽无法进行准确的类别划分,但可以在一定程度上对目标模型纠偏,对模型的建立也有着重要的参考作用。因此,通过多源迁移学习将多个源领域的判别信息迁移至目标域中并作为先验知识,有助于目标预测模型的构建。在一个实施例中,目标域训练样本多标签化处理的过程如下:
首先,对各个源领域分别训练独立的预测分类器,记为C1,C2,…,Cn
其次,对于目标域中的训练样本xi∈T,分别采用多个源领域中训练所得的分类器进行预测,获得先验伪标签lp1,lp2,…,lpn,其中
Figure BDA0002515809820000071
最后,将训练样本的真实标签yi与先验伪标签一起,组成目标域训练样本的新标签y′i=(yi,lp1,lp2,…,lpn)T
经过多源域伪标签化后的目标域训练样本相比之前将包含更充分的先验判别信息,可以有力地提升目标分类模型的性能。
S40,将目标域样本集的真实标签与伪标签集结合为新的标签集,基于训练样本设计目标分类模型的优化风险函数,通过共享标签子空间学习寻找不同标签内在的依赖性并获得各个分类模型的最优解,以得到性能优良的多标签分类模型。
在一个实施例中,将目标域样本集的真实标签与伪标签集结合为新的标签集包括:
对各个源领域样本集分别训练独立的预测分类器,记为C1,C2,…,Cn
对于目标域样本集中的训练样本xi∈T,分别采用多个源源领域中训练所得的预测分类器进行预测,获得先验伪标签lp1,lp2,…,lpn,其中
Figure BDA0002515809820000072
将训练样本的真实标签yi与先验伪标签一起,组成目标域训练样本的新标签y′i=(yi,lp1,lp2,…,lpn)T
上述步骤获得的多标签分类模型可以对图像进行多种标签的预测,一幅图像可以通过不止一个标签来进行描述。上述步骤利用步骤S30中所获得的目标域训练样本新标签集,在一个实施例中,本发明的多源多标签分类问题可以重新定义如下:假设有n个带标签的源领域样本图像特征集SD1,SD2,…,SDn,目标域样本图像特征集
Figure BDA0002515809820000073
对应的标签集为
Figure BDA0002515809820000074
Figure BDA0002515809820000075
其中,nt为目标域中的样本总数;d为样本特征维数;m为目标域中样本的总类别数。目标域训练样本特征集为
Figure BDA0002515809820000076
样本真实标签与伪标签结合后所获得的标签集
Figure BDA0002515809820000077
其中ntr为目标域训练样本数。
S50,采用多标签分类模型对待分类图像进行分类。
具体地,可以采用获得的多标签分类模型对图像进行多种标签的预测,此时一幅图像可以通过不止一个标签来进行描述,采用多标签分类模型对图像进行多种标签的预测分类,可以提高相应预测分类结果的准确性。
上述基于多源多标签共享子空间学习的复杂图像精确分类方法,针对包含多语义信息的图像,采用全局Gist特征提取方法获得图像的全局语义信息描述,通过引入多个与目标域样本集相关联但不相同的多标签图像数据集作为多个源领域对目标域中的训练样本进行多标签化预处理,将多源域中的先验判别信息迁移至目标域中,改善目标域预测模型的性能,然后改进了现有的共享标签子空间学习方法,基于样本的训练和多源域赋予的先验伪标签设计了新的风险优化函数,通过增加训练样本的重要性权重改善了模型拟合的优化性能,最终获得理想的类别预测模型(即多标签分类模型),以对对待分类图像进行分类,可以提升相应分类方案的灵活性,有利于相应目标分类器性能(即多标签分类模型)的提升和改善。
在一个实施例中,上述基于多源多标签共享子空间学习的复杂图像精确分类方法也可以参考图2所示,其中通过共享标签子空间学习寻找不同标签内在的依赖性并获得模型参数的最优解,以得到性能优良的多标签分类模型包括:
借助目标域训练样本设计目标分类模型的优化风险函数,通过共享标签子空间学习寻找不同标签内在的关联信息,以得到优化目标表达式;对于优化目标表达式使用偏导数法求取重要参数的最优解以获得各个分类模型的最优解,根据各个分类模型的最优解确定性能优良的多标签分类模型。
具体地,本实施例基于目标域训练样本设计目标分类模型的优化风险函数,通过共享标签子空间学习寻找不同标签共享的结构信息。
根据有监督学习框架的定义,分类预测模型的经验风险函数可以表示为:
Figure BDA0002515809820000081
其中,f(·)为预测函数,Γ(·)表示损失函数,xi(i=1,2,…,ntr)为训练样本,μ为正则化因子,Ω(f)为正则化函数。在共享标签子空间学习时,f由两部分决定:一是原始样本空间中的特征数据及真实标签,二是共享标签子空间中的相关性信息,其可以表示为:
Figure BDA0002515809820000091
其中,
Figure BDA0002515809820000092
Figure BDA0002515809820000093
分别为目标预测函数中两个空间的预测向量,
Figure BDA0002515809820000094
为共享标签子空间投影矩阵,满足ΘTΘ=I。式(3)中,前半部分表征了原始样本空间中样本特征与标签之间的关系,后半部分则是对多个标签之间相关性的有效表达。此时,目标风险函数可以表示为:
Figure BDA0002515809820000095
经验风险函数的优化实质上是为预测模型寻找一种相对精确的拟合,使得模型的预测误差达到最小。事实上,模型训练过程中很难让所有样本达到完全的拟合,应该保证重要的样本拥有实现拟合的优先级。因此,本实施例通过对目标域训练样本进行适当的加权,以区分单一样本在样本集中的重要性,并利用样本训练的预测误差设计损失函数。
式(4)中的损失函数通过平方误差函数来量化,即Γ(rl Txi,Lil)=(rl Txi-Lil)2,且通过F范数来进行表示。至此,目标优化函数可以表示如式(5)所示:
Figure BDA0002515809820000096
其中,样本权重w通过单一样本与样本空间全局均值的相似度进行表征,计算方法如下:首先,计算目标域训练样本特征集的均值向量
Figure BDA0002515809820000097
其次,对于训练样本xj(1≤j≤ntr)而言,其权重可以表示为wj=|ct·xj|/(||ct||·||xj||)。
对于式(5)中的正则化项||rl||2,使用l2,1范数来进行表示。对于任意矩阵
Figure BDA0002515809820000098
其l2,1范数表示为:
Figure BDA0002515809820000099
选择l2,1范数主要出于以下考虑:第一,l2,1范数可以降低噪声数据的影响;第二,l2,1范数可以通过稀疏矩阵进行特征选择,获得简洁而有区分性的特征表示,从而提高模型求解的效率;第三,l2,1范数优化可以转化为凸优化问题来寻找模型的全局最优解,有助于模型的求解。至此,算法的优化目标函数可以重新表示为:
Figure BDA0002515809820000101
其中R=[r1,r2,…,rl]T,Q=[q1,q2,…,ql]T。利用F范数及l2,1范数的性质,式(6)可以转化为算法框架最终的优化目标表达式:
Figure BDA0002515809820000102
其中,S与D均为对角矩阵,且主对角线上元素分别为Sii=wi
Figure BDA0002515809820000103
此时,使用偏导数法对上述的优化目标表达式进行求解并获得模型最优解,最终得到性能优良的多标签预测函数。
(1)参数Q的优化求解
在式(7)中对Q求偏导数并取0,可以得到:
Figure BDA0002515809820000104
(2)参数R的优化求解
R实际为分类模型的预测矩阵,最优的R对应着最佳的预测模型。由于R与Q相关联,故将Q=ΘTR代入式(7)中,转换为关于R的优化表达式:
Figure BDA0002515809820000105
通过如下的性质:(I-ΘΘT)(I-ΘΘT)=I-2ΘΘT+ΘΘTΘΘT=I-ΘΘT,式(9)可以转化为:
Figure BDA0002515809820000106
此时求取关于R的导数并置0,可以通过相应的等式关系获得R*
Figure BDA0002515809820000111
其中,M=XTSX+αD+βI,N=M-βΘΘT=XTSX+αD+βI-βΘΘT。可以发现:N正好满足N=NT。由于R采用了l2,1范数来进行规范,R*将以稀疏矩阵进行表示,可以提升模型的预测效率。
(3)参数Θ的优化求解
由于R*与Θ联系紧密,需要借助最优的Θ来获得R*。因此,将式(10)重新拆分整理,转化为关于Θ的优化表达式:
Figure BDA0002515809820000112
将N-1进行展开:N-1=(M-βΘΘT)-1=M-1+βM-1Θ(I-βΘTM-1Θ)-1ΘTM-1,可以继续将目标优化表达式转化为:
Figure BDA0002515809820000113
由于式(13)中第一项与Θ无关,故只需对第二项进行优化处理,即:
Figure BDA0002515809820000114
其中,A=I-βM-1,B=M-1XTSLLTSXM-1。此时,通过对A-1B进行特征值分解即可获得Θ*。在上述过程中可以发现,Θ的优化依赖于A/B,A/B依赖于M,M依赖于D,D又依赖于R,而R也依赖于Θ,因此需要通过迭代优化来逼近Θ的最优解,由此设计的MSML-SSL算法框架如表1所示:
表1.MSML-SSL算法框架
Figure BDA0002515809820000121
最终的目标域预测模型即可表示为:f(x)=xRfinal
本实施例具有以下有益效果:
(1)借鉴多源迁移学习的基本思想,通过对目标域训练样本进行多源伪标签化预处理,将多个源领域中的判别信息迁移至目标域中作为目标预测模型的先验信息,有力地提升了目标域分类模型的性能,改善了模型的多样性与灵活性。
(2)在共享标签子空间学习的过程中,通过对目标域训练样本进行重要性加权,区分了训练过程中模型需要拟合样本的优先级,提升了预测模型的准确性。此外,通过带权重的训练样本构造了优化风险函数,对目标预测矩阵进行l2,1范数优化,改善了预测的效率,保证了完成多标签学习任务的优良性能。
(3)将多源迁移学习与共享标签子空间学习成功地融合并应用于图像多标签分类中,提高了图像多标签学习的准确性和鲁棒性,改善了图像多标签分类的可用性。
在一个实施例中,为了评估本发明提出的MSML-SSL算法框架在复杂多标签图像分类中的性能,选取了4个著名的多标签图像数据集(COREL 5K数据集,IAPR TC-12数据集,MIR FLICKR数据集以及PASCAL VOC2007数据集),构建了3个源领域样本集以及1个目标域样本集进行实验。实验选取了7种多标签学习方法(MLKNN,MLRBF等)进行参考对比,其中,MLKNN将k近邻算法适应于多标签学习问题,借助贝叶斯推理可以获得优良的效果;MLRBF以径向基函数学习为基础,通过构造一个两层的神经网络,经过训练获得网络层的权值,一定程度上解决了标签相关性的获取问题;BR_SVM通过将多标签学习问题分解为多个独立的二分类问题,每个标签对应着一个SVM二分类器;CC_SVM将多标签学习问题转化为二分类器链,二分类器采用SVM框架;MLSVM将多个分类平面的参数求解融合到一个模型中,通过求解模型最优化问题来完成多标签分类任务。上述3种方法没有挖掘标签之间的相关性,而SFUS与JFSC则通过共享子空间学习比较充分地利用了标签间的关联,其中前者集成了共享特征子空间学习与稀疏特征选择两种方法,后者则通过成对的标签相关性来学习共享特征与特定于标签的特征,在低维数据表示的基础上构建多标签分类器。以上7种对比算法可以充分地展现出多标签分类的效果。此外,使用了8个常用的多标签学习性能评价指标(Hamming-Loss,Subset-Accuracy等)来全面综合地衡量不同算法的分类效果。
表2及其续表展示了具体的对比结果。从表格中可以看出:首先,在几乎所有的评价指标上,本发明的算法均可以取得最佳的分类效果,而在Hamming-Loss和Macro-F1这两个指标上虽然不是表现最优的,但与表现最好的算法相比分别只相差了0.003和0.018,综合而言依然是最佳的算法。其次,包括MLRBF,BR_SVM,CC_SVM,MLSVM在内的多种算法,由于缺少对标签之间相关性的有效提取,多标签分类的综合性能较差。本发明提出的算法通过共享标签子空间学习寻找了标签之间的关联,改善了复杂图像的分类效果。最后,与SFUS和JFSC这两种基于共享标签子空间学习的多标签分类方法相比,本发明的算法同样更为出色,在Coverage,One-Error等多项指标上拥有明显的优势。本发明的算法充分地利用了多源多标签样本传递的先验信息,以带权重的目标域训练样本为基础来完成风险函数的优化,提升了共享标签子空间学习的效果,最终改善了多标签图像分类的性能。综合上述分析,本发明提出的MSML-SSL算法在复杂图像分类问题中表现优异,相比于同类别的算法而言有着较为明显的优势,经验证是一种可靠的框架。
表2多标签学习方法性能对比
Figure BDA0002515809820000141
续上表2多标签学习方法性能对比
Figure BDA0002515809820000142
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
需要说明的是,本申请实施例所涉及的术语“第一\第二\第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二\第三”区分的对象在适当情况下可以互换,以使这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
本申请实施例的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (5)

1.一种基于多源多标签共享子空间学习的复杂图像精确分类方法,其特征在于,包括如下步骤:
S10,获取多个不同的多标签图像数据集,指定多标签图像数据集中的一个作为目标域样本集,其余的作为多个源领域样本集。其中,各个多标签图像数据集之间存在着多个公共类别;
S20,对多标签图像数据集中包含多层语义信息的图像提取全局Gist特征作为样本图像的全局语义特征表示;
S30,对各个源领域样本集分别训练独立的分类模型,并对目标域样本集进行预测构造先验伪标签集,实现多源域先验判别信息的有效迁移;
S40,将目标域样本集的真实标签与伪标签集结合为新的标签集,基于训练样本设计目标分类模型的优化风险函数,通过共享标签子空间学习寻找不同标签内在的依赖性并获得模型参数的最优解,以得到性能优良的多标签分类模型;
S50,采用多标签分类模型对待分类图像进行分类。
2.根据权利要求1所述的基于多源多标签共享子空间学习的复杂图像精确分类方法,其特征在于,对多标签图像数据集中包含多种语义信息的图像提取全局Gist特征作为样本图像的全局语义特征表示包括:
将多标签图像数据集中的图像分别与4个不同尺度、8个不同方向的Gabor滤波器分别进行滤波得到32个大小一致的特征图;
将每幅特征图划分为4×4的网格块,对每个网格块求取平均值;
级联所有网格块的均值获得特征图的16维特征向量,将所有特征图的16维特征向量串联融合,得到多标签图像数据集中的图像的Gist特征表示;其中Gist特征的特征维数为4×8×4×4=512维。
3.根据权利要求2所述的基于多源多标签共享子空间学习的复杂图像精确分类方法,其特征在于,若一幅待Gist特征提取的图像为I(x,y),则该图像的Gist特征为:
Figure FDA0002515809810000011
其中,G(x,y)表示Gist特征,
Figure FDA0002515809810000012
表示32通道滤波器特征图的级联,gf(x,y)为Gabor滤波器组,*表示卷积运算。
4.根据权利要求1所述的基于多源多标签共享子空间学习的复杂图像精确分类方法,其特征在于,利用多个源领域样本集训练所得的分类器为目标域训练样本构造先验伪标签集,并将目标域样本集的真实标签与伪标签集结合为新的标签集包括:
对各个源领域样本集分别训练独立的预测分类器,记为C1,C2,…,Cn
对于目标域样本集中的训练样本xi∈T,分别采用多个源源领域中训练所得的预测分类器进行预测,获得先验伪标签lp1,lp2,…,lpn,其中
Figure FDA0002515809810000021
将训练样本的真实标签yi与先验伪标签一起,组成目标域训练样本的新标签y′i=(yi,lp1,lp2,…,lpn)T
5.根据权利要求1所述的基于多源多标签共享子空间学习的复杂图像精确分类方法,其特征在于,通过共享标签子空间学习寻找不同标签内在的依赖性并获得模型参数的最优解,以得到性能优良的多标签分类模型包括:
借助目标域训练样本设计目标分类模型的经验风险函数,通过共享标签子空间学习寻找不同标签内在的关联信息,并得到分类模型的优化目标表达式;对于优化目标表达式使用偏导数法求取其中重要参数的最优解以获得分类模型的优化表达,最终确定性能优良的多标签分类模型。
CN202010475862.5A 2020-05-29 2020-05-29 基于多源多标签共享子空间学习的复杂图像精确分类方法 Active CN111783831B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010475862.5A CN111783831B (zh) 2020-05-29 2020-05-29 基于多源多标签共享子空间学习的复杂图像精确分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010475862.5A CN111783831B (zh) 2020-05-29 2020-05-29 基于多源多标签共享子空间学习的复杂图像精确分类方法

Publications (2)

Publication Number Publication Date
CN111783831A true CN111783831A (zh) 2020-10-16
CN111783831B CN111783831B (zh) 2022-08-05

Family

ID=72754429

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010475862.5A Active CN111783831B (zh) 2020-05-29 2020-05-29 基于多源多标签共享子空间学习的复杂图像精确分类方法

Country Status (1)

Country Link
CN (1) CN111783831B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232422A (zh) * 2020-10-20 2021-01-15 北京大学 一种目标行人的重识别方法、装置、电子设备和存储介质
CN112464010A (zh) * 2020-12-17 2021-03-09 中国矿业大学(北京) 一种基于贝叶斯网络和分类器链的图像自动标注方法
CN113255791A (zh) * 2021-05-31 2021-08-13 西安电子科技大学 基于k-组合均值特征增强的小样本目标检测方法及系统
CN113255779A (zh) * 2021-05-28 2021-08-13 中国航天科工集团第二研究院 多源感知数据融合识别方法、系统及计算机可读存储介质
CN113378942A (zh) * 2021-06-16 2021-09-10 中国石油大学(华东) 基于多头特征协作的小样本图像分类方法
CN113450267A (zh) * 2021-05-14 2021-09-28 桂林电子科技大学 可快速获取多种自然退化图像复原模型的迁移学习方法
CN113792617A (zh) * 2021-08-26 2021-12-14 电子科技大学 一种结合图像信息和文本信息的图像解译方法
CN113920382A (zh) * 2021-12-15 2022-01-11 深圳大学 基于类一致性结构化学习的跨域图像分类方法和相关装置
CN116070120A (zh) * 2023-04-06 2023-05-05 湖南归途信息科技有限公司 一种多标签时序电生理信号的自动识别方法及系统
CN117349269A (zh) * 2023-08-24 2024-01-05 长江水上交通监测与应急处置中心 一种全流域数据资源治理及交换共享方法及系统
CN117496280A (zh) * 2024-01-03 2024-02-02 安徽大学 基于3d卷积和多标签解码的颅脑ct影像质量控制方法
CN117557844A (zh) * 2023-11-14 2024-02-13 海南师范大学 一种基于数据增强的多模型融合舌像智能分类方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019100723A1 (zh) * 2017-11-24 2019-05-31 华为技术有限公司 训练多标签分类模型的方法和装置
CN109948735A (zh) * 2019-04-02 2019-06-28 广东工业大学 一种多标签分类方法、系统、装置及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019100723A1 (zh) * 2017-11-24 2019-05-31 华为技术有限公司 训练多标签分类模型的方法和装置
CN109948735A (zh) * 2019-04-02 2019-06-28 广东工业大学 一种多标签分类方法、系统、装置及存储介质

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232422A (zh) * 2020-10-20 2021-01-15 北京大学 一种目标行人的重识别方法、装置、电子设备和存储介质
CN112464010A (zh) * 2020-12-17 2021-03-09 中国矿业大学(北京) 一种基于贝叶斯网络和分类器链的图像自动标注方法
CN112464010B (zh) * 2020-12-17 2021-08-27 中国矿业大学(北京) 一种基于贝叶斯网络和分类器链的图像自动标注方法
CN113450267A (zh) * 2021-05-14 2021-09-28 桂林电子科技大学 可快速获取多种自然退化图像复原模型的迁移学习方法
CN113255779A (zh) * 2021-05-28 2021-08-13 中国航天科工集团第二研究院 多源感知数据融合识别方法、系统及计算机可读存储介质
CN113255779B (zh) * 2021-05-28 2023-08-18 中国航天科工集团第二研究院 多源感知数据融合识别方法、系统及计算机可读存储介质
CN113255791B (zh) * 2021-05-31 2022-11-25 西安电子科技大学 基于k-组合均值特征增强的小样本目标检测方法及系统
CN113255791A (zh) * 2021-05-31 2021-08-13 西安电子科技大学 基于k-组合均值特征增强的小样本目标检测方法及系统
CN113378942A (zh) * 2021-06-16 2021-09-10 中国石油大学(华东) 基于多头特征协作的小样本图像分类方法
CN113378942B (zh) * 2021-06-16 2022-07-01 中国石油大学(华东) 基于多头特征协作的小样本图像分类方法
CN113792617B (zh) * 2021-08-26 2023-04-18 电子科技大学 一种结合图像信息和文本信息的图像解译方法
CN113792617A (zh) * 2021-08-26 2021-12-14 电子科技大学 一种结合图像信息和文本信息的图像解译方法
CN113920382A (zh) * 2021-12-15 2022-01-11 深圳大学 基于类一致性结构化学习的跨域图像分类方法和相关装置
CN116070120A (zh) * 2023-04-06 2023-05-05 湖南归途信息科技有限公司 一种多标签时序电生理信号的自动识别方法及系统
CN116070120B (zh) * 2023-04-06 2023-06-27 湖南归途信息科技有限公司 一种多标签时序电生理信号的自动识别方法及系统
CN117349269A (zh) * 2023-08-24 2024-01-05 长江水上交通监测与应急处置中心 一种全流域数据资源治理及交换共享方法及系统
CN117557844A (zh) * 2023-11-14 2024-02-13 海南师范大学 一种基于数据增强的多模型融合舌像智能分类方法
CN117557844B (zh) * 2023-11-14 2024-04-26 海南师范大学 一种基于数据增强的多模型融合舌像智能分类方法
CN117496280A (zh) * 2024-01-03 2024-02-02 安徽大学 基于3d卷积和多标签解码的颅脑ct影像质量控制方法
CN117496280B (zh) * 2024-01-03 2024-04-02 安徽大学 基于3d卷积和多标签解码的颅脑ct影像质量控制方法

Also Published As

Publication number Publication date
CN111783831B (zh) 2022-08-05

Similar Documents

Publication Publication Date Title
CN111783831B (zh) 基于多源多标签共享子空间学习的复杂图像精确分类方法
CN111368896B (zh) 基于密集残差三维卷积神经网络的高光谱遥感图像分类方法
Zhu et al. Multi-attention Meta Learning for Few-shot Fine-grained Image Recognition.
CN106250812B (zh) 一种基于快速r-cnn深度神经网络的车型识别方法
Kang et al. Graph relation network: Modeling relations between scenes for multilabel remote-sensing image classification and retrieval
CN106845510B (zh) 基于深度层级特征融合的中国传统视觉文化符号识别方法
CN109558942B (zh) 一种基于浅度学习的神经网络迁移方法
CN108108657A (zh) 一种基于多任务深度学习的修正局部敏感哈希车辆检索方法
Faraki et al. Fisher tensors for classifying human epithelial cells
CN110033007B (zh) 基于深度姿态预估和多特征融合的行人衣着属性识别方法
CN112733656B (zh) 基于多流空间注意力图卷积sru网络的骨架动作识别方法
CN111259786A (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
CN110633632A (zh) 一种基于循环指导的弱监督联合目标检测和语义分割方法
CN111666843A (zh) 一种基于全局特征和局部特征拼接的行人重识别方法
CN111274869A (zh) 基于并行注意力机制残差网进行高光谱图像分类的方法
CN110647907B (zh) 利用多层分类和字典学习的多标签图像分类算法
CN111080551B (zh) 基于深度卷积特征和语义近邻的多标签图像补全方法
CN112232395B (zh) 一种基于联合训练生成对抗网络的半监督图像分类方法
CN114882521A (zh) 基于多分支网络的无监督行人重识别方法及装置
Menaga et al. Deep learning: a recent computing platform for multimedia information retrieval
CN114548256A (zh) 一种基于对比学习的小样本珍稀鸟类识别方法
Xu et al. Graphical modeling for multi-source domain adaptation
Adnan et al. An improved automatic image annotation approach using convolutional neural network-Slantlet transform
CN112990340B (zh) 一种基于特征共享的自学习迁移方法
Ge et al. Deep spatial attention hashing network for image retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant