CN113535947A - 一种带有缺失标记的不完备数据的多标记分类方法及装置 - Google Patents

一种带有缺失标记的不完备数据的多标记分类方法及装置 Download PDF

Info

Publication number
CN113535947A
CN113535947A CN202110558329.XA CN202110558329A CN113535947A CN 113535947 A CN113535947 A CN 113535947A CN 202110558329 A CN202110558329 A CN 202110558329A CN 113535947 A CN113535947 A CN 113535947A
Authority
CN
China
Prior art keywords
missing
matrix
sample
neighborhood
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110558329.XA
Other languages
English (en)
Inventor
孙林
王天翔
孟慧丽
张艳
齐娜
马媛媛
窦智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan Normal University
Original Assignee
Henan Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan Normal University filed Critical Henan Normal University
Priority to CN202110558329.XA priority Critical patent/CN113535947A/zh
Publication of CN113535947A publication Critical patent/CN113535947A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Educational Administration (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种带有缺失标记的不完备数据的多标记分类方法及装置,属于数据分类技术领域。本发明首先基于邻域粗糙集理论,通过样本之间的差异性和相似性,构造了邻域可辨识和不可辨识矩阵,以此恢复不完备的信息,并得到所恢复信息的特征权重矩阵;然后基样本之间的模糊相似关系,结合模糊相似关系、回归模型以及特征权重矩阵建立考虑特征之间非线性关系的新的目标函数,并通过梯度下降方法对其进行优化求解,从而实现对带有缺失标记的不完备数据的多标记分类。本发明充分考虑了特征之间的非线性关系,大大提高了带有缺失标记的不完备数据的多标记分类的精度和效率。

Description

一种带有缺失标记的不完备数据的多标记分类方法及装置
技术领域
本发明涉及一种带有缺失标记的不完备数据的多标记分类方法及装置,属于数据分类技术领域。
背景技术
近年来,多标记学习吸引了越来越多来自各个领域学者的研究兴趣。多标记学习解决了每个样本同时与多个语义标记相关联的问题。例如,一篇新闻报道可以属于政治,经济学和文化等多个主题。多标记学习的目标是训练一个分类模型,该模型可以为每个未标记的实例分配一组相关的标记。由于其在真实场景中的重要性,目前,已经提出了许多多标记分类的方法,并在各种应用中取得了不错的结果。通常,大多数多标记分类算法可以大致分为问题转换法和算法适应法。问题转换法常常将多标记分类模型转换为一系列单标记分类问题。算法适应法往往基于最大后验概率估计对传统的单标记分类模型进行改进,从而可以应用于多标记数据集。然而,上述方法通常忽略了多标记数据集中标记之间的相关性。
多标记数据集分为完备数据集和不完备数据集。对于完备的多标记数据集,Tsoumakes等在文献(Grigorios Tsoumakas,Ioannis Katakis.Multi-labelclassification:an overview.International Journal of Data Warehousing andMining,2009,3(3):1-13.)中将多标记学习问题转化为一系列的二元分类问题。BR方法在充分利用高性能传统单标记分类方法,这是一种在实践中已广泛使用的简单策略。但是,这种方法需要更多的计算成本,并且忽略了标记之间的相关性,这将影响预测结果。Jesse等在文献(Jesse Read,Bernhard Pfahringer,Geoff Holmes,Eibe Frank.Classifierchains for multi-label classification.Machine Learning,2009,85(3):254-269.)中通过利用标签链,层次聚类和贝叶斯网络结构考虑了高阶标签相关性。然而,该方法并不能较容易地获得标记相关矩阵。甚至在某些情况下,这些假设的结构根本不存在。尽管已经在许多领域设计出了许多完整的多标记数据集的分类方法,但是此类方法存在一个根本的假设,即每个训练实例都给出了一个“完整”的标记集。然而在许多情况下,这种假设很难成立。由于实际环境的复杂性,数据通常可能包含噪音和缺失的特征。早期,以Rubin为代表的学者们提出了四种处理缺失数据的方法:直接删除法,基于插值的方法,基于参数似然的方法和基于加权调整的方法。除了上述四种处理缺失数据的方法外,近年来,随着数据挖掘和分析技术的兴起,基于粗糙集的数据补充方法逐渐受到学者关注,应用最为广泛。在这种情况下,越来越多的专家学者将其应用于不完备数据补全领域,并提出了各种改进策略。段鹏等在文献(段鹏,庄红林,何磊,张寒云.不完备数据分析方法(ROUSTIDA)的改进算法.计算机工程与设计,2009,30(7):1681-1684)中对传统的基于粗糙集的算法进行了改进,以解决缺少属性的对象与任何对象都不相似或与多个对象相似的情况。田树新等在文献(田树新,吴晓平,王红霞.一种基于改进的ROUSTIDA算法的数据补齐方法.海军工程大学学报,2011,23(5):11-15.)中区分了条件属性和决策属性,扩展了传统的基于粗糙集的算法的应用范围,并通过实例说明改进后的算法可以获得更集中的决策规则。但是,上述改进方法不能直接用于处理连续属性。
由于潜在的不可靠的人类标注以及注释者有时可能容易出错,因此获得完全正确的标记实例相对困难。因此,我们获得的数据集通常包含大量的缺失标记。对于不存在缺失标记的多标记数据集,基于深度神经网络模型,Zhang和Zhou等在文献(Zhang Minling,Zhou Zhihua,Multilabel neural networks with applications to functionalgenomics and text categorization.IEEE Transactions on Knowledge and DataEngineering,2006,18(10):1338-1351.)中尝试学习一个新颖的特征空间,然后使用顶部的分类器进行预测。但是,它不适用于小型数据集,并且需要手动设置大量的超参数。另外,一些算法还尝试在学习多标记分类器时自动发现和利用标记相关性。通常,由于多个标签之间可能存在复杂的相关性,因此与传统的单标记分类任务相比,多标记学习更具挑战性。尽管这些方法可以有效地应用于多标记数据集,但是当数据集包含缺失标签时,这些方法的分类性能可能会大大降低。
为了解决这一缺陷,Bi和Kwok在文献(Bi Wei,Kwok James T.Multilabelclassification with label correlations and missing labels.Proceedings of theTwenty-Eighth AAAI Conference on Artificial Intelligence,2014:1680-1686.)提出了一种具有标记相关性的缺失标记多标记学习方法。该方法可以有效地解决含有缺失标记的多标记数据集,并自动学习和构建标记相关性矩阵。但是,它仅考虑二阶,对称的标记正相关性。Zhu等在文献(Zhu Yue,James T.Kwok,Zhihua Zhou.Multi-label learning withglobal and local label correlation.IEEE Transactions on Knowledge and DataEngineering,2018,30:1081-1094.)中设计了一种具有全局和局部标签相关性的多标记分类方法,该方法学习缺失标记的多标记分类并同时利用标记相关性,但它未指定全局和局部标记相关性,而是由标记流形正则化合并。He等在文献(He Zhifen,Yang Ming,GaoYang,Liu Huidong,Yin Yilong.Joint multi-label classification and labelcorrelations with missing labels and feature selection.Knowledge-BasedSystems,2019 163:145-158.)中提出了一种新的具有标记相关性,应用于含有缺失标记数据上的特征选择和多标记分类方法。该方法不仅可以使用独立的二分算法进行联合学习,还可以对多标记分类和标记相关性进行联合学习,但是该方法将多标记分类任务视为几个二分类问题,导致较高的时间消耗。Zhang等在文献(Zhang Changqing,Yu Ziwei,FuHuazhu,Zhu Pengfei,Chen Lei,Hu Qinghua.Hybrid noise-oriented multilabellearning.IEEE Transactions on Cybernetics,2019,99:1-14.)中提出了一种用于混合噪声数据的统一鲁棒多标记学习框架,它可以有效地同时处理具有噪音特征和缺失标记的多标记数据集。但是,现有的处理含有缺失标记的多标记分类算法通常仅限于特征空间中的线性关系,而忽略了属性集中的非线性关系,这可能导致分类能力下降。
发明内容
本发明的目的是提供一种带有缺失标记的不完备数据的多标记分类方法及装置,以解决目前带有缺失标记的不完备数据多标记分类过程中存在的效率低、分类精度不高的问题。
本发明为解决上述技术问题而提供一种带有缺失标记的不完备数据的多标记分类方法,该分类方法包括以下步骤:
1)获取含有缺失标记的不完备多标记数据集,并计算数据集中每个样本在每个特征上的邻域半径,得到一个不完备多标记邻域决策系统;
2)根据得到的邻域半径,通过样本之间差异性和相似性计算邻域可辨识矩阵和邻域不可辨识矩阵;
3)基于邻域可辨识矩阵和邻域不可辨识矩阵,确定样本之间的相似度,由此恢复不完备的信息,并得到所恢复信息的特征权重矩阵;
4)根据所述的特征权重矩阵,并结合邻域模糊集和线性回归模型构造新的目标函数;
5)采用交替梯度下降策略对新的目标函数进行优化求解,以实现对含有缺失标记的不完备数据的多标记分类。
本发明还提供了一种带有缺失标记的不完备数据的多标记分类装置,该装置包括处理器和存储器,所述处理器执行由所述存储器存储的计算机程序,以实现本发明所述的带有缺失标记的不完备数据的多标记分类方法。
本发明首先基于邻域粗糙集理论,通过样本之间的差异性和相似性,构造了邻域可辨识和不可辨识矩阵,以此恢复不完备的信息,并得到所恢复信息的特征权重矩阵;然后基样本之间的模糊相似关系,结合模糊相似关系、回归模型以及特征权重矩阵建立考虑特征之间非线性关系的新的目标函数,并通过梯度下降方法对其进行优化求解,从而实现对带有缺失标记的不完备数据的多标记分类。本发明充分考虑了特征之间的非线性关系,大大提高了带有缺失标记的不完备数据的多标记分类的精度和效率。
进一步地,减少邻域集中样本数量不平衡的状况同时减少手动设置的时间消耗,所述步骤1)中邻域半径的计算公式为:
Figure BDA0003078138500000051
其中,δa′(xi)为样本xi在属性a上的邻域半径,mean(a)是属性a中所有未缺失属性的平均值,fa表示属性a中所谓未缺失属性的密度函数,max(fa)是密度函数fa的最大值,fa(xi)表示样本xi在属性a上所对应的密度函数值。
进一步地,所述的特征权重矩阵为:
Figure BDA0003078138500000052
其中,Iter代表用于恢复样本xi的第j个特征所用的迭代次数,Itermax表示最大迭代次数。
进一步地,所述步骤4)中建立的新的目标函数为:
Figure BDA0003078138500000053
Figure BDA0003078138500000054
其中α,β,γ和λ是超参数,X∈Rm×n为样本集,Y∈Rt×n为标记集,B∈Rt×t和W∈Rt×m分别是标记相关性矩阵和特定标记特征矩阵,||W||2和||B||2分别是矩阵W和矩阵B的l-2正则项,Tr(BYL1YTBT)是矩阵BYL2YTBT的迹,L2=D2-S是一个拉普拉矩阵,S是模糊相似矩阵,D2是一个对角矩阵,且有
Figure BDA0003078138500000061
sij表示样本xi和样本xj之间的模糊相似度,C表示特征权重矩阵,wi和wj分别表示矩阵W的第i列和第j列的值,bij表示矩阵B中第i行第j列的值,⊙表示哈达玛积。
进一步地,为提高计算效率,所述步骤5)在求解过程中将新的目标函数划分成W子问题和B子问题,在求解W子问题时,固定B更新W,计算新的目标函数转换成关于W的偏导数,并按照变量W的迭代梯度下降策略进行求解;在求解B子问题时,固定W更新B,计算新的目标函数转换成关于B的偏导数,并按照变量B的迭代梯度下降策略进行求解。
所述步骤3)的实现过程如下:
a.计算样本的差异性和样本的相似性;
b.确定缺失属性集合和缺失属性的对象集合;
c.根据缺失属性集合和缺失属性的对象集合确定按照样本差异性升序排列的集合以及按照样本相似性降序排列的集合;
d.利用样本差异性升序排列的集合与样本相似性降序排列的集合中共有样本的特征均值作为缺失特征的恢复值。
进一步地,所述步骤a中样本的差异性和样本的相似性的计算公式分别为:
Figure BDA0003078138500000062
Figure BDA0003078138500000063
其中NS(xi,xj)表示样本xi和xj的差异性,B为属性集,ak∈B,ak为样本的属性,M为邻域可辨识矩阵,PS(xi,xj)表示样本xi和xj的邻域相似度,
Figure BDA0003078138500000064
表示样本xi和xj在属性a的邻域半径内的相似性。
进一步地,所述步骤b中的缺失属性集合为:
MASi={ak|ak(xi)=*,k=1,…,m},
其中ak为样本的第k个属性,xi和表示样本,符号*代表缺失的特征。
进一步地,所述步骤b中的缺失属性的对象集合为:
Figure BDA0003078138500000071
其中MASi表示缺失属性集合,
Figure BDA0003078138500000072
表示空集。
附图说明
图1是本发明带有缺失标记的不完备数据的多标记分类方法的流程图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步地说明。
方法实施例
在对本发明的具体实施步骤进行介绍之前,先对本发明所用到的一些基础知识进行介绍,主要是对邻域粗糙集和邻域模糊集的介绍。
邻域粗糙集
给定一个不完备邻域决策系统INDS=<U,C,D,V,f,Δ,δ>,其中U={x1,x2,…,xm}表示样本全集;C和D分别表示条件属性和决策类;V=∪a∈ATVa,且Va是属性a的值域;f是一个信息函数并满足映射关系f:U×{C∪D}→V,f(a,x)是样本x在属性a上的值;符号‘*’代表缺失的特征,Δ是一个距离函数;0≤δ≤1是邻域参数。这个不完备邻域决策系统可简写为INDS=<U,C,D,δ>。则样本x在属性集B上的邻域内样本集合可以表示为:
δB(x)={y|x,y∈U,ΔB(x,y)≤δ,δ≥0}, (1)
其中
Figure BDA0003078138500000073
表示欧式距离,N是特征集合B中的特征数目。
给定一个不完备邻域决策系统INDS=<U,C,D,δ>,对于任意的
Figure BDA0003078138500000074
和B=BC∪BN,其中BC是决策属性集合,BN是特征属性集合,则在特征集B上的邻域容差关系可以表示为:
Figure BDA0003078138500000081
对于任意x∈U和
Figure BDA0003078138500000082
则邻域容差类可以表示为:
Figure BDA0003078138500000083
邻域模糊集
假设NDS=<U,C,D,V,f,Δ,δ>是一个邻域决策系统。U={x1,x2,…,xm}是样本集合,C和D分别表示条件属性集合决策类。Va是属性a的值域,且V=∪a∈ATVa。f是一个映射函数,且有f:U×{C∪D}→V,f(a,x)是样本x在属性值a上的取值。Δ表示距离函数,δ表示邻域参数,且0≤δ≤1。该邻域决策系统之后简写为NDS=<U,C,D,f>。
给定一个邻域决策系统NDS=<U,C,D,f>,a∈C,其中δ为模糊邻域半径参数,表示样本的相似性。之后对于任意两个样本x,y∈U,其在属性a上的模糊邻域相似关系以表示为:
Figure BDA0003078138500000084
对于任意
Figure BDA0003078138500000085
x,y∈U,在全集U上包含模糊二元关系RB,则RB分别满足自反性和对称性,即
(1)RB(x,x)=1,其中x∈U;
(2)RB(x,y)=RB(y,x),其中x,y∈U.
给定一个邻域决策系统NDS=<U,C,D,f>,对于任意
Figure BDA0003078138500000086
x,y∈U,样本x相对于B的参数化模糊邻域信息颗粒表示为:
Figure BDA0003078138500000087
本发明在上述技术的基础上,首先通过样本之间的差异和相似性构造邻域可识别和不可辨别的矩阵,并基于目标样本与邻域可识别矩阵中的样本之间的差异应尽可能大,目标样本与样本中的样本之间的相似性应尽可能大,邻域不可辨识矩阵应尽可能大的原则进行特征恢复;然后基于高斯核函数对模糊相似关系进行改进,使其可以考虑特征之间的非线性关系。然后,将模糊相似关系与线性回归模型相结合,构造了一个新的损失函数,并采用梯度下降法对其进行了优化。本发明的分类方法除了能够针对文本数据外,还可以有效应用在图像,生物,音乐等领域上。该方法的实现过程如图1所示,具体实施步骤如下:
1.获取含有缺失标记的不完备多标记数据集。
本实施例中获取的含有缺失标记的不完备多标记数据集可以是文本数据集,也可以是其他类型的数据集。
2.计算数据集中每个样本在每个特征上的邻域半径,得到一个不完备多标记邻域决策系统。
假定一个不完备多标记决策系统IMDS=<U,C,D,V,f>,有
Figure BDA0003078138500000091
对于任意的xi∈U,a∈B,样本xi在属性a上的邻域半径计算方式如下:
Figure BDA0003078138500000092
其中mean(a)是属性a中所有未缺失属性的平均值,fa表示属性a中所谓未缺失属性的密度函数,max(fa)是密度函数fa的最大值,fa(xi)表示样本xi在属性a上所对应的密度函数值。
根据得到的每个样本在每个特征上的邻域半径,可以得到一个不完备多标记邻域决策系统IMNDS=<U,C,D,V,f,δ'>。
3.根据得到的邻域半径,通过样本之间差异性和相似性计算邻域可辨识矩阵和邻域不可辨识矩阵。
对于不完备多标记邻域决策系统IMNDS=<U,C,D,V,f,δ'>而言,有
Figure BDA0003078138500000093
对于任意的ak∈B,xi,xj∈U,δ'ak(xi)表示样本xi在属性ak上的邻域半径,则邻域可辨识矩阵M的定义如下:
Figure BDA0003078138500000101
其中,i,j=1,2,…,|U|;“*”表示缺失的属性值;nδ'{a}表示样本x在属性a上的邻域内样本集合,且nδ'{a}(x)={y∈U|Δ{a}(x,y)≤δ'a(x)∧a(y)≠*}。
对于一个不完备多标记邻域决策系统IMNDS=<U,C,D,V,f,δ'>,有
Figure BDA0003078138500000102
对于任意xi∈U,a∈B,δ'a(xi)表示表示样本xi在属性a上的邻域半径,ma={x∈U|a(x)≠*}是属性a上的非空样本集,对于任意x,y∈U,a∈B,样本x和y的相似性表示如下:
Figure BDA0003078138500000103
其中,Δ{a}(x,y)表示样本x和y在属性a上的距离。
对于不完备多标记邻域决策系统IMNDS=<U,C,D,V,f,δ'>,有
Figure BDA0003078138500000104
对于任意xi,xj∈U,则样本xi和样本xj的不可辨识度表示如下:
Figure BDA0003078138500000105
从中可以看出,当NS(xi,xj)包含更多特征时,样本xi和xj的可辨识性更强,也就是说,两个样本更有可能是异类的。
4.基于邻域可辨识矩阵和邻域不可辨识矩阵,确定样本之间的相似度,并由此确定恢复不完备的信息的特征权重矩阵。
给定一个不完备多标记邻域决策系统IMNDS=<U,C,D,V,f,δ'>,有
Figure BDA0003078138500000106
对于任意两个样本xi,xj∈U,则样本xi和xj的邻域相似度可以表示如下:
Figure BDA0003078138500000107
当PS(xi,xj)的值越大时,样本xi和xj之间的相似度更大,也就是说,这两个样本更有可能是同类的。
缺失属性集合和缺失属性的对象集合可以分别表示为:
MASi={ak|ak(xi)=*,k=1,…,m}, (11)
Figure BDA0003078138500000111
缺失的特征无法在一次迭代中完全恢复,它将需要数次迭代才能完成恢复。特征恢复得越早,该特征的置信度就越高,反之亦然。鉴于上述情况,本发明构造了一个特征权重矩阵,即特征恢复越早,其所占权重就越高。
对于一个不完备多标记邻域决策系统IMNDS=<U,C,D,V,f,δ'>,对于任意xi∈MOS,aj(xi)∈MASi,则特征权重矩阵C的计算方式如下:
Figure BDA0003078138500000112
其中,Iter代表用于恢复样本xi的第j个特征所用的迭代次数,Itermax表示最大迭代次数。
缺失特征补全和特征权重矩阵的求解的算法流程如下:
Figure BDA0003078138500000113
Figure BDA0003078138500000121
5.结合邻域模糊集和线性回归模型构造新的目标函数。
现有的大多数处理缺失标记的多标记分类方法都是基于线性模型构建的,但是其很难在数据空间中找到特征之间的非线性关系,进而影响分类的精度。为此,本发明基于模糊相似关系,采用高斯核函数和回归模型进行缺失标记多标记分类,以进一步挖掘数据空间中的非线性关系。
给定一个含有缺失标记的多标记邻域决策系统MNDS=<U,C,D,δ'>,其中
Figure BDA0003078138500000122
B={f1,f2,…,fm},
Figure BDA0003078138500000123
L={l1,l2,…,lt}。对于任意xi,xj∈U,则样本xi和样本xj在B上的模糊相似关系可以表示为:
Figure BDA0003078138500000124
其中,
Figure BDA0003078138500000125
ΠB(xi,xj)是通过高斯核函数将样本xi和xj从原始特征空间中的映射到高维特征空间的距离。
ΠB(xi,xj)=|KB(xi,xi)+KB(xj,xj)-2KB(xi,xj)|, (15)
其中KB(xi,xj)表示样本xi和xj在特征空间B上的高斯内积,
Figure BDA0003078138500000126
Figure BDA0003078138500000127
且0≤K(xi,xj)≤1,0≤ΠB(xi,xj)≤2,其中
Figure BDA0003078138500000128
假设U是全体样本集合,给定一个训练集
Figure BDA0003078138500000129
对于任意xi,xj∈X,则模糊相似矩阵S中样本xi和xj的模糊相似度为:
S(i,j)=RB(xi,xj), (16)
其中S是一个n维方阵表示任意两个样本之间的模糊相似度,显然S是一个对称矩阵,即S(i,j)=S(j,i),且其主对角线的值为0,即S(i,i)=0。
给定一个训练数据集X∈Rm×n和其对应的标记集Y∈Rt×n,B∈Rt×t和W∈Rt×m分别是标记相关性矩阵和特定标记特征矩阵,则一个通用的目标函数可以写成:
Figure BDA00030781385000001210
其中L(·,·)和R(·)分别是损失函数和正则化函数,λ是超参数。
给定一个训练标记集矩阵Y∈Rt×n和一个标记相关性矩阵B∈Rt×t。为了保证原始标记矩阵和恢复标记矩阵之间的一致性:
Figure BDA0003078138500000131
其中yi∈Rt×1是属于训练样本xi的标记向量,||Y-BY||F表示矩阵Y-BY的Frobenius范数。
给定一个特征标记特征矩阵W∈Rt×m和一个标记相关性矩阵B∈Rt×t。为了确保标记之间的相似度越高,特征权重就越近。设计了一个方程:
Figure BDA0003078138500000132
其中bij表示标记i和标记j之间的相似度,wi和wj分别表示标记i和标记j所对应的模型的权重。L1=D1-B是图拉普拉斯矩阵,D1是一个对角矩阵,且有
Figure BDA0003078138500000133
Figure BDA0003078138500000134
给定一个训练样本集X∈Rm×n和其对应的标记集Y∈Rt×n,B∈Rt×t和W∈Rt×m分别是标记相关性矩阵和特定标记特征矩阵,新的目标函数可以写作:
Figure BDA0003078138500000135
其中β,γ和λ是超参数。
给定一个训练样本集X∈Rm×n和其对应的标记集Y∈Rt×n,B∈Rt×t和W∈Rt×m分别是标记相关性矩阵和特定标记特征矩阵,对于任意两个训练样本xi,xj∈X,当其具有高度相似性时,应确保相对于xi和xj的恢复标记向量应更接近。然后,将特征向量与恢复标记向量之间的一致性设计为:
Figure BDA0003078138500000136
其中Tr(BYL1YTBT)是矩阵BYL2YTBT的迹,sij的计算方式见公式(16)表示样本xi和样本xj之间的模糊相似度,L2=D2-S是一个拉普拉矩阵,S是模糊相似矩阵,D2是一个对角矩阵,且有
Figure BDA0003078138500000137
给定一个训练样本集X∈Rm×n和其对应的标记集Y∈Rt×n,B∈Rt×t和W∈Rt×m分别是标记相关性矩阵和特定标记特征矩阵,一个新的目标函数可以写作:
Figure BDA0003078138500000138
其中α,β,γ和λ是超参数,||W||2和||B||2分别是矩阵W和矩阵B的l-2正则项。
给定一个不完备训练样本集X∈Rm×n和其对应的标记集Y∈Rt×n,B∈Rt×t和W∈Rt×m分别是标记相关性矩阵和特定标记特征矩阵,考虑到缺失特征的情况,新的目标函数可以写作:
Figure BDA0003078138500000141
其中⊙表示哈达玛积,C是基于公式(13)计算出来的权重矩阵。
6.优化求解目标函数
在对新的目标函数(公式23)优化求解过程中有两个变量W和B,同时由于该目标函数是凸的,因此,本发明采用交替梯度下降策略对目标函数进行优化,将优化问题分为两个子问题,即W子问题和B子问题,即可以选择优化一个变量,同时将另一个变量固定为常量。其具体优化过程如下:
W子问题,固定B更新W,则目标函数L(W,B)关于W的偏导数可以写成:
Figure BDA0003078138500000142
其中⊙表示哈达玛积,之后对变量W的迭代梯度下降策略可以写成:
Figure BDA0003078138500000143
其中lr是超参数,表示学习速率。
B子问题,固定W更新B,则目标函数则目标函数L(W,B)关于B的偏导数可以写成:
Figure BDA0003078138500000144
其中⊙表示哈达玛积,之后对变量B的迭代梯度下降策略可以写成:
Figure BDA0003078138500000145
其中lr是超参数,表示学习速率。
通过上述方式可以实现对W和B的优化求解,从而可以实现对多标记数据集的分类。
装置实施例
本发明的带有缺失标记的不完备数据的多标记分类装置,包括处理器和存储器,所述处理器执行由所述存储器存储的计算机程序,以实现本发明实现上述方法实施例的方法。也就是说,以上方法实施例中的方法应理解可由计算机程序指令实现带有缺失标记的不完备数据的多标记分类方法的流程。可提供这些计算机程序指令到处理器,使得通过处理器执行这些指令产生用于实现上述方法流程所指定的功能。
本实施例所指的处理器是指微处理器MCU或可编程逻辑器件FPGA等的处理装置;本实施例所指的存储器包括用于存储信息的物理装置,通常是将信息数字化后再以利用电、磁或者光学等方式的媒体加以存储。例如:利用电能方式存储信息的各式存储器,RAM、ROM等;利用磁能方式存储信息的的各式存储器,硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘;利用光学方式存储信息的各式存储器,CD或DVD。当然,还有其他方式的存储器,例如量子存储器、石墨烯存储器等等。
通过上述存储器、处理器以及计算机程序构成的装置,在计算机中由处理器执行相应的程序指令来实现,处理器可以搭载各种操作系统,如windows操作系统、linux系统、android、iOS系统等。
作为其他实施方式,装置还可以包括显示器,显示器用于将分类结果展示出来,以供工作人员参考。
实验验证
为了进一步地验证本发明的效果,下面将本发明与现有的四个经典的多标记分类算法进行比较。
(1)实验准备。
本次选择四个多标签文本类数据集进行实验,数据集的具体描述如表3所示。数据集可以下载http://mulan.sourceforge.net/datasets.html。为了评估本发明提出算法的有效性,将其与四个经典的多标记分类算法进行了比较,Zhang等人撰写的《Hybrid noise-oriented multilabel learning》(IEEE Transactions on Cybernetics,2019,99:1-14)(简写为HNOML),Furnkranz等人撰写的《Multilabel classification via calibratedlabel ranking》(Machine Learning,2008,73(2):133-153)(简写为CLR),Zhang和Zhou撰写的《ML-KNN:A lazy learning approach to multi-label learning》(PatternRecognition,2007,40(7):2038-2048)(简写为ML-kNN)和Read等人《Classifier chainsfor multi-label classification》(Machine Learning,2009,85(3):254-269)(简写为ECC)。这些实验基于具有3.00GHz处理器和8.00GB内存空间的Windows 10,在MATLAB 2016b平台上运行。
表3
Figure BDA0003078138500000161
(2)实验设置
本实验选取Average Precision(AP),Coverage(CV),Hamming Loss(HL),RankingLoss(RL),One Error(OE)这五种评价指标来分析和度量实验结果。
Average Precision(AP):用于考察所有样本的预测标记排序中,排在隶属于该样本标记前面的标记仍属于该样本标记的概率的平均,定义为:
Figure BDA0003078138500000162
其中,Ri={l|Yil=+1}表示与样本xi相关的标记构成的集合,Ri={l|Yil=-1}表示与样本xi不相关的标记构成的集合。
Coverage(CV):用于度量平均每个样本需要查找多少步才能遍历所有与该样本相关的标记,定义如下:
Figure BDA0003078138500000163
Hamming Loss(HL):用来度量样本在单个类别标记上的误分类的情况,定义为:
Figure BDA0003078138500000164
其中
Figure BDA0003078138500000171
表示异或操作。
Ranking Loss(RL):用来考察所有样本的不相关标记的排序排在相关标记前面的概率的平均,定义为:
Figure BDA0003078138500000172
One Error(OE):表示样本类标记排序中,排在前面的标记但不属于相关标记结合的概率:
Figure BDA0003078138500000173
其中,Ri={l|Yil=+1}表示与样本xi相关标记构成的集合,Ri={l|Yil=-1}表示样本xi不相关的标记构成的集合。
以上5种评价指标中,指标AP的取值越大,表示分类性能越好;指标CV、HL、RL和OE的越小,表示分类性能越好。
(3)实验比较
将本发明与其他四个多标记分类算法在文本类数据集Education、Recreation、Medical和Arts上进行比较,评价指标有Average Precision(AP),Coverage(CV),HammingLoss(HL),Ranking Loss(RL)和One Error(OE)。我们每次试验均采用五折交叉验证,所得的均值和方差记录在表中4。
表4
Figure BDA0003078138500000174
Figure BDA0003078138500000181
从表4中可以看出,本发明所提的方法(MCGDO)除了在数据集Recreation的OE指标下略次于HNOML,在数据集Medical的HL指标下略次于HNOML和ECC,在其余情况下均表现最优,综上所述,本发明所提的MCGDO算法具有良好的分类性能。

Claims (10)

1.一种带有缺失标记的不完备数据的多标记分类方法,其特征在于,该分类方法包括以下步骤:
1)获取含有缺失标记的不完备多标记数据集,并计算数据集中每个样本在每个特征上的邻域半径,得到一个不完备多标记邻域决策系统;
2)根据得到的邻域半径,通过样本之间差异性和相似性计算邻域可辨识矩阵和邻域不可辨识矩阵;
3)基于邻域可辨识矩阵和邻域不可辨识矩阵,确定样本之间的相似度,由此恢复不完备的信息,并得到所恢复信息的特征权重矩阵;
4)根据所述的特征权重矩阵,并结合邻域模糊集和线性回归模型构造新的目标函数;
5)采用交替梯度下降策略对新的目标函数进行优化求解,以实现对含有缺失标记的不完备数据的多标记分类。
2.根据权利要求1所述的带有缺失标记的不完备数据的多标记分类方法,其特征在于,所述步骤1)中邻域半径的计算公式为:
Figure FDA0003078138490000011
其中,δ′a(xi)为样本xi在属性a上的邻域半径,mean(a)是属性a中所有未缺失属性的平均值,fa表示属性a中所谓未缺失属性的密度函数,max(fa)是密度函数fa的最大值,fa(xi)表示样本xi在属性a上所对应的密度函数值。
3.根据权利要求1所述的带有缺失标记的不完备数据的多标记分类方法,其特征在于,所述的特征权重矩阵为:
Figure FDA0003078138490000012
其中,Iter代表用于恢复样本xi的第j个特征所用的迭代次数,Itermax表示最大迭代次数。
4.根据权利要求3所述的带有缺失标记的不完备数据的多标记分类方法,其特征在于,所述步骤4)中建立的新的目标函数为:
Figure FDA0003078138490000021
Figure FDA0003078138490000022
其中α,β,γ和λ是超参数,X∈Rm×n为样本集,Y∈Rt×n为标记集,B∈Rt×t和W∈Rt×m分别是标记相关性矩阵和特定标记特征矩阵,||W||2和||B||2分别是矩阵W和矩阵B的l-2正则项,Tr(BYL1YTBT)是矩阵BYL2YTBT的迹,L2=D2-S是一个拉普拉矩阵,S是模糊相似矩阵,D2是一个对角矩阵,且有
Figure FDA0003078138490000023
sij表示样本xi和样本xj之间的模糊相似度,C表示特征权重矩阵,wi和wj分别表示矩阵W的第i列和第j列的值,bij表示矩阵B中第i行第j列的值,⊙表示哈达玛积。
5.根据权利要求4所述的带有缺失标记的不完备数据的多标记分类方法,其特征在于,所述步骤5)在求解过程中将新的目标函数划分成W子问题和B子问题,在求解W子问题时,固定B更新W,计算新的目标函数转换成关于W的偏导数,并按照变量W的迭代梯度下降策略进行求解;在求解B子问题时,固定W更新B,计算新的目标函数转换成关于B的偏导数,并按照变量B的迭代梯度下降策略进行求解。
6.根据权利要求3所述的带有缺失标记的不完备数据的多标记分类方法,其特征在于,所述步骤3)的实现过程如下:
a.计算样本的差异性和样本的相似性;
b.确定缺失属性集合和缺失属性的对象集合;
c.根据缺失属性集合和缺失属性的对象集合确定按照样本差异性升序排列的集合以及按照样本相似性降序排列的集合;
d.利用样本差异性升序排列的集合与样本相似性降序排列的集合中共有样本的特征均值作为缺失特征的恢复值。
7.根据权利要求6所述的带有缺失标记的不完备数据的多标记分类方法,其特征在于,所述步骤a中样本的差异性和样本的相似性的计算公式分别为:
Figure FDA0003078138490000031
Figure FDA0003078138490000032
其中NS(xi,xj)表示样本xi和xj的差异性,B为属性集,ak∈B,ak为样本的属性,M为邻域可辨识矩阵,PS(xi,xj)表示样本xi和xj的邻域相似度,
Figure FDA0003078138490000033
表示样本xi和xj在属性a的邻域半径内的相似性。
8.根据权利要求6所述的带有缺失标记的不完备数据的多标记分类方法,其特征在于,所述步骤b中的缺失属性集合为:
MASi={ak|ak(xi)=*,k=1,…,m},
其中ak为样本的第k个属性,xi和表示样本,符号*代表缺失的特征。
9.根据权利要求6所述的带有缺失标记的不完备数据的多标记分类方法,其特征在于,所述步骤b中的缺失属性的对象集合为:
Figure FDA0003078138490000034
其中MASi表示缺失属性集合,
Figure FDA0003078138490000035
表示空集。
10.一种带有缺失标记的不完备数据的多标记分类装置,其特征在于,该装置包括处理器和存储器,所述处理器执行由所述存储器存储的计算机程序,以实现如上述权利要求1-9任一项所述的带有缺失标记的不完备数据的多标记分类方法。
CN202110558329.XA 2021-05-21 2021-05-21 一种带有缺失标记的不完备数据的多标记分类方法及装置 Pending CN113535947A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110558329.XA CN113535947A (zh) 2021-05-21 2021-05-21 一种带有缺失标记的不完备数据的多标记分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110558329.XA CN113535947A (zh) 2021-05-21 2021-05-21 一种带有缺失标记的不完备数据的多标记分类方法及装置

Publications (1)

Publication Number Publication Date
CN113535947A true CN113535947A (zh) 2021-10-22

Family

ID=78094704

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110558329.XA Pending CN113535947A (zh) 2021-05-21 2021-05-21 一种带有缺失标记的不完备数据的多标记分类方法及装置

Country Status (1)

Country Link
CN (1) CN113535947A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114266277A (zh) * 2021-12-27 2022-04-01 四川大学 一种电能质量扰动分类方法
CN114970775A (zh) * 2022-07-29 2022-08-30 国家国防科技工业局军工项目审核中心 基于聚类的军工集团人员信息标签化方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114266277A (zh) * 2021-12-27 2022-04-01 四川大学 一种电能质量扰动分类方法
CN114970775A (zh) * 2022-07-29 2022-08-30 国家国防科技工业局军工项目审核中心 基于聚类的军工集团人员信息标签化方法
CN114970775B (zh) * 2022-07-29 2023-04-18 国家国防科技工业局军工项目审核中心 基于聚类的军工集团人员信息标签化方法

Similar Documents

Publication Publication Date Title
Wang et al. Parameter-free weighted multi-view projected clustering with structured graph learning
Liu et al. Supervised hashing with kernels
Chen et al. Semi-supervised learning via regularized boosting working on multiple semi-supervised assumptions
US20140015855A1 (en) Systems and methods for creating a semantic-driven visual vocabulary
Yuan et al. A semi-supervised learning algorithm via adaptive Laplacian graph
CN113535947A (zh) 一种带有缺失标记的不完备数据的多标记分类方法及装置
Amiri et al. Automatic image annotation using semi-supervised generative modeling
Wu et al. Semi-supervised feature selection with minimal redundancy based on local adaptive
Qian et al. A survey on multi-label feature selection from perspectives of label fusion
Qin et al. Deep top similarity hashing with class-wise loss for multi-label image retrieval
Zhang et al. Non-parameter clustering algorithm based on saturated neighborhood graph
Lampert et al. Structured prediction by joint kernel support estimation
Caragea et al. Semi-supervised prediction of protein subcellular localization using abstraction augmented Markov models
CN117349494A (zh) 空间图卷积神经网络的图分类方法、系统、介质及设备
Hong et al. A mixtures-of-trees framework for multi-label classification
Yu et al. Enhancing Label Correlations in multi-label classification through global-local label specific feature learning to Fill Missing labels
Yu et al. Cross-modal subspace learning via kernel correlation maximization and discriminative structure-preserving
Singh et al. Meta-DZSL: a meta-dictionary learning based approach to zero-shot recognition
Li et al. Learning discriminative sufficient statistics score space for classification
Gabryel et al. The bag-of-words method with dictionary analysis by evolutionary algorithm
Galanakis et al. Nearest Neighbor-Based Data Denoising for Deep Metric Learning
Li et al. Learning with feature network and label network simultaneously
Mu et al. Multi-similarity contrastive learning
Dhall Learning representations for images with hierarchical labels
CN114219047B (zh) 一种基于伪标签筛选的异构域自适应方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination