CN114117040A - 基于标签特定特征和相关性的文本数据多标签分类方法 - Google Patents

基于标签特定特征和相关性的文本数据多标签分类方法 Download PDF

Info

Publication number
CN114117040A
CN114117040A CN202111315298.1A CN202111315298A CN114117040A CN 114117040 A CN114117040 A CN 114117040A CN 202111315298 A CN202111315298 A CN 202111315298A CN 114117040 A CN114117040 A CN 114117040A
Authority
CN
China
Prior art keywords
label
tree
labels
space
correlation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111315298.1A
Other languages
English (en)
Inventor
王进
梁晨
罗杰
孟钰颖
孙开伟
方阳
邓欣
朴昌浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Hongyue Enterprise Management Consulting Co ltd
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202111315298.1A priority Critical patent/CN114117040A/zh
Publication of CN114117040A publication Critical patent/CN114117040A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明请求保护一种基于标签特定特征和标签相关性的文本数据多标签分类方法,包括:101对文本数据进行预处理,结合实例标签空间和特征空间构造新的实例特征空间;102对正负实例特征空间计算聚类个数,并构造标签特定特征;103对文本数据集中成对标签计算相关性,构造标签间相关性无向完全图;104采用扩展Kruskal算法在图中计算最大生成树集合;105从树集合中依次选择生成树,并从根节点开始使用二分类器在树上进行递归预测,对预测结果进行树上集成得出文本实例标签集。本发明能够有效的抑制预测过程中的误差传递问题,并且采用树集合集成预测,能够有效的利用标签集合间不同的相关性,进一步提高多标签分类的性能。

Description

基于标签特定特征和相关性的文本数据多标签分类方法
技术领域
本发明属于机器学习、数据挖掘领域,具体涉及一种基于标签特定特征和标签相关性的文本数据多标签分类方法。
背景技术
现实世界中的实例往往包含多个标签,比如一张图片可能同时包含人与动物,一则新闻报道也可能同时包含政治和经济两种类别,然而采用人工对实例进行分类需要耗费大量的人力资源。文本数据多标签学习的任务从已知实例与标签集中学习,来预测文本数据实例的标签集合。
在现有的多标签分类技术中,通常采用标签特定特征多标签学习方法(Multi-label Learning with Label-Specific Features,简称LIFT)以及基于聚类集成的标签特定特征多标签学习方法(Multi-Label Learning with Label-Specific Features viaClustering Ensemble,简称LIFTACE),在LIFT和LIFTACE方法中通过对实例特征空间进行聚类,通过欧式距离度量来构造标签特定特征;然后通过而二分类器结合特的特征对实例进行多次分类。但是上述两种方法都未能在聚类以及分类阶段考虑标签相关性,使用标签相关性能够有效提升多标签分类的性能,例如包含标签海洋的图片,那么图片包含沙滩的可能性则会大大增加。本发明在传统标签特定特征的基础上,在构造标签特定特征阶段同时使用标签空间和特征空间,在分类阶段通过量化标签间相关性构建标签相关性无向完全图,同时结合扩展Kruskal算法挖掘图中最大生成树集合,对集合中的生成树进行重构,通过树集成在抑制误差传递的同时表达标签间多种不同结构的强相关性,对提高文本数据多标签分类的准确性有重要意义。
经过检索,现有技术中,CN107133293A,一种适用于多标签分类的ML-kNN改进方法,其特征在于,包括如下步骤:步骤1:获取原始数据集,该原始数据集包括多条样本,其中每条样本具有多类标签和多类特征,在该原始数据集中统计每类标签的样本总数,作为标签样本数,在每类标签的样本中统计每类特征的样本总数,作为特征样本数,并根据该标签样本数和该特征样本数计算特征标签权重,其中每个特征对应一个特征值;步骤2:将该原始数据集中每条样本拆分为多个具有单一标签的原始单标签样本,并根据该特征标签权重对每条该原始单标签样本的特征值进行更新,生成第一数据集;步骤3:获取待预测的待测样本,将待测样本拆分为具有单一标签的待测单标签样本,根据该第一数据集依次对该待测单标签样本的标签进行预测,确定该待测样本的标签集合。
该方法基于ML-kNN将多标签数据集拆分为多个单标签数据集进行分类预测,使用特征值加权后的特征空间根据kNN来生成标签集,但是在预测过程中多个标签之间的预测并没有关联,也就是并没有考虑标签相关性;除此之外该方法采用kNN算法在预测的过程中并不稳定,不同的k值对预测结果会造成较大的影响。本方法同时在聚类和分类的过程中考虑标签间相关性,结合树集成生成实例的标签集,使得预测结果更加稳定准确。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种提高准确率的基于标签特定特征和相关性的文本数据多标签分类方法。本发明的技术方案如下:
一种基于标签特定特征和相关性的文本数据多标签分类方法,其包括以下步骤:
101、对文本数据进行预处理,结合实例标签空间和特征空间构造新的实例特征空间;
102、对正负实例特征空间计算聚类个数,并构造标签特定特征;
103、对文本数据集中成对标签计算相关性,构造标签间相关性无向完全图;
104、采用扩展Kruskal算法在标签间相关性无向完全图中计算最大生成树集合;
105、从树集合中依次选择生成树,并从根节点开始使用二分类器在树上进行递归预测,对预测结果进行树上集成得出文本实例标签集。
进一步的,所述步骤101文本数据预处理为:对正负实例数据集将特征空间与标签空间合并,使得多个剩余标签补充特征空间构造正负实例特征空间
Figure BDA0003343454850000031
Figure BDA0003343454850000032
Figure BDA0003343454850000033
其中D={(xi,Yi)|1≤i≤n}表示多标签数据集,xi表示第i个实例的原始特征空间,Yi表示第i个实例关联的多标签集合。
进一步的,所述步骤102对正负实例特征空间计算聚类个数,并构造标签特定特征,具体步骤为:
1021.为将正负实例特征转换为标签特定特征,首先根据特征空间计算标签特定特征空间大小,为防止特征空间过大造成标签特定特征维度爆炸,取正负空间大小中较小值,并使用对数对其进行缩放,最终得出聚类个数mk
Figure BDA0003343454850000034
1022.采用K-MEANS算法对正负实例空间进行聚类,将原始特征空间向量与聚类中心点结合聚类点个数进行度量,从原始的d维空间
Figure BDA0003343454850000035
映射到一个dk维度的标签特定特征空间
Figure BDA0003343454850000036
Figure BDA0003343454850000037
其中
Figure BDA0003343454850000038
表示第i个实例对应的标签特定特征,
Figure BDA0003343454850000039
为欧式距离,
Figure BDA00033434548500000310
分别表示正负聚类中心点,C为第i个聚类中心样本集合,|Ci|为第i个聚类中心点个数,利用聚类个数对欧式距离进行放缩,缓解多标签中标签不平衡性问题。
进一步的,所述步骤103对文本数据集中成对标签计算相关性,构造标签间相关性无向完全图的具体步骤为:
1031.定义相关性无向完全图:在图中任意两个标签顶点之间都存在相关性边且不存在自环和重边;
1032.对标签空间采用corr(li,lj)计算得出标签相关性集合E,以数据集中多标签集合V={l1,…,lj,…,lq}为无向完全图G中点集,q为多标签集合大小,成对标签相关性集合E={corr(li,lj)li∈V,lj∈V}为无向完全图G中边集;
Figure BDA0003343454850000041
其中|li|为标签i出现的次数,lik表示第i个标签向量中第k维数值,li表示第i个标签向量的均值,将成对标签取出现次数较小值,结合标签空间中标签的协方差与标准差,即可得到多标签间相关性。
进一步的,所述步骤104采用扩展Kruskal算法在图中计算最大生成树,选取树中每个顶点为根生成多棵权值相同但树高度不同的最大生成树,并根据树的高度从低到高排序的具体步骤为:
1041.定义最大生成树:一个含有所有标签节点连通图的生成树,包含成对标签间相关性无向完全图中所有标签并且有保持相关性连通图最大权值和的边集;
1042.定义扩展Kruskal算法:采用贪心的思想,将边集合按照权值降序排序,然后对相同权值的边进行递归搜索生成不同树结构,直至生成总权值相同的最大生成树集合;
1043.对于最大生成树集合,枚举树中的任意子节点为根节点进行树重构,一棵最大生成树会产生|V|个不同的树结构,V表示树上节点集合,并对每棵重构树根据树高度从低到高排序。
进一步的,所述扩展Kruskal算法:
1).将带有相关性的边集合按照权值降序排序。
2).对权值边进行递归搜索:如果这条边加入当前树中不会构成回路,则将该边加入到树中,直至所有标签节点都在树中。
3).对于2中得出的最大生成树,枚举每个点为根节点构建多棵最大生成树,根据高度从底到高排序。
进一步的,所述步骤105从树集合中依次选择生成树,并从根节点开始使用二分类器在树上进行递归预测,对预测结果进行树上集成得出文本实例标签集,具体步骤为:
1051.对于步骤105中多棵结构不同的相关性最大生成树,选择前mk棵树进行分类,对于每棵树从根节点开始递归预测,在预测过程中将祖先节点标签预测结果加入到子节点标签特征空间中构建新的特征空间,此时的标签特征空间可以扩充为
Figure BDA0003343454850000051
此时
Figure BDA0003343454850000052
表示标签lk新的标签特定特征。
其中ancestor(lk)表示标签lk在相关性最大生成树中祖先节点标签;
Figure BDA0003343454850000053
1053.采用二分类器对该标签节点数据集
Figure BDA0003343454850000054
进行分类,再递归分类子节点标签,直至对所有生成树中节点分类完毕;
Figure BDA0003343454850000055
η(Yi,lk)表示标签lk是否在实例相关标签集合Yi中。
1054.由于选择根节点的不同会造成不同的树结构,表达的标签间强相关性也不一样,为了充分利用标签间的强相关性,同时减小选择不同根节点带来的影响,使用多棵树进行多标签分类,对于一个未知实例
Figure BDA0003343454850000056
树集成个数为t,fkj为标签lk在第j棵树上的分类器;将不同树上的同一节点进行集成,最终即可得出标签集Yu;
Figure BDA0003343454850000057
本发明的优点及有益效果如下:
1、结合实例特征空间与标签空间进行聚类从而构造标签特定特征,传统的聚类方法往往只对实例的特征空间进行聚类,这是因为传统的分类只针对单标签数据集,其中能够利用的大部分信息仅来源于数据集中的特征空间,而在多标签分类中,随着标签集合的扩展,合理利用标签集合信息能够提高聚类效果。因此本专利创新性的将实例的特征空间与标签空间结合构造新的特征空间,再根据实例正负性分别进行聚类,使得聚类结构能够有效利用标签空间的相似性,在构造标签特定特征时,除了包含本标签原始特征空间的信息,同样还包含了剩余标签空间的有效信息,提高了对多标签分类的性能。
2、采用扩展Kruskal算法结合标签间相关性无向完全图挖掘标签间的相关性,传统利用标签相关性的方式可分为三种:一阶策略完全忽略标签间的相关性,二阶策略考虑成对标签相关性,高阶策略考虑标签之间的高阶关系;二阶策略仅考虑成对标签相关性忽略了与标签集合的相关性,高阶策略考虑标签集合的相关性,但是考虑到的标签集合间相关性是唯一的。因此本专利创新性的将采用扩展Kruskal算法结合标签间相关性无向完全图挖掘标签间的相关性,并使用多棵最大生成树结构来体现标签间的相关性,使得在充分体现标签间相关性的同时,也利用了不同树结构表达不同的相关性。
3、采用树集合进行集成预测;将树集合根据树高度升序排列,采用多棵最大生成树从根节点开始递归进行预测,并将祖先节点的标签加入到特征空间中使用二分类器进行分类,并进行集成分类。传统多标签分类中高阶策略考虑标签集合间的关系,例如分类器链算法,但是由于链式预测中往往存在误差传递,如果前面标签预测存在错误,那么会影响后面标签预测的准确性。因此本专利创新性的在树上进行递归预测,由于是按照树集合根据树高从最矮树进行预测,在预测过程中使得祖先标签集合的大小受到限制,能够有效的抑制预测过程中的误差传递问题,并且采用树集合集成预测,能够有效的利用标签集合间不同的相关性,进一步提高多标签分类的性能。
附图说明
图1是本发明提供优选实施例一种基于标签特定特征和标签相关性的文本数据多标签分类方法流程图;
图2为本发明实施例一种基于标签特定特征和标签相关性的文本数据多标签分类方法中结合标签相关性的集成树预测示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
一种基于标签特定特征和标签相关性的文本数据多标签分类方法,其包括以下步骤:
101.对文本数据集进行预处理,结合实例标签空间和特征空间构造新的实例特征空间(公式(1))。
102.对正负实例特征空间采用聚类技术构造多个聚类中心,度量原始特征空间与聚类中心集合中各点距离结合聚类个数构造标签特定特征。具体包括:1.采用公式(2)计算聚类个数,采用ln对数处理防止特征空间维度过大造成聚类中心过多问题,构造有效的标签特定特征;2.采用K-MEANS算法对正负实例空间进行聚类,将原始特征空间向量与聚类中心点结合聚类个数进行度量,从原始的d维空间
Figure BDA0003343454850000071
映射到一个dk维度的标签特定特征空间
Figure BDA0003343454850000072
(公式(3))。
103.对文本数据集中任意两个标签计算标签间的相关性,构造标签间相关性无向完全图;具体包括对标签空间采用相关性corr(li,lj)(公式(4))计算相关性得出标签相关性集合E={corr(li,lj)};以数据集中多标签集合V={l1,…,lj,…,lq}为无向完全图G中点集,成对标签相关性集合E={corr(li,lj)li∈V,lj∈V}为无向完全图G中边集。
104.采用扩展Kruskal算法在图中计算最大生成树集合;具体步骤为:1.采用扩展Kruskal算法在标签间相关性无向完全图上计算最大生成树集合,其中树的权值为标签间的相关性,最大生成树结构表达标签间的强相关性;2.对于多棵最大生成树,枚举树中的任意子节点为根节点进行树重构,一棵最大生成树最多会产生|V|个不同的树结构,并对每棵树根据树的高度从低到高排序。
105.从树集合中依次选择生成树,并从根节点开始使用二分类器在树上进行递归预测,对预测结果进行树上集成最终得出实例标签集;具体步骤为:1.对多棵结构不同的相关性最大生成树,选择前mk棵树进行分类,对于每棵树从根节点开始递归预测,在预测过程中将祖先节点标签的预测结果加入到子节点标签特征空间中构建新的特征空间,此时的标签特征空间可以扩充(公式(5))为
Figure BDA0003343454850000081
其中ancestor(lk)表示标签lk在相关性最大生成树中祖先节点标签;2.采用二分类器对该标签节点数据集
Figure BDA0003343454850000082
进行分类,再递归分类子节点标签,直至对所有生成树中的节点分类完毕。3.由于选择根节点的不同会造成不同的树结构,表达的标签间强相关性也不一样,为了充分利用标签间的强相关性,同时减小选择不同根节点带来的影响,使用多棵树进行多标签分类,对于一个未知实例
Figure BDA0003343454850000083
树集成个数为t;将不同树上的同一节点进行集成,最终即可得出标签集Yu(公式(6))。
进一步的,所述步骤101对原始数据集进行预处理得出正负实例特征空间,对于原始数据集标签集合中的标签,重复执行以下步骤来构建标签数据集:对正负实例数据集将特征空间与标签空间合并,使得多个剩余标签补充特征空间构造正负实例特征空间
Figure BDA0003343454850000084
Figure BDA0003343454850000085
Figure BDA0003343454850000086
进一步的,所述步骤102对正负实例特征空间采用聚类技术构造多个聚类中心,度量原始特征空间与聚类中心集合中各点距离结合聚类个数构造标签特定特征,具体步骤为:
(1)为将正负实例特征转换为标签特定特征,首先根据特征空间计算标签特定特征空间大小,为防止特征空间过大造成标签特定特征维度爆炸,取正负空间大小中较小值,并使用对数对其进行缩放,最终得出聚类个数mk
Figure BDA0003343454850000091
(2)采用K-MEANS算法对正负实例空间进行聚类,将原始特征空间向量与聚类中心点结合聚类中心点的个数进行度量,从原始的d维空间
Figure BDA0003343454850000092
映射到一个dk维度的标签特定特征空间
Figure BDA0003343454850000093
Figure BDA0003343454850000094
进一步的,所述步骤103对文本数据集中任意两个标签计算标签间的相关性,构造标签间相关性无向完全图;具体为:标签空间采用相关性corr(li,lj)计算得出成对标签相关性集合E,以数据集中多标签集合V={l1,…,lj,…,lq}为无向完全图G中点集,成对标签相关性集合E={corr(li,lj)li∈V,lj∈V}为无向完全图G中边集。
Figure BDA0003343454850000095
进一步的,所述步骤104采用扩展Kruskal算法在图中计算最大生成树,选取树中每个顶点为根生成多棵权值相同但树高度不同的最大生成树,并根据树的高度从低到高排序;具体步骤为:
(1)采用扩展Kruskal算法在标签间相关性无向完全图上计算最大生成树集合,其中树的权值为标签间的相关性,最大生成树结构表达标签间的强相关性。
(2)对于多棵最大生成树,枚举树中的任意子节点为根节点进行树重构,一棵最大生成树最多会产生|V|个不同的树结构,并对每棵树根据高度从低到高排序。
进一步的,所述步骤105从树集合中依次选择生成树,并从根节点开始使用二分类器在树上进行递归预测,对预测结果进行树上集成最终得出实例标签集:具体步骤为:
(1)对多棵结构不同的相关性最大生成树,选择前mk棵树进行分类,对于每棵树从根节点开始递归预测,在预测过程如公式(5)所示中将祖先节点标签的预测结果加入到子节点标签特征空间中构建新的特征空间,其中ancestor(lk)表示标签lk在相关性最大生成树中祖先节点标签。
Figure BDA0003343454850000101
(2)对于标签其分类数据集可以用
Figure BDA0003343454850000102
公式(6)表示,其中
Figure BDA0003343454850000103
表示标签lk是否在实例的标签集中,采用二分类器对该标签节点数据集
Figure BDA0003343454850000104
进行分类,再递归预测子节点,直至对所有生成树中的节点分类完毕。
Figure BDA0003343454850000105
1054.由于选择根节点的不同会造成不同的树结构,表达的标签间强相关性也不一样,为了充分利用标签间的强相关性,同时减小选择不同根节点带来的影响,使用多棵树进行多标签分类。对于一个未知实例
Figure BDA0003343454850000106
树集成个数为t;将不同树上的同一节点进行集成,最终即可得出标签集Yu公式(7)。
Figure BDA0003343454850000107
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (7)

1.一种基于标签特定特征和相关性的文本数据多标签分类方法,其特征在于,包括以下步骤:
101、对文本数据进行预处理,结合实例标签空间和特征空间构造新的实例特征空间;
102、对正负实例特征空间计算聚类个数,并构造标签特定特征;
103、对文本数据集中成对标签计算相关性,构造标签间相关性无向完全图;
104、采用扩展Kruskal算法在标签间相关性无向完全图中计算最大生成树集合;
105、从树集合中依次选择生成树,并从根节点开始使用二分类器在树上进行递归预测,对预测结果进行树上集成得出文本实例标签集。
2.根据权利要求1所述的基于标签特定特征和相关性的文本数据多标签分类方法,其特征在于,所述步骤101文本数据预处理为:对正负实例数据集将特征空间与标签空间合并,使得多个剩余标签补充特征空间构造正负实例特征空间
Figure FDA0003343454840000011
Figure FDA0003343454840000012
Figure FDA0003343454840000013
其中D={(xi,Yi)|1≤i≤n}表示多标签数据集,xi表示第i个实例的原始特征空间,Yi表示第i个实例关联的多标签集合。
3.根据权利要求2所述的基于标签特定特征和相关性的文本数据多标签分类方法,其特征在于,所述步骤102对正负实例特征空间计算聚类个数,并构造标签特定特征,具体步骤为:
1021.为将正负实例特征转换为标签特定特征,首先根据特征空间计算标签特定特征空间大小,为防止特征空间过大造成标签特定特征维度爆炸,取正负空间大小中较小值,并使用对数对其进行缩放,最终得出聚类个数mk
Figure FDA0003343454840000014
1022.采用K-MEANS算法对正负实例空间进行聚类,将原始特征空间向量与聚类中心点结合聚类点个数进行度量,从原始的d维空间
Figure FDA0003343454840000021
映射到一个dk维度的标签特定特征空间
Figure FDA0003343454840000022
Figure FDA0003343454840000023
其中
Figure FDA0003343454840000024
表示第i个实例对应的标签特定特征,
Figure FDA0003343454840000025
为欧式距离,
Figure FDA0003343454840000026
分别表示正负聚类中心点,C为第i个聚类中心样本集合,|Ci|为第i个聚类中心点个数,利用聚类个数对欧式距离进行放缩,缓解多标签中标签不平衡性问题。
4.根据权利要求3所述的基于标签特定特征和相关性的文本数据多标签分类方法,其特征在于,所述步骤103对文本数据集中成对标签计算相关性,构造标签间相关性无向完全图的具体步骤为:
1031.定义相关性无向完全图:在图中任意两个标签顶点之间都存在相关性边且不存在自环和重边;
1032.对标签空间采用corr(li,lj)计算得出标签相关性集合E,以数据集中多标签集合V={l1,…,lj,…,lq}为无向完全图G中点集,q为多标签集合大小,成对标签相关性集合E={corr(li,lj)|li∈V,lj∈V}为无向完全图G中边集;
Figure FDA0003343454840000027
其中|li|为标签i出现的次数,lik表示第i个标签向量中第k维数值,
Figure FDA0003343454840000028
表示第i个标签向量的均值,将成对标签取出现次数较小值,结合标签空间中标签的协方差与标准差,即可得到多标签间相关性。
5.根据权利要求4所述的基于标签特定特征和相关性的文本数据多标签分类方法,其特征在于,所述步骤104采用扩展Kruskal算法在图中计算最大生成树,选取树中每个顶点为根生成多棵权值相同但树高度不同的最大生成树,并根据树的高度从低到高排序的具体步骤为:
1041.定义最大生成树:一个含有所有标签节点连通图的生成树,包含成对标签间相关性无向完全图中所有标签并且有保持相关性连通图最大权值和的边集;
1042.定义扩展Kruskal算法:采用贪心的思想,将边集合按照权值降序排序,然后对相同权值的边进行递归搜索生成不同树结构,直至生成总权值相同的最大生成树集合;
1043.对于最大生成树集合,枚举树中的任意子节点为根节点进行树重构,一棵最大生成树会产生|V|个不同的树结构,V表示树上节点集合,并对每棵重构树根据树高度从低到高排序。
6.根据权利要求5所述的基于标签特定特征和相关性的文本数据多标签分类方法,其特征在于,所述扩展Kruskal算法步骤:
1).将带有相关性的边集合按照权值降序排序;
2).对权值边进行递归搜索:如果这条边加入当前树中不会构成回路,则将该边加入到树中,直至所有标签节点都在树中;
3).对于2中得出的最大生成树,枚举每个点为根节点构建多棵最大生成树,根据高度从底到高排序。
7.根据权利要求5所述的基于标签特定特征和相关性的文本数据多标签分类方法,其特征在于,所述步骤105从树集合中依次选择生成树,并从根节点开始使用二分类器在树上进行递归预测,对预测结果进行树上集成得出文本实例标签集,具体步骤为:
1051.对于步骤105中多棵结构不同的相关性最大生成树,选择前mk棵树进行分类,对于每棵树从根节点开始递归预测,在预测过程中将祖先节点标签预测结果加入到子节点标签特征空间中构建新的特征空间,此时的标签特征空间可以扩充为
Figure FDA0003343454840000031
此时
Figure FDA0003343454840000032
表示标签lk新的标签特定特征;
其中ancestor(lk)表示标签lk在相关性最大生成树中祖先节点标签的二进制数据集;
Figure FDA0003343454840000041
1053.采用二分类器对该标签节点数据集
Figure FDA0003343454840000042
进行分类,再递归分类子节点标签,直至对所有生成树中节点分类完毕;
Figure FDA0003343454840000043
η(Yi,lk)表示标签lk是否在实例相关标签集合Yi中;
1054.由于选择根节点的不同会造成不同的树结构,表达的标签间强相关性也不一样,为了充分利用标签间的强相关性,同时减小选择不同根节点带来的影响,使用多棵树进行多标签分类,对于一个未知实例
Figure FDA0003343454840000044
树集成个数为t,
Figure FDA0003343454840000045
为标签lk在第j棵树上的分类器;将不同树上的同一节点进行集成,最终即可得出标签集Yu
Figure FDA0003343454840000046
CN202111315298.1A 2021-11-08 2021-11-08 基于标签特定特征和相关性的文本数据多标签分类方法 Pending CN114117040A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111315298.1A CN114117040A (zh) 2021-11-08 2021-11-08 基于标签特定特征和相关性的文本数据多标签分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111315298.1A CN114117040A (zh) 2021-11-08 2021-11-08 基于标签特定特征和相关性的文本数据多标签分类方法

Publications (1)

Publication Number Publication Date
CN114117040A true CN114117040A (zh) 2022-03-01

Family

ID=80381432

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111315298.1A Pending CN114117040A (zh) 2021-11-08 2021-11-08 基于标签特定特征和相关性的文本数据多标签分类方法

Country Status (1)

Country Link
CN (1) CN114117040A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117929173A (zh) * 2024-03-18 2024-04-26 中国汽车技术研究中心有限公司 一种汽车碰撞假人肋骨组分力学性能测试对标方法及装置

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140012849A1 (en) * 2012-07-06 2014-01-09 Alexander Ulanov Multilabel classification by a hierarchy
CN105046284A (zh) * 2015-08-31 2015-11-11 鲁东大学 一种基于特征选择的多示例多标签学习方法及系统
CN105184326A (zh) * 2015-09-30 2015-12-23 广东工业大学 基于图数据的主动学习多标签社交网络数据分析方法
US20170344808A1 (en) * 2016-05-28 2017-11-30 Samsung Electronics Co., Ltd. System and method for a unified architecture multi-task deep learning machine for object recognition
CN107577785A (zh) * 2017-09-15 2018-01-12 南京大学 一种适用于法律识别的层次多标签分类方法
CN107977671A (zh) * 2017-10-27 2018-05-01 浙江工业大学 一种基于多任务卷积神经网络的舌象分类方法
US20180165554A1 (en) * 2016-12-09 2018-06-14 The Research Foundation For The State University Of New York Semisupervised autoencoder for sentiment analysis
CN108537270A (zh) * 2018-04-04 2018-09-14 厦门理工学院 基于多标签学习的图像标注方法、终端设备及存储介质
CN109447110A (zh) * 2018-09-17 2019-03-08 华中科技大学 综合邻居标签相关性特征和样本特征的多标签分类的方法
CN110033007A (zh) * 2019-04-19 2019-07-19 福州大学 基于深度姿态预估和多特征融合的行人衣着属性识别方法
CN110647907A (zh) * 2019-08-05 2020-01-03 广东工业大学 利用多层分类和字典学习的多标签图像分类算法
CN111695482A (zh) * 2020-06-04 2020-09-22 华油钢管有限公司 一种管道缺陷识别方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140012849A1 (en) * 2012-07-06 2014-01-09 Alexander Ulanov Multilabel classification by a hierarchy
CN105046284A (zh) * 2015-08-31 2015-11-11 鲁东大学 一种基于特征选择的多示例多标签学习方法及系统
CN105184326A (zh) * 2015-09-30 2015-12-23 广东工业大学 基于图数据的主动学习多标签社交网络数据分析方法
US20170344808A1 (en) * 2016-05-28 2017-11-30 Samsung Electronics Co., Ltd. System and method for a unified architecture multi-task deep learning machine for object recognition
US20180165554A1 (en) * 2016-12-09 2018-06-14 The Research Foundation For The State University Of New York Semisupervised autoencoder for sentiment analysis
CN107577785A (zh) * 2017-09-15 2018-01-12 南京大学 一种适用于法律识别的层次多标签分类方法
CN107977671A (zh) * 2017-10-27 2018-05-01 浙江工业大学 一种基于多任务卷积神经网络的舌象分类方法
CN108537270A (zh) * 2018-04-04 2018-09-14 厦门理工学院 基于多标签学习的图像标注方法、终端设备及存储介质
CN109447110A (zh) * 2018-09-17 2019-03-08 华中科技大学 综合邻居标签相关性特征和样本特征的多标签分类的方法
CN110033007A (zh) * 2019-04-19 2019-07-19 福州大学 基于深度姿态预估和多特征融合的行人衣着属性识别方法
CN110647907A (zh) * 2019-08-05 2020-01-03 广东工业大学 利用多层分类和字典学习的多标签图像分类算法
CN111695482A (zh) * 2020-06-04 2020-09-22 华油钢管有限公司 一种管道缺陷识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SUPING XU等: "multi-label learning with label-specific feature reduction", KNOWLEDGE BASED SYSTEMS, vol. 104, 15 July 2016 (2016-07-15), pages 52 - 61, XP029549291, DOI: 10.1016/j.knosys.2016.04.012 *
王进等: "基于标签相关性的标签特定特征多标签学习", 江苏大学学报(自然科学版), vol. 44, no. 5, 20 August 2023 (2023-08-20), pages 554 - 563 *
赵传君;王素格;李德玉;: "跨领域文本情感分类研究进展", 软件学报, vol. 31, no. 06, 8 June 2020 (2020-06-08), pages 1723 - 1746 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117929173A (zh) * 2024-03-18 2024-04-26 中国汽车技术研究中心有限公司 一种汽车碰撞假人肋骨组分力学性能测试对标方法及装置

Similar Documents

Publication Publication Date Title
WO2021189729A1 (zh) 复杂关系网络的信息分析方法、装置、设备及存储介质
Kumar et al. An efficient k-means clustering filtering algorithm using density based initial cluster centers
Fischer et al. Bagging for path-based clustering
CN105469096B (zh) 一种基于哈希二值编码的特征袋图像检索方法
US7007035B2 (en) Parallel object-oriented decision tree system
EP2431918B1 (en) Graph lattice method for image clustering, classification, and repeated structure finding
CN112308115B (zh) 一种多标签图像深度学习分类方法及设备
CN104966105A (zh) 一种鲁棒机器错误检索方法与系统
CN109214410A (zh) 一种提升多标签分类正确率的方法及系统
Wang et al. A new approach for missing data imputation in big data interface
CN111325264A (zh) 一种基于熵的多标签数据分类方法
Böhm et al. Hissclu: a hierarchical density-based method for semi-supervised clustering
CN114093445B (zh) 一种基于偏多标记学习的患者筛选标记方法
CN103440292B (zh) 基于比特向量的多媒体信息检索方法和系统
CN114897085A (zh) 一种基于封闭子图链路预测的聚类方法及计算机设备
CN114117040A (zh) 基于标签特定特征和相关性的文本数据多标签分类方法
Armengol et al. Relational case-based reasoning for carcinogenic activity prediction
Lamirel et al. Novel labeling strategies for hierarchical representation of multidimensional data analysis results
CN117036781A (zh) 一种基于树综合多样性深度森林的图像分类方法
CN117009596A (zh) 一种电网敏感数据的识别方法及装置
CN111708865A (zh) 一种基于改进XGBoost算法的技术预见及专利预警分析方法
CN110502669A (zh) 基于n边dfs子图的轻量级无监督图表示学习方法及装置
CN111127184B (zh) 一种分布式组合信用评估方法
Phillips et al. An SMP soft classification algorithm for remote sensing
Johnpaul et al. Fuzzy representational structures for trend based analysis of time series clustering and classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20240721

Address after: 518000 1104, Building A, Zhiyun Industrial Park, No. 13, Huaxing Road, Henglang Community, Longhua District, Shenzhen, Guangdong Province

Applicant after: Shenzhen Hongyue Enterprise Management Consulting Co.,Ltd.

Country or region after: China

Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing

Applicant before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS

Country or region before: China

TA01 Transfer of patent application right