CN110781295B - 一种多标记数据的特征选择方法及装置 - Google Patents

一种多标记数据的特征选择方法及装置 Download PDF

Info

Publication number
CN110781295B
CN110781295B CN201910848662.7A CN201910848662A CN110781295B CN 110781295 B CN110781295 B CN 110781295B CN 201910848662 A CN201910848662 A CN 201910848662A CN 110781295 B CN110781295 B CN 110781295B
Authority
CN
China
Prior art keywords
sample
feature
data
correlation
mark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910848662.7A
Other languages
English (en)
Other versions
CN110781295A (zh
Inventor
孙林
施恩惠
秦铮
谭淑月
曾祥师
殷腾宇
黄金旭
王天翔
王欣雅
张玖肖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan Normal University
Original Assignee
Henan Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan Normal University filed Critical Henan Normal University
Priority to CN201910848662.7A priority Critical patent/CN110781295B/zh
Publication of CN110781295A publication Critical patent/CN110781295A/zh
Application granted granted Critical
Publication of CN110781295B publication Critical patent/CN110781295B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种多标记数据的特征选择方法及装置,属于数据分类技术领域。本发明首先以标记的先验概率作为标记的权重,计算特征与标记之间的相关性并按相关性大小对特征进行预筛选,在减小后续计算量的同时,使得特征与标记之间的相关性尽可能大;然后利用样本的标记集合之间的相关性link值对样本的同类、异类进行划分,最后按照权重更新公式计算特征权重值,将特征权重值进行排序,选择最优特征子集。通过上述过程,本发明能够有效选取最优特征子集,提高了多标记特征选择算法的分类精度。

Description

一种多标记数据的特征选择方法及装置
技术领域
本发明涉及一种多标记数据的特征选择方法及装置,属于数据分类技术领域。
背景技术
在传统的监督学习中,每个实例只对应于唯一一个类别标记。然而在真实世界中,一个物体往往同时拥有多个概念标记,例如,一幅图像可能同时拥有“沙漠”、“太阳”、“仙人掌”等标记,于是多标记学习问题应运而生。目前,多标记学习已经受到广泛的关注并已应用于文本分类,基因功能分类,图像标注,视频自动注释等多个领域。在文本分类这些实际应用中,高维数据中大量无关信息与冗余信息的存在极大地降低了学习算法的性能。因此降维对于提升多标记学习技术求解相关问题的能力具有十分重要的意义。通过降维可以找出隐藏在高维观测数据中有意义的低维结构,解决高维数据的“维数灾难”问题。在降维方法中,最常见且最重要的方法即为特征提取和特征选择。特征提取是将样本从高维输出空间通过线性或非线性映射投影到一个低维空间得到新的特征集合。很显然,这类方法虽然降低了样本的维数,但却失去了特征原有的语义信息,无法有效去除无关和冗余特征。特征选择则有效解决了这一问题,特征选择是指从原始的特征集合中用计算的方法按照评价准则选择出部分具有良好区分特性的特征进行分类。其目的是根据一些准则选出最小的特征子集,使分类等任务达到和特征选择前近似甚至更好的效果。
大多数的特征选择方法主要针对单标记学习,随着多标记学习的普及,越来越多的学者开始关注多标记问题的研究。目前,有很多针对于多标记数据的特征选择算法被提出。例如,Kononenko等学者撰写的《Estimating attributes:analysis and extension ofrelief》(European Conference on Machine Learning.Springer,Berlin,Heidelberg,1994.)(ReliefF)由于不能适用于多标记学习中每个样本可能同时含有多个类别标记的情况,因此很多学者结合标记相关性对ReliefF算法进行了扩展。Kong D等学者撰写的《Multi-label ReliefF and F-statistic feature selections for image annotation》(2012IEEE Conference on Computer Vision and Pattern Recognition.IEEE,2012.)(MReliefF)考虑了成对标记之间的相关性,将类别标记两两组合,从而将其分解为成对的两类多标记ReliefF集合,对样本的同类近邻和异类近邻做了有效划分;Pupo等撰写的《AnExtension of ReliefF Algorithm to Multi-label Learning》(Progress in PatternRecognition,Image Analysis,Computer Vision,and Applications.2013.)(ReliefF-ML)中提出的算法思想则根据特征对近邻样本的区分能力来评估特征,评估值作为每个特征的权值对原始特征加权后分类,而该方法却只对单一标记入手,考虑了单个标记与其他标记集之间的相关性。Cai等撰写的《结合标记相关性的多标记特征选择及分类算法研究》(2016.)(ML-ReliefF)结合多个标记之间的相关性并在多标记学习框架下对样本的同类近邻和异类近邻进行了合理划分,该方法虽然能够直接作用于多标记数据集,实现对多标记特征的选择。但是计算较为复杂,时间复杂度较高,且算法中只考虑了标记之间的相关性,影响最终的分类精度。
发明内容
本发明的目的是提供一种多标记数据的特征选择方法及装置,以解决目前多标记特征选择过程存在的计算复杂、分类精度差的问题。
本发明为解决上述技术问题而提供一种多标记数据的特征选择方法,该选择方法包括以下步骤:
1)以标记的先验概率作为标记的权重,计算数据样本中特征与标记之间的相关性,根据相关性大小对特征进行预筛选,去掉相关性较小的特征;
2)针对预筛选后的数据样本,根据互信息和相似度的联合公式计算随机选取的样本与其他样本标记集之间的相关性值;
3)根据随机选取的样本与其他样本标记集的相关性值对该样本的同类近邻和异类近邻进行划分,其中异类近邻划分时,需要在此随机选取的样本的标记集所有未出现的类别标记下,将同一数据样本与该样本的标记相关性值相加,根据相加后值的排序选择得到所选数据样本的异类近邻;
4)根据随机选取的样本与其对应同类近邻和异类近邻在每个特征上的距离按照权重更新公式计算各特征权重值,按照各特征权重值的排序选择最优特征子集。
本发明还提供了一种多标记数据的特征选择装置,所述的选择装置包括存储器和处理器,以及存储在所述存储器上并在所述处理器上运行的计算机程序,所述处理器与所述存储器相耦合,所述处理器执行所述计算机程序时实现本发明的多标记数据的特征选择方法。
本发明首先以标记的先验概率作为标记的权重,计算特征与标记之间的相关性按值对特征进行预筛选,在减小后续计算量的同时,使得特征与标记之间的相关性尽可能大;然后利用样本的标记集合之间的相关性link值对样本的同类、异类进行划分,最后按照权重更新公式计算特征权重值,将特征权重值进行排序,选择最优特征子集。通过上述过程,本发明能够有效选取最优特征子集,提高了多标记特征选择算法的分类精度。
进一步地,为了保证相关度计算的准确性,本发明给出具体的计算公式,所述步骤2)中两个数据样本间的标记相关性值linki,j的计算公式为:
Figure BDA0002196163580000031
Figure BDA0002196163580000032
其中LSi为样本xi所拥有的标记集,LSj为样本xj所拥有的标记集,I(LSi,LSj)为标记集LSi和标记集LSj的互信息,
Figure BDA0002196163580000033
为连接系数。
进一步地,为了保证特征权重值计算的准确性,进一步提高特征选择的精确性,所述的特征权重值计算公式为:
Figure BDA0002196163580000041
其中WP为特征p的权重值,d(p,xi,Hj)为数据样本xi与同类近邻中的数据样本xj在特征p上的距离,d(p,xi,Mj)为数据样本xi与异类近邻中的数据样本xj在特征p上的距离,simi,j为两个数据样本之间的相似度,m为迭代次数,k为同类近邻和异类近邻中数据样本个数。
进一步地,为了更准确地表征两个数据样本之间的相似度,所述两个数据样本之间的相似度simi,j的计算公式为:
Figure BDA0002196163580000042
进一步地,所述步骤1)中特征与标记之间的相关性的计算公式为:
Figure BDA0002196163580000043
Figure BDA0002196163580000044
其中pi表示第i个特征,y(j)表示总的标记集合L中的第j个标记,I(pi,y(j))表示特征pi与标记y(j)之间的互信息,W(y(j))为标记y(j)的权重,n(y(j))表示拥有标记y(j)的所有数据样本个数,n表示数据样本的总个数。
附图说明
图1是本发明多标记数据的特征选择方法的流程图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步地说明。
方法实施例
本发明首先以标记的先验概率作为标记的权重,计算特征与标记之间的相关性,使预筛选后的特征与标记之间具有较大的相关性;然后利用样本标记集之间的相关性对样本的同类、异类进行划分;最后按照权重更新公式计算特征权值,并根据特征权值的排序选出最优特征子集。本发明的多标记数据的特征选择方法能够适用于各领域,包括但不限于文本分类、基因功能分类、图像标注、视频自动注释等。下面以文本分类领域为例,对本发明的具体实施过程进行说明,该方法的实现流程如图1所示,具体实施过程如下。
1.对数据样本的特征进行预筛选。
大多数多标记数据集中,标记和特征之间的相关程度通常能够提供一些重要信息,利用这些信息可有效减少学习任务的难度,同时提升学习结果的鲁棒性。因此,如何衡量特征和标记之间的相关性会对特征选择结果产生很大的影响,为此,本发明在计算多个标记的相关性之前先对特征进行预筛选,目的有两个,一是减少后续计算量;二是因为后续只考虑了标记之间的相关性,并没有考虑特征与标记之间的相关性,但是二者的相关性对整个特征选择过程很重要,因此需要尽可能在特征与标记达到较大相关性的基础上再进行后续操作。在整个预筛选过程中,对特征与标记之间的相关性大小没有要求,预筛选的特征个数则根据实验过程中得出的分类精度值进行调整。
具体而言,就是利用互信息公式和每一个标记的先验概率计算标记和特征之间的相关性。采用的具体计算公式为:
Figure BDA0002196163580000051
Figure BDA0002196163580000052
X=[x1,x2,…,xn]∈Rn×f为n个样本构成的样本空间,本实施例中的样本为文本数据,Y=[y1,y2,…,yn]∈Rn×L为标记空间,L为标记的总个数,F=[p1,p2,…,pf]∈Rf为f个特征构成的特征空间,每个样本由f维数据表示,记为xi∈Rf。pi表示第i个特征,y(j)表示总的标记集合L中的第j个标记,I(pi,y(j))表示第i个特征pi和第j个标记y(j)之间的互信息,W(y(j))表示第j个标记y(j)的权重,n(y(j))表示含有标记y(j)的所有样本个数,n表示样本的个数。
按照各特征与标记之间相关性的大小对特征进行预筛选,筛除与标记相关性不大的特征,在减少后续计算量的同时,尽可能使得特征与标记之间的相关性大。
2.根据样本标记集之间的相关性对样本的同类、异类进行划分。
标记相关度用来表示两个样本的标记集之间的相关程度,假设样本xi与样本xj所拥有的标记集分别为LSi和LSj,目前的ML-ReliefF算法中两个样本之间的标记相关度link值为两个样本标记集的交集与并集之比,即:
Figure BDA0002196163580000061
对于样本xi,在求出该样本与其他所有训练样本的标记相关度link值后,根据值对所有样本进行降序排列,取前k个样本作为xi的同类近邻。对于标记集LSi中没有出现的每个类别标记C,找出所有含有该标记的样本并根据其与xi的link值对这些样本进行升序排列,取前k个样本作为xi在每个类别标记C下的异类近邻。
如表1所示,多标记数据中样本x1对应的标记集LS1={l1,l3},样本x2对应的标记集LS2={l1,l2,l4},样本x3对应的标记集LS3={l1,l3,l4},样本x4对应的标记集LS4={l2,l4}。以样本x1为例,按照上述方式计算x1与其他样本的标记相关度,结果如表2所示。按照link值对这些样本进行降序排列,根据排序结果得到的x1的同类最近邻(k=1)为x3,针对LS1所不包含的l2与l4升序排列结果,得到各自类别标记的异类最近邻均为x4,如表3所示。
表1
<![CDATA[l<sub>1</sub>]]> <![CDATA[l<sub>2</sub>]]> <![CDATA[l<sub>3</sub>]]> <![CDATA[l<sub>4</sub>]]>
<![CDATA[x<sub>1</sub>]]> 1 0 1 0
<![CDATA[x<sub>2</sub>]]> 1 1 0 1
<![CDATA[x<sub>3</sub>]]> 1 0 1 1
<![CDATA[x<sub>4</sub>]]> 0 1 0 1
表2
link值
<![CDATA[x<sub>2</sub>]]> 0.25
<![CDATA[x<sub>3</sub>]]> 0.6667
<![CDATA[x<sub>4</sub>]]> 0
表3
<![CDATA[l<sub>2</sub>异类近邻]]> <![CDATA[l<sub>4</sub>异类近邻]]>
<![CDATA[x<sub>4</sub>]]> <![CDATA[x<sub>4</sub>]]>
<![CDATA[x<sub>2</sub>]]> <![CDATA[x<sub>3</sub>]]>
<![CDATA[x<sub>2</sub>]]>
上述方法(ML-ReliefF)中计算的link值只采用了一种相关性计算方法计算标记相关性,我们想实验互信息在标记相关性计算上的可行性,为此,本发明在现有link值计算的基础上,对link值的计算进行了改进,增加了互信息的内容,增加互信息的目的是使用两种可以计算的方法来计算标记相关性,使得计算出的标记集合之间的相关性大小更为准确,为后续的同异类划分增加可信度,并且在一定程度上提高分类精度,改进后的计算公式为:
Figure BDA0002196163580000071
Figure BDA0002196163580000072
其中I(LSi,LSj)为样本xi对应的标记集LSi与样本xj对应的标记集LSj之间的互信息,
Figure BDA0002196163580000073
为连接系数,且大小在0到1之间,连接系数的大小则根据实验过程中得出的分类精度大小而定。
同时,对于异类近邻,本发明在现有异类近邻划分的基础上,进行了重新划分,对于样本xi的标记集LSi中没有出现的各类别标记C,分别获取含有该标记的样本并求出其与xi的link值,在所有未出现的类别标记C下,将同一样本与xi的link值相加,并按照link值升序排列,选取前k个作为样本xi的异类近邻。
3.确定各特征权重值,并按权重值排序结果选择最优特征子集。
现有ML-ReliefF算法中的特征权值Wp更新公式为:
Figure BDA0002196163580000081
Figure BDA0002196163580000082
Figure BDA0002196163580000083
其中,d(p,xi,Hj)为样本xi与同类近邻中的样本xj在特征p上的距离(欧式距离),p(C)为每个类别C的先验概率,p(LSi)为标记集LSi的先验概率,d(p,xi,Mj)为样本xi与异类近邻中的样本xj在特征p上的距离,simi,j为两个样本之间的相似度,m为迭代次数,n(LSi)为拥有标记集LSi中任一标记的所有样本的个数,cosi,j表示样本xi与样本xj的余弦距离。
本发明在对异类近邻划分改进的基础上,对特征权重的计算公式也进行了改进,改进后特征权重计算公式为:
Figure BDA0002196163580000084
Figure BDA0002196163580000085
迭代更新的截止条件是迭代更新得到的特征权重值在允许的范围内变化,相当于得出的权重值变化很小或者几乎不再变化时,认为迭代完成,第一次迭代时的特征权重初值为0。按照迭代更新后的特征权重排序选择最优特征子集。
在异类近邻的划分和特征权重公式的更新中,相比于现有的ML-ReliefF,本发明有效避免了部分样本同相同的样本之间在每一个特征上距离的重复计算,减小了算法的时间复杂度,同时样本相似度公式的更换通过计算不同样本之间相同标记和相同特征的个数来表示,使得样本相似度计算更为准确,而不是仅仅依靠于侧重空间的余弦距离上。
本发明多标记数据的特征选择装置实施例
本发明的多标记数据的特征选择装置,包括存储器和处理器,以及存储在存储器上并在处理器上运行的计算机程序,处理器与存储器相耦合,处理器执行所述计算机程序时实现本发明的多标记数据的特征选择方法,方法的具体实现过程已在方法实施例中进行了详细说明,这里不再赘述。
实验验证
为了验证本发明的特征选择方法的优越性,选取两个文本数据集进行实验,数据集的描述信息如表4所示,数据集来自于http://mulan.sourceforge.net/datasets.html。
表4
Figure BDA0002196163580000091
本验证例将Average Precision(AP)、Ranking Loss(RL)、Hamming Loss(HL)、Oneerror(OE)和Coverage(CV)作为评价指标。Average Precision是一种最直观的评价指标,用于评价样本的预测标记排名中排在相关标记前面的概率平均;Hamming Loss用于通过计算多标记分类器预测出的标记结果与实际标记的差距来度量多标记分类器的性能;One-error用于评价每个样本的预测标记排名中,排在第一位的标记不在该样本的相关标记集中的概率评价;Ranking Loss用于评价所有样本的预测标记排名中,不相关标记在相关标记前面的概率的平均值;Coverage用于评价每个样本的预测标记排名中需要在标记序列表中最少查找到第几位才可以找到所有与该样本对应的标记。以上5种指标,第1个指标(AP)的取值越大,表示分类的性能越优,最优值为1;后4个评价指标的取值越小,表示分类性能越优,最优值为0。
为了验证该方法的有效性,采用Zhang和Zhou撰写的《Multilabeldimensionality reduction via dependence maximization》(ACM Transactions onKnowledge Discovery from Data(TKDD),2010,4(3):14.)(MDDMspc、MDDMproj)、M.Zhang等撰写的《Feature selection for multi-label Naive Bayes clas-sificaiton》(Inf.Sci.179(2009)3218–3229.)(MLNB)、J.Lee等撰写的《Feature selection formulti-label classification using multivariate mutual information》(PatternRecognit.Lett.34(3)(2013)349–357.)(PMU)算法作为对比试验,将MLNB、MDDMspc、MDDMproj、PMU与本发明进行比较,实验中,算法的近邻个数k设置为5,迭代次数m设置为100,选用ML-KNN作为多标记分类器,所有实验中,ML-KNN的近邻样本数设置为10,平滑因子为1。将本算法在2个数据集(Health数据集、Recreation数据集),5个多标记评价准则(AP、HL、RL、OE、CV)上进行比较,实验结果如表5、表6所示。其中,每个评价准则后面的“↑”表示值越大性能越好,“↓”表示值越小性能越好,表中的黑体则标注了相对最优的性能表现。在本实验中,我们选取特征权重排序的前k个特征作为特征子集。
表5
Figure BDA0002196163580000101
表6
Figure BDA0002196163580000102
Figure BDA0002196163580000111
表5、表6给出了在文本分类的Health、Recreation数据集上几个算法的实验结果。在Health数据集上,本算法在AP、HL、RL、OE、CV这五个指标上获得最优性能,特别是在AP和RL上有显著提高。在Recreation数据集上,本算法在AP、HL、OE上获得最优性能,而MDDMspc在RL和CV上获得最优性能,但是本算法在这两个指标上的值与其相差不大。
根据表中的10个对比结果(2个数据集和5个评价指标),本发明有80%的情况能够获得最优值。以上实验结果分析,充分表明本发明的特征选择方法得到的特征子集诱导出来的分类性能是明显优于其他对比算法。

Claims (4)

1.一种多标记数据的特征选择方法,其特征在于,该选择方法包括以下步骤:
1)以标记的先验概率作为标记的权重,计算数据样本中特征与标记之间的相关性,根据相关性大小对特征进行预筛选,去掉相关性较小的特征;
2)针对预筛选后的数据样本,根据互信息和相似度的联合公式计算随机选取的样本与其他样本标记集之间的相关性值;所述步骤2)中两个数据样本间的标记相关性值linki,j的计算公式为:
Figure FDA0004048473220000014
Figure FDA0004048473220000011
其中LSi为样本xi所拥有的标记集,LSj为样本xj所拥有的标记集,I(LSi,LSj)为标记集LSi和标记集LSj的互信息,
Figure FDA0004048473220000015
为连接系数;
3)根据随机选取的样本与其他样本标记集的相关性值对该样本的同类近邻和异类近邻进行划分,其中异类近邻划分时,需要在此随机选取的样本的标记集所有未出现的类别标记下,将同一数据样本与该样本的标记相关性值相加,根据相加后值的排序选择得到所选数据样本的异类近邻;
4)根据随机选取的样本与其对应同类近邻和异类近邻在每个特征上的距离按照权重更新公式计算各特征权重值,按照各特征权重值的排序选择最优特征子集;所述的特征权重值计算公式为:
Figure FDA0004048473220000012
其中WP为特征p的权重值,d(p,xi,Hj)为数据样本xi与同类近邻中的数据样本xj在特征p上的距离,d(p,xi,Mj)为数据样本xi与异类近邻中的数据样本xj在特征p上的距离,simi,j为两个数据样本之间的相似度,m为迭代次数,k为同类近邻和异类近邻中数据样本个数。
2.根据权利要求1所述的多标记数据的特征选择方法,其特征在于,所述两个数据样本之间的相似度simi,j的计算公式为:
Figure FDA0004048473220000013
3.根据权利要求1所述的多标记数据的特征选择方法,其特征在于,所述步骤1)中特征与标记之间的相关性的计算公式为:
Figure FDA0004048473220000021
Figure FDA0004048473220000022
其中pi表示第i个特征,y(j)表示总的标记集合L中的第j个标记,I(pi,y(j))表示特征pi与标记y(j)之间的互信息,W(y(j))为标记y(j)的权重,n(y(j))表示拥有标记y(j)的所有数据样本个数,n表示数据样本的总个数。
4.一种多标记数据的特征选择装置,其特征在于,所述的选择装置包括存储器和处理器,以及存储在所述存储器上并在所述处理器上运行的计算机程序,所述处理器与所述存储器相耦合,所述处理器执行所述计算机程序时实现权利要求1-3中任一项所述的多标记数据的特征选择方法。
CN201910848662.7A 2019-09-09 2019-09-09 一种多标记数据的特征选择方法及装置 Active CN110781295B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910848662.7A CN110781295B (zh) 2019-09-09 2019-09-09 一种多标记数据的特征选择方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910848662.7A CN110781295B (zh) 2019-09-09 2019-09-09 一种多标记数据的特征选择方法及装置

Publications (2)

Publication Number Publication Date
CN110781295A CN110781295A (zh) 2020-02-11
CN110781295B true CN110781295B (zh) 2023-04-07

Family

ID=69384197

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910848662.7A Active CN110781295B (zh) 2019-09-09 2019-09-09 一种多标记数据的特征选择方法及装置

Country Status (1)

Country Link
CN (1) CN110781295B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310857A (zh) * 2020-03-16 2020-06-19 青岛百洋智能科技股份有限公司 特征提取方法、电子装置及医疗案例相似度模型构建方法
CN111553127B (zh) * 2020-04-03 2023-11-24 河南师范大学 一种多标记的文本类数据特征选择方法及装置
CN111523578B (zh) * 2020-04-13 2021-07-23 推想医疗科技股份有限公司 图像分类方法及装置、神经网络模型的训练方法及装置
CN112463894B (zh) * 2020-11-26 2022-05-31 浙江工商大学 一种基于条件互信息和交互信息的多标签特征选择方法
CN117454154A (zh) * 2023-12-22 2024-01-26 江西农业大学 一种面向偏标记数据的鲁棒特征选择方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109119133A (zh) * 2018-08-03 2019-01-01 厦门大学 基于多标记特征选择及分类的中医临床大数据存储方法
CN109947938A (zh) * 2019-01-28 2019-06-28 萍乡学院 多标记分类方法、系统、可读存储介质及计算机设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130097103A1 (en) * 2011-10-14 2013-04-18 International Business Machines Corporation Techniques for Generating Balanced and Class-Independent Training Data From Unlabeled Data Set

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109119133A (zh) * 2018-08-03 2019-01-01 厦门大学 基于多标记特征选择及分类的中医临床大数据存储方法
CN109947938A (zh) * 2019-01-28 2019-06-28 萍乡学院 多标记分类方法、系统、可读存储介质及计算机设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于标记权重的多标记特征选择算法;林梦雷等;《计算机科学》(第10期);全文 *
基于标记重要性的多标记特征选择算法;魏葆雅等;《湘潭大学自然科学学报》(第04期);全文 *

Also Published As

Publication number Publication date
CN110781295A (zh) 2020-02-11

Similar Documents

Publication Publication Date Title
CN110781295B (zh) 一种多标记数据的特征选择方法及装置
Liu et al. Shared-nearest-neighbor-based clustering by fast search and find of density peaks
Kumar et al. An efficient k-means clustering filtering algorithm using density based initial cluster centers
Madhulatha Comparison between k-means and k-medoids clustering algorithms
CN105930862A (zh) 一种基于密度自适应距离的密度峰聚类算法
CN109409400A (zh) 基于k近邻和多类合并密度峰值聚类方法、图像分割系统
Xu et al. A feasible density peaks clustering algorithm with a merging strategy
Abu-Aisheh et al. Efficient k-nearest neighbors search in graph space
CN113344019A (zh) 一种决策值选取初始聚类中心改进的K-means算法
WO2014136327A1 (ja) 画像処理システム、画像処理方法、および画像処理プログラム
CN103324929B (zh) 基于子结构学习的手写中文识别方法
Yang et al. Density clustering with divergence distance and automatic center selection
CN111027636B (zh) 基于多标签学习的无监督特征选择方法及系统
Fan et al. Ensemble learning using three-way density-sensitive spectral clustering
CN110188864B (zh) 基于分布表示和分布度量的小样本学习方法
Pollard et al. Cluster analysis of genomic data
CN107392249A (zh) 一种k近邻相似度优化的密度峰聚类方法
US11048730B2 (en) Data clustering apparatus and method based on range query using CF tree
Wang et al. A neighborhood-based three-stage hierarchical clustering algorithm
CN111914930A (zh) 一种基于自适应微簇融合的密度峰值聚类方法
CN116612307A (zh) 一种基于迁移学习的茄科病害等级识别方法
CN109409415A (zh) 一种基于全局信息保持的lle算法
CN114821157A (zh) 基于混合模型网络的多模态影像分类方法
Xiong et al. Density peaks clustering algorithm with connected local density and punished relative distance
Han Stable feature selection: theory and algorithms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant