CN113344091A - 基于标签相关性的多标签流特征确定最优特征子集的方法 - Google Patents
基于标签相关性的多标签流特征确定最优特征子集的方法 Download PDFInfo
- Publication number
- CN113344091A CN113344091A CN202110680679.3A CN202110680679A CN113344091A CN 113344091 A CN113344091 A CN 113344091A CN 202110680679 A CN202110680679 A CN 202110680679A CN 113344091 A CN113344091 A CN 113344091A
- Authority
- CN
- China
- Prior art keywords
- feature
- label
- correlation
- cfs
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于标签相关性的多标签流特征确定最优特征子集的方法,其包括以下步骤:任意的新特征以流的形式依次流入模型;对每个新特征进行在线显著性分析;对非显著的特征进行在线相关性分析;对候选特征集中的特征进行冗余性分析;重复以上步骤,直至没有新的特征流入模型为止,最终获得一个最优特征子集。本发明能从具有流特征和多标签的数据中挖掘特征,并考虑标签之间的相关性以增加算法的预测性能,同时降低学习的时间复杂度,满足在线特征选择的时效性要求。本发明应用广泛,能应用于各种数据的特征选择任务中,有助于在提取特征时过滤掉对任务无用的特征信息,从而提升了相关工作的工作效率。
Description
技术领域
本发明属于模式识别与数据挖掘领域,具体地提供一种基于标签相关性的多标签流特征确定最优特征子集的方法。
背景技术
随着计算机技术的普及和蓬勃发展,数据信息越来越复杂多变,如何从海量的数据信息中筛选有用的信息是大数据时代我们亟待解决的关键问题;特征选择作为一种通过剔除不相关特征和冗余特征来获得“最优特征子集”的特征降维技术,在大数据背景下受到了研究人员的广泛关注。
在复杂多变的数据中,一个实例可能不仅仅只是用一个标签来表示,它可能与多个标签相关联,例如,一个web垃圾邮件可以同时被标记为“欺诈”和“病毒”;同时,多标签数据中标签之间往往存在相互依赖、相互关联的关系,例如,如果一幅图像被标记为“草原”和“狮子”,那么它被标记为“非洲”的可能性很大;如何有效地发掘标签之间的相互关系,并将其应用到特征选择中,是特征选择算法提升性能的关键;同时,在大多数的情况下,数据的特征空间可能是未知的并且可能趋于无限大,随着时间的推移,特征依次流入,需要实时在线处理,因此对特征进行实时在线处理是非常必要的。
另外,多标签流特征选择已经渗入到医疗、通信、娱乐、气象等各个领域,涉及到我们生活和工作等各个方面;例如,YouTube上动态视频的自动标注、动态情感识别、实时气象监测、网络垃圾邮件的实时过滤、随需求不断变化的推荐系统等;然而,在上述具有多标签和流特征的应用场景中,考虑标签之间的相关性进行特征选择是一个巨大的挑战。
现有的一些方法采用每个标签获得的“最优特征子集”的并集作为最终选择的特征集来处理多标签问题,但是这样的方式会产生大量的冗余特征,从而导致预测性能下降。
传统的一些被广泛应用于特征选择的方法能有效地提高多标签数据的预测能力,但是这样的方法不能实时动态地处理流特征问题。
还有一些方法采用对特征权重进行排序的方法筛选特征,但是这样的方法会导致时间复杂度的增加,特别是在高维的特征空间中,因为它们几乎要对所有的特征进行排序。
另外,还有少数方法虽然能有效地处理多标签流特征数据的特征选择问题,但是它们往往忽略了标签之间相关性这个关键的因素;因此,如何有效地解决多标签流特征选择问题,并充分考虑标签之间相关性对算法性能的影响,在数据挖掘领域显得尤为重要。
发明内容
为了解决上述现有技术的不足,本发明提供一种基于标签相关性的多标签流特征确定最优特征子集的方法,能够同时解决多标签流特征数据的特征选择问题,同时考虑标签之间相关性从而进一步提升算法性能,有效地降低算法的时间复杂度,减少数据冗余性,提高相关工作效率。
具体地,本发明提供一种基于标签相关性的多标签流特征确定最优特征子集的方法,其包括以下步骤:
步骤S1、将多个标签定义为标签集L,其中lj∈L,lj为L中的第j个标签,0≤j≤m,m为标签的个数;
步骤S2、计算标签集L中每个标签的重要性权重LW(lj),其具体包括以下子步骤:
S21、根据互信息计算两个标签之间的相关性w(li;lj),将两个相同的标签之间的互信息设为0,即当i=j时,w(li;lj)=0;根据互信息计算两个标签之间的相关性w(li;lj)的公式如下:
式中,MI(·,·)是指互信息,P(·,·)是指联合概率分布函数,P(·|·)是指条件概率分布函数,P(·)是指边缘概率分布函数,1≤k≤N,1≤q≤N,N表示实例的个数,lik表示标签li对应的实例是xk,xk=[x1,x2,…,xd],xk表示d维向量,ljq表示标签lj对应的实例是xq,xq=[x1,x2,…,xd],xq表示d维向量;
S22、将各个标签作为节点,构建加权无向图WUG,将两个标签之间的相关性的值作为加权无向图WUG中两个节点之间的边上的权重;
S23、根据构建的加权无向图WUG,利用以下公式计算每个标签的重要性权重LW(lj):
式中,SW(lj)是各个标签和标签lj的互信息求和,LW(li)和LW(lj)分别表示标签li和标签lj的权重值;SN(li)表示指向标签节点li的节点的集合;w(li,lj)表示标签li和lj之间的相关性;d表示阻尼系数;每个节点均具有一个初始权重,该初始权重设置为1/m,其中m为节点的总数,即标签的总数;
步骤S3、定义模型中第i个特征到达的时刻为ti,并初始化ti=0,特征随着时间的推移依次流入模型;
步骤S5、对i与INF的值进行比较,判断i≤INF是否成立;若成立,则执行步骤S6-S12;若不成立,结束所有步骤并退出;
步骤S6、判断步骤S4定义的候选特征集CFS是否为空集;若候选特征集CFS为空集,则进入步骤S7;若候选特征集CFS不为空集,则进入步骤S8;
步骤S7、当新流入一个特征fi时,判断新流入的特征fi与标签集L是否相关,对新流入的特征fi与标签集L进行相关性分析,若两者不相关,则删除该新流入的特征fi,并进入步骤S12;若两者相关,则将该新流入的特征fi加入到候选特征集CFSi-1,此时,候选特征集CFS=CFSi-1∪fi,之后进入步骤S12;
步骤S8、当新流入一个特征fi时,对特征fi进行显著性分析,判断特征fi是否为显著特征;若该新流入的特征fi为显著特征,则将该新流入的特征fi加入到候选特征集CFSi-1,此时,候选特征集CFS=CFSi-1∪fi;若该新流入的特征fi为非显著特征,则进入步骤S9;
步骤S9、判断该新流入的特征fi与标签集L是否相关,对该新流入的特征fi与标签集L进行相关性分析;若两者不相关,则删除fi并进入步骤S12;若两者相关,则进入步骤S10;
步骤S10、遍历候选特征集CFSi-1中的每个特征,判断CFSi-1中是否存在特征fk能代替该新流入的特征fi,若存在能代替特征fi的特征fk,则将该新流入的特征fi作为冗余特征删除并进入步骤S12;否则,进入步骤S11;
步骤S11、遍历候选特征集CFSi-1中的每个特征,判断该新流入特征fi能否代替CFSi-1中的某个特征fk,若CFSi-1中存在能够被新流入的特征fi代替的特征fk,则将该特征fk作为冗余特征从候选特征集CFSi-1中删除,CFSi-1=CFSi-1-fk,并将新流入的特征fi加入到候选特征集CFSi-1,此时,候选特征集CFS=CFSi-1∪fi,之后进入步骤S12;否则,直接将新流入的特征fi加入到候选特征集CFSi-1,候选特征集CFS=CFSi-1∪fi,之后进入步骤S12;
步骤S12、判断是否还有特征未处理;若结果为是,则返回步骤S5重新进行步骤S5-S12的操作;若结果为否,则输出最优特征子集SF=CFS。
优选地,判断新流入的特征fi与标签集L是否相关,进行相关性分析的具体步骤如下:
利用以下公式计算特征fi与标签集L的相关性:
式中,m为标签的个数,MI(fi;lj)为特征fi与标签lj的相关性,LW(lj)为标签lj的重要性权重;
如果MI(fi;L)<δ(0≤δ<1),则特征fi与标签集L不相关;否则,特征fi与标签集L相关。
优选地,步骤S8中判断新流入的特征fi是否为显著特征,进行显著性分析的具体包括以下子步骤:
S81、利用公式计算特征fi与标签集L的相关度γfi(L):
式中,Si-1表示在ti-1时已经选择的特征集合,CMI(fi;lj|Si-1)表示条件互信息,即在特征集合Si-1的条件下,特征fi与标签集L的相关性;γfi(L)表示特征fi对标签集L的预测能力,并且γfi(L)越大,特征fi的预测能力越强;
S82、利用公式计算特征的平均相关度Meanγ:
式中,Fi表示当前已到达的特征集,fi∈Fi为特征集Fi中的特征,|Fi|表示表示当前已到达的特征的个数,γfi(L)表示特征fi对标签集L的预测能力;
或者,利用逐步迭代的方法计算Meanγ:
式中,Meanγ-1表示到时刻ti-1到达的特征集中特征的平均相关度,|Fi|表示当前到达的特征数;
优选地,Meanγ-1由以下公式计算得到:
之后得到以下公式:
若γfi(L)≥Meanγ,则Meanγ≥Meanγ-1成立。
优选地,步骤S10中判断CFSi-1中是否存在特征fk能代替该新流入的特征fi的具体步骤如下:
S101、计算在特征fk条件下,标签集L和特征fi的条件互信息:
S102、如果满足以下公式,则特征fi相对于特征fk是冗余特征,删除该新流入特征fi:
CMI(L;fi|fk)≤δand MI(fk;L)≥MI(fi;L)
式中,fi表示在时刻ti新到达的特征,CMI(L;fi|fk)为条件互信息,MI(fk;L)和MI(fi;L)为互信息。
优选地,步骤S11中判断该新流入特征fi能否代替CFSi-1中的某个特征fk的具体步骤如下:
S111、计算在特征fi条件下,标签集L和特征fk的条件互信息:
S112、如果满足以下公式,则特征fk相对于特征fi是冗余特征,删除特征fk:
CMI(L;fk|fi)≤δand MI(fk;L)<MI(fi;L)。
优选地,阻尼系数d设置为d=0.85。
本发明由于采用了上述的技术方案,本发明具有以下有益效果:
(1)本发明的方法通过设置相关性阈值的方法进行相关性和冗余性分析,从而能够提升算法寻找最优预测性能的灵活性。另外,考虑标签之间的相关性能够大大增加算法学习的准确性和提升算法的预测性能。在具体进行相关性分析时,能够针对不同的数据类型采用不同的相关性分析方法,当数据为离散数据时,采用互信息的方式计算相关性,该方法不需要对两个随机变量之间关系的性质作任何假设,非常适合离散数据的相关性计算。当数据为连续数据时,则采用Fisher’s Z-test中的偏相关系数计算相关性。本发明针对不同的数据类型采用不同的方式计算数据之间的相关性,从而能够有针对性地解决特征和标签之间,以及标签和标签之间相关性的问题,从而能够更好的提升算法的预测分类性能。
(2)本发明在应用时对特征的处理采用动态实时分析的方法,无需事先了解数据的全局特征信息,随着特征依次到达,对每个新到的特征进行及时分析处理,从而能适用于特征空间庞大、高维数据的特征选择。
(3)本发明在计算重要性权重时,通过构建标签的加权无向图,同时将标签之间的相关性值作为加权无向图边上的权值,计算每个标签的重要性权重。其为解决多标签问题提供了全新的思路。
(4)本发明应用广泛,其能够应用于各种数据的特征选择任务中,例如将本方法应用于蛋白质亚细胞定位、实时气象检测以及视频图像处理等领域,有助于研究人员过滤掉对研究任务无用的特征信息,大大提升研究人员的研究效率。
附图说明
图1为本发明基于标签相关性的多标签流特征确定最优特征子集的方法的工作流程示意图;
图2为本发明基于标签相关性的多标签流特征确定最优特征子集的方法标签的加权无向图WUG;
图3为本发明基于标签相关性的多标签流特征确定最优特征子集的方法不同阈值下算法的性能示意图之一;
图4为本发明基于标签相关性的多标签流特征确定最优特征子集的方法不同阈值下算法的性能示意图之二;
图5为本发明基于标签相关性的多标签流特征确定最优特征子集的方法不同阈值下算法的性能示意图之三;
图6为本发明基于标签相关性的多标签流特征确定最优特征子集的方法不同阈值下算法的性能示意图之四;
图7为本发明基于标签相关性的多标签流特征确定最优特征子集的方法不同阈值下算法的性能示意图之五;
图8为本发明基于标签相关性的多标签流特征确定最优特征子集的方法不同阈值下算法所选择的最优特征子集示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。需要注意的为,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。例如本发明所用的前、后、左和右仅仅是示例性质的,是为了描述方便使用的用语。
下面通过实施例以及相关附图,对本发明的技术方案作进一步具体的说明。
为了解决大数据背景下海量数据特征的挖掘问题,本发明提供了一种基于标签相关性的多标签流特征确定最优特征子集的方法,其针对离散数据和连续数据具有不同的计算相关性的方法,同时采用实时处理特征的方法解决流特征问题,并能在挖掘尽可能少的特征的前提下,保证高预测性能和低时间复杂度,尽可能的提高相关工作效率。
如图1所示,本发明提供一种基于标签相关性的多标签流特征确定最优特征子集的方法,其包括以下步骤:
步骤S1、定义标签集L,其中lj∈L,lj为L中的第j个标签,0≤j≤m,m表示标签的个数。
步骤S2、计算每个标签的重要性权重LW(lj),计算多标签数据中的每个标签的重要性权重,其具体包括以下子步骤:
S21、首先根据互信息的公式计算两两标签之间的相关性w(li;lj),当i=j时,w(li;lj)=0,也就是两个标签相同时,将他们之间的互信息设置为0,以下是计算两个标签之间的互信息公式:
式中,MI(·,·)是指互信息,P(·,·)是指联合概率分布函数,P(·|·)是指条件概率分布函数,P(·)是指边缘概率分布函数,1≤k≤N,1≤q≤N,N表示实例的个数,lik表示标签li对应的实例是xk(xk=[x1,x2,…,xd]表示d维向量),ljq表示标签lj对应的实例是xq(xq=[x1,x2,…,xd]表示d维向量)。
S22、将各个标签作为节点,将任意两个标签节点之间连线,构建加权无向图WUG,将任意两个标签之间的互信息值作为图的两个标签节点边上的权重,得到如图2所示的加权无向图WUG。
S23、通过构建的加权无向图WUG,根据以下公式计算每个标签的重要性权重:
式中,SW(lj)是各个标签和标签lj的互信息求和,LW(li)和LW(lj)分别表示标签li和lj的权重值;SN(li)表示指向标签节点li的节点的集合;w(li;lj)表示标签li和lj之间的相关性;d代表阻尼系数,通常设置为d=0.85。为了执行本算法,所有的节点都有一个初始权重,设为1/m,其中m代表的是节点的总数,即标签的总数。
步骤S3、定义第i个特征到达的时刻为ti;并初始化ti=0;用于表示特征是随着时间的推移依次流入模型的。
步骤S4、定义在时刻ti到达的特征为fi;定义特征数的极限值是INF;INF用于记录数据的特征个数的最大值。
步骤S6、定义相关性阈值δ;用来判断特征和标签之间的相关性,其具体包括以下子步骤:
S61、对于相关性阈值δ,本发明通过设置对比实验的方法设置相关性阈值,该阈值用于评价特征与标签之间的相关性;在相关性阈值δ的分析中利用三种不同领域的数据集分析阈值δ对算法的影响;其中,Yeast数据集属于生物医学数据集,Enron和Business属于文本分类数据集;此外由于Enron和Business具有不同的数据类型,分别为离散型和连续型数据,因此选择这三个数据集判断相关性阈值对于算法影响具有代表性。
本发明选择了5个评价指标去评估本发明方法在三个数据集上的性能。5个评价指标分别为Average Precision、Hamming Loss、Ranking Loss、Coverage、One-error。由于,对于离散数据使用对称不确定性SU代替互信息MI,对于连续数据使用偏相关系数ξ代替互信息,因此,将相关性阈值δ设置成从0到0.1,其步长为0.01。根据对比实验,得到了图3-图7所示的在不同类型的数据集下,不同阈值下的预测性能和图8所示的选择的特征数量。
S62、在图3-图7中,随着δ值的不断增大,相关性阈值对本发明方法的影响较小,但是Enron数据集下的相关性阈值不超过0.04;并且,在图8中,当Enron的相关阈值δ超过0.04时,所选择的特征数变少甚至为零;其次,由于δ对本发明方法的紧密性有显著的影响,因此随着δ值的增加,选择的特征数减少。因此,在实际操作中,相关性阈值取值在0<δ≤1范围内的任意值来进行效果调试,这样使得该方法在判断特征和标签的相关性关系具有非常大的灵活性,同时,δ的最优取值还要考虑数据集的类型,根据不同类型选择不同的数值。
步骤S7、对i和INF的数值进行比较,判断i≤INF是否成立,若成立,则进行步骤S8-S15;若不成立,算法结束并退出。
步骤S9、判断新到达的特征fi与标签集L是否相关,对两者进行相关性分析;测试第i个特征fi与标签集L的相关性,若不相关,则删除fi不再考虑,并进行步骤S15;否则,将特征fi加入到候选特征集CFSi-1中,此时,CFS=CFSi-1∪fi。该相关性判断具体包括以下子步骤:
S91、由于在步骤S2已经计算出每个标签的重要性权重LW(lj),因此特征fi与标签集L的相关性的计算方法是对特征fi与单个标签lj的相关性和标签lj的权重的乘积求和,则特征fi与标签集L的相关性按以下公式计算:
式中,m为标签的个数,MI(fi;lj)为特征fi与标签lj的相关性,LW(lj)为标签lj的重要性权重;
S92、根据步骤S6中定义相关性阈值δ,判断MI(fi;L)<δ(0≤δ<1)是否成立,若成立,则特征fi与标签集L不相关;若不成立,则特征fi与标签集L相关。
步骤S10、判断特征fi是否为显著特征,进行显著性分析;将ti时刻到达的特征fi和标签集L的相关度与已到达特征的相关度的均值进行比较,若fi是显著特征,则将fi加入到候选特征集CFSi-1,CFSi=CFSi-1∪fi;否则,进行步骤S11。显著性分析具体包括以下子步骤:
S101、在线显著性分析的目的是评估新到达特征相对于当前到达特征的与标签之间的相关程度,从而筛选出相对于其它到达的特征来说预测性能显著的特征;首先,需要用以下公式计算出特征fi与标签集L的相关度γfi(L):
式中,Si-1表示在ti-1时已经选择的特征集合;CMI(fi;lj|Si-1)表示条件互信息,即在特征集合Si-1的条件下,特征fi与标签集L的相关性,采用条件互信息的原因是它用来判断在忽略其它特征的条件下单独添加新的特征fi,对标签集L的预测能力;γfi(L)表示特征fi对标签集L的预测能力,并且γfi(L)越大,特征fi的预测能力越强。
S102、为了评估特征fi相对于其它已到达的特征是否是显著特征,需要定义平均相关度Meanγ来进行比较,利用以下公式计算特征的平均相关度Meanγ:
式中,Fi表示当前已到达的特征集,fi∈Fi为特征集Fi中的特征,|Fi|表示表示当前已到达的特征的个数,γfi(L)表示特征fi对标签集L的预测能力;采用当前已到达的特征的平均的原因在于,现存的一些方法计算的是当前已经选择的特征集Si-1中的特征fi(fi∈Si-1)和标签集L之间的相关性的均值,并将其与fi和L的相关度进行比较,但是这样的方法会导致那些对提升预测性能有用的次显著特征被过滤掉;因此在本发明提出的方法中,相关性均值的计算方法是计算当前已到达的特征集中的fi(fi∈Fi)和标签集L的相关性。
S103、利用逐步迭代的方法计算Meanγ:
式中,Meanγ-1表示到时刻ti-1到达的特征集中(排除新到达的特征)特征的平均相关度,|Fi|表示当前到达的特征数;由于在第一个特征到来的时候没有候选特征集,所以直到第二个特征到达时才执行显著性分析阶段的挖掘显著特征的步骤,因此|Fi|>1成立。
S104、若γfi(L)≥Meanγ成立,则特征fi是显著特征;否则,特征fi为非显著特征。
由于Meanγ-1可以由以下公式计算得到:
所以有以下公式成立:
所以,如果γfi(L)≥Meanγ,那么Meanγ≥Meanγ-1成立;这表明增加新的特征fi可以增加平均相关度值,也就是说,特征fi增加对标签的预测能力,从而认为fi是显著特征;否则增加新的特征fi对标签的预测性能很小,则其为非显著特征。
步骤S11、判断特征fi与标签集L是否相关,进行相关性分析;测试第i个特征fi与标签集L的相关性,若不相关,则删除fi并进行步骤S15;否则,进行步骤S12-S14;相关性分析其具体包括以下子步骤:
S111、由于在步骤S2已经计算出每个标签的重要性权重LW(lj),那么特征fi与标签集L的相关性的计算方法是对特征fi与单个标签lj的相关性和标签lj的权重的乘积求和,则特征fi与标签集L的相关性按以下公式计算:
式中,m为标签的个数,MI(fi;lj)为特征fi与标签lj的相关性,LW(lj)为标签lj的重要性权重;
S112、根据步骤S6中定义相关性阈值δ,判断MI(fi;L)<δ(0≤δ<1)是否成立,若成立,则特征fi与标签集L不相关;若不成立,则特征fi与标签集L相关。
步骤S12、遍历候选特征集CFSi-1中的每个特征。
步骤S13、判断CFSi-1中是否存在特征fk能代替特征fi,进行冗余性分析;若存在这样的fk,则说明特征fi是冗余特征,则将fi作为冗余特征删除并进行步骤S15;否则,进行步骤S14。该冗余性分析其具体包括以下子步骤:
S131、在本发明方法中采用成对比较的方法进行冗余性分析,假设Si-1代表在时刻ti-1为止已经选择的特征集,fi代表新到达的特征,为了评估fi相对于Si-1是否是冗余特征,需要检测所有的子集Si-1(子集的个数是2|Si-1|)所包含的对L的预测信息;为了解决这种较高的时间复杂度问题,本发明采用成对比较的方法去评估冗余特征,大大降低了算法的时间复杂度,一旦新到达的特征被加入到Si-1,在线冗余性分析阶段被执行。
CMI(L;fi|fk)≤δand MI(fk;L)≥MI(fi;L)
式中,fi表在时刻ti新到达的特征,CMI(L;fi|fk)为条件互信息,MI(fk;L)和MI(fi;L)为互信息。
S133、判断特征fi是冗余特征的条件成立的原因如下:
首先,假设Si-1表示在时刻ti-1已经选择的特征集,fi为在ti时刻新到达的特征,如果存在fk∈Si-1使得CMI(L;fi|fk)≤δ(0≤δ<1)成立,说明将特征fi单独加入到特征fk中并不会增加fk的预测能力,从而说明fi为冗余特征,CMI(L;fi|fk)通过以下公式获得:
式中,m为标签个数,CMI(lj;fi|fk)为条件互信息,LW(lj)为标签lj的重要性权重;由于联合互信息MI(L;fk,fi)表示两个特征fi和fk对标签L的预测能力,MI(L;fk)表示L和fk的相关性,因此可以用MI(L;fi,fk)-MI(L;fk)判断将特征fi单独加入到特征fk中是否能增加fk的预测能力,根据互信息的计算公式可以得到CMI(L;fi|fk)=MI(L;fi,fk)-MI(L;fk)。
其次,若CMI(L;fi|fk)=0,成立,则更加说明fi为冗余特征,由于:
MI(fi;L)+MI(fi;fk|L)=H(fi)-H(fi|L)+H(fi|L)-H(fi|fkL)=H(fi)-H(fi|fkL)
MI(fi;fk)+MI(L;fi|fk)=H(fi)-H(fi|fk)+H(fi|fk)-H(fi|fkL)=H(fi)-H(fi|fkL)
根据上式,得到MI(fi;L)+MI(fi;fk|L)=MI(fi;fk)+MI(L;fi|fk),因为有MI(L;fi|fk)=0,得到MI(fi;fk|L)=MI(fi;fk)-MI(fi;L);再有,MI(fk;L)+MI(fk;fi|L)=MI(fk;fi)+MI(L;fk|fi),根据互信息的性质MI(fi;fk|L)=MI(fk;fi|L),从而,MI(L;fk|fi)=MI(fk;L)-MI(fi;L);由于,MI(A;B|C)≥0,得到MI(fk;L)≥MI(fi;L)。
综上,证明满足CMI(L;fi|fk)≤δand MI(fk;L)≥MI(fi;L)条件时,特征fi为冗余特征。
步骤S14、判断特征fi能否代替CFSi-1中的某个特征fk,进行冗余性分析;若存在这样的fk,则将fk作为冗余特征从候选特征集CFSi-1中删除,CFSi-1=CFSi-1-fk,并将fi加入到候选特征集CFSi-1,CFS=CFSi-1∪fi;否则,将fi加入到候选特征集CFSi-1,CFS=CFSi-1∪fi,该冗余性分析其具体包括以下子步骤:
CMI(L;fk|fi)≤δand MI(fk;L)<MI(fi;L)
式中,fi表示在时刻ti新到达的特征,CMI(L;fk|fi)为条件互信息,MI(fk;L)和MI(fi;L)为互信息。
S142、判断特征fk是冗余特征的条件成立的原因如下:
首先,假设Si-1表示在时刻ti-1已经选择的特征集,fi为在ti时刻新到达的特征,如果存在fk∈Si-1使得CMI(L;fk|fi)≤δ(0≤δ<1)成立,说明将特征fk单独加入到特征fi中并不会增加fi的预测能力,从而说明fk为冗余特征,CMI(L;fk|fi)通过以下公式获得:
式中,m为标签个数,CMI(lj;fk|fi)为条件互信息,LW(lj)为标签lj的重要性权重;由于联合互信息MI(L;fk,fi)表示两个特征fi和fk对标签L的预测能力,MI(L;fi)表示L和fi的相关性,因此可以用MI(L;fk,fi)-MI(L;fi)判断将特征fk单独加入到特征fi中是否能增加fi的预测能力,根据互信息的计算公式可以得到CMI(L;fk|fi)=MI(L;fk,fi)-MI(L;fi)。
其次,若CMI(L;fk|fi)=0,成立,则更加说明fk为冗余特征,由于:
MI(fk;L)+MI(fk;fi|L)=H(fk)-H(fk|L)+H(fk|L)
-H(fk|fiL)=H(fk)-H(fk|fiL)
MI(fk;fi)+MI(L;fk|fi)=H(fk)-H(fk|fi)+H(fk|fi)
-H(fk|fiL)=H(fk)-H(fk|fiL)
根据上式,得到MI(fk;L)+MI(fk;fi|L)=MI(fk;fi)+MI(L;fk|fi),因为有MI(L;fk|fi)=0,得到MI(fk;fi|L)=MI(fk;fi)-MI(fk;L);再有,MI(fi;L)+MI(fi;fk|L)=MI(fi;fk)+MI(L;fi|fk),根据互信息的性质MI(fi;fk|L)=MI(fk;fi|L),从而,MI(L;fi|fk)=MI(fi;L)-MI(fk;L);由于,MI(A;B|C)≥0,得到MI(fk;L)<MI(fi;L)。
综上,证明满足CMI(L;fk|fi)≤δand MI(fk;L)<MI(fi;L)条件时,特征fk为冗余特征。
步骤S15、判断是否还有特征未处理,若有,则返回步骤S7,目的是为了重复地产生新的特征,直到没有新的特征需要再处理;若没有,则输出最优特征子集SF=CFS;
关于本发明的方法应该说明的是:
1、由于数据类型是多样的,在本发明的方法中,对于离散数据,选择使用互信息的方法来评估特征和标签之间的相关性;在实际应用中,本发明方法通过计算对称不确定性来代替互信息,对称不确定性的公式如下:
式中,MI(A;B)为随机变量A和B的互信息,H(A)和H(B)分别为变量A和B的熵。使用SU(A,B)代替MI(A;B),SU(A,B)能将互信息的值MI(A;B)归一化到0和1从而弥补MI(A;B)偏向更大的值的问题。
受到对称不确定性公式的启发,本专利用CSU(A,B|C)代替条件互信息CMI(A;B|C):
式中,CMI(A;B|C)条件互信息,即在随机变量C的条件下,随机变量A和B的互信息,H(A|C)和H(B|C)为条件熵,分别表示在已知随机变量C的条件下,随机变量A和B的不确定性。
2、在本发明的方法中,对于连续数据,选择使用Fisher’s Z-test中的偏相关系数方法来评估特征和标签之间的相关性:
式中,N代表实例数,z是条件特征,ξ代表在给定特征z的条件下特征x和y的总体偏相关。
在实际应用中,本发明方法通过计算偏相关系数来代替互信息,偏相关系数的公式如下:
在实际应用中,本发明方法通过计算总体偏相关系数来代替条件互信息,总体偏相关系数的公式如下:
式中,偏相关系数计算如上式所示。由于偏相关系数可以去除其它特征的影响,从而能更好地处理连续数据的特征和标签之间的相关程度。
本发明的方法通过设置相关性阈值的方法进行相关性和冗余性分析,从而能够提升算法寻找最优预测性能的灵活性。另外,考虑标签之间的相关性能够大大增加算法学习的准确性和提升算法的预测性能。在具体进行相关性分析时,能够针对不同的数据类型采用不同的相关性分析方法,当数据为离散数据时,采用互信息的方式计算相关性,该方法不需要对两个随机变量之间关系的性质作任何假设,非常适合离散数据的相关性计算。当数据为连续数据时,则采用Fisher’s Z-test中的偏相关系数计算相关性。本发明针对不同的数据类型采用不同的方式计算数据之间的相关性,从而能够有针对性地解决特征和标签之间,以及标签和标签之间相关性的问题,从而能够更好的提升算法的预测分类性能。
本方法适用于处理离散数据和连续数据的情况,并且针对不同的数据类型,采用不同的方式计算相关性,从而能尽可能提升算法的预测分类性能;本方法通过设置相关性阈值的方法进行相关性和冗余性分析,从而能提升算法寻找最优预测性能的灵活性。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (7)
1.一种基于标签相关性的多标签流特征确定最优特征子集的方法,其特征在于,其包括如下步骤:
步骤S1、将多个标签定义为标签集L,其中lj∈L,lj为L中的第j个标签,0≤j≤m,m为标签的个数;
步骤S2、计算标签集L中每个标签的重要性权重LW(lj),其具体包括以下子步骤:
S21、根据互信息计算两个标签之间的相关性w(li;lj),将两个相同的标签之间的互信息设为0,即当i=j时,w(li;lj)=0;根据互信息计算两个标签之间的相关性w(li;lj)的公式如下:
式中,MI(·,·)表示互信息,P(·,·)表示联合概率分布函数,P(·|·)表示条件概率分布函数,P(·)表示边缘概率分布函数,1≤k≤N,1≤q≤N,N表示实例的个数,lik表示标签li对应的实例是xk,xk=[x1,x2,…,xd],xk表示d维向量,ljq表示标签lj对应的实例是xq,xq=[x1,x2,…,xd],xq表示d维向量;
S22、将各个标签作为节点,构建加权无向图WUG,将两个标签之间的相关性的值作为加权无向图WUG中两个节点之间的边上的权重;
S23、根据构建的加权无向图WUG,利用以下公式计算每个标签的重要性权重LW(lj):
式中,SW(lj)表示各个标签和标签lj的互信息求和,LW(li)和LW(lj)分别表示标签li和标签lj的权重值;SN(li)表示指向标签节点li的节点的集合;w(li,lj)表示标签li和lj之间的相关性;d表示阻尼系数;每个节点均具有一个初始权重,该初始权重设置为1/m,其中m为节点的总数,即标签的总数;
步骤S3、定义模型中第i个特征到达的时刻为ti,并初始化ti=0,特征随着时间的推移依次流入模型;
步骤S5、对i与INF的值进行比较,判断i≤INF是否成立;若成立,则执行步骤S6-S12;若不成立,结束所有步骤并退出;
步骤S6、判断步骤S4定义的候选特征集CFS是否为空集;若候选特征集CFS为空集,则进入步骤S7;若候选特征集CFS不为空集,则进入步骤S8;
步骤S7、当新流入一个特征fi时,判断新流入的特征fi与标签集L是否相关,对新流入的特征fi与标签集L进行相关性分析,若两者不相关,则删除该新流入的特征fi,并进入步骤S12;若两者相关,则将该新流入的特征fi加入到候选特征集CFSi-1,此时,候选特征集CFS=CFSi-1∪fi,之后进入步骤S12;
步骤S8、当新流入一个特征fi时,对特征fi进行显著性分析,判断特征fi是否为显著特征;若该新流入的特征fi为显著特征,则将该新流入的特征fi加入到候选特征集CFSi-1,此时,候选特征集CFS=CFSi-1∪fi;若该新流入的特征fi为非显著特征,则进入步骤S9;
步骤S9、判断该新流入的特征fi与标签集L是否相关,对该新流入的特征fi与标签集L进行相关性分析;若两者不相关,则删除fi并进入步骤S12;若两者相关,则进入步骤S10;
步骤S10、遍历候选特征集CFSi-1中的每个特征,判断CFSi-1中是否存在特征fk能代替该新流入的特征fi,若存在能代替特征fi的特征fk,则将该新流入的特征fi作为冗余特征删除并进入步骤S12;否则,进入步骤S11;
步骤S11、遍历候选特征集CFSi-1中的每个特征,判断该新流入特征fi能否代替CFSi-1中的某个特征fk,若CFSi-1中存在能够被新流入的特征fi代替的特征fk,则将该特征fk作为冗余特征从候选特征集CFSi-1中删除,CFSi-1=CFSi-1-fk,并将新流入的特征fi加入到候选特征集CFSi-1,此时,候选特征集CFS=CFSi-1∪fi,之后进入步骤S12;否则,直接将新流入的特征fi加入到候选特征集CFSi-1,候选特征集CFS=CFSi-1∪fi,之后进入步骤S12;
步骤S12、判断是否有特征未处理;若结果为是,则返回步骤S5按照流程重新进行操作;若结果为否,则输出最优特征子集SF=CFS。
3.根据权利要求1所述的基于标签相关性的多标签流特征确定最优特征子集的方法,其特征在于:步骤S8中判断新流入的特征fi是否为显著特征,进行显著性分析的具体包括以下子步骤:
S81、利用公式计算特征fi与标签集L的相关度γfi(L):
式中,Si-1表示在ti-1时已经选择的特征集合,CMI(fi;lj|Si-1)表示条件互信息,即在特征集合Si-1的条件下,特征fi与标签集L的相关性;γfi(L)表示特征fi对标签集L的预测能力即相关度,并且γfi(L)越大,特征fi的预测能力越强;
S82、利用公式计算特征的平均相关度Meanγ:
式中,Fi表示当前已到达的特征集,fi∈Fi为特征集Fi中的特征,|Fi|表示表示当前已到达的特征的个数,γfi(L)表示特征fi对标签集L的预测能力;
或者,利用逐步迭代的方法计算Meanγ:
...
式中,Meanγ-1表示时刻ti-1到达的特征集中特征的平均相关度,|Fi|表示当前到达的特征数;
7.根据权利要求1所述的基于标签相关性的多标签流特征确定最优特征子集的方法,其特征在于:阻尼系数d设置为d=0.85。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110680679.3A CN113344091A (zh) | 2021-06-18 | 2021-06-18 | 基于标签相关性的多标签流特征确定最优特征子集的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110680679.3A CN113344091A (zh) | 2021-06-18 | 2021-06-18 | 基于标签相关性的多标签流特征确定最优特征子集的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113344091A true CN113344091A (zh) | 2021-09-03 |
Family
ID=77477369
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110680679.3A Pending CN113344091A (zh) | 2021-06-18 | 2021-06-18 | 基于标签相关性的多标签流特征确定最优特征子集的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113344091A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114091607A (zh) * | 2021-11-24 | 2022-02-25 | 燕山大学 | 一种基于邻域粗糙集的半监督多标签在线流特征选择算法 |
CN115729957A (zh) * | 2022-11-28 | 2023-03-03 | 安徽大学 | 一种基于最大信息系数的未知流特征选择方法及装置 |
-
2021
- 2021-06-18 CN CN202110680679.3A patent/CN113344091A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114091607A (zh) * | 2021-11-24 | 2022-02-25 | 燕山大学 | 一种基于邻域粗糙集的半监督多标签在线流特征选择算法 |
CN114091607B (zh) * | 2021-11-24 | 2024-05-03 | 燕山大学 | 一种基于邻域粗糙集的半监督多标签在线流特征选择方法 |
CN115729957A (zh) * | 2022-11-28 | 2023-03-03 | 安徽大学 | 一种基于最大信息系数的未知流特征选择方法及装置 |
CN115729957B (zh) * | 2022-11-28 | 2024-01-19 | 安徽大学 | 一种基于最大信息系数的未知流特征选择方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110929047B (zh) | 关注邻居实体的知识图谱推理方法和装置 | |
US20240152732A1 (en) | Training and prediction of hybrid graph neural network model | |
Tran et al. | Community detection in partially observable social networks | |
CN113344091A (zh) | 基于标签相关性的多标签流特征确定最优特征子集的方法 | |
CN113821793B (zh) | 基于图卷积神经网络的多阶段攻击场景构建方法及系统 | |
CN110781960B (zh) | 视频分类模型的训练方法、分类方法、装置及设备 | |
CN112765477A (zh) | 信息处理、信息推荐的方法和装置、电子设备和存储介质 | |
CN112785005B (zh) | 多目标任务的辅助决策方法、装置、计算机设备及介质 | |
Sibindi et al. | A boosting ensemble learning based hybrid light gradient boosting machine and extreme gradient boosting model for predicting house prices | |
CN110719106A (zh) | 一种基于节点分类排序的社交网络图压缩方法及系统 | |
CN112766402A (zh) | 算法选择方法、装置和电子设备 | |
CN113627479A (zh) | 一种基于半监督学习的图数据异常检测方法 | |
CN110443574B (zh) | 多项目卷积神经网络评审专家推荐方法 | |
CN115114484A (zh) | 异常事件检测方法、装置、计算机设备和存储介质 | |
CN114548296A (zh) | 一种基于自适应框架的图卷积推荐方法及相关装置 | |
CN113314188A (zh) | 图结构增强的小样本学习方法、系统、设备及存储介质 | |
CN113127730A (zh) | 一种基于重叠社区的社区检测方法、终端设备及存储介质 | |
Mohan et al. | Location based cloud resource management for analyzing real-time videos from globally distributed network cameras | |
CN112183820A (zh) | 基于线性规划的有向网络链路预测方法 | |
CN108830302B (zh) | 一种图像分类方法、训练方法、分类预测方法及相关装置 | |
Zhang et al. | A crowd-AI dynamic neural network hyperparameter optimization approach for image-driven social sensing applications | |
CN112396477B (zh) | 业务预测模型的构建方法及装置 | |
CN114329231A (zh) | 对象特征处理方法、装置、电子设备及存储介质 | |
CN112906824B (zh) | 车辆聚类方法、系统、设备及存储介质 | |
CN114913369A (zh) | 基于知识推理的主动救援决策方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |