CN113344091A

CN113344091A - 基于标签相关性的多标签流特征确定最优特征子集的方法

Info

Publication number: CN113344091A
Application number: CN202110680679.3A
Authority: CN
Inventors: 尤殿龙; 王杨
Original assignee: Yanshan University
Current assignee: Yanshan University
Priority date: 2021-06-18
Filing date: 2021-06-18
Publication date: 2021-09-03

Abstract

本发明涉及一种基于标签相关性的多标签流特征确定最优特征子集的方法，其包括以下步骤：任意的新特征以流的形式依次流入模型；对每个新特征进行在线显著性分析；对非显著的特征进行在线相关性分析；对候选特征集中的特征进行冗余性分析；重复以上步骤，直至没有新的特征流入模型为止，最终获得一个最优特征子集。本发明能从具有流特征和多标签的数据中挖掘特征，并考虑标签之间的相关性以增加算法的预测性能，同时降低学习的时间复杂度，满足在线特征选择的时效性要求。本发明应用广泛，能应用于各种数据的特征选择任务中，有助于在提取特征时过滤掉对任务无用的特征信息，从而提升了相关工作的工作效率。

Description

基于标签相关性的多标签流特征确定最优特征子集的方法

技术领域

本发明属于模式识别与数据挖掘领域，具体地提供一种基于标签相关性的多标签流特征确定最优特征子集的方法。

背景技术

随着计算机技术的普及和蓬勃发展，数据信息越来越复杂多变，如何从海量的数据信息中筛选有用的信息是大数据时代我们亟待解决的关键问题；特征选择作为一种通过剔除不相关特征和冗余特征来获得“最优特征子集”的特征降维技术，在大数据背景下受到了研究人员的广泛关注。

在复杂多变的数据中，一个实例可能不仅仅只是用一个标签来表示，它可能与多个标签相关联，例如，一个web垃圾邮件可以同时被标记为“欺诈”和“病毒”；同时，多标签数据中标签之间往往存在相互依赖、相互关联的关系，例如，如果一幅图像被标记为“草原”和“狮子”，那么它被标记为“非洲”的可能性很大；如何有效地发掘标签之间的相互关系，并将其应用到特征选择中，是特征选择算法提升性能的关键；同时，在大多数的情况下，数据的特征空间可能是未知的并且可能趋于无限大，随着时间的推移，特征依次流入，需要实时在线处理，因此对特征进行实时在线处理是非常必要的。

另外，多标签流特征选择已经渗入到医疗、通信、娱乐、气象等各个领域，涉及到我们生活和工作等各个方面；例如，YouTube上动态视频的自动标注、动态情感识别、实时气象监测、网络垃圾邮件的实时过滤、随需求不断变化的推荐系统等；然而，在上述具有多标签和流特征的应用场景中，考虑标签之间的相关性进行特征选择是一个巨大的挑战。

现有的一些方法采用每个标签获得的“最优特征子集”的并集作为最终选择的特征集来处理多标签问题，但是这样的方式会产生大量的冗余特征，从而导致预测性能下降。

传统的一些被广泛应用于特征选择的方法能有效地提高多标签数据的预测能力，但是这样的方法不能实时动态地处理流特征问题。

还有一些方法采用对特征权重进行排序的方法筛选特征，但是这样的方法会导致时间复杂度的增加，特别是在高维的特征空间中，因为它们几乎要对所有的特征进行排序。

另外，还有少数方法虽然能有效地处理多标签流特征数据的特征选择问题，但是它们往往忽略了标签之间相关性这个关键的因素；因此，如何有效地解决多标签流特征选择问题，并充分考虑标签之间相关性对算法性能的影响，在数据挖掘领域显得尤为重要。

发明内容

为了解决上述现有技术的不足，本发明提供一种基于标签相关性的多标签流特征确定最优特征子集的方法，能够同时解决多标签流特征数据的特征选择问题，同时考虑标签之间相关性从而进一步提升算法性能，有效地降低算法的时间复杂度，减少数据冗余性，提高相关工作效率。

具体地，本发明提供一种基于标签相关性的多标签流特征确定最优特征子集的方法，其包括以下步骤：

步骤S1、将多个标签定义为标签集L，其中l_j∈L，l_j为L中的第j个标签，0≤j≤m，m为标签的个数；

步骤S2、计算标签集L中每个标签的重要性权重LW(l_j)，其具体包括以下子步骤：

S21、根据互信息计算两个标签之间的相关性w(l_i；l_j)，将两个相同的标签之间的互信息设为0，即当i＝j时，w(l_i；l_j)＝0；根据互信息计算两个标签之间的相关性w(l_i；l_j)的公式如下：

式中，MI(·,·)是指互信息，P(·,·)是指联合概率分布函数，P(·|·)是指条件概率分布函数，P(·)是指边缘概率分布函数，1≤k≤N，1≤q≤N，N表示实例的个数，l_ik表示标签l_i对应的实例是x_k，x_k＝[x¹,x²,…,x^d]，x_k表示d维向量，l_jq表示标签l_j对应的实例是x_q，x_q＝[x¹,x²,…,x^d]，x_q表示d维向量；

S22、将各个标签作为节点，构建加权无向图WUG，将两个标签之间的相关性的值作为加权无向图WUG中两个节点之间的边上的权重；

S23、根据构建的加权无向图WUG，利用以下公式计算每个标签的重要性权重LW(l_j)：

式中，SW(l_j)是各个标签和标签l_j的互信息求和，LW(l_i)和LW(l_j)分别表示标签l_i和标签l_j的权重值；SN(l_i)表示指向标签节点l_i的节点的集合；w(l_i,l_j)表示标签l_i和l_j之间的相关性；d表示阻尼系数；每个节点均具有一个初始权重，该初始权重设置为1/m，其中m为节点的总数，即标签的总数；

步骤S3、定义模型中第i个特征到达的时刻为t_i，并初始化t_i＝0，特征随着时间的推移依次流入模型；

步骤S4、定义在时刻t_i到达的特征为f_i；定义特征数的极限值为INF；定义候选特征集为CFS，并初始化

定义相关性阈值为δ；

步骤S5、对i与INF的值进行比较，判断i≤INF是否成立；若成立，则执行步骤S6-S12；若不成立，结束所有步骤并退出；

步骤S6、判断步骤S4定义的候选特征集CFS是否为空集；若候选特征集CFS为空集，则进入步骤S7；若候选特征集CFS不为空集，则进入步骤S8；

步骤S7、当新流入一个特征f_i时，判断新流入的特征f_i与标签集L是否相关，对新流入的特征f_i与标签集L进行相关性分析，若两者不相关，则删除该新流入的特征f_i，并进入步骤S12；若两者相关，则将该新流入的特征f_i加入到候选特征集CFS_i-1，此时，候选特征集CFS＝CFS_i-1∪f_i，之后进入步骤S12；

步骤S8、当新流入一个特征f_i时，对特征f_i进行显著性分析，判断特征f_i是否为显著特征；若该新流入的特征f_i为显著特征，则将该新流入的特征f_i加入到候选特征集CFS_i-1，此时，候选特征集CFS＝CFS_i-1∪f_i；若该新流入的特征f_i为非显著特征，则进入步骤S9；

步骤S9、判断该新流入的特征f_i与标签集L是否相关，对该新流入的特征f_i与标签集L进行相关性分析；若两者不相关，则删除f_i并进入步骤S12；若两者相关，则进入步骤S10；

步骤S10、遍历候选特征集CFS_i-1中的每个特征，判断CFS_i-1中是否存在特征f_k能代替该新流入的特征f_i，若存在能代替特征f_i的特征f_k，则将该新流入的特征f_i作为冗余特征删除并进入步骤S12；否则，进入步骤S11；

步骤S11、遍历候选特征集CFS_i-1中的每个特征，判断该新流入特征f_i能否代替CFS_i-1中的某个特征f_k，若CFS_i-1中存在能够被新流入的特征f_i代替的特征f_k，则将该特征f_k作为冗余特征从候选特征集CFS_i-1中删除，CFS_i-1＝CFS_i-1-f_k，并将新流入的特征f_i加入到候选特征集CFS_i-1，此时，候选特征集CFS＝CFS_i-1∪f_i，之后进入步骤S12；否则，直接将新流入的特征f_i加入到候选特征集CFS_i-1，候选特征集CFS＝CFS_i-1∪f_i，之后进入步骤S12；

步骤S12、判断是否还有特征未处理；若结果为是，则返回步骤S5重新进行步骤S5-S12的操作；若结果为否，则输出最优特征子集SF＝CFS。

优选地，判断新流入的特征f_i与标签集L是否相关，进行相关性分析的具体步骤如下：

利用以下公式计算特征f_i与标签集L的相关性：

式中，m为标签的个数，MI(f_i；l_j)为特征f_i与标签l_j的相关性，LW(l_j)为标签l_j的重要性权重；

如果MI(f_i；L)<δ(0≤δ<1),则特征f_i与标签集L不相关；否则，特征f_i与标签集L相关。

优选地，步骤S8中判断新流入的特征f_i是否为显著特征，进行显著性分析的具体包括以下子步骤：

S81、利用公式计算特征f_i与标签集L的相关度γ_fi(L)：

式中，S_i-1表示在t_i-1时已经选择的特征集合，CMI(f_i；l_j|S_i-1)表示条件互信息，即在特征集合S_i-1的条件下，特征f_i与标签集L的相关性；γ_fi(L)表示特征f_i对标签集L的预测能力，并且γ_fi(L)越大，特征f_i的预测能力越强；

S82、利用公式计算特征的平均相关度Mean_γ：

式中，F_i表示当前已到达的特征集，f_i∈F_i为特征集F_i中的特征，|F_i|表示表示当前已到达的特征的个数，γ_fi(L)表示特征f_i对标签集L的预测能力；

或者，利用逐步迭代的方法计算Mean_γ：

式中，Mean_γ-1表示到时刻t_i-1到达的特征集中特征的平均相关度，|F_i|表示当前到达的特征数；

S83、若

成立，则特征f_i为显著特征；否则，特征f_i为非显著特征。

优选地，Mean_γ-1由以下公式计算得到：

之后得到以下公式：

若γ_fi(L)≥Mean_γ，则Mean_γ≥Mean_γ-1成立。

优选地，步骤S10中判断CFS_i-1中是否存在特征f_k能代替该新流入的特征f_i的具体步骤如下：

S101、计算在特征f_k条件下，标签集L和特征f_i的条件互信息：

S102、如果满足以下公式，则特征f_i相对于特征f_k是冗余特征，删除该新流入特征f_i：

CMI(L；f_i|f_k)≤δand MI(f_k；L)≥MI(f_i；L)

式中，f_i表示在时刻t_i新到达的特征，CMI(L；f_i|f_k)为条件互信息，MI(f_k；L)和MI(f_i；L)为互信息。

优选地，步骤S11中判断该新流入特征f_i能否代替CFS_i-1中的某个特征f_k的具体步骤如下：

S111、计算在特征f_i条件下，标签集L和特征f_k的条件互信息：

S112、如果满足以下公式，则特征f_k相对于特征f_i是冗余特征，删除特征f_k：

CMI(L；f_k|f_i)≤δand MI(f_k；L)＜MI(f_i；L)。

优选地，阻尼系数d设置为d＝0.85。

本发明由于采用了上述的技术方案，本发明具有以下有益效果：

(1)本发明的方法通过设置相关性阈值的方法进行相关性和冗余性分析，从而能够提升算法寻找最优预测性能的灵活性。另外，考虑标签之间的相关性能够大大增加算法学习的准确性和提升算法的预测性能。在具体进行相关性分析时，能够针对不同的数据类型采用不同的相关性分析方法，当数据为离散数据时，采用互信息的方式计算相关性，该方法不需要对两个随机变量之间关系的性质作任何假设，非常适合离散数据的相关性计算。当数据为连续数据时，则采用Fisher’s Z-test中的偏相关系数计算相关性。本发明针对不同的数据类型采用不同的方式计算数据之间的相关性，从而能够有针对性地解决特征和标签之间，以及标签和标签之间相关性的问题，从而能够更好的提升算法的预测分类性能。

(2)本发明在应用时对特征的处理采用动态实时分析的方法，无需事先了解数据的全局特征信息，随着特征依次到达，对每个新到的特征进行及时分析处理，从而能适用于特征空间庞大、高维数据的特征选择。

(3)本发明在计算重要性权重时，通过构建标签的加权无向图，同时将标签之间的相关性值作为加权无向图边上的权值，计算每个标签的重要性权重。其为解决多标签问题提供了全新的思路。

(4)本发明应用广泛，其能够应用于各种数据的特征选择任务中，例如将本方法应用于蛋白质亚细胞定位、实时气象检测以及视频图像处理等领域，有助于研究人员过滤掉对研究任务无用的特征信息，大大提升研究人员的研究效率。

附图说明

图1为本发明基于标签相关性的多标签流特征确定最优特征子集的方法的工作流程示意图；

图2为本发明基于标签相关性的多标签流特征确定最优特征子集的方法标签的加权无向图WUG；

图3为本发明基于标签相关性的多标签流特征确定最优特征子集的方法不同阈值下算法的性能示意图之一；

图4为本发明基于标签相关性的多标签流特征确定最优特征子集的方法不同阈值下算法的性能示意图之二；

图5为本发明基于标签相关性的多标签流特征确定最优特征子集的方法不同阈值下算法的性能示意图之三；

图6为本发明基于标签相关性的多标签流特征确定最优特征子集的方法不同阈值下算法的性能示意图之四；

图7为本发明基于标签相关性的多标签流特征确定最优特征子集的方法不同阈值下算法的性能示意图之五；

图8为本发明基于标签相关性的多标签流特征确定最优特征子集的方法不同阈值下算法所选择的最优特征子集示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。需要注意的为，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。例如本发明所用的前、后、左和右仅仅是示例性质的，是为了描述方便使用的用语。

下面通过实施例以及相关附图，对本发明的技术方案作进一步具体的说明。

为了解决大数据背景下海量数据特征的挖掘问题，本发明提供了一种基于标签相关性的多标签流特征确定最优特征子集的方法，其针对离散数据和连续数据具有不同的计算相关性的方法，同时采用实时处理特征的方法解决流特征问题，并能在挖掘尽可能少的特征的前提下，保证高预测性能和低时间复杂度，尽可能的提高相关工作效率。

如图1所示，本发明提供一种基于标签相关性的多标签流特征确定最优特征子集的方法，其包括以下步骤：

步骤S1、定义标签集L，其中l_j∈L，l_j为L中的第j个标签，0≤j≤m，m表示标签的个数。

步骤S2、计算每个标签的重要性权重LW(l_j)，计算多标签数据中的每个标签的重要性权重，其具体包括以下子步骤：

S21、首先根据互信息的公式计算两两标签之间的相关性w(l_i；l_j)，当i＝j时，w(l_i；l_j)＝0，也就是两个标签相同时，将他们之间的互信息设置为0，以下是计算两个标签之间的互信息公式：

式中，MI(·,·)是指互信息，P(·,·)是指联合概率分布函数，P(·|·)是指条件概率分布函数，P(·)是指边缘概率分布函数，1≤k≤N，1≤q≤N，N表示实例的个数，l_ik表示标签l_i对应的实例是x_k(x_k＝[x¹,x²,…,x^d]表示d维向量),l_jq表示标签l_j对应的实例是x_q(x_q＝[x¹,x²,…,x^d]表示d维向量)。

S22、将各个标签作为节点，将任意两个标签节点之间连线，构建加权无向图WUG，将任意两个标签之间的互信息值作为图的两个标签节点边上的权重，得到如图2所示的加权无向图WUG。

S23、通过构建的加权无向图WUG，根据以下公式计算每个标签的重要性权重：

式中，SW(l_j)是各个标签和标签l_j的互信息求和，LW(l_i)和LW(l_j)分别表示标签l_i和l_j的权重值；SN(l_i)表示指向标签节点l_i的节点的集合；w(l_i；l_j)表示标签l_i和l_j之间的相关性；d代表阻尼系数，通常设置为d＝0.85。为了执行本算法，所有的节点都有一个初始权重，设为1/m，其中m代表的是节点的总数，即标签的总数。

步骤S3、定义第i个特征到达的时刻为t_i；并初始化t_i＝0；用于表示特征是随着时间的推移依次流入模型的。

步骤S4、定义在时刻t_i到达的特征为f_i；定义特征数的极限值是INF；INF用于记录数据的特征个数的最大值。

步骤S5、定义候选特征集为CFS；并初始化

CFS用于记录当前选择的特征集合。

步骤S6、定义相关性阈值δ；用来判断特征和标签之间的相关性，其具体包括以下子步骤：

S61、对于相关性阈值δ，本发明通过设置对比实验的方法设置相关性阈值，该阈值用于评价特征与标签之间的相关性；在相关性阈值δ的分析中利用三种不同领域的数据集分析阈值δ对算法的影响；其中，Yeast数据集属于生物医学数据集，Enron和Business属于文本分类数据集；此外由于Enron和Business具有不同的数据类型，分别为离散型和连续型数据，因此选择这三个数据集判断相关性阈值对于算法影响具有代表性。

本发明选择了5个评价指标去评估本发明方法在三个数据集上的性能。5个评价指标分别为Average Precision、Hamming Loss、Ranking Loss、Coverage、One-error。由于，对于离散数据使用对称不确定性SU代替互信息MI，对于连续数据使用偏相关系数ξ代替互信息，因此，将相关性阈值δ设置成从0到0.1，其步长为0.01。根据对比实验，得到了图3-图7所示的在不同类型的数据集下，不同阈值下的预测性能和图8所示的选择的特征数量。

S62、在图3-图7中，随着δ值的不断增大，相关性阈值对本发明方法的影响较小，但是Enron数据集下的相关性阈值不超过0.04；并且，在图8中，当Enron的相关阈值δ超过0.04时，所选择的特征数变少甚至为零；其次，由于δ对本发明方法的紧密性有显著的影响，因此随着δ值的增加，选择的特征数减少。因此，在实际操作中，相关性阈值取值在0<δ≤1范围内的任意值来进行效果调试，这样使得该方法在判断特征和标签的相关性关系具有非常大的灵活性，同时，δ的最优取值还要考虑数据集的类型，根据不同类型选择不同的数值。

步骤S7、对i和INF的数值进行比较，判断i≤INF是否成立，若成立，则进行步骤S8-S15；若不成立，算法结束并退出。

步骤S8、判断候选特征集合CFS是否为空集，因为在第一个特征到来之前，没有候选特征集，所以候选特征集CFS存在为空集的情况，若

则直接进行步骤S9；若不成立，则进行步骤S10-S14。

步骤S9、判断新到达的特征f_i与标签集L是否相关，对两者进行相关性分析；测试第i个特征f_i与标签集L的相关性，若不相关，则删除f_i不再考虑，并进行步骤S15；否则，将特征f_i加入到候选特征集CFS_i-1中，此时，CFS＝CFS_i-1∪f_i。该相关性判断具体包括以下子步骤：

S91、由于在步骤S2已经计算出每个标签的重要性权重LW(l_j)，因此特征f_i与标签集L的相关性的计算方法是对特征f_i与单个标签l_j的相关性和标签l_j的权重的乘积求和，则特征f_i与标签集L的相关性按以下公式计算：

S92、根据步骤S6中定义相关性阈值δ，判断MI(f_i；L)<δ(0≤δ<1)是否成立，若成立，则特征f_i与标签集L不相关；若不成立，则特征f_i与标签集L相关。

步骤S10、判断特征f_i是否为显著特征，进行显著性分析；将t_i时刻到达的特征f_i和标签集L的相关度与已到达特征的相关度的均值进行比较，若f_i是显著特征，则将f_i加入到候选特征集CFS_i-1，CFS_i＝CFS_i-1∪f_i；否则，进行步骤S11。显著性分析具体包括以下子步骤：

S101、在线显著性分析的目的是评估新到达特征相对于当前到达特征的与标签之间的相关程度，从而筛选出相对于其它到达的特征来说预测性能显著的特征；首先，需要用以下公式计算出特征f_i与标签集L的相关度γ_fi(L)：

式中，S_i-1表示在t_i-1时已经选择的特征集合；CMI(f_i；l_j|S_i-1)表示条件互信息，即在特征集合S_i-1的条件下，特征f_i与标签集L的相关性，采用条件互信息的原因是它用来判断在忽略其它特征的条件下单独添加新的特征f_i，对标签集L的预测能力；γ_fi(L)表示特征f_i对标签集L的预测能力，并且γ_fi(L)越大，特征f_i的预测能力越强。

S102、为了评估特征f_i相对于其它已到达的特征是否是显著特征，需要定义平均相关度Mean_γ来进行比较，利用以下公式计算特征的平均相关度Mean_γ：

式中，F_i表示当前已到达的特征集，f_i∈F_i为特征集F_i中的特征，|F_i|表示表示当前已到达的特征的个数，γ_fi(L)表示特征f_i对标签集L的预测能力；采用当前已到达的特征的平均的原因在于，现存的一些方法计算的是当前已经选择的特征集S_i-1中的特征f_i(f_i∈S_i-1)和标签集L之间的相关性的均值，并将其与f_i和L的相关度进行比较，但是这样的方法会导致那些对提升预测性能有用的次显著特征被过滤掉；因此在本发明提出的方法中，相关性均值的计算方法是计算当前已到达的特征集中的f_i(f_i∈F_i)和标签集L的相关性。

S103、利用逐步迭代的方法计算Mean_γ：

式中，Mean_γ-1表示到时刻t_i-1到达的特征集中(排除新到达的特征)特征的平均相关度，|F_i|表示当前到达的特征数；由于在第一个特征到来的时候没有候选特征集，所以直到第二个特征到达时才执行显著性分析阶段的挖掘显著特征的步骤，因此|F_i|>1成立。

S104、若γ_fi(L)≥Mean_γ成立，则特征f_i是显著特征；否则，特征f_i为非显著特征。

由于Mean_γ-1可以由以下公式计算得到：

所以有以下公式成立：

所以，如果γ_fi(L)≥Mean_γ，那么Mean_γ≥Mean_γ-1成立；这表明增加新的特征f_i可以增加平均相关度值，也就是说，特征f_i增加对标签的预测能力，从而认为f_i是显著特征；否则增加新的特征f_i对标签的预测性能很小，则其为非显著特征。

步骤S11、判断特征f_i与标签集L是否相关，进行相关性分析；测试第i个特征f_i与标签集L的相关性，若不相关，则删除f_i并进行步骤S15；否则，进行步骤S12-S14；相关性分析其具体包括以下子步骤：

S111、由于在步骤S2已经计算出每个标签的重要性权重LW(l_j)，那么特征f_i与标签集L的相关性的计算方法是对特征f_i与单个标签l_j的相关性和标签l_j的权重的乘积求和，则特征f_i与标签集L的相关性按以下公式计算：

S112、根据步骤S6中定义相关性阈值δ，判断MI(f_i；L)<δ(0≤δ<1)是否成立，若成立，则特征f_i与标签集L不相关；若不成立，则特征f_i与标签集L相关。

步骤S12、遍历候选特征集CFS_i-1中的每个特征。

步骤S13、判断CFS_i-1中是否存在特征f_k能代替特征f_i，进行冗余性分析；若存在这样的f_k，则说明特征f_i是冗余特征，则将f_i作为冗余特征删除并进行步骤S15；否则，进行步骤S14。该冗余性分析其具体包括以下子步骤：

S131、在本发明方法中采用成对比较的方法进行冗余性分析，假设S_i-1代表在时刻t_i-1为止已经选择的特征集，f_i代表新到达的特征，为了评估f_i相对于S_i-1是否是冗余特征，需要检测所有的子集S_i-1(子集的个数是2^|Si-1|)所包含的对L的预测信息；为了解决这种较高的时间复杂度问题，本发明采用成对比较的方法去评估冗余特征，大大降低了算法的时间复杂度，一旦新到达的特征被加入到S_i-1，在线冗余性分析阶段被执行。

S132、当

，S_i-1表示在时刻t_i-1已经选择的特征集，使得以下公式成立时，说明CFS_i-1中存在特征f_k能代替特征f_i，满足特征f_i是冗余特征：

CMI(L；f_i|f_k)≤δand MI(f_k；L)≥MI(f_i；L)

式中，f_i表在时刻t_i新到达的特征，CMI(L；f_i|f_k)为条件互信息，MI(f_k；L)和MI(f_i；L)为互信息。

S133、判断特征f_i是冗余特征的条件成立的原因如下：

首先，假设S_i-1表示在时刻t_i-1已经选择的特征集，f_i为在t_i时刻新到达的特征，如果存在f_k∈S_i-1使得CMI(L；f_i|f_k)≤δ(0≤δ<1)成立，说明将特征f_i单独加入到特征f_k中并不会增加f_k的预测能力，从而说明f_i为冗余特征，CMI(L；f_i|f_k)通过以下公式获得：

式中，m为标签个数，CMI(l_j；f_i|f_k)为条件互信息，LW(l_j)为标签l_j的重要性权重；由于联合互信息MI(L；f_k,f_i)表示两个特征f_i和f_k对标签L的预测能力，MI(L；f_k)表示L和f_k的相关性，因此可以用MI(L；f_i,f_k)-MI(L；f_k)判断将特征f_i单独加入到特征f_k中是否能增加f_k的预测能力，根据互信息的计算公式可以得到CMI(L；f_i|f_k)＝MI(L；f_i,f_k)-MI(L；f_k)。

其次，若CMI(L；f_i|f_k)＝0，成立，则更加说明f_i为冗余特征，由于：

综上，证明满足CMI(L；f_i|f_k)≤δand MI(f_k；L)≥MI(f_i；L)条件时，特征f_i为冗余特征。

步骤S14、判断特征f_i能否代替CFS_i-1中的某个特征f_k，进行冗余性分析；若存在这样的f_k，则将f_k作为冗余特征从候选特征集CFS_i-1中删除，CFS_i-1＝CFS_i-1-f_k，并将f_i加入到候选特征集CFS_i-1，CFS＝CFS_i-1∪f_i；否则，将f_i加入到候选特征集CFS_i-1，CFS＝CFS_i-1∪f_i，该冗余性分析其具体包括以下子步骤：

S141、当

，S_i-1表示在时刻t_i-1已经选择的特征集，使得以下公式成立时，说明特征f_i能代替CFS_i-1中存在特征f_k，满足特征f_k是冗余特征：

CMI(L；f_k|f_i)≤δand MI(f_k；L)＜MI(f_i；L)

式中，f_i表示在时刻t_i新到达的特征，CMI(L；f_k|f_i)为条件互信息，MI(f_k；L)和MI(f_i；L)为互信息。

S142、判断特征f_k是冗余特征的条件成立的原因如下：

首先，假设S_i-1表示在时刻t_i-1已经选择的特征集，f_i为在t_i时刻新到达的特征，如果存在f_k∈S_i-1使得CMI(L；f_k|f_i)≤δ(0≤δ<1)成立，说明将特征f_k单独加入到特征f_i中并不会增加f_i的预测能力，从而说明f_k为冗余特征，CMI(L；f_k|f_i)通过以下公式获得：

式中，m为标签个数，CMI(l_j；f_k|f_i)为条件互信息，LW(l_j)为标签l_j的重要性权重；由于联合互信息MI(L；f_k,f_i)表示两个特征f_i和f_k对标签L的预测能力，MI(L；f_i)表示L和f_i的相关性，因此可以用MI(L；f_k,f_i)-MI(L；f_i)判断将特征f_k单独加入到特征f_i中是否能增加f_i的预测能力，根据互信息的计算公式可以得到CMI(L；f_k|f_i)＝MI(L；f_k,f_i)-MI(L；f_i)。

其次，若CMI(L；f_k|f_i)＝0，成立，则更加说明f_k为冗余特征，由于：

MI(f_k；L)+MI(f_k；f_i|L)＝H(f_k)-H(f_k|L)+H(f_k|L)

-H(f_k|f_iL)＝H(f_k)-H(f_k|f_iL)

MI(f_k；f_i)+MI(L；f_k|f_i)＝H(f_k)-H(f_k|f_i)+H(f_k|f_i)

-H(f_k|f_iL)＝H(f_k)-H(f_k|f_iL)

综上，证明满足CMI(L；f_k|f_i)≤δand MI(f_k；L)＜MI(f_i；L)条件时，特征f_k为冗余特征。

步骤S15、判断是否还有特征未处理，若有，则返回步骤S7，目的是为了重复地产生新的特征，直到没有新的特征需要再处理；若没有，则输出最优特征子集SF＝CFS；

关于本发明的方法应该说明的是：

1、由于数据类型是多样的，在本发明的方法中，对于离散数据，选择使用互信息的方法来评估特征和标签之间的相关性；在实际应用中，本发明方法通过计算对称不确定性来代替互信息，对称不确定性的公式如下：

式中，MI(A；B)为随机变量A和B的互信息，H(A)和H(B)分别为变量A和B的熵。使用SU(A,B)代替MI(A；B)，SU(A,B)能将互信息的值MI(A；B)归一化到0和1从而弥补MI(A；B)偏向更大的值的问题。

受到对称不确定性公式的启发，本专利用CSU(A,B|C)代替条件互信息CMI(A；B|C)：

式中，CMI(A；B|C)条件互信息，即在随机变量C的条件下，随机变量A和B的互信息，H(A|C)和H(B|C)为条件熵，分别表示在已知随机变量C的条件下，随机变量A和B的不确定性。

2、在本发明的方法中，对于连续数据，选择使用Fisher’s Z-test中的偏相关系数方法来评估特征和标签之间的相关性：

式中，N代表实例数，z是条件特征，ξ代表在给定特征z的条件下特征x和y的总体偏相关。

在实际应用中，本发明方法通过计算偏相关系数来代替互信息，偏相关系数的公式如下：

式中，x＝[x₁,x₂,…,x_n],y＝[y₁,y₂,…,y_n]为两个随机变量，

和

分别为两个随机变量的均值。

在实际应用中，本发明方法通过计算总体偏相关系数来代替条件互信息，总体偏相关系数的公式如下：

式中，偏相关系数计算如上式所示。由于偏相关系数可以去除其它特征的影响，从而能更好地处理连续数据的特征和标签之间的相关程度。

本发明的方法通过设置相关性阈值的方法进行相关性和冗余性分析，从而能够提升算法寻找最优预测性能的灵活性。另外，考虑标签之间的相关性能够大大增加算法学习的准确性和提升算法的预测性能。在具体进行相关性分析时，能够针对不同的数据类型采用不同的相关性分析方法，当数据为离散数据时，采用互信息的方式计算相关性，该方法不需要对两个随机变量之间关系的性质作任何假设，非常适合离散数据的相关性计算。当数据为连续数据时，则采用Fisher’s Z-test中的偏相关系数计算相关性。本发明针对不同的数据类型采用不同的方式计算数据之间的相关性，从而能够有针对性地解决特征和标签之间，以及标签和标签之间相关性的问题，从而能够更好的提升算法的预测分类性能。

本方法适用于处理离散数据和连续数据的情况，并且针对不同的数据类型，采用不同的方式计算相关性，从而能尽可能提升算法的预测分类性能；本方法通过设置相关性阈值的方法进行相关性和冗余性分析，从而能提升算法寻找最优预测性能的灵活性。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于标签相关性的多标签流特征确定最优特征子集的方法，其特征在于，其包括如下步骤：

式中，MI(·,·)表示互信息，P(·,·)表示联合概率分布函数，P(·|·)表示条件概率分布函数，P(·)表示边缘概率分布函数，1≤k≤N，1≤q≤N，N表示实例的个数，l_ik表示标签l_i对应的实例是x_k，x_k＝[x¹,x²,…,x^d]，x_k表示d维向量，l_jq表示标签l_j对应的实例是x_q，x_q＝[x¹,x²,…,x^d]，x_q表示d维向量；

式中，SW(l_j)表示各个标签和标签l_j的互信息求和，LW(l_i)和LW(l_j)分别表示标签l_i和标签l_j的权重值；SN(l_i)表示指向标签节点l_i的节点的集合；w(l_i,l_j)表示标签l_i和l_j之间的相关性；d表示阻尼系数；每个节点均具有一个初始权重，该初始权重设置为1/m，其中m为节点的总数，即标签的总数；