CN113378946A

CN113378946A - 一种考虑特征标签依赖度的鲁棒多标签特征选择方法

Info

Publication number: CN113378946A
Application number: CN202110682136.5A
Authority: CN
Inventors: 陈红梅; 刘云飞; 李天瑞; 罗川; 万继红; 胡节
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2021-06-20
Filing date: 2021-06-20
Publication date: 2021-09-10

Abstract

本发明公开了一种考虑特征标签依赖度的鲁棒多标签特征选择方法，包括以下步骤：首先构建基于稀疏最小二乘回归模型，同时引入流形正则项和非负矩阵因子分解项，构成目标函数；其次对目标函数进行迭代求解操作，得到经过训练的特征权重矩阵；然后对特征权重矩阵进行特征标签冗余度的加权操作，将特征标签冗余度嵌入到特征权重矩阵中；最后，我们将特征权重矩阵的行范数值进行从高向低的排序，选择最优特征子k个最优的特征。本发明能有效地解决标签冗余和数据噪声的问题，同时提高了特征权重矩阵的信息保留度，使得模型能选择出更加有判别力和信息力的特征子集。

Description

一种考虑特征标签依赖度的鲁棒多标签特征选择方法

技术领域

本发明涉及机器学习和模式识别领域中的特征选择，具体技术为一种考虑特征标签依赖度的鲁棒多标签特征选择方法。

背景技术

多标签数据往往一个样本对应多个标签，有着比单标签数据更加复杂的标签信息。为了解决数据维度过大造成的“维度灾难”问题，多标签特征选择方法应运而生。最小二乘回归模型作为一种常用的嵌入式特征选择方法，近年来也被用于多标签特征选择方法之上，并且常常与稀疏正则项结合，形成稀疏多标签特征选择模型，该模型能使得特征权重矩阵行稀疏，从而指导选择出更加有判别力的特征子集。除此之外，流形学习也常常被应用在最小二乘回归模型上，主要通过流形正则项来构建原始特征和标签空间的低维流形嵌入，保留数据的局部流形结构，从而进一步指导特征选择过程。为了避免噪声点数据对特征选择过程造成干扰。

嵌入式多标签特征选择方法能有效地平衡效率和性能。但现有的方法很难全面的考虑特征和标签之间的相关性，以至于失去了一些关键信息，不仅如此，噪声点以及错误标签也是一个需要得到解决的难题。为了解决现有的一些问题，本发明采用l_2，1范数对最小二乘回归项进行约束，同时，本发明采用非负矩阵分解技术(NMF)对标签矩阵进行压缩，减少错误标签信息对特征选择过程的误导，最后，为了能保留特征标签冗余度信息，本方法对特征权重矩阵进行改进。根据上述准则，本发明构建了一种考虑特征标签依赖度的鲁棒多标签特征选择方法(RGFS)，为了证明该方法的有效性，本发明在十个多标签数据集上进行了充分地实验对比，最后证明了本发明提出RGFS算法的有效性。

发明内容

现有的基于最小二乘回归模型的多标签特征选择方法很少能将数据中的相关信息全面的考虑进来，噪声点和错误标签信息也是需要克服的关键问题。本发明旨在提出一种考虑特征标签依赖度的鲁棒多标签特征选择方法(RGFS)，降低噪声点的影响，保留特征标签冗余度，从而提高特征选择的性能。其主要手段为：

一种考虑特征标签依赖度的鲁棒多标签特征选择方法，基于稀疏最小二乘回归框架，结合流行正则项以及非负矩阵分解项来构建训练模型，最后对构建的目标函数进行迭代求解，得到目标特征权重矩阵，根据权重矩阵来选取最优特征子集K。包含以下步骤：

步骤1：输入特征矩阵

标签矩阵

其中，n代表了训练样本个数，d代表了训练样本的特征维度，c代表了训练样本的标签维度；

正则项系数α,β,γ∈{0.001,0.01,0.1,1,10,100,1000}，最大迭代次数m＞0，收敛阈值∈＞0，潜在语义矩阵维度r＞0以及加权因子δ＞0；

步骤2：初始化最小二乘对角矩阵

和稀疏正则对角矩阵

为单位对角矩阵；

步骤3：在[0,1]的范围内随机初始化潜在语义矩阵

以及对应的系数矩阵

步骤4：设置目标函数初始值Θ⁰＝1以及当前迭代次数t＝0，这里符号Θ^t代表第t次迭代中的目标函数值；

步骤5：判断是否满足收敛条件

其中，如果满足则跳到步骤9，如果不满足则重复步骤5至步骤8；

步骤6：按照以下更新公式更新矩阵W，V，B，D以及

其中，W_t，V_t，B_t分别代表了W，V，B在第t次迭代中的值；

步骤7：t＝t+1；

步骤8：更新Θ^t＝||XW-V||_2,1+||Y-VB||_F+α||W||_2,1+βTr(V^TL^YV)+γTr(W^TL^XW)；

这里Tr(·)表示对一个括号内的矩阵求迹:

步骤9：利用余弦相似度计算特征标签依赖度矩阵

计算公式为：

其中，Xⁱ∈N_p(Y^j)代表了第j个样本属于第i个样本的p邻域；

步骤10：根据步骤9得到的R以及加权因子δ来为特征权重矩阵W进行加权并得到加权特征权重矩阵

加权步骤为：

其中

为哈达玛积；

步骤11：根据步骤10得到的

来计算每个特征的权重；第i个特征的权重计算公式为：fw_i＝||W_i||₂；

步骤12：输出最优特征子集K。

其中，

代表特征权重矩阵，

表示加权之后的权重矩阵，

和

分别表示非负矩阵因子分解项中的潜在语义矩阵和系数矩阵，

表示特征标签依赖度矩阵，

和

则分别为用于目标函数求解锁产生的对角矩阵。此外，n、d、c为分别为训练集样本个数、样本特征维度以及样本标签维度，∈取一个极小的数，用于收敛条件之中。

本发明以最小二乘回归模型

为基础，提出了一种嵌入式的多标签特征选择方法，可以看到，在最小二乘回归模型之中，通过特征权重矩阵W可以将特征矩阵X映射为标签矩阵Y，可以看出，W代表了每个特征的权重信息，因此训练出富有原始数据信息量和判别力的权重矩阵是特征选择的关键所在。为了使W更具有判别力，这里引入稀疏正则项||W||_2,1，该正则项以l_2,1范数作为约束，具有行稀疏的特性，可以使重要的特征行l₂范数值增大，而不重要的特征的行l₂范数等于或趋近于0。除此之外，在很多真实的多标签数据中常常存在错误标签或者冗余标签的情况，这会对模型的训练造成干扰，为了解决这个问题，这里引入非负矩阵因子分解技术(NMF)，NMF将Y分解为潜在语义矩阵V和系数矩阵B，即Y＝VB s.t.{Y,V,B}≥0，其中，潜在语义矩阵

包含了标签矩阵Y中的内在关键信息，由此，我们可以用V来代替Y进行最小二乘回归的映射，此项可以表示为||Y-VB||_F。为了使矩阵V能保留原始标签和特征空间的关键信息，标签以及特征流形正则项分别被引入到模型中，即

两者构造方法类似，例如，标签流形正则项表示了在原本的标签空间中越相似的两个样本，在新的标签空间中也要更接近，其中，L^Y＝A^Y-S^Y和L^X＝A^X-S^X被称为特征拉普拉斯矩阵以及标签拉普拉斯矩阵，S^Y和S^X分别代表标签和特征空间中的样本相似度矩阵，另外，

和

为对角矩阵，且这里相似度度量方式采用热核函数，即：

if Y_i∈N_p(Y_j)or Y_j∈N_p(Y_i)。最后，我们可以得到RGFS方法的模型：

为了求解目标函数从而得到权重矩阵W，这里采用了一种交替迭代梯度下降的方式，即在每次迭代中，固定两个变量求解剩下一个。最后得出关于各个变量(W，V，B)的更新公式为：

在多次迭代之后，目标函数的值会达到设定的阈值，从而退出迭代，得到相对最优的权重矩阵W。

为了使得权重矩阵W保留特征标签依赖度，我们对W进行加权操作，加权公式为：

R代表由余弦相似度计算得出的特征标签依赖度矩阵，而δ代表了加权因子，用于平衡R的加权程度。随即，我们将

的行l₂范数进行计算且排序，选出前k(k＜n)个最优特征组成最优特征子集。

本发明提供了一种考虑特征标签依赖度的嵌入式多标签特征选择方法，在最小二乘回归模型中引入了稀疏正则项，用于加强特征的判别力。同时，将l_2,1范数约束与最小二乘损失项之上，用于减少离群点对特征选择的影响，增强算法的鲁棒性。为了减少错误和冗余标签造成的负面影响，引入了非负矩阵因子分解技术，用于压缩标签矩阵，提取潜在语义矩阵，保留关键信息。并且，为了使潜在语义矩阵能有效地保留原始标签空间中的局部流形结构，使特征局部流形结构能够得到保留，模型中分别引入了标签流形正则项和特征流形正则项。最后，为了使得权重矩阵W能保留特征标签依赖度，本发明使用余弦相似度对W进行了加权改进。可以看出，本发明在最小二乘模型的基础上能尽可能的在特征选择过程中利用数据之间的相关信息，如特征局部流形结构，标签局部流形结构以及特征标签依赖度，同时，本模型还能对错误和冗余标签以及离群数据点有一定的抵抗力。

与现有技术相比，本发明的积极效果是：

一、对噪声的抵抗力更高。本发明对两个方面的数据噪声点进行了处理，第一个方面是离群数据点，解决方案是采用带l_2,1约束的最小二乘损失项。第二个方面是错误和冗余的标签信息，解决方案是采用非负矩阵因子分解技术，压缩标签矩阵，去除标签的噪声信息。

二、对数据的相关性利用程度更高。本发明通过构建特征和标签流形正则项，用于保留特征和标签的局部流形结构，让原始特征和标签空间中存在的关键信息能有效地在低维特征和标签空间得到保留。除此之外，现有的基于最小二乘回归模型的多标签特征选择方法往往很难将特征标签依赖度考虑进来，本发明采用了对特征权重矩阵W改进的策略，实现了对特征标签依赖度的保留。

在目前的多标签特征选择方法中，嵌入式多标签特征选择算法能在效率和性能上取得一定的平衡，更适合于真实的生产要求，而最小二乘回归框架正是嵌入式多标签特征选择最常用的框架之一。本发明通过减少噪声影响，增大信息保留度，在减少过拟合风险的情况下，提升了模型的性能。

附图说明

图1是本发明考虑特征标签依赖度的鲁棒多标签特征选择方法的流程图

图2是本发明与其他算法在business数据集上关于不同评价指标的实验对比图

图2(a)是本发明与其他算法在business数据集上关于average precision指标的实验对比图

图2(b)是本发明与其他算法在business数据集上关于coverage error指标的实验对比图

图3是本发明与其他算法在emotions数据集上关于不同评价指标的实验对比图

图3(a)是本发明与其他算法在emotions数据集上关于averageprecision指标的实验对比图

图3(b)是本发明与其他算法在emotions数据集上关于coverage error指标的实验对比图

图4是本发明与其他算法在enron数据集上关于不同评价指标的实验对比图

图4(a)是本发明与其他算法在enron数据集上关于average precision指标的实验对比图

图4(b)是本发明与其他算法在enron数据集上关于coverage error指标的实验对比图

图5是本发明与其他算法在scene数据集上关于不同评价指标的实验对比图

图5(a)是本发明与其他算法在scene数据集上关于average precision指标的实验对比图

图5(b)是本发明与其他算法在scene数据集上关于coverage error指标的实验对比图

图6是本发明与不改进权重矩阵的RGFS_noImproveW算法以及不引入流形正则项的RGFS_noManifold算法在enron数据集上关于不同评价指标的实验对比图

图6(a)是本发明与不改进权重矩阵的RGFS_noImproveW算法以及不引入流形正则项的RGFS_noManifold算法在enron数据集上关于average precision指标的实验对比图

图6(b)是本发明与不改进权重矩阵的RGFS_noImproveW算法以及不引入流形正则项的RGFS_noManifold算法在enron数据集上关于coverage error指标的实验对比图

图7是本发明与不改进权重矩阵的RGFS_noImproveW算法以及不引入流形正则项的RGFS_noManifold算法在education数据集上关于不同评价指标的实验对比图

图7(a)是本发明与不改进权重矩阵的RGFS_noImproveW算法以及不引入流形正则项的RGFS_noManifold算法在education数据集上关于average precision指标的实验对比图

图7(b)是本发明与不改进权重矩阵的RGFS_noImproveW算法以及不引入流形正则项的RGFS_noManifold算法在education数据集上关于coverage error指标的实验对比图

图8是本发明在不同数据集上的收敛性分析图

图8(a)是本发明在business数据集上的收敛性分析图

图8(b)是本发明在enron数据集上的收敛性分析图

具体实施方式

参见附图1，具体实施步骤如下所示：

步骤1：输入特征矩阵

标签矩阵

步骤2：初始化最小二乘对角矩阵

和稀疏正则对角矩阵

为单位对角矩阵；

步骤3：在[0,1]的范围内随机初始化潜在语义矩阵矩阵

以及对应的系数矩阵

步骤4：设置目标函数初始值Θ⁰以及迭代次数初始值t＝0；

步骤5：判断是否满足收敛条件

如果满足则跳到步骤9，如果不满足则重复步骤5至步骤8；

步骤6：按照对应的更新公式更新矩阵W，V，B，D以及

W，V，B的更新公式为：

D和

为对角矩阵，他们的对角线元素更新公式为：

步骤7：t＝t+1；

步骤9：利用余弦相似度计算特征标签依赖度矩阵

计算公式为

if Xⁱ∈N_p(Y^j)or Y^j∈N_p(Xⁱ)，其中，Xⁱ∈N_p(Y^j)代表了第j个样本属于第i个样本的p邻域(p＝6)；

步骤10：根据R以及特征矩阵加权因子来为特征权重矩阵W进行加权；

加权步骤为：

其中

为哈达玛积。

步骤11：根据加权后的特征权重矩阵

计算每个特征的权重；

如第i个特征的权重计算公式为：fw_i＝||W_i||₂。

步骤12：根据特征权重排序并输出最优特征子集K(特征数量为k)。

为了验证本发明的可行性和有效性，本发明选取了MULAN网站的5个公开数据集business、emotions、enron、scene以及education，这些数据集的特征维度从几十到一千不等，样本数量从数百到数千不等。其次，这里选择MLKNN(s＝1，k＝10)作为分类器对结果数据进行分类，并用average precision和hamming loss两个多标签评价指标来对分类结果进行评估。除此之外，为了尽量消除偶然性的因素，本次实验采用五折交叉验证进行实验结果统计，将5次实验结果取平均值作为对比。

为了更好的发挥出本发明的性能，在实验之前需要进行调参操作，具体调参过程如下：其中α,β,γ,δ这四个参数调整范围为{10^-3,10^-2,...,10³}，参数r在{0.1,0.2,...,0.9,1.0}的范围内调整，特征数量k确定为该样本总特征数量的百分之二十。由于涉及的参数比较多，因此本发明设计了一个调参方案，即首先固定α＝1,r＝0.8,δ＝1，通过网格化搜索的方式来选择范围内最优的β,γ，然后在这两个参数的基础上搜索参数α，最后，依次搜索参数γ,δ，在调整参数的过程中，我们根据MLKNN分类的结果进行优劣对比，直到得到最优的参数组合，并将其作为发明具体实施时的输入参数。

本发明将通过三个实验进行说明，三个实验分别为：算法对比实验，成分分析实验以及收敛性分析实验。

实验一：算法对比实验

在这个实验中，本发明将与5个性能良好的多标签特征选择方法进行对比，这些方法对应的论文已经公开发表并且证明了它们的有效性。下面对这几种方法进行简单的介绍。

1.RFS：一个基于稀疏学习的具有鲁棒性的多标签特征选择算法。

2.DRMFS：一个具有鲁棒性的基于双图正则化和稀疏学习的多标签特征选择算法。

3.MRMR：一个经典的基于信息论的特征选择方法，通过最小冗余最大相关性的思想来选择特征。

4.SCMFS：一个称作共享共模的多标签特征选择方法，在稀疏学习的框架中加入了非负矩阵因子分解和耦合矩阵分解技术，能有效的提取特征与标签的相关性信息。

5.FSLCLC：可以应用在有缺失值或错误值的标签集对应的数据集上，利用非负矩阵分解技术来恢复标签，同时用流形正则项来保留原始标签的局部流形结构。

本次实验主要将本发明与上述多个方法以MLKNN分类器作为评估手段进行算法性能比较，选取的特征数量为1到100中的整数个数，以调参过程得到的参数集合为输入参数，最后用average precision和hamming loss两个评价指标来对比算法的优劣性。最后，在business、emotions、enron以及scene四个数据集上得到的实验结果如附图2-附图5所示，其中，(a)子图代表了对应average precision评价指标的实验结果，(b)子图表示了对应hamming loss评价指标下的实验结果。可以看出，在多个数据集下本发明都能取得不错的结果。

实验二：成分分析实验

本发明中包含了多个流形正则项，在理论上，它们可以进行信息的保留，指导模型学习更加富有信息量的权重矩阵，从而选择最优的特征子集。为了证明上述理论的有效性，本小节将针对目标函数中的多个流形正则项进行分析实验，将本发明与去掉流形正则项的算法进行对比，力图证明在有了这些正则项的加入，算法能取得更好的性能。同时，为了验证本发明改进权重矩阵对算法性能的提升，本小节将针对权重矩阵设置实验。在相同的参数下，本次试验通过MLKNN进行分类的结果比较，让改进特征权重矩阵后与不改进权重矩阵的结果进行对比。在实验过程中，参数统一设置为α＝1,β＝1,γ＝1,r＝0.8,δ＝1。最后，本部分在enron和education数据集上得到的实验结果如附图6-附图7所示，同样的，(a)子图表示了对应average precision评价指标下的实验结果，而(b)子图表示了对应hammingloss评价指标下的实验结果。

实验三：收敛性分析实验

为了证明本发明的可行性，这里设置收敛性分析实验，证明本发明中的迭代过程是可以收敛并能得到最优解的。本小节将在business和enron数据集上对本发明的收敛性进行展示。需指出本发明拟定的算法收敛条件：

这里的∈取一个极小值，在本次实验中指定为0.001，t代表当前迭代次数。最后，本部分实验在business和enron两个数据集上进行，得到的收敛性分析结果分别如附图8(a)和附图8(b)所示。