CN117454154A

CN117454154A - 一种面向偏标记数据的鲁棒特征选择方法

Info

Publication number: CN117454154A
Application number: CN202311776712.8A
Authority: CN
Inventors: 钱文彬; 舒文豪; 刘佳乐
Original assignee: Jiangxi Agricultural University
Current assignee: Jiangxi Agricultural University
Priority date: 2023-12-22
Filing date: 2023-12-22
Publication date: 2024-01-26

Abstract

本发明涉及一种面向偏标记数据的鲁棒特征选择方法，首先利用偏标记数据中样本的相关性计算标记置信度，并根据标记置信度对标记空间中伪标记进行平滑处理；在此基础上，采用加权互信息对特征的冗余性进行计算分析，构建得到基于稀疏回归模型的特征选择方法模型；利用模型对偏标记数据进行优化学习，两阶段循环迭代地利用模型学得的标记置信度指导各个变量间相关性的更新，并通过稀疏回归系数对偏标记数据进行特征选择，从而得到鲁棒性好的特征子集结果。本发明通过分析计算特征与标记的相关性、样本的相关性、特征的冗余性，构建了面向偏标记数据的特征选择目标函数，实现了对特征的重要性进行准确度量分析，显著提升了学习模型的分类性能。

Description

一种面向偏标记数据的鲁棒特征选择方法

技术领域

本发明涉及数据处理领域，具体涉及一种面向偏标记数据的鲁棒特征选择方法。

背景技术

随着大数据时代的到来，现实应用领域中数据往往具有复杂语义信息和高维特征等特点，这给当前的数据挖掘和机器学习模型的训练带来严峻挑战。一方面，高维数据的丰富语义提高了传统监督学习任务的数据标注成本，使得有些数据对象在标注过程往往还会包含不相关的噪声标记，这类带噪声标记的数据在机器学习领域中被称为偏标记数据；另一方面，高维偏标记数据在学习模型的训练过程中往往容易引起维度灾难问题，同时将会降低模型的泛化性能和可解释性。偏标记学习的数据对象与候选标记集合相关联，候选标记集合中只有一个正确标记其余为伪标记；利用特征选择方法可有效避免维度灾难问题，其通过挑选出关键特征集合可以有效降低学习过程的计算复杂度，提升学习模型的性能。在偏标记学习框架下，由于现有特征选择方法往往会受到伪标记的消极影响，无法准确对偏标记数据的特征重要性进行准则评价，同时，偏标记数据中存在的这些伪标记，使得监督信息不精确，容易造成所选的特征子集与伪标记之间相关性更强，导致对相关性的度量失去可信度，降低了特征子集的有效性。为此，设计针对偏标记数据的鲁棒特征选择方法可显著提高分类模型的准确性和稳定性。

发明内容

本发明的目的在于，提供一种面向偏标记数据的鲁棒特征选择方法，从特征与标记的相关性、样本的相关性和特征的冗余性这三个视角，构建了面向偏标记数据的特征选择目标函数，对特征的重要性进行准确度量分析，通过变量交替迭代的方式优化求解目标函数输出分类性能强和鲁棒性好的特征子集。

为实现上述目的，本发明采取的技术方案如下。

一种面向偏标记数据的鲁棒特征选择方法，包括以下步骤：

步骤S1，构建基于稀疏回归模型的特征选择方法模型，具体包括以下步骤：

步骤S11，基于稀疏回归模型构建一个面向偏标记数据的特征与标记空间的目标函数，用于度量偏标记数据集中特征与标记的相关性，拟合偏标记数据特征空间与标记空间的关系；

步骤S12，利用偏标记数据中样本的相关性计算标记置信度，并根据标记置信度对标记空间中伪标记进行平滑处理；

步骤S13，基于互信息方法衡量两个特征之间的关联程度，对特征的冗余性进行度量，并将特征与标记的相关性通过权重融入到特征的冗余性度量中；

然后通过综合考虑特征与标记的相关性、样本的相关性、特征的冗余性，构造得到特征选择的目标函数：

，

其中，表示样本特征矩阵，且，表示稀疏系数矩阵，且，表示标记置信度矩阵，且，表示数据值均为实数域范围内，表示偏标记数据集中样本个数，表示描述样本的特征个数，表示偏标记数据集中标记类型数量，表示弗罗比尼乌斯范数的矩阵范数；表示矩阵的迹，即表示计算矩阵的主对角线元素之和，为目标函数的平衡参数，为各个特征之间的互信息矩阵，且，是稀疏系数矩阵的转置矩阵；表示平衡参数，即范数正则化项；

步骤S14，采用两阶段交替迭代求解的方式对上述步骤S13中的特征选择的目标函数进行优化，构建得到基于稀疏回归模型的特征选择方法模型：

，

其中，表示拉普拉斯矩阵，且；

步骤S2，利用构建得到的基于稀疏回归模型的特征选择方法模型对偏标记数据集进行优化学习，两阶段循环迭代地利用模型学习优化得到的标记置信度指导各个变量间相关性的更新，获取并更新稀疏回归系数矩阵，并通过稀疏回归系数按特征的重要度输出特征排序结果，对偏标记数据集进行特征选择，从而得到鲁棒性好的特征子集结果，具体包括以下步骤：

步骤S21，将偏标记数据集和样本标记矩阵输入至上述步骤S1中构建的基于稀疏回归模型的特征选择方法模型中，设置参数近邻数为，特征选择比例为；

步骤S22，将拉普拉斯矩阵初始化为单位矩阵，；

步骤S23，通过构建的基于稀疏回归模型的特征选择方法模型，利用欧氏距离度量方法获取每个样本的近邻样本集合，并根据样本标记矩阵、近邻权重，计算偏标记数据集中每个样本的每个类别标记的标记置信度，获得标记置信度矩阵，表示迭代次数；

步骤S24，通过构建的基于稀疏回归模型的特征选择方法模型，对特征与标记的相关性、特征的冗余性进行度量计算，计算出每个样本的每个特征的重要度，并根据标记置信度矩阵计算获得稀疏系数矩阵；稀疏系数矩阵中的值的大小表示特征的重要度；

步骤S25，根据稀疏系数矩阵更新拉普拉斯矩阵，获得新的拉普拉斯矩阵；

步骤S26，将稀疏系数矩阵中的值按降序进行排序，并选出前个值对应的特征构成特征子集；根据特征子集生成低维度偏标记数据集；

步骤S27，根据低维度偏标记数据集对标记置信度矩阵进行更新，获得新的标记置信度矩阵；

步骤S28，循环上述步骤S24~步骤S27，直到函数收敛或者迭代次数到达最大迭代次数时，算法停止，根据特征的重要度输出特征排序结果，获得特征子集，，表示由个数据特征构成的特征集合，且满足，指特征子集含有特征的个数，也指低维数据集的特征空间维度。

进一步地，步骤S11中，基于稀疏回归模型构建一个面向偏标记数据的特征与标记空间的目标函数的具体方法为：

在稀疏回归模型中加入正则化项，防止模型过拟合，并通过模型估计偏标记数据中特征与标记的相关性，通过特征与标记间的相关性强弱来加大不同特征间的稀疏系数值差，选择系数更大的特征；建立的目标函数如下：

，

其中，表示样本标记矩阵，且。

进一步地，步骤S12中，利用偏标记数据中样本的相关性计算标记置信度，并根据标记置信度对标记空间中伪标记进行平滑处理的具体方法为：

首先，根据样本特征矩阵中样本的特征向量，利用欧式距离度量方法选出样本的前个近邻样本，并按照距离的远近排序，构成样本的近邻样本集合；利用标记空间中对应的个近邻样本的候选标记集合对样本的候选标记集合中的类别标记进行加权投票，近邻权重根据距离确定；个近邻样本分别对样本进行加权投票后，每个类别标记获得个投票值，然后将个投票值求和后作为样本的候选标记集合中对应类别标记的投票数，再将计算出来的投票数最大的类别标记标注为样本的候选标记；

然后根据以下规则对候选标记集合中的类别标记进行标记置信度的更新，并获得标记置信度矩阵：

，

式中，表示样本的类别标记的置信度，表示候选标记集合中元素个数；

计算出所有样本的候选标记集合中每个类别标记对应的置信度后，组成标记置信度矩阵，且，然后利用标记置信度矩阵替换标记空间的样本标记矩阵获得新的目标函数：

。

进一步地，步骤S12中，投票数的计算公式如下：

，

式中，表示样本的类别标记的投票数，类别标记代表第个标记类型，表示第个近邻样本，表示近邻样本的近邻权重，，；表示样本标记矩阵中近邻样本的类别标记对应的相关性数值；其中，输出判断结果的值，即，如果成立，则式中的值置为1，如果不成立，则式中的值置为0。

进一步地，步骤S13中，基于互信息方法衡量两个特征之间的关联程度，对特征的冗余性进行度量，并将特征与标记的相关性通过权重融入到特征的冗余性度量中，得到；

，

其中，表示特征和特征之间的相关性，用于度量特征间的冗余程度；特征和特征分别表示第个特征和第个特征，表示特征相对于类别标记的重要性，表示特征相对于类别标记的重要性；

从而得到特征选择的目标函数：

，

将上述公式化简得到特征选择的目标函数如下：

。

进一步地，步骤S24中，根据标记置信度矩阵计算获得稀疏系数矩阵的具体方法为：，式中，是表示样本特征矩阵的转置矩阵。

进一步地，步骤S25中，根据稀疏系数矩阵更新拉普拉斯矩阵，获得新的拉普拉斯矩阵的具体方法为：

若稀疏系数矩阵中的值为，表示特征的重要度，则拉普拉斯矩阵的计算方法为：

，

其中，是指拉普拉斯矩阵中第行第列元素，表示稀疏系数矩阵中第个特征与个类别标记之间的映射系数；是个映射系数数值绝对值的平方和再开方，表示特征的重要度，即，且，表示第个特征与类别标记之间的映射系数。

与现有技术相比，本发明的特征选择方法具有以下优点：

本发明针对偏标记数据通过分析计算特征与标记的相关性、样本的相关性、特征的冗余性，构建了面向偏标记数据的特征选择目标函数，实现了对特征的重要性进行准确度量分析，显著提升了学习模型的分类性能。可直接针对噪声数据进行特征选择，利用样本相关性降低标记噪声在特征选择过程中的影响，并且考虑到特征间的冗余性，尽可能减少所选特征的冗余，在降低特征维度的同时能够提高分类模型的准确性和稳定性，有利于提升模型对数据分类处理的效率和准确性。

附图说明

图1为本发明实施例中面向偏标记数据的鲁棒特征选择方法的流程图。

图2为本发明实施例中样本特征矩阵的示意图。

图3为本发明实施例中样本标记矩阵的示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明并不限于下面公开的具体实施例的限制。

首先，在偏标记学习中，表示由个数据特征构成的特征集合，代表数据的维特征空间，每个特征代表一种特征描述，对应一种特征类型，其中特征代表第个特征类型。表示由个类别标记构成的标记集合，代表数据的维标记空间，每个类别标记代表一个标记类型，其中类别标记代表第个标记类型。

偏标记学习的研究对象是从特征空间和标记空间两部分进行描述。

表示样本特征矩阵，用于刻画偏标记数据中个样本构成的维特征空间；其中，表示样本的特征向量，每个样本的特征向量由个特征相应的描述度（简称特征值）构成，例如，表示样本的特征向量，表示样本关于特征的特征值（参见图2）。

每个样本对应有一个候选标记集合，候选标记集合是由多个类别标记组成的集合，候选标记集合中包含一个正确类别标记和多个伪类别标记，正确类别标记和伪类别标记都属于标记集合。例如，表示样本的候选标记集合，表示样本的候选标记集合，则，。

表示样本标记矩阵，用于刻画偏标记数据中个样本构成的维标记空间；其中，表示样本的标记向量，每个样本的标记向量由样本与全部类别标记的相关性数值组成，即，表示样本与类别标记的相关性数值；样本标记矩阵中标记向量的初始值由样本的候选标记集合决定，例如，若样本与类别标记有关，即，则，若样本与类别标记无关，则（参见图3）。

偏标记数据集为个样本的特征描述和标记描述构成的有序组的集合，其中，代表样本的偏标记数据集，，表示偏标记数据集由偏标记数据集中样本的特征向量和候选标记集合组成。

如图1所示的一种面向偏标记数据的鲁棒特征选择方法，包括以下步骤：

步骤S1，构建基于稀疏回归模型的特征选择方法模型，包括以下步骤：

步骤S11，基于稀疏回归模型构建一个面向偏标记数据的特征与标记空间的目标函数，用于度量偏标记数据集中特征与标记的相关性，拟合偏标记数据特征空间与标记空间的关系：

在稀疏回归模型中加入正则化项，防止模型过拟合，并通过模型估计偏标记数据中特征与标记的相关性，通过特征与标记间的相关性强弱来加大不同特征间的稀疏系数值差，选择系数更大的特征，这样可以减少数据维度，提高模型的泛化能力和可解释性，同时还可以降低模型的过拟合风险。建立的目标函数如下：

。

其中，表示样本特征矩阵，且，表示样本标记矩阵，且，表示稀疏系数矩阵，在本发明方法中稀疏系数矩阵表示模型对偏标记数据的特征与标记间相关性的度量结果，且，表示数据值均为实数域范围内，表示偏标记数据集中样本个数，表示描述样本的特征个数，表示偏标记数据集中标记类型数量，表示弗罗比尼乌斯范数的矩阵范数。表示平衡参数，即范数正则化项；在模型迭代过程中，范数能够加大关键特征的稀疏系数，降低冗余或无用特征的稀疏系数至趋近于零，使得样本特征矩阵中不同特征的稀疏系数具有显著差异，因此可以筛选出具有联合稀疏性的特征，保证解的稀疏性，从而降低模型的复杂度。

步骤S12，样本的相关性计算：

考虑到偏标记数据包含伪标记的特点，直接对包含噪声的标记空间学习会使得模型在学习特征的重要度时被伪标记误导，影响所选特征子集的有效性。因此本发明方法通过对样本的相关性加以利用，以减少偏标记数据的噪声在特征选择过程中的影响。

基于平滑性假设，在特征空间相近的样本，在标记空间表现相似。也就是说，近邻样本间应该有相似的标记关系。因此，针对样本的伪标记，本发明采用近邻样本的计算思想，通过计算样本的候选标记集合中类别标记对应的标记置信度，实现对伪标记的平滑处理。在这个处理过程中，样本在特征空间的相关性被迁移到标记空间，加强了样本与样本之间的相关性。

首先，根据样本特征矩阵中样本的特征向量，利用欧式距离度量方法选出样本的前个近邻样本，并按照距离的远近排序，构成样本的近邻样本集合。利用标记空间中对应的个近邻样本的候选标记集合对样本的候选标记集合中的类别标记进行加权投票，近邻权重根据距离确定，例如，对于第个近邻样本，其近邻权重，。在投票过程中需要注意，近邻样本的候选标记集合中的类别标记会被引入到样本的候选标记集合之中，加入新的伪标记，因此，在加权投票前，需判断进行投票的类别标记在候选标记集合中是否存在，即判断是否成立，再根据判断结果计算每个类别标记的投票值；个近邻样本分别对样本进行加权投票后，每个类别标记获得个投票值，然后将个投票值求和后作为样本的候选标记集合中对应类别标记的投票数，再将计算出来的投票数最大的类别标记标注为样本的候选标记。

投票数的计算公式如下：

，

式中，表示样本的类别标记的投票数，类别标记代表第个标记类型，表示第个近邻样本，表示近邻样本的近邻权重，表示样本标记矩阵中近邻样本的类别标记对应的相关性数值；其中，输出判断结果的值，即，如果成立，则式中的值置为1，如果不成立，则式中的值置为0。

，

式中，表示样本的类别标记的置信度，表示候选标记集合中元素个数；即将投票数最大的类别标记的置信度设置为0.5，其余类别标记的置信度进行相应计算，得出小于0.5的相应值，保证最可能是正确类别标记的候选标记的置信度最大；

计算出所有样本的候选标记集合中每个类别标记对应的置信度后，组成标记置信度矩阵，且，然后利用标记置信度矩阵替换标记空间的样本标记矩阵获得新的目标函数；引入标记置信度后的目标函数可以使得偏标记数据集的监督信息变得更加丰富可靠；获得的目标函数如下所示：

。

步骤S13，特征的冗余性计算：

考虑到高维数据往往存在着特征冗余的情况，过多无效特征不仅耗费计算资源，拖慢模型训练效率，还会影响模型的学习泛化能力。因此本发明方法通过对特征的冗余性加以利用，以进一步减少所选特征个数。

本发明基于互信息方法衡量两个特征之间的关联程度，即，当互信息等于0时，说明特征和特征之间不存在关联；当互信息大于0时，说明特征和特征之间存在正向关联；当互信息小于0时，说明特征和特征之间存在负向关联。

本发明方法利用互信息对特征的冗余性进行度量，并将特征与标记的相关性通过权重融入到特征的冗余性度量中，形式化定义为：

，

其中，特征和特征分别表示第个特征和第个特征，表示特征相对于类别标记的重要性，表示特征相对于类别标记的重要性；其中表示特征和特征之间的相关性，用于度量特征间的冗余程度。因此，本研究的目的是使尽可能小，使、尽可能大，实现所选特征子集中冗余特征的减少且对标记的重要程度增加。

其中，，通过计算特征和特征的取值概率乘积和联合概率求得特征和特征的互信息大小，其中分别表示样本关于特征和特征的特征值，表示对所有样本的关于特征和特征的特征值进行求和。

通过综合考虑特征与标记的相关性、样本的相关性、特征的冗余性，构造得到特征选择的目标函数：

，

式中，为偏标记数据集中标记类型数量，为描述样本的特征个数，为目标函数的平衡参数。

将上述公式化简得到最终的目标函数计算公式如下：

，

其中，为各个特征之间的互信息矩阵，且，是稀疏系数矩阵的转置矩阵，指的是转置矩阵的第行数据，是稀疏系数矩阵的第列数据，表示矩阵的迹，即表示计算矩阵的主对角线元素之和。

步骤S14，特征选择方法的求解过程：

由于特征选择的目标函数中存在稀疏系数矩阵和标记置信度矩阵两个变量，因此本发明方法选择两阶段交替迭代求解的方式进行优化，首先范数可用矩阵的方式表示为：

，

其中，稀疏系数矩阵表示的是特征空间与标记空间之间的映射系数（即个特征与个类别标记之间的映射系数），表示拉普拉斯矩阵，且；

则，特征选择的目标函数计算公式可以表示为：

，即构建得到基于稀疏回归模型的特征选择方法模型。

步骤S2，利用基于稀疏回归模型的特征选择方法模型对偏标记数据集进行特征选择，从而得到鲁棒性好的特征子集结果：

步骤S22，将拉普拉斯矩阵初始化为单位矩阵，；

步骤S24，通过构建的基于稀疏回归模型的特征选择方法模型，对特征与标记的相关性、特征的冗余性进行度量计算，计算出每个样本的每个特征的重要度，并根据标记置信度矩阵计算获得稀疏系数矩阵；

其中，根据标记置信度矩阵计算获得稀疏系数矩阵的方法为：

根据标记置信度矩阵对稀疏系数矩阵进行求导，并令求导后式子为0，可得：

，

对上述公式合并同类项后，可表示为：

，

式中，是表示样本特征矩阵的转置矩阵；

稀疏系数矩阵中的值的大小表示特征的重要度，例如，=，表示特征的重要度；

步骤S25，根据稀疏系数矩阵更新拉普拉斯矩阵，获得新的拉普拉斯矩阵；拉普拉斯矩阵的计算方法为：

，

其中，是指拉普拉斯矩阵中第行第列元素，表示稀疏系数矩阵中第个特征与个类别标记之间的映射系数；是个映射系数数值绝对值的平方和再开方，表示特征的重要度，即，且，表示第个特征与类别标记之间的映射系数；

步骤S26，将稀疏系数矩阵中的值按降序进行排序，并选出前个值对应的特征构成特征子集；根据特征子集生成低维度偏标记数据集，，其中，；

步骤S28，循环上述步骤S24~步骤S27，直到函数收敛（即当迭代中两次目标函数的变化小于10^-3）或者迭代次数到达最大迭代次数时，算法停止，根据特征的重要度输出特征排序结果，获得特征子集，，且满足，指特征子集含有特征的个数，也指低维数据集的特征空间维度。

实验对比与结果分析

（1）数据集

为了验证本发明所提出的鲁棒特征选择方法的有效性，在五个真实世界的偏标记数据集上进行实验对比和分析，所述五个偏标记数据集分别为BirdSong、MSRCv2、Lost、FG-NET、Mirflickr。这些真实数据集涉及到不同应用领域的分类，其中，BirdSong数据集属于鸟声分类应用领域、MSRCv2数据集属于对象分类应用领域、Lost数据集属于自动命名应用领域、FG-NET数据集属于年龄估计应用领域、Mirflickr数据集属于图片分类应用领域，真实数据集的详细信息如下表1所示。这些真实世界偏标记数据中对象关联的平均伪标记数量由2个到7个不等。对于图像样本的分类（对象分类、自动命名、图片分类），出现在图像中的对象被视为候选标签。对于面部标注应用（年龄估计），训练样本包括图像中识别的人形，以及从相关脚本中提取的相应候选标签。基于这些数据集，进行十折交叉验证收集实验数据，可以更好地验证特征选择方法在降低特征维度的同时是否能够提高分类模型的准确性和稳定性，验证特征选择方法在解决伪标记的噪声方面的效率/能力。

（2）实验参数设置

本小节主要介绍实验中的对比方法和参数设置。实验中，将本发明实施例所述的面向偏标记数据的鲁棒特征选择方法记作PFmRMR，将PFmRMR与五种不同的现有方法进行实验对比，对比方法及其详细的参数设置描述如下：

现有方法一：PL-KNN方法（Partial Label Learning based on K-NearestNeighbor），PL-KNN方法是一种基于平均消歧策略的偏标记学习方法，由传统的机器学习K近邻算法改进而来，对未见样本的k个近邻标记进行加权投票，将出现最多的标记确定为预测标记，其中设置k=5。

现有方法二：IPAL方法（Instance-based Partial Label Learning Approach）， IPAL方法是一种基于实例的方法来解决部分标签学习问题。该方法使用基于实例的分类器对样本进行分类，并将每个样本的标签转化为概率分布，其中概率值对应每个类别的分类器置信度，其中控制从标签传播和初始标记矩阵中继承的相对信息量的参数=0.95。

现有方法三：Fisher方法（Feature Selection using the Fisher Score），Fisher方法是一种过滤式的特征选择方法，利用最小化类内间隔和最大化类间间隔实现对特征打分，按照评价计算的分数对特征进行排序，输出特征子集。

现有方法四：LPScore方法（Feature Selection using the Laplacian Score），LPScore方法是一种基于拉普拉斯图正则化的特征选择方法，通过构建拉普拉斯图正则化对特征打分，按照分数对特征进行排序，输出特征子集。

现有方法五：SAUTE方法（Submodular Feature Selection for Partial Label Learning），SAUTE方法是一种过滤式的特征选择方法，通过互信息方法度量特征与标记的依赖度和特征冗余度，向特征子集中添加特征，其中近邻个数参数k=5，继承的相对信息量的参数=0.6。

实验中我们在训练过程中根据原始特征维数按比例选取特征用于优化，测试阶段选取前40%作为所选特征子集，对偏标记数据按照所选特征子集降维后作为分类器的输入获得分类精度，并将原始偏标记数据也输入分类器获得特征选择前的分类精度。

为了验证PFmRMR方法的有效性，实验分为两部分：（1）使用原始数据集直接作为分类器的输入获得特征选择前分类精度。（2）使用特征选择方法对原始数据集合按照指定维数进行特征选择，构造低维数据集作为偏标记分类器的输入获得特征选择后分类精度。

（3）实验结果与分析

本发明将机器学习分类器{PL-KNN、IPAL}和特征选择方法{PFmRMR与Fisher、LPscore、SAUTE}进行了8种不同组合实验，表2展示了PFmRMR与各现有方法在真实数据集上分类精度的实验结果。此外，对于本发明所提方法与现有方法实验效果评估的赢/平/输(优于/持平/劣于)计数结果见表3，基于0.05显著度的两两进行t检验来确定两种特征选择方法的性能是否存在显著性差异。

从上述实验结果和对比分析中得出以下结论：PFmRMR方法可以在有噪声和高维特征空间下稳定显著提升分类器的分类性能。例如在具有超过2100个特征数的Mirflickr数据集上，PFmRMR方法可以仅选出40%的特征数实现比未特征选择前更好的效果。并且通过表3中的实验数据的统计分析可知，对比结果表明PFmRMR方法要显著优于对比的现有方法。

基于这些实验对比和分析可知，利用近邻样本更新标记的置信度有助于对标记空间中伪标记的平滑，有效降低伪标记在特征选择过程中的消极影响，这有利于后续对特征与标记的相关性和特征的冗余性进行准确度量分析，与现有的特征选择方法相比，本发明的PFmRMR方法具有更好的鲁棒性能。

Claims

1.一种面向偏标记数据的鲁棒特征选择方法，包括以下步骤：

，

其中，表示样本特征矩阵，且/>，/>表示稀疏系数矩阵，且/>，/>表示标记置信度矩阵，且/>，/>表示数据值均为实数域范围内，/>表示偏标记数据集中样本个数，/>表示描述样本的特征个数，/>表示偏标记数据集中标记类型数量，/>表示弗罗比尼乌斯范数的矩阵范数；/>表示矩阵的迹，即表示计算矩阵的主对角线元素之和，/>为目标函数的平衡参数，/>为各个特征之间的互信息矩阵，且/>，/>是稀疏系数矩阵/>的转置矩阵；/>表示平衡参数，/>即/>范数正则化项；

，

其中，表示拉普拉斯矩阵，且/>；

步骤S2，利用构建得到的基于稀疏回归模型的特征选择方法模型对偏标记数据集进行优化学习，两阶段循环迭代地利用模型学习优化得到的标记置信度指导各个变量间相关性的更新，获取并更新稀疏回归系数矩阵，并通过稀疏回归系数按特征的重要度输出特征排序结果，对偏标记数据集进行特征选择，从而得到鲁棒性好的特征子集结果。

2.根据权利要求1所述的面向偏标记数据的鲁棒特征选择方法，其特征在于，步骤S11中，基于稀疏回归模型构建一个面向偏标记数据的特征与标记空间的目标函数的具体方法为：

，

其中，表示样本标记矩阵，且/>。

3.根据权利要求2所述的面向偏标记数据的鲁棒特征选择方法，其特征在于，步骤S12中，利用偏标记数据中样本的相关性计算标记置信度，并根据标记置信度对标记空间中伪标记进行平滑处理的具体方法为：

首先，根据样本特征矩阵中样本的特征向量，利用欧式距离度量方法选出样本/>的前个近邻样本，并按照距离的远近排序，构成样本/>的/>近邻样本集合/>；利用标记空间中对应的/>个近邻样本的候选标记集合对样本/>的候选标记集合/>中的类别标记进行加权投票，近邻权重/>根据距离确定；/>个近邻样本分别对样本/>进行加权投票后，每个类别标记获得/>个投票值，然后将/>个投票值求和后作为样本/>的候选标记集合/>中对应类别标记的投票数，再将计算出来的投票数最大的类别标记标注为样本/>的候选标记/>；

然后根据以下规则对候选标记集合中的类别标记进行标记置信度的更新，并获得标记置信度矩阵/>：

，

式中，表示样本/>的类别标记/>的置信度，/>表示候选标记集合中元素个数；

计算出所有样本的候选标记集合中每个类别标记对应的置信度后，组成标记置信度矩阵，且/>，然后利用标记置信度矩阵/>替换标记空间的样本标记矩阵/>获得新的目标函数：

。

4.根据权利要求3所述的面向偏标记数据的鲁棒特征选择方法，其特征在于，步骤S12中，投票数的计算公式如下：

，

式中，表示样本/>的类别标记/>的投票数，类别标记/>代表第/>个标记类型，/>表示第/>个近邻样本，/>表示近邻样本/>的近邻权重，/>，/>；/>表示样本标记矩阵/>中近邻样本/>的类别标记/>对应的相关性数值；其中，/>输出判断结果的值，即，如果/>成立，则式中/>的值置为1，如果/>不成立，则式中的值置为0。

5.根据权利要求3所述的面向偏标记数据的鲁棒特征选择方法，其特征在于，步骤S13中，基于互信息方法衡量两个特征之间的关联程度，对特征的冗余性进行度量，并将特征与标记的相关性通过权重融入到特征的冗余性度量中，得到；

，

其中，表示特征/>和特征/>之间的相关性，用于度量特征间的冗余程度；特征/>和特征/>分别表示第/>个特征和第/>个特征，/>表示特征/>相对于类别标记/>的重要性，/>表示特征/>相对于类别标记/>的重要性；

从而得到特征选择的目标函数：

，

将上述公式化简得到特征选择的目标函数如下：

。

6.根据权利要求5所述的面向偏标记数据的鲁棒特征选择方法，其特征在于，步骤S2中，利用构建得到的基于稀疏回归模型的特征选择方法模型对偏标记数据集进行优化学习具体包括以下步骤：

步骤S21，将偏标记数据集和样本标记矩阵/>输入至上述步骤S1中构建的基于稀疏回归模型的特征选择方法模型中，设置参数近邻数为/>，特征选择比例为/>；

步骤S22，将拉普拉斯矩阵初始化为单位矩阵，/>；

步骤S23，通过构建的基于稀疏回归模型的特征选择方法模型，利用欧氏距离度量方法获取每个样本的近邻样本集合，并根据样本标记矩阵/>、近邻权重/>，计算偏标记数据集/>中每个样本的每个类别标记的标记置信度，获得标记置信度矩阵/>，/>表示迭代次数；

步骤S24，通过构建的基于稀疏回归模型的特征选择方法模型，对特征与标记的相关性、特征的冗余性进行度量计算，计算出每个样本的每个特征的重要度，并根据标记置信度矩阵计算获得稀疏系数矩阵/>；稀疏系数矩阵/>中的值的大小表示特征的重要度；

步骤S25，根据稀疏系数矩阵更新拉普拉斯矩阵/>，获得新的拉普拉斯矩阵/>；

步骤S26，将稀疏系数矩阵中的值按降序进行排序，并选出前/>个值对应的特征构成特征子集/>；根据特征子集/>生成低维度偏标记数据集/>；

步骤S27，根据低维度偏标记数据集对标记置信度矩阵/>进行更新，获得新的标记置信度矩阵/>；

步骤S28，循环上述步骤S24~步骤S27，直到函数收敛或者迭代次数到达最大迭代次数时，算法停止，根据特征的重要度输出特征排序结果，获得特征子集/>，/>，表示由/>个数据特征构成的特征集合，且满足/>，/>指特征子集/>含有特征的个数，也指低维数据集的特征空间维度。

7.根据权利要求6所述的面向偏标记数据的鲁棒特征选择方法，其特征在于，步骤S24中，根据标记置信度矩阵计算获得稀疏系数矩阵/>的具体方法为：，式中，/>是表示样本特征矩阵/>的转置矩阵。

8.根据权利要求6所述的面向偏标记数据的鲁棒特征选择方法，其特征在于，步骤S25中，根据稀疏系数矩阵更新拉普拉斯矩阵/>，获得新的拉普拉斯矩阵/>的具体方法为：

若稀疏系数矩阵中的值为/>，/>表示特征/>的重要度，则拉普拉斯矩阵的计算方法为：

，

其中，是指拉普拉斯矩阵/>中第/>行第/>列元素，/>表示稀疏系数矩阵/>中第/>个特征与/>个类别标记之间的映射系数；/>是/>个映射系数数值绝对值的平方和再开方，表示特征/>的重要度，即/>，且/>，/>表示第/>个特征与类别标记/>之间的映射系数。