CN111428786A

CN111428786A - 基于PageRank的数据特征集降维方法

Info

Publication number: CN111428786A
Application number: CN202010208695.8A
Authority: CN
Inventors: 邹权; 贺世达
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-03-23
Filing date: 2020-03-23
Publication date: 2020-07-17

Abstract

本发明公开了一种基于PageRank的数据特征集降维方法，涉及计算机技术领域。该方法采用多种特征选择算法结合计算各数据特征的重要性，采用PageRank的迭代法，计算各数据特征的PR值，继而实现对原始数据特征集中各数据特征的排序，从所得到的数据序列中取出一定数量的数据特征构成待测数据特征集，待测数据特征集的数量为原始数据特征集中的数据特征个数，各待测数据特征集中数据特征序次与数据序列保持一致，各待测数据特征集中的数据特征个数不同，利用随机森林得到个待测数据特征集的F1分数，将F1分数最高的待测数据特征集作为降维结果输出。该方法易于实现原数据特征集的自动降维，能够适用于不同数据特征集的降维，并节省用户大量的时间和精力。

Description

基于PageRank的数据特征集降维方法

技术领域

本发明涉及计算机技术领域，具体而言，涉及一种基于PageRank的数据特征集降维方法。

背景技术

在机器学习中，我们使用的数据特征集一般存在特征冗余的问题，这些特征不仅会增加训练成本，还会影响模型的结果。为了方便对数据特征集进行数据分析，需要从数据特征集中提取出部分有效的业务数据作为特征数据。其中一种方法是把高维数据直接降维转化为低维数据，如PCA,SVD,t-SNE等。另一个方法是特征选择，即通过某种算法来挑选出数据特征集中有代表性的特征，去除冗余的特征，目前流行的有LASSO，ANOVA，mRMR等。上述的第一种方法使用过程中用户往往不能确定究竟要降到多少维才是最优的。上述的第二种方法也面对这种问题，用户也不能确定究竟要挑选多少个特征才是最好的。而且不同的方法通常适用于不同的数据特征集，用户必须逐个测试，十分浪费时间和人力。

发明内容

本发明在于提供一种基于PageRank的数据特征集降维方法，其能够缓解上述问题。

为了缓解上述的问题，本发明采取的技术方案如下：

本发明提供了一种基于PageRank的数据特征集降维方法，包括以下步骤：

S01、读取数据文件，获取待处理的原始数据特征集；

S02、采用多种特征选择算法计算所述原始数据特征集中各数据特征的重要性，对于每一种特征选择算法，其均得到一个将各数据特征按重要性依次排序的数据特征序列Ⅰ；

S03、将所有的数据特征序列Ⅰ进行组合，并构成一有向图；

S04、以有向图作为输入，采用PageRank的迭代法，计算各数据特征的PR值，并按PR值大小，将各数据特征依次排序，得到一数据特征序列Ⅱ；

S05、初始化N＝1，定义数据特征序列Ⅱ中数据特征的总个数为M；

S06、将数据特征序列Ⅱ中的前N个数据特征取出，并构成待测数据特征集，将待测数据特征集输至随机森林中进行评估，得到待测数据特征集的F1分数并保存；

S07、若N≠M，则N＝N+1，跳转至步骤S06，否则继续执行步骤S08；

S08、将F1分数最高的待测数据特征集作为降维结果输出，完成数据特征集的降维。

本技术方案的技术效果是：通过采用将PageRank结合多个特征选择算法对原数据特征集中各数据特征进行排序，集成了多种特征选择算法的优点，易于实现原数据特征集的自动降维，无需确定要降到多少维才是最优的，也无需确定需要从原数据特征集挑选多少个数据特征，能够适用于不同数据特征集的降维，并节省用户大量的时间和精力。

可选地，所述步骤S01中，需要对数据文件的格式进行判断。

本技术方案的技术效果是：可以方便用户使用，减少输入参数的个数。

可选地，所述步骤S02中，数据特征越重要，其在数据特征序列Ⅰ中的排名越靠前。

可选地，所述步骤S02中，特征选择算法有七种，且分别为ANOVA、MRMD、MIC、LASOO、mRMR、卡方检验和特征递归消除。

本技术方案的技术效果是：该七种算法具有普适性，能够普遍适用于各类数据特征集的重要性计算。

可选地，所述步骤S04中，数据特征的PR值越大，其在数据特征序列Ⅱ中的排名越靠前。

具体地，对于每个数据特征，其PR值的计算公式如下：

p＝M^jp_j-1

M＝sA+sD+tE

其中p为数据特征的PR值，M为状态转移矩阵，s为阻尼系数，t＝1-s，矩阵A对应当前数据特征随机挑选一个出链，矩阵D对应当前数据特征没有出链，E对应当前数据特征随机跳转到下一个数据特征，与有无出链无关，概率为1/数据特征数。

具体地，所述步骤S06中，获得待测数据特征集的F1分数的方法具体包括：根据在交叉验证中随机森林预测的结果与样本实际的标签计算F1，计算公式如下：

其中TP为真正例个数，FN为假反例个数，FP为假正例个数。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举本发明实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为实施例1中所述基于PageRank的数据特征集降维方法流程图；

图2为实施例1中所述基于PageRank的数据特征集降维方法所支持的数据文件类型参考示意图；

图3为实施例1中有向图的获取过程示意图，其中图3(a)表示使用多种特征征选择算法进行特征排序，图3(b)及图3(c)表示将数据特征序列Ⅰ进行组合并构成有向图的示意图；

图4为实施例1中PageRank计算得到的各数据特征的PR值列表；

图5为实施例1中在降维中不断添加特征尝试最优的特征组合示意图；

图6为采用本发明方法对包含有228个数据特征的数据集进行降维的示意图；

图7为降维迭代过程中输出的内容示意图；

图8为通过t-SNE生成的散点图来展示降维前后的效果对比示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

请参照图1，本实施例提供了一种基于PageRank的数据特征集降维方法，包括以下步骤：

S01、读取数据文件，获取待处理的原始数据特征集；

S03、将所有的数据特征序列Ⅰ进行组合，并构成一有向图；

在本实施例中，原始数据特征集为{fea1，fea2，fea3，fea4，fea5}，即M＝5。

在本实施例中，数据文件为用于二分类的文件格式，如图2所示的arff，csv和libsvm，类型标签为0和1，数据特征的数据类型整形或浮点型均可。

在本实施例的步骤S02中，特征选择算法有七种，且分别为方差分析(ANOVA)、最大相关最大距离(MRMD)、最大信息系数(MIC)、套索算法(LASOO)、最大相关最小冗余(mRMR)、卡方检验和特征递归消除。

如图3(a)所示，每个算法都会按照得出的重要性的分数对数据特征进行排序(图中仅示出了七种中的四种)，数据特征越重要，其在数据特征序列Ⅰ中的排名越靠前。经过实验表明，使用特征排序后的新数据集在经过去除冗余的特征后一般会在模型中取得更好的结果。如图3(b)和图3(c)所示，将各数据特征序列Ⅰ进行组合就构成一个有向图，每个特征类似于网络中的网页，存在指向关系，这样便满足了PageRank迭代算法的输入要求。

上述七种特征选择算法的具体计算过程如下：

1、ANOVA用于两个及两个以上样本均数差别的显著性检验。特征的重要性计算如下：

其中MSG是组间方差，MSE是组内方差，另外：

SSE＝SST-SSG，

df_g是SSG对应的自由度，df_e是SSE对应的自由度,y_i为当前样本某个特征值，

为样本所有特征的平均值，

为某个特征的平均值。

2、MRMD：根据皮尔逊系数和最大欧式距离计算特征的重要性，它平衡了特征排序和在预测任务中的准确率和稳定性。

公式如下：

max(MR_i+MD_i)

其中MR_i为皮尔逊系数，MD_i为特征间的欧式距离。

3、MIC可用于MIC用于衡量两个特征X和Y的线性或非线性的强度。其主要思想为具有相关性的变量进行网格划分之后，然后计算这两个变量的互信息，正则化后的值可用于衡量这两个变量之间的相关性。

互信息公式如下：

网格化的方法是将两个变量之间的关系离散在二维空间中，将当前二维空间在x,y方向分别划分为一定的区间数查看散点落入情况，公式如下

a,b是在x,y方向上的划分格子的个数，B的大小设置推荐0.6次方左右。

4、LASOO是在普通线性回归的基础上加了一个L1正则化，可以使那些弱的特征所对应的系数接近或变成0从而达到特征选择的目的。公式如下：

5、mRMR全称最大相关最小冗余算法。目的是在原始数据集中找到与结果相关性最大，而特征之间相关性最小的一组特征组合。

最大相关的公式如下：

maxV₁,

最小冗余的公式如下：

minW₁,

其中I(i,j)是上面提到的互信息，S代表我们寻找的特征子集，|S|代表特征的个数，h是分类变量，I(h,i)量化了I与任务的相关性。

6、卡方检验是统计样本的实际观测值与理论推断值之间的偏离程度，实际观测值与理论推断值之间的偏离程度就决定卡方值的大小，如果卡方值越大，二者偏差程度越大；反之，二者偏差越小；若两个值完全相等时，卡方值就为0，是一种常用的特征选择方法。计算公式如下：

其中O_i为观测值，E_i为均值

7、递归特征消除的主要思想是反复的构建模型然后选出最好的(或者最差的)的特征，把选出来的特征选择出来，然后在剩余的特征上重复这个过程，直到所有特征都遍历了。这个过程中特征被消除的次序就是特征的排序。本方法模型采用的是支持向量机。

在本实施例的步骤S04中，所得到的数据特征序列Ⅱ为{fea1，fea2，fea3，fea5，fea4}，数据特征的PR值越大，其在数据特征序列Ⅱ中的排名越靠前。

对于每个数据特征，其PR值的计算公式如下：

p＝M^jp_j-1

M＝sA+sD+tE

其中p为数据特征的PR值，M为状态转移矩阵，s为阻尼系数，t＝1-s，矩阵A对应当前数据特征随机挑选一个出链，矩阵D对应当前数据特征没有出链，E对应当前数据特征随机跳转到下一个数据特征，与有无出链无关，概率为1/数据特征数。如图4所示，示出了PageRank计算得到的各数据特征的PR值列表。

在本实施例的步骤S06中，所构成的待测数据特征集有5个，且分别为{fea1}、{fea1，fea2}、{fea1，fea2，fea3}、{fea1，fea2，fea3，fea5}和{fea1，fea2，fea3，fea5，fea4}，通过随机森林对各待测数据特征集进行评估，如图5所示，随机森林会使用5折交叉验证计算待测数据特征集的各项指标，包括准确率、F1分数、召回率、精确率和AUC分数。其中F1分数为我们需要用到的数据。F1是precision(精确率)和recall(召回率)的调和平均数，随机森林是利用多棵树对样本进行训练并预测的一种分类器，对于每个待测数据特征集，获取其F1分数的方法如下：

准确率计算如下：

AUC计算方法如下：

首先计算TPR(真正例率)和FPR(假正例率)，然后以TPR为纵轴，FPR为横轴，根据样本的预测值，绘制ROC曲线，最后计算ROC曲线下的面积即为AUC值。

其中TP:真正例个数，FN:假反例个数，FP:假正例个数，TN:真反例个数。

在本实施例的步骤S08中，是在评估完所有待测数据特征集后，将F1分数作为评价标准，将F1分数最高的待测数据特征集作为降维结果输出保存。

一般情况下，需要进行降维的数据特征集中数据特征的个数远远大于5个，上述实施例为了便于理解，将其设定为5个。图6为采用本发明方法对包含有228个数据特征的数据特征集进行降维，并最终得到64个数据特征的示意图，降维后的文件保存在当前目录的Results文件夹中；除了降维后的文件，本方法实现的程序还会输出3个文件，其中算法运算中在终端输出的内容会保存在程序当前目录的Logs文件夹内；如图7所示，中间迭代筛选最优特征序列过程的内容会保存在当前目录的Results文件夹中，用户可以根据该内容绘制数据指标随特征维度的变化曲线；此外，程序还会使用t-SNE算法生成一个降维前后的二维散点图，如图8所示，该图会保存在当前目录的Results文件夹中。

实施例2

在本实施例中，用户可以使用多分类的数据集，可以指定降维的维数，设置评估特征序列的标准(默认是F1分数，也可以选用准确率，召回率等作为评估标准)，并且可以针对初始特征序列的某一段进行特征选择和降维，若用户指定降维的维度，则可以直接完成数据特征集的降维操作，否则自动逐步执行。

下面是本实施例的具体流程：

S01、读取数据文件，获取待处理的原始数据特征集，指定评估标准为准确率accuracy，设定每次评估的步长为k＝2。

S03、将所有的数据特征序列Ⅰ进行组合，并构成一有向图；

S06、将数据特征序列Ⅱ中的前N个数据特征取出，并构成待测数据特征集，将待测数据特征集输至随机森林中进行评估，得到待测数据特征集的accuracy并保存；

S07、若N≠M，则N＝N+k，跳转至步骤S06，否则继续执行步骤S08；

S08、将指定分数最高的待测数据特征集作为降维结果输出，完成数据特征集的降维。

在本实施例中，数据格式为多分类的文件，数据标签为整形，数据特征的数据类型整形或浮点型均可。

在本实施例的步骤S02中，特征选择算法仍为七种，分别为方差分析(ANOVA)、最大相关最大距离(MRMD)、最大信息系数(MIC)、套索算法(LASOO)、最大相关最小冗余(mRMR)、卡方检验和特征递归消除。

在本实施例的步骤S07中，每次N＝N+2，即每次添加2个特征来搜索最优的特征子序列。因为特征一个一个加很慢，可以牺牲精确度来提升速度，除增加2外，还可根据实际需要增加3、4、5……。

在本实施例的步骤S08中，是在评估完所有待测数据特征集后，将accuracy作为评价标准，将accuracy分数最高的待测数据特征集作为降维结果输出保存。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于PageRank的数据特征集降维方法，其特征在于，包括以下步骤：

S01、读取数据文件，获取待处理的原始数据特征集；

S03、将所有的数据特征序列Ⅰ进行组合，并构成一有向图；

2.根据权利要求1所述基于PageRank的数据特征集降维方法，其特征在于，所述步骤S01中，需要对数据文件的格式进行判断。

3.根据权利要求1所述基于PageRank的数据特征集降维方法，其特征在于，所述步骤S02中，数据特征越重要，其在数据特征序列Ⅰ中的排名越靠前。

4.根据权利要求1所述基于PageRank的数据特征集降维方法，其特征在于，所述步骤S02中，特征选择算法有七种，且分别为ANOVA、MRMD、MIC、LASOO、mRMR、卡方检验和特征递归消除。

5.根据权利要求1所述基于PageRank的数据特征集降维方法，其特征在于，所述步骤S04中，数据特征的PR值越大，其在数据特征序列Ⅱ中的排名越靠前。

6.根据权利要求5所述基于PageRank的数据特征集降维方法，其特征在于，对于每个数据特征，其PR值的计算公式如下：

p＝M^jp_j-1

M＝sA+sD+tE

7.根据权利要求1所述基于PageRank的数据特征集降维方法，其特征在于，所述步骤S06中，获得待测数据特征集的F1分数的方法具体包括：根据在交叉验证中随机森林预测的结果与样本实际的标签计算F1，计算公式如下：

其中TP为真正例个数，FN为假反例个数，FP为假正例个数。