CN113780416A

CN113780416A - 基于图的特征排序和降维方法

Info

Publication number: CN113780416A
Application number: CN202111063272.2A
Authority: CN
Inventors: 贺世达; 邹权
Original assignee: Yangtze River Delta Research Institute of UESTC Huzhou
Current assignee: Yangtze River Delta Research Institute of UESTC Huzhou
Priority date: 2021-09-10
Filing date: 2021-09-10
Publication date: 2021-12-10
Anticipated expiration: 2041-09-10
Also published as: CN113780416B

Abstract

基于图的特征排序和降维方法，它属于计算机和生物学交叉领域。本发明解决了现有降维方法的通用性差，降维过程费时的问题。本发明集成了多种特征排序方法，利用这些方法之间存在的互补性，这样更有利于挖掘出数据的潜在信息，有利于去除数据的冗余特征，有利于筛选出更有利于建模的特征。将这些算法的结果以图的形式表示，相对于其他算法而言，本发明方法更具有普适性、通用性。使用户不需要去尝试测试不同的降维方法，大大节省了降维所需要的时间。本发明可以应用于计算机和生物学交叉领域。

Description

基于图的特征排序和降维方法

技术领域

本发明涉及计算机和生物学交叉领域，具体涉及一种基于图的特征排序和降维方法。

背景技术

随着科学技术的迅速发展，生物的数据在指数级的增长，但是这些数据往往有着噪声高，维度高等问题。如何从大量的数据中探索具有生物学意义的知识和规律，是当今时代人类面临具有重要挑战性的问题之一。同时值得注意的是，人工智能学科也有了很大的进步，越来越多的机器学习领域的方法也被应用到生物信息学领域中。由于经过特征提取后的数据存在诸多问题，降维便成了提取生物数据信息的一门重要技术。

许多降维方法会对特征的数据结构做一定假设。例如经典的降维算法主成分分析，主要通过正交变换的方法，将高维的数据转换为低维的，但是这样可能会改变数据的原有信息。另外一种方式是特征选择，它通常根据某种算法估计特征的重要性大小，进而从原本的数据中选择出分数比较高的特征实现降维。虽然上述方法能够将高维的数据降到低维，但是上述的这些技术存在通用性的问题，例如一个数据集需要用户不断的去尝试测试不同的降维方法，中间还要不断的调整参数，是一个十分费时的过程。

发明内容

本发明的目的是为解决现有降维方法的通用性差，降维过程费时的问题，而提出了一种基于图的特征排序和降维方法。

本发明为解决上述技术问题所采取的技术方案是：

一种基于图的特征排序和降维方法，所述方法具体包括以下步骤：

步骤一、读取待处理的数据文件；

步骤二、选择多种特征排序算法，再分别采用每一种特征排序算法对待处理数据文件进行处理，得到每一种特征排序算法对应的处理结果；

所述步骤二的具体过程为：

对于选择的某种特征排序算法，采用该特征排序算法计算待处理数据文件中每个特征的分数后，再根据分数由大到小对各特征进行排序，得到一个有序的列表，即得到了该特征排序算法对应的处理结果；

同理，分别得到每种特征排序算法对应的处理结果；

步骤三、采用随机删除机制对步骤二获得的各列表中的特征进行删减，获得经过删减的各列表；

步骤四、利用经过删减后的全部列表构成一张有向图，对于有向图中的任意两个特征对应的结点，若这两个特征在任意一个经过删减后的列表中存在相邻关系，则在有向图中，这两个特征对应的结点之间存在边，且边的方向是：由两个特征中分数低的特征对应的结点指向分数高的特征对应的结点；

步骤五、分别计算步骤四构成的有向图中每个特征的重要性分数，并根据重要性分数大小对特征进行重新排序；

步骤六、基于特征重新排序结果确定聚类的簇数；再对待处理数据文件中各特征的初始特征向量进行更新，得到各特征的最终特征向量；

基于确定的聚类簇数，对各特征的最终特征向量进行聚类，保留每类中的首位特征作为降维后的特征。

本发明的有益效果是：

1、本发明方法集成了多种特征排序方法，这些方法之间存在互补性，这样更有利于挖掘出数据的潜在信息，有利于去除数据的冗余特征，有利于筛选出更有利于建模的特征。将这些算法的结果以图的形式表示，相对于其他算法而言，本发明方法更具有普适性、通用性。

2、本发明使用到了多种特征排序算法，不是一种简单的投票策略，而是模拟了互联网中的网页链接关系，提出的删减有向边从而计算特征重要性分数的方法，相比于一些传统的链接分析算法，更适合应用于特征选择的研究中。

3、本发明在降维过程中应用到了聚类算法的策略，相比于不断用分类器测试模型特征组合的方法，更能提升程序的运行速度。由于本发明方法的通用性，用户不再需要去尝试测试不同的降维方法，大大节省了降维所需要的时间。

附图说明

图1是本发明的一种基于图的特征排序和降维方法的流程图；

图2a为实施例中所用CSV样本的数据格式参考图；

图2b为实施例中所用ARFF样本的数据格式参考图；

图2c为实施例中所用LibSVM样本的数据格式参考图；

图3为实施例中不同特征选择算法的分数和有序序列的示意图；

图4为实施例中特征选择算法结果组成有向图的流程图；

图5为实施例中对有向图的边进行删减前后的对比图。

具体实施方式

具体实施方式一、结合图1说明本实施方式。本实施方式所述的一种基于图的特征排序和降维方法，所述方法具体包括以下步骤：

步骤一、读取待处理的数据文件；

所述步骤二的具体过程为：

同理，分别得到每种特征排序算法对应的处理结果；

删减的标准是分数越低的特征被删减的概率越高。例如列表L1，列表中四个特征的分数关系为：a<b<c<d，删减后的列表L1中：a<c<d，其中a,b,c,d为四个特征的分数。

参考互联网中不同网页结点之间的链接指向关系，每个列表会有一个排序后的线性结果，将这些结果有序的线性列表根据低分特征指向高分特征的原则拼劲起来组成一张有向图。比如，对于经过删减获得的列表1，其中，特征a、b、c的分数大小关系为：a>b>c，对于经过删减获得的列表2，其中，特征a、b、c的分数大小关系为：a>c>b，则a对应的结点与b对应的结点、b对应的结点与c对应的结点、c对应的结点与a对应的结点之间均存在边，a对应的结点与b对应的结点之间的边是由b对应的结点指向a对应的结点，b对应的结点与c对应的结点之间的边是双向边，c对应的结点与a对应的结点之间的边是由c对应的结点指向a对应的结点。

步骤六、采用手肘法，并基于特征重新排序结果确定聚类的簇数；再对待处理数据文件中各特征的初始特征向量进行更新，得到各特征的最终特征向量；

基于确定的聚类簇数，采用高斯混合模型对各特征的最终特征向量进行聚类，保留每类中的首位特征(即重要性分数最大的特征)作为降维后的特征。

基于手肘法和高斯混合模型聚类来估计降维后特征的维度。手肘法的原理是随着簇数的增大，簇的聚合程度也会随之提高，使得数据的误差平方和逐渐变小，当误差平方和趋于稳定时即可确定聚类的簇数。高斯混合模型计算复杂度不高，并且具有无偏性。具体的方法是采用上述方法确定分类的最优簇数K，然后使用K对特征进行聚类，对于划分同一类的特征，只保留排在首位的特征删除后面的特征进而达到降维的目的。

具体实施方式二：本实施方式与具体实施方式一不同的是，所述步骤一中，读取的待处理数据文件为特征提取后的蛋白质序列数据、基因序列数据或医学图像。

本发明可处理多种类型的数据，这些数据类型包括但不限于特征提取后蛋白质序列，基因序列，甚至图像等。

其它步骤及参数与具体实施方式一相同。

具体实施方式三：本实施方式与具体实施方式一或二不同的是，所述步骤一中，读取的待处理数据文件的格式为ARFF、LibSVM或CSV。

其它步骤及参数与具体实施方式一或二相同。

具体实施方式四：本实施方式与具体实施方式一至三之一不同的是，所述多种特征排序算法包括最大相关最小冗余法、最大相关最大距离法(包括基于欧氏距离、余弦距离和谷本系数三种方式)、套索法、岭回归法、逻辑回归法、互信息法、方差分析法、递归式特征选择法、卡方法、F值法、树的特征重要性法(包括决策树、随机森林、梯度提升树)、最大互信息系数法和均值互信息法。

其它步骤及参数与具体实施方式一至三之一相同。

具体实施方式五：本实施方式与具体实施方式一至四之一不同的是，所述步骤三中，采用随机删除机制对步骤二获得的各列表中的特征进行删减，每个特征被删除的概率为：

在某个列表中，第i个特征被删除的概率P_i为：

其中，w₂为常数，x_i′为对第i个特征的索引进行缩放的结果；

其中，x_i,index为第i个特征对应的索引值，max_index为列表中特征的最大索引值，w₁为权重系数；

列表中分数越低的特征被删除的概率越大。

其它步骤及参数与具体实施方式一至四之一相同。

具体实施方式六：本实施方式与具体实施方式一至五之一不同的是，所述w₂的取值为7/11，所述w₁的取值为10。

其它步骤及参数与具体实施方式一至五之一相同。

具体实施方式七：本实施方式与具体实施方式一至六之一不同的是，所述步骤五的具体过程为：

其中，Num_total为列表中总特征的个数，Num_save为第i个特征在各个列表结果中保留的个数，Num_delete为第i个特征在各个列表结果中删除的个数，x_i为中间变量；

其中，e代表自然对数的底数，R_0i为第i个特征的重要性分数，j代表第j个特征，

代表全部特征的

求和。

其它步骤及参数与具体实施方式一至六之一相同。

具体实施方式八：本实施方式与具体实施方式一至七之一不同的是，所述对待处理数据文件中各特征的初始特征向量进行更新，得到各特征的最终特征向量；其具体过程为：

步骤S1、统计有向图中保留下来的特征的列表save以及在步骤三中被删除过的特征的列表delete；

步骤S2、构建列表save的状态转移矩阵M以及列表delete的状态转移矩阵N；

状态转移矩阵M的对角线上元素全为0，若在有向图中，特征i对应的结点直接到达特征j对应的结点(即特征i对应的结点与特征j对应的结点之间存在边，且特征i对应的结点指向特征j对应的结点)，则状态转移矩阵M的第i行第j列的元素m_ij为：

其中，i≠j，若特征i对应的结点无法到达特征j对应的结点，则m_ij为0；

状态转移矩阵N的第i'行第j'列的元素n_i’j’为：

若在有向图中，特征i'对应的结点直接到达特征j'对应的结点，则

其中，i'≠j'，否则，特征i'对应的结点无法直接到达特征j'对应的结点，则n_i’j’＝0，且状态转移矩阵N的对角线上元素全为0；

步骤S3、计算保留的特征对应的向量R_s：

R_s＝aMR₀

其中，a为超参数，R₀是待处理的数据文件中各特征的初始特征向量组成的矩阵；

步骤S4、计算被删除的特征对应的向量R_d：

R_d＝bNR₀

其中，b为超参数；

步骤S5、构建随机向量Random_r：

其中，

代表向量1；

步骤S6、计算新的R₀：

R₀＝R_s+R_d+Random_r

步骤S7、利用新的R₀，重复步骤S3至步骤S6的过程，直至R₀的值收敛，将最后一次迭代获得的R₀作为待处理的数据文件中各特征的最终特征向量组成的矩阵，即分别获得每个特征最终的特征向量。

其它步骤及参数与具体实施方式一至七之一相同。

具体实施方式九：本实施方式与具体实施方式一至八之一不同的是，所述超参数a的取值为0.5，超参数b的取值为0.3。

超参数a和b的取值也可以根据实际情况修改。

其它步骤及参数与具体实施方式一至八之一相同。

实施例

以下结合实施例对本发明的特征和性能作进一步的详细描述。

参照图1，本发明较佳的实施例提供了一种基于图的特征排序和降维方法，包括以下步骤S1-S6：

S1.读取数据文件，数据可从蛋白质，基因，医学图像等多个方向提取；

S2.采用多个特征排序算法计算数据集的中的每个特征分数，并根据大小进行排序，这样每个算法就会对应一个有序的列表；

S3.将上述得到每个列表的特征进行删减，删减的依据是分数越低的特征删减的概率越高；

S4.参考互联网的不同网页，将排序后的结果构成一张有向图，每个列表中，分数低的特征作为一个结点指向相邻的分数更高的特征；

S5.将最后得到的有向图根据各结点的链接指向关系来进一步计算每个特征的分数，并实行特征排序；

S6.在特征排序的基础上，使用聚类算法计算簇数K,该值为降后维的大小，进而删除多余的特征实现降维。

在本实施例中，本方法为了提升程序的通用性，使得程序可处理ARFF，CSV，LibSVM三种格式的数据，要求数据集第一列为类别注释，后面的为提取的特征，另外提供了一定的错误检测机制来提升程序的鲁棒性。图2a至图2c为本发明实施例所用样本的数据格式参考图。

在本实施例中，使用到了多种特征排序算法，这些方法都对应各自的一个结果。不同于普通算法中的投票机制，例如少数服从多数，本方法采用分析图的链接方式实现“投票”。类似的算法互联网中有很多，例如网页排名。这些特征选择方法包括：最大相关最小冗余、最大相关最大距离(基于欧氏距离、余弦距离和谷本系数三种方式)、套索、岭回归、逻辑回归、方差分析、基于贝叶斯递归式特征选择、卡方、F值、树的特征重要性(包括决策树、随机森林、梯度提升树)、互信息、最大互信息系数、均值互信息。具体过程如图3所示。

在本实施例中，由于用到了多种特征排序算法，并且每个方法对应一个结果，可模拟互联网中不同的网页指向关系，这里将特征选择算法中生成的有序列表根据低分特征指向高分特征的原则，组成一张有向图，利用这些特征选择算法结果组成有向图的流程如图4所示。

在本实施例中，由于按照S3中方法形成的有向图有向边过多，不符合真实互联网中的网页关系，故采取随机删除机制删除一些有向边，形成一个较为精简的有向图，如图5所示。

删除的依据是给与低分结点之间的有向边一个更大的删除概率。具体是首先选取一个特征排序算法的一个结果，然后根据有序列表获取索引，并采取缩放处理，对其缩放化：

x_index是当前特征x的当前索引，max_index为最大索引值，w₁为一权重系数，默认为10。

删除特征结点概率P的计算公式为：

P＝1-x

x对应上个公式缩放后的值，w₂默认值7/11。

在本实施例的步骤S5中，利用最终的有向图计算特征的重要性分数，统计S4中每个特征选择结果中留下来的分数高的特征以及被删除的特征，针对这两种结点分别构建它们的状态转移矩阵，状态转移矩阵的计算方法是首先对角线全为0，如果结点i可以直接到达结点j，则令

特征的初始权重分数计算如下：

Num_total为所有列表中结点的个数，Num_save为每个特征选择算法中被留下来的分数高的特征个数，Num_delete则是被删除的个数。

然后不断重复计算下列公式直至R收敛：

在本实施例的步骤S6中，选用聚类方法估计降维后特征的维度。具体的方法采用高斯混合模型的聚类方法结合手肘法确定分类的最优簇数K，然后使用K对特征进行聚类，对于划分同一类的特征，只保留排在首位的特征进而达到降维的目的。

本发明的上述算例仅为详细地说明本发明的计算模型和计算流程，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims

1.基于图的特征排序和降维方法，其特征在于，所述方法具体包括以下步骤：

步骤一、读取待处理的数据文件；

所述步骤二的具体过程为：

同理，分别得到每种特征排序算法对应的处理结果；

2.根据权利要求1所述的基于图的特征排序和降维方法，其特征在于，所述步骤一中，读取的待处理数据文件为特征提取后的蛋白质序列数据、基因序列数据或医学图像。

3.根据权利要求2所述的基于图的特征排序和降维方法，其特征在于，所述步骤一中，读取的待处理数据文件的格式为ARFF、LibSVM或CSV。

4.根据权利要求1所述的基于图的特征排序和降维方法，其特征在于，所述多种特征排序算法包括最大相关最小冗余法、最大相关最大距离法、套索法、岭回归法、逻辑回归法、互信息法、方差分析法、递归式特征选择法、卡方法、F值法、树的特征重要性法、最大互信息系数法和均值互信息法。

5.根据权利要求4所述的基于图的特征排序和降维方法，其特征在于，所述步骤三中，采用随机删除机制对步骤二获得的各列表中的特征进行删减，每个特征被删除的概率为：

在某个列表中，第i个特征被删除的概率P_i为：

其中，w₂为常数，x′_i为对第i个特征的索引进行缩放的结果；

其中，x_i，index为第i个特征对应的索引值，max_index为列表中特征的最大索引值，w₁为权重系数；

列表中分数越低的特征被删除的概率越大。

6.根据权利要求5所述的基于图的特征排序和降维方法，其特征在于，所述w₂的取值为7/11，所述w₁的取值为10。

7.根据权利要求6所述的基于图的特征排序和降维方法，其特征在于，所述步骤五的具体过程为：

其中，e代表自然对数的底数，R_0i为第i个特征的重要性分数，j代表第j个特征。

8.根据权利要求7所述的基于图的特征排序和降维方法，其特征在于，所述对待处理数据文件中各特征的初始特征向量进行更新，得到各特征的最终特征向量；其具体过程为：

状态转移矩阵M的对角线上元素全为0，若在有向图中，特征i对应的结点直接到达特征j对应的结点，则状态转移矩阵M的第i行第j列的元素m_ij为：

状态转移矩阵N的第i′行第j′列的元素n_i’j’为：

若在有向图中，特征i′对应的结点直接到达特征j′对应的结点，则

其中，i′≠j′，否则，特征i′对应的结点无法直接到达特征j′对应的结点，则n_i’j’＝0，且状态转移矩阵N的对角线上元素全为0；

步骤S3、计算保留的特征对应的向量R_s：

R_s＝aMR₀

步骤S4、计算被删除的特征对应的向量R_d：

R_d＝bNR₀

其中，b为超参数；

步骤S5、构建随机向量Random_r：

其中，

代表向量1；

步骤S6、计算新的R₀：

R₀＝R_s+R_d+Random_r

9.根据权利要求8所述的基于图的特征排序和降维方法，其特征在于，所述超参数a的取值为0.5，超参数b的取值为0.3。