CN114139606A

CN114139606A - 基于l2,1范数和拉普拉斯流形的rlsdspca降维方法

Info

Publication number: CN114139606A
Application number: CN202111319593.4A
Authority: CN
Inventors: 於东军; 张陆星; 闫贺; 刘岩
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2021-11-09
Filing date: 2021-11-09
Publication date: 2022-03-04
Anticipated expiration: 2041-11-09
Also published as: CN114139606B

Abstract

本发明提供一种基于L2,1范数和拉普拉斯流形的RLSDSPCA降维方法，对基因表达数据进行特征基因选择和癌症样本分类。通过降维方法对基因表达数据进行数据降维，对降维后的数据进行特征基因选择和癌症样本分类。本发明有效地提高了基因表达数据特征基因的选择水平和癌症样本的分类效果。

Description

基于L2,1范数和拉普拉斯流形的RLSDSPCA降维方法

技术领域

本发明涉及模式识别—基因表达数据的特征基因选择和癌症样本分类领域，具体为一种基于L2,1范数和拉普拉斯流形的RLSDSPCA降维方法。

背景技术

基因表达数据的特征基因选择和肿瘤分类在基因组研究中起着重要作用。由于基因表达数据样本量小、维数高，冗余度高的特点，在分析基因表达数据之前使用基于机器学习的方法进行降维是一种常见的做法。在尽可能保持原有数据特征信息的情况下，将原始的高维数据降维成低维的特征数据，对降维后的特征数据进行特征基因选择以及癌症样本的分类，从而获得更好的研究成果。

作为一种经典的线性无监督数据降维方法，主成分分析(PCA)被提出以最大化数据投影方差，降低降维带来的信息损失。经过PCA处理后，原始数据m维特征被映射到k维空间上(k＜＜m)。然而PCA存在主成分密集，缺乏可解释性问题，为了解决这个问题，研究人员考虑了稀疏约束，提出了一种称为稀疏PCA (Sparse PCA,SPCA)的方法，该方法使用lasso(弹性网)生成稀疏主成分，使得多数主成分的系数变为0，将主要的主成分突显出来，这样主成分就会变得较容易解释。除了上述问题之外，PCA本身是个无监督学习方法，为了将无监督学习的PCA扩展到监督学习中，一种被称为监督判别稀疏PCA(SDSPCA) 的降维方法被提出，该方法考虑了类别信息和稀疏性。使得最终的主成分稀疏，提高了可解释性，同时也减少了样本分类歧义。

随着基因表达数据的复杂程度越来越高，其内部存在的非线性结构很难被上述的线性降维方法捕捉出来。为了能够获取隐藏在高维数据中的低维结构信息，研究者将流形理论，图论知识与PCA相结合，提出了相应的方法。如：研究者将拉普拉斯图引入到传统的PCA中，提出了图拉普拉斯PCA(graph Laplacian PCA,gLPCA)方法。由于在真实世界中，采集的样本数据中不可避免的存在一些异常值和噪音，为解决此问题，该研究者还开发了gLPCA的鲁棒版本，称为鲁棒gLPCA(Robust graph Laplacian PCA,RgLPCA)，将L_2,1范数而不是Frobenius 范数应用于误差重建项，以减少异常值和噪声的影响。更进一步，在gLPCA的基础上增加稀疏约束，一种名为图拉普拉斯稀疏PCA(graph Laplacian Sparse PCA,gLSPCA)的降维方法被提出，并应用在基因表达数据的特征基因选择和癌症样本聚类上。

然而，现有的降维方法(如：PCA,gLPCA,gLSPCA,RgLPCA,SDSPCA) 并没有将提高对异常值和噪声的鲁棒性、标签类别信息、稀疏性，以及捕获内在几何结构集中在一个目标函数中，它们都只分别考虑了部分信息。

发明内容

本发明的目的在于提出了一种基于L2,1范数和拉普拉斯流形的RLSDSPCA 降维方法，。

实现本发明的技术解决方案为：一种基于L2,1范数和拉普拉斯流形的 RLSDSPCA降维方法，具体步骤为：

步骤1、对输入的基因表达数据进行归一化处理；

步骤2、将归一化后的基因样本数据分割成训练数据集和测试数据集；

步骤3、用RLSDSPCA模型在训练数据集上进行模型的训练，在训练过程中通过交叉验证的方法来获得模型的最优参数；

步骤4、用交叉方向乘子法进行迭代来更新RLSDSPCA模型的参数矩阵，每次更新完后，都要判断是否停止方法的条件，若不满足，则继续更新参数矩阵，若满足则停止方法，生成最优的RLSDSPCA预测模型；

步骤5、把测试数据集输入到生成的RLSDSPCA预测模型中，预测该测试数据集的类别标签；

步骤6、用K近邻分类方法对预测出来的类标标签进行分类；

步骤7、对降维后的数据进行特征基因的选择。

本发明与现有技术相比，其显著优点为：(1)本发明利用RLSDSPCA方法可以有效地提高基因表达数据特征基因的选择水平和癌症样本的分类效果(与 PCA,gLPCA,gLSPCA,RgLPCA,SDSPCA相关方法作比较，RLSDSPCA的特征基因选择和癌症分类的指标最好)。(2)本发明虽是在基因表达数据上做降维分析，但仍然可以应用在其他领域(如模式识别，人脸识别等)，尤其适合用在对高维数据的降维处理上。

下面结合附图对本发明做进一步详细的描述。

附图说明

图1为本发明一种基于L2,1范数和拉普拉斯流形的RLSDSPCA降维方法的流程图。

图2为RLSDSPCA模型训练流程图。

图3为RLSDSPCA模型的K近邻分类及性能评估流程图。

图4为RLSDSPCA模型的特征基因选择流程图。

图5为所有方法在癌症分类方面的性能结果图。

具体实施方式

结合图1所示，本发明提出了一种新的基于PCA的降维方法，称为鲁棒拉普拉斯流形监督鉴别稀疏PCA，称为RLSDSPCA，具体步骤为：

步骤1、对输入的基因表达数据进行归一化处理，具体公式为：

s_i＝(x_i-X.min)/(X.max-X.min)

上式中，X＝(x₁,x₂,...,x_n)∈R^m×n，表示数据样本集，n表示样本数，m表示基因数，x_i(i＝1,2,...,n)表示样本数据集中的第i个样本数据，X.min表示样本数据集中最小的样本数据，X.max表示样本数据集中最大的样本数据，s_i表示原始的基因表达样本数据经过归一化后的样本数据，由公式可知s_i处在0到1之间；

步骤2、将归一化后的基因样本数据按照4：1的比例划分成训练数据集和测试数据集，即80％的样本数据划为训练数据集，20％的样本数据划为测试数据集；

步骤3、用RLSDSPCA模型在训练数据集上进行模型的训练，在训练过程中通过交叉验证的方法来获得模型的最优参数α,β和γ，如图2所示。RLSDSPCA 模型的目标函数表达式为：

其中，α,β和γ分别是平衡类别标签信息项、稀疏约束项和内在几何结构捕获项的权重参数。||·||_2,1表示L_2,1范数，||·||_F表示Frobenius范数，Tr(·)表示矩阵的迹，矩阵X∈R^m×n和Y∈R^c×n分别表示输入基因表达数据的样本数据矩阵和类别标签矩阵，m表示基因数，n表示样本数，c表示类别的个数，U∈R^m×k表示定义最佳k (k＜＜m)维空间的主方向，Q∈R^n×k表示样本数据矩阵经过降维后在新k维空间中的投影数据点，k表示将数据降维后的维度，其数值要小于原始数据的维度m (k＜＜m)，A∈R^c×k表示类别标签矩阵经过降维后在新k维空间中的投影数据点， L∈R^n×n表示拉普拉斯流形的矩阵；

步骤4、用交叉方向乘子法(ADMM)进行迭代来更新RLSDSPCA模型的参数矩阵Q和U，每次更新完后，都要判断是否停止方法的条件，若不满足，则继续更新参数矩阵Q和U，若满足则停止方法，生成最优的RLSDSPCA预测模型；

用交叉方向乘子法(ADMM)进行迭代，增广拉格朗日函数如下：

s.t.Q^TQ＝I

其中，对角矩阵G∈R^n×n是为了用来优化||Q||_2,1而引入的，辅助变量矩阵E∈R^m×n用来指代X-UQ^T，C∈R^m×n是拉格朗日乘数，μ是控制更新步长的惩罚参数，除此之外，引入Q₁∈R^n×k，表示收敛性检验的辅助矩阵。通过迭代来更新RLSDSPCA模型的参数矩阵Q和U，每次更新完后，都要判断是否停止方法的条件，若不满足，则继续更新参数矩阵Q和U，若满足则停止方法，生成最优的RLSDSPCA预测模型，具体步骤为：

步骤4.1、设置方法收敛参数ξ＝1e^-50，当前迭代次数iter＝1及最大迭代次数t＝100，将G，E，C初始化为对角矩阵，随机初始化A和Q₁，构建样本数据矩阵的邻接权矩阵之后可以得到拉普拉斯流形图L；

步骤4.2、根据X，Y，E，C，G和L来计算Q，具体计算公式为：

s.t.Q^TQ＝I

令

通过计算矩阵S的前k个最小特征值对应的特征向量，可以得到最优Q；

步骤4.3、根据X，Q，E和C来计算U，具体计算公式为：

步骤4.4、根据Y和Q来计算A，具体计算公式为：

A＝YQ

步骤4.5、根据Q来计算G，具体计算公式为：

其中，G_ii表示G的第i个对角线元素，||q_i||₂表示Q矩阵行向量的L₂范数；

步骤4.6、根据X，Q，U和C来计算E，具体计算公式为：

其中，

令e_i和p_i分别为E和P的第i列元素，则上式的解法如下：

步骤4.7、根据X，Q，E和U来计算C，具体计算公式为：

C＝C+μ(E-X+UQ^T)

步骤4.8、计算μ，具体公式为：

μ＝ρμ

其中ρ∈[1.1,1.5]；

步骤4.9、检查是否满足收敛条件：||Q-Q₁||_2,1＜ξ，Q表示最新计算的矩阵，而 Q₁表示前一次计算的矩阵，比较两者之差的L_2,1范数是否小于收敛参数ξ，若小于则方法结束，若不满足，则方法继续往下执行；

步骤4.10、令Q₁＝Q，将Q赋值给Q₁，以备下一次的收敛检查；

步骤4.11、更新迭代次数iter＝iter+1，当iter的值小于最大迭代次数t时，返回步骤4.2，否则停止方法循环，生成最优的预测模型；

方法中，α,β和γ分别是平衡类别标签信息项、稀疏约束项和内在几何结构捕获项的权重参数。||·||_2,1表示L_2,1范数，||·||_F表示Frobenius范数，Tr(·)表示矩阵的迹，矩阵X∈R^m×n和Y∈R^c×n分别表示输入基因表达数据的样本数据矩阵和类别标签矩阵，m表示基因数，n表示样本数，c表示类别的个数，U∈R^m×k表示定义最佳k(k＜＜m)维空间的主方向，Q∈R^n×k表示样本数据矩阵经过降维后在新k 维空间中的投影数据点，k表示将数据降维后的维度，其数值要小于原始数据的维度m(k＜＜m)，A∈R^c×k表示类别标签矩阵经过降维后在新k维空间中的投影数据点，L∈R^n×n表示拉普拉斯流形的矩阵，对角矩阵G∈R^n×n是为了用来优化||Q||_2,1而引入的，辅助变量矩阵E∈R^m×n用来指代X-UQ^T，C∈R^m×n是拉格朗日乘数，μ是控制更新步长的惩罚参数。除此之外，引入Q₁∈R^n×k，表示收敛性检验的辅助矩阵，ξ表示判断方法是否收敛的参数，iter表示当前迭代次数，t表示最大迭代次数，S∈R^n×n，具体为

计算矩阵S的前k个最小特征值对应的特征向量，可以得到最优的Q，G_ii表示G的第i个对角线元素， ||q_i||₂表示Q矩阵行向量的L₂范数，P∈R^m ^×n，具体为

e_i和p_i分别为E和 P的第i列元素，u_mi表示U的第m行第i列所对应的数值，

表示U经过特征基因选择公式

得到的向量。

步骤5、把测试数据集输入到生成的RLSDSPCA预测模型中，预测模型会预测该测试数据集的类别标签；

步骤6、用K近邻分类方法对预测出来的类标标签进行分类，同时对分类的结果进行性能评估,与其他相关降维方法(如：PCA,gLPCA,gLSPCA,RgLPCA, SDSPCA)的分类准确率Accuracy,宏召回率Macro-Recall,宏精确率 Macro-Precision,宏F1指标Macro-F1以及宏AUC值Macro-AUC进行比较，来评价所提出方法RLSDSPCA的性能，如图3和图5所示；

步骤7、对降维后的数据进行特征基因的选择，如图4所示，使用最佳k维空间的主方向U进行特征基因的选择，通过特征基因选择公式

对_u按照数值大小进行倒序排序，并选取数值位于前面的特征基因。

下面结合实施例进行更详细的描述。

实施例1

一种基于L2,1范数和拉普拉斯流形的RLSDSPCA降维方法，具体步骤为：

步骤1、从The Cancer Genome Atlas(TCGA,https://portal.gdc.cancer.gov/)数据库下载基因表达数据集(四分类数据)，对该数据进行归一化处理。具体公式为：

s_i＝(x_i-X.min)/(X.max-X.min)

步骤3、用RLSDSPCA模型在训练数据集上进行模型的训练，在训练过程中通过交叉验证的方法来获得模型的最优参数α,β和γ。RLSDSPCA模型的目标函数表达式为：

步骤4中用交叉方向乘子法(ADMM)进行迭代，增广拉格朗日函数如下：

s.t.Q^TQ＝I

步骤4.1、设置方法收敛参数ξ＝1e^-50，当前迭代次数iter＝1及最大迭代次数 t＝100，将G，E，C初始化为对角矩阵，随机初始化A和Q₁，构建样本数据矩阵的邻接权矩阵之后可以得到拉普拉斯流形图L；

步骤4.2、根据X，Y，E，C，G和L来计算Q，具体计算公式为：

s.t.Q^TQ＝I

令

通过计算矩阵S的前k个最小特征值对应的特征向量，可以得到最优Q。在Python中通过numpy.linalg.eig(S)，可以得到S的特征值eigenvalues和特征向量eigenvectors，对特征值进行排序，选取前k个最小特征值所对应的特征向量；

步骤4.3、根据X，Q，E和C来计算U，具体计算公式为：

步骤4.4、根据Y和Q来计算A，具体计算公式为：

A＝YQ

步骤4.5、根据Q来计算G，具体计算公式为：

步骤4.6、根据X，Q，U和C来计算E，具体计算公式为：

其中，

令e_i和p_i分别为E和P的第i列元素，则上式的解法如下：

步骤4.7、根据X，Q，E和U来计算C，具体计算公式为：

C＝C+μ(E-X+UQ^T)

步骤4.8、计算μ，具体公式为：

μ＝ρμ

其中ρ∈[1.1,1.5]；

步骤4.9、检查是否满足收敛条件：||Q-Q₁||_2,1＜ξ，Q表示最新计算的矩阵，而Q₁表示前一次计算的矩阵，比较两者之差的L_2,1范数是否小于收敛参数ξ，若小于则方法结束，若不满足，则方法继续往下执行；

步骤6、用K近邻分类方法对预测出来的类标标签进行分类，同时对分类的结果进行性能评估,与其他相关降维方法(如：PCA,gLPCA,gLSPCA,RgLPCA, SDSPCA)的分类准确率Accuracy,宏召回率Macro-Recall,宏精确率 Macro-Precision,宏F1指标Macro-F1以及宏AUC值Macro-AUC进行比较，来评价所提出方法RLSDSPCA的性能；

步骤7、对降维后的数据进行特征基因的选择。

本实施例中的基因表达数据有四个类别：胆管癌(Cholangiocarcinoma, CHOL)，头颈部鳞状细胞癌(Head and Neck Squamous Cell Carcinoma,HNSCC), 胰腺癌(Pancreatic Adenocarcinoma,PAAD)以及正常样本组织(Normal Tissues)，将这四种不同类别的数据整合成一个多源基因表达数据，作为基准数据集，其详细信息见表1。

表1.多源基因表达数据集的详细信息

将本发明方法RLSDSPCA与其他现有的相关的降维方法(PCA,gLPCA, gLSPCA,RgLPCA,SDSPCA)在该多源基因表达数据进行对比实验：特征基因选择实验和癌症样本分类实验。

PCA来源于I.Jolliffe,“Principal component analysis,”Technometrics,vol.45, no.3,pp.276,2003；

gLPCA和RgLPCA来源于B.Jiang,C.Ding,B.Luo,and J.Tang, “Graph-LaplacianPCA:Closed-Form Solution and Robustness,”in Proceedings of the 2013IEEEConference on Computer Vision and Pattern Recognition,2013,pp. 3492-3498；

gLSPCA来源于C.-M.Feng,Y.Xu,M.-X.Hou,L.-Y.Dai,and J.-L.Shang, “PCAviajoint graph Laplacian and sparse constraint:Identificationofdifferentially expressed genes and sample clustering on gene expressiondata,”BMC bioinformatics,vol.20,no.22,pp.1-11,2019；

SDSPCA来源于C.-M.Feng,Y.Xu,J.-X.Liu,Y.-L.Gao,and C.-H.Zheng,“Supervised discriminative sparse PCA for com-characteristic gene selectionand tumor classification on multiview biological data,”IEEE transactions onneural networks and learning systems,vol.30,no.10,pp.2926-2937,2019。

把测试数据集输入到生成的RLSDSPCA预测模型中，预测模型会预测该测试数据集的类别标签，用K近邻分类方法对预测出来的类标标签进行分类，同时对分类的结果进行性能评估，使用分类准确率Accuracy,宏召回率 Macro-Recall,宏精确率Macro-Precision,宏F1指标Macro-F1以及宏AUC值 Macro-AUC作为癌症分类的评价标准，来评价所提出方法RLSDSPCA的分类性能。癌症样本的分类实验结果(结果±方差)如表2和图5所示，最好的实验结果用粗体显示。

表2.所有方法在癌症分类方面的性能结果

根据表2和图5，可以看到，与其他相关方法相比，RLSDPCA在所有五个主要性能指标方面都取得了最好的分类性能。特别通过SDSPCA和RLSDSPCA 的性能比较，可以清楚地看到，SDSPCA的准确率,宏召回率,宏精确率,宏F1 指标以及宏AUC值分别为0.9124、0.8144、0.8917、0.8333和0.8891而RLSDSPCA 的相应指标分别是0.9273、0.8343、0.8972、0.8527和0.9024，分别提高了1.49， 1.99，0.55，1.94和1.33个百分点。这些结果表明，与其他相关方法相比，提出的方法RLSDSPCA在五个评价标准方面都能达到最佳的癌症样本分类性能。

特征基因的选择的实验中，相关分数经常被用来作为评判标准，相关分数可以从Genecards数据库(http://www.genecards.org/)中获得，是评估基因与疾病之间关系的关键指标，基因相关性得分越高代表基因与疾病之间的相关性越高。使用总相关分数(TotalRelevance Score,TRS)和加权相关分数(Weighted Relevance Score,WRS)作为本次实验评价特征基因选择性能的指标。总相关分数是特征基因相对于三种疾病的相关分数总和，加权相关分数代表特征基因相对于三种疾病的相关分数的加权和。特征基因的选择的实验结果如表3所示，最好的实验结果用粗体显示。

表3.所有方法在特征基因选择方面的性能结果

表3表明了本发明方法(RLSDSPCA)在总相关分数和加权相关分数方面，比其他现有相关方法表现更好，表明该方法确实可以更有效地识别出与癌症相关的致病基因。同时RLSDSPCA能够识别出其他方法识别不出来的致病基因，表 4概述了只能通过RLSDPCA识别到的特征基因，第四列中相关分数表示该基因与CHOL、HNSCC和PAAD的之间的分数。

表4.只能通过RLSDPCA识别到的特征基因概述

从表4可以看出这四个只能通过RLSDPCA识别到的特征基因(ALOX5, DAPK1,CEACAM6,LIF)，根据上表中第四列的相关分数，可以看出这四个基因与CHOL、HNSCC和PAAD有着很强的联系，后面的研究可以适当的关注这些基因与癌症之间的关系。

特征基因选择的结果说明了RLSDSPCA方法的有效性，与其他相关方法相比，RLSDSPCA能够更有效地发现与癌症相关的致病基因。

虽然本发明已以较佳实施例揭露如上，然其并非用以限定本发明。本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。因此，本发明的保护范围当视权利要求书所界定者为准。

Claims

1.一种基于L2,1范数和拉普拉斯流形的RLSDSPCA降维方法，其特征在于，具体步骤为：

步骤1、对输入的基因表达数据进行归一化处理；

步骤6、用K近邻分类方法对预测出来的类标标签进行分类；

步骤7、对降维后的数据进行特征基因的选择。

2.根据权利要求1所述的基于L2,1范数和拉普拉斯流形的RLSDSPCA降维方法，其特征在于，步骤1中对输入的基因表达数据进行归一化处理的具体公式为：

s_i＝(x_i-X.min)/(X.max-X.min)

式中，X＝(x₁,x₂,...,x_n)∈R^m×n，表示数据样本集，n表示样本数，m表示基因数，x_i(i＝1,2,...,n)表示样本数据集中的第i个样本数据，X.min表示样本数据集中最小的样本数据，X.max表示样本数据集中最大的样本数据，s_i表示原始的基因表达样本数据经过归一化后的样本数据。

3.根据权利要求1所述的基于L2,1范数和拉普拉斯流形的RLSDSPCA降维方法，其特征在于，步骤3中采用的是5折交叉验证。

4.根据权利要求1所述的基于L2,1范数和拉普拉斯流形的RLSDSPCA降维方法，其特征在于，步骤3中构建的模型目标函数表达式具体为：

其中，α,β和γ分别是平衡类别标签信息项、稀疏约束项和内在几何结构捕获项的权重参数，||·||_2,1表示L2,1范数，||·||_F表示Frobenius范数，Tr(·)表示矩阵的迹，矩阵X∈R^m×n和Y∈R^c×n分别表示输入基因表达数据的样本数据矩阵和类别标签矩阵，m表示基因数，n表示样本数，c表示类别的个数，U∈R^m×k表示定义最佳k(k＜＜m)维空间的主方向，Q∈R^n×k表示样本数据矩阵经过降维后在新k维空间中的投影数据点，k表示将数据降维后的维度，其数值要小于原始数据的维度m(k＜＜m)，A∈R^c×k表示类别标签矩阵经过降维后在新k维空间中的投影数据点，L∈R^n×n表示拉普拉斯流形的矩阵。

5.根据权利要求1所述的基于L2,1范数和拉普拉斯流形的RLSDSPCA降维方法，其特征在于，步骤4中用交叉方向乘子法进行迭代，增广拉格朗日函数如下：

s.t.Q^TQ＝I

其中，α,β和γ分别是平衡类别标签信息项、稀疏约束项和内在几何结构捕获项的权重参数；||·||_2,1表示L_2,1范数，||·||_F表示Frobenius范数，Tr(·)表示矩阵的迹，矩阵X∈R^m ^×n和Y∈R^c×n分别表示输入基因表达数据的样本数据矩阵和类别标签矩阵，m表示基因数，n表示样本数，c表示类别的个数，U∈R^m×k表示定义最佳k(k＜＜m)维空间的主方向，Q∈R^n×k表示样本数据矩阵经过降维后在新k维空间中的投影数据点，k表示将数据降维后的维度，，A∈R^c×k表示类别标签矩阵经过降维后在新k维空间中的投影数据点，L∈R^n×n表示拉普拉斯流形的矩阵，对角矩阵G∈R^n×n是为了用来优化||Q||_2,1而引入的，辅助变量矩阵E∈R^m×n用来指代X-UQ^T，C∈R^m×n是拉格朗日乘数，μ是控制更新步长的惩罚参数。

6.根据权利要求5所述的基于L2,1范数和拉普拉斯流形的RLSDSPCA降维方法，其特征在于，步骤4中用交叉方向乘子法进行迭代来更新RLSDSPCA模型的参数矩阵Q和U，每次更新完后，都要判断是否停止方法的条件，若不满足，则继续更新参数矩阵Q和U，若满足则停止方法，生成最优的RLSDSPCA预测模型，具体步骤为：

步骤4.2、根据X，Y，E，C，G和L来计算Q，具体计算公式为：