CN114139606A - 基于l2,1范数和拉普拉斯流形的rlsdspca降维方法 - Google Patents
基于l2,1范数和拉普拉斯流形的rlsdspca降维方法 Download PDFInfo
- Publication number
- CN114139606A CN114139606A CN202111319593.4A CN202111319593A CN114139606A CN 114139606 A CN114139606 A CN 114139606A CN 202111319593 A CN202111319593 A CN 202111319593A CN 114139606 A CN114139606 A CN 114139606A
- Authority
- CN
- China
- Prior art keywords
- matrix
- representing
- rlsdspca
- norm
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 91
- 230000009467 reduction Effects 0.000 title claims abstract description 42
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 45
- 230000014509 gene expression Effects 0.000 claims abstract description 31
- 239000011159 matrix material Substances 0.000 claims description 67
- 238000004364 calculation method Methods 0.000 claims description 19
- 238000012360 testing method Methods 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 16
- 238000002790 cross-validation Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 4
- 230000003190 augmentative effect Effects 0.000 claims description 3
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 claims 2
- 206010028980 Neoplasm Diseases 0.000 abstract description 21
- 201000011510 cancer Diseases 0.000 abstract description 19
- 230000000694 effects Effects 0.000 abstract description 3
- 238000000513 principal component analysis Methods 0.000 description 24
- 230000006870 function Effects 0.000 description 5
- 206010052747 Adenocarcinoma pancreas Diseases 0.000 description 4
- 208000000102 Squamous Cell Carcinoma of Head and Neck Diseases 0.000 description 4
- 208000006990 cholangiocarcinoma Diseases 0.000 description 4
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 201000000459 head and neck squamous cell carcinoma Diseases 0.000 description 4
- 201000002094 pancreatic adenocarcinoma Diseases 0.000 description 4
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 102100025473 Carcinoembryonic antigen-related cell adhesion molecule 6 Human genes 0.000 description 1
- 102100038587 Death-associated protein kinase 1 Human genes 0.000 description 1
- 101000914326 Homo sapiens Carcinoembryonic antigen-related cell adhesion molecule 6 Proteins 0.000 description 1
- 101000956145 Homo sapiens Death-associated protein kinase 1 Proteins 0.000 description 1
- 101000620009 Homo sapiens Polyunsaturated fatty acid 5-lipoxygenase Proteins 0.000 description 1
- 102100032352 Leukemia inhibitory factor Human genes 0.000 description 1
- 108090000581 Leukemia inhibitory factor Proteins 0.000 description 1
- 102100022364 Polyunsaturated fatty acid 5-lipoxygenase Human genes 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24143—Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B35/00—ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Biochemistry (AREA)
- Biophysics (AREA)
- Library & Information Science (AREA)
- Molecular Biology (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于L2,1范数和拉普拉斯流形的RLSDSPCA降维方法,对基因表达数据进行特征基因选择和癌症样本分类。通过降维方法对基因表达数据进行数据降维,对降维后的数据进行特征基因选择和癌症样本分类。本发明有效地提高了基因表达数据特征基因的选择水平和癌症样本的分类效果。
Description
技术领域
本发明涉及模式识别—基因表达数据的特征基因选择和癌症样本分类领域,具体为一种基于L2,1范数和拉普拉斯流形的RLSDSPCA降维方法。
背景技术
基因表达数据的特征基因选择和肿瘤分类在基因组研究中起着重要作用。由于基因表达数据样本量小、维数高,冗余度高的特点,在分析基因表达数据之前使用基于机器学习的方法进行降维是一种常见的做法。在尽可能保持原有数据特征信息的情况下,将原始的高维数据降维成低维的特征数据,对降维后的特征数据进行特征基因选择以及癌症样本的分类,从而获得更好的研究成果。
作为一种经典的线性无监督数据降维方法,主成分分析(PCA)被提出以最大化数据投影方差,降低降维带来的信息损失。经过PCA处理后,原始数据m维特征被映射到k维空间上(k<<m)。然而PCA存在主成分密集,缺乏可解释性问题,为了解决这个问题,研究人员考虑了稀疏约束,提出了一种称为稀疏PCA (Sparse PCA,SPCA)的方法,该方法使用lasso(弹性网)生成稀疏主成分,使得多数主成分的系数变为0,将主要的主成分突显出来,这样主成分就会变得较容易解释。除了上述问题之外,PCA本身是个无监督学习方法,为了将无监督学习的PCA扩展到监督学习中,一种被称为监督判别稀疏PCA(SDSPCA) 的降维方法被提出,该方法考虑了类别信息和稀疏性。使得最终的主成分稀疏,提高了可解释性,同时也减少了样本分类歧义。
随着基因表达数据的复杂程度越来越高,其内部存在的非线性结构很难被上述的线性降维方法捕捉出来。为了能够获取隐藏在高维数据中的低维结构信息,研究者将流形理论,图论知识与PCA相结合,提出了相应的方法。如:研究者将拉普拉斯图引入到传统的PCA中,提出了图拉普拉斯PCA(graph Laplacian PCA,gLPCA)方法。由于在真实世界中,采集的样本数据中不可避免的存在一些异常值和噪音,为解决此问题,该研究者还开发了gLPCA的鲁棒版本,称为鲁棒gLPCA(Robust graph Laplacian PCA,RgLPCA),将L2,1范数而不是Frobenius 范数应用于误差重建项,以减少异常值和噪声的影响。更进一步,在gLPCA的基础上增加稀疏约束,一种名为图拉普拉斯稀疏PCA(graph Laplacian Sparse PCA,gLSPCA)的降维方法被提出,并应用在基因表达数据的特征基因选择和癌症样本聚类上。
然而,现有的降维方法(如:PCA,gLPCA,gLSPCA,RgLPCA,SDSPCA) 并没有将提高对异常值和噪声的鲁棒性、标签类别信息、稀疏性,以及捕获内在几何结构集中在一个目标函数中,它们都只分别考虑了部分信息。
发明内容
本发明的目的在于提出了一种基于L2,1范数和拉普拉斯流形的RLSDSPCA 降维方法,。
实现本发明的技术解决方案为:一种基于L2,1范数和拉普拉斯流形的 RLSDSPCA降维方法,具体步骤为:
步骤1、对输入的基因表达数据进行归一化处理;
步骤2、将归一化后的基因样本数据分割成训练数据集和测试数据集;
步骤3、用RLSDSPCA模型在训练数据集上进行模型的训练,在训练过程中通过交叉验证的方法来获得模型的最优参数;
步骤4、用交叉方向乘子法进行迭代来更新RLSDSPCA模型的参数矩阵,每次更新完后,都要判断是否停止方法的条件,若不满足,则继续更新参数矩阵,若满足则停止方法,生成最优的RLSDSPCA预测模型;
步骤5、把测试数据集输入到生成的RLSDSPCA预测模型中,预测该测试数据集的类别标签;
步骤6、用K近邻分类方法对预测出来的类标标签进行分类;
步骤7、对降维后的数据进行特征基因的选择。
本发明与现有技术相比,其显著优点为:(1)本发明利用RLSDSPCA方法可以有效地提高基因表达数据特征基因的选择水平和癌症样本的分类效果(与 PCA,gLPCA,gLSPCA,RgLPCA,SDSPCA相关方法作比较,RLSDSPCA的特征基因选择和癌症分类的指标最好)。(2)本发明虽是在基因表达数据上做降维分析,但仍然可以应用在其他领域(如模式识别,人脸识别等),尤其适合用在对高维数据的降维处理上。
下面结合附图对本发明做进一步详细的描述。
附图说明
图1为本发明一种基于L2,1范数和拉普拉斯流形的RLSDSPCA降维方法的流程图。
图2为RLSDSPCA模型训练流程图。
图3为RLSDSPCA模型的K近邻分类及性能评估流程图。
图4为RLSDSPCA模型的特征基因选择流程图。
图5为所有方法在癌症分类方面的性能结果图。
具体实施方式
结合图1所示,本发明提出了一种新的基于PCA的降维方法,称为鲁棒拉普拉斯流形监督鉴别稀疏PCA,称为RLSDSPCA,具体步骤为:
步骤1、对输入的基因表达数据进行归一化处理,具体公式为:
si=(xi-X.min)/(X.max-X.min)
上式中,X=(x1,x2,...,xn)∈Rm×n,表示数据样本集,n表示样本数,m表示基因数,xi(i=1,2,...,n)表示样本数据集中的第i个样本数据,X.min表示样本数据集中最小的样本数据,X.max表示样本数据集中最大的样本数据,si表示原始的基因表达样本数据经过归一化后的样本数据,由公式可知si处在0到1之间;
步骤2、将归一化后的基因样本数据按照4:1的比例划分成训练数据集和测试数据集,即80%的样本数据划为训练数据集,20%的样本数据划为测试数据集;
步骤3、用RLSDSPCA模型在训练数据集上进行模型的训练,在训练过程中通过交叉验证的方法来获得模型的最优参数α,β和γ,如图2所示。RLSDSPCA 模型的目标函数表达式为:
其中,α,β和γ分别是平衡类别标签信息项、稀疏约束项和内在几何结构捕获项的权重参数。||·||2,1表示L2,1范数,||·||F表示Frobenius范数,Tr(·)表示矩阵的迹,矩阵X∈Rm×n和Y∈Rc×n分别表示输入基因表达数据的样本数据矩阵和类别标签矩阵,m表示基因数,n表示样本数,c表示类别的个数,U∈Rm×k表示定义最佳k (k<<m)维空间的主方向,Q∈Rn×k表示样本数据矩阵经过降维后在新k维空间中的投影数据点,k表示将数据降维后的维度,其数值要小于原始数据的维度m (k<<m),A∈Rc×k表示类别标签矩阵经过降维后在新k维空间中的投影数据点, L∈Rn×n表示拉普拉斯流形的矩阵;
步骤4、用交叉方向乘子法(ADMM)进行迭代来更新RLSDSPCA模型的参数矩阵Q和U,每次更新完后,都要判断是否停止方法的条件,若不满足,则继续更新参数矩阵Q和U,若满足则停止方法,生成最优的RLSDSPCA预测模型;
用交叉方向乘子法(ADMM)进行迭代,增广拉格朗日函数如下:
s.t.QTQ=I
其中,对角矩阵G∈Rn×n是为了用来优化||Q||2,1而引入的,辅助变量矩阵E∈Rm×n用来指代X-UQT,C∈Rm×n是拉格朗日乘数,μ是控制更新步长的惩罚参数,除此之外,引入Q1∈Rn×k,表示收敛性检验的辅助矩阵。通过迭代来更新RLSDSPCA模型的参数矩阵Q和U,每次更新完后,都要判断是否停止方法的条件,若不满足,则继续更新参数矩阵Q和U,若满足则停止方法,生成最优的RLSDSPCA预测模型,具体步骤为:
步骤4.1、设置方法收敛参数ξ=1e-50,当前迭代次数iter=1及最大迭代次数t=100,将G,E,C初始化为对角矩阵,随机初始化A和Q1,构建样本数据矩阵的邻接权矩阵之后可以得到拉普拉斯流形图L;
步骤4.2、根据X,Y,E,C,G和L来计算Q,具体计算公式为:
s.t.QTQ=I
步骤4.3、根据X,Q,E和C来计算U,具体计算公式为:
步骤4.4、根据Y和Q来计算A,具体计算公式为:
A=YQ
步骤4.5、根据Q来计算G,具体计算公式为:
其中,Gii表示G的第i个对角线元素,||qi||2表示Q矩阵行向量的L2范数;
步骤4.6、根据X,Q,U和C来计算E,具体计算公式为:
步骤4.7、根据X,Q,E和U来计算C,具体计算公式为:
C=C+μ(E-X+UQT)
步骤4.8、计算μ,具体公式为:
μ=ρμ
其中ρ∈[1.1,1.5];
步骤4.9、检查是否满足收敛条件:||Q-Q1||2,1<ξ,Q表示最新计算的矩阵,而 Q1表示前一次计算的矩阵,比较两者之差的L2,1范数是否小于收敛参数ξ,若小于则方法结束,若不满足,则方法继续往下执行;
步骤4.10、令Q1=Q,将Q赋值给Q1,以备下一次的收敛检查;
步骤4.11、更新迭代次数iter=iter+1,当iter的值小于最大迭代次数t时,返回步骤4.2,否则停止方法循环,生成最优的预测模型;
方法中,α,β和γ分别是平衡类别标签信息项、稀疏约束项和内在几何结构捕获项的权重参数。||·||2,1表示L2,1范数,||·||F表示Frobenius范数,Tr(·)表示矩阵的迹,矩阵X∈Rm×n和Y∈Rc×n分别表示输入基因表达数据的样本数据矩阵和类别标签矩阵,m表示基因数,n表示样本数,c表示类别的个数,U∈Rm×k表示定义最佳k(k<<m)维空间的主方向,Q∈Rn×k表示样本数据矩阵经过降维后在新k 维空间中的投影数据点,k表示将数据降维后的维度,其数值要小于原始数据的维度m(k<<m),A∈Rc×k表示类别标签矩阵经过降维后在新k维空间中的投影数据点,L∈Rn×n表示拉普拉斯流形的矩阵,对角矩阵G∈Rn×n是为了用来优化||Q||2,1而引入的,辅助变量矩阵E∈Rm×n用来指代X-UQT,C∈Rm×n是拉格朗日乘数,μ是控制更新步长的惩罚参数。除此之外,引入Q1∈Rn×k,表示收敛性检验的辅助矩阵,ξ表示判断方法是否收敛的参数,iter表示当前迭代次数,t表示最大迭代次数,S∈Rn×n,具体为计算矩阵S的前k个最小特征值对应的特征向量,可以得到最优的Q,Gii表示G的第i个对角线元素, ||qi||2表示Q矩阵行向量的L2范数,P∈Rm ×n,具体为ei和pi分别为E和 P的第i列元素,umi表示U的第m行第i列所对应的数值,表示U经过特征基因选择公式得到的向量。
步骤5、把测试数据集输入到生成的RLSDSPCA预测模型中,预测模型会预测该测试数据集的类别标签;
步骤6、用K近邻分类方法对预测出来的类标标签进行分类,同时对分类的结果进行性能评估,与其他相关降维方法(如:PCA,gLPCA,gLSPCA,RgLPCA, SDSPCA)的分类准确率Accuracy,宏召回率Macro-Recall,宏精确率 Macro-Precision,宏F1指标Macro-F1以及宏AUC值Macro-AUC进行比较,来评价所提出方法RLSDSPCA的性能,如图3和图5所示;
下面结合实施例进行更详细的描述。
实施例1
一种基于L2,1范数和拉普拉斯流形的RLSDSPCA降维方法,具体步骤为:
步骤1、从The Cancer Genome Atlas(TCGA,https://portal.gdc.cancer.gov/)数据库下载基因表达数据集(四分类数据),对该数据进行归一化处理。具体公式为:
si=(xi-X.min)/(X.max-X.min)
上式中,X=(x1,x2,...,xn)∈Rm×n,表示数据样本集,n表示样本数,m表示基因数,xi(i=1,2,...,n)表示样本数据集中的第i个样本数据,X.min表示样本数据集中最小的样本数据,X.max表示样本数据集中最大的样本数据,si表示原始的基因表达样本数据经过归一化后的样本数据,由公式可知si处在0到1之间;
步骤2、将归一化后的基因样本数据按照4:1的比例划分成训练数据集和测试数据集,即80%的样本数据划为训练数据集,20%的样本数据划为测试数据集;
步骤3、用RLSDSPCA模型在训练数据集上进行模型的训练,在训练过程中通过交叉验证的方法来获得模型的最优参数α,β和γ。RLSDSPCA模型的目标函数表达式为:
其中,α,β和γ分别是平衡类别标签信息项、稀疏约束项和内在几何结构捕获项的权重参数。||·||2,1表示L2,1范数,||·||F表示Frobenius范数,Tr(·)表示矩阵的迹,矩阵X∈Rm×n和Y∈Rc×n分别表示输入基因表达数据的样本数据矩阵和类别标签矩阵,m表示基因数,n表示样本数,c表示类别的个数,U∈Rm×k表示定义最佳k (k<<m)维空间的主方向,Q∈Rn×k表示样本数据矩阵经过降维后在新k维空间中的投影数据点,k表示将数据降维后的维度,其数值要小于原始数据的维度m (k<<m),A∈Rc×k表示类别标签矩阵经过降维后在新k维空间中的投影数据点, L∈Rn×n表示拉普拉斯流形的矩阵;
步骤4中用交叉方向乘子法(ADMM)进行迭代,增广拉格朗日函数如下:
s.t.QTQ=I
其中,对角矩阵G∈Rn×n是为了用来优化||Q||2,1而引入的,辅助变量矩阵E∈Rm×n用来指代X-UQT,C∈Rm×n是拉格朗日乘数,μ是控制更新步长的惩罚参数,除此之外,引入Q1∈Rn×k,表示收敛性检验的辅助矩阵。通过迭代来更新RLSDSPCA模型的参数矩阵Q和U,每次更新完后,都要判断是否停止方法的条件,若不满足,则继续更新参数矩阵Q和U,若满足则停止方法,生成最优的RLSDSPCA预测模型,具体步骤为:
步骤4.1、设置方法收敛参数ξ=1e-50,当前迭代次数iter=1及最大迭代次数 t=100,将G,E,C初始化为对角矩阵,随机初始化A和Q1,构建样本数据矩阵的邻接权矩阵之后可以得到拉普拉斯流形图L;
步骤4.2、根据X,Y,E,C,G和L来计算Q,具体计算公式为:
s.t.QTQ=I
令通过计算矩阵S的前k个最小特征值对应的特征向量,可以得到最优Q。在Python中通过numpy.linalg.eig(S),可以得到S的特征值eigenvalues和特征向量eigenvectors,对特征值进行排序,选取前k个最小特征值所对应的特征向量;
步骤4.3、根据X,Q,E和C来计算U,具体计算公式为:
步骤4.4、根据Y和Q来计算A,具体计算公式为:
A=YQ
步骤4.5、根据Q来计算G,具体计算公式为:
其中,Gii表示G的第i个对角线元素,||qi||2表示Q矩阵行向量的L2范数;
步骤4.6、根据X,Q,U和C来计算E,具体计算公式为:
步骤4.7、根据X,Q,E和U来计算C,具体计算公式为:
C=C+μ(E-X+UQT)
步骤4.8、计算μ,具体公式为:
μ=ρμ
其中ρ∈[1.1,1.5];
步骤4.9、检查是否满足收敛条件:||Q-Q1||2,1<ξ,Q表示最新计算的矩阵,而Q1表示前一次计算的矩阵,比较两者之差的L2,1范数是否小于收敛参数ξ,若小于则方法结束,若不满足,则方法继续往下执行;
步骤4.10、令Q1=Q,将Q赋值给Q1,以备下一次的收敛检查;
步骤4.11、更新迭代次数iter=iter+1,当iter的值小于最大迭代次数t时,返回步骤4.2,否则停止方法循环,生成最优的预测模型;
步骤5、把测试数据集输入到生成的RLSDSPCA预测模型中,预测模型会预测该测试数据集的类别标签;
步骤6、用K近邻分类方法对预测出来的类标标签进行分类,同时对分类的结果进行性能评估,与其他相关降维方法(如:PCA,gLPCA,gLSPCA,RgLPCA, SDSPCA)的分类准确率Accuracy,宏召回率Macro-Recall,宏精确率 Macro-Precision,宏F1指标Macro-F1以及宏AUC值Macro-AUC进行比较,来评价所提出方法RLSDSPCA的性能;
步骤7、对降维后的数据进行特征基因的选择。
本实施例中的基因表达数据有四个类别:胆管癌(Cholangiocarcinoma, CHOL),头颈部鳞状细胞癌(Head and Neck Squamous Cell Carcinoma,HNSCC), 胰腺癌(Pancreatic Adenocarcinoma,PAAD)以及正常样本组织(Normal Tissues),将这四种不同类别的数据整合成一个多源基因表达数据,作为基准数据集,其详细信息见表1。
表1.多源基因表达数据集的详细信息
将本发明方法RLSDSPCA与其他现有的相关的降维方法(PCA,gLPCA, gLSPCA,RgLPCA,SDSPCA)在该多源基因表达数据进行对比实验:特征基因选择实验和癌症样本分类实验。
PCA来源于I.Jolliffe,“Principal component analysis,”Technometrics,vol.45, no.3,pp.276,2003;
gLPCA和RgLPCA来源于B.Jiang,C.Ding,B.Luo,and J.Tang, “Graph-LaplacianPCA:Closed-Form Solution and Robustness,”in Proceedings of the 2013IEEEConference on Computer Vision and Pattern Recognition,2013,pp. 3492-3498;
gLSPCA来源于C.-M.Feng,Y.Xu,M.-X.Hou,L.-Y.Dai,and J.-L.Shang, “PCAviajoint graph Laplacian and sparse constraint:Identificationofdifferentially expressed genes and sample clustering on gene expressiondata,”BMC bioinformatics,vol.20,no.22,pp.1-11,2019;
SDSPCA来源于C.-M.Feng,Y.Xu,J.-X.Liu,Y.-L.Gao,and C.-H.Zheng,“Supervised discriminative sparse PCA for com-characteristic gene selectionand tumor classification on multiview biological data,”IEEE transactions onneural networks and learning systems,vol.30,no.10,pp.2926-2937,2019。
把测试数据集输入到生成的RLSDSPCA预测模型中,预测模型会预测该测试数据集的类别标签,用K近邻分类方法对预测出来的类标标签进行分类,同时对分类的结果进行性能评估,使用分类准确率Accuracy,宏召回率 Macro-Recall,宏精确率Macro-Precision,宏F1指标Macro-F1以及宏AUC值 Macro-AUC作为癌症分类的评价标准,来评价所提出方法RLSDSPCA的分类性能。癌症样本的分类实验结果(结果±方差)如表2和图5所示,最好的实验结果用粗体显示。
表2.所有方法在癌症分类方面的性能结果
根据表2和图5,可以看到,与其他相关方法相比,RLSDPCA在所有五个主要性能指标方面都取得了最好的分类性能。特别通过SDSPCA和RLSDSPCA 的性能比较,可以清楚地看到,SDSPCA的准确率,宏召回率,宏精确率,宏F1 指标以及宏AUC值分别为0.9124、0.8144、0.8917、0.8333和0.8891而RLSDSPCA 的相应指标分别是0.9273、0.8343、0.8972、0.8527和0.9024,分别提高了1.49, 1.99,0.55,1.94和1.33个百分点。这些结果表明,与其他相关方法相比,提出的方法RLSDSPCA在五个评价标准方面都能达到最佳的癌症样本分类性能。
特征基因的选择的实验中,相关分数经常被用来作为评判标准,相关分数可以从Genecards数据库(http://www.genecards.org/)中获得,是评估基因与疾病之间关系的关键指标,基因相关性得分越高代表基因与疾病之间的相关性越高。使用总相关分数(TotalRelevance Score,TRS)和加权相关分数(Weighted Relevance Score,WRS)作为本次实验评价特征基因选择性能的指标。总相关分数是特征基因相对于三种疾病的相关分数总和,加权相关分数代表特征基因相对于三种疾病的相关分数的加权和。特征基因的选择的实验结果如表3所示,最好的实验结果用粗体显示。
表3.所有方法在特征基因选择方面的性能结果
表3表明了本发明方法(RLSDSPCA)在总相关分数和加权相关分数方面,比其他现有相关方法表现更好,表明该方法确实可以更有效地识别出与癌症相关的致病基因。同时RLSDSPCA能够识别出其他方法识别不出来的致病基因,表 4概述了只能通过RLSDPCA识别到的特征基因,第四列中相关分数表示该基因与CHOL、HNSCC和PAAD的之间的分数。
表4.只能通过RLSDPCA识别到的特征基因概述
从表4可以看出这四个只能通过RLSDPCA识别到的特征基因(ALOX5, DAPK1,CEACAM6,LIF),根据上表中第四列的相关分数,可以看出这四个基因与CHOL、HNSCC和PAAD有着很强的联系,后面的研究可以适当的关注这些基因与癌症之间的关系。
特征基因选择的结果说明了RLSDSPCA方法的有效性,与其他相关方法相比,RLSDSPCA能够更有效地发现与癌症相关的致病基因。
虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明。本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。
Claims (7)
1.一种基于L2,1范数和拉普拉斯流形的RLSDSPCA降维方法,其特征在于,具体步骤为:
步骤1、对输入的基因表达数据进行归一化处理;
步骤2、将归一化后的基因样本数据分割成训练数据集和测试数据集;
步骤3、用RLSDSPCA模型在训练数据集上进行模型的训练,在训练过程中通过交叉验证的方法来获得模型的最优参数;
步骤4、用交叉方向乘子法进行迭代来更新RLSDSPCA模型的参数矩阵,每次更新完后,都要判断是否停止方法的条件,若不满足,则继续更新参数矩阵,若满足则停止方法,生成最优的RLSDSPCA预测模型;
步骤5、把测试数据集输入到生成的RLSDSPCA预测模型中,预测该测试数据集的类别标签;
步骤6、用K近邻分类方法对预测出来的类标标签进行分类;
步骤7、对降维后的数据进行特征基因的选择。
2.根据权利要求1所述的基于L2,1范数和拉普拉斯流形的RLSDSPCA降维方法,其特征在于,步骤1中对输入的基因表达数据进行归一化处理的具体公式为:
si=(xi-X.min)/(X.max-X.min)
式中,X=(x1,x2,...,xn)∈Rm×n,表示数据样本集,n表示样本数,m表示基因数,xi(i=1,2,...,n)表示样本数据集中的第i个样本数据,X.min表示样本数据集中最小的样本数据,X.max表示样本数据集中最大的样本数据,si表示原始的基因表达样本数据经过归一化后的样本数据。
3.根据权利要求1所述的基于L2,1范数和拉普拉斯流形的RLSDSPCA降维方法,其特征在于,步骤3中采用的是5折交叉验证。
4.根据权利要求1所述的基于L2,1范数和拉普拉斯流形的RLSDSPCA降维方法,其特征在于,步骤3中构建的模型目标函数表达式具体为:
其中,α,β和γ分别是平衡类别标签信息项、稀疏约束项和内在几何结构捕获项的权重参数,||·||2,1表示L2,1范数,||·||F表示Frobenius范数,Tr(·)表示矩阵的迹,矩阵X∈Rm×n和Y∈Rc×n分别表示输入基因表达数据的样本数据矩阵和类别标签矩阵,m表示基因数,n表示样本数,c表示类别的个数,U∈Rm×k表示定义最佳k(k<<m)维空间的主方向,Q∈Rn×k表示样本数据矩阵经过降维后在新k维空间中的投影数据点,k表示将数据降维后的维度,其数值要小于原始数据的维度m(k<<m),A∈Rc×k表示类别标签矩阵经过降维后在新k维空间中的投影数据点,L∈Rn×n表示拉普拉斯流形的矩阵。
5.根据权利要求1所述的基于L2,1范数和拉普拉斯流形的RLSDSPCA降维方法,其特征在于,步骤4中用交叉方向乘子法进行迭代,增广拉格朗日函数如下:
s.t.QTQ=I
其中,α,β和γ分别是平衡类别标签信息项、稀疏约束项和内在几何结构捕获项的权重参数;||·||2,1表示L2,1范数,||·||F表示Frobenius范数,Tr(·)表示矩阵的迹,矩阵X∈Rm ×n和Y∈Rc×n分别表示输入基因表达数据的样本数据矩阵和类别标签矩阵,m表示基因数,n表示样本数,c表示类别的个数,U∈Rm×k表示定义最佳k(k<<m)维空间的主方向,Q∈Rn×k表示样本数据矩阵经过降维后在新k维空间中的投影数据点,k表示将数据降维后的维度,,A∈Rc×k表示类别标签矩阵经过降维后在新k维空间中的投影数据点,L∈Rn×n表示拉普拉斯流形的矩阵,对角矩阵G∈Rn×n是为了用来优化||Q||2,1而引入的,辅助变量矩阵E∈Rm×n用来指代X-UQT,C∈Rm×n是拉格朗日乘数,μ是控制更新步长的惩罚参数。
6.根据权利要求5所述的基于L2,1范数和拉普拉斯流形的RLSDSPCA降维方法,其特征在于,步骤4中用交叉方向乘子法进行迭代来更新RLSDSPCA模型的参数矩阵Q和U,每次更新完后,都要判断是否停止方法的条件,若不满足,则继续更新参数矩阵Q和U,若满足则停止方法,生成最优的RLSDSPCA预测模型,具体步骤为:
步骤4.1、设置方法收敛参数ξ=1e-50,当前迭代次数iter=1及最大迭代次数t=100,将G,E,C初始化为对角矩阵,随机初始化A和Q1,构建样本数据矩阵的邻接权矩阵之后可以得到拉普拉斯流形图L;
步骤4.2、根据X,Y,E,C,G和L来计算Q,具体计算公式为:
s.t.QTQ=I
步骤4.3、根据X,Q,E和C来计算U,具体计算公式为:
步骤4.4、根据Y和Q来计算A,具体计算公式为:
A=YQ
步骤4.5、根据Q来计算G,具体计算公式为:
其中,Gii表示G的第i个对角线元素,||qi||2表示Q矩阵行向量的L2范数;
步骤4.6、根据X,Q,U和C来计算E,具体计算公式为:
步骤4.7、根据X,Q,E和U来计算C,具体计算公式为:
C=C+μ(E-X+UQT)
步骤4.8、计算μ,具体公式为:
μ=ρμ
其中ρ∈[1.1,1.5];
步骤4.9、检查是否满足收敛条件:||Q-Q1||2,1<ξ,Q表示最新计算的矩阵,而Q1表示前一次计算的矩阵,比较两者之差的L2,1范数是否小于收敛参数ξ,若小于则方法结束,若不满足,则方法继续往下执行;
步骤4.10、令Q1=Q,将Q赋值给Q1;
步骤4.11、更新迭代次数iter=iter+1,当iter的值小于最大迭代次数t时,返回步骤4.2,否则停止方法循环,生成最优的预测模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111319593.4A CN114139606B (zh) | 2021-11-09 | 2021-11-09 | 基于l2,1范数和拉普拉斯流形的rlsdspca降维方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111319593.4A CN114139606B (zh) | 2021-11-09 | 2021-11-09 | 基于l2,1范数和拉普拉斯流形的rlsdspca降维方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114139606A true CN114139606A (zh) | 2022-03-04 |
CN114139606B CN114139606B (zh) | 2024-09-06 |
Family
ID=80392526
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111319593.4A Active CN114139606B (zh) | 2021-11-09 | 2021-11-09 | 基于l2,1范数和拉普拉斯流形的rlsdspca降维方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114139606B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103729652A (zh) * | 2014-01-17 | 2014-04-16 | 重庆大学 | 基于稀疏保持流形嵌入的高光谱遥感影像分类方法 |
CN107016261A (zh) * | 2017-04-11 | 2017-08-04 | 曲阜师范大学 | 基于联合约束非负矩阵分解的差异表达基因辨识方法 |
US20190247662A1 (en) * | 2017-12-04 | 2019-08-15 | Neuroenhancement Lab, LLC | Method and apparatus for neuroenhancement to facilitate learning and performance |
-
2021
- 2021-11-09 CN CN202111319593.4A patent/CN114139606B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103729652A (zh) * | 2014-01-17 | 2014-04-16 | 重庆大学 | 基于稀疏保持流形嵌入的高光谱遥感影像分类方法 |
CN107016261A (zh) * | 2017-04-11 | 2017-08-04 | 曲阜师范大学 | 基于联合约束非负矩阵分解的差异表达基因辨识方法 |
US20190247662A1 (en) * | 2017-12-04 | 2019-08-15 | Neuroenhancement Lab, LLC | Method and apparatus for neuroenhancement to facilitate learning and performance |
Non-Patent Citations (2)
Title |
---|
赵春晖;崔晓辰;齐滨;: "高光谱图像半监督局部稀疏嵌入降维算法", 沈阳大学学报(自然科学版), no. 06, 15 December 2014 (2014-12-15), pages 462 - 467 * |
龙显忠: "矩阵分解方法在图像分类中的应用研究", 《中国博士学位论文全文数据库(电子期刊)信息科技辑》, 15 July 2015 (2015-07-15) * |
Also Published As
Publication number | Publication date |
---|---|
CN114139606B (zh) | 2024-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yan et al. | Unsupervised and semi‐supervised learning: The next frontier in machine learning for plant systems biology | |
CN109816000A (zh) | 一种新的特征选择与参数优化方法 | |
CN109960808B (zh) | 一种文本识别方法、装置、设备及计算机可读存储介质 | |
CN108415883B (zh) | 基于子空间聚类的凸非负矩阵分解方法 | |
CN112906767A (zh) | 一种基于隐空间学习和流行约束的无监督特征选择方法 | |
CN108932501B (zh) | 一种基于多核关联集成降维的人脸识别方法 | |
CN111027636B (zh) | 基于多标签学习的无监督特征选择方法及系统 | |
CN114863151B (zh) | 一种基于模糊理论的图像降维聚类方法 | |
CN107957946A (zh) | 基于邻域嵌入保护算法支持向量机的软件缺陷预测方法 | |
Bennet et al. | A Hybrid Approach for Gene Selection and Classification Using Support Vector Machine. | |
CN112967755B (zh) | 一种面向单细胞rna测序数据的细胞类型识别方法 | |
Park et al. | Face alignment using a deep neural network with local feature learning and recurrent regression | |
CN102103691A (zh) | 一种基于主成分分析人脸的识别方法 | |
CN109871880A (zh) | 基于低秩稀疏矩阵分解、局部几何结构保持和类别信息最大统计相关的特征提取方法 | |
Yang et al. | Unsupervised feature selection based on reconstruction error minimization | |
CN115905855A (zh) | 一种改进的元学习算法MG-Reptile | |
CN113610181A (zh) | 一种结合机器学习和群智能算法的快速多目标特征选择方法 | |
CN105975902B (zh) | 基于samme.rcw算法的人脸识别优化方法 | |
CN114139606A (zh) | 基于l2,1范数和拉普拉斯流形的rlsdspca降维方法 | |
CN115577564B (zh) | 一种多约束自适应图学习的鲁棒非负矩阵分解方法及系统 | |
Jena et al. | Elitist TLBO for identification and verification of plant diseases | |
CN116778339A (zh) | 局部视图辅助判别高光谱波段选择方法及系统 | |
CN106485286B (zh) | 一种基于局部敏感判别的矩阵分类模型 | |
CN115249513A (zh) | 一种基于Adaboost集成思想的神经网络拷贝数变异检测方法与系统 | |
Ouamane et al. | Novel knowledge pre-trained CNN based tensor subspace learning for tomato leaf diseases detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |