CN104462817A - 基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法 - Google Patents

基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法 Download PDF

Info

Publication number
CN104462817A
CN104462817A CN201410745298.9A CN201410745298A CN104462817A CN 104462817 A CN104462817 A CN 104462817A CN 201410745298 A CN201410745298 A CN 201410745298A CN 104462817 A CN104462817 A CN 104462817A
Authority
CN
China
Prior art keywords
gene
sparsity
value
genes
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410745298.9A
Other languages
English (en)
Other versions
CN104462817B (zh
Inventor
陈晶
张苗
邵学广
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwest Normal University
Original Assignee
Northwest Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwest Normal University filed Critical Northwest Normal University
Priority to CN201410745298.9A priority Critical patent/CN104462817B/zh
Publication of CN104462817A publication Critical patent/CN104462817A/zh
Application granted granted Critical
Publication of CN104462817B publication Critical patent/CN104462817B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

一种基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法,用蒙特卡洛方法从原样本的基因表达数据中产生多个基因子集;每个子集通过非负矩阵因子分解方法分解为系数矩阵和基矩阵;每一个非负矩阵因子分解迭代中,若基矩阵中某样本的稀疏性小于原样本的最小稀疏性,该样本中的元素从小到大逐步被零代替,至其稀疏性不再小于原样本最小稀疏性;判断收敛;迭代收敛后,基因得分用于判断基因的重要性:按得分大小以降序排列基因,逐个选择序列中的基因建立一系列模型,各模型通过十折交叉验证方法校正;准确性最好的模型被用于预测。该方法能有效鉴别基因中的生物标志物,且由鉴定出的生物标志物建立的模型可用于有效地预测新的癌症中的显型。

Description

基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法
技术领域
本发明属于化学计量技术领域,涉及一种基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法。
背景技术
癌症分类是临床研究中鉴定生物标志物和治愈恶性肿瘤方面的关键问题。通过微阵列基因芯片技术得到的基因表达谱已经被成功地应用于鉴定生物标志物和分类癌症样本。
基因表达谱通过大量的基因数据来反映生物信息。基因表达谱中的所有基因数据都可看作是潜在的生物标志物。基因数据中的一些重要的生物标志物和基因数据的特征可以用来精确地预测新肿瘤的显型。然而,如果使用所有的数据,分类将会遇到高维数据的问题。
非负矩阵因子分解 (nonnegative matrix factorization, NMF) 能够产生基因数据的非负和稀疏的基向量,它们能有效地表达基因数据并能用于精确地鉴定生物标志物。稀疏性是基向量的重要特征,通过稀疏的基向量可以发现重要的基因。因此,一些方法被发展起来用于控制基向量的稀疏性。基于投影梯度下降(projected gradient descent, SNMF/PGD)的一个方法通过乘性更新原理更新基因数据阵的逆矩阵,从而获得具有渴望稀疏度的基向量。通过使用两个正则化参数,约束非负矩阵因子分解(constrained NMF, CNMF)方法被提出并用于产生稀疏的基向量。通过使用定义的稀疏非负矩阵因子分解[sparse NMF/L (SNMF/L) 和 sparse NMF/R (SNMF/R)]方法,一个方法通过在基因数据阵的逆矩阵上强加稀疏性来获得稀疏的基向量。然而,通过稀疏化后得到的基因数据阵的稀疏的基向量会丢失原基因数据的很多重要信息,且稀疏性越大,丢失的信息越多。
发明内容
本发明的目的是提供一种基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法,能最大限度地保留原基因数据中的重要信息,建立的模型可以用于有效地预测新的癌症中的显型。
为实现上述目的,本发明所采用的技术方案是:一种基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法,其特征在于,该方法具体为:利用蒙特卡洛方法从原样本的基因表达数据中产生S个基因子集;每个m×ns基因子集包含1/5的从基因表达数据中通过随机采样得到的ns个基因数据,当ns值小于矩阵的秩r时,ns值将设置为等于r;然后,每个子集通过非负矩阵因子分解方法分解为一个系数矩阵sW和一个基矩阵sHsW中的初始元素是随机数,sH中的初始元素是子集中的元素;在每一个非负矩阵因子分解迭代中,如果sH中某样本的稀疏性小于原样本的最小稀疏性,该样本中的元素将从小到大逐步被零代替,直至其稀疏性不再小于原样本的最小稀疏性;
为了判断收敛,参数sc定义如下:
式中,t是第t个回归的数字;当sc值接近零时,计算趋近收敛;一个阈值用来判断收敛,即sc值小于该阈值时,认为计算收敛;如果当t值小于100时sc值小于阈值,则t值设为100;
迭代收敛后,如下基因得分用于判断基因的重要性:
式中,E是一个基因的信息熵;一个基因在S个子集中出现Sg次,因此,其最终得分是其Sg个得分的平均值;
然后,所有基因按其得分的大小以降序排列,通过逐个选择序列中的基因建立一系列模型,且每个模型通过基于PLS-LDA的十折交叉验证方法进行校正;校正准确性最好的模型被用于预测。本发明的方法通过蒙特卡卡洛 (Monte Carlo, MC) 方法产生一系列的基因子集,并对其中的每个基因进行打分。计算过程中,只对每个子集中的各别稀疏性较小的样本进行稀疏化处理,从而使基因数据阵的基向量保留了基因数据的很多重要信息,能够有效用于鉴别基因中的生物标志物,且由鉴定出的生物标志物建立的模型可以用于有效地预测新的癌症中的显型。
具体实施方式
下面结合具体实施方式对本发明进行详细说明。
非负矩阵因子分解方法根据乘性原理将多变量m×n数据V分解成两个非负的W数据和H数据,即:
(1)式中,矩阵的秩r是小于等于mn的正整数,一般取为矩阵V的秩。H取为基矩阵,则W为系数矩阵。乘性原理如下:
当以上迭代过程不断进行的时候,距离不断减小,代表弗罗贝尼乌斯范数(Frobenius norm,F-norm)。迭代过程不断进行至满足确定的收敛条件,例如,距离在某一迭代前后只有小的变化。达到收敛后,基矩阵中的向量往往是稀疏的。通过稀疏的基矩阵可以发现重要的基因。因此,一些方法被发展起来用于控制W或者H矩阵的稀疏性。一个方法基于投影梯度下降来使W或者H矩阵达到需求的稀疏性,该方法利用乘性更新原理来更新W或者H矩阵的逆矩阵。约束非负矩阵因子分解方法通过利用如下的α 和 β正则化参数用于产生稀疏的基向量:
(4)式中,W或者H矩阵中的所有元素均是非负的。另一个方法通过sparse NMF/L (SNMF/L) 对W矩阵进行稀疏化处理,通过稀疏非负矩阵因子分解对H矩阵进行稀疏化处理,其中,L和R分别代表左因子和右因子。SNMF/L和SNMF/R是如下的最优化问题:
其中,W(i,:) 和 H(:,j) 分别是W或者H矩阵的第i行和第j列,η>0, α 和 β 是正则化参数, 代表 L 1 -norm。在计算中,alternating non-negativity constrained least squares (ANLS) 不断执行直至收敛。以上方法可以用来产生稀疏的W或者H矩阵。第i个样本的稀疏性定义如下:
(7)式中,n si 是第i个样本中的元素数目,L 1 -norm。然而,通过稀疏化后得到的基因数据阵的稀疏的基向量会丢失原基因数据的很多重要信息,且稀疏性越大,丢失的信息越多。
为了利用基因数据来可靠地鉴定生物标志物,本发明提供了一种基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法,通过蒙特卡洛 (Monte Carlo, MC) 方法产生一系列的基因子集,并对其中的每个基因进行打分。计算过程中,只对每个子集中的个别稀疏性较小的样本进行稀疏化处理。打分方法能够鉴别基因中的生物标志物,且由鉴定出的生物标志物建立的模型可以用于有效地预测新的癌症中的显型。
该方法具体为:利用蒙特卡洛 (Monte Carlo, MC) 方法从原样本的基因表达数据中产生一系列的 (S个) 基因子集;每个m×ns基因子集包含1/5的从基因表达数据中通过随机采样得到的ns个基因数据,当ns值小于r时,ns值将设置为等于r;(当ns值大于等于r时,ns值为随机采样的基因个数);然后,每个子集通过非负矩阵因子分解(NMF)方法分解为一个系数矩阵sW和一个基矩阵sHsW中的初始元素是随机数,sH中的初始元素是子集中的元素;在每一个NMF迭代中,如果sH中某样本的稀疏性小于原样本的最小稀疏性,该样本中的元素将从小到大逐步被零代替,直至其稀疏性不再小于原样本的最小稀疏性;显然,每个NMF迭代中,只有个别样本被施加了小的稀疏性,即原基因数据中的大量有用信息被留存下来;
为了判断收敛,参数sc定义如下:
其中,t是第t个回归的数字。当sc值接近零时,计算趋近收敛。一个阈值用来判断收敛,即sc值小于该阈值时,认为计算收敛;如果当t值小于100时sc值小于阈值,则t值设为100,显然,NMF至少迭代100次。
迭代收敛后,如下基因得分用于判断基因的重要性:
其中,E是一个基因的信息熵。一个基因在S个子集中出现Sg (≤S) 次,因此,其最终得分是其Sg个得分的平均值;然后,所有基因按其得分的大小以降序排列,通过逐个选择序列中的基因建立一系列模型,且每个模型通过基于partial least squares-linear discriminant analysis (PLS-LDA) 的十折交叉验证(ten-fold cross validation)方法进行校正;最终,校正准确性最好的模型被用于预测。
为了利用基因表达谱中尽可能多的有用信息来构建可靠的预测模型,本发明方法利用蒙特卡洛方法从原样本的基因表达数据中产生一系列的 (S个) 基因子集;每个子集通过非负矩阵因子分解分解为一个系数矩阵sW和一个基矩阵sH;本发明方法由此命名为MC-NMF方法。

Claims (2)

1.一种基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法,其特征在于,该方法具体为:利用蒙特卡洛方法从原样本的基因表达数据中产生S个基因子集;每个m×ns基因子集包含1/5的从基因表达数据中通过随机采样得到的ns个基因数据,当ns值小于矩阵的秩r时,ns值将设置为等于r;然后,每个子集通过非负矩阵因子分解方法分解为一个系数矩阵sW和一个基矩阵sHsW中的初始元素是随机数,sH中的初始元素是子集中的元素;在每一个非负矩阵因子分解迭代中,如果sH中某样本的稀疏性小于原样本的最小稀疏性,该样本中的元素将从小到大逐步被零代替,直至其稀疏性不再小于原样本的最小稀疏性;
为了判断收敛,参数sc定义如下:
式中,t是第t个回归的数字;当sc值接近零时,计算趋近收敛;一个阈值用来判断收敛,即sc值小于该阈值时,认为计算收敛;如果当t值小于100时sc值小于阈值,则t值设为100;
迭代收敛后,如下基因得分用于判断基因的重要性:
式中,E是一个基因的信息熵;一个基因在S个子集中出现Sg次,因此,其最终得分是其Sg个得分的平均值;
然后,所有基因按其得分的大小以降序排列,通过逐个选择序列中的基因建立一系列模型,且每个模型通过基于PLS-LDA的十折交叉验证方法进行校正;校正准确性最好的模型被用于预测。
2. 根据权利要求1所述的基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法,其特征在于,当ns值大于等于矩阵的秩r时,ns值为随机采样的基因个数。
CN201410745298.9A 2014-12-09 2014-12-09 基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法 Expired - Fee Related CN104462817B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410745298.9A CN104462817B (zh) 2014-12-09 2014-12-09 基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410745298.9A CN104462817B (zh) 2014-12-09 2014-12-09 基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法

Publications (2)

Publication Number Publication Date
CN104462817A true CN104462817A (zh) 2015-03-25
CN104462817B CN104462817B (zh) 2017-07-25

Family

ID=52908846

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410745298.9A Expired - Fee Related CN104462817B (zh) 2014-12-09 2014-12-09 基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法

Country Status (1)

Country Link
CN (1) CN104462817B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107016261A (zh) * 2017-04-11 2017-08-04 曲阜师范大学 基于联合约束非负矩阵分解的差异表达基因辨识方法
CN109671468A (zh) * 2018-12-13 2019-04-23 韶关学院 一种特征基因选择及癌症分类方法
WO2021112593A1 (ko) * 2019-12-03 2021-06-10 서울대학교병원 비음수행렬분해 기반의 메타유전자 생성 방법 및 이의 적용

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050064425A1 (en) * 2002-02-11 2005-03-24 Xinghai Chen Gene function inferring using gene expression data
CN1604112A (zh) * 2004-11-03 2005-04-06 上海大学 疾病基因分类方法
JP2006053669A (ja) * 2004-08-10 2006-02-23 Stem Cell Sciences Kk 遺伝子データ処理装置及び方法、遺伝子データ処理プログラム並びにそれを格納したコンピュータにより読み取り可能な記録媒体
CN101719195A (zh) * 2009-12-03 2010-06-02 上海大学 一种逐步回归基因调控网络的推断方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050064425A1 (en) * 2002-02-11 2005-03-24 Xinghai Chen Gene function inferring using gene expression data
JP2006053669A (ja) * 2004-08-10 2006-02-23 Stem Cell Sciences Kk 遺伝子データ処理装置及び方法、遺伝子データ処理プログラム並びにそれを格納したコンピュータにより読み取り可能な記録媒体
CN1604112A (zh) * 2004-11-03 2005-04-06 上海大学 疾病基因分类方法
CN101719195A (zh) * 2009-12-03 2010-06-02 上海大学 一种逐步回归基因调控网络的推断方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
DE-SHUANG HUANG ET AL.: "Independent component analysis-based penalized discriminant method for tumor classification using gene expression data", 《BIOINFORMATICS》 *
HYUNSOO KIM ET AL.: "Sparse non-negative matrix factorizations via alternating non-negativity-constrained least squares for microarray data analysis", 《BIOINFORMATICS》 *
V.P.PAUCA ET AL.: "Nonnegative matrix factorization for spectral data analysis", 《ALGEBRA APPLICATIONS》 *
李珉: "基于基因表达谱的肿瘤数据分类研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107016261A (zh) * 2017-04-11 2017-08-04 曲阜师范大学 基于联合约束非负矩阵分解的差异表达基因辨识方法
CN107016261B (zh) * 2017-04-11 2019-10-11 曲阜师范大学 基于联合约束非负矩阵分解的差异表达基因辨识方法
CN109671468A (zh) * 2018-12-13 2019-04-23 韶关学院 一种特征基因选择及癌症分类方法
CN109671468B (zh) * 2018-12-13 2023-08-15 韶关学院 一种特征基因选择及癌症分类方法
WO2021112593A1 (ko) * 2019-12-03 2021-06-10 서울대학교병원 비음수행렬분해 기반의 메타유전자 생성 방법 및 이의 적용

Also Published As

Publication number Publication date
CN104462817B (zh) 2017-07-25

Similar Documents

Publication Publication Date Title
Patruno et al. A review of computational strategies for denoising and imputation of single-cell transcriptomic data
CN112232413B (zh) 基于图神经网络与谱聚类的高维数据特征选择方法
Engler et al. Survival analysis with high-dimensional covariates: an application in microarray studies
CN108595913A (zh) 鉴别mRNA和lncRNA的有监督学习方法
US20170024529A1 (en) Semi-Supervised Learning Framework based on Cox and AFT Models with L1/2 Regularization for Patient's Survival Prediction
CN106682454B (zh) 一种宏基因组数据分类方法和装置
CN103955629A (zh) 基于模糊k均值的宏基因组片段聚类方法
US11398297B2 (en) Systems and methods for using machine learning and DNA sequencing to extract latent information for DNA, RNA and protein sequences
CN106202999B (zh) 基于不同尺度tuple词频的微生物高通量测序数据分析协议
Bicego et al. Biclustering of expression microarray data with topic models
CN110993113B (zh) 基于MF-SDAE的lncRNA-疾病关系预测方法及系统
CN102663681B (zh) 基于排序k-均值算法的灰度图像分割方法
CN104462817B (zh) 基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法
CN103020979A (zh) 基于稀疏遗传聚类的图像分割方法
CN110491443B (zh) 一种基于投影邻域非负矩阵分解的lncRNA蛋白质关联预测方法
Sun et al. Inferring block structure of graphical models in exponential families
CN105787296B (zh) 一种宏基因组和宏转录组样本相异度的比较方法
Kiiveri Multivariate analysis of microarray data: differential expression and differential connection
CN109326327B (zh) 一种基于SeqRank图算法的生物序列聚类方法
Dalton Optimal Bayesian feature selection
CN110459266B (zh) Snp致病因素与疾病关联关系模型建立方法
CN111599412B (zh) 基于词向量与卷积神经网络的dna复制起始区域识别方法
Tran et al. Improved microRNA biomarkers for pathological stages in lung adenocarcinoma via clustering of dysregulated microRNA-target associations
CN115295156A (zh) 一种基于关系图卷积网络融合多源信息预测miRNA-疾病的方法
Bose et al. A modified local least squares-based missing value estimation method in microarray gene expression data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170725

Termination date: 20201209

CF01 Termination of patent right due to non-payment of annual fee