CN104462817B - 基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法 - Google Patents

基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法 Download PDF

Info

Publication number
CN104462817B
CN104462817B CN201410745298.9A CN201410745298A CN104462817B CN 104462817 B CN104462817 B CN 104462817B CN 201410745298 A CN201410745298 A CN 201410745298A CN 104462817 B CN104462817 B CN 104462817B
Authority
CN
China
Prior art keywords
gene
matrix
value
openness
convergence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410745298.9A
Other languages
English (en)
Other versions
CN104462817A (zh
Inventor
陈晶
张苗
邵学广
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwest Normal University
Original Assignee
Northwest Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwest Normal University filed Critical Northwest Normal University
Priority to CN201410745298.9A priority Critical patent/CN104462817B/zh
Publication of CN104462817A publication Critical patent/CN104462817A/zh
Application granted granted Critical
Publication of CN104462817B publication Critical patent/CN104462817B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)

Abstract

一种基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法,用蒙特卡洛方法从原样本的基因表达数据中产生多个基因子集;每个子集通过非负矩阵因子分解方法分解为系数矩阵和基矩阵;每一个非负矩阵因子分解迭代中,若基矩阵中某样本的稀疏性小于原样本的最小稀疏性,该样本中的元素从小到大逐步被零代替,至其稀疏性不再小于原样本最小稀疏性;判断收敛;迭代收敛后,基因得分用于判断基因的重要性:按得分大小以降序排列基因,逐个选择序列中的基因建立一系列模型,各模型通过十折交叉验证方法校正;准确性最好的模型被用于预测。该方法能有效鉴别基因中的生物标志物,且由鉴定出的生物标志物建立的模型可用于有效地预测新的癌症中的显型。

Description

基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类 方法
技术领域
本发明属于化学计量技术领域,涉及一种基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法。
背景技术
癌症分类是临床研究中鉴定生物标志物和治愈恶性肿瘤方面的关键问题。通过微阵列基因芯片技术得到的基因表达谱已经被成功地应用于鉴定生物标志物和分类癌症样本。
基因表达谱通过大量的基因数据来反映生物信息。基因表达谱中的所有基因数据都可看作是潜在的生物标志物。基因数据中的一些重要的生物标志物和基因数据的特征可以用来精确地预测新肿瘤的显型。然而,如果使用所有的数据,分类将会遇到高维数据的问题。
非负矩阵因子分解 (nonnegative matrix factorization, NMF) 能够产生基因数据的非负和稀疏的基向量,它们能有效地表达基因数据并能用于精确地鉴定生物标志物。稀疏性是基向量的重要特征,通过稀疏的基向量可以发现重要的基因。因此,一些方法被发展起来用于控制基向量的稀疏性。基于投影梯度下降(projected gradient descent,SNMF/PGD)的一个方法通过乘性更新原理更新基因数据阵的逆矩阵,从而获得具有渴望稀疏度的基向量。通过使用两个正则化参数,约束非负矩阵因子分解(constrained NMF,CNMF)方法被提出并用于产生稀疏的基向量。通过使用定义的稀疏非负矩阵因子分解[sparse NMF/L (SNMF/L) 和 sparse NMF/R (SNMF/R)]方法,一个方法通过在基因数据阵的逆矩阵上强加稀疏性来获得稀疏的基向量。然而,通过稀疏化后得到的基因数据阵的稀疏的基向量会丢失原基因数据的很多重要信息,且稀疏性越大,丢失的信息越多。
发明内容
本发明的目的是提供一种基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法,能最大限度地保留原基因数据中的重要信息,建立的模型可以用于有效地预测新的癌症中的显型。
为实现上述目的,本发明所采用的技术方案是:一种基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法,其特征在于,该方法具体为:利用蒙特卡洛方法从原样本的基因表达数据中产生S个基因子集;每个m×ns基因子集包含1/5的从基因表达数据中通过随机采样得到的ns个基因数据,当ns值小于矩阵的秩r时,ns值将设置为等于r;然后,每个子集通过非负矩阵因子分解方法分解为一个系数矩阵sW和一个基矩阵sHsW中的初始元素是随机数,sH中的初始元素是子集中的元素;在每一个非负矩阵因子分解迭代中,如果sH中某样本的稀疏性小于原样本的最小稀疏性,该样本中的元素将从小到大逐步被零代替,直至其稀疏性不再小于原样本的最小稀疏性;
为了判断收敛,参数sc定义如下:
式中,t是第t个回归的数字;当sc值接近零时,计算趋近收敛;一个阈值用来判断收敛,即sc值小于该阈值时,认为计算收敛;如果当t值小于100时sc值小于阈值,则t值设为100;
迭代收敛后,如下基因得分用于判断基因的重要性:
式中,E是一个基因的信息熵;一个基因在S个子集中出现Sg次,因此,其最终得分是其Sg个得分的平均值;
然后,所有基因按其得分的大小以降序排列,通过逐个选择序列中的基因建立一系列模型,且每个模型通过基于PLS-LDA的十折交叉验证方法进行校正;校正准确性最好的模型被用于预测。本发明的方法通过蒙特卡卡洛 (Monte Carlo, MC) 方法产生一系列的基因子集,并对其中的每个基因进行打分。计算过程中,只对每个子集中的各别稀疏性较小的样本进行稀疏化处理,从而使基因数据阵的基向量保留了基因数据的很多重要信息,能够有效用于鉴别基因中的生物标志物,且由鉴定出的生物标志物建立的模型可以用于有效地预测新的癌症中的显型。
具体实施方式
下面结合具体实施方式对本发明进行详细说明。
非负矩阵因子分解方法根据乘性原理将多变量m×n数据V分解成两个非负的W数据和H数据,即:
(1)式中,矩阵的秩r是小于等于mn的正整数,一般取为矩阵V的秩。H取为基矩阵,则W为系数矩阵。乘性原理如下:
当以上迭代过程不断进行的时候,距离不断减小,代表弗罗贝尼乌斯范数(Frobenius norm,F-norm)。迭代过程不断进行至满足确定的收敛条件,例如,距离在某一迭代前后只有小的变化。达到收敛后,基矩阵中的向量往往是稀疏的。通过稀疏的基矩阵可以发现重要的基因。因此,一些方法被发展起来用于控制W或者H矩阵的稀疏性。一个方法基于投影梯度下降来使W或者H矩阵达到需求的稀疏性,该方法利用乘性更新原理来更新W或者H矩阵的逆矩阵。约束非负矩阵因子分解方法通过利用如下的αβ正则化参数用于产生稀疏的基向量:
(4)式中,W或者H矩阵中的所有元素均是非负的。另一个方法通过sparse NMF/L(SNMF/L) 对W矩阵进行稀疏化处理,通过稀疏非负矩阵因子分解对H矩阵进行稀疏化处理,其中,L和R分别代表左因子和右因子。SNMF/L和SNMF/R是如下的最优化问题:
其中,W(i,:) 和 H(:,j) 分别是W或者H矩阵的第i行和第j列,η>0, αβ 是正则化参数, 代表 L 1 -norm。在计算中,alternating non-negativity constrainedleast squares (ANLS) 不断执行直至收敛。以上方法可以用来产生稀疏的W或者H矩阵。第i个样本的稀疏性定义如下:
(7)式中,n si 是第i个样本中的元素数目,L 1 -norm。然而,通过稀疏化后得到的基因数据阵的稀疏的基向量会丢失原基因数据的很多重要信息,且稀疏性越大,丢失的信息越多。
为了利用基因数据来可靠地鉴定生物标志物,本发明提供了一种基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法,通过蒙特卡洛 (Monte Carlo, MC) 方法产生一系列的基因子集,并对其中的每个基因进行打分。计算过程中,只对每个子集中的个别稀疏性较小的样本进行稀疏化处理。打分方法能够鉴别基因中的生物标志物,且由鉴定出的生物标志物建立的模型可以用于有效地预测新的癌症中的显型。
该方法具体为:利用蒙特卡洛 (Monte Carlo, MC) 方法从原样本的基因表达数据中产生一系列的 (S个) 基因子集;每个m×ns基因子集包含1/5的从基因表达数据中通过随机采样得到的ns个基因数据,当ns值小于r时,ns值将设置为等于r;(当ns值大于等于r时,ns值为随机采样的基因个数);然后,每个子集通过非负矩阵因子分解(NMF)方法分解为一个系数矩阵sW和一个基矩阵sHsW中的初始元素是随机数,sH中的初始元素是子集中的元素;在每一个NMF迭代中,如果sH中某样本的稀疏性小于原样本的最小稀疏性,该样本中的元素将从小到大逐步被零代替,直至其稀疏性不再小于原样本的最小稀疏性;显然,每个NMF迭代中,只有个别样本被施加了小的稀疏性,即原基因数据中的大量有用信息被留存下来;
为了判断收敛,参数sc定义如下:
其中,t是第t个回归的数字。当sc值接近零时,计算趋近收敛。一个阈值用来判断收敛,即sc值小于该阈值时,认为计算收敛;如果当t值小于100时sc值小于阈值,则t值设为100,显然,NMF至少迭代100次。
迭代收敛后,如下基因得分用于判断基因的重要性:
其中,E是一个基因的信息熵。一个基因在S个子集中出现Sg (≤S) 次,因此,其最终得分是其Sg个得分的平均值;然后,所有基因按其得分的大小以降序排列,通过逐个选择序列中的基因建立一系列模型,且每个模型通过基于partial least squares-lineardiscriminant analysis (PLS-LDA) 的十折交叉验证(ten-fold cross validation)方法进行校正;最终,校正准确性最好的模型被用于预测。
为了利用基因表达谱中尽可能多的有用信息来构建可靠的预测模型,本发明方法利用蒙特卡洛方法从原样本的基因表达数据中产生一系列的 (S个) 基因子集;每个子集通过非负矩阵因子分解分解为一个系数矩阵sW和一个基矩阵sH;本发明方法由此命名为MC-NMF方法。

Claims (2)

1.一种基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法,其特征在于,该方法具体为:利用蒙特卡洛方法从原样本的基因表达数据中产生S个基因子集;每个m×ns基因子集包含1/5的从基因表达数据中通过随机采样得到的ns个基因数据,当ns值小于矩阵的秩r时,ns值将设置为等于r;然后,每个子集通过非负矩阵因子分解方法分解为一个系数矩阵sW和一个基矩阵sHsW中的初始元素是随机数,sH中的初始元素是子集中的元素;在每一个非负矩阵因子分解迭代中,如果sH中某样本的稀疏性小于原样本的最小稀疏性,该样本中的元素将从小到大逐步被零代替,直至其稀疏性不再小于原样本的最小稀疏性;
为了判断收敛,参数sc定义如下:
式中,V是矩阵;H是基矩阵;W是系数矩阵;是弗罗贝尼乌斯范数;t是第t个回归的数字;当sc值接近零时,计算趋近收敛;一个阈值用来判断收敛,即sc值小于该阈值时,认为计算收敛;如果当t值小于100时sc值小于阈值,则t值设为100;
迭代收敛后,如下基因得分用于判断基因的重要性:
式中,E是一个基因的信息熵;r是矩阵的秩;一个基因在S个子集中出现Sg次,因此,其最终得分是其Sg个得分的平均值;
然后,所有基因按其得分的大小以降序排列,通过逐个选择序列中的基因建立一系列模型,且每个模型通过基于PLS-LDA的十折交叉验证方法进行校正;校正准确性最好的模型被用于预测。
2.根据权利要求1所述的基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法,其特征在于,当ns值大于等于矩阵的秩r时,ns值为随机采样的基因个数。
CN201410745298.9A 2014-12-09 2014-12-09 基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法 Expired - Fee Related CN104462817B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410745298.9A CN104462817B (zh) 2014-12-09 2014-12-09 基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410745298.9A CN104462817B (zh) 2014-12-09 2014-12-09 基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法

Publications (2)

Publication Number Publication Date
CN104462817A CN104462817A (zh) 2015-03-25
CN104462817B true CN104462817B (zh) 2017-07-25

Family

ID=52908846

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410745298.9A Expired - Fee Related CN104462817B (zh) 2014-12-09 2014-12-09 基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法

Country Status (1)

Country Link
CN (1) CN104462817B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107016261B (zh) * 2017-04-11 2019-10-11 曲阜师范大学 基于联合约束非负矩阵分解的差异表达基因辨识方法
CN109671468B (zh) * 2018-12-13 2023-08-15 韶关学院 一种特征基因选择及癌症分类方法
WO2021112593A1 (ko) * 2019-12-03 2021-06-10 서울대학교병원 비음수행렬분해 기반의 메타유전자 생성 방법 및 이의 적용

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1604112A (zh) * 2004-11-03 2005-04-06 上海大学 疾病基因分类方法
JP2006053669A (ja) * 2004-08-10 2006-02-23 Stem Cell Sciences Kk 遺伝子データ処理装置及び方法、遺伝子データ処理プログラム並びにそれを格納したコンピュータにより読み取り可能な記録媒体
CN101719195A (zh) * 2009-12-03 2010-06-02 上海大学 一种逐步回归基因调控网络的推断方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2473816A1 (en) * 2002-02-11 2003-08-21 Syngenta Participations Ag Gene function inferring using gene expression data

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006053669A (ja) * 2004-08-10 2006-02-23 Stem Cell Sciences Kk 遺伝子データ処理装置及び方法、遺伝子データ処理プログラム並びにそれを格納したコンピュータにより読み取り可能な記録媒体
CN1604112A (zh) * 2004-11-03 2005-04-06 上海大学 疾病基因分类方法
CN101719195A (zh) * 2009-12-03 2010-06-02 上海大学 一种逐步回归基因调控网络的推断方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Independent component analysis-based penalized discriminant method for tumor classification using gene expression data;De-Shuang Huang et al.;《Bioinformatics》;20061231;第22卷(第15期);全文 *
Nonnegative matrix factorization for spectral data analysis;V.P.Pauca et al.;《Algebra Applications》;20061231;全文 *
Sparse non-negative matrix factorizations via alternating non-negativity-constrained least squares for microarray data analysis;Hyunsoo Kim et al.;《Bioinformatics》;20071231;第23卷(第12期);第1495-1502页 *
基于基因表达谱的肿瘤数据分类研究;李珉;《中国优秀硕士学位论文全文数据库 信息科技辑》;20130615(第06期);第27-28页 *

Also Published As

Publication number Publication date
CN104462817A (zh) 2015-03-25

Similar Documents

Publication Publication Date Title
DeTomaso et al. Hotspot identifies informative gene modules across modalities of single-cell genomics
Saha et al. A symmetry based multiobjective clustering technique for automatic evolution of clusters
CN105243398B (zh) 基于线性判别分析准则的改进卷积神经网络性能的方法
CN108647489B (zh) 一种筛选疾病药物靶标和靶标组合的方法及系统
CN109360604B (zh) 一种卵巢癌分子分型预测系统
CN102282559A (zh) 数据分析方法和系统
Wang et al. Extracting a biologically latent space of lung cancer epigenetics with variational autoencoders
CN106682454B (zh) 一种宏基因组数据分类方法和装置
CN109559781A (zh) 一种预测dna-蛋白质结合的双向lstm和cnn模型
CN101923604A (zh) 基于邻域粗糙集的加权knn肿瘤基因表达谱分类方法
CN104462817B (zh) 基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法
CN104809476A (zh) 一种基于分解的多目标进化模糊规则分类方法
Gan et al. Sparse representation for tumor classification based on feature extraction using latent low-rank representation
CN105243296A (zh) 联合mRNA和microRNA表达谱芯片的肿瘤特征基因选择方法
CN106548041A (zh) 一种基于先验信息和并行二进制微粒群算法的肿瘤关键基因识别方法
CN104200134A (zh) 一种基于局部线性嵌入算法的肿瘤基因表数据特征选择方法
CN106599610A (zh) 预测长链非编码rna和蛋白质联系的方法及系统
CN113130002B (zh) 一种肺腺癌生物标志物筛选、预后模型构建及生物学验证的新方法
CN106874705B (zh) 基于转录组数据确定肿瘤标记物的方法
CN109978023A (zh) 面向高维大数据分析的特征选择方法及计算机存储介质
Asim et al. EL-RMLocNet: An explainable LSTM network for RNA-associated multi-compartment localization prediction
Amaratunga et al. High-dimensional data
KR102376212B1 (ko) 신경망 기반의 유전자 선택 알고리즘을 이용한 유전자 발현 마커 선별 방법
CN111009292B (zh) 基于单样本sKLD指标检测复杂生物系统相变临界点的方法
Sarder et al. Feature selection and classification of leukemia cancer using machine learning techniques

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170725

Termination date: 20201209