CN104462817B

CN104462817B - 基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法

Info

Publication number: CN104462817B
Application number: CN201410745298.9A
Authority: CN
Inventors: 陈晶; 张苗; 邵学广
Original assignee: Northwest Normal University
Current assignee: Northwest Normal University
Priority date: 2014-12-09
Filing date: 2014-12-09
Publication date: 2017-07-25
Anticipated expiration: 2034-12-09
Also published as: CN104462817A

Abstract

一种基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法，用蒙特卡洛方法从原样本的基因表达数据中产生多个基因子集；每个子集通过非负矩阵因子分解方法分解为系数矩阵和基矩阵；每一个非负矩阵因子分解迭代中，若基矩阵中某样本的稀疏性小于原样本的最小稀疏性，该样本中的元素从小到大逐步被零代替，至其稀疏性不再小于原样本最小稀疏性；判断收敛；迭代收敛后，基因得分用于判断基因的重要性：按得分大小以降序排列基因，逐个选择序列中的基因建立一系列模型，各模型通过十折交叉验证方法校正；准确性最好的模型被用于预测。该方法能有效鉴别基因中的生物标志物，且由鉴定出的生物标志物建立的模型可用于有效地预测新的癌症中的显型。

Description

基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法

技术领域

本发明属于化学计量技术领域，涉及一种基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法。

背景技术

癌症分类是临床研究中鉴定生物标志物和治愈恶性肿瘤方面的关键问题。通过微阵列基因芯片技术得到的基因表达谱已经被成功地应用于鉴定生物标志物和分类癌症样本。

基因表达谱通过大量的基因数据来反映生物信息。基因表达谱中的所有基因数据都可看作是潜在的生物标志物。基因数据中的一些重要的生物标志物和基因数据的特征可以用来精确地预测新肿瘤的显型。然而，如果使用所有的数据，分类将会遇到高维数据的问题。

非负矩阵因子分解 (nonnegative matrix factorization, NMF) 能够产生基因数据的非负和稀疏的基向量，它们能有效地表达基因数据并能用于精确地鉴定生物标志物。稀疏性是基向量的重要特征，通过稀疏的基向量可以发现重要的基因。因此，一些方法被发展起来用于控制基向量的稀疏性。基于投影梯度下降（projected gradient descent,SNMF/PGD）的一个方法通过乘性更新原理更新基因数据阵的逆矩阵，从而获得具有渴望稀疏度的基向量。通过使用两个正则化参数，约束非负矩阵因子分解（constrained NMF,CNMF）方法被提出并用于产生稀疏的基向量。通过使用定义的稀疏非负矩阵因子分解[sparse NMF/L (SNMF/L) 和 sparse NMF/R (SNMF/R)]方法，一个方法通过在基因数据阵的逆矩阵上强加稀疏性来获得稀疏的基向量。然而，通过稀疏化后得到的基因数据阵的稀疏的基向量会丢失原基因数据的很多重要信息，且稀疏性越大，丢失的信息越多。

发明内容

本发明的目的是提供一种基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法，能最大限度地保留原基因数据中的重要信息，建立的模型可以用于有效地预测新的癌症中的显型。

为实现上述目的，本发明所采用的技术方案是：一种基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法，其特征在于，该方法具体为：利用蒙特卡洛方法从原样本的基因表达数据中产生S个基因子集；每个m×ns基因子集包含1/5的从基因表达数据中通过随机采样得到的ns个基因数据，当ns值小于矩阵的秩r时，ns值将设置为等于r；然后，每个子集通过非负矩阵因子分解方法分解为一个系数矩阵sW和一个基矩阵sH；sW中的初始元素是随机数，sH中的初始元素是子集中的元素；在每一个非负矩阵因子分解迭代中，如果sH中某样本的稀疏性小于原样本的最小稀疏性，该样本中的元素将从小到大逐步被零代替，直至其稀疏性不再小于原样本的最小稀疏性；

为了判断收敛，参数sc定义如下：

式中，t是第t个回归的数字；当sc值接近零时，计算趋近收敛；一个阈值用来判断收敛，即sc值小于该阈值时，认为计算收敛；如果当t值小于100时sc值小于阈值，则t值设为100；

迭代收敛后，如下基因得分用于判断基因的重要性：

式中，E是一个基因的信息熵；一个基因在S个子集中出现Sg次，因此，其最终得分是其Sg个得分的平均值；

然后，所有基因按其得分的大小以降序排列，通过逐个选择序列中的基因建立一系列模型，且每个模型通过基于PLS-LDA的十折交叉验证方法进行校正；校正准确性最好的模型被用于预测。本发明的方法通过蒙特卡卡洛 (Monte Carlo, MC) 方法产生一系列的基因子集，并对其中的每个基因进行打分。计算过程中，只对每个子集中的各别稀疏性较小的样本进行稀疏化处理，从而使基因数据阵的基向量保留了基因数据的很多重要信息，能够有效用于鉴别基因中的生物标志物，且由鉴定出的生物标志物建立的模型可以用于有效地预测新的癌症中的显型。

具体实施方式

下面结合具体实施方式对本发明进行详细说明。

非负矩阵因子分解方法根据乘性原理将多变量m×n数据V分解成两个非负的W数据和H数据，即：

（1）式中，矩阵的秩r是小于等于m和n的正整数，一般取为矩阵V的秩。H取为基矩阵，则W为系数矩阵。乘性原理如下：

当以上迭代过程不断进行的时候，距离不断减小，代表弗罗贝尼乌斯范数(Frobenius norm,F-norm)。迭代过程不断进行至满足确定的收敛条件，例如，距离在某一迭代前后只有小的变化。达到收敛后，基矩阵中的向量往往是稀疏的。通过稀疏的基矩阵可以发现重要的基因。因此，一些方法被发展起来用于控制W或者H矩阵的稀疏性。一个方法基于投影梯度下降来使W或者H矩阵达到需求的稀疏性，该方法利用乘性更新原理来更新W或者H矩阵的逆矩阵。约束非负矩阵因子分解方法通过利用如下的α 和 β正则化参数用于产生稀疏的基向量：

（4）式中，W或者H矩阵中的所有元素均是非负的。另一个方法通过sparse NMF/L(SNMF/L) 对W矩阵进行稀疏化处理，通过稀疏非负矩阵因子分解对H矩阵进行稀疏化处理，其中，L和R分别代表左因子和右因子。SNMF/L和SNMF/R是如下的最优化问题：

其中，W(i,:) 和 H(:,j) 分别是W或者H矩阵的第i行和第j列，η>0, α 和 β 是正则化参数, 代表 L ₁-norm。在计算中，alternating non-negativity constrainedleast squares (ANLS) 不断执行直至收敛。以上方法可以用来产生稀疏的W或者H矩阵。第i个样本的稀疏性定义如下：

（7）式中，n _si是第i个样本中的元素数目，是L ₁-norm。然而，通过稀疏化后得到的基因数据阵的稀疏的基向量会丢失原基因数据的很多重要信息，且稀疏性越大，丢失的信息越多。

为了利用基因数据来可靠地鉴定生物标志物，本发明提供了一种基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法，通过蒙特卡洛 (Monte Carlo, MC) 方法产生一系列的基因子集，并对其中的每个基因进行打分。计算过程中，只对每个子集中的个别稀疏性较小的样本进行稀疏化处理。打分方法能够鉴别基因中的生物标志物，且由鉴定出的生物标志物建立的模型可以用于有效地预测新的癌症中的显型。

该方法具体为：利用蒙特卡洛 (Monte Carlo, MC) 方法从原样本的基因表达数据中产生一系列的 (S个) 基因子集；每个m×ns基因子集包含1/5的从基因表达数据中通过随机采样得到的ns个基因数据，当ns值小于r时，ns值将设置为等于r；（当ns值大于等于r时，ns值为随机采样的基因个数）；然后，每个子集通过非负矩阵因子分解（NMF）方法分解为一个系数矩阵sW和一个基矩阵sH；sW中的初始元素是随机数，sH中的初始元素是子集中的元素；在每一个NMF迭代中，如果sH中某样本的稀疏性小于原样本的最小稀疏性，该样本中的元素将从小到大逐步被零代替，直至其稀疏性不再小于原样本的最小稀疏性；显然，每个NMF迭代中，只有个别样本被施加了小的稀疏性，即原基因数据中的大量有用信息被留存下来；

为了判断收敛，参数sc定义如下：

其中，t是第t个回归的数字。当sc值接近零时，计算趋近收敛。一个阈值用来判断收敛，即sc值小于该阈值时，认为计算收敛；如果当t值小于100时sc值小于阈值，则t值设为100，显然，NMF至少迭代100次。

迭代收敛后，如下基因得分用于判断基因的重要性：

其中，E是一个基因的信息熵。一个基因在S个子集中出现Sg (≤S) 次，因此，其最终得分是其Sg个得分的平均值；然后，所有基因按其得分的大小以降序排列，通过逐个选择序列中的基因建立一系列模型，且每个模型通过基于partial least squares-lineardiscriminant analysis (PLS-LDA) 的十折交叉验证(ten-fold cross validation)方法进行校正；最终，校正准确性最好的模型被用于预测。

为了利用基因表达谱中尽可能多的有用信息来构建可靠的预测模型，本发明方法利用蒙特卡洛方法从原样本的基因表达数据中产生一系列的 (S个) 基因子集；每个子集通过非负矩阵因子分解分解为一个系数矩阵sW和一个基矩阵sH；本发明方法由此命名为MC-NMF方法。

Claims

1.一种基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法，其特征在于，该方法具体为：利用蒙特卡洛方法从原样本的基因表达数据中产生S个基因子集；每个m×ns基因子集包含1/5的从基因表达数据中通过随机采样得到的ns个基因数据，当ns值小于矩阵的秩r时，ns值将设置为等于r；然后，每个子集通过非负矩阵因子分解方法分解为一个系数矩阵sW和一个基矩阵sH；sW中的初始元素是随机数，sH中的初始元素是子集中的元素；在每一个非负矩阵因子分解迭代中，如果sH中某样本的稀疏性小于原样本的最小稀疏性，该样本中的元素将从小到大逐步被零代替，直至其稀疏性不再小于原样本的最小稀疏性；

为了判断收敛，参数sc定义如下：

式中，V是矩阵；H是基矩阵；W是系数矩阵；是弗罗贝尼乌斯范数；t是第t个回归的数字；当sc值接近零时，计算趋近收敛；一个阈值用来判断收敛，即sc值小于该阈值时，认为计算收敛；如果当t值小于100时sc值小于阈值，则t值设为100；

迭代收敛后，如下基因得分用于判断基因的重要性：

式中，E是一个基因的信息熵；r是矩阵的秩；一个基因在S个子集中出现Sg次，因此，其最终得分是其Sg个得分的平均值；

然后，所有基因按其得分的大小以降序排列，通过逐个选择序列中的基因建立一系列模型，且每个模型通过基于PLS-LDA的十折交叉验证方法进行校正；校正准确性最好的模型被用于预测。

2.根据权利要求1所述的基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法，其特征在于，当ns值大于等于矩阵的秩r时，ns值为随机采样的基因个数。