CN113436684A

CN113436684A - 一种癌症分类和特征基因选择方法

Info

Publication number: CN113436684A
Application number: CN202110751724.XA
Authority: CN
Inventors: 施绍萍; 何欢; 余佳麟
Original assignee: Nanchang University
Current assignee: Nanchang University
Priority date: 2021-07-02
Filing date: 2021-07-02
Publication date: 2021-09-24
Anticipated expiration: 2041-07-02
Also published as: CN113436684B

Abstract

本发明属于生物信息领域，公开了一种癌症分类和特征基因选择方法，包括以下步骤：初级学习器的建立：建立T个logistic回归模型及其对应的sparse group lasso正则化的损失函数求解模型，输出次级学习器训练集；次级学习器的建立：建立multi‑response回归模型及其对应L1正则化的损失函数求解模型，输出训练集预测结果；预后特征选择模型：建立预后特征选择SGL模型。本发明癌症分类和特征基因选择方法，满足预测、稳定和选择三大标准，stacking集成提高了模型对癌症分类预测的准确性和稳定性，准确选取致癌基因和癌症相关基因，增强模型的可解释性；融合基因与基因通路先验知识，提高了癌症分类的准确性和特征选择的有效性。

Description

一种癌症分类和特征基因选择方法

技术领域

本发明涉及生物信息领域，具体的说，涉及一种癌症分类和特征基因选择方法。

背景技术

大量研究表明，基因组学数据对许多癌症的分类是有用的。随着测序技术的发展，现在可以从单个细胞中分离和测序遗传物质。对于这类基因表达RNA序列数据，变量p(作为基因表达)的数量远远大于样本容量n。然而，从生物学的角度来看，只有一小部分基因变量能强烈指向靶向性疾病，而大多数基因与癌症分类无关。这些不相关的基因可能会引入噪声，降低分类精度。此外，从机器学习的角度来看，过多的基因可能会导致过拟合，并对分类性能产生负面影响，并且由于变量之间的伪依赖关系，导致优化过程不具有唯一性，也不具有稳定性，此时经典回归或分类方法是不合适的。所以需要有效的基因选择方法来帮助分类不同的癌症类型，提高预测的准确性。

正则化技术是一种重要的嵌入式特征选择方法可以同时实现模型训练和特征选择，尤其是将正则化技术融入逻辑回归框架以实现癌症分类和基因选择受到广泛关注。最常用正则化方法之一是基于l_k-norm惩罚的组合，这类方法没有将基因和基因通路考虑在内，只是单纯从基因角度去考虑与复杂疾病的关联而没有考虑基因通路的协同作用。另一类常用的正则化是将l_k-norm与表达特征潜在关系的函数式相结合，其优点是既可以结合特征之间先验知识或潜在联系，又可以实现特征稀疏。对于具有不同特征组信息的数据集，传统sparse group lasso(SGL)方法存在预测性能不稳定的情况，且其特征选择的能力依赖于α的选择。

发明内容

针对上述现有技术中的不足，本发明基于stacking集成策略，提供一种融合了基因与基因通路先验知识，有效提高癌症分类的准确性、预测稳定性和特征选择的有效性的癌症分类和特征基因选择方法。

本发明所采取的技术方案是：

一种癌症分类和特征基因选择方法，包括如下步骤：

(1)初级学习器的建立：

对于n*p维的训练集矩阵X及样本标签y，建立T个logistic回归模型作为初级学习器；

对于sparse group lasso(SGL)正则化项，其有一个混合参数α用来调节lasso与group lasso的权重，基于T个等距分布在(0，1)之间α值，建立对应的T个SGL正则化的logistic回归求解模型；

对每个α_t，通过交叉验证选择最优正则化参数λ_t，并记录验证集在每个初级学习器的预测概率值为n*T矩阵

(2)次级学习器的建立：

建立multi-response回归模型作为次级学习器，将分类问题转换成multi-response回归问题，对于分类有K类的原始问题，其可以转换为K个独立的回归问题；

建立L₁正则化的multi-response回归求解模型，其输入属性为步骤(1)中验证集输出类概率矩阵

通过交叉验证来选择最优正则化参数λ^*，在求解模型得到不同类的预测值后，即可对癌症样本进行分类；

(3)预后特征选择模型的建立：

建立新的SGL正则化的logistic回归求解模型作为预后特征选择模型；

用

来渐进拟合

其中β是密集的，而γ是稀疏的；

其输入数据集标签为步骤(2)预测分类结果

其混合参数是基于步骤(1)中交叉验证结果选取的最优混合参数α^*；

通过交叉验证选出最优正则化参数λ，或者调整λ使模型选择一定数量的特征基因，从而实现特征基因选择。

优选的，在建立所述步骤(1)中的初级学习器之前，还包括步骤：从TCGA数据库下载相关癌症基因表达数据，筛选mRNA基因表达数据和差异基因，进行GSEA分析获取基因通路信息，根据通路信息进行特征基因分组，得到训练集和测试集。

优选的，所述步骤(1)中初级学习器为多个不同的α_t对应的SGL正则化极大似然损失函数模型求解所得的logistic模型；

logistic模型具体为：

其中

是训练集X的子矩阵，其表示第i样本对应的基因组l，β^l为基因组l的回归系数，β＝(β¹，β²，...，β^m)^T为基因回归系数。

优选的，所述步骤(1)的SGL正则化的logistic回归求解模型具体为：

其中

为步骤(1)中所述sparse group lasso正则化项，λ＞0是正则化参数，α∈[0，1]是混合参数；l(β)为logistic回归模型对应的负对数似然：

优选的，所述步骤(2)次级学习器为L1正则化均方误差损失函数模型求解所得multi-response回归模型；

次级学习器multi-response回归模型具体为：

其中W＝(w_ik)_{1≤i≤T，1≤k≤K}为系数矩阵，W^*零均值噪声矩阵，

为步骤(1)中验证集输出类概率矩阵。

优选的，步骤(2)中所述的L₁正则化的multi-response回归求解模型表达式为：

使用与步骤(1)中相同的交叉验证集来选择步骤(2)中所述的最优正则化参数λ^*，注意在这两次连续的交叉验证过程中，我们使用相同的训练集来估计初级和次级学习器回归系数(β；W和W^*)，相同的验证集来调优初级和次级学习器的正则化参数(λ_t；λ^*)；

所述步骤(2)中次级学习器的训练集为所述步骤(1)中的输出概率矩阵

其标签为初始样本标签。

优选的，所述步骤(2)中所述的对癌症样本进行分类具体为：

求解步骤(2)中所述次级学习器，对于属于类k的样本i，有

其中w_jk和

分别对应W和W^*的第k列，

表示第j个初级学习器样本i的输出概率；因此对于一个新样本，可以得到其每一类的类概率

并将该样本分类为类k当满足：

优选的，所述步骤(3)中的预后特征选择模型的训练集为初始数据集，其标签为训练集在步骤(2)中的预测结果。

优选的，所述步骤(3)中所述的新的SGL正则化的logistic回归求解模型具体为：

其中混合参数α^*是基于步骤(1)中求解T个初级学习器所得的交叉验证集AUC结果选取的，l(γ)为新的负对数似然损失函数，具体为：

其中

为求解步骤(2)中模型所得数据集X的预测结果，γ为稀疏的回归系数；通过交叉验证选出最优λ，或者调整λ使模型包含所需数量的特征基因，从而实现模型稀疏和特征基因选择。

本发明相对现有技术的有益效果：

本发明癌症分类和特征基因选择方法，克服传统方法只能满足其中一两条标准的缺陷，在SGL基础上加以改进，满足预测、稳定和选择三大标准，stacking集成提高了模型对癌症分类预测的准确性和稳定性，预后特征选择可以有效结合基因通路信息，准确选取致癌基因和癌症相关基因，增强模型的可解释性；融合基因与基因通路先验知识，提高了癌症分类的准确性和特征选择的有效性，有利于复杂疾病的研究。

本发明癌症分类和特征基因选择方法，利用stacking集成策略提高癌症预测模型的稳定性和准确性，克服了sparse group lasso方法的短板；更能适应不同类型、不同特征组信息的基因表达数据集；本发明将基因和基因通路信息考虑在内，通过预后特征选择实现了特征基因筛选，使得模型准确性有所提高且提取的特征基因更具生物意义、与癌症发生更为相关。

本发明癌症分类和特征基因选择方法，基于stacking集成的思想，需要建立初级学习器和次级学习器，而现有方法sparse group lasso是只有初级学习器；特征基因选择时筛选哪些特征主要是受参数影响的，我们基于T个初级学习器的交叉验证结果，选取最优混合参数α^*作为此预后特征选择模型的参数，所以在特征基因选择时参数的确定与现有方法不同。

附图说明

图1是本发明提供的一种癌症分类和特征基因选择方法流程示意图；

图2是本发明提供的一种癌症分类和特征基因选择方法与其他主流方法在测试集上的分类准确度和AUC值结果比对图。

具体实施方式

以下参照附图及实施例对本发明进行详细的说明：

附图1和2可知，一种癌症分类和特征基因选择方法，包括如下步骤：

(1)初级学习器的建立：

(2)次级学习器的建立：

(3)预后特征选择模型的建立：

建立新的SGL正则化的logistic回归求解模型作为预后特征选择模型：

用

来渐进拟合

其中β是密集的，而γ是稀疏的；

其输入数据集标签为步骤(2)预测分类结果

在建立所述步骤(1)中的初级学习器之前，还包括步骤：从TCGA数据库下载相关癌症基因表达数据，筛选mRNA基因表达数据和差异基因，进行GSEA分析获取基因通路信息，根据通路信息进行特征基因分组，得到训练集和测试集。

所述步骤(1)中初级学习器为多个不同的α_t对应的SGL正则化极大似然损失函数模型求解所得的logistic模型；

logistic模型具体为：

其中

所述步骤(1)的SGL正则化的logistic回归求解模型具体为：

其中

所述步骤(2)次级学习器为L1正则化均方误差损失函数模型求解所得multi-response回归模型；

次级学习器multi-response回归模型具体为：

为步骤(1)中验证集输出类概率矩阵。

步骤(2)中所述的L₁正则化的multi-response回归求解模型表达式为：

其标签为初始样本标签。

所述步骤(2)中所述的对癌症样本进行分类具体为：

求解步骤(2)中所述次级学习器，对于属于类k的样本i，有

其中w_jk和

分别对应W和W^*的第k列，

并将该样本分类为类k当满足：

所述步骤(3)中的预后特征选择模型的训练集为初始数据集，其标签为训练集在步骤(2)中的预测结果。

所述步骤(3)中所述的新的SGL正则化的logistic回归求解模型具体为：

其中

以下结合数据对本发明方面进行详细说明：

一、材料的选取及数据处理

本发明选取公共数据库TCGA中的肝癌、甲状腺癌、肺癌的基因表达数据集，对于肝癌和甲状腺癌提取其中正常样本和癌症样本为研究对象，对于肺癌选取其两种癌症亚型肺腺癌和肺鳞癌作为研究对象。下载相关癌症基因表达数据，筛选mRNA基因表达数据和差异表达基因，进行GSEA分析获取基因通路信息，根据通路信息进行特征基因分组，再将所有数据随机分为训练集和测试集。数据具体信息如表1所示：

表1数据分类、特征组信息汇总

数据处理：mRNA表达数据进行标准化处理。

二、癌症分类和特征基因选择方法

本发明的癌症分类和特征基因选择具体步骤为，如图1所示：

初级学习器求解：根据本发明中的步骤(1)对肝癌、甲状腺癌、肺癌训练集D进行五折交叉验证，将初始训练集D随机分成五个大小相同的集合D₁，D₂，...，D₅，令D_j和

分别为第j折的验证集和训练集。如步骤(1)所述，每一个α_t对应了一个初级学习器，对于T个的logistic预测模型(初级学习器)通过在

上训练其对应的T个不同的学习算法而得，对验证集D_j中的每个样本，通过训练所得初级学习器预测其类概率值并记录为概率矩阵

记录验证集的预测AUC值并基于此选取最优的正则化参数λ_c。

次级学习器求解：求解步骤(1)中T个初级学习器所得的

作为次级训练集，即次级学习器的输入训练集，初始训练集的样本标签仍然作为次级学习器输入标签。同样，如步骤(2)所述进行五折交叉验证来训练次级学习器和选择最优正则化参数λ^*，此时步骤(2)中的K＝2，因为此为二分类问题。注意在步骤(1)和步骤(2)中，使用相同的训练集来估计初级和次级学习器回归系数(β；W和W^*)，相同的验证集来调优初级和次级学习器的正则化参数(λ_c；λ^*)。

特征选择模型确定：基于步骤(1)中验证集在T个初级学习器上的预测AUC值，可以选取最优混合参数α^*作为步骤(3)中所述的特征选择模型的混合参数。此模型的训练集为初始训练集D，但样本标签为步骤(2)中训练集的预测结果。然后，可以通过交叉验证选出最优λ，或者调整λ使模型选择一定数量的特征基因。

当步骤(1)中初级学习器和步骤(2)中次级学习器算法结束时，即可确定模型的所有回归系数，即基于基因表达数据集的健康与癌症二分类预测模型已经确定。随后即可对各自的测试集进行拟合并可以进行特征选择。请参阅图2，为本方法与同类型其他流行方法对基因数据集中测试集的分类准确性和AUC的表现。分类准确性指的是分类正确样本占总样本的比例，AUC指的是“ROC”(受试者工作特征)曲线下的面积。通常来说，准确率和AUC越高，分类器越好。实验结果可以看出，相比于现有方法，本发明方法在癌症预测问题上具有更好的预测准确性和AUC。此外，通过对比这四种方法在各基因数据集上选出的基因，发现本方法选出的基因更可能是医学报告上的潜在癌症基因而且更具判别性。因此，本发明方法是准确且有效的。

以上所述，仅是本发明的较佳实施例而已，并非对本发明的结构作任何形式上的限制。凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均属于本发明的技术方案范围内。