CN114334012A

CN114334012A - 一种基于多组学数据识别癌症亚型的方法

Info

Publication number: CN114334012A
Application number: CN202111541874.4A
Authority: CN
Inventors: 郭菲; 冯杰; 唐继军
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-12-16
Filing date: 2021-12-16
Publication date: 2022-04-12

Abstract

本发明公开了一种基于多组学数据识别癌症亚型的方法，所述方法是基于核主成分分析的多核聚类预测模型(KpcaMKL)，所述预测模型通过如下步骤生成：步骤(1)：通过癌症基因组图谱数据库(The Cancer Genome Atlas，TCGA)构建癌症多组学数据集；步骤(2)：通过核主成分分析算法对癌症数据集中的各个组学数据进行特征提取；步骤(3)：通过高斯核函数对降维后的数据进行核变换得到对应的核矩阵；步骤(4)：将各个核矩阵平均加权融合为一个全局特征矩阵；步骤(5)：将全局特征矩阵运用到谱聚类算法中，得到的聚类结果即代表癌症的不同亚型；本发明解决了癌症亚型的识别问题，采用基于核PCA的多核聚类方法进行预测，明显提高了预测能力。

Description

一种基于多组学数据识别癌症亚型的方法

技术领域

本发明属于生物信息学中的癌症亚型预测算法领域，尤其涉及一种基于多组学数据识别癌症亚型的方法。

背景技术

同一癌症可以由不同的亚型组成。癌症亚型的确定和识别是癌症个性化治疗的关键，通过对癌症患者正确地分型，将有相同或相似临床表现和病理特征的病人定义到同一个亚型中，针对不同亚型患者选用相应的治疗手段，从而可以提高癌症的治愈率。近年来，在高通量测序技术的快速迭代发展下，积累了海量的组学数据，这为癌症亚型的分析和预测提供了有力支持。整合多组学数据对癌症亚型进行识别和预测，能够得到全面、准确的预测结果，也取得了显著的效果。

发明内容

本发明的目的在于提供了一种能够准确高效地预测癌症亚型的方法，本发明使用的核PCA算法能够很好地提取到各个组学数据的特征信息，并进一步使用高斯核函数进行核变换处理，消除数据之间的非线性高阶相关性；随后将多个核矩阵平均加权融合为一个能够表征癌症的全局特征矩阵；最后将全局特征矩阵应用到谱聚类算法中得出不同的亚型结果，获得了很好的预测性能。

本发明的特点在于解决了癌症亚型识别以及预测准确度的问题，依次含有以下步骤：

步骤(1)：通过TCGA数据库构建癌症多组学数据集；

步骤(2)：通过核PCA算法对癌症数据集中的各个组学数据进行低维特征信息获取；

步骤(3)：通过高斯核函数对降维后的数据进行核变换得到对应的核矩阵M_p；

步骤(4)：将各个核矩阵平均加权融合为一个具有癌症表征的全局特征矩阵M；

其中，s为使用的组学数据的个数；

步骤(5)：将全局特征矩阵运用到谱聚类算法中获得的聚类结果即代表癌症的不同亚型。

进一步，所述步骤(2)中获取各组学数据的低维特征信息采用如下步骤生成：

2.1、对于某个包含n个病人、k维特征的组学数据X_p，有：

2.2、使用基于如下多项式核函数的核PCA对X_p进行特征提取：

K_poly(x_i,x_j)＝(γ<x_i,x_j>+r)^d

其中，x_i、x_j均为取自X_p的样本向量(0<i、j<n)，参数γ、r、d分别取值1、 1、3，随后得到包含n个病人、k′维特征的矩阵X_p′，有：

进一步，所述步骤(3)中对经核PCA降维后的数据X_p′进行核变换的过程使用如下的高斯核函数处理：

K_gaussian(x_i,x_j)＝exp(-α||x_i-x_j||²)

其中，x_i、x_j均为取自X_p′的样本向量(0<i、j<n)，α是需要多次调整的参数，随之得到相应的核矩阵M_p：

进一步，所述步骤(5)最终将全局特征矩阵M运用到谱聚类算法中，得到的聚类结果即代表癌症的不同亚型过程：

根据M计算出拉普拉斯矩阵L并构造标准拉普拉斯矩阵L′＝D^-1/2LD^-1/2，其中，D是对角矩阵，其对角元素的值分别对应着矩阵M的各行元素之和；

计算出矩阵L′的特征值对应的特征向量y，将特征向量y组成的矩阵按行标准化形成特征矩阵Y；

矩阵Y的每一行作为一个样本，采用K-means方法进行聚类，得到不同的划分，每个划分代表着一个亚型；其整个过程可以转化为求解优化问题：

其中，Y是D^-1/2LD^-1/2的特征值对应的特征矩阵，D是矩阵M对应的度矩阵，L是矩阵M对应的拉普拉斯矩阵。

有益效果

本发明利用多组学数据进行癌症亚型识别与预测；多组学数据可以全面、准确地表征癌症的信息，使用核PCA算法提取各个组学数据的特征，并依据高斯核函数进行核变换处理，能够消除数据之间的非线性高阶相关性；平均加权融合能够将多个核矩阵转换为一个全局的特征矩阵；最后利用谱聚类算法得到亚型的预测结果。本发明的预测准确率高于其他现有的模型，对癌症亚型识别等相关问题的研究具有重要意义。

附图说明

图1是本发明计算过程的流程图；

图2是核PCA对模型性能的影响；

图3是多核融合对模型性能的影响；

图4是与现有的预测模型的性能比较。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

癌症的多源性决定了它的多种成因，同一种癌症可以由许多不同的亚型组成。癌症亚型识别是癌症个性化治疗的关键环节，可以为临床诊断和治疗提供重要参考。在癌症发生和发展过程中，不同癌症亚型之间的遗传和表观遗传学特征都存在着显著差异。

该发明的基本思想是：提取癌症的多组学数据信息，并对组学特征进行优化改进，构建一个基于核PCA的多核聚类预测模型，核心预测算法采用性能优秀、适应良好的谱聚类算法。

该发明主要包含以下步骤：首先构建癌症多组学数据集，然后利用核PCA算法对癌症数据集中的各个组学数据进行特征提取，随后根据高斯核函数将得到的各个低维特征信息进行核映射，经过平均加权的中期整合方式，得到一个全局特征矩阵，最后将该矩阵应用到谱聚类算法中得到癌症亚型的预测结果。本发明整个计算过程的流程图如图1所示。利用该模型可以获得比其他现有模型更优的预测结果。具体过程为：

步骤(1)：通过TCGA数据库中的组学信息构建癌症数据集；所述TCGA数据库收集了人类30多种癌症、超过8万名患者的数据，同时涵盖了癌症相关的各种组学数据，包括基因组、转录组、蛋白组以及表观基因组等；

步骤(2)：通过核PCA算法对癌症数据集中的各个组学数据进行特征提取，其中包括如下步骤：

2.1、对于某个包含n个病人、k维特征的组学数据X_p，有：

2.2、使用基于如下多项式核函数的核PCA对X_p进行特征提取：

K_poly(x_i,x_j)＝(γ<x_i,x_j>+r)^d

步骤(3)：对经核PCA降维后的数据X_p′进行核变换的过程使用如下的高斯核函数处理：

K_gaussian(x_i,x_j)＝exp(-α||x_i-x_j||²)

步骤(4)：采用如下平均加权融合策略得到一个全局特征矩阵M：

其中，s为使用的组学数据的个数。

步骤(5)：将全局特征矩阵M运用到谱聚类算法中，得到的聚类结果即代表癌症的不同亚型。

本实施例构建了Breast、Colon、Kidney、Lung和Stomach共计5个癌症多组学数据集，每个数据集都包含基因表达数据、基因异构体表达数据和甲基化表达信息。按照上述计算方法，得到每种癌症上的亚型结果。如果不同亚型之间具有临床显著性，那么代表不同亚型的生存曲线应当具有显著的统计学差异。通过对数秩检验可以计算生存p值来量化这种差异性。本实施例选用0.05作为显著性的阈值。通过分析生存p值来评估方法的性能。首先，依据生存p值检验核PCA对模型的影响，如图2所示。核PCA是PCA的非线性版本，可以有效降低复杂特征的维数。由图2可以得出，核PCA的使用极大地提升了方法的预测性能，得到的结果也更加可靠和稳定。随后，依据生存p值检验加权融合策略对模型的影响，如图3所示。相比于使用单组学信息，使用多核融合策略后，所有数据集上的p值都得到了明显改善。最后，将本模型与SKF、LassoSKF等最新模型进行比较，结果如图4所示。可以得出，SKF在各个癌症数据集上的适应性不足，在Stomach和Kidney分别取得了最好(8.86e-14)和最差(0.12)的结果；基于SKF改进的LassoSKF预测能力明显提升，但对数据集的适应性仍略显不足；而本模型在保证预测性能的同时，在各个数据集上的适应性显著优于其他模型。显然，该方法是极为有效且有意义的。

综上所述，本发明基于多组学数据提出了一种癌症亚型识别算法，所述方法是基于核主成分分析的多核聚类预测模型，在不同癌症数据集上均有良好的识别能力。本发明使用核PCA算法进行组学数据的提取，随后利用高斯核函数对各个组学特征实施核变换以构建相应的核矩阵，在使用加权融合策略后，得到一个能够表征癌症的全局特征矩阵，最终通过谱聚类算法得到该癌症上不同亚型的预测结果。整个计算过程简单且易于实现，具有广泛的可使用性。