CN114334012A - 一种基于多组学数据识别癌症亚型的方法 - Google Patents
一种基于多组学数据识别癌症亚型的方法 Download PDFInfo
- Publication number
- CN114334012A CN114334012A CN202111541874.4A CN202111541874A CN114334012A CN 114334012 A CN114334012 A CN 114334012A CN 202111541874 A CN202111541874 A CN 202111541874A CN 114334012 A CN114334012 A CN 114334012A
- Authority
- CN
- China
- Prior art keywords
- matrix
- cancer
- kernel
- data
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种基于多组学数据识别癌症亚型的方法,所述方法是基于核主成分分析的多核聚类预测模型(KpcaMKL),所述预测模型通过如下步骤生成:步骤(1):通过癌症基因组图谱数据库(The Cancer Genome Atlas,TCGA)构建癌症多组学数据集;步骤(2):通过核主成分分析算法对癌症数据集中的各个组学数据进行特征提取;步骤(3):通过高斯核函数对降维后的数据进行核变换得到对应的核矩阵;步骤(4):将各个核矩阵平均加权融合为一个全局特征矩阵;步骤(5):将全局特征矩阵运用到谱聚类算法中,得到的聚类结果即代表癌症的不同亚型;本发明解决了癌症亚型的识别问题,采用基于核PCA的多核聚类方法进行预测,明显提高了预测能力。
Description
技术领域
本发明属于生物信息学中的癌症亚型预测算法领域,尤其涉及一种基于多组学数据识别癌症亚型的方法。
背景技术
同一癌症可以由不同的亚型组成。癌症亚型的确定和识别是癌症个性化治疗的关键,通过对癌症患者正确地分型,将有相同或相似临床表现和病理特征的病人定义到同一个亚型中,针对不同亚型患者选用相应的治疗手段,从而可以提高癌症的治愈率。近年来,在高通量测序技术的快速迭代发展下,积累了海量的组学数据,这为癌症亚型的分析和预测提供了有力支持。整合多组学数据对癌症亚型进行识别和预测,能够得到全面、准确的预测结果,也取得了显著的效果。
发明内容
本发明的目的在于提供了一种能够准确高效地预测癌症亚型的方法,本发明使用的核PCA算法能够很好地提取到各个组学数据的特征信息,并进一步使用高斯核函数进行核变换处理,消除数据之间的非线性高阶相关性;随后将多个核矩阵平均加权融合为一个能够表征癌症的全局特征矩阵;最后将全局特征矩阵应用到谱聚类算法中得出不同的亚型结果,获得了很好的预测性能。
本发明的特点在于解决了癌症亚型识别以及预测准确度的问题,依次含有以下步骤:
步骤(1):通过TCGA数据库构建癌症多组学数据集;
步骤(2):通过核PCA算法对癌症数据集中的各个组学数据进行低维特征信息获取;
步骤(3):通过高斯核函数对降维后的数据进行核变换得到对应的核矩阵Mp;
步骤(4):将各个核矩阵平均加权融合为一个具有癌症表征的全局特征矩阵M;
其中,s为使用的组学数据的个数;
步骤(5):将全局特征矩阵运用到谱聚类算法中获得的聚类结果即代表癌症的不同亚型。
进一步,所述步骤(2)中获取各组学数据的低维特征信息采用如下步骤生成:
2.1、对于某个包含n个病人、k维特征的组学数据Xp,有:
2.2、使用基于如下多项式核函数的核PCA对Xp进行特征提取:
Kpoly(xi,xj)=(γ<xi,xj>+r)d
其中,xi、xj均为取自Xp的样本向量(0<i、j<n),参数γ、r、d分别取值1、 1、3,随后得到包含n个病人、k′维特征的矩阵Xp′,有:
进一步,所述步骤(3)中对经核PCA降维后的数据Xp′进行核变换的过程使用如下的高斯核函数处理:
Kgaussian(xi,xj)=exp(-α||xi-xj||2)
其中,xi、xj均为取自Xp′的样本向量(0<i、j<n),α是需要多次调整的参数,随之得到相应的核矩阵Mp:
进一步,所述步骤(5)最终将全局特征矩阵M运用到谱聚类算法中,得到的聚类结果即代表癌症的不同亚型过程:
根据M计算出拉普拉斯矩阵L并构造标准拉普拉斯矩阵L′=D-1/2LD-1/2,其中,D是对角矩阵,其对角元素的值分别对应着矩阵M的各行元素之和;
计算出矩阵L′的特征值对应的特征向量y,将特征向量y组成的矩阵按行标准化形成特征矩阵Y;
矩阵Y的每一行作为一个样本,采用K-means方法进行聚类,得到不同的划分,每个划分代表着一个亚型;其整个过程可以转化为求解优化问题:
其中,Y是D-1/2LD-1/2的特征值对应的特征矩阵,D是矩阵M对应的度矩阵,L是矩阵M对应的拉普拉斯矩阵。
有益效果
本发明利用多组学数据进行癌症亚型识别与预测;多组学数据可以全面、准确地表征癌症的信息,使用核PCA算法提取各个组学数据的特征,并依据高斯核函数进行核变换处理,能够消除数据之间的非线性高阶相关性;平均加权融合能够将多个核矩阵转换为一个全局的特征矩阵;最后利用谱聚类算法得到亚型的预测结果。本发明的预测准确率高于其他现有的模型,对癌症亚型识别等相关问题的研究具有重要意义。
附图说明
图1是本发明计算过程的流程图;
图2是核PCA对模型性能的影响;
图3是多核融合对模型性能的影响;
图4是与现有的预测模型的性能比较。
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
癌症的多源性决定了它的多种成因,同一种癌症可以由许多不同的亚型组成。癌症亚型识别是癌症个性化治疗的关键环节,可以为临床诊断和治疗提供重要参考。在癌症发生和发展过程中,不同癌症亚型之间的遗传和表观遗传学特征都存在着显著差异。
该发明的基本思想是:提取癌症的多组学数据信息,并对组学特征进行优化改进,构建一个基于核PCA的多核聚类预测模型,核心预测算法采用性能优秀、适应良好的谱聚类算法。
该发明主要包含以下步骤:首先构建癌症多组学数据集,然后利用核PCA算法对癌症数据集中的各个组学数据进行特征提取,随后根据高斯核函数将得到的各个低维特征信息进行核映射,经过平均加权的中期整合方式,得到一个全局特征矩阵,最后将该矩阵应用到谱聚类算法中得到癌症亚型的预测结果。本发明整个计算过程的流程图如图1所示。利用该模型可以获得比其他现有模型更优的预测结果。具体过程为:
步骤(1):通过TCGA数据库中的组学信息构建癌症数据集;所述TCGA数据库收集了人类30多种癌症、超过8万名患者的数据,同时涵盖了癌症相关的各种组学数据,包括基因组、转录组、蛋白组以及表观基因组等;
步骤(2):通过核PCA算法对癌症数据集中的各个组学数据进行特征提取,其中包括如下步骤:
2.1、对于某个包含n个病人、k维特征的组学数据Xp,有:
2.2、使用基于如下多项式核函数的核PCA对Xp进行特征提取:
Kpoly(xi,xj)=(γ<xi,xj>+r)d
其中,xi、xj均为取自Xp的样本向量(0<i、j<n),参数γ、r、d分别取值1、 1、3,随后得到包含n个病人、k′维特征的矩阵Xp′,有:
步骤(3):对经核PCA降维后的数据Xp′进行核变换的过程使用如下的高斯核函数处理:
Kgaussian(xi,xj)=exp(-α||xi-xj||2)
其中,xi、xj均为取自Xp′的样本向量(0<i、j<n),α是需要多次调整的参数,随之得到相应的核矩阵Mp:
步骤(4):采用如下平均加权融合策略得到一个全局特征矩阵M:
其中,s为使用的组学数据的个数。
步骤(5):将全局特征矩阵M运用到谱聚类算法中,得到的聚类结果即代表癌症的不同亚型。
本实施例构建了Breast、Colon、Kidney、Lung和Stomach共计5个癌症多组学数据集,每个数据集都包含基因表达数据、基因异构体表达数据和甲基化表达信息。按照上述计算方法,得到每种癌症上的亚型结果。如果不同亚型之间具有临床显著性,那么代表不同亚型的生存曲线应当具有显著的统计学差异。通过对数秩检验可以计算生存p值来量化这种差异性。本实施例选用0.05作为显著性的阈值。通过分析生存p值来评估方法的性能。首先,依据生存p值检验核PCA对模型的影响,如图2所示。核PCA是PCA的非线性版本,可以有效降低复杂特征的维数。由图2可以得出,核PCA的使用极大地提升了方法的预测性能,得到的结果也更加可靠和稳定。随后,依据生存p值检验加权融合策略对模型的影响,如图3所示。相比于使用单组学信息,使用多核融合策略后,所有数据集上的p值都得到了明显改善。最后,将本模型与SKF、LassoSKF等最新模型进行比较,结果如图4所示。可以得出,SKF在各个癌症数据集上的适应性不足,在Stomach和Kidney分别取得了最好(8.86e-14)和最差(0.12)的结果;基于SKF改进的LassoSKF预测能力明显提升,但对数据集的适应性仍略显不足;而本模型在保证预测性能的同时,在各个数据集上的适应性显著优于其他模型。显然,该方法是极为有效且有意义的。
综上所述,本发明基于多组学数据提出了一种癌症亚型识别算法,所述方法是基于核主成分分析的多核聚类预测模型,在不同癌症数据集上均有良好的识别能力。本发明使用核PCA算法进行组学数据的提取,随后利用高斯核函数对各个组学特征实施核变换以构建相应的核矩阵,在使用加权融合策略后,得到一个能够表征癌症的全局特征矩阵,最终通过谱聚类算法得到该癌症上不同亚型的预测结果。整个计算过程简单且易于实现,具有广泛的可使用性。
Claims (4)
4.根据权利要求1所述的一种基于多组学数据识别癌症亚型的方法,其特征在于:所述步骤(5)最终将全局特征矩阵M运用到谱聚类算法中,得到的聚类结果即代表癌症的不同亚型过程:
5.1、根据M计算出拉普拉斯矩阵L并构造标准拉普拉斯矩阵L′=D-1/2LD-1/2;
D是对角矩阵,其对角元素的值分别对应着矩阵M的各行元素之和;
5.2、计算出矩阵L′的特征值对应的特征向量y,将特征向量y组成的矩阵按行标准化形成特征矩阵Y;
5.3、矩阵Y的每一行作为一个样本,采用K-means方法进行聚类,得到不同的划分,每个划分代表着一个亚型;其整个过程可以转化为求解优化问题:
其中,Y是D-1/2LD-1/2的特征值对应的特征矩阵,D是矩阵M对应的度矩阵,L是矩阵M对应的拉普拉斯矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111541874.4A CN114334012A (zh) | 2021-12-16 | 2021-12-16 | 一种基于多组学数据识别癌症亚型的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111541874.4A CN114334012A (zh) | 2021-12-16 | 2021-12-16 | 一种基于多组学数据识别癌症亚型的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114334012A true CN114334012A (zh) | 2022-04-12 |
Family
ID=81052363
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111541874.4A Pending CN114334012A (zh) | 2021-12-16 | 2021-12-16 | 一种基于多组学数据识别癌症亚型的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114334012A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115985513A (zh) * | 2023-01-05 | 2023-04-18 | 徐州医科大学科技园发展有限公司 | 一种基于多组学癌症分型的数据处理方法、装置及设备 |
CN116741397A (zh) * | 2023-08-15 | 2023-09-12 | 数据空间研究院 | 基于多组学数据融合的癌症分型方法、系统及存储介质 |
CN117393175A (zh) * | 2023-10-16 | 2024-01-12 | 中国矿业大学 | 一种基于多组学数据的癌症亚型识别方法 |
-
2021
- 2021-12-16 CN CN202111541874.4A patent/CN114334012A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115985513A (zh) * | 2023-01-05 | 2023-04-18 | 徐州医科大学科技园发展有限公司 | 一种基于多组学癌症分型的数据处理方法、装置及设备 |
CN115985513B (zh) * | 2023-01-05 | 2023-11-03 | 徐州医科大学科技园发展有限公司 | 一种基于多组学癌症分型的数据处理方法、装置及设备 |
CN116741397A (zh) * | 2023-08-15 | 2023-09-12 | 数据空间研究院 | 基于多组学数据融合的癌症分型方法、系统及存储介质 |
CN116741397B (zh) * | 2023-08-15 | 2023-11-03 | 数据空间研究院 | 基于多组学数据融合的癌症分型方法、系统及存储介质 |
CN117393175A (zh) * | 2023-10-16 | 2024-01-12 | 中国矿业大学 | 一种基于多组学数据的癌症亚型识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114334012A (zh) | 一种基于多组学数据识别癌症亚型的方法 | |
Liu et al. | Regularized non-negative matrix factorization for identifying differentially expressed genes and clustering samples: A survey | |
Patruno et al. | A review of computational strategies for denoising and imputation of single-cell transcriptomic data | |
CN112951321B (zh) | 一种基于张量分解的miRNA-疾病关联预测方法及系统 | |
Liu et al. | Predicting breast cancer recurrence and metastasis risk by integrating color and texture features of histopathological images and machine learning technologies | |
CN116741397B (zh) | 基于多组学数据融合的癌症分型方法、系统及存储介质 | |
US20230162818A1 (en) | Methods of determining correspondences between biological properties of cells | |
Gan et al. | Sparse representation for tumor classification based on feature extraction using latent low-rank representation | |
CN115896242A (zh) | 一种基于外周血免疫特征的癌症智能筛查模型及方法 | |
CN113903398A (zh) | 肠癌早筛标志物、检测方法、检测装置以及计算机可读取介质 | |
TW202121223A (zh) | 訓練類神經網路以預測個體基因表現特徵的方法及系統 | |
WO2023196928A2 (en) | True variant identification via multianalyte and multisample correlation | |
CN113838519B (zh) | 基于自适应基因交互正则化弹性网络模型的基因选择方法及系统 | |
Bhonde et al. | Deep Learning Techniques in Cancer Prediction Using Genomic Profiles | |
Zhou et al. | Identifying biomarkers of nottingham prognosis index in breast cancer survivability | |
CN110751983A (zh) | 一种筛选特征mRNA用于诊断早期肺癌的方法 | |
Claussen | Modeling the Simultaneous Effects of Copy Number Variation and Methylation on Gene Expression Using Next Generation Sequencing Data | |
CN110797083B (zh) | 基于多网络的生物标志物识别方法 | |
CN112037167B (zh) | 一种基于影像组学和遗传算法的目标区域确定系统 | |
Ahmed et al. | Convolutional Neural Network for Cancer Treatment Response Prediction | |
Lee et al. | Finite mixture models in biostatistics | |
Lainscsek et al. | Purely Sequence based prediction of contact maps and classification of chromosomal compartments with DDA-DNA | |
Wang et al. | scNMF-Impute: imputation for single-cell RNA-seq data based on nonnegative matrix factorization | |
Yuan et al. | Partial mixture model for tight clustering in exploratory gene expression analysis | |
CN116959736A (zh) | 三阴性乳腺癌数据关联模式鉴定方法、系统、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |