CN109801680A

CN109801680A - 基于tcga数据库的肿瘤转移复发预测方法及系统

Info

Publication number: CN109801680A
Application number: CN201811466604.XA
Authority: CN
Inventors: 陈博南; 黄浩楠; 柯君子; 周史焜; 梁绮琪; 郭傲; 杜展浩; 陈嘉颖
Original assignee: Guangzhou University Of Chinese Medicine (guangzhou Institute Of Traditional Chinese Medicine)
Current assignee: Guangzhou University Of Chinese Medicine (guangzhou Institute Of Traditional Chinese Medicine)
Priority date: 2018-12-03
Filing date: 2018-12-03
Publication date: 2019-05-24
Anticipated expiration: 2038-12-03
Also published as: CN109801680B

Abstract

本发明公开了一种基于TCGA数据库的肿瘤转移复发预测方法及系统，方法包括：从TCGA数据库获取肿瘤患者的肿瘤组织转录组测序数据；根据获取的肿瘤组织转录组测序数据进行基因差异表达分析；根据基因差异表达分析的结果采用机器学习的方法进行肿瘤转移复发预测模型构建，得到肿瘤转移复发预测模型；根据肿瘤转移复发预测模型对待预测的对象进行肿瘤转移复发预测。本发明利用机器学习的方法配合TCGA数据库实现了肿瘤转移复发预测的全自动化管理，能直接为肿瘤患者提供明确的诊断预后参考和指导，更加及时、准确和高效。本发明可广泛应用于医学计算机应用领域。

Description

基于TCGA数据库的肿瘤转移复发预测方法及系统

技术领域

本发明涉及医学计算机应用领域，尤其是一种基于TCGA数据库的肿瘤转移复发预测方法及系统。

背景技术

目前，肿瘤转移仍是一个世界难题，例如在大肠癌中，约50％的患者在接受根治性切除术(RO)后5年内仍死于转移性疾病。即使淋巴结为阴性(NO)的患者，复发率也达到10％。肺癌的预后更差，有60％RO和40％NO患者死于转移性疾病。肿瘤切除术后患者只能通过不定期的复查，来判断肿瘤是否复发或出现转移灶。

目前临床上诊断肿瘤患者是否转移复发是通过高分辨率成像技术或肿瘤早期诊断的标记物蛋白检测来实现的。然而，此两种方法均有其局限性：通过高分辨率成像技术通常难以发现肿瘤细胞的早期转移，阻止了有效的早期干预，导致肿瘤常在晚期才能诊断和治疗，错过了最佳治疗时机；而肿瘤早期诊断的标记物蛋白检测，其标记物蛋白丰度较低，大大降低了检测的准确率，且从血液蛋白质的高浓度复杂混合物中分离出非常罕有的候选肿瘤标记物，也是目前面临的一个巨大的挑战。

发明内容

为解决上述技术问题，本发明的目的在于：提供一种及时、准确和高效的基于TCGA数据库的肿瘤转移复发预测方法及系统。

本发明一方面所采取的技术方案是：

基于TCGA数据库的肿瘤转移复发预测方法，包括以下步骤：

从TCGA数据库获取肿瘤患者的肿瘤组织转录组测序数据；

根据获取的肿瘤组织转录组测序数据进行基因差异表达分析；

根据基因差异表达分析的结果采用机器学习的方法进行肿瘤转移复发预测模型构建，得到肿瘤转移复发预测模型；

根据肿瘤转移复发预测模型对待预测的对象进行肿瘤转移复发预测。

进一步，所述从TCGA数据库获取肿瘤患者的肿瘤组织转录组测序数据这一步骤，具体包括：

从TCGA数据库中获取临床肿瘤患者的转录组数据；

从临床肿瘤患者的转录组数据中筛选出肿瘤转移组别数据集和肿瘤未转移组别数据集。

进一步，所述根据获取的肿瘤组织转录组测序数据进行基因差异表达分析这一步骤，具体为：

根据肿瘤转移组别数据集和肿瘤未转移组别数据集进行差异分析，并采用错误发现率控制法对每个基因的表达量进行p值的多重假设检验校正，选出p值<0.01且满足2倍以上差异表达的基因作为差异基因。

进一步，所述从临床肿瘤患者的转录组数据中筛选出肿瘤转移组别数据集和肿瘤未转移组别数据集这一步骤，具体为：

将临床肿瘤患者的转录组数据中TNM分期为M1期或者新肿瘤事件类型为远处转移的barcode号抽调出来作为肿瘤转移组别数据集，其余数据作为肿瘤未转移组别数据集。

进一步，所述根据基因差异表达分析的结果采用机器学习的方法进行肿瘤转移复发预测模型构建，得到肿瘤转移复发预测模型这一步骤，具体包括：

根据基因差异表达分析的结果运用MySQL建立肿瘤患者的差异表达基因数据库；

根据肿瘤患者的差异表达基因数据库采用随机森林的方法进行肿瘤转移复发预测模型构建，得到肿瘤转移复发预测模型。

进一步，所述根据肿瘤患者的差异表达基因数据库采用随机森林的方法进行肿瘤转移复发预测模型构建，得到肿瘤转移复发预测模型这一步骤，具体包括：

将肿瘤患者的差异表达基因数据库中差异基因的90％作为训练集，差异基因的10％作为测试集；

采用随机森林分类器对训练集进行训练，从而训练出初步的肿瘤转移复发预测模型；

采用测试集对肿瘤转移复发预测模型进行测试，并根据测试的结果对初步的肿瘤转移复发预测模型进行参数调整，得到最终的肿瘤转移复发预测模型。

本发明另一方面所采取的技术方案是：

基于TCGA数据库的肿瘤转移复发预测系统，包括：

获取模块，用于从TCGA数据库获取肿瘤患者的肿瘤组织转录组测序数据；

基因差异表达分析模块，用于根据获取的肿瘤组织转录组测序数据进行基因差异表达分析；

模型构建模块，用于根据基因差异表达分析的结果采用机器学习的方法进行肿瘤转移复发预测模型构建，得到肿瘤转移复发预测模型；

预测模块，用于根据肿瘤转移复发预测模型对待预测的对象进行肿瘤转移复发预测。

进一步，所述模型构建模块具体包括：

数据库建立单元，用于根据基因差异表达分析的结果运用MySQL建立肿瘤患者的差异表达基因数据库；

预测模型构建单元，用于根据肿瘤患者的差异表达基因数据库采用随机森林的方法进行肿瘤转移复发预测模型构建，得到肿瘤转移复发预测模型。

进一步，所述预测模型构建单元具体包括：

数据集划分子单元，用于将肿瘤患者的差异表达基因数据库中差异基因的90％作为训练集，差异基因的10％作为测试集；

训练子单元，用于采用随机森林分类器对训练集进行训练，从而训练出初步的肿瘤转移复发预测模型；

测试子单元，用于采用测试集对肿瘤转移复发预测模型进行测试，并根据测试的结果对初步的肿瘤转移复发预测模型进行参数调整，得到最终的肿瘤转移复发预测模型。

本发明另一方面所采取的技术方案是：

基于TCGA数据库的肿瘤转移复发预测系统，包括：

至少一个存储器，用于存储程序；

至少一个处理器，用于执行所述程序以实现本发明所述的基于TCGA数据库的肿瘤转移复发预测方法。

本发明的有益效果是：本发明基于TCGA数据库的肿瘤转移复发预测方法及系统，对TCGA数据库中癌组织的转录组测序数据进行基因差异表达分析，然后结合基因差异表达分析的结果采用机器学习的方法得到肿瘤转移复发预测模型，最后通过该肿瘤转移复发预测模型提前预测出肿瘤患者转移复发的倾向性，利用机器学习的方法配合TCGA数据库实现了肿瘤转移复发预测的全自动化管理，能直接为肿瘤患者提供明确的诊断预后参考和指导，更加及时、准确和高效。

附图说明

图1为本发明实施例提供的基于TCGA数据库的肿瘤转移复发预测方法的流程图；

图2为本发明具体实施例的肿瘤转移复发预测方法的实现流程图；

图3为本发明具体实施例采用随机森林分类器构建肿瘤转移复发预测模型时所采用的框架图；

图4为本发明具体实施例采用随机森林分类器构建肿瘤转移复发预测模型得到的受试者工作特征曲线图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

参照图1，本发明实施例提供了一种基于TCGA数据库的肿瘤转移复发预测方法，包括以下步骤：

从TCGA数据库获取肿瘤患者的肿瘤组织转录组测序数据；

具体地，TCGA的全称为The Cancer Genome Atlas，是美国国家癌症研究所(NCI)和国家人类基因组研究所(NHGRI)已生成的33种癌症的基因组的关键变化全方位，多三维地图之间的合作的TCGA数据集，其有助于癌症研究界更有效地预防、诊断和治疗癌症。

基因差异表达分析是为了识别两个样本(本发明的两个样本分别是肿瘤转移样本和肿瘤未转移样本)下表达差异显著的基因(即一个基因在两个样本中的表达水平，在排除各种偏差后，其差异具有统计学意义)，以从转录组测序数据中筛选出具有差异表达的基因。基因差异表达分析的方法可选用倍数法、T检验、F检验及SAM等方法。

机器学习的方法包括随机森林算法、逻辑回归算法、决策树算法等，其可以通过R语言或Python语言代码来运行。

待预测的对象是指实际的肿瘤患者。

由上述内容可见，本实施例利用机器学习的方法配合TCGA数据库实现了肿瘤转移复发预测的全自动化管理，运用人工智能机器学习优化算法，能较为准确地预测出肿瘤患者术后复发或转移的可能性，更加高效、即时地为临床预后做出指导和参考，对临床上指导肿瘤患者术后诊疗有重要意义。

进一步作为优选的实施方式，所述从TCGA数据库获取肿瘤患者的肿瘤组织转录组测序数据这一步骤，具体包括：

从TCGA数据库中获取临床肿瘤患者的转录组数据；

具体地，可采用R软件使用TCGA·biolinks包，通过query()、query_clin()、GDCdownload()、GDCprepare()等函数从TCGA数据库中获取临床肿瘤患者转录组数据。

而临床肿瘤患者转录组数据获取后，可进一步将临床数据中TNM分期为M1期，或“new_neoplasm_event_type(新肿瘤事件类型)”为“distant metastasis(远处转移)”的barcode号从全肿瘤患者临床数据抽调出作为肿瘤转移组别数据集，其余作为普通肿瘤组别数据集。

进一步作为优选的实施方式，所述根据获取的肿瘤组织转录组测序数据进行基因差异表达分析这一步骤，具体为：

具体地，根据倍数法和先验知识，满足2倍以上差异表达的基因可被认为是具有显著表达差异的基因；p值<0.01是为了满足统计学的显著性差异要求。

根据肿瘤转移组别数据集和普通肿瘤组别数据集可使用dataPrep()、dataNorm()、dataFilt()函数进行差异分析，并对每个基因的表达量进行p值计算后对计算的p值作多重假设检验校正，其实现原理如下：

1)假设观测到基因A对应的reads(读出序列)数为x，已知在一个大文库中，每个基因的表达量只占所有基因表达量的一小部分，在这种情况下，p(x)的分布服从Pearson分布。已知样本一中唯一比对到基因组的总reads数为N₁，样本二中唯一比对到基因组的总reads数为N₂，样本一中唯一比对到基因A的总reads数为x，样本二中唯一比对到基因A的总reads数为y，则基因A在这两样本中表达量相等的概率可由以下公式计算出来：

2)用FDR(即错误发现率)错误控制法对p-value(即p值)作多重假设检验校正

因为转录组分析并不是针对一个或几个转录本进行分析，转录组分析的是一个样品中所转录表达的所有转录本。所以，一个样品当中有多少转录本，就需要对多少转录本进行假设检验。这会导致一个很严重的问题，在单次假设检验中较低的假阳性比例会累积到一个非常惊人的程度。

例如：现在有这样一个项目：包含两个样品，共得到10000条转录本的表达量数据，其中有100条转录本的表达量在两个样品中是有差异的，针对单个基因的差异表达分析有1％的假阳性。

由于存在1％假阳性的结果，在我们分析完这10000个基因后，我们会得到100个假阳性导致的错误结果，加上100条真实存在的结果，共计200个结果。在这个例子中，一次分析得到的200个差异表达基因中，有50％都是假阳性导致的错误结果，这显然是不可接受的。为解决这个问题，FDR错误控制法被提出。

FDR错误控制法是Benjamin于1995年提出的一种方法，通过控制FDR(FalseDiscovery Rate)来决定p值的域值。假设挑选了R个差异表达的基因，其中有S个是真正有差异表达的，另外有V个其实是没有差异表达的，是假阳性的。实践中希望错误比例Q＝V/R平均而言不能超过某个预先设定的值(比如0.05)，在统计学上，这也就等价于控制FDR不能超过5％，具体做法是：先对所有候选基因的p值进行从小到大排序，若想控制FDR不能超过阈值q，则只需找到最大的正整数i，使得p(i)≤(i×q)/m，m为p值的总数；然后，挑选对应p(1),p(2),...,p(i)的基因作为差异表达基因，这样就能从统计学上保证FDR不超过q。因此，FDR的计算公式如下：

q-value(i)＝p(i)×length(p)/rank(p)

其中，i为p-value的序号，q-value为p-value的FDR阈值，length(p)为候选基因的p值总个数，rank(p)为候选基因的p值的倒数位置数。

进一步作为优选的实施方式，所述从临床肿瘤患者的转录组数据中筛选出肿瘤转移组别数据集和肿瘤未转移组别数据集这一步骤，具体为：

进一步作为优选的实施方式，所述根据基因差异表达分析的结果采用机器学习的方法进行肿瘤转移复发预测模型构建，得到肿瘤转移复发预测模型这一步骤，具体包括：

具体地，随机森林的方法实质是基于决策树的分类器集成算法，其中每一棵树都依赖于一个随机向量，随机森林的所有向量都是独立同分布的。随机森林就是对数据集的列变量和行观测进行随机化，生成多个分类数，最终将分类树结果进行汇总。

随机森林相比于神经网络、支持向量机等机器学习的方法，降低了运算量的同时也提高了预测精度，而且该算法对多元共线性不敏感以及对缺失数据和非平衡数据比较稳健，可以很好地适应多达几千个解释变量数据集。因此，本实施例选择了随机森林的方法作为机器学习的方法，以提升肿瘤转移复发预测的效率和准确率。

进一步作为优选的实施方式，所述根据肿瘤患者的差异表达基因数据库采用随机森林的方法进行肿瘤转移复发预测模型构建，得到肿瘤转移复发预测模型这一步骤，具体包括：

如图2所示，本具体实施例提供了一种基于TCGA数据库的肿瘤转移复发预测方法，其具体包括以下步骤：

A、从TCGA数据库采集肿瘤患者的肿瘤组织转录组测序数据；

B、进行基因差异表达分析；

C、建立差异表达基因数据库；

D、机器学习并构建肿瘤转移复发预测模型。

所述步骤A具体包括：采用R软件使用TCGA·biolinks包，通过query()、query_clin()、GDCdownload()、GDCprepare()的等函数从TCGA数据库中获取临床肿瘤患者转录组数据；进一步将临床数据中TNM分期为M1期，或“new_neoplasm_event_type”为“distantmetastasis”的barcode号从全肿瘤患者临床数据抽调出，作为肿瘤转移组别数据集，其余作为普通肿瘤组别数据集。

所述步骤B具体包括：根据肿瘤转移组别数据集和普通肿瘤组别数据集使用dataPrep()、dataNorm()、dataFilt()函数进行差异分析，同时对每个基因的表达量进行p-value的计算并对计算的p-value用FDR错误控制法进行多重假设检验校正，最终选出差异表达量大于2倍，且p值＜0.01的差异基因，其具体过程为：

2)用FDR错误控制法对p-value作多重假设检验校正

FDR错误控制法是Benjamin于1995年提出一种方法，通过控制FDR(FalseDiscovery Rate)来决定P值的域值。假设你挑选了R个差异表达的基因，其中有S个是真正有差异表达的，另外有V个其实是没有差异表达的，是假阳性的。实践中希望错误比例Q＝V/R平均而言不能超过某个预先设定的值(比如0.05)，在统计学上，这也就等价于控制FDR不能超过5％，对所有候选基因的p值进行从小到大排序，则若想控制FDR不能超过q，则只需找到最大的正整数i，使得p(i)≤(i×q)/m；然后，挑选对应p(1),p(2),...,p(i)的基因做为差异表达基因，这样就能从统计学上保证FDR不超过q。因此，FDR的计算公式如下：

q-value(i)＝p(i)×length(p)/rank(p)

所述步骤C具体为：将步骤B所得的肿瘤患者差异基因表达量数据运用MySQL建立数据库。

所述步骤D具体为：对数据库中差异基因运用机器学习算法模型，基于十折交叉验证的方法，将每个肿瘤样本中转移病人数的90％作为训练集，10％作为测试集。例如，取肾上腺癌患者数据集，利用随机森林分类算法进行肿瘤预测模型的构建，如图3所示，得出满足测试要求的预测结果，其预测准确率为93％。

其中，随机森林分类算法对应的Python语言核心代码如下：

import pandas as pd

import sklearn.ensemble import RandomForestClassifier

dataset_train＝pd.read_csv(‘train.csv’)

dataset_test＝pd.read_csv(‘validate.csv’)

x_train＝dataset_train[x_columns]

x_test＝dataset_test[x_columns]

y_train＝dataset_train[label]

y_test＝dataset_test[label]

clf＝RandomForestClassifier(random_state＝83)

clf.fit(X_train,y_train)

随机森林分类算法对应的结果表如下表1、表2和表3所示：

表1随机森林预测模型的混淆矩阵

表1中，4代表真实是已转移且预测为已转移的数目，22代表真实是未转移且预测为未转移的数目，其它2个1以此类推。

表2随机森林预测模型的混效率矩阵

表2中，80.00％代表真实是已转移且预测为已转移的比例，95.65％代表真实是未转移且预测为未转移的比例，其它2个比例以此类推。

表3随机森林预测模型的分类结果评价

而随机森林分类算法对应的受试者工作特征曲线(即ROC曲线)如图4所示，其中ROC曲线下面积＝0.9478。

本具体实施例的方案用机器学习的随机森林算法，通过分析肿瘤患者癌组织的转录组测序结果，能提示肿瘤患者预后是否有转移或复发倾向，可应用于医院检验系统的电子设备，如电脑、分析仪器等，能对肿瘤患者的转移预后做预测，为临床提供参考及指导。

与图1的方法相对应，本发明实施例还提供了一种基于TCGA数据库的肿瘤转移复发预测系统，包括：

上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

进一步作为优选的实施方式，所述模型构建模块具体包括：

进一步作为优选的实施方式，所述预测模型构建单元具体包括：

至少一个存储器，用于存储程序；

至少一个处理器，用于执行所述程序以实现本发明所述的基于TCGA数据库的肿瘤转移复发预测方法。上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

综上所述，本发明基于TCGA数据库的肿瘤转移复发预测方法及系统，直接通过对肿瘤患者的活检肿瘤组织转录组测序结果进行分析，预测患者肿瘤转移复发的可能性，通过机器学习方法，在患者术后取其切除的肿瘤组织做辅助分析，提前判定肿瘤患者复发转移的倾向性，对临床治疗有很大的指导意义。在精准医疗时代和转录组测序日趋普遍及完善的今天，通过该预测方案能提前判断患者转移复发的倾向性，不仅效率高，特异性良好，且可全自动化管理，直接给肿瘤患者一个明确的诊断预后参考，有很好的应用前景。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.基于TCGA数据库的肿瘤转移复发预测方法，其特征在于：包括以下步骤：

从TCGA数据库获取肿瘤患者的肿瘤组织转录组测序数据；

2.根据权利要求1所述的基于TCGA数据库的肿瘤转移复发预测方法，其特征在于：所述从TCGA数据库获取肿瘤患者的肿瘤组织转录组测序数据这一步骤，具体包括：

从TCGA数据库中获取临床肿瘤患者的转录组数据；

3.根据权利要求2所述的基于TCGA数据库的肿瘤转移复发预测方法，其特征在于：所述根据获取的肿瘤组织转录组测序数据进行基因差异表达分析这一步骤，具体为：

4.根据权利要求2所述的基于TCGA数据库的肿瘤转移复发预测方法，其特征在于：所述从临床肿瘤患者的转录组数据中筛选出肿瘤转移组别数据集和肿瘤未转移组别数据集这一步骤，具体为：

5.根据权利要求1所述的基于TCGA数据库的肿瘤转移复发预测方法，其特征在于：所述根据基因差异表达分析的结果采用机器学习的方法进行肿瘤转移复发预测模型构建，得到肿瘤转移复发预测模型这一步骤，具体包括：

6.根据权利要求5所述的基于TCGA数据库的肿瘤转移复发预测方法，其特征在于：所述根据肿瘤患者的差异表达基因数据库采用随机森林的方法进行肿瘤转移复发预测模型构建，得到肿瘤转移复发预测模型这一步骤，具体包括：

7.基于TCGA数据库的肿瘤转移复发预测系统，其特征在于：包括：

8.根据权利要求7所述的基于TCGA数据库的肿瘤转移复发预测系统，其特征在于：所述模型构建模块具体包括：

9.根据权利要求8所述的基于TCGA数据库的肿瘤转移复发预测系统，其特征在于：所述预测模型构建单元具体包括：

10.基于TCGA数据库的肿瘤转移复发预测系统，其特征在于：包括：

至少一个存储器，用于存储程序；

至少一个处理器，用于执行所述程序以实现如权利要求1-6任一项所述的基于TCGA数据库的肿瘤转移复发预测方法。