CN109801680A - 基于tcga数据库的肿瘤转移复发预测方法及系统 - Google Patents

基于tcga数据库的肿瘤转移复发预测方法及系统 Download PDF

Info

Publication number
CN109801680A
CN109801680A CN201811466604.XA CN201811466604A CN109801680A CN 109801680 A CN109801680 A CN 109801680A CN 201811466604 A CN201811466604 A CN 201811466604A CN 109801680 A CN109801680 A CN 109801680A
Authority
CN
China
Prior art keywords
tumour metastasis
gene
prediction model
recurrence prediction
recurrence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811466604.XA
Other languages
English (en)
Other versions
CN109801680B (zh
Inventor
陈博南
黄浩楠
柯君子
周史焜
梁绮琪
郭傲
杜展浩
陈嘉颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou University Of Chinese Medicine (guangzhou Institute Of Traditional Chinese Medicine)
Original Assignee
Guangzhou University Of Chinese Medicine (guangzhou Institute Of Traditional Chinese Medicine)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou University Of Chinese Medicine (guangzhou Institute Of Traditional Chinese Medicine) filed Critical Guangzhou University Of Chinese Medicine (guangzhou Institute Of Traditional Chinese Medicine)
Priority to CN201811466604.XA priority Critical patent/CN109801680B/zh
Publication of CN109801680A publication Critical patent/CN109801680A/zh
Application granted granted Critical
Publication of CN109801680B publication Critical patent/CN109801680B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于TCGA数据库的肿瘤转移复发预测方法及系统,方法包括:从TCGA数据库获取肿瘤患者的肿瘤组织转录组测序数据;根据获取的肿瘤组织转录组测序数据进行基因差异表达分析;根据基因差异表达分析的结果采用机器学习的方法进行肿瘤转移复发预测模型构建,得到肿瘤转移复发预测模型;根据肿瘤转移复发预测模型对待预测的对象进行肿瘤转移复发预测。本发明利用机器学习的方法配合TCGA数据库实现了肿瘤转移复发预测的全自动化管理,能直接为肿瘤患者提供明确的诊断预后参考和指导,更加及时、准确和高效。本发明可广泛应用于医学计算机应用领域。

Description

基于TCGA数据库的肿瘤转移复发预测方法及系统
技术领域
本发明涉及医学计算机应用领域,尤其是一种基于TCGA数据库的肿瘤转移复发预测方法及系统。
背景技术
目前,肿瘤转移仍是一个世界难题,例如在大肠癌中,约50%的患者在接受根治性切除术(RO)后5年内仍死于转移性疾病。即使淋巴结为阴性(NO)的患者,复发率也达到10%。肺癌的预后更差,有60%RO和40%NO患者死于转移性疾病。肿瘤切除术后患者只能通过不定期的复查,来判断肿瘤是否复发或出现转移灶。
目前临床上诊断肿瘤患者是否转移复发是通过高分辨率成像技术或肿瘤早期诊断的标记物蛋白检测来实现的。然而,此两种方法均有其局限性:通过高分辨率成像技术通常难以发现肿瘤细胞的早期转移,阻止了有效的早期干预,导致肿瘤常在晚期才能诊断和治疗,错过了最佳治疗时机;而肿瘤早期诊断的标记物蛋白检测,其标记物蛋白丰度较低,大大降低了检测的准确率,且从血液蛋白质的高浓度复杂混合物中分离出非常罕有的候选肿瘤标记物,也是目前面临的一个巨大的挑战。
发明内容
为解决上述技术问题,本发明的目的在于:提供一种及时、准确和高效的基于TCGA数据库的肿瘤转移复发预测方法及系统。
本发明一方面所采取的技术方案是:
基于TCGA数据库的肿瘤转移复发预测方法,包括以下步骤:
从TCGA数据库获取肿瘤患者的肿瘤组织转录组测序数据;
根据获取的肿瘤组织转录组测序数据进行基因差异表达分析;
根据基因差异表达分析的结果采用机器学习的方法进行肿瘤转移复发预测模型构建,得到肿瘤转移复发预测模型;
根据肿瘤转移复发预测模型对待预测的对象进行肿瘤转移复发预测。
进一步,所述从TCGA数据库获取肿瘤患者的肿瘤组织转录组测序数据这一步骤,具体包括:
从TCGA数据库中获取临床肿瘤患者的转录组数据;
从临床肿瘤患者的转录组数据中筛选出肿瘤转移组别数据集和肿瘤未转移组别数据集。
进一步,所述根据获取的肿瘤组织转录组测序数据进行基因差异表达分析这一步骤,具体为:
根据肿瘤转移组别数据集和肿瘤未转移组别数据集进行差异分析,并采用错误发现率控制法对每个基因的表达量进行p值的多重假设检验校正,选出p值<0.01且满足2倍以上差异表达的基因作为差异基因。
进一步,所述从临床肿瘤患者的转录组数据中筛选出肿瘤转移组别数据集和肿瘤未转移组别数据集这一步骤,具体为:
将临床肿瘤患者的转录组数据中TNM分期为M1期或者新肿瘤事件类型为远处转移的barcode号抽调出来作为肿瘤转移组别数据集,其余数据作为肿瘤未转移组别数据集。
进一步,所述根据基因差异表达分析的结果采用机器学习的方法进行肿瘤转移复发预测模型构建,得到肿瘤转移复发预测模型这一步骤,具体包括:
根据基因差异表达分析的结果运用MySQL建立肿瘤患者的差异表达基因数据库;
根据肿瘤患者的差异表达基因数据库采用随机森林的方法进行肿瘤转移复发预测模型构建,得到肿瘤转移复发预测模型。
进一步,所述根据肿瘤患者的差异表达基因数据库采用随机森林的方法进行肿瘤转移复发预测模型构建,得到肿瘤转移复发预测模型这一步骤,具体包括:
将肿瘤患者的差异表达基因数据库中差异基因的90%作为训练集,差异基因的10%作为测试集;
采用随机森林分类器对训练集进行训练,从而训练出初步的肿瘤转移复发预测模型;
采用测试集对肿瘤转移复发预测模型进行测试,并根据测试的结果对初步的肿瘤转移复发预测模型进行参数调整,得到最终的肿瘤转移复发预测模型。
本发明另一方面所采取的技术方案是:
基于TCGA数据库的肿瘤转移复发预测系统,包括:
获取模块,用于从TCGA数据库获取肿瘤患者的肿瘤组织转录组测序数据;
基因差异表达分析模块,用于根据获取的肿瘤组织转录组测序数据进行基因差异表达分析;
模型构建模块,用于根据基因差异表达分析的结果采用机器学习的方法进行肿瘤转移复发预测模型构建,得到肿瘤转移复发预测模型;
预测模块,用于根据肿瘤转移复发预测模型对待预测的对象进行肿瘤转移复发预测。
进一步,所述模型构建模块具体包括:
数据库建立单元,用于根据基因差异表达分析的结果运用MySQL建立肿瘤患者的差异表达基因数据库;
预测模型构建单元,用于根据肿瘤患者的差异表达基因数据库采用随机森林的方法进行肿瘤转移复发预测模型构建,得到肿瘤转移复发预测模型。
进一步,所述预测模型构建单元具体包括:
数据集划分子单元,用于将肿瘤患者的差异表达基因数据库中差异基因的90%作为训练集,差异基因的10%作为测试集;
训练子单元,用于采用随机森林分类器对训练集进行训练,从而训练出初步的肿瘤转移复发预测模型;
测试子单元,用于采用测试集对肿瘤转移复发预测模型进行测试,并根据测试的结果对初步的肿瘤转移复发预测模型进行参数调整,得到最终的肿瘤转移复发预测模型。
本发明另一方面所采取的技术方案是:
基于TCGA数据库的肿瘤转移复发预测系统,包括:
至少一个存储器,用于存储程序;
至少一个处理器,用于执行所述程序以实现本发明所述的基于TCGA数据库的肿瘤转移复发预测方法。
本发明的有益效果是:本发明基于TCGA数据库的肿瘤转移复发预测方法及系统,对TCGA数据库中癌组织的转录组测序数据进行基因差异表达分析,然后结合基因差异表达分析的结果采用机器学习的方法得到肿瘤转移复发预测模型,最后通过该肿瘤转移复发预测模型提前预测出肿瘤患者转移复发的倾向性,利用机器学习的方法配合TCGA数据库实现了肿瘤转移复发预测的全自动化管理,能直接为肿瘤患者提供明确的诊断预后参考和指导,更加及时、准确和高效。
附图说明
图1为本发明实施例提供的基于TCGA数据库的肿瘤转移复发预测方法的流程图;
图2为本发明具体实施例的肿瘤转移复发预测方法的实现流程图;
图3为本发明具体实施例采用随机森林分类器构建肿瘤转移复发预测模型时所采用的框架图;
图4为本发明具体实施例采用随机森林分类器构建肿瘤转移复发预测模型得到的受试者工作特征曲线图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
参照图1,本发明实施例提供了一种基于TCGA数据库的肿瘤转移复发预测方法,包括以下步骤:
从TCGA数据库获取肿瘤患者的肿瘤组织转录组测序数据;
根据获取的肿瘤组织转录组测序数据进行基因差异表达分析;
根据基因差异表达分析的结果采用机器学习的方法进行肿瘤转移复发预测模型构建,得到肿瘤转移复发预测模型;
根据肿瘤转移复发预测模型对待预测的对象进行肿瘤转移复发预测。
具体地,TCGA的全称为The Cancer Genome Atlas,是美国国家癌症研究所(NCI)和国家人类基因组研究所(NHGRI)已生成的33种癌症的基因组的关键变化全方位,多三维地图之间的合作的TCGA数据集,其有助于癌症研究界更有效地预防、诊断和治疗癌症。
基因差异表达分析是为了识别两个样本(本发明的两个样本分别是肿瘤转移样本和肿瘤未转移样本)下表达差异显著的基因(即一个基因在两个样本中的表达水平,在排除各种偏差后,其差异具有统计学意义),以从转录组测序数据中筛选出具有差异表达的基因。基因差异表达分析的方法可选用倍数法、T检验、F检验及SAM等方法。
机器学习的方法包括随机森林算法、逻辑回归算法、决策树算法等,其可以通过R语言或Python语言代码来运行。
待预测的对象是指实际的肿瘤患者。
由上述内容可见,本实施例利用机器学习的方法配合TCGA数据库实现了肿瘤转移复发预测的全自动化管理,运用人工智能机器学习优化算法,能较为准确地预测出肿瘤患者术后复发或转移的可能性,更加高效、即时地为临床预后做出指导和参考,对临床上指导肿瘤患者术后诊疗有重要意义。
进一步作为优选的实施方式,所述从TCGA数据库获取肿瘤患者的肿瘤组织转录组测序数据这一步骤,具体包括:
从TCGA数据库中获取临床肿瘤患者的转录组数据;
从临床肿瘤患者的转录组数据中筛选出肿瘤转移组别数据集和肿瘤未转移组别数据集。
具体地,可采用R软件使用TCGA·biolinks包,通过query()、query_clin()、GDCdownload()、GDCprepare()等函数从TCGA数据库中获取临床肿瘤患者转录组数据。
而临床肿瘤患者转录组数据获取后,可进一步将临床数据中TNM分期为M1期,或“new_neoplasm_event_type(新肿瘤事件类型)”为“distant metastasis(远处转移)”的barcode号从全肿瘤患者临床数据抽调出作为肿瘤转移组别数据集,其余作为普通肿瘤组别数据集。
进一步作为优选的实施方式,所述根据获取的肿瘤组织转录组测序数据进行基因差异表达分析这一步骤,具体为:
根据肿瘤转移组别数据集和肿瘤未转移组别数据集进行差异分析,并采用错误发现率控制法对每个基因的表达量进行p值的多重假设检验校正,选出p值<0.01且满足2倍以上差异表达的基因作为差异基因。
具体地,根据倍数法和先验知识,满足2倍以上差异表达的基因可被认为是具有显著表达差异的基因;p值<0.01是为了满足统计学的显著性差异要求。
根据肿瘤转移组别数据集和普通肿瘤组别数据集可使用dataPrep()、dataNorm()、dataFilt()函数进行差异分析,并对每个基因的表达量进行p值计算后对计算的p值作多重假设检验校正,其实现原理如下:
1)假设观测到基因A对应的reads(读出序列)数为x,已知在一个大文库中,每个基因的表达量只占所有基因表达量的一小部分,在这种情况下,p(x)的分布服从Pearson分布。已知样本一中唯一比对到基因组的总reads数为N1,样本二中唯一比对到基因组的总reads数为N2,样本一中唯一比对到基因A的总reads数为x,样本二中唯一比对到基因A的总reads数为y,则基因A在这两样本中表达量相等的概率可由以下公式计算出来:
2)用FDR(即错误发现率)错误控制法对p-value(即p值)作多重假设检验校正
因为转录组分析并不是针对一个或几个转录本进行分析,转录组分析的是一个样品中所转录表达的所有转录本。所以,一个样品当中有多少转录本,就需要对多少转录本进行假设检验。这会导致一个很严重的问题,在单次假设检验中较低的假阳性比例会累积到一个非常惊人的程度。
例如:现在有这样一个项目:包含两个样品,共得到10000条转录本的表达量数据,其中有100条转录本的表达量在两个样品中是有差异的,针对单个基因的差异表达分析有1%的假阳性。
由于存在1%假阳性的结果,在我们分析完这10000个基因后,我们会得到100个假阳性导致的错误结果,加上100条真实存在的结果,共计200个结果。在这个例子中,一次分析得到的200个差异表达基因中,有50%都是假阳性导致的错误结果,这显然是不可接受的。为解决这个问题,FDR错误控制法被提出。
FDR错误控制法是Benjamin于1995年提出的一种方法,通过控制FDR(FalseDiscovery Rate)来决定p值的域值。假设挑选了R个差异表达的基因,其中有S个是真正有差异表达的,另外有V个其实是没有差异表达的,是假阳性的。实践中希望错误比例Q=V/R平均而言不能超过某个预先设定的值(比如0.05),在统计学上,这也就等价于控制FDR不能超过5%,具体做法是:先对所有候选基因的p值进行从小到大排序,若想控制FDR不能超过阈值q,则只需找到最大的正整数i,使得p(i)≤(i×q)/m,m为p值的总数;然后,挑选对应p(1),p(2),...,p(i)的基因作为差异表达基因,这样就能从统计学上保证FDR不超过q。因此,FDR的计算公式如下:
q-value(i)=p(i)×length(p)/rank(p)
其中,i为p-value的序号,q-value为p-value的FDR阈值,length(p)为候选基因的p值总个数,rank(p)为候选基因的p值的倒数位置数。
进一步作为优选的实施方式,所述从临床肿瘤患者的转录组数据中筛选出肿瘤转移组别数据集和肿瘤未转移组别数据集这一步骤,具体为:
将临床肿瘤患者的转录组数据中TNM分期为M1期或者新肿瘤事件类型为远处转移的barcode号抽调出来作为肿瘤转移组别数据集,其余数据作为肿瘤未转移组别数据集。
进一步作为优选的实施方式,所述根据基因差异表达分析的结果采用机器学习的方法进行肿瘤转移复发预测模型构建,得到肿瘤转移复发预测模型这一步骤,具体包括:
根据基因差异表达分析的结果运用MySQL建立肿瘤患者的差异表达基因数据库;
根据肿瘤患者的差异表达基因数据库采用随机森林的方法进行肿瘤转移复发预测模型构建,得到肿瘤转移复发预测模型。
具体地,随机森林的方法实质是基于决策树的分类器集成算法,其中每一棵树都依赖于一个随机向量,随机森林的所有向量都是独立同分布的。随机森林就是对数据集的列变量和行观测进行随机化,生成多个分类数,最终将分类树结果进行汇总。
随机森林相比于神经网络、支持向量机等机器学习的方法,降低了运算量的同时也提高了预测精度,而且该算法对多元共线性不敏感以及对缺失数据和非平衡数据比较稳健,可以很好地适应多达几千个解释变量数据集。因此,本实施例选择了随机森林的方法作为机器学习的方法,以提升肿瘤转移复发预测的效率和准确率。
进一步作为优选的实施方式,所述根据肿瘤患者的差异表达基因数据库采用随机森林的方法进行肿瘤转移复发预测模型构建,得到肿瘤转移复发预测模型这一步骤,具体包括:
将肿瘤患者的差异表达基因数据库中差异基因的90%作为训练集,差异基因的10%作为测试集;
采用随机森林分类器对训练集进行训练,从而训练出初步的肿瘤转移复发预测模型;
采用测试集对肿瘤转移复发预测模型进行测试,并根据测试的结果对初步的肿瘤转移复发预测模型进行参数调整,得到最终的肿瘤转移复发预测模型。
如图2所示,本具体实施例提供了一种基于TCGA数据库的肿瘤转移复发预测方法,其具体包括以下步骤:
A、从TCGA数据库采集肿瘤患者的肿瘤组织转录组测序数据;
B、进行基因差异表达分析;
C、建立差异表达基因数据库;
D、机器学习并构建肿瘤转移复发预测模型。
所述步骤A具体包括:采用R软件使用TCGA·biolinks包,通过query()、query_clin()、GDCdownload()、GDCprepare()的等函数从TCGA数据库中获取临床肿瘤患者转录组数据;进一步将临床数据中TNM分期为M1期,或“new_neoplasm_event_type”为“distantmetastasis”的barcode号从全肿瘤患者临床数据抽调出,作为肿瘤转移组别数据集,其余作为普通肿瘤组别数据集。
所述步骤B具体包括:根据肿瘤转移组别数据集和普通肿瘤组别数据集使用dataPrep()、dataNorm()、dataFilt()函数进行差异分析,同时对每个基因的表达量进行p-value的计算并对计算的p-value用FDR错误控制法进行多重假设检验校正,最终选出差异表达量大于2倍,且p值<0.01的差异基因,其具体过程为:
1)假设观测到基因A对应的reads(读出序列)数为x,已知在一个大文库中,每个基因的表达量只占所有基因表达量的一小部分,在这种情况下,p(x)的分布服从Pearson分布。已知样本一中唯一比对到基因组的总reads数为N1,样本二中唯一比对到基因组的总reads数为N2,样本一中唯一比对到基因A的总reads数为x,样本二中唯一比对到基因A的总reads数为y,则基因A在这两样本中表达量相等的概率可由以下公式计算出来:
2)用FDR错误控制法对p-value作多重假设检验校正
FDR错误控制法是Benjamin于1995年提出一种方法,通过控制FDR(FalseDiscovery Rate)来决定P值的域值。假设你挑选了R个差异表达的基因,其中有S个是真正有差异表达的,另外有V个其实是没有差异表达的,是假阳性的。实践中希望错误比例Q=V/R平均而言不能超过某个预先设定的值(比如0.05),在统计学上,这也就等价于控制FDR不能超过5%,对所有候选基因的p值进行从小到大排序,则若想控制FDR不能超过q,则只需找到最大的正整数i,使得p(i)≤(i×q)/m;然后,挑选对应p(1),p(2),...,p(i)的基因做为差异表达基因,这样就能从统计学上保证FDR不超过q。因此,FDR的计算公式如下:
q-value(i)=p(i)×length(p)/rank(p)
所述步骤C具体为:将步骤B所得的肿瘤患者差异基因表达量数据运用MySQL建立数据库。
所述步骤D具体为:对数据库中差异基因运用机器学习算法模型,基于十折交叉验证的方法,将每个肿瘤样本中转移病人数的90%作为训练集,10%作为测试集。例如,取肾上腺癌患者数据集,利用随机森林分类算法进行肿瘤预测模型的构建,如图3所示,得出满足测试要求的预测结果,其预测准确率为93%。
其中,随机森林分类算法对应的Python语言核心代码如下:
import pandas as pd
import sklearn.ensemble import RandomForestClassifier
dataset_train=pd.read_csv(‘train.csv’)
dataset_test=pd.read_csv(‘validate.csv’)
x_train=dataset_train[x_columns]
x_test=dataset_test[x_columns]
y_train=dataset_train[label]
y_test=dataset_test[label]
clf=RandomForestClassifier(random_state=83)
clf.fit(X_train,y_train)
随机森林分类算法对应的结果表如下表1、表2和表3所示:
表1随机森林预测模型的混淆矩阵
表1中,4代表真实是已转移且预测为已转移的数目,22代表真实是未转移且预测为未转移的数目,其它2个1以此类推。
表2随机森林预测模型的混效率矩阵
表2中,80.00%代表真实是已转移且预测为已转移的比例,95.65%代表真实是未转移且预测为未转移的比例,其它2个比例以此类推。
表3随机森林预测模型的分类结果评价
而随机森林分类算法对应的受试者工作特征曲线(即ROC曲线)如图4所示,其中ROC曲线下面积=0.9478。
本具体实施例的方案用机器学习的随机森林算法,通过分析肿瘤患者癌组织的转录组测序结果,能提示肿瘤患者预后是否有转移或复发倾向,可应用于医院检验系统的电子设备,如电脑、分析仪器等,能对肿瘤患者的转移预后做预测,为临床提供参考及指导。
与图1的方法相对应,本发明实施例还提供了一种基于TCGA数据库的肿瘤转移复发预测系统,包括:
获取模块,用于从TCGA数据库获取肿瘤患者的肿瘤组织转录组测序数据;
基因差异表达分析模块,用于根据获取的肿瘤组织转录组测序数据进行基因差异表达分析;
模型构建模块,用于根据基因差异表达分析的结果采用机器学习的方法进行肿瘤转移复发预测模型构建,得到肿瘤转移复发预测模型;
预测模块,用于根据肿瘤转移复发预测模型对待预测的对象进行肿瘤转移复发预测。
上述方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
进一步作为优选的实施方式,所述模型构建模块具体包括:
数据库建立单元,用于根据基因差异表达分析的结果运用MySQL建立肿瘤患者的差异表达基因数据库;
预测模型构建单元,用于根据肿瘤患者的差异表达基因数据库采用随机森林的方法进行肿瘤转移复发预测模型构建,得到肿瘤转移复发预测模型。
进一步作为优选的实施方式,所述预测模型构建单元具体包括:
数据集划分子单元,用于将肿瘤患者的差异表达基因数据库中差异基因的90%作为训练集,差异基因的10%作为测试集;
训练子单元,用于采用随机森林分类器对训练集进行训练,从而训练出初步的肿瘤转移复发预测模型;
测试子单元,用于采用测试集对肿瘤转移复发预测模型进行测试,并根据测试的结果对初步的肿瘤转移复发预测模型进行参数调整,得到最终的肿瘤转移复发预测模型。
与图1的方法相对应,本发明实施例还提供了一种基于TCGA数据库的肿瘤转移复发预测系统,包括:
至少一个存储器,用于存储程序;
至少一个处理器,用于执行所述程序以实现本发明所述的基于TCGA数据库的肿瘤转移复发预测方法。上述方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
综上所述,本发明基于TCGA数据库的肿瘤转移复发预测方法及系统,直接通过对肿瘤患者的活检肿瘤组织转录组测序结果进行分析,预测患者肿瘤转移复发的可能性,通过机器学习方法,在患者术后取其切除的肿瘤组织做辅助分析,提前判定肿瘤患者复发转移的倾向性,对临床治疗有很大的指导意义。在精准医疗时代和转录组测序日趋普遍及完善的今天,通过该预测方案能提前判断患者转移复发的倾向性,不仅效率高,特异性良好,且可全自动化管理,直接给肿瘤患者一个明确的诊断预后参考,有很好的应用前景。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.基于TCGA数据库的肿瘤转移复发预测方法,其特征在于:包括以下步骤:
从TCGA数据库获取肿瘤患者的肿瘤组织转录组测序数据;
根据获取的肿瘤组织转录组测序数据进行基因差异表达分析;
根据基因差异表达分析的结果采用机器学习的方法进行肿瘤转移复发预测模型构建,得到肿瘤转移复发预测模型;
根据肿瘤转移复发预测模型对待预测的对象进行肿瘤转移复发预测。
2.根据权利要求1所述的基于TCGA数据库的肿瘤转移复发预测方法,其特征在于:所述从TCGA数据库获取肿瘤患者的肿瘤组织转录组测序数据这一步骤,具体包括:
从TCGA数据库中获取临床肿瘤患者的转录组数据;
从临床肿瘤患者的转录组数据中筛选出肿瘤转移组别数据集和肿瘤未转移组别数据集。
3.根据权利要求2所述的基于TCGA数据库的肿瘤转移复发预测方法,其特征在于:所述根据获取的肿瘤组织转录组测序数据进行基因差异表达分析这一步骤,具体为:
根据肿瘤转移组别数据集和肿瘤未转移组别数据集进行差异分析,并采用错误发现率控制法对每个基因的表达量进行p值的多重假设检验校正,选出p值<0.01且满足2倍以上差异表达的基因作为差异基因。
4.根据权利要求2所述的基于TCGA数据库的肿瘤转移复发预测方法,其特征在于:所述从临床肿瘤患者的转录组数据中筛选出肿瘤转移组别数据集和肿瘤未转移组别数据集这一步骤,具体为:
将临床肿瘤患者的转录组数据中TNM分期为M1期或者新肿瘤事件类型为远处转移的barcode号抽调出来作为肿瘤转移组别数据集,其余数据作为肿瘤未转移组别数据集。
5.根据权利要求1所述的基于TCGA数据库的肿瘤转移复发预测方法,其特征在于:所述根据基因差异表达分析的结果采用机器学习的方法进行肿瘤转移复发预测模型构建,得到肿瘤转移复发预测模型这一步骤,具体包括:
根据基因差异表达分析的结果运用MySQL建立肿瘤患者的差异表达基因数据库;
根据肿瘤患者的差异表达基因数据库采用随机森林的方法进行肿瘤转移复发预测模型构建,得到肿瘤转移复发预测模型。
6.根据权利要求5所述的基于TCGA数据库的肿瘤转移复发预测方法,其特征在于:所述根据肿瘤患者的差异表达基因数据库采用随机森林的方法进行肿瘤转移复发预测模型构建,得到肿瘤转移复发预测模型这一步骤,具体包括:
将肿瘤患者的差异表达基因数据库中差异基因的90%作为训练集,差异基因的10%作为测试集;
采用随机森林分类器对训练集进行训练,从而训练出初步的肿瘤转移复发预测模型;
采用测试集对肿瘤转移复发预测模型进行测试,并根据测试的结果对初步的肿瘤转移复发预测模型进行参数调整,得到最终的肿瘤转移复发预测模型。
7.基于TCGA数据库的肿瘤转移复发预测系统,其特征在于:包括:
获取模块,用于从TCGA数据库获取肿瘤患者的肿瘤组织转录组测序数据;
基因差异表达分析模块,用于根据获取的肿瘤组织转录组测序数据进行基因差异表达分析;
模型构建模块,用于根据基因差异表达分析的结果采用机器学习的方法进行肿瘤转移复发预测模型构建,得到肿瘤转移复发预测模型;
预测模块,用于根据肿瘤转移复发预测模型对待预测的对象进行肿瘤转移复发预测。
8.根据权利要求7所述的基于TCGA数据库的肿瘤转移复发预测系统,其特征在于:所述模型构建模块具体包括:
数据库建立单元,用于根据基因差异表达分析的结果运用MySQL建立肿瘤患者的差异表达基因数据库;
预测模型构建单元,用于根据肿瘤患者的差异表达基因数据库采用随机森林的方法进行肿瘤转移复发预测模型构建,得到肿瘤转移复发预测模型。
9.根据权利要求8所述的基于TCGA数据库的肿瘤转移复发预测系统,其特征在于:所述预测模型构建单元具体包括:
数据集划分子单元,用于将肿瘤患者的差异表达基因数据库中差异基因的90%作为训练集,差异基因的10%作为测试集;
训练子单元,用于采用随机森林分类器对训练集进行训练,从而训练出初步的肿瘤转移复发预测模型;
测试子单元,用于采用测试集对肿瘤转移复发预测模型进行测试,并根据测试的结果对初步的肿瘤转移复发预测模型进行参数调整,得到最终的肿瘤转移复发预测模型。
10.基于TCGA数据库的肿瘤转移复发预测系统,其特征在于:包括:
至少一个存储器,用于存储程序;
至少一个处理器,用于执行所述程序以实现如权利要求1-6任一项所述的基于TCGA数据库的肿瘤转移复发预测方法。
CN201811466604.XA 2018-12-03 2018-12-03 基于tcga数据库的肿瘤转移复发预测方法及系统 Active CN109801680B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811466604.XA CN109801680B (zh) 2018-12-03 2018-12-03 基于tcga数据库的肿瘤转移复发预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811466604.XA CN109801680B (zh) 2018-12-03 2018-12-03 基于tcga数据库的肿瘤转移复发预测方法及系统

Publications (2)

Publication Number Publication Date
CN109801680A true CN109801680A (zh) 2019-05-24
CN109801680B CN109801680B (zh) 2023-02-28

Family

ID=66556457

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811466604.XA Active CN109801680B (zh) 2018-12-03 2018-12-03 基于tcga数据库的肿瘤转移复发预测方法及系统

Country Status (1)

Country Link
CN (1) CN109801680B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110379465A (zh) * 2019-07-19 2019-10-25 元码基因科技(北京)股份有限公司 基于rna靶向测序和机器学习的癌症组织溯源方法
CN110634571A (zh) * 2019-09-20 2019-12-31 四川省人民医院 肝移植术后预后预测系统
CN111081317A (zh) * 2019-12-10 2020-04-28 山东大学 一种基于基因谱的乳腺癌淋巴结转移预测方法及预测系统
CN113113150A (zh) * 2021-04-15 2021-07-13 上海交通大学医学院附属第九人民医院 淋巴结转移预测模型构建与训练方法、装置、设备和介质
CN113380368A (zh) * 2021-06-22 2021-09-10 四川省人民医院 一种用于肾移植受者的术后监测装置
WO2023097927A1 (zh) * 2021-11-30 2023-06-08 周建伟 一种识别驱动肿瘤转移关键异质性分子的预测系统
CN116844638A (zh) * 2023-06-08 2023-10-03 上海信诺佰世医学检验有限公司 一种基于高通量转录组测序的儿童急性白血病分型系统及方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004037996A2 (en) * 2002-10-24 2004-05-06 Duke University Evaluation of breast cancer states and outcomes using gene expression profiles
CN101313306A (zh) * 2005-09-22 2008-11-26 中国合成橡胶股份有限公司 用于鉴别鼻咽癌中的预后型亚类的基因表达谱
US20110145176A1 (en) * 2008-05-30 2011-06-16 Perou Charles M Gene expression profiles to predict breast cancer outcomes
CN103060348A (zh) * 2011-10-24 2013-04-24 上海市肿瘤研究所 用于检测原发性肝癌的复发潜力的基因标志物
CN103060312A (zh) * 2011-10-24 2013-04-24 上海市肿瘤研究所 预测原发性肝癌转移潜力的基因标志物
CN104573410A (zh) * 2015-01-20 2015-04-29 合肥工业大学 基于分子子网与随机森林分类器的癌症化疗敏感性预测方法
CN105339797A (zh) * 2013-04-18 2016-02-17 建喾立嗣股份公司 早期乳腺癌的预后预测诊断用基因标记物及其用途
CN105624276A (zh) * 2014-11-25 2016-06-01 北京大学人民医院 子宫内膜样腺癌预后相关基因和蛋白及其应用
CN107574243A (zh) * 2016-06-30 2018-01-12 博奥生物集团有限公司 分子标志物、内参基因及其应用、检测试剂盒以及检测模型的构建方法
CN107760783A (zh) * 2017-11-06 2018-03-06 福建医科大学附属协和医院 基于108个基因的胃癌腹膜转移预测模型及其应用
CN108148909A (zh) * 2016-12-02 2018-06-12 中国医学科学院肿瘤医院 一种结直肠癌预后早期预警的诊断试剂盒及其应用

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004037996A2 (en) * 2002-10-24 2004-05-06 Duke University Evaluation of breast cancer states and outcomes using gene expression profiles
CN101313306A (zh) * 2005-09-22 2008-11-26 中国合成橡胶股份有限公司 用于鉴别鼻咽癌中的预后型亚类的基因表达谱
US20110145176A1 (en) * 2008-05-30 2011-06-16 Perou Charles M Gene expression profiles to predict breast cancer outcomes
CN103060348A (zh) * 2011-10-24 2013-04-24 上海市肿瘤研究所 用于检测原发性肝癌的复发潜力的基因标志物
CN103060312A (zh) * 2011-10-24 2013-04-24 上海市肿瘤研究所 预测原发性肝癌转移潜力的基因标志物
CN105339797A (zh) * 2013-04-18 2016-02-17 建喾立嗣股份公司 早期乳腺癌的预后预测诊断用基因标记物及其用途
CN105624276A (zh) * 2014-11-25 2016-06-01 北京大学人民医院 子宫内膜样腺癌预后相关基因和蛋白及其应用
CN104573410A (zh) * 2015-01-20 2015-04-29 合肥工业大学 基于分子子网与随机森林分类器的癌症化疗敏感性预测方法
CN107574243A (zh) * 2016-06-30 2018-01-12 博奥生物集团有限公司 分子标志物、内参基因及其应用、检测试剂盒以及检测模型的构建方法
CN108148909A (zh) * 2016-12-02 2018-06-12 中国医学科学院肿瘤医院 一种结直肠癌预后早期预警的诊断试剂盒及其应用
CN107760783A (zh) * 2017-11-06 2018-03-06 福建医科大学附属协和医院 基于108个基因的胃癌腹膜转移预测模型及其应用

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
曾子杰: "大肠癌术后淋巴结转移高危因素的预测", 《中国老年学杂志》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110379465A (zh) * 2019-07-19 2019-10-25 元码基因科技(北京)股份有限公司 基于rna靶向测序和机器学习的癌症组织溯源方法
CN110634571A (zh) * 2019-09-20 2019-12-31 四川省人民医院 肝移植术后预后预测系统
CN111081317A (zh) * 2019-12-10 2020-04-28 山东大学 一种基于基因谱的乳腺癌淋巴结转移预测方法及预测系统
CN111081317B (zh) * 2019-12-10 2023-06-02 山东大学 一种基于基因谱的乳腺癌淋巴结转移预测方法及预测系统
CN113113150A (zh) * 2021-04-15 2021-07-13 上海交通大学医学院附属第九人民医院 淋巴结转移预测模型构建与训练方法、装置、设备和介质
CN113380368A (zh) * 2021-06-22 2021-09-10 四川省人民医院 一种用于肾移植受者的术后监测装置
WO2023097927A1 (zh) * 2021-11-30 2023-06-08 周建伟 一种识别驱动肿瘤转移关键异质性分子的预测系统
CN116844638A (zh) * 2023-06-08 2023-10-03 上海信诺佰世医学检验有限公司 一种基于高通量转录组测序的儿童急性白血病分型系统及方法

Also Published As

Publication number Publication date
CN109801680B (zh) 2023-02-28

Similar Documents

Publication Publication Date Title
CN109801680A (zh) 基于tcga数据库的肿瘤转移复发预测方法及系统
JP2004519659A (ja) 生体データから隠れたパターンに基づいて生物学的状態相互間を区別する方法
CN111128385B (zh) 一种用于食管鳞癌的预后预警系统及其应用
CA2304876A1 (en) Methods for classifying samples and ascertaining previously unknown classes
CN110853756B (zh) 基于som神经网络和svm的食管癌风险预测方法
CN113168886A (zh) 用于使用神经网络进行种系和体细胞变体调用的系统和方法
CN111933211B (zh) 癌症精准化疗分型标志物筛选方法、化疗敏感性的分子分型方法和应用
CN113355421B (zh) 肺癌早筛标志物、模型构建方法、检测装置以及计算机可读取介质
CN106460045A (zh) 人类基因组常见拷贝数变异用于癌症易感风险评估
CN115375640A (zh) 一种肿瘤异质性识别方法、装置、电子设备、存储介质
CN115424666A (zh) 一种基于全基因组重亚硫酸盐测序数据筛选泛癌早筛分子标志物的方法及系统
CN111814893A (zh) 基于深度学习的肺部全扫描图像egfr突变预测方法和系统
Ramos et al. An interpretable approach for lung cancer prediction and subtype classification using gene expression
CN113903398A (zh) 肠癌早筛标志物、检测方法、检测装置以及计算机可读取介质
CN115881296B (zh) 一种甲状腺乳头状癌(ptc)风险辅助分层系统
CN112382342A (zh) 一种基于集成特征选择的癌症甲基化数据分类方法
CN114999566B (zh) 基于词向量表征和注意力机制的药物重定位方法及系统
CN110942808A (zh) 一种基于基因大数据的预后预测方法及预测系统
CN114974432A (zh) 一种生物标志物的筛选方法及其相关应用
Sobhan et al. Explainable machine learning to identify patient-specific biomarkers for lung cancer
CN110600080B (zh) 一种基于多维度分析框架的功能核酸全面识别方法及其应用
CN107292128A (zh) 一种配对互作基因检测方法及预测模型
Cai et al. Application and research progress of machine learning in Bioinformatics
Gómez-López et al. Towards the Identification of Multiclass Lung Cancer-Related Genes: An Evolutionary and Intelligent Procedure
CN115792247B (zh) 蛋白组合在制备甲状腺乳头状癌风险辅助分层系统中的应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant