CN112037863A - 一种早期nsclc预后预测系统 - Google Patents

一种早期nsclc预后预测系统 Download PDF

Info

Publication number
CN112037863A
CN112037863A CN202010873485.0A CN202010873485A CN112037863A CN 112037863 A CN112037863 A CN 112037863A CN 202010873485 A CN202010873485 A CN 202010873485A CN 112037863 A CN112037863 A CN 112037863A
Authority
CN
China
Prior art keywords
module
data
prognosis
prediction
methylation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010873485.0A
Other languages
English (en)
Other versions
CN112037863B (zh
Inventor
张汝阳
魏永越
陈�峰
陈超
沈思鹏
赵杨
林丽娟
董学思
陈家进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Medical University
Original Assignee
Nanjing Medical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Medical University filed Critical Nanjing Medical University
Priority to CN202010873485.0A priority Critical patent/CN112037863B/zh
Publication of CN112037863A publication Critical patent/CN112037863A/zh
Application granted granted Critical
Publication of CN112037863B publication Critical patent/CN112037863B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Genetics & Genomics (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Primary Health Care (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种早期NSCLC预后预测系统,包括主效应识别模块、交互作用识别模块、生存时间预测模块和高维人群甄别模块,通过建立样本数据库以及分子生物标志物——甲基化和基因表达,从跨组学角度提升了模型预测精度,且区别于传统生物标志物,稳定、微创,大大提高预后预测的敏感性和特异性,并将主效应、GxE、GxG交互作用整合,构建预测精度较高、有严格多阶段独立人群验证的早期NSCLC生存预测模型,解决现有模型中预测效果不佳的不足,并结合高危人群甄别模块,甄别出不同风险的人群,科学准确地评估疾病预后,帮助临床医生临床决策或指导辅助治疗,早期干预,早期获益。

Description

一种早期NSCLC预后预测系统
技术领域
本发明涉及基因工程和肿瘤医学技术领域,具体为一种早期NSCLC预后预测系统。
背景技术
肺癌位居全球癌症死因的首位,一个准确的预后预测模型可以帮助临床医生临床决策或指导辅助治疗;尽管病人宏观临床信息和肿瘤特征已被普遍用作有效预测指标,但越来越多的证据表明,分子生物标记物可以提供早期预警信号;原因在于,即便当肿瘤大小不能被检测到时(<0.01cm3),肿瘤细胞亦可发生转移,并出现某些生物标记物的异常;因此,一个包括遗传和外在非遗传因素的预后预测模型,在临床应用中,是十分有价值的。
目前虽已有部分研究针对早期NSCLC建立预后预测模型,但其预测效果不佳(AUC<0.8),且样本量较小;其原因可能在于:(1)组学数据类型局限:基于组学数据,已有研究提出了与肺癌预后相关的生物标志物,包括DNA甲基化,基因表达,microRNA和长链非编码RNA等;然而,大多数研究仅限于单一组学,这导致预后预测模型精度不够理想;(2)考虑信息不全:目前几乎无大规模的研究,纳入基因-环境(GxE)、基因-基因(GxG)交互作用信息构建癌症预后预测模型。
因此,有必要在早期NSCLC预后预测领域,需要一种早期NSCLC预后预测系统,以指导临床决策。
发明内容
本发明提供一种非单一类型预测因子、综合考虑主效应和交互作用的预测模型早期NSCLC预后预测系统,可以有效解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种早期NSCLC预后预测模型,包括:
数据清洗模块,用于收集和清理样本数据,其中,数据类型包括甲基化数据和基因表达数据,并进行甲基化与基因表达的全基因组质控;
主效应识别模块,主效应识别模块与数据清洗模块相连,用于对筛选对于预后有主效应的预测因子;
交互作用识别模块,交互作用识别模块与数据清洗模块相连,用于筛选对于预后有交互效应的预测因子;
生存时间预测模块,所述生存时间预测模块分别与数据清洗模块、主效应识别模块和交互作用识别模块相连,构建生存预测模型,用于预测患者三年和五年的生存概率,生存预测模型为:
Hazard(3year)=baseline bazard(3year)×exp(β1X1+...βiXi);
其中,等式的右边是模型的具体函数,左边表示预测概率,βi表示模型的系数,baseline hazard为基线风险,对应于所有变量都取值为0时的风险;
高危人群甄别模块,高危人群甄别模块与生存时间预测模块相连,用于区分个体预后风险,包括高危、中危和低危。
具体的,所述数据清洗模块收集样本数据的具体方法为,以标准操作程序采集符合标准的血液或组织样本,系统收集完整的人口学随访资料和临床资料,并采用基因组芯片扫描以获取疾病相关的甲基化和基因表达谱,建立统一标准的样本数据库。
具体的,所述数据清洗模块对收集的数据进行甲基化与基因表达的全基因组质控的方法为,利用高密度甲基化和基因表达探针,筛选与早期NSCLC预后有阳性关联的甲基化和基因表达,对于甲基化数据,使用Illumina Infinium HumanMethylation450 BeadChips分析DNA甲基化,将原始图像数据导入Genome Studio甲基化模块V1.8,以计算甲基化信号,并执行归一化、背景扣除和质量控制,对于基因表达数据,包括TCGA数据和GEO数据,进行mRNA测序数据处理和质量控制,使用RNA测序通过期望最大化将原始计数标准化,并从TCGA数据网站下载了Level-3基因定量数,进一步质量控制。
具体的,对于甲基化数据的质量控制的不合格标准为:(1)>5%的样品中检测失败(P>0.05);(2)变异系数(CV)<5%,(3)所有样品甲基化或者未甲基化;(4)位于探针序列或10bp侧翼区域的常见单核苷酸多态性;(5)交叉反应位点;(6)数据未在所有中心通过QC,其中在剔除具有>5%的样品中检测失败样品后,进一步的处理,包括:分位数标准化、一型和二型探针校正和批次效应校正;
对于基因表达数据,GEO基因表达数据包括GSE29013、GSE30219、GSE31210、GSE31546,并在分析前进行了log2转化,各个中心内进行了标准化,继而进行批次效应校正。
具体的,在主效应识别模块中,内置迭代确定性独立筛选算法,筛选阳性主效应的分子生物标记物。
具体的,在交互作用识别模块中,利用穷举式检索并内置并行算法,从全表观基因组GxE交互作用角度,筛选早期NSCLC预后的预测因子cg14326354,从GxG交互作用角度,筛选早期NSCLC预后的预测因子。
一种利用早期NSCLC预后预测模型的系统,该系统包括软件应用模块和与试剂盒,所述软件应用模块包括输入模块、计算模块和输出模块,试剂盒和输入模块相连,该试剂盒包括早期NSCLC患者基因信息和随访信息,输入模块用于向计算模块传递试剂盒的信息,计算模块内置生存预测模型,并根据此模型,以及输入模块中的信息,计算个体预后得分,输出模块,与计算模块相连,用于计算生存概率。
具体的,患者的信息包括性别、年龄、吸烟状态、肿瘤亚型、肿瘤分期以及一系列基因组学信息。
具体的,在高危人群甄别模块中,当生存概率≤0.4时,为高危;当生存概率>0.4且≤0.8时为中危;而当生存概率>0.8时,为低危。
与现有技术相比,本发明的有益效果:
1、通过以标准操作程序采集符合标准的血液或组织样本,建立样本数据库,以及分子生物标志物——甲基化和基因表达,从跨组学角度提升了模型预测精度,且区别于传统生物标志物,稳定、微创,大大提高预后预测的敏感性和特异性,并将主效应、GxE、GxG交互作用整合,构建预测精度较高、有严格多阶段独立人群验证的早期NSCLC生存预测模型,解决现有模型中预测效果不佳的不足,并结合高危人群甄别模块,甄别出不同风险的人群,科学准确地评估疾病预后,帮助临床医生临床决策或指导辅助治疗,早期干预,早期获益。
2、本发明在数据清洗模块中,采用基因组芯片扫描以获取疾病相关的甲基化和基因表达谱,并以大样本进行验证且以敏感性分析验证其结果的稳健性,从而加速和保证了生物标志物和预后模型在临床上的应用,同时也为其他疾病生物标志物的研制方法提供了方法上和策略上的借鉴。
3、本发明在主效应识别模块和交互作用识别模块中,通过迭代确定性独立筛选算法,以高效数据降维的统计方法,以及计算机并行运算的方法,更为高效、快捷地识别预测因子,构建预后预测平台。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
在附图中:
图1是本发明预后预测系统的框图;
图2是不同评分分组的病人的生存曲线图;
图3是本发明3年生存预测ROC曲线图;
图4是本发明5年生存预测ROC曲线图;
图5是本发明列线图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例:如图1所示,一种早期NSCLC预后预测模型,包括:
数据清洗模块,用于收集和清理样本数据,其中,数据类型包括甲基化数据和基因表达数据,并进行甲基化与基因表达的全基因组质控;
数据清洗模块收集样本数据的具体方法为,以标准操作程序采集符合标准的血液或组织样本,系统收集完整的人口学随访资料和临床资料,并采用基因组芯片扫描以获取疾病相关的甲基化和基因表达谱,建立统一标准的样本数据库;
其中,本实施例中,样本数据共有332例LUAD病人和285例LUSC病人,来自包括美国,西班牙,挪威,瑞典和TCGA在内的五个国际队列的早期(I-II期)肺腺癌(LUAD)和肺鳞癌(LUSC)患者数据,具体如下所示:
美国:自1992年以来,患者在马萨诸塞州综合医院(MGH)入组;分析了该队列中的151位早期,并在组织学上被确认为原发性NSCLC患者;在根治性手术期间,将肿瘤标本完整切除并速冻;MGH的病理学家评估了每个标本和肿瘤细胞的质量;根据世界卫生组织(WHO)的标准对标本进行组织学分类;哈佛大学公共卫生学院和MGH的机构审查委员会批准了这项研究;
西班牙:西班牙队列包括1991-2009年从八个子中心招募的226名早期NSCLC患者;从新鲜冷冻的肿瘤标本中提取肿瘤DNA,并进一步检查其数量和完整性;患者提供了书面同意,肿瘤通过手术收集;经过Bellvitge生物医学研究所机构审查委员会的批准;
挪威:挪威的人群包括2006年至2011年来自挪威奥斯陆大学133名早期NSCLC患者;将肿瘤组织在液氮中速冻,并保存在-80℃下直至分离出DNA;奥斯陆大学机构审查委员会和区域道德委员会(S-05307)批准了该项目;
瑞典:从瑞典隆德的斯科恩大学医院的103例早期NSCLC患者中(包括80例LUAD和23例LUSC患者)收集了肿瘤DNA;是在瑞典隆德市区域伦理审查委员会的批准下进行的(注册号为2004/762和2008/702);
数据清洗模块对收集的数据进行甲基化与基因表达的全基因组质控的方法为,利用高密度甲基化和基因表达探针,筛选与早期NSCLC预后有阳性关联的甲基化和基因表达;
对于甲基化数据:使Illumina Infinium HumanMethylation450 BeadChips(IlluminaInc.)分析DNA甲基化;将原始图像数据导入Genome Studio甲基化模块V1.8,以计算甲基化信号,并执行归一化、背景扣除和质量控制(QC),且如果探针符合以下任何一项质量控制(quality control,QC)标准,则视为不合格并将其剔除:(1)>5%的样品中检测失败(P>0.05);(2)变异系数(CV)<5%,(3)所有样品甲基化或者未甲基化;(4)位于探针序列或10bp侧翼区域的常见单核苷酸多态性;(5)交叉反应位点;(6)数据未在所有中心通过QC,其中在剔除具有>5%的样品中检测失败样品后,进一步的处理,包括:分位数标准化、一型和二型探针校正和批次效应校正;
对于基因表达数据,包括TCGA数据和GEO数据,进行mRNA测序数据处理和质量控制,使用RNA测序通过期望最大化将原始计数标准化,并从TCGA数据网站下载了Level-3基因定量数,进一步质量控制,除此之外,GEO基因表达数据包括GSE29013、GSE30219、GSE31210、GSE31546,分析前进行了log2转化,且各个中心内进行了标准化,继而进行批次效应校正,
其中,根据癌症体细胞突变目录(Catalogue of Somatic Mutations in Cancer,COSMIC,https://cancer.sanger.ac.uk/cosmic),筛选出719个泛癌基因的DNA甲基化和基因表达用于后续GxG交互作用分析,经质量控制后,12,806个DNA甲基化位点用于后续GxG交互作用分析。
主效应识别模块,主效应识别模块与数据清洗模块相连,用于对筛选对于预后有主效应的预测因子;
本实施例中,通过内置迭代确定性独立筛选算法,筛选阳性主效应的分子生物标记物,并基于主效应角度,对于早期NSCLC预后的预测因子cg19286631和NDRG1;
其中,对早期NSCLC预后有主效应的预测因子还包括BTG2、KDM、EGLN2和LRRC3B。
交互作用识别模块,交互作用识别模块与数据清洗模块相连,用于筛选对于预后有交互效应的预测因子;
在交互作用识别模块中,利用穷举式检索并内置并行算法,从全表观基因组GxE交互作用角度,筛选早期NSCLC预后的预测因子cg14326354,其中,甲基化位点cg14326354PRODH对于肺腺癌生存的效应随病人年龄不同而发生改变,且结果显示两个年龄组完全相反的cg14326354PRODH低甲基效应方向,cg14326354PRODH低甲基化与衰老存在拮抗交互作用,影响NSCLC患者的预后;
因此,通过筛选早期NSCLC预后的预测因子cg14326354有利于提高预测的精度,以及有利于精准治疗,另外,由于SIPA1L3基因与吸烟交互作用影响早期NSCLC患者的预后,也将作为GxE交互作用作为本发明的预测因子;
从GxG交互作用角度,筛选早期NSCLC预后的预测因子,本实施例中,筛选出了26对单组学GxG交互作用以及4对跨组学GxG交互作用,所选基因为cg21043273,cg24374950,cg20078466,cg01093801,cg14334350,cg26903240,cg08547457,cg18784565,cg12156646,cg13085553,cg25095814,cg01267522,cg06562718,cg26921093,cg14815005,cg03559831,cg16232979,cg20917891,cg12040370,cg25921461,cg12182991,cg02406828,cg17999743,cg20547777,cg00819233,cg01941585,cg22479366,cg19418951,cg06339542,cg25486145,cg17300868,cg11017226,cg26387072,cg25330422,cg20742234,cg22791976,cg21270847,cg19574488,cg04459504,cg01796800,cg20307391,cg18664712,cg15624314,cg12076931,cg14163665,cg20503576,cg27429106,cg13943355,cg10386045,cg01493658,cg01102073,cg04052706,cg14163665,cg12483545,BLM,TET1,EIF4A2,RHOA,TLX1和TLX3。
生存时间预测模块,所述生存时间预测模块分别与数据清洗模块、主效应识别模块和交互作用识别模块相连,构建生存预测模型,用于预测患者三年和五年的生存概率,生存预测模型为:
Hazard(3year)=baseline bazard(3year)×exp(β1X1+...βiXi);
其中,等式的右边是模型的具体函数,左边表示预测概率,βi表示模型的系数,baseline hazard为基线风险,对应于所有变量都取值为0时的风险;
如图2所示,为不同评分分组的病人的生存曲线,本实施例,根据表观预后评分的六分位数分组,将验证阶段的样本分为6个组,各个评分高的患者,生存率显著更低,整合各评分以及年龄、性别、研究中心、临床分期和吸烟状况等临床信息后,所构建预后评分可明显区分早期NSCLC生存,证明了筛选的预测因子具有良好的预后评估效果;
如图3-4所示,图3为DNA甲基化和基因表达的主效应和GxE、GxG交互作用构建的不同预测模型的3年生存预测ROC曲线,图4为DNA甲基化和基因表达的主效应和GxE、GxG交互作用构建的不同预测模型的5年生存预测ROC曲线,在通过主效应识别模块和交互作用识别模块输入具有主效应和交互作用的生物标志物后,3年和5年AUC分别提升了35.38%和34.85%,对早期NSCLC生存具有较优良的预测能力(AUC3年=0.877,95%CI:0.83-0.93;AUC5年=0.889,95%CI:0.81-0.92),同时,评价指标C-index也显示出模型较为令人满意的预测效果(C-index=0.82,95%CI:0.78-0.86),因此,采用所筛选生物标志物,能够很好的评估早期NSCLC患者的预后;
如图5所示,用临床信息和生物标志物构建的列线图,每个预测因子的取值可以转换为列线图顶部的Points,每个预测因子的Points之和对应于列线图底部的TotalPoints,在Total Points轴上添加每个预测因子的Points后,可以在列线图的底部找到患者的3年和5年生存概率的估计值,根据计算每位患者的预后评分,并将其带入列线图,计算总得分,例如,如果患者的Total Points为120,则3年生存概率估计为0.7,由此可以更方便地估计个体患者3年和5年的生存概率,在列线图构造中,基线风险由数据估计得出,其将列线图中的Total points转化为预测概率,输入个体病人的特征即可得到病人预测生存概率。
一种利用早期NSCLC预后预测模型的系统,该系统包括软件应用模块和与试剂盒,所述软件应用模块包括输入模块、计算模块和输出模块,试剂盒和输入模块相连,该试剂盒包括早期NSCLC患者基因信息和随访信息,输入模块用于向计算模块传递试剂盒的信息,计算模块内置生存预测模型,并根据此模型,以及输入模块中的信息,计算个体预后得分,输出模块,与计算模块相连,用于计算生存概率;
输入模块用于向计算模块传递试剂盒的信息,患者的信息包括性别、年龄、吸烟状态、肿瘤亚型、肿瘤分期以及一系列基因组学信息;
本实施例中,最后筛选出的与早期NSCLC预后关联的甲基化和基因表达的基因组学信息包括(cg21043273,cg24374950,cg20078466,cg01093801,cg14334350,cg26903240,cg08547457,cg18784565,cg12156646,cg13085553,cg25095814,cg01267522,cg06562718,cg26921093,cg14815005,cg03559831,cg16232979,cg20917891,cg12040370,cg25921461,cg12182991,cg02406828,cg17999743,cg20547777,cg00819233,cg01941585,cg22479366,cg19418951,cg06339542,cg25486145,cg17300868,cg11017226,cg26387072,cg25330422,cg20742234,cg22791976,cg21270847,cg19574488,cg04459504,cg01796800,cg20307391,cg18664712,cg15624314,cg12076931,cg14163665,cg20503576,cg27429106,cg13943355,cg10386045,cg01493658,cg01102073,cg04052706,cg19286631,cg14326354,cg12483545,cg14163665,EIF4A2,RHOA,TLX1,TLX3,BLM,TET1和NDRG1),为了方便使用和检测,这些物质可以全部装配在一个试剂盒中,也可以分散在一系列试剂盒中组合使用,大大提高疾病诊断的敏感性和特异性,因此将此试剂盒投入实践,可以帮助评估疾病预后和更有效的个体化治疗;
计算模块内置生存预测模型,通过甲基化和基因表达生物标志物对于早期NSCLC预后的效应,并以效应作为权重,根据此模型,以及输入模块中的信息,计算个体预后得分,评分值的计算公式如下:
主效应的表观遗传评分:
表观遗传评分(main effect)=0.0045×cg01798157+0.0080×cg06373167+0.0012×cg23371584+0.0084×cg25923056+0.0533×cg11637544+0.3893×cg26662347+0.0010×cg13046257+0.0134×cg17623116-0.0321×cg19600115+0.4095×cg02268510-0.3831×smoke1×cg02268510-0.9878×smoke2×cg02268510
其中,吸烟状态有三个水平:从不吸烟、以前吸烟、现在吸烟,将其转化为哑变量形式;
交互作用的表观遗传评分:
表观遗传评分(interaction)=0.6130×cg21043273+0.0413×cg24374950+0.8125×cg20078466+0.2044×cg01093801-0.1706×cg14334350-0.1773×cg26903240-2.1693×cg08547457-2.8627×cg18784565-0.1309×cg12156646-0.1205×cg13085553-0.0633×cg25095814-0.0257×cg01267522-0.0864×cg06562718-0.0826×cg26921093+0.5104×cg14815005+0.7679×cg03559831-0.0037×cg16232979-0.0062×cg20917891-0.0463×cg12040370-0.0197×cg25921461+0.6211×cg12182991+0.0077×cg02406828+0.6682×cg17999743+0.0497×cg20547777-0.0540×cg00819233-0.0617×cg01941585-0.0319×cg22479366-0.0002×cg19418951+0.8920×cg06339542+0.0789×cg25486145+0.2300×cg17300868+1.5576×cg11017226-0.4250×cg26387072-0.5082×cg25330422-0.1905×cg20742234-0.5936×cg22791976+0.0623×cg21270847+1.4825×cg19574488+1.1240×cg04459504+0.0822×cg01796800-0.1086×cg20307391-1.0139×cg18664712+0.0852×cg12076931+1.3604×cg15624314+0.0069×cg14163665-0.1195×cg20503576-0.0705×cg27429106-0.0727×cg13943355-0.3549×cg10386045-0.4354×cg01493658-0.0059×cg21043273×cg24374950-0.0085×cg20078466×cg01093801+0.0015×cg14334350×cg26903240+0.0288×cg08547457×cg18784565+0.0015×cg12156646×cg13085553+0.0290×cg25095814×cg01267522+0.0008×cg06562718×cg26921093-0.5196×cg14815005×cg03559831+0.0006×cg16232979×cg20917891+0.0174×cg12040370×cg25921461-0.0070×cg12182991×cg02406828-0.0078×cg17999743×cg20547777+0.0009×cg00819233×cg01941585+0.0212×cg22479366×cg19418951-0.0102×cg06339542×cg25486145-0.4674×cg17300868×cg11017226+0.0046×cg26387072×cg25330422+0.1396×cg20742234×cg22791976-0.0171×cg21270847×cg19574488-0.0123×cg04459504×cg01796800+0.0116×cg20307391×cg18664712-0.0146×cg12076931×cg15624314+0.0074×cg14163665×cg20503576+0.0007×cg27429106×cg13943355+0.3935×cg10386045×cg01493658
总的表观遗传评分:
总的表观遗传评分=0.56509×表观遗传评分(main effect)+0.93511×表观遗传评分(interaction)
主效应的转录评分:
转录评分(main effect)=0.1779*NDRGI;
主效应的转录评分:
转录评分(interaction)=-0.0005818×RHOA-0.0825170×TLX1-0.3055699×RHOA×TLX1;
总的转录评分:
总的转录评分=1.25857×转录评分(main effect)+1.03236(int eraction)
跨组学评分:
跨组学评分=0.010678*cg04052706+1.03300*BLM+0.00043*cg12483545+0.42926*TET1+3.04152e-05*cg01102073+0.42030*TLX3+0.01152*cg14163665-0.00037*EIF4A2-0.01370*cg04052706*BLM-0.00466*cg12483545*TET-0.00840*cg01102073*TLX3-0.03919*cg14163665*EIF4A2
综合评分:
综合评分=0.94752×表观遗传评分+0.66783×转录评分+0.23357×跨组学评分
预后评分:
预后评分=1.0000×综合评分+1.53807×临床得分
输出模块,与计算模块相连,根据计算模块的得分计算并输出生存概率,其中,高危人群甄别模块,高危人群甄别模块与生存时间预测模块相连,用于区分个体预后风险,包括高危、中危和低危,其中,当生存概率≤0.4时,为高危;当生存概率>0.4且≤0.8时为中危;而当生存概率>0.8时,为低危;。
最后应说明的是:以上所述仅为本发明的优选实例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种早期NSCLC预后预测模型,其特征在于,包括:
数据清洗模块,用于收集和清理样本数据,其中,数据类型包括甲基化数据和基因表达数据,并进行甲基化与基因表达的全基因组质控;
主效应识别模块,主效应识别模块与数据清洗模块相连,用于对筛选对于预后有主效应的预测因子;
交互作用识别模块,交互作用识别模块与数据清洗模块相连,用于筛选对于预后有交互效应的预测因子;
生存时间预测模块,所述生存时间预测模块分别与数据清洗模块、主效应识别模块和交互作用识别模块相连,构建生存预测模型,用于预测患者三年和五年的生存概率,生存预测模型为:
Hazard(3year)=baseline bazard(3year)×exp(β1X1+...βiXi);
其中,等式的右边是模型的具体函数,左边表示预测概率,βi表示模型的系数,baselinehazard为基线风险,对应于所有变量都取值为0时的风险;
高危人群甄别模块,高危人群甄别模块与生存时间预测模块相连,用于区分个体预后风险,包括高危、中危和低危。
2.根据权利要求1所述的一种早期NSCLC预后预测模型,其特征在于:所述数据清洗模块收集样本数据的具体方法为,以标准操作程序采集符合标准的血液或组织样本,系统收集完整的人口学随访资料和临床资料,并采用基因组芯片扫描以获取疾病相关的甲基化和基因表达谱,建立统一标准的样本数据库。
3.根据权利要求1所述的一种早期NSCLC预后预测模型,其特征在于:所述数据清洗模块对收集的数据进行甲基化与基因表达的全基因组质控的方法为,利用高密度甲基化和基因表达探针,筛选与早期NSCLC预后有阳性关联的甲基化和基因表达,对于甲基化数据,使用Illumina Infinium HumanMethylation450 BeadChips分析DNA甲基化,将原始图像数据导入Genome Studio甲基化模块V1.8,以计算甲基化信号,并执行归一化、背景扣除和质量控制,对于基因表达数据,包括TCGA数据和GEO数据,进行mRNA测序数据处理和质量控制,使用RNA测序通过期望最大化将原始计数标准化,并从TCGA数据网站下载了Level-3基因定量数,进一步质量控制。
4.根据权利要求3所述的一种早期NSCLC预后预测模型,其特征在于:对于甲基化数据的质量控制的不合格标准为:(1)>5%的样品中检测失败(P>0.05);(2)变异系数(CV)<5%,(3)所有样品甲基化或者未甲基化;(4)位于探针序列或10bp侧翼区域的常见单核苷酸多态性;(5)交叉反应位点;(6)数据未在所有中心通过QC,其中在剔除具有>5%的样品中检测失败样品后,进一步的处理,包括:分位数标准化、一型和二型探针校正和批次效应校正;
对于基因表达数据,GEO基因表达数据包括GSE29013、GSE30219、GSE31210、GSE31546,并在分析前进行了log2转化,各个中心内进行了标准化,继而进行批次效应校正。
5.根据权利要求1所述的一种早期NSCLC预后预测模型,其特征在于:在主效应识别模块中,内置迭代确定性独立筛选算法,筛选阳性主效应的分子生物标记物。
6.根据权利要求1所述的一种早期NSCLC预后预测模型,其特征在于:在交互作用识别模块中,利用穷举式检索并内置并行算法,从全表观基因组GxE交互作用角度,筛选早期NSCLC预后的预测因子cg14326354,从GxG交互作用角度,筛选早期NSCLC预后的预测因子。
7.一种利用早期NSCLC预后预测模型的系统,其特征在于:该系统包括软件应用模块和试剂盒,所述软件应用模块包括输入模块、计算模块和输出模块,试剂盒与输入模块相连,该试剂盒包括早期NSCLC患者基因信息和随访信息,输入模块用于向计算模块传递试剂盒的信息,计算模块内置生存预测模型,并根据此模型,以及输入模块中的信息,计算个体预后得分,输出模块,与计算模块相连,用于计算生存概率。
8.根据权利要求7所述的一种早期NSCLC预后预测系统,其特征在于:患者的信息包括性别、年龄、吸烟状态、肿瘤亚型、肿瘤分期以及一系列基因组学信息。
9.根据权利要求7所述的一种早期NSCLC预后预测系统,其特征在于:在输出模块中,输出计算结果为,当生存概率≤0.4时,为高危;当生存概率>0.4且≤0.8时为中危;而当生存概率>0.8时,为低危。
CN202010873485.0A 2020-08-26 2020-08-26 一种早期nsclc预后预测系统 Active CN112037863B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010873485.0A CN112037863B (zh) 2020-08-26 2020-08-26 一种早期nsclc预后预测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010873485.0A CN112037863B (zh) 2020-08-26 2020-08-26 一种早期nsclc预后预测系统

Publications (2)

Publication Number Publication Date
CN112037863A true CN112037863A (zh) 2020-12-04
CN112037863B CN112037863B (zh) 2022-06-21

Family

ID=73580861

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010873485.0A Active CN112037863B (zh) 2020-08-26 2020-08-26 一种早期nsclc预后预测系统

Country Status (1)

Country Link
CN (1) CN112037863B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022243566A1 (en) * 2021-05-21 2022-11-24 Ophiomics - Investigação E Desenvolvimento Em Biotecnologia Dna methylation biomarkers for hepatocellular carcinoma
CN116042820A (zh) * 2022-09-07 2023-05-02 浙江大学 一组结肠癌dna甲基化分子标志物及其在制备用于结肠癌早期诊断试剂盒中的应用

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030207278A1 (en) * 2002-04-25 2003-11-06 Javed Khan Methods for analyzing high dimensional data for classifying, diagnosing, prognosticating, and/or predicting diseases and other biological states
US20090197259A1 (en) * 2007-03-22 2009-08-06 Lan Guo Gene signature for diagnosis and prognosis of breast cancer and ovarian cancer
CN103998622A (zh) * 2011-07-01 2014-08-20 加利福尼亚大学董事会 肺癌的多基因预后试验
CN105696087A (zh) * 2015-12-31 2016-06-22 四川大学华西医院 一种肺癌pdx标准化模型库
CN106119405A (zh) * 2016-08-31 2016-11-16 广州万德基因医学科技有限公司 一种肺癌的预后标记物、使用该标记预测肺癌预后的方法及应用
CN109493969A (zh) * 2018-09-11 2019-03-19 中山大学孙逸仙纪念医院 评估Paget`s病伴浸润性导管癌患者预后的模型及其应用
CN110229902A (zh) * 2019-06-24 2019-09-13 至本医疗科技(上海)有限公司 用于胃癌预后预测的评估基因群的确定方法
CN110317879A (zh) * 2019-08-19 2019-10-11 中山大学附属第六医院 基因检测试剂的应用、结直肠癌预后预测试剂盒和预测系统
CN110506127A (zh) * 2016-08-24 2019-11-26 解码生物科学公司 基因组标签预测前列腺癌患者对术后放射疗法应答性的用途
CN111122865A (zh) * 2019-12-12 2020-05-08 中山大学 一种基于CD11b和CD169蛋白分子的用于肝癌预后预测的标志物
CN111354462A (zh) * 2020-04-14 2020-06-30 中山大学孙逸仙纪念医院 晚期乳腺癌生存概率预测列线图、生存概率预测方法及患者分类方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030207278A1 (en) * 2002-04-25 2003-11-06 Javed Khan Methods for analyzing high dimensional data for classifying, diagnosing, prognosticating, and/or predicting diseases and other biological states
US20090197259A1 (en) * 2007-03-22 2009-08-06 Lan Guo Gene signature for diagnosis and prognosis of breast cancer and ovarian cancer
CN103998622A (zh) * 2011-07-01 2014-08-20 加利福尼亚大学董事会 肺癌的多基因预后试验
CN105696087A (zh) * 2015-12-31 2016-06-22 四川大学华西医院 一种肺癌pdx标准化模型库
CN110506127A (zh) * 2016-08-24 2019-11-26 解码生物科学公司 基因组标签预测前列腺癌患者对术后放射疗法应答性的用途
CN106119405A (zh) * 2016-08-31 2016-11-16 广州万德基因医学科技有限公司 一种肺癌的预后标记物、使用该标记预测肺癌预后的方法及应用
CN109493969A (zh) * 2018-09-11 2019-03-19 中山大学孙逸仙纪念医院 评估Paget`s病伴浸润性导管癌患者预后的模型及其应用
CN110229902A (zh) * 2019-06-24 2019-09-13 至本医疗科技(上海)有限公司 用于胃癌预后预测的评估基因群的确定方法
CN110317879A (zh) * 2019-08-19 2019-10-11 中山大学附属第六医院 基因检测试剂的应用、结直肠癌预后预测试剂盒和预测系统
CN111122865A (zh) * 2019-12-12 2020-05-08 中山大学 一种基于CD11b和CD169蛋白分子的用于肝癌预后预测的标志物
CN111354462A (zh) * 2020-04-14 2020-06-30 中山大学孙逸仙纪念医院 晚期乳腺癌生存概率预测列线图、生存概率预测方法及患者分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MATTHIAS KOLBERG 等: "Protein expression of BIRC5, TK1, and TOP2A in malignant peripheral nerve sheath tumours-A prognostic test after surgical resection", 《MOLECULAR ONCOLOGY》 *
MIAN KHIZAR HAYAT 等: "癌症TCGA数据库中乳腺癌预后数据的挖掘", 《生物学杂志》 *
王举 等: "基于癌症基因组图谱构建胃癌预后评估模型", 《天津医药》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022243566A1 (en) * 2021-05-21 2022-11-24 Ophiomics - Investigação E Desenvolvimento Em Biotecnologia Dna methylation biomarkers for hepatocellular carcinoma
CN116042820A (zh) * 2022-09-07 2023-05-02 浙江大学 一组结肠癌dna甲基化分子标志物及其在制备用于结肠癌早期诊断试剂盒中的应用
CN116042820B (zh) * 2022-09-07 2023-09-29 浙江大学 一组结肠癌dna甲基化分子标志物及其在制备用于结肠癌早期诊断试剂盒中的应用

Also Published As

Publication number Publication date
CN112037863B (zh) 2022-06-21

Similar Documents

Publication Publication Date Title
CN110577998A (zh) 预测肝癌术后早期复发风险分子模型的构建及其应用评估
CN111951893B (zh) 构建肿瘤突变负荷tmb面板的方法
EP4372751A1 (en) Cancer detection model and construction method therefor, and reagent kit
CN112037863B (zh) 一种早期nsclc预后预测系统
WO2021202424A1 (en) Cancer classification with synthetic spiked-in training samples
WO2021178613A1 (en) Systems and methods for cancer condition determination using autoencoders
WO2020237184A1 (en) Systems and methods for determining whether a subject has a cancer condition using transfer learning
CN115588507A (zh) 一种肺腺癌emt相关基因的预后模型及构建方法和应用
CN113517073B (zh) 肺癌手术后生存率预测模型构建方法和预测模型系统
CN111833963A (zh) 一种cfDNA分类方法、装置和用途
CN113362893A (zh) 肿瘤筛查模型的构建方法及应用
CN110408706A (zh) 一种评估鼻咽癌复发的生物标志物及其应用
EP4318493A1 (en) Artificial-intelligence-based method for detecting tumor-derived mutation of cell-free dna, and method for early diagnosis of cancer, using same
CN116469552A (zh) 一种用于乳腺癌多基因遗传风险评估的方法和系统
Liu et al. Differentially expressed mutant genes reveal potential prognostic markers for lung adenocarcinoma
CN114220477B (zh) 一种ace基因分型的方法及系统
US20240233872A9 (en) Component mixture model for tissue identification in dna samples
US20240312564A1 (en) White blood cell contamination detection
US20230272477A1 (en) Sample contamination detection of contaminated fragments for cancer classification
WO2023240725A1 (zh) 一组nk/t细胞淋巴瘤预后相关基因、基因组预后模型及其用途
CN117976060A (zh) 基于外周血的基因风险评分模型构建方法
CN118448038A (zh) 一种基于多组学动态ctDNA监测食管鳞状细胞癌疗效的方法
CN118460715A (zh) 用于预测肺癌患者胸部放疗后放射性肺炎发生风险的多组学系统及其应用
Wang Mixture Model Approaches To Integrative Analysis Of Multi-Omics Data And Spatially Correlated Genomic Data
CN115678998A (zh) 一种检测肺腺癌EGFR突变的miRNA标志物、试剂盒及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant