CN115678999B - 标志物在肺癌复发预测中的应用和预测模型构建方法 - Google Patents

标志物在肺癌复发预测中的应用和预测模型构建方法 Download PDF

Info

Publication number
CN115678999B
CN115678999B CN202211718841.7A CN202211718841A CN115678999B CN 115678999 B CN115678999 B CN 115678999B CN 202211718841 A CN202211718841 A CN 202211718841A CN 115678999 B CN115678999 B CN 115678999B
Authority
CN
China
Prior art keywords
cfdna
lung cancer
model
small cell
cell lung
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211718841.7A
Other languages
English (en)
Other versions
CN115678999A (zh
Inventor
邵阳
吴雪
包华
刘睿
吴舒雨
唐皖湘夫
刘思思
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Shihe Medical Devices Co ltd
Nanjing Shihe Gene Biotechnology Co ltd
Original Assignee
Nanjing Shihe Medical Devices Co ltd
Nanjing Shihe Gene Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Shihe Medical Devices Co ltd, Nanjing Shihe Gene Biotechnology Co ltd filed Critical Nanjing Shihe Medical Devices Co ltd
Priority to CN202211718841.7A priority Critical patent/CN115678999B/zh
Publication of CN115678999A publication Critical patent/CN115678999A/zh
Application granted granted Critical
Publication of CN115678999B publication Critical patent/CN115678999B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基因标志物在非小细胞肺癌复发预测中的应用、微小残留病灶的检测方法和预测装置,属于分子生物医学技术领域,通过对血浆样本cfDNA进行液体活检全基因组WGS低深度测序,通过对非小细胞肺癌癌细胞切除术后病人在术后的血液样本进行低通量测序,利用测序结果中的DNA碎片化片段长短比例,进行正则化比例风险模型(Regularized Cox Regression)构建,检测术后病人在术后肿瘤微小残留病灶(minimal residual disease,MRD),实现对非小细胞肺癌切除术后复发风险的早期无创精准预测,对术后辅助治疗提供指导性作用。

Description

标志物在肺癌复发预测中的应用和预测模型构建方法
技术领域
本发明涉及一种基因标志物在非小细胞肺癌复发预测中的应用、微小残留病灶的检测方法和预测装置,属于分子生物医学技术领域。
背景技术
非小细胞肺癌是最常见的肺癌类型之一。在接受肿瘤切除手术后,大约有30%-50%非小细胞肺癌患者在术后会发生复发或转移,这可能是由于术后患者体内仍然存在影像学或实验方法无法检测到的微小残留病灶(MRD),这些肿瘤复发的潜在来源与患者较差的预后有着紧密的关系。研究表明,早期非小细胞肺癌患者在肿瘤切除手术后,MRD阳性的患者复发风险相对较高。因此,非小细胞肺癌术后的微小残留病灶的监测测对肿瘤复发风险评估和临床预后治疗十分重要。现存的仅依靠循环肿瘤基因组突变分析检测方法(target-sequencing based ctDNA mutation method),在对微小残留病灶(MRD)的检测中,存在低敏感性问题。特别是在对术后早期的微小残留病灶的检测,这种传统的循环肿瘤基因组突变检测方法的灵敏度普遍较低。因此,临床上对高灵敏度的微小残留病灶的早期检测有迫切需求, 通过对术后早期的微小残留病灶的检测,实现对复发风险的预测。
发明内容
本发明提供了一种对非小细胞肺癌患者术后血浆样本cfDNA进行WGS测序,通过高通量低深度的测序结果,获取DNA片段化信息,统计在不同纵向时间下,在不同碱基对长度峰值下的短片段与长片段的比值(Fragment Size Ratio, FSR),分别利用术后7天以及术后6个月的片段比值特征,建立正则化Cox比例风险模型(Regularized CoxRegression), 利用留一法交叉验证(leave one out)训练并验证模型,计算出每个患者的复发概率。实现对高风险复发患者和低风险复发患者的区分,对临床预后治疗有重要的指导性作用。
检测基因标志物的试剂在用于制备非小细胞肺癌术后复发预测试剂中的应用,所述的基因标志物是指cfDNA中第一、第二、第三、第四片段在全部片段中所占的比例;
所述的第一、第二、第三、第四片段分别具有151-220bp、311-400bp、100-150bp和221-300bp的碱基长度。
所述的cfDNA来源于患者术后第7天-第6个月的血浆。
一种非小细胞肺癌术后复发预测模型的构建方法,包括如下步骤:
步骤1,从患者术后血浆中提取cfDNA,进行测序,并比对于参考基因组,获得其在参考基因组上的位置,以及获得各个cfDNA片段的长度;
步骤2,将参考基因组划分为多个窗口,分别统计出比对于各个窗口中的第一、第二、第三、第四片段的cfDNA在该窗口中全部cfDNA片段中的比例,作为第一、第二、第三、第三特征值;第一、第二、第三、第四片段分别具有151-220bp、311-400bp、100-150bp和221-300bp的碱基长度;
步骤3,分别将各个窗口中的第一、第二、第三、第四特征值作为Cox比例风险回归模型的自变量,建立发生生复发风险概率的模型。
所述的步骤1中,从患者术后血浆中提取cfDNA是在患者术后第7天-第6个月内进行。
所述的步骤2中,将参考基因组划分为多个窗口是以5Mb为长度进行划分。
所述的步骤3中,Cox比例风险回归模型中进行正则化处理。
一种非小细胞肺癌术后复发预测装置,包括:
提取模块,用于从患者术后血浆中提取cfDNA;
测序模块,用于对提取cfDN进行测序,并比对于参考基因组,获得其在参考基因组上的位置,以及获得各个cfDNA片段的长度;
统计模块,用于将参考基因组划分为多个窗口,分别统计出比对于各个窗口中的第一、第二、第三、第四片段的cfDNA在该窗口中全部cfDNA片段中的比例,作为第一、第二、第三、第三特征值;第一、第二、第三、第四片段分别具有151-220bp、311-400bp、100-150bp和221-300bp的碱基长度;
预测模块,分别将各个窗口中的第一、第二、第三、第四特征值作为Cox比例风险回归模型的自变量,建立发生生复发风险概率的模型。
一种计算机可读取介质,其记载有能够运行以下非小细胞肺癌术后复发预测步骤的计算机程序:
步骤1,对患者术后血浆中提取cfDNA进行测序,并比对于参考基因组,获得其在参考基因组上的位置,以及获得各个cfDNA片段的长度;
步骤2,将参考基因组划分为多个窗口,分别统计出比对于各个窗口中的第一、第二、第三、第四片段的cfDNA在该窗口中全部cfDNA片段中的比例,作为第一、第二、第三、第三特征值;第一、第二、第三、第四片段分别具有151-220bp、311-400bp、100-150bp和221-300bp的碱基长度;
步骤3,分别将各个窗口中的第一、第二、第三、第四特征值作为Cox比例风险回归模型的自变量,建立发生生复发风险概率的模型;
步骤4,将待测样本执行步骤1-步骤2,将结果输入至步骤3中获得的模型中,计算出复发风险概率。
有益效果
对87个非小细胞肺癌患者肿瘤切除术后7天及76个患者术后6个月的WGS cfDNA片段化长度比例进行统计和分析,训练正则化比例风险模型。本发明首次基于血浆cfDNA高通量低深度测序的片段化结果进行对非小细胞肺癌的微小残留病灶的检测,并利用术后不同的纵向时间点的样本对复发风险进行预测。该模型比现存的仅依靠循环肿瘤基因组突变分析检测方法具有更高的灵敏性,能更有效地对术后高风险复发人群和低风险复发人群进行分类,对术后辅助治疗有重要的指导作用。
附图说明
图1是模型构建过程示意图;
图2是cfDNA的片段大小分布图;
图3 是利用留一法验证的术后7天样本的模型和术后6个月样本模型的AUC曲线图;
图4是复发和非复发患者在术后7天样本模型和术后6个月样本模型所预测出的分数分布;
图5是根据术后7天样本的模型分类结果和术后6个月样本的模型分类结果的高风险复发人群和低风险复发人群的生存曲线图;
图6是术后7天样本模型及术后6个月样本模型的灵敏度和特异性图。
实施方式
本发明首先需要对血液样本中对cfDNA的提取,建库,测序等步骤;本发明使用DNeasy Blood&Tissue Kit(Qiagen)从血浆样本中提取基因组DNA,再使用Qubit 3.0 荧光计和dsDNA HS Assay Kit (ThermoFisher Specific)测量提取出的DNA的数量,最后使用KAPA Hyper Prep Kit(KAPA Biosystems)进行建库。
本发明的模型构建过程采用的数据集情况如下:
2017年4月至2019年1月期间,总共100名非小细胞肺癌患者参与该研究。其中两名患者随后撤回准许退出研究,10名患者信息在随访中丢失,最后共88名患者参与研究,这些患者都是病理诊断为非小细胞肺癌,且接受了肿瘤切除手术。血浆cfDNA 样本在术后7天和术后6个月被提取。其中一名患者的血浆样本未通过质量控制测试被排除。剩余87名参与研究的患者信息如下表:
Figure SMS_1
其中76名患者在术后6个月的随访中没有丢失,样本信息用于建立术后6个月的模型。
血浆cfDNA样本的提取和测序方法:
患者在接受肿瘤切除手术后的第7天和6个月后,对患者进行液体活检,采用紫色血液收集管(EDTA抗凝管)收集患者10ml全血样本,及时离心分离血浆(2小时内),在-80摄氏度冷冻保存下,转至实验室分析。转运至实验室后,血浆样本采用QIAGEN血浆DNA提取试剂盒按照说明书进行ctDNA提取。对采集到的cfDNA样本建库后,进行WGS~5乘测序。在获得了下机数据之后,将数据比对至人类参考基因组上,获得相应的读段的碱基数据信息。
数据处理:
本发明的标志数据,主要利用cfDNA 的片段化长度信息作为模型输入特征:
对于DNA片段的大小比例,其反映的是cfDNA读段的长度大小在有微小残留病灶患者和不具有微小残留病灶患者的分布特征。利用短DNA片段和长DNA片段所占比例进行正则化比例风险模型的建立,从而监测患者在特定纵向时间点下是否有微小残留病灶。
cfDNA读段长度数据是通过如下方法获取得到的:在比对好的bam当中,记录了每一条读段的质量,长度和比对位置信息,人类参考基因组选用来自加利福尼亚大学克鲁兹分校(University of California, Santa Cruz, UCSC)提供的hg19序列。将人类参考基因组按照5Mb长度,切割成541个窗口。在每个窗口下,根据读段长度的分布频率,找到两个频率峰值(如图2所示,呈双峰分布),计算在两个峰值范围内的所定义的长读段数比例(第一峰值:151-220bp 及第二峰值:311-400bp)和短读段比例(第一峰值:100-150bp,第二峰值:221-300bp)。由此得到541个窗口下的2164个比例值(541*4=2164),比例值是由峰值范围内的cfDNA的数量/该窗口中全部cfDNA读段的数量计算得到。
本发明的标志数据,主要利用Cox比例风险模型(Penalized Cox Models)算法建模及留一法进行验证。
Cox比例风险回归(Penalized Cox Proportional Hazards Model)提供了一个能够衡量个体相对风险的方式。它可以同时研究多个因素和事件结局发生情况,发生时间的关系,而且允许有截尾数据存在。该模型以生存结局和生存时间为因变量,可同时分析众多因素对生存期的影响,校正混杂因素以及做出预测分析。在多因素情况下,风险概率的计算需要同时考虑生存时间T和自变量X,因此用h(t,x)来表示t时刻的风险函数,若设定自变量取值为0,则称h(t,0)为t时刻的基准风险函数。固定时间t,取风险函数和基准风险函数之比可得到t时刻下的风险比值HR,该HR是关于自变量X的函数,且不再依赖于时间T,所以称之为比例风险模型。为了防止模型过拟合,可以在损失函数上加上正则项,缩小解空间,从而减少求出过拟合解的可能性,可以根据现有的Cox比例风险回归方法的基础上加入正则项,可以根据实际的样本情况进行调整,本专利不作具体限制。
在获得87位患者术后7天和76位患者术后6个月的复发情况和cfDNA片段化数据后,将DNA片段化长度比例(FSR)统计结果作为输入值(每个样本的输入向量中包括2164个读段片段大小比例构成的特征值),通过正则化Cox比例风险模型进行建模,并计算出每为患者在特定纵向时间(术后7天或术后6个月)的复发风险概率。根据这个复发风险概率值将所有患者分为高风险人群和低风险人群。
留一法(Leave one out)交叉验证:
常用的交叉验证中,把一个大的数据集分为K个小数据集,其中k-1个作为训练集,剩余K个作为验证集,在训练和测试的时候依次选择训练集和它对应的测试集,最终的结果是这K次验证的平均值。留一法是交叉验证的其中一种,这里使K等于数据集中的数据个数(K = N),每次只使用一个样本作为验证集,剩余的全部作为训练集,该方法每回合中几乎所有样本皆用于训练模型,因此最接近原始样本的分布,所得的结果也比较可靠。
基于以上的训练组和验证组的建模过程,结果如下:
最终术后7天模型中,未复发患者风险评分范围为(-18.074 ~ 11.068),中位数为-1.920;复发人群风险评分范围为(-5.335 ~ 23.471),中位数为4.98;分组截断值为5.89。最终
有71人低于截断值被分为低分险组,16人高于截断值被分为高分险组;术后6个月模型中,未复发患者风险评分范围为(-10.115 ~ 6.793),中位数为-1.3;复发患者风险评分范围为(-7.848 ~ 73.182),中位数为3.715;分组截断值为3.515。最终有60 人低于截断值被分为低分险组,16人高于截断值被分为高分险组。
最终术后7天模型区分复发人群和非复发人群的结果AUC为78.2%(95%CI:68-86.3%),模型的敏感性达到56.5%(95%CI34.5-76.8%),特异性达到85.9%(95%CI:75-93.4%);术后6个月模型区分复发人群和非复发人群的结果AUC为78.9%(95%CI:68.1-87.5%),模型的敏感性达到57.9%(95%CI:33.5%-79.7%),特异性达到86%(95%CI:84.2–93.7%).
该分组随后作为影响因子纳入多元的Cox回归分析中。
样本的多因素(本专利片段化模型的结果,基因组突变,年龄,性别,患者吸烟室,是否接受辅助治疗,癌症分期)纳入Cox比例风险模型的构建,其中各影响因子的风险率结果如下:
Figure SMS_2
以上实施例的解释和说明不构成对本专利保护范围的限制。

Claims (7)

1.检测基因标志物的试剂在用于制备非小细胞肺癌术后复发预测试剂中的应用,其特征在于,所述的基因标志物是指cfDNA中第一、第二、第三、第四片段在全部片段中所占的比例;
所述的第一、第二、第三、第四片段分别具有151-220bp、311-400bp、100-150bp和221-300bp的碱基长度;
所述的cfDNA来源于患者术后第7天-第6个月的血浆。
2.一种非小细胞肺癌术后复发预测模型的构建方法,其特征在于,包括如下步骤:
步骤1,从患者术后血浆中提取cfDNA,进行测序,并比对于参考基因组,获得其在参考基因组上的位置,以及获得各个cfDNA片段的长度;
步骤2,将参考基因组划分为多个窗口,分别统计出比对于各个窗口中的第一、第二、第三、第四片段的cfDNA在该窗口中全部cfDNA片段中的比例,作为第一、第二、第三、第三特征值;第一、第二、第三、第四片段分别具有151-220bp、311-400bp、100-150bp和221-300bp的碱基长度;
步骤3,分别将各个窗口中的第一、第二、第三、第四特征值作为Cox比例风险回归模型的自变量,建立发生生复发风险概率的模型;
所述的cfDNA来源于患者术后第7天-第6个月的血浆。
3.根据权利要求2所述的非小细胞肺癌术后复发预测模型的构建方法,其特征在于,所述的步骤1中,从患者术后血浆中提取cfDNA是在患者术后第7天-第6个月内进行。
4.根据权利要求2所述的非小细胞肺癌术后复发预测模型的构建方法,其特征在于,所述的步骤2中,将参考基因组划分为多个窗口是以5Mb为长度进行划分。
5.根据权利要求2所述的非小细胞肺癌术后复发预测模型的构建方法,其特征在于,所述的步骤3中,Cox比例风险回归模型中进行正则化处理。
6.一种非小细胞肺癌术后复发预测装置,其特征在于,包括:
提取模块,用于从患者术后血浆中提取cfDNA;
测序模块,用于对提取cfDN进行测序,并比对于参考基因组,获得其在参考基因组上的位置,以及获得各个cfDNA片段的长度;
统计模块,用于将参考基因组划分为多个窗口,分别统计出比对于各个窗口中的第一、第二、第三、第四片段的cfDNA在全部cfDNA片段中的该窗口中比例,作为第一、第二、第三、第三特征值;第一、第二、第三、第四片段分别具有151-220bp、311-400bp、100-150bp和221-300bp的碱基长度;
预测模块,分别将各个窗口中的第一、第二、第三、第四特征值作为Cox比例风险回归模型的自变量,建立发生生复发风险概率的模型;
所述的cfDNA来源于患者术后第7天-第6个月的血浆。
7.一种计算机可读取介质,其特征在于,其记载有能够运行以下非小细胞肺癌术后复发预测步骤的计算机程序:
步骤1,对患者术后血浆中提取cfDNA进行测序,并比对于参考基因组,获得其在参考基因组上的位置,以及获得各个cfDNA片段的长度;
步骤2,将参考基因组划分为多个窗口,分别统计出比对于各个窗口中的第一、第二、第三、第四片段的cfDNA在该窗口中全部cfDNA片段中的比例,作为第一、第二、第三、第三特征值;第一、第二、第三、第四片段分别具有151-220bp、311-400bp、100-150bp和221-300bp的碱基长度;
步骤3,分别将各个窗口中的第一、第二、第三、第四特征值作为Cox比例风险回归模型的自变量,建立发生生复发风险概率的模型;
步骤4,将待测样本执行步骤1-步骤2,将结果输入至步骤3中获得的模型中,计算出复发风险概率;
所述的cfDNA来源于患者术后第7天-第6个月的血浆。
CN202211718841.7A 2022-12-30 2022-12-30 标志物在肺癌复发预测中的应用和预测模型构建方法 Active CN115678999B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211718841.7A CN115678999B (zh) 2022-12-30 2022-12-30 标志物在肺癌复发预测中的应用和预测模型构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211718841.7A CN115678999B (zh) 2022-12-30 2022-12-30 标志物在肺癌复发预测中的应用和预测模型构建方法

Publications (2)

Publication Number Publication Date
CN115678999A CN115678999A (zh) 2023-02-03
CN115678999B true CN115678999B (zh) 2023-05-26

Family

ID=85057435

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211718841.7A Active CN115678999B (zh) 2022-12-30 2022-12-30 标志物在肺癌复发预测中的应用和预测模型构建方法

Country Status (1)

Country Link
CN (1) CN115678999B (zh)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116052768A (zh) * 2022-10-08 2023-05-02 南京世和基因生物技术股份有限公司 恶性肺结节筛查基因标志物、筛查模型的构建方法和检测装置

Also Published As

Publication number Publication date
CN115678999A (zh) 2023-02-03

Similar Documents

Publication Publication Date Title
US20230295738A1 (en) Systems and methods for detection of residual disease
Liang et al. Accurate diagnosis of pulmonary nodules using a noninvasive DNA methylation test
CN112086129B (zh) 预测肿瘤组织cfDNA的方法及系统
US11929148B2 (en) Systems and methods for enriching for cancer-derived fragments using fragment size
CN111128385B (zh) 一种用于食管鳞癌的预后预警系统及其应用
CN109830264B (zh) 肿瘤患者基于甲基化位点进行分类的方法
CN111863250B (zh) 一种早期乳腺癌的联合诊断模型及系统
CN115315749A (zh) 一种尿沉渣基因组dna的分类方法、装置和用途
CN115588507A (zh) 一种肺腺癌emt相关基因的预后模型及构建方法和应用
US20210166813A1 (en) Systems and methods for evaluating longitudinal biological feature data
JP2023524016A (ja) 結腸細胞増殖性障害を特定するためのrnaマーカと方法
CN115482880A (zh) 一种头颈鳞癌糖酵解相关基因预后模型及构建方法和应用
CN115896242A (zh) 一种基于外周血免疫特征的癌症智能筛查模型及方法
CN113345589A (zh) 肝癌预后模型的构建方法及应用方法、电子设备
CN113470813A (zh) 肝癌患者生存率预后模型
CN113436673A (zh) 一种用于肝癌预后预测的分子标志物及其应用
CN115678999B (zh) 标志物在肺癌复发预测中的应用和预测模型构建方法
CN111763740A (zh) 基于lncRNA分子模型预测食管鳞癌患者新辅助放化疗的疗效和预后的系统
CN116312800A (zh) 一种基于血浆中循环rna全转录组测序的肺癌特征识别方法、装置和存储介质
CN114974432A (zh) 一种生物标志物的筛选方法及其相关应用
CN113470754A (zh) 一种用于肿瘤预后评估的基因标志物、评估产品及应用
Cheng et al. Early signatures of breast cancer up to seven years prior to clinical diagnosis in plasma cell-free DNA methylomes
CN113241181A (zh) 一种用于肝癌患者的预后风险评估模型及评估装置
CN113450917A (zh) 生物标志物在预测肝癌预后中的应用
CN113159529A (zh) 一种肠道息肉的风险评估模型及相关系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant