发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明提供基于血浆游离DNA和蛋白质的多维特征和人工智能预测待测样本来源的方法,基于癌症基因组全景结合肿瘤标志物的技术路线。该技术以二代测序技术为基础,通过低深度全基因组测序(shallow WGS,sWGS)的方法绘制待测样品cfDNA中癌症基因组全景图谱的变化,同时联合特异性肿瘤标志物组合,结合大数据和人工智能,预测待测样本来源于肿瘤患者的概率。本发明基于待测样本的染色体不稳定指数、片段化模式、蛋白质标志物含量以及线粒体插入片段在150bp以下,通过多维度多变量加权算法,同时结合基因组学标记物和肿瘤蛋白标志物组合,以及血浆中cfDNA的浓度,使检测成本更加可控的前提下,更加灵敏和特异地预测待测样本来源。与基于靶向panel的技术相比,该检测方法覆盖基因组区域更广。
为此,本发明一方面提供一种预测待测样本来源的方法。根据本发明的实施例,所述方法包括:
(1)获取待测样本中染色体不稳定性指数;
(2)获取基于片段化模式确定待测样本来源于肿瘤患者的概率;
(3)获取基于待测样本肿瘤蛋白质标志物含量确定待测样本来源于肿瘤患者的概率;
(4)获取待测样本线粒体插入片段在150bp以下的比例;
(5)获取待测样本中cfDNA的浓度;
(6)对(1)~(5)中获得的数值进行标准化转化,对每个标准化转化指标的患癌贡献度进行加权,确定待测样本来源于肿瘤患者的概率,以便预测待测样本来源。
发明人创造性的发现,计算待测样本的cfDNA中P100的插入片段分布,同时将P180、P250、峰谷间距和和插入片段长度分布中峰值对应的片段长度也考虑在内,且通过计算每个区域短的插入片段(100~150bp)与长的插入片段(151~220bp)间的比值的绝对值,再求和,能够更好的区分待测样本是来源于肿瘤样本还是正常样本,以为进一步利用待测样品进行科研提供指导,或进一步为临床肿瘤诊断提供依据。并且发明人还发现,线粒体插入片段在150bp以下,正常样本与肿瘤样本的差异更加明显,因此基于待测样本线粒体插入片段在150bp以下的比例预测待测样本来源,能够更好的区分待测样本是来源于肿瘤样本还是正常样本。同时通过比较,发现肿瘤病人的cfDNA浓度显著高于正常人,因此通过cfDNA的浓度,可以辅助区别样本是来源肿瘤样本还是正常样本。
本发明采用cfDNA低深度全基因组测序加血浆肿瘤标志物检测,并且利用机器学习的方法构建多变量预测待测样本来源模型,以区分待测样本来源于肿瘤样本还是正常样本。本发明提供的预测待测样本来源的方法/模型,利用五个维度:基因拷贝数变异(copynumber aberration,CNA)、片段化模式(FS,fragment size)、肿瘤标志物(PTMs,proteintumor markers)、线粒体插入片段在150bp以下的比例,血浆中cfDNA的浓度,分别预测待测样本来源于肿瘤患者的概率,并对所有量化的数值指标进行标准化转化,最后对每个标准化指标的患癌贡献度进行加权,得到待测样本来源于肿瘤患者的概率,使检测成本更加可控的前提下,以更加灵敏和特异地预测待测样本来源。本发明中方法通过获知待测样本来源于癌症样本的概率,以预测待测样本来源,进而为科学研究提供检测指标,如在筛选癌症治疗药物或探知个体患癌原因的研究中,可通过针对给药前后或给予干扰因素前后,测定的待测样本来源于肿瘤患者的概率值,来筛选可用于癌症治疗的可靠药物或探知个体患癌的可能影响因素;又或者,利用本发明实施例的方法,获得待测样本来源于癌症样本的概率,提供癌症检测的指标。
根据本发明实施例的预测待测样本来源的方法,还可以具有以下附加技术特征的至少之一:
根据本发明的实施例,步骤(5)中获得待测样本来源于肿瘤患者的概率的算法的计算公式为:
式中,x1表示染色体不稳定性指数(即CNV变异区域数目);
x2表示基于片段化模式确定待测样本来源于肿瘤患者的概率;
x3表示基于肿瘤蛋白质定量后确定待测样本来源于肿瘤患者的概率;
x4表示线粒体插入片段在150bp以下的比例;
x5表示血浆中cfDNA的浓度;
α是一个常数,β1、β2、β3、β4、β5是通过机器学习逻辑回归预测出来的回归系数。
根据本发明实施例,可以选取98%特异性下对应的cut-off值作为阈值,用来预测待测样本来源,如果待测样本来源于肿瘤患者的值大于阈值,则预测待测样本来源于肿瘤患者。
根据本发明的实施例,基于片段化模式确定待测样本来源于肿瘤患者的概率是通过以下步骤实现的:
(2-1)从待测样本中获取cfDNA样本;
(2-2)基于所述cfDNA样本,构建测序文库;
(2-3)对所述测序文库进行测序,以便获得测序结果,所述测序结果由多个测序读段构成;
(2-4)基于所述测序读段,统计P100、P180、P250、峰谷间距和插入片段长度分布中峰值对应的片段长度;
(2-5)获取待测样本基因组,构建测序文库并进行测序,基于测序结果中的测序读段,以便获得不同染色体区域中不同预定长度插入片段的测序读段数目的比值,计算差异总和;
(2-6)对(2-4)和(2-5)获得的结果使用机器学习的方法进行建模,基于建模结果预测待测样本来源的分值,
其中,P100是指待测样本的插入片段30~100bp的数量除以总的插入片段总数的数量的比值;
P180是指待测样本的插入片段180~220bp的数量除以总的插入片段总数的数量的比值;
P250是指待测样本的插入片段250~300bp的数量除以总的插入片段总数的数量的比值;
所述峰谷间距是指插入片段在小于150bp范围内,每个波峰与与其相邻的波谷对应长度±2bp的插入片段的测序读段数目占样本染色体的测序读段的总数目的比例的差值;
所述插入片段长度分布中峰值对应的片段长度是基于统计样本不同插入片段长度对应的测序读段数目,测序读段数目最多对应的片段长度。
计算待测样本的cfDNA中P100的插入片段分布,同时将P180、P250、峰谷间距和插入片段长度分布中峰值对应的片段长度也考虑在内,且通过计算每个区域短的插入片段(100~150bp)与长的插入片段(151~220bp)间的比值的绝对值,再求和,能够更好的区分待测样本是来源于肿瘤样本还是正常样本,以为进一步利用待测样品进行科研提供指导,或进一步为临床肿瘤诊断提供依据。
根据本发明的实施例,在步骤(2-5)中,不同染色体区域中不同预定长度插入片段的测序读段数目的比值通过以下方式获取:
a)将人的参考基因组划分为多个相同长度的窗口区间,任选地,所述窗口区间的大小为100kb;
b)确定每个窗口区间内不同预定长度插入片段的测序读段数目,任选地,所述预定长度插入片段的长度为100~150bp或151~220bp;
c)确定每个窗口区间内不同预定长度插入片段的测序读段数目的比值。
根据本发明的实施例,在每个窗口区间内,进一步包括对预定长度插入片段的测序读段数目进行校正处理。
根据本发明的实施例,在每个窗口区间内,所述校正处理通过将在每个窗口区间内预定长度的插入片段的测序读段数目的中位值加上片段数目残差获得。根据本发明的实施例,所述片段数目残差是通过以下方式获得的:
(i)确定所述每个窗口区间内的GC含量和比对率;
(ii)将步骤(i)所获得的每个窗口区间内的GC含量和比对率进行组合和分组处理,获得每个GC含量和比对率组合对应窗口区间的测序读段数目的中位值;
(ⅲ)基于局部加权非参数回归方法(LOESS),构建GC含量和比对率组合对应窗口区间的测序读段数目中位值相对于GC含量和比对率的拟合曲线;
(ⅳ)基于所述拟合曲线以及每个窗口区间内的GC含量和比对率,确定每个窗口区间内的理论插入片段数目;
(ⅴ)将每个窗口区间内的预定长度的插入片段的测序读段数目减去步骤(ⅳ)所获得的理论插入片段数目,获得每个窗口区间内的预定长度的插入片段数目的残差。
根据本发明的实施例,所述差异总和的计算方法为将每个插入片段读段数目加和的比值减去所有插入片段读段数目加和的比值的中位值后的绝对值求和,公式如下:
Σabs(Si/Li-median(S1/L1,S2/L2,…,Sn/Ln));
其中,S为100~150bp的插入片段,L为151~220bp的插入片段,abs()指对括号内的值求绝对值,median()指对括号内的值求中位值,i为每个插入片段的读段区间,n为插入片段的读段区间总数。
根据本发明的实施例,所述插入片段读段数目加和的比值是通过以下方式获得的:
1)将预定区间内的预定长度插入片段的数目进行加和处理,所述加和处理包括分别将插入片段的长度为100~150bp的插入片段的读段数目进行加和和将插入片段的长度为151~220bp的插入片段的读段数目进行加和,
任选地,所述加和处理后的区间的长度为5M;
2)将插入片段的长度为100~150bp的插入片段的读段数目加和除以插入片段的长度为151~220bp的插入片段的读段数目加和,以便获得插入片段读段数目加和的比值。
根据本发明的实施例,所述机器学习建立的模型选自SVM、Lasso、GBM中的至少之一,
任选地,所述机器学习建立的模型为Lasso,基于ROC曲线、预定的敏感性或特异性,确定相应阈值;
任选地,所述预定的特异性为95%,所述阈值为0.80。
根据本发明的实施例,所述待测样本的线粒体插入片段在150bp以下的比例是通过如下方式确定的:
确定比对到参考线粒体基因序列的测序读段的数目;
基于比对到参考线粒体基因序列的测序读段中挑选插入片段小于150bp,计算测序读段数目,并除以测序读段的总数目。
发明人发现,线粒体插入片段在150bp以下,正常样本与肿瘤样本的差异更加明显,因此基于待测样本线粒体插入片段在150bp以下的比例预测待测样本来源,能够更好的区分待测样本是来源于肿瘤样本还是正常样本。
根据本发明的实施例,所述待测样本来源于疑似癌症患者。
根据本发明的实施例,所述待测样本为血液、体液、尿液、唾液或皮肤。
本发明另一方面提供一种监测待测样本来源的方法。根据本发明的实施例,所述方法包括选取来源于疑似癌症患者的不同时刻的待测样本,利用所述的预测待测样本来源的方法预测待测样本来源。
当在筛选癌症治疗药物或探知个体患癌原因的研究中,对肿瘤患者施用治疗药物之后,可能测得的待测样本来源于肿瘤患者的概率会降低,甚至预测待测样本来源于正常样本,然而,仍需要在特定的时间再次采用本发明中方法检测待测样本来源于肿瘤患者的概率,以评估该癌症治疗药物是否能够防止癌症的复发。
本发明又一方面提供一种评估待测样本来源的电子设备。根据本发明的实施例,所述评估待测样本来源的电子设备包括存储器、处理器;
其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现所述的预测待测样本来源的方法。
本发明又一方面提供一种计算机可读存储介质。根据本发明的实施例,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述的预测待测样本来源的方法。
本发明又一方面提供一种预测待测样本来源的系统。根据本发明的实施例,所述系统包括:
染色体不稳定性指数测定装置,所述染色体不稳定性指数测定装置用于测定待测样本染色体不稳定性指数;
片段化模式测定装置,所述片段化模式测定装置用于测定基于片段化模式确定待测样本来源于肿瘤患者的概率;
蛋白质标志物含量测定装置,所述蛋白质标志物含量测定装置用于测定基于待测样本肿瘤蛋白质标志物含量确定待测样本来源于肿瘤患者的概率;
线粒体插入片段测定装置,所述线粒体插入片段测定装置用于测定待测样本中线粒体插入片段在150bp以下的比例;
血浆中cfDNA的浓度测定装置,所述血浆中cfDNA的浓度测定装置用于测定待测样本的血浆中cfDNA的浓度;
标准化处理装置,所述标准化处理装置与所述染色体不稳定性指数测定装置、片段化模式测定装置、蛋白质标志物含量测定装置、线粒体插入片段测定装置相连、血浆中cfDNA的浓度测定装置,对获得的待测样本染色体不稳定性指数、基于片段化模式确定待测样本来源于肿瘤患者的概率、基于待测样本肿瘤蛋白质标志物含量确定待测样本来源于肿瘤患者的概率、线粒体插入片段在150bp以下的比例、血浆中cfDNA的浓度进行标准化处理;
确定装置,所述确定装置与所述标准化处理装置相连,用于基于标准化处理装置所获得的标准化处理后的样本数据以及预测模型,确定所述待测样本来源于肿瘤患者的概率。
根据本发明的实施例的预测待测样本来源的系统,还可以具有以下附加技术特征的至少之一:
根据本发明的实施例,所述确定装置中获得待测样本来源于肿瘤患者的概率的算法的计算公式为:
式中,x1表示染色体不稳定性指数;
x2表示基于片段化模式确定待测样本来源于肿瘤患者的概率;
x3表示基于肿瘤蛋白质定量后确定待测样本来源于肿瘤患者的概率;
x4表示线粒体插入片段在150bp以下的比例;
x5表示血浆中cfDNA的浓度;
α是一个常数,β1、β2、β3、β4、β5是通过机器学习逻辑回归预测出来的回归系数。
根据本发明的实施例,所述系统进一步包括预测模型获得装置,所述预测模型获得装置适于通过如下方式获得所述预测模型:
(M1)将已知类型样本进行染色体不稳定性指数、片段化模式、肿瘤蛋白质含量、线粒体插入片段在150bp以下的比例、血浆中cfDNA的浓度测定处理,以便获得所述已知类型样本的染色体不稳定性指数、片段化模式、肿瘤蛋白质含量、线粒体插入片段在150bp以下的比例、血浆中cfDNA的浓度,所述已知类型样本由已知数目的正常样本和已知数目的肿瘤样本组成;
(M2)将已知类型样本数据进行标准化处理,以便获得所述已知类型样本数据的标准差和方差,所述数据包括:步骤(M1)所获得的染色体不稳定性指数、片段化模式、肿瘤蛋白质含量、线粒体插入片段在150bp以下的比例,以及血浆中cfDNA的浓度;
(M3)使用机器学习模型和10-fold交叉验证方法,确定机器学习模型的预测效果、方差和偏差;
(M4)基于机器学习模型的预测效果、方差和偏差,确定所述预测模型;
优选地,所述机器学习模型选自SVM、Lasso、GBM中的至少之一。
根据本发明的实施例,所述片段化模式测定装置测定基于片段化模式确定待测样本来源于肿瘤患者的概率是通过以下步骤实现的:
(2-1)从待测样本中获取cfDNA样本;
(2-2)基于所述cfDNA样本,构建测序文库;
(2-3)对所述测序文库进行测序,以便获得测序结果,所述测序结果由多个测序读段构成;
(2-4)基于所述测序读段,统计P100、P180、P250、峰谷间距和插入片段长度分布中峰值对应的片段长度;
(2-5)获取待测样本基因组,构建测序文库并进行测序,基于测序结果中的测序读段,以便获得不同染色体区域中不同预定长度插入片段的测序读段数目的比值,计算差异总和;
(2-6)对(2-4)和(2-5)获得的结果使用机器学习的方法进行建模,基于建模结果确定待测样本来源于肿瘤患者的概率,
其中,P100是指待测样本的插入片段30~100bp的数量除以总的插入片段总数的数量的比值;
P180是指待测样本的插入片段180~220bp的数量除以总的插入片段总数的数量的比值;
P250是指待测样本的插入片段250~300bp的数量除以总的插入片段总数的数量的比值;
所述峰谷间距是指插入片段在小于150bp范围内,每个波峰与与其相邻的波谷对应长度±2bp的插入片段的测序读段数目占样本染色体的测序读段的总数目的比例的差值;
所述插入片段长度分布中峰值对应的片段长度是基于统计样本不同插入片段长度对应的测序读段数目,测序读段数目最多对应的片段长度。
根据本发明的实施例,在步骤(2-5)中,不同染色体区域中不同预定长度插入片段的测序读段数目的比值通过以下方式获取:
a)将人的参考基因组划分为多个相同长度的窗口区间,任选地,所述窗口区间的大小为100kb;
b)确定每个窗口区间内不同预定长度插入片段的测序读段数目,任选地,所述预定长度插入片段的长度为100~150bp或151~220bp;
c)确定每个窗口区间内不同预定长度插入片段的测序读段数目的比值;
任选地,在每个窗口区间内,进一步包括对预定长度插入片段的测序读段数目进行校正处理,
在每个窗口区间内,所述校正处理通过将在每个窗口区间内预定长度的插入片段的测序读段数目的中位值加上片段数目残差获得,
所述片段数目残差是通过以下方式获得的:
(i)确定所述每个窗口区间内的GC含量和比对率;
(ii)将步骤(i)所获得的每个窗口区间内的GC含量和比对率进行组合和分组处理,获得每个GC含量和比对率组合对应窗口区间的测序读段数目的中位值;
(ⅲ)基于局部加权非参数回归方法(LOESS),构建GC含量和比对率组合对应窗口区间的测序读段数目中位值相对于GC含量和比对率的拟合曲线;
(ⅳ)基于所述拟合曲线以及每个窗口区间内的GC含量和比对率,确定每个窗口区间内的理论插入片段数目;
(ⅴ)将每个窗口区间内的预定长度的插入片段的测序读段数目减去步骤(ⅳ)所获得的理论插入片段数目,获得每个窗口区间内的预定长度的插入片段数目的残差。
根据本发明的实施例,所述差异总和的计算方法为将每个插入片段读段数目加和的比值减去所有插入片段读段数目加和的比值的中位值后的绝对值求和,公式如下:
Σabs(Si/Li-median(S1/L1,S2/L2,…,Sn/Ln));
其中,S为100~150bp的插入片段,L为151~220bp的插入片段,abs()指对括号内的值求绝对值,median()指对括号内的值求中位值,i为每个插入片段的读段区间,n为插入片段的读段区间总数,
所述插入片段读段数目加和的比值是通过以下方式获得的:
1)将预定区间内的预定长度插入片段的数目进行加和处理,所述加和处理包括分别将插入片段的长度为100~150bp的插入片段的读段数目进行加和和将插入片段的长度为151~220bp的插入片段的读段数目进行加和,
任选地,所述加和处理后的区间的长度为5M;
2)将插入片段的长度为100~150bp的插入片段的读段数目加和除以插入片段的长度为151~220bp的插入片段的读段数目加和,以便获得插入片段读段数目加和的比值,
任选地,所述机器学习建立的模型选自SVM、Lasso、GBM中的至少之一,
任选地,所述机器学习建立的模型为Lasso,基于ROC曲线、预定的敏感性或特异性,确定相应阈值;
任选地,所述预定的特异性为95%,所述阈值为0.80。
根据本发明的实施例,所述线粒体插入片段测定装置测定待测样本的线粒体插入片段在150bp以下的比例是通过如下方式确定的:
确定比对到参考线粒体基因序列的测序读段的数目;
基于比对到参考线粒体基因序列的测序读段中挑选插入片段小于150bp,计算测序读段数目,并除以测序读段的总数目。
根据本发明的实施例,所述待测样本来源于疑似癌症患者;
任选地,所述待测样本为血液、体液、尿液、唾液或皮肤。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
为了描述方便,本发明所提出的预测待测样本来源的系统的结构示意图可参考图1。根据本发明的实施例,所述系统包括:
染色体不稳定性指数测定装置100,所述染色体不稳定性指数测定装置100用于测定待测样本染色体不稳定性指数;
片段化模式测定装置200,所述片段化模式测定装置200用于测定基于片段化模式确定待测样本来源于肿瘤患者的概率;
蛋白质标志物含量测定装置300,所述蛋白质标志物含量测定装置300用于测定基于待测样本肿瘤蛋白质标志物含量确定待测样本来源于肿瘤患者的概率;
线粒体插入片段测定装置400,所述线粒体插入片段测定装置400用于测定待测样本中线粒体插入片段在150bp以下的比例;
血浆中cfDNA的浓度测定装置500,所述血浆中cfDNA的浓度测定装置500用于测定待测样本的血浆中cfDNA的浓度;
标准化处理装置600,所述标准化处理装置600与所述染色体不稳定性指数测定装置100、片段化模式测定装置200、蛋白质标志物含量测定装置300、线粒体插入片段测定装置400、血浆中cfDNA的浓度测定装置500相连,对获得的待测样本染色体不稳定性指数、基于片段化模式确定待测样本来源于肿瘤患者的概率、基于待测样本肿瘤蛋白质标志物含量确定待测样本来源于肿瘤患者的概率、线粒体插入片段在150bp以下的比例、血浆中cfDNA的浓度进行标准化处理;
确定装置700,所述确定装置700与所述标准化处理装置600相连,用于基于标准化处理装置600所获得的标准化处理后的样本数据以及预测模型,确定所述待测样本来源于肿瘤患者的概率。
根据本发明的具体实施例,所述确定装置700中获得待测样本来源于肿瘤患者的概率的算法的计算公式为:
式中,x1表示染色体不稳定性指数;
x2表示基于片段化模式确定待测样本来源于肿瘤患者的概率;
x3表示基于肿瘤蛋白质定量后确定待测样本来源于肿瘤患者的概率;
x4表示线粒体插入片段在150bp以下的比例;
x5表示血浆中cfDNA的浓度;
α是一个常数,β1、β2、β3、β4、β5是通过机器学习逻辑回归预测出来的回归系数。
根据本发明的具体实施例,参考图2,所述系统进一步包括:预测模型获得装置800,所述预测模型获得装置800与确定装置700相连,所述预测模型获得装置800适于通过如下方式获得所述预测模型:
(M1)将已知类型样本进行染色体不稳定性指数、片段化模式、肿瘤蛋白质含量、血浆中cfDNA的含量,线粒体插入片段在150bp以下的比例测定处理,以便获得所述已知类型样本的染色体不稳定性指数、片段化模式、肿瘤蛋白质含量、线粒体插入片段在150bp以下的比例、血浆中cfDNA的浓度,所述已知类型样本由已知数目的正常样本和已知数目的肿瘤样本组成;
(M2)将已知类型样本数据进行标准化处理,以便获得所述已知类型样本数据的标准差和方差,所述数据包括:步骤(M1)所获得的染色体不稳定性指数、片段化模式、肿瘤蛋白质含量、线粒体插入片段在150bp以下的比例、血浆中cfDNA的浓度;
(M3)使用机器学习模型和10-fold交叉验证方法,确定机器学习模型的预测效果、方差和偏差;
(M4)基于机器学习模型的预测效果、方差和偏差,确定所述预测模型;
优选地,所述机器学习模型选自SVM、Lasso、GBM中的至少之一。
根据本发明的具体实施例,所述片段化模式测定装置200测定基于片段化模式确定待测样本来源于肿瘤患者的概率是通过以下步骤实现的:
(2-1)从待测样本中获取cfDNA样本;
(2-2)基于所述cfDNA样本,构建测序文库;
(2-3)对所述测序文库进行测序,以便获得测序结果,所述测序结果由多个测序读段构成;
(2-4)基于所述测序读段,统计P100、P180、P250、峰谷间距和插入片段长度分布中峰值对应的片段长度;
(2-5)获取待测样本基因组,构建测序文库并进行测序,基于测序结果中的测序读段,以便获得不同染色体区域中不同预定长度插入片段的测序读段数目的比值,计算差异总和;
(2-6)对(2-4)和(2-5)获得的结果使用机器学习的方法进行建模,基于建模结果确定待测样本来源于肿瘤患者的概率,
其中,P100是指待测样本的插入片段30~100bp的数量除以总的插入片段总数的数量的比值;
P180是指待测样本的插入片段180~220bp的数量除以总的插入片段总数的数量的比值;
P250是指待测样本的插入片段250~300bp的数量除以总的插入片段总数的数量的比值;
所述峰谷间距是指插入片段在小于150bp范围内,每个波峰与与其相邻的波谷对应长度±2bp的插入片段的测序读段数目占样本染色体的测序读段的总数目的比例的差值;
所述插入片段长度分布中峰值对应的片段长度是基于统计样本不同插入片段长度对应的测序读段数目,测序读段数目最多对应的片段长度。
根据本发明的具体实施例,在步骤(2-5)中,不同染色体区域中不同预定长度插入片段的测序读段数目的比值通过以下方式获取:
a)将人的参考基因组划分为多个相同长度的窗口区间,任选地,所述窗口区间的大小为100kb;
b)确定每个窗口区间内不同预定长度插入片段的测序读段数目,任选地,所述预定长度插入片段的长度为100~150bp或151~220bp;
c)确定每个窗口区间内不同预定长度插入片段的测序读段数目的比值;
任选地,在每个窗口区间内,进一步包括对预定长度插入片段的测序读段数目进行校正处理,
在每个窗口区间内,所述校正处理通过将在每个窗口区间内预定长度的插入片段的测序读段数目的中位值加上片段数目残差获得,
所述片段数目残差是通过以下方式获得的:
(i)确定所述每个窗口区间内的GC含量和比对率;
(ii)将步骤(i)所获得的每个窗口区间内的GC含量和比对率进行组合和分组处理,获得每个GC含量和比对率组合对应窗口区间的测序读段数目的中位值;
(ⅲ)基于局部加权非参数回归方法(LOESS),构建GC含量和比对率组合对应窗口区间的测序读段数目中位值相对于GC含量和比对率的拟合曲线;
(ⅳ)基于所述拟合曲线以及每个窗口区间内的GC含量和比对率,确定每个窗口区间内的理论插入片段数目;
(ⅴ)将每个窗口区间内的预定长度的插入片段的测序读段数目减去步骤(ⅳ)所获得的理论插入片段数目,获得每个窗口区间内的预定长度的插入片段数目的残差。
根据本发明的具体实施例,所述差异总和的计算方法为将每个插入片段读段数目加和的比值减去所有插入片段读段数目加和的比值的中位值后的绝对值求和,公式如下:
Σabs(Si/Li-median(S1/L1,S2/L2,…,Sn/Ln));
其中,S为100~150bp的插入片段,L为151~220bp的插入片段,abs()指对括号内的值求绝对值,median()指对括号内的值求中位值,i为每个插入片段的读段区间,n为插入片段的读段区间总数,
所述插入片段读段数目加和的比值是通过以下方式获得的:
1)将预定区间内的预定长度插入片段的数目进行加和处理,所述加和处理包括分别将插入片段的长度为100~150bp的插入片段的读段数目进行加和和将插入片段的长度为151~220bp的插入片段的读段数目进行加和,
所述加和处理后的区间的长度为5M;
2)将插入片段的长度为100~150bp的插入片段的读段数目加和除以插入片段的长度为151~220bp的插入片段的读段数目加和,以便获得插入片段读段数目加和的比值,
任选地,所述机器学习建立的模型选自SVM、Lasso、GBM中的至少之一,
任选地,所述机器学习建立的模型为Lasso,基于ROC曲线、预定的敏感性或特异性,确定相应阈值;
任选地,所述预定的特异性为95%,所述阈值为0.80。
根据本发明的具体实施例,所述线粒体插入片段测定装置400测定待测样本的线粒体插入片段在150bp以下的比例是通过如下方式确定的:
确定比对到参考线粒体基因序列的测序读段的数目;
基于比对到参考线粒体基因序列的测序读段中挑选插入片段小于150bp,计算测序读段数目,并除以测序读段的总数目。
下面详细描述本发明的实施例。下面描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。实施例中未注明具体技术或条件的,按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可以通过市购获得的常规产品。
实施例1
1.血浆分离
a)准备好实验所需的仪器、试剂、耗材,高速冷冻离心机应提前预冷至4℃。
b)如果外周血样本是用EDTA抗凝管采集的,抽血之后立马放进4℃冰箱,并在2小时内进行血浆分离。如果外周血样本是用streck管等游离核酸保存管采集的,则可在常温放置,并在采血管说明书规定的时间内进行血浆分离分离。
c)记录样本信息,将采血管配平,将高速冷冻离心机换成水平转子,并设定参数:温度4℃,离心力1600g,时间10min。将采血管配平之后放置在离心机中,进行离心。
d)离心完成之后,将采血管放置在生物安全柜的离心管架上。将离心后采血管中的上清收集至新的15mL离心管中,在管壁标记样本编号以及操作时间。注意在收集上清时需要仔细操作,避免吸入白细胞。
e)将高速冷冻离心机换成角转子,并设定参数:温度4℃,离心力16000g,时间10min。将装有上清的15mL离心管配平之后放置在离心机中,进行离心。
f)离心完成之后,将装有上清的15mL离心管放置在生物安全柜的离心管架上。将离心后离心管中的上清收集至新的15mL离心管中。并取出500μ0上清保存在1.5mL离心管中,并用于后续肿瘤标志物检测。注意在收集上清时需要仔细操作,避免吸入沉淀。这一步的目的是去除血浆当中的细胞碎片等杂质。
g)将血浆以及血细胞放置于-80℃冰箱保存,备用。
h)实验完成后,将所有物品归位,并清洁实验台面,将生物安全柜紫外灯打开,照射30min后关闭。记录详细的实验记录。
2.cfDNA提取
i)准备好实验所需的仪器、试剂、耗材。打开水浴锅,并调节温度至60℃。打开金属浴,并调节温度至56℃。确认试剂盒有效期,buffer ACB是否加有合适量的异丙醇,bufferACW1以及buffer ACW1是否加有合适量的无水乙醇。
j)记录样本编号等信息。
k)若是分离的新鲜血浆,则直接进行cfDNA提取。若血浆冻存在-80℃条件下,需将血浆样本解冻后,在16,000x g[固定角转头]的离心力以及4℃的温度条件下离心5min以去除冷冻沉淀。
l)按照表1配置所需量的ACL混合液。
表1:处理4ml样本所需的Buffel ACL以及carrier RNA(溶解于BufferAVE)体积用量
m)转移400μl Proteinase K至装有4ml血浆的50ml离心管中。间断涡旋30s以充分混匀。
n)加入3.2ml的Buffer ACL(含有1.0μg carrier RNA)。剧烈涡旋混匀15秒。确保离心管经剧烈涡旋,以保证样本和Buffer ACL的重复混匀,从而实现高效的裂解。
o)注意:此步完成后请不要中断实验并立即进行下步的裂解孵育步骤。
p)将离心管接着60℃水浴30分钟。
q)向上述反应液中加入7.2ml的Buffer ACB。盖上管盖,间断涡旋15s以充分混匀。
r)将含有Buffer ACB的裂解液至于冰上孵育或冷藏孵育5min。
s)组装抽滤装置:把VacValve插在24孔底上,再把VacConnectors插入VacValve中,再将QIAamp Mini硅胶膜柱连接到VacConnectors上,最后把20ml扩容管插入到硅胶膜柱上。确保扩容管插入紧实以防止样本泄露。注意:将2ml收集管留下至后续空转时才使用。并在硅胶膜柱上做好样本编号的标记。VacValve可调节流速,VacConnectors可以防止污染,QIAamp Mini硅胶膜柱用于吸附DNA,扩容管用于装大体积血浆。
t)把孵育完的混合物转移至扩容管中,打开真空泵,待离心柱中的裂解液完全抽干后,关闭真空泵,打开24孔底座一侧的排气阀将压力释放到0兆帕。小心地将扩容管拆下并丢弃。
u)向QIAamp Mini硅胶膜柱中加入600μl的Buffer ACW1,关闭排气阀,并打开真空泵,进行抽滤液体。当离心柱中Buffer ACW1被抽干后,关闭真空泵,打开24孔底座一侧的排气阀将压力释放到0兆帕。
v)向QIAamp Mini硅胶膜柱中加入750μl的Buffer ACW2,关闭排气阀,并打开真空泵,进行抽滤液体。当离心柱中Buffer ACW2被抽干后,关闭真空泵,打开24孔底座一侧的排气阀将压力释放到0兆帕。
w)向QIAamp Mini硅胶膜柱中加入750μl的无水乙醇溶液,关闭排气阀,并打开真空泵,进行抽滤液体。当离心柱中无水乙醇被抽干后,关闭真空泵,打开24孔底座一侧的排气阀将压力释放到0兆帕。关闭真空泵电源。
x)盖上QIAamp Mini硅胶膜柱并从真空支管上取下后放置到干净的2ml收集管中,将VacConnector丢弃。收集管在全速条件(20,000x g;14,000rpm)下离心3min。
y)将QIAamp Mini硅胶膜柱放置到新的2ml收集管中,开盖并置于56℃条件下的金属浴上干燥10min至硅胶膜彻底干燥。
z)将QIAamp Mini硅胶膜柱取出后放置到干净的1.5ml洗脱管(试剂盒自带)中,并将使用过的2ml的收集管丢弃。
aa)向QIAamp Mini硅胶膜柱中硅胶膜的中央小心加入Nuclease-free water进行洗脱:20~60μl)。盖上管盖后在室温孵育3min。
bb)将洗脱管置于小型离心机中全速(20,000x g;14,000rpm)离心1min来洗脱cfDNA。
cc)质量标准与评估
Qubit HS定量:取1μLcfDNA利用Qubit 4.0(Thermo Fisher Scientific,Q33226)结合QubitdsDNA HS Assay Kits(Thermo Fisher Scientific,Q32854)进行定量测定,记录浓度ng/μl。
Agilent 2100检测:取1μLcfDNA利用Agilent 2100生物分析仪(Agilent,G29939BA)结合Agilent High Sensitivity DNA Kit(Agilent,5067-4626)进行cfDNA峰图检测,测定cfDNA片段分布。
dd)实验完成后,将所有物品归位,并清洁实验台面,将生物安全柜紫外灯打开,照射30min后关闭。记录详细的实验记录。
cfDNA浓度计算方法:Qublit浓度ng/μl*洗脱体积/血浆的体积
3.cfDNA文库构建
ee)建库前准备
i.从4℃冰箱取出纯化DNA所用的磁珠(AMPureXP beads,Beckman),室温平衡30min再使用。
ii.从-20℃冰箱内取出End Repair&A-Tailing Buffer和End Repair&A-TailingBuffer enzyme mix试剂,置于冰盒上解冻,待用。
iii.将要建库的cfDNA样本名称、取样日期、DNA浓度记录在实验记录本上,并编写好编号,方便之后操作。
iv.取相应数量的200μL PCR管,写好编号(管盖和管壁都标注编号)。
v.按cfDNA建库起始量10ng≤X≤100ng标准计算每个cfDNA样本所需要的DNA溶液体积,记录在实验记录本上,并取相应的体积置于对应的200μL PCR管内。
vi.向每个200μL PCR管内加入适量的Nuclease-Free water,使终体积达到50μL。
vii.注:在建库过程中配制所有反应体系应遵循如下规则:若样本少于四个,不需配制混合体系,每个样本独立加入反应体系中的每种成分溶液;若超过四个样本,则将反应体系中每个成分溶液按所需用量的105%配制混合体系,然后逐一加入各个样本中。
ff)末端修复&加A
i.按照表2所示,配制末端修复&加A反应体系。
表2:
ii.向每个200μl PCR管内加入10μL上述末端修复反应体系,混匀后低速离心,设定PCR仪,程序如下表3。
表3:
iii.将反应体系从PCR仪中取出,放置在小黄板上,并进行接头连接反应。
gg)接头连接反应体系
i.按照表4所示,配制接头连接反应体系。
表4:
成分 |
1个反应体系 |
8个反应体系(过量5%) |
PCR-级水(PCR-grade water) |
5μL |
42μL |
连接缓冲液(Ligation Buffer) |
30μL |
252μL |
DNA连接酶(DNA Ligase) |
10μL |
84μL |
总体积(Total volume) |
45μL |
378μL |
ii.向每个反应管中加入45μL上述反应体系,温和混合均匀,低速离心。
iii.根据input DNA量加入适量的adapter,具体DNA:adapter如下表5,每个反应管各加入5μL adapter。另外根据测序要求,每个样本加入不同的adapter,使得同一个lane中不会出现两个样本使用同一个adapter的情况,记录好每个样本使用的adapter信息。
表5:
iv.混合均匀,并放入PCR仪中,设定温度20℃,反应15min。
hh)DNA纯化
i.配制80%乙醇(例如配置50mL 80%乙醇:40mL无水乙醇+10mL Nuclease-freeWater),80%乙醇应现用现配。
ii.准备相应数量的1.5mL样本管,并做好相应的标记。
iii.将事先在室温平衡好的磁珠充分震荡混匀,并向每个管中分装88μL。
iv.将上述加了adapter的DNA与磁珠混匀。室温静置10min。
v.将1.5mL样本管置于磁力架上,进行磁珠吸附,直至溶液澄清。
vi.小心移除上清液,再加入200μL 80%乙醇,将样本管水平旋转360度,静置30s后弃上清液。(此过程,离心管一直保持在磁力架上。)
vii.重复上述步骤一次。
viii.应将所有残留的酒精溶液移除。打开管盖,常温下干燥磁珠,挥发乙醇,以免过多乙醇影响后续反应体系中酶的效果。注意:不可过分干燥磁珠,否则会导致DNA不容易从磁珠上洗脱下来,造成产量损失。当磁珠表面不再有光泽时即为干燥完成。
ix.每个样本管内加入21μL Nuclease-Free water,重悬浮磁珠,充分混匀后室温静置5min。
x.准备一批新的200μL PCR管,管盖管壁标注对应的样本编号。
xi.将样本管置于磁力架,进行磁珠吸附,直至溶液澄清后,将上清液转移至对应编号的PCR管中,作为PCR实验的模板。
ii)文库扩增
i.按照表6所示,配制文库扩增反应体系。
表6:
ii.每个0.2mL样本管内加入30μL Pre-PCR扩增反应体系,温和混匀并低速离心,放入PCR仪中反应。
iii.将PCR仪设定如下程序,PCR cycle应根据input DNA量适当调整,见表7。
表7:
iv.循环数选择参考表格8。
表8:
Input DNA量(ng) |
PCR cycle |
X>50ng |
4 |
25ng<X≤50ng |
5 |
10ng<X≤25ng |
6 |
X≤10ng |
7 |
v.Pre-PCR反应结束后,开始进行文库纯化。
jj)文库纯化
i.准备相应数量的1.5mL样本管,并做好相应的标记。
ii.将事先在室温平衡好的磁珠充分震荡混匀,并向每个管中分装50μL。
iii.将上述加了adapter的DNA与磁珠混匀。室温静置10min。
iv.将1.5mL样本管置于磁力架上,进行磁珠吸附,直至溶液澄清。
v.小心移除上清液,再加入200μL 80%乙醇,将样本管水平旋转360度,静置30s后弃上清液。(此过程,离心管一直保持在磁力架上。)
vi.重复上述步骤一次。
vii.应将所有残留的酒精溶液移除。打开管盖,常温下干燥磁珠,挥发乙醇,以免过多乙醇影响后续反应体系中酶的效果。注意:不可过分干燥磁珠,否则会导致DNA不容易从磁珠上洗脱下来,造成产量损失。当磁珠表面不再有光泽时即为干燥完成。
viii.每个样本管内加入35μL Nuclease-Free water,重悬浮磁珠,充分混匀后室温静置5min。
ix.准备一批新的离心管,管盖上标注所属项目,取样日期,样本名称;管壁上标注接头信息,建库日期,浓度。
x.将1.5mL样本管置于磁力架上,进行磁珠吸附,直至溶液澄清后,将上清液转移至对应的新的写有样本信息的1.5mL离心管。
xi.取1μl文库使用Qubit进行定量,1μl文库使用Agilent 2100测定文库片段大小,并记录相应信息。
xii.样本放入相对应项目的冻存盒内,置于-20℃保存。
xiii.实验完成后,将所有物品归位,并清洁实验台面,将超净工作台紫外灯打开,照射30min后关闭。记录详细的实验信息。
4.文库pooling
kk)准备好实验所需的仪器、试剂、耗材。
ll)按照测定的浓度以及所需要测定的数据量,计算各个样本需要pooling体积。
mm)取一个新的1.5ml离心管,做好标记。将各个样本按照计算的pooling体积进行pooling在同一个1.5ml离心管中。
nn)混合均匀之后,测定浓度,并记录信息。
oo)实验完成后,将所有物品归位,并清洁实验台面。
5.上机测序
将上述pooling好的文库用Tris-HCl以及NaOH进行稀释变性,然后进行上机测序。
6.蛋白定量
使用的全自动免疫化学分析系统定量肿瘤相关蛋白质,检测的项目包括(CEA、AFP、CA-724、CA-199、CA-125、CA-153、CYFRA),使用的平台为Roche cobas e411电化学发光全自动免疫分析仪,使用的试剂为平台配套的检测试剂。具体处理过程如下:
(1)样本预处理:将步骤1中分离得到的500μL血浆放置在离心机中,1000g离心1min,然后取上清转移至做好标记的日立杯中。
(2)在样本检测之前进行仪器的常规维护保养、定标以及质控。只有当定标和质控都合格才能进行后续样本检测。
(3)将待检测的样本放入仪器的样本孔,并将所需上述7个项目的试剂放入试剂孔,设置程序进行检测,获得7种蛋白的定量结果。
实施例2
按照实施例1中实验过程获得的数据计算cfDNA的浓度:Qublit浓度ng/μl*洗脱体积/血浆的体积,下表9中样品S1~S726为已知类型的样品,按照实施例1中方法测得cfDNA浓度如下表9所示。
表9
通过t检验,发现表9中肿瘤样本的cfDNA的浓度显著高于正常人。附图3显示了比较肿瘤样本与正常样本的cfDNA浓度的箱线图。如图4显示了利用表9获取的数据得到的ROC曲线,通过ROC曲线证明cfDNA浓度可以用来辅助预测癌症。
实施例3
采用实施例1中蛋白定量的方法,对肿瘤标志物进行定量,实施例2中部分样本的蛋白标志表达量如下表10所示。
表10
样本肿瘤蛋白质标志物含量的测定方法如下:
(一)数据的过滤和预处理:对于某些在实施例1中的样本,由于某些原因不能完成所有蛋白标志物的检测(比如样本取样太少),去除样本中蛋白标志物缺失比例>10%的样本;对于过滤后的某些缺失数据,采用k-Means聚类算法,寻找与存在缺失值样本最接近的样本,并将这些样本的均值作为该样本的缺失值,补齐数据。
(二)数据标准化处理:
由于不同蛋白标志物的定量方法和平台存在不一样,造成蛋白表达量范围,差别大。为了消除这样的影响,使用Z-score的标准化方法,对数据进行标准化处理。
(三)建立模型:
(1)模型的选择和参数的优化。机器学习中常见的分类算法有:Bayesian模型,决策树,支持向量机,神经网络,LASSO等。
(2)采用了交叉验证方法:本实施例中,使用10折交叉验证,对每种分类方法,依次将数据集划分成10份,随机选择其中的9份作为训练集用于构建分类模型,剩余的1份作为验证集数据进行验证,重复上面的过程。得到每种方法在预测集上的ROC曲线,同时使用医院的数据进行独立验证(防止模型过拟合),通过比较,最终选择LASSO为分类器。(3)根据选定的模型(LASSO),同样使用10折交叉验证,得到最优参数和cut-off值,由于肿瘤发病率低,基数大,因此所获得的cut-off值,要有很高特异性,最终选择98%特异性作为cut-off值。使用所有的数据以及上面得到的最优参数建立预测模型,如附图5所示。
(4)对测试数据按照上面步骤(1)、(2)进行预处理,使用步骤(3)建立的模型进行预测,预测样本来源于肿瘤患者的概率(p-value)。P-value>0.9的被认为是来源于肿瘤患者。
实施例4
按照实施例1的方法,完成对样本的建库测序,获得下机数据
(1)过滤掉低质量等reads后,使用比对软件(bwa)将这些测序reads比对到人的参考基因组上(hg19)。
(2)过滤比对结果,要求比对质量值>30,去除重复的reads,不正常配对的reads等。使用bedtools里面的工具获得reads1的比对起始位置。
(3)根据比对起始位置,发明人通过已经发布的方法(Gusnanto et al.(2014)),计算出不同区间对应的赤池信息量准则(Akaike’s information criterion)和交叉验证对数似然估计值(Cross validation Log-likelihood)。最终选取100,000bp作为区间大小;
(4)将人的参考基于组,每个100000bp,划分为一个区间(bin),统计每个区间的比对reads;
(5)bins的过滤包括:1)mappability>0.5;2)N的比例<0.5;3)不在从UCSC上下载的region文件wgEncodeDacMapabilityConsensusExcludable.bed和wgEncodeDukeMapabi lityRegionsExcludable.bed;4)过滤掉X,Y染色体;5)使用normal参考集合,计算出样本间标准化(除以样本的median)后的大于3倍标准差的bins;
(6)每个样本的reads数,相对于bins的长度校正(除以该bin非N的比例);
(7)根据每个bin的GC值:统计每个窗口(bin)内A,T,C,G碱基的数量;以及G和C的数量。GC所占的比值,为该窗口的GC含量,图6为待测样本窗口的测序深度和GC含量的关系,以及窗口的GC频率分布图。
(8)Mappability计算:根据从UCSC下载的ENCODE’s mappability bigwig文件,将文件中的每个region的mappability与bin比较,计算出每个bin里面所有region的mappability的平均值,作为该bin的mappability值。
(9)过滤掉reads数目异常的bins:保留1%-99%分位数的bins;
(10)将每个bin的GC和mappability组合,并按照它们的组合进行分组,同时计算每个GC和mappability组合对应所有bins的reads数目中位数。
(11)使用广义交叉验证的方法,将bins平均分成10分,用其中9分数据拟合局部加权非参数回归参数曲线,将剩余的1份数据作为测试集,进行预测,计算AIC等;
确定局部加权非参数回归参数的最优值(AIC最小);构建拟合曲线,最后用每个bins的标准化后的深度除以曲线预测的值,得到校正后的值。
(12)假设正常样本,几乎不存在CNV变化,同时遗传的CNV是随机发生的。正常人群,在同一个bin上的校正后的深度服从正态分布。因此,发明人使用同样的方法,完成300例以上正常人群的测序和分析,得到每一个的bins的正态分布的均值和标准差。在根据受试者在同一个bins下的标准化后的深度,计算Z-score。如果受试者的Z-score绝对值大于3倍标准差,就认为该样本的这个bins,在该区域存在缺失或扩增。挑选出异常的biomarker,并计算出测试样本,每个bin相对于参考集的log R ratio:log2(待测样本的reads/参考集平均reads数目)。
进而,通过下列公式,计算染色体的不稳定指数CIN score,
其中,n表示所述总的窗口序列的数目;
a表示预定的恒定常数,与窗口大小有关;
lk表示第k个异常窗口的长度;
fk表示第k个异常窗口序列发生CNV的概率;
Z-score表示第k个窗口的标准分数的绝对值;
abs(logR)表示平滑处理后的第k个窗口的log R ratio的绝对值。
图7显示了实施例4中的CIN值在肿瘤样本和正常样本中的分布。
实施例5
按照实施1获得测序数据,按照实施例4中的第(1)、(2)步骤,获得过滤比对结果。
(1)统计该样本的正常比对上的PEreads总数。如实施例中S85样本,reads总数:17352335;
(2)挑选出2条配对reads比对同时比对上线粒体的参考基因组(chrM)。计算其插入片段长度,统计不同插入片段下,对应的reads。下表11为某一个实施例样本的统计结果。
表11
(3)将插入片段长度小于150bp的对应reads数目求和,实施例中S85样本的P150是809条reads,再除以总的reads数目(17352335),再乘以10的6次方,得到每Mreads下线粒体的比例。如图8A和8B所示,通过计算出的ratio在肿瘤和正常人之间的差异,比直接计算线粒体在所有插入片段下得到比值差异更加显著。
实施例6
1、对于比对质量高(>30)的正常比对reads,统计插入片段长度(正常比对到染色体上reads两端的距离)分布。发明人统计插入片段在30~100bp、180~220bp、250~300bp之间的比例,记为P100、P180、P250。P100:样本的插入片段在30~100bp的数量除以30~300bp的数量的比值;P180:样本的插入片段在180~220bp的数量除以30~300bp的数量的比值;P250:样本的插入片段在250~300bp的数量除以30~300bp的数量的比值。
如图9所示,显示了癌症样本和正常样本之间的P100的差别,癌症样本与正常样本的箱体区分度好。如图10所示,在小于150bp的部分,存在小的波峰和波谷(图中箭头所示),不同样本的波峰和波谷位置相同,因此,发明人统计每一个次高峰(峰值对应的插入片段长度81bp、92bp、102bp、112bp、122bp、134bp)与对应的波谷之前的差值(波谷对应的插入片段长度:84bp、96bp、106bp、116bp、126bp、137bp。将6个差值加起来,命名为“峰谷间距”。再加入最高峰值peak;最终得到的样本统计结果,见下表12所示。
表12
样品名称 |
类型 |
peak |
P30_100 |
P180_220 |
P250_300 |
差异求和 |
Amplitude |
S210 |
癌症 |
165 |
2.315645 |
8.054228 |
1.320913 |
10.04302 |
0.010169098 |
S211 |
癌症 |
166 |
0.456029 |
16.19036 |
2.707564 |
3.096699 |
0.005471189 |
S212 |
癌症 |
167 |
0.503086 |
30.41598 |
2.500817 |
1.844312 |
0.002993314 |
S213 |
癌症 |
167 |
0.844651 |
25.29735 |
2.655435 |
2.201456 |
0.004261916 |
S214 |
癌症 |
166 |
1.018736 |
21.73228 |
2.143146 |
2.90769 |
0.003729685 |
S215 |
癌症 |
166 |
1.080406 |
21.63758 |
2.099728 |
2.182167 |
0.004890386 |
S216 |
癌症 |
166 |
1.069949 |
24.62631 |
5.072727 |
4.104673 |
0.001453103 |
S217 |
癌症 |
167 |
0.348934 |
27.24379 |
2.901098 |
1.746068 |
0.001822744 |
S218 |
癌症 |
166 |
0.314705 |
17.86381 |
3.237715 |
3.737518 |
0.000783877 |
S221 |
癌症 |
165 |
2.859735 |
8.345068 |
1.245577 |
5.332014 |
0.010553492 |
S222 |
癌症 |
166 |
1.152311 |
25.33599 |
2.318476 |
6.315077 |
0.006230628 |
S228 |
癌症 |
166 |
1.690331 |
19.57347 |
1.271507 |
2.52441 |
0.007977815 |
S229 |
癌症 |
167 |
1.819507 |
24.60147 |
1.293839 |
2.302259 |
0.005540557 |
S230 |
癌症 |
166 |
2.087216 |
15.34641 |
1.634575 |
4.509792 |
0.00920506 |
S231 |
癌症 |
166 |
1.111094 |
22.25734 |
2.624453 |
2.640314 |
0.003230234 |
S232 |
癌症 |
166 |
3.088389 |
22.14669 |
1.510212 |
2.65005 |
0.002499495 |
S233 |
癌症 |
166 |
1.355747 |
20.8994 |
2.021902 |
2.322237 |
0.006909842 |
S234 |
癌症 |
167 |
0.948446 |
32.85803 |
2.349009 |
6.324849 |
0.001589768 |
S235 |
癌症 |
166 |
1.003579 |
32.32253 |
1.662046 |
3.81569 |
0.002485458 |
S237 |
癌症 |
144 |
4.297873 |
5.603833 |
2.901886 |
29.42372 |
0.018844461 |
S238 |
癌症 |
166 |
1.385965 |
18.71572 |
2.169172 |
2.659369 |
0.004772947 |
S239 |
癌症 |
166 |
3.878012 |
21.2239 |
2.884815 |
2.674544 |
0.004773638 |
S241 |
癌症 |
166 |
2.427847 |
21.70032 |
2.116907 |
2.901248 |
0.010933864 |
S242 |
癌症 |
166 |
1.201897 |
17.78429 |
1.750792 |
3.061563 |
0.003190285 |
S243 |
癌症 |
165 |
5.941186 |
7.908763 |
5.624477 |
7.57841 |
0.006758634 |
S247 |
癌症 |
167 |
1.066165 |
25.02422 |
1.846463 |
2.246755 |
0.005506077 |
S248 |
癌症 |
167 |
1.136892 |
25.1564 |
2.279553 |
2.407249 |
0.00445302 |
S249 |
癌症 |
166 |
2.170735 |
17.87361 |
2.802181 |
3.242749 |
0.006827185 |
S315 |
正常 |
168 |
0.630463 |
27.37159 |
3.027791 |
2.069612 |
0.004466266 |
S317 |
正常 |
167 |
0.357245 |
30.09416 |
2.88503 |
1.79331 |
0.002143698 |
S319 |
正常 |
167 |
0.51044 |
24.19926 |
2.051964 |
1.965036 |
0.003368073 |
S320 |
正常 |
167 |
0.362755 |
25.90924 |
2.708014 |
2.04104 |
0.002048851 |
S321 |
正常 |
166 |
0.570164 |
22.99946 |
1.961744 |
1.991931 |
0.003484679 |
2、同时发明人将整个基因组均匀的分成100kb大小的区域(bins),统计每个区间插入片段长度在100到150bp的reads数目,记为“短片段数目”,同时统计每个区间的插入片段在151到220bp的reads数目,记为“长片段数目”。考虑到每个区域的GC含量和比对率(Mappability)不一样,因此发明人使用局部加权非参数回归参数(loess)分别对短片段数目和长片段数目进行校正。具体过程如下:1)bins的过滤包括:1)mappability>0.6;2)N的比例<0.5;3)不在从UCSC上下载的region文件wgEncodeDacMapabilityConsensusExcluda ble.bed和wgEncodeDukeMapabilityRegionsExcludable.bed;4)过滤掉X,Y染色体;
2)根据每个bin的GC值:统计每个窗口(bin)内A,T,C,G碱基的数量;以及G和C的数量。GC所占的比值,为该窗口的GC含量;
3)Mappability计算:根据从UCSC下载的ENCODE’s mappability bigwig文件,将文件中的每个region的mappability与bin比较,计算出每个bin里面所有region的mappability的平均值,作为该bin的mappability值;
4)每个区间的数目,相对于bins的长度校正(除以该bin非N的比例);
5)将每个bin的GC和mappability组合,并按照它们的组合进行分组,同时计算每个GC和mappability组合对应所有bins的reads数目中位数;
6)使用广义交叉验证的方法(loess),构建GC和mappability相对于长片段或者短片段的数目的拟合曲线。最后针对每个bin,根据其对应的GC含量和mappability,以及上面拟合的曲线,计算出该区域对应的理论片段数目,用该区间统计到的片段数目减去理论片段数目得到片段数目的残差。
7)使用该样本的长片段或者短片段数目的中位值加上残差值,作为该区域最后的校正值;并将相邻片段加起来,最终计算出每5M一个区域的长片段数目校正值和短片数目校正值;
8)基于正常样本每个5M区间的片段数目,对区间进行过滤,要求过滤掉区间里面片段数目显著性大于3倍标准差的区间,最终得到537个5M区间;
9)对于过滤后的每个区间,用短片段数目除以长片段数目得到每个区间的片段比值。并计算每个样本的比值的中位值,同时计算每个区间相对于中位值偏差的绝对值之和。如附图11所示,癌症和正常样本之间的差异总和区别,其中t-校验值=8.385e-10非常接近于0,证明两组之间存在极其显著差异;
10)将上面计算的差异总和,样本插入片段在30~100bp,180~220bp和250~300bp之间的比例,插入片段最高峰对应的插入片段长度以及小于150bp的波峰与波谷之间差值之和的这些统计值进行标准化后作为特征向量输入,使用机器学习的方法(比如:SVM,Lasso,GBM),并基于475例癌症和正常样本,采用10折交叉验证,测试肿瘤预测的效果。将样本平均分成10分,依次利用其中的9份数据作为训练集,建立肿瘤预测模型。剩余的一份作为训练集,用来衡量模型预测效果。并计算出对于每个测试集的AUC值(定义为ROC曲线下与坐标轴围成的面积),详见图12。其中Lasso方法的模型平均AUC值为0.845;
11)基于上面选择的模型,构建预测模型,使用第三方独立验证样本进行肿瘤预测,确定所有样本来源于肿瘤患者的概率。详见图13。AUC值为0.859,证明模型对应不同数据集依然能保持很高的稳定性,也说明模型不容易过拟合。最终基于ROC曲线,取95%特异性下对应的p-value值作为cut-off值:0.80。
实施例7
根据实施例1~6计算所得的各个维度:cfDNA浓度、CIN值、基于肿瘤标志物和片段化模式预测的待测样本来源于肿瘤患者的概率,以及线粒体插入片段在150bp以下的比例。作为输入,采用机器学习的方法,预选LASSO,通过接近700例正常和肿瘤病人的样本,进行建模,获得各个维度权重。对待测样本,根据上面的权重计算出最终预测的待测样本来源于肿瘤患者的概率。选取98%的特异性作为cut-off值,大于该阈值的样本,则预测为肿瘤样本。通过本发明的方法,在98%的特异性下,检测样本来源的灵敏度是75%。
实施例8
cfDNA浓度、CIN变异检测过程中的logRratio、肿瘤蛋白标志物的表达量、P100的比例等,以及最终计算出待测样本来源于肿瘤样本概率值,都与肿瘤ctDNA的含量有关。肿瘤含量越高,这些信号越强。
某入组病人,连续采样三次,并且该病人在临床上治疗起始后第6周发现疾病进展,如图14A。但是,通过本发明的方法,比如CNVlogRratio的绝对中位差(图14B)以及蛋白的表达量都升高(图14C),对各项概率值进行标准化处理后,获得的待测样本来源于肿瘤样本的概率值更高,表明疾病进展。并且第2次的采样分析结果比临床结果提前发现疾病的进展。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。