CN112410422B

CN112410422B - 基于片段化模式预测肿瘤风险值的方法

Info

Publication number: CN112410422B
Application number: CN202011193149.8A
Authority: CN
Inventors: 李世勇; 吴巍; 茅矛; 陈彦
Original assignee: Shenzhen Siqin Medical Technology Co ltd
Current assignee: Shenzhen Siqin Medical Technology Co ltd
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2022-06-03
Anticipated expiration: 2040-10-30
Also published as: CN112410422A

Abstract

本发明涉及生物信息领域，具体地，本发明涉及基于片段化模式的预测肿瘤风险值的方法、系统和计算机可读介质。本发明提供基于片段化模式的预测肿瘤风险值的方法，同时比较总体不同片段的比例，也观察不同染色体区域上的差异。发明人还发现使用P100的效果最好，能更好的区分癌症和正常。针对不同染色体区域上短的插入片段与长的插入片段间的变化，最根本的原因是这个比值的偏离程度。因此，创新的通过计算差异总和来预测癌症和正常人，相比于发表的方法，算法更加简单，计算资源少，特征少，稳定性和普适性强，减少过拟合的可能。而且，还更加简单直观，便于理解。

Description

基于片段化模式预测肿瘤风险值的方法

技术领域

本发明涉及生物信息领域，具体地，本发明涉及基于片段化模式的预测肿瘤风险值的方法、系统和计算机可读介质。

背景技术

ctDNA(Circulating tumor DNA)测序数据的插入片段长度分布在肿瘤和正常人之间存在明显差异，有人使用插入片段来预测样本来源，比如Mouliere,F.,et al.,Enhanced detection of circulating tumor DNA by fragment size analysis.SciTransl Med,2018.10(466)，选取10-bp峰谷间距、P(160到180)、P(180到220)和P(250到320)，有的文章采用P[<150bp]来预测样本来源。还有文章报道将人的基因组分成不同区域，在计算人染色体上不同区域的短的插入片段与长的插入片段的比例，最后通过PCA降维度，来预测样本来源。但现有方法获得的是多个值，特征多，建模容易过拟合，导致结果不准确。

因此，亟需开发一种计算资源少，特征少，稳定性和普适性强，减少过拟合的可能的新的预测待测样本来源的方法。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明提供基于片段化模式的预测待测样本来源的方法，同时比较总体不同片段的比例，也观察不同染色体区域上的差异。发明人还发现使用P100[30～100bp]的效果最好，因为P150下normal的比例分布的范围大，而P100集中，这样就更好的区分癌症和正常。针对不同染色体区域上短的插入片段(100～150bp)与长的插入片段(151～220bp)间的变化，最根本的原因是这个比值的偏离程度。因此，创新的通过计算差异总和来预测癌症和正常人，相比于发表的方法，算法更加简单，计算资源少，特征少，稳定性和普适性强，减少过拟合的可能。而且，还更加简单直观，便于理解。

为此，本发明第一方面提供一种预测待测样本来源的方法。根据本发明的实施例，所述方法包括：

(1)从待测样本中获取cfDNA样本；

(2)基于所述cfDNA样本，构建测序文库；

(3)对所述测序文库进行测序，以便获得测序结果，所述测序结果由多个测序读段构成；

(4)基于所述测序读段，统计P100、P180、P250、峰谷间距和插入片段长度分布中峰值对应的片段长度；

(5)获取待测样本基因组，构建测序文库并进行测序，基于测序结果中的测序读段，以便获得不同染色体区域中不同预定长度插入片段的测序读段数目的比值，计算差异总和；

(6)对(4)和(5)获得的结果使用机器学习的方法进行建模，基于建模结果预测待测样本来源的分值，

其中，P100是指待测样本的插入片段30～100bp的数量除以总的插入片段总数的数量的比值；

P180是指待测样本的插入片段180～220bp的数量除以总的插入片段总数的数量的比值；

P250是指待测样本的插入片段250～300bp的数量除以总的插入片段总数的数量的比值；

所述峰谷间距是指插入片段在小于150bp范围内，每个波峰与其相邻的波谷对应长度±2bp的插入片段的测序读段数目占样本染色体的测序读段的总数目的比例的差值；

所述插入片段长度分布中峰值对应的片段长度是基于统计样本不同插入片段长度对应的测序读段数目，测序读段数目最多对应的片段长度。

计算待测样本的cfDNA中P100的插入片段分布，能够区分待测样本类型，同时将P180、P250、峰谷间距和插入片段长度分布中峰值对应的片段长度也考虑在内，且通过计算每个区域短的插入片段(100～150bp)与长的插入片段(151～220bp)间的比值的绝对值，再求和。能够更好的区分待测样本类型，预测待测样本来源，以为进一步利用待测样品进行科研提供指导。

本发明提供的基于测序结果中的测序读段，以便获得不同染色体区域中不同预定长度插入片段的测序读段数目的比值，计算差异总和，差异总和作为衡量样本在不同区域上整体的一个偏差值。正常样本偏差小，肿瘤样本偏差大。这样最后每个样本只有一个值，而已发表的方法是将每个区域的短片段与长片段直接的比值作为特征，这样产生多个比值，也有人通过主成分分析降维，这样也会产生多个主成分，特征也多，建模容易过拟合。而且主成分只是一个数值，没有明确的生物学意义。而本发明中方法计算的值的生物学意义就是衡量不同区域的比值的偏移大小，可以直接预测待测样本来源，不会产生过拟合。

根据本发明实施例的预测待测样本来源的方法，还可以具有以下附加技术特征的至少之一：

所述待测样本源自哺乳动物的血液、体液、尿液、唾液或皮肤，优选地，所述哺乳动物为人。

根据本发明的实施例，在步骤(5)中，不同染色体区域中不同预定长度插入片段的测序读段数目的比值通过以下方式获取：

a)将人的参考基因组划分为多个相同长度的窗口区间，任选地，所述窗口区间的大小为100kb；

b)确定每个窗口区间内不同预定长度插入片段的测序读段数目，任选地，所述预定长度插入片段的长度为100～150bp或151～220bp；

c)确定每个窗口区间内不同预定长度插入片段的测序读段数目的比值。

根据本发明的实施例，在每个窗口区间内，进一步包括对预定长度插入片段的测序读段数目进行校正处理。

根据本发明的实施例，在每个窗口区间内，所述校正处理通过将在每个窗口区间内预定长度的插入片段的测序读段数目的中位值加上片段数目残差获得。

根据本发明的实施例，所述片段数目残差是通过以下方式获得的：

(i)确定所述每个窗口区间内的GC含量和比对率；

(ii)将步骤(i)所获得的每个窗口区间内的GC含量和比对率进行组合和分组处理，获得每个GC含量和比对率组合对应窗口区间的测序读段数目的中位值；

(ⅲ)基于局部加权非参数回归方法，构建GC含量和比对率组合对应窗口区间的测序读段数目中位值相对于GC含量和比对率的拟合曲线；

(ⅳ)基于所述拟合曲线以及每个窗口区间内的GC含量和比对率，确定每个窗口区间内的理论插入片段数目；

(ⅴ)将每个窗口区间内的预定长度的插入片段的测序读段数目减去步骤(ⅳ)所获得的理论插入片段数目，获得每个窗口区间内的预定长度的插入片段数目的残差。

根据本发明的实施例，所述差异总和的计算方法为将每个插入片段读段数目加和的比值减去所有插入片段读段数目加和的比值的中位值后的绝对值求和，公式如下：

Σabs(S_i/L_i-median(S₁/L₁,S₂/L₂,…,S_n/L_n))；

其中，S为100～150bp的插入片段，L为151～220bp的插入片段，abs()指对括号内的值求绝对值，median()指对括号内的值求中位值，i为每个插入片段的读段区间，n为插入片段的读段区间总数。

根据本发明的实施例，所述插入片段读段数目加和的比值是通过以下方式获得的：

1)将预定区间内的预定长度插入片段的数目进行加和处理，所述加和处理处理包括分别将插入片段的长度为100～150bp的插入片段的读段数目进行加和和将插入片段的长度为151～220bp的插入片段的读段数目进行加和，

任选地，所述加和处理后的区间的长度为5M；

2)将插入片段的长度为100～150bp的插入片段的读段数目加和除以插入片段的长度为151～220bp的插入片段的读段数目加和，以便获得插入片段读段数目加和的比值。

根据本发明的实施例，所述机器学习建立的模型选自SVM、Lasso、GBM中的至少之一。

根据本发明的实施例，所述机器学习建立的模型为Lasso，基于ROC曲线、预定的敏感性或特异性，确定相应阈值；

任选地，所述预定的特异性为95％，所述阈值为0.80。

本发明第二方面提供一种预测待测样本来源的系统。根据本发明的实施例，所述系统包括：

片段化模式测定模块，所述片段化模式测定模块用于基于测序结果中的测序读段，统计待测样本的cfDNA中P100、P180、P250、峰谷间距和插入片段长度分布中峰值对应的片段长度；

差异总和测定模块，所述差异总和测定模块用于获取不同染色体区域中不同预定长度插入片段的测序读段数目的比值，计算差异总和；

确定待测样本来源模块，所述确定待测样本来源模块用于基于待测样本的cfDNA中P100、P180、P250、峰谷间距和插入片段长度分布中峰值对应的片段长度以及不同染色体区域中不同预定长度插入片段的测序读段数目的比值，计算差异总和，确定待测样本来源；

所述峰谷间距是指插入片段在小于150bp范围内，每个波峰与与其相邻的波谷对应长度±2bp的插入片段的测序读段数目占样本染色体的测序读段的总数目的比例的差值；

根据本发明实施例的预测待测样本来源的系统，还可以具有以下附加技术特征的至少之一：

根据本发明的实施例，所述不同染色体区域中不同预定长度插入片段的测序读段数目的比值通过以下方式获取：

Σabs(S_i/L_i-median(S₁/L₁,S₂/L₂,…,S_n/L_n))；

任选地，所述加和处理后的区间的长度为5M；

本发明第三方面提供一种监测待测样本来源的方法。根据本发明的实施例，所述方法包括选取来源于疑似癌症患者的不同时刻的待测样本，利用所述的方法预测待测样本来源。

本发明第四方面提供一种评估待测样本来源的电子设备。根据本发明的实施例，所述电子设备包括存储器、处理器；

其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现本发明第一方面所述的评估待测样本来源的方法。

本发明第五方面提供一种计算机可读存储介质。根据本发明的实施例，所述计算机可读存储介质存储有计算机程序，该程序被处理器执行时实现本发明第一方面所述的评估待测样本来源的方法。

在本发明中，插入片段(Insertsize)通过测序得到，长度大部分在30～300bp之间；peak是指插入片段长度分布中峰值对应的片段长度。

本发明的发明人创造性的发现，计算待测样本的cfDNA中P100的插入片段分布，能够更好的区分癌症和正常样本，且通过计算每个区域短片段和长片段的比值的绝对值，再求和。作为衡量样本在不同区域上整体的一个偏差值。正常样本偏差小，肿瘤样本偏差大。这样最后每个样本只有一个值，而已发表的方法是多个值，特征多，建模容易过拟合。而且主成分只是一个数值，没有明确的生物学意义。而本发明中方法计算的值的生物学意义就是衡量不同区域的比值的偏移大小。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1显示比较癌症样本与正常样本的插入片段长度分布图；

图2显示比较癌症样本与正常样本的P100的箱线图；

图3显示插入片段的峰谷间距；

图4显示比较癌症样本与正常样本的差异总和的箱线图；

图5显示使用十折交叉验证模型的ROC曲线图；

图6显示使用第三方数据集验证模型的ROC曲线图；

图7显示用P150代替P100，验证模型的ROC曲线。P100显著高于P150(P-value<0.0001)；

图8显示利用P100和P150预测出测试集里真阳性的样本比较的韦恩图。

具体实施方式

下面详细描述本发明的实施例。下面描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。实施例中未注明具体技术或条件的，按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者，均为可以通过市购获得的常规产品。

实施例1样本血浆分离、文库制备、上机测序

1.血浆分离

1)准备好实验所需的仪器、试剂、耗材，高速冷冻离心机应提前预冷至4℃；

2)如果外周血样本是用EDTA抗凝管采集的，抽血之后立马放进4℃冰箱，并在2小时内进行血浆分离。如果外周血样本是用streck管等游离核酸保存管采集的，则可在常温放置，并在采血管说明书规定的时间内进行血浆分离；

3)记录样本信息，将采血管配平，将高速冷冻离心机换成水平转子，并设定参数：温度4℃，离心力1600g，时间10min。将采血管配平之后放置在离心机中，进行离心；

4)离心完成之后，将采血管放置在生物安全柜的离心管架上。将离心后采血管中的上清收集至新的15mL离心管中，在管壁标记样本编号以及操作时间。注意在收集上清时需要仔细操作，避免吸入白细胞。剩下的血细胞用于提取gDNA，分装至新的15mL离心管中，在管壁标记样本编号以及操作时间；

5)将高速冷冻离心机换成角转子，并设定参数：温度4℃，离心力16000g，时间10min。将装有上清的15mL离心管配平之后放置在离心机中，进行离心；

6)离心完成之后，将装有上清的15mL离心管放置在生物安全柜的离心管架上。将离心后离心管中的上清收集至新的15mL离心管中。注意在收集上清时需要仔细操作，避免吸入沉淀。这一步的目的是去除血浆当中的细胞碎片等杂质；

7)将血浆以及血细胞放置于-80℃冰箱保存，备用；

8)实验完成后，将所有物品归位，并清洁实验台面，将生物安全柜紫外灯打开，照射30min后关闭。记录详细的实验记录。

2.cfDNA提取

9)准备好实验所需的仪器、试剂、耗材。打开水浴锅，并调节温度至60℃。打开金属浴，并调节温度至56℃。确认QIAamp Circulating Nucleic Acid Kit试剂盒有效期，buffer ACB是否加有合适量的异丙醇，buffer ACW1以及buffer ACW2是否加有合适量的无水乙醇；

10)记录样本编号等信息；

11)若是分离的新鲜血浆，则直接进行cfDNA提取。若血浆冻存在–80℃条件下，需将血浆样本解冻后，在16,000x g[固定角转头]的离心力以及4℃的温度条件下离心5min以去除冷冻沉淀；

12)按照表1配制所需量的ACL混合液。

表1：处理4ml样本所需的Buffel ACL以及carrier RNA(溶解于Buffer AVE)体积用量

13)转移400μl Proteinase K至装有4ml血浆的50ml离心管中。间断涡旋30s以充分混匀；

14)加入3.2ml的Buffer ACL(含有1.0μg carrier RNA)。剧烈涡旋混匀15秒。确保离心管经剧烈涡旋，以保证样本和Buffer ACL的重复混匀，从而实现高效的裂解；

15)注意：此步完成后不要中断实验并立即进行下步的裂解孵育步骤；

16)将离心管接着60℃水浴30分钟；

17)向上述反应液中加入7.2ml的Buffer ACB。盖上管盖，间断涡旋15s以充分混匀；

18)将含有Buffer ACB的裂解液至于冰上孵育或冷藏孵育5min；

19)组装抽滤装置：把VacValve插在24孔底上，再把VacConnectors插入VacValve中，再将QIAamp Mini硅胶膜柱连接到VacConnectors上，最后把20ml扩容管插入到硅胶膜柱上。确保扩容管插入紧实以防止样本泄露。注意：将2ml收集管留下至后续空转时才使用。并在硅胶膜柱上做好样本编号的标记。VacValve可调节流速，VacConnectors可以防止污染，QIAamp Mini硅胶膜柱用于吸附DNA，扩容管用于装大体积血浆；

20)把孵育完的混合物转移至扩容管中，打开真空泵，待离心柱中的裂解液完全抽干后，关闭真空泵，打开24孔底座一侧的排气阀将压力释放到0兆帕。小心地将扩容管拆下并丢弃；

21)向QIAamp Mini硅胶膜柱中加入600μl的Buffer ACW1，关闭排气阀，并打开真空泵，进行抽滤液体。当离心柱中Buffer ACW1被抽干后，关闭真空泵，打开24孔底座一侧的排气阀将压力释放到0兆帕；

22)向QIAamp Mini硅胶膜柱中加入750μl的Buffer ACW2，关闭排气阀，并打开真空泵，进行抽滤液体。当离心柱中Buffer ACW2被抽干后，关闭真空泵，打开24孔底座一侧的排气阀将压力释放到0兆帕；

23)向QIAamp Mini硅胶膜柱中加入750μl的无水乙醇溶液，关闭排气阀，并打开真空泵，进行抽滤液体。当离心柱中无水乙醇被抽干后，关闭真空泵，打开24孔底座一侧的排气阀将压力释放到0兆帕。关闭真空泵电源；

24)盖上QIAamp Mini硅胶膜柱并从真空支管上取下后放置到干净的2ml收集管中，将VacConnector丢弃。收集管在全速条件(20,000x g；14,000rpm)下离心3min；

25)将QIAamp Mini硅胶膜柱放置到新的2ml收集管中，开盖并置于56℃条件下的金属浴上干燥10min至硅胶膜彻底干燥；

26)将QIAamp Mini硅胶膜柱取出后放置到干净的1.5ml洗脱管(试剂盒自带)中，并将使用过的2ml的收集管丢弃；

27)向QIAamp Mini硅胶膜柱中硅胶膜的中央小心加入55μl的Nuclease-freewater。盖上管盖后在室温孵育3min；

28)将洗脱管置于小型离心机中全速(20,000x g；14,000rpm)离心1min来洗脱cfDNA；

29)质量标准与评估

Qubit HS定量：取1μLcfDNA使用

dsDNA HS Assay Kit定量，记录浓度；

Agilent 2100检测：测定cfDNA片段分布；

30)实验完成后，将所有物品归位，并清洁实验台面，将生物安全柜紫外灯打开，照射30min后关闭。记录详细的实验记录。

3.cfDNA文库构建

31)建库前准备

a)从4℃冰箱取出纯化DNA所用的磁珠(AMPureXP beads,Beckman)，室温平衡30min再使用；

b)从-20℃冰箱内取出KAPA建库试剂盒中End Repair&A-Tailing Buffer和EndRepair&A-Tailing Buffer enzyme mix试剂，置于冰盒上解冻，待用；

c)将要建库的cfDNA样本名称、取样日期、DNA浓度记录在实验记录本上，并编写好编号，方便之后操作；

d)取相应数量的200μL PCR管，写好编号(管盖和管壁都标注编号)；

e)按cfDNA建库起始量10ng≤X≤100ng标准计算每个cfDNA样本所需要的DNA溶液体积，记录在实验记录本上，并取相应的体积置于对应的200μL PCR管内；

f)向每个200μL PCR管内加入适量的Nuclease-Free water，使终体积达到50μL。

g)注：在建库过程中配制所有反应体系应遵循如下规则：若样本少于四个，不需配制混合体系，每个样本独立加入反应体系中的每种成分溶液；若超过四个样本，则将反应体系中每个成分溶液按所需用量的105％配制混合体系，然后逐一加入各个样本中。

32)末端修复&加A

a)按照表2所示，配制末端修复&加A反应体系。

表2：

b)向每个含有cfDNA的200μl PCR管内加入10μL上述末端修复反应体系，混匀后低速离心，设定PCR仪，程序如下表3。

表3：

c)将反应体系从PCR仪中取出，放置在96孔板上，并进行接头连接反应。

33)接头连接反应体系

a)按照表4所示，配制接头连接反应体系。

表4:

成分	1个反应体系	8个反应体系(过量5％)
			PCR-级水(PCR-grade water)	5μL	42μL
连接缓冲液(Ligation Buffer)	30μL	252μL
			DNA连接酶(DNA Ligase)	10μL	84μL
总体积(Total volume)	45μL	378μL

b)向每个反应管中加入45μL上述反应体系，温和混合均匀，低速离心；

c)根据input DNA量加入适量的adapter，具体DNA:adapter如下表5，每个反管各加入5μL adapter。另外根据测序要求，每个样本加入不同的adapter，使得同一个lane中不会出现两个样本使用同一个adapter的情况，记录好每个样本使用的adapter信息；

表5：

插入DNA(Input DNA)量	Adapter摩尔浓度
		X≥50ng	15μM
15ng≤X<50ng	7.5μM
		X≤15ng	3μM

d)混合均匀，并放入PCR仪中，设定温度20℃，反应15min。

34)DNA纯化

a)配制80％乙醇(例如配制50mL 80％乙醇：40mL无水乙醇+10mL Nuclease-freeWater)，80％乙醇应现用现配；

b)准备相应数量的1.5mL样本管，并做好相应的标记；

c)将事先在室温平衡好的磁珠充分震荡混匀，并向每个管中分装88μL；

d)将上述加了adapter的DNA与磁珠混匀。室温静置10min；

e)将1.5mL样本管置于磁力架上，进行磁珠吸附，直至溶液澄清；

f)小心移除上清液，再加入200μL 80％乙醇，将样本管水平旋转360度，静置30s后弃上清液(此过程，离心管一直保持在磁力架上)；

g)重复步骤上述步骤一次；

h)应将所有残留的酒精溶液移除。打开管盖，常温下干燥磁珠，挥发乙醇，以免过多乙醇影响后续反应体系中酶的效果。注意：不可过分干燥磁珠，否则会导致DNA不容易从磁珠上洗脱下来，造成产量损失。当磁珠表面不再有光泽时即为干燥完成；

i)每个样本管内加入21μL Nuclease-Free water，重悬浮磁珠，充分混匀后室温静置5min；

j)准备一批新的200μL PCR管，管盖管壁标注对应的样本编号；

k)将样本管置于磁力架，进行磁珠吸附，直至溶液澄清后，将上清液转移至对应编号的PCR管中，作为PCR实验的模板。

35)文库扩增

a)按照表6所示，配制文库扩增反应体系。

表6：

b)每个0.2mL样本管内加入30μL Pre-PCR扩增反应体系，混合混匀并低速离心，放入PCR仪中反应；

c)将PCR仪设定如下程序，PCR循环数应根据input DNA量适当调整，见表7。

表7：

d)循环数选择参考表格8。

表8：

Input DNA量(ng)	PCR循环数
		X>50ng	4
25ng<X≤50ng	5
		10ng<X≤25ng	6
X≤10ng	7

e)Pre-PCR反应结束后，开始进行文库纯化。

36)文库纯化

a)准备相应数量的1.5mL样本管，并做好相应的标记；

b)将事先在室温平衡好的磁珠充分震荡混匀，并向每个管中分装50μL；

c)将上述加了adapter的DNA与磁珠混匀。室温静置10min；

d)将1.5mL样本管置于磁力架上，进行磁珠吸附，直至溶液澄清；

e)小心移除上清液，再加入200μL 80％乙醇，将样本管水平旋转360度，静置30s后弃上清液(此过程，离心管一直保持在磁力架上)；

f)重复步骤上述步骤一次；

g)应将所有残留的酒精溶液移除。打开管盖，常温下干燥磁珠，挥发乙醇，以免过多乙醇影响后续反应体系中酶的效果。注意：不可过分干燥磁珠，否则会导致DNA不容易从磁珠上洗脱下来，造成产量损失。当磁珠表面不再有光泽时即为干燥完成；

h)每个样本管内加入35μL Nuclease-Free water，重悬浮磁珠，充分混匀后室温静置5min；

i)准备一批新的离心管，管盖上标注所属项目，取样日期，样本名称；管壁上标注接头信息，建库日期，浓度；

j)将1.5mL样本管置于磁力架上，进行磁珠吸附，直至溶液澄清后，将上清液转移至对应的新的写有样本信息的1.5mL离心管；

k)取1ul样本测浓度，1ul样本使用Agilent 2100测定文库片段大小，并记录相应信息。

l)样本放入相对应项目的冻存盒内，置于-20℃保存；

m)实验完成后，将所有物品归位，并清洁实验台面，将超净工作台紫外灯打开，照射30min后关闭。记录详细的实验信息。

4.文库pooling

37)准备好实验所需的仪器、试剂、耗材；

38)按照测定的浓度以及所需要测定的数据量，计算pooling体积；

39)取一个新的1.5ml离心管，做好标记。按照计算的pooling体积进行pooling；

40)混合均匀之后，测定浓度，并记录信息；

41)实验完成后，将所有物品归位，并清洁实验台面。

5.上机测序

将上述pooling好的文库用Tris-HCl以及NaOH进行稀释变性，然后进行上机测序。

实施例2：

1、对于比对质量高(>30)的正常比对reads(测序读段)，统计插入片段长度(正常比对到染色体上reads两端的距离)分布。很多研究报道，来源癌症肿瘤细胞的游离DNA片段的插入片段长度小于来源正常细胞的游离DNA片段的插入片段长度。如图1所示，某一实施例样本的插入片段分布图。根据这个分布图，发明人统计插入片段在30～100bp，180～220bp，250～300bp之间的比例，记为P100、P180、P250。P100：样本的插入片段在30～100bp的数量除以30～300bp的数量的比值；P180：样本的插入片段在180～220bp的数量除以30～300bp的数量的比值；P250：样本的插入片段在250～300bp的数量除以30～300bp的数量的比值。

如图2所示，显示了癌症样本和正常样本之间的P100的差别，癌症样本与正常样本的箱体区分度好。如图3所示，在小于150bp的部分，存在小的波峰和波谷(图中箭头所示)，不同样本的波峰和波谷位置相同，因此，发明人统计每一个次高峰(峰值对应的插入片段长度:81bp，92bp，102bp，112bp，122bp，134bp)与对应的波谷之前的差值(波谷对应的插入片段长度：84bp，96bp，106bp，116bp，126bp，137bp。将6个差值加起来，命名为“峰谷间距”。再加入最高峰值peak；最终得到的样本统计结果，见表9，列举部分样本的统计结果：

表9：

2、同时发明人将整个基因组均匀的分成100kb大小的区域(bins)，统计每个区间插入片段长度在100到150bp的reads数目，记为“短片段数目”，同时统计每个区间的插入片段在151到220bp的reads数目，记为“长片段数目”。考虑到每个区域的GC含量和比对率(Mappability)不一样，因此发明人使用局部加权非参数回归参数(loess)分别对短片段数目和长片段数目进行校正。具体过程如下：

1)bins的过滤包括：1)mappability>0.6；2)N的比例<0.5；3)排除在从UCSC上下载的region文件里面的区域wgEncodeDacMapabilityConsensusExcludable.bed和wgEncode DukeMapabilityRegionsExcludable.bed；4)过滤掉X，Y染色体；

2)根据每个bin的GC值：统计每个窗口(bin)内A、T、C、G碱基的数量；以及G和C的数量。GC所占的比值，为该窗口的GC含量；

3)Mappability计算：根据从UCSC下载的ENCODE’s mappability bigwig文件，将文件中的每个region的mappability与bin比较，计算出每个bin里面所有region的mappability的平均值，作为该bin的mappability值；

4)每个区间的数目，相对于bins的长度校正(除以该bin非N的比例)；

5)将每个bin的GC和mappability组合，并按照它们的组合进行分组，同时计算每个GC和mappability组合对应所有bins的reads数目中位数；

6)使用广义交叉验证的方法(loess)，构建GC和mappability相对于长片段或者短片段的数目的拟合曲线。最后针对每个bin，根据其对应的GC含量和mappability，以及上面拟合的曲线，计算出该区域对应的理论片段数目，用该区间统计到的片段数目减去理论片段数目得到片段数目的残差；

7)使用该样本的长片段或者短片段数目的中位值加上残差值，作为该区域最后的校正值；并将相邻片段加起来，最终计算出每5M一个区域的长片段数目校正值和短片数目校正值；

8)对每个5M区间的片段数目进行过滤，要求过滤掉区间里面片段数目显著性小于3倍标准差的区间，最终得到537个5M区间；

9)对于过滤后的每个区间，用短片段数目除以长片段数目得到每个区间的片段比值。

实施例3：

基于实施例2得到：

(1)整个样本插入片段在30～100bp、180～220bp和250～300bp之间的比例，插入片段最高峰的位置peak以及小于150bp的波峰与波谷之间的“峰谷间距”。

(2)每5M区间的短片段与长片段数目的比值，经公式计算后，得到“差异总和”(见表10)(如图4：癌症和正常样本之间的差异总和区别，其中t-校验值＝8.385e-10非常接近于0，证明两组之间存在显著差异)。

表10：

2、将样本的这些统计值进行标准化后作为特征向量输入，使用机器学习的方法(比如：SVM，Lasso，GBM)，并基于上面超过癌症和正常样本，采用10折交叉验证，测试样本来源预测的效果。将样本平均分成10分，依次利用其中的9份数据作为训练集，建立样本来源预测模型。剩余的一份作为训练集，用来衡量模型预测效果。并计算出对于每个测试集的AUC值(定义为ROC曲线下与坐标轴围成的面积)，详见图5。其中Lasso方法的模型平均AUC值为0.845；

3、基于上面选择的模型，构建预测模型，使用第三方独立验证样本进行样本来源预测，确定所有样本来源肿瘤的概率。详见图6。AUC值为0.859，证明模型对应不同数据集依然能保持很高的稳定性，也说明模型不容易过拟合。最终基于ROC曲线，取95％特异性下对应的p-value值作为cut-off值：0.80。

同理，发明人也可以基于对正常人和手术后的肿瘤病人进行实施例1和实施例2的统计结果，基于机器学习构建肿瘤复发预测模型。

对比例1

将实施例3中的P100替换为P150(P150：样本的插入片段在30～150bp的数量除以30～300bp的数量的比值)，其他条件不变，重复上面的过程，使用每个样本预测是肿瘤的概率画出P100和P150对应的ROC曲线(图7)。同时使用DeLong检验，对P100和P150的ROC曲线进行检验，发现P-value<0.0001，证明P100显著性优于文献报道中的P150。同时把P100和P150预测的真阳性样本进行比较，如图8韦恩图。显示P100特异预测出的真阳性样本远大于P150特异预测的。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种预测待测样本来源的分值的方法，所述方法用于非诊断目的，其特征在于，包括：

(1)从所述待测样本中获取cfDNA样本；

(2)基于所述cfDNA样本，构建测序文库；

所述插入片段长度分布中峰值对应的片段长度是基于统计样本不同插入片段长度对应的测序读段数目，测序读段数目最多对应的片段长度，

所述差异总和的计算方法为将每个插入片段读段数目加和的比值减去所有插入片段读段数目加和的比值的中位值后的绝对值求和，公式如下：

Σabs(S_i/L_i-median(S₁/L₁,S₂/L₂,…,S_n/L_n))；

其中，S为100～150bp的插入片段，L为151～220bp的插入片段，abs()指对括号内的值求绝对值，median()指对括号内的值求中位值，i为每个插入片段的读段区间，n为插入片段的读段区间总数，

所述机器学习建立的模型选自SVM、Lasso、GBM中的至少之一。

2.根据权利要求1所述的方法，其特征在于，所述待测样本源自哺乳动物的血液、体液、尿液、唾液或皮肤。

3.根据权利要求2所述的方法，其特征在于，所述哺乳动物为人。

4.根据权利要求1所述的方法，其特征在于，在步骤(5)中，不同染色体区域中不同预定长度插入片段的测序读段数目的比值通过以下方式获取：

b)确定每个窗口区间内所述不同预定长度插入片段的测序读段数目，任选地，所述预定长度插入片段的长度为100～150bp或151～220bp；

c)确定每个窗口区间内所述不同预定长度插入片段的测序读段数目的比值。

5.根据权利要求4所述的方法，其特征在于，在所述每个窗口区间内，进一步包括对所述预定长度插入片段的测序读段数目进行校正处理。

6.根据权利要求5所述的方法，其特征在于，在所述每个窗口区间内，所述校正处理通过将在每个窗口区间内预定长度的插入片段的测序读段数目的中位值加上片段数目残差获得。

7.根据权利要求6所述的方法，其特征在于，所述片段数目残差是通过以下方式获得的：

(i)确定所述每个窗口区间内的GC含量和比对率；

(ii)将步骤(i)所获得的每个窗口区间内的GC含量和比对率进行组合和分组处理，获得所述每个GC含量和比对率组合对应窗口区间的测序读段数目的中位值；

8.根据权利要求1所述的方法，其特征在于，所述插入片段读段数目加和的比值是通过以下方式获得的：

任选地，所述加和处理后的区间的长度为5M；

9.根据权利要求1所述的方法，其特征在于，

所述机器学习建立的模型为Lasso，基于ROC曲线、预定的敏感性或特异性，确定相应阈值；

任选地，所述预定的特异性为95％，所述阈值为0.80。

10.一种预测待测样本来源的系统，其特征在于，包括：

Σabs(S_i/L_i-median(S₁/L₁,S₂/L₂,…,S_n/L_n))；

11.根据权利要求10所述的系统，其特征在于，所述不同染色体区域中不同预定长度插入片段的测序读段数目的比值通过以下方式获取：

12.根据权利要求10所述的系统，其特征在于，所述插入片段读段数目加和的比值是通过以下方式获得的：

任选地，所述加和处理后的区间的长度为5M；

13.一种监测待测样本来源的方法，所述方法用于非诊断目的，其特征在于，所述方法包括选取来源于疑似癌症患者的不同时刻的待测样本，利用权利要求1～9中任一项所述的方法预测待测样本来源。

14.一种评估待测样本来源的电子设备，其特征在于，包括存储器、处理器；

其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如权利要求1～9中任一项所述的预测待测样本来源的方法。

15.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1～9中任一项所述的预测待测样本来源的方法。