CN115558716A

CN115558716A - 一种用于预测癌症的cfDNA片段特征组合、系统及应用

Info

Publication number: CN115558716A
Application number: CN202211203394.1A
Authority: CN
Inventors: 汪强虎; 吴玲祥; 吴维; 张若寒
Original assignee: Ankai Life Technology Suzhou Co ltd
Current assignee: Nanjing Medical University
Priority date: 2022-09-29
Filing date: 2022-09-29
Publication date: 2023-01-03
Anticipated expiration: 2042-09-29
Also published as: CN117551767A; CN115558716B

Abstract

本发明公开了一种用于预测癌症的cfDNA片段特征组合、系统及应用，属于癌症基因组学技术领域。所述cfDNA片段特征组合包括第一cfDNA片段特征子组合和/或第二cfDNA片段特征子组合，所述第一cfDNA片段特征子组合包括落在60bp～200bp之间并且片段数量比例在群体癌症样本中增加的cfDNA片段特征，所述第二cfDNA片段特征子组合包括落在300～400bp之间并且片段数量比例在群体癌症样本中减少的cfDNA片段特征。利用本发明的cfDNA片段特征组合和系统进行癌症预测，既降低了基于cfDNA片段分析预测癌症的方法对于上游实验端的要求和依赖，又显著拓宽了其他组学测序数据的可解读性和利用率，因此，极大的降低了基于cfDNA诊断肿瘤的实验成本，同时提高了基于cfDNA预测癌症的准确性。

Description

一种用于预测癌症的cfDNA片段特征组合、系统及应用

技术领域

本发明属于癌症基因组学技术领域，具体地，涉及一种用于预测癌症的cfDNA片段特征组合、系统及应用。

背景技术

血液中的游离DNA(cfDNA，Circulating free DNA or Cell free DNA)能够随着组织损伤、癌症和炎症反应等发生浓度变化，在疾病的早期诊断、预后、监测等方面具有重要潜在价值。近年来，cfDNA已被广泛用于癌症早筛等研究领域。研究表明，可以利用特定的cfDNA片段特征对肿瘤组织来源进行分类，cfDNA片段的长度也可以揭示组织起源或肿瘤来源。

然而，目前大多数液体活检方法都专注于检测血液中的基因突变或染色体异常，且已有的片段组学方法多依赖于全基因组测序(WGS)的方法，无法充分开发利用其他组学测序数据信息。

发明内容

为解决上述技术问题中的至少一个，本发明开发了一种可基于多种组学数据分析片段组学的系统，以识别cfDNA片段分布肿瘤标志物，进而鉴别样本是否为肿瘤样本。具体地，本发明采用的技术方案如下：

本发明第一方面提供一种cfDNA片段特征组合，包括第一cfDNA片段特征子组合和/或第二cfDNA片段特征子组合，所述第一cfDNA片段特征子组合包括落在60bp～200bp之间并且片段数量比例在群体癌症样本中增加的cfDNA片段特征，所述第二cfDNA片段特征子组合包括落在300～400bp之间并且片段数量比例在群体癌症样本中减少的cfDNA片段特征，所述增加或减少是指相对于群体正常样本相应片段特征的片段数量比例的代表值而言。

在本发明中，相关术语的定义如下：

片段特征：是指将cfDNA片段按不同长度划分为不同的片段区间，每个片段区间内的所有cfDNA片段即为一个片段特征。例如片段特征为：61-65bp，包括片段长度为61bp、62bp、63bp、64bp和65bp的cfDNA片段。例如片段特征为：74-75bp，包括片段长度为74bp和75bp的cfDNA片段。

片段数量比例：是指一个片段特征中的cfDNA片段数占总片段数的比例。

在本发明中，所述cfDNA片段长度和数量数据是指利用测序方法得到的数据，所述测序选自包括WGS测序、WES测序、MeDIP和MBD-Seq的组中的任意一种。事实上，本领域技术人员可能使用任意测序的或非测序的方法，只要能够获得cfDNA片段的长度及数量即可。

在本发明中，所述第一cfDNA片段特征子组合中的每个片段特征所包含的cfDNA片段相对都比较短，本发明的发明人意外地发现，落在60bp～200bp之间的片段特征可以用来识别癌症，并且具有较高的精准度。更加令人惊喜地，发明人发现落在130bp～175bp之间的cfDNA片段特征具有更高的癌症识别精准度。

进一步地，如果在落在130bp～175bp之间的cfDNA片段特征中，选择163-164bp、163-165bp、161-165bp、161-164bp、165-166bp、159-165bp、157-164bp、155-156bp、163-168bp、160-168bp、157-158bp、154-156bp、161-170bp、156-160bp、161-162bp、157-159bp、165-168bp、157-162bp、157-160bp、151-160bp、152-158bp、160-162bp、153-156bp、151-159bp、166-168bp、148-150bp、149-150bp、149-156bp、159-160bp、151-156bp、167-168bp、147-148bp、146-150bp、165-172bp、166-170bp、151-155bp、153-154bp、149-152bp、145-150bp、145-151bp、166-172bp、145-148bp、151-153bp、151-152bp、169-170bp、145-147bp、169-171bp、142-150bp、169-172bp和141-150bp中的至少一个，能够精准地预测受试者是否患有癌症或者是否具有患癌症的风险。

发明人进一步发现，上述片段特征的选择也不是越多越好，当选择163-164bp、163-165bp、161-165bp、161-164bp和165-166bp作为标志物时，具有非常好的癌症识别效果。

在本发明中，所述第二cfDNA片段特征子组合中的每个片段特征所包含的cfDNA片段相对都比较长，本发明的发明人意外地发现，落在300bp～400bp之间的片段特征可以用来识别肿瘤，并且具有较高的精准度。更加令人惊喜地，发明人发现落在330bp～360bp之间的cfDNA片段特征具有更高的肿瘤识别精准度。

进一步地，如果在落在330bp～360bp之间的cfDNA片段特征中，选择339-340bp、341-342bp、343-344bp、337-339bp、340-342bp、337-340bp、341-344bp、336-340bp、341-345bp、337-342bp、337-338bp、343-345bp、341-347bp、340-348bp、334-340bp、341-348bp、345-346bp、343-348bp、341-350bp、345-348bp、346-348bp、333-340bp、347-348bp、346-350bp、335-336bp、331-340bp、334-336bp、349-350bp、349-351bp、331-339bp、349-352bp、333-336bp、348-354bp、351-352bp、349-354bp、349-356bp、352-354bp、351-355bp、333-334bp、331-336bp、349-357bp、353-354bp、331-335bp、353-356bp、351-360bp、355-356bp、355-357bp、331-333bp、355-360bp和357-358bp中的至少一个，能够精准地预测受试者是否患有癌症或者是否具有患癌症的风险。

同样地，发明人进一步发现，上述片段特征的选择同样不是越多越好，当选择339-340bp、341-342bp、343-344bp、337-339bp和340-342bp作为标志物时，具有非常好的癌症识别效果。

本发明的第二方面提供一种预测受试者是否患有癌症或者是否具有患癌症的风险的系统，包括以下模块：

数据输入模块，用于输入受试者cfDNA片段长度和数量数据；

分布谱分析模块，与所述数据输入模块连接，用于获得所述cfDNA片段特征组合中各cfDNA片段特征的片段数量比例；

癌症预测模块，与所述分布谱分析模块连接，用于根据所述cfDNA片段特征的片段数量比例判断受试者是否患有癌症或者是否具有患癌症的风险。

在本发明的一些实施方案中，所述第一cfDNA片段特征子组合中至少一个cfDNA片段特征的片段数量比例增加和/或所述第二cfDNA片段特征子组合中至少一个cfDNA片段特征的片段数量比例减少，则判断所述受试者患有癌症或者具有患癌症的风险。

在本发明的另一些实施方案中，所述cfDNA片段特征组合包括第一cfDNA片段特征子组合和第二cfDNA片段特征子组合，所述癌症预测模块利用下面公式获得判断值：

其中，

Score为判断值，

m为所述第一cfDNA片段特征子组合中cfDNA片段特征的数量，n为所述第二cfDNA片段特征子组合中cfDNA片段特征的数量；

Ti为第一cfDNA片段特征子组合中第i个cfDNA片段特征的片段数量比例；

N_j为第一cfDNA片段特征子组合中第j个cfDNA片段特征的片段数量比例，

若Score大于预设阈值，则判断所述受试者患有癌症或者具有患癌症的风险。

在本发明的一些实施方案中，所述预测阈值是根据群体癌症样本Score值和/或群体正常样本Score值进行确定的。

任选地，所述预测阈值是根据群体癌症样本Score值的代表值确定的。

任选地，所述预测阈值是根据群体正常样本Score值的代表值确定的。

任选地，所述预测阈值是根据群体癌症样本Score值相对于群体正常样本Score值的增加值的代表值确定的。这里的癌症样本和正常样本为配对样本，以使得增加值具有临床意义。

在本发明的一些具体实施方案中，所述群体癌症样本是指10个以上癌症样本，例如10个、20个、50个、100个、200个、500个或更多。

在本发明的一些具体实施方案中，所述代表值是指平均数、众数、中位数、1/4分位数和3/4分位数中的一种。

在本发明中，所述癌症包括但不限于实体瘤和血癌，如纤维肉瘤、肌肉瘤、脂肪肉瘤、软骨肉瘤、成骨肉瘤、脊索瘤、血管肉瘤、内皮肉瘤、淋巴管肉瘤、淋巴管内皮肉瘤、滑膜瘤、间皮瘤、尤因瘤、平滑肌肉瘤、横纹肌肉瘤、结肠癌、胰腺癌、前列腺癌、鳞状细胞癌、基底细胞癌、腺癌、汗腺癌、皮脂腺癌、乳头状癌、乳头腺癌、囊腺癌、髓样癌、支气管癌、肝细胞瘤、胆管癌、绒毛膜癌、精原细胞瘤、胚胎癌、肾母细胞瘤、宫颈癌、睾丸瘤、肺癌、小细胞肺癌、上皮癌、胶质瘤、星形细胞瘤、髓母细胞瘤、颅咽管瘤、室管膜瘤、松果体瘤、成血管细胞瘤、听神经瘤、少突神经胶质瘤、脑膜瘤、黑素瘤、神经母细胞瘤、胶质母细胞瘤、视网膜母细胞瘤；白血病，如急性淋巴细胞性白血病和急性成髓细胞性白血病(成髓细胞、前髓细胞、髓单核细胞、单核细胞和红细胞白血病)；慢性白血病(慢性髓细胞(粒细胞)白血病和慢性淋巴细胞性白血病)；和真性红细胞增多、淋巴瘤(霍奇金病和非霍奇金病)、多发性骨髓瘤、瓦尔登斯特伦巨球蛋白血症和重链病。

本发明第三方面提供本发明第一方面所述的cfDNA片段特征组合的检测试剂在制备用于预测受试者是否患有癌症或者是否具有患癌症的风险的试剂盒中的应用。

在本发明的一些实施方案中，所述检测试剂包括捕获试剂和/或测序试剂。

在本发明的一些实施方案中，所述试剂盒还包括cfDNA提取试剂。

本发明的有益效果

相对于现有技术，本发明具有以下有效效果：

利用本发明的cfDNA片段特征组合和系统进行癌症预测，不仅可以利用选自包括WGS测序、WES测序、MeDIP和MBD-Seq的组中的任意一种测序方法的数据，也可以使用任意测序的或非测序的方法得到的数据，只要能够获得cfDNA片段的长度及数量即可。

利用本发明的cfDNA片段特征组合和系统进行癌症预测，能够利用cfDNA片段综合特征分析，对于癌症的预测性能更优。

利用本发明的cfDNA片段特征组合和系统进行癌症预测，既降低了基于cfDNA片段分析预测癌症的方法对于上游实验端的要求和依赖，又显著拓宽了其他组学测序数据的可解读性和利用率，因此，极大的降低了基于cfDNA诊断肿瘤的实验成本，同时提高了基于cfDNA预测癌症的准确性。

附图说明

图1示出了利用10个cfDNA片段特征在训练集和验证集中进行肿瘤识别的结果。

图2示出了利用20个cfDNA片段特征在训练集和验证集中进行肿瘤识别的结果。

图3示出了利用30个cfDNA片段特征在训练集和验证集中进行肿瘤识别的结果。

图4示出了利用40个cfDNA片段特征在训练集和验证集中进行肿瘤识别的结果。

图5示出了利用50个cfDNA片段特征在训练集和验证集中进行肿瘤识别的结果。

图6示出了利用60个cfDNA片段特征在训练集和验证集中进行肿瘤识别的结果。

图7示出了利用10个cfDNA片段特征在外部测试集中进行肿瘤识别的结果。

具体实施方式

除非另有说明、从上下文暗示或属于现有技术的惯例，否则本申请中所有的份数和百分比都基于重量，且所用的测试和表征方法都是与本申请的提交日期同步的。在适用的情况下，本申请中涉及的任何专利、专利申请或公开的内容全部结合于此作为参考，且其等价的同族专利也引入作为参考，特别这些文献所披露的关于本领域中的技术术语等的定义。如果现有技术中披露的具体术语的定义与本申请中提供的任何定义不一致，则以本申请中提供的术语定义为准。

本申请中的数字范围是近似值，因此除非另有说明，否则其可包括范围以外的数值。数值范围包括以1个单位增加的从下限值到上限值的所有数值，条件是在任意较低值与任意较高值之间存在至少2个单位的间隔。这些仅仅是想要表达的内容的具体示例，并且所列举的最低值与最高值之间的数值的所有可能的组合都被认为清楚记载在本申请中。

为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。

实施例

以下例子在此用于示范本发明的优选实施方案。本领域内的技术人员会明白，下述例子中披露的技术代表发明人发现的可以用于实施本发明的技术，因此可以视为实施本发明的优选方案。但是本领域内的技术人员根据本说明书应该明白，这里所公开的特定实施例可以做很多修改，仍然能得到相同的或者类似的结果，而非背离本发明的精神或范围。

除非另有定义，所有在此使用的技术和科学的术语，和本发明所属领域内的技术人员所通常理解的意思相同，在此公开引用及他们引用的材料都将以引用的方式被并入。

那些本领域内的技术人员将意识到或者通过常规试验就能了解许多这里所描述的发明的特定实施方案的许多等同技术。这些等同将被包含在权利要求书中。

下述实施例中未作具体说明的分子生物学实验方法，均按照《分子克隆实验指南》(第四版)(J.萨姆布鲁克、M.R.格林，2017)一书中所列的具体方法进行，或者按照试剂盒和产品说明书进行。其他实验方法，如无特殊说明，均为常规方法。下述实施例中所用的仪器设备，如无特殊说明，均为实验室常规仪器设备；下述实施例中所用的试验材料，如无特殊说明，均为自常规生化试剂商店购买得到的。

实施例1 cfDNA片段分布肿瘤标志物的识别

1.cfDNA测序

为了获得cfDNA片段分布肿瘤标志物，发明人获得了417个肿瘤患者(183个结直肠癌、40个肝癌、92个胃癌、68个胰腺癌、9个食管癌和25个胶质母细胞瘤)和813个正常人的血液样本。提取cfDNA并采用甲基化DNA富集测序技术(MBD-Seq，Methylated DNA BindingDomain-Sequencing)进行测序。

2.数据预处理

a)数据清洗：使用fastp-0.20.0软件去除建库过程中引入的接头序列以及低质量碱基片段(超过40％的碱基的质量值低于Q15和超过5个N的整条片段、基于滑窗裁剪片段末端平均质量<Q20的4个碱基)。

b)数据比对：使用bowtie2-2.3.4.2软件将fastq文件的碱基序列比对到人类参考基因组hg19(GRCH37)上生成bam文件，并根据基因组坐标对bam文件进行排序，使用picardMarkDuplicates-2.18.25-SNAPSHOT对排序后的bam进行去重，最后筛选配对reads均比对到参考基因组并且MAPQ>20的读段。

c)cfDNA筛选：为了删除MBD蛋白非特异捕获的cfDNA片段，将bam文件中不包含CG碱基对的片段过滤掉。进一步保留片段长度在(60,400]的cfDNA进行后续分析。

3.cfDNA片段分布谱

使用R包Rsamtools分析最终处理好的bam文件，计算出每条cfDNA的片段长度。然后，分别以步长2bp、3bp、4bp、5bp……10bp的长度，将cfDNA片段长度划分为不同的片段区间(如步长2bp，则划分的片段区间为61-62bp、63-64bp……、398-400bp；如步长3bp，则划分的片段区间为61-63bp、64-66bp……396-399bp；如步长10bp，则划分的片段区间为61-70bp、71-80bp……391-400bp)，每个片段区间包括的全部cfDNA片段定义为片段特征，并计算每个片段特征中的cfDNA片段数占总片段数的比例，以生成cfDNA的片段分布谱。

4.识别cfDNA片段肿瘤标志物

在肿瘤和健康两组样本中，对每个cfDNA片段特征进行wilcox秩和检验并使用BH校正得到校正p值，进一步计算每个片段特征区分肿瘤和健康样本的ROC曲线下面积(AUC)值。认定校正p值<0.05且AUC>0.6的片段特征在肿瘤和健康样本中是差异分布的。

将训练集中的肿瘤样本随机平均分成两份，在健康样本中随机生成与肿瘤样本数一致的两份样本，分别混合两份肿瘤样本和健康样本，然后按照每个片段特征依次对两份样本进行排序，计算两份样本中的片段特征区分肿瘤和健康样本的优势比OR值。将以上过程重复100次，然后计算每个片段特征100次的平均OR值，并保留平均OR值>1.5的片段特征。

由此得到100个片段特征，其中50个片段特征的片段数量占总片段数的比例在肿瘤样本中增加，50个片段特征的片段数量比例在肿瘤样本中减少，如表1所示：

表1 100个片段特征

由表1可知，在肿瘤样本中增加的片段特征中，大小集中在131-172bp，在肿瘤样本中减少的片段特征中，大小集中在331-360bp。

实施例2不同片段特征判断肿瘤的效能

利用上述50个在肿瘤样本中增加的片段特征和50个在肿瘤样本中减少的片段特征，在训练集中计算每个特征在肿瘤样本中相对于正常对照样本增加或减少的比例，据此标准判断样本属于肿瘤或正常，并在测试集中进行验证。其各自区分肿瘤样本和正常样本的效能如下表2和表3所示：

表2 50个在肿瘤样本中增加的片段特征的判断结果

表3 50个在肿瘤样本中增加的片段特征的判断结果

由此可见，上述100个片段特征可以作为识别肿瘤的标志物。通过判断其在样本中的比例，来判断样本是否属于肿瘤样本。

实施例3不同片段特征组合进行肿瘤识别

1. 10个标志物

按单个特征的AUC值排序，分别取前5个肿瘤样本中增加的片段特征(T5)和前5个肿瘤样本中减少的片段特征(N5)进行组合。

其中，

T5包括：163-164bp、163-165bp、161-165bp、161-164bp、165-166bp

N5包括：339-340bp、341-342bp、343-344bp、337-339bp、340-342bp

针对每个样本，计算一个得分score10＝sum(T5)/sum(N5)，然后在训练集中计算该得分在肿瘤样本中相对于正常对照样本增加的比例，据此标准判断样本属于肿瘤或正常，并在测试集中进行验证。

2. 20个标志物

按单个特征的AUC值排序，分别取前10个肿瘤样本中增加的片段特征(T10)和前10个肿瘤样本中减少的片段特征(N10)进行组合。

其中，

T10包括：163-164bp、163-165bp、161-165bp、161-164bp、165-166bp、159-165bp、157-164bp、155-156bp、163-168bp、160-168bp

N10包括：339-340bp、341-342bp、343-344bp、337-339bp、340-342bp、337-340bp、341-344bp、336-340bp、341-345bp、337-342bp

针对每个样本，计算一个得分score20＝sum(T10)/sum(N10)，然后在训练集中计算该得分在肿瘤样本中相对于正常对照样本增加的比例，据此标准判断样本属于肿瘤或正常，并在测试集中进行验证。

3. 30个标志物

按单个特征的AUC值排序，分别取前15个肿瘤样本中增加的片段特征(T15)和前15个肿瘤样本中减少的片段特征(N15)进行组合。

其中，

T15包括：163-164bp、163-165bp、161-165bp、161-164bp、165-166bp、159-165bp、157-164bp、155-156bp、163-168bp、160-168bp、157-158bp、154-156bp、161-170bp、156-160bp、161-162bp

N15包括：339-340bp、341-342bp、343-344bp、337-339bp、340-342bp、337-340bp、341-344bp、336-340bp、341-345bp、337-342bp、337-338bp、343-345bp、341-347bp、340-348bp、334-340bp

针对每个样本，计算一个得分score30＝sum(T15)/sum(N15)，然后在训练集中计算该得分在肿瘤样本中相对于正常对照样本增加的比例，据此标准判断样本属于肿瘤或正常，并在测试集中进行验证。

4. 40个标志物

按单个特征的AUC值排序，分别取前20个肿瘤样本中增加的片段特征(T20)和前20个肿瘤样本中减少的片段特征(N20)进行组合。

其中，

T20包括：163-164bp、163-165bp、161-165bp、161-164bp、165-166bp、159-165bp、157-164bp、155-156bp、163-168bp、160-168bp、157-158bp、154-156bp、161-170bp、156-160bp、161-162bp、157-159bp、165-168bp、157-162bp、157-160bp、151-160bp

N20包括：339-340bp、341-342bp、343-344bp、337-339bp、340-342bp、337-340bp、341-344bp、336-340bp、341-345bp、337-342bp、337-338bp、343-345bp、341-347bp、340-348bp、334-340bp、341-348bp、345-346bp、343-348bp、341-350bp、345-348bp

针对每个样本，计算一个得分score40＝sum(T20)/sum(N20)，然后在训练集中计算该得分在肿瘤样本中相对于正常对照样本增加的比例，据此标准判断样本属于肿瘤或正常，并在测试集中进行验证。

5. 50个标志物

按单个特征的AUC值排序，分别取前25个肿瘤样本中增加的片段特征(T25)和前25个肿瘤样本中减少的片段特征(N25)进行组合。

其中，

T25包括：163-164bp、163-165bp、161-165bp、161-164bp、165-166bp、159-165bp、157-164bp、155-156bp、163-168bp、160-168bp、157-158bp、154-156bp、161-170bp、156-160bp、161-162bp、157-159bp、165-168bp、157-162bp、157-160bp、151-160bp、152-158bp、160-162bp、153-156bp、151-159bp、166-168bp

N25包括：339-340bp、341-342bp、343-344bp、337-339bp、340-342bp、337-340bp、341-344bp、336-340bp、341-345bp、337-342bp、337-338bp、343-345bp、341-347bp、340-348bp、334-340bp、341-348bp、345-346bp、343-348bp、341-350bp、345-348bp、346-348bp、333-340bp、347-348bp、346-350bp、335-336bp

针对每个样本，计算一个得分score50＝sum(T25)/sum(N25)，然后在训练集中计算该得分在肿瘤样本中相对于正常对照样本增加的比例，据此标准判断样本属于肿瘤或正常，并在测试集中进行验证。

6. 60个标志物

按单个特征的AUC值排序，分别取前30个肿瘤样本中增加的片段特征(T30)和前30个肿瘤样本中减少的片段特征(N30)进行组合。

其中，

T30包括：163-164bp、163-165bp、161-165bp、161-164bp、165-166bp、159-165bp、157-164bp、155-156bp、163-168bp、160-168bp、157-158bp、154-156bp、161-170bp、156-160bp、161-162bp、157-159bp、165-168bp、157-162bp、157-160bp、151-160bp、152-158bp、160-162bp、153-156bp、151-159bp、166-168bp、148-150bp、149-150bp、149-156bp、159-160bp、151-156bp

N30包括：339-340bp、341-342bp、343-344bp、337-339bp、340-342bp、337-340bp、341-344bp、336-340bp、341-345bp、337-342bp、337-338bp、343-345bp、341-347bp、340-348bp、334-340bp、341-348bp、345-346bp、343-348bp、341-350bp、345-348bp、346-348bp、333-340bp、347-348bp、346-350bp、335-336bp、331-340bp、334-336bp、349-350bp、349-351bp、331-339bp

针对每个样本，计算一个得分score60＝sum(T30)/sum(N30)，然后在训练集中计算该得分在肿瘤样本中相对于正常对照样本增加的比例，据此标准判断样本属于肿瘤或正常，并在测试集中进行验证。

7.不同标志物组合的判断结果

根据上述6种标志物组合的得分，在训练集和测试集中的判断结果如图1～6及表4所示：

表4不同标志物组合的肿瘤识别结果

由上表可知，利用10个片段特征即可以很好地识别出肿瘤样本，进一步增加片段特征没有使得识别效果更好，反面有一定程度的降低，表明利用10个片段特征具有较好的肿瘤识别效果，可能通过计算得分预测受试者是否患有肿瘤或者是否具有患肿瘤的风险。

实施例4 10个片段特征组成的标志物组合在外部测试集中的验证

为了进一步验证上述10个片段特征作为预测肿瘤的标志物的性能，发明人使用外部测试集(external data)进行进一步验证，结果如图7所示。

从图7中可以看出，利用10个片段特征得到的得分可以明显区别肿瘤样本和正常样本，具体地，在肿瘤样本中得分显著高于正常样本的得分，ROC曲线AUC达到0.827。

在本发明提及的所有文献都在本申请中引用作为参考，就如同每一篇文献被单独引用作为参考那样。此外应理解，在阅读了本发明的上述讲授内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims

1.一种cfDNA片段特征组合，其特征在于，包括第一cfDNA片段特征子组合和/或第二cfDNA片段特征子组合，所述第一cfDNA片段特征子组合包括落在60bp～200bp之间并且片段数量比例在群体癌症样本中增加的cfDNA片段特征，所述第二cfDNA片段特征子组合包括落在300～400bp之间并且片段数量比例在群体癌症样本中减少的cfDNA片段特征，所述增加或减少是指相对于群体正常样本相应片段特征的片段数量比例的代表值而言。

2.根据权利要求1所述的cfDNA片段特征组合，其特征在于，所述第一cfDNA片段特征子组合包括落在130bp～175bp之间的cfDNA片段特征，所述第二cfDNA片段特征子组合包括落在330bp～360bp之间的cfDNA片段特征。

3.根据权利要求2所述的cfDNA片段特征组合，其特征在于，所述落在130bp～175bp之间的cfDNA片段特征选自包括163-164bp、163-165bp、161-165bp、161-164bp、165-166bp、159-165bp、157-164bp、155-156bp、163-168bp、160-168bp、157-158bp、154-156bp、161-170bp、156-160bp、161-162bp、157-159bp、165-168bp、157-162bp、157-160bp、151-160bp、152-158bp、160-162bp、153-156bp、151-159bp、166-168bp、148-150bp、149-150bp、149-156bp、159-160bp、151-156bp、167-168bp、147-148bp、146-150bp、165-172bp、166-170bp、151-155bp、153-154bp、149-152bp、145-150bp、145-151bp、166-172bp、145-148bp、151-153bp、151-152bp、169-170bp、145-147bp、169-171bp、142-150bp、169-172bp和141-150bp的组中的至少一个。

4.根据权利要求3所述的cfDNA片段特征组合，其特征在于，所述第一cfDNA片段特征子组合包括落在160bp～170bp之间的cfDNA片段特征，所述落在160bp～170bp之间的cfDNA片段特征选自包括163-164bp、163-165bp、161-165bp、161-164bp和165-166bp的组中的至少一种。

5.根据权利要求2所述的cfDNA片段特征组合，其特征在于，所述落在330bp～360bp之间的cfDNA片段特征选自包括339-340bp、341-342bp、343-344bp、337-339bp、340-342bp、337-340bp、341-344bp、336-340bp、341-345bp、337-342bp、337-338bp、343-345bp、341-347bp、340-348bp、334-340bp、341-348bp、345-346bp、343-348bp、341-350bp、345-348bp、346-348bp、333-340bp、347-348bp、346-350bp、335-336bp、331-340bp、334-336bp、349-350bp、349-351bp、331-339bp、349-352bp、333-336bp、348-354bp、351-352bp、349-354bp、349-356bp、352-354bp、351-355bp、333-334bp、331-336bp、349-357bp、353-354bp、331-335bp、353-356bp、351-360bp、355-356bp、355-357bp、331-333bp、355-360bp和357-358bp的组中的至少一个。

6.根据权利要求3所述的cfDNA片段特征组合，其特征在于，所述第一cfDNA片段特征子组合包括落在335bp～345bp之间的cfDNA片段特征，所述落在335bp～345bp之间的cfDNA片段特征选自包括339-340bp、341-342bp、343-344bp、337-339bp和340-342bp的组中的至少一种。

7.一种预测受试者是否患有癌症或者是否具有患癌症的风险的系统，其特征在于，包括以下模块：

数据输入模块，用于输入受试者cfDNA片段长度和数量数据；

8.根据权利要求7所述的系统，其特征在于，所述第一cfDNA片段特征子组合中至少一个cfDNA片段特征的片段数量比例增加和/或所述第二cfDNA片段特征子组合中至少一个cfDNA片段特征的片段数量比例减少，则判断所述受试者患有癌症或者具有患癌症的风险。

9.根据权利要求7所述的系统，其特征在于，所述cfDNA片段特征组合包括第一cfDNA片段特征子组合和第二cfDNA片段特征子组合，所述癌症预测模块利用下面公式获得判断值：

其中，

Score为判断值，

10.权利要求1所述cfDNA片段特征组合的检测试剂在制备用于预测受试者是否患有癌症或者是否具有患癌症的风险的试剂盒中的应用。