CN116806267A

CN116806267A - 将样品分拣为临床相关类别的方法

Info

Publication number: CN116806267A
Application number: CN202180091896.7A
Authority: CN
Inventors: G·库姆巴里斯; A·阿喀琉斯; A·伊利亚蒂斯; C·洛伊兹迪斯; K·曾加拉斯; E·吉普力; M·约阿尼德斯; P·帕萨利斯
Original assignee: Medical Insurance Biotechnology Co ltd
Current assignee: Medical Insurance Biotechnology Co ltd
Priority date: 2020-12-18
Filing date: 2021-12-16
Publication date: 2023-09-26
Also published as: EP4263870A1; US20240052416A1; WO2022129360A1; IL303826A; MX2023007267A; JP2023554505A; EP4015650A1; CA3201862A1; KR20230133287A; AU2021399915A1

Abstract

本公开提供了用于将生物样品分拣为临床相关类别的方法和试剂盒。该方法包括以下步骤：(i)通过与参考序列比对在包含多个无细胞DNA(cfDNA)片段的样品中确定至少100,000个cfDNA片段的起始和/或终止的序列坐标，和(ii)在参考序列中确定由三核苷酸、四核苷酸和五核苷酸组成的所有核酸基序。所述核苷酸：(a)向内1到5个碱基对的范围内但邻近(i)中确定的各起始和/或终止序列坐标，和/或(b)向外1到5个碱基对的范围内但邻近(i)中确定的各起始和/或终止序列坐标。随后，在第三步(iii)，确定(a)样品中包含的多个cfDNA片段中在(i)中确定的各序列坐标加和/或减1个碱基对和(b)样品中包含的多个cfDNA片段中在(ii)a)和b)中确定的各核酸基序的频率。使用这些频率，计算(iii)a)和b)中确定的每个频率与相应参考频率的比率。对上述各比率分别计算诊断评分。最后一步，从确定的至少两个或更多个诊断评分计算综合诊断评分。诊断评分和综合诊断评分允许将样品分拣为临床相关类别，且综合诊断评分进一步允许将样品中无细胞和/或循环肿瘤DNA分类为低、中、高量。

Description

将样品分拣为临床相关类别的方法

技术领域

本发明属于生物学、医学和化学领域，特别是分子生物学领域，更特别是分子诊断领域。

背景技术

真核基因组被组织成染色质，其不仅能够压缩DNA，还能调节DNA代谢(复制、转录、修复、重组)。已经表明，真核生物体中染色质结构的特征，特别是核小体排列，可用于鉴定存在于真核生物体的复杂混合物中的稀有核酸片段(Heitzer E.等人,Nat.Rev.Genet.,2019,20(2):71-88)。

核小体对DNA的保护被假设为非随机片段化热点(HSNRF)出现的原因，HSNRF被定义为在基因组中的区域，其中相比于邻近的基因组位置，具有特定大小分布的核酸片段的末端被发现出现频率高于预期。

癌症通常发现于人体中不易接近的位置。用于诊断癌症的“金标准”侵入性外科活组织检查带来了重大临床风险，包括出血和感染。这种侵入性方法的缺点之一是，从肿瘤组织中获取的样品仅是自手术进行时空间上有限的表现的事实。然而，癌症并非静止不变，而是不断发生变化，其导致肿瘤内部以及原发性和转移性癌症之间的遗传异质性。在开发用于癌症诊断、监测和治疗指导的非侵入性/最小侵入性方法方面已经付出了巨大努力。利用母体血浆中的无细胞DNA对数值异常进行非侵入性产前检测的成功技术开发也可用于生物标志物发现，用于癌症的诊断。血浆中循环肿瘤DNA的发现提供了将其用作生物标志物并采用液体活组织检查检测、预后和预测对癌症治疗的反应的可能性，而无需关注与侵入性外科手术相关的风险。该技术通过在早期阶段检测癌症来使癌症患者受益，从而增加成功康复的可能性，帮助选择最合适的治疗方法，还有助于检测治疗过程后的微小残留疾病，从而帮助临床医生进行必要的医疗干预。不同于目前存在并发症风险的侵入性测试方法，液体活检对患者来说本质上是安全的，因为它使用如血液、尿液或痰的样品。

迄今为止，仅描述了有限数量试图估计肿瘤来源对血浆中发现的无细胞DNA(cfDNA)总量的影响的方法，所述无细胞肿瘤DNA(cfDNA)被用作预后生物标志物、对治疗的反应和/或抗性以及疾病复发的指标(Smith C.G.等人,Genome Med.,2020,12(1):23；Peiyong Jiang等人,PNAS,2018,115(46):E10925-E10933；Cristiano S.等人Nature,2019,570:385-389；Mouliere等人,Sci.Transl.Med.,2018,10(466):eaat4921；Newman A.等人,Nat.Med.,2014,20(5):548-554)。

目前基于液体活检的测试无法满足精准肿瘤学的需求，由于其复杂性以及有限的灵敏度和特异性(De Rubis G.等人,Trends Pharmacol Sci.,2019,40(3):172-186；Peiyong Jiang等人,Cancer Discov.,2020,CD-19-0622)。因此，此类方法的准确性不够高，并且可能会产生误导性的结果。

本发明通过扩大可从循环肿瘤DNA(ctDNA)测序中提取的信息的范围，和实施新颖的多参数策略以建立稳健、灵敏且特异性的液体活检检测方法来用于将样品分拣为临床相关类别，提供了针对现有技术的液体活检方法所面临的限制的解决方案。

发明内容

本发明提供了针对其他液体活检方法当前面临的精度限制的解决方案。本发明通过扩大可从无细胞肿瘤DNA或ctDNA测序中提取的信息范围并实施新颖的多参数策略以建立一种稳健、灵敏且特异性的液体活检检测方法来用于将样品分拣为临床相关类别，克服了所述的精度限制。

在一个实施方案中，本发明涉及一种将样品分类为包含无细胞肿瘤DNA的方法，所述方法包括以下步骤：

(i)通过与参考序列比对确定在包含多个无细胞DNA(cfDNA)片段的样品中至少100,000个cfDNA片段的起始和/或终止的序列坐标，

(ii)确定参考序列中以下所有由三核苷酸、四核苷酸和五核苷酸组成的核酸基序：

a)在向内1到5个碱基对的范围内但与(i)中确定的每个起始和/或终止序列坐标邻近，和/或

b)在向外1到5个碱基对的范围内但与(i)中确定的每个起始和/或终止序列坐标邻近，

(iii)确定以下各项的频率：

a)在样品中包含的多个cfDNA片段中，每个序列坐标加和/或减(i)中确定的1个碱基对，

b)在样品中包含的多个cfDNA片段中，(ii)a)和b)中确定的每个核酸基序，

(iv)计算(iii)a)和b)中确定的每个频率与相应的参考频率的比率，

(v)分别对(iv)中确定的每个比率单独计算诊断评分，所述评分为(iv)中所有相应频率比率的相应加权和，

(vi)从(v)中确定的至少两个或更多个诊断评分计算综合诊断评分，所述评分是(v)中确定的所述两个或更多个诊断评分的加权和，以及

(vii)通过比较所述综合诊断评分与参考评分来确定所述样品的分类，

其中如果所述综合诊断评分值比参考评分的平均值高所述参考评分的至少一个标准差，则所述样品被分类为包含肿瘤cfDNA，其中所述参考评分从一个或多个参考值计算。

在一个实施方案中，综合诊断评分是从对于上述方法的步骤(v)中计算的每个比率计算的所有诊断评分计算。

在一个实施方案中，本发明涉及将样品分类为包含无细胞肿瘤DNA的方法，所述方法包括以下步骤：

(i)通过与参考序列比对确定在包含多个无细胞DNA(cfDNA)片段的样品中至少100,000个cfDNA片段的起始和/或终止以及起始和/或终止加和/或减1个碱基对的序列坐标，

(ii)确定在样品中包含的多个cfDNA片段中(i)中确定的每个坐标的频率，

(iii)计算(ii)中确定的每个坐标的频率与对应的参考频率的比率，

(iv)从(iii)中确定的所有比率计算诊断评分，所述评分为(iii)中确定的所有频率比率的加权和，以及

(v)通过比较所述诊断评分与参考评分来确定所述样品的分类，

其中如果所述诊断评分值比参考评分的平均值高所述参考评分的至少一个标准差，则所述样品被分类为包含肿瘤cfDNA，其中所述参考评分从一个或多个参考值计算。

(ii)确定参考序列中包括由向内1至5个碱基对的范围内但邻近(i)中确定的每个起始和/或终止序列坐标的所有由三核苷酸、四核苷酸和五核苷酸组成的核酸基序，

(iii)确定在样品中包含的多个cfDNA片段中(ii)中确定的每个核酸基序的频率，

(iv)计算(iii)中确定的每个频率与相应的参考频率的比率，

(v)从(iv)中确定的所有比率计算诊断评分，所述评分是(iv)中确定的所有频率比率的加权和，以及

(vi)通过比较所述诊断评分与参考评分来确定所述样品的分类，

在另一个实施方案中，本发明涉及将样品分类为包含无细胞肿瘤DNA的方法，该方法包括以下步骤:

(ii)确定参考序列中向外1至5个碱基对范围内、但邻近(i)中确定的每个起始和/或终止序列坐标的所有由三核苷酸、四核苷酸和五核苷酸组成的核酸基序，

(iv)计算(iii)中确定的每个频率与相应的参考频率的比率，

其中如果诊断评分值比参考评分的平均值高所述参考评分的至少一个标准差，则所述样品被分类为包含肿瘤cfDNA，其中所述参考评分从一个或多个参考值计算。

在一个实施方案中，向内但邻近每个起始和/或终止序列坐标的碱基对范围可为距离每个起始和/或终止坐标2bp至6bp，或3bp至7bp，或4bp至8bp，或5bp至9bp，或6bp至10bp。

在一个实施方案中，待分析样品内包含的cfDNA片段的最低量为10万至50万、50万至100万、100万至200万、200万至500万、或500万至1000万、或1000万至2000万、或2000万至5000万、或5000万至5亿。

在一个实施方案中，如果综合诊断评分在参考评分的2-4个标准偏差之间，则样品中肿瘤cfDNA的量可分类为低，如果综合评分在参考评分的4-6.5个标准偏差之间，则可分类为中等，和如果综合评分高于参考评分的6.5个标准偏差，则可分类为高。

在一个实施方案中，参考样品可以是来自无癌症患者、非复发患者或成功治疗的癌症患者的样品。

在一个实施方案中，上述任一种方法的步骤(i)，通过与参考序列比对确定包含多个无细胞DNA(cfDNA)片段的样品中至少100,000个cfDNA片段的起始和/或终止的序列坐标，包括在与参考序列比对之前确定样品中的多个cfDNA片段的至少一部分的核酸序列。

在一个实施方案中，上述任一种方法的步骤(i)，通过与参考序列比对确定包含多个无细胞DNA(cfDNA)片段的样品中至少100,000个cfDNA片段的起始和/或终止的序列坐标，进一步包括在确定cfDNA片段的核酸序列之前富集cfDNA片段。

在一个实施方案中，样品被分类为包含源自肿瘤的肿瘤cfDNA，所述肿瘤选自血液癌、肝癌、肺癌、胰腺癌、前列腺癌、乳腺癌、胃癌、成胶质细胞瘤、结直肠癌、头颈癌、实体瘤、良性肿瘤、恶性肿瘤、晚期癌症、转移或癌前组织。

在另一个实施方案中，本发明涉及一种试剂盒，其包括：

(i)用于实施任何上述方法的组分，其中该组分包括:

a)用于从生物样品分离无细胞DNA的一种或多种组分，

b)用于制备和富集测序文库的一种或多种组分，和/或

c)用于扩增和/或测序该富集文库的一种或多种组分，

(ii)用于进行统计分析的软件。

附图说明

对20个来自无癌症患者的正常样品和27个来自诊断为晚期非小细胞肺癌(NSCLC)或结肠癌患者的异常样品进行了分析。10个随机选择的正常样品和10个随机选择的异常样品被用于训练步骤来估计实施例1-4中的未知参数。

图1:该图显示了实施例1-4中获得的“正常”样品(未包括在训练步骤中的健康、无癌症个体的对照样品)的评分相比于现有技术中描述的方法(在此称为“其他”方法)(Peiyong Jiang等人,Cancer Discov.,2020,CD-19-0622)获得的评分的分布。所述其他方法测量所分析的样品中包含的cfDNA片段的序列末端基序的量，还考虑并包括所述片段的起始和/或终止坐标，不同于本公开(其不包括所述起始和/或终止)。不显著的Kruskal-Wallis秩和检验(p值＝0.9966)显示，对于正常样品，没有一种方法随机地优于另一种方法。计算的评分的平均值对于每个实施例设置为零。

图2:该图说明了对于包含无细胞肿瘤(“异常”)DNA的样品(所述样品不包括在训练步骤中)通过实施例1-4中本发明的方法和用现有技术方法(在此称为“其他”方法)获得的评分值及其相应的分布。当这些分数与从正常样品(图1)获得的评分进行比较时，从实施例1-4通过根据本发明的方法获得了最高的差异，清楚地说明了在区分异常样品和正常样品时本发明方法(实施例1-4)相比于现有技术方法在灵敏度上的改进(增加)。

图3：该图说明了实施例1-4中所述方法与现有技术方法(在此称为“其他”方法)之间灵敏度性能的比较。从正常和异常样品的各个评分的经验分布，计算了实施例1-4中的所有方法和现有技术(“其他”)方法的估计灵敏度。所有方法的特异性(即统计假设检验的显著性水平)设定在99.9％，对于实施例1-4的方法，该数据集的估计灵敏度分别等于96.8％、99.94％、99.48％和99.9997％。本发明的所有方法显著优于仅实现84.3％的灵敏度的现有技术方法以及文献中当前可用的使用片段大小和拷贝数变化信息将样品分拣成临床信息类别并仅实现60％至90％的灵敏度的其他方法(Mouliere等人2018和Adalsteinsson等人2017)(数据未显示)。

图4：表1：该表显示了对于四个另外的正常样品和三个另外的异常样品，在实施例4中通过本发明的方法获得的评分，异常样品来自诊断为NSCLC(I期)的癌症患者。该表突出显示将ctDNA量分类为低、中等和高。如果综合诊断评分值在2至4.5之间，样品中的ctDNA量被分类为低，如果综合诊断评分值在4.5至6之间，则被分类为中等，和如果综合诊断评分值超过6，则被分类为高。

具体实施方式

本发明描述了一种液体活检方法，该方法利用基于可从ctDNA测序提取的扩大范围的信息的新的生物信息学分析，并实施新的多参数策略以建立一种稳健、灵敏且特异性的液体活检检测方法，用于将样品分拣为临床相关类别。

本发明的一个实施方案涉及一种包含无细胞肿瘤DNA的样品的分拣方法，所述方法包括确定样品中包含的多个cfDNA片段的末端或“起始和/或终止”的序列坐标，以及任选地起始和/或终止加和/或减1个碱基对的序列坐标。在此，cfDNA片段的“起始和/或终止”涉及cfDNA片段的末端、边界或最外碱基对或核苷酸。cfDNA片段的序列坐标的确定可通过与参考序列进行比对来完成，其中参考序列可以是生物体的DNA序列，优选人DNA序列，例如hg19或hg38人基因组序列或人受试者的基因组序列，其在一个实施方案中可以是健康的或无癌症的人受试者。

在本发明的一个实施方案中，序列坐标的确定可以包括分析和/或确定多个cfDNA片段的核酸序列，例如通过测序分析。在一个实施方案中，序列坐标的确定还可以包括从样品中提取或纯化核酸和/或特别地cfDNA片段，和/或从样品富集cfDNA片段，和/或在测序分析之前从分离的DNA、RNA或cfDNA制备测序文库。

测序数据的分析可以包括将获得的cfDNA核酸序列信息与参考基因组序列进行比对。该比对允许将分析的cfDNA片段的“起始和/或终止”或末端的序列坐标映射到参考基因组序列。在本发明的优选实施方案中，除了测序的cfDNA片段的起始和/或终止坐标之外，起始和/或终止的+1bp和-1bp位置的序列坐标也从参考基因组序列确定。

随后，样品内包含的多个cfDNA片段中每个确定的起始和/或终止序列坐标的频率可以被确定。在计算在多个cfDNA片段中检测的每个起始和/或终止序列坐标的频率(丰度)时，对于相同cfDNA片段(技术重复)或对于两个不同cfDNA片段(生物重复)检测的坐标均被考虑。在本发明的优选实施方案中，除了每个起始和/或终止坐标的频率，也确定样品中的多个cfDNA片段内起始和/或终止坐标+1bp和-1bp的每个序列坐标的频率。

在本发明的一个实施方案中，确定了每个确定的参考基因组坐标的频率与相应的参考频率的比率。在优选的实施方案中，对于起始和/或终止+1bp和-1bp序列坐标的每个频率，也计算样品中坐标频率与参考频率的这一比率。

随后，根据本发明的方法可以从所有频率比率计算诊断评分，所述诊断评分被定义为如实施例1中所述获得的所有频率比率的加权和，其中如果诊断评分值比参考评分的平均值高至少一个参考评分的标准差，则分析的样品被分类为包含肿瘤cfDNA，其中参考评分从一个或多个参考值计算。

在本发明的一个实施方案中，在确定样品中包含的多个cfDNA片段的起始和/或终止坐标后，可以确定参考序列中在从每个起始和/或终止序列坐标向内的特定碱基对范围内但与每个起始和/或终止序列坐标相邻1个或多个bp的由例如三核苷酸(三个连续的核苷酸)、四核苷酸(四个连续的核苷酸)和/或五核苷酸(五个连续的核苷酸)组成的所有核酸基序。在本发明的一个实施方案中，从每个起始和/或终止序列坐标向内但与每个起始和/或终止序列坐标相邻1个或多个bp的特定碱基对范围可以是1bp至5bp、2bp至6bp、3bp至7bp、4bp至8bp、5bp至9bp或6bp至10bp。在优选实施方案中，该范围可以是从样品中多个cfDNA片段中确定的每个起始和/或终止序列坐标向内1bp至5bp。基序取自参考基因组序列，以避免个体间的变异性(即单核苷酸多态性)。

核酸基序可以基于cfDNA片段与其比对的参考序列而不是片段的实际序列中每个检测的起始和/或终止位置来确定。

随后，可以确定样品内多个cfDNA片段中每个检测的核酸基序的频率(丰度)。在多个cfDNA片段中检测的每个基序的频率(丰度)的计算中，对于同一cfDNA片段或两个不同的cfDNA片段检测的基序均被考虑。之后，计算多个cfDNA片段内每个核酸基序频率与相应的参考频率的比率。随后，根据本发明的方法从所有频率比率计算诊断评分，所述诊断评分被定义为如实施例2中所述的所有频率比的加权和，其中如果诊断评分值比参考评分的平均值高参考评分的至少一个标准差，则分析的样品被分类为包含肿瘤cfDNA，其中参考评分从一个或多个参考值计算。

在本发明的一个实施方案中，在确定样品中包含的多个cfDNA片段的起始和/或终止坐标后，可以确定参考序列中从每个起始和/或终止序列坐标向外但与每个起始和/或终止序列坐标相邻1个或多全bp的特定碱基对范围内由例如三核苷酸(三个连续的核苷酸)、四核苷酸(四个连续的核苷酸)和/或五核苷酸(五个连续的核苷酸)组成的所有核酸基序。

在本发明的一个实施方案中，从每个起始和/或终止序列坐标向外但与每个起始和/或终止序列坐标相邻1个或多个bp的特定碱基对范围可以是1bp至5bp、2bp至6bp、3bp至7bp、4bp至8bp、5bp至9bp或6bp至10bp。在优选实施方案中，该范围可以是从样品中多个cfDNA片段中确定的每个起始和/或终止序列坐标向外1bp至5bp。核酸基序可以基于cfDNA片段与其比对的参考序列中每个检测的起始和/或终止位置来确定。此类核酸基序可以仅包含cfDNA片段与其比对处相邻1个或多个bp的参考序列的核酸序列。此类基序不包含cfDNA片段的核酸序列，但包含在参考序列中紧靠在起始或终止坐标外开始的序列，例如起始坐标向外1bp至5bp，但邻近起始和/或终止。

随后，可以确定样品内多个cfDNA片段中每个检测的核酸基序的频率。在多个cfDNA片段中检测的每个基序的频率(丰度)的计算中，对于同一cfDNA片段或两个不同的cfDNA片段检测的基序均被考虑。这之后，可以计算多个cfDNA片段内各核酸基序频率与相应的参考频率的比率。最后，可以根据本发明的方法从所有频率比率计算诊断评分，所述诊断评分被定义为如实施例3中所述的所有频率比率的加权和，其中如果诊断评分值比参考评分的平均值高参考评分的至少一个标准差，则分析的样品被分类为包含肿瘤cfDNA，其中参考评分从一个或多个参考值计算。

在本发明的一个实施方案中，本文的所有前述方法以下从与参考频率相比的比率计算评分的步骤可平行地或以特定顺序进行：(a)起始和/或终止序列坐标(任选地-1bp和/或+1bp)的频率，(b)位于cfDNA片段起始和/或终止坐标向内但与起始和/或终止坐标相邻一个或多个bp的所有核酸基序的频率，和(c)位于cfDNA片段起始和/或终止坐标向外但与cfDNA片段起始和/或终止坐标相邻一个或多个bp的所有核酸基序的频率，不包括cfDNA序列；其中随后步骤(a)、(b)和(c)中的两个或所有步骤的诊断评分值可以被用来根据本发明的方法计算综合诊断评分值，如实施例4中所述。根据该综合诊断评分值，如果综合诊断评分比参考评分的平均值高参考评分的至少一个标准差，则分析的样品被分类为包含肿瘤cfDNA或循环肿瘤DNA(ctDNA)，其中参考评分由一个或多个参考值计算。

在一个实施方案中，通过比较对于每个异常样品获得的综合诊断评分值与参考评分，样品中肿瘤cfDNA或ctDNA的量可被分类为(a)低，如果综合诊断评分在参考评分的2至4个标准差之间，(b)中等，如果综合诊断评分在参考评分的4至6.5个标准差之间，以及(c)高，如果综合诊断评分大于参考评分的6.5个标准差。(表1)。

无细胞核酸

在本文中，核酸片段的混合物优选从取自真核生物体的样品中分离，优选灵长类动物，更优选人。样品可包含来自不同组织类型的细胞或核酸。因此，样品可固有地包含核酸片段的混合物。

在本文中，“核酸”或“核酸序列”可与DNA、RNA、基因组DNA、无细胞DNA和/或RNA、tRNA、信使RNA(mRNA)、合成DNA或RNA互换地使用，但不限于此。

在本发明的上下文中，术语“核酸片段”和“片段化核酸”可以互换地使用。在根据本发明的方法的优选实施方案中，核酸片段是循环无细胞DNA或RNA。

在本发明的一个实施方案中，可以分析样品内包含的至少100,000个cfDNA片段。在另一个实施方案中，待分析样品内包含的cfDNA片段的数量可以在10万至50万、50万至100万、100万至200万、200万至500万、500万至1000万、1000万至2000万、2000万至5000万或5000万至5亿的范围内。

在本发明的一个实施方案中，“样品”是血液样品、血清样品、血浆样品、液体活组织检查样品或DNA样品(例如核酸片段的混合物)，所述DNA样品包括无细胞DNA(cfDNA)、无细胞肿瘤DNA(cftDNA)、循环肿瘤DNA(ctDNA)或循环cftDNA。在本发明的上下文中，术语“cfDNA”、“cftDNA”、“ctDNA”或“循环cftDNA”可以互换地使用。

在一个实施方案中，样品选自来自患有或疑似患有肿瘤的受试者的血浆样品、血液样品、尿样品、痰样品、脑脊液样品、腹水样品和胸水样品。在一个实施方案中，样品或DNA样品来自患有或疑似患有肿瘤的受试者的组织样品或一组恶性细胞。

在本发明的上下文中，术语“肿瘤”、“癌症”或“异常”可互换地使用。在本文中，术语“癌症”或“肿瘤”还可以包括早期癌症或晚期癌症、转移或癌前组织或细胞。在此，肿瘤样品或异常样品可涉及包含源自原发性肿瘤或转移性肿瘤的(无细胞)DNA或RNA的样品。正常样品或参考样品在本文中可涉及仅包含源自非癌性、健康或“正常”组织或细胞的(无细胞)DNA或RNA的样品。在本发明上下文中，术语“正常”、“对照”或“参考”可互换地使用。

本发明的方法可用于多种生物样品。基本上任何含有遗传物质(例如RNA或DNA，特别是无细胞DNA(cfDNA)或无细胞RNA)的生物样品都可用作允许对其中的RNA或DNA进行遗传分析的方法中的样品。例如，在一个实施方案中，DNA样品是含有无细胞DNA(cfDNA)的血浆样品或血液样品。

在用于肿瘤学目的的又一实施方案中，样品是从患有或疑似患有肿瘤或癌症的受试者获得的生物样品。在一个实施方案中，样品包含循环无细胞肿瘤DNA(cftDNA)。在另一个实施方案中，样品是受试者的尿、痰、腹水、脑脊液或胸水。在另一个实施方案中，肿瘤学样品是从受试者外周血制备的受试者血浆样品。在另一个实施方案中，样品是受试者的尿、痰、腹水、脑脊液或胸腔积液。在另一个实施方案中，肿瘤学样品是从受试者外周血制备的受试者血浆样品。因此，样品可以是从受试者的血液样品非侵入地获得的液体活组织检查样品，从而潜在地允许在可检测或可触知的肿瘤发展之前的早期癌症检测，或允许监测疾病进展、疾病治疗或疾病复发。

在此，无细胞DNA(cfDNA)指不包含在细胞内的DNA。样品可以包含来自正常或健康细胞和/或来自癌细胞的cfDNA。无细胞DNA可能通过分泌、细胞凋亡或坏死释放到血液或血清中。如果cfDNA从肿瘤或癌细胞释放，则其可被称为无细胞肿瘤DNA(cftDNA)。

在本发明的上下文中，术语“受试者”指动物，优选哺乳动物，并且更优选人或人类患者。如本文所用，术语“受试者”可以指患有肿瘤或疑似患有肿瘤的受试者。

在此，“肿瘤”通常是指癌症，包括但不限于实体瘤、腺瘤、血液癌、肝癌、肺癌、胰腺癌、前列腺癌、乳腺癌、胃癌、胶质母细胞瘤、结肠直肠癌、头颈癌、癌症晚期阶段的肿瘤、良性或恶性肿瘤、转移或癌前组织。

本文中，cfDNA片段的“末端”定义了核酸片段3’和5’末端的最外侧的核苷酸，并且在此也可称为cfDNA片段的“起始和/或终止(位置)”或“断点”或“边界”。与参考序列进行比对时，cfDNA片段的“(起始和/或终止)坐标”或“序列坐标”由参考序列中cfDNA片段的末端与其比对的最外侧核酸序列位置定义。例如，如果cfDNA片段与跨越序列位置1500bp到1700bp的参考核酸序列互补或比对则序列坐标将为1500bp和1700bp，从而限定了cfDNA片段的200bp的长度。

cfDNA的大小分布表现出166-bp的主峰和10-bp间隔的较小的峰，表明cfDNA的生物学可能与核小体组织相关。类似的模式也在癌症患者的血浆DNA中被观察到。cfDNA的非随机片段化模式(与起源组织有关)也可能与患者的健康状况有关。因此，无细胞DNA片段的末端或者起始和/或终止坐标和频率指示疾病的进展。它们根据肿瘤的起源和肿瘤质量而变化，这反映了疾病的程度且因此其对给定治疗的反应。

如本文所用，术语从起始和/或终止坐标“向内”指参考序列中从核酸片段的“起始和/或终止”坐标开始的方向，序列或基序沿其延伸。“向内”可能涉及核酸片段的序列或与之比对的参考序列中包含的核酸序列或基序。“向内”是可指核酸片段的起始坐标的+1、+2、+3、+4、+5等个碱基对和/或终止坐标的-1、-2、-3、-4、-5个碱基对。在一个实施方案中，向内但邻近每个起始和/或终止序列坐标的碱基对范围可以是距离每个起始和/或终止坐标1bp至5bp、2bp至6bp、或3bp至7bp、或4bp至8bp、或5bp至9bp或6bp至10bp。

如本文所用，术语从起始和/或终止坐标“向外”指参考序列中从核酸片段的“起始和/或终止”坐标开始的方向，序列沿其延伸。“向外”可能涉及不包含在核酸片段的序列或与之比对的参考序列中的核酸序列或基序。“向外”可以是指核酸片段的终止坐标的+1、+2、+3、+4、+5等个碱基对和/或起始坐标的-1、-2、-3、-4、-5个碱基对。在一个实施方案中，向外但邻近每个起始和/或终止序列坐标的碱基对范围可以是距离每个起始和/或终止坐标1bp至5bp、2bp至6bp、或3bp至7bp、或4bp至8bp、或5bp至9bp或6bp至10bp。

本方法分析起始和/或终止坐标加和减1bp的频率和/或序列基序，因为所观察到的片段的末端位点可能不一定是真正的切割/消化位点(Peiyong Jiang等人,GenomeRes.,2020,doi:10.1101/gr.261396.120)。因此，通过考虑附近的基因组碱基是真正的消化位点的可能性，本发明在将生物样品分拣为临床相关类别方面比现有技术水平具有更高的准确性。

在本文中，“核酸基序”、“序列基序”或“基序”是指核酸序列中的连续核苷酸的阵列，其由2、3、4、5、6、7、8、9、10、20、30、40、50、100等个连续的核苷酸组成。这种连续核苷酸的阵列也可以被称为“三核苷酸”、“四核苷酸”、“五核苷酸”、“六核苷酸”等。所述基序是当无细胞和/或循环DNA分子被产生并释放到血浆中时，例如被特定核酸酶优先切割的人类基因组位置的子集。这种在细胞凋亡期间由切割核酸(例如DNA)的核酸酶产生的血浆DNA末端基序显示不同的特征，其可包含HSNRF或对HSNRF是特异性的。在优选的实施方案中，“基序”是指来自参考基因组序列的3、4或5个连续核苷酸的阵列。

在一个实施方案中，核酸基序可位于cfDNA片段的末端或断点处，其中该基序可包含在cfDNA片段的核酸序列内，或位于cfDNA片段序列的边界之外和参考核酸序列内，例如邻近cfDNA片段比对的位置。

cfDNA的分析

在本文中，“参考序列”可以是任何核酸序列、基因组序列、生物体或受试者的基因组序列，优选是人类基因组序列(如hg19或hg38)或者健康个体或受试者的序列。

在本文中，起始和/或终止序列坐标频率的“参考频率”可以是一个或多个参考基因组、参考序列中，或者一个或多个健康或“正常”对照样品、受试者或患者的一个或多个基因组或序列中相应的起始和/或终止序列坐标的频率。在本文中，核酸基序的“参考频率”可以是一个或多个参考基因组、参考序列中，或者一个或多个健康或“正常”对照样品、受试者或患者的一个或多个基因组或序列中相应核酸基序的频率。

在本文中，“频率”可与丰度和出现率互换使用。在本发明的一个实施方案中，“频率”描述了样品中包含的多个核酸或cfDNA片段中检测或计数的例如核酸序列基序、核酸(cfDNA)片段或起始和/或终止序列坐标的丰度和出现率或数量。

在本文中，“比率”可以指例如在样品中的多个核酸片段中检测的核酸序列基序的频率与参考样品中相同核酸序列基序的频率的数学关系或比例。本文中，比率可以通过将每个坐标或基序的频率除以相应坐标或基序的相应参考频率来计算。

对于样品制备，使用本领域已知的标准技术从样品中提取核酸，例如DNA和/或RNA，其非限制性例子是QIAsymphony(QIAGEN)方案、QIAamp Circulating Nucleic Acid(QIAGEN)、ingFisher(Thermofisher)方案、MagMAX^TMCell-Free DNA(Thermofisher)或适合于无细胞DNA分离的任何其他手动或自动提取方法。

在分离之后，样品的无细胞DNA可用于测序文库制备以使样品与下游测序技术(例如下一代测序(NGS))相容。通常，这涉及将衔接子连接到无细胞DNA片段的末端上。测序文库制备试剂盒是市售的或可以是开发的。

cfDNA的靶向富集是使用结合人类基因组上的感兴趣区域的靶捕获序列(TACS)进行的，且其中：池中的每条序列在长度125-260bp和/或长度125-300bp和/或长度125-350bp之间，每个序列具有5’端和3’端；池中的每条序列与5’端和3’端上距离携带拷贝数变异、节段重复或重复DNA元素的区域至少10个碱基对的感兴趣区域结合；并且TACS的GC含量在20％-50％，和/或20％-60％，和/或20％-70％，和/或20％-80％之间。

在本文中，术语“靶标捕获序列”或“TACS”指与感兴趣的基因组序列上的感兴趣区域互补的DNA序列，且其被用作从大的序列文库中捕获和富集感兴趣区域的“诱饵”，例如从生物样品制备的全基因组测序文库。在本发明的上下文中，术语“靶标捕获序列”或“TACS”或“探针”可以互换地使用。

在另一个实施方案中，TACS的池结合多个感兴趣的肿瘤生物标志物序列，其选自包括但不限于以下的组：AKT1、ALK、APC、AR、ARAF、ATM、BAP1、BARD1、BMPR1A、BRAF、BRCA1、BRCA2、BRIP1、CDH1、CDK4、CDKN2A(pl4ARF)、CDKN2A(pl6INK4a)、CHEK2、CTNNB1、DDB2、DDR2、DICERl、EGFR、EPCAM、ERBB2、ERBB3、ERBB4、ERCC1、ERCC2、ERCC3、ERCC4、ERCC5、ESR1、FANCA、FANCB、FANCC、FANCD2、FANCE、FANCF、FANCG、FANCI、FANCL、FANCM、FBXW7、FGFR1、FGFR2、FLT3、FOXA1、FOXL2、GATA3、GNA11、GNAQ、GNAS、GREM1、HOXB13、IDH1、IDH2、JAK2、KEAP1、KIT、KRAS、MAP2K1、MAP3K1、MEN1、MET、MLH1、MPL、MRE11A、MSH2、MSH6、MTOR、MUTYH、MYC、MYCN、NBN、NPM1、NRAS、NTRK1、PALB2、PDGFRA、PIK3CA、PIK3CB、PMS2、POLD1、POLE、POLH、PTEN、RAD50、RAD51C、RAD51D、RAF1、RBI、RET、ROS1、RUNX1、SDHA、SDHAF2、SDHB、SDHC、SDHD、SLX4、SMAD4、SMARCA4、SPOP、STAT、STK11、TMPRSS2、TP53、VHL、XPA、XPC及其组合。在一个实施方案中，TACS池结合多个感兴趣的肿瘤生物标志物序列，其选自EGFR_6240、KRAS_521、EGFR_6225、NRAS_578、NRAS_580、PIK3CA_763、EGFR_13553、EGFR_18430、BRAF_476、KIT_1314、NRAS_584、EGFR_12378及其组合。

在另一个实施方式中，TACS池结合多个感兴趣的肿瘤生物标志物序列，其选自包括但不限于以下的组：COSM6240(EGFR_6240)、COSM521(KRAS_521)、COSM6225(EGFR_6225)、COSM578(NRAS_578)、COSM580(NRAS_580)、COSM763(PIK3CA_763)、COSM13553(EGFR_13553)、COSM18430(EGFR_18430)、COSM476(BRAF_476)、COSM1314(KIT_1314)、COSM584(NRAS_584)、COSM12378(EGFR_12378)及其组合，其中标识符指生物标志物的COSMIC数据库ID号。通常，探针杂交或富集步骤可以在测序文库创建之前或文库创建之后进行。

在本发明的一个实施方案中，测序文库可以通过测序文库与一种或多种覆盖例如非随机片段化热点(HSNRF)的探针的杂交富集感兴趣的序列区域。这类HSNFR区域是具有在短距离内包含大量核酸序列变异的高度可能性的区域，从而得鉴定不同组织来源类型(例如癌症和正常)，其存在于cfDNA的混合物中。

HSNRF所在的感兴趣染色体上的感兴趣区域通过将HSNRF捕获探针池与测序文库杂交，然后分离在测序文库内与探针结合的那些序列而富集。在一个实施方案中，探针跨越HSNRF位点，使得仅片段化的无细胞核酸的5’末端被探针捕获。在另一个实施方案中，探针跨越HSNRF位点，使得仅源自HSNRF的片段化无细胞核酸的3’末端可以结合到探针。在另一个优选的实施方案中，探针跨越与片段化的核酸相关的HSNRF位点两者，使得与给定HSNRF位点相关的无细胞核酸的5’端和3’端两者被探针捕获。

为便于分离所需的富集序列(HSNRF)，通常对探针序列进行修饰，其方式使得与探针杂交的序列可以从不与探针杂交的序列分离。通常，这是通过将探针固定到支撑物上来实现的。这允许将结合探针的那些序列与不结合探针的那些序列进行物理分离。例如，探针池中的每个序列可以用生物素标记，然后可以将探针池与包被有生物素结合物质(例如链霉亲和素或抗生物素蛋白)的珠结合。在优选的实施方案中，探针用生物素标记并结合链霉亲和素包被的磁珠，从而允许通过利用珠的磁性质进行分离。然而，普通技术人员将理解，其他亲和结合系统是本领域已知的并且可以代替生物素-链霉亲和素/抗生物素蛋白使用。例如，可以使用基于抗体的系统，其中探针用抗原标记，然后与抗体包被的珠结合。而且，探针可以在一端并入序列标签，并且可以通过与序列标签杂交的支持物上的互补序列与支持物结合。此外，除了磁珠之外，可以使用其他类型的支持物，例如聚合物珠、玻璃等。

在某些实施方案中，与探针池结合的测序文库的成员与探针完全互补。在其他实施方案中，与探针池结合的测序文库的成员与探针部分互补。例如，在某些情况下，可能期望利用和分析来自DNA片段的数据，所述DNA片段是富集过程的产物，但不一定属于感兴趣的基因组区域(即，这样的DNA片段可能由于部分同源性而与探针结合)，并且当测序时，将在整个基因组中产生非常低的非探针坐标的覆盖率。

在使用探针富集感兴趣的序列，从而形成具有HSNRF位点的富集DNA文库后，富集的HSNRF文库的成员被洗脱，并使用本领域已知的标准方法进行扩增和测序。在另一个实施方案中，探针与支持物一起提供，例如与链霉亲和素包被的磁珠一起提供的生物素化的探针。

为了检测肿瘤生物标志物，探针基于本文所述的设计标准和肿瘤生物标志物基因的已知序列及其中与癌症相关的基因突变来设计。在一个实施方案中，该方法中使用的多个探针结合多个感兴趣的肿瘤生物标志物序列。在此，探针可以位于邻近突变位点的非随机片段的热点中。

在本文中，下一代测序(NGS)可用于核酸序列分析，尽管也可以使用提供除序列信息之外的非常精确计数的其他测序技术。相应地，也可以代替NGS而使用其他精确计数的方法，例如但不限于数字PCR、单分子测序、纳米孔测序、DNA纳米球测序、连接测序、离子半导体测序、边合成边测序和微阵列。

在一个实施方案中，本发明涉及一种方法，其中待检测或待确定其来源的核酸片段以低于来自相同基因座但不同来源的核酸片段的浓度存在于混合物中。

本方法特别适用于分析如此低浓度的靶标cfDNA。在根据本发明的方法中，待检测或待确定其来源的核酸片段和来自相同基因位点但不同来源的核酸片段以选自1:2、1:4、1:10、1:20、1:50、1:100、1:200、1:500、1:1000、1:2000和1:5000的比率存在于混合物中。该比率理解为意味着加/减30％、20％或10％的近似比率。本领域技术人员了解，这些比率不会精确地以上述数值出现。该比率是指对于稀有类型的基因座特异性分子的数量比丰富类型的基因座特异性分子的数量。

数据分析

从富集文库的测序获得的信息使用创新的生物数学/生物统计数据分析途径来分析。本方法利用了cfDNA片段的特征，包括使用参考基因组序列与末端坐标相邻1个或多个bp的所有可能基序的组合并且排除所观察到的cfDNA末端位点，因为它们可能不代表真正的消化位点。此外，通过组合对cfDNA的不同特征(包括位置和基序)的分析，本发明实现了提高的精确度的意想不到的技术效果，即在相同的特异性水平上提高的灵敏度。

根据本发明的优选实施方案，进行靶向末端配对下一代测序。所有样品的多重复用数据使用Illumina bcltofastq工具解复用。所述样品的测序数据使用cutadapt软件(Martin,M.等人2011EMB.netJournal 17.1)处理以去除衔接子序列和低质量的阅读(Q-评分＜25)

长度至少为25个碱基的处理的阅读片段使用Burrows-Wheel比对算法与人参考基因组构建GRCh37(hg19)(UCSC Genome Bioinformatics)比对。移除插入大小大于阈值的配对阅读片段，所述阈值在100-600的范围内。如果相关，鉴定重复的阅读，通过唯一分子标识符(UMI)家族分组，并用于产生比对后每个UMI家族的共有阅读。

在适用的情况下，关于同一样品但在单独的测序通道上处理的测序输出被合并到单一测序输出文件中。使用fgbio、picard工具软件套件(Broad Institute)和Sambanba工具软件套件(Sambamba reference,Tarasov,Artem等人Sambamba:fast processing ofNGS alignment formats.Bioinformatics 31.12(2015):2032-2034)执行重复和合并程序的利用。关于映射位置(最外和附近的坐标)、感兴趣的基因座处每碱基的读取深度及片段大小方面的信息使用SAMtools软件套件的mpileup选项(下文中称为mpileup文件)获得，并使用以Python和R编程语言(Python Software Foundation(2015)Python；The RFoundation(2015)The R Project for Statistical Computing)编写的定制应用程序编程接口(APIs)处理。

片段的末端坐标定义为该片段跨越的参考基因组中的最外侧坐标，即每个比对的片段具有两个末端坐标(相对于参考基因组的起始/最左侧位置(5’端)和终止/最右侧位置(3’端)坐标)。

在本发明的各种实施方案中，靶标组由至少500个靶标基因组碱基组成。每个样品所需的最小片段数量为100,000。

本文中，“诊断评分值”被计算为如“实施例部分”的实施例1、2和3中所述的所有频率比率的加权和。

本文中，“综合诊断评分值”被计算为如实施例4中所述的本发明中描述的所有步骤的至少两个或更多个频率比率的加权和。

在本发明的一个实施方案中，“参考评分”可以从一个或多个“参考值”计算。

在一个实施方案中，参考值或参考评分可由从一个或多个正常或参考样品获取的数据计算。在一个实施方案中，参考值或参考评分，及被分析样品的值(例如，核酸基序的频率或起始和/或终止坐标的频率)或与其比较的被分析样品的诊断评分，根据本文中所公开的相同计算方法计算。

样品分类

在本文中，样品的分类包括二元分类(即，癌症、无癌症；预后良好、预后不良/差；复发、非复发)和将cftDNA分类的量分类为低、中等和高。

用于样品分类的临床相关类别可以是存在或不存在癌症、疾病或癌症缓解、疾病或癌症的复发、早期癌症阶段和预后。

在一个实施方案中，如果综合诊断评分在参考评分的2至4个标准差之间，则样品中肿瘤cfDNA的量、存在或丰度可分类为低，如果综合诊断评分在参考评分的4至6.5个标准差之间，则可被分类为中等，和如果综合诊断评分在参考评分的6.5个标准差以上，则可被公类为高。

肿瘤学用途

本发明可用于治疗癌症或评估肿瘤负荷、检测微小残留疾病、监测治疗结果、长期监测患者结果。本发明可进一步用于鉴定适合靶向治疗的突变和用于检测癌症体细胞和种系突变。本发明的方法便于早期检测不能通过其它方法检测的小肿瘤，并实现更靶向的、定制的治疗途径。

试剂盒

在另一方面，本发明提供用于实施本发明的方法的试剂盒。在一个实施方案中，所述试剂盒包含容器(其包含探针池)和用于实施所述方法的软件和指令。

除探针池之外，试剂盒可以包含以下的一种或多种：(i)用于从生物样品中分离无细胞DNA的一种或多种组分，(ii)用于制备和富集测序文库的一种或多种组分(例如引物、衔接子、缓冲液、接头、DNA修饰酶、连接酶、聚合酶、探针等),(iii)用于扩增和/或测序富集文库的一种或多种组分，和/或(iv)用于进行统计分析的软件。适用于实施(i)、(ii)和(iii)中所述步骤的组分为本领域技术人员所公知。

在一个实施方案中，探针以允许其结合到固体支持物的形式提供，例如生物素化的探针。在另一个实施方案中，探针与固体支持物一起提供，例如与链霉亲和素包被的磁珠一起提供的生物素化探针。

在各种其它实施方案中，试剂盒可包括用于实施所述方法的其它方面的附加组分。例如，除探针池之外，试剂盒可包含以下的一种或多种：(i)用于从母体血浆样品中分离无细胞DNA的一种或多种组分；(ii)用于制备测序文库的一种或多种组分(例如引物、衔接子、接头、限制性酶、连接酶、聚合酶)；(iii)用于扩增和/或测序富集文库的一种或多种组分；和/或(iv)用于进行统计分析的软件。适用于实施(i)、(ii)和(iii)中所述步骤的组分为本领域技术人员公知的。

实施例

实施例1

样品中包含的多个cfDNA片段的起始和/或终止(加和/或减1个碱基对)的确定通过与参考序列比对完成。随后，确定样品内包含的多个cfDNA片段中每个确定的起始和/或终止序列坐标的频率。确定每个确定的参考基因组坐标的频率与相应参考频率的比率，并计算获得的所有频率比率的加权和(在此称为“诊断评分”)。

根据本发明的一个实施方案，对于每个碱基i，i＝1，...，B，其中B等于所述组中靶标碱基的总数，随机变量X_i定义为满足以下至少一个条件的映射阅读片段的总数：

(A1)在碱基i处有起始位置坐标，或

(A2)在碱基i处有终止位置坐标，或

(A3)在碱基i处有起始减一个碱基位置坐标，或

(A4)在碱基i处有起始加一个碱基位置坐标，或

(A5)在碱基i处有终止减一个碱基位置坐标，或

(A6)在碱基i处有终止加一个碱基位置坐标。

在零假设(即背景模型)下，预期在基因组的不同碱基处观察到满足条件A1-A6中至少一个的不同但静止的阅读数，所述每碱基背景概率分布模型从一组正常样品估算。从上述X_i的定义，我们获得X_i～Bin(X_i；n_i；p_i)，其中n_i等于跨越碱基i的总阅读数，并且p_i对于所有i进行估计，称为如下：

其中z_i，j是对于正常样品j在碱基i处满足条件A1-A6中至少一个的观察到的阅读数，以及n_i，j是对于总共N个正常样品中的正常样品j的跨越碱基i的总阅读数。具有非常小的p和大的n的二项式分布可以通过速率参数等于np的泊松分布来近似。因此，每碱基背景模型由以下数学式定义：其中n_i等于跨越碱基i的总阅读数。在本发明的另一实施方案中，Weibull分布或Beta分布用于建模，在每个碱基i处，对于所有j随机变量通过z_i，j/n_i，j定义。

在对每碱基背景模型训练后，进行如下操作。对于每个样品k，在本发明的一个实施方案中，执行以下操作：对于每个X_i，将观察值，即x_i，与估计的每碱基背景模型进行比较。如果p值，即P(X_i＞x_i)＝1-P(X_i≤x_i)，小于0.001，那么X_i的观察值除以跨越碱基i的总阅读数，即Y_i＝X_i/n_i，否则Y_i＝0。随后，样品特异性评分计算如下：其中n₂是Y_i＞0的碱基总数。然后，使用以下数学式对S_0，k进行标准化以获得标准化评分S_1，k：

其中m和S是来自正常参考样品的所有S₀值的平均值和标准差。(图1、2和3)。

实施例2

在确定了cfDNA片段的起始和/或终止(加和/或减1个碱基对)序列坐标后，参考基因组的参考序列中的所有核酸基序被确定。所述基序由三核苷酸、四核苷酸和/或五核苷酸组成，并且在向内但邻近起始和/或终止坐标的1个或多个碱基对的特定碱基对范围内。确定多个cfDNA片段内每个核酸基序频率与相应参考频率的比率，并计算获得的所有频率比率的加权和(在此称为“诊断评分”)。

根据本发明的一个实施方案，对于每个样品，即k，在hg19参考基因组上比对的每个cfDNA片段的两个序列被确定，所述序列包含从比对的cfDNA片段的两端向内1-5个碱基对范围内的hg19基因组序列(不包括片段跨越的核酸序列)，并计算了所述序列内所有三核苷酸(例如ACC、GGT等)、四核苷酸和五核苷酸基序的绝对频率，即T_i，j，对于i＝1，...，n_j，j＝3，4，5，为核苷酸数，并且n_j为所有可能的j-核苷酸基序的数量(n₃＝64，n₄＝256，n₅＝1024)。样品特异性评分S_2，k计算如下：

其中

/>

在上述公式中，D_k是样品k中共有片段的总数，r_ij是从无ctDNA样品的训练数据集计算的f_ij的参考值，m_ij和s_ij是从无ctDNA样品的训练数据集计算的的参考平均值和标准差，w_ij是从训练集优化的权重/>以提供正常样品和异常样品之间的最佳分离。在本发明的各种实施方案中，权重b_j可以变化，b₃＝1/12或1/6或1/3或1/2，b₄＝1/12或1/6或1/3或1/2以及b₅＝1-b₃-b₄。(图1、2和3)。

实施例3

在确定了cfDNA片段的起始和/或终止(加和/或减1个碱基对)序列坐标后，参考基因组的参考序列中的所有核酸基序被确定。所述基序由三核苷酸、四核苷酸和/或五核苷酸组成，并且在向外但邻近起始和/或终止坐标的1个或多个碱基对的特定碱基对范围内。确定多个cfDNA片段内每个核酸基序的频率与相应参考频率的比率，并计算获得的所有频率比率的加权和(在此称为“诊断评分”)。

在本发明的一个实施方案中，对于每个样品，即k，在hg19参考基因组上比对的每个cfDNA片段的两个序列被确定，所述序列包含从比对的cfDNA片段的两端向外1-5个碱基对的范围内hg19基因组序列(不包括所述片段跨越的核酸序列)，并计算了所述序列内所有三核苷酸(例如ACC、GGT等)、四核苷酸和五核苷酸基序的绝对频率，即T_i，j，对于i＝1，...，n_j，j＝3，4，5，为核苷酸数，并且n_j为所有可能的j-核苷酸基序的数量(n₃＝64，n₄＝256，n₅＝1024)。样品特异性评分S_3，k计算如下：

其中

实施例4

在本方法的一个实施方案中，为每个样品计算在实施例1、2和3中计算的评分中至少两个的加权和，所述加权和在后续中被称为“综合诊断评分”。样品k的诊断评分，即DS_k，定义为以上实施例1、2和3中描述的评分中的至少两个的加权平均，即

其中S₁、S₂和S₃分别在实施例1、2和3中计算，且在本发明的各种实施方案中，W₁＝0.5或0.4或0.3或0.2或0，在一位小数位舍入，W₂＝0.5或0.4或0.3或0.2或0，在一位小数位舍入，W₃＝1-W₁-W₂。在本方法的另一实施方案中，{S₁，S₂，S₃}的最大值和最小值的加权平均被用来计算样品k的DS评分，也就是DS_k＝zMAX(S_1，k，S_2，k，S_3，k)+(1-z)MIN(S_1，k，S_2，k，S_3，k)，其中0.5＜z＜1。

Claims

1.包含无细胞肿瘤DNA的样品的分拣方法，该方法包括以下步骤:

(i)通过与参考序列比对，在包含多个无细胞DNA(cfDNA)片段的样品中确定至少100,000个cfDNA片段的起始和/或终止以及起始和/或终止加和/或减1个碱基对的序列坐标，

(ii)确定所述样品中包含的所述多个cfDNA片段中(i)中确定的每个坐标的频率，

(iii)计算(ii)中确定的每个坐标的频率与相应参考频率的比率，(iv)根据(iii)中确定的所有比率计算诊断评分，所述评分是(iii)中确定的所有频率比率的加权和，以及

其中如果所述诊断评分值比所述参考评分的平均值高所述参考评分的至少一个标准差，则所述样品被分类为包含肿瘤cfDNA，其中所述参考评分从一个或多个参考值计算。

2.包含无细胞肿瘤DNA的样品的分拣方法，该方法包括以下步骤:

(i)通过与参考序列比对在包含多个无细胞DNA(cfDNA)片段的样品中确定至少100,000个cfDNA片段的起始和/或终止的序列坐标，

(ii)确定参考序列中向内1-5个碱基对的范围内但与(i)中确定的每个起始和/或终止序列坐标邻近的由三核苷酸、四核苷酸和五核苷酸组成的所有核酸基序，

(iii)确定所述样品中包含的所述多个cfDNA片段中(ii)中确定的每个核酸基序的频率，

(iv)计算(iii)中确定的每个频率与相应参考频率的比率，

3.包含无细胞肿瘤DNA的样品的分拣方法，该方法包括以下步骤:

(ii)确定参考序列中向外1-5个碱基对的范围内但与(i)中确定的每个起始和/或终止序列坐标邻近的由三核苷酸、四核苷酸和五核苷酸组成的所有核酸基序，

(iv)计算(iii)中确定的每个频率与相应参考频率的比率，

4.包含无细胞肿瘤DNA的样品的分拣方法，该方法包括以下步骤:

(i)通过与参考序列比对确定包含多个无细胞DNA(cfDNA)片段的样品中至少100,000个cfDNA片段的起始和/或终止的序列坐标，

(ii)确定参考序列中以下的由三核苷酸、四核苷酸和五核苷酸组成的所有的核酸基序：

a)向内1到5个碱基对的范围内但与(i)中确定的每个起始和/或终止序列坐标邻近，和/或

b)向外1到5个碱基对的范围内但与(i)中确定的每个起始和/或终止序列坐标邻近，

(iii)确定以下各项的频率：

a)在所述样品中包含的所述多个cfDNA片段中，(i)中确定的每个序列坐标加和/或减1个碱基对，

b)在所述样品中包含的所述多个cfDNA片段中，在(ii)a)和b)中确定的每个所述核酸基序，

(iv)计算(iii)a)和b)中确定的每个频率与相应的参考频率的比率，(v)分别对于步骤(iv)中确定的每个比率单独计算诊断评分，所述评分为步骤(iv)的所有相应频率比率的相应加权和，

(vi)从(v)中确定的至少两个或更多个所述诊断评分计算综合诊断评分，所述评分是(v)中确定的所述两个或更多个诊断评分的加权和，以及

其中如果所述综合诊断评分值比所述参考评分的平均值高所述参考评分的至少一个标准差，则所述样品被分类为包含肿瘤cfDNA，其中所述参考评分从一个或多个参考值计算。

5.根据权利要求4所述的方法，其中所述综合诊断评分从权利要求4步骤(v)中计算的所有诊断评分计算。

6.根据权利要求2至5所述的方法，其中向内但邻近每个起始和/或终止序列坐标的所述碱基对范围可为距离每个起始和/或终止坐标2bp至6bp，或3bp至7bp，或4bp至8bp，或5bp至9bp，或6bp至10bp。

7.根据权利要求1至6中任一项所述的方法，其中待分析的样品中包含的cfDNA片段的最低量为10万至50万、50万至100万、100万至200万、200万至500万、或500万至1000万、或1000万至2000万、或2000万至5000万、或5000万至5亿。

8.根据权利要求4至7所述的方法，其中如果所述综合诊断评分在所述参考评分的2-4个标准差之间，则所述样品中肿瘤cfDNA的量可分类为低，如果所述综合分数在所述参考评分的4-6.5个标准差之间，则可分类为中等，和如果所述综合分数高于所述参考评分的6.5个标准差，则可分类为高。

9.根据权利要求1至8中任一项所述的方法，其中所述参考样品可以是来自无癌症患者、或来自非复发患者或来自成功治疗的癌症患者的样品。

10.根据权利要求1至8中任一项所述的方法，其中步骤(i)包括在与参考序列比对之前确定所述样品中所述多个cfDNA片段的至少一部分的核酸序列。

11.根据权利要求1-10所述的方法，其中步骤(i)进一步包括在确定cfDNA片段的核酸序列之前富集cfDNA片段。

12.根据前述权利要求中任一项所述的方法，其中所述样品被分类为包含源自肿瘤的肿瘤cfDNA，所述肿瘤选自血液癌、肝癌、肺癌、胰腺癌、前列腺癌、乳腺癌、胃癌、成胶质细胞瘤、结直肠癌、头颈癌、实体瘤、良性肿瘤、恶性肿瘤、晚期癌症、转移或癌前组织。

13.一种试剂盒，包含：

(i)用于实施根据权利要求1至12中任一项所述的方法的组分，其中组分包括:

a)用于从生物样品分离无细胞DNA的一种或多种组分，

b)用于制备和富集测序文库的一种或多种组分，和/或

c)用于扩增和/或测序富集的文库的一种或多种组分，

(ii)用于进行统计分析的软件。