CN116490621A

CN116490621A - 鉴定移植物排斥的标志物的方法

Info

Publication number: CN116490621A
Application number: CN202180058047.1A
Authority: CN
Inventors: S·克里什纳库马尔; M·李; P·帕尔斯加德; M·N·明德里诺斯
Original assignee: Sirona Genomics Ltd
Current assignee: Sirona Genomics Ltd
Priority date: 2020-06-05
Filing date: 2021-06-04
Publication date: 2023-07-25
Also published as: CA3185142A1; WO2021247949A3; AU2021282588A1; US20230348982A1; EP4162071A2; WO2021247949A2

Abstract

本发明涉及多核苷酸探针，每个多核苷酸探针包含两条完美互补的链。在一些实施方案中，该链中的每一个以5’至3’方向包含，a)第一靶杂交序列，b)第一数字标签序列，c)第一Halo条形码序列，d)第一Halo扩增引物序列，e)反向第二Halo扩增引物序列，f)反向第二Halo条形码序列，g)反向第二数字标签序列，和h)反向第二靶杂交序列。本发明还涉及使用这些新的探针来确定来自两个不同来源的DNA的混合物中DNA次要群体的水平的方法。

Description

鉴定移植物排斥的标志物的方法

发明背景

发明领域

本发明通常涉及评估循环无细胞核酸以诊断移植物的排斥或接受的新的探针和方法。

发明背景

同种异体移植物排斥的早期诊断是移植后患者护理的极为重要的组成部分。器官健康和排斥事件的移植后监测对于移植的长期成功至关重要。任何排斥事件的早期检测都可以导致有效的干预，以防止排斥或使对接受者的伤害降到最低。

目前的移植监测技术涉及昂贵的且具有侵入性的规程。移植物活组织检查仍然是大多数器官移植监测的黄金标准。例如，心内膜心肌活组织检查常用于心脏同种异体移植物监测。这是一种侵入性规程，通常需要获取心肌的小样品，以检测心脏移植后供体心脏的排斥。

鉴于活组织检查并发症，人们付出了相当大的努力来开发可能取代或减少移植物活组织检查需求的无创技术。这种努力的示例是监测接受者的免疫应答以检测排斥的发作。然而，这种方法因产生低阳性预测值而受到批评。另一种监测方法是评估接受者的血液中供体DNA的水平。但是这种监测方法有显著的局限性，因为它涉及使用高通量测序平台来检测来自两个不同来源的DNA的混合物中微量的DNA的次要群体。因此，本领域需要用于监测和早期诊断同种异体移植物排斥的可替代的但可靠的、可重现的且无创的方法。

本发明提供了新的双链(ds)多核苷酸探针，该探针具有减少的二级结构和对样品污染的控制，并且不需要核酸内切酶消化来评估供体DNA的循环水平(作为以无创的方式监测可能的移植物排斥或监测移植器官健康的方法)。此外，本发明提供了用于确定在混合DNA样品中等位基因的共有序列的新方法和用于确定混合样品(即异质的样品)中供体DNA分数的方法，而不需要对供体或接受者的DNA进行基因分型。本文提供的多核苷酸探针和方法也可以用于对已接受造血干细胞移植的患者进行微小残留病(MRD)评估或嵌合性测试(也称为植入分析)。

发明概述

本发明涉及多核苷酸探针，每个多核苷酸探针包含两条完美互补的链。在一些实施方案中，每条链以5’至3’方向包含，a)第一靶杂交序列，b)第一数字标签序列，c)第一Halo条形码序列，d)第一Halo扩增引物序列，e)反向第二Halo扩增引物序列，f)反向第二Halo条形码序列，g)反向第二数字标签序列，和h)反向第二靶杂交序列。

本发明还涉及使用这些新的多核苷酸探针来扩增样品中存在的靶多核苷酸序列的方法，该方法包括：a)使本文提供的多核苷酸探针的完美互补的链变性以产生第一和第二单链多核苷酸探针，b)使样品中存在的靶多核苷酸序列变性以产生第一和第二单链靶多核苷酸序列，c)使第一和第二单链多核苷酸探针中的每一个分别与第一和第二单链靶多核苷酸序列杂交，其中单链探针以创建环状杂交多核苷酸的方式与单链靶多核苷酸序列杂交，其中当与单链靶多核苷酸序列杂交时，单链多核苷酸探针上的靶杂交序列在单链靶多核苷酸序列上由长度为至少2个核苷酸的缺口分开，d)以5’至3’的方向使核苷酸聚合来填充至少2个核苷酸的缺口，以产生单链环状探针，和e)在不切割单链环状探针的情况下扩增单链环状探针，其中仅当至少2个核苷酸的缺口在聚合步骤期间被填充时才会发生扩增。

在其他方面，本发明涉及用于确定从移植物接受者获得的样品中DNA的遗传变异的至少一个等位基因的共有序列的方法，该样品至少含有接受者DNA。在一些实施方案中，该方法包括：a)接收正向DNA测序读取和反向DNA测序读取，其中DNA测序读取中的每一个包含：i)第一Halo条形码序列和第二反向Halo条形码序列，ii)第一数字标签序列和第二反向数字标签序列，iii)靶多核苷酸序列，其中已知靶多核苷酸序列是双等位基因的并且其中等位基因是非单核苷酸多态性(SNP)遗传变异，和iv)至少一个索引序列；b)通过将索引序列映射到参考索引序列，将共享相同的索引序列的正向和反向测序读取分配给单个移植物接受者，从而产生单个移植物接受者的一个或多个读取簇，其中一个或多个读取簇中的每一个包含正向和反向靶测序读取；c)通过确认第一Halo条形码序列和第二反向Halo条形码序列的序列同一性来验证正向和反向靶测序读取来自相同的样品制备物；d)连结来自读取簇中的每个靶测序读取的第一数字标签序列和第二反向数字标签序列以产生长数字标签；e)通过将长数字标签的序列与参考长数字标签序列进行比较以确认在长数字标签和参考长数字标签之间不超过2个错配，鉴定读取簇中经验证的正向和反向靶测序读取；f)将经验证的正向和反向靶测序读取中的每一个与靶参考序列进行比对，其中靶参考序列包含非SNP遗传变异的一个主要等位基因或非SNP遗传变异的一个次要等位基因；和g)生成一个或多个读取簇中的每一个的靶序列的至少一个等位基因的共有序列。在一些实施方案中，确定共有序列的方法可以应用于确定来自单个DNA测序读取的共有序列。

本发明还涉及确定从移植物接受者获得的样品中DNA供体分数的方法，该样品至少包含接受者DNA。在一些实施方案中，DNA包括无细胞DNA。在一些实施方案中，该方法包括：a)鉴定信息标志物的子集，该信息标志物的子集选自预先确定的信息标志物的母集，其中已知标志物的母集内的每个标志物是双等位基因的并且其中双等位基因对中的等位基因是非单核苷酸多态性(SNP)遗传变异，其中信息标志物的子集的鉴定包括：i)确定样品中多核苷酸序列的所有靶标集的多核苷酸序列，其中靶序列对应于信息标志物的母集，ii)确定样品内遗传标志物的母集中的每一个的样品次要等位基因频率，和iii)基于样品中样品次要等位基因频率等于或大于0.05％鉴定信息标志物的子集；b)基于个体的群体中信息标志物的每个等位基因的可接受频率，估计观测到样品中信息标志物中的每一个的基因型的初始概率，c)根据观测到样品次要等位基因的频率的估计的初始概率计算DNA初始供体分数估值，d)根据计算的初始供体分数估值和样品次要等位基因的观测频率的标准偏差计算观测到样品次要等位基因频率的条件概率，e)将混合模型算法应用于计算的初始供体分数估值，以提供样品中更新的DNA供体分数估值，其中使用更新的DNA供体分数代替DNA初始供体分数估值来重复步骤(c)-(d)，直到更新的供体分数估值的变化的绝对值小于预先设定的阈值。

附图简述

图1A绘出了形成双链多核苷酸探针的示例性规程。图1B是双链探针的示意图。THS：靶杂交序列；DTS：数字标签序列；HBS：Halo条形码序列；HAS：Halo扩增引物序列。图1C显示了在两端具有限制性位点的双链探针的示例性序列。星号表示限制酶切割位点。图1D显示了变性的探针经由其右侧的靶杂交序列(THS1)和左侧的靶杂交序列(THS2)与正向顶部靶多核苷酸序列杂交。图1E显示了变性的探针经由其THS1和THS2序列与反向底部靶多核苷酸序列杂交。

图2显示了使用可商购的测序平台进行间隔物多重扩增反应(Spacer MultiplexAmplification ReacTion，SMART)测定的一般工作流程。

图3示出了SMART测定的退火和延伸步骤。

图4A示出了用一组与环状分子中Halo扩增引物序列杂交的至少四个正向交错扩增引物和四个反向交错扩增引物使环状分子线性化。图4B示出了产生的线性分子。

图5A显示了示例性测序反应。图5B是测序反应产物的示意图，该产物是下游测序运行的测序模板。

图6显示了示例性测序读出。随后对测序读取进行分析。

图7示出了生物信息学数据分析工作流程，其包括3个阶段：初级分析、二级分析和三级分析。

图8显示了根据48个样品估计的等位基因背景水平，这些样品包括来自7个DNA标本的重复。LOB是指空白限。图8B显示了59个样品的LoB，这些样品包括来自12个纯DNA的重复。所有样品均使用192个探针的集合进行处理。对于每个样品，仅使用纯合靶标来计算背景水平。排除读取覆盖度低于1000X的靶标。根据计算去除前5％的纯合靶标。没有从每个靶标的背景水平中减去基线水平。计算每个样品的所有合格靶标的背景水平的平均值。LOB为0.0042％，其计算为LoB＝平均值_空白+1.645(SD_空白)。

图9A显示了混合样品中的预期供体分数和估计的供体分数之间相关性的示例性结果。图9B显示了变异系数(CV)与靶标供体分数之间存在负相关。

图10显示了使用SMART方法生成双等位基因遗传变异的192个靶标的探针的另一个示例。制备来自两种DNA样品的DNA混合物以模拟嵌合性。测试的混合物水平范围为8％至0.125％。通过样品的随机混合测试10对靶DNA的组合。估计三个重复中的每一个的混合物水平。如果供体的基因型是已知的，则对含有2种或更多种基因组的样品进行分析会更容易。然而，本文使用的方法不需要了解供体的基因型。图10显示了混合样品中供体分数的检测的灵敏度。如图10所示，预期供体分数与观测到的供体分数之间有很好的一致性。随着供体分数的降低，估值的变化会增加。随着测序深度的增加，可以使用更多的标志物来提高供体估值的置信度。

图11A和11B显示了使用Halo条形码序列作为“样品标识”检测交叉污染的示例。将Halo条形码序列内置于探针中用于污染检测和保护。在捕获用于测序的经扩增的靶多核苷酸序列之前包括在探针中的样品鉴定特征(即Halo条形码序列)可以在捕获后区分污染，因为如果其是污染物，它将具有不同的条形码。在分析过程中，所有具有不正确的Halo条形码序列的信号都可以作为污染物而被去除，或者可以丢弃整个样品。如图11A所示，在一些样品中，供体估值在一式三份之间有很大差异。圆圈中指示了示例。图11B显示，在使用样品标识消除交叉污染后，CV显著降低。

发明详述

多核苷酸探针

如本文所用，术语“多核苷酸”按其本领域中的原样使用并且指核苷酸的聚合物。本发明的多核苷酸可以是任何形状，包括但不限于线性、部分线性、环状、部分环状、带切口的、分支的或螺旋状。本发明的多核苷酸涵盖包含任何数量的核苷酸的聚合物。本发明的多核苷酸可以包含核苷酸的聚合物的一条或多条链。在一个实施方案中，本发明的多核苷酸是单链的(ss)。在一个实施方案中，本发明的多核苷酸是双链的(ds)。在具体的实施方案中，本发明中使用的多核苷酸是DNA。在具体的实施方案中，本发明中使用的多核苷酸是RNA。

术语“探针”是指含有一个或多个靶杂交序列的多核苷酸，当探针是单链或变成单链时，该靶杂交序列与靶多核苷酸序列特异性地杂交。在一些实施方案中，多核苷酸探针是单链的并且至少长约10个核苷酸，并且可以在约10个和约2000个核苷酸之间，或甚至更长。在更具体的实施方案中，多核苷酸探针是单链的并且长约10、约20、约30、约40、约50、约60、约70、约80、约90、约100、约150、约200、约250、约300、约350、约400、约450、约500、约550、约600、约650、约700、约750、约800、约850、约900、约950、约1000、约1500或约2000个核苷酸。在某些实施方案中，多核苷酸探针是单链的并且长约150、约175、约200、约250、约275或约300个核苷酸。

在一些实施方案中，多核苷酸探针是包含两条互补链的双链(ds)探针。在一些实施方案中，多核苷酸探针是双链的并且长约10、约20、约30、约40、约50、约60、约70、约80、约90、约100、约150、约200、约250、约300、约350、约400、约450、约500、约550、约600、约650、约700、约750、约800、约850、约900、约950、约1000、约1500或约2000个碱基对(bp)。在某些实施方案中，多核苷酸探针是双链的并且长约150、约175、约200、约250、约275或约300bp。在某些实施方案中，多核苷酸探针是双链的并且长约150、约175、约200、约250、约275或约300bp。在示例性实施方案中，多核苷酸探针是双链的并且长约200至约240bp。在一些实施方案中，探针是双链的，每条链彼此完美互补。然而，多核苷酸探针可以比这些示例长得多。应当理解，可以使用上述列举的长度之间或之内的任何长度或说明书(包括表、图和序列表)支持的其他长度。当探针是双链时，例如ds-DNA探针，可以使用标准温度操作技术使探针解链以产生一条或两条单链探针。

术语“互补”和“互补性”按其在本领域中的原样使用并且指多核苷酸通过碱基配对的天然结合。两条多核苷酸链的互补性是通过核碱基(腺嘌呤(A)、胸腺嘧啶(T)(RNA中的尿嘧啶(U))、鸟嘌呤(G)和胞嘧啶(C))之间不同的相互作用实现的。腺嘌呤和鸟嘌呤是嘌呤，而胸腺嘧啶、胞嘧啶和尿嘧啶是嘧啶。两种类型的分子相互补充，并且只能通过氢键与相反类型的核碱基进行碱基配对。例如，腺嘌呤只能与胸腺嘧啶(A＝T)或尿嘧啶(A＝U)有效配对，鸟嘌呤只能与胞嘧啶(G≡C)有效配对。碱基互补物A＝T或A＝U共享两个氢键，而碱基对G≡C共享三个氢键。两条互补链的方向相反，它们被称为反平行。又如，序列5’-A-G-T3’与互补序列3’-T-C-A-5’结合。两条链之间互补的程度可以从完全(或完美)互补到没有互补。多核苷酸链之间互补的程度对核酸链之间杂交的效率和强度具有显著影响。在一些实施方案中，本文提供的多核苷酸探针包含两条完美互补的多核苷酸链。

如本文所用，术语“完美互补”意指双链核酸的两条链的100％的碱基彼此互补，且在任一链的任一端均无突出物。例如，当两条链的长度相同(例如，长度为100bp)，并且一条链中的每个碱基与“相反”链中的相应碱基互补，使得在5’端或3’端不存在突出物时，两条多核苷酸彼此完美互补。

在一些实施方案中，两条完美互补的链中的每一条以5’至3’方向包含a)第一靶杂交序列，b)第一数字标签序列，c)第一Halo条形码序列，d)第一Halo扩增引物序列，e)反向第二Halo扩增引物序列，f)反向第二Halo条形码序列，g)反向第二数字标签序列，和h)反向第二靶杂交序列。双链多核苷酸探针的示例性图解描绘于图1B。然而，包含彼此不完美互补的两条链的双链多核苷酸探针也涵盖在本发明中。

如本文所述，探针可以描述为双链探针，其中每条单链具有相同的区段。因此，应当理解，即使探针可以是双链的，也可以根据单链的探针来讨论探针的特征。在一些实施方案中，多核苷酸探针的每条链包含一个或多个Halo条形码序列。Halo条形码序列用于本发明的探针和方法，以鉴定用于本文稍后描述的测序反应的每个单独的样品管。例如，如果测序反应揭示同一样品管有超过一种Halo条形码，则将认为该样品与已被引入到错误的样品管中的来自另一个样品管的一个或多个探针交叉污染。在一些实施方案中，Halo条形码序列容许从探针构建的第一步开始对多核苷酸探针进行条码化，如图1A和实施例1所示。因此，Halo条形码序列中含有的信息告知样品管的身份，并帮助检测来自如本文所定义的不同样品制备物的交叉污染。使用Halo条形码序列检测和消除交叉污染的示例如图11A和11B所示。在一些实施方案中，多核苷酸探针包含第一Halo条形码序列和反向第二Halo条形码序列。在某些实施方案中，第一Halo条形码序列和反向第二Halo条形码序列具有相同的序列。在某些实施方案中，第一Halo条形码序列和反向第二Halo条形码序列是彼此的反向互补物。在其他实施方案中，第一Halo条形码序列和反向第二Halo条形码序列具有彼此不同的序列，使得ds探针将含有2个不同的Halo条形码及其反向互补物。在一些实施方案中，Halo条形码序列包含人工多核苷酸序列。然而，衍生自天然存在的序列的多核苷酸序列可以用于Halo条形码序列。在一些实施方案中，Halo条形码序列的长度多至约25个核苷酸。在一些实施方案中，Halo条形码序列的长度多至约20个核苷酸。在一些实施方案中，Halo条形码序列的长度多至约15个核苷酸。在某些实施方案中，Halo条形码序列的长度多至约12、约11、约10、约9、约8、约7或约6个核苷酸。然而，应当理解，在列举的范围之外的条形码序列也涵盖在本发明中。本领域的技术人员会知道如何优化Halo条形码序列的长度。

在进一步的实施方案中，多核苷酸探针包含一个或多个数字标签序列。在一些实施方案中，多核苷酸探针包含第一数字标签序列和反向第二数字标签序列。在一些实施方案中，数字标签序列的长度约8个核苷酸至约20个核苷酸。在一些实施方案中，数字标签序列的长度约12个核苷酸。在一些实施方案中，数字标签序列包含人工多核苷酸序列。在示例性实施方案中，左侧引物旁边的数字标签：以及右侧引物旁边的数字标签：/>在一些实施方案中，数字标签序列中的固定核苷酸在序列中交错成岛以防止二级结构(显示在SEQID No:1和2的框中)。数字标签序列的独特设计可能会或可能不会消除双链多核苷酸探针中的二级结构。此外，数字标签序列对于每个探针是特定的。换言之，数字标签的序列用于鉴定每个探针。为此，组合两者的可能的独特的数字标签序列总数为：(3X4X3X4X3X4)^2＝2,985,984。可变核苷酸的身份定义如下文表1中描述的IUPAC核苷酸代码。在一些实施方案中，本领域技术人员将知道如何优化数字标签序列的序列和长度。

表1：IUPAC核苷酸代码

在一些实施方案中，多核苷酸探针还包含一个或多个接头序列。在一些实施方案中，接头序列位于第一杂交序列和第一数字标签序列之间。在一些实施方案中，接头序列位于反向第二杂交序列和反向第二数字标签序列之间。在一些实施方案中，接头序列用于将靶杂交序列掺入双链多核苷酸探针的其余部分。接头序列可以是任何长度。接头序列通常是短序列，其用于连接探针的功能区段。在一些实施方案中，接头序列的长度约4个核苷酸至约40个核苷酸。在一些实施方案中，接头序列的长度约8个核苷酸至约20个核苷酸。在一些实施方案中，接头序列的长度约16个核苷酸。在一些实施方案中，接头序列包含人工多核苷酸序列。在其他实施方案中，接头序列包含衍生自天然存在的序列的多核苷酸序列。

在一些实施方案中，多核苷酸探针进一步包含间隔物序列。间隔物序列通常用于加长探针。探针的间隔物区段的序列与本发明的组合物或方法无关。在某些实施方案中，间隔物序列位于第一Halo扩增引物序列和反向第二Halo扩增引物序列之间。间隔物序列可以是适合使用的各种长度。例如，在一些实施方案中，间隔物序列的长度小于10个核苷酸。在一些实施方案中，间隔物序列的长度超过40个核苷酸。在一些实施方案中，间隔物序列的长度可以超过100个核苷酸。在某些实施方案中，间隔物序列的长度在10-40个核苷酸之间。间隔物序列的最佳长度可以由本领域技术人员确定以适应特定用途。间隔物序列也可以衍生自各种来源、是合成的或者是衍生自任何来源的序列和合成的序列的混合物。在一个实施方案中，间隔物序列衍生自人多核苷酸序列。在另一个实施方案中，间隔物序列是非人多核苷酸序列。在又一个实施方案中，间隔物序列是细菌衍生的多核苷酸序列。

在一些实施方案中，第一靶杂交序列和反向第二靶杂交序列经配置为与单个靶多核苷酸序列杂交。在一个实施方案中，第一靶杂交序列和反向第二靶杂交序列应该是非互补的，即彼此不杂交。

如本文所用，术语“靶杂交序列”是指与位于靶多核苷酸序列的5’的邻近序列互补的多核苷酸序列。在一些实施方案中，本发明的多核苷酸探针以5’至3’方向包含第一靶杂交序列和反向第二靶杂交序列。“第一靶杂交序列”是作为位于靶序列的5’的第一邻近序列的互补序列的探针上的多核苷酸序列。“反向第二靶杂交序列”作为位于靶多核苷酸序列的3’的第二邻近序列的反向互补序列的探针上的多核苷酸序列。因此，本发明的多核苷酸探针可以在两个位置与含有靶序列的单链DNA杂交，其中第一靶杂交序列和第二反向靶杂交序列的杂交包夹靶序列。理想情况下，第一靶杂交序列和第二反向靶杂交序列与含有靶标的DNA的杂交将使探针环化，使得探针将自身折叠。参见图1D、1E和3。

在一些实施方案中，当与靶多核苷酸序列杂交时，第一靶杂交序列和反向第二靶杂交序列在靶多核苷酸序列上由长度为至少2个核苷酸的缺口分开。参见图1D、1E和3。然而，缺口可以长达几千个碱基对(bp)。例如，在一些实施方案中，缺口的长度为约2至约1000个核苷酸。在其他实施方案中，缺口的长度为约2至约800个核苷酸。在一些实施方案中，缺口的长度为约2至约200个核苷酸。

在一些实施方案中，已知靶多核苷酸序列具有超过一个等位基因。如本文所用，术语“等位基因”是指存在于个体的群体中染色体上的单个基因座处的多核苷酸序列的两种或更多种替代形式中的一种。等位基因可以出现在基因组的任何区域，并且可能会或可能不会导致表型改变。等位基因在给定群体中的给定基因座处出现的比率称为等位基因频率。众所周知，在处理基因组规模和群体规模的序列时，术语参考等位基因是指在参考基因组中存在的等位基因。由于参考基因组可以是随机受试者的基因组，因此参考等位基因并不总是主要等位基因。此外，替代等位基因是指除了参考等位基因之外的在相同基因座处存在的任何等位基因，并且并不总是次要等位基因。比较而言，对于具有两个或更多个等位基因的任何给定基因座，在给定个体的群体中比一个或多个替代等位基因更频繁出现的等位基因被称为该群体的“主要等位基因”。类似地，在给定群体中出现频率低于一个或多个替代等位基因的等位基因被称为该群体的“次要等位基因”。本领域技术人员会知道如何确定任何特定等位基因的等位基因频率。例如，国际基因组样品资源(International GenomeSample Resource,IGSR)在千人基因组计划(1000genome project)中发布了各种种族群体的等位基因频率，其可以参见万维网internationalgenome.org/data-portal/sample。

在一些实施方案中，如本文所用的等位基因是指遗传变异的替代序列。如本领域公知的，遗传变异通常指群体内个体之间多核苷酸序列的差异。遗传变异的常见类型包括但不限于单核苷酸多态性(SNP)、限制性片段长度多态性(RFLP)、短串联重复(STR)、数量可变的串联重复(VNTR)、高变区、小卫星、重复(repeat)(包括但不限于二核苷酸重复、三核苷酸重复、四核苷酸重复、简单序列重复)、插入、缺失、重复段(duplication)、拷贝数变异、易位和倒位，这些都在本发明的预期之内。在一些实施方案中，已知靶多核苷酸序列中的遗传变异是双等位基因的，这意味着仅存在两种已知的遗传变异的替代形式。在一些实施方案中，本发明的方法靶向的遗传变异是非SNP遗传变异，意味着靶序列中的遗传变异不包含SNP。众所周知，SNP是其中基因序列的唯一区别是单个碱基交换的遗传变异。参考序列上单个碱基的缺失突变不被视为SNP。同样，参考序列上的单个碱基插入不被视为SNP。在一些实施方案中，本发明的探针和方法靶向的遗传变异不是单碱基缺失。在其他实施方案中，本发明的探针和方法靶向的遗传变异不是单碱基插入。在一些实施方案中，本发明的探针和方法靶向的遗传变异是单碱基缺失。在其他实施方案中，本发明的探针和方法靶向的遗传变异是单碱基插入。在其他实施方案中，用本发明的探针和方法靶向的插入或缺失遗传变异包括长度为两个至数百个碱基对的单段DNA序列的插入或缺失。在某些具体的实施方案中，非SNP遗传变异包括插入、缺失、数量可变的串联重复(VNTR)、重复段、重复、高变区、小卫星、拷贝数变异、易位和倒位。在一个具体的实施方案中，非SNP遗传变异是插入。在另一个具体的实施方案中，非SNP遗传变异是缺失。在一些实施方案中，已知非SNP遗传变异的次要等位基因在群体中的出现率不低于约30％。在一些实施方案中，已知非SNP遗传变异的次要等位基因在群体中的出现率不低于约35％、约40％或约50％。在一个具体的实施方案中，已知非SNP遗传变异的次要等位基因在群体中的出现率为约40％至约50％。在另一个具体的实施方案中，已知非SNP遗传变异的次要等位基因在群体中的出现率为至少约50％。

本发明所涵盖的靶多核苷酸序列可以是任何物种的基因组的任何区域。在一些实施方案中，靶多核苷酸序列是人基因组序列。在一些实施方案中，靶多核苷酸序列可以衍生自人基因组的任何区域。在其他实施方案中，靶多核苷酸序列可以衍生自一种或多种牵涉疾病或病症的基因。

下文表2提供了示例性靶多核苷酸序列，包括染色体编号、参考SNP(rs或RefSNP)编号、参考等位基因和替代等位基因。表2中列出的rs ID编号来自国家生物技术信息中心(National Center for Biotechnology Information,NCBI)的RefSNP目录。

表2：靶多核苷酸序列以及各自的参考和替代等位基因

/>

在一些实施方案中，多核苷酸探针进一步包含一个或多个限制性酶切位点。在某些实施方案中，多核苷酸探针包含两个限制性酶切位点，每个位点位于多核苷酸探针的5’和3’末端。限制酶，也称为限制性核酸内切酶，是本领域众所周知的。通常，它们是在称为限制性酶切位点的分子内的特定识别序列处或附近切割核酸(如DNA)的酶。限制酶识别多核苷酸的特定序列并在多核苷酸中产生双链、单链或突出物切口。根据它们的组成和酶辅因子需求、它们的靶序列的性质以及它们的DNA切割位点相对于靶序列的位置，天然存在的限制酶通常分为四组(I、II、III和IV型)。

可以根据期望的序列的5’和3’端选择限制酶。使用在识别位点之外切割并且其限制位点在期望的序列之外的限制酶可以获得最大的灵活性。例如，在一些实施方案中，多核苷酸探针包含一个或多个II型限制酶的限制性酶切位点。然而，应当理解，任何限制酶都可用于本发明的目的。II型限制酶在其识别序列附近或内部的指定位置处切割核酸(通常是DNA)，产生分离的限制性片段和不同的凝胶条带样式。II型限制酶是许多不同种类的不相关蛋白质的集合，并且经常在氨基酸序列上彼此不同。大多数II型限制酶在其识别序列内切割DNA，并且识别对称的DNA序列，因为它们以同源二聚体的形式与DNA结合。然而，一些II型限制酶识别非对称的DNA序列，因为它们以异二聚体的形式结合。一些II型限制酶识别连续的序列，而另一些识别不连续的序列。II型限制酶的切割在每个切口的一侧留下3’-羟基，在另一侧留下5’-磷酸。另一种常见的II型限制酶，通常称为“IIS型限制酶”。IIS型限制酶识别非对称的DNA序列并且在其识别序列之外进行切割。

在某些实施方案中，本发明的多核苷酸探针包含两种限制酶的限制性位点：BsaI和MlyI，或其同切点酶。在某些实施方案中，如图1C所示，BsaI限制性位点位于多核苷酸探针的5’端，且MlyI限制性位点位于多核苷酸探针的3’端。用BsaI消化会在识别位点向内五个碱基处产生5’突出物。BsaI识别序列GGTCTCN↓NNNN↑(SEQ ID NO:3)并留下5’NNNN突出物，其中箭头指示切割位点。MlyI的识别序列为GAGTC(SEQ ID NO:4)，但限制性位点为向内5个碱基(例如，SEQ ID NO:5)。MlyI生成带有5’磷酸基团的平端。N代表任何核苷酸(A、T、C或G)。本领域技术人员将容易地知道如何为预想的用途选择合适的限制酶。

本发明还提供了本文公开的多核苷酸探针的群体。在一些实施方案中，多核苷酸探针的群体的每个成员包含相同的第一靶杂交序列和相同的反向第二靶杂交序列。在一些实施方案中，多核苷酸探针的群体的每个成员包含独特的数字标签序列和独特的反向数字标签序列。在一个示例性实施方案中，本文提供的多核苷酸探针的群体包含多至约1000万个具有相同的第一靶杂交序列和相同的反向第二靶杂交序列的多核苷酸探针。约1000万个多核苷酸探针中的每一个都具有至少一个独特的数字标签序列。因此，在这个具体的实施方案中，由于独特的数字标签序列，多核苷酸探针的群体具有约1000万个不同的序列，尽管约1000万个多核苷酸探针的群体经配置为与相同的单个靶多核苷酸序列杂交。在另一个具体的实施方案中，本文提供的多核苷酸探针的群体包含多至约900万个具有相同的第一靶杂交序列和相同的反向第二靶杂交序列的多核苷酸探针，并且约900万个多核苷酸探针中的每一个都具有独特的数字标签序列。在一些实施方案中，每个探针中的正向和反向数字标签序列彼此独立，即，每个探针中的正向和反向数字标签序列具有不同的序列。应当理解，取决于应用，本文提供的多核苷酸探针的群体可以包含任何数量的多核苷酸探针。

在一些实施方案中，群体中的至少两个多核苷酸探针具有相同的Halo条形码序列并且具有相同的反向第二Halo条形码序列，例如，在给定的双链探针的群体中，将总共只有四个独特的Halo条形码序列：位于每个探针的“第一链”上的两个(正向和反向Halo条形码)，以及位于每个探针的“第二链”上的它们的两个反向互补物(正向和反向Halo条形码)。

本发明还提供了一个或多个多核苷酸探针的集合，并且每个多核苷酸探针的集合包含本文公开的多核苷酸探针的群体中的一个或多个。在一些实施方案中，集合中包含的每个多核苷酸探针的群体与不同的靶多核苷酸序列杂交，例如，如果集合包含两个群体，则第一群体将与第一靶标杂交而第二群体将与第二靶标杂交。在一个示例性实施方案中，多核苷酸探针的集合包含多核苷酸探针的一个群体，并且该群体的每个成员包含相同的第一靶杂交序列和相同的反向第二靶杂交序列。因此，在这个实施方案中，多核苷酸探针的群体与相同的靶多核苷酸序列杂交。在其他实施方案中，多核苷酸探针的集合包含多核苷酸探针的两个或更多个群体，并且每个群体与不同的靶多核苷酸序列杂交。在一些实施方案中，集合中的至少两个多核苷酸探针具有相同的Halo条形码序列和相同的反向第二Halo条形码序列。在其他实施方案中，集合中的所有多核苷酸探针具有相同的Halo条形码序列和相同的反向第二Halo条形码序列。

在某些实施方案中，本发明的多核苷酸探针可以连接至可检测的标记上。典型的标记包括但不限于放射性同位素、放射性磷酸盐、配体、生物素、化学发光剂、荧光团和酶，所有这些都在本发明的预期之内。

扩增靶多核苷酸序列的方法

本发明进一步提供了扩增样品中存在的靶多核苷酸序列的方法。如本文所用，术语“扩增”通常指可以产生核酸分子拷贝的任何方法、技术或系统。在一些实施方案中，扩增在四种不同的三磷酸核苷和一种或多种聚合酶或它们的功能变体存在下在适当的缓冲液中以及在适当的温度下发生。在一些实施方案中，扩增涉及聚合酶链式反应(PCR)或其变化形式。进行PCR的技术是本领域公知的。PCR的常见变化形式包括但不限于多重PCR、多重连接依赖性探针扩增(MLPA)、数量可变的串联重复(VNTR)PCR、不对称PCR、线性指数PCR(LATE-PCR)、长PCR、基于Klenow的PCR、巢式PCR、定量PCR、热启动PCR、降落PCR、组装PCR(也称为聚合酶循环组装或PCA)、菌落PCR、自杀PCR和低变性温度共扩增PCR(COLD-PCR)。技术人员将会容易地知道如何为预想的用途选择和进行合适的扩增方法或系统。

如本文所用，术语“聚合酶”及其功能变体包括可以催化核苷酸或类似物聚合成多核苷酸链的任何酶。通常但不必然的，此类核苷酸聚合可以以模板依赖的方式发生。如本文所用的聚合酶可包括但不限于天然存在的聚合酶及其任何亚基和截短物、合成的聚合酶、突变体聚合酶、变体聚合酶、重组聚合酶、融合聚合酶、工程化的聚合酶、化学修饰的聚合酶及其任何类似物、衍生物或它们保留催化此类聚合的能力的片段。如本文所用的聚合酶涵盖DNA聚合酶、逆转录酶和RNA聚合酶。一些示例性聚合酶包括但不限于Taq聚合酶、Taq聚合酶的Stoffel片段、Amplitaq^TM Gold、AccuPrime-Taq高保真、KOD热启动、Pfu聚合酶、Phusion热启动DNA聚合酶和Pwo聚合酶。许多聚合酶是可商购的，技术人员可以根据预想的用途进行选择。

如本文所用，术语“样品”或“生物样品”通常指取自其天然或自然状态的任何材料，以便于进行任何期望的操作、进一步处理和/或修饰。在一些实施方案中，样品是指取自器官移植物接受者的生物材料。本发明所涵盖的器官移植包括但不限于干细胞、骨髓、心脏、肺、肝脏和肾脏。因此，从其获取样品和对其实施方法的受试者或患者可以分别是干细胞、骨髓、心脏、肺、肝脏或肾脏移植患者。在示例性实施方案中，样品包括血液、血清、血浆、外周血单个核细胞(PBMC)、细胞、组织、活组织检查、脑脊液、胆汁、淋巴液、唾液、尿液和粪便。样品可以从其天然或自然状态进一步分离和/或纯化。可选地，样品可以衍生自体外细胞或组织培养物。在一些实施方案中，可以处理样品以提取蛋白质(例如，抗体、酶、可溶性蛋白质、不可溶性蛋白质)或核酸(例如，RNA、DNA)。在一些具体的实施方案中，样品被处理以提取无细胞核酸。如本文所用，核酸包括无细胞核酸。在某些实施方案中，靶多核苷酸序列包含在无细胞核酸中。无细胞(cf)核酸，也称为循环核酸，是本领域公知的并且已经用于多种生物医学应用，如癌症诊断。如本文所用的无细胞核酸包含cfDNA和cfRNA。在一些实施方案中，样品是从移植物接受者获得的。在某些具体的实施方案中，样品包含DNA样品。在一些实施方案中，样品至少含有接受者DNA。在其他实施方案中，样品含有供体DNA和接受者DNA的混合物，并且供体和接受者无关。在具体的实施方案中，从移植物接受者获得的样品包含供体衍生的无细胞DNA。在某些实施方案中，样品包含少于约10ng的DNA。在其他实施方案中，样品包含约10、约20、约50、约75、约100、约150ng的DNA。在其他实施方案中，样品包含多于约150ng的DNA。应当理解，此处列举的量是示例，可以使用此处所列数字之间的任何量。

在某些实施方案中，如果样品中DNA的量低于阈值，方法包括在该方法的任何之后的步骤之前扩增样品中的DNA。在一些实施方案中，样品中DNA的量的阈值为约150ng。在其他实施方案中，样品中DNA的量的阈值为约100ng。在另外的其他实施方案中，样品中DNA的量的阈值为约50、约40、约30、约20或约10ng。应当理解，样品中DNA的量的阈值随方法的应用而变化，并且可以由本领域技术人员确定。

在一些实施方案中，可以在方法的任何之后的步骤之前使用适合于DNA的长度的各种方法扩增样品中的DNA。在一个示例性实施方案中，样品包含基因组DNA。因此，在该实施方案中，可以用各种全基因组扩增(WGA)来扩增样品中的整个基因组DNA，扩增技术包括但不限于包括多重置换扩增(MDA)、简并寡核苷酸PCR(DOP-PCR)和引物延伸预扩增(PEP)。适用于扩增样品中整个基因组DNA的聚合酶包括但不限于Phi 29聚合酶；Bst 2.0DNA聚合酶；Bst 2.0DNA聚合酶；Bst 3.0DNA聚合酶；和Bst DNA聚合酶，大片段。在另一个示例性实施方案中，样品包含无细胞DNA。因此，在该实施方案中，可以通过滚环扩增(RCA)来扩增样品中的全部无细胞DNA。应当理解，在这些方法中可以使用用于全局扩增不同DNA样品的任何方法。

应当理解，如本文提供的方法中所用，可以以多种形式制备从任何特定器官移植物接受者获得的样品。在示例性实施方案中，可以以连续稀释制备从任何特定器官移植物接受者获得的样品。因此，术语“样品制备物”是指从器官移植物接受者获得的样品的特定制备物。在一些实施方案中，样品制备物是指衍生自特定器官移植物接受者的样品。在其他实施方案中，样品制备物是指衍生自特定器官移植物接受者的样品的特定制备物。

在一个实施方案中，方法包括使本文所述的多核苷酸探针的完美互补链变性。作为变性反应的结果，多核苷酸探针的互补链变成两个单链多核苷酸探针，各自分别称为第一和第二单链多核苷酸探针。在另外的实施方案中，方法包括使样品中存在的靶多核苷酸序列变性。结果，靶多核苷酸变成两个单链靶多核苷酸，各自分别称为第一和第二单链靶多核苷酸序列。两个变性反应可以在一个反应中或在单独的反应中以任何顺序进行。在一个示例性实施方案中，双链多核苷酸探针在一个反应中变性。双链靶多核苷酸在另一个反应中变性。两个变性反应可以以任何顺序或同时进行。在另一个示例性实施方案中，双链多核苷酸探针和双链靶多核苷酸在一个反应中同时变性。对于两个变性反应的最佳变性条件可以相同或不同。本领域技术人员将会理解如何为变性反应中的每个或二者优化变性条件。

在另一个实施方案中，方法包括将第一和第二单链多核苷酸探针中的每个分别与第一和第二单链靶多核苷酸序列杂交。杂交取决于单链多核苷酸探针和单链靶多核苷酸序列之间的序列互补性。如本文所用的术语“杂交”是指多核苷酸链在确定的杂交条件下通过碱基配对与互补链退火的过程。特异性杂交表明两个多核苷酸序列共享高度的互补性。在允许的退火条件下特异性杂交复合物形成并保持杂交。使多核苷酸探针与它们各自的互补靶多核苷酸序列退火的最佳杂交条件可由本领域普通技术人员通过常规实验确定。

在一些实施方案中，第一和第二单链多核苷酸探针分别与第一和第二单链靶多核苷酸杂交，以这样的方式产生杂交多核苷酸。如本文所用，术语“杂交多核苷酸”是部分双链多核苷酸，其中双链分子的一条链是来自探针的单链，而杂交多核苷酸的第二条链是来自靶多核苷酸的单链。杂交多核苷酸在两个分开的区域中将是双链的，其中至少一个单链区域中断两个双链区域。在一些实施方案中，杂交多核苷酸是环状的。当杂交多核苷酸是环状时，两个双链区域被两个单链区域中断。参见图1D、1E和3。两个双链区域是靶杂交序列与靶多核苷酸序列的一部分杂交的地方。杂交多核苷酸必须在两个双链区域之间的至少一个“缺口区域”中是单链的。如本文所用，单链缺口区域由单链靶序列而非探针组成。在一些实施方案中，单链缺口区域的长度为至少2个核苷酸。在其他实施方案中，单链缺口区域可以是从2个核苷酸到几千个核苷酸的任何长度。在其他实施方案中，单链缺口区域的长度为约2至约1000个核苷酸。在某些实施方案中，单链缺口区域的长度为约10至约800个核苷酸。在某些实施方案中，单链缺口区域的长度为约2至约50个核苷酸。在一些实施方案中，下游反应(如单链环状探针的连接和/或扩增)仅在聚合反应期间缺口被填充时发生。

在另外的实施方案中，方法包括用核苷酸聚合(例如，以5’至3’的方向)以填充杂交多核苷酸的单链缺口区域，以产生包含来自探针的两个靶杂交序列的连续双链区域。来自靶序列的单链缺口区域充当聚合反应的模板。聚合方法是本领域公知的。

聚合反应将填充缺口区域以“连接”杂交多核苷酸的单链探针部分的相对侧，从而使单链探针环化。

在一些实施方案中，连接反应在聚合反应之后。典型的连接酶可以是温度敏感的或热稳定的。示例性温度敏感的连接酶包括但不限于噬菌体T4连接酶和大肠杆菌连接酶。示例性热稳定的连接酶包括但不限于Ampligase^TM、闪烁古生球菌(Archaeoglobusflugidus)(Afu)连接酶、水生栖热菌(Thermus aquaticus)(Taq)连接酶、Tβ连接酶、嗜热栖热菌(Thermus thermophilus)(Tth)连接酶、Tth HB8连接酶、水管致黑栖热菌(Thermusscotoductus)(Tsc)连接酶、TS2126(感染Tsc的嗜热噬菌体)RNA连接酶、栖热菌属物种AK16D连接酶和激烈火球菌(Pyrococcus furiosus)(Pfu)连接酶等。本文所用的连接酶包括但不限于可逆失活的连接酶及其酶促活性突变体和变体。

在进一步的实施方案中，方法包括扩增单链环状探针。在一些实施方案中，单链环状探针的扩增不需要在扩增反应之前切割单链环状探针，这与本领域的其他可用的方法不同。在某些实施方案中，环状单链探针的扩增仅在杂交多核苷酸中的缺口在聚合和/或连接步骤期间被填充时发生。

在一些实施方案中，扩增单链环状探针以制备用于测序的分子。本发明提供的探针和方法可以适用于任何可用的下一代测序(NGS)平台。本发明涵盖的示例性NGS平台包括但不限于(Solexa)测序、/>454测序、Ion Torrent测序、PacificBiosciences(PacBio)RS/RS II、Macrogen、Qiagen GeneReader NGS系统、SOLiD、MGI完整基因组学测序平台(包括但不限于DNBSEQ-T7、DNBSEQ-G400、DNBSEQ-G50和DNBSEQ-G400)、纳米孔测序平台(包括但不限于SmidgION、MinION、GridION和PromethION平台)。

在一些实施方案中，单链环状探针的扩增包括使用至少四个正向交错扩增引物和四个反向交错扩增引物。术语“引物”按其在本领域中的原样使用，指充当DNA扩增起始点的寡核苷酸。在一些实施方案中，本文所用的引物是单链寡脱氧核糖核苷酸。引物可以是适合使用的任何长度。例如，在一些实施方案中，引物的长度为约15至约35个核苷酸。在其他实施方案中，引物的长度为约35至约55个核苷酸。在一些实施方案中，引物的长度为约39至约47个核苷酸。引物可以含有额外的特征。在一些实施方案中，额外的特征容许扩增产物的检测、固定或操作，但其不改变引物充当DNA扩增的起始试剂的能力。在其他实施方案中，引物含有超过一个具有不同序列和/或功能的区域。在示例性实施方案中，本发明涵盖的引物包括引物扩增多核苷酸序列和引物测序多核苷酸序列。在另一个示例性实施方案中，引物扩增多核苷酸序列和引物多核苷酸测序序列通过任何长度的间隔物核苷酸序列彼此分开。在一些实施方案中，间隔物核苷酸序列的长度为0、1、2、3、4、5、6、7、8、9或10个核苷酸。

本发明的技术领域中的一个共同的挑战涉及高通量测序平台的使用。例如，测序方法基于称为“边合成边测序”的可逆终止化学概念。高通量测序平台(如测序平台)的准确性基于软件准确地定位将每个新核苷酸掺入待测序的正确的DNA分子的能力。这是具有挑战性的，因为流动池上存在的引物彼此非常近。软件正确识别流动池上存在的数百万分子中每一个分子的正确位置的能力是基于分子在流动池表面上的随机分布。由于4种荧光核苷酸中的每一种都具有不同的颜色，因此每次激光经过流动池时，都会生成独特的颜色样式。软件具有识别基于分子的随机分布生成的独特样式的能力，并具有正确地相继合并这些样式并为流动池上存在的每个分子创建正确的序列的能力。

本文提供的方法的挑战在于，多核苷酸探针以生成DNA序列岛的方式构建，对应于图4B中的HAS 1和HAS 2，其所有分子中的相同位置处具有精确的DNA序列。这种共同的DNA序列基序给NGS(如)测序软件正确地将激光生成的样式去卷积创造了重大挑战。由于所有分子同时掺入了相同的核苷酸，因此测序软件无法正确解码正确的分子中正确的核苷酸的掺入。测序反应每次都会继续掺入相同的样式，直到序列样式变为随机序列样式。然而，到这个时候，软件已经失去了将新掺入的核苷酸与正确的分子正确比对的记忆。为了解决这个问题，本文提供了新的测序方法，称为去相位策略。去相位策略使用一组交错的扩增引物并保持每个循环中核苷酸掺入的随机性。

如本文所用，术语“交错引物”意指具有两个分开的区段的一系列引物，两个分开的区段之间具有可变长度的间隔物核苷酸序列，其中两个分开的区段经配置为与不同的靶标杂交。在一些实施方案中，本文所述方法中使用的交错扩增引物包含引物扩增多核苷酸序列区段和分开的引物测序多核苷酸序列区段。如本文所用，引物扩增多核苷酸序列区段是指交错引物中经配置为与Halo扩增引物序列杂交的序列，并且引物测序多核苷酸序列区段是指交错引物中经配置为与包含在本文提供的测序引物中的测序引物结合序列杂交的序列。在交错引物中，引物扩增多核苷酸序列区段和引物多核苷酸测序序列区段由长度为0、1、2或3个核苷酸的间隔物核苷酸序列彼此分开，使得交错引物除了在引物扩增多核苷酸序列区段和引物多核苷酸测序序列区段之间的0、1、2或3个核苷酸插入以外具有相同的序列。

在一些实施方案中，至少四个正向交错扩增引物包含相同的引物扩增多核苷酸序列和相同的引物测序多核苷酸序列。在一个示例性实施方案中，引物扩增多核苷酸序列经配置为与Halo扩增引物序列杂交，如图4A所示，并且引物测序多核苷酸序列经配置为与包含在测序引物中的测序引物结合序列杂交，如图5A中所示。在一些实施方案中，至少四个正向交错扩增引物的引物扩增多核苷酸序列经配置为与单链环状探针的第一Halo扩增引物序列杂交。在其他实施方案中，至少四个反向交错扩增引物的引物扩增多核苷酸序列经配置为与单链环状探针的反向第二Halo扩增引物序列杂交。图4A中提供了用交错扩增引物扩增单链环状探针的示例性图解。

下文表3中提供了示例性交错扩增引物。引物扩增多核苷酸序列为斜体，引物测序多核苷酸序列为加双下划线，引物扩增多核苷酸序列与引物测序多核苷酸序列之间的1、2或3个核苷酸用方框指示。

表3.示例性交错扩增引物

使用单链环状探针作为模板的扩增产物是在两端具有引物多核苷酸测序序列区段的线性产物。图4B中提供了线性扩增产物的图解。

作为本发明独特的特征，在单链环状探针线性扩增后的任何时候都不进行核酸外切酶消化。与本领域的其他方法(如US专利No.8,795,968中公开的方法)相比，需要核酸外切酶步骤来消化未反应的线性探针和靶DNA，并将环状扩增分子从其靶基因组DNA中释放出来。

在另外的实施方案中，扩增靶多核苷酸序列的方法进一步包括使用测序引物扩增线性探针的测序引物扩增反应。图5A中提供了此步骤的图解。在一些实施方案中，测序引物以5’至3’方向包含簇引物、索引序列和测序引物结合序列。在一些实施方案中，测序引物结合序列经配置为与NGS平台使用的测序引物杂交。在示例性实施方案中，测序引物结合序列经配置为与正向或反向测序引物序列杂交。在一些实施方案中，索引序列包含约5至约10个核苷酸。在具体的实施方案中，索引序列包含约7个核苷酸。索引序列的长度可以根据本领域技术人员的应用进行调整。在某些实施方案中，索引序列中含有的信息用于鉴定样品。在示例性实施方案中，索引序列中含有的信息用于将序列读取分配给特定的移植物接受者，如下文所述。在某些实施方案中，簇引物容许序列被测序平台捕获。在一个示例性实施方案中，使用测序平台，并且簇引物容许序列与流动池上的互补序列结合。应当理解，测序引物可用于任何可用的NGS平台。

在进一步的实施方案中，在本文中称为“测序模板”的测序引物扩增反应产物可以通过本领域技术人员选择的NGS平台进行测序和分析。举例来说，本文简要描述了使用平台的测序反应。在一些实施方案中，将测序模板固定在流动池表面上。固相扩增在非常邻近的位置创建每个单个模板分子的相同拷贝的簇。通过合成来对固定化的测序模板的簇进行测序，该合成测序使用与测序引物结合序列结合的测序引物和四种荧光标记的核苷酸以对流动池表面上的数以千万的簇进行并行测序，产生正向DNA测序读取和反向DNA测序读取。在一些实施方案中，可以通过本文提供的用于确定从移植物接受者获得的样品中DNA的遗传变异的至少一个等位基因的共有序列的方法来分析正向DNA测序读取和反向DNA测序读取。

与NGS平台(如测序平台)相关的常见问题是在相同位置处的共同静态特征，这会导致测序反应期间出现定相问题。例如，/>测序平台通过利用流动池内分子的随机多样性来定义测序反应期间每个单个分子在流动池中的位置。分子的这种随机多样性在任何给定的循环中为每个分子提供了非常准确的位置信息，因为在连续的循环中，附近的分子发生变化以具有相同的掺入的核苷酸是罕见的。然而，在/>测序引物直接位于扩增位点上游的情况下(例如，图6中的Halo扩增引物序列)，整个流动池在开始时的测序反应会产生相似的序列。因此，测序反应的质量将显著下降，因为测序仪器将难以正确地鉴定每个测序读取的准确位置。本文提供的交错扩增引物通过在引物扩增多核苷酸序列和引物测序多核苷酸序列之间掺入0、1、2或3个核苷酸来消除在相同位置处的静态特征，如图4A中所示。衍生自该反应的扩增产物含有序列的混合物，其在随后的测序反应步骤中从随机的第一核苷酸起始。

可选地，可以使用具有定制序列的测序引物来解决NGS平台的定相问题。在一个示例性实施方案中，可以使用与Halo扩增引物序列(图6中的测序模板中的HAS 1和HAS 2)结合的定制化测序引物来产生正向DNA测序读取和反向DNA测序读取。类似地，本领域技术人员可以根据具体应用设计其他的定制化测序引物。

确定共有序列的方法

在其他方面，本发明涉及用于确定从移植物接受者获得的样品中DNA的遗传变异的至少一个等位基因的共有序列的方法，该样品至少含有接受者DNA。在一些实施方案中，样品是从移植物接受者获得的样品。在一些实施方案中，样品至少含有接受者DNA。在一些实施方案中，样品含有供体DNA和接受者DNA的混合物，并且供体和接受者无关。在一些实施方案中，DNA包含无细胞DNA。

在一些实施方案中，方法包括接收一个或多个DNA测序读取。如本文所用的术语“测序读取”是指对应于单个DNA片段的全部或部分的推测序列。在一些实施方案中，测序读取由NGS平台生成。在一些实施方案中，由测序平台产生的测序读取被转换成FASTQ文件。术语“FASTQ”按其在本领域中的普通含义使用并且通常指用于存储生物序列的基于文本的格式。在某些实施方案中，方法包括接收正向DNA测序读取和反向DNA测序读取。然而，应当理解，如果仅接收到一个DNA测序读取，则可以调整方法。在某些实施方案中，DNA测序读取中的每一个包含：i)第一Halo条形码序列和第二反向Halo条形码序列，ii)第一数字标签序列和第二反向数字标签序列，iii)靶多核苷酸序列，和iv)至少一个索引序列。在一些实施方案中，DNA测序读取中的每一个包含正向索引序列和反向索引序列。

在一些实施方案中，方法包括通过将索引序列映射到参考索引序列，将共享相同的索引序列的正向和反向测序读取分配给单个移植物接受者，从而产生单个移植物接受者的一个或多个读取簇。如本文所用的术语“读取簇”是指一组相关的测序读取。例如，在一些实施方案中，一个或多个读取簇包含靶多核苷酸序列的所有测序读取。在其他实施方案中，一个或多个读取簇来自单个移植物接受者。在某些实施方案中，一个或多个读取簇中的每一个包含来自相同的移植物接受者的正向和反向靶测序读取。

在一些实施方案中，方法进一步包括如果索引序列与参考索引序列相比包含3个或更多个错配，则丢弃正向或反向测序读取。在一些实施方案中，方法进一步包括如果索引序列与参考索引序列相比包含2个或更多个错配，则丢弃正向或反向测序读取。在其他实施方案中，方法包括如果索引序列与参考索引序列相比包含1个或多个错配，则丢弃正向或反向测序读取。在某些实施方案中，参考索引序列选自长约7bp的寡核苷酸库。在一些实施方案中，参考索引序列彼此相差至少约3bp。然而，应当理解，参考索引序列可以具有各种长度并且彼此相差许多碱基对。技术人员可以容易地根据应用确定适当的参考索引序列配置。

在其他实施方案中，每个读取簇进一步包含一个或多个由特定测序平台使用的索引序列。如本领域公知的，索引测序容许将来自多个个体的DNA样品合并并且一起测序。索引文库需要在文库制备过程中向DNA样品添加独特的标识或索引序列。例如，测序平台上的测序控制软件在自动化测序策略中处理这些标签，该策略鉴定每个加有独特标签的文库以用于下游分析。例如，在示例性实施方案中，使用/>下一代测序平台并且每个读取簇还包含i5索引读取、i7索引读取或i5和i7索引读取。/>i5索引和/或i7索引序列在本领域公知的。在一个示例性实施方案中，/>索引序列文库可以包含多至12个独特的8碱基i7索引序列和多至8个独特的8碱基i5索引序列。I7序列应用于96孔板的列，i5序列应用于行，从而创建多至96个加有独特标签的文库。在索引测序期间，索引在称为索引读取的单独的读取中进行测序，其中退火新的测序引物。当文库是双索引时，测序运行包括2个额外的读取，称为i5和i7索引读取。在一些实施方案中，参考索引序列鉴定单个移植物接受者。

在一些实施方案中，每个读取簇含有共享相同索引序列的单个移植物接受者的DNA测序读取。在一些实施方案中，方法包括形成包含单个移植物接受者的测序读取的FASTQ文件。在其他实施方案中，方法包括形成一对FASTQ文件，每个文件包含单个移植物接受者的正向或反向测序读取。

在一些实施方案中，方法包括通过确认第一Halo条形码序列和第二反向Halo条形码序列的序列同一性来验证正向和反向靶测序读取来自相同的样品制备物。在一些实施方案中，方法进一步包括如果第一Halo条形码序列和第二反向Halo条形码序列彼此之间包含1个或多个错配，则丢弃该正向和反向靶测序读取。在其他实施方案中，方法进一步包括如果第一Halo条形码序列和第二反向Halo条形码序列彼此之间包含2个或更多个错配，则丢弃该正向和反向靶测序读取。在一些实施方案中，Halo条形码序列和索引序列必须鉴定相同的移植物接受者，以便将测序读取包括在进一步处理中。

在一些实施方案中，为每个测序读取报告测序质量度量。在其他实施方案中，为每个测序读取簇报告测序质量度量。例如，在一些实施方案中，为测序读取中的每个核苷酸碱基分配质量评分。测序质量评分测量碱基被错误识别的概率。举例来说，在边合成边测序技术中，读取中的每个碱基都通过phred样的算法分配质量评分。如果质量评分低于阈值，则测序运行失败，并且将测序读取丢弃。在一些示例性实施方案中，Q30是具有30或更高的质量评分的碱基的百分比，并且如果约70％的碱基具有低于30的质量评分，则测序运行失败并且将测序读取丢弃。在一些实施方案中，每个样品都应在测序读取中得到充分体现。如果分配给某个样品的读取总数小于阈值，则该样品将被排除在分析之外。在示例性实施方案中，阈值为约200,000个读取。在某些实施方案中，计算并可视化每个位置处所有测序读取的质量分数的平均值、中值和标准偏差。在其他实施方案中，计算所有测序读取中每个位置处的核苷酸碱基的组成以显示读取中核苷酸碱基的一致性。在一些实施方案中，将质量评分分配给每个测序读取并且计算平均值和标准偏差并且绘制所有测序读取的质量评分的直方图。在其他实施方案中，计算每个测序读取的GC含量并绘制每个测序读取的GC含量分布。在另外的实施方案中，计算并报告每个读取簇的簇密度。在一些实施方案中，方法进一步包括从未达到质量度量的测序读取中丢弃低质量读取。

在一些实施方案中，方法包括连结来自读取簇中的每个靶测序读取的第一数字标签序列和第二反向数字标签序列以产生长数字标签。在一些实施方案中，对于每对正向和反向测序读取，从正向和反向测序读取中的每一个提取一个数字标签。然后将两个数字标签连结以产生长数字标签。在一些实施方案中，第一数字标签序列或第二反向数字标签序列包含约8至约20bp。在具体的实施方案中，第一数字标签序列或第二反向数字标签序列包含12bp。在某些实施方案中，例如，第一数字标签序列和第二反向数字标签序列包含12bp，并且所得的连结的长数字标签的长度为24bp。

在其他实施方案中，方法进一步包括通过将长数字标签的序列与参考长数字标签序列进行比较以确认长数字标签与参考长数字标签之间存在不超过一定数量的错配，鉴定读取簇中经验证的正向和反向靶测序读取。错配的数量取决于数字标签序列的长度。例如，在一个实施方案中，数字标签的长度为约24bp，并且容许不超过2个错配。本领域技术人员可以根据应用确定容许的错配的数量。在一些实施方案中，方法包括如果长数字标签与参考长数字标签之间存在2个或更多个错配，则丢弃该正向和反向靶测序读取。

在一些实施方案中，方法包括将每个经验证的正向和反向靶测序读取与靶参考序列进行比对。在一些实施方案中，方法进一步包括如果经验证的正向靶测序读取和经验证的反向靶测序读取彼此不是100％互补，则将它们丢弃。在一些实施方案中，方法包括如果经验证的正向靶测序读取和经验证的反向靶测序读取彼此不是至少99％互补，则将它们丢弃。在其他实施方案中，方法包括如果经验证的正向靶测序读取和经验证的反向靶测序读取彼此不是至少95％互补，则将它们丢弃。

在一些实施方案中，靶参考序列包含非SNP遗传变异的一个主要等位基因或非SNP遗传变异的一个次要等位基因。在一些实施方案中，方法包括生成一个或多个读取簇中的每一个的靶序列的至少一个等位基因的共有序列。在一些实施方案中，如果将样品中的大多数经验证的靶测序读取与靶参考序列进行比对，则生成每个读取簇的靶序列的共有序列。例如，在一些实施方案中，如果大于50％的经验证的靶测序读取与靶参考序列进行比对，则生成每个读取簇的靶序列的共有序列。

在一些实施方案中，方法进一步包括将共有序列存储在服务器上。术语“服务器”按照其在本领域中的含义使用，通常是指接受和响应通过网络发出的请求的网络上的任何类型的计算机或设备。示例性服务器包括但不限于应用服务器、云服务器、数据库服务器、专用服务器、文件服务器、邮件服务器、打印服务器、代理服务器、独立服务器、虚拟机(VM)服务器或网络服务器。

在另外的实施方案中，本发明还涵盖计算机可读的存储介质，其包含存储在其上的指令。在一些实施方案中，可以在计算机化系统中执行存储在计算机可读的存储介质上的指令。在一些实施方案中，指令以本领域技术人员确定的适当的计算机可执行的格式存储。在一些实施方案中，计算机化系统包括至少一个处理器。在其他实施方案中，存储在计算机可读的存储介质上的指令可以使至少一个处理器执行本文提供的方法。在其他实施方案中，上述功能中的一些主要使用硬件状态机在硬件中实施。在一个示例性实施方案中，实施的硬件是专用集成电路(ASIC)。在另一个示例性实施方案中，实施的硬件是现场可编程门阵列(FPGA)。硬件状态机的实施以便执行本文所述的功能对于相关领域的技术人员来说将是显而易见的。

如本文所用，计算机可读的存储介质包括但不限于任何可用的或以后开发的可以被计算机访问的存储介质，并且包括易失性和非易失性介质，或者可移动和不可移动的介质。举例来说，并且并非限制，计算机可读的存储介质可以结合用于存储信息(如计算机可读的指令、程序模块、结构化数据或非结构化数据)的任何方法或技术来实施。在一些实施方案中，计算机可读的存储介质包括但不限于随机存取存储器(RAM)、只读存储器(ROM)、电可擦可编程只读存储器(EEPROM)、闪存或其他存储技术、光盘只读存储器(CD-ROM)、数字多用盘(DVD)或其他光盘存储器、盒式磁带、磁带、磁盘存储器或其他磁性存储设备、或其他可用于存储期望的指令的有形的和/或非暂时性介质。在一些实施方案中，计算机可读的存储介质包括可用于存储期望的指令的任何可用的或以后开发的无形的和/或暂时性介质。

在其他实施方案中，计算机可读的存储介质可以由一个或多个本地或远程计算设备访问，以进行与存储在介质上的指令有关的各种操作。在其他实施方案中，本发明所涵盖的计算机可读的存储介质可以在任何计算机中工作，该计算机包括但不限于个人计算机、服务器、工作站或现在或以后开发的其他计算机平台。

在一些示例性实施方案中，计算机程序可以执行以下功能中的一些或全部：a)鉴定信息标志物的子集，该信息标志物的子集选自根据本文提供的方法预先确定的遗传变异的母集；b)基于个体的群体中信息标志物的每个等位基因的可接受频率，估计观测到样品中信息标志物中的每一个的基因型的初始概率，c)根据观测到样品次要等位基因频率的估计的初始概率计算DNA或无细胞DNA的初始供体分数估值，d)根据计算的初始供体分数估值和样品次要等位基因的观测频率的标准偏差计算观测到样品次要等位基因频率的条件概率，e)将混合模型算法应用于计算的初始供体分数估值，以提供样品中更新的DNA或无细胞DNA的供体分数估值。在一些实施方案中，计算机程序可以使用更新的DNA或无细胞DNA的供体分数代替DNA或无细胞DNA的初始供体分数估值来重复上述步骤(c)-(d)，直到更新的供体分数估值的变化的绝对值小于预先设定的阈值。

在另外的实施方案中，提供了设计和配置为存储原始数据并进行数据分析以产生样品中供体DNA的质量度量和估值的报告的计算机系统。在某些实施方案中，该系统由具有数据存储器的计算机或服务器、连接到互联网的调制解调器、加载和读取具有用于测序反应的微孔阵列的芯片的仪器、远程手持设备或移动设备、以及运行数据分析、生成报告、传输结果并将结果显示到远程手持设备或移动设备的软件组成。

在一些实施方案中，本发明涵盖生物信息学数据分析工作流程以处理原始测序数据并为每个靶多核苷酸序列和每个样品生成质量度量(图7)。在一些实施方案中，生物信息学数据分析工作流程包括3个阶段：初级分析、二级分析和三级分析。

在某些实施方案中，初级分析计算测序数据质量度量。在其他实施方案中，初级分析基于Halo条形码序列将读取分配给样品。在又一些其他的实施方案中，初级分析为每个测序读取或每对测序读取提取数字标签序列。在一些实施方案中，二级分析将测序读取与靶多核苷酸序列的参考序列进行比对。在其他实施方案中，二级分析识别靶位置处的变体。在其他实施方案中，二级分析为共享相同数字标签的每个读取组建立共有序列。在一些实施方案中，三级分析应用本文所述的混合模型来估计供体分数。在其他实施方案中，三级分析生成最终估值和关键质量度量的报告。

确定样品中DNA供体分数的方法

本发明进一步提供了确定从移植物接受者获得的样品中DNA供体分数的方法，该样品至少包含接受者DNA。在一些实施方案中，DNA包含无细胞DNA。在一些实施方案中，该方法包括鉴定选自预先设定的遗传变异的母集的信息标志物的子集。表2中提供了示例性遗传变异的子集。在一些实施方案中，已知遗传变异的母集内的每个遗传变异是双等位基因的并且双等位基因对中的等位基因是非单核苷酸多态性(SNP)遗传变异。

如本文所用，术语“信息标志物”是指预先确定的遗传变异的母集，其序列可用于使用混合模型来推断来自移植物供体和移植物接受者的等位基因频率的贡献。假设在本发明中使用的遗传变异的基因型遵循孟德尔遗传定律，在每个双等位基因遗传变异中，可以观测到四个等位基因。两个等位基因来自移植物接受者，两个等位基因来自移植物供体。对于不相关的接受者和供体，基因型是独立的，并且可以基于孟德尔遗传定律计算观测到每个组合的概率，如表4中所示。在一些实施方案中，移植物接受者对于信息标志物中的每一个都是纯合的。在一些实施方案中，移植物供体对于信息标志物是纯合的或杂合的。在一些实施方案中，移植物接受者和移植物供体对于信息标志物不具有相同的基因型。在一些示例性实施方案中，对于不相关的接受者和供体，信息靶标可以是表4中的基因型2、3、7和8并且具有37.5％的预期百分比。在一些实施方案中，接受者对于信息标志物的主要等位基因是纯合的。在某些实施方案中，信息标志物的主要等位基因在群体中的出现率超过约75％。在某些实施方案中，信息标志物的主要等位基因在群体中的出现率超过约80％。

表4：供体和接受者对的基因型以及每对的概率。

在一些实施方案中，信息标志物的子集的鉴定包括确定样品中多核苷酸序列的所有靶标集的多核苷酸序列。在一些实施方案中，多核苷酸序列的靶标集对应于遗传变异的母集。在一些实施方案中，多核苷酸序列的靶标集选自遗传变异的母集。在一些实施方案中，使用本文提供的多核苷酸探针来进行确定样品中多核苷酸序列的所有靶标集的多核苷酸序列。在其他实施方案中，使用本文提供的用于确定样品中DNA的遗传变异的至少一个等位基因的共有序列的方法来进行确定样品中多核苷酸序列的所有靶标集的多核苷酸序列。在一些实施方案中，使用如本文提供的多核苷酸探针和用于确定样品中DNA的遗传变异的至少一个等位基因的共有序列的方法来进行确定样品中多核苷酸序列的所有靶标集的多核苷酸序列。

在一些实施方案中，信息标志物的子集的鉴定包括确定样品内遗传标志物的母集中的每一个的样品次要等位基因频率(MAF)。在一些实施方案中，确定的样品次要等位基因频率也称为观测到的次要等位基因频率。在一些实施方案中，信息标志物的子集的鉴定包括基于样品中样品次要等位基因频率等于或大于约0.05％来鉴定信息标志物的子集。在一些实施方案中，信息标志物的子集的鉴定包括基于样品中样品次要等位基因频率小于或等于约20％来鉴定信息标志物的子集。在其他实施方案中，信息标志物的子集的鉴定包括基于样品中样品次要等位基因频率为约0.05％和约20％之间的任何数字来鉴定信息标志物的子集。然而，在任何情况下，样品中观测到的次要等位基因频率都不超过约20％。在某些实施方案中，如果观测到的次要等位基因频率小于约0.05％，则认为该样品仅含有来自一种来源的DNA。例如，在一些实施方案中，如果观测到的次要等位基因频率小于约0.05％，则该样品被鉴定为不包含DNA供体分数或无细胞DNA。在其他示例性实施方案中，如果观测到的次要等位基因频率小于约0.05％，则移植物接受者被鉴定为不具有显著的移植物排斥的风险。举例来说，在一个实施方案中，遗传变异的母集包含约192个总的遗传变异，并且平均而言，约35个遗传变异的子集被鉴定为含有来自不相关的接受者和供体的DNA的样品的信息标志物。在一些实施方案中，方法包括如果信息标志物的子集包含少于或等于3个信息标志物，则将该样品鉴定为不包含DNA供体分数或无细胞DNA。

在一些实施方案中，信息标志物的观测到的MAF由混合模型来描述。术语“混合模型”按其在统计学中的普通含义使用，通常是指概率模型，其用于表示总的群体内亚群的存在，而不要求观测数据集应鉴定单独的观测所属于的亚群。在一些实施方案中，混合模型对应于代表总的群体中观测的概率分布的混合分布。然而，虽然与“混合分布”相关的问题涉及从亚群的特性中得到总的群体的特性，“混合模型”用于仅根据合并的群体的观测而没有亚群的身份信息来对亚群的特性进行统计学推断。在一些实施方案中，利用期望最大化(EM)算法以将观测数据拟合到混合模型并计算供体分数λ。本文描述了信息标志物选择和模型拟合的示例性规程。在一个示例性实施方案中，对于每个移植物接受者样品使用预先确定的192个双等位基因遗传变异的母集。对于每个样品，以分配给192个遗传变异中的每一个的等位基因的测序读取的分数计算等位基因频率，无论读取是来自正向和反向测序读取对还是单个测序读取。在可选的实施方案中，可以以分配给等位基因的独特的数字标签读取的分数计算等位基因频率。选择具有[0.05％，20％]范围内的次要等位基因频率的遗传变异来代表表4中的基因型2、3、7和8。如本文所用，Xi代表第i个信息标志物的MAF。信息标志物的集合称为“I”，信息标志物的数量称为“N”。

在一些实施方案中，方法包括基于个体的群体中信息标志物的每个等位基因的可接受频率，估计观测到样品中信息标志物中的每一个的基因型的初始概率。在某些实施方案中，可以基于从各种公开可用的数据库获得的参考等位基因频率信息来确定可接受频率。在一个示例性实施方案中，可以基于由国际基因组样本资源(IGSR)的千人基因组计划发布的数据库中的信息来确定可接受频率。本领域的技术人员将容易地确定用于鉴定各种群体和各种遗传变异的等位基因频率的其他来源。

在一些实施方案中，可以用贝叶斯模型来进行估计。将要估计的关键度量是供体分数λ，因此对于任何双等位基因的等位基因，接受者分数为1-λ。在特定的标志物Mi处，接受者的基因型是Ri，并且供体的基因型是Di。次要等位基因的等位基因频率为Xi和Yi＝(Ri；Di)。参数集是θ，其中包括λ和每个标志物处的基因型的先验概率。

如果基因型是表4中的3或7(其中接受者和供体都是纯合的但在不同的等位基因处)，则预期的MAF为λ。如果基因型是表4中的2或8(其中接受者是纯合的而供体是杂合的)，则预期的MAF为λ/2。对数似然可以表示为：

在一些实施方案中，假设观测到的MAF Xi的概率分布属于指数族。如本文所用，术语“指数族(exponential family)”通常是指某种形式的概率分布的参数集。在一些实施方案中，可以基于例如有用的代数特性为数学方便而选择具体形式。术语“指数类”或“Koopman-Darmois族”有时用于代替“指数族”，并且通常具有相同的含义。概率分布可以采取但不限于以下形式：二参数高斯分布、二参数伽马分布、多项分布、二项分布、负二项分布、正态分布、指数分布、伽马分布、卡方分布、贝塔分布、狄利克雷分布、伯努利分布、分类分布、泊松分布、威沙特分布、逆威沙特分布和几何分布。在一些实施方案中，概率分布的形式包括二参数高斯分布、二参数伽玛分布和多项分布。在其他实施方案中，可以使用多项式函数(包括1、2或3个变量至多至5次幂)来计算观测到的MAF Xi的概率分布。多项式函数是公知的并且按其在本领域中的普通含义使用。

在一个示例性实施方案中，基于高斯分布估计所有遗传变异的观测到的MAF的初始概率。对于给定的参数集θ,

通过求解将对数似然最大化：

在一些实施方案中，将经验估计用于σ：

在一些实施方案中，方法进一步包括根据观测到样品次要等位基因频率的估计的初始概率计算DNA初始供体分数估值。在一些实施方案中，信息标志物Yi的基因型在集合中。在一些实施方案中，本文所用的零假设是遗传标志物的参考等位基因频率接近50％。那么第i个信息标志物处基因型的初始概率为：

P(Y＝2)＝1＝3；

P(Y＝3)＝1＝6；

P(Y＝7)＝1＝6；

P(Y＝8)＝1＝3:

在某些实施方案中，基于由IGSR的千人基因组计划发布的数据库中可用的信息，预先确定的母集中的所有遗传变异都是以各种种族群体中具有30％至70％的参考等位基因频率来选择的。本领域的技术人员将容易地确定用于鉴定各种群体和各种遗传变异的等位基因频率的其他来源。

在一些实施方案中，将供体分数的初始估值指定为：

或信息标志物集中所有Xi的第95个百分位数。在一些实施方案中，百分位数可以是第70、第75、第80、第85、第90个或更大。所有的MAF{Xi}都可以按升序排序。在一些实施方案中，百分位数充当消除输入的MAF值中的离群值的阈值。在一些实施方案中，百分位数可以是大于第70个百分位数的任何值。在一些实施方案中，将超过第95个百分位数的Xi排除在进一步的分析之外。

在其他实施方案中，方法包括根据计算的初始供体分数估值和样品次要等位基因的观测频率的标准偏差计算观测到样品次要等位基因频率的条件概率。

在一些实施方案中，方法进一步包括将混合模型算法应用于计算的初始供体分数估值，以提供样品中更新的DNA供体分数估值。在一些实施方案中，方法进一步包括重复以下步骤(1)使用更新的DNA供体分数代替DNA初始供体分数估值来计算观测到样品次要等位基因频率的条件概率，和(2)更新DNA供体分数估值，直到更新的供体分数估值的变化的绝对值小于预先设定的阈值。在一些实施方案中，DNA包含无细胞DNA。

在一些实施方案中，基于至少含有接受者DNA的样品的基因型计算观测到样品次要等位基因频率的条件概率。在一些实施方案中，基于含有接受者和供体DNA的混合物的样品的基因型计算观测到样品次要等位基因频率的条件概率。在一些实施方案中，根据概率分布的平均值计算观测到样品中样品次要等位基因频率的条件概率，该概率分布选自观测到样品次要等位基因频率的估计的初始概率的指数族。在示例性实施方案中，假设条件概率Pr(Xi|Yi)服从高斯分布或伽马分布，当Y＝3或Y＝7时平均值为λ，并且当Y＝2或Y＝8时平均值为λ/2。

μ₁＝λ^[t]，Y∈{3，7}

因此，Xi的标准偏差计算如下：

和

因此，在一些实施方案中，Xi选自具有大于3λ/4的条件概率的信息标志物集以形成子集H1。参数1(σ1)是H1中X的群体标准偏差。在其他实施方案中，Xi选自具有不大于3λ/4的条件概率的信息标志物集以形成子集H2。参数2(σ2)是H2中X的群体标准偏差。

在一些实施方案中，概率分布的形式选自由以下组成的组：二参数高斯分布、二参数伽玛分布和多项分布。在一个示例性实施方案中，概率分布的形式是高斯分布。因此，使用以下公式计算观测到样品中样品次要等位基因频率的条件概率：

其中

应当理解，可以使用其他形式的概率分布。在其他实施方案中，概率分布的形式可以是伽马分布。

在一些实施方案中，方法包括更新样品中DNA供体分数估值。在一些实施方案中，该更新包括使用以下公式计算供体分数估值：

其中

Pr(Y_i＝y|X_i)＝Pr(X_i|Y_i＝y)·Pr(Y_i＝y)/Pr(X_i)并且

在其他实施方案中，方法包括使用以下公式计算供体分数估值的变化的绝对值：

Δ＝|λ^[t^+1]-λ^[t]|

在一些实施方案中，方法包括使用更新的DNA供体分数代替DNA初始供体分数估值来重复观测到样品次要等位基因频率的条件概率的计算，直到更新的供体分数估值的变化的绝对值小于预先设定的阈值。在一些实施方案中，预先设定的阈值为1.0E-6或更低。在一些实施方案中，预先设定的阈值在[1.0E-12，1.0E-6]的范围内。

应当理解，本文提供的多核苷酸探针和方法也可以用于评估微小残留病和嵌合性测试。微小残留病(MRD)通常是指在治疗或移植后残留的只能通过先进的实验室检测才能检测到的低水平疾病的存在。在一些示例性实施方案中，MRD是B细胞急性淋巴细胞白血病(ALL)或骨髓瘤的。在其他示例性实施方案中，MRD是任何类型的血液癌症的。然而，应当理解，这些方法可以用于评估任何类型的MRD。嵌合性测试是本领域公知的，并且涉及鉴定从干细胞或骨髓移植物的移植物接受者获得的样品中的DNA的供体分数。

实施例

实施例1—探针合成

图1A-1E中提供了双链多核苷酸探针合成(也称为间隔物多重扩增反应(SMART)、长锁式探针(LPP))的图解。如图所示，双链多核苷酸探针的每条链以5’至3’方向包含第一靶杂交序列(THS 1)、接头1、第一数字标签序列(DTS1)、第一Halo条形码序列(HBS1)、第一Halo扩增引物序列(HAS1)、间隔物、反向第二Halo扩增引物序列(HAS2)、反向第二Halo条形码序列(HBS2)、反向第二数字标签序列(DTS2)、接头2和反向第二靶杂交序列(THS 2)。

图1A中示出了探针合成的示例性规程。合成探针的第一步是创建所有探针共同的主链序列。共同的主链序列包含第一Halo扩增引物序列、间隔物和反向第二Halo扩增引物序列。在这个示例中，间隔物序列的长度仅为40个核苷酸，并且整个共同的主链序列的长度为82-84个核苷酸。因此，化学合成主链序列。它比目前可用的其他探针更方便。示例性正向主链序列显示于SEQ ID NO:14:

示例性反向主链序列显示于SEQ ID NO:15:

第一Halo扩增引物序列和反向第二Halo扩增引物序列为加双下划线的，间隔物序列位于其间。

接下来，将数字标签序列和Halo条形码序列掺入主链中。以5’-3’方向包含接头、数字标签序列、Halo条形码序列和Halo扩增引物序列的引物按顺序排序，以与主链序列中的第一Halo扩增引物序列和反向第二Halo扩增引物序列杂交(图1A)。将主链序列用作模板以掺入接头、数字标签序列和Halo条形码序列。

将Halo条形码序列设计为在每个探针的左侧(HBS1)与右侧(HBS1)具有不同的序列，以防止探针折叠到自身上，从而限制靶标捕获。下表5中提供了示例性Halo条形码序列：

表5：示例性Halo条形码序列

Halo条形码序列侧接Halo扩增引物序列和数字标签序列。

步骤2中使用的一种示例性正向引物提供为：5’- 步骤2中使用的一种示例性反向引物提供为：5’-/> 接头序列为斜体，数字标签序列在框中，Halo条形码序列为加双下划线的，Halo扩增引物序列为粗体。数字标签序列中的固定碱基在序列中交错成岛以防止二级结构(以粗体灰色突出显示)。在此处提供的示例中，每个数字标签序列为12个核苷酸长，并且序列的样式如IUPAC代码所定义。在此示例中，组合两者的总的可能的独特的数字标签序列为(3X4X3X4X3X4)^2＝2,985,984。

在下一步中，创建具有靶杂交序列和主链序列的双链探针。为实现这一点，用PCR引物对先前步骤的双链PCR产物进行扩增，该PCR引物具有工程化改造入一个引物的MlyI序列，以及工程化改造入另一个引物的BsaI序列(图1A)。来自此阶段的产物在两个末端都含有限制性位点。

通过用工程化引物进行PCR扩增，将限制性位点掺入双链模板的末端。示例性正向引物(具有BsaI位点)提供为：5’-GTACGAGGTCTCAATGCTTGTAGCTGCTTGTATCCTCCACGACTGGGACGGAGCT-3’(SEQ ID NO:34)，示例性反向引物(具有MlyI位点)提供为5’-CATCGTGAGTCACTCGGTGGGTGGGTGCCATTAATGGAGTCCATCGTACGCT-3’(SEQ ID NO:35)。这将生成图1C中所示的分子。

然后用限制酶消化双链PCR产物。用BsaI进行第一次消化生成了5’突出物，该突出物为在顶部链从识别位点向内5个碱基以及在下方链向内1个碱基。这产生了具有凹陷的3’端和突出的5’端的分子，如图1C所示。星号指示酶的切割位点。然后用酶MlyI消化该分子，该酶切割从识别位点向内的5个碱基，并且生成在5’端具有磷酸基团的平端分子。在限制酶切割后底部链上的5’腺苷具有末端磷酸基团。PCR和酶消化反应条件遵循本领域所用的通用方案，且本领域技术人员可以容易地根据应用来确定优化的条件。现在形成了期望的双链多核苷酸探针(图1B)。本发明的区别性特征是在聚合后的任何时间都不进行核酸外切酶消化。比较而言，本领域的其他方法(如US8,795,968中公开的方法)需要核酸外切酶来消化未反应的线性探针和靶DNA，并将环状扩增分子从其靶基因组DNA中释放出来。

本文提供了对于表2中SNP ID rs34769521的引物设计的示例。正向顶部靶序列(双下划线)为： N代表可以是A、C、G或T中任何一个的核苷酸碱基。

反向底部靶序列(双下划线)为：3’-- (SEQ ID NO:37)。框中的序列是探针中靶杂交序列的结合位点。因此，顶部最终的探针中右侧的靶杂交序列(THS1)为：5’-CATTAATGGCACCCACCCAC-3’(SEQ ID NO:38)，且顶部最终的探针中左侧的靶杂交序列(THS2)为5’-TTGTAGCTGCTTGTATCCTCCA-3’(SEQ ID NO:39)(图1D)。此外，底部最终的探针中右侧的靶杂交序列(THS1)为：5’-GTGGGTGGGTGCCATTAATG-3’(SEQ ID NO:40)，且底部最终的探针中左侧的靶杂交序列(THS2)为5’-TGGAGGATACAAGCAGCTACAA-3’(SEQ ID NO:41)(图1E)。SMART测定可以用于在单管反应中对多个(例如，超过5000或10,000个)靶序列进行测序。

实施例2—用于Illumina测序的间隔物多重扩增反应(SMART)测定

使用测序平台进行SMART测定的一般工作流程如图2所示。第一步是将探针与靶序列退火过夜，然后进行延伸。下一步是使用共同的交错引物进行扩增。

PCR和连接反应的方法通常是本领域公知并且使用的。在这个示例中，100阿托摩尔(attomole)的探针与约500ng人基因组DNA退火。这是通过以下步骤完成的：首先在95℃下变性，然后以1℃减量逐渐降低温度至58℃，在每个温度下保持1分钟，并最后在58℃下退火过夜。值得注意的是，在本发明中，将探针设计成以多重方式扩增多个靶多核苷酸序列。

此处简要描述了实验的示例。首先，将管或板放在冰上的冷金属块上。2分钟后，加入约6.5μL反应混合物，其含有：0.8μL 10x Ampligase缓冲液、5个单位的Ampligase^TM 0.5个单位的Taq聚合酶的Stoffel片段(Applied Biosystems)和5.2μLdH₂O。将反应在58℃下孵育2分钟，然后置于冰块上。加入约1.5μL冷的dNTP混合物(1.25mM)并通过移液器吸移充分混合。接下来，将反应在58℃下孵育15分钟并保持在37℃。延伸后不需要核酸外切酶消化。

如图3所示，单链探针与靶多核苷酸序列杂交，并且被合适的DNA聚合酶延伸。然后将其连接以形成环状探针。图3中示出了间隔物主链，其形成杂交靶标之间的环。DNA聚合酶催化从3’端DNA的聚合，以填充两个靶标之间的缺口。当Ampligase^TM酶到达另一个靶标的5’端时，该酶可用于通过连接探针的两端来闭合环。在Ampligase^TM缓冲液中使用Stoffel聚合酶和Ampligase^TM对探针进行延伸和环化。环化之后，不需要核酸外切酶消化。

然后用一组与Halo扩增引物序列杂交的至少四个正向交错扩增引物和四个反向交错扩增引物将分子线性化，如图4A所示。延伸和连接反应的全部内容物用于在混合物(cocktail)中进行PCR扩增，该混合物含有10mM tris-HCL(PH 8.3)、50mM氯化钾、0.25mM氯化镁和2个单位的Amplitaq^TM Gold。表3中提供了示例性正向交错扩增引物和反向交错扩增引物。循环参数为95℃下热失活10分钟，然后是95℃ 30秒、63℃ 30秒和72℃ 30秒的40个循环。所得的线性分子如图4B所示。线性化之后，不需要核酸外切酶消化。可以使用本领域可用的任何基于小珠的PCR净化测定来净化PCR扩增产物。接下来，将PCR扩增产物用于如图5A所示的测序引物扩增，随后进行DNA定量和测序。

实施例3—另外的样品方案

本实施例进一步提供了用于构建ds探针并扩增捕获的靶序列的示例性方案。简言之，该工作流程包括以下步骤：创建双链探针、使用探针捕获基因组DNA并创建具有条形码的探针、制备用于测序序列的产物以及测序。

为了创建双链探针，根据下表6-8组装三个组分以创建探针。

表6：1μM主链储液的组装

表7：1μM数字标签或条形码(BC)储液的组装

表8：5μM具有靶杂交序列(THS)的序列储液的组装

在这个示例中，用5μM具有靶杂交序列的序列的储液稀释物制备双链探针的96孔板。下表9-10中提供了示例性PCR反应和循环条件。典型的PCR循环约1小时。

表9：每个探针每个反应的PCR组分

表10：PCR循环条件

用磁珠清洁PCR产物。用1.5X小珠(37.5μL)并用80％的乙醇清洗3次进行珠清洁。然后在27μL的10mM Tris-HCl中洗脱DNA，并转移25μL的DNA。珠清洁后，通过PicoGreen一式三次测量DNA浓度。将DNA归一化，以便所有探针的浓度大致相同，例如10-20ng/μL。

在另一个型式中，在珠清洁之前完成合并。在这个示例中，在探针PCR之后立即加入EDTA。然后通过PicoGreen一式三次测量DNA浓度，然后在对组合探针进行珠清洁之前进行归一化和合并。将DNA归一化，以便所有探针的浓度大致相同，例如10-20ng/μL。用1.5X小珠(37.5μL)并用80％的乙醇清洗3次进行珠清洁。然后在27μL的10mM Tris-HCl中洗脱DNA，并转移25μL的DNA。

如本领域普遍进行的，在珠清洁之后进行酶消化。用BsaI和MlyI完成探针的消化。下表11和12提供了消化的反应条件。反应进行约70分钟。

在一些情况下，探针可能必须单独制备。

表11：每个反应的消化组分

*在一些情况下，探针可能必须单独制备。

表12：酶消化循环条件

温度	时间
		37℃	60min
70℃	10min
		4℃	保持

在消化之后，根据上文刚刚所述的方法进行另一次珠清洁。接下来，为了确认产物大小不同，在Agilent DNA 1000上运行消化前以及消化和珠清洁后约1μL的探针或探针混合物。经消化的和未消化的探针之间预期有约30bp的差异。

接下来，将探针稀释以达到期望的靶标浓度，用于探针与基因组DNA过夜退火以捕获基因组DNA上的靶区域。表13中提供了示例性反应。循环条件包括在94℃下孵育2分钟，在94℃至64℃下通过每个循环降低1℃进行30个循环，每个循环为1min。保持在60℃。

表13：每个反应的退火组分

/>

接下来，使用表14和15中提供的条件延伸ds探针。

表14：每个反应的延伸组分

组分	体积(μL)
		10X Ampligase缓冲液	0.1
Ampligase	0.5
		Phusion或Q5	0.2
1mM dNTP	2
		dH2O	0.2
延伸反应混合物/rxn	3
		退火总rxn	9
延伸rxn总计	12

表15：延伸循环条件

温度	时间
		60℃	15min
72℃	5min
		4℃	保持

然后，使用所有探针共同的引物扩增探针。表16和17中提供了示例性PCR反应和循环条件。反应循环约30分钟。

表16：每个反应的PCR组分。

表17：共同引物扩增循环条件。

用珠清洁对PCR产物进行清洁。用按体积计1X的小珠(45μL)并用80％的乙醇清洗3次进行珠清洁。在28μL的10mM Tris-HCl中洗脱小珠并转移25μL。然后在28μL的10mM Tris-HCl pH8中洗脱DNA，并且取25μL洗脱物用于以下步骤。

接下来，将共同引物扩增产物按约1:5的比例稀释，并且使用共同测序引物扩增产物。表18和19提供了使用的/>Multiplex Oligos的示例性扩增反应和循环条件。

表18：多重引物扩增条件

组分	浓度	体积(μL)
			Q5 Rxn缓冲液	5X	5
dNTP	10mM	0.5
			Q5 DNA聚合酶	2U/uL	0.25
dH2O	-	10.25
			PCR反应混合物/rxn		16
引物	5uM(每个)	4
			CPA清洁产物		5
PCR rxn总计		25

表19：热循环仪程序

在测序扩增反应后，通过珠清洁对产物进行清洁。用按体积计0.8X的小珠(20μL)并用80％的乙醇清洗3次进行珠清洁。将约20μL的AMPure XP小珠加入到产物中。在18μL的10mM Tris-HCl pH 8中洗脱DNA，并且取16μL洗脱物。接下来，通过Qubit BR或Picogreen对DNA进行定量，并通过Agilent DNA1000进行确认。

实施例4—靶标选择和数据分析

本实施例显示了本文提供的方法所采用的从靶标选择到数据分析的示例性过程。

靶标选择。从千人基因组计划中选出一组遗传变异作为捕获的靶标。所选择的所有遗传变异都是22条常染色体上的非SNP插入或缺失。选择形成靶标的变体的子集或整个集合进行捕获、测序和分析。选择插入或缺失是因为对于PCR和测序技术(无论使用Sanger测序还是下一代测序(NGS))，插入或缺失的错误率远低于单碱基取代。插入和缺失靶标组提供了相比于单核苷酸变体组(如SNP)更大的优势。因此，对于插入和缺失靶标，噪声水平显著更低，并且可以在超高灵敏度下实现较高的信噪比。

等位基因背景校正。每个靶标处的两个等位基因可以具有不同的背景。例如，如果样品的参考等位基因的基因型是纯合的，则替代等位基因的背景水平可以是0.1％。但是，如果样品的替代等位基因的基因型是纯合的，则参考等位基因的背景水平可以是0.01％。

在样品之间一致地观察每个等位基因的背景水平。背景水平是根据每个靶标处的两个等位基因的纯DNA样品预先确定的。对于信息标志物，纯合的接受者的等位基因需要超过75％，因此其是主要等位基因，而另一个等位基因是次要等位基因。在分析过程中，从次要等位基因分数中减去次要等位基因的背景水平以对等位基因背景进行校正。可以根据纯DNA标本估计等位基因背景水平，并且参考和替代等位基因之间的差异在图8中显示。如图8所示，根据48个样品估计等位基因背景，这些样品包括来自7个DNA标本的重复。对于至少一个样品的参考等位基因观察到76个靶标是纯合的，并且对于替代等位基因68个靶标是纯合的。对于47个靶标，纯合参考等位基因和替代等位基因均存在于7个DNA标本中。为47个靶标绘制了参考和替代等位基因的背景水平。靶标的背景水平如果小于或等于10^-5则设为10^-5。有22个靶标的参考和替代等位基因均小于或等于10^-5，其以圆圈指示。有30个靶标的参考和替代等位基因均小于或等于10^-3或0.1％，其以矩形指示。

数字标签序列。每个捕获探针含有独特的数字标签序列。参见图1B。在捕获、聚合和连接后，形成环状分子以包括靶区域与独特的分子数字标签。在PCR和测序后，将含有相同数字标签序列的成对的读取安排在一起作为相同分子的PCR产物，并将共有序列导出为数字标签读取。通过计数靶位点处每个等位基因的数字标签序列读取来校正每个探针的PCR效率偏差。

等位基因频率。在每个靶位点处，估计MAF并调整该位点的共有碱基识别(base-call)的质量值。基于MAF估值，重新计算基因型的后验分布。选择比例常数，使得概率总和为1。基于每个共有位置的最大概率分配基因型和质量值。等位基因频率通过给出更准确的先验分布估值来改进对数似然比计算，尤其是在读取覆盖率较低的情况下。

弱靶标。在分析过程中排除弱靶标。弱靶标至少由两种类型的探针组成：噪声探针和高CV探针。噪声探针由纯DNA样品中的不良表现定义。在一个示例性实施方案中，噪声探针是具有极低读取计数的探针，例如，少于10个读取。在另一个示例性实施方案中，当靶标的基因型是纯合的时，噪声探针具有0.05至0.35之间的MAF。原因是，对于纯样品，如果靶标是纯合的，则探针MAF应该接近0，或者如果靶标是杂合的，则探针MAF应该接近0.5。如果MAF严重偏离0或0.5，则它被归类为噪声探针。

另一种类型的弱探针是高CV探针。高CV探针是在训练集中的3个或更多个混合样品中显示出一致的高CV的探针，该训练集中的MAF大于0.25％。另一方面，如果一个探针在多个样品和测序运行中显示出非常低的CV，则它是可以在模型中被赋予较高权重的可靠的探针。

背景水平。将纯DNA样品的背景水平定义为所有纯合靶标的MAF的中值。对于具有重复的纯DNA样品的验证集，将空白限(LoB)定义为所有样品背景水平的第95个百分位数，在正态分布下等于LoB＝平均值_空白+1.645(SD_空白)。在这项研究中，LOB是基于48个样品计算的，这些样品包括来自7个纯DNA的重复。为了进行公平比较，以与先前发表的研究中相同的方式计算背景水平和LOB。先前发表的研究显示基于180个空白样品的LoB为0.1％，其在图8B中以实线标记。比较而言，使用本文提供的探针和方法，使用192个探针的集合，检测LoB为0.0042％，其由虚线标记，这比本领域可用方法的检测的LoB低一个数量级。

性能特征。根据临床和实验室标准协会EP17-A2，将检测限(LOD)定义为可检测到95％样品的最小样品量。在此，将LOD定义为95％的样品(包括重复)高于LOB的dd-cfDNA的最低水平。LoD是可能与LoB可靠地区分并且在该浓度下检测可行的最低分析物浓度。通过使用已知含有低浓度分析物的样品的测量LoB和测试重复来确定LoD：

LoD＝LoB+1.645(SD_{低混合水平})

测试各种混合水平，最低水平为0.125％。基于具有最低混合水平的16个样品，LoD为0.0478％。

实施例5—确定异质样品中的供体分数

在本实施例中，将主要和次要DNA混合以形成混合物样品，也称为异质样品。主要DNA代表移植物接受者，而次要DNA代表移植物供体。制备来自两个DNA样品的DNA混合物以模拟嵌合性。测试的混合物水平为8％至0.125％。现有方法中的定量准确性较差，并且依赖于DNA的质量。这些混合样品中次要DNA的百分比大致代表靶标的混合水平，即靶标供体分数。在第一个实验中，靶标混合水平为1％、0.5％和0.25％，每个一式三份，如表20所示。条形码是每个样品的板和孔位置，并且对于特定混合必须是独特的。

由于移液误差，实际混合水平(实际供体分数)可能与靶标水平不同。将实际混合水平确定为3次重复的供体估值的平均值。对于每个混合水平，以标准偏差除以3次重复的供体估值的平均值来计算变异系数(CV)。通过乘以100将CV表示为百分比。在该实验中，使用了两对DNA。对于每一对，以1％、0.5％和0.25％的混合水平制备混合物。每种混合物一式三份。将两个使用主要DNA的纯样品包括在内作为对照。测序运行中总计有22个样品。

图9A显示了混合物样品中的预期供体分数和估计的供体分数之间相关性的示例性结果。X轴代表预期供体分数，以每个混合水平的混合物样品的3次重复的平均值计算。Y轴显示每个复制的供体估值。对于预期供体和估计的供体纯样品均显示为0。

表20.混合物实验的数据分析的样品水平量度

在第二个实验中，有7个混合水平，分别为8％、4％、2％、1％、0.5％、0.25％和0.125％。每个混合物样品有3个重复，如表21所示。图9B显示CV和靶供体分数之间存在负相关。通常，供体分数越低，一式三份的估值的CV越高。具体地，供体分数越低，信号越接近噪声水平。当信噪比水平较低时，检测的变异或CV较高。对于验证样品中所有水平的供体分数，CV均低于20％。

表21：样品中靶和实际混合水平

/>

Claims

1.多核苷酸探针，其包含两条完美互补的链，其中一条链以5’至3’方向包含，

a)第一靶杂交序列，

b)第一数字标签序列，

c)第一Halo条形码序列，

d)第一Halo扩增引物序列，

e)反向第二Halo扩增引物序列，

f)反向第二Halo条形码序列，

g)反向第二数字标签序列，和

h)反向第二靶杂交序列，

其中所述两条链彼此完美互补。

2.权利要求1所述的多核苷酸探针，其进一步包含位于所述第一靶杂交序列和所述第一数字标签序列之间的接头序列。

3.权利要求2所述的多核苷酸探针，其进一步包含位于所述第一Halo扩增引物序列和所述反向第二Halo扩增引物序列之间的间隔物序列。

4.权利要求3所述的多核苷酸探针，其中所述间隔物序列的长度在10-40个碱基对(bp)之间。

5.权利要求4所述的多核苷酸探针，其中所述间隔物序列是非人多核苷酸序列。

6.权利要求5所述的多核苷酸探针，其进一步包含位于所述反向第二靶杂交序列和所述反向第二数字标签序列之间的接头序列。

7.权利要求1-6中任一项所述的多核苷酸探针，其中所述第一靶杂交序列和所述反向第二靶杂交序列经配置为与单个靶多核苷酸序列杂交，其中已知所述靶多核苷酸序列具有超过一个等位基因。

8.权利要求1-7中任一项所述的多核苷酸探针，其中在与所述靶多核苷酸序列杂交时，所述第一靶杂交序列和所述反向第二靶杂交序列在所述靶多核苷酸序列上由长度为至少2bp的缺口分开。

9.权利要求8所述的多核苷酸探针，其中所述缺口的长度为约2至约1000bp。

10.权利要求8或9所述的多核苷酸探针，其中所述缺口的长度为约2至约800bp。

11.权利要求8-10中任一项所述的多核苷酸探针，其中所述缺口的长度为约2至约200bp。

12.权利要求1-11中任一项所述的多核苷酸探针，其中所述多核苷酸是DNA。

13.权利要求12所述的多核苷酸探针的群体，其中所述探针的群体的每个成员包含相同的第一靶杂交序列和相同的反向第二靶杂交序列。

14.多核苷酸探针的集合，其中所述集合包含超过一个权利要求13所述的探针的群体，其中每个群体与不同的靶多核苷酸序列杂交。

15.权利要求14所述的多核苷酸探针的集合，其中所述集合中的至少两个探针具有相同的Halo条形码序列和相同的反向第二Halo条形码序列。

16.权利要求15所述的多核苷酸探针的集合，其中整个集合中的所有探针具有相同的Halo条形码序列和相同的反向第二Halo条形码序列。

17.扩增样品中存在的靶多核苷酸序列的方法，所述方法包括：

a)使权利要求12所述的多核苷酸探针的所述完美互补的链变性以产生第一和第二单链多核苷酸探针，

b)使所述样品中存在的所述靶多核苷酸序列变性以产生第一和第二单链靶多核苷酸序列，

c)使所述第一和第二单链多核苷酸探针中的每一个分别与所述第一和第二单链靶多核苷酸序列杂交，其中所述单链探针以创建环状杂交多核苷酸的方式与所述单链靶多核苷酸序列杂交，其中在与所述单链靶多核苷酸序列杂交时，所述单链多核苷酸探针上的所述靶杂交序列在所述单链靶多核苷酸序列上由长度为至少2个核苷酸的缺口分开，

d)以5’至3’的方向使核苷酸聚合来填充所述至少2个核苷酸的缺口，以产生单链环状探针，和

e)在不切割所述单链环状探针的情况下扩增所述单链环状探针，其中仅当所述至少2个核苷酸的缺口在所述聚合步骤期间被填充时才会发生扩增。

18.权利要求17所述的方法，其中已知所述靶多核苷酸序列具有超过一个等位基因。

19.权利要求17或18所述的方法，其中扩增所述单链环状探针包括使用至少四个正向交错扩增引物和四个反向交错扩增引物。

20.权利要求19所述的方法，其中所述至少四个正向交错扩增引物包含相同的引物扩增多核苷酸序列和相同的引物测序多核苷酸序列，其中所述引物扩增多核苷酸序列和所述引物多核苷酸测序序列由长度为0、1、2或3个核苷酸的间隔物核苷酸序列彼此分开，其中所述至少四个正向交错扩增引物的所述引物扩增多核苷酸序列经配置为与所述单链环状探针的所述第一Halo扩增引物序列杂交。

21.权利要求19所述的方法，其中所述至少四个反向交错扩增引物包含相同的引物扩增多核苷酸序列和相同的引物测序多核苷酸序列，其中所述引物扩增多核苷酸序列和所述引物多核苷酸测序序列由长度为0、1、2或3个核苷酸的间隔物核苷酸序列彼此分开，其中所述至少四个反向交错扩增引物的所述引物扩增多核苷酸序列经配置为与所述单链环状探针的所述反向第二Halo扩增引物序列杂交。

22.权利要求17-21中任一项所述的方法，其中在所述聚合后的任何时间都不进行核酸外切酶消化。

23.用于确定从移植物接受者获得的样品中DNA的遗传变异的至少一个等位基因的共有序列的方法，其中所述样品至少含有接受者DNA，所述方法包括：

(a)接收正向DNA测序读取和反向DNA测序读取，其中所述DNA测序读取中的每一个包含：

i)第一Halo条形码序列和第二反向Halo条形码序列，

ii)第一数字标签序列和第二反向数字标签序列，

iii)靶多核苷酸序列，其中已知所述靶多核苷酸序列是双等位基因的，并且其中所述等位基因是非单核苷酸多态性(SNP)遗传变异，和

iv)至少一个索引序列；

(b)通过将所述索引序列映射到参考索引序列，将共享相同的索引序列的所述正向和反向测序读取分配给单个移植物接受者，从而产生所述单个移植物接受者的一个或多个读取簇，其中所述一个或多个读取簇中的每一个包含正向和反向靶测序读取；

(c)通过确认所述第一Halo条形码序列和第二反向Halo条形码序列的序列同一性来验证所述正向和反向靶测序读取来自相同的样品制备物；

(d)连结来自所述读取簇中的所述靶测序读取的每一个的所述第一数字标签序列和所述第二反向数字标签序列以产生长数字标签；

(e)通过将所述长数字标签的序列与参考长数字标签序列进行比较以确认在长数字标签和所述参考长数字标签之间存在不超过2个错配，鉴定所述读取簇中经验证的正向和反向靶测序读取；

(f)将所述经验证的正向和反向靶测序读取中的每一个与靶参考序列进行比对，其中所述靶参考序列包含所述非SNP遗传变异的一个主要等位基因或所述非SNP遗传变异的一个次要等位基因；

(g)生成所述一个或多个读取簇中的每一个的所述靶序列的所述至少一个等位基因的共有序列。

24.用于确定从移植物接受者获得的样品中DNA的双等位基因遗传变异的至少一个等位基因的共有序列的方法，其中所述样品至少含有接受者DNA，所述方法包括：

(a)接收DNA测序读取，其包含：

i)第一Halo条形码序列和第二反向Halo条形码序列，

ii)第一数字标签序列和第二反向数字标签序列，

iv)至少一个索引序列；

(b)通过将所述索引序列映射到参考索引序列，将共享相同的索引序列的所述测序读取分配给单个移植物接受者，从而产生所述单个移植物接受者的一个或多个读取簇，其中所述一个或多个读取簇中的每一个包含靶测序读取；

(c)通过确认所述第一Halo条形码序列和第二反向Halo条形码序列的序列同一性来验证所述靶测序读取来自相同的样品制备物；

(e)通过将所述长数字标签的序列与参考长数字标签序列进行比较以确认在长数字标签和所述参考长数字标签之间存在不超过2个错配，鉴定所述读取簇中经验证的靶测序读取；

(f)将所述经验证的靶测序读取中的每一个与靶参考序列进行比对，其中所述靶参考序列中的每一个对应于所述双等位基因遗传变异的一个等位基因；

(g)生成所述一个或多个读取簇中的每一个的所述双等位基因遗传变异的所述一个等位基因的共有序列。

25.权利要求23或24所述的方法，其中所述DNA测序读取中的每一个包含正向索引序列和反向索引序列。

26.权利要求23-25中任一项所述的方法，其进一步包括从未达到质量度量的测序读取中丢弃低质量读取。

27.权利要求23-25中任一项所述的方法，其进一步包括如果所述索引序列与所述参考索引序列相比包含2个或更多个错配，则丢弃正向或反向测序读取。

28.权利要求23-27中任一项所述的方法，其进一步包括如果所述第一Halo条形码序列和第二反向Halo条形码序列彼此之间包含一个或多个错配，则丢弃所述正向和反向靶测序读取。

29.权利要求23-28中任一项所述的方法，其进一步包括如果所述经验证的正向靶测序读取和所述经验证的反向靶测序读取彼此不是100％互补，则将它们丢弃。

30.权利要求23或24所述的方法，其中如果将大多数的所述经验证的靶测序读取与所述靶参考序列进行比对，则生成每个读取簇的所述靶序列的所述共有序列。

31.权利要求23-30中任一项所述的方法，其进一步包括将所述共有序列存储在服务器上。

32.权利要求23-31中任一项所述的方法，其中所述DNA是无细胞DNA。

33.权利要求23-32中任一项所述的方法，其中所述样品包括血液、血清、血浆、外周血单个核细胞(PBMC)、细胞、组织、活组织检查、脑脊液、胆汁、淋巴液、唾液、尿液和粪便。

34.权利要求23-33中任一项所述的方法，其中所述非SNP遗传变异选自由以下组成的组：插入、缺失、数量可变的串联重复(VNTR)、重复段、重复、高变区、小卫星、拷贝数变异、易位和倒位。

35.权利要求23-34中任一项所述的方法，其中已知所述非SNP遗传变异的所述次要等位基因在群体中的出现率不低于约30％。

36.权利要求23-35中任一项所述的方法，其中所述第一数字标签序列或所述第二反向数字标签序列包含8至20个核苷酸。

37.权利要求36所述的方法，其中所述正向第一数字标签序列或所述第二反向数字标签序列包含12个核苷酸。

38.权利要求23-37中任一项所述的方法，其中所述样品含有供体DNA和接受者DNA的混合物，并且其中所述供体和所述接受者无关。

39.计算机可读存储介质，其包含存储在其上的指令，当在包含至少一个处理器的计算机化系统中执行时，所述计算机可读存储介质导致所述至少一个处理器执行权利要求23-38中任一项所述的方法。

40.确定从移植物接受者获得的样品中无细胞DNA的供体分数的方法，所述样品至少包含接受者无细胞DNA，所述方法包括：

a)鉴定信息标志物的子集，所述信息标志物的子集选自预先确定的遗传变异的母集，其中已知所述遗传变异的母集内的所述遗传变异的每一个是双等位基因的并且其中所述双等位基因对中的等位基因是非单核苷酸多态性(SNP)遗传变异，其中所述信息标志物的子集的鉴定包括，

i)确定所述样品中多核苷酸序列的所有靶标集的多核苷酸序列，其中靶序列对应于所述遗传变异的母集，

ii)确定所述样品内所述遗传变异的母集中的每一个的样品次要等位基因频率，和

iii)基于所述样品中所述样品次要等位基因频率等于或大于0.05％鉴定所述信息标志物的子集；

b)基于个体的群体中所述信息标志物的每个等位基因的可接受频率，估计观测到所述样品中所述信息标志物中的每一个的基因型的初始概率，

c)根据观测到所述样品次要等位基因的频率的估计的初始概率计算无细胞DNA的初始供体分数估值，

d)根据计算的初始供体分数估值和所述样品次要等位基因的观测频率的标准偏差计算观测到所述样品次要等位基因的频率的条件概率，

e)将混合模型算法应用于所述计算的初始供体分数估值，以提供所述样品中更新的无细胞DNA的供体分数估值，其中使用所述更新的无细胞DNA的供体分数代替所述无细胞DNA的初始供体分数估值来重复步骤(c)-(d)，直到更新的供体分数估值的变化的绝对值小于预先设定的阈值。

41.权利要求40所述的方法，其中所述预先设定的阈值是1.0E-6或更低。

42.权利要求40或41所述的方法，其中所述预先设定的阈值在1.0E-12到1.0E-6的范围内，包括端值。

43.权利要求40-42中任一项所述的方法，其中所述样品中所述样品次要等位基因频率小于约20％。

44.权利要求40-43中任一项所述的方法，其进一步包括如果所述信息标志物的子集包含少于或等于3个信息标志物，则将所述样品鉴定为不包含无细胞DNA的供体分数。

45.权利要求40-44中任一项所述的方法，其中已知所述信息标志物的每个等位基因的所述可接受频率在群体中的出现率不低于约30％。

46.权利要求40-45中任一项所述的方法，其中根据概率分布的平均值计算观测到所述样品中所述样品次要等位基因的频率的条件概率，所述概率分布选自观测到所述样品次要等位基因的频率的估计的初始概率的指数族。

47.权利要求46所述的方法，其中概率分布的形式选自由以下组成的组：二参数高斯分布、二参数伽玛分布和多项分布。

48.权利要求40-47中任一项所述的方法，其中所述移植物接受者对于所述信息标志物中的每一个都是纯合的。