CN113366119A

CN113366119A - 使用snp谱分析对少量血液样品中的外源dna进行定量

Info

Publication number: CN113366119A
Application number: CN201980091000.8A
Authority: CN
Inventors: 大卫·于·张; 陈曦; 奥米德·维塞; 戴鹏; 张克柔
Original assignee: William Marsh Rice University
Current assignee: William Marsh Rice University
Priority date: 2018-12-05
Filing date: 2019-12-05
Publication date: 2021-09-07
Also published as: WO2020118046A1; EP3891301A4; EP3891301A1; US20220042100A1

Abstract

本文提供了用于经由少量血液样品的SNP谱分析对外源无细胞DNA(cfDNA)进行定量的方法。所述方法允许通过分析利用指尖采血针或其他装置非侵入性收集的少量患者毛细血管血样来监测器官移植排斥的状态。所述方法还允许指导免疫抑制剂的剂量并允许在即将发生器官衰竭的情况下为新的器官移植做准备。

Description

使用SNP谱分析对少量血液样品中的外源DNA进行定量

相关技术说明

器官受体接受免疫抑制剂以降低接受非自身(同种异体)器官移植后的排斥可能性。器官排斥的标准诊断性测试是活检。与传统的侵入性活检相比，非侵入性检查更安全，且允许更频繁地监测移植器官的状态。然而，早期器官移植排斥的非侵入性生物标志物是有限的。尿液中的肌酐是用于评估肾脏排斥反应的黄金标准，但只有在肾脏发生严重损伤后，肌酐水平才会升高。正在研究特定类型的器官/组织移植的其他生物标志物，包括肾脏的mRNA(Suthanthiran等人，2013)、胰岛和肾脏的外泌体(Vallabhajosvula等人，2017；Park等人，2017)。无细胞DNA(cfDNA)中供体来源的单核苷酸多态性(SNP)可作为器官移植排斥的通用非侵入性生物标志物。尽管开发了由少于267个SNP组成的SNP组以用于监测移植受体中的免疫抑制疗法(美国专利Appln.Publn.号2016/0145682)，但由于需要从血浆中分离cfDNA，则至少需要1mL血浆样品。需要监测移植受体的新方法。

发明内容

因此，本文提供了通过对来自器官移植受体的少量的指尖血样(小于200μL)的单核苷酸多态性(SNP)进行谱分析来检测和监测器官移植排斥的方法。本文还提供了用于从总DNA中选择性扩增cfDNA的方法、用于使用cfDNA的片段化位点作为分子条形码的方法、以及使用专用的杂交捕获探针组对SNP进行谱分析的方法、以及对供体来源的cfDNA分数进行定量的方法。

在一个实施例中，本文提供了对包含长DNA片段和短DNA片段两者的DNA样品中的短DNA片段进行选择性扩增的方法，该方法包括：(a)将通用衔接子寡核苷酸连接到长DNA片段和短DNA片段的每个末端，从而生成衔接子修饰的长DNA片段和短DNA片段，(b)通过执行延长时间为介于约1秒与约15秒之间(诸如例如，1、2、3、4、5、6、7、8、9、10、11、12、13、14或15秒)的PCR并使用与通用衔接子杂交的寡核苷酸引物来选择性扩增衔接子修饰的短DNA片段，从而生成扩增的短DNA片段，以及(c)执行大小选择以分离扩增的短DNA片段。大小选择可以包含凝胶电泳纯化或基于珠粒的纯化。可以使用Ampure XP珠粒、凝胶纯化或电泳执行大小选择。

在一些方面，短DNA片段的长度介于约50个核苷酸与400个核苷酸之间，诸如例如，约50-375个核苷酸、约50-350个核苷酸、约50-325个核苷酸、约50-300个核苷酸、约50-275个核苷酸、约50-250个核苷酸、约50-225个核苷酸、约50-200个核苷酸、约75-400个核苷酸、约75-375个核苷酸、约75-350个核苷酸、约75-325个核苷酸、约75-300个核苷酸、约75-275个核苷酸、约75-250个核苷酸、约75-225个核苷酸、约100-400个核苷酸、约100-375个核苷酸、约100-350个核苷酸、约100-325个核苷酸、约100-300个核苷酸、约100-275个核苷酸、约100-250个核苷酸、约150-400个核苷酸、约150-375个核苷酸、约150-350个核苷酸、约150-325个核苷酸、约150-300个核苷酸、约200-400个核苷酸、约200-375个核苷酸、约200-350个核苷酸，或其中可推导出的任何范围。在一些方面，短DNA片段的平均大小可为约50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、225、250、275、300、325、350、375、400个核苷酸或其中可推导出的任何值。

在一些方面，步骤(b)中的PCR以介于约1秒与约30秒之间的退火时间执行，诸如例如，1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30秒。在一些方面，DNA样品包含无细胞DNA(cfDNA)。在一些方面，短DNA片段包含cfDNA。在一些方面，DNA样品包含从全血中提取的DNA。在一些方面，DNA样品是从口腔拭子或尿液中提取的。

在一些方面，在步骤(a)之前，对长DNA片段和短DNA片段进行末端修复。在一些方面，在步骤(b)之前，将衔接子修饰的长DNA片段和短DNA片段进行柱纯化。在一些方面，通用衔接子包含从5’到3’的与寡核苷酸引物互补的区域以及与寡核苷酸引物不互补的区域。在一些方面，步骤(c)的大小选择包含凝胶纯化。在一些方面，该方法进一步包括(d)：对扩增的短DNA片段进行测序。

在一些方面，步骤(d)中的测序是下一代测序。在某些方面，下一代测序为双末端测序或单读测序。在某些方面，该方法进一步包括(e)：通过(1)将序列与参考基因组比对以确定扩增子长度以及(2)去除扩增子长度大于400个核苷酸的任何序列来富集扩增的短DNA片段序列。

在一个实施例中，本文提供了分析DNA样品中单核苷酸多态性(SNP)的方法，该方法包括：(a)将DNA样品与杂交捕获探针的混合物杂交，其中至少80％、至少85％、至少90％、至少95％或所有的杂交捕获探针独立地对应于基因组区域，该基因组区域具有群体次要等位基因频率大于25％的SNP，其中每个基因组区域：(1)在基因组中出现不超过10次；(2)具有介于约0.25与约0.75之间的GC含量；以及(3)不含有任何长度超过4个核苷酸的单个碱基串，从而生成捕获探针结合的DNA；(b)分离杂交捕获探针结合的DNA；(c)将通用衔接子寡核苷酸连接到杂交捕获探针结合的DNA的每个末端；(d)使用与衔接子序列杂交的引物扩增杂交捕获探针结合的DNA，从而生成扩增的DNA；以及(e)对扩增的DNA进行测序。

在一些方面，每个基因组区域包含围绕SNP的80个核苷酸。在一些方面，靶向SNP的40个核苷酸内的每个基因组区域在基因组中是唯一的或在基因组中具有小于10个的拷贝数。可以使用诸如例如来自NCBI的基本局部比对搜索工具(Basic Local AlignmentSearch Tool，BLAST)的工具来评估唯一性和拷贝数。在一些方面，该方法分析了介于约500个与约1,000,000个之间的SNP，诸如例如，至少500、600、700、800、900、1,000、1,500、2,000、2,500、3,000、3,500、4,000、4,500、5,000、6,000、7,000、8,000、9,000、10,000、15,000、20,000、25,000、30,000、35,000、40,000、45,000、50,000、60,000、70,000、80,000、90,000、100,000、150,000、200,000、250,000、300,000、350,000、400,000、450,000、500,000、600,000、700,000、800,000、或900,000以及至多600、700、800、900、1,000、1,500、2,000、2,500、3,000、3,500、4,000、4,500、5,000、6,000、7,000、8,000、9,000、10,000、15,000、20,000、25,000、30,000、35,000、40,000、45,000、50,000、60,000、70,000、80,000、90,000、100,000、150,000、200,000、250,000、300,000、350,000、400,000、450,000、500,000、550,000、600,000、650,000、700,000、750,000、800,000、850,000、900,000、950,000或1,000,000，或其中可推导出的任何范围。在一些方面，杂交捕获探针是生物素化的。在一些方面，杂交捕获探针与生物素化的寡核苷酸杂交。

在一些方面，DNA样品包含无细胞DNA(cfDNA)。在某些方面，无细胞DNA是从全血中分离的。在某些方面，cfDNA在步骤(a)之前被扩增。在一些方面，在步骤(a)之前扩增DNA样品，从而生成扩增的双链DNA样品。在某些方面，根据本实施例中任一项所述的方法来扩增DNA样品。

在某些方面，在步骤(a)之前将扩增的双链DNA样品变性，从而生成扩增的单链DNA样品。在某些方面，扩增的双链DNA样品通过在至少80℃(诸如例如，80、85、90、95或100℃)的温度下加热扩增的双链DNA样品至少2分钟(诸如例如，2、3、4、5、6、7、8、9、10、11、12、13、14或15分钟)而变性。在某些方面，扩增的双链DNA样品通过化学变性而变性。在某些方面，化学变性包括将扩增的双链DNA样品与氢氧化钠一起温育。在某些方面，扩增的双链DNA样品通过酶促变性而变性。

在一些方面，步骤(d)中的测序是下一代测序。在某些方面，下一代测序是双末端测序。在某些方面，下一代测序是单读测序。

在一些方面，步骤(b)中的分离包括杂交捕获探针结合的DNA的固相捕获。在某些方面，杂交捕获探针结合的DNA的固相捕获包含将杂交捕获探针结合的DNA与链霉亲和素包被的珠粒一起温育。在某些方面，步骤(b)中的分离进一步包括将杂交捕获探针结合的DNA进行分离、洗涤和释放。在某些方面，分离包括磁性分离或离心。在某些方面，释放包括在至少80℃(诸如例如，80、85、90、95或100℃)将所捕获的杂交捕获探针结合的DNA加热至少2分钟(诸如例如，2、3、4、5、6、7、8、9、10、11、12、13、14或15分钟)。在某些方面，杂交捕获探针进一步包含酶识别部分。在某些方面，酶识别部分是可裂解的碱基，诸如例如脱氧尿苷。在某些方面，释放包括对酶识别部分执行酶促切割。在某些方面，释放包括将捕获的杂交捕获探针结合的DNA与USER酶一起温育。

在一个实施例中，本文提供了包含杂交捕获探针的混合物的组合物，其中至少80％、至少85％、至少90％、至少95％或所有的杂交捕获探针独立地对应于基因组区域，该基因组区域具有大于25％的群体次要等位基因频率的SNP，其中每个基因组区域：(1)在基因组中出现不超过10次；(2)具有介于约0.25与约0.75之间的GC含量；以及(3)不含有任何长度超过4个核苷酸的单个碱基串。在一些方面，每个基因组区域包含围绕SNP的80个核苷酸。在一些方面，靶向SNP的40个核苷酸内的每个基因组区域在基因组中是唯一的或在基因组中具有小于10个的拷贝数。可以使用诸如例如来自NCBI的基本局部比对搜索工具(BasicLocal Alignment Search Tool，BLAST)的工具来评估唯一性和拷贝数。在一些方面，混合物包含介于约500个与约1,000,000个之间的杂交捕获探针，诸如例如，至少500、600、700、800、900、1,000、1,500、2,000、2,500、3,000、3,500、4,000、4,500、5,000、6,000、7,000、8,000、9,000、10,000、15,000、20,000、25,000、30,000、35,000、40,000、45,000、50,000、60,000、70,000、80,000、90,000、100,000、150,000、200,000、250,000、300,000、350,000、400,000、450,000、500,000、600,000、700,000、800,000、或900,000以及至多600、700、800、900、1,000、1,500、2,000、2,500、3,000、3,500、4,000、4,500、5,000、6,000、7,000、8,000、9,000、10,000、15,000、20,000、25,000、30,000、35,000、40,000、45,000、50,000、60,000、70,000、80,000、90,000、100,000、150,000、200,000、250,000、300,000、350,000、400,000、450,000、500,000、550,000、600,000、650,000、700,000、750,000、800,000、850,000、900,000、950,000或1,000,000，或其中可推导出的任何范围。在一些方面，杂交捕获探针是生物素化的。在一些方面，杂交捕获探针与生物素化的寡核苷酸杂交。

在一个实施例中，本文提供了确定含有小于约4ng(诸如例如，小于约1、2、3、4、5、6、7、8、9或10ng)cfDNA的样品中唯一cfDNA片段数量和/或校正来自扩增和测序的错误的方法，该方法包括：(a)扩增cfDNA片段；(b)使用双末端下一代测序对扩增的cfDNA片段进行测序；(c)将序列与参考基因组比对，并确定每个经测序的cfDNA片段的起始位置和结束位置；(d)通过它们比对的基因组基因座将序列分开，并基于具有相同起始位置和结束位置的所有测序读段的多数票决来调用片段序列；以及(e)从经测序的cfDNA片段当中对唯一的起始位置和结束位置的数量进行计数，从而确定对应于样品中每个不同基因型的每个目标基因组基因座的cfDNA片段数量。在一些方面，起始位置和结束位置是通过下一代测序双末端读段来确定。片段化位点可以由cfDNA中的前2-50个核苷酸和后2-50个核苷酸、相对于参考基因组的起点坐标和终点坐标、或相对于SNP的开始位置和结束位置的相对位置表示。cfDNA的前2-50个核苷酸可以是正向读段中的前2-50个核苷酸，而cfDNA的后2-50个核苷酸可以是反向读段中的前2-50个核苷酸。在一些方面，简并序列通过连接过程引入并与片段化位点组合用作唯一的分子标识符。

在一个实施例中，本文提供了确定含有超过4ng cfDNA(诸如例如，超过约1、2、3、4、5、6、7、8、9或10ng)的样品中唯一cfDNA片段数量和/或校正来自扩增和测序的错误的方法，该方法包括：(a)将衔接子核酸连接到每个cfDNA片段的每个末端，其中衔接子核酸包含简并序列；(b)扩增衔接子连接的cfDNA片段；(c)使用双末端下一代测序对扩增的cfDNA片段进行测序；(d)将序列与参考基因组比对，并确定每个经测序的cfDNA片段的组合起始位置和结束位置以及简并序列；(e)通过它们比对的基因组基因座将序列分开，并基于具有相同组合起始位置和结束位置以及简并序列的所有测序读段的多数票决来调用片段序列；以及(f)从经测序的cfDNA片段当中对唯一的组合起始位置和结束位置以及简并序列的数量进行计数，从而确定对应于样品中每个不同基因型的每个目标基因组基因座的cfDNA片段数量。在一些方面，起始位置和结束位置是通过下一代测序双末端读段来确定。片段化位点可以由cfDNA中的前2-50个核苷酸和后2-50个核苷酸、相对于参考基因组的起点坐标和终点坐标、或相对于SNP的开始位置和结束位置的相对位置表示。cfDNA的前2-50个核苷酸可以是正向读段中的前2-50个核苷酸，而cfDNA的后2-50个核苷酸可以是反向读段中的前2-50个核苷酸。

在一个实施例中，本文提供了通过SNP谱分析监测器官移植排斥的方法，该方法包括：(a)从获自器官移植受体的DNA样品中提取无细胞DNA和基因组DNA；(b)使用根据本实施例中任一项所述的方法选择性扩增无细胞DNA的短片段；(c)使用根据本实施例中任一项所述的方法获得扩增的无细胞DNA中至少500个单核苷酸多态性(SNP)的序列读段；以及(d)对器官移植供体来源的无细胞DNA相对于器官受体DNA的分数进行定量。

在一些方面，无细胞DNA和基因组DNA是从全血中提取的。在一些方面，无细胞DNA和基因组DNA是从少量的全血中提取的。无细胞DNA和基因组DNA不必但可以从血浆中分离。在一些方面，步骤(a)中的提取进一步包括血浆分离。在一些方面，全血是静脉血。在一些方面，全血获自指尖。在一些方面，无细胞DNA和基因组DNA是从口腔拭子中提取的。在一些方面，步骤(c)包括同时分析介于500个与约1,000,000个之间的SNP，诸如例如，至少500、600、700、800、900、1,000、1,500、2,000、2,500、3,000、3,500、4,000、4,500、5,000、6,000、7,000、8,000、9,000、10,000、15,000、20,000、25,000、30,000、35,000、40,000、45,000、50,000、60,000、70,000、80,000、90,000、100,000、150,000、200,000、250,000、300,000、350,000、400,000、450,000、500,000、600,000、700,000、800,000、或900,000以及至多600、700、800、900、1,000、1,500、2,000、2,500、3,000、3,500、4,000、4,500、5,000、6,000、7,000、8,000、9,000、10,000、15,000、20,000、25,000、30,000、35,000、40,000、45,000、50,000、60,000、70,000、80,000、90,000、100,000、150,000、200,000、250,000、300,000、350,000、400,000、450,000、500,000、550,000、600,000、650,000、700,000、750,000、800,000、850,000、900,000、950,000或1,000,000，或其中可推导出的任何范围。

在一些方面，步骤(d)包括：(1)去除包含未经确定的碱基的测序读段；以及(2)确定每个SNP的唯一测序读段的数量。在某些方面，确定每个SNP的唯一测序读段的数量包括：执行根据本实施例中任一项关于使用片段化位点作为唯一分子标识符所述的方法。如果UMI的数量小于基于输入DNA量设置的阈值，则可以使用UMI用于定量。如果UMI的数量大于阈值，则可以使用NGS读段数用于定量。

如果已知供体遗传信息，则可以丢弃供体和受体之间具有相同基因型的SNP。受体中的杂合SNP也可被丢弃。如果供体基因型未知，则具有“On-Recipient_ID％”大于一个阈值但小于另一个阈值的所有SNP都可用作可区分的SNP，其中“Recipient_ID”被定义为对特定SNP基因座具有最高数量的UMI或NGS读段的主要SNP基因型。“On-Recipient_ID％”被定义为：

反映跨所有可区分SNP的供体来源的cfDNA分数的累积供体评分可如下计算：

在一些方面，至少500个SNP由器官移植受体纯合的SNP组成。在某些方面，至少500个SNP由器官移植受体和器官供体不相同的SNP组成。

在一些方面，如果对应于器官移植供体的DNA的无细胞DNA的短片段的分数高于正常范围或随时间增加，则器官移植受体被认为是排斥移植的器官。

如本文中所使用的，就特定组分而言，“基本上不含”在本文中被用于表示未将任何特定组分故意配制成组合物和/或仅作为污染物或微量存在。因此，由组合物的任何意外污染而产生的特定组分的总量远低于0.05％，优选低于0.01％。最优选的是使用标准分析方法无法检测特定组分的组合物。

如本说明书所使用的，“a”或“an”可指一个或多个。如在一个或多个权利要求中所使用的，当与“包含”一词一起使用时，“a”或“an”可指一个或多个。

尽管本公开支持仅提及替代品和“和/或”的定义，在权利要求书中使用的术语“或”是指“和/或”，除非明确指出仅提及替代品或替代品相互排斥。如本文中所使用的“另一个”可表示至少第二个或更多。

在整个本申请中，术语“约”用于表示值包括用于确定该值的装置、方法的固有误差变化、研究受试者当中存在的变化或在规定值的10％以内的值。

通过下面详细的描述，本发明的其他目的、特点和优点将会变得显而易见。然而应当理解，这些详细说明和特定的实施例在指示本发明的优选实施方案时，只是用于示范，因为根据此详细说明，在本发明的精神和范围内的各种变化和改进对于本领域技术人员将显而易见。

附图说明

以下附图构成本说明书的一部分并被包括，以进一步说明本发明的某些方面。通过参考一个或多个附图，并结合此处给出的具体实施方式的描述，可以更好地理解本发明。

图1。通过对来自少量血液中的SNP进行谱分析来监测器官移植排斥。

图2A-B。使用来自少量血液的cfDNA的片段化位点作为唯一的分子标识符。图2A。当cfDNA分子数低时，相对于参考基因组，每个原始cfDNA分子的cfDNA的起始坐标和结束坐标是不同的。图2B。具有相同片段化位点的NGS读段假定源自相同的原始分子。读段家族允许对原始分子数量进行准确定量，并从PCR扩增中去除有错误的读段。

图3A-C、图3A。使用从含有长DNA片段的DNA混合物中的通用引物来选择性扩增所有短DNA的方案。图3B。琼脂糖凝胶显示从指尖毛细血管血中提取的总DNA大部分是长基因组DNA。收集指尖毛细血管血并使用QIAamp DNA Blood Mini Kit提取全血总DNA。DNA被末端修复、dA加尾并与NEBNext衔接子连接并进行分析。图3C。生物分析仪跟踪显示cfDNA从总DNA中扩增，而长gDNA在PCR期间未扩增。使用QIAamp DNA Blood Mini Kit从15μL指尖毛细血管血中提取总DNA。根据NEBNext UltraII方案，对总DNA进行末端修复并与Illumina的NEBNext衔接子连接。连接产物用Phusion聚合酶和Illumina索引引物i5和i7进行扩增。

图4。用于SNP谱分析的专用的杂交捕获探针组的设计考虑。

图5A-D。靶向SNP周围上下文基因组区域唯一性的重要性。图5A。第一组中被NGS读段覆盖的SNP的比例，没有BLAST检查。基于人类基因组中上下文序列的拷贝数划分SNP。第一组中约20％的探针对应于人类基因组中其拷贝数超过一个的基因组区域。图5B。组一的NGS覆盖均匀性较差。约51％的SNP未被覆盖。图5C。显著改善了组二的覆盖均匀性，其中每个SNP的上下文序列的唯一性通过BLAST进行检查。图5D。SNP覆盖分析的洛伦兹曲线(Lorenz curve)证实了组2的覆盖均匀性得到改善。将观察到的UMI数量的累积分数相对于SNP的累积分数作图。线1表示跨所有SNP的假设性均等分布。线2对应于第二SNP组，以及线3对应于第一SNP组。与线2相比，线3进一步偏离了完全相等。线1、线2和线3的基尼系数分别为0、0.51和0.98。

图6A-B。器官移植排斥监测所需的SNP数量。图6A。需要对5556个SNP进行分析，以鉴定50μL指尖血液中0.1％供体来源的cfDNA的存在。图6B。假设cfDNA浓度恒定，SNP数量取决于输入血量。

图7。通过专用的杂交捕获探针组进行SNP谱分析的示例性工作流程。在末端修复、衔接子连接和PCR扩增后，将双链DNA与生物素化专用的杂交捕获探针和阻断剂混合。于95℃温育混合物10分钟使双链DNA变性，然后进行(65℃1hr→47℃1hr)x7，并且47℃2hr进行杂交。将链霉亲和素包被的磁珠加入到混合物中，并在65℃温育45分钟。将珠粒洗涤去除未结合的DNA后，结合的DNA分子通过涉及USER酶处理和95℃加热的双重释放机制来释放。经由PCR将样品索引添加到释放的DNA中，并通过NGS对产物进行测序。

图8。用于对供体来源的cfDNA分数进行定量的工作流程。

图9。推断外源分子百分比的生物信息学工作流程。定量不需要供体的基因型。只需要受体的基因型。归一化因子k设置为2，假设所有SNP的群体VAF约为0.5，并假设供体和受体完全不相关。

图10。推断的外源分子百分比相对于剪切的NA18562进入剪切的NA18537的掺入量呈线性关系。

图11。健康人和非排斥患者中外源分子百分比的箱线图。

具体实施方式

本文提供了经由SNP谱分析对供体来源DNA的分数进行定量来监测器官移植排斥状态的方法。这些方法允许从包括指尖样品的少量血液中进行非侵入性器官移植排斥监测。这些方法包括使用来自少量血液的cfDNA的片段化位点作为唯一的分子标识符，使用来自含有基因组DNA的DNA混合物的通用引物选择性扩增短cfDNA，使用专用的杂交捕获探针组通过NGS对介于500与1,000,000个之间的靶向SNP进行谱分析，以及对供体来源的cfDNA分数进行定量的算法。

I.定义

如本文所用，“扩增”是指用于增加一个或多个核苷酸序列的拷贝数的任何体外方法。核酸扩增导致核苷酸掺入DNA或RNA。如本文所用，一个扩增反应可以由多轮DNA复制组成。例如，一个PCR反应可以包含30个至100个变性和复制“循环”。

“聚合酶链式反应”或“PCR”是指通过DNA的互补链的同时引物延伸在体外扩增特定DNA序列的反应。换句话说，PCR是制备侧接引物结合位点的靶核酸多拷贝或复制的反应，这种反应包括以下步骤的一个或多个重复：(i)使靶核酸变性，(ii)将引物退火至引物结合位点，和(iii)在三磷酸核苷存在下通过核酸聚合酶延伸引物。通常，反应在热循环仪器中通过每个步骤优化的不同温度循环。特定的温度、每个步骤的持续时间，以及步骤之间的变化率取决于本领域普通技术人员众所周知的许多因素，例如以参考文献为例：McPherson等人，编辑，PCR：A Practical Approach and PCR2：A Practical Approach(IRL Press，Oxford，1991and 1995，respectively)。

“引物”指天然或合成的寡核苷酸，当与某一多核苷酸模板形成一个双链体后，即能作为核酸合成的一个起始点并且从其3′末端沿着模板延伸，从而形成一个延伸的双链体。延伸过程中所添加的核苷酸序列取决于模板多核苷酸的序列。通常，引物通过DNA聚合酶延伸。引物的长度通常与其在引物延伸产物的合成中的使用相容，并且长度通常在介于8个至100个核苷酸之间的范围，例如长度在介于10个至75个、15个至60个、15个至40个、18个至30个、20个至40个、21个至50个、22个至45个、25个至40个等，更通常在18个至40个、20个至35个、21个至30个核苷酸之间的范围，以及在所述范围之间的任何长度。通常的引物的长度可以在介于10个至50个核苷酸之间的范围，例如15个至45个、18个至40个、20个至30个、21个至25个等，以及介于所述范围之间的任何长度。在一些实施例中，引物的长度通常不超过约10个、12个、15个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个、30个、35个、40个、45个、50个、55个、60个、65个、70个、75个、80个、85个、90个、95个或100个核苷酸。

如本文所用，“掺入”是指成为核酸聚合物的一部分。

如本文所用，术语“在不存在外源操作的情况下”是指在不改变核酸分子被修饰的溶液的情况下对核酸分子进行修饰。在具体实施例中，它在缺乏人手或在缺乏改变溶液条件的机器的情况下发生，这也可以称为缓冲条件。然而，在修饰过程中可发生温度变化。

“核苷”是碱基糖的组合，即缺少磷酸的核苷酸。在本领域中所公认的是，在使用术语核苷和核苷酸方面存在一定的互换性。例如，核苷酸脱氧尿苷三磷酸，即dUTP，是脱氧核糖核苷三磷酸。掺入DNA后，它作为DNA单体，形式上是脱氧尿苷酸，即dUMP或单磷酸脱氧尿苷。可以说，即使所得的DNA中没有dUTP部分，也可以将dUTP掺入DNA中。类似地，可以说，即使只是底物分子的一部分，也可以将脱氧尿苷掺入DNA中。

如本文所用，“核苷酸”是本领域的术语，是指碱糖磷酸的组合。核苷酸是核酸聚合物，即DNA和RNA的单体单元。该术语包括核糖核苷酸三磷酸，例如rATP、rCTP、rGTP或rUTP，和脱氧核糖核苷酸三磷酸，例如dATP、dCTP、dUTP、dGTP或dTTP。

术语“核酸”或“多核苷酸”通常是指DNA、RNA、DNA-RNA嵌合体或其衍生物或类似物的至少一个分子或链，所述至少一个分子或链包含至少一个核碱基，诸如例如DNA中发现的天然存在的嘌呤或嘧啶碱基(例如，腺嘌呤“A”、鸟嘌呤“G”、胸腺嘧啶“T”和胞嘧啶“C”)或RNA中发现的天然存在的嘌呤或嘧啶碱基(例如A、G、尿嘧啶“U”和C)。术语“核酸”涵盖术语“寡核苷酸”和“多核苷酸”。如本文所用，“寡核苷酸”统一和可互换地指两个本领域术语，“寡核苷酸”和“多核苷酸”。值得注意，尽管寡核苷酸和多核苷酸是不同的本领域术语，但它们之间没有确切的分界线，且它们在本文中可互换使用。术语“衔接子”也可以与术语“寡核苷酸”和“多核苷酸”互换使用。此外，术语“衔接子”可表示线性衔接子(单链或双链)或茎环衔接子。这些定义通常是指至少一个单链分子，但是在特定的实施例中，还将涵盖与该至少一个单链分子部分地、基本上或完全互补的至少一条附加链。因此，核酸可涵盖至少一个双链分子或至少一个三链分子，该至少一个双链分子或至少一个三链分子包含构成该分子的链的特定序列的一条或多条互补链或“补体”。如本文所用，单链核酸可以用前缀“ss”表示，双链核酸用前缀“ds”表示，三链核酸用前缀“ts”表示。

“核酸分子”或“核酸靶分子”是指任何单链或双链核酸分子，包括标准典型碱基、超修饰碱基、非天然碱基或其碱基的任何组合。例如但不限于，核酸分子含有四种典型DNA碱基——腺嘌呤、胞嘧啶、鸟嘌呤和胸腺嘧啶，和/或四种典型RNA碱基——腺嘌呤、胞嘧啶、鸟嘌呤和尿嘧啶。当核苷含有2′-脱氧核糖基团时，尿嘧啶可被替代为胸腺嘧啶。核酸分子可从RNA转化为DNA，也可以从DNA转化为RNA。例如，但不限于，可使用逆转录酶将mRNA生成为互补DNA(cDNA)，并且可使用RNA聚合酶将DNA生成为RNA。核酸分子可以是生物来源或合成来源的。核酸分子的实例包括基因组DNA、cDNA、RNA、DNA/RNA杂交体、扩增的DNA、预先存在的核酸文库等。核酸可以从人类样品中获得，诸如血液、血清、血浆、脑脊液、脸颊刮屑、活检、精液、尿液、粪便、唾液、汗液等。核酸分子可以进行各种处理，诸如修复处理和片段化处理。片段化处理包括机械、声波和流体动力学剪切。修复处理包括经由延伸和/或连接、抛光以产生平末端、去除受损碱基(诸如脱氨基的、衍生的、脱碱基的或交联的核苷酸等)的缺口修复。目标核酸分子也可进行化学修饰(例如，亚硫酸氢盐转化、甲基化/去甲基化)、延伸、扩增(例如，PCR、等温等)等。

“互补的”核酸或“补体”是能够根据标准的Watson-Crick、Hoogsteen或反向Hoogsteen结合互补规则进行碱基配对的核酸。如本文所用，术语“互补的”或“补体”可以指基本上互补的核酸，如可以通过上述相同的核苷酸比较所评估的。术语“基本上互补的”可以指包含至少一个序列的连续核碱基或半连续核碱基(如果分子中不存在一个或多个核碱基部分)的核酸能够与至少一条核酸链或双链体杂交，即使少于所有不与对应的核碱基进行碱基配对的核碱基。在某些实施例中，“基本上互补的”核酸含有至少一个序列，其中约70％、约71％、约72％、约73％、约74％、约75％、约76％、约77％、约77％、约78％、约79％、约80％、约81％、约82％、约83％、约84％、约85％、约86％、约87％、约88％、约89％、约90％、约91％、约92％、约93％、约94％、约95％、约96％、约97％、约98％、约99％、约100％以及其中的任何范围的核碱基序列能够在杂交期间与至少一个单链或双链核酸分子进行碱基配对。在某些实施例中，术语“基本上互补的”是指可以在严格条件下与至少一个核酸链或双链体杂交的至少一个核酸。在某些实施例中，“部分地互补的”核酸包含可以在低严格条件下与至少一个单链或双链核酸杂交的至少一个序列，或包含至少一个序列，其中少于约70％的核碱基序列能够在杂交期间与至少一个单链或双链核酸分子进行碱基配对。

术语“非互补的”是指缺乏通过特异性氢键形成至少一个Watson-Crick碱基对的能力的核酸序列。

如本文所用，术语“平末端”是指具有5′和3′末端的dsDNA分子的末端，其中5′和3′末端终止于相同的核苷酸位置。因此，平端不包含5′或3′突出端。

如本文所用，“可裂解碱基”是指通常在DNA序列中未发现的核苷酸。对于大多数DNA样品，脱氧尿苷是可裂解碱基的实例。尽管脱氧尿苷的三磷酸形式dUTP作为代谢中间体存在于生物体中，但它很少整合到DNA中。当dUTP整合到DNA时，所得脱氧尿苷通过正常过程在体内迅速被去除，例如，涉及酶尿嘧啶-DNA糖基化酶(UDG)的过程(美国专利号4,873,192；Duncan，1981；两篇参考文献以引用方式整体并入本文中)。因此，脱氧尿苷很少或从不存在于天然DNA中。还考虑了被称为USER^TM酶和USER^TM酶2的切割剂，该USER^TM酶在脱氧尿苷处特异性地切割靶分子，该USER^TM酶2在脱氧尿苷和8-氧代鸟嘌呤两者处(两者均在缺口位置留下了5′磷酸)特异性地切割靶分子(参见美国专利No.7,435,572)。USER^TM酶是尿嘧啶-DNA糖基化酶(UDG)和DNA糖基化酶-裂解酶内切核酸酶VIII的混合物。UDG催化尿嘧啶碱基的切除，形成无碱基(无嘧啶)位点，同时保持磷酸二酯骨架完整。内切核酸酶VIII的裂解酶活性破坏无碱基位点3′和5′侧的磷酸二酯骨架，从而释放无碱基脱氧核糖。其他可裂解碱基的非限制性实例包括脱氧肌苷、溴脱氧尿苷、7-甲基鸟嘌呤、5，6-二氢-5，6二羟基脱氧胸苷、3-甲基脱氧腺苷等(参见，Duncan，1981)。其他可裂解碱基对本领域技术人员来说是显而易见的。

如本文所用，术语“简并”是指一个核苷酸或一系列核苷酸，其中同一性可选自多种核苷酸选择，而不是确定的序列。在具体的实施例中，可选择两种或更多种不同的核苷酸。在进一步的具体实施例中，在一个特定位置处的核苷酸的选择包括选自仅嘌呤、仅嘧啶或选自非配对的嘌呤和嘧啶。

如本文所用，术语“连接酶”是指能够将一个核酸分子的3′羟基末端连接到第二个核酸分子的5′磷酸末端以形成单个分子的酶。连接酶可以是DNA连接酶或RNA连接酶。DNA连接酶的实例包括大肠杆菌DNA连接酶、T4 DNA连接酶和哺乳动物DNA连接酶。

“样品”是指从新鲜或保存的生物学样品或含有目标核酸的合成产生的来源中获得或分离的材料。样品可包括至少一种细胞、胎儿细胞、细胞培养物、组织标本、血液、血清、血浆、唾液、尿液、眼泪、口腔拭子、阴道分泌物、汗液、淋巴液、脑脊液、粘膜分泌物、腹膜液、腹水液体、粪便物、身体渗出液、脐带血、绒毛膜绒毛、羊水、胚胎组织、多细胞胚胎、裂解物、提取物、溶液或怀疑含有目标免疫核酸的反应混合物。样品还可包括非人类来源，诸如非人类灵长类动物、啮齿动物和其他哺乳动物、其他动物、植物、真菌、细菌和病毒。

如本文关于核苷酸序列所使用的，“基本上已知”是指具有足够的序列信息以允许制备核酸分子，包括其扩增。尽管在一些实施例中衔接子序列的某些部分是随机的或简并的，但这通常约为100％。因此，在特定实施例中，基本上已知是指约50％至约100％、约60％至约100％、约70％至约100％、约80％至约100％、约90％至约100％、约95％至约100％、约97％至约100％、约98％至约100％或约99％至约100％。

II.核酸衔接子

在一些实施例中，本公开提供了形成双链衔接子的合成寡核苷酸以用于核酸文库的生成。形成双链衔接子的合成寡核苷酸的长度可为20至100个核苷酸，特别是50至80个核苷酸，诸如介于60与70个之间的核苷酸。每个双链衔接子都有正义链和反义链。正义链的3′末端和反义链的5′末端可形成平末端或交错末端。在特定方面，双链区域具有平末端。

双链核酸衔接子进一步包含至少一个具有已知序列的引物结合位点。例如，衔接子可包含流动细胞结合序列，诸如P5和/或P7，或其片段。进一步地，衔接子可包含部分或全部的测序引物序列或其结合位点，诸如用于特定测序平台的索引测序引物(例如，Illumina索引引物)。

III.唯一分子标识符(UMI)序列

本文使用的术语“唯一分子标识符”(或“UMI”)是指唯一的核苷酸序列，所述核苷酸序列用于区分单个细胞或基因组或细胞或基因组的亚群，并用于区分由扩增产生的重复序列在扩增之前或扩增期间通过连接将UMI连接到目标的靶核酸的那些重复序列(例如，逆转录或PCR)，并用于将扩增子追溯到基因组、细胞或靶核酸来源的核酸片段。通过将衔接子中包括待连接到靶标的序列，可将UMI添加到靶核酸。也可在扩增过程中通过使用含有包含条形码序列的区域和与靶核酸互补的区域的引物进行逆转录，将UMI添加到目标的靶核酸中，从而将条形码序列并入到最终扩增的靶核酸产物(即扩增子)。UMI也可是存在于靶核酸本身中的特征，诸如片段化核酸的片段化位点，例如无细胞核酸。片段化位点可通过片段每个末端的序列或通过末端相对于位于片段内的具体特征(诸如SNP)的位置来鉴定。UMI可以是长度足以将UMI与其他UMI区分开的任意数量的核苷酸。例如，UMI的长度可以是4到20个核苷酸之间任何一个，诸如5到11，或12到20。术语“分子标识符序列”、“MIS”、“唯一分子标识符”、“UMI”、“分子条形码”、“分子标签序列”和“条形码”在本文中可互换使用。

本技术包括核酸分子的条形码。条形码，也称为标签、索引序列或标识符代码，包括为了鉴定目的而并入核酸分子中的特定序列。例如，合成核酸分子可通过连接和/或引物延伸与基因组DNA(gDNA)和/或无细胞DNA(cfDNA)连接。核酸分子可具有多个条形码，诸如连续或串联条形码。串联条形码的实例包括通过连接事件(例如，连接至合成衔接子)与DNA分子的至少一个末端偶联的第一条形码，随后是通过引物延伸(例如，PCR)与DNA偶联的第二条形码，其中第一条形码靠近DNA分子(更靠近插入片段)，而第二条形码远离DNA(远离插入片段)。串联条形码的另一个实例包括第一个条形码，它是DNA分子的片段化位点，以及第二个条形码，它通过连接事件(例如连接到合成衔接子)通过引物延伸(例如PCR)与DNA偶联。使用衔接子连接和引物延伸、模板延伸或PCR来添加额外序列的方法在例如美国专利7,803,550中描述，其通过引用整体并入本文。这些方法可用于本发明的实施例中以向核酸分子添加第一和/或第二条形码。

条形码可用于鉴定核酸分子，例如，其中测序可揭示与目标核酸分子偶联的某些条形码。在一些情况下，序列特异性事件可用于鉴定核酸分子，其中条形码的至少一部分在序列特异性事件中被识别，例如条形码的至少一部分可参与连接反应或延伸反应。因此，条形码可允许对与其偶联的DNA分子进行鉴定、选择或扩增。

例如，基因组和/或无细胞DNA的片段可连接到具有第一条形码集的衔接子上。然后可使用具有第二条形码集的引物对连接的衔接子和具有第一条形码集的DNA片段进行引物延伸反应、模板延伸反应或PCR。所得核酸分子各自具有来自第一条形码集的一个条形码，该条形码在核酸分子的至少一端与来自第二条形码集的一个条形码相邻。条形码的确切数量可基于特定应用确定；例如，在一些实施例中，第二条形码可以使用六个碱基来生成例如16个额外的条形码。尽管如此，根据应用和/或测序方法，1、2、3、4、5、6、7、8、9、10、11、12、13、14、15或16个或更多个碱基可用于生成第二个条形码。在一些实施例中，至少2个、至少3个或3-16个碱基可用于生成第二条形码。

条形码描述于例如美国专利7,902,122和美国专利Publn.2009/0098555中。使用衔接子连接和引物延伸或PCR来添加额外序列的方法描述于例如美国专利7,803,550中，其通过整体引用并入本文。通过引物延伸的条形码掺入，例如经由PCR，可以使用描述于美国专利5,935,793和美国专利Publn.2010/0227329中的方法来执行。在一些实施例中，可以经由使用连接将条形码掺入到核酸中，其然后可进行扩增；例如，描述于美国专利5,858,656、美国专利6,261,782、美国专利Publn.2011/0319290或美国专利Publn.2012/0028814中的方法可以与本发明一起使用。在一些实施例中，可以使用一个或多个条形码，例如，如美国专利Publn.2007/0020640、美国专利Publn.2009/0068645、美国专利Publn.2010/0273219、美国专利Publn.2011/0015096或美国专利Publn.201I/0257031中所述。

Ⅳ.靶核酸的进一步加工

A.DNA片段化后的修复

目标核酸分子可为单个核酸分子或多个核酸分子。此外，目标核酸分子可以是生物来源或合成来源的。核酸分子的实例包括基因组DNA、cDNA、无细胞DNA、RNA、扩增的DNA、预先存在的核酸文库等。

可以对目标核酸分子进行各种处理，诸如修复处理和片段化处理。片段化处理包括机械、声波、化学、酶促、随时间降解等。修复处理包括经由延伸和/或连接、抛光以产生平末端、去除受损碱基(诸如脱氨基的、衍生的、脱碱基的或交联的核苷酸等)的缺口修复。目标核酸分子也可进行化学修饰(例如，亚硫酸氢盐转化、甲基化/去甲基化)、延伸、扩增(例如，PCR、等温等)等。

用于NGS的核酸分析前处理需要通过机械或酶促剪切使核酸片段化，然后连接特定于所选分析平台的衔接子。一些临床样品，诸如人血浆和血清，含有已经高度降解的无细胞DNA。无论是人工片段化还是自然片段化，核酸(例如dsDNA)末端都存在显著损伤，这必须通过酶促修复才能进行连接。有连接能力的核酸末端被定义为完整的平末端双链DNA末端，它在5′末端含有磷酸以及在3′末端含有游离羟基。

根据本发明分析(或处理)的核酸样品中的核酸可来自任何核酸来源。因此，核酸样品中的核酸实际上可来自任何核酸来源，包括但不限于基因组DNA、互补DNA(cDNA)、RNA(例如，信使RNA、核糖体RNA、短干扰RNA、微小RNA等)、质粒DNA、线粒体DNA等。此外，由于任何生物体都可以用作根据本发明进行处理的核酸的来源，因此在这方面没有限制。示例性生物体包括但不限于植物、动物(例如爬行动物、哺乳动物、昆虫、蠕虫、鱼等)、细菌、真菌(例如酵母)、病毒等。在某些实施例中，核酸样品中的核酸源自哺乳动物，其中在某些实施例中哺乳动物是人。目标核酸分子可为单个核酸分子或多个核酸分子。此外，目标核酸分子可以是生物来源或合成来源的。核酸分子的实例包括基因组DNA、cDNA、无细胞DNA(cfDNA)、RNA、扩增的DNA、预先存在的核酸文库等。在一些方面，靶核酸是双链DNA分子，诸如例如，人类基因组DNA。

在DNA片段化(例如，来自血液和/或尿液的无细胞DNA(cfDNA))的情况下，反应不需要片段化。特别地，分离的cfDNA可以包含片段(例如，约50至200bp，特别是约167bp的长度)并且在文库制备之前不需要片段化步骤。

在一些方面，多个核酸分子包含核酸片段，诸如经历片段化的gDNA。在一些方面，剪切力可以是流体动力学剪切力，诸如通过声学或机械方式生成的那些剪切力。核酸的流体动力学剪切可通过本领域已知的任何方法发生，包括使核酸通过狭窄的毛细管或孔口，称为“点汇”剪切(Oefner等人，1996年；Thorstenson等人，1998年：Quail，2010)、声学剪切或超声处理。商业可获得的聚焦超声仪与miniTUBE或microTUBE(Covaris，Woburn，MA；美国专利号8,459,121；8,353,619；8,263,005；7,981,368；7,757,561)结合，可分别在集中介于2-5kb与0.1-1.5kb之间的分布来对DNA随机片段化。超声处理使核酸受到流体动力学剪切力(Grokhovsky，2006年；Sambrook等人，2006年)。例如，商业可获得的Bioruptor(Diagenode；Denville，NJ；美国专利Publn.号2012/0264228)使用超声处理来剪切核酸。

在某些方面，核酸片段，诸如短DNA片段，可具有约50bp、约100bp、约150bp、约200bp、约250bp、约300bp、约350bp、约400bp、约500bp、约1000bp或约2000bp的大小。在某些方面，核酸片段，诸如短DNA片段，可具有约50bp、约100bp、约150bp、约200bp、约250bp、约300bp、约350bp、约400bp、约500bp、约1000bp或约2000bp的平均大小。核酸可以是例如RNA或DNA。也可以使用修饰形式的RNA或DNA。

在某些实施例中，根据本发明的方面处理的核酸片段将与源自多种来源(例如，多个生物体、组织、细胞或受试者)的核酸片段合并，其中“多个”是指两个或更多个。

RNA分子可获自样品，诸如包含总细胞RNA、转录组或两者的样品；样品可获自一种或多种病毒；获自一种或多种细菌；或获自例如动物细胞、细菌和/或病毒的混合物。样品可包含mRNA，诸如通过亲和捕获获得的mRNA。

获得的核酸分子可包括通过用逆转录酶(诸如例如Tth DNA聚合酶、HIV逆转录酶、AMV逆转录酶、MMLV逆转录酶或其混合物)逆转录mRNA分子来生成cDNA分子。

有两种主要类型的DNA末端损伤会导致DNA末端无法进行连接：末端不钝；以及在5′末端缺少磷酸和/或在3′末端具有磷酸的末端。

第一种类型的损伤可通过DNA聚合酶或3′外切核酸酶的协同作用修复，该DNA聚合酶在三磷酸脱氧核苷酸(dNTP)的存在下延伸凹陷末端，该3′外切核酸酶修剪突出的3′末端以产生平末端。这种类型的修复最常用的酶是T4Pol，它具有位于同一蛋白质上的DNA聚合酶和DNA 3′外切核酸酶两者活性。然而，使用T4Pol可导致过度修剪，从而产生一个或两个不能进行连接的碱基凹陷末端。Klenow具有与T4Pol相同的酶促活性，但3′外切核酸酶比其对应物弱得多。这一特性使其成为T4Pol的有用补充，可降低过度修剪的风险并使平末端反应更有效。

第二种类型的损伤可通过酶促活性修复，该酶促活性将磷酸盐转移到DNA的5′末端并从DNA的3′末端去除磷酸盐，诸如不受3′磷酸的存在抑制的3′磷酸酶和/或3′外切核酸酶，诸如例如PNK。PNK在可逆反应中将磷酸从脱氧核苷酸三磷酸转移到DNA的5′末端，该反应取决于dNTP的浓度，即高dNTP浓度使平衡向转移到DNA的方向移动，而高浓度的二磷酸刺激逆反应。PNK还具有内在的3′-磷酸酶活性，它可从DNA的3′末端去除磷酸，但这种活性通常不足以实现完全修复。

本领域技术人员将认识到，在靶核酸缺乏3′-OH和/或具有天然阻断的、不可延伸的3′末端(诸如例如，3′末端磷酸、2′，3′-环状磷酸、2′-O-甲基、碱基修饰、骨架糖或磷酸修饰等)的情况下，在进行这些方法之前通过酶促处理去除阻断基团，阻断的3′末端可被修复或裂解以暴露3′-OH。在一些方面，靶核酸分子的3′末端的修复可以通过聚合酶(例如，T4DNA聚合酶、Klenow片段)、激酶(例如，T4多核苷酸激酶)、磷酸酶(例如，碱性小牛肠磷酸酶)、3′外切核酸酶(例如外切核酸酶I、外切核酸酶III)和/或限制性内切核酸酶来执行。在该方法中，输入DNA可以同时进行片段化、修复以及连接到衔接子。这是通过将输入DNA与聚合酶(例如，T4DNA聚合酶、Klenow片段)、激酶(例如，T4多核苷酸激酶)、磷酸酶(例如，碱性小牛肠磷酸酶)、3′外切核酸酶(例如，外切核酸酶I、外切核酸酶III)、DNA连接酶和连接衔接子进行温育来实现的。在其他方面，这些反应也可依次执行，使得修复中的片段以及然后修复的片段与DNA连接酶和连接衔接子一起温育。

B.DNA的扩增

许多模板依赖过程可用于扩增给定模板样品中存在的核酸。最著名的扩增方法之一是聚合酶链反应(称为PCR^TM)，其详细描述于美国专利号4,683,195、4,683,202和4,800,159中以及描述于Innis et al.，1990中，其各自均通过引用整体并入本文。简而言之，在过量脱氧核苷酸(dNTP)和热稳定聚合酶，诸如例如Taq(Thermus Aquaticus)DNA聚合酶的存在下，将与待扩增的模板DNA的两个区域(每条链一个)互补的两个合成寡核苷酸引物添加到模板DNA(不需要是纯的)中。在一系列(通常30-35次)的温度循环中，靶DNA反复变性(约90℃)、对引物进行退火(通常在50-60℃)并从引物中延伸出子链(72℃)。当子链被创建时，它们在随后的循环中担当模板。因此，两个引物之间的模板区域呈指数扩增，而不是线性扩增。

C.DNA测序

还提供了用于连接衔接子的片段的文库测序的方法。本领域技术人员已知的用于测序核酸的任何技术都可以用于本公开的方法中。DNA测序技术包括经典的双脱氧测序反应(Sanger方法)，该反应使用标记的终止子或引物和在平板或毛细管中进行的凝胶分离；使用可逆终止的标记核苷酸进行边合成边测序；焦磷酸测序；454测序；与标记寡核苷酸文库探针的等位基因特异性杂交；使用与标记克隆文库进行等位基因特异性杂交的边合成边测序，然后进行连接；在聚合步骤中实时监测标记核苷酸的掺入；以及SOLiD测序。

可以使用与Illumina测序兼容的方法(例如Nextera^TM DNA样本制备试剂盒)来生成核酸文库，以及例如在Oyola等人(2012)中描述的用于生成Illumina下一代测序文库制备的其他方法。在其他实施例中，用与SOLiD^TM或Ion Torrent测序方法兼容的方法(例如，

Fragment文库构建试剂盒、

Mate-Paired文库构建试剂盒、

ChIP-Seq试剂盒、

Total RNA-Seq试剂盒、

SAGE^TM试剂盒、

RNA-Seq文库构建试剂盒等)生成核酸文库。例如在Pareek(2011)和Thudi(2012)中描述的用于下一代测序方法的其他方法，包括可以与本发明的实施例一起使用的用于文库构建的各种方法。

在特定方面，在本公开的方法中使用的测序技术包括来自Illumina，Inc.的HiSeq^TM系统(例如，HiSeq^TM 2000和HiSeq^TM 1000)、NextSeq^TM 500和MiSeq^TM系统。HiSeq^TM系统基于对数百万个片段的大规模并行测序，其使用随机片段化的基因组DNA到平面的连接，光学透明的表面和固相扩增，以创建具有数百万个簇的高密度测序流通池，每个簇每平方厘米含有约1,000份模板。这些模板使用四色DNA边合成边测序技术进行测序。MiSeq^TM系统使用TruSeq^TM，Illumina基于可逆终止子的边合成边测序。

可在本公开的方法中使用的DNA测序技术的另一个实例是454测序(Roche)(Margulies等人，2005)。454测序涉及两个步骤。第一步，将DNA剪切成大约300-800个碱基对的片段，然后将片段平端化。然后将寡核苷酸衔接子连接至片段的末端。衔接子用作片段的扩增和测序的引物。可以使用例如含有5′-生物素标签的衔接子B将片段连接到DNA捕获珠，例如链霉亲和素包被的珠。在油水乳液的液滴内，PCR扩增了与珠连接的片段。结果是每个珠上克隆扩增的DNA片段有多个拷贝。在第二步中，将珠捕获在孔(皮升大小)中。对每个DNA片段并行进行焦磷酸测序。一个或多个核苷酸的添加产生光信号，所述光信号由CCD相机在测序仪器中记录。信号强度与掺入的核苷酸数量成比例。

可以在本公开的方法中使用的DNA测序技术的另一个实例是SOLiD技术(LifeTechnologies，Inc.)。在SOLiD测序中，将基因组DNA剪切成片段，并将衔接子连接到片段的5′末端和3′末端以生成片段文库。可替代地，可以通过将衔接子连接至片段的5′末端和3′末端、环化片段、消化环化的片段以产生内部衔接子，并将衔接子连接至所得片段的5′末端和3′末端以生成mate-paired文库来引入内部衔接子。接下来，在含有珠、引物、模板和PCR组分的微反应器中制备克隆珠群体。PCR之后，使模板变性并富集珠以分离具有延伸的模板的珠。对所选珠上的模板进行3′修饰，使其可以结合到载玻片上。

可以在本公开的方法中使用的DNA测序技术的另一个实例是IonTorrent系统(Life Technologies，Inc.)。Ion Torrent使用高密度的微型加工孔阵列以大规模并行方式执行该生化过程。每个孔容纳不同的DNA模板。孔下面是离子敏感层，所述离子敏感层下方是专有的离子传感器。如果将核苷酸(例如C)添加到DNA模板中，然后掺入DNA链中，则会释放出氢离子。来自该离子的电荷会改变溶液的pH值，这可以通过专有的离子传感器进行检测。测序仪将调用碱基，直接从化学信息转变为数字信息。然后，Ion Personal GenomeMachine(PGM^TM)测序仪依次用一个接一个的核苷酸淹没芯片。如果淹没芯片的下一个核苷酸不匹配，则不会记录电压变化，也不会调用碱基。如果DNA链上有两个相同的碱基，则电压将加倍，并且芯片将记录两个被调用的相同的碱基。因为这是直接检测，没有扫描、没有照相机、也没有光线，所以每个核苷酸的掺入都以秒为单位记录。

可以在本公开的方法中使用的测序技术的另一个实例包括Pacific Biosciences的单分子实时(SMRT^TM)技术。在SMRT^TM中，四个DNA碱基中的每一个都与四种不同荧光染料之一连接。这些染料是磷酸连接的。单个DNA聚合酶使用在零模式波导(ZMW)底部的单分子模板单链DNA固定。ZMW是一种限制结构，该限制结构使得能够观察到在快速扩散进ZMW和从ZMW扩散出来的荧光核苷酸的背景下，DNA聚合酶掺入单个核苷酸的情况(以微秒为单位)。将核苷酸掺入生长链中需要花费几毫秒的时间。在这段时间内，荧光标记被激发并产生荧光信号，并且荧光标签被切割掉。染料的相应荧光的检测表明掺入了哪个碱基。重复该过程。

另一个测序平台包括CGA平台(完整基因组学)。CGA技术基于环状DNA文库的制备和滚环扩增(RCA)以产生排列在固体支持物上的DNA纳米球(Drmanac等人2009)。完整基因组学的CGA平台使用一种称为组合探针锚定连接(cPAL)的新型策略进行测序。该过程开始于锚分子与唯一衔接子之一之间的杂交。四个简并的9-mer寡核苷酸使用特定的荧光团标记，这些荧光团对应于探针第一位置的特定核苷酸(A、C、G或T)。序列测定发生在反应中，其中正确的匹配探针与模板杂交，并使用T4 DNA连接酶与锚连接。在对连接产物进行成像之后，将连接的锚定探针分子变性。使用新的荧光标记的9-mer探针组将杂交、连接、成像和变性过程重复五次，所述探针在n+1、n+2、n+3和n+4位置含有已知碱基。

V.试剂盒

本文的技术包括用于分析DNA样品中的单核苷酸多态性(SNP)的试剂盒、用于从含有短DNA片段和长DNA片段两者的DNA样品中选择性扩增短DNA片段的试剂盒，以及用于通过SNP谱分析监测器官移植排斥反应的试剂盒。“试剂盒”是指物理元件的组合。例如，试剂盒可包括例如一种或多种组分，诸如双链核酸衔接子、杂交捕获探针、特异性引物、酶、反应缓冲液、说明书以及可用于实施本文所述技术的其他元件。可以以适合于进行本发明的任何方式来布置这些物理元件。

试剂盒的组分可以包装在以水性介质中或以冻干形式包装。试剂盒的容器器件通常将包括至少一个小瓶、试管、烧瓶、瓶子、注射器或其他容器器件，可以将组分放置在其中，并且优选适当地等分放置(例如，等分到微量滴定板的孔中)。如果试剂盒中有多个组分，则试剂盒通常还将含有第二、第三或其他附加容器，可以将附加组分单独放入其中。但是，组分的各种组合可以包含在单个小瓶中。本发明的试剂盒通常还将包括用于容纳核酸的器件，以及密闭地用于商业销售的任何其他试剂容器。这样的容器可以包括将期望的小瓶保留在其中的注射或吹塑的塑料容器。试剂盒还将包括使用试剂盒组分及试剂盒中未包含的任何其他试剂的使用的说明。说明可以包括可以实现的变体。

Ⅵ.实例

包括以下实施例以说明本发明的优选实施方案。本领域技术人员应该理解，以下实施例中公开的技术代表本发明人发现的在本发明的实践中发挥良好作用的技术，因此可以被视为构成本发明实践的优选模式。然而，根据本公开，本领域技术人员应当理解，在不脱离本发明的精神和范围的情况下，可以对所公开的特定实施方案进行许多改变并且仍可获得相同或相似的结果。

实例1-SNP作为器官移植排斥的生物标志物

循环血浆中的无细胞DNA(cfDNA)通常源自在前30分钟内死亡的细胞。cfDNA不断经由尿液排出体外，因此它提供了患者和捐赠器官的准确且最新“快照”。当来自供体的器官被免疫系统排斥和攻击时，源自垂死被排斥器官细胞的cfDNA浓度将显著增加。由于供体和受体患者基因组之间存在SNP差异，因此可通过对cfDNA中的SNP进行谱分析来推断供体DNA的百分比，这可用于对甚至早期阶段的器官排斥进行检测和定量(图1)。

实例2-来自少量血液的cfDNA的天然唯一分子标识符(UMI)

指尖血方便采集、无创、且对患者友好。由于cfDNA分子数在少量指尖血中非常低，因此cfDNA的内在片段化位点信息可作为唯一分子标识符(UMI)。UMI是一种减少DNA扩增过程中引入的定量偏差和聚合酶差错的方法。这通常需要在扩增前将唯一的DNA条形码(UMI)附加到每个原始分子上。具有相同UMI的所有NGS读段假定源自相同的原始分子。

cfDNA的片段化位点可被视为唯一的分子标识符(图2)。相对于参考基因组的cfDNA的起始和结束坐标的可能组合数量比50μL指尖血液中的cfDNA分子数大几个数量级。cfDNA的平均长度约为160个核苷酸。如果覆盖特定SNP位点的所有DNA分子的长度为160个核苷酸，则可有160个不同可能的片段化位点。考虑到cfDNA大小分布，覆盖特定SNP位点的cfDNA的可能片段化位点组合数应至少为2,000。如果血浆中的cfDNA浓度为2.5ng/mL，则50μL血液中的cfDNA单倍体拷贝数为15。在这种情况下，如数值模拟所示，这15个分子中的每个分子都将具有不同的片段化位点。在器官移植排斥的情况下，cfDNA的数量会增加。在极端情况下，分子数会从15到150增加10倍。但是超过95％的原始分子仍然具有不同的片段化位点。如果cfDNA单倍体拷贝数太高而无法由片段化位点唯一地表示，诸如当分子数＞1000时，将不考虑UMI处理NGS数据。

片段化位点UMI可能以不止一种方式表达。UMI可显示为开始和结束坐标，诸如(12300，12460)。相对于SNP位点的开始位置和结束位置的相对位置是标记每个分子的另一种方式，诸如(-120，+39)。此外，可使用cfDNA的前2-50个核苷酸序列和后2-50个核苷酸序列。

实例3-使用通用引物从含有长DNA片段的DNA混合物中选择性扩增所有短DNA

当使用指尖血作为器官移植监测的样品时，从总DNA中选择性扩增短cfDNA至关重要。由于存在来自白细胞的基因组DNA，从全血中提取的DNA主要是具有约0.01％cfDNA的基因组DNA。通常的cfDNA提取需要从全血中的血沉棕黄层和红细胞中分离血浆。如果血样容量非常少，诸如以20-50μL指尖血为例，cfDNA的提取过程不方便且会造成显著的损失。此外，血浆分离步骤在收集标本时对时间敏感(通常在一小时内)，并且需要专业的设备和人员。从全血提取的DNA中选择性扩增cfDNA将规避cfDNA提取造成的限制。

将短PCR延伸时间、大小选择和生物信息学长度过滤器结合起来以选择性地富集短DNA(图3A)。作为说明富集过程的实例，将平均长度为100bp的1ng或0.1ng片段化基因组DNA NA18537与完整基因组DNA NA18562以1∶10,000的比率混合作为输入。末端制备和衔接子连接遵循

Ultra^TMII DNA文库制备试剂盒的方案。在末端制备、通用衔接子连接和柱纯化后，连接的DNA在较短的延伸时间下进行PCR扩增。在扩增之前，通过凝胶电泳分析连接的总DNA，这表明存在非常少的短DNA(图3B)。Phusion高保真DNA聚合酶的延伸时间建议为每kb扩增子15-30秒。为了选择性扩增短于1kb的DNA，将退火时间设置为10秒，使得所有短DNA以指数方式扩增，而长DNA以低效率扩增。对PCR产物应用大小选择以去除长于1kb的DNA，同时保持短于500bp的DNA。扩增DNA的SNP信息由专用的杂交捕获探针组进行分析，其设计考虑在实例4中进行了描述。由于人类基因组DNA大多长于10kb，因此在PCR和大小选择过程中，短片段化的DNA或cfDNA显著富集。如表1所总结，NA18537的分子分数在两种样品输入下均超过10％，如所选的53个具有不同基因型NA18537和NA18562的SNP位点所示。观察到短剪切NA18537的富集超过1000倍。通过与参考比对，可从双末端NGS读段推断原始分子的长度。可经由去除对应于长片段的NGS读段进一步处理数据以改善富集性能。

为了证明这些方法可从总DNA中富集cfDNA，执行了富集研究(图3C)。按照连接扩增方案使用所述方法对从15μL指尖毛细血管全血中的连接的总DNA进行扩增，并通过高灵敏度DNA生物分析仪进行表征。退火时间为20秒且延伸时间为20秒。由于Illumina索引引物i5和i7用于扩增，因此连接和扩增后cfDNA的预期长度约为300bp。清楚地观察到300bp处的峰，其中具有长度为350-600bp的扩增子较少。观察到长基因组DNA长度的平坦基线，这证实了长gDNA的去除。长度介于350-600bp之间的扩增子可源自微量的短基因组DNA片段，这些片段要么是天然存在于细胞中的，要么是在实验过程中引入的。

实例4-用于SNP谱分析的专用杂交捕获探针组的设计考虑

SNP组旨在基于SNP特征区分不同的人类基因组。组中的每个探针都必须对人类基因组中所需的SNP基因座具有高度特异性。SNP组选择方案总结于图4.

首先，基于群体变体等位基因频率选择SNP。SNP是基因组中的自然变异。1000个基因组项目提供的信息包括超过1000万个不同SNP位点的群体变体等位基因频率。约120万个SNP位点的变体等位基因频率(VAF)介于0.4与0.6之间，并且约320万个位点的VAF介于0.25与0.75之间。两个无关个体在具有40％变体群体频率的SNP基因座的完美匹配的概率粗略为(0.4*0.4)²+(0.4*0.6*2)²+(0.6*0.6)²＝38.6％，因此SNP有61.4％的机会区分两个个体。由于供体来源的DNA的小的等位基因比率变化可难以在受体的杂合SNP处被可靠地调用，因此考虑了受体是纯合的且供体与受体不同的情况的可能性。在具有40％或60％群体VAF的SNP基因座，严格区分概率粗略为0.4²*(1-0.4²)+0.6²*(1-0.6²)＝36.5％。在具有50％群体VAF的SNP基因座，概率略微提高到(0.5²*(1-0.5²))*2＝37.5％。

从NCBI SNP数据库中获取全人类基因组中具有等位基因频率介于0.4与0.6之间的所有120万个SNP基因座的详细信息(染色体数、SNP位置、参考序列、替代序列、等位基因频率和参考基因组)。然后从NCBI Genome Reference Consortium Human Build 37(GRCh37，hg19)下载80-nt上下文序列(单核苷酸SNP位置之前的40个核苷酸和之后的39个核苷酸)作为进一步选择的杂交结构域候选。

其次，基于GC含量和序列组成选择SNP探针组。80-nt杂交结构域的GC含量必须介于0.25与0.75之间。出于探针合成的保真度考虑，杂交结构域不应含有5个或超过5个连续的相同碱基。大约560,000个SNP满足该要求。

第三，基于靶向SNP周围基因组区域的唯一性进一步过滤SNP。出于特异性考虑，覆盖SNP的41-nt基因组上下文序列，包括SNP之前的20-nt和SNP之后的20-nt序列，通过来自NCBI的基本局部比对搜索工具(BLAST)进行评估，以避免任何人类基因组中具有拷贝数＞10的基因组区域。大约460,000个SNP在基因组中具有唯一的上下文序列(拷贝数＝1)。

最终的SNP组是从满足所有要求的460,000个SNP中选出的。为了将遗传连锁的可能性最小化，SNP在跨22对人类常染色体上间隔较宽。组中的每个SNP彼此至少相距200nt。

实例5-用于检查靶向SNP上下文序列唯一性的重要性

靶向SNP周围基因组区域的唯一性是成功的专用杂交捕获探针组所必需的。为了评估唯一性的重要性，在杂交捕获NGS实验中比较了两个SNP组。1ng片段化的NA18537基因组DNA用作样品输入，所述基因组DNA对应于约300个单倍体基因组拷贝。

第一个探针组除了没有考虑SNP周围上下文序列的唯一性之外，满足所有设计考虑。该组由12,000个探针组成，覆盖16,632个SNP。对于第一组，由NGS读段所覆盖的SNP基于其覆盖SNP的41-nt上下文序列的唯一性被分为三类(图5A)。只有6387(78％)个SNP位于唯一的上下文基因组序列内。然而，623个(8％)SNP基因座的SNP上下文序列的拷贝数为2-9，而1163个(14％)SNP基因座的SNP上下文序列的拷贝数＞10。

非特异性探针导致较差的NGS读段覆盖均匀性以及潜在的伪SNP基因型。覆盖均匀性是对应于不同SNP基因座的切中靶标NGS读段的分布。由于22％的非特异性探针消耗了超过99％的NGS读段，因此16,632个SNP中只有8，173个被约300万个NGS读段覆盖，而其余为丢失。将片段化位点视为UMI，观察到的原始分子数量在唯一探针与非特异性探针之间显著不同(图5B)。唯一基因组区域内每个SNP的原始分子数介于1与138之间。然而，非特异性基因组区域内每个SNP的分子数平均为1,202，这比估计的输入分子数(300)多。对应于超过300个分子的514个SNP基因座都在非特异性基因组区域内。非特异性序列会干扰对所需基因座的SNP调用，并可导致伪SNP基因型。

第二SNP组由45,842个SNP组成，其中每个靶向SNP的上下文序列的唯一性由BLAST确保，从而显著提高了覆盖均匀性(图5C)。45,842个SNP中的38,941个被约400万个NGS读段覆盖；只有15％的SNP为丢失。SNP覆盖分析的洛伦兹曲线进一步证实了第二SNP组覆盖均匀性的改善。两个组显示了观察到的UMI数量的累积分数相对于SNP的累积分数(图5D)。直线(线1)表示跨所有SNP的假设性均等分布，线2对应于第二SNP组，以及线3对应于第一SNP组。与线2相比，线3显著地进一步偏离了完全相等。线1、线2和线3的基尼系数分别为0、0.51和0.98，这证实了未考虑上下文序列唯一性的SNP组会导致覆盖均匀性变差。

实例6-器官移植排斥监测所需的SNP数量

需要对数以千计的SNP进行分析，以从少量的指尖血中鉴定供体来源的cfDNA分数。如图6A所示，假设指尖全血容量为50μL，血浆中cfDNA浓度为2.5ng/mL，并且假设在DNA提取和扩增过程中总产率为50％，则将提取7.5个单倍体基因组拷贝。待分析的分子数为7.5*N，其中N是专用组中的SNP数。因为组中的所有SNP的群体VAF都介于0.4与0.6之间，所以＞36％的SNP将是两个无关人员中任何一个的良好可区分的生物标志物。假设供体来源的DNA VAF为0.1％，则具有可区分SNP的供体来源的分子数将为：

7.5*N*0.1％*36％＝0.0027N

将检测限(LOD)设置为15个供体来源的可区分SNP，使得0.0027*N应＞15；SNP的数量大于5,556。

由于DNA分子数量与血液容量成比例，因此监测器官移植排斥所需的SNP数量取决于血液样品容量(图6B)。

实例7-通过杂交捕获进行SNP谱分析

用于SNP谱分析的生物素化专用杂交捕获探针的扩增。从Twist Bioscience订购含有80-nt杂交结构域和两个30-nt通用结构域的非修饰单链DNA库用于扩增。DNA库通过含有脱氧尿苷的生物素化正向引物和磷酸化反向引物进行扩增。合成的双链扩增子用λ外切核酸酶消化以选择性消化非生物素化链。

通过专用的杂交捕获探针组进行的SNP谱分析的示例性工作流程示出于图7.根据

Ultra^TMIIDNA文库制备试剂盒中描述的方案，对输入DNA进行末端修复，然后进行连接反应以添加通用衔接子序列。使用通用衔接子扩增DNA。如果cfDNA与长DNA片段(诸如基因组DNA)混合，长度＜500bp的DNA通过延伸时间介于1秒至15秒之间的PCR被富集，并按本文所述进行大小选择。扩增的双链DNA分子与用于SNP靶向的生物素化的专用杂交捕获探针，以及用于通用区域的阻断剂混合。于95℃温育混合物10分钟使双链DNA变性，然后进行(65℃1hr→47℃1hr)x7，并且47℃2hr进行杂交。将链霉亲和素包被的磁珠加入到混合物中，并在65℃温育45分钟。将珠粒洗涤去除未结合的DNA后，结合的DNA分子通过USER酶处理或95℃加热来释放。可以使用定制的盐水溶液或商业可获得的试剂盒(诸如

Reagents(Integrated DNA Technologies))执行珠粒洗涤和结合DNA洗脱。经由PCR将样品索引添加到释放的DNA中，并通过NGS对产物进行测序。

实例8-掺入DNA的检测

作为器官移植排斥的用于检测供体来源的cfDNA的概念证明，经由专用的杂交捕获探针组对带有掺入外源DNA的DNA样品进行了SNP谱分析。片段化的NA18537基因组DNA(0.1ng)与片段化的NA18562基因组DNA(1ng)以1∶10的比率混合。SNP谱分析如前一部分所述进行。

经由SNP谱分析准确检测掺入的DNA比率。如表2所总结，从NA18537和NA18562具有不同基因型的所选53个SNP位点计算来自NA18537的分子分数为10.0％。观察到的掺入分数接近预期值(9.1％)。

实例9-供体来源的cfDNA分数的定量

该工作流程总结为根据SNP谱分析NGS结果对器官受体的DNA样品中供体来源的DNA分数进行定量(图8)。无论供体遗传信息是否已知，该方法都适用。

没有未经确定的碱基的NGS读段首先与SNP组中每个探针的参考基因组比对。记录SNP基因型和UMI。基于多数票决为每个UMI家族调用SNP基因型。如果UMI的数量小于基于输入DNA量设置的阈值，则将考虑UMI进行数据处理。然而，如果UMI的数量大于阈值，则片段化位点的数量可能不足以唯一地标记每个原始分子，并因此后续步骤将不会考虑UMI；将改用NGS读段数。

选择了可区分的SNP。如果已知供体基因型，则将丢弃供体和受体之间具有相同基因型的SNP。受体中的杂合SNP也被丢弃。剩余的SNP被视为可区分的SNP。如果供体基因型未知，则将“On-Recipient_ID％”大于阈值但不超过另一个阈值的所有SNP用作可区分的SNP。将阈值设置在介于80％与99.99％之间。将计算所有可区分SNP的供体评分，以评估供体来源的cfDNA分数。

‘Recipient_ID’被定义为具有特定SNP基因座的最高数量的UMI或读段的主要SNP基因型。

‘On-Recipient_ID％’被定义为：

所有可区分SNP的“供体评分”被定义为：

实例10-低输入的供体来源DNA分数的定量

总结了另一个工作流程以对来自低输入的外源DNA分数进行定量(图9)。该方法可应用于已知或未知供体遗传信息的情况。没有未经确定的碱基的NGS读段首先与SNP组中基因座的参考基因组比对。记录SNP基因型和UMI。在每个SNP基因座，共享相同UMI的读段被假定起源于相同的分子，并因此被分组在一起。通过多数票决为每个SNP基因座的每个UMI家族调用基因型：超过70％读段支持的基因型被确定为原始分子的基因型。

选择了可区分的SNP。如果已知供体和受体两者的基因型，则将丢弃供者与受体之间具有相同同一性的SNP。受体中的杂合SNP也被丢弃。用于外源分子分数计算的其余SNP是纯合的，但在供体和受体中不同。如果供体基因型未知，则将考虑受体中的所有纯合SNP用于进一步计算。可使用从血沉棕黄层或口腔拭子获得的gD)NA样品确定受体中的纯合SNP。

具有与受体不同的SNP基因型的分子总数除以所有可行SNP的分子总数。由于在供体基因型未知的情况下考虑了所有受体纯合SNP基因座，供体存在三种可能的基因型：纯合且与受体相同、纯合但与受体不同以及杂合。需要归一化因子k来计算外源分数以解决这个问题。由于所有SNP的群体VAF大约为0.5，因此当已知供体基因型时，假设供体和受体完全不相关，则使用k＝2。当供体和受体两者基因型都可用时，k＝1，因为只涉及纯合的不同情况。

实例11-使用连续稀释的掺入样品进行定量验证

为了评估定量性能，经由专用的杂交捕获探针组对带有掺入外源DNA的DNA样品进行SNP谱分析。剪切的NA18562基因组DNA与剪切的NA18537基因组DNA以1∶9的比率混合，以制成10％的掺入。掺入样品用NA18537连续稀释，以制成5％、1％和0.5％的掺入。还测试了纯剪切的NA18537(0％掺入)。SNP谱分析如前一部分所述进行，并且定量仅基于NA18537的基因型，没有“外源分子”的基因型作为先验知识。推断的外源分子百分比相对于实际掺入值的图中显示了良好的线性关系(R2＝0.996)(图10)，证实了在未知供体基因型的情况下计算外源分子水平的可行性。推断值系统地低于掺入值，表明可能需要调整归一化因子k(此处为k＝2)，因为供体和受体完全无关的假设并不总是正确的。已经报告了基于受体cfDNA测序数据确定供体与受体之间相关性的方法，并且可以使用类似的方法来调整归一化因子k以更好的定量。即使没有此类调整，良好的线性关系表明可通过将倍数增加与基线进行比较来监测排斥的发生。

实例12-健康人和非排斥患者的数据

使用来自7例未进行器官移植的健康人和4例未显示排斥迹象的器官移植患者的指尖毛细血管血样测试了外源DNA定量方法。使用剪切的基因组DNA确定受体的基因分型。将配对的静脉血离心，并去除血浆层。使用左侧的血沉棕黄层和红细胞的混合物来提取基因组DNA。值得注意的是，虽然这里采集静脉血用于基因分型，但可使用侵入性较小的DNA来源，诸如口腔拭子。此外，基因分型只需要一次，因此在以下监测测试中可避免典型cfDNA提取过程中的静脉采血。推断的外源分子百分比总结于箱线图(图11)中，它显示了健康人中推断的外源分子的基线水平和4例非排斥器官移植受体(两例肾移植和两例肺移植)中外源分子百分比的增加。

表1.从含有基因组DNA的混合物中用于选择性扩增片段化DNA的NGS结果

表2.通过靶向SNP组用于检测掺入DNA的NGS结果

***

鉴于本公开，可以在不进行过度实验的情况下进行和执行本文所公开和要求保护的所有方法。尽管已经根据优选实施方案描述了本发明的组合物和方法，但是对于本领域技术人员而言将显而易见的是，在不脱离本发明的概念、精神和范围的情况下，可以对本文所述的方法和对本文所述方法的步骤或对本文所述方法的步骤顺序应用改变。更具体地，将显而易见的是，在化学和生理上均相关的某些药剂可以代替本文所述的药剂，同时将获得相同或相似的结果。对于本领域技术人员显而易见的所有此类类似替代和修改都被认为落入由所附权利要求所限定的本发明的精神、范围和概念内。

参考文献

以下参考文献在一定程度上提供了示例性的过程或其他细节，所述示例性的过程或其他细节是对本文所述的那些过程或细节的补充，所述参考文献以引用方式明确地并入本文。

美国专利Appln.Publn.号2016/0145682

Park等人，“Integrated Kidney Exosome Analysis for the Detection ofKidney Transplant Rejection，”ACS Nano.，11：11041-11046，2017。

Suthanthiran等人，“Urinary-Cell mRNA Profile and Acute CellularRejection in Kidney Allograns，”N.Engl.J.Med.，369：29-31，2013。

Vallabhajosyula等人，“Tissue-specific exosome biomarkers fornoninvasively monitoring immunologic rejection of transplanted tissue，”J.Clin.Invest.，127：1375-1391，2017。

Claims

1.一种对包含长DNA片段和短DNA片段两者的DNA样品中的短DNA片段进行选择性扩增的方法，所述方法包括：

(a)将通用衔接子寡核苷酸连接到所述长DNA片段和所述短DNA片段的每个末端，从而生成衔接子修饰的长DNA片段和衔接子修饰的短DNA片段，

(b)通过以介于约1秒与约15秒之间的延伸时间执行PCR并使用与所述通用衔接子杂交的寡核苷酸引物来选择性扩增所述衔接子修饰的短DNA片段，从而生成扩增的短DNA片段，以及

(c)执行大小选择以分离所述扩增的短DNA片段。

2.根据权利要求1所述的方法，其中所述短DNA片段具有介于约50个核苷酸与400个核苷酸之间的长度。

3.根据权利要求1-2所述的方法，其中步骤(b)中的所述PCR以介于约1秒与约30秒之间的退火时间来执行。

4.根据权利要求1-3中任一项所述的方法，其中所述DNA样品包含无细胞DNA(cfDNA)。

5.根据权利要求4所述的方法，其中所述短DNA片段包含无细胞DNA(cfDNA)。

6.根据权利要求1-5中任一项所述的方法，其中所述DNA样品包含从全血中提取的DNA。

7.根据权利要求1-5中任一项所述的方法，其中所述DNA样品是从口腔拭子或尿液中提取的。

8.根据权利要求1-7中任一项所述的方法，其中在步骤(a)之前，对所述长DNA片段和所述短DNA片段进行末端修复。

9.根据权利要求1-8中任一项所述的方法，其中在步骤(b)之前，对所述衔接子修饰的长DNA片段和所述衔接子修饰的短DNA片段进行柱纯化。

10.根据权利要求1-9中任一项所述的方法，其中所述通用衔接子从5’到3’包含与所述寡核苷酸引物互补的区域以及不与所述寡核苷酸引物互补的区域。

11.根据权利要求1-10中任一项所述的方法，其中步骤(c)的所述大小选择包括凝胶电泳纯化或基于珠粒的纯化。

12.根据权利要求1-11中任一项所述的方法，其进一步包括(d)对所述扩增的短DNA片段进行测序。

13.根据权利要求12所述的方法，其中步骤(d)中的所述测序为下一代测序。

14.根据权利要求13所述的方法，其中所述下一代测序为双末端测序或单读测序。

15.根据权利要求14所述的方法，其进一步包括(e)通过(1)将所述序列与参考基因组比对以确定扩增子长度以及(2)去除扩增子长度大于400个核苷酸的任何序列来富集所述扩增的短DNA片段序列。

16.一种分析DNA样品中单核苷酸多态性(SNP)的方法，所述方法包括

(a)将所述DNA样品与杂交捕获探针的混合物杂交，其中至少80％的所述杂交捕获探针独立地对应于基因组区域，所述基因组区域具有群体次要等位基因频率大于25％的SNP，其中每个基因组区域：

(1)在所述基因组中出现不超过10次；

(2)具有介于约0.25与约0.75之间的GC含量；以及

(3)不含有任何长度超过4个核苷酸的单碱基串，

从而生成捕获探针结合的DNA；

(b)分离杂交捕获探针结合的DNA；

(c)将通用衔接子寡核苷酸连接到所述杂交捕获探针结合的DNA的每个末端；

(d)使用与所述衔接子序列杂交的引物来扩增所述杂交捕获探针结合的DNA，从而生成扩增的DNA；以及

(e)对所述扩增的DNA进行测序。

17.根据权利要求16所述的方法，其中每个基因组区域包含围绕所述SNP的80个核苷酸。

18.根据权利要求17所述的方法，其中每个基因组区域在所述基因组中是唯一的。

19.根据权利要求16-18中任一项所述的方法，其中所述方法分析介于约500个与约1,000,000个之间的SNP。

20.根据权利要求16-19中任一项所述的方法，其中在步骤(a)之前对所述DNA样品进行扩增，从而生成扩增的双链DNA样品。

21.根据权利要求20所述的方法，其中根据权利要求1-15中任一项所述的方法对所述DNA样品进行扩增。

22.根据权利要求20或21所述的方法，其中所述扩增的DNA样品包含具有长度介于约50个核苷酸与约400个核苷酸之间的DNA片段。

23.根据权利要求20所述的方法，其中在步骤(a)之前将所述扩增的双链DNA样品变性，从而生成扩增的单链DNA样品。

24.根据权利要求23所述的方法，其中通过在至少80℃的温度对所述扩增的双链DNA样品加热至少2分钟来使所述扩增的双链DNA样品变性。

25.根据权利要求23所述的方法，其中所述扩增的双链DNA样品通过化学变性而变性。

26.根据权利要求25所述的方法，其中所述化学变性包括将所述扩增的双链DNA样品与氢氧化钠一起温育。

27.根据权利要求23所述的方法，其中所述扩增的双链DNA样品通过酶促变性而变性。

28.根据权利要求16-27中任一项所述的方法，其中步骤(d)中的所述测序为下一代测序。

29.根据权利要求28所述的方法，其中所述下一代测序为双末端测序。

30.根据权利要求28所述的方法，其中所述下一代测序为单读测序。

31.根据权利要求16-30中任一项所述的方法，其中步骤(b)中的所述分离包括所述杂交捕获探针结合的DNA的固相捕获。

32.根据权利要求31所述的方法，其中所述杂交捕获探针结合的DNA的所述固相捕获包括将所述杂交捕获探针结合的DNA与链霉亲和素包被的珠粒一起温育。

33.根据权利要求31所述的方法，其中步骤(b)中的所述分离进一步包括将所述杂交捕获探针结合的DNA进行分离、洗涤和释放。

34.根据权利要求33所述的方法，其中分离包括磁性分离或离心。

35.根据权利要求33所述的方法，其中释放包括在至少80℃对捕获的杂交捕获探针结合的DNA加热至少2分钟。

36.根据权利要求33所述的方法，其中所述杂交捕获探针进一步包含酶识别部分。

37.根据权利要求36所述的方法，其中所述酶识别部分为脱氧尿苷。

38.根据权利要求36所述的方法，其中释放包括对所述酶识别部分执行酶促切割。

39.根据权利要求37所述的方法，其中释放包括将所述捕获的杂交捕获探针结合的DNA与USER酶一起温育。

40.根据权利要求16-39中任一项所述的方法，其中所述DNA样品包含无细胞DNA(cfDNA)。

41.根据权利要求40所述的方法，其中在步骤(a)之前对所述cfDNA进行扩增。

42.根据权利要求16-41中任一项所述的方法，其中所述杂交捕获探针是生物素化的。

43.根据权利要求16-41中任一项所述的方法，其中所述杂交捕获探针与生物素化的寡核苷酸进行杂交。

44.一种确定含有少于4ng cfDNA的样品中唯一cfDNA片段的数量和/或进行扩增和测序纠错的方法，所述方法包括：

(a)对所述cfDNA片段进行扩增；

(b)使用双末端下一代测序对扩增的cfDNA片段进行测序；

(c)将所述序列与参考基因组比对，并确定每个经测序的cfDNA片段的起始位置和结束位置；

(d)通过它们所比对的基因组基因座将所述序列分离，并基于具有相同的起始位置和结束位置的所有测序读段的多数票决来调用所述片段序列；以及

(e)从所述经测序的cfDNA片段当中对唯一起始位置和结束位置的数量进行计数，从而确定对应于所述样品中每个不同基因型的每个目标基因组基因座的cfDNA片段的数量。

45.根据权利要求44所述的方法，其中所述起始位置和结束位置是通过下一代测序双末端读段来确定的。

46.一种确定含有多于4ng cfDNA的样品中唯一cfDNA片段的数量和/或进行扩增和测序纠错的方法，所述方法包括：

(a)将衔接子核酸连接到每个cfDNA片段的每个末端，其中所述衔接子核酸包含简并序列；

(b)对衔接子连接的cfDNA片段进行扩增；

(c)使用双末端下一代测序对所述扩增的cfDNA片段进行测序；

(d)将所述序列与参考基因组比对，并确定每个经测序的cfDNA片段的起始位置和结束位置；

(e)通过它们所比对的基因组基因座将所述序列分离，并基于具有相同的组合的起始位置和结束位置以及简并序列的所有测序读段的多数票决来调用片段序列；以及

(f)从所述经测序的cfDNA片段当中对唯一的组合的起始位置和结束位置以及简并序列的数量进行计数，从而确定对应于所述样品中每个不同基因型的每个目标基因组基因座的cfDNA片段的数量。

47.根据权利要求46所述的方法，其中所述起始位置和结束位置是通过下一代测序双末端读段来确定的。

48.一种通过SNP谱分析监测器官移植排斥的方法，所述方法包括：

(a)从获自器官移植受体的DNA样品中提取无细胞DNA(cfDNA)和基因组DNA(gDNA)；

(b)使用根据权利要求1-15中任一项所述的方法来选择性扩增无细胞DNA的短片段；

(c)使用根据权利要求16-43中任一项所述的方法来获得扩增的无细胞DNA中至少500个单核苷酸多态性(SNP)的序列读段；以及

(d)对器官移植供体来源的无细胞DNA相对于所述器官受体的所述DNA的分数进行定量。

49.根据权利要求48所述的方法，其中所述cfDNA和所述gDNA是从全血中提取的。

50.根据权利要求49所述的方法，其中所述cfDNA和所述gDNA是从少量全血中提取的。

51.根据权利要求49所述的方法，其中步骤(a)中的所述提取进一步包括血浆分离。

52.根据权利要求49所述的方法，其中所述全血为静脉血。

53.根据权利要求49所述的方法，其中所述全血获自指尖。

54.根据权利要求48所述的方法，其中所述cfDNA和所述gDNA是从口腔拭子中提取的。

55.根据权利要求48-54中任一项所述的方法，其中步骤(c)包括分析介于500个与约1,000,000个之间的SNP。

56.根据权利要求48-55中任一项所述的方法，其中步骤(d)包括：

(1)去除包含未经确定的碱基的测序读段；以及

(2)确定每个SNP基因座和每个基因型的唯一DNA片段的数量。

57.根据权利要求56所述的方法，其中确定每个SNP基因座和每个基因型的唯一DNA片段的数量包括执行根据权利要求44-47中任一项所述的方法。

58.根据权利要求48-57中任一项所述的方法，其中所述至少500个SNP是由就其而言所述器官移植受体为纯合型的SNP组成。

59.根据权利要求48-58中任一项所述的方法，其中所述至少500个SNP由就其而言所述器官移植受体和所述器官供体不相同的SNP组成。

60.根据权利要求48-59中任一项所述的方法，其中如果对应于所述器官移植供体的所述基因组DNA的无细胞DNA的所述短片段的所述分数高于正常范围或随时间增加，则所述器官移植受体被认为是排斥移植的器官。