CN114555831A

CN114555831A - 制备双索引甲基化序列文库的方法

Info

Publication number: CN114555831A
Application number: CN202080067258.7A
Authority: CN
Inventors: 乌沙提·达斯查卡雷维尔提; 黄晓芸; 郑钰; 凯文·莱
Original assignee: Integrated DNA Technologies Inc
Current assignee: Integrated DNA Technologies Inc
Priority date: 2019-09-30
Filing date: 2020-09-29
Publication date: 2022-05-27
Also published as: AU2020359506A1; CA3147326A1; EP4038200A1; US20210095351A1; JP2022551401A; EP4038200A4; WO2021067275A1

Abstract

本发明涉及用于产生甲基化序列NGS文库以用于全基因组测序或靶向再测序的方法和组合物。另外，本发明涉及用于确定靶核酸的甲基化谱的方法和组合物。

Description

制备双索引甲基化序列文库的方法

相关申请的交叉引用

本申请要求2019年9月30日提交的美国临时专利申请号62/907,778的优先权，该申请的内容通过引用整体并入本文中。

技术领域

本发明涉及用于确定双链DNA分子的序列以及用于鉴定和分析双链DNA分子中甲基化胞嘧啶的方法。本发明还涉及用于构建能获得下一代测序(NGS)甲基化序列文库的双链共有序列的方法，这些甲基化序列文库用于全基因组测序、靶向再测序、基于测序的筛选测定法、宏基因组学或需要样品制备以进行NGS的任何其他应用。

背景技术

DNA甲基化是一种表观遗传修饰，其与基因表达和染色质结构调节直接相关。表观遗传修饰，例如DNA甲基化在哺乳动物发育例如胚胎发育中发挥作用，并且涉及染色质结构和染色质稳定性。异常DNA甲基化与包括癌症的许多疾病病程相关。另外，差异甲基化区域的特定模式和/或等位基因特异性甲基化可以用作非侵入性诊断的分子标记。重要的是，以甲基化为重点的全基因组深度测序揭示了癌症甲基化组的丰富复杂性，包括半甲基化或仅在DNA双链的一条链上甲基化。对整个基因组或循环无细胞DNA的DNA甲基化状态进行分析可能很有意义。

分析DNA甲基化的方法依赖于亚硫酸氢盐转化测序。亚硫酸氢盐处理将未甲基化胞嘧啶残基转化为尿嘧啶。当通过桑格测序(Sanger sequencing)或当前的NGS方法进行测序时，尿嘧啶残基就会被视为胸腺嘧啶。另一方面，甲基胞嘧啶被保护而不会被亚硫酸氢盐处理转化为尿嘧啶。当通过桑格测序或当前的NGS方法进行测序时，甲基胞嘧啶就会被视为胞嘧啶。在亚硫酸氢盐转化或酶促转化之后，可以通过将序列与未修饰的参考序列比较来推断单个胞嘧啶残基的转化状态。

然而，当前方法经常在文库制备和/或测序期间引入扩增或测序人为影响。这些错误会对DNA甲基化分析的结果产生不利影响。另外，当前方法未向使用者提供在数据分析期间使用独特分子标识符(UMI)的能力，并且不能区分半甲基化、完全甲基化和未甲基化事件。当前方法依赖于在连接接头之前将未甲基化胞嘧啶转化为尿嘧啶。因为转化发生在接头添加之前，所以不可能区分半甲基化事件。当前方法不能提供全基因组甲基化分析和靶向测序甲基化分析两者。因此，本领域需要为甲基化对基因表达至关重要的区域提供全面靶捕获系统的方法。另外，本领域需要可以以单碱基分辨率准确检测甲基化状态以及可以检测完全甲基化和半甲基化DNA的方法和组合物。

发明内容

本文公开了用于制备供甲基化分析的双索引核酸文库的方法和组合物。此外，本文公开的方法和组合物可以依赖于未甲基化胞嘧啶的亚硫酸氢盐或酶促转化。在各种实施方案中，公开的方法和组合物在亚硫酸氢盐处理或酶促转化靶序列中存在的未甲基化胞嘧啶之前使用两步标记工艺用UMI标记靶核酸。标记工艺可以将单个UMI添加到一条链或将UMI添加到靶核酸的每条链。在标记方法之后，对靶核酸进行亚硫酸氢盐处理或酶促处理以将未甲基化胞嘧啶转化为尿嘧啶。UMI用于鉴定单个DNA分子并减少扩增或测序引入的人为影响，从而提高DNA甲基化分析的准确性。另外，在亚硫酸氢盐处理或酶促转化之前用UMI单独标记每条链能够纠正错误，以便直接比较半甲基化、完全甲基化和未甲基化事件。

在一个实施方案中(图1A)，提供了全基因组甲基化序列文库构建的工作流程。链特异性分子索引(独特分子标识符，UMI)通过进行平端连接并随后进行间隙填充连接反应连接到生物模板。在第一步骤中，对片段化的gDNA、FFPE DNA或未剪切的cfDNA进行末端修复反应，从而产生具有游离3'OH端的平端5'磷酸化插入序列。末端修复后，通过使用T4 DNA连接酶进行平端连接将第一测序接头(例如，对于Illumina平台，P7)连接到插入DNA的3'端；将接头的一条链5'腺苷酸化以促进连接，同时将互补链在3'端用双脱氧-A、双脱氧-T、双脱氧-C或双脱氧G封闭以防止连接(图1A和1B)。将接头中的dC碱基变为甲基-dC以在下游亚硫酸氢盐处理/酶促胞嘧啶转化为尿嘧啶期间保留其原始身份。然后通过使接头分子的3'端与插入序列的磷酸化5'端连接的间隙填充连接反应将第二测序接头连接到生物插入序列的5'端。接头中的dC碱基变为甲基-dC以在下游亚硫酸氢盐处理/酶促转化期间保留其原始身份。在间隙填充连接期间，使用TaqIT聚合酶和具有dATP、dTTP、dGTP和甲基-dCTP的dNTP混合物使互补的UMI碱基聚合。在第二连接之后，通过亚硫酸氢盐处理或酶促处理将未甲基化胞嘧啶转化为尿嘧啶。然后可以使用与尿嘧啶相容的DNA聚合酶对新构建的文库分子进行PCR扩增，以添加样品条形码。在此步骤期间，插入序列(靶链)中的尿嘧啶转化(聚合)为新合成的互补链上的胸腺嘧啶。得到的文库已准备用于在适当的测序系统，例如但不限于Illumina平台上进行全基因组亚硫酸氢盐测序(WGBS)。

在另一个实施方案中(图1B)，提供了靶向甲基化序列文库构建的工作流程。链特异性分子索引(独特分子标识符，UMI)通过进行平端连接并随后进行间隙填充连接反应连接到生物模板。在第一步骤中，对片段化的gDNA、FFPE DNA或未剪切的cfDNA进行末端修复反应，从而产生具有游离3'OH端的平端5'磷酸化插入序列。末端修复后，通过使用T4 DNA连接酶进行平端连接将第一测序接头(例如，对于Illumina平台，P7)连接到插入DNA的3'端；将接头的一条链5'腺苷酸化以促进连接，同时将互补链在3'端用双脱氧-A、双脱氧-T、双脱氧-C或双脱氧-G封闭以防止连接(图1A和1B)。接头中的dC碱基变为甲基-dC以在下游亚硫酸氢盐处理/酶促转化期间保留其原始身份。然后通过使接头分子的3'端与插入序列的磷酸化5'端连接的间隙填充连接反应将第二测序接头连接到生物插入序列的5'端。接头中的dC碱基变为甲基-dC以在下游亚硫酸氢盐处理/酶促转化期间保留其原始身份。在间隙填充连接期间，通过TaqIT聚合酶使用具有dATP、dTTP、dGTP和甲基-dCTP的dNTP混合物使互补的UMI碱基聚合。使用定制的生物素化探针组通过杂交捕获来富集基因组中的目标靶区。在靶富集之后，通过亚硫酸氢盐或酶促处理使未甲基化胞嘧啶转化为尿嘧啶。然后可以使用与尿嘧啶相容的DNA聚合酶对捕获的文库分子进行PCR扩增，以添加样品条形码。在此步骤期间，插入序列(靶链)中的尿嘧啶转化(聚合)为新合成的互补链上的胸腺嘧啶。得到的文库已准备用于在适当的测序平台，例如但不限于Illumina平台上进行靶向测序。

附图说明

图1A显示全基因组甲基化序列文库构建的工作流程。

图1B显示靶向甲基化序列文库构建的工作流程。

图2展示甲基-dCTP可以以与dCTP相比类似的效率掺入。

图3展示通过全基因组亚硫酸氢盐测序进行的甲基化检测。

图4展示当使用酶促转化方法将未甲基化胞嘧啶转化为尿嘧啶时甲基化状态的检测。

图5展示使用靶向测序方法进行的甲基化状态的检测。

图6展示杂交捕获方法的探针设计以及100ng和250ng输入量下的相应捕获。

图7A和7B展示从低定量的10ng输入样品并以减少的偏差鉴定出准确的甲基化水平。

图8A、8B和8C展示使用从健康样品和患病样品分离的低输入cfDNA进行的WGBS。

图9A、9B、9C和9D展示以标准平铺或2×平铺使用定制表观遗传组获得的靶向甲基化序列。

具体实施方式

本文公开的方法和组合物提供了用于制备甲基化序列下一代测序文库的组合物和方法。本文公开了制备供甲基化分析的索引核酸文库的方法。靶核酸中的未甲基化胞嘧啶通过亚硫酸氢盐转化或胞苷脱氨酶转化为尿嘧啶。在各种实施方案中，所述方法使用两步工艺用独特分子标识符(UMI)标记靶核酸，其中将第一UMI连接到靶核酸的3'端。任选地，可以将第二UMI添加或连接到靶核酸的5'端。在将接头添加到靶核酸之后，对标记的核酸进行化学或酶促处理，以将未甲基化胞嘧啶转化为尿嘧啶。UMI的使用和UMI添加后的转化减少或基本上消除了测序和/或扩增诱发的人为影响，并改进了甲基化分析的准确性。另外，添加接头后未甲基化胞嘧啶向尿嘧啶的转化可以用于鉴定完全甲基化(即靶核酸两条链上的甲基化事件)、半甲基化(即双链靶核酸一条链上发生的甲基化事件)或未甲基化靶核酸。本发明的这些和其他优点以及其他本发明特征从本文提供的本发明的描述中显而易见。

在一个实施方案中，提供了一种确定靶核酸的甲基化谱的方法。该方法包括：a)获得靶核酸；b)用第一连接酶将第一接头连接到靶核酸的3'端；c)用第二连接酶将第二接头连接到靶核酸的5'端以产生接头-靶-接头复合物；d)将接头-靶-接头复合物中的未甲基化胞嘧啶转化为尿嘧啶以产生转化的靶；e)任选地PCR扩增转化的靶；f)对转化的靶测序；g)将转化的靶的序列与参考序列比较以确定靶核酸的甲基化谱。

在另一个实施方案中，靶核酸分子是DNA。在另一个实施方案中，DNA是全基因组DNA、无细胞DNA(cfDNA)或福尔马林固定的经石蜡包埋DNA(FFPE DNA)。

在另一个实施方案中，第一连接酶是T4 DNA连接酶。在另一个实施方案中，T4 DNA连接酶是突变连接酶。在另一个实施方案中，突变连接酶在K159处含有氨基酸替换。在另一个实施方案中，突变连接酶含有氨基酸替换并且是K159S突变体。

在另一个实施方案中，第一或第二接头含有独特分子标识符序列。在另一个实施方案中，第一和第二接头均含有独特分子标识符序列。

在一个实施方案中，未甲基化胞嘧啶向尿嘧啶的转化通过亚硫酸氢盐处理进行。在另一个实施方案中，未甲基化胞嘧啶向尿嘧啶的转化通过胞苷脱氨酶进行。

在另一个实施方案中，接头包含通用引发位点。在另一个实施方案中，在连接接头形成接头-靶-接头复合物后，通过杂交捕获富集该复合物。根据权利要求1所述的方法，其中通过杂交捕获富集接头-靶-接头复合物。

在一个实施方案中，提供了一种用于鉴定核酸群中甲基化胞嘧啶的方法。在其他实施方案中，核酸是DNA，另外该DNA是双链DNA。在一个实施方案中，本发明的方法用于分析全基因组、cfDNA、ctDNA或FFPE DNA的甲基化模式。所述实施方案中的方法确保了序列保真度并提高了测序数据的质量。所述实施方案中的方法可以包括对双链DNA中每条链进行测序和鉴定。另外，所述实施方案中的方法允许鉴定完全甲基化和半甲基化靶核酸，并允许区分靶核酸中的完全甲基化、半甲基化和未甲基化事件。

另外，本发明提供了文库的产生和甲基化靶核酸的测序，其中使用的接头带有条形码或含有独特分子标识符。UMI的使用允许跟踪双链靶核酸的任一链，即UMI允许跟踪原始靶核酸的有义或反义链。在一个实施方案中，UMI是任意UMI。在另一个实施方案中，合理或智能地设计UMI，即UMI被设计为使得条形码是已知序列。UMI可以用于减少扩增偏差，扩增偏差是由于核酸组成差异导致的不同靶的不对称扩增。UMI可以用于区分在文库制备期间或扩增期间出现的核酸突变，以及由亚硫酸氢盐或酶促转化未甲基化胞嘧啶为尿嘧啶诱发的突变。在一些实施方案中，UMI可以大于2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。

在另一个实施方案中，可以将样品索引或样品ID标签掺入到接头中。样品索引可以是2至18、3至18、4至18、5至18、6至18、7至18或8至18个核苷酸长度的任何合适长度。样品ID标签可以具有鉴定至少2个、至少4个、至少256个、至少1024个、至少4096个或至少16,384个或更多个单个样品所需的任何长度。

在另一个实施方案中，可以将通用引发位点掺入到接头中。通用引发位点允许扩增已标记的样品。样品可以由UMI、由样品ID或者UMI或样品ID的组合标记。

在另一个实施方案中，未甲基化胞嘧啶向尿嘧啶的转化可以通过亚硫酸氢盐处理或酶促处理来完成。在一些实施方案中，酶促处理可以用胞苷脱氨酶进行。在其他实施方案中，胞苷脱氨酶可以是APOBEC。在一些实施方案中，胞苷脱氨酶包括活化诱导的胞苷脱氨酶(AID)和载脂蛋白B mRNA编辑酶催化多肽样蛋白(APOBEC)。在一些实施方案中，APOBEC酶选自以下人APOBEC家族：APOBEC-1(Apo1)、APOBEC-2(Apo2)、AID、APOBEC-3A、APOBEC-3B、APOBEC-3C、APOBEC-3DE、APOBEC-3F、APOBEC-3G、APOBEC-3H和APOBEC-4(Apo4)。在一些实施方案中，无论是通过亚硫酸氢盐转化或酶促转化，转化均使用可商购的试剂盒。在一个实例中，使用了如下试剂盒，诸如EZ DNA Methylation-Gold、EX DNA Methylation-Direct或EZDNA Methylation-Lighting试剂盒(获自ZYmo研究公司(ZYmo Research Corp)(加利福尼亚州尔湾市(Irvine,California.)))。在另一个实例中，使用试剂盒诸如APOBEC-Seq(纽英伦生物技术公司(NEBiolabs))。

在另一个实施方案中，在未甲基化胞嘧啶转化为尿嘧啶之前添加接头。在另一个实施方案中，接头含有UMI。在未甲基化胞嘧啶转化为尿嘧啶之前添加接头允许跟踪单个链，并允许检测和分析完全甲基化或半甲基化事件。

在另一个实施方案中，接头含有未甲基化胞嘧啶。在又一个实施方案中，接头可以含有未甲基化和甲基化的胞嘧啶。在另一个实施方案中，接头可以含有所有甲基化胞嘧啶。将接头中的dC碱基变为甲基-dC以在下游亚硫酸氢盐处理/酶促胞嘧啶转化为尿嘧啶期间保留其原始身份。

本发明涉及用于鉴定双链靶核酸群中甲基化胞嘧啶的方法。双链靶核酸可以是DNA。在其他实施方案中，DNA可以是基因组DNA、剪切的DNA、片段化的DNA、cfDNA或FFPEDNA。在一些实施方案中，DNA可以进行末端修复和添加A尾或进行末端修复和平端化。在一些实施方案中，DNA从用于检测、诊断或筛选疾病或病症的生物样品分离。在某些实施方案中，生物样品可以是组织或肿瘤细胞。

图1A说明了用于制备适用于全基因组测序的甲基化序列文库的实例。在步骤1中，将靶核酸末端修复并引入平端。得到的经末端修复和具有平端的分子具有5'磷酸化端和游离3'OH端。在步骤2中，将包含在一端封闭的双链接头的接头1连接到靶核酸的3'端。例如，第一测序接头可以含有P7 Illumina平台序列。在一个实施方案中，用于连接接头1的连接酶是T4 DNA连接酶。在另一个实施方案中，用于连接接头1的连接酶是突变T4 DNA连接酶。在某个实施方案中，突变T4 DNA连接酶在K159处含有氨基酸替换，而在其他实施方案中，突变T4 DNA连接酶含有K159S氨基酸替换。在步骤3中，通过间隙填充和连接程序添加接头2。在步骤3中，通过使接头分子的3'端与靶核酸的磷酸化5'端连接的间隙填充连接反应将第二测序接头连接到靶核酸的5'端。在间隙填充连接期间，通过TaqIT聚合酶使用具有dATP、dTTP、dGTP和甲基-dCTP的dNTP混合物填入互补的UMI碱基或使其聚合。在步骤4中，未甲基化胞嘧啶转化为尿嘧啶。亚硫酸氢盐处理或酶促处理可以用于将未甲基化胞嘧啶转化为尿嘧啶。步骤5是任选的PCR步骤。此任选的PCR步骤可以另外使用与尿嘧啶相容的DNA聚合酶。可以使用任选的PCR来添加NGS所需的剩余接头序列、样品索引或NGS平台特异性序列。在一些实施方案中，NGS所需的完整接头序列通过两步连接工艺添加。经修改的靶核酸和任选地经PCR扩增的接头靶核酸或文库已准备用于在适当测序仪器上进行甲基化分析和测序。在一些实施方案中，NGS所需的完整接头序列通过两步连接工艺添加，并且任选的PCR不是必需的。

图1B说明了一种用于制备甲基化序列文库和杂交捕获或富集以富集某些靶区域的方法。在步骤1中，将靶核酸末端修复以使该核酸的末端变为平端。得到的经末端修复和具有平端的分子具有5'磷酸化端和游离3'-OH端。在步骤2中，将包含在一端封闭的双链接头的接头1连接到靶核酸的3'端。例如，第一测序接头可以含有P7 Illumina平台序列。在一个实施方案中，用于连接接头1的连接酶是T4 DNA连接酶。在另一个实施方案中，用于连接接头1的连接酶是突变T4 DNA连接酶，而在某些实施方案中，突变T4 DNA连接酶含有K159S氨基酸替换。在某个实施方案中，突变T4 DNA连接酶在K159处含有氨基酸替换。在步骤3中，通过间隙填充和连接程序添加接头2。在步骤3中，通过使接头分子的3'端与靶核酸的磷酸化5'端连接的间隙填充连接反应将第二测序接头连接到靶核酸的5'端。在间隙填充连接期间，通过TaqIT聚合酶使用具有dATP、dTTP、dGTP和甲基-dCTP的dNTP混合物填入互补的UMI碱基或使其聚合。在步骤4中，使用杂交捕获用双链DNA组来富集经修改的靶序列。在步骤5中，未甲基化胞嘧啶转化为尿嘧啶。亚硫酸氢盐处理或酶促处理可以用于将未甲基化胞嘧啶转化为尿嘧啶。步骤6是任选的PCR。此任选的PCR步骤可以另外使用与尿嘧啶相容的DNA聚合酶。可以使用任选的PCR来添加NGS所需的剩余接头序列、样品索引或NGS平台特异性序列。在一些实施方案中，NGS所需的完整接头序列通过两步连接工艺添加。经修改的靶核酸和任选地经PCR扩增的接头靶核酸或文库已准备用于在适当测序仪器上进行甲基化分析和测序。在一些实施方案中，NGS所需的完整接头序列通过两步连接工艺添加，并且任选的PCR不是必需的。

图2展示TaqIT聚合酶对于掺入dCTP或甲基-dCTP具有类似的掺入效率。UMI中的dG指示dC或甲基-dC将在间隙填充工艺中掺入到相对链上。使用250ng 117bp gBlock作为测试连接效率的插入序列。检查了4种类型的接头：UMI序列中有dG的接头、UMI序列中没有dG的接头、UMI序列中有dG的甲基化接头、UMI序列中没有dG的甲基化接头。在间隙填充/连接步骤(图1A，步骤3)中，使用具有甲基-dCTP、dATP、dTTP和dGTP的缓冲液来测试TaqIT对甲基-dCTP的掺入效率。使用具有dNTP(在缓冲液中表示为dCTP)的缓冲液作为对照。

在一个实施方案中，进行靶富集。在某些实施方案中，可以使用基于扩增子的富集。在某些实施方案中，可以使用杂交捕获富集。在另一个实施方案中，使用用于双链捕获的2×交替组设计。(参见图6A或9A)。

实施例

出于简单起见，实施例中的要素和行为旨在说明本发明，并且不必根据任何特定工序或实施方案呈现。本实施例还旨在证明发明人对本发明的占有。

实施例1

全基因组甲基化序列文库构建

对靶DNA进行末端修复并准备用于平端连接。使用突变DNA连接酶将5'腺苷酸化和甲基化的接头连接到靶插入序列的3'端。将5'接头的互补部分封闭以防止连接。使用间隙填充连接来连接接头2，并且互补UMI碱基由TaqIT使用含有dATP、dTTP、dGTP和甲基-dCTP的dNTP混合物填入。靶核酸中的未甲基化胞嘧啶通过亚硫酸氢盐处理或酶促处理转化为尿嘧啶。使用UMI标记的靶序列的PCR扩增引入独特双索引。

图1A展示了用于将UMI接头添加到靶核酸、转化未甲基化胞嘧啶和PCR扩增以添加独特双索引和适当的NGS平台特定接头序列的工作流程的一个实施方案。然后在适当的NGS平台上对制备的靶序列进行测序。测序后，将该序列与参考序列比较以确定甲基化谱。

在20℃下使用T4多核苷酸激酶和T4 DNA聚合酶对1-250ng片段化的DNA进行末端修复反应30分钟。末端修复后，通过在20℃下使用突变T4 DNA连接酶K159S平端连接15分钟将第一测序接头(对于Illumina平台，P7)连接到插入DNA的3'端。然后将突变连接酶在65℃下加热灭活15分钟。接着通过在65℃下进行间隙填充连接反应30分钟将第二测序接头连接到生物插入序列的5'端。在间隙填充连接期间，通过TaqIT使用具有dATP、dTTP、dGTP和甲基-dCTP的dNTP混合物使互补的UMI碱基聚合(填入)。使用Taq连接酶连接插入序列和TaqIT延伸接头之间的切口。在第二连接之后，通过亚硫酸氢盐反应或酶促处理使用制造商的方案将未甲基化胞嘧啶转化为尿嘧啶。然后可以使用与尿嘧啶相容的DNA聚合酶对新构建的文库分子进行PCR扩增，以添加样品条形码。得到的文库已准备用于在Illumina平台上进行全基因组亚硫酸氢盐测序。

表1

表1显示了从剪切的人类基因组DNA(NA12878)制备的WGBS文库，该剪切的人类基因组DNA具有不同的靶核酸输入量(核酸输入范围为1-250ng)。未甲基化的胞嘧啶通过EZDNA methylation-Gold试剂盒(Zymo)(亚硫酸氢盐转化法)或

酶促甲基化序列转化模组(NEB)(酶转化法)转化。优化PCR循环以实现足以用于Illumina测序的文库产量。表1显示从1ng到250ng输入核酸量可获得足够的文库产量并且平均文库大小足够。另外，表1展示获得了适当的文库大小(以碱基对(bp)测量)。

实施例2

靶向甲基化序列文库构建

对DNA进行末端修复并准备用于平端连接。使用突变DNA连接酶将5'腺苷酸化和甲基化的接头连接到靶插入序列的3'端。将5'接头的互补部分封闭以防止连接。使用间隙填充连接来连接接头2，并且互补UMI碱基由TaqIT使用含有dATP、dTTP、dGTP和甲基-dCTP的dNTP混合物填入。通过杂交捕获方法捕获和富集靶区域。杂交捕获组使用用于双链捕获的2×交替组设计(参见图6)。杂交捕获之后，靶核酸中的未甲基化胞嘧啶通过亚硫酸氢盐处理或酶促处理转化为尿嘧啶。使用UMI标记的靶序列的PCR扩增引入独特双索引。

图1B展示了用于将UMI接头添加到靶核酸、杂交捕获靶区域、转化未甲基化胞嘧啶和PCR扩增以添加独特双索引和适当的NGS平台特定接头的工作流程的一个实施方案。然后在适当的NGS平台上对制备的靶序列进行测序。

实施例3

使用未甲基化胞嘧啶的亚硫酸氢盐转化通过WGBS检测甲基化

将10ng人基因组DNA(EpiScope甲基化HCT116和NA12878)与5％未甲基化λDNA混合，并使用Covaris S2仪器剪切至150bp。EpiScope甲基化HCT116 gDNA是使用CpG甲基化酶(TaKaRa)高度甲基化的从人HCT116细胞纯化的基因组DNA。使用未甲基化λDNA监测亚硫酸氢盐处理的转化效率。通过EZ DNA methylation-Gold试剂盒(Zymo)转化未甲基化胞嘧啶。在Illumina MiSeq(2×150个碱基)上对文库进行测序。通过bismark程序使用默认设置分析亚硫酸氢盐测序数据。

图3A展示99.7％的胞嘧啶至尿嘧啶转化率，并且从两种样品类型获得了约80％独特映射效率。图3B显示在CpG、CHH和CHG情形下，甲基化HCT116的甲基化水平为96.3％、0.8％和0.5％。在CpG、CHH和CHG情形下，NA12878的甲基化水平为49.5％、0.4％和0.4％。图3C显示了16种合理设计的UMI和使用的固定序列的分布频率。将未映射的读段作为NNNNNNNN测量。UMI分布图显示所有合理设计的接头UMI均有效地连接。

实施例4

使用未甲基化胞嘧啶的酶促转化检测甲基化

将10ng和100ng人基因组DNA(NA12878)与1％未甲基化λDNA混合，并使用CovarisS2仪器剪切至150bp。通过

酶促甲基化序列转化模组转化未甲基化胞嘧啶。在Illumina MiSeq(2×150个碱基)上对文库进行测序。通过bismark程序使用默认设置分析酶促甲基化序列数据。

图4A显示99.7％的胞嘧啶至尿嘧啶转化率，并且获得了约81％独特映射效率。图4B展示在CpG、CHH和CHG情形下，NA12878的甲基化水平为约49％、0.4％和0.4％。图4C显示了16种合理设计的UMI和使用的固定序列的分布频率。将未映射的读段作为NNNNNNNN测量。UMI分布图显示所有合理设计的接头UMI均有效地连接。

实施例5

检测甲基化和靶向富集

使用工作流程(图1B)从25、50、100和250ng剪切的人gDNA(NA12878)制备靶向甲基化序列文库，并使用整合DNA技术公司(Integrated DNA Technologies,Inc.)的xGen AML组进行富集。使用EZ DNA methylation-Gold试剂盒(Zymo)将未甲基化胞嘧啶转化为尿嘧啶。

图5A显示了在安捷伦(Agilent)TapeStation上检查的最终文库轨迹。图5B显示了由250ng甲基化HCT 116和NA12878 gDNA制备并在Illumina MiSeq(2×150个碱基)上测序的靶向甲基序列文库。通过bismark程序和Picard工具组使用默认设置分析靶向甲基化序列数据。获得靶区域上91.7～92.9％所选碱基和36-188x平均靶覆盖率，表明靶区域内发生的甲基化事件可以以较高的灵敏度鉴定。图5C显示了在CpG、CHH和CHG情形下，NA12878gDNA的甲基化水平为约58％、0.3％和0.3％。

实施例6

如实施例1中所述，由10ng甲基化对照以0、5、10、25、50、100％的甲基化(EpigenDx)产生文库。通过EZ DNA methylation-Gold试剂盒(Zymo)转化未甲基化胞嘧啶。在Illumina NextSeq(2×150个碱基)上对文库进行测序。

使用Bismark(v0.22.3)和Picard(v2.18.9)进行比对和甲基化分析，并使用Homer(基序富集的超几何优化，Hypergeometric Optimization of Motif EnRichement)注释基因组特征以进行基序发现。图7A显示了预期和观察到的甲基化水平之间的高相关性。图7B使用Homer在测序到36M读段后鉴定了广泛的基因组特征，包括转录调节区。图7B在Y轴上显示了鉴定的CpG位点的数量，并且在x轴上显示了注释的基序/区域。该图显示该工作流程可以覆盖/鉴定各种基因组特征，而对具有各种甲基化水平的输入没有/几乎没有偏差。

实施例7

对10ng来自健康个体和患有肺癌的个体的cfDNA如实施例1所述进行文库制备。通过EZ DNA methylation-Gold试剂盒(Zymo)转化未甲基化胞嘧啶。在Illumina NextSeq(2×150个碱基)上对文库进行测序。

使用bismark程序通过默认设置进行比对和甲基化分析。图8(A)显示了来自使用所述甲基化工作流程获得的文库的代表性电泳图。图8(B)展示了该工作流程从10ng cfDNA提供>1μg文库产量。图8(C)显示从健康和癌症样品获得了约80％的独特映射效率。

实施例8

靶向甲基化序列中的交替设计捕获两条链以进行半甲基化分析。

使用该工作流程(图1B)从剪切的100ng 50％和100％甲基化对照(EpigenDx)制备靶向甲基化序列文库，并使用两种130kb定制组设计富集以靶向癌基因内的CpG岛、岸和架。对于第一标准组设计，使用带有端到端算法的IDT xGen v2管线。最初输出探针设计仅用于一条DNA链。为了靶向两条DNA链，添加并反向补充探针以靶向另一条链(图9A)。对于第二2×平铺设计，使用带有2×平铺算法的IDT xGen v2管线。为了靶向两条DNA链，将靶向链换成其他探针(图9A)。通过EZ DNA methylation-Gold试剂盒(Zymo)转化未甲基化胞嘧啶。在Illumina NextSeq(2×150个碱基)上对文库进行测序。使用Bismark(v0.22.3)和Picard(v2.18.9)进行比对和甲基化分析。DNA链以约70％的中靶率捕获。图9B显示半甲基化位点通过以下鉴定：应用费希尔精确检验(Fisher's exact test)，然后使用本杰明-霍克伯格程序(Benjamini-Hochberg procedure)以0.05的错误发现错误率调节所有p值。图9C显示在采样下调至16M读段后观察到150-300×的平均靶向覆盖率。图9D展示两种组设计均提供了高捕获均匀性。

本文引用的所有参考文献，包括出版物、专利申请和专利均以相同程度以引用的方式并入，等同于每个参考文献单独并特别指示以引用的方式并入并在本文中阐述其全文。

除非本文另外指示或与上下文明显矛盾，否则在描述本发明的上下文中(尤其是在权利要求书的上下文中)使用术语“一”和“该”以及类似指称应视为覆盖单数和复数指称。除非另外说明，否则术语“包含”、“具有”、“包括”和“含有”应视为开放式术语(即，意思是“包括但不限于”)。除非在本文中另外指示，否则本文中数值范围的叙述仅旨在用作单独提及落入该范围内的每个单独值的速记方法，并且将每个单独值并入说明书中，等同于其在本文中单独叙述。除非本文另外指示或与上下文明显矛盾，否则本文所述的所有方法均可以以任何合适顺序进行。除非另外声明，否则本文提供的任何和所有实例或示例性语言(例如，“诸如”)的使用仅旨在更好地说明本发明并且不对本发明的范围构成限制。说明书中的任何语言均不应视为指示任何未要求保护的要素对于本发明的实践是必不可少的。

本文描述了本发明的优选实施方案，包括本发明人已知的用于实施本发明的最佳模式。本领域普通技术人员在阅读上述描述后会对那些优选实施方案的变型显而易见。本发明人期望熟练技术人员适当地采用这些变化，并且本发明人打算以不同于本文具体描述的方式来实践本发明。因此，本发明包括在适用法律允许的情况下对所附权利要求书中叙述的主题的所有修改和等效物。此外，除非本文另外指示或与上下文明显矛盾，否则本发明涵盖上述要素的所有可能变化形式的任何组合。

参考文献

Valouev et al.用于亚硫酸盐转化测序的双索引DNA文库的制备方法(Methodsof preparing dual-indexed DNA libraries for bisulfite conversion sequencing.)美国专利申请:US20180044731A1

Gai,W.and K.Sun,无细胞DNA中的表观遗传生物标志物及在液体活检中的应用(Epigenetic Biomarkers in Cell-Free DNA and Applications in Liquid Biopsy.)Genes(Basel),2019.10(1)。

Liu,Y.,et al.,以碱基分辨率对5-甲基胞嘧啶和5-羟甲基胞嘧啶进行不用亚硫酸盐的直接检测(Bisulfite-free direct detection of5-methylcytosine and 5-hydroxymethylcytosine at base resolution).Nat Biotechnol,2019.37(4):

Moss,J.,et al.,全面的人类细胞类型甲基化图谱揭示了健康和疾病中循环无细胞DNA的起源(Comprehensive human cell-type methylation atlas reveals originsof circulating cell-free DNA in health and disease.)Nat Commun,2018.9(1):第5068页。

Schutsky,E.K.,et al.,APOBEC3A有效地对DNA中的甲基化而不是TET氧化的胞嘧啶碱基进行脱氨(APOBEC3A efficiently deaminates methylated,but not TET-oxidized,cytosine bases in DNA.)Nucleic Acids Res,2017.45(13):第7655-7665页。

Claims

1.一种确定靶核酸的甲基化谱的方法，所述方法包括：

a)获得所述靶核酸；

b)用第一连接酶将第一接头连接到所述靶核酸的3'端；

c)用第二连接酶将第二接头连接到所述靶核酸的5'端以产生接头-靶-接头复合物；

d)将所述接头-靶-接头复合物中的未甲基化胞嘧啶转化为尿嘧啶以产生转化的靶；

e)任选地PCR扩增所述转化的靶；

f)对所述转化的靶测序；

g)将所述转化的靶的序列与参考序列比较以确定所述靶核酸的甲基化谱。

2.根据权利要求1所述的方法，其中所述靶核酸分子是DNA。

3.根据权利要求2所述的方法，其中所述DNA是全基因组DNA、cfDNA或FFPE DNA。

4.根据权利要求1所述的方法，其中所述第一连接酶是T4 DNA连接酶。

5.根据权利要求4所述的方法，其中所述T4 DNA连接酶是突变连接酶。

6.根据权利要求5所述的方法，其中所述突变连接酶在K159处含有氨基酸替换。

7.根据权利要求1所述的方法，其中所述第一接头或第二接头含有独特分子标识符序列。

8.根据权利要求1所述的方法，其中所述第一接头和第二接头含有独特分子标识符序列。

9.根据权利要求1所述的方法，其中未甲基化胞嘧啶向尿嘧啶的所述转化包括用亚硫酸氢盐处理。

10.根据权利要求1所述的方法，其中未甲基化胞嘧啶向尿嘧啶的所述转化包括用胞苷脱氨酶处理。

11.根据权利要求1所述的方法，其中所述接头包含通用引发位点。

12.根据权利要求1所述的方法，其中通过杂交捕获来富集接头-靶-接头复合物。

13.根据权利要求1所述的方法，其中步骤a)至g)依次进行。