CN113652476B

CN113652476B - 羟甲基化分析中dna整体转化效率的评估方法

Info

Publication number: CN113652476B
Application number: CN202110897064.6A
Authority: CN
Inventors: 姜正文; 王果; 方欧
Original assignee: Shanghai Genesky Bio Tech Co ltd
Current assignee: Shanghai Genesky Bio Tech Co ltd
Priority date: 2021-08-05
Filing date: 2021-08-05
Publication date: 2024-05-03
Anticipated expiration: 2041-08-05
Also published as: CN113652476A

Abstract

本发明提供一种羟甲基化分析中DNA整体转化效率的评估方法。在羟甲基化检测分析中，DNA转化效率的检测至关重要，但由于当前转化效率检测技术的应用限制及转化效率不佳带来的一系列问题，急需一种快速、准确且低成本的适用于测序前对DNA转化效率进行检测的方法。本发明提供了一种用于评估羟甲基化分析中DNA整体转化效率的外源参照核酸片段组合物，通过一个修饰位点的转化效率即可反应片段的整体转化效率，再结合SNaPshot方法，通过延伸位点碱基峰的峰高比估算DNA整体转化效率。本申请的评估方法快速准确、具有普适性且成本低廉，将该方法用于二代测序之前，对转化效率进行质控，提高DNA羟甲基化分析准确性和高效性。

Description

羟甲基化分析中DNA整体转化效率的评估方法

技术领域

本发明具体涉及羟甲基化分析中DNA整体转化效率的评估方法。

背景技术

DNA羟甲基化修饰(5-hydroxymethylcytosine,5hmC)作为一种新的修饰形式，其化学本质是在DNA甲基化(5-methylcytosine,5mC)的基础上，胞嘧啶第五位碳原子的甲基基团上增加一个羟基基团。羟甲基化修饰不仅参与了DNA去甲基化过程，而且在胚胎发育、细胞分化及基因转录与表达调控等过程中发挥重要作用，此外，5hmC还可能与特定的肿瘤发生密切相关，或可成为某些肿瘤早期诊断的分子标志物。因其重要的生物学功能，5hmC修饰日益得到关注，相关的检测方法也得到极大发展。其中，APOBEC-偶联表观遗传测序(APOBEC-coupled epigenetic sequencing)(Schutsky,E.K.,DeNizio,J.E.,Hu,P.,Liu,M.Y.,Nabel,C.S.,Fabyanic,E.B.,...Kohli,R.M.(2018).Nondestructive,base-resolution sequencing of 5-hydroxymethylcytosine using a DNA deaminase.NatBiotechnol.doi:10.1038/nbt.4204)作为近年来的新技术，具有微量，灵敏度高，对DNA损伤较小，直接检测5hmC的特点，受到广泛关注与应用。

APOBEC-偶联表观遗传测序是一种基于APOBEC(apolipoprotein B mRNA editingcatalyzed polypeptide)酶学转化的DNA羟甲基化水平检测方法，该方法首先使用β-GT(β-glucosyltransferase)对羟甲基化5hmC进行保护，后使用APOBEC脱氨酶处理，使甲基化5mC及未甲基化C碱基分别转化为胸腺嘧啶T和尿嘧啶U碱基，而经保护的5hmC不受影响，经文库构建及测序后，甲基化5mC与未甲基化C碱基测序结果为T碱基，而5hmC测序结果保持为C碱基，从而实现对DNA羟甲基化位点的直接检测。可见，5mC及未甲基化C转化为T或U以及5hmC未转化(被保护)的效率，直接决定了该方法对DNA羟甲基化检测的准确性，若样本中5mC及C碱基转化效率过低，会造成检测结果的假阳性；若样本中5hmC被保护效率过低，即5hmC-T转化效率过高，会导致无法检测到真实的羟甲基化修饰，产生假阴性结果；因此，在该DNA羟甲基化检测方法中，对DNA甲基化5mC、未甲基化C及羟甲基化5hmC转化效率的检测非常必要。

通过添加外源Spike in control序列，用于评估甲基化5mC、未甲基化C及羟甲基化5hmC的转化效率是一种经典且有效的转化效率评估方法。APOBEC-偶联表观遗传测序实验中，因APOBEC脱氨酶存在位点偏好性，极少部分区域的5mC碱基，转化效率远低于整体水平，显然，用于评估5mC-T转化效率的Spike in control序列需包含特殊的转化效率较差的位点，以能够真实反映转化效率的问题。另一方面，因APOBEC脱氨酶对未甲基化C的脱氨作用优于甲基化5mC，因此，对5mC-T转化效率的评估即可反映出未甲基化C-U的转化效率，在二代测序前对转化效率质控时，不需额外对C-U的转化效率进行评估。

目前对DNA转化效率的评估，主要包括以下方法：1)一代测序方法。Sanger测序虽成本低，但需要进行PCR扩增、克隆至载体等步骤，较为繁琐，准确性欠佳。2)二代测序方法。二代测序通量高、准确性好，但由于建库上机及分析流程的问题，周期较长。3)荧光定量方法。该方法操作时间短，但需额外设置标准品曲线以直观展示羟甲基化水平，并且方法的分辨率有限。

因此，在后续二代测序前，迫切需要一种简单快速、具有普适性且成本低廉的检测方法，对转化效率进行质控，以避免测序后才发现问题造成的试剂，人力以及时间的浪费。

发明内容

本发明的目的是提供一种能够准确评估羟甲基化分析中DNA整体转化效率的外源参照核酸片段组合物，以及在羟甲基化分析中能够快速且准确地进行DNA整体转化效率评估的方法。

为解决上述技术问题，本发明采用如下技术方案：

本发明第一方面提供一种用于评估羟甲基化分析中DNA整体转化效率的外源参照核酸片段组合物，所述的外源参照核酸片段组合物包括用于评估DNA整体甲基化转化效率的第一核酸片段，所述的第一核酸片段具有如SEQ ID NO.1所示的序列，所述的第一核酸片段46位点或52位点具有甲基化修饰。

优选地，所述的第一核酸片段的22位点、37位点、39位点、46位点、48位点、52位点、53位点、60位点、64位点、67位点、72～74位点、76位点、77位点、94位点、95位点、98～100位点、113位点、119位点、120位点、124位点、126位点、129位点、131位点、133位点、143位点、146位点、151位点、152位点、154位点、158位点、160位点、166位点、168位点、170位点、171位点、174位点、178位点、180位点、181位点、185位点、186位点、189位点、192位点、193位点、195位点、203位点中的一个或多个具有甲基化修饰。

根据一种具体且优选地实施方式，所述的第一核酸片段的22位点、37位点、39位点、46位点、48位点、52位点、53位点、60位点、64位点、67位点、72～74位点、76位点、77位点、94位点、95位点、98～100位点、113位点、119位点、120位点、124位点、126位点、129位点、131位点、133位点、143位点、146位点、151位点、152位点、154位点、158位点、160位点、166位点、168位点、170位点、171位点、174位点、178位点、180位点、181位点、185位点、186位点、189位点、192位点、193位点、195位点、203位点具有甲基化修饰。

优选地，所述的外源参照核酸片段组合物还包括用于评估DNA整体羟甲基化转化效率的第二核酸片段，所述的第二核酸片段具有如SEQ ID NO.2所示的序列，所述的第二核酸片段的46位点、49位点、53位点、59位点、60～62位点、70位点、75～79位点、87位点、92～95位点、97位点、103位点、106位点、112位点、115位点、119位点、121位点、125位点、126位点、128～130位点、132位点、134位点、136位点、137位点、140位点、142位点、143位点、146位点、148位点、150位点、153位点、156位点、168位点、169位点、174位点、180位点、189位点中至少一个位点具有羟甲基化修饰。

根据一种具体且优选地实施方式，所述的第二核酸片段的46位点、49位点、53位点、59位点、60～62位点、70位点、75～79位点、87位点、92～95位点、97位点、103位点、106位点、112位点、115位点、119位点、121位点、125位点、126位点、128～130位点、132位点、134位点、136位点、137位点、140位点、142位点、143位点、146位点、148位点、150位点、153位点、156位点、168位点、169位点、174位点、180位点、189位点具有羟甲基化修饰。

本发明第二方面提供一种用于评估羟甲基化分析中DNA整体转化效率的试剂盒，所述的试剂盒包括所述的外源参照核酸片段组合物。

优选地，所述的试剂盒还包括用于保护羟甲基化修饰位点的糖基化转移酶；用于未甲基化及甲基化修饰位点转化处理的APOBEC脱氨酶。

优选地，所述的试剂盒还包括用于扩增转化后的第一核酸片段和转化后的第一核酸片段的扩增反应试剂，所述的扩增反应试剂包括用于扩增转化后的第一核酸片段的第一引物对和用于扩增转化后的第二核酸片段的第二引物对。

进一步优选地，所述的试剂盒还包括SNaPshot方法使用的SNaPshot检测试剂，

所述的SNaPshot检测试剂包括：

用于转化后的第一核酸片段的扩增产物的单碱基延伸反应的第一单碱基延伸反应引物，所述的第一核酸片段的扩增产物的单碱基延伸反应的延伸位点为选定甲基化修饰位点；

用于转化后的第二核酸片段的扩增产物的单碱基延伸反应的第二单碱基延伸反应引物，所述的第二核酸片段的扩增产物的单碱基延伸反应的延伸位点为选定羟甲基化修饰位点；

用于毛细管电泳荧光检测的试剂。

根据一种具体且优选地实施方式：

所述的外源参照核酸片段组合物包括具有如SEQ ID NO.1所示的序列且46位点具有甲基化修饰的第一核酸片段、以及具有如SEQ ID NO.2所示的序列且59位点具有羟甲基化修饰的第二核酸片段；

所述的第一引物对包括具有如SEQ ID NO.7所示的序列的正向引物和如SEQ IDNO.8所示的序列的反向引物；

所述的第二引物对包括具有如SEQ ID NO.9所示的序列的正向引物和如SEQ IDNO.10所示的序列的反向引物；

所述的第一单碱基延伸反应引物具有如SEQ ID NO.11所示的序列；

所述的第二单碱基延伸反应引物具有如SEQ ID NO.12所示的序列。

更具体且更优选地，所述的试剂盒中所述的外源参照核酸片段组合物包括具有如SEQ ID NO.1所示的序列且22位点、37位点、39位点、46位点、48位点、52位点、53位点、60位点、64位点、67位点、72～74位点、76位点、77位点、94位点、95位点、98～100位点、113位点、119位点、120位点、124位点、126位点、129位点、131位点、133位点、143位点、146位点、151位点、152位点、154位点、158位点、160位点、166位点、168位点、170位点、171位点、174位点、178位点、180位点、181位点、185位点、186位点、189位点、192位点、193位点、195位点、203位点具有甲基化修饰的第一核酸片段、

以及具有如SEQ ID NO.2所示的序列且46位点、49位点、53位点、59位点、60～62位点、70位点、75～79位点、87位点、92～95位点、97位点、103位点、106位点、112位点、115位点、119位点、121位点、125位点、126位点、128～130位点、132位点、134位点、136位点、137位点、140位点、142位点、143位点、146位点、148位点、150位点、153位点、156位点、168位点、169位点、174位点、180位点、189位点具有羟甲基化修饰的第二核酸片段。

本发明第三方面还提供一种羟甲基化分析中DNA整体转化效率的评估方法，所述的评估方法包括：

将待检测DNA样本与甲基化修饰的第一外源参照核酸片段和羟甲基化修饰的第二外源参照核酸片段混合得到混合样本；

对混合样本采用糖基化转移酶进行糖基化处理；

对糖基化处理后的混合样本进行脱氨酶转化处理，得到转化后DNA混合物；

采用SNaPshot方法分别检测所述的转化后DNA混合物中的所述的第一外源参照核酸片段的选定甲基化修饰位点的碱基，并计算所述的第一外源参照核酸片段所述的选定甲基化修饰位点的5mC-T转化效率、以及所述的转化后DNA中的所述的第二外源参照核酸片段的选定羟甲基化修饰位点的碱基，并计算所述的第二外源参照核酸片段的所述的选定羟甲基化修饰位点的5hmC-T转化效率，从而获得所述的待检测DNA样本整体转化效率；

所述的选定甲基化修饰位点选自所述第一外源参照核酸片段上能够反应所述第一外源参照核酸片段整体5mC-T转化效率的甲基化修饰位点中的任意一个；所述的选定羟甲基化修饰位点选自所述第二外源参照核酸片段上能够反应所述第二外源参照核酸片段整体5hmC-T转化效率的羟甲基化修饰位点中的任意一个。

优选地，所述糖基化转移酶为β-葡萄糖基转移酶；所述的脱氨酶转化处理采用APOBEC脱氨酶转化。

根据一种具体且优选地实施方式，所述的评估方法具体包括：

(1)、将甲基化修饰的第一外源参照核酸片段和羟甲基化修饰的第二外源参照核酸片段与待检测DNA样本混合得到混合样本；

(2)、采用β-葡萄糖基转移酶对步骤(1)的混合样本于30～45℃下进行糖基化处理得到糖基化处理后的混合样本；

(3)、采用APOBEC脱氨酶将步骤(2)的糖基化处理后的混合样本于30～45℃下进行脱氨反应得到转化后DNA混合物；

(4)、根据转化后的甲基化修饰的第一外源参照核酸片段和转化后的羟甲基化修饰的第二外源参照核酸片段分别设计扩增引物，

转化后DNA混合物中的转化后的甲基化修饰的第一外源参照核酸片段经PCR扩增得到第一扩增产物，转化后的羟甲基化修饰的第二外源参照核酸片段经PCR扩增得到第二扩增产物；

(5)、根据步骤(4)的第一扩增产物的选定的甲基化修饰的位点以及第二扩增产物的选定的羟甲基化修饰的位点分别设计单碱基延伸反应引物，

第一扩增产物经单碱基延伸反应得到第一单碱基延伸反应产物，第二扩增产物进行单碱基延伸反应得到第二单碱基延伸反应产物。

(6)将步骤(5)的第一单碱基延伸反应产物和第二单碱基延伸反应产物与HiDi和Liz120混合，采用毛细管电泳法检测延伸位点碱基峰高，

根据第一单碱基延伸反应产物和第二单碱基延伸反应产物的理论产物长度判断第一单碱基延伸反应产物的出峰位置和第二单碱基延伸反应产物的出峰位置，

计算第一单碱基延伸反应产物中延伸位点为胸腺嘧啶的延伸产物峰的峰高占第一单碱基延伸反应产物的总峰高的比例，即为DNA甲基化转化效率；

计算第二单碱基延伸反应产物中延伸位点为胸腺嘧啶的延伸产物峰的峰高占第二单碱基延伸反应产物的总峰高的比例，即为DNA羟甲基化转化效率。

优选地，所述的评估方法中甲基化修饰的第一外源参照核酸片段和羟甲基化修饰的第二外源参照核酸片段采用所述的外源参照核酸片段组合物，或所述的评估方法采用所述的试剂盒。

进一步优选地，当所述的第一外源参照核酸片段如SEQ ID NO.1所示，所述的选定甲基化修饰位点为46位点或52位点。

进一步优选地，当所述的第二外源参照核酸片段如SEQ ID NO.2所示，所述的选定羟甲基化修饰位点选自46位点、49位点、53位点、59位点、60～62位点、70位点、75～79位点、87位点、92～95位点、97位点、103位点、106位点、112位点、115位点、119位点、121位点、125位点、126位点、128～130位点、132位点、134位点、136位点、137位点、140位点、142位点、143位点、146位点、148位点、150位点、153位点、156位点、168位点、169位点、174位点、180位点、或189位点中的任一位点。

本发明第四方面还提供SNaPshot方法在羟甲基化分析中的应用，所述的羟甲基化分析采用APOBEC-偶联表观遗传测序、氧化-重亚硫酸盐测序技术或TET辅助重亚硫酸盐测序，所述SNaPshot方法用于在二代测序前评估DNA整体转化效率。

本发明与现有技术相比具有如下优势：

本发明人经过广泛而深入的研究，在DNA羟甲基化检测(APOBEC-偶联表观遗传测序)中，发现额外添加的一段外源特殊DNA序列，其中的1个位点即可用来衡量全基因组或目标片段的整体5mC-T转化效率。进一步地，额外添加的另一段外源特殊DNA序列，其中的1个位点即可用于全基因组或目标片段的整体5hmC-T转化效率的评估。基于上述研究发现，本发明人又使用SNaPshot方法对转后的外源添加的DNA序列中的5mC及5hmC修饰位点进行检测，进而借助毛细管电泳，通过延伸位点碱基峰的峰高比估算DNA整体转化效率，最终建立了一种快速准确、具有普适性且成本低廉的DNA整体转化效率评估方法，将该方法用于二代测序之前，对转化效率进行质控，以避免测序后才发现问题造成的试剂、人力以及时间的浪费，为提高DNA羟甲基化分析准确性和高效性提供有效方法。

附图说明

附图1为二代测序方法检测的Spike in control-mC片段整体的5mC-T转化效率及部分位点5mC-T转化效率数据图；

附图2为二代测序方法检测的Spike in control-mC片段整体的5mC-T转化效率与46位和52位点的5mC-T转化效率相关性分析结果图；

附图3为二代测序方法检测的Spike in control-hmC片段整体及部分位点(46位点、49位点、53位点、59位点、61位点)的5hmC被保护效率(5hmC-C)数据图；

附图4为SNaPshot检测DNA转化效率技术路线示意图；

附图5为实施例2的单碱基延伸产物的毛细管电泳检测结果图；

附图6为实施例2的评估方法测试的Spike in control-mC片段46位点的5mC-T转化效率与二代测序方法评估Spike in control-mC片段46位点的5mC-T转化效率的相关性结果图；

附图7为实施例2的评估方法测试的Spike in control-mC片段46位点的5mC-T转化效率与二代测序方法评估Spike in control-mC片段整体的5mC-T转化效率的相关性结果图；

附图8为实施例2的评估方法测试的Spike in control-hmC片段59位点的5hmC-T转化效率与二代测序方法评估Spike in control-hmC片段59位5hmC位点5hmC-T转化效率的相关性结果图；

附图9为实施例2的评估方法测试的Spike in control-hmC片段59位点的5hmC-T转化效率与二代测序方法评估Spike in control-hmC片段整体的5hmC-T转化效率的相关性结果图；

附图10为实施例3的单碱基延伸产物的毛细管电泳检测结果图；

附图11为SNaPshot方法评估的Spike in control-mC片段46位点的5mC-T转化效率与二代测序方法评估Spike in control-mC片段整体的5mC-T转化效率的相关性结果图。

附图12为实施例4的不同酶处理方式下的单碱基延伸产物的毛细管电泳检测结果图；

附图13为实施例4的不同酶处理方式下采用SNaPshot方法评估的Spike incontrol-mC片段46位点的5mC-T转化效率与二代测序方法评估Spike in control-mC片段46位点5mC-T转化效率数据统计结果比较图。

具体实施方式

下面结合实施例对本发明作进一步描述。但本发明并不限于以下实施例。实施例中采用的实施条件可以根据具体使用的不同要求做进一步调整，未注明的实施条件为本行业中的常规条件。本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明中具体实施例中，所使用的原料、实际均可通过市售获得。

本发明中，外源参照核酸片段也称“Spike in control序列”；甲基化简称“5mC”；羟甲基化简称“5hmC”。

本发明中，位点是指从Spike in control序列的5’端开始计数，具有甲基化修饰或羟甲基化修饰的碱基的序号。

实施例1：用于DNA整体转化效率评估的Spike in control序列及位点信息

1.1用于评估DNA整体5mC-T转化效率的Spike in control序列

1.1.1Spike in control-PRE mC序列：用于5mC-T转化效率评估的无修饰Spikein control序列

Spike in control-PRE mC序列自5’端向3’端依次排列为:

CCAGACTCCTACGGGAGGCAGCAGTGGGGAATATTGCACAATGGGCGCAAGCCTGATTACTAGCTTCGTTTCCCACCAGGATAGTTAGGAGTGCCGACCCGTTATAGAAGTGCAGTGTCCTTTCTCTGCACTCGAGTTAAGTCGACAAGTCCTCTTACGCTAGGACTCACCGGCTAACTCCGTGCCAGCAGCCGCGGTAATACG(SEQ ID NO.1)。

本实施例中Spike in control-PRE mC序列通过人工合成，并插入到载体pUC57中，本实施例中使用质粒作为Spike in control-PRE mC序列的载体，无修饰的Spike incontrol片段(Spike in control-PRE mC序列)可以包括且不限于化学合成DNA，PCR产物等形式制备。

1.1.2已添加5mC修饰的Spike in control-mC序列

Spike in control-mC序列自5’端向3’端依次排列为(大写字母表示的碱基具有甲基化5mC修饰):

ccagactcctacgggaggcagCagtggggaatattgCaCaatgggCgCaagCCtgattaCtagCttCgtttCCCaCCaggatagttaggagtgCCgaCCCgttatagaagtgcagtgtCCtttCtCtgCaCtCgagttaagtCgaCaagtCCtCttaCgCtaggaCtCaCCggCtaaCtCCgtgCCagCagCCgCggtaataCg。

本实施例使用PCR扩增方式将5mC修饰添加至Spike in control-PRE mC片段中，制备为已添加修饰碱基的Spike in control-mC序列。不同修饰状态的Spike in control片段的制备方法同样可以包括且不限于化学合成、酶学转化等方法获得。

本实施中，用于PCR的引物对为：

表1

PCR扩增之后使用ZYMO RESEARCH公司的DNA Clean&Concentrator-5(200Preps)w/Zymo-Spin IC Columns(Capped)纯化后标记为Spike in control-mC，并用Qubit精确定量。纯化方式同样可以包括且不限于磁珠法、沉淀法等方法。

1.1.3用于评估DNA整体5mC-T转化效率的5mC修饰位点的选择

采用APOBEC-偶联表观遗传测序实验对已添加5mC修饰的Spike in control-mC序列进行脱氨酶转化，通过二代测序方法分析各位点转化效率，比较每个位点的转化效率与Spike in control-mC序列整体转化效率的相关性，Spike in control-mC序列整体转化效率是指：已添加5mC修饰的Spike in control-mC序列中所有的甲基化位点的转化效率的平均值。

二代测序方法检测的Spike in control-mC片段整体的5mC-T转化效率及部分位点5mC-T转化效率数据见图1。图1中展示44个样本二代测序方法检测的转化效率结果，横坐标值为使用二代测序方法检测的Spike in control-mC片段整体的5mC-T转化效率，纵坐标值表示使用二代测序方法检测的某个位点的甲基化5mC位点(图中选取22位点、37位点、46位点、52位点、64位点)的5mC-T转化效率，同一样本的位点检测结果对应同一横坐标值。

分析Spike in control-mC序列的DNA转化效率二代测序检测结果发现，APOBEC脱氨酶对甲基化5mC位点的脱氨作用存在位点偏好性，整体转化效率均较高，但个别位点的转化效率明显偏低。如图1所示，46位和52位甲基化5mC位点的5mC-T转化效率低于片段整体转化效率水平。显然，这些转化效率偏低的位点才真实反映了实验中5mC-T转化效率。其余部分位点的转化效率较高，明显不适合作为评估位点，因此未在图1中显示。

二代测序方法检测的Spike in control-mC片段整体的5mC-T转化效率与46位和52位点的5mC-T转化效率相关性分析见图2。图2展示44个样本二代测序数据检测的转化效率结果，横坐标表示二代测序方法检测的Spike in control-mC片段整体的5mC-T转化效率，纵坐标表示二代测序方法检测的某个甲基化5mC位点的5mC-T转化效率。△表示46位甲基化5mC位点与片段整体转化效率数据，其相关性R²值为0.8587；×表示52位甲基化5mC位点与片段整体转化效率数据，其相关性R²值为0.8493。

基于二代测序发现的脱氨酶具有位点偏好性问题，对于5mC-T转化效率测序前质控评估的位点需包含脱氨作用异常的位点，以具有5mC-T转化效率代表性，46位点和52位点能够更真实的反映整体转化效率。分析46位与52位甲基化5mC位点转化效率与片段整体转化效率数据发现，46位甲基化5mC位点与片段整体转化效率水平相关性稍优于52位甲基化5mC位点(图2)。

以下实施例中我们选择46位甲基化5mC修饰的Spike in control-mC序列用于5mC-T转化效率测序前质控评估。

1.2用于评估DNA整体5hmC-T转化效率的Spike in control序列

1.2.1Spike in control-PRE hmC序列：用于5hmC-T转化效率评估的无修饰Spikein control序列

Spike in control-PRE hmC序列自5’端向3’端依次排列为:

TACCCATCACAATCGGAGGCTTTGGCAACTGACTAGTTCCCCTAATAATCGGTGCCCCCGATATGGCGTTTCCCCGCATAAACAACATAAGCTTCTGACTCTTACCTCCCTCTCTCCTACTCCTGCTCGCATCTGCTATAGTGGAGGCCGGAGCAGGAACAGGTTGAAC(SEQ ID NO.2)。

本实施例中Spike in control-PRE hmC序列通过人工合成，并插入到载体pUC57中，本实施例中使用质粒作为Spike in control-PRE hmC序列的载体，无修饰的Spike incontrol片段(Spike in control-PRE hmC序列)可以包括且不限于化学合成DNA，PCR产物等形式制备。

1.2.2已添加5hmC修饰Spike in control-hmC序列。

Spike in control-hmC序列自5’端向3’端依次排列为(大写字母表示的碱基具有羟甲基化5hmC修饰):

tgacgatgtagcatgcaacgtacccatcacaatcggaggctttggCaaCtgaCtagttCCCCtaataatCggtgCCCCCgatatggCgtttCCCCgCataaaCaaCataagCttCtgaCtCttaCCtCCCtCtCtCCtaCtCCtgCtCgCatCtgCtatagtggaggCCggagCaggaaCaggttgaaCtgatgtgatgggtggtatgg。

本实施例使用PCR扩增方式将5hmC修饰添加至Spike in control-PRE hmC片段中，制备为已添加修饰碱基的Spike in control-hmC序列。不同修饰状态的Spike incontrol片段的制备方法同样可以包括且不限于化学合成、酶学转化等方法获得。

本实施中，用于PCR的引物对为：

表2

PCR扩增之后使用ZYMO RESEARCH公司的DNA Clean&Concentrator-5(200Preps)w/Zymo-Spin IC Columns(Capped)纯化后标记为Spike in control-hmC，并用Qubit精确定量。纯化方式还包括但不限于磁珠法、沉淀法等方法。

1.2.3用于评估DNA整体5hmC-T转化效率的5hmC修饰位点的选择

采用APOBEC-偶联表观遗传测序实验，通过二代测序方法对Spike in control-hmC序列的DNA转化效率进行检测。APOBEC脱氨酶对羟甲基化5hmC的脱氨作用约低于其对胞嘧啶C脱氨作用的5000倍，而在APOBEC-偶联表观遗传测序中，羟甲基化5hmC首先需经过β-GT的保护，再进行APOBEC脱氨酶的处理。因此，APOBEC脱氨酶对已被β-GT保护的羟甲基化5hmC位点的脱氨作用有限，理论上所有羟甲基化5hmC位点的5hmC-T的转化效率较低(5hmC-C的保护效率较高)。

图3为二代测序方法检测的Spike in control-hmC片段整体及部分位点(46位点、49位点、53位点、59位点、61位点)的5hmC被保护效率(5hmC-C)。图3中展示9个样本二代测序方法检测结果，横坐标表示样本编号，纵坐标表示二代测序方法检测的5hmC被保护效率，不同的点表示不同的羟甲基化位点。

分析Spike in control-hmC序列的DNA转化效率二代测序检测结果发现，基本上所有羟甲基化5hmC位点的5hmC被保护效率(5hmC-C转化效率)均处于高水平，并且位点的被保护效率与片段整体的5hmC被保护效率一致(图3)。基于该结果，推测59位羟甲基化5hmC与该片段的其它位点均可用于羟甲基化的转化效率评估。

以下实施例中我们选择59位羟甲基化5hmC修饰的Spike in control-hmC序列用于5hmC-T转化效率测序前质控评估。

实施例2：在测序前快速评估目标区域DNA羟甲基化水平分析中5mC-T及5hmC-T的转化效率

本实施例使用APOBEC-偶联表观遗传测序方法进行DNA羟甲基化水平的检测，在测序前快速评估目标区域DNA羟甲基化水平分析中5mC-T及5hmC-T的转化效率。

2.1Spike in control-mC序列和Spike in control-hmC序列来自实施例1。

2.2DNA羟甲基化检测处理

1)将已修饰Spike in control-mC片段、已修饰Spike in control-hmC片段分别以全基因DNA样本总质量的0.2％加入全基因组DNA样本中制备为混合样本；

2)混合样本使用β-GT(β-glucosyltransferase)在37℃条件下进行糖基化处理；

3)已糖基化处理的样本使用APOBEC脱氨酶在37℃条件下进行脱氨反应；

4)脱氨反应产物的纯化：本实施例使用磁珠法纯化处理产物，但处理产物的纯化包括且不限于柱纯化、沉淀法等方法。

2.3酶转化处理后的已修饰Spike in control片段的扩增及建库；

1)依据已修饰Spike in control片段(Spike in control-mC序列、Spike incontrol-hmC序列)酶转化处理后的序列，设计处理后已修饰Spike in control序列的扩增引物并合成。本发明使用的酶转化处理后已修饰Spike in control序列扩增引物见表3，处理后已修饰Spike in control-mC序列的扩增引物对包括正向引物mC-F(SEQ ID NO.7)和反向引物mC-R(SEQ ID NO.8)；处理后已修饰Spike in control-hmC序列的扩增引物对包括正向引物hmC-F(SEQ ID NO.9)和反向引物hmC-R(SEQ ID NO.10)。

表3

2)取已纯化处理后洗脱产物，使用表3中的引物进行28个循环的扩增，电泳检测扩增产物是否成功。

3)将处理后已修饰Spike in control片段(Spike in control-mC序列、Spike incontrol-hmC序列)的扩增产物进行Index PCR，为扩增子文库两端添加用于区分样品的index序列以及Illumina测序平台所需的通用序列；

4)取8μL处理后已修饰Spike in control片段(Spike in control-mC序列、Spikein control-hmC序列)的Index PCR扩增产物加入表4所示体系进行Index PCR产物纯化，反应程序见表5。

表4

试剂	体积
		rSAP(0.5U/μL)	1μL
ExoI(20U/μL)	0.1μL
		Index PCR产物	8μL
ddH₂O	0.9μL
		总体积	10μL

表5

	反应温度	反应时间	循环数
				1Step	37℃	60min	1
2Step	75℃	15min	1
				3Step	4℃	forever	1

2.4采用SNaPshot方法快速评估DNA整体转化效率

1)合成单碱基延伸反应引物；

对经酶处理转化后已修饰Spike in control序列(Spike in control-mC序列、Spike in control-hmC序列)的PCR扩增产物中的位点设计并合成位点单碱基延伸反应引物。本实施例中用于评估5mC-T转化效率的位点是Spike in control-mC序列中46位甲基化5mC位点，因APOBEC脱氨酶脱氨作用具有偏好性，在此位点的脱氨作用较差，此位点用于代表整体的基因组5mC-T的转化效率效果较佳(实施例1)。本实施中用于评估5hmC-T转化效率的位点是Spike in control-hmC序列中59位羟甲基化5hmC位点，但对于5hmC-T转化效率评估的单碱基延伸位点的选取包括但不限于此片段中59位点羟甲基修饰位点。本发明使用的单碱基延伸反应引物见表6，用于延伸经酶处理转化后已修饰Spike in control-mC序列的PCR扩增产物中的46位点的单碱基延伸引物为SNaPshot-mC(SEQ ID NO.11)；用于延伸经酶处理转化后已修饰Spike in control-hmC序列的PCR扩增产物中的59位点的单碱基延伸引物为SNaPshot-hmC(SEQ ID NO.12)。

表6

引物名称	引物序列
		SNaPshot-mC(SEQ ID NO.11)	AGTAGTGGGGAATATTGTATAATGGG
SNaPshot-hmC(SEQ ID NO.12)	TTTTTTTTTTTTTTTTTTTTGAGGTTTTGGCAACTGACTAGTT

2)单碱基延伸反应

本实施例中的延伸反应可采用多重或单位点PCR反应，具体可根据检测需求进行调整。

反应体系见表7：

表7

试剂	体积
		5×seq buffer	0.8μL
SNaPshot mix	0.4μL
		已纯化Index PCR产物	1μL
延伸Primer(1μM)	1μL
		ddH₂O	2.8μL
总体积	6μL

反应程序见表8：

表8

	变性	退火	延伸	保持	循环数
						1Step	96℃1min		1×
2Step	96℃10s	52℃5s	60℃1.5min		28×
						3Step		4℃	forever

3)在上述延伸反应体系中加入1μL rSAP(0.5U/μL)纯化反应产物。

纯化反应程序见表9：

表9

4)反应产物毛细管电泳；

配制表10所示反应体系：

表10

反应程序见表11：

表11

	反应温度	反应时间	循环数
				1Step	95℃	5min	1
2Step	4℃	forever	1

5)ABI 3730基因分析仪上机，使用SNaPshot/SNP程序检测；

数据分析，使用Peakscan软件打开原始数据，并使用Liz120作为参照进行数据分析。图4显示了SNaPshot检测DNA转化效率技术路线。浅色线条表示Spike in control-mC序列酶转化处理后的PCR扩增产物，深色线条表示Spike in control-hmC序列酶转化处理后的PCR扩增产物；深色圆圈代表此位点为C/T碱基，浅色圆圈代表此位点为G/A碱基；毛细管电泳图中C碱基和T碱基的峰图都用箭头指示，两个位点分别代表DNA甲基化Spike incontrol-mC序列中的46位点及DNA羟甲基化Spike in control-hmC序列中的59位点。

本实施例中，单碱基延伸产物的毛细管电泳检测结果见图5。根据理论的产物长度可判断出片段对应的延伸产物峰的位置(图5)，在图5中，方框分别框出Spike in control-mC片段的46位5mC位点、Spike in control-hmC片段的59位5hmC位点对应的延伸产物峰，C碱基和T碱基的峰图都用箭头指示，依据单碱基延伸位点的T碱基与(C+T)碱基的峰高比评估此位点的DNA转化效率。经计算，本实施例中DNA甲基化5mC位点的碱基峰高比为0.96，即5mC-T的转化效率为96％，DNA羟甲基化5hmC位点的碱基峰高比为0.08，即5hmC-T的转化效率为8％。

本实施例的快速评估DNA转化效率与二代测试结果比较

图6显示本实施例的快速评估方法检测的Spike in control-mC片段46位点的5mC-T转化效率与二代测序方法评估Spike in control-mC片段46位点的5mC-T转化效率的相关性结果。图6中展示包括本实施例在内的12个样本两种方法计算的转化效率结果，正方形图标表示样本，横坐标表示采用SNaPshot方法评估的5mC-T转化效率，纵坐标表示二代测序方法评估的5mC-T转化效率。两种方法计算的Spike in control-mC片段46位点5mC-T的转化效率结果较一致，R²值为0.9786。

图7显示本实施例的快速评估方法检测的Spike in control-mC片段46位点的5mC-T转化效率与二代测序方法评估Spike in control-mC片段整体的5mC-T转化效率的相关性结果。图7中展示包括本实施例在内的12个样本两种方法计算的转化效率结果，正方形图标表示样本，横坐标表示采用SNaPshot方法评估的46位点5mC-T转化效率，纵坐标表示二代测序方法评估的整体5mC-T转化效率。本实施例方法评估的Spike in control-mC片段46位点的5mC-T转化效率与二代测序方法检测的片段整体5mC-T转化效率结果相关性较好，R²值为0.9189。

图8显示本实施例的快速评估方法检测的Spike in control-hmC片段59位点的5hmC-T转化效率与二代测序方法评估Spike in control-hmC片段59位5hmC位点5hmC-T转化效率的相关性结果。图8中展示包括本实施例在内的12个样本两种方法计算的转化效率结果，正方形图标表示样本。横坐标表示采用SNaPshot方法评估的59位点5hmC-T转化效率，纵坐标表示二代测序方法计算的59位点5hmC-T转化效率。两种方法在Spike in control-hmC片段59位点的5hmC-T转化效率结果相关性R²值为0.7684。

图9显示本实施例的快速评估方法检测的Spike in control-hmC片段59位点的5hmC-T转化效率与二代测序方法评估Spike in control-hmC片段整体的5hmC-T转化效率的相关性结果。图9中展示包括本实施例在内的12个样本两种方法计算的转化效率结果，正方形图标表示样本。横坐标表示SNaPshot方法评估的59位点5hmC-T转化效率，纵坐标表示二代测序方法评估的整体5hmC-T转化效率。SNaPshot方法评估的Spike in control-hmC片段59位点的5hmC-T转化效率与二代测序方法检测的片段整体5hmC-T转化效率结果相关性R²值为0.7662。

在目标区域羟甲基化测序中，不论是在Spike in control-mC片段46位点，还是在Spike in control-mC整个片段间，使用SNaPshot方法对5mC-T转化效率的评估与使用二代测序方法对5mC-T转化效率的评估结果，均具有较好的一致性，R²＞0.91(图6、图7)，使用Spike in control-mC片段的46位点进行5mC-T转化效率的评估具有较好的代表性，该位点用于全基因组5mC-T转化效率的评估作用较佳。

使用SNaPshot方法对5hmC-T转化效率的评估与使用二代测序方法对5hmC-T转化效率的评估结果在Spike in control-hmC片段的59位点及整个片段间均具有相关性，R²＞0.75(图8、图9)，该位点适合用于全基因组5hmC-T转化效率的评估。

实施例3：采用SNaPshot快速评估全基因组DNA羟甲基化水平分析中5mC-T的转化效率与二代测序结果比较

本实施例使用APOBEC-偶联表观遗传测序方法中进行DNA羟甲基化水平分析，在全基因组水平下进行DNA羟甲基化的检测。显然，SNaPshot快速评估方法也可用于其他DNA羟甲基化检测方法，包括且不限于氧化-重亚硫酸盐测序技术(oxBs-seq)、TET辅助重亚硫酸盐测序(TAB-seq)等处理方法。

1)同实施例1制备Spike in control-mC序列；

2)基因组DNA样本使用Covaris ME220仪器进行片段化处理；

3)添加0.2％质量比的Spike in control-mC片段至已片段化处理的基因组DNA样本中制备为混合样本；

4)参照实施例1对混合样本进行β-GT(β-glucosyltransferase)和APOBEC处理，并采用磁珠法进行反应产物的纯化；

5)参照实施例1所示，取1uL纯化洗脱产物，使用针对酶转化处理后的Spike incontrol-mC片段的扩增引物进行28个循环的PCR扩增，并对产物进行Index PCR，为扩增子文库两端添加用于区分样品的index序列以及Illumina测序平台所需的通用序列；

6)参照实施例1所示，对Index PCR产物进行纯化并针对酶转化处理后的Spike incontrol-mC片段的46位mC位点进行单碱基延伸反应，反应产物纯化；

7)ABI 3730基因分析仪上机，使用SNaPshot/SNP程序检测；

8)参照实施例2进行数据分析，根据碱基峰的峰高比可以计算出位点转化效率，DNA甲基化转化效率5mC-T为91％(图10)。

图10显示本实施例中单碱基延伸产物的毛细管电泳检测结果。在毛细管电泳结果中，C碱基和T碱基的峰图都用箭头指示，依据位点的T碱基与(C+T)碱基的峰高评估此位点的DNA转化效率。方框框出Spike in control-mC片段的46位5mC位点对应的延伸产物峰。本实施例中DNA甲基化5mC位点的碱基峰高比为0.91，即5mC-T的转化效率为91％。

图11显示SNaPshot方法评估的Spike in control-mC片段46位点的5mC-T转化效率与二代测序方法评估Spike in control-mC片段整体的5mC-T转化效率的相关性结果。图11中展示包括实施例2在内的8个样本两种方法计算的转化效率结果，正方形图标表示样本。横坐标表示SNaPshot方法评估的46位点5mC-T转化效率，纵坐标表示二代测序方法评估的整体5mC-T转化效率。SNaPshot方法评估的Spike in control-mC片段46位点的5mC-T转化效率与二代测序方法检测的片段整体5mC-T转化效率结果相关性R²值为0.9815。

在全基因组羟甲基化检测中，使用SNaPshot方法对Spike in control-mC片段46位点5mC-T转化效率的评估与使用二代测序方法对Spike in control-mC片段整体5mC-T转化效率的评估结果一致性较好，R²＞0.98(图11)。

实施例4：采用SNaPshot转化效率评估方法用于不同羟甲基化酶转化处理方法的效果评价

1)同实施例1制备Spike in control-mC序列；

2)添加0.2％质量比的Spike in control-mC片段至基因组DNA样本中制备为混合样本；

3)参照实施例2对混合样本进行β-GT(β-glucosyltransferase)处理；

4)APOBEC处理步骤采用3种方法进行：方法1：上一步骤处理后的样本使用NaOH变性并进行APOBEC处理；方法2：上一步骤处理后的样本进行两次NaOH变性和APOBEC处理；方法3：上一步骤处理后的样本加入DMSO及高温热变性后进行APOBEC处理；APOBEC处理后采用磁珠法进行反应产物的纯化；

5)如实施例2所示，取1uL纯化洗脱产物，使用针对酶转化处理后的Spike incontrol-mC片段的扩增引物进行28个循环的PCR扩增，并对产物进行Index PCR，为扩增子文库两端添加用于区分样品的index序列以及Illumina测序平台所需的通用序列；

6)参照实施例2所示，对Index PCR产物进行纯化并针对酶转化处理后的Spike incontrol-mC片段的46位mC位点进行单碱基延伸反应，反应产物纯化；

7)ABI 3730基因分析仪上机，使用SNaPshot/SNP程序检测；

8)参照实施例2进行数据分析，根据碱基峰的峰高比可以计算出位点转化效率，方法1DNA甲基化转化效率5mC-T为62％(图12左)；方法2DNA甲基化转化效率5mC-T为92％(图12中)；方法3DNA甲基化转化效率5mC-T为54％(图12右)。

图13显示SNaPshot方法评估的Spike in control-mC片段46位点的5mC-T转化效率与二代测序方法评估Spike in control-mC片段46位点5mC-T转化效率数据统计结果。图13中展示包括本实施例的12个样本(每组酶转化处理方法4个样本)两种转化效率评估方法计算的转化效率结果。横坐标表示酶转化处理方法分组情况，纵坐标表示5mC-T转化效率。

在不同羟甲基化酶转化处理方法中，SNaPshot方法评估的Spike in control-mC片段46位点的5mC-T转化效率与二代测序方法检测的46位点5mC-T转化效率结果均较一致(图13)。因此，使用本发明的快速转化效率评估方法可在测序前对不同酶转化处理方法的效果进行快速且准确地评价。

以上对本发明做了详尽的描述，其目的在于让熟悉此领域技术的人士能够了解本发明的内容并加以实施，并不能以此限制本发明的保护范围，凡根据本发明的精神实质所作的等效变化或修饰，都应涵盖在本发明的保护范围内。

序列表

<110> 上海天昊生物科技有限公司

<120> 羟甲基化分析中DNA整体转化效率的评估方法

<160> 12

<170> SIPOSequenceListing 1.0

<210> 1

<211> 204

<212> DNA

<213> 人工序列(rengongxulie)

<400> 1

ccagactcct acgggaggca gcagtgggga atattgcaca atgggcgcaa gcctgattac 60

tagcttcgtt tcccaccagg atagttagga gtgccgaccc gttatagaag tgcagtgtcc 120

tttctctgca ctcgagttaa gtcgacaagt cctcttacgc taggactcac cggctaactc 180

cgtgccagca gccgcggtaa tacg 204

<210> 2

<211> 169

<212> DNA

<213> 人工序列(rengongxulie)

<400> 2

tacccatcac aatcggaggc tttggcaact gactagttcc cctaataatc ggtgcccccg 60

atatggcgtt tccccgcata aacaacataa gcttctgact cttacctccc tctctcctac 120

tcctgctcgc atctgctata gtggaggccg gagcaggaac aggttgaac 169

<210> 3

<211> 21

<212> DNA

<213> 人工序列(rengongxulie)

<400> 3

ccagactcct acgggaggca g 21

<210> 4

<211> 19

<212> DNA

<213> 人工序列(rengongxulie)

<400> 4

cgtattaccg cggctgctg 19

<210> 5

<211> 40

<212> DNA

<213> 人工序列(rengongxulie)

<400> 5

tgacgatgta gcatgcaacg tacccatcac aatcggaggc 40

<210> 6

<211> 40

<212> DNA

<213> 人工序列(rengongxulie)

<400> 6

ccataccacc catcacatca gttcaacctg ttcctgctcc 40

<210> 7

<211> 44

<212> DNA

<213> 人工序列(rengongxulie)

<400> 7

cctacacgac gctcttccga tctttagatt tttatgggag gtag 44

<210> 8

<211> 42

<212> DNA

<213> 人工序列(rengongxulie)

<400> 8

tcagacgtgt gctcttccga tctcatatta ccacaactac ta 42

<210> 9

<211> 43

<212> DNA

<213> 人工序列(rengongxulie)

<400> 9

cctacacgac gctcttccga tcttgatgat gtagtatgta atg 43

<210> 10

<211> 43

<212> DNA

<213> 人工序列(rengongxulie)

<400> 10

tcagacgtgt gctcttccga tctccatacc acccatcaca tca 43

<210> 11

<211> 26

<212> DNA

<213> 人工序列(rengongxulie)

<400> 11

agtagtgggg aatattgtat aatggg 26

<210> 12

<211> 43

<212> DNA

<213> 人工序列(rengongxulie)

<400> 12

tttttttttt tttttttttt gaggttttgg caactgacta gtt 43

Claims

1.一种羟甲基化分析中DNA整体转化效率的评估方法，其特征在于，所述的评估方法包括：

将待检测DNA样本与甲基化修饰的序列如SEQ ID NO.1所示的第一外源参照核酸片段和羟甲基化修饰的序列如SEQ ID NO.2所示的第二外源参照核酸片段混合得到混合样本；

对混合样本采用糖基化转移酶进行糖基化处理；

对糖基化处理后的混合样本进行APOBEC脱氨酶转化处理，得到转化后DNA混合物；

采用SNaPshot方法分别检测所述的转化后DNA混合物中的所述的第一外源参照核酸片段的选定甲基化修饰位点的碱基，并计算所述的第一外源参照核酸片段的所述的选定甲基化修饰位点的5mC-T转化效率、以及所述的转化后DNA中的所述的第二外源参照核酸片段的选定羟甲基化修饰位点的碱基，并计算所述的第二外源参照核酸片段的所述的选定羟甲基化修饰位点的5hmC-T转化效率，从而获得所述的待检测DNA样本整体转化效率；

所述的选定甲基化修饰位点为所述第一外源参照核酸片段上能够反映所述第一外源参照核酸片段整体5mC-T转化效率的46位点；所述的选定羟甲基化修饰位点为所述第二外源参照核酸片段上能够反映所述第二外源参照核酸片段整体5hmC-T转化效率的59位点，

所述的评估方法用于非疾病诊断目的。

2.根据权利要求1所述的评估方法，其特征在于：所述的评估方法使用配套的试剂盒，所述的试剂盒包括：

序列如SEQ ID NO.1所示且46位点具有甲基化修饰的第一核酸片段、以及序列如SEQID NO.2所示且59位点具有羟甲基化修饰的第二核酸片段；

序列如SEQ ID NO.7所示的正向引物和序列如SEQ ID NO.8所示的反向引物组成的第一引物对；

序列如SEQ ID NO.9所示的正向引物和序列如SEQ ID NO.10所示的反向引物组成的第二引物对；

序列如SEQ ID NO.11所示的第一单碱基延伸反应引物；

序列如SEQ ID NO.12所示的第二单碱基延伸反应引物；

用于保护羟甲基化修饰位点的糖基化转移酶；

用于未甲基化及甲基化修饰位点转化处理的APOBEC脱氨酶。