发明内容
为了解决二代测序中扩增产物核酸污染导致的假阳性问题,本发明提供一种降低或消除二代测序过程中扩增产物核酸污染的方法以及在新型冠状病毒2019-nCoV检测中应用。针对二代测序平台常见的假阳性问题,通过长片段扩增-扩增子片段化的方案建库,由于建库过程中扩增子进行了片段化,这些片段化的扩增子即使污染了下一批次的样本也无法进行扩增。在长片段扩增体系中还使用了dUTP和能够特异性识别含dUTP核酸的核酸酶。通过对PCR产物和文库片段用dUTP标记,并在下次检测前消化含U的DNA片段,实现降低实验中受到气溶胶污染的技术效果。本发明所述方法可降低或消除由扩增产物污染导致的假阳性,提高检测的准确率。
具体而言:
一方面,本发明提供一种降低或消除二代测序过程中扩增产物核酸污染的方法,其特征在于:建库过程中先扩增获得长片段,然后将长片段扩增产物片段化为至少两个适合测序的短片段,使片段化后适合测序的短片段不同时含有扩增所述长片段的上游引物和下游引物;
其中,建库过程中进行扩增获得长片段的扩增反应体系中含有dUTP,使至少一个dUTP掺入到长片段扩增产物中。
进一步,本发明所述降低或消除二代测序过程中扩增产物核酸污染的方法,其特征在于:对测序样品进行扩增获得长片段的扩增反应体系中含有能够特异性识别含dUTP的核酸的酶。
进一步,本发明所述降低或消除二代测序过程中扩增产物核酸污染的方法,其特征在于:所述能够特异性识别含dUTP的核酸的酶选自由User酶、Fpg酶组成的组;在一些实施方式中,所述酶选自1:1的User酶和Fpg酶。
另一方面,本发明还提供一种防止扩增产物核酸污染的二代测序方法,包括以下步骤:
(1)引物设计与制备:设计并合成重叠多重PCR引物,使各扩增子长度相当,且扩增子长度大于一个测序反应的长度;例如可使扩增子长度至少约为适合测序长度的2倍;
(2)反转录合成cDNA;
(3)多重PCR扩增:所述多重PCR扩增反应体系中含有dUTP;
(4)扩增产物的纯化;
(5)将扩增产物片段化为适合测序长度的短片段、末端修复、添加dA;
(6)连接测序接头;
(7)纯化;
(8)上机测序分析。
进一步,本发明所述一种防止扩增产物核酸污染二代测序方法,其特征在于:步骤(1)中设计并合成重叠多重PCR引物,将扩增子长度设定为700-800bp,相邻扩增子之间有50-100bp相互重合,Tm值差异在3℃以内,GC占比40-60%。
所述重叠多重PCR的扩增子依次部分重叠,扩增子与其上游相邻的扩增子和下游相邻的扩增子之间各有50-100bp的重合。
进一步,本发明所述一种防止扩增产物核酸污染二代测序方法,其特征在于:步骤(3)中所述多重扩增反应体系中还含有能够特异性识别含dUTP的核酸的酶,优选选自由User酶、Fpg酶组成的组;在一些实施方式中,所述酶选自1:1的User酶和Fpg酶。
进一步,本发明所述一种防止扩增产物核酸污染二代测序方法,其特征在于:步骤(3)中扩增反应体系中含有:
反转录cDNA、多重PCR酶预混液、含dNTP、多重PCR引物组、User酶、Fpg酶、dUTP、H2O。
进一步,本发明所述一种防止扩增产物核酸污染二代测序方法,其特征在于:所述步骤(2)采用随机引物合成cDNA;
所述步骤(4)和步骤(7)采用磁珠纯化;
所述步骤(6)使用T4连接酶和适配Illumina测序的双端index接头;
所述步骤(8)在Illumina平台上机测序。
另一方面,本发明还提供一种二代测序方法中防止扩增产物核酸污染的扩增反应体系,包括:反转录cDNA、多重PCR酶预混液、dNTP、多重PCR引物组、User酶、Fpg酶、dUTP、以及无核酸酶水。
另一方面,本发明还提供前述任一方法在新型冠状病毒2019-nCoV检测中的应用。
所述方法包括前述降低或消除二代测序过程中扩增产物核酸污染的方法,以及防止扩增产物核酸污染二代测序方法。
优选的,本发明所述的应用,其中所述新型冠状病毒2019-nCoV检测引物包括SEQID NO:1-44和/或SEQ ID NO:45-86。
进一步,本发明所述应用还可以是出于非诊断目的的。
为更好理解本发明,首先定义一些术语。其他定义则贯穿具体实施方式部分而列出。
术语“二代测序”:也称为高通量测序,相比于第一代以Sanger为代表的测序技术,具有通量高、产量高、准确度高、分析自动化等特点。二代测序的主要特点是,能够同时对输入的序列进行大规模并行测序,并且所得结果为大量的(一般为2千万左右)长度不超过200bp的短序列(454测序仪例外,他的读长大于1kbp,但序列较少,在200万左右)。二代测序通常是指Illumina、LifeTechnologies和Roche等目前采用的所谓的平行合成测序或连接测序平台。下一代测序方法还可以包括纳米孔测序方法或基于电子检测的方法,例如,LifeTechnologies商业化的Ion Torrent技术或Pacific Biosciences商业化的基于单分子荧光的方法。
术语“宏基因组”是指,群落中的各种生物的基因组的总和。特别地,在本发明的方法和装置的背景下,术语“宏基因组”是指,微生物群落中的各种微生物的基因组的总和。相应地,术语“宏基因组测序”是指,对整个宏基因组进行测序。由于宏基因组所包含的DNA信息十分巨大,因此,通常使用高通量测序技术(例如,第二代测序技术或第三代测序技术)进行测序。然而,也可以通过其他方法或其他来源,获得所需的宏基因组测序数据。测序数据通常由大量的测序片段(read)构成。
术语“靶向富集”是指靶DNA的扩增。例如,富集过程可以使甲基化的靶DNA比未甲基化的DNA增加数倍。
术语“测序文库”是指产生具有相似大小的DNA片段的集合,其中已知的接头序列被添加到5'和3'末端以进行测序。
Index:二代测序中,以区别样本为目的而特殊设计的oligo核苷酸序列,又称标签。
Reads:二代测序中,测序仪所测得的DNA序列,每条序列定义为一个read,多条read,即为reads。
Reads数:本申请中,指对应的序列-index组合所生成的分子数量。
与现有技术相比,本发明至少取得了以下有益的技术效果:
1、将荧光PCR的dUTP消化防污染原理用于二代测序平台的多重PCR建库方法上,将PCR产物和文库片段用dUTP标记,并在下次检测前消化含U的DNA片段,降低实验中受到气溶胶污染的水平。
2、采用了User酶和Fpg酶代替传统的UDG酶,USER酶是尿嘧啶DNA糖基化酶(UDG)和DNA糖基化酶-裂解酶Endo VIII的混合物。UDG催化尿嘧啶碱基的切割,形成一个脱碱基(脱嘧啶)位点,但保持磷酸二酯骨架结构完整。Endo VIII的裂解酶活力使脱碱基位点3′和5′端的磷酸二酯键断裂,释放无碱基的脱氧核糖。并搭配使用同样能识别和切除尿嘧啶的FPG酶,增强消化效果。带缺口的双链分子会在后续的95℃高温中变性解链,成为小片段的单链DNA,无法成为扩增模板
3、在设计引物时,我们采用了长扩增子的设计方法,扩增出的长片段通过酶切法打断成适合测序的短片段。被打断后,扩增出的基因片段两端就无法同时包含、甚至不包含配对引物序列,即使PCR后的实验步骤产生的气溶胶污染了下一次检测的PCR反应孔,又没有被酶完全消化,也会因为不能和上下游引物同时匹配,无法在多重PCR反应中和待测样品中的目标序列一样被指数扩增,进一步降低了气溶胶的污染水平。
具体实施方式
下面将更详细地描述本公开的示例性实施方式。虽然实施例中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例1:降低或消除二代测序中扩增产物污染的方法在新型冠状病毒2019-nCoV基因组测序中的应用
1.1测序引物组的设计和制备
从NCBI网站下载新型冠状病毒2019-nCOV的参考基因组序列,使用多重PCR引物设计软件设计引物,扩增子长度设定为700-800bp,相邻有50-100bp相互重合,Tm值差异在3℃以内,GC占比40-60%,然后将相邻引物分别组合1和组合2,保证一个组合间没有重叠序列。引物组合1的序列如表1所示,引物组合2的序列如表2所示:
表1. 2019-nCOV高通量测序引物组1
表2. 2019-nCOV高通量测序引物组2
(1)按照表1和表2在引物合成公司按每管10nmol的装量合成上述引物,共86管,PAGE纯化。
(2)将引物干粉4000rmp离心1分钟。
(3)每管加入50μL10uMTris-HCl涡旋混匀后冰上放置2min,再次涡旋混匀,瞬时离心,制成单引物母液,冰上放置备用。
(4)P1组的单引物母液引物取20μL原液加2.8μL10uMTris-HCl,涡旋混匀,瞬时离心,制成单引物稀释液,每管单引物稀释液取5μL混合,涡旋混匀,瞬时离心,制成20×Primer poolP1,每条引物的浓度为4uM。
(5)P2组的单引物母液引物取20μL原液加3.8μL10uMTris-HCl,涡旋混匀,瞬时离心,制成单引物稀释液,每管单引物稀释液取5μL混合,涡旋混匀,瞬时离心,制成20×Primer poolP2,每条引物的浓度为4uM。
1.2反转录
使用商业化的反转录试剂盒对待测的RNA样品进行反转录。首先利用高温打开RNA的二级结构,然后以RNA为模板,加入逆转录酶、逆转录缓冲液和随机引物合成第一链cDNA。
1.3多重PCR扩增
用NEB公司生产的User酶和Fpg酶,以及市售的多重PCR酶预混液。反应分为2个反应管,引物为表1、2中制备的Primer pool P1,Primer pool P2。2个反应管内的其他试剂相同。多重PCR反应体系如表3所示。
表3多重PCR反应体系
试剂 |
体积(μL) |
DNA或cDNA样品 |
9 |
2×多重PCR酶预混液(含dNTP) |
15 |
20×Primer pool P1/P2 |
1.5 |
User酶 |
1 |
Fpg酶 |
1 |
dUTP(10mM) |
1.8 |
NFW |
0.7 |
按照表4的程序进行多重PCR扩增反应。
表4多重PCR扩增反应程序
第1轮PCR反应结束后,2个反应管的PCR产物各取30μL合并成一管。
1.4磁珠纯化
使用商业化的DNA纯化磁珠对合并PCR产物进行纯化,首先取0.9倍产物体积的磁珠对扩增产物进行纯化,然后使用50μL无核酸酶水回溶磁珠上富集的DNA。然后取60μL磁珠对得到的DNA进行第二次纯化,然后使用50μL无核酸酶水回溶磁珠上富集的DNA。
1.5扩增产物的片段化/末端修复/加dA尾
使用商业化的片段化及末端修复酶,将逆转录得到的cDNA片段化后末端补平,并在5’端进行磷酸化和3’端加dA。
将片段化/末端修复预混液从冰箱取出轻弹混匀离心(请勿涡旋震荡),于灭菌PCR管中按照表5配制反应体系。
表5片段化及末端修复反应体系
组分 |
体积(μL) |
Input DNA |
50μL |
片段化/末端修复预混液 |
10μL |
总计 |
60μL |
使用移液器轻轻吹打10次混匀(请勿振荡),并短暂离心将反应液收集至管底。将PCR管暂时置于冰上,在PCR仪上按照表6设置反应程序。
表6片段化及末端修复反应程序
热盖105℃ |
On |
4℃ |
1min |
30℃ |
20min |
72℃ |
20min |
4℃ |
Hold |
设置热盖温度105℃,开机后待PCR仪降到4℃后,按暂停键,将PCR管放入PCR仪,然后继续运行程序,反应结束后,立即进行下一步连接接头。
1.6连接接头
使用商业化T4连接酶和适配Illumina测序仪的双端index接头。
将连接缓冲液解冻后混匀离心,置于冰上备用,T4连接酶使用时从冰箱取出轻弹混匀离心(请勿涡旋震荡),在末端修复产物的PCR管中按表7配制反应体系。
表7接头连接反应体系
组分 |
体积(μL) |
末端修复产物 |
60μL |
连接缓冲液 |
30μL |
T4连接酶 |
5μL |
Illumina双端index接头 |
5μL |
总计 |
100μL |
使用移液器轻轻吹打10次混匀(请勿振荡混匀),并短暂离心将反应液收集至管底。将PCR管置于PCR仪中,按照表8的程序进行反应。反应结束后,立即进行下一步磁珠纯化。
表8接头连接反应程序
1.7磁珠纯化
使用商业化的DNA纯化磁珠对PCR产物进行纯化,取60μL磁珠对扩增产物进行纯化,然后使用20μL无核酸酶水回溶磁珠上富集的DNA。
1.8上机测序分析
用qPCR文库定量试剂盒检测纯化后的文库分子浓度,然后将文库按分子浓度等量混合,在Illumina平台上机测序,上机策略SE75,数据量10Mrawreads。数据下机后,以生物信息学分析方法分析获得新型冠状病毒检出reads数。
实施例2:防污染二代测序方法的验证及效果对比
2.1样品准备和试验设计
1)阳性参考品:使用的新冠病毒RNA来自于中检院提供的10^5cp/mL灭活病毒提取的核酸。
2)阴性参考品:使用的阴性RNA采购自南京科佰,是从人源细胞系提取的总RNA。
3)试验样品:将20U/μL的Rnase-In加无核酸酶水稀释至1U/μL,用Rnase-In稀释液将科佰阴性参考品RNA稀释成浓度为1.02ng/μL的RNA溶液作为基质。按表9稀释中检院原液,按9μL/管分装,并将基质分装成9μL/管作为阴性参考品XN:
表9试验样品的稀释方案
样本编号 |
稀释方法 |
稀释比例 |
X1 |
原液20μL+160μL基质 |
1:9 |
X2 |
X1 50μL+100μL基质 |
1:27 |
X3 |
X2 50μL+100μL基质 |
1:81 |
4)试验方案
在前一天已经进行过本实施例中提到的两种多重PCR建库实验的实验室中,进行如下实验:将制备出的参考品cDNA分别用两种方案建库:第一种是先用传统多重PCR,用扩增子长度为200bp的新型冠状病毒特异性引物组富集新冠的全基因组序列,后用PCR法将完整的Illumina测序接头序列加到扩增子两端,磁珠纯化后上机测序。第二种就是采用本发明实施例1的方法,用扩增子长度为800bp的新型冠状病毒特异性引物组富集新冠的全基因组序列,多重PCR体系中加入dUTP、User和Fpg酶,磁珠纯化后用酶切法将扩增子片段化到200bp左右,用T4连接酶在片段两端加上Illumina测序接头,磁珠纯化后上机测序。试验方案设计如表10所示
表10试验方案设计
2.2传统二代测序方法
1、使用商业化的反转录试剂盒对待测的RNA样品进行反转录。首先利用高温打开RNA的二级结构,然后以RNA为模板,加入逆转录酶、逆转录缓冲液和随机引物合成第一链cDNA。
2、使用商业化的多重PCR扩增酶,引物分别为新型冠状病毒全基因组Primer poolT1,Primer pool T2,扩增产物长度为200bp。将两个引物pool分别扩增后,产物合并成一管。
3、使用商业化的DNA纯化磁珠对合并后的PCR产物进行纯化,首先取54μL磁珠对扩增产物进行纯化,然后使用54μL无核酸酶水回溶磁珠上富集的DNA。然后取60μL磁珠对得到的DNA进行第二次纯化,然后使用15μL无核酸酶水回溶磁珠上富集的DNA。
4、使用包含Illumina测序接头序列的引物对纯化后的产物进行第二轮PCR扩增,该引物与第一轮扩增引物末端序列可互补配对,通过PCR的方法将Illumina测序接头序列加到第一轮PCR产物末端。
5、使用商业化的DNA纯化磁珠对PCR产物进行纯化,取0.9倍产物体积的磁珠对扩增产物进行纯化,然后使用20μL无核酸酶水回溶磁珠上富集的DNA。
6、文库上机分析
用qPCR文库定量试剂盒检测纯化后的文库分子浓度,然后将文库按分子浓度等量混合,在Illumina平台上机测序,上机策略SE75,数据量10M。数据下机后,以生物信息学分析方法分析获得新型冠状病毒检出reads数。
2.3试验结果
采用2.2中传统二代测序方法的方案一和采用实施例1中防污染二代测序方法的检出reads数如表11所示。
表11两种方法测序检出结果
序号 |
阴阳性 |
样品名称 |
文库制备流程 |
方案编号 |
检出reads |
1 |
阳性 |
X1 |
传统多重PCR |
方案一 |
5.70E+06 |
2 |
阳性 |
X2 |
传统多重PCR |
方案一 |
5.60E+06 |
3 |
阳性 |
X3 |
传统多重PCR |
方案一 |
8.15E+06 |
4 |
阴性 |
XN |
传统多重PCR |
方案一 |
930 |
5 |
空白 |
H<sub>2</sub>O |
传统多重PCR |
方案一 |
302 |
6 |
阳性 |
X1 |
防污染多重PCR |
方案二 |
3.39E+06 |
7 |
阳性 |
X2 |
防污染多重PCR |
方案二 |
5.61E+06 |
8 |
阳性 |
X3 |
防污染多重PCR |
方案二 |
1.21E+06 |
9 |
阴性 |
XN |
防污染多重PCR |
方案二 |
23 |
10 |
空白 |
H<sub>2</sub>O |
防污染多重PCR |
方案二 |
4 |
上述结果表明,与传统二代测序方法相比,本发明实施例1中防污染二代测序方法显著降低了假阳性率。本发明防污染二代测序方法检测的阴性、水中仅有23条和4条检出,与传统PCR法的阴性样品和水中的检出相比低了40倍,而且能与阳性样品甚至弱阳样品能明显区分开,因此该防污染体系在防止扩增子气溶胶污染上有显著效果。
实施例3防污染二代测序方法采用的酶与UDG酶的效果对比
3.1试验样品和试验原理
取实施例2中方案二制备的阳性样品的文库。取相同浓度和体积的文库溶液,分别用不同的酶进行消化,通过qPCR定量的方式测量消化后剩余的文库浓度,计算不同的酶的消化效率。
3.2试验设计
由于本发明实施例2的方案二制备的文库带有dUTP,通过按照表12的方案检测酶对含dUTP核酸的降解效率。
表12dUTP核酸降解效率分析方案
3.3试验方法
使用诺唯赞生产的VAHTS Library Quantification Kit for
进行文库浓度检测。使用无核酸酶的水将文库稀释1000倍。按照表13配置QPCR反应mix,按照表14的程序进行QPCR反应。
表13文库浓度检测的QPCR反应体系
a注:根据qPCR机型选择合适ROX添加,如需不添加该组分的用蒸馏水代替即可。
表14文库浓度检测的QPCR反应程序
3.4试验结果
按照表12的dUTP核酸降解效率分析方案,通过qPCR定量的方式测量消化后剩余的文库浓度,试验结果如表15所示。
表15dUTP核酸降解效率检测结果
表15的试验结果表明,方案3的消化率平均最高,因此选择加入1:1的User酶和FPG酶,即1μLUser酶和1μLFPG酶作为本发明防污染二代测序方法的消化方案,加入多重PCR反应体系中。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
序列表
<110> 北京金匙基因科技有限公司
<120> 一种降低或消除二代测序中扩增产物污染的方法及应用
<160> 20
<170> SIPOSequenceListing 1.0
<210> 1
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 1
tcccaggtaa caaaccaacc aa 22
<210> 2
<211> 21
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 2
cgggtaacac cactgctatg t 21
<210> 3
<211> 20
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 3
ttcttcgtaa gggtggtcgc 20
<210> 4
<211> 24
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 4
accgtctcta agaaactcta cacc 24
<210> 5
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 5
tgcctataca gttgaactcg gt 22
<210> 6
<211> 23
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 6
gcttaaaaca caactaccac cca 23
<210> 7
<211> 21
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 7
ccgggtcagg gtttaaatgg t 21
<210> 8
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 8
gcgtgtggag gttaatgttg tc 22
<210> 9
<211> 23
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 9
ccttgtacgt gtggtaaaca agc 23
<210> 10
<211> 20
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 10
ttatccattc cctgcgcgtc 20
<210> 11
<211> 20
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 11
actcaaccgc tgctttaggt 20
<210> 12
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 12
tggatggaac cattcttcac tg 22
<210> 13
<211> 20
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 13
gcgcaggtag caaaaagtca 20
<210> 14
<211> 20
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 14
gtgtgtcagg gcgtaaactt 20
<210> 15
<211> 20
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 15
tttgaagaag ctgcgctgtg 20
<210> 16
<211> 24
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 16
ccagttggta attccatatg gtgc 24
<210> 17
<211> 23
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 17
ccttctcttg ccactgtagc tta 23
<210> 18
<211> 21
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 18
tgtaactgga cacattgagc c 21
<210> 19
<211> 23
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 19
gcatggcctc ttattgtaac agc 23
<210> 20
<211> 20
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 20
cacataccgc agacggtaca 20