CN103882147B

CN103882147B - 基因组随机扩增序列snp多态性及甲基化多态性的方法

Info

Publication number: CN103882147B
Application number: CN201410154134.9A
Authority: CN
Inventors: 夏志强; 邹枚伶; 王文泉
Original assignee: Institute of Tropical Bioscience and Biotechnology Chinese Academy of Tropical Agricultural Sciences
Current assignee: Institute of Tropical Bioscience and Biotechnology Chinese Academy of Tropical Agricultural Sciences
Priority date: 2014-04-17
Filing date: 2014-04-17
Publication date: 2016-02-03
Anticipated expiration: 2034-04-17
Also published as: CN103882147A

Abstract

本发明涉及一种基因组随机扩增序列SNP多态性及甲基化多态性的方法，是选取目标物种提取DNA后选择酶切位点进行酶切；设计连接接头、标签，合成带有选择标签的EcoR？I酶切位点接头；分别用EcoR？I与Msp？I、EcoR？I与HpaⅡ对样本进行酶切，再将带有选择标签的EcoR？I酶切位点接头用T4连接酶与分别对应酶切好的基因组进行连接，同时分别连接上酶切位点接头；进行PCR扩增，选择高通量的Hiseq2000双端对PCR扩增产物进行混合测序。本发明利用现代高通量测序技术，通过对基因组进行降维，提高组装准确性，降低成本，提高分子育种效率，为现在分子育种提供一个高效、便利的SNP发现与甲基化多态性为一体的方法。

Description

基因组随机扩增序列SNP多态性及甲基化多态性的方法

技术领域

本发明属于生物技术领域，具体一种利用基因组随机扩增序列SNP多态性及甲基化多态性(AmplifiedFragmentSNPandMethylation,AFSM)技术通过混合选择性双酶切扩增、简化基因组复杂度、同时进行甲基化敏感位点区分的基因组随机扩增序列SNP多态性及甲基化多态性的方法。通过在接头处设计96个5碱基序列识别标签，可方便使用Illumina高通量测序技术混合测序后对每个样品进行区分，可高效产出数万SNP位点与甲基化位点，并直接用于全基因组关联分析。

背景技术

利用分子标记进行分子辅助育种可以显著提高育种效率，基于PCR的第二代分子标记目前大量运用于分子育种。现今，以SSR为代表的第二代分子标记的开发和应用需要较长时间，AFLP和DArT分子标记实验中的稳定性较差，等等，由于缺乏多态性高且具有高通量检测技术的分子标记，传统的分子标记都存在着开发时间长，所构建的遗传图谱密度较低。现有的常规标记方法，由于标记密度低，很难找到与数量性状基因关联度密切的位点，这样实际运用分子标记辅助育种面临很大的困难，迫切需要发现和运用高效率的分子标记途径，而SNP代表着第三代的分子标记，在全基因组测序背景下发展起来。目前SNP标记的开发手段和检测手段都因为价格昂贵、操作复杂而无法进行全面推广。

Illumina公司Solexa测序技术于2006年问世，该技术采用边合成边测序的方式（ShendureandJi,2008；Ansorge,2009；Delsenyetal.,2010），其基本原理和步骤是：（1）将待测片段打成几百个碱基（200-500bp）或更短的小片段，然后在小片段两端加上不同的接头用于构建单链DNA文库；（2）利用微注射系统将已经加过接头的待测片断随机添加在特制的芯片（flowcell）上。由于在特制芯片的表面连接有一层单链引物，待测的单链DNA片段可以与芯片表面的引物碱基互补而被固定在芯片上。另外一端（3′或5′）则可以随机地与附近的另外一条引物互补也被固定住，形成一个“桥（bridge）”。（3）在芯片内加入未被标记的dNTP和其它相关试剂起始“桥”形PCR扩增。通过变性，将会释放出刚合成的互补的单链，它们也被锚定到附近的固相表面上。经过不断的PCR循环，每个单分子得到了1000倍扩增，成为单克隆DNA簇。（4）DNA簇产生之后，扩增子被线性化，加入接头引物、改造过的DNA聚合酶和带有4种荧光标记的dNTP，应用边合成边测序的原理进行测序。因为这些dNTP的3′羟基末端带有可化学切割的部分，它们被称为是“可逆终止子”，每个循环只允许掺入一个被荧光标记的dNTP。此时，用特定波长的激光激发结合在dNTP上的荧光标记，释放的荧光被CCD采集，从而读取每条模板序列在第一轮反应所聚合上去的碱基类型。（5）加入化学试剂切割dNTP的3′羟基保护基团，恢复3′端粘性，继续聚合第二个核苷酸。如此反复，直到每条模板序列都完全被聚合为双链。这样，通过统计每轮收集到的荧光信号，就可以获取每个模板DNA片段的序列信息。

荷兰Keygene公司所拥有的、由Zabean等在1993年发明的AFLP标记是一项将PCR与RFLP结合在一起的技术。AFLP的出现是DNA指纹技术的重大突破，其原理是通过选择性扩增基因组的酶切片段而产生多态性（选择性扩增是通过在引物的末端加上选择性核苷酸而实现），由于AFLP标记多态性丰富，因此具有遗传作图的高效性，另外，AFLP标记所产生的多态性稳定，重复性好，而且它也可用于没有任何分子生物学研究基础的物种，其引物在不同物种之间具有通用性，因此被认为是迄今为止作图效率最高的分子标记。从理论上讲，不论所研究的基因组有多复杂，用AFLP均可以检测出任何DNA之间的多态性。目前，AFLP标记系统己经被迅速应用到棉花等重要作物遗传多样性研究、品种指纹图谱绘制、连锁遗传图构建等多个领域（Doninietal.1997；Wendeletal.1989；Keimetal.1997；Lazoetal.1994；Powelletal.1996；Maquetetal.1999；Meietal.2003；Lacapeetal.2003）等方面得到广泛的应用。

贝尔德等人首次提出了基因组DNA限制内切酶测序（RAD），以发现高密度的SNP（BairdNA,EtterPD,etal.2008）。这项技术的应用还是空白，直到新一代测序技术的大规模应用之后，以RAD为基础，在2011年4月才出现了针对Illumina测序开发的GBS技术（RobertJ.Elshire,JeffreyC，etal.2011），它使用一个限制内切酶ApeKI酶切，使用标签接头对全基因组进行扩增。

亚硫酸氢钠测序法(bisulfitegenomicsequencing)是建立在MSP基础上进一步深入研究CpG岛各个位点甲基化情况的方法。利用重亚硫酸盐使DNA中未发生甲基化的胞嘧啶脱氨基转变成尿嘧啶，而甲基化的胞嘧啶保持不变，PCR扩增(引物设计时尽量避免有CpG，以免受甲基化因素的影响)所需片段，则尿嘧啶全部转化成胸腺嘧啶。最后，对PCR产物进行测序，并且与未经处理的序列比较，判断是否CpG位点发生甲基化。该方法一种可靠性及精确度很高的方法，能明确目的片段中每一个CpG位点的甲基化状态。在寻找有意义的关键性CpG位点上，有其他方法无法比拟的优点。测序法以CpG岛两侧不含CpG点的一段序列为引物配对区，所以能够同时扩增出甲基化和非甲基化靶序列。它的不足是耗费时间和耗资过多，至少要测序10个以上的克隆才能获得可靠数据，需要大量的克隆及质粒提取测序，过程较为繁琐、昂贵。

甲基化敏感扩增多态性(methylationsensitiveamplificationpolymorphism,MSAP)技术由Reyna-lópez等报道(Reyna-Lópezetal.1997)，并被用于检测双相型真菌的DNA甲基化，它是在扩增片段长度多态性(amplifiedfragmentlengthpolymorphism,AFLP)技术的基础上建立起来的。这种方法在研究动植物基因组甲基化上有广泛应用(ShaAHetal.2005)。MSAP技术相对其他测定DNA甲基化程度的技术有如下优点：(1)不需知道被测DNA的序列信息，在不同生物上具有通用性，可用于DNA序列背景知识未知的生物。(2)操作相对简便，在AFLP技术体系的基础无需改进，即可操作。(3)可在全基因组范围检测CCGG位点的胞嘧啶甲基化变化。

发明内容

本发明的目的是提供一种基因组随机扩增序列SNP多态性及甲基化多态性的方法，可同时解决SNP挖掘及甲基化多态性，通过采用限制性内切酶选择性扩增基因组，并在接头处加入样品标签序列，有效地降低全基因组、SNP的复杂度，并且同时可以增加检测样品数量，大大降低重测序成本，具有高度重复性，并且避免了大量重复区域的基因组，提高效率，从而极大地简化了极具挑战性的组装问题以及物种的高遗传多样性水平计算，是一种基于高通量测序技术、限制性选择内切酶的、可同时解决SNP挖掘及甲基化多态性的方法（AmplifiedFragmentSNPandMethylation，简称AFSM），可应用于任何一个物种。

本发明所采用的技术方案：

一种基因组随机扩增序列SNP多态性及甲基化多态性的方法，其步骤如下：

1、酶切位点选择

选取目标物种，提取DNA，进行酶切，其中双酶切的6碱基酶切位点和4碱基酶切位点进行组合EcoRI（G^AATTC）和MspI/HpaⅡ(C^CGG)（由此可以对基因组降维约10倍，可以极大的降低基因组复杂度，从而极大地简化了极具挑战性的组装问题以及物种的高遗传多样性水平计算）。酶切位点MspI/HpaⅡ(C^CGG)，由于“CCGG”位点大多位于ORF区，研究表明外显子一般处于GC区域，这样就可以选择性扩增基因组中基因热点区域。

这两个酶识别的相同的酶切位点CCGG(真核生物中主要的甲基化位点)对甲基化敏感程度不同,HpaⅡ对于DNA两条链上的该位点内外侧胞嘧啶均甲基化及任一个胞嘧啶甲基化都不能酶切,即不能酶切含mCCGG,CmCGG和mCmCGG的位点,但它可以识别仅一条链上胞嘧啶甲基化的位点。而MspI可以识别DNA单链或双链上该位点内侧甲基化的胞嘧啶，但不识别外侧甲基化胞嘧啶，即不能酶切mCCGG的位点。

2、接头设计

设计两套不同的连接接头：EcoRI酶切位点与MspⅠ酶切位点接头，EcoRI酶切位点与HpaⅡ酶切位点接头，其中，在EcoRI酶切位点的接头中间部分设计5个碱基的可变标签以区分不同的样品；

EcoRI酶切位点接头序列:5′-TAGCTCGTAGACACCGTCAGxxxxxG-3′和5′-AATTCxxxxxCTGACGGTGTCTACGAGCTA-3′；这里“xxxxx”为5个Barcode标签碱基（如图1）。HpaⅡ酶切位点接头序列:5’-CGGTGAGATGAGGCATGAC-3’和5’-GTCATGCCTCATCTCAC-3’。MspⅠ酶切位点接头序列:5’-CGGACTAATGAGGCATGAC-3’和5’-GTCATGCCTCATTAGTC-3’。

3、Barcode标签设计

设计96个标签，分别合成96个带有选择标签的EcoRI酶切位点接头，利用96个标签通过综合计算测序成本和引物合成成本，以及基因组降维后的产出数据量，取的一个较合理的值，这样也有利于96孔板的PCR扩增，更进一步提高效率。96个标签如下：

1、TGGCT；2、GAGAT；3、GCCTT；4、CAGCT；5、TGCTT；6、ATAGG；7、TGTTG；8、CTTAG；9、GTCGT；10、AATGA；11、AACTT；12、CTCGG；13、TGTGT；14、GTAAG；15、ACGTT；16、AATCT；17、CGCGT；18、TCACA；19、CCGCA；20、CATGG；21、TAGTT；22、CTCTA；23、TCCGT；24、TATGT；25、TCGTA；26、GAATT；27、ACCGA；28、ACACG；29、GCTCA；30、CTTGA；31、TAGAG；32、ATTAT；33、GCGGA；34、CAATA；35、TCTGA；36、ACTAA；37、GGCAT；38、CTACA；39、TACCT；40、TCGCG；41、CTCAT；42、TTCCA；43、ATATT；44、GCGAG；45、TTCTG；46、GAGTG；47、CATAT；48、GTTAA；49、TAACA；50、TCTCT；51、ACCTG；52、CGGTG；53、GATTA；54、GCACT；55、ACTGG；56、ATTCA；57、TGAGA；58、GGCCA；59、GTGTT；60、CCATG；61、CCTTA；62、TTGAA；63、TGCAA；64、TCCAG；65、AAGCG；66、CGCCG；67、GGATA；68、TGTAG；69、TCCAA；70、TCATT；71、TATCA；72、GGAGG；73、CACCA；74、TGCGG；75、ATGCT；76、GTTCT；77、ATCAA；78、CCGAT；79、AATTG；80、AAGCA；81、CTTAT；82、GTAGA；83、CCTCG；84、GAACT；85、TTACT；86、ATCCG；87、CGTCA；88、CAGAA；89、ACAGT；90、GGTTG；91、GCTAT；92、ATGTG；93、GTGCG；94、TGAAT；95、CAAGT；96、GGTGT。

4、连接

筛选96个目标物种样本，分别用EcoRI与MspI、EcoRI与HpaⅡ对96个样本进行酶切，分成两组，每组96个样；再将96个带有选择标签的EcoRI酶切位点接头用T4连接酶与分别对应酶切好的基因组进行连接，同时分别连接上MspⅠ酶切位点接头、HpaⅡ酶切位点接头；设计引物：

EcoRI：5’-TAGCTCGTAGACACCGTCAG-3’；

MspI：5’-GTCATGCCTCATTAGTCCGG-3’；

HpaⅡ：5’-GTCATGCCTCATCTCACCGG-3’

再进行PCR扩增，每一个样品对应一个碱基标签号。

5、测序

将两组96个PCR扩增产物进行混合测序，选择高通量的Hiseq2000双端测序。Hiseq2000测序每一组测一条lane得到30G的数据量。根据估算，经过降维的基因组大约有60Mb，拥有的SNP数量约1万个：“基因组总SNP数/(基因组大小/降维后基因组大小)”，计算96个样品混合测序覆盖度可以达到60000Mb/60Mb/96=5X(每个样品)。

通过Hiseq2000高通量产出大规模的数据，由于平均长度100bp的数据在组装时较为困难，经过之前的基因组“降维”，避开了较多的重复序列，这样使组装相对容易。

根据碱基标签将96个样品分别提取出来，分成两组进行组装。选择短序列拼接方法，使用Bowtie2比对参考基因组。屏蔽掉标签序列之后，可以采用整合多种SNP探测算法的结果，综合地，更准确地识别出SNP。通过对多种算法各自识别的SNP进行一致性分析，保留具有高度一致性的SNP作为最终SNP结果，这些具有高度一致性的SNP同时具有非常高的可信度，再将两组序列进行混合排序分割，比对酶切位点缺失情况，整合比对数据，发现甲基化位点，最后结果进行注释分析，发现主要SNP位点和甲基化位点。

本发明利用现代高通量测序技术，设计标签接头，通过酶切位点的选择对基因组进行降维，大幅降低物种重测序成本，降低了重测序的基因组复杂度，一定程度避免了基因组难以拼接的重复序列，提高组装准确性，快速开发挖掘SNP基因标记，同时可以甲基化多态性数据，构筑从基因序列到QTL的全基因组关联分析，大幅精确的提高了分子育种的速度和质量，提高分子育种效率，为现在分子育种提供一个高效、便利的SNP发现与甲基化多态性为一体的方法。

附图说明

图1是本发明的具体技术路线图。

图2是本发明的标签接头和引物设计示意图。

图3是本发明的SNP与甲基化检测数据分析策略示意图。

图4是PCR产物混合测序结果。

图5是Hiseq2000测序数据质控结果。

具体实施方式

下面结合实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。下列实施例中未注明具体条件的实验方法,通常按照常规条件,或按照制造厂商所建议的条件。

实施例

使用本发明方法对在木薯的F1代遗传群体III（KU50×华南124）的96份样品进行实验：

（1）选取在同一生长条件下生长一致、同生长期、同一部位的无病虫害的新鲜木薯组织（尽可能嫩），提取基因组DNA（长期保存样品需液氮或-70℃以下冰箱）；采用DNeasy96PlantKit(QIAGEN)试剂盒提取基因组DNA。

（2）DNA质量检测及定量：琼脂糖凝胶检测以λmarker为标记，取1μLDNA，加入2μLl0×溴酚蓝上样缓冲液，混匀，点入含0.5μg/mlGoldview染料的0.8%琼脂糖凝胶中，用1×TAE缓冲液，90V电泳40min；凝胶成像分析系统(Tanon4100)观察DNA条带。

取1-2μLDNA样品，用NANODROP2000C对基因组DNA进行检测。根据260nm处的光吸收值计算DNA浓度，根据OD260/OD280、OD260/OD230比值判断有无多糖、蛋白质、RNA等杂质，从而确定DNA的纯度。所有DNA样品工作液浓度需均一化，精确定量到100ng/μL。

（3）酶切

在0.5mL离心管中加入（20μL体系）

在另一0.5mL离心管中加入（20μL体系）

混合离心数秒37℃温浴2小时。65℃30min，4℃保存。酶切液应不能放置太久，应尽快进行连接。

（4）凝胶检测

取8μL酶切液2%琼脂糖胶检测。

（5）制备双链Adapters

“Barcodes”Adapter双链制备：

在1.5mL离心管中加入

“Barcodes”Adapter_1300μL

“Barcodes”Adapter_2300μL

95℃2min，再降温致25℃（-0.1℃/s），25℃30min，4℃保存。

“MspI-Methylation”Adapter双链制备：

在1.5mL离心管中加入

“MspI-Methylation”Adapter_1300μL

“MspI-Methylation”Adapter_2300μL

95℃2min，再降温致25℃（-0.1℃/s），25℃30min，4℃保存。

“HpaII-Methylation”Adapter双链制备：

在1.5mL离心管中加入

“HpaII-Methylation”Adapter_1300μL

“HpaII-Methylation”Adapter_2300μL

95℃2min，再降温致25℃（-0.1℃/s），25℃30min，4℃保存。

（6）连接

在0.5mL离心管中加入（20μL体系）

在另一0.5mL离心管中加入（20μL体系）

混合离心数秒16℃过夜，65℃20min，4℃保存。

（7）AFSM混合基因池纯化

从96个EcoRI-MspI连接产物中，各取5μL加入1个2mL离心管，混合离心数秒。用E.Z.N.A.Cycle-PureKit(OmegaBio-tek)试剂盒纯化AFSM_EcoRI-MspI混合基因池。

另取1个2mL离心管，从96个EcoRI-HpaII连接产物中，各取5μL加入2mL离心管，混合离心数秒。用E.Z.N.A.Cycle-PureKit(OmegaBio-tek)试剂盒纯化AFSM_EcoRI-HpaII混合基因池。

（8）选择性PCR扩增

在0.2mL离心管中，按下列方式加入：

体积（50μL体系）

另取1个0.2mL离心管，在离心管中，按下列方式加入：

体积（50μL体系）

以上2个离心管分别混匀，离心数秒，按下列参数PCR循环。

1、预变性95℃30s

2、18轮循环扩增参数：95℃30s，55℃30s，68℃30s

3、延伸72℃5min

PCR产物-20℃保存，待测序。如需长期保存-70℃以下保存。

（9）凝胶检测

取8μLPCR产物，2%琼脂糖胶检测。

（10）测序

将两组96个PCR扩增产物进行混合测序，选择高通量的Hiseq2000双端测序。Hiseq2000测序每一组测一条lane得到30G的数据量。

（11）实验结果：

1、在木薯的F1代遗传群体III（KU50×华南124）的96份样品中，进行了酶切，96标签接头连接，进行PCR扩增，构建混合库。使用Hiseq2000测序得到16G数据的测序结果，结果见图4、图5。

2、原始数据进行质量控制，通过Bowtie2比对到参考基因组，得到样品的覆盖度和甲基化位点的reads数覆盖度分析，结果见表1。

表1甲基化位点的reads数覆盖度

3、通过构建的SNP与甲基化检测数据分析策略（图3），挖掘SNP位点数据和甲基化位点数据。目前在遗传群体III的96个样品中初步发现了近13931个SNP位点和超过13598个CCGG甲基化位点数据，9193个半甲基化位点，4405全甲基化位点，预实验可以完全证明实验的可行性和高效性。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基因组随机扩增序列SNP多态性及甲基化多态性的方法，其特征在于，其步骤如下：

1)、酶切位点选择

选取目标物种，提取DNA，进行酶切，其中双酶切的6碱基酶切位点EcoRI分别和4碱基酶切位点MspI、HpaⅡ进行组合；

2)、接头设计

设计两套不同的连接接头：EcoRI酶切位点与MspⅠ酶切位点接头，EcoRI酶切位点与HpaⅡ酶切位点接头，其中，在EcoRI酶切位点的接头中间部分设计5个碱基的可变标签以区分不同的样品；EcoRI酶切位点接头序列:5′-TAGCTCGTAGACACCGTCAGxxxxxG-3′和5′-AATTCxxxxxCTGACGGTGTCTACGAGCTA-3′；这里“xxxxx”为5个Barcode标签碱基；HpaⅡ酶切位点接头序列:5’-CGGTGAGATGAGGCATGAC-3’和5’-GTCATGCCTCATCTCAC-3’；MspⅠ酶切位点接头序列:5’-CGGACTAATGAGGCATGAC-3’和5’-GTCATGCCTCATTAGTC-3’；

3)、Barcode标签设计

设计96个标签，分别合成96个带有选择标签的EcoRI酶切位点接头；96个标签如下：

1、TGGCT；2、GAGAT；3、GCCTT；4、CAGCT；5、TGCTT；6、ATAGG；7、TGTTG；8、CTTAG；9、GTCGT；10、AATGA；11、AACTT；12、CTCGG；13、TGTGT；14、GTAAG；15、ACGTT；16、AATCT；17、CGCGT；18、TCACA；19、CCGCA；20、CATGG；21、TAGTT；22、CTCTA；23、TCCGT；24、TATGT；25、TCGTA；26、GAATT；27、ACCGA；28、ACACG；29、GCTCA；30、CTTGA；31、TAGAG；32、ATTAT；33、GCGGA；34、CAATA；35、TCTGA；36、ACTAA；37、GGCAT；38、CTACA；39、TACCT；40、TCGCG；41、CTCAT；42、TTCCA；43、ATATT；44、GCGAG；45、TTCTG；46、GAGTG；47、CATAT；48、GTTAA；49、TAACA；50、TCTCT；51、ACCTG；52、CGGTG；53、GATTA；54、GCACT；55、ACTGG；56、ATTCA；57、TGAGA；58、GGCCA；59、GTGTT；60、CCATG；61、CCTTA；62、TTGAA；63、TGCAA；64、TCCAG；65、AAGCG；66、CGCCG；67、GGATA；68、TGTAG；69、TCCAA；70、TCATT；71、TATCA；72、GGAGG；73、CACCA；74、TGCGG；75、ATGCT；76、GTTCT；77、ATCAA；78、CCGAT；79、AATTG；80、AAGCA；81、CTTAT；82、GTAGA；83、CCTCG；84、GAACT；85、TTACT；86、ATCCG；87、CGTCA；88、CAGAA；89、ACAGT；90、GGTTG；91、GCTAT；92、ATGTG；93、GTGCG；94、TGAAT；95、CAAGT；96、GGTGT；

4)、连接

EcoRI：5’-TAGCTCGTAGACACCGTCAG-3’；

MspI：5’-GTCATGCCTCATTAGTCCGG-3’；

HpaⅡ：5’-GTCATGCCTCATCTCACCGG-3’；

再进行PCR扩增，每一个样品对应一个碱基标签号；

5)、测序

选择高通量的Hiseq2000双端对两组96个PCR扩增产物进行混合测序。