CN106636362B

CN106636362B - 大豆微卫星标记位点开发方法与微卫星标记位点内的微卫星标记的长度检测方法

Info

Publication number: CN106636362B
Application number: CN201611030525.5A
Authority: CN
Inventors: 李丽丽; 张静; 周俊飞; 陈利红; 李论; 方治伟; 彭海
Original assignee: Jianghan University
Current assignee: Jianghan University
Priority date: 2016-11-16
Filing date: 2016-11-16
Publication date: 2020-04-28
Anticipated expiration: 2036-11-16
Also published as: CN106636362A

Abstract

本发明公开了一种大豆微卫星标记位点开发方法与微卫星标记位点内的微卫星标记的长度检测方法。所述开发方法包括：获得混合样本；提取混合样本的基因组；将基因组片段化，获得基因组片段；利用探针组分别与基因组片段进行杂交；纯化多个杂交溶液中成功杂交的基因组片段；将多个所述纯化的杂交基因组片段混合后，利用高通量测序检测所述纯化的基因组片段；获得有效的所述高通量测序片段；将所述有效的高通量测序片段进行分类。所述检测方法包括：选择待检测的微卫星标记位点；利用多重扩增引物扩增所述待检测的微卫星标记位点内的微卫星标记，获得所述微卫星标记位点内的微卫星标记的长度。上述方法简单、快速、全面且准确。

Description

大豆微卫星标记位点开发方法与微卫星标记位点内的微卫星标记的长度检测方法

技术领域

本发明涉及生物技术领域，特别涉及一种大豆微卫星标记位点开发方法与微卫星标记位点内的微卫星标记的长度检测方法。

背景技术

微卫星标记又称短串联重复序列(short tandem repeats，STR)或简单重复序列(simple sequence repeats，SSR)，指由2个以上核苷酸为重复单元串联重复构成。微卫星标记位点指的是在基因组上含有微卫星标记的座位，微卫星标记位点在基因组上数量丰富且均匀分布，微卫星标记位点的开发指的是寻找基因组上的微卫星标记位点的过程。不同样本中，同一个微卫星标记位点内的微卫星标记的重复单元的重复次数可能不同，在样本间存在长度变异，因此微卫星标记位点的多态性主要指同一个微卫星标记位点的不同微卫星标记的长度多态性。微卫星标记检测技术指的是检测微卫星标记位点中的微卫星标记的长度的技术。不同样本的微卫星标记的长度多态性可以用来对样本的身份进行鉴定，因此，微卫星标记技术的应用十分广泛，包括生物多样性鉴定、动植物品种指纹身份证鉴定等等。

传统的大豆微卫星标记位点的开发与检测包括以下步骤：基因组提取、基因组片段化、连接接头、扩增、与简单重复序列杂交、纯化杂交产物、杂交产物克隆、克隆产物大肠杆菌转化、挑取单克隆、对每一个单克隆的目标位点进行一代测序、分析测序结果获得微卫星标记位点、在多个大豆样本中检验微卫星标记位点的多态性、开发出多态性高的微卫星标记位点、逐一扩增并电泳检测每一个待检测的样品中的每一个待检测的微卫星标记位点中的微卫星标记。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：

大豆微卫星标记位点的开发与检测流程复杂、通量低、极其耗时费力；其次，微卫星标记位点的电泳检测的分辨率低，检测结果不准确，准确的结果需要参考样本等进行校正。由此派生的问题包括：开发出来的微卫星标记位点少，通常200个以内，占基因组上所有微卫星标记位点的1％左右；用于检验微卫星标记位点多态性的大豆样本也少，通常在数十个左右，因此多态性检证结果不准确；微卫星标记位点的侧翼序列保守性未知，影响扩增微卫星标记位点的引物的通用性；检测的微卫星标记位点的数量有限，一般在一个待检测的样品中检测数十个微卫星标记位点，导致建立的样本的DNA身份证信息不完整、不准确。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种大豆微卫星标记位点开发方法与微卫星标记位点内的微卫星标记的长度检测方法。所述技术方案如下：

一方面，本发明实施例提供了一种大豆微卫星标记位点开发方法，所述方法包括：

将n个具有多态性的大豆样本等质量混合，获得混合样本，其中n＞1；

提取所述混合样本的基因组；

将所述混合样本的基因组片段化，获得基因组片段；

将多个具有简单重复序列的探针作为探针组，利用所述探针组中的每个探针分别与所述基因组片段进行杂交，获得多个杂交溶液，对多个所述杂交溶液中成功杂交的基因组片段分别进行纯化，得到多个纯化的杂交基因组片段；

将多个所述纯化的杂交基因组片段等质量混合后，利用高通量测序检测混合后的所述纯化的杂交基因组片段，获得第一高通量测序片段；

从所述第一高通量测序片段中，筛选有效的所述高通量测序片段，所述有效的高通量测序片段包括微卫星标记位点内的微卫星标记；

根据所述有效的高通量测序片段中的微卫星标记的两侧序列的同源性对所述有效的高通量测序片段进行分类，同一类的所述有效的高通量测序片段为同一个微卫星标记位点的所述有效的高通量测序片段，若同一个所述微卫星标记位点的所述有效的高通量测序片段的条数≥α1，则成功开发一个所述微卫星标记位点，其中，α1为第一判定阈值且α1≥(高通测序深度×有效的高通量测序片段的比例/基因组上能检测到的微卫星标记位点数)×概率保证。

通常，为了便于纯化所述杂交溶液中成功杂交的基因组片段，可以对探针进行功能化标记，例如可以

利用生物素标记的具有简单重复序列的探针与所述基因组片段进行杂交，获得杂交溶液；

利用链霉亲和素磁珠纯化所述杂交溶液中成功杂交的基因组片段，获得纯化的基因组片段。

在上述步骤中由于探针具有生物素标记，使得成功杂交的基因组片段也被生物素标记，从而可以利用链霉亲和素磁珠从所述杂交溶液中纯化出来。所述利用生物素标记和链霉亲和素磁珠纯化的技术为公知技术。

具体地，α1≥20。

具体地，所述微卫星标记指由≥2个碱基组成的重复单元串联重复构成的序列。

具体地，所述有效的高通量测序片段中的所述微卫星标记的两侧序列的碱基数均≥1个，且所述有效的高通量测序片段中的所述微卫星标记中至少有一侧的序列的碱基数≥10个。

具体地，选择所述n个具有多态性的大豆样本的方法包括：选择外部形态不同的大豆样本、生物分类不同的大豆样本、标记互不相同的大豆样本或不同生态区域的野生资源的大豆样本。

具体地，所述探针的数量为12个，每个所述探针的简单重复序列中的重复单元为CT、GA、TG、AC、TA、TGT、CCA、ATC、CCT、AGA、ATG或CAA，每个所述探针的简单重复序列的重复次数为6～20，优选为6～15，例如重复次数为8或12。

具体地，所述探针的序列如序列表中SEQ IN NO:1-SEQ IN NO:12所示。

另一方面，本发明实施例提供了一种上述开发方法成功开发的微卫星标记位点内的微卫星标记的长度检测方法，所述检测方法包括：

从成功开发的所述微卫星标记位点中，选择待检测的微卫星标记位点；

利用多重扩增引物扩增所述待检测的微卫星标记位点内的微卫星标记，得到扩增产物，将所述扩增产物进行高通量测序，得到第二高通量测序片段，通过分析所述第二高通量测序片段，获得所述微卫星标记位点内的微卫星标记的长度。

具体地，所述从成功开发的所述微卫星标记位点中，选择所述待检测的微卫星标记位点的方法包括：

选择所述待检测的微卫星标记位点的标准为H值最大的所述微卫星标记位点，其中，H值为所述微卫星标记位点的多态性指数，

其中，i为按所述微卫星标记位点的所述有效的高通量测序片段中的微卫星标记的长度进行分类时，第i个类别，i为自然数；ai为第i个类别的有效的所述高通量测序片段的数目占总的有效的所述高通量测序片段的数目的比例。

具体地，制备所述多重扩增引物的方法包括：

从选择的所述待检测的微卫星标记位点的所有所述有效的高通量测序片段中，提取所述微卫星标记并挑选出最长的所述微卫星标记作为多重扩增引物的模版序列的微卫星标记；

从选择的所述待检测的微卫星标记位点的所有所述有效的高通量测序片段中，提取所述微卫星标记的左侧序列并挑出长度大于α2个碱基的所有序列，从挑选出的所述所有序列中，挑选出频率最高的序列，以所述频率最高的序列作为参考序列，将所述参考序列与所有的所述微卫星标记的左侧序列进行比对，在所述频率最高的序列中获得每一个碱基的覆盖倍数和变异频率；在所述频率最高的序列中，将所述覆盖倍数≤1/α3或所述变异频率≥α3的碱基变为N后作为所述多重扩增引物的模板序列的左侧序列，其中，N为A、T、C和G四种碱基中任意一种及以上的碱基；α2为第二判定阈值，α2＝(所述第一高通量测序片段的平均长度-所述多重扩增引物的微卫星标记位点的长度)÷2；α3为第三判定阈值，α3≥5×(1-所述第一高通量测序片段的准确度)；

按照与所述多重扩增引物的模板序列的左侧序列相同的方法，获得多重扩增引物序列的模板序列的右侧序列；

将所述多重扩增引物的模板序列的左侧序列、所述多重扩增引物的模板序列的微卫星标记和所述多重扩增引物的模板序列的右侧序列依次连接，得到所述微卫星标记位点的多重扩增引物的模板序列，利用所述微卫星标记位点的多重扩增引物的模板序列，获得所述多重扩增引物。

具体地，获得所述微卫星标记位点内的所述微卫星标记的长度的方法为：去除所述第二高通量测序片段中的所述微卫星标记后，获得所述第二高通量测序片段的左边界序列和所述第二高通量测序片段的右边界序列；利用所述左边界序列和所述右边界序列将所述第二高通量测序片段中的每个片段比对到所述待检测的微卫星标记位点上；截取每一个所述待检测的微卫星标记位点的所述第二高通量测序片段中的所述微卫星标记；将获得的所述微卫星标记按长度进行分类，并计算第i个类别的真实度R_i＝N_i/N_max，其中，i为按所述微卫星标记位点的所述有效的高通量测序片段中的微卫星标记的长度进行分类时，第i个类别，N_i为所述第i个类别的所述第二高通量测序片段的数量，N_max为所有类别的所述第二高通量测序片段的数量的最大值；若所述真实度R_i≥α4，则所述第i个类别的所述微卫星标记的长度为所述微卫星标记位点内的所述微卫星标记的长度，若所述真实度R_i<α4，则所述第i个类别的微卫星标记的长度不为所述微卫星标记位点内的所述微卫星标记的长度，其中，α4为第四判定阈值且α4＝0.6。

具体地，将所述混合样本的基因组片段化的方法为机械打断或酶切。

本发明实施例提供的技术方案带来的有益效果是：本发明提供的大豆微卫星标记位点的开发与检测技术简单、快捷、高通量、全面且准确。时间消耗由1～2年缩短到1～2天；开发出的微卫星标记位点数量由基因组中所有微卫星标记位点的1％左右提高到接近100％；检验微卫星标记位点的多态性的大豆样本的数量由数十个提升到不受限制，多态性结果检验的准确性大为提高；可获得微卫星标记位点的侧翼序列的保守性，确保了扩增微卫星标记位点的引物的通用性；将多个微卫星标记位点作为一个位点检测，而不是逐一检测，多个待检测的大豆样本只进行一次检测，而不是多次检测，极大地减少了微卫星标记位点检测的工作量，因此，检测的微卫星标记位点的数量几乎不受限制。微卫星标记位点检测的结果为碱基，正确率接近100％；微卫星标记位点检测分辨率提升至最高分率：单碱基；不再需要参照品种对检测结果进行校正。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明实施方式作进一步地详细描述。

本发明实施例中未注明或详细描述的操作流程或操作规范均为普通分子生物学技术人员所熟知的操作。本发明实施例中未注明的试剂或生物材料均为市场上销售的常用试剂或生物材料，均为普通分子生物学技术人员所熟知的，且可以在市场上购买到。

实施例

大豆微卫星标记位点的开发方法：

将n个具有多态性的大豆样本等质量混合，获得混合样本，其中n＞1。

具有多态性的大豆样本包括：外部形态不同的大豆样本(形态多态性)、生物分类(如不同变种或品种)不同的大豆样本、标记(如蛋白质标记)互不相同的大豆样本或不同生态区域的野生资源大豆样本，其中，所选择的大豆样本越多(n值越大)，多态性越丰富，所开发出的微卫星标记位点的适用性越广。本实施例中，待开发的微卫星标记位点的物种为大豆，所选择的大豆为不同的大豆品种，它们分别是：科丰14、平99016、菏豆19号、东豆339、中黄13、克山1号、辽豆24、临豆10号、中黄57、天隆一号、合农61号、中黄39、齐黄33、齐黄34、合丰53、中黄35、华疆3号、临豆九号、中黄30、中豆37、徐豆14、冀豆17、垦丰25号、南农32、郑196、吉育95号、南农31、东生3号、奎丰1号、合豆5号、湘春豆26、北豆20、九农35、吉育94号、华夏1号和周豆19号，共36个品种，这些大豆品种是中国广泛使用的品种，公开且公知，于市场上采购获得。其中，微卫星标记指由≥2个碱基组成的重复单元串联重复构成的序列。

取以上36个大豆品种的等质量叶片并混合，提取混合样本的基因组，提取方法按照天根生化科技(北京)有限公司的货号为DP320的新型植物基因组提取试剂盒的操作手册进行。在本实施例中所选的大豆样本为叶片，作为公知常识，该大豆样本还可以取自种子等部位。

将混合样本的基因组片段化，获得基因组片段。具体地，将混合样本的基因组片段化的方法包括：机械打断或酶切。基因组片段化的长度控制在高通量测序时可检测的片段长度范围内。本实施例中，高通量测序采用PROTON高通量测序仪的PI芯片，其检测长度约为200bp，因此，获取的基因组片段的长度的峰值也尽量控制在200bp附近。本实施例采用自动声波聚焦破碎仪Covaris S220(美国Covaris生产，型号为S220)破碎混合样本的基因组，破碎方法按该仪器的操作手册《DNA Shearing with S220/E220Focused-ultrasonicator》(版本号:010308Rev G)中所记载的获取200bp(峰值)目标片段的方法进行，破碎后即获得混合样本的基因组片段，采用美国Quawell公司生产的Q5000分光光度计按其双链DNA的程序对基因组片段进行检测后，将浓度稀释或浓缩到100ng/μL，获得基因组片段。

将多个生物素标记的具有简单重复序列的探针作为探针组，利用探针组与基因组片段进行杂交，获得杂交溶液。具有简单重复序列的探针中的重复单元的碱基数≥2个。具体地，探针的简单重复序列中的重复单元为CT、GA、TG、AC、TA、TGT、CCA、ATC、CCT、AGA、ATG或CAA，这12个探针可以与所有可能的2碱基和3碱基为重复单元的微卫星标记进行杂交，因此，可以用于所有物种中的基因组片段中的微卫星标记的钓取。前期实验中，我们检测了不同探针长度钩取微卫星标记的效率，发现探针的简单重复序列的重复次数为6～20时，效率较高，优选的重复次数为6～15，例如8或12。在本实施例中，该探针组包括12个探针，这12个探针的序列分别如序列表中SEQ IN NO:1-SEQ IN NO:12所示。以上探针均由北京擎科新业生物技术有限公司合成并进行5’端生物素标记。前期的实验表明，将不同探针分别钓取基因组片段中的微卫星标记的效率优于将所有探针混合后钓取基因组片段中的微卫星标记的效率，因此，在本实施例中利用不同探针分别钓取基因组片段中的微卫星标记，具体地，将以上每个探针分别用无酶水溶解为等摩尔浓度(10pM/μL)的溶液，取以上探针组中的12个探针各1μL分别与5μg混合样本的基因组片段混匀后杂交，分别获得12种杂交溶液。杂交的程序为：95℃10分钟，65℃10分钟，37℃10分钟。

利用链霉亲和素磁珠纯化杂交溶液中成功杂交的基因组片段，获得纯化的基因组片段。具体地，利用链霉亲和素磁珠分别纯化12种杂交溶液，其纯化过程为：将获得的12种中的1种杂交溶液置于磁力架(美国Invitrogen公司生产)上，至杂交溶液澄清后，吸去溶液，用无酶水清洗磁珠2次，取10μL无酶水与链霉亲和素磁珠混合，于PCR仪中95℃加热5分钟，迅速置于磁力架上，获得的溶液即为第一个探针的纯化的杂交基因组片段。按与获取的第一个探针的纯化的杂交基因组片段相同的方法，依次获取所有12个纯化的杂交基因组片段，将它们混合在一起，即最终获得所有探针的纯化的杂交基因组片段。为了能够成功纯化杂交基因组片段，在本实施例中，采用生物素标记的具有简单重复序列的探针配合链霉亲和素磁珠的方式，在其它实施例中，也可以采用其它的方式进行基因组片段的杂交和纯化。

利用二代高通量测序检测纯化的杂交基因组片段，获得第一高通量测序片段。利用DNA文库制备试剂盒(由英国NEB公司生产，货号为E6270L)并按该试剂盒的操作手册构建二代高通量测序文库，利用获得的二代高通量测序文库和试剂盒Ion PI Template OT2200Kit v2(美国invirtrigen公司生产，货号为4485146)进行测序前的ePCR(EmulsionPCR，乳化聚合酶链反应)扩增，操作方法按该试剂盒的操作手册进行，获得ePCR扩增产物。利用ePCR扩增产物和试剂盒Ion PI Sequencing 200Kit v2(美国invirtrigen公司生产，货号为4485149)在Proton二代高通量测序仪上进行高通量测序，操作方法按该试剂盒的操作手册进行。在本实施例中，高通量测序量设置为10M测序片段(1M＝100万)，测序长度设置为500cycle(循环)，测序结束后，获得第一高通量测序片段。

从第一高通量测序片段中，筛选有效的高通量测序片段。其中，有效的高通量测序片段包括微卫星标记位点内的微卫星标记，有效的高通量测序片段中的微卫星标记的两侧序列的碱基数均≥1个，且有效的高通量测序片段中的微卫星标记中至少有一侧的序列的碱基数≥10个。分析第一高通量测序片段中的每一条片段是否含有微卫星标记，去掉不含有微卫星标记的第一高通量测序片段。在保留下来的第一高通量测序片段中，分析微卫星标记的两侧序列的碱基数是否均≥1个，如果是，则表明微卫星标记在第一高通量测序片段中是完整的，这一点是必要的，因为微卫星标记的多态性是指微卫星标记的长度多态性，只有确保微卫星标记是完整的，才能正确获得微卫星标记的长度多态性，以便正确地进行后续分析。微卫星标记的两侧序列均小于10个碱基的第一高通量测序片段无法准确地进行后续的同源性分析，会因为序列过短而引入误差，因此，进一步去掉微卫星标记的两侧序列均小于10个碱基的第一高通量测序片段。经过以上流程，最终保留下来的第一高通测序片段即为有效的高通量测序片段。

其中，在分析第一高通量测序片段中的每一条片段是否含有微卫星标记时，可以采用现有技术中常用的分析软件进行分子，也可以简单的通过人工对每个第一高通量测序片段进行判断。

根据有效的高通量测序片段中的微卫星标记的两侧序列的同源性对有效的高通量测序片段进行分类，同一类的有效的高通量测序片段为同一个微卫星标记位点的有效的高通量测序片段，若同一个微卫星标记位点的有效的高通量测序片段的条数≥α1，则成功开发一个微卫星标记位点，其中，α1为第一判定阈值且α1≥(高通测序深度×有效的高通量测序片段的比例/基因组上能检测到的微卫星标记位点数)×概率保证。α1的具体取值可根据高通量测序的深度进行调整。将有效的高通量测序片段中的微卫星标记去掉，将剩余的两侧序列合并成一条完整的序列，采用软件Megablast(版本2.2.26)在合并后的完整的序列间进行成对的比对分析，比对的各参数设置为：参数-e设置为1e-5；参数-p设置为0；参数–v设置为5000；参数-m设置为1。将具有同源性(同源性指在DNA序列上相似)的有效的高通量测序片段归为同一类，同时计算类别内包含的有效的高通量测序片段的数量，若包含的有效的高通量测序片段的数量≥α1条时，则该类别的有效的高通量测序片段为一个成功开发的微卫星标记位点的高通量测序片段。其具体原理如下：基因组上同一个微卫星标记位点在高通量测序过程中，可能被检测到多次，由于高通量测序的对象为包含了多个具有多态性的样本的混合样本，因此，同一个微卫星标记位点中的微卫星标记的长度存在多态性变异，微卫星标记位点的两侧序列也存在变异，因此，不能要求同一个微卫星标记位点的所有有效的高通量测序片段的序列完全相同，只能根据高通量测序片段的同源性来判定是否为同一微卫星标记位点，其中，高通量测序片段包括微卫星标记与微卫星标记的两侧序列，因此，高通量测序片段的同源性可以是微卫星标记的同源性或者微卫星标记的两侧序列的同源性。不同的微卫星标记位点中的微卫星标记可能相同，因此，不能根据微卫星标记的同源性判定有效的高通量测序片段是否属于同一微卫星标记位点，只能根据微卫星标记位点的两侧序列的同源性判定有效的高通量测序片段是否属于同一微卫星标记位点。之所以要求同一个微卫星标记位点的有效的高通量测序片段的数量≥α1是为了防止诸如样本被污染等难以控制的因素造成的假阳性。α1≥3是生物信息学中确认一个片段真实存在时，一般采用的阈值，α1的具体取值可根据高通量测序的深度进行调整，可按以下公式计算：α1≥(高通测序深度×有效的高通量测序片段的比例/基因组上的能检测到的微卫星标记位点数)×概率保证，其中，在统计上，概率保证一般取值为5％或1％。本实施例中，高通量测序的深度为1000万条，有效的高通量测序片段的比例一般为40％左右，一般基因组上的能检测到的微卫星标记位点为1万个左右，因此，平均每个微卫星标记位点包含的有效的高通量测序片段为400条，实际的微卫星标记位点的测序深度呈现正态分布，所以，一般低于平均有效的高通量测序片段数1/20(5％)的分布较少。因此，本实施例中，α1取值为20条。按以上流程和标准，本实施例中，共成功开发出18002个微卫星标记位点。

选择待检测的微卫星标记位点的标准为H值最大的微卫星标记位点，其中，H值为微卫星标记位点的多态性指数，

其中，i为按微卫星标记位点的有效的高通量测序片段中的微卫星标记的长度进行分类时，第i个类别，i为自然数；ai为第i个类别的有效的高通量测序片段的数目占总的有效的高通量测序片段的数目的比例。如表1的假定的微卫星标记位点按有效的高通量测序片段中的微卫星标记的长度进行分类，共有3种：(TG)20、(TG)21和(TG)22，因此S＝3；该微卫星标记位点的总的有效的高通量测序片段的数目为40，其中，第1种微卫星标记(TG)20的数目为3条，因此a1＝3/40＝7.50％，同样计算a2＝32/40＝80％，a3＝5/40＝12.50％。将以上值代入H的计算公式获得该微卫星标记位点的H值为0.98。

按与表1的假定的微卫星标记位点相同的计算方法，计算本实施例中所有成功开发出的所有微卫星标记位点的H值，所有获得的微卫星标记位点的H值由大到小排列，选择排序前50位的微卫星标记位点为本实施中待检测的样本中需要检测的微卫星标记位点。参数50根据实际需要定，例如，在大豆纯度鉴定时，1个微卫星标记位点即可，在大豆指纹图谱构建时，一般选择50个左右的微卫星标记位点，在品种间实质性派生关系分析时，则要求选择大概300个微卫星标记位点才能满足要求。之所以选择H值最大的微卫星标记位点，是因为它们的区分能力最强，用最少的微卫星标记位点可以尽可能区分更多的样本并提供尽可能多的信息，而区分样本是微卫星标记技术最核心的任务。

提取微卫星标记位点的所有有效的高通量测序片段中的微卫星标记，如表1所列的假定的微卫星标记位点内的微卫星标记为3条(TG)20、32条(TG)21和5条(TG)22的集合。提取微卫星标记位点的所有有效高通量测序片段中的微卫星标记的左侧序列组成微卫星标记位点的左侧序列，如表1的假定的微卫星标记位点的左侧序列为3条(A)2G(A)2、5条(A)87G(A)3、27条(A)86G(A)3和5条(A)81G(A)4的集合。同样的方法，获得微卫星标记位点的右侧序列，如表1的假定的微卫星标记的右侧序列为3条(A)4G(A)80、5条(A)3G(A)2、27条(A)3G(A)81和5条2G(A)85的集合。

大豆微卫星标记位点内的微卫星标记的长度的检测方法：

从成功开发的微卫星标记位点中，选择待检测的微卫星标记位点，设计扩增待检测的微卫星标记位点的多重扩增引物。下面以表1中的假定的微卫星标记位点为例，介绍如何选择微卫星标记位点并设计多重扩增引物。

设计扩增选择的微卫星标记位点的多重扩增引物的方法包括：从选择的微卫星标记位点的所有有效的高通量测序片段中，提取微卫星标记，从中挑选出最长的微卫星标记，作为多重扩增引物设计的微卫星标记；如表1的假定的微卫星标记位点中，(TG)22为最长的微卫星标记，因此，(TG)22为该微卫星标记位点的多重扩增引物设计的模板序列的微卫星标记。之所以选择最长的微卫星标记是保证所设计的多重扩增引物所扩增的微卫星位点的长度不会超过多重PCR的扩增能力，从而减少微卫星检测时的数据缺失。

从选择的微卫星标记位点的所有有效的高通量测序片段中，提取微卫星标记的左侧序列，从中挑出长度大于α2个碱基的所有序列，α2为第二判定阈值，α2＝(二代高通量测序技术所能检测的第一高通量测序片段的平均长度-多重扩增引物的微卫星标记位点的长度)÷2。本实施例中，第一高通量测序片段的平均长度为200bp，多重扩增引物设计的微卫星标记的长度为44(TG重复22次，长度为44)，因此α2＝78bp。因此，微卫星标记的左侧序列中，挑出的长度大于α2的所有序列为5条(A)87G(A)3、27条(A)86G(A)3和5条(A)81G(A)4的集合。从挑选出的所有序列中，挑选出频率最高的序列，例如上述挑出的长度大于α2的所有序列中，频率最高的序列为(A)86G(A)3。以频率最高的序列作为参考序列与所有的微卫星标记的左侧序列进行比对，获得频率最高的序列中每一个碱基的覆盖倍数和变异频率。例如，表1的假定的微卫星标记位点中，应该以(A)86G(A)3为参考序列与所有的左侧序列进行比对，比对时，参考序列(A)86G(A)3的5’端的第1个碱基为A，其被覆盖了5+27＝32倍，由于该位置全是A，因此，变异频率为0，(A)86G(A)3的5’端的第87个碱基为G，其同样被覆盖了5+27＝32倍，其中，不为G的碱基有5个(在5条(A)81G(A)4中)，因此变异频率为5÷(5+27+5)＝0.175，按以上方法，计算获得(A)86G(A)3中每一个碱基的覆盖倍数和变异频率。将频率最高的序列中的覆盖倍数≤1/α3或变异频率≥α3的碱基变为N后作为多重扩增引物设计的左侧序列，其中，N为A、T、C和G四种碱基中任意一种及以上的碱基；α3为第三判定阈值，α3≥5×(1-第一高通量测序片段的准确度)，α3的具体值根据多重扩增引物的通用性的要求的严格程度和高通量测序的深度进行调整，要求通用性越强或高通量测序深度越深，则α3的值越小。在本实施例中，高通量测序的准确度为99％，因此α3≥5×(1-99％)＝5％，本实施例要求所设计的多重扩增引物的通用性强，因此，α3取值为5％。因此，在表1的假定的微卫星标记位点中，将出频率最高的序列((A)86G(A)3)中的覆盖倍数≤1/5％＝20或变异频率≥0.05的碱基记为变为N后作为多重扩增引物的模板序列的左侧序列。对于(A)86G(A)3第1个碱基，其被覆盖了32倍且变异频率为0，因此，不改变为N，对于(A)86G(A)3第86个碱基，其覆盖倍数32倍但变异频率为0.175≥0.05，因此，将该碱基变为N，按此规则，在表1的假定的微卫星标记位点中，多重扩增引物的模板序列的左侧序列为(A)85NNN(A)2。变异频率高的碱基混合样本中变异度大，因此，所设计的多重扩增引物通用性差，覆盖倍数低的碱基误差大，把它们都变成N后，在后续的多重引物设计流程中，就可以避开这些碱基位点，以确保设计出来的多重扩增引物可以在不同样本间通用。传统的微卫星标记开发由于工作量的限制，一个微卫星标记的边界序列往往只能被检测到一次或少数几次，不能获得并避开引物设计区的变异碱基，难以保障扩增引物的通用性，易造成数据缺失。

按与多重扩增引物的模板序列的左侧序列完全相同的方法，获得多重扩增引物的模板序列的右侧序列。在表1的假定的微卫星标记位点中，多重扩增引物的模板序列的右侧序列为(A)2NNN(A)80。将多重扩增引物的模板序列的左侧序列、多重扩增引物的模板序列的微卫星标记和多重扩增引物的模板序列的右侧序列依次连接，得到微卫星标记位点的多重扩增引物的模板序列，利用微卫星标记位点的多重扩增引物的模板序列，获得多重扩增引物。表1中的假定的微卫星标记位点的多重扩增引物的模板序列为(A)85NNN(A)2(TG)22(A)2NNN(A)80。

按与上述相同的方法与参数，获得本实施中最终选择的50个微卫星标记位点的多重扩增引物的模板序列。

表1一个假定的微卫星标记位点的第一高通量测序片段

表1所示的第一高通量测序片段类型中，带下划线的部分代表微卫星标记，括号内的字母表示微卫星标记的重复单元，括号后的数字代表重复单元的重复次数。

利用所有微卫星标记位点的多重扩增引物的模板序列设计扩增选择的微卫星标记位点的多重扩增引物。具体方法如下：将获得的50个微卫星标记位点的多重扩增引物的模板序列用100个N连接起来，构建成一个人工参考基因组。登录多重PCR引物在线设计网页https://ampliseq.com/，在“Application type”选项选择“DNA Hotspot designs(single-pool)”。并在“Select the genome you wish to use”选项中选择“Custom”后，上传构建人工参考基因组。“DNA Type”选项选择“Standard DNA”。在“Add Hotspot”选项中，填入构建的人工参考基因组中每一个微卫星标记的起始位置与终止位置，最后点击“Submit targets”按钮提交并获得多重扩增引物的序列。本实施例中，所选择的50个微卫星标记位点中，成功设计了多重扩增引物的微卫星标记位点为46个，这个46个微卫星标记位点即为待检测的微卫星标记位点。本实施例采用美国赛默飞世尔公司提供的多重PCR技术，其能够同时扩增多至12000个测试区域，因此，本发明有能力一次性检测12000个微卫星标记位点，这是传统的微卫星标记位点检测能力的12000倍。

通过多重扩增引物扩增待检测的微卫星标记位点内的微卫星标记，得到扩增产物，将扩增产物进行高通量测序，得到第二高通量测序片段。本实施例中，待检测的样本为武汉开发区大豆田中取的100株大豆叶片，将100株大豆叶片等量混合后获得混合样本，利用植物基因组DNA提取试剂盒(货号：DP305，生产公司：天根生化科技(北京)有限公司)按其操作手册提供的方法提取获得混合样本的基因组DNA。采用所设计的46对多重扩增引物和文库构建试剂盒2.0(由美国LifeTechnology公司生产，货号为4475345)并按该试剂盒的操作手册对混合样本的基因组DNA进行扩增，构建高通量测序文库，利用获得的高通量测序文库和试剂盒Ion PI Template OT2 200Kit v2(美国invirtrigen公司生产，货号为4485146)进行测序前的ePCR(Emulsion PCR，乳化聚合酶链反应)扩增，操作方法按该试剂盒的操作手册进行，获得ePCR产物。利用ePCR产物和试剂盒Ion PI Sequencing 200Kit v2(美国invirtrigen公司生产，货号为4485149)在Proton二代高通量测序仪上进行高通量测序，操作方法按该试剂盒的操作手册进行。在本实施例中，高通量测序量设置为1M测序片段(1M＝100万)，高通量测序长度设置为500cycle(循环)，测序结束后，获得第二高通量测序产物。

通过分析第二高通量测序产物，获得微卫星标记位点内的微卫星标记的长度。具体方法为：去除第二高通量测序片段中的微卫星标记后，获得第二高通量测序片段的左边界序列和第二高通量测序片段的右边界序列；利用左边界序列和右边界序列将第二高通量测序片段中的每个片段比对到待检测的微卫星标记位点上；截取每一个待检测的微卫星标记位点的第二高通量测序片段中的微卫星标记；将获得的微卫星标记按长度进行分类，并计算第i个类别的真实度R_i＝N_i/N_max，其中，N_i为第i个类别的第二高通量测序片段的数量，N_max为所有类别的第二高通量测序片段的数量的最大值；若真实度R_i≥α4，则第i个类别的微卫星标记的长度为微卫星标记位点内的微卫星标记的长度，若真实度R_i<α4，则第i个类别的微卫星标记的长度不为微卫星标记位点内的微卫星标记的长度，其中，α4为第四判定阈值。微卫星标记位点内的微卫星标记的多态性是由于微卫星标记中的简单重复序列的重复次数不一致造成的长度多态性，因此，微卫星标记位点的检测主要是指检测微卫星标记位点内的微卫星标记的长度。一般的物种为二倍体，如果样本是纯合的，那么，同一个微卫星标记位点内应该只包含一种微卫星标记的等位位点，如果样本是杂合的，则同一个微卫星标记位点有2个不同微卫星标记的等位位点。如果样本是多倍体，如小麦和棉花，则判定标准也应该做相应调整。微卫星标记位点在进行多重扩增时，微卫星标记扩增可能会产生滑动，因此，在第二高通量测序片段中，部分由于滑动产生的微卫星标记的长度与混合样本中的真实的微卫星标记的长度不相同，从而形成干扰噪音，真实度R_i可以反应了干扰噪音的强弱，R_i值越大，则干扰越小。因此，需要设定一个真实度的判定阈值α4以确定第i种类别中的微卫星标记是否真实存在。在缺乏已有参考资料的情况下且为纯合体(一个位点只可能有一种基因型)时，α4一般取值为0.6；若为杂合体时，则可利用0.6/X作为α4的值，其中，X为待检测物种的倍性水平，例如若为4倍体，则α4的值为0.6/4＝0.15。若已知的滑动产生的微卫星标记干扰的大小，则可以制定更具体的标准。例如，当已知某个微卫星标记位点在100次检测中，有95次以上的滑动产生的干扰微卫星标记的比例均小于0.3，那么，我们可以将α4的取值确定为0.3，那么，我们有95％的置信度保障我们获得的第i个类别的微卫星标记的基因型是真实存在的。值得一提的是，若α4取值较大，则判定微卫星标记真实存在时犯错的概率就较低，但可能将部分真实存在的微卫星标记误判为不存在；相反，若α4取值较小，则更多真实存在的微卫星标记将被判断出来，但判定微卫星标记真实存在时犯错的概率就较高。因此，本实施例中α4的取值只是其中一种方式，需要根据实际需要或者已有的研究结果进行调整。在本实施例子中，因为缺乏参考资料确定α4的值且待测样本为二倍体，为纯合体，所以，α4取值为0.6。由于滑动产生的虚假的微卫星标记与真实的微卫星标记的扩增产物长度差异不大，而且传统的微卫星标记的检测方法多为电泳，无法区分较小的长度差异，即使能够区分，也无法准确定量，因此，传统的微卫星标记检测时，无法计算或无法准确计算R_i的值，造成大量的不准确甚至错误的结论。

下面再次假定表1为一个检测到的微卫星标记位点，说明如何检测混合样本中待检测的微卫星标记位点。在表1中假定的微卫星标记位点的第二高通量测序片段中，截取的微卫星标记为3条(TG)20、32条(TG)21和5条(TG)22的集合，将截取的微卫星标记按重复单元分类，均为TG，保留出现频率最高的重复单元的微卫星标记，它们为3条(TG)20、32条(TG)21和5条(TG)22的集合；将保留下来的微卫星标记进一步按长度进行分类，共获得3个类别，分别为(TG)20、(TG)21和(TG)22。在这3个类别中，占有最多的第二高通量测序片段的数量的类别为第2个类别(TG)21，即N_max＝N₂＝32。第1个类别(TG)20占有的第二高通量测序片段的数量为3条，即N₁＝3，那么，R1＝3/32<α4＝0.6，因此，判定第1个类别(TG)20并不是真实存在的，是由滑动引起的。同样，计算R₂＝1，R₃＝5/32，根据同样的标准，判定，第2个类别是真实存在的，第3个类别不是真实存在的。因此，混合样本中待检测的微卫星标记位点内的微卫星标记的长度为类别2的微卫星标记的长度，即表1中假定的待检测的微卫星标记位点内的微卫星标记的长度为42bp(TG重复21次，因此其长度为21×2bp＝42bp)。

按与上述假定的实施例中相同的方法和参数再次进行检测，成功检测了本实施例中，46个待检测的微卫星标记位点内的微卫星标记的长度。

本发明实施例提供的微卫星标记位点的开发方法与检测方法快捷、简单、全面、准确。传统的微卫星标记位点的开发方法，由于工作量大，只能发现基因组中大约1％左右的微卫星标记位点，也只能在小于100个样本中验证微卫星标记位点的多态性。对于本发明来说，理论上可以发现基因组上所有微卫星标记位点，针对大豆的微卫星开发的实施例中，发现了1万多个微卫星标记位点，大致为大豆所有微卫星标记位点的50％，因此，在微卫星标记位点的发现能力上，提高了50倍，如果增加高通量的测序量(这是很容易办到的)，则可以将微卫星标记位点的发现能力提高到80倍甚至接近100倍，都是比较容易实现的。本发明实施例是将微卫星标记位点的开发(发现)与多态性检测合二为一，并没有付出额外的工作，但对于传统的微卫星标记位点的多态性检测工作来说，是耗时且难以实现的，如在36个大豆品种中检测18002个微卫星标记位点的多态性，相当于传统的检测中做了36*18002＝648072次PCR扩增与电泳，这个工作量是不可想象的。除此之外，传统的微卫星标记位点的开发技术由于工作量大，没有能力检测同一个微卫星标记位点的多个序列，所以，不能分析多重扩增引物的保守性，导致开发出来的微卫星标记的多重扩增引物的通用性差，而本发明实施例解决了这一问题。以本发明的大豆微卫星标记位点内的微卫星标记的长度的检测方法中一次检测了46个微卫星标记位点为例，对于传统的检测方法来说，则需要46次PCR扩增和电泳。对于本发明来说，即使是检测1万个微卫星标记位点，其工作量也不会增加，但对于传统的检测方法来说，工作量则增加了1万倍。传统的检测方法是通过电泳判定微卫星标记的长度，但电泳是存在误差的，因此，需要参照品种进行对比，从而增加了检测的工作量，而且，很少有实验室能够有一套完整的参照品种，而本发明实施例采用的是高通量测序，获得的是碱基序列，由于所得结果是绝对值，所以没有误差，因此，不再需要参照品种。此外，电泳检测无法分辨不同单株，比如，本发明在大豆检测中的样本是100个单株的混合，在电泳结果中，无法准确计算同一个微卫星标记位点的不同微卫星标记的比例，因此，无法分辨单株，从而无法计算杂株率等重要指标。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

序列表

<110> 江汉大学

<120> 大豆微卫星标记位点开发方法与微卫星标记位点内的微卫星标记的长度检测方法

<160>12

<170>PatentIn version 3.4

<210> 1

<211>24

<212>DNA

<213>人工序列

<400> 1

ctctctctct ctctctctct ctct 24

<210> 2

<211>24

<212>DNA

<213>人工序列

<400> 2

gagagagaga gagagagaga gaga 24

<210> 3

<211>24

<212>DNA

<213>人工序列

<400> 3

tgtgtgtgtg tgtgtgtgtg tgtg 24

<210> 4

<211>24

<212>DNA

<213>人工序列

<400> 4

acacacacac acacacacac acac 24

<210> 5

<211>24

<212>DNA

<213>人工序列

<400> 5

tatatatata tatatatata tata 24

<210> 6

<211>24

<212>DNA

<213>人工序列

<400> 6

tgttgttgtt gttgttgttg ttgt 24

<210> 7

<211>24

<212>DNA

<213>人工序列

<400> 7

ccaccaccac caccaccacc acca 24

<210> 8

<211>24

<212>DNA

<213>人工序列

<400> 8

atcatcatca tcatcatcat catc 24

<210> 9

<211>24

<212>DNA

<213>人工序列

<400> 9

cctcctcctc ctcctcctcc tcct 24

<210> 10

<211>24

<212>DNA

<213>人工序列

<400> 10

agaagaagaa gaagaagaag aaga 24

<210> 11

<211>24

<212>DNA

<213>人工序列

<400> 11

atgatgatga tgatgatgat gatg 24

<210> 12

<211>24

<212>DNA

<213>人工序列

<400> 12

caacaacaac aacaacaaca acaa 24

Claims

1.一种大豆微卫星标记位点开发方法，其特征在于，所述开发方法包括：

将n个具有多态性的大豆样本等质量混合，获得混合样本，其中n＞1，选择所述n个具有多态性的大豆样本的方法包括：选择外部形态不同的大豆样本、生物分类不同的大豆样本、标记互不相同的大豆样本或不同生态区域的野生资源的大豆样本；

提取所述混合样本的基因组；

将所述混合样本的基因组片段化，获得基因组片段；

将多个具有简单重复序列的探针作为探针组，利用所述探针组中的每个探针分别与所述基因组片段进行杂交，获得多个杂交溶液，所述探针的数量为12个，每个所述探针的简单重复序列中的重复单元为CT、GA、TG、AC、TA、TGT、CCA、ATC、CCT、AGA、ATG或CAA，每个所述探针的简单重复序列的重复次数为6～20，对多个所述杂交溶液中成功杂交的基因组片段分别进行纯化，得到多个纯化的杂交基因组片段；

2.根据权利要求1所述的开发方法，其特征在于，α1≥20。

3.根据权利要求1所述的开发方法，其特征在于，每个所述探针的简单重复序列的重复次数为6～15。

4.根据权利要求1所述的开发方法，其特征在于，所述探针的序列如序列表中SEQ IDNO:1-SEQ ID NO:12所示。

5.一种权利要求1-4任一项所述的开发方法成功开发的微卫星标记位点内的微卫星标记的长度检测方法，其特征在于，所述检测方法包括：

从成功开发的所述微卫星标记位点中，选择待检测的微卫星标记位点，所述从成功开发的所述微卫星标记位点中，选择待检测的微卫星标记位点的方法包括：

其中，S为微卫星标记位点按有效的高通量测序片段中的微卫星标记的长度分类的数目，i为按所述微卫星标记位点的所述有效的高通量测序片段中的微卫星标记的长度进行分类时，第i个类别，i为自然数；ai为第i个类别的有效的高通量测序片段的数目占总的有效的高通量测序片段的数目的比例；利用多重扩增引物扩增所述待检测的微卫星标记位点内的微卫星标记，得到扩增产物，将所述扩增产物进行高通量测序，得到第二高通量测序片段，通过分析所述第二高通量测序片段，获得所述微卫星标记位点内的微卫星标记的长度，获得所述微卫星标记位点内的所述微卫星标记的长度的方法为：去除所述第二高通量测序片段中的所述微卫星标记后，获得所述第二高通量测序片段的左边界序列和所述第二高通量测序片段的右边界序列；利用所述左边界序列和所述右边界序列将所述第二高通量测序片段中的每个片段比对到所述待检测的微卫星标记位点上；截取每一个所述待检测的微卫星标记位点的所述第二高通量测序片段中的所述微卫星标记；将获得的所述微卫星标记按长度进行分类，并计算第i个类别的真实度R_i＝N_i/N_max，其中，i为按所述微卫星标记位点的所述有效的高通量测序片段中的微卫星标记的长度进行分类时，第i个类别，N_i为所述第i个类别的所述第二高通量测序片段的数量，N_max为所有类别的所述第二高通量测序片段的数量的最大值；若所述真实度R_i≥α4，则所述第i个类别的所述微卫星标记的长度为所述微卫星标记位点内的所述微卫星标记的长度，若所述真实度R_i<α4，则所述第i个类别的微卫星标记的长度不为所述微卫星标记位点内的所述微卫星标记的长度，其中，α4为第四判定阈值且α4＝0.6；

制备所述多重扩增引物的方法包括：