CN106520958B - 微卫星标记位点开发方法与微卫星标记位点内的微卫星标记的长度检测方法 - Google Patents

微卫星标记位点开发方法与微卫星标记位点内的微卫星标记的长度检测方法 Download PDF

Info

Publication number
CN106520958B
CN106520958B CN201611030248.8A CN201611030248A CN106520958B CN 106520958 B CN106520958 B CN 106520958B CN 201611030248 A CN201611030248 A CN 201611030248A CN 106520958 B CN106520958 B CN 106520958B
Authority
CN
China
Prior art keywords
microsatellite marker
throughput sequencing
microsatellite
sequences
fragments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611030248.8A
Other languages
English (en)
Other versions
CN106520958A (zh
Inventor
彭海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jianghan University
Original Assignee
Jianghan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jianghan University filed Critical Jianghan University
Priority to CN201611030248.8A priority Critical patent/CN106520958B/zh
Publication of CN106520958A publication Critical patent/CN106520958A/zh
Application granted granted Critical
Publication of CN106520958B publication Critical patent/CN106520958B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6858Allele-specific amplification
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • C12Q1/6895Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms for plants, fungi or algae
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Engineering & Computer Science (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biotechnology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Immunology (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Genetics & Genomics (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Botany (AREA)
  • Mycology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种微卫星标记位点开发方法与微卫星标记位点内的微卫星标记的长度检测方法及开发用探针组。所述开发方法包括:获得混合样本;提取混合样本的基因组;将基因组片段化,获得基因组片段;利用探针组分别与基因组片段进行杂交;纯化多个杂交溶液中成功杂交的基因组片段;将多个所述纯化的杂交基因组片段混合后,利用高通量测序检测所述纯化的基因组片段;获得有效的所述高通量测序片段;将所述有效的高通量测序片段进行分类。所述检测方法包括:选择待检测的微卫星标记位点;利用多重扩增引物扩增所述待检测的微卫星标记位点内的微卫星标记,获得所述微卫星标记位点内的微卫星标记的长度。上述方法简单、快速、全面且准确。

Description

微卫星标记位点开发方法与微卫星标记位点内的微卫星标记 的长度检测方法
技术领域
本发明涉及生物技术领域,特别涉及一种微卫星标记位点开发方法与微卫星标记位点内的微卫星标记的长度检测方法。
背景技术
微卫星标记又称短串联重复序列(short tandem repeats,STR)或简单重复序列(simple sequence repeats,SSR),指由2个以上核苷酸为重复单元串联重复构成。微卫星标记位点指的是在基因组上含有微卫星标记的座位,微卫星标记位点在基因组上数量丰富且均匀分布,微卫星标记位点的开发指的是寻找基因组上的微卫星标记位点的过程。不同样本中,同一个微卫星标记位点内的微卫星标记的重复单元的重复次数可能不同,在样本间存在长度变异,因此微卫星标记位点的多态性主要指同一个微卫星标记位点的不同微卫星标记的长度多态性。微卫星标记检测技术指的是检测微卫星标记位点中的微卫星标记的长度的技术。不同样本的微卫星标记的长度多态性可以用来对样本的身份进行鉴定,因此,微卫星标记技术的应用十分广泛,包括亲子鉴定、罪犯身份确定、基因定位、基因克隆、生物多样性鉴定、动植物品种指纹身份证鉴定等等。
传统的微卫星标记位点的开发与检测包括以下步骤:基因组提取、基因组片段化、连接接头、扩增、与简单重复序列杂交、纯化杂交产物、杂交产物克隆、克隆产物大肠杆菌转化、挑取单克隆、对每一个单克隆的目标位点进行一代测序、分析测序结果获得微卫星标记位点、在多个样本中检验微卫星标记位点的多态性、开发出多态性高的微卫星标记位点、逐一扩增并电泳检测每一个待检测的样品中的每一个待检测的微卫星标记位点中的微卫星标记。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
微卫星标记位点的开发与检测流程复杂、通量低、极其耗时费力;其次,微卫星标记位点的电泳检测的分辨率低,检测结果不准确,准确的结果需要参考样本等进行校正。由此派生的问题包括:开发出来的微卫星标记位点少,通常200个以内,占基因组上所有微卫星标记位点的1%左右;用于检验微卫星标记位点多态性的样本也少,通常在数十个左右,因此多态性检证结果不准确;微卫星标记位点的侧翼序列保守性未知,影响扩增微卫星标记位点的引物的通用性;检测的微卫星标记位点的数量有限,一般在一个待检测的样品中检测数十个微卫星标记位点,导致建立的样品的DNA身份证信息不完整、不准确。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种微卫星标记位点开发方法与微卫星标记位点内的微卫星标记的长度检测方法。所述技术方案如下:
一方面,本发明实施例提供了一种微卫星标记位点开发方法,所述方法包括:
将待开发微卫星标记位点的同一物种的n个具有多态性的样本等质量混合,获得混合样本,其中n>1;
提取所述混合样本的基因组;
将所述混合样本的基因组片段化,获得基因组片段;
将多个具有简单重复序列的探针作为探针组,利用所述探针组中的每个探针分别与所述基因组片段进行杂交,获得多个杂交溶液,对多个所述杂交溶液中成功杂交的基因组片段分别进行纯化,得到多个纯化的杂交基因组片段;
将多个所述纯化的杂交基因组片段等质量混合后,利用高通量测序检测混合后的所述纯化的杂交基因组片段,获得第一高通量测序片段;
从所述第一高通量测序片段中,筛选有效的所述高通量测序片段,所述有效的高通量测序片段包括微卫星标记位点内的微卫星标记;
根据所述有效的高通量测序片段中的微卫星标记的两侧序列的同源性对所述有效的高通量测序片段进行分类,同一类的所述有效的高通量测序片段为同一个微卫星标记位点的所述有效的高通量测序片段,若同一个所述微卫星标记位点的所述有效的高通量测序片段的条数≥α1,则成功开发一个所述微卫星标记位点,其中,α1为第一判定阈值且α1≥(高通测序深度×有效的高通量测序片段的比例/基因组上能检测到的微卫星标记位点数)×概率保证。较优选地,α1≥20,优选地α1≥3。
通常,为了便于纯化所述杂交溶液中成功杂交的基因组片段,可以对探针进行功能化标记,例如可以
利用生物素标记的具有简单重复序列的探针与所述基因组片段进行杂交,获得杂交溶液;
利用链霉亲和素磁珠纯化所述杂交溶液中成功杂交的基因组片段,获得纯化的基因组片段。
在上述步骤中由于探针具有生物素标记,使得成功杂交的基因组片段也被生物素标记,从而可以利用链霉亲和素磁珠从所述杂交溶液中纯化出来。所述利用生物素标记和链霉亲和素磁珠纯化的技术为公知技术。
具体地,所述微卫星标记指由≥2个碱基组成的重复单元串联重复构成的序列。
具体地,所述有效的高通量测序片段中的所述微卫星标记的两侧序列的碱基数均≥1个,且所述有效的高通量测序片段中的所述微卫星标记中至少有一侧的序列的碱基数≥10个。
具体地,选择所述同一物种的n个具有多态性的样本的方法包括:在同一个物种中,选择外部形态不同的样本、生物分类不同的样本、标记互不相同的样本或不同生态区域的野生资源的样本。
具体地,所述探针的数量为12个,每个所述探针的简单重复序列中的重复单元为CT、GA、TG、AC、TA、TGT、CCA、ATC、CCT、AGA、ATG或CAA,每个所述探针的简单重复序列的重复次数为6~20,优选为6~15,例如重复次数为8或12。
具体地,所述探针的序列如序列表中SEQ ID NO:1-SEQ ID NO:12所示。
另一方面,本发明实施例提供了一种上述开发方法成功开发的微卫星标记位点内的微卫星标记的长度检测方法,所述检测方法包括:
从成功开发的所述微卫星标记位点中,选择待检测的微卫星标记位点;
利用多重扩增引物扩增所述待检测的微卫星标记位点内的微卫星标记,得到扩增产物,将所述扩增产物进行高通量测序,得到第二高通量测序片段,通过分析所述第二高通量测序片段,获得所述微卫星标记位点内的微卫星标记的长度。
具体地,所述从成功开发的所述微卫星标记位点中,选择所述待检测的微卫星标记位点的方法包括:
选择所述待检测的微卫星标记位点的标准为H值最大的所述微卫星标记位点,其中,H值为所述微卫星标记位点的多态性指数,
Figure GDA0002147749800000041
其中,i为按所述微卫星标记位点的所述有效的高通量测序片段中的微卫星标记的长度进行分类时,第i个类别,i为自然数;ai为第i个类别的有效的所述高通量测序片段的数目占总的有效的所述高通量测序片段的数目的比例。
具体地,制备所述多重扩增引物的方法包括:
从选择的所述待检测的微卫星标记位点的所有所述有效的高通量测序片段中,提取所述微卫星标记并挑选出最长的所述微卫星标记作为多重扩增引物的模版序列的微卫星标记;
从选择的所述待检测的微卫星标记位点的所有所述有效的高通量测序片段中,提取所述微卫星标记的左侧序列并挑出长度大于α2个碱基的所有序列,从挑选出的所述所有序列中,挑选出频率最高的序列,以所述频率最高的序列作为参考序列,将所述参考序列与所有的所述微卫星标记的左侧序列进行比对,在所述频率最高的序列中获得每一个碱基的覆盖倍数和变异频率;在所述频率最高的序列中,将所述覆盖倍数≤1/α3或所述变异频率≥α3的碱基变为N后作为所述多重扩增引物的模板序列的左侧序列,其中,N为A、T、C和G四种碱基中任意一种及以上的碱基;α2为第二判定阈值,α2=(所述第一高通量测序片段的平均长度-所述多重扩增引物的微卫星标记位点的长度)÷2;α3为第三判定阈值,α3≥5×(1-所述第一高通量测序片段的准确度);
按照与所述多重扩增引物的模板序列的左侧序列相同的方法,获得多重扩增引物序列的模板序列的右侧序列;
将所述多重扩增引物的模板序列的左侧序列、所述多重扩增引物的模板序列的微卫星标记和所述多重扩增引物的模板序列的右侧序列依次连接,得到所述微卫星标记位点的多重扩增引物的模板序列,利用所述微卫星标记位点的多重扩增引物的模板序列,获得所述多重扩增引物。
具体地,获得所述微卫星标记位点内的所述微卫星标记的长度的方法为:去除所述第二高通量测序片段中的所述微卫星标记后,获得所述第二高通量测序片段的左边界序列和所述第二高通量测序片段的右边界序列;利用所述左边界序列和所述右边界序列将所述第二高通量测序片段中的每个片段比对到所述待检测的微卫星标记位点上;截取每一个所述待检测的微卫星标记位点的所述第二高通量测序片段中的所述微卫星标记;将获得的所述微卫星标记按长度进行分类,并计算第i个类别的真实度Ri=Ni/Nmax,其中,i为按所述微卫星标记位点的所述有效的高通量测序片段中的微卫星标记的长度进行分类时,第i个类别,Ni为所述第i个类别的所述第二高通量测序片段的数量,Nmax为所有类别的所述第二高通量测序片段的数量的最大值;若所述真实度Ri≥α4,则所述第i个类别的所述微卫星标记的长度为所述微卫星标记位点内的所述微卫星标记的长度,若所述真实度Ri<α4,则所述第i个类别的微卫星标记的长度不为所述微卫星标记位点内的所述微卫星标记的长度,其中,α4为第四判定阈值。
具体地,将所述混合样本的基因组片段化的方法为机械打断或酶切。
又一方面,本发明实施例提供了一种用于上述开发方法的探针组,所述探针组中包括12个探针,每个所述探针的简单重复序列中的重复单元为CT、GA、TG、AC、TA、TGT、CCA、ATC、CCT、AGA、ATG或CAA,每个所述探针的简单重复序列的重复次数为6~20,优选为6~15,例如重复次数为8或12。
具体地,所述探针的序列如序列表中SEQ ID NO:1-SEQ ID NO:12所示。
本发明实施例提供的技术方案带来的有益效果是:本发明提供的微卫星标记位点的开发与检测技术简单、快捷、高通量、全面且准确。时间消耗由1~2年缩短到1~2天;开发出的微卫星标记位点数量由基因组中所有微卫星标记位点的1%左右提高到接近100%;检验微卫星标记位点的多态性的样本的数量由数十个提升到不受限制,多态性结果检验的准确性大为提高;可获得微卫星标记位点的侧翼序列的保守性,确保了扩增微卫星标记位点的引物的通用性;将多个微卫星标记位点作为一个位点检测,而不是逐一检测,多个待检测的样本只进行一次检测,而不是多次检测,极大地减少了微卫星标记位点检测的工作量,因此,检测的微卫星标记位点的数量几乎不受限制。微卫星标记位点检测的结果为碱基,正确率接近100%;微卫星标记位点检测分辨率提升至最高分率:单碱基;不再需要参照品种对检测结果进行校正。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明实施方式作进一步地详细描述。
本发明实施例中未注明或详细描述的操作流程或操作规范均为普通分子生物学技术人员所熟知的操作。本发明实施例中未注明的试剂或生物材料均为市场上销售的常用试剂或生物材料,均为普通分子生物学技术人员所熟知的,且可以在市场上购买到。
实施例一水稻微卫星标记位点的开发方法与微卫星标记位点内的微卫星标记的长度的检测方法
水稻微卫星标记位点的开发方法:
将待开发的微卫星标记位点的水稻的n个具有多态性的样本等质量混合,获得混合样本,其中n>1。
具有多态性的样本包括:外部形态不同的样本(形态多态性)、生物分类(如不同亚种、变种或品种)不同的样本、标记(如蛋白质标记)互不相同的样本或不同生态区域的野生资源样本,其中,所选择的样本越多(n值越大),多态性越丰富,所开发出的微卫星标记位点的适用性越广。本实施例中,待开发的微卫星标记位点的物种为水稻,选择分类和类型上不同的21个不同的水稻品种的叶片等质量混合,即n=21,获得混合样本。该21个水稻品种均为彭海等2014年发表于《中国科学:生命科学》第44卷第1期的第45到53页的论文《中国杂交籼稻DNA甲基化多样性与遗传稳定性》的表1中所列的品种代码为1-21的水稻品种,这些水稻品种是中国水稻育种中广泛使用的亲本,公开且公知,最初由不同的单位选育或保存,赠与江汉大学后,最终由江汉大学保存、繁殖并用于本实施例。其中,微卫星标记指由≥2个碱基组成的重复单元串联重复构成的序列。
提取混合样本的基因组。这些水稻品种的种植、幼苗培养、叶片采集与混合样本的基因组的提取方法与上述论文1.2中所记载的种植、幼苗培养、叶片采集与DNA提取方法相同。
将混合样本的基因组片段化,获得基因组片段。具体地,将混合样本的基因组片段化的方法包括:机械打断或酶切。基因组片段化的长度控制在高通量测序时可检测的片段长度范围内。本实施例中,高通量测序采用PROTON高通量测序仪的PI芯片,其检测长度约为200bp,因此,获取的基因组片段的长度的峰值也尽量控制在200bp附近。本实施例采用自动声波聚焦破碎仪Covaris S220(美国Covaris生产,型号为S220)破碎混合样本的基因组,破碎方法按该仪器的操作手册《DNA Shearing with S220/E220 Focused-ultrasonicator》(版本号:010308 Rev G)中所记载的获取200bp(峰值)目标片段的方法进行,破碎后即获得混合样本的基因组片段,采用美国Quawell公司生产的Q5000分光光度计按其双链DNA的程序对基因组片段进行检测后,将浓度稀释或浓缩到100ng/μL,获得基因组片段。
将多个生物素标记的具有简单重复序列的探针作为探针组,利用探针组与基因组片段进行杂交,获得杂交溶液。具有简单重复序列的探针中的重复单元的碱基数≥2个。具体地,探针的简单重复序列中的重复单元为CT、GA、TG、AC、TA、TGT、CCA、ATC、CCT、AGA、ATG或CAA,这12个探针可以与所有可能的2碱基和3碱基为重复单元的微卫星标记进行杂交,因此,可以用于所有物种中的基因组片段中的微卫星标记的钓取。前期实验中,我们检测了不同探针长度钩取微卫星标记的效率,发现探针的简单重复序列的重复次数为6~20时,效率较高,优选的重复次数为6~15,例如8或12。在本实施例中,该探针组包括12个探针,这12个探针的序列分别如序列表中SEQ ID NO:1-SEQ ID NO:12所示。以上探针均由北京擎科新业生物技术有限公司合成并进行5’端生物素标记。前期的实验表明,将不同探针分别钓取基因组片段中的微卫星标记的效率优于将所有探针混合后钓取基因组片段中的微卫星标记的效率,因此,在本实施例中利用不同探针分别钓取基因组片段中的微卫星标记,具体地,将以上每个探针分别用无酶水溶解为等摩尔浓度(10pM/μL)的溶液,取以上探针组中的12个探针各1μL分别与5μg混合样本的基因组片段混匀后杂交,分别获得12种杂交溶液。杂交的程序为:95℃10分钟,65℃10分钟,37℃10分钟。
利用链霉亲和素磁珠纯化杂交溶液中成功杂交的基因组片段,获得纯化的基因组片段。具体地,利用链霉亲和素磁珠分别纯化12种杂交溶液,其纯化过程为:将获得的12种中的1种杂交溶液置于磁力架(美国Invitrogen公司生产)上,至杂交溶液澄清后,吸去溶液,用无酶水清洗磁珠2次,取10μL无酶水与链霉亲和素磁珠混合,于PCR仪中95℃加热5分钟,迅速置于磁力架上,获得的溶液即为第一个探针的纯化的杂交基因组片段。按与获取的第一个探针的纯化的杂交基因组片段相同的方法,依次获取所有12个纯化的杂交基因组片段,将它们混合在一起,即最终获得所有探针的纯化的杂交基因组片段。为了能够成功纯化杂交基因组片段,在本实施例中,采用生物素标记的具有简单重复序列的探针配合链霉亲和素磁珠的方式,在其它实施例中,也可以采用其它的方式进行基因组片段的杂交和纯化。
利用二代高通量测序检测纯化的杂交基因组片段,获得第一高通量测序片段。利用DNA文库制备试剂盒(由英国NEB公司生产,货号为E6270L)并按该试剂盒的操作手册构建二代高通量测序文库,利用获得的二代高通量测序文库和试剂盒Ion PI Template OT2200Kit v2(美国invirtrigen公司生产,货号为4485146)进行测序前的ePCR(EmulsionPCR,乳化聚合酶链反应)扩增,操作方法按该试剂盒的操作手册进行,获得ePCR扩增产物。利用ePCR扩增产物和试剂盒Ion PI Sequencing 200Kit v2(美国invirtrigen公司生产,货号为4485149)在Proton二代高通量测序仪上进行高通量测序,操作方法按该试剂盒的操作手册进行。在本实施例中,高通量测序量设置为10M测序片段(1M=100万),测序长度设置为500cycle(循环),测序结束后,获得第一高通量测序片段。
从第一高通量测序片段中,筛选有效的高通量测序片段。其中,有效的高通量测序片段包括微卫星标记位点内的微卫星标记,有效的高通量测序片段中的微卫星标记的两侧序列的碱基数均≥1个,且有效的高通量测序片段中的微卫星标记中至少有一侧的序列的碱基数≥10个。分析第一高通量测序片段中的每一条片段是否含有微卫星标记,去掉不含有微卫星标记的第一高通量测序片段。在保留下来的第一高通量测序片段中,分析微卫星标记的两侧序列的碱基数是否均≥1个,如果是,则表明微卫星标记在第一高通量测序片段中是完整的,这一点是必要的,因为微卫星标记的多态性是指微卫星标记的长度多态性,只有确保微卫星标记是完整的,才能正确获得微卫星标记的长度多态性,以便正确地进行后续分析。微卫星标记的两侧序列均小于10个碱基的第一高通量测序片段无法准确地进行后续的同源性分析,会因为序列过短而引入误差,因此,进一步去掉微卫星标记的两侧序列均小于10个碱基的第一高通量测序片段。经过以上流程,最终保留下来的第一高通测序片段即为有效的高通量测序片段。
其中,在分析第一高通量测序片段中的每一条片段是否含有微卫星标记时,可以采用现有技术中常用的分析软件进行分子,也可以简单的通过人工对每个第一高通量测序片段进行判断。
根据有效的高通量测序片段中的微卫星标记的两侧序列的同源性对有效的高通量测序片段进行分类,同一类的有效的高通量测序片段为同一个微卫星标记位点的有效的高通量测序片段,若同一个微卫星标记位点的有效的高通量测序片段的条数≥α1,则成功开发一个微卫星标记位点,其中,α1为第一判定阈值且α1≥(高通测序深度×有效的高通量测序片段的比例/基因组上能检测到的微卫星标记位点数)×概率保证。α1的具体取值可根据高通量测序的深度进行调整。将有效的高通量测序片段中的微卫星标记去掉,将剩余的两侧序列合并成一条完整的序列,采用软件Megablast(版本2.2.26)在合并后的完整的序列间进行成对的比对分析,比对的各参数设置为:参数-e设置为1e-5;参数-p设置为0;参数–v设置为5000;参数-m设置为1。将具有同源性(同源性指在DNA序列上相似)的有效的高通量测序片段归为同一类,同时计算类别内包含的有效的高通量测序片段的数量,若包含的有效的高通量测序片段的数量≥α1条时,则该类别的有效的高通量测序片段为一个成功开发的微卫星标记位点的高通量测序片段。其具体原理如下:基因组上同一个微卫星标记位点在高通量测序过程中,可能被检测到多次,由于高通量测序的对象为包含了多个具有多态性的样本的混合样本,因此,同一个微卫星标记位点中的微卫星标记的长度存在多态性变异,微卫星标记位点的两侧序列也存在变异,因此,不能要求同一个微卫星标记位点的所有有效的高通量测序片段的序列完全相同,只能根据高通量测序片段的同源性来判定是否为同一微卫星标记位点,其中,高通量测序片段包括微卫星标记与微卫星标记的两侧序列,因此,高通量测序片段的同源性可以是微卫星标记的同源性或者微卫星标记的两侧序列的同源性。不同的微卫星标记位点中的微卫星标记可能相同,因此,不能根据微卫星标记的同源性判定有效的高通量测序片段是否属于同一微卫星标记位点,只能根据微卫星标记位点的两侧序列的同源性判定有效的高通量测序片段是否属于同一微卫星标记位点。之所以要求同一个微卫星标记位点的有效的高通量测序片段的数量≥α1是为了防止诸如样本被污染等难以控制的因素造成的假阳性。α1≥3是生物信息学中确认一个片段真实存在时,一般采用的阈值,α1的具体取值可根据高通量测序的深度进行调整,可按以下公式计算:α1≥(高通测序深度×有效的高通量测序片段的比例/基因组上的能检测到的微卫星标记位点数)×概率保证,其中,在统计上,概率保证一般取值为5%或1%。本实施例中,高通量测序的深度为1000万条,有效的高通量测序片段的比例一般为40%左右,一般基因组上的能检测到的微卫星标记位点为1万个左右,因此,平均每个微卫星标记位点包含的有效的高通量测序片段为400条,实际的微卫星标记位点的测序深度呈现正态分布,所以,一般低于平均有效的高通量测序片段数1/20(5%)的分布较少。因此,本实施例中,α1取值为20条。按以上流程和标准,本实施例中,共成功开发出12322个微卫星标记位点。
选择待检测的微卫星标记位点的标准为H值最大的微卫星标记位点,其中,H值为微卫星标记位点的多态性指数,
Figure GDA0002147749800000101
其中,i为按微卫星标记位点的有效的高通量测序片段中的微卫星标记的长度进行分类时,第i个类别,i为自然数;ai为第i个类别的有效的高通量测序片段的数目占总的有效的高通量测序片段的数目的比例。如表1的假定的微卫星标记位点按有效的高通量测序片段中的微卫星标记的长度进行分类,共有3种:(TG)20、(TG)21和(TG)22,因此S=3;该微卫星标记位点的总的有效的高通量测序片段的数目为40,其中,第1种微卫星标记(TG)20的数目为3条,因此a1=3/40=7.50%,同样计算a2=32/40=80%,a3=5/40=12.50%。将以上值代入H的计算公式获得该微卫星标记位点的H值为0.98。
按与表1的假定的微卫星标记位点相同的计算方法,计算本实施例中所有成功开发出的12322个微卫星标记位点的H值,所有获得的微卫星标记位点的H值由大到小排列,选择排序前50位的微卫星标记位点为本实施中待检测的样本中需要检测的微卫星标记位点。参数50根据实际需要定,例如,在水稻纯度鉴定时,1个微卫星标记位点即可,在水稻指纹图谱构建时,一般选择50个左右的微卫星标记位点,在品种间实质性派生关系分析时,则要求选择大概300个微卫星标记位点才能满足要求。之所以选择H值最大的微卫星标记位点,是因为它们的区分能力最强,用最少的微卫星标记位点可以尽可能区分更多的样本并提供尽可能多的信息,而区分样本是微卫星标记技术最核心的任务。
提取微卫星标记位点的所有有效的高通量测序片段中的微卫星标记,如表1所列的假定的微卫星标记位点内的微卫星标记为3条(TG)20、32条(TG)21和5条(TG)22的集合。提取微卫星标记位点的所有有效高通量测序片段中的微卫星标记的左侧序列组成微卫星标记位点的左侧序列,如表1的假定的微卫星标记位点的左侧序列为3条(A)2G(A)2、5条(A)87G(A)3、27条(A)86G(A)3和5条(A)81G(A)4的集合。同样的方法,获得微卫星标记位点的右侧序列,如表1的假定的微卫星标记的右侧序列为3条(A)4G(A)80、5条(A)3G(A)2、27条(A)3G(A)81和5条2G(A)85的集合。
水稻微卫星标记位点内的微卫星标记的长度的检测方法:
从成功开发的微卫星标记位点中,选择待检测的微卫星标记位点,设计扩增待检测的微卫星标记位点的多重扩增引物。下面以表1中的假定的微卫星标记位点为例,介绍如何选择微卫星标记位点并设计多重扩增引物。
设计扩增选择的微卫星标记位点的多重扩增引物的方法包括:从选择的微卫星标记位点的所有有效的高通量测序片段中,提取微卫星标记,从中挑选出最长的微卫星标记,作为多重扩增引物设计的微卫星标记;如表1的假定的微卫星标记位点中,(TG)22为最长的微卫星标记,因此,(TG)22为该微卫星标记位点的多重扩增引物设计的模板序列的微卫星标记。之所以选择最长的微卫星标记是保证所设计的多重扩增引物所扩增的微卫星位点的长度不会超过多重PCR的扩增能力,从而减少微卫星检测时的数据缺失。
从选择的微卫星标记位点的所有有效的高通量测序片段中,提取微卫星标记的左侧序列,从中挑出长度大于α2个碱基的所有序列,α2为第二判定阈值,α2=(二代高通量测序技术所能检测的第一高通量测序片段的平均长度-多重扩增引物的微卫星标记位点的长度)÷2。本实施例中,第一高通量测序片段的平均长度为200bp,多重扩增引物设计的微卫星标记的长度为44(TG重复22次,长度为44),因此α2=78bp。因此,微卫星标记的左侧序列中,挑出的长度大于α2的所有序列为5条(A)87G(A)3、27条(A)86G(A)3和5条(A)81G(A)4的集合。从挑选出的所有序列中,挑选出频率最高的序列,例如上述挑出的长度大于α2的所有序列中,频率最高的序列为(A)86G(A)3。以频率最高的序列作为参考序列与所有的微卫星标记的左侧序列进行比对,获得频率最高的序列中每一个碱基的覆盖倍数和变异频率。例如,表1的假定的微卫星标记位点中,应该以(A)86G(A)3为参考序列与所有的左侧序列进行比对,比对时,参考序列(A)86G(A)3的5’端的第1个碱基为A,其被覆盖了5+27=32倍,由于该位置全是A,因此,变异频率为0,(A)86G(A)3的5’端的第87个碱基为G,其同样被覆盖了5+27=32倍,其中,不为G的碱基有5个(在5条(A)81G(A)4中),因此变异频率为5÷(5+27+5)=0.175,按以上方法,计算获得(A)86G(A)3中每一个碱基的覆盖倍数和变异频率。将频率最高的序列中的覆盖倍数≤1/α3或变异频率≥α3的碱基变为N后作为多重扩增引物设计的左侧序列,其中,N为A、T、C和G四种碱基中任意一种及以上的碱基;α3为第三判定阈值,α3≥5×(1-第一高通量测序片段的准确度),α3的具体值根据多重扩增引物的通用性的要求的严格程度和高通量测序的深度进行调整,要求通用性越强或高通量测序深度越深,则α3的值越小。在本实施例中,高通量测序的准确度为99%,因此α3≥5×(1-99%)=5%,本实施例要求所设计的多重扩增引物的通用性强,因此,α3取值为5%。因此,在表1的假定的微卫星标记位点中,将出频率最高的序列((A)86G(A)3)中的覆盖倍数≤1/5%=20或变异频率≥0.05的碱基记为变为N后作为多重扩增引物的模板序列的左侧序列。对于(A)86G(A)3第1个碱基,其被覆盖了32倍且变异频率为0,因此,不改变为N,对于(A)86G(A)3第86个碱基,其覆盖倍数32倍但变异频率为0.175≥0.05,因此,将该碱基变为N,按此规则,在表1的假定的微卫星标记位点中,多重扩增引物的模板序列的左侧序列为(A)85NNN(A)2。变异频率高的碱基混合样本中变异度大,因此,所设计的多重扩增引物通用性差,覆盖倍数低的碱基误差大,把它们都变成N后,在后续的多重引物设计流程中,就可以避开这些碱基位点,以确保设计出来的多重扩增引物可以在不同样本间通用。传统的微卫星标记开发由于工作量的限制,一个微卫星标记的边界序列往往只能被检测到一次或少数几次,不能获得并避开引物设计区的变异碱基,难以保障扩增引物的通用性,易造成数据缺失。
按与多重扩增引物的模板序列的左侧序列完全相同的方法,获得多重扩增引物的模板序列的右侧序列。在表1的假定的微卫星标记位点中,多重扩增引物的模板序列的右侧序列为(A)2NNN(A)80。将多重扩增引物的模板序列的左侧序列、多重扩增引物的模板序列的微卫星标记和多重扩增引物的模板序列的右侧序列依次连接,得到微卫星标记位点的多重扩增引物的模板序列,利用微卫星标记位点的多重扩增引物的模板序列,获得多重扩增引物。表1中的假定的微卫星标记位点的多重扩增引物的模板序列为(A)85NNN(A)2(TG)22(A)2NNN(A)80。
按与上述相同的方法与参数,获得本实施中最终选择的50个微卫星标记位点的多重扩增引物的模板序列。
表1一个假定的微卫星标记位点的第一高通量测序片段
Figure GDA0002147749800000131
表1所示的第一高通量测序片段类型中,带下划线的部分代表微卫星标记,括号内的字母表示微卫星标记的重复单元,括号后的数字代表重复单元的重复次数。
利用所有微卫星标记位点的多重扩增引物的模板序列设计扩增选择的微卫星标记位点的多重扩增引物。具体方法如下:将获得的50个微卫星标记位点的多重扩增引物的模板序列用100个N连接起来,构建成一个人工参考基因组。登录多重PCR引物在线设计网页https://ampliseq.com/,在“Application type”选项选择“DNA Hotspot designs(single-pool)”。并在“Select the genome you wish to use”选项中选择“Custom”后,上传构建人工参考基因组。“DNA Type”选项选择“Standard DNA”。在“Add Hotspot”选项中,填入构建的人工参考基因组中每一个微卫星标记的起始位置与终止位置,最后点击“Submit targets”按钮提交并获得多重扩增引物的序列。本实施例中,所选择的50个微卫星标记位点中,成功设计了多重扩增引物的微卫星标记位点为48个,这个48个微卫星标记位点即为待检测的微卫星标记位点。本实施例采用美国赛默飞世尔公司提供的多重PCR技术,其能够同时扩增多至12000个测试区域,因此,本发明有能力一次性检测12000个微卫星标记位点,这是传统的微卫星标记位点检测能力的12000倍。
通过多重扩增引物扩增待检测的微卫星标记位点内的微卫星标记,得到扩增产物,将扩增产物进行高通量测序,得到第二高通量测序片段。本实施例中,待检测的样本为武汉开发区水稻田中取的100株水稻叶片,将100株水稻叶片等量混合后获得混合样本,利用植物基因组DNA提取试剂盒(货号:DP305,生产公司:天根生化科技(北京)有限公司)按其操作手册提供的方法提取获得混合样本的基因组DNA。采用所设计的48对多重扩增引物和文库构建试剂盒2.0(由美国LifeTechnology公司生产,货号为4475345)并按该试剂盒的操作手册对混合样本的基因组DNA进行扩增,构建高通量测序文库,利用获得的高通量测序文库和试剂盒Ion PI Template OT2 200Kit v2(美国invirtrigen公司生产,货号为4485146)进行测序前的ePCR(Emulsion PCR,乳化聚合酶链反应)扩增,操作方法按该试剂盒的操作手册进行,获得ePCR产物。利用ePCR产物和试剂盒Ion PI Sequencing 200Kit v2(美国invirtrigen公司生产,货号为4485149)在Proton二代高通量测序仪上进行高通量测序,操作方法按该试剂盒的操作手册进行。在本实施例中,高通量测序量设置为1M测序片段(1M=100万),高通量测序长度设置为500cycle(循环),测序结束后,获得第二高通量测序产物。
通过分析第二高通量测序产物,获得微卫星标记位点内的微卫星标记的长度。具体方法为:去除第二高通量测序片段中的微卫星标记后,获得第二高通量测序片段的左边界序列和第二高通量测序片段的右边界序列;利用左边界序列和右边界序列将第二高通量测序片段中的每个片段比对到待检测的微卫星标记位点上;截取每一个待检测的微卫星标记位点的第二高通量测序片段中的微卫星标记;将获得的微卫星标记按长度进行分类,并计算第i个类别的真实度Ri=Ni/Nmax,其中,Ni为第i个类别的第二高通量测序片段的数量,Nmax为所有类别的第二高通量测序片段的数量的最大值;若真实度Ri≥α4,则第i个类别的微卫星标记的长度为微卫星标记位点内的微卫星标记的长度,若真实度Ri<α4,则第i个类别的微卫星标记的长度不为微卫星标记位点内的微卫星标记的长度,其中,α4为第四判定阈值。微卫星标记位点内的微卫星标记的多态性是由于微卫星标记中的简单重复序列的重复次数不一致造成的长度多态性,因此,微卫星标记位点的检测主要是指检测微卫星标记位点内的微卫星标记的长度。一般的物种为二倍体,如果样本是纯合的,那么,同一个微卫星标记位点内应该只包含一种微卫星标记的等位位点,如果样本是杂合的,则同一个微卫星标记位点有2个不同微卫星标记的等位位点。如果样本是多倍体,如小麦和棉花,则判定标准也应该做相应调整。微卫星标记位点在进行多重扩增时,微卫星标记扩增可能会产生滑动,因此,在第二高通量测序片段中,部分由于滑动产生的微卫星标记的长度与混合样本中的真实的微卫星标记的长度不相同,从而形成干扰噪音,真实度Ri可以反应了干扰噪音的强弱,Ri值越大,则干扰越小。因此,需要设定一个真实度的判定阈值α4以确定第i种类别中的微卫星标记是否真实存在。在缺乏已有参考资料的情况下且为纯合体(一个位点只可能有一种基因型)时,α4一般取值为0.6;若为杂合体时,则可利用0.6/X作为α4的值,其中,X为待检测物种的倍性水平,例如若为4倍体,则α4的值为0.6/4=0.15。若已知的滑动产生的微卫星标记干扰的大小,则可以制定更具体的标准。例如,当已知某个微卫星标记位点在100次检测中,有95次以上的滑动产生的干扰微卫星标记的比例均小于0.3,那么,我们可以将α4的取值确定为0.3,那么,我们有95%的置信度保障我们获得的第i个类别的微卫星标记的基因型是真实存在的。值得一提的是,若α4取值较大,则判定微卫星标记真实存在时犯错的概率就较低,但可能将部分真实存在的微卫星标记误判为不存在;相反,若α4取值较小,则更多真实存在的微卫星标记将被判断出来,但判定微卫星标记真实存在时犯错的概率就较高。因此,本实施例中α4的取值只是其中一种方式,需要根据实际需要或者已有的研究结果进行调整。在本实施例子中,因为缺乏参考资料确定α4的值且待测样本为二倍体,为杂合体,所以,α4取值为0.6/2=0.3。由于滑动产生的虚假的微卫星标记与真实的微卫星标记的扩增产物长度差异不大,而且传统的微卫星标记的检测方法多为电泳,无法区分较小的长度差异,即使能够区分,也无法准确定量,因此,传统的微卫星标记检测时,无法计算或无法准确计算Ri的值,造成大量的不准确甚至错误的结论。
下面再次假定表1为一个检测到的微卫星标记位点,说明如何检测混合样本中待检测的微卫星标记位点。在表1中假定的微卫星标记位点的第二高通量测序片段中,截取的微卫星标记为3条(TG)20、32条(TG)21和5条(TG)22的集合,将截取的微卫星标记按重复单元分类,均为TG,保留出现频率最高的重复单元的微卫星标记,它们为3条(TG)20、32条(TG)21和5条(TG)22的集合;将保留下来的微卫星标记进一步按长度进行分类,共获得3个类别,分别为(TG)20、(TG)21和(TG)22。在这3个类别中,占有最多的第二高通量测序片段的数量的类别为第2个类别(TG)21,即Nmax=N2=32。第1个类别(TG)20占有的第二高通量测序片段的数量为3条,即N1=3,那么,R1=3/32<α4=0.3,因此,判定第1个类别(TG)20并不是真实存在的,是由滑动引起的。同样,计算R2=1,R3=5/32,根据同样的标准,判定,第2个类别是真实存在的,第3个类别不是真实存在的。因此,混合样本中待检测的微卫星标记位点内的微卫星标记的长度为类别2的微卫星标记的长度,即表1中假定的待检测的微卫星标记位点内的微卫星标记的长度为42bp(TG重复21次,因此其长度为21×2bp=42bp)。
按与上述假定的实施例中相同的方法和参数再次进行检测,成功检测了本实施例中,48个待检测的微卫星标记位点内的微卫星标记的长度。
实施例二鲫鱼微卫星标记的开发方法与微卫星标记位点内的微卫星标记的长度的检测方法
本实施例中的大部分方法都与实施例一相同,下面介绍一下本实施例与实施例一的不同之处。
本实施例中需要开发的微卫星标记的样本为鲫鱼,且样本从武汉地区30个不同水域中捕获的野生鲫鱼中,每个水域中随机选择2尾鲫鱼,每条鲫鱼取等量血液混合成为混合样本。因此,本实施例中,n=30,利用血液基因组DNA提取试剂盒(货号:DP348,生产公司:天根生化科技(北京)有限公司)按其操作手册提供的方法提取获得的混合样本的基因组。采用与实施例一相同的方法获得混合样本的基因组片段并对基因组片段进行定量检测。
采用与实施例一相同的方法,利用生物素标记的具有简单重复序列的探针与基因组片段进行杂交,获得杂交溶液,利用链霉亲和素磁珠纯化成功杂交的基因组片段,获得纯化的基因片段。采用与实施例一相同的方法,利用二代高通量测序技术检测纯化的基因组片段,获得第一高通量测序片段。采用与实施例一相同的方法,从第一高通量测序片段中,获得有效的高通量测序片段。采用与实施例一相同的方法,根据有效的高通量测序片段,获得成功开发的微卫星标记位点,本实施例中,共成功开发出13021个微卫星标记位点。采用与实施例一相同的方法,从成功开发的微卫星标记位点中,选择H值最大的50个微卫星标记位点作为本实施例中最终选择的微卫星标记位点,获得本实施例中最终选择的50个微卫星标记位点的多重扩增引物的模板序列,并设计它们的多重扩增引物。本实施例中,所选择的50个微卫星标记中,成功设计了多重扩增引物的微卫星标记位点为49个,这个49个微卫星标记位点即为待检测的微卫星标记位点。采用与实施例一相同的方法,利用多重扩增引物,扩增待检测的微卫星标记位点内的微卫星标记,得到扩增产物,将扩增产物进行高通量测序,得到第二高通量测序片段。本实施例中,将从武汉开发区三角湖中捕获的1条鲫鱼的血液,利用血液基因组DNA提取试剂盒(货号:DP348,生产公司:天根生化科技(北京)有限公司)按其操作手册提供的方法提取获得的待检测的样本的基因组DNA。按与实施一相同的方法,采用所设计的49对多重扩增引物对混合样本的基因组DNA进行扩增、构建高通量测序文库并进行高通量测序,获得第二高通量测序产物。采用与实施例一类似的方法,利用生物信息学方法分析第二高通量测序产物,获得混合样本中的49个待检测的微卫星标记位点内的微卫星标记的长度。
本发明实施例提供的微卫星标记位点的开发方法与检测方法快捷、简单、全面、准确。传统的微卫星标记位点的开发方法,由于工作量大,只能发现基因组中大约1%左右的微卫星标记位点,也只能在小于100个样本中验证微卫星标记位点的多态性。对于本发明来说,理论上可以发现基因组上所有微卫星标记位点,针对水稻的微卫星开发的实施例中,发现了1万多个微卫星标记位点,大致为水稻所有微卫星标记位点的50%,因此,在微卫星标记位点的发现能力上,提高了50倍,如果增加高通量的测序量(这是很容易办到的),则可以将微卫星标记位点的发现能力提高到80倍甚至接近100倍,都是比较容易实现的。本发明实施例是将微卫星标记位点的开发(发现)与多态性检测合二为一,并没有付出额外的工作,但对于传统的微卫星标记位点的多态性检测工作来说,是耗时且难以实现的,如在21个水稻品种中检测12322个微卫星标记位点的多态性,相当于传统的检测中做了21*12322=258762次PCR扩增与电泳,这个工作量是不可想象的。除此之外,传统的微卫星标记位点的开发技术由于工作量大,没有能力检测同一个微卫星标记位点的多个序列,所以,不能分析多重扩增引物的保守性,导致开发出来的微卫星标记的多重扩增引物的通用性差,而本发明实施例解决了这一问题。以本发明的水稻微卫星标记位点内的微卫星标记的长度的检测方法中一次检测了48个微卫星标记位点为例,对于传统的检测方法来说,则需要48次PCR扩增和电泳。对于本发明来说,即使是检测1万个微卫星标记位点,其工作量也不会增加,但对于传统的检测方法来说,工作量则增加了1万倍。传统的检测方法是通过电泳判定微卫星标记的长度,但电泳是存在误差的,因此,需要参照品种进行对比,从而增加了检测的工作量,而且,很少有实验室能够有一套完整的参照品种,而本发明实施例采用的是高通量测序,获得的是碱基序列,由于所得结果是绝对值,所以没有误差,因此,不再需要参照品种。此外,电泳检测无法分辨不同单株,比如,本发明在水稻检测中的样本是100个单株的混合,在电泳结果中,无法准确计算同一个微卫星标记位点的不同微卫星标记的比例,因此,无法分辨单株,从而无法计算杂株率等重要指标。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
序列表
<110> 江汉大学
<120> 微卫星标记位点开发方法与微卫星标记位点内的微卫星标记的长度检测方法
<160>12
<170>PatentIn version 3.4
<210> 1
<211>24
<212>DNA
<213>人工序列(Artificial Sequence)
<400> 1
ctctctctct ctctctctct ctct 24
<210> 2
<211>24
<212>DNA
<213>人工序列(Artificial Sequence)
<400> 2
gagagagaga gagagagaga gaga 24
<210> 3
<211>24
<212>DNA
<213>人工序列(Artificial Sequence)
<400> 3
tgtgtgtgtg tgtgtgtgtg tgtg 24
<210> 4
<211>24
<212>DNA
<213>人工序列(Artificial Sequence)
<400> 4
acacacacac acacacacac acac 24
<210> 5
<211>24
<212>DNA
<213>人工序列(Artificial Sequence)
<400> 5
tatatatata tatatatata tata 24
<210> 6
<211>24
<212>DNA
<213>人工序列(Artificial Sequence)
<400> 6
tgttgttgtt gttgttgttg ttgt 24
<210> 7
<211>24
<212>DNA
<213>人工序列(Artificial Sequence)
<400> 7
ccaccaccac caccaccacc acca 24
<210> 8
<211>24
<212>DNA
<213>人工序列(Artificial Sequence)
<400> 8
atcatcatca tcatcatcat catc 24
<210> 9
<211>24
<212>DNA
<213>人工序列(Artificial Sequence)
<400> 9
cctcctcctc ctcctcctcc tcct 24
<210> 10
<211>24
<212>DNA
<213>人工序列(Artificial Sequence)
<400> 10
agaagaagaa gaagaagaag aaga 24
<210> 11
<211>24
<212>DNA
<213>人工序列(Artificial Sequence)
<400> 11
atgatgatga tgatgatgat gatg 24
<210> 12
<211>24
<212>DNA
<213>人工序列(Artificial Sequence)
<400> 12
caacaacaac aacaacaaca acaa 24

Claims (4)

1.一种微卫星标记位点开发方法,其特征在于,所述开发方法包括:
将待开发微卫星标记位点的同一物种的n个具有多态性的样本等质量混合,获得混合样本,其中n>1,选择所述同一物种的n个具有多态性的样本的方法包括:在同一个物种中,选择外部形态不同的样本、生物分类不同的样本、标记互不相同的样本或不同生态区域的野生资源的样本;
提取所述混合样本的基因组;
将所述混合样本的基因组片段化,获得基因组片段;
将多个具有简单重复序列的探针作为探针组,利用所述探针组中的每个探针分别与所述基因组片段进行杂交,获得多个杂交溶液,所述探针的数量为12个,每个所述探针的简单重复序列中的重复单元为CT、GA、TG、AC、TA、TGT、CCA、ATC、CCT、AGA、ATG或CAA,每个所述探针的简单重复序列的重复次数为6~20,对多个所述杂交溶液中成功杂交的基因组片段分别进行纯化,得到多个纯化的杂交基因组片段;
将多个所述纯化的杂交基因组片段等质量混合后,利用高通量测序检测混合后的所述纯化的杂交基因组片段,获得第一高通量测序片段;
从所述第一高通量测序片段中,筛选有效的所述高通量测序片段,所述有效的高通量测序片段包括微卫星标记位点内的微卫星标记,所述有效的高通量测序片段中的所述微卫星标记的两侧序列的碱基数均≥1个,且所述有效的高通量测序片段中的所述微卫星标记中至少有一侧的序列的碱基数≥10个;
根据所述有效的高通量测序片段中的微卫星标记的两侧序列的同源性对所述有效的高通量测序片段进行分类,同一类的所述有效的高通量测序片段为同一个微卫星标记位点的所述有效的高通量测序片段,若同一个所述微卫星标记位点的所述有效的高通量测序片段的条数≥α1,则成功开发一个所述微卫星标记位点,其中,α1为第一判定阈值且α1≥(高通测序深度×有效的高通量测序片段的比例/基因组上能检测到的微卫星标记位点数)×概率保证。
2.根据权利要求1所述的开发方法,其特征在于,所述微卫星标记指由≥2个碱基组成的重复单元串联重复构成的序列。
3.根据权利要求1所述的开发方法,其特征在于,所述探针的序列如序列表中SEQ IDNO:1-SEQ ID NO:12所示。
4.一种权利要求1-3任一项所述的开发方法成功开发的微卫星标记位点内的微卫星标记的长度检测方法,其特征在于,所述检测方法包括:
从成功开发的所述微卫星标记位点中,选择待检测的微卫星标记位点,所述从成功开发的所述微卫星标记位点中,选择待检测的微卫星标记位点的方法包括:
选择所述待检测的微卫星标记位点的标准为H值最大的所述微卫星标记位点,其中,H值为所述微卫星标记位点的多态性指数,
Figure FDA0002240925220000021
其中,S为微卫星标记位点按有效的高通量测序片段中的微卫星标记的长度分类的数目,i为按所述微卫星标记位点的所述有效的高通量测序片段中的微卫星标记的长度进行分类时,第i个类别,i为自然数;ai为第i个类别的所述有效的高通量测序片段的数目占总的所述有效的高通量测序片段的数目的比例,利用多重扩增引物扩增所述待检测的微卫星标记位点内的微卫星标记,得到扩增产物,将所述扩增产物进行高通量测序,得到第二高通量测序片段,通过分析所述第二高通量测序片段,获得所述微卫星标记位点内的微卫星标记的长度;
获得所述微卫星标记位点内的所述微卫星标记的长度的方法为:去除所述第二高通量测序片段中的所述微卫星标记后,获得所述第二高通量测序片段的左边界序列和所述第二高通量测序片段的右边界序列;利用所述左边界序列和所述右边界序列将所述第二高通量测序片段中的每个片段比对到所述待检测的微卫星标记位点上;截取每一个所述待检测的微卫星标记位点的所述第二高通量测序片段中的所述微卫星标记;将获得的所述微卫星标记按长度进行分类,并计算第i个类别的真实度Ri=Ni/Nmax,其中,i为按所述微卫星标记位点的所述有效的高通量测序片段中的微卫星标记的长度进行分类时,第i个类别,Ni为所述第i个类别的所述第二高通量测序片段的数量,Nmax为所有类别的所述第二高通量测序片段的数量的最大值;若所述真实度Ri≥α4,则所述第i个类别的所述微卫星标记的长度为所述微卫星标记位点内的所述微卫星标记的长度,若所述真实度Ri<α4,则所述第i个类别的微卫星标记的长度不为所述微卫星标记位点内的所述微卫星标记的长度,其中,α4为第四判定阈值;
制备所述多重扩增引物的方法包括:
从选择的所述待检测的微卫星标记位点的所有所述有效的高通量测序片段中,提取所述微卫星标记并挑选出最长的所述微卫星标记作为多重扩增引物的模版序列的微卫星标记;
从选择的所述待检测的微卫星标记位点的所有所述有效的高通量测序片段中,提取所述微卫星标记的左侧序列并挑出长度大于α2个碱基的所有序列,从挑选出的所述所有序列中,挑选出频率最高的序列,以所述频率最高的序列作为参考序列,将所述参考序列与所有的所述微卫星标记的左侧序列进行比对,在所述频率最高的序列中获得每一个碱基的覆盖倍数和变异频率;在所述频率最高的序列中,将所述覆盖倍数≤1/α3或所述变异频率≥α3的碱基变为N后作为所述多重扩增引物的模板序列的左侧序列,其中,N为A、T、C和G四种碱基中任意一种及以上的碱基;α2为第二判定阈值,α2=(所述第一高通量测序片段的平均长度-所述多重扩增引物的微卫星标记位点的长度)÷2;α3为第三判定阈值,α3≥5×(1-所述第一高通量测序片段的准确度);
按照与所述多重扩增引物的模板序列的左侧序列相同的方法,获得多重扩增引物序列的模板序列的右侧序列;
将所述多重扩增引物的模板序列的左侧序列、所述多重扩增引物的模板序列的微卫星标记和所述多重扩增引物的模板序列的右侧序列依次连接,得到所述微卫星标记位点的多重扩增引物的模板序列,利用所述微卫星标记位点的多重扩增引物的模板序列,获得所述多重扩增引物。
CN201611030248.8A 2016-11-16 2016-11-16 微卫星标记位点开发方法与微卫星标记位点内的微卫星标记的长度检测方法 Active CN106520958B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611030248.8A CN106520958B (zh) 2016-11-16 2016-11-16 微卫星标记位点开发方法与微卫星标记位点内的微卫星标记的长度检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611030248.8A CN106520958B (zh) 2016-11-16 2016-11-16 微卫星标记位点开发方法与微卫星标记位点内的微卫星标记的长度检测方法

Publications (2)

Publication Number Publication Date
CN106520958A CN106520958A (zh) 2017-03-22
CN106520958B true CN106520958B (zh) 2020-03-27

Family

ID=58356019

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611030248.8A Active CN106520958B (zh) 2016-11-16 2016-11-16 微卫星标记位点开发方法与微卫星标记位点内的微卫星标记的长度检测方法

Country Status (1)

Country Link
CN (1) CN106520958B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108441538A (zh) * 2018-04-17 2018-08-24 南昌大学 基于多样本高通量测序开发多态性微卫星分子标记的方法
CN111540408B (zh) * 2020-05-12 2023-06-02 西藏自治区农牧科学院水产科学研究所 一种全基因组多态性ssr分子标记的筛选方法
CN112795661B (zh) * 2020-11-20 2023-01-31 南京师范大学 一种与暗纹东方鲀生长性状相关的微卫星标记、引物、方法及应用

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Using next‐generation sequencing approaches to isolate simple sequence repeat (SSR) loci in the plant sciences;Juan E. Zalapa等;《Molecular Marker Development》;20121231;第99卷(第2期);193-208 *
大麦基因组中的微卫星标记及其应用;冯宗云等;《遗传》;20021231;第24卷(第6期);727-733 *
微卫星DNA标记开发技术进展及其在经济植物研究中的应用;王娟娟等;《生命科学研究》;20160630;第20卷(第3期);260-266 *

Also Published As

Publication number Publication date
CN106520958A (zh) 2017-03-22

Similar Documents

Publication Publication Date Title
US9976191B2 (en) Rice whole genome breeding chip and application thereof
CN102329876B (zh) 一种测定待检测样本中疾病相关核酸分子的核苷酸序列的方法
CN107345256A (zh) 一种基于转录组测序开发山黧豆est‑ssr引物组及方法和应用
CN107760789B (zh) 一种用于牦牛亲子鉴定和个体识别的基因分型检测试剂盒
CN106520958B (zh) 微卫星标记位点开发方法与微卫星标记位点内的微卫星标记的长度检测方法
KR20190135797A (ko) 터봇 친자 식별용 유전자 마커 및 이를 이용한 친자 확인방법
CN109234449A (zh) 一种黑麦通用2rl染色体特异共显性kasp分子标记及其应用
CN106520955B (zh) 水稻微卫星标记位点开发方法与微卫星标记位点内的微卫星标记的长度检测方法
CN106636362B (zh) 大豆微卫星标记位点开发方法与微卫星标记位点内的微卫星标记的长度检测方法
CN106520959B (zh) 兰花微卫星标记位点开发方法与微卫星标记位点内的微卫星标记的长度检测方法
CN106520961B (zh) 玉米微卫星标记位点开发方法与微卫星标记位点内的微卫星标记的长度检测方法
CN109706231B (zh) 一种用于凡纳滨对虾分子育种的高通量snp分型方法
CN109536624B (zh) 用于甄别半滑舌鳎真伪雄鱼性的荧光分子标记和检测方法
CN108796107A (zh) 与黄瓜果刺硬度基因Hard共分离的SNP分子标记及其应用
CN110305974B (zh) 基于检测五个snp位点区分常见小鼠近交系的pcr分析引物及其分析方法
CN113564266B (zh) Snp分型遗传标记组合、检测试剂盒及用途
CN106755312B (zh) 马铃薯微卫星标记位点开发方法与微卫星标记位点内的微卫星标记的长度检测方法
CN106520960B (zh) 芝麻微卫星标记位点开发方法与微卫星标记位点内的微卫星标记的长度检测方法
CN106566890B (zh) 油菜微卫星标记位点开发方法与微卫星标记位点内的微卫星标记的长度检测方法
CN106520954B (zh) 棉花微卫星标记位点开发方法与微卫星标记位点内的微卫星标记的长度检测方法
CN106755314B (zh) 小麦微卫星标记位点开发方法与微卫星标记位点内的微卫星标记的长度检测方法
CN111763668B (zh) 测序引物组及基于pcr的全基因组测序方法
CN113699253A (zh) 一种崂山奶山羊低密度液相snp芯片及其应用
CN108570509B (zh) 一种脊尾白虾ec16 snp标记的检测方法
CN113151501A (zh) 一种黄牛wbp1l基因cnv标记辅助检测生长性状的方法及其应用

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant