CN112226529A - 一种冬瓜抗枯萎病基因的snp分子标记及应用 - Google Patents

一种冬瓜抗枯萎病基因的snp分子标记及应用 Download PDF

Info

Publication number
CN112226529A
CN112226529A CN202010939944.0A CN202010939944A CN112226529A CN 112226529 A CN112226529 A CN 112226529A CN 202010939944 A CN202010939944 A CN 202010939944A CN 112226529 A CN112226529 A CN 112226529A
Authority
CN
China
Prior art keywords
snp
wax gourd
blight
genes
markers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010939944.0A
Other languages
English (en)
Inventor
吴永官
黎炎
康德贤
蒋雅琴
甘桂云
王益奎
李韦柳
李文嘉
莫阳鹏
何小艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi Zhuang Nationality Autonomous Region Academy of Agricultural Sciences
Original Assignee
Guangxi Zhuang Nationality Autonomous Region Academy of Agricultural Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi Zhuang Nationality Autonomous Region Academy of Agricultural Sciences filed Critical Guangxi Zhuang Nationality Autonomous Region Academy of Agricultural Sciences
Priority to CN202010939944.0A priority Critical patent/CN112226529A/zh
Publication of CN112226529A publication Critical patent/CN112226529A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • C12Q1/6895Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms for plants, fungi or algae
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/13Plant traits
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Immunology (AREA)
  • Mycology (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Botany (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明属于生物育种技术领域,公开了一种冬瓜抗枯萎病基因的SNP分子标记及应用,所述冬瓜抗枯萎病基因的SNP分子标记为与冬瓜枯萎病抗性关联的SNP多态性标记;所述SNP多态性标记包括22个;所述SNP分子标记分布于12个连锁群。所述冬瓜抗枯萎病基因的SNP分子标记的应用包括:在检测和/或预测冬瓜枯萎病中的应用;在冬瓜的分子标记辅助育种中的应用;或在加速筛选抗枯萎病冬瓜育种进程中的应用。本发明的分子标记能够对抗病基因进行有效的筛选,能够应用于检测和/或预测冬瓜枯萎病;应用于冬瓜的分子标记辅助育种;应用于加速筛选抗枯萎病冬瓜育种进程。

Description

一种冬瓜抗枯萎病基因的SNP分子标记及应用
技术领域
本发明属于生物育种技术领域,尤其涉及一种冬瓜抗枯萎病基因的SNP分子标记及应用。
背景技术
目前:遗传连锁图是指以遗传标记(已知性状的基因或特定DNA序列)间重组频率为基础的1条染色体或基因内位点的相对位置线性排列图。根据分子图谱和分离群体中各株(系)的性状表现,可以确定分子标记对数量性状与影响该性状的基因之间的连锁关系。BSA通过高通量测序,结合集群分离分析法(Bulked Segregation Analysis),通过亲本和极端子代混池的测序,实现与性状紧密关联的分子标记区域。SLAF-seq通过限制性内切酶消化基因组DNA,选取一定长度的片段进行测序,降低了基因组的复杂度,并且不依赖基因组序列,其在鉴别、验证和记录标记的能力优胜于任何其他的方法,因而成为 SNP标记开发的首选。
枯萎病是制约当前华南区冬瓜产业发展的重要因素,对产业的危害性非常大。而充分发掘利用优异抗源,培育抗病品种是减小生产风险,降低损失的最有效途径,但国内抗病育种技术落后,育种效率低,目前在华南区大面积推广种植的优良冬瓜品种中,抗性最高的只能达到中抗水平(发病率21-50%),难以满足生产需求。而现有的冬瓜资源中仍以中抗枯萎病为主,而高抗枯萎病材料大都是一些古老的、农艺性状比较差的地方品种,单靠常规育种方法改良,周期长,效率低,因此有必要开展与抗枯萎病基因紧密连锁的分子标记,展开分子标记辅助育种选择,以便有效利用抗枯萎病优异资源,培育出抗枯萎病的冬瓜新品种,以满足产业的需求,也为冬瓜枯萎病防治提供新方法和途径。
通过上述分析,现有技术存在的问题及缺陷为:现有抗病育种技术落后,育种效率低,同时现有抗枯萎病冬瓜育种周期长,抗性差。
发明内容
针对现有技术存在的问题,本发明提供了一种冬瓜抗枯萎病基因的SNP分子标记及应用。
本发明是这样实现的,一种冬瓜抗枯萎病基因的SNP分子标记及应用,所述冬瓜抗枯萎病基因的SNP分子标记为与冬瓜枯萎病抗性关联的SNP多态性标记;所述SNP多态性标记包括22个;所述SNP分子标记分布于12个连锁群;
所述22个SNP多态性标记在12个连锁群的分布包括:
1号连锁群16个、6号连锁群3个、7号连锁群1个和12号连锁群2个。
本发明的另一目的在于提供一种所述冬瓜抗枯萎病基因的SNP分子标记的应用,所述冬瓜抗枯萎病基因的SNP分子标记的应用包括:
在检测和/或预测冬瓜枯萎病中的应用;在冬瓜的分子标记辅助育种中的应用;或在加速筛选抗枯萎病冬瓜育种进程中的应用。
进一步,所述在加速筛选抗枯萎病冬瓜育种进程中的应用包括:
步骤一,通过简化基因组技术SLAF-seq,对由高抗和高感枯萎病材料构建的145个F2群体子代进行高通量测序,鉴定 SNP;
步骤二,利用获得的SNP数据构建冬瓜的高密度遗传图谱,利用构建的遗传图谱对抗病性状进行QTL定位;
步骤三,对定位区间基因进行功能注释,筛选候选基因;
步骤四,通过挑选145个个体中的极端性状20个高抗、20个高感个体进行混池BSA分析,将图谱定位结果与BSA定位结果进行联合分析,对抗枯萎病基因进行精细定位;
步骤五,基于定位结果进行抗枯萎病基因的筛选,并进行抗枯萎病冬瓜育种。
进一步,步骤四中,所述将图谱定位结果与BSA定位结果联合分析包括:
(1)利用SNP-index和ED两种关联分析方法对抗枯萎病性状进行定位;对SNP-index和ED两种关联分析得到的结果取交集;
(2)将得到的交集作为候选区域,并对候选区域进行功能注释;
(3)对候选区域的基因进行GO富集分析、KEGG富集分析以及COG分类统计,即可得到抗枯萎病基因精细定位结果。
进一步,步骤(2)中,所述功能注释包括:SNP注释以及基因注释。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明的分子标记能够对抗病基因进行有效的筛选,能够应用于检测和/或预测冬瓜枯萎病;应用于冬瓜的分子标记辅助育种;应用于加速筛选抗枯萎病冬瓜育种进程。同时本发明将图谱定位结果与BSA定位结果联合分析能够实现对抗性性状进行精确定位。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的在加速筛选抗枯萎病冬瓜育种进程中的应用流程图。
图2是本发明实施例提供的生物信息预测与SLAF文库构建、测序流程示意图
图3是本发明实施例提供的生物信息分析流程示意图。
图4是本发明实施例提供的各个类型标签分布图。
图5是本发明实施例提供的高密度遗传图谱示意图。
图6是本发明实施例提供的偏分离标记在各个连锁群的数目及位置分析示意图。
图7是本发明实施例提供的单体来源示意图。
图8是本发明实施例提供的热图评估示意图。
图9是本发明实施例提供的遗传图谱和物理图谱共线性比较示意图。
图10是本发明实施例提供的QTL定位示意图。
图11是本发明实施例提供的关联区域内基因GO注释聚类图。
图12是本发明实施例提供的关联区域内基因的Cellular component topGO有向无环图。
图13是本发明实施例提供的关联区域的最优富集通路图。
图14是本发明实施例提供的关联区域内基因COG注释分类图。
图15是本发明实施例提供的Δ(SNP_index)关联算法流程示意图
图16是本发明实施例提供的SNP-index关联分析结果示意图;
图16中:横坐标为染色体名称,彩色的点代表计算出来的SNP-index(或ΔSNP-index)值,黑色的线为拟合后的SNP-index (或ΔSNP-index)值。图16(a)是B1混池的SNP-index值的分布图;图16(b)是B2混池的SNP-index值的分布图;图16(c) 是ΔSNP-index值的分布图,其中红色的线代表置信度为0.99的阈值线,蓝色的线代表置信度为0.95的阈值线,绿色的线代表置信度为0.90的阈值线。
图17是本发明实施例提供的ED关联分析结果示意图;
图17中:横坐标为染色体名称,彩色的点代表每个SNP位点的ED值,黑色的线为拟合后的ED值,红色的虚线代表显著性关联阈值,ED值越高,代表该点关联效果越好。
图18是本发明实施例提供的候选区域内基因GO注释聚类图;
图中:横坐标为GO各分类内容,纵坐标左边为基因数目所占百分比,右边为基因数目。
图19是本发明实施例提供的候选区域内基因的Cellular componenttopGO有向无环图。
图20是本发明实施例提供的候选区域内基因的通路分布图;
图20中:横坐标为注释到该通路下的基因个数及其个数占被注释上的基因总数的,纵坐标为KEGG代谢通路的名称。
图21是本发明实施例提供的候选区域的最优富集通路图;
图中:红色框标记的为关联区域内的基因,蓝色框代表该通路所需要的所有的酶。
图22是本发明实施例提供的候选区域内基因COG注释分类图;
图中:横坐标为COG各分类内容,纵坐标为基因数目。
图23是本发明实施例提供的各条染色体的分图和所有染色体放在一起的总图;
图23中:黑线是Marker与性状的LOD值分布,浅色的灰线是LOD阈值;蓝线是图23(a)对应位置的加性效应,红线是显性效应。
图24是本发明实施例提供的BSA关联值分布图。
图25是本发明实施例提供的测序质量值分布图;
图25中:横坐标为reads的碱基位置,纵坐标为单碱基的质量值。前100bp为双端测序序列的第一端测序reads的质量值分布,后100bp为另一端测序reads的质量值分布;同一个位置对应的不同质量的测序reads,颜色越深,代表所对应位置的测序质量比例越高。
图26是本发明实施例提供的碱基含量分布图;
图26中:横坐标为reads的碱基位置,纵坐标为碱基所占的比例;不同颜色代表不同的碱基类型,绿色代表碱基A,红色代表碱基C,橙色代表碱基G,蓝色代表碱基T,灰色代表测序中识别不出的碱基N。前100bp为双端测序序列的第一端测序Reads的碱基分布,后100bp为另一端测序reads的碱基分布。如第一个位置代表测序的reads在第一个碱基的A、T、G、C、N的分布情况。
图27是本发明实施例提供的Control reads插入片段分布图;
图27中:横坐标表示reads的插入片段长度,纵坐标表示reads所占的比例。
图28是本发明实施例提供的各个类型标签分布图;
图28中:横坐标表示所有的标签类型,纵坐标代表该类型标签个数。
图29是本发明实施例提供的遗传图谱结果图。
图30是本发明实施例提供的所有个体上图标记完整性分布图;
图30中:横坐标表示样品;纵坐标表示完整度。
图31是本发明实施例提供的LG10的单体来源评估结果示意图;
图31中:每一个横行代表一个Marker,按照在连锁群上的位置顺序排列。每一列代表一个样品中的一条染色体,绿色代表来自母本,蓝色代表来自父本,红色代表杂合分型,同一列颜色发生变化的位置即为重组事件发生的位置。
图32是本发明实施例提供的LG10连锁群上Marker连锁关系结果示意图;
图32中:每一行和每一列都是按图谱顺序排列的Marker,每个小方格代表两个Marker间的重组率,颜色从黄到红到紫的变化代表重组率从小到大变化。距离越近的Marker重组率越小,颜色越接近黄色,距离越远的Marker重组率越大,越接近紫色。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种冬瓜抗枯萎病基因的SNP分子标记及应用,下面结合附图对本发明作详细的描述。
本发明实施例提供的冬瓜抗枯萎病基因的SNP分子标记为与冬瓜枯萎病抗性关联的SNP多态性标记;所述SNP多态性标记包括22个;所述SNP分子标记分布于12个连锁群;
所述22个SNP多态性标记在12个连锁群的分布包括:
1号连锁群16个、6号连锁群3个、7号连锁群1个和12号连锁群2个。
本发明实施例提供的冬瓜抗枯萎病基因的SNP分子标记的应用包括:
在检测和/或预测冬瓜枯萎病中的应用;在冬瓜的分子标记辅助育种中的应用;或在加速筛选抗枯萎病冬瓜育种进程中的应用。
如图1所示,本发明实施例提供的在加速筛选抗枯萎病冬瓜育种进程中的应用包括:
S101,通过简化基因组技术SLAF-seq,对由高抗和高感枯萎病材料构建的145个F2群体子代进行高通量测序,鉴定 SNP;
S102,利用获得的SNP数据构建冬瓜的高密度遗传图谱,利用构建的遗传图谱对抗病性状进行QTL定位;
S103,对定位区间基因进行功能注释,筛选候选基因;
S104,通过挑选145个个体中的极端性状20个高抗、20个高感个体进行混池BSA分析,将图谱定位结果与BSA定位结果进行联合分析,对抗枯萎病基因进行精细定位;
S105,基于定位结果进行抗枯萎病基因的筛选,并进行抗枯萎病冬瓜育种。
步骤S104中,本发明实施例提供的将图谱定位结果与BSA定位结果联合分析包括:
(1)利用SNP-index和ED两种关联分析方法对抗枯萎病性状进行定位;对SNP-index和ED两种关联分析得到的结果取交集;
(2)将得到的交集作为候选区域,并对候选区域进行功能注释;
(3)对候选区域的基因进行GO富集分析、KEGG富集分析以及COG分类统计,即可得到抗枯萎病基因精细定位结果。
步骤(2)中,本发明实施例提供的功能注释包括:SNP注释以及基因注释。
下面结合具体实施例对本发明的技术方案作进一步说明。
实施例1:
基于SLAF-seq分析的抗枯萎病SNP标记:本发明通过简化基因组技术SLAF-seq,对由高抗(GK-1)和高感(GG-1) 枯萎病材料构建的145个F2群体子代进行高通量测序,鉴定SNP,并利用获得的SNP数据构建冬瓜的高密度遗传图谱,利用此遗传图谱对抗病性状进行QTL定位。对定位区间基因做功能注释,加速筛选候选基因。此外,通过挑选145个个体中的极端性状20+20(20个高抗,20个高感)个体进行混池BSA分析,将图谱定位结果与BSA定位结果联合分析。
通过信息分析:本发明共获得61,972个SNP标记,能成功分型的有24,412个,可以用于遗传图谱构建的标记有 19,494个,最终得到可用于作图的SNP标签5730个(图5),分布于12个连锁群,总图距为1,942.78cM,上图标记亲本测序深度为56.54X,子代为16.25X。对145个数量性状表型值进行QTL定位分析,定位与冬瓜枯萎病抗性密切相关的SNP多态性标记22个,其中1号连锁群上有16个、6号连锁群有3个、7号连锁群上1个和12号连锁群上2个,根据抗感混合池信息,利用遗传图谱做BSA分析,取所有位点拟合值的median+3SD作为分析的关联阈值(图6),根据关联阈值判定,在7号连锁群的2个区域内(表1),共获得与冬瓜枯萎病抗性关联的SNP标记102个。
实施例2:
本发明通过简化基因组技术SLAF-seq,对冬瓜材料的120个F2群体子代进行高通量测序,鉴定SNP,并利用获得的 SNP数据构建该物种的高密度遗传图谱,利用此遗传图谱对抗病性状进行QTL定位。对定位区间基因做功能注释,加速筛选候选基因。此外,通过挑选120个个体中的极端性状20+20(20个抗病最强的,20个抗病最弱的)个体进行混池BSA分析,将图谱定位结果与BSA定位结果联合分析,一方面能够精细定位冬瓜抗病基因,另一方面对于定位结果可以相互印证,有利于发表高分文章及国基申请。
2材料与方法
2.1材料
研究物种 冬瓜
群体类型 F2
亲本数目(2) 2
子代数目(2) 120
开发标签数(万) 10
子代测序深度(X) 10
2.2取样及测序策略
取样:冬瓜材料,抗病、不抗病父母本进行杂交构建F2群体,随机选择其中120个子代作为作图群体构建遗传图谱。 (抗病程度呈正态分布比较好)
取无病菌幼嫩叶片2g,液氮速冻,-80℃保存。干冰运输(15kg),顺丰邮寄北京
测序平台:Illumina PE150测序。
2.3 SLAF酶切方案设计
首先利用生物信息学方法,对该物种已知的基因组序列或近缘物种基因组、BAC或Fosmid序列进行系统分析,根据基因组的GC含量、重复序列情况和基因特点等信息,设计标记开发方案,以保证其分子标记开发的密度、均匀性、效率和关联分析的准确性。开发标签的数量与基因组大小、基因组重复序列比例、染色体数量、群体大小、亲本多态性、上图标记多态性等因素有关。
2.4 SLAF文库构建及测序
根据前期设计的酶切方案,对所选个体的DNA进行酶切,得到不同类型末端的片段,对末端进行修复、加A,从而提高接头连接效率。然后连接solexa接头,使不同的DNA片段具有相同的末端序列,从而可以在flowcell上进行扩增、测序。根据前期酶切预测软件的分析结果,通过凝胶电泳选择切胶范围,再利用PCR扩增富集样品增大起始模板量。在测序前对样品进行精确定量,保证每个样品的上样量相同,而后利用Illumina公司的Hiseq测序平台对制备好的SLAF文库进行上机测序,采用双端150bp测序方式。为评估建库实验的准确性,选用拟南芥(Arabidopsis thalianae cotype Columbia)作为对照 (Control)进行相同的处理参与建库和测序。
2.5分析内容
信息分析内容包括:数据质控、control数据质控、与参考基因组比对(有参物种)、SLAF标签开发与统计、SNP开发与注释、基因分型、亲子鉴定、上图标记筛选、连锁分群、图谱构建、图谱质量评估、QTL定位及注释、其他定制化分析等。
3分析内容示例
3.1作图群体中SLAF标签的开发与统计
测序获得的数据进行质控和过滤后,通过序列相似性将同一位点的片段进行聚类,得到每个位点的group。数据经过聚类后,进行测序错误的纠正,保证在亲本和分离子代中检测多态性的SNP的准确性。纠错策略是每一个group中将准确的高深度(≥50)序列作为参考,将低深度序列比对到参考序列上,对错配的碱基(错配数<5)进行纠正。这部分用自主研发程序完成,高深度序列为种子序列,将低深度非种子序列比对到种子序列上,对非种子序列上的错配碱基进行纠正,消除错误 SNP。纠错后获得具有1个或多个(四倍体中,小于或等于8个)等位基因的group定义为SLAF标记,只有一个等位基因的标记为非多态性标记,有2-8个等位基因的标记为多态性标记,后续分析以SNP类型的多态性标记构建遗传图谱。
表2 SLAF标签类型统计
Figure RE-GDA0002835691480000041
Polymorphic SLAF:表示在一个SLAF标签中存在多态性位点,多态性位点主要包括是SNP和Indel;
Non-Polymorphic SLAF:表示在SLAF标签中没有多态性位点;
Repetitive SLAF:指位于重复序列区的SLAF标签;
Total SLAF:所有的SLAF标签。
3.2多态性SLAF标签的基因型编码
多态性标记开发后,首先对亲本编码基因型,一个字母代表一种基因型,确定分离类型后,再检测子代基因型,用相应字母表示,编码规则如表1。对成功定型的标记进行筛选,过滤父母本信息缺失、完整度过低,和不适合该群体作图的多态性标记。并利用卡方(χ2)检验检测SNP标记在XX群体中等位基因分离比是否符合孟德尔规律的分离情况,对于严重偏分离的标记将其丢弃。
表3.基因型编码规则
Figure RE-GDA0002835691480000042
Type:分离类型;Paternal genotype:父本基因型;Maternal genotype:母本基因型;Offspring genotype:子代基因型; --表示子代基因型缺失。
根据表3基因型编码规则对本发明获得的多态性SLAF标签编码基因型,有XX个标签成功编码。
3.3上图标签筛选
为保证遗传图谱质量,SLAF标签按照以下规则进行过滤:
1)过滤父母本测序深度10x以下。依照亲本对子代基因分型,高深度的亲本测序深度,保证了子代分型的正确性;
2)SNP数目大于3。由于SNP标签测序长度为250bp,出现过多的SNP被认为是测序高频变异区。
3)完整度过滤。筛选基因型至少覆盖所有子代75%以上个体的标记(该标准根据实际标记数据量进行适当调整)。即对于单一多态性标记位点,100个子代中至少有75个个体有确定基因型。
4)偏分离标记过滤。偏分离标记普遍存在,一般不会影响图谱的构建,可能对QTL定位有影响。借鉴多数文献对偏分离标记处理方法对严重偏分离(卡方检验中P值小于0.001)大的多态性标记进行过滤。
5)亲本杂合的多态性标签(纯合物种);亲本纯合的多态性标记(杂合物种)
3.4高密度图谱构建
将成功编码的标记,用Highmap软件做两点连锁分析,计算两两标记之间的重组率和LOD值(LOD为进行连锁检验的统计量),以LOD等于4到20为指标,采用最短距离法进行聚类分析,将所有标记划分到相应的连锁群中(连锁群数目相当于该物种单倍体染色体数目)。以连锁群为单位,选择回归算法、极大似然法(针对F1群体)或者MST算法(针对F2、重组自交系、DH等近交群体),估算相邻标记间的遗传距离,通过回归排序分析获得连锁群内标记的最佳线性排列顺序。
3.5偏分离标记
偏分离(segregation distortion)指在某一分离群体中基因的分离比例明显偏离孟德尔遗传规律的一种遗传学现象。偏分离是一种广泛存在于生物中的遗传学现象。一般偏分离标记不影响图谱的排图与图距。偏分离标记在各个连锁群的数目及位置分析如图6所示。
3.6图谱评估
在所有已发表的遗传图谱文章中,评价一张高密度遗传图谱的唯一指标是上图标记的多少,但为了能够更好地保证遗传图谱的质量,本发明创新性地研发出了一套世界上最为完整的遗传图谱的评价体系,主要从分子标记准确性、群体基因分型准确性、遗传重组率计算的准确性等方面进行评价。
3.6.1分子标记准确性评估
理论上遗传分离群体中的所有个体的基因型全部来自亲本,因此,先通过对亲本高深度的测序(20×)来保证分子标记定义的准确性,而子代中上图标记的深度平均在4×,可以充分检测到杂合基因型,从而实现标记的正确分型。
3.6.2基因型准确度评估
在亲本中准确定义出多态性分子标记后,对群体中的每个个体定义基因型,为了清楚地认识到每个标记分型质量的高低,对每个个体中的标记进行基因型得分统计,当分值等于13时,说明该标记的分型准确度在95%以上。
3.6.3遗传重组率准确性评估
遗传重组率的计算是遗传图谱中至关重要的因素,将直接影响图谱标记顺序的准确性和图距大小,为了准确构建遗传图谱,通过三种方法对它进行了评估。
3.6.3.1单体来源评估
遗传分离群体通过杂交的方式形成,子代中一条染色体来源于父本,一条来源于母本,因此对父母本两条染色体进行编号,判断子代等位基因的具体来源,绘制单体来源图,用来分析鉴定有没错误的分型数据,单体来源图展示了个体中的重组事件。亲本杂交,必然发生染色体的交换,并且属于较大区段的交换,那么理论上每个个体中较大区段的来源会保持一致,也就是说在较大区段上分子标记的来源也会保持一致。不能保持一致的称为杂点,现在SLAF构建出的高密度遗传图谱中,杂点率会保持在5%以下。一行代表一个标记,每两列代表一个个体,每个个体的第一列表示父本染色体,第二列表示母本染色体,个体之间用空白列隔开,标记以图谱顺序排列,绿色代表来自亲本第一个等位基因,蓝色代表来自亲本第二个等位基因,白色代表无法判断,灰色代表缺失。同一个体中大区段蓝绿相间的部位,也就是交换发生或者说重组发生的部位。
3.6.3.2热图评估
绘制各个连锁群的热图,对每条连锁群上相邻标记的连锁关系强弱进行评价,若与相邻标记间的连锁关系很强,而与较远标记间的连锁关系逐渐变弱,说明标记顺序是正确的。如图7所示,行和列都是按图谱顺序排列的标记,每个小方格代表两个标记间的重组率,颜色从黄到红到紫的变化代表重组率从小到大变化,黄色是连锁性最强的区域,红色是连锁性居中的区域,紫色是连锁性最弱的区域,位于对角线的黄色线条是序列中各标记与其自身的连锁性,也是最强的连锁关系。热图反映了标记间连锁强度和排图位置的吻合度。
3.6.3.3共线性评估
通过标记在基因组上的位置和遗传图谱进行共线性分析,若没有参考基因组则不进行此项分析。遗传图谱和物理图谱的共线性分析如图9所示。
3.7 QTL定位
图谱评估完成后,得到一个高质量、高密度的遗传图谱,此时结合调查到的表型数据,采用WinCart QTL 2.5软件,对作图群体内的XX个表型性状进行QTL定位。先进行1000次测验,获得P<0.05的LOD阈值(P<0.05表明该标记与该性状连锁,可能存在QTL),然后利用复合区间作图法进行相关QTL定位与分析,为今后进行基因图位克隆和分子标记辅助育种奠定重要的理论基础。
3.8 QTL定位功能注释
如果研究的物种有参考基因组,利用基因组信息,对上述定位的区间进行功能注释;如果无基因组序列信息,可以利用其近缘物种基因组信息进行注释。通过注释,知道区间里每个基因的功能,最终确定影响性状差异的候选基因。后期可以通过分析该基因在亲本中的表达量差异来确定该基因是否为阳性,或是通过RNAi干扰沉默基因的表达来研究该基因的功能,目的都是找到真正的候选基因。
3.8.1 GO分析
GO数据库适用于各个物种,能对基因、蛋白质进行限定和描述。通过GO分析并按照Cellular component、Molecular Function、Biological process对基因进行分类。对关联区域内的基因进行富集分析,选择KS值(Kolmogorov–Smirnov test) 最小的10个Term作为富集到的Term。
横坐标为GO各分类内容,纵坐标左边为基因数目所占百分比,右边为基因数目。
topGO有向无环图能直观展示关联区域内基因富集的GO term及其层级关系。有向无环图为关联区域内基因GO富集分析结果的图形化展示方式,分支代表包含关系,从上至下所定义的功能范围越来越具体。关联区域内基因的Cellular component、MolecularFunction、Biological process的topGO有向无环图分别见图12.
3.8.2 KEGG分析
在生物体内,不同基因相互协调来行使生物学功能,不同的基因间相同的作用通路为一个Pathway,基于Pathway分析有助于进一步解读基因的功能。KEGG是关于Pathway的主要公共数据库。通过对关联区域内基因的富集分析,选择P值最小的10个Pathway作为富集到的Pathway。关联区域内基因的代谢通路结果见图13。
图13中,红色框标记的为关联区域内的基因,蓝色框代表该通路所需要的所有的酶,说明对应基因与此酶相关,而整个通路是有很多种不同的酶经过复杂的生化反应形成的。关联区域内基因中与此通路相关的均用红色框标出。
3.8.3 COG分类统计
COG数据库是基于细菌、藻类、真核生物的系统进化关系构建而成,利用COG数据库可以对基因产物进行直系同源分类。关联区域内基因COG分类统计结果见图14。
注:横坐标为COG各分类内容,纵坐标为基因数目。在不同的功能类中,基因所占多少反映对应时期和环境下代谢或者生理偏向等内容,可以结合研究对象在各个功能类的分布作出科学的解释。
4 SLAF-BSA定位
SNP过滤后,本发明将采用SNP-index和ED两种关联分析方法对研究的性状进行定位。
4.1 SNP-index关联结果
SNP-index关联算法:SNP_index是近年来发表的一种通过混池间的基因型频率差异进行标记关联分析的方法,主要是寻找混池之间基因型频率的显著差异,如与形状无关,Δ(SNP_index)趋近与0。标记SNP与性状关联度越强,Δ(SNP_index) 越接近于1。
计算方法简述如下:
Maa表示aa群体来源于M的深度;Paa表示aa群体来源于父本的深度;
Mab表示ab群体来源于M的深度;Pab表示ab群体来源于父本的深度;
SNP_index(ab)=Mab/(Pab+Mab);SNP_index(aa)=Maa/(Paa+Maa)。
Δ(SNP_index)=SNP_index(aa)-SNP_index(ab)。
为了消除假阳性的位点,利用标记在基因组上的位置,可对同一条染色体上标记的ΔSNP-index值进行拟合,本发明并采用DISTANCE方法对△SNP-index进行拟合,选择阈值以上的区域作为与性状相关的区域,候选区域在2号染色体 158439337-160141497(1.702M)区间内,其中包含非同义突变SNP位点的基因共XX个,同义突变SNP位点的基因共XX 个。
表4关联区域信息统计表
ChromosomeID Start End Size(Mb) Genenumber
Chr02 11,688,755 12,993,319 1.30 148
Total - - 1.30 148
注:Chromosome ID:染色体编号;Start:关联区域起始位置;End:关联区域终止位置;Size:关联区域大小,以Mb 为单位;Gene number:关联区域内的基因数量。
4.2 ED方法关联结果
欧式距离(Euclidean Distance,ED)算法,是利用测序数据寻找混池间存在显著差异标记,并以此评估与性状关联区域的方法。理论上,BSA构建的两个混池间除了目标性状相关位点存在差异,其他位点均趋向于一致,因此非目标位点的 ED值应趋向于0。ED方法的计算公式如下所示,ED值越大表明该标记在两混池间的差异越大。
Figure RE-GDA0002835691480000061
其中:
Amut为A碱基在突变混池中的频率,Awt为A碱基在野生型混池中的频率;
Cmut为C碱基在突变混池中的频率,Cwt为C碱基在野生型混池中的频率;
Gmut为G碱基在突变混池中的频率,Gwt为G碱基在野生型混池中的频率;
Tmut为T碱基在突变混池中的频率,Twt为T碱基在野生型混池中的频率。
在进行分析时,利用两混池间基因型存在差异的SNP位点,统计各个碱基在不同混池中的深度,并计算每个位点ED 值,为消除背景噪音,对原始ED值进行乘方处理,本发明取原始ED的4次方作为关联值以达到消除背景噪音的功能,然后采用局部线性回归LOESS方法对ED值进行拟合,选择阈值以上的区域作为与性状相关的区域,候选区域在2号染色体158439337-160141497(1.702M)区间内,其中包含非同义突变SNP位点的基因共XX个,同义突变SNP位点的基因共XX 个。关联分析结果如图15所示。
表5关联区域信息统计表
ChromosomeID Start End Size(Mb) Genenumber
Chr02 11,688,755 12,993,319 1.30 148
Total - - 1.30 148
注:Chromosome ID:染色体编号;Start:关联区域起始位置;End:关联区域终止位置;Size:关联区域大小,以Mb 为单位;Gene number:关联区域内的基因数量。
4.3候选区域筛选
对这两种关联分析方法得到的结果取交集,得到的交集见表6:
表6关联区域信息统计表
Figure RE-GDA0002835691480000071
注:Chromosome ID:染色体编号;Start:关联区域起始位置;End:关联区域终止位置;Size:关联区域大小,以Mb 为单位;Gene number:关联区域内的基因数量。
候选区域的功能注释
4.4候选区域的SNP注释
本发明样品间在候选区域内的SNP注释结果见表7。
表7候选区域内SNP注释结果统计
Figure RE-GDA0002835691480000072
注:Type:SNP所在区域或类型;P vs M和B1 vs B2为两个样品间在关联区域内存在的对应类型的SNP数量。
据统计,亲本间存在非同义突变的SNP共XX个,这些SNP很有可能与性状直接相关,这些SNP所在的基因本发明称之为非同义突变基因,共XX个;混池间存在非同义突变的SNP共XX个,非同义突变基因共XX个。
4.5候选区域的基因注释
应用BLAST软件对候选区间内的编码基因进行多个数据库(NR、Swiss-Prot、GO、KEGG、COG)的深度注释。通过详细的注释,快速筛选候选基因。候选区域内共注释到39个基因,其中在亲本间存在非同义突变基因共注释到XX个,注释结果见表8。
表8候选区域内基因功能注释结果统计
Figure RE-GDA0002835691480000073
注:Annotated databases:功能注释数据库;Gene Number:在相应数据库有注释信息的候选区域基因数;Non_Syn Gene Num:候选区域内亲本间存在非同义突变的基因数。
4.6候选区域内基因的GO富集分析
GO数据库是一个结构化的标准生物学注释系统,建立了基因及其产物功能的标准词汇体系,适用于各个物种。该数据库结构分为多个层级,层级越低,节点所代表的功能越具体。通过GO分析并按照Cellular component、Molecular Function、 Biologicalprocess对基因进行分类。
topGO有向无环图能直观展示关联区域内基因富集的GO term及其层级关系。有向无环图为关联区域内基因GO富集分析结果的图形化展示方式,分支代表包含关系,从上至下所定义的功能范围越来越具体。
候选区域基因GO的富集分析结果见表9。
表9候选区域内基因的topGO富集结果示意表(Cellular component)
GO.ID Term Annotated Significant Expected KS
GO:0005524 ATP binding 2164 54 41.06 2.0e-05
GO:0031418 L-ascorbic acid binding 27 4 0.51 2.5e-05
GO:0005515 protein binding 1076 31 20.42 3.2e-05
GO:0019904 protein domain specific binding 11 0 0.21 0.00038
GO:0045486 naringenin 3-dioxygenase activity 7 4 0.13 0.00043
GO:0016874 ligase activity 472 7 8.96 0.00048
GO:0016853 isomerase activity 238 1 4.52 0.00097
GO:0004478 methionine adenosyltransferase activity 9 0 0.17 0.00158
注:GO.ID:GO节点的编号;Term:GO节点名称;Annotated:所有基因注释到该功能的基因数;Significant:DEG 注释到该功能的基因数;Expected:注释到该功能DEG数目的期望值;KS:富集节点的显著性统计,KS值越小,表明富集越显著。
4.7候选区域内基因的KEGG富集分析
在生物体内,不同基因相互协调来行使生物学功能,不同的基因间相同的作用通路为一个Pathway,基于Pathway分析有助于进一步解读基因的功能。KEGG是关于Pathway的主要公共数据库。
候选区域内基因的KEGG注释结果按照通路类型进行分类。
候选区域KEGG的富集分析结果见表10。
表10候选区域内基因的KEGG富集部分结果
Pathway KO Enrichment_Factor Q_value
Protein processing in endoplasmic reticulum ko04141 0.20 7.6829e-07
Flavonoid biosynthesis ko00941 0.14 1.1728e-01
Plant-pathogen interaction ko04626 0.34 3.0079e-01
Limonene and pinene degradation ko00903 0.15 5.4617e-01
Porphyrin and chlorophyll metabolism ko00860 0.22 6.3434e-01
Endocytosis ko04144 0.35 9.0170e-01
Tyrosine metabolism ko00350 0.19 1.0000e+00
Pyruvate metabolism ko00620 0.37 1.0000e+00
注:Pathway:KEGG通路名称;KO:KEGG通路编号;Enrichment_Factor:富集因子;Q_value:富集的显著性统计,值越小,富集程度越高。
4.8候选区域内基因COG分类统计
COG数据库是基于细菌、藻类、真核生物的系统进化关系构建而成,利用COG数据库可以对基因产物进行直系同源分类。
5 SLAF-遗传图谱与SLAF-BSA联合定位
基因SLAF-遗传图谱与SLAF-BSA的定位结果,联合取交集,一方面更加精细定位抗病基因,便于抗病基因的筛选。另一方面,两者结果也起到相互印证的作用,有利于减少后续的验证试验,也是文章/国基的一个方法亮点。
6、构建高密度遗传图谱的特有优势
1)保证周期:遗传图谱周期为70天,从样品检测合格开始,在30天内完成建库测序,后40天内完成后续的生物信息分析内容。
2)建库稳定,测序质量高:基于前期的实验条件的优化,保证酶切效率在95%以上;使用原装进口测序试剂,保证测序质量Q30在85%以上。
3)酶切片段在染色体上分布均一性好:利用前期的生物信息分析,有效保证了酶切片段在染色体上的分布均匀性。
4)有效避开重复序列:真核生物的基因组序列中,重复序列通常要占总序列的40%-80%,对这部分序列进行测序的性价比是很低的。而经过SLAF技术的简化,SLAF标签中重复序列所占比例大大降低。
5)个性化的实验方案:根据不同物种、不同科研目的,通过生物信息学评估选择最佳的酶切组合,提供个性化的方案设计。
6)图谱分子密度高:上图标记数一般在4000个以上(要求:亲本之间多态性高于10%,子代个数大于100个,传统基于电泳技术的标记数目一般都在500以下)。
7)自主研发的构图软件HighMap:HighMap采用多种统计学算法和多轮纠错计算标记间的重组率,使标记间的连锁关系相对而言比Joinmap更准确,图距更真实。
8)独创的图谱评价体系:从分子标记准确性、群体基因分型准确性、遗传重组率计算的准确性、基因分型的完整度、遗传图谱相关系数等方面做出系统的评估来保障图谱的准确性和高质量。
9)标记完整度高:标记完整度可达85%以上。
实施例3:
结果说明
RQTL结果说明:
通过复合区间作图法(RQTL软件CIM算法)定位性状,用PT检验1000次进行设定阈值,首先考虑0.99置信度对应的LOD阈值,若没有定位区间则考虑0.95置信度对应的LOD阈值;若没有定位区间则考虑0.90置信度的阈值。若仍没有结果则没有考虑PT检验的结果,手动降低阈值到3.0;若3.0没有区间则降到2.5,2。
BSA结果说明
基于混池信息,利用遗传图谱做BSA分析。本次BSA分析利用欧式距离(EuclideanDistance,ED)算法,ED算法是利用测序数据寻找混池间存在显著差异标记,并以此评估与性状关联区域的方法。理论上,BSA构建的两个混池间除了目标性状相关位点存在差异,其他位点均趋向于一致,因此非目标位点的ED值应趋向于0。利用标记分型计算每个位点ED值,为消除背景噪音,对原始ED值进行乘方处理,本发明取原始ED的5次方作为关联值以达到消除背景噪音的功能,然后采用DISTANCE方法对ED值进行拟合。
取所有位点拟合值的median+3SD作为分析的关联阈值,计算得0.017。根据关联阈值判定,共得到2个区域,如表11。
表11
Figure RE-GDA0002835691480000091
实施例4:
2流程
2.1酶切方案设计
根据冬瓜基因组大小以及GC含量等信息,最终选取黄瓜基因组作为参考基因组进行酶切预测。
利用自主研发的酶切预测软件对参考基因组进行酶切预测,选择最适酶切方案,选择原则如下:
1.位于重复序列的酶切片段比例尽可能低;
2.酶切片段在基因组上尽量均匀分布;
3.酶切片段长度与具体实验体系的吻合程度;
4.最终获得酶切片段(SLAF标签)数满足预期标签数。
2.2文库构建及测序
根据选定的最适酶切方案,对检测合格的各样品基因组DNA分别进行酶切实验。对得到的酶切片段(SLAF标签) 进行3′端加A处理、连接Dual-index测序接头、PCR扩增、纯化、混样、切胶选取目的片段,文库质检合格后用 IlluminaHiSeqTM进行PE125 bp测序。为评估建库实验的准确性,选用日本晴水稻(Oryza sativa L.japonica)作为对照 (Control)进行相同的处理参与建库和测序。
2.3信息分析流程
利用Dual-index对测序得到的原始数据进行识别,得到各个样品的reads。对过滤完接头的测序reads进行测序质量和数据量的评估。通过Control数据的比对效率评估酶的酶切效率,判断实验过程的准确性和有效性。通过reads聚类的方法,在亲本和子代中开发SLAF标签,寻找多态性的SLAF标签。对多态性的SLAF标签进行基因型编码后,通过HighMap作图软件,构建遗传图谱,进行图谱评估。
3生物信息学分析结果
3.1酶切方案设计
对参考物种基因组序列进行电子酶切预测,根据酶切方案选择原则(见2.1),选择最适内切酶为Hpy166II,酶切片段长度在264-314bp的序列定义为SLAF标签,预测可得到94,428个SLAF标签,具体酶切方案信息见12表。
表12酶切方案信息
Figure RE-GDA0002835691480000101
Enzyme:电子酶切中用到的酶;Insert Size:酶切片段的长度范围;
SLAFNumber:酶切方案预测的可以得到的SLAF标签数。
3.2测序数据统计与评估
SLAF-seq文库的测序平台为Hiseq,原始测序读长为PE125bp。为保证信息分析质量,在分析前会对原始测序的数据进行过滤,原始数据过滤标准如下:(1)需要过滤掉含有接头序列的reads;(2)当read中含有的N的含量超过该条read长度比例的10%时,需要去除此对reads;(3)由于测序reads中前几bp为酶切片断遗留的残基,末端测序质量较低,本发明选择4-103bp为分析数据,总长度为2*100bp。
3.2.1测序质量值分布检查
碱基识别(Base Calling)过程中每个碱基都会得到一个测序质量值,用于评估该碱基的准确性。测序质量值是评估高通量单碱基错误率的重要指标,测序质量值越高对应的碱基测序错误率越低。碱基测序错误率e和测序质量值Q有对应计算公式,如果某碱基测序出错的概率为0.001,则该碱基的质量值Q应该为30。
3.2.2碱基分布检查
碱基类型分布检查用于检测有无AT、GC分离现象,而这种现象可能是测序或者建库所带来的,并且会影响后续分析。由于SLAF-seq测序reads为基因组DNA的酶切片段,其碱基分布会受到酶切位点和PCR扩增的影响,碱基分布会呈现不同程度的波动。
3.2.3测序数据产出和质量统计
对各样品的测序数据进行统计,包括reads数量、Q30和GC含量,具体结果见表13。
表13各样品测序数据统计表
Figure RE-GDA0002835691480000102
Sample ID:样品信息单中样品编号;BMK ID:对样品的统一编号,P代表父本,M代表母本;Total Reads:各样品的reads数;Total bases:各样品碱基数;Q30 Percentage:测序质量值大于或等于30的碱基所占百分比;GC Percentage:测序结果中G和C两种碱基所占总碱基的百分比;Offspring:子代测序数据的平均值;Control:对照,用于评估实验建库数据;Total:整体数据信息(除Control数据外)。测序数据总结:本发明共获336.19Mreads(67.23Gb)数据,测序平均 Q30为96.56%,平均GC含量为37.96%,样本GC分布正常。综上所述,数据量、质量达到要求。
3.3实验建库评估
本实验,将Rice(水稻)作为Control,通过对Control数据的评估监控实验过程是否正常,确定酶切方案实施的有效性。本发明中Control所用水稻为日本晴(Oryzasativajaponica),基因组大小为382M。
3.3.1比对效率统计
用于评估实验建库准确性的Control测序获得0.17Mreads的数据量,通过SOAP软件将Control的测序reads与参考基因组进行比对,比对结果见表14,本次建库双端比对效率在91.90%,比对效率基本正常。
表14 Control测序reads比对结果统计表
Figure RE-GDA0002835691480000103
Paired-EndMappedReads:一条序列两端在参考基因组上的比对跨度介于50bp~1kb的reads占总reads的比例; Single-EndMappedReads:一条序列两端在参考基因组上的比对跨度小于50bp,或大于1kb的reads占总reads的比例; UnmappedReads:未比对到基因组上的reads占总reads的比例;Single-EndMappedReads和Unmapped Reads来源:由于接头过滤不全,reads中碱基错配,异常的插入片段大小等类似情况导致的比对结果。
3.3.2酶切效率评估统计
酶切效率是评价简化基因组实验是否成功的一个关键指标。基因组上的复杂结构区域(如环状结构域、连续酶切位点等)、基因组DNA样品纯度较低、酶切时间不足等因素都可能影响限制性内切酶的活性,导致部分酶切位点未被酶切开。通过统计测序reads插入片段中残留酶切位点的比例,统计比例越低,酶切效率越好。从表15中可知,本发明Control数据的酶切效率为93.56%,表明酶切效率正常。
表15Control数据的酶切效率统计表
Figure RE-GDA0002835691480000111
DigestionNormally:reads中间不存在未被酶切开的酶切位点;DigestionPartly:reads中间存在未被酶切开的酶切位点;Total:reads片段总数。
3.3.3片段选择评估
实验建库评估总结:Control数据的双端比对效率为91.90%,酶切效率为93.56%,SLAF建库正常。
3.4 SNP标记开发与基因分型
3.4.1 SNP开发,SNP的检测主要使用GATK软件工具包实现。根据测序Reads在参考基因组上的定位结果,GATK 进行局部重比对(Local Realignment)、GATK变异检测,samtools变异检测,取GATK和samtools两种方法得到的交集变异位点等步骤,以保证检测得到的SNP的准确性,并得到最终的SNP位点集。
主要检测过程如下:
(1)使用GATK进行InDel Realignment,即对存在插入缺失比对结果附近的位点进行局部重新比对,校正由于插入缺失引起的比对结果错误。(2)使用GATK进行变异检测,主要包括SNP和InDel。(3)使用samtools进行变异检测,主要包括SNP和InDel。(4)使用GATK和samtools分别得到的变异中位点一致的部分作为最终的变异位点用于后续分析。
所有样品的SNP统计信息见表16。
表16样品SNP信息统计
Figure RE-GDA0002835691480000112
Sample ID:客户样品编号;BMKID:对样品的统一编号;Total SNP:检测到的SNP总数;SNP num:对应样品中检测到的SNP个数;Heter ratio:样品中SNP的杂合率;Offspring:子代样品的均值。
3.4.2 SNP标记编码
为了便于后续的遗传学分析,需要对多态性标签进行基因型编码,基因型编码规则为遗传学通用的2等位编码规则,如表17所示。如某标记的亲本基因型为aa(父本)和bb(母本),子代基因型ab则表示该样品在这个标记的编码类型为杂合,其中有一个基因型来自于父本,有一个基因型来自于母本。其中,aaxbb型适用于近交群体(如F2,RIL,DH),其余标记适用于杂交群体(如:CP)。
表17基因型编码规则
Figure RE-GDA0002835691480000113
Type:分离类型;Paternal genotype:父本基因型;Maternal genotype:母本基因型;Offspring genotype:子代基因型;--表示子代基因型缺失。aaxbb型标签的数目为19,494个,占总开发的SNP数目的31.46%。具体信息统计如表 18。
表18 SNP分类统计
Figure RE-GDA0002835691480000121
注:Total_marker:snp个数,去除了一个snp位点为3种及以上碱基或为indel的位点;parentmarker lack:父或母本中碱基缺失的snp个数;Depth notmeet:父母本深度不足4x;nopoly marker:父母本之间没有多态的snp个数; Remain_marker:去除以上不能进行分型的snp,剩余的snp个数;其它行分别为snp分型为aaxbb;ccxab;efxeg;hkxhk;lmxll;nnxnp的个数。
本发明为F2群体,因此选择aaxbb类型的多态性标签作为适合群体的有效标签。标记开发总结:本发明共获得61, 972个SNP标记,能成功分型的有24,412个,可以用于遗传图谱构建的标记有19,494个。
3.4.3 SLAF标签统计
本发明共开发339,757个SLAF标签,亲本和子代分别统计如表19。
表19 SLAF标签统计
Figure RE-GDA0002835691480000122
Sample ID:样品编号;BMKID:对样品的统一编号;SLAF number:对应样品所含有的SLAF标签数;Total depth:对应样品的在SLAF标签中的测序总深度,即总reads数;Average depth:平均每个SLAF上对应样品的测序reads数。
3.5.1上图标记筛选
为保证遗传图谱质量,将多态性SNP标签按照以下规则进行过滤:
1)过滤父母本测序深度10X以下。依照亲本对子代基因分型,高深度的亲本测序深度,保证了子代分型的正确性。
2)完整度过滤。筛选基因型至少覆盖所有子代75%以上个体的标记。即对于单一多态性标记位点,100个子代中至少有75个个体有确定基因型。
3)过滤偏分离pvalue小于0.01的标签。
最终得到可用于作图的SNP标签5,982个,各类型标签统计见表20。
表20用于图谱构建的SNP标签类型统计
Figure RE-GDA0002835691480000123
Type:亲本基因型,近交群体亲本纯合,只有一种基因型;SNP Number:用于构建遗传图谱的SNP标签数;Percentage:各类型SNP标签占有效SNP标签总数百分比;Total:有效SNP标签总数。
3.5.2绘制连锁群
将筛选出的5,982个SNP标签,通过与参考基因组的定位将SNP标签分为12个连锁群,通过两两标签之间计算 MLOD值,过滤掉与其他SNP标签的MLOD值均低于5的标签,共上图5,730个,定位为上图标记(Marker)。上图率为95.79%。
每条染色体为一个连锁群,以连锁群为单位,采用HighMap软件分析获得连锁群内Marker的线性排列,并估算相邻 Marker间的遗传距离,最终得到总图距为1,942.78cM的遗传图谱。各个连锁群Marker数目、总图距、平均图距、最大 Gap和Gap<5cM比例基本信息统计见表21。
表21图谱基本信息统计
Figure RE-GDA0002835691480000131
注:Linkage Group ID:连锁群编号,与基因组的编号一致;Total Marker:上图标记数,表示一条连锁群上的标记的总数目;Total Distance:总图距,表示一条连锁群上标记的总遗传距离;Average Distance:平均图距,表示平均一条连锁群上标记的平均遗传距离;Max Gap:连锁群中最大的gap,最大gap越小,表示图谱越均匀;Gap<5cM:连锁群中gap长度小于5cM的比例,比例越高,代表图谱越均匀。
3.6遗传图谱评估
3.6.1偏分离标记信息统计
偏分离标记(Segregation distortion)普遍存在,并且会影响图谱构建结果及QTL定位,选择部分偏分离(卡方检验, P<0.01)的多态性标记进行图谱构建,上图偏分离标记数目及在连锁群位置结果见表22。本发明上图标记中包含了7个偏分离标记,占上图标记总数的比例为0.12%。
表22子代个体部分偏分离情况
Figure RE-GDA0002835691480000132
Linkage Group ID:连锁群编号;Total BS:该连锁群上图偏分离标记数目;
3.6.2上图标记深度信息统计
各个连锁群上图标记的平均测序深度统计见表23。本发明上图标记达到合同要求,且较高的深度保证了分子标记的准确性。
表23上图标记深度统计
Figure RE-GDA0002835691480000133
Sample ID:样品信息单中样品编号;BMK ID:对样品的统一编号;Marker Number:各样品的上图标记数;Total Depth:各样品上图标记总深度;Average Depth:各样品上图标记的平均深度;Offspring:代表所有子代的平均值,分别是平均 Marker数,上图标记总深度的平均值(所有标记深度/样品数),平均每个样品在每个上图标记中的深度。
3.6.3上图标记完整度统计
作图群体每个个体上图标记完整性(即标记中,确定基因型的标记占总标记的比例)。本发明完整度平均为99.99%,保证了图谱基因分型的准确性。
3.6.4单体来源评估
统计各个样品在全部连锁群中的单体来源,寻找其中可能的双交换位点,双交换位点产生的原因有两个:1)基因组的重组热点区域;2)由于测序导致的分型错误。在一条连锁群中,双交换的比例越高,表示图谱的分型或顺序存在一定的问题,通常把双交换控制在3%以下,LG10的单体来源评估如图31所示。本发明每个个体中较大区段的来源会保持一致,说明遗传图谱质量高。
3.6.5连锁关系评估
遗传图谱实质上是多点重组分析,Marker间距离越近,重组率越小。分析Marker与周围Marker的重组关系,可以找到其中存在潜在排图问题的Marker。
通过LG10连锁群的连锁关系热图,可以看出,本发明各个连锁群上相邻标记间的连锁关系很强,随着距离的增加,标记间的连锁关系逐渐减弱与较远标记间的连锁关系逐渐变弱,说明标记顺序正确。
4结构
本发明通过基因组进行方案预测,选择Hpy166II酶进行酶切,SLAF标签长度选择在264-314bp,预测到94,428个 SLAF标签,SLAF标签在基因组各染色体上分布基本均匀,酶切方案可行。
测序数据总结:本发明共获336.19Mreads(67.23Gb)数据,测序平均Q30为96.56%,平均GC含量为37.96%,样本GC分布正常。综上所述,数据量、质量均达到合同要求。
实验建库评估总结:Control数据的双端比对效率为91.90%,酶切效率为93.56%,SLAF建库正常。
SNP标签开发总结:61,972个SNP标记,能成功分型的有24,412个,可以用于遗传图谱构建的标记有19,494 个。
本发明共构建12个连锁群,图5,730个Marker,总图距为1,942.78cM,上图标记完整度为99.99%,图5标记亲本测序深度为56.54X,子代为16.25X。
实施例5:
冬瓜抗枯萎病基因定位]-BSA-群体信息
1、群体的类型及群体构建过程
群体类型为F2群体,即以高感材料为母本,以高抗材料为父本(K)进行杂交获得F1代种子,F1代种子经大田种植开花后进行自花授粉,获得F2代种子,F2代种子经催芽种植后有2-3片真叶时进行取样,取样组织为冬瓜苗期的真叶部分,之后进行接种枯萎病菌孢子液,接种第7天(9月5日)开始病害的调查和记录,连续记录5天(9月5、6、7、8、10)F2代群体各单株的发病情况。
2、群体的性状类型,质量/数量性状
群体的性状类型分划为5个等级,划分如表24,各病级的单株数总体呈正态分布,抗性基因遗传属于数量性状遗传,个体的性状类型详见性状表形数据(excel表)。
表24个体的性状类型详见性状表形数据表
病级 抗性级别 症状描述 单株数
0 高抗 4叶全好,无任何病症 23
1 3叶好,1叶萎蔫 25
2 中抗 2叶好,2叶萎蔫 44
3 1叶好,3叶萎蔫 32
4 高感 0叶好,4叶全萎蔫 21
145
3、群体的亲本和子代混池分别对应的样品性状及显隐性关系
Figure RE-GDA0002835691480000141
Figure RE-GDA0002835691480000151
Figure RE-GDA0002835691480000152
实施例6:
总分析F2群体数为145个,另加2个亲本(父母本),共计147个样。以下为147个样的单株抗病分布情况。
亲本 等级 抗病情况
父本(K) 0 高抗
母本 4 高感
高抗(标注0)有23个单株,建立高抗池的20个单株分别为7、14、19、31、60、61、79、84、85、88、98、105-2、 109、117、139、141、147、150、151、153,其余5个编号为8、40、102。
抗性(标注1)的有25个单株,分别为17、30、32、34、35、38、44、48、53、65、82、86、91、95、100、116、118、120、124、131、132、143、148、155、160。
中抗(标注2)有44个单株,分别为9、12、16、21、28、36、43、45、47、50、51、54、62、63、64、66、68、69、 70、71、76、78、80、81、83、93、99、104、105-1、114、119、125、128、130、133、135、136、137、138、144、145、 154、156、159。
感病(标注3)有32个单株,分别为11、18、20、23、24、25、26、27、33、37、39、42、56、58、59、72、73、87、 89-1、90、92、94、101、106、107、111、123、129、134、140、152、158。
高感(标注4)有21个单株,建立高感池的20个单株分别为6、10、13、15、22、29、41、46、49、52、55、57、67、 75、77、89-2、96、97、110、113,其余1个编号分别为161。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

Claims (5)

1.一种冬瓜抗枯萎病基因的SNP分子标记,其特征在于,所述冬瓜抗枯萎病基因的SNP分子标记为与冬瓜枯萎病抗性关联的SNP多态性标记;所述SNP多态性标记包括22个;所述SNP分子标记分布于12个连锁群;
所述22个SNP多态性标记在12个连锁群的分布包括:
1号连锁群16个、6号连锁群3个、7号连锁群1个和12号连锁群2个。
2.一种如权利要求1所述冬瓜抗枯萎病基因的SNP分子标记的应用,其特征在于,所述冬瓜抗枯萎病基因的SNP分子标记的应用包括:
在检测和/或预测冬瓜枯萎病中的应用;在冬瓜的分子标记辅助育种中的应用;或在加速筛选抗枯萎病冬瓜育种进程中的应用。
3.如权利要求2所述冬瓜抗枯萎病基因的SNP分子标记的应用,其特征在于,所述在加速筛选抗枯萎病冬瓜育种进程中的应用包括:
步骤一,通过简化基因组技术SLAF-seq,对由高抗和高感枯萎病材料构建的145个F2群体子代进行高通量测序,鉴定SNP;
步骤二,利用获得的SNP数据构建冬瓜的高密度遗传图谱,利用构建的遗传图谱对抗病性状进行QTL定位;
步骤三,对定位区间基因进行功能注释,筛选候选基因;
步骤四,通过挑选145个个体中的极端性状20个高抗、20个高感个体进行混池BSA分析,将图谱定位结果与BSA定位结果进行联合分析,对抗枯萎病基因进行精细定位;
步骤五,基于定位结果进行抗枯萎病基因的筛选,并进行抗枯萎病冬瓜育种。
4.如权利要求3所述冬瓜抗枯萎病基因的SNP分子标记的应用,其特征在于,步骤四中,所述将图谱定位结果与BSA定位结果联合分析包括:
(1)利用SNP-index和ED两种关联分析方法对抗枯萎病性状进行定位;对SNP-index和ED两种关联分析得到的结果取交集;
(2)将得到的交集作为候选区域,并对候选区域进行功能注释;
(3)对候选区域的基因进行GO富集分析、KEGG富集分析以及COG分类统计,即可得到抗枯萎病基因精细定位结果。
5.如权利要求4所述冬瓜抗枯萎病基因的SNP分子标记的应用,其特征在于,步骤(2)中,所述功能注释包括:SNP注释以及基因注释。
CN202010939944.0A 2020-09-09 2020-09-09 一种冬瓜抗枯萎病基因的snp分子标记及应用 Pending CN112226529A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010939944.0A CN112226529A (zh) 2020-09-09 2020-09-09 一种冬瓜抗枯萎病基因的snp分子标记及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010939944.0A CN112226529A (zh) 2020-09-09 2020-09-09 一种冬瓜抗枯萎病基因的snp分子标记及应用

Publications (1)

Publication Number Publication Date
CN112226529A true CN112226529A (zh) 2021-01-15

Family

ID=74116146

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010939944.0A Pending CN112226529A (zh) 2020-09-09 2020-09-09 一种冬瓜抗枯萎病基因的snp分子标记及应用

Country Status (1)

Country Link
CN (1) CN112226529A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114107545A (zh) * 2021-12-02 2022-03-01 广东省农业科学院蔬菜研究所 一种冬瓜果面蜡粉基因的caps分子标记及其应用
CN115852025A (zh) * 2022-10-25 2023-03-28 广东省农业科学院蔬菜研究所 与冬瓜果肉质地主效qtl连锁的snp分子标记及其应用

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109234433A (zh) * 2018-10-19 2019-01-18 广东省农业科学院蔬菜研究所 一种冬瓜籽型基因的snp分子标记及其应用
CN109360606A (zh) * 2018-11-19 2019-02-19 广西壮族自治区农业科学院水稻研究所 一种低密度SNP基因组区域准确预测BSA-seq候选基因的方法
CN109504792A (zh) * 2018-12-14 2019-03-22 浙江大学 一种与水稻柱头外露相关的分子标记及其筛选方法和应用
CN109727639A (zh) * 2019-01-22 2019-05-07 广西壮族自治区农业科学院 一种水稻复杂性状基因定位的方法
CN109913532A (zh) * 2019-04-11 2019-06-21 江苏省农业科学院 一种获得丝瓜抗黄瓜花叶病毒病候选基因的方法
CN110724692A (zh) * 2019-11-19 2020-01-24 湖北省农业科学院果树茶叶研究所 一种与砂梨抗黑斑病紧密相关的基因及其鉴定方法和应用

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109234433A (zh) * 2018-10-19 2019-01-18 广东省农业科学院蔬菜研究所 一种冬瓜籽型基因的snp分子标记及其应用
CN109360606A (zh) * 2018-11-19 2019-02-19 广西壮族自治区农业科学院水稻研究所 一种低密度SNP基因组区域准确预测BSA-seq候选基因的方法
CN109504792A (zh) * 2018-12-14 2019-03-22 浙江大学 一种与水稻柱头外露相关的分子标记及其筛选方法和应用
CN109727639A (zh) * 2019-01-22 2019-05-07 广西壮族自治区农业科学院 一种水稻复杂性状基因定位的方法
CN109913532A (zh) * 2019-04-11 2019-06-21 江苏省农业科学院 一种获得丝瓜抗黄瓜花叶病毒病候选基因的方法
CN110724692A (zh) * 2019-11-19 2020-01-24 湖北省农业科学院果树茶叶研究所 一种与砂梨抗黑斑病紧密相关的基因及其鉴定方法和应用

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
BIAO JIANG等: "High-density genetic map construction and gene mapping of pericarp color in wax gourd using specific-locus amplified fragment (SLAF) sequencing", 《BIOMED CENTRAL》 *
TIEJUN ZHANG等: "Identification of Molecular Markers Associated with Verticillium Wilt Resistance in Alfalfa (Medicago Sativa L.) Using High-Resolution Melting", 《PLOS ONE》 *
VIKAS K SINGH1等: "Indel-seq: a fast forward genetics approach for identification of trait associated putative candidate genomic regions and its application in pigeonpea (Cajanus cajan)", 《PLANT BIOTECHNOL J》 *
李兆龙等: "节瓜抗枯萎病基因的分子标记研究", 《基因组学与应用生物学》 *
胡阳等: "冬瓜育种基础研究进展", 《长江蔬菜》 *
谢大森等: "与冬瓜枯萎病抗性连锁的RAMP 标记的筛选及其运用", 《分子植物育种》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114107545A (zh) * 2021-12-02 2022-03-01 广东省农业科学院蔬菜研究所 一种冬瓜果面蜡粉基因的caps分子标记及其应用
CN114107545B (zh) * 2021-12-02 2022-10-28 广东省农业科学院蔬菜研究所 一种冬瓜果面蜡粉基因的caps分子标记及其应用
CN115852025A (zh) * 2022-10-25 2023-03-28 广东省农业科学院蔬菜研究所 与冬瓜果肉质地主效qtl连锁的snp分子标记及其应用
CN115852025B (zh) * 2022-10-25 2023-09-12 广东省农业科学院蔬菜研究所 与冬瓜果肉质地主效qtl连锁的snp分子标记及其应用

Similar Documents

Publication Publication Date Title
Lee et al. Development, validation and genetic analysis of a large soybean SNP genotyping array
Su et al. High density linkage map construction and mapping of yield trait QTLs in maize (Zea mays) using the genotyping-by-sequencing (GBS) technology
Unterseer et al. A powerful tool for genome analysis in maize: development and evaluation of the high density 600 k SNP genotyping array
Yang et al. Target SSR-Seq: a novel SSR genotyping technology associate with perfect SSRs in genetic analysis of cucumber varieties
Evans et al. Extensive variation in the density and distribution of DNA polymorphism in sorghum genomes
Mourad et al. Molecular genetic analysis of spring wheat core collection using genetic diversity, population structure, and linkage disequilibrium
Sim et al. Population structure and genetic differentiation associated with breeding history and selection in tomato (Solanum lycopersicum L.)
Kumar et al. Characterization of genetic diversity and population structure in wheat using array based SNP markers
EP2229458B1 (en) Using structural variation to analyze genomic differences for the prediction of heterosis
US20160153056A1 (en) Rice whole genome breeding chip and application thereof
Roncallo et al. Genetic diversity and linkage disequilibrium using SNP (KASP) and AFLP markers in a worldwide durum wheat (Triticum turgidum L. var durum) collection
US20210285063A1 (en) Genome-wide maize snp array and use thereof
CN103088120A (zh) 基于SLAFseq技术的大规模样品基因分型方法
Carpenter et al. Genomic selection for ascochyta blight resistance in pea
Han et al. QTL mapping pod dehiscence resistance in soybean (Glycine max L. Merr.) using specific-locus amplified fragment sequencing
Shen et al. Development of GBTS and KASP panels for genetic diversity, population structure, and fingerprinting of a large collection of broccoli (Brassica oleracea L. var. italica) in China
CN107034302A (zh) 一种利用SLAF‑seq技术开发芒属植物SNP分子标记进行亲缘关系鉴定的方法
Ladejobi et al. Reference genome anchoring of high-density markers for association mapping and genomic prediction in European winter wheat
Marroni et al. The quest for rare variants: pooled multiplexed next generation sequencing in plants
CN112226529A (zh) 一种冬瓜抗枯萎病基因的snp分子标记及应用
Howard et al. Integration of Infinium and Axiom SNP array data in the outcrossing species Malus× domestica and causes for seemingly incompatible calls
Rubinstein et al. Ultrahigh-density linkage map for cultivated cucumber (Cucumis sativus L.) using a single-nucleotide polymorphism genotyping array
CN112289384A (zh) 一种柑橘全基因组kasp标记库的构建方法及应用
Pereira et al. Patterns of DNA methylation changes in elite Eucalyptus clones across contrasting environments
Troggio et al. Evaluation of SNP data from the Malus infinium array identifies challenges for genetic analysis of complex genomes of polyploid origin

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210115

RJ01 Rejection of invention patent application after publication