CN103525917B - 基于高通量分型的高密度遗传图谱的构建和评价 - Google Patents

基于高通量分型的高密度遗传图谱的构建和评价 Download PDF

Info

Publication number
CN103525917B
CN103525917B CN201310449422.2A CN201310449422A CN103525917B CN 103525917 B CN103525917 B CN 103525917B CN 201310449422 A CN201310449422 A CN 201310449422A CN 103525917 B CN103525917 B CN 103525917B
Authority
CN
China
Prior art keywords
parting
somatotype
map
genetic
collection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310449422.2A
Other languages
English (en)
Other versions
CN103525917A (zh
Inventor
郑洪坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING BIOMARKER TECHNOLOGIES Co Ltd
Original Assignee
BEIJING BIOMARKER TECHNOLOGIES Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING BIOMARKER TECHNOLOGIES Co Ltd filed Critical BEIJING BIOMARKER TECHNOLOGIES Co Ltd
Priority to CN201310449422.2A priority Critical patent/CN103525917B/zh
Publication of CN103525917A publication Critical patent/CN103525917A/zh
Application granted granted Critical
Publication of CN103525917B publication Critical patent/CN103525917B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6881Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for tissue or cell typing, e.g. human leukocyte antigen [HLA] probes
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Analytical Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Immunology (AREA)
  • Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Cell Biology (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提出一种基于高通量分型的高密度遗传图谱HighMap构建方法,包括步骤1)通过高通量测序方法对遗传分离群体标记开发和分型;2)对两两标记进行遗传连锁检验,划分连锁群;3)利用SGS算法线性排序并计算遗传距离,利用KNN算法对样品分型数据中的分型错误和分型缺失进行纠错和补缺失;4)对所构建图谱进行准确性评估,运用可视化方法直观展现图谱质量。本发明提出的HighMap构建方法通过分型纠所错有效消除高通量测序分型带来的分型错误和分型缺失,显著提高了所构建图谱的准确性;采用SGS排序算法,排序速度快,可完成单个连锁群超过1,000标记的高密度图谱构建,作图效率显著提升;对原始分型数据的要求进一步降低,对分型错误的容忍度大大提升。

Description

基于高通量分型的高密度遗传图谱的构建和评价
技术领域
本发明属于生物化学领域,具体涉及一种遗传工程数据图谱的构建方法,以及对图谱的评价方法。
背景技术
随着具有高通量、低成本、测序错误率低、测序读长短特点的新一代测序技术和生物信息学的发展,高通量标记开发逐渐成为性价比最高的分子标记开发方式。SLAF-seq、RAD-seq及GBS等简化基因组技术可在全基因组范围内进行分子标记开发和大规模分型,这些技术在不同物种的应用产生了海量标记分型数据,使得构建高密度遗传图谱成为可能,同时也对图谱构建所需的方法和软件提出了新的要求,而传统构图软件和方法在处理与测序深度相关的分型错误和分型缺失上表现乏力。
HighMap(高密度遗传图谱构建方法)是一种构建高密度遗传图谱的有效方法,利用高通量测序产生的群体大规模分型数据,基于生物信息学和统计方法进行海量分子标记的高效准确定位,根据生物学重组规律对测序分型错误和缺失进行高效纠错,以保证所构建遗传图谱的密度,质量和准确性。对于具有分型错误和缺失的高通量测序分型数据,HighMap通过抽样技术和数学算法解决传统方法作图效率低和准确性不高的问题,提高生物学分析的准确性,通过对群体高通量测序数据的高效利用,进一步降低成本,提高效率。对于高杂合群体,目前尚未见利用HighMap构建高密度遗传连锁图谱的报道。
发明内容
针对现有技术存在的不足,本发明提供一种基于高通量分型的高密度遗传图谱构建方法—HighMap,该技术首先采用SGS抽样技术对分子标记进行准确定位和快速排序,在此基础上利用KNN算法对高通量测序产生的具有分型噪音的数据进行纠错处理,进一步通过多轮次标记排序和分型纠错,进行不同物种不同遗传分离群体的高密度遗传图谱的高准确性、高通量构建。本发明所述方法可为遗传学领域研究提供高质量的遗传图谱,特别适用于高杂合分离群体的遗传图谱构建。
本发明的另一目的是提出一种遗传图谱的评价方法。
实现本发明上述目的技术方案为:
一种基于高通量分型的高密度遗传图谱构建方法,包括步骤:
1)通过高通量测序方法对遗传分离群体进行全基因组标记开发和分型,获得遗传分离群体的基因分型数据;
2)对两两标记进行遗传连锁检验,将分子标记划分为不同的连锁群,与目标物种的染色体建立对应关系;
3)利用SGS算法获得每个连锁群内标记的线性排序并计算相邻位点之间的遗传距离,基于SGS算法得到的标记顺序,利用KNN算法进行纠错和补缺失处理,终获得遗传图谱;
4)从标记排序和遗传图距估计的准确性两个角度,对所构建的遗传图谱进行全面评估,通过可视化方法直观展示最终所得遗传图谱的质量;
其中,所述遗传分离群体为性状分离群体,选自F1、F2、BC1、DH中的一种或多种目标性状分离的群体。
其中,所述步骤2)中,包括步骤a、构架二维棋盘表;b、统计分型频数;c、计算独立性检验统计量,进行连锁群划分,具体为:
a、根据每一标记位点可能的分型构建二维棋盘表,所述二维棋盘表为2×2、2×3、2×4、3×3、3×4或4×4的棋盘表;
b、统计每一个棋盘表中每种分型频数,其中R,C,T和O分别为行频数,列频数,总频数及每一棋盘表中每种分型的频数,并根据行频数,列频数,总频数计算每种分型出现的理论频数E:
E=R*C/T        (1)
c、基于观测和理论频数,计算独立性检验统计量G:
G = 2 Σ [ O * ln ( O / E ) ] - - - ( 2 )
d、最后确定检验统计量的自由度d,d为棋盘表的行数-1乘以棋盘表的列数-1,并通过下式转化为mLOD:
mLOD = [ ( 4 - e - G 2 2 ( d - 1 ) ) e - G 2 2 ( d - 1 ) - 3 ] ( d - 1 ) + G 2 2 ln 10 - - - ( 3 )
以两两标记位点之间的mLOD为距离指标,采用分层聚类中的单链接聚类算法对标记进行连锁群划分。
其中,所述SGS为空间抽样、模拟退火和吉布斯抽样方法的组合。
所述的空间抽样具体方法如下:
a、对两两标记之间的重组率rn,n=1~5;作如下由大及小的梯度划分:
0.5≥r1>r2>r3>r4>r5=0,
b、在每个重组率阈值水平ri上对标记进行空间抽样,所得的标记样本任意两个标记位点之间的重组率不低于给定的阈值ri;假设整个连锁群标记样本集合为Ω,每个阈值水平下选择所得的标记样本具有包含关系:Si的排序以Si-1,i=2,3,4,5为框架。
所述模拟退火方法基于标记样本之间的重组率信息获得每一标记样本的最优顺序。采用相邻标记重组率之和(SARF)来衡量分子标记顺序的优劣,F1群体的最优化指标SARF的计算如下:
SARF = Σ i = 1 i = n 1 P 1 r M i - 1 , M i + Σ j = 1 j = n 1 P 2 r M j - 1 , M j - - - ( 4 )
其中Mj为第j个标记,分别为当前两个亲本图谱上标记的数目。
模拟退火算法使用随机游走的方式产生新的标记顺序,对新图序的接受与否采用Boltzmann概率:
e - ΔSARF T > U
其中ΔSARF=SARFnew-SARFold,T为接受控制参数(T>0),U为位于区间[0,1]均匀分布随机数。模拟退火是一种全局优化算法,用来保证标记顺序最终趋于全局最优的结果。
其中,所述的吉布斯抽样方法采用三点估计的方法进行标记之间重组率的估计,根据相邻分子标记的重组信息对分型矩阵中的缺失分型进行抽样以构造分型矩阵Markov链,对该Markov链以一定步长进行吉布斯抽样。
所述一定步长通常为5,然后对每一抽样所得的分型矩阵计算两两位点之间的重组率,最后对抽样结果取平均得到位点之间重组率的三点估计,该结果相比直接的两点估计更加准确。
所述的模拟退火和空间抽样方法通常进行3~4轮,以获得对一个空间抽样样本的标记排序和重组率估计,重组率通过Haldane作图函数或Kosambi作图函数转化为遗传距离,以cM表示。
所述的空间抽样、模拟退火和吉布斯抽样技术的组合,是JoinMap极大似然算法的升级版本,通过优化排序指标改进了原算法,极大提高了原方法的稳定性,可以高效完成高密度图谱的标记排序。
其中,所述步骤3)中利用KNN算法对样品分型数据中的分型错误和分型缺失进行纠错和补缺失处理。
其中,所述步骤3)中基于SGS算法得到的标记顺序、利用KNN算法进行纠错和补缺失处理的操作循环进行3-10次,优选进行3-4次。
所述的分型纠错方法,采用数据挖掘中的经典KNN算法,对每一个测序样品检查某一确定长度的window内标记的重组情况,识别其中的singleton分型,对可能由双交换,染色体倒位易位或基因分型错误引起的singleton分型统一以分型错误处理,通过纠错提高整体分型矩阵的质量,一定程度上解决了分型错误引起的遗传图距膨胀问题,弥补了SGS方法产生的图谱图距对分型错误敏感的缺陷;
所述的多轮排序纠错方法,通过多回合反复采用快速SGS排序和KNN分型纠错,最大程度减少乃至消弭了分型错误对图谱构建带来的影响,提高了所构建图谱的准确度;
一种遗传图谱质量的评价方法,其是从标记排序和遗传图距估计的准确性两个角度,通过可视化方法评估遗传图谱的质量;包括图谱基本参数的统计,图谱标记顺序准确性的验证及遗传图距估计的评估。
评价时,通过与自身或近缘物种的参考基因组的比较基因组分析来验证连锁群内标记排序的准确性,常用的衡量标记顺序准确性的量化指标为Spearman秩相关系数,假设图谱标记的顺序为X=(x1,x2,...,xn),标记的正确排序或参考排序为Y=(y1,y2,...,yn),则该系数的计算方法如下:
ρ = | Σ i ( x i - x ‾ ) ( y i - y ‾ ) | Σ i ( x i - x ‾ ) 2 ( y i - y ‾ ) 2 - - - ( 5 )
ρ的取值区间为[0,1],ρ越接近1,表明待检标记顺序与参考顺序越接近,图谱标记的排序准确性越高,ρ≥0.8表明图谱标记的顺序近似正确。
所述的高密度遗传图谱构建方法,其中所述的作图方法在Linux操作系统上采用C语言和perl语言编程实现,可对大规模分型数据进行处理,计算具有可并行性,速度快等优点。
其中所述的大规模分型数据来自于不同植物、动物或可建立的其他遗传分离群体。
本发明的有益效果在于:
1)通过分型纠错有效消除高通量测序分型带来的分型错误和分型缺失对图谱构建的影响,显著提高了所构建图谱的准确性;
2)采用SGS排序算法,排序速度快,可完成单个连锁群超过1,000标记的高密度图谱构建,作图效率显著提升;
3)SGS算法和KNN算法的结合,对原始分型数据的要求进一步降低,在相同图谱质量前提下对分型错误的容忍度大大提升,对包含20%分型错误的数据集仍能得到正确的标记排序;
4)高容错性进一步降低了对测序深度的要求,节约成本的同时,对群体高通量测序分型数据具有更高的利用率;
5)通过反复排序纠错,所构建图谱的质量更高,分型数据中杂点率通常在2%以下,甚至可达到杂点率低于0.5%,对分型错误高达30%的标记定位spearman秩相关系数仍可达0.8以上;
6)充分利用Linux集群优势,通过并行计算,分布式计算等途径提高了运算效率,克服了计算机内存对大数据集运算的制约,可完成超过10,000标记的高密度图谱构建。
附图说明
图1为HighMap算法流程图,其中(A)为连锁分群步骤;(B)为SGS算法对单个连锁群标记进行排序和遗传图距估计;(B’)为SGS排序算法详细流程;(C)为KNN分型纠错步骤;(D)用热图、重组图谱和共线性图谱等可视化方式直观评估所构建图谱的质量。
图2为分型缺失与图谱质量的关系图,其中(A)、(B)、(C)分别为雌性图谱、整合图谱和雄性图谱标记顺序准确性与分型缺失的关系,横坐标为缺失分型的比例,纵坐标为所构建遗传图谱标记顺序与真实标记顺序的Spearman秩相关系数;(D)、(E)、(F)分别为雌性图谱、整合图谱和雄性图谱杂点率与分型缺失的关系,横坐标为缺失分型的比例,纵坐标为分型矩阵中杂点率;(G)、(H)、(I)分别为雌性图谱、整合图谱和雄性图谱遗传图距与分型缺失的关系,横坐标为缺失分型的比例,纵坐标为遗传图距。
图3为分型错误与图谱质量的关系图,其中,(A)、(B)、(C)分别为雌性图谱、整合图谱和雄性图谱标记顺序准确性与分型错误的关系,横坐标为错误分型的比例,纵坐标为所构建遗传图谱标记顺序与真实标记顺序的Spearman秩相关系数;(D)、(E)、(F)分别为雌性图谱、整合图谱和雄性图谱杂点率与分型错误的关系,横坐标为错误分型的比例,纵坐标为分型矩阵中杂点率;(G)、(H)、(I)分别为雌性图谱、整合图谱和雄性图谱遗传图距与分型错误的关系,横坐标为错误分型的比例,纵坐标为遗传图距。
图4为模拟仿真数据集构成示意图。
图5为HighMap与JoinMap4.1对仿真数据集的构图结果的比较,其中(A)、(B)、(C)分别为雌性图谱、整合图谱和雄性图谱标记顺序准确性对比图,横坐标为标记数目,纵坐标为所构建遗传图谱标记顺序与真实标记顺序的Spearman秩相关系数;(D)、(E)、(F)分别为雌性图谱、整合图谱和雄性图谱杂点率对比图,横坐标为标记数目,纵坐标为分型矩阵中singleton的比例;(G)、(H)、(I)分别为雌性图谱、整合图谱和雄性图谱遗传图距估计对比图,横坐标为标记数目,纵坐标为遗传图距。
图6为HighMap与JoinMap计算效率对比图,横坐标为分子标记的数目,纵坐标为运算时间。
图7为SLAF标记分型数据格式图,图中MarkerID为SLAF标签编号,type为SLAF标签类型,为遗传图中的分型类型,aa-av为群体编号,对应的列表示群体所在的SLAF中的分型类型。
图8为HighMap构建的鲤鱼遗传图谱与JoinMap4.1构建的鲤鱼遗传图谱与斑马鱼基因组共线性对比图,横坐标为连锁群编号,纵坐标为HighMap的Spearman相关系数与JoinMap4.1的Spearman秩相关系数之差。
图9为HighMap所构建鲤鱼遗传图谱与斑马鱼基因组比较共线性图,横坐标为鲤鱼50个连锁群标记排序,纵坐标为斑马鱼基因组标记顺序。
图10为鲤鱼遗传图谱50个连锁群的热图。
图11为鲤鱼遗传图谱50个连锁群的重组图谱,与图10的染色体编号一一对应。
图12为遗传图谱示意图,表示构建的遗传图中的四个连锁群的示意图。
图13为遗传图谱与基因组标记顺序共线性对比图,左侧为基因组标记顺序,右侧为遗传图谱标记顺序。
图14为单个连锁群热图示意图,横纵坐标均为遗传图谱标记排列顺序,每个方格表示两个标记位点之间的重组率观测值,浅色渐变为深色过程表示重组率逐渐增大。
图15为单个连锁群重组图谱示意图,每一行为一个标记,标记按照图谱标记顺序排序,每一列为一个个体,每个方格表示相应个体在对应位点等位基因的亲本单体来源。
具体实施方式
以下实施例用于说明本发明,但不用来限制本发明的范围。
实施例1:HighMap应用于鲤鱼224株F1群体遗传图谱构建
鲤鱼遗传图谱构建,包括如下步骤:
1、鲤鱼群体(购自黑龙江水产研究所)的选择:群体为F1群体,群体数量为224株,亲本2株。高通量测序仪器为Illumina GA IIx。
2、利用SLAFseq技术(专利CN103088120A的方法)对鲤鱼群体进行全基因组标记开发和分型,对原始测序数据进行数据识别处理,聚类分析及纠错后,获得SLAF标签185,014个;如表1所示为SLAF标签数量及测序深度统计。
表1总测序标签数量及测序深度统计
3、如表2所示为F1群体标记编码规则,选择上述多态性SLAF标记,依据表2规则进行基因型编码,完成226个样品分型判断;过滤掉父母本缺失及不适合F1群体作图的标记,得到有效SLAF标记10,011个,如图7所示为标记分型数据格式示意图。
表2多态性标记类型
注:--表示子代基因型缺失
4、对上述10,011个标记使用HighMap所述方法进行连锁群划分(公式(1)至(3)),共得到50个连锁群,与鲤鱼的染色体数目对应,对每一个连锁群,使用HighMap的SGS(公式(4))和KNN算法,重复3~4轮,得到连锁群内标记的顺序和遗传距离,各连锁群标记类型分布如表3所示。最终绘制图谱图距与JoinMap4.1软件的比较如表4所示,杂点率与JoinMap4.1软件的比较如表5所示,各连锁群的热图如图10所示,各连锁群的重组图谱如图11所示。
表3各连锁群多态性标记分布
表4鲤鱼连锁图谱杂点率比较(HighMap vs JoinMap4.1)
表5鲤鱼遗传图谱图距比较(HighMap vs JoinMap4.1)
5、可视化方法评价:将最终的遗传图谱与斑马鱼(近缘物种,作为参考基因组)的基因组进行共线性比较,遗传图谱标记排序与基因组标记排序呈现很高一致性,将遗传图谱标记顺序与斑马鱼基因组标记顺序之间的spearman秩相关系数与JoinMap4.1软件所得结果进行比较,70%的连锁群排序优于JoinMap4.1软件,图8为spearmann秩相关系数与JoinMap4.1软件的比较,图9为HighMap构建图谱与斑马鱼基因组的共线性比较。
通过SLAFseq简化基因组技术开发了多态性丰富,数量充足的分子标记,有效避开基因组重复序列,节省了测序成本;自主研发的KNN纠错方法对测序深度引起的分型缺失和分型错误进行准确纠错,提高最终所构建图谱的准确性;SGS方法配合KNN方法对10,000个SNP标记进行了准确的图谱定位,克服了传统方法的局限,解决了基因分型错误带来的作图难题;与斑马鱼的比较基因组学研究进一步验证了所构建的连锁图谱的准确性。
实施例2HighMap用于仿真模拟分型数据的遗传图谱构建和图谱质量评估
基于仿真模拟数据的遗传图谱构建和图谱质量评估,包括如下步骤:
1、使用蒙特卡罗方法模拟不同测序深度可能带来的分型缺失和错误,结果显示使用测序方法进行基因分型,与测序深度相关的分型缺失和分型错误不可避免,对于高杂合的物种来讲,由测序深度引起的分型质量问题尤为突出。表6给出了不同测序深度下,对不同分离模式的位点进行测序分型可能产生的分型错误和分型缺失的比例,在平均测序深度在1x时,具有abxcd分离模式的位点,分型错误高达34%,随测序深度逐步提高至10x,分型错误率呈现递减趋势,但分型错误依然为4.3%。
表6不同测序深度下测序分型的错误率统计
2、测试分型缺失对图谱构建的影响。模拟群体大小为200,标记数目为200的F1群体在单个连锁群上的基因分型数据,对该数据集随机制造1%到30%的分型缺失,分别使用HighMap方法、JoinMap4.0回归作图算法,JoinMap4.1极大似然作图算法构建遗传图谱,遗传图谱标记排序准确性及遗传图距估计准确性的比较结果显示HighMap的作图效果优于JoinMap,JoinMap4.0回归算法的作图效果最差,存在严重的低估遗传图距的情形,如图2所示。从图谱标记顺序和图距估计准确性来看,分型缺失对图谱构建的影响较小,对30%的分型缺失,HighMap和JoinMap4.1均可保证所构建图谱的准确性,与真实标记顺序的Spearman秩相关系数接近于1;分型数据中的杂点率接近于0,遗传图距估计结果与模拟真值100cM接近。
3、测试分型错误对图谱构建的影响。模拟群体大小为200,标记数目为200的F1群体在单个连锁群上的基因分型数据,对该数据集随机制造1%到30%的分型错误,分别使用HighMap方法、JoinMap4.0回归作图算法,JoinMap4.1极大似然作图算法构建遗传图谱,遗传图谱标记排序准确性及遗传图距估计准确性的比较结果显示HighMap的作图效果最优。如图3,Spearman秩相关系数的比较显示,对于包含30%分型错误的数据HighMap仍能给出近似正确的标记顺序(ρ>0.8);HighMap具有最低的杂点率,通过纠错处理,在存在30%错误时仍可保证杂点率低于5%;同时HighMap有效控制了由分型错误带来的遗传图距的急剧膨胀,图距估计较JoinMap4.1更接近真实图距。
4、模拟仿真数据。如图4,模拟群体大小为200,标记数目从100到1,000的分型数据,标记数目以100递增,每次新增加100个标记包含的分型错误率和缺失率依次递增5%,最终1,000标记连锁群中含有的分型错误和缺失达到45%。
5、测试HighMap的对分型错误的容错极限。对上一步所得10个数据集分别使用HighMap和JoinMap4.1极大似然算法进行遗传图谱构建,并用Spearman秩相关系数,杂点率,遗传图距三个指标检查最终图谱的质量。如图5,以Spearman秩相关系数(ρ值)0.8为阈值,HighMap可完成对700个标记的较准确排序,标记包含的分型错误最高达到30%,平均分型错误在10%,而JoinMap4.1仅能得到对200个标记的准确排序,结果显示,HighMap通过分型纠错有效提高了传统构图方法对分型数据的容错能力,对群体高通量测序分型数据的利用率更高;HighMap所构建图谱的杂点率小于2%,图距估计也更接近于真实图距。
6、KNN分型纠错准确性评估。应用上述图谱结果,对分型纠错准确性进行评估,如表7所示。结果显示,在平均分型错误为13.2%,最高分型错误为40%时,KNN方法仍能检测出分型数据中60.1%的错误,纠错的准确性在91%以上,同时对缺失数据也能进行比较准确的估计,平均分型缺失为10%,最高分型缺失比例为25%时,可检测出97.42%的分型缺失,补缺失的准确性为94.82%,大大提高了整体分型数据的质量。
表7KNN分型纠错的假阴性和假阳性评估
7、作图效率评估。HighMap采用C语言和perl语言混合编程实现,充分利用Linux集群的批处理,并行计算等特点提升遗传连锁作图的效率,突破了传统作图软件在操作系统和标记数目方面的限制,可完成对大规模分型数据的高效作图。如图6,HighMap可在24h内完成对单连锁群1,000标记的线性排序和图谱定位。
以上的实施例仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通工程技术人员对本发明的技术方案做出的各种变型和改进,均应落入本发明的权利要求书确定的保护范围内。

Claims (5)

1.一种基于高通量分型的高密度遗传图谱构建方法,包括步骤:
1)通过高通量测序方法对遗传分离群体进行全基因组标记开发和分型,获得遗传分离群体的基因分型数据;
2)对两两标记进行遗传连锁检验,将分子标记划分为不同的连锁群,与目标物种的染色体建立对应关系;
3)利用SGS算法获得每个连锁群内标记的线性排序并计算相邻位点之间的遗传距离,基于SGS算法得到的标记顺序,利用KNN算法进行纠错和补缺失处理,终获得遗传图谱;基于SGS算法的标记顺序和基于KNN算法的纠错和补缺失处理的操作循环进行3-10次;所述SGS为空间抽样、模拟退火和吉布斯抽样方法的组合;利用KNN算法对样品分型数据中的分型错误和分型缺失进行纠错和补缺失处理;
其中,所述模拟退火方法基于标记样本之间的重组率信息获得每一标记样本的最优顺序;采用相邻标记重组率之和,即SARF,来衡量分子标记顺序的优劣,F1群体的最优化指标SARF的计算如下:
SARF = Σ i = 1 i = n 1 P 1 r M i - 1 , M i + Σ j = 1 j = n 1 P 2 r M j - 1 , M j
其中Mj为第j个标记,分别为当前两个亲本图谱上标记的数目;
模拟退火算法使用随机游走的方式产生新的标记顺序,对新图序的接受与否采用Boltzmann概率:
e - ΔSARF T > U
其中ΔSARF=SARFnew-SARFold,T为接受控制参数,T>0,U为位于区间[0,1]均匀分布随机数;模拟退火是一种全局优化算法,用来保证标记顺序最终趋于全局最优的结果;
4)从标记排序和遗传图距估计的准确性两个角度,对所构建的遗传图谱进行全面评估,通过可视化方法直观展示最终所得遗传图谱的质量。
2.根据权利要求1所述的高密度遗传图谱构建方法,其特征在于,所述遗传分离群体为性状分离群体,选自F1、F2、BC1、DH中的一种或多种目标性状分离的群体。
3.根据权利要求1所述的高密度遗传图谱构建方法,其特征在于,所述步骤2)中,包括步骤a、构架二维棋盘表;b、统计分型频数;c、计算独立性检验统计量,进行连锁群划分。
4.根据权利要求1-3任一所述的高密度遗传图谱构建方法,其特征在于,所述步骤4)中可视化方法包括:
a、利用物种本身或近缘物种的参考基因组,通过共线性图谱来检验遗传图谱标记排序的准确性;
b、利用热图检查每一标记在图谱上的定位是否与相邻分子标记的遗传重组相容,检验每一标记排序和定位与观测数据的相容度;
c、通过重组图谱直观展示样品分离群体的重组情况,检查样品分型数据矩阵中的分型错误。
5.根据权利要求1所述的高密度遗传图谱构建方法,其特征在于,所述标记排序的准确性是通过与自身或近缘物种的参考基因组的比较基因组分析来验证。
CN201310449422.2A 2013-09-24 2013-09-24 基于高通量分型的高密度遗传图谱的构建和评价 Active CN103525917B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310449422.2A CN103525917B (zh) 2013-09-24 2013-09-24 基于高通量分型的高密度遗传图谱的构建和评价

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310449422.2A CN103525917B (zh) 2013-09-24 2013-09-24 基于高通量分型的高密度遗传图谱的构建和评价

Publications (2)

Publication Number Publication Date
CN103525917A CN103525917A (zh) 2014-01-22
CN103525917B true CN103525917B (zh) 2014-12-31

Family

ID=49928263

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310449422.2A Active CN103525917B (zh) 2013-09-24 2013-09-24 基于高通量分型的高密度遗传图谱的构建和评价

Country Status (1)

Country Link
CN (1) CN103525917B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846260B (zh) * 2018-06-28 2021-09-10 北京百迈客生物科技有限公司 遗传分离群体的遗传图谱构建方法及装置

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8972899B2 (en) 2009-02-10 2015-03-03 Ayasdi, Inc. Systems and methods for visualization of data analysis
CN104134016B (zh) * 2014-07-30 2017-12-15 北京诺禾致源科技股份有限公司 分子水平上的系谱重建的装置和方法
CN104134018B (zh) * 2014-07-30 2017-09-26 北京诺禾致源科技股份有限公司 系谱中染色体区段的来源推断的装置和方法
CN104408717A (zh) * 2014-11-24 2015-03-11 北京航空航天大学 一种基于着色分离的病理图像颜色质量综合评价方法
CN106649396B (zh) * 2015-11-03 2019-11-08 腾讯科技(深圳)有限公司 游戏等级数据的排序方法、系统及装置
CN106096324A (zh) * 2016-08-26 2016-11-09 清华大学 基于k近邻回归的输变电主设备负荷数据缺失填补算法
CN107058552B (zh) * 2017-05-05 2020-08-14 天津科润农业科技股份有限公司黄瓜研究所 黄瓜雄性不育基因、分子标记、筛选方法及其用途
CN107644150B (zh) * 2017-09-08 2021-03-19 杭州和壹基因科技有限公司 一种高密度遗传图谱的构建方法
CN109979534B (zh) * 2017-12-28 2021-07-09 浙江安诺优达生物科技有限公司 一种c位点提取方法及装置
CN113718342A (zh) * 2021-05-06 2021-11-30 安徽农业大学 一种重组自交系群体高密度遗传图谱的构建方法
CN113380321A (zh) * 2021-06-16 2021-09-10 北京果壳生物科技有限公司 一种遗传图谱的质量评估方法与装置及包含其的计算机可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846260B (zh) * 2018-06-28 2021-09-10 北京百迈客生物科技有限公司 遗传分离群体的遗传图谱构建方法及装置

Also Published As

Publication number Publication date
CN103525917A (zh) 2014-01-22

Similar Documents

Publication Publication Date Title
CN103525917B (zh) 基于高通量分型的高密度遗传图谱的构建和评价
CN103088120B (zh) 基于SLAFseq技术的大规模样品基因分型方法
Gvoždík et al. An ancient lineage of slow worms, genus Anguis (Squamata: Anguidae), survived in the Italian Peninsula
Zheng et al. Species delimitation and lineage separation history of a species complex of aspens in China
CN106755441B (zh) 一种基于多性状的基因组选择进行林木多性状聚合育种的方法
CN110459265A (zh) 一种提高全基因组预测准确性的方法
Bothwell et al. Identifying genetic signatures of selection in a non-model species, alpine gentian (Gentiana nivalis L.), using a landscape genetic approach
He et al. Scale dependence of tree abundance and richness in a tropical rain forest, Malaysia
CN105868584A (zh) 通过选取极端性状个体来进行全基因组选择育种的方法
Simmons Relative benefits of amino‐acid, codon, degeneracy, DNA, and purine‐pyrimidine character coding for phylogenetic analyses of exons
CN112182247B (zh) 一种遗传群体图谱构建方法、系统、存储介质及电子设备
Baranov Use of morphogeometric method for study fluctuating asymmetry in leaves Tilia cordata under industrial pollution
Li et al. Genetic, geographic, and climatic factors jointly shape leaf morphology of an alpine oak, Quercus aquifolioides Rehder & EH Wilson
Zhang et al. Fungi show broader environmental thresholds in wet than dry agricultural soils with distinct biogeographic patterns
CN115204490A (zh) 一种微塑料对水生微生物生态风险的评价方法
Lin et al. Environmental DNA metabarcoding revealed the impacts of anthropogenic activities on phytoplankton diversity in Dianchi Lake and its three inflow rivers
CN104293892A (zh) 检测核基因组中与表型形状相关基因的方法
Lepais et al. Joint analysis of microsatellites and flanking sequences enlightens complex demographic history of interspecific gene flow and vicariance in rear-edge oak populations
Zhao et al. Distribution of ciliates in intertidal sediments across geographic distances: a molecular view
Li et al. Embracing eDNA and machine learning for taxonomy-free microorganisms biomonitoring to assess the river ecological status
CN105907860B (zh) 一种利用|Δ(SNP-index)|进行性状定位的QTL-seq方法及其应用
CN115860487B (zh) 基于植被稳定性风险指数评估当地植被变化风险的方法
CN104569368A (zh) 生物样本分析系统和方法
Sanjerehei et al. A comparison of methods for detecting association between plant species
CN106097720A (zh) 一种交通卡口车牌识别准确性评价方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant