CN107644150A - 一种高密度遗传图谱的构建方法 - Google Patents
一种高密度遗传图谱的构建方法 Download PDFInfo
- Publication number
- CN107644150A CN107644150A CN201710804279.2A CN201710804279A CN107644150A CN 107644150 A CN107644150 A CN 107644150A CN 201710804279 A CN201710804279 A CN 201710804279A CN 107644150 A CN107644150 A CN 107644150A
- Authority
- CN
- China
- Prior art keywords
- snp
- snp markers
- marker
- markers
- genotype
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供了一种高密度遗传图谱的构建方法,步骤是1)根据遗传分离群体高通量测序数据中得到的SNP标记,对标记进行基因型分型和过滤,再计算两两之间的重组率;2)利用步骤1)算得的重组率,采用分层聚类算法根据前述遗传分离群体的染色体数对SNP标记进行分组,得到与染色体数对应的连锁群;3)采用最小生成树算法对标记进行排序,对排序后的SNP标记进行补缺失和纠错处理,最后计算遗传距离得到遗传图谱。本发明针对不同的遗传分离群体高效、高准确率的构建遗传图谱,为后续的生物信息学分析和遗传学研究提供有力支持。
Description
技术领域
本发明属于生物信息技术领域,更具体的说,它涉及一种高密度遗传图谱的构建方法。
背景技术
遗传图谱是指某一物种的染色体图谱,也称为连锁图谱,用于表示基因和/或遗传标记的相对位置。遗传标记种类繁多,随着生物信息学和测序技术的进步,单核苷酸的多态性(SNP)标记由于其数量大、多态性丰富而越来越受到大家的重视,这使得构建高密度遗传图谱成为可能,但同时带来了对图谱构建方法和分析效率的挑战。
目前针对F1群体(亲本杂交产生的子一代)的分析软件很少,常见的就JoinMap4.0、Onemap、GACD等,虽然可以分析,但效率均很低,且分析的遗传标记数量有限。针对这种现象,有必要开发一种高效、高准确率,可适用不同物种不同分离群体的高密度遗传图谱的构建方法。
发明内容
本发明的目的是解决以上提出的问题,提供一种基于遗传标记的高密度遗传图谱的构建方法,命名为SMRTmap。以高通量测序产生的SNP数据为基础,针对不同的遗传分离群体进行基因分型,得到高质量的SNP标记,进而利用SMRTmap构建高密度遗传图谱。本发明的方法可以针对不同的遗传分离群体高效、高准确率的构建遗传图谱,为后续的生物信息学分析和遗传学研究提供有力支持。
本发明是通过以下技术方案实现的:
本发明公开了一种高密度遗传图谱的构建方法,它包括以下步骤:
1)根据遗传分离群体高通量测序数据中得到的SNP标记,对标记进行基因型分型和过滤,再计算两两之间的重组率;
2)利用步骤1)算得的重组率,采用分层聚类算法根据前述遗传分离群体的染色体数对SNP标记进行分组,得到与染色体数对应的连锁群;
3)采用最小生成树算法(MST)对标记进行排序,对排序后的SNP标记进行补缺失和纠错处理,最后计算遗传距离得到遗传图谱。
作为优化,所述遗传分离群体为性状分离群体,包括FI、F2、RILd、BC1、DH、Hap中的一种或多种。
作为优化,所述步骤1)包括以下步骤:
1.1)根据亲本的基因型及子代的基因型对SNP标记进行基因型分型;例如亲本基因型为Aa×Aa,根据孟德尔分离定律,子代的基因型共有AA、Aa和aa三种情况;
1.2)使用卡方检验、缺失率对SNP标记进行过滤,得到高质量的SNP标记,具体方法:
1.2.1)使用卡方检验过滤SNP标记的方法:
统计子代中每一种基因型的样本个数,利用卡方检验判断子代各基因型包含的样本量是否符合孟德尔分离比,如果符合,则保留这一个SNP标记,如果不符合,则过滤该SNP标记;
1.2.2)基于缺失率过滤SNP标记的方法:
基于样本缺失率:统计所有样本中某一个SNP标记的缺失与否,如果缺失率(缺失率=缺失样本数/总样本)小于设定的阈值(默认为15%),则保留该SNP标记,反之则过滤该SNP标记;
基于SNP标记缺失率:统计某一个样本缺失的SNP标记总数,如果SNP标记缺失率(缺失率=缺失的SNP标记数/总SNP标记数)小于设定的阈值(默认30%),则保留该样本,反之则过滤该样本。
1.3)利用样本基因型估计任意两个SNP标记之间的重组率,具体步骤为:
1.3.1)以i代表第i个SNP标记,j代表第j个SNP标记,Ri,j表示两个SNP标记发生重组的可能性;
1.3.2)如果两个SNP标记靠的很近,没有发生重组,那么Ri,j=0.0;
1.3.3)如果两个SNP标记属于不同的连锁群,则Ri,j=0.5;两个SNP标记靠的越近,发生重组的可能性越低,即两个SNP标记连锁的可能性越高;
1.3.4)统计样本中两个SNP标记重组的基因型样本数量,重组率Ri,j=重组基因型样本数量/样本总数量;其中,重组基因型样本表示子代基因型与亲本基因型不同的样本。
作为优化,所述步骤2)包括以下步骤:
2.1)计算聚类中心:如果两个SNP标记属于不同的连锁群,那么两者之间重组率越大的可能性越高,设定P值<0.0001,根据以下公式计算聚类中心:
其中,c为聚类中心,n为自由度,自由度=样本数量-1;
2.2)分组:采用分层聚类算法对SNP标记进行分组,如果两个SNP标记之间的重组率小于聚类中心c,则视为属于同一个连锁群;其中,连锁群表示在染色体中具有不同的连锁程度并按线性顺序排列的一组SNP标记;
2.3)更新P值:如果步骤2.2)中分组得到的主要连锁群小于染色体数,则降低P值;反之增加P值,使得最终得到的主要连锁群数与染色体数一致;其中,主要连锁群指的是集中较多SNP标记数的组,剩余的连锁群只包含少数的几个标记,可以视为异常标记。
作为优化,所述步骤3)包括以下步骤:
3.1)合并重组率为0的SNP标记:将同一个连锁群中重组率为0的SNP标记合并,作为一个标记进行排序;
3.2)采用最小生成树算法(MST算法)对SNP标记进行排序得到初步遗传图谱;
3.3)采用最大期望算法(EM算法)处理缺失的SNP标记,具体方法如下:
3.3.1)E步骤:计算缺失SNP标记为A的概率,假设第i个样本第j个SNP标记为缺失,其基因型为A的可能性由下式计算:
其中rj-1,j、rj,j+1分别为第j-1与j个SNP标记,第j与j+1个SNP标记之间的重组率;
3.3.2)M步骤:根据p(Ai,j)重构所有SNP标记之间的重组率;
3.3.3)其中,缺失SNP标记的p(Ai,j)初始值为0.5;
3.4)采用邻近平均算法对分型错误的SNP标记进行纠错处理,具体方法如下:
3.4.1)根据步骤3.3.1),若第i个样本第j个SNP标记基因型为A,则p(Ai,j)=1;若该标记基因型为B,则p(Ai,j)=0;
3.4.2)与第i个样本第j个SNP标记邻近标记的基因型为A的平均可能性由下式算得:
3.4.3)若E(Ai,j)-p(Ai,j)>0.75,则认为该SNP标记是可疑的,重新记为缺失,反之则接受该标记;
3.5)对得到的初步遗传图谱,采用k-opt算法(k元素优化算法)进行优化,重复步骤3.2)-3.5)直至最优,一般循环3-5个循环;其中,最优表示找不到总遗传距离更短的排序方案;
3.6)对排序好的遗传图谱计算遗传距离,得到最终的遗传图谱,遗传距离是由重组率通过Haldane或Kosambi作图函数转化得到,以cM表示,其中,所述Haldane或Kosambi为重组率与遗传距离转换公式,公式如下:
m为遗传距离,以cM为单位,r为重组率。
本发明的有益效果如下:
1、可以处理多种遗传分离群体,使用范围广;
2、采用最小生成树(MST)算法进行排序,运算速度显著提高,可完成单个连锁群5000个以上标记的排序;
3、利用最大期望算法(EM算法),对缺失数据的容忍度大大提高;
4、对排序后的连锁群,采用k-opt算法(k元素优化算法)迭代优化,大大提高图谱的准确性;
5、算法采用perl和C编写,可在Linux集群上运行,充分利用并行运算和分布式计算,大大提高运算效率,解决JoinMap内存限制,可分析超过100,000个标记。
附图说明
图1:本发明流程图,图中标记数据指的是SNP标记,其中(A)为标记基因型分型、过滤和重组率计算步骤;(B)为连锁群分组步骤;(C)为MST算法排序、EM算法补缺失、邻近平均法纠错及k-opt排序优化过程;
图2:水稻RILd群体SNP标记格式图,高通量测序得到测序数据提取的SNP标记,SMRTmap的输入数据格式,图中第一列表示SNP标记的编号,其他每一列代表一株水稻的所有标记;字母A、B表示基因型的类型;
图3:两两SNP标记之间的重组率(部分结果),第一列和第一行为标记的名称;
图4:SMRTmap运行后输出的结果,第一列为SNP标记编号,与输入数据对应,第二列为遗传距离,即每一个SNP标记相对第一个标记的位置,单位cM;
图5:SMRTmap得到的遗传图谱相对位置和水稻基因组上的物理位置比对共线性图。
具体实施方式
下面结合附图对本发明的实施例进行进一步详细说明:
本发明是一种高密度遗传图谱的构建方法,它包括以下步骤:
1)根据遗传分离群体高通量测序数据中得到的SNP标记,对标记进行基因型分型和过滤,再计算两两之间的重组率;
2)利用步骤1)算得的重组率,采用分层聚类算法根据前述遗传分离群体的染色体数对SNP标记进行分组,得到与染色体数对应的连锁群;
3)采用最小生成树算法(MST)对SNP标记进行排序,对排序后的SNP标记进行补缺失和纠错处理,最后计算遗传距离得到遗传图谱。
遗传分离群体为性状分离群体,包括FI、F2、RILd、BC1、DH、Hap中的一种或多种。
步骤1)包括以下步骤:
1.1)根据亲本的基因型及子代的基因型对SNP标记进行基因型分型;例如亲本基因型为Aa×Aa,根据孟德尔分离定律,子代的基因型共有AA、Aa和aa三种情况;
1.2)使用卡方检验、缺失率对SNP标记进行过滤,得到高质量的SNP标记,具体方法:
1.2.1)使用卡方检验过滤SNP标记的方法:
统计子代中每一种基因型的样本个数,利用卡方检验判断子代各基因型包含的样本量是否符合孟德尔分离比,如果符合,则保留这一个SNP标记,如果不符合,则过滤该SNP标记;
1.2.2)基于缺失率过滤SNP标记的方法:
基于样本缺失率:统计所有样本中某一个SNP标记的缺失与否,如果缺失率(缺失率=缺失样本数/总样本)小于设定的阈值(默认为15%),则保留该SNP标记,反之则过滤该SNP标记;
基于SNP标记缺失率:统计某一个样本缺失的SNP标记总数,如果SNP标记缺失率(缺失率=缺失的SNP标记数/总SNP标记数)小于设定的阈值(默认30%),则保留该样本,反之则过滤该样本。
1.3)利用样本基因型估计任意两个SNP标记之间的重组率,具体步骤为:
1.3.1)以i代表第i个SNP标记,j代表第j个SNP标记,Ri,j表示两个SNP标记发生重组的可能性;
1.3.2)如果两个SNP标记靠的很近,没有发生重组,那么Ri,j=0.0;
1.3.3)如果两个SNP标记属于不同的连锁群,则Ri,j=0.5;两个标记靠的越近,发生重组的可能性越低,即两个SNP标记连锁的可能性越高;
1.3.4)统计样本中两个SNP标记重组的基因型样本数量,重组率Ri,j=重组基因型样本数量/样本总数量;其中,重组基因型样本表示子代基因型与亲本基因型不同的样本。
步骤2)包括以下步骤:
2.1)计算聚类中心:如果两个SNP标记属于不同的连锁群,那么两者之间重组率越大的可能性越高,设定P值<0.0001,根据以下公式计算聚类中心:
其中,c为聚类中心,n为自由度,自由度=样本数量-1;
2.2)分组:采用分层聚类算法对SNP标记进行分组,如果两个SNP标记之间的重组率小于聚类中心c,则视为属于同一个连锁群;其中,连锁群表示在染色体中具有不同的连锁程度并按线性顺序排列的一组SNP标记;
2.3)更新P值:如果步骤2.2)中分组得到的主要连锁群小于染色体数,则降低P值;反之增加P值,使得最终得到的主要连锁群数与染色体数一致;其中,主要连锁群指的是集中较多SNP标记数的组,剩余的连锁群只包含少数的几个标记,可以视为异常标记。
步骤3)包括以下步骤:
3.1)合并重组率为0的SNP标记:将同一个连锁群中重组率为0的SNP标记合并,作为一个标记进行排序;
3.2)采用最小生成树算法(MST算法)对SNP标记进行排序得到初步遗传图谱;
3.3)采用最大期望算法(EM算法)处理缺失的SNP标记,具体方法如下:
3.3.1)E步骤:计算缺失SNP标记为A的概率,假设第i个样本第j个SNP标记为缺失,其基因型为A的可能性由下式计算:
其中rj-1,j、rj,j+1分别为第j-1与j个SNP标记,第j与j+1个SNP标记之间的重组率;
3.3.2)M步骤:根据p(Ai,j)重构所有SNP标记之间的重组率;
3.3.3)其中,缺失SNP标记的p(Ai,j)初始值为0.5;
3.4)采用邻近平均算法对分型错误的SNP标记进行纠错处理,具体方法如下:
3.4.1)根据步骤3.3.1),若第i个样本第j个SNP标记基因型为A,则p(Ai,j)=1;若该标记基因型为B,则p(Ai,j)=0;
3.4.2)与第i个样本第j个SNP标记邻近标记的基因型为A的平均可能性由下式算得:
3.4.3)若E(Ai,j)-p(Ai,j)>0.75,则认为该SNP标记是可疑的,重新记为缺失,反之则接受该标记;
3.5)对得到的初步遗传图谱,采用k-opt算法(k元素优化算法)进行优化,重复步骤3.2)-3.5)直至最优,一般循环3-5个循环;其中,最优表示找不到总遗传距离更短的排序方案;
3.6)对排序好的遗传图谱计算遗传距离,得到最终的遗传图谱,遗传距离是由重组率通过Haldane或Kosambi作图函数转化得到,以cM表示,其中,所述Haldane或Kosambi为重组率与遗传距离转换公式,公式如下:
m为遗传距离,以cM为单位,r为重组率。
本实施例将一种高密度遗传图谱的构建方法(以下简称SMRTmap)应用于构建水稻200株RIL7群体遗传图谱。
选取水稻群体为RIL7群体,共200株,由于水稻有确定的基因组,因此可以作为遗传图谱的标准答案,用来评价SMRTmap构建遗传图谱的准确性;
水稻遗传图谱构建,包括如下步骤:
1)如表1所示为RILd群体SNP标记分型规则(自交多代后,ab型可忽略不计),基于表1对二代高通量测序得到的标记进行基因型分型,aa用‘A’表示,bb用‘B’表示,杂合用‘X’表示,缺失用‘-’表示;经纠错和过滤后,获得有效SNP标记30135个,如图2所示为SNP标记数据的格式示意图(部分数据);根据步骤1.3)所述步骤计算两两之间的重组率,结果如图3所示;
表1:RILd群体多态性(SNP)标记类型
父本基因型 | 母本基因型 | F1自交多代后子代基因型 | 孟德尔分离比 |
aa | bb | aa,bb,ab,-- | 1:1 |
2)根据步骤2)对步骤1)中30135个SNP标记进行分组,共12个组,与水稻的染色体数目对应,如下表2所示:
表2:SNP标记分组情况
连锁群编号 | 标记数 | 遗传图距(cM) |
lg1 | 3830 | 1909.625 |
lg2 | 3448 | 2259.708 |
lg3 | 3263 | 2246.076 |
lg4 | 2674 | 1790.450 |
lg5 | 2547 | 1483.621 |
lg6 | 2357 | 1409.820 |
lg7 | 2191 | 1228.579 |
lg8 | 2180 | 1663.061 |
lg9 | 2057 | 1241.959 |
lg10 | 1828 | 1349.794 |
lg11 | 1547 | 1112.202 |
lg12 | 1528 | 949.171 |
3)根据步骤3)对分组后的SNP标记排序及后续优化,排序结果如图4所示。
将最终得到的遗传图谱与水稻基因组进行共线性比较,发现遗传图谱上SNP标记的排序与标记在基因组上的真实排序一致性很高,如图5所示。
SMRTmap与JoinMap作图效率比较如表3所示,其中M表示SNP标记数量,n表示样本数量,表中消耗时间为独立计算10次取平均后的值,JoinMap4.0对单个连锁群超过200个SNP标记的排序非常缓慢,所以对标记数为30135的例子未完成测试。
表3:SMRTmap和JoinMap4.0作图效率比较
SMRTmap | JoinMap4.0 | |
M=100,n=200 | 1.5s | 6m31s |
M=1000,n=200 | 2.6s | 4h12m34s |
M=30135,n=200 | 5h21m47s | >1个月 |
由此可知,SMRTmap构建遗传图谱的准确性、作图效率高,可为后续的生物信息学分析和遗传学研究提供有力支持。
以上所述的仅是本发明的优选实施方式,应当指出,对于本技术领域中的普通技术人员来说,在不脱离本发明核心技术特征的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种高密度遗传图谱的构建方法,其特征在于,它包括以下步骤:
1)根据遗传分离群体高通量测序数据中得到的SNP标记,对SNP标记进行基因型分型和过滤,再计算两两之间的重组率;
2)利用步骤1)算得的重组率,采用分层聚类算法根据前述遗传分离群体的染色体数对SNP标记进行分组,得到与染色体数对应的连锁群;
3)采用最小生成树算法对SNP标记进行排序,对排序后的SNP标记进行补缺失和纠错处理,最后计算遗传距离得到遗传图谱。
2.根据权利要求1所述的高密度遗传图谱的构建方法,其特征在于,所述遗传分离群体为性状分离群体,包括FI、F2、RILd、BC1、DH、Hap中的一种或多种。
3.根据权利要求1所述的高密度遗传图谱的构建方法,其特征在于,所述步骤1)包括以下步骤:
1.1)根据亲本的基因型及子代的基因型对SNP标记进行基因型分型;
1.2)使用卡方检验、缺失率对SNP标记进行过滤,得到高质量的SNP标记;
1.3)利用样本基因型估计任意两个SNP标记之间的重组率。
4.根据权利要求3所述的高密度遗传图谱的构建方法,其特征在于,所述步骤1.2)具体方法:
1.2.1)使用卡方检验过滤SNP标记的方法:
统计子代中每一种基因型的样本个数,利用卡方检验判断子代各基因型包含的样本量是否符合孟德尔分离比,如果符合,则保留这一个SNP标记,如果不符合,则过滤该SNP标记;
1.2.2)基于缺失率过滤SNP标记的方法:
基于样本缺失率:统计所有样本中某一个SNP标记的缺失与否,如果缺失率小于设定的阈值,则保留该SNP标记,反之则过滤该SNP标记,缺失率=缺失样本数/总样本;
基于SNP标记缺失率:统计某一个样本缺失的SNP标记总数,如果SNP标记缺失率小于设定的阈值,则保留该样本,反之则过滤该样本,缺失率=缺失的SNP标记数/总SNP标记数。
5.根据权利要求4所述的高密度遗传图谱的构建方法,其特征在于,步骤1.2.2)的缺失率设定的默认阈值为15%,SNP标记缺失率的默认阈值为30%。
6.根据权利要求3所述的高密度遗传图谱的构建方法,其特征在于,所述步骤1.3)具体步骤为:
1.3.1)以i代表第i个SNP标记,j代表第j个SNP标记,Ri,j表示两个SNP标记发生重组的可能性;
1.3.2)如果两个SNP标记靠的很近,没有发生重组,那么Ri,j=0.0;
1.3.3)如果两个SNP标记属于不同的连锁群,则Ri,j=0.5;两个SNP标记靠的越近,发生重组的可能性越低,即两个SNP标记连锁的可能性越高;
1.3.4)统计样本中两个SNP标记重组的基因型样本数量,重组率Ri,j=重组基因型样本数量/样本总数量;其中,重组基因型样本表示子代基因型与亲本基因型不同的样本。
7.根据权利要求1所述的高密度遗传图谱的构建方法,其特征在于,所述步骤2)包括以下步骤:
2.1)计算聚类中心:如果两个SNP标记属于不同的连锁群,那么两者之间重组率越大的可能性越高,设定P值<0.0001,根据以下公式计算聚类中心:
<mrow>
<mi>c</mi>
<mo>=</mo>
<msqrt>
<mfrac>
<mrow>
<mi>n</mi>
<mo>&times;</mo>
<msup>
<mi>loge</mi>
<mi>p</mi>
</msup>
</mrow>
<mrow>
<mo>-</mo>
<mn>2</mn>
</mrow>
</mfrac>
</msqrt>
<mo>-</mo>
<mfrac>
<mi>n</mi>
<mn>2</mn>
</mfrac>
</mrow>
其中,c为聚类中心;n为自由度,自由度=样本数量-1;
2.2)分组:采用分层聚类算法对SNP标记进行分组,如果两个SNP标记之间的重组率小于聚类中心c,则视为属于同一个连锁群;
2.3)更新P值:如果步骤2.2)中分组得到的主要连锁群小于染色体数,则降低P值;反之增加P值,使得最终得到的主要连锁群数与染色体数一致;其中,主要连锁群指的是集中较多SNP标记数的组,剩余的连锁群只包含少数的几个标记,可以视为异常标记。
8.根据权利要求1所述的高密度遗传图谱的构建方法,其特征在于,所述步骤3)包括以下步骤:
3.1)合并重组率为0的SNP标记:将同一个连锁群中重组率为0的SNP标记合并,作为一个标记进行排序;
3.2)采用最小生成树算法对SNP标记进行排序得到初步遗传图谱;
3.3)采用最大期望算法处理缺失的SNP标记;
3.4)采用邻近平均算法对分型错误的SNP标记进行纠错处理;
3.5)对得到的初步遗传图谱,采用k-opt算法进行优化,重复步骤3.2)-3.5)直至最优,其中,最优表示找不到总遗传距离更短的排序方案;
3.6)对排序好的遗传图谱计算遗传距离,得到最终的遗传图谱。
9.根据权利要求8所述的高密度遗传图谱的构建方法,其特征在于,所述步骤3.3)具体方法如下:
3.3.1)E步骤:计算缺失SNP标记为A的概率,假设第i个样本第j个SNP标记为缺失,其基因型为A的可能性由下式计算:
<mrow>
<mi>p</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>A</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<msub>
<mi>r</mi>
<mrow>
<mi>j</mi>
<mo>-</mo>
<mn>1</mn>
<mo>,</mo>
<mi>j</mi>
</mrow>
</msub>
<mo>)</mo>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<msub>
<mi>r</mi>
<mrow>
<mi>j</mi>
<mo>,</mo>
<mi>j</mi>
<mo>+</mo>
<mn>1</mn>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<msub>
<mi>r</mi>
<mrow>
<mi>j</mi>
<mo>-</mo>
<mn>1</mn>
<mo>,</mo>
<mi>j</mi>
</mrow>
</msub>
<mo>)</mo>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<msub>
<mi>r</mi>
<mrow>
<mi>j</mi>
<mo>,</mo>
<mi>j</mi>
<mo>+</mo>
<mn>1</mn>
</mrow>
</msub>
<mo>)</mo>
<mo>+</mo>
<msub>
<mi>r</mi>
<mrow>
<mi>j</mi>
<mo>-</mo>
<mn>1</mn>
<mo>,</mo>
<mi>j</mi>
</mrow>
</msub>
<mo>&times;</mo>
<msub>
<mi>r</mi>
<mrow>
<mi>j</mi>
<mo>,</mo>
<mi>j</mi>
<mo>+</mo>
<mn>1</mn>
</mrow>
</msub>
</mrow>
</mfrac>
</mrow>
其中rj-1,j、rj,j+1分别为第j-1与j个SNP标记,第j与j+1个SNP标记之间的重组率;
3.3.2)M步骤:根据p(Ai,j)重构所有SNP标记之间的重组率;
3.3.3)其中,缺失SNP标记的p(Ai,j)初始值为0.5;
所述步骤3.4)具体方法如下:
3.4.1)根据步骤3.3.1),若第i个样本第j个SNP标记基因型为A,则p(Ai,j)=1;若该标记基因型为B,则p(Ai,j)=0;
3.4.2)与第i个样本第j个SNP标记邻近标记的基因型为A的平均可能性由下式算得:
<mrow>
<mi>E</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>A</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mi>p</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>A</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
<mo>-</mo>
<mn>2</mn>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mi>p</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>A</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>y</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mi>p</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>A</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
<mo>+</mo>
<mn>1</mn>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mi>p</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>A</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
<mo>+</mo>
<mn>2</mn>
</mrow>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mn>4</mn>
</mfrac>
</mrow>
3.4.3)若E(Ai,j)-p(Ai,j)>0.75,则认为该SNP标记是可疑的,重新记为缺失,反之则接受该标记。
10.根据权利要求8所述的高密度遗传图谱的构建方法,其特征在于,所述步骤3.6)中,遗传距离是由重组率通过Haldane或Kosambi作图函数转化得到,以cM表示,其中,所述Haldane或Kosambi为重组率与遗传距离转换公式,公式如下:
<mrow>
<mi>H</mi>
<mi>a</mi>
<mi>l</mi>
<mi>d</mi>
<mi>a</mi>
<mi>n</mi>
<mi>e</mi>
<mo>:</mo>
<mi>m</mi>
<mo>=</mo>
<mo>-</mo>
<mfrac>
<mn>1</mn>
<mn>2</mn>
</mfrac>
<mi>l</mi>
<mi>n</mi>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<mn>2</mn>
<mi>r</mi>
<mo>)</mo>
</mrow>
<mo>,</mo>
<mi>K</mi>
<mi>o</mi>
<mi>s</mi>
<mi>a</mi>
<mi>m</mi>
<mi>b</mi>
<mi>i</mi>
<mo>:</mo>
<mi>m</mi>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mn>4</mn>
</mfrac>
<mi>l</mi>
<mi>n</mi>
<mfrac>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>+</mo>
<mn>2</mn>
<mi>r</mi>
<mo>)</mo>
</mrow>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<mn>2</mn>
<mi>r</mi>
<mo>)</mo>
</mrow>
</mfrac>
<mo>,</mo>
</mrow>
m为遗传距离,以cM为单位,r为重组率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710804279.2A CN107644150B (zh) | 2017-09-08 | 2017-09-08 | 一种高密度遗传图谱的构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710804279.2A CN107644150B (zh) | 2017-09-08 | 2017-09-08 | 一种高密度遗传图谱的构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107644150A true CN107644150A (zh) | 2018-01-30 |
CN107644150B CN107644150B (zh) | 2021-03-19 |
Family
ID=61110437
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710804279.2A Active CN107644150B (zh) | 2017-09-08 | 2017-09-08 | 一种高密度遗传图谱的构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107644150B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108846260A (zh) * | 2018-06-28 | 2018-11-20 | 北京百迈客生物科技有限公司 | 遗传分离群体的遗传图谱构建方法及装置 |
CN109473142A (zh) * | 2018-10-10 | 2019-03-15 | 深圳韦格纳医学检验实验室 | 样本数据集合的构建方法及其遗传出生地预测方法 |
CN110211639A (zh) * | 2018-02-13 | 2019-09-06 | 中国科学院北京基因组研究所 | 一种群体区分和鉴定的遗传标记参照系的构建方法及遗传标记参照系 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007020983A1 (ja) * | 2005-08-18 | 2007-02-22 | Japan Science And Technology Agency | オオムギest配列を利用して作製された二倍体コムギ遺伝地図を用いるコムギの育種方法 |
CN102181517A (zh) * | 2010-12-09 | 2011-09-14 | 新疆维吾尔自治区畜牧科学院中国-澳大利亚绵羊育种研究中心 | 绵羊mstn基因启动子区两个新snp位点检测及其检测方法的建立 |
CN102722570A (zh) * | 2012-06-04 | 2012-10-10 | 武汉大学 | 一种面向地理空间优化的人工免疫智能优化系统 |
CN103184277A (zh) * | 2011-12-30 | 2013-07-03 | 北京林业大学 | 梅花遗传图谱构建方法 |
CN103525917A (zh) * | 2013-09-24 | 2014-01-22 | 北京百迈客生物科技有限公司 | 基于高通量分型的高密度遗传图谱的构建和评价 |
CN105368923A (zh) * | 2014-08-27 | 2016-03-02 | 深圳华大基因科技服务有限公司 | 遗传图谱的构建方法和装置 |
CN105602966A (zh) * | 2016-01-08 | 2016-05-25 | 广西大学 | 一种编码6-磷酸葡萄糖酸脱氢酶的基因及其应用 |
CN106636081A (zh) * | 2016-12-01 | 2017-05-10 | 上海市农业科学院 | 一个与桃树流胶病抗性相关的snp分子标记 |
-
2017
- 2017-09-08 CN CN201710804279.2A patent/CN107644150B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007020983A1 (ja) * | 2005-08-18 | 2007-02-22 | Japan Science And Technology Agency | オオムギest配列を利用して作製された二倍体コムギ遺伝地図を用いるコムギの育種方法 |
CN102181517A (zh) * | 2010-12-09 | 2011-09-14 | 新疆维吾尔自治区畜牧科学院中国-澳大利亚绵羊育种研究中心 | 绵羊mstn基因启动子区两个新snp位点检测及其检测方法的建立 |
CN103184277A (zh) * | 2011-12-30 | 2013-07-03 | 北京林业大学 | 梅花遗传图谱构建方法 |
CN102722570A (zh) * | 2012-06-04 | 2012-10-10 | 武汉大学 | 一种面向地理空间优化的人工免疫智能优化系统 |
CN103525917A (zh) * | 2013-09-24 | 2014-01-22 | 北京百迈客生物科技有限公司 | 基于高通量分型的高密度遗传图谱的构建和评价 |
CN105368923A (zh) * | 2014-08-27 | 2016-03-02 | 深圳华大基因科技服务有限公司 | 遗传图谱的构建方法和装置 |
CN105602966A (zh) * | 2016-01-08 | 2016-05-25 | 广西大学 | 一种编码6-磷酸葡萄糖酸脱氢酶的基因及其应用 |
CN106636081A (zh) * | 2016-12-01 | 2017-05-10 | 上海市农业科学院 | 一个与桃树流胶病抗性相关的snp分子标记 |
Non-Patent Citations (2)
Title |
---|
孙效文等: "《鱼类分子育种学》", 31 May 2010, 海洋出版社 * |
石春海: "《遗传学》", 30 September 2007, 浙江大学出版社 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110211639A (zh) * | 2018-02-13 | 2019-09-06 | 中国科学院北京基因组研究所 | 一种群体区分和鉴定的遗传标记参照系的构建方法及遗传标记参照系 |
CN110211639B (zh) * | 2018-02-13 | 2023-07-04 | 中国科学院北京基因组研究所 | 一种群体区分和鉴定的遗传标记参照系的构建方法及遗传标记参照系 |
CN108846260A (zh) * | 2018-06-28 | 2018-11-20 | 北京百迈客生物科技有限公司 | 遗传分离群体的遗传图谱构建方法及装置 |
CN108846260B (zh) * | 2018-06-28 | 2021-09-10 | 北京百迈客生物科技有限公司 | 遗传分离群体的遗传图谱构建方法及装置 |
CN109473142A (zh) * | 2018-10-10 | 2019-03-15 | 深圳韦格纳医学检验实验室 | 样本数据集合的构建方法及其遗传出生地预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107644150B (zh) | 2021-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Arai-Kichise et al. | Discovery of genome-wide DNA polymorphisms in a landrace cultivar of japonica rice by whole-genome sequencing | |
Xu et al. | Developing high throughput genotyped chromosome segment substitution lines based on population whole-genome re-sequencing in rice (Oryza sativa L.) | |
Chagné et al. | Genome-wide SNP detection, validation, and development of an 8K SNP array for apple | |
Ogutcen et al. | Capturing variation in Lens (Fabaceae): Development and utility of an exome capture array for lentil | |
M. Salih et al. | Complete chloroplast genomes from apomictic Taraxacum (Asteraceae): identity and variation between three microspecies | |
Chhatre et al. | Genetic structure and association mapping of adaptive and selective traits in the east Texas loblolly pine (Pinus taeda L.) breeding populations | |
Zheng et al. | Species delimitation and lineage separation history of a species complex of aspens in China | |
CN107644150B (zh) | 一种高密度遗传图谱的构建方法 | |
Tello et al. | A novel high-density grapevine (Vitis vinifera L.) integrated linkage map using GBS in a half-diallel population | |
Liu et al. | Extensive hybridization and introgression between Melastoma candidum and M. sanguineum | |
Cheng et al. | Signatures of differential selection in chloroplast genome between japonica and indica | |
Kuhn et al. | Estimation of genetic diversity and relatedness in a mango germplasm collection using SNP markers and a simplified visual analysis method | |
CN105868584A (zh) | 通过选取极端性状个体来进行全基因组选择育种的方法 | |
CN109993305B (zh) | 基于大数据人工智能算法的祖源多态性预测方法 | |
Willi et al. | Demographic processes linked to genetic diversity and positive selection across a species' range | |
Wang et al. | Analysis of the genetic structure and diversity of upland cotton groups in different planting areas based on SNP markers | |
Zhou et al. | Assembly of whole-chromosome pseudomolecules for polyploid plant genomes using outbred mapping populations | |
Oh et al. | Evaluating genetic diversity of Agaricus bisporus accessions through phylogenetic analysis using single-nucleotide polymorphism (SNP) markers | |
Gardiner et al. | A framework for gene mapping in wheat demonstrated using the Yr7 yellow rust resistance gene | |
Liu et al. | Growth period QTL‐allele constitution of global soybeans and its differential evolution changes in geographic adaptation versus maturity group extension | |
Hussain et al. | Identification of heterotic groups and patterns based on genotypic and phenotypic characteristics among rice accessions of diverse origins | |
Li et al. | Genomic prediction of preliminary yield trials in chickpea: Effect of functional annotation of SNPs and environment | |
Lepais et al. | Joint analysis of microsatellites and flanking sequences enlightens complex demographic history of interspecific gene flow and vicariance in rear-edge oak populations | |
CN110246546B (zh) | 一种基因型高通量测序数据的压缩方法 | |
Klápště et al. | Quercus species divergence is driven by natural selection on evolutionarily less integrated traits |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |