CN107644150A

CN107644150A - 一种高密度遗传图谱的构建方法

Info

Publication number: CN107644150A
Application number: CN201710804279.2A
Authority: CN
Inventors: 蔡庆乐; 唐耀华; 何荣军
Original assignee: HANGZHOU HEYI GENE TECHNOLOGY Co Ltd
Current assignee: HANGZHOU HEYI GENE TECHNOLOGY Co Ltd
Priority date: 2017-09-08
Filing date: 2017-09-08
Publication date: 2018-01-30
Anticipated expiration: 2037-09-08
Also published as: CN107644150B

Abstract

本发明提供了一种高密度遗传图谱的构建方法，步骤是1)根据遗传分离群体高通量测序数据中得到的SNP标记，对标记进行基因型分型和过滤，再计算两两之间的重组率；2)利用步骤1)算得的重组率，采用分层聚类算法根据前述遗传分离群体的染色体数对SNP标记进行分组，得到与染色体数对应的连锁群；3)采用最小生成树算法对标记进行排序，对排序后的SNP标记进行补缺失和纠错处理，最后计算遗传距离得到遗传图谱。本发明针对不同的遗传分离群体高效、高准确率的构建遗传图谱，为后续的生物信息学分析和遗传学研究提供有力支持。

Description

一种高密度遗传图谱的构建方法

技术领域

本发明属于生物信息技术领域，更具体的说，它涉及一种高密度遗传图谱的构建方法。

背景技术

遗传图谱是指某一物种的染色体图谱，也称为连锁图谱，用于表示基因和/或遗传标记的相对位置。遗传标记种类繁多，随着生物信息学和测序技术的进步，单核苷酸的多态性(SNP)标记由于其数量大、多态性丰富而越来越受到大家的重视，这使得构建高密度遗传图谱成为可能，但同时带来了对图谱构建方法和分析效率的挑战。

目前针对F1群体(亲本杂交产生的子一代)的分析软件很少，常见的就JoinMap4.0、Onemap、GACD等，虽然可以分析，但效率均很低，且分析的遗传标记数量有限。针对这种现象，有必要开发一种高效、高准确率，可适用不同物种不同分离群体的高密度遗传图谱的构建方法。

发明内容

本发明的目的是解决以上提出的问题，提供一种基于遗传标记的高密度遗传图谱的构建方法，命名为SMRTmap。以高通量测序产生的SNP数据为基础，针对不同的遗传分离群体进行基因分型，得到高质量的SNP标记，进而利用SMRTmap构建高密度遗传图谱。本发明的方法可以针对不同的遗传分离群体高效、高准确率的构建遗传图谱，为后续的生物信息学分析和遗传学研究提供有力支持。

本发明是通过以下技术方案实现的：

本发明公开了一种高密度遗传图谱的构建方法，它包括以下步骤：

1)根据遗传分离群体高通量测序数据中得到的SNP标记，对标记进行基因型分型和过滤，再计算两两之间的重组率；

2)利用步骤1)算得的重组率，采用分层聚类算法根据前述遗传分离群体的染色体数对SNP标记进行分组，得到与染色体数对应的连锁群；

3)采用最小生成树算法(MST)对标记进行排序，对排序后的SNP标记进行补缺失和纠错处理，最后计算遗传距离得到遗传图谱。

作为优化，所述遗传分离群体为性状分离群体，包括FI、F2、RILd、BC1、DH、Hap中的一种或多种。

作为优化，所述步骤1)包括以下步骤：

1.1)根据亲本的基因型及子代的基因型对SNP标记进行基因型分型；例如亲本基因型为Aa×Aa，根据孟德尔分离定律，子代的基因型共有AA、Aa和aa三种情况；

1.2)使用卡方检验、缺失率对SNP标记进行过滤，得到高质量的SNP标记，具体方法：

1.2.1)使用卡方检验过滤SNP标记的方法：

统计子代中每一种基因型的样本个数，利用卡方检验判断子代各基因型包含的样本量是否符合孟德尔分离比，如果符合，则保留这一个SNP标记，如果不符合，则过滤该SNP标记；

1.2.2)基于缺失率过滤SNP标记的方法：

基于样本缺失率：统计所有样本中某一个SNP标记的缺失与否，如果缺失率(缺失率＝缺失样本数/总样本)小于设定的阈值(默认为15％)，则保留该SNP标记，反之则过滤该SNP标记；

基于SNP标记缺失率：统计某一个样本缺失的SNP标记总数，如果SNP标记缺失率(缺失率＝缺失的SNP标记数/总SNP标记数)小于设定的阈值(默认30％)，则保留该样本，反之则过滤该样本。

1.3)利用样本基因型估计任意两个SNP标记之间的重组率，具体步骤为：

1.3.1)以i代表第i个SNP标记，j代表第j个SNP标记，Ri,j表示两个SNP标记发生重组的可能性；

1.3.2)如果两个SNP标记靠的很近，没有发生重组，那么Ri,j＝0.0；

1.3.3)如果两个SNP标记属于不同的连锁群，则Ri,j＝0.5；两个SNP标记靠的越近，发生重组的可能性越低，即两个SNP标记连锁的可能性越高；

1.3.4)统计样本中两个SNP标记重组的基因型样本数量，重组率Ri,j＝重组基因型样本数量/样本总数量；其中，重组基因型样本表示子代基因型与亲本基因型不同的样本。

作为优化，所述步骤2)包括以下步骤：

2.1)计算聚类中心：如果两个SNP标记属于不同的连锁群，那么两者之间重组率越大的可能性越高，设定P值<0.0001，根据以下公式计算聚类中心：

其中，c为聚类中心，n为自由度，自由度＝样本数量-1；

2.2)分组：采用分层聚类算法对SNP标记进行分组，如果两个SNP标记之间的重组率小于聚类中心c，则视为属于同一个连锁群；其中，连锁群表示在染色体中具有不同的连锁程度并按线性顺序排列的一组SNP标记；

2.3)更新P值：如果步骤2.2)中分组得到的主要连锁群小于染色体数，则降低P值；反之增加P值，使得最终得到的主要连锁群数与染色体数一致；其中，主要连锁群指的是集中较多SNP标记数的组，剩余的连锁群只包含少数的几个标记，可以视为异常标记。

作为优化，所述步骤3)包括以下步骤：

3.1)合并重组率为0的SNP标记：将同一个连锁群中重组率为0的SNP标记合并，作为一个标记进行排序；

3.2)采用最小生成树算法(MST算法)对SNP标记进行排序得到初步遗传图谱；

3.3)采用最大期望算法(EM算法)处理缺失的SNP标记，具体方法如下：

3.3.1)E步骤：计算缺失SNP标记为A的概率，假设第i个样本第j个SNP标记为缺失，其基因型为A的可能性由下式计算：

其中r_j-1,j、r_j,j+1分别为第j-1与j个SNP标记，第j与j+1个SNP标记之间的重组率；

3.3.2)M步骤：根据p(A_i,j)重构所有SNP标记之间的重组率；

3.3.3)其中，缺失SNP标记的p(A_i,j)初始值为0.5；

3.4)采用邻近平均算法对分型错误的SNP标记进行纠错处理，具体方法如下：

3.4.1)根据步骤3.3.1)，若第i个样本第j个SNP标记基因型为A，则p(A_i,j)＝1；若该标记基因型为B，则p(A_i,j)＝0；

3.4.2)与第i个样本第j个SNP标记邻近标记的基因型为A的平均可能性由下式算得：

3.4.3)若E(A_i,j)-p(A_i,j)>0.75，则认为该SNP标记是可疑的，重新记为缺失，反之则接受该标记；

3.5)对得到的初步遗传图谱，采用k-opt算法(k元素优化算法)进行优化，重复步骤3.2)-3.5)直至最优，一般循环3-5个循环；其中，最优表示找不到总遗传距离更短的排序方案；

3.6)对排序好的遗传图谱计算遗传距离，得到最终的遗传图谱，遗传距离是由重组率通过Haldane或Kosambi作图函数转化得到，以cM表示，其中，所述Haldane或Kosambi为重组率与遗传距离转换公式，公式如下：

m为遗传距离，以cM为单位，r为重组率。

本发明的有益效果如下：

1、可以处理多种遗传分离群体，使用范围广；

2、采用最小生成树(MST)算法进行排序，运算速度显著提高，可完成单个连锁群5000个以上标记的排序；

3、利用最大期望算法(EM算法)，对缺失数据的容忍度大大提高；

4、对排序后的连锁群，采用k-opt算法(k元素优化算法)迭代优化，大大提高图谱的准确性；

5、算法采用perl和C编写，可在Linux集群上运行，充分利用并行运算和分布式计算，大大提高运算效率，解决JoinMap内存限制，可分析超过100,000个标记。

附图说明

图1：本发明流程图，图中标记数据指的是SNP标记，其中(A)为标记基因型分型、过滤和重组率计算步骤；(B)为连锁群分组步骤；(C)为MST算法排序、EM算法补缺失、邻近平均法纠错及k-opt排序优化过程；

图2：水稻RILd群体SNP标记格式图，高通量测序得到测序数据提取的SNP标记，SMRTmap的输入数据格式，图中第一列表示SNP标记的编号，其他每一列代表一株水稻的所有标记；字母A、B表示基因型的类型；

图3：两两SNP标记之间的重组率(部分结果)，第一列和第一行为标记的名称；

图4：SMRTmap运行后输出的结果，第一列为SNP标记编号，与输入数据对应，第二列为遗传距离，即每一个SNP标记相对第一个标记的位置，单位cM；

图5：SMRTmap得到的遗传图谱相对位置和水稻基因组上的物理位置比对共线性图。

具体实施方式

下面结合附图对本发明的实施例进行进一步详细说明：

本发明是一种高密度遗传图谱的构建方法，它包括以下步骤：

3)采用最小生成树算法(MST)对SNP标记进行排序，对排序后的SNP标记进行补缺失和纠错处理，最后计算遗传距离得到遗传图谱。

遗传分离群体为性状分离群体，包括FI、F2、RILd、BC1、DH、Hap中的一种或多种。

步骤1)包括以下步骤：

1.2.1)使用卡方检验过滤SNP标记的方法：

1.2.2)基于缺失率过滤SNP标记的方法：

1.3.1)以i代表第i个SNP标记，j代表第j个SNP标记，R_i,j表示两个SNP标记发生重组的可能性；

1.3.2)如果两个SNP标记靠的很近，没有发生重组，那么R_i,j＝0.0；

1.3.3)如果两个SNP标记属于不同的连锁群，则R_i,j＝0.5；两个标记靠的越近，发生重组的可能性越低，即两个SNP标记连锁的可能性越高；

步骤2)包括以下步骤：

其中，c为聚类中心，n为自由度，自由度＝样本数量-1；

步骤3)包括以下步骤：

3.3.2)M步骤：根据p(A_i,j)重构所有SNP标记之间的重组率；

3.3.3)其中，缺失SNP标记的p(A_i,j)初始值为0.5；

m为遗传距离，以cM为单位，r为重组率。

本实施例将一种高密度遗传图谱的构建方法(以下简称SMRTmap)应用于构建水稻200株RIL7群体遗传图谱。

选取水稻群体为RIL7群体，共200株，由于水稻有确定的基因组，因此可以作为遗传图谱的标准答案，用来评价SMRTmap构建遗传图谱的准确性；

水稻遗传图谱构建，包括如下步骤：

1)如表1所示为RILd群体SNP标记分型规则(自交多代后，ab型可忽略不计)，基于表1对二代高通量测序得到的标记进行基因型分型，aa用‘A’表示，bb用‘B’表示，杂合用‘X’表示，缺失用‘-’表示；经纠错和过滤后，获得有效SNP标记30135个，如图2所示为SNP标记数据的格式示意图(部分数据)；根据步骤1.3)所述步骤计算两两之间的重组率，结果如图3所示；

表1：RILd群体多态性(SNP)标记类型

父本基因型	母本基因型	F1自交多代后子代基因型	孟德尔分离比
				aa	bb	aa，bb，ab，--	1:1

2)根据步骤2)对步骤1)中30135个SNP标记进行分组，共12个组，与水稻的染色体数目对应，如下表2所示：

表2：SNP标记分组情况

连锁群编号	标记数	遗传图距(cM)
			lg1	3830	1909.625
lg2	3448	2259.708
			lg3	3263	2246.076
lg4	2674	1790.450
			lg5	2547	1483.621
lg6	2357	1409.820
			lg7	2191	1228.579
lg8	2180	1663.061
			lg9	2057	1241.959
lg10	1828	1349.794
			lg11	1547	1112.202
lg12	1528	949.171

3)根据步骤3)对分组后的SNP标记排序及后续优化，排序结果如图4所示。

将最终得到的遗传图谱与水稻基因组进行共线性比较，发现遗传图谱上SNP标记的排序与标记在基因组上的真实排序一致性很高，如图5所示。

SMRTmap与JoinMap作图效率比较如表3所示，其中M表示SNP标记数量，n表示样本数量，表中消耗时间为独立计算10次取平均后的值，JoinMap4.0对单个连锁群超过200个SNP标记的排序非常缓慢，所以对标记数为30135的例子未完成测试。

表3：SMRTmap和JoinMap4.0作图效率比较

	SMRTmap	JoinMap4.0
			M＝100,n＝200	1.5s	6m31s
M＝1000,n＝200	2.6s	4h12m34s
			M＝30135,n＝200	5h21m47s	>1个月

由此可知，SMRTmap构建遗传图谱的准确性、作图效率高，可为后续的生物信息学分析和遗传学研究提供有力支持。

以上所述的仅是本发明的优选实施方式，应当指出，对于本技术领域中的普通技术人员来说，在不脱离本发明核心技术特征的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种高密度遗传图谱的构建方法，其特征在于，它包括以下步骤：

1)根据遗传分离群体高通量测序数据中得到的SNP标记，对SNP标记进行基因型分型和过滤，再计算两两之间的重组率；

3)采用最小生成树算法对SNP标记进行排序，对排序后的SNP标记进行补缺失和纠错处理，最后计算遗传距离得到遗传图谱。

2.根据权利要求1所述的高密度遗传图谱的构建方法，其特征在于，所述遗传分离群体为性状分离群体，包括FI、F2、RILd、BC1、DH、Hap中的一种或多种。

3.根据权利要求1所述的高密度遗传图谱的构建方法，其特征在于，所述步骤1)包括以下步骤：

1.1)根据亲本的基因型及子代的基因型对SNP标记进行基因型分型；

1.2)使用卡方检验、缺失率对SNP标记进行过滤，得到高质量的SNP标记；

1.3)利用样本基因型估计任意两个SNP标记之间的重组率。

4.根据权利要求3所述的高密度遗传图谱的构建方法，其特征在于，所述步骤1.2)具体方法：

1.2.1)使用卡方检验过滤SNP标记的方法：

1.2.2)基于缺失率过滤SNP标记的方法：

基于样本缺失率：统计所有样本中某一个SNP标记的缺失与否，如果缺失率小于设定的阈值，则保留该SNP标记，反之则过滤该SNP标记，缺失率＝缺失样本数/总样本；

基于SNP标记缺失率：统计某一个样本缺失的SNP标记总数，如果SNP标记缺失率小于设定的阈值，则保留该样本，反之则过滤该样本，缺失率＝缺失的SNP标记数/总SNP标记数。

5.根据权利要求4所述的高密度遗传图谱的构建方法，其特征在于，步骤1.2.2)的缺失率设定的默认阈值为15％，SNP标记缺失率的默认阈值为30％。

6.根据权利要求3所述的高密度遗传图谱的构建方法，其特征在于，所述步骤1.3)具体步骤为：

7.根据权利要求1所述的高密度遗传图谱的构建方法，其特征在于，所述步骤2)包括以下步骤：

<mrow> <mi>c</mi> <mo>=</mo> <msqrt> <mfrac> <mrow> <mi>n</mi> <mo>&times;</mo> <msup> <mi>loge</mi> <mi>p</mi> </msup> </mrow> <mrow> <mo>-</mo> <mn>2</mn> </mrow> </mfrac> </msqrt> <mo>-</mo> <mfrac> <mi>n</mi> <mn>2</mn> </mfrac> </mrow>

其中，c为聚类中心；n为自由度，自由度＝样本数量-1；

2.2)分组：采用分层聚类算法对SNP标记进行分组，如果两个SNP标记之间的重组率小于聚类中心c，则视为属于同一个连锁群；

8.根据权利要求1所述的高密度遗传图谱的构建方法，其特征在于，所述步骤3)包括以下步骤：

3.2)采用最小生成树算法对SNP标记进行排序得到初步遗传图谱；

3.3)采用最大期望算法处理缺失的SNP标记；

3.4)采用邻近平均算法对分型错误的SNP标记进行纠错处理；

3.5)对得到的初步遗传图谱，采用k-opt算法进行优化，重复步骤3.2)-3.5)直至最优，其中，最优表示找不到总遗传距离更短的排序方案；

3.6)对排序好的遗传图谱计算遗传距离，得到最终的遗传图谱。

9.根据权利要求8所述的高密度遗传图谱的构建方法，其特征在于，所述步骤3.3)具体方法如下：

<mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>A</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>r</mi> <mrow> <mi>j</mi> <mo>-</mo> <mn>1</mn> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>)</mo> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>r</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>j</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>r</mi> <mrow> <mi>j</mi> <mo>-</mo> <mn>1</mn> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>)</mo> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>r</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>j</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> <mo>+</mo> <msub> <mi>r</mi> <mrow> <mi>j</mi> <mo>-</mo> <mn>1</mn> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>&times;</mo> <msub> <mi>r</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>j</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> </mrow> </mfrac> </mrow>

3.3.2)M步骤：根据p(A_i,j)重构所有SNP标记之间的重组率；

3.3.3)其中，缺失SNP标记的p(A_i,j)初始值为0.5；

所述步骤3.4)具体方法如下：

3.4.3)若E(A_i,j)-p(A_i,j)>0.75，则认为该SNP标记是可疑的，重新记为缺失，反之则接受该标记。

10.根据权利要求8所述的高密度遗传图谱的构建方法，其特征在于，所述步骤3.6)中，遗传距离是由重组率通过Haldane或Kosambi作图函数转化得到，以cM表示，其中，所述Haldane或Kosambi为重组率与遗传距离转换公式，公式如下：

m为遗传距离，以cM为单位，r为重组率。