CN114300043A

CN114300043A - 一种牦牛基因组测序数据的基因型填充方法

Info

Publication number: CN114300043A
Application number: CN202111608117.4A
Authority: CN
Inventors: 王嘉博; 秦婕; 钟金城; 王会; 柴志欣; 王海波
Original assignee: Southwest Minzu University
Current assignee: Southwest Minzu University
Priority date: 2021-12-23
Filing date: 2021-12-23
Publication date: 2022-04-08

Abstract

本发明公开了一种牦牛基因组测序数据的基因型填充方法，根据牦牛深度基因组测序数据进行分子标记提取，低密度重测序分子标记数据的格式转换，基于聚类分析对牦牛群体进行归类分群；利用各分类群内部个体间的遗传关系及估计的遗传参数，以隐马尔科夫模型为基础建立基因型填充模型，估计缺失值的最佳可能性基因型，针对小群体进行宏观预测；最后整理得到整体大群牦牛基因组填充后的基因型数据。本发明利用牦牛小群体遗传结构强于整体遗传关系的背景，结合隐马尔科夫预测模型和逐轮填充技术提高牦牛基因组测序数据填充的准确率。

Description

一种牦牛基因组测序数据的基因型填充方法

技术领域

本发明涉及基因组信息填充技术领域，特别是一种牦牛基因组测序数据的基因型填充方法。

背景技术

全基因组测序(Whole Genome Sequencing,WGS)是对细胞或生物体所有的基因组进行测序，获得完整的基因组信息。全基因组测序数据可以找到基因与表型之间的联系，在挖掘动植物重要经济性状相关的功能基因、分析遗传机制等方面有重要意义。

我国牦牛主要分布在青藏高原海拔3000米以上的高寒草原及高山峡谷区域，有着耐高寒和耐低氧的优良性状，是牧民生活依赖的重要生产资料。由于传统牦牛饲养方式造成的长期过度繁殖和近亲繁殖，家养牦牛的繁殖能力、生长速度、成年体型和产奶量下降，给当地畜牧业的发展造成了影响。对全基因组测序数据进行分析，可以找到与生长性状相关的候选基因，但是牦牛的全基因组测序数据一般有较多缺失值，需要利用基因型填充的方法填充缺失值。

基因型填充方法的基本原理是根据参考群体提供的基因型信息，构建出参考群体和目标群体之间共享的单倍型信息，比对目标群体与参考群体之间共享的单倍型信息，将目标群体缺失的基因型信息填充完整，得到完整的基因型数据。基因型填充方法大致分为两类，一类是计算密集型的，如IMPUTE、MACH和fastPHASE等，还有一类是计算高效型，如PLINK、MINIMAC和BEAGLE等。计算密集型的基因型填充软件在填充的过程中充分考虑到所有已知的基因型信息，使得对未知的基因型信息的估算更加精确，但是填充耗时较长。而计算高效型的基因型填充软件在填充过程中仅仅关注与特定的SNP位点相邻的一部分标记的基因型信息，填充耗时较短但是填充准确性相对要低一点。在日本黑牛的研究中，利用BEAGLE软件从三个方面评估了日本黑牛群体基因型计算的准确性。对于不同数量的缺失基因型的影响，50K、26K和20K的填充匹配率和相关性较高，但7K的填充匹配率和相关性较低。在肉牛的研究中，使用软件BEAGLE、FIMPUTE和IMPUTE2对多品种的肉牛群体进行了填充。FIMPUTE软件对纯种群体填充的填充匹配率在94.20％到97.93％之间，IMPUTE2软件为95.35％到98.31％，BEAGLE软件为90.02％到96.38％。杂交动物的填充匹配率为54.15～97.53％(FIMPUTE)，57.04～97.46％(IMPUTE2)，以及54.35～95.64％(BEAGLE)。在牛的研究中，选择三种参考基因组，对数据进行基因分型后，利用PEDIMPUTE、FINCHAP、FIMPUTE和BEAGLE软件进行填充，FIMPUTE软件的填充匹配率率最高，约为95％，其次是BEAGLE软件，约为92％，另外两种软件的填充匹配率受基因分型的影响变化较大。基因型填充技术在人类、鸡、羊、猪、植物上都有广泛的应用。

然而牦牛具有独特的遗传结构、群体构成以及基因组复杂度使牦牛测序数据更不容易被准确的填充；现有技术中基因型填充软件或方法并不适用于牦牛基因型填充，因此，亟待开发一种牦牛基因组测序数据的基因型填充方法。

发明内容

本发明的目的是要解决现有技术中存在的不足，提供一种牦牛基因组测序数据的基因型填充方法。

为达到上述目的，本发明是按照以下技术方案实施的：

一种牦牛基因组测序数据的基因型填充方法，包括以下步骤：

1)根据已有的牦牛基因型数据对牦牛群体进行聚类和归类，以分类群体作为基础群体；

2)利用隐马尔科夫模型和群体内部遗传结构关系及遗传参数，对每个分类群体内部的未知基因型可能性概率进行估计，最终以可能性最大的基因型作为最后的预测结果；

3)整合各个分类群体的基因型数据，如果依然有未知基因型数据，继续重复步骤1)至步骤2)，直至全部分类群体的基因型数据得到完全填充。

进一步地，所述步骤1)具体包括：将牦牛基因型数据的基因型多态数据SNP转换成Hapmap、bed或者numeric格式，利用现有的K-means和Cluster两种聚类方式综合判定牦牛个体的具体分类群体，即两种聚类方式同时认定个体属于同一类群，否则个体被归入单独类群。

进一步地，所述步骤2)具体包括：

(1)分类群中的个体遗传结构采用分子遗传关系矩阵类估计，个体间的远近程度决定了个体间基因型估计的最初置信概率，遗传参数评估主要指连锁不平衡关系确定即单倍型估计，以此判断分类群中基因之间可信估计距离的远近即可信的单倍型长度；

(2)利用隐马尔可夫模型HMM计算参考面板的单倍型中一个标记到下一个标记的概率，其中参考面板指的是分类群中在其他个体未知的基因型处拥有已知基因型的多个个体；

(3)在每个标记处，用等位基因标记的概率之和作为该等位基因的估算概率；从第一个标记到最后一个标记的概率之和就是特定的单倍型概率；

(4)再根据目标样本与参考面板之间共有的基因序列建立模型，利用计算得到的参考面板中的等位基因标记的概率，预测目标样本中同样标记处各种基因型的最大可能性。

与现有技术相比，使用本发明的方法对牦牛基因组测序数据的基因型填充能够提高其填充准确率，填充效果好，填充耗时也较短，能够快速获得完整的牦牛基因组信息。

附图说明

图1为三种填充方法在不同缺失率条件下的准确率。

图2为三种填充方法在不同缺失率条件下的相关性。

图3为三种填充方法在不同缺失率条件下的填充耗时。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步的详细说明。此处所描述的具体实施例仅用于解释本发明，并不用于限定发明。

本实施例提供了一种牦牛基因组测序数据的基因型填充方法，包括以下步骤：

本实施例采用354头牦牛的基因组测序数据作为演示数据。原始数据可在网站上下载(https://www.animalgenome.org/repository/pub/NWAU2019.0430/)，其包含三个类型的文件，分别是ped文件、map文件和csv文件，其中ped文件包含了354头牦牛的98688个SNP位点的信息，map文件包含了354头牦牛的遗传图谱信息，csv文件包含了354头牦牛体重、肩高、体长和胸围4个表型；将ped文件转换成Hapmap格式基因组信息文件。在全部牦牛基因组数据中随机选取10k数据生成新的文件作为本实验的测试数据，每个重复会重新随机选取10000的SNP位点，总计进行50次的重复以消除随机抽样带来的干扰。分别在5％、10％、15％和20％的缺失率条件下，用三种基因型填充方法进行填充。

2)根据已有基因型的数据对354头牦牛群体进行聚类和归类，以分类群体作为基础群体：

使用K-means和Cluster算法估计354头牦牛的群体遗传距离，在根据聚类分析使遗传距离较近的个体组成一组，由于每次重复的随机抽取SNP并不相同，因此每次重复中最佳聚类组的数目也不相同，我们队每次重复缺失值进行填充，最后计算总重复次数下的平均填充准确率。

3)利用隐马尔科夫模型和群体内部遗传结构关系及遗传参数，对每个分类群体内部的未知基因型可能性概率进行估计，最终以可能性最大的基因型作为最后的预测结果，针对小的分类群体(个体数量小于5个时)，以全部牦牛群体作为参考群体进行估计和预测；

(1)分类群中的个体遗传结构采用分子遗传关系矩阵类估计，个体间的远近程度决定了个体间基因型估计的最初置信概率，遗传参数评估主要指连锁不平衡关系确定(即单倍型估计)，以此判断分类群中基因之间可信估计距离的远近(即可信的单倍型长度)；

(4)再根据目标样本与参考面板之间共有的基因序列建立模型，利用计算得到的参考面板中的等位基因标记的概率，预测目标样本中同样标记处各种基因型的最大可能性；

(5)对于那些没有多个个体的分类群(个体数目小于5个)，由于个体数量过于稀少，使参考面板无法提供有力支持，我们将利用全部大群体进行估算，估算和预测过程与(1)-(4)类似。

4)整合各个分类群体基因型数据，如果依然有未知基因型数据，继续重复步骤2)至步骤4)，直至全部群体基因型数据得到完全填充。

进一步，为了验证本发明的基因型填充方法的优越性，利用编写的StochasticImpute函数、impute.knn算法和本发明三种基因型填充方法对牦牛的测序数据进行填充，探究三种填充方法在不同的缺失率条件下的填充效果，以填充准确率、相关性和填充耗时为评价指标进行评价。

StochasticImpute函数的填充原理是利用等位基因的频率进行缺失值的填充，即以所有个体为参考群体，计算每个SNP位点中所有等位基因的频率，用频率最高的等位基因填充该SNP位点中的缺失值。根据数值型基因型文件，利用StochasticImpute函数分别计算0、1、2三种基因型频率，用频率最高的等位基因型作为填充型。

impute.knn算法需要调用R语言中的“impute”软件包，这种算法利用基因型数据中特定数目近邻基因型值来填充含有缺失值的个体的基因型。首先需要将候选邻居进行分类，再使用距离公式计算含有缺失值的基因与候选邻居之间的距离，其中用来计算距离的基因坐标应为基因中未缺失的元素。对于候选邻居可能缺少用于计算距离的坐标的情况，需要计算非缺失元素的平均值。找到一个基因的k个近邻后，根据这k个近邻中的大部分邻居所属的类别决定含有缺失值的基因型，然后通过对其相邻非缺失元素求平均值来估算缺失元素。本文设置的k值为3，选择了欧几里德计算邻近数据之间的距离。

为了比较三种基因型填充方法的填充效果，本文将把填充准确率、相关性和填充耗时作为评价标准。其中填充准确率指的是填充正确的基因型个数与需要填充的基因型个数的比值。其中N_match是填充后准确预测基因型的数目，N_total是所有缺失基因型的数目。

相关性为真实的基因型与填充得到的基因型之间的相关性。其中G_impute是填充后的基因型，G_real是真实的基因型。

填充耗时指的是从填充开始一直到填充结束所用的时间。用R语言system.time来标记开始和结束时间，最后取差值计算准确的计算时间。

对于基因型数据，随机设置5％、10％、15％和20％的缺失率，用三种基因型填充方法进行填充，重复30次，得到填充准确率，如下图1。

由图1可以看出，在不同的缺失率条件下，本发明的填充准确率最高，填充准确率分别为0.8630、0.8617、0.8609和0.8599，其次是impute.knn算法，填充准确率分别为0.8125、0.8123、0.8125和0.8125，填充准确率最低的是StochasticImpute函数，填充准确率分别为0.6265、0.6214、0.6148和0.6063。随着缺失率的增大，本发明和impute.knn算法的填充准确率都有所降低，而StochasticImpute函数的填充准确率基本没有变化。

在计算填充准确率的同时，计算相关性，得到三种填充方法重复30次的相关性，取平均值，得到图2。

由图2可以看出，在不同的缺失率条件下，StochasticImpute函数和impute.knn算法的相关性相对较高，StochasticImpute函数的相关性分别为0.2216、0.2190、0.2193、0.2193，而impute.knn算法的相关性分别为0.2218、0.2204、0.2185、0.2197。本发明的相关性分别为0.2204、0.2026、0.1831、0.1637，随着缺失率的增加，本发明的相关性在逐渐降低，并且几乎都低于另外两种填充方法的相关性。随着缺失率的增加，StochasticImpute函数和impute.knn算法的相关性基本没有变化。

在利用三种方法进行填充的时候，记录三种填充方法重复30次得到的填充耗时，取平均值，用对数函数进行标准化，得到图3。

由图3可以看出，本发明的填充耗时最长，填充耗时分别为380.7秒、465.3秒、531.0秒和604.5秒，其次是impute.knn算法，填充耗时分别为13.0秒、14.0秒、14.4秒和15.4秒，填充耗时最少的是StochasticImpute函数，填充耗时为7.2秒、7.7秒、7.9秒和8.0秒。随着缺失率的增大，三种填充方法的填充耗时都在增大，其中本发明的填充耗时增加得最多，在缺失率为20％的条件下，填充耗时为604.5秒。

综述：通过对三种填充方法的对比，本发明的填充匹配率更高，5％的提高说明假如有100000个缺失的基因型，本发明将比其他两种方法提高5000个基因的准确预测；impute.knn算法的相关性更高，本发明在相关性上的劣势可能是由于基因型只设计了三种，这在统计学上造成了相关性计算上偏颇；StochasticImpute函数的填充耗时更短，但本发明的计算耗时在可接受范围内。在缺失率小于20％时，本发明基因型填充方法的填充效果较好，建议使用20％的缺失率对测序数据进行过滤，过滤后的数据利用本发明基因型填充技术填充可以得到可信度较高的基因型数据。

本发明的技术方案不限于上述具体实施例的限制，凡是根据本发明的技术方案做出的技术变形，均落入本发明的保护范围之内。

Claims

1.一种牦牛基因组测序数据的基因型填充方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的牦牛基因组测序数据的基因型填充方法，其特征在于，所述步骤1)具体包括：将牦牛基因型数据的基因型多态数据SNP转换成Hapmap、bed或者numeric格式，利用现有的K-means和Cluster两种聚类方式综合判定牦牛个体的具体分类群体，即两种聚类方式同时认定个体属于同一类群，否则个体被归入单独类群。

3.根据权利要求2所述的牦牛基因组测序数据的基因型填充方法，其特征在于，所述步骤2)具体包括：