CN114921561A

CN114921561A - 杜洛克猪全基因组低密度snp芯片及其制备方法和应用

Info

Publication number: CN114921561A
Application number: CN202210287772.2A
Authority: CN
Inventors: 郑伟杰; 赵云翔; 周玉; 李斌; 朱琳; 夏攀洁; 袁仁强
Original assignee: Guangxi Guigang Xiubo Gene Technology Co ltd; Guangxi Yangxiang Co ltd
Current assignee: Guangxi Guigang Xiubo Gene Technology Co ltd; Guangxi Yangxiang Co ltd
Priority date: 2022-03-22
Filing date: 2022-03-22
Publication date: 2022-08-19
Anticipated expiration: 2042-03-22
Also published as: CN114921561B

Abstract

本发明公开了一种杜洛克猪全基因组低密度SNP芯片，该SNP芯片包含9731个SNP分子标记，所述9731个SNP分子标记所在染色体上下游序列包含如SEQ ID No.1‑9731所示的序列。该芯片是单独基于杜洛克品种分析、检测到的位点制备的芯片，不同于其他已有芯片的多品种性，本芯片囊括了更多杜洛克猪的大效应SNP，因此更适于在杜洛克猪品种中的应用。尤其在杜洛克猪遗传育种、杜洛克猪种质资源遗传改良、杜洛克猪亲缘关系鉴定、杜洛克猪遗传多样性分析、杜洛克猪全基因组关联分析等领域上的应用。

Description

杜洛克猪全基因组低密度SNP芯片及其制备方法和应用

技术领域

本发明涉及分子生物学及动物育种领域，特别涉及一种杜洛克猪全基因组低密度SNP芯片及其制备方法和应用。

背景技术

分子标记(Molecular Markers)，指可遗传并可检测的DNA序列。其中，单核苷酸多态性(SNP)是指基因组上单个核苷酸的变异，包括转换和颠换。与微卫星等重复序列多态性标记相比，SNP在基因组上分布广泛，数量多，遗传稳定性高，更适合用于对复杂性状与疾病的遗传解剖以及基于群体的基因识别等方面的研究。同时，由于SNP具有二态性，且单个SNP位点突变率低，易于通过芯片技术实现自动化和规模化检测。因此，SNP成为继限制性酶切片段长度多态性标记(RFLP)、DNA重复序列的多态性标记(包括小卫星、微卫星DNA重复序列)之后的第三代主流基因遗传标记。

基于SNP的新型高通量分子标记技术主要有两大类：(1)基于测序技术的高通量分子标记技术，其通量高，能分析个体的全序列，检测发现新的基因信息，但测序数据大、成本高，且分析难度大、周期长；(2)基于基因芯片技术的分子标记技术。基因芯片又称DNA微阵列(DNA micro-array)，是把大量已知序列探针集成在同一个基片上，经过标记的靶核苷酸序列与芯片特定位点上的探针杂交，之后检测、分析杂交信号，检测基因信息的一种快速、高效的分子生物学分析手段。基因芯片具有高通量、高信息量、快速灵敏、样品用量少、成本相对低廉等优点。目前在进化、基因定位、分子育种中得到广泛应用，尤其是在以基因组选择为核心的动植物分子育种领域。

基因组选择(GS)是一种利用覆盖全基因组的SNP遗传标记来估计个体育种值的技术，使用该技术可以实现不依赖表型信息对个体进行早期准确选择，显著加快遗传进展，降低育种成本。GS于2001年被首次提出，2007年首款奶牛SNP 50K芯片问世，2009年廉价的高通量SNP标记基因分型平台成功开发，畜禽育种领域开始迈入基因组选择时代。目前，GS在奶牛育种中已成熟应用，带来了很大的经济效益。但是对于猪、鸡等世代间隔短、产仔数多的动物，目前主流使用的中高密度SNP芯片价格仍较为昂贵，因此GS技术并未得到很好的应用。

目前，市场上主流使用的猪SNP芯片是GeneSeek公司开发的、基于illumina平台的GGP-Porcine HD(含68528SNP)、GGP-Porcine第二版(含50697SNP，简称50K)，对分子育种实际应用而言，其价格仍然较高，限制了在我国猪场中的大规模使用。众多研究表明，通过基因型填充技术，将低密度芯片填充到高密度水平进行分析是可行的。因此，为了进一步降低基因组选择应用成本，选取合适的SNP制作低密度芯片以满足猪规模育种需要是必要的。

美国农业部研究发现，在决定生猪经济效益的因素中，基因发挥的作用比重最大，达到40％。我国生猪繁育以瘦肉型商品猪配套系为主，而杜洛克猪作为配套系中最重要的终端父本，其遗传资质的优劣，直接影响到后代商品猪的生产性能和经济效益。因此，针对杜洛克猪的选育是至关重要的。目前，国内主流使用的猪基因芯片主要是针对国外猪群体、联合多品种材料进行开发的，导致分析中国材料或某个品种时出现很多SNP位点质量较低的情况。因此，为了降低杜洛克猪基因组育种成本，加快我国自主培育的新品系杜洛克猪的遗传进展，亟需开发一种针对国内杜洛克猪群体、覆盖全基因组、分子育种使用效果良好的低密度SNP芯片。

发明内容

本发明的目的是提供一种杜洛克猪全基因组低密度SNP芯片及其制备方法和应用，以解决上述问题。

根据本发明的一个方面，提供了一种杜洛克猪全基因组低密度SNP芯片，该SNP芯片包含9731个SNP分子标记，所述9731个SNP分子标记所在染色体上下游序列包含如SEQ IDNo.1-9731所示的序列(如表3所示)。

在某些实施方式中，该芯片的相邻SNP标记位点间的平均距离为267kb。

在某些实施方式中，该SNP芯片的相邻SNP位点间的连锁不平衡程度r²为0.577。由此，SNP标记的连锁不平衡程度(LD)是全基因组关联分析和基因组选择准确性的保证，连锁不平衡越低则基因组选择准确性会大幅下降，本申请芯片的r²为0.577与50K芯片的r²值0.578接近，说明本申请的10K低密度芯片的基因组预测准确性可以保障。

在某些实施方式中，该SNP芯片的平均最小等位基因频率(MAF)为0.31，较50K的0.226有较大提高，说明本申请10K芯片的SNP质量高。

本发明的第二个方面，提供了一种杜洛克猪全基因组低密度SNP芯片在杜洛克猪遗传育种中的应用；优选地，在校正115公斤体重日龄、背膘厚、眼肌面积、瘦肉率、总仔数、产活仔数、有效精子数优势性状中，任一或多个优势性状组合选育上的应用。

本发明的第三个方面，提供了一种杜洛克猪全基因组低密度SNP芯片在杜洛克猪种质资源遗传改良中的应用。

本发明的第四个方面，提供了一种杜洛克猪全基因组低密度SNP芯片在杜洛克猪亲缘关系鉴定中的应用。

本发明的第五个方面，提供了一种杜洛克猪全基因组低密度SNP芯片在杜洛克猪遗传多样性分析中的应用。

本发明的第六个方面，提供了一种杜洛克猪全基因组低密度SNP芯片全基因组关联分析中的应用。

本发明的第七个方面，提供了一种杜洛克猪全基因组低密度SNP芯片的制备方法，其中，所述方法包括如下步骤：

S1:获取杜洛克猪表型及基因型数据；

S2:对S1中数据进行GWAS分析：挑选出每个性状中解释表型方差比例排名前1％的SNP，合并去重形成功能SNP集；

S3：BayesB估计SNP效应：使用BaeysB模型对目标性状进行基因组预测，估计各性状SNP效应值，并计算每个SNP解释的该性状加性遗传方差的比例，将其从大到小进行排序，选取出每个性状解释加性遗传方差比例排名前1％的SNP，合并去重后形成功能SNP集；

S4：遗传缺陷关键SNP筛选；

S5：高密度芯片筛选；

S6：低密度芯片制备：根据SNP在各染色体上分布均匀及各染色两端分布较密和多态性好的要求，对SNP位点进行筛选；根据S5筛选位点的物理位置，保留每条染色体两端各50个位点；并以此为基础，以猪全基因组长度/10K为步长在染色体上滑动划分窗口，按GWAS分析的解释表型方差比例排名前1％的SNP、BayesB预测的解释加性遗传方差比例排名前1％的SNP、高密度芯片质控筛选的SNP为顺序，依次挑选窗口内MAF最大且最接近窗口中间的SNP，最后再加入GWAS检测到的显著SNP和遗传缺陷SNP，去重后形成低密度SNP芯片。

本申请的有益效果：

1、该SNP芯片位点多态信息含量高；

2、SNP在基因组上均匀分布；

3、基因组预测效果好；

4、本芯片可以低成本、快速的检测相关SNP标记，使得普及杜洛克猪早期基因组选育成为可能，将大大提高我国杜洛克猪育种进程；

5、本芯片是单独基于杜洛克品种分析、检测到的位点制备的芯片，不同于其他已有芯片的多品种性，本芯片囊括了更多杜洛克猪的大效应SNP，因此更适于在杜洛克品种中的应用。尤其在杜洛克猪遗传育种、杜洛克猪种质资源遗传改良、杜洛克猪亲缘关系鉴定、杜洛克猪遗传多样性分析、杜洛克猪全基因组关联分析等领域上的应用。

附图说明

图1为猪全基因组低密度SNP芯片的制备流程图；

图2为各染色体SNP位点分布图；

图3为相邻SNP位点间的间隔图；

图4为相邻SNP位点间的r²频率分布图；

图5为SNP标记最小等位基因频率分布图；

图6为利用10K SNP芯片进行基因型填充的基本流程图；

图7为是利用10K SNP芯片填充至50K的填充准确性比较图。

具体实施方式

下面结合实施例对发明作进一步详细的说明。

实施例一、杜洛克猪全基因组低密度SNP芯片的制备

1、GWAS关联分析

(1)表型数据采集与质控

本研究群体是来自广西扬翔股份有限公司种猪核心群的杜洛克猪。收集2014～2021年间记录的校正115公斤体重日龄、背膘厚、眼肌面积和瘦肉率性状，质控后挑选出具有有效记录表型和芯片数据的杜洛克猪共3837头。

(2)基因分型与质量控制

采集3837头杜洛克猪的耳组织样品，提取总DNA，并采用GGP 50K SNP(GeneSeekUS)芯片对合格DNA样品进行基因分型，其中合格DNA样纯度OD260nm/OD280nm值为1.6～1.8，获得覆盖全基因组的50679个SNP标记。剔除基因组位置未知与性染色体上的SNP，对于所有常染色体上的SNP标记，利用Plink软件进行质量控制，标准为：去除SNP检出率<95％、最小等位基因频率<0.01、极端不符合哈代-温伯格平衡检验P值小于10-6以及检出率<90％的个体。对于缺失基因型，采用Beagle软件(version 4.1)进行填充，填充完后再次质控，质控条件与前面相同。质控后，最终有3837头杜洛克猪以及32299个SNP位点用于后续全基组关联分析。

(3)全基因组关联分析模型

使用混合线性模型(MLM)和FarmCPU模型对各性状进行全基因组关联分析。针对不同性状，将对性状有显著影响的效应作为固定效应加入到模型中。

MLM模型方程式

y＝Xb+Sα+Zg+e

其中y是表型向量；b是包含年季、性别、胎次在内的固定效应；α是单个SNP的固定效应；g是符合正态分布(0,Gσ_a^2)的随机多基因效应；其中σ_a^2是多基因效应方差，G是基因组亲缘关系矩阵；X、S和Z是其对应的关系矩阵，e是符合正态分布的随机残差。

FarmCPU模型方程式

y＝Tw_i+P_jq_j+m_kh_k+e

其中，y是表型值向量；T是包含年季、性别、胎次在内的固定效应矩阵；w_i是相应效应的前三个主成分；P_j是第j个伪数量性状核苷酸(QTNs)的基因型矩阵，用作固定效应；而q_j是相应的SNP效应；m_k是待测第k个标记的基因型矩阵，h_k是相应的效应；e是残差效应向量，

其中

表示残差方差。随机效应模型用于选择最合适的伪QTNs。该模型可以写成如下：

y＝u+e

其中，y是表型值向量；

其中K是伪QTN定义的亲属矩阵，

是未知的遗传方差；e是剩余效应向量。

针对GWAS分析结果，根据以下公式计算各性状每个SNP解释的表型方差比例：

其中，maf：SNP的基因频率；beta：SNP效应值；se：SNP效应值标准误；N：参与GWAS分析的样本数。之后，将其从大到小进行排序，挑选出每个性状中解释表型方差比例排名前1％的SNP，合并去重形成功能SNP集。

2、BayesB估计SNP效应

(1)表型数据采集与质控

本研究群体是来自广西扬翔股份有限公司种猪核心群的杜洛克猪，出生于2013-2021年。收集开福系统上记录的校正115公斤体重日龄、背膘厚、眼肌面积、瘦肉率，总仔数、产活仔数、有效精子数性状的常规育种值(EBV)，进行多次质控(平均值±3×标准差)后，挑选具有EBV和芯片数据杜洛克猪，共4086头。

(2)基因分型与质量控制

组织采样、DNA提取、基因芯片检测、芯片信息质控填充等步骤参照“1、GWAS关联分析”部分。质控后，最终有4086头杜洛克猪以及35510个SNP位点用于后续基因组预测。

(3)BayesB模型估计SNP效应

以EBV值作为基因组预测响应变量，使用BaeysB模型对目标性状进行基因组预测，估计各性状SNP效应值，并通过

(p_i为第i个SNP的最小等位基因频率，

为第i个SNP的效应值的平方,

为性状加性遗传方差)计算每个SNP解释的该性状加性遗传方差的比例。将其从大到小进行排序，选取出每个性状解释加性遗传方差比例排名前1％的SNP，合并去重后形成功能SNP集。

3、遗传缺陷关键SNP筛选

通过查阅文献，汇总与猪生长、肉质和繁殖性状关联的遗传缺陷基因，包含猪应激综合症基因(HAL)、酸肉基因(RN)、大肠杆菌腹泻抗性基因(F4 ab/ac)、雌激素受体基因(ESR)、MC4R、HMGA、CCKAR、CAST、MARC、EPOR、Dystrophin、PRKAG在内的12个基因，通过Ensembl查找基因位置，并与猪GGP 50K芯片进行位置比对，最终筛选出关键SNP。

4、50K芯片位点筛选

基于3837头广西扬翔股份有限公司种猪核心群的杜洛克猪的50K基因芯片，利用Plink软件进行质量控制，标准为：去除SNP检出率<95％、最小等位基因频率<0.01、极端不符合哈代-温伯格平衡检验P值小于10^-6以及检出率<90％的个体。之后计算其等位基因频率，保存最小等位基因频率(MAF)≥0.1的SNP形成功能SNP集。

5、制备方法

根据SNP在各染色体上分布均匀及各染色两端分布较密和多态性好的要求，对SNP位点进行筛选。根据第4步筛选位点的物理位置，保留每条染色体两端各50个位点。并以此为基础，以猪全基因组长度/10K为步长在染色体上滑动划分窗口，按GWAS分析的解释表型方差比例排名前1％的SNP、BayesB预测的解释加性遗传方差比例排名前1％的SNP、50K芯片质控筛选的SNP为顺序，依次挑选窗口内MAF最大且最接近窗口中间的SNP，最后再加入GWAS检测到的显著SNP和遗传缺陷SNP，去重后最终形成含有9,731个SNP的低密度芯片。图1为制备流程图。

实施例二、杜洛克猪全基因组低密度SNP芯片质量的检测

猪全基因组低密度SNP芯片(以下简称为10K芯片)，共包含9731个SNP位点，附表列出了全部SNP的位置信息和上下游序列信息。10K芯片主要依据GGP-Porcine HD第二版(50697SNP geneseek公司开发，以下简称50K)，位点数只有50K的19％，SNP在染色体上的分布见图2，该分布与50K芯片分布趋势一致。

SNP位点相邻之间的间隔也是基因型信息统计不可或缺的一部分，图3表示10K芯片相邻标记间的间隔，相邻标记间的平均距离为267kb。

SNP标记的连锁不平衡程度(LD)是全基因组关联分析和基因组选择准确性的保证，连锁不平衡越低则基因组选择准确性会大幅下降。LD的常用计算方法有D′和r²，其中r²被广泛认为更加稳健，对基因频率和有效群体大小的变化不敏感，并且是描述LD水平更好的参数。采用r²作为LD的衡量指标。假定有两个位点，A和B每个位点分别有两个等位基因A₁、A₂和B₁、B₂。其基因频率分别用PA₁、PA₂、PB₁和PB₂表示。我们用P₁₁、P₁₂、P₂₁和P₂₂指代单倍型A₁B₁、A₁B₂、A₂B₁和A₂B₂的频率。计算这种连锁不平衡的公式为：

图4表示相邻SNP位点间的r²频率分布图，从图中我们可以看出相邻SNP位点间的r²集中在0.2和1之间，平均r²为0.577。

SNP位点的最小等位基因频率(Minor allele frequencey，MAF)是一个基因型数据质量分析的重要指标，MAF是某一SNP位点上两个等位基因频率不高于0.5的那一个等位基因频率。从图5中可看出，本芯片MAF分布呈上升趋势，最小为0，最大为0.5，平均为0.31。

表1是10K与50K芯片上述指标的对比。相比50K芯片，虽然10K芯片SNP间隔变大了6.8倍，但是LD程度基本不变，MAF甚至还有提高。说明10K芯片成本下降，但是使用效果仍然能够保持与50K接近的水平。

表1为10K与50K SNP芯片参数比较

芯片	位点数	r<sup>2</sup>均值	MAF均值	平均间隔
					10K	9731	0.577	0.310	267kb
50K	50697	0.578	0.226	39kb

实施例三、10K芯片准确性验证

本部分实验群体是来自广西扬翔股份有限公司种猪核心群的4086头杜洛克猪。选取其中最年轻的410头杜洛克个体作为验证群体，其同时具有10K和50K芯片信息；剩余3,676头具有50K芯片信息，将其作为填充参考群体。使用Beagle 4.1软件将验证群体由10K填充至50K，根据其填充前后基因型一致性和相关系数评价基因型填充准确性。

将3种基因型A₁A₁、A₁A₂、A₂A₂分别编码为0、1、2，基因型一致性是正确填充的基因型占需要进行填充的基因型的比例；相关系数是填充的基因型和原始基因型之间的相关系数。结果显示：利用本发明的10K芯片填充至50K芯片的一致性为0.964、相关性为0.927，准确性较高，并且大部分验证群体个体间填充基因型一致性相差很小。图6是10K SNP芯片进行基因型填充的基本流程。图7是410头验证个体利用10K SNP芯片填充至50K的填充准确性。

实施例四：利用设计的10K芯片估计基因组育种值准确性，并与50K芯片估计准确性进行比较。

本部分实验群体是来自广西扬翔股份有限公司种猪核心群的5101头杜洛克猪，出生于2013-2021年间。对其中4086头进行50K芯片检测，并对校正115KG日龄、校正115KG背膘厚及产活仔数进行传统育种值EBV的估计。选取其中最年轻的410头杜洛克个体作为验证群体，其同时具有10K和50K芯片信息；剩余3,676头具有50K芯片信息，将其作为填充参考群体。使用Beagle 4.1软件将验证群体由10K填充至50K。之后将EBV作为基因组预测相应向量，使用BayesB模型对目标性状进行基因组育种值的估计，并用EBV与基因组育种值相关作为标准衡量基因组育种值预测的准确性，相关越高说明基因组育种值估计越准确，用EBV对基因组育种值的回归作为标准衡量预测的无偏性，回归越接近于1说明无偏性越好。计算结果如表2所示：

表2 10K和50K基因组育种值(GEBV)估计准确性和无偏性

对比基于50K芯片预测结果，基于10K芯片预测结果只有较小幅度的下降，达115kg体重日龄和达115kg体重背膘厚产活仔数性状基因组预测准确性分别下降了1.5％和0.4％，但无偏性分别提高了5％和0.2％；而产活仔数性状预测准确性和无偏性分别下降1.3％和4.9％。结果显示，基于本发现的10K低密度SNP芯片进行基因组预测，能达到与50K芯片接近的使用效果，表明可利用本发明的10K芯片进行杜洛克猪的早期选育。

本发明设计的10K芯片，共含有9,731个SNP位点，表3列出了全部SNP位点的位置信息和上下游序列，具体如表3所示。

备注：基因序列表中M表示SNP碱基突变位点，对应的突变碱基如表3中所示。