CN117025740A

CN117025740A - 湖羊纯种鉴定方法、鉴定终端及应用

Info

Publication number: CN117025740A
Application number: CN202310790972.4A
Authority: CN
Inventors: 费中华; 郭良勇; 陈金丽; 张云超; 陈曦; 王争光
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2023-06-30
Filing date: 2023-06-30
Publication date: 2023-11-10

Abstract

本申请涉及一种湖羊纯种鉴定方法、鉴定终端及应用，其中方法通过建立多因素线性回归模型，以候选遗传变异集为自变量，准确预测与湖羊群体代表性个体的IBS系数，利用IBS系数评估湖羊个体之间的遗传关系通过矫正后的IBS系数预测湖羊待检群体或待测个体的纯种鉴定分类，提高湖羊种质资源保护的科学性和效率性。

Description

湖羊纯种鉴定方法、鉴定终端及应用

技术领域

本申请涉及品种鉴定技术领域，特别是涉及一种湖羊纯种鉴定方法、鉴定终端及应用。

背景技术

湖羊是我国著名的白色羔皮用绵羊地方品种，具有早熟、两年三胎、每胎多羔、泌乳性能好、生长发育快、适合舍饲等优良性状。近些年，由于市场需求的改变，湖羊产业的重点由羊皮转向羊肉生产。为了适应市场的需求转变，部分湖羊养殖户陆续引进其他肉用品种进行杂交，尽管一定程度上提高了湖羊的肉用性能，却导致了传统养殖区内的纯种湖羊受到外来血统的侵蚀，越来越多的湖羊基因混杂、品种特征衰减、种质退化，纯种湖羊数量骤降，家系混乱、血缘不清，造成优质种质资源流失。

由于高代杂交羊与纯种湖羊仅根据形态特征对其进行鉴定有一定困难，准确性低。为了更好的保护湖羊种质资源，以及更好地提高湖羊种质资源保护的科学性和效率性，建立一种准确、快速、客观的鉴定方法对于湖羊产业具有重要意义。

发明内容

基于此，有必要针对根据形态特征对湖羊纯种进行鉴定的准确性低点的问题，提供一种湖羊纯种鉴定方法、鉴定终端及应用。

本申请提供一种湖羊纯种鉴定方法，所述湖羊纯种鉴定方法包括：

基于预设的候选遗传变异集对待测个体样本或待测群体样本进行基因测序，并获得由候选遗传变异集所关联的染色体的测序数据构成的测序结果；

将所述测序结果输入至一个纯种鉴定模型，运行所述纯种鉴定模型，获取所述纯种鉴定模型输出的鉴定结果；

所述纯种鉴定模型为多因素线性回归模型，所述纯种鉴定模型的自变量为候选遗传变异集，所述纯种鉴定模型的因变量为特定的IBS分数。

进一步地，所述候选遗传变异集如下表所示：

进一步地，所述纯种鉴定模型的建立方法包括：

对所述候选遗传变异集中的候选SNP位点进行SNP分型，排除检测率低于预设检测阈值的候选SNP位点；

对SNP分型后的候选遗传变异集中的候选SNP位点进行主成分分析；

采用IBS分数计算以评估不同个体之间的遗传关系；

以遗传标记作为自变量标记，IBS分数作为因变量建立纯种鉴定模型。

进一步地，在所述采用IBS分数计算以评估不同个体之间的遗传关系之后，所述纯种鉴定模型的建立方法还包括：

通过逐步分析的方法，保留与IBS显著相关的SNP位点作为候选遗传变异集。

进一步地，所述逐步分析后的候选遗传变异集如下表所示：

进一步地，所述纯种鉴定模型的详细信息如下表所示：

标记	系数	标准差	t-val	P值	显著
						常数项	0.761079	0.00138	550.	2.00E-	***
P30659550	0.005152	0.00100	5.12	4.22E-	***
						P15347396	0.010112	0.00207	4.88	1.01E-	***
P37184275	0.005875	0.00145	4.02	0.0001	***
						P22370368	0.003650	0.00098	3.71	0.0004	***
P15346217	-0.007703	0.00217	-3.53	0.0008	***
						P55384071	0.003705	0.00108	3.4	0.0012	**
P19203813	0.002619	0.00089	2.92	0.0051	**
						P64757122	0.003239	0.001109	2.91	0.0051	**
P64630486	-0.004533	0.00158	-2.85	0.0061	**
						P64629274	0.004584	0.00161	2.83	0.0064	**
P50194226	-0.002459	0.00094	-2.6	0.0120	*
						P15347178	-0.004210	0.00181	-2.31	0.0245	*
P74169717	0.002177	0.00101	2.15	0.0357	*
						P90333029	0.001948	0.00095	2.03	0.0470	*
P69523858	0.001963	0.00106	1.84	0.0712	.
						P18235445	0.002188	0.00121	1.80	0.0772	.

进一步地，所述的获取方法包括：

通过高通量测序方法，鉴定出湖羊群体具有特定群体频率的候选遗传变异；

比较湖羊群体与其他群体遗传变异的频率建立评分并进行排序，依据遗传变异在羊群中存在的特征参数构建纯种评估模型，获取所述纯种评估模型输出的初始遗传变异集；

选取初始遗传变异集中变异位点的排序情况、位点引物设计及位点的基因组联锁情况选取的若干变异位点作为候选遗传变异集。

进一步地，所述特征参数包括湖羊群体变异检测率、湖羊群体变异频率、其他羊群内变异频率、位于功能区域特征、LD-SNPs的个数及变异碱基数中的一种或多种。

本申请还提供一种鉴定终端，包括存储器和处理器，所述存储器与所述处理器耦接；其中，所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现如前述内容所述的湖羊纯种鉴定方法。

本申请还提供了如前述内容所述的湖羊纯种鉴定方法在湖羊群体分型和湖羊个体纯种鉴定中的应用。

附图说明

图1为本申请一实施例提供的湖羊纯种鉴定方法的流程示意图。

图2为本申请一实施例提供的湖羊纯种鉴定方法中SNP在基因组的分布图。

图3为本申请一实施例提供的湖羊纯种鉴定方法中InDels在基因组的分布图。

图4为本申请一实施例提供的湖羊纯种鉴定方法中InDels长度的数量分布图。

图5为本申请一实施例提供的湖羊纯种鉴定方法中群体主成分分析结果图(第一主成分和第二主成分)。

图6为本申请一实施例提供的湖羊纯种鉴定方法中群体主成分分析结果图(第一主成分和第三主成分)。

图7为本申请一实施例提供的湖羊纯种鉴定方法中80个样本的系统进化树示意图。

图8为本申请一实施例提供的湖羊纯种鉴定方法中四个羊群体的群体结构示意图。

图9为本申请一实施例提供的湖羊纯种鉴定方法中FST结果在染色体分布图。

图10为本申请一实施例提供的湖羊纯种鉴定方法中湖羊受选择区域相关功能通路图。

图11为本申请一实施例提供的湖羊纯种鉴定方法中SNP分型检测的流程示意图。

图12为本申请一实施例提供的湖羊纯种鉴定方法中30个SNP的测序个体的主成分分析结果图。

图13为本申请一实施例提供的湖羊纯种鉴定方法中30个SNP的群体主成分分析结果图。

图14为本申请一实施例提供的湖羊纯种鉴定方法中IBS的Zscore转化系数示意图。

图15为本申请一实施例提供的湖羊纯种鉴定方法中纯种鉴定模型结果评估的QQplot图。

图16为本申请一实施例提供的湖羊纯种鉴定方法中IBS系数与预测的IBS系数的相关性示意图。

图17为本申请一实施例提供的湖羊纯种鉴定方法中待检群体的IBS的Zscore转化系数示意图。

图18为本申请一实施例提供的湖羊纯种鉴定方法中30个SNP的群体依据不同分类的主成分分析结果图。

图19为本申请一实施例提供的湖羊纯种鉴定方法中第一主成分分析在三种不同分类的直方图分布图。

具体实施方式

下面结合具体实施方式对本发明进行进一步的详细描述，给出的实施例仅为了阐明本发明，而不是为了限制本发明的范围。下述实施例中的实验方法，如无特殊说明，均为常规方法。下述实施例中所用的材料、试剂等，如无特殊说明，均可从商业途径得到。

下述实施例中的湖羊、杜泊羊、尾寒羊及杜湖杂交羊均由湖州怡辉生态农业有限公司、湖州南太湖绿州农业科技发展有限公司、湖州农科中心湖羊实验场、长兴永盛牧业有限公司和湖州练市年丰湖羊生态养殖场提供。

单核苷酸多态性(SNP)与插入缺失突变(INDEL)是基因组中最为常见、分布最为广泛的两种基因组遗传变异。其中，单核苷酸多态性是由碱基的转换或颠换所引起的，仅仅只涉及到单个碱基的变异。而INDEL的产生主要与其所处序列环境以及复制错误有关，其变异长度是可变的，并且发生的比例在不同物种中表现有所不同通常与基因组的大小有关。

利用全基因组测序鉴定SNP与INDEL是目前最为准确且可以达到全基因组水平的检测方法。通过利用高密度的SNP与INDEL群体基因分型信息，可以帮助人们获取个体之间的遗传信息相似性、群体的遗传结构、特殊群体所受的选择信号以及全基因组关联分析等。

实施例1，湖羊特异性分子标记鉴定

S11，样品采集及基因组DNA提取。

本申请研究分别选择长兴永盛牧业有限公司、湖州南太湖绿州农业科技发展有限公司的湖羊群体50只；选择10只杜泊羊、10只小尾寒羊、10只杜湖杂交羊为对照，总计80个样本。详细的分组如表1所示。

湖羊个体以HY开头编号，杜泊羊个体以DB开头编号，小尾寒羊个体以XW开头编号，杜湖杂交羊以DH为开头编号。鉴于农业农村部冻精和冻胚得到的部分1988年来源湖羊有基角，选择了部分有角湖羊个体。采集湖羊颈部静脉血，收集于2mL一次性真空采血管(含抗凝剂)带回实验室，-20℃保存备用。使用QIAGEN Blood Genome DNA Extraction Kit提取DNA。

表1为80个用于高通量重测序的个体样品信息表

S12，重测序建库和测序。

重测序建库主要包括基因组总DNA提取、重测序文库制备和上机高通量测序三部分内容。基因组总DNA提取是指对于各种不同群体的基因组样本进行DNA提取，并通过0.8％琼脂糖凝胶电泳检测DNA提取质量评估，同时采用紫外分光光度计对DNA进行定量。检测合格的DNA进一步通过末端修复、加A尾、加测序接头、纯化、PCR扩增等步骤完成整个文库制备。构建好的文库利用Agilent Bioanalyzer上进行质检确保合格的文库构建，合格的文库具有单一的峰、无接头二聚体，且浓度应在2nM以上。文库构建完成后，使用Qubit2.0进行初步定量，使用qPCR的方法对文库的有效浓度进行准确定量以保证文库质量。文库质量检测合格后，通过Illumina Hiseq进行PE的2×150bp测序。

S13，测序质量评估及过滤。

将获取的原始测序序列(rawreads)进一步进行质控和过滤。去除原始序列中所含有的污染物和接头序列(adapter)，去除低质量碱基比例较高的reads(10％),去除N的比例大于10％的reads。当单端测序reads中含有的低于5的碱基数超过该条read长度比例的20％的reads进行过滤去除。此外，过率后的reads进一步进行read数量，数据产量，测序错误率，Q20含量，Q30含量，GC含量等数据进行统计。

具体而言，对总计来自四个群体的80个羊个体进行高通量测序。如表2所示，总计产生305亿条原始测序序列(raw reads)，平均每个个体3.8亿条原始测序序列约为57.2G碱基数。由于测序得到的原始测序序列里面含有带接头的、低质量的reads需要进一步进行质量过滤。这些低质量的reads通常是由于测序过程中化学试剂的消耗导致。

测序序列中碱基位置越靠后的测序错误率升高，另外，PCR过程中随机引物和DNA模版的不完全结合也可能导致前几个碱基测序错误率较高。经过过滤后总计得到高质量数据298亿条质控后序列，平均每个个体3.73亿条原始测序序列约为56G碱基数，可满足～20X标准，完全满足高质量品种鉴定的研究需求。

表2为80只羊个体测序结果表

S141，参考基因组比对。

对于每个样本个体，将所有质控过滤后的reads数据利用BWA软件通过默认的参数比对到羊的参考基因组上(GCA_016772045.1)分别利用Picard、GATK和SAMtools进行比对后序列的重复标记、基本质量的重新校准、重复数据的剔除和比对统计(即深度覆盖)。所有所得到的比对文件(bam)用于后续分析流程，包括SNP和Indels检测。

具体的，使用软件BWA(mem为选取的比对方式)将进行质控后的clean reads与参考基因组序列进行比对，通过比对可以定位clean reads在参考基因组上的位置。其中样本比对率可以反映样本测序数据与参考基因组的相似性，同样可以说明样本未受到污染的reads数符合标准。如表2，本申请总计可比对到参考基因组的reads为302亿条，约为45.3G碱基数，其中比对率可高达99.76％，具有较高的比对质量可确保后续分析的可靠性。

S142，遗传变异检测(SNPs、Indels)。

利用GATK软件流程，包括HaplotypeCaller、GenotypeGVCFs和CombineGVCFs模块，对80个个体进行遗传变异检测、基因分型和群体合并，最终获取所检测变异的基因型文件(VCF)。进一步利用Variant Filtration模块进行遗传变异硬过滤其中质控标准如下：QD<2.0，QUAL<30.0，SOR>3.0，FS>60.0，MQ<40.0，MQRankSum<-12.5，ReadPosRankSum<-8.0。同时对于测序深度大于8、覆盖率大于30％且突变碱基的最小等位基因频率大于0.05遗传变异进行保留。此外，所测得的InDels的5bp以内的SNP进行剔除。

S143，遗传变异注释。

通过使用ANNOVA软件对所检测的变异进行基于基因或基于区域的注释，由NCBI下载基因组gff注释文件(GCA_016772045.1)。对于相应的变异进行注释：

SNP可以分为8类，包括外显子区域(同义、非同义、stopgai和stoploss)、剪接位点、内含子区域、5'和3'UTRs、上下游区域和基因间区域。

InDels进一步分类为stoploss、stopgain和移码突变(3个bp插入或缺失)。

进一步对遗传变异进行基因组水平注释，如表3，结果表明遗传变异在基因间和内含子区域占有较高的比例，SNP分别占61.8％和35.4％在基因间和内含子区域，InDels分别占60.2％和37％在基因间和内含子区域。其中在外显子区域内存在172832和4750个SNP和InDels，这些外显子区域的遗传变异具有较高的稀有性通常具有潜在重要的生物学意义。如表4所示进一步区分外显子内的SNP，包含具有重要意义的66639个非同义突变和859个提前终止(stopgain)以及150个延迟终止(stoploss)的突变。InDels包括73个提前终止(stopgain)以及7个延迟终止的突变(stoploss)。不同于SNP，如表5所示，InDels还包括四种变异类型，1677个移码缺失导致蛋白编码基因的读框改变，长度为3的非整数倍(frameshift deletion)；1073个移码插入导致蛋白编码基因的读框改变，长度为3的非整数倍(frameshift insertion)；902个非移码缺失，不改变蛋白编码基因的读框，长度为3的整数倍(nonframeshift deletion)；556个非移码插入，不改变蛋白编码基因的读框，长度为3的整数倍(nonframeshift insertion)。

表3为遗传变异的功能区域分布表

功能区域	SNP	InDels
			downstream	162149	19821
exonic	172832	4750
			intergenic	16476043	1646595
intronic	9438688	1013270
			splicing	526	304
upstream	151544	18589
			upstream；downstrea	4648	617
UTR3	162946	22306
			UTR5	75797	8494
Others	8063	771

表4为SNP在外显子的功能区域分布表

SNPs	数量
		Synonymous SNV	97516
Nonsynonymous SNV	66639
		Stopgain SNV	859
Stoploss SNV	150
		unknown	7668

表5为InDels在外显子的功能区域分布表

Indels	数量
		Frameshift deletion	1677
Frameshift insertion	1073
		Nonframeshift deletion	902
Nonframeshift insertion	556
		Stopgain InDels	73
Stoploss InDels	7
		unknown	462

S151，遗传多样性评估。

利用SNP和InDels变异信息，通过检测所在不同群体的频率分布，用于评估群体多样性特征。Plink软件用于计算不同变异位点的群体频率。同时结合上述已基因注释的结果，比较不同SNP和InDels注释的群体频率特征，鉴定遗传变异的基因组特征分布的偏好性。对于InDels信息，进一步统计长度分布，并比较不同长度分布InDels所在群体分布频率。

本申请采用GATK软件来进行SNP和InDels检测，分别获取26653236个SNPs和2735517个InDels。如图2和图3，所检测的SNP和InDels在基因组中均匀分布并且在不同染色体的分布与染色体长度有关。除了染色体上检测的遗传变异，仍存在一部分遗传变异在未拼接的基因组中。如图4，通过比较InDels的插入和缺失的片段的长度分布，可以明显发现插入和缺失的片段长度与其数量呈负相关的关系，尤其在InDels在1-3bp的长度存在极高检测数量。

进一步比较不同羊品种的遗传变异，如表6，平均每个群体可检测23972025个SNPs和2441291个InDels，其中湖羊具有最多的遗传变异26262209个SNPs和2693430个InDels，基于上述SNPs和InDels，构建了湖州湖羊分子遗传信息库。杜泊羊具有最少的遗传变异22626849个SNPs和2296833个InDels。结果表明四个群体与参考基因组相比存在大量的遗传突变，并且大部分的群体间存在共享的(shared)遗传变异。

表6为四个羊群体遗传变异数量表

品种	简称	SNPs	InDels
				杜泊羊	DB	22626849	2296833
杜湖杂交	DH	24317863	2473933
				湖羊	HY	26262209	2693430
小尾寒羊	XW	22681182	2300969

S152，群体结构分析。

群体结构分析主要包括群体主成分分析、系统进化树重构和群体遗传结构分析三大部分。

1)群体主成分分析(Principal Component Analysis，PCA)，是一种分析、简化数据集的统计方法。PCA分析经常用于减少数据集的维数，同时保持数据集中的对方差贡献最大的特征。在群体研究中，通常利用个体基因组SNP的差异，将不同个体按照主成分聚类成不同的亚群。将待分群的多个个体的SNP数据组成矩阵，提取该矩阵向量的特征向量(主成分，通常为3个)，并用其中两个特征向量绘制散点图。根据散点图的分布情况，推知待分群个体的亚群划分。该方法通常和群体遗传结构分析方法、基于SNP的系统进化分析等方法相互印证。该过程通过GCTA软件利用SNP数据(去除MAF小于0.05的SNPs)进行主成分分析。

PCA的分析结果见下图5和图6，第一主成分(PC1)占比24.06％，明显地区分杜泊羊与其他群体。第二主成分(PC2)占比14.57％，明显的区分小尾寒羊与其他群体。

2)基于SNP的系统进化树重构系统进化树是用来表示群体内物种间亲缘关系远近的树状结构图。在树中，每个节点代表其各分支的最近共同祖先，而节点间的线段长度对应演化距离(如估计的演化时间)。根据不同物种间的亲缘关系远近，将各个物种分别放置在有分枝的树状图上。进化树上每个叶子结点代表其中一个物种，两个叶子结点之间的距离长短表示相应的两个物种之间的分化程度。在群体进化中，进化树结果用来展示该物种不同品种之间的进化关系，衡量其亲缘关系远近，对于同一亚群中的不同样品，在图上应该能很好的合成一个分支。当所有样品按PCA中所列的主要差异进行分群时，进化树结果跟PCA保持一致，起到一定的相互验证作用。

本申请利用Phylip软件构建系统发育树。建树完成后，对系统发育树分支的可靠性进行验证(Bootstrap，100replications)。结果如图7所示，结果很好的反应羊群体之间的遗传关系，杜泊羊与小尾寒羊具有独立的进化分支。湖羊群体中存现两个相对独立的群体，可能是由于采样群体不同导致。

3)群体遗传结构是指遗传变异在物种或群体中的分布。群体的遗传结构受到多个因素的影响，包括突变、选择、迁移、群体大小、环境条件等等。群体的遗传结构分析有助于理解物种的进化过程。采用Admixture软件利用SNP信息分析群体的遗传结构，设置K＝2～10(即假设存在2～10个祖先群体)模型选择为混合模型，其余参数采用软件的默认设置。根据不同K的CV error值，确定接近真实值的K。

如图8所示，当K＝2时杜泊羊与湖羊和小尾寒羊有明显的聚类现象；当K＝3时可以发现杜湖杂交的羊相比湖羊群体与杜泊羊具有更高遗传关系。当K＝4时，湖羊群体存在的内群现象也很好的展现出来。

S153，湖羊选择信号分析。

湖羊选择信号主要基于湖羊群体的分化指数Fst计算评估。遗传与变异是生物界中不断地普遍发生的现象，也是物种形成和生物进化的基础。Fst代表一个种群内亚群间的遗传分化程度，Fst值一般在0～1之间。Fst值越小，代表亚群间的遗传分化越小，当该值为0时，代表两个亚群内的所有个体相互之间能够自由交配，遗传分化程度最低；Fst值越大，代表亚群间的遗传分化越大，当该值为1时，代表两个亚群间不共用任何遗传多样性。本申请研究利用vcftools进行全基因组范围内fst检测，其中窗口(windows)设定为50kb，滑动窗口为20kb。最终选取top5％作为湖羊候选区域。

为了了解湖羊群体相对其他群是否存在独特受选择区域，本申请进一步利用Fst选择信号方法进行湖羊特异区域进行检测。Fst可以代表一个种群内亚群间的遗传分化程度，Fst值一般在0～1之间。Fst值越小，代表亚群间的遗传分化越小，当该值为0时，代表两个亚群内的所有个体相互之间能够自由交配，遗传分化程度最低；Fst值越大，代表亚群间的遗传分化越大，当该值为1时，代表两个亚群间不共用任何遗传多样性。

本申请选取湖羊和杜泊羊加小尾寒羊两个群体分别计算群体内两两亚群间的遗传分化程度，结果如图9所示。通过选取受选择区域的top1％基因作为湖羊候选基因，总计996个编码基因。如图10所示，进一步利用KOBAS3对这些基因进行KEGG功能注释，可以发现将近7类(C1-C7)的功能注释集与湖羊特异性受选择区域有关，说明湖羊存在一些特异性选择的功能特征。

S16，构建湖羊纯种评估模型

湖羊纯种评估主要的目的是选取具有代表性的遗传变异(SNP和InDels)用于判别候选羊群中湖羊纯种或杂种个体。如表7所示，我们选取6个指标用于评估遗传变异的作为模型评估的依据。如表8所示，其中功能区域特征根据变异对功能基因组的影响程度进行分类。

表7为湖羊纯种评估模型的评估参数表

评估参数	ID(简称)	参数范围
			湖羊群体变异检测率	Coverage(C)	0～1
湖羊群体变异频率	Frequency Hu(FH)	0～1
			其他羊群内变异频率	Frequency Other(FO)	0～1
位于功能区域特征	Functional regions(Func)	1～5类
			LD-SNPs的个数	LD-SNPs(LDS)	N
变异碱基数	Base numbers(BN)	1-50

表8为功能区域特征分类表

本申请的主要目的是构建纯种评估模型来评估杂种和纯种湖羊的特异性特征。总计5个指标应用在本模型中通过不同角度确定候选遗传变异。其中遗传变异在湖羊的和其他纯种群体的基因频率作为主要指标，湖羊群体的变异频率越高、其他群体变异频率越低，对于湖羊的纯种特征越具有代表性。此外该变异在湖羊群体的检测率也作为其中一个重要指标，用于表明该遗传变异的可靠性，通常检测率大于90％完全满足候选特征。基于以上指标可以对于特定的遗传变异计算其评估分数。即评估分数＝湖羊频率×其他羊群频率×检测率。通过评估分数排序结果如表9。

除此之外，候选变异具有的连锁遗传变异个数以及其所在的功能区域分布也是该纯种评估模型需要考虑的主要条件。其中LD连锁变异越多，代表候选遗传变异具有较高的连锁特征所具有的遗传信息具有片段连锁性，具有较高的染色体区域代表性。候选变异所在基因组稀有度越高的区域(功能重要性较高的区域)具有更高保守性，更适合作为评估纯种特性的候选遗传变异。通过结果发现，ANO10和PDLIM5基因较为适合作为评估湖羊群体的遗传标记候选集。PDLIM5基因在肌肉和脂肪组织中高度表达，目前已经被发现与肌肉发育有关。

此外，通过只选取具有重要功能意义的外显子区域的遗传变异可以发现。如表10，WNK4基因将近6个外显子内的遗传变异存在较高的评估分数，并且这些遗传变异在湖羊群体接近固定的特征，同时这些遗传变异彼此存在较高的连锁性，可作为湖羊主要的特异性基因。

表9为用于湖羊纯种鉴定的候选遗传变异表

表10为用于湖羊纯种鉴定的外显子候选遗传变异表

综上，本申请结果发现，湖羊群体中存在大量遗传多样性信息，包括26262209个SNPs和2693430个InDels，构建了湖州湖羊遗传信息库。这些遗传变异的发现是探究湖羊所具有的早熟、四季发情、两年三胎、每胎多羔、泌乳性能好、生长发育快、等优良性状研究的基础。

本申请湖羊总计50只，通过遗传结构分析可分为两个主要群体，存在一定品种内的群体分离现象，主要原因是由于湖羊群体遗传背景可能来源于独立饲养群体。通过比较湖羊和杜泊羊的杂交羊在群体遗传分析结果表明杂交羊可以通过基因组信息进行区分，并且分离效果显著。

为了探究湖羊群体所具有的独特的遗传特征，本申请利用群体遗传结构分析以及选择信号分析发现，湖羊群体相对其他群体具有独立的遗传分支，并且可以体现在染色体的特定的区域内。通过Fst选择信号窗口滑动结果，总共996个编码基因被发现与湖羊群体特异性选择区域有关，并且这些基因与7个主要的KEGG通路相关，可以作为解析湖羊所具有特性表型性状的候选功能通路。

本申请通过高通量测序的方法鉴定出湖羊群体具有特定群体频率的候选遗传变异，这些变异基础将作为鉴定湖羊纯种方案设定的基础。通过比较湖羊与其他群体遗传变异的频率建立评分并进行排序，依据遗传变异在羊群中存在的5种重要特征构建纯种评估模型，并依据模型结果提供候选遗传变异集。

实施例2，湖羊纯种鉴定

S21，候选位点选取。

本申请研究所用位点的选取基于前期高通量测序的方法鉴定出湖羊群体具有特定群体频率的候选遗传变异。通过比较湖羊与其他群体遗传变异的频率建立评分并进行排序，依据遗传变异在羊群中存在的5种重要特征构建纯种评估模型，并依据纯种评估模型的结果提供候选遗传变异集。最终候选变异集的top100位点作为候选位点，同时根据位点引物设计以及位点的基因组的连锁情况最终保留32个候选位点用于大群体分型和湖羊纯种鉴定。

S22，样品采集及基因组DNA提取

本申请研究分别从湖州市六个湖羊保种场：湖州怡辉生态农业有限公司(群体Y)、湖州南太湖绿州农业科技发展有限公司(群体L)、湖州农科中心湖羊实验场(群体H)、长兴永盛牧业有限公司(群体S)、湖州练市年丰湖羊生态养殖场(群体N)、湖州咩咩羊牧业有限公司(群体M)采集保种群体所有家系的公羊血样，采取杜泊羊(群体D)、杜湖杂交羊(群体DH)对照组血液，总计1902份。采集湖羊颈部静脉血，收集于2mL一次性真空采血管(含抗凝剂)带回实验室，-20℃保存备用。使用QIAGEN Blood Genome DNA Extraction Kit提取DNA。纯度检测后，合格DNA样品共1898个，进行下一步分析。另外几个湖羊血液因怀孕母羊抽血量太低，提取DNA纯度和数量不足。

S23，SNP分型实验流程。

32个候选SNP位点分型采用Sequenom SNP分型检测方法，具体实验流程如图11所示，

具体而言，本申请总计1898个样本用于SNP分型，其中32个SNP的位点信息及检测结果如表11所示。

表11为32个SNP的位点信息及检测结果表

其中，SNP位点P53217765和P30614515检测率低于95％可排除，不用于模型评估，剩余的30个SNP位点总检测率达到99.64％符合标准可确保后续模型计算的准确性。

S24，群体遗传距离分析。

本申请的群体遗传距离分析主要通过群体主成分分析(PCA)进行评估。PCA分析经常用于减少数据集的维数，同时保持数据集中的对方差贡献最大的特征。在群体研究中，通常利用个体基因组SNP的差异，将不同个体按照主成分聚类成不同的亚群。将待分群的多个个体的SNP数据组成矩阵，提取该矩阵向量的特征向量，并用其中两个特征向量绘制散点图。根据散点图的分布情况，推知待分群个体的亚群划分。该方法通常和群体遗传结构分析方法、基于SNP的系统进化分析等方法相互印证，该过程通过plink软件利用分型的SNP数据进行主成分分析。

如图5所示，通过全基因组SNP的PCA分析结果如下，湖羊与其他羊群体可以很好的分离，杜胡杂交羊介于湖羊与杜泊羊之间，很好的反应了羊群个体的遗传关系。

本申请基于挑选的30候选遗传标记再次对重测序个体进行PCA分析发现，如图12所示，候选标记建立遗传关系的可以重复全基因组的遗传关系，并且第一主成分占比可以达到64％，可以很好的将湖羊与其他品种分析，并且杜胡杂交羊可以介于湖羊与杜泊羊之间。结果表明，30个点的遗传信息可以用于区分湖羊的遗传特征，可以用于下游的湖羊纯种鉴定模型构建。

进一步将待纯种鉴定的湖羊群体结合重测序信息基于30候选遗传标记进行群体遗传分析。结果如图13所示，大部分待检湖羊个体通过第一主成分可以很好地与重测序湖羊聚类在一起，部分待检湖羊个体出现遗传分离的特征，表明候选标记可以做优秀的标记位点用于待检湖羊个体的分离。

S25，IBS分数计算。

IBS：状态同源(identical by state，IBS)，在个体之间分享着相同遗传突变，这些突变是在遗传进程中累积起来的，两者不一定有共同祖先。本申请IBS分数计算用于评估不同个体之间的遗传关系远近。IBS越大代表两个个体遗传关系越近，用于评估湖羊个体之间的亲缘状态。IBS的计算通过plink软件利用分型的SNP数据来完成。

本申请将利用IBS系数评估湖羊个体之间的遗传关系，首先，建立湖羊群体代表性的模拟个体的遗传标记信息。对于每个遗传标记，湖羊代表性个体的标记信息选取湖羊测序群体(50个个体)中具有最高等位基因频率的等位基因型，确保湖羊代表性模拟个体的遗传信息具有湖羊群体特征，进而降低个体的遗传偏差。重测序个体相对于湖羊代表性模拟个体的IBS系数以及Zscore转化计算结果如下表12所示。且如图14所示，通过展示IBS转化Zscore可知Zscore转化后的IBS系数可以很好的区分湖羊与其他品种。当Zscore>0时可以认为是湖羊纯种的评判标准。

表12为重测序个体相对于湖羊代表性模拟个体的IBS系数以及Zscore转化计算结果表

S26，湖羊纯种评估模型构建及湖羊群体纯种评估。

湖羊纯种评估模型构建采用多因素线性回归模型，其中自变量为30个不同基因型的SNP、因变量为特定的IBS分数。同时通过逐步法确定自变量方差及个数，同时优化模型及模型评估，建立最终及纯种评估模型。最终通过建立的模型对候选湖羊群体纯种群体进行纯种鉴定。模型的建立、评估可视化均基于R语言完成。

进一步的，通过逐步分析的方法，最终保留16个与IBS显著相关的遗传标记，模型的AIC值为-773.8，表明模型评估具有较高的准确性。模型详细信息如表13所示。

表13为纯种鉴定模型的模型详细信息表

进一步评估该模型的准确性，如图15和图16所示，QQplot结果很好的反应了样本值和预测值两个数据集结果相近；预测IBS与实际IBS相关性(r2)可以达到0.9846267，表明模型的鉴定准确性良好，可以进一步用于湖羊大群体的IBS预测。

如图17所示，基于上述模型针对湖羊群体进行IBS系数预测，预测结果进一步进行Zscore参数转化，转化系数的计算基于重测序样本均值和标准差值。其中219只湖羊样本的Zscore小于0可以作为严重杂合的湖羊个体，280只湖羊的Zscore小于0.3并且大于0作为低杂合度的湖羊个体，1399只湖羊的Zscore大于0.3可以分类为湖羊纯合品种。

基于上述分类结果进一步比较湖羊群体的遗传关系。结果如图18和图19所示，上述分类结果很好的满足PCA主成分分析内容，群体偏离点很好的被分类为严重杂合的类别。三种类别的湖羊个体在PC1主成分很好的展现差异。

综上所述，本申请通过建立多因素线性回归模型，利用16个显著的标记位点成功的预测了与湖羊群体代表性个体的IBS系数。通过矫正后的系数成功的预测了湖羊待检群体的纯种鉴定分类，其中73.7％的待检个体可以分类为纯种湖羊群体，14.7％的待检个体是湖羊低杂合的群体，11.53％的待检个体为高杂合度湖羊群体可以选择性的剔除。针对具有相同分类的群体，可以依据IBS系数的高低和留种的数量的选择性剔除个体。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种湖羊纯种鉴定方法，其特征在于，所述湖羊纯种鉴定方法包括：

2.根据权利要求1所述的湖羊纯种鉴定方法，其特征在于，所述候选遗传变异集如下表所示：

。

3.根据权利要求1所述的湖羊纯种鉴定方法，其特征在于，所述纯种鉴定模型的建立方法包括：

采用IBS分数计算以评估不同个体之间的遗传关系；

4.根据权利要求1所述的湖羊纯种鉴定方法，其特征在于，在所述采用IBS分数计算以评估不同个体之间的遗传关系之后，所述纯种鉴定模型的建立方法还包括：

5.根据权利要求4所述的湖羊纯种鉴定方法，其特征在于，所述逐步分析后的候选遗传变异集如下表所示：

。

6.根据权利要求1所述的湖羊纯种鉴定方法，其特征在于，所述纯种鉴定模型的详细信息如下表所示：

标记系数标准差 t-value P值显著性常数项 0.7610799 0.0013815 550.91 2.00E-16 *** P30659550 0.0051527 0.0010047 5.128 4.22E-06 *** P15347396 0.010112 0.0020722 4.88 1.01E-05 *** P37184275 0.0058754 0.001459 4.027 0.000181 *** P223703680 0.0036507 0.0009834 3.712 0.000494 *** P15346217 -0.0077036 0.0021783 -3.537 0.000851 *** P55384071 0.0037053 0.0010899 3.4 0.001288 ** P19203813 0.0026199 0.000897 2.921 0.005117 ** P64757122 0.0032391 0.0011099 2.918 0.005154 ** P64630486 -0.0045336 0.0015899 -2.851 0.006189 ** P64629274 0.0045842 0.0016171 2.835 0.006476 ** P50194226 -0.0024593 0.0009457 -2.6 0.012037 * P15347178 -0.0042102 0.0018193 -2.314 0.024563 * P74169717 0.0021771 0.0010105 2.154 0.035776 * P90333029 0.0019484 0.0009584 2.033 0.047074 * P69523858 0.0019639 0.0010669 1.841 0.071247 . P18235445 0.0021882 0.0012144 1.802 0.077251 .

。

7.根据权利要求1所述的湖羊纯种鉴定方法，其特征在于，所述的获取方法包括：

8.根据权利要求1所述的湖羊纯种鉴定方法，其特征在于，所述特征参数包括湖羊群体变异检测率、湖羊群体变异频率、其他羊群内变异频率、位于功能区域特征、LD-SNPs的个数及变异碱基数中的一种或多种。

9.一种鉴定终端，其特征在于，包括存储器和处理器，所述存储器与所述处理器耦接；其中，所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现如权利要求1至8中任一项所述的湖羊纯种鉴定方法。

10.如权利要求1至8任一项中所述的湖羊纯种鉴定方法在湖羊群体分型和湖羊个体纯种鉴定中的应用。