CN117487930A - 一种采用snp分子标记的湖羊纯种评估方法 - Google Patents
一种采用snp分子标记的湖羊纯种评估方法 Download PDFInfo
- Publication number
- CN117487930A CN117487930A CN202311471549.4A CN202311471549A CN117487930A CN 117487930 A CN117487930 A CN 117487930A CN 202311471549 A CN202311471549 A CN 202311471549A CN 117487930 A CN117487930 A CN 117487930A
- Authority
- CN
- China
- Prior art keywords
- sheep
- genetic
- ibs
- variation
- population
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 241001494479 Pecora Species 0.000 title claims abstract description 158
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000002068 genetic effect Effects 0.000 claims abstract description 64
- 239000003550 marker Substances 0.000 claims abstract description 23
- 238000012417 linear regression Methods 0.000 claims abstract description 6
- 230000007614 genetic variation Effects 0.000 claims description 31
- 244000144992 flock Species 0.000 claims description 28
- 238000001514 detection method Methods 0.000 claims description 23
- 238000011156 evaluation Methods 0.000 claims description 23
- 238000013210 evaluation model Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 108090000623 proteins and genes Proteins 0.000 claims description 5
- 101000988394 Homo sapiens PDZ and LIM domain protein 5 Proteins 0.000 claims description 4
- 238000012165 high-throughput sequencing Methods 0.000 claims description 4
- 238000013461 design Methods 0.000 claims description 3
- 238000004088 simulation Methods 0.000 claims description 3
- 101100216146 Homo sapiens ANO10 gene Proteins 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 241000283707 Capra Species 0.000 claims 3
- 238000012163 sequencing technique Methods 0.000 description 14
- 239000008280 blood Substances 0.000 description 12
- 210000004369 blood Anatomy 0.000 description 12
- 238000004458 analytical method Methods 0.000 description 10
- 108020004414 DNA Proteins 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 7
- 230000004069 differentiation Effects 0.000 description 6
- 238000009826 distribution Methods 0.000 description 6
- 230000035772 mutation Effects 0.000 description 6
- 241000894007 species Species 0.000 description 6
- 238000007400 DNA extraction Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 5
- 238000009395 breeding Methods 0.000 description 4
- 230000001488 breeding effect Effects 0.000 description 4
- 238000004321 preservation Methods 0.000 description 4
- 238000000513 principal component analysis Methods 0.000 description 4
- 108700028369 Alleles Proteins 0.000 description 3
- 238000007792 addition Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 102100022989 Anoctamin-10 Human genes 0.000 description 2
- 101000757257 Homo sapiens Anoctamin-10 Proteins 0.000 description 2
- 238000012408 PCR amplification Methods 0.000 description 2
- 239000003146 anticoagulant agent Substances 0.000 description 2
- 229940127219 anticoagulant drug Drugs 0.000 description 2
- 238000003766 bioinformatics method Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000003205 genotyping method Methods 0.000 description 2
- 210000001161 mammalian embryo Anatomy 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 235000013372 meat Nutrition 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000002773 nucleotide Substances 0.000 description 2
- 125000003729 nucleotide group Chemical group 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 108020005345 3' Untranslated Regions Proteins 0.000 description 1
- 101100136092 Drosophila melanogaster peng gene Proteins 0.000 description 1
- 108091026898 Leader sequence (mRNA) Proteins 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 241000283903 Ovis aries Species 0.000 description 1
- 102100029181 PDZ and LIM domain protein 5 Human genes 0.000 description 1
- 238000011529 RT qPCR Methods 0.000 description 1
- 238000000246 agarose gel electrophoresis Methods 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000009411 base construction Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000000356 contaminant Substances 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000012173 estrus Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 231100000221 frame shift mutation induction Toxicity 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 238000009396 hybridization Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000006651 lactation Effects 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 239000003147 molecular marker Substances 0.000 description 1
- 230000036438 mutation frequency Effects 0.000 description 1
- 102000054765 polymorphisms of proteins Human genes 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 210000000582 semen Anatomy 0.000 description 1
- 238000011895 specific detection Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000003696 structure analysis method Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- 238000012070 whole genome sequencing analysis Methods 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6888—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6844—Nucleic acid amplification reactions
- C12Q1/6858—Allele-specific amplification
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/156—Polymorphic or mutational markers
Landscapes
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Organic Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Microbiology (AREA)
- Immunology (AREA)
- Molecular Biology (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Physics & Mathematics (AREA)
- Biochemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Genetics & Genomics (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种采用SNP分子标记的湖羊纯种评估方法,通过建立多因素线性回归模型,从30个遗传标记位点中选择16个显著的标记位点成功的预测了与湖羊群体代表性个体的IBS系数。通过矫正后的系数成功的预测了湖羊待检群体的纯种鉴定分类,其中73.7%的待检个体可以分类为纯种湖羊群体,14.7%的待检个体是湖羊低杂合的群体,11.53%的待检个体为高杂合度湖羊群体可以选择性的剔除。针对具有相同分类的群体,可以依据IBS系数的高低和留种的数量的选择性剔除个体。
Description
技术领域
本发明属于畜牧学、分子生物学领域技术领域,涉及湖羊纯种评估方法,尤其涉及一种采用SNP分子标记的湖羊纯种评估方法。
背景技术
湖羊是我国著名的白色羔皮用绵羊地方品种,具有早熟、四季发情、两年三胎、每胎多羔、泌乳性能好、生长发育快、适合舍饲等优良性状。近些年,由于市场需求的改变,湖羊产业的重点由羊皮转向羊肉生产。
为了适应市场的需求转变,部分湖羊养殖户陆续引进其他肉用品种进行杂交,尽管一定程度上提高了湖羊的肉用性能,却导致了传统养殖区内的纯种湖羊受到外来血统的侵蚀,越来越多的湖羊基因混杂、品种特征衰减、种质退化,纯种湖羊数量骤降,家系混乱、血缘不清,造成优质种质资源流失。
为了保护湖羊品种资源,迫切需要对上述湖羊核心保种场的保种效果进行监测,为湖羊遗传资源的开发利用提供基础。
单核苷酸多态性(SNP)与INDEL是基因组中最为常见、分布最为广泛的两种基因组遗传变异。其中,单核苷酸多态性是由碱基的转换或颠换所引起的,仅仅只涉及到单个碱基的变异。而INDEL的产生主要与其所处序列环境以及复制错误有关,其变异长度是可变的,并且发生的比例在不同物种中表现有所不同通常与基因组的大小有关。利用全基因组测序鉴定SNP与INDEL是目前最为准确且可以达到全基因组水平的检测方法。通过利用高密度的SNP与INDEL群体基因分型信息,可以帮助人们获取个体之间的遗传信息相似性、群体的遗传结构、特殊群体所受的选择信号以及全基因组关联分析等。
发明内容
为了解决上述问题,本发明提供了一种采用SNP分子标记的湖羊纯种评估方法,本发明利用群体水平的高通量数据对湖羊、小尾寒羊、杜泊羊以及杜湖杂交群体进行全基因组范围内的遗传变异检测,通过生物信息学方法鉴定湖羊的特属遗传特征,构建鉴定湖羊纯种评估方法,为湖羊品种资源保护、开发和利用提供科学依据。
为了实现上述目的,本发明采用以下技术方案:
本发明提供了一种采用SNP分子标记的湖羊纯种评估方法,包括以下步骤:
1)通过高通量测序的方法鉴定出湖羊群体具有特定群体频率的候选遗传变异,通过比较湖羊与其他群体遗传变异的频率建立评分并进行排序,依据遗传变异在羊群中存在的多种指标构建纯种评估模型,依据模型结果提供遗传标记候选集,根据位点引物设计以及位点的基因组的连锁情况选取30个遗传标记位点用于湖羊纯种鉴定;
2)步骤1)得到的30个遗传标记位点采用Sequenom SNP分型检测方法,通过plink软件利用分型的SNP数据计算IBS分数,所述IBS为状态同源,得到16个与IBS显著相关的遗传标记位点;
3)基于R语言,采用多因素线性回归模型,其中自变量为16个不同基因型的遗传标记位点,因变量为特定的IBS分数,通过建立的纯种评估模型对候选湖羊群体纯种群体进行纯种鉴定。
作为本发明的一种优选方案,所述遗传标记候选集包括ANO10基因与PDLIM5基因。
作为本发明的一种优选方案,所述的30个遗传标记位点包括P64757122、P18235445、P83818961、P83818969、P55276319、P55384071、P17642678、P17644657、P74169717、P19203813、P64629274、P64629764、P64630486、P69523858、P15346217、P15347178、P15347396、P101963616、P103941154、P50147220、P50194226、P6840723、P223703680、P37184275、P29949299、P30659550、P30778083、P44863176、P90333029与P5313717。
作为本发明的一种优选方案,步骤2)中,所述的16个与IBS显著相关的遗传标记位点包括P30659550、P15347396、P37184275、P223703680、P15346217、P55384071、P19203813、P64757122、P64630486、P64629274、P50194226、P15347178、P74169717、P90333029、P69523858与P18235445。
作为本发明的一种优选方案,步骤2)中,IBS越大代表两个个体遗传关系越近。
作为本发明的一种优选方案,所述步骤3)中,所述的建立的纯种评估模型是利用IBS系数评估湖羊个体之间的遗传关系,重测序个体相对于湖羊代表性模拟个体的IBS系数以及Zscore转化计算结果,通过展示IBS转化Zscore可知Zscore转化后的IBS系数区分湖羊与其他品种,当Zscore>0时可以认为是湖羊纯种的评判标准。
作为本发明的一种优选方案,步骤1)中,所述的纯种评估模型中,所用到的多种指标包括湖羊群体变异检测率、湖羊群体变异频率、其他羊群内变异频率、位于功能区域特征、LD-SNPs的个数与变异碱基数。
作为本发明的一种优选方案,所述湖羊与其它群体包括湖羊、杜泊羊、杜湖杂交羊与小尾寒羊。
作为本发明的一种优选方案,步骤1)中,基于多种指标对候选遗传变异计算评估分数,评估分数=湖羊群体变异频率*其他羊群内变异频率*湖羊群体变异检测率,评估分数越高的候选遗传变异的基因选择为遗传标记候选集。
与现有技术相比,本发明具有以下有益效果:
1)本发明利用群体水平的高通量数据对湖羊、小尾寒羊、杜泊羊以及杜湖杂交群体进行全基因组范围内的遗传变异检测,通过生物信息学方法鉴定湖羊的特属遗传特征,构建鉴定湖羊纯种评估方法,为湖羊品种资源保护、开发和利用提供科学依据。
2)本发明确定了用于评估湖羊纯种方法的30个遗传标记位点。
3)本发明还确定了用于评估湖羊纯种方法的遗传标记候选集。
附图说明
图1是实施例1的技术路线。
图2是实施例1的系统进化树。
图3是实施例2的实验流程图。
图4是实施例2的IBS的Zscore转化系数。
图5是实施例2的模型结果评估的QQplot图。
图6是实施例2的IBS系数与预测的IBS系数的相关性。
图7是待检群体的IBS的Zscore转化系数。
具体实施方式
下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明在文献(湖州湖羊遗传多样性分析及保种效果评价,2023年第59卷第03期,曾建露,彭彩娥,高慧,曹丁壬,王争光,李奎)的基础上,继续进行湖州湖羊遗传信息库构建及特异分子标记开发,提供了一种采用SNP分子标记的湖羊纯种评估方法,本发明利用群体水平的高通量数据对湖羊、小尾寒羊、杜泊羊以及杜湖杂交群体进行全基因组范围内的遗传变异检测,通过生物信息学方法鉴定湖羊的特属遗传特征,构建鉴定湖羊纯种评估方法,为湖羊品种资源保护、开发和利用提供科学依据。
包括以下步骤:
1)通过高通量测序的方法鉴定出湖羊群体具有特定群体频率的候选遗传变异,通过比较湖羊与其他群体遗传变异的频率建立评分并进行排序,依据遗传变异在羊群中存在的多种指标构建纯种评估模型,依据模型结果提供遗传标记候选集,根据位点引物设计以及位点的基因组的连锁情况选取30个遗传标记位点用于湖羊纯种鉴定;
2)步骤1)得到的30个遗传标记位点采用Sequenom SNP分型检测方法,通过plink软件利用分型的SNP数据计算IBS分数,所述IBS为状态同源,得到16个与IBS显著相关的遗传标记位点;
3)基于R语言,采用多因素线性回归模型,其中自变量为16个不同基因型的遗传标记位点,因变量为特定的IBS分数,通过建立的纯种评估模型对候选湖羊群体纯种群体进行纯种鉴定。
根据文献湖州湖羊遗传多样性分析及保种效果评价,本发明分别选择湖羊群体50只;选择10只杜泊羊、10只小尾寒羊、10只杜湖杂交羊为对照,总计80个样本。详细的分组见表1。湖羊个体以HY开头编号,杜泊羊个体以DB开头编号,小尾寒羊个体以XW开头编号,杜湖杂交羊以DH为开头编号。鉴于,中华人民共和国农业农村部冻精和冻胚得到的部分1988年来源湖羊有基角,选择了部分有角湖羊个体。采集湖羊颈部静脉血,收集于2mL一次性真空采血管(含抗凝剂)带回实验室,-20℃保存备用,使用原装进口QIAGEN Blood Genome DNAExtraction Kit提取DNA。
表1.80个用于高通量重测序的个体样品
实施例1
参见图1,本实施例是对湖羊进行重测序建库与测序。
重测序建库包括基因组总DNA提取、重测序文库制备和上机高通量测序。基因组总DNA提取:对于各种不同群体的基因组样本进行DNA提取,并通过0.8%琼脂糖凝胶电泳检测DNA提取质量评估,同时采用紫外分光光度计对DNA进行定量。检测合格的DNA进一步通过末端修复、加A尾、加测序接头、纯化、PCR扩增等步骤完成整个文库制备。
构建好的文库利用Agilent Bioanalyzer上进行质检确保合格的文库构建,合格的文库具有单一的峰、无接头二聚体,且浓度应在2nM以上。
文库构建完成后,使用Qubit2.0进行初步定量,使用qPCR的方法对文库的有效浓度进行准确定量以保证文库质量。文库质量检测合格后,通过Illumina Hiseq进行PE的2×150bp测序。
将获取的原始测序序列(raw reads)进一步进行质控和过滤。去除原始序列中所含有的污染物和接头序列(adapter),去除低质量碱基比例较高的reads(10%),去除N的比例大于10%的reads。当单端测序reads中含有的低于5的碱基数超过该条read长度比例的20%的reads进行过滤去除。此外,过滤后的reads进一步进行read数量,数据产量,测序错误率,Q20含量,Q30含量,GC含量等数据进行统计。
结果如表2所示,总计产生305亿条原始测序序列(raw reads),平均每个个体3.8亿条原始测序序列约为57.2G碱基数,经过过滤后总计得到高质量数据298亿条质控后序列,平均每个个体3.73亿条原始测序序列约为56G碱基数,可满足~20X标准,满足高质量品种鉴定的需求。
表2.80只羊个体测序结果
参考基因组比对
对于每个样本个体,将所有质控过滤后的reads数据利用BWA软件通过默认的参数比对到羊的参考基因组上(GCA_016772045.1)分别利用Picard、GATK和SAMtools进行比对后序列的重复标记、基本质量的重新校准、重复数据的剔除和比对统计(即深度覆盖)。所有所得到的比对文件(bam)用于后续分析流程,包括SNP和Indels检测。
如表3所示,总计可比对到参考基因组的reads为302亿条,约为45.3G碱基数,比对率可高达99.76%。
表3.80只羊个体比对结果
遗传变异检测(SNPs、Indels)
利用GATK软件流程,包括HaplotypeCaller、GenotypeGVCFs和CombineGVCFs模块,对80个个体进行遗传变异检测、基因分型和群体合并,最终获取所检测变异的基因型文件(VCF)。进一步利用VariantFiltration模块进行遗传变异硬过滤,其中质控标准如下:QD<2.0;QUAL<30.0;SOR>3.0;FS>60.0;MQ<40.0;MQRankSum<-12.5;ReadPosRankSum<-8.0。
同时对于测序深度大于8、覆盖率大于30%且突变碱基的最小等位基因频率大于0.05遗传变异进行保留,所测得的InDels的5bp以内的SNP进行剔除。
遗传变异注释
通过使用ANNOVA软件对所检测的变异进行基于基因或基于区域的注释,由NCBI下载基因组gff注释文件(GCA_016772045.1)。对于相应的变异进行注释:SNP分为8类,包括外显子区域(同义、非同义、stop gai和stop loss)、剪接位点、内含子区域、5'和3'UTRs、上下游区域和基因间区域。
InDels进一步分类为stop loss、stop gain和移码突变(3个bp插入或缺失)。
遗传多样性评估
利用SNP和InDels变异信息,通过检测所在不同群体的频率分布,用于评估群体多样性特征。Plink软件用于计算不同变异位点的群体频率。结合上述已基因注释的结果,比较不同SNP和InDels注释的群体频率特征,鉴定遗传变异的基因组特征分布的偏好性。对于InDels信息,进一步统计长度分布,并比较不同长度分布InDels所在群体分布频率。
平均每个群体可检测23,972,025个SNPs和2,441,291个InDels,其中湖羊具有最多的遗传变异26,262,209个SNPs和2,693,430个InDels,基于上述SNPs和InDels,构建了湖州湖羊分子遗传信息库。杜泊羊具有最少的遗传变异22,626,849个SNPs和2,296,833个InDels。
群体结构分析
群体结构分析包括群体主成分分析、系统进化树重构和群体遗传结构分析。群体主成分分析(Principal Component Analysis,PCA),是一种分析、简化数据集的统计方法。
将待分群的多个个体的SNP数据组成矩阵,提取该矩阵向量的特征向量(主成分,通常为3个),并用其中两个特征向量绘制散点图。根据散点图的分布情况,推知待分群个体的亚群划分。PCA通常和群体遗传结构分析方法、基于SNP的系统进化分析等方法相互印证。该过程通过GCTA软件利用SNP数据(去除MAF小于0.05的SNPs)进行主成分分析。
基于SNP的系统进化树重构系统进化树是用来表示群体内物种间亲缘关系远近的树状结构图。在树中,每个节点代表其各分支的最近共同祖先,而节点间的线段长度对应演化距离(如估计的演化时间)。根据不同物种间的亲缘关系远近,将各个物种分别放置在有分枝的树状图上。进化树上每个叶子结点代表其中一个物种,两个叶子结点之间的距离长短表示相应的两个物种之间的分化程度。
参见图2,结果反应羊群体之间的遗传关系,杜泊羊与小尾寒羊具有独立的进化分支,湖羊群体中存现两个相对独立的群体。
采用Admixture软件利用SNP信息分析群体的遗传结构,设置K=2~10(即假设存在2~10个祖先群体)模型选择为混合模型,其余参数采用软件的默认设置。根据不同K的CVerror值,确定接近真实值的K。
当K=2时杜泊羊与湖羊和小尾寒羊有明显的聚类现象;当K=3时可以发现杜湖杂交的羊相比湖羊群体与杜泊羊具有更高遗传关系。当K=4时,湖羊群体存在的内群现象也很好的展现出来。
湖羊选择信号分析
湖羊选择信号基于湖羊群体的分化指数Fst计算评估。Fst代表一个种群内亚群间的遗传分化程度,Fst值一般在0~1之间。Fst值越小,代表亚群间的遗传分化越小,当该值为0时,代表两个亚群内的所有个体相互之间能够自由交配,遗传分化程度最低;Fst值越大,代表亚群间的遗传分化越大,当该值为1时,代表两个亚群间不共用任何遗传多样性。
利用vcftools进行全基因组范围内fst检测,其中窗口(windows)设定为50kb,滑动窗口为20kb,选取top5%作为湖羊候选区域。
湖羊纯种评估模型构建
湖羊纯种评估的目的是选取具有代表性的遗传变异(SNP和InDels)用于判别候选羊群中湖羊纯种或杂种个体。如表4所示,选取6个指标用于评估遗传变异的作为模型评估的依据。其中功能区域特征根据变异对功能基因组的影响程度进行分类(表5)。
表4.湖羊纯种评估模型的评估参数
评估参数 | ID(简称) | 参数范围 |
湖羊群体变异检测率 | Coverage(C) | 0~1 |
湖羊群体变异频率 | Frequency Hu(FH) | 0~1 |
其他羊群内变异频率 | Frequency Other(FO) | 0~1 |
位于功能区域特征 | Functional regions(Func) | 1~5类 |
LD-SNPs的个数 | LD-SNPs(LDS) | N |
变异碱基数 | Base numbers(BN) | 1-50 |
表5.功能区域特征分类
本发明构建了纯种鉴定模型来评估杂种和纯种湖羊的特异性特征,总计5个指标应用在模型中,通过不同角度确定候选遗传变异。其中,遗传变异在湖羊变异频率和其他群体变异频率作为主要指标,湖羊群体变异频率越高、其他群体变异频率越低,对于湖羊的纯种特征越具有代表性。湖羊群体变异检测率也作为其中一个重要指标,用于表明该遗传变异的可靠性,通常检测率大于90%完全满足候选特征。
基于以上指标可以对于特定的遗传变异计算其评估分数,即评估分数=湖羊群体变异频率*其他羊群内变异频率*湖羊群体变异检测率,通过评估分数排序结果如表6所示,选择ANO10和PDLIM5基因作为评估湖羊群体的遗传标记候选集
表6.用于湖羊纯种鉴定的候选遗传变异
实施例2
本实施例在实施例1的基础上,利用ANO10和PDLIM5两个基因,以及30个遗传标记位点进行PCR扩增比对进行湖羊纯种鉴定。
从浙江省六个湖羊保种场采集保种群体所有家系的公羊血样,采取杜泊羊、杜湖杂交羊对照组血液,总计1902份。采集湖羊颈部静脉血,收集于2mL一次性真空采血管(含抗凝剂)带回实验室,-20℃保存备用。使用原装进口QIAGEN Blood Genome DNA ExtractionKit提取DNA。纯度检测后,合格DNA样品共1898个,进行下一步分析。另外几个湖羊血液因怀孕母羊抽血量太低,提取DNA纯度和数量不足。
参见图3,30个SNP位点分型采用Sequenom SNP分型检测方法,具体检测方法可参见专利ZL201811214821X,发明名称为一种鉴定滩羊与非滩羊的8种SNP位点及其应用。
30个SNP的位点信息及检测结果如表7所示,总检测率达到99.64%符合标准可确保后续模型计算的准确性。
表7.位点信息及检测结果
本发明通过IBS分数计算用于评估不同个体之间的遗传关系远近。IBS:状态同源(identical by state,IBS),在个体之间分享着相同遗传突变,这些突变是在遗传进程中累积起来的,两者不一定有共同祖先。IBS越大代表两个个体遗传关系越近,用于评估湖羊个体之间的亲缘状态。IBS的计算通过plink软件利用分型的SNP数据来完成。
湖羊纯种评估模型构建采用多因素线性回归模型,其中自变量为16个不同基因型的SNP、因变量为特定的IBS分数。同时通过逐步法确定自变量方差及个数,同时优化模型及模型评估,建立最终及纯种评估模型。最终通过建立的模型对候选湖羊群体纯种群体进行纯种鉴定。模型的建立、评估可视化均基于R语言完成。
建立湖羊群体代表性的模拟个体的遗传标记信息。对于每个遗传标记,湖羊代表性个体的标记信息选取湖羊测序群体(50个个体)中具有最高等位基因频率的等位基因型,确保湖羊代表性模拟个体的遗传信息具有湖羊群体特征,进而降低个体的遗传偏差。重测序个体相对于湖羊代表性模拟个体的IBS系数以及Zscore转化计算结果如表8所示。通过展示IBS转化Zscore可知Zscore转化后的IBS系数可以很好的区分湖羊与其他品种。当Zscore>0时可以认为是湖羊纯种的评判标准。
表8.IBS系数以及Zscore转化计算
参见表8与图4,利用30个遗传标记位点和IBS分数作为参数进行模型构建,并通过30个遗传标记位点作为自变量标记,IBS分数作为因变量进行模型建立。通过逐步分析的方法,选择16个与IBS显著相关的遗传标记位点,模型的AIC值为-773.8,表明模型评估具有较高的准确性。模型详细信息如表9所示。
表9.模型详细信息
参见图5与图6,模型结果评估的QQplot结果很好的反应了样本值和预测值两个数据集结果相近;预测IBS与实际IBS相关性(r2)可以达到0.9846267,表明模型的评估准确性良好。
对湖羊群体进行IBS系数预测,预测结果进一步进行Zscore参数转化,转化系数的计算基于重测序样本均值和标准差值。参见图7,219只湖羊样本的Zscore小于0可以作为严重杂合的湖羊个体,280只湖羊的Zscore小于0.3并且大于0作为低杂合度的湖羊个体,1399只湖羊的Zscore大于0.3可以分类为湖羊纯合品种。
本发明通过建立多因素线性回归模型,从30个遗传标记位点中选择16个显著的标记位点成功的预测了与湖羊群体代表性个体的IBS系数。通过矫正后的系数成功的预测了湖羊待检群体的纯种鉴定分类,其中73.7%的待检个体可以分类为纯种湖羊群体,14.7%的待检个体是湖羊低杂合的群体,11.53%的待检个体为高杂合度湖羊群体可以选择性的剔除。针对具有相同分类的群体,可以依据IBS系数的高低和留种的数量的选择性剔除个体。
以上所述,仅为本发明的较佳实施例,并非对本发明任何形式上和实质上的限制,应当指出,对于本技术领域的普通技术人员,在不脱离本发明方法的前提下,还将可以做出若干改进和补充,这些改进和补充也应视为本发明的保护范围。凡熟悉本专业的技术人员,在不脱离本发明的精神和范围的情况下,当可利用以上所揭示的技术内容而做出的些许更动、修饰与演变的等同变化,均为本发明的等效实施例;同时,凡依据本发明的实质技术对上述实施例所作的任何等同变化的更动、修饰与演变,均仍属于本发明的技术方案的范围内。
Claims (9)
1.一种采用SNP分子标记的湖羊纯种评估方法,其特征在于,包括以下步骤:
1)通过高通量测序的方法鉴定出湖羊群体具有特定群体频率的候选遗传变异,通过比较湖羊与其他群体遗传变异的频率建立评分并进行排序,依据遗传变异在羊群中存在的多种指标构建纯种评估模型,依据模型结果提供遗传标记候选集,根据位点引物设计以及位点的基因组的连锁情况选取30个遗传标记位点用于湖羊纯种鉴定;
2)步骤1)得到的30个遗传标记位点采用Sequenom SNP分型检测方法,通过plink软件利用分型的SNP数据计算IBS分数,所述IBS为状态同源,得到16个与IBS显著相关的遗传标记位点;
3)基于R语言,采用多因素线性回归模型,其中自变量为16个不同基因型的遗传标记位点,因变量为特定的IBS分数,通过建立的纯种评估模型对候选湖羊群体纯种群体进行纯种鉴定。
2.根据权利要求1所述的一种采用SNP分子标记的湖羊纯种评估方法,其特征在于,所述遗传标记候选集包括ANO10基因与PDLIM5基因。
3.根据权利要求1所述的一种采用SNP分子标记的湖羊纯种评估方法,其特征在于,步骤1)中,所述的30个遗传标记位点包括P64757122、P18235445、P83818961、P83818969、P55276319、P55384071、P17642678、P17644657、P74169717、P19203813、P64629274、P64629764、P64630486、P69523858、P15346217、P15347178、P15347396、P101963616、P103941154、P50147220、P50194226、P6840723、P223703680、P37184275、P29949299、P30659550、P30778083、P44863176、P90333029与P5313717。
4.根据权利要求1所述的一种采用SNP分子标记的湖羊纯种评估方法,其特征在于,步骤2)中,所述的16个与IBS显著相关的遗传标记位点包括P30659550、P15347396、P37184275、P223703680、P15346217、P55384071、P19203813、P64757122、P64630486、P64629274、P50194226、P15347178、P74169717、P90333029、P69523858与P18235445。
5.根据权利要求3所述的一种采用SNP分子标记的湖羊纯种评估方法,其特征在于,步骤2)中,IBS越大代表两个个体遗传关系越近。
6.根据权利要求1所述的一种采用SNP分子标记的湖羊纯种评估方法,其特征在于,所述步骤3)中,所述的建立的纯种评估模型是利用IBS系数评估湖羊个体之间的遗传关系,重测序个体相对于湖羊代表性模拟个体的IBS系数以及Zscore转化计算结果,通过展示IBS转化Zscore可知Zscore转化后的IBS系数区分湖羊与其他品种,当Zscore>0时可以认为是湖羊纯种的评判标准。
7.根据权利要求1所述的一种采用SNP分子标记的湖羊纯种评估方法,其特征在于,步骤1)中,所述的纯种评估模型中,所用到的多种指标包括湖羊群体变异检测率、湖羊群体变异频率、其他羊群内变异频率、位于功能区域特征、LD-SNPs的个数与变异碱基数。
8.根据权利要求1所述的一种采用SNP分子标记的湖羊纯种评估方法,其特征在于,所述湖羊与其它群体包括湖羊、杜泊羊、杜湖杂交羊与小尾寒羊。
9.根据权利要求1所述的一种采用SNP分子标记的湖羊纯种评估方法的应用,其特征在于,步骤1)中,基于多种指标对候选遗传变异计算评估分数,评估分数=湖羊群体变异频率*其他羊群内变异频率*湖羊群体变异检测率,评估分数越高的候选遗传变异的基因选择为遗传标记候选集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311471549.4A CN117487930A (zh) | 2023-11-07 | 2023-11-07 | 一种采用snp分子标记的湖羊纯种评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311471549.4A CN117487930A (zh) | 2023-11-07 | 2023-11-07 | 一种采用snp分子标记的湖羊纯种评估方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117487930A true CN117487930A (zh) | 2024-02-02 |
Family
ID=89682383
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311471549.4A Pending CN117487930A (zh) | 2023-11-07 | 2023-11-07 | 一种采用snp分子标记的湖羊纯种评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117487930A (zh) |
-
2023
- 2023-11-07 CN CN202311471549.4A patent/CN117487930A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112885408B (zh) | 一种基于低深度测序检测snp标记位点的方法及装置 | |
CN106906303B (zh) | 一个影响猪肉品质性状的snp标记及其应用 | |
CN116377086B (zh) | 一种鸡全基因组低密度芯片及其制作方法和应用 | |
CN116334248A (zh) | 一种地方鸡遗传资源保护与品种鉴定的液相芯片及其应用 | |
CN117106872A (zh) | 一种高饲料效率奶牛分子网络标记的筛选方法 | |
CN109295239B (zh) | 边鸡分子标记的筛选方法及其应用 | |
CN117487930A (zh) | 一种采用snp分子标记的湖羊纯种评估方法 | |
CN113793637B (zh) | 基于亲本基因型与子代表型的全基因组关联分析方法 | |
CN117025740A (zh) | 湖羊纯种鉴定方法、鉴定终端及应用 | |
CN114300042A (zh) | 一种基于全基因组关联分析筛选大白猪繁殖性能相关候选标记的方法 | |
CN113122644A (zh) | 用于马鹿血源含量检测的snp位点、筛选方法、对应snp芯片及应用 | |
CN112779339A (zh) | 与大白猪总乳头数相关的snp分子标记及其获取和应用 | |
CN116590435B (zh) | 一种与猪背膘厚相关的因果候选基因及其鉴定方法和应用 | |
CN117660667B (zh) | 一种与翘嘴鳜生长性状相关的snp分子标记及其应用 | |
CN117487936B (zh) | 影响长白猪眼肌面积的snp分子标记及其应用 | |
CN117821611B (zh) | 一种基于kasp的卤虫核心分子标记组合及其应用 | |
CN111354417B (zh) | 一种基于admixture-mcp模型估计水产动物基因组品种组成的新方法 | |
CN116855613B (zh) | 猪胴体性状的分子标记、引物、试剂盒、方法及应用 | |
CN108866210B (zh) | 与20日龄仔猪红细胞数目相关的分子标记及其应用 | |
CN117133353A (zh) | 一种鸡品种选育家系建立方法 | |
CN114959068A (zh) | 用于鉴定豫农黑猪种质资源的特异分子身份证及其应用 | |
CN118531134A (zh) | 一种用于鉴别马身猪的snp位点组合及其应用 | |
CN112877443A (zh) | 与长白猪总乳头数相关的snp分子标记及其获取和应用 | |
CN118406774A (zh) | 一种用于珞巴鸡提纯选育的分子标记及其应用 | |
CN114959069A (zh) | 一种鉴定豫西黑猪品种的特异分子身份证及其应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |