CN107967409B - 一种猪全基因组低密度snp芯片及其制作方法和应用 - Google Patents

一种猪全基因组低密度snp芯片及其制作方法和应用 Download PDF

Info

Publication number
CN107967409B
CN107967409B CN201711190317.6A CN201711190317A CN107967409B CN 107967409 B CN107967409 B CN 107967409B CN 201711190317 A CN201711190317 A CN 201711190317A CN 107967409 B CN107967409 B CN 107967409B
Authority
CN
China
Prior art keywords
snp
chip
genome
pig
chromosome
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711190317.6A
Other languages
English (en)
Other versions
CN107967409A (zh
Inventor
丁向东
宋海亮
张勤
唐韶青
肖炜
云鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Animal Husbandry Station
China Agricultural University
Original Assignee
Beijing Animal Husbandry Station
China Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Animal Husbandry Station, China Agricultural University filed Critical Beijing Animal Husbandry Station
Priority to CN201711190317.6A priority Critical patent/CN107967409B/zh
Publication of CN107967409A publication Critical patent/CN107967409A/zh
Application granted granted Critical
Publication of CN107967409B publication Critical patent/CN107967409B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B40/00Libraries per se, e.g. arrays, mixtures
    • C40B40/04Libraries containing only organic compounds
    • C40B40/06Libraries containing nucleotides or polynucleotides, or derivatives thereof
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Medicinal Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • General Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

一种猪全基因组低密度SNP芯片,其为SEQ ID NO.1‑8846序列中所示的DNA序列。其有益效果为本发明的猪全基因组低密度SNP芯片从现有的80k芯片中通过研究分析,创造性的在不显著降低选择准确性的情况下,去除无关SNP标记,将其降低到8846个。对在猪育种选育方面具有开创性意义,使得通过猪全基因组低密度SNP芯片普及猪的分子育种成为可能,将大大提高我国猪育种选育进程。

Description

一种猪全基因组低密度SNP芯片及其制作方法和应用
技术领域
本发明涉及基因分子育种领域,具体为一种猪全基因组低密度SNP芯片,还涉及到一种猪全基因组低密度SNP芯片的制作方法,还涉及到一种猪全基因组低密度SNP芯片的应用。
背景技术
SNP具有数量多,分布广泛,易于快速规模化筛查,便于基因分型等特点,是继第一代限制性片段长度的多态性标记、第二代微卫星即简单的串联重复标记后的第三代基因遗传标记。基于SNP的新型高通量分子标记技术主要有两大类:一类是基于测序技术的高通量分子标记技术;另一类是基于基因芯片技术的分子标记技术。基于测序技术的分子标记技术虽然通量高、灵活性高,但是短片段测序依赖于参考基因组序列、位于重复序列区域或者在参考基因组上没有的区域很难检测和分析,测序数据的处理、序列基因组定位和基因分型的计算等复杂过程对数据分析的要求较高,这些缺点一定程度上限制了该方法的广泛使用,特别是在分子育种中大规模使用。
另一种高通量分子标记技术是基于基因芯片的技术。基因芯片(gene chip)有称DNA芯片或生物芯片。基因芯片的基本原理是用杂交测序法,将已知序列的核苷酸作为探针与标记的靶核苷酸序列进行杂交,通过对信号的检测进行定性与定量分析。基因芯片可在一微小的基片(硅片、玻片等)表面集成大量的分子识别探针,能够在同一时间内平行分析大量基因,进行大信息量的检测分析。由于其快速、高通量的优点,芯片在进化、基因定位、分子育种中得到广泛应用。尤其在以基因组选择为核心的动植物分子育种领域,芯片更易于标准化、通用化、流程化,从而得到大规模应用。
自2007年来,随着各畜禽的全基因组高密度SNP芯片相继问世,基因组选择开始广泛用于畜禽育种领域。基因组选择是利用覆盖于全基因组的SNP标记计算个体的基因组育种值,从而用于选择的育种技术。该技术在奶牛的育种中已取得重大进展,其在提供奶牛育种遗传进展的同时,也大大减少了奶牛的育种成本。但是,其他动物如猪、鸡、鸭、羊等,由于高密度SNP芯片昂贵的价格,基因组选择技术并没有得到很好的应用。为降低芯片成本,众多研究采用低密度SNP芯片进行分析,再通过基因型填充技术得到的高密度的SNP标记信息,从而用于基因组选择。
在国内公开的专利里,对SNP标记进行育种和选择也有相应的研究,例如:申请号为CN201010299271一种基于高通量测序的DNA标签文库构建方法、CN201310660177一种适用于太平洋牡蛎家系鉴定的方法、CN201410067189一种基于SNP芯片的综合基因组育种值估计方法及应用等都针对SNP进行了研究。
目前,猪上成熟的商用SNP芯片主要基于illumina平台的geneseek公司开发的PorcineSNP60(含61565SNP,Illumina公司开发)、GGP-Porcine HD(68528SNP,geneseek公司开发,简称80K)、2016年推出的GGP-Porcine第二版(含51000SNP,geneseek公司开发,简称50K)、2017年由康普森公司设计的compass porcineSNP55(含55000SNP)。另一个平台是Affymetrix平台,目前猪上主要有Affymetrix开发的高密度芯片,含大约650000SNP,价格高昂,使用量很少。当前市场上主要以geneseek公司的两款芯片使用量最大,但对分子育种实际应用而言,其价格仍然较高,限制了在我国猪场中的大规模使用。而低密度芯片则可以在降低价格的前提下,保证分子育种的使用效果。当前还没有低密度芯片开发的报道,因此,为了进一步降低基因组选择的应用成本,从选取合适的SNP制作低密度芯片为当务之急,才能不断满足猪规模育种需要。
发明内容
本申请的目的在于提供一种猪全基因组低密度SNP芯片,以解决在猪育种选育过程中采用高密度芯片成本高,实施难度大的问题。
为了达到上述目的,本发明采用以下技术方案:
一种猪全基因组低密度SNP芯片,其为SEQ ID NO.1-8846序列中所示的DNA序列。
一种猪全基因组低密度SNP芯片的制作方法,其特征在于,包括以下步骤:
步骤S1,不同品种群体Illumina 80K芯片检测;
步骤S2,整理表型和系谱文件;
步骤S3,利用表型和系谱进行育种值估计,并计算校正表型;
步骤S4,对芯片数据进行质控,质控标准为:去除SNP检出率<95%、最小等位基因频率<0.01、极端不符合哈代-温伯格平衡检验P值小于10-6以及没有染色体位置信息的SNP位点和检出率<90%的个体;
步骤S5,挑选具有芯片个体的校正表型和芯片数据进行全基因组关联分析;利用混合线性模型,对生长、繁殖、饲料报酬、体尺性状进行全基因组关联分析,使用permutation方法分别设定基因组水平和染色体水平显著的统计检验阈值,判定与各性状关联的显著SNPs;首先使用PLINK软件将所有表型打乱重排形成一万种表型的排列方式(10000次permutation),与个体随机对应;然后利用GCTA软件对其进行一万次的关联分析;每次关联分析都产生一个最小P值;将这一万个关联结果中的最小P值由小到大进行排列;前5%处的P值作为基因组显著的经验阈值;同样的对于染色体显著的经验阈值,首先将每条染色体的最小P值都按照之前的进行操作,分别选取出每条染色体中前5%的最小P值作为染色体水平显著的经验阈值;
步骤S6,对80K芯片进行筛选;对80K芯片利用进行质控,质控标准与S4一致;根据SNP在各染色体上分布均匀及各染色两端分布较密和多态性好的要求,对SNP位点进行筛选;根据质控后剩下的位点计算剩余位点在每条染色体上的分布数和物理位置,并保留每条染色体两端50个位点,根据9K的标准计算出需从每条染色体上挑的位点数,并保证挑选的位点均匀分布;最终挑选出所需SNP位点;
步骤S7,将GWAS检测显著位点与挑选的位点合并;
步骤S8,将合并的SNP位点与QTLdb数据库进行比对,挑选出位于猪生长、繁殖、饲料报酬、体尺、抗病性状相关的QTL中的SNP位点;挑选合并位点中不存在的与猪生长、繁殖、饲料报酬、体尺、抗病相关的基因位点,生成功能SNP位点芯片,共8846个SNP位点;
步骤S9,对功能SNP位点芯片进行相邻SNP位点间的间隔、连锁不平衡和最小等位基因频率计算,剔除异常位点后,生成最终猪全基因组低密度SNP芯片。
进一步,所述育种值估计方法为对于繁殖性状如总产仔数、产活仔数,使用动物重复力模型进行传统育种值估计,其模型如下:
y=μ+Xb+Za+Wp+e
y为表型观测值,μ为均值,b为固定效应,包括场年季效应,a为个体随机遗传效应,p为母猪永久环境效应,e为随机剩余效应,X、Z、W为相应的结构矩阵;校正表型计算公式为:yc=a+∑ei/np,ei为个体残差,np为母猪胎次;
对于生长性状包括达百公斤体重日龄和百公斤体重活体背膘厚,使用两性状动物模型,其模型如下:
y=μ+Xb+Z1a+Z2l+e,
y为表型观测值;μ为均值;b为固定效应;包括场年季性别效应;a为个体随机遗传效应;l为窝随机效应;e为随机剩余效应;X、Z1、Z2相应的结构矩阵;校正表型计算公式为:yc=a+e。
进一步,所述全基因组关联分析中我们使用了混合线性模型的公式为:
yc=1μ+bx+Zg+e,
其中Yc是校正表型向量,μ是群体均值,1是群体均值的相关向量,b是基因平均替代效应;x是SNP基因型矩阵,编为0,1,2;g是符合正态分布(0,Gσa2)的随机多基因效应;其中σa2是多基因效应方差,G是基因组亲缘关系矩阵;Z是随机多基因效应的关系矩阵,e是符合正态分布的随机残差。
本申请还有一个目的在于提供一种猪全基因组低密度SNP芯片及应用在不同品种猪亲子鉴定中的应用。
本申请还有一个目的在于提供一种猪全基因组低密度SNP芯片及应用在不同品种猪基因组选择中的应用。
本申请还有一个目的在于提供一种猪全基因组低密度SNP芯片及应用在填充成高密度芯片的应用。
本发明的有益效果为:
1、本发明的猪全基因组低密度SNP芯片以当前成熟的GGP-PorcineHD(68528SNP)为基础,依据多个品种大规模基因型测定群体,设计的芯片具有群体多样性和代表性。该芯片主要包括了本发明检测到和其他国内外研究团队报道的显著位点,与猪主要经济性状关联,减少了与性状无关联的SNP数目,降低了成本,且能保持与高密度芯片接近的使用效果,尤其在猪分子育种更具应用价值。
2、本发明的猪全基因组低密度SNP芯片从现有的80k芯片中通过研究分析,创造性的在不显著降低选择准确性的情况下,去除无关SNP标记,将其降低到8846个。
3、通过使用本发明的芯片可以低成本、快速的检测出相关SNP标记,对在猪育种选育方面具有开创性意义,使得通过猪全基因组低密度SNP芯片普及猪的分子育种成为可能,将大大提高我国猪育种选育进程。
附图说明
图1一种猪全基因组低密度SNP芯片的制备流程图。
图2各染色体SNP位点分布图。
图3相邻SNP位点间的间隔图。
图4相邻SNP位点间的r2频率分布图。
图5是SNP标记最小等位基因频率分布图。
具体实施方式
实施例一:一种猪全基因组低密度SNP芯片的制作
本发明的猪全基因组低密度SNP芯片简称为9k芯片,9K芯片主要依据GGP-PorcineHD(68528SNP,geneseek公司开发,简称80K),位点数只有80K的13%,间距也从39Kb扩大到279kb,但是SNP标记间的连锁不平衡程度却几乎没有下降,80K为0.54,9K为0.53。
SNP标记的连锁不平衡是全基因组关联分析和基因组选择准确性的保证,连锁不平衡越低则基因组选择准确性会大幅下降。同时9K芯片的等位基因频率MAF也与80K变化不大。这些指标说明9K芯片成本下降,但是使用效果仍然能够保持与80K接近的水平,具体情况见表1-1。
表1-1 为9K与80KSNP芯片参数比较
r2均值 位点数 MAF均值 平均间隔
9K 0.53 8846 0.29 279kb
80K 0.54 68528 0.28 39kb
本发明设计的9K芯片一共包含8846个SNP位点,表1-2列出了全部SNP的位置信息和上下游序列信息。
表1-2 SNP标记基因序列表
Figure BDA0001480884500000071
Figure BDA0001480884500000081
Figure BDA0001480884500000091
Figure BDA0001480884500000101
Figure BDA0001480884500000111
Figure BDA0001480884500000121
Figure BDA0001480884500000131
Figure BDA0001480884500000141
Figure BDA0001480884500000151
Figure BDA0001480884500000161
Figure BDA0001480884500000171
Figure BDA0001480884500000181
Figure BDA0001480884500000191
Figure BDA0001480884500000201
Figure BDA0001480884500000211
Figure BDA0001480884500000221
Figure BDA0001480884500000231
Figure BDA0001480884500000241
Figure BDA0001480884500000251
Figure BDA0001480884500000261
Figure BDA0001480884500000271
Figure BDA0001480884500000281
Figure BDA0001480884500000291
Figure BDA0001480884500000301
Figure BDA0001480884500000311
Figure BDA0001480884500000321
Figure BDA0001480884500000331
Figure BDA0001480884500000341
Figure BDA0001480884500000351
Figure BDA0001480884500000361
Figure BDA0001480884500000371
Figure BDA0001480884500000381
Figure BDA0001480884500000391
Figure BDA0001480884500000401
Figure BDA0001480884500000411
Figure BDA0001480884500000421
Figure BDA0001480884500000431
Figure BDA0001480884500000441
Figure BDA0001480884500000451
Figure BDA0001480884500000461
Figure BDA0001480884500000471
Figure BDA0001480884500000481
Figure BDA0001480884500000491
Figure BDA0001480884500000501
Figure BDA0001480884500000511
Figure BDA0001480884500000521
Figure BDA0001480884500000531
Figure BDA0001480884500000541
Figure BDA0001480884500000551
Figure BDA0001480884500000561
Figure BDA0001480884500000571
Figure BDA0001480884500000581
Figure BDA0001480884500000591
Figure BDA0001480884500000601
Figure BDA0001480884500000611
Figure BDA0001480884500000621
Figure BDA0001480884500000631
Figure BDA0001480884500000641
Figure BDA0001480884500000651
Figure BDA0001480884500000661
Figure BDA0001480884500000671
Figure BDA0001480884500000681
Figure BDA0001480884500000691
Figure BDA0001480884500000701
Figure BDA0001480884500000711
Figure BDA0001480884500000721
Figure BDA0001480884500000731
Figure BDA0001480884500000741
Figure BDA0001480884500000751
Figure BDA0001480884500000761
Figure BDA0001480884500000771
Figure BDA0001480884500000781
Figure BDA0001480884500000791
Figure BDA0001480884500000801
Figure BDA0001480884500000811
Figure BDA0001480884500000821
Figure BDA0001480884500000831
Figure BDA0001480884500000841
Figure BDA0001480884500000851
Figure BDA0001480884500000861
Figure BDA0001480884500000871
Figure BDA0001480884500000881
Figure BDA0001480884500000891
Figure BDA0001480884500000901
Figure BDA0001480884500000911
Figure BDA0001480884500000921
Figure BDA0001480884500000931
Figure BDA0001480884500000941
Figure BDA0001480884500000951
Figure BDA0001480884500000961
Figure BDA0001480884500000971
Figure BDA0001480884500000981
Figure BDA0001480884500000991
Figure BDA0001480884500001001
Figure BDA0001480884500001011
Figure BDA0001480884500001021
Figure BDA0001480884500001031
Figure BDA0001480884500001041
Figure BDA0001480884500001051
Figure BDA0001480884500001061
Figure BDA0001480884500001071
Figure BDA0001480884500001081
Figure BDA0001480884500001091
Figure BDA0001480884500001101
Figure BDA0001480884500001111
Figure BDA0001480884500001121
Figure BDA0001480884500001131
Figure BDA0001480884500001141
Figure BDA0001480884500001151
Figure BDA0001480884500001161
Figure BDA0001480884500001171
Figure BDA0001480884500001181
Figure BDA0001480884500001191
Figure BDA0001480884500001201
Figure BDA0001480884500001211
Figure BDA0001480884500001221
Figure BDA0001480884500001231
Figure BDA0001480884500001241
Figure BDA0001480884500001251
Figure BDA0001480884500001261
Figure BDA0001480884500001271
Figure BDA0001480884500001281
Figure BDA0001480884500001291
Figure BDA0001480884500001301
Figure BDA0001480884500001311
Figure BDA0001480884500001321
Figure BDA0001480884500001331
Figure BDA0001480884500001341
Figure BDA0001480884500001351
Figure BDA0001480884500001361
Figure BDA0001480884500001371
Figure BDA0001480884500001381
Figure BDA0001480884500001391
Figure BDA0001480884500001401
Figure BDA0001480884500001411
Figure BDA0001480884500001421
Figure BDA0001480884500001431
Figure BDA0001480884500001441
Figure BDA0001480884500001451
Figure BDA0001480884500001461
Figure BDA0001480884500001471
Figure BDA0001480884500001481
Figure BDA0001480884500001491
Figure BDA0001480884500001501
Figure BDA0001480884500001511
Figure BDA0001480884500001521
Figure BDA0001480884500001531
Figure BDA0001480884500001541
Figure BDA0001480884500001551
Figure BDA0001480884500001561
Figure BDA0001480884500001571
Figure BDA0001480884500001581
Figure BDA0001480884500001591
Figure BDA0001480884500001601
Figure BDA0001480884500001611
Figure BDA0001480884500001621
Figure BDA0001480884500001631
Figure BDA0001480884500001641
Figure BDA0001480884500001651
Figure BDA0001480884500001661
Figure BDA0001480884500001671
Figure BDA0001480884500001681
Figure BDA0001480884500001691
Figure BDA0001480884500001701
Figure BDA0001480884500001711
Figure BDA0001480884500001721
Figure BDA0001480884500001731
Figure BDA0001480884500001741
Figure BDA0001480884500001751
Figure BDA0001480884500001761
Figure BDA0001480884500001771
Figure BDA0001480884500001781
Figure BDA0001480884500001791
Figure BDA0001480884500001801
Figure BDA0001480884500001811
Figure BDA0001480884500001821
Figure BDA0001480884500001831
Figure BDA0001480884500001841
Figure BDA0001480884500001851
Figure BDA0001480884500001861
Figure BDA0001480884500001871
如图1所示,本发明的一种猪全基因组低密度SNP芯片主要包括以下步骤:
步骤S1,不同品种群体Illumina 80K芯片检测;
步骤S2,整理表型和系谱文件;
步骤S3,利用表型和系谱进行传统育种值估计,并计算校正表型;
对于繁殖性状如总产仔数、产活仔数,使用动物重复力模型进行传统育种值估计,其模型如下:
y=μ+Xb+Za+Wp+e
y为观察值,μ为均值,b为固定效应,包括场年季效应,a为个体随机遗传效应,p为母猪永久环境效应,e为随机剩余效应,X、Z、W为相应的结构矩阵。校正表型计算公式为:yc=a+∑ei/np,ei为个体残差,np为母猪胎次。
对于生长性状包括达百公斤体重日龄和百公斤体重活体背膘厚,使用两性状动物模型,其模型如下:
y=μ+Xb+Z1a+Z2l+e,
y为观察值;μ为均值;b为固定效应;包括场年季性别效应;a为个体随机遗传效应;l为窝随机效应;e为随机剩余效应;X、Z1、Z2相应的结构矩阵。校正表型计算公式为:yc=a+e。
步骤S4,对芯片数据进行质控,质控标准为:去除SNP检出率<95%、最小等位基因频率(Minor allele frequencey,MAF)<0.01、极端不符合哈代-温伯格平衡检验P值小于10-6以及没有染色体位置信息的SNP位点和检出率<90%的个体。
步骤S5,挑选具有芯片个体的校正表型和芯片数据进行全基因组关联分析(GWAS)。利用混合线性模型,对生长、繁殖、饲料报酬、体尺等性状进行全基因组关联分析,使用permutation方法分别设定基因组水平和染色体水平显著的统计检验阈值,判定与各性状关联的显著SNPs.
利用混合线性模型,对生长、繁殖、饲料报酬、体尺等性状进行全基因组关联分析,在全基因组关联分析中我们使用了混合线性模型来进行单标记回归关联分析。模型公式如下图所示:
yc=1μ+bx+Zg+e,
其中Yc是校正表型矩阵,μ是群体均值,1是群体均值的相关矩阵,b是基因平均替代效应;x是SNP基因型矩阵(编为0,1,2);g是符合正态分布(0,Gσa2)的随机多基因效应。其中σa2是多基因效应方差,G是基因组亲缘关系矩阵。Z是随机多基因效应的关系矩阵,e是符合正态分布的随机残差。使用permutation方法分别设定基因组水平和染色体水平显著的统计检验阈值,判定与各性状关联的显著SNPs。我们首先使用PLINK软件将所有表型打乱重排形成一万种表型的排列方式,与个体随机对应。然后利用GCTA软件对其进行一万次的关联分析。每次关联分析都产生一个最小P值。将这一万个关联结果中的最小P值由小到大进行排列。前5%处的P值作为基因组显著的经验阈值。同样的对于染色体显著的经验阈值,首先将每条染色体的最小P值都按照之前的进行操作,分别选取出每条染色体中前5%的最小P值作为染色体水平显著的经验阈值。
步骤S6,对80K芯片进行筛选。对80K芯片利用进行质控,质控标准与S4一致。根据SNP在各染色体上分布均匀及各染色两端分布较密和多态性好的要求,对SNP位点进行筛选。根据质控后剩下的位点计算剩余位点在每条染色体上的分布数和物理位置,并保留每条染色体两端50个位点,根据9K的标准计算出需从每条染色体上挑的位点数,并保证挑选的位点均匀分布。最终挑选出所需SNP位点。
步骤S7,将GWAS检测显著位点与挑选的位点合并。
步骤S8,将合并的SNP位点与QTLdb数据库进行比对,挑选出位于猪生长、繁殖、饲料报酬、体尺、抗病等性状相关的QTL中的SNP位点。同时根据文献检索,挑选合并位点中不存在的与猪生长、繁殖、饲料报酬、体尺、抗病相关的基因位点,生成功能SNP位点芯片,共8846个SNP位点。
步骤S9,对功能SNP位点芯片进行相邻SNP位点间的间隔、连锁不平衡和最小等位基因频率计算,剔除异常位点后,生成最终9K芯片。
如图2所示,各染色体上SNP位点分布数见图2,该分布与80K芯片分布趋势一致,其中第一号染色体SNP数目最多。
SNP位点相邻之间的间隔也是基因型信息统计不可或缺的一部分,图3表示的是9KSNP芯片相邻标记间的间隔,从图中我们可以看出,相邻标记间的平均距离是小于280kb的。
如图4所示,连锁不平衡程度(LD)的计算已经有了多种不同的方法。其中以D′和r2最为常用,每一个都有不同的统计效用。但是r2被广泛认为更加稳健,对基因频率和有效群体大小的变化不敏感,并且是描述LD水平更好的参数。采用r2作为LD的衡量指标。假定有两个位点,A和B,每个位点分别有两个等位基因,A1,A2和B1,B2。其基因频率分别用PA1,PA2,PB1,PB2表示。我们用P11,P12,P21和P22指代单倍型A1B1,A1B2,A2B1和A2B2的频率。计算这种连锁不平衡的公式为:
Figure BDA0001480884500001901
图3表示相邻SNP位点间的r2频率分布图,从图中我们可以看出相邻SNP位点间的r2集中在0.2和1之间。
如图5所示,SNP位点的最小等位基因频率(Minor allele frequencey,MAF)是某一SNP位点上两个等位基因频率不高于0.5的那一个等位基因频率。MAF是一个基因型数据质量分析的重要指标。从图中可看出,本芯片MAF分布呈上升趋势,最小为0,其中为0的点共9个,均位于Y染色体上,最大为0.5.全部位点的MAF均值为0.29。
实施例二:本实施利用设计的9K芯片估计基因组育种值准确性,并与GGP-PorcineHD(68528SNP,简称80K)芯片准确性进行比较,包括以下步骤:
(1)获取数据,数据来源北京某猪场27081头大白猪,出生于2007-2016年间,对其中的1429头母猪进行GGP-Porcine HD SNP芯片基因型测定,并对2个性状达百公斤日龄和产活仔数进行传统育种值估计和校正表型计算。选取基因型测定的1429头进行9K芯片设计,并对SNP芯片数据编辑,共8552SNP用于分析;选取其中1159头作为达百公斤日龄的参考群体,剩下的最年轻的270头作为验证群体;411头作为产活仔数的参考群体,最年轻的210头作为验证群体。
(2)分别计算使用9K芯片和80K芯片,利用GBLUP方法计算验证群体预测准确性和无偏性,用校正表型与基因组育种值相关作为标准衡量基因组育种值预测的准确性,相关越高说明基因组育种值估计越准确,用校正表型对基因组育种值的回归作为标准衡量预测的无偏性,回归越接近于1说明无偏性越好。计算结果如表1所示:
表1 9K和80K基因组育种值(GEBV)估计准确性和无偏性
Figure BDA0001480884500001911
由表1可以看出,达百公斤体重日龄利用9K芯片估计育种值的准确性仅比80K低1%,同时无偏性差4.7%。产活仔数利用9K芯片估计育种值的准确性仅比80K低1%,同时无偏性差5.9%。说明设计的9K芯片具有较好的准确性,能应用于实际育种。
实施例三:利用9K芯片信息鉴定群体间亲缘关系
(1)获取数据,样本来自两个不同猪场1156头美系大白猪和878头英系大白猪。首先利用美系大白26122条和英系大白31802条系谱信息构建基于系谱信息的A矩阵,和9K芯片1156头美系大白和878头英系大白构建基于芯片信息的G矩阵和Kinship矩阵,计算个体之间的亲缘关系。并利用G阵对1156头美系大白进行亲子鉴定,评估系谱信息的准确型。
(2)利用系谱信息构建A阵,即分子血缘关系矩阵(numerator relationshipmatrix,NRM),利用9K芯片信息构建G阵,公式为:
Figure BDA0001480884500001912
Z矩阵为M矩阵去中心化,即减去2(p_i-0.5)得到,M矩阵中的元素将基因型纯合子
Figure BDA0001480884500001913
A_1 A_1 (-1)、杂合子A_1 A_2 (0)、另外一个纯合子A_2 A_2 (1),p_i等位基因A_2的基因频率。kinship矩阵计算公式为:
其中
Figure BDA0001480884500001921
为两个体间的亲缘系数,i、j为两个个体,π0ijπ1ijπ2ij为两个体间共享0个、1个和2个IBD基因的概率。基于系谱和芯片信息计算个体间亲缘关系结果如表2所示:
表2:A阵、G阵和K阵亲缘关系结果
Figure BDA0001480884500001922
由表2可知,基于系谱的A矩阵计算得到的是个体的平均亲缘关系,大致范围是半同胞0.25,亲子和全同胞关系0.5;而利用芯片信息计算得到的G、K矩阵,反映出个体间亲缘关系在一定范围内波动。
进而利用美系大白1156头芯片数据进行亲子鉴定,并利用亲子鉴定的结果重新划分个体间亲缘关系。对1156头美系大白群体进行亲子鉴定结果如表3所示,利用亲子鉴定结果重新划分亲缘关系结果如表4所示:
表3:亲子鉴定纯合子位点频率匹配结果
Figure BDA0001480884500001931
表4:利用亲子鉴定结果(99%以上准确率)划分同胞、亲子关系
Figure BDA0001480884500001932
由表3可知,美系大白群体系谱正确率大约是100*68/108=68%,错误:高达32%。利用系谱鉴定结果重新划分并计算A、G和K矩阵亲缘关系,G阵元素值更接近A阵结果,及芯片信息更真实的反映个体间亲缘关系,估计结果更准确。场间系谱错误会影响亲缘关系估计,基因组信息能重新划分系谱关系,对错误系谱进行校正。
实施例四:利用9K芯片信息进行基因型填充
存在缺失基因型信息是芯片数据常见的特点之一,芯片数据的缺失能导致全基因组选择准确率降低。利用基因型填充方法,推断缺失基因型,能有效避免上述问题的发生。随着生物技术的发展,运用低密度、中密度芯片推断至高密度芯片数据的研究在基因组选择上备受关注,它能降低试验成本,有效地推动全基因组选择在动物育种体系中的普及。
(1)数据,样本来自某猪场大白猪基因型数据,同时包含80K和50KSNP芯片。选取其中的700头作为参考群体,100头作为验证群体。参考群体中400头具有80K芯片数据,300头具有50K芯片数据,100头验证群体同时具有9K,50K和80K芯片数据。利用基因型填充,分别将验证群体由9K填充至50K和80K,最后用验证群体真实SNP基因型和填充基因型的相关系数评价填充的准确性。使用Beagle软件进行缺失基因型填充。如表5所示,利用本发明的9K芯片填充至50K和80K芯片的准确性为0.991和0.993,并且验证群体个体间填充准确性相差很小。由于本发明的9K芯片更多基于80K芯片,所以纵然填充的SNP数目与50K相比增多了,但准确性并没下降反而有所提高。这意味着在已有80K和50K芯片的群体下,在实施基因组选择时,比如出生的小猪可以用价格更低的9K芯片,进行大规模的早期选育,可以将其填充至80K或50K芯片进行基因组育种值估计。
表5 9K填充至50K和80K芯片的准确性
50K 80K
参考群体大小 300 400
填充准确性 0.991 0.993
虽然上面的举例了一些特定实施例来说明和描述本发明,但并不意味着本发明仅局限于其中的各种细节,因此对此不进行详述。相反地,在等价于权利要求书的范畴和范围内可以不偏离本发明精神地在各种细节上做出各种修改。

Claims (7)

1.一种猪全基因组低密度SNP芯片,其为SEQ ID NO.1-8846序列中所示的DNA序列。
2.一种根据权利要求1所述的一种猪全基因组低密度SNP芯片的制作方法,其特征在于,包括以下步骤:
步骤S1,不同品种群体Illumina 80K芯片检测;
步骤S2,整理表型和系谱文件;
步骤S3,利用表型和系谱进行育种值估计,并计算校正表型;
步骤S4,对芯片数据进行质控,质控标准为:去除SNP检出率<95%、最小等位基因频率<0.01、极端不符合哈代-温伯格平衡检验P值小于10-6以及没有染色体位置信息的SNP位点和检出率<90%的个体;
步骤S5,挑选具有芯片个体的校正表型和芯片数据进行全基因组关联分析;利用混合线性模型,对生长、繁殖、饲料报酬、体尺性状进行全基因组关联分析,使用permutation方法分别设定基因组水平和染色体水平显著的统计检验阈值,判定与各性状关联的显著SNPs;首先使用PLINK软件将所有表型打乱重排,形成一万种表型的排列方式(10000次permutation),与个体随机对应;然后利用GCTA软件对其进行一万次的关联分析;每次关联分析都产生一个最小P值;将这一万个关联结果中的最小P值由小到大进行排列;前5%处的P值作为基因组显著的经验阈值;同样的对于染色体显著的经验阈值,首先将每条染色体的最小P值都按照之前的进行操作,分别选取出每条染色体中前5%的最小P值作为染色体水平显著的经验阈值;
步骤S6,对80K芯片进行筛选;对80K芯片利用进行质控,质控标准与S4一致;根据SNP在各染色体上分布均匀及各染色两端分布较密和多态性好的要求,对SNP位点进行筛选;根据质控后剩下的位点计算剩余位点在每条染色体上的分布数和物理位置,并保留每条染色体两端50个位点,根据9K的标准计算出需从每条染色体上挑的位点数,并保证挑选的位点均匀分布;最终挑选出所需SNP位点;
步骤S7,将GWAS检测显著位点与挑选的位点合并;
步骤S8,将合并的SNP位点与QTLdb数据库进行比对,挑选出位于猪生长、繁殖、饲料报酬、体尺、抗病性状相关的QTL中的SNP位点;挑选合并位点中不存在的与猪生长、繁殖、饲料报酬、体尺、抗病相关的基因位点,生成功能SNP位点芯片,共8846个SNP位点;
步骤S9,对功能SNP位点芯片进行相邻SNP位点间的间隔、连锁不平衡和最小等位基因频率计算,剔除异常位点后,生成最终猪全基因组低密度SNP芯片。
3.根据权利要求2所述的制作方法,其特征在于:所述育种值估计方法为对于繁殖性状如总产仔数、产活仔数,使用动物重复力模型进行传统育种值估计,其模型如下:
y=μ+Xb+Za+Wp+e
y为表型观测值,μ为均值,b为固定效应,包括场年季效应,a为个体随机遗传效应,p为母猪永久环境效应,e为随机剩余效应,X、Z、W为相应的结构矩阵;校正表型计算公式为:yc=a+∑ei/np,ei为个体残差,np为母猪胎次;
对于生长性状包括达百公斤体重日龄和百公斤体重活体背膘厚,使用两性状动物模型,其模型如下:
y=μ+Xb+Z1a+Z2l+e
y为表型观测值;μ为均值;b为固定效应,包括场年季性别效应;a为个体随机遗传效应;l为窝随机效应;e为随机剩余效应;X、Z1、Z2相应的结构矩阵;校正表型计算公式为:yc=a+e。
4.根据权利要求3所述的一种制作方法,其特征在于:所述全基因组关联分析中我们使用了混合线性模型的公式为:
yc=1μ+bx+Zg+e,
其中yc是校正表型向量,μ是群体均值,1是群体均值的相关向量,b是基因平均替代效应;x是SNP基因型矩阵,编为0,1,2;g是符合正态分布(0,Gσa2)的随机多基因效应;其中σa2是多基因效应方差,G是基因组亲缘关系矩阵;Z是随机多基因效应的关系矩阵,e是符合正态分布的随机残差。
5.根据权利要求1所述的一种猪全基因组低密度SNP芯片在不同品种猪亲子鉴定中的应用。
6.根据权利要求1所述的一种猪全基因组低密度SNP芯片在不同品种猪基因组选择中的应用。
7.根据权利要求1所述的一种猪全基因组低密度SNP芯片在填充成高密度芯片的应用。
CN201711190317.6A 2017-11-24 2017-11-24 一种猪全基因组低密度snp芯片及其制作方法和应用 Active CN107967409B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711190317.6A CN107967409B (zh) 2017-11-24 2017-11-24 一种猪全基因组低密度snp芯片及其制作方法和应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711190317.6A CN107967409B (zh) 2017-11-24 2017-11-24 一种猪全基因组低密度snp芯片及其制作方法和应用

Publications (2)

Publication Number Publication Date
CN107967409A CN107967409A (zh) 2018-04-27
CN107967409B true CN107967409B (zh) 2021-04-23

Family

ID=62001541

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711190317.6A Active CN107967409B (zh) 2017-11-24 2017-11-24 一种猪全基因组低密度snp芯片及其制作方法和应用

Country Status (1)

Country Link
CN (1) CN107967409B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108642568B (zh) * 2018-05-16 2021-07-27 罗晗 一种家犬全基因组低密度品种鉴定专用snp芯片设计方法
CN108411004B (zh) * 2018-05-27 2021-03-16 华中农业大学 检测母猪肢蹄骨密度的snp遗传标记
CN108660222B (zh) * 2018-06-26 2021-05-11 华中农业大学 Kpna7基因片段作为猪繁殖性状相关的分子标记及应用
CN109326322B (zh) * 2018-08-17 2020-12-08 华中科技大学 一种作物不同分离群体间qtl比较的方法及系统
CN110564832B (zh) * 2019-09-12 2023-06-23 广东省农业科学院动物科学研究所 一种基于高通量测序平台的基因组育种值估计方法与应用
CN111681709B (zh) * 2020-06-17 2023-04-28 深圳市早知道科技有限公司 一种设计高密度基因芯片上基因位点的方法
CN112011629A (zh) * 2020-10-13 2020-12-01 山西农业大学 晋汾白猪全基因组高密度snp芯片检测试剂盒及其应用
CN112695107B (zh) * 2021-03-23 2021-06-08 中国农业大学 一种肉用绵羊生长性能snp位点组合及其应用
CN112921076B (zh) * 2021-04-02 2023-04-07 中国农业大学 一种基于靶向捕获测序的猪50k液相芯片的制备方法及其应用
CN114921561B (zh) * 2022-03-22 2023-03-17 广西扬翔股份有限公司 杜洛克猪全基因组低密度snp芯片及其制备方法和应用
CN117275575A (zh) * 2023-11-02 2023-12-22 石家庄博瑞迪生物技术有限公司 一种基于液相芯片对snp的猪品种鉴定的深度学习判别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103914631A (zh) * 2014-02-26 2014-07-09 中国农业大学 一种基于snp芯片的综合基因组育种值估计方法及应用
CN105603089A (zh) * 2016-02-03 2016-05-25 漳州傲农现代农业开发有限公司 一组用于鉴别猪种的snp标记及其应用
CN107164463A (zh) * 2017-04-27 2017-09-15 江西农业大学 一种用于测定和/或遗传改良猪生长性状的snp标记
CN107287329A (zh) * 2017-07-28 2017-10-24 深圳华大基因研究院 一种预测待测猪的窝产活仔数遗传性能的snp位点组合及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103914631A (zh) * 2014-02-26 2014-07-09 中国农业大学 一种基于snp芯片的综合基因组育种值估计方法及应用
CN105603089A (zh) * 2016-02-03 2016-05-25 漳州傲农现代农业开发有限公司 一组用于鉴别猪种的snp标记及其应用
CN107164463A (zh) * 2017-04-27 2017-09-15 江西农业大学 一种用于测定和/或遗传改良猪生长性状的snp标记
CN107287329A (zh) * 2017-07-28 2017-10-24 深圳华大基因研究院 一种预测待测猪的窝产活仔数遗传性能的snp位点组合及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《杜洛克猪的低密度SNP芯片的设计与验证》;刘德武等;《中国猪业科技大会暨2015年学术年会》;20150919;第92页:第1段 *
《种猪遗传评估技术研发与评估系统应用》;张勤等;《科技与实践》;20151231;第51卷(第8期);第61-65页 *
刘德武等.《杜洛克猪的低密度SNP芯片的设计与验证》.《中国猪业科技大会暨2015年学术年会》.2015,第92页:第1-6段. *

Also Published As

Publication number Publication date
CN107967409A (zh) 2018-04-27

Similar Documents

Publication Publication Date Title
CN107967409B (zh) 一种猪全基因组低密度snp芯片及其制作方法和应用
Peripolli et al. Runs of homozygosity: current knowledge and applications in livestock
CM Dekkers Application of genomics tools to animal breeding
Li et al. A whole genome association study to detect additive and dominant single nucleotide polymorphisms for growth and carcass traits in Korean native cattle, Hanwoo
US20090162859A1 (en) Compositions, methods and systems for inferring canine breeds for genetic traits and verifying parentage of canine animals
CA2543786A1 (en) Methods and systems for inferring traits to manage non-beef livestock
CN110484636A (zh) 一种与猪总乳头数性状相关的分子标记及应用
Iamartino et al. The buffalo genome and the application of genomics in animal management and improvement.
CN114292928B (zh) 一种与母猪繁殖性状有关的分子标记及筛选方法和应用
CN114921561B (zh) 杜洛克猪全基因组低密度snp芯片及其制备方法和应用
JP2020074781A (ja) 乳生産量を改善するための雌牛の育種方法
CN111235282A (zh) 一种与猪总乳头数相关的snp分子标记及其应用和获取方法
CN111370058B (zh) 一种基于全基因组snp信息追溯水牛血统来源以及进行基因组选配的方法
US20240043912A1 (en) Genomic selection (gs) breeding chip of huaxi cattle and use thereof
CN110144414B (zh) 与公猪精子畸形率相关的分子遗传标记及其应用和获取方法
CN112575096A (zh) 与大白猪总乳头数相关的snp分子标记及其获取方法
CN114736974B (zh) 与母猪产程性状相关的snp分子标记及其应用
CN104651502A (zh) 用于中国西门塔尔牛亲缘关系鉴定的snp分子标记组合
Miar et al. Genomic selection, a new era for pork quality Improvement
CN110273006A (zh) 一种公猪有效精子数相关的分子遗传标记
CN110396547A (zh) 用于鲁西牛谱系建立的snp分子标记组合
Kadarmideen Biochemical, ECF18R, and RYR1 gene polymorphisms and their associations with osteochondral diseases and production traits in pigs
Thomas et al. Linkage disequilibrium and effective population size in Indian goat breeds
Wang et al. Estimates of genomic inbreeding and identification of candidate regions in Beijing‐You chicken populations
CN114736975B (zh) 与母猪产仔数性状相关的snp分子标记及其应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant