CN113549701B - 一种山羊亲子鉴定snp分子标记及其应用 - Google Patents

一种山羊亲子鉴定snp分子标记及其应用 Download PDF

Info

Publication number
CN113549701B
CN113549701B CN202110827526.7A CN202110827526A CN113549701B CN 113549701 B CN113549701 B CN 113549701B CN 202110827526 A CN202110827526 A CN 202110827526A CN 113549701 B CN113549701 B CN 113549701B
Authority
CN
China
Prior art keywords
mutation
goat
chromosome
ars1
seq
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110827526.7A
Other languages
English (en)
Other versions
CN113549701A (zh
Inventor
苏蕊
王凤红
吕琦
张凤婷
张磊
王瑞军
王志英
张燕军
李金泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inner Mongolia Agricultural University
Original Assignee
Inner Mongolia Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inner Mongolia Agricultural University filed Critical Inner Mongolia Agricultural University
Priority to CN202110827526.7A priority Critical patent/CN113549701B/zh
Publication of CN113549701A publication Critical patent/CN113549701A/zh
Application granted granted Critical
Publication of CN113549701B publication Critical patent/CN113549701B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种山羊亲子鉴定SNP分子标记及其应用。通过筛选获得50个SNPs,并对有明确父子、母子关系的个体进行鉴定,其结果与系谱记录全部一致,表明筛选的这50个SNPs分子标记具有亲子鉴定效力。并对有纸质系谱记载的182对父子及163对母子进行校验,其结果与系谱记录的一致率为80.78%和80.98%,说明通过采用这些SNPs分子标记进行亲子鉴定可以校验/评价纸质系谱的不足,为制定正确的系谱提供科学依据,进一步对于该物种的育种值计算、遗传育种工作提供保障。也可以应用于个体间遗传关系确定、大规模种群的亲子关系确定、家系系谱创建等领域。

Description

一种山羊亲子鉴定SNP分子标记及其应用
技术领域
本发明涉及动物遗传育种领域,特别涉及一种山羊亲子鉴定SNP分子标记及其应用。
背景技术
内蒙古绒山羊是经长期自然选择和人工选育而成的特色优良畜种,因产绒量高、绒毛品质好、遗传性能稳定而闻名于世,是我国畜牧业中特色畜种之一。然而在养殖过程中,存在系谱记录错误的情况,会直接影响育种值估计和个体选择的准确性,极大地限制了我国绒山羊的遗传改良进程。
亲子鉴定是涉及医学、遗传学等相关学科的一门技术,通过分析被测个体与疑似亲本间的相似程度,来判断两者是否存在亲子关系。依据孟德尔遗传定律,在配子细胞形成前染色体成对分布在体细胞内,体细胞进行减数分裂,使染色体分离进入不同的配子中——每个配子只获得亲本(父或母)的一半遗传因子,精卵细胞结合形成合子,最终发育形成子代。因此,父母代都将一半的遗传因子传递给后代,定会遵循孟德尔遗传定律,倘若疑似亲本与子代有相同的遗传因子,则不排除此个体是子代亲本的可能性,若疑似亲本不包含子代的遗传因子,则此个体不可能是子代的亲本。
亲子关系分析旨在使用等显性分子标记识别个体间关系。被广泛应用于动物学、生态学和农业研究等领域。亲子关系分析的常见做法是通过逐个排除非亲缘个体或基于似然概率匹配最似亲缘个体来实现。尽管在过去的三十年中,使用的分子标记已从等位酶、微卫星(STR)逐步更新为SNP,但亲子分析的理论基础并未偏离遵循孟德尔定律的要求。
SNP是指在基因组水平由于单个碱基的颠换(嘧啶和嘌呤之间的颠换)、转换(嘌呤间转换或嘧啶间转换)、缺失或插入等现象造成了DNA序列多态性。颠换与转换是SNP变异的常见形式,且发生概率后者是前者的2倍。由于胞嘧啶常因甲基化而脱去氨基发生转换,故SNP多发生为C转换为T。通常来讲,SNP标记的最小等位基因频率在群体中不小于1%,但不排除有小于1%的情况存在(如cDNA)。
SNP标记具有以下特点:(a)遗传稳定性高(突变率低):SNP是基于单个碱基的突变,在不同生物中,突变频率约在10-9至5×10-9之间,而STR(是由1-6碱基为重复单位的短串联重复序列)的突变频率约在10-6至10-2之间,故SNP遗传稳定性相对较高。(b)位点丰富、覆盖密度大:据研究表明,在哺乳动物中每500-1,000bp就会出现一个SNP,在人的基因组中平均每1,000bp有一个SNP。但基因组中平均每15,000bp才有一个STR。(c)分型准确且可自动化:目前为止,STR分型是通过PAGE或毛细管电泳两种方法,步骤繁琐且由于影子带和杂峰的存在,还需人工矫正易出现分型错误。而SNP可通过PCR、杂交荧光检测、光谱或电子信号以及高通量测序等方法进行检测,不仅方法多样且相对准确易实现自动化。(d)具有代表性:SNP大部分位于非编码区中,少部分在基因组编码区的SNP有导致蛋白质功能改变的可能,这可能是直接造成生物体发生变异或病变的原因,因此可为遗传机理研究提供参考。随着对SNP标记研究的不断加深,SNP有望成为最常用的分子标记。
发明内容
本发明的目的是提供一种山羊亲子鉴定SNPs分子标记,以及该SNPs分子标记在山羊亲子鉴定、育种领域、系谱制定领域、系谱校验领域、个体间遗传关系领域的应用。
本发明的一个方面,提供了一种山羊亲子鉴定SNP分子标记,该SNP分子标记包括:位于山羊三代基因组ARS1版本1号染色体上第35315249bp处的G/C突变,其核苷酸序列如SEQ ID NO:1所示,其中序列中的M显示碱基突变位置,其中M表示G或C;位于山羊三代基因组ARS1版本1号染色体上第115934804bp处的G/A突变,其核苷酸序列如SEQ ID NO:2所示,其中序列中的M显示碱基突变位置,其中M表示G或A;位于山羊三代基因组ARS1版本2号染色体上第1214172bp处的A/G突变,其核苷酸序列如SEQ ID NO:3所示,其中序列中的M显示碱基突变位置,其中M表示A或G;位于山羊三代基因组ARS1版本2号染色体上第47541960bp处的G/A突变,其核苷酸序列如SEQ ID NO:4所示,其中序列中的M显示碱基突变位置,其中M表示G或A;位于山羊三代基因组ARS1版本2号染色体上第57915126bp处的A/G突变,其核苷酸序列如SEQ ID NO:5所示,其中序列中的M显示碱基突变位置,其中M表示A或G;位于山羊三代基因组ARS1版本2号染色体上第85640919bp处的A/G突变,其核苷酸序列如SEQ ID NO:6所示,其中序列中的M显示碱基突变位置,其中M表示A或G;位于山羊三代基因组ARS1版本3号染色体上第12238669bp处的G/A突变,其核苷酸序列如SEQ ID NO:7所示,其中序列中的M显示碱基突变位置,其中M表示G或A;位于山羊三代基因组ARS1版本3号染色体上第23100139bp处的A/G突变,其核苷酸序列如SEQ ID NO:8所示,其中序列中的M显示碱基突变位置,其中M表示A或G;位于山羊三代基因组ARS1版本3号染色体上第36346016bp处的G/A突变,其核苷酸序列如SEQ ID NO:9所示,其中序列中的M显示碱基突变位置,其中M表示G或A;位于山羊三代基因组ARS1版本3号染色体上第66946532bp处的A/G突变,其核苷酸序列如SEQ ID NO:10所示,其中序列中的M显示碱基突变位置,其中M表示A或G;位于山羊三代基因组ARS1版本4号染色体上第3721258bp处的A/G突变,其核苷酸序列如SEQ ID NO:11所示,其中序列中的M显示碱基突变位置,其中M表示A或G;位于山羊三代基因组ARS1版本4号染色体上第46769604bp处的A/C突变,其核苷酸序列如SEQ ID NO:12所示,其中序列中的M显示碱基突变位置,其中M表示A或C;位于山羊三代基因组ARS1版本4号染色体上第115273960bp处的G/A突变,其核苷酸序列如SEQ ID NO:13所示,其中序列中的M显示碱基突变位置,其中M表示G或A;位于山羊三代基因组ARS1版本5号染色体上第106137302bp处的G/A突变,其核苷酸序列如SEQ ID NO:14所示,其中序列中的M显示碱基突变位置,其中M表示G或A;位于山羊三代基因组ARS1版本5号染色体上第117814863bp处的A/G突变,其核苷酸序列如SEQ IDNO:15所示,其中序列中的M显示碱基突变位置,其中M表示A或G;位于山羊三代基因组ARS1版本6号染色体上第8836677bp处的A/G突变,其核苷酸序列如SEQ ID NO:16所示,其中序列中的M显示碱基突变位置,其中M表示A或G;位于山羊三代基因组ARS1版本6号染色体上第22425512bp处的C/G突变,其核苷酸序列如SEQ ID NO:17所示,其中序列中的M显示碱基突变位置,其中M表示C或G;位于山羊三代基因组ARS1版本6号染色体上第89326703bp处的A/G突变,其核苷酸序列如SEQ ID NO:18所示,其中序列中的M显示碱基突变位置,其中M表示A或G;位于山羊三代基因组ARS1版本8号染色体上第42979080bp处的A/G突变,其核苷酸序列如SEQ ID NO:19所示,其中序列中的M显示碱基突变位置,其中M表示A或G;位于山羊三代基因组ARS1版本8号染色体上第68203190bp处的A/G突变,其核苷酸序列如SEQ ID NO:20所示,其中序列中的M显示碱基突变位置,其中M表示A或G;位于山羊三代基因组ARS1版本9号染色体上第42704426bp处的G/A突变,其核苷酸序列如SEQ ID NO:21所示,其中序列中的M显示碱基突变位置,其中M表示G或A;位于山羊三代基因组ARS1版本9号染色体上第83736477bp处的C/G突变,其核苷酸序列如SEQ ID NO:22所示,其中序列中的M显示碱基突变位置,其中M表示C或G;位于山羊三代基因组ARS1版本10号染色体上第23837730bp处的A/G突变,其核苷酸序列如SEQ ID NO:23所示,其中序列中的M显示碱基突变位置,其中M表示A或G;位于山羊三代基因组ARS1版本10号染色体上第90325228bp处的G/A突变,其核苷酸序列如SEQ ID NO:24所示,其中序列中的M显示碱基突变位置,其中M表示G或A;位于山羊三代基因组ARS1版本11号染色体上第21931217bp处的A/G突变,其核苷酸序列如SEQ ID NO:25所示,其中序列中的M显示碱基突变位置,其中M表示A或G;位于山羊三代基因组ARS1版本11号染色体上第85327779bp处的G/A突变,其核苷酸序列如SEQ ID NO:26所示,其中序列中的M显示碱基突变位置,其中M表示G或A;位于山羊三代基因组ARS1版本12号染色体上第32658191bp处的G/A突变,其核苷酸序列如SEQ ID NO:27所示,其中序列中的M显示碱基突变位置,其中M表示G或A;位于山羊三代基因组ARS1版本12号染色体上第60926299bp处的A/G突变,其核苷酸序列如SEQ ID NO:28所示,其中序列中的M显示碱基突变位置,其中M表示A或G;位于山羊三代基因组ARS1版本12号染色体上第75210084bp处的A/C突变,其核苷酸序列如SEQ ID NO:29所示,其中序列中的M显示碱基突变位置,其中M表示A或C;位于山羊三代基因组ARS1版本13号染色体上第23113494bp处的A/G突变,其核苷酸序列如SEQ ID NO:30所示,其中序列中的M显示碱基突变位置,其中M表示A或G;位于山羊三代基因组ARS1版本13号染色体上第58411086bp处的A/G突变,其核苷酸序列如SEQ ID NO:31所示,其中序列中的M显示碱基突变位置,其中M表示A或G;位于山羊三代基因组ARS1版本14号染色体上第1889687bp处的A/G突变,其核苷酸序列如SEQ ID NO:32所示,其中序列中的M显示碱基突变位置,其中M表示A或G;位于山羊三代基因组ARS1版本14号染色体上第17549473bp处的G/A突变,其核苷酸序列如SEQ ID NO:33所示,其中序列中的M显示碱基突变位置,其中M表示G或A;位于山羊三代基因组ARS1版本14号染色体上第52284360bp处的G/A突变,其核苷酸序列如SEQ ID NO:34所示,其中序列中的M显示碱基突变位置,其中M表示G或A;位于山羊三代基因组ARS1版本15号染色体上第67482760bp处的G/A突变,其核苷酸序列如SEQ ID NO:35所示,其中序列中的M显示碱基突变位置,其中M表示G或A;位于山羊三代基因组ARS1版本16号染色体上第29855092bp处的G/A突变,其核苷酸序列如SEQ ID NO:36所示,其中序列中的M显示碱基突变位置,其中M表示G或A;位于山羊三代基因组ARS1版本17号染色体上第1530981bp处的G/A突变,其核苷酸序列如SEQ ID NO:37所示,其中序列中的M显示碱基突变位置,其中M表示G或A;位于山羊三代基因组ARS1版本17号染色体上第40790363bp处的G/A突变,其核苷酸序列如SEQ ID NO:38所示,其中序列中的M显示碱基突变位置,其中M表示G或A;位于山羊三代基因组ARS1版本18号染色体上第64587854bp处的G/A突变,其核苷酸序列如SEQ ID NO:39所示,其中序列中的M显示碱基突变位置,其中M表示G或A;位于山羊三代基因组ARS1版本20号染色体上第2228968bp处的A/G突变,其核苷酸序列如SEQ ID NO:40所示,其中序列中的M显示碱基突变位置,其中M表示A或G;位于山羊三代基因组ARS1版本20号染色体上第39618012bp处的A/G突变,其核苷酸序列如SEQ ID NO:41所示,其中序列中的M显示碱基突变位置,其中M表示A或G;位于山羊三代基因组ARS1版本23号染色体上第13434370bp处的A/G突变,其核苷酸序列如SEQ ID NO:42所示,其中序列中的M显示碱基突变位置,其中M表示A或G;位于山羊三代基因组ARS1版本24号染色体上第43142765bp处的A/G突变,其核苷酸序列如SEQ ID NO:43所示,其中序列中的M显示碱基突变位置,其中M表示A或G;位于山羊三代基因组ARS1版本25号染色体上第1400734bp处的G/A突变,其核苷酸序列如SEQ ID NO:44所示,其中序列中的M显示碱基突变位置,其中M表示G或A;位于山羊三代基因组ARS1版本26号染色体上第27643092bp处的A/G突变,其核苷酸序列如SEQ ID NO:45所示,其中序列中的M显示碱基突变位置,其中M表示A或G;位于山羊三代基因组ARS1版本26号染色体上第42218759bp处的G/A突变,其核苷酸序列如SEQ ID NO:46所示,其中序列中的M显示碱基突变位置,其中M表示G或A;位于山羊三代基因组ARS1版本27号染色体上第22005018bp处的A/G突变,其核苷酸序列如SEQ ID NO:47所示,其中序列中的M显示碱基突变位置,其中M表示A或G;位于山羊三代基因组ARS1版本27号染色体上第42367823bp处的A/G突变,其核苷酸序列如SEQ ID NO:48所示,其中序列中的M显示碱基突变位置,其中M表示A或G;位于山羊三代基因组ARS1版本28号染色体上第507372bp处的C/A突变,其核苷酸序列如SEQ ID NO:49所示,其中序列中的M显示碱基突变位置,其中M表示C或A;位于山羊三代基因组ARS1版本29号染色体上第31461515bp处的A/G突变,其核苷酸序列如SEQ ID NO:50所示,其中序列中的M显示碱基突变位置,其中M表示A或G;选择其中1个或者多个SNP分子标记的组合来用于山羊亲子鉴定。
在某实施方式中,该山羊品种为内蒙古绒山羊。
本发明的另一个方面,提供了一种上述SNP分子标记在山羊亲子鉴定上的应用。
在某实施方式中,上述SNP分子标记应用在内蒙古绒山羊的亲子鉴定上。
本发明的第三个方面,提供了一种SNP分子标记应用于山羊亲子鉴定的方法包括:
对待鉴定对象进行SNP基因型分型,所述的SNP分子标记如权利要求1所示;
对待测个体基因型分型数据进行生物信息学分析,包括质量控制、PCA分析以及贪婪算法,筛选适用于山羊亲子鉴定的SNPs组合;
根据待测个体在最终筛选的SNPs分子标记的基因型数据,使用Cervus3.0.7软件基于似然法计算出LOD和Delta值,根据LOD和Delta值进行亲子关系推断。
在某实施方式中,该亲子鉴定方法中当LOD值大于0时,候选亲本有可能是真实亲代,LOD值最高的个体是最似亲本;当LOD值小于0时,候选亲本不可能是真实亲本。当Delta大于Delta临界值时,候选亲本可能为真实亲本;当Delta值等于0时,无法推断候选亲本的真实性。本发明的第四个方面,提供了一种SNP分子标记在山羊育种领域的应用。
本发明的第五个方面,提供了一种SNP分子标记在制定山羊系谱领域的应用。
本发明的第六个方面,提供了一种SNP分子标记在校验山羊纸质系谱领域的应用。
本发明的第七个方面,提供了一种SNP分子标记在确定个体间遗传关系领域的应用。
本发明的有益效果:
(1)对芯片测序数据进行处理后,初步获得124个SNPs分子标记,通过多态性分析发现内蒙古绒山羊群体存在丰富的遗传多态性,具有很大的育种价值和性状改良潜力。SNP位点的PIC介于0.25-0.5之间,属于中度多态,且全部位点不偏离哈代-温伯格平衡,说明位点无分型问题,可以用于亲子关系分析。
(2)通过对不同梯度组合进行模拟分析发现:累积排除率与标记数目成正比,当位点增大到一定数量,其值将保持不变,最高为1,说明SNP位点过多可能会造成资金的浪费,反而对鉴定无利。当SNP位点数量为50时,能达到较高的累积排除率(CPE1、CPE2、CPE3分别超过了99.87%、99.99%、99.99%),并且能够与初步获得的124个SNPs分子标记达到同等的推断率(100%),说明这50个SNPs分子标记可替代124个分子标记进行后续亲子鉴定研究。
(3)使用50个SNPs对有明确父子、母子关系的个体进行鉴定,其结果与系谱记录全部一致,表明筛选的这50个SNPs分子标记具有亲子鉴定效力。并对有纸质系谱记载的182对父子及163对母子进行鉴定,其结果与系谱记录的一致率为80.78%和80.98%,说明系谱完整性有待进一步提高,通过采用这些SNPs分子标记进行亲子鉴定可以校验纸质系谱的不足,为制定正确的系谱提供科学依据,进一步对于该物种的育种值计算、遗传育种工作提供保障。该SNPs分子标记也可以应用于个体间遗传关系确定、大规模种群的亲子关系确定、家系系谱创建等领域。
附图说明
图1选用的内蒙古绒山羊出生年份分布图;
图2为初步质控后各染色体上SNPs分布图。
具体实施方式
下面结合附图及实施例对发明作进一步详细的说明。
实施例一亲子鉴定SNP分子标记的筛选
1.1材料与方法
1.1.1数据来源
基于课题组前期内蒙古绒山羊GGP_Goat_70K芯片(后文均用70K芯片表示)(详见内蒙古农业大学博士学位论文“山羊SNP芯片设计与内蒙古绒山羊重要经济性状的全基因组关联分析和基因组选择研究”)测序数据,数据共包含1,880个体(全部为内蒙古亿维白绒山羊有限责任公司的阿尔巴斯型内蒙古绒山羊),其中有2010年出生的15只,2011年出生的152只,2012年出生的184只,2013年出生的有258只,2014年出生的226只,2015年出生的235只,2016年出生的254只,2017年出生的460只,2018年出生的96只(如图1所示)。
1.1.2数据处理
(1)原始数据初步质控
该70K芯片共包含67,088个SNPs分子标记,首先利用PLINK软件对数据进行初步质控,质控条件如下:
①SNP分子标记位点位于常染色体上。
②个体检出率大于90%。
③每个标记的检出率大于90%。
④次要等位基因频率(MAF)大于0.01。
⑤哈代——温伯格平衡检验(HW)P>1×10-6
运行命令:plink--file SNP--allow-no-sex--mind 0.1--geno 0.1--maf0.01--hwe 1e-6--recode 12--allow-extra-chr--chr-set 29--out file。
(2)数据填充
对质控后的数据进行格式转换,转换成由0,1,2组成的1,880行、53,066列的数据集(如:0表示基因型AA,1表示基因型Aa,2表示基因型aa)。基于蒙特卡罗马尔科夫链(MCMC,Markov Chain Monte Carlo)算法,使用Beagle软件对尚未分型成功的SNP位点进行填充,用于后续分析。
(3)主成分分析(PCA)
PCA(Principal ComponentsAnalysis)是能够将较大变量集缩减为较小变量集,且信息损失较少的一种数据降维技术。使用Rx644.0.2软件进行PCA分析,对SNP数据集进行降维,并保证SNPs之间能够相互独立。保留了累计贡献率达80%的主成分。
(4)进一步质控
首先,使用PLINK软件对每个主成分进一步严格质控,根据连锁不平衡分析去除强连锁位点,并去除不符合哈代-温伯格平衡检验的位点(P<0.05),以及去除MAF(MinorAllele Frequency,次要等位基因频率)值小于0.3的SNP位点。
(5)贪婪算法筛选SNP
贪婪算法(Greedy algorithm)是指在对问题进行求解时,能够在局部(不是对整体而言)做出最优选择的一种算法。通过Cervus3.0.7软件对严格质控后的位点进行Hexp(Expected Heterozygosity,期望杂合度)、PIC(Polymorphism Information Content,多态信息含量)、PE(Power of Exclusion,单个SNP位点排除某疑似亲本的平均概率)等参数的计算。将每个位点的PE作为参考指标,采用贪婪算法对每个主成分的SNP标记进行筛选,然后合并各个主成分所选SNP标记,根据位点的PIC高低并参考MAF值进行位点剔除,并确保同一条染色体相邻SNP之间的距离大于10Mb,最后获得初步筛选的SNP标记。其中:
①等位基因频率(Allele frequency)是指某一群体中某一特定等位基因在该基因座出现的次数占该基因组所有等位基因的比例。而MAF是指群体中某一位点上不常见的等位基因发生的频率。等位基因频率可用于表示种群中基因的遗传多样性或者可以表示种群基因库的丰富度,计算公式如下:
Pi=P+1/2∑Hi (1)
其中,Pi为某一等位基因的频率;P为含某一等位基因的纯合子的频率;Hi为含某一等位基因的杂合子的频率。
②杂合度(Heterozygosity)指的是一个特定的位点在一个群体中杂合子个体所占的比例,分为Hobs(Observed Heterozygosity,观察杂合度)和HExp。HObs指所检测到杂合子个体占整个群体的比例,HExp指在某个或多个位点,一个个体为杂合子的预期概率,若HExp=0.5,则表示群体内的每个个体有50%的可能性成为杂合子,计算公式如下:
Figure BDA0003174170150000091
Figure BDA0003174170150000092
其中Pi为某一位点上第i个等位基因频率,n为此位点的等位基因数,Ak为第k位点的杂合子个数,m为位点个数。
③PIC(polymorphism information content)表示后代在其系谱结构中能提供的信息量,若PIC=0.37,则说明37%的后代能为系谱结构的解释提供信息,计算公式如下:
Figure BDA0003174170150000093
其中Pi和Pj分别为群体中第i、j个等位基因频率,n为等位基因数。
④PE(Probability ofExclusion)指排除某疑似亲本的平均概率。分为双亲未知(PE1)、单亲已知(PE2)和双亲已知(PE3)三种情况,计算公式如下:
情况一:单亲未知时
Figure BDA0003174170150000094
情况二:单亲已知时
Figure BDA0003174170150000095
情况三:双亲已知时
Figure BDA0003174170150000096
其中,n为每个标记的等位基因个数,Pi为第i个等位基因频率。
⑤CPE(Cumulative probability ofexclusion,累积排除概率)为多个SNP标记所累积的排除概率,计算公式如下:
CPE=1-(1-P1)(1-P2)(1-P3)…(1-PL) (8)
其中L为所选SNP标记个数。
1.1.3SNP多态性研究及模拟分析
对初步筛出的124个SNPs标记进行多态性分析,并按其PIC高低划分9个SNP梯度(各梯度SNPs标记相差10,均为124个SNPs中PIC最高的),同时使用Cervus3.0.7对9个不同梯度SNP组合进行模拟分析,模拟参数为:模拟子代为10,000,候选亲本抽样率为1,位点分型率为1(依据等位基因频率结果),分型错误率设为0.01,95%为严格置信度,80%为宽松置信度。
1.2结果
1.2.1初步质控标记染色体分布
对原始数据进行初步质控后,保留了53,066个SNPs标记,其在每条染色体上的分布见图2。
1.2.2SNP筛选结果
经PCA分析满足累计贡献率达80%的主成分共240个,经进一步质控、贪婪算法等筛选,初步获得124个SNPs位点满足条件。对124个SNPs位点进行统计发现每条染色体上有1-8个不同数量的SNPs位点,且平均距离均大于12Mb。21和25号染色体上仅存在一个位点,数量最少,1号染色体上存在8个位点,数量最多。29号染色体相邻位点间距最小,但也大于12Mb。7号染色体相邻位点间距最大,超过了41Mb,避免了位点间的连锁反应,有利于后续亲子鉴定的分析。(统计结果见表1)
表1各染色体SNP数目及SNP平均间距
Figure BDA0003174170150000101
Figure BDA0003174170150000111
1.2.3 124SNPs多态性研究结果
对初步筛选的124个SNPs位点进行多态性分析,结果显示HObs在0.464-0.534之间(0.5026±0.012),HExp在0.473-0.500之间(0.4977±0.003),说明群体存在丰富的遗传多态性,具有很大的育种价值和性状改良潜力。PIC在0.361-0.375之间(0.3738±0.002)属中度多态。MAF在0.488-0.500之间(0.4965±0.003)。全部位点不偏离哈代-温伯格平衡,表明无无效等位基因、分型偏差、位点连锁等问题,可以用于亲本分析,结果如表2所示。
表2 124SNPs位点多态性信息
Figure BDA0003174170150000121
Figure BDA0003174170150000131
Figure BDA0003174170150000141
Figure BDA0003174170150000151
Figure BDA0003174170150000161
Figure BDA0003174170150000171
注:Locus为位点,HObs为观察杂合度,HExp为期望杂合度,PIC为多态信息含量,MAF为最小等位基因频率,HW为哈代-温伯格平衡定律,NS表示不显著偏离
另外,对124SNPs进行单个位点的排除概率(PE1、PE2、PE3)统计,并进行累积排除概率(CPE)的计算,发现三种鉴定类型都有很高的累计排除概率(均大于0.9999999),说明124个位点的亲子鉴定效果极好,结果如表3所示。
表3 124SNPs单个位点排除率
Figure BDA0003174170150000172
Figure BDA0003174170150000181
Figure BDA0003174170150000191
Figure BDA0003174170150000201
Figure BDA0003174170150000211
Figure BDA0003174170150000221
注:PE1为对一疑似亲本的平均排除概率,PE2为已知另一亲本基因型,对疑似亲本的平均排除概率,PE3为对疑似亲本对的平均排除概率
1.2.4各梯度模拟结果
对不同梯度SNPs组合进行模拟分析,20-124SNPs模拟结果见表4-表13,Delta为子代两个第一和第二最似亲本的LOD(Likelihood ofOdd,似然比的自然对数)差值,Delta临界值越小(最小值为0)表明标记效果越好。由表4-表12的Delta临界值比较看出,临界值在95%的置信水平下由0.85下降到0,说明SNPs的鉴定效果越来越好。由表6可知,40个SNPs的鉴定效果良好,但是在分配率没有达到100%,可能会造成一定的误差,而50个SNPs后分配率均可以达到100%,因此将位点最终选为50个。
表4 20SNPs位点模拟结果
Figure BDA0003174170150000231
表5 30SNPs位点模拟结果
Figure BDA0003174170150000232
表6 40SNPs位点模拟结果
Figure BDA0003174170150000233
表7 50SNPs位点模拟结果
Figure BDA0003174170150000234
表8 60SNPs位点模拟结果
Figure BDA0003174170150000235
Figure BDA0003174170150000241
表9 70SNPs位点模拟结果
Figure BDA0003174170150000242
表10 80SNPs位点模拟结果
Figure BDA0003174170150000243
表11 90SNPs位点模拟结果
Figure BDA0003174170150000244
表12 100SNPs位点模拟结果
Figure BDA0003174170150000245
表13 124SNPs位点模拟结果
Figure BDA0003174170150000246
Figure BDA0003174170150000251
对模拟结果进行统计分析(表14),发现CPE1由0.930791241(20SNPs)增大至0.999999924(124SNPs),CPE2由0.984084844(20SNPs)增大至1(124SNPs),CPE3由0.998636743(20SNPs)增大至1(70SNPs-124 SNPs),且随位点增加排除率不变,说明CPE会随SNP数目增加而增大,待位点增大到一定程度后,排除率保持不变最高为1。且随SNPs标记数目增加,50个以上SNPs标记的亲子分配率(80%、95%置信水平)都可达100%,且50个SNPs位点的CPE1达99.87%,CPE2和CPE3更是超过了99.99%,具有较好的排除效果,与124SNPs组合一样在两种置信水平下推断率能够达到100%。因此,最终选择这50个SNPs进行后续亲子鉴定研究。
表14不同梯度组合排除概率及推断率
Figure BDA0003174170150000252
注:CPE1为对一疑似亲本的累积排除概率,CPE2为当另一亲本基因型已知时,对疑似亲本的累积排除概率,CPE3为对疑似亲本对的累积排除概率
50个SNPs的详细信息见表15和表16。此组合的HObs的平均值为0.5056±0.0105,HExp的平均值为0.4998±0.0004,PIC的平均值为0.375±0.0000,MAF的平均值为0.4969±0.0027。
表15 50个SNPs标记组合信息
Figure BDA0003174170150000261
Figure BDA0003174170150000271
Figure BDA0003174170150000281
表16 50个SNPs多态信息
Figure BDA0003174170150000282
Figure BDA0003174170150000291
Figure BDA0003174170150000301
注:Locus为位点,HObs为观察杂合度,HExp为期望杂合度,PIC为多态信息含量,MAF为最小等位基因频率,HW为哈代-温伯格平衡定律,NS表示不显著偏离
选择亲子鉴定的Taq SNPs时,首先要确保标记具有多态性,其次MAF的值也是一个比较重要的参数,具有高MAF的SNP会在无关个体之间产生最高的相对纯合子频率,CPE随MAF的增大而增大,且MAF超过0.3时,CPE增加显著,其鉴定效果会更加准确。SanaranaYP等在亲子鉴定研究中表明,SNP标记的MAF值对鉴定效果有很大的影响。Van Doormaal V等也指出MAF值较小的SNP亲子鉴定能力有限。王悦(2018)通过对影响亲子鉴定准确性因素的研究,确定了MAF与SNP数目是主要影响因素。周磊等指出一套最低MAF>0.35的40个SNPs标记组合,可满足通常情况的亲子鉴定。Fisher PJ研究指出,平均MAF达到0.35时,与14个STR相比40个SNPs是更好的诊断工具。本研究最终筛选获得的50SNPs组合的MAF范围在0.4883-0.5之间,平均值约为0.4969±0.0027,符合满足MAF>0.35的要求,因此,可用于常规亲子鉴定应用。
在本研究中,50个SNPs标记的单一亲本鉴定累积排除概率大于99.87%,其他两种情况下的鉴定累计排除率则超过了99.99%。因此可以满足亲子鉴定需求,能够用于后续亲子鉴定的应用。
实施例二SNP标记用于内蒙古绒山羊亲子鉴定研究
2.1材料与方法
2.1.1试验数据
(1)实施例一最终筛选的50个SNPs位点。
(2)明确亲子关系的父子与母子各10对(共35个体)。
(3)待测有系谱记录的163对母子(314个体)、182对父子(193个体)。
2.1.2SNP组合验证
利用实施例一所筛选的50个SNPs位点,对具有明确亲子关系的10对父子和母子进行亲子鉴定,验证其SNPs组合的鉴定效力。
2.1.3亲子对鉴定
检测163对母子与182对父子是否存在亲子关系,与系谱记录比对,评估系谱记录的准确性。
2.1.4Cervus3.0.7软件分析
(1)等位基因频率分析
将个体基因型分型数据整理成Cervus软件要求的逗号分隔格式(.csv),勾选标题行,依次填写对应的ID栏、首个等位基因列和位点数。勾选哈代-温伯格平衡测定框测定各位点是否符合哈代-温伯格平衡其他选项默认。保存输出文件,设置好后点击OK。该分析能生成模拟亲本分析及亲本分析所需的等位基因频率,并计算各种汇总统计量,以评估位点用于亲本分析的适合性。
(2)模拟亲本分析
等位基因频率数据可选择等位基因频率输出的扩展名为.alf文件,勾选标题行,填写对应模拟参数(子代、候选亲本(对)、抽样比例、位点分型比例、分型错误率、最小分型位点),分型错误率为0.01。置信区间为80%和95%,最后保存输出文件点击OK。该分析用于估算位点的等位基因频率的解析能力,同时可以估计LOD和Delta临界值。
(3)亲本分析
创建子代及其已知亲本和疑似亲本的ID文件(子代文件可包含亲本),选择适当亲本分析类型(母本、父本、亲本对性别已知或未知)。选择子代文件,勾选标题行选择子代ID对应列,若子代文件包含亲本则需勾选对应选项并填写亲本ID对应列,若不包含则点击Next。候选亲本情况已经填写,继续Next。选择对应个体基因型文件,勾选标题行填写对应ID列及第一个等位基因列,选择扩展名为.alt文件,继续Next。选择模拟分析结果输出的扩展名为.sim的文件,点击Next。保存输出文件点击OK。该分析将为子代匹配最似的亲本。
在Cervus软件使用中,需要注意以下细节:①所用位点是否符合软件分析要求(位于常染色体、连锁平衡等)。②各输入文件(基因型文件、子代及亲本文件等)的信息是否一致、正确。③由于个体基因型缺失(基因型文件中没有该个体的基因型数据)和基因型被忽略(个体分型位点数小于模拟分析时设定的最小分型位点数)的原因,导致分型数据中无位点(一个或多个)的分型数据。④若以Delta统计量进行亲本指派,可能会出现两个最似亲本的LOD值相等,得出Delta值为0。或者,以LOD值作为统计量进行亲本指派,可能两个最似亲本LOD值相等,最终无最可能匹配候选亲本。⑤对于另一亲本基因型已知,进行亲本(父本或母本)分析时,若已知亲本并非子代的真实亲本,则会误导候选亲本的指派。⑥若子代和亲本文件分为两个,在亲子分析步骤中,一定要注意文件是否有行标,子代和亲本所处列及亲本在文件中的出现方式(每代一行或所有子代一列)。
2.1.5系谱比对
将分析结果与系谱记录进行比对,系谱错误为两种情况:(1)Cervus软件分析所得LOD值小于0或Delta值小于临界值,说明该子代无匹配亲本即系谱记录错误。(2)子代经软件匹配亲本与系谱记录不一致,即说明系谱记录错误。
2.2结果
2.2.1SNP组合的鉴定效力
使用10对父子的鉴定结果对50个SNPs位点的鉴定效力进行验证(表17、表18)。由表17可知在严格与宽松置信水平下,Delta临界值为0,鉴定效果极好,且被检测的10个子代全部获得最似父本,分配率达100%。表18显示所有子代与其候选亲本的错配位点都为0,且所有个体的LOD值均大于0、Delta值大于临界值,同时在95%的置信水平下均匹配了真实父本。
表17 10对真实父子关系鉴定的参数
Figure BDA0003174170150000321
Figure BDA0003174170150000331
表18 10对真实父子鉴定结果
Figure BDA0003174170150000332
注:配对置信度显示“*”为严格置信度(95%置信水平);“+”为宽松置信度(80%置信水平);“-”显示最可能候选亲本未被指派;如候选亲本不是最可能的,该列将为空白。
由表19可知,同父子鉴定一样,被检测的10个子代全部获得最似母本,分配率达100%。表20显示除201701267号子代与其最似母本有1个错配位点外(在误差允许范围内),其他子代与最似母本的错配位点都为0,且所有个体的LOD值均大于0、Delta值大于临界值,同时在95%的置信水平下均匹配了真实母本。
表19 10对真实母子关系鉴定的参数
Figure BDA0003174170150000333
表20 10对真实母子鉴定结果
Figure BDA0003174170150000341
注:;配对置信度显示“*”为严格置信度(95%置信水平);“+”为宽松置信度(80%置信水平);“-”显示最可能候选亲本未被指派;如候选亲本不是最可能的,该列将为空白。
2.2.2利用SNP检查系谱信息的准确性
对芯片测序个体进行整理,共发现182对父子及163对母子存在系谱记录(不包含上述用于鉴定效力的10对父子和母子),因此通过这些个体来检查系谱记录的准确性。由于父-子、母-子鉴定个体过多,此处仅展示部分结果(结果如表21和22)。由父子鉴定结果可知,在严格和宽松置信度下Delta临界值都为0,说明标记鉴定效力极佳,且都有162个子代匹配了最似父本,占总体的89%。其中有22对个体存在1-6不等的错配位点,其中错配位点数大于1时,有201804144、201802181、201706298、201604150等20个子代的LOD值小于0且Delta值为0(不大于临界值),排除了最似亲本。除上述20个体外,其他子代均在95%的置信水平下匹配到最似父本。经系谱比对发现,另有201605005、201804262、201804163、201801166等15个个体的最似亲本与系谱记录亲本不一致。最终结果显示,在这182对父-子中有147对与系谱一致,经计算一致率为80.77%。
表21 182对父子鉴定分配参数
Figure BDA0003174170150000351
表22 182对父子鉴定结果
Figure BDA0003174170150000352
Figure BDA0003174170150000361
Figure BDA0003174170150000371
Figure BDA0003174170150000381
Figure BDA0003174170150000391
Figure BDA0003174170150000401
Figure BDA0003174170150000411
Figure BDA0003174170150000421
注:配对置信度显示“*”为严格置信度(95%置信水平);“+”为宽松置信度(80%置信水平);“-”显示最可能候选亲本未被指派;如候选亲本不是最可能的,该列将为空白。
由母子鉴定结果可知(如表23和24所示),在严格和宽松置信度下Delta临界值分别为0.01和0,且都有158个子代获得母本指派,占总体的97%。由鉴定结果得知错配位点不高(为1-3个),仅201702187、201606156、201703172、201805001、201605058这5个子代在严格置信水平下匹配的LOD值小于0且Delta值为0小于临界值0.01,排除了最似母本。除这5个子代外,其他个体均在95%置信水平下匹配到最似母本。经系谱比对发现,有26个子代的最似母本与系谱记录亲本不一致。最终结果3显示,在这163对母-子中有132对与系谱一致,经计算一致率为80.98%。
表23 163对母子鉴定分配参数
Figure BDA0003174170150000431
表24 163对母子鉴定结果
Figure BDA0003174170150000432
Figure BDA0003174170150000441
Figure BDA0003174170150000451
Figure BDA0003174170150000461
Figure BDA0003174170150000471
Figure BDA0003174170150000481
Figure BDA0003174170150000491
注:配对置信度显示“*”为严格置信度(95%置信水平);“+”为宽松置信度(80%置信水平);“-”显示最可能候选亲本未被指派;如候选亲本不是最可能的,该列将为空白。
综上所述,系谱在遗传育种中至关重要,常规育种是建立在系谱和生产性能数据库基础上才能估计育种值,进而根据育种值的高低进行选种。目前较为流行的基因组选择虽然通过测定基因型可以得到亲缘关系矩阵,并进行育种值估计,但多数研究表明,使用最佳线性无偏预测法(GBLUP)估计的基因组育种值准确性要低于一步法(SSBLUP),主要是因为SSBLUP法可以有效的结合系谱数据,通过基于系谱的估算降低基因分型成本,减少育种值的基因组估计偏差,结合基因型和非基因型个体进行联合分析,增大测定群体数量,提高基因组育种值预测的准确性。当个体的父母没有被记录时,亲子分配算法可以使用遗传数据重建亲子关系。在过去的十年中,使用BLUP已在育种计划中实现重大遗传进展。而BLUP的关键在于使用加性遗传关系矩阵对育种值的估算,若系谱错误会将导致育种值估计准确性降低。如此看来,在传统BLUP(ABLUP)中系谱相当于基石,没有系谱就无法完成遗传评估(遗传相关、育种值估计无法做到)。Nwogwugwu CP通过比较基因组GBLUP和SSGBLUP对遗传评价的准确性,得出SSGBLUP的预测精度优于GBLUP方法。即说明使用SSBLUP在结合G阵与A阵后进行预测的准确性高于GBLUP,进一步说明系谱记录在育种实践中的重要性。
在育种实践过程中,系谱错误能够对遗传改良、育种值估计等产生不利影响,进而降低对性状选择的准确性。有研究指出11%的父系错误率将导致群体遗传进展减少11%-15%。亲子错误率达15%时,与无系谱错误相比,对于遗传力(h2)为0.2和0.5的性状,遗传进展分别下降16.9%和8.7%。经模拟发现对于h2为0.25的性状,10%的亲子关系错误率,将造成群体遗传进展降低4.3%,如果利用遗传标记对错误系谱进行纠正,可以带来很大的经济效应。系谱错误造成遗传进展下降的同时,还会对遗传相关、近交系数及公畜方差等的估计造成影响,而且对于基因组选择、QTL定位等利用系谱信息的相关研究也会造成不利影响。García-Ruiz A等研究表明,基因分型和系谱恢复可能有助于提高种群的遗传改良效率。
通过本研究结果,通过SNP标记对内蒙古绒山羊的父子、母子鉴定,与系谱的一致率均在80%左右,说明在该群体中纸质系谱完整性有待进一步提高,后续拟对不一致的系谱信息进一步核对、加强系谱管理工作、避免系谱错误、保证其准确性,为相关育种工作提供可靠的数据保障,极致发挥系谱在育种实践中的作用。
以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于发明的保护范围。
序列表
<110> 内蒙古农业大学
<120> 一种山羊亲子鉴定SNP分子标记及其应用
<130> 20210622
<160> 50
<170> SIPOSequenceListing 1.0
<210> 1
<211> 21
<212> DNA
<213> Capra hircus
<400> 1
tgacctgcta mtcttctccc c 21
<210> 2
<211> 21
<212> DNA
<213> Capra hircus
<400> 2
tgccaatgta mgctacaatc a 21
<210> 3
<211> 21
<212> DNA
<213> Capra hircus
<400> 3
agctcacaca mctctatccg t 21
<210> 4
<211> 21
<212> DNA
<213> Capra hircus
<400> 4
gatcccactg mcagggtacg t 21
<210> 5
<211> 21
<212> DNA
<213> Capra hircus
<400> 5
atgttcatag magcactatt c 21
<210> 6
<211> 21
<212> DNA
<213> Capra hircus
<400> 6
aagaaaatct mctacataag g 21
<210> 7
<211> 21
<212> DNA
<213> Capra hircus
<400> 7
gctgatgttg magtggggca g 21
<210> 8
<211> 21
<212> DNA
<213> Capra hircus
<400> 8
ttgtgaacta mtacagagca a 21
<210> 9
<211> 21
<212> DNA
<213> Capra hircus
<400> 9
ccaacatcct mtaccgtcta t 21
<210> 10
<211> 21
<212> DNA
<213> Capra hircus
<400> 10
tctgcttcat matcctcctc t 21
<210> 11
<211> 21
<212> DNA
<213> Capra hircus
<400> 11
tgacaccagc mcatgtattc t 21
<210> 12
<211> 21
<212> DNA
<213> Capra hircus
<400> 12
taatattgat mtcaaaatac a 21
<210> 13
<211> 21
<212> DNA
<213> Capra hircus
<400> 13
aacacagaag mttccaggag c 21
<210> 14
<211> 21
<212> DNA
<213> Capra hircus
<400> 14
tatgtatata macatctctt c 21
<210> 15
<211> 21
<212> DNA
<213> Capra hircus
<400> 15
ctctgctctg mgatgagagt c 21
<210> 16
<211> 21
<212> DNA
<213> Capra hircus
<400> 16
cctcttctta mggcctgaaa c 21
<210> 17
<211> 21
<212> DNA
<213> Capra hircus
<400> 17
ttagacctgt mccaaaacaa t 21
<210> 18
<211> 21
<212> DNA
<213> Capra hircus
<400> 18
gaactgttct mgcggaccag g 21
<210> 19
<211> 21
<212> DNA
<213> Capra hircus
<400> 19
agctttgagg mcttcagccc c 21
<210> 20
<211> 21
<212> DNA
<213> Capra hircus
<400> 20
tggaggagac mtgcagaagg g 21
<210> 21
<211> 21
<212> DNA
<213> Capra hircus
<400> 21
cgcatagaca mcatttcttc t 21
<210> 22
<211> 21
<212> DNA
<213> Capra hircus
<400> 22
ccctgcagct mttagtgcca g 21
<210> 23
<211> 21
<212> DNA
<213> Capra hircus
<400> 23
cagaatcagc mtatatccat a 21
<210> 24
<211> 21
<212> DNA
<213> Capra hircus
<400> 24
atgtgctcca mgttactttg t 21
<210> 25
<211> 21
<212> DNA
<213> Capra hircus
<400> 25
acccactgcg mggcaatttg a 21
<210> 26
<211> 21
<212> DNA
<213> Capra hircus
<400> 26
tcttctgtca mgatgctgtc c 21
<210> 27
<211> 22
<212> DNA
<213> Capra hircus
<400> 27
ccacacctcc tmtatctctt gc 22
<210> 28
<211> 21
<212> DNA
<213> Capra hircus
<400> 28
caatgtccat matgcagcgt c 21
<210> 29
<211> 21
<212> DNA
<213> Capra hircus
<400> 29
aggttttgaa magactattg t 21
<210> 30
<211> 21
<212> DNA
<213> Capra hircus
<400> 30
ggacgtgaca mgagtgggaa t 21
<210> 31
<211> 21
<212> DNA
<213> Capra hircus
<400> 31
atgtgtttta magttttgca t 21
<210> 32
<211> 21
<212> DNA
<213> Capra hircus
<400> 32
gtgtgagtgc mgtacgcata g 21
<210> 33
<211> 21
<212> DNA
<213> Capra hircus
<400> 33
agctacagaa maatgagaaa t 21
<210> 34
<211> 21
<212> DNA
<213> Capra hircus
<400> 34
gacttttggt mcacaatagg t 21
<210> 35
<211> 21
<212> DNA
<213> Capra hircus
<400> 35
ggtaaaggga mtgagagagg a 21
<210> 36
<211> 21
<212> DNA
<213> Capra hircus
<400> 36
gcacaatgag maccccgtaa c 21
<210> 37
<211> 21
<212> DNA
<213> Capra hircus
<400> 37
tcctcttgtt magcccaggt c 21
<210> 38
<211> 21
<212> DNA
<213> Capra hircus
<400> 38
ttggggttta mgtagatatt c 21
<210> 39
<211> 21
<212> DNA
<213> Capra hircus
<400> 39
aaaggagcaa mgagaagatc t 21
<210> 40
<211> 21
<212> DNA
<213> Capra hircus
<400> 40
ggcattcacc mcggctgtcc g 21
<210> 41
<211> 21
<212> DNA
<213> Capra hircus
<400> 41
cccacgcccc mgcccctgcc a 21
<210> 42
<211> 21
<212> DNA
<213> Capra hircus
<400> 42
atctaaagcc mcagggtggc t 21
<210> 43
<211> 21
<212> DNA
<213> Capra hircus
<400> 43
tgtttataca maagaacaaa g 21
<210> 44
<211> 21
<212> DNA
<213> Capra hircus
<400> 44
aacccagctc magacacccc t 21
<210> 45
<211> 21
<212> DNA
<213> Capra hircus
<400> 45
gctgggtttt mccaagaggc c 21
<210> 46
<211> 21
<212> DNA
<213> Capra hircus
<400> 46
gttttccaac magcttctag g 21
<210> 47
<211> 21
<212> DNA
<213> Capra hircus
<400> 47
tatagcaatt mtatttcaat a 21
<210> 48
<211> 21
<212> DNA
<213> Capra hircus
<400> 48
actctgaaag mgaaagcgtt g 21
<210> 49
<211> 21
<212> DNA
<213> Capra hircus
<400> 49
atagtttagt mgaggcggtg g 21
<210> 50
<211> 21
<212> DNA
<213> Capra hircus
<400> 50
cctgcctcag mttatgctgt g 21

Claims (6)

1.一种山羊亲子鉴定SNP分子标记的基因片段组合,其中,所述SNP分子标记的基因片段组合包括:位于山羊三代基因组ARS1版本1号染色体上第35315249bp处的G/C突变,其核苷酸序列如SEQ ID NO:1所示,其中序列中的M显示碱基突变位置,其中M表示G或C;位于山羊三代基因组ARS1版本1号染色体上第115934804bp处的G/A突变,其核苷酸序列如SEQ IDNO:2所示,其中序列中的M显示碱基突变位置,其中M表示G或A;位于山羊三代基因组ARS1版本2号染色体上第1214172bp处的A/G突变,其核苷酸序列如SEQ ID NO:3所示,其中序列中的M显示碱基突变位置,其中M表示A或G;位于山羊三代基因组ARS1版本2号染色体上第47541960bp处的G/A突变,其核苷酸序列如SEQ ID NO:4所示,其中序列中的M显示碱基突变位置,其中M表示G或A;位于山羊三代基因组ARS1版本2号染色体上第57915126bp处的A/G突变,其核苷酸序列如SEQ ID NO:5所示,其中序列中的M显示碱基突变位置,其中M表示A或G;位于山羊三代基因组ARS1版本2号染色体上第85640919bp处的A/G突变,其核苷酸序列如SEQ ID NO:6所示,其中序列中的M显示碱基突变位置,其中M表示A或G;位于山羊三代基因组ARS1版本3号染色体上第12238669bp处的G/A突变,其核苷酸序列如SEQ ID NO:7所示,其中序列中的M显示碱基突变位置,其中M表示G或A;位于山羊三代基因组ARS1版本3号染色体上第23100139bp处的A/G突变,其核苷酸序列如SEQ ID NO:8所示,其中序列中的M显示碱基突变位置,其中M表示A或G;位于山羊三代基因组ARS1版本3号染色体上第36346016bp处的G/A突变,其核苷酸序列如SEQ ID NO:9所示,其中序列中的M显示碱基突变位置,其中M表示G或A;位于山羊三代基因组ARS1版本3号染色体上第66946532bp处的A/G突变,其核苷酸序列如SEQ ID NO:10所示,其中序列中的M显示碱基突变位置,其中M表示A或G;位于山羊三代基因组ARS1版本4号染色体上第3721258bp处的A/G突变,其核苷酸序列如SEQ ID NO:11所示,其中序列中的M显示碱基突变位置,其中M表示A或G;位于山羊三代基因组ARS1版本4号染色体上第46769604bp处的A/C突变,其核苷酸序列如SEQ ID NO:12所示,其中序列中的M显示碱基突变位置,其中M表示A或C;位于山羊三代基因组ARS1版本4号染色体上第115273960bp处的G/A突变,其核苷酸序列如SEQ ID NO:13所示,其中序列中的M显示碱基突变位置,其中M表示G或A;位于山羊三代基因组ARS1版本5号染色体上第106137302bp处的G/A突变,其核苷酸序列如SEQ ID NO:14所示,其中序列中的M显示碱基突变位置,其中M表示G或A;位于山羊三代基因组ARS1版本5号染色体上第117814863bp处的A/G突变,其核苷酸序列如SEQ ID NO:15所示,其中序列中的M显示碱基突变位置,其中M表示A或G;位于山羊三代基因组ARS1版本6号染色体上第8836677bp处的A/G突变,其核苷酸序列如SEQ ID NO:16所示,其中序列中的M显示碱基突变位置,其中M表示A或G;位于山羊三代基因组ARS1版本6号染色体上第22425512bp处的C/G突变,其核苷酸序列如SEQ ID NO:17所示,其中序列中的M显示碱基突变位置,其中M表示C或G;位于山羊三代基因组ARS1版本6号染色体上第89326703bp处的A/G突变,其核苷酸序列如SEQ ID NO:18所示,其中序列中的M显示碱基突变位置,其中M表示A或G;位于山羊三代基因组ARS1版本8号染色体上第42979080bp处的A/G突变,其核苷酸序列如SEQ ID NO:19所示,其中序列中的M显示碱基突变位置,其中M表示A或G;位于山羊三代基因组ARS1版本8号染色体上第68203190bp处的A/G突变,其核苷酸序列如SEQ ID NO:20所示,其中序列中的M显示碱基突变位置,其中M表示A或G;位于山羊三代基因组ARS1版本9号染色体上第42704426bp处的G/A突变,其核苷酸序列如SEQ ID NO:21所示,其中序列中的M显示碱基突变位置,其中M表示G或A;位于山羊三代基因组ARS1版本9号染色体上第83736477bp处的C/G突变,其核苷酸序列如SEQ ID NO:22所示,其中序列中的M显示碱基突变位置,其中M表示C或G;位于山羊三代基因组ARS1版本10号染色体上第23837730bp处的A/G突变,其核苷酸序列如SEQ ID NO:23所示,其中序列中的M显示碱基突变位置,其中M表示A或G;位于山羊三代基因组ARS1版本10号染色体上第90325228bp处的G/A突变,其核苷酸序列如SEQ ID NO:24所示,其中序列中的M显示碱基突变位置,其中M表示G或A;位于山羊三代基因组ARS1版本11号染色体上第21931217bp处的A/G突变,其核苷酸序列如SEQ ID NO:25所示,其中序列中的M显示碱基突变位置,其中M表示A或G;位于山羊三代基因组ARS1版本11号染色体上第85327779bp处的G/A突变,其核苷酸序列如SEQ ID NO:26所示,其中序列中的M显示碱基突变位置,其中M表示G或A;位于山羊三代基因组ARS1版本12号染色体上第32658191bp处的G/A突变,其核苷酸序列如SEQ ID NO:27所示,其中序列中的M显示碱基突变位置,其中M表示G或A;位于山羊三代基因组ARS1版本12号染色体上第60926299bp处的A/G突变,其核苷酸序列如SEQ ID NO:28所示,其中序列中的M显示碱基突变位置,其中M表示A或G;位于山羊三代基因组ARS1版本12号染色体上第75210084bp处的A/C突变,其核苷酸序列如SEQ ID NO:29所示,其中序列中的M显示碱基突变位置,其中M表示A或C;位于山羊三代基因组ARS1版本13号染色体上第23113494bp处的A/G突变,其核苷酸序列如SEQ ID NO:30所示,其中序列中的M显示碱基突变位置,其中M表示A或G;位于山羊三代基因组ARS1版本13号染色体上第58411086bp处的A/G突变,其核苷酸序列如SEQ ID NO:31所示,其中序列中的M显示碱基突变位置,其中M表示A或G;位于山羊三代基因组ARS1版本14号染色体上第1889687bp处的A/G突变,其核苷酸序列如SEQ ID NO:32所示,其中序列中的M显示碱基突变位置,其中M表示A或G;位于山羊三代基因组ARS1版本14号染色体上第17549473bp处的G/A突变,其核苷酸序列如SEQ ID NO:33所示,其中序列中的M显示碱基突变位置,其中M表示G或A;位于山羊三代基因组ARS1版本14号染色体上第52284360bp处的G/A突变,其核苷酸序列如SEQ ID NO:34所示,其中序列中的M显示碱基突变位置,其中M表示G或A;位于山羊三代基因组ARS1版本15号染色体上第67482760bp处的G/A突变,其核苷酸序列如SEQ ID NO:35所示,其中序列中的M显示碱基突变位置,其中M表示G或A;位于山羊三代基因组ARS1版本16号染色体上第29855092bp处的G/A突变,其核苷酸序列如SEQ ID NO:36所示,其中序列中的M显示碱基突变位置,其中M表示G或A;位于山羊三代基因组ARS1版本17号染色体上第1530981bp处的G/A突变,其核苷酸序列如SEQ ID NO:37所示,其中序列中的M显示碱基突变位置,其中M表示G或A;位于山羊三代基因组ARS1版本17号染色体上第40790363bp处的G/A突变,其核苷酸序列如SEQ ID NO:38所示,其中序列中的M显示碱基突变位置,其中M表示G或A;位于山羊三代基因组ARS1版本18号染色体上第64587854bp处的G/A突变,其核苷酸序列如SEQ ID NO:39所示,其中序列中的M显示碱基突变位置,其中M表示G或A;位于山羊三代基因组ARS1版本20号染色体上第2228968bp处的A/G突变,其核苷酸序列如SEQ ID NO:40所示,其中序列中的M显示碱基突变位置,其中M表示A或G;位于山羊三代基因组ARS1版本20号染色体上第39618012bp处的A/G突变,其核苷酸序列如SEQ ID NO:41所示,其中序列中的M显示碱基突变位置,其中M表示A或G;位于山羊三代基因组ARS1版本23号染色体上第13434370bp处的A/G突变,其核苷酸序列如SEQ ID NO:42所示,其中序列中的M显示碱基突变位置,其中M表示A或G;位于山羊三代基因组ARS1版本24号染色体上第43142765bp处的A/G突变,其核苷酸序列如SEQ ID NO:43所示,其中序列中的M显示碱基突变位置,其中M表示A或G;位于山羊三代基因组ARS1版本25号染色体上第1400734bp处的G/A突变,其核苷酸序列如SEQ ID NO:44所示,其中序列中的M显示碱基突变位置,其中M表示G或A;位于山羊三代基因组ARS1版本26号染色体上第27643092bp处的A/G突变,其核苷酸序列如SEQ ID NO:45所示,其中序列中的M显示碱基突变位置,其中M表示A或G;位于山羊三代基因组ARS1版本26号染色体上第42218759bp处的G/A突变,其核苷酸序列如SEQ ID NO:46所示,其中序列中的M显示碱基突变位置,其中M表示G或A;位于山羊三代基因组ARS1版本27号染色体上第22005018bp处的A/G突变,其核苷酸序列如SEQ ID NO:47所示,其中序列中的M显示碱基突变位置,其中M表示A或G;位于山羊三代基因组ARS1版本27号染色体上第42367823bp处的A/G突变,其核苷酸序列如SEQ ID NO:48所示,其中序列中的M显示碱基突变位置,其中M表示A或G;位于山羊三代基因组ARS1版本28号染色体上第507372bp处的C/A突变,其核苷酸序列如SEQ ID NO:49所示,其中序列中的M显示碱基突变位置,其中M表示C或A;位于山羊三代基因组ARS1版本29号染色体上第31461515bp处的A/G突变,其核苷酸序列如SEQ ID NO:50所示,其中序列中的M显示碱基突变位置,其中M表示A或G;选择50个SNP分子标记的组合来进行应用。
2.权利要求1中所述的50个SNP分子标记的组合在内蒙古绒山羊亲子鉴定上的应用。
3.权利要求1中所述的50个SNP分子标记的组合应用于内蒙古绒山羊亲子鉴定的方法包括:
对待鉴定对象进行SNP分子标记基因型分型,所述的SNP分子标记是如权利要求1中所述的分子标记的组合;
对待测个体基因型分型数据进行生物信息学分析,包括质量控制、PCA分析以及贪婪算法,筛选适用于山羊亲子鉴定的SNPs组合;
根据待测个体在最终筛选的SNPs分子标记的基因型数据,使用Cervus软件基于似然法计算出LOD和Delta值,根据LOD和Delta值进行亲子关系判断:其中,当LOD值大于0时,候选亲本有可能是真实亲代,LOD值最高的个体是最似亲本;当LOD值小于0时,候选亲本不可能是真实亲本;当Delta大于Delta临界值时,候选亲本可能为真实亲本;当Delta值等于0时,无法推断候选亲本的真实性。
4.权利要求1中所述的50个SNP分子标记的组合在制定内蒙古绒山羊系谱领域的应用。
5.权利要求1中所述的50个SNP分子标记的组合在校验内蒙古绒山羊纸质系谱领域的应用。
6.权利要求1中所述的50个SNP分子标记的组合在确定内蒙古绒山羊个体间遗传关系领域的应用。
CN202110827526.7A 2021-07-21 2021-07-21 一种山羊亲子鉴定snp分子标记及其应用 Active CN113549701B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110827526.7A CN113549701B (zh) 2021-07-21 2021-07-21 一种山羊亲子鉴定snp分子标记及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110827526.7A CN113549701B (zh) 2021-07-21 2021-07-21 一种山羊亲子鉴定snp分子标记及其应用

Publications (2)

Publication Number Publication Date
CN113549701A CN113549701A (zh) 2021-10-26
CN113549701B true CN113549701B (zh) 2022-07-01

Family

ID=78103940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110827526.7A Active CN113549701B (zh) 2021-07-21 2021-07-21 一种山羊亲子鉴定snp分子标记及其应用

Country Status (1)

Country Link
CN (1) CN113549701B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118441073B (zh) * 2024-07-08 2024-10-01 内蒙古农业大学 与绒山羊胸宽相关的单倍型分子标记及其应用

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102978286A (zh) * 2012-12-08 2013-03-20 上海迪道科技有限公司 利用特定snp组合进行亲子鉴定的方法
CN105296608A (zh) * 2015-09-17 2016-02-03 上海大学 一种基于snp组合的亲子鉴定方法
CN106222292A (zh) * 2016-08-31 2016-12-14 山东农业大学 用于构建和鉴定奶牛分子系谱的遗传标记及其应用

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2770342T3 (es) * 2010-12-22 2020-07-01 Natera Inc Procedimientos para pruebas prenatales no invasivas de paternidad

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102978286A (zh) * 2012-12-08 2013-03-20 上海迪道科技有限公司 利用特定snp组合进行亲子鉴定的方法
CN105296608A (zh) * 2015-09-17 2016-02-03 上海大学 一种基于snp组合的亲子鉴定方法
CN106222292A (zh) * 2016-08-31 2016-12-14 山东农业大学 用于构建和鉴定奶牛分子系谱的遗传标记及其应用

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Genetic diversity and population structure in multiple Chinese goat populations using a SNP panel;H Berihulay等;《Anim Genet》;20190318;第50卷(第3期);第242-249页 *
Genome-wide Target Enrichment-aided Chip Design: a 66 K SNP Chip for Cashmere Goat;Xian Qiao等;《Sci Rep》;20170817;第7卷(第1期);8621,第1-13页 *
动物亲子鉴定的方法及进展;张正义等;《经济动物学报》;20161104;第20卷(第4期);第234-238页 *
山羊SNP芯片设计与内蒙古绒山羊重要经济性状全基因组关联分析及基因组选择研究;王凤红;《中国优秀博硕士学位论文全文数据库(博士)农业科技辑》;20220115(第01期);第D050-92页 *

Also Published As

Publication number Publication date
CN113549701A (zh) 2021-10-26

Similar Documents

Publication Publication Date Title
Qanbari On the extent of linkage disequilibrium in the genome of farm animals
Luan et al. The accuracy of genomic selection in Norwegian red cattle assessed by cross-validation
Ober et al. Using whole-genome sequence data to predict quantitative trait phenotypes in Drosophila melanogaster
CN107967409B (zh) 一种猪全基因组低密度snp芯片及其制作方法和应用
CN112885408B (zh) 一种基于低深度测序检测snp标记位点的方法及装置
Yonemaru et al. Genome-wide haplotype changes produced by artificial selection during modern rice breeding in Japan
CN109744195B (zh) 一种动物育种中利用亲代基因组信息的精准选配方法
Caballero et al. Toward genomic selection in Pinus taeda: Integrating resources to support array design in a complex conifer genome
CN107058600B (zh) 一种划分玉米优势群体的snp分子标记及其应用
CN115443907B (zh) 基于全基因组选择的高产大果花生杂交组配选择的方法
Kastally et al. Taming the massive genome of Scots pine with PiSy50k, a new genotyping array for conifer research
Song et al. Recovery of novel association loci in Arabidopsis thaliana and Drosophila melanogaster through leveraging INDELs association and integrated burden test
CN114941033A (zh) 一种基于snp位点辅助培育地方优质白羽鸡高产蛋品系的方法
CN113549701B (zh) 一种山羊亲子鉴定snp分子标记及其应用
De Roos Genomic selection in dairy cattle
Li et al. Genomic prediction of preliminary yield trials in chickpea: Effect of functional annotation of SNPs and environment
CN114921561A (zh) 杜洛克猪全基因组低密度snp芯片及其制备方法和应用
CN111370058B (zh) 一种基于全基因组snp信息追溯水牛血统来源以及进行基因组选配的方法
Bodrug-Schepers et al. Quinoa genome assembly employing genomic variation for guided scaffolding
CN112226529A (zh) 一种冬瓜抗枯萎病基因的snp分子标记及应用
CN117409857A (zh) 一种GT-Seq分型SNP的数据处理方法
CN107644150A (zh) 一种高密度遗传图谱的构建方法
CN107447022B (zh) 一种预测玉米杂种优势的snp分子标记及应用
CN113793637B (zh) 基于亲本基因型与子代表型的全基因组关联分析方法
Haristoy et al. Genomic prediction in a multi-generation Eucalyptus globulus breeding population

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant