CN117535429B - 用于从岭藏鸡品种鉴定的snp位点集合及其应用 - Google Patents
用于从岭藏鸡品种鉴定的snp位点集合及其应用 Download PDFInfo
- Publication number
- CN117535429B CN117535429B CN202410036835.6A CN202410036835A CN117535429B CN 117535429 B CN117535429 B CN 117535429B CN 202410036835 A CN202410036835 A CN 202410036835A CN 117535429 B CN117535429 B CN 117535429B
- Authority
- CN
- China
- Prior art keywords
- base
- chromosome
- physical position
- mutant
- reference base
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 241000287828 Gallus gallus Species 0.000 title claims abstract description 85
- 210000000349 chromosome Anatomy 0.000 claims abstract description 355
- 238000012163 sequencing technique Methods 0.000 claims abstract description 21
- 238000003908 quality control method Methods 0.000 claims abstract description 16
- 238000010801 machine learning Methods 0.000 claims abstract description 14
- 238000000513 principal component analysis Methods 0.000 claims abstract description 10
- 238000003205 genotyping method Methods 0.000 claims abstract description 6
- 238000000605 extraction Methods 0.000 claims abstract description 5
- 235000013330 chicken meat Nutrition 0.000 claims description 77
- 238000000034 method Methods 0.000 claims description 23
- 239000000523 sample Substances 0.000 claims description 18
- 238000007621 cluster analysis Methods 0.000 claims description 10
- 238000012360 testing method Methods 0.000 claims description 10
- 108700028369 Alleles Proteins 0.000 claims description 7
- 239000013074 reference sample Substances 0.000 claims description 6
- 238000012217 deletion Methods 0.000 claims description 5
- 230000037430 deletion Effects 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 3
- 101000690100 Homo sapiens U1 small nuclear ribonucleoprotein 70 kDa Proteins 0.000 claims description 2
- 101100210221 Homo sapiens WBP11 gene Proteins 0.000 claims description 2
- 101100029173 Phaeosphaeria nodorum (strain SN15 / ATCC MYA-4574 / FGSC 10173) SNP2 gene Proteins 0.000 claims description 2
- 101100236128 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) LSM2 gene Proteins 0.000 claims description 2
- 101100094821 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) SMX2 gene Proteins 0.000 claims description 2
- 102100024121 U1 small nuclear ribonucleoprotein 70 kDa Human genes 0.000 claims description 2
- 102100028275 WW domain-binding protein 11 Human genes 0.000 claims description 2
- 230000003321 amplification Effects 0.000 claims description 2
- 238000001976 enzyme digestion Methods 0.000 claims description 2
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 2
- 238000001269 time-of-flight mass spectrometry Methods 0.000 claims description 2
- 239000003550 marker Substances 0.000 abstract description 5
- 238000012706 support-vector machine Methods 0.000 description 13
- 108020004414 DNA Proteins 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 6
- 238000007637 random forest analysis Methods 0.000 description 6
- 238000012216 screening Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 244000025254 Cannabis sativa Species 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000002759 chromosomal effect Effects 0.000 description 2
- 235000013601 eggs Nutrition 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000002773 nucleotide Substances 0.000 description 2
- 125000003729 nucleotide group Chemical group 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 235000012766 Cannabis sativa ssp. sativa var. sativa Nutrition 0.000 description 1
- 235000012765 Cannabis sativa ssp. sativa var. spontanea Nutrition 0.000 description 1
- 102100040428 Chitobiosyldiphosphodolichol beta-mannosyltransferase Human genes 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 101000891557 Homo sapiens Chitobiosyldiphosphodolichol beta-mannosyltransferase Proteins 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 238000010241 blood sampling Methods 0.000 description 1
- 230000037237 body shape Effects 0.000 description 1
- 238000009395 breeding Methods 0.000 description 1
- 230000001488 breeding effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 235000009120 camo Nutrition 0.000 description 1
- 235000005607 chanvre indien Nutrition 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 210000000078 claw Anatomy 0.000 description 1
- 238000002856 computational phylogenetic analysis Methods 0.000 description 1
- 235000009508 confectionery Nutrition 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 210000003746 feather Anatomy 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000011487 hemp Substances 0.000 description 1
- 238000013095 identification testing Methods 0.000 description 1
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 1
- 244000144972 livestock Species 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 210000001087 myotubule Anatomy 0.000 description 1
- 235000013550 pizza Nutrition 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000007480 sanger sequencing Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 238000001196 time-of-flight mass spectrum Methods 0.000 description 1
- 238000012070 whole genome sequencing analysis Methods 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6888—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/156—Polymorphic or mutational markers
Landscapes
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Engineering & Computer Science (AREA)
- Organic Chemistry (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Genetics & Genomics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Biotechnology (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Microbiology (AREA)
- Immunology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了用于从岭藏鸡品种鉴定的SNP位点集合及其应用。所述SNP位点在基因组具体染色体位置是以鸡7.0参考基因组作为参考基因组比对后确定,所述SNP位点集合由SNP1‑SNP176所示的176个SNP位点组成的集合。本发明还公开了采用SNP位点集合在从岭藏鸡品种鉴定中的应用,包括:(1)DNA的提取和测序;(2)SNP基因分型和质控:将靶向测序的数据与鸡7.0参考基因组进行比对生成基因型文件并进行质控;(3)采用SVM机器学习方法和PCA分析鉴定待检测品种是否为从岭藏鸡品种。采用本发明提供的SNP标记组合能用最少的SNP标记更加准确的鉴定从岭藏鸡样本,极大提高了鉴定效率。
Description
技术领域
本发明涉及SNP位点及其应用,尤其涉及用于从岭藏鸡品种鉴定的SNP位点集合及其应用,属于鸡SNP位点及其应用领域。
背景技术
从岭藏鸡生长于海拔1200 ~ 2900米,以草尖、草籽、虫子和其他杂物为食,对外界环境适应力强。该鸡体型较长而低矮,匀称紧凑,头小爪细,羽色鲜艳光亮,以黑色为主,兼有麻、褐色。成年公鸡体重1.5~2.0千克,成年母鸡体重1~1.5千克。母鸡年产蛋70~100枚,单枚蛋重30~35克。从岭藏鸡肉味甘,皮薄,肌肉紧实,肌纤维较细,脂肪含量低,清香味美。伴随着舟曲从岭藏鸡产业的发展,市场上出现一些套牌鸡种,以次充好,严重影响了从岭藏鸡保护利用单位的利益以及从岭藏鸡市场的健康发展。
单核苷酸多态性(SNP)是指个体或群体间在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性,是基因组可遗传变异中最常见的一种分子标记。二倍体生物中,SNP分子标记具有数量多、密度高、类型简单的特征。基于这些特征,通过SNP的差异鉴别种质资源的来源,成为当前遗传资源鉴定最有效的工具之一。获得基因组SNP的方法主要包括全基因组测序等高通量方法和Sanger测序等传统“金标准”方法。其中,全基因组重测序获取的SNP标记密度高、速度快。但应用于品种鉴定存在两个问题:一是需要进行大量的筛选工作才能获得真实有效的适用于种质资源鉴定的SNP标记;二是怎样用最少的SNP标记检测尽多的品种样本,因此,需要筛选出最简单及最准确的SNP标记组合。
发明内容
本发明的目的之一是提供用于从岭藏鸡品种鉴定的SNP位点集合;
本发明的目的之二是将所述的SNP位点集合应用于从岭藏鸡品种的鉴定;
为实现上述目的,本发明所采取的主要技术方案包括:
本发明的一方面是提供了用于从岭藏鸡品种鉴定的SNP位点集合,所述SNP位点在基因组具体染色体位置是以鸡7.0参考基因组(GRCg7b)作为参考基因组比对后确定,所述SNP位点集合由以下SNP1- SNP176所示的176个SNP位点组成的集合:
SNP1: 1号染色体,物理位置:1304190, 突变碱基T,参考碱基C;
SNP2: 1号染色体,物理位置:4895824, 突变碱基C,参考碱基T;
SNP3: 1号染色体,物理位置:14138529, 突变碱基G,参考碱基A;
SNP4: 1号染色体,物理位置:27698625, 突变碱基T,参考碱基C;
SNP5: 1号染色体,物理位置:48968559, 突变碱基G,参考碱基C;
SNP6: 1号染色体,物理位置:52273892, 突变碱基G,参考碱基A;
SNP7: 1号染色体,物理位置:52799375, 突变碱基A,参考碱基G;
SNP8: 1号染色体,物理位置:52960797, 突变碱基A,参考碱基G;
SNP9: 1号染色体,物理位置:52989389, 突变碱基T,参考碱基C;
SNP10:1号染色体,物理位置:53080995, 突变碱基G,参考碱基A;
SNP11:1号染色体,物理位置:53142996, 突变碱基A,参考碱基T;
SNP12:1号染色体,物理位置:54959234, 突变碱基G,参考碱基T;
SNP13:1号染色体,物理位置:55115690, 突变碱基T,参考碱基C;
SNP14:1号染色体,物理位置:56602994, 突变碱基T,参考碱基C;
SNP15:1号染色体,物理位置:80298900, 突变碱基T,参考碱基C;
SNP16:1号染色体,物理位置:84127068, 突变碱基T,参考碱基C;
SNP17:1号染色体,物理位置:84153175, 突变碱基T,参考碱基A;
SNP18:1号染色体,物理位置:106396822, 突变碱基T,参考碱基C;
SNP19:1号染色体,物理位置:123952880, 突变碱基A,参考碱基G;
SNP20:1号染色体,物理位置:128709327, 突变碱基A,参考碱基T;
SNP21:1号染色体,物理位置:128985622, 突变碱基T,参考碱基C;
SNP22:1号染色体,物理位置:131096621, 突变碱基A,参考碱基C;
SNP23:1号染色体,物理位置:131714962, 突变碱基C,参考碱基T;
SNP24:1号染色体,物理位置:132207649, 突变碱基T,参考碱基C;
SNP25:1号染色体,物理位置:132271510, 突变碱基G,参考碱基A;
SNP26:1号染色体,物理位置:133571245, 突变碱基G,参考碱基A;
SNP27:1号染色体,物理位置:162866129, 突变碱基T,参考碱基C;
SNP28:1号染色体,物理位置:163899659, 突变碱基T,参考碱基C;
SNP29:1号染色体,物理位置:163971419, 突变碱基T,参考碱基A;
SNP30:1号染色体,物理位置:164289720, 突变碱基A,参考碱基G;
SNP31:1号染色体,物理位置:164432108, 突变碱基A,参考碱基G;
SNP32:1号染色体,物理位置:164511858, 突变碱基C,参考碱基G;
SNP33:1号染色体,物理位置:173373136, 突变碱基G,参考碱基A;
SNP34:1号染色体,物理位置:185628745, 突变碱基A,参考碱基G;
SNP35:1号染色体,物理位置:188274783, 突变碱基A,参考碱基G;
SNP36:2号染色体,物理位置:543649, 突变碱基G,参考碱基A;
SNP37:2号染色体,物理位置:9799045, 突变碱基A,参考碱基G;
SNP38:2号染色体,物理位置:17810865, 突变碱基A,参考碱基C;
SNP39:2号染色体,物理位置:33921333, 突变碱基A,参考碱基G;
SNP40:2号染色体,物理位置:33927252, 突变碱基G,参考碱基A;
SNP41:2号染色体,物理位置:44211953, 突变碱基T,参考碱基G;
SNP42:2号染色体,物理位置:46981651, 突变碱基A,参考碱基G;
SNP43:2号染色体,物理位置:50331923, 突变碱基G,参考碱基T;
SNP44:2号染色体,物理位置:60251855, 突变碱基C,参考碱基T;
SNP45:2号染色体,物理位置:99918420, 突变碱基C,参考碱基T;
SNP46:2号染色体,物理位置:100921928, 突变碱基A,参考碱基G;
SNP47:2号染色体,物理位置:101718595, 突变碱基A,参考碱基G;
SNP48:2号染色体,物理位置:102013782, 突变碱基A,参考碱基C;
SNP49:2号染色体,物理位置:107290446, 突变碱基C,参考碱基T;
SNP50:2号染色体,物理位置:108234563, 突变碱基T,参考碱基A;
SNP51:2号染色体,物理位置:108263283, 突变碱基C,参考碱基T;
SNP52:2号染色体,物理位置:109933824, 突变碱基A,参考碱基G;
SNP53:2号染色体,物理位置:128561700, 突变碱基T,参考碱基A;
SNP54:2号染色体,物理位置:133772775, 突变碱基A,参考碱基G;
SNP55:2号染色体,物理位置:134433380, 突变碱基C,参考碱基T;
SNP56:2号染色体,物理位置:138703974, 突变碱基A,参考碱基G;
SNP57:2号染色体,物理位置:139018851, 突变碱基G,参考碱基C;
SNP58:2号染色体,物理位置:139031145, 突变碱基G,参考碱基T;
SNP59:2号染色体,物理位置:140432751, 突变碱基A,参考碱基G;
SNP60:2号染色体,物理位置:142774719, 突变碱基C,参考碱基T;
SNP61:2号染色体,物理位置:145355222, 突变碱基A,参考碱基T;
SNP62:3号染色体,物理位置:7799471, 突变碱基G, 参考碱基T;
SNP63:3号染色体,物理位置:18613089, 突变碱基T, 参考碱基C;
SNP64:3号染色体,物理位置:28256464, 突变碱基C, 参考碱基T;
SNP65:3号染色体,物理位置:31283220, 突变碱基C, 参考碱基T;
SNP66:3号染色体,物理位置:31416904, 突变碱基G, 参考碱基A;
SNP67:3号染色体,物理位置:32270712, 突变碱基G, 参考碱基A;
SNP68:3号染色体,物理位置:33558099, 突变碱基G, 参考碱基A;
SNP69:3号染色体,物理位置:42070431, 突变碱基T, 参考碱基C;
SNP70:3号染色体,物理位置:42105259, 突变碱基G, 参考碱基C;
SNP71:3号染色体,物理位置:44746823, 突变碱基G, 参考碱基A;
SNP72:3号染色体,物理位置:55117050, 突变碱基T, 参考碱基C;
SNP73:3号染色体,物理位置:59633428, 突变碱基T, 参考碱基A;
SNP74:3号染色体,物理位置:60002999, 突变碱基A, 参考碱基G;
SNP75:3号染色体,物理位置:61846996, 突变碱基A, 参考碱基G;
SNP76:3号染色体,物理位置:62266204, 突变碱基C, 参考碱基T;
SNP77:3号染色体,物理位置:78229161, 突变碱基C, 参考碱基T;
SNP78:3号染色体,物理位置:86593916, 突变碱基C, 参考碱基G;
SNP79:3号染色体, 物理位置:94586031, 突变碱基T, 参考碱基C;
SNP80:3号染色体, 物理位置:95657310, 突变碱基T, 参考碱基C;
SNP81:3号染色体, 物理位置:101955206, 突变碱基A, 参考碱基G;
SNP82:3号染色体, 物理位置:107411520, 突变碱基C, 参考碱基T;
SNP83:4号染色体, 物理位置:317320, 突变碱基T, 参考碱基C;
SNP84:4号染色体, 物理位置:1043211, 突变碱基A, 参考碱基G;
SNP85:4号染色体, 物理位置:3130336, 突变碱基A, 参考碱基G;
SNP86:4号染色体, 物理位置:3611959, 突变碱基C, 参考碱基T;
SNP87:4号染色体, 物理位置:16376720, 突变碱基C, 参考碱基A;
SNP88:4号染色体, 物理位置:16487871, 突变碱基T, 参考碱基C;
SNP89:4号染色体, 物理位置:16496005, 突变碱基A, 参考碱基G;
SNP90:4号染色体, 物理位置:20732993, 突变碱基C, 参考碱基T;
SNP91:4号染色体, 物理位置:21427365, 突变碱基T, 参考碱基A;
SNP92:4号染色体, 物理位置:21456782, 突变碱基G, 参考碱基A;
SNP93:4号染色体, 物理位置:21745251, 突变碱基T, 参考碱基C;
SNP94:4号染色体, 物理位置:21772496, 突变碱基T, 参考碱基G;
SNP95:4号染色体, 物理位置:22388861, 突变碱基C, 参考碱基T;
SNP96:4号染色体, 物理位置:22456612, 突变碱基A, 参考碱基C;
SNP97:4号染色体, 物理位置:27144054, 突变碱基A, 参考碱基G;
SNP98:4号染色体, 物理位置:36803942, 突变碱基A, 参考碱基G;
SNP99:4号染色体, 物理位置:43167126, 突变碱基A, 参考碱基G;
SNP100:4号染色体, 物理位置:43181077, 突变碱基G, 参考碱基A;
SNP101:4号染色体, 物理位置:43385962, 突变碱基G ,参考碱基T;
SNP102:4号染色体, 物理位置:43441807, 突变碱基C ,参考碱基T;
SNP103:4号染色体, 物理位置:51164972, 突变碱基A ,参考碱基C;
SNP104:4号染色体, 物理位置:51959551, 突变碱基G ,参考碱基C;
SNP105:4号染色体, 物理位置:56294104, 突变碱基A ,参考碱基G;
SNP106:4号染色体, 物理位置:56916055, 突变碱基C ,参考碱基A;
SNP107:4号染色体, 物理位置:58383434, 突变碱基T ,参考碱基A;
SNP108:4号染色体, 物理位置:59789144, 突变碱基T ,参考碱基A;
SNP109:4号染色体, 物理位置:64991390, 突变碱基C ,参考碱基G;
SNP110:4号染色体, 物理位置:69972587, 突变碱基C ,参考碱基T;
SNP111:4号染色体, 物理位置:72453303, 突变碱基G ,参考碱基T;
SNP112:4号染色体, 物理位置:72652616, 突变碱基T ,参考碱基C;
SNP113:4号染色体, 物理位置:72662785, 突变碱基T ,参考碱基C;
SNP114:4号染色体, 物理位置:72975869, 突变碱基G ,参考碱基C;
SNP115:4号染色体, 物理位置:76430009, 突变碱基A ,参考碱基G;
SNP116:4号染色体, 物理位置:82834950, 突变碱基C ,参考碱基G;
SNP117:4号染色体, 物理位置:84688415, 突变碱基G ,参考碱基A;
SNP118:5号染色体, 物理位置:10687265, 突变碱基T ,参考碱基C;
SNP119:5号染色体, 物理位置:33348516, 突变碱基A ,参考碱基G;
SNP120:5号染色体, 物理位置:35174953, 突变碱基A ,参考碱基C;
SNP121:5号染色体, 物理位置:38084753, 突变碱基C ,参考碱基G;
SNP122:5号染色体, 物理位置:42593760, 突变碱基C ,参考碱基A;
SNP123:5号染色体, 物理位置:46937653, 突变碱基A ,参考碱基G;
SNP124:5号染色体, 物理位置:52188924, 突变碱基G ,参考碱基A;
SNP125:6号染色体, 物理位置:9479056, 突变碱基T ,参考碱基A;
SNP126:6号染色体, 物理位置:11620614, 突变碱基C ,参考碱基T;
SNP127:7号染色体, 物理位置:19519663, 突变碱基G ,参考碱基A;
SNP128:7号染色体, 物理位置:20270798, 突变碱基G ,参考碱基A;
SNP129:7号染色体, 物理位置:20771276, 突变碱基G ,参考碱基A;
SNP130:7号染色体, 物理位置:22851059, 突变碱基G ,参考碱基A;
SNP131:7号染色体, 物理位置:25419806, 突变碱基C ,参考碱基T;
SNP132:7号染色体, 物理位置:25878664, 突变碱基G ,参考碱基T;
SNP133:7号染色体, 物理位置:28591217, 突变碱基T ,参考碱基C;
SNP134:7号染色体, 物理位置:28776906, 突变碱基G ,参考碱基A;
SNP135:8号染色体, 物理位置: 5955322, 突变碱基T, 参考碱基C;
SNP136:8号染色体, 物理位置:24534679, 突变碱基A ,参考碱基G;
SNP137:9号染色体, 物理位置:5896465, 突变碱基G ,参考碱基C;
SNP138:9号染色体, 物理位置:7092093, 突变碱基G ,参考碱基A;
SNP139:9号染色体, 物理位置:8686555, 突变碱基T ,参考碱基C;
SNP140:9号染色体, 物理位置:12334697, 突变碱基G ,参考碱基A;
SNP141:9号染色体, 物理位置:22007721, 突变碱基T ,参考碱基C;
SNP142:10号染色体, 物理位置:12091618, 突变碱基T ,参考碱基A;
SNP143:11号染色体, 物理位置:1208300, 突变碱基A, 参考碱基G;
SNP144:11号染色体, 物理位置:9900985, 突变碱基A ,参考碱基G;
SNP145:12号染色体, 物理位置:1920699, 突变碱基A ,参考碱基G;
SNP146:12号染色体, 物理位置:15126105, 突变碱基G ,参考碱基A;
SNP147:12号染色体, 物理位置:19647339, 突变碱基T ,参考碱基G;
SNP148:12号染色体, 物理位置:19701284, 突变碱基T ,参考碱基C;
SNP149:12号染色体, 物理位置:20081316, 突变碱基T ,参考碱基C;
SNP150:13号染色体, 物理位置:2230564, 突变碱基A ,参考碱基G;
SNP151:13号染色体, 物理位置:7057059, 突变碱基G ,参考碱基A;
SNP152:13号染色体, 物理位置:8895408, 突变碱基G ,参考碱基T;
SNP153:13号染色体, 物理位置:14510490, 突变碱基G,参考碱基A;
SNP154:13号染色体, 物理位置:14551347, 突变碱基A,参考碱基G;
SNP155:13号染色体, 物理位置:15150826, 突变碱基G,参考碱基A;
SNP156:14号染色体, 物理位置:2658346 , 突变碱基T,参考碱基C;
SNP157:14号染色体, 物理位置:5490504, 突变碱基G,参考碱基C;
SNP158:14号染色体, 物理位置:9344409, 突变碱基C,参考碱基T;
SNP159:14号染色体, 物理位置:10629231, 突变碱基T,参考碱基G;
SNP160:15号染色体, 物理位置:1773731 , 突变碱基A ,参考碱基G;
SNP161:15号染色体, 物理位置:5019154 , 突变碱基A ,参考碱基G;
SNP162:17号染色体, 物理位置:1660782, 突变碱基A, 参考碱基G;
SNP163:17号染色体, 物理位置:1825614, 突变碱基C, 参考碱基T;
SNP164:17号染色体, 物理位置:3634427 , 突变碱基A, 参考碱基T;
SNP165:18号染色体, 物理位置:1438519, 突变碱基T, 参考碱基C;
SNP166:19号染色体, 物理位置:3911958, 突变碱基A, 参考碱基G;
SNP167:19号染色体, 物理位置:7316413, 突变碱基T, 参考碱基C;
SNP168:23号染色体, 物理位置:3733687, 突变碱基T, 参考碱基A;
SNP169:24号染色体, 物理位置:561242, 突变碱基T, 参考碱基A;
SNP170:24号染色体, 物理位置:600846, 突变碱基A, 参考碱基G;
SNP171:24号染色体, 物理位置:1059118, 突变碱基T, 参考碱基G;
SNP172:24号染色体, 物理位置:3237786, 突变碱基A, 参考碱基G;
SNP173:26号染色体, 物理位置:946331, 突变碱基C, 参考碱基G;
SNP174:26号染色体, 物理位置:2649464 , 突变碱基T, 参考碱基G;
SNP175:28号染色体, 物理位置:1828534 , 突变碱基T, 参考碱基A;
SNP176:34号染色体, 物理位置:2223365 , 突变碱基A, 参考碱基G。
本发明的另一方面是将所述的由SNP1- SNP176所示的176个SNP位点组成的SNP位点集合应用于从岭藏鸡品种的鉴定。
本发明的一种优选的具体实施方案,本发明提供了一种应用所述的由SNP1-SNP176所示的176个SNP位点组成的SNP位点集合对于从岭藏鸡品种的鉴定方法,包括:
(1)DNA的提取和测序:提取待检测鸡样本的基因组DNA,进行176个SNP位点的靶向测序;
(2)SNP基因分型和质控:将靶向测序的数据与鸡7.0参考基因组(GRCg7b)进行比对生成基因型文件,再通过plink1.9软件对基因型文件进行质控;
(3)采用SVM机器学习方法和PCA分析鉴定待检测品种是否为从岭藏鸡品种。
本发明的一种优选的具体实施方案,步骤(1)中所述的进行176个SNP位点的靶向测序的方法包括:全基因组重测序、TaqMan探针法、酶切扩增多态性序列、Kompetitive特异等位基因PCR或飞行时间质谱等方法。
本发明的一种优选的具体实施方案,步骤(2)中通过plink1.9软件对基因型文件进行质控的方法包括:1)应用--geno 0.05删除SNP缺失率过高的SNP位点;2)应用 --maf0.01删除最小等位基因频率过低的SNP位点;3)应用 --hwe 0.00001删除不符合HardyWeinberg平衡的SNP。
本发明的一种优选的具体实施方案,步骤(3)中所述的采用SVM机器学习方法鉴定待检测品种是否为从岭藏鸡品种的方法包括:使用plink软件将提取待测样品的176个特征SNP集数据和参考样品的特征SNP数据合并;以参考样品数据为训练集,待测样品数据为测试集,进行SVM机器学习方法鉴定。
本发明的一种优选的具体实施方案,步骤(3)中所述的采用PCA分析鉴定对待检测品种是否为从岭藏鸡的方法包括:使用plink软件分别计算全部数据集和待测样品数据集的主成分,进行PCA分析;其中,基于特征位点集合的聚类分析结果,设置聚类的置信区间为95%,实际应用时可放宽至85%。
采用本发明提供的SNP标记组合能够准确的鉴定待检测鸡样品是否从岭藏鸡品种,避免了原始筛选的大量工作,能用最少的SNP标记更加准确的鉴定从岭藏鸡样本,极大提高了鉴定效率。
附图说明
图 1 为150个体(参考样品)的系统发育树。
图 2 为150个体(参考样品)的聚类分析。
图 3为三种机器学习方法在不同数量tagSNP情景中的预测准确性结果。
图 4为176个SNP位点集合对鸡9个品种(亚群)进行聚类分析的结果。
图 5为设置聚类的置信区间为95%时,基于特征位点集合的聚类分析结果(从岭藏鸡与西藏藏鸡和白来航鸡完全分开)。
图 6 为设置聚类的置信区间为85%时,基于特征位点集合的聚类分析结果(从岭藏鸡与西藏藏鸡和白来航鸡完全分开)。
具体实施方式
以下结合具体实施例来进一步描述本发明,本发明的优点和特点将会随着描述而更为清楚。但这些实施例仅是范例性的,并不对本发明的范围构成任何限制。本领域技术人员应该理解的是,在不偏离本发明的精神和范围下可以对本发明的细节和形式进行修改或替换,但这些修改和替换均落入本发明的保护范围内。
本发明中以下实施例或试验例中用于SNP标记筛选的163份鸡种质材料均由原产地采集,包括从岭藏鸡(n=15)、日喀则藏鸡(n=25)、山南藏鸡(n=20)、拉萨藏鸡(n=15)、林芝藏鸡(n=8)、雪域白鸡(n=20)、海东鸡(n=20)等5个高原地区本土鸡品种(亚群)和白来航鸡(n=15)、洛岛红鸡(n=25)等2个引进品种。
以下实施例中未特别说明的实验试剂均为本领域常规试剂,可按照本领域常规方法配制而得或商购获得;未特别说明的实验条件和软件,均为本领域常规实验条件和开源软件。
实施例1 高质量鸡全基因组SNP数据获得
DNA的提取和测序
通过静脉采血获得的163份鸡全血,采用天根试剂盒提取基因组DNA。质控合格后,采用华大智造DNBSEQ-T7平台对基因组DNA进行测序,测序深度为10×,得到重测序数据。
基因分型
测序数据经过fastp软件质控后,应用BWA软件比对到鸡7.0参考基因组(GRCg7b),根据GATK最优操作流程进行SNP分型,生成了163个DNA样本的全基因组数据集,进一步通过plink1.9软件将全基因组数据集转换成ped和map文件。
质量控制
通过plink1.9软件对基因型文件进行质控,包括1)应用--geno 0.05删除SNP缺失率过高的SNP位点;2)应用 --maf 0.01删除最小等位基因频率过低的SNP位点;3)应用 --hwe 0.00001删除不符合Hardy Weinberg平衡的SNP;4)删除Z、W染色体位点。通过以上操作,得到9669030个SNP和163个样本。
基因型填充和连锁不平衡(LD)删减
1)使用plink1.9软件将基因型文件(.bim、.bed和.fam)转换成分染色体的vcf格式文件;2)使用beagle5.4软件对缺失基因型进行填充;3)应用 plink1.9软件中的 --indep pairwise 50 5 0.2,对填充后基因型文件进行连锁不平衡(LD)的点进行删减。该函数在50个SNPs窗口,以5个SNPs的速度移动计算一对SNP间的LD值,当LD程度大于0.2时,排除一对SNPs中的一个。在高水平LD中去除SNP已被证明可以抵消确定偏差的影响,因此在质控程序中通过删减LD可以大大降低确定偏差;最终筛选得到5850521个SNP和163个样本,作为参考样品,用于后续实验。
实施例2 鸡品种特征SNP位点的获得
系统发育
利用python脚本vcf2phylip.py将基因型的vcf文件转换成.phy文件,然后通过MEGA软件构建鸡全基因组的Neighbor Joining发育树,分析不同品种(亚群)间的系统发育关系。
聚类分析
利用plink软件中的 --pca计算所有品种(亚群)SNP数据的主成分,并通过R语言中ggplot2包进行聚类的可视化,置信区间设定为95%,分析不同品种(亚群)间个体的聚类关系。
通过系统发育和聚类分析删除离群个体,最终得到150个体的系统发育和聚类关系(分别为图1和图2所示),7个鸡品种(亚群)完全聚集各自分支上且主成分各自分开分布,表明不同品种或亚群之间具有独立的繁育历史。
选择信号分析
基于系统发育树和聚类分析结果,采用VCFtools软件计算每个品种(亚群)与其他品种(亚群)之间的固定系数(Fst)。根据Fst值降序排列,分别提取每个品种(亚群)前2、4、6、8、10、20、40、50、100、200和500个SNP作为品种信息SNP。然后,使用plink1.9软件对不同品种的tagSNP按照MAF>0.25进行品种内的质控,最终得到每个品种的特征SNP (tagSNP)(表1所示),然后利用shell命令将不同品种(亚群)的tagSNP合并,使用plink1.9软件中--recodeA将SNP基因型转换成0、1、2格式的基因型文件,用于后续分析。
表1 不同品种(亚群)间MAF>0.25 tagSNP数量
实施例3机器学习方法确定从岭藏鸡品种鉴定SNP位点
采用R语言中支持向量机(SVM)、随机森林法(RF)和邻近算法 (KNN)等3种机器学习方法筛选品种鉴定位点:
1)SVM是通过R 包e1071 (https://cran.r-project.org/web/packages/e1071/)中的svm函数实现,代码及参数如下:
library('e1071')
svmfit = svm(y = y_train, x = x_train, type = "C-classification",kernel = "linear",scale = FALSE)
pred = predict(svmfit,x_test)
tab = table(pred,y_test)
sum(diag(tab))/sum(tab) #计算准确率
2)RF是通过R包randomForest (https://cran.r-project.org/web/packages/randomForest/)中的randomForest函数实现,代码及参数如下:
library('randomForest')
rf = randomForest(y = y_train, x = x_train,
mtry = floor(sqrt(ncol(mat1))),
ntree = 2001, importance = TRUE)
res = data.frame(y_test, predict(rf, x_test, type = "response"))
sum(res[, 1] == res[, 2])/nrow(res) #计算准确率
3)KNN是通过R包class (https://cran.rproject.org/web/packages/class/)中的 knn函数实现,代码及参数如下:
library('class')
library('caTools')
pred = knn(train = train_scaled, test = test_scaled, cl = train$breed, k=10)
actual = test$breed
cm = table(actual,pred)
accuracy = sum(diag(cm))/length(actual) #计算准确率
三种方法均重复50次,然后计算平均预测准确性和标准差。准确性由以下公式计算:,其中和分别表示正确和错误判定为相应品种的个体数。
三种机器学习方法在不同数量tagSNP情景中的预测结果如图3所示,预测品种分类的准确性达到95%以上,且SVM方法更加准确和稳健。当每个品种tagSNP数量设置为20时,品种分类的平均预测准确性即可达到99%以上。根据3种机器学习方法结果和SNP标记数量小而精的原则,选择tagSNP数量20中的176个SNP位点集合(表2)作为“从岭藏鸡”种质资源的鉴定位点并基于这些位点信息对9个品种(亚群)进行聚类分析,聚类分析结果如图4所示,根据聚类分析结果从岭藏鸡可以与其他藏鸡品种以及外国品种完全分开。
表2作为从岭藏鸡种质资源的鉴定位点的176个SNP位点集合
试验例1采用176个SNP位点集合对鸡新样本的品种鉴定试验
从甘肃舟曲获取了10个从岭藏鸡样本,从北京畜牧兽医研究所鸡遗传资源基地10个白来航鸡个体以及从西藏地区20个未知亚群的藏鸡个体采用实施例3筛选得到的176个SNP位点集合对不同的鸡品种进行鉴定分析。
鉴定步骤如下:
DNA的提取和测序
采用天根试剂盒提取40个鸡样本的基因组DNA。采用全基因组重测序(或TaqMan探针法或酶切扩增多态性序列或Kompetitive特异等位基因PCR或飞行时间质谱等方法)进行176个位点的靶向测序。
SNP基因分型和质控
测序数据比对到鸡7.0参考基因组(GRCg7b)生成基因型文件(操作步骤同实施例1),再通过plink1.9软件对基因型文件进行质控,包括1)应用--geno 0.05删除SNP缺失率过高的SNP位点;2)应用 --maf 0.01删除最小等位基因频率过低的SNP位点;3)应用 --hwe0.00001删除不符合HardyWeinberg平衡的SNP。
机器学习和主成分分析
a. 使用plink软件将提取待测样品的176个特征SNP集数据和参考样品(150个体的数据集)的特征SNP数据合并。以参考样品数据为训练集,待测样品数据为测试集,进行SVM机器学习方法预测,具体操作方法同实施例3。
b. 使用plink软件分别计算全部数据集和待测样品数据集的主成分,进行PCA分析,具体操作方法同实施例2。
从岭藏鸡鉴定标准:SVM预测分配准确率达到100%,然后再结合PCA分析可视化,以确定预测样本是否为“从岭藏鸡”。
a. 根据SVM方法鉴定结果(表3)从岭藏鸡和白来航鸡的预测准确性为100%,西藏藏鸡中18个个体被分配到山南藏鸡亚群,2个个体被分配到拉萨藏鸡亚群。
表3支持向量机(SVM)方法预测品种分类的统计结果
b. 基于特征位点集合的聚类分析结果,设置聚类的置信区间为95%,从岭藏鸡与西藏藏鸡和白来航鸡完全分开(图5),证明了特征SNP位点集合的有效性。当比较品种(亚群)较多时,可适当放宽置信区间为85%,以达到更好鉴定从岭藏鸡的目的(图6)。
Claims (7)
1.SNP位点集合在从岭藏鸡品种鉴定中的应用,所述SNP位点在基因组具体染色体位置是以鸡7.0参考基因组GRCg7b作为参考基因组比对后确定,所述SNP位点集合由以下SNP1-SNP176所示的176个SNP位点组成的集合:
SNP1: 1号染色体,物理位置:1304190, 突变碱基T,参考碱基C;
SNP2: 1号染色体,物理位置:4895824, 突变碱基C,参考碱基T;
SNP3: 1号染色体,物理位置:14138529, 突变碱基G,参考碱基A;
SNP4: 1号染色体,物理位置:27698625, 突变碱基T,参考碱基C;
SNP5: 1号染色体,物理位置:48968559, 突变碱基G,参考碱基C;
SNP6: 1号染色体,物理位置:52273892, 突变碱基G,参考碱基A;
SNP7: 1号染色体,物理位置:52799375, 突变碱基A,参考碱基G;
SNP8: 1号染色体,物理位置:52960797, 突变碱基A,参考碱基G;
SNP9: 1号染色体,物理位置:52989389, 突变碱基T,参考碱基C;
SNP10:1号染色体,物理位置:53080995, 突变碱基G,参考碱基A;
SNP11:1号染色体,物理位置:53142996, 突变碱基A,参考碱基T;
SNP12:1号染色体,物理位置:54959234, 突变碱基G,参考碱基T;
SNP13:1号染色体,物理位置:55115690, 突变碱基T,参考碱基C;
SNP14:1号染色体,物理位置:56602994, 突变碱基T,参考碱基C;
SNP15:1号染色体,物理位置:80298900, 突变碱基T,参考碱基C;
SNP16:1号染色体,物理位置:84127068, 突变碱基T,参考碱基C;
SNP17:1号染色体,物理位置:84153175, 突变碱基T,参考碱基A;
SNP18:1号染色体,物理位置:106396822, 突变碱基T,参考碱基C;
SNP19:1号染色体,物理位置:123952880, 突变碱基A,参考碱基G;
SNP20:1号染色体,物理位置:128709327, 突变碱基A,参考碱基T;
SNP21:1号染色体,物理位置:128985622, 突变碱基T,参考碱基C;
SNP22:1号染色体,物理位置:131096621, 突变碱基A,参考碱基C;
SNP23:1号染色体,物理位置:131714962, 突变碱基C,参考碱基T;
SNP24:1号染色体,物理位置:132207649, 突变碱基T,参考碱基C;
SNP25:1号染色体,物理位置:132271510, 突变碱基G,参考碱基A;
SNP26:1号染色体,物理位置:133571245, 突变碱基G,参考碱基A;
SNP27:1号染色体,物理位置:162866129, 突变碱基T,参考碱基C;
SNP28:1号染色体,物理位置:163899659, 突变碱基T,参考碱基C;
SNP29:1号染色体,物理位置:163971419, 突变碱基T,参考碱基A;
SNP30:1号染色体,物理位置:164289720, 突变碱基A,参考碱基G;
SNP31:1号染色体,物理位置:164432108, 突变碱基A,参考碱基G;
SNP32:1号染色体,物理位置:164511858, 突变碱基C,参考碱基G;
SNP33:1号染色体,物理位置:173373136, 突变碱基G,参考碱基A;
SNP34:1号染色体,物理位置:185628745, 突变碱基A,参考碱基G;
SNP35:1号染色体,物理位置:188274783, 突变碱基A,参考碱基G;
SNP36:2号染色体,物理位置:543649, 突变碱基G,参考碱基A;
SNP37:2号染色体,物理位置:9799045, 突变碱基A,参考碱基G;
SNP38:2号染色体,物理位置:17810865, 突变碱基A,参考碱基C;
SNP39:2号染色体,物理位置:33921333, 突变碱基A,参考碱基G;
SNP40:2号染色体,物理位置:33927252, 突变碱基G,参考碱基A;
SNP41:2号染色体,物理位置:44211953, 突变碱基T,参考碱基G;
SNP42:2号染色体,物理位置:46981651, 突变碱基A,参考碱基G;
SNP43:2号染色体,物理位置:50331923, 突变碱基G,参考碱基T;
SNP44:2号染色体,物理位置:60251855, 突变碱基C,参考碱基T;
SNP45:2号染色体,物理位置:99918420, 突变碱基C,参考碱基T;
SNP46:2号染色体,物理位置:100921928, 突变碱基A,参考碱基G;
SNP47:2号染色体,物理位置:101718595, 突变碱基A,参考碱基G;
SNP48:2号染色体,物理位置:102013782, 突变碱基A,参考碱基C;
SNP49:2号染色体,物理位置:107290446, 突变碱基C,参考碱基T;
SNP50:2号染色体,物理位置:108234563, 突变碱基T,参考碱基A;
SNP51:2号染色体,物理位置:108263283, 突变碱基C,参考碱基T;
SNP52:2号染色体,物理位置:109933824, 突变碱基A,参考碱基G;
SNP53:2号染色体,物理位置:128561700, 突变碱基T,参考碱基A;
SNP54:2号染色体,物理位置:133772775, 突变碱基A,参考碱基G;
SNP55:2号染色体,物理位置:134433380, 突变碱基C,参考碱基T;
SNP56:2号染色体,物理位置:138703974, 突变碱基A,参考碱基G;
SNP57:2号染色体,物理位置:139018851, 突变碱基G,参考碱基C;
SNP58:2号染色体,物理位置:139031145, 突变碱基G,参考碱基T;
SNP59:2号染色体,物理位置:140432751, 突变碱基A,参考碱基G;
SNP60:2号染色体,物理位置:142774719, 突变碱基C,参考碱基T;
SNP61:2号染色体,物理位置:145355222, 突变碱基A,参考碱基T;
SNP62:3号染色体,物理位置:7799471, 突变碱基G, 参考碱基T;
SNP63:3号染色体,物理位置:18613089, 突变碱基T, 参考碱基C;
SNP64:3号染色体,物理位置:28256464, 突变碱基C, 参考碱基T;
SNP65:3号染色体,物理位置:31283220, 突变碱基C, 参考碱基T;
SNP66:3号染色体,物理位置:31416904, 突变碱基G, 参考碱基A;
SNP67:3号染色体,物理位置:32270712, 突变碱基G, 参考碱基A;
SNP68:3号染色体,物理位置:33558099, 突变碱基G, 参考碱基A;
SNP69:3号染色体,物理位置:42070431, 突变碱基T, 参考碱基C;
SNP70:3号染色体,物理位置:42105259, 突变碱基G, 参考碱基C;
SNP71:3号染色体,物理位置:44746823, 突变碱基G, 参考碱基A;
SNP72:3号染色体,物理位置:55117050, 突变碱基T, 参考碱基C;
SNP73:3号染色体,物理位置:59633428, 突变碱基T, 参考碱基A;
SNP74:3号染色体,物理位置:60002999, 突变碱基A, 参考碱基G;
SNP75:3号染色体,物理位置:61846996, 突变碱基A, 参考碱基G;
SNP76:3号染色体,物理位置:62266204, 突变碱基C, 参考碱基T;
SNP77:3号染色体,物理位置:78229161, 突变碱基C, 参考碱基T;
SNP78:3号染色体,物理位置:86593916, 突变碱基C, 参考碱基G;
SNP79:3号染色体,物理位置:94586031, 突变碱基T, 参考碱基C;
SNP80:3号染色体,物理位置:95657310, 突变碱基T, 参考碱基C;
SNP81:3号染色体,物理位置:101955206, 突变碱基A, 参考碱基G;
SNP82:3号染色体,物理位置:107411520, 突变碱基C, 参考碱基T;
SNP83:4号染色体,物理位置:317320 , 突变碱基T, 参考碱基C;
SNP84:4号染色体,物理位置:1043211, 突变碱基A, 参考碱基G;
SNP85:4号染色体,物理位置:3130336, 突变碱基A, 参考碱基G;
SNP86:4号染色体,物理位置:3611959, 突变碱基C, 参考碱基T;
SNP87:4号染色体,物理位置:16376720, 突变碱基C, 参考碱基A;
SNP88:4号染色体,物理位置:16487871, 突变碱基T, 参考碱基C;
SNP89:4号染色体,物理位置:16496005, 突变碱基A, 参考碱基G;
SNP90:4号染色体,物理位置:20732993, 突变碱基C, 参考碱基T;
SNP91:4号染色体,物理位置:21427365, 突变碱基T, 参考碱基A;
SNP92:4号染色体,物理位置:21456782, 突变碱基G, 参考碱基A;
SNP93:4号染色体,物理位置:21745251, 突变碱基T, 参考碱基C;
SNP94:4号染色体,物理位置:21772496, 突变碱基T, 参考碱基G;
SNP95:4号染色体,物理位置:22388861, 突变碱基C, 参考碱基T;
SNP96:4号染色体,物理位置:22456612, 突变碱基A, 参考碱基C;
SNP97:4号染色体,物理位置:27144054, 突变碱基A, 参考碱基G;
SNP98:4号染色体,物理位置:36803942, 突变碱基A, 参考碱基G;
SNP99:4号染色体,物理位置:43167126, 突变碱基A, 参考碱基G;
SNP100:4号染色体, 物理位置:43181077, 突变碱基G, 参考碱基A;
SNP101:4号染色体, 物理位置:43385962, 突变碱基G ,参考碱基T;
SNP102:4号染色体, 物理位置:43441807, 突变碱基C ,参考碱基T;
SNP103:4号染色体, 物理位置:51164972, 突变碱基A ,参考碱基C;
SNP104:4号染色体, 物理位置:51959551, 突变碱基G ,参考碱基C;
SNP105:4号染色体, 物理位置:56294104, 突变碱基A ,参考碱基G;
SNP106:4号染色体, 物理位置:56916055, 突变碱基C ,参考碱基A;
SNP107:4号染色体, 物理位置:58383434, 突变碱基T ,参考碱基A;
SNP108:4号染色体, 物理位置:59789144, 突变碱基T ,参考碱基A;
SNP109:4号染色体, 物理位置:64991390, 突变碱基C ,参考碱基G;
SNP110:4号染色体, 物理位置:69972587, 突变碱基C ,参考碱基T;
SNP111:4号染色体, 物理位置:72453303, 突变碱基G ,参考碱基T;
SNP112:4号染色体, 物理位置:72652616, 突变碱基T ,参考碱基C;
SNP113:4号染色体, 物理位置:72662785, 突变碱基T ,参考碱基C;
SNP114:4号染色体, 物理位置:72975869, 突变碱基G ,参考碱基C;
SNP115:4号染色体, 物理位置:76430009, 突变碱基A ,参考碱基G;
SNP116:4号染色体, 物理位置:82834950, 突变碱基C ,参考碱基G;
SNP117:4号染色体, 物理位置:84688415, 突变碱基G ,参考碱基A;
SNP118:5号染色体, 物理位置:10687265, 突变碱基T ,参考碱基C;
SNP119:5号染色体, 物理位置:33348516, 突变碱基A ,参考碱基G;
SNP120:5号染色体, 物理位置:35174953, 突变碱基A ,参考碱基C;
SNP121:5号染色体, 物理位置:38084753, 突变碱基C ,参考碱基G;
SNP122:5号染色体, 物理位置:42593760, 突变碱基C ,参考碱基A;
SNP123:5号染色体, 物理位置:46937653, 突变碱基A ,参考碱基G;
SNP124:5号染色体, 物理位置:52188924, 突变碱基G ,参考碱基A;
SNP125:6号染色体, 物理位置:9479056, 突变碱基T ,参考碱基A;
SNP126:6号染色体, 物理位置:11620614, 突变碱基C ,参考碱基T;
SNP127:7号染色体, 物理位置:19519663, 突变碱基G ,参考碱基A;
SNP128:7号染色体, 物理位置:20270798, 突变碱基G ,参考碱基A;
SNP129:7号染色体, 物理位置:20771276, 突变碱基G ,参考碱基A;
SNP130:7号染色体, 物理位置:22851059, 突变碱基G ,参考碱基A;
SNP131:7号染色体, 物理位置:25419806, 突变碱基C ,参考碱基T;
SNP132:7号染色体, 物理位置:25878664, 突变碱基G ,参考碱基T;
SNP133:7号染色体, 物理位置:28591217, 突变碱基T ,参考碱基C;
SNP134:7号染色体, 物理位置:28776906, 突变碱基G ,参考碱基A;
SNP135:8号染色体, 物理位置: 5955322, 突变碱基T, 参考碱基C;
SNP136:8号染色体, 物理位置:24534679, 突变碱基A ,参考碱基G;
SNP137:9号染色体, 物理位置:5896465, 突变碱基G ,参考碱基C;
SNP138:9号染色体, 物理位置:7092093, 突变碱基G ,参考碱基A;
SNP139:9号染色体, 物理位置:8686555, 突变碱基T ,参考碱基C;
SNP140:9号染色体, 物理位置:12334697, 突变碱基G ,参考碱基A;
SNP141:9号染色体, 物理位置:22007721, 突变碱基T ,参考碱基C;
SNP142:10号染色体, 物理位置:12091618, 突变碱基T ,参考碱基A;
SNP143:11号染色体, 物理位置:1208300, 突变碱基A, 参考碱基G;
SNP144:11号染色体, 物理位置:9900985, 突变碱基A ,参考碱基G;
SNP145:12号染色体, 物理位置:1920699, 突变碱基A ,参考碱基G;
SNP146:12号染色体, 物理位置:15126105, 突变碱基G ,参考碱基A;
SNP147:12号染色体, 物理位置:19647339, 突变碱基T ,参考碱基G;
SNP148:12号染色体, 物理位置:19701284, 突变碱基T ,参考碱基C;
SNP149:12号染色体, 物理位置:20081316, 突变碱基T ,参考碱基C;
SNP150:13号染色体, 物理位置:2230564, 突变碱基A ,参考碱基G;
SNP151:13号染色体, 物理位置:7057059, 突变碱基G ,参考碱基A;
SNP152:13号染色体, 物理位置:8895408, 突变碱基G ,参考碱基T;
SNP153:13号染色体, 物理位置:14510490, 突变碱基G ,参考碱基A;
SNP154:13号染色体, 物理位置:14551347, 突变碱基A ,参考碱基G;
SNP155:13号染色体, 物理位置:15150826, 突变碱基G ,参考碱基A;
SNP156:14号染色体, 物理位置:2658346 , 突变碱基T ,参考碱基C;
SNP157:14号染色体, 物理位置:5490504, 突变碱基G ,参考碱基C;
SNP158:14号染色体, 物理位置:9344409, 突变碱基C ,参考碱基T;
SNP159:14号染色体, 物理位置:10629231, 突变碱基T ,参考碱基G;
SNP160:15号染色体, 物理位置:1773731 , 突变碱基A ,参考碱基G;
SNP161:15号染色体, 物理位置:5019154 , 突变碱基A ,参考碱基G;
SNP162:17号染色体, 物理位置:1660782, 突变碱基A, 参考碱基G;
SNP163:17号染色体, 物理位置:1825614, 突变碱基C, 参考碱基T;
SNP164:17号染色体, 物理位置:3634427, 突变碱基A,参考碱基T;
SNP165:18号染色体, 物理位置:1438519, 突变碱基T, 参考碱基C;
SNP166:19号染色体, 物理位置:3911958, 突变碱基A, 参考碱基G;
SNP167:19号染色体, 物理位置:7316413, 突变碱基T, 参考碱基C;
SNP168:23号染色体, 物理位置:3733687 , 突变碱基T, 参考碱基A;
SNP169:24号染色体, 物理位置:561242, 突变碱基T, 参考碱基A;
SNP170:24号染色体, 物理位置:600846, 突变碱基A,参考碱基G;
SNP171:24号染色体, 物理位置:1059118, 突变碱基T,参考碱基G;
SNP172:24号染色体, 物理位置:3237786, 突变碱基A,参考碱基G;
SNP173:26号染色体, 物理位置:946331, 突变碱基C,参考碱基G;
SNP174:26号染色体, 物理位置:2649464 , 突变碱基T, 参考碱基G;
SNP175:28号染色体, 物理位置:1828534 , 突变碱基T, 参考碱基A;
SNP176:34号染色体, 物理位置:2223365 , 突变碱基A, 参考碱基G。
2.根据权利要求1所述的应用,其特征在于,包括:
(1)DNA的提取和测序:提取待检测鸡样本的基因组DNA,进行176个SNP位点的靶向测序;
(2)SNP基因分型和质控:将靶向测序的数据与鸡7.0参考基因组GRCg7b进行比对生成基因型文件,再通过plink1.9软件对基因型文件进行质控;
(3)采用SVM机器学习方法和PCA分析鉴定待检测品种是否为从岭藏鸡品种。
3.根据权利要求2所述的应用,其特征在于,步骤(1)中所述的进行176个SNP位点的靶向测序的方法包括:全基因组重测序、TaqMan探针法、酶切扩增多态性序列、Kompetitive特异等位基因PCR或飞行时间质谱。
4.根据权利要求2所述的应用,其特征在于,步骤(2)中通过plink1.9软件对基因型文件进行质控的方法包括:1)应用--geno 0.05删除SNP缺失率过高的SNP位点;2)应用 --maf0.01删除最小等位基因频率过低的SNP位点;3)应用 --hwe 0.00001删除不符合HardyWeinberg平衡的SNP。
5.根据权利要求2所述的应用,其特征在于,步骤(3)中所述的采用SVM机器学习方法鉴定待检测品种是否为从岭藏鸡品种的方法包括:使用plink软件将提取待测样品的176个特征SNP集数据和参考样品的特征SNP数据合并;以参考样品数据为训练集,待测样品数据为测试集,进行SVM机器学习方法鉴定。
6.根据权利要求2所述的应用,其特征在于,步骤(3)中所述的采用PCA分析鉴定对待检测品种是否为从岭藏鸡的方法包括:使用plink软件分别计算全部数据集和待测样品数据集的主成分进行PCA分析。
7.根据权利要求6所述的应用,其特征在于,基于特征位点集合的聚类分析结果,设置聚类的置信度为95%。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410036835.6A CN117535429B (zh) | 2024-01-10 | 2024-01-10 | 用于从岭藏鸡品种鉴定的snp位点集合及其应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410036835.6A CN117535429B (zh) | 2024-01-10 | 2024-01-10 | 用于从岭藏鸡品种鉴定的snp位点集合及其应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117535429A CN117535429A (zh) | 2024-02-09 |
CN117535429B true CN117535429B (zh) | 2024-04-05 |
Family
ID=89796294
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410036835.6A Active CN117535429B (zh) | 2024-01-10 | 2024-01-10 | 用于从岭藏鸡品种鉴定的snp位点集合及其应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117535429B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111225986A (zh) * | 2017-10-10 | 2020-06-02 | 中国农业科学院北京畜牧兽医研究所 | 一种鸡全基因组snp芯片及其应用 |
CN116377086A (zh) * | 2023-03-30 | 2023-07-04 | 山东省农业科学院家禽研究所(山东省无特定病原鸡研究中心) | 一种鸡全基因组低密度芯片及其制作方法和应用 |
CN116590393A (zh) * | 2023-04-25 | 2023-08-15 | 山东省农业科学院家禽研究所(山东省无特定病原鸡研究中心) | 鸡全基因组snp液相芯片的制作方法与应用 |
-
2024
- 2024-01-10 CN CN202410036835.6A patent/CN117535429B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111225986A (zh) * | 2017-10-10 | 2020-06-02 | 中国农业科学院北京畜牧兽医研究所 | 一种鸡全基因组snp芯片及其应用 |
CN116377086A (zh) * | 2023-03-30 | 2023-07-04 | 山东省农业科学院家禽研究所(山东省无特定病原鸡研究中心) | 一种鸡全基因组低密度芯片及其制作方法和应用 |
CN116590393A (zh) * | 2023-04-25 | 2023-08-15 | 山东省农业科学院家禽研究所(山东省无特定病原鸡研究中心) | 鸡全基因组snp液相芯片的制作方法与应用 |
Non-Patent Citations (2)
Title |
---|
"Identification and SNP association analysis of a novel gene in chicken";Xingxing Mei, et al.;《Animal Genetics》;20151208;第47卷(第1期);第125-127页 * |
"甘南高寒牧区从岭藏鸡种蛋物理性状相关性及对孵化率影响的研究试验";杨耀;《畜牧兽医杂志》;20230510;第42卷(第3期);第41-44页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117535429A (zh) | 2024-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107794304B (zh) | 用于牦牛个体识别和亲子鉴定的基因分型检测试剂盒 | |
CN107760789B (zh) | 一种用于牦牛亲子鉴定和个体识别的基因分型检测试剂盒 | |
US20220205053A1 (en) | Combination of Soybean Whole Genome SNP Loci, Gene Chip and Application Thereof | |
CN108998550A (zh) | 用于水稻基因分型的snp分子标记及其应用 | |
WO2023001210A1 (zh) | 绵羊种质资源鉴定和系谱重构的基因芯片、试剂盒及应用 | |
CN115651986A (zh) | 利用全基因组snp信息快速鉴定猪品种的方法及其应用 | |
CN111370058B (zh) | 一种基于全基因组snp信息追溯水牛血统来源以及进行基因组选配的方法 | |
CN117535429B (zh) | 用于从岭藏鸡品种鉴定的snp位点集合及其应用 | |
CN111088327B (zh) | 一种sike1基因cnv标记辅助检测黄牛体尺性状的方法及其应用 | |
CN117604114A (zh) | 一种地方鸡低密度5k全基因组snp液相芯片及其应用 | |
CN117037905A (zh) | 基于祖先信息标记的鸡品种鉴定方法、系统、设备及介质 | |
CN115443907B (zh) | 基于全基因组选择的高产大果花生杂交组配选择的方法 | |
CN116426647A (zh) | 一种鉴定天津猴鸡品种的分子标记组合及其应用 | |
Sarimana et al. | Analysis of genetic diversity and discrimination of Oil Palm DxP populations based on the origins of pisifera elite parents | |
CN113832240B (zh) | 一个与中国南方荷斯坦奶牛305天产奶量显著相关的snp分子标记及应用和选育方法 | |
CN113793637B (zh) | 基于亲本基因型与子代表型的全基因组关联分析方法 | |
CN112102880A (zh) | 品种鉴定的方法、其预测模型的构建方法和装置 | |
CN111004853B (zh) | 一种利用微卫星鉴定和划分湖羊家系的方法及其应用 | |
CN116987795B (zh) | 一种鉴定隐性白羽鸡的分子标记组合及其应用 | |
CN114277157A (zh) | 一个与南方荷斯坦奶牛乳蛋白率相关的snp分子标记和选育方法 | |
CN111354417B (zh) | 一种基于admixture-mcp模型估计水产动物基因组品种组成的新方法 | |
Anisuzzaman et al. | Molecular diversity of rice (Oryza sativa L.) genotypes in Malaysia based on SSR markers | |
US20210363600A1 (en) | Primer groups for detecting hybrid rice backbone parent and application thereof | |
CN116814800A (zh) | 一种莱芜黑鸡鉴定的snp分子标记及应用 | |
CN113897443A (zh) | 一个与南方荷斯坦奶牛乳脂率相关的snp分子标记、试剂盒及应用和选育方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |