CN117095746A - 一种用于水牛的gbs全基因组关联分析方法 - Google Patents
一种用于水牛的gbs全基因组关联分析方法 Download PDFInfo
- Publication number
- CN117095746A CN117095746A CN202311086801.XA CN202311086801A CN117095746A CN 117095746 A CN117095746 A CN 117095746A CN 202311086801 A CN202311086801 A CN 202311086801A CN 117095746 A CN117095746 A CN 117095746A
- Authority
- CN
- China
- Prior art keywords
- buffalo
- association analysis
- snp
- whole genome
- sequencing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012097 association analysis method Methods 0.000 title claims abstract description 15
- 238000012163 sequencing technique Methods 0.000 claims abstract description 37
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 23
- 238000012098 association analyses Methods 0.000 claims abstract description 21
- 238000001514 detection method Methods 0.000 claims abstract description 13
- 238000003908 quality control method Methods 0.000 claims abstract description 5
- 238000004458 analytical method Methods 0.000 claims description 22
- 238000000513 principal component analysis Methods 0.000 claims description 13
- 238000001914 filtration Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 abstract description 20
- 238000000034 method Methods 0.000 abstract description 18
- 238000009395 breeding Methods 0.000 abstract description 17
- 230000001488 breeding effect Effects 0.000 abstract description 15
- 230000002068 genetic effect Effects 0.000 abstract description 13
- 239000003550 marker Substances 0.000 abstract description 13
- 230000006872 improvement Effects 0.000 abstract description 6
- 238000006243 chemical reaction Methods 0.000 abstract description 3
- 238000012165 high-throughput sequencing Methods 0.000 abstract description 3
- 230000035772 mutation Effects 0.000 abstract description 2
- 238000012105 stratification Analysis Methods 0.000 abstract description 2
- 108020004414 DNA Proteins 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 7
- 239000002773 nucleotide Substances 0.000 description 6
- 125000003729 nucleotide group Chemical group 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 108700028369 Alleles Proteins 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 239000012634 fragment Substances 0.000 description 4
- 238000013517 stratification Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000010219 correlation analysis Methods 0.000 description 3
- 230000012010 growth Effects 0.000 description 3
- 108091008146 restriction endonucleases Proteins 0.000 description 3
- 241000894007 species Species 0.000 description 3
- 241000588621 Moraxella Species 0.000 description 2
- 238000003776 cleavage reaction Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000001976 enzyme digestion Methods 0.000 description 2
- 230000007614 genetic variation Effects 0.000 description 2
- 238000003205 genotyping method Methods 0.000 description 2
- 239000003147 molecular marker Substances 0.000 description 2
- 230000007017 scission Effects 0.000 description 2
- 241000283690 Bos taurus Species 0.000 description 1
- 238000007400 DNA extraction Methods 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 238000012408 PCR amplification Methods 0.000 description 1
- 238000001190 Q-PCR Methods 0.000 description 1
- 108091027568 Single-stranded nucleotide Proteins 0.000 description 1
- 238000000246 agarose gel electrophoresis Methods 0.000 description 1
- 238000003975 animal breeding Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 210000000349 chromosome Anatomy 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000002856 computational phylogenetic analysis Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000001962 electrophoresis Methods 0.000 description 1
- 238000012100 gene-based analysis Methods 0.000 description 1
- 238000012252 genetic analysis Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000008267 milk Substances 0.000 description 1
- 210000004080 milk Anatomy 0.000 description 1
- 235000013336 milk Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000011392 neighbor-joining method Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 102000054765 polymorphisms of proteins Human genes 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000002096 quantum dot Substances 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 230000001850 reproductive effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B10/00—ICT specially adapted for evolutionary bioinformatics, e.g. phylogenetic tree construction or analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/40—Population genetics; Linkage disequilibrium
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/30—Unsupervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/10—Ontologies; Annotations
Landscapes
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Genetics & Genomics (AREA)
- Databases & Information Systems (AREA)
- Chemical & Material Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioethics (AREA)
- Analytical Chemistry (AREA)
- Molecular Biology (AREA)
- Epidemiology (AREA)
- Physiology (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Ecology (AREA)
- Animal Behavior & Ethology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种用于水牛的GBS全基因组关联分析方法,涉及基因组关联分析技术领域,其技术方案要点是:该方法包括测序数据质控、比对参考基因、SNP检测和注释、群体分层分析和全基因组关联分析几个步骤。利用该方法技术可以检测基因组上未知变异位点中新的SNP,SNP标记转化成功率高;一次测序获得数以百万计SNP位点,密度高;获取的每个SNP标记位点的成本比传统芯片技术降低一个数量级;该方法数据准确,技术稳定,操作简单,重复性高;利用高通量测序手段获得水牛SNP标记与性状关联分析,能够更全面、更精准的定位于目标性状相关的基因或分子模块,为水牛育种的分子选育和遗传改良提供更为精准的候选靶标。
Description
技术领域
本发明涉及基因组关联分析技术领域,更具体地说,它涉及一种用于水牛的GBS全基因组关联分析方法。
背景技术
通过育种实现群体遗传改良是提高水牛业生产水平和效率的关键。我国水牛业生产水平与发达国家有较大差距,根本原因是我国水牛群体的遗传水平低,依靠传统的育种技术难以改变这种状况。以基因组选择为核心的分子育种技术提供了机遇,与传统育种技术相比,该技术可大幅提高群体遗传改良速率和生产效益。
产奶、健康、生长和繁殖性状是水牛最为重要的几个经济性状,经济性状的优劣直接影响水牛产业。多年以来,通过传统的育种方法对水牛经济性状进行的遗传改良也取得了一定效果,但由于周期长,经济性状复杂,受诸多基因的控制,传统育种方法已很难对经济性状取得较大的遗传进展。近些年来,随着科技的飞速发展,分子标记辅助育种已成为改良遗传性状的新方法。
目前,全基因组SNP分型技术主要有基因分型芯片和测序两种方法。基因分型芯片方法尽管技术稳定,结果重复率高,但该技术分型一个实验样本成本高,而且对于群体遗传学研究领域,群体分型的成本更为昂贵,加之受技术所限,存在SNP多态位点在不同群体中通用性差,标记密度低,不能精细功能基因定位和全基因组关联分析。
目前,一项新的以高通量测序为基础的技术被开发出来,即GBS(Genotyping-by-sequencing)技术指通过测序进行基因分型,通过选取合适的限制性内切酶结合高通量群体测序构建SNP分子标记,可用于分子标记开发、超高密度遗传图谱构建、群体遗传分析、群体GWAS分析等领域。该技术方法与芯片相比,实验步骤简单,成本低;一次测序获得数量庞大的SNP位点,密度高;可以检测出基因组上未知变异位点中新的SNP;有无参考基因组物种均适合;测序片段完整,SNP标记转化成功率高。
全基因组关联分析(Genome-wide association study,GWAS)是一种对全基因组范围内的常见遗传变异(单核苷酸多态性和拷贝数)总体关联分析的方法,该方法以自然群体为研究对象,以长期重组后保留下来的基因(位点)间连锁不平衡(linkagedisequilibrium,LD)为基础,将目标性状表型的多样性与基因(或标记位点)的多态性结合起来分析,可直接鉴定出与表型变异密切相关且具有特定功能的基因位点或标记位点。采用GWAS技术在全基因组范围内进行研究,能够一次性对多个性状进行定位,适用于定位性状关联区间、功能基因研究、开发性状选育和功能标记等方面的研究。GWAS技术作为一种新的方法在动物育种领域得到广泛应用。全基因组关联分析旨在从全基因组范围内寻找与性状关联的单链核苷酸多态性(single nucleotide polymorphism,SNPs),其得到的结果更具可靠性。近几年,GWAS在牛分子育种方面以辅助选育方式进行应用,在水牛分子育种方面还处于实验研究阶段。目前大部分GWAS研究都是基于芯片分型技术,该技术只能检测已知SNP多态位点,无法发现新的位点,且操作复杂,成本高。基于上述原因,急需开发一种通用型、经济实惠,便于操作适合水牛的GBS全基因组关联分析方法。为水牛育种的分子选育和遗传改良提供技术支撑。
发明内容
本发明的目的是提供一种用于水牛的GBS全基因组关联分析方法,对水牛群体的经济性状进行分析。
本发明的上述技术目的是通过以下技术方案得以实现的:一种用于水牛的GBS全基因组关联分析方法,所述全基因组关联分析方法包括以下步骤:
S1.测序数据质控;
S2.比对参考基因组;
S3.SNP检测和注释;
S4.群体分层分析;
S5.全基因组关联分析。
本发明进一步设置为:所述测序数据质控方法如下:
1)过滤掉含有接头序列的水牛测序序列;
2)当单端测序序列中未测出的碱基含量超过该条序列长度比例的10%时,需要去除此对碱基序列;
3)当单端测序序列中含有的低质量(<=5)碱基数超过该条序列长度比例的50%时,需要去除此对碱基序列;
4)经过上述对水牛测序数据的严格过滤,得到高质量的有效数据。
本发明进一步设置为:所述比对参考基因是将S1中得到的有效数据与参考基因组做比对,得到比对率、平均测序深度以及其他相关数据。
本发明进一步设置为:所述SNP检测和注释操作如下:
(1)检测水牛群体的SNP位点,并对获得的多态性位点过滤,得到高质量的SNP位点;
(2)对得到的高质量的SNP位点进行群体SNP注释。
本发明进一步设置为:所述群体分层分析可采用群体进化树分析和群体主成分分析两种分析方法。
本发明进一步设置为:所述全基因关联分析分为性状关联分析和目标性状相关区域基因功能注释两个步骤。
综上所述,本发明具有以下有益效果:利用该方法技术可以检测基因组上未知变异位点中新的SNP,SNP标记转化成功率高;一次测序获得数以百万计SNP位点,密度高;获取的每个SNP标记位点的成本比传统芯片技术降低一个数量级;该方法数据准确,技术稳定,操作简单,重复性高;利用高通量测序手段获得水牛SNP标记与性状关联分析,能够更全面、更精准的定位于目标性状相关的基因或分子模块,为水牛育种的分子选育和遗传改良提供更为精准的候选靶标的效果。
附图说明
图1是本发明实施例1中GBS实验流程;
图2是本发明实施例4中不同品系水牛的系统进化树;
图3是本发明实施例4中PCA结果二维图;
图4是本发明实施例4中PCA结果三维图;
图5是本发明实施例5中性状关联分析结果;
图6是本发明全基因组关联分析流程图。
具体实施方式
以下结合附图1-6对本发明作进一步详细说明。
实施例1:测序得到原始数据
通过以下3种方法对来自不同群体水牛的182个样品(1个重复样品)(其中摩拉水牛48头,尼里-拉菲水牛29头,地中海水牛12头,本地水牛23头,摩拉和尼里-拉菲杂交水牛70头,均为24~36月龄。)进行DNA检测,检测步骤如下:
(1)根据DNA提取试剂盒说明书抽提水牛血液DNA,1%琼脂糖凝胶电泳分析DNA的纯度和完整性;
(2)Nanodrop检测DNA的纯度(OD260/280比值);
(3)Qubit对DNA浓度进行精确定量。
如图1所示,检测完成后构建文库,GBS文库构建,首先应用限制性内切酶对基因组进行酶切,0.1-1μg基因组DNA用限制性内切酶进行酶切,以得到适合的marker密度。酶切后的片段两端加P1和P2Adapter(可与酶切DNA缺口互补),PCR扩增两端分别含有P1和P2接头的tag序列,DNA片段pooling,电泳回收需要区间的DNA。利用IlluminaHiSeq测序平台,进行双末端(Paired-End)150测序。
对182个水牛的酶切数据进行统计,随机选取3个水牛的数据,如表1所示。
表1酶切捕获统计
对182个水牛产出数据进行统计(表2为随机选取的3个水牛的数据),包括测序数据产量,测序错误率,Q20含量,Q30含量,GC含量等。
表2水牛测序数据产出统计
Q20:质量值在20以上(错误率在1%以下)的碱基所占的百分比;
Q30:质量值在30以上(错误率在0.1%以下)的碱基所占的百分比;
该项目总共测序了不同水牛182个样本,总的测序数据量为131.00Gb,平均每个样本719.78Mb;高质量的clean data数据量为130.99Gb,平均每个样本719.71Mb。测序质量高(Q20≥93.60%、Q30≥85.00%),GC分布正常,182个水牛样本都没有被污染,此次建库测序成功。
文库构建完成后,先使用Qubit2.0进行初步定量,稀释文库至1ng/μl,随后使用Agilent 2100对文库的insert size进行检测,insert size符合预期后,使用Q-PCR方法对文库的有效浓度进行准确定量(文库有效浓度>2nM),以保证文库质量。
实施例2:比对参考基因
有效的高质量测序数据通过BWA软件(参数:mem-t 4-k 32-M)比对到参考基因组。
参考基因组下载地址:
ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/471/725/GCF_000471725.1_UMD_CASPUR_WB_2.0/GCF_000471725.1_UMD_CASPUR_WB_2.0_genomic.fna.gz
基因组大小为2,836,166,969bp,群体样本平均比对率为95.25%~99.67%,对基因组的平均测序深度为7.33X~26.46X,1X覆盖度(至少有一个碱基的覆盖)在2.26%以上。样本比对率反映了样本测序数据与参考基因组的相似性,覆盖深度和覆盖度能够直接反应测序数据的均一性及与参考序列的同源性。各个样本的比对结果显示,它们与参考基因组的相似度达到重测序分析的要求,同时又有非常不错的覆盖深度和覆盖度。部分样本的详细统计结果如表3所示:
表3测序深度及覆盖度统计
1X指参考基因组中至少有1个碱基覆盖的位点;
4X指参考基因组至少有4个碱基覆盖的位点。
实施例3:SNP检测和注释
SNP(单核苷酸多态性)主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性,包括单个碱基的转换、颠换等。采用SAMTOOLS等软件进行群体SNP的检测。利用贝叶斯模型检测群体中的多态性位点。
SAMTOOLS软件检测共获得了2,528,010个SNP位点,对获得的SNPs进行过滤,以获得高质量的SNPs;过滤条件为dp2、Miss0.2、Maf0.01,最后共获得了263,946个SNP位点用于后续分析。
将得到的高质量SNP,利用ANNOVAR软件进行群体SNP注释,ANNOVAR是一种高效的软件工具,它能利用最新的信息,对由多个基因组检测出的基因变异进行功能注释。只要给出变异所在的染色体、起始位点、终止位点、参考核苷酸和变异核苷酸,ANNOVAR就能进行Gene-based annotation、Region-based annotations、Filter-based annotation和Otherfunctionalities。鉴于ANNOVAR强大的注释功能和国际的认可性,利用它对SNP检测结果进行注释。检测结果见表4所示:
表4SNP统计信息及注释结果
实施例4:群体分层分析:
群体分层是指群体内存在亚群的现象,亚群内部个体间的相互关系大于整个群体内部个体间的平均亲缘关系。不同的亚群间,某些位点的等位基因频率不同,当将两个亚群混合进行关联分析时,就会导致假阳性结果的产生。所以,进行关联分析之前,一定要先进行群体分层分析。群体遗传多样性分析可以推断各亚群的来源及分化程度,包括系统进化树分析、主成分分析,两者的结果可以进行相互验证。
(1)群体进化树分析
系统进化树(phylogenetic tree,又称evolutionarytree,进化树)是描述群体间进化顺序的分支图或树,用来表示群体间的进化关系。根据群体的物理或遗传学特征等方面的共同点或差异可以推断出它们的亲缘关系远近,即群体个体间由于共同祖先而产生的相互关系。我们用邻接法(neighbor-joining methods)构建进化树。
SNP检测之后,得到的个体SNPs可以用于计算种群之间的距离。两个体i和j之间的p-距离通过如下公式计算:
公式中L为高质量SNPs区域长度,在位置1的等位基因为A/C,那么:
运用TreeBest(http://treesoft.sourceforge.net/treebest.shtml)软件计算距离矩阵,以此为基础,通过邻接法(neighbor-joining method)构建系统进化树。引导值(bootstrap values)经过达1000次计算获得。进化树分析结果如图2所示。该图树形拓扑结构直观展示了不同种类水牛之间的进化关系,亲缘关系较近物种的进化分枝往往聚成一簇并以同种颜色标示,从图中我们得出红色、绿色、黄色这三个群体分群情况比较明显。
(2)群体主成分分析
主成分分析(PCA)是一种纯数学的运算方法,可以将多个相关变量经过线形转换选出较少个数的重要变量。PCA方法被广泛运用于多学科,在遗传学当中,主要用于聚类分析,它是基于个体基因组SNP差异程度,按照不同性状特征将个体按主成分聚类成不同的亚群,同时用于和其它方法做相互验证。PCA仅针对个体数n=XX的常染色体数据,忽略高于2个等位基因位点以及错配数据。PCA的分析方法如下:
在个体i,k位置的SNP用dik表示,若个体i与参考等位基因是纯合,则dik=0;若是杂合,则dik=1;若个体i与非参考等位基因是纯合,则dik=2。M是一个包含标准基因型的n×S的矩阵:
公式中E(dk)是dk的平均值,个体样本协方差n×n矩阵通过X=MMT/S进行计算。
通过GCTA(http://cnsgenomics.com/software/gcta/pca.html)软件计算特征向量以及特征值,并利用R软件绘制PCA分布图。PCA分析结果如图3、4所示。图中横纵坐标分别表示主成分1和主成分2。图中不同颜色表示不同的群体。结果与水牛群体进化树结果大体一致。
实施例5:全基因组关联分析
(1)生长性状关联分析
测量水牛体尺指标9项(包括体高(WH)、十字部高(height_at_hip_cross)、胸宽(CW)、胸深(CD)、体斜长(BL)、髋节宽(hip_width)、尻长(RL)、坐骨端宽(PBW)、腰角宽(HW)),同时查阅水牛出生重(weight)信息。
GWAS分析过程中,个体亲缘关系和群体分层是造成假关联的主要因素。因此,采用混合线性模型进行性状关联分析,群体遗传结构作为固定效应,个体亲缘关系作为随机效应,以校正群体结构和个体亲缘关系的影响:
y=Xα+Zβ+Wμ+e
y为表型性状,X为固定效应的指示矩阵,α为固定效应的估计参数;Z为SNP的指示矩阵,β为SNP的效应;W为随机效应的指示矩阵,μ为预测的随机个体,e是随机残差,服从e~(0,δe2)。
鉴于个体间亲缘关系可能影响到群体分层,绘制了在混合线性模型下群体的QQ-plot图(图5),QQ-plot图显示,观测值(纵坐标)与期望值(横坐标)基本相符,说明关联分析并没有因为群体分层而产生假阴性,关联分析结果可靠。
混合线性模型分析结果显示,共筛选出69个与水牛10个生长性状显著相关的SNPs位点,81个最近相关基因(详细结果见表5),混合线性模型分析得到的曼哈顿图见图5。
表5GWAS筛选的显著SNP位点和候选基因个数
(2)目标性状相关区域基因功能注释
根据分析结果,对显著SNP位点所在物理位置上下游一定区域内的相关基因进行功能注释,注释结果如表6所示:
表6GWAS关联部分基因功能注释
本具体实施例仅仅是对本发明的解释,其并不是对本发明的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本发明的权利要求范围内都受到专利法的保护。
Claims (6)
1.一种用于水牛的GBS全基因组关联分析方法,其特征是:所述全基因组关联分析方法包括以下步骤:
S1.测序数据质控;
S2.比对参考基因;
S3.SNP检测和注释;
S4.群体分层分析;
S5.全基因组关联分析。
2.根据权利要求1所述的一种用于水牛的GBS全基因组关联分析方法,其特征是:所述测序数据质控方法如下:
1)过滤掉含有接头序列的水牛测序序列;
2)当单端测序序列中未测出的碱基含量超过该条序列长度比例的10%时,需要去除此对碱基序列;
3)当单端测序序列中含有的低质量(<=5)碱基数超过该条序列长度比例的50%时,需要去除此对碱基序列;
4)经过上述对水牛测序数据的严格过滤,得到高质量的有效数据。
3.根据权利要求2所述的一种用于水牛的GBS全基因组关联分析方法,其特征是:所述比对参考基因是将S1中得到的有效数据与参考基因组做比对,得到比对率、平均测序深度以及其他相关数据。
4.根据权利要求1所述的一种用于水牛的GBS全基因组关联分析方法,其特征是:所述SNP检测和注释操作如下:
(1)检测群体的SNP位点,并对获得的多态性位点过滤,得到高质量的SNP位点;
(2)对得到的高质量的SNP位点进行群体SNP注释。
5.根据权利要求1所述的一种用于水牛的GBS全基因组关联分析方法,其特征是:所述群体分层分析可采用群体进化树分析和群体主成分分析两种分析方法。
6.根据权利要求1所述的一种用于水牛的GBS全基因组关联分析方法,其特征是:所述全基因关联分析分为性状关联分析和目标性状相关区域基因功能注释两个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311086801.XA CN117095746A (zh) | 2023-08-28 | 2023-08-28 | 一种用于水牛的gbs全基因组关联分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311086801.XA CN117095746A (zh) | 2023-08-28 | 2023-08-28 | 一种用于水牛的gbs全基因组关联分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117095746A true CN117095746A (zh) | 2023-11-21 |
Family
ID=88778910
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311086801.XA Pending CN117095746A (zh) | 2023-08-28 | 2023-08-28 | 一种用于水牛的gbs全基因组关联分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117095746A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117701727A (zh) * | 2023-12-04 | 2024-03-15 | 广西壮族自治区水牛研究所 | 基于全基因组测序筛选的与摩拉水牛体尺、初生重相关的snp分子标记组合及应用 |
CN117701727B (zh) * | 2023-12-04 | 2024-06-07 | 广西壮族自治区水牛研究所 | 基于全基因组测序筛选的与摩拉水牛体尺、初生重相关的snp分子标记组合及应用 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110093406A (zh) * | 2019-05-27 | 2019-08-06 | 新疆农业大学 | 一种盘羊及其杂交后代遗传基因研究方法 |
CN112342302A (zh) * | 2020-11-27 | 2021-02-09 | 广西壮族自治区水牛研究所 | 鉴定水牛产奶性状候选基因标记的方法及应用 |
-
2023
- 2023-08-28 CN CN202311086801.XA patent/CN117095746A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110093406A (zh) * | 2019-05-27 | 2019-08-06 | 新疆农业大学 | 一种盘羊及其杂交后代遗传基因研究方法 |
CN112342302A (zh) * | 2020-11-27 | 2021-02-09 | 广西壮族自治区水牛研究所 | 鉴定水牛产奶性状候选基因标记的方法及应用 |
Non-Patent Citations (3)
Title |
---|
王梓祎: "红鳍东方鲀生长性状全基因组关联分析", 《中国优秀硕士学位论文全文数据库 农业科技辑》, vol. 2022, no. 9, 15 September 2022 (2022-09-15), pages 2 - 3 * |
郭玲等: "《新疆杏基因资源及其表型研究》", 30 April 2022, pages: 108 - 109 * |
陈亚飞: "基于dd-RAD技术对宁夏安格斯牛生长性状的全基因组关联分析", 《中国优秀硕士学位论文全文数据库 农业科技辑》, vol. 2023, no. 2, 15 February 2023 (2023-02-15), pages 3 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117701727A (zh) * | 2023-12-04 | 2024-03-15 | 广西壮族自治区水牛研究所 | 基于全基因组测序筛选的与摩拉水牛体尺、初生重相关的snp分子标记组合及应用 |
CN117701727B (zh) * | 2023-12-04 | 2024-06-07 | 广西壮族自治区水牛研究所 | 基于全基因组测序筛选的与摩拉水牛体尺、初生重相关的snp分子标记组合及应用 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9976191B2 (en) | Rice whole genome breeding chip and application thereof | |
CN105441432B (zh) | 组合物及其在序列测定和变异检测中的用途 | |
Lee et al. | Development, validation and genetic analysis of a large soybean SNP genotyping array | |
CN102747138B (zh) | 一种水稻全基因组snp芯片及其应用 | |
Borevitz et al. | Large-scale identification of single-feature polymorphisms in complex genomes | |
CN109196123B (zh) | 用于水稻基因分型的snp分子标记组合及其应用 | |
AU2019101778A4 (en) | Method for constructing rice molecular marker map based on Kompetitive Allele Specific PCR and application in breeding Using the same | |
CN106591441A (zh) | 基于全基因捕获测序的α和/或β‑地中海贫血突变的检测探针、方法、芯片及应用 | |
CN106834490A (zh) | 一种鉴定胚胎平衡易位断裂点和平衡易位携带状态的方法 | |
CN106845152B (zh) | 一种基因组胞嘧啶位点表观基因型分型方法 | |
CN115029451B (zh) | 一种绵羊液相芯片及其应用 | |
WO2022165853A1 (zh) | 一种大豆snp分型检测芯片及其在分子育种与基础研究中的应用 | |
Zhou et al. | Development of a 50K SNP array for Japanese flounder and its application in genomic selection for disease resistance | |
CN110846429A (zh) | 一种玉米全基因组InDel芯片及其应用 | |
CN108304694B (zh) | 基于二代测序数据分析基因突变的方法 | |
CN112289384A (zh) | 一种柑橘全基因组kasp标记库的构建方法及应用 | |
CN114863991A (zh) | 基于二步预测模型建立的提高全基因组预测精度方法 | |
CN112226529A (zh) | 一种冬瓜抗枯萎病基因的snp分子标记及应用 | |
CN116814805A (zh) | 一个杜洛克猪全基因组低密度snp芯片及其制备方法和应用 | |
CN114303202A (zh) | 用于确定胚胎中遗传模式的系统和方法 | |
CN113564266B (zh) | Snp分型遗传标记组合、检测试剂盒及用途 | |
CN103184275A (zh) | 一种水稻基因组基因标识的新方法 | |
CN117095746A (zh) | 一种用于水牛的gbs全基因组关联分析方法 | |
Collins | Linkage disequilibrium and association mapping: an introduction | |
CN113793637A (zh) | 基于亲本基因型与子代表型的全基因组关联分析算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |