CN117095746A - 一种用于水牛的gbs全基因组关联分析方法 - Google Patents

一种用于水牛的gbs全基因组关联分析方法 Download PDF

Info

Publication number
CN117095746A
CN117095746A CN202311086801.XA CN202311086801A CN117095746A CN 117095746 A CN117095746 A CN 117095746A CN 202311086801 A CN202311086801 A CN 202311086801A CN 117095746 A CN117095746 A CN 117095746A
Authority
CN
China
Prior art keywords
buffalo
association analysis
snp
whole genome
sequencing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311086801.XA
Other languages
English (en)
Inventor
郑海英
尚江华
杨春艳
郑威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GUANGXI ZHUANG AUTONOMOUS REGION BUFFALO INSTITUTE
Original Assignee
GUANGXI ZHUANG AUTONOMOUS REGION BUFFALO INSTITUTE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GUANGXI ZHUANG AUTONOMOUS REGION BUFFALO INSTITUTE filed Critical GUANGXI ZHUANG AUTONOMOUS REGION BUFFALO INSTITUTE
Priority to CN202311086801.XA priority Critical patent/CN117095746A/zh
Publication of CN117095746A publication Critical patent/CN117095746A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B10/00ICT specially adapted for evolutionary bioinformatics, e.g. phylogenetic tree construction or analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/10Ontologies; Annotations

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Genetics & Genomics (AREA)
  • Databases & Information Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioethics (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Epidemiology (AREA)
  • Physiology (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Ecology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种用于水牛的GBS全基因组关联分析方法,涉及基因组关联分析技术领域,其技术方案要点是:该方法包括测序数据质控、比对参考基因、SNP检测和注释、群体分层分析和全基因组关联分析几个步骤。利用该方法技术可以检测基因组上未知变异位点中新的SNP,SNP标记转化成功率高;一次测序获得数以百万计SNP位点,密度高;获取的每个SNP标记位点的成本比传统芯片技术降低一个数量级;该方法数据准确,技术稳定,操作简单,重复性高;利用高通量测序手段获得水牛SNP标记与性状关联分析,能够更全面、更精准的定位于目标性状相关的基因或分子模块,为水牛育种的分子选育和遗传改良提供更为精准的候选靶标。

Description

一种用于水牛的GBS全基因组关联分析方法
技术领域
本发明涉及基因组关联分析技术领域,更具体地说,它涉及一种用于水牛的GBS全基因组关联分析方法。
背景技术
通过育种实现群体遗传改良是提高水牛业生产水平和效率的关键。我国水牛业生产水平与发达国家有较大差距,根本原因是我国水牛群体的遗传水平低,依靠传统的育种技术难以改变这种状况。以基因组选择为核心的分子育种技术提供了机遇,与传统育种技术相比,该技术可大幅提高群体遗传改良速率和生产效益。
产奶、健康、生长和繁殖性状是水牛最为重要的几个经济性状,经济性状的优劣直接影响水牛产业。多年以来,通过传统的育种方法对水牛经济性状进行的遗传改良也取得了一定效果,但由于周期长,经济性状复杂,受诸多基因的控制,传统育种方法已很难对经济性状取得较大的遗传进展。近些年来,随着科技的飞速发展,分子标记辅助育种已成为改良遗传性状的新方法。
目前,全基因组SNP分型技术主要有基因分型芯片和测序两种方法。基因分型芯片方法尽管技术稳定,结果重复率高,但该技术分型一个实验样本成本高,而且对于群体遗传学研究领域,群体分型的成本更为昂贵,加之受技术所限,存在SNP多态位点在不同群体中通用性差,标记密度低,不能精细功能基因定位和全基因组关联分析。
目前,一项新的以高通量测序为基础的技术被开发出来,即GBS(Genotyping-by-sequencing)技术指通过测序进行基因分型,通过选取合适的限制性内切酶结合高通量群体测序构建SNP分子标记,可用于分子标记开发、超高密度遗传图谱构建、群体遗传分析、群体GWAS分析等领域。该技术方法与芯片相比,实验步骤简单,成本低;一次测序获得数量庞大的SNP位点,密度高;可以检测出基因组上未知变异位点中新的SNP;有无参考基因组物种均适合;测序片段完整,SNP标记转化成功率高。
全基因组关联分析(Genome-wide association study,GWAS)是一种对全基因组范围内的常见遗传变异(单核苷酸多态性和拷贝数)总体关联分析的方法,该方法以自然群体为研究对象,以长期重组后保留下来的基因(位点)间连锁不平衡(linkagedisequilibrium,LD)为基础,将目标性状表型的多样性与基因(或标记位点)的多态性结合起来分析,可直接鉴定出与表型变异密切相关且具有特定功能的基因位点或标记位点。采用GWAS技术在全基因组范围内进行研究,能够一次性对多个性状进行定位,适用于定位性状关联区间、功能基因研究、开发性状选育和功能标记等方面的研究。GWAS技术作为一种新的方法在动物育种领域得到广泛应用。全基因组关联分析旨在从全基因组范围内寻找与性状关联的单链核苷酸多态性(single nucleotide polymorphism,SNPs),其得到的结果更具可靠性。近几年,GWAS在牛分子育种方面以辅助选育方式进行应用,在水牛分子育种方面还处于实验研究阶段。目前大部分GWAS研究都是基于芯片分型技术,该技术只能检测已知SNP多态位点,无法发现新的位点,且操作复杂,成本高。基于上述原因,急需开发一种通用型、经济实惠,便于操作适合水牛的GBS全基因组关联分析方法。为水牛育种的分子选育和遗传改良提供技术支撑。
发明内容
本发明的目的是提供一种用于水牛的GBS全基因组关联分析方法,对水牛群体的经济性状进行分析。
本发明的上述技术目的是通过以下技术方案得以实现的:一种用于水牛的GBS全基因组关联分析方法,所述全基因组关联分析方法包括以下步骤:
S1.测序数据质控;
S2.比对参考基因组;
S3.SNP检测和注释;
S4.群体分层分析;
S5.全基因组关联分析。
本发明进一步设置为:所述测序数据质控方法如下:
1)过滤掉含有接头序列的水牛测序序列;
2)当单端测序序列中未测出的碱基含量超过该条序列长度比例的10%时,需要去除此对碱基序列;
3)当单端测序序列中含有的低质量(<=5)碱基数超过该条序列长度比例的50%时,需要去除此对碱基序列;
4)经过上述对水牛测序数据的严格过滤,得到高质量的有效数据。
本发明进一步设置为:所述比对参考基因是将S1中得到的有效数据与参考基因组做比对,得到比对率、平均测序深度以及其他相关数据。
本发明进一步设置为:所述SNP检测和注释操作如下:
(1)检测水牛群体的SNP位点,并对获得的多态性位点过滤,得到高质量的SNP位点;
(2)对得到的高质量的SNP位点进行群体SNP注释。
本发明进一步设置为:所述群体分层分析可采用群体进化树分析和群体主成分分析两种分析方法。
本发明进一步设置为:所述全基因关联分析分为性状关联分析和目标性状相关区域基因功能注释两个步骤。
综上所述,本发明具有以下有益效果:利用该方法技术可以检测基因组上未知变异位点中新的SNP,SNP标记转化成功率高;一次测序获得数以百万计SNP位点,密度高;获取的每个SNP标记位点的成本比传统芯片技术降低一个数量级;该方法数据准确,技术稳定,操作简单,重复性高;利用高通量测序手段获得水牛SNP标记与性状关联分析,能够更全面、更精准的定位于目标性状相关的基因或分子模块,为水牛育种的分子选育和遗传改良提供更为精准的候选靶标的效果。
附图说明
图1是本发明实施例1中GBS实验流程;
图2是本发明实施例4中不同品系水牛的系统进化树;
图3是本发明实施例4中PCA结果二维图;
图4是本发明实施例4中PCA结果三维图;
图5是本发明实施例5中性状关联分析结果;
图6是本发明全基因组关联分析流程图。
具体实施方式
以下结合附图1-6对本发明作进一步详细说明。
实施例1:测序得到原始数据
通过以下3种方法对来自不同群体水牛的182个样品(1个重复样品)(其中摩拉水牛48头,尼里-拉菲水牛29头,地中海水牛12头,本地水牛23头,摩拉和尼里-拉菲杂交水牛70头,均为24~36月龄。)进行DNA检测,检测步骤如下:
(1)根据DNA提取试剂盒说明书抽提水牛血液DNA,1%琼脂糖凝胶电泳分析DNA的纯度和完整性;
(2)Nanodrop检测DNA的纯度(OD260/280比值);
(3)Qubit对DNA浓度进行精确定量。
如图1所示,检测完成后构建文库,GBS文库构建,首先应用限制性内切酶对基因组进行酶切,0.1-1μg基因组DNA用限制性内切酶进行酶切,以得到适合的marker密度。酶切后的片段两端加P1和P2Adapter(可与酶切DNA缺口互补),PCR扩增两端分别含有P1和P2接头的tag序列,DNA片段pooling,电泳回收需要区间的DNA。利用IlluminaHiSeq测序平台,进行双末端(Paired-End)150测序。
对182个水牛的酶切数据进行统计,随机选取3个水牛的数据,如表1所示。
表1酶切捕获统计
对182个水牛产出数据进行统计(表2为随机选取的3个水牛的数据),包括测序数据产量,测序错误率,Q20含量,Q30含量,GC含量等。
表2水牛测序数据产出统计
Q20:质量值在20以上(错误率在1%以下)的碱基所占的百分比;
Q30:质量值在30以上(错误率在0.1%以下)的碱基所占的百分比;
该项目总共测序了不同水牛182个样本,总的测序数据量为131.00Gb,平均每个样本719.78Mb;高质量的clean data数据量为130.99Gb,平均每个样本719.71Mb。测序质量高(Q20≥93.60%、Q30≥85.00%),GC分布正常,182个水牛样本都没有被污染,此次建库测序成功。
文库构建完成后,先使用Qubit2.0进行初步定量,稀释文库至1ng/μl,随后使用Agilent 2100对文库的insert size进行检测,insert size符合预期后,使用Q-PCR方法对文库的有效浓度进行准确定量(文库有效浓度>2nM),以保证文库质量。
实施例2:比对参考基因
有效的高质量测序数据通过BWA软件(参数:mem-t 4-k 32-M)比对到参考基因组。
参考基因组下载地址:
ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/471/725/GCF_000471725.1_UMD_CASPUR_WB_2.0/GCF_000471725.1_UMD_CASPUR_WB_2.0_genomic.fna.gz
基因组大小为2,836,166,969bp,群体样本平均比对率为95.25%~99.67%,对基因组的平均测序深度为7.33X~26.46X,1X覆盖度(至少有一个碱基的覆盖)在2.26%以上。样本比对率反映了样本测序数据与参考基因组的相似性,覆盖深度和覆盖度能够直接反应测序数据的均一性及与参考序列的同源性。各个样本的比对结果显示,它们与参考基因组的相似度达到重测序分析的要求,同时又有非常不错的覆盖深度和覆盖度。部分样本的详细统计结果如表3所示:
表3测序深度及覆盖度统计
1X指参考基因组中至少有1个碱基覆盖的位点;
4X指参考基因组至少有4个碱基覆盖的位点。
实施例3:SNP检测和注释
SNP(单核苷酸多态性)主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性,包括单个碱基的转换、颠换等。采用SAMTOOLS等软件进行群体SNP的检测。利用贝叶斯模型检测群体中的多态性位点。
SAMTOOLS软件检测共获得了2,528,010个SNP位点,对获得的SNPs进行过滤,以获得高质量的SNPs;过滤条件为dp2、Miss0.2、Maf0.01,最后共获得了263,946个SNP位点用于后续分析。
将得到的高质量SNP,利用ANNOVAR软件进行群体SNP注释,ANNOVAR是一种高效的软件工具,它能利用最新的信息,对由多个基因组检测出的基因变异进行功能注释。只要给出变异所在的染色体、起始位点、终止位点、参考核苷酸和变异核苷酸,ANNOVAR就能进行Gene-based annotation、Region-based annotations、Filter-based annotation和Otherfunctionalities。鉴于ANNOVAR强大的注释功能和国际的认可性,利用它对SNP检测结果进行注释。检测结果见表4所示:
表4SNP统计信息及注释结果
实施例4:群体分层分析:
群体分层是指群体内存在亚群的现象,亚群内部个体间的相互关系大于整个群体内部个体间的平均亲缘关系。不同的亚群间,某些位点的等位基因频率不同,当将两个亚群混合进行关联分析时,就会导致假阳性结果的产生。所以,进行关联分析之前,一定要先进行群体分层分析。群体遗传多样性分析可以推断各亚群的来源及分化程度,包括系统进化树分析、主成分分析,两者的结果可以进行相互验证。
(1)群体进化树分析
系统进化树(phylogenetic tree,又称evolutionarytree,进化树)是描述群体间进化顺序的分支图或树,用来表示群体间的进化关系。根据群体的物理或遗传学特征等方面的共同点或差异可以推断出它们的亲缘关系远近,即群体个体间由于共同祖先而产生的相互关系。我们用邻接法(neighbor-joining methods)构建进化树。
SNP检测之后,得到的个体SNPs可以用于计算种群之间的距离。两个体i和j之间的p-距离通过如下公式计算:
公式中L为高质量SNPs区域长度,在位置1的等位基因为A/C,那么:
运用TreeBest(http://treesoft.sourceforge.net/treebest.shtml)软件计算距离矩阵,以此为基础,通过邻接法(neighbor-joining method)构建系统进化树。引导值(bootstrap values)经过达1000次计算获得。进化树分析结果如图2所示。该图树形拓扑结构直观展示了不同种类水牛之间的进化关系,亲缘关系较近物种的进化分枝往往聚成一簇并以同种颜色标示,从图中我们得出红色、绿色、黄色这三个群体分群情况比较明显。
(2)群体主成分分析
主成分分析(PCA)是一种纯数学的运算方法,可以将多个相关变量经过线形转换选出较少个数的重要变量。PCA方法被广泛运用于多学科,在遗传学当中,主要用于聚类分析,它是基于个体基因组SNP差异程度,按照不同性状特征将个体按主成分聚类成不同的亚群,同时用于和其它方法做相互验证。PCA仅针对个体数n=XX的常染色体数据,忽略高于2个等位基因位点以及错配数据。PCA的分析方法如下:
在个体i,k位置的SNP用dik表示,若个体i与参考等位基因是纯合,则dik=0;若是杂合,则dik=1;若个体i与非参考等位基因是纯合,则dik=2。M是一个包含标准基因型的n×S的矩阵:
公式中E(dk)是dk的平均值,个体样本协方差n×n矩阵通过X=MMT/S进行计算。
通过GCTA(http://cnsgenomics.com/software/gcta/pca.html)软件计算特征向量以及特征值,并利用R软件绘制PCA分布图。PCA分析结果如图3、4所示。图中横纵坐标分别表示主成分1和主成分2。图中不同颜色表示不同的群体。结果与水牛群体进化树结果大体一致。
实施例5:全基因组关联分析
(1)生长性状关联分析
测量水牛体尺指标9项(包括体高(WH)、十字部高(height_at_hip_cross)、胸宽(CW)、胸深(CD)、体斜长(BL)、髋节宽(hip_width)、尻长(RL)、坐骨端宽(PBW)、腰角宽(HW)),同时查阅水牛出生重(weight)信息。
GWAS分析过程中,个体亲缘关系和群体分层是造成假关联的主要因素。因此,采用混合线性模型进行性状关联分析,群体遗传结构作为固定效应,个体亲缘关系作为随机效应,以校正群体结构和个体亲缘关系的影响:
y=Xα+Zβ+Wμ+e
y为表型性状,X为固定效应的指示矩阵,α为固定效应的估计参数;Z为SNP的指示矩阵,β为SNP的效应;W为随机效应的指示矩阵,μ为预测的随机个体,e是随机残差,服从e~(0,δe2)。
鉴于个体间亲缘关系可能影响到群体分层,绘制了在混合线性模型下群体的QQ-plot图(图5),QQ-plot图显示,观测值(纵坐标)与期望值(横坐标)基本相符,说明关联分析并没有因为群体分层而产生假阴性,关联分析结果可靠。
混合线性模型分析结果显示,共筛选出69个与水牛10个生长性状显著相关的SNPs位点,81个最近相关基因(详细结果见表5),混合线性模型分析得到的曼哈顿图见图5。
表5GWAS筛选的显著SNP位点和候选基因个数
(2)目标性状相关区域基因功能注释
根据分析结果,对显著SNP位点所在物理位置上下游一定区域内的相关基因进行功能注释,注释结果如表6所示:
表6GWAS关联部分基因功能注释
本具体实施例仅仅是对本发明的解释,其并不是对本发明的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本发明的权利要求范围内都受到专利法的保护。

Claims (6)

1.一种用于水牛的GBS全基因组关联分析方法,其特征是:所述全基因组关联分析方法包括以下步骤:
S1.测序数据质控;
S2.比对参考基因;
S3.SNP检测和注释;
S4.群体分层分析;
S5.全基因组关联分析。
2.根据权利要求1所述的一种用于水牛的GBS全基因组关联分析方法,其特征是:所述测序数据质控方法如下:
1)过滤掉含有接头序列的水牛测序序列;
2)当单端测序序列中未测出的碱基含量超过该条序列长度比例的10%时,需要去除此对碱基序列;
3)当单端测序序列中含有的低质量(<=5)碱基数超过该条序列长度比例的50%时,需要去除此对碱基序列;
4)经过上述对水牛测序数据的严格过滤,得到高质量的有效数据。
3.根据权利要求2所述的一种用于水牛的GBS全基因组关联分析方法,其特征是:所述比对参考基因是将S1中得到的有效数据与参考基因组做比对,得到比对率、平均测序深度以及其他相关数据。
4.根据权利要求1所述的一种用于水牛的GBS全基因组关联分析方法,其特征是:所述SNP检测和注释操作如下:
(1)检测群体的SNP位点,并对获得的多态性位点过滤,得到高质量的SNP位点;
(2)对得到的高质量的SNP位点进行群体SNP注释。
5.根据权利要求1所述的一种用于水牛的GBS全基因组关联分析方法,其特征是:所述群体分层分析可采用群体进化树分析和群体主成分分析两种分析方法。
6.根据权利要求1所述的一种用于水牛的GBS全基因组关联分析方法,其特征是:所述全基因关联分析分为性状关联分析和目标性状相关区域基因功能注释两个步骤。
CN202311086801.XA 2023-08-28 2023-08-28 一种用于水牛的gbs全基因组关联分析方法 Pending CN117095746A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311086801.XA CN117095746A (zh) 2023-08-28 2023-08-28 一种用于水牛的gbs全基因组关联分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311086801.XA CN117095746A (zh) 2023-08-28 2023-08-28 一种用于水牛的gbs全基因组关联分析方法

Publications (1)

Publication Number Publication Date
CN117095746A true CN117095746A (zh) 2023-11-21

Family

ID=88778910

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311086801.XA Pending CN117095746A (zh) 2023-08-28 2023-08-28 一种用于水牛的gbs全基因组关联分析方法

Country Status (1)

Country Link
CN (1) CN117095746A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117701727A (zh) * 2023-12-04 2024-03-15 广西壮族自治区水牛研究所 基于全基因组测序筛选的与摩拉水牛体尺、初生重相关的snp分子标记组合及应用
CN117701727B (zh) * 2023-12-04 2024-06-07 广西壮族自治区水牛研究所 基于全基因组测序筛选的与摩拉水牛体尺、初生重相关的snp分子标记组合及应用

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110093406A (zh) * 2019-05-27 2019-08-06 新疆农业大学 一种盘羊及其杂交后代遗传基因研究方法
CN112342302A (zh) * 2020-11-27 2021-02-09 广西壮族自治区水牛研究所 鉴定水牛产奶性状候选基因标记的方法及应用

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110093406A (zh) * 2019-05-27 2019-08-06 新疆农业大学 一种盘羊及其杂交后代遗传基因研究方法
CN112342302A (zh) * 2020-11-27 2021-02-09 广西壮族自治区水牛研究所 鉴定水牛产奶性状候选基因标记的方法及应用

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
王梓祎: "红鳍东方鲀生长性状全基因组关联分析", 《中国优秀硕士学位论文全文数据库 农业科技辑》, vol. 2022, no. 9, 15 September 2022 (2022-09-15), pages 2 - 3 *
郭玲等: "《新疆杏基因资源及其表型研究》", 30 April 2022, pages: 108 - 109 *
陈亚飞: "基于dd-RAD技术对宁夏安格斯牛生长性状的全基因组关联分析", 《中国优秀硕士学位论文全文数据库 农业科技辑》, vol. 2023, no. 2, 15 February 2023 (2023-02-15), pages 3 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117701727A (zh) * 2023-12-04 2024-03-15 广西壮族自治区水牛研究所 基于全基因组测序筛选的与摩拉水牛体尺、初生重相关的snp分子标记组合及应用
CN117701727B (zh) * 2023-12-04 2024-06-07 广西壮族自治区水牛研究所 基于全基因组测序筛选的与摩拉水牛体尺、初生重相关的snp分子标记组合及应用

Similar Documents

Publication Publication Date Title
US9976191B2 (en) Rice whole genome breeding chip and application thereof
CN105441432B (zh) 组合物及其在序列测定和变异检测中的用途
Lee et al. Development, validation and genetic analysis of a large soybean SNP genotyping array
CN102747138B (zh) 一种水稻全基因组snp芯片及其应用
Borevitz et al. Large-scale identification of single-feature polymorphisms in complex genomes
CN109196123B (zh) 用于水稻基因分型的snp分子标记组合及其应用
AU2019101778A4 (en) Method for constructing rice molecular marker map based on Kompetitive Allele Specific PCR and application in breeding Using the same
CN106591441A (zh) 基于全基因捕获测序的α和/或β‑地中海贫血突变的检测探针、方法、芯片及应用
CN106834490A (zh) 一种鉴定胚胎平衡易位断裂点和平衡易位携带状态的方法
CN106845152B (zh) 一种基因组胞嘧啶位点表观基因型分型方法
CN115029451B (zh) 一种绵羊液相芯片及其应用
WO2022165853A1 (zh) 一种大豆snp分型检测芯片及其在分子育种与基础研究中的应用
Zhou et al. Development of a 50K SNP array for Japanese flounder and its application in genomic selection for disease resistance
CN110846429A (zh) 一种玉米全基因组InDel芯片及其应用
CN108304694B (zh) 基于二代测序数据分析基因突变的方法
CN112289384A (zh) 一种柑橘全基因组kasp标记库的构建方法及应用
CN114863991A (zh) 基于二步预测模型建立的提高全基因组预测精度方法
CN112226529A (zh) 一种冬瓜抗枯萎病基因的snp分子标记及应用
CN116814805A (zh) 一个杜洛克猪全基因组低密度snp芯片及其制备方法和应用
CN114303202A (zh) 用于确定胚胎中遗传模式的系统和方法
CN113564266B (zh) Snp分型遗传标记组合、检测试剂盒及用途
CN103184275A (zh) 一种水稻基因组基因标识的新方法
CN117095746A (zh) 一种用于水牛的gbs全基因组关联分析方法
Collins Linkage disequilibrium and association mapping: an introduction
CN113793637A (zh) 基于亲本基因型与子代表型的全基因组关联分析算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination