CN117095746A

CN117095746A - 一种用于水牛的gbs全基因组关联分析方法

Info

Publication number: CN117095746A
Application number: CN202311086801.XA
Authority: CN
Inventors: 郑海英; 尚江华; 杨春艳; 郑威
Original assignee: GUANGXI ZHUANG AUTONOMOUS REGION BUFFALO INSTITUTE
Current assignee: GUANGXI ZHUANG AUTONOMOUS REGION BUFFALO INSTITUTE
Priority date: 2023-08-28
Filing date: 2023-08-28
Publication date: 2023-11-21

Abstract

本发明公开了一种用于水牛的GBS全基因组关联分析方法，涉及基因组关联分析技术领域，其技术方案要点是：该方法包括测序数据质控、比对参考基因、SNP检测和注释、群体分层分析和全基因组关联分析几个步骤。利用该方法技术可以检测基因组上未知变异位点中新的SNP，SNP标记转化成功率高；一次测序获得数以百万计SNP位点，密度高；获取的每个SNP标记位点的成本比传统芯片技术降低一个数量级；该方法数据准确，技术稳定，操作简单，重复性高；利用高通量测序手段获得水牛SNP标记与性状关联分析，能够更全面、更精准的定位于目标性状相关的基因或分子模块，为水牛育种的分子选育和遗传改良提供更为精准的候选靶标。

Description

一种用于水牛的GBS全基因组关联分析方法

技术领域

本发明涉及基因组关联分析技术领域，更具体地说，它涉及一种用于水牛的GBS全基因组关联分析方法。

背景技术

通过育种实现群体遗传改良是提高水牛业生产水平和效率的关键。我国水牛业生产水平与发达国家有较大差距，根本原因是我国水牛群体的遗传水平低，依靠传统的育种技术难以改变这种状况。以基因组选择为核心的分子育种技术提供了机遇，与传统育种技术相比，该技术可大幅提高群体遗传改良速率和生产效益。

产奶、健康、生长和繁殖性状是水牛最为重要的几个经济性状，经济性状的优劣直接影响水牛产业。多年以来，通过传统的育种方法对水牛经济性状进行的遗传改良也取得了一定效果，但由于周期长，经济性状复杂，受诸多基因的控制，传统育种方法已很难对经济性状取得较大的遗传进展。近些年来，随着科技的飞速发展，分子标记辅助育种已成为改良遗传性状的新方法。

目前，全基因组SNP分型技术主要有基因分型芯片和测序两种方法。基因分型芯片方法尽管技术稳定，结果重复率高，但该技术分型一个实验样本成本高，而且对于群体遗传学研究领域，群体分型的成本更为昂贵，加之受技术所限，存在SNP多态位点在不同群体中通用性差，标记密度低，不能精细功能基因定位和全基因组关联分析。

目前，一项新的以高通量测序为基础的技术被开发出来，即GBS(Genotyping-by-sequencing)技术指通过测序进行基因分型，通过选取合适的限制性内切酶结合高通量群体测序构建SNP分子标记，可用于分子标记开发、超高密度遗传图谱构建、群体遗传分析、群体GWAS分析等领域。该技术方法与芯片相比，实验步骤简单，成本低；一次测序获得数量庞大的SNP位点，密度高；可以检测出基因组上未知变异位点中新的SNP；有无参考基因组物种均适合；测序片段完整，SNP标记转化成功率高。

全基因组关联分析(Genome-wide association study，GWAS)是一种对全基因组范围内的常见遗传变异(单核苷酸多态性和拷贝数)总体关联分析的方法，该方法以自然群体为研究对象，以长期重组后保留下来的基因(位点)间连锁不平衡(linkagedisequilibrium,LD)为基础，将目标性状表型的多样性与基因(或标记位点)的多态性结合起来分析，可直接鉴定出与表型变异密切相关且具有特定功能的基因位点或标记位点。采用GWAS技术在全基因组范围内进行研究，能够一次性对多个性状进行定位，适用于定位性状关联区间、功能基因研究、开发性状选育和功能标记等方面的研究。GWAS技术作为一种新的方法在动物育种领域得到广泛应用。全基因组关联分析旨在从全基因组范围内寻找与性状关联的单链核苷酸多态性(single nucleotide polymorphism,SNPs)，其得到的结果更具可靠性。近几年，GWAS在牛分子育种方面以辅助选育方式进行应用，在水牛分子育种方面还处于实验研究阶段。目前大部分GWAS研究都是基于芯片分型技术，该技术只能检测已知SNP多态位点，无法发现新的位点，且操作复杂，成本高。基于上述原因，急需开发一种通用型、经济实惠，便于操作适合水牛的GBS全基因组关联分析方法。为水牛育种的分子选育和遗传改良提供技术支撑。

发明内容

本发明的目的是提供一种用于水牛的GBS全基因组关联分析方法，对水牛群体的经济性状进行分析。

本发明的上述技术目的是通过以下技术方案得以实现的：一种用于水牛的GBS全基因组关联分析方法，所述全基因组关联分析方法包括以下步骤：

S1.测序数据质控；

S2.比对参考基因组；

S3.SNP检测和注释；

S4.群体分层分析；

S5.全基因组关联分析。

本发明进一步设置为：所述测序数据质控方法如下：

1)过滤掉含有接头序列的水牛测序序列；

2)当单端测序序列中未测出的碱基含量超过该条序列长度比例的10％时，需要去除此对碱基序列；

3)当单端测序序列中含有的低质量(<＝5)碱基数超过该条序列长度比例的50％时，需要去除此对碱基序列；

4)经过上述对水牛测序数据的严格过滤，得到高质量的有效数据。

本发明进一步设置为：所述比对参考基因是将S1中得到的有效数据与参考基因组做比对，得到比对率、平均测序深度以及其他相关数据。

本发明进一步设置为：所述SNP检测和注释操作如下：

(1)检测水牛群体的SNP位点，并对获得的多态性位点过滤，得到高质量的SNP位点；

(2)对得到的高质量的SNP位点进行群体SNP注释。

本发明进一步设置为：所述群体分层分析可采用群体进化树分析和群体主成分分析两种分析方法。

本发明进一步设置为：所述全基因关联分析分为性状关联分析和目标性状相关区域基因功能注释两个步骤。

综上所述，本发明具有以下有益效果：利用该方法技术可以检测基因组上未知变异位点中新的SNP，SNP标记转化成功率高；一次测序获得数以百万计SNP位点，密度高；获取的每个SNP标记位点的成本比传统芯片技术降低一个数量级；该方法数据准确，技术稳定，操作简单，重复性高；利用高通量测序手段获得水牛SNP标记与性状关联分析，能够更全面、更精准的定位于目标性状相关的基因或分子模块，为水牛育种的分子选育和遗传改良提供更为精准的候选靶标的效果。

附图说明

图1是本发明实施例1中GBS实验流程；

图2是本发明实施例4中不同品系水牛的系统进化树；

图3是本发明实施例4中PCA结果二维图；

图4是本发明实施例4中PCA结果三维图；

图5是本发明实施例5中性状关联分析结果；

图6是本发明全基因组关联分析流程图。

具体实施方式

以下结合附图1-6对本发明作进一步详细说明。

实施例1：测序得到原始数据

通过以下3种方法对来自不同群体水牛的182个样品(1个重复样品)(其中摩拉水牛48头，尼里-拉菲水牛29头，地中海水牛12头，本地水牛23头，摩拉和尼里-拉菲杂交水牛70头，均为24～36月龄。)进行DNA检测，检测步骤如下：

(1)根据DNA提取试剂盒说明书抽提水牛血液DNA，1％琼脂糖凝胶电泳分析DNA的纯度和完整性；

(2)Nanodrop检测DNA的纯度(OD260/280比值)；

(3)Qubit对DNA浓度进行精确定量。

如图1所示，检测完成后构建文库，GBS文库构建，首先应用限制性内切酶对基因组进行酶切，0.1-1μg基因组DNA用限制性内切酶进行酶切，以得到适合的marker密度。酶切后的片段两端加P1和P2Adapter(可与酶切DNA缺口互补)，PCR扩增两端分别含有P1和P2接头的tag序列，DNA片段pooling，电泳回收需要区间的DNA。利用IlluminaHiSeq测序平台，进行双末端(Paired-End)150测序。

对182个水牛的酶切数据进行统计，随机选取3个水牛的数据，如表1所示。

表1酶切捕获统计

对182个水牛产出数据进行统计(表2为随机选取的3个水牛的数据)，包括测序数据产量，测序错误率，Q20含量，Q30含量，GC含量等。

表2水牛测序数据产出统计

Q20：质量值在20以上(错误率在1％以下)的碱基所占的百分比；

Q30：质量值在30以上(错误率在0.1％以下)的碱基所占的百分比；

该项目总共测序了不同水牛182个样本，总的测序数据量为131.00Gb，平均每个样本719.78Mb；高质量的clean data数据量为130.99Gb，平均每个样本719.71Mb。测序质量高(Q20≥93.60％、Q30≥85.00％)，GC分布正常，182个水牛样本都没有被污染，此次建库测序成功。

文库构建完成后，先使用Qubit2.0进行初步定量，稀释文库至1ng/μl，随后使用Agilent 2100对文库的insert size进行检测，insert size符合预期后，使用Q-PCR方法对文库的有效浓度进行准确定量(文库有效浓度>2nM)，以保证文库质量。

实施例2：比对参考基因

有效的高质量测序数据通过BWA软件(参数：mem-t 4-k 32-M)比对到参考基因组。

参考基因组下载地址：

ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/471/725/GCF_000471725.1_UMD_CASPUR_WB_2.0/GCF_000471725.1_UMD_CASPUR_WB_2.0_genomic.fna.gz

基因组大小为2,836,166,969bp，群体样本平均比对率为95.25％～99.67％，对基因组的平均测序深度为7.33X～26.46X，1X覆盖度(至少有一个碱基的覆盖)在2.26％以上。样本比对率反映了样本测序数据与参考基因组的相似性，覆盖深度和覆盖度能够直接反应测序数据的均一性及与参考序列的同源性。各个样本的比对结果显示，它们与参考基因组的相似度达到重测序分析的要求，同时又有非常不错的覆盖深度和覆盖度。部分样本的详细统计结果如表3所示：

表3测序深度及覆盖度统计

1X指参考基因组中至少有1个碱基覆盖的位点；

4X指参考基因组至少有4个碱基覆盖的位点。

实施例3：SNP检测和注释

SNP(单核苷酸多态性)主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性，包括单个碱基的转换、颠换等。采用SAMTOOLS等软件进行群体SNP的检测。利用贝叶斯模型检测群体中的多态性位点。

SAMTOOLS软件检测共获得了2,528,010个SNP位点，对获得的SNPs进行过滤，以获得高质量的SNPs；过滤条件为dp2、Miss0.2、Maf0.01，最后共获得了263,946个SNP位点用于后续分析。

将得到的高质量SNP，利用ANNOVAR软件进行群体SNP注释，ANNOVAR是一种高效的软件工具，它能利用最新的信息，对由多个基因组检测出的基因变异进行功能注释。只要给出变异所在的染色体、起始位点、终止位点、参考核苷酸和变异核苷酸，ANNOVAR就能进行Gene-based annotation、Region-based annotations、Filter-based annotation和Otherfunctionalities。鉴于ANNOVAR强大的注释功能和国际的认可性，利用它对SNP检测结果进行注释。检测结果见表4所示：

表4SNP统计信息及注释结果

实施例4：群体分层分析:

群体分层是指群体内存在亚群的现象，亚群内部个体间的相互关系大于整个群体内部个体间的平均亲缘关系。不同的亚群间，某些位点的等位基因频率不同，当将两个亚群混合进行关联分析时，就会导致假阳性结果的产生。所以，进行关联分析之前，一定要先进行群体分层分析。群体遗传多样性分析可以推断各亚群的来源及分化程度，包括系统进化树分析、主成分分析，两者的结果可以进行相互验证。

(1)群体进化树分析

系统进化树(phylogenetic tree，又称evolutionarytree，进化树)是描述群体间进化顺序的分支图或树，用来表示群体间的进化关系。根据群体的物理或遗传学特征等方面的共同点或差异可以推断出它们的亲缘关系远近，即群体个体间由于共同祖先而产生的相互关系。我们用邻接法(neighbor-joining methods)构建进化树。

SNP检测之后，得到的个体SNPs可以用于计算种群之间的距离。两个体i和j之间的p-距离通过如下公式计算：

公式中L为高质量SNPs区域长度，在位置1的等位基因为A/C，那么：

运用TreeBest(http://treesoft.sourceforge.net/treebest.shtml)软件计算距离矩阵，以此为基础，通过邻接法(neighbor-joining method)构建系统进化树。引导值(bootstrap values)经过达1000次计算获得。进化树分析结果如图2所示。该图树形拓扑结构直观展示了不同种类水牛之间的进化关系，亲缘关系较近物种的进化分枝往往聚成一簇并以同种颜色标示，从图中我们得出红色、绿色、黄色这三个群体分群情况比较明显。

(2)群体主成分分析

主成分分析(PCA)是一种纯数学的运算方法，可以将多个相关变量经过线形转换选出较少个数的重要变量。PCA方法被广泛运用于多学科，在遗传学当中，主要用于聚类分析，它是基于个体基因组SNP差异程度，按照不同性状特征将个体按主成分聚类成不同的亚群，同时用于和其它方法做相互验证。PCA仅针对个体数n＝XX的常染色体数据，忽略高于2个等位基因位点以及错配数据。PCA的分析方法如下：

在个体i，k位置的SNP用d_ik表示，若个体i与参考等位基因是纯合，则d_ik＝0；若是杂合，则d_ik＝1；若个体i与非参考等位基因是纯合，则d_ik＝2。M是一个包含标准基因型的n×S的矩阵：

公式中E(d_k)是d_k的平均值，个体样本协方差n×n矩阵通过X＝MMT/S进行计算。

通过GCTA(http://cnsgenomics.com/software/gcta/pca.html)软件计算特征向量以及特征值，并利用R软件绘制PCA分布图。PCA分析结果如图3、4所示。图中横纵坐标分别表示主成分1和主成分2。图中不同颜色表示不同的群体。结果与水牛群体进化树结果大体一致。

实施例5：全基因组关联分析

(1)生长性状关联分析

测量水牛体尺指标9项(包括体高(WH)、十字部高(height_at_hip_cross)、胸宽(CW)、胸深(CD)、体斜长(BL)、髋节宽(hip_width)、尻长(RL)、坐骨端宽(PBW)、腰角宽(HW))，同时查阅水牛出生重(weight)信息。

GWAS分析过程中，个体亲缘关系和群体分层是造成假关联的主要因素。因此，采用混合线性模型进行性状关联分析，群体遗传结构作为固定效应，个体亲缘关系作为随机效应，以校正群体结构和个体亲缘关系的影响：

y＝Xα+Zβ+Wμ+e

y为表型性状，X为固定效应的指示矩阵，α为固定效应的估计参数；Z为SNP的指示矩阵，β为SNP的效应；W为随机效应的指示矩阵，μ为预测的随机个体，e是随机残差，服从e～(0，δe²)。

鉴于个体间亲缘关系可能影响到群体分层，绘制了在混合线性模型下群体的QQ-plot图(图5)，QQ-plot图显示，观测值(纵坐标)与期望值(横坐标)基本相符，说明关联分析并没有因为群体分层而产生假阴性，关联分析结果可靠。

混合线性模型分析结果显示，共筛选出69个与水牛10个生长性状显著相关的SNPs位点，81个最近相关基因(详细结果见表5)，混合线性模型分析得到的曼哈顿图见图5。

表5GWAS筛选的显著SNP位点和候选基因个数

(2)目标性状相关区域基因功能注释

根据分析结果，对显著SNP位点所在物理位置上下游一定区域内的相关基因进行功能注释，注释结果如表6所示：

表6GWAS关联部分基因功能注释

本具体实施例仅仅是对本发明的解释，其并不是对本发明的限制，本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改，但只要在本发明的权利要求范围内都受到专利法的保护。

Claims

1.一种用于水牛的GBS全基因组关联分析方法，其特征是：所述全基因组关联分析方法包括以下步骤：

S1.测序数据质控；

S2.比对参考基因；

S3.SNP检测和注释；

S4.群体分层分析；

S5.全基因组关联分析。

2.根据权利要求1所述的一种用于水牛的GBS全基因组关联分析方法，其特征是：所述测序数据质控方法如下：

1)过滤掉含有接头序列的水牛测序序列；

3.根据权利要求2所述的一种用于水牛的GBS全基因组关联分析方法，其特征是：所述比对参考基因是将S1中得到的有效数据与参考基因组做比对，得到比对率、平均测序深度以及其他相关数据。

4.根据权利要求1所述的一种用于水牛的GBS全基因组关联分析方法，其特征是：所述SNP检测和注释操作如下：

(1)检测群体的SNP位点，并对获得的多态性位点过滤，得到高质量的SNP位点；

(2)对得到的高质量的SNP位点进行群体SNP注释。

5.根据权利要求1所述的一种用于水牛的GBS全基因组关联分析方法，其特征是：所述群体分层分析可采用群体进化树分析和群体主成分分析两种分析方法。

6.根据权利要求1所述的一种用于水牛的GBS全基因组关联分析方法，其特征是：所述全基因关联分析分为性状关联分析和目标性状相关区域基因功能注释两个步骤。