CN109182538B

CN109182538B - 奶牛乳腺炎关键SNPs位点rs88640083及2b-RAD基因分型和分析方法

Info

Publication number: CN109182538B
Application number: CN201811146231.8A
Authority: CN
Inventors: 蔡亚非; 杨帆; 李君�; 陈芳慧; 江孝俊; 袁露; 马腾月; 吕成龙; 李莲; 李惠侠; 王根林; 韩兆玉
Original assignee: Nanjing Agricultural University
Current assignee: Nanjing Agricultural University
Priority date: 2018-09-29
Filing date: 2018-09-29
Publication date: 2022-01-04
Anticipated expiration: 2038-09-29
Also published as: CN109182538A

Abstract

本发明涉及奶牛乳腺炎关键SNPs位点rs88640083及2b‑RAD基因分型和分析方法，包括如下步骤：建库测序；生物信息学分析：数据过滤、酶切序列提取、数据比对、SNP分型、全基因组关联分析。采用BayesA模型和Logistic回归模型对奶牛临床乳腺炎表型性状进行全基因组关联分析（GWAS）。相对于现有技术，本发明的有益效果为：相对于RADseq，2b‑RAD测序技术具有以下几点优点：1、酶切片段长短均一，不需要后续筛选；2、酶切片段不需要添加“Y”型接头；3、步骤简单；4、每个样本测序成本低；5、测序耗时短。本发明还构建两种全基因组关联分析模型（BayesA和Logistics）；3、筛选到一个中国荷斯坦奶牛乳腺炎关键SNPs位点及对应基因（SYK）。

Description

奶牛乳腺炎关键SNPs位点rs88640083及2b-RAD基因分型和分析方法

技术领域

本发明涉及一种奶牛乳腺炎关键SNPs位点rs88640083及2b-RAD基因分型和分析方法。

背景技术

限制性酶切位点关联DNA测序(RADseq)技术是利用限制性内切酶对基因组进行酶切，产生一定大小的DNA片段，然后通过构建测序文库对酶切后产生的RAD标记进行高通量测序。在过去的十年里，RADseq被认为是最重要的科学突破之一，在全基因组中通过单一、简单且成本效益高的方法，一次能检测到成千上万个基因组内的单核苷酸多态性标记(single nucleotide polymorphism，SNP)，从而推动基因组学的研究。与其它测序技术相比较，该技术具有通量高、准确性好、实验周期短、性价比高和不受有无参考基因组序列的限制等优点。目前已经成功应用于种群群体遗传结构和系统进化分析、动植物重要经济性状的数量性状位点(QTL)定位和辅助遗传育种、遗传图谱的构建及SNP标记检测等研究领域。

RADseq技术流程包括：基因组DNA的酶切(1种内切酶酶)，构建文库(适配体连接，片段大小的筛选，片段端部修饰，末端添加Y型适配器，PCR扩增)，上机测序(主要是Illumina GAII或HiSeq测序平台)，生物信息学分析(常用分析软件：Stacks，pyRAD和UNEAK等)。其具体流程图如图1。

现有技术的缺点：1、酶切片段的长短大小不一，需要筛选；2、酶切片段端部需要两次添加不同的接头；3、酶切片段需要添加特殊的A-尾部和“Y”型接头；4、步骤比较繁琐，技术要求高并且耗时；5、每个样本测序费用较高。

发明内容

为了克服上述缺陷，本发明提供一种核酸内切酶DNA片段长短均一，免除后续筛选、不需要多次添加接头、步骤简单缩短测序时间；降低每个样本的测序成本的2b-RAD基因分型和分析方法。

本发明还提供一个奶牛乳腺炎关键SNPs位点，其特征在于，关键SNPs位点rs88640083位于基因SYK的5’端基因间区，SNPs为A>G。涉及染色体AC_000165.1。

筛选出前述的奶牛乳腺炎关键SNPs位点的2b-RAD基因分型和分析方法，包括如下步骤：

1)建库测序：酶切：≥200ng基因组DNA采用IIB型限制性内切酶进行酶切；加接头：酶切产物分别加入5组不同的接头，T4脱氧核苷酸连接酶连接；

扩增；串联；混库；测序：质检合格的DNA文库上机测序；

2)生物信息学分析：

(1)数据过滤：对Clean Reads进行质控；

(2)酶切序列提取：提取含有酶切识别位点的序列，用于后续分析；

(3)数据比对：利用SOAP软件将酶切序列比对到构建好的参考序列上；

(4)SNP分型：根据比对结果，利用最大似然法(ML)进行分型；

(5)分析：构建进化树、主成分分析、群体遗传结构分析或全基因组关联分析。

利用SOAP软件将酶切序列比对到参考序列后利用最大似然法(ML)进行SNP标记分型，分型工作完成后采用下述的1)-5)步骤对分型结果进一步过滤：

1)剔除所有样品中低于80％个体可以分型的位点；

2)剔除MAF低于0.01的位点；

3)剔除含有1种或4种碱基型的单核苷酸多态(SNP)位点；

4)剔除标签内多于1个SNP的位点；

5)剔除标签内低于2个基因型的位点。

采用BayesA模型和Logistic回归模型对奶牛临床乳腺炎表型性状进行全基因组关联分析(GWAS)；

在进行全基因组关联分析(GWAS)之前，首先构建基于奶牛乳腺炎表型性状的线性回归模型方程，

其中，y_i表示第i个体的表型特征向量；M为总SNPs数；μ为总表型性状平均值的特征向量；α_k是第k个SNP的加性相关性效应向量；X_ik为第i个体的第k个SNP的基因型；e是残差效应的矢量；k指SNP位点的个数。

BayesA模型假定SNPs效应符合先验正态分布，其“零均值”和“SNPs方差”以σ_k ²表示(“零均值”和“SNPs方差”等同，仅文字描述不同)，其中，k＝1,2……，M，k指SNP位点的个数；SNPs效应方差是相互独立的，每个方差的独立分布IID与逆的卡方先验正态分布相同：

其中v是自由度的参数，S²是尺度参数，P表示每个方差的独立分布(IID)与逆的卡方先验正态分布，χ^-2为“逆卡方”；每个SNP效应的临界度的先验分布符合t-分布：

其中N指“当概率为п时，SNPs为零效应，或符合正态分布且概率分布为(1-п),

”，P(α_k│v,S²)表示为每个SNP效应的临界度的先验分布，α_k表示第k个SNP的加性相关性效应向量，α_k的先验取决于每个SNP的方差，而每个SNP的方差都有一个逆的卡方；当概率为п时，SNPs为零效应，或符合正态分布且概率分布为(1-п),

其中，

代表所有非零SNPs效应的共同方差，它按比例分配了符合卡方检验的先验分布：

模型中未知的п值由其先验分布(在0和1之间被认为是均匀的)或п-一致(0，1)预测。

v_a被指定为4，

由加性方差计算：

和

其中，P_k表示为第k个SNPs的等位基因频率；

为给定标记的差异；通过SNPs对加性遗传方差

进行解释或阐明；

为卡方检验的先验分布；P_k表示第k个SNPs的等位基因频率；K为总SNPs数。

Logistic回归分析模型：假设单核苷酸多态性对奶牛乳腺炎的临床表型性状有影响，建立逻辑(Logistic)回归模型来预测奶牛临床乳腺炎发生的可能性，首先构建拟合的Logistic回归方程，

其中，其中P_j是在条件X_j下乳腺炎临床表现型的概率，(1-P_j)是在条件X_j下临床乳腺炎表型不发生的概率，j表示第j个SNP位点，X_ij＝(X_1j,X_2j,X_3j……X_mj)为第i个个体在j位点的基因型(0,1和2)，βj是第j个SNP的影响，M是样本数量，μ为总表型性状平均值的特征向量；在逻辑回归分析模型中，Y＝(μ+Σβ_iX_i)方程转化成另一种形式：

其中Y表示为第i个个体的乳腺炎表型，P代表临床乳腺炎表型概率；X_i为第i个个体的基因型；βi是优势比OR；P和可变量之间表达的方程通过方程变换：

95％置信区间(CI)＝exp(β_i±1.96SE(β_i))，p1表示的是病例组某个SNP位点发生的概率，p0表示的是对照组对应位点发生的概率；SE(β_i)表示为：β_i的标准误。

本发明通过两种分析模型得到1个奶牛乳腺炎关键SNPs位点，如表1和2：

表1 BayesA分析模型结果

表2逻辑回归分析模型结果

相对于现有技术，本发明的有益效果为：相对于RADseq，2b-RAD测序技术具有以下几点优点：1、酶切片段长短均一，不需要后续筛选；2、酶切片段不需要添加“Y”型接头；3、步骤简单；4、每个样本测序成本低；5、测序耗时短。本发明还构建两种全基因组关联分析模型(BayesA和Logistics)；3、筛选到一个中国荷斯坦奶牛乳腺炎关键SNPs位点及对应基因(SYK)。

附图说明

图1为现有技术的RADseq测序技术流程图；

图2为本发明的2b-RAD测序流程图；

图3.PCR扩增片段直接测序序列与NCBI参考序列比对图，(A)和(B)为PCR扩增片段直接测序Chromas图；(C)1为NCBI参考序列，a和b为直接测序序列；灰色方框为单核苷酸多态标记位点。

具体实施方式

下面结合具体实施例和附图对本发明作进一步说明。

2b-RAD是一种基于IIB型限制性内切酶的、简化的RAD基因分型方法，为研究种群基因组遗传学提供了一种强有力的技术和方法。本研究中我们以中国荷斯坦奶牛为研究对象，构建中国荷斯坦奶牛临床乳腺炎和正常健康对照组牛群，提取构建牛群奶牛的全基因组，利用Bael核酸内切酶对所有奶牛样本全基因组DNA进行酶切，获得标准的酶切片段，然后进行上机测序并分析，具体建库测序流程为(图2)：

(1)酶切：≥200ng基因组DNA采用IIB型限制性内切酶进行酶切；

(2)加接头：酶切产物分别加入5组不同的接头，T4脱氧核苷酸连接酶(T4 DNALigase)连接；

(3)扩增：聚合酶链式反应(PCR)扩增连接产物；

(4)串联：根据5组接头信息，将五个标签按顺序串联；

(5)混库(Pooling)：连接产物添加条形码(barcode)序列，混库；

(6)测序：质检合格的高质量文库上机测序。

上述的建库测序流程参见Serial sequencing of isolength RAD tagsforcost-efficient genome-wide profiling of geneticand epigenetic variations，作者为Shi Wang等人，2016年10月6号在线公开。

生物信息学分析：

本发明以牛属(https://www.ncbi.nlm.nih.gov/genome/？term＝Bos+Taurus)基因组作为参考基因组，利用SOAP软件(version 2.21)将测序数据比对到参考序列，利用最大似然法(ML)进行位点的分型。分析流程如下：

(1)数据过滤：对Clean Reads进行质控；

(2)酶切序列(Enzyme Reads)提取：提取含有酶切识别位点的序列(Reads)，我们称之为Enzyme Reads，用于后续分析；

(3)数据比对：利用SOAP软件将Enzyme Reads比对到构建好的参考序列上；

(4)SNP分型：根据比对结果，利用最大似然法(ML)进行分型；

(5)分析内容：构建进化树、主成分分析、群体遗传结构分析、全基因组关联分析等。

利用SOAP软件将Enzyme Reads比对到参考序列后利用最大似然法(ML)进行SNP标记分型。过程中使用的RAD分型软件包(RADtyping)，包含10余个软件组分，覆盖了从数据预处理至最终分型结果输出的全过程。为保证后续分析的准确性，分型工作完成后会通过以下指标对分型结果进一步过滤：

1)剔除所有样品中低于80％个体可以分型的位点；

2)剔除MAF低于0.01的位点；

3)剔除含有1种或4种碱基型的单核苷酸多态(SNP)位点；

4)剔除标签内多于1个SNP的位点；

5)剔除标签内低于2个基因型的位点；

所有样品共得到SNP标记10058个。

统计学分析模型

本研究采用BayesA模型和Logistic回归模型对奶牛临床乳腺炎表型性状进行全基因组关联分析(GWAS)。

我们首先构建了基于奶牛乳腺炎表型性状的线性回归模型方程，

其中，y_i表示第i个体的表型特征向量；M为总SNPs数；μ为总表型性状平均值的特征向量；α_k是第k个SNP的加性相关性效应向量；X_ik为第i个体的第k个SNP的基因型(0,1和2)；e是残差效应的矢量。

BayesA模型假定SNPs效应符合先验正态分布，其“零均值”和“SNPs方差”以σ_k ²表示，其中，k＝1,2……，M；SNPs效应方差是相互独立的，每个方差的独立分布(IID)与逆的卡方先验正态分布相同，其中v是自由度的参数；S²是尺度参数：

每个SNP效应的临界度的先验分布符合t-分布：

α_k的先验取决于每个SNP的方差，而每个SNP的方差都有一个逆的卡方。当概率为п时，SNPs为零效应，或符合正态分布且概率分布为(1-п),

其中，

从先验分布预测模型中的未知п值(在0和1之间被认为是均匀的)或п-一致(0，1)预测。

v_a被指定为4，

由加性方差计算：

和

其中，P_k表示为第k个SNPs的等位基因频率；

为给定标记的差异；通过SNPs对加性遗传方差

进行解释或阐明。

逻辑回归分析模型，假设单核苷酸多态性对奶牛乳腺炎的临床表型性状有影响，我们建立了逻辑(Logistic)回归模型来预测奶牛临床乳腺炎发生的可能性，并建立了一个拟合的Logistic回归方程，

其中，其中P_j是在条件X_j下乳腺炎临床表现型的概率，(1-P_j)是临床乳腺炎表型不发生的概率；X_ij＝(X_1j,X_2j,X_3j……X_mj)为第i个个体在j位点的基因型(0,1和2)，例如，AA表示为0，TT表示为2，AT表示为1；也可以是这样：CC表示为0，GG表示为2，CG表示为1；也可以AA表示为0，CC表示为2，AC表示为1…；βj是第j个SNP的影响；M是样本数量，μ为总表型性状平均值的特征向量。在逻辑回归分析模型中，Y＝(μ+Σβ_iX_i)方程可以转化成另一种形式：

其中Y表示为第i个个体的乳腺炎表型，P代表临床乳腺炎表型概率；X_i为第i个个体的基因型；βi是优势比(OR)；P和可变量之间表达的方程可以通过方程变换：

95％置信区间(CI)＝exp(β_i±1.96SE(β_i))。

本研究通过两种分析模型得到1个奶牛乳腺炎关键SNPs位点，如表1和2：

表1 BayesA分析模型结果

表2逻辑回归分析模型结果

注：*表示由卡方(<0.05)计算的p-值；**是逻辑回归模型的t-统计p值(<0.05)；CHISQ是卡方检验下的卡方值。STAT是Logistic回归模型下的t-统计系数。OR：优势比。L95：95％置信区间的概率比95％的下限。U95：95％概率置信区间95％的上限。

为验证SNP标记与奶牛乳腺炎的相关性，采用病例对照研究的方法，对病例组和对照组的关键SNP位点暴露率进行了比较分析。经统计学检验，如果两组间存在显着性差异，可以认为是与奶牛乳房炎性状相关SNP位点。在比较中排除外界匹配因素的干扰，仅考虑了SNPs与乳腺炎的关联关系。我们采用匹配设计和案例控制不相等(case/Control＝1/h)来确定验证样本的数量。

OR＝ad/bc

n为验证群体中所需临床乳腺炎数量，N为验证群体奶牛总数量。P0为正常对照群体SNP位点突变的暴露率，P1为临床乳腺炎群体中SNP位点突变的暴露率，OR为比值比(预期该SNP位点的关联强度)，α为假设检验第I类错误的概率(期望达到的检验显著性水平)，β为假设检验第II类错误的概率，(1-β)为期望达到的检验把握度，OR 95％CI为95％置信区间，χ²为关键SNP位点卡方检验。a为临床乳腺炎群体中SNP位点突变个体数量，b为正常对照群体中SNP位点突变个体数量，c为临床乳腺炎群体中SNP位点非突变个体数量，d为正常对照群体中SNP位点非突变个体数量，见表3。

rs88640083

	临床乳腺炎	正常对照	合计
				G	47(a)	152(b)	199
A	26(c)	158(d)	184
				合计	73	310	383

表3 SNP标记与奶牛乳腺炎的相关性验证

自由度Df＝1，比值比OR＝ad/bc＝1.879，OR值＞1说明中国荷斯坦奶牛临床乳腺炎的危险度因rs88640083位点A>G而增加，即G与乳腺炎之间为“正”关联；卡方χ²＝5.578≥5.578，P＜0.025，结论为拒绝无效假设，即SNP位点rs88640083差异有统计学显著性。

本发明所述的实例是对本发明的说明而不能限制本发明，在与本发明相当的含义和范围内的任何改变和调整，都应认为是在本发明的范围内。

Claims

1.检测奶牛乳腺炎关键SNPs位点的检测试剂在制备奶牛乳腺炎试剂盒中的应用，其特征在于，关键SNPs位点位于基因SYK的5’端基因间区，涉及染色体AC_000165.1，其NCBI中的参考序列为CATGTTCGATACCTGGGTCGGGAAGATT，第2位为单核苷酸多态标记位点，SNPs为A>G。

2.如权利要求1所述的应用，其中奶牛乳腺炎关键SNPs位点的2b-RAD基因分型和分析方法，其特征在于，包括如下步骤：

1)建库测序：

2)生物信息学分析：

(1)数据过滤：对Clean Reads进行质控；

(4)SNP分型：根据比对结果，利用最大似然法进行分型；

3.根据权利要求2所述的应用，其特征在于，利用SOAP软件将酶切序列比对到参考序列后利用最大似然法进行SNP标记分型，分型工作完成后采用下述的1)-5)步骤对分型结果进一步过滤：

1)剔除所有样品中低于80％个体可以分型的位点；

2)剔除MAF低于0.01的位点；

3)剔除含有1种或4种碱基型的单核苷酸多态位点；

4)剔除标签内多于1个SNP的位点；

5)剔除标签内低于2个基因型的位点。

4.根据权利要求2所述的应用，其特征在于，采用BayesA模型和Logistic回归模型对奶牛临床乳腺炎表型性状进行全基因组关联分析；

在进行全基因组关联分析之前，首先构建基于奶牛乳腺炎表型性状的线性回归模型方程，

5.根据权利要求4所述的应用，其特征在于，

BayesA模型假定SNPs效应符合先验正态分布，其“零均值”和“SNPs方差”以σ_k ²表示，其中，k＝1,2……，M，k指SNP位点的个数；SNPs效应方差是相互独立的，每个方差的独立分布IID与逆的卡方先验正态分布相同：

其中v是自由度的参数，S²是尺度参数，P表示每个方差的独立分布IID与逆的卡方先验正态分布，χ^-2为“逆卡方”；每个SNP效应的临界度的先验分布符合t-分布：P(α_k│v,S²)＝

其中P(α_k│v,S²)表示为每个SNP效应的临界度的先验分布，α_k表示第k个SNP的加性相关性效应向量，α_k的先验取决于每个SNP的方差，而每个SNP的方差都有一个逆的卡方；当概率为п时，SNPs为零效应，或符合正态分布且概率分布为(1-п),

α_k|π，

其中，

v_a被指定为4，

由加性方差计算：

和

其中，P_k表示为第k个SNPs的等位基因频率；

为给定标记的差异；通过SNPs对加性遗传方差

进行解释或阐明；

6.根据权利要求4所述的应用，其特征在于，

Logistic回归分析模型：假设单核苷酸多态性对奶牛乳腺炎的临床表型性状有影响，建立逻辑回归模型来预测奶牛临床乳腺炎发生的可能性，首先建立拟合的Logistic回归方程，

其中，其中P_j是在条件X_j下乳腺炎临床表现型的概率，(1-P_j)是在条件X_j下临床乳腺炎表型不发生的概率，j表示第j个SNP位点，X_ij＝(X_1j,X_2j,X_3j……X_Mj)为第i个个体在j位点的基因型，βj是第j个SNP的影响，M是样本数量，μ为总表型性状平均值的特征向量；在逻辑回归分析模型中，Y＝(μ+Σβ_iX_i)方程转化成另一种形式：

95％置信区间CI＝exp(β_i±1.96SE(β_i))，p1表示的是病例组某个SNP位点发生的概率，p0表示的是对照组对应位点发生的概率；CI指95％置信区间；SE(β_i)表示为：β_i的标准误。

7.根据权利要求5所述的应用，其特征在于，BayesA分析模型结果为：

8.根据权利要求6所述的应用，其特征在于，

逻辑回归分析模型结果为：