CN109182504A - 奶牛乳腺炎关键SNPs位点rs20438858及2b-RAD基因分型和分析方法 - Google Patents
奶牛乳腺炎关键SNPs位点rs20438858及2b-RAD基因分型和分析方法 Download PDFInfo
- Publication number
- CN109182504A CN109182504A CN201811145695.7A CN201811145695A CN109182504A CN 109182504 A CN109182504 A CN 109182504A CN 201811145695 A CN201811145695 A CN 201811145695A CN 109182504 A CN109182504 A CN 109182504A
- Authority
- CN
- China
- Prior art keywords
- snp
- site
- snps
- rad
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 27
- 238000003205 genotyping method Methods 0.000 title claims abstract description 17
- 238000012163 sequencing technique Methods 0.000 claims abstract description 25
- 208000004396 mastitis Diseases 0.000 claims abstract description 19
- 238000007477 logistic regression Methods 0.000 claims abstract description 17
- 239000008267 milk Substances 0.000 claims abstract description 11
- 210000004080 milk Anatomy 0.000 claims abstract description 11
- 235000013336 milk Nutrition 0.000 claims abstract description 11
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 8
- 238000003776 cleavage reaction Methods 0.000 claims abstract description 7
- 230000007017 scission Effects 0.000 claims abstract description 7
- 238000007622 bioinformatic analysis Methods 0.000 claims abstract description 5
- 101000679921 Homo sapiens Tumor necrosis factor receptor superfamily member 21 Proteins 0.000 claims abstract description 4
- 102100022205 Tumor necrosis factor receptor superfamily member 21 Human genes 0.000 claims abstract description 4
- 238000001914 filtration Methods 0.000 claims abstract description 4
- 230000000694 effects Effects 0.000 claims description 26
- 238000000034 method Methods 0.000 claims description 18
- 230000029087 digestion Effects 0.000 claims description 12
- 238000007476 Maximum Likelihood Methods 0.000 claims description 7
- 238000000546 chi-square test Methods 0.000 claims description 7
- 102000004190 Enzymes Human genes 0.000 claims description 6
- 108090000790 Enzymes Proteins 0.000 claims description 6
- 239000000654 additive Substances 0.000 claims description 6
- 230000000996 additive effect Effects 0.000 claims description 6
- 239000003550 marker Substances 0.000 claims description 6
- 239000002773 nucleotide Substances 0.000 claims description 5
- 125000003729 nucleotide group Chemical group 0.000 claims description 5
- 230000002068 genetic effect Effects 0.000 claims description 4
- 230000007614 genetic variation Effects 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 3
- 238000012417 linear regression Methods 0.000 claims description 3
- 238000000513 principal component analysis Methods 0.000 claims description 3
- 238000003908 quality control method Methods 0.000 claims description 3
- 101150036080 at gene Proteins 0.000 claims 1
- 235000013399 edible fruits Nutrition 0.000 claims 1
- 210000005075 mammary gland Anatomy 0.000 claims 1
- 238000002864 sequence alignment Methods 0.000 claims 1
- 230000009466 transformation Effects 0.000 claims 1
- 108010005054 Deoxyribonuclease BamHI Proteins 0.000 abstract description 8
- 238000005516 engineering process Methods 0.000 abstract description 8
- 230000008901 benefit Effects 0.000 abstract description 5
- 238000012216 screening Methods 0.000 abstract description 3
- 238000000605 extraction Methods 0.000 abstract 1
- 241000283690 Bos taurus Species 0.000 description 26
- 108020004414 DNA Proteins 0.000 description 7
- 238000011160 research Methods 0.000 description 6
- 108091008146 restriction endonucleases Proteins 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000007689 inspection Methods 0.000 description 4
- 238000003752 polymerase chain reaction Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 241000283725 Bos Species 0.000 description 2
- 108010042407 Endonucleases Proteins 0.000 description 2
- 102000004533 Endonucleases Human genes 0.000 description 2
- 102000003960 Ligases Human genes 0.000 description 2
- 108090000364 Ligases Proteins 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000013467 fragmentation Methods 0.000 description 2
- 238000006062 fragmentation reaction Methods 0.000 description 2
- 230000035772 mutation Effects 0.000 description 2
- 238000012797 qualification Methods 0.000 description 2
- 235000003930 Aegle marmelos Nutrition 0.000 description 1
- 244000058084 Aegle marmelos Species 0.000 description 1
- 108091023037 Aptamer Proteins 0.000 description 1
- 102000012410 DNA Ligases Human genes 0.000 description 1
- 108010061982 DNA Ligases Proteins 0.000 description 1
- 238000001712 DNA sequencing Methods 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 238000012408 PCR amplification Methods 0.000 description 1
- 101000757182 Saccharomyces cerevisiae Glucoamylase S2 Proteins 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 210000000349 chromosome Anatomy 0.000 description 1
- 239000006071 cream Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000001973 epigenetic effect Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 238000012214 genetic breeding Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 238000002493 microarray Methods 0.000 description 1
- 241000264288 mixed libraries Species 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000003739 neck Anatomy 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000013081 phylogenetic analysis Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000000528 statistical test Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/156—Polymorphic or mutational markers
Landscapes
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Organic Chemistry (AREA)
- Health & Medical Sciences (AREA)
- Zoology (AREA)
- Engineering & Computer Science (AREA)
- Wood Science & Technology (AREA)
- Genetics & Genomics (AREA)
- Analytical Chemistry (AREA)
- Microbiology (AREA)
- Molecular Biology (AREA)
- Immunology (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Biochemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Pathology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及奶牛乳腺炎关键SNPs位点rs20438858及2b‑RAD基因分型和分析方法,包括如下步骤:建库测序;生物信息学分析:数据过滤、酶切序列提取、数据比对、SNP分型、全基因组关联分析。采用BayesA模型和Logistic回归模型对奶牛临床乳腺炎表型性状进行全基因组关联分析(GWAS)。相对于现有技术,本发明的有益效果为:相对于RADseq,2b‑RAD测序技术具有以下几点优点:1、酶切片段长短均一,不需要后续筛选;2、酶切片段不需要添加“Y”型接头;3、步骤简单;4、每个样本测序成本低;5、测序耗时短。本发明还构建两种全基因组关联分析模型(BayesA和Logistics);3、筛选到一个中国荷斯坦奶牛乳腺炎关键SNPs位点及对应基因(TNFRSF21)。
Description
技术领域
本发明涉及一种奶牛乳腺炎关键SNPs位点rs20438858及2b-RAD基因分型和分析方法。
背景技术
限制性酶切位点关联DNA测序(RADseq)技术是利用限制性内切酶对基因组进行酶切,产生一定大小的DNA片段,然后通过构建测序文库对酶切后产生的RAD标记进行高通量测序。在过去的十年里,RADseq被认为是最重要的科学突破之一,在全基因组中通过单一、简单且成本效益高的方法,一次能检测到成千上万个基因组内的单核苷酸多态性标记(single nucleotide polymorphism,SNP),从而推动基因组学的研究。与其它测序技术相比较,该技术具有通量高、准确性好、实验周期短、性价比高和不受有无参考基因组序列的限制等优点。目前已经成功应用于种群群体遗传结构和系统进化分析、动植物重要经济性状的数量性状位点(QTL)定位和辅助遗传育种、遗传图谱的构建及SNP标记检测等研究领域。
RADseq技术流程包括:基因组DNA的酶切(1种内切酶酶),构建文库(适配体连接,片段大小的筛选,片段端部修饰,末端添加Y型适配器,PCR扩增),上机测序(主要是Illumina GAII或HiSeq测序平台),生物信息学分析(常用分析软件:Stacks,pyRAD和UNEAK等)。其具体流程图如图1。
现有技术的缺点:1、酶切片段的长短大小不一,需要筛选;2、酶切片段端部需要两次添加不同的接头;3、酶切片段需要添加特殊的A-尾部和“Y”型接头;4、步骤比较繁琐,技术要求高并且耗时;5、每个样本测序费用较高。
发明内容
为了克服上述缺陷,本发明提供一种核酸内切酶DNA片段长短均一,免除后续筛选、不需要多次添加接头、步骤简单缩短测序时间;降低每个样本的测序成本的2b-RAD基因分型和分析方法。
本发明还提供一个奶牛乳腺炎关键SNPs位点,该关键SNPs位点rs20438858位于基因TNFRSF21内含子区,SNPs为G>A,涉及染色体AC_000180.1。
筛选出前述的奶牛乳腺炎关键SNPs位点的2b-RAD基因分型和分析方法,包括如下步骤:
1)建库测序:酶切:≥200ng基因组DNA采用IIB型限制性内切酶进行酶切;加接头:酶切产物分别加入5组不同的接头,T4脱氧核苷酸连接酶连接;
扩增;串联;混库;测序:质检合格的DNA文库上机测序;
2)生物信息学分析:
(1)数据过滤:对Clean Reads进行质控;
(2)酶切序列提取:提取含有酶切识别位点的序列,用于后续分析;
(3)数据比对:利用SOAP软件将酶切序列比对到构建好的参考序列上;
(4)SNP分型:根据比对结果,利用最大似然法(ML)进行分型;
(5)分析:构建进化树、主成分分析、群体遗传结构分析或全基因组关联分析。
利用SOAP软件将酶切序列比对到参考序列后利用最大似然法(ML)进行SNP标记分型,分型工作完成后采用下述的1)-5)步骤对分型结果进一步过滤:
1)剔除所有样品中低于80%个体可以分型的位点;
2)剔除MAF低于0.01的位点;
3)剔除含有1种或4种碱基型的单核苷酸多态(SNP)位点;
4)剔除标签内多于1个SNP的位点;
5)剔除标签内低于2个基因型的位点。
采用BayesA模型和Logistic回归模型对奶牛临床乳腺炎表型性状进行全基因组关联分析(GWAS);
在进行全基因组关联分析(GWAS)之前,首先构建基于奶牛乳腺炎表型性状的线性回归模型方程,其中,yi表示第i个体的表型特征向量;M为总SNPs数;μ为总表型性状平均值的特征向量;αk是第k个SNP的加性相关性效应向量;Xik为第i个体的第k个SNP的基因型;e是残差效应的矢量;k指SNP位点的个数。
BayesA模型假定SNPs效应符合先验正态分布,其“零均值”和“SNPs方差”(“零均值”和“SNPs方差”等同,仅文字描述不同)以σk 2表示,其中,k=1,2……,M,k指SNP位点的个数;SNPs效应方差是相互独立的,每个方差的独立分布IID与逆的卡方先验正态分布相同:其中v是自由度的参数,S2是尺度参数,P表示每个方差的独立分布(IID)与逆的卡方先验正态分布,χ-2为“逆卡方”;每个SNP效应的临界度的先验分布符合t-分布: 其中N指“当概率为п时,SNPs为零效应,或符合正态分布且概率分布为(1-п),”,P(αk│v,S2)表示为每个SNP效应的临界度的先验分布,αk表示第k个SNP的加性相关性效应向量,αk的先验取决于每个SNP的方差,而每个SNP的方差都有一个逆的卡方;当概率为п时,SNPs为零效应,或符合正态分布且概率分布为(1-п),αk│п, 其中,代表所有非零SNPs效应的共同方差,它按比例分配了符合卡方检验的先验分布:模型中未知的п值由其先验分布(在0和1之间被认为是均匀的)或п-一致(0,1)预测。
va被指定为4,由加性方差计算:和其中,Pk表示为第k个SNPs的等位基因频率;为给定标记的差异;通过SNPs对加性遗传方差进行解释或阐明;为卡方检验的先验分布;Pk表示第k个SNPs的等位基因频率;K为总SNPs数。
Logistic回归分析模型:假设单核苷酸多态性对奶牛乳腺炎的临床表型性状有影响,建立逻辑(Logistic)回归模型来预测奶牛临床乳腺炎发生的可能性,首先构建拟合的Logistic回归方程,其中,其中Pj是在条件Xj下乳腺炎临床表现型的概率,(1-Pj)是在条件Xj下临床乳腺炎表型不发生的概率,j表示第j个SNP位点,Xij=(X1j,X2j,X3j……Xmj)为第i个个体在j位点的基因型(0,1和2),βj是第j个SNP的影响,M是样本数量,μ为总表型性状平均值的特征向量;在逻辑回归分析模型中,Y=(μ+ΣβiXi)方程转化成另一种形式:其中Y表示为第i个个体的乳腺炎表型,P代表临床乳腺炎表型概率;Xi为第i个个体的基因型;βi是优势比OR;P和可变量之间表达的方程通过方程变换: 95%置信区间(CI)=exp(βi±1.96SE(βi)),p1表示的是病例组某个SNP位点发生的概率,p0表示的是对照组对应位点发生的概率;SE(βi)表示为:βi的标准误。
本发明通过两种分析模型得到1个奶牛乳腺炎关键SNPs位点,如表1和2:表1BayesA分析模型结果
表2逻辑回归分析模型结果
相对于现有技术,本发明的有益效果为:相对于RADseq,2b-RAD测序技术具有以下几点优点:1、酶切片段长短均一,不需要后续筛选;2、酶切片段不需要添加“Y”型接头;3、步骤简单;4、每个样本测序成本低;5、测序耗时短。本发明还构建两种全基因组关联分析模型(BayesA和Logistics);3、筛选到一个中国荷斯坦奶牛乳腺炎关键SNPs位点及对应基因(TNFRSF21)。
附图说明
图1为现有技术的RADseq测序技术流程图;
图2为本发明的2b-RAD测序流程图;
图3.PCR扩增片段直接测序序列与NCBI参考序列比对图,(A)和(B)为PCR扩增片段直接测序Chromas图;(C)1为NCBI参考序列,a和b为直接测序序列;灰色方框为单核苷酸多态标记位点。
具体实施方式
下面结合具体实施例和附图对本发明作进一步说明。
2b-RAD是一种基于IIB型限制性内切酶的、简化的RAD基因分型方法,为研究种群基因组遗传学提供了一种强有力的技术和方法。本研究中我们以中国荷斯坦奶牛为研究对象,构建中国荷斯坦奶牛临床乳腺炎和正常健康对照组牛群,提取构建牛群奶牛的全基因组,利用Bael核酸内切酶对所有奶牛样本全基因组DNA进行酶切,获得标准的酶切片段,然后进行上机测序并分析,具体建库测序流程为(图2):
(1)酶切:≥200ng基因组DNA采用IIB型限制性内切酶进行酶切;
(2)加接头:酶切产物分别加入5组不同的接头,T4脱氧核苷酸连接酶(T4 DNALigase)连接;
(3)扩增:聚合酶链式反应(PCR)扩增连接产物;
(4)串联:根据5组接头信息,将五个标签按顺序串联;
(5)混库(Pooling):连接产物添加条形码(barcode)序列,混库;
(6)测序:质检合格的高质量文库上机测序。
上述的建库测序流程参见Serial sequencing of isolength RAD tagsforcost-efficient genome-wide profiling of geneticand epigenetic variations,作者为Shi Wang等人,2016年10月6号在线公开。
生物信息学分析:
本发明以牛属(https://www.ncbi.nlm.nih.gov/genome/?term=Bos+Taurus)基因组作为参考基因组,利用SOAP软件(version 2.21)将测序数据比对到参考序列,利用最大似然法(ML)进行位点的分型。分析流程如下:
(1)数据过滤:对Clean Reads进行质控;
(2)酶切序列(Enzyme Reads)提取:提取含有酶切识别位点的序列(Reads),我们称之为Enzyme Reads,用于后续分析;
(3)数据比对:利用SOAP软件将Enzyme Reads比对到构建好的参考序列上;
(4)SNP分型:根据比对结果,利用最大似然法(ML)进行分型;
(5)分析内容:构建进化树、主成分分析、群体遗传结构分析、全基因组关联分析等。
利用SOAP软件将Enzyme Reads比对到参考序列后利用最大似然法(ML)进行SNP标记分型。过程中使用的RAD分型软件包(RADtyping),包含10余个软件组分,覆盖了从数据预处理至最终分型结果输出的全过程。为保证后续分析的准确性,分型工作完成后会通过以下指标对分型结果进一步过滤:
1)剔除所有样品中低于80%个体可以分型的位点;
2)剔除MAF低于0.01的位点;
3)剔除含有1种或4种碱基型的单核苷酸多态(SNP)位点;
4)剔除标签内多于1个SNP的位点;
5)剔除标签内低于2个基因型的位点;
所有样品共得到SNP标记10058个。
统计学分析模型
本研究采用BayesA模型和Logistic回归模型对奶牛临床乳腺炎表型性状进行全基因组关联分析(GWAS)。
我们首先构建了基于奶牛乳腺炎表型性状的线性回归模型方程, 其中,yi表示第i个体的表型特征向量;M为总SNPs数;μ为总表型性状平均值的特征向量;αk是第k个SNP的加性相关性效应向量;Xik为第i个体的第k个SNP的基因型(0,1和2);e是残差效应的矢量。
BayesA模型假定SNPs效应符合先验正态分布,其“零均值”和“SNPs方差”以σk 2表示,其中,k=1,2……,M;SNPs效应方差是相互独立的,每个方差的独立分布(IID)与逆的卡方先验正态分布相同,其中v是自由度的参数;S2是尺度参数:每个SNP效应的临界度的先验分布符合t-分布:αk的先验取决于每个SNP的方差,而每个方差都有一个逆的卡方,。当概率为п时,SNPs为零效应,或符合正态分布且概率分布为(1-п),αk│п, 其中,代表所有非零SNPs效应的共同方差,它按比例分配了符合卡方检验的先验分布:从先验分布预测模型中的未知п值(在0和1之间被认为是均匀的)或п-一致(0,1)预测。
va被指定为4,由加性方差计算:和其中,Pk表示为第k个SNPs的等位基因频率;为给定标记的差异;通过SNPs对加性遗传方差进行解释或阐明。
逻辑回归分析模型,假设单核苷酸多态性对奶牛乳腺炎的临床表型性状有影响,我们建立了逻辑(Logistic)回归模型来预测奶牛临床乳腺炎发生的可能性,并建立了一个拟合的Logistic回归方程,其中,其中Pj是在条件Xj下乳腺炎临床表现型的概率,(1-Pj)是临床乳腺炎表型不发生的概率;Xij=(X1j,X2j,X3j……Xmj)为第i个个体在j位点的基因型(0,1和2),例如,AA表示为0,TT表示为2,AT表示为1;也可以是这样:CC表示为0,GG表示为2,CG表示为1;也可以AA表示为0,CC表示为2,AC表示为1…;βj是第j个SNP的影响;M是样本数量,μ为总表型性状平均值的特征向量。在逻辑回归分析模型中,Y=(μ+ΣβiXi)方程可以转化成另一种形式: 其中Y表示为第i个个体的乳腺炎表型,P代表临床乳腺炎表型概率;Xi为第i个个体的基因型;βi是优势比(OR);P和可变量之间表达的方程可以通过方程变换: 95%置信区间(CI)=exp(βi±1.96SE(βi))。
本研究通过两种分析模型得到1个奶牛乳腺炎关键SNPs位点,如表1和2:
表1 BayesA分析模型结果
表2逻辑回归分析模型结果
注:*表示由卡方(<0.05)计算的p-值;**是逻辑回归模型的t-统计p值(<0.05);CHISQ是卡方检验下的卡方值。STAT是Logistic回归模型下的t-统计系数。OR:优势比。L95:95%置信区间的概率比95%的下限。U95:95%概率置信区间95%的上限。
为验证SNP标记与奶牛乳腺炎的相关性,采用病例对照研究的方法,对病例组和对照组的关键SNP位点暴露率进行了比较分析。经统计学检验,如果两组间存在显着性差异,可以认为是与奶牛乳房炎性状相关SNP位点。在比较中排除外界匹配因素的干扰,仅考虑了SNPs与乳腺炎的关联关系。我们采用匹配设计和案例控制不相等(case/Control=1/h)来确定验证样本的数量。
OR=ad/bc
n为验证群体中所需临床乳腺炎数量,N为验证群体奶牛总数量。P0为正常对照群体SNP位点突变的暴露率,P1为临床乳腺炎群体中SNP位点突变的暴露率,OR为比值比(预期该SNP位点的关联强度),α为假设检验第I类错误的概率(期望达到的检验显著性水平),β为假设检验第II类错误的概率,(1-β)为期望达到的检验把握度,OR 95%CI为95%置信区间,χ2为关键SNP位点卡方检验。a为临床乳腺炎群体中SNP位点突变个体数量,b为正常对照群体中SNP位点突变个体数量,c为临床乳腺炎群体中SNP位点非突变个体数量,d为正常对照群体中SNP位点非突变个体数量,见表3。
rs20438858
SNP位点碱基 | 临床乳腺炎 | 正常对照 | 合计 |
A | 17(a) | 142(b) | 159 |
G | 56(c) | 168(d) | 224 |
合计 | 73 | 310 | 383 |
表3SNP标记与奶牛乳腺炎的相关性验证
自由度Df=1,OR=ad/bc=0.359,OR值<1说明中国荷斯坦奶牛临床乳腺炎的危险度因rs20438858位点G>A而减少,即A与乳腺炎之间为“负”关联;卡方χ2=12.34≥10.828,P<0.001,结论为拒绝无效假设,即SNP位点rs20438858差异有统计学显著性。
本发明所述的实例是对本发明的说明而不能限制本发明,在与本发明相当的含义和范围内的任何改变和调整,都应认为是在本发明的范围内。
Claims (8)
1.一个奶牛乳腺炎关键SNPs位点,其特征在于,所述的关键SNPs位点rs20438858位于基因TNFRSF21内含子区,SNPs为G>A。
2.筛选出权利要求1所述的奶牛乳腺炎关键SNPs位点的2b-RAD基因分型和分析方法,其特征在于,包括如下步骤:
1)建库测序:
2)生物信息学分析:
(1)数据过滤:对Clean Reads进行质控;
(2)酶切序列提取:提取含有酶切识别位点的序列,用于后续分析;
(3)数据比对:利用SOAP软件将酶切序列比对到构建好的参考序列上;
(4)SNP分型:根据比对结果,利用最大似然法(ML)进行分型;
(5)分析:构建进化树、主成分分析、群体遗传结构分析或全基因组关联分析。
3.根据权利要求2所述的2b-RAD基因分型和分析方法,其特征在于,利用SOAP软件将酶切序列比对到参考序列后利用最大似然法(ML)进行SNP标记分型,分型工作完成后采用下述的1)-5)步骤对分型结果进一步过滤:
1)剔除所有样品中低于80%个体可以分型的位点;
2)剔除MAF低于0.01的位点;
3)剔除含有1种或4种碱基型的单核苷酸多态(SNP)位点;
4)剔除标签内多于1个SNP的位点;
5)剔除标签内低于2个基因型的位点。
4.根据权利要求2所述的2b-RAD基因分型和分析方法,其特征在于,采用BayesA模型和Logistic回归模型对奶牛临床乳腺炎表型性状进行全基因组关联分析(GWAS);
在进行全基因组关联分析(GWAS)之前,首先构建基于奶牛乳腺炎表型性状的线性回归模型方程,其中,yi表示第i个体的表型特征向量;M为总SNPs数;μ为总表型性状平均值的特征向量;αk是第k个SNP的加性相关性效应向量;Xik为第i个体的第k个SNP的基因型;e是残差效应的矢量;k指SNP位点的个数。
5.根据权利要求4所述的2b-RAD基因分型和分析方法,其特征在于,
BayesA模型假定SNPs效应符合先验正态分布,其“零均值”和“SNPs方差”以σk 2表示,其中,k=1,2……,M,k指SNP位点的个数;SNPs效应方差是相互独立的,每个方差的独立分布IID与逆的卡方先验正态分布相同:其中v是自由度的参数,S2是尺度参数,P表示每个方差的独立分布IID与逆的卡方先验正态分布,χ-2为“逆卡方”;每个SNP效应的临界度的先验分布符合t-分布: P(αk│v,S2)表示为每个SNP效应的临界度的先验分布,αk表示第k个SNP的加性相关性效应向量,αk的先验取决于每个SNP的方差,而每个SNP的方差都有一个逆的卡方;当概率为п时,SNPs为零效应,或符合正态分布且概率分布为其中,代表所有非零SNPs效应的共同方差,它按比例分配了符合卡方检验的先验分布:
va被指定为4,由加性方差计算:和其中,Pk表示为第k个SNPs的等位基因频率;为给定标记的差异;通过SNPs对加性遗传方差进行解释或阐明;为卡方检验的先验分布;Pk表示第k个SNPs的等位基因频率;K为总SNPs数。
6.根据权利要求4所述的2b-RAD基因分型和分析方法,其特征在于,
Logistic回归分析模型:假设单核苷酸多态性对奶牛乳腺炎的临床表型性状有影响,建立逻辑(Logistic)回归模型来预测奶牛临床乳腺炎发生的可能性,首先建立拟合的Logistic回归方程,其中,其中Pj是在条件Xj下乳腺炎临床表现型的概率,(1-Pj)是在条件Xj下临床乳腺炎表型不发生的概率,j表示第j个SNP位点,Xij=(X1j,X2j,X3j……XMj)为第i个个体在j位点的基因型,βj是第j个SNP的影响,M是样本数量,μ为总表型性状平均值的特征向量;在逻辑回归分析模型中,Y=(μ+ΣβiXi)方程转化成另一种形式:其中Y表示为第i个个体的乳腺炎表型,其中,P代表临床乳腺炎表型概率;Xi为第i个个体的基因型;βi是优势比OR;P和可变量之间表达的方程通过方程变换:95%置信区间(CI)=exp(βi±1.96SE(βi)),p1表示的是病例组某个SNP位点发生的概率,p0表示的是对照组对应位点发生的概率;CI指95%置信区间;SE(βi)表示为:βi的标准误。
7.根据权利要求5所述的2b-RAD基因分型和分析方法,其特征在于,BayesA分析模型结果为
8.根据权利要求6所述的2b-RAD基因分型和分析方法,其特征在于,
逻辑回归分析模型结果为
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811145695.7A CN109182504B (zh) | 2018-09-29 | 2018-09-29 | 奶牛乳腺炎关键SNPs位点rs20438858及2b-RAD基因分型和分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811145695.7A CN109182504B (zh) | 2018-09-29 | 2018-09-29 | 奶牛乳腺炎关键SNPs位点rs20438858及2b-RAD基因分型和分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109182504A true CN109182504A (zh) | 2019-01-11 |
CN109182504B CN109182504B (zh) | 2022-01-04 |
Family
ID=64907885
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811145695.7A Expired - Fee Related CN109182504B (zh) | 2018-09-29 | 2018-09-29 | 奶牛乳腺炎关键SNPs位点rs20438858及2b-RAD基因分型和分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109182504B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7465485B2 (ja) | 2022-03-24 | 2024-04-11 | 国立大学法人東京農工大学 | 乳房炎発症リスクの判定に用いるdnaマーカー及びそれを用いた乳房炎リスクの判定方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102604944A (zh) * | 2012-04-06 | 2012-07-25 | 山东省农业科学院奶牛研究中心 | 筛选乳腺炎抗性奶牛的hstn基因snp位点、方法及试剂盒 |
CN102899395A (zh) * | 2012-06-20 | 2013-01-30 | 山东省农业科学院奶牛研究中心 | 一种改善奶牛的抗乳腺炎能力的实现方法及其应用 |
CN108004340A (zh) * | 2016-10-27 | 2018-05-08 | 河南农业大学 | 一种花生全基因组snp开发的方法 |
-
2018
- 2018-09-29 CN CN201811145695.7A patent/CN109182504B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102604944A (zh) * | 2012-04-06 | 2012-07-25 | 山东省农业科学院奶牛研究中心 | 筛选乳腺炎抗性奶牛的hstn基因snp位点、方法及试剂盒 |
CN102899395A (zh) * | 2012-06-20 | 2013-01-30 | 山东省农业科学院奶牛研究中心 | 一种改善奶牛的抗乳腺炎能力的实现方法及其应用 |
CN108004340A (zh) * | 2016-10-27 | 2018-05-08 | 河南农业大学 | 一种花生全基因组snp开发的方法 |
Non-Patent Citations (6)
Title |
---|
GUO ET AL.: "Fast genomic prediction of breeding values using parallel Markov chain Monte Carlo with convergence diagnosis", 《BMC BIOINFORMATICS》 * |
无: "rs383168108", 《ENSEMBL GENOME BROWSER》 * |
蒋小强等: "荷斯坦牛HSP70-1和HSP32基因SNP位点与生产性能及乳房炎抗性的相关性研究", 《南京农业大学学报》 * |
郭洋等: "中国荷斯坦牛SLC11A1基因多态性与乳腺炎的相关性研究", 《中国农业科学》 * |
陈仁金等: "中国荷斯坦牛LYZ基因多态性及其与乳房炎的关联分析", 《中国农业科学》 * |
魏伟等: "奶牛乳腺炎抗性候选基因多态性研究进展", 《中国牛业科学》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7465485B2 (ja) | 2022-03-24 | 2024-04-11 | 国立大学法人東京農工大学 | 乳房炎発症リスクの判定に用いるdnaマーカー及びそれを用いた乳房炎リスクの判定方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109182504B (zh) | 2022-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109182538A (zh) | 奶牛乳腺炎关键SNPs位点rs88640083及2b-RAD基因分型和分析方法 | |
Wangensteen et al. | Metabarcoding techniques for assessing biodiversity of marine animal forests | |
EP2749655B2 (en) | Single cell classification method, gene screening method and device thereof | |
US9670530B2 (en) | Haplotype resolved genome sequencing | |
CN105543339A (zh) | 一种同时完成基因位点、染色体及连锁分析的方法 | |
CN115198023B (zh) | 一种海南黄牛液相育种芯片及其应用 | |
CN107794304B (zh) | 用于牦牛个体识别和亲子鉴定的基因分型检测试剂盒 | |
CN115029451B (zh) | 一种绵羊液相芯片及其应用 | |
WO2023001211A1 (zh) | 一种分析绵羊毛用性状的基因芯片、分子探针组合、试剂盒及应用 | |
CN108998550A (zh) | 用于水稻基因分型的snp分子标记及其应用 | |
WO2023001212A1 (zh) | 分析绵羊产奶性能的基因芯片、分子探针组合、试剂盒及应用 | |
CN109182505A (zh) | 奶牛乳腺炎关键SNPs位点rs75762330及2b-RAD基因分型和分析方法 | |
CN107862177B (zh) | 一种区分鲤群体的单核苷酸多态性分子标记集的构建方法 | |
CN109182504A (zh) | 奶牛乳腺炎关键SNPs位点rs20438858及2b-RAD基因分型和分析方法 | |
CN105018625A (zh) | 一种基于短序列高通量测序检测肉制品材料来源的方法 | |
CN114303202A (zh) | 用于确定胚胎中遗传模式的系统和方法 | |
CN107868830B (zh) | 一套用于犬类品系鉴定的snp位点 | |
CN111206104B (zh) | 一种高效简便获取木虱总科昆虫线粒体基因组的通用引物和方法及其应用 | |
CN105349659B (zh) | 一套适于不结球白菜品种核酸指纹数据库构建的核心snp标记及其应用 | |
CN110305974A (zh) | 基于检测五个snp位点区分常见小鼠近交系的pcr分析引物及其分析方法 | |
CN117587159B (zh) | 一种辣椒snp分子标记组合、snp芯片及其应用 | |
CN117757979B (zh) | 一种用于鉴定大豆品种的引物组、试剂盒及鉴定方法 | |
CN104651526B (zh) | 一种与二花脸母猪产仔性状相关的snp标记及其应用 | |
WO2022168195A1 (ja) | 遺伝情報解析システム、及び遺伝情報解析方法 | |
CN114836574B (zh) | 一种流行性腮腺炎病毒的mnp标记位点、引物组合物、试剂盒及其应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220104 |