CN109182538B - 奶牛乳腺炎关键SNPs位点rs88640083及2b-RAD基因分型和分析方法 - Google Patents
奶牛乳腺炎关键SNPs位点rs88640083及2b-RAD基因分型和分析方法 Download PDFInfo
- Publication number
- CN109182538B CN109182538B CN201811146231.8A CN201811146231A CN109182538B CN 109182538 B CN109182538 B CN 109182538B CN 201811146231 A CN201811146231 A CN 201811146231A CN 109182538 B CN109182538 B CN 109182538B
- Authority
- CN
- China
- Prior art keywords
- snp
- snps
- mastitis
- analysis
- sites
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 208000004396 mastitis Diseases 0.000 title claims abstract description 46
- 238000000034 method Methods 0.000 title claims abstract description 24
- 235000013365 dairy product Nutrition 0.000 title claims abstract description 23
- 238000003205 genotyping method Methods 0.000 title claims abstract description 8
- 241000283690 Bos taurus Species 0.000 claims abstract description 33
- 238000012163 sequencing technique Methods 0.000 claims abstract description 29
- 238000001976 enzyme digestion Methods 0.000 claims abstract description 23
- 238000007477 logistic regression Methods 0.000 claims abstract description 19
- 238000012098 association analyses Methods 0.000 claims abstract description 10
- 238000003766 bioinformatics method Methods 0.000 claims abstract description 5
- 238000001914 filtration Methods 0.000 claims abstract description 5
- 238000000605 extraction Methods 0.000 claims abstract description 4
- 238000009826 distribution Methods 0.000 claims description 35
- 230000000694 effects Effects 0.000 claims description 27
- 238000004458 analytical method Methods 0.000 claims description 14
- 239000000654 additive Substances 0.000 claims description 11
- 230000000996 additive effect Effects 0.000 claims description 11
- 230000002068 genetic effect Effects 0.000 claims description 9
- 239000003550 marker Substances 0.000 claims description 9
- 239000002773 nucleotide Substances 0.000 claims description 9
- 125000003729 nucleotide group Chemical group 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 8
- 108091008146 restriction endonucleases Proteins 0.000 claims description 8
- 238000000546 chi-square test Methods 0.000 claims description 7
- 238000007476 Maximum Likelihood Methods 0.000 claims description 6
- 108700028369 Alleles Proteins 0.000 claims description 5
- 208000019395 Lactation disease Diseases 0.000 claims description 3
- 206010042576 Suppressed lactation Diseases 0.000 claims description 3
- 238000012417 linear regression Methods 0.000 claims description 3
- 238000000513 principal component analysis Methods 0.000 claims description 3
- 238000003908 quality control method Methods 0.000 claims description 3
- 108091029795 Intergenic region Proteins 0.000 claims description 2
- 210000000349 chromosome Anatomy 0.000 claims description 2
- 238000001514 detection method Methods 0.000 claims description 2
- 238000010207 Bayesian analysis Methods 0.000 claims 1
- 239000003153 chemical reaction reagent Substances 0.000 claims 1
- 238000002360 preparation method Methods 0.000 claims 1
- 239000012634 fragment Substances 0.000 abstract description 14
- 238000012216 screening Methods 0.000 abstract description 7
- 238000005516 engineering process Methods 0.000 abstract description 6
- 230000008901 benefit Effects 0.000 abstract description 4
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000010219 correlation analysis Methods 0.000 abstract description 2
- 108090000623 proteins and genes Proteins 0.000 abstract description 2
- 108010042407 Endonucleases Proteins 0.000 description 9
- 102000004533 Endonucleases Human genes 0.000 description 9
- 238000011160 research Methods 0.000 description 5
- 238000003752 polymerase chain reaction Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 102000004190 Enzymes Human genes 0.000 description 3
- 108090000790 Enzymes Proteins 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 102000003960 Ligases Human genes 0.000 description 2
- 108090000364 Ligases Proteins 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 244000144980 herd Species 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000035772 mutation Effects 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 235000003930 Aegle marmelos Nutrition 0.000 description 1
- 244000058084 Aegle marmelos Species 0.000 description 1
- 108091023037 Aptamer Proteins 0.000 description 1
- 208000031462 Bovine Mastitis Diseases 0.000 description 1
- 102000012410 DNA Ligases Human genes 0.000 description 1
- 108010061982 DNA Ligases Proteins 0.000 description 1
- 238000001712 DNA sequencing Methods 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 238000012408 PCR amplification Methods 0.000 description 1
- 101000757182 Saccharomyces cerevisiae Glucoamylase S2 Proteins 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000006911 enzymatic reaction Methods 0.000 description 1
- 230000001973 epigenetic effect Effects 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 238000012214 genetic breeding Methods 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6888—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6844—Nucleic acid amplification reactions
- C12Q1/6858—Allele-specific amplification
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/156—Polymorphic or mutational markers
Landscapes
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Organic Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Microbiology (AREA)
- Immunology (AREA)
- Molecular Biology (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Physics & Mathematics (AREA)
- Biochemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Genetics & Genomics (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及奶牛乳腺炎关键SNPs位点rs88640083及2b‑RAD基因分型和分析方法,包括如下步骤:建库测序;生物信息学分析:数据过滤、酶切序列提取、数据比对、SNP分型、全基因组关联分析。采用BayesA模型和Logistic回归模型对奶牛临床乳腺炎表型性状进行全基因组关联分析(GWAS)。相对于现有技术,本发明的有益效果为:相对于RADseq,2b‑RAD测序技术具有以下几点优点:1、酶切片段长短均一,不需要后续筛选;2、酶切片段不需要添加“Y”型接头;3、步骤简单;4、每个样本测序成本低;5、测序耗时短。本发明还构建两种全基因组关联分析模型(BayesA和Logistics);3、筛选到一个中国荷斯坦奶牛乳腺炎关键SNPs位点及对应基因(SYK)。
Description
技术领域
本发明涉及一种奶牛乳腺炎关键SNPs位点rs88640083及2b-RAD基因分型和分析方法。
背景技术
限制性酶切位点关联DNA测序(RADseq)技术是利用限制性内切酶对基因组进行酶切,产生一定大小的DNA片段,然后通过构建测序文库对酶切后产生的RAD标记进行高通量测序。在过去的十年里,RADseq被认为是最重要的科学突破之一,在全基因组中通过单一、简单且成本效益高的方法,一次能检测到成千上万个基因组内的单核苷酸多态性标记(single nucleotide polymorphism,SNP),从而推动基因组学的研究。与其它测序技术相比较,该技术具有通量高、准确性好、实验周期短、性价比高和不受有无参考基因组序列的限制等优点。目前已经成功应用于种群群体遗传结构和系统进化分析、动植物重要经济性状的数量性状位点(QTL)定位和辅助遗传育种、遗传图谱的构建及SNP标记检测等研究领域。
RADseq技术流程包括:基因组DNA的酶切(1种内切酶酶),构建文库(适配体连接,片段大小的筛选,片段端部修饰,末端添加Y型适配器,PCR扩增),上机测序(主要是Illumina GAII或HiSeq测序平台),生物信息学分析(常用分析软件:Stacks,pyRAD和UNEAK等)。其具体流程图如图1。
现有技术的缺点:1、酶切片段的长短大小不一,需要筛选;2、酶切片段端部需要两次添加不同的接头;3、酶切片段需要添加特殊的A-尾部和“Y”型接头;4、步骤比较繁琐,技术要求高并且耗时;5、每个样本测序费用较高。
发明内容
为了克服上述缺陷,本发明提供一种核酸内切酶DNA片段长短均一,免除后续筛选、不需要多次添加接头、步骤简单缩短测序时间;降低每个样本的测序成本的2b-RAD基因分型和分析方法。
本发明还提供一个奶牛乳腺炎关键SNPs位点,其特征在于,关键SNPs位点rs88640083位于基因SYK的5’端基因间区,SNPs为A>G。涉及染色体AC_000165.1。
筛选出前述的奶牛乳腺炎关键SNPs位点的2b-RAD基因分型和分析方法,包括如下步骤:
1)建库测序:酶切:≥200ng基因组DNA采用IIB型限制性内切酶进行酶切;加接头:酶切产物分别加入5组不同的接头,T4脱氧核苷酸连接酶连接;
扩增;串联;混库;测序:质检合格的DNA文库上机测序;
2)生物信息学分析:
(1)数据过滤:对Clean Reads进行质控;
(2)酶切序列提取:提取含有酶切识别位点的序列,用于后续分析;
(3)数据比对:利用SOAP软件将酶切序列比对到构建好的参考序列上;
(4)SNP分型:根据比对结果,利用最大似然法(ML)进行分型;
(5)分析:构建进化树、主成分分析、群体遗传结构分析或全基因组关联分析。
利用SOAP软件将酶切序列比对到参考序列后利用最大似然法(ML)进行SNP标记分型,分型工作完成后采用下述的1)-5)步骤对分型结果进一步过滤:
1)剔除所有样品中低于80%个体可以分型的位点;
2)剔除MAF低于0.01的位点;
3)剔除含有1种或4种碱基型的单核苷酸多态(SNP)位点;
4)剔除标签内多于1个SNP的位点;
5)剔除标签内低于2个基因型的位点。
采用BayesA模型和Logistic回归模型对奶牛临床乳腺炎表型性状进行全基因组关联分析(GWAS);
在进行全基因组关联分析(GWAS)之前,首先构建基于奶牛乳腺炎表型性状的线性回归模型方程,其中,yi表示第i个体的表型特征向量;M为总SNPs数;μ为总表型性状平均值的特征向量;αk是第k个SNP的加性相关性效应向量;Xik为第i个体的第k个SNP的基因型;e是残差效应的矢量;k指SNP位点的个数。
BayesA模型假定SNPs效应符合先验正态分布,其“零均值”和“SNPs方差”以σk 2表示(“零均值”和“SNPs方差”等同,仅文字描述不同),其中,k=1,2……,M,k指SNP位点的个数;SNPs效应方差是相互独立的,每个方差的独立分布IID与逆的卡方先验正态分布相同:其中v是自由度的参数,S2是尺度参数,P表示每个方差的独立分布(IID)与逆的卡方先验正态分布,χ-2为“逆卡方”;每个SNP效应的临界度的先验分布符合t-分布: 其中N指“当概率为п时,SNPs为零效应,或符合正态分布且概率分布为(1-п),”,P(αk│v,S2)表示为每个SNP效应的临界度的先验分布,αk表示第k个SNP的加性相关性效应向量,αk的先验取决于每个SNP的方差,而每个SNP的方差都有一个逆的卡方;当概率为п时,SNPs为零效应,或符合正态分布且概率分布为(1-п), 其中,代表所有非零SNPs效应的共同方差,它按比例分配了符合卡方检验的先验分布:模型中未知的п值由其先验分布(在0和1之间被认为是均匀的)或п-一致(0,1)预测。
va被指定为4,由加性方差计算:和其中,Pk表示为第k个SNPs的等位基因频率;为给定标记的差异;通过SNPs对加性遗传方差进行解释或阐明;为卡方检验的先验分布;Pk表示第k个SNPs的等位基因频率;K为总SNPs数。
Logistic回归分析模型:假设单核苷酸多态性对奶牛乳腺炎的临床表型性状有影响,建立逻辑(Logistic)回归模型来预测奶牛临床乳腺炎发生的可能性,首先构建拟合的Logistic回归方程,其中,其中Pj是在条件Xj下乳腺炎临床表现型的概率,(1-Pj)是在条件Xj下临床乳腺炎表型不发生的概率,j表示第j个SNP位点,Xij=(X1j,X2j,X3j……Xmj)为第i个个体在j位点的基因型(0,1和2),βj是第j个SNP的影响,M是样本数量,μ为总表型性状平均值的特征向量;在逻辑回归分析模型中,Y=(μ+ΣβiXi)方程转化成另一种形式:其中Y表示为第i个个体的乳腺炎表型,P代表临床乳腺炎表型概率;Xi为第i个个体的基因型;βi是优势比OR;P和可变量之间表达的方程通过方程变换: 95%置信区间(CI)=exp(βi±1.96SE(βi)),p1表示的是病例组某个SNP位点发生的概率,p0表示的是对照组对应位点发生的概率;SE(βi)表示为:βi的标准误。
本发明通过两种分析模型得到1个奶牛乳腺炎关键SNPs位点,如表1和2:
表1 BayesA分析模型结果
表2逻辑回归分析模型结果
相对于现有技术,本发明的有益效果为:相对于RADseq,2b-RAD测序技术具有以下几点优点:1、酶切片段长短均一,不需要后续筛选;2、酶切片段不需要添加“Y”型接头;3、步骤简单;4、每个样本测序成本低;5、测序耗时短。本发明还构建两种全基因组关联分析模型(BayesA和Logistics);3、筛选到一个中国荷斯坦奶牛乳腺炎关键SNPs位点及对应基因(SYK)。
附图说明
图1为现有技术的RADseq测序技术流程图;
图2为本发明的2b-RAD测序流程图;
图3.PCR扩增片段直接测序序列与NCBI参考序列比对图,(A)和(B)为PCR扩增片段直接测序Chromas图;(C)1为NCBI参考序列,a和b为直接测序序列;灰色方框为单核苷酸多态标记位点。
具体实施方式
下面结合具体实施例和附图对本发明作进一步说明。
2b-RAD是一种基于IIB型限制性内切酶的、简化的RAD基因分型方法,为研究种群基因组遗传学提供了一种强有力的技术和方法。本研究中我们以中国荷斯坦奶牛为研究对象,构建中国荷斯坦奶牛临床乳腺炎和正常健康对照组牛群,提取构建牛群奶牛的全基因组,利用Bael核酸内切酶对所有奶牛样本全基因组DNA进行酶切,获得标准的酶切片段,然后进行上机测序并分析,具体建库测序流程为(图2):
(1)酶切:≥200ng基因组DNA采用IIB型限制性内切酶进行酶切;
(2)加接头:酶切产物分别加入5组不同的接头,T4脱氧核苷酸连接酶(T4 DNALigase)连接;
(3)扩增:聚合酶链式反应(PCR)扩增连接产物;
(4)串联:根据5组接头信息,将五个标签按顺序串联;
(5)混库(Pooling):连接产物添加条形码(barcode)序列,混库;
(6)测序:质检合格的高质量文库上机测序。
上述的建库测序流程参见Serial sequencing of isolength RAD tagsforcost-efficient genome-wide profiling of geneticand epigenetic variations,作者为Shi Wang等人,2016年10月6号在线公开。
生物信息学分析:
本发明以牛属(https://www.ncbi.nlm.nih.gov/genome/?term=Bos+Taurus)基因组作为参考基因组,利用SOAP软件(version 2.21)将测序数据比对到参考序列,利用最大似然法(ML)进行位点的分型。分析流程如下:
(1)数据过滤:对Clean Reads进行质控;
(2)酶切序列(Enzyme Reads)提取:提取含有酶切识别位点的序列(Reads),我们称之为Enzyme Reads,用于后续分析;
(3)数据比对:利用SOAP软件将Enzyme Reads比对到构建好的参考序列上;
(4)SNP分型:根据比对结果,利用最大似然法(ML)进行分型;
(5)分析内容:构建进化树、主成分分析、群体遗传结构分析、全基因组关联分析等。
利用SOAP软件将Enzyme Reads比对到参考序列后利用最大似然法(ML)进行SNP标记分型。过程中使用的RAD分型软件包(RADtyping),包含10余个软件组分,覆盖了从数据预处理至最终分型结果输出的全过程。为保证后续分析的准确性,分型工作完成后会通过以下指标对分型结果进一步过滤:
1)剔除所有样品中低于80%个体可以分型的位点;
2)剔除MAF低于0.01的位点;
3)剔除含有1种或4种碱基型的单核苷酸多态(SNP)位点;
4)剔除标签内多于1个SNP的位点;
5)剔除标签内低于2个基因型的位点;
所有样品共得到SNP标记10058个。
统计学分析模型
本研究采用BayesA模型和Logistic回归模型对奶牛临床乳腺炎表型性状进行全基因组关联分析(GWAS)。
我们首先构建了基于奶牛乳腺炎表型性状的线性回归模型方程, 其中,yi表示第i个体的表型特征向量;M为总SNPs数;μ为总表型性状平均值的特征向量;αk是第k个SNP的加性相关性效应向量;Xik为第i个体的第k个SNP的基因型(0,1和2);e是残差效应的矢量。
BayesA模型假定SNPs效应符合先验正态分布,其“零均值”和“SNPs方差”以σk 2表示,其中,k=1,2……,M;SNPs效应方差是相互独立的,每个方差的独立分布(IID)与逆的卡方先验正态分布相同,其中v是自由度的参数;S2是尺度参数:每个SNP效应的临界度的先验分布符合t-分布:αk的先验取决于每个SNP的方差,而每个SNP的方差都有一个逆的卡方。当概率为п时,SNPs为零效应,或符合正态分布且概率分布为(1-п), 其中,代表所有非零SNPs效应的共同方差,它按比例分配了符合卡方检验的先验分布:从先验分布预测模型中的未知п值(在0和1之间被认为是均匀的)或п-一致(0,1)预测。
逻辑回归分析模型,假设单核苷酸多态性对奶牛乳腺炎的临床表型性状有影响,我们建立了逻辑(Logistic)回归模型来预测奶牛临床乳腺炎发生的可能性,并建立了一个拟合的Logistic回归方程,其中,其中Pj是在条件Xj下乳腺炎临床表现型的概率,(1-Pj)是临床乳腺炎表型不发生的概率;Xij=(X1j,X2j,X3j……Xmj)为第i个个体在j位点的基因型(0,1和2),例如,AA表示为0,TT表示为2,AT表示为1;也可以是这样:CC表示为0,GG表示为2,CG表示为1;也可以AA表示为0,CC表示为2,AC表示为1…;βj是第j个SNP的影响;M是样本数量,μ为总表型性状平均值的特征向量。在逻辑回归分析模型中,Y=(μ+ΣβiXi)方程可以转化成另一种形式: 其中Y表示为第i个个体的乳腺炎表型,P代表临床乳腺炎表型概率;Xi为第i个个体的基因型;βi是优势比(OR);P和可变量之间表达的方程可以通过方程变换: 95%置信区间(CI)=exp(βi±1.96SE(βi))。
本研究通过两种分析模型得到1个奶牛乳腺炎关键SNPs位点,如表1和2:
表1 BayesA分析模型结果
表2逻辑回归分析模型结果
注:*表示由卡方(<0.05)计算的p-值;**是逻辑回归模型的t-统计p值(<0.05);CHISQ是卡方检验下的卡方值。STAT是Logistic回归模型下的t-统计系数。OR:优势比。L95:95%置信区间的概率比95%的下限。U95:95%概率置信区间95%的上限。
为验证SNP标记与奶牛乳腺炎的相关性,采用病例对照研究的方法,对病例组和对照组的关键SNP位点暴露率进行了比较分析。经统计学检验,如果两组间存在显着性差异,可以认为是与奶牛乳房炎性状相关SNP位点。在比较中排除外界匹配因素的干扰,仅考虑了SNPs与乳腺炎的关联关系。我们采用匹配设计和案例控制不相等(case/Control=1/h)来确定验证样本的数量。
OR=ad/bc
n为验证群体中所需临床乳腺炎数量,N为验证群体奶牛总数量。P0为正常对照群体SNP位点突变的暴露率,P1为临床乳腺炎群体中SNP位点突变的暴露率,OR为比值比(预期该SNP位点的关联强度),α为假设检验第I类错误的概率(期望达到的检验显著性水平),β为假设检验第II类错误的概率,(1-β)为期望达到的检验把握度,OR 95%CI为95%置信区间,χ2为关键SNP位点卡方检验。a为临床乳腺炎群体中SNP位点突变个体数量,b为正常对照群体中SNP位点突变个体数量,c为临床乳腺炎群体中SNP位点非突变个体数量,d为正常对照群体中SNP位点非突变个体数量,见表3。
rs88640083
临床乳腺炎 | 正常对照 | 合计 | |
G | 47(a) | 152(b) | 199 |
A | 26(c) | 158(d) | 184 |
合计 | 73 | 310 | 383 |
表3 SNP标记与奶牛乳腺炎的相关性验证
自由度Df=1,比值比OR=ad/bc=1.879,OR值>1说明中国荷斯坦奶牛临床乳腺炎的危险度因rs88640083位点A>G而增加,即G与乳腺炎之间为“正”关联;卡方χ2=5.578≥5.578,P<0.025,结论为拒绝无效假设,即SNP位点rs88640083差异有统计学显著性。
本发明所述的实例是对本发明的说明而不能限制本发明,在与本发明相当的含义和范围内的任何改变和调整,都应认为是在本发明的范围内。
Claims (8)
1.检测奶牛乳腺炎关键SNPs位点的检测试剂在制备奶牛乳腺炎试剂盒中的应用,其特征在于,关键SNPs位点位于基因SYK的5’端基因间区,涉及染色体AC_000165.1,其NCBI中的参考序列为CATGTTCGATACCTGGGTCGGGAAGATT,第2位为单核苷酸多态标记位点,SNPs为A>G。
2.如权利要求1所述的应用,其中奶牛乳腺炎关键SNPs位点的2b-RAD基因分型和分析方法,其特征在于,包括如下步骤:
1)建库测序:
2)生物信息学分析:
(1)数据过滤:对Clean Reads进行质控;
(2)酶切序列提取:提取含有酶切识别位点的序列,用于后续分析;
(3)数据比对:利用SOAP软件将酶切序列比对到构建好的参考序列上;
(4)SNP分型:根据比对结果,利用最大似然法进行分型;
(5)分析:构建进化树、主成分分析、群体遗传结构分析或全基因组关联分析。
3.根据权利要求2所述的应用,其特征在于,利用SOAP软件将酶切序列比对到参考序列后利用最大似然法进行SNP标记分型,分型工作完成后采用下述的1)-5)步骤对分型结果进一步过滤:
1)剔除所有样品中低于80%个体可以分型的位点;
2)剔除MAF低于0.01的位点;
3)剔除含有1种或4种碱基型的单核苷酸多态位点;
4)剔除标签内多于1个SNP的位点;
5)剔除标签内低于2个基因型的位点。
5.根据权利要求4所述的应用,其特征在于,
BayesA模型假定SNPs效应符合先验正态分布,其“零均值”和“SNPs方差”以σk 2表示,其中,k=1,2……,M,k指SNP位点的个数;SNPs效应方差是相互独立的,每个方差的独立分布IID与逆的卡方先验正态分布相同:其中v是自由度的参数,S2是尺度参数,P表示每个方差的独立分布IID与逆的卡方先验正态分布,χ-2为“逆卡方”;每个SNP效应的临界度的先验分布符合t-分布:P(αk│v,S2)=其中P(αk│v,S2)表示为每个SNP效应的临界度的先验分布,αk表示第k个SNP的加性相关性效应向量,αk的先验取决于每个SNP的方差,而每个SNP的方差都有一个逆的卡方;当概率为п时,SNPs为零效应,或符合正态分布且概率分布为(1-п),αk|π,其中,代表所有非零SNPs效应的共同方差,它按比例分配了符合卡方检验的先验分布:va被指定为4,由加性方差计算:和其中,Pk表示为第k个SNPs的等位基因频率;为给定标记的差异;通过SNPs对加性遗传方差进行解释或阐明;为卡方检验的先验分布;Pk表示第k个SNPs的等位基因频率;K为总SNPs数。
6.根据权利要求4所述的应用,其特征在于,
Logistic回归分析模型:假设单核苷酸多态性对奶牛乳腺炎的临床表型性状有影响,建立逻辑回归模型来预测奶牛临床乳腺炎发生的可能性,首先建立拟合的Logistic回归方程,其中,其中Pj是在条件Xj下乳腺炎临床表现型的概率,(1-Pj)是在条件Xj下临床乳腺炎表型不发生的概率,j表示第j个SNP位点,Xij=(X1j,X2j,X3j……XMj)为第i个个体在j位点的基因型,βj是第j个SNP的影响,M是样本数量,μ为总表型性状平均值的特征向量;在逻辑回归分析模型中,Y=(μ+ΣβiXi)方程转化成另一种形式:其中Y表示为第i个个体的乳腺炎表型,P代表临床乳腺炎表型概率;Xi为第i个个体的基因型;βi是优势比OR;P和可变量之间表达的方程通过方程变换:95%置信区间CI=exp(βi±1.96SE(βi)),p1表示的是病例组某个SNP位点发生的概率,p0表示的是对照组对应位点发生的概率;CI指95%置信区间;SE(βi)表示为:βi的标准误。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811146231.8A CN109182538B (zh) | 2018-09-29 | 2018-09-29 | 奶牛乳腺炎关键SNPs位点rs88640083及2b-RAD基因分型和分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811146231.8A CN109182538B (zh) | 2018-09-29 | 2018-09-29 | 奶牛乳腺炎关键SNPs位点rs88640083及2b-RAD基因分型和分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109182538A CN109182538A (zh) | 2019-01-11 |
CN109182538B true CN109182538B (zh) | 2022-01-04 |
Family
ID=64906807
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811146231.8A Expired - Fee Related CN109182538B (zh) | 2018-09-29 | 2018-09-29 | 奶牛乳腺炎关键SNPs位点rs88640083及2b-RAD基因分型和分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109182538B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112735516A (zh) * | 2020-12-29 | 2021-04-30 | 上海派森诺生物科技股份有限公司 | 一种无参考基因组的群体变异检测分析方法 |
CN112837751B (zh) * | 2021-01-21 | 2024-02-09 | 佛山科学技术学院 | 一种高通量转录组测序数据与性状关联分析系统及方法 |
JP7465485B2 (ja) * | 2022-03-24 | 2024-04-11 | 国立大学法人東京農工大学 | 乳房炎発症リスクの判定に用いるdnaマーカー及びそれを用いた乳房炎リスクの判定方法 |
CN116072214B (zh) * | 2023-03-06 | 2023-07-11 | 之江实验室 | 基于基因显著性增强的表型智能预测、训练方法及装置 |
CN116825191A (zh) * | 2023-06-25 | 2023-09-29 | 北京林业大学 | 一种筛选微生物细菌关键调控qtl的方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102899395A (zh) * | 2012-06-20 | 2013-01-30 | 山东省农业科学院奶牛研究中心 | 一种改善奶牛的抗乳腺炎能力的实现方法及其应用 |
CN102899396A (zh) * | 2012-07-25 | 2013-01-30 | 山东省农业科学院奶牛研究中心 | 影响奶牛乳腺炎易感/抗性hmgb3基因的核心启动子及其功能性分子标记与应用 |
CN107338321A (zh) * | 2017-08-29 | 2017-11-10 | 集美大学 | 一种确定最佳snp数量及其通过筛选标记对大黄鱼生产性能进行基因组选择育种的方法 |
-
2018
- 2018-09-29 CN CN201811146231.8A patent/CN109182538B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102899395A (zh) * | 2012-06-20 | 2013-01-30 | 山东省农业科学院奶牛研究中心 | 一种改善奶牛的抗乳腺炎能力的实现方法及其应用 |
CN102899396A (zh) * | 2012-07-25 | 2013-01-30 | 山东省农业科学院奶牛研究中心 | 影响奶牛乳腺炎易感/抗性hmgb3基因的核心启动子及其功能性分子标记与应用 |
CN107338321A (zh) * | 2017-08-29 | 2017-11-10 | 集美大学 | 一种确定最佳snp数量及其通过筛选标记对大黄鱼生产性能进行基因组选择育种的方法 |
Non-Patent Citations (3)
Title |
---|
中国荷斯坦牛SLC11A1基因多态性与乳腺炎的相关性研究;郭洋等;《中国农业科学》;20111231;第44卷(第19期);第4072-4080页 * |
中国荷斯坦牛白介素8受体基因编码区多态性与乳腺炎的关联分析;官久强等;《中国农业科学》;20101231;第43卷(第05期);第1057-1065页 * |
奶牛乳腺炎抗性候选基因多态性研究进展;魏伟等;《中国牛业科学》;20111231;第37卷(第06期);第49-51、56页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109182538A (zh) | 2019-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109182538B (zh) | 奶牛乳腺炎关键SNPs位点rs88640083及2b-RAD基因分型和分析方法 | |
US20230112134A1 (en) | Methods and processes for non-invasive assessment of genetic variations | |
EP2805280B1 (en) | Diagnostic processes that factor experimental conditions | |
CA2850785C (en) | Methods and processes for non-invasive assessment of genetic variations | |
JP2019153332A (ja) | 性染色体におけるコピー数変異を判定するための方法 | |
US20120184449A1 (en) | Fetal genetic variation detection | |
US20130085681A1 (en) | Methods and processes for non-invasive assessment of genetic variations | |
JP2015513392A5 (zh) | ||
EP3666902B1 (en) | Multiplexed parallel analysis of targeted genomic regions for non-invasive prenatal testing | |
Liu et al. | A comprehensive catalogue of regulatory variants in the cattle transcriptome | |
CN109182505B (zh) | 奶牛乳腺炎关键SNPs位点rs75762330及2b-RAD基因分型和分析方法 | |
CN109182504B (zh) | 奶牛乳腺炎关键SNPs位点rs20438858及2b-RAD基因分型和分析方法 | |
AU2020296108B2 (en) | Systems and methods for determining pattern of inheritance in embryos | |
US20200399701A1 (en) | Systems and methods for using density of single nucleotide variations for the verification of copy number variations in human embryos | |
EP4116432A1 (en) | Target-enriched multiplexed parallel analysis for assessment of fetal dna samples | |
US20230279494A1 (en) | Methods for non-invasive assessment of fetal genetic variations that factor experimental conditions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220104 |
|
CF01 | Termination of patent right due to non-payment of annual fee |