CN117637020A - 一种基于深度学习的四倍体牡蛎全基因组snp分型方法 - Google Patents
一种基于深度学习的四倍体牡蛎全基因组snp分型方法 Download PDFInfo
- Publication number
- CN117637020A CN117637020A CN202410103260.5A CN202410103260A CN117637020A CN 117637020 A CN117637020 A CN 117637020A CN 202410103260 A CN202410103260 A CN 202410103260A CN 117637020 A CN117637020 A CN 117637020A
- Authority
- CN
- China
- Prior art keywords
- snp
- tetraploid
- deep learning
- neural network
- whole genome
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 208000035199 Tetraploidy Diseases 0.000 title claims abstract description 66
- 241000237502 Ostreidae Species 0.000 title claims abstract description 64
- 235000020636 oyster Nutrition 0.000 title claims abstract description 64
- 238000013135 deep learning Methods 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000003205 genotyping method Methods 0.000 claims abstract description 50
- 238000003062 neural network model Methods 0.000 claims abstract description 28
- 238000001914 filtration Methods 0.000 claims abstract description 22
- 238000012163 sequencing technique Methods 0.000 claims abstract description 17
- 238000012549 training Methods 0.000 claims abstract description 14
- 210000000349 chromosome Anatomy 0.000 claims abstract description 11
- 230000035772 mutation Effects 0.000 claims abstract description 10
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 9
- 238000012216 screening Methods 0.000 claims abstract description 9
- 239000012634 fragment Substances 0.000 claims description 20
- 230000002068 genetic effect Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 6
- 238000012217 deletion Methods 0.000 claims description 4
- 230000037430 deletion Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 108700028369 Alleles Proteins 0.000 claims description 3
- 230000000996 additive effect Effects 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 238000011529 RT qPCR Methods 0.000 claims description 2
- 230000002441 reversible effect Effects 0.000 claims description 2
- 239000002773 nucleotide Substances 0.000 abstract description 3
- 125000003729 nucleotide group Chemical group 0.000 abstract description 3
- 238000009394 selective breeding Methods 0.000 abstract description 3
- 238000009395 breeding Methods 0.000 description 11
- 230000001488 breeding effect Effects 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 7
- 208000020584 Polyploidy Diseases 0.000 description 5
- 108091027544 Subgenomic mRNA Proteins 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000007400 DNA extraction Methods 0.000 description 1
- 229920002527 Glycogen Polymers 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 206010049816 Muscle tightness Diseases 0.000 description 1
- 230000037396 body weight Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012214 genetic breeding Methods 0.000 description 1
- 229940096919 glycogen Drugs 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 235000013372 meat Nutrition 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- KJONHKAYOJNZEC-UHFFFAOYSA-N nitrazepam Chemical compound C12=CC([N+](=O)[O-])=CC=C2NC(=O)CN=C1C1=CC=CC=C1 KJONHKAYOJNZEC-UHFFFAOYSA-N 0.000 description 1
- 238000009400 out breeding Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000013517 stratification Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A40/00—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
- Y02A40/80—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in fisheries management
- Y02A40/81—Aquaculture, e.g. of fish
Abstract
本发明公开了一种基于深度学习的四倍体牡蛎全基因组SNP分型方法,属于分子选择育种技术领域。该SNP分型方法包括以下步骤:使用GATK和freebayes对四倍体牡蛎进行全基因组范围的SNP分型;对原始变异位点进行过滤生成高质量的SNP数据集;从高质量的SNP数据集中筛选出用于神经网络模型训练的SNP位点;将门控循环单元网络和卷积神经网络结合,以染色体为单位,通过深度学习构建四倍体牡蛎全基因组SNP分型神经网络模型。本发明的有益之处在于:在低测序深度时,本发明提供的SNP分型方法基因分型准确率显著高于GATK和freebayes的基因分型准确率。
Description
技术领域
本发明涉及一种全基因组SNP分型方法,具体涉及一种基于深度学习的四倍体牡蛎全基因组SNP分型方法,属于分子选择育种技术领域。
背景技术
目前,基因分型技术广泛应用在二倍体动植物中,且基因分型准确率较高。然而,在多倍体中,由于需要区分同源SNP(个体内和个体间跨亚基因组出现的多态位置)和等位SNP(个体间单一亚基因组内出现的多态位置),且多倍体物种内各亚基因组间具有遗传相似性,多倍体生物SNP的准确鉴定和分型十分困难。
目前,主流的基因分型软件是GATK和freebayes,使用GATK和freebayes进行四倍体分型时,需要将四倍体的4个基因型拆为2个双等位基因型,分型后再组合在一起。GATK和freebayes基因分型方法由于以每个SNP位点为单位进行基因分型,不考虑周围SNP位点的基因型,所以忽略了四个基因型之间的潜在关联。此外,GATK和freebayes基因分型方法在测序深度较低时基因型分型准确率较低。
深度学习目前主要应用在图像处理方面,很少应用在全基因组选择育种中。对于全基因组SNP分型技术,深度学习通过学习假定突变与真实突变基因型的统计关系,建立回归模型,不仅可以提高单个位点基因分型的准确率,还可以通过学习位点间的潜在联系进一步提高位点变异推测的准确率,从而解决GATK和freebayes基因分型方法在低测序深度时部分位点基因型预测准确率过低的问题。在以往的研究中,Poplin等人通过构建卷积神经网络进行基因分型,但其未考虑到位点间的相互作用,缺失分型的部分信息(RyanPoplin,Pi-Chuan Chang,David Alexander,et al;A universal SNP and small-indelvariant caller using deep neural networks;Nature Biotechnology,2018,36,983-987)。递归神经网络可以将前后SNP的数据按照一定权重补充到当前SNP的学习中,使分型可以考虑到周围的SNP位点,可以很好的解决GATK和freebayes基因分型方法单一位点分型的弊端。
目前,GATK和freebayes基因分型方法在海洋二倍体生物中基因分型准确率较高,应用广泛,因基于深度学习的全基因组SNP分型方法基因分型结果的准确率与GATK和freebayes基因分型方法基因分型结果的准确率无明显差异,所以基于深度学习的全基因组SNP分型方法未应用于海洋二倍体生物基因分型中。而对于海洋中鲜有的多倍体生物,GATK和freebayes基因分型方法基因分型结果的准确率较低,基于深度学习的基因分型方法在提高基因分型准确率方面有很大潜力。对于四倍体牡蛎,目前仍没有成熟可靠的基因分型手段。因此,迫切需要开发基于深度学习的四倍体牡蛎全基因组SNP分型方法,为四倍体牡蛎的遗传改良和分子育种提供帮助。
发明内容
本发明的目的在于:克服四倍体牡蛎全基因组SNP分型在低测序深度时准确率低的难题,使用深度学习方法构建基因分型神经网络模型,大幅度提高四倍体牡蛎全基因组SNP分型在低测序深度时的准确率。
为了实现上述目标,本发明采用如下的技术方案:
一种基于深度学习的四倍体牡蛎全基因组SNP分型方法,包括以下步骤:
步骤1:使用GATK和freebayes对四倍体牡蛎进行全基因组范围的SNP分型;
步骤2:对原始变异位点进行过滤生成高质量的SNP数据集;
步骤3:从高质量的SNP数据集中筛选出用于神经网络模型训练的SNP位点;
步骤4:将门控循环单元网络和卷积神经网络结合,通过深度学习构建四倍体牡蛎全基因组SNP分型神经网络模型,具体的,以染色体为单位,每次按顺序输入染色体的150bp片段,输入至染色体最后1个150bp片段时停止,每个片段为每个个体100×重测序与参考基因组比对的结果,门控循环单元网络每层包括10个神经元,用于读取四倍体牡蛎150bp片段和marker,在读取片段后,每层整合所有前后层输出的结果进一步对该层进行训练,最后输出门控循环单元网络拟合的结果至卷积神经网络,将输入数据分为不同种类的基因型,在深度学习训练过程中,将均方误差设定为损失函数,通过计算推测值与真实值的均方误差评估神经网络模型的准确度,并使用反向传播和梯度下降法不断迭代,优化损失函数,优化神经网络模型。
优选的,在步骤1中,使用GATK和freebayes对四倍体牡蛎进行全基因组范围的SNP分型的方法具体如下:
(1)提取DNA和构建文库;
(2)对四倍体牡蛎样本的DNA片段进行30×重测序;
(3)建立参考基因组索引;
(4)将reads与参考基因组比对,生成bam文件,并对bam文件的数据进行排序;
(5)建立GATK和freebayes索引并合并bam文件;
(6)去除duplication;
(7)分别使用freebayes和GATK HaplotypeCaller对30×重测序结果进行SNP分型,生成gvcf文件。
优选的,在步骤2中,对原始变异位点进行过滤生成高质量的SNP数据集的方法具体如下:
(1)过滤多态性SNP位点,保留二态性SNP位点;
(2)过滤10bp内超过3个SNP的位点;
(3)以QD<2.0、QUAL<30.0、MQ<40.0、FS>60.0、SOR>3.0、MQRankSum<-12.5和ReadPosRankSum<-8.0为参数过滤低质量位点;
(4)过滤有个体缺失的位点;
(5)过滤最小等位基因频率<0.05的位点;
(6)过滤测序深度100×以下的位点。
优选的,在步骤3中,从高质量的SNP数据集中筛选出用于神经网络模型训练的SNP位点的方法具体如下:
(1)筛选出GATK和freebayes两种基因分型方法基因分型结果完全一致且完全符合孟德尔遗传定律的SNP位点;
(2)将这些筛选出来的SNP位点以加性效应转化为标签0、1、2、3、4,将位点比对的结果用于神经网络模型训练。
本发明的有益之处在于:
(1)本发明提供的基于深度学习的四倍体牡蛎全基因组SNP分型方法在低测序深度时基因分型准确率显著高于GATK和freebayes的基因分型准确率,在高测序深度时基因分型准确率与GATK和freebayes的基因分型准确率无明显差异。
(2)利用本发明提供的基于深度学习的四倍体牡蛎全基因组SNP分型方法获得的分型结果进行GWAS分析,可以鉴定到大量与四倍体牡蛎生长性状显著相关的SNP位点。
(3)使用本发明提供的基于深度学习的四倍体牡蛎全基因组SNP分型方法获得的基因分型结果计算育种值相关度,能显著提高四倍体牡蛎育种值估计的准确率。
(4)使用本发明提供的基于深度学习的四倍体牡蛎全基因组SNP分型方法获得的基因分型结果计算个体杂合度,能有效的对四倍体牡蛎进行群体分层。
(5)本发明提供的基于深度学习的四倍体牡蛎全基因组SNP分型方法为四倍体牡蛎经济性状选择和种质资源保护等相关遗传育种工作提供了可靠的技术平台,促进了四倍体牡蛎分子育种的发展,同时也为其它多倍体水产生物的全基因组SNP分型提供了理论支持。
具体实施方式
以下结合具体实施例对本发明作具体的介绍。
一、基于深度学习的四倍体牡蛎全基因组SNP分型方法的实现过程
一种基于深度学习的四倍体牡蛎全基因组SNP分型方法,包括以下步骤:
1、使用GATK和freebayes对四倍体牡蛎进行全基因组范围的SNP分型
(1)提取DNA和构建文库
在崆峒岛实业有限公司选取300只四倍体牡蛎,现场解剖取闭壳肌并置于95%(v/v)乙醇中直至提取DNA。
使用DNA提取试剂盒提取四倍体牡蛎样本的DNA并纯化,随后构建纯化的DNA文库。
先使用Qubit2.0对纯化的DNA文库的有效浓度进行初步定量,再使用qPCR对纯化的DNA文库的有效浓度进行准确定量以保证文库质量。
(2)重测序
利用华大MGI-2000/MGI-T7测序平台PE150模式对300只四倍体牡蛎样本的DNA片段进行30×重测序并对测序数据进行质控和过滤。
(3)建立参考基因组索引
使用BWA软件的index命令和Samtools的index命令构建参考序列的索引。
(4)比对参考基因组
使用BWA-mem将reads与参考基因组比对,生成bam文件,随后使用Samtools sort对bam文件的数据进行排序。
(5)建立GATK和freebayes索引
使用Samtools index对每个个体生成的bam文件建立索引后合并bam文件。
(6)去除duplication
使用GATK MarkDuplicates去除duplication。
(7)freebayes和GATK分型
分别使用freebayes和GATK HaplotypeCaller检测变异,对30×重测序结果进行SNP分型,生成gvcf文件。
2、对原始变异位点进行过滤生成高质量的SNP数据集
按照下述步骤对生成的原始变异位点依次进行过滤,生成高质量的SNP数据集:
(1)过滤多态性SNP位点,保留二态性SNP位点;
(2)过滤10bp内超过3个SNP的位点(即SNP过于密集的区域);
(3)以QD<2.0、QUAL<30.0、MQ<40.0、FS>60.0、SOR>3.0、MQRankSum<-12.5和ReadPosRankSum<-8.0为参数过滤低质量位点;
(4)过滤有个体缺失的位点;
(5)过滤最小等位基因频率(MAF)<0.05的位点;
(6)过滤测序深度100×以下的位点。
3、从高质量的SNP数据集中筛选出用于神经网络模型训练的SNP位点
从高质量的SNP数据集中筛选出GATK和freebayes两种基因分型方法基因分型结果完全一致且完全符合孟德尔遗传定律的SNP位点(本实施例筛选出了12万个)。
将这些筛选出来的SNP位点以加性效应转化为标签0、1、2、3、4,将位点比对的结果用于神经网络模型训练。
4、通过深度学习构建四倍体牡蛎全基因组SNP分型神经网络模型
将门控循环单元网络(GRU,递归神经网络的变体之一)和卷积神经网络(CNNs)结合,构建四倍体牡蛎全基因组SNP分型神经网络(以下简称神经网络)。
神经网络以染色体为单位,每次按顺序输入染色体的150bp片段,输入至染色体最后1个150bp片段时停止。每个片段为每个个体100×重测序与参考基因组比对的结果,即100*150维度的基因型矩阵。对于针对染色体的每个神经网络,GRU每层包括10个神经元,用于读取四倍体牡蛎150bp片段和marker。同时,在读取片段后,每层整合所有前后层输出的结果进一步对该层进行训练,距离越远的结果对该层训练结果的影响越小。最后输出GRU拟合的结果至CNNs,将输入数据分为不同种类的基因型。在深度学习训练过程中,将均方误差设定为损失函数,通过计算推测值与真实值的均方误差评估四倍体牡蛎全基因组SNP分型神经网络模型(以下简称神经网络模型)的准确度,并使用反向传播和梯度下降法不断迭代,优化损失函数,优化神经网络模型。
二、验证基于深度学习的四倍体牡蛎全基因组SNP分型方法的准确性和实际应用效果
1、与GATK和freebayes比较基因分型结果的准确性
在原有100×重测序的基础上随机抽样,得到10×、20×、30×、60×和80×重测序数据。在过滤掉有个体缺失的位点后分别使用GATK、freebayes和本发明通过深度学习构建的神经网络模型对四倍体牡蛎样本的DNA片段进行全基因组SNP分型,筛选出12万个用于训练神经网络模型的SNP位点,并将这12万个SNP位点通过GATK、freebayes和神经网络模型三种基因分型方法获得的分型结果与前面已经筛选出的12万个GATK和freebayes两种基因分型方法分型结果完全一致、质量高且完全符合孟德尔遗传定律的SNP位点的分型结果进行皮尔森相关性检验。在不同测序深度下,三种基因分型方法的准确性具体见下表:
表1 不同基因分型方法的准确性
结果表明,测序深度在10×、20×和30×时,使用本发明通过深度学习构建的神经网络模型对四倍体牡蛎样本的DNA片段进行全基因组SNP分型的准确率显著高于使用GATK和freebayes这两种基因分型方法的准确率,而测序深度在60×和80×时,三种基因分型方法的准确率无明显差异。
这说明:在低深度重测序中,基于深度学习的四倍体牡蛎全基因组SNP分型方法显著提高了SNP分型的准确率,且高于GATK和freebayes这两种基因分型方法的准确率;在高深度重测序中,三种基因分型方法的基因分型准确率无明显差异。
2、鉴定与生长性状相关的SNP位点的效果
利用本发明通过深度学习构建的神经网络模型对来自崆峒岛实业有限公司的100个四倍体牡蛎样本进行全基因组SNP分型。利用分型的结果对四倍体牡蛎重要生长性状(例如:形态特征、体重、软体重、产肉量、糖原含量、闭壳肌拉力)相关的SNP位点进行全基因组选择分析。
以软体重为例,以QD<2.0、QUAL<30.0、MQ<40.0、FS>60.0、SOR>3.0、MQRankSum<-12.5和ReadPosRankSum<-8.0为参数过滤低质量位点,在过滤低质量位点后,利用GWAS鉴定与四倍体牡蛎重要生长性状软体重相关的SNP位点,结果鉴定到了大量P值<1E-04的显著位点,定位于8号连锁群和9号连锁群,证明本发明提供的基于深度学习的四倍体牡蛎全基因组SNP分型方法的基因分型结果良好,能鉴定出大量与生长性状相关的SNP位点。
3、估计育种值相关度的效果
利用GATK、freebayes和本发明通过深度学习构建的神经网络模型对来自崆峒岛实业有限公司的100个四倍体牡蛎样本进行全基因组SNP分型。利用分型的结果对四倍体牡蛎生长相关性状进行育种值相关度估计。
仍以软体重为例,以QD<2.0、QUAL<30.0、MQ<40.0、FS>60.0、SOR>3.0、MQRankSum<-12.5和ReadPosRankSum<-8.0为参数过滤低质量位点,在过滤掉低质量位点后,用BayesA、BayesB、BayesC、BayesLasso和BRR方法计算育种值相关度。基于Bayes的育种值相关度估计在3种基因分型方法中的差异见下表:
表2 育种值相关度估计在不同基因分型方法中的差异
由上表可知:在低测序深度(10×)时,相比于GATK和freebayes分型结果估计的育种值相关度,本发明提供的基于深度学习的四倍体牡蛎全基因组SNP分型方法的分型结果在5种Bayes方法的育种值相关度估计值提高了约5%~10%,且10×交叉验证结果的方差降低了约12%,证明本发明提供的基于深度学习的四倍体牡蛎全基因组SNP分型方法获得的基因分型结果能显著提高四倍体牡蛎育种值估计的准确率。
4、分析群体遗传的效果
利用本发明通过深度学习构建的神经网络模型对来自崆峒岛实业有限公司的100个四倍体牡蛎样本进行全基因组SNP分型。利用分型的结果对四倍体牡蛎进行聚类分群。
以QD<2.0、QUAL<30.0、MQ<40.0、FS>60.0、SOR>3.0、MQRankSum<-12.5和ReadPosRankSum<-8.0为参数过滤低质量位点,在过滤掉低质量位点后,利用Structure软件计算个体杂合度,对四倍体牡蛎进行聚类分群。计算得到的分群结果与实际的分群结果二者的一致率约93%,证明本发明提供的基于深度学习的四倍体牡蛎全基因组SNP分型方法获得的基因分型结果能准确区分预测个体的隶属群体。
需要说明的是,上述实施例仅是为清楚地说明本发明所作的举例,而并非是对本发明实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无法对所有的实施方式予以穷举。凡是属于本发明技术方案所引申出的显而易见变化或变动仍处于本发明的保护范围之列。
Claims (5)
1.一种基于深度学习的四倍体牡蛎全基因组SNP分型方法,其特征在于,包括以下步骤:
步骤1:使用GATK和freebayes对四倍体牡蛎进行全基因组范围的SNP分型;
步骤2:对原始变异位点进行过滤生成高质量的SNP数据集;
步骤3:从高质量的SNP数据集中筛选出用于神经网络模型训练的SNP位点;
步骤4:将门控循环单元网络和卷积神经网络结合,通过深度学习构建四倍体牡蛎全基因组SNP分型神经网络模型,具体的,以染色体为单位,每次按顺序输入染色体的150bp片段,输入至染色体最后1个150bp片段时停止,每个片段为每个个体100×重测序与参考基因组比对的结果,门控循环单元网络每层包括10个神经元,用于读取四倍体牡蛎150bp片段和marker,在读取片段后,每层整合所有前后层输出的结果进一步对该层进行训练,最后输出门控循环单元网络拟合的结果至卷积神经网络,将输入数据分为不同种类的基因型,在深度学习训练过程中,将均方误差设定为损失函数,通过计算推测值与真实值的均方误差评估神经网络模型的准确度,并使用反向传播和梯度下降法不断迭代,优化损失函数,优化神经网络模型。
2.根据权利要求1所述的基于深度学习的四倍体牡蛎全基因组SNP分型方法,其特征在于,在步骤1中,使用GATK和freebayes对四倍体牡蛎进行全基因组范围的SNP分型的方法具体如下:
(1)提取DNA和构建文库;
(2)对四倍体牡蛎样本的DNA片段进行30×重测序;
(3)建立参考基因组索引;
(4)将reads与参考基因组比对,生成bam文件,并对bam文件的数据进行排序;
(5)建立GATK和freebayes索引并合并bam文件;
(6)去除duplication;
(7)分别使用freebayes和GATK HaplotypeCaller对30×重测序结果进行SNP分型,生成gvcf文件。
3.根据权利要求2所述的基于深度学习的四倍体牡蛎全基因组SNP分型方法,其特征在于,在步骤(1)中,还包括定量纯化的DNA文库的有效浓度的步骤,具体的,先使用Qubit2.0对纯化的DNA文库的有效浓度进行初步定量,再使用qPCR对纯化的DNA文库的有效浓度进行准确定量。
4.根据权利要求1所述的基于深度学习的四倍体牡蛎全基因组SNP分型方法,其特征在于,在步骤2中,对原始变异位点进行过滤生成高质量的SNP数据集的方法具体如下:
(1)过滤多态性SNP位点,保留二态性SNP位点;
(2)过滤10bp内超过3个SNP的位点;
(3)以QD<2.0、QUAL<30.0、MQ<40.0、FS>60.0、SOR>3.0、MQRankSum<-12.5和ReadPosRankSum<-8.0为参数过滤低质量位点;
(4)过滤有个体缺失的位点;
(5)过滤最小等位基因频率<0.05的位点;
(6)过滤测序深度100×以下的位点。
5.根据权利要求1所述的基于深度学习的四倍体牡蛎全基因组SNP分型方法,其特征在于,在步骤3中,从高质量的SNP数据集中筛选出用于神经网络模型训练的SNP位点的方法具体如下:
(1)筛选出GATK和freebayes两种基因分型方法基因分型结果完全一致且完全符合孟德尔遗传定律的SNP位点;
(2)将这些筛选出来的SNP位点以加性效应转化为标签0、1、2、3、4,将位点比对的结果用于神经网络模型训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410103260.5A CN117637020B (zh) | 2024-01-25 | 2024-01-25 | 一种基于深度学习的四倍体牡蛎全基因组snp分型方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410103260.5A CN117637020B (zh) | 2024-01-25 | 2024-01-25 | 一种基于深度学习的四倍体牡蛎全基因组snp分型方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117637020A true CN117637020A (zh) | 2024-03-01 |
CN117637020B CN117637020B (zh) | 2024-04-30 |
Family
ID=90032482
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410103260.5A Active CN117637020B (zh) | 2024-01-25 | 2024-01-25 | 一种基于深度学习的四倍体牡蛎全基因组snp分型方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117637020B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140206006A1 (en) * | 2011-08-25 | 2014-07-24 | Bgi Shenzhen | Single cell classification method, gene screening method and device thereof |
CN107475414A (zh) * | 2017-09-20 | 2017-12-15 | 中国科学院海洋研究所 | 一种筛选长牡蛎高糖原含量亲贝的方法及其相关的snp引物对 |
US20190220704A1 (en) * | 2018-01-15 | 2019-07-18 | Illumina, Inc. | Deep Learning-Based Variant Classifier |
CN112885408A (zh) * | 2021-02-22 | 2021-06-01 | 中国农业大学 | 一种基于低深度测序检测snp标记位点的方法及装置 |
CN113228194A (zh) * | 2018-10-12 | 2021-08-06 | 人类长寿公司 | 用于癌症基因组和临床数据综合分析的多组学搜索引擎 |
CN114639446A (zh) * | 2022-04-01 | 2022-06-17 | 中国海洋大学 | 一种基于mcp稀疏深层神经网络模型估计水产动物基因组育种值的方法 |
CN115546605A (zh) * | 2022-09-16 | 2022-12-30 | 安徽省立医院(中国科学技术大学附属第一医院) | 一种基于图像标注和分割模型的训练方法及装置 |
-
2024
- 2024-01-25 CN CN202410103260.5A patent/CN117637020B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140206006A1 (en) * | 2011-08-25 | 2014-07-24 | Bgi Shenzhen | Single cell classification method, gene screening method and device thereof |
CN107475414A (zh) * | 2017-09-20 | 2017-12-15 | 中国科学院海洋研究所 | 一种筛选长牡蛎高糖原含量亲贝的方法及其相关的snp引物对 |
US20190220704A1 (en) * | 2018-01-15 | 2019-07-18 | Illumina, Inc. | Deep Learning-Based Variant Classifier |
CN113228194A (zh) * | 2018-10-12 | 2021-08-06 | 人类长寿公司 | 用于癌症基因组和临床数据综合分析的多组学搜索引擎 |
CN112885408A (zh) * | 2021-02-22 | 2021-06-01 | 中国农业大学 | 一种基于低深度测序检测snp标记位点的方法及装置 |
CN114639446A (zh) * | 2022-04-01 | 2022-06-17 | 中国海洋大学 | 一种基于mcp稀疏深层神经网络模型估计水产动物基因组育种值的方法 |
CN115546605A (zh) * | 2022-09-16 | 2022-12-30 | 安徽省立医院(中国科学技术大学附属第一医院) | 一种基于图像标注和分割模型的训练方法及装置 |
Non-Patent Citations (1)
Title |
---|
周玉兰;闫守泉;牛艳茹;何惠娟;王家丰;: "太平洋牡蛎HSP70基因SNPs开发及其与温度相关性分析", 广东海洋大学学报, no. 03, 15 June 2017 (2017-06-15) * |
Also Published As
Publication number | Publication date |
---|---|
CN117637020B (zh) | 2024-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Saravanan et al. | Selection signatures in livestock genome: A review of concepts, approaches and applications | |
NZ759659A (en) | Deep learning-based variant classifier | |
CN102682224B (zh) | 检测拷贝数变异的方法和装置 | |
CN110189796A (zh) | 一种绵羊全基因组重测序分析方法 | |
CN115064211A (zh) | 一种基于全基因组甲基化测序的ctDNA预测方法及其应用 | |
US20220277811A1 (en) | Detecting False Positive Variant Calls In Next-Generation Sequencing | |
WO2019213811A1 (zh) | 检测染色体非整倍性的方法、装置及系统 | |
CN115631789A (zh) | 一种基于泛基因组的群体联合变异检测方法 | |
CN111485026A (zh) | 一种与绵羊出生重相关的snp位点、应用、分子标记和引物 | |
CN112233722B (zh) | 品种鉴定的方法、其预测模型的构建方法和装置 | |
CN107862177B (zh) | 一种区分鲤群体的单核苷酸多态性分子标记集的构建方法 | |
Lepais et al. | Joint analysis of microsatellites and flanking sequences enlightens complex demographic history of interspecific gene flow and vicariance in rear-edge oak populations | |
CN117637020B (zh) | 一种基于深度学习的四倍体牡蛎全基因组snp分型方法 | |
CN116486913A (zh) | 基于单细胞测序从头预测调控突变的系统、设备和介质 | |
CN116564410A (zh) | 一种预测突变位点顺式调控基因的方法、设备和介质 | |
CN110373458A (zh) | 一种地中海贫血检测的试剂盒及分析系统 | |
KR101911307B1 (ko) | 유전자 단위에서 단상형을 구분하는 태그-snp 선발 및 활용 기술 | |
CN116209777A (zh) | 基于无创产前基因检测数据的亲缘关系判定方法和装置 | |
CN112102880A (zh) | 品种鉴定的方法、其预测模型的构建方法和装置 | |
CN110867212A (zh) | 一种猪的品种溯源方法及装置 | |
CN116168761B (zh) | 核酸序列特征区域确定方法、装置、电子设备及存储介质 | |
CN117037905A (zh) | 基于祖先信息标记的鸡品种鉴定方法、系统、设备及介质 | |
CN116646010B (zh) | 人源性病毒检测方法及装置、设备、存储介质 | |
CN117095747B (zh) | 一种基于线性泛基因组和人工智能模型检测群体倒位或转座子端点基因型的方法 | |
CN113380324B (zh) | 一种T细胞受体序列motif组合识别检测方法、存储介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |