CN117637020A

CN117637020A - 一种基于深度学习的四倍体牡蛎全基因组snp分型方法

Info

Publication number: CN117637020A
Application number: CN202410103260.5A
Authority: CN
Inventors: 王卫军; 包晓凯; 王扬帆; 杨建敏; 李赞; 孙国华; 冯艳微; 徐晓辉
Original assignee: Ludong University
Current assignee: Ludong University
Priority date: 2024-01-25
Filing date: 2024-01-25
Publication date: 2024-03-01
Anticipated expiration: 2044-01-25
Also published as: CN117637020B

Abstract

本发明公开了一种基于深度学习的四倍体牡蛎全基因组SNP分型方法，属于分子选择育种技术领域。该SNP分型方法包括以下步骤：使用GATK和freebayes对四倍体牡蛎进行全基因组范围的SNP分型；对原始变异位点进行过滤生成高质量的SNP数据集；从高质量的SNP数据集中筛选出用于神经网络模型训练的SNP位点；将门控循环单元网络和卷积神经网络结合，以染色体为单位，通过深度学习构建四倍体牡蛎全基因组SNP分型神经网络模型。本发明的有益之处在于：在低测序深度时，本发明提供的SNP分型方法基因分型准确率显著高于GATK和freebayes的基因分型准确率。

Description

一种基于深度学习的四倍体牡蛎全基因组SNP分型方法

技术领域

本发明涉及一种全基因组SNP分型方法，具体涉及一种基于深度学习的四倍体牡蛎全基因组SNP分型方法，属于分子选择育种技术领域。

背景技术

目前，基因分型技术广泛应用在二倍体动植物中，且基因分型准确率较高。然而，在多倍体中，由于需要区分同源SNP（个体内和个体间跨亚基因组出现的多态位置）和等位SNP（个体间单一亚基因组内出现的多态位置），且多倍体物种内各亚基因组间具有遗传相似性，多倍体生物SNP的准确鉴定和分型十分困难。

目前，主流的基因分型软件是GATK和freebayes，使用GATK和freebayes进行四倍体分型时，需要将四倍体的4个基因型拆为2个双等位基因型，分型后再组合在一起。GATK和freebayes基因分型方法由于以每个SNP位点为单位进行基因分型，不考虑周围SNP位点的基因型，所以忽略了四个基因型之间的潜在关联。此外，GATK和freebayes基因分型方法在测序深度较低时基因型分型准确率较低。

深度学习目前主要应用在图像处理方面，很少应用在全基因组选择育种中。对于全基因组SNP分型技术，深度学习通过学习假定突变与真实突变基因型的统计关系，建立回归模型，不仅可以提高单个位点基因分型的准确率，还可以通过学习位点间的潜在联系进一步提高位点变异推测的准确率，从而解决GATK和freebayes基因分型方法在低测序深度时部分位点基因型预测准确率过低的问题。在以往的研究中，Poplin等人通过构建卷积神经网络进行基因分型，但其未考虑到位点间的相互作用，缺失分型的部分信息（RyanPoplin，Pi-Chuan Chang，David Alexander，et al；A universal SNP and small-indelvariant caller using deep neural networks；Nature Biotechnology，2018，36，983-987）。递归神经网络可以将前后SNP的数据按照一定权重补充到当前SNP的学习中，使分型可以考虑到周围的SNP位点，可以很好的解决GATK和freebayes基因分型方法单一位点分型的弊端。

目前，GATK和freebayes基因分型方法在海洋二倍体生物中基因分型准确率较高，应用广泛，因基于深度学习的全基因组SNP分型方法基因分型结果的准确率与GATK和freebayes基因分型方法基因分型结果的准确率无明显差异，所以基于深度学习的全基因组SNP分型方法未应用于海洋二倍体生物基因分型中。而对于海洋中鲜有的多倍体生物，GATK和freebayes基因分型方法基因分型结果的准确率较低，基于深度学习的基因分型方法在提高基因分型准确率方面有很大潜力。对于四倍体牡蛎，目前仍没有成熟可靠的基因分型手段。因此，迫切需要开发基于深度学习的四倍体牡蛎全基因组SNP分型方法，为四倍体牡蛎的遗传改良和分子育种提供帮助。

发明内容

本发明的目的在于：克服四倍体牡蛎全基因组SNP分型在低测序深度时准确率低的难题，使用深度学习方法构建基因分型神经网络模型，大幅度提高四倍体牡蛎全基因组SNP分型在低测序深度时的准确率。

为了实现上述目标，本发明采用如下的技术方案：

一种基于深度学习的四倍体牡蛎全基因组SNP分型方法，包括以下步骤：

步骤1：使用GATK和freebayes对四倍体牡蛎进行全基因组范围的SNP分型；

步骤2：对原始变异位点进行过滤生成高质量的SNP数据集；

步骤3：从高质量的SNP数据集中筛选出用于神经网络模型训练的SNP位点；

步骤4：将门控循环单元网络和卷积神经网络结合，通过深度学习构建四倍体牡蛎全基因组SNP分型神经网络模型，具体的，以染色体为单位，每次按顺序输入染色体的150bp片段，输入至染色体最后1个150bp片段时停止，每个片段为每个个体100×重测序与参考基因组比对的结果，门控循环单元网络每层包括10个神经元，用于读取四倍体牡蛎150bp片段和marker，在读取片段后，每层整合所有前后层输出的结果进一步对该层进行训练，最后输出门控循环单元网络拟合的结果至卷积神经网络，将输入数据分为不同种类的基因型，在深度学习训练过程中，将均方误差设定为损失函数，通过计算推测值与真实值的均方误差评估神经网络模型的准确度，并使用反向传播和梯度下降法不断迭代，优化损失函数，优化神经网络模型。

优选的，在步骤1中，使用GATK和freebayes对四倍体牡蛎进行全基因组范围的SNP分型的方法具体如下：

（1）提取DNA和构建文库；

（2）对四倍体牡蛎样本的DNA片段进行30×重测序；

（3）建立参考基因组索引；

（4）将reads与参考基因组比对，生成bam文件，并对bam文件的数据进行排序；

（5）建立GATK和freebayes索引并合并bam文件；

（6）去除duplication；

（7）分别使用freebayes和GATK HaplotypeCaller对30×重测序结果进行SNP分型，生成gvcf文件。

优选的，在步骤2中，对原始变异位点进行过滤生成高质量的SNP数据集的方法具体如下：

（1）过滤多态性SNP位点，保留二态性SNP位点；

（2）过滤10bp内超过3个SNP的位点；

（3）以QD<2.0、QUAL<30.0、MQ<40.0、FS>60.0、SOR>3.0、MQRankSum<-12.5和ReadPosRankSum<-8.0为参数过滤低质量位点；

（4）过滤有个体缺失的位点；

（5）过滤最小等位基因频率<0.05的位点；

（6）过滤测序深度100×以下的位点。

优选的，在步骤3中，从高质量的SNP数据集中筛选出用于神经网络模型训练的SNP位点的方法具体如下：

（1）筛选出GATK和freebayes两种基因分型方法基因分型结果完全一致且完全符合孟德尔遗传定律的SNP位点；

（2）将这些筛选出来的SNP位点以加性效应转化为标签0、1、2、3、4，将位点比对的结果用于神经网络模型训练。

本发明的有益之处在于：

（1）本发明提供的基于深度学习的四倍体牡蛎全基因组SNP分型方法在低测序深度时基因分型准确率显著高于GATK和freebayes的基因分型准确率，在高测序深度时基因分型准确率与GATK和freebayes的基因分型准确率无明显差异。

（2）利用本发明提供的基于深度学习的四倍体牡蛎全基因组SNP分型方法获得的分型结果进行GWAS分析，可以鉴定到大量与四倍体牡蛎生长性状显著相关的SNP位点。

（3）使用本发明提供的基于深度学习的四倍体牡蛎全基因组SNP分型方法获得的基因分型结果计算育种值相关度，能显著提高四倍体牡蛎育种值估计的准确率。

（4）使用本发明提供的基于深度学习的四倍体牡蛎全基因组SNP分型方法获得的基因分型结果计算个体杂合度，能有效的对四倍体牡蛎进行群体分层。

（5）本发明提供的基于深度学习的四倍体牡蛎全基因组SNP分型方法为四倍体牡蛎经济性状选择和种质资源保护等相关遗传育种工作提供了可靠的技术平台，促进了四倍体牡蛎分子育种的发展，同时也为其它多倍体水产生物的全基因组SNP分型提供了理论支持。

具体实施方式

以下结合具体实施例对本发明作具体的介绍。

一、基于深度学习的四倍体牡蛎全基因组SNP分型方法的实现过程

1、使用GATK和freebayes对四倍体牡蛎进行全基因组范围的SNP分型

（1）提取DNA和构建文库

在崆峒岛实业有限公司选取300只四倍体牡蛎，现场解剖取闭壳肌并置于95%（v/v）乙醇中直至提取DNA。

使用DNA提取试剂盒提取四倍体牡蛎样本的DNA并纯化，随后构建纯化的DNA文库。

先使用Qubit2.0对纯化的DNA文库的有效浓度进行初步定量，再使用qPCR对纯化的DNA文库的有效浓度进行准确定量以保证文库质量。

（2）重测序

利用华大MGI-2000/MGI-T7测序平台PE150模式对300只四倍体牡蛎样本的DNA片段进行30×重测序并对测序数据进行质控和过滤。

（3）建立参考基因组索引

使用BWA软件的index命令和Samtools的index命令构建参考序列的索引。

（4）比对参考基因组

使用BWA-mem将reads与参考基因组比对，生成bam文件，随后使用Samtools sort对bam文件的数据进行排序。

（5）建立GATK和freebayes索引

使用Samtools index对每个个体生成的bam文件建立索引后合并bam文件。

（6）去除duplication

使用GATK MarkDuplicates去除duplication。

（7）freebayes和GATK分型

分别使用freebayes和GATK HaplotypeCaller检测变异，对30×重测序结果进行SNP分型，生成gvcf文件。

2、对原始变异位点进行过滤生成高质量的SNP数据集

按照下述步骤对生成的原始变异位点依次进行过滤，生成高质量的SNP数据集：

（1）过滤多态性SNP位点，保留二态性SNP位点；

（2）过滤10bp内超过3个SNP的位点（即SNP过于密集的区域）；

（4）过滤有个体缺失的位点；

（5）过滤最小等位基因频率（MAF）<0.05的位点；

（6）过滤测序深度100×以下的位点。

3、从高质量的SNP数据集中筛选出用于神经网络模型训练的SNP位点

从高质量的SNP数据集中筛选出GATK和freebayes两种基因分型方法基因分型结果完全一致且完全符合孟德尔遗传定律的SNP位点（本实施例筛选出了12万个）。

将这些筛选出来的SNP位点以加性效应转化为标签0、1、2、3、4，将位点比对的结果用于神经网络模型训练。

4、通过深度学习构建四倍体牡蛎全基因组SNP分型神经网络模型

将门控循环单元网络（GRU，递归神经网络的变体之一）和卷积神经网络（CNNs）结合，构建四倍体牡蛎全基因组SNP分型神经网络（以下简称神经网络）。

神经网络以染色体为单位，每次按顺序输入染色体的150bp片段，输入至染色体最后1个150bp片段时停止。每个片段为每个个体100×重测序与参考基因组比对的结果，即100*150维度的基因型矩阵。对于针对染色体的每个神经网络，GRU每层包括10个神经元，用于读取四倍体牡蛎150bp片段和marker。同时，在读取片段后，每层整合所有前后层输出的结果进一步对该层进行训练，距离越远的结果对该层训练结果的影响越小。最后输出GRU拟合的结果至CNNs，将输入数据分为不同种类的基因型。在深度学习训练过程中，将均方误差设定为损失函数，通过计算推测值与真实值的均方误差评估四倍体牡蛎全基因组SNP分型神经网络模型（以下简称神经网络模型）的准确度，并使用反向传播和梯度下降法不断迭代，优化损失函数，优化神经网络模型。

二、验证基于深度学习的四倍体牡蛎全基因组SNP分型方法的准确性和实际应用效果

1、与GATK和freebayes比较基因分型结果的准确性

在原有100×重测序的基础上随机抽样，得到10×、20×、30×、60×和80×重测序数据。在过滤掉有个体缺失的位点后分别使用GATK、freebayes和本发明通过深度学习构建的神经网络模型对四倍体牡蛎样本的DNA片段进行全基因组SNP分型，筛选出12万个用于训练神经网络模型的SNP位点，并将这12万个SNP位点通过GATK、freebayes和神经网络模型三种基因分型方法获得的分型结果与前面已经筛选出的12万个GATK和freebayes两种基因分型方法分型结果完全一致、质量高且完全符合孟德尔遗传定律的SNP位点的分型结果进行皮尔森相关性检验。在不同测序深度下，三种基因分型方法的准确性具体见下表：

表1 不同基因分型方法的准确性

结果表明，测序深度在10×、20×和30×时，使用本发明通过深度学习构建的神经网络模型对四倍体牡蛎样本的DNA片段进行全基因组SNP分型的准确率显著高于使用GATK和freebayes这两种基因分型方法的准确率，而测序深度在60×和80×时，三种基因分型方法的准确率无明显差异。

这说明：在低深度重测序中，基于深度学习的四倍体牡蛎全基因组SNP分型方法显著提高了SNP分型的准确率，且高于GATK和freebayes这两种基因分型方法的准确率；在高深度重测序中，三种基因分型方法的基因分型准确率无明显差异。

2、鉴定与生长性状相关的SNP位点的效果

利用本发明通过深度学习构建的神经网络模型对来自崆峒岛实业有限公司的100个四倍体牡蛎样本进行全基因组SNP分型。利用分型的结果对四倍体牡蛎重要生长性状（例如：形态特征、体重、软体重、产肉量、糖原含量、闭壳肌拉力）相关的SNP位点进行全基因组选择分析。

以软体重为例，以QD<2.0、QUAL<30.0、MQ<40.0、FS>60.0、SOR>3.0、MQRankSum<-12.5和ReadPosRankSum<-8.0为参数过滤低质量位点，在过滤低质量位点后，利用GWAS鉴定与四倍体牡蛎重要生长性状软体重相关的SNP位点，结果鉴定到了大量P值<1E-04的显著位点，定位于8号连锁群和9号连锁群，证明本发明提供的基于深度学习的四倍体牡蛎全基因组SNP分型方法的基因分型结果良好，能鉴定出大量与生长性状相关的SNP位点。

3、估计育种值相关度的效果

利用GATK、freebayes和本发明通过深度学习构建的神经网络模型对来自崆峒岛实业有限公司的100个四倍体牡蛎样本进行全基因组SNP分型。利用分型的结果对四倍体牡蛎生长相关性状进行育种值相关度估计。

仍以软体重为例，以QD<2.0、QUAL<30.0、MQ<40.0、FS>60.0、SOR>3.0、MQRankSum<-12.5和ReadPosRankSum<-8.0为参数过滤低质量位点，在过滤掉低质量位点后，用BayesA、BayesB、BayesC、BayesLasso和BRR方法计算育种值相关度。基于Bayes的育种值相关度估计在3种基因分型方法中的差异见下表：

表2 育种值相关度估计在不同基因分型方法中的差异

由上表可知：在低测序深度（10×）时，相比于GATK和freebayes分型结果估计的育种值相关度，本发明提供的基于深度学习的四倍体牡蛎全基因组SNP分型方法的分型结果在5种Bayes方法的育种值相关度估计值提高了约5%～10%，且10×交叉验证结果的方差降低了约12%，证明本发明提供的基于深度学习的四倍体牡蛎全基因组SNP分型方法获得的基因分型结果能显著提高四倍体牡蛎育种值估计的准确率。

4、分析群体遗传的效果

利用本发明通过深度学习构建的神经网络模型对来自崆峒岛实业有限公司的100个四倍体牡蛎样本进行全基因组SNP分型。利用分型的结果对四倍体牡蛎进行聚类分群。

以QD<2.0、QUAL<30.0、MQ<40.0、FS>60.0、SOR>3.0、MQRankSum<-12.5和ReadPosRankSum<-8.0为参数过滤低质量位点，在过滤掉低质量位点后，利用Structure软件计算个体杂合度，对四倍体牡蛎进行聚类分群。计算得到的分群结果与实际的分群结果二者的一致率约93%，证明本发明提供的基于深度学习的四倍体牡蛎全基因组SNP分型方法获得的基因分型结果能准确区分预测个体的隶属群体。

需要说明的是，上述实施例仅是为清楚地说明本发明所作的举例，而并非是对本发明实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无法对所有的实施方式予以穷举。凡是属于本发明技术方案所引申出的显而易见变化或变动仍处于本发明的保护范围之列。

Claims

1.一种基于深度学习的四倍体牡蛎全基因组SNP分型方法，其特征在于，包括以下步骤：

步骤2：对原始变异位点进行过滤生成高质量的SNP数据集；

2.根据权利要求1所述的基于深度学习的四倍体牡蛎全基因组SNP分型方法，其特征在于，在步骤1中，使用GATK和freebayes对四倍体牡蛎进行全基因组范围的SNP分型的方法具体如下：

（1）提取DNA和构建文库；

（2）对四倍体牡蛎样本的DNA片段进行30×重测序；

（3）建立参考基因组索引；

（5）建立GATK和freebayes索引并合并bam文件；

（6）去除duplication；

3.根据权利要求2所述的基于深度学习的四倍体牡蛎全基因组SNP分型方法，其特征在于，在步骤（1）中，还包括定量纯化的DNA文库的有效浓度的步骤，具体的，先使用Qubit2.0对纯化的DNA文库的有效浓度进行初步定量，再使用qPCR对纯化的DNA文库的有效浓度进行准确定量。

4.根据权利要求1所述的基于深度学习的四倍体牡蛎全基因组SNP分型方法，其特征在于，在步骤2中，对原始变异位点进行过滤生成高质量的SNP数据集的方法具体如下：

（1）过滤多态性SNP位点，保留二态性SNP位点；

（2）过滤10bp内超过3个SNP的位点；

（4）过滤有个体缺失的位点；

（5）过滤最小等位基因频率<0.05的位点；

（6）过滤测序深度100×以下的位点。

5.根据权利要求1所述的基于深度学习的四倍体牡蛎全基因组SNP分型方法，其特征在于，在步骤3中，从高质量的SNP数据集中筛选出用于神经网络模型训练的SNP位点的方法具体如下：