CN116072222A

CN116072222A - 病毒基因组鉴定和拼接的方法及应用

Info

Publication number: CN116072222A
Application number: CN202310123384.5A
Authority: CN
Inventors: 彭友松; 傅萍
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2023-02-16
Filing date: 2023-02-16
Publication date: 2023-05-05
Anticipated expiration: 2043-02-16
Also published as: CN116072222B

Abstract

本发明提供了一种病毒基因组鉴定和拼接的方法及应用。该方法包括：对于原始数据进行前处理。将高质量reads拼接为初始重叠群。以初始重叠群作为查询序列，对待鉴定病毒的蛋白序列做同源性搜索，得到潜在病毒重叠群。以潜在病毒重叠群作为查询序列在NCBI NR库中进行同源性搜索，保留潜在病毒重叠群中的最佳比对属于病毒的查询重叠群，作为目标病毒重叠群，并得到与目标病毒重叠群对应的最佳比对的病毒物种。从参考病毒基因组序列库中选择最佳比对的病毒物种所对应的参考基因组，对高质量reads进行拼接，得到待鉴定病毒的病毒基因组序列。上述方法可以实现从原始测序数据出发一条龙地输出样本中包含的病毒及其基因组序列和丰度。

Description

病毒基因组鉴定和拼接的方法及应用

技术领域

本发明涉及基因技术领域，尤其涉及一种病毒基因组鉴定和拼接的方法及应用。

背景技术

从宏转录组或宏基因组中鉴定出病毒序列，并进一步拼接成病毒基因组，这是病毒组研究的基础。下面分别介绍病毒鉴定和基因组拼接中几种代表性的方法。

1病毒基因序列的鉴定方法

病毒基因序列的鉴定方法分为两类：一类是基于同源性的方法，比如使用同源性搜索软件BLAST或HMM，该类方法的优点在于比较准确，其缺点在于很难鉴定远同源的病毒序列；另外一类是基于机器学习的方法，如Seeker或VirFinder，该类方法的优点在于可以鉴定任何病毒序列，其缺点在于假阳性率比较高。

2病毒基因组拼接方法

分为两类：一类是基于参考基因组的方法，如MetaCompass和VirGena，其优点在于拼接比较准确，缺点在于需要确定参考基因组，不适合病毒组的研究；另外一类是从头拼接的方法，如Trinity和Haploflow，该类方法的优点在于不需要参考基因组，可以适用任何病毒组数据，其缺点在于其拼接需要依赖于较深的测序深度，且很难拼接完整基因组。

目前已有的方法要么可以鉴定出病毒序列，要么可以拼接病毒基因组，无法同时完成病毒基因组鉴定和拼接。

发明内容

本发明的主要目的是提供一种病毒基因组鉴定和拼接的方法及应用，以解决前已有的方法无法同时完成病毒基因组鉴定和拼接的技术问题。

为实现上述目的，本发明第一方面提供一种病毒基因组鉴定和拼接的方法，包括：

对于原始的宏转录组或宏基因组的测序数据进行前处理，去除测序数据中的低质量reads和接头，得到处理后的测序数据。处理后的测序数据包括高质量reads。

将高质量reads拼接为初始重叠群。初始重叠群的长度大于高质量reads的长度。

以初始重叠群作为查询序列，对待鉴定病毒的蛋白序列做同源性搜索，得到潜在病毒重叠群。

以潜在病毒重叠群作为查询序列在NCBI NR库中进行同源性搜索，保留潜在病毒重叠群中的最佳比对属于病毒的查询重叠群，作为目标病毒重叠群，并得到与目标病毒重叠群对应的最佳比对的病毒物种，根据比对情况确定待鉴定病毒的物种分类。

从参考病毒基因组序列库中选择最佳比对的病毒物种所对应的参考基因组，并参照参考基因组作为引导序列对高质量reads进行拼接，得到待鉴定病毒的病毒基因组序列。

根据本申请的实施方式，在去除测序数据中的低质量reads和接头的步骤中：

采用fastp方法去除测序数据中的低质量reads和接头。

根据本申请的实施方式，在将高质量reads拼接为初始重叠群的步骤中：

采用从头拼接方法Trinity将高质量reads拼接为初始重叠群。

根据本申请的实施方式，在参照参考基因组对高质量reads进行拼接的步骤中：

参照参考基因组采用MetaCompass软件对高质量reads进行拼接。

根据本申请的实施方式，在参照参考基因组对高质量reads进行拼接的步骤之后还包括：

采用RagTag软件对于高质量reads的拼接结果进行校正和拼接，得到待鉴定病毒的病毒基因组序列。

根据本申请的实施方式，在采用RagTag软件对于高质量reads的拼接结果进行校正和拼接的步骤之后，还包括对待鉴定病毒的病毒基因组序列进行定量和可视化。

本发明第二方面提供一种上述的方法在病毒基因组鉴定和拼接中的应用。

上述的病毒基因组鉴定和拼接的方法中，可以实现从原始测序数据出发一条龙地输出样本中包含的病毒及其基因组序列和丰度。这是因为把病毒鉴定和基因组拼接整合在一起，而且可以自动确定最合理的参考基因组用于拼接，建立了病毒参考基因组序列库，能自动确定最合理的参考基因组。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1是本申请一实施方式的病毒基因组鉴定和拼接的方法的流程示意图；

图2是本申请实施例1中的不同的软件对各病毒株的基因完整结果图；

图3是本申请实施例1中的病毒基因组鉴定和拼接的方法的丰度与病毒感染数据集中病毒株的百分比相关性的结果图；

图4是本申请实施例2中的不同的软件对各病毒株的基因完整结果图；

图5是本申请实施例2中的VIGA拼接的乙肝病毒p1331_CL株和参考基因组结构的比较结果图；

图6是本申请实施例2的不同的软件对包含HBV的混合毒株的评估指标雷达图；

图7是本申请实施例3的不同的软件对HIV毒株混合毒株的评估指标雷达图；

图8是本申请实施例4的不同的软件对同一数据集的完整度恢复情况图。

本发明目的的实现、功能特点及优点将结合实施方式，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本发明的一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

需要说明，本发明实施方式中所有方向性指示(诸如上、下……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。

并且，本发明各个实施方式之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

本发明还提供了一种病毒基因组鉴定和拼接的方法，参见图1，包括以下步骤：

S110:对于原始的宏转录组或宏基因组的测序数据进行前处理，去除测序数据中的低质量reads和接头，得到处理后的测序数据。处理后的测序数据包括高质量reads。

由于受目前测序水平的限制，基因组测序时需要先将基因组打断成DNA片段，然后再建库测序，reads指的是测序仪单次测序所得到的碱基序列，也就是一连串的ATCGGGTA之类的。不同的测序仪器，reads长度不一样。

具体地，在该步骤中可以通过fastp对原始数据进行前处理，去除低质量的reads，去除接头。这样处理后的测序数据剩余的即为高质量reads。

S120:将高质量reads拼接为初始重叠群。初始重叠群的长度大于高质量reads的长度。

具体地，在该步骤中可使用从头拼接方法Trinity把reads拼接为更长的contig，即初始重叠群。

S130:以初始重叠群作为查询序列，对待鉴定病毒的蛋白序列做同源性搜索，得到潜在病毒重叠群。

具体地，可以在公开的病毒蛋白数据库中进行同源性搜索，如2020年6月下载的病毒蛋白数据库，链接https://ftp.ncbi.nlm.nih.gov/refseq/release/viral/。

S140:以潜在病毒重叠群作为查询序列在NCBI NR库中进行同源性搜索，保留潜在病毒重叠群中的最佳比对属于病毒的查询重叠群，作为目标病毒重叠群，并得到与目标病毒重叠群对应的最佳比对的病毒物种，根据比对情况确定待鉴定病毒的物种分类。

S150:从参考病毒基因组序列库中选择最佳比对的病毒物种所对应的参考基因组，并参照参考基因组作为引导序列对高质量reads进行拼接，得到待鉴定病毒的病毒基因组序列。

本次申请提出的新方法VIGA，全称为Virus Identification and GenomeAssembly，是一种集病毒基因组鉴定和拼接的方法，适用于从病毒宏转录组或宏基因组原始测序数据中直接鉴定出病毒，并进一步拼接出病毒的基因组序列。与已有的同类技术相比，本申请主要做了以下几个方面的创新：1把病毒鉴定和基因组拼接的功能有机地整合在一起形成完整的流程，而已有方法都只能完成病毒鉴定或拼接的其中一步；2有机地整合了基于参考基因组的病毒基因组拼接方法MetaCompass和从头拼接基因组的方法Trinity、以及长片段拼接方法RagTag，拼接效果比已有方法更好；3建立了病毒参考基因组序列库，能自动确定最合理的参考基因组。

由于绝大多数病毒序列的注释都很差，并且与参考数据库几乎没有或没有同源性。因此，病毒组的研究在很大程度上依赖于短测序读数的从头组装，将读数组装成更长的序列有助于识别编码基因，以及分类学和功能注释，但从头组装的方法很难恢复病毒的全长基因组，大部分是零碎的contig，因此采用从头组装的鉴定结果，继续对病毒使用MetaCompass软件对上述鉴定出的病毒基因组以及加入高质量reads的信息实施基于参考基因组的拼接，继而对此拼接出的基因组进行contig的拼接和校正(软件RagTag)，实现恢复尽可能完整的病毒参考基因组。

上述的病毒基因组鉴定和拼接的方法中还具有以下两个优点：

1使用更便捷，可以实现从原始测序数据出发一条龙地输出样本中包含的病毒及其基因组序列和丰度。这是因为把病毒鉴定和基因组拼接整合在一起，而且可以自动确定最合理的参考基因组用于拼接。

2拼接的病毒基因组更加完整，因为整合了多种拼接方法。

在一些实施例中，在去除测序数据中的低质量reads和接头的步骤中：

采用fastp方法去除测序数据中的低质量reads和接头。

在一些实施例中，在将高质量reads拼接为初始重叠群的步骤中：

采用从头拼接方法Trinity将高质量reads拼接为初始重叠群。

在一些实施例中，在参照参考基因组对高质量reads进行拼接的步骤中：

参照参考基因组采用MetaCompass软件对高质量reads进行拼接。

在一些实施例中，在参照参考基因组对高质量reads进行拼接的步骤之后还包括：

在一些实施例中，在采用RagTag软件对于高质量reads的拼接结果进行校正和拼接的步骤之后，还包括对待鉴定病毒的病毒基因组序列进行定量和可视化。

本发明还提供了一种上述的方法在病毒基因组鉴定和拼接中的应用。

为便于描述本申请的病毒基因组鉴定和拼接的方法，以下结合具体的实施例进行描述。

一种病毒基因组鉴定和拼接的方法，包括以下步骤：

S101:对于原始的宏转录组或宏基因组测序数据，首先通过fastp对原始数据进行前处理，去除低质量的reads，去除接头；

S102:对于剩下的高质量reads，使用从头拼接方法Trinity把reads拼接为更长的contig(重叠群)；

S103:以这些contigs作为查询序列，对病毒蛋白序列做同源性搜索，得到潜在的病毒contigs。

S104:进一步以这些潜在病毒contigs作为查询序列，对NCBI NR库做同源性搜索，保留最佳比对属于病毒的查询contigs，它们作为该样本中的病毒contigs，同时得到其最佳比对的病毒物种，根据比对情况确定该病毒可能的物种分类；

S105:从参考病毒基因组序列库中选择最佳比对的病毒物种所对应的参考基因组，采用MetaCompass软件对上述高质量reads进行基因组拼接，对于拼接结果进一步采用RagTag软件进行校正和拼接，得到最终的病毒基因组序列，并进一步对它们进行定量和可视化。

实施例1

为了说明病毒基因组鉴定和拼接的方法的效果，比较了本申请的病毒基因组鉴定和拼接的方法(VIGA)和现有的四种软件在病毒模拟群落SRR9875293的效果：

病毒模拟群落SRR9875293包含以下病毒：柯萨奇病毒B4(taxid 12073)；鼠伽马疱疹病毒4taxid(33708)；人腺病毒5型(taxid 28285)；肠道病毒13型(taxid 47501)；脊髓灰质炎病毒(taxid 12080)；人腺病毒11型(taxid 10541)。

(1)参见图2，与基于参考基因组的软件VirGena、MetaCompass相比，VIGA仅比针对于病毒拼接的软件--VirGena的效果好，在内嵌的软件--MetaCompass的基础上，效果相当或者有部分提升.

(2)参见图2，与从头组装的软件Trinity、Haploflow相比，VIGA恢复出的基因组完整度远高于Haploflow--一种基于deBruijn图的组装器，用于使用新的流算法对来自混合序列样本的病毒株进行从头基因组组装，相较Trinity对各病毒的基因组完整度也更高。

本申请的病毒基因组鉴定和拼接的方法整合了ref和denovo两者的优势，满足了既可以在不知道参考基因组的情况下恢复部分/全长参考基因组序列，又可以基于参考基因组，最大程度的恢复样本中包含的病毒基因组序列。

为了说明加入病毒实际长度信息可以提高病毒在样本中定量的准确性，本申请的病毒基因组鉴定和拼接的方法利用已知百分比的病毒感染数据集与不同软件的丰度(RPKM)进行相关性分析。参见图3，结果表明，本申请病毒基因组鉴定和拼接的方法计算的丰度与病毒感染数据集中病毒株百分比相关性最高，最真实的反应了样本中原有的病毒组成的信息。

实施例2

为了比较在同一个样本中种间不同病毒株(病毒准种)的恢复情况，本申请测试了不同软件对HBV的两个混合株的完整度恢复情况，使用样本ERR3253398、ERR3253399(原始数据在NCBI SRA数据库下载，链接如下https://www.ncbi.nlm.nih.gov/sra/)，这两个都混杂了病毒株HBV isolate p1332_RCA(NCBI accession：MK720631.1，核酸序列可以在NCBI Nucleotide数据库下载，链接如下：https://www.ncbi.nlm.nih.gov/nuccore/)和HBV isolate p1331_CL(NCBI accession：MK720628.1)。

结果表示，

(1)与基于参考基因组的软件相比，VIGA对HBV的两个混合株有99.97-100％的恢复情况；

(2)与从头组装的软件相比，Haploflow在第一个样本中的HBV RCA株表现较差，在ERR3253398中两个病毒株也可以有100％的基因组完整度；Trinity在第二个样本中的HBVCL株表现较差，在RCA株表现较好。VIGA在不同株的完整度上保持稳定，均在99.97-100％。参见图4和图5。

为了说明几个软件进行综合评估，采用以下的评估指标的软件进行评估：

1.菌株精度：所有基因组组装体中正确回收的高质量菌株基因组的比例。

2.基因组完整度：基因组中被组装结果覆盖到的碱基数除以参考序列的总长度得到的比值；位于重复区域的contig可能会比对到多个位置，因此会被重复计算。

3.NGA50：只考虑对齐的contig(通过在错误装配事件中断开contig并移除所有未对齐的基础上获得)。该长度或更长的所有contigs集合覆盖至少一半基因组的长度，表示组件的连续性。该指标报告了该长度或更长的所有对齐块的总大小至少等于真实单倍型总长度的50％的长度。

4.冗余率：组装结果中可比对到基因组的碱基数与基因组中被覆盖到的碱基数的比值；如果组装的结果中重复序列较多，多个contig覆盖同一个基因组区域的话，这个值会大于1。这种情况可能是由于过多的估计了重复序列的拷贝数。

5.每100kbp的错配数：每100kbp中，错配的个数。

6.重叠群的数量：组装软件输出的重叠群(contigs)的总数。

7.最大比对的长度：将组装结果同基因组进行比对，得到的最大的连续的比对的长度

用下面的公式标准化：

基因组完整度，NGA50，最大比对的长度用以下公式计算：

冗余率，每100kbp的错配数，重叠群的数量用以下公式计算：

8.总分：参考软件haploflow给出的权重，基因组完整度、最大比对的长度占比0.3，其他四个指标占比0.1。

参见图6，即计算的8个指标的雷达图，在这个数据集中，VIGA表现出了高的病毒株召回率、精准度、基因组完整度以及低的错配率：

表1为不同的评估的软件的评估指标

实施例3

HIV，即人类免疫缺陷病毒，是一种单链RNA病毒，具有大约9.5kb的基因组，可感染人类，导致AIDS(获得性免疫缺陷综合症)。HIV在宿主内迅速进化，也可能表现为多株感染。三种HIV-1毒株89.6、HXB2和JR-CSF，通常用于评估病毒组装的不同软件，这些基因组的不同之处主要在于SNP，平均核苷酸同一性(ANI)约为95％。之所以选择这个阈值，是因为在从头组装软件MEGAHIT和metaSPAdes上的实验表明，相关性超过95％的基因组将无法组装。

本申请在复杂性较高的模拟数据集上评估了VIGA：由三种HIV毒株的混合物，包括三种高度相似的混合株，以表征高度相似病毒株之间的组装效果。参见表2和图7，总体得分排序依次为：VIGA、Haploflow、MetaCompass、Trinity等。在所有评估的软件中，VIGA几乎完全恢复了三个HIV的病毒株(完整度都高于90％)，且在总分中分数最高，基因组完整度最高，但Haploflow、SAVAGE(ref)在错配数上表现较好，拥有较少的错配，虽然基因组越长就可能包含越多的错配。

表2为不同的评估的软件的评估指标

此外，申请还在测试平台上分别采用各软件对上述三种HIV毒株进行病毒组装评估。对各软件的CPU时间和内存峰值进行了比较。测试平台：Ubuntu20.04 LTS；CPU：AMDEPYC 7302、3.0GHz、32核和64线程；RAM：128GB。

结果如表3所示，在CPU使用方面，在同样基于参考基因组组装的软件中比SAVAGE的时间大为缩短，并且内存峰值也低于SAVAGE。

表3为不同的评估软件的CPU时间和内存峰值结果

软件	数据集：HIV三个株
			指标	CPU使用时间(seconds)	内存峰值(GB)
Haploflow	724	0.009
			VIGA	13,220	95.3
SAVAGE	110,208	102.938
			PEHaplo	10,127	11.819
metaSPAdes	1500	1.054
			MEGAHIT	250	0.269

实施例4

为了说明软件的真实的拼接效果，本申请使用了一篇已发表文章(论文题目：Sweet potato viromes in eight different geographical regions in Korea and twodifferent cultivars，在PubMed数据库的编号PMID：32054944)的二代高通量测序数据(在NCBI SRA的Accession Number:PRJNA517178)，同时该文章中使用PCR技术扩出了病毒全长基因组序列并上传到了NCBI GenbBank数据库(https://www.ncbi.nlm.nih.gov/nuccore/Accession numbers:MH388493-MH388504)。本申请测试了不同软件对该数据集中的病毒基因组拼接的完整度。

结果如图8所示，VIGA在基因组完整度上的表现最佳，基因组完整度的中位数50.32，远高于其他软件。而同样依赖于参考基因组的软件--VirGena在大型数据集上运行了一周时间及以上没有返回结果。

本发明的上述技术方案中，以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的技术构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围。

Claims

1.一种病毒基因组鉴定和拼接的方法，其特征在于，包括：

对于原始的宏转录组或宏基因组的测序数据进行前处理，去除所述测序数据中的低质量reads和接头，得到处理后的测序数据；所述处理后的测序数据包括高质量reads；

将所述高质量reads拼接为初始重叠群；所述初始重叠群的长度大于所述高质量reads的长度；

以所述初始重叠群作为查询序列，对待鉴定病毒的蛋白序列做同源性搜索，得到潜在病毒重叠群；

以所述潜在病毒重叠群作为查询序列在NCBINR库中进行同源性搜索，保留所述潜在病毒重叠群中的最佳比对属于病毒的查询重叠群，作为目标病毒重叠群，并得到与所述目标病毒重叠群对应的最佳比对的病毒物种，根据比对情况确定所述待鉴定病毒的物种分类；

从参考病毒基因组序列库中选择最佳比对的病毒物种所对应的参考基因组，并参照所述参考基因组作为引导序列对所述高质量reads进行拼接，得到所述待鉴定病毒的病毒基因组序列。

2.根据权利要求1所述的方法，其特征在于，在所述去除所述测序数据中的低质量reads和接头的步骤中：

采用fastp方法去除所述测序数据中的低质量reads和接头。

3.根据权利要求1所述的方法，其特征在于，在所述将所述高质量reads拼接为初始重叠群的步骤中：

采用从头拼接方法Trinity将所述高质量reads拼接为初始重叠群。

4.根据权利要求1～3中任一项所述的方法，其特征在于，在所述参照所述参考基因组对所述高质量reads进行拼接的步骤中：

参照所述参考基因组采用MetaCompass软件对所述高质量reads进行拼接。

5.根据权利要求4所述的方法，其特征在于，在所述参照所述参考基因组对所述高质量reads进行拼接的步骤之后还包括：

采用RagTag软件对于所述高质量reads的拼接结果进行校正和拼接，得到所述待鉴定病毒的病毒基因组序列。

6.根据权利要求5所述的方法，其特征在于，在所述采用RagTag软件对于所述高质量reads的拼接结果进行校正和拼接的步骤之后，还包括对所述待鉴定病毒的病毒基因组序列进行定量和可视化。

7.一种权利要求1～6中任一项所述的方法在病毒基因组鉴定和拼接中的应用。