CN116072222A - 病毒基因组鉴定和拼接的方法及应用 - Google Patents
病毒基因组鉴定和拼接的方法及应用 Download PDFInfo
- Publication number
- CN116072222A CN116072222A CN202310123384.5A CN202310123384A CN116072222A CN 116072222 A CN116072222 A CN 116072222A CN 202310123384 A CN202310123384 A CN 202310123384A CN 116072222 A CN116072222 A CN 116072222A
- Authority
- CN
- China
- Prior art keywords
- virus
- genome
- contig
- splicing
- quality reads
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000003612 virological effect Effects 0.000 title claims abstract description 43
- 241000700605 Viruses Species 0.000 claims abstract description 103
- 238000012163 sequencing technique Methods 0.000 claims abstract description 31
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 7
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 4
- 241000894007 species Species 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 description 10
- 241000725303 Human immunodeficiency virus Species 0.000 description 8
- 230000000694 effects Effects 0.000 description 5
- 229940072293 axid Drugs 0.000 description 4
- SGXXNSQHWDMGGP-IZZDOVSWSA-N nizatidine Chemical compound [O-][N+](=O)\C=C(/NC)NCCSCC1=CSC(CN(C)C)=N1 SGXXNSQHWDMGGP-IZZDOVSWSA-N 0.000 description 4
- 238000011084 recovery Methods 0.000 description 4
- 108010067390 Viral Proteins Proteins 0.000 description 3
- 208000036142 Viral infection Diseases 0.000 description 3
- 244000000001 Virome Species 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000009385 viral infection Effects 0.000 description 3
- 208000030507 AIDS Diseases 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 150000007523 nucleic acids Chemical group 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000709673 Coxsackievirus B4 Species 0.000 description 1
- 108020004414 DNA Proteins 0.000 description 1
- 241000709661 Enterovirus Species 0.000 description 1
- 241000991587 Enterovirus C Species 0.000 description 1
- 102100025471 Epiphycan Human genes 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 101001056751 Homo sapiens Epiphycan Proteins 0.000 description 1
- 241000701190 Human adenovirus 11 Species 0.000 description 1
- 241001135569 Human adenovirus 5 Species 0.000 description 1
- 241000713772 Human immunodeficiency virus 1 Species 0.000 description 1
- 244000017020 Ipomoea batatas Species 0.000 description 1
- 235000002678 Ipomoea batatas Nutrition 0.000 description 1
- 241001529936 Murinae Species 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 108091081062 Repeated sequence (DNA) Proteins 0.000 description 1
- 108700005077 Viral Genes Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 241001493065 dsRNA viruses Species 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 102000054766 genetic haplotypes Human genes 0.000 description 1
- 238000012268 genome sequencing Methods 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 108020004707 nucleic acids Proteins 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 241001529453 unidentified herpesvirus Species 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供了一种病毒基因组鉴定和拼接的方法及应用。该方法包括:对于原始数据进行前处理。将高质量reads拼接为初始重叠群。以初始重叠群作为查询序列,对待鉴定病毒的蛋白序列做同源性搜索,得到潜在病毒重叠群。以潜在病毒重叠群作为查询序列在NCBI NR库中进行同源性搜索,保留潜在病毒重叠群中的最佳比对属于病毒的查询重叠群,作为目标病毒重叠群,并得到与目标病毒重叠群对应的最佳比对的病毒物种。从参考病毒基因组序列库中选择最佳比对的病毒物种所对应的参考基因组,对高质量reads进行拼接,得到待鉴定病毒的病毒基因组序列。上述方法可以实现从原始测序数据出发一条龙地输出样本中包含的病毒及其基因组序列和丰度。
Description
技术领域
本发明涉及基因技术领域,尤其涉及一种病毒基因组鉴定和拼接的方法及应用。
背景技术
从宏转录组或宏基因组中鉴定出病毒序列,并进一步拼接成病毒基因组,这是病毒组研究的基础。下面分别介绍病毒鉴定和基因组拼接中几种代表性的方法。
1病毒基因序列的鉴定方法
病毒基因序列的鉴定方法分为两类:一类是基于同源性的方法,比如使用同源性搜索软件BLAST或HMM,该类方法的优点在于比较准确,其缺点在于很难鉴定远同源的病毒序列;另外一类是基于机器学习的方法,如Seeker或VirFinder,该类方法的优点在于可以鉴定任何病毒序列,其缺点在于假阳性率比较高。
2病毒基因组拼接方法
分为两类:一类是基于参考基因组的方法,如MetaCompass和VirGena,其优点在于拼接比较准确,缺点在于需要确定参考基因组,不适合病毒组的研究;另外一类是从头拼接的方法,如Trinity和Haploflow,该类方法的优点在于不需要参考基因组,可以适用任何病毒组数据,其缺点在于其拼接需要依赖于较深的测序深度,且很难拼接完整基因组。
目前已有的方法要么可以鉴定出病毒序列,要么可以拼接病毒基因组,无法同时完成病毒基因组鉴定和拼接。
发明内容
本发明的主要目的是提供一种病毒基因组鉴定和拼接的方法及应用,以解决前已有的方法无法同时完成病毒基因组鉴定和拼接的技术问题。
为实现上述目的,本发明第一方面提供一种病毒基因组鉴定和拼接的方法,包括:
对于原始的宏转录组或宏基因组的测序数据进行前处理,去除测序数据中的低质量reads和接头,得到处理后的测序数据。处理后的测序数据包括高质量reads。
将高质量reads拼接为初始重叠群。初始重叠群的长度大于高质量reads的长度。
以初始重叠群作为查询序列,对待鉴定病毒的蛋白序列做同源性搜索,得到潜在病毒重叠群。
以潜在病毒重叠群作为查询序列在NCBI NR库中进行同源性搜索,保留潜在病毒重叠群中的最佳比对属于病毒的查询重叠群,作为目标病毒重叠群,并得到与目标病毒重叠群对应的最佳比对的病毒物种,根据比对情况确定待鉴定病毒的物种分类。
从参考病毒基因组序列库中选择最佳比对的病毒物种所对应的参考基因组,并参照参考基因组作为引导序列对高质量reads进行拼接,得到待鉴定病毒的病毒基因组序列。
根据本申请的实施方式,在去除测序数据中的低质量reads和接头的步骤中:
采用fastp方法去除测序数据中的低质量reads和接头。
根据本申请的实施方式,在将高质量reads拼接为初始重叠群的步骤中:
采用从头拼接方法Trinity将高质量reads拼接为初始重叠群。
根据本申请的实施方式,在参照参考基因组对高质量reads进行拼接的步骤中:
参照参考基因组采用MetaCompass软件对高质量reads进行拼接。
根据本申请的实施方式,在参照参考基因组对高质量reads进行拼接的步骤之后还包括:
采用RagTag软件对于高质量reads的拼接结果进行校正和拼接,得到待鉴定病毒的病毒基因组序列。
根据本申请的实施方式,在采用RagTag软件对于高质量reads的拼接结果进行校正和拼接的步骤之后,还包括对待鉴定病毒的病毒基因组序列进行定量和可视化。
本发明第二方面提供一种上述的方法在病毒基因组鉴定和拼接中的应用。
上述的病毒基因组鉴定和拼接的方法中,可以实现从原始测序数据出发一条龙地输出样本中包含的病毒及其基因组序列和丰度。这是因为把病毒鉴定和基因组拼接整合在一起,而且可以自动确定最合理的参考基因组用于拼接,建立了病毒参考基因组序列库,能自动确定最合理的参考基因组。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1是本申请一实施方式的病毒基因组鉴定和拼接的方法的流程示意图;
图2是本申请实施例1中的不同的软件对各病毒株的基因完整结果图;
图3是本申请实施例1中的病毒基因组鉴定和拼接的方法的丰度与病毒感染数据集中病毒株的百分比相关性的结果图;
图4是本申请实施例2中的不同的软件对各病毒株的基因完整结果图;
图5是本申请实施例2中的VIGA拼接的乙肝病毒p1331_CL株和参考基因组结构的比较结果图;
图6是本申请实施例2的不同的软件对包含HBV的混合毒株的评估指标雷达图;
图7是本申请实施例3的不同的软件对HIV毒株混合毒株的评估指标雷达图;
图8是本申请实施例4的不同的软件对同一数据集的完整度恢复情况图。
本发明目的的实现、功能特点及优点将结合实施方式,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明的一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
需要说明,本发明实施方式中所有方向性指示(诸如上、下……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。
并且,本发明各个实施方式之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
本发明还提供了一种病毒基因组鉴定和拼接的方法,参见图1,包括以下步骤:
S110:对于原始的宏转录组或宏基因组的测序数据进行前处理,去除测序数据中的低质量reads和接头,得到处理后的测序数据。处理后的测序数据包括高质量reads。
由于受目前测序水平的限制,基因组测序时需要先将基因组打断成DNA片段,然后再建库测序,reads指的是测序仪单次测序所得到的碱基序列,也就是一连串的ATCGGGTA之类的。不同的测序仪器,reads长度不一样。
具体地,在该步骤中可以通过fastp对原始数据进行前处理,去除低质量的reads,去除接头。这样处理后的测序数据剩余的即为高质量reads。
S120:将高质量reads拼接为初始重叠群。初始重叠群的长度大于高质量reads的长度。
具体地,在该步骤中可使用从头拼接方法Trinity把reads拼接为更长的contig,即初始重叠群。
S130:以初始重叠群作为查询序列,对待鉴定病毒的蛋白序列做同源性搜索,得到潜在病毒重叠群。
具体地,可以在公开的病毒蛋白数据库中进行同源性搜索,如2020年6月下载的病毒蛋白数据库,链接https://ftp.ncbi.nlm.nih.gov/refseq/release/viral/。
S140:以潜在病毒重叠群作为查询序列在NCBI NR库中进行同源性搜索,保留潜在病毒重叠群中的最佳比对属于病毒的查询重叠群,作为目标病毒重叠群,并得到与目标病毒重叠群对应的最佳比对的病毒物种,根据比对情况确定待鉴定病毒的物种分类。
S150:从参考病毒基因组序列库中选择最佳比对的病毒物种所对应的参考基因组,并参照参考基因组作为引导序列对高质量reads进行拼接,得到待鉴定病毒的病毒基因组序列。
本次申请提出的新方法VIGA,全称为Virus Identification and GenomeAssembly,是一种集病毒基因组鉴定和拼接的方法,适用于从病毒宏转录组或宏基因组原始测序数据中直接鉴定出病毒,并进一步拼接出病毒的基因组序列。与已有的同类技术相比,本申请主要做了以下几个方面的创新:1把病毒鉴定和基因组拼接的功能有机地整合在一起形成完整的流程,而已有方法都只能完成病毒鉴定或拼接的其中一步;2有机地整合了基于参考基因组的病毒基因组拼接方法MetaCompass和从头拼接基因组的方法Trinity、以及长片段拼接方法RagTag,拼接效果比已有方法更好;3建立了病毒参考基因组序列库,能自动确定最合理的参考基因组。
由于绝大多数病毒序列的注释都很差,并且与参考数据库几乎没有或没有同源性。因此,病毒组的研究在很大程度上依赖于短测序读数的从头组装,将读数组装成更长的序列有助于识别编码基因,以及分类学和功能注释,但从头组装的方法很难恢复病毒的全长基因组,大部分是零碎的contig,因此采用从头组装的鉴定结果,继续对病毒使用MetaCompass软件对上述鉴定出的病毒基因组以及加入高质量reads的信息实施基于参考基因组的拼接,继而对此拼接出的基因组进行contig的拼接和校正(软件RagTag),实现恢复尽可能完整的病毒参考基因组。
上述的病毒基因组鉴定和拼接的方法中,可以实现从原始测序数据出发一条龙地输出样本中包含的病毒及其基因组序列和丰度。这是因为把病毒鉴定和基因组拼接整合在一起,而且可以自动确定最合理的参考基因组用于拼接,建立了病毒参考基因组序列库,能自动确定最合理的参考基因组。
上述的病毒基因组鉴定和拼接的方法中还具有以下两个优点:
1使用更便捷,可以实现从原始测序数据出发一条龙地输出样本中包含的病毒及其基因组序列和丰度。这是因为把病毒鉴定和基因组拼接整合在一起,而且可以自动确定最合理的参考基因组用于拼接。
2拼接的病毒基因组更加完整,因为整合了多种拼接方法。
在一些实施例中,在去除测序数据中的低质量reads和接头的步骤中:
采用fastp方法去除测序数据中的低质量reads和接头。
在一些实施例中,在将高质量reads拼接为初始重叠群的步骤中:
采用从头拼接方法Trinity将高质量reads拼接为初始重叠群。
在一些实施例中,在参照参考基因组对高质量reads进行拼接的步骤中:
参照参考基因组采用MetaCompass软件对高质量reads进行拼接。
在一些实施例中,在参照参考基因组对高质量reads进行拼接的步骤之后还包括:
采用RagTag软件对于高质量reads的拼接结果进行校正和拼接,得到待鉴定病毒的病毒基因组序列。
在一些实施例中,在采用RagTag软件对于高质量reads的拼接结果进行校正和拼接的步骤之后,还包括对待鉴定病毒的病毒基因组序列进行定量和可视化。
本发明还提供了一种上述的方法在病毒基因组鉴定和拼接中的应用。
为便于描述本申请的病毒基因组鉴定和拼接的方法,以下结合具体的实施例进行描述。
一种病毒基因组鉴定和拼接的方法,包括以下步骤:
S101:对于原始的宏转录组或宏基因组测序数据,首先通过fastp对原始数据进行前处理,去除低质量的reads,去除接头;
S102:对于剩下的高质量reads,使用从头拼接方法Trinity把reads拼接为更长的contig(重叠群);
S103:以这些contigs作为查询序列,对病毒蛋白序列做同源性搜索,得到潜在的病毒contigs。
S104:进一步以这些潜在病毒contigs作为查询序列,对NCBI NR库做同源性搜索,保留最佳比对属于病毒的查询contigs,它们作为该样本中的病毒contigs,同时得到其最佳比对的病毒物种,根据比对情况确定该病毒可能的物种分类;
S105:从参考病毒基因组序列库中选择最佳比对的病毒物种所对应的参考基因组,采用MetaCompass软件对上述高质量reads进行基因组拼接,对于拼接结果进一步采用RagTag软件进行校正和拼接,得到最终的病毒基因组序列,并进一步对它们进行定量和可视化。
实施例1
为了说明病毒基因组鉴定和拼接的方法的效果,比较了本申请的病毒基因组鉴定和拼接的方法(VIGA)和现有的四种软件在病毒模拟群落SRR9875293的效果:
病毒模拟群落SRR9875293包含以下病毒:柯萨奇病毒B4(taxid 12073);鼠伽马疱疹病毒4taxid(33708);人腺病毒5型(taxid 28285);肠道病毒13型(taxid 47501);脊髓灰质炎病毒(taxid 12080);人腺病毒11型(taxid 10541)。
(1)参见图2,与基于参考基因组的软件VirGena、MetaCompass相比,VIGA仅比针对于病毒拼接的软件--VirGena的效果好,在内嵌的软件--MetaCompass的基础上,效果相当或者有部分提升.
(2)参见图2,与从头组装的软件Trinity、Haploflow相比,VIGA恢复出的基因组完整度远高于Haploflow--一种基于deBruijn图的组装器,用于使用新的流算法对来自混合序列样本的病毒株进行从头基因组组装,相较Trinity对各病毒的基因组完整度也更高。
本申请的病毒基因组鉴定和拼接的方法整合了ref和denovo两者的优势,满足了既可以在不知道参考基因组的情况下恢复部分/全长参考基因组序列,又可以基于参考基因组,最大程度的恢复样本中包含的病毒基因组序列。
为了说明加入病毒实际长度信息可以提高病毒在样本中定量的准确性,本申请的病毒基因组鉴定和拼接的方法利用已知百分比的病毒感染数据集与不同软件的丰度(RPKM)进行相关性分析。参见图3,结果表明,本申请病毒基因组鉴定和拼接的方法计算的丰度与病毒感染数据集中病毒株百分比相关性最高,最真实的反应了样本中原有的病毒组成的信息。
实施例2
为了比较在同一个样本中种间不同病毒株(病毒准种)的恢复情况,本申请测试了不同软件对HBV的两个混合株的完整度恢复情况,使用样本ERR3253398、ERR3253399(原始数据在NCBI SRA数据库下载,链接如下https://www.ncbi.nlm.nih.gov/sra/),这两个都混杂了病毒株HBV isolate p1332_RCA(NCBI accession:MK720631.1,核酸序列可以在NCBI Nucleotide数据库下载,链接如下:https://www.ncbi.nlm.nih.gov/nuccore/)和HBV isolate p1331_CL(NCBI accession:MK720628.1)。
结果表示,
(1)与基于参考基因组的软件相比,VIGA对HBV的两个混合株有99.97-100%的恢复情况;
(2)与从头组装的软件相比,Haploflow在第一个样本中的HBV RCA株表现较差,在ERR3253398中两个病毒株也可以有100%的基因组完整度;Trinity在第二个样本中的HBVCL株表现较差,在RCA株表现较好。VIGA在不同株的完整度上保持稳定,均在99.97-100%。参见图4和图5。
为了说明几个软件进行综合评估,采用以下的评估指标的软件进行评估:
1.菌株精度:所有基因组组装体中正确回收的高质量菌株基因组的比例。
2.基因组完整度:基因组中被组装结果覆盖到的碱基数除以参考序列的总长度得到的比值;位于重复区域的contig可能会比对到多个位置,因此会被重复计算。
3.NGA50:只考虑对齐的contig(通过在错误装配事件中断开contig并移除所有未对齐的基础上获得)。该长度或更长的所有contigs集合覆盖至少一半基因组的长度,表示组件的连续性。该指标报告了该长度或更长的所有对齐块的总大小至少等于真实单倍型总长度的50%的长度。
4.冗余率:组装结果中可比对到基因组的碱基数与基因组中被覆盖到的碱基数的比值;如果组装的结果中重复序列较多,多个contig覆盖同一个基因组区域的话,这个值会大于1。这种情况可能是由于过多的估计了重复序列的拷贝数。
5.每100kbp的错配数:每100kbp中,错配的个数。
6.重叠群的数量:组装软件输出的重叠群(contigs)的总数。
7.最大比对的长度:将组装结果同基因组进行比对,得到的最大的连续的比对的长度
用下面的公式标准化:
基因组完整度,NGA50,最大比对的长度用以下公式计算:
冗余率,每100kbp的错配数,重叠群的数量用以下公式计算:
8.总分:参考软件haploflow给出的权重,基因组完整度、最大比对的长度占比0.3,其他四个指标占比0.1。
参见图6,即计算的8个指标的雷达图,在这个数据集中,VIGA表现出了高的病毒株召回率、精准度、基因组完整度以及低的错配率:
表1为不同的评估的软件的评估指标
实施例3
HIV,即人类免疫缺陷病毒,是一种单链RNA病毒,具有大约9.5kb的基因组,可感染人类,导致AIDS(获得性免疫缺陷综合症)。HIV在宿主内迅速进化,也可能表现为多株感染。三种HIV-1毒株89.6、HXB2和JR-CSF,通常用于评估病毒组装的不同软件,这些基因组的不同之处主要在于SNP,平均核苷酸同一性(ANI)约为95%。之所以选择这个阈值,是因为在从头组装软件MEGAHIT和metaSPAdes上的实验表明,相关性超过95%的基因组将无法组装。
本申请在复杂性较高的模拟数据集上评估了VIGA:由三种HIV毒株的混合物,包括三种高度相似的混合株,以表征高度相似病毒株之间的组装效果。参见表2和图7,总体得分排序依次为:VIGA、Haploflow、MetaCompass、Trinity等。在所有评估的软件中,VIGA几乎完全恢复了三个HIV的病毒株(完整度都高于90%),且在总分中分数最高,基因组完整度最高,但Haploflow、SAVAGE(ref)在错配数上表现较好,拥有较少的错配,虽然基因组越长就可能包含越多的错配。
表2为不同的评估的软件的评估指标
此外,申请还在测试平台上分别采用各软件对上述三种HIV毒株进行病毒组装评估。对各软件的CPU时间和内存峰值进行了比较。测试平台:Ubuntu20.04 LTS;CPU:AMDEPYC 7302、3.0GHz、32核和64线程;RAM:128GB。
结果如表3所示,在CPU使用方面,在同样基于参考基因组组装的软件中比SAVAGE的时间大为缩短,并且内存峰值也低于SAVAGE。
表3为不同的评估软件的CPU时间和内存峰值结果
软件 | 数据集:HIV三个株 | |
指标 | CPU使用时间(seconds) | 内存峰值(GB) |
Haploflow | 724 | 0.009 |
VIGA | 13,220 | 95.3 |
SAVAGE | 110,208 | 102.938 |
PEHaplo | 10,127 | 11.819 |
metaSPAdes | 1500 | 1.054 |
MEGAHIT | 250 | 0.269 |
实施例4
为了说明软件的真实的拼接效果,本申请使用了一篇已发表文章(论文题目:Sweet potato viromes in eight different geographical regions in Korea and twodifferent cultivars,在PubMed数据库的编号PMID:32054944)的二代高通量测序数据(在NCBI SRA的Accession Number:PRJNA517178),同时该文章中使用PCR技术扩出了病毒全长基因组序列并上传到了NCBI GenbBank数据库(https://www.ncbi.nlm.nih.gov/nuccore/Accession numbers:MH388493-MH388504)。本申请测试了不同软件对该数据集中的病毒基因组拼接的完整度。
结果如图8所示,VIGA在基因组完整度上的表现最佳,基因组完整度的中位数50.32,远高于其他软件。而同样依赖于参考基因组的软件--VirGena在大型数据集上运行了一周时间及以上没有返回结果。
本发明的上述技术方案中,以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的技术构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围。
Claims (7)
1.一种病毒基因组鉴定和拼接的方法,其特征在于,包括:
对于原始的宏转录组或宏基因组的测序数据进行前处理,去除所述测序数据中的低质量reads和接头,得到处理后的测序数据;所述处理后的测序数据包括高质量reads;
将所述高质量reads拼接为初始重叠群;所述初始重叠群的长度大于所述高质量reads的长度;
以所述初始重叠群作为查询序列,对待鉴定病毒的蛋白序列做同源性搜索,得到潜在病毒重叠群;
以所述潜在病毒重叠群作为查询序列在NCBINR库中进行同源性搜索,保留所述潜在病毒重叠群中的最佳比对属于病毒的查询重叠群,作为目标病毒重叠群,并得到与所述目标病毒重叠群对应的最佳比对的病毒物种,根据比对情况确定所述待鉴定病毒的物种分类;
从参考病毒基因组序列库中选择最佳比对的病毒物种所对应的参考基因组,并参照所述参考基因组作为引导序列对所述高质量reads进行拼接,得到所述待鉴定病毒的病毒基因组序列。
2.根据权利要求1所述的方法,其特征在于,在所述去除所述测序数据中的低质量reads和接头的步骤中:
采用fastp方法去除所述测序数据中的低质量reads和接头。
3.根据权利要求1所述的方法,其特征在于,在所述将所述高质量reads拼接为初始重叠群的步骤中:
采用从头拼接方法Trinity将所述高质量reads拼接为初始重叠群。
4.根据权利要求1~3中任一项所述的方法,其特征在于,在所述参照所述参考基因组对所述高质量reads进行拼接的步骤中:
参照所述参考基因组采用MetaCompass软件对所述高质量reads进行拼接。
5.根据权利要求4所述的方法,其特征在于,在所述参照所述参考基因组对所述高质量reads进行拼接的步骤之后还包括:
采用RagTag软件对于所述高质量reads的拼接结果进行校正和拼接,得到所述待鉴定病毒的病毒基因组序列。
6.根据权利要求5所述的方法,其特征在于,在所述采用RagTag软件对于所述高质量reads的拼接结果进行校正和拼接的步骤之后,还包括对所述待鉴定病毒的病毒基因组序列进行定量和可视化。
7.一种权利要求1~6中任一项所述的方法在病毒基因组鉴定和拼接中的应用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310123384.5A CN116072222B (zh) | 2023-02-16 | 2023-02-16 | 病毒基因组鉴定和拼接的方法及应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310123384.5A CN116072222B (zh) | 2023-02-16 | 2023-02-16 | 病毒基因组鉴定和拼接的方法及应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116072222A true CN116072222A (zh) | 2023-05-05 |
CN116072222B CN116072222B (zh) | 2024-02-06 |
Family
ID=86173029
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310123384.5A Active CN116072222B (zh) | 2023-02-16 | 2023-02-16 | 病毒基因组鉴定和拼接的方法及应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116072222B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105112569A (zh) * | 2015-09-14 | 2015-12-02 | 中国医学科学院病原生物学研究所 | 基于宏基因组学的病毒感染检测及鉴定方法 |
CN107475449A (zh) * | 2017-09-12 | 2017-12-15 | 中国热带农业科学院热带生物技术研究所 | 一种适用于矮缩病毒科和双生病毒科病毒基因组拼接的转录组测序方法 |
CN108138244A (zh) * | 2015-09-18 | 2018-06-08 | 纽约市哥伦比亚大学理事会 | 病毒组捕获测序平台、设计和构建方法以及使用方法 |
CN109273053A (zh) * | 2018-09-27 | 2019-01-25 | 华中科技大学鄂州工业技术研究院 | 一种高通量测序的微生物数据处理方法 |
CN111180014A (zh) * | 2020-01-03 | 2020-05-19 | 中国检验检疫科学研究院 | 一种基于低深度siRNA数据的病毒序列组装方法 |
KR102240776B1 (ko) * | 2019-12-06 | 2021-04-15 | 서울대학교산학협력단 | 신종 및 변종 고구마 바이러스의 진단을 위한 프라이머 세트 및 진단 방법 |
CN113035269A (zh) * | 2021-04-16 | 2021-06-25 | 北京计算科学研究中心 | 基于高通量测序技术的基因组代谢模型构建、优化及可视化的方法 |
US20210207229A1 (en) * | 2018-07-27 | 2021-07-08 | Seekln, Inc. | Hepatocellular carcinoma screening |
CN114067907A (zh) * | 2020-07-31 | 2022-02-18 | 普瑞基准生物医药(苏州)有限公司 | 一种准确鉴定rna病毒基因组变异的方法 |
CN114121160A (zh) * | 2021-11-25 | 2022-03-01 | 广东美格基因科技有限公司 | 一种检测样本中宏病毒组的方法和系统 |
CN114242174A (zh) * | 2022-01-10 | 2022-03-25 | 湖南大学 | 一种用于内源性逆转录病毒的鉴定注释方法 |
CN115605618A (zh) * | 2020-02-14 | 2023-01-13 | 罗得岛医院(Us) | Rna测序诊断脓毒症 |
CN115662516A (zh) * | 2022-11-08 | 2023-01-31 | 华中科技大学 | 一种基于二代测序技术的高通量预测噬菌体宿主的分析方法 |
CN115691679A (zh) * | 2022-11-08 | 2023-02-03 | 华中科技大学 | 一种基于二代和三代测序技术的宏病毒组分析方法 |
-
2023
- 2023-02-16 CN CN202310123384.5A patent/CN116072222B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105112569A (zh) * | 2015-09-14 | 2015-12-02 | 中国医学科学院病原生物学研究所 | 基于宏基因组学的病毒感染检测及鉴定方法 |
CN108138244A (zh) * | 2015-09-18 | 2018-06-08 | 纽约市哥伦比亚大学理事会 | 病毒组捕获测序平台、设计和构建方法以及使用方法 |
CN107475449A (zh) * | 2017-09-12 | 2017-12-15 | 中国热带农业科学院热带生物技术研究所 | 一种适用于矮缩病毒科和双生病毒科病毒基因组拼接的转录组测序方法 |
US20210207229A1 (en) * | 2018-07-27 | 2021-07-08 | Seekln, Inc. | Hepatocellular carcinoma screening |
CN109273053A (zh) * | 2018-09-27 | 2019-01-25 | 华中科技大学鄂州工业技术研究院 | 一种高通量测序的微生物数据处理方法 |
KR102240776B1 (ko) * | 2019-12-06 | 2021-04-15 | 서울대학교산학협력단 | 신종 및 변종 고구마 바이러스의 진단을 위한 프라이머 세트 및 진단 방법 |
CN111180014A (zh) * | 2020-01-03 | 2020-05-19 | 中国检验检疫科学研究院 | 一种基于低深度siRNA数据的病毒序列组装方法 |
CN115605618A (zh) * | 2020-02-14 | 2023-01-13 | 罗得岛医院(Us) | Rna测序诊断脓毒症 |
CN114067907A (zh) * | 2020-07-31 | 2022-02-18 | 普瑞基准生物医药(苏州)有限公司 | 一种准确鉴定rna病毒基因组变异的方法 |
CN113035269A (zh) * | 2021-04-16 | 2021-06-25 | 北京计算科学研究中心 | 基于高通量测序技术的基因组代谢模型构建、优化及可视化的方法 |
CN114121160A (zh) * | 2021-11-25 | 2022-03-01 | 广东美格基因科技有限公司 | 一种检测样本中宏病毒组的方法和系统 |
CN114242174A (zh) * | 2022-01-10 | 2022-03-25 | 湖南大学 | 一种用于内源性逆转录病毒的鉴定注释方法 |
CN115662516A (zh) * | 2022-11-08 | 2023-01-31 | 华中科技大学 | 一种基于二代测序技术的高通量预测噬菌体宿主的分析方法 |
CN115691679A (zh) * | 2022-11-08 | 2023-02-03 | 华中科技大学 | 一种基于二代和三代测序技术的宏病毒组分析方法 |
Non-Patent Citations (2)
Title |
---|
WAYNE PAES ET AL: "Contribution of proteasome-catalyzed peptidecis-splicing to viral targeting by CD8+Tcells in HIV-1 infection", 《BIOLOGICAL SCIENCES》, vol. 116, no. 49, pages 24748 * |
杨李玲 等: "新型牡蛎相关圆环病毒基因组的鉴定", 《南方水产科学》, vol. 18, no. 4, pages 65 - 75 * |
Also Published As
Publication number | Publication date |
---|---|
CN116072222B (zh) | 2024-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11702708B2 (en) | Systems and methods for analyzing viral nucleic acids | |
Battey et al. | Automated server predictions in CASP7 | |
Kermarrec et al. | Next‐generation sequencing to inventory taxonomic diversity in eukaryotic communities: a test for freshwater diatoms | |
Wang et al. | Phylogenetic relationships among the colobine monkeys revisited: new insights from analyses of complete mt genomes and 44 nuclear non-coding markers | |
CN106033502B (zh) | 鉴定病毒的方法和装置 | |
Polavarapu et al. | Identification, characterization and comparative genomics of chimpanzee endogenous retroviruses | |
EP3049557A1 (en) | Methods and systems for large scale scaffolding of genome assemblies | |
Seabolt et al. | Hidden diversity within common protozoan parasites as revealed by a novel genomotyping scheme | |
Rachtman et al. | CONSULT: accurate contamination removal using locality-sensitive hashing | |
CN116072222B (zh) | 病毒基因组鉴定和拼接的方法及应用 | |
Connor et al. | Towards increased accuracy and reproducibility in SARS-CoV-2 next generation sequence analysis for public health surveillance | |
CN116312779A (zh) | 检测样本污染和识别样本错配的方法和装置 | |
CN113409886A (zh) | 一种hiv亚型分类系统及分类方法 | |
CN113327646A (zh) | 测序序列的处理方法及装置、存储介质、电子设备 | |
US11001880B2 (en) | Development of SNP islands and application of SNP islands in genomic analysis | |
Spang et al. | Sequence database search using jumping alignments. | |
Freedman et al. | Building better genome annotations across the tree of life | |
Vancaester et al. | MarkerScan: Separation and assembly of cobionts sequenced alongside target species in biodiversity genomics projects | |
KR20200138821A (ko) | 뉴클레오티드 서열 변이의 빈도 분포 결정 | |
Hakim | Marcellus; Parikesit, AA; Dewa, CK; Sakakibara, Y. A Comparison of Bioinformatics Pipelines for Enrichment Illumina Next Generation Sequencing Systems in Detecting SARS-CoV-2 Virus Strains. Genes 2022, 13, 1330 | |
US20220042091A1 (en) | Mitochondrial DNA Quality Control | |
Unterthiner et al. | Detection of viral sequence fragments of HIV-1 subfamilies yet unknown | |
Pollo et al. | MinION re-sequencing of Giardia genomes and de novo assembly of a new Giardia isolate | |
Thornlow | Evolutionary Genomics of Transfer RNA Genes and SARS-CoV-2 | |
Gao et al. | A theoretical base for non-invasive prenatal paternity testing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |