CN113035277A

CN113035277A - 真菌基因组测序数据自动分析方法及系统

Info

Publication number: CN113035277A
Application number: CN202110271328.7A
Authority: CN
Inventors: 刘健; 孙嘉良; 陈娇
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2021-03-12
Filing date: 2021-03-12
Publication date: 2021-06-25

Abstract

本公开提供了一种真菌基因组测序数据自动分析方法及系统，包括：获取真菌基因组测序数据，判断测序数据类型；根据测序数据的类型分别进行相应预处理；将预处理后的测序数据进行组装，得到组装后的contigs；基于基因组序列对比对contigs的相似参考基因组进行初步筛选，获得候选参考基因组；利用MinHash数据结构从候选参考基因组中估算所述contigs的相似参考基因组，实现真菌基因组鉴定；并利用获得的相似参考基因组对所述contigs进行下游分析；实现真菌基因组测序数据的自动分析；所述方案基于序列比对和MinHash数据结构对真菌全基因组进行鉴定，可以在实现对真菌种类进行鉴定的同时，找到与真菌同源性最高的参考基因组，从而便于下游分析。

Description

真菌基因组测序数据自动分析方法及系统

技术领域

本公开属于基因测序技术领域，尤其涉及一种真菌基因组测序数据自动分析方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

真菌感染的发病率和死亡率急剧上升，已引起医学界越来越多的关注。虽然病原真菌的危害已引起广泛关注，但目前人类对病原真菌的认识远不如细菌和病毒，对真菌基因组的研究还需要进一步深入。

测序技术的广泛应用有效地促进了微生物学等相关领域的技术进步。发明人发现，目前，一些用于基因测序数据分析的分析方法和软件工具已经出现。然而这些工作主要致力于真菌的内转录间隔区(ITS，Internal Transcribed Spacer)和真菌的群落、宏基因组相关的分析。目前，还缺乏高效、准确的真菌全基因组测序数据分析方法和相应的自动分析工作流，特别是缺乏足够的真菌基因组鉴定和功能注释方法；同时，在真菌基因组鉴定的过程中，现有方法无法准确合理的获得测序数据的相似参考基因组，导致基因组鉴定结果精确度不高的问题。

发明内容

本公开为了解决上述问题，提供了一种真菌基因组测序数据自动分析方法及系统，所述方案基于序列比对和MinHash数据结构对真菌全基因组进行鉴定，可以在实现对真菌种类进行鉴定的同时，找到与真菌同源性最高的参考基因组，从而便于下游分析。

根据本公开实施例的第一个方面，提供了一种真菌基因组测序数据自动分析方法，包括：

获取真菌基因组测序数据，判断测序数据类型；

根据测序数据的类型分别进行相应预处理；

将预处理后的测序数据进行组装，得到组装后的contigs；

基于基因组序列对与contigs比对的相似参考基因组进行初步筛选，获得候选参考基因组；

利用MinHash数据结构从候选参考基因组中估算所述contigs的相似参考基因组，实现真菌基因组鉴定；并利用获得的相似参考基因组对所述contigs进行下游分析；实现真菌基因组测序数据的自动分析。

进一步的，所述基因组序列比对具体包括：构建真菌参考基因组数据集，并建立真菌参考基因组数据集的索引；对于组装后的contigs，与所述真菌参考基因组数据集进行基因组比对；根据比对结果计算相似参考基因组的分数，根据所述分数进行相似参考基因组的初步筛选。

进一步的，利用MinHash数据结构从候选参考基因组中估算所述contigs的相似参考基因组，具体包括：将contigs序列片段和所有候选参考基因组中的序列片段剪切成预设长度的小片段后存入哈希表中；然后计算两个哈希表的相似度，将相似度最高的候选参考基因组作为相似的参考基因组。

根据本公开实施例的第二个方面，提供了一种真菌基因组测序数据自动分析系统，包括：

数据获取单元，其用于获取真菌基因组测序数据，判断测序数据类型；

预处理单元，其用于根据测序数据的类型分别进行相应预处理；

相似参考基因组鉴定单元，其用于将预处理后的测序数据进行组装，得到组装后的contigs，基于基因组序列对比对contigs的相似参考基因组进行初步筛选，获得候选参考基因组；利用MinHash数据结构从候选参考基因组中估算所述contigs的相似参考基因组；

自动分析单元，其用于实现真菌基因组鉴定；并利用获得的相似参考基因组对所述contigs进行下游分析；实现真菌基因组测序数据的自动分析。

进一步的，所述真菌基因组测序数据自动分析系统还包括真菌基因组注释单元，其用于根据测序数据类型分别利用相应注释工具对真菌基因组进行注释。

根据本公开实施例的第三个方面，提供了一种计算机可读指令，该指令被处理器执行时实现所述的一种真菌基因组测序数据自动分析方法。

与现有技术相比，本公开的有益效果是：

(1)本公开提出针对真菌全基因组的鉴定和注释方法，可以对单个真菌全基因组进行鉴定的同时还可以对其进行功能注释，实现了对真菌的多个角度的分析的整合。

(2)本公开的真菌全基因组鉴定和注释方法，实现将来源不同的，长度和质量不同的真菌基因组测序数据进行分析流程的统一，对于不同的二代基因组测序数据和三代基因组测序数据可以在一个工作流中实现分析。

(3)本公开的真菌鉴定方法，实现基于序列比对和MinHash数据结构对真菌全基因组进行鉴定，使用MinHash数据结构对真菌全基因组进行鉴定的优势在于可以在实现对真菌种类进行鉴定的同时，找到与真菌同源性最高的参考基因组，从而便于下游分析。

本公开附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为本公开实施例一中所述的真菌基因组测序数据自动分析方法流程图，包括序列预处理(上)、参考基因组鉴定(中)和真菌基因组注释(下)三个模块；

图2为本公开实施例一中所述的利用MinHash结构对真菌基因组剪切和存储的方法的流程图

具体实施方式

下面结合附图与实施例对本公开做进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

实施例一：

本实施例的目的是提供一种真菌基因组测序数据自动分析方法。

一种真菌基因组测序数据自动分析方法，包括：

获取真菌基因组测序数据，判断测序数据类型；

根据测序数据的类型分别进行相应预处理；

将预处理后的测序数据进行组装，得到组装后的contigs；

基于基因组序列对比对contigs的相似参考基因组进行初步筛选，获得候选参考基因组；

进一步的，所述基因组序列对比具体包括：构建真菌参考基因组数据集，并建立真菌参考基因组数据集的索引；对于组装后的contigs，与所述真菌参考基因组数据集进行基因组比对；根据比对结果计算相似参考基因组的分数，根据所述分数进行相似参考基因组的初步筛选。

进一步的，利用MinHash数据结构从候选参考基因组中估算所述contigs的相似参考基因组，具体包括：将contigs序列片段和所有候选参考基因组中的序列片段剪切成预设长度的小片段后存入哈希表中；然后计算两个序列片段存入的哈希表的相似度，将相似度最高的候选参考基因组作为相似的参考基因组。

所述数据类型包括短读长测序数据(二代测序数据)和长读长测序数据(三代测序数据)。

相应的，为了便于理解，以下结合附图对本公开所述方案进行详细说明：

如图1所示，展示了本公开所述方案的主要流程，包含了序列预处理，参考基因组鉴定，和基因组注释三个部分。在输入真菌基因组测序数据后，本公开首先判别要使用二代测序数据分析模式还是三代测序数据分析模式，然后将数据输入到序列预处理阶段。序列预处理阶段分为三个步骤：序列质量评估、序列质量控制(序列修剪)和质量控制后的序列质量评估。获得高质量的真菌测序数据后，程序进入到鉴定模块，鉴定模块同样也分三步：序列组装、序列比对和相似参考基因组鉴定。最后是可选的注释阶段，包含三种注释方式：基于参考基因组的CDS(Coding sequence)注释、使用prokka注释和多位点序列分型(Multi-Locus Sequence Typing，MLST)注释，以下进行详细说明：

(1)序列预处理

在真菌基因组测序过程中，测序仪可能生成低质量的序列，这意味着这些序列中可能包含错误的碱基。在序列预处理阶段中，本公开首先评估输入的真菌基因组测序数据的质量，生成一个包含高质量碱基占比、平均质量、GC含量等指标的质量评估报告。然后在序列控制阶段，对输入序列进行去接头和引物序列、过滤低质量数据。这些操作是使用一些外部软件完成的，这些外部软件包括fastp,FastQC,Trimmomatic,Cutadapt和Sickle。最后，经过质量控制的真菌基因组序列再次被评估质量并生成一个质量评估报告。对于序列预处理的过程，我们开发了一个脚本用于给用户自定义这些软件的组合和每个软件的参数。

(2)参考基因组鉴定

1)真菌基因组组装

参考基因组鉴定致力于鉴定输入真菌基因组序列的相似参考基因组。在数据预处理之后和进行鉴定之前，本工作流首先将质量控制之后的真菌基因组序列组装起来，本工作流囊括了四种主流的组装软件：MEGAHIT、Velvet、SPAdes和Canu。这些软件也有一个接口脚本使用户可以选择想要使用的软件并自定义软件的参数。得到组装后的contigs后，本工作流运行一个组装质量评估程序来生成一个组装质量评估报告，包含总contigs长度、N50、contigs的平均长度等评估指标，这些指标可以评判组装质量，从而可以用来判断使用contigs的后续分析的可信度。

2)基因组序列比对

为了提供一个真菌参考基因组数据集用于输入的真菌基因组序列的比对。我们编写了一个真菌参考基因组数据集一键下载脚本用于将网络公共数据库中的真菌参考基因组数据集下载到本地(由于通过编写程序下载网络公共数据库是本领域技术人员采用的常规手段，故此处不再赘述)，并在本地建立真菌参考基因组数据集的索引用于快速比对，为了便于描述，后续将本地的真菌参考基因组数据集称为本地库。

对于组装好的contigs，本工作流使用BLAST直接将这些contigs与本地库中的参考基因组比对,比对结果中包含序列相似度(identity)、比对上的长度(alignmentlength)。使用包含这两个参数的公式可以初步筛选输入真菌基因组序列的参考基因组，具体公式如下：

其中，identity就是上述的序列相似度，alignmentLength是contigs与参考基因组对齐的长度，accessionVersion是可以与输入序列对齐的参考基因组的“序列号”，score是经计算得到的用于初步筛选相似参考基因组的分数。

在初步筛选后，工作流就进入相似参考基因组鉴定阶段。

3)相似参考基因组鉴定

在相似参考基因组鉴定阶段，我们称经过上述的初步筛选的真菌参考基因组为候选参考基因组。我们使用MinHash这种数据结构来估算contigs与候选参考基因组们之间的相似度。简单来说，这个方法首先将序列片段剪切成小片段(这些长度为k的小片段称为k-mers，此处的k的大小可根据实际需求进行设定)后存入哈希表中，这个过程如图2所示。然后将两个序列存入的哈希表的相似度计算出来，即可用来估算两个序列的相似度。这个哈希表间的相似度用Jaccard相似度来计算(Jaccard Index)。假设两个集合是A和B，那么Jaccard相似度就是

将包含contigs的哈希表与每个候选参考基因组的哈希表分别计算相似度后，就可以得到相似度最高的候选参考基因组作为相似的参考基因组，从而可以通过这个参考基因组的种类来判断真菌的种类，也可以用这个相似的参考基因组做下游分析。

(3)真菌基因组注释

本工作流程包含三种注释：CDS注释，使用prokka软件注释和MLST注释。在CDS注释中，对于真菌的二代测序数据，本工作流使用SNAP或Bowtie2软件将上文组装过程中得到的contigs与找到的相似参考基因组比对，对于真菌的三代测序数据，本工作流则使用Minimap2完成这个过程。通过比对得到的对齐起止位置和相似参考基因组对应的蛋白质注释文件中包含的CDS位置，本工作流就得到了相对于相似参考基因组的CDS注释信息。除CDS注释外，工作流中还整合了prokka软件用于注释，和mlst软件来结合PubMLST数据库注释序列分型信息。

进一步的，以上提到的工具软件均为本领域技术人员已知的，故此处不再赘述。

本公开所述方案给出了一种用户友好的真菌基因组自动鉴定和注释工作流程。对于真菌的全基因组测序数据，提供了一系列自动化分析步骤，包括预处理、基因组识别和基因组注释。特别地，对于真菌基因组鉴定的方法，提出了用序列比对和基于MinHash数据结构估算相似参考基因组的方法。此外，所述方案可以对Illumina、Ion Torrent、PacBio和Oxford Nanopore等平台生成的短、长读长的测序数据进行分析，提供了一种用户友好的方式来进行真菌鉴定和注释，并提供了准确的分析结果。

实施例二：

本实施例的目的是提供一种真菌基因组测序数据自动分析系统。

一种真菌基因组测序数据自动分析系统，包括：

进一步的，所述真菌基因组测序数据自动分析系统还包括真菌基因组注释单元，其用于根据测序数据类型分别利用相应注释工具对真菌基因组进行注释。在更多实施例中，还提供：

一种计算机可读指令，所述计算机指令被处理器执行时，完成实施例一中所述的方法。

实施例一中的方法可以直接体现为软件模块组合执行完成。该指令位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

上述实施例提供的一种真菌基因组测序数据自动分析方法及系统可以实现，具有广阔的应用前景。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.一种真菌基因组测序数据自动分析方法，其特征在于，包括：

获取真菌基因组测序数据，判断测序数据类型；

根据测序数据的类型分别进行相应预处理；

将预处理后的测序数据进行组装，得到组装后的contigs；

2.如权利要求1所述的一种真菌基因组测序数据自动分析方法，其特征在于，所述基因组序列对比具体包括：

构建真菌参考基因组数据集，并建立真菌参考基因组数据集的索引；

对于组装后的contigs，与所述真菌参考基因组数据集进行基因组比对；

根据比对结果计算相似参考基因组的分数，根据所述分数进行相似参考基因组的初步筛选。

3.如权利要求1所述的一种真菌基因组测序数据自动分析方法，其特征在于，利用MinHash数据结构从候选参考基因组中估算所述contigs的相似参考基因组，具体包括：将contigs序列片段和所有候选参考基因组中的序列片段剪切成预设长度的小片段后存入哈希表中；然后计算两个序列片段存入的哈希表的相似度，将相似度最高的候选参考基因组作为相似的参考基因组。

4.如权利要求1所述的一种真菌基因组测序数据自动分析方法，其特征在于，所述方法还包括真菌基因组注释，具体包括：

根据测序数据类型分别利用相应注释工具对真菌基因组进行处理；

通过比对得到的对齐起止位置和相似参考基因组对应的蛋白质注释文件中包含的CDS位置，自动获得相对于相似参考基因组的CDS注释信息。

5.如权利要求1所述的一种真菌基因组测序数据自动分析方法，其特征在于，所述预处理具体包括序列质量评估、序列质量控制和质量控制后的序列质量评估。

6.如权利要求1所述的一种真菌基因组测序数据自动分析方法，其特征在于，所述数据类型包括短读长测序数据和长读长测序数据。

7.一种真菌基因组测序数据自动分析系统，其特征在于，包括：

8.如权利要求7所述的一种真菌基因组测序数据自动分析系统，其特征在于，所述真菌基因组测序数据自动分析系统还包括真菌基因组注释单元，其用于根据测序数据类型分别利用相应注释工具对真菌基因组进行注释。

9.如权利要求7所述的一种真菌基因组测序数据自动分析系统，其特征在于，所述预处理具体包括序列质量评估、序列质量控制和质量控制后的序列质量评估。

10.一种计算机可读指令，其特征在于，该程序被处理器执行时实现如权利要求1-6任一项所述的一种真菌基因组测序数据自动分析方法。