CN113096736A

CN113096736A - 一种基于纳米孔测序的病毒实时自动分析方法及系统

Info

Publication number: CN113096736A
Application number: CN202110326137.6A
Authority: CN
Inventors: 杜鹏程; 余乐; 杨童茜
Original assignee: Beijing Yuansheng Kangtai Gene Technology Co ltd
Current assignee: Beijing Yuansheng Kangtai Gene Technology Co ltd
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2021-07-09
Anticipated expiration: 2041-03-26
Also published as: CN113096736B

Abstract

本发明公开了一种基于纳米孔测序的病毒实时自动分析方法及系统，包括：按照预设的时间间隔扫描测序数据存储文件夹中的文件，以确定新的测序数据文件；对每个新的测序数据文件进行完整性校验和格式处理，以确定待测文件；对所述待测文件中的每个测序读段数据进行数据清洗，以获取质量合格的第一测序读段数据；将每个第一测序读段数据与预设的病毒基因组参考序列进行比对，并根据第一比对结果筛选，以确定第二测序读段数据；将第二测序读段数据和已存储的测序读段数据进行合并，并和预设的病毒基因组参考序列进行比对，以获得第二比对结果；根据第二比对结果确定测序深度，根据测序深度确定参考基因组覆盖度，并根据参考基因组覆盖度确定分析结果。

Description

一种基于纳米孔测序的病毒实时自动分析方法及系统

技术领域

本发明涉及信息技术领域，并且更具体地，涉及一种基于纳米孔测序的病毒实时自动分析方法及系统。

背景技术

使用高通量测序方法检测病原体核酸序列提供病原学依据，目前已成为感染性疾病诊断中的常用方法之一。其一般过程包括，提取样本核酸序列，进行或不进行特定基因靶点的聚合酶链反应扩增，随后构建测序文库进行序列检测，将检测到的核酸序列与目标病原体的参比基因或基因组序列进行比对分析，根据设定的检测阈值，判断是否存在该病原体。

现有的基于一代Sanger法、二代边合成边测序的测序原理的测序仪，其常规运行模式均为一次测序过程结束后，测序产生的核酸序列数据一次性产出，数据分析过程在测序结束后进行，无需在测序仪运行过程中考虑数据分析问题，但由此导致了总体的病原检测时长必须大于测序仪的单次运行时长。纳米孔测序技术革命性地实现了实时测序、核酸序列数据在测序仪运行过程中持续产出，从而形成了不间断的“数据流”的获取。因此，这种数据产出模式为在测序过程中开展核酸序列数据实时分析提供了基础，使得病原检测的时限能够突破测序仪运行时间的限制实现进一步缩短，在感染性疾病病原体检测，尤其是重症感染患者的样本检测等对时效性要求较高的场景中具有广阔的应用前景。

为实现在纳米孔测序仪开始运行后，针对实时产出的核酸序列数据流的持续分析，需构建数据完整性检测、数据拆分/合并、分析结果合并、多线程处理和检测结果判定等技术体系。目前，已经实现这种纳米孔测序实时数据分析模式的软件有WIMP(What’s in MyPot？)工作流程，该WIMP工作流程，需使用相应的纳米孔测序平台，并且在测序过程中进行数据实时分析时，需要将数据上传至公司的云服务器。这种使用方式一方面由于测序获得的数据量较大(单张芯片～300Mb/小时)，受限于网络传输条件，在不同地区可能具有不同的使用效果体验；另一方面由于人类遗传资源管理的相关政策要求以及病原体等数据较为敏感，该流程在特定情况下也不便使用。此外，该方法目前仅集成了Centrifuge物种快速鉴定软件，由于使用单一的快速比对算法其准确性受限，而针对病毒等变异度较高的病原体需要采用更为精确的比对方法。

发明内容

本发明提出一种基于纳米孔测序的病毒实时自动分析方法及系统，以解决如何实时地准确进行病毒分析的问题。

为了解决上述问题，根据本发明的一个方面，提供了一种基于纳米孔测序的病毒实时自动分析方法，所述方法包括：

对检测样本对应的测序数据存储文件夹进行监控，按照预设的时间间隔扫描所述测序数据存储文件夹中的文件，确定扫描文件列表，并将所述扫描文件列表和已分析文件列表进行比对，以确定至少一个新的测序数据文件；

对每个新的测序数据文件进行完整性校验，并按照预设的格式处理策略对所有的通过完整性校验的新的测序数据文件进行处理，以确定待测文件；

按照预设的数据清洗策略对所述待测文件中的每个测序读段数据进行数据清洗，以获取至少一个质量合格的第一测序读段数据；

将所述至少一个质量合格的第一测序读段数据中的每个第一测序读段数据与预设的病毒基因组参考序列进行比对，以获取每个第一测序读段数据对应的第一比对结果，并根据第一比对结果按照预设的筛选策略进行测序读段数据的筛选，以确定可比对至所述预设的病毒基因组参考序列的至少一个第二测序读段数据；

将所述至少一个第二测序读段数据和已存储的可比对至所述预设的病毒基因组参考序列的测序读段数据进行合并，以获取至少一个第三测序读段数据，并将所述至少一个第三测序读段数据和预设的病毒基因组参考序列进行比对，以获取每个第三测序读段数据对应的第二比对结果；

根据每个第三测序读段数据对应的第二比对结果确定所述预设的病毒基因组参考序列的各个碱基位置上的测序深度，根据测序深度大于等于预设测序深度阈值的碱基位置总数和病毒基因组参考序列的碱基总数的比值确定参考基因组覆盖度，并根据所述参考基因组覆盖度确定分析结果。

优选地，其中所述对每个新的测序数据文件进行完整性校验，并按照预设的格式处理策略对所有的通过完整性校验的新的测序数据文件进行处理，以确定待测文件，包括：

对于任一个新的测序数据文件，判断该任一个新的测序数据文件中的数据行数是否满足大于等于预设的测序读段数量阈值，若满足，则确定该任一个新的测序数据文件通过完整性校验；若不满足，则确定该任一个新的测序数据文件未通过完整性校验；

将所有的通过完整性校验的新的测序数据文件的文件名称添加到所述已分析文件列表中，作为后续判断是否存在新的测序数据文件的依据，并根据新的测序数据文件的格式对所有的通过完整性校验的新的测序数据文件进行合并和/或压缩处理，以确定待测文件。

优选地，其中所述按照预设的数据清洗策略对所述待测文件中的每个测序读段数据进行数据清洗，以获取至少一个质量合格的第一测序读段数据，包括：

利用Nanofilt确定所述待测文件中的每个测序读段数据的测序读段数据质量，并筛选出测序读段数据质量满足预设的测序读段数据质量标准的每个测序读段数据均作为第一测序读段数据。

优选地，其中所述根据第一比对结果按照预设的筛选策略进行测序读段数据的筛选，以确定可比对至所述预设的病毒基因组参考序列的至少一个第二测序读段数据，包括：

对于任一个第一测序读段数据，筛选该任一个第一测序读段数据对应的第一比对结果中得分最高的比对结果，并判断筛选出的比对结果是否满足比对长度比例大于等于预设的比对长度比例阈值，且碱基序列相似度大于等于预设的相似度阈值，且比对期望值小于等于预设的比对期望阈值；若满足，则确定该任一个第一测序读段数据为可比对至所述预设的病毒基因组参考序列的一个第二测序读段数据。

优选地，其中所述根据所述参考基因组覆盖度确定分析结果，包括：

判断所述参考基因组覆盖度是否满足大于等于预设的参考基因组覆盖度阈值，若满足，则确定所述分析结果为阳性，表示所述检测样本中存在与所述预设的病毒基因组参考序列对应的病毒；若不满足，则确定所述分析结果为阴性，表示所述检测样本中不存在与所述预设的病毒基因组参考序列对应的病毒。

优选地，其中所述方法还包括：

当所述分析结果指示检测样本中存在与所述预设的病毒基因组参考序列对应的病毒或检测时长达到预设的检测时长时，停止检测。

根据本发明的另一个方面，提供了一种基于纳米孔测序的病毒实时自动分析系统，所述系统包括：

新的测序数据文件确定单元，用于对检测样本对应的测序数据存储文件夹进行监控，按照预设的时间间隔扫描所述测序数据存储文件夹中的文件，确定扫描文件列表，并将所述扫描文件列表和已分析文件列表进行比对，以确定至少一个新的测序数据文件；

待测文件确定单元，用于对每个新的测序数据文件进行完整性校验，并按照预设的格式处理策略对所有的通过完整性校验的新的测序数据文件进行处理，以确定待测文件；

数据清洗单元，用于按照预设的数据清洗策略对所述待测文件中的每个测序读段数据进行数据清洗，以获取至少一个质量合格的第一测序读段数据；

第一比对单元，用于将所述至少一个质量合格的第一测序读段数据中的每个第一测序读段数据与预设的病毒基因组参考序列进行精确序列比对，以获取每个第一测序读段数据对应的第一比对结果，并根据第一比对结果按照预设的筛选策略进行测序读段数据的筛选，以确定可比对至所述预设的病毒基因组参考序列的至少一个第二测序读段数据；

第二比对单元，用于将所述至少一个第二测序读段数据和已存储的可比对至所述预设的病毒基因组参考序列的测序读段数据进行合并，以获取至少一个第三测序读段数据，并将所述至少一个第三测序读段数据和预设的病毒基因组参考序列进行比对，以获取每个第三测序读段数据对应的第二比对结果；

分析结果确定单元，用于根据每个第三测序读段数据对应的第二比对结果确定所述预设的病毒基因组参考序列的各个碱基位置上的测序深度，根据测序深度大于等于预设测序深度阈值的碱基位置总数和病毒基因组参考序列的碱基总数的比值确定参考基因组覆盖度，并根据所述参考基因组覆盖度确定分析结果。

优选地，其中所述待测文件确定单元，对每个新的测序数据文件进行完整性校验，并按照预设的格式处理策略对所有的通过完整性校验的新的测序数据文件进行处理，以确定待测文件，包括：

优选地，其中所述数据清洗单元，按照预设的数据清洗策略对所述待测文件中的每个测序读段数据进行数据清洗，以获取至少一个质量合格的第一测序读段数据，包括：

优选地，其中所述第一比对单元，根据第一比对结果按照预设的筛选策略进行测序读段数据的筛选，以确定可比对至所述预设的病毒基因组参考序列的至少一个第二测序读段数据，包括：

优选地，其中所述分析结果确定单元，根据所述参考基因组覆盖度确定分析结果，包括：

优选地，其中所述系统还包括：

判断单元，用于当所述分析结果指示检测样本中存在与所述预设的病毒基因组参考序列对应的病毒或检测时长达到预设的检测时长时，停止检测。

本发明提供了一种基于纳米孔测序的病毒实时自动分析方法及系统，能够有效处理纳米孔测序实时下机的数据流，对设定的病毒序列进行实时检测分析，能够在纳米孔测序的过程中实时开展病毒序列的检测，能够有效缩短检测时间，尽早识别病原体、及时为临床诊断提供依据，具有广阔的临床应用前景；相较于现有的WIMP工作流程，具有良好的开放性，支持基于本发明框架的二次开发应用，能够为临床中基于第三代纳米孔测序技术的各种实时检测应用场景提供基础平台。

附图说明

通过参考下面的附图，可以更为完整地理解本发明的示例性实施方式：

图1为根据本发明实施方式的基于纳米孔测序的病毒实时自动分析方法100的流程图；

图2为根据本发明实施方式的基于纳米孔测序的病毒实时自动分析方法的示例图；

图3为根据本发明实施方式的病毒检测分析报告的示意图；

图4为根据本发明实施方式的检测灵敏度和特异度的示意图；

图5为根据本发明实施方式的基于纳米孔测序的病毒实时自动分析系统500的结构示意图。

具体实施方式

现在参考附图介绍本发明的示例性实施方式，然而，本发明可以用许多不同的形式来实施，并且不局限于此处描述的实施例，提供这些实施例是为了详尽地且完全地公开本发明，并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中，相同的单元/元件使用相同的附图标记。

除非另有说明，此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外，可以理解的是，以通常使用的词典限定的术语，应当被理解为与其相关领域的语境具有一致的含义，而不应该被理解为理想化的或过于正式的意义。

图1为根据本发明实施方式的基于纳米孔测序的病毒实时自动分析方法100的流程图。如图1所示，本发明实施方式提供的基于纳米孔测序的病毒实时自动分析方法，能够有效处理纳米孔测序实时下机的数据流，对设定的病毒序列进行实时检测分析，能够在纳米孔测序的过程中实时开展病毒序列的检测，能够有效缩短检测时间，尽早识别病原体、及时为临床诊断提供依据，具有广阔的临床应用前景；相较于现有的WIMP工作流程，具有良好的开放性，支持基于本发明框架的二次开发应用，能够为临床中基于第三代纳米孔测序技术的各种实时检测应用场景提供基础平台。本发明实施方式提供的基于纳米孔测序的病毒实时自动分析方法100，从步骤101处开始，在步骤101对检测样本对应的测序数据存储文件夹进行监控，按照预设的时间间隔扫描所述测序数据存储文件夹中的文件，确定扫描文件列表，并将所述扫描文件列表和已分析文件列表进行比对，以确定至少一个新的测序数据文件。

本发明的方法针对纳米孔测序实时产生的核酸序列“数据流”，实现了对纳米孔测序产出数据流的灵活分段处理，通过在核酸序列持续产生过程中持续的数据分析和病毒序列识别，实现了针对分析起始所设定的检测目标病毒的实时检测分析。

在本发明中，在纳米孔测序仪启动测序后，首先设定检测样本对应的测序数据存储文件夹、分析结果输出文件夹、单个测序数据文件能够存储的最大的测序读段数量阈值、所检测病毒的基因组参比序列文件、相似度阈值、比对期望阈值、每轮分析的时间间隔和分析运行总时长等运行参数。

然后，对检测样本对应的测序数据存储文件夹进行监控，按照预设的时间间隔扫描所述测序数据存储文件夹中的文件，查看是否有新的测序数据文件产生。具体地，每隔所设定的时间间隔，扫描测序数据存储文件夹一次，读取.fastq和.fastq.gz格式文件的列表，确定扫描文件列表，并将扫描文件列表中的文件名称和存储于已分析文件列表中的程序记录的已分析的测序数据文件列表中的文件名称进行比较，存在于扫描文件列表但不在已分析文件列表中的文件名称对应的文件即为新的测序数据文件。其中，测序数据文件采用国际通用的标准FASTQ格式，支持gzip方法进行数据压缩以减少存储占用。

在步骤102，对每个新的测序数据文件进行完整性校验，并按照预设的格式处理策略对所有的通过完整性校验的新的测序数据文件进行处理，以确定待测文件。

在本发明中，在有新的数据文件生成时，检测新生成的测序数据文件的行数，判断是否达到设定的单个测序数据文件能够存储的测序读段数量阈值，以此来检查新生成的测序数据文件的完整性。对于任一个新的测序数据文件，若达到预设的测序读段数量阈值(例如，预设一个测序数据文件存储1000条测序读段，文件包含4000行)，则确定该任一个新的测序数据文件通过完整性校验；若不满足，则确定该任一个新的测序数据文件未通过完整性校验。

当存在至少一个新的测序数据文件通过完整性校验时，判断这些新生成的、完整的测序数据文件的文件格式，若为未压缩的FASTQ格式，则使用cat命令合并，使用gzip命令进行压缩；若为gzip格式的压缩文件，则使用cat命令直接合并，输出FASTQ.gz文件作为待测文件，用于后续分析，同时将这些新生成的测序数据文件的名称在已分析文件中进行记录，作为后续判别测序数据存储文件夹中是否有新生成的测序数据文件的依据。若无完整的、新生成的测序数据文件，则进入“等待”状态，直至到达下一扫描时间点开始下一次扫描。

在步骤103，按照预设的数据清洗策略对所述待测文件中的每个测序读段数据进行数据清洗，以获取至少一个质量合格的第一测序读段数据。

在本发明中，在确定FASTQ.gz格式的待测文件后，使用Nanofilt软件对待测文件中的测序数据文件进行质控检测和过滤，筛选测序读段数据质量满足测序读段数据质量标准的测序读段数据，作为质量合格的第一测序读段数据，并输出为FASTQ.gz格式的文件，用于后续分析。其中，测序读段数据质量准根据实际情况设置。例如：设置第一测序读段数据质量标准为Q≥10，即需要满足测序读段中所有碱基错误率均小于等于10％。其中，Q值根据碱基错误率利用公式Q＝-10×log₁₀P计算得到；其中，Q为质量值，P为某一碱基错误率。

在步骤104，将所述至少一个质量合格的第一测序读段数据中的每个第一测序读段数据与预设的病毒基因组参考序列进行精确序列比对，以获取每个第一测序读段数据对应的第一比对结果，并根据第一比对结果按照预设的筛选策略进行测序读段数据的筛选，以确定可比对至所述预设的病毒基因组参考序列的至少一个第二测序读段数据。

在本发明中，将上一步输出的FASTQ.gz文件中的测序读段编号及核酸序列进行提取，存储为第一个FASTA格式文件，并利用基本局部比对工具(Basic Local AlignmentSearch Tool，BLAST)将每个第一测序读段数据对应的FASTA格式文件与预设的病毒基因组参考序列文件进行精确序列比对，以获取每个第一测序读段数据对应的第一比对结果。然后，对于任一个第一测序读段数据，筛选该任一个第一测序读段数据对应的第一比对结果中得分最高的比对结果，并判断筛选出的比对结果是否满足比对长度比例大于等于预设的比对长度比例阈值，且碱基序列相似度大于等于预设的相似度阈值，且比对期望值小于等于预设的比对期望阈值；若满足，则确定该任一个第一测序读段数据为可比对至所述预设的病毒基因组参考序列的一个第二测序读段数据。其中，可以根据需求设置比对长度比例阈值为80％，设置相似度阈值为95％，比对期望阈值为10^-5。则读取BLAST分析结果，首先提取每个第一测序读段的比对得分最高的比对结果，然后对于每个第一测序读段数据再按照提取出的碱基序列的比对长度比例(alignment)大于等于预设的比对长度比例阈值80％、序列相似度(identity)大于等于预设的似度阈值95％，且比对期望值(E value)小于10^-5的条件进行筛选，将符合筛选条件的第一测序读段数据作为可比对至所述预设的病毒基因组参考序列的一个第二测序读段数据存储为第二个FASTA格式文件，从而实现确定可比对至所述预设的病毒基因组参考序列的至少一个第二测序读段数据。

在步骤105，将所述至少一个第二测序读段数据和已存储的可比对至所述预设的病毒基因组参考序列的测序读段数据进行合并，以获取至少一个第三测序读段数据，并将所述至少一个第三测序读段数据和预设的病毒基因组参考序列进行比对，以获取每个第三测序读段数据对应的第二比对结果。

在步骤106，根据每个第三测序读段数据对应的第二比对结果确定所述预设的病毒基因组参考序列的各个碱基位置上的测序深度，根据测序深度大于等于预设测序深度阈值的碱基位置总数和病毒基因组参考序列的碱基总数的比值确定参考基因组覆盖度，并根据所述参考基因组覆盖度确定分析结果。

在本发明中，将上一步骤筛选得到的可比对至病毒基因组参考序列的第二测序读段数据，与此前的各轮数据分析中筛选获得的所有可比对至病毒基因组参考序列的测序读段进行合并，以获取至少一个第三测序读段数据，并使用Minimap2软件将截至目前获得的所有可比对至病毒基因组参考序列的测序读段与病毒基因组参考序列进行比对，获取每一个测序读段数据对应的第二比对结果，每个测序读段数据对应的第二比对结果共同存储与SAM格式的一个文件中。

再使用Samtools软件处理SAM格式的比对结果文件，对于病基因组参考序列的每个碱基位置，统计可覆盖该位置的测序读段的数量，即为每个参考基因组碱基位置的测序深度D_i，再根据测序深度大于等于预设测序深度阈值的碱基位置总数和病毒基因组参考序列的碱基总数的比值确定参考基因组覆盖度，并判断所述参考基因组覆盖度是否满足大于等于预设的参考基因组覆盖度阈值，若满足，则确定所述分析结果为阳性，表示所述检测样本中存在与所述预设的病毒基因组参考序列对应的病毒；若不满足，则确定所述分析结果为阴性，表示所述检测样本中不存在与所述预设的病毒基因组参考序列对应的病毒。例如，若设置测序深度阈值为5，预设的参考基因组覆盖度阈值为10％，则判断测序深度D_i≥5的参考基因组覆盖度C₅是否大于等于10％，若C₅≥10％，则判断为阳性；若C₅<10％，则判断为阴性。

在本发明中，还能够根据产生分析报告，分析报告包括来源于病毒的测序读段总数、全部检出的基因组碱基位置的总覆盖度C、平均测序深度Dm、根据测序深度大于等于预设测序深度阈值5的碱基位置总数和病毒基因组参考序列的碱基总数的比值确定的参考基因组覆盖度C₅以及分析结果，并绘制来源于病毒的测序读段比对到参考基因组上的位置分布图，作为病毒检出情况的参考信息。

其中，对于病毒基因组参考序列的每个碱基位置，统计可覆盖该位置的测序读段的数量，即为每个参考基因组碱基位置的测序深度D_i，将测序深度D_i≥1的碱基位置的测序深度求和再除以序深度D_i≥1的碱基位置的个数即可得到平均测序深度D_m。

统计所有分析检测到的基因组碱基位置的总数，并除以病毒基因组参考序列的总碱基数，即可得到参考基因组覆盖度C。

统计测序深度D_i≥5的参考基因组碱基位置的总数，并除以参考基因组总碱基数，即可得到测序深度D_i≥5的参考基因组覆盖度C₅。

优选地，其中所述方法还包括：

在本发明中，为了防止漫无目的的检测，还可以在当所述分析结果指示检测样本中存在与所述预设的病毒基因组参考序列对应的病毒或检测时长达到预设的检测时长时(检测时长可根据经验或预实验确定，例如24小时)，停止检测。在当所述分析结果未指示检测样本中存在与所述预设的病毒基因组参考序列对应的病毒或检测时长未达到预设的检测时长时，返回步骤101继续检测。

图2为根据本发明实施方式的基于纳米孔测序的病毒实时自动分析方法的示例图。如图2所示，自动分析过程包括：启动分析程序进行自定义设置，包括设定数据存储文件夹、输出文件夹、病毒基因组参考序列文件和分析时长等；扫描数据存储文件夹以检测新的测序数据文件，并判断是否有完整的新增测序数据文件；若存在，则对新增数据进行合并，然后使用Nanofilt进行数据质控分析，筛选出测序读段质量大于Q10的进行保留，并存储读段序列至passed.fastq.gz文件中；提取读段序列为FASTA格式，并使用BLAST与参考序列进行比对，提取每个第一测序读段的比对得分最高的比对结果，然后再按照提取出的比对结果的比对长度比例(alignment)大于等于预设的比对长度比例阈值80％、序列相似度(identity)大于等于预设的似度阈值95％，且比对期望值(Evalue)小于10^-5的条件进行测序读段数据的筛选；将截止目前筛选出的测序读段数据(包括此次筛选出的测序读段数据和已存储的上次分析过程中筛选出的可比对至所述预设的病毒基因组参考序列的测序读段数据)进行合并，再基于Minimap2将合并后的测序读段数据与病毒基因组参考序列进行比对，根据比对结果确定覆盖度，并根据覆盖度确定分析结果；判断运行时长是否达到预设分析时长，若达到则停止。

与现有技术相比，本发明提出的技术方案中建立了基于纳米孔实时测序数据的开放式分析计算框架和系统，能够有效处理纳米孔测序实时下机的数据流，实现实时数据分析和结果合并汇总。相较于目前针对一代、二代数据开发的软件系统，实现了实时数据处理和分析功能；相较于牛津纳米孔技术公司的WIMP工作流程，本系统具有良好的开放性，支持基于本框架的二次开发应用，为临床中基于纳米孔测序技术的各种实时检测应用场景提供了基础平台。该系统能够在纳米孔测序的过程中实时开展病毒序列的检测，能够有效缩短检测时间，尽早识别病原体、及时为临床提供治疗依据，具有广阔的临床应用前景。根据本发明的方法通过在86份临床样本和27份阴性对照样本中检测某病毒病毒进行评估，如图3所示，该病毒的基因组序列总碱基数为29903bp，测到的该病毒序列覆盖的总长度为25520bp，覆盖度为85.34％，平均深度为273.98×，如图4所示，本发明方法的灵敏度可达到96.5％，特异度可达到100％。

图5为根据本发明实施方式的基于纳米孔测序的病毒实时自动分析系统500的结构示意图。如图5所示，本发明实施方式提供的基于纳米孔测序的病毒实时自动分析系统500，包括：新的测序数据文件确定单元501、待测文件确定单元502、数据清洗单元503、第一比对单元504、第二比对单元505和分析结果确定单元506。

优选地，所述新的测序数据文件确定单元501，用于对检测样本对应的测序数据存储文件夹进行监控，按照预设的时间间隔扫描所述测序数据存储文件夹中的文件，确定扫描文件列表，并将所述扫描文件列表和已分析文件列表进行比对，以确定至少一个新的测序数据文件。

优选地，所述待测文件确定单元502，用于对每个新的测序数据文件进行完整性校验，并按照预设的格式处理策略对所有的通过完整性校验的新的测序数据文件进行处理，以确定待测文件。

优选地，其中所述待测文件确定单元502，对每个新的测序数据文件进行完整性校验，并按照预设的格式处理策略对所有的通过完整性校验的新的测序数据文件进行处理，以确定待测文件，包括：

优选地，所述数据清洗单元503，用于按照预设的数据清洗策略对所述待测文件中的每个测序读段数据进行数据清洗，以获取至少一个质量合格的第一测序读段数据。

优选地，其中所述数据清洗单元503，按照预设的数据清洗策略对所述待测文件中的每个测序读段数据进行数据清洗，以获取至少一个质量合格的第一测序读段数据，包括：

优选地，所述第一比对单元504，用于将所述至少一个质量合格的第一测序读段数据中的每个第一测序读段数据与预设的病毒基因组参考序列进行精确序列比对，以获取每个第一测序读段数据对应的第一比对结果，并根据第一比对结果按照预设的筛选策略进行测序读段数据的筛选，以确定可比对至所述预设的病毒基因组参考序列的至少一个第二测序读段数据。

优选地，其中所述第一比对单元504，根据第一比对结果按照预设的筛选策略进行测序读段数据的筛选，以确定可比对至所述预设的病毒基因组参考序列的至少一个第二测序读段数据，包括：

优选地，所述第二比对单元505，用于将所述至少一个第二测序读段数据和已存储的可比对至所述预设的病毒基因组参考序列的测序读段数据进行合并，以获取至少一个第三测序读段数据，并将所述至少一个第三测序读段数据和预设的病毒基因组参考序列进行比对，以获取每个第三测序读段数据对应的第二比对结果。

优选地，所述分析结果确定单元506，用于根据每个第三测序读段数据对应的第二比对结果确定所述预设的病毒基因组参考序列的各个碱基位置上的测序深度，根据测序深度大于等于预设测序深度阈值的碱基位置总数和病毒基因组参考序列的碱基总数的比值确定参考基因组覆盖度，并根据所述参考基因组覆盖度确定分析结果。

优选地，其中所述分析结果确定单元506，根据所述参考基因组覆盖度确定分析结果，包括：

优选地，其中所述系统还包括：

本发明的实施例的基于纳米孔测序的病毒实时自动分析系统500与本发明的另一个实施例的基于纳米孔测序的病毒实时自动分析方法100相对应，在此不再赘述。

已经通过参考少量实施方式描述了本发明。然而，本领域技术人员所公知的，正如附带的专利权利要求所限定的，除了本发明以上公开的其他的实施例等同地落在本发明的范围内。

通常地，在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释，除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例，除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行，除非明确地说明。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于纳米孔测序的病毒实时自动分析方法，其特征在于，所述方法包括：

将所述至少一个质量合格的第一测序读段数据中的每个第一测序读段数据与预设的病毒基因组参考序列进行精确序列比对，以获取每个第一测序读段数据对应的第一比对结果，并根据第一比对结果按照预设的筛选策略进行测序读段数据的筛选，以确定可比对至所述预设的病毒基因组参考序列的至少一个第二测序读段数据；

2.根据权利要求1所述的方法，其特征在于，所述对每个新的测序数据文件进行完整性校验，并按照预设的格式处理策略对所有的通过完整性校验的新的测序数据文件进行处理，以确定待测文件，包括：

3.根据权利要求1所述的方法，其特征在于，所述按照预设的数据清洗策略对所述待测文件中的每个测序读段数据进行数据清洗，以获取至少一个质量合格的第一测序读段数据，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据第一比对结果按照预设的筛选策略进行测序读段数据的筛选，以确定可比对至所述预设的病毒基因组参考序列的至少一个第二测序读段数据，包括：

5.根据权利要求1所述的方法，其特征在于，所述据所述参考基因组覆盖度确定分析结果，包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.一种基于纳米孔测序的病毒实时自动分析系统，其特征在于，所述系统包括：

8.根据权利要求7所述的系统，其特征在于，所述待测文件确定单元，对每个新的测序数据文件进行完整性校验，并按照预设的格式处理策略对所有的通过完整性校验的新的测序数据文件进行处理，以确定待测文件，包括：

9.根据权利要求7所述的系统，其特征在于，所述数据清洗单元，按照预设的数据清洗策略对所述待测文件中的每个测序读段数据进行数据清洗，以获取至少一个质量合格的第一测序读段数据，包括：

10.根据权利要求7所述的系统，其特征在于，所述第一比对单元，根据第一比对结果按照预设的筛选策略进行测序读段数据的筛选，以确定可比对至所述预设的病毒基因组参考序列的至少一个第二测序读段数据，包括：

11.根据权利要求7所述的系统，其特征在于，所述根据所述参考基因组覆盖度确定分析结果，包括：

12.根据权利要求7所述的系统，其特征在于，所述系统还包括：