CN113345522A

CN113345522A - 基于一代测序技术的自动化菌种鉴定方法、系统、终端及介质

Info

Publication number: CN113345522A
Application number: CN202110645390.8A
Authority: CN
Inventors: 胡万金; 黄龙; 马贝贝
Original assignee: Shanghai Majorbio Bio Pharm Technology Co ltd
Current assignee: Shanghai Majorbio Bio Pharm Technology Co ltd
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2021-09-03
Anticipated expiration: 2041-06-10
Also published as: CN113345522B

Abstract

本发明的基于一代测序技术的自动化菌种鉴定方法、系统、终端及介质，通过依次搭建的文件格式检查、序列长度质控、峰图文件的杂峰判定、序列拼接和数据库比对流程进行自动化菌种鉴定，本方案提供了完整的过滤质控方法来判定一代测序数据的质量，减少了工作运行的时间，提高了处理项目的效率，并且提高了鉴定的准确性；并整合了对一代测序各数据处理方式的优势，做到了批量化处理一代测序数据，并提供了后续更为重要的菌种鉴定功能，使得一代测序菌种鉴定的功能更加完善；更首次做到一代测序菌种鉴定流程自动化，极大的提高了工作效率。

Description

基于一代测序技术的自动化菌种鉴定方法、系统、终端及介质

技术领域

本发明一代测序技术领域，特别是涉及一种基于一代测序技术的自动化菌种鉴定方法、系统、终端及介质。

背景技术

一代测序技术，即双脱氧链终止法测序法，该技术自1977年Sanger发明以来，因其测序读长(read length)长、准确性高(测序准确度高达99.999％)的优点，被认为是“测序金标准”。通过一代测序技术进行菌种鉴定是比传统生化鉴定更加快速，准确的鉴定方法。一代测序技术利用荧光信号标记ddNTP(双脱氧核苷三磷酸)后，可以直接通过检测荧光信号得到整条序列的信息，输出的测序数据为ab1格式的峰图文件，使用专门的软件查看测序数据并导出对应的fasta序列文件，然后对序列进行拼接并与数据库比对从而获得菌种鉴定信息。以上分析过程是一代测序菌种鉴定的一般步骤。

在此背景下，ab1峰图鉴定的准确性和高效性是进行后续菌种鉴定的基础，但是目前ab1峰图文件的判别方式以人工为主，这样的方式受到判别人的影响，不同的人识别同一个ab1峰图文件可能得到不同的结论，判定没有明确的指标，结果准确性难以得到保证。而且人工识别峰图的方式也会使得效率上存在很大的限制。除此之外，目前一代测序菌种鉴定的一般分析过程效率较低，从ab1峰图文件的鉴定到序列的拼接，再到数据库的比对，每个过程都需要单独的软件进行操作，在没有自动化流程的情况下，使用一代测序进行菌种鉴定的效率是很低的。

目前，还没有报道完整的一代测序自动化菌种鉴定的流程方法，但是与之相关的，在一代测序ab1峰图数据鉴定方面的相关技术方法主要分为了两类：

1.Chromas和SnapGene等具有图形用户界面的软件

一代测序的ab1峰图的查看识别，目前主要是人工利用Chromas和SnapGene等图形用户界面的软件，通过图形界面工具栏的小工具操作，对峰图文件的不同位置进行查看，进而判定该峰图是正常或者污染，并输出对应的序列文件。

但是，利用上述软件对一代测序数据鉴定存在的缺点如下：

(1)软件操作不便捷：ab1峰图文件作为一种特殊格式的文件类型，查看和判定都需要安装特定的软件，在实际操作上较为复杂，而且像SnapGene软件还需要收取费用；

(2)缺少标准判定指标：通过人工鉴定ab1峰图文件的方法，准确性难以得到保障，不同的人在鉴定时候，标准难以统一，导致结果准确率低，并且存在错误鉴定的风险；

(3)限制工作效率：人工鉴定的方式对于一个ab1文件的鉴定需要消耗一定的时间，如果是样本量巨大的时候，这会大大限制工作效率；

(4)没有菌种鉴定功能：利用上述的这些软件只能得到测序的序列信息，对于菌种的鉴定还需其他软件进行操作。

2.R语言sangerseqR包和sangeranalyseR包

这两个R语言包涉及到的主要函数功能如表1所示：

表1 sangerseqR和sangeranalyseR的主要函数功能

但是，利用R语言的sangerseqR和sangeranalyseR包对一代测序数据鉴定的缺点在于：

(1)功能不完整：单独的R包函数可以实现一定的作用，例如ab1文件的基础处理，但是只能针对某一功能进行实现，所呈现的功能是不完整的；

(2)不能批量进行处理：R包的设计针对的是单个ab1文件进行操作，不能对批量多个样本进行处理；

(3)没有菌种鉴定功能：同样的，利用这两个R语言包进行处理时，发挥最大的功能是对ab1峰图文件的处理，但是不具备菌种鉴定的功能。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种基于一代测序技术的自动化菌种鉴定方法、系统、终端及介质，用于解决现有技术中没有针对于一代测序数据进行菌种鉴定功能的自动化菌种鉴定流程，并且在利用一代测序数据进行菌种鉴定的工作中，涉及到了很多软件方法，每个步骤都需要单独的操作，过程繁杂切效率低下，且菌种鉴定的准确性和效率不高等问题。

为实现上述目的及其他相关目的，本发明提供一种基于一代测序技术的自动化菌种鉴定方法，包括:对获取的一或多个样本分别所具有的两个峰图文件依次进行格式检查，并获得具有两个合格峰图文件的合格样本；对各合格样本中的两个合格峰图文件分别进行长度质控，获得各合格样本中对应各合格峰图文件的两端切割位点以及经过质控后分别对应各合格峰图文件的一端序列；基于对应合格样本中的各合格峰图文件的双端切割位点，分别对各合格峰图文件进行杂峰判定，以输出对应各合格峰图文件的杂峰鉴定结果；将经过质控后各合格样本分别对应两个合格峰图文件各自的一端序列进行序列拼接，并分别以一拼接样本文件进行储存并分别以一拼接样本文件进行储存；根据各拼接样本文件进行数据库比对，获得对应各合格样本的菌种鉴定结果。

于本发明的一实施例中，所述对获取的一或多个样本分别所具有的两个峰图文件依次进行格式检查，并获得具有两个合格峰图文件的合格样本包括：基于ab1格式判定条件，对经过一代测序获取的各的一或多个样本分别所具有的两个峰图文件依次进行格式检查；提取每个峰图文件均符合所述ab1格式判定条件的一或多个样本，以作为合格样本；其中，每个合格样本包括：两个合格峰图文件。

于本发明的一实施例中，所述对各合格样本中的两个合格峰图文件分别进行长度质控，获得各合格样本中对应各合格峰图文件的两端切割位点以及经过质控后分别对应各合格峰图文件的一端序列包括：利用R语言的sangeranalyseR软件包，分别对各合格样本中各合格峰图文件的序列两端不符合质控标准的碱基进行切割，获得获得各合格样本中对应各合格峰图文件的两端切割位点以及经过质控后分别对应各合格峰图文件的一端序列。

于本发明的一实施例中，所述基于对应合格样本中的各合格峰图文件的双端切割位点，分别对各合格峰图文件进行杂峰判定，以输出对应各合格峰图文件的杂峰鉴定结果包括：基于对应各合格样本的各合格峰图文件的双端切割位点，获得各合格峰图文件中的杂峰判定范围；对所述峰图文件中处于所述杂峰判定范围的碱基位置进行杂峰判断，并获得判断为杂峰的碱基位置的数量；根据判断为杂峰的碱基位置的数量以及所述杂峰判定范围，计算杂峰比例；基于杂峰比例阈值，对各所述杂峰比例进行杂峰污染判断，以输出对应各合格样本中各合格峰图文件的杂峰鉴定结果；其中，所述杂峰鉴定结果包括：对应未杂峰污染的未污染鉴定结果、对应杂峰污染的污染鉴定结果以及对应疑似杂峰污染的疑似污染鉴定结果中的一种或多种。

于本发明的一实施例中，所述将经过质控后各合格样本分别对应两个合格峰图文件各自的一端序列进行序列拼接，并分别以一拼接样本文件进行储存并分别以一拼接样本文件进行储存包括：利用PHRAP程序对经过质控后各合格样本分别对应两个合格峰图文件各自的一端序列进行序列拼接，并分别以一拼接样本文件进行储存。

于本发明的一实施例中，所述根据各拼接样本文件进行数据库比对，获得对应各合格样本的菌种鉴定结果包括：将各拼接样本文件进行整合，获得整合序列文件；利用BLAST工具和NT数据库，对所述整合序列文件进行序列相似性比对，以获得获得对应各样本的菌种鉴定结果

于本发明的一实施例中，所述方法还包括：对鉴定过程的所有数据进行整理，并生成结果文件夹；其中，所述结果文件夹包括：各合格样本中的各合格峰图文件、对应各合格峰图文件的杂峰鉴定结果、对应各合格样本的菌种鉴定结果、对应各合格样本的各拼接样本文件、各合格样本中对应各合格峰图文件的两端切割位点以及经过质控后分别对应各合格峰图文件的一端序列中的一种或多种。

为实现上述目的及其他相关目的，本发明提供一种基于一代测序技术的自动化菌种鉴定系统，所述系统包括：格式检查模块，用于对获取的一或多个样本分别所具有的两个峰图文件依次进行格式检查，并获得具有两个合格峰图文件的合格样本；序列长度质控模块，连接所述格式检查模块，用于对各合格样本中的两个合格峰图文件分别进行长度质控，获得各合格样本中对应各合格峰图文件的两端切割位点以及经过质控后分别对应各合格峰图文件的一端序列；杂峰判定模块，连接所述序列长度质控模块以及格式检查模块，用于基于对应合格样本中的各合格峰图文件的双端切割位点，分别对各合格峰图文件进行杂峰判定，以输出对应各合格峰图文件的杂峰鉴定结果；序列拼接模块，连接所述序列长度质控模块，用于将经过质控后各合格样本分别对应两个合格峰图文件各自的一端序列进行序列拼接，并分别以一拼接样本文件进行储存并分别以一拼接样本文件进行储存；数据库比对模块，连接所述序列拼接模块，用于根据各拼接样本文件进行数据库比对，获得对应各合格样本的菌种鉴定结果。

为实现上述目的及其他相关目的，本发明提供一种基于一代测序技术的自动化菌种鉴定终端，包括：存储器，用于存储计算机程序；处理器，用于执行所述的基于一代测序技术的自动化菌种鉴定方法。

为实现上述目标及其他相关目标，本申请提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被一个或多个处理器运行时执行所述的基于一代测序技术的自动化菌种鉴定方法。

如上所述，本发明是一种基于一代测序技术的自动化菌种鉴定方法、系统、终端及介质，具有以下有益效果：本发明通过依次搭建的文件格式检查、序列长度质控、峰图文件的杂峰判定、序列拼接和数据库比对流程进行自动化菌种鉴定，本方案与现有分析方案相比，主要优势在于：

1.相比于利用一些可视化软件对一代测序数据ab1峰图文件鉴定判别，本方案提供了完整的过滤质控方法来判定一代测序数据的质量，减少了工作运行的时间，提高了处理项目的效率，并且提高了鉴定的准确性；

2.相比于利用R语言包sangerseqR和sangeranalyseR对一代测序数据的处理，本方案在此基础上整合了彼此的优点，做到了批量化处理一代测序数据，并提供了后续更为重要的菌种鉴定功能，使得一代测序菌种鉴定的功能更加完善；

3.本方案是首次做到一代测序菌种鉴定流程自动化，极大的提高了工作效率，相比于传统的菌种鉴定方法，自动化的操作减少了90％的人工干预，还增加了一键化的结题报告生成，是一个适合于在企业生产活动中的标准模式方案。

附图说明

图1显示为本发明一实施例中的基于一代测序技术的自动化菌种鉴定方法的流程示意图。

图2显示为本发明一实施例中的存在格式问题的峰图文件示意图。

图3显示为本发明一实施例中的存在杂峰的峰图文件示意图。

图4显示为本发明一实施例中的基于一代测序技术的自动化菌种鉴定系统的结构示意图。

图5显示为本发明一实施例中的基于一代测序技术的自动化菌种鉴定终端的结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，在下述描述中，参考附图，附图描述了本发明的若干实施例。应当理解，还可使用其他实施例，并且可以在不背离本发明的精神和范围的情况下进行机械组成、结构、电气以及操作上的改变。下面的详细描述不应该被认为是限制性的，并且本发明的实施例的范围仅由公布的专利的权利要求书所限定。这里使用的术语仅是为了描述特定实施例，而并非旨在限制本发明。空间相关的术语，例如“上”、“下”、“左”、“右”、“下面”、“下方”、““下部”、“上方”、“上部”等，可在文中使用以便于说明图中所示的一个元件或特征与另一元件或特征的关系。

在通篇说明书中，当说某部分与另一部分“连接”时，这不仅包括“直接连接”的情形，也包括在其中间把其它元件置于其间而“间接连接”的情形。另外，当说某种部分“包括”某种构成要素时，只要没有特别相反的记载，则并非将其它构成要素，排除在外，而是意味着可以还包括其它构成要素。

其中提到的第一、第二及第三等术语是为了说明多样的部分、成分、区域、层及/或段而使用的，但并非限定于此。这些术语只用于把某部分、成分、区域、层或段区别于其它部分、成分、区域、层或段。因此，以下叙述的第一部分、成分、区域、层或段在不超出本发明范围的范围内，可以言及到第二部分、成分、区域、层或段。

再者，如同在本文中所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文中有相反的指示。应当进一步理解，术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组，但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的，或意味着任一个或任何组合。因此，“A、B或C”或者“A、B和/或C”意味着“以下任一个：A；B；C；A和B；A和C；B和C；A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时，才会出现该定义的例外。

本发明提供一种基于一代测序技术的自动化菌种鉴定方法，通过依次搭建的文件格式检查、序列长度质控、峰图文件的杂峰判定、序列拼接和数据库比对流程进行自动化菌种鉴定，本方案提供了完整的过滤质控方法来判定一代测序数据的质量，减少了工作运行的时间，提高了处理项目的效率，并且提高了鉴定的准确性；并整合了利用R语言包sangerseqR和sangeranalyseR对一代测序数据处理的优势，做到了批量化处理一代测序数据，并提供了后续更为重要的菌种鉴定功能，使得一代测序菌种鉴定的功能更加完善；更是首次做到一代测序菌种鉴定流程自动化，极大的提高了工作效率，相比于传统的菌种鉴定方法，自动化的操作减少了90％的人工干预，是一个适合于在企业生产活动中的标准模式方案。

下面以附图为参考，针对本发明的实施例进行详细说明，以便本发明所述技术领域的技术人员能够容易地实施。本发明可以以多种不同形态体现，并不限于此处说明的实施例。

如图1所示，展示本发明实施例中的基于一代测序技术的自动化菌种鉴定方法的流程示意图。

所述方法包括：

步骤S11：对获取的一或多个样本分别所具有的两个峰图文件依次进行格式检查，并获得具有两个合格峰图文件的合格样本。对获取的一或多个样本分别所具有的两个峰图文件依次进行格式检查，并获得具有两个合格峰图文件的合格样本。

可选的，一个样本对应两个峰图文件，一代测序是利用荧光信号标记ddNTP后，通过检测荧光信号来得到序列信息，因此在实际测序下机数据中会存在格式问题的数据，如图2所示，该峰图属于测序数据下机之后没有根据引物的信息进行正确的PCR终止所造成的，这样的峰图文件会导致最终输出序列和真实测序序列长度不一致，因此对峰图文件进行格式检查至关重要。步骤S11包括：基于ab1格式判定条件，对经过一代测序获取的各的一或多个样本分别所具有的两个峰图文件依次峰图文件进行格式检查；提取每个峰图文件均符合所述ab1格式判定条件的一或多个峰图文件样本，以作为合格峰图文件样本；其中，每个合格样本包括：两个合格峰图文件。

可选的，所述ab1格式判定条件包括格式条件以及数量条件。

可选的，利用执行datacheck.py程序，该程序对输入ab1峰图文件的格式和数量进行检查，如果通过则进行下一步，如果报错则需要对输入文件进行检查后重新上传。

步骤S12：对各合格样本中的两个合格峰图文件分别进行长度质控，获得各合格样本中对应各合格峰图文件的两端切割位点以及经过质控后分别对应各合格峰图文件的一端序列。对各合格样本中的两个合格峰图文件分别进行长度质控，获得各合格样本中对应各合格峰图文件的两端切割位点以及经过质控后分别对应各合格峰图文件的一端序列。

可选的，各合格样本中的两个合格峰图文件分别进行长度质控，且各合格样本中的每个合格峰图分别具有两端切割位点，且在按所述两端切割位点对各合格峰图文件进行切割之后，每个合格样本中的各合格峰图文件分别获得对应该合格样本的一端序列，即一个样本对应两个分别处于两端的一端序列。

可选的，格式检查合格的ab1峰图文件首先进行第一个过滤步骤，即序列长度的质控。所述步骤S12包括：利用R语言的sangeranalyseR软件包，分别对各合格样本中各合格峰图文件的序列两端不符合质控标准的碱基进行切割，获得各合格样本中对应各合格峰图文件的两端切割位点以及经过质控后分别对应各合格峰图文件的一端序列。

具体的，利用R语言的sangeranalyseR软件包首先将各合格样本中各合格峰图文件储存为s4数据格式文件，分别利用该R语言包中的的SangerRead和updateQualityParam函数对序列长度进行不同质控过滤标准的两次质控，分别对各合格峰图文件的序列两端不符合质控标准的碱基进行切割，获得各合格样本中对应各合格峰图文件的两端切割位点以及经过质控后分别对应各合格峰图文件的一端序列。

优选的，质控过滤标准包括：a.设置M1TrimmingCutoff参数为0.001；b.设置M2CutoffQualityScore参数为40，M2SlidingWindowSize参数为30，即设置滑动窗口为30bp，平均碱基质量为40进行滑动检测，对序列两端不符合标准的碱基进行trim剪切。

可选的，所述一端序列为fasta序列文件。

步骤S13：基于对应合格样本中的各合格峰图文件的双端切割位点，分别对各合格峰图文件进行杂峰判定，以输出对应各合格峰图文件的杂峰鉴定结果；基于对应合格样本中的各合格峰图文件的双端切割位点，分别对各合格峰图文件进行杂峰判定，以输出对应各合格峰图文件的杂峰鉴定结果。

可选的，进行第二个过滤步骤，即峰图文件的杂峰判定，杂峰指的是在一代测序过程中，由于目标菌种中存在污染菌种或者在实验操作过程中造成的污染，使得在同一碱基位点处存在明显的两种ddNTP荧光信号峰值，如图3所示。

具体的，步骤S13包括：基于对应各合格样本的各合格峰图文件的双端切割位点，获得各合格峰图文件中的杂峰判定范围；对所述峰图文件中处于所述杂峰判定范围的碱基位置进行杂峰判断，并获得判断为杂峰的碱基位置的数量；根据判断为杂峰的碱基位置的数量以及所述杂峰判定范围，计算杂峰比例；基于杂峰比例阈值，对各所述杂峰比例进行杂峰污染判断，以输出对应各合格样本中各合格峰图文件的杂峰鉴定结果；其中，所述杂峰鉴定结果包括：对应未杂峰污染的未污染鉴定结果、对应杂峰污染的污染鉴定结果以及对应疑似杂峰污染的疑似污染鉴定结果中的一种或多种。

可选的，所述对所述峰图文件中处于所述杂峰判定范围的碱基位置进行杂峰判断，并获得判断为杂峰的碱基位置的数量的方式包括：利用R语言的sangerseqR软件包中得makeBaseCalls函数，分析各合格峰图文件的杂峰判定范围中的主峰和次峰，并判定某个碱基处的位置是否属于杂峰。优选的，设置makeBaseCalls函数的参数ratio为0.33，即如果次峰信号强度是主峰信号强度的三分之一，那么该碱基位置处属于杂峰污染。

可选的，所述基于杂峰比例阈值，对各所述杂峰比例进行杂峰污染判断，以输出对应各合格峰图文件的杂峰鉴定结果的方式包括：设置一或多个杂峰比例阈值对各所述杂峰比例进行杂峰污染判断，以输出对应各合格峰图文件的杂峰鉴定结果的方式；可选的，若设置一个杂峰比例阈值，则大于等于该阈值的则为判定该合格峰图文件正常，生成对应未杂峰污染的未污染鉴定结果；否则，则为判定该合格峰图文件被污染，生成对应杂峰污染的污染鉴定结果；另一种形式下，若设置两个杂峰比例阈值第一阈值以及第二阈值，且第一阈值大于第二阈值，则大于等于第一阈值的则为判定该合格峰图文件正常，生成对应未杂峰污染的未污染鉴定结果；大于第一阈值且小于第二阈值则为判定该合格峰图文件疑似污染，生成对应疑似杂峰污染的疑似污染鉴定结果；若小于等于第二阈值，则判定该合格峰图文件被污染，生成对应杂峰污染的污染鉴定结果。优选的，设置杂峰比例阈值identity，如果identity≥0.995，判定该合格峰图文件正常；如果identity<0.990，判定该合格峰图文件属于杂峰污染；如果0.990<identity<0.995，判定该合格峰图文件为疑似污染。

可选的，所述杂峰鉴定结果以信息统计表格式进行储存。

步骤S14：将经过质控后各合格样本分别对应两个合格峰图文件各自的一端序列进行序列拼接，并分别以一拼接样本文件进行储存并分别以一拼接样本文件进行储存。

可选的，步骤S14包括：利用PHRAP程序对将经过质控后各合格样本分别对应两个合格峰图文件各自的一端序列进行序列拼接，并分别以一拼接样本文件进行储存。PHRAP是DNA序列拼接组装工作中经常使用到的程序，与其他软件程序相比，PHRAP提供了更快速、更准确的拼接算法。优选的。本流程利用PHRAP中的phrap函数对双端序列进行拼接，并设置minmatch参数为10。拼接后的序列按照样本进行储存至不同的fasta文件。

可选的，可以利用MEGA，Bowtie和Pandaseq等将将经过质控后各合格样本分别对应两个合格峰图文件各自的一端序列进行序列拼接。

步骤S15：根据各拼接样本文件进行数据库比对，获得对应各合格样本的菌种鉴定结果。

可选的，步骤S15包括：将各样本文件进行整合，获得整合序列文件；利用BLAST工具和NT数据库，对所述整合序列文件进行序列相似性比对，以获得获得对应各合格样本的菌种鉴定结果。

举例来说，首先对上一步拼接好的不同样本的fasta序列进行整合，合并成一个fasta序列文件作为输入，利用BLAST工具中的blastn程序和NT数据库(Nucleotidedatabase)进行物种比对鉴定；BLAST工具是NCBI提供的，是现在研究中最为广泛使用的序列相似性比对工具；NT数据库是NCBI提供的，来源于GenBank、RefSeq、TPA和PDB的序列集合，提供了最为完善的物种序列信息。

可选的，我们主要设置参数evalue为1e-5，max_target_seqs为10，来寻找与NT数据库中最为相似的物种信息作为菌种鉴定的结果。优选的，此NT数据库比对过程使用计算资源较多，耗费时间长，使用基于SLURM的HPC任务投递系统进行分析，提高分析的效率。

可选的，还可利用diamond和bowti2等程序进行数据库比对。

可选的，所述方法还包括：对鉴定过程的所有数据进行整理，并生成结果文件夹；其中，所述结果文件夹包括：各合格样本中的各合格峰图文件、对应各合格峰图文件的杂峰鉴定结果、对应各合格样本的菌种鉴定结果、对应各合格样本的各拼接样本文件、各合格样本中对应各合格峰图文件的两端切割位点以及经过质控后分别对应各合格峰图文件的一端序列中的一种或多种。

可选的，所述结果文件夹包括：pdf格式的项目报告文件包含：该项目所有样本的菌种鉴定结果，杂峰鉴定结果等；拼接组装好的各样本的fasta格式的序列文件；NT数据库菌种比对详细结果表；一代测序的峰图文件(包含ab1和fasta格式)。

为了更好的描述所述基于一代测序技术的自动化菌种鉴定方法，提供一具体实施例；

实施例1：一种基于一代测序技术的自动化菌种鉴定方法。鉴定对象为10个经过一代测序样本的项目。

所述方法包括：

将这10个样本对应的两端一代测序共20个ab1峰图文件上传至服务器，即可执行本流程。首执行datacheck.py程序。该程序对输入ab1文件的格式和数量进行检查，如果通过则进行下一步，如果报错则需要对输入文件进行检查后重新上传；

上一步对输入文件检查合格后，流程依次会执行sangerAnalyse.py和sangerSeq.R程序，分别对合格的ab1文件为输入文件序列进行长度质控和ab1峰图文件的杂峰判定，输出的文件是质控后的fasta序列文件和ab1峰图鉴定信息统计表；

质控和鉴定步骤执行完毕后，接着执行assign_tax.py和assemble.sh程序，这一过程是使用基于SLURM的HPC任务投递系统进行序列拼接和NT数据库比对这两部分。以上一步质控后的序列文件为输入文件，经过拼接和数据库比对，输出的文件是每个样本拼接后的序列文件和NT数据库比对结果表；

将获得了最终项目结果所需要的文件信息执行最后一个getReportResult.py程序，该程序的目的是将前面运行的中间结果文件进行整理，并生成该项目的结题报告，生成该项目的最终结果文件夹，包含了：pdf格式的项目报告文件、拼接组装好的fasta序列文件、NT数据库物种比对详细结果表以及一代测序两端原始数据。

与上述实施例原理相似的是，本发明提供一种基于一代测序技术的自动化菌种鉴定系统。

以下结合附图提供具体实施例：

如图4展示本发明实施例中的一种基于一代测序技术的自动化菌种鉴定系统的结构示意图。

所述系统包括：

格式检查模块41，用于对获取的一或多个样本分别所具有的两个峰图文件依次进行格式检查，并获得具有两个合格峰图文件的合格样本；

序列长度质控模块42，连接所述格式检查模块41，用于对各合格样本中的两个合格峰图文件分别进行长度质控，获得各合格样本中对应各合格峰图文件的两端切割位点以及经过质控后分别对应各合格峰图文件的一端序列；

杂峰判定模块43，连接所述序列长度质控模块42以及格式检查模块41，用于基于对应合格样本中的各合格峰图文件的双端切割位点，分别对各合格峰图文件进行杂峰判定，以输出对应各合格峰图文件的杂峰鉴定结果；

序列拼接模块44，连接所述序列长度质控模块42，用于将经过质控后各合格样本分别对应两个合格峰图文件各自的一端序列进行序列拼接，并分别以一拼接样本文件进行储存并分别以一拼接样本文件进行储存；

数据库比对模块45，连接所述序列拼接模块44，用于根据各拼接样本文件进行数据库比对，获得对应各合格样本的菌种鉴定结果。

需说明的是，应理解图4系统实施例中的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现；

例如各模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(digital signal processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(CentralProcessing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

因此，由于该基于一代测序技术的自动化菌种鉴定系统的实现原理已在前述实施例中进行了叙述，因此此处不作重复赘述。

可选的，所述系统还包括：数据整理模块，用于对鉴定过程的所有数据进行整理，并生成结果文件夹；其中，所述结果文件夹包括：各合格样本中的各合格峰图文件、对应各合格峰图文件的杂峰鉴定结果、对应各合格样本的菌种鉴定结果、对应各合格样本的各拼接样本文件、各合格样本中对应各合格峰图文件的两端切割位点以及经过质控后分别对应各合格峰图文件的一端序列中的一种或多种。

可选的，所述结果文件夹包括：pdf格式的项目报告文件包含：该项目所有样本的菌种鉴定结果，杂峰鉴定结果等；拼接组装好的各样本的fasta格式序列文件；NT数据库菌种比对详细结果表；一代测序的峰图文件(包含ab1和fasta格式)。

可选的，可以批量对对应的多个项目的峰图文件进行处理，整个流程包含多个分步程序，将这些程序一起打包并命名，只要执行该程序即可实现一键化运行。

如图5展示本发明实施例中的基于一代测序技术的自动化菌种鉴定终端50的结构示意图。

所述基于一代测序技术的自动化菌种鉴定终端50包括：存储器51及处理器52所述存储器51用于存储计算机程序；所述处理器52运行计算机程序实现如图1所述的基于一代测序技术的自动化菌种鉴定方法。

可选的，所述存储器51的数量均可以是一或多个，所述处理器52的数量均可以是一或多个，而图5中均以一个为例。

可选的，所述基于一代测序技术的自动化菌种鉴定终端50中的处理器52会按照如图1所述的步骤，将一个或多个以应用程序的进程对应的指令加载到存储器51中，并由处理器52来运行存储在第一存储器51中的应用程序，从而实现如图1所述基于一代测序技术的自动化菌种鉴定方法中的各种功能。

可选的，所述存储器51，可能包括但不限于高速随机存取存储器、非易失性存储器。例如一个或多个磁盘存储设备、闪存设备或其他非易失性固态存储设备；所述处理器52，可能包括但不限于中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital SignalProcessing，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可选的，所述处理器52可以是通用处理器，包括中央处理器(Central ProcessingUnit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明还提供计算机可读存储介质，存储有计算机程序，所述计算机程序运行时实现如图1所示的基于一代测序技术的自动化菌种鉴定方法。所述计算机可读存储介质可包括，但不限于，软盘、光盘、CD-ROM(只读光盘存储器)、磁光盘、ROM(只读存储器)、RAM(随机存取存储器)、EPROM(可擦除可编程只读存储器)、EEPROM(电可擦除可编程只读存储器)、磁卡或光卡、闪存、或适于存储机器可执行指令的其他类型的介质/机器可读介质。所述计算机可读存储介质可以是未接入计算机设备的产品，也可以是已接入计算机设备使用的部件。

综上所述，本发明基于一代测序技术的自动化菌种鉴定方法、系统、终端及介质，通过依次搭建的文件格式检查、序列长度质控、峰图文件的杂峰判定、序列拼接和数据库比对流程进行自动化菌种鉴定，本方案提供了完整的过滤质控方法来判定一代测序数据的质量，减少了工作运行的时间，提高了处理项目的效率，并且提高了鉴定的准确性；并整合了利用R语言包sangerseqR和sangeranalyseR对一代测序数据处理的优势，做到了批量化处理一代测序数据，并提供了后续更为重要的菌种鉴定功能，使得一代测序菌种鉴定的功能更加完善；更是首次做到一代测序菌种鉴定流程自动化，极大的提高了工作效率，相比于传统的菌种鉴定方法，自动化的操作减少了90％的人工干预，是一个适合于在企业生产活动中的标准模式方案。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅示例性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，但凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于一代测序技术的自动化菌种鉴定方法，其特征在于，所述方法包括：

对获取的一或多个样本分别所具有的两个峰图文件依次进行格式检查，并获得具有两个合格峰图文件的合格样本；

对各合格样本中的两个合格峰图文件分别进行长度质控，获得各合格样本中对应各合格峰图文件的两端切割位点以及经过质控后分别对应各合格峰图文件的一端序列；

基于对应合格样本中的各合格峰图文件的双端切割位点，分别对各合格峰图文件进行杂峰判定，以输出对应各合格峰图文件的杂峰鉴定结果；

将经过质控后各合格样本分别对应两个合格峰图文件各自的一端序列进行序列拼接，并分别以一拼接样本文件进行储存；

根据各拼接样本文件进行数据库比对，获得对应各合格样本的菌种鉴定结果。

2.根据权利要求1中所述的基于一代测序技术的自动化菌种鉴定方法，其特征在于，所述对获取的一或多个样本分别所具有的两个峰图文件依次进行格式检查，并获得具有两个合格峰图文件的合格样本包括：

基于ab1格式判定条件，对经过一代测序获取的各的一或多个样本分别所具有的两个峰图文件依次进行格式检查；

提取每个峰图文件均符合所述ab1格式判定条件的一或多个样本，以作为合格样本；其中，每个合格样本包括：两个合格峰图文件。

3.根据权利要求1中所述的基于一代测序技术的自动化菌种鉴定方法，其特征在于，所述对各合格样本中的两个合格峰图文件分别进行长度质控，获得各合格样本中对应各合格峰图文件的两端切割位点以及经过质控后分别对应各合格峰图文件的一端序列包括：

利用R语言的sangeranalyseR软件包，分别对各合格样本中各合格峰图文件的序列两端不符合质控标准的碱基进行切割，获得获得各合格样本中对应各合格峰图文件的两端切割位点以及经过质控后分别对应各合格峰图文件的一端序列。

4.根据权利要求1中所述的基于一代测序技术的自动化菌种鉴定方法，其特征在于，所述基于对应合格样本中的各合格峰图文件的双端切割位点，分别对各合格峰图文件进行杂峰判定，以输出对应各合格峰图文件的杂峰鉴定结果包括：

基于对应各合格样本的各合格峰图文件的双端切割位点，获得各合格峰图文件中的杂峰判定范围；

对所述峰图文件中处于所述杂峰判定范围的碱基位置进行杂峰判断，并获得判断为杂峰的碱基位置的数量；

根据判断为杂峰的碱基位置的数量以及所述杂峰判定范围，计算杂峰比例；

基于杂峰比例阈值，对各所述杂峰比例进行杂峰污染判断，以输出对应各合格样本中各合格峰图文件的杂峰鉴定结果；

其中，所述杂峰鉴定结果包括：对应未杂峰污染的未污染鉴定结果、对应杂峰污染的污染鉴定结果以及对应疑似杂峰污染的疑似污染鉴定结果中的一种或多种。

5.根据权利要求1中所述的基于一代测序技术的自动化菌种鉴定方法，其特征在于，所述将经过质控后各合格样本分别对应两个合格峰图文件各自的一端序列进行序列拼接，并分别以一拼接样本文件进行储存包括：

利用PHRAP程序对经过质控后各合格样本分别对应两个合格峰图文件各自的一端序列进行序列拼接，并分别以一拼接样本文件进行储存。

6.根据权利要求1中所述的基于一代测序技术的自动化菌种鉴定方法，其特征在于，根据各拼接样本文件进行数据库比对，获得对应各合格样本的菌种鉴定结果包括：

将各拼接样本文件进行整合，获得整合序列文件；

利用BLAST工具和NT数据库，对所述整合序列文件进行序列相似性比对，以获得获得对应各样本的菌种鉴定结果。

7.根据权利要求1中所述的基于一代测序技术的自动化菌种鉴定方法，其特征在于，所述方法还包括：

对鉴定过程的所有数据进行整理，并生成结果文件夹；

其中，所述结果文件夹包括：各合格样本中的各合格峰图文件、对应各合格峰图文件的杂峰鉴定结果、对应各合格样本的菌种鉴定结果、对应各合格样本的各拼接样本文件、各合格样本中对应各合格峰图文件的两端切割位点以及经过质控后分别对应各合格峰图文件的一端序列中的一种或多种。

8.一种基于一代测序技术的自动化菌种鉴定系统，其特征在于，所述系统包括：

格式检查模块，用于对获取的一或多个样本分别所具有的两个峰图文件依次进行格式检查，并获得具有两个合格峰图文件的合格样本；

序列长度质控模块，连接所述格式检查模块，用于对各合格样本中的两个合格峰图文件分别进行长度质控，获得各合格样本中对应各合格峰图文件的两端切割位点以及经过质控后分别对应各合格峰图文件的一端序列；

杂峰判定模块，连接所述序列长度质控模块以及格式检查模块，用于基于对应合格样本中的各合格峰图文件的双端切割位点，分别对各合格峰图文件进行杂峰判定，以输出对应各合格峰图文件的杂峰鉴定结果；

序列拼接模块，连接所述序列长度质控模块，用于将经过质控后各合格样本分别对应两个合格峰图文件各自的一端序列进行序列拼接，并分别以一拼接样本文件进行储存；

数据库比对模块，连接所述序列拼接模块，用于根据各拼接样本文件进行数据库比对，获得对应各合格样本的菌种鉴定结果。

9.一种基于一代测序技术的自动化菌种鉴定终端，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行如权利要求1至7中任一项所述的基于一代测序技术的自动化菌种鉴定方法。

10.一种计算机存储介质，其特征在于，存储有计算机程序，所述计算机程序运行时实现如权利要求1至7中任一项所述的基于一代测序技术的自动化菌种鉴定方法。