CN110504007B

CN110504007B - 一键化完成多场景菌种鉴定的工作方法及系统

Info

Publication number: CN110504007B
Application number: CN201910797146.6A
Authority: CN
Inventors: 丁赟; 赵建华; 罗春
Original assignee: Shanghai Majorbio Bio Pharm Technology Co ltd
Current assignee: Shanghai Majorbio Bio Pharm Technology Co ltd
Priority date: 2019-08-27
Filing date: 2019-08-27
Publication date: 2023-03-14
Anticipated expiration: 2039-08-27
Also published as: CN110504007A

Abstract

本发明公开了一种一键化完成多场景菌种鉴定的工作方法及系统，该方法包括：从常规测序系统获取生产订单下各样品信息及sanger测序结果；在服务器上，通过预设软件对各样品的sanger测序结果进行色谱信号转化、碱基修剪、序列组装，得到各样品的contig序列；利用预设的序列比对工具，将所得的各样品的contig序列批量与本地预设的能够获取序列对应物种信息的数据库进行比对；基于所得的比对结果，获取各样品物种信息；基于所获取的各样品物种信息，根据高通量生产系统中各客户送样订单下的样品制备任务单，汇总菌种鉴定结果。本发明的技术方案可一键化完成多场景菌种鉴定工作，并提高了菌种鉴定的工作效率及其结果的准确度。

Description

一键化完成多场景菌种鉴定的工作方法及系统

技术领域

本发明涉及菌种鉴定技术领域，尤其涉及一种一键化完成多场景菌种鉴定的工作方法及系统。

背景技术

以微生物基因组产品举例来说，客户样品在前期制备时需要进行质检，其中包括菌种鉴定。每个样品的菌种鉴定都需要完成以下这些步骤：用特定引物对提取的样品DNA进行PCR扩增；将扩增出来的序列片段用sanger法进行测序；测序得到的序列通过软件进行拼接进而得到contig序列；contig序列上传到NCBI官网在线进行blast，比对其nr数据库；将比对结果中得分最高的subject作为该样品的物种注释结果，得分最高的前10个subject作为该样品对应的候选物种；最终将每个样品的上述结果按照客户送样订单中样品的制备任务单号进行分类汇总后发送给客户。

上述菌种鉴定的流程中涉及到高通量生产系统、常规测序系统以及NCBI网站。高通量生产系统相当于是发出菌种鉴定需求的一个端口；常规测序系统则为接收菌种鉴定需求端口，存储了所有测序订单信息以及所有样品的sanger测序结果；NCBI网站为外部端口，存有所有物种的基因序列，是每个样品的sanger测序结果转化为contig之后进行序列比对的一个平台。

三个端口之间无法直接进行信息流转，每一个步骤都需要人工介入完成，并且某些环节比如序列比对环节存在人工重复、冗余操作的情况，所以当前完成整个菌种鉴定的流程非常耗时。同时由于各个环节信息都是通过人工流转的，过程中难免出现失误，最终导致菌种鉴定结果的不准确。

发明内容

针对上述现有技术中存在的不足之处，本发明提供一种一键化完成多场景菌种鉴定的工作方法，其为面向系统接口数据，基于生物信息学分析手段，一键式、自动化完成多场景下菌种鉴定的一种新流程方法，除了微生物基因组或转录组产品，也可将此流程移植于其他需要进行菌种鉴定的产品。

本发明用于解决高通量生产系统、常规测序系统以及NCBI网站信息获取、流转不便，以及人工生成结果不准确的问题，实现将各客户送样订单下样品制备任务单中所有样品的菌种鉴定通过一键式、自动化的工作流程去完成，提高菌种鉴定的工作效率及其结果的准确度。

一键化完成多场景菌种鉴定的工作方法包括：

从常规测序系统获取生产订单下各样品信息及sanger测序结果；

在服务器上，通过预设软件对各样品的sanger测序结果进行色谱信号转化、碱基修剪、序列组装，得到各样品的contig序列；

利用预设的序列比对工具，将所得的各样品的contig序列批量与本地预设的能够获取序列对应物种信息的数据库进行比对；

基于所得的比对结果，获取各样品物种信息；

基于所获取的各样品物种信息，根据高通量生产系统中各客户送样订单下的样品制备任务单，汇总菌种鉴定结果。

进一步地，从常规测序系统获取生产订单下各样品信息及sanger测序结果，包括：

基于常规测序系统的数据接口，利用python爬虫技术分别请求接口，批量获取生产订单信息、获取单个生产订单的清单数据、获取单个生产订单的结果文件、获取单个生产订单的详情数据。

进一步地，在批量获取生产订单信息时，需要根据生产订单状态判断是否进一步对该生产订单进行操作，具体为：

当生产订单状态为实验中时，则继续往下执行；当生产订单状态为实验完成时，则需查找服务器对应数据库中该生产订单的状态，若为实验中，则继续往下执行，若为实验完成，则跳过该生产订单；对于往下执行的生产订单，进一步获取其清单数据、结果文件及详情数据。

进一步地，获取详情数据时，需要将样品名称、测序结果、序列特征写入服务器对应数据库，并且根据各样品2端引物的序列特征为该样品添加测序结果标签；获取各样品结果文件时，需判断服务器数据库中是否已存在该样品结果文件，若存在，则跳过该样品结果文件的获取；上述获取的信息分别存储至服务器常规测序样品信息数据库、sanger测序结果3730文件数据库。

进一步地，在服务器上，通过软件对各样品的sanger测序结果进行色谱信号转化、碱基修剪、序列组装，得到各样品的contig序列，包括：

对sanger测序输出的峰图文件，借助Phred软件将其转化为序列信息并为每个碱基匹配上测序质量值，借助Phrad软件将转化后的序列组装成contig序列，所得结果存储至服务器sanger测序结果组装结果数据库。

进一步地，利用预设的序列比对工具，将所得的各样品的contig序列批量与本地预设的能够获取序列对应物种信息的数据库进行比对，包括

选择blastn子程序，设置相应的比对期望值、比对结果输出格式、比对上序列的最高保留条数，通过qsub任务投递系统，将比对任务投递至高性能计算节点运行，将所得的各样品的contig序列，批量与本地nr数据库进行blast比对；上述比对结果存储至服务器nr数据库blast比对结果数据库。

进一步地，基于所得的比对结果，获取各样品物种信息，包括：

根据比对得分，对每个样品比对上的所有目标序列进行降序排列；根据目标序列ID，在本地nr数据库物种总表中查找到相应的具体物种信息，每一目标序列对应一条物种信息；

从得分最高的目标序列对应的物种信息依次判断，若其物种名称为确切的已知物种，则将其作为该样品最终的鉴定物种，否则跳转至下一个物种信息，重复前面的判断，直至最后一条物种信息；上述比对结果的物种注释信息存储至服务器nr数据库blast比对结果物种注释信息数据库。

进一步地，基于获取的各样品物种信息，根据高通量生产系统中各客户送样订单下的样品制备任务单，汇总菌种鉴定结果，包括：

基于高通量生产系统的数据接口，利用python爬虫技术请求接口，批量获取待录入质检数据的客户样品制备任务单信息；

以任务单为单位，依据获取的客户样品制备任务单信息去常规测序样品信息数据库、sanger测序结果3730文件数、nr数据库blast比对结果物种注释信息数据库据库、nr数据库blast比对结果数据库搜索、提取对应的结果进行汇总，最终得到每个任务单的菌种鉴定结果。

进一步地，在基于获取的各样品物种信息，根据高通量生产系统中各客户送样订单下的样品制备任务单，汇总菌种鉴定结果之后，所述方法还包括：

在服务器上利用预设程序产生一个菌种鉴定结果报告，反馈给客户。

相应地，针对上述现有技术中存在的不足之处，本发明还提供一种一键化完成多场景菌种鉴定的工作系统，其包括：

样品信息及sanger测序结果获取模块，用于从常规测序系统获取生产订单下各样品信息及sanger测序结果；

contig序列获取模块，用于在服务器上，通过软件对各样品的sanger测序结果进行色谱信号转化、碱基修剪、序列组装，得到各样品的contig序列；

序列比对模块，用于利用预设的序列比对工具，将所得的各样品的contig序列批量与本地预设的能够获取序列对应物种信息的数据库进行比对；

样品物种信息获取模块，用于基于所述序列比对模块所得的比对结果，获取各样品物种信息；

菌种鉴定结果汇总模块，用于基于所获取的各样品物种信息，根据高通量生产系统中各客户送样订单下的样品制备任务单，汇总菌种鉴定结果。

本发明的菌种鉴定工作方法，与现有的需要多方人工介入的菌种鉴定工作方法相比，其优势在于：

1、通过常规测序系统数据接口，直接获取生产订单信息、获取单个生产订单的清单数据、获取单个生产订单的结果文件、获取单个生产订单详情数据，有效降低了通过网页或者邮箱下载数据时受网络稳定性干扰的影响，同时极大减少了人工冗余操作；

2、无需人工将各样品逐个去NCBI官网进行blast比对，而是基于本地化的nr数据库实现blast比对的过程，利用高性能计算节点，实现批量化地快速比对，极大缩短了整个菌鉴工作的周期，同时极大解放了人力；

3、通过自动化程序获取高通量生产系统中客户送样订单对应的样品制备任务单信息，规避了人为原因导致的结果遗漏或偏差，比如一个任务单下遗漏某个样品的菌鉴结果，或者某个客户的菌鉴结果对应到其他客户的样品菌鉴结果，提高了每个客户菌鉴结果的准确性；

4、通过自动化程序生成每个样品制备任务单的菌鉴结果，有效提高了发送给每个客户菌鉴结果的规范性。

附图说明

图1为本发明实施例提供的一键化完成多场景菌种鉴定的工作方法的流程示意图；

图2为本发明实施例提供的一键化完成多场景菌种鉴定的工作方法的工作流框架示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

第一实施例

请参阅图1和图2，本实施例提供一种一键化完成多场景菌种鉴定的工作方法，该一键化完成多场景菌种鉴定的工作方法包括：

S101，从常规测序系统获取生产订单下各样品信息及sanger测序结果；

S102，在服务器上，通过预设软件对各样品的sanger测序结果进行色谱信号转化、碱基修剪、序列组装，得到各样品的contig序列；

S103，利用预设的序列比对工具，将所得的各样品的contig序列批量与本地预设的能够获取序列对应物种信息的数据库进行比对；

S104，基于所得的比对结果，获取各样品物种信息；

S105，基于所获取的各样品物种信息，根据高通量生产系统中各客户送样订单下的样品制备任务单，汇总菌种鉴定结果。

下面对上述步骤流程进行进一步地说明：

1、上述S101中从常规测序系统获取生产订单下各样品信息及sanger测序结果，具体为：

基于常规测序系统的数据接口，利用python爬虫技术分别请求接口批量获取生产订单信息、获取单个生产订单的清单数据、获取单个生产订单的结果文件、获取单个生产订单详情数据。在批量获取生产订单信息时，需要根据订单状态判断是否进一步对该订单进行操作：当订单状态为实验中，则继续往下执行；当订单状态为实验完成，则需查找服务器对应数据库中该订单的状态，若为实验中，则继续往下执行，若为实验完成，则跳过该订单。对于往下执行的生产订单，进一步获取其清单数据、结果文件及详情数据。获取详情数据时，需要将样品名称、测序结果、序列特征写入服务器对应数据库，并且根据各样品2端引物的序列特征为该样品添加测序结果标签。获取各样品结果文件时，需要判断服务器数据库中是否已存在该样品的文件，若存在，则跳过该样品结果文件的获取。上述获取的信息分别存储至服务器常规测序样品信息数据库、sanger测序结果3730文件数据库。

2、上述S102中在服务器上，通过软件对各样品的sanger测序结果进行色谱信号转化、碱基修剪、序列组装，得到各样品的contig序列，具体为：

sanger测序输出的结果文件是峰图文件，借助Phred软件将其转化为序列信息并为每个碱基匹配上测序质量值，借助Phrad软件将转化后的序列组装成contig。上述所得结果存储至服务器sanger测序结果组装结果数据库。

3、上述S103中利用预设的序列比对工具，将所得的各样品的contig序列批量与本地预设的能够获取序列对应物种信息的数据库进行比对，具体为：

选择blastn子程序，设置相应的比对期望值、比对结果输出格式、比对上序列的最高保留条数，通过qsub任务投递系统，将比对任务投递至高性能计算节点运行。上述比对结果存储至服务器nr数据库blast比对结果数据库。

4、上述S104中基于所得的比对结果，获取各样品物种信息，具体为：

此处以m8格式为例，共包含10个字段，分别为查询序列ID、目标序列ID、序列一致性、比对长度、比对错配数、gap数、查询序列比对起始位点、查询序列比对终止位点、目标序列比对起始位点、目标序列比对终止位点、比对期望值、比对得分。此处每个样品输出的比对上的目标序列数为10，根据比对得分，对这10条目标序列降序排列；根据目标序列ID，在本地nr数据库物种总表中查找到相应的具体物种信息，即每个样品对应有10条候选物种信息；从得分最高的目标序列对应的物种信息依次判断，若其物种名称为确切的已知物种，则将其作为该样品最终的鉴定物种，否则跳转至下一个物种信息，重复前面的判断，直至最后一条物种信息。上述比对结果的物种注释信息存储至服务器nr数据库blast比对结果物种注释信息数据库。

5、上述S105中基于获取的各样品物种信息，根据高通量生产系统中各客户送样订单下的样品制备任务单，汇总菌种鉴定结果，具体为：

基于高通量生产系统的数据接口，利用python爬虫技术请求接口批量获取待录入质检数据的客户样品制备任务单信息。此处以微生物基因组产品为例。首先批量获取任务单号、合同编号、订单号、产品线、产品类型、客户、样品数量，其次对于每个任务单，获取各个样品的美吉编号、样品名称。

以任务单为单位，依据美吉编号去常规测序样品信息数据库、sanger测序结果3730文件数、nr数据库blast比对结果物种注释信息数据库据库、nr数据库blast比对结果数据库搜索、提取对应的结果进行汇总，最终得到每个任务单的菌种鉴定结果。

此外，若是单纯只需进行菌种鉴定的产品，在完成上述5个步骤之后，还需在服务器上利用程序产生一个菌种鉴定结果报告，反馈给客户。

进一步地，需要说明的是，本实施例的方法涉及高通量生产系统、常规测序系统、NCBI数据库三个端口，通过系统数据接口及本地化数据库实现一键化批量产出菌鉴结果。其中，对上述三个端口的信息获取、操作工具并不限于上述所提到的内容，但整体工作流程及核心思想不变。例如：

1、高通量生产系统、常规测序系统除了从系统数据接口获取数据以外，可从其他任何可用途径获取，例如直接通过系统页面端；另外获取数据的技术方法除了通过python爬虫技术以外，可以是其他任何可行的技术方法，例如可通过Java爬虫、C++爬虫、PHP爬虫等获取数据。

2、对从常规测序系统提取的信息可以是任何生成菌鉴结果所需内容，不限于2中技术方案所提到的关键信息。

3、进行序列比对的数据库不限于nr数据库，可以是任何能够获取序列对应物种信息的数据库，例如silva数据库、greengenes数据库等。

4、进行序列比对的工具不限于blast，可为任何能够实现生物序列比对的工具，如usearch、diamond等，且比对参数设置可根据实际需求自行选择。

5、除了上述提到的微生物基因组或转录组产品以外，该菌鉴工作流程可应用于其他任何需要进行菌种鉴定的产品。

6、对于所得数据的存储形式、数据库类别可根据实际情况自行调整，不限于对于上述2中技术方案所提到的几种数据库分类。

本实施例方法的关键点在于通过各系统数据接口快捷地获取数据，同时基于本地数据库及高性能计算集群快速、准确地完成序列比对，利用自动化程序一键化批量地产出菌鉴结果，其优势在于：

1、通过常规测序系统数据接口，直接获取生产订单信息、获取单个生产订单的清单数据、获取单个生产订单的结果文件、获取单个生产订单详情数据，有效降低了通过网页或者邮箱下载数据时受网络稳定性干扰的影响，同时极大减少了人工冗余操作。

2、无需人工将各样品逐个去NCBI官网进行blast比对，而是基于本地化的nr数据库实现blast比对的过程，利用高性能计算节点，实现批量化地快速比对，极大缩短了整个菌鉴工作的周期，同时极大解放了人力。

3、通过自动化程序获取高通量生产系统中客户送样订单对应的样品制备任务单信息，规避了人为原因导致的结果遗漏或偏差，比如一个任务单下遗漏某个样品的菌鉴结果，或者某个客户的菌鉴结果对应到其他客户的样品菌鉴结果，提高了每个客户菌鉴结果的准确性。

第二实施例

本实施例提供一种一键化完成多场景菌种鉴定的工作系统，其包括：

本实施例的一键化完成多场景菌种鉴定的工作系统与上述第一实施例的一键化完成多场景菌种鉴定的工作方法相对应；其中，该一键化完成多场景菌种鉴定的工作系统中的各模块所实现的功能与上述一键化完成多场景菌种鉴定的工作方法中的各流程步骤对应；故，在此不再赘述。

此外，需要说明的是，本领域技术人员应明白，本实施例可提供为方法、装置、或计算机程序产品。因此，本实施例可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现本实施例流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上仅为本发明优选实施例而已，并不用于限制本发明，对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种一键化完成多场景菌种鉴定的工作方法，其特征在于，包括：

基于所得的比对结果，获取各样品物种信息；

基于所获取的各样品物种信息，根据高通量生产系统中各客户送样订单下的样品制备任务单，汇总菌种鉴定结果；

从常规测序系统获取生产订单下各样品信息及sanger测序结果，包括：

基于常规测序系统的数据接口，利用python爬虫技术分别请求接口，批量获取生产订单信息、获取单个生产订单的清单数据、获取单个生产订单的结果文件、获取单个生产订单的详情数据；

在批量获取生产订单信息时，需要根据生产订单状态判断是否进一步对该生产订单进行操作，具体为：

当生产订单状态为实验中时，则继续往下执行；当生产订单状态为实验完成时，则需查找服务器对应数据库中该生产订单的状态，若为实验中，则继续往下执行，若为实验完成，则跳过该生产订单；对于往下执行的生产订单，进一步获取其清单数据、结果文件及详情数据；

获取详情数据时，需要将样品名称、测序结果、序列特征写入服务器对应数据库，并且根据各样品2端引物的序列特征为该样品添加测序结果标签；获取各样品结果文件时，需要判断服务器数据库中是否已存在该样品的结果文件，若存在，则跳过该样品结果文件的获取；上述获取的信息分别存储至服务器常规测序样品信息数据库、sanger测序结果3730文件数据库；

在服务器上，通过软件对各样品的sanger测序结果进行色谱信号转化、碱基修剪、序列组装，得到各样品的contig序列，包括：

2.如权利要求1所述的一键化完成多场景菌种鉴定的工作方法，其特征在于，利用预设的序列比对工具，将所得的各样品的contig序列批量与本地预设的能够获取序列对应物种信息的数据库进行比对，包括

3.如权利要求2所述的一键化完成多场景菌种鉴定的工作方法，其特征在于，基于所得的比对结果，获取各样品物种信息，包括：

4.如权利要求3所述的一键化完成多场景菌种鉴定的工作方法，其特征在于，基于获取的各样品物种信息，根据高通量生产系统中各客户送样订单下的样品制备任务单，汇总菌种鉴定结果，包括：

以任务单为单位，依据获取的客户样品制备任务单信息去常规测序样品信息数据库、sanger测序结果3730文件数据库、nr数据库blast比对结果物种注释信息数据库、nr数据库blast比对结果数据库搜索、提取对应的结果进行汇总，最终得到每个任务单的菌种鉴定结果。

5.如权利要求1-4任一项所述的一键化完成多场景菌种鉴定的工作方法，其特征在于，在基于获取的各样品物种信息，根据高通量生产系统中各客户送样订单下的样品制备任务单，汇总菌种鉴定结果之后，所述方法还包括：

6.一种一键化完成多场景菌种鉴定的工作系统，其特征在于，包括：

菌种鉴定结果汇总模块，用于基于所获取的各样品物种信息，根据高通量生产系统中各客户送样订单下的样品制备任务单，汇总菌种鉴定结果；