CN106775998A

CN106775998A - 高通量16s测序数据自动化处理方法

Info

Publication number: CN106775998A
Application number: CN201610986745.9A
Authority: CN
Inventors: 杨洋; 王慧娟; 姜丽荣; 孙子奎
Original assignee: SHANGHAI PERSONAL BIOTECHNOLOGY CO Ltd
Current assignee: SHANGHAI PERSONAL BIOTECHNOLOGY CO Ltd
Priority date: 2016-11-09
Filing date: 2016-11-09
Publication date: 2017-05-31

Abstract

本发明公开的高通量16S测序数据自动化处理方法，包括如下步骤：1)输入要进行分析的项目信息；2)从存储数据的服务器调取高通量16S测序数据；3)将获取的对应项目的数据进行预处理；4)将优质序列进行注释，并开始进行标准分析流程；5)查看日志，保证结果的无误性。本发明的有益效果在于：基于linux shell的自动化分许流程，可进行批量项目分析，提高服务器使用效率，减少分析人员的分析压力，便于控制分析内容。

Description

高通量16S测序数据自动化处理方法

技术领域

本发明属于分子生物信息检测领域，具体涉及一种高通量16S测序数据自动化处理方法。该方法只用在已有高通量16S测序数据匹配基础上，基于linux跨服务器数据自动传送的能力，以提高测序数据的使用效率以及分析效率，减少人为干涉因素对分析结果的影响。

背景技术

16SrDNA鉴定是指用利用细菌16SrDNA序列测序的方法对细菌进行种属鉴定。包括细菌基因组DNA提取、16SrDNA特异引物PCR扩增、扩增产物纯化、DNA测序、序列比对等步骤。是一种快速获得细菌种属信息的方法。英文名称是16S ribosomal DNA identification，应用有细菌种属鉴定。

细菌rRNA(核糖体RNA)按沉降系数分为3种，分别为5S、16S和23S rRNA。16S rDNA是细菌染色体上编码16S rRNA相对应的DNA序列，存在于所有细菌染色体基因中。

16S rDNA是细菌的系统分类研究中最有用的和最常用的分子钟，其种类少，含量大(约占细菌RNA含量的80％)，分子大小适中，存在于所有的生物中，其进化具有良好的时钟性质，在结构与功能上具有高度的保守性，素有“细菌化石”之称。在大多数原核生物中rDNA都具有多个拷贝，5S、16S、23S rDNA的拷贝数相同。16S rDNA由于大小适中，约1.5Kb左右，既能体现不同菌属之间的差异，又能利用测序技术较容易地得到其序列，故被细菌学家和分类学家接受。

而分析16S高通量测序数据的软件，主要是使用mothur或者qiime，需要人为的进行调用命令或脚本，而且使用的数据存放于不同的服务器，因此分析时需要使用跨服务器数据传送命令，并且每次传送都需要手动输入密码，加大了分析人员的压力。

发明创造

本发明的目的在于针对现有16S高通量测序数据软件在数据处理方面所存在的问题提供一种高通量16S测序数据自动化处理方法，该方法基于linux shell的自动化分许流程，可进行批量项目分析，提高服务器使用效率，减少分析人员的分析压力，便于控制分析内容。

为了实现上述发明目的，本发明所采用的技术方案是：

高通量16S测序数据自动化处理方法，包括如下步骤：

1)输入要进行分析的项目信息

格式大致为一行表示一个项目的信息，前面几列的元素分别为合同号，开题单号，注释所用的数据库，其中间隔符设置为制表符；

2)从存储数据的服务器调取高通量16S测序数据

进入linux的except的环境，使用spawn命令，调取测序数据，与原来的不同是将密码内置于脚本中或环境变量中，避免手动输入密码的麻烦；

3)将获取的对应项目的数据进行预处理

包括对于样品名字的处理，以及质量过滤，去除引物和barcode，去嵌合体，随后得到优质序列进行分析；

4)将优质序列进行注释，并开始进行标准分析流程

将优质序列与其对应的数据库中进行注释，并建立进化树，此后，根据进化树以及注释结果，进行标准分析流程；

5)查看日志，保证结果的无误性

在进行标准分析流程的同时，如果分析出现的问题，会将错误信息以及错误的位置写入到日志文件中，流程结束后，查看日志文件，保证结果的无误性，如果出现问题，则查找原因，修复错误。

本发明的有益效果在于：

基于linux shell的自动化分许流程，可进行批量项目分析，提高服务器使用效率，减少分析人员的分析压力，便于控制分析内容。

附图说明

图1为本发明的高通量16S测序数据自动化处理方法的自动化流程的方法流程图。

具体实施方式

为了能够更清楚地理解本发明的技术内容，特举以下实施例详细说明。

请参阅图1所示，为本发明的高通量测序数据自动化处理方法的步骤流程图。

该方法如图1所示包括以下步骤：

(1)输入的需要分析的项目的信息文件；

(2)检测信息的是否满足条件(格式是否正确)，；

(3)格式正确后，将对应项目进行任务分配，一般是同时进行2，3个项目分析；

(4)查找项目的对应的数据，判断是否存在，如果存在，传送数据到工作目录进行下一步，如果不存在，写入日志，该项目对应的任务退出；

(5)判断是否有分析所必须的map文件，判断机制与上一条类似；

(6)如果上述判断未出现问题，开始进行流程分析，如果流程中局部出现问题，也会写入日志，方便检查。

在实际应用中，本发明的方法所利用的工具包共包含1个Python脚本代码和3个shell脚本代码，每个脚本名称如下：

(1)work_start.py

(2)anno.sh

(3)newworkflow.sh

(4)treat_work.sh

上述每个脚本既能够独立执行，也可以嵌入到已有的数据分析流程中，使用非常灵活。

每个脚本的代码编写基于Python和shell语言，可以在Linux、MacOS等多种类unix系统平台下使用。代码运行过程中，耗费系统资源少，能够在任意一台个人PC、工作站和或服务器上进行使用。

每个脚本都应对高通量数据分析后期经常所需的操作进行设计。

1、work_start.py，主程序，以项目信息文件作为输入数据，通过调用其他的shell脚本以及自身的判断，进行流程图所示的过程。

2、anno.sh，以项目信息以及注释数据库作为输入数据，可以传送使用的数据，并且进行一系列预处理，并且加上注释。

3、newworkflow.sh，以项目信息以及注释数据库作为输入数据，此脚本用于日常的分析的流程，并且针对不同的数据库也有不同的处理。

4、treat_work.sh，要求提供对应treat的分组表以及对应的out表作为输入文件，分析流程真实的存放的地方，newworkflow.sh调用此脚本进行每个treat的分析。

此外，通过这4个独立脚本之间的不同组合能够帮助用户决解一系列高通量数据16S分析操作难题。

在应用过程中，上述脚本会返回一系列详细的参数设置和对应的参数说明，指导数据分析人员正确使用这些方法。其中，参数分为两种类型：必要参数和可选参数。必要参数要求由数据分析人员提供输入值，无默认值。可选参数的默认值有预设值，分析人员也可以结合实际需求进行调整，具有灵活性。

在此说明书中，本发明已参照其特定的实施例作了描述。但是，很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此，说明书和附图应被认为是说明性的而非限制性的。

Claims

1.高通量16S测序数据自动化处理方法，其特征在于，包括如下步骤：

1)输入要进行分析的项目信息

2)从存储数据的服务器调取高通量16S测序数据进入linux的except的环境，使用spawn命令，调取测序数据，与原来的不同是将密码内置于脚本中或环境变量中，避免手动输入密码的麻烦；

3)将获取的对应项目的数据进行预处理

4)将优质序列进行注释，并开始进行标准分析流程

5)查看日志，保证结果的无误性