CN106650319A

CN106650319A - 高通量Miseq测序数据自动化过滤方法

Info

Publication number: CN106650319A
Application number: CN201611005004.4A
Authority: CN
Inventors: 刘书云; 叶伟星; 姜丽荣; 孙子奎
Original assignee: SHANGHAI PERSONAL BIOTECHNOLOGY CO Ltd
Current assignee: SHANGHAI PERSONAL BIOTECHNOLOGY CO Ltd
Priority date: 2016-11-15
Filing date: 2016-11-15
Publication date: 2017-05-10

Abstract

本发明公开的高通量Miseq测序数据自动化过滤方法，具体包括如下步骤：1)输入要进行分析的项目信息步骤；2)高通量测序数据与项目信息的匹配步骤；3)对相应项目的数据进行预处理步骤；4)对数据进行初步统计步骤。本发明的有益效果在于：基于Linux shell的Illumina Miseq数据自动化过滤流程，可进行批量数据过滤，提高数据处理效率和服务器使用效率，同时降低人为错误，便于判断样品数据量是否满足分析要求。

Description

高通量Miseq测序数据自动化过滤方法

技术领域

本发明涉及分子生物学技术领域，特别涉及Illumina Miseq测序数据分析技术领域，具体是指一种基于Linux跨服务器数据自动传送的能力，以提高测序数据的分组效率的高通量Miseq测序数据自动化过滤方法，以减少人为因素对分析结果的影响。

背景技术

高通量测序技术为人们利用分子生物学手段研究自然界的规律提供了更多可行性方案。目前众多高通量测序技术都有相关的分析方法或分析流程作为参考帮助科研人员进行高通量数据处理。但是，目前常用Illumina Miseq数据过滤过程中容易出现人为错误，因为过滤过程需要多个配置文件，各配置文件之间需要保持项目编号信息的一致性，如果是手动一步步操作，不仅耗费人力，还会出现数据和实际项目不匹配等人为错误，导致后续的数据出现错误。

常用Illumina Miseq数据过滤流程复杂，效率较低，当项目多、数据量大时一个个过滤数据会耗费大量时间。而且无法智能地处理不同批次数据，实际操作过程中一个项目可能会多次上机测序，这样就会得到不同批次的数据，这些数据不能简单的合并到一起进行处理，因为一旦其中一个批次的数据因为编号等问题出现错误都会导致后面所有的数据过滤都是徒劳。

现在宏基因组、转录组、基因组等项目类型下机数据类型不同，人为手动操作时步骤复杂任务量繁重，只需要准备好相应的配置文件该自动化流程即可以实现对不同类型的项目下机数据进行高效率处理。一个项目编号可能对应多个子编号，一个编号也会有不同批次的数据，该自动化流程可以实现对不同类型数据的自动化过滤及数据统计。提高服务器使用效率，减少分析人员的分析压力，便于控制分析内容。

发明内容

本发明的目的是针对目前常用Illumina Miseq数据过滤过程中容易出现人为错误等问题而提供一种基于Linux shell的高通量Miseq测序数据自动化过滤方法，该方法会自动对数据进行校验，确保配置文件的一致性。

为了实现上述目的，本发明所采用的技术方案如下：

高通量Miseq测序数据自动化过滤方法，具体包括如下步骤：

1)输入要进行分析的项目信息步骤

格式大致为一行表示一个项目的信息，前面几列的元素分别为下机编号，合同编号，开题单号，测序平台，样品名称，其中间隔符设置为制表符；

2)高通量测序数据与项目信息的匹配步骤

进入Linux环境，从存储数据的服务器调取测序的下机数据，与原来的不同是将数据的下机编号与项目信息匹配；

3)对相应项目的数据进行预处理步骤

包括对于样品名字的处理，去除引物和barcode，去嵌合体，以及质量过滤，随后得到数据进行下面的统计分析；

4)对数据进行初步统计步骤

对得到的数据进行统计得到下机数据的基本信息，主要包括原始数据量大小、Reads的数量。

本发明的有益效果在于：

基于Linux shell的Illumina Miseq数据自动化过滤流程，可进行批量数据过滤，提高数据处理效率和服务器使用效率，同时降低人为错误，便于判断样品数据量是否满足分析要求。

附图说明

图1为本发明的高通量Miseq测序数据自动化过滤方法流程图。

具体实施方式

为了能够更清楚地理解本发明的技术内容，特举以下实施例详细说明。请参阅图1所示，为本发明的高通量Miseq测序数据自动化过滤方法流程图。

在具体实施方式中，该方法如图1所示包括以下步骤：

(1)输入需要过滤的项目信息文件；

(2)检测文件信息是否满足条件(格式是否正确)；

(3)格式正确后，将对应项目数据进行任务分配；

(4)查找项目的对应的数据，判断是否存在，如果存在，传送数据到对应的工作目录进行下一步，如果不存在，相应信息会输出在屏幕上，该项目对应的任务退出；

(5)如果上述判断未出现问题，开始进行数据流程分析，如果流程中局部出现问题，也会输出相应信息，方便检查。

在实际应用中，本发明的方法所利用的工具包共包含1个Perl脚本代码，脚本名称如下：

(1)MiSeq_DataFilter.pl

这个脚本的代码编写基于Perl语言，可以在Linux、MacOS等多种类Unix系统平台下使用。代码运行过程中，耗费系统资源少，能够在任意一台个人PC、工作站和或服务器上进行使用。

MiSeq_DataFilter.pl，主程序，以特定格式文件(第一列为下机编号，第二列为合同编号，第三列为开题单号，第四列为测序平台，第五列为样品名称)作为输入数据，通过调用其他的shell脚本以及自身的判断，进行流程图所示的过程。

在应用过程中，上述脚本会返回一系列详细的参数设置和对应的参数说明，指导数据分析人员正确使用这些方法。其中，参数分为两种类型：必要参数和可选参数。必要参数要求由数据分析人员提供输入值，无默认值。可选参数的默认值有预设值，分析人员也可以结合实际需求进行调整，具有灵活性。

在此说明书中，本发明已参照其特定的实施例作了描述。但是，很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此，说明书和附图应被认为是说明性的而非限制性的。

Claims

1.高通量Miseq测序数据自动化过滤方法，其特征在于，具体包括如下步骤：

1)输入要进行分析的项目信息步骤

2)高通量测序数据与项目信息的匹配步骤

3)对相应项目的数据进行预处理步骤

4)对数据进行初步统计步骤