CN106557666A

CN106557666A - 一种能够基于Nextseq500高通量测序平台的数据过滤方法

Info

Publication number: CN106557666A
Application number: CN201611006194.1A
Authority: CN
Inventors: 周南; 叶伟星; 姜丽荣; 孙子奎
Original assignee: SHANGHAI PERSONAL BIOTECHNOLOGY CO Ltd
Current assignee: SHANGHAI PERSONAL BIOTECHNOLOGY CO Ltd
Priority date: 2016-11-15
Filing date: 2016-11-15
Publication date: 2017-04-05

Abstract

本发明公开的一种能够基于Nextseq 500高通量测序平台的数据过滤方法，包括如下步骤：1)输入要进行分析的项目信息步骤；2)从存储数据的服务器调取原始测序数据步骤；3)对得到的测序数据进行标记步骤；4)将获取的对应项目的数据进行预处理步骤；5)查看日志，保证结果的无误性步骤。本发明的有益效果在于：基于linux shell的自动化分许流程，可进行批量项目分析，提高服务器使用效率，减少分析人员的分析压力，便于控制分析内容。

Description

一种能够基于Nextseq 500高通量测序平台的数据过滤方法

技术领域

本发明属于分子生物信息检测领域，具体涉及一种能够基于Nextseq 500高通量测序平台的数据过滤方法，该方法用在已有高通量测序数据匹配基础上，基于linux跨服务器数据自动传送的能力，以提高多样本测序数据过滤的效率以及分析效率，减少人为输入错误而对分析结果造成的错误。

背景技术

随着高通量测序技术的飞速发展，全基因组测序也在生物物种研究等领域得到广泛应用，而对于第二代高通量测序仪Nextseq 500的下机原始数据的过滤就显得尤为重要，普通的数据过滤方法大多通过人为的区分不同样本，不同上机次数产生的数据，容易造成人为误差，或因为样本数量过多而导致的繁重工作任务。

发明内容

本发明的目的在于提供一种基于linux shell的自动化分析流程，可进行批量原始数据过滤分析，提高服务器使用效率，减少分析人员的分析压力，便于控制分析内容的能够基于Nextseq 500高通量测序平台的数据过滤方法。

为了实现上述发明目的，本发明所采用的技术方案如下：

一种能够基于Nextseq 500高通量测序平台的数据过滤方法，包括如下步骤：

1)输入要进行分析的项目信息步骤

格式大致为一行表示一个项目的信息，第一列元素为合同号，第二列为样品名称，其中间隔符设置为制表符；

2)从存储数据的服务器调取原始测序数据步骤

在编写的perl脚本中设定一个数据存储位置的变量，方便调取测序数据，与原来的不同是根据输入的合同号自动寻找文件，避免手动输入造成的麻烦；

3)对得到的测序数据进行标记步骤

根据Nextseq 500测序仪得到的数据特点，在编写的perl脚本中对这个特定的barcode序列进行筛选；

4)将获取的对应项目的数据进行预处理步骤

包括对于样品名字的处理，以及质量过滤，去除引物和barcode，随后得到优质序列进行分析；

5)查看日志，保证结果的无误性步骤

在进行标准分析流程的同时，如果分析出现的问题，会将错误信息以及错误的位置写入到日志文件中，流程结束后，查看日志文件，保证结果的无误性，如果出现问题，则查找原因，修复错误。

本发明基于Nextseq 500下机数据的特点，且利用不同于其他测序平台的原始数据文件内容，通过开发软件分析达到高效、简洁的数据过滤效果，能够根据使用者自身定制的配置文件，软件自行寻找数据编号，及存放位置等等信息，能够实现多样本的数据过滤过程。

本发明的有益效果在于：

基于linux shell的自动化分许流程，可进行批量项目分析，提高服务器使用效率，减少分析人员的分析压力，便于控制分析内容。

附图说明

图1为本发明的基于Nextseq 500高通量测序平台的数据过滤流程的方法流程图。

具体实施方式

为了能够更清楚地理解本发明的技术内容，特举以下实施例详细说明。

请参阅图1所示，为本发明的高通量测序数据处理方法的步骤流程图。

在具体实施方式中，该方法如图1所示包括以下步骤：

(1)准备需要分析的项目的信息文件，第一列元素为合同号，第二列为样品名称，其中间隔符设置为制表符；

(2)检测信息是否满足条件(格式是否正确)，；

(3)格式正确后，读取输入的配置文件，将对应项目进行任务分配；

(4)查找项目的对应的数据，判断是否存在，如果存在，传送数据到工作目录进行下一步，如果不存在，写入日志，该项目对应的任务退出；

(5)判断读入的原始数据是否为Nextseq 500测序仪产生的下机数据，判断机制与上一条类似；

(6)如果上述判断未出现问题，开始进行流程分析，如果流程中局部出现问题，也会写入日志，方便检查。

在实际应用中，本发明的方法所利用的工具包共包含2个perl脚本代码，每个脚本名称如下：

(1)NextSeq500_DataFilter.pl

(2)MiSeqQualityV2.0.pl

上述每个脚本既能够独立执行，也可以嵌入到已有的数据分析流程中，使用非常灵活。

每个脚本的代码编写基于perl语言，可以在Linux、MacOS等多种类unix系统平台下使用。代码运行过程中，耗费系统资源少，能够在任意一台个人PC、工作站和或服务器上进行使用。

每个脚本都应对高通量数据分析后期经常所需的操作进行设计。

1、NextSeq500_DataFilter.pl，主程序，以项目信息文件作为输入数据，通过调用另一个perl脚本以及自身的判断，进行流程图所示的过程。

2、以下机的原始数据作为输入数据，通过调用其他的shell脚本以及自身的判断，进行流程图所示的过程。

此外，通过这2个独立脚本之间的不同组合能够帮助用户决解一系列高通量数据基于Nextseq 500下机数据的数据过滤分析操作难题。

在应用过程中，上述脚本会返回一系列详细的参数设置和对应的参数说明，指导数据分析人员正确使用这些方法。其中，参数分为两种类型：必要参数和可选参数。必要参数要求由数据分析人员提供输入值，无默认值。可选参数的默认值有预设值，分析人员也可以结合实际需求进行调整，具有灵活性。

在此说明书中，本发明已参照其特定的实施例作了描述。但是，很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此，说明书和附图应被认为是说明性的而非限制性的。

Claims

1.一种能够基于Nextseq 500高通量测序平台的数据过滤方法，包括如下步骤：

1)输入要进行分析的项目信息步骤

2)从存储数据的服务器调取原始测序数据步骤

3)对得到的测序数据进行标记步骤

4)将获取的对应项目的数据进行预处理步骤

5)查看日志，保证结果的无误性步骤