CN109584963A

CN109584963A - 一种高通量测序数据的多样化抽取方法

Info

Publication number: CN109584963A
Application number: CN201811386221.1A
Authority: CN
Inventors: 杨帆; 吴倩华; 刘港彪; 孙子奎
Original assignee: Nanjing Parsono Gene Technology Co Ltd
Current assignee: Nanjing Parsono Gene Technology Co Ltd
Priority date: 2018-09-30
Filing date: 2018-11-20
Publication date: 2019-04-05

Abstract

本发明公开了一种高通量测序数据的多样化处理方法，其特征在于，包括如下步骤：参数设置步骤；数据校验；序列抽取步骤；数据统计及可视化步骤。本发明的有益效果在于适用面更广，输入多样化，抽取更高效，数据结果数据化。

Description

一种高通量测序数据的多样化抽取方法

技术领域

本发明属于生物信息数据处理领域，主要是一种高通量测序数据的多样化处理方法。

背景技术

2016年3月，精准医疗入选十三五100个重大项目，国家大力支持生物医学研究，生物行业基因测序因此快速发展，加之测序成本的降低和科学家在基因领域的研究深入，基因数据正以远超摩尔定律的速度在积累，精准医疗开启的生物大数据时代已正式到来。与此同时，生物信息分析需求越来越大，对相关分析算法和软件的要求也越来越高。因此需要对现有软件和相关算法分析流程进行不断的升级优化，在对算法及程序的运算效率、准确性、可重复性等多个指标进行评估时需要有高质量的相应梯度的数据，因此实现基因测序大数据的快速多样化抽取，以用于生物信息软件的多样化测试和分析就显得很重要。

现有的数据抽取方法存在如下几点问题：

适用面不广：目前测序平台种类较多，其产生的数据模式存在一定差别，导致产生的数据格式也存在一定的偏差。目前主流软件只能针对其中某些主流测序平台的测序数据进行抽取，对于其他平台类型的数据会存在一定的偏差。比如某些软件在测序片段等长的情况下比非等长的情况抽取的要准确。

输入条件单一：目前主流数据抽取软件，只能根据用户输入的序列数目进行抽取，不能满足用户的其他个性化需求，因此不利于对信息分析软件的多样化测试。

缺少批量抽取检测指标：在对数据进行多次抽取后，需要对数据进行齐性校验，以便确定数据是否在容差内，可否用于后续的数据分析。现有相关软件没有相对应的检测机制以展示抽取数据的质量分布情况。

发明内容

为了解决现有技术所存在的上述问题，本发明的目的是提供一种高通量测序数据的多样化处理方法，主要应用与第二代高通量测序领域，对下机数据进行多样化抽取。

为了实现本发明的目的之一，所采用的技术方案是：一种高通量测序数据的多样化处理方法，包括如下步骤：

参数设置步骤：输入测序机型(Miseq，NextSeq500，Hiseq，Novaseq)、测序模式、抽取方式、是否进行分布检验等。

数据校验步骤：对原始数据进行判断，先确定测序机型种类，然后判断读长是否相等，再判断测序模式，确定是单端测序还是双段测序。如果是双端测序还需要判断R1和R2的reads数目是否相等。

序列抽取步骤：根据客户需求，序列抽取方式包括：比例抽取、数据量抽取、序列数抽取三种；所述比例抽取是通过输入百分比值和其他参数实现抽取；所述数据量抽取是输入具体值以及上下浮动值进行抽取；所述序列数抽取是按照序列数目抽取相应数目的序列。

数据统计及可视化步骤：对抽取后的数据进行评估，判断所抽取数据是不是随机抽取，是否符合正态分布。

在本发明的一个优选实施例中，所述参数设置步骤具体包括：

(1)输入测序机型，没有输入则进行特征提取进行智能判断；

(2)输入测序模式，是单端测序还是双端测序；

(3)输入抽取方式，所述抽取方式包括数据量抽取、比例抽取、序列抽取；同时接受单次抽取或者多次抽取，多次抽取需要输入具体抽取次数的数值；

(4)输入是否检验参数，当进行多次抽取时候可以设置该参数。

在本发明的一个优选实施例中，所述数据校验步骤当中，所述测序机型种类包括Miseq，NextSeq500，Hiseq，Novaseq。

在本发明的一个优选实施例中，所述序列抽取步骤当中，所述的三种抽取方式可单独使用或组合使用。

本发明的主要创新点在于：

适用面更广：由于本方法对不同测序平台的数据进行特征提取，因此可以应用与不同测序平台的数据抽取分析。

输入多样化：本方法可以根据用户的喜好，输入不同的抽取指标，包含序列数目、实际数据量、数据比例。同时也提供单次抽取和多次批量抽取的功能。

抽取高效性：此方法引用了运行速度较快的编程语言和算法，进一步优化抽取数据过程，缩短抽取用时。

数据结果可视化：弥补现有软件方法的不足，将抽取数据结果进行图形展示，可以清楚看出数据量的分布，抽取情况等。

附图说明

图1为本发明的流程示意图。

图2为抽取数据量的分布示意图。

具体实施方式

以下通过实施例对本发明作进一步的说明，但这些实施例不得用于解释对本发明的限制。

为了实现本发明目的，本发明包括4大主要步骤，参数设置；数据校验；序列抽取；数据统计及可视化，具体如图1所示。

参数设置

1.输入测序机型，没有输入则进行特征提取进行智能判断；

2.输入测序模式，single或者paired；

3.输入抽取方式，根据需要选择按数据量，序列数目，比例的一种，同时接受单次抽取或者多次抽取，多次抽取需要输入具体数值；

4.输入是否检验参数，当进行多次抽取时候可以设置该参数对总体数据量的分布进行校验。

数据校验

1.对原始数据进行判断，先确定测序机型种类；

2.然后判断读长是否相等，以便于后续数据量的准确计算。

3.判断测序模式，确定是单端测序还是双段测序。如果是双端测序还需要判断R1和R2的reads数目是否一致，以便于后续的成对抽取。

序列抽取

根据不同用户需求，分为三种方式：

1.按比例抽取，根据输入的百分比数值进行相应数据的抽取，比如可以输入0.5，或者50％进行数据的抽取。对数据进行hash存储，通过键值进行快速提取。

2.按数据量抽取，根据具体的数据量进行数据抽取，比如10Gb，20Mb，支持多种常用的数据量单位。

3.按序列数目进行抽取，根据输入的具体序列数目进行相应的抽取分析。

数据统计及可视化

4.对抽取后的数据进行数据量评估，对于多次抽取的样本可以进行数据齐性检验，并进行数据量的分布检验。

为了令本发明更便于理解，下面针对本发明的各步骤进行具体的实施例描述：

以下通过实施例对本发明作进一步的说明，以Hiseq Xten,Paired-end测序数据为例子，随机抽取11±1G左右的数据,抽取1000次进行分析。

参数设置

1.输入测序机型Hiseq，传统的分析方法和相关软件没有对测序机型进行判断这个功能，也缺乏相应的特征提取判断。

2.输入测序模式，本实施例为paired，根据此参数，程序会对数据的完整性进行检查。

3.输入抽取方式，根据需要选择按数据量，序列数目，比例的一种，同时接受设置是单次抽取或者多次抽取。本实施例按照数据量进行抽取，抽取11Gb，浮动范围设置为1Gb，按照多次抽取模式，抽取1000次；

4.输入是否检验参数，本实施例中进行多次抽取，设置该参数对总体数据量的分布进行校验。

数据校验

1.对原始数据进行判断，先确定测序机型种类，是属于Hiseq，Miseq，NoveSeq的哪一种，本实施例子中的为Hiseq。如果没有输入机型，程序则提取序列文件头进行特征提取进行智能判断；

2.本实施例子中的测序模式为paired，本方法首先会检查是否有配对的数据(R1,R2),其次，会对R1,R2的序列数目进行一致性判断。现有传统分析方法缺少对序列数目的一致性进行判断。

序列抽取

根据不同用户需求，分为三种方式：

目前传统方法只能够按照数据量，序列数目，比例中的一种进行抽取，且不允许有浮动范围，只能够抽一次。本发明方法可以允许多种抽取方式，且可以设置数据浮动范围，进行多次抽取。本实施例按照数据量进行抽取，抽取11Gb，浮动范围设置为1Gb，按照多次抽取模式，抽取1000次；

数据统计及可视化

1.对抽取后的数据进行数据量评估，对于多次抽取的样本可以进行数据齐性检验，并进行数据量的分布检验。本实施案例中，对抽取的1000次数据量进行分布作图，并进行相应的分布检验。结果如附图2。传统分析方法中缺少对抽取数据的分布检验。

Claims

1.一种高通量测序数据的多样化处理方法，其特征在于，包括如下步骤：

参数设置步骤：输入测序机型、读长模式、抽取方式、是否进行分布检验等；

数据校验步骤：对原始数据进行判断，先确定测序机型种类，然后判断读长是否相等，再判断测序模式，确定是单端测序还是双段测序，如果是双端测序还需要判断R1和R2的reads数目是否相等；

序列抽取步骤：根据客户需求，序列抽取方式包括：比例抽取、数据量抽取、序列数抽取三种；所述比例抽取是通过输入百分比值和其他参数实现抽取；所述数据量抽取是输入具体值以及上下浮动值进行抽取；所述序列数抽取是按照序列数目抽取相应数目的序列；

2.如权利要求1所述的一种高通量测序数据的多样化处理方法，其特征在于，所述参数设置步骤具体包括：

(1)输入测序机型，没有输入则进行特征提取进行智能判断；

(2)输入测序模式，是单端测序还是双端测序；

(3)输入抽取方式，所述抽取方式包括数据量抽取、比例抽取、序列数目抽取；同时允许单次抽取或者多次抽取，多次抽取需要输入具体抽取次数的数值；

3.如权利要求1所述的一种高通量测序数据的多样化处理方法，其特征在于，所述数据校验步骤当中，测序机型种类包括Miseq，NextSeq500，Hiseq，Novaseq。

4.如权利要求1所述的一种高通量测序数据的多样化处理方法，其特征在于，所述序列抽取步骤当中，所述的三种抽取方式可单独使用或组合使用。