CN106599614B

CN106599614B - 一种高通量测序数据处理及分析流程控制方法及系统

Info

Publication number: CN106599614B
Application number: CN201610978322.2A
Authority: CN
Inventors: 刘宇婧; 任永永; 全雪萍; 郝占平
Original assignee: Vishuo Medical Data Technology Beijing Co ltd
Current assignee: Vishuo Medical Data Technology Beijing Co ltd
Priority date: 2016-11-07
Filing date: 2016-11-07
Publication date: 2020-05-19
Anticipated expiration: 2036-11-07
Also published as: CN106599614A

Abstract

本发明涉及一种高通量测序数据处理及分析流程控制方法及系统，涉及分子生物信息学领域。设定流程参数配置文件，储存分析模块脚本路径和参考基因组数据库；根据用户操作生成描述样本数据信息和分析需求的参数配置文件；设定分析参数配置文件和功能应用，分别储存针对不同需求分析的参数和分析过程中所应用的功能；将描述样本数据信息、分析需求的参数配置文件与分析参数配置文件进行匹配，并调用流程参数配置文件进行处理获得处理结果文件。本发明提供一种通过不同数据处理模块的选取，帮助科研人员迅速完成标准化的高通量数据分析流程，从而优化科研人员和数据分析专员的工作时间分配，提升工作效率、降低总体科研成本。

Description

一种高通量测序数据处理及分析流程控制方法及系统

技术领域

本发明涉及分子生物信息学领域，具体涉及DNA测序数据分析技术领域。

背景技术

新一代高通量测序技术的出现极大地丰富了人们利用分子生物学手段研究细胞内变化规律的方案。目前诸如全基因组测序,全外显子测序,全转录组测序以及靶向目标重测序等在内的众多高通量测序技术，都有相关的分析方法或分析流程供科研人员使用，并总结出相应的数据处理分析的标准流程。但是，如何高效地选择使用这些标准化的分析流程，降低科研人员在数据分析时的重复劳动，数据分析的时间成本，选择适合分析目的的流程，过滤参数目前仍然没有一个有效的解决方案供广大技术从业人员参考，这无形中增加了数据分析人员的工作负担。

发明内容

本发明为了解决上述现有技术当中所存在的问题，提出了一种高通量测序数据处理及分析流程控制方法及系统。

本发明解决上述技术问题的技术方案如下：一种高通量测序数据处理及分析流程控制方法，所述方法包括：

S1、设定流程参数配置文件，储存分析模块脚本路径和参考基因组数据库；

S2、根据用户操作生成描述样本数据信息和分析需求的参数配置文件；

S3、设定分析参数配置文件和功能应用，分别储存针对不同需求分析的参数和分析过程中所应用的功能；

S4、将描述样本数据信息、分析需求的参数配置文件与分析参数配置文件进行匹配，并调用流程参数配置文件进行处理获得处理结果文件。

本发明的有益效果是：本发明提供一种通过不同数据处理模块的选取，帮助科研人员迅速完成标准化的高通量数据分析流程，从而优化科研人员和数据分析专员的工作时间分配，提升工作效率、降低总体科研成本。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，所述S1中所述的流程参数配置文件用于储存多种高通量分析流程名称信息、参考基因路径信息和参考数据库路径信息。

进一步，所述S2中生成的描述样本数据信息包括测序结果文件类型、样本来源、样本标识、组织类型、疾病名称、测序平台、建库方法和人种中的一种或几种。

进一步，所述S3中所述的分析参数配置文件用于储存针对不同疾病、测序结果文件类型、样本来源、样本标识、测序平台、建库方法、分析需求和分析流程的参数。

进一步，所述S4具体包括：

S41、将S2中生成的描述样本数据信息和分析需求的参数配置文件与S3中设定的分析参数配置文件进行匹配；

S42、根据疾病、测序结果文件类型、样本来源、样本标识、测序平台、建库方法以及分析需求调用S1中流程参数配置文件生成符合数据特征和需求的分析流程；

S43、根据S2中数据信息和分析需求选择S3中设定的分析参数配置文件中的过滤参数，实现数据分析流程运作，获得处理结果文件。

为了解决上述问题，本发明还提出了一种高通量测序数据处理及分析流程控制系统，所述系统包括：

流程参数配置文件设置模块，用于设定流程参数配置文件，储存分析模块脚本路径和参考基因组数据库；

配置文件生成模块，用于根据用户操作生成描述样本数据信息和分析需求的参数配置文件；

分析参数配置文件设置模块，用于设定分析参数配置文件和功能应用，分别储存针对不同需求分析的参数和分析过程中所应用的功能；

文件处理模块，用于将描述样本数据信息、分析需求的参数配置文件与分析参数配置文件进行匹配，并调用流程参数配置文件进行处理获得处理结果文件。

进一步，流程参数配置文件设置模块中所述的流程参数配置文件用于储存多种高通量分析流程名称信息、参考基因路径信息和参考数据库路径信息。

进一步，配置文件生成模块中生成的描述样本数据信息包括测序结果文件类型、样本来源、样本标识、组织类型、疾病名称、测序平台、建库方法和人种中的一种或几种。

进一步，分析参数配置文件设置模块中所述的分析参数配置文件用于储存针对不同疾病、测序结果文件类型、样本来源、样本标识、测序平台、建库方法、分析需求和分析流程的参数。

进一步，文件处理模块包括：

匹配模块，用于将配置文件生成模块中生成的描述样本数据信息和分析需求的参数配置文件与分析参数配置文件设置模块中设定的分析参数配置文件进行匹配；

调用模块，用于根据疾病、测序结果文件类型、样本来源、样本标识、测序平台、建库方法以及分析需求调用流程参数配置文件设置模块中流程参数配置文件生成符合数据特征和需求的分析流程；

文件获取模块，用于根据配置文件生成模块中数据信息和分析需求选择分析参数配置文件设置模块中设定的分析参数配置文件中的过滤参数，实现数据分析流程运作，获得处理结果文件。

附图说明

图1为本发明实施例所述的高通量测序数据处理及分析流程控制方法的流程图；

图2为本发明实施例所述的获得处理结果文件的流程图；

图3为本发明实施例所述的高通量测序数据处理及分析流程控制系统的原理示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

实施例1

如图1所示，本实施例提出了一种高通量测序数据处理及分析流程控制方法，所述方法包括：

所述流程参数配置文件中参数包括针对肿瘤、单基因疾病、线粒体疾病、传染性疾病和健康风险预测等需求，兼容靶向重测序、全基因组、全外显子、线粒体基因组以及病毒基因组测序数据的不同流程。

所述的流程参数配置文件用于储存多种高通量分析流程名称信息、参考基因路径信息和参考数据库路径信息。

S2、根据用户操作生成描述样本数据信息和分析需求的参数配置文件；参数包括：测序结果文件类型，样本来源，样本标识，组织类型，疾病名称，测序平台，建库方法，人种。

参数包括用于保留可信变异位点的变异深度/覆盖深度阈值、插入/缺失长度阈值、ITD(内部串联重复)的重复序列相似度阈值，适用于不同组织类型样本(肿瘤/正常组织)的参数组合，以及适用于不同测序平台和建库方法的数据处理和方法组合；

分析过程中所应用的功能包括：质量控制、数据预处理、序列比对、变异识别、拷贝数变化检测、结构变异识别、变异位置注释和功能注释。

S4、将描述样本数据信息、分析需求的参数配置文件与分析参数配置文件进行匹配，并调用流程参数配置文件进行处理获得处理结果文件；

所述获得处理结果文件的具体过程如图2所示：

从描述样本数据信息和分析需求的参数配置文件中取出数据特征参数(例如，测序平台，建库方法，分子类型，样本/比对样本，人种)并从分析参数配置文件匹配中取出数据分析需求(例如肿瘤体细胞变异检测，内部串联重复检测，是否有指定使用软件)调用流程参数配置文件生成符合上传样本数据特征和需求的分析流程。以用于个性化用药方案的肿瘤石蜡包埋样本提取DNA经Illumina平台靶向重测序单样本分析为例，系统按顺序调用适合Illumina平台靶向重测序的数据预处理模块、序列比对模块、肿瘤体细胞DNA变异检测模块、根据变异深度/覆盖深度阈值、插入/缺失长度阈值、ITD(内部串联重复)的重复序列相似度阈值保留可信变异位点的过滤模块、序列矫正模块、注释模块(只保可能影响靶向用药的编码区有意义突变)生成分析流程。

最终由系统执行主控文件，根据数据特征和需求动态生成过滤参数，实现数据分析流程运作，获得处理结果文件。以用于个性化用药方案的肿瘤石蜡包埋样本提取DNA经Illumina平台靶向重测序单样本分析为例，主控文件会调用适合肿瘤石蜡包埋样本提取DNA的保留可信变异位点的变异深度/覆盖深度阈值、插入/缺失长度阈值、ITD(内部串联重复)的重复序列相似度阈值作为过滤参数，执行生成的分析流程文件。

所述对基因测序结果信息进行分析具体包括以下步骤：

根据基因测序结果数据特征和需求选择分析流程；

通过选择的分析流程对基因测序结果信息中的全部或部分测序短小序列与参考基因组比对，得到变异基因信息。

检测人体中体细胞突变,分析流程兼容靶向捕获测序数据、全外显子组测序数据和全基因组测序数据；

所述分析流程的数据结构为Illumina平台的fastq文件，或者是Ion torrent平台的bam文件。

Illumina平台的的fastq的分析流程：去除低质量碱基、采用sliding window算法去除包含较多低质量碱基的测序段片段、去除接头序列污染，进入比对阶段，将测序结果与人类基因组参考序列进行比对，过滤掉比对质量低的碱基序列，得到bam文件，进行变异位点提取，获得基因变异信息，包括单核苷酸变异(SNVs)、基因嵌入和缺失(Indel)；对于全外显子和全基因组测序数据还包括拷贝数变异(CNV)、基因易位(gene translocations)等结构变异，得到VCF文件，进行过滤去除不可信变异，进行位置注释以及功能注释得到变异结果文件。

Ion torrent平台的bam文件：首先把bam文件转换回fastq文件进行质控，然后进入比对和变异识别，获得基因变异信息，包括单核苷酸变异(SNVs)、基因嵌入和缺失(Indel)、及全外显子组测序的拷贝数变异(CNV)、基因易位(gene translocations)等结构变异，得到VCF文件，进行过滤去除不可信变异，进行位置注释以及功能注释得到变异结果文件。

实施例2

如图3所示，本实施例提出了一种高通量测序数据处理及分析流程控制系统，所述系统包括：

配置文件生成模块，用于根据用户操作生成描述样本数据信息和分析需求的参数配置文件；参数包括：测序结果文件类型，样本来源，样本标识，组织类型，疾病名称，测序平台，建库方法，人种。

所述文件处理模块具体包括：

所述对基因测序结果信息进行分析具体包括以下步骤：

根据基因测序结果数据特征和需求选择分析流程；

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种高通量测序数据处理及分析流程控制方法，其特征在于，所述方法包括：

S1、设定流程参数配置文件，储存分析模块脚本路径和参考基因组数据库；S1中所述的流程参数配置文件用于储存多种高通量分析流程名称信息、参考基因路径信息和参考数据库路径信息；

S2、根据用户操作生成描述样本数据信息和分析需求的参数配置文件；S2中生成的描述样本数据信息包括测序结果文件类型、样本来源、样本标识、组织类型、疾病名称、测序平台、建库方法和人种中的一种或几种；

S3、设定分析参数配置文件和功能应用，分别储存针对不同需求分析的参数和分析过程中所应用的功能；S3中所述的分析参数配置文件用于储存针对不同疾病、测序结果文件类型、样本来源、样本标识、测序平台、建库方法、分析需求和分析流程的参数；

所述S4具体包括：

2.一种高通量测序数据处理及分析流程控制系统，其特征在于，所述系统包括：

流程参数配置文件设置模块，用于设定流程参数配置文件，储存分析模块脚本路径和参考基因组数据库；流程参数配置文件设置模块中所述的流程参数配置文件用于储存多种高通量分析流程名称信息、参考基因路径信息和参考数据库路径信息；

配置文件生成模块，用于根据用户操作生成描述样本数据信息和分析需求的参数配置文件；配置文件生成模块中生成的描述样本数据信息包括测序结果文件类型、样本来源、样本标识、组织类型、疾病名称、测序平台、建库方法和人种中的一种或几种；

分析参数配置文件设置模块，用于设定分析参数配置文件和功能应用，分别储存针对不同需求分析的参数和分析过程中所应用的功能；分析参数配置文件设置模块中所述的分析参数配置文件用于储存针对不同疾病、测序结果文件类型、样本来源、样本标识、测序平台、建库方法、分析需求和分析流程的参数；

文件处理模块，用于将描述样本数据信息、分析需求的参数配置文件与分析参数配置文件进行匹配，并调用流程参数配置文件进行处理获得处理结果文件；

文件处理模块包括：