CN106650308A

CN106650308A - 一种线粒体高通量测序数据处理方法及系统

Info

Publication number: CN106650308A
Application number: CN201610977426.1A
Authority: CN
Inventors: 任永永; 全雪萍; 郝占平
Original assignee: Shuo Medical Data Technology (beijing) Co Ltd
Current assignee: Shuo Medical Data Technology (beijing) Co Ltd
Priority date: 2016-11-07
Filing date: 2016-11-07
Publication date: 2017-05-10

Abstract

本发明涉及一种线粒体高通量测序数据处理方法及系统，涉及生物信息技术领域。对线粒体高通量测序数据来源进行测序鉴定获取数据格式并记录；对鉴定后的数据进行质控分析判断测序数据质量是否达标，若测序数据质量不达标，则退出处理流程并报告质控未达标；若测序数据质量达标，则根据测序数据的来源对质量达标的测序数据进行序列比对，若序列对比未成功，则退出处理流程并报告序列对比未成功，若序列对比成功，则将对比成功后的测序数据进行基因组学注释。本发明可以在不连接Internet的情况下对线粒体基因检测数据进行高自动化批量分析处理，并对基因变异按照临床检测和实验科学研究进行分类展示，方便临床应用和科学研究。

Description

一种线粒体高通量测序数据处理方法及系统

技术领域

本发明涉及生物信息技术领域。

背景技术

目前，已有的针对线粒体的二代测序数据分析流程主要是由对测序数据质量控制、将测序得到的大量短序列片段比对到已知人类参考序列、寻找变异、对变异进行基因组学注释和疾病关联注释5步组成。但是，流程中上一步的输出文件和下一步所需输入文件格式不同，造成无法实现数据的高自动化分析，且已有的基因组学注释软件如适用度和知名度很高的ANNOVAR和SnpEff对核DNA中的变异注释较为精确，但对线粒体DNA上的变异无法正确注释变异所位于的基因、氨基酸改变以及变异发生的位置，极易造成错误的科研指导和错误的临床解读；在致病关联注释步骤中，已有的软件只能连接Internet使用，这又极大的限制了使用范围。

发明内容

本发明为了解决目前线粒体基因组学注释不准确的问题，提出了一种线粒体高通量测序数据处理方法及系统。

本发明解决上述技术问题的技术方案如下：一种线粒体高通量测序数据处理方法，所述方法包括：

S1、对线粒体高通量测序数据来源进行测序鉴定获取数据格式并记录；

S2、对鉴定后的数据进行质控分析判断测序数据质量是否达标，若测序数据质量不达标，则退出处理流程并报告质控未达标；若测序数据质量达标，则执行S3；

S3、根据测序数据的来源对质量达标的测序数据进行序列比对，若序列对比未成功，则退出处理流程并报告序列对比未成功，若序列对比成功，则执行S4；

S4、将对比成功后的测序数据进行基因组学注释。

本发明的有益效果是：本发明可以在不连接Internet的情况下对线粒体基因检测数据进行高自动化批量分析处理，并对基因变异按照临床检测和实验科学研究进行分类展示，方便临床应用和科学研究。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，所述S1的具体实现过程为：

对线粒体高通量测序数据来源进行测序鉴定，若测序数据为fastq格式，则为Illnumina数据，如果为bam格式，则为Ion Torrent数据。

采用上述进一步方案的有益效果是：本发明能够同时兼容Illnumina和IonTorrent两种平台测序后数据分析的需求，自动化且不需连接Internet便可使用。

进一步，所述S2中若测序数据来源为Illnumina数据，则直接进行质控分析，若测序数据来源为Ion Torrent数据，则将bam格式的文件转换为fastq格式再进行质控分析。

进一步，所述S3中序列比对过程为：根据测序数据的来源采用不同序列比对软件将测序后100bp至300bp的测序短片段映射到线粒体基因组上。

为了解决上述技术问题，本发明提出了一种线粒体高通量测序数据处理系统，所述系统包括：

数据来源判断模块，用于对线粒体高通量测序数据来源进行测序鉴定获取数据格式并记录；

原始数据质量检测模块，用于对鉴定后的数据进行质控分析判断测序数据质量是否达标，若测序数据质量不达标，则退出处理流程并报告质控未达标；若测序数据质量达标，则启动序列对比模块；

序列对比模块，用于根据测序数据的来源对质量达标的测序数据进行序列比对，若序列对比未成功，则退出处理流程并报告序列对比未成功，若序列对比成功，则启动基因组学注释模块；

基因组学注释模块，用于将对比成功后的测序数据进行基因组学注释。

进一步，所述数据来源判断模块中所述的数据格式为Illnumina数据或IonTorrent数据，若测序数据为fastq格式，则为Illnumina数据，如果为bam格式，则为IonTorrent数据。

进一步，所述原始数据质量检测模块中，若测序数据来源为Illnumina数据，则直接进行质控分析，若测序数据来源为Ion Torrent数据，则将bam格式的文件转换为fastq格式再进行质控分析。

进一步，所述序列对比模块中，根据测序数据的来源采用不同序列比对软件将测序后100bp至300bp的测序短片段映射到线粒体基因组上。

附图说明

图1为本发明实施例所述的线粒体高通量测序数据处理方法的流程图；

图2为本发明实施例所述的线粒体上存在的变异位点的示意图；

图3为本发明实施例所述的采用SnpEff软件的变异的注释结果；

图4为本发明实施例所述的采用ANNOVAR软件的变异的注释结果；

图5为本发明实施例所述的采用本发明所述方法的变异的注释结果；

图6为本发明实施例所述的线粒体高通量测序数据处理系统的原理示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

实施例1

如图1所示，本实施例提出了一种线粒体高通量测序数据处理方法，所述方法包括：

S1、对线粒体高通量测序数据来源进行测序鉴定获取数据格式并记录；若测序数据为fastq格式，则为Illnumina数据，如果为bam格式，则为Ion Torrent数据；

对数据进行质控分析可采用FastQC软件实现，该软件所需输入文件为fastq格式的问题，因此，如果测序后数据来源为Illnumina，则直接进行质控分析，如果来源为IonTorrent，则需先将bam格式的文件转为Illnumina然后再使用FastqQC进行质控分析；

序列比对过程为：根据测序数据的来源采用不同序列比对软件将测序后100bp至300bp的测序短片段映射到线粒体基因组上；Illnumina可使用bwa序列对比软件，IonTorrent可使用TMAP序列对比软件；

S4、将对比成功后的测序数据进行基因组学注释。

如图2所示为线粒体上存在的变异位点，图3、图4和图5分别为SnpEff、ANNOVAR和本实施例对图2中的变异的注释结果，从结果可以看出对相同变异，ANNOVAR无法注释出变异所在的基因及氨基酸变异；SnpEff无法正确注释出第一个变异所在的基因，对第二个变异的注释虽包含正确基因，但同时给出大量无关基因；本实施例准确注释出2个变异所在的基因及氨基酸变化。

实施例2

如图6所示，本实施例提出了一种线粒体高通量测序数据处理系统，所述系统包括：

数据来源判断模块，用于对线粒体高通量测序数据来源进行测序鉴定获取数据格式并记录；若测序数据为fastq格式，则为Illnumina数据，如果为bam格式，则为IonTorrent数据；

目前用于基因组学注释的2大主流软件为ANNOVAR和SnpEff。但是，ANNOVAR的弊端是对同时存在插入和缺失的变异、非编码区和基因共享区的变异无法准确注释，且对插入或缺失变异的注释没有严格采用HGVS的标准，造成氨基酸改变注释错误。SnpEff的优点是注释采用了HGVS的标准，但缺点是对线粒体上变异注释不准确，变异定位到的基因不准确。本实施例所述的基因组学注释模块对单核苷酸变异、插入、缺失、插入缺失共存类型的变异依据HGVS标准对氨基酸改变和变异隶属基因进行精确准确注释。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种线粒体高通量测序数据处理方法，其特征在于，所述方法包括：

S4、将对比成功后的测序数据进行基因组学注释。

2.根据权利要求1所述的一种线粒体高通量测序数据处理方法，其特征在于，所述S1的具体实现过程为：

3.根据权利要求2所述的一种线粒体高通量测序数据处理方法，其特征在于，所述S2中若测序数据来源为Illnumina数据，则直接进行质控分析，若测序数据来源为Ion Torrent数据，则将bam格式的文件转换为fastq格式再进行质控分析。

4.根据权利要求3所述的一种线粒体高通量测序数据处理方法，其特征在于，所述S3中序列比对过程为：根据测序数据的来源采用不同序列比对软件将测序后100bp至300bp的测序短片段映射到线粒体基因组上。

5.一种线粒体高通量测序数据处理系统，其特征在于，所述系统包括：

6.根据权利要求5所述的一种线粒体高通量测序数据处理系统，其特征在于，所述数据来源判断模块中所述的数据格式为Illnumina数据或Ion Torrent数据，若测序数据为fastq格式，则为Illnumina数据，如果为bam格式，则为Ion Torrent数据。

7.根据权利要求6所述的一种线粒体高通量测序数据处理系统，其特征在于，所述原始数据质量检测模块中，若测序数据来源为Illnumina数据，则直接进行质控分析，若测序数据来源为Ion Torrent数据，则将bam格式的文件转换为fastq格式再进行质控分析。

8.根据权利要求7所述的一种线粒体高通量测序数据处理系统，其特征在于，所述序列对比模块中，根据测序数据的来源采用不同序列比对软件将测序后100bp至300bp的测序短片段映射到线粒体基因组上。