CN111210875A

CN111210875A - 一种生物信息变异位点数据格式转换方法

Info

Publication number: CN111210875A
Application number: CN202010029898.0A
Authority: CN
Inventors: 罗奇斌; 申玉林; 廖胜光; 任毅
Original assignee: Beijing Qiyunnord Information Technology Co Ltd
Current assignee: Beijing Qiyunnord Information Technology Co Ltd
Priority date: 2020-01-13
Filing date: 2020-01-13
Publication date: 2020-05-29

Abstract

本发明涉及基因工程技术领域，且公开了一种生物信息变异位点数据格式转换方法，所述转换方法的步骤包括有S1：通过转换系统的配置文件输入配制数据，确定转换系统参考序列文件和指定数据路径、相关软件的调用等参数；S2：启动转换系统，转换系统根据指定数据路径获取相关数据。该生物信息变异位点数据格式转换方法，只需在配置文件中修改添加参数即可完成对所有的软件进行配置，避免了对大量软件的直接操作，提高了生物信息分析效率，实现了原始数据到中间数据及最终数据的一键式转换过程，直接获取关键SNP分型信息，操作过程大大的简化，并且还支持任何运行阶段的数据输出，便于验证和检查。

Description

一种生物信息变异位点数据格式转换方法

技术领域

本发明涉及基因工程技术领域，具体为一种生物信息变异位点数据格式转换方法。

背景技术

基因体检的基础是基因测序技术的飞速发展和科学家对基因研究的日益深入，上世纪九十年代人类启动了“人类基因组计划”，利用荧光标记碱基后捕捉荧光信号，从而获得基因碱基序列信息，测序技术从第一代到如今的第三代第四代测序技术，发展经历了三十多年，测序通量、准确率大幅提高，耗时、成本大幅降低。随着基因检测由单独用于科研发展到临床级别和消费级别，市场对基因数据的高效准确处理的要求也越来越高，针对不同的测序方法，基因数据的分析方法也不尽相同，以二代测序技术(NGS)为例，测序下机数据一般会经过质量分析、数据过滤、序列比对、短序列排序、突变获取与注释等，最终获得SNP基因型数据，进一步进行解读并出具报告。数据分析流程和文件格式等如图1所示，测序数据的好坏会直接影响下有分析的结果，因此获取了NGS下机数据后需要分析数据的质量，常用的软件有 fastqc、multiqc等；数据通过质检后，我们将取出接头序列和低质量序列，以便后续分析，常用工具有SOAP等；下来需要把这些短序列与参考基因组进行对比，确定短序列在基因组上的位置，通常使用BWA软件生成*.sam文件；比对后用samtools进行排序、建索引，得到reads在参考序列中的位置和质量，得到*.bam文件；最后用GATK等得到*.vcf文件，对*.vcf文件中感兴趣的SNP和基因型提取最终获取SNP基因分型数据。

在上述过程中，流程处理数据过程繁琐，不同数据格式间的转换需要进行不同的分析流程，因此我们开发这套格式转换系统的目的是简化生物信息分析流程，做到“一键化”格式转换和数据处理，直接简单的获取SNP分型数据。

发明内容

针对上述背景技术的不足，本发明提供了一种生物信息变异位点数据格式转换方法，具备“一键化”格式转换和数据处理的优点，解决了背景技术提出的问题。

本发明提供如下技术方案：一种生物信息变异位点数据格式转换方法，所述转换方法的步骤包括有：

S1：通过转换系统的配置文件输入配制数据，确定转换系统参考序列文件和指定数据路径、相关软件的调用等参数；

S2：启动转换系统，转换系统根据指定数据路径获取相关数据；

S3：识别相关数据类型，并根据数据类型和配置文件数据确定调用的程序和顺序；

S4：依次调用并配置程序相关参数，读取上一步获得的相关数据后运行程序，获得特定数据类型的数据并按照配置文件中路径保存数据；

S5：运行结束，输出SNP分型数据。

优选的，所述转换系统包括有数据识别模块、配置模块和程序调用模块，所述配置模块根据用户输入的配置文件数据对转换系统和相关应用程序的参数进行配置，所述数据识别模块根据配置模块指定的路径调取数据并识别，根据识别需要调用的程序，所述程序调用模块设置有与程序对应的调用单元，所述调用单元在调用对应程序时先根据配置文件数据对程序进行配置。

优选的，所述程序运算结束后输出并保存特定类型的数据，然后返回给转换系统一个数据保存路径，所述转换程序在调用下一个程序时将该数据保存路径指定为下一个程序的数据读取路径。

优选的，所述配置系统可以通过配置文件修改最终输出的文件类型。

优选的，所述配置系统由Python编程语言实现对各个软件的高效串接和自动化操作优选的。

本发明具备以下有益效果：

1、该生物信息变异位点数据格式转换方法，只需在配置文件中修改添加参数即可完成对所有的软件进行配置，避免了对大量软件的直接操作，提高了生物信息分析效率。

2、该生物信息变异位点数据格式转换方法，实现了原始数据到中间数据及最终数据的一键式转换过程，直接获取关键SNP分型信息，操作过程大大的简化，并且还支持任何运行阶段的数据输出，便于验证和检查。

附图说明

图1为二代测序技术(NGS)的数据分析流程和数据类型；

图2为本发明方法中转换系统的控制关系图；

图3为本发明方法中转换系统的示意图；

图4为本发明实施方式的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-4，一种生物信息变异位点数据格式转换方法，转换方法的步骤包括有：

S1：通过转换系统的配置文件输入配制数据，确定转换系统参考序列文件和指定数据路径、相关软件的调用等参数，本实施例基于二代测序技术 (NGS)，输入数据类型为fastq数据；

S2：启动转换系统，转换系统根据指定数据路径获取相关数据，转化系统读取指定路径的fastq数据；

S3：识别相关数据类型，并根据数据类型和配置文件数据确定调用的程序和顺序，在本实施例中，基于fastq数据和配置文件确定需要一次调用 fastqc、SOAP、BWA、samtools、Picard和GATK等软件；

S4：依次调用并配置程序相关参数，读取上一步获得的相关数据后运行程序，获得特定数据类型的数据并按照配置文件中路径保存数据，在本实施例中，先调用fastqc对下机数据进行质量检测；数据通过质检后，运行SOAP 软件取出接头序列和低质量序列，以便后续分析；接下来使用BWA软件把这些短序列与参考基因组进行对比，确定短序列在基因组上的位置，生成*.sam 文件，BWA(Burrows-Wheeler Alignment tool)是目前常用的序列比对软件，能够高效的比对短序列和参考基因组，并找到短序列在参考基因组上的位置；比对后用samtools进行排序、建索引，得到reads在参考序列中的位置和质量，得到*.bam文件；运行Picard软件对组装好的全基因组数据，将过度重复测到的数据剔除掉，并对数据进行质量评价；最后用GATK等得到*.vcf文件，GATK主要用于在测序数据中找到单碱基变异(SNV)、短插入缺失(INDEL)，是当前主流的寻找变异的软件。

S5：运行结束，对*.vcf文件中感兴趣的SNP和基因型提取最终获取SNP 基因分型数据输出SNP分型数据。

在本实施例中，转换系统包括有数据识别模块、配置模块和程序调用模块，配置模块根据用户输入的配置文件数据对转换系统和相关应用程序的参数进行配置，数据识别模块根据配置模块指定的路径调取数据并识别，根据识别需要调用的程序，程序调用模块设置有与程序对应的调用单元，调用单元在调用对应程序时先根据配置文件数据对程序进行配置，通过转换系统自动化运行上述步骤，做到输入上述的任一种类型的文件，都会输出SNP分型数据，不用再进行其他分析流程，同时每次进行新样本分析时，就不用修改程序代码，只用创建一个配置文件，主程序将主动读取配置文件，生成并执行相应的代码。

在本实施例中，程序运算结束后输出并保存特定类型的数据，然后返回给转换系统一个数据保存路径，转换程序在调用下一个程序时将该数据保存路径指定为下一个程序的数据读取路径，当一项计算任务完成时，转换系统查看其输出结果，并把结果作为下一个计算任务输入，投放新的计算任务，直到流程运行完毕。

在本实施例中，配置系统可以通过配置文件修改最终输出的文件类型，使其支持输入上游文件输出下游文件，如输入*.fq文件输出*.bam文件等。

在本实施例中，配置系统由Perl/Python编程语言实现对各个软件的高效串接和自动化操作优选的。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种生物信息变异位点数据格式转换方法，其特征在于：所述转换方法的步骤包括有：

S5：运行结束，输出SNP分型数据。

2.根据权利要求1所述的一种生物信息变异位点数据格式转换方法，其特征在于：所述转换系统包括有数据识别模块、配置模块和程序调用模块，所述配置模块根据用户输入的配置文件数据对转换系统和相关应用程序的参数进行配置，所述数据识别模块根据配置模块指定的路径调取数据并识别，根据识别需要调用的程序，所述程序调用模块设置有与程序对应的调用单元，所述调用单元在调用对应程序时先根据配置文件数据对程序进行配置。

3.根据权利要求1所述的一种生物信息变异位点数据格式转换方法，其特征在于：所述程序运算结束后输出并保存特定类型的数据，然后返回给转换系统一个数据保存路径，所述转换程序在调用下一个程序时将该数据保存路径指定为下一个程序的数据读取路径。

4.根据权利要求1所述的一种生物信息变异位点数据格式转换方法，其特征在于：所述配置系统可以通过配置文件修改最终输出的文件类型。

5.根据权利要求1所述的一种生物信息变异位点数据格式转换方法，其特征在于：所述配置系统由Python编程语言实现对各个软件的高效串接和自动化操作。