CN113488106A

CN113488106A - 一种快速获取目标基因组区域比对结果数据的方法

Info

Publication number: CN113488106A
Application number: CN202110751896.7A
Authority: CN
Inventors: 栗海波; 姜玥; 梁萌萌
Original assignee: Suzhou Semek Gene Technology Co ltd
Current assignee: Suzhou Semek Gene Technology Co ltd
Priority date: 2021-07-02
Filing date: 2021-07-02
Publication date: 2021-10-08

Abstract

本发明公开了一种快速获取目标基因组区域比对结果数据的方法，以样本原始测序数据为基础，利用公共基因组数据库，分别获得参考基因组序列文件与所有基因的坐标信息文件，并构建参考基因组索引文件与染色体索引文件；构建样本原始测序数据的序列行号与基因组比对坐标的映射关系，运用映射关系，快速重构出目标基因序列的样本原始测序数据；利用染色体索引文件和目标基因序列的样本原始测序数据进行序列比对，获得目标基因序列原始比对数据文件，再经过排序和去重，获得最终的目标基因组区域比对结果数据。这种方法具有部署简单、操作方便、高效性、高通量、适用范围广的特点。所得结果与原始二级数据BAM文件相比基本无信息损失。

Description

一种快速获取目标基因组区域比对结果数据的方法

技术领域

本发明涉及生物信息学与精准医学基因组变异检测技术领域，具体涉及一种以样本原始测序数据为基础，快速获取目标基因组区域比对结果数据的方法。

背景技术

伴随精准医学的快速发展，高通量测序技术(Next-Generation Sequencing,NGS)逐渐成为基因检测手段的首选方式。样本进行NGS测序同时带来了大量的测序数据，导致人们对计算机的计算能力与存储有了越来越高的要求。目前，人们对NGS数据根据类型的不同，做出了等级分类，不同等级的数据对存储形式也有不同的要求，大致分类如下：

a.样本的原始数据，通常文件格式为FASTQ，为一级数据，需要长期保存，访问的频次较低。

b.样本的比对结果，通常文件格式为BAM，为二级数据，是基于一级FASTQ数据通过不同的分析手段和方法所衍生出来的，这类数据不需要长期保存，但此类数据被访问的频次较高。

当前，分析人员在处理NGS数据时，相较于一级数据，衍生所得二级数据中涵盖有更多信息，但是二级数据本身又比一级数据占用更多的存储空间，通常在完成样本的相关数据分析后，会删除衍生的二级数据。因此分析人员后续需要对二级数据更进一步的挖掘时，必须从一级数据FASTQ开始，重新耗费大量的计算和存储资源进行重分析，从而衍生出二级数据。

因此分析人员迫切需要一种新的技术方案，在显著降低存储资源需求的同时，还能快速地从一级数据衍生出二级数据，并用于更深层次的数据挖掘。

为了能够快速地对二级数据BAM文件进行后续的挖掘处理，同时又不占用太多的存储资源，当前主流的处理方式是进行原始BAM文件的缩减。简单来说就是将原始二级数据BAM文件，只提取有功能基因的基因组区域信息，并生成一个新的BAM，删除原始二级数据BAM文件，只备份该缩减版BAM文件。虽然该方法在一定程度上减少了二级数据BAM文件对存储资源占用，但也带来了以下几个方面的弊端：

a.缩减的BAM相对原始二级数据BAM文件，有一定程度的信息损失，因为伴随人们对基因的更深入了解，当前人们理解为“非功能基因区”会变成“功能基因区”；

b.缩减BAM仍然需要占用一定的存储资源，而且随着样本量的增加，依然存在存储资源不足的限制，因此人们又不得不面临另一个问题，即如何解决大量样本的缩减BAM的存储问题。

c.该方法不具备普适性，不同的数据分析人员，对有功能基因的基因区区域具有偏好性，这与分析人员所具备的知识背景有强的相关性，因此会造成同样的样本原始二级数据BAM文件，经过不同的分析人员进行缩减后，会生成完全不同的缩减BAM文件。

发明内容

本发明的目的在于，提供一种快速获取目标基因组区域比对结果数据的方法，能够实现自定义目标基因区BAM文件的快速生产，且与原始二级数据BAM文件相比，基本没有信息损失；另外，不同分析人员基于同一样本进行分析所得的二级数据BAM文件基本一致。

本发明技术方案详述如下：

一种快速获取目标基因组区域比对结果数据的方法，所述方法以样本原始测序数据为基础，包括以下步骤：

利用公共基因组数据库，分别获得参考基因组序列文件与所有基因的坐标信息文件，并构建参考基因组索引文件与染色体索引文件；

利用参考基因组索引文件和样本原始测序数据进行序列比对后获得原始比对数据文件，构建映射文件1；用样本原始测序数据构建映射文件2，映射文件1和映射文件2合并重构形成映射文件；

利用所有基因坐标信息来查询目标基因坐标信息，利用映射文件和目标基因坐标信息进行目标基因序列行号提取，获得目标序列行号信息文件，基于目标序列行号信息文件从样本原始测序数据提取目标基因序列，重构出目标基因序列的样本原始测序数据；

利用染色体索引文件和目标基因序列的样本原始测序数据进行序列比对，获得目标基因序列原始比对数据文件，再经过排序和去重，获得最终的目标基因组区域比对结果数据。

可选或优选的，上述方法中，所述映射文件1记录序列编号与序列自身的基因组坐标的映射关系，所述映射文件2记录序列编号与样本原始测序数据中的行号映射关系；映射文件记录序列编号、样本原始测序数据中序列所在行号、序列自身的基因组坐标。

可选或优选的，上述方法中，所述参考基因组索引文件获取方法包括：从公共基因组数据库中下载参考基因组序列FASTA格式文件，输入参考基因组序列FASTA格式文件，采用序列比对软件的索引构建模块，创建参考基因组索引文件；

所述染色体索引文件获取方法包括：输入参考基因组序列FASTA格式文件，采用染色体拆分软件，将参考基因组的每条染色体拆分为多个不同的染色体序列文件，输入染色体序列文件，采用序列比对软件的索引构建模块，构建染色体索引文件。

可选或优选的，上述方法中，所述目标基因坐标信息的获取方法包括：从公共基因组数据库中下载与参考基因组版本对应的所有基因结构注释文件，从所有基因结构注释文件中提取目标基因位置信息，目标基因位置信息格式：染色体编号：目标基因起始坐标-目标基因终止坐标。

可选或优选的，上述方法中，所述样本原始测序数据为NGS测序数据的FASTQ文件，所述目标基因组区域比对结果数据为BAM文件。

名词解释：

基因组：是指一个物种的单倍体的染色体数目，又称染色体组。它包含了该物种全部的DNA遗传信息；

参考基因组：参考基因组是由科学家组装的数字核酸序列数据库，是一个物种的理想个体生物中一组基因的代表实例。

样本数据FASTQ：样本进行DNA提取并进行高通量测序后，所得到的测序结果文件，文件格式为FASTQ；

DNA:脱氧核糖核酸(英文Deoxyribonucleic acid的缩写),是染色体主要组成成分，同时也是主要遗传物质；

染色体序列：参考基因组中包含的每一条染色体自身的DNA序列；

目标基因：参考基因组中包含了物种的所有基因信息，研究人员所关注的特定基因称为目标基因，可以是一个基因，也可以是多个基因。

目标序列：样本数据FASTQ文件每一条序列即为一条测序片段，这些测序片段来源于不同的基因，将属于目标基因的测序片段定义为目标序列。

序列的基因组坐标信息：样本数据FASTQ文件的每一条序列在参考基因组中都有具体的位置，位置信息即为序列的基因组坐标信息。

与现有技术相比，本发明具有如下有益效果：

(1)高效性：

本发明的方法，构建了原始数据FASTQ文件的序列行号与基因组比对坐标的映射关系，运用映射关系文件，可以快速地从原始数据FASTQ文件中提取属于目标基因区间内序列；采用染色体构建索引文件，实现目标序列的快速比对，得到目标基因的比对BAM文件。

这种方法指定任一目标基因，均能高效地从样本原始FASTQ文件得到目标基因的比对BAM文件。相较于常规的样本原始FASTQ重新进行参考基因组比对，完成后再提取目标基因的BAM文件，处理时间可以从常规处理的几个小时，缩短到十几分钟。

(2)高通量：

本发明方法对服务器计算资源要求较低，一台普通的8核心64G内存的服务器，能够允许同时运行几十个目标基因的处理任务。

(3)适用范围广；

该方法适用于目前NGS的多种数据类型，包括基因组测序,全外显子组测序等，针对不同探针类型的WES测序数据也同样使用。

(4)分析流程简便，部署方便；

本发明的方法流程部署简单，使用操作方便，只需部署相关计算节点即可完成全流程分析。

附图说明

图1为从样本原始测序数据获取目标基因组区域比对结果数据的整体流程图；

图2为参考基因组索引文件和染色体索引文件构建流程示意图；

图3为基因坐标信息的获取流程示意图；

图4为映射文件的获取流程示意图；

图5为目标序列的样本原始测序数据的获取流程示意图；

图6为最终目标基因组区域比对结果数据的获取流程示意图。

具体实施方式

下面结合具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好的理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

实施例1快速实现从样本原始测序数据获取目标基因组区域比对结果数据的方法

整体流程概述：

(1)参考基因组与染色体索引的构建；

(2)目标基因坐标区间的获取；

(3)映射文件的构建；

(4)目标序列文件生成；

(5)目标序列染色体比对与BAM重建。

详细方法流程及模块讲解：

(1)参考基因组与染色体索引的构建

请参考图2，该步骤的作用是构建参考基因组索引文件，用于样本数据进行参考基因组比对，并获取相关序列在基因组中的相关坐标位置信息，并被用于后续构建映射文件。染色体索引的构建，用于提取到目标基因的序列后，快速完成指定染色体的序列比对，并快速得到目标基因的比对结果(BAM)文件。

构建过程：

A.从公共基因数据库(NCBI,UCSC,Ensembl等)中，下载参考基因组序列FASTA格式文件(下文以ref.fa表示参考基因组序列文件)；

B.输入参考基因组序列文件ref.fa，采用序列比对软件索引构建模块，创建参考基因组的比对索引，生成的相关文件包括ref.fa.fai,ref.fa.amb,ref.fa..ann,ref.fa.bwt,ref.fa.pac,ref.fa.sa；

C.输入参考基因组序列文件ref.fa，采用染色体拆分软件，将参考基因组的每条染色体拆分为多个不同的染色体序列FASTA格式文件(下文以chr*.fa表示拆分后的多个不同的染色体序列文件)；

D.输入染色体序列文件chr*.fa，采用序列比对软件索引构建模块，构建每条染色体各自的索引文件，生成的相关文件包括chr*.fa.fai,chr*.fa.amb,chr*.fa..ann,chr*.fa.bwt,chr*.fa.pac,chr*.fa.sa；

输入文件：参考基因组序列文件；

相关软件：序列下载软件、序列索引构建软件、染色体序列拆分软件；

输出文件：参考基因组序列文件与索引文件、染色体序列文件与索引文件。

(2)目标基因坐标区间的获取；

请参考图3，本步骤的作用是基于参考基因组相对应的所有基因结构注释文件，通过相关软件或自定义的软件程序，快速地得到目标基因的相关信息，包括所在染色体编号，相关的起始与终止坐标区间，为后续从样本原始数据文件中快速提取相关基因序列提供必要的信息。

A.从公共基因数据库中，下载与参考基因组版本相对应的所有基因结构注释文件，所有基因结构注释文件的格式包括多种格式，例如gff,gtf,genepred等，下载任意一种格式即可；

B.通过坐标提取工具或自定义的提取程序均可，基于所有基因结构注释文件提取目标基因的位置信息。位置信息格式:染色体编号:基因起始坐标-基因终止坐标；

示例：物种人的参考基因组版本GRCh38中，BRCA1基因坐标描述；chr17:43044294-43125364。

输入文件：所有基因结构注释文件(gff,gtf,genepred等)；

相关软件：基因坐标信息提取工具；

输出信息：目标基因坐标区间。

(3)映射文件的构建

请参考图4。

A.样本数据FASTQ文件(即样本原始测序数据)，通过比对工具进行参考基因组索引文件的序列比对，得到样本原始比对BAM文件；

B.通过原始比对BAM文件中的序列编号信息，以及序列的基因组坐标信息，进行构建映射文件1，该文件记录序列编号与序列自身的基因组坐标的映射关系；

C.基于样本数据FASTQ文件，构建映射文件2，该文件记录了序列编号与FASTQ文件中的行号映射关系；

D.将上述所得映射文件1与映射文件2，通过映射合并重构工具，将文件信息进行合并重构，得到最终的映射文件，该文件记录了序列编号，FASTQ文件中序列所在行号，序列自身的基因组坐标信息。

输入文件：参考基因组序列文件与索引文件、样本数据FASTQ文件；

相关软件：序列比对软件、信息提取与映射构建工具；

输出文件：映射文件。

(4)目标序列文件生成

请参考图5。

A.基于构建的映射文件，提供目标基因的坐标信息，通过目标序列行号提供工具，得到目标序列的行号信息，并保存到文件生成序列行号信息文件；

B.基于上述序列行号信息文件，采用序列提取工具，从样本数据FASTQ文件中将目标序列进行提取，并重构出目标序列FASTQ文件。

输入文件：样本数据FASTQ文件、映射文件、目标基因坐标信息；

相关软件：目标序列行号提取工具、序列提取工具；

输出文件：目标序列FASTQ文件。

(5)目标序列染色体比对与BAM重建

请参考图6。

A.通过序列比对工具，将生成的目标序列数据FASTQ文件，比对到目标基因所在的染色体索引文件，得到原始的序列比对BAM文件；

B.通过比对坐标排序工具，将原始序列比对BAM文件，按照染色体的坐标从小到大进行排序，得到坐标排序后的BAM文件；

C.通过比对序列去重工具，将排序后的BAM文件中的重复序列进行去除，得到去除重复后的BAM文件，该文件即为最终要获得的目标基因区的BAM文件，整个流程结束。

输入文件：目标序列FASTQ文件、染色体索引文件；

相关软件：序列比对软件、BAM文件排序工具、BAM文件去重工具；

输出文件：目标基因BAM文件。

上述处理流程，指定任一目标基因，都可以高效地从样本原始FASTQ文件得到目标基因的比对BAM文件，相较于常规的样本原始FASTQ文件重新进行参考基因组比对，完成后再提取目标基因的BAM文件的方法，处理时间可以从常规处理的几个小时，缩短到十几分钟。

该方法适用于目前NGS的多种数据类型，包括基因组测序、全外显子组测序等，针对不同探针类型的WES测序数据也同样适用。该方法流程部署简单，操作方便，只需要部署相关计算节点即可完成全流程分析，对服务器计算资源要求较低，一台普通的8核心64G内存的服务器，能够允许同时运行几十个目标基因的处理任务。

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.一种快速获取目标基因组区域比对结果数据的方法，所述方法以样本原始测序数据为基础，其特征在于，包括以下步骤：

利用公共基因组数据库，分别获得参考基因组序列文件与所有基因坐标信息文件，并构建参考基因组索引文件与染色体索引文件；

2.根据权利要求1所述的方法，其特征在于，所述映射文件1记录序列编号与序列自身的基因组坐标的映射关系，所述映射文件2记录序列编号与样本原始测序数据中的行号映射关系；映射文件记录序列编号、样本原始测序数据中序列所在行号、序列自身的基因组坐标。

3.根据权利要求1所述的方法，其特征在于，

所述参考基因组索引文件获取方法包括：从公共基因组数据库中下载参考基因组序列FASTA格式文件，输入参考基因组序列FASTA格式文件，采用序列比对软件的索引构建模块，创建参考基因组索引文件；

4.根据权利要求3所述的方法，其特征在于，所述目标基因坐标信息的获取方法包括：从公共基因组数据库中下载与参考基因组版本对应的所有基因结构注释文件，从所有基因结构注释文件中提取目标基因位置信息，目标基因位置信息格式：染色体编号：目标基因起始坐标-目标基因终止坐标。

5.根据权利要求1所述的方法，其特征在于，所述样本原始测序数据为NGS测序数据的FASTQ文件，所述目标基因组区域比对结果数据为BAM文件。