CN110008217B

CN110008217B - 一种面向基因组突变数据的存储和索引处理方法

Info

Publication number: CN110008217B
Application number: CN201910277498.9A
Authority: CN
Inventors: 许雄; 禹黎; 张刘牛; 徐根明; 赵谦
Original assignee: Hunan Yearth Biotechnological Co ltd
Current assignee: Hunan Yearth Biotechnological Co ltd
Priority date: 2019-04-08
Filing date: 2019-04-08
Publication date: 2021-11-30
Anticipated expiration: 2039-04-08
Also published as: CN110008217A

Abstract

本发明属于基因数据分析技术领域，具体涉及一种面向基因组突变数据的存储和索引处理方法。本发明提供了按照突变位点信息检索某个突变、按照单个或多个基因名称检索其相关的突变列表、按照单个或多个基因组区域检索其相关的突变列表等多种快速检索方式，为遗传病辅助诊断领域快速找到致病性的位点，肿瘤靶向用药指导领域快速找到肿瘤突变相关的靶向药提供了极大便利，显著减小了基因组数据分析和解读的处理时间，极大降低了基因组突变数据的分析难度。

Description

一种面向基因组突变数据的存储和索引处理方法

技术领域

本发明属于基因数据分析技术领域，具体涉及一种面向基因组突变数据的存储和索引处理方法。

背景技术

现有技术中基因组突变数据一般以vcf/bcf文件格式存储于本地，vcf/bcf文件的索引是基于binning indexing算法和文件指针实现的对基因组突变数据按区域索引，且只支持vcf/bcf输出格式。

数据的存储索引技术有很多种，但目前基因组突变的存储没用用到主流的SQL或NoSQL数据库来存储。通常突变的筛选采用常用的vcftools、vcflib、bcftools或自研脚本来实现，功能比较单一，个性化筛选定制比较困难。

GA4GH虽然定义了突变数据通过RESTful API来获取突变数据，但并没有定义突变数据在后端的具体存储格式和索引方法。

现有技术存在以下问题：

1)vcf/bcf文件只能对少量样本以文件形式存储，且基于文件指针的索引的方式并不高效，除了按基因组区域索引外，很难做到按突变位点ID、基因名称等其他形式进行索引。

2)当样本量达到一定程度的时候，很难实时计算在大量样本中某个指定位点的突变频率，很难根据某一表型筛选出某种指定表型相关联的突变的集合，或者根据某一疾病名称查找曾经记录过的致病性位点。

3)当样本量增大的时候，需要用大量的vcf/bcf文件来存储，占用的存储资源也慢慢增多。想要挖掘更多数据，解析vcf文件也会变得相当复杂。

发明内容

针对现有技术的不足，本发明提出一种面向基因组突变数据的存储和索引的处理方法，目的是减少基因组数据分析和解读的处理时间，降低基因组突变数据的分析难度。

本发明的一种面向基因组突变数据的存储和索引的处理方法，按照以下步骤进行：

(1)将肿瘤基因检测、遗传病辅助诊断获得的全基因组、全外显子组或者靶向区域捕获测序的数据分析出的突变信息作为样本，将一到多个样本组成的单个或多个vcf文件存储于内存型数据库redis；所述的存储于redis中的数据类型为sortedsets或hash；

(2)通过多种方式在内存型数据库redis中进行检索，所述的多种方式包括对指定样本的突变位点进行检索、按照疾病名称对所有位点进行检索、按基因名称进行检索、按突变位点信息进行检索，通过内存型数据库redis统计出突变型或者致病性基因型的人群频率。

其中，所述的hash存储每个突变位点的具体信息，key为由染色体编号、向左补0的长度为9位的position、参考基因组的基因型和突变基因型所组成的中间用“-”拼接而成的字符串，field为突变位点注释的名称、value为突变位点注释的内容，有多个field及其对应的value。

所述的sortedsets存储多层级的索引信息。

所述的对指定样本的突变位点进行检索时，sortedsets的存储结构为：Sortedsets的key为样本名称，score为0，value为此样本中所有突变位点的ID的集合，此ID由染色体编号、向左补0的长度为9位的position、参考基因组的基因型和突变基因型四个字段中间用“-”拼接而成的字符串组成。

所述的按照疾病名称对所有位点进行检索时，sortedsets的存储结为：Sortedsets的key为疾病名称，score为0，value为此疾病中所有突变位点的ID的集合。

所述的按基因名称检索时，先用key-value检索的方式找到基因对应的区域，然后再按区域检索，此时基因信息的存储结构为hash，key为基因名称，三个field分别问chr、start、end，分别表示染色体标号、基因组起始坐标、基因组终止坐标，三个value分别为此基因组的具体位置。

所述的按突变位点信息检索的时候，直接用hash的key，即突变ID来检索，或者建立其他类型，如hash类型的ID的索引来查询某个指定的突变位点。

所述的样本的突变信息共用一套hash的key，当多个样品具有有相同的突变，共用一个key时，在field字段添加不相同的信息，相同的信息则覆盖。

所述的统计出突变型或者致病性基因型的人群频率是在通过用redis的hgetallkey这个命令取得这个位点的所有基因型实现的。

可选择性地对hash和sortedsets的key进行位编码，以节省内存型数据库redis的内存空间。

可选择性使用nodejs、python flask/dijango、go、c++类web server建立后端RESTful API，通过网页页面请求的方式检索数据库。

与现有技术相比，本发明的特点和有益效果是：

本发明通过多角度、多层级筛选，不仅仅可按基因组区域筛选，还能按突变位点坐标、突变ID、基因名称、染色体核型区间等方式筛选突变；

本发明可将诸如clinvar、HGMD for public等公共突变数据库存储在本系统并保持更新；

本发明涉及的测序类型不限于全外显子组测序、全基因组测序或靶向区域捕获测序，存储的基因组突变数据涉及点突变和插入缺失突变。

本发明存储的基因组突变可以是人的生殖细胞突变、肿瘤体细胞突变，也可以是其他物种包括有参考基因组信息的动物、植物、微生物的突变数据。

本发明可进行大量样本的数据挖掘；

(1)实时统计已有样品中任意位点的基因型人群频率

(2)统计某项疾病发病率

(3)疾病大队列数据分析，挖掘可能存在疾病相关的新致病位点或基因

(4)基因型-表型关联分析

(5)通过表型关键字直接检索出积累的阳性样本的致病性位点，辅助后续样本解读

(6)通过某个位点查询以前是否有报告过是否是阳性致病位点。

附图说明

图1是本发明的内存型数据库页面示意图。

具体实施方式

本发明解决了海量基因组突变数据的存储和检索问题。主要通过将基因组测序原始数据经bwa+samtools+picard+GATK等best practice分析后产生的vcf突变数据存储于内存型数据库中，通过将多个样本vcf文件逐一导入数据库，按我们需要的检索方式建立索引，从而实现基因组突变信息的检索和挖掘。

现结合具体实施例对本发明进行进一步说明。

实施例1

本实施例的处理步骤流程如下：

步骤1突变检测：

本实施例不需要特殊的突变检测方法，应用者可根据自有的基因突变检测流程得到突变信息，但突变信息存储格式要求为标准的vcf格式文件，示例中应用的是测序原始数据经bwa+samtools+picard+GATK等Best Practice分析得到的标准vcf文件。

步骤2导入突变信息：

将vcf文件导入redis数据库，需要以hash类型存储突变，key由染色体编号、向左补0的长度为9位的position、参考基因组的基因型、突变基因型四个字段中间用“-”拼接而成的字符串组成，field为突变位点注释的名称、value为突变位点注释的内容，可以有多个field及其对应的value。实际应用时可将标准vcf格式转换为tsv格式再通过程序进行存储。

步骤3导入需要的索引信息：

根据本发明说明书部分的发明内容介绍，将需要的索引信息以sortedsets类型存储。当按基因组区域对指定样本的突变位点进行检索的时候，Sortedsets的key为样本名称，score为0，value为此样本中所有突变位点的ID的集合，此ID与hash的key一样由染色体编号、向左补0的长度为9位的position、参考基因组的基因型、突变基因型四个字段中间用“-”拼接而成的字符串组成。

当按照疾病名称对所有位点进行检索的时候，sortedsets的存储结为：Sortedsets的key为疾病名称，score为0，value为此疾病中所有突变位点的ID的集合。

当按基因名称检索的时候我们需要先用key-value检索的方式找到基因对应的区域，然后再按区域检索。此时基因信息的存储结构为hash，key为基因名称，三个field分别问chr、start、end，分别表示染色体标号、基因组起始坐标、基因组终止坐标，三个value分别为此基因组的具体位置。

当按突变位点信息检索的时候，我们可直接用hash的key(突变ID)来检索，也可建立其他类型的ID的索引(hash类型)来查询某个指定的突变位点。

步骤4建立命令行工具或RESTful API

编写API连接数据库，对数据库中存储的信息进行查询。

步骤5建立前端检索查询页面，发送查询请求

编写前端检索查询页面，通过按钮发送查询请求，返回数据库突变信息进行展示。

步骤6标记致病性位点存储到阳性致病位点的索引

选定致病性位点后可为致病性位点建立索引，根据索引可以查找标记过的致病性位点。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种面向基因组突变数据的存储和索引的处理方法，其特征在于按照以下步骤进行：

(1)将肿瘤基因检测、遗传病辅助诊断获得的全基因组、全外显子组或者靶向区域捕获测序的数据分析出的突变信息作为样本，将一到多个样本组成的单个或多个vcf文件存储于内存型数据库redis；存储于redis中的数据类型为sortedsets或hash；所述的hash存储每个突变位点的具体信息，key为由染色体编号、向左补0的长度为9位的position、参考基因组的基因型和突变基因型所组成的中间用“-”拼接而成的字符串，field为突变位点注释的名称、value为突变位点注释的内容，有多个field及其对应的value；所述的sortedsets存储多层级的索引信息；

(2)通过多种方式在内存型数据库redis中进行检索，所述的多种方式包括对指定样本的突变位点进行检索、按照疾病名称对所有位点进行检索、按基因名称进行检索、按突变位点信息进行检索，通过内存型数据库redis统计出突变型或者致病性基因型的人群频率；所述的对指定样本的突变位点进行检索时，sortedsets的存储结构为：sortedsets的key为样本名称，score为0，value为此样本中所有突变位点的ID的集合，此ID由染色体编号、向左补0的长度为9位的position、参考基因组的基因型和突变基因型四个字段中间用“-”拼接而成的字符串组成；所述的按照疾病名称对所有位点进行检索时，sortedsets的存储结构为：sortedsets的key为疾病名称，score为0，value为此疾病中所有突变位点的ID的集合；按基因名称检索时，先用key-value检索的方式找到基因对应的区域，然后再按区域检索，此时基因信息的存储结构为hash，key为基因名称，三个field分别为chr、start、end，分别表示染色体标号、基因组起始坐标、基因组终止坐标，三个value分别为此基因组的具体位置；按突变位点信息检索的时候，直接用hash的key，即突变ID来检索，或者建立hash类型的ID的索引来查询某个指定的突变位点。

2.根据权利要求1所述的一种面向基因组突变数据的存储和索引的处理方法，其特征在于所述的样本的突变信息共用一套hash的key，当多个样品具有相同的突变，共用一个key时，在field字段添加不相同的信息，相同的信息则覆盖。

3.根据权利要求1所述的一种面向基因组突变数据的存储和索引的处理方法，其特征在于所述的统计出突变型或者致病性基因型的人群频率是在通过用redis的hgetall key这个命令取得这个位点的所有基因型实现的。

4.根据权利要求1所述的一种面向基因组突变数据的存储和索引的处理方法，其特征在于对hash和sortedsets的key进行位编码，以节省内存型数据库redis的内存空间。

5.根据权利要求1所述的一种面向基因组突变数据的存储和索引的处理方法，其特征在于使用nodejs、python flask/dijango、go、c++类web server建立后端RESTful API，通过网页页面请求的方式进行检索。