CN107506618A

CN107506618A - 高通量测序序列的存储方法和查询方法

Info

Publication number: CN107506618A
Application number: CN201710549780.9A
Authority: CN
Inventors: 赵屹; 卜德超; 周恒�
Original assignee: Beijing Zhongke Crystal Cloud Technology Co Ltd
Current assignee: Zhongke Yiyun (Luoyang) Technology Co.,Ltd.
Priority date: 2017-07-07
Filing date: 2017-07-07
Publication date: 2017-12-22
Anticipated expiration: 2037-07-07
Also published as: CN107506618B

Abstract

本发明提供一种高通量测序序列的存储方法和查询方法。该存储方法包括：获取与参考基因比对后的高通量测序序列，其中，该高通量测序序列包括每条测序序列及其起始位置、结束位置以及与参考基因的比对结果；基于预定的分层分片策略确定所述测序序列的分片索引编号，其中，所述分层分片策略包括层数、每层包含的分片数、每个分片包含的数据量、以及每层的第一个分片的索引编号；基于所确定的分片索引编号分布式存储测序序列。本发明还提供了一种对应于存储方法的查询方法。根据本发明的存储和查询方法能够增加高通量测序序列的存储和查询的效率，并且可以进一步直观快速的显示查询的测序序列。

Description

高通量测序序列的存储方法和查询方法

技术领域

本发明涉及生物信息数据分析技术领域，尤其涉及一种高通量测序序列的存储方法和查询方法。

背景技术

随着近年来高通量测序技术的迅猛发展，其被广泛应用于生物学以及医学研究的各个领域。相对于第一代测序技术，高通量测序成本急速下降的同时，测序通量却直线上升。以人为例，完成一次基因组测序可产生数以百万计数目的测序序列(read)。在高通量测序技术中，测序仪在一个反应中测出的碱基对数目约为36bp-200bp，通常把这种36bp-200bp长度的序列称为一条测序序列(read)。对于高通量测序仪，一次测序实验会获得大量的read，所输出的数据文件的大小往往超过200G。另一方面，在高通量测序领域中，一个重要的关注点是基因组结构的变异，包括插入、删除、倒置、易位、复制以及拷贝数变异等不同类型，每种类型使基因组产生不同的结构改变，而结构的改变往往引起测序序列的错误定位。

为了研究以DNA为代表的海量数据以及检测基因组结构变异情况，需要将高通量测序技术获得的测序序列比对到参考基因上，将比对结果文件进行存储以备后续的查询和显示。在现有技术中，通过测序技术产生的测序序列通常是直接进行集中式存储。然而，由于存储的数据量大以及各类结构变异的复杂性，以及真核生物基因组结构固有的重复序列特性，导致后续的数据解读难以展示数据的整体性和关联性，因此仅凭现有的存储和查询方法很难快速准确的检测出每种类型的变异。

此外，人们往往基于可视化技术的信息挖掘方法来对测序仪所输出的数据进行分析。测序序列可视化的核心是利用有效的算法消除数据的复杂性，从而将其中隐含的生物学规律清晰地展示给用户，进而方便用户对基因组结构变异进行人工判读，例如，单核苷酸多态性(SNP)、插入缺失标记(Indel)以及基因组结构变异等。在现有技术中，高通量测序序列可视化的方法通常是获取测序仪输出的测序文件并将其全部读入本地内存，然后将其与查询的参考基因(reference genome)片段进行比对，最后以图形的形式显示比对结果。这类传统的可视化方法的缺陷是：第一，由于高通量测序产生的reads数据量巨大，把整个文件读进内存需要很长时间；第二，读入整个文件需要的内存远远超过了普通计算机的内存上限。例如，现有的IGV(整合基因组浏览器)将所有数据集中存储在本地，运行时需将数据读入内存，大约占用3～5秒的启动时间，并且对内存的要求较大，运行时内存超过1G，消耗很大的本地资源，可能造成电脑卡顿。

因此，需要对现有技术进行改进，以解决上述问题。

发明内容

本发明的目的在于克服上述现有技术的缺陷，提供一种测序序列的存储方法和查询方法。

根据本发明的第一方面，提供了一种测序序列的存储方法。该存储方法包括：

步骤1：获取与参考基因比对后的高通量测序序列，其中，所述高通量测序序列包括每条测序序列及其起始位置、结束位置以及与参考基因的比对结果；

步骤2：基于预定的分层分片策略确定所述测序序列的分片索引编号，其中，所述分层分片策略包括层数、每层包含的分片数、每个分片包含的数据量、以及每层的第一个分片的索引编号；

步骤3：基于所确定的分片索引编号分布式存储所述测序序列。

在本发明的存储方法中，所述分层分片策略基于测序序列的长度、计算资源的处理能力和高通量测序序列的数据量大小而确定。

在本发明的存储方法中，所述每层包含的分片数和所述每个分片包含的数据量是2的整数次幂。

在本发明的存储方法中，步骤2包括：

对于每条测序序列，通过将起始位置和结束位置与一层的分片所包含的数据量相除获得的两个商值来确定其位于的层的编号，如果两个商值相同，则确定该条测序序列位于该层；

通过将所述相除获得的相同商值与该层的第一个分片的索引编号相加来确定所述测序序列的分片索引编号。

在本发明的存储方法中，确定每条测序序列位于的层的顺序是根据各层的一个分片包含的数据量从小到大依次进行。

在本发明的存储方法中，步骤3包括根据样本编号和所述分片索引编号通过hash计算来确定所述测序序列的存储节点。

根据本发明的第二方面，提供了一种对应于上述存储方法的查询方法。该查询方法包括：基于所述预定的分层分片策略计算与待查询的参考基因片段有交集的测序序列的分片索引集合；基于所述分片索引集合查询分布式存储的测序序列。

在本发明的查询方法中还包括：可视化显示所查询到的测序序列，以获得与待查询的参考基因的比对结果。

与现有技术相比，本发明的存储方法和查询方法能够增加高通量测序序列的存储和查询效率，并且可以进一步直观快速的显示查询的测序序列与参考序列的比对结果，以迅速锁定致病基因。

附图说明

以下，结合附图来详细说明本发明的实施例，其中：

图1示出了根据本发明一个实施例的测序序列的存储方法和可视化显示方法的流程图；

图2示出了根据本发明一个实施例的测序序列的显示效果示意图。

具体实施方式

为了使本发明的目的、技术方案、设计方法及优点更加清楚明了，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

图1示出了根据本发明一个实施例的测序序列的存储方法和可视化显示方法的流程图。具体包括以下步骤：

第一步、预处理测序数据以获得通用格式的比对结果文件

为了分析测序数据，以检测和识别变异基因，通常需要将测试平台产生的测试数据与指定的参考基因组进行比对并获得通用的标准比对文件。

例如，现有的高通量测序平台产生的测序文件类型包括FASTA、FASTQ、GEF、BED等，使用samtools工具(关于samtools工具的使用，可参考http://sihua.us/samtools.htm)将这些文件中的高通量测序序列与参考基因组进行比对，以获取在参考基因组或基因上的位置信息以及测序样品特有的序列特征信息。经过比对之后，产生比对结果文件，例如，通用格式的SAM(Sequence Alignment/Map)文件，其描述了高通量测序序列和参考序列的比对和组装信息，为了压缩数据规模和加速过程，也可将高通量测序序列信息压缩成二进制码，例如转换为BAM文件。

比对结果SAM/BAM文件(在下文的描述中有时也称为高通量测序序列)包括多条测序序列，以及每条测序序列的开始位置(start)、结束位置(end)、正负链的标志位(flag)、对比结果(cigar)等信息，其中，正负链的标志位指示正负链信息，通常以十六进制表示，比对结果是简要比对信息表达式，其以参考序列为基础，可使用数字加字母表示，例如，3S6M1P1I4M表示前三个碱基被剪切去除，然后6个碱基比对上了，然后打开了一个缺口，有一个碱基插入，最后是4个碱基比对上了。

此步骤中产生的比对结果文件以md.sam文件来标识。

第二步、确定分层分片策略并计算每条测序序列的分片索引编号

此步骤的目的在于将获得的每条测序序列划分到不同层的不同分片上，并确定每条测序序列所位于的分片的索引值。

首先，确定分层分片策略，包括确定需要划分的层的数量、每层所包含的分片的数量以及每个分片所包含的数据量大小(分片大小)，参见下表1示出的一种具体的分层分片策略。

表1：分层分片以及索引值对照表

分层	分片个数	分片大小	第一个分片的索引编号
				0	1	512M	0
1	8	64M	1
				2	64	8M	9(1+8)
3	512	1M	73(1+8+64)
				4	4096	128K	585(1+8+64+512)

在表1的示例中，分层数为5层，将分片的最小单位设成2的17次幂即128K，每一分片对应一个索引值或称分片索引值，通过分片索引值可访问该分片范围内的数据。例如，第0层的分片个数为1，对应的分片大小为512M，第一个分片的索引值为0，第4层对应的分片个数为4096，对应的分片大小为128K，则第4层的第一个分片索引值为前4层分片个数之和，即1+8+64+512＝585。

分层分片策略并不仅限于表1中列出的一种，在实际应用中，可根据数据量大小、计算机的处理能力以及测序序列的长度等因素选择选择其他分层分片策略，比如适当的层数、分片个数和分片大小。例如，可以设计最小的分片大小比大部分的测试序列的长度稍大一点，例如，大于60％的测序序列的长度，而第二小的分片大小大于90％的测序序列；其基本设计原则是使得分片个数和分片大小结合起来能够保证大部分的测序序列能够包含在尽量少的层数和分片数；在保证基本能够包含所有测序序列的情况下，设计尽量少的层数，以提高测序序列的处理速度。

为了便于通过计算机进行后续的存储和查询，在该实施例中，将分片个数和分片大小设计为2的整数次幂。

然后，根据上述的分层分片策略结合比对结果文件中测序序列的起始位置(start)和结束位置(end)，可计算出每条测试序列的分片索引编号(bin_no)。

例如，为了找到一个分片最小，并且能包含read的分片，可从分片大小最小的那一层开始比对，查找该分层的一个分片是否可完全包含一条read，若找到一个分片可包含该条read，则停止比对并计算出该条read的分片索引编号(bin_no)。计算方法是，用read的起始位置和结束位置分别除以该层的分片大小，若两个值相同，代表该分层有分片可完全包含这条read，使用该层的第一片索引值加上相除所得的商即可获得该read的分片索引值(bin_no)。

具体而言，假设其中一条read的起始位置为11846042，结束位置为11946142。首先，判断是否落在第4层，分别用起始位置和结束位置除以该层的分片大小128K，得到90和91，没有落在同一个分片，因此判断该层的分片不能完全包含这条read。然后，判断是否落在第3层，用起始位置和结束位置分别除以该层的分片大小1M，得到11和11，则确定该条read落在第3层，该条read的分片索引编号为73+11＝84。类似的，对于下表中2的测序序列可计算出对应的索引值。

表2：测序序列和计算的分片索引编号

起始位置	结束位置	分片索引编号
			11846042	11946042	84
11845042	11846000	84
			11956042	11956000	676
10855042	11958000	10
			10855042	11940000	10

应理解的是，在此步骤中，理论上可从任意一个分层开始查找，但在实际应用中，通过设计最小的分片大小比大部分的read的长度稍大，能够控制大部分的read(例如，90％)落在分片最小的层和分片第二小层。因此，通过从分片最小的层开始遍历，能够提高查找的效率。

第三步、计算正负链的值

在比对结果md.sam文件没有直接给出正负链的值的情况下，例如，仅以十六进制的标志位指示了正负链信息，需要计算每条read的正负链，根据每条read的正负链的标志位(flag)与16进行按位与运算，然后，除以16加1得到正负链的值，即正负链的值strand＝(flag&16)/16+1，1代表正链，2代表负链。具体而言，假设read的正负链的标志位(flag)为90，将90与16按位与运算，然后除以16加1，得到正负链的值strand＝(90&16)/16+1＝2，因此，判断该条read为负链。

第四步、处理比对结果文件

将第一步中获得的md.sam文件，对于每条read插入获得的分片索引编号以及每条read的正负链值(strand)，处理之后的文件用hd.sam来标识。

第五步、将处理后的结果比对文件进行分布式存储

到此为止，处理之后的结果比对文件hd.sam除了包含样本编号(该编号在测试平台输出测序文件时产生)、多条测序序列、每条测序序列与参考基因的比对结果等信息之外，还包括了计算出的每条测序序列对应的分片索引编号。为了提高测序序列的存储效率和数据访问的并发性，可将hd.sam文件进行分布式存储。

例如，以样本编号(sample_no)和分片索引编号(bin_no)作为主键进行分布式索引时，首先确定主键和存储节点的映射关系表(参见表3)，即将样本编号1、2对应的测试文件中分片索引编号为1至1000的数据存储到节点1；将样本编号2、3对应的测试文件中分片索引编号为1001至2000的数据存储到节点2。

表3：主键和存储节点的映射关系表

主键	存储节点
		sample_no:(1，2)，bin_no(1，1000)	节点1
sample_no:(2，3)，bin_no(1001，2000)	节点2

在另一个实施例中，可采用hash的方式进行分布式存储，例如，根据样本编号(sample_no)和分片索引编号(bin_no)作为主键，进行hash取结果首字母，将结果首字母与集群中的存储节点建立映射关系，从而决定具体存储在哪个节点。

存储节点的数量可根据数据量动态扩充，以提高数据存储和查询的效率。

在本发明中，通过设计分层分片策略，能够为每条测序序列控制层数、分片个数、分片大小三个级别的存储或索引粒度，以根据实际情况进行选择，提高了存储速度和灵活性；此外，根据分片索引编号进行分布式存储，可以进一步提高资源利用率和存储的效率。

第六步、计算与待查询参考基因片段有交集的分片索引集合

当需要查询与参考基因的匹配情况时，根据存储时设计的分层分片策略，依次计算出测序序列与要查询的参考基因有交集的分片索引编号(bin_no)的集合。计算方法是，用参考基因起始位置和结束位置除以分层的分片大小，除以的结果分别设为s和e，假设该层第一个分片索引编号为first_bin_no，那么大于等于first_bin_no+s，小于等于first_bin_no+e的所有分片索引编号与参考基因有交集。

例如，假设参考基因片段的起始位置为11846042，结束位置为11946142，则对于第4层，计算的s＝11846042/128/1024＝90，e＝91，因此，相交的索引范围为585+90至585+91，即675-676，其它依次类推。下表4示出了符合条件的分片索引编号集合，即0，1，10，84，675，676。

表4与参考基因有交集的分片索引编号

分层	分片大小	起始索引值	起始/分片大小	结束/分片大小	相交的索引编号范围
						0	512M	0	0	0	0-0
1	64M	1	0	0	1-1
						2	8M	9	1	1	10-10
3	1M	73	11	11	84-84
						4	128K	585	90	91	675-676

第七步、根据获得的分片索引集合获取测序序列数据

当进行数据查询时，根据分片索引范围和存储节点的映射表到相应的节点获得分片索引集合中的测序序列数据。为了确保数据获取的准确性，可进一步判断每条read是否真的与待查询参考基因有交集。判断方法是，如果read的起始位置不大于参考基因片段的结束位置而且read的结束位置不小于参考基因片段的起始位置，则该条read与参考基因片段有交集。

表5示意了对于参考基因片段(11846042-11946142)，表2中的各条测序序列与该参考基因是否有交集的结果。

表5判断read与参考基因是否相交

分片索引编号	起始位置	结束位置	是否相交
				84	11846042	11946042	是
84	11845042	11846000	否
				676	11956042	11956000	否
10	10855042	11958000	是
				10	10855042	11940000	是

在这种根据分片索引进行分布式存储和查询过程中，用户只需消耗少量内存和带宽，等同于访问了一个普通网页，实验证明，数据查询结果可在1秒内返回。

第八步、可视化显示与待查询参考基因片段有交集的测序序列结果

进一步地，可以可视化显示测序序列与参考基因的匹配情况，从而能够快速直观的获得基因变异情况，迅速锁定致病基因，助力基因测序大数据的解读。

例如，可通过设定颜色、图案和字母来示意缺失变异、插入变异、单核苷酸变异等各种情况并标注注释信息。图2示出了根据本发明一个实施例的可视化显示效果图，图形界面可以直观的看出在2号染色体(chr2)的169801131位置上，发生了由G到A的杂合的单核苷酸变异。将鼠标移动到参考基因组的某一位置时，还可浮现出这一位置上变异的统计信息。

需要说明的是，虽然上文按照特定顺序描述了各个步骤，但是并不意味着必须按照上述特定顺序来执行各个步骤，实际上，这些步骤中的一些可以并发执行，甚至改变顺序，只要能够实现所需要的功能即可。类似地，在下文中描述的各种方法也不限于在介绍时使用的特定顺序。

计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种测序序列的存储方法，包括：

2.根据权利要求1所述的方法，其中，所述分层分片策略基于测序序列的长度、计算资源的处理能力和高通量测序序列的数据量大小而确定。

3.根据权利要求1所述的方法，其中，所述每层包含的分片数和所述每个分片包含的数据量是2的整数次幂。

4.根据权利要求1所述的方法，其中，步骤2包括：

5.根据权利要求4所述的方法，其中，确定每条测序序列位于的层的顺序是根据各层的一个分片包含的数据量从小到大依次进行。

6.根据权利要求1所述的方法，其中，步骤3包括根据样本编号和所述分片索引编号通过hash计算来确定所述测序序列的存储节点。

7.一种对应于权利要求1至6中任一项所述的存储方法的查询方法，包括：

基于所述预定的分层分片策略计算与待查询的参考基因片段有交集的测序序列的分片索引集合；

基于所述分片索引集合查询分布式存储的测序序列。

8.根据权利要求7所述的方法，还包括：可视化显示所查询到的测序序列，以获得与待查询的参考基因的比对结果。

9.一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现根据权利要求1至8中任一项所述方法的步骤。

10.一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至8中任一项所述的方法的步骤。