CN104699998A

CN104699998A - 用于对基因组进行压缩和解压缩的方法和装置

Info

Publication number: CN104699998A
Application number: CN201310655168.1A
Authority: CN
Inventors: 丁建栋; 严骏驰; 张亚楠; 龚旻; 邱赟捷
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2013-12-06
Filing date: 2013-12-06
Publication date: 2015-06-10
Also published as: DE112014005580T5; WO2015081754A1; US20160306919A1; US10679727B2

Abstract

本发明涉及用于对基因组进行压缩和解压缩的方法和装置。在一个实施方式中，提供了一种用于对基因组进行压缩的方法，包括：从参考数据库中选择与基因组相匹配的参考基因组；基于参考基因组中包括的多个分段在参考基因组中的位置来创建索引；基于多个分段将基因组与参考基因组进行比对，以标识基因组与参考基因组之间的差异数据；以及生成经压缩的基因组，经压缩的基因组至少包括索引和差异数据。在其他实施方式中，提供了一种用于对基因组进行压缩的装置，并提供了用于对采用上述方法和装置所压缩的基因组进行解压缩的方法和装置。采用本发明的技术方案，可以提高数据压缩率，并且在无需解压缩整个基因组的情况下访问基因组中的指定位置。

Description

用于对基因组进行压缩和解压缩的方法和装置

技术领域

本发明的各实施方式涉及数据压缩和解压缩，更具体地，涉及用于对基因组(genome)进行压缩和解压缩的方法和装置。

背景技术

随着生物学的发展，人类对于生物基因的研究已经越来越深入，例如，已经涉及到了诸如人类健康、药物研发、动植物新品种以及关于微生物等诸多方面。

简言之，针对生物的基因组进行测序(sequencing)是指记录构成该生物的染色体的碱基对的序列。通常，将测量一个物种的第一个样本的基因组的过程称为测序，而将测量该物种的其他样本的基因组的过程称为重测序(re-sequencing)。测序和重测序技术已经实现了突破，并且所涉及的各项成本越来越低。越来越多的个人或者团体开始认识到基因组的重要性，并且目前已经通过测序／重测序过程而获得了大量物种的基因组数据。

人类基因包括大约30亿个碱基对，按照现有的表示方式，人类的基因组将包括大约60亿个字符(字符A、G、T、C)。因而，存储每个基因组会占用大量的存储空间，当需要存储大量基因组、或者当需要针对基因组进行拷贝和传输时，将会面临如何提高数据存储／数据传输效率的挑战。

发明内容

生物学家已经发现，同一物种的各个样本的基因组之间存在一定的相似性。例如，人类的基因组之间的相似性远远高于人类与其他物种的基因组之间相似性；进一步，黄种人的基因组之间的相似性通常会高于黄种人与白种人的基因组之间的相似性。

因而，期望能够基于基因组之间的相似性而开发出一种针对基因组进行压缩／解压缩的技术方案。期望该技术方案能够与现有的基因组存储方式相结合，并且能够充分利用基因组之间的相似性，进而实现高效的压缩／解压缩；另外，在有效地提高数据压缩率的同时，还期望能够在不必将整个基因组进行解压的情况下，仅针对基因组中的一部分进行解压缩。

在本发明的一个实施方式中，提供了一种用于对基因组进行压缩的方法，包括：从参考数据库中选择与基因组相匹配的参考基因组；基于参考基因组中包括的多个分段(segment)在参考基因组中的位置来创建索引；基于多个分段将基因组与参考基因组进行比对(align)，以标识基因组与参考基因组之间的差异数据；以及生成经压缩的基因组，经压缩的基因组至少包括索引和差异数据。

在本发明的一个实施方式中，从参考数据库中选择与基因组相匹配的参考基因组包括：基于表征参考数据库中的参考基因组的至少一个生物性状(phenotypic trait)以及参考数据库中的参考基因组中包括的至少一个预定序列中的至少任一项，选择参考基因组。

在本发明的一个实施方式中，参考基因组中的多个分段是基于与参考基因组相关联的注释以及预定步长中的至少任一项来划分的。如果参考基因组相关联的注释信息是可获取的，则优先考虑使用。

在本发明的一个实施方式中，提供了一种用于对基因组进行解压缩的方法，包括：响应于接收到根据本发明的方法进行压缩的经压缩的基因组，从参考数据库中获取与经压缩的基因组相匹配的参考基因组；以及按照经压缩的基因组中的索引，基于参考基因组和经压缩的基因组中的差异数据，对经压缩的基因组进行解压缩。

在本发明的一个实施方式中，提供了一种用于对基因组进行压缩的装置，包括：选择模块，配置用于从参考数据库中选择与基因组相匹配的参考基因组；索引模块，配置用于基于参考基因组中包括的多个分段在参考基因组中的位置来创建索引；比对模块，配置用于基于多个分段将基因组与参考基因组进行比对，以标识基因组与参考基因组之间的差异数据；以及生成模块，配置用于生成经压缩的基因组，经压缩的基因组至少包括索引和差异数据。

在本发明的一个实施方式中，选择模块包括至少以下任一项：第一选择模块，配置用于基于表征参考数据库中的参考基因组的至少一个生物性状，选择参考基因组；以及第二选择模块，配置用于基于参考数据库中的参考基因组中包括的至少一个预定序列，选择参考基因组。

在本发明的一个实施方式中，参考基因组中的多个分段是基于与参考基因组相关联的注释以及预定步长中的至少任一项来划分的。

在本发明的一个实施方式中，提供了一种用于对基因组进行解压缩的装置，包括：获取模块，配置用于响应于接收到根据本发明的装置进行压缩的经压缩的基因组，从参考数据库中获取与经压缩的基因组相匹配的参考基因组；以及解压缩模块，配置用于按照经压缩的基因组中的索引，基于参考基因组和经压缩的基因组中的差异数据，对经压缩的基因组进行解压缩。

采用根据本发明的实施方式所述的技术方案，可以充分地将已经获得的代表性基因组作为参考基因组，并且在存储新的待处理基因组时，仅保存待处理基因组与参考基因组之间的差异，进而大大降低数据量。另一方面，采用根据本发明的实施方式所述的技术方案，在经压缩的基因组中还包括索引，通过查询该索引可以迅速找到基因组中的任意碱基对，进而便于在无需对整个经压缩的基因组进行解压缩的情况下，快速地找到期望访问的基因片段。

附图说明

结合附图并参考以下详细说明，本发明各实施方式的特征、优点及其他方面将变得更加明显。本发明附图中，相同的标号表示相同或相似的元素。在附图中：

图1示意性示出了适于实现本发明实施方式的示例性计算系统的框图；

图2示意性示出了用于针对生物进行测序所得的基因组的数据结构的示意；

图3示意性示出了根据一个实施方式的用于对基因组进行压缩的方法的示意图；

图4示意性示出了根据本发明一个实施方式的用于对基因组进行压缩的方法的示意图；

图5示意性示出了根据本发明一个实施方式的用于创建索引的过程的示意图；

图6A-图6C分别示意性示出了根据本发明一个实施方式的、用于标识基因组与参考基因组之间的差异数据的示意图；

图7示意性示出了根据本发明一个实施方式的用于对经压缩基因组进行解压缩的方法的流程图；

图8A示意性示出了根据本发明一个实施方式的对基因组进行压缩的装置的框图，以及图8B示意性示出了根据本发明一个实施方式的用于对经压缩基因组进行解压缩的装置的框图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

所属技术领域的技术人员知道，本发明可以实现为系统、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等)，还可以是硬件和软件结合的形式，本文一般称为“电路”、“模块”或“系统”。此外，在一些实施方式中，本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言-诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言-诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)-连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

下面将参照本发明实施方式的方法、装置(系统)和计算机程序产品的流程图和／或框图描述本发明。应当理解，流程图和／或框图的每个方框以及流程图和／或框图中各方框的组合，都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，从而生产出一种机器，这些计算机程序指令通过计算机或其他可编程数据处理装置执行，产生了实现流程图和／或框图中的方框中规定的功能／操作的装置。

也可以把这些计算机程序指令存储在能使得计算机或其他可编程数据处理装置以特定方式工作的计算机可读介质中，这样，存储在计算机可读介质中的指令就产生出一个包括实现流程图和／或框图中的方框中规定的功能／操作的指令装置(instruction means)的制造品(manufacture)。

也可以把计算机程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其他可编程装置上执行的指令能够提供实现流程图和／或框图中的方框中规定的功能／操作的过程。

图1示出了适于用来实现本发明实施方式的示例性计算机系统／服务器12的框图。图1显示的计算机系统／服务器12仅仅是一个示例，不应对本发明实施方式的功能和使用范围带来任何限制。

如图1所示，计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统／服务器12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和／或高速缓存存储器32。计算机系统／服务器12可以进一步包括其他可移动／不可移动的、易失性／非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图1未显示，通常称为“硬盘驱动器”)。尽管图1中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其他光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施方式的功能。

具有一组(至少一个)程序模块42的程序／实用工具40，可以存储在例如存储器28中，这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其他程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施方式中的功能和／或方法。

计算机系统／服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机系统／服务器12交互的设备通信，和／或与使得该计算机系统/服务器12能与一个或多个其他计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入／输出(I／O)接口22进行。并且，计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和／或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机系统／服务器12的其他模块通信。应当明白，尽管图中未示出，可以结合计算机系统/服务器12使用其他硬件和／或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

图2示意性示出了用于针对生物进行测序所得的基因组的数据结构的示意200。图2中的附图标记210示出了染色体的示意图，附图标记220示出了基因组的示意图。简言之，生物的基因组可以由脱氧核糖核酸(Deoxyribonucleic Acid，DNA)的碱基对的精确排列来描述。换言之，基因组可以表示为由A、G、T、C这四个碱基构成的有序序列。不同生物的基因组的长度不同，例如，人类基因组包括30亿个碱基对(即，60亿个字符)，而其他生物的基因组可以具有不同长度。

图3示意性示出了根据一个实施方式的用于对基因组进行压缩的方法的示意图300。目前已经提出了基于寻找当前基因组与参考基因组之间的差异，来进行基因组压缩的方法。如图3中所示，基因组310为待压缩的基因组，而参考基因组320是作为比对基础的“标准基因组”，可以将待压缩的基因组310与该参考基因组320进行比较，并且在经压缩的基因组中，仅保存该基因组310与参考基因组320之间的差异数据330。

随着网络技术的发展，目前已经存在许多组织可以提供参考基因组，并且可以通过网络来方便地访问参考基因组。按照如图3所示的基因组压缩方法，在传输基因组时只需要传输该基因组与参考基因组之间的差异数据(例如，差异数据330)，即可以基于所传输的差异数据330和经由网络访问而获得的参考基因组320，来获得基因组310的原始数据。

尽管上述方法可以在一定程度上提高数据压缩率，然而该方法的缺陷在于：一方面，难以从现有的多个参考基因组中有效地选取与待压缩基因组最为匹配的参考基因组；另一方面，差异数据在整体上被压缩以获得较高的压缩率，然而当期望仅访问基因组中的特定位置的碱基对时，必须首先解压得到原始基因组才能定位该特定的碱基对。

基于上述技术方案中的不足，本发明提出了一种用于对基因组进行压缩的方法。该方法包括：从参考数据库中选择与基因组相匹配的参考基因组；基于参考基因组中包括的多个分段在参考基因组中的位置来创建索引；基于多个分段将基因组与参考基因组进行比对，以标识基因组与参考基因组之间的差异数据；以及生成经压缩的基因组，经压缩的基因组至少包括索引和差异数据。

图4示意性示出了根据本发明一个实施方式的用于对基因组进行压缩的方法的示意图400。首先，在步骤S402中，从参考数据库中选择与基因组相匹配的参考基因组。应当注意，在此的参考数据库中存储有多个参考基因组，这些参考基因组可以来自于多个物种的多个样本。例如，来自不同人种(白色人种、黄色人种、棕色人种和黑色人种)的多个参考基因组，以及来自其他生物的各个细化分类的多个参考基因组。由于相同物种的基因组具有较高的相似性(即，基因组中的碱基字符的文本相似性)，因而提供包括丰富参考基因组的参考数据库，可以有助于找到与待压缩的基因组更为匹配的参考基因组，以便进一步提高数据压缩率。在本发明的上下文中，相匹配可以表示两个基因组具有较高的相似性。

另外，本发明中所述的参考数据库还可以随着处理新的待压缩基因组而不断丰富，在下文中将会详细描述。

在步骤S404中，基于参考基因组中包括的多个分段在参考基因组中的位置来创建索引。由于基因组中通常包括数十亿个字符，因而为了更快地定位到基因组中的特定位置，还可以创建索引。可以按照参考基因组中包括的多个分段来创建索引。在本发明的上下文中，分段是指基因组中在起始位置和终止位置之间范围内的碱基，例如，atl g33500：1-10000可以表示，该分段的名称为atlg33500，并且该分段中的碱基的起始位置和终止位置分别为1和10000。

在本发明的上下文中，为了方便起见，可以按照基因组中各个碱基的生物学功能来划分分段，或者还可以采用其他方式来划分分段，在下文中将会详细描述。

在步骤S406中，基于多个分段将基因组与参考基因组进行比对，以标识基因组与参考基因组之间的差异数据。由于基因组中包括的碱基的数量巨大，因而可以以多个分段中的每个分段为单位，来将参考基因组在每个分段内的碱基序列与待压缩的基因组进行比对，当在待压缩基因组中找到与该分段相匹配的部分时，则可以仅记录该部分中与分段中的字符序列中的差异。

最后，在步骤S408中，生成经压缩的基因组，该经压缩的基因组至少包括索引和差异数据。由于经压缩的基因组并不包括与参考基因组之间相同的碱基序列，因而，可以大大降低经压缩基因组所占用的空间。当参考数据库中仅包括一个参考基因组时，无需在经压缩的基因组中包括该参考基因组的标识符；而当参考数据库中包括多个参考基因组时，还需要在经压缩的基因组中包括该参考基因组的标识符，以便可以通过该标识符找到在执行压缩时使用了哪个参考基因组。

另外，可以逐步向参考数据库中加入新的参考基因组，例如，可以在对基因组进行压缩期间逐步更新参考数据库。具体地，对于一个新输入的基因组A，当在参考数据库中不能找到相似度较高的参考基因组时，可以认为该基因组A可能属于一个新的物种，因而可以将该基因组A加入候选列表。当候选列表中的基因组达到一定数量时，可以采用聚类方法并将聚类所得的最具代表性的待压缩基因组加入参考数据库。

另外，在经压缩基因组中包括索引的目的在于，当仅需要访问经压缩基因组中特定位置范围内的碱基时，可以通过索引在差异数据中快速找到与该特定位置范围相对应的部分，继而基于参考基因组和差异数据中的相对应部分来执行部分解压缩，而不是在解压缩全部基因组之后再从中找到所指定的位置范围。

在本发明的一个实施方式中，从参考数据库中选择与基因组相匹配的参考基因组包括：基于表征参考数据库中的参考基因组的至少一个生物性状以及参考数据库中的参考基因组中包括的至少一个预定序列中的至少任一项，选择参考基因组。

可以通过多种方式来从参考数据库中找到与待压缩基因组相匹配的参考基因组。具体地，参考数据库中还可以包括描述每个参考基因组的至少一个生物性状的附加信息，该生物性状可以包括多个方面，例如对于人类而言可以包括：肤色、头发颜色，等等。因而，表征每个参考基因组的生物性状可以以一个多维矢量来描述V_PT＝(pt1，pt2，...)。另外，可以设置从1-10的10个等级来描述从白到黑的颜色。因而，该多维矢量例如可以表示为V_PT=(2，3，...)。可以以如下所示表1的格式来存储参考数据库中的生物性状。

表1生物性状

参考基因组序号	肤色	头发颜色	...
				1	2	3	...
2	3	9	...
				...	...	...	...

由于可以采集待压缩基因组的生物性状，因而通过将待压缩基因组的生物性状与参考数据库中的各个参考基因组的生物性状相比较，即可选择与待压缩基因组相类似的参考基因组。在本发明的一个实施方式中，选择参考基因组包括：计算表征基因组的至少一个生物性状、以及表征参考数据库中的参考基因组的至少一个生物性状之间的第一相似度；以及选择第一相似度大于第一阈值的参考基因组。

本领域技术人员可以采用多种方式来计算相似度。仅举例而言，可以计算描述待压缩基因组的生物性状的矢量V1、以及描述参考数据库中的参考基因组的生物性状的矢量V2之间的欧式距离，并将该欧式距离作为第一相似度。备选地，如果认为某一生物性状的重要性较高时，还可以为该生物性状设置较高的权重。

可以选择第一相似度大于第一阈值的参考基因组，或者，在存在多个参考基因组的相似度均大于第一阈值时，还可以选择相似度最高的参考基因组。本领域技术人员还可以采用其他方式来选择参考基因组。

在本发明的一个实施方式中，选择参考基因组包括：针对参考数据库中的当前参考基因组，分别确定至少一个预定序列在基因组内的第一组位置，以及确定至少一个预定序列在当前参考基因组内的第二组位置；计算第一组位置和第二组位置之间的第二相似度；以及基于第二相似度来选择参考基因组。

如果基于生物性状不能选择参考基因组，还可以基于预定序列在待压缩基因组和参考基因组内的位置之间的相似性来选择参考基因组。在本发明的上下文中，预定序列可以是指对于物种的划分仅起非常小的作用的碱基序列。例如，由于人类属于哺乳动物，因而人类的基因组中会包括一些与较为低等哺乳动物相同的保守碱基序列片段，尽管人类还可以细分为白色人种、黄色人种等人种，然而各色人种的基因组中都会包括这些保守碱基序列片段。

目前生物学家已经成功识别出了与各种物种相关联的保守碱基序列片段，因而通过比较这些保守碱基序列片段在待压缩基因组和参考基因组内的位置之间的相似性，可以大致推断出待压缩基因组的物种，进而有助于选择与待压缩基因组较为相似的参考基因组。

对于人类而言，假设已经标识出了多个保守碱基序列片段，可以以如下文表2所示的结构来存储这些保守基因序列在各个参考基因组中的位置：

表2保守碱基序列片段

参考基因组序号	保守碱基序列片段1	保守碱基序列片段2	...
				1	位置1-1	位置1-2	...
2	位置2-1	位置2-2	...
				...	...	...	...

类似于上文参见生物性状所示的具体示例，可以采用矢量来描述多个保守碱基序列片段在一个基因组中的位置，例如，V_SM=(位置1，位置2，...)。可以分别确定多个保守碱基序列片段在基因组内的第一组位置(例如，表示为矢量V_SM1)，以及确定多个保守碱基序列片段在参考基因组内的第二组位置(例如，表示为矢量V_SM2)，并通过计算两个矢量之间的相似度，来选择参考基因组。

类似于上文基于生物性状来选择参考基因组的方式，在本发明的一个实施方式中，可以基于计算欧式距离的方式，或者其他方式来选择参考基因组。

由于基于保守碱基序列片段的位置来选择参考基因组的准确性还有待提高，因而，可以从参考数据库中首选相似度高于特定阈值的多个参考基因组作为候选，继而再从该多个候选中选择最为适合的参考基因组。

在本发明的一个实施方式中，基于第二相似度来选择参考基因组包括：将第二相似度大于第二阈值的参考基因组加入候选列表；以及将基因组分别与候选列表中的各个参考基因组进行比较，以从候选列表中选择与基因组的差异最小的参考基因组。

在本发明的一个实施方式中，可以采用多序列比对(MultipleSequence A1ignment，MSA)算法来将待压缩基因组与多个候选参考基因组进行比较。多序列比对是一种用于对三个或者更多生物序列(蛋白质序列、DNA序列等)进行比对的算法，关于多序列比对的更多细节，可以参考http：／／en.wikipedia.org／wiki／Multiple_sequence_alignment，本说明书中不再赘述。

除了上文所述的生物性状和保守碱基序列片段以外，在参考数据库中还可以包括与各个参考基因组相关联的注释信息。在此所述的注释信息例如可以是描述某起始位置和终止位置之间区间的碱基序列的功能的注释信息。例如，假设起始位置和终止位置分别为1和10000之间的碱基序列与人类的肤色有关，则可以针对位置1-10000之间的碱基序列添加注释，表明此部分碱基与人类的肤色有关。另外，还可以为基因组中的其他位置的碱基序列添加其他类型的注释。

目前，生物学家已经破解了某些碱基序列的含义，并且已经向基因组添加了诸多注释。因而，可以基于与这些注释相关联的碱基序列的起始位置和终止位置来划分分段。另外，由于目前还仅仅针对基因组中的一部分碱基序列添加了注释，对于其他的没有注释信息的部分，可以按照预定步长来进行划分，例如，可以按照以1000个碱基为单位，来进行划分。或者，还可以设置其他预定步长。

图5示意性示出了根据本发明一个实施方式的用于创建索引的过程的示意图500。如图5所示，注释1520和注释2522分别表示参考数据库中的参考基因组510的两个注释。注释1520对应的碱基序列在整个基因组中的起始位置和终止位置分别为位置1540和位置2542，因而，可以将位置1540和位置2542之间的部分作为一个分段(例如，分段N530)。另外，注释2522对应的碱基序列在整个基因组中的起始位置和终止位置分别为位置2542和位置3544；因而，可以将位置2542和位置3544之间的部分作为另一个分段(例如，分段N+1532)。类似地，还可以针对参考基因组510中的其他没有注释信息的部分来按照预定步长524来划分分段，并获得分段N+2534。以此方式，可以将整个参考基因组510划分为多个分段。

在本发明的一个实施方式中，可以以参考基因组中的多个分段中的一个分段作为基本单位，来与待压缩基因组进行比对；还可以以一个分段中的一个子分段为基本单位，来进行比对。以子分段为基本单位进行比对有可能提高匹配的概率，然而可能会使得索引变得较为复杂。

在本发明的一个实施方式中，基于多个分段将基因组与参考基因组进行比对，以标识基因组与参考基因组之间的差异数据包括：针对多个分段中的当前分段的一子分段，在基因组中查找与子分段的文本相近似的核心区域；以及将核心区域与子分段的文本差异作为差异数据的至少一部分；将基因组中核心区域以外的部分，添加至差异数据。

图6A-图6C分别示意性示出了根据本发明一个实施方式的、用于标识基因组与参考基因组之间的差异数据的示意图600A-600C。可以将多个分段中的每个分段逐一与待压缩基因组进行比对。在下文中将仅描述如何将一个分段与待压缩基因组进行比较的过程。

具体而言，可以基于n元语法(n-gram)来采用滑动窗口的方式进行比较。由于基因组是由A、G、T、C四个碱基形成的长度数量级为数十亿的字符序列，可以借助于概率语言模型(ProbabilisticLanguage Model)中的n元语法来进行分析。关于n元语法的更多细节，请参见http：／／en.wikipedia.org／wiki／N-gram，在本说明书中不再赘述。

在本发明的一个实施方式中，可以基于当前分段中的多个n-gram所对应的得分的总和，将得分总和大于预定阈值的区域作为核心区域。假设在一个实施方式中采用3元语法(即以3个碱基为基本单位进行比对)，并且在此实施方式中基于BLOSUM矩阵来计算每个n-gram的得分。图6A中示出了针对碱基序列“ATGCGT...”中的各个3-gram计算所得的得分，具体地，针对3-gram1至3-gram4这四个基本单位的得分分别为13、16、14和18。

图6B示出了如何计算待压缩基因组与当前分段的子分段是否相类似的得分：以3-gram为示例，当待压缩基因组中的3-gram与子分段中的3-gram的得分相同时，则将总体得分+2；当不同时，则将总体得分-3。以图6B中的待压缩基因组610B与当前分段612B中的子分段相比较，总体得分=2+2+2+2+2+2+2-3+2+2+2+2+2+2+2-3+2=24。当总体得分超过预定阈值时，则可以认为待压缩基因组中的该碱基序列是与子分段的文本相近似的核心区域。

当找到与当前分段的子分段的文本相近似的核心区域之后，可以寻找核心区域与当前分段的子分段之间的文本差异，并将找到的文本差异作为差异数据的一部分。具体地，图6C示出了差异数据的具体示例。如图6C中的方框620C处所示，此处的待压缩基因组610C中的碱基与当前分段612C中的碱基不同(即，存在文本差异)，可以将该差异记录为(c，A，15)。其中“c”表示修改(change)类型的差异，“A”表示将参考基因组中的碱基修改为碱基“A”，并且该差异出现在第15个碱基处。

类似地，对于图6C中如方块622C处所示的差异，可以以(d，T，9)来表示。其中“d”表示删除类型的差异，“T”表示删除碱基“T”，并且该差异出现在上一差异之后的第9个碱基的位置处。类似地，本领域技术人员还可以定义表示插入类型的差异。

应当注意，可以以与当前分段相关联的方式来保存上述差异数据。例如，索引中可以包括差异数据和当前分段之间的关联，即，该关联可以表示差异数据是与参考基因组中的哪个分段相对应的差异数据。具体地，例如可以在差异数据的头部处添加与差异数据相关联的分段的标识符。例如假设图6C中的方框622C处所示的差异数据(d，T，9)关联于参考基因组中的分段“segl”，则该差异数据可以被记录为“segl(d，T，9)”。应当注意，在此仅仅给出了差异数据的表示方式的示例，本领域技术人员还可以采用其他数据结构来记录差异数据，例如，可以采用四元组的方式记录。

在本发明的一个实施方式中，当差异数据对应于待处理基因组中与当前分段的子分段的文本相近似的核心区域(即，核心区域内的差异数据)时，可以将当前分段作为与差异数据相关联的分段。另外，当差异数据是待处理基因组中、不同于各个核心区域的数据(即，核心区域外的差异数据)时，可以将该差异数据之前(或者之后)紧邻的一个核心区域所对应的分段作为与该差异数据相关联的分段。以此方式，可以明确地记录差异数据与参考基因组中的分段的对应关系。基于该对应关系和索引，即可方便地对经压缩基因组中的特定部分进行解压缩。

通过上文所述的具体示例，可以将参考基因组中的各个分段(或者分段的子分段)分别与待压缩基因组进行比对，以找到相应的核心区域，并记录各个核心区域与相应当前分段(或者分段的子分段)的文本差异。对于待压缩基因组中除核心区域以外的部分，可以认为在参考基因组中不存在与这些部分相类似的碱基序列，因而可以将这些部分直接添加到差异数据中。

在本发明的一个实施方式中，针对多个分段中的当前分段的子分段，在基因组中向前和／或向后扩展核心区域；以及响应于经扩展的核心区域、以及经扩展的核心区域在参考基因组中相对应的区域之间的文本差异低于第三阈值，将经扩展的核心区域作为扩展核心区域(最终匹配区域)。

在上文中已经描述了寻找核心区域的具体方式，作为备选，还可以将上述核心区域在待压缩基因组中沿着向前和／或向后的方向进行扩展。例如，可以每次以一个碱基为步长进行扩展，例如，可以比较扩展后的核心区域、以及经扩展的核心区域在参考基因组中相对应的区域之间的文本差异，当差异小于预定阈值时，对核心区域进行扩展。应当注意，并不能无限制地进行扩展，而是需要以能够提高压缩率为目的来进行扩展。

图7示意性示出了根据本发明一个实施方式的用于对经压缩基因组进行解压缩的方法的流程图700。具体地，在步骤S702中，响应于接收到根据本发明的方法进行压缩的经压缩的基因组，从参考数据库中获取与经压缩的基因组相匹配的参考基因组。由于经压缩的基因组的索引中保存了与该基因组相类似的参考基因组的信息，因而可以经由该信息来从参考数据库中获取参考基因组。

接着，在步骤S704中，按照经压缩的基因组中的索引，基于参考基因组和经压缩的基因组中的差异数据，对经压缩的基因组进行解压缩。另外，由于经压缩的基因组中的差异数据保存了该基因组与参考基因组之间的差异数据，可以向参考基因组应用差异数据，以便从经压缩的基因组中恢复原始基因组。

在本发明的一个实施方式中，进一步包括：响应于对经压缩的基因组中的指定部分进行访问的请求，根据索引在差异数据中搜索与指定部分相对应的差异信息；以及基于差异信息和参考基因组，对指定部分进行解压缩。

本领域技术人员可以理解，从上文详述的建立索引的过程可知，由于索引指明了差异数据中的部分是与参考基因组中的哪个分段相对应的差异数据。以此方式，即可方便地对经压缩基因组中的特定部分进行解压缩。

图8A示意性示出了根据本发明一个实施方式的对基因组进行压缩的装置的框图800A。具体地，提供了一种用于对基因组进行压缩的装置，包括：选择模块810A，配置用于从参考数据库中选择与基因组相匹配的参考基因组；索引模块820A，配置用于基于参考基因组中包括的多个分段在参考基因组中的位置来创建索引；比对模块830A，配置用于基于多个分段将基因组与参考基因组进行比对，以标识基因组与参考基因组之间的差异数据；以及生成模块840A，配置用于生成经压缩的基因组，经压缩的基因组至少包括索引和差异数据。

在本发明的一个实施方式中，选择模块810A包括至少以下任一项：第一选择模块，配置用于基于表征参考数据库中的参考基因组的至少一个生物性状，选择参考基因组；以及第二选择模块，配置用于基于参考数据库中的参考基因组中包括的至少一个预定序列，选择参考基因组。

在本发明的一个实施方式中，第一选择模块包括：计算模块，配置用于计算表征基因组的至少一个生物性状、以及表征参考数据库中的参考基因组的至少一个生物性状之间的第一相似度；以及第一选择单元，配置用于选择第一相似度大于第一阈值的参考基因组。

在本发明的一个实施方式中，第二选择模块包括：位置确定模块，配置用于针对参考数据库中的当前参考基因组，分别确定至少一个预定序列在基因组内的第一组位置，以及确定至少一个预定序列在当前参考基因组内的第二组位置；位置相似度计算模块，配置用于计算第一组位置和第二组位置之间的第二相似度；以及第二选择单元，配置用于基于第二相似度来选择参考基因组。

在本发明的一个实施方式中，第二选择单元包括：候选列表生成模块，配置用于将第二相似度大于第二阈值的当前参考基因组加入候选列表；以及多序列比对模块，配置用于将基因组分别与候选列表中的各个参考基因组进行比较，以从候选列表中选择与基因组的差异最小的参考基因组。

在本发明的一个实施方式中，比对模块830A包括：核心区域生成模块，配置用于针对多个分段中的当前分段，在基因组中查找与当前分段的文本相近似的核心区域；第一差异数据生成模块，配置用于将核心区域与当前分段的文本差异作为差异数据的至少一部分；以及第二差异数据生成模块，配置用于将基因组中核心区域以外的部分，添加至差异数据。

在本发明的一个实施方式中，核心区域生成模块进一步包括：第一扩展模块，配置用于针对多个分段中的当前分段，在基因组中向前和／或向后扩展核心区域；以及第二扩展模块，配置用于响应于经扩展的核心区域、以及经扩展的核心区域在参考基因组中相对应的区域之间的文本差异低于第三阈值，将经扩展的核心区域作为核心区域。

图8B示意性示出了根据本发明一个实施方式的用于对经压缩基因组进行解压缩的装置的框图800B。具体地，提供了一种用于对基因组进行解压缩的装置，包括：获取模块810B，配置用于响应于接收到根据本发明的装置进行压缩的经压缩的基因组，从参考数据库中获取与经压缩的基因组相匹配的参考基因组；以及解压缩模块820B，配置用于按照经压缩的基因组中的索引，基于参考基因组和经压缩的基因组中的差异数据，对经压缩的基因组进行解压缩。

在本发明的一个实施方式中，进一步包括：定位模块，配置用于响应于对经压缩的基因组中的指定部分进行访问的请求，根据索引在差异数据中搜索与指定部分相对应的差异信息；以及部分解压缩模块，配置用于基于差异信息和参考基因组，对指定部分进行解压缩。

附图中的流程图和框图显示了根据本发明的多个实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和／或流程图中的每个方框、以及框图和／或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施方式，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施方式。在不偏离所说明的各实施方式的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施方式的原理、实际应用或对市场中现有技术的改进，或者使本技术领域的其他普通技术人员能理解本文披露的各实施方式。

Claims

1.一种用于对基因组进行压缩的方法，包括：

从参考数据库中选择与所述基因组相匹配的参考基因组；

基于所述参考基因组中包括的多个分段在所述参考基因组中的位置来创建索引；

基于所述多个分段将所述基因组与所述参考基因组进行比对，以标识所述基因组与所述参考基因组之间的差异数据；以及

生成经压缩的基因组，所述经压缩的基因组至少包括所述索引和所述差异数据。

2.根据权利要求1所述的方法，其中从参考数据库中选择与所述基因组相匹配的参考基因组包括：

基于表征所述参考数据库中的参考基因组的至少一个生物性状以及所述参考数据库中的参考基因组中包括的至少一个预定序列中的至少任一项，选择所述参考基因组。

3.根据权利要求2所述的方法，其中选择所述参考基因组包括：

计算表征所述基因组的至少一个生物性状、以及表征所述参考数据库中的参考基因组的至少一个生物性状之间的第一相似度；以及

选择第一相似度大于第一阈值的所述参考基因组。

4.根据权利要求2所述的方法，其中选择所述参考基因组包括：针对所述参考数据库中的当前参考基因组，

分别确定所述至少一个预定序列在所述基因组内的第一组位置，以及确定所述至少一个预定序列在所述当前参考基因组内的第二组位置；

计算所述第一组位置和所述第二组位置之间的第二相似度；以及

基于所述第二相似度来选择所述参考基因组。

5.根据权利要求4所述的方法，其中基于所述第二相似度来选择所述参考基因组包括：

将所述第二相似度大于第二阈值的所述当前参考基因组加入候选列表；以及

将所述基因组分别与所述候选列表中的各个参考基因组进行比较，以从所述候选列表中选择与所述基因组的差异最小的参考基因组。

6.根据权利要求1-5中的任一项所述的方法，其中所述参考基因组中的所述多个分段是基于与所述参考基因组相关联的注释以及预定步长中的至少任一项来划分的。

7.根据权利要求1-5中的任一项所述的方法，其中基于所述多个分段将所述基因组与所述参考基因组进行比对，以标识所述基因组与所述参考基因组之间的差异数据包括：

针对所述多个分段中的当前分段的一子分段，

在所述基因组中查找与所述子分段的文本相近似的核心区域；以及

将所述核心区域与所述子分段的文本差异作为所述差异数据的至少一部分；

将所述基因组中所述核心区域以外的部分，添加至所述差异数据。

8.根据权利要求7所述的方法，进一步包括：针对所述多个分段中的所述当前分段的所述子分段，

在所述基因组中向前和／或向后扩展所述核心区域；以及

响应于经扩展的所述核心区域、以及经扩展的所述核心区域在所述参考基因组中相对应的区域之间的文本差异低于第三阈值，将经扩展的所述核心区域作为扩展核心区域。

9.一种用于对基因组进行解压缩的方法，包括：

响应于接收到根据权利要求1-8中的任一项所述的方法进行压缩的经压缩的基因组，从参考数据库中获取与所述经压缩的基因组相匹配的参考基因组；以及

按照所述经压缩的基因组中的索引，基于所述参考基因组和所述经压缩的基因组中的差异数据，对所述经压缩的基因组进行解压缩。

10.根据权利要求9所述的方法，进一步包括：

响应于对所述经压缩的基因组中的指定部分进行访问的请求，根据所述索引在所述差异数据中搜索与所述指定部分相对应的差异信息；以及

基于所述差异信息和所述参考基因组，对所述指定部分进行解压缩。

11.一种用于对基因组进行压缩的装置，包括：

选择模块，配置用于从参考数据库中选择与所述基因组相匹配的参考基因组；

索引模块，配置用于基于所述参考基因组中包括的多个分段在所述参考基因组中的位置来创建索引；

比对模块，配置用于基于所述多个分段将所述基因组与所述参考基因组进行比对，以标识所述基因组与所述参考基因组之间的差异数据；以及

生成模块，配置用于生成经压缩的基因组，所述经压缩的基因组至少包括所述索引和所述差异数据。

12.根据权利要求11所述的装置，其中所述选择模块包括至少以下任一项：

第一选择模块，配置用于基于表征所述参考数据库中的参考基因组的至少一个生物性状，选择所述参考基因组；以及

第二选择模块，配置用于基于所述参考数据库中的参考基因组中包括的至少一个预定序列，选择所述参考基因组。

13.根据权利要求12所述的装置，其中所述第一选择模块包括：

计算模块，配置用于计算表征所述基因组的至少一个生物性状、以及表征所述参考数据库中的参考基因组的至少一个生物性状之间的第一相似度；以及

第一选择单元，配置用于选择所述第一相似度大于第一阈值的所述参考基因组。

14.根据权利要求12所述的装置，其中所述第二选择模块包括：

位置确定模块，配置用于针对所述参考数据库中的当前参考基因组，分别确定所述至少一个预定序列在所述基因组内的第一组位置，以及确定所述至少一个预定序列在所述当前参考基因组内的第二组位置；

位置相似度计算模块，配置用于计算所述第一组位置和所述第二组位置之间的第二相似度；以及

第二选择单元，配置用于基于所述第二相似度来选择所述参考基因组。

15.根据权利要求14所述的装置，其中所述第二选择单元包括：

候选列表生成模块，配置用于将所述第二相似度大于第二阈值的所述当前参考基因组加入候选列表；以及

多序列比对模块，配置用于将所述基因组分别与所述候选列表中的各个参考基因组进行比较，以从所述候选列表中选择与所述基因组的差异最小的参考基因组。

16.根据权利要求11-15中的任一项所述的装置，其中所述参考基因组中的所述多个分段是基于与所述参考基因组相关联的注释以及预定步长中的至少任一项来划分的。

17.根据权利要求11-15中的任一项所述的装置，其中所述比对模块包括：

核心区域生成模块，配置用于针对所述多个分段中的当前分段的一子分段，在所述基因组中查找与所述子分段的文本相近似的核心区域；

第一差异数据生成模块，配置用于将所述核心区域与所述子分段的文本差异作为所述差异数据的至少一部分；以及

第二差异数据生成模块，配置用于将所述基因组中所述核心区域以外的部分，添加至所述差异数据。

18.根据权利要求17所述的装置，其中所述核心区域生成模块进一步包括：

第一扩展模块，配置用于针对所述多个分段中的所述当前分段的所述子分段，在所述基因组中向前和／或向后扩展所述核心区域；以及

第二扩展模块，配置用于响应于经扩展的所述核心区域、以及经扩展的所述核心区域在所述参考基因组中相对应的区域之间的文本差异低于第三阈值，将经扩展的所述核心区域作为扩展核心区域。

19.一种用于对基因组进行解压缩的装置，包括：

获取模块，配置用于响应于接收到根据权利要求11-18中的任一项所述的装置进行压缩的经压缩的基因组，从参考数据库中获取与所述经压缩的基因组相匹配的参考基因组；以及

解压缩模块，配置用于按照所述经压缩的基因组中的索引，基于所述参考基因组和所述经压缩的基因组中的差异数据，对所述经压缩的基因组进行解压缩。

20.根据权利要求19所述的装置，进一步包括：

定位模块，配置用于响应于对所述经压缩的基因组中的指定部分进行访问的请求，根据所述索引在所述差异数据中搜索与所述指定部分相对应的差异信息；以及

部分解压缩模块，配置用于基于所述差异信息和所述参考基因组，对所述指定部分进行解压缩。