CN107633158B

CN107633158B - 对基因序列进行压缩和解压缩的方法和设备

Info

Publication number: CN107633158B
Application number: CN201610565189.8A
Authority: CN
Inventors: 石永刚; 孔鑫; 令狐雄展; 郭世硕; 张周
Original assignee: Samsung China Semiconductor Co Ltd; Samsung Electronics Co Ltd
Current assignee: Samsung China Semiconductor Co Ltd; Samsung Electronics Co Ltd
Priority date: 2016-07-18
Filing date: 2016-07-18
Publication date: 2020-12-01
Anticipated expiration: 2036-07-18
Also published as: CN107633158A

Abstract

提供一种对基因序列进行压缩和解压缩的方法和设备，所述对基因序列进行压缩方法包括：根据高频变异信息和标准参考序列生成变异参考序列；根据待处理基因序列与所述变异参考序列的匹配结果对所述待处理基因序列进行压缩，以得到压缩后的基因序列。根据上述对基因序列进行压缩和解压缩的方法和设备，能够提高对基因序列的压缩率，从而减少基因序列的存储空间，并有助于对基因序列的拷贝和传输。

Description

对基因序列进行压缩和解压缩的方法和设备

技术领域

本发明涉及计算生物学和生物信息技术领域，更具体地说，涉及一种对基因序列进行压缩和解压缩的方法和设备。

背景技术

基因序列是通过生物基因测序技术进行采集和测序而生成的，是生物信息学、遗传学、基因组学、医学等诸多领域的研究基础，具有重要的科学价值与实际意义。随着下一代高通量测序技术(Next-generation Sequencing，NGS)的日益成熟并大量使用，获取生物基因序列的时间大幅降低，成本显著下降，测序项目将更加普遍的应用于生物医疗领域。

与此同时，基因数据的存储量也在急剧的增长，以单个正常成年人类的全基因测序结果为例，经过测序仪所产生的全基因测序文件大小约在300GB～500GB之间，2013年年底，寄存公共测序序列的“序列档案”(the Sequence Read Archive，SRA)的储存量达到1000TB，美国国立卫生研究院宣布，该研究院存储世界上最大人类变异数据集，数据总量达2.6PB，且数据规模还在不断增加，存储这些基因序列会占用大量的存储空间。因此，如何在有限的资源中高效的存储这些基因序列，已经成为计算机领域和生物信息领域所面临的新课题。

发明内容

本发明的示例性实施例在于提供一种对基因序列进行压缩和解压缩的方法和设备，以解决现有技术中对基因序列的压缩率低、存储基因序列占用大量存储空间的技术问题。

根据本发明示例性实施例的一方面，提供一种对基因序列进行压缩的方法，所述方法包括：根据高频变异信息和标准参考序列生成变异参考序列；根据待处理基因序列与所述变异参考序列的匹配结果对所述待处理基因序列进行压缩，以得到压缩后的基因序列。

可选地，所述高频变异信息可包括发生变异的位点、在所述位点发生变异后对应的碱基。

可选地，在所述位点发生变异后，对应的碱基在所述位点处的变异频率可大于等于预定频率。

可选地，根据高频变异信息和标准参考序列生成变异参考序列的步骤可包括：将在所述位点发生变异后对应的碱基代替所述标准参考序列中所述位点发生变异前对应的碱基，以生成变异参考序列。

可选地，所述代替可指保留所述位点发生变异前对应的碱基，将在所述位点发生变异后对应的碱基作为标识碱基对在所述位点发生变异前对应的碱基进行标注，以利用所述标识碱基代替所述位点发生变异前对应的碱基参与匹配。

可选地，根据待处理基因序列与所述变异参考序列的匹配结果对所述待处理基因序列进行压缩的步骤可包括：按照按位偏移的方式将所述待处理基因序列划分为至少两个碱基序列片段；将每个碱基序列片段分别与所述变异参考序列进行匹配；当一碱基序列片段与所述变异参考序列匹配时，生成所述一碱基序列片段的对应于所述变异参考序列的索引信息，并用生成的索引信息替换所述一碱基序列片段。

可选地，所述索引信息可包括所述一碱基序列片段的起始位点和标识，所述标识指示与所述一碱基序列片段匹配的参考序列为变异参考序列。

可选地，相邻两个碱基序列片段之间可相差预定个数的位点，每个碱基序列片段可具有预定长度。

可选地，当所述变异参考序列中的以所述一碱基序列片段的起始位点开始所述预定长度范围内的碱基序列片段与所述一碱基序列片段完全一致时，所述一碱基序列片段可与所述变异参考序列匹配。

根据本发明示例性实施例的另一方面，提供一种对基因序列进行解压缩的方法，所述方法包括：获取待解压缩基因序列；基于标准参考序列和变异参考序列对所述待解压缩基因序列进行解压缩，以获得解压缩基因序列。

可选地，基于标准参考序列和变异参考序列对所述待解压缩基因序列进行解压缩的步骤可包括：根据所述待解压缩基因序列中的每个索引信来从标准参考序列或变异参考序列中获得分别与每个索引信息所对应的碱基序列片段。

根据本发明示例性实施例的再一方面，提供一种对基因序列进行压缩的设备，所述设备包括：参考序列生成单元，根据高频变异信息和标准参考序列生成变异参考序列；压缩单元，根据待处理基因序列与所述变异参考序列的匹配结果对所述待处理基因序列进行压缩，以得到压缩后的基因序列。

可选地，参考序列生成单元可将在所述位点发生变异后对应的碱基代替所述标准参考序列中所述位点发生变异前对应的碱基，以生成变异参考序列。

可选地，压缩单元可按照按位偏移的方式将所述待处理基因序列划分为至少两个碱基序列片段，将每个碱基序列片段分别与所述变异参考序列进行匹配，当一碱基序列片段与所述变异参考序列匹配时，生成所述一碱基序列片段的对应于所述变异参考序列的索引信息，并用生成的索引信息替换所述一碱基序列片段。

可选地，当所述变异参考序列中的以所述一碱基序列片段的起始位点开始所述预定长度范围内的碱基序列片段与所述一碱基序列片段完全一致时，所述一碱基序列片段与所述变异参考序列匹配。

根据本发明示例性实施例的再一方面，提供一种对基因序列进行解压缩的设备，所述设备包括：基因序列获取单元，获取待解压缩基因序列；解压缩单元，基于标准参考序列和变异参考序列对所述待解压缩基因序列进行解压缩，以获得解压缩基因序列。

可选地，解压缩单元可根据所述待解压缩基因序列中的每个索引信来从标准参考序列或变异参考序列中获得分别与每个索引信息所对应的碱基序列片段。

根据上述对基因序列进行压缩和解压缩的方法和设备，能够提高对基因序列的压缩率，从而减少基因序列的存储空间，并有助于对基因序列的存储、分析、拷贝和传输。

附图说明

通过下面结合示例性地示出实施例的附图进行的详细描述，本发明示例性实施例的上述和其它目的、特点和优点将会变得更加清楚，其中：

图1示出根据本发明示例性实施例的对基因序列进行压缩的方法的流程图；

图2示出根据本发明示例性实施例的生成变异参考序列的示例图；

图3示出根据本发明示例性实施例的对任一碱基序列片段进行压缩的步骤的流程图；

图4示出根据本发明示例性实施例的对碱基序列片段进行压缩的示例图；

图5示出根据本发明示例性实施例的对基因序列进行解压缩的方法的流程图；

图6示出根据本发明示例性实施例的对基因序列进行压缩的设备的框图；

图7示出根据本发明示例性实施例的对基因序列进行解压缩的设备的框图。

具体实施方式

现在，将参照附图更充分地描述不同的示例实施例，其中，一些示例性实施例在附图中示出。

图1示出根据本发明示例性实施例的对基因序列进行压缩的方法的流程图。

参照图1，在步骤S10中，根据高频变异信息和标准参考序列生成变异参考序列。

这里，应理解，生物基因可以由脱氧核糖核酸(Deoxyribonucleic Acid，DNA)的碱基对的精确排列来描述，也就是说，生物基因可以表示为由A(腺嘌呤)、G(鸟嘌呤)、T(胸腺嘧啶)、C(胞嘧啶)这四个碱基构成的有序序列，即，基因序列。

不同生物的基因序列的长度不同，现有的各种基因研究机构针对不同生物物种提供了多个标准参考序列，在本发明示例性实施例中的标准参考序列应是根据待处理基因序列的物种，从基因研究机构提供的多个标准参考序列中选取的与待处理基因序列相同物种的标准参考序列。例如，假设待处理基因序列为人类基因序列，则所述标准参考序列应为人类基因的标准参考序列。

作为示例，所述高频变异信息可包括发生变异的位点和在所述位点发生变异后对应的碱基。这里，在所述位点发生变异后，对应的碱基在所述位点处的变异频率大于等于预定频率。

具体说来，在现有的各种基因研究机构提供的变异数据库中记载了不同生物物种的变异数据，作为示例，一个生物物种的变异数据可包括发生变异的位点、在所述位点发生变异后对应的碱基以及该碱基在所述位点处的变异频率。优选地，该变异频率可指全球等位基因频率(Global Allele Frequency)。

可选地，针对一个生物物种的变异数据，所述高频变异信息可通过以下方式被获得：将现有的变异数据中的变异频率与预定频率进行比较，将大于等于所述预定频率的变异频率所对应的位点和在该位点发生变异后对应的碱基作为该生物物种的高频变异信息。例如，假设现有的变异数据库提供的变异数据包括位点528、在位点528处发生变异后的碱基C、碱基C在位点528处的全球等位基因频率(即，0.2)，可将全球等位基因频率与预定频率(例如，0.1)进行比较，此时，全球等位基因频率大于预定频率，则可将该全球等位基因频率对应的位点528和在位点528处发生变异后的碱基C作为用于生成变异参考序列的高频变异信息。

优选地，在本发明示例性实施例中，根据高频变异信息和标准参考序列生成变异参考序列的步骤可包括：将在所述位点发生变异后对应的碱基代替所述标准参考序列中所述位点发生变异前对应的碱基，以生成变异参考序列。优选地，所述代替可指保留所述位点发生变异前对应的碱基，将在所述位点发生变异后对应的碱基作为标识碱基对在所述位点发生变异前对应的碱基进行标注，以利用所述标识碱基代替所述位点发生变异前对应的碱基参与匹配。

下面以图2为例，来详细介绍根据本发明的示例性实施例生成变异参考序列的过程。

图2示出根据本发明示例性实施例的生成变异参考序列的示例图。

如图2所示，高频变异信息中可包含多个发生变异的位点以及分别与每个发生变异的位点对应的发生变异后的碱基，在本示例中，假设高频变异信息包含发生变异的位点528，在位点528处发生变异后的碱基为C，在位点528处发生变异前的碱基为G，发生变异的位点579，在位点579处发生变异后的碱基为T，在位点579处发生变异前的碱基为A(以下，称为“原碱基”)。

以根据位点579处发生变异后的碱基T和标准参考序列生成变异参考序列为例，首先根据高频变异信息中所包含的位点(即，579)，在标准参考序列中找到位点579对应的原碱基(即，碱基A，如图2中的箭头所指向的碱基)，用位点579处发生变异后的碱基T代替位点579处的原碱基A，即，将位点579处发生变异后的碱基T作为标识碱基对该原碱基A进行标注，从而生成变异参考序列(如图2所示的表示方式)。

这里，本发明示例性实施例中生成变异参考序列的过程仅是对标准参考序列中高频变异信息中所包含的位点对应的原碱基进行标注(即，通过该标注指明后续是利用变异参考序列中该位点对应的标识碱基代替所述位点发生变异前对应的碱基参与匹配，并非是用该位点对应的原碱基进行匹配)，不改变标准参考序列的结构。

此外，根据本发明的示例性实施例，在生成变异参考序列的过程中，仅是对标准参考序列中该位点处对应的原碱基进行标注，并未对标准参考序列中发生变异的位点处对应的原碱基进行替换，这样不会造成该位点周围的其他碱基的连续变异，从而能够确保后续基于生成的变异参考序列进行基因匹配的准确性。

返回图1，在步骤S20中，根据待处理基因序列与生成的变异参考序列的匹配结果对所述待处理基因序列进行压缩，以得到压缩后的基因序列。

优选地，可按照按位偏移的方式将待处理基因序列划分为至少两个碱基序列片段(reads)，以一个碱基序列片段作为一个基本单位来进行压缩。这里，通过按位偏移的方式对待处理基因序列进行划分可提高基因序列匹配的准确性。

作为示例，每个碱基序列片段可具有预定长度，相邻两个碱基序列片段之间可相差预定个数的位点。例如，按位偏移可指以所述预定个数的位点为间隔按照待处理基因序列的位点次序历遍整个待处理基因序列，以将待处理基因序列划分为预定长度的至少两个碱基序列片段。

例如，假设待处理基因序列包含1000个碱基，相邻两个碱基序列片段之间相差一个位点(即，预定个数为1)，预定长度为15个碱基，则可将1000个碱基划分为位点1～位点15为一个碱基序列片段，位点2～位点16为一个碱基片段，位点3～位点17为一个碱基片段，以此类推，以将待处理基因序列划分为多个碱基序列片段。

后续针对一个预定长度的碱基序列片段来进行压缩，可选地，可将所述多个碱基序列片段中的任一碱基序列片段与变异参考序列进行匹配，当所述任一碱基序列片段与变异参考序列匹配时，生成所述任一碱基序列片段的对应于所述变异参考序列的索引信息，并用生成的索引信息替换所述任一碱基序列片段，当所述任一碱基序列片段与变异参考序列不匹配时，以预定编码方式对所述任一碱基序列片段进行编码，得到预定编码碱基序列片段，并用生成的预定编码碱基序列片段替换所述任一碱基序列片段。

优选地，在根据本发明示例性实施例中为进一步提高对基因序列的压缩率，可将所述任一碱基序列片段与所述标准参考序列和所述变异参考序列分别进行匹配，然后基于所述任一碱基序列片段与所述标准参考序列和所述变异参考序列分别进行匹配的结果来对所述任一碱基序列片段进行压缩。

具体说来，当一碱基序列片段与所述标准参考序列和所述变异参考序列中的一个参考序列匹配时，生成所述一碱基序列片段的对应于所述一个参考序列的索引信息，并用生成的索引信息替换所述一碱基序列片段，当所述一碱基序列片段与所述标准参考序列和所述变异参考序列均不匹配时，以预定编码方式对所述一碱基序列片段进行编码，得到预定编码碱基序列片段，并用生成的预定编码碱基序列片段替换所述一碱基序列片段。作为示例，所述索引信息可包括所述一碱基序列片段的起始位点和标识，所述标识指示标准参考序列和变异参考序列之中与所述一碱基序列片段匹配的参考序列。

下面参照图3来详细介绍基于所述标准参考序列和所述变异参考序列来对所述多个碱基序列片段中的任一碱基序列片段进行压缩的步骤。

图3示出根据本发明示例性实施例的对任一碱基序列片段进行压缩的步骤的流程图。

参照图3，在步骤S201中，将所述任一碱基序列片段与标准参考序列进行匹配。这里，该匹配过程是指确定所述标准参考序列中是否包括与所述任一碱基序列片段完全一致的碱基序列片段，即，确定标准参考序列中的以所述任一碱基序列片段的起始位点开始所述预定长度范围内的碱基序列片段与所述任一碱基序列片段是否完全一致。

作为示例，可确定所述任一碱基序列片段包含的碱基与标准参考序列中与所述任一碱基序列片段的起始位点和终止位点对应的范围内的碱基是否完全一致。例如，假设所述任一碱基序列片段的起始位点为500，预定长度为15个碱基，此时可知道所述任一碱基序列片段的终止位点为514，然后可将所述任一碱基序列片段包含的碱基与标准参考序列中位点500-位点514范围内的碱基进行逐位一一比对。然而，本发明不限于此，还可确定所述任一碱基序列片段包含的碱基与标准参考序列中从起始位点开始的所述预定长度范围内的碱基是否完全一致。

如果所述任一碱基序列片段与标准参考序列匹配，则执行步骤S202：生成所述任一碱基序列片段的对应于所述标准参考序列的索引信息，并用生成的索引信息替换所述任一碱基序列片段。这里，当所述标准参考序列中包括与所述任一碱基序列片段完全一致的碱基序列片段时，所述任一碱基序列片段与所述标准参考序列匹配，例如，所述任一碱基序列片段中各位点对应的碱基与标准参考序列中与所述任一碱基序列片段的起始位点和终止位点对应的范围内的各位点对应的碱基均一致时(即，标准参考序列中的以所述任一碱基序列片段的起始位点开始所述预定长度范围内的碱基序列片段与所述任一碱基序列片段一致)，所述任一碱基序列片段与所述标准参考序列匹配。

作为示例，生成的索引信息可包括所述任一碱基序列片段的起始位点和标识，在此情况下，该标识可指示与所述任一碱基序列片段匹配的参考序列为标准参考序列，以在对压缩后的基因序列进行解压缩时，根据索引信息所指示的起始位点和标识所指示的标准参考序列来还原所述任一碱基序列片段。

如果所述任一碱基序列片段与标准参考序列不匹配，则执行步骤S203：将所述任一碱基序列片段与变异参考序列进行匹配。与步骤S201中的匹配过程类似，这里，该匹配过程是指确定所述变异参考序列中是否包括与所述任一碱基序列片段完全一致的碱基序列片段，即，确定变异参考序列中的以所述任一碱基序列片段的起始位点开始所述预定长度范围内的碱基序列片段与所述任一碱基序列片段是否完全一致。作为示例，可确定所述任一碱基序列片段包含的碱基与变异参考序列中与所述任一碱基序列片段的起始位点和终止位点对应的范围内的碱基是否完全一致。

应理解，当所述标准参考序列中不包括与所述任一碱基序列片段完全一致的碱基序列片段时(即，标准参考序列中的以所述任一碱基序列片段的起始位点开始所述预定长度范围内的碱基序列片段与所述任一碱基序列片段不一致)，所述任一碱基序列片段与所述标准参考序列不匹配，例如，所述任一碱基序列片段中各位点对应的碱基与标准参考序列中与所述任一碱基序列片段的起始位点和终止位点对应的范围内的各位点对应的碱基不均一致(即，至少一个位点对应的碱基不同)时，所述任一碱基序列片段与变异参考序列不匹配。

如果所述任一碱基序列片段与变异参考序列匹配，则执行步骤S204：生成所述任一碱基序列片段的对应于所述变异参考序列的索引信息，并用生成的索引信息替换所述任一碱基序列片段。这里，当所述变异参考序列中存在与所述任一碱基序列片段完全一致的碱基序列片段时，所述任一碱基序列片段与所述变异参考序列匹配，例如，所述任一碱基序列片段中各位点对应的碱基与变异参考序列中与所述任一碱基序列片段的起始位点和终止位点对应的范围内的各位点对应的碱基均一致时(即，变异参考序列中的以所述任一碱基序列片段的起始位点开始所述预定长度范围内的碱基序列片段与所述任一碱基序列片段一致)，所述任一碱基序列片段与所述变异参考序列匹配。

作为示例，生成的索引信息可包括所述任一碱基序列片段的起始位点和标识，在此情况下，该标识可指示与所述任一碱基序列片段匹配的参考序列为变异参考序列，以在对压缩后的基因序列进行解压缩时，根据索引信息所指示的起始位点和标识所指示的变异参考序列来还原所述任一碱基序列片段。

如果所述任一碱基序列片段与变异参考序列不匹配，则执行步骤S205：以预定编码方式对所述任一碱基序列片段进行编码，得到预定编码碱基序列片段，并用生成的预定编码碱基序列片段替换所述任一碱基序列片段。作为示例，所述预定编码方式可包括哈弗曼编码或字典编码。这里，当所述变异参考序列中不存在与所述任一碱基序列片段完全一致的碱基序列片段时，即，确定变异参考序列中的以所述任一碱基序列片段的起始位点开始所述预定长度范围内的碱基序列片段与所述任一碱基序列片段不完全一致，则所述任一碱基序列片段与所述变异参考序列不匹配，例如，所述任一碱基序列片段中各位点对应的碱基与变异参考序列中与所述任一碱基序列片段的起始位点和终止位点对应的范围内的各位点对应的碱基不均一致(即，至少一个位点对应的碱基不同)时，所述任一碱基序列片段与所述变异参考序列不匹配。

应理解，图3示出的对所述任一碱基序列片段进行压缩过程仅为示例，本发明不限于此，在对所述任一碱基序列片段进行压缩时，还可先将所述任一碱基序列片段与变异参考序列进行匹配，当所述任一碱基序列片段与变异参考序列不匹配时，再将所述任一碱基序列片段与标准参考序列进行匹配。

此时，通过存储索引的方式或编码存储的方式对所述任一碱基序列片段进行了压缩。重复上述步骤S201-步骤S205来对待处理基因序列中的每个碱基序列片段进行压缩，从而得到压缩后的基因序列。此时，压缩后的基因序列可包括索引信息、编码后的碱基序列片段以及碱基序列片段的预定长度。

下面以图4为例，来详细介绍根据本发明的示例性实施例对碱基序列片段进行压缩的过程。

图4示出根据本发明示例性实施例的对碱基序列片段进行压缩的示例图。

如图4所示，在本示例中，假设碱基序列片段的预定长度为15个碱基(即，Reads长度：15)，第一碱基序列片段为CAGTTCTGAAAAGGG，起始位点为525，第二碱基序列片段为AGCTTAAACTTAGGC，起始位点为575，变异参考序列中对位点579处的发生变异前的碱基A进行的标注，该标注所指示的标识碱基为高频变异信息中所包含的在位点579处变异后的碱基T。

在对第一碱基序列片段进行压缩时，将第一碱基序列片段与标准参考序列进行匹配，即，将CAGTTCTGAAAAGGG与标准参考序列中位点525至位点539范围内的碱基(例如，CAGTTCTGAAAAGGG)进行比对，由于第一碱基序列片段与标准参考序列一致(即，第一碱基序列片段包含的碱基与标准参考序列位点525至位点539范围内各位点对应的碱基相同)，则可生成第一碱基序列片段的对应于标准参考序列的索引信息，该索引信息中包含第一碱基序列片段的起始位点525和标识(例如，标识为0可指示与第一碱基序列片段匹配的参考序列为标准参考序列)，用生成的索引信息替换第一碱基序列片段，来实现对第一碱基序列片段的压缩。

在对第二碱基序列片段进行压缩时，假设先将第二碱基序列片段与标准参考序列进行匹配，即，将AGCTTAAACTTAGGC与标准参考序列中位点575至位点589范围内的碱基(例如，AGCTAAAACTTAGGC)进行比对，由于第二碱基序列片段与标准参考序列不匹配(即，第二碱基序列片段与标准参考序列位点575至位点589范围内各位点对应的碱基不完全相同)，例如，第二碱基序列片段与标准参考序列在位点579处对应的碱基不同，此时，可再将第二碱基序列片段与变异参考序列进行匹配，即，将AGCTTAAACTTAGGC与变异参考序列中位点575至位点589范围内的碱基(即，AGCTA<T>AAACTTAGGC)进行比对，如图4所示，第二碱基序列片段与变异参考序列一致(即，第二碱基序列片段与变异参考序列位点575至位点589范围内各位点对应的碱基相同)，这里，针对位点579，是将第二碱基序列片段中位点579处的碱基T与变异参考序列中位点579处<>内的碱基T(即，标识碱基)进行比对，可生成第二碱基序列片段的对应于变异参考序列的索引信息，该索引信息中包含第二碱基序列片段的起始位点575和标识(例如，标识为1可指示与第二碱基序列片段匹配的参考序列为变异参考序列)，用生成的索引信息替换第二碱基序列片段，来实现对第二碱基序列片段的压缩。

图5示出根据本发明示例性实施例的对基因序列进行解压缩的方法的流程图。

参照图5，在步骤S100中，获取待解压缩基因序列。

这里，该待解压缩基因序列可包括索引信息、编码后的碱基序列片段以及碱基序列片段的预定长度。作为示例，所述索引信息可包括所述任一碱基序列片段的起始位点和标识，所述标识可指示标准参考序列和变异参考序列之中与所述任一碱基序列片段匹配的参考序列。

在步骤S200中，基于标准参考序列和变异参考序列对所述待解压缩基因序列进行解压缩，以获得解压缩基因序列。例如，可根据所述待解压缩基因序列中的每个索引信来从标准参考序列或变异参考序列中获得分别与每个索引信息所对应的碱基序列片段。

具体说来，基于标准参考序列和变异参考序列对所述待解压缩基因序列进行解压缩的步骤可包括：根据索引信息所指示的起始位点、以及标识所指示的参考序列来还原所述索引信息对应的碱基序列片段。

例如，可根据所述待解压缩基因序列中的每个索引信所包括的起始位点和标识来获得分别与每个索引信息所对应的碱基序列片段，这里，所述碱基序列片段在解压缩基因序列中的起始位点由与所述碱基序列片段对应的索引信息所包括的起始位点确定，所述碱基序列片段的内容对应于标识所指示的标准参考序列和变异参考序列之一的参考序列中从所述起始位点开始的预定长度范围内的碱基。

作为示例，可从所述索引信息中提取所述索引信息所包含的标识，当提取的标识指示标准参考序列时，可获取标准参考序列中从所述索引信息所包含的起始位点开始，所述预定长度范围内的碱基，并用获取的碱基替换所述索引信息，以还原所述索引信息对应的碱基序列片段。

当提取的标识指示变异参考序列时，可获取变异参考序列中从所述索引信息所包含的起始位点开始，所述预定长度范围内的碱基，并用获取的碱基替换所述索引信息，以还原所述索引信息对应的碱基序列片段。

可选地，根据本发明示例性实施例的对基因序列进行解压缩的方法可还包括：获取所述待解压缩基因序列中的预定编码碱基序列片段，使用预定解码方式对预定编码碱基序列片段进行解码，以获得与所述预定编码碱基序列片段所对应的解码后的碱基序列片段。

在对所述压缩后的基因序列中所包含的索引信息和编码后的碱基序列片段进行上述解压缩处理之后，将各个解压缩后得到碱基序列片段按照位点顺序进行排列，得到基因序列。

图6示出根据本发明示例性实施例的对基因序列进行压缩的设备的框图。

如图6所示，根据本发明示例性实施例的对基因序列进行压缩的设备包括：参考序列生成单元10和压缩单元20。

具体说来，参考序列生成单元10根据高频变异信息和标准参考序列生成变异参考序列。

作为示例，在本发明示例性实施例中的标准参考序列应是根据待处理基因序列的物种，从基因研究机构提供的多个标准参考序列中选取的与待处理基因序列相同物种的标准参考序列。例如，假设待处理基因序列为人类基因序列，则所述标准参考序列应为人类基因的标准参考序列。

作为示例，所述高频变异信息可包括发生变异的位点和在所述位点发生变异后对应的碱基。这里，在所述位点发生变异后对应的碱基在所述位点处的变异频率大于等于预定频率。

可选地，针对一个生物物种的变异数据，所述高频变异信息可通过以下方式被获得：将现有的变异数据中的变异频率与预定频率进行比较，将大于等于所述预定频率的变异频率所对应的位点和在该位点发生变异后对应的碱基作为该生物物种的高频变异信息。

优选地，在本发明示例性实施例中，参考序列生成单元10可将在所述位点发生变异后对应的碱基代替所述标准参考序列中所述位点发生变异前对应的碱基，以生成变异参考序列。优选地，所述代替可指保留所述位点发生变异前对应的碱基，将在所述位点发生变异后对应的碱基作为标识碱基对在所述位点发生变异前对应的碱基进行标注，以利用所述标识碱基代替所述位点发生变异前对应的碱基参与匹配。

这里，本发明示例性实施例中参考序列生成单元10仅是对标准参考序列中高频变异信息中所包含的位点对应的原碱基进行标注(即，通过该标注指明后续是利用变异参考序列中该位点对应的标识碱基代替所述位点发生变异前对应的碱基参与匹配，并非是用该位点对应的原碱基进行匹配)，不改变标准参考序列的结构。

此外，根据本发明的示例性实施例，参考序列生成单元10仅是对标准参考序列中该位点处对应的原碱基进行标注，并未对标准参考序列中发生变异的位点处对应的原碱基进行替换，这样不会造成该位点周围的其他碱基的连续变异，从而能够确保后续基于生成的变异参考序列进行基因匹配的准确性。

压缩单元20根据待处理基因序列与所述变异参考序列的匹配结果对所述待处理基因序列进行压缩，以得到压缩后的基因序列。

优选地，压缩单元20可按照按位偏移的方式将待处理基因序列划分为至少两个碱基序列片段(reads)，以一个碱基序列片段作为一个基本单位来进行压缩。这里，通过按位偏移的方式对待处理基因序列进行划分可提高基因序列匹配的准确性。

作为示例，每个碱基序列片段可具有预定长度，相邻两个碱基序列片段之间可相差预定个数的位点。例如，按位偏移可指以所述预定个数的位点为间隔按照待处理基因序列的位点次序历遍整个待处理基因序列，以将待处理基因序列划分为预定长度的至少两个碱基序列片段。后续压缩单元20可针对一个预定长度的碱基序列片段来进行压缩，可选地，压缩单元20可将所述多个碱基序列片段中的任一碱基序列片段与变异参考序列进行匹配，当所述任一碱基序列片段与变异参考序列匹配时，生成所述任一碱基序列片段的对应于所述变异参考序列的索引信息，并用生成的索引信息替换所述任一碱基序列片段，当所述任一碱基序列片段与变异参考序列不匹配时，以预定编码方式对所述任一碱基序列片段进行编码，得到预定编码碱基序列片段，并用生成的预定编码碱基序列片段替换所述任一碱基序列片段。

优选地，在根据本发明示例性实施例中为进一步提高对基因序列的压缩率，压缩单元20可将所述任一碱基序列片段与所述标准参考序列和所述变异参考序列分别进行匹配，然后基于所述任一碱基序列片段与所述标准参考序列和所述变异参考序列分别进行匹配的结果来对所述任一碱基序列片段进行压缩。

具体说来，当一碱基序列片段与所述标准参考序列和所述变异参考序列中的一个参考序列匹配时，压缩单元20生成所述一碱基序列片段的对应于所述一个参考序列的索引信息，并用生成的索引信息替换所述一碱基序列片段，当所述一碱基序列片段与所述标准参考序列和所述变异参考序列均不匹配时，压缩单元20以预定编码方式对所述一碱基序列片段进行编码，得到预定编码碱基序列片段，并用生成的预定编码碱基序列片段替换所述一碱基序列片段。作为示例，所述索引信息可包括所述一碱基序列片段的起始位点和标识，所述标识指示标准参考序列和变异参考序列之中与所述一碱基序列片段匹配的参考序列。

下面来详细介绍压缩单元20基于所述标准参考序列和所述变异参考序列来对所述多个碱基序列片段中的任一碱基序列片段进行压缩的过程。

压缩单元20将所述任一碱基序列片段与标准参考序列进行匹配。这里，该匹配过程可指确定所述标准参考序列中是否包括与所述任一碱基序列片段完全一致的碱基序列片段，即，确定标准参考序列中的以所述任一碱基序列片段的起始位点开始所述预定长度范围内的碱基序列片段与所述任一碱基序列片段是否完全一致。

如果所述任一碱基序列片段与标准参考序列匹配，则压缩单元20生成所述任一碱基序列片段的对应于所述标准参考序列的索引信息，并用生成的索引信息替换所述任一碱基序列片段。这里，当所述标准参考序列中包括与所述任一碱基序列片段完全一致的碱基序列片段时，所述任一碱基序列片段与所述标准参考序列匹配。作为示例，生成的索引信息可包括所述任一碱基序列片段的起始位点和标识，在此情况下，该标识可指示与所述任一碱基序列片段匹配的参考序列为标准参考序列，以在对压缩后的基因序列进行解压缩时，根据索引信息所指示的起始位点和标识所指示的标准参考序列来还原所述任一碱基序列片段。

如果所述任一碱基序列片段与标准参考序列不匹配，则压缩单元20将所述任一碱基序列片段与变异参考序列进行匹配。这里，该匹配过程是指确定所述变异参考序列中是否包括与所述任一碱基序列片段完全一致的碱基序列片段，即，确定变异参考序列中的以所述任一碱基序列片段的起始位点开始所述预定长度范围内的碱基序列片段与所述任一碱基序列片段是否完全一致。

应理解，当所述标准参考序列中不包括与所述任一碱基序列片段完全一致的碱基序列片段(即，标准参考序列中的以所述任一碱基序列片段的起始位点开始所述预定长度范围内的碱基序列片段与所述任一碱基序列片段不一致)时，所述任一碱基序列片段与所述标准参考序列不匹配。

如果所述任一碱基序列片段与变异参考序列匹配，则压缩单元20生成所述任一碱基序列片段的对应于所述变异参考序列的索引信息，并用生成的索引信息替换所述任一碱基序列片段。这里，当所述变异参考序列中包括与所述任一碱基序列片段完全一致的碱基序列片段时，所述任一碱基序列片段与所述变异参考序列匹配。作为示例，生成的索引信息可包括所述任一碱基序列片段的起始位点和标识，在此情况下，该标识可指示与所述任一碱基序列片段匹配的参考序列为变异参考序列，以在对压缩后的基因序列进行解压缩时，根据索引信息所指示的起始位点和标识所指示的变异参考序列来还原所述任一碱基序列片段。

如果所述任一碱基序列片段与变异参考序列不匹配，则压缩单元20以预定编码方式对所述任一碱基序列片段进行编码，得到预定编码碱基序列片段，并用生成的预定编码碱基序列片段替换所述任一碱基序列片段。作为示例，所述预定编码方式可包括哈弗曼编码或字典编码。这里，当所述变异参考序列中不存在与所述任一碱基序列片段完全一致的碱基序列片段时，即，确定变异参考序列中的以所述任一碱基序列片段的起始位点开始所述预定长度范围内的碱基序列片段与所述任一碱基序列片段不完全一致，则所述任一碱基序列片段与所述变异参考序列不匹配。

此时，压缩单元20通过存储索引的方式或编码存储的方式对所述任一碱基序列片段进行了压缩。压缩单元20通过上述压缩方式对待处理基因序列中的每个碱基序列片段进行压缩，从而得到压缩后的基因序列。此时，压缩后的基因序列可包括索引信息、编码后的碱基序列片段以及碱基序列片段的预定长度。

如图7所示，根据本发明示例性实施例的对基因序列进行解压缩的设备包括：基因序列获取单元100和解压缩单元200。

具体说来，基因序列获取单元100获取待解压缩基因序列。

解压缩单元200基于标准参考序列和变异参考序列对所述待解压缩基因序列进行解压缩，以获得解压缩基因序列。例如，解压缩单元200可根据所述待解压缩基因序列中的每个索引信来从标准参考序列或变异参考序列中获得分别与每个索引信息所对应的碱基序列片段。

具体说来，解压缩单元200可根据索引信息所指示的起始位点、以及标识所指示的参考序列来还原所述索引信息对应的碱基序列片段。

例如，解压缩单元200可根据所述待解压缩基因序列中的每个索引信所包括的起始位点和标识来获得分别与每个索引信息所对应的碱基序列片段。这里，所述碱基序列片段在解压缩基因序列中的起始位点由与所述碱基序列片段对应的索引信息所包括的起始位点确定，所述碱基序列片段的内容对应于标识所指示的标准参考序列和变异参考序列之一的参考序列中从所述起始位点开始的预定长度范围内的碱基。

作为示例，解压缩单元200可从所述索引信息中提取所述索引信息所包含的标识，当提取的标识指示标准参考序列时，解压缩单元200可获取标准参考序列中从所述索引信息所包含的起始位点开始，所述预定长度范围内的碱基，并用获取的碱基替换所述索引信息，以还原所述索引信息对应的碱基序列片段。

当提取的标识指示变异参考序列时，解压缩单元200可获取变异参考序列中从所述索引信息所包含的起始位点开始，所述预定长度范围内的碱基，并用获取的碱基替换所述索引信息，以还原所述索引信息对应的碱基序列片段。

除此之外，基因序列获取单元100可还获取所述待解压缩基因序列中的预定编码碱基序列片段，解压缩单元200可使用预定解码方式对预定编码碱基序列片段进行解码，以获得与所述预定编码碱基序列片段所对应的解码后的碱基序列片段。

解压缩单元200在对所述压缩后的基因序列中所包含的索引信息和编码后的碱基序列片段进行上述解压缩处理之后，将各个解压缩后得到碱基序列片段按照位点顺序进行排列，得到基因序列。

采用本发明示例性实施例的对基因序列进行压缩和解压缩的方法和设备，根据高频变异信息构建了变异参考序列，并将构建的变异参考序列作为标准参考序列的补充，从而充分利用了基因序列之间的相似性，来实现高效的压缩/解压缩。

此外，根据本发明示例性实施例的对基因序列进行压缩的方法可以被实现为计算机可读记录介质中的计算机代码。本领域技术人员可以根据对上述方法的描述来实现所述计算机代码。当所述计算机代码在计算机中被执行时实现本发明的上述方法。

此外，根据本发明示例性实施例的对基因序列进行压缩的设备中的各个单元可被实现硬件组件。本领域技术人员根据限定的各个单元所执行的处理，可以例如使用现场可编程门阵列(FPGA)或专用集成电路(ASIC)来实现各个单元。

尽管已经参照其示例性实施例具体显示和描述了本发明，但是本领域的技术人员应该理解，在不脱离权利要求所限定的本发明的精神和范围的情况下，可以对其进行形式和细节上的各种改变。

Claims

1.一种对基因序列进行压缩的方法，所述方法包括：

根据高频变异信息和标准参考序列生成变异参考序列，其中，所述高频变异信息包括发生变异的位点、在所述位点发生变异后对应的碱基；

根据待处理基因序列与所述变异参考序列的匹配结果对所述待处理基因序列进行压缩，以得到压缩后的基因序列，

其中，根据高频变异信息和标准参考序列生成变异参考序列的步骤包括：将在高频变异信息中所包括的发生变异的位点发生变异后对应的碱基代替所述标准参考序列中所述位点发生变异前对应的碱基，以生成变异参考序列，

其中，所述代替是指保留所述位点发生变异前对应的碱基，将在所述位点发生变异后对应的碱基作为标识碱基对在所述位点发生变异前对应的碱基进行标注，以利用所述标识碱基代替所述位点发生变异前对应的碱基参与匹配。

2.如权利要求1所述的方法，其中，在所述位点发生变异后，对应的碱基在所述位点处的变异频率大于等于预定频率。

3.如权利要求1所述的方法，其中，根据待处理基因序列与所述变异参考序列的匹配结果对所述待处理基因序列进行压缩的步骤包括：

按照按位偏移的方式将所述待处理基因序列划分为至少两个碱基序列片段；

将每个碱基序列片段分别与所述变异参考序列进行匹配；

当一碱基序列片段与所述变异参考序列匹配时，生成所述一碱基序列片段的对应于所述变异参考序列的索引信息，并用生成的索引信息替换所述一碱基序列片段。

4.如权利要求3所述的方法，其中，所述索引信息包括所述一碱基序列片段的起始位点和标识，所述标识指示与所述一碱基序列片段匹配的参考序列为变异参考序列。

5.如权利要求4所述的方法，其中，相邻两个碱基序列片段之间相差预定个数的位点，每个碱基序列片段具有预定长度。

6.如权利要求5所述的方法，其中，当所述变异参考序列中的以所述一碱基序列片段的起始位点开始所述预定长度范围内的碱基序列片段与所述一碱基序列片段完全一致时，所述一碱基序列片段与所述变异参考序列匹配。

7.一种对基因序列进行解压缩的方法，所述方法包括：

获取待解压缩基因序列；

基于标准参考序列和变异参考序列对所述待解压缩基因序列进行解压缩，以获得解压缩基因序列，

其中，所述变异参考序列根据高频变异信息和标准参考序列通过如下方式来生成：将在高频变异信息中所包括的发生变异的位点发生变异后对应的碱基代替所述标准参考序列中所述位点发生变异前对应的碱基，以生成变异参考序列，

8.如权利要求7所述的方法，其中，基于标准参考序列和变异参考序列对所述待解压缩基因序列进行解压缩的步骤包括：

根据所述待解压缩基因序列中的每个索引信来从标准参考序列或变异参考序列中获得分别与每个索引信息所对应的碱基序列片段。

9.一种对基因序列进行压缩的设备，所述设备包括：

参考序列生成单元，根据高频变异信息和标准参考序列生成变异参考序列，其中，所述高频变异信息包括发生变异的位点、在所述位点发生变异后对应的碱基；

压缩单元，根据待处理基因序列与所述变异参考序列的匹配结果对所述待处理基因序列进行压缩，以得到压缩后的基因序列，

其中，参考序列生成单元将在高频变异信息中所包括的发生变异的位点发生变异后对应的碱基代替所述标准参考序列中所述位点发生变异前对应的碱基，以生成变异参考序列，

10.如权利要求9所述的设备，其中，在所述位点发生变异后，对应的碱基在所述位点处的变异频率大于等于预定频率。

11.如权利要求9所述的设备，其中，压缩单元按照按位偏移的方式将所述待处理基因序列划分为至少两个碱基序列片段，将每个碱基序列片段分别与所述变异参考序列进行匹配，当一碱基序列片段与所述变异参考序列匹配时，生成所述一碱基序列片段的对应于所述变异参考序列的索引信息，并用生成的索引信息替换所述一碱基序列片段。

12.如权利要求11所述的设备，其中，所述索引信息包括所述一碱基序列片段的起始位点和标识，所述标识指示与所述一碱基序列片段匹配的参考序列为变异参考序列。

13.如权利要求12所述的设备，其中，相邻两个碱基序列片段之间相差预定个数的位点，每个碱基序列片段具有预定长度。

14.如权利要求13所述的设备，其中，当所述变异参考序列中的以所述一碱基序列片段的起始位点开始所述预定长度范围内的碱基序列片段与所述一碱基序列片段完全一致时，所述一碱基序列片段与所述变异参考序列匹配。

15.一种存储有计算机程序的计算机可读存储介质，当所述计算机程序在被处理器执行时实现如权利要求1-6中的任意一项所述的对基因序列进行压缩的方法。

16.一种存储有计算机程序的计算机可读存储介质，当所述计算机程序在被处理器执行时实现如权利要求7或8所述的对基因序列进行解压缩的方法。