CN103310128A

CN103310128A - 考虑种子片段的长度的碱基序列处理系统及方法

Info

Publication number: CN103310128A
Application number: CN2013100093478A
Authority: CN
Inventors: 朴旻胥
Original assignee: Samsung SDS Co Ltd
Current assignee: Samsung SDS Co Ltd
Priority date: 2012-03-06
Filing date: 2013-01-10
Publication date: 2013-09-18
Anticipated expiration: 2033-01-10
Also published as: KR20130101711A; JP5781486B2; US9348968B2; EP2639724A2; JP2013183737A; US20130238250A1; EP2639724A3; CN103310128B; KR101394339B1

Abstract

本发明公开考虑种子片段的长度的碱基序列处理系统及方法。根据本发明一实施例提供的参考序列处理系统包括：种子片段提取部，从对象碱基序列提取种子片段；索引生成部，将由所述种子片段提取部提取的所述种子片段编入索引，而且构成为所提取的所述种子片段的长度通过考虑从所述对象碱基序列提取的种子片段中具有相同序列的种子片段的频数来设定。

Description

考虑种子片段的长度的碱基序列处理系统及方法

技术领域

本发明涉及用于分析基因组的碱基序列的技术。

背景技术

由于下一代测序（next-generation sequencing；NGS）技术的出现和DNA测序（sequencing；碱基序列解读）成本的减少，使得可以大规模地生产人类基因组碱基序列以用于医学遗传学（medical genetics）和群体遗传学（population genetics）的研究。为碱基序列分析而使用的NGS测序仪能够生产出长度虽然非常短但具有数十亿个的短序列（短片段；read）。每个个体的基因组序列通过用于确定所生产的短片段位于参考序列的哪一位置的重测序（Resequencing；索引（Indexing）、映射（Mapping）和比对（Alignment））作业而获得。

初期的基因组分析系统主要考虑分析的准确度下进行了开发。但是，近来，随着下一代测序技术发展为一般化，制造出作为分析的基础的短片段（短序列）的成本相比以前大幅减少，同时使得在进行分析时可使用的数据的量增加，因此需要一种用于在较快的时间内准确地处理大容量的短片段的技术。

发明内容

本发明的实施例的目的在于提供一种用于在基因组碱基序列分析中提高分析速度以及准确性的碱基序列处理系统及方法。

根据本发明一实施例提供的碱基序列处理系统包括：种子片段提取部，从对象碱基序列提取种子片段；索引生成部，将由所述种子片段提取部提取的所述种子片段编入索引，并且该系统构成为所提取的所述种子片段的长度通过考虑从所述对象碱基序列提取的种子片段中具有相同序列的种子片段的频数来设定。

而且，根据本发明一实施例提供的碱基序列处理装置包括一个以上的处理器、存储器、一个以上的程序，且该装置构成为：所述一个以上程序存储于所述存储器且由所述一个以上的处理器执行，所述程序包括：从对象碱基序列提取种子片段的过程；将所提取的所述种子片段编入索引的过程；以及通过考虑从所述对象碱基序列提取的种子片段中具有相同序列的种子片段的频数来确定所述种子片段的长度的过程。

而且，根据本发明一实施例提供的碱基序列处理方法包括步骤：由碱基序列处理系统从对象碱基序列提取种子片段；由所述碱基序列处理系统将所提取的所述种子片段编入索引，且构成为所述种子片段的长度通过考虑从所述对象碱基序列提取的种子片段中具有相同序列的种子片段的频数来设定。

而且，根据本发明一实施例提供的碱基序列处理方法包括由碱基序列处理系统从对象碱基序列提取种子片段的步骤，且构成为所述种子片段的长度通过考虑从所述对象碱基序列提取的种子片段中具有相同序列的种子片段的频数来设定。

根据本发明的实施例，可适宜地调节在进行碱基序列处理时所提取的种子片段的长度，因而具有能够提高基因组碱基序列分析的速度和准确性的优点。

附图说明

图1为例示出从碱基序列提取种子片段的过程的图。

图2为用于说明基因组碱基序列（genome sequencing）分析过程的流程图。

图3为用于说明在基因组碱基序列分析中，短片段的映射过程的图。

图4为根据本发明一实施例提供的碱基序列处理系统的方块构成图。

图5为表示基于种子片段长度的、在人类基因组内的种子片段的平均出现频数的曲线图。

图6为示出根据本发明一实施例提供的碱基序列处理方法的流程图。

符号说明：

400：碱基序列处理系统

402：种子片段提取部

404：索引生成部

具体实施方式

以下，参照附图说明本发明的具体的实施方式。但是，这只不过是示例，本发明并不局限于此。

在说明本发明时，当判断为对于与本发明相关的公知技术的具体说明有可能混淆本发明的要旨时，省略对其的详细说明。而且，后述的术语是考虑到在本发明中的功能而进行定义的，其根据用户、应用者的意图或惯例等而可能不同。因此，其定义应当以整个本说明中的内容来定义。

本发明的技术思想由权利要求书来确定，以下的实施例只不过是用于向本发明所属技术领域的具有通常的知识的技术人员有效率地说明本发明的技术思想的一种手段。

在详细说明本发明的实施例之前，首先对在本发明中所使用的术语进行说明为如下。

首先，所谓“短片段（read）”是从基因组测序仪输出的碱基序列的片段（fragment）。短片段的长度根据基因组测序仪的种类而多样化，例如可具有35～500bp（碱基对，base pair）左右的长度。通常，DNA碱基用A、C、G、T的字母文字表示。

所谓“对象碱基序列”是指从所述短片段生成整个碱基序列时作为参考的碱基序列。即，在碱基序列分析中，对于从基因组测序仪输出的大量的短片段参考参考序列进行映射，由此完成整个碱基序列。在本发明中，所述对象碱基序列可以是在碱基序列分析时预先设定的序列（例如，人类的整个碱基序列等），或者也可以将从基因组测序仪制造的碱基序列作为能够碱基序列而使用。

“碱基（base）”是构成对象碱基序列以及短片段的最小单位。如前所述，DNA碱基可由A、C、G、T四个种类的字母文字构成，这些分别表示碱基。即，DNA碱基由四个碱基表示，这对于短片段也相同。但是，在参考序列中，由于多种原因（测序误差、取样误差等），因而有可能发生不明确特定位置的碱基应当用A、C、G、T中的哪种碱基来表示的的情形，通常这种不明确的碱基用N等另外的文字标记。

“种子片段（seed）”是为了短片段的映射而比较短片段和对象碱基序列时作为单位的序列。从理论上来讲，为了将短片段映射到对象碱基序列，需要将整个短片度从对象碱基序列的最前面的部分依次进行比较的同时计算短片段的映射位置。但是，在这样的方法中，映射一个短片段需要非常长的时间和计算功率，因此实际上从对象碱基序列的第一个开始每移动一个碱基的同时以所设定的长度读取对象碱基序列之后，将其散列（hashing）而构建散列表（hash table），并利用此来计算短片段的映射位置。此时，用于所述散列的对象碱基序列的短片段成为种子片段。但是，根据情况，短片段的片段也可以成为种子片段。种子片段的长度可构成为相比短片段的长度短，这可考虑对象碱基序列的长度、所构建的散列表的容量等而适当地设定。

图1例示出从对象碱基序列提取种子片段的过程，表示从对象碱基序列的第一个部分开始每移动一个碱基的同时按10bp长度读取对象碱基序列的值来提取种子片段的过程。所提取的各个种子片段均具有相同的长度（在图示的实施例中为10bp），且其值根据种子片段被提取的对象碱基序列的位置而变得不同。在图示的实施例中，所提取的第一个种子片段具有对象碱基序列的第一个开始至第十个的值，即GTGGCAATTA的值，第三个种子片段具有对象碱基序列的第三个至第十二个的值，即GGCAATTAAA的值。

图2为用于说明基因组碱基序列（genome sequencing）分析过程200的流程图。基因组碱基序列分析是用于将从测序仪中输出的大量的短的短片段映射到对象碱基序列中，以获得整个基因组序列的过程。

首先，从对象碱基序列提取种子片段（202）。如图1所示，在本步骤中可以构成为，从对象碱基序列的第一个部分依次每移动一个碱基的同时按照所设定的长度读取所述对象碱基序列的值，由此提取多个种子片段。

然后，利用散列函数（hash function）对在202步骤中提取的各个种子片段进行散列，由此构成散列表（204）。此时，所述散列表的关键码（key）可由从种子片段生成的散列值构成，值（value）可由相关种子片段的对象碱基序列中的位置信息（例如指针（pointer））构成。

然后，从测序仪提取关于所输入的基因的多个短片段（206），利用所述散列表将所提取的短片段映射到对象碱基序列（208）。

图3为用于说明如上所述的短片段的映射到参考序列的过程的图。首先，将在206步骤中提取的短片段的前面部分按种子片段的长度读取之后（在图示的实施例中，将短片段的前面部分设定为了种子片段，但是实际上，短片段的任意部分均可以设定为种子片段。但是，通常来说短片段的前面部分的准确度（quality）较高，因此主要将短片段的前面部分使用为种子片段），检索散列表以提取对应于相关种子片段的对象碱基序列内的位置信息。此时，根据种子片段的长度而不同，但是通常被导出一个以上的位置信息（在附图中被提取L₁及L₂两个位置信息）。此后，在被导出的各个位置中，将短片段的剩余部分与对象碱基序列进行对照，以确定短片段的准确的映射位置。在图示的实施例的情形中判断为，在两个候补位置中的L₁中，短片段与参考序列不对应（一致），然而在L₂中却对应，最终，短片段被映射到L₂位置。

最后，通过将经过如上的过程而映射的各个短片段进行连接而完成一个碱基序列（210）。

图4为根据本发明一实施例提供的碱基序列处理系统400的方块构成图。在本发明的实施例中，碱基序列处理系统400可由专门的系统构成，或者也可包括用于进行碱基序列分析的系统（基因组分析系统）的一个要素。

如图所示，根据本发明一实施例的碱基序列处理系统400包括种子片段提取部402、索引生成部404。

种子片段提取部402从对象碱基序列提取种子片段（seed）。此时，所述对象碱基序列例如可以是用于碱基序列分析的整个碱基序列、即参照序列（reference sequence）。但是本发明的对象碱基序列并不局限于此，例如可以是从测序仪提取的短片段或在本发明中的对象碱基序列。即，需要注意的是，本发明的对象碱基序列还包括作为用于提取种子片段的基础的任意种类的碱基序列。

种子片段提取部402可构成为从所述对象碱基序列的第一个部分开始依次每移动一个碱基的同时按照所设定长度读取所述对象碱基序列的值，由此提取多个种子片段。此时，所提取的所述种子片段的长度通过考虑从所述对象碱基序列提取的整个种子片段中具有相同的序列的种子片段的频数而确定，对此的详细说明将在后面进行。

索引生成部404将由所述提取部402提取的所述种子片段编入索引中。具体来讲，索引生成部404构成为利用散列函数对由种子片段提取部402提取的种子片段进行散列（hashing），生成将被散列的种子片段作为关键码（key）的散列表，由此将所述种子片段编入索引中。

以下，对确定由种子片段提取部402提取的种子片段的长度的过程进行说明。

为了提高在碱基序列分析中生成的碱基序列的准确度，由测序仪计算的短片段应当均匀地分布于对象碱基序列上。为此，需要减少种子片段的重复（具有相同的序列的种子片段的数量）例如，假设具有如下形态的对象碱基序列。

ACTCTGGTGCATACCTCCTGGCTGGACTCTGG

在上述对象碱基序列中提取长度为6的种子片段时，ACTCTG、CTCTGG分别重复两次，但是将种子片段的长度设为3时，其序列为TGC的种子片段重复五次。即，种子片段的长度越短，种子片段的重复越多，据此短片段的映射候补位置也将增加。例如，种子片段的长度为3的上述示例中所提取的短片段的前面部分以TGC开始时，相关短片段需要从总共为五个的候补位置中进行比较，因此与此相当地增加映射时间，且映射的准确度变低。

当将种子片段的长度设为S，将构成对象碱基序列的碱基的数量为B时，根据种子片段的长度而能够生成的种子片段的种类数由如下的数学式确定。

[数学式1]

能够生成的种子片段的种类数=B^S

在上述数学式中，如果对象碱基序列由A、C、G、T四个碱基构成时，B值为4，当进一步包括不明确的碱基（N）时，B值变为5。

假设用于提取种子片段的整个对象碱基序列的长度为R时（例如，将人类的碱基序列作为对象碱基序列时，R为约3×10⁹），整个对象碱基序列中具有相同的序列的种子片段的数量（重复的种子片段的数量）平均地可由如下数学式确定。

[数学式2]

表1表示在人类基因组中的按种子片段的长度为单位重复的种子片段的数量的平均情况。

【表1】

如果从所述对象碱基序列提取的种子片段中重复的种子片段的数量的目标值（或设定值）设定为K时，K应当满足如下的数学式。即，重复的种子片段的数量的平均值应当在所述目标值以内。

[数学式3]

0 < \frac{R}{B^{S}} < k

若对此进行整理，则种子片段的长度表示为如下数学式。

[数学式4]

S＞log_k·3R

在上述数学式中，K值为3以下，优选为2或3。如前所述，K值越小（即，种子片段的重复的数越少），进行短片段的映射时，映射候补位置的数量越少，因此映射的速度及准确度提高。但是，根据K值而种子片段的长度过于变小时，存在与种子片段不完全一致的短片段，从而可能会发生不能进行映射或散列表的容量过大等问题，因此考虑此情况而适宜地确定K值。

另外，所述对象碱基序列为人类的基因组序列时，若基于所述数学式4，则种子片段的长度（S）可设定为15以上。下面的表2表示基于种子片段的长度的在人类基因组内的种子片段的平均出现频数，图5将其用曲线图示出。

【表2】

种子片段的长度	平均出现频数
		10	2,726.1919
11	681.9731
		12	170.9185
13	42.7099
		14	10.6470

15	2.6617
		16	0.6654
17	0.1664

从上述表可知，种子片段的长度为14以下时，按种子片段为单位的频数为10以上，但是种子片段的长度为15时，频数减少为3以下。即，种子片段的长度构成为15以上时，相比构成为14以下的情形能够大幅减少种子片段的重复。

而且，所述种子片段的长度可考虑由索引生成部404生成的索引的容量以及包含于碱基序列处理系统100的存储器容量而确定。所述种子片段的长度变得越长，则由此生成的散列表的容量越增加，据此可能发生散列表的容量超出包含于碱基序列处理系统100的储存器容量的情况。因此，优选地，在确定种子片段的长度时同时考虑这样的情况。例如，当所述对象碱基序列为人类（human）的基因组序列时，考虑到索引的容量及存储器容量（例如，单一节点的存储器容量）等的所述种子片段的长度可确定为变成30以下。

图6为示出根据本发明一实施例提供的对象序列处理方法600的流程图。

首先，从对象碱基序列提取种子片段（602）。如前所述，在本步骤中，构成为从对象碱基序列的第一个部分开始依次每移动一个碱基的同时按设定的长度读取所述对象碱基序列的值来提取多个种子片段，所提取的所述种子片段的长度通过考虑从所述对象碱基序列提取的整个种子片段中具有相同的序列的种子片段的频数来确定。与所述种子片段的长度相关的事项已在前面进行了详细的说明，因此在此省略重复的说明。

然后，将在所述602步骤中提取的所述种子片段编入索引中（604）。具体来讲，在本步骤中，利用散列函数对所提取的所述种子片段进行散列，生成将散列的种子片段作为关键码（key）的散列表，由此将所述种子片段编入索引中。

另外，本发明的实施例可包括计算机可读记录介质，该计算机可读记录介质包括用于在计算机上执行本说明书中记载的方法的程序。所述计算机可读记录介质可单独地包括程序命令、本地数据文件、本地数据结构等或者将这些组合而包括。所述介质可以是为了本发明而特别设计并构成的介质，也可以是在计算机软件领域中对于具有通常的指示的技术人员来说属于公知而能够使用的介质。计算机可读记录介质的示例包括诸如如硬盘、软盘以及磁盘一样的磁介质、如CD-ROM、DVD一样的光记录介质、如软盘一样的磁光介质、以及只读存储器（ROM）、随机存取存储器（RAM）、闪速存储器等的专门构成为储存命令并执行命令的硬件装置。程序命令的示例可包括如通过编译器翻译而成的机器语言代码，还可包括通过使用解释器而能够被计算机执行的高级语言代码。

以上，通过代表性的实施例对本发明进行了详细的说明，但是对于本发明所属技术领域的具有通常的知识的技术人员来说应当理解，上述的实施例在不脱离本发明的范畴的情况下可具有多种变形。

因此，本发明所请求的权利范围并不局限于所说明的实施例，应当由权利要求书所请求的范围和与该权利要求书所请求的范围等同的范围来确定。

Claims

1.一种碱基序列处理系统，其特征在于，包括：

种子片段提取部，从对象碱基序列提取种子片段；

索引生成部，将由所述种子片段提取部提取的所述种子片段编入索引，

所提取的所述种子片段的长度通过考虑从所述对象碱基序列提取的种子片段中具有相同序列的种子片段的频数来设定。

2.如权利要求1所述的碱基序列处理系统，其特征在于，所提取的所述种子片段的长度被确定成使从所述对象碱基序列提取的种子片段中具有相同序列的种子片段的频数为预定的值以下。

3.如权利要求1所述的碱基序列处理系统，其特征在于，所述种子片段的长度根据下面的数学式而确定，

S＞log_k·3R

其中，S为种子片段的长度，R为对象碱基序列的长度，B为构成所述对象碱基序列的碱基的数量，K为从所述对象碱基序列提取的种子片段中具有相同的序列的种子片段的频数设定值。

4.如权利要求3所述的碱基序列处理系统，其特征在于，具有相同的序列的种子片段的频数设定值K设定为3以下。

5.如权利要求1所述的碱基序列处理系统，其特征在于，当所述对象碱基序列为人类的基因组序列时，所述种子片段的长度确定为15以上。

6.如权利要求1所述的碱基序列处理系统，其特征在于，所述碱基序列处理系统还包括存储器，所述种子片段的长度通过考虑从所述索引生成部生成的索引的容量以及所述存储器容量而确定。

7.如权利要求1所述的碱基序列处理系统，其特征在于，当所述对象碱基序列为人类的基因组序列时，所述种子片段的长度确定为30以下。

8.一种基因组分析系统，其特征在于包括如权利要求1至7中任意一项所述的碱基序列处理系统。

9.一种碱基序列处理装置，其特征在于，该装置包括一个以上的处理器、存储器、一个以上的程序，所述一个以上程序存储于所述存储器且由所述一个以上的处理器执行，所述程序包括：从对象碱基序列提取种子片段的过程；将所提取的所述种子片段编入索引的过程；以及通过考虑从所述对象碱基序列提取的种子片段中具有相同序列的种子片段的频数来确定所述种子片段的长度的过程。

10.一种碱基序列处理方法，其特征在于，包括步骤：

由碱基序列处理系统从对象碱基序列提取种子片段；

由所述碱基序列处理系统将所提取的所述种子片段编入索引，

所述种子片段的长度通过考虑从所述对象碱基序列提取的种子片段中具有相同序列的种子片段的频数来设定。

11.如权利要求10所述的碱基序列处理方法，其特征在于，在提取所述种子片段的步骤中所提取的所述种子片段的长度被确定成使从所述对象碱基序列提取的种子片段中具有相同序列的种子片段的频数变成预定的值以下。

12.如权利要求10所述的碱基序列处理方法，其特征在于，所述种子片段的长度根据下面的数学式而确定，

S＞log_k·3R

13.如权利要求12所述的碱基序列处理方法，其特征在于，具有相同的序列的种子片段的频数设定值K设定为3以下。

14.如权利要求10所述的碱基序列处理方法，其特征在于，当所述对象碱基序列为人类的基因组序列时，所述种子片段的长度确定为15以上。

15.如权利要求10所述的碱基序列处理方法，其特征在于，所述种子片段的长度通过考虑从所述索引生成步骤中生成的索引的容量以及包括与所述碱基序列处理系统的存储器的容量而确定。

16.如权利要求10所述的碱基序列处理方法，其特征在于，当所述对象碱基序列为人类的基因组序列时，所述种子片段的长度确定为30以下。

17.一种碱基序列处理方法，其特征在于包括由碱基序列处理系统从对象碱基序列提取种子片段的步骤，

18.如权利要求17所述的碱基序列处理方法，其特征在于，当所述对象碱基序列为人类的基因组序列时，所述种子片段的长度确定为15以上。