CN104239749A

CN104239749A - 碱基序列对准系统及方法

Info

Publication number: CN104239749A
Application number: CN201410276504.6A
Authority: CN
Inventors: 朴旻壻
Original assignee: Samsung SDS Co Ltd
Current assignee: Samsung SDS Co Ltd
Priority date: 2013-06-20
Filing date: 2014-06-19
Publication date: 2014-12-24
Also published as: KR101525303B1; US20140379271A1; KR20140147490A

Abstract

本发明公开一种碱基序列对准系统及方法。根据本发明的一个实施例的一种碱基序列对准系统，包括：种子生成单元，由所接收的短片段(read)生成多个种子(seed)；筛选单元，将生成的所述种子映射于参考序列(reference sequence)，并通过考虑映射的种子之间的间隔(gap)而选择所述映射的种子中的全局对准对象种子；对准单元，在被选择的所述种子的所述参考序列上的映射位置上执行所述短片段的针对所述参考序列的全局对准(global alignment)。

Description

碱基序列对准系统及方法

技术领域

本发明的实施例涉及一种用于分析基因组的碱基序列的技术。

背景技术

用于生产大容量的短序列的下一代测序(NGS：Next GenerationSequencing)因其低廉的费用和快速的数据生成而正在迅速地取代传统的桑格(Sanger)测序方式。并且，聚焦于准确率而开发出多种多样的NGS序列对准程序。

序列重组的第一个步骤为通过碱基序列对准(alignment)算法而将短片段(read)映射(mapping)于参考序列的准确的位置。为此，普通的现有碱基序列对准算法首先将从短片段中选取的预定长度的种子(seed)映射于参考序列，然后在映射的位置上对其余短片段进行全局对准(Global Alignment)。

对于这种现有技术中的序列对准算法而言，需要在利用种子获得的参考序列内的所有候选位置上执行全局对准。然而全局对准的复杂度为O(N²)，其为执行时间很长的作业，因此如果按照现有技术，尤其随着候选位置的增加，碱基序列对准时间按照几何级数增长。

发明内容

本发明的实施例的目的在于当进行利用从测序仪接收的短片段的序列对准时，通过考虑由短片段获得的各个种子在参考序列内的映射位置以及允许的误差值而减少全局对准的执行次数，从而提高碱基序列分析的速度和准确率。

根据本发明的一个实施例的一种碱基序列对准系统，包括：种子生成单元，由所接收的短片段(read)生成多个种子(seed)；筛选单元，将生成的所述种子映射于参考序列(reference sequence)，并通过考虑映射的种子之间的间隔(gap)而选择所述映射的种子中的全局对准对象种子；对准单元，在被选择的所述种子的所述参考序列上的映射位置上执行所述短片段的针对所述参考序列的全局对准(global alignment)。

所述筛选单元可将映射于所述参考序列的种子当中的、种子之间的间隔之和在设定值以下的种子选择为所述全局对准对象种子。

所述筛选单元可将映射于所述参考序列的种子当中的、满足如下数学式的种子选择为所述全局对准对象种子：

A≤MaxError+B

其中，A为被选择的各个种子在所述参考序列内的间隔之和，B为被选择的各个种子在所述短片段内的间隔之和，MaxError为最大误差允许值。

所述系统还可以包括：精确匹配单元，执行所接收的短片段的针对所述参考序列的精确匹配；误差个数估计单元，针对在所述精确匹配单元中没有得到精确匹配的短片段，估计出将相关短片段对准于所述参考序列时的误差个数，其中，所述种子生成单元可在估计出的所述误差个数在设定的最大误差允许值以下时由所述短片段生成多个种子。

另一方面，根据本发明的一个实施例的一种碱基序列对准方法，包括如下步骤：在种子生成单元中，由所接收的短片段(read)生成多个种子(seed)；在筛选单元中，将生成的所述种子映射于参考序列(reference sequence)，并通过考虑映射的种子之间的间隔(gap)而选择所述映射的种子中的全局对准对象种子；在对准单元中，在被选择的所述种子的所述参考序列上的映射位置上执行所述短片段的针对所述参考序列的全局对准(global alignment)。

在选择所述全局对准对象种子的步骤中，可将映射于所述参考序列的种子当中的、种子之间的间隔之和在设定值以下的种子选择为所述全局对准对象种子。

在选择所述全局对准对象种子的步骤中，可将映射于所述参考序列的种子当中的、满足如下数学式的种子选择为所述全局对准对象种子：

A≤MaxError+B

在所述方法中，在执行生成所述种子的步骤之前，还可以包括如下步骤：在精确匹配单元中，执行所接收的短片段的针对所述参考序列的精确匹配；在误差个数估计单元中，针对在执行所述精确匹配的步骤中没有得到精确匹配的短片段，估计出将相关短片段对准于所述参考序列时的误差个数，其中，在生成所述种子的步骤中，可在估计出的所述误差个数在设定的最大误差允许值以下时由所述短片段生成多个种子。

根据本发明的实施例，不是在由短片段获得的各个种子的参考序列内的所有映射位置上执行全局对准，而是考虑各个种子在参考序列内的映射位置以及允许的误差值而只在判断为合适的位置上执行全局对准，从而具有可提高碱基序列分析速度的优点。

而且，排除各个种子的映射位置当中对准可能性较低的位置，并只在判断为对准可能性较高的位置上执行全局对准，从而还可以提高碱基序列分析的准确率。

附图说明

图1为用于说明根据本发明的一个实施例的碱基序列对准方法100的图。

图2为用于举例表示根据本发明的一个实施例的碱基序列对准方法100中的mEB计算过程的图。

图3至图5为用于说明根据本发明的实施例而从短片段提取种子的示例的图。

图6为用于说明根据本发明的一个实施例的种子的针对参考序列的映射以及全局对准对象种子的选择过程的图。

图7为用于说明本发明的一个实施例中的种子之间的间隔(gap)的含义的图。

图8为用于说明根据本发明的一个实施例的碱基序列对准系统800的模块图。

符号说明：

800：碱基序列对准系统 802：种子生成单元

804：筛选单元 806：对准单元

808：精确匹配单元 810：误差个数估计单元

具体实施方式

以下，参照附图而对本发明的具体实施方式进行说明。然而这仅仅是示例，本发明并不局限于此。

在对本发明进行说明时，如果认为对有关本发明的公知技术的具体说明有可能对本发明的主旨造成不必要的混乱，则省略其详细说明。另外，后述的术语为考虑到在本发明中的功能而定义的术语，其可能因使用者、运用者的意图或惯例等而不同。因此，要以整个说明书的内容为基础而对其进行定义。

本发明的技术思想由权利要求书确定，以下的实施例只是用于将本发明的技术思想有效地说明给本发明所属技术领域中具有普通知识的人员的一种手段。

在对本发明的实施例进行详细说明之前，先对本发明中使用的术语进行如下说明。首先，“短片段(read)”是指由基因组测序仪(genome sequencer)输出的短小长度的碱基序列数据。短片段的长度通常为根据测序仪的类型而多样地构成为35～500bp(base pair，碱基对)左右，通常对于DNA碱基而言是用字母A、C、G、T来表示。

“参考序列(reference sequence)”是指从所述短片段生成整个碱基序列时作为参照的碱基序列。在碱基序列分析中，是通过参照参考序列而将基因组测序仪中输出的大量短片段进行映射以完成整个碱基序列。在本发明中，所述参考序列既可以是在碱基序列分析时预先设定的序列(例如，人类的整个碱基序列等)，也可以将在基因组测序仪中制作出的碱基序列使用为参考序列。

“碱基(base)”为构成参考序列和短片段的最小单位。如前所述，对于DNA碱基而言可以由A、C、G、T这四种字母构成，将这些分别称为碱基。即，对于DNA碱基而言，通过四个碱基来表达，这对于短片段也一样。只是对于参考序列而言，由于多种多样的原因(测序错误、样本错误等)，可能会出现特定位置的碱基不知该用A、C、G或T中的哪种碱基去表示的情形，对于这种不明确的碱基通常是用N等专门的文字进行标记。

“种子(seed)”是指为了短片段的映射而将短片段与参考序列进行比较时成为单位的序列。理论上，为了将短片段映射于参考序列，需要将整个短片段从参考序列的起始部分开始依次比较下去并计算短片段的映射位置。然而对于这种方法而言，映射一个短片段需要太长的时间和超强的计算能力，因此实际上是首先将作为由短片段的一部分构成的片段的种子映射于参考序列而寻找出整个短片段的映射候选位置，并将整个短片段映射于对应的候选位置(Global Alignment，全局对准)。

图1为用于说明根据本发明的一个实施例的碱基序列对准方法100的图。在本发明的实施例中，碱基序列对准方法100是指将从基因组(genome)测序仪中输出的短片段与参考序列进行比较而确定短片段在所述参考序列上的映射(或者对准)位置的一系列过程。

首先，当有短片段从基因组测序仪(genome sequencer)输入时(步骤102)，尝试整个短片段与所述参考序列之间的精确匹配(exact matching)(步骤104)。如果所述步骤104的执行结果，针对整个短片段的精确匹配成功，则不执行后续的对准步骤而判断为对准成功(步骤106)。将人类的碱基序列作为对象进行实验的结果，当把从基因组测序仪中输出的100万个短片段精确匹配于人类的碱基序列时，在总共为200万次的对准当中(正向序列100万次，反向互补(reverse complement)方向序列100万次)发生231,564次的精确匹配。因此，所述步骤104的执行结果可以减少约11.6％的对准所需量。

但如果在所述步骤106中判断为相关短片段并不精确匹配，换言之参考序列中并不存在与短片段完全一致的区域，则接着估计将相关短片段对准于所述参考序列时可能出现的误差个数(步骤108)。

在本发明的实施例中，所述误差个数的估计可通过计算将所述短片段对准于所述参考序列时可能出现的误差的最小值(mEB：minimum Error Bound)而实现。图2为用于举例表示所述步骤108中的mEB计算过程的图。首先，如图2的(1)所示，起初将mEB设定为0，并从短片段的第一个碱基开始朝短片段的末尾方向每次移动一个碱基而尝试精确匹配。此时，如图2的(2)所示，假设从短片段的特定碱基(在图中以箭头表示的部分)开始无法再进行精确匹配。这一情况表示从短片段的匹配起始位置到当前位置之间的区间某处发生了误差。因此在这一情况下便将mEB增加1，并在下一个位置上重新开始精确匹配(图中以(3)表示)。此后如果在特定位置上再次判断为无法精确匹配，则说明从重新开始精确匹配的位置到当前位置之间的区间某处又发生了误差，因此再将mEB增加1，并在下一个位置重新开始精确匹配(图中以(4)表示)。经过这样的过程而到达短片段的末尾时的mEB成为相关短片段中可能存在的误差个数的最小值。

如果经过如上所述的过程而计算出短片段的mEB，则判断计算出的mEB是否超过已设定的最大误差允许值(MaxError)(步骤110)，且在超过的情况下判断为针对相关短片段的对准失败并终止对准。在前述的将人类的碱基序列作为对象的实验中，将最大误差允许值(MaxError)取为3并计算其余短片段的mEB的结果显示，总共有相当于844,891次的短片段超过所述最大误差允许值。即，所述步骤108的执行结果约可以减少42.2％的对准所需量。

但如果在所述步骤110中判断的结果mEB在所述最大误差允许值以下，则通过如下的过程而执行针对相关短片段的对准。

首先，由所述短片段生成多个种子(seed)(步骤112)，并将生成的所述种子分别映射于参考序列(reference sequence)(步骤114)，然后通过考虑映射的种子之间的间隔(gap)而选择所述映射的种子中的全局对准对象种子(步骤116)。然后在被选择的种子的所述参考序列上的映射位置上执行所述短片段的针对所述参考序列的全局对准(global alignment)(步骤118)。此时，如果进行所述全局对准的结果为短片段的误差个数超过已设定的最大误差允许值(maxError)，则判断为对准失败，否则判断为对准成功(步骤120)。

以下对所述步骤112至步骤116的具体过程进行详细说明。

由短片段生成多个种子(步骤112)

本步骤是为了正式执行短片段的对准而由短片段生成多个作为短小片段的种子(seed)的步骤。在本步骤中通过考虑所述短片段的一部分或者整体而生成多个种子。例如，可通过将短片段的整体或一部分预定区间分割为多个片段或者将分割的片段进行组合而生成种子。在此情况下，生成的种子可以相互连续性地连接，然而并非一定如此，也可以由短片段内相互分离的片段的组合构成种子。并且，由一个短片段生成的种子并非一定要具有相同的长度，在一个短片段内也可以生成具有多种长度的种子。要而言之，在本发明的实施例中由短片段生成种子的方法并不特别受限，从短片段的一部分或整体中提取种子的多种算法均可不加限制地使用。

图3至图5为用于说明根据本发明的实施例而从短片段提取种子的示例的图。例如可以如图3所示地将种子提取为使提取的种子在短片段上相邻，或者可以如图4所示地将种子提取为使种子之间存在间隔(gap，在图中以k₁表示)，或者可以如图5所示地将种子提取为使种子之间存在部分重叠(overlap，在图中以k₂表示)。在图示的实施例中是对从每一个短片段中分别提取三个种子的情形进行了记载，然而这仅仅是示例性的，从短片段提取的种子是可以通过考虑短片段的长度等而适当地确定。

种子的映射以及选择全局对准对象种子(步骤114、116)

如果如上所述地由短片段生成种子，接着就将生成的所述种子分别映射(mapping)于参考序列(reference sequence)(步骤114)，然后通过考虑映射的种子之间的间隔(gap)而选择所述映射的种子中的全局对准对象种子(步骤116)。

图6为用于说明根据本发明的一个实施例的种子的针对参考序列的映射以及全局对准对象种子的选择过程的图。如图示的实施例那样，假设将由短片段提取的3个种子(种子A、种子B、种子C)映射于参考序列。通常而言参考序列比起种子具有很大的长度，因此各个种子能够在参考序列内映射于一个以上的位置。对于图示的实施例而言，种子A映射于参考序列的三处，种子B映射于参考序列的两处，种子C映射于参考序列的一处。

如果映射完毕，接着就选择映射于参考序列的种子中的全局对准对象种子。在本发明的实施例中，全局对准对象种子是指映射于参考序列的种子当中相邻的种子之间的间隔之和在基准值以下的种子。此时，所述基准值可以是最大误差允许值(MaxError)。而且，所述相邻的种子是指短片段上的位置彼此邻接的种子。

图7为用于说明本发明的一个实施例中的种子之间的间隔(gap)的含义的图。如图所示，假设作为在短片段上相邻的种子的种子X和种子Y分别映射于参考序列的位置M、位置N。在此情况下，前一种子(种子X)的最后一个碱基与后一种子(种子Y)的第一个碱基之间的距离即为本发明中的种子之间的间隔。

在本发明的实施例中通过这样的方法计算映射于参考序列的种子当中的相邻的种子之间的间隔，并将各种子的间隔之和在基准值以下的种子选择为全局对准对象种子。例如在图6所示的实施例中，假设三个种子是以种子A、种子B、种子C的顺序分别在短片段内相邻的种子，在此情况下，在所述步骤116中分别计算种子A与种子B之间的间隔、种子B与种子C之间的间隔，并找出计算出的间隔之和在已设定的值以下的种子A、种子B、种子C的组合而将其选择为全局对准对象种子(图中以虚线表示的种子为全局对准对象种子)。

另外，根据实施例，如图4所示，当提取的种子在短片段内并没有相邻而是分离预定间隔时，可以考虑这一点而增加所述基准值。即，当把短片段内具有大小为2的间隔的种子映射于参考序列时，如果两个种子的间隔为5，则所述间隔中的3的间隔是由参考序列内的插入(insertion)等引起的可能性较高，然而其余的2的间隔却是原来在短片段内的间隔所引起的可能性较高。因此为了对其进行校正，优选在原来的基准值上加2。对此如果用数学式进行表示则如以下的数学式1。

[数学式1]

A≤MaxError+B

在此，A为被选择的各个种子在所述参考序列内的间隔之和，B为被选择的各个种子在所述短片段内的间隔之和，MaxError为最大误差允许值。

即，在所述步骤116中，如果映射的种子之间的间隔之和满足所述数学式1，则可以将相关种子选择为全局对准对象种子。并且，虽然在所述数学式1中是将MaxError利用为基准值，然而并不是非要如此，根据需要而也可以利用大于或小于MaxError的值。

图8为用于说明根据本发明的一个实施例的碱基序列对准系统800的模块图。如图所示，根据本发明的一个实施例的碱基序列对准系统800包括：种子生成单元802、筛选单元804、以及对准单元806，而且在需要的情况下还可以包括精确匹配单元808以及误差个数估计单元810。

种子生成单元802由从测序仪接收的短片段(read)生成多个种子(seed)。如前所述，在本发明中生成短片段的方法非常多样，本发明的实施例并不局限于特定的种子生成方法。

筛选单元804将生成的所述种子分别映射于参考序列(referencesequence)，并通过考虑映射的种子之间的间隔(gap)而选择所述映射的种子中的全局对准对象种子。此时，筛选单元804可将映射于所述参考序列的种子中的相邻种子之间的间隔之和在设定值以下的种子选择为所述全局对准对象种子，并在需要时可在全局对准对象种子选择过程中额外考虑短片段内的种子之间的间隔。关于具体的全局对准对象种子选择方法已在前面阐述。

对准单元806在所述选择的种子在所述参考序列上的映射位置上执行所述短片段的针对所述参考序列的全局对准(global alignment)。

另外，如前所述，根据本发明的一个实施例的碱基序列对准系统800还可以包括精确匹配单元808和误差个数估计单元810。精确匹配单元808执行由测序仪接收的短片段的针对所述参考序列的精确匹配。如果存在精确匹配的短片段，则精确匹配单元808不经过其他过程而判断为相关短片段对准成功。

误差个数估计单元810针对在精确匹配单元808中没有得到精确匹配的短片段而估计将相关短片段对准于所述参考序列时的误差个数。关于具体的误差个数估计算法已在图2中详细说明。如果在误差个数估计单元810中估计的结果误差个数超过设定的最大误差允许值，则判断为相关短片段的对准失败。但与此相反地，如果是估计的所述误差个数在设定的最大误差允许值以下，则相关短片段将会经过借助于前述的种子生成单元802、筛选单元804以及对准单元806的对准过程。

根据本发明的实施例，将映射于参考序列的种子当中实际上使短片段得到映射的可能性较低的种子事先进行筛选，从而可以有效地减少复杂度为O(N2)的全局对准的次数。如下的表1和表2示出用于说明本发明的实施例的效果的实验结果，其中把分别将具有100bp以下长度的1000万个短片段对准于参考序列时的速度和准确率进行了比较。

[表1]

[表2]

	现有技术	本发明
			对准的短片段的比率(％)	97.93％	98.41％
对准的双末端短片段(paired end read)的比率(％)	99.24％	99.40％

如表1所示，根据本发明的实施例，与现有技术相比约有40％左右的对准速度的提高。并且，如图2所示，根据本发明的实施例，速度提高的同时映射的准确率也得到提高，这是由于在映射的种子的筛选过程中映射可能性较低的种子被事先排除。

另外，本发明的实施例可以包括记录有用于在计算机上执行本说明书中记载的方法的程序的计算机可读记录介质。所述计算机可读记录介质可将程序命令、本地数据文件、本地数据结构等单独或组合而包含在内。所述介质可以是为了本发明而特别设计并构成的，也可以是被计算机软件领域中具有普通知识的人员所公知而可以使用的。计算机可读记录介质的例中有硬盘、软盘、磁带之类的磁介质；CD-ROM、DVD之类的光记录介质；软盘之类的磁光介质以及ROM、RAM、闪存等为了存储并执行程序命令而特别构成的硬件装置。程序命令的例中不仅包括通过编译器制作的机器语言代码，而且还可以包括利用解释器并通过计算机而得以执行的高级语言代码。

以上已通过代表性实施例而对本发明进行了详细说明，然而本发明所属技术领域中具有普通知识的人员应该会理解可以在不脱离本发明范围的限度内对所述的实施例进行多种多样的变形。

因此，本发明的权利范围不应局限于所述的实施例而确定，而是要根据权利要求书及其等价内容来确定。

Claims

1.一种碱基序列对准系统，包括：

种子生成单元，由所接收的短片段生成多个种子；

筛选单元，将生成的所述种子映射于参考序列，并通过考虑映射的种子之间的间隔而选择所述映射的种子中的全局对准对象种子；

对准单元，在被选择的所述种子的所述参考序列上的映射位置上执行所述短片段的针对所述参考序列的全局对准。

2.如权利要求1所述的碱基序列对准系统，其中，所述筛选单元将映射于所述参考序列的种子当中的、种子之间的间隔之和在设定值以下的种子选择为所述全局对准对象种子。

3.如权利要求2所述的碱基序列对准系统，其中，所述筛选单元将映射于所述参考序列的种子当中的、满足如下数学式的种子选择为所述全局对准对象种子：

A≤MaxError+B，

4.如权利要求1所述的碱基序列对准系统，其中，所述系统还包括：

精确匹配单元，执行所接收的短片段的针对所述参考序列的精确匹配；

误差个数估计单元，针对在所述精确匹配单元中没有得到精确匹配的短片段，估计出将相关短片段对准于所述参考序列时的误差个数，

其中，所述种子生成单元在估计出的所述误差个数在设定的最大误差允许值以下时由所述短片段生成多个种子。

5.一种碱基序列对准方法，包括如下步骤：

在种子生成单元中，由所接收的短片段生成多个种子；

在筛选单元中，将生成的所述种子映射于参考序列，并通过考虑映射的种子之间的间隔而选择所述映射的种子中的全局对准对象种子；

在对准单元中，在被选择的所述种子的所述参考序列上的映射位置上执行所述短片段的针对所述参考序列的全局对准。

6.如权利要求5所述的碱基序列对准方法，其中，在选择所述全局对准对象种子的步骤中，将映射于所述参考序列的种子当中的、种子之间的间隔之和在设定值以下的种子选择为所述全局对准对象种子。

7.如权利要求6所述的碱基序列对准方法，其中，在选择所述全局对准对象种子的步骤中，将映射于所述参考序列的种子当中的、满足如下数学式的种子选择为所述全局对准对象种子：

A≤MaxError+B，

8.如权利要求5所述的碱基序列对准方法，其中，在执行生成所述种子的步骤之前，还包括如下步骤：

在精确匹配单元中，执行所接收的短片段的针对所述参考序列的精确匹配；

在误差个数估计单元中，针对在执行所述精确匹配的步骤中没有得到精确匹配的短片段，估计出将相关短片段对准于所述参考序列时的误差个数，

其中，在生成所述种子的步骤中，当估计出的所述误差个数在设定的最大误差允许值以下时由所述短片段生成多个种子。