CN103793623A

CN103793623A - 碱基序列重组系统及方法

Info

Publication number: CN103793623A
Application number: CN201310369701.8A
Authority: CN
Inventors: 朴旻
Original assignee: Samsung SDS Co Ltd
Current assignee: Samsung SDS Co Ltd
Priority date: 2012-10-29
Filing date: 2013-08-22
Publication date: 2014-05-14
Anticipated expiration: 2033-08-22
Also published as: KR101482011B1; KR20140054674A; CN103793623B; WO2014069766A1; US20140121992A1

Abstract

本发明公开一种碱基序列重组系统及方法。根据本发明的一个实施例的碱基序列重组系统包括：映射位置计算单元，从由短片段生成的多个种子序列中选择一个种子序列，并计算选择的种子序列在对象碱基序列中的映射位置；全局比对单元，从计算出的所述映射位置计算针对所述选择的种子序列的重复判断区域，并判断在计算出的所述重复判断区域中是否已执行全局比对，判断结果如果没有执行，则在计算出的所述映射位置上执行针对所述短片段的全局比对（Global Alignment）。

Description

碱基序列重组系统及方法

技术领域

本发明的实施例涉及一种用于分析基因组的碱基序列的技术。

背景技术

用于生产高容量短序列的第二代测序方式（NGS：Next GenerationSequencing）因其低廉的成本和迅速生成数据的能力而正在迅速地替代传统的桑格（Sanger）测序方式。并且，开发出了多种聚焦于准确度的NGS序列重组程序。然而，近来随着第二代测序技术的发展，制作片段序列的费用降低为过去的一半以下，随之可用数据的量增加，因此需要开发一种能够在短时间内准确地处理高容量短序列的技术。

序列重组的第一个步骤为通过碱基序列比对（alignment）算法而将短片段映射（mapping）于参考序列的正确位置上。其中的问题在于即使是同种个体，也可能因多种遗传性变异而导致基因组序列上的差异。而且，测序过程中的误差也可能导致碱基序列上的差异。因此，碱基序列比对算法必须有效考虑这种差异和变异而提高映射准确度。

总而言之，为了对基因组信息进行分析，需要尽量多而准确的所有基因组信息数据。而且，为了达到这一目的，首先是要开发出具有很高的准确度和较大处理量的碱基序列比对算法。然而，现有技术中的方法在满足这些需求条件方面存在局限性。

发明内容

本发明实施例的目的在于提供一种可在确保映射准确度的同时通过改善映射时的复杂度而提高处理速度的碱基序列重组方案。

为了解决如上所述的技术问题，根据本发明一个实施例的碱基序列重组系统包括：映射位置计算单元，从由短片段生成的多个种子序列中选择一个种子序列，并计算选择的种子序列在对象碱基序列中的映射位置；全局比对单元，从计算出的所述映射位置计算针对所述选择的种子序列的重复判断区域，并判断在计算出的所述重复判断区域中是否已执行全局比对，判断结果如果没有执行，则在计算出的所述映射位置上执行针对所述短片段的全局比对（Global Alignment）。

另外，为了解决如上所述的技术问题，根据本发明一个实施例的碱基序列重组方法包括如下步骤：在映射位置计算单元中，从由短片段生成的多个种子序列中选择一个种子序列，并计算选择的种子序列在对象碱基序列中的映射位置；在全局比对单元中，从计算出的所述映射位置计算针对所述选择的种子序列的重复判断区域；在所述全局比对单元中，判断在计算出的所述重复判断区域中是否已执行全局比对，判断结果如果没有执行，则在计算出的所述映射位置上执行针对所述短片段的全局比对（Global Alignment）。

另外，根据本发明一个实施例的装置包括：一个以上的处理器；存储器；以及一个以上的程序，而且，构成为所述一个以上的程序被存储于所述存储器中，并通过所述一个以上的处理器执行，其中，所述程序中包括用于执行如下步骤的命令：从由短片段生成的多个种子序列中选择一个种子序列，并计算选择的种子序列在对象碱基序列中的映射位置；从计算出的所述映射位置计算针对所述选择的种子序列的重复判断区域；判断在计算出的所述重复判断区域中是否已执行全局比对，判断结果如果没有执行，则在计算出的所述映射位置上执行针对所述短片段的全局比对。

根据本发明的实施例，由于在碱基序列比对时存储已执行全局比对的位置之后在对应位置的周围不去执行全局比对，因此可以减少在碱基序列比对过程中造成大量耗时的全局比对执行次数，并可以由此大幅减少碱基序列比对时间。

而且，通过将如上所述的不去重复执行全局比对的重复区域的大小设定为与短片段的长度成比例，从而不仅可以减少碱基序列比对时间，而且可以保持碱基序列比对的准确度。

附图说明

图1为用于说明根据本发明一个实施例的碱基序列重组方法的图。

图2为用于举例说明根据本发明一个实施例的碱基序列比对方法的误差个数计算过程的图。

图3为用于说明根据本发明一个实施例的全局比对过程的顺序图。

图4a至图4e为用于举例说明根据本发明一个实施例的全局比对过程的图。

图5为示出根据本发明一个实施例的碱基序列重组系统的模块图。

符号说明：

500：碱基序列重组系统 502：种子序列生成单元

504：映射位置计算单元 506：全局比对单元

具体实施方式

以下，参照附图说明本发明的具体实施方式。然而这仅仅是示例，本发明并不局限于此。

在对本发明进行说明时，如果遇到对有关本发明的公知技术的具体说明有可能不必要地干扰本发明的主旨的情况，则省略其详细说明。并且，后述的术语均为考虑本发明中的功能而进行定义的，其可能因使用者、运用人员的意图或习惯等而有所不同。因此，要以整个说明书的内容为基础对其进行定义。

本发明的技术思想由权利要求书确定，以下的实施例只是为了将本发明的技术思想有效地传递给本发明所属技术领域中具有普通知识的人员而采用的一种手段。

在对本发明的实施例进行具体说明之前，首先对本发明中使用的术语进行如下说明。

首先，“短片段（read）”是指基因组测序仪（genome sequencer）中输出的长度较短的碱基序列数据。短片段的长度因基因组测序仪的种类而不同，通常构成为35～500bp(base pair)范围的多种长度，在DNA碱基的情况下，通常用A、C、G、T等四个字母表示。

“对象碱基序列”指可对利用所述短片段形成整个碱基序列提供参考的碱基序列（reference sequence）。在碱基序列分析中，通过将基因组测序仪所输出的大量短片段映射于对象碱基序列而完成整个碱基序列。在本发明中，所述对象碱基序列既可以是碱基序列分析时预先设定的序列（例如人类的整个碱基序列等），或者也可以将基因组测序仪中产生的碱基序列使用为对象碱基序列。

“碱基（base）”为构成对象碱基序列及短片段的最小单位。如前所述，构成DNA的碱基可由A、C、G、T等四个字母表示的碱基构成，将这些分别称为碱基。换言之，对于DNA而言，可用四种碱基表示，短片段也是如此。

“种子序列（seed）”指为了短片段的映射而比较短片段与对象碱基序列时作为单位的序列（Sequence）。理论上讲，为了将短片段映射于对象碱基序列，需要把整个短片段从对象碱基序列的最前端部分开始依次比较并计算短片段的映射位置。然而，由于这种方法在映射一个短片段时消耗过多的时间并要求过高的计算能力，因此实际上要先把作为由短片段的一部分所构成的片的种子序列映射于对象碱基序列而找出整个短片段的映射候选位置，然后将整个短片段映射于对应候选位置（全局比对：Global Alignment）。

图1为用于说明根据本发明一个实施例的碱基序列重组方法100的图。在本发明的实施例中，碱基序列重组方法100指通过将基因组测序仪（genomesequencer）中输出的短片段与对象碱基序列进行比较而确定短片段在所述对象碱基序列中的映射（或比对）位置，从而完成整个序列的一系列过程。

首先，如果从基因组测序仪（genome sequencer）接收到短片段（步骤102），则尝试整个短片段与所述对象碱基序列之间的精确匹配（exact matching）（步骤104）。进行所述尝试的结果，如果针对整个短片段的精确匹配成功，则不执行后续的比对步骤而判断为比对成功（步骤106）。

将人类的碱基序列作为对象进行实验的结果显示，如果将基因组测序仪中输出的100万个短片段精确匹配于人类的碱基序列，则在各短片段的长度为755bp的情况下，在总共200万次的比对中（正向序列100万次，反向互补(reverse complement)方向序列100万次）出现231,564次的精确匹配。因此，执行所述步骤104的结果可以减少约11.6%的比对量。

然而，如果与之相反，即在所述步骤106中判断为对应短片段并不精确匹配的情况下，则是计算将对应短片段比对到所述对象碱基序列时可能出现的误差（即不匹配）个数（步骤108）。

图2为用于举例表示所述步骤108中的所述误差个数计算过程的图。首先，如图2的（a）所示，将误差个数的初始值设定为0（mismatch=0），并从短片段的第一个碱基开始向右侧逐个移动而尝试精确匹配。此时，如图2的（b）所示，假定在短片段的特定碱基（在图中以箭头表示）开始无法再实现精确匹配，则这种情况说明从短片段的匹配起始位置到当前位置之间的区间中的某处出现了误差。因此，在这种情况下将误差个数的值增加1（mismatch=0—>1）之后在下一个位置上重新开始精确匹配（在图中标记为(c)）。如果在以后又遇到判断为无法精确匹配的情况，则是说明从重新开始精确匹配的位置到当前位置之间的区间某处又出现了误差，因此又将误差个数的值增加1（mismatch=1—>2）之后在下一个位置上重新开始精确匹配（在图中标记为(d)）。通过这样的过程，到达短片段末端时的误差个数的值将成为对应短片段的可能出现的误差个数值。即，在图示的实施例中短片段的误差个数将是2。

若通过上述过程计算出了短片段的误差个数，则判断计算出的误差个数值是否超过预先设定的最大误差允许值（maxError）（步骤110），判断结果如果超过，则判断为对应短片段的比对失败并终止比对。

在前述的将人类的碱基序列作为对象的实验中，将最大误差允许值（maxError）设定为3而计算剩余短片段的误差个数的结果显示，共有844,891次实验的短片段超过所述最大误差允许值。即，执行所述步骤108的结果，能减少约42.2%的比对量。

相反地，如果在所述步骤110中判断的结果，计算出的误差个数值为所述最大误差允许值以下，则将通过如下过程执行对应短片段的比对。

首先，由所述短片段生成多个种子序列（步骤112），并利用生成的所述多个种子序列而执行针对所述短片段的全局比对（global alignment）（步骤114）。此时，如果进行所述全局比对的结果为短片段的误差个数超过预先设定的最大误差允许值（maxError），则判断为比对失败，否则判断为比对成功。

以下便详细说明所述步骤112及步骤114的具体过程。

由短片段生成多个种子序列（步骤112）

本步骤是为了正式执行短片段的比对而由短片段生成多个作为小片的种子序列的步骤。在本步骤中将通过考虑所述短片段的部分或整体而生成多个种子序列。例如，可通过将短片段的整体或特定区间分割为多个片或者将分割的片进行组合而生成种子序列。这种情况下，生成的种子序列可以连续地相连，然而并非一定要如此，也可以用短片段内分离的片的组合构成种子序列。并且，生成的种子序列并非一定要具有相同的长度，在一个短片段内也可以生成多种长度的种子序列。总而言之，本发明中的由短片段生成种子序列的方法并不受到特别的局限，从短片段的一部分或整体中提取种子序列的各种算法均可不受限制地使用。

全局比对（Global Alignment）（步骤114）

如果通过上述过程生成了种子序列，接着便利用生成的种子序列执行所述短片段对所述对象碱基序列的全局比对。具体而言，在本步骤中通过利用所述步骤112中生成的种子序列而在所述对象碱基序列中的各种子序列映射位置上依次执行全局比对，从而将所述短片段映射于所述对象碱基序列。

图3为用于说明根据本发明一个实施例的全局比对过程114的顺序图。首先，从由短片段生成的多个种子序列中选择一个种子序列（步骤302），并计算所选种子序列在对象碱基序列中的映射位置（步骤304）。在本发明的实施例中，如果不加特别限定而只记载为种子序列的“映射位置”，则是表示与对应种子序列的第一个碱基相对应的对象序列的位置，而种子序列的“第k个映射位置”表示与对应种子序列的第k个碱基相对应的对象序列的位置。

然后，从计算出的所述映射位置计算针对所选种子序列的重复判断区域（步骤306）。例如，可将所述重复判断区域设定为与所选种子序列的在所述对象碱基序列上的第k个映射位置（1≤k≤N，N为所选种子序列的长度）之间的距离为设定基准值以内的区域。

并且，所述重复判断区域还可以通过以下数学式1计算。

[数学式1]

m_a-V≤重复判断区域≤m_b+V

（其中，m_a为所选种子序列的第a个映射位置(1≤a≤N)，m_b为所选种子序列的第b个映射位置(1≤b≤N)，N为所选种子序列的长度，V为基准值）

如果通过上述方法计算出了重复判断区域，接着便判断在计算出的所述重复判断区域内是否已执行全局比对（步骤308）。此时，可通过判断先前步骤中进行全局比对时的映射位置（即，执行全局比对的种子序列的第一个映射位置）是否包含在所述重复判断区域来判断所述重复判断区域中是否已执行全局比对。进行所述判断的结果，如果在所述重复判断区域内已执行全局比对，则不去执行针对在所述步骤302中所选种子序列的全局比对，在这种情况下，判断生成的所述种子序列中是否存在尚未执行全局比对而剩余的种子序列（步骤314），判断结果如果存在，则返回所述步骤302而对剩余种子序列中重新被选择的种子序列再次进行上述过程。此时，如果在所述步骤314中判断的结果为不存在剩余的种子序列，则针对所述短片段的比对被判断为失败。

另外，在所述步骤308中判断的结果，如果在对应区域中尚未执行全局比对，则通过在计算出的所述映射位置上执行针对所述短片段的全局比对（步骤310），从而判断计算出的误差个数是否超过预先设定的最大误差允许值（步骤312）。在所述步骤312中判断的结果，在对应的映射位置上的误差个数为所述最大误差允许值以内的情况下，判断为短片段的比对成功。但是，在所述误差个数超过最大误差允许值的情况下，将接着判断是否存在剩余种子序列（步骤314），判断结果如果存在，则返回所述步骤302而对剩余种子序列中重新被选择的种子序列再次进行上述过程。此时，如果在所述步骤314中判断的结果为不存在剩余的种子序列，则针对所述短片段的比对被判断为失败。

如果对所述步骤306及步骤308进行更为详细的说明，则如图4a至4e所示。在图示的实施例中假定从短片段中提取了3个种子序列SEED1、SEED2、SEED3，其在各对象碱基序列中的映射位置分别为2001bp、2101bp、2301bp，用于判断各种子序列是否已全局比对的基准值为128bp，各种子序列的长度为30bp，且为了短片段的比对以SEED1、SEED2、SEED3的顺序执行全局比对。首先，由于对SEED1而言不存在以前执行过的全局比对，因此正常地在对应位置2001bp上将短片段全局比对于对象碱基序列。然而，对于下一个要被映射的SEED2而言，全局比对的执行与否将根据从SEED2的映射位置计算出的重复判断区域而决定。

首先，如图4a所示，可将所述重复判断区域定义为与种子序列的第一个映射位置之间的距离为基准值以内的区域。即，在图示的实施例中，SEED2的重复判断区域为以SEED2的第一个映射位置2101bp为基准向前后各有128bp长度的区域（在图中表示为灰色的区域）。在这种情况下，由于已在所述重复判断区域内执行了针对SEED1的全局比对，因此不执行SEED2的映射位置上的全局比对。

其次，如图4b所示，可将所述重复判断区域定义为与种子序列的最后一个映射位置之间的距离为基准值以内的区域。即，在图示的实施例中，SEED2的重复判断区域为以SEED2的最后一个映射位置2130bp为基准向前后各有128bp长度的区域（在图中表示为灰色的区域）。在这种情况下，由于已执行全局比对的SEED1的映射位置2001bp在所述重复判断区域之外，因此在SEED2的映射位置上执行全局比对。

图4c对图4a及图4b所示实施例进行了一般化，表示了将重复判断区域设定为与种子序列的第k个映射位置（1≤k≤N，其中N为种子序列的长度）之间的距离为基准值以内的区域的实施例。在这种情况下，SEED2的全局比对与否将根据所述k的值而改变。

另外，如图4d所示，也可将所述重复判断区域构成为包含从种子序列的第一个映射位置向对象碱基序列的前方移动相当于基准值的距离后的位置到从种子序列的最后一个映射位置向对象碱基序列的后方移动相当于基准值的距离后的位置之间的区域。即，在这种情况下，得到如同将图4a及图4b中的重复判断区域合并的结果。图4e表示将其一般化而根据前述数学式1设定重复判断区域的实施例。

之所以如上所述地在对一个种子序列执行了全局比对的情况下不执行针对其周围的全局比对，是由于如下原因。由于成为全局比对候选对象的各种子序列是从一个短片段中获得的，因此各种子序列在对象碱基序列中映射于相近的区间即意味着对应短片段在对应区间内得到映射的可能性很高。因此在这种情况下即使只是对相应区间内得到映射的多个种子序列中的一个种子序列执行全局比对，也完全可以将短片段映射于对应位置上。而且，反过来看，如果对映射于相近区间内的多个种子序列中的一个种子序列进行全局比对的结果没有使短片段得到映射，则说明其他种子序列也没有映射于对应区间的可能性较高。因此，在本发明的实施例中通过对各种子序列设定重复判断区域，并在已在对应区域内执行全局比对的情况下不去重复执行全局比对，从而可以有效地减少需要花费非常多时间的全局比对次数。具体而言，使用本发明的全局比对方法的算法与未使用该方法的算法之间存在约30～35倍的速度差异。

另外，可将所述基准值设定为与所述短片段的长度成比例，具体而言，可将所述基准值设定为所述短片段长度的100%～170%。所述基准值与短片段的长度成比例是因为全局比对为通过短片段而执行。即，由于与映射位置之间的距离为短片段长度以内的区间已执行全局比对，因此没有必要重复执行全局比对。而且，所述基准值被提高到短片段长度的170%是因为碱基序列的插入（insertion）或删除（deletion）等可能导致短片段或对象碱基序列产生误差，因而要予以考虑。如上所述地使所述基准值与短片段的长度联动而变化的情况下，具有可以如前所述地提高碱基序列重组算法的速度的同时能够保持映射准确度的优点。

图5为根据本发明一个实施例的碱基序列重组系统500的模块图。根据本发明一个实施例的碱基序列重组系统500作为一种用于执行前述的碱基序列重组方法的装置，包括种子序列生成单元502、映射位置计算单元504、全局比对单元506。

种子序列生成单元502利用从基因组测序仪获得的短片段生成多个种子序列。如前所述，在种子序列生成单元502中由短片段生成种子序列的方法并不受到特别的局限，由短片段的一部分或整体提取种子序列的多种算法均可不受限制地使用。

映射位置计算单元504从由种子序列生成单元502生成的多个种子序列中选择一个种子序列，并计算针对所选种子序列的对象碱基序列中的映射位置。

全局比对单元506由映射位置计算单元504所计算出的所述映射位置计算针对所选种子序列的重复判断区域，并判断在计算出的所述重复判断区域内是否已执行全局比对，且在没有执行的情况下在计算出的所述映射位置上执行针对所述短片段的全局比对（Global Alignment）。在这种情况下，由于已在前面详述与计算所述重复判断区域相关的具体内容，因此在此处省略详细说明。

另外，本发明的实施例可以包括记录有用于将本说明书中记载的方法在计算机上执行的程序的计算机可读记录介质。所述计算机可读记录介质可将程序命令、本地数据文件、本地数据结构等单独或组合而包括在内。所述介质既可以是为了本发明而特别设计并构成的，也可以是计算机软件领域中具有普通知识的人员所公知而能够使用。计算机可读记录介质的实例中包括硬盘、软盘、磁带等磁介质；只读光盘（CD-ROM）、DVD等光记录介质；软盘等磁光介质；只读存储器、随机存储器、闪存等为了存储并执行程序命令而特意构成的硬件装置。程序命令的实例中不仅包括通过编译器（Compiler）制作的机器语言代码，而且还可以包括借助于解释器（Interpreter）等而能够在计算机上执行的高级语言代码。

以上通过代表性的实施例对本发明进行了详细说明，然而本发明所属技术领域中具有普通知识的人员即可明白在不脱离本发明范围的条件下对上述实施例能够进行多种多样的变形。

因此不能局限于上述实施例而确定本发明的权利范围，本发明的范围应当由权利要求书及其等价内容确定。

Claims

1.一种碱基序列重组系统，包括：

映射位置计算单元，从由短片段生成的多个种子序列中选择一个种子序列，并计算选择的种子序列在对象碱基序列中的映射位置；

全局比对单元，从计算出的所述映射位置计算对应于所述选择的种子序列的重复判断区域，并判断在计算出的所述重复判断区域中是否已执行全局比对，判断结果如果没有执行所述全局比对，则在计算出的所述映射位置上执行针对所述短片段的全局比对。

2.如权利要求1所述的碱基序列重组系统，其特征在于，所述重复判断区域为与所述选择的种子序列在所述对象碱基序列中的第k个映射位置之间的距离为设定基准值以内的区域，其中，1≤k≤N，N为所述选择的种子序列的长度。

3.如权利要求2所述的碱基序列重组系统，其特征在于，所述基准值被设定为与所述短片段的长度成比例。

4.如权利要求3所述的碱基序列重组系统，其特征在于，所述基准值被设定为所述短片段的长度的100%～170%。

5.如权利要求1所述的碱基序列重组系统，其特征在于，所述重复判断区域为根据如下数学式进行计算：

m_a-V≤重复判断区域≤m_b+V，

其中，m_a为所述选择的种子序列的第a个映射位置，m_b为所述选择的种子序列的第b个映射位置，N为所述选择的种子序列的长度，V为基准值，并且，1≤a≤N，1≤b≤N。

6.如权利要求5所述的碱基序列重组系统，其特征在于，所述基准值被设定为与所述短片段的长度成比例。

7.如权利要求6所述的碱基序列重组系统，其特征在于，所述基准值被设定为所述短片段的长度的100%～170%。

8.如权利要求1所述的碱基序列重组系统，其特征在于，当已执行全局比对的种子序列的映射位置被包含于所述重复判断区域内时，所述全局比对单元将判断在所述重复判断区域内已执行全局比对。

9.一种碱基序列重组方法，包括如下步骤：

在映射位置计算单元中，从由短片段生成的多个种子序列中选择一个种子序列，并计算选择的种子序列在对象碱基序列中的映射位置；

在全局比对单元中，从计算出的所述映射位置计算针对所述选择的种子序列的重复判断区域；

在所述全局比对单元中，判断在计算出的所述重复判断区域中是否已执行全局比对，判断结果如果没有执行所述全局比对，则在计算出的所述映射位置上执行针对所述短片段的全局比对。

10.如权利要求9所述的碱基序列重组方法，其特征在于，所述重复判断区域为与所述选择的种子序列在所述对象碱基序列中的第k个映射位置之间的距离为设定基准值以内的区域，其中，1≤k≤N，N为所述选择的种子序列的长度。

11.如权利要求10所述的碱基序列重组方法，其特征在于，所述基准值被设定为与所述短片段的长度成比例。

12.如权利要求11所述的碱基序列重组方法，其特征在于，所述基准值被设定为所述短片段的长度的100%～170%。

13.如权利要求9所述的碱基序列重组方法，其特征在于，所述重复判断区域为根据如下数学式进行计算：

m_a-V≤重复判断区域≤m_b+V，

14.如权利要求13所述的碱基序列重组方法，其特征在于，所述基准值被设定为与所述短片段的长度成比例。

15.如权利要求14所述的碱基序列重组方法，其特征在于，所述基准值被设定为所述短片段的长度的100%～170%。

16.如权利要求9所述的碱基序列重组方法，其特征在于，当已执行全局比对的种子序列的映射位置被包含于所述重复判断区域内时，所述全局比对单元将判断在所述重复判断区域内已执行全局比对。

17.一种装置，包括：

一个以上的处理器；

存储器；

一个以上的程序，

而且，构成为所述一个以上的程序被存储于所述存储器中，并通过所述一个以上的处理器执行，

其中，所述程序中包括用于执行如下步骤的命令：

从由短片段生成的多个种子序列中选择一个种子序列，并计算选择的种子序列在对象碱基序列中的映射位置；

从计算出的所述映射位置计算针对所述选择的种子序列的重复判断区域；

判断在计算出的所述重复判断区域中是否已执行全局比对，判断结果如果没有执行所述全局比对，则在计算出的所述映射位置上执行针对所述短片段的全局比对。