CN103793624A

CN103793624A - 考虑重复性的碱基序列重组系统及方法

Info

Publication number: CN103793624A
Application number: CN201310373186.0A
Authority: CN
Inventors: 朴旻胥
Original assignee: Samsung SDS Co Ltd
Current assignee: Samsung SDS Co Ltd
Priority date: 2012-10-29
Filing date: 2013-08-23
Publication date: 2014-05-14
Also published as: KR20140054752A; WO2014069770A1; US20140121988A1; KR101506371B1

Abstract

本发明公开一种考虑重复性的碱基序列重组系统及方法。根据本发明一个实施例的碱基序列重组系统包括：片段序列生成单元，用于由短片段（read）生成多个片段（fragment）序列；片段序列长度调整单元，从生成的所述多个片段序列当中选择对象碱基序列上的映射重复数超过设定基准值的片段序列，并调整选择的片段序列的长度，直到所述选择的片段序列的映射重复数达到所述基准值以下；比对单元，利用长度得到调整的所述片段序列执行全局比对（Global alignment）。

Description

考虑重复性的碱基序列重组系统及方法

技术领域

本发明的实施例涉及一种用于分析基因组的碱基序列的技术。

背景技术

用于生产高容量短序列的第二代测序方式（NGS：Next GenerationSequencing）因其低廉的成本和迅速生成数据的能力而正在迅速地替代传统的桑格（Sanger）测序方式。并且，开发出了多种聚焦于准确度的NGS序列重组程序。然而，近来随着第二代测序技术的发展，制作片段序列的费用降低为过去的一半以下，随之可用数据的量增加，因此需要开发一种能够在短时间内准确地处理高容量短序列的技术。

序列重组的第一个步骤为通过碱基序列比对（alignment）算法而将短片段（read）映射（mapping）于参考序列的正确位置上。其中的问题在于即使是同种个体，也可能因多种遗传性变异而导致基因组序列上的差异。而且，测序过程中的误差也可能导致碱基序列上的差异。因此，碱基序列重组算法必须有效考虑这种差异和变异而提高映射准确度。

总而言之，为了对基因组信息进行分析，需要尽量多而准确的所有基因组信息数据。而且，为了达到这一目的，首先是要开发出具有很高的准确度和较大处理量的碱基序列重组算法。然而，现有技术中的方法在满足这些需求条件方面存在局限性。

发明内容

本发明实施例的目的在于提供一种可在确保映射准确度的同时通过改善映射时的复杂度而提高处理速度的碱基序列重组方案。

根据本发明一个实施例的碱基序列重组系统包括：片段序列生成单元，用于由短片段生成多个片段（fragment）序列；片段序列长度调整单元，从生成的所述多个片段序列当中选择对象碱基序列上的映射重复数超过设定基准值的片段序列，并调整选择的片段序列的长度，直到所述选择的片段序列的映射重复数达到所述基准值以下；比对单元，利用所述片段序列执行全局比对（Global alignment）。

另外，根据本发明另一实施例的碱基序列重组系统包括：片段序列生成单元，用于由短片段生成多个片段（fragment）序列；筛选单元，用于从生成的所述多个片段序列中除去对象碱基序列上的映射重复数超过设定上限值的片段序列；比对单元，利用除了被除去的所述片段序列以外的其余片段序列而执行全局比对（Global alignment）。

另外，根据本发明一个实施例的碱基序列重组方法包括如下步骤：在片段序列生成单元中，由短片段生成多个片段（fragment）序列；在片段序列长度调整单元中，从生成的所述多个片段序列当中选择对象碱基序列上的映射重复数超过设定基准值的片段序列，并调整选择的片段序列的长度，直到所述选择的片段序列的映射重复数达到所述基准值以下；在比对单元中，利用所述片段序列执行全局比对（Global alignment）。

另外，根据本发明另一实施例的碱基序列重组方法包括如下步骤：在片段序列生成单元中，由短片段生成多个片段（fragment）序列；在筛选单元中，从生成的所述多个片段序列中除去对象碱基序列上的映射重复数超过设定上限值的片段序列；在比对单元中，利用除了被除去的所述片段序列以外的其余片段序列而执行全局比对（Global alignment）。

根据本发明的实施例，并不固定由短片段生成的片段序列的长度，而是根据各片段序列在对象碱基序列内的映射重复数而适当地扩增其长度，或者除去重复数过多的片段序列，从而具有可以提高映射准确度的同时也能提高速度的效果。

附图说明

图1为用于说明根据本发明一个实施例的碱基序列重组方法的图。

图2为用于举例表示根据本发明一个实施例的碱基序列重组方法中的最小误差估计值（MEB）e计算过程的图。

图3为用于说明根据本发明一个实施例的碱基序列重组方法中的片段序列提取过程示例的图。

图4为根据本发明一个实施例的碱基序列重组系统400的模块图。

图5为根据本发明另一实施例的碱基序列重组系统500的模块图。

符号说明：

400、500：碱基序列重组系统 402、502：片段序列生成单元

404：片段序列长度调整单元 406、506：比对单元

408、504：筛选单元

具体实施方式

以下，参照附图说明本发明的具体实施方式。然而这仅仅是示例，本发明并不局限于此。

在对本发明进行说明时，如果遇到对有关本发明的公知技术的具体说明有可能不必要地干扰本发明的主旨的情况，则省略其详细说明。并且，后述的术语均为考虑本发明中的功能而进行定义的，其可能因使用者、运用人员的意图或习惯等而有所不同。因此，要以整个说明书的内容为基础对其进行定义。

本发明的技术思想由权利要求书确定，以下的实施例只是为了将本发明的技术思想有效地传递给本发明所属技术领域中具有普通知识的人员而采用的一种手段。

在对本发明的实施例进行具体说明之前，首先对本发明中使用的术语进行如下说明。

首先，“短片段（read）序列”（或者简称为“短片段”）是指基因组测序仪（genome sequencer）中输出的短碱基序列数据。短片段的长度因基因组测序仪的种类而不同，通常构成为35～500bp(base pair)范围的多种长度，在DNA碱基的情况下，通常用字母A、C、G、T表示。

“对象碱基序列”指可对利用所述短片段形成整个碱基序列提供参考的碱基序列（reference sequence）。在碱基序列分析中，通过参考对象碱基序列而将基因组测序仪所输出的大量短片段进行映射来完成整个碱基序列。在本发明中，所述对象碱基序列既可以是碱基序列分析时预先设定的序列（例如人类的整个碱基序列等），或者也可以将基因组测序仪中产生的碱基序列使用为对象碱基序列。

“碱基（base）”为构成对象碱基序列及短片段的最小单位。如前所述，构成DNA的碱基可由A、C、G、T等四个字母表示，将这些分别称为碱基。换言之，对于DNA而言，可用四种碱基表示，短片段也是如此。

“片段（fragment）序列”（或者简称为“片段”）指为了短片段的映射而作为比较短片段与对象碱基序列时的单位的序列。从理论上讲，为了将短片段映射于对象碱基序列，需要把整个短片段从对象碱基序列的最前端部分开始依次比较的同时计算短片段的映射位置。然而，由于这种方法在映射一个短片段时消耗过多的时间并要求过高的计算能力，因此实际上要先把短片段的一部分所构成的片即片段序列映射于对象碱基序列而找出整个短片段的映射候选位置，然后将整个短片段映射于对应候选位置（Global Alignment）。

图1为用于说明根据本发明一个实施例的碱基序列重组方法100的图。在本发明的实施例中，碱基序列重组方法100指通过将基因组测序仪（genomesequencer）中输出的短片段与对象碱基序列进行比较而确定短片段在所述对象碱基序列中的映射（或比对）位置，从而完成整个序列的一系列过程。

首先，如果从基因组测序仪（genome sequencer）接收到短片段（步骤102），则尝试整个短片段与所述对象碱基序列之间的精确匹配（exactmatching）（步骤104）。进行所述尝试的结果，如果针对整个短片段的精确匹配成功，则不执行后续的比对步骤而判断为比对成功（步骤106）。将人类的碱基序列作为对象进行实验的结果显示，如果将基因组测序仪中输出的100万个短片段精确匹配于人类的碱基序列，则在总共200万次的比对中（正向序列100万次，反向互补(reverse complement)方向序列100万次）出现231,564次的精确匹配。因此，执行所述步骤104的结果约可以减少11.6%的比对量。

然而，如果与之相反，即在所述步骤106中判断为对应短片段并不精确匹配的情况下，则是计算将对应短片段比对于所述对象碱基序列时的最小误差估计值（MEB:Minimum Error Bound）e（步骤108）。

图2为用于举例说明所述步骤108中的最小误差估计值e计算过程的图。如图所示，首先将初始最小误差估计值设定为0（e=0），并从短片段的第一个碱基向右逐个移动的同时尝试精确匹配。此时，假定从所述短片段的特定碱基（图中的左侧第一个箭头处）开始无法再实现匹配，则这种情况说明从短片段的匹配起始位置到当前位置之间的区间中的某处出现了误差。因此，在这种情况下将最小误差估计值增加1（e=1）之后在下一个位置上重新开始精确匹配。如果在以后又遇到判断为无法精确匹配的情况，则是说明从重新开始精确匹配的位置到当前位置之间的区间某处又出现了误差，因此又将最小误差估计值增加1（e=2）之后在下一个位置上重新开始精确匹配。通过这样的过程，到达短片段末尾时的最小误差估计值（图中为e=3）将成为可能在对应短片段中出现的误差的个数。其中，之所以将所述e的值作为最小误差估计值，是因为并没有对短片段中可能出现误差的所有误差数量进行分析，而是通过如果在特定部分中出现误差便从该部分以后起重新进行精确匹配的方式而只对对象序列的某一位置（position）进行了检查。即，所述e值可以作为在对应短片段中可能出现的误差的最小值，而在对象序列的其他位置上可能出现更多的误差。

若通过上述过程计算出了短片段的最小误差估计值，则判断计算出的最小误差估计值是否超过预先设定的最大误差允许值（maxError）（步骤110），判断结果如果超过，则判断为对应短片段的比对失败并终止比对。在前述的将人类的碱基序列作为对象的实验中，将最大误差允许值（maxError）设定为3而计算剩余短片段的最小误差估计值的结果显示，共有844,891次实验的短片段超过所述最大误差允许值。即，执行所述步骤108的结果，约能减少42.2%的比对工作量。

相反地，如果在所述步骤110中判断的结果，计算出的最小误差估计值为所述最大误差允许值以下，则将通过如下过程执行对应短片段的比对。

首先，由所述短片段生成多个片段（fragment）序列（步骤112），并执行从生成的所述多个片段序列中除去在对象碱基序列上的映射重复数超过设定上限值的片段序列的筛选过程（步骤114）。然后，从片段序列中选择在对象碱基序列上的映射重复数超过设定基准值的片段序列，并调整选择的片段序列的长度，直到所述选择的片段序列的映射重复数达到所述基准值以下（步骤116）。此时，所述步骤114和步骤116既可以共同执行，也可以只执行两个中的一个。

然后，利用所述片段序列而执行针对所述短片段的全局比对（globalalignment）（步骤118）。此时，在所述步骤118中执行全局比对的所述片段序列当中不仅包含已在所述步骤116中调整了长度的片段序列，而且还一并包含未经调整长度的片段序列，即由于映射重复数在当初已是基准值以下而无需调整长度的片段序列。执行所述全局比对的结果，当短片段的误差个数超过预先设定的最大误差允许值（maxError）时判定为比对失败，否则判定为比对成功（步骤120）。

以下便详细说明所述步骤112至步骤116的具体过程。

由短片段生成多个片段序列（步骤112）

本步骤是为了正式执行短片段的比对而由短片段生成多个作为小片的片段序列的步骤。在本步骤中将通过考虑所述短片段的一部分或整体而生成多个片段序列。例如，可通过将短片段的整体或特定区间划分为多个片而生成片段序列，或者可以将被划分的片进行组合而生成片段序列。在这种情况下，生成的片段序列可以连续性地相连，然而并非一定要如此，也可以通过短片段内相互分离的片的组合构成片段序列。并且，生成的片段序列并非一定要具有相同的长度，也可以在一个短片段内生成具有多种长度的片段序列。总而言之，本发明中的由短片段生成片段序列的方法并不特别受限，从短片段的一部分或整体中提取片段序列的各种算法均可不加限制地使用。

筛选生成的片段序列（步骤114）

若通过如上所述的过程生成了片段序列，接着便执行计算生成的片段序列在对象碱基序列中的映射重复数并除去计算出的映射重复数超过预先设定的上限值的片段序列的筛选过程。其中，所述映射重复数是指将片段序列映射于对象碱基序列时发生精确匹配（exact matching）的次数。

通常，对象碱基序列（例如人类的基因组）包含多个重复序列（repeatsequence）。由于这种重复序列分布于对象碱基序列的多个位置上，且重复性地包含了相同的碱基序列，因此对于有些片段序列而言，在与对象碱基序列之间进行映射时将在多个位置上发生精确匹配，而在这种情况下，将对发生精确匹配的每一个位置执行全局比对，从而确定准确的映射位置。然而在这样的映射重复数过多的情况下，将发生很多不必要的全局比对，由此对整个序列重组算法的复杂度及准确度产生不利影响，因此在所述重复数超过预先设定的上限值时，通过除去有关片段序列而防止序列重组算法的执行速度及复杂度过高。

此时，可通过考虑对象碱基序列的种类及片段序列的长度等而确定所述上限值，实验结果显示，在片段序列的长度为15bp时，将所述上限值设定为10,000是恰当的，会提高碱基序列重组的准确度及执行速度。

调整片段序列的长度（步骤116）

另外，即使如前所述地将映射重复数过大（即超过上限值）的片段序列除去，与对象碱基序列之间的映射重复数相对较高的一些片段序列仍将对整个比对算法的复杂度及准确度产生不利影响。因此，有必要利用适当的方法减少片段序列的映射重复数。

为此，在本步骤中从候选片段序列当中选择在所述对象碱基序列上的映射位置的个数超过预先设定的基准值的片段序列，并针对选择的片段序列调整（扩增）对应片段序列的大小，直到所述映射位置的个数成为所述设定值以下。

具体而言，在本步骤中计算生成的所述候选片段序列各自在所述对象碱基序列上的映射位置的个数，并选择计算出的所述映射位置的个数超过设定值的片段序列，然后扩增选择的片段序列的大小，直到所述对象碱基序列上的映射位置的个数成为所述设定值以下。

此时，可通过在所述选择的片段序列上附加构成所述短片段的一部分的一个以上的碱基而实现所述选择的片段序列的大小的扩增。此时，被扩增的碱基并非一定要与所述片段序列连接。例如，如图3所示，为了扩增从短片段的5～19位置提取的片段序列，也可以增加从短片段的21～24位置提取的片。

并且，可通过在所述选择的片段序列的起始端或末端上增加对应于相应位置的所述短片段上的碱基而实现所述选择的片段序列的大小的扩增。对此举例说明如下。例如，假定如下地由短片段生成了片段序列。

短片段：ATTGCCTCAGT

片段序列：TTGC（短片段中带有下划线的部分）

如果对所述片段序列执行映射的结果，在对象碱基序列上的映射位置的个数为65个，且设定的基准值为50，则如下地以1bp为单位逐步扩增所述片段序列的长度，直到所述映射位置的个数减少为基准值以下。

TTGC（映射位置65个）

TTGCC（映射位置54个）

TTGCCT（映射位置27个）

对于上面的示例而言，由于在参考短片段而增加两个碱基的情况下映射位置的个数减少为基准值以下，因此最终片段序列将是相比于最初生成的值扩增了2bp的TTGCCT。另外，如同前述的其他示例，所述基准值也是可以根据对象碱基序列、短片段、片段序列的特性等而适当设定的值，本发明的权利范围并不局限于特定的设定值。

另外，在如上所述地扩增片段序列长度的过程中，如果扩增的片段序列未被映射于对象碱基序列，即，扩增的片段序列的映射位置个数为0，则对应片段序列将被除去。例如，假定如下地扩增片段序列的长度。

ACGG（映射位置270个）

ACGGT（映射位置55个）

ACGGTA（映射位置0个）

对于所述片段序列而言，在原片段序列（ACGG）上扩增一个碱基的片段序列在对象碱基序列上的映射位置的个数为超过基准值的55个，而如果扩增两个碱基则根本不能被映射于对象碱基序列。即在这种情况下，如果只扩增一个碱基则会使映射位置过多，而如果扩增两个碱基则不能与对象碱基序列之间发生映射，于是对应片段序列在之后的全局比对过程中将被除去而不会被使用。

在以人类的碱基序列为对象的实验中，在100万个短片段中以15bp的片段序列长度、4bp的移动间距生成片段序列之后将生成的片段序列映射于对象碱基序列的情况下，如果将基准值设定为50，则显示在一共15,547,856个片段序列中约有77%的片段序列具有50个以下的映射位置。即实验结果显示，在以50作为基准值的情况下，77%的片段序列可以直接利用，而其余23%的片段序列需要进行根据前述方法的片段序列的扩增。

图4为根据本发明一个实施例的碱基序列重组系统400的模块图。根据本发明一个实施例的碱基序列重组系统400为用于执行前述碱基序列重组方法的装置，包括片段序列生成单元402、片段序列长度调整单元404、以及比对单元406，且可以根据需要而再包括筛选单元408。

片段序列生成单元402由通过基因组测序仪获得的短片段生成多个片段（fragment）序列。

片段序列长度调整单元404从生成的所述多个片段序列中选择在对象碱基序列上的映射重复数超过设定基准值的片段序列，并调整选择的片段序列的长度，直到所述选择的片段序列的映射重复数达到所述基准值以下。此时，片段序列长度调整单元404可通过在所述选择的片段序列上附加构成所述短片段的一部分的一个以上的碱基而调整所述选择的片段序列的长度。并且，在这种情况下，片段序列长度调整单元404可通过在所述选择的片段序列的起始端或末端上增加对应于相应位置的所述短片段上的碱基而调整所述选择的片段序列的长度。

比对单元406利用所述片段序列而执行所述短片段对所述对象碱基序列的全局比对（Global alignment）。此时，在比对单元406中执行全局比对的所述片段序列当中不仅包含已在片段序列长度调整单元404中调整了长度的片段序列，而且还一并包含未经调整长度的片段序列，即由于映射重复数在当初已是基准值以下而无需调整长度的片段序列。

筛选单元408在遇到由片段序列生成单元402生成的所述多个片段序列中存在对象碱基序列上的映射重复数超过设定上限值的片段序列的情况时，除去对应片段序列。此时，所述上限值可以是如前所述的10,000。

图5为根据本发明另一实施例的碱基序列重组系统500的模块图。如图所示，根据本实施例的碱基序列重组系统500包括片段序列生成单元502、筛选单元504、以及比对单元506。

片段序列生成单元502由通过基因组测序仪获得的短片段生成多个片段（fragment）序列。

筛选单元504在遇到由片段序列生成单元402生成的所述多个片段序列中存在对象碱基序列上的映射重复数超过设定上限值的片段序列的情况时，除去对应片段序列。此时，所述上限值可以是如前所述的10,000。

比对单元506利用通过筛选单元504筛选过的片段序列执行所述短片段对所述对象碱基序列的全局比对（Global alignment）。

另外，本发明的实施例中可以包括记录有用于将本说明书中记载的方法在计算机上执行的程序的计算机可读记录介质。所述计算机可读记录介质可将程序命令、本地数据文件、本地数据结构等单独或组合而包括在内。所述介质既可以是为了本发明而特别设计并构成的，也可以是计算机软件领域中具有普通知识的人员所公知和常用的。计算机可读记录介质的实例中包括硬盘、软盘、磁带等磁介质；只读光盘（CD-ROM）、DVD等光记录介质；软盘等磁光介质；只读存储器、随机存储器、闪存等为了存储并执行程序命令而特意构成的硬件装置。程序命令的实例中不仅包括通过编译器（Compiler）制作的机器语言代码，而且还可以包括借助于解释器（Interpreter）等而能够在计算机上执行的高级语言代码。

以上通过代表性的实施例对本发明进行了详细说明，然而本发明所属技术领域中具有普通知识的人员即可明白在不脱离本发明范围的条件下对上述实施例能够进行多种多样的变形。

因此不能局限于上述实施例而确定本发明的权利范围，本发明的范围应当由权利要求书及其等价内容确定。

Claims

1.一种碱基序列重组系统，包括：

片段序列生成单元，用于由短片段生成多个片段序列；

片段序列长度调整单元，从生成的所述多个片段序列当中选择对象碱基序列上的映射重复数超过设定基准值的片段序列，并调整选择的片段序列的长度，直到所述选择的片段序列的映射重复数达到所述基准值以下；

比对单元，利用所述片段序列执行全局比对。

2.如权利要求1所述的碱基序列重组系统，其中，所述片段序列长度调整单元在所述选择的片段序列上附加构成所述短片段的一部分的一个以上的碱基。

3.如权利要求2所述的碱基序列重组系统，其中，所述片段序列长度调整单元在所述选择的片段序列的起始端或末端上增加对应于相应位置的所述短片段上的碱基。

4.如权利要求1所述的碱基序列重组系统，其中，所述片段序列长度调整单元在长度得到调整的片段序列没有被映射于所述对象碱基序列的情况下，除去所述长度得到调整的片段序列。

5.如权利要求1所述的碱基序列重组系统，还包括筛选单元，用于当生成的所述多个片段序列中存在对象碱基序列上的映射重复数超过设定上限值的片段序列时，除去对应片段序列。

6.如权利要求5所述的碱基序列重组系统，其中，所述上限值为10000。

7.一种碱基序列重组系统，包括：

片段序列生成单元，用于由短片段生成多个片段序列；

筛选单元，用于从生成的所述多个片段序列中除去对象碱基序列上的映射重复数超过设定上限值的片段序列；

比对单元，利用除了被除去的所述片段序列以外的其余片段序列而执行全局比对。

8.如权利要求7所述的碱基序列重组系统，其中，所述上限值为10000。

9.一种碱基序列重组方法，包括如下步骤：

在片段序列生成单元中，由短片段生成多个片段序列；

在片段序列长度调整单元中，从生成的所述多个片段序列当中选择对象碱基序列上的映射重复数超过设定基准值的片段序列，并调整选择的片段序列的长度，直到所述选择的片段序列的映射重复数达到所述基准值以下；

在比对单元中，利用所述片段序列执行全局比对。

10.如权利要求9所述的碱基序列重组方法，其中，在调整所述片段序列的长度的步骤中，在所述选择的片段序列上附加构成所述短片段的一部分的一个以上的碱基。

11.如权利要求10所述的碱基序列重组方法，其中，在调整所述片段序列的长度的步骤中，在所述选择的片段序列的起始端或末端上增加对应于相应位置的所述短片段上的碱基。

12.如权利要求9所述的碱基序列重组方法，其中，在调整所述片段序列的长度的步骤中，在长度得到调整的片段序列没有被映射于所述对象碱基序列的情况下，除去所述长度得到调整的片段序列。

13.如权利要求9所述的碱基序列重组方法，其中在执行生成所述片段序列的步骤之后还包括如下的筛选步骤：

如果在生成的所述多个片段序列中存在对象碱基序列上的映射重复数超过设定上限值的片段序列，则除去对应的片段序列。

14.如权利要求13所述的碱基序列重组方法，其中，所述上限值为10000。

15.一种碱基序列重组方法，包括如下步骤：

在片段序列生成单元中，由短片段生成多个片段序列；

在筛选单元中，从生成的所述多个片段序列中除去对象碱基序列上的映射重复数超过设定上限值的片段序列；

在比对单元中，利用除了被除去的所述片段序列以外的其余片段序列而执行全局比对。

16.如权利要求15所述的碱基序列重组方法，其中，所述上限值为10000。