CN103087906A

CN103087906A - 在目标基因组序列中产生新型序列的装置和方法

Info

Publication number: CN103087906A
Application number: CN2012104280873A
Authority: CN
Inventors: 洪侑辰; 李勇锡; 申守容
Original assignee: Samsung SDS Co Ltd
Current assignee: Samsung SDS Co Ltd
Priority date: 2011-10-31
Filing date: 2012-10-31
Publication date: 2013-05-08
Anticipated expiration: 2032-10-31
Also published as: EP2587396A2; CN103087906B; KR101295784B1; JP2013094169A; JP5710572B2; KR20130047383A; EP2587396A3; US20130110410A1

Abstract

本发明提供了在目标基因组序列中产生新型序列的装置和方法。该装置和方法用于在下一代测序(NGS)技术的基因组重测序过程中通过使用没有与参考序列比对上的输入短片段产生在参考序列中不存在的新型序列。根据本发明，产生了目标基因组序列的参考序列所未反映的新型序列，并且可以提供新型序列的信息。

Description

在目标基因组序列中产生新型序列的装置和方法

本申请要求于2011年10月31日在韩国知识产权局提交的第10-2011-0112371号韩国专利申请的权益，该韩国专利申请的公开通过引用全部包含于此。

技术领域

本发明涉及在目标基因组序列中产生新型序列的装置和方法，更具体地讲，涉及这样一种在目标基因组序列中产生新型序列的装置和方法，其用于在下一代测序(NGS)技术的基因组重测序过程中通过使用没有与参考序列比对上的输入短片段产生在参考序列中不存在的新型序列。

背景技术

NGS技术在对目标基因组测序时产生大量的短片段(其为短的片段)。将产生的短片段与参考序列比对，并用比对上短片段的共有序列重构目标基因组的碱基序列，该工艺称作重测序。因此，基于参考序列制备通过重测序产生的个别的基因组序列。

因此，目前，NGS数据同与参考序列比对上的短片段的共有序列一起构成目标基因组序列。

然而，由于重测序的方法的限制，在参考序列中不存在或与参考序列不同的个别的基因组序列中，在相应的序列中产生的短片段可能没有与参考序列比对上，因此，个别的遗传特征可能不会充分地反映在根据重测序的结果重构的个别的基因组序列中。因此，为了获得与参考序列不同的个别的遗传特征的信息，虽然需要对在重测序过程中未比对上的短片段进行另外的分析，但通常将该短片段从分析中排除。然而，已知的是，在个别的基因组中个别地示出的变异可以解释与表型变异和疾病易感性相关的个别的遗传特征，因此，找到该变异非常重要。

然而，仅通过使用传统的重测序方法难以产生具有以下特征的序列：与在参考序列中不存在并且独特地插入到个别的基因组中的部分对应；或者，与在参考序列中存在并且因诸如变异的因素而在个别的基因组中表现不同的部分对应。此外，仅通过使用传统重测序方法不能解决没有与参考序列比对上的短片段的个别的基因组的信息丢失的问题。

发明内容

本发明提供了在目标基因组序列中产生新型序列的装置和方法，其用于在下一代测序(在下文中，称作NGS)技术的基因组重测序过程中通过使用没有与参考序列比对上的输入短片段产生在参考序列中不存在的新型序列。

根据本发明的一方面，提供了一种新型序列产生装置，包括：短片段对获得单元，获得分别包括至少一个未比对上短片段的短片段对，所述至少一个未比对上短片段根据重测序的结果而没有与参考序列比对上，重测序用于将从基因组序列测序仪接收的输入短片段与参考序列进行比对；重叠群产生单元，产生通过将所获得的短片段对的未比对上短片段进行连接而组装的重叠群；新型序列产生单元，产生包括来自产生的重叠群之中的至少一个重叠群的新型序列；以及位置预测单元，预测产生的新型序列在参考序列上的位置。

短片段对可以包括比对上-未比对上短片段对和未比对上-未比对上短片段对，比对上-未比对上短片段对分别由与参考序列比对上的比对上短片段中的一个与未比对上短片段中的一个的对组成，未比对上-未比对上短片段分别由未比对上短片段的对组成。

重叠群可以包括一个或多个第一重叠群和一个或多个第二重叠群，通过将比对上-未比对上短片段对的未比对上短片段连接来组装所述一个或多个第一重叠群，通过将未比对上-未比对上短片段对的未比对上短片段连接来组装所述一个或多个第二重叠群。

新型序列可以包括第一新型序列和第二新型序列，通过将所述一个或多个第一重叠群之中的比对上-未比对上短片段对的比对上短片段的方向性相同的第一重叠群与第二重叠群连接获得第一新型序列，第二新型序列基于比对上-未比对上短片段对的比对上短片段的方向性不同的第一重叠群。

新型序列产生单元可以基于与产生的重叠群对应的比对上-未比对上短片段对的比对上短片段的比对质量、构成产生的重叠群的短片段的平均碱基质量以及产生的重叠群的长度来筛选产生的重叠群。

位置预测单元可以基于比对上短片段在参考序列上的位置预测新型序列在参考序列上的位置，比对上短片段来自用于产生新型序列中包括的重叠群的短片段对的短片段之中，比对上短片段与参考序列比对上。

新型序列产生装置还可以包括类型预测单元，类型预测单元基于与新型序列在参考序列上的预测的位置和由所述预测的位置指示的区域比对上的短片段的覆盖深度来预测新型序列的类型，新型序列的类型包括变异新型序列和插入新型序列中的至少一个，变异新型序列存在于参考序列上但表现出与通过重测序重构的目标基因组序列中的参考序列不同，插入新型序列从参考序列单独地插入。

新型序列产生装置还可以包括新型序列输出单元，新型序列输出单元用于输出关于新型序列的预测的位置和预测的类型的信息。

根据本发明的另一方面，提供了一种产生新型序列的方法，该方法包括：执行重测序，重测序将通过基因组序列测序获得的输入短片段与参考序列比对；获得分别包括根据重测序的结果没有与参考序列比对上的至少一个未比对上短片段的短片段对；产生通过将获得的短片段对的未比对上短片段进行连接而组装的重叠群；产生包括来自产生的重叠群之中的至少一个重叠群的新型序列；以及预测产生的新型序列在参考序列上的位置。

获得短片段对可以包括：获得比对上-未比对上短片段对，比对上-未比对上短片段对分别由根据重测序的结果的与参考序列比对上的比对上短片段中的一个和未比对上短片段中的一个组成；以及获得未比对上-未比对上短片段对，未比对上-未比对上短片段对分别由根据重测序的结果的成对的未比对上短片段组成。

产生重叠群可以包括：产生通过将比对上-未比对上短片段对的未比对上短片段进行连接而组装的一个或多个第一重叠群；以及产生通过将未比对上-未比对上短片段对的未比对上短片段进行连接而组装的一个或多个第二重叠群。

产生新型序列可以包括：基于与第一重叠群对应的比对上-未比对上短片段对的比对上短片段在参考序列上的比对位置和方向性来确定所述一个或多个第一重叠群是否有效；通过将来自所述一个或多个第一重叠群之中的比对上-未比对上短片段对的比对上短片段的方向性相同的第一重叠群与第二重叠群连接来产生第一新型序列；以及基于比对上-未比对上短片段对的比对上短片段的方向性不同的第一重叠群来产生第二新型序列。

预测产生的新型序列的位置可以包括：基于来自用于产生新型序列中包括的重叠群的短片段对的短片段之中的与参考序列比对上的比对上短片段在参考序列上的位置，预测新型序列在参考序列上的位置。

该方法还可以包括基于与新型序列在参考序列上的预测的位置和由所述预测的位置指示的区域比对上的短片段的覆盖深度来预测新型序列的类型，其中，新型序列的类型可包括变异新型序列和插入新型序列中的至少一个，变异新型序列存在于参考序列上但表现出与通过重测序重构的目标基因组序列中的参考序列不同，插入新型序列从参考序列单独地插入。

附图说明

通过参照附图详细地描述本发明的示例性实施例，本发明以上和其他特征和优点将变得更明显，在附图中：

图1是示出根据本发明实施例的基因组序列分析系统的框图；

图2是根据本发明实施例的新型序列产生装置的框图；

图3A和图3B是根据本发明实施例的用于描述短片段对和重叠群的构思的图示；

图4是示出根据本发明实施例的产生新型序列和预测关于新型序列的信息的方法的流程图；

图5A是示出根据本发明实施例的基于重叠群来产生新型序列的工艺的流程图；

图5B是根据本发明实施例的用于描述在新型序列的产生过程中确定重叠群是否有效的示例的图示；

图6A和图6B是用于描述预测根据本发明实施例产生的新型序列的信息的工艺的图示；

图7是示出根据本发明实施例的通过确定第一重叠群是否有效来对重叠群的类型进行分类的工艺的图示；

图8是示出根据本发明实施例的通过将来自第一重叠群之中的比对上-未比对上短片段对的比对上短片段的方向性相同的第一重叠群与第二重叠群连接来产生新型序列的工艺的伪代码。

具体实施方式

前面仅仅示出了本发明的原理。因此，将理解的是，虽然这里未明确地描述或示出，但本领域普通技术人员将能够设计出体现本发明的原理并被包括在其精神和范围内的各种布置。此外，在此叙述的有条件的语言和全部示例的主要的、明确的意图仅在于教导的目的并帮助读者理解本发明的原理和发明人对现有技术进行改进所贡献的构思，并且将被解释为不限于这些具体叙述的示例和条件。此外，在此叙述本发明的原理、方面和实施例的所有陈述以及本发明的具体示例意图包括本发明的结构和功能的等同物。此外，这样的等同物都意图包括当前已知的等同物和未来开发的等同物(即，执行相同功能所开发的任何元件，而与结构无关)。

在附图中示出的各种装置(包括表示为处理器或表示为与处理器相似构思的功能模块)的功能不仅可以设置有特定硬件，还可以设置有可以执行相关软件的通用硬件。当通过处理器提供这些功能时，可以通过单个特定处理器、单个共享处理器或多个处理器(其中，多个处理器之间的共享是可能的)提供这些功能。此外，诸如处理器、控制器等的术语的使用不应该被解释为局限于能够执行软件的硬件，而应该被解释为间接包括用于存储软件的数字信号处理器(DSP)硬件、只读存储器(ROM)、随机存取存储器(RAM)和非易失性存储器。可以包括其他公知的传统硬件装置。

在下文中，将参照附图解释本发明的示例性实施例来详细地描述本发明。在本发明的以下描述中，将仅解释对理解本发明的操作必需的必要部件，当认为其他部件不必要地使本发明的主题模糊时，将不解释其他部件。

除非另外表明，否则词语“包括”或变型被理解为表示“包括，但不限于”的意思，从而未明确提到的其他元件也可以包括在内。当诸如“......中的至少一种(个)(者)”的表述放在一系列元件后面时，修饰整个系列的元件，而不是修饰所述系列中的单个元件。

现在将参照附图更充分地描述本发明，在附图中示出了本发明的示例性实施例。

图1是示出根据本发明实施例的基因组序列分析系统100的框图。

参照图1，基因组序列分析系统100可以包括基因组序列测序仪110、基因组序列重测仪120、目标基因组序列重构装置130和新型序列产生装置140。基因组序列分析系统100可以从基因组序列数据库150中获得关于目标基因组序列或参考序列的信息，或者可以产生关于新型序列的信息，并且将该信息储存在基因组序列数据库150中。

基因组序列测序仪110通过测序产生目标基因组的碱基序列数据。虽然目标生命不限于人类，但用于分析基因组的参考序列应该存在。

在当前实施例中，碱基序列数据是指使用DNA测序仪产生的关于构成脱氧核糖核酸(DNA)的四种碱基A、C、G和T的序列的数据以及与该序列相关的数据。这里，例如，相关数据可以是碱基质量评分(base quality score)和短片段深度(read depth)。

基因组序列重测仪120从来自基因组序列测序仪110的碱基序列数据接收构成目标基因组的碱基序列的输入短片段，并执行用于将输入短片段与参考序列比对的重测序。

在当前实施例中，输入短片段是指在基因组序列测序仪110中通过DNA测序产生的单个连接碱基短片段。由于在DNA测序过程中执行DNA的分割和扩增，所以重叠部分可以存在于根据DNA测序的结果而产生的短片段中。

基于在基因组序列重测仪120中通过重测序而与参考序列比对上的比对上短片段，目标基因组序列重构装置130重构目标基因组序列。

基于在基因组序列重测仪120中通过重测序而与参考序列未比对上的未比对上短片段，新型序列产生装置140产生因插入或变异而与参考序列不同地形成的新型序列。

因此，基因组序列分析系统100通过将关于产生的新型序列的信息和关于重构的目标基因组序列的信息结合而可以提供关于具有更完整结构的目标基因组序列的信息。

这样，为了提供关于具有更完整结构的目标基因组序列的信息，当前实施例提供了不仅使用通过重测序而与参考序列比对上的比对上短片段还使用未比对上短片段来分析基因组序列的装置和方法。

图2是根据本发明实施例的新型序列产生装置200的框图。

参照图2，新型序列产生装置200可以包括短片段对获得单元210、重叠群产生单元220、新型序列产生单元230、位置预测单元240、类型预测单元250和新型序列输出单元260。

短片段对获得单元210获得分别包括至少一个未比对上短片段的短片段对，未比对上短片段根据将从基因组序列测序仪110接收的输入短片段与参考序列进行比对的重测序的结果而没有与参考序列比对上。

对于短片段对获得单元210，使用由配对文库(mate-pair library)或双末端文库(paired-end library)提供的成对短片段信息。

短片段对可以分为由与参考序列比对上的比对上短片段对组成的比对上-比对上短片段对、由比对上短片段和未比对上序列组成的比对上-未比对上短片段对以及由未比对上短片段对组成的未比对上-未比对上短片段对。然而，从这些当中，短片段对获得单元210可以获得包括没有与参考序列比对上的至少一个未比对上短片段的短片段对，即，比对上-未比对上短片段对和未比对上-未比对上短片段对。

重叠群产生单元220通过将由短片段对获得单元210获得的短片段对的未比对上短片段进行连接来产生组装的重叠群。

例如，产生重叠群的代表性方法可以是从头组装算法(de novo assemblyalgorithm)。通常，广泛地使用诸如Velvet(Zebrano和Birney，Velvet：algorithmsfor de novo short read assembly using de Bruijn graphs，Genome research，18：821-829，2008)、ABYSS(Simpson等人，ABYSS：a parallel assembler forshort read sequence data，Genome research，19：1117-1123，2009)或SOAPdenovo(Li等人，De novo assembly of human genomes with massively parallel shortread sequencing，Genome research，20：265-272，2010)的从头组装算法，但本发明不限制将未比对上短片段连接的算法。

多数从头组装算法根据将被输入的数据的大小而需要大容量的存储器。因此，为了将在产生重叠群的工艺过程中消耗的存储资源最小化，重叠群产生单元220可以在短片段对(包括与相同染色体序列比对上的比对上短片段)的未比对上短片段中根据染色体执行从头组装。

重叠群产生单元220产生的重叠群可以根据形成重叠群的每个组装的基本部分的短片段对的类型进行分类，即，根据重叠群对应于比对上-未比对上短片段对或未比对上-未比对上短片段对中的哪个而进行分类。

在当前实施例中，通过将比对上-未比对上短片段对中的未比对上短片段连接而组装的重叠群称作“第一重叠群”，通过将未比对上-未比对上短片段对中的未比对上短片段连接而组装的重叠群称作“第二重叠群”。

新型序列产生单元230产生包括至少一个有效重叠群的新型序列，所述至少一个有效重叠群来自重叠群产生单元220产生的重叠群之中。

新型序列产生单元230可以基于相应的比对上-未比对上短片段对的比对上短片段的比对质量、构成重叠群的短片段的平均碱基质量以及重叠群的长度，筛选重叠群产生单元220产生的重叠群中的无效重叠群。

例如，在具有比对质量或碱基质量低的短片段的重叠群中，由于即使短片段与参考序列比对上也难以信赖该重叠群，所以可以将该重叠群认为是无效重叠群并且可以筛选该重叠群以获得更可靠的结果。

在相应的比对上-未比对上短片段对中的比对上短片段具有相同的方向性的情况下以及在相应的比对上-未比对上短片段对中的比对上短片段具有不同的方向性的情况下，新型序列产生单元230可以对重叠群产生单元220产生的第一重叠群进行不同的处理。

例如，相应的比对上-未比对上短片段对的比对上短片段的方向性相同的第一重叠群可以连接到第二重叠群以产生新型序列。

此外，可以仅基于相应的比对上-未比对上短片段对的比对上短片段的方向性不同的第一重叠群来产生新型序列。

位置预测单元240预测由新型序列产生单元230产生的新型序列在参考序列上的位置。位置预测单元240检索与参考序列比对上的比对上短片段是否存在于用于产生新型序列中包括的重叠群的短片段对的短片段中。如果与参考序列比对上的比对上短片段存在，则位置预测单元240可以基于比对上短片段在参考序列上的位置来预测头(heading)新型序列在参考序列中的位置。

类型预测单元250可以基于位置预测单元240预测的新型序列在参考序列上的位置来预测新型序列的类型。

在当前实施例中，新型序列的类型可以包括变异新型序列和插入新型序列，变异新型序列存在于参考序列上但表现出与通过重测序重构的目标基因组序列中的参考序列不同，插入新型序列从参考序列单独地插入。

新型序列输出单元260输出关于位置预测单元240预测的新型序列的位置和类型预测单元250预测的类型的信息以及关于新型序列的信息。新型序列输出单元260可以将用于管理基因组序列信息和关于新型序列的信息的数据提供至终端，终端通过显示装置提供基因组序列信息。

图3A是根据本发明实施例的用于描述通过新型序列产生装置200获得的短片段对的构思的图示。

参照图3A，在构成因插入而产生的新型序列的短片段中，根据重测序的结果，与插入区域300对应的短片段没有与参考序列比对上。

因此，为了根据重测序的结果产生(重建)具有没有与参考序列比对上的短片段的新型序列，新型序列产生装置从输入到基因组序列分析系统100中的基因组序列的重测序的结果之中获得：(1)短片段对(在下文中，称作比对上-未比对上短片段对或Mapped^ref-Unmapped^ref短片段对)301，其中，一个短片段(在下文中，称作比对上短片段或Mapped^ref短片段)与参考序列比对上，但另一个短片段(在下文中，称作未比对上短片段或Unmapped^ref短片段)与参考序列未比对上；(2)短片段对(在下文中，称作未比对上-未比对上短片段对或Unmapped^ref-Unmapped^ref短片段对)302，其中，两个短片段都没有与参考序列比对上。

图3B是根据本发明实施例的用于描述由新型序列产生装置200产生的重叠群的构思的图示。

在当前实施例中，当新型序列的长度中等，即，新型序列的整个长度小于成对的短片段之间的插入尺寸的两倍时，可以仅使用通过将比对上-未比对上短片段对中的未比对上片段连接而组装的重叠群305来产生(重建)新型序列(见类型3)。然而，当新型序列的长度长，即，新型序列的整个长度等于或大于短片段对之间的插入尺寸的两倍时，可以仅使用通过将比对上-未比对上短片段对中的未比对上短片段连接而组装的重叠群303和304，在与新型序列的两端对应的基因组序列的外部不产生(重建)新型序列(见类型1和类型2)。因此，在长度长的新型基因组序列中，可以仅在重叠群303和304连接到重叠群306(见类型4)时产生(重建)整个新型序列，其中，通过将未比对上-未比对上短片段对中的未比对上短片段连接来组装重叠群306。

图4是示出根据本发明实施例的产生新型序列和预测关于新型序列的信息的方法的流程图。可以通过图2中示出的基因组序列分析系统100和图2中示出的新型序列产生装置200来执行产生新型序列的方法。因此，将省略对图2中示出的基因组序列分析系统100和图2中示出的新型序列产生装置200的重复描述。

参照图4，首先，通过基因组序列测序来获得输入短片段(操作S410)。

执行用于将在操作S410中获得的输入短片段与参考序列比对上的重测序(操作S420)。

获得分别包括根据操作S420中的重测序的结果而没有与参考序列比对上的至少一个未比对上短片段的短片段对，即，比对上-未比对上短片段对和未比对上-未比对上短片段对(操作S430)。

产生通过将操作S430中获得的短片段对之中的比对上-未比对上短片段对的未比对上短片段连接进行连接而组装的第一重叠群(操作S440)，以及产生通过将操作S430中获得的短片段对之中的未比对上-未比对上短片段对的未比对上短片段进行连接而组装的第二重叠群(操作S450)。

基于操作S440中产生的第一重叠群和操作S450中产生的第二重叠群来产生新型序列(操作S460)。将参照图5A和图5B描述在操作S460中基于重叠群来产生新型序列的详细示例。

预测操作S460中产生的新型序列的位置和类型(操作S470)。这里，可以基于比对上短片段(其来自用于产生新型序列中包括的重叠群的短片段对的短片段并与参考序列比对上)在参考序列上的位置来预测新型序列在参考序列上的位置。在当前实施例中，将参照图6来描述预测新型序列的位置和类型的详细示例。

图5A是根据本发明实施例的基于重叠群产生新型序列的工艺的流程图。图5B是用于描述根据本发明实施例的在新型序列产生过程中确定重叠群是否有效的示例的图示。

参照图5A，确定重叠群是第一重叠群还是第二重叠群(操作S501)。

根据操作S501中确定的结果，当重叠群是第一重叠群时(操作S502)，基于比对上短片段在参考序列上的比对位置和方向性来确定第一重叠群是否有效(操作S503)，其中，比对上短片段包括在与第一重叠群对应的比对上-未比对上短片段对中。

执行操作S503中确定第一重叠群是否有效来筛选与新型序列无关的任意重叠群。由于通过使用比对上-未比对上短片段对的未比对上短片段来产生第一重叠群，所以可以评价比对上短片段在参考序列上的比对位置和方向性，其中，比对上短片段与相应的未比对上短片段成对来用于筛选。

例如，如果比对上短片段的比对位置严格地位于预定距离内并且比对上短片段具有相同的方向性，则可以确定相应的重叠群有效，并且根据比对上短片段的方向性可以确定重叠群是类型1的重叠群303(见图3B)还是类型2的重叠群304(见图3B)。

此外，虽然比对上短片段具有不同的方向性，但如果具有相同方向性的比对上短片段的位置位于预定距离内并且如果具有相同方向性的两个短片段的组，即，比对上短片段的组和未比对上短片段的组彼此不重叠，则可以确定相应的重叠群有效，因此可以确定相应的重叠群是类型3的重叠群305(见图3B)。

这样，根据基于比对上短片段在参考序列上的比对位置和方向性来确定重叠群是否有效的结果，确定无效重叠群是无价值的任意重叠群，因此，在新型序列的产生过程中将无效重叠群排除(筛选)(操作S504)。

然后，针对在操作S503中被确定为有效的第一重叠群来确定比对上-未比对上短片段对的比对上短片段是否具有相同的方向性(操作S504和S505)。如果第一重叠群具有相同的方向性，则通过将第一重叠群和第二重叠群连接来产生新型序列(操作S506)。

如上所述，比对上-未比对上短片段对的比对上短片段的方向性相同的第一重叠群可以分为类型1的重叠群303和类型2的重叠群304(见图3B)，类型1的重叠群303和类型2的重叠群304连接到类型4的重叠群306(即，第二重叠群)(见图3B)来产生长度长的重叠群(新型序列)。

这里，当类型1的重叠群303的后缀(suffix)的序列与类型4的重叠群306的前缀(prefix)的序列重叠时，或者当类型2的重叠群304的前缀的序列与类型4的重叠群306的后缀的序列重叠时，序列可以相互连接。换句话说，当序列以类型1＞类型4＞类型2的顺序相互连接时，或者当序列以类型1＞类型4或类型4＞类型2的顺序彼此重叠时，序列可以相互连接来产生单个长的重叠群(新型序列)。

从操作S504中被确定为有效的第一重叠群当中，基于比对上-未比对上短片段对的比对上短片段的方向性不同的第一重叠群来产生新型序列(操作S507)。

如上所述，比对上-未比对上短片段对的比对上短片段的方向性不同的有效的第一重叠群可以分为类型3的重叠群305(见图3B)，类型3的重叠群305可以是长度中等的重叠群(新型序列)。

操作S506或S507中产生的新型序列可以对应于中等大小的新型序列和长新型序列，或者中等大小的新型序列和长新型序列中的一个。此外，通过提供关于新型序列的信息，可以提供具有更完整结构的目标基因组序列。

图6A和图6B是描述预测根据本发明实施例产生的新型序列的信息的工艺的图示。

在当前实施例中，可以基于比对上短片段在参考序列上的位置来预测关于新型序列的信息(即，新型序列在参考序列上的位置)，其中，比对上短片段来自用于产生新型序列中包括的重叠群的短片段对的短片段中。

参照图6A，通过将与长度中等的新型序列对应的类型3的重叠群与类型1、2和4的重叠群连接而形成的重叠群可以预测新型序列在参考序列上的开始位置601和结束位置602。

然而，与通过将类型1的重叠群和类型4的重叠群连接形成的重叠群对应的新型序列可以仅预测开始位置601，与通过将类型4的重叠群和类型2的重叠群连接形成的重叠群对应的新型序列可以仅预测结束位置602。这里，新型序列在参考序列上的预测的位置可以意味着插入事件发生在由参考序列的相应位置指示的区域中，或者意味着高度趋异的序列(highly divergentsequence)存在于由参考序列的相应位置指示的区域中。

此外，由于包括新型序列的区域具有的比对上短片段的数量通常少于周围区域的比对上短片段的数量，所以相应区域的覆盖的深度(depth ofcoverage)远小于覆盖的平均深度，由于该事实，所以可以基于与新型序列在参考序列上的预测的位置比对上或与参考序列的相应位置指示的区域比对上的比对上短片段的覆盖深度来预测新型序列的类型。

使用利用覆盖深度的拷贝数变异(CNV)算法来执行确定新型序列的类型的方法，下面将进行描述。通过使用CNVnator算法(Abyzov等人，CNVnator：an approach to discover，geno type，and characterize typical and atypical CNVsfrom family and population genome sequencing，Genome research 21：974-984，2011)的一部分来描述当前实施例。然而，这只是以便于描述为目的的示例，本发明不限于此。

将包括在参考序列上的预定距离内的前区和后区并且被预测为具有新型序列的区域设置为目标区域，目标区域分为具有预定大小的小段(bin)以计算比对上短片段的覆盖深度。如CNVnator算法中所示，可以根据覆盖深度和GC含量之间的关系来调整覆盖深度。此外，目标区域分为示出覆盖深度的片段，所述覆盖深度通过使用划分算法而具有不同的图案。

根据当前实施例，由于单个新型序列存在于目标区域中，所以目标区域可分为新型序列区域以及前后相邻区域。由于与相邻区域相比，短片段不会与新型序列区域比对上或不会容易地与新型序列区域比对上，因此，新型序列区域可以具有比相邻区域低的覆盖深度。如果具有较低覆盖深度的新型序列区域具有与预测的新型序列的相应重叠群的长度相似或更长的长度，则可以确定目标区域的新型序列是高度趋异序列类型(在下文中，称作趋异新型序列)，或者如果新型序列区域具有比预测的新型序列的相应重叠群的长度短的长度，则可以确定目标区域的新型序列是插入产生型(在下文中，称作插入新型序列)。

例如，参照图6B，在高度趋异序列存在的区域611中，覆盖深度低的区域可以与新型序列的长度一致地分布。

同时，在插入事件发生的区域612中，由于相应的新型序列在预测的区域中插入到特定的断裂点(break point)中，所以覆盖深度低的区域可以示出为显著窄的区域或者可以不容易区别。

图7是示出根据本发明实施例的通过确定第一重叠群是否有效来对重叠群的类型进行分类的工艺的图示。

参照图7，从产生的重叠区之中，可以根据比对上短片段在参考序列上的比对位置和方向性来筛选每个第一重叠群(类型1、2和3)，比对上短片段与用于产生重叠群的未比对上短片段成对。在当前实施例中，虽然使用了SOLiD测序仪的配对文库，但这仅仅是以便于描述为目的的示例，本发明不限于此。为了筛选重叠群，首先，检测用于产生每个第一重叠群的未比对上短片段的有效性。如果未比对上短片段有效，则成对的比对上短片段的比对位置应该相邻于与其他未比对上短片段成对的比对上短片段的位置。另外，确定未比对上短片段无效，因此，可以筛选重叠群(操作S701)。

此外，成对的F3或R3比对上短片段应该具有相同的链(+或-)。另外，确定短片段为无效，因此可以筛选重叠群(操作S702)。如果每个重叠群包括预定比例或比预定比例多的无效未比对上短片段，则将重叠群确定为无效，因此可以筛选重叠群。

此外，当在与筛选重叠群的同时对第一重叠群的类型分类时，如果与第一重叠群的有效未比对上短片段成对的全部比对上短片段是F3比对上短片段，则如果F3比对上短片段是+链时可以将第一重叠群分类为类型2的重叠群，并且如果F3比对上短片段是-链时可以将第一重叠群分类为类型1的重叠群。

同时，如果与第一重叠群的有效未比对上短片段成对的全部比对上短片段是R3比对上短片段，则如果R3比对上短片段是+链时可以将第一重叠群分类为类型1的重叠群，并且如果R3比对上短片段是-链时可以将第一重叠群分类为类型2的重叠群。

此外，即使与第一重叠群的有效未比对上短片段成对的比对上短片段是F3和R3比对上短片段的混合物，如果F3和R3比对上短片段是不同类型的链，则第一重叠群也可以是类型1或类型2的重叠群。

如果与第一重叠群的有效未比对上短片段成对的比对上短片段是F3和R3比对上短片段的混合物，并且如果F3和R3比对上短片段是相同类型的链，则可以根据F3短片段和R3短片段的比对上区域来确定比对上短片段的有效性和类型(操作S703)。如果F3和R3比对上短片段是+链，则R3短片段的比对上区域应该位于F3短片段的比对上区域的前面。相反，如果F3和R3比对上短片段是-链，则F3短片段的比对上区域应该位于R3短片段的比对上区域的前面。如果满足这些条件，则可以将第一重叠群分类为类型3的重叠群，否则，将第一重叠群确定为无效重叠群，因此可以筛选第一重叠群。

根据当前实施例，第二重叠群(类型4的重叠群)可以连接到来自第一重叠群之中的比对上-未比对上短片段对的比对上短片段的方向性相同的第一重叠群(类型1的重叠群和类型2的重叠群)，因此重叠群可以延伸。

这样，为了连接重叠群，类型1的重叠群的后缀的序列应该与类型4的重叠群的前缀的序列重叠，或者类型1的重叠群的前缀的序列应该与类型4的重叠群的后缀的序列重叠。

为了获得关于重叠群的序列之间的重叠的信息，当前实施例使用计算两个序列之间的最佳局部联配的Smith-Waterman算法(Smith和Waterman，Identification of common molecular subsequences，J.Mol.Biol.，147：195-197，1981)。然而，这仅仅是以便于描述为目的的示例，本发明不限于此。

如当前实施例中所描述的，为了连接重叠群，首先，计算类型4的重叠群与类型1和2之间的联配，并确定该联配是否位于类型4的重叠群的序列所存在的区域中。如果联配存在于一个类型4的重叠群的序列与至少一个类型1或类型2的重叠群的序列之间，则联配分值(alignment score)最大的类型1或类型2的重叠群可以用于类型4的重叠群的连接。

此外，可以将未用于重叠群延伸的类型1或类型2的重叠群以及延伸以提供新型序列在目标基因组序列中的更多信息的重叠群实现为被报告成属于新型序列的部分序列。

根据本发明，产生了目标基因组序列的参考序列所未反映的新型序列，并且可以提供新型序列的信息。此外，可以基于新型序列的信息和传统NGS数据对个别的遗传特征进行深入研究。此外，通过将由重测序重构的目标基因组序列的信息与根据本发明产生的新型序列的信息结合，可以提供具有更完整结构的目标基因组序列。最后，可以获得个别的遗传变异的更详细的信息，这可以帮助开展对定制的基因组序列的开发。

本发明可以实施为在计算机可读记录介质中的计算机可读代码。计算机可读记录介质可以是能够存储计算机系统读取的数据的任何记录装置。计算机可读记录介质的示例包括只读存储器(ROM)、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光学数据存储装置。例如，计算机可读记录介质可以是通过因特网传输数据的载波。计算机可读介质可以分布在通过网络相互连接的计算机系统之间，本发明可以存储并实现为在分布式系统中的计算机可读代码。在本发明所属技术领域中，程序员可以容易地得到用于实施本发明的功能性程序、代码和代码段。

虽然已参照本发明的示例性实施例具体地示出和描述了本发明，但本领域普通技术人员将理解的是，在不脱离由权利要求限定的本发明的精神和范围的情况下，在此可以在形式和细节上作出各种改变。

Claims

1.一种新型序列产生装置，包括：

短片段对获得单元，获得分别包括至少一个未比对上短片段的短片段对，所述至少一个未比对上短片段根据重测序的结果而没有与参考序列比对上，重测序用于将从基因组序列测序仪接收的输入短片段与参考序列进行比对；

重叠群产生单元，产生通过将所获得的短片段对的未比对上短片段进行连接而组装的重叠群；

新型序列产生单元，产生包括来自产生的重叠群之中的至少一个重叠群的新型序列；以及

位置预测单元，预测产生的新型序列在参考序列上的位置。

2.根据权利要求1所述的新型序列产生装置，其中，短片段对包括比对上-未比对上短片段对和未比对上-未比对上短片段对，比对上-未比对上短片段对分别由与参考序列比对上的比对上短片段中的一个与未比对上短片段中的一个的对组成，未比对上-未比对上短片段分别由未比对上短片段的对组成。

3.根据权利要求2所述的新型序列产生装置，其中，重叠群包括一个或多个第一重叠群和一个或多个第二重叠群，通过将比对上-未比对上短片段对的未比对上短片段连接来组装所述一个或多个第一重叠群，通过将未比对上-未比对上短片段对的未比对上短片段连接来组装所述一个或多个第二重叠群。

4.根据权利要求3所述的新型序列产生装置，其中，新型序列包括第一新型序列和第二新型序列，通过将所述一个或多个第一重叠群之中的比对上-未比对上短片段对的比对上短片段的方向性相同的第一重叠群与第二重叠群连接获得第一新型序列，第二新型序列基于比对上-未比对上短片段对的比对上短片段的方向性不同的第一重叠群。

5.根据权利要求1所述的新型序列产生装置，其中，新型序列产生单元基于与产生的重叠群对应的比对上-未比对上短片段对的比对上短片段的比对质量、构成产生的重叠群的短片段的平均碱基质量以及产生的重叠群的长度来筛除产生的重叠群。

6.根据权利要求1所述的新型序列产生装置，其中，位置预测单元基于比对上短片段在参考序列上的位置预测新型序列在参考序列上的位置，比对上短片段来自用于产生新型序列中包括的重叠群的短片段对的短片段之中，比对上短片段与参考序列比对上。

7.根据权利要求1所述的新型序列产生装置，所述新型序列产生装置还包括类型预测单元，类型预测单元基于与新型序列在参考序列上的预测的位置和由所述预测的位置指示的区域比对上的短片段的覆盖深度来预测新型序列的类型，新型序列的类型包括变异新型序列和插入新型序列中的至少一个，变异新型序列存在于参考序列上但表现出与通过重测序重构的目标基因组序列中的参考序列不同，插入新型序列从参考序列单独地插入。

8.根据权利要求7所述的新型序列产生装置，所述新型序列产生装置还包括新型序列输出单元，新型序列输出单元用于输出关于新型序列的预测的位置和预测的类型的信息。

9.一种产生新型序列的方法，所述方法包括：

执行重测序，重测序将通过基因组序列测序获得的输入短片段与参考序列比对；

获得分别包括根据重测序的结果没有与参考序列比对上的至少一个未比对上短片段的短片段对；

产生通过将获得的短片段对的未比对上短片段进行连接而组装的重叠群；

产生包括来自产生的重叠群之中的至少一个重叠群的新型序列；以及

预测产生的新型序列在参考序列上的位置。

10.根据权利要求9所述的方法，其中，获得短片段对包括：

获得比对上-未比对上短片段对，比对上-未比对上短片段对分别由根据重测序的结果的与参考序列比对上的比对上短片段中的一个和未比对上短片段中的一个组成；以及

获得未比对上-未比对上短片段对，未比对上-未比对上短片段对分别由根据重测序的结果的成对的未比对上短片段组成。

11.根据权利要求9所述的方法，其中，产生重叠群包括：

产生通过将比对上-未比对上短片段对的未比对上短片段进行连接而组装的一个或多个第一重叠群；以及

产生通过将未比对上-未比对上短片段对的未比对上短片段进行连接而组装的一个或多个第二重叠群。

12.根据权利要求11所述的方法，其中，产生新型序列包括：

基于与第一重叠群对应的比对上-未比对上短片段对的比对上短片段在参考序列上的比对位置和方向性来确定所述一个或多个第一重叠群是否有效；

通过将来自所述一个或多个第一重叠群之中的比对上-未比对上短片段对的比对上短片段的方向性相同的第一重叠群与第二重叠群连接来产生第一新型序列；以及

基于比对上-未比对上短片段对的比对上短片段的方向性不同的第一重叠群来产生第二新型序列。

13.根据权利要求9所述的方法，其中，预测产生的新型序列的位置包括：基于来自用于产生新型序列中包括的重叠群的短片段对的短片段之中的与参考序列比对上的比对上短片段在参考序列上的位置，预测新型序列在参考序列上的位置。

14.根据权利要求9所述的方法，所述方法还包括基于与新型序列在参考序列上的预测的位置和由所述预测的位置指示的区域比对上的短片段的覆盖深度来预测新型序列的类型，

其中，新型序列的类型包括变异新型序列和插入新型序列中的至少一个，变异新型序列存在于参考序列上但表现出与通过重测序重构的目标基因组序列中的参考序列不同，插入新型序列从参考序列单独地插入。