CN103262086B

CN103262086B - 识别被测序基因组中的重排

Info

Publication number: CN103262086B
Application number: CN201180059581.0A
Authority: CN
Inventors: I.纳扎伦科; A.L.哈尔珀恩; P.卡恩瓦力
Original assignee: Callida Genomics Inc
Current assignee: Complete Genomics Inc
Priority date: 2010-10-11
Filing date: 2011-10-11
Publication date: 2016-11-02
Anticipated expiration: 2031-10-11
Also published as: EP2628117A4; CN103262086A; US20120197533A1; EP2628117A2; WO2012051208A3; WO2012051208A2

Abstract

本发明提供了参照人类基因组参考序列识别被测序基因组的结点（例如，由大规模重排引起）的方法、装置和系统。例如，可以将假阳性与实际结点区分开。这样的假阳性可能由许多原因引起，包括错误映射、样本的DNA分子之间的嵌合反应、和参考基因组带来的问题。作为过滤处理的一部分，可以提供结点的碱基对分辨率（或近碱基对分辨率）。在各种实现中，可以使用失调末端配对和/或将片段的长度分布的统计分析用于样本基因组的局部区域来识别结点。还可以识别在识别临床上有意义的结点，以便可以把进一步的分析集中在对病人的健康可能有更大影响的基因组区域上。

Description

识别被测序基因组中的重排

交叉引用相关申请

本申请要求如下申请的优先权以及是如下申请的非临时申请：2010年10月11日提交的发明名称为“Nucleic Acid Sequencing and Process（核酸测序及处理）”的美国临时申请第61/391805号，在此通过引用并入其全部内容用于一切目的。

本申请还涉及Carnevali等人于2010年4月29日提交的发明名称为“Method AndSystem For Calling Variations In A Sample Polynucleotide Sequence WithRespect To A Reference Polynucleotide Sequence（调用样本多核苷酸序列相对于参考多核苷酸序列的变化的方法及系统）”的共同拥有美国申请第12/770,089号，在此通过引用全文并入其公开文本。

技术领域

本发明的实施例涉及基因组测序，尤其涉及识别基因组中的重排。

背景技术

基因组测序在过去几年中已取得进展。一些方法现在可以在相对较短时段（例如，天）内并且以相对较小成本（小于$10,000）地测序。提供这样速度和效率的一种方法包括使用双末端测序和参考基因组。样本中的核酸片段可以具有其利用相对少量核苷酸（等效碱基对）测序的两端。然后，可以将序列读数的这些末端配对映射到一个或多个参考基因组。末端配对(mate pair)的序列和片段的预期尺寸典型地导致末端配对的末端映射到相互具有特定分离、次序、和取向的地点（定义间隔）。

但是，在一些情况下，一些对不能如所预期地被映射到参考基因组，它们被称为失调对。例如，末端配对的两端每一个都可能映射到参考物，但没有预期的次序、取向和分离，或末端配对的一端可能映射到参考物，但另一端没有。当在样本基因组中相对于参考基因组发生重排时，就可以出现这种情况。发现这样的重排可以提供有价值的诊断和研究信息。例如，重排通常是像癌症那样的疾病的结果，或可以导致得癌症的可能性更大。除了疾病识别之外，重排的准确识别由于像准确跟踪一群人的遗传那样的许多原因而变得很重要，因为重排可能发生在几代以前。但是，从重排中得出失调末端配对时的确定可能是一项艰巨的任务，会出现许多假阳性。

因此，最好是提供准确识别失调对和基因组重排的方法、系统和装置。

发明内容

本发明的实施例可以提供参照人类基因组参考序列对被测序基因组的结点（例如，由大规模重排引起）的识别。一些实施例旨在将假阳性与实际结点区分开。这样的假阳性可能由许多原因引起，包括错误映射、样本的DNA分子之间的嵌合反应、和参考基因组带来的问题。作为过滤处理的一部分，可以提供结点的碱基对分辨率（或近碱基对分辨率）。在各种实现中，可以使用失调末端配对和/或将片段的长度分布的统计分析用于样本基因组的局部区域来识别结点。某些实施例还旨在识别临床上有意义的结点，以便可以把进一步的分析集中在对病人的健康可能有更大影响的基因组区域上。

按照一个实施例，提供了一种在样本基因组与参考基因组之间确定是否存在结点的方法。接收从生物样本中双末端(paired-end)测序多个片段的结果。该结果包括片段的末端配对和该末端配对到参考基因组的映射。一个末端配对包括片段的第一端的第一臂读数和片段的相对端的相应臂读数。根据末端配对到参考基因组的映射识别样本基因组中的结区。该结区包括包含结区的第一边缘的第一边缘部分、包含结区的第二（相对）边缘的第二边缘部分、和第一边缘与第二边缘之间的潜在结点。识别第一臂读数的第一集合，其中每个第一臂读数至少部分映射到第一边缘部分或具有根据各自相应臂读数的映射地点至少部分映射到第一边缘部分的不可忽略概率。将第一集合的第一臂读数的序列相互比较，以确定在结区中是否存在结点。

按照另一个实施例，提供了一种在样本基因组与参考基因组之间确定是否存在临床上有意义结点的方法。接收从生物样本中双末端测序多个片段的结果。该结果包括片段的末端配对和该末端配对到参考基因组的映射。可以确定多个失调末端配对。根据该失调末端配对确定多个潜在结点。获取出现在其他样本基因组中的结点的列表。对于每个潜在结点，将该潜在结点是否在该列表上用于确定该潜在结点是否是临床上有意义结点。在一个方面中，在列表上的潜在结点较不可能是临床上有意义结点。

按照另一个实施例，提供了一种在样本基因组与参考基因组之间确定是否存在结点的方法。根据双末端测序片段获得的映射结果确定多个失调末端配对。根据第一臂读数和相应臂读数的地点聚集失调末端配对。对于第一集群的多个失调末端配对，尝试与失调末端配对的每个臂的参考基因组重新对准。臂的重新对准是在从片段的长度分布中确定的区域中进行的。确定以协调方式对准的第一集群的多个失调末端配对的数量。如果该数量大于阈值，则确定第一群集不存在结点。

本发明的其他实施例针对与本文所述的方法相联系的系统、计算机可读介质、和其他装置。

对包括附图和权利要求书的本说明书的其他部分的引用将实现本发明的其他特征和优点。下面将参照附图进一步描述本发明的进一步特征和优点，以及本发明的各种实施例的结构和操作。在附图中，相同标号可以指示相同或功能上相似的元件。

附图说明

图1是例示按照本发明的实施例识别失调末端配对的方法100的流程图.

图2A示出了按照本发明的实施例以协调方式将末端配对映射到参考基因组的图形。

图2B示出了按照本发明的实施例针对类型（1）和（2）以失调方式将末端配对映射到参考基因组的图形；

图2C示出了按照本发明的实施例针对类型（3）和（4）以失调方式将末端配对映射到参考基因组的图形。

图3是按照本发明实施例的系统的方框图。

图4是按照本发明的实施例在样本基因组中分析失调末端配对以识别潜在结点的方法400的流程图。

图5示出了按照本发明实施例的协调和失调末端配对的数据点的标绘图500。

图6示出了按照本发明的实施例重新对准的区域的例子。

图7示出了按照本发明的实施例分析结区以确定是否存在结点的图形。

图8是按照按照本发明的实施例进行结点集合的方法800的流程图。

图9例示了一个结点连接的样本基因组的两个区域在不同染色体上时的例子。

图10A例示了按照本发明的实施例根据在结区附近和相应臂读数在结区中的第一臂读数在结区中创建可能序列。

图10B示出了按照本发明的实施例在计算期间与一个边界和两个侧翼序列的点结合。

图11A-11C示出了按照本发明的实施例映射到存在重复序列的参考基因组的不同区域的失调末端配对。

图12是例示按照本发明实施例通过识别重复单元识别作为可能假阳性的失调末端配对的方法的流程图。

图13是例示按照本发明的实施例识别共同结点以及使用共同结点过滤样本的潜在结点的方法1300的流程图。

图14是按照本发明的实施例使用片段长度的分布在样本基因组与参考基因组之间确定是否存在结点的方法1400的流程图。

图15示出了可与按照本发明实施例的系统和方法一起使用的示范性计算机系统1500的方框图。

具体实施方式

定义

如下定义可能有助于为理解本发明的实施例提供背景。

“多核苷酸”、“核酸”、“寡核苷酸”、“寡核酸”或本文所用的语法等效术语一般指以线性方式共价连接在一起的至少两个核苷酸。核酸一般包含磷酸二酯键，但在一些情况下，可以包括核酸类似物，核酸类似物具有像亚磷酰胺、二硫代磷酸酯、或甲基亚磷酰胺健合那样的替代主链；或肽核酸主链和健合。其他类似核酸包括具有包含锁定核酸、正主链、非离子型主链和非核糖主链的双环结构的那些。

术语“参考多核苷酸序列”或简称“参考物”指的是参考有机体的核苷酸的已知序列。该参考物可以是参考有机体的整个基因组序列、参考基因组的一部分、许多参考有机体的共有序列、基于不同有机体的不同成分的编译序列、从一群有机体中导出的一批基因组序列、或任何其他适当序列。该参考物还可以包括有关已知在一群有机体中找到的参考物的变化的信息。该参考有机体还可以是正在测序的样本特有的，可能是相关个体或相同个体，并分开画出（可能与补充癌症序列垂直）。

“样本多核苷酸序列”或简称“样本序列”指的是从基因、调节单元、基因组DNA、cDNA、包括mRNAs、rRNAs、siRNAs、miRNAs等的RANs以及它们的片段中导出的样本或目标有机体的核酸序列。样本多核苷酸序列可以是来自样本的核酸、或像扩增反应的产物那样的次级核酸。对于样本多核苷酸序列或多核苷酸片段，从样本多核苷酸（或任何多核苷酸）中“导出”可以意味着通过物理地、化学地、和/或酶促地分段样本多核苷酸（或任何其他多核苷酸）形成该样本多核苷酸/多核苷酸片段。从多核苷酸中“导出”也可以意味着该片段是复制或扩增源多核苷酸的核苷酸序列的特定子集的结果。

如本文所使用，“片段”指的是生物样本中的核酸分子。一些实施例可以进行片段的双末端测序，以便获得每个片段的右臂读数和左臂读数。如本文所使用，“末端配对”或“相伴读数”指的是也称为末端配对的右臂和左臂。“失调对”是当末端配对没有正确取向或未在参考基因组中的预期距离内时所指的。该取向可以用距离前的正号或负号表示。

结点（也称为不连续点）是样本基因组上结点左边的序列和结点右边的序列与它们在参考基因组上的关系相比，具有相同不同的距离、次序或取向的地点（单点或小区）。这种分歧可以出现在链接参考基因组中的两个遥远序列的单个边界地点上（例如，单个碱基对上或之间）。两个遥远序列也可以与它们之间的中间段连接（链接），因此在中间段的末端上存在与结点的两个边界。左右序列可以在不同染色体上或在相同染色体上，但在参考染色体上相隔，例如，5000个碱基对或更多。

“结区”是定义已经识别出潜在地存在结点的区域的围绕结点的区域。结区的边缘可以与结点的边界一致，或可以进一步隔开，其中在结点的边界与结区的边缘之间可以存在边缘区域。

“临床上有意义结点”指的是被识别成相对于一组的其他识别结点，更有可能在病人中引起新的或改变的功能的结点。“集群”用于指具有相似特性，例如，与基因组中可能是结点的相同地点相联系的一组失调末端配对。

“映射”指的是，例如，通过将实例化臂读数与对应于参考物内的地点的索引内的一个或多个关键值匹配，使臂读数与臂读数类似的参考物中的零个、一个或多个地点相关的处理。

详细描述

为了确定有机体的基因组，来自生物样本的片段可以具有它们利用在每个末端上测序的相应少量核苷酸测序的两个末端。然后可以将序列读数的这些末端配对映射到一个或多个参数基因组以确定样本基因组。片段的预期尺寸通常导致末端配对的末端映射到相互具有特定分离、次序和取向的地点。但是，在一些情况下，一些对不能如所预期地被映射到参考基因组，它们被称为失调对。一些实施例也可以规定其他方式来获取失调末端配对或局部映射末端配对，包括：嵌合末端配对、测序错误、错误映射、和末端配对的一端映射到参考物，但另一端没有的状况。当在样本基因组中相对于参考基因组发生重排、或大的插入或删除时，可以出现失调末端配对。

重排地点的准确识别很重要，因为这样的情况通常是像癌症那样的疾病的结果，或者可以导致疾病的可能性更大。这样的重排可以包括，例如，一片染色体2在染色体4的末端上、一节染色体翻转使它具有相反取向、或一片基因组被删除。这样的重排可以引起基因、基因的功能、和从基因中产生的蛋白质丧失。当基因组的一些部分需要相互靠近来执行功能时，也可以丧失一些功能。例如，对于在已表达基因附近的增强子，分离可能引起基因的表达发生变化。此外，由于存在基因组的一些部分变得相互靠近的变化，所以可以发生新的表达或失调。新的功能可能是接通基因，这可能会导致疾病。如果可以识别重排，则可以识别像癌症那样的疾病的性质。因此，较大的插入、删除、复制、和重排的发现可以比小的变化的发现更有价值。也可以实现其他优点。

一些实施例旨在准确识别实际重排和其他大的变化的地点（结点），并区分假阳性。一个实施例可以像在参考基因组中遥远，而在被测序基因组中接近的地点的假想对的列表那样提供结点。在各种实现中，可以使用失调末端配对和/或将片段的长度分布的统计分析用于样本基因组的局部区域来识别结点。某些实施例旨在识别临床上有意义的结点，以便可以把进一步的分析集中在对病人的健康可能有更大影响的基因组区域上。

I.失调末端配对以及结点

图1是例示按照本发明的实施例识别失调末端配对的方法100的流程图。在一个实施例中，失调末端配对可以用于识别潜在结点，这可以经由多种实施例来分析。方法100以及本文所述的其他方法可以全部或部分利用计算机来实现。

在步骤110中，从有机体中获取生物样本。例如，该有机体可以是人类、宠物、家畜、或寻求基因组分析的其他对象。该样本包括核酸分子的片段。该片段可以来自样本基因组中的任何地方。可以对该片段执行像扩增那样的预处理步骤，以制备获取更好结果的样本。

在步骤120中，测序机进行来自样本的片段的双末端测序。测序片段的每端（例如，20-50个碱基对）。片段的一端的每个序列被称为臂读数。两个臂读数统称为末端配对。在一个方面中，两个臂读数可以分别称为左臂读数或右臂读数。左和右的指定是相对的，取决于观察者的取向或为参考基因组选择的坐标系。在另一个方面中，两个臂读数可以称为第一臂读数和相应臂读数。这样的指定可能更一般，因为它不取决于所选取向。

在步骤130中，将每个末端配对的臂读数映射到参考基因组（与其对准）。在一个实施例中，可以使用允许独立搜索左右臂地点的任何对准方法。在一种实现中，保证该搜索可以找到基因组中使臂与至多一个单碱基替代物匹配（失配）的所有地点。另一种实现可以找到存在更多失配（例如，多达五个失配）的一些地点。

图2A示出了依照本发明的实施例以协调方式将末端配对映射到参考基因组的图形。片段200具有一起构成末端配对的左臂读数207和右臂读数209。在末端配对的两个臂读数之间的片段200上存在间隙205。

在该映射中，左臂读数207映射到参考基因组的第一节(section)217，右臂读数209映射到参考基因组的第二节219。臂读数的取向保持相同，臂读数的距离保持近似相同。因此，该映射是协调的。注意，片段的间隙205（如果已知的话）不必与映射到参考基因组210之后第一节217与第二节219之间的间隙恰好匹配。

在步骤140中，可以可选地分析映射结果，以除去某些映射读数。在一个实施例中，将其臂之一和/或两者映射到不止一个地点的所有末端配对排除在进一步分析之外。在另一个实施例中，可以使用映射地点的数量受到限制（例如，小于3个）的末端配对。

在步骤150中，将至少一次协调映射的末端配对排除在进一步考虑之外。一些末端配对可能具有协调和失调映射。可以除去这样末端配对的所有映射。如上面针对图2A所述，协调末端配对与参考基因组一致，因此与结点无关。在一个实施例中，映射在相同链和染色体上和具有正常相配末端间隙(mate gap)的末端配对被认为是协调的。在一种实现中，可以将正常相配末端间隙范围定义成覆盖所有取向一致和染色体一致末端配对的99.5%。

在步骤160中，识别失调末端配对。在一个方面中，如果是映射到主链的左相配末端，或者是映射到互补链的右相配末端，则臂读数“指向前（F）”；否则，我们就认为臂读数“指向后（B）”。末端配对取向可以通过按它们映射到参考物的次序书写相配末端的取向来描述。然后，正常成对臂读数指向对方（FB）。所有异常末端配对可以通过它们的取向被分类成也称为类型的四个组：（1）FB取向，但在错误距离上；（2）BF取向（换句话说，次序颠倒）；（3）FF取向（链失配，I型）；以及（4）BB取向（链失配，II型）。可以证明，被测序基因组相对于参考物的单个不连续点决不会生成多于一种类型的相配末端；但是，一些基因组事件（例如，重排、插入、删除等）生成多个不连续点，例如，反向在反向片段的每一侧上引入断点。

图2B示出了按照本发明的实施例针对类型（1）和（2）以失调方式将末端配对映射到参考基因组的图形。片段225具有左臂读数227和右臂读数229。为了例示类型（1），将左臂读数227映射到参考基因组的染色体1的一节237，将右臂读数229映射到参考基因组的参考染色体2的一节239。因此，237和239不是协调映射。为了例示类型（2），将左臂读数227映射到参考染色体1的一节237，将右臂读数229映射到参考染色体1的一节235。由于小节235和237相对于臂读数227和229是次序颠倒的，所以可以认为小节235和237之间的距离是负的。

图2C示出了按照本发明的实施例针对类型（3）和（4）以失调方式将末端配对映射到参考基因组的图形。为了例示类型（3）和（4），将左臂读数247映射到参考染色体的主链的一节257，将右臂读数249映射到参考染色体的互补链的一节259。由于两个臂读数的取向都是向前（F）的，所以类型（3）是失配的。如果将左臂读数247映射到互补链，将右臂读数249映射到主链，则失配的取向将是BB。

图3是按照本发明实施例的系统300的方框图。系统300可以包括像测序机310、计算机系统330、和数据中心库360那样的多个子系统。在一个实施例中，系统300或特定子系统可以用在本文所述的任何方法中。

测序机310可以接收生物样本305，并对样本中的片段进行测序。可以使用可以进行测序的任何合适机器。可以将测序所得的臂读数作为末端配对提供给数据中心库360，数据中心库360可以存储末端相配读数362。数据中心库360还可以存储参考基因组361的序列，以及计算机系统330的分析结果。在各种实施例中，数据中心库360可以包括如下的一种或多种：硬盘、光盘、DRAM、闪速存储器、或任何其他存储设备。

计算机系统330可以由如下组成：一个或多个通用处理器、可编程逻辑单元（例如，现场可编程门阵列—FPGA）、或专用逻辑单元（例如，专用集成电路—ASIC），它们与配置数据或软件一起可以提供计算机系统330的逻辑单元。在一个实施例中，计算机系统330含有将末端相配读数362映射到参考基因组261以获取映射末端相配读数363的映射逻辑单元331。失调对识别器332可以从映射末端相配读数中确定失调末端配对364。结点识别器333可以从失调末端配对364中或从映射末端相配读数363的其他特性中识别潜在结点。例如，结点识别器333可以进行失调末端配对的聚集，或进行样本基因组的特定区域的长度分布的统计分析。过滤逻辑单元334可以分析结点（潜在地包括失调末端配对、集群、或其他数据），以确定潜在结点是否有效、和/或临床上是否有意义或令人感兴趣。

II.聚集

如上面简要所述，可以聚集失调末端配对以确定潜在结点。该聚集可以识别假阳性的结点、和不是样本基因组中实际变化的结果的失调末端配对。

在步骤410中，接收多个失调末端配对。在各种实施例中，可以按照方法100及其变体确定失调末端配对。在一个实施例中，计算机系统（例如，系统330）可以以表格或列表形式接收失调末端配对。失调末端配对的每个项目可以包括参考基因组中末端配对的每个臂的地点。

在步骤420中，标绘失调末端配对。例如，每个失调末端配对可以对应于二维点（不同维的每个臂读数的地点）。在一个实施例中，由于可视标绘图是不必要的，所以该标绘可能仅仅是确定二维数据点。根据二维数据点，可以确定数据点（末端配对）之间的距离。

图5示出了按照本发明实施例的协调和失调末端配对的数据点的标绘图500。X轴是左臂的地点，Y轴是右臂的地点。因此，每个数据点表示标绘图500中末端配对的位置。假设从左到右扫掠基因组，则左臂读数从零开始，而右臂读数从大于零的某个数值开始。因此，与参考基因组匹配的末端配对应该在从零开始的对角线的上面。

协调末端配对被显示在对角带510中，对角带510一边是从零开始的对角线而另一边在片段的预期长度的范围内。带区510被标记成具有在片段长度分布的高端上、大约700个碱基对的高度。样本基因组和/或参考基因组的长度的统计分布可以用于确定带区的高度，或有效地确定所谓的协调。作为一种例示，协调区525对应于左臂地点520。

当臂读数的两个映射地点之间的间隙距离太大时，在协调区510上面的数据点是类型1的失调末端配对。在这种情况下，那个尺寸的片段将是非预期的，因此末端配对将是失调的和与结点有关。举例来说，这样的结点由插入引起或由使基因组的两个遥远小节链接在一起引起。

在协调区510下面的数据点是类型2的失调末端配对，因为它们是次序颠倒的。左右臂之间的距离是负的。例如，与参考基因组相比，在样本基因组中片段可能是反向的。在另一个例子中，基因组的两个遥远小节可能已经链接在一起。类型3和4的失调末端配对的数据点可以出现在标绘图中任何地方，包括在协调区510中。由于失配是地点在染色体的不同链上，所以两个臂读数可以相隔很远、挨在一起、或处在相反次序上。在一个实施例中，分开聚集不同类型的失调末端配对，其效果是集群的末端配对具有单种类型。

在步骤430中，确定失调末端配对的集群。宽泛地说，一个集群是一组末端配对。在标绘图500中，失调末端配对的集群被显示成相互接近。在一个实施例中，多组末端配对是相互排斥的，因为失调末端配对只在一个集群内，而不是多个集群的一部分。在另一个实施例中，末端配对可以是多个集群的一部分。

在一些实施例中，末端配对之间的距离可以用于确定集群。在一个实施例中，从映射在参考坐标上的末端配对X1、Y1（按定义，X1<Y1）到末端配对（X2，Y2）的距离被定义成max(|X2-X1|,|Y2-Y1|)。在一种实现中，如果这个距离在某个阈值（例如，100bp）以下，则可以认为末端配对是邻居（在相同集群中）。

在一个实施例中，可以按如下进行聚集。将所有失调末端配对表示成“未指定”。对于每个未指定末端配对，寻找它的邻居，然后将末端配对标记成“已指定”。在一种实现中，如果末端配对只有一个或没有邻居，则假设它是随机嵌合体，并转到下一个未指定末端配对。否则，可以将所有相邻末端配对表示成新集群的一部分。集群可以递归地如下扩充。对于集群中的每个末端配对，确定它的相邻末端配对。如果邻域中的末端配对的计数大于阈值（例如，三个），则将邻居加入集群中，并且可以重复该扩充。在一个方面中，根据假阴性和假阳性错误之间的折衷选择用于确定是否将末端配对加入集群中的末端配对的数量。

在其他实施例中，可以使用允许任何相容末端配对组合成单个集群的更积极聚集。在一个方面中，相容性可以定义成可以具有足够高概率地由相同结点引起的任何两个末端配对。在一种实现中，相容末端配对可以是在相同形状，例如，梯形内的数据点。在另一种实现中，相容末端配对可以按如下确定。可以通过确定概率比P(reads|S)/P(reads|R)计算每个潜在集群的置信分，其中P(reads|S)是集群中的所有末端配对来自具有不连续点的基因组的概率（不连续点被选成使P(reads|S)最大），而P(reads|R)是这些读数来自参考基因组的概率。在一个方面中，这种做法考虑了可以将臂与不止一个地点对准的读数。在一个实施例中，针对测序片段的库，可以计算片段长度的分布。给定两个数据点的距离，可以计算它们与相同事件（来自基因组中的相同地点，例如，相同不连续点）一致的概率。在一个方面中，在过去了可以从片段的长度的分布中确定的400或500个碱基对的长度之后，概率可以下降到几乎为零。例如，片段具有大约400或500个碱基对的正常长度。

在一些实施例中，分开聚集每种类型的失调末端配对。例如，只有类型1的失调末端配对可以用于一个聚集过程，集群只由类型1集群形成。下一个聚集过程只能使用类型2的失调末端配对，集群只由类型2集群形成，依此类推。

在最初对每种末端配对类型完成单独聚集过程的实施例中，可以将每个组内的所得集群合并在一起。例如，如果合并集群中没有两个末端配对远过正常末端配对距离，则可以合并不同类型的两个集群。也可以考虑其他聚集准则，例如，平均健合。“正常末端配对距离”可以以如下方式根据末端配对间隙的已知经验确定分布来选择：即对于失调末端配对的集群，正常范围覆盖所有数据点的P=0.995。在一种实现中，P是可调参数，因此可以选择不同值。可以放弃合并之后包含太少末端配对的集群。对于特定类型的聚集，也可以进行这样的放弃。

在步骤440中，根据某些准则过滤出失调对和/或整个集群。在一个方面中，过滤的失调末端配对与假阳性有关。在另一个方面中，其余末端配对是显示从样本基因组到参考基因组可能有重要（例如，有意义）差异的那些末端配对。过滤出失调末端配对包含过滤出集群，因为集群由失调末端配对组成。在各种实施例中，用于过滤的准则可以基于特定末端配对的特性（包括集群的末端配对共同的特性），或基于集群的末端配对的总体特性（例如，像平均值那样的统计值）。

在一些实施例中，一条准则是集群中末端配对的数量。例如，必须存在足够数量的末端配对，以便连续分析；否则，可以将集群排除在进一步分析之外。在一个实施例中，如果集群只有一个或两个末端配对，则这些实施例可以假设是随机嵌合体（嵌合530），并放弃该集群。嵌合可以是作为制备测序用样本的一部分的生化反应期间两个核酸分子组合的假结果。例如，来自基因组的一个部分的片段可以与来自基因组的另一个部分的片段组合。这样的组合不是在样本基因组中，而是发生在用于测序的化学过程期间。由于这是假的，所以通常仅仅在低水平上发生这些嵌合。显示真实事件（例如，基因组中的重排）的片段更常出现，因为它们由实际基因组引起，而不仅仅由于假反应。在另一个实施例中，可以放弃少于指定数量的末端配对（例如，少于2个或3个）的集群。尽管存在数据点可能不是嵌合的结果的足够多邻居，但这些数据点最有可能是随机事件，例如，错误映射。

在其他实施例中，一种准则是集群内数据点的密度。如果集群对应于样本基因组中的实际事件，则在测序结果中应该出现足够密度的数据点。如果集群不对应于真实事件，则由于事件是随机的，所以不是相互接近的数据点。可以计算集群的密度并与阈值相比较。低密度集群535是这样集群的一个例子。在一个实施例中，密度阈值可以从协调区（例如，如图5所描绘）中的数据点的密度中导出。如图5所示，协调末端配对在带区510内，一个数据点在500bp内通常还有另一个数据点。随机事件在两根轴上在大约400或500个碱基对内通常没有邻居。因此，可以将协调区中的数据点之间的密度与失调区中的数据点之间的距离相比较。例如，如果密度太低，则可以确定集群不是真实事件，例如，该集群与嵌合或错误映射有关。在各种实施例中，可以将密度定义成单位面积的点数（可以使用标绘图500中像圆形、梯形等那样的任何形状获得）、特定距离内的邻居数、和与邻居的距离。

在另外的其他实施例中，密度太高（例如，密度值在阈值之上）可以发出人为事件的信号。例如，如果嵌合体经历了扩增（例如，在测序的制备阶段期间），则在集群中可能存在许多数据点。该集群将具有足够的密度，但该密度可能大于另一个阈值。克隆畸变540是这样集群的例子。由于每个扩增的嵌合片段是相同的，所以每个数据点叠在另一个的上面。因此，过滤可以是聚集是否太密。在一个实施例中，只有独特数据点用在聚集中。因此，如果第二或更多数据点与现有数据点相同，则放弃那些数据点（例如，由克隆畸变引起）。这样，可以识别和除去克隆畸变，以便从其余独特数据点中确定失调末端配对的有效集群。在一种实现中，可能与是否放弃复制品无关地需要最小量独特数据点。

一个实施例可以识别在一维中（例如，沿着左或右维）窄的集群，并标记它们（例如，以便放弃）。这样的集群可以由特定错误映射引起。这样的准则可以根据集群内的末端配对的位置关系来规定。例如，沿着集群的一维的映射的第一和最后开始点必须至少是相互隔开的指定距离（例如，50个碱基对）。

在一个方面中，任何过滤准则都可以在确定了每个集群之后或在确定了所有集群之后施加。在一个实施例中，对集群的过滤在附加分析之前进行，以便对于附加分析，需要分析较少数据点。

在步骤450中，从集群中识别潜在结点。在一个实施例中，将某种过滤之后的其余结点识别作为潜在结点。由于失调末端配对相互接近（例如，一般在片段的预期长度之内），所以它们有可能与可能与一个或多个结点相联系的样本基因组的相同小节相联系（如果映射正确的话）。潜在结点可以通过在样本基因组中的相同区域内的参考基因组的一对区域来定义。例如，一个区域可以在集群的左臂读数附近，而另一个区域可以在集群的右臂读数附近，可以将两者当作样本基因组中的相同区域的一部分。聚集还可以规定可以具有足够高概率地由相同不连续点引起的任何两个末端配对在相同集群中。在一个实施例中，结点可以局限于只有一种类型的集群。

在一个实施例中，结点也可以通过聚集相应臂读数未映射到参考基因组的臂读数来确定。因此，与二维相反，聚集也可以是一维的。本文所述的其他方法可以用于识别潜在结点。

一旦识别出潜在结点，就可以进一步过滤潜在结点，例如，以便放弃其他假阳性或识别临床上可能重要的结点。

III.进一步过滤

可以进一步过滤聚集和对集群的任何过滤所得的潜在结点。在一个实施例中，进一步过滤可以有助于降低假阳性比率，以便除去失调末端配对、集群、和/或未反映实际重排或其他不连续性的潜在结点。作为一个例子，假阳性的集群可以从可以引起错误映射的、相似的基因组的两个区域中得出。这样的错误将是随机的，因为错误映射只在少量区域之间。在另一个实施例中，过滤可以识别临床上比其他结点重要的结点。在各种实施例中，可以按任何次序进行过滤，以及可能不进行某些过滤。在一个实施例中，过滤的次序从在计算方面最廉价到较昂贵。

可以将各种准则用于提高推测结点的确定性（即，降低假阳性）。这些准则包括，但不限于，对集群中定义结点的末端配对的数量使用较高阈值、结点集合过程的成功、和在已知不足以出现在参考基因组中的重复体的某些类别，例如，GAATGn中排除落在一侧或对侧的结点。在识别肿瘤样本（例如，经历了诱变复合的样本）的一组假想肉体变化的情况下，可能希望进一步排除结点，以便在从独立的一批“正常（非肿瘤）”样本中得出的结点的类别中一个或两个末端重叠在结点的末端上。

A.重新对准

一些实施例可以尝试重新对准集群的失调对的臂读数。重新对准可以确定协调映射是否是可实现的，以及初始映射或许是错误的，例如，由于对准算法中的过度严格参数。在一个实施例中，识别右臂读数相对于左臂读数应该出现的区域（反之亦然），并对前者进行积极匹配。在一个方面中，这种做法可以检验一下，以保证片段的一端没有一致的错误映射。

图6示出了按照本发明的实施例重新对准的区域的例子。图6示出了左臂读数610和右臂读数620的失调末端配对。如图所示，左臂读数610映射到参考基因组的染色体1，而右臂读数620映射到参考基因组的染色体2。

在一个实施例中，臂读数到参考基因组的初始映射只能允许少数错误（例如，只有两个错误），因此，只有映射的某些可能地点可以得到确定。例如，允许映射在样本基因组与参考基因组之间存在一些跳跃（插删）或失配。但是，对于不同参数，右臂读数620的确有可能映射到染色体1上的协调位置上，例如，右臂映射630。

在一个实施例中，在寻找协调映射是否具有合理概率的尝试中，可以允许重新对准步骤有较多错误。在另一个实施例中，由于尝试映射的区域已经定域在相对于左臂读数610的协调区上，所以可以在计算上花更大力气来确定映射。这种积极映射可以导致要不然检测不到的映射。

于是，通过允许插删（插入和删除）地试图将每个读数与其他臂读数附近的参考物对准，可以进一步过滤该组末端配对。例如，10个顺序碱基的群体可能未映射到参考物，但允许在第一和第二碱基之间插入可以提供对准。可以将单位成本用于单碱基失配和插删，其他计分方案也是可以的，最佳方案取决于测序方法、区域中的已知变化、和如本领域的普通技术人员所知的其他准则。然后可以将总单位成本用于确定是否存在对准。如果臂读数与相对少量的校正物（例如，四个或更少个）对准，则可以放弃末端配对。该放弃可以反映协调映射比失调映射更有可能，或至少协调映射具有末端配对未可靠反映结点的足够概率。

在一个方面中，可以尝试左臂610到与右臂620协调的地点的染色体2的类似重新对准。在另一个实施例中，如果重新对准显示出足够的匹配，则可以从失调末端配对的列表（例如，集群）中放弃末端配对。在一个实施例中，在重新对准步骤之后，可以第一次或再次进行集群中的许多末端配对的过滤。

在进行了重新对准之后，可以重新评估集群，以确定是否仍然存在集群，因此是否仍然存在潜在结点。例如，如果集群的许多失调末端配对被重新对准，则该集群可能不满足一条或多条上述准则。在另一个实施例中，可以将成功重新对准集群的数量用于放弃一个集群的所有末端配对，即使否则的话，该集群将生存下来。例如，如果成功重新对准集群的数量大于阈值，或如果成功重新对准集群的百分比大于百分比阈值，则可以放弃或标记整个集群。

B.结点集合

可以当作过滤的另一个过程是结点集合。可以对怀疑含有结点的任何区域进行集合，以便更准确地确定是否的确存在结点。在一个例子中，可以识别联合要不然相隔遥远或不连接的两片参考基因组的序列，因此确认结点。在一个实施例中，如果取得成功，则结点集合可以提供结点的单碱基分辨率，例如，如通过引用并入的美国专利申请第12/770,089号所述，通过以局部从头开始（LDN）方式重构结点的序列。在另一个实施例中，可以对其他过滤步骤之后剩下的结点进行结点集合。

如上所述，可以将潜在结点识别成在特定区域（结区）之内。由于这个区域相对较小，所以可以集中分析。在一个实施例中，具有映射到结区的不可忽略概率的臂读数（例如，末端配对的相应臂读数的确映射到离结区近似一个末端配对长度的区域）可以用于重构结区。对末端相配的读数进行结点集合，并且可以对任何所得候选序列进行优化处理，例如，如美国专利申请第12/770,089号所述。

图7示出了按照本发明的实施例分析结区705以确定是否存在结点（例如，结点790）的图形。X轴对应于样本基因组的序列。没有Y轴；垂直高度仅仅用于区分不同末端配对。末端配对被显示成具有左右臂和相配末端间隙（弯曲虚线），例如，相配末端间隙711。

在所示的例子中，如小于结区705的结点790所表示，样本基因组的结区705被识别成包含潜在结点。注意，结点790被描绘成结点实际上的确存在时的例子。结区705左边的区域702（被左边缘703分开）包括最初映射到参考基因组的第一节的臂读数。结区705右边的区域707（被右边缘706分开）包括最初映射到参考基因组的第二节的臂读数，其中第二节不与第一节相邻（例如，映射到不同染色体）。因此，在结区705中识别出潜在结点。

图8是按照本发明的实施例进行结点集合的方法800的流程图。为了例示起见，针对图7中的例子描述方法800。方法800可以使用其他方法的结果，例如，来自样本基因组的测序和映射结果。

在步骤810中，识别结区的边缘。在一种实现中，结区可以通过结点边缘来定义，而结点本身通过处在结区的边缘内的结点边界来定义。按照各种实施例，可以将结区识别成样本基因组可能不同于参考基因组的区域。在一个方面中，可以将结区选择成其边缘刚好超出预期是结点边界的地方。

在一个实施例中，像图7的710那样的失调末端配对可以用于确定结点边缘。例如，如上所述，结区的一般区域可以从可能都具有相同取向的失调末端配对的集群中确定。一个或多个末端配对710可以用于确定结点边缘703和706。这些失调末端配对具有与各自区域702和707一致的臂读数。离区域702的右边最远和离区域707的左边最远的臂读数可以定义边缘。在一种实现中，只有相同集群的失调末端配对才用于定义边缘。在一些实施例中，边缘是可以从失调末端配对的集群中、或从一个区域的片段长度的统计分析中估计的边缘区。

在步骤820中，识别具有与左边缘重叠的右臂和与右边缘重叠的左臂的协调末端配对。取代协调末端配对，或除了协调末端配对之外，在初始阶段也可以使用失调末端配对。在一个实施例中，失调末端配对可以具有相同取向。在另一个实施例中，可以将具有不同取向的失调末端配对用于分析相同结区。

在图7中，协调末端配对715具有与适当边缘重叠的臂读数。通过使用协调末端配对，可以在潜在结点的两个侧翼（侧面）上进一步探测结点边界。于是，可以利用认为稍微在结点边界791和792的地点的外面的来自参考物的序列初始化结点；因此，初始图形（参见描述图形的第V节）可以包含与参考序列在结点的两个边界侧翼的部分相对应的两种成分。在一些实施例中，步骤820以及协调末端配对的使用可以是步骤810和结点边缘的识别的一部分。在一个实施例中，结点边缘703、706可以对应于结点边界791、792。

在步骤830中，识别朝着结点的中心的确或可能映射到小节的臂读数。这样，从两个侧翼中进一步探测结点。有贡献末端配对可以是协调的、失调的、或含有一点也没有映射的一个末端配对。随着朝着结区的中心移动得更多，以及取决于节区的尺寸，末端配对协调的可能性可以变小，因此可能需要使用其他末端配对。在一个方面中，对于一个臂读数未映射的末端配对，可以取决于其相对于结区的地点地将已经映射的臂读数识别成左或右臂读数。

在一个实施例中，识别映射到区域702和相应右臂可能映射到结区705的某些左臂读数。例如，根据左臂读数离左边缘703或右边缘706的距离，识别具有处在结区705中的不可忽略可能性（例如，大于0.5%）的相应右臂。样本中的片段的长度的分布可以用于确定距离的哪个范围将有可能让相应右臂映射到结区720。在一个实施例中，可以使用长度分布的特定统计值（例如，平均值）。除了平均值之外，也可以使用长度分布的其他统计值。在另一个实施例中，可以使用遇到特定长度的概率。例如，长度分布可能具有峰值（例如，大约350），以及当片段太小或太大时，遇到一个长度的概率降低，因此，当概率开始变得太小（例如，小于0.5%）时，可以从中确定预期范围（例如，200到400bp）。一旦确定了范围，就可以识别离左边缘703在该距离范围内的左臂读数，以及用在分析中的相应右臂。相应左臂读数可以根据到结区707的右臂映射以相似方式确定。

末端配对720显示了右臂读数在离左臂读数映射到结区705的地方预定距离的地点上映射到参考基因组的例子。但是，末端配对720的左臂读数720a未映射到参考基因组。这种未映射可能由于各种原因。例如，左臂720a可能部分映射到参考基因组的第一节和部分映射到参考基因组的第二节，因此，发现整个序列未映射到参考基因组。作为另一个例子，如果结区包含插入，则左臂720a可能映射到插入序列。这两个例子可能发生在左臂720a与结点边界重叠的时候。在一个实施例中，结点可以仅有一个边界，例如，当基因组的两个远侧点连接在没有大幅度变化的单点上时。在另一个实施例中，结点可以有两个边界，其中样本基因组在边界内相对于参考基因组是不同的。例如，使参考基因组的两个区域在样本基因组中彼此相邻的过程也可以导致在结点处插入或修改另外的序列。

在步骤840中，可以确定在未映射到结区的臂读数（例如，协调对）和可能映射到结区的臂读数之间是否存在相似性。在其他实施例中，只确定可能映射的臂读数之间的相似性，如下所述，这可以提供从在结点的一侧上的参考序列开始的集合，并到达在结点的另一侧上的参考序列。在一个实施例中，相似性在重叠区中可以是精确的匹配，或者是存在少量差异的匹配。这样的比较可以有助于确定臂读数是否提供了有关结区的新信息（例如，如果臂读数与边缘重叠，但提供了朝着结区的中心的另外序列）。例如，一种比较可以确定在两个臂读数重叠的点上左臂读数720a的确具有与左臂读数715a的相似性。这样的相似性测试可以确认左臂读数720a的地点，因为事先不知道确切地点。在另一个实施例中，可以通过将臂读数与如从分析臂读数中确定或从结点边缘以外的参考基因组中获得的可能序列相比较来确定相似性。

在一个实施例中，相似性测试可以使用对准或优化处理，例如，如美国专利申请第12/770,089号所述。各种做法的例子包括重叠-布局-共识、迪布恩（de Bruijn）图、基于图形、最短公共子序列、和串图。相似性测试的结果可以是从结区的边缘到中心的有可能出现在样本基因组中和在结点的侧翼的两个序列的建立。可以确定和使用可能映射到结区705的多个左右臂读数，例如，末端配对740的臂读数。

在步骤850中，可以确定是否合并两个序列。在一些实施例中，可以利用跨越两个侧翼序列和与侧翼序列的末端相似的臂读数确认合并，从而完成从一个边缘到另一个边缘的序列。在一个实施例中，如果该过程导致将两种初始成分合并成单种成分的图形，则认为“成功了”，连接两种成分的一条或多条路径提供了有关基因组区域的序列的假设，其中参考基因组的两个远侧区在感兴趣的样本中接近。可以对这样的初始假设进行优化处理。

在另一个实施例中，可以在相同步骤期间分析的确和/或可能映射到结区的一组臂读数，以确定臂读数是否相似到足以创建有可能跨越结区的序列。在这样的实施例中，可能确定了或也可能未确定侧翼序列，并且可以以最终可以在结区中构建可能序列的任何次序或方式确定臂读数之间的相似性。在又一个实施例中，如果两个序列未合并而是沿着任一个方向继续下去，则可能简单地不存在结点，以及结点集合显示出与参考基因组的一致性。

在步骤860中，如果在结区中确定了可能序列，则将结点标记成可能结点。在一个实施例中，该标记可以是成功与否的二元结果。在另一个实施例中，该标记可以提供序列的可能性的得分。任一种标记都可以，例如，与本文所述的其他过滤一起用在是否的确存在结点的最终判定中。

在步骤870中，如果方法800未能识别出可能序列，则该过程可以在不同地点上开始初始化。例如，可以将结点边缘向外移得更远些或向内移得更近些。在一个实施例中，如果该过程未导致初始成分的合并，则通过使用参考物的附近部分初始化该图形重复该过程。这样的过程可以提供结点边缘的末端配对导出估计中的抗错性以及结点边界附近的小序列变化。例如，可以尝试从每个初始边缘开始的-30，-20，-10，+10，+20，+30地点的碱基。如果在尝试这样的可替代地点之后未取得成功，则可以认为结点集合“失败了”。

在步骤880中，如果结点集合失败了，则可以将潜在结点标记成可能无效，例如，假阳性。在一个实施例中，可以从潜在结点的列表中除去该结点。例如，可以放弃与该结点相联系的集群。在另一个实施例中，可以将该标记用作确定有可能存在还是的确存在结点的因素。

图9例示了一个结点连接的样本基因组的两个区域在不同染色体上时的例子。参考基因组的染色体1被显示成水平线。样本基因组被显示成出发时与染色体1一致、但在结点905的左边界903上开始发散的线。因此，结点905将染色体1的区域902与染色体2的区域907连接。如图所示，可以认为结点905周围的结区的边缘对应于结点边界，或为了易于表示起见，并未示出边缘。

映射到区域902的左臂读数被显示成用虚线画出的方框。如图所示，左臂可以相互重叠。与左臂读数相对应的右臂读数被显示在结点905中以及在区域907中。如上所述，这些右臂读数可以用于从参考基因组2开始追溯直到找到边界，然后可以用于确定边界中的序列。

右臂读数被显示成从区域907开始前进，朝着与染色体1的连线直到样本基因组。可以集合右臂读数来提供结点中的可能序列。如本文所述，也可以使用可能在结点905中的左臂读数。结点可以是单点，以便区域902和907之间的连线更加陡峭（像阶跃函数那样）。尽管方法800提及最初使用与左边缘或边界重叠的右臂读数，但也可以将左或右臂读数用于结点或结区的任何部分。

在一个实施例中，结点中的序列的确定是一种从头开始计算，因为参考基因组对结点没有贡献，而仅仅用于确定将实际被测序片段用于确定序列的边界。在一个方面中，这种从头开始计算可以是有效的，因为只分析小部分基因组，以及只能包括整个末端配对数据集的小部分。

图10A例示了按照本发明的实施例根据在结区附近和相应臂读数在结区中的第一臂读数在结区中创建可能序列。末端配对被显示成具有在结区1005的外部的第一臂读数和在结区1005中的相应臂读数。注意，第一和相应臂读数的使用反映了末端配对与感兴趣区域的关系，使得末端配对的任一个臂可以起第一或相应臂读数的作用。相应臂读数被显示成组合起来创建作为结区1005中的可能序列的相连序列。为了易于表示起见，只示出了几个相应臂读数，而实际上可能使用许多臂读数。

箭头1010示出了至少一些相应臂读数重叠、因此可以比较臂读数的地点和碱基对以确定可能序列的地方。在一个实施例中，如果相应臂读数足够一致（例如，以超过阈值的精确匹配），则可以确定可能序列。取决于匹配的一致性，可能序列可以具有精确的可变可能性。在一个实施例中，在一个碱基的精度内知道可能序列可以区分非常不同功能后果；例如，可以揭示两个基因是否聚集“在框架中”（可以得出可感觉蛋白质产品）。

图10B示出了按照本发明的实施例在计算期间的结点和两个侧翼序列。结点显示在结区的中间，左右边缘部分在结点的两侧。两个侧翼序列与不同区域（区域1和2）上的参考染色体匹配。两个侧翼序列可以从方法800的实施例中计算出来。箭头表示正在从结区的边缘到结点集合序列。

在一个实施例中，可以使结区（结点边界内的序列）从左右蠕升，以便最终的结区较小（例如，大约10bp）。由于实际上并未测序所有基因组，所以可以得出结点的这种有限尺寸，因此预期存在未知序列的一些区域。在一种情况下，如果一个或多个臂读数跨过结点，则可以导致单个边界。在一个实施例中，与结点的确切尺寸无关，可以充分缩小可以确定结点的重要功能方面和后果的尺寸（以及来自获得的结区的信息）。

结点集合可以以多种方式失败。一种方式是如果发现没有（或仅有几个）相应臂在结区中，因此暗示连接区域1和区域2的初始末端配对可能不是正确数据点。在各种实施例中，结点集合过程成功还是失败可以取决于确定的序列的精度、结区中臂读数的数量、结区的尺寸等。此外，如果未发现过渡，例如，可能序列与参考基因组一致，则暗示失调的数据点（失调末端配对）可能是错误的。在另一个实施例中，将结区确定得有多好可以提供在以后的分析中可以用于排序或过滤的置信分。

C.除去重复序列

在一个实施例中，对潜在结点的过滤使用重复序列（也称为重复单元）来识别可能假阳性。重复序列是常出现在基因组，例如，参考基因组中的共有序列。重复序列可以从现在是基因组的一部分、以及如果处在基因的中间则可以是破坏性的古老病毒中得出。短穿插核元素（例如，Alu）和长穿插核元素是出现在整个人类基因组中的共有序列。

可能知道某些重复不适合出现在人类基因组中。此外，可能有很多重复序列人们不能确切知道它们所在的地方。重复单元带来的这些问题可以导致映射中的人为事件。例如，序列A可能与第一染色体中的序列B（可以是重复单元）有关，而B也可能出现在另一个染色体中。映射算法可能会出错，将第一染色体中的A与其他染色体中的B连接，例如，当A在第一臂读数中而B在相应臂读数中时。

图11A示出了映射到存在重复序列的参考基因组的不同区域的失调末端配对。参考基因组的区域1（例如，第一染色体）可以是错误失调末端配对的地点，导致潜在结点被错误识别。失调对的左臂A映射到结区1105的左侧。失调对的右臂映射到参考基因组的区域2（例如，第二染色体），尤其映射到区域2中的重复单元B。因此，识别出结区1105。

但是，重复单元B也存在于结区的右侧。于是，映射也许是错误的，因为右臂已经映射到区域1上的协调地点。因此，即使可能更合适映射到区域1，右臂也有很大可能被错误映射到区域2。因此，由于右臂实际上源于区域1，所以并不真正存在结点。通过将结点的一侧识别成牵涉到某个类别的重复单元，可以将这样的结点识别成可能假阳性。在一个实施例中，可以在，例如，对区域1尝试对准的重新对准步骤中识别假阳性。

构成重复序列的东西可以通过数据库中序列的列表来定义。可以将列表中的这些重复序列与可能结区中或附近的参考基因组相比较。在一个实施例中，可以将特定重复单元的列表识别成在参考基因组中不适合表示的那些重复单元。不适合表示的例子可以是当实际重复序列在参考基因组中表现独特时。因此，当映射时，将不识别其他可能映射。一个实施例使用某些类别的重复体来识别可能存在错误映射问题的有问题失调对。重复体的示范性类别包括：ALR/Alpha、(GAATG)n、HSAT4、HSATII、LSU-rRNA_Hsa,和SSU-rRNA_Hsa。

图12是例示按照本发明实施例通过识别重复单元识别作为可能假阳性的失调末端配对的方法的流程图。在步骤1210中，识别潜在结点。该结点可以通过本文所述的任何实施例确定。可以将该结点识别成在如边缘定义的结区内。

在步骤1220中，获取重复单元的列表。在各种实施例中，从数据库、RAM、或高速缓存、或其他适当存储器中获取该列表。可以将列表中的重复单元与映射和/或识别结点时的问题相联系。在一个实施例中，用户可以选择使用哪些重复单元来使用，这可以发生在提供建议列表之后。在另一个实施例中，将列表设置成默认的，不能加以改变。

在步骤1230中，确定重复单元是否在潜在结点附近。在一种实现中，可以在结点附近搜索列表中的每个重复单元。在一些实施例中，当在结点的指定个碱基对内时，可以认为重复单元在附近。在一个实施例中，可以在识别结区之后执行步骤1230，以及可以将结区的边缘用于确定是否存在重复单元。在一个例子中，可以简单地从失调对的集群（相对较大区域）中或从结点集合中识别结区，从而提供相应较小结区。可以在结区中分析参考基因组。如果结区或相邻区域（例如，如通过距离截止所定义）包含来自列表的重复序列，则错误映射的可能性可能会很大。在一个实施例中，需要末端配对的映射的足迹（覆盖范围）与重复注释区域之间的重叠来提供对步骤1230的肯定响应。

在图11A的例子中，重复单元B将被识别成在结区1105附近。在一个实施例中，如果找到所识别单元，则可以将结点标记成可以导致作为假阳性放弃掉的可能假阳性。

在步骤1240中，确定所识别重复单元是否与失调末端配对的臂读数相似。这个步骤可以作为一种检验来完成，以便看看重复单元在结点附近的事实是否是确定末端配对失调的可能原因。例如，在图11A中，可以加以检验来确定重复单元B是否与右臂读数相似。由于映射的右臂的确包含重复单元B（或反过来），所以存在错误映射的可能性。但是，如果所识别重复单元与相应臂读数不相似，则不大可能错误映射。相似性可以通过知道参考基因组中可以找到重复单元的地点、以及确定失调末端配对是否映射到那个区域来确定。

在步骤1250中，如果的确存在相似性，则可以标记失调末端配对。可以根据这种因素或与其他结果结合放弃标记的失调末端配对。在一个实施例中，可以将失调对标记成牵涉到重复单元。然后其他过程可以使用这个信息来确定是否进行进一步分析或是否应该放弃该对（可能使用来自其他分析的其他信息）。臂读数与重复单元有多相似，或参考基因组的一部分与重复单元有多接近可以是确定是否应该拒绝失调对的置信分的因素。

在一个实施例中，如果的确存在其他失调末端配对并且与所识别重复单元不相似，则可以确定不将该结点标记成假阳性或放弃该结点。但是，与该结点相联系的集群的所有、大多数、或某个阈值量的失调末端配对具有包含在该结点附近识别的重复单元的臂读数，则可以标记或放弃该结点。在又一个实施例中，可以使用臂读数是否包含重复单元（和可能地，臂读数是否足够长）的确定，而无需识别重复单元是否在结点附近。

图11B例示了错误映射到存在重复序列的参考基因组的一个区域的另一种失调末端配对。如图所示，样本基因组和参考基因组两者含有作为末端配对的左臂读数的真正源头的重复体1120的复制品，以及另外的复制品。在这个例子中，也许由于源复制品中样本基因组与参考基因组之间的小序列变化，存在到重复体1130的错误映射（未找到正确映射）。但是，在重新对准阶段，可以确认正确地点。于是，在一个方面中，不生成集群。

图11C例示了从重复体的插入中得出的另一种失调末端配对。样本基因组含有重复单元的附加复制品1140。当将一条臂在额外复制品中而另一条臂在外部的末端配对映射到参考基因组时，可以将来自重复体内部的臂映射到存在于参考基因组中的重复体的事例1150。在这个例子中，尝试与参考物重新对准将无法产生该对的协调映射。如果几个末端配对都发生这种情况，则可以生成一个结点相联系的集群。在一个实施例中，可以利用结点集合分析该集群，并且可以识别重复体。一个臂读数对应于包含指定重复体类别之一的参考物的一个区域的事实可以使该结点被标记或过滤掉。该标记可以为进一步分析创造条件，以确认的确存在或不存在结点，而该过滤可以提供更迅速的判定；但插入重复体的事例在临床上可能没有什么意义。

E.划基线

在一个实施例中，可以对存在共同错误（假阳性）的结点或共同到足以使结点不可能在临床上有意义的有效结点检验过滤。在不同样本之间可以重新出现共同假阳性，例如，当在参考基因组中存在某种不精确性时，或在共同错误映射的情况下。后者可以是出现在健康人群当中某个部分的人口中的实际结点，因此一般不具有临床重要性（例如，涉及罕见疾病）。一个实施例不区分两种类型的结点，如果临床上无意义结点是非所希望的，则这是可以接受的。

图13是例示按照本发明的实施例识别共同结点以及使用共同结点过滤样本的潜在结点的方法1300的流程图。方法1300可以与任何其他过滤结合在一起执行，或单独完成。在一个实施例中，识别共同结点的初始步骤完全可以在当前样本的任何分析之前。

在步骤1310中，在多个样本的每一个中识别潜在结点。潜在结点可以使用本文所述的任何实施例来识别。也可以将任何数量的其他过滤用于区别假阳性。在一个实施例中，将相同方法用于每个样本地识别潜在结点。

在一个实施例中，可以将结点定义成参考物的两个小节的连接点。因此，对于通过结点连接的参考基因组的两个小节，列表项可以含有两个条目。在另一个实施例中，将结点存储成结区的边缘或结点的实际边界。在一种实现中，可以存储结点的取向，其中该取向对应于用于识别结点的失调对的类型。像将臂读数的最接近（最内部）地点用于失调末端配对的集群，使用来自结点集合的边界，以及使用特定区域的长度分布那样，本文描述了确定边缘或边界的实施例。

在步骤1320中，确定在多个样本之间相似的结点的列表。在一个方面中，可以将这个列表用作经常出现在人口中的结点的近似。在一个实施例中，该列表可以一次性获取，因此是静态的。在另一个实施例中，该列表可以是动态的，因为可以随时间，例如，周期性地将另外的样本用于更新该列表。

在一个实施例中，相似性的确定（测试）不需要结点的地点的确切匹配。可以将一条或多条准则用于确定两个结点是否足够相似。例如，结点的地点可以在阈距离之内，例如，在可以是大约500bp的一个末端配对长度之内。在一种实现中，阈距离对于每个边缘都可以是独立的，即，无论哪个边缘都可以相差多达500bp。也可以要求结点的类型匹配。在一种实现中，准则可以与用于确定失调末端配对是否与描述相同结点（例如，应该属于相同集群）相容的准则相同或具有相同类型。

在步骤1330中，识别出现在足够多个样本中的相似结点以获取共同结点的列表。在一个实施例中，可以在分析新样本期间获取这个列表。在另一个实施例中，可以在分析新样本之前获取这个列表，然后可以将该列表存储在任何适当存储单元中。

在一些实施例中，将阈值用于确定足够多个结点是否相似到足以被分类成与单个结点相对应的组。在各种实施例中，该组可以通过存储该组中的每个结点、存储代表性结点、或存储像平均地点或地点的范围那样，描述该组的参数来存储。在一个实施例中，该阈值可以是用于创建列表的样本的绝对数（例如，在1与5之间）或该数字的比例值。如果使用比例和更新列表，则可以在各种更新时间将一些结点加入列表中，然后除去一些结点。

在一个实施例中，可以使列表中的结点局限于染色体间结点。基因组中的染色体间事件的数量通常较小，因此当在两个或更多个样本中时，非常不可能且可以认为是错误。但是，如果该错误是随机的，则大多数末端配对将是染色体间的（一般大于90%）。因此，映射中的错误最有可能是染色体间的。

在一个实施例中，不执行步骤1320和1330，而是将每个结点加入列表中。在这样的实施例中，可以稍后解决结点的相似性问题。

在步骤1340中，对新样本识别潜在结点。这些结点可以按与在步骤1310中识别的结点相同或不同的方式识别。

在步骤1350中，确定与列表的已知结点相似的新样本的潜在结点。在一个实施例中，可以将新潜在结点与列表中的结点相比较。关于步骤1330，不需要精确的比较。例如，可以使用相似准则来确定新样本的结点是否与列表上的结点足够相似。

在步骤1360中，标记在列表上找到的潜在结点。在该列表包括以前识别的所有结点的实施例中，在确定是否过滤结点（例如，标记）中评估找到的相似结点的数量。可以使用可以用于创建相似结点的列表的相同准则（如上面针对步骤1320所述）。在另一个实施例中，在已经组合了结点但记录了对一个组有贡献的原始结点的数目的情况下，那个数目可以是标记的一部分。

可以根据这种因素或结合其他结果（例如，其他过滤的结果）放弃标记的结点。在一个实施例中，可以将标记用在另一种分析中。例如，在一些重排中，由于牵涉到基因组的总共四个部分，所以可以在两个地方出现结点。例如，1-2和3-4的序列可以变成1-4和3-2。如果在两个方向看到染色体间事件，则结点更有可能变成识别真正事件。因此，可以将额外数据与步骤1360的结果一起使用。在一个实施例中，这样的额外数据以及对结点的相互关联的分析可以用在创建列表中。在另一个实施例中，列表可以是有条件的，因为如果找到第一结点，则确定在样本基因组中是否也存在相应结点，其中相应结点的存在将表示该结点实际上不是假阳性。在另一个实施例中，可以用与通常找到结点的样本的比例有关的得分标记潜在结点。

F.窄集群

另一个实施例可以查看失调末端配对的集群的形状，以确定该集群是否有可能是假阳性。例如，如果一个集群非常窄，则该集群有可能由围绕小变化的错误映射引起。该变化可以是样本和基因组之间的小变化。因此，由于映射变化，在这种变化点上的臂读数不会适当映射到参考基因组的那个部分。

查看图5，集群550示出了出现在窄带中的数据点。如上所述，集群550可以由围绕小变化的错误映射引起。例如，有变化的第一臂读数可能映射（尽管存在某种低置信度）到参考基因组的另一个部分。因此，相应臂读数与错误映射臂读数之间的距离是不正确的。由于相应臂读数的地点受相配末端间隔长度的统计偏差影响，该结果是在一维上是窄的一组点。由于在集群中具有足够高的密度，所以以前的聚集过滤可能未摆脱这些发生事件。在一个方面中，可以通过重排步骤将这样的错误映射减少一些。在一个实施例中，处在窄集群中的失调末端配对不可能在结点集合方面取得成功。

在一些实施例中，窄集群的测试准则是沿着标绘图500上的单个方向，例如，水平或垂直的一维。在一个实施例中，沿着集群的一维的映射的第一和最后开始位置必须至少是相互隔开的指定距离（例如，50个碱基对）。

G.绝对的或作为一种因素

本文所述的任何过滤在性质上可以是绝对的，或只能作为一种因素用作最终确定的一部分以便使结点包括在最终列表中。在一些实施例中，如果某些准则未得到满足，则绝对过滤可以放弃失调末端配对、集群、或结点。例如，可以将密度更高的集群作为单源克隆放弃掉。在另一个实施例中，仍然将密度用作一种因素，例如，如果密度接近截止值，例如，刚好在其上面或刚好在其下面，则可以标记而不是放弃该集群。

在其他实施例中，可以将过滤处理的结果与其他过滤处理的结果或其他准则一起使用。例如，无论结点、集群或失调末端配对是否满足特定准则（例如，如本文所述的过滤）都可以与过滤处理的结果一起使用，其中两者仅仅是因素而不是决定性的。在一个实施例中，任何过滤处理都可以提供假阳性有多可能（或不可能）的置信分。然后例如以加权和形式求和这些得分，其中某些过滤大于其他地被加权。然后将最终和与阈值相比较来确定如何分类结点、集群、和/或失调末端配对。

在一个实施例中，对于对结点进行的每种分析的结果，每个潜在结点有一列。然后可以分析这些列，以确定结点是否被显示给用户、被存储在可能结点的文件中、或要不然指示成可能结点。在另一个实施例中，将不同准则用于不同样本或结点。例如，研究人员可能想找出人的肿瘤与常规基因组之间的新的差异。如果这样的话，则研究人员可能想让弱支持结点包括在正常样本中。但是，来自肿瘤的样本将有可能得到更严格的过滤。

H.过滤的组合

如上所述，可以使用过滤的任何组合。在一个实施例中，按如下次序使用如下过滤。使用失调末端配对确定集群。放弃与单源克隆一致和与太少失调末端配对一致的集群。对于其余集群，为集群的失调末端配对尝试重新对准。可以对重新对准生存下来的集群（例如，失调末端配对可能未重新对准）进行结点集合、重复单元的测试、划基线、集群有多窄的确定。可以根据结果（例如，及格/不及格或得分）标记经过这些过滤处理的结点，并且可以就结点是否有可能存在作最终确定。

IV.其他变化的识别

到现在为止，结区的识别主要集中在失调末端配对的的使用上。但是，其他方法也可以用于识别可以包含结点的区域。任何识别方法都可以与本文所述的任何适当过滤机制一起使用。

A.长度分布

图14是按照本发明的实施例使用片段长度的分布在样本基因组与参考基因组之间确定是否存在结点的方法1400的流程图。例如，方法1400可以对特定区域分析片段的长度，以识别是否存在结点，例如，插入还是删除。

在步骤1410中，根据末端配对的映射确定每个片段的预期长度。在一个实施例中，可以在末端上测序样本的每个片段以提供臂读数的末端配对。然后可以将臂读数映射到参考基因组。根据映射的地点，能够确定片段的长度。在一个实施例中，只使用具有适当取向（即，FB）的片段。在另一个实施例中，可以将长度非常短或非常长的片段作为可能，例如，由假生化事件或错误映射引起的异常值放弃掉。

在步骤1420中，对来自整个样本基因组的片段计算第一长度分布。在一个实施例中，可以将长度分布确定成在每个长度上提供片段的数量的直方图。在另一个实施例中，长度分布可以是长度数据的函数拟合。这样的直方图或函数拟合通常具有大多数片段具有平均长度的钟形分布。由于统计偏差，这样的分布不同程度地偏离理想化分布。

在又一个实施例中，长度分布简单地可以是可以从中计算统计值的长度的无序列表。除了当前样本的长度分布之外，也可以为其他样本获取长度分布，因为可以假设长度分布是相似的。

在步骤1430中，对映射到参考基因组的特定区域的片段计算第二长度分布。如在下文的例子中所述，片段可以按多种方式映射到特定区域。在一个实施例中，特定区域可以经由基因组中的预定开始和结束地点来定义。在各种实现中，如果臂读数之一至少部分映射到特定区域，则在特定区域中可以包括片段。如果臂读数之一完全在特定区域之内，则在特定区域中可以包括片段。可以要求片段完全映射在特定区域内。在另一个实施例中，一个区域通过跨过基因组中的特定地点的末端配对来定义。例如，可以使用具有在地点的一侧上的臂读数和在地点的相对侧上的另一个臂读数的末端配对。

在一些实施例中，可以扫过不同特定区域，并为每个区域确定不同分布。各种区域可以具有相同长度或不同长度、或以不同方式（例如，以上述的方式）定义。例如，该方法可以使用1000个碱基对长（或更长）的区域。一旦扫过从一条链的开头开始的初始区域，就可以使区域前进，例如，设置数量的碱基对（例如，50个碱基对）。在一个实施例中，可以在基因组中的许多地点的每一个上，例如，每50个碱基对地确定分布。

在步骤1440中，为第一长度分布计算第一统计值，为第二长度分布计算第二统计值。在各种实施例中，统计值可以是平均长度、中间长度、具有最大数量片段的长度、出现长度的概率的某种标准偏差内的范围、或从分布的长度中导出的任何其他值。

在步骤1450中，当两种分布充分不同时，将特定区域识别成包括结区。在一个实施例中，可以将第一统计值与第二统计值之间的差值与阈值相比较，以便看一看是否超过阈值。在一些实施例中，该差值可以是平均长度的简单相减。在其他实施例中，像相减值的函数或各种值的两个函数的相减那样，可以使用更复杂的差值。在一种实现中，将差值取成绝对值，然后与阈值相比较。因此，从何值中减去何值可能不会改变对阈值的超过。但是，差值的符号可以暗示结点的特定类型。

作为一个例子，当在样本基因组中发生插入时，会得出较大正差值。该插入使片段显得更长，因为一些臂读数将映射到插入点的左侧，相应臂读数将映射到插入点的右侧。类似地，删除可以导致较大的负差值。这里简单地使用“正号”和“负号”来显示插入和删除的相反趋势。取决于用于差值计算的公式，任一种符号都可以暗示插入或删除。

在一个实施例中，可以在区域的扫掠期间通过识别为差值提供局部最大值的特定区域确定特定区域的地点。这样，与每一个都可能包括结区的许多区域相反，可以使结点的地点变窄到仅仅一个区域。于是，在一个实施例中，可以为不同区域计算多个另外长度分布和相应统计值。如上所述，每个区域可以通过与样本基因组的特定部分重叠的片段来定义。可以将统计值之间的差值最大的区域识别成潜在结点的地点，因为那是一组相邻区域当中示出最大差值的区域。然后可以从最大的特定区域中确定结区。在特定区域通过跨过该地点的末端配对来定义的实施例中，可以从长度分布中确定结区。例如，结区可以以该地点为中心，并且可以具有可以容纳以不可忽略概率（例如，大于0.5%）存在的片段长度的总尺寸。作为另一个例子，可以标绘多个特定区域的差值，这种差值标绘图的形状可以提供结区的估计。例如，差值标绘图可以含有可以标记结区的尺寸的高原区域或超过阈值的区域。

在一些实施例中，使用长度分布可以找出相对较小长度可变变化（例如，大约100bp）。这样的小变化由于变化小而可能无法经由失调末端配对检测到。在一个实施例中，可以在基因组中经过每个点而分析末端配对长度的分布。在另一个实施例中，可以使用结点集合来确定整个所识别结区中的序列。

B.插入转位子的识别

个体的基因组含有可能与参考基因组不同、在各种位置上的公用可转位单元。转位子是自我复制序列。如果存在转位子的插入，则将存在映射到参考基因组的许多左臂读数以及映射到转位子的右臂读数。这些右臂读数由于转位子未处在参考基因组中的地点上而未映射到参考基因组。此外，将存在在插入的另一侧上的右臂以及映射到插入位置的左臂。于是，在一个实施例中，可以通过调查臂读数的浓度与参考物不匹配、但与转位子序列匹配的区域而搜索公用可转位单元的新地点。本文所述的过滤和集合方法可以用于提高预期转位子插入的精度。

V.结点集合的计算特性

如上所述，结点集合可以根据在结区附近的映射臂读数的地点，从的确映射到结区或可能映射到结区的臂读数中重构结区中的可能序列。从臂读数中组装可能序列可能牵涉到优化处理。

在一个实施例中，为了建立优化过程，已经识别了可以对有效（结）区中的集合有贡献的臂读数池，例如，DNA纳米球（DNB）的臂读数池。这个概念由使用这个DNB池在感兴趣区域中进行序列的从头开始组装组成。

基于迪布恩图的以前的现有组装方法应用于没有间隙的连续读数，因此不能直接用于从具有可变间隙的末端相配读数中进行从头开始组装。简要地说，基于迪布恩图的现有组装方法包括选择组装长度n_c<l，其中l是读数长度。构建每个顶点对应于存在于至少一个读数中的长度n_c的序列的图形。然后，如果如下两个条件都成立，则创建顶点V₁与顶点V₂之间的有向边：1）与顶点V₂相联系的序列可以通过除去其第一碱基和在末端上添加新碱基从与顶点V₁相联系的序列中获得。这是迪布恩图的边的定义。与这样的边相联系的是由与顶点V₁相联系的序列的前n_C个碱基加上与顶点V₂相联系的序列的最后碱基组成的n_C+1个碱基的序列；以及2）存在包含与有向边相联系的序列的至少一个读数。

例如，假设选择了n_C=5以及存在长度6的如下读数：CTACGA、TACGAC、ACGACT。然后我们可以构建如下迪布恩图：CTACG->TACGA->ACGACG->CGACT。

按从上到下次序，可以将三个样本读数与图边相联系。通过图形中的简单跟随路径可以获得组装序列。杂合事件和组装不确定性可以用图形中的分支表示。长度大于n_C的重复体像环那样表示它们自己—也就是说，有向图不再是非周期性的。

如果接受只有单独l-碱基读数（例如，10），则这样的过程可以用在序列臂上。但是，在一个实施例中，左右臂每一个都可以包括4个连续读数，4个连续读数的每个又包含三个10-碱基读数和一个5-碱基读数。因此，上面是不可接受的，因为它具有忽略了每条臂的5-碱基读数的5个碱基的作用，更重要的是，未使用有关单条臂中10-碱基读数的存在所暗示的10-碱基读数的相对位置的信息。

在一个实施例中，按如下修改了迪布恩图过程，以处理间隙可变读数。

对于迪布恩图，该处理包括选择大于读数的长度l的组装长度n_c，例如，近似30个碱基。使用结区中的参考序列G₀，将图形初始化成具有顶点而不是具有边。将该图形配置成包含与顶点相联系的n_c个碱基长度的序列和与边相联系的n_c+1个碱基的序列。

在一个实施例中，只有当我们至少拥有至少部分和没有太多失配地映射到与边相联系的序列的臂的最小数量时，才允许将那个边加入图形中。在另一个实施例中，然后可以使用局部DNB索引寻找允许递归地将另外顶点和边缘加入图形中的DNB臂。在大多数情况下，这个递归过程表现良好。但是，在一些情况下，生成的顶点和边的数量可以成指数发散。

于是，在一个实施例中，将新顶点加入按顶点长度排序的优先级队列中，其中顶点长度基于暗示顶点的存在的映射末端相配读数的数量、以及它们映射到顶点的质量。在递归过程的每个步骤上，从优先级队列中除去最高优先级顶点，并就构建到或出自那个顶点的新边的能力加以测试。当队列变空，使得没有另外的边和顶点可以加入图形中时，或可替代地，当已经创建了某最大数量的顶点时，结束递归过程。

当完成时，列举图形中沿着开始于和结束在G₀中的第一和最后地点上的边的路径。每条路径为优化过程提供新的种子序列。如果总共找到n_p条路径，包括与那个有效间隔中的参考序列相对应的路径，则总共有种子序列的p的（n_p/p）种组合，其中p是结区中的多倍性。

对种子序列的每种组合计算概率L(G)。然后将启动顺序假设具有最大概率L(G)（例如，前3）的路径又用作优化过程的启动序列假设。另外，也总是将由所有p个等位基因的参考物组成的等位基因组合用作种子。这限制了必须进行的优化的数量，在迪布恩图很复杂以及n_p很大的情况下，这是很重要的。

VI.计算机系统

本文所述的任何计算机系统都可以利用任何适当数量的子系统。这样的子系统的例子显示在图15中的计算机装置中。在一些实施例中，计算机系统包括单个计算机装置，其中子系统可以是计算机装置的部件。在其他实施例中，计算机系统可以包括含有内部部件、每一个都是子系统的多个计算机装置。

显示在图15中的子系统经由系统总线1575互连。图中示出了像打印机1574、键盘1578、固定盘1579、与显示适配器1582耦合的监视器1576等那样的附加子系统。与I/O控制器1571耦合的外围和输入/输出（I/O）设备可以通过像串行端口1577那样、在现有技术中已知的任何个器件与计算机系统连接。例如，串行端口1577或外部接口1581可以用于将计算机系统1500与像互联网那样的广域网、鼠标输入设备、或扫描仪连接。经由系统总线1575的互连使中央处理器1573可以与每个子系统通信和控制来自系统存储器1572或固定盘1579的指令的执行，以及子系统之间的信息交换。系统存储器1572和/或固定盘1579可以具体化成计算机可读介质。本文所述的任何数值都可以从一个部件输出到另一个部件并可以输出给用户。

计算机系统可以包括，例如，通过外部接口1581或通过内部接口连接在一起的多个相同部件或子系统。在一些其他实施例中，计算机系统、子系统、或装置可以在网络上通信。在这样的情况下，一台计算机可以被认为是客户机，另一台计算机可以被认为是服务器，其中每一台都可以是相同计算机系统的一部分。客户机和服务器每一个都可以包括多个系统、子系统、或部件。

具体实施例的特定细节可以不偏离本发明实施例的精神和范围地以任何适当方式组合。但是，本发明的其他实施例也可以针对涉及每个单独方面的特定实施例、或这些单独方面的特定组合。

应该明白，本发明的任何实施例都可以以模块或集成方式使用硬件和/或使用计算机软件地以控制逻辑的形式实现。根据本文提供的公开和教导，本领域的普通技术人员将知道和懂得使用硬件以及硬件和软件的组合实现本发明的实施例的其他方式和/或方法。

描述在本申请中的任何软件部件或功能可以实现成由处理器使用，例如，传统或面向对象的技术地使用像例如Java、C++或Perl那样的任何适当计算机语言执行的软件代码。该软件代码可以作为一系列指令或命令地存储在用于存储和/或传输的计算机可读介质上，适当的介质包括随机存取存储器（RAM）、只读存储器（ROM）、像硬盘驱动器或软盘那样的磁介质、像致密盘（CD）或DVD（数字多功能盘）那样的光介质、闪速存储器等。计算机可读介质可以是这样存储或传输设备的任何组合。

这样的程序也可以被编码和使用适合经由包括互联网、遵守各种协议的有线、光、和/或无线网络传输的载波信号来传输。这样，可以使用这样的程序被编码在上面的数据信号创建按照本发明实施例的计算机可读介质。可以将程序代码被编码在上面的计算机可读介质可以与兼容设备一起封装，或分开地从其他设备提供（例如，经由互联网下载）。任何这样的计算机可读介质都可以驻留在单个计算机程序产品（例如，硬盘驱动器、CD、或整个计算机系统）上或内，并且可以存在于系统或网络内的不同计算机程序产品上或内。计算机系统可以包括监视器、打印机、或向用户提供本文所述的任何结果的其他适当显示器。

本文所述的任何方法都可以全部或部分利用配置成执行这些步骤、包括处理器的计算机系统来执行。因此，这些实施例可以针对配置成执行本文所述的任何方法的步骤、潜在地含有执行各自步骤或各自步骤组的不同部件的计算机系统。尽管展示成编号步骤，但本文的方法的步骤可以同时或按不同次序执行。另外，这些步骤的一些部分可以与来自其他方法的其他步骤的一些部分一起使用。此外，所有或部分步骤可以是可选的。另外，任何方法的任何步骤都可以利用模块、电路、或执行这些步骤的其他手段来执行。

上面为了例示和描述的目的给出了本发明的示范性实施例的描述。这并不是打算穷举或使本发明局限于所述的确切形式，可以根据上面的教导作出许多修改和改变。选择和描述实施例是为了最佳地说明本发明的原理及其实际应用，从而使本领域的其他普通技术人员能够最佳利用各种实施例中的本发明以及如适合于所设想的具体使用的各种变型。

“一个”、“一种”或“该”的叙述预计有“一个或多个”的意思，除非另有明确指出。

上面提及的所有专利、专利申请、公告、和描述通过引用全文并入本文中用于所有场合。均没有被承认为是现有技术。

Claims

1.一种在样本基因组与参考基因组之间确定是否存在结点的方法，结点是样本基因组上结点的第一侧的序列和结点的第二侧的序列与它们在参考基因组上的关系相比，具有不同的距离、次序或取向的地点，所述样本基因组属于提供生物样本的有机体，所述方法包含：

从生物样本接收双末端测序多个片段的结果，该结果包括片段的末端配对和该末端配对到参考基因组的映射，其中一个末端配对包括片段的第一端的第一臂读数和片段的相对端的相应臂读数；

根据末端配对到参考基因组的映射识别样本基因组中的结区，该结区包括：

包含结区的第一边缘的第一边缘部分；

包含结区的第二边缘的第二边缘部分，第一边缘与第二边缘相对；以及

第一边缘与第二边缘之间的潜在结点；

识别第一臂读数的第一集合，其中每个第一臂读数至少部分映射到第一边缘部分或具有根据各自相应臂读数的映射地点至少部分映射到第一边缘部分的不可忽略概率；以及

将第一集合的第一臂读数的序列相互比较，以确定在结区中是否存在结点，其中当第一集合的第一臂读数与在参考基因组的第一区域中开始和在参考基因组的第二区域中结束的序列不一致时，确定不存在结点。

2.如权利要求1所述的方法，其中各自相应臂读数在第一边缘部分附近或在第二边缘部分附近的地点上映射到参考基因组。

3.如权利要求1所述的方法，其中第一集合包括协调末端配对的第一臂读数。

4.如权利要求1所述的方法，其中当各自相应臂读数根据片段长度的统计分布处在预期长度范围内时，第一臂读数具有至少部分映射到第一边缘部分的不可忽略概率。

5.如权利要求1所述的方法，其中该比较通过如下步骤来进行：

识别映射到第一边缘的第一集合的一个或多个第一臂读数的初始子集；然后

着手寻找包括朝着潜在结点的碱基对、与初始子集的第一臂读数重叠的第一集合的一个或多个其他第一臂读数；以及然后

将所述其他第一臂读数与参考基因组相比较以确定所述其他第一臂读数是否包括结点。

6.如权利要求1所述的方法，进一步包含：

识别第一臂读数的第二集合，其中每个第一臂读数至少部分映射到第二边缘部分或具有根据各自相应臂读数的映射地点至少部分映射到第二边缘部分的不可忽略概率，其中第二集合的第一臂读数的各自相应臂读数在第二边缘部分附近的地点上映射到参考基因组；以及

比较第二集合的第一臂读数的序列，以确定在结区中是否存在结点。

7.如权利要求6所述的方法，其中至少一个第一臂读数至少部分映射到第一边缘部分和第二边缘部分两者，或具有至少部分映射到第一边缘部分和第二边缘部分两者的不可忽略概率。

8.如权利要求7所述的方法，其中在接收的结果中至少一个第一臂读数未映射到参考基因组。

9.如权利要求6所述的方法，进一步包含：

比较第一集合和第二集合的第一臂读数的序列，以确定结区内样本基因组的结点序列；以及

通过如下步骤识别结点序列是否包括结点：

将结点序列与参考基因组相比较，以确定结点序列在参考基因组中是否未表现出连续的。

10.如权利要求9所述的方法，其中如果结点序列在参考基因组中是连续的，则确定不存在结点。

11.如权利要求9所述的方法，其中第一集合和第二集合的第一臂读数相似到足以提供概率大于阈值的结点序列。

12.如权利要求9所述的方法，其中该结点在结点序列偏离参考基因组的地方。

13.如权利要求1所述的方法，其中识别潜在结点包括：

确定一组失调末端配对，每个失调末端配对包括映射到参考基因组的第一区域的第一臂读数，第一区域在第一侧上结区的外部，以及每个失调末端配对包括在结区相对于第一侧的对侧上不同的地点上映射到参考基因组的相应臂读数。

14.如权利要求13所述的方法，其中确定该组失调末端配对包括：

根据映射结果确定多个失调末端配对；

根据第一臂读数和相应臂读数的地点聚集失调末端配对以获得多个集群，其中集群含有具有相似特性的失调末端配对；以及

从集群之一的失调末端配对中确定该组失调末端配对。

15.如权利要求14所述的方法，其中多个失调末端配对包括不同类型的失调末端配对，该不同类型包括：

相配末端间隙大于阈值的末端配对；

次序不正确的末端配对；以及

具有不适当取向的末端配对，其中对失调末端配对的类型的每种类型分开进行聚集。

16.如权利要求14所述的方法，其中确定该组失调末端配对进一步包括：

对于每个集群，根据第一臂读数和相应臂读数的地点确定集群中失调末端配对的密度；以及

识别密度超过规定密度值的失调末端配对的集群，其中该组失调末端配对由所识别集群之一的失调末端配对组成。

17.如权利要求1所述的方法，其中识别潜在结点包括：

根据末端配对的映射确定每个片段的预期长度；

对来自样本基因组的片段计算第一长度分布；

对映射到参考基因组的特定区域的片段计算第二长度分布；以及

当第一长度分布的第一统计值与第二长度分布的第二统计值之间的差值超过阈值时，将特定区域识别成至少包括结区的一部分。

18.如权利要求17所述的方法，其中识别特定区域包括：

确定各自差值超过阈值的多个特定区域；

确定多个特定区域中具有局部最大差值的第一特定区域；以及

使用第一特定区域来定义结区的第一和第二边缘。

19.如权利要求17所述的方法，其中在第一和第二长度分布的均值之间取该差值。

20.如权利要求17所述的方法，其中第二长度分布相对于第一长度分布移动到较小长度表示特定区域中的删除。

21.如权利要求17所述的方法，其中第二长度分布相对于第一长度分布移动到较大长度表示特定区域中的插入。

22.如权利要求17所述的方法，进一步包含：

对不同区域计算多个另外长度分布；

计算所述另外长度分布的多个另外统计值；以及

将具有第一统计值与各自统计值之间的最大差值的区域识别成潜在结点的地点。

23.如权利要求22所述的方法，其中每个区域通过与样本基因组的不同部分重叠的片段来定义。

24.一种在样本基因组与参考基因组之间确定是否存在临床上有意义结点的方法，该样本基因组属于提供生物样本的有机体，结点是样本基因组上结点的第一侧的序列和结点的第二侧的序列与它们在参考基因组上的关系相比，具有不同的距离、次序或取向的地点，该方法包含：

确定多个失调末端配对；

根据该失调末端配对确定多个潜在结点；

获取已出现在其他样本基因组中的结点的列表；

对于每个潜在结点：

确定该潜在结点是否在列表上；以及

至少根据该潜在结点是否在列表上确定该潜在结点是否是临床上有意义结点，其中在列表上的潜在结点较不可能是临床上有意义结点。

25.如权利要求24所述的方法，进一步包含：

根据参考基因组的两个部分的地点确定潜在结点是否临床上有意义。

26.如权利要求24所述的方法，其中第一潜在结点将参考基因组的第一部分与参考基因组的第二部分连接，该方法进一步包含：

对于第一潜在结点，搜索参考基因组的第一部分和/或第二部分中的重复单元，该重复单元是参考基因组中重复的序列；

根据第一和第二部分是否包含重复单元确定第一潜在结点是否是临床上有意义的结点，其中当第一和第二部分的确包含重复单元时，潜在结点较不可能是临床上有意义的结点。

27.如权利要求26所述的方法，其中搜索的重复单元属于重复单元的类别的特定集合。

28.如权利要求26所述的方法，进一步包含：

当对潜在结点识别重复单元时，确定识别的重复单元是否与潜在结点的失调末端配对的一个或多个臂读数相似，

其中确定第一潜在结点是否是临床上有意义结点基于识别的重复单元是否与一个或多个臂读数相似。

29.一种在样本基因组与参考基因组之间确定是否存在结点的方法，该样本基因组属于提供生物样本的有机体，结点是样本基因组上结点的第一侧的序列和结点的第二侧的序列与它们在参考基因组上的关系相比，具有不同的距离、次序或取向的地点，该方法包含：

根据映射结果确定多个失调末端配对；

根据第一臂读数和相应臂读数的地点聚集失调末端配对以获得多个集群，其中集群含有具有相似特性的失调末端配对；

对于第一集群的多个失调末端配对，尝试执行与失调末端配对的每个臂的参考基因组重新对准，臂的重新对准是在从片段的长度分布中确定的区域中进行的；

确定以协调方式对准的第一集群的多个失调末端配对的数量；以及

如果该数量大于阈值，则确定第一集群不存在结点。

30.如权利要求29所述的方法，进一步包含：

对于每个集群，根据第一臂读数和相应臂读数的地点确定集群中失调末端配对的密度；

放弃密度低于规定密度值的失调末端配对的集群，从而确定放弃的集群不存在结点。

31.如权利要求29所述的方法，进一步包含：

对于每个集群，沿着至少一维确定两个臂之间的最大距离；以及

当最大距离小于规定值时放弃集群。

32.一种包含至少一个处理器和有形计算机可读介质的计算机系统，该有形计算机可读介质存储控制处理器执行在样本基因组与参考基因组之间确定是否存在结点的操作的多条指令，该样本基因组属于提供生物样本的有机体，结点是样本基因组上结点的第一侧的序列和结点的第二侧的序列与它们在参考基因组上的关系相比，具有不同的距离、次序或取向的地点，该指令包含如上面任何一项权利要求所述的方法的步骤。

33.一种包含配置成执行如上面任何一项权利要求所述的方法的步骤的一个或多个处理器的系统。