CN110622250A

CN110622250A - 用于检测插入和缺失的方法和系统

Info

Publication number: CN110622250A
Application number: CN201880031749.9A
Authority: CN
Inventors: 马尔辛·西科拉; 穆罕默德·R·穆赫塔里; 达里娅·丘多瓦
Original assignee: Guardant Health Inc
Current assignee: Guardant Health Inc
Priority date: 2017-05-19
Filing date: 2018-05-18
Publication date: 2019-12-27
Also published as: WO2018213814A1; EP3625713A1; JP2020521216A; US20230335219A1; US20240006022A1; US20190371432A1; JP2023139307A

Abstract

用于通过以下步骤来改进插入和/或缺失的判定的方法和系统：在来自核酸测序仪的序列读段中识别具有相同分子条形码和序列的遗传序列读段，将遗传读段分组到族(family)中，以及处理包括分裂读段(split read)的族以检测多核苷酸分子样品中的插入和/或缺失。

Description

用于检测插入和缺失的方法和系统

交叉引用

本申请要求2017年5月19日提交的第62/509,003号、2017年5月22日提交的第62/509,699号和2017年5月25日提交的第62/511,186号美国临时申请的权益，其中每个申请通过引用以其全部并入本文。

背景

遗传变体，如插入、缺失、取代、重排和拷贝数变异可能与疾病相关。下一代测序技术或高通量测序可用于检测遗传变体。准确识别遗传变体对于在识别与疾病相关的遗传变体中使用下一代测序技术至关重要。

遗传变体诸如插入和缺失代表人类基因组中仅次于单核苷酸多态性的第二常见的遗传变体类别。插入和/或缺失也有助于疾病的发病机制、基因表达和功能。

概述

在一方面中，本公开内容提供了一种系统，所述系统包括：(a)通信接口，所述通信接口通过通信网络接收由核酸测序仪生成的遗传序列读段；以及(b)与所述通信接口通信的计算机，其中所述计算机包括一个或更多个计算机处理器和包括机器可执行代码的计算机可读介质，所述机器可执行代码在被所述一个或更多个计算机处理器执行时实现一种方法，所述方法包括：i.通过所述通信网络接收由所述核酸测序仪生成的遗传序列读段；ii.处理所述遗传序列读段以生成经处理的序列读段；iii.将所述遗传序列读段映射到参考序列；iv.将所述经处理的序列读段分组到族中，每个族包括源自样品中的相同多核苷酸分子的独特序列读段；v.将所述族的至少一部分分组到融合簇中，每个融合簇包括分裂读段，其中每个分裂读段包括与映射到第一遗传基因座的第一断点相邻的第一子序列和与映射到第二不同遗传基因座的第二断点相邻的第二子序列，并且其中所述第一断点和所述第二断点形成断点对；以及vi.在以下情况下，将融合簇判定为包括插入和/或缺失：断点对映射到相同的染色体，所述断点对中的所述第一断点和所述第二断点之间的距离小于参考序列上的预定的最大距离，并且子序列处于相同的5’-3’定向。在一些实施方案中，系统还包括在(vi)中的上述标准中的至少一个不被满足的情况下，将融合簇判定为具有融合。在一些实施方案中，系统还包括生成电子报告，所述电子报告提供多核苷酸分子包含插入、缺失和/或融合的指示。

在一些实施方案中，在参考序列上具有相同开始-终止位置的经处理的序列读段被分组到一个族中。在一些实施方案中，遗传序列读段包括成对的末端序列读段。在一些实施方案中，具有重叠区域的成对的末端序列被合并，以生成包括合并读段的经处理的读段。在一些实施方案中，具有重叠区域的成对的末端读段被合并，所述重叠区域具有至少70％的同一性。在一些实施方案中，具有重叠区域的成对的末端读段被合并，所述重叠区域具有至少80％的同一性。在一些实施方案中，具有重叠区域的成对的末端读段被合并，所述重叠区域具有至少90％的同一性。在一些实施方案中，具有至少13个碱基的重叠的成对的末端读段被合并。在一些实施方案中，具有至少15个碱基的重叠的成对的末端读段被合并。在一些实施方案中，具有至少17个碱基的重叠的成对的末端读段被合并。在一些实施方案中，具有至少19个碱基的重叠的成对的末端读段被合并。

在一些实施方案中，具有重叠区域的成对的末端序列被合并以形成合并读段，并且其中合并的序列读段被进一步处理以生成经处理的读段，所述经处理的读段包含代表性的、合并的、独特读段。在一些实施方案中，所述族的至少一部分包括多个分裂读段(splitread)。在一些实施方案中，系统还包括生成包括多于一个分裂读段的每个族的共有序列。在一些实施方案中，分裂读段是从每个族生成的共有序列。

在一些实施方案中，融合簇内的分裂读段的第一断点彼此之间的距离小于10个核苷酸，并且融合簇内的分裂读段的第二断点彼此之间的距离小于10个核苷酸。在一些实施方案中，分裂读段是族的共有序列。

在一些实施方案中，预定的最大距离小于5,000个核苷酸。在一些实施方案中，预定的最大距离小于3,500。

在一些实施方案中，族还包括：(a)具有相同开始位置和相同的经压缩的终止序列的经处理的读段，或(b)具有相同终止位置和相同的经压缩的开始序列的经处理的读段。

在一些实施方案中，经压缩的开始/终止序列通过压缩整体的独特序列读段以去除均聚物中的重复核苷酸生成。在一些实施方案中，均聚物包括聚(dA)或聚(dT)。在一些实施方案中，均聚物包括聚(dG)或聚(dC)。

在一些实施方案中，样品包括无细胞DNA。在一些实施方案中，参考序列是人类参考序列。在一些实施方案中，核酸测序仪是下一代测序仪。在一些实施方案中，评估成对的末端序列读段的质量，以生成质量评分。

在一些实施方案中，计算机可读介质包括存储器、硬盘驱动器或计算机服务器。在一些实施方案中，通信网络包括电信网络、互联网、外联网或内联网。在一些实施方案中，通信网络包括能够进行分布式计算的一个或更多个计算机服务器。在一些实施方案中，分布式计算是云计算。

在一些实施方案中，通信网络包括存储设备，所述存储设备包括遗传序列读段。

在一些实施方案中，计算机位于远离核酸测序仪定位的计算机服务器上。

在一些实施方案中，系统还包括通过网络与计算机通信的电子显示器，其中所述电子显示器包括用于在实施(i)-(vi)后显示结果的用户界面。在一些实施方案中，用户界面是图形用户界面(GUI)或基于网络的用户界面。在一些实施方案中，电子显示器是个人计算机。在一些实施方案中，电子显示器在启用了互联网的计算机中。在一些实施方案中，启用了互联网的计算机位于远离计算机的位置。

在另一方面中，本公开内容提供了一种计算机实施的方法，所述方法用于检测遗传序列读段中的插入和/或缺失，所述方法包括：(a)用计算机处理器接收从核酸测序仪生成的多核苷酸分子的遗传序列读段；(b)用所述计算机处理器处理所述遗传序列读段以生成经处理的序列读段；(c)用所述计算机处理器将所述经处理的序列读段映射到参考序列；(d)由所述计算机处理器将所述经处理的序列读段分组到族中，每个族包括源自样品中相同多核苷酸分子的独特序列读段；(e)由所述计算机处理器将所述族的至少一部分分组到融合簇中，每个融合簇包括分裂读段，其中每个分裂读段包括与映射到第一遗传基因座的第一断点相邻的第一子序列和与映射到第二不同遗传基因座的第二断点相邻的第二子序列，并且其中所述第一断点和所述第二断点形成断点对；(f)在以下情况下，由所述计算机处理器将融合簇判定为包括插入和/或缺失：i.断点对位于所述参考序列的相同的染色体上，ii.所述断点对中的所述第一断点和所述第二断点之间的距离小于所述参考序列上的预定的最大距离，以及iii.子序列处于相同的5’-3’定向。在一些实施方案中，方法还包括：(g)在(f)中的至少一个标准不被满足的情况下，由所述计算机处理器将融合簇判定为包括融合。

在一些实施方案中，本文公开的系统和方法包括如果第一子序列和第二子序列与参考序列相比处于正常的基因组顺序，则将融合簇判定为缺失。在其他实施方案中，本文公开的系统和方法包括如果第一子序列和第二子序列与参考序列相比处于相反的基因组顺序，则将融合簇判定为插入。

在一些实施方案中，遗传序列读段包括成对的末端序列读段的集合。在一些实施方案中，处理包括：i.合并成对的末端序列读段以形成合并读段。在一些实施方案中，处理还包括：ii.将具有相同条形码和相同内部序列的合并读段的合集(collection)分组到独特集合中；以及iii.生成每个独特集合的经处理的序列读段。在一些实施方案中，具有重叠区域的成对的末端序列读段被合并，以形成合并的序列读段。在一些实施方案中，具有重叠区域的成对的末端序列读段被合并，所述重叠区域具有至少60％的同一性。在一些实施方案中，具有重叠区域的成对的末端读段被合并，所述重叠区域具有至少70％的同一性。在一些实施方案中，具有重叠区域的成对的末端读段被合并，所述重叠区域具有至少80％的同一性。在一些实施方案中，具有重叠区域的成对的末端读段被合并，所述重叠区域具有至少90％的同一性。在一些实施方案中，具有至少13个碱基的重叠的成对的末端读段被合并。在一些实施方案中，具有至少15个碱基的重叠的成对的末端读段被合并。在一些实施方案中，具有至少17个碱基的重叠的成对的末端读段被合并。在一些实施方案中，具有至少19个碱基的重叠的成对的末端读段被合并。

在一些实施方案中，融合簇内分裂读段的第一断点彼此之间的距离小于10个核苷酸，并且融合簇内分裂读段的第二断点彼此之间的距离小于10个核苷酸。在一些实施方案中，预定的最大距离小于5,000个核苷酸。在一些实施方案中，预定的最大距离小于3,000个核苷酸。

在一些实施方案中，基于具有相同的一对分子条形码，将经处理的读段分组到族中。在一些实施方案中，基于映射到参考序列上的相同位置，将经处理的序列读段分组到族中。

在一些实施方案中，族中的经处理的序列读段包括：(a)具有相同开始位置和相同的经压缩的终止序列的序列读段，或者(b)具有相同终止位置和相同的经压缩的开始序列的序列读段。在一些实施方案中，经压缩的开始序列或经压缩的终止序列通过将经处理的序列读段的一部分压缩以去除均聚物中的重复核苷酸生成。在一些实施方案中，均聚物包括聚(dA)或聚(dT)。在一些实施方案中，均聚物包括聚(dG)或聚(dC)。

在一些实施方案中，基于分裂读段具有彼此在预定断点距离内的断点，将族分组到融合簇中。在一些实施方案中，预定断点距离小于25个核苷酸。在一些实施方案中，预定断点距离小于10个核苷酸。

在一些实施方案中，分裂读段是对每一个包括分裂读段的族生成的共有序列。在一些实施方案中，基于分裂读段具有彼此在预定断点距离内的断点，将共有序列分组到融合簇。在一些实施方案中，预定断点距离小于25个核苷酸。在一些实施方案中，预定断点距离小于10个核苷酸。

在一些实施方案中，参考序列是人类参考序列。在一些实施方案中，核酸测序仪是下一代测序仪。

在一些实施方案中，样品是从受试者获得的体液。在一些实施方案中，体液选自由血液、血浆、血清、尿液、唾液、粘膜分泌物、痰、粪便和泪液组成的组。在一些实施方案中，受试者患有癌症。在一些实施方案中，样品包括无细胞DNA。

在一些实施方案中，还包括以电子格式生成，其提供多核苷酸分子具有插入和/或缺失和/或融合的指示。该方法还包括以电子格式生成，其提供多核苷酸分子具有插入和/或缺失和/或融合的指示。

在另一方面中，本公开内容提供了一种方法，所述方法包括：(a)将多核苷酸分子的遗传序列读段映射到参考序列；(b)识别包括分裂读段的遗传序列读段，其中每个分裂读段包含与映射到第一遗传基因座的第一断点相邻的第一子序列和与映射到第二不同遗传基因座的第二断点相邻的第二子序列，并且其中所述第一断点和所述第二断点形成断点对；(b)将所述分裂读段分组到族中，每个族包括源自样品中相同多核苷酸分子的序列读段；(d)生成每个族的共有分裂读段序列；(e)将每个族的共有分裂读段序列分组到融合簇中，其中所述融合簇内的共有序列具有相似的断点对；(f)在以下情况下将融合簇判定为包括插入和/或缺失：i.断点对位于所述参考序列的相同的染色体上，ii.所述断点对中第一断点和第二断点之间的距离小于所述参考序列上的预定的最大距离，以及iii.子序列处于相同的5’-3’定向。在一些实施方案中，方法还包括：(g)在(f)中的至少一个标准不被满足的情况下，将融合簇判定为包括融合。

在一些实施方案中，每个融合簇中的共有序列包括分裂读段，该分裂读段具有彼此之间在第一预定断点距离内的第一断点和彼此之间在第二预定断点距离内的第二断点。在一些实施方案中，第一预定断点距离小于25个核苷酸。在一些实施方案中，预定距离小于10个核苷酸。在一些实施方案中，第二预定断点距离小于25个核苷酸。在一些实施方案中，第二预定断点距离小于10个核苷酸。

在另一方面中，本公开内容提供了一种方法，所述方法包括：(a)将多核苷酸分子的遗传序列读段映射到参考序列；(b)将所述遗传序列读段分组到族中，每个族包括源自样品中相同多核苷酸分子的独特序列读段；(c)将族的独特序列读段分组到融合簇中，每个融合簇包括分裂读段，其中每个分裂读段的特征在于以下子序列：与映射到第一遗传基因座的第一断点相邻的第一子序列和与映射到第二不同遗传基因座的第二断点相邻的第二子序列，并且其中所述第一断点和所述第二断点形成断点对；(d)在以下情况下将融合簇的独特序列读段判定为包含插入和/或缺失：i.断点对映射到相同的染色体；ii.所述断点对中的所述第一断点和所述第二断点之间的距离小于所述参考序列上的预定的最大距离，以及iii.子序列处于相同的5’-3’定向。在一些实施方案中，方法还包括：(e)在(d)中的至少一个标准不被满足的情况下，将融合簇的独特序列读段判定为包括融合。在一些实施方案中，方法还包括以电子格式生成，其提供多核苷酸分子具有插入和/或缺失和/或融合的指示。该方法还包括以电子格式生成，其提供多核苷酸分子具有插入和/或缺失和/或融合的指示。

在另一方面中，本公开内容提供了一种计算机实施的方法，所述方法用于检测插入和/或缺失和/或融合，所述方法包括：(a)用计算机处理器对齐和合并从核酸测序仪收集的成对的末端序列读段，以从成对的末端序列读段的集合生成代表性的、合并的独特读段，其中每个代表性的、合并的独特读段表示在成对的末端序列读段合并后具有相同分子条形码和序列的成对的末端序列读段；(b)用处理器将所述代表性的、合并的独特读段映射到参考序列；(c)用处理器将所述代表性的、合并的、独特读段分组到族中，每个族包括源自相同原始加标签的多核苷酸分子的代表性的、合并的、独特读段，每个族由共有序列表示；(d)用处理器将族的共有序列分组到融合簇，每个融合簇包括来自分裂读段的族的共有序列，其中每个分裂读段的特征在于子序列，其中第一子序列与映射到第一遗传基因座的第一断点相邻和第二子序列与映射到第二不同遗传基因座的第二断点相邻，其中所述第一断点和所述第二断点形成断点对，其中融合簇中的共有序列包含相似的断点对；(e)在以下情况下由处理器判定融合簇具有插入和/或缺失：(i)断点对映射到相同的染色体，(ii)断点对之间的距离小于预定的最大距离，以及(iii)子序列处于相同的5’-3’定向。在一些实施方案中，方法还包括在以下标准中的至少一个不被满足的情况下，由处理器判定融合簇具有融合：i.断点对映射到相同的染色体，ii.断点对之间的距离小于预定的最大距离，以及iii.子序列处于相同的5’-3’定向。

在一些实施方案中，计算机实施的方法还包括用处理器计算成对的末端序列读段的测序质量，以提供成对的末端序列读段的质量评分。

在另一方面中，本公开内容提供了一种用于治疗患有癌症的患者的方法，包括：(a)接收关于患者中融合簇的存在或融合簇的量的数据，其中所述数据使用上述方法中的任一种获得；以及(b)基于所述融合簇的存在或融合簇的量，使患者经受不同的治疗方案。

在一些实施方案中，具有融合簇的患者或存在较高量的融合簇的患者比没有融合簇或具有较低量的融合簇的患者接受更严格的治疗方案。在一些实施方案中，更严格的方案的特征在于治疗剂的剂量高于较不严格方案中治疗剂的剂量。

在一些实施方案中，融合簇被称为MET外显子14跳跃缺失。在一些实施方案中，治疗剂是MET抑制剂。在一些实施方案中，MET抑制剂选自由克唑替尼(crizotinib)、卡博替尼(cabozantinib)、卡马替尼(capmatinib)、tepotinib、glesatinib组成的组。在一些实施方案中，治疗方案包括化学疗法、放射疗法或免疫疗法。

在一些实施方案中，数据指示接受癌症治疗的患者中融合簇的存在，并且治疗在这样的患者中继续进行。

本文描述的所有方法可以是计算机实施的方法。

本文描述的所有方法还可以包括生成电子格式的报告，所述报告提供多核苷酸分子具有插入和/或缺失和/或融合的指示。

从以下详细的描述，本公开内容的另外的方面和优势对本领域技术人员而言将变得明显，详细的描述中仅示出和描述了本公开内容的说明性实施方案。如将会意识到的，本公开内容能够具有其他且不同的实施方案，并且其若干细节能够在多种明显的方面进行修改，所有这些都不偏离本公开内容。相应地，附图和描述被认为是本质上是说明性的而不是限制性的。

通过引用并入

本说明书中提及的所有出版物、专利和专利申请通过引用并入本文，其程度如同每一个单独的出版物、专利或专利申请被具体和单独地指明通过引用并入的相同程度。就通过引用并入的出版物和专利或专利申请与本说明书中包含的公开内容冲突而言，说明书旨在取代和/或优先于任何这种冲突的材料。

附图简述

图1阐释了示出用于检测遗传变体的工作流程的本公开内容的实施方案。

图2阐释了示出用于生成代表性合并读段的程序的本公开内容的实施方案。

图3阐释了示出用于确定融合簇的程序的本公开内容的实施方案，示出了。

图4示出了被编程或以其他方式配置以实施本文提供的方法的实例性计算机控制系统。

详述

本公开内容提供了用于检测多核苷酸分子样品，诸如无细胞DNA的混合样品中的遗传变体诸如插入、缺失和融合的方法和系统。本文描述的方法和系统可以以提高的灵敏度和特异性检测不同的遗传变体。例如，本文描述的方法可以检测大的插入和/或缺失和/或融合，例如多达1000个碱基对的插入和/或缺失和/或融合。

图1示出了本公开内容的实施方案。在101中，制备包含多核苷酸分子的样品用于测序。多核苷酸分子被加标签以生成加标签的分子。在102中，加标签的分子被测序以生成遗传序列读段。在103中，遗传序列读段被处理以生成经处理的读段。在104中，经处理的读段被映射到参考序列并分组到族中。在105中，族被处理以检测多核苷酸分子中的遗传变体。

在101中，制备包含多核苷酸分子的样品，诸如肿瘤来源的和非肿瘤来源的多核苷酸分子的混合样品用于测序。这样的制备取决于所使用的应用和测序平台，例如，下一代测序平台。

样品可以是从受试者分离的任何生物样品。样品可以包括身体组织，诸如已知或怀疑的实体瘤、全血、血小板、血清、血浆、粪便、红细胞、白细胞(white blood cell)或白细胞(leukocyte)、内皮细胞、组织活组织检查、脑脊液、滑液、淋巴液、腹水、组织液或细胞外液、细胞间的空间中的液体包括龈沟液、骨髓、胸腔积液、脑脊液(CSF)、唾液、粘液、痰、精液、汗液、尿液。样品优选为体液，特别是血液及其级分，以及尿液。这样的样品包括从肿瘤脱落的核酸。核酸可以包括DNA和RNA，并且可以是双链和/或单链形式。样品可以是最初从受试者中分离的形式，或者可以经过进一步处理以：去除或添加组分，诸如细胞；相对于一种组分富集另一种组分；或者将一种形式的核酸转化为另一种形式，如将RNA转化为DNA或将单链核酸转化为双链核酸。因此，例如，用于分析的体液是含有无细胞核酸的血浆或血清，例如，无细胞DNA(cfDNA)。

体液的体积可以取决于测序区域所期望的读段深度。示例性体积为0.4ml-40ml、5ml-20ml、10ml-20ml。例如，体积可以是0.5ml、1ml、5ml、10ml、20ml、30ml或40ml。取样血浆的体积可以是5ml至20ml。

样品可以包括含有基因组当量(genome equivalent)的不同量的核酸。例如，约30ng DNA的样品可以含有约10,000(10⁴)个单倍体人类基因组当量，且在cfDNA的情况中，含有约2000亿(2x10¹¹)个个体多核苷酸分子。类似地，约100ng DNA的样品可以含有约30,000个单倍体人类基因组当量，而在cfDNA的情况中，含有约6000亿个单个分子。

样品可以包含来自不同来源的核酸，例如，来自细胞和无细胞的核酸。样品可以包含携带突变的核酸。例如，样品可以包含携带种系突变和/或体细胞突变的DNA。样品可以包含携带癌症相关突变(例如，癌症相关的体细胞突变)的DNA。在某些情况中，核酸可以在胞葬体(efferosome)或外来体中找到。

无细胞核酸可以指来源于来自受试者的体液(例如，血液、尿液、CSF等)的所有非包封的核酸。无细胞核酸包括DNA(cfDNA)、RNA(cfRNA)及其杂交体，包括：基因组DNA、线粒体DNA、循环DNA、siRNA、miRNA、循环RNA(cRNA)、tRNA、rRNA、小核仁RNA(snoRNA)、Piwi-相互作用RNA(piRNA)、长非编码RNA或其中任何一种的片段。无细胞核酸可以是双链的、单链的或其杂交体。无细胞核酸可以通过分泌或细胞死亡过程，例如细胞坏死和凋亡，释放到体液中。一些无细胞核酸从癌细胞，例如，循环肿瘤DNA(ctDNA)释放进入体液中。其他的从健康细胞释放。ctDNA可以是非包封的肿瘤来源的片段化DNA。无细胞胎儿DNA(cffDNA)是在母体血流中自由循环的胎儿DNA。

无细胞的DNA通常是高度片段化的，大小分布在长度约100-300个碱基对(bp)的范围内，并且因此不需要对其进行另外的片段化。例如，胎儿和母体无细胞DNA的大小为约162bp，而肿瘤来源的无细胞DNA的大小为约166bp。在样品可能具有长DNA分子的情况中，片段化是任选的。

无细胞核酸可以通过分隔步骤(partitioning step)从体液分离，在该分隔步骤中，如在溶液中发现的无细胞核酸与完整细胞和体液的其他不可溶组分分开。分隔可以包括技术诸如离心或过滤。可选地，体液中的细胞可以被裂解，并且无细胞核酸和细胞核酸可以被一起处理。通常，在添加缓冲液和洗涤步骤之后，无细胞核酸可以用醇沉淀。可以使用进一步的清洁步骤诸如基于二氧化硅的柱以去除污染物或盐。例如，可以在整个反应中添加非特异性主体(bulk)载体核酸以优化该程序的某些方面诸如收率。

在这样的处理之后，样品可以包括各种形式的核酸，包括双链DNA、单链DNA和/或单链RNA。任选地，单链DNA和/或单链RNA可以被转化成双链形式，使得它们被包括在随后的处理和分析中。

在扩增前，样品中无细胞核酸的示例性量的范围为约1fg至约1ug，例如，1pg至200ng、1ng至100ng、10ng至1000ng。例如，量可以高达约600ng、高达约500ng、高达约400ng、高达约300ng、高达约200ng、高达约100ng、高达约50ng或高达约20ng的无细胞核酸分子。量可以是至少1fg、至少10fg、至少100fg、至少1pg、至少10pg、至少100pg、至少1ng、至少10ng、至少100ng、至少150ng或至少200ng的无细胞核酸分子。量可以高达1飞克(fg)、10fg、100fg、1皮克(pg)、10pg、100pg、1ng、10ng、100ng、150ng或200ng的无细胞核酸分子。该方法可以包括获得1飞克(fg)至200fg。

另外的序列，诸如分子条形码和衔接子(adapter)可以附接到多核苷酸分子的一端或两端。这种另外的序列可以通过引物杂交或连接反应附接。引物杂交可以包括通过扩增反应，诸如聚合酶链式反应(PCR)附接另外的序列。连接反应可以包括形成另外的序列和多核苷酸分子的片段之间的共价键。连接可以是钝末端连接或粘性末端连接。在一些情况下，多核苷酸分子的片段可以在连接反应之前被修饰，诸如引入突出的核苷酸或扩增多核苷酸序列。

衔接子可以包含与测序引物互补的寡核苷酸序列。例如，衔接子可以包括测序引物结合位点，聚合酶可以结合该位点并引发聚合以对多核苷酸分子进行测序。

衔接子可以包括使衔接子能够结合下一代测序平台中的测序泳道的序列。例如，衔接子可以包括用于附接到Illumina平台中的测序泳道的流动池附接位点。衔接子可以包括与附接到下一代测序平台中的测序泳道的寡核苷酸互补的序列。例如，衔接子可以包括互补序列，该互补序列可以与Illumina平台中的测序泳道的流动池附接的寡核苷酸杂交。

衔接子可以包括另外的序列诸如分子条形码或索引或标签。分子条形码或索引或标签可以用于区分来源于不同样品的序列读段。分子条形码可用于用多于一个样品的多重测序反应。分子条形码可以随机或非随机地加标签到多核苷酸分子的一端或两端。当多核苷酸分子在两端被加标签时，条形码的组合可以统称为“标识符(identifier)”。分子条形码可以附接在衔接子和多核苷酸分子之间。分子条形码可以是双链的或单链的。优选地，衔接子是Y形衔接子，该Y形衔接子包括在其茎上的双链分子条形码和/或在Y的非互补末端的单链分子条形码。在一些实施方案中，样品与比样品中的多核苷酸分子更多的不同分子条形码接触。在其他情况中，使用少量不同的分子条形码来对每个多核苷酸分子加标签(例如，少于DNA分子的数目)。

在某些实施方案中，分子条形码可以是独特的，使得样品中的任何其他多核苷酸分子不共享分子条形码序列。在这种情况中，多核苷酸分子被“独特地加标签”。在一些实施方案中，分子条形码可能不是独特的，使得样品中的至少一个其他多核苷酸分子共享分子条形码序列。在这种情况中，样品中的多核苷酸分子被“非独特地加标签”。在非独特加标签的实施方案中，不同条形码的数目少于样品中多核苷酸分子的总数目。

使用的分子条形码的数目可以多于约1、2、3、4、5、6、7、8、9、10、20、50、100、500、1000、5000、10,000、50,000、100,000、500,000、1,000,000、10,000,000、50,000,000或1,000,000,000。在一些实施方案中，加标签格式使用任选地做为衔接子的一部分连接到靶分子的两端的5-10,000、5-5,000、5-1,000或100种不同的分子条形码。在一些实施方案中，加标签格式使用任选地做为衔接子的一部分连接到靶分子的两端的20-50种不同的分子条形码，产生20-50×20-50种条形码，例如400-2500种条形码。

在另一个实施方案中，不同的条形码或条形码组合的数目可以至少足够多，使得从多核苷酸分子生成的序列读段有99.99％的机会映射到参考基因组中相同的开始/终止坐标，或者在其序列中的某个点映射的序列读段(例如，与参考序列中的碱基位置重叠)被独特地加标签。

例如，如图2中示出的，多核苷酸分子201、202和203分别被204、205和206分子条形码在两端加标签。然后，加标签的分子被扩增以生成原始多核苷酸分子的拷贝。例如，加标签的分子207、208和209分别被扩增以生成210-215、216-221和222-227扩增子。

在某些实施方案中，多核苷酸可以在测序前富集。富集可以针对特定的靶区域(“靶序列”)进行或非特异性地进行。在一些实施方案中，感兴趣的靶区域可以用捕获探针(“诱饵”)富集，所述捕获探针是针对一个或更多个诱饵集的组使用差异平铺(tiling)和捕获方案选择的。差异平铺和捕获方案使用不同相对浓度的诱饵集来在与诱饵相关的基因组区域上差异性地平铺(例如，以不同的“分辨率”)，经受约束的集合(例如，测序仪约束诸如测序负荷、每个诱饵的效用等)并在期望水平上捕获它们用于下游测序。这些感兴趣的靶向的基因组区域可以包括受试者基因组或转录组的区域。在一些实施方案中，带有一个或更多个感兴趣的区域的探针的生物素标记的珠可以用于捕获靶序列，任选地随后扩增那些区域，以富集感兴趣的区域。

序列捕获通常涉及使用与靶序列杂交的寡核苷酸探针。探针集合策略可以包括将探针平铺在感兴趣的区域上。这样的探针可以是例如约60至120个碱基长。该集合可以具有约2x、3x、4x、5x、6x、8x、9x、l0x、15x、20x、50x或更大的深度。序列捕获的有效性部分取决于靶分子中与探针的序列互补(或几乎互补)的序列的长度。

在一些实施方案中，本公开内容的方法包括在测序前从受试者的基因组或转录组选择性地富集区域。在其他实施方案中，本公开内容的方法包括在测序前从受试者的基因组或转录组非选择性地富集区域。

在某些实施方案中，样品索引序列在富集后被引入多核苷酸。样品索引序列可以通过PCR引入多核苷酸或者连接到多核苷酸，任选地作为衔接子的一部分。

回到图1，在102，加标签的多核苷酸分子被测序。测序优选使用下一代测序平台诸如Illumina^TM、Ion Torrent^TM、Pacific Biosciences测序系统或牛津纳米孔测序技术进行。测序产生原始测序数据，包括是长读段或短读段的序列读段。长读段长度可以多于1千碱基(kb)，而短读段长度可以小于1kb。

某些测序系统通过例如多核苷酸分子的扩增和随后的扩增子测序产生每个原始多核苷酸分子的冗余读段。某些测序系统诸如Illumina产生成对的末端序列读段，即来自分子两端的序列读段，该对读段可以重叠或可以不重叠。其他测序系统可以产生整个多核苷酸分子的单一序列读段序列。在不产生成对的末端读段的测序系统中，合并读段的步骤可以被消除，并且代表性读段可以从全长读段中选择。

如图1示出的方法可以使用计算机来实施。例如，计算机实施的方法可以用于检测插入和/或缺失和/或融合。该方法可以包括用于用计算机处理器计算从测序仪收集的成对的末端序列读段的质量的算法。例如，可以提供基于测序质量的成对的末端序列读段的质量评分。成对的末端序列读段可以进一步被对齐和合并，以从成对的末端序列读段的集合中生成代表性的、合并的、经处理的读段。每个代表性的、合并的、经处理的读段表示具有相同分子条形码和内部序列的成对的末端序列读段。

包括成对的末端序列读段的集合的原始测序数据可以以各种文件格式提供，诸如FASTQ、VCF、CRAM或BAM。具有原始测序数据的文件可以包括一条链或两条链(如在成对末端读段中)的序列数据。在一个实例中，两条链的原始测序数据以FASTQ文件提供，所述两条链即从成对末端测序程序生成的有义链和反义链。文件可以包括提供关于读段质量的信息的另外的符号，并且还可以提供质量评分。每个多核苷酸分子的原始测序数据可以保存在本地驱动器上、在云或服务器中。

预期在序列读段的合集中，例如成对的末端读段，将存在多于一个具有相同序列的读段。当原始多核苷酸分子被扩增，产生许多拷贝，并且对扩增子测序时，情况尤其如此。相应地，序列读段集合中的任何特定序列可以被认为是“独特序列”，该集合中可以存在针对该序列的多于一个拷贝。独特的序列读段可以从本文公开的映射步骤中使用的所有序列的集合中选择。

在103中，从来自测序仪的遗传序列读段生成经处理的读段。处理可以包括使遗传序列读段的分析更高效的任何方法。例如，在一些情形中，处理可以包括合并成对的末端遗传序列读段以形成合并读段。在一些情形中，处理可以包括将具有相同条形码和基本相似或相同的内部序列的合并读段的合集分组到独特集合中，并生成代表性的合并读段。在其他情形中，处理可以包括修剪来自遗传序列读段的标签。103移除重复的序列读段并消除大量的计算分析。

例如，如图2中示出的，成对的末端读段228、229和230的集合各自包括两个匹配的对(mate pair)。匹配的对被合并以形成合并读段。具有相同条形码和基本上相似或相同的内部序列的合并读段的合集被分组到独特集合中。然后，选择每个独特集合的代表性的、合并的独特读段。例如，在基于例如分子条形码和内部序列将合并读段分组到独特集合之后，生成201的成对的末端序列读段的代表性的、合并的独特读段231、232和233。类似地，生成202的成对的末端序列读段的代表性的、合并的独特读段234和235。生成203的成对的末端序列读段的代表性的、合并的独特读段236、237和238。

可选地，从成对的末端读段的集合中确定独特序列(基于条形码和内部序列的组合)。然后，合并成对的末端读段，以生成代表性的、合并的独特序列读段。

成对的末端序列读段的有义链与成对的末端序列读段的反义链合并。例如，成对的末端序列读段被重新定向为反向平行的，然后被合并以形成合并的读段或匹配的对。匹配的对或合并读段包括具有重叠区域的有义链和反义链。重叠区域可以包括至少约1个碱基、2个碱基、3个碱基、4个碱基、5个碱基、10个碱基、15个碱基、20个碱基、25个碱基、30个碱基、35个碱基、40个碱基、45个碱基、50个碱基、55个碱基、60个碱基、65个碱基、70个碱基、75个碱基、80个碱基、85个碱基、90个碱基、95个碱基或100个碱基。重叠区域中的链之间的碱基的同一性可以是至少约5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％或更多。在一些情形中，给定的重叠区域可以包括链之间具有至少约90％同一性的至少15个碱基。在其他情形中，重叠可以包括链之间具有至少90％同一性的至少19个碱基。当使用滑动窗口分析时，重叠区域由强峰表示。例如，滑动重叠区域以包括重叠区域的每一端上的碱基，并计算链之间的同一性，直到两条链彼此完全重叠。链之间的同一性以同一性的百分比计算。同一性的百分比与峰的高度成正比。选择具有单个强峰的合并读段或匹配的对用于进一步分析。

返回参考图1，在103中，合并读段的两条链可以被修剪以移除重叠区域中3’端处的序列的至少一部分。例如，3’端重叠区域中的一半序列可以被移除，以排除低序列质量的碱基、3’端上的分子条形码和任何错配。这个步骤有助于减少测序错误。

在104中，使用映射工具将包括合并读段或代表性的合并读段(取决于处理步骤)的经处理的读段与参考序列对齐，映射工具的非限制性实例可以包括Burrow’s Wheeler变换(BWA)、Novoalign、Bowtie。映射工具生成一个对齐文件，描述所使用的对齐参数、代表性的、合并的、独特读段在参考序列上的位置(诸如坐标)、以及映射的质量评分。对齐参数，诸如测序读段和参考序列之间允许的差异数、允许的空位数和空位开放罚分、空位延伸的数目等，可以由用户定义。

在一个实例中，使用BWA映射工具利用默认对齐参数将经处理的读段与人类参考基因组(诸如hg19)对齐。BWA工具提供输出文件，一个包括对齐统计信息的BAM文件。对齐统计信息可以包括经处理的读段与之对齐的参考序列的坐标。对齐统计信息还可以提供MapQ评分，以在映射到参考序列时报告经处理的读段的独特性。然后可以使用分子条形码和参考序列上的坐标分选(sort)经处理的读段。

在一些实施方案中，来自核酸测序仪的遗传序列读段不被处理，并且可以与参考序列对齐或映射到参考序列。

经处理的读段可以分组到族中。族包括源自相同原始加标签的多核苷酸分子的读段。经处理的读段在参考序列上也具有相同的映射坐标。例如，具有一对分子条形码(例如，标签1和标签2)和与参考序列上的相同坐标对齐的内源序列(例如，染色体1上的1200-1500)的经处理的读段可以被分组到一个族中。在一些实施方案中，每个族可以由共有序列(“族共有序列”)表示。如果经处理的读段具有相同的分子条形码，并且在参考基因组上具有类似于族中其余读段的至少一个末端位置，则该经处理的读段可以添加到该族中。例如，经处理的读段可以具有相同的分子条形码和相同的开始位置，但是终止位置可以在预定的核苷酸范围内。如果经处理的读段在压缩后具有相同的经压缩的终止序列，则经处理的读段被分组到相同的族中。

类似地，经处理的读段可以具有相同的分子条形码和相同的终止位置，但是开始位置可以在预定的核苷酸范围内。如果经处理的读段在压缩后具有相同的经压缩的开始序列，则经处理的读段被分组到相同的族中。

经处理的读段可以被压缩以去除均聚物中的重复核苷酸。可以去除的均聚物中的重复核苷酸在少于2个核苷酸、3个核苷酸、4个核苷酸、5个核苷酸、6个核苷酸、7个核苷酸、8个核苷酸、9个核苷酸、10个核苷酸、20个核苷酸、30个核苷酸、40个核苷酸或50个核苷酸的预定范围内。在某些情形中，预定范围可以少于10个核苷酸。在某些情形中，预定范围可以少于7个核苷酸。在某些情形中，预定范围可以少于5个核苷酸。在某些情形中，预定范围可以少于3个核苷酸。在一个实例中，预定范围是4个核苷酸。压缩后，如果末端序列中的至少7个核苷酸与其余的代表性的、合并的、独特读段映射到参考序列上的相同位置，则经压缩的读段被分组到相同的族中。合并读段的压缩减少了由于测序错误(例如，在序列读段的末端处的测序错误)而产生的族的数目。

在某些实施方案中，一种或更多种均聚物可以存在于开始序列和/或终止序列。一种或更多种均聚物可以存在于经处理的读段的任何地方。在一些实施方案中，均聚物可以包含聚(dA)或聚(dT)。在其他实施方案中，均聚物可以包含聚(dG)或聚(dC)。

作为实例，对于两个经处理的读段，如果第一经处理的读段的开始位置在第二经处理的读段的开始位置的预定范围内，诸如小于5个核苷酸，并且第一经处理的读段的经压缩的序列的前7个碱基与第二经处理的读段的经压缩的序列的前7个碱基相同，并且第一经处理的读段和第二经处理的读段的末端位置相同，那么这些读段可以被分组到相同的族中。同样，如果第一经处理的读段的末端位置在第二经处理的读段的末端位置的预定范围内，诸如小于5个核苷酸，并且第一经处理的读段的经压缩的序列的最后7个碱基与第二经处理的读段的经压缩的序列的最后7个碱基相同，并且第一经处理的读段和第二经处理的读段的开始位置相同，那么这些读段可以被分组到相同的族中。

具有经处理的读段的族可以与参考序列对齐，以识别不与参考序列连续对齐的分裂读段。例如，每个分裂读段的特征在于子序列。第一子序列映射到第一遗传基因座，且第二子序列映射到第二遗传基因座。第一遗传基因座不同于第二遗传基因座。第一子序列映射到与第一断点相邻的第一遗传基因座，并且第二子序列映射到与第二断点相邻的第二遗传基因座。第一断点和第二断点可以形成断点对。

例如，如图3中示出的，族内的分裂读段被映射到参考序列301。第一族302包括分裂读段303、304和305的第一集合。第二族306包括分裂读段307和308的第二集合。第三族309包括分裂读段310、311和312的第三集合。第四族313包括分裂读段314和315的第四集合。

分裂读段的第一集合和分裂读段的第二集合映射到与第一断点对316和317相邻的遗传基因座。分裂读段的第三集合映射到与第二断点对316和318相邻的遗传基因座。分裂读段的第四集合不映射到与断点316、317或318相邻的任何遗传基因座。

在一些实施方案中，来自族的分裂读段共有序列可以围绕断点对聚簇，并且可以形成融合簇。例如，第一族302由第一分裂读段共有序列319表示。第二族306由第二分裂读段共有序列320表示。第三族309由第三分裂读段共有序列321表示。第四族313由第四分裂读段共有序列322表示。第一族302、第二族306和第三族309围绕断点对聚簇，而第四族313不围绕断点对聚簇。

在一些实施方案中，基于共有序列在断点对上的映射来检测融合簇。例如，如在图3中，第一分裂读段共有序列319、第二分裂读段共有序列320和第三分裂读段共有序列321形成融合簇323。然而，第四分裂读段共有序列322不包括在融合簇323中。在本实施方案中，这些分裂读段共有序列包括在融合簇中，因为各个断点148之间的距离小于预定断点距离，例如，小于10个核苷酸。共有断点可以基于，例如融合簇中占多数的断点(图3中的断点316和317)来判定。

在其他实施方案中，包括具有相似断点对的分裂读段的族可以被分组到融合簇中。例如，如在图3中，第一族302、第二族306和第三族309围绕相似的断点对聚簇。在该实施方案中，这些族被包括在融合簇中，因为各个断点148之间的距离小于预定断点距离，例如，小于10个核苷酸。共有断点可以基于，例如融合簇中占多数的断点来判定。

一旦识别了共有断点对，就可以检测遗传变体诸如插入、缺失或融合。

可以使用例如由计算机执行的算法将插入和缺失(插入缺失(indel))与基因融合区分开。算法可以考虑一个或更多个因素，包括但不限于：(1)断点对之间的距离，(2)断点在相同染色体上的位置，(3)处于相同或不同定向的子序列，和/或(4)处于正常或反向基因组顺序的子序列。如果断点出现在不同染色体上，则变体将总是被认为是融合。如果断点在相同染色体上，但是子序列处于不同(相反的)5’-3’定向，则变体也将被认为是融合，或者在某些情形中，变体将被认为是倒位。如果断点在相同染色体上并且子序列处于相同的5’-3’定向，如果断点对之间的距离小于预定的最大距离(例如，在基因内，小于5,000个核苷酸，小于4,000个核苷酸，小于3,000个核苷酸，小于2,000个核苷酸，或者小于1,000个核苷酸)，则变体可以被判定为插入或缺失，否则它将被判定为融合。使用以上标准确定的插入和缺失可以基于子序列处于正常基因组顺序(即，如果染色体上子序列的正常顺序是A-B，然后，靶分子中的顺序也是A-B——在这种情形中判定为缺失)还是处于相反的基因组顺序(即，如果染色体上子序列的正常顺序是A-B，然后，靶分子中的顺序是B-A——在这种情形中判定为插入)来进一步彼此区分。如果以上规则确定了缺失，那么实际缺失的序列在两个断点之间。如果上述规则确定了插入，那么两个断点之间的序列拷贝被插入到其中一个断点旁边(即，两个断点之间的序列被复制)。子序列可以指族内的分裂读段序列或者指族共有序列的序列。

在一些实施方案中，断点对之间的预定的最大距离可以小于5,000个核苷酸、小于4,500个核苷酸、小于4,000个核苷酸、小于3,500个核苷酸、小于3,000个核苷酸、小于2,500个核苷酸、小于2,000个核苷酸、小于1,500个核苷酸、小于1,000个核苷酸、小于500个核苷酸或小于250个核苷酸。在一些实施方案中，断点对之间的预定的最大距离小于感兴趣的靶基因内的区域的核苷酸数目(例如，小于MET中外显子14的长度)。

在某些实施方案中，本文公开的系统和方法特别适用于检测中等大小的插入缺失(诸如例如，21-50个核苷酸之间的那些插入缺失)和/或长的插入缺失(诸如例如，大于50个核苷酸、大于100个核苷酸、大于500个核苷酸、大于1,000个核苷酸、大于2,000个核苷酸、大于3,000个核苷酸、大于4,000个核苷酸、大于5,000个核苷酸、大于10,000个核苷酸、整个外显子和/或内含子或整个基因的那些插入缺失)。

在一些实施方案，插入和/或缺失可以发生在基因内，所述基因包括但不限于由以下组成的组：APC、ARID1A、ARID1B、ATM、BRCA1、BRCA2、CDH1、CDKN2A、EGFR、ERBB2、FMN2、GATA3、KIT、MET、MECP2、MLH1、MTOR、NF1、PDGFRA、PGAP3、PRODH、PTEN、RB1、SMAD4、SRD5A3、STK11、TP53、TSC1、VHL和UBE3A。在一些实施方案中，插入和/或缺失可以发生在基因内，所述基因包括但不限于EGFR(外显子18-21)、ERBB2(外显子19和20)、ESR1(外显子10)、MET(外显子13-14和内含子13-14)、BRAF(外显子15)、CTNNB1(外显子3)、FGFR2(外显子6)、GATA2(外显子5-6)、GNAS(外显子8)、IDH1(外显子4)、IDH2(外显子4)、KIT(外显子1-21)、KRAS(外显子2-3)、NRAS(外显子2-3)、PIK3CA(外显子10和21)、PTEN(外显子5)、SMAD4(外显子12)、TP53(外显子4-8和11)。在某些实施方案中，插入和/或缺失可以包括但不限于移码突变(frameshift mutation)、非移码突变、倒位(染色体重排)、完整外显子缺失和/或串联重复。

在一些实施方案中，当包含于融合簇的族共有序列未能满足用于判定插入和/或缺失的任何或所有标准时，可以判定为融合。

用于判定插入和/或缺失和/或融合的算法可以包括将经处理的读段映射到参考序列，并向经处理的读段分配独特读段标识符。基于经处理的读段的对齐，在参考序列上确定断点和断点对，以确定经处理的读段具有融合。断点和断点对可以通过断点ID和与断点和断点对对齐的经处理的读段的数目报告。具有相似断点的经处理的读段基于共同断点对被分组到族中。然后，基于彼此在预定断点距离内的断点，将族的读段或族的共有序列分组到融合簇中。参考序列中的断点之间的预定断点距离可以小于25个核苷酸或小于10个核苷酸或5个核苷酸。

具有融合的经处理的读段无法连续映射到参考序列。具有融合的经处理的读段中的断点可以包括映射部分和无法连续映射到参考序列的剪切部分。当经处理的读段映射到至少两个断点并映射到同一链(例如，5’链或3’链)时，判定为融合。经处理的读段中的融合可以使用投票方法确定，其中所有断点中具有最对齐的经处理的读段的断点被判定为融合断点。不同的经处理的读段的断点可以使用质量算法进行加权。

在一些实施方案中，检测到的融合可能与基因相关，所述基因包括但不限于由ALK、FGFR2、FGFR3、TRK1、RET和/或ROS1组成的组。

系统和方法可能在无细胞DNA的分析中特别有用。无细胞DNA可以从任何数目的受试者提取，诸如未患有癌症的受试者、处于癌症风险的受试者或已知(例如，通过其他手段)患有癌症的受试者。

在一些实施方案中，本公开内容的方法可以包括生成电子格式的报告的步骤，所述报告提供多核苷酸分子具有或不具有插入和/或缺失和/或融合的指示。

如本文使用的，术语“多核苷酸”或“多核苷酸序列”或“多核苷酸分子”通常指包含一个或更多个核酸亚单位的分子。多核苷酸可以包括选自腺苷(A)、胞嘧啶(C)、鸟嘌呤(G)、胸腺嘧啶(T)和尿嘧啶(U)或其变体的一个或更多个亚单位。核苷酸可以包括A、C、G、T或U或其变体。核苷酸可以包括可以被掺入到增长的核酸链中的任何亚单位。这样的亚单位可以是A、C、G、T或U，或对一个或更多个互补A、C、G、T或U特异性的任何其他亚单位或与嘌呤(即A或G或其变体)或嘧啶(即C、T或U或其变体)互补的任何其他亚单位。亚单位可以使单独的核酸碱基或碱基组(例如，AA、TA、AT、GC、CG、CT、TC、GT、TG、AC、CA或尿嘧啶-其对应物)能够被解析。在一些实例中，多核苷酸为脱氧核糖核酸(DNA)或核糖核酸(RNA)或其衍生物。多核苷酸可以是单链或双链的。

多核苷酸可以包括与癌症相关的序列。癌症相关序列可以包括单核苷酸变异(SNV)、拷贝数变异(CNV)、插入、缺失和/或重排。

如本文使用的，术语“受试者”通常指动物，如哺乳动物物种(例如人类)或禽类(avian)(例如鸟类(bird))物种，或其他生物体，诸如植物。更具体地，受试者可以是脊椎动物、哺乳动物、小鼠、灵长动物、类人猿(simian)或人类。动物包括但不限于，农场动物、运动动物和宠物。受试者可以是健康的个体、患有或怀疑患有疾病或疾病有易感性(pre-disposition to the disease)的个体，或者需要疗法或怀疑需要疗法的个体。受试者可以是患者。

测序方法可以包括但不限于：Sanger测序、高通量测序、焦磷酸测序、合成测序、单分子测序、纳米孔测序、半导体测序、连接测序、杂交测序、RNA-Seq(Illumina)、数字基因表达(Helicos)、下一代测序、单分子合成测序(SMSS)(Helicos)、大规模并行测序、克隆单分子阵列(Solexa)、鸟枪法测序、Maxim-Gilbert测序、引物步移、使用PacBio、SOLiD、IonTorrent或Nanopore平台的测序和本领域中已知的任何其他测序方法。

在无细胞DNA序列的测序数据作为测序读段被收集后，一个或更多个生物信息学过程可以被应用于测序读段。可以同时或随后应用另外的生物信息学过程来检测遗传特征或畸变，诸如拷贝数变异、稀有突变(例如单核苷酸变异或多核苷酸变异)或表观遗传标志物的改变，包括但不限于甲基化谱。

多种不同的反应和/或操作可以在本文公开的系统和方法中发生，包括但不限于：核酸测序、核酸定量、测序优化、检测基因表达、定量基因表达、基因组谱分析、癌症谱分析或表达的标志物的分析。此外，系统和方法具有许多医学应用。例如，它可以用于多种遗传和非遗传疾病和紊乱(包括癌症)的鉴定、检测、诊断、治疗、分期或风险预测。它可以用于评价受试者对遗传和非遗传疾病的不同治疗的响应，或提供关于疾病进展和预后的信息。

因此，本公开内容的所有实施方案可以作为用于确定遗传变体的方法实施，所述遗传变体包括插入和/或缺失和/或融合。在一些实施方案中，这些遗传变体可以用于多种遗传和非遗传疾病的鉴定、检测、诊断、治疗、分期或风险预测。在一些实施方案中，疾病是癌症。

计算机系统

本公开内容的方法可以使用或借助于计算机系统来实现。例如，可以用计算机处理器执行以下方法：(i)合并成对的末端序列读段的重叠区域以生成独特序列，(ii)将独特序列读段映射到参考序列，(iii)将独特序列读段分组到族中，(iv)将族的独特序列读段分组到融合簇中，和/或(v)将融合簇判定为包括插入和/或删除和/或融合。图4示出了被编程或以其他方式配置以实施本公开内容的方法的计算机系统401。计算机系统401可以调节样品制备、测序和/或分析的各个方面。在一些实例中，计算机系统401被配置为执行样品制备和样品分析，包括核酸测序。

计算机系统401包括中央处理单元(CPU，在本文中也被称为“处理器”和“计算机处理器”)405，其可以是单核或多核处理器或用于并行处理的多于一个处理器。计算机系统401还包括存储器或存储器位置410(例如，随机存取存储器、只读存储器、闪速存储器)、电子存储单元415(例如，硬盘)、用于与一个或更多个其他系统进行通信的通信接口420(例如，网络适配器)和外围设备425，诸如高速缓冲存储器、其他存储器、数据存储和/或电子显示适配器。存储器410、存储单元415、接口420和外围设备425与CPU 405通过通信网络或总线(实线)，诸如主板(motherboard)，通信。存储单元415可以是用于存储数据的数据存储单元(或数据储存库)。计算机系统401可以借助于通信接口420被可操作地耦合至计算机网络430。计算机网络430可以是因特网(the Internet)、互联网(an internet)和/或外联网、或与因特网通信的内联网和/或外联网。在一些情况中，计算机网络430为电信和/或数据网络。计算机网络430可以包括一个或更多个计算机服务器，所述一个或更多个计算机服务器可以能够进行分布式计算，诸如云计算。在一些情况中，借助于计算机系统401，计算机网络430可以实现对等网络(peer-to-peer network)，所述对等网络可以使耦合至计算机系统401的设备能够充当客户端或服务器。

CPU 405可以执行一系列的机器可读指令，该机器可读指令可以以程序或软件来体现。指令可以被存储于存储器位置，诸如存储器410中。CPU405进行的操作的实例可以包括读取、解码、执行和写回。

存储单元415可以存储文件，诸如驱动、库和保存的程序。存储单元415可以存储由用户生成的程序和记录的会话，以及与程序相关联的输出。存储单元415可以存储用户数据，例如，用户偏好和用户程序。在一些情况中，计算机系统401可以包括在计算机系统401的外部的一个或更多个另外的数据存储单元，诸如位于通过内联网或因特网而与计算机系统401通信的远程服务器上。

计算机系统401可以与一个或更多个远程计算机系统通过网络430进行通信。例如，计算机系统401可以与用户(例如，操作员)的远程计算机系统进行通信。远程计算机系统的实例包括个人计算机(例如便携式PC)、板型或平板PC(例如iPad、Galaxy Tab)、电话、智能电话(例如iPhone、Android支持的设备、)或个人数字助理。用户可以经由网络430访问计算机系统401。

如本文描述的方法可以通过机器(例如，计算机处理器)可执行代码的方式实施，该机器可执行代码被存储在计算机系统401的电子存储位置，诸如例如存储器410或电子存储单元415上。机器可执行代码或机器可读代码可以以软件的形式提供。在使用期间，代码可以由处理器405执行。在一些情况中，代码可以从存储单元415检索并存储在存储器410上，用于由处理器405迅速访问。在一些情况中，可以排除电子存储单元415，而机器可执行指令被存储于存储器410中。

代码可被预编译并配置成供具有适应于执行该代码的处理器的机器使用，或在运行时间期间被编译。代码可以以编程语言的形式提供，该编程语言可被选择以使代码能够以预编译的或按编译原样(as-compiled)的方式被执行。

本文所提供的系统和方法的方面，诸如计算机系统401，可以以编程来体现。技术的多个方面可以被认为是通常呈一种机器可读介质进行或体现的机器(或处理器)可执行代码和/或相关数据的形式的“产品”或“制品(articles of manufacture)”。机器可执行代码可被存储在电子存储单元上，诸如存储器(例如，只读存储器、随机存取存储器、闪速存储器)或硬盘。“存储”型介质可以包括计算机、处理器等的任何或所有有形存储器，或其相关模块，诸如多种半导体存储器、磁带驱动器、磁盘驱动器等，其可以在任何时间为软件编程提供非暂时性存储。

软件的所有或部分有时可以通过因特网或多种其他电信网络进行通信。例如，此类通信可以使得将软件从一个计算机或处理器加载到另一个计算机或处理器，例如，从管理服务器或主机加载到应用服务器的计算机平台。因此，能够携带软件元件的另一类型的介质包括诸如在本地设备之间的物理接口、通过有线和光纤陆线网络以及在多种空中链路(air-links)上使用的光波、电波和电磁波。携带此类波的物理元件，诸如有线或无线链路、光链路等，也可以被认为是携带软件的介质。如本文使用的，除非被限制为非暂时性的、有形的“储存”介质，否则术语诸如计算机或机器“可读介质”指参与将指令提供至处理器用于执行的任何介质。

因此，机器可读介质，诸如计算机可执行代码，可以采取多种形式，包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包括，例如光盘或磁盘，诸如在任何计算机等中的任何存储设备，诸如可用于实现如附图中示出的数据库等。易失性存储介质包括动态存储器，诸如此类计算机平台的主存储器。有形的传输介质包括同轴电缆；铜线和光纤，包括构成计算机系统内的总线的导线。载波传输介质可以采取电信号或电磁信号或者声波或光波的形式，诸如在射频(RF)和红外(IR)数据通信期间生成的那些。因此，计算机可读介质的常见形式包括，例如：软盘(floppy disk)、软性磁盘(flexible disk)、硬盘、磁带、任何其他磁介质、CD-ROM、DVD或DVD-ROM、任何其他光学介质、穿孔卡片纸带、具有打孔模式的任何其他物理存储介质、RAM、ROM、PROM和EPROM、FLASH-EPROM、任何其他存储器芯片或盒、传输数据或指令的载波、传输此类载波的缆线或链路，或者计算机可以从其读取编程代码和/或数据的任何其他介质。计算机可读介质的这些形式中的许多形式可以参与向处理器传送一个或更多个指令的一个或更多个序列以用于执行。

计算机系统401可以包括电子显示器或与电子显示器通信，该电子显示器包括用于提供例如样品分析的一个或更多个结果的用户界面(UI)。UI的实例包括但不限于图形用户界面(GUI)和基于网络的用户界面。

应用

A.癌症的早期检测

许多癌症可以使用本文描述的方法和系统来检测。癌细胞如大部分细胞一样可以用更新率(rate of turnover)表征，其中旧细胞死亡并被较新的细胞代替。通常，与给定受试者中的脉管系统相接触的死亡的细胞可以将DNA或DNA片段释放至血流中。在疾病的不同分期中的癌细胞也是如此。根据疾病的分期，癌细胞还可以通过多种遗传畸变，诸如拷贝数变异以及稀有突变表征。这种现象可以用于使用本文描述的方法和系统检测癌症个体的存在或不存在。

例如，可以从处于癌症风险的受试者抽取血液并如本文描述地制备以生成无细胞多核苷酸群体。在一个实例中，这可以是无细胞DNA。本公开内容的系统和方法可以用于检测可存在于某些现有癌症中的稀有突变或拷贝数变异。该方法可以帮助检测癌细胞在体内的存在，即使不存在疾病的症状或其他标志(hallmark)。

可以被检测的癌症的类型和数目可以包括但不限于血癌、脑癌、肺癌、皮肤癌、鼻癌、喉癌、肝癌、骨癌、淋巴瘤、胰腺癌、皮肤癌、肠癌、直肠癌、甲状腺癌、膀胱癌、肾癌、口腔癌、胃癌、实体瘤(solid state tumor)、异质肿瘤、均质肿瘤等。

在癌症的早期检测中，本文描述的任何系统或方法，包括稀有突变检测或拷贝数变异检测可以用于检测癌症。这些系统和方法可以用于检测可能导致或起因于癌症的任何数目的遗传畸变。这些可以包括但不限于突变、稀有突变、插入缺失、拷贝数变异、颠换、易位、倒位、缺失、染色体不稳定性、染色体结构改变、基因融合、染色体融合、基因截短、基因扩增、基因复制、染色体损伤、DNA损伤和癌症。

另外，本文描述的系统和方法还可以用于帮助表征某些癌症。由本公开内容的系统和方法产生的遗传数据可以允许从业者帮助更好地表征具体形式的癌症。大部分情况，癌症在组成和分期两者方面是异质的。遗传谱数据可以允许表征癌症的具体亚型，该表征在该具体亚型的诊断或治疗中可能是重要的。该信息还可以为受试者或从业者提供关于具体类型的癌症的预后的线索。

B.癌症治疗、监测和预后

本文提供的系统和方法可以用于治疗或监测特定受试者中的已知癌症或其他疾病。这可以允许受试者或从业者根据疾病的进展调整治疗选项。在该实例中，本文描述的系统和方法可用于构建疾病进程中特定受试者的遗传谱。在一些情况中，癌症可以进展，变成更具侵袭性和遗传上不稳定。在其他实例中，癌症可以保持为良性的、非活动的、休眠的、或缓解的。本公开内容的系统和方法可以用于确定疾病进展、缓解或复发。

此外，本文描述的系统和方法可以用于确定特定治疗选项的功效。在一个实例中，如果治疗成功，则成功的治疗选择可以实际上增加在受试者血液中检测到的插入缺失的量，因为更多的癌症可能死亡并使DNA脱落。在其他实例中，这可能不会发生。在另一个实例中，也许某些治疗选择可能与癌症随时间的遗传谱相关联。这种相关性可以用于选择疗法。另外，如果观察到癌症在治疗之后减退，则本文描述的系统和方法可以用于监测残留的疾病或疾病的复发。

C.其他疾病或疾病状态的早期检测和监测

本文描述的方法和系统可以不限于仅与癌症相关的插入缺失的检测。多种其他疾病和感染可能导致可以适用于早期检测和监测的其他类型的状况。例如，在某些情况中，遗传紊乱或传染性疾病可能在受试者中引起某些遗传镶嵌现象(genetic mosaicism)。这种遗传镶嵌现象可以引起能够被观察到的拷贝数变异和稀有突变。

此外，本公开内容的系统和方法还可以用于监测自身的系统性感染，如可以由病原体诸如细菌或病毒引起的系统性感染。插入缺失检测可以用于确定病原体群体在感染过程期间是如何改变的。这在慢性感染诸如HIV/AIDS或肝炎感染期间可能特别重要，藉此病毒可以在感染过程期间改变生命周期状态和/或突变为毒力更强的形式。

此外，本公开内容的方法可以用于表征受试者中的异常状况的异质性，所述方法包括生成受试者中的细胞外多核苷酸的遗传谱，其中所述遗传谱包括由插入缺失分析得到的多于一个数据。在一些情况中，包括但不限于癌症，疾病可以是异质的。疾病细胞可以不相同。在癌症的实例中，已知一些肿瘤包含不同类型的肿瘤细胞、处于癌症的不同分期的一些细胞。在其他实例中，异质性可以包括疾病的多个病灶。再次，在癌症的实例中，可以存在多于一个肿瘤病灶，或许其中一个或更多个病灶为已从原发部位扩散的转移的结果。

本公开内容的方法可以用于生成或分析指纹或数据集，该指纹或数据集为来源于异质性疾病中的不同细胞的遗传信息的总和。该数据集可以包含单独的或组合的拷贝数变异和稀有突变分析。

D.其他疾病或胎儿起源(Fetal Origin)疾病状态的早期检测和监测

另外，本公开内容的系统和方法可以用于诊断、预后、监测或观察癌症或胎儿起源的其他疾病。即，这些方法可以在妊娠的受试者中使用，以诊断、预后、监测或观察其DNA和其他多核苷酸可以与母体分子共循环的未出生的受试者的癌症或其他疾病。

虽然本文已经示出和描述了本发明的优选实施方案，但对于本领域技术人员将明显的是，这样的实施方案仅通过实例的方式提供。并非意图将本发明限制于本说明书中提供的具体实例。虽然已参考以上提及的说明书描述了本发明，但本文的实施方案的描述和说明并不意图以限制性的意义来解释。本领域技术人员现在将想到许多变化、改变和替换，而不偏离本发明。此外，将理解，本发明的所有方面并不限于本文阐述的取决于多种条件和变量的具体描写、配置或相对比例。应当理解，在实践本发明时可以采用本文描述的本发明的实施方案的各种替代选择。因此可以预期，本发明还应涵盖任何这样的替代选择、修改、变化或等同物。以下权利要求意图界定本发明的范围，并且从而涵盖在这些权利要求范围内的方法和结构及其等同物。

实施例

实施例1：从27个不同样品检测MET外显子14跳跃缺失

使用Guardant Health,Inc.(Redwood City,CA)开发的基于血液的DNA测定对一组患者样品进行处理和分析。分析序列读段的遗传变体。如下表1中示出的，检测到集合中的27个不同的样品具有融合簇。

表1

在表1中，每行代表具有共有断点对的融合簇。融合簇符合判定缺失的标准，包括(1)断点对映射到相同染色体-染色体7，(2)发现子序列处于相同的5’-3’定向，以及(3)断点位置1和2之间的距离在预定的最大距离(在这种情况中3,222个核苷酸)内，并且此外，(4)与参考序列相比处于正常基因组顺序。序列读段的参考对齐表明所检测的遗传变体是一个MET外显子14跳跃缺失。

Claims

1.一种系统，包括：

(a)通信接口，所述通信接口通过通信网络接收由核酸测序仪生成的遗传序列读段；以及

(b)与所述通信接口通信的计算机，其中所述计算机包括一个或更多个计算机处理器和包括机器可执行代码的计算机可读介质，所述机器可执行代码在被所述一个或更多个计算机处理器执行时实现一种方法，所述方法包括：

i.通过所述通信网络接收由所述核酸测序仪生成的遗传序列读段；

ii.处理所述遗传序列读段以生成经处理的序列读段；

iii.将所述经处理的序列读段映射到参考序列；

iv.将所述经处理的序列读段分组到族中，每个族包括源自样品中的相同多核苷酸分子的独特序列读段；

v.将所述族的至少一部分分组到融合簇中，每个融合簇包括分裂读段，其中每个分裂读段包含与映射到第一遗传基因座的第一断点相邻的第一子序列和与映射到第二不同遗传基因座的第二断点相邻的第二子序列，并且其中所述第一断点和所述第二断点形成断点对；以及

vi.在以下情况下，将融合簇判定为包括插入和/或缺失：断点对映射到相同的染色体，所述断点对中的所述第一断点和所述第二断点之间的距离小于参考序列上的预定的最大距离，并且子序列处于相同的5’-3’定向。

2.根据权利要求1所述的系统，还包括在(vi)中的上述标准中的至少一个不被满足的情况下，将融合簇判定为具有融合。

3.根据权利要求1或2所述的系统，还包括生成电子报告，所述电子报告提供多核苷酸分子包含插入、缺失和/或融合的指示。

4.根据权利要求1所述的系统，其中，在参考序列上具有相同开始-终止位置的经处理的序列读段被分组到一个族中。

5.根据权利要求1所述的系统，其中，所述遗传序列读段包括成对的末端序列读段。

6.根据权利要求5所述的系统，其中，具有重叠区域的成对的末端序列读段被合并，以生成包括合并读段的经处理的读段。

7.根据权利要求6所述的系统，其中，具有重叠区域的成对的末端序列读段被合并，所述重叠区域具有至少70％的同一性。

8.根据权利要求6所述的系统，其中，具有重叠区域的成对的末端序列读段被合并，所述重叠区域具有至少80％的同一性。

9.根据权利要求6所述的系统，其中，具有重叠区域的成对的末端序列读段被合并，所述重叠区域具有至少90％的同一性。

10.根据权利要求6所述的系统，其中，具有至少13个碱基的重叠的成对的末端序列读段被合并。

11.根据权利要求6所述的系统，其中，具有至少15个碱基的重叠的成对的末端序列读段被合并。

12.根据权利要求6所述的系统，其中，具有至少17个碱基的重叠的成对的末端序列读段被合并。

13.根据权利要求6所述的系统，其中，具有至少19个碱基的重叠的成对的末端序列读段被合并。

14.根据权利要求5所述的系统，其中，具有重叠区域的成对的末端序列读段被合并以形成合并读段，并且其中合并的序列读段被进一步处理以生成经处理的读段，所述经处理的读段包含代表性的、合并的独特读段。

15.根据权利要求1所述的系统，其中，所述族的至少一部分包括多于一个分裂读段。

16.根据权利要求15所述的系统，还包括生成包括所述多于一个分裂读段的每个族的共有序列。

17.根据权利要求1所述的系统，其中，所述分裂读段是从每个族生成的共有序列。

18.根据权利要求1所述的系统，其中，所述融合簇内的分裂读段的第一断点彼此之间的距离小于10个核苷酸，并且所述融合簇内的分裂读段的第二断点彼此之间的距离小于10个核苷酸。

19.根据权利要求1所述的系统，其中，所述分裂读段是族的共有序列。

20.根据权利要求1所述的系统，其中，所述预定的最大距离小于5,000个核苷酸。

21.根据权利要求1所述的系统，其中，所述预定的最大距离小于3,500。

22.根据权利要求1所述的系统，其中，所述族还包括：

(a)具有相同开始位置和相同的经压缩的终止序列的经处理的读段，或

(b)具有相同终止位置和相同的经压缩的开始序列的经处理的读段。

23.根据权利要求22所述的系统，其中，所述经压缩的开始/终止序列通过压缩整体的独特序列读段以去除均聚物中的重复核苷酸生成。

24.根据权利要求23所述的系统，所述均聚物包含聚(dA)或聚(dT)。

25.根据权利要求23所述的系统，所述均聚物包含聚(dG)或聚(dC)。

26.根据权利要求1所述的系统，其中，所述样品包括无细胞DNA。

27.根据权利要求1所述的系统，其中，所述参考序列是人类参考序列。

28.根据权利要求1所述的系统，其中，所述核酸测序仪是下一代测序仪。

29.根据权利要求5所述的系统，其中，评估所述成对的末端序列读段的质量，以生成质量评分。

30.根据权利要求1所述的系统，其中，所述计算机可读介质包括存储器、硬盘驱动器或计算机服务器。

31.根据权利要求1所述的系统，其中，所述通信网络包括电信网络、互联网、外联网或内联网。

32.根据权利要求1所述的系统，其中，所述通信网络包括能够进行分布式计算的一个或更多个计算机服务器。

33.如权利要求32所述的系统，其中，分布式计算是云计算。

34.根据权利要求1所述的系统，其中，所述通信网络包括存储设备，所述存储设备包括所述遗传序列读段。

35.根据权利要求1所述的系统，其中，所述计算机位于远离所述核酸测序仪定位的计算机服务器上。

36.根据权利要求1所述的系统，还包括通过网络与所述计算机通信的电子显示器，其中所述电子显示器包括用于在实施(i)-(vi)后显示结果的用户界面。

37.根据权利要求36所述的系统，其中，所述用户界面是图形用户界面(GUI)或基于网络的用户界面。

38.根据权利要求36所述的系统，其中，所述电子显示器在个人计算机中。

39.根据权利要求36所述的系统，其中，所述电子显示器在启用了互联网的计算机中。

40.根据权利要求39所述的系统，其中，所述启用了互联网的计算机位于远离所述计算机的位置。

41.根据权利要求1所述的系统，其中，如果所述第一子序列和所述第二子序列与所述参考序列相比处于正常的基因组顺序，则所述融合簇被判定为缺失。

42.根据权利要求1所述的系统，其中，如果所述第一子序列和所述第二子序列与所述参考序列相比处于相反的基因组顺序，则所述融合簇被判定为插入。

43.一种计算机实施的方法，所述方法用于检测遗传序列读段中的插入和/或缺失，所述方法包括：

(a)用计算机处理器接收从核酸测序仪生成的多核苷酸分子的遗传序列读段；

(b)用所述计算机处理器处理所述遗传序列读段以生成经处理的序列读段；

(c)用所述计算机处理器将所述经处理的序列读段映射到参考序列；

(d)由所述计算机处理器将所述经处理的序列读段分组到族中，每个族包括源自样品中的相同多核苷酸分子的独特序列读段；

(e)由所述计算机处理器将所述族的至少一部分分组到融合簇中，每个融合簇包括分裂读段，其中每个分裂读段包含与映射到第一遗传基因座的第一断点相邻的第一子序列和与映射到第二不同的遗传基因座的第二断点相邻的第二子序列，并且其中所述第一断点和所述第二断点形成断点对；

(f)在以下情况下，由所述计算机处理器将融合簇判定为包括插入和/或缺失：

i.断点对位于所述参考序列的相同的染色体上，

ii.所述断点对中的所述第一断点和所述第二断点之间的距离小于所述参考序列上的预定的最大距离，以及

iii.子序列处于相同的5’-3’定向。

44.根据权利要求43所述的方法，还包括：

(g)在(f)中的至少一个标准不被满足的情况下，由所述计算机处理器将融合簇判定为包括融合。

45.根据权利要求43所述的方法，其中，所述序列读段包括成对的末端序列读段的集合。

46.根据权利要求45所述的方法，其中，处理包括：

i.合并成对的末端序列读段以形成合并读段。

47.根据权利要求46所述的方法，其中，处理还包括：

ii.将具有相同条形码和相同内部序列的合并读段的合集分组到独特集合中；以及

iii.生成每个独特集合的经处理的序列读段。

48.根据权利要求45所述的方法，其中，具有重叠区域的成对的末端序列读段被合并，以形成合并的序列读段。

49.根据权利要求48所述的方法，其中，具有重叠区域的成对的末端序列读段被合并，所述重叠区域具有至少60％的同一性。

50.根据权利要求48所述的方法，其中，具有重叠区域的成对的末端序列读段被合并，所述重叠区域具有至少70％的同一性。

51.根据权利要求48所述的方法，其中，具有重叠区域的成对的末端序列读段被合并，所述重叠区域具有至少80％的同一性。

52.根据权利要求48所述的方法，其中，具有重叠区域的成对的末端序列读段被合并，所述重叠区域具有至少90％的同一性。

53.根据权利要求48所述的方法，其中，具有至少13个碱基的重叠的成对的末端序列读段被合并。

54.根据权利要求48所述的方法，其中，具有至少15个碱基的重叠的成对的末端序列读段被合并。

55.根据权利要求48所述的方法，其中，具有至少17个碱基的重叠的成对的末端序列读段被合并。

56.根据权利要求48所述的方法，其中，具有至少19个碱基的重叠的成对的末端序列读段被合并。

57.根据权利要求43所述的方法，其中，所述融合簇内分裂读段的第一断点彼此之间的距离小于10个核苷酸，并且所述融合簇内分裂读段的第二断点彼此之间的距离小于10个核苷酸。

58.根据权利要求43所述的方法，其中，所述预定的最大距离小于5,000个核苷酸。

59.根据权利要求43所述的方法，其中，所述预定的最大距离小于3,000个核苷酸。

60.根据权利要求43所述的方法，其中，基于具有相同的一对分子条形码将所述经处理的序列读段分组到族中。

61.根据权利要求43或60所述的方法，其中，基于映射到所述参考序列上的相同位置，将所述经处理的序列读段分组到族中。

62.根据权利要求43或60所述的方法，其中，所述族中的所述经处理的序列读段包括：

(a)具有相同开始位置和相同的经压缩的终止序列的序列读段，或者

(b)具有相同终止位置和相同的经压缩的开始序列的序列读段。

63.根据权利要求62所述的方法，其中，所述经压缩的开始序列或所述经压缩的终止序列通过将所述经处理的序列读段的一部分压缩以去除均聚物中的重复核苷酸生成的。

64.根据权利要求63所述的方法，所述均聚物包括聚(dA)或聚(dT)。

65.根据权利要求63所述的方法，所述均聚物包括聚(dG)或聚(dC)。

66.根据权利要求43所述的方法，其中，基于族内的分裂读段具有彼此在预定断点距离内的第一断点和彼此在预定断点距离内的第二断点将所述族分组到融合簇中。

67.根据权利要求66所述的方法，其中，所述第一预定断点距离和所述第二预定断点距离小于25个核苷酸。

68.根据权利要求66所述的方法，其中，所述第一预定断点距离和所述第二预定断点距离小于10个核苷酸。

69.根据权利要求43所述的方法，其中，所述分裂读段是对包括分裂读段的所述族中的每一个族生成的共有序列。

70.根据权利要求69所述的方法，其中，基于分裂读段具有彼此在预定断点距离内的断点，将所述共有序列分组到融合簇中。

71.根据权利要求70所述的方法，其中，所述预定断点距离小于25个核苷酸。

72.根据权利要求70所述的方法，其中，所述预定断点距离小于10个核苷酸。

73.根据权利要求43所述的方法，其中，所述参考序列是人类参考序列。

74.根据权利要求43所述的方法，其中，所述核酸测序仪是下一代测序仪。

75.根据权利要求43所述的方法，其中，所述样品是从受试者获得的体液。

76.根据权利要求75所述的方法，其中，所述体液选自由血液、血浆、血清、尿液、唾液、粘膜分泌物、痰、粪便和泪液组成的组。

77.根据权利要求75或76所述的方法，其中，所述受试者患有癌症。

78.根据权利要求43所述的方法，其中，如果所述第一子序列和所述第二子序列与所述参考序列相比处于正常的基因组顺序，则所述融合簇被判定为缺失。

79.根据权利要求43所述的方法，其中，如果所述第一子序列和所述第二子序列与所述参考序列相比处于相反的基因组顺序，则所述融合簇被判定为插入。

80.根据权利要求75-77所述的方法，其中，所述样品包括无细胞DNA分子。

81.一种方法，包括：

(a)将多核苷酸分子的遗传序列读段映射到参考序列；

(b)识别包含分裂读段的遗传序列读段，其中每个分裂读段包含与映射到第一遗传基因座的第一断点相邻的第一子序列和与映射到第二不同遗传基因座的第二断点相邻的第二子序列，并且其中所述第一断点和所述第二断点形成断点对；

(b)将所述分裂读段分组到族中，每个族包括源自样品中相同多核苷酸分子的序列读段；

(d)生成每个族的共有分裂读段序列；

(e)将每个族的共有分裂读段序列分组到融合簇中，其中所述融合簇内的共有序列具有相似的断点对；

(f)在以下情况下将融合簇判定为包括插入和/或缺失：

i.断点对位于所述参考序列的相同的染色体上，

ii.所述断点对中第一断点和第二断点之间的距离小于所述参考序列上的预定的最大距离，以及

iii.子序列处于相同的5’-3’定向。

82.根据权利要求81所述的方法，还包括：

(g)将融合簇判定为包括其中(f)中的至少一个标准不被满足的融合。

83.根据权利要求81所述的方法，其中，每个融合簇中的共有序列包含分裂读段，所述分裂读段具有彼此之间在第一预定断点距离内的第一断点和彼此之间在第二预定断点距离内的第二断点。

84.根据权利要求83所述的方法，其中，所述第一预定断点距离和所述第二预定断点距离小于25个核苷酸。

85.根据权利要求83所述的方法，其中，所述第一预定断点距离和所述第二预定断点距离小于10个核苷酸。

86.一种方法，包括：

(a)将多核苷酸分子的遗传序列读段映射到参考序列；

(b)将所述遗传序列读段分组到族中，每个族包括源自样品中的相同多核苷酸分子的独特序列读段；

(c)将族的独特序列读段分组到融合簇中，每个融合簇包括分裂读段，其中每个分裂读段的特征在于以下子序列：与映射到第一遗传基因座的第一断点相邻的第一子序列和与映射到第二不同遗传基因座的第二断点相邻的第二子序列，并且其中所述第一断点和所述第二断点形成断点对；

(d)在以下情况下将融合簇的独特序列读段判定为包含插入和/或缺失：

i.断点对映射到相同的染色体

iii.子序列处于相同的5’-3’定向。

87.根据权利要求86所述的方法，还包括：

(e)将融合簇的独特序列读段判定为包括其中(d)中的至少一个标准不被满足的融合。

88.根据权利要求86所述的方法，其中，所述遗传序列读段由核酸测序仪生成。

89.一种计算机实施的方法，所述方法用于检测插入和/或缺失和/或融合，所述方法包括：

(a)用计算机处理器对齐和合并从核酸测序仪收集的成对的末端序列读段，以从成对的末端序列读段的集合生成代表性的、合并的独特读段，其中每个代表性的、合并的独特读段表示在成对的末端序列读段合并后具有相同分子条形码和序列的成对的末端序列读段；

(b)用处理器将所述代表性的、合并的独特读段映射到参考序列；

(c)用所述处理器将所述代表性的、合并的、独特读段分组到族中，每个族包括源自相同原始加标签的多核苷酸分子的代表性的、合并的、独特读段，每个族由共有序列表示；

(d)用所述处理器将族的共有序列分组到融合簇，每个融合簇包括来自分裂读段的族的共有序列，

其中每个分裂读段的特征在于子序列，其中第一子序列与映射到第一遗传基因座的第一断点相邻和第二子序列与映射到第二不同遗传基因座的第二断点相邻，

其中所述第一断点和所述第二断点形成断点对，

其中所述融合簇中的共有序列包括相似的断点对；

(e)在以下情况下，由所述处理器判定融合簇具有插入和/或缺失：

i.断点对映射到相同的染色体，

ii.断点对之间的距离小于预定的最大距离，并且

iii.子序列处于相同的5’-3’定向；

90.根据权利要求89所述的方法，还包括在以下标准中的至少一个不被满足的情况下，由所述处理器判定融合簇具有融合：

i.断点对映射到相同的染色体，

ii.断点对之间的距离小于预定的最大距离，以及

iii.子序列处于相同的5’-3’定向；以及

91.根据权利要求89或90所述的方法，还包括生成电子格式的报告，所述报告提供多核苷酸分子具有插入和/或缺失和/或融合的指示。

92.根据权利要求89所述的方法，还包括用所述处理器计算所述成对的末端序列读段的测序质量，以提供所述成对的末端序列读段的质量评分。

93.一种检测插入和/或缺失和/或融合的方法，其中执行权利要求43至80中任一项所述的方法。

94.根据权利要求81或权利要求86所述的方法，其中，所述方法是计算机实施的方法。

95.根据权利要求43或权利要求81或权利要求86所述的方法，其中，所述方法还包括以电子格式生成，其提供多核苷酸分子具有插入和/或缺失和/或融合的指示。

96.一种治疗患有癌症的患者的方法，所述方法包括：

(a)接收关于患者中融合簇的存在或融合簇的量的数据，其中所述数据使用根据权利要求43-80或权利要求81-85或权利要求86-88或权利要求89-92中任一项所述的方法获得；以及

(b)基于所述融合簇的存在或所述融合簇的量，使患者经受不同的治疗方案。

97.根据权利要求96所述的方法，其中，具有所述融合簇的患者或存在较高量的所述融合簇的患者比没有所述融合簇或具有较低量的所述融合簇的患者接受更严格的治疗方案。

98.根据权利要求97所述的方法，其中，所述更严格的方案的特征在于治疗剂的剂量高于较不严格方案中治疗剂的剂量。

99.根据权利要求98所述的方法，其中，所述融合簇被判定为MET外显子14跳跃缺失。

100.根据权利要求99所述的方法，其中，所述治疗剂是MET抑制剂。

101.根据权利要求100所述的方法，其中，所述MET抑制剂选自由克唑替尼、卡博替尼、卡马替尼、tepotinib、glesatinib组成的组。

102.根据权利要求96-101所述的方法，其中，所述治疗方案包括化学疗法、放射疗法或免疫疗法。

103.根据权利要求96所述的方法，其中，所述数据指示接受癌症治疗的患者中融合簇的存在，并且治疗在这样的患者中继续进行。