CN107208156B

CN107208156B - 用于使用变异识别数据来确定结构变异和定相的系统和方法

Info

Publication number: CN107208156B
Application number: CN201680007065.6A
Authority: CN
Inventors: S·凯莉阿佐波洛-帕纳乔托波洛; P·马克斯; M·史诺-莱文; X·郑; M·雅罗什; S·萨克森诺夫; K·吉欧达; P·穆迪瓦蒂; H·奥多尼兹; J·特里; W·H·希顿
Original assignee: 10X Genomics Inc
Current assignee: 10X Genomics Inc
Priority date: 2015-02-09
Filing date: 2016-02-09
Publication date: 2021-10-08
Anticipated expiration: 2036-02-09
Also published as: CA2975529A1; MX2017010142A; JP2018513445A; EP3256606B1; US20210295947A1; US20160232291A1; IL253517B; AU2016219480A1; WO2016130578A1; EP3256606A1; IL253517A0; EP3256606A4; SG11201705996PA; AU2016219480B2; US10854315B2; CN107208156A

Abstract

本发明提供用于使用获自生物样本的核酸的变异识别数据来确定结构变异和定相的系统和方法。获得序列读段，每个序列读段包括对应于所述测试核酸的子集的一部分以及对独立于所述测序数据的条形码进行编码的一部分。获得单元信息。每个单元表示所述样本核酸的不同部分。每个单元对应于由所述序列读段形成的多个序列读段组中的序列读段组，使得相应的序列读段组中的每个序列读段对应于由对应于所述相应的组的所述单元表示的所述核酸的子集。二项式测试识别单元对，所述单元对具有比偶然预期更多的共同具有相同条形码的序列读段。概率模型从这些单元对的所述序列读段确定结构变异似然率。

Description

用于使用变异识别数据来确定结构变异和定相的系统和方法

相关申请的交叉引用

本申请要求于2015年10月6日提交的标题为“Systems and Methods forDetermining Structural Variation Using Probabilistic Models”的美国临时专利申请62/238,077的优先权，所述美国临时专利申请在此以引用的方式整体并入。

本申请还要求于2015年2月9日提交的标题为“Systems and Methods forDetermining Structural Variation”的美国临时专利申请62/113,693的优先权，所述美国临时专利申请特此以引用的方式整体并入。

本申请还要求于2015年2月24日提交的标题为“Systems and Methods forImplementing Linked Read Algorithms for Haplotype Phasing and StructuralVariant Detection”的美国临时专利申请62/120,247的优先权，所述美国临时专利申请特此以引用的方式整体并入。

本申请还要求于2015年2月24日提交的标题为“Detecting Structural Variantsand Phasing Haplotypes from Cancer Exome Sequencing Using 1ng Dna Input”的美国临时专利申请62/120,330的优先权，所述美国临时专利申请特此以引用的方式整体并入。

技术领域

本说明书描述了与使用核酸测序数据来进行单倍型定相和结构变异检测有关的技术。

背景

根据从使用大规模并行测序方法进行测序的人类基因组获得的实验数据进行的单倍型组装已成为基因数据的重要来源。此类数据用作实现基于遗传学的诊断以及人疾病研究、检测和个性化治疗的划算方式。

通过诸如在2014年10月29日提交的标题为“Analysis of Nucleic AcidSequences”的美国专利申请No.62/072,214中公开的平台提供的大范围信息(long-rangeinformation)极大地方便了对基因组的大规模结构变异(诸如易位、大片段缺失或基因融合)的检测。其它实例包括但不限于边合成边测序平台(sequencing-by-synthesisplatform)(ILLUMINA)，Bentley等人,2008,“Accurate whole human genome sequencingusing reversible terminator chemistry,Nature 456:53-59；边连接边测序平台(sequencing-by-litigation platform)(POLONATOR；ABI SOLiD)，Shendure等人,2005,“Accurate Multiplex Polony Sequencing of an Evolved bacterial Genome”,Science309:1728-1732；焦磷酸测序平台(ROCHE 454)，Margulies等人,2005,“Genome sequencingin microfabricated high-density picoliter reactors”,Nature 437:376-380；以及单分子测序平台(HELICOS HELISCAPE)；Pushkarev等人,2009,“Single-moleculesequencing of an individual human genome”,Nature Biotech 17:847-850”；(PACIFICBIOSCIENCES)Eid等人，“Real-time sequencing form single polymerase molecules”,Science 323:133-138，每篇参考文献都特此以全文引用的方式并入。

经开发了若干种算法来从全基因组测序(WGS)数据中检测此类事件。参见，例如Chen等人，2009，“BreakDancer:an algorithm for high-resolution mapping ofgenomic structural variation”，Nature Methods 6(9)，第677-681页；以及Layer等人，2014，“LUMPY:A probabilistic framework for structural variant discovery”，Genome Biology 15(6):R84。这些算法的目标是检测结构变异的端点(endpoint)(例如，缺失或基因融合的端点)。这些端点又被称为“断点(breakpoint)”并且术语端点和断点可互换使用。为了检测断点，现有的算法依赖于检测读段对，所述读段对在意想不到的取向上相对于彼此或者在意想不到的距离上(相对于插入片段大小彼此距离太远或彼此距离太近)映射至基因组。这意味着为了使常规算法检测到断点，读段对必须跨越所述断点。此限制使得现有的算法不适用于靶向测序数据，诸如全基因组测序(WES)数据。这是因为断点只有在它们非常靠近靶区域的时候才会被读段对跨越。情况通常不是这样。例如，癌症中的许多基因融合出现于基因内含子而不是外显子上，因此用WES无法检测到所述基因融合。

鉴于跨越了人类基因组的大部分的单倍型数据的可用性，需要用于有效地处理此数据以便推进上述诊断、发现和治疗等目标的方法，尤其是在个人基因组的全基因组测序的成本降到$1000以下时。为了根据此类数据在计算上组装单倍型，需要找出来自样本中存在的两个单倍型的读段并且推断出该两个单倍型的共有序列。此类问题已被展示为NP难题。参见Lippert等人，2002,“Algorithmic strategies for the single nucleotidepolymorphism haplotype assembly problem,”Brief.Bionform 3:23-31，该篇参考文献特此以引用方式并入。

考虑到以上背景，本领域中需要用于使用来自平行测序方法的测序数据来进行单倍型定相和结构变异检测的改进的系统和方法。

发明概述

提供了用于识别结构变异和用于单倍型定相的技术解决方案(例如，计算系统、方法和非暂时性计算机可读存储介质)。通过一些平台，诸如2014年10月29日提交的标题为“Analysis of Nucleic Acid Sequences”的美国临时专利申请No.62/072,214或2015年2月9日提交的标题为“Systems and Methods for Determining Structural Variation”的美国临时专利申请62/113,693(所述每个美国临时专利申请特此以引用的方式并入)中公开的那些平台，在进行靶标识别之前对基因组进行分段和分区并编制条形码。因此，在基因组上保持了条形码信息的完整性。使用条形码信息通过检测基因组的展示出明显条形码重叠的区来识别可能的结构变异断点。还使用条形码信息来获得定相信息。

下文呈现了本发明的概述，以便提供对本发明的一些方面的基本理解。此概述不是本发明的广泛概括。它不旨在识别本发明的重要/关键元件或限定本发明的范围。它的唯一目的是以简化形式呈现本发明的一些概念，作为之后呈现的更详细描述的前序。

在所附权利要求书的范围内的系统、方法和装置的各种实施方案各自具有若干方面，其中没有单独一者独自负责本文所描述的所要属性。在不限制所附权利要求书的范围的情况下，在本文中描述一些显著特征。在考虑此论述之后，并且尤其是在阅读了标题为“具体实施方式”的部分之后，将理解如何使用各种实施方案的特征。

部分A，结构变异。在一些实现方式中，提供了一种在获自生物样本的测试核酸的测序数据中检测结构变异的方法。所述方法包括在计算机系统处执行某些操作，所述计算机系统具有一个或多个处理器和存储器，所述存储器存储用于由一个或多个处理器执行的一个或多个程序。获得多个序列读段。多个序列读段中的每个相应的序列读段包括第一部分，所述第一部分对应于测试核酸的子集；以及第二部分，所述第二部分对相应的序列读段的条形码进行编码。如本文所使用，术语“序列读段”和“测序读段”可互换使用。条形码独立于测试核酸的测序数据。在一些实施方案中，多个序列读段中的第一序列读段来自大于10千碱基对(kbp)、20kbp、30kbp、40kbp、50kbp、60kbp、70kbp、80kbp、90kbp或100kbp的测试核酸的子集。在一些实施方案中，多个序列读段中的第一序列读段是2x36bp、2x50bp、2x76bp、2x100bp、2x150bp或2x250bp，其中术语2x Nbp意指序列读段具有来自单一核酸片段(例如，来自获自生物样本的测试核酸(text nucleic acid))的隔开未指定长度的长度为N个碱基对的两个读段。在一些实施方案中，这个未指定长度介于200至1200个碱基对之间。在一些实施方案中，多个序列读段中的第一序列读段表示单一核酸片段(例如，来自获自生物样本的测试核酸)的至少25bp、至少30bp、至少50bp、至少100bp、至少200bp、至少250bp、至少500bp、少于500bp、少于400bp或少于300bp。

还获得了多个单元的单元信息(Bin information)。多个单元中的每个相应的单元(bin)表示测试核酸的不同部分。单元信息为多个单元中的每个相应的单元识别多个序列读段组中的序列读段组。多个序列读段组中的每个序列读段组中的每个序列读段在多个序列读段中。此外，多个序列读段组中的每个相应的序列读段组中的每个相应的序列读段具有相应的第一部分，所述第一部分对应于至少部分与测试核酸的不同部分重叠的测试核酸的子集，所述不同部分由对应于相应的序列读段组的单元表示。

对多个序列读段中的第一序列读段组中的唯一条形码的数目进行确定，其中第一序列读段组是多个单元中的第一单元，所述唯一条形码同样发现于多个序列读段中的第二序列读段组，其中第二序列读段组是多个单元中的第二单元。据此，此数目可归因于机会的概率或似然率通过基于所确定数目的(a)度量与(b)阈值准则的比较来确定。当度量满足阈值准则时，认为已在以下各处发生结构变异：(i)由第一序列读段组表示的测试核酸的不同部分，和/或(ii)由第二序列读段组表示的测试核酸的不同部分。在一些实施方案中，这个度量被计算为：

其中{b₁,b₂,…,b_n}是发现于第一序列读段组和第二序列读段组两者的n个唯一条形码的集合，i是到n的整数索引，并且

是其中出现序列读段b_i的第一部分的多个单元的分数。在一些此类实施方案中，当p为10^-2或更小、10^-3或更小、10^-4或更小、10^-5或更小、10^-6或更小、或10^-7或更小时，度量被认为满足阈值准则。

在一些实施方案中，结构变异是由第一序列读段组表示的测试核酸的不同部分中插入或缺失50个连续碱基或更多、500个连续碱基或更多、5000个连续碱基或更多、或者10000个连续碱基或更多。在一些实施方案中，结构变异是单核苷酸多态性。

在一些实施方案中，认为度量满足阈值准则，并且所述方法还包括将多个相应的序列读段中的每个相应的序列读段与以下两者进行比对：(i)对应于第一序列读段组的测试核酸的子集；以及(ii)对应于第二序列读段组的测试核酸的子集。基于此比对而确定多个相应的序列读段中的每个相应的序列读段相对于对应于第一序列读段组的测试核酸的子集的第一比对质量。然后，基于所述比对而确定多个相应的序列读段中的每个相应的序列读段相对于对应于第二序列读段组的测试核酸的子集的第二比对质量。从多个相应的序列读段除去第一比对质量和第二比对质量类似的每个序列读段。在这个新的数目的相应的序列读段的情况下，确定数目可归因于机会的概率或似然率的操作重新计算为基于新减少的数目的(A)度量与(B)阈值准则的比较。当重新计算的度量满足阈值准则时，认为已在以下各处发生结构变异：(i)由第一序列读段组表示的测试核酸的不同部分，和/或(ii)由第二序列读段组表示的测试核酸的不同部分。

在一些实施方案中，维持中断列表(blackout list)。这个中断列表包括测试核酸的多个中断区。在此类实施方案中，当序列读段的第一部分与多个中断区中的中断区重叠时，从用于针对阈值准则进行评价的多个相应的序列读段除去所述序列读段。

在一些实施方案中，多个单元中的每个单元表示至少20kbp、至少50kbp、至少100kbp、至少250kbp、或至少500kbp。

在一些实施方案中，由第一单元表示的测试核酸的不同部分与由第二单元表示的测试核酸的不同部分重叠。在一些此类实施方案中，由第一单元表示的测试核酸的不同部分的至少50％、至少80％、或至少95％与由第二单元表示的测试核酸的不同部分重叠。

在一些实施方案中，由多个单元中的每个相应的单元表示的测试核酸的每个不同部分之间不存在重叠。

在一些实施方案中，多个序列读段中的每个相应的序列读段组中的每个相应的序列读段具有相应的第一部分，所述第一部分对应于完全与测试核酸的不同部分重叠的测试核酸的子集，所述不同部分由对应于相应的序列读段组的单元表示。

在一些实施方案中，多个单元包括10,000个或更多个单元、100,000个或更多个单元、或者1,000,000个或更多个单元。在一些实施方案中，生物样本来自多染色体物种，并且测试核酸包括统一表示来自多染色体物种的多条染色体的多个核酸。

在一些实施方案中，多个序列读段中的每个相应的序列读段的第二部分中的条形码对选自以下的唯一预定值进行编码：集合{1,…,1024}、集合{1,…,4096}、集合{1,…,16384}、集合{1…,65536}、集合{1,…,262144}、集合{1,…,1048576}、集合{1,…,4194304}、集合{1,…,16777216}、集合{1,…,67108864}、或集合{1,…,1x10¹²}。

在一些实施方案中，多个序列读段中的序列读段的第二部分中的条形码定位于连续的寡核苷酸组。在一些此类实施方案中，连续的寡核苷酸组是N-mer，其中N是选自集合{4,…,20}的整数。

在一些实施方案中，多个序列读段中的序列读段的第二部分中的条形码定位于序列读段内的预定的不连续的核苷酸组。例如，不连续的组在各种实施方案中定位于序列读段的两个不连续部分、三个不连续部分、四个不连续部分、五个不连续部分或更多。在一些实施方案中，预定的不连续的核苷酸组统一由N个核苷酸组成，其中N是集合{4,…,20}中的整数。

在一些实施方案中，第一序列读段对应于大于20kbp、30kbp、40kbp、50kbp、60kbp、70kbp、或80kbp的测试核酸的子集。在一些实施方案中，多个序列读段中的第一序列读段是2x36bp、2x50bp、2x76bp、2x100bp、2x150bp或2x250bp，其中术语2x Nbp意指序列读段具有来自单一核酸片段(例如，来自获自生物样本的测试核酸)的隔开未指定长度的长度为N个碱基对的两个读段。在一些实施方案中，这个未指定长度介于200至1200个碱基对之间。在一些实施方案中，多个序列读段中的第一序列读段表示单一核酸片段(例如，来自获自生物样本的测试核酸)的至少25bp、至少30bp、至少50bp、至少100bp、至少200bp、至少250bp、至少500bp、少于500bp、少于400bp或少于300bp。

在一些实施方案中，结构变异是从由第二序列读段组表示的测试核酸的不同部分中有50个连续碱基或更多易位到由第一序列读段组表示的测试核酸的不同部分中。

在一些实施方案中，由对应于第一序列读段组的单元表示的测试核酸的不同部分来自生物样本的第一染色体，并且由对应于第二序列读段组的单元表示的测试核酸的不同部分来自生物样本的第二染色体，其中第二染色体不同于第一染色体。在一些此类实施方案中，第一染色体是父系染色体，并且第二染色体是母系染色体。在一些此类实施方案中，生物样本是人，并且第一染色体是21、18或13号染色体。

在一些实施方案中，认为发生了结构变异并且所述方法还包括响应于结构变异而用治疗方案治疗提供生物样本的受试者。在一些实施方案中，治疗方案包括饮食调整。在一些实施方案中，治疗方案包括施用抑制或加强与结构变异相关联的生物途径的药物组合物。

本公开的另一方面是计算系统，所述计算系统包括一个或多个处理器和存储器，所述存储器存储有待由一个或多个处理器执行的一个或多个程序。一个或多个程序包括指令，所述指令用于获得多个序列读段。多个序列读段中的每个相应的序列读段包括第一部分，所述第一部分对应于测试核酸的子集；以及第二部分，所述第二部分对相应的序列读段的条形码进行编码。条形码独立于测试核酸的测序数据。多个单元中的每个相应的单元表示测试核酸的不同部分。单元信息为多个单元中的每个相应的单元识别多个序列读段组中的序列读段组。多个序列读段组中的每个序列读段组中的每个序列读段在多个序列读段中。此外，多个序列读段组中的每个相应的序列读段组中的每个相应的序列读段具有相应的第一部分，所述第一部分对应于至少部分与测试核酸的不同部分重叠的测试核酸的子集，所述不同部分由对应于相应的序列读段组的单元表示。对多个序列读段中的第一序列读段组中的唯一条形码的数目进行确定，其中第一序列读段组是多个单元中的第一单元，所述唯一条形码同样发现于多个序列读段的第二序列读段组，其中第二序列读段组是多个单元中的第二单元。此数目可归因于机会的概率或似然率通过基于所述数目的度量与阈值准则的比较来获得。当度量满足阈值准则时，认为已在以下各处发生结构变异：(i)由第一序列读段组表示的测试核酸的不同部分，和/或(ii)由第二序列读段组表示的测试核酸的不同部分。

本公开的另一方面提供了一种非暂时性计算机可读存储介质，所述非暂时性计算机可读存储介质存储一个或多个程序，所述一个或多个程序被配置用于由计算机执行。一个或多个程序包括指令，所述指令用于获得多个序列读段。多个序列读段中的每个相应的序列读段包括第一部分，所述第一部分对应于测试核酸的子集；以及第二部分，所述第二部分对相应的序列读段的条形码进行编码。条形码独立于测试核酸的测序数据。获得了多个单元的单元信息。多个单元中的每个相应的单元表示测试核酸的不同部分。单元信息为多个单元中的每个相应的单元识别多个序列读段组中的序列读段组。多个序列读段组中的每个序列读段组中的每个序列读段在多个序列读段中。此外，多个序列读段组中的每个相应的序列读段组中的每个相应的序列读段具有相应的第一部分，所述第一部分对应于至少部分与测试核酸的不同部分重叠的测试核酸的子集，所述不同部分由对应于相应的序列读段组的单元表示。对多个序列读段中的第一序列读段组中的唯一条形码的数目进行确定，其中第一序列读段组是多个单元中的第一单元，所述唯一条形码同样发现于多个序列读段的第二序列读段组，其中第二序列读段组是多个单元中的第二单元。此数目可归因于机会的概率或似然率通过基于所述数目的度量与阈值准则的比较来获得。当度量满足阈值准则时，认为已在以下各处发生结构变异：(i)由第一序列读段组表示的测试核酸的不同部分，和/或(ii)由第二序列读段组表示的测试核酸的不同部分。

部分B，结构变异的其他实施方案。本公开的另一方面提供了一种确定获自单一生物样本的测试核酸中发生结构变异的似然率的方法。所述方法包括在计算机系统处从将测试核酸片段化的多个测序反应获得多个序列读段，所述计算机系统具有一个或多个处理器和存储器，所述存储器存储用于由一个或多个处理器执行的一个或多个程序。多个序列读段中的每个相应的序列读段包括第一部分，所述第一部分对应于测试核酸的子集；以及第二部分，所述第二部分对相应的序列读段的条形码进行编码。条形码独立于测试核酸的测序数据。

所述方法还包括获得多个单元的单元信息。多个单元中的每个相应的单元表示测试核酸的不同部分。单元信息为多个单元中的每个相应的单元识别处于多个序列读段中的多个序列读段组中的序列读段组。多个序列读段组中的每个相应的序列读段组中的每个相应的序列读段的相应的第一部分对应于至少部分与测试核酸的不同部分重叠的测试核酸的子集，所述不同部分由对应于相应的序列读段组的单元表示。

所述方法还包括从多个单元当中识别对应于测试核酸的不重叠的部分的第一单元和第二单元。第一单元由多个序列读段中的第一序列读段组表示，并且第二单元由多个序列读段中的第二序列读段组表示。

所述方法还包括确定表示第一组和第二组共有的条形码的数目可归因于机会的数值概率或似然率的第一值。

所述方法还包括，响应于确定第一值满足预定截止值，针对第一单元和第二单元共有的每个条形码，获得片段对，从而获得一个或多个片段对，一个或多个片段对中的每个片段对(i)对应于第一单元和第二单元共有的不同条形码；并且(ii)由不同的第一计算片段和不同的第二计算片段组成。对于一个或多个片段对中的每个相应的片段对：不同的第一计算片段由多个序列读段中具有对应于相应的片段对的条形码的相应的第一序列读段子集组成，其中相应的第一序列读段子集中的每个序列读段在相应的第一序列读段子集中的另一个序列读段的预先确定的遗传距离内，相应的片段对的不同的第一计算片段起源于具有对应于第一单元中的相应的片段对的条形码的第一序列读段，并且相应的第一序列读段子集中的每个序列读段来自第一单元。不同的第二计算片段由多个序列读段中具有对应于相应的片段对的条形码的相应的第二序列读段子集组成，其中相应的第二序列读段子集中的每个序列读段在相应的第二序列读段子集中的另一个序列读段的预先确定的遗传距离内，相应的片段对的不同的第二计算片段起源于具有对应于第二单元中的相应的片段对的条形码的第二序列读段，并且相应的第二序列读段子集中的每个序列读段来自第二单元。

所述方法还包括基于关于一个或多个片段对的第一模型的发生概率和第二模型的发生概率而计算相应的似然率，从而提供测试核酸中的结构变异的似然率。在此处，第一模型规定：观察到一个或多个片段对的相应的第一计算片段和相应的第二计算片段并未给出靶核酸序列的结构变异，并且所述相应的第一计算片段和相应的第二计算片段是共同分子的一部分。另外，第二模型规定：观察到一个或多个片段对的相应的第一计算片段和相应的第二计算片段已给出靶核酸序列的结构变异。

在一些实施方案中，计算的似然率项是第一模型的发生概率与第二模型的发生概率之间的比率评分。

在一些实施方案中，第一单元和第二单元在测试核酸上间隔开至少预定数目千碱基。

在一些实施方案中，第一单元和第二单元在测试核酸上间隔开至少50千碱基。

在一些实施方案中，使用二项式测试来计算第一值。在一些实施方案中，这个二项式测试具有以下形式：

p＝1-P_Binom(n；n₁n₂/B)

其中p是第一值，其表述为p值，n是发现于第一序列读段组和第二序列读段组两者的唯一条形码的数目，n₁是第一序列读段组中的唯一条形码的数目，n₂是第二序列读段组中的唯一条形码的数目，并且B是多个单元中的唯一条形码的总数。

在一些实施方案中，单一生物样本是人，测试核酸是生物样本的基因组，并且当第一值为10^-14或更小时，第一值满足预定截止值。在一些实施方案中，单一生物样本是人，测试核酸是生物样本的基因组，并且当第一值为10^-15或更小时，第一值满足预定截止值。

在一些实施方案中，结构变异是由第一序列读段组表示的测试核酸的不同部分中插入或缺失50个连续碱基或更多。在一些实施方案中，结构变异是由第一序列读段组表示的测试核酸的不同部分中插入或缺失500个连续碱基或更多。在一些实施方案中，结构变异是由第一序列读段组表示的测试核酸的不同部分中插入或缺失5000个连续碱基或更多。

在一些实施方案中，结构变异是与遗传疾病相关联。在一些实施方案中，多个单元中的每个单元表示测试核酸的至少20千碱基、测试核酸的至少50千碱基、测试核酸的至少100千碱基、测试核酸的至少250千碱基、或测试核酸的至少500千碱基。在一些实施方案中，多个序列读段中的每个相应的序列读段组中的每个相应的序列读段具有相应的第一部分，所述第一部分对应于完全与测试核酸的不同部分重叠的测试核酸的子集，所述不同部分由对应于相应的序列读段组的单元表示。

在一些实施方案中，多个单元包括10,000个或更多个单元、100,000个或更多个单元、或者1,000,000个或更多个单元。

在一些实施方案中，生物样本来自多染色体物种，并且测试核酸包括统一表示多染色体物种中的多条染色体的多个核酸。

在一些实施方案中，多个序列读段中的每个相应的序列读段的第二部分中的条形码对唯一预定值进行编码，所述唯一预定值选自集合{1,…,1024}、选自集合{1,…,4096}、选自集合{1,…,16384}、选自集合{1,…,65536}、选自集合{1,…,262144}、选自集合{1,…,1048576}、选自集合{1,…,4194304}、选自集合{1,…,16777216}、选自集合{1,…,67108864}、或选自集合{1,…,1x10¹²}。

在一些实施方案中，多个序列读段中的相应的序列读段的第二部分中的条形码定位于相应的序列读段内的连续的寡核苷酸组。

在一些实施方案中，连续的寡核苷酸组是N-mer，其中N是选自集合{4,…,20}的整数。

在一些实施方案中，多个序列读段中的序列读段的第二部分中的条形码定位于序列读段内的预定的不连续的核苷酸组。在一些实施方案中，预定的不连续的核苷酸组统一由N个核苷酸组成，其中N是集合{4,…,20}中的整数。

在一些实施方案中，第一序列读段对应于大于10千碱基的第一测试核酸子集。在一些实施方案中，第一序列读段对应于大于20千碱基的第一测试核酸子集。

在一些实施方案中，认为发生了结构变异，所述方法还包括响应于结构变异而用治疗方案治疗提供生物样本的受试者。

在一些实施方案中，治疗方案包括饮食调整。在一些实施方案中，治疗方案包括施用抑制或加强与结构变异相关联的生物途径的药物组合物。

在一些实施方案中，第一单元和第二单元的同一性通过使用稀疏矩阵乘法来确定。在一些实施方案中，稀疏矩阵乘法具有以下形式：

其中A₁是包括第一单元的第一B x N₁条形码矩阵，A₂是包括第二单元的第二B xN₂条形码矩阵，B是多个单元中的唯一条形码的数目，N₁是A₁中的单元的数目，N₂是A₂中的单元的数目，并且

是矩阵A₁的转置。

在一些实施方案中，第一单元与生物样本的第一染色体相关联，第二单元与生物样本的第二染色体相关联，N₁是与第一染色体相关联的单元的数目，并且N₂是与第二染色体相关联的单元的数目。

在一些实施方案中，第一单元和第二单元都与生物样本的第一染色体相关联，N₁是与第一染色体相关联的单元的数目，并且N₂等于N₁。

在一些实施方案中，维持中断列表，其中中断列表包括测试核酸的多个中断区，所述方法还包括当序列读段的第一部分与多个中断区中的中断区重叠时从多个序列读段除去所述序列读段。

在一些实施方案中，计算过程中的计算的似然率被计算为：

其中LR等于多个项的乘积，其中多个项中的每个项(i)表示一个或多个片段对中的相应的片段对，并且(ii)具有以下形式：

其中r₁是相应的片段对的第一计算片段中的相应的第一序列读段子集中的序列读段的数目，l₁是如通过相应的片段对的第一序列读段子集确定的第一计算片段的长度，r₂是相应的片段对的第二计算片段中的相应的第二序列读段子集中的读段的数目，l₂是如通过相应的片段对的第二序列读段子集确定的第二计算片段的长度，d是测试核酸中的相应的片段对的第一计算片段与第二计算片段之间的距离，a_b是多个序列读段中的第一条形码的读取率，SV指示根据第一模型，观察到了第一计算片段和第二计算片段，并且

无SV指示根据第二模型，观察到了第一计算片段和第二计算片段。

在一些实施方案中：

P(r₁，r₂，l₁，l₂，d|无SV；a_b)＝

P(r₁，r₂，l₁，l₂，d|SM，无SV；a_b)P(SM|无SV)+P(r₁，r₂，l₁，l₂，d|DM，无SV；a_b)P(DM|无SV)，

其中SM是以下假设：第一计算分子和第二计算分子源自于多个测序反应中的测试核酸的相同片段，DM是以下假设：第一计算分子和第二计算分子源自于多个测序反应中的测试核酸的不同片段，

P(r₁，r₂，l₁，l₂，d|DM，无SV；a_b)＝P_frag(r₁，l₁；a_b)P_frag(r₂，l₂；a_b)，

其中P_frag(r₁，l₁；a_b)是从未知长度的第一分子观察到r₁个读段，使得所述读段跨越观察长度l₁的概率，并且P_frag(r₂，l₂；a_b)是从未知长度的第二分子观察到r₂个读段，使得所述读段跨越观察长度l₂的概率。

在一些实施方案中，P_frag(r₁，l₁；a_b)和P_frag(r₂，l₂；a_b)分别被计算为

其中，P_p(r；b)是具有参数b的泊松分布的概率质量函数，并且P_L(m)是相应的分子的真实分子长度为m的(预估计)概率。

在一些实施方案中，P(r₁，r₂，l₁，l₂，d|SM，无SV；a_b)被计算为

其中m是真实分子长度的长度，P_p(r₁-2；a_bl₁)是有关r₁的具有参数b的泊松分布的概率质量函数，P_p(r₂-2；a_bl₂)是有关r₂的具有参数b的泊松分布的概率质量函数，P_p(0；a_b(m-l₁-l₂))是具有参数b的泊松分布的概率质量函数，并且P_L(m)是真实共同分子长度为m的预估计概率。

在一些实施方案中，

P(r₁，r₂，l₁，l₂，d|SV；a_b)＝

P(r₁，r₂，l₁，l₂，2d′|SM，无SV；a_b)P(SM|无SV)+P(r₁，r₂，l₁，l₂，2d′|DM，无SV；a_b)P(DM|无SV)，

其中SM是以下假设：第一计算分子和第二计算分子源自于多个测序反应中的测试核酸的相同片段，DM是以下假设：第一计算分子和第二计算分子源自于多个测序反应中的测试核酸的不同片段，P(r₁，r₂，l₁，l₂，2d′|DM，SV；a_b)＝P_frag(r₁，l₁；a_b)P_frag(r₂，l₂；a_b)，其中P_frag(r₁，l₁；a_b)是从未知长度的第一分子观察到r₁个读段，使得所述读段跨越观察长度l₁的概率，P_frag(r₂，f₂；a_b)是从未知长度的第二分子观察到r₂个读段，使得所述读段跨越观察长度l₂的概率，并且2d′＝是考虑到对与第一计算分子和第二计算分子相关联的结构变异的断点的估计，测试核酸中的相应的片段对的第一计算片段与第二计算片段之间的距离。在一些此类实施方案中，P_frag(r₁，l₁；a_b)和P_frag(r₂，l₂；a_b)分别被计算为

其中，P_p(r；b)是具有参数b的泊松分布的概率质量函数，并且P_L(m)是相应的分子的真实分子长度为m的(预估计)概率。在一些此类实施方案中，P(r₁，r₂，l₁，l₂，2d′|SM，SV；a_b)被计算为

其中m是真实分子长度的长度，P_p(r₁-2；a_bl₁)是有关r₁的具有参数b的泊松分布的概率质量函数，P_p(r₂-2；a_bl₂)是有关r₂的具有参数b的泊松分布的概率质量函数，P_p(0；a_b(m-l₁-l₂))是具有参数b的泊松分布的概率质量函数，并且P_L(m)是真实共同分子长度为m的预估计概率。在一些此类实施方案中，2d’通过计算最大范围d′，使得P_p(0；a_bd′)≥0.75来估计。

在一些实施方案中，多个序列读段表示全基因组测序数据。在一些实施方案中，多个序列读段表示对基因组子集的靶向测序，多个序列读段的第一子集来自基因组的子集之内并且具有第一读取率a_b，多个序列读段的第二子集来自基因组的子集之外并且具有第一读取率

其中

不同于a_b，并且其中针对多个序列读段的相应的第一子集和第二子集的不同读取率在计算(F)中校正似然率。

本公开的另一方面提供了一种计算系统，所述计算系统包括一个或多个处理器；存储器，所述存储器存储有待由一个或多个处理器执行的一个或多个程序。一个或多个程序包括指令，所述指令用于从将测试核酸片段化的多个测序反应获得多个序列读段。多个序列读段中的每个相应的序列读段包括第一部分，所述第一部分对应于测试核酸的子集；以及第二部分，所述第二部分对相应的序列读段的条形码进行编码。条形码独立于测试核酸的测序数据。

一个或多个程序还包括指令，所述指令用于获得多个单元的单元信息。多个单元中的每个相应的单元表示测试核酸的不同部分。单元信息为多个单元中的每个相应的单元识别处于多个序列读段中的多个序列读段组中的序列读段组。多个序列读段组中的每个相应的序列读段组中的每个相应的序列读段的相应的第一部分对应于至少部分与测试核酸的不同部分重叠的测试核酸的子集，所述不同部分由对应于相应的序列读段组的单元表示。一个或多个程序还包括如下指令，所述指令用于在多个单元当中识别对应于测试核酸的不重叠的部分的第一单元和第二单元，其中第一单元由多个序列读段中的第一序列读段组表示，并且第二单元由多个序列读段中的第二序列读段组表示。

一个或多个程序还包括如下指令，所述指令用于确定表示第一组和第二组共有的条形码的数目可归因于机会的数值概率或似然率的第一值。

一个或多个程序还包括如下指令，所述指令用于响应于确定第一值满足预定截止值，针对第一单元和第二单元共有的每个条形码，获得片段对，从而获得一个或多个片段对。一个或多个片段对中的每个片段对(i)对应于第一单元和第二单元共有的不同条形码；并且(ii)由不同的第一计算片段和不同的第二计算片段组成，其中对于一个或多个片段对中的每个相应的片段对。不同的第一计算片段由多个序列读段中具有对应于相应的片段对的条形码的相应的第一序列读段子集组成。相应的第一序列读段子集中的每个序列读段在相应的第一序列读段子集中的另一个序列读段的预先确定的遗传距离内。相应的片段对的不同的第一计算片段起源于具有对应于第一单元中的相应的片段对的条形码的第一序列读段。相应的第一序列读段子集中的每个序列读段来自第一单元。不同的第二计算片段由多个序列读段中具有对应于相应的片段对的条形码的相应的第二序列读段子集组成。相应的第二序列读段子集中的每个序列读段在相应的第二序列读段子集中的另一个序列读段的预先确定的遗传距离内。相应的片段对的不同的第二计算片段起源于具有对应于第二单元中的相应的片段对的条形码的第二序列读段。相应的第二序列读段子集中的每个序列读段来自第二单元。一个或多个程序包括如下指令，所述指令用于基于关于一个或多个片段对的第一模型的发生概率和第二模型的发生概率而计算相应的似然率，从而提供测试核酸中的结构变异的似然率。在此处，第一模型规定：观察到一个或多个片段对的相应的第一计算片段和相应的第二计算片段并未给出靶核酸序列的结构变异，并且所述相应的第一计算片段和相应的第二计算片段是共同分子的一部分。另外，第二模型规定：观察到一个或多个片段对的相应的第一计算片段和相应的第二计算片段已给出靶核酸序列的结构变异。

部分C，定相方法。本公开的另一方面提供了用于对测试核酸样本的测序数据定相的方法。在一些实施方案中，测试核酸样本获自来自物种的单一生物体的单一生物样本。在一些实施方案中，测试核酸样本获自单一生物样本但是可以代表超过一种单一物种。例如，在宿主已被例如逆转录病毒感染的情况下会出现这种情况。

测试核酸样本包括第一组单倍型(H₀)和第二组单倍型(H₁)。换言之，生物样本是二倍体的，并且遗传了母系和父系单倍型。例如，生物样本的基因组的一些部分是父系遗传，而基因组的其他部分是母系遗传。如果对母系遗传的部分任意地指定单倍型H₀，那么对父系遗传的部分指定H₁。

在典型的实施方案中，所述方法在计算机系统处进行，所述计算机系统具有一个或多个处理器和存储器，所述存储器存储用于由一个或多个处理器执行所述方法的一个或多个程序。在所公开的方法中，获得物种的基因组的全部或一部分的参考共有序列。在一些实施方案中，参考共有序列是部分的或不完整的。在一些实施方案中，参考共有序列是物种的仅单一生物体的序列。在一些实施方案中，参考共有序列是物种的多个生物体的共有序列。

在所述方法中，获得多个变异识别A_i；p。在此处，i是参考共有序列中的位置的索引。在一些实施方案中，p∈{0,1}，其中标记“0”将A_i；p中的相应的变异识别分配至H₀，且标记“1”将相应的变异识别分配至H₁，并且n是A_i；p中的变异识别的数目。例如，如果n是5，那么A_i；p中存在五个位置i，并且每个这样的位置被独立地标记为0(指示第一单倍型)或1(指示第二单倍型)。

在一些替代实施方案中，p∈{0,1,-1}，其中标记“0”将A_i；p中的相应的变异识别分配至H₀，标记“1”将相应的变异识别分配至H₁，并且标记“-1”提供指出对单倍型分配变异识别的过程中存在错误状态的有利可能性。这个替代实施方案考虑到在位置A_i；p处提供介于H₀与H₁之间的识别所依赖的标准变异识别算法实际上偶尔可能会不正确地识别这类位置。例如，考虑同一个测序的核酸片段f存在二十个序列读段的情况，对于片段f的位置i，每一个序列读段具有相同条形码132，并且进一步假设常规变异识别算法在十七个序列读段在位置i处识别H₀，且其余三个在位置i处识别H₁的情况下称为位置i杂合。进一步假设片段f的位置i的基本事实实际上是纯合的H₀，这意味着标准变异识别算法针对所有二十个序列读段应该都识别位置为i H₀。因此，常规单倍型分配错误识别了三个序列读段。所公开的替代的定相实施方案p∈{0,1,-1}有利地考虑了这种错误形式的可能性。在以上二十个序列读段的实例中(其中二十个序列读段中的三个在位置i处被错误识别)，将对所有二十个序列读段中的这个位置i分配-1(H_-1)，即错误状态，在此时，通过所公开的定相算法来对位置i处的这种错误进行采样(以查看所述定相算法是否提供更好的定相解决方案)。选择性地对这种错误状态采样的能力有利地保护定相算法免于例如因测序过程、较弱的测序信号等等出现错误而导致的输入数据的错误。

在所述方法中，获得多个带条形码的序列读段

在一些实施方案中，多个序列读段中的每个相应的序列读段

(其中q是

的整数索引)包括第一部分，所述第一部分对应于参考序列子集；以及第二部分，所述第二部分独立于参考序列而以多个条形码对相应的序列读段的相应的条形码进行编码。

在一些实施方案中，多个序列读段

中的每个相应的序列读段

其中(i)相应的序列读段

的每个相应的标记“0”将A_i；p中的对应的变异识别分配至H₀，(ii)相应的序列读段

的每个相应的标记“1”将A_i；p中的对应的变异识别分配至H₁，并且(iii)相应的序列读段

的每个相应的标记“–”指示不覆盖A_i；p中的对应的变异识别。例如，考虑

含有A_i；p中的10个变异识别中的5个变异识别的情况。在这个实例中，

将含有五个值为“-”的变异识别，因为它们不处于相应的序列读段中，并且

将含有A_i；p中的五个其他变异识别的值。这五个值中的每个值将是零或一，这取决于分配给序列读段中的相应的变异识别的单倍型。在一些实施方案中，针对个别序列读段中的变异识别，使用常规单倍型分配算法来获得这类单倍型分配。

在一些实施方案中，为了解释如上所述的变异识别的接合性的可能错误，多个序列读段

中的每个相应的序列读段

其中(i)相应的序列读段

的每个相应的标记“1”将A_i；p中的对应的变异识别分配至H₁，(iii)相应的序列读段

的每个相应的标记“-1”将A_i；p中的对应的变异识别分配至接合性错误状态(存在，但是既不为H₀，又不为H₁)，并且(iv)相应的序列读段

的每个相应的标记“–”指示不覆盖A_i；p中的对应的变异识别。

在所公开的方法中，定相结果

通过优化A_i；p中个别位置i处的单倍型分配来获得。在多个序列读段

中的每个相应的序列读段

的实施方案中，对于多个序列读段在个别位置i处的这些单倍型分配各自介于H₀与H₁之间。在定相算法中要额外对位置i的接合性的可能错误进行采样的替代的实施方案中，多个序列读段

中的每个相应的序列读段

对于多个序列读段在个别位置i处的这些单倍型分配各自介于H₀、H₁与H_-1之间，其中H_-1表示以上接合性错误状态。

将序列读段与参考基因组进行比对。另外，将具有相同条形码的序列读段组合在一起。以此方式，将具有共同条形码的序列读段分为可能源自于单一基因组输入片段f的多个组，并且因此提供由序列读段覆盖的等位基因来自于同一个单倍型的证据。

在多个序列读段

中的每个相应的序列读段

的实施方案中，观察到的序列读段覆盖来自片段f的变异i的概率被计算为：

其中，

r对片段f的所有序列读段求和，

1(S_r＝A_i，p)是指示函数，所述指示函数在来自片段f的第r个序列读段S_r与A_i，p匹配时具有值“1”，否则就为“0”，

1(S_r≠A_i，p)是指示函数，所述指示函数在来自片段f的第r个序列读段S_r不与A_i，p匹配时具有值“1”，否则就为“0”，并且

Q_r是与第r个序列读段相关联的相关质量值。

在多个序列读段

中的每个相应的序列读段

的实施方案中，可能要额外对位置i处的接合性错误进行采样，观察到的序列读段覆盖来自片段f的变异i的概率被计算为：

其中，

X^-是H_-1，并且

1(A_i，p＝X^-)是指示函数，所述指示函数在A_i，p等于-1(H_-1)时具有值“1”，否则就为“0”。

在

的实施方案中，定相结果可以通过优化表述为最大似然率定相奇偶矢量的目标函数来获得：

在此处，

是改善的定相矢量，而

是有待推测的定相矢量结果，并且

在

的实施方案中，定相矢量可以通过优化总目标函数来找出：

其中，

H_-1是位置i处的接合性错误状态，

ε_i是对位置i处出现这种形式错误的估计，并且

在一些实施方案中，ε_i是位置i处的变异的类型的函数。例如，ε_i在位置i处的变异通过基因插入或缺失来产生时被赋予第一值，并且在位置i处的变异通过其他手段(例如，单核苷酸多态性)来产生时被赋予另一个值。

(O_1，f，...，O_N，f)中的每个O_i，，f是片段f(例如，含有相同的条形码序列)的带条形码的序列读段的相应的子集。此外，

并且

P(O_1，f，...，O_N，f|X，H_f＝M|)＝Π_i0.5。

在此处，M指示片段f的H_f＝0和H_f＝1的组合。换言之，H_f＝0表示片段f映射至H₀，并且H_f＝1表示片段f映射至H₁。以上三个等式提供了具有共同条形码的序列读段的三种可能性：序列读段是单倍型0(来自第一单倍型组)、单倍型1(来自第二单倍型组)，或者所述序列读段是M，这在罕见情况下出现，在所述罕见情况下，出现序列读段O_q，f的分区中存在与序列条形码f相关联的分区所覆盖的参考序列的区域的母系和父系基因组材料两者。

在一些实施方案中，十个或更多个序列读段具有相同条形码，二十个或更多个序列读段具有相同条形码，三十个或更多个序列读段具有相同条形码，一百个或更多个序列读段具有相同条形码，或者一千个或更多个序列读段具有相同条形码。

在一些实施方案中，(O_1，f，...，O_N，f)中的每个O_q，f的三种可能的单倍型分配被评定为：

在此处，∝是表示出现H_f＝M的似然率或概率的预定分数值(H_f＝M的先验概率)，并且log P(O_i，f，|A_i，p)如上文针对

的实施方案或

的实施方案所定义。

在一些实施方案中，变异识别组包括测试核酸中的多个杂合的单核苷酸多态性、杂合插入或杂合缺失。

在一些实施方案中，第一组单倍型(H＝0)由单一生物体的母系单倍型组成，并且第二组单倍型(H＝1)由单一生物体的父系单倍型组成。

在一些实施方案中，多个条形码包括1000个或更多个条形码、10,000个或更多个条形码、100,000个或更多个条形码、或者1x10⁶个或更多个条形码。在一些实施方案中，物种是人。

在一些实施方案中，多个变异识别A_i；p包括1000个或更多个变异识别、或者10,000个或更多个变异识别。在一些实施方案中，多个序列读段包括10,000个或更多个序列读段、100,000个或更多个序列读段、或者1x10⁶个或更多个序列读段。

在一些实施方案中，X是(x)，其中x是长度n的二进制串，x中的每个值“0”指示第一组单倍型(H＝0)中的对应的变异识别的起始，并且x中的每个值“1”指示第二组单倍型(H＝1)中的对应的变异识别的起始。

在一些实施方案中，第一组单倍型(H＝0)由单一母系单倍型组成，并且第二组单倍型(H＝1)由单一父系单倍型组成。在一些实施方案中，第一组单倍型(H＝0)包括对应于五个或更多个母系染色体的五个或更多个母系单倍型，并且第二组单倍型(H＝1)包括对应于五个或更多个父系染色体的五个或更多个父系单倍型。

在一些实施方案中，源自于相同片段f(且包括相同的相应的序列条形码)的序列读段子集包括10个或更多个序列读段、30个或更多个序列读段、或者100个或更多个序列读段。

在一些实施方案中，包括相同的相应的序列读段的序列读段子集表示参考共有序列的片段f，所述片段f具有至少30千碱基的长度、至少40千碱基的长度、或介于20千碱基与60千碱基之间的长度。在一些此类实施方案中，序列读段子集中的每个这样的序列读段是2x36bp、2x50bp、2x76bp、2x100bp、2x150bp或2x250bp，其中术语2x N bp意指序列读段具有来自参考共有序列的隔开未指定长度的长度为N个碱基对的两个读段。在一些实施方案中，这个未指定长度介于200至1200个碱基对之间。在一些实施方案中，序列读段子集中的每个序列读段表示参考共有序列的至少25bp、至少30bp、至少50bp、至少100bp、至少200bp、至少250bp、至少500bp、少于500bp、少于400bp、或少于300bp。

在一些实施方案中，优化总目标函数之一。在一些实施方案中，优化总目标函数。在一些实施方案中，分层搜索包括对于A_i；p中定位于参考共有序列的对应的子集的每个相应的局部变异识别块，在相应的局部变异识别块中的X_k、X_k+1、…、X_k+j的分配使用定向搜索，其中k是相应的局部变异识别块中的第一变异，j是相应的局部变异识别块中的变异识别的数目，并且其中对X_k、X_k+1、…、X_k+j的分配通过计算以上描述的目标函数之一来找出，在所述目标函数中，有关X_k、X_k+1、…、X_k+j的分配的目标函数的相应的计算中的目标函数的定相矢量受限于X_k、X_k+1、…、X_k+j，从而找出每个相应的局部变异识别块的最优定相解决方案。另外，在一些实施方案中，针对每个相应的局部变异识别块，使用最优定相解决方案来大量联合A_i；p中的相邻的局部变异识别块，从而获得对最优定相配置

的估计。在一些实施方案中，针对每个相应的局部变异识别块，使用最优定相解决方案，使用Monte Carlo算法，或者其他随机搜索诸如模拟退火或Boltzmann学习等来联合A_i；p中的相邻的局部变异识别块。参见例如Duda等人，2001，Pattern Classification，第二版，John Wiley&Sons公司，NewYork，所述文献出于公开例如随机搜索方法的这种目的而特此以引用的方式并入本文。

在一些实施方案中，细化相位结果还包括迭代地交换对最优定相配置

的估计中的个别x_i的相位结果，并且重新计算目标函数，从而获得

在一些实施方案中，相应的局部变异识别块由A_i；p中的20至60个变异组成。在一些实施方案中，相应的局部变异识别块由A_i；p中的30至80个变异组成。在一些实施方案中，对X_k、X_k+1、…、X_k+j之一的分配进行的定向搜索的迭代舍弃了全部解，但是

的预定数目个解除外。在一些实施方案中，

的预定数目个解是1000个或更少。在一些实施方案中，

的预定数目个解是5000个或更少。

在一些实施方案中，物种是人，并且测试核酸样本包括生物样本的基因组。在一些实施方案中，物种是多染色体物种，并且测试核酸样本包括统一表示多染色体物种中的多条染色体的多个核酸。

在一些实施方案中，多个序列读段O中的每个相应的序列读段的第二部分中的条形码对唯一预定值进行编码，所述唯一预定值选自集合{1,…,1024}、选自集合{1,…,4096}、选自集合{1,…,16384}、选自集合{1,…,65536}、选自集合{1,…,262144}、选自集合{1,…,1048576}、选自集合{1,…,4194304}、选自集合{1,…,16777216}、选自集合{1,…,67108864}、或选自集合{1,…,1x10¹²}。在一些实施方案中，多个序列读段中的相应的序列读段的第二部分中的条形码定位于相应的序列读段内的连续的寡核苷酸组。在一些实施方案中，连续的寡核苷酸组是N-mer，其中N是选自集合{4,…,20}的整数。在一些实施方案中，多个序列读段中的序列读段的第二部分中的条形码定位于序列读段内的预定的不连续的核苷酸组。在一些实施方案中，预定的不连续的核苷酸组统一由N个核苷酸组成，其中N是集合{4,…,20}中的整数。

在一些实施方案中，多个序列读段中具有相同条形码的序列读段子集对应于参考共有序列中大于10千碱基的一部分。在一些实施方案中，具有相同条形码的序列读段子集对应于大于20千碱基的参考共有序列的一部分。

本公开的另一方面提供了一种计算系统，所述计算系统包括一个或多个处理器和存储器，所述存储器存储有待由一个或多个处理器执行的一个或多个程序。一个或多个程序包括如下指令，所述指令用于对获自来自物种的单一生物体的生物样本的测试核酸样本的测序数据进行定相。测试核酸样本包括第一组单倍型(H＝0)和第二组单倍型(H＝1)。一个或多个程序执行本公开中所公开的定相方法。

本公开的另一方面提供了一种对获自来自物种的单一生物体的生物样本的测试核酸样本的测序数据进行定相的方法。测试核酸样本包括第一组单倍型(H＝0)和第二组单倍型(H＝1)。所述方法包括在计算机系统处获得多个变异识别A_i；p，所述计算机系统具有一个或多个处理器和存储器，所述存储器存储用于由一个或多个处理器执行的一个或多个程序，其中i是物种的基因组的全部或一部分的参考共有序列中的位置的索引，并且p∈{0，1}，其中标记0将A_i；p中的相应的变异识别分配至H＝0，并且标记1将相应的变异识别分配至H＝1。对于A_i；p中定位于参考共有序列的对应的子集的每个相应的局部变异识别块，对相应的局部变异识别块中的局部定相矢量X_k、X_k+1、...、X_k+j的单倍型分配使用定向搜索或等效搜索技术，其中k是相应的局部变异识别块中的第一变异，j是相应的局部变异识别块中的变异识别的数目，对X_k、X_k+1、...、X_k+j的分配通过计算目标函数来找出，在所述目标函数中，相应的计算中的目标函数的定相矢量受限于X_k、X_k+1、...、X_k+j，并且目标函数通过将观察到的测试核酸样本的序列读段与A_i；p中的相应的局部变异识别块进行匹配来计算，从而找出A_i；p中的每个相应的局部变异识别块的定相解决方案。在对A_i；p中的每个相应的局部变异识别块完成定向搜索之后，针对每个相应的局部变异识别块，使用定相解决方案来大量联合A_i；p中的相邻的局部变异识别块，从而获得物种的单一生物体的定相配置

在一些实施方案中，所述方法还包括迭代地交换

中的个别x_i的相位结果，并且重新计算目标函数，从而获得

的预定数目个解(例如，1000个或更少、5000个或更少等)除外。

本公开的另一方面提供了一种解决对测试核酸样本的测序数据定相过程中的变异识别的接合性错误的方法，所述测试核酸样本是获自来自物种的单一生物体的生物样本。测试核酸样本包括第一组单倍型(H₀)和第二组单倍型(H₁)。所述方法包括在计算机系统处，获得物种的基因组的全部或一部分的参考共有序列，所述计算机系统具有一个或多个处理器和存储器，所述存储器存储用于由一个或多个处理器执行的一个或多个程序；并且获得生物样本的多个变异识别A_i；p。在此处，i是参考共有序列中的位置的索引，并且p∈{0,1,-1}，其中标记0将A_i；p中的相应的变异识别分配至H₀，标记1将相应的变异识别分配至H₁，并且标记-1将相应的变异识别分配至接合性错误状态H_-1。在所述方法中，获得生物样本的多个序列读段

多个序列读段中的每个相应的序列读段

包括第一部分，所述第一部分对应于参考序列的子集；以及第二部分，所述第二部分独立于参考序列而以多个条形码对相应的序列读段的相应的条形码进行编码。多个序列读段中的每个相应的序列读段

在此处，(i)n是A_i；p中的变异识别的数目，(ii)相应的序列读段

的每个相应的标记0将A_i；p中的对应的变异识别分配至H₀，(iii)相应的序列读段

的每个相应的标记1将A_i；p中的对应的变异识别分配至H₀，(iv)相应的序列读段

的每个相应的标记-1将A_i；p中的对应的变异识别分配至H_-1，并且(v)相应的序列读段

的每个相应的标记–指示不覆盖A_i；p中的对应的变异识别。在所述方法中，定相矢量结果

通过以下方式来细化：针对多个序列读段，使用总目标函数来优化A_i；p中的个别位置i处介于H₀、H₁与H_-1之间的单倍型分配：

其中

ε_i是对位置i处出现H_-1的估计，并且

是细化的定相矢量结果，

C是常数，

是有待推测的定相矢量结果，并且

(O_1，f，...，O_N，f)是在包括多个条形码中的相同的相应的条形码的序列读段子集中观察到的多个变异识别A_i；p中的N个变异识别的相应的子集。

在一些实施方案中，

M指示相应的条形码f的H_f＝0和H_f＝1的组合，

∝是表示出现H_f＝M的似然率或概率的预定分数值，

i是针对包括相同的相应的条形码的序列读段子集观察到的N个变异识别的相应的子集中的第i个变异，

r对包括相同的相应的条形码的序列读段子集求和，

1(S_r＝A_i，p)是指示函数，所述指示函数测试包括相同的相应的条形码的序列读段子集中的第r个序列读段S_r中位置i处的碱基比对是否与Ai，p匹配，其中当它们匹配时，1(S_r＝A_i，p)具有值1，并且当它们不匹配时，1(S_r＝A_i，p)具有值0，

1(S_r≠A_i，p)是指示函数，所述指示函数测试包括相同的相应的条形码的序列读段子集中的第r个序列读段S_r中位置i处的碱基比对是否不与Ai，p匹配，其中当它们不匹配时，1(S_r≠A_i，p)具有值1，并且当它们匹配时，1(S_r＝A_i，p)具有值0，

1(A_i，p＝H_-1)是指示函数，所述指示函数在A_i；p等于H_-1时具有值1，否则就为值0，并且

Q_r是参考共有序列中的位置i处的读取碱基的S_r的质量值。

在一些实施方案中，多个变异识别包括测试核酸中的多个杂合的单核苷酸多态性、杂合插入或杂合缺失。在一些实施方案中，第一组单倍型(H₀)由单一生物体的母系单倍型组成，并且第二组单倍型(H₁)由单一生物体的父系单倍型组成。

在一些实施方案中，多个条形码包括1000个或更多个条形码。在一些实施方案中，多个条形码包括10,000个或更多个条形码。在一些实施方案中，多个条形码包括100,000个或更多个条形码。在一些实施方案中，多个条形码包括1x10⁶个或更多个条形码。在一些实施方案中，物种是人。在一些实施方案中，多个变异识别A_i；p包括1000个或更多个变异识别、或者10,000个或更多个变异识别。在一些实施方案中，多个序列读段包括10,000个或更多个序列读段、100,000个或更多个序列读段、或者1x10⁶个或更多个序列读段。

在一些实施方案中，

是(x)，其中x是长度n的二进制串，x中的每个值0指示第一组单倍型(H₀)中的对应的变异识别的起始，并且x中的每个值1指示第二组单倍型(H₁)中的对应的变异识别的起始。

在一些实施方案中，第一组单倍型(H₀)由单一母系单倍型组成，并且第二组单倍型(H₁)由单一父系单倍型组成。

在一些实施方案中，第一组单倍型(H₀)包括对应于五个或更多个母系染色体的五个或更多个母系单倍型，并且第二组单倍型(H₁)包括对应于五个或更多个父系染色体的五个或更多个父系单倍型。

在一些实施方案中，包括相同的相应的条形码f的序列读段子集包括10个或更多个序列读段。在一些实施方案中，包括相同的相应的条形码f的序列读段子集包括30个或更多个序列读段。在一些实施方案中，包括相同的相应的条形码f的序列读段子集包括100个或更多个序列读段。在一些实施方案中，包括相同的相应的条形码f的序列读段子集表示参考共有序列的至少30千碱基或参考共有序列的至少40千碱基。

在一些实施方案中，细化使用对

进行的分层搜索来优化总目标函数。在一些实施方案中，分层搜索包括对于A_i；p中定位于参考共有序列的对应的子集的每个相应的局部变异识别块，对相应的局部变异识别块中的X_k、X_k+1、…、X_k+j的分配使用定向搜索，其中k是相应的局部变异识别块中的第一变异，j是相应的局部变异识别块中的变异识别的数目，并且其中对X_k、X_k+1、…、X_k+j的分配通过计算目标函数来找出，在所述目标函数中，相应的计算中的目标函数的定相矢量受限于X_k、X_k+1、…、X_k+j，从而找出每个相应的局部变异识别块的最优定相解决方案，并且针对每个相应的局部变异识别块，使用最优定相解决方案来大量联合A_i；p中的相邻的局部变异识别块，从而获得对最优定相配置

的估计。在一些实施方案中，细化相位结果还包括迭代地交换对最优定相配置

的预定数目个解除外。在一些实施方案中，

的预定数目个解是1000个或更少。在一些实施方案中，

的预定数目个解是5000个或更少。

在一些实施方案中，多个序列读段O中的每个相应的序列读段的第二部分中的条形码对唯一预定值进行编码，所述唯一预定值选自集合{1,…,1024}、选自集合{1,…,4096}、选自集合{1,…,16384}、选自集合{1,…,65536}、选自集合{1,…,262144}、选自集合{1,…,1048576}、选自集合{1,…,4194304}、选自集合{1,…,16777216}、选自集合{1,…,67108864}、或选自集合{1,…,1x 10¹²}。

在一些实施方案中，多个序列读段中的相应的序列读段的第二部分中的条形码定位于相应的序列读段内的连续的寡核苷酸组。在一些实施方案中，连续的寡核苷酸组是N-mer，其中N是选自集合{4,…,20}的整数。

在一些实施方案中，多个序列读段中的序列读段对应于参考共有序列中大于10千碱基或大于20千碱基的一部分。

在一些实施方案中，多个变异识别获自多个序列读段。在一些实施方案中，多个序列读段获自多个涂有带条形码的寡核苷酸的凝胶珠粒，并且其中测试核酸样本是50ng或更少。在一些实施方案中，多个涂有带条形码的寡核苷酸的凝胶珠粒包括10,000个珠粒。在一些实施方案中，多个涂有带条形码的寡核苷酸的凝胶珠粒包括50,000个珠粒。在一些实施方案中，是25ng或更少、10ng或更少、5ng或更少、或2.5ng或更少。

在一些实施方案中，多个测序读段

在暴露于多个条形码十分钟内获得。在一些实施方案中，多个测序读段

在暴露于多个条形码二十分钟内获得。

本公开进一步提供一种非暂时性计算机可读存储介质，非暂时性计算机可读存储介质存储一个或多个程序，所述一个或多个程序被配置用于由计算机执行，所述一个或多个程序包括如下指令，所述指令用于执行所公开的方法中的任一种。因此，这些方法、系统和非暂时性计算机可读存储介质提供改进的方法用于在获自生物样本的测试核酸的测序数据中检测结构变异。

因此，这些方法、系统和非暂时性计算机可读存储介质提供改进的方法用于在获自生物样本的测试核酸的测序数据中检测结构变异并且用于对这类数据进行定相。

以引用方式并入

本说明书中提及的所有公开、专利和专利申请以全文引用的方式并入本文中，其程度如同每一单独的公开、专利或专利申请被明确地并且单独地指示为以引用方式并入。

附图简述

在附图的诸图中以举例方式而非以限制方式来示出本文公开的实现方式。相同的参照符号在诸图中指代对应部件。在包括方法流程图的图中，虚线方块指示示例性实施方案。

图1是示出根据一些实现方式的计算装置的示例框图。

图2A、图2B、图2C、图2D和图2E示出根据一些实现方式的在获自生物样本的测试核酸的测序数据中检测结构变异的方法。

图3A、图3B、图3C、图3D、图3E、图3F、图3G和图3H示出根据一些实施方案的示例性构建体。

图4示出根据本公开的一些实施方案的识别序列读段单元的方法。

图5示出根据本公开的一些实施方案的单元信息。

图6示出根据一些实施方案的测试核酸(例如，染色体DNA)、较大的测试核酸的不同片段与片段的序列读段之间的关系。

图7A、图7B、图7C、图7D、图7E、图7F、图7G和图7H示出根据一些实现方式的在获自生物样本的测试核酸的测序数据中检测结构变异的方法。

图8示出根据本公开的实施方案的带条形码的文库创建过程的综述。

图9示出根据本公开的链接的序列读段，其中图中的每个点表示读段对，并且通过水平线连接的这类读段对组共享来自超过100,000个条形码的集合的共同条形码。

图10提供有关使用本公开的系统和方法进行的两个单独的测序操作(来自两个不同的目标核酸来源)的度量。

图11示出根据现有技术的顺式对反式突变。

图12示出根据本公开的系统和方法的实施方案的定相目标函数，其中O_q,f是对分子f的变异i的观察结果，A_i,p是变异i处相位p上的等位基因，X_i是变异i的定相，Sr＝A_i,p意指序列读段r与等位基因A_i,p匹配，并且α是等位基因碰撞概率。

图13示出根据本公开的系统和方法的实施方案的定向搜索。

图14示出根据本公开的系统和方法的实施方案的用于定相的相位度量，其中本公开的定相的实例(柱“NA12878 WES”)与常规定相(柱NA12878 WGS、HuRef 1WGS和NA20847WGS)进行比较。

图15示出根据本公开的系统和方法的实施方案的定相的结构变异识别，其中通过每个输入分子的单倍型分配拆分的链接读段揭示了结构变异的定相结构。竖直条指示结构变异识别的断点。

图16示出使用本公开的系统和方法的实施方案进行的NA12878中的识别缺失。

图17根据本公开的实施方案比较在不同输入量下所公开的系统和方法(10X)与TruSeq+AGILENT SS数据的PCR复制率。

图18比较在不同输入量下所公开的系统和方法(10X)与TruSeq/SS的变异识别性能。

图19提供使用所公开的系统和方法进行的各种样本操作的测序度量。

图20示出使用本公开的系统和方法进行的对注释基因融合的检测。

图21示出根据本公开的实施方案的对HCC38三阴性乳癌细胞系中的肿瘤特异性基因融合的高置信度检测。

图22和图23示出使用本公开的系统和方法来解析复杂的重排。

图24示出根据本公开的一些实施方案的基因融合事件的单倍型定相。

图25和图26示出全基因组测序的链接读段和定相如何揭示HCC1143三阴性乳癌中的复杂的缺失和等位基因丢失事件。

图27示出根据本公开的实施方案的用于利用全外显子组测序检测BCR-ABL的示意图，在所述全外显子组测序中存在长内含子的额外诱饵。

图28和图29示出使用本公开的系统和方法如何从约1ng KU812 gDNA的输入产生10X GemCode文库。利用标准IDT外显子组面板来完成杂交捕获，所述外显子组面板具有(外显子组+)或不具有(外显子组)附加Ultramer DNA诱饵(平均诱饵间隔约为2kb)，所述诱饵映射至介于ABL1的外显子1与外显子2之间的>100kb的内含子区。

图30总结了图27至图29中描述的0.2fmol内含子诱饵相对于无内含子诱饵操作的结构变异统计。

具体实施方式

本公开总体提供方法、过程以及尤其是计算机实施过程和非暂时性计算机程序产品，它们用在遗传序列数据的分析中，且尤其用于在获自生物样本的测试核酸的测序数据中检测结构变异(例如，缺失、重复、拷贝数目变异、插入、倒位、易位、长串联重复(LTR)、短串联重复(STR)以及各种其他有用的表征)，还用于单倍型定相。现相对于各图来描述实现方式的细节。

图1是示出了根据一些实现方式的结构变异和定相系统100的框图。在一些实现方式中，装置100包括一个或多个处理单元CPU102(也被称作处理器)、一个或多个网络接口104、用户接口106、存储器112和用于将这些组件互连的一个或多个通信总线114。通信总线114任选地包括将系统组件互连并且控制系统组件之间的通信的电路(有时被称作芯片集)。存储器112通常包括高速随机存取存储器，诸如DRAM、SRAM、DDR RAM、ROM、EEPROM、快闪存储器、CD-ROM、数字通用光盘(DVD)或其它光存储装置、盒式磁带、磁带、磁盘存储或其它磁性存储装置、其它随机存取固态存储装置或可用于存储所要信息的任何其它介质；以及任选地包括非易失性存储器，诸如一个或多个磁盘存储装置、光盘存储装置、快闪存储装置或其它非易失性固态存储装置。存储器112任选地包括位于CPU 102远处的一个或多个存储装置。存储器112或者存储器112内的非易失性存储器装置包括非暂时性计算机可读存储介质。在一些实现方式中，存储器112或者非暂时性计算机可读存储介质存储以下程序、模块和数据结构，或其子集：

·任选的操作系统116，所述操作系统包括用于处置各种基本系统服务且用于执行硬件相关任务的程序；

·用于将装置100与其他装置或通信网络连接的任选的网络通信模块(或指令)118；

·用于处理序列读段的任选的序列读段处理模块120，包括用于识别来自物种的单个生物体的基因样本中的结构变异的结构变异确定子模块122，和用于识别基因样本的每一序列读段的单倍型的定相子模块124；

·一个或多个核酸测序数据集126，每个这样的数据集使用来自物种的单个生物体的基因样本来获得；

·多个序列读段128，多个序列读段中的每个相应的序列读段包括至少第一部分130，所述第一部分对应于测试核酸602的子集；以及第二部分132，所述第二部分对相应的序列读段的条形码进行编码；

·多个单元，多个单元中的每个相应的单元140表示测试核酸602的不同部分142并且进一步与测试核酸的序列读段组144相关联；以及

·用于将核酸测序数据中的结构变异和定相信息可视化的单倍型可视化工具148，包括概述模块150、相位可视化模块152、结构变异(可视化)模块154以及读段可视化模块156。

在一些实现方式中，用户接口106包括用于使用户与系统100和显示器108交互用于输入装置(例如，键盘、鼠标、触摸板、跟踪板和/或触摸屏)100。

在一些实现方式中，以上经识别的元件中的一者或多者存储于之前提及的存储器装置中的一者或多者中，并且对应于用于执行上述功能的一组指令。以上经识别的模块或程序(例如，指令集)无需实现为单独的软件程序、过程或模块，并且因此这些模块的各种子集在各种实现方式中可以进行组合或以其它方式重新布置。在一些实现方式中，存储器112任选地存储以上经识别的模块和数据结构的子集。此外，在一些实施方案中，存储器存储上文未描述的额外模块和数据结构。在一些实施方案中，以上经识别的元件中的一者或多者存储于除了系统100之外的计算机系统中，所述计算机系统可通过系统100寻址，使得在需要时，系统100可以检索此类数据的所有或一部分。

虽然图1示出了“结构变异检测和定相系统100”，但是该图更多地是打算作为对计算机系统中可能存在的各种特征的功能描述而不是作为本文中描述的实现方式的结构示意图。实际上，并且如本领域的普通技术人员所认识到的，单独地示出的项目可以进行组合并且一些项目可以分开。

部分A,结构变异。图2是示出确定获自单一生物样本的测试核酸中发生的结构变异的方法(202)的流程图。在一些实施方案中，所述方法在计算机系统处进行，所述计算机系统具有一个或多个处理器和存储器，所述存储器存储一个或多个程序，所述一个或多个程序用于根据一些实施方案由一个或多个处理器执行(204)。

获得多个序列读段。根据所公开的系统和方法，使用测试核酸602获得多个序列读段128(206)。这类序列读段最终形成核酸测序数据集126的基础。多个序列读段中的每个相应的序列读段128包括第一部分130，所述第一部分对应于测试核酸的子集；以及第二部分132，所述第二部分对相应的序列读段的条形码进行编码。条形码独立于测试核酸的测序数据。换言之，条形码并不来源于测试核酸的测序数据，或者不会随着所述测试核酸的测序数据的变化而变化。在一些情况下，序列读段在本文中被称为下一代测序(NGS)读段对。

在一些实施方案中，多个序列读段中的第一序列读段对应于测试核酸的子集，所述测试核酸的子集是2x36bp、2x50bp、2x76bp、2x100bp、2x150bp或2x250bp，其中术语2 xNbp意指序列读段具有来自单一核酸片段(例如，来自获自生物样本的测试核酸)的隔开未指定长度的长度为N个碱基对的两个读段。在一些实施方案中，这个未指定长度介于200至1200个碱基对之间。在一些实施方案中，多个序列读段中的第一序列读段表示单一核酸片段(例如，来自获自生物样本的测试核酸)的至少25bp、至少30bp、至少50bp、至少100bp、至少200bp、至少250bp、至少500bp、少于500bp、少于400bp或少于300bp。更一般而言，所获得的序列读段128在一些实施方案中会组装成N50为至少约10kbp、至少约20kbp、或至少约50kbp的重叠群。在更优选的方面，序列读段会组装成至少约100kbp、至少约150kbp、至少约200kbp，以及在许多情况下至少约250kbp、至少约300kbp、至少约350kbp、至少约400kbp，以及在一些情况下或至少约500kbp或更多的重叠群。在其他实施方案中，序列读段定相到根据本公开获得的重叠群中，其中重叠群的N50超过200kbp，超过300kbp，超过400kbp，超过500kbp，超过1Mb或甚至超过2Mb。参见Miller等人，2010，“Assembly algorithms for nextgeneration sequencing data”，Genomics 95，第315-327页，所述文献中有关N50的定义和常规重叠群组装算法以引用的方式并入本文。

在一些实施方案中，如图6所示，为了获得多个序列读段128，将较大的连续核酸602(测试核酸，例如，染色体DNA)片段化以形成片段306，并且将这些片段分隔成或分区为离散的隔室或分区(在本文中可互换地称为分区)。在一些实施方案中，测试核酸602是多染色体生物体(诸如人)的基因组。在一些实施方案中，获得了多于10、多于100、多于1000、多于10,000、多于100,000、多于1x10⁶、或多于5x10⁶个序列读段组，从而获得对应的多于10、多于100、多于1000、多于10,000、多于100,000、多于1x10⁶、或多于5x10⁶个分区。图6因此示出较大的连续核酸602、较大的连续核酸的不同片段306与片段的序列读段128之间的关系。典型地，分别将1至250个片段604、5至500个片段604或者10至1000个片段604分到单独的分区。在任何情况下，将足够少的片段804分到同一个分区，使得单一分区中的片段804具有任何可观的重叠序列的可能性是非常小的。获得每个片段804的序列读段728。在典型的实施方案中，序列读段128具有短的长度(例如，少于1000个碱基)，使得它们能够在自动化测序仪中进行测序。分区中的每个序列读段128包括共同第二部分132，所述第二部分形成条形码，所述条形码在多个分区中独立于较大的连续核酸602的序列并且标识所述分区，在所述分区中形成相应的序列读段。

在一些实施方案中，测试核酸是多染色体生物体(诸如人)的基因组。在一些实施方案中，生物样本来自多染色体物种，并且测试核酸包括统一表示来自多染色体物种的多条染色体的多个核酸(208)。

每一分区保持其自身内容物与其它分区的内容物的分离。如本文中所使用，分区是指可以包括各种不同形式(例如，孔、管、微孔或纳米孔、通孔等等)的器皿或容器。然而，在优选方面，分区在流体流内是可流动的。在一些实施方案中，这些容器包括(例如)微囊或微泡，所述微囊或微泡具有环绕内流体中心或核心的外障壁或具有能够将材料截留和/或持留在其基质内的多孔基质。然而，在优选方面中，这些分区包括非水连续相(例如，油相)内的水性流体的小滴。各种不同的合适的容器描述于(例如)2013年8月13日提交的美国专利申请No.13/966,150中，所述申请特此以全文引用的方式并入本文中。同样地，用于在非水或油连续相中产生稳定小滴的乳液体系详细地描述于(例如)公开的美国专利申请No.2010-0105112中，所述申请特此以全文引用的方式并入本文中。在某些实施方案中，微流体通道网络尤其适合于产生分区。此类微流体装置的实例包括在2014年4月4日提交的临时美国专利申请No.61/977,804中详细描述的那些微流体装置，所述临时美国专利申请的全部公开内容为了所有目的以全文引用的方式并入本文中。在单独细胞的分区中还可以采用替代机制，包括用于将细胞的水性混合物挤压成非水流体的多孔膜。此类系统一般可购自(例如)Nanomi,Inc。

在乳液中小滴的情况中，将测试核酸片段分区至离散分区中大体上可以通过以下步骤来完成：使水性的含样本的流流入接合点中，分区流体(例如，氟化油)的非水性流也流入到所述接合点中，使得在流动中的流分区流体内产生水性小滴，其中此类小滴包含样本材料。如下文所描述，分区(例如小滴)还通常包含经共分区的条形码寡核苷酸。

可以通过控制所述系统的各种不同参数来调整任何特定分区内的样本材料的相对量，所述参数包括(例如)水性流中的测试核酸片段的浓度、水性流和/或非水流的流量等。本文中描述的分区的特征通常是具有以下总体积：小于1000pL、小于900pL、小于800pL、小于700pL、小于600pL、小于500pL、小于400pL、小于300pL、小于200pL、小于100pL、小于50pL、小于20pL、小于10pL或甚至小于1pL。当与珠粒一起进行共分区时，将了解，分区内的样本流体体积可以小于上述体积的90％、小于上述体积的80％、小于上述体积的70％、小于上述体积的60％、小于上述体积的50％、小于上述体积的40％、小于上述体积的30％、小于上述体积的20％或甚至小于上述体积的10％。在一些情况下，低反应体积分区的使用在与小量的起始试剂(例如，输入测试核酸片段)进行反应时特别有利。用于用低输入核酸分析样本的方法和系统提供于2014年6月26日提交的美国临时专利申请No.62/017,580中，所述美国临时专利申请的全部公开内容特此以全文引用的方式并入。

一旦将测试核酸片段306引入其相应分区中，一般会向分区内的测试核酸片段306提供唯一的条形码，使得在对那些核酸片段306进行表征后，所述测试核酸片段可以被认为是得自其相应分区。在一些实施方案中，此类唯一条形码在之前、在之后或同时地递送至容纳经分隔或经分区的测试核酸片段的分区，以使得可以在之后将特性(例如，核酸序列信息)归于特定隔室内包含的样本核酸并且尤其是归于可能原来沉积至分区中的连续样本核酸的相对较长节段。

因此，片段604通常是与唯一条形码(例如条形码序列)一起共分区。在特别优选的方面中，所述唯一条形码以寡核苷酸的形式提供，所述寡核苷酸包括连接至分区中的测试核酸片段的核酸条形码序列。对寡核苷酸进行分区，使得如在给定分区中的寡核苷酸之间，其中含有的核酸条形码序列相同，但如在不同分区之间，寡核苷酸可以具有并且优选地具有不同的条形码序列。在优选的实施方案中，仅一个核酸条形码序列与给定分区相关联，但在一些实施方案中，在给定分区中存在两个或更多个不同的条形码序列。

核酸条形码序列将通常包括寡核苷酸的序列内的6个至约20个或更多个核苷酸。在一些实施方案中，这些核苷酸是完全连续的，即，在相邻核苷酸的单个节段中。在一些实施方案中，它们被分开到由一个或多个核苷酸分开的两个或更多个单独子序列中。通常，分开的子序列分开约4个至约16个间插核苷酸。

测试核酸602通常经过分区，使得核酸是原始测试核酸602的连续核酸分子306的相对较长片段或节段的形式存在于分区中。如图6所示，这些片段306通常表示待分析的全部测试核酸的多个重叠片段，例如，整个染色体、外显子组或其它大的基因组片段。在一些实施方案中，所述测试核酸602包括全基因组、个别染色体、外显子组、扩增子、或各种不同的目标核酸中的任一者。通常，经分区的测试核酸602的片段306长于1kbp、长于5kbp、长于10kbp、长于15kbp、长于20kbp、长于30kbp、长于40kbp、长于50kbp、长于60kbp、长于70kbp、长于80kbp、长于90kbp或甚至长于100kbp。

测试核酸602还通常按某一水平进行分区，借此使给定分区包括起始测试核酸602的两个重叠片段306的概率极低。这通常是通过在分区过程期间将测试核酸602以低输入量和/或浓度提供来完成。结果，在优选情况中，给定分区包括起始测试核酸602的多个长的但非重叠的片段306。之后将不同分区中的核酸片段306与唯一条形码相关联，其中对于任何给定分区，其中含有的核酸具有相同的唯一条形码，但其中不同分区包括不同的唯一条形码。此外，因为分区步骤将样本组份分配到极小体积的分区或小滴中，所以将了解，为了实现如上文陈述的所要分配，不需要像在较高体积过程(例如在管、或多孔板的孔中)中要求的那样进行样本的大量稀释。另外，因为本文中描述的系统采用此类高水平的条形码多样性，所以可以在较大量的基因组等效物(如上文所提供)中分配不同的条形码。在一些实施方案中，使用10,000、100,000、500,000等以上的不同条形码类型来实现约1:50或更小、1:100或更小、1:1000或更小、或甚至更小比率的基因组:(条形码类型)比率，同时还允许载入较大量的基因组(例如，约每次测定大于100个基因组、每次测定大于500个基因组、每次测定1000个基因组、或甚至更多)同时还实现了每基因组大大改进的条形码多样性。此处，每一此类基因组是测试核酸的实例。

参看图3A的B图，通常，上述分区是通过将含有测试核酸的样本与一组寡核苷酸标记302(含有条形码132)组合来进行，所述标记在分区步骤之前可释放地连接至珠粒308。寡核苷酸302可以至少包括引物区316和条形码132区。在给定分区内的寡核苷酸302之间，条形码区132基本上为相同的条形码序列，但如在不同分区之间，条形码区在大多数情况下是不同的条形码序列。在一些实施方案中，引物区316是用于对分区内的样本内的片段306进行引发的N-mer(随机N-mer或经设计以靶向特定序列的N-mer)。在N-mer是针对特定序列的一些情况中，引物区316经设计以靶向特定染色体(例如，人染色体1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、X或Y)或染色体的区(例如，外显子组或其它靶向区)。在一些情况中，N-mer经设计以靶向特定基因或基因区(诸如与疾病或病症(例如癌症)相关联的基因或区)。在一些情况中，N-mer经设计以靶向特定结构变异。在分区内，使用引物序列316(例如N-mer)来在片段的长度上的不同位置处对测试核酸片段306进行引发来进行扩增反应。由于扩增，每一分区含有核酸602的扩增产物，所述扩增产物连接至相同的或几乎相同的条形码并且表示每一分区中的核酸的重叠的、较小的片段。条形码132因此用作表示源自同一分区并且因此可能还是源自相同的测试核酸片段306的一组核酸的标记。将了解到，任何给定分区中通常存在若干片段306。然而，在典型的实施方案中，处于相同分区中的片段306通常不具有任何显著的重叠，并且因此在任何给定分区中有可能将扩增的序列读段定位到正确的片段304。在扩增之后，使用测序算法对经扩增的核酸进行汇集、测序以形成序列读段以及比对。因为较短的序列读段可以借助其相关联的条形码序列而进行比对并归于测试核酸602的单个长起源片段，所以该序列上的所有识别出的变异都可以归于测试核酸602的单个起源片段306和单个起源染色体。另外，通过对多个长片段306中多个在同一位置的变异进行比对，可以进一步表征该染色体贡献。因此，之后可以得出关于特定基因变异的定相的结论。此类信息可以用于识别单倍型，单倍型大体上是驻留于同一核酸链或不同核酸链上的指定的一组基因变异。此外，另外或其它，识别结构变异。

在一些实施方案中，参考图3A，共分区的寡核苷酸标签302还包括除了条形码序列132和引物区序列316之外的功能序列。例如，在一些实施方案中，共分区的寡核苷酸标签302还包括可用于处理分区的核酸的其他功能序列，诸如靶向或随机/通用的扩增引物序列，所述其他功能序列用于使测试核酸片段306在分区304内扩增，同时连接相关联的条形码序列；测序引物；杂交或探测序列，例如以用于识别序列的存在，或用于沉淀带条形码的核酸；或者多种其他潜在的功能序列中的任一个。参见(例如)关于对寡核苷酸和相关联的条形码和其它功能序列的共分区以及样本材料的公开，如(例如)2014年2月7日提交的美国专利申请No.61/940,318和2014年5月9日提交的美国专利申请No.61/991,018、和2014年6月26日提交的美国专利申请No.14/316,383以及2014年2月7日提交的美国专利申请No.14/175,935中所描述，以上各案的全部公开内容特此以全文引用的方式并入。

在一个示例性过程中，提供珠粒，其中每一此类珠粒包括大量可释放地连接至珠粒的上述寡核苷酸。在此类实施方案中，连接至特定珠粒的所有寡核苷酸包括相同的核酸条形码序列，但在所使用的珠粒群上呈现大量不同的条形码序列。通常，珠粒群提供不同条形码序列库，所述库包括至少1000个不同的条形码序列、至少10,000个不同的条形码序列、至少100,000个不同的条形码序列，或在一些情况中为至少1,000,000个不同的条形码序列。另外，每一珠粒通常具有所连接的大量寡核苷酸分子。具体地说，单独珠粒上包括条形码序列的寡核苷酸的分子的数目可以是至少约10,000个寡核苷酸、至少100,000个寡核苷酸分子、至少1,000,000个寡核苷酸分子、至少100,000,000个寡核苷酸分子并且在一些情况中是至少十亿个寡核苷酸分子。

在一些实施方案中，寡核苷酸是在对珠粒施加特定刺激后可从珠粒释放。在一些情况中，所述刺激是光刺激，例如，通过光不稳定键的断裂，所述断裂可以释放寡核苷酸。在一些情况中，使用热刺激，其中珠粒环境的温度的升高导致键的断裂或寡核苷酸从珠粒的其它释放。在一些情况中，使用化学刺激，所述化学刺激使寡核苷酸与珠粒的键断裂或者另外导致寡核苷酸从珠粒的释放。

在一些实施方案中，包括所连接的寡核苷酸标签302的珠粒与单独样本一起进行共分区，使得单个珠粒与单个样本容纳于单独分区内。在单珠粒分区是所要的一些情况中，可能希望控制流体的相对流量，使得平均来说该等分区中每分区含有小于一个珠粒，以便确保被占用的那些分区基本上是被单个占用。同样地，在一些实施方案中，控制流量以使得较高百分数的分区被占用，例如，允许存在仅小百分数的未占用分区。在优选方面中，控制流量和通道结构以便确保所要数目的单占用分区、小于某一水平的未占用分区以及小于某一水平的多占用分区。

2014年10月29日提交的标题为“Analysis of Nucleic Acid Sequences”的美国专利申请No.62/072,214(所述申请特此以引用方式并入)的图3以及说明书中描述图3的部分提供了根据本公开的一个实施方案的用于对测试核酸(在所述参考文献中被称作“样本核酸”)编制条形码以及随后进行测序的一种方法的详细实例。如上文所指出，虽然单珠粒占用可能是最想要的状态，但是将了解，多占用分区或未占用分区通常也可能存在。2014年10月29日提交的标题为“Analysis of Nucleic Acid Sequences”的美国专利申请No.62/072,214(所述申请特此以引用方式并入)的图4以及说明书中描述图4的部分提供了根据本公开的一个实施方案的用于对样本与包括条形码寡核苷酸的珠粒进行共分区的微流体通道结构的详细实例。

一旦进行共分区，安置于珠粒上的寡核苷酸标签302用于对经分区的样本编制条形码并进行扩增。用于在对样本进行扩增和编制条形码的过程中使用这些条形码寡核苷酸的一种方法详细地描述于2014年2月7日提交的美国专利申请No.61/940,318、2014年5月9日提交的美国专利申请No.61/991,018和2014年6月26日提交的美国专利申请No.14/316,383中，以上各案的全部公开内容特此以全文引用的方式并入。简要地说，在一个方面中，与样本一起进行共分区的珠粒上存在的寡核苷酸从其珠粒释放进入具有样本的分区中。除了条形码序列132之外，寡核苷酸通常还包括在其5’端316处的引物序列。在一些实施方案中，此引物序列是旨在对样本的许多不同的区随机地进行引发的随机寡核苷酸序列。在一些实施方案中，引物序列316是专门用于在样本的特定目标区的上游进行引发的特定引物序列。

一旦被释放，寡核苷酸的引物部分与该分区中测试核酸片段306的互补区退火。也与片段306和珠粒304一起进行共分区的延伸反应剂(例如，DNA聚合酶、三磷酸核苷、辅因子(例如，Mg²⁺或Mn²⁺等))使用片段306作为模板来延伸引物序列，以产生所述引物与之退火的所述测试核酸片段306的链的互补序列，并且该互补序列包括寡核苷酸302以及其相关联条形码序列132。多个引物退火和延伸至分区304中的片段306的不同部分可能会导致测试核酸片段306的重叠互补部分的大集合，其中每一片段具有其自身的条形码序列132，所述条形码序列指示在其中产生所述条形码序列的分区304。在一些情况中，这些互补片段自身可以用作通过分区304中存在的寡核苷酸引发的模板以产生同样包括条形码序列132的互补序列的互补序列。在一些情况中，此复制过程经配置使得在复制第一互补序列时，会在其末端处或附近产生两个互补的序列，以允许形成发夹结构或部分发夹结构，所述结构降低了分子成为用于产生其它重复拷贝的基础的能力。这种情况的一个实例的示意图展示于图3F中。

如图3A中所示，包括条形码序列132的寡核苷酸302与样本测试核酸片段306一起被共分区到(例如)乳液中的小滴304中。在一些实施方案中，寡核苷酸302设置于与测试核酸片段306一起进行共分区的珠粒308上，所述寡核苷酸302优选地是可从珠粒308释放，如图3A中的图(A)所示。如图3A中的图(B)所示，除了一个或多个功能序列(例如，序列312、132和316)之外，寡核苷酸302还包括条形码序列132。举例来说，寡核苷酸302如图所示进一步包括连接序列312，所述序列可以充当给定测序系统的连接或固定序列，例如，用于在ILLUMINA、HISEQ或MISEQ系统的流动池中进行连接的P5序列。换句话说，在一些实施方案中，使用连接序列312来将寡核苷酸302可逆地连接至珠粒308。如图3A中的图B所示，寡核苷酸302还包括引物序列316，所述引物序列可以包括用于引发样本测试核酸片段306的部分的复制的随机或靶向N-mer(上文论述)。图3A中的图B的示例性寡核苷酸302内还包括序列310，所述序列可以提供测序引发区，诸如“读段1”或R1引发区，所述引发区用于在测序系统中引发通过合成反应进行的聚合酶介导的、模板指导的测序。在许多情况中，条形码序列132、固定序列312和示例性R1序列310可能是连接至给定珠粒的所有寡核苷酸302共有的。引物序列316对于随机N-mer引物可能是变化的，或对于某些目标应用可能是给定珠粒上的寡核苷酸共有的。

参考图3B，基于引物序列316的存在，寡核苷酸302a和302b能够引发测试核酸片段306，这允许使用聚合酶和同样与珠粒304和样本测试核酸片段306共分区的其他延伸试剂来实现寡核苷酸302a和302b的延伸。

如图3C所示，在寡核苷酸延伸之后，随机N-mer引物将与样本测试核酸片段306的多个不同区域退火；产生测试核酸片段306的多个重叠的互补序列或片段，例如片段130-1和130-2。因此，图3C示出(A)获得多个序列读段，其中多个序列读段中的每个相应的序列读段128包括第一部分130，所述第一部分对应于测试核酸602的子集；以及共同第二部分132，所述共同第二部分形成条形码，所述条形码在多个分区中独立于较大的连续核酸602的序列并且标识分区304，在所述分区中形成相应的序列读段(例如，条形码序列132)。

虽然包括与测试核酸的部分互补的序列部分，例如序列306-1和306-2，但是这些构建体在本文中通常被称为包括样本测试核酸602的具有连接的条形码序列的片段。如将了解，如上所述的模板序列的复制部分在本文中往往被称为所述模板序列的“片段”。然而，虽然有前述内容，但是术语“片段”涵盖起源测试核酸序列例如模板或样本核酸的一部分的任何表示，包括通过提供模板序列的部分的其他机制而产生的那些，所述机制诸如给定序列分子例如通过酶、化学或机械片段化实现的实际片段化。然而，在优选的方面，测试核酸序列的片段将表示基础序列的复制部分或所述基础序列的互补序列。

图3B的带条形码的核酸片段之后可以例如通过序列分析来进行表征，或者所述核酸片段可以如图3D所示在所述过程中进一步扩增。例如，同样从珠粒308释放的附加寡核苷酸，例如寡核苷酸302c可以引发片段302b。具体而言，再次，基于寡核苷酸302c中存在随机N-mer引物316(它在许多情况下将不同于给定分区中的其他随机N-mer)，所述寡核苷酸与片段302b退火，并且延伸来产生片段302b的至少一部分的互补序列130-3，所述互补序列包含测试核酸序列的一部分的复制物。寡核苷酸302b继续延伸，直到它复制片段302b的整个寡核苷酸部分130为止。如本文其他地方所述，且如图3D所示，寡核苷酸可以被配置来例如在复制了片段内包括的寡核苷酸302b的整个序列316和310之后在所需点处快速停止通过聚合酶而进行的复制。如本文所述，这可以通过不同的方法，包括例如结合不能被所使用的聚合酶处理的不同的核苷酸和/或核苷酸类似物来实现。例如，这可以包括将含尿嘧啶的核苷酸加入序列区310内来防止不耐受尿嘧啶的聚合酶产生所述区域的复制物。因此，参考图3E，产生序列读段128-3，所述序列读段在一端包括全长寡核苷酸302b，所述全长寡核苷酸包括条形码序列132、连接序列312、R1引物区310以及随机N-mer序列316。序列的另一端处包括第一寡核苷酸302的随机N-mer的互补序列316’；以及R1序列的全部或一部分的互补序列，示出为序列310’。R1序列310及其互补序列310’之后能够杂交在一起来形成部分发夹结构360。如将了解，由于随机N-mer因不同寡核苷酸而不同，因此这些序列及其互补序列可能不会参与发夹形成，例如，序列316’，所述序列是随机N-mer 316的互补序列，可能不会与随机N-mer序列316b互补。这对于其他应用例如靶向引物来说可能不是这种情况，在靶向引物的情况下N-mer将是给定分区内的寡核苷酸所共有的。

通过形成这些部分发夹结构，这允许将样本序列的第一级复制物从进一步的复制物去除，例如防止对拷贝进行重复拷贝。部分发夹结构还为所产生的片段，例如片段130-3的后续加工提供有用的结构。

如本文所述，之后可以汇集来自多个不同分区的所有序列读段128以便在高通量测序仪上进行测序。由于每个序列读段128针对其起源分区而进行编码，所述序列读段的序列可以基于条形码132的存在而往回归属于其起源。这类序列读段和这类序列读段的分析形成了所公开的核酸测序数据集126的基础。

这示意性地示出于图4。如在一个实例中所示，测试核酸片段306-1和测试核酸片段306-2各自沿着它们自身的如上所述的条形码寡核苷酸132组进行分区。在每个分区内，然后处理每个片段(306-1和306-2)来单独地提供片段306-1和306-2的重叠的序列读段128以形成相应的序列读段组414和416。此处理提供序列读段414，所述序列读段具有针对来源于特定第一片段306-1的序列读段414中的每一个都相同的条形码序列132。如图所示，序列读段组414由“1”表示，而序列读段组416由“2”表示。多样的条形码文库可以用于有区别地为大量不同的片段读段组编制条形码。然而，给定分区中的每个序列读段不需要用不同的条形码序列来编制条形码。实际上，在许多情况下，可以同时处理多个不同的第一片段以包括相同的条形码序列。本文在其他地方详细描述了多样的条形码文库。

然后可以汇集序列读段组以便使用例如通过可获自Thermo Fisher公司的Illumina或Ion Torrent分公司的合成技术而得到的序列来进行测序。一旦测序，就可以至少部分基于所包括的条形码且任选地和优选地部分基于片段自身的序列而将序列读段128归属于其相应的片段组，例如在聚集的读段中所示。然后组装每个片段组的所归属的序列读段来为每个样本片段提供组装的序列，例如，序列418和420，所述序列进而可以进一步往回归属于其相应的原始片段(306-1和302-2)。在例如于2014年6月26日提交的美国临时专利申请号62/017,589中描述了用于组装基因组序列的方法和系统，所述专利申请的全部公开内容特此以引用的方式整体并入。

在一些实施方案中，生物样本来自多染色体物种，并且测试核酸602包括统一表示来自多染色体物种的多条染色体的多个核酸(208)。在一些实施方案中，多个序列读段中的每个相应的序列读段的第二部分132中的条形码对选自以下的唯一预定值进行编码：集合{1,…,1024}、{1,…,4096}、{1,…,16384}、{1,…,65536}、{1,…,262144}、{1,…,1048576}、{1,…,4194304}、{1,…,16777216}、{1,…,67108864}或{1,…,1x1012}(210)。例如，考虑条形码序列132由一组五个核苷酸位置表示的情况。在这种情况下，每个核苷酸位置提供四种可能性(A、T、C或G)，在考虑所有五个位置时，产生4x4x4x4x4＝1024种可能性。因此，五个核苷酸位置形成集合{1,…,1024}的基础。换言之，当条形码序列132是5-mer时，每个序列读段128的第二部分132对选自集合{1,…,1024}的唯一预定值进行编码。类似地，当条形码序列132由一组六个核苷酸位置表示时，六个核苷酸位置统一提供4x4x4x4x4x4＝4096种可能性。因此，六个核苷酸位置形成集合{1,…,4096}的基础。换言之，当条形码序列132是6-mer时，每个序列读段128的第二部分132对选自集合{1,…,4096}的唯一预定值进行编码。

在一些实施方案中，多个序列读段中的序列读段的第二部分132中的条形码定位于序列读段内的连续的寡核苷酸组(212)。在一个这样的示例性实施方案中，连续的寡核苷酸组是N-mer，其中N是选自集合{4,…,20}的整数(214)。换言之，在一些实施方案中，例如图3B的B图中的条形码132是寡核苷酸标签302内的一组连续的核苷酸位置(例如，4个连续的核苷酸位置、5个连续的核苷酸位置、6个连续的核苷酸位置、7个连续的核苷酸位置、8个连续的核苷酸位置、9个连续的核苷酸位置、10个连续的核苷酸位置、11个连续的核苷酸位置、12个连续的核苷酸位置、13个连续的核苷酸位置、14个连续的核苷酸位置、15个连续的核苷酸位置、16个连续的核苷酸位置、17个连续的核苷酸位置、18个连续的核苷酸位置、19个连续的核苷酸位置或20个连续的核苷酸位置)，它们最终在测试核酸转录之后变成第二部分132。

相比之下，在一些实施方案中，多个序列读段中的序列读段的第二部分中的条形码定位于序列读段内的不连续的寡核苷酸组(216)。在一个这样的示例性实施方案中，预定的不连续的核苷酸组统一由N个核苷酸组成，其中N是集合{4,…,20}中的整数(218)。作为实例，在一些实施方案中，参考图3A的B图，条形码序列132包括寡核苷酸标签302中的第一位置处的第一组连续的核苷酸位置以及寡核苷酸标签302中的第二位置处的第二组连续的核苷酸位置，所述第二组连续的核苷酸位置与第一组连续的核苷酸位置相隔一个间隔区。在一个特定实例中，条形码序列132包括(X1)_nY_z(X2)_m，其中X1是n个连续的核苷酸位置，Y是恒定的预定的一组z个连续的核苷酸位置，并且X2是m个连续的核苷酸位置。在这个实例中，由调用这种示例性条形码的模式(schema)产生的序列读段128的第二部分中的条形码定位于不连续的寡核苷酸组，即(X1)_n和(X2)_m。这只是条形码序列132的不连续的格式的许多实例之一。

在一些实施方案中，多个序列读段中的第一序列读段对应于测试核酸的子集，所述子集是2x36bp、2x50bp、2x76bp、2x100bp、2x150bp或2x250bp，其中术语2 x Nbp意指序列读段具有来自单一核酸片段(例如，来自获自生物样本的测试核酸)的隔开未指定长度的长度为N个碱基对的两个读段。在一些实施方案中，这个未指定长度介于200至1200个碱基对之间。在一些实施方案中，多个序列读段中的第一序列读段表示单一核酸片段(例如，来自获自生物样本的测试核酸)的至少25bp、至少30bp、至少50bp、至少100bp、至少200bp、至少250bp、至少500bp、少于500bp、少于400bp或少于300bp。(220)。

获得单元信息。根据所公开的系统和方法，获得多个单元的单元信息(222)。多个单元中的每个相应的单元140表示测试核酸的不同部分。单元信息为多个单元中的每个相应的单元识别多个序列读段组中的序列读段组。图5进行说明。在图5中，描绘测试核酸602。进一步在图5中所示，多个单元中的每个相应的单元140表示测试核酸602的不同部分142。另外，单元信息为多个单元中的每个相应的单元140识别对应于相应的单元的序列读段128组144。

继续参考图5，多个序列读段组中的每个序列读段组144中的每个序列读段128在多个序列读段中。也就是说，每个序列读段128对应于已经分单元的测试核酸602的一部分142。

多个序列读段组中的每个相应的序列读段组144中的每个相应的序列读段128具有相应的第一部分130，所述第一部分对应于至少部分与测试核酸602的不同部分142重叠的测试核酸的子集，所述不同部分由对应于相应的序列读段组的单元140表示。例如，参考图5中所示的组144-1，每个序列读段128-1-1、…、128-1-K包括第一部分130，所述第一部分对应于测试核酸140-1中对应于单元140-1的区域142-1的至少一个子集。将从图3的模式和构造了解到，在典型的实施方案中，组144-1的序列读段128-1-1、…、128-1-K的第一部分130具有不同的长度并且相对于彼此移位，但是重叠。在一些实施方案中，这种第一部分130可以包括来自测试核酸602的邻近区域142的一些核苷酸位置。在一些实施方案中，第一部分130仅表示单元140的测试核酸602的区域142的子集。

在一些实施方案中，测试核酸中对应于单元140-的区域142基本上长于所述单元内的序列读段128组144中的任何给定第一部分130。此外，在一些实施方案中，给定的序列读段128组144包括五个或更多个不同的条形码序列132、十个或更多个不同的条形码序列132、十五个或更多个不同的条形码序列132、二十个或更多个不同的条形码序列132、二十五个或更多个不同的条形码序列132、三十个或更多个不同的条形码序列132、三十五个或更多个不同的条形码序列132、四十个或更多个不同的条形码序列132、四十五个或更多个不同的条形码序列132或者五十个或更多个不同的条形码序列132。

在一些实施方案中，单元144中的两个或更多个、三个或更多个、四个或更多个、五个或更多个、六个或更多个、七个或更多个、八个或更多个、九个或更多个、十个或更多个或者十一个或更多个序列读段128具有相同的条形码序列132。在一些实施方案中，单元144中的每个序列读段128具有不同的条形码序列132。

在一些实施方案中，多个单元中的每个单元140表示测试核酸的至少20kbp、至少50kbp、至少100kbp、至少250kbp或至少500kbp(224)。换言之，参考图5，在一些实施方案中，测试核酸602中由单元140-1表示的部分142-1为至少20kbp、至少50kbp、至少100kbp、至少250kbp或至少500kbp。

在一些实施方案中，由多个单元中的每个相应的单元表示的测试核酸的每个不同部分406之间不存在重叠(226)。这种实施方案示出于图5。在这类实施方案中，对应的单元144中的序列读段128的第一部分130与相邻区域142可能存在重叠。在一些实施方案中，由多个单元中的每个相应的单元表示的测试核酸的每个不同部分406之间不存在重叠(226)，但是对应的单元144中的序列读段128的第一部分130与相邻部分406存在一些重叠。

在一些实施方案中，多个序列读段中的每个相应的序列读段组144中的每个相应的序列读段128具有相应的第一部分130，所述第一部分对应于完全与测试核酸602的不同部分142重叠的测试核酸602的子集，所述不同部分由对应于相应的序列读段组144的单元144表示。换言之，使用图5的单元144-1作为实例，在一些实施方案中，每个序列读段128-1-1、…、128-1-k的每个第一部分130包括区域142-1的完全拷贝。

在一些实施方案中，多个单元包括10,000个或更多个单元、100,000个或更多个单元、或者1,000,000个或更多个单元(230)。

确定两个序列读段组所共有的唯一条形码的数目。所述方法继续确定发现于多个序列读段中的第一序列读段组和第二序列读段组的唯一条形码的数目(232)。这种确定的实例是确定组144-1中有多少个序列读段128-1-X具有与组144-2中的序列读段128-2-Y中的条形码序列132相同的条形码序列132。此确定产生唯一序列条形码的数目。例如，考虑在组144-1中的序列读段128-1-X以及组144-2中的序列读段128-2-Y中发现五个唯一条形码的情况。在这种情况下，相异的共同条形码的数目是五。

确定数目可归于机会的概率或似然率。所述方法继续确定以上在(232)处确定的识别的数目可归于机会的概率或似然率。这通过基于所述数目的度量与阈值准则的比较来进行(234)。当度量满足阈值准则时，认为已在以下各处发生结构变异：(i)由第一序列读段组表示的测试核酸的不同部分，和/或(ii)由第二序列读段组表示的测试核酸的不同部分。

例如，继续使用来自上文的图5的组144-1与144-2的比较的实例，获得在(232)处确定的数目可归于机会的概率或似然率。这通过以下两者的比较来实现：(i)基于组144-1和组144-2所共有的五个唯一条形码(条形码序列132)的量度；(ii)阈值准则(234)。当度量满足阈值准则时，认为已在以下各处发生结构变异：(i)测试核酸602的部分142-1，和/或(ii)测试核酸的不同部分142-2。

在一些实施方案中，度量被计算为：

其中{b₁,b₂,…,b_n}是发现于多个序列读段中的第一序列读段组和第二序列读段组两者的n个唯一条形码(例如，条形码序列132)的集合，i是到n的整数索引，并且

是其中出现条形码b_i的第一部分的多个单元的分数(236)。换言之，针对相异的共同条形码而不是共同读段来求取公式A的乘积。

例如，在组144-1与144-2的比较中，度量被计算为：

其中{b₁,b₂,…,b_n}是具有唯一(即，在整个集合{b₁,b₂,…,b_n}上是唯一的)条形码序列132的组144-1中的同样发现于组144-2中的n个条形码的集合，i是到n的整数索引，并且

是其中出现条形码b_i的多个单元的分数(236)。更具体而言，在序列读段128的第一部分包括相应的条形码序列132的实施方案中，

是其中出现相应的条形码序列132的多个单元的分数。

(1)中的概率是同时观察到所有n个条形码的概率，假定所述条形码独立于彼此出现。如果这个概率较小，那么假设第一单元与第二单元之间的重叠是随机的。

在一些实施方案中，度量被计算为：

其中{b₁，b₂，...，b_n}是发现于第一序列读段组和第二序列读段组两者的n个唯一条形码的集合，n₁是第一序列读段组中的唯一条形码的数目，n₂是第二序列读段组中的唯一条形码的数目，i是到n的整数索引，

是其中出现条形码b_i的多个单元的分数，并且

是二项分布的累积分布函数。

等于以下概率：对于其中每一个携带条形码b_i的概率为

的给定max(n₁，n₂)条形码，实现了{b₁，b₂，...，b_n}中至少一次出现b_i。这假定序列读段具有条形码b_i的概率等于所述条形码在多个条形码中出现的频率。

计算(2)或(1)中的概率要求对每对单元之间的所有共同条形码进行迭代。由于通常情况是大多数单元对不会具有显著的序列条形码重叠，所以可以通过执行计算强度不是太大的测试来获得一组初始的候选单元对，所述测试假定所有条形码具有相同的频率。在一些此类实施方案中，度量被计算为：

p＝1-P_Binom(n；n₁，n₂/B) (3)

其中n是发现于第一序列读段组和第二序列读段组两者的唯一条形码的数目，n₁是第一序列读段组中的唯一条形码的数目，n₂是第二序列读段组中的唯一条形码的数目，并且B是多个单元中的唯一条形码的总数。等式(3)是观察到超过n个重叠的条形码的概率，假定所有条形码在多个单元中出现的频率相同并且是随机选择的。

对基因组范围内(例如，整体多个单元内)的所有单元对进行迭代会很耗时。例如，如果在大小为10kb的非重叠窗口中对人基因组(其长度粗略为3x10⁹个碱基对)分单元，那么这将产生3x10⁵个单元。换言之，在多个单元中将存在3x10⁵个单元。在这种情况下，成对单元比较的数目将大约为10¹⁰。在一些实施方案中，为了能够有效地进行这种比较，使用矩阵运算。具体而言，对于每条染色体，定义B x N矩阵A，其中B是存在于实验中的唯一条形码的数目，并且N是所述染色体中的单元的数目。这个矩阵往往是非常稀疏的，因为任何给定单元中只会出现条形码的小的子集。为了找出两条染色体(或染色体与自身)之间的重叠的单元，在相应的条形码矩阵A₁和A₂(如以上针对A所定义)的情况下，计算乘积

其中T表示矩阵A₁的转置。如果N₁和N₂分别是A₁和A₂中的单元的数目，那么V将是N₁ x N₂矩阵。当且仅当A₁的第i个单元与A₂的第j个单元之间存在条形码重叠，V_ij才不为零。执行此稀疏矩阵乘法所需的时间和内存取决于所得矩阵中非零元素的数目，而不是取决于矩阵的总大小。因此，有利的是，检测共享条形码的所有单元所需的时间随这类单元的数目而增加，而不是随单元的总数目而增加。

因此，在一些实施方案中，第一单元和第二单元的同一性使用稀疏矩阵乘法来确定。在一些实施方案中，稀疏矩阵乘法包括计算：

其中，A₁是包括第一单元的那些的第一B x N₁条形码矩阵，A₂是包括第二单元的那些的第二B x N₂条形码矩阵，B是多个单元中的唯一条形码的数目，N₁是A₁中的单元的数目，N₂是A₂中的单元的数目，并且

是矩阵A₁的转置。

在一些实施方案中，第一单元和第二单元处于不同的染色体中。因此，在一些此类实施方案中，第一单元与生物样本的第一染色体相关联，第二单元与生物样本的第二染色体相关联，N₁是与第一染色体相关联的单元的数目，并且N₂是与第二染色体相关联的单元的数目。

在替代的实施方案中，第一单元和第二单元处于相同的染色体中。因此，在一些此类实施方案中，第一单元和第二单元都与生物样本的第一染色体相关联，N₁是与第一染色体相关联的单元的数目，并且N₂等于N₁。

作为本公开的计算的实例，参考图6，考虑EML4-ALK融合，即肺癌细胞系NCI-H2228中常见的基因融合。在这个细胞系中，EML4的外显子6与7之间的内含子融合至ALK的外显子20与21之间的内含子。这产生了由EML4和ALK两者的部分组成的新颖的融合基因。在携有融合的样本中，将存在跨越EML4和ALK的融合部分的片段。因此，映射至EML4和ALK的序列读段128往往将具有共同条形码132。这种条形码共享在不存在融合下是更加不可能的，因为正常来说，EML4和ALK相隔太远(超过1000万个碱基对)以致于无法被同一个片段跨越。在来自NCI-H2228细胞系的样本中，识别了EML4与ALK之间共有的12个条形码132，从而表明至少有12个片段跨越融合区。鉴于多个单元中的这些条形码的经验频率，使用以上度量(1)计算的纯属意外出现这种重叠的概率小于10^-8。

在一些实施方案中，当p为10^-2或更小、10^-3或更小、10^-4或更小或者10^-5或更小时，度量(例如，以上的度量(1)、(2)或(3))被认为满足阈值准则(238)。

在一些实施方案中，结构变异是由第一序列读段组表示的测试核酸的不同部分中插入或缺失50个连续碱基或更多、500个连续碱基或更多、或者5000个连续碱基或更多(240)。

在一些实施方案中，由第一单元表示的测试核酸的不同部分与由第二单元表示的测试核酸的不同部分重叠(242)。换言之，参考图5，在一些实施方案中，部段142彼此重叠，而不是如图所示那样彼此邻接。在一些此类实施方案中，由第一单元表示的测试核酸602的不同部分(例如，对应于单元144-1的部分142-1)的至少50％、至少80％、或至少95％与由第二单元表示的测试核酸602的不同部分(例如，对应于单元144-2的部分142-2)重叠(244)。

在一些实施方案中，结构变异是由第二组(例如，组144-2)序列读段表示的测试核酸的不同部分中有50个连续碱基或更多、50个连续碱基或更多、100个连续碱基或更多、250个连续碱基或更多、500个连续碱基或更多、1000个连续碱基或更多、10,000个连续碱基或更多、20,000个连续碱基或更多、40kb连续碱基或更多、100kb连续碱基或更多、或者250kb连续碱基或更多易位到由第一组(例如，组144-1)序列读段表示的测试核酸602的不同部分中(246)。

在一些实施方案中，由对应于第一序列读段组的单元表示的测试核酸的不同部分来自生物样本的第一染色体，并且由对应于第二序列读段组的单元表示的测试核酸的不同部分来自生物样本的第二染色体，其中第二染色体不同于第一染色体(248)。在一些此类实施方案中，第一染色体是父系染色体，并且第二染色体是母系染色体(250)。在一些此类实施方案中，生物样本是人，并且第一染色体是21、18或13号染色体(252)。

在认为发生了结构变异的一些实施方案中，所述方法还包括响应于所识别的结构变异而用治疗方案治疗提供生物样本的受试者(254)。在一些实施方案中，此治疗方案包括饮食调整(256)。例如，在一些实施方案中，结构变异与癌症相关联，并且饮食调整包括避免甜食和其他具有高糖含量的食物。在一些实施方案中，治疗方案包括施用抑制或加强与结构变异相关联的生物途径的药物组合物(258)。这类生物途径的非限制性实例可参见KEGG数据库。参见Kanehisa和Goto，2000，“KEGG:Kyoto Encyclopedia of Genes andGenomes”，Nucleic Acids Research 28,27-30，所述文献特此以引用的方式整体并入本文。

准确地检测结构变异依赖于序列比对器(sequence aligner)唯一地且可信地将读段映射至基因组的能力。在一些情况下，情况并不是这样，甚至是在现有技术水平的比对器诸如BWA的情况下。参见Heng和Durbin，2010，“Fast and accurate long-readalignment with Burrows-Wheeler transform”，Bioinformatics，26(5):589-95，所述文献的有关BWA的公开内容特此以引用的方式并入。例如，考虑测试核酸602的两个高度同源的区域，即，具有很大程度序列相似性的两个区域。来自任一个区域的序列读段128都将与测试核酸602的两个区域非常合理地比对。测序误差结合自然的序列变化可能会使来自这种区域的序列读段128看起来它们就像来自于其同源配偶体。这会导致同源区之间共享假条形码132。依赖于读段对信息的算法受制于相同的问题。为了能够检测这类假阳性结构变异，在一些实施方案中，对所检测的断点周围的序列读段128执行局部重新比对的步骤。比对质量与识别的结构变异的两个断点类似的序列读段128被作为假序列读段而丢弃。

因此，在认为度量满足阈值准则的一些实施方案中，所述方法还包括使用比用算法诸如BWA实现的全基因组比对更准确的局部重新比对程序来将多个相应的序列读段中的每个相应的序列读段128与对应于第一序列读段组(例如，组144-1)的测试核酸602的子集142(例如，子集142-1)进行比对。然后，基于所述比对而确定多个相应的序列读段中的每个相应的序列读段相对于对应于第一序列读段组的测试核酸的子集(例如，子集142-1)的第一比对质量。在这类实施方案中，所述方法还包括将多个相应的序列读段中的每个相应的序列读段128与对应于第二序列读段组的测试核酸的子集142(例如，子集142-2)进行比对。此外，基于所述比对而确定多个相应的序列读段中的每个相应的序列读段相对于对应于第二序列读段组的测试核酸的子集(例如，子集142-2)的第二比对质量。这类比对的目的是从多个相应的序列读段除去所具有的比对评分无法区分第一子集(例如，子集141-1)和第二子集(例如，子集142-2)的那些序列读段。换言之，除去第一比对质量和第二比对质量类似的那些序列读段，从而获得数目减少的序列读段。对于这个数目减少的序列读段，重复过程234(260)。序列读段的所述数目(现已减少)可归因于机会的概率或似然率通过基于序列读段的所述数目的度量与阈值准则的比较来确定。当度量满足阈值准则时，认为已在以下各处发生结构变异：(i)由第一序列读段组表示的测试核酸的不同部分，和/或(ii)由第二序列读段组表示的测试核酸的不同部分。在一些实施方案中，以上等式(1)中定义了这个度量。

在一些实施方案中，维持中断列表。这个中断列表包括测试核酸602的多个中断区。在一些此类实施方案中，确定过程234还包括当序列读段128的第一部分130与多个中断区中的中断区重叠时，从多个相应的序列读段除去所述序列读段(262)。在一些此类实施方案中，确定过程234还包括只有当序列读段128的第一部分130完全处于多个中断区中的中断区时，才从多个相应的序列读段除去所述序列读段。

在一些实施方案中，维持白色列表。白色列表包括测试核酸602的多个区域。在一些此类实施方案中，确定过程234还包括当序列读段128的第一部分130与多个白色列表区域中的白色列表区域不重叠时，从多个相应的序列读段除去所述序列读段。在一些此类实施方案中，确定过程234还包括只有当序列读段128的第一部分130完全处于多个白色列表区域中的所有白色列表区域外部时，从多个相应的序列读段除去所述序列读段。

部分B.结构变异的其他实施方案。参考图7，公开了用于在获自单一生物样本的测序数据中检测结构变异的另外方法。获得序列读段，每个序列读段包括对应于测试核酸的子集的一部分以及对独立于测序数据的条形码进行编码的一部分。获得单元信息。每个单元表示样本核酸的不同部分。每个单元对应于由所获得的序列读段形成的多个序列读段组中的序列读段组，使得相应的序列读段组中的每个序列读段对应于由对应于相应的组的单元表示的测试核酸的子集。二项式测试识别单元对，所述单元对具有比偶然预期更多的共同具有相同条形码的序列读段。概率模型从这些单元对的序列读段确定结构变异似然率。

图7是示出确定获自单一生物样本的测试核酸中发生结构变异的似然率的方法(702)的流程图。在一些实施方案中，所述方法在计算机系统处进行，所述计算机系统具有一个或多个处理器和存储器，所述存储器存储一个或多个程序，所述一个或多个程序用于根据一些实施方案由一个或多个处理器执行(704)。

获得多个序列读段。根据所公开的系统和方法，获得多个序列读段128(706)。在图7中在元素706至720处公开了用于获得序列读段的方法。另外，可以使用如上所述的部分A，结构变异(例如，图2的元素206至220)中所公开的获得序列读段的任何方法，并且为了简洁起见在此处不进行重复。

获得单元信息。根据所公开的系统和方法，获得多个单元140(722)。在图7中在元素722至730处公开了用于获得单元的方法。另外，可以使用如上所述的部分A，结构变异(例如，图2的元素222至230)中所公开的获得单元的任何方法，并且为了简洁起见在此处不进行重复。

在一些实施方案中，为了识别大规模的结构变异，将测试核酸(例如，基因组)按单元分成10kb的窗口(下文称为单元140)，并且对每个单元140内的Q60读段的唯一条形码132进行计数。在一些实施方案中，为了识别大规模的结构变异，将测试核酸(例如，基因组)按单元分成具有预定大小(例如，5kb、10kb、20kb、40kb)的单元140，并且对每个单元140内的Q40读段、Q50读段、Q60读段或Q70读段的唯一条形码132进行计数。

在一些实施方案中，多个单元中的每个相应的单元140表示测试核酸602的不同部分。单元信息为多个单元中的每个相应的单元识别多个序列读段组中的序列读段组128。图5进行说明。在图5中，描绘测试核酸602。进一步在图5中所示，多个单元中的每个相应的单元140表示测试核酸602的不同部分142。另外，单元信息为多个单元中的每个相应的单元140识别对应于相应的单元的序列读段128组144。

继续参考图5，多个序列读段组中的每个序列读段组144中的每个序列读段128在多个序列读段中。也就是说，每个序列读段128对应于已经分单元的测试核酸602的部分142。

多个序列读段组中的每个相应的序列读段组144中的每个相应的序列读段具有相应的第一部分130，所述第一部分对应于至少部分与测试核酸的不同部分重叠的测试核酸的子集，所述不同部分由对应于相应的序列读段组的单元表示(722)。例如，参考图5所示的组144-1，每个序列读段128-1-1、…、128-1-K包括第一部分130，所述第一部分对应于测试核酸140-1中对应于单元140-1的区域142-1的至少一个子集。将从图3的模式和构造了解到，在典型的实施方案中，组144-1的序列读段128-1-1、…、128-1-K的第一部分130具有不同的长度并且相对于彼此移位，但是重叠。在一些实施方案中，这种第一部分130可以包括来自测试核酸602的邻近区域142的一些核苷酸位置。在一些实施方案中，第一部分130仅表示单元140的测试核酸602的区域142的子集。

在一些实施方案中，多个单元中的每个单元140表示测试核酸的至少20kbp、至少50kbp、至少100kbp、至少250kbp或者至少500kbp(724)。换言之，参考图5，在一些实施方案中，测试核酸602中由单元140-1表示的部分142-1为至少20kbp、至少50kbp、至少100kbp、至少250kbp或者至少500kbp。

在一些实施方案中，由多个单元中的每个相应的单元表示的测试核酸的每个不同部分之间不存在重叠(726)。这种实施方案示出于图5。在这类实施方案中，对应的单元144中的序列读段128的第一部分130与相邻区域142可能存在重叠。在一些实施方案中，由多个单元中的每个相应的单元表示的测试核酸的每个不同部分406之间不存在重叠(726)，但是对应的单元144中的序列读段128的第一部分130与相邻部分406存在一些重叠。

在一些实施方案中，多个序列读段中的每个相应的序列读段组中的每个相应的序列读段具有相应的第一部分130，所述第一部分对应于完全与测试核酸的不同部分重叠的测试核酸602的子集，所述不同部分由对应于相应的序列读段组的单元表示(728)。换言之，使用图5的单元144-1作为实例，在一些实施方案中，每个序列读段128-1-1、…、128-1-k的每个第一部分130包括区域142-1的完全拷贝。

在一些实施方案中，多个单元包括20或更多个单元、100或更多个单元、1000或更多个单元、10,000或更多个单元、100,000或更多个单元或者1,000,000或更多个单元(730)。

识别具有共同条形码的单元。在所公开的系统和方法中，在多个单元140当中识别对应于测试核酸的不重叠的部分的第一单元和第二单元。第一单元由多个序列读段中的第一序列读段组144表示，并且第二单元由多个序列读段中的第二序列读段组144表示(732)。在一些实施方案中，每个这样的序列读段组144包括10个或更多个序列读段128、20个或更多个序列读段128、30个或更多个序列读段128、或者100个或更多个序列读段128。

在一些实施方案中，第一单元(140)和第二单元(140)在测试核酸上间隔开至少预定数目千碱基(734)。在一些实施方案中，第一单元和第二单元在测试核酸上间隔开至少5千碱基、至少25千碱基、至少50千碱基、至少50千碱基、或至少100千碱基(736)。

在一些实施方案中，计算表示第一组144和第二组144所共有的条形码132的数目可归因于机会的数值概率或似然率的第一值(738)。在一些实施方案中，使用二项式测试来计算第一值(740)。例如，在一些实施方案中，二项式测试用于找出所有单元对，所述单元对间隔开至少一个预定距离(例如，50kb或处于不同染色体上)并且共享比偶然预期更多的条形码132(例如，使用p-值截止值10^-15，而不进行任何多重假设校正)。有利的是，已经发现这个截止值足够宽松来包括所有感兴趣的潜在结构变异的区域。在一些实施方案中，二项式测试具有以下形式：

p＝1-P_Binom(n；n₁n₂/B)

其中p为第一值，其表述为p-值，n是发现于第一序列读段组和第二序列读段组两者的唯一条形码的数目，n₁是第一序列读段组中的唯一条形码的数目，n₂是第二序列读段组中的唯一条形码的数目，并且B是多个单元中的唯一条形码的总数(742)。在一些实施方案中，单一生物样本是人，测试核酸602是生物样本的基因组，并且当第一值为10^-12或更小，当第一值为10^-13或更小，当第一值为10^-14或更小，或者当第一值为10^-15或更小时，第一值满足预定截止值(746)。

在一些实施方案中，此处比较的单元对的数目粗略约为10¹⁰。为了有效地进行这些比较，在一些实施方案中，将每个单元140中的条形码132组编码为非零条目的(非常稀疏的)矩阵，并且使用稀疏矩阵乘法来识别重叠的区域(748)。这允许快速识别候选单元140以供后续结构变异研究。然而，所公开的二项式测试在一些情况下会产生相当大量的假阳性，因为所述二项式测试没有考虑到系统的许多方面，诸如测试核酸片段306的长度分布和GEM上的扩增率的变化。在一些实施方案中，第一单元和第二单元的同一性使用具有以下形式的稀疏矩阵乘法来确定：

其中A₁是包括第一单元的第一B x N₁条形码矩阵，A₂是包括第二单元的第二B xN₂条形码矩阵，B是多个单元中的唯一条形码的数目，N₁是A₁中的单元的数目，N₂是A₂中的单元的数目，并且是矩阵A₁的转置(750)。在一些实施方案中，第一单元与生物样本的第一染色体相关联，第二单元与生物样本的第二染色体相关联，N₁是与第一染色体相关联的单元的数目，并且N₂是与第二染色体相关联的单元的数目(752)。在一些实施方案中，第一单元和第二单元各自都与生物样本的第一染色体相关联，N₁是与第一染色体相关联的单元的数目，并且N₂等于N₁(754)。

在第二遍过程中，使用概率方法来清理初始单元140候选列表(744)。在一些实施方案中，对文库分子组的估计通过联合具有相同条形码132的近旁序列读段128(例如，近于30kb)来获得。在以下论述中，术语“片段”用于指代具有相同条形码132的近旁序列读段128的跨度。片段源自于一些未观察到的分子(它们可能长于观察到的分子)。基于片段组，估计数量，诸如个别GEM的读段产生率(测序读段/bp)、每个分区304内的分子的数目和分子长度分布。

鉴于候选单元W₁、W₂对，识别两者重叠的片段组，并且之后识别单元W₁和W₂中具有相同条形码132的片段对。这类单元对可能是结构变异的证据，因为所述单元对表明同一个分子可能已经跨越基因组的两个相对较远的基因座。因此，在一些实施方案中，响应于确定第一值(上文所述)满足预定截止值，针对第一单元和第二单元140共有的每个条形码，获得片段对，从而获得一个或多个片段对。一个或多个片段对中的每个片段对(i)对应于第一单元和第二单元共有的不同条形码；并且(ii)由不同的第一计算片段和不同的第二计算片段组成。在一些实施方案中，一个或多个片段对是单一片段对。在一些实施方案中，一个或多个片段对是2个或更多个片段对、5个或更多个片段对、10个或更多个片段对、或者100个或更多个片段对。

对于一个或多个片段对中的每个相应的片段对，不同的第一计算片段由多个序列读段中具有对应于相应的片段对的条形码的相应的第一序列读段子集128组成。相应的第一序列读段子集中的每个序列读段128在相应的第一序列读段子集中的另一个序列读段128的预先确定的遗传距离(例如，30kb)内。相应的片段对的不同第一计算片段起源于具有对应于第一单元中的相应的片段对的条形码的第一序列读段。相应的第一序列读段子集中的每个序列读段来自第一单元。不同的第二计算片段由多个序列读段中具有对应于相应的片段对的条形码的相应的第二序列读段子集组成。相应的第二序列读段子集中的每个序列读段在相应的第二序列读段子集中的另一个序列读段的预先确定的遗传距离(例如，30kb)内。相应的片段对的不同的第二计算片段起源于具有对应于第二单元中的相应的片段对的条形码的第二序列读段，并且相应的第二序列读段子集中的每个序列读段来自第二单元(744)。

为了量化以上识别的单元对展现出结构变异的证据，在一些实施方案中计算似然比评分(756)。在一些实施方案中，基于关于一个或多个片段对的第一模型的发生概率和第二模型的发生概率而计算相应的似然率，从而提供测试核酸602中的结构变异的似然率。第一模型规定：观察到一个或多个片段对的相应的第一计算片段和相应的第二计算片段并未给出靶核酸序列的结构变异，并且所述相应的第一计算片段和相应的第二计算片段是共同分子的一部分。第二模型规定：观察到一个或多个片段对的相应的第一计算片段和相应的第二计算片段已给出靶核酸序列的结构变异(756)。

在一些实施方案中，计算的似然率被计算为第一模型的发生概率与第二模型的发生概率之间的比率评分(758)。参考图7F的元素760，在一些实施方案中，计算的似然率被计算为：

由于具有不同条形码的片段是独立的，这个评分被分解成多个项的乘积，其中具有相同条形码b的每个片段对为一个项：

其中：

r₁，r₂是两个片段中的每一个上的序列读段(128)的数目，

l₁，l₂是观察到的两个片段的长度，

d是两个片段之间的距离，并且

a_b是GEM/条形码b的比率(读段/bp)。

换言之，LR等于一个或多个项(例如，多个项)的乘积，其中每个相应的项(i)表示一个或多个片段对中的相应的片段对，并且(ii)具有以下形式：

其中r₁是相应的片段对的第一计算片段中的相应的第一序列读段子集中的序列读段的数目，l₁是如通过相应的片段对的第一序列读段子集确定的第一计算片段的长度，r₂是相应的片段对的第二计算片段中的相应的第二序列读段子集中的读段的数目，l₂是如通过相应的片段对的第二序列读段子集确定的第二计算片段的长度，d是测试核酸中的相应的片段对的第一计算片段与第二计算片段之间的距离，a_b是多个序列读段中的第一条形码的读取率，SV指示根据第一模型，观察到了第一计算片段和第二计算片段，并且无SV指示根据第二模型，观察到了第一计算片段和第二计算片段(760)。

参考图7G的元素762，在一些实施方案中，两个候选片段可能源自于相同分子或不同分子，因此：

P(r₁，r₂，l₁，l₂，d|无SV；a_b)＝

P(r₁，r₂，l₁，l₂，d|相同分子，无SV；a_b)P(相同分子|无SV)+P(r₁，r₂，l₁，l₂，d|不同分子，无SV；a_b)P(不同分子|无SV) (2)

在片段源自于不同分子的情况下的概率为：

P(r₁，r₂，l₁，l₂，d|不同分子，无SV；a_b)＝P_frag(r₁，l₁；a_b)P_frag(r₂，l₂；a_b)

其中P_frag(r，l；a_b)是从未知长度的分子观察到r个序列读段128，使得所述读段跨越观察长度l的概率。参考图7G的元素764，假定序列读段128产生自基因组上具有恒定比率的泊松过程，那么我们可得出：

其中P_p(r；b)是具有参数b的泊松分布的概率质量函数，并且P_L(m)是真实分子长度为m的(预估计)概率。

参考图7G的元素766，在片段来自于相同分子的情况下的概率可以类似方式计算为：

其中m是真实分子长度的长度，P_p(r₁-2；a_bl₁)是有关r₁的具有参数b的泊松分布的概率质量函数，P_p(r₂-2；a_bl₂)和r₂，P_p(0；a_b(m-l₁-l₂))分别是具有参数b的泊松分布的概率质量函数，并且P_L(m)是真实共同分子长度为m的预估计概率。

在存在结构变异下，似然率类似于等式(2)。然而，在这种情况下，相对于观察到的片段，存在其他未知，即精确的断点的位置。例如，假定chr1的位置100,000与200,000之间存在缺失，并且所观察到的片段跨越区域85,000-90,000和210,000-230,000。如果已知精确断点，那么可以使用先前的计算，其中d被设定为10kb+10kb＝20kb。由于真实断点的位置(以及因此观察到的片段之间的真实距离)是未知的，在一些实施方案中并不整合这种情况。相反，在一些实施方案中，为了简化计算，通过计算最大范围d′，使得P_p(0；a_bd′)≥0.75来获得对d的粗略估计。然后，在以上的等式中，d被设定为2d’，以便于计算P(r₁，r₂，l₁，l₂，d|SV；a_b)。换言之，在一些实施方案中P(r₁，r₂，l₁，l₂，d|SV；a_b)＝

其中

SM是以下假设：第一计算分子和第二计算分子源自于多个测序反应中的测试核酸的相同片段，

DM是以下假设：第一计算分子和第二计算分子源自于多个测序反应中的测试核酸的不同片段，

P(r₁，r₂，l₁，l₂，2d′|DM，SV；a_b)＝P_frag(r₁，l₁；a_b)P_frag(r₂，l₂；a_b)，，

其中

P_frag(r₁，l₁；a_b)是从未知长度的第一分子观察到r₁个读段，使得所述读段跨越观察长度l₁的概率，

P_frag(r₂，l₂；a_b)是从未知长度的第二分子观察到r₂个读段，使得所述读段跨越观察长度l₂的概率，并且

2d′＝考虑到对与第一计算分子和第二计算分子相关联的结构变异的断点的估计，测试核酸中的相应的片段对的第一计算片段与第二计算片段之间的距离。在此处，P_frag(r₁，l₁；a_b)和P_frag(r₂，l₂；a_b)分别被计算为

其中，P_p(r；b)是具有参数b的泊松分布的概率质量函数，并且P_L(m)是相应的分子的真实分子长度为m的(预估计)概率。另外，P(r₁，r₂，l₁，l₂，2d′|SM，SV；a_b)被计算为

在一些实施方案中，为得出以上等式(2)中的先验数据，假定在基因组的任何给定位置处具有第二分子的概率是M/G，其中M是输入分子的总数，并且G是基因组的大小。这些先验数据实际上独立于是否存在结构变异，因此P(相同分子j无SV)＝P(相同分子)，并且P(不同分子)＝1–P(相同分子)。

上文有关等式(1)和(2)的论述假设全基因组测序数据。在靶向测序的情况下，考虑靶组的组成。在一些实施方案中，假定脱靶区遵循与靶区类似的泊松过程，但以不同的比率来产生读段。具体而言，令b_t为靶上的读段的分数，并且令g_t为被靶区覆盖的基因组的分数。如果a_b是靶区的泊松比率，那么脱靶区的比率为：

从含有l_tbp靶标和l_nbp脱靶区的区域观察到r个读段的概率为：

从未知长度的分子观察到跨越观察长度l＝l_t+l_n的r个读段的概率为：

其中内部总和是针对未观察到的分子相对于观察到的片段的所有m-l偏移来求取，并且

和

是有关对应偏移的在靶和脱靶碱基。为了简化计算，对于给定值m，针对所有偏移计算在靶和脱靶碱基的平均分数，并且假定所有偏移在一些实施方案中具有相同的靶组成。以与WGS情况类似的方式调节计算(1)所需的概率的其他部分。

在一些实施方案中，计算出对数区间内的所有概率以避免下溢。在一些实施方案中，使用对数-似然比截止值200。根据经验可发现这个截止值(cutout)会(在下文描述的过滤步骤之后)实现假阳性比率非常低的高质量识别。

在一些实施方案中，结构变异是由第一序列读段组表示的测试核酸的不同部分中插入或缺失50个连续碱基或更多、500个连续碱基或更多、或者5000个连续碱基或更多(768)。在一些实施方案中，第一单元的测试核酸的不同部分与由第二单元表示的测试核酸的不同部分重叠(770)。在一些实施方案中，第一单元的测试核酸的不同部分的至少50％、80％或95％与第二单元的测试核酸的不同部分重叠(772)。在一些实施方案中，结构变异是由第二序列读段组表示的测试核酸的不同部分中有50个连续碱基或更多易位到由第一序列读段组表示的测试核酸的不同部分中(774)。

在一些实施方案中，由对应于第一序列读段组的单元表示的测试核酸的不同部分来自生物样本的第一染色体，并且由对应于第二序列读段组的单元表示的测试核酸的不同部分来自生物样本的第二染色体，其中第二染色体不同于第一染色体(776)。在一些实施方案中，第一染色体是父系染色体，并且第二染色体是母系染色体(778)。在一些实施方案中，生物样本是人，并且第一染色体是1-21号染色体中的任一个(780)。

在一些实施方案中，认为发生了结构变异，并且所述方法还包括响应于结构变异而用治疗方案治疗提供生物样本的受试者(782)。在一些实施方案中，治疗方案包括饮食调整(784)。在一些实施方案中，治疗方案包括施用抑制与结构变异相关联的生物途径的药物组合物(786)。

使用短读段信息来细化断点。在一些实施方案中，在使用上文描述的方法获得断点窗口之后，来自读段对和拆分读段的这种信息用于进一步细化断点位置。对于每个识别的结构变异，选择在识别的断点单元内的所有读段对和拆分读段。然后，基于来自所有选择的读段对和拆分读段的组合证据，使用类似于Layer等人，2014，“LUMPY:A probabilisticframework for structural variant discovery”，Genome Biology，15(6)，R84，doi:10.1186/gb-2014-15-6-r84(所述文献特此以引用的方式整体并入本文)的概率方法来推测断点基因座。为了避免假阳性，仅在有至少四个读段对和拆分读段支持识别时才尝试推测精确的断点基因座。

基于间隙和区段复制而过滤识别。在一些实施方案中，维持中断列表(788)，中断列表包括测试核酸的多个中断区，并且所述方法还包括当序列读段的第一部分与多个中断区中的中断区重叠时，在识别之前从多个相应的序列读段除去所述序列读段(788)。例如，在一些实施方案中，将排除的是，断点与同一个区段复制(使用来自UCSC浏览器的区段复制记录)的不同拷贝重叠的结构变异识别。结构变异富集于这类区域(Mills等人，2011，“Mapping copy number variation by population-scale genome sequencing”，Nature，470(7332)，59–65，doi:10.1038/nature09708，所述文献以引用的方式整体并入本文)，因此这些识别中的一些可能表示真实事件。然而，已经观察到结构变异区域中的大部分识别是比对器无法适当地解决重复区域的结果，因为少量变异足以使读段唯一地且以高映射质量映射至区段复制的一个或其他拷贝。还将排除的是，与间隙(使用来自UCSC浏览器的间隙记录)或引入到hg38(使用来自UCSC浏览器的hg19 diff记录)中的新序列相距预定距离(例如，10kb)内的结构变异识别。论据是这类识别是不感兴趣的，因为它们可能会呈现hg19的错误组装。

部分C.定相。在这个部分中，公开了通过对子模块124进行定相的一些实施方案来实施的示例性方法。说明了将序列读段128定相到父系单倍型的动机。定相变异是二倍体基因组的状态的更全面的表示。各种各样的研究已经发现定相变异允许更好地理解观察到的表型。参见，例如，Tewhey等人，2011，“The importance of phase information for humangenomics”，Nat Rev Genet，12:215-223，所述文献以引用的方式整体并入本文。例如，在存在复合杂合性下，需要定相来消除基因的一个或两个拷贝丢失的歧义。参考图11，例如，顺式中的两个功能失去突变留下了基因的功能拷贝，而反式中的两个功能失去突变使两个拷贝失活。因此，需要适当地对序列读段进行定相，以便于解释二倍体基因组的状态。

用于定相的算法。为了对变异(例如，以上部分A或部分B中识别的变异)进行定相，对在定相配置下序列读段和条形码支持每个等位基因的似然率建模。参见，例如，Bansal等人，2008，“An MCMC algorithm for haplotype assembly from whole-genome sequencedata”，Genome Res，18:1336-1346，所述文献以引用的方式整体并入本文。然后，进行有关最大似然率定相配置的研究。此算法首先通过定向搜索邻近变异块来找出近似最优的局部单倍型配置。在一些实施方案中，邻近变异块包括约40个变异。在一些实施方案中，邻近变异块由10至30个变异、20至50个变异、30至60个变异、或超过60个变异组成。相邻块大量联合来形成全局解，所述全局解迭代地细化直到收敛为止。每个定相决策的置信度是介于最优与其次最佳解之间的似然比。

具体而言，(例如，从以上部分A或部分B，多个单核苷酸多态性，从其他来源等)获得预定变异识别组。标记等位基因A_i；p，其中i∈1；…,N用作变异的索引。在一些实施方案中，p∈0,1是变异的两个等位基因的任意标记。来自于同一个父系染色体的等位基因组被称为单倍型，并且被任意地标记为H₀和H₁。定相算法的目标是确定每个变异的哪个等位基因来自于每个父系染色体。在一些实施方案中，定相结果可以通过每个变异的二进制变量X_i∈0,1来描述，其中X_i＝0指示A_i,0∈H₀并且A_i,1∈H₁，而X_i＝1指示A_i,0∈H₁并且A_i,1∈H₀。

在一些替代实施方案中，p∈{0,1,-1}，其中标记“0”将A_i；p中的相应的变异识别分配至H_O，标记“1”将相应的变异识别分配至H₁，并且标记“-1”提供指出对单倍型分配变异识别的过程中存在错误状态的有利可能性。这个错误状态表示潜在变异的接合性错误。这个替代实施方案考虑到在位置A_i；p处提供介于H_O与H₁之间的变异识别所依赖的标准变异识别算法实际上偶尔可能会对这类位置的接合性进行不正确的识别。所公开的替代的定相实施方案p∈{0,1,-1}有利地允许探索定相期间的这种接合性错误形式。选择性地对这种错误状态采样的能力有利地保护定相算法免于例如因测序过程、较弱的测序信号等等出现错误而导致的输入数据的错误。

测试核酸序列602(例如，基因组)上的相邻变异往往隔开比读段对长度(例如，序列读段长度128)更长的距离，从而导致非常短的相位块。如上文所公开，覆盖小分数(0:01-0:001)的测试核酸序列602(例如，基因组)的长的测试核酸片段306(例如，输入片段)被暴露于每个条形码132，因此条形码132含有来自两个单倍型的序列读段128的概率很小。

在一些实施方案中，将序列读段128与靶生物体的基因组进行比对。序列读段128通过连接的条形码132序列来子集。将具有共同条形码序列132的序列读段128分为可能源自于单一测试核酸片段306(例如，基因组输入片段)的多个组，并且因此提供由序列读段128覆盖的等位基因来自于同一个单倍型的证据。在一些实施方案中，多个带条形码的序列读段表示为

在一些实施方案中，多个序列读段中的每个相应的序列读段

(其中q是

的整数索引)包括第一部分，所述第一部分对应于参考序列的子集；以及第二部分，所述第二部分独立于参考序列而以多个条形码对相应的序列读段的相应的条形码进行编码。

在一些实施方案中，多个序列读段

中的每个相应的序列读段

其中(i)相应的序列读段

中的每个相应的序列读段

其中(i)相应的序列读段

在所公开的方法中，定相结果

中的每个相应的序列读段

的实施方案中，多个序列读段在个别位置i处的这些单倍型分配各自介于H₀H₀与H₁之间。在定相算法中要额外对位置i的接合性的可能错误进行采样的替代的实施方案中，多个序列读段

中的每个相应的序列读段

多个序列读段在个别位置i处的这些单倍型分配各自介于H₀、H₁与H_-1之间，其中H_-1表示以上接合性错误状态。

将序列读段与参考基因组进行比对。另外，将具有相同条形码的序列读段子集在一起。以此方式，将具有共同条形码的序列读段分为可能源自于单一基因组输入片段f的多个组，并且因此提供由序列读段覆盖的等位基因来自于同一个单倍型的证据。

在多个序列读段

中的每个相应的序列读段

的一些实施方案中，观察到的序列读段128覆盖来自测试核酸片段306f的变异i的概率被计算为：

其中r对读段求和，并且1(S_r＝A_i，p)是测试第r个序列读段128S_r是否与等位基因A_i，p匹配的指示函数。当第r个序列读段128S_r与等位基因A_i，p匹配时，指示函数具有第一值(例如，“1”)，否则就为第二值(例如，“0”)。项1(S_r≠A_i，p)是指示函数，所述指示函数在来自片段f的第r个序列读段S_r不与A_i，p匹配时具有第一值(例如，“1”)，否则就为第二值(例如，“0”)。在一些实施方案中，所分配的概率推导自相关读取碱基的Phred逆变换质量值Q_r。

在多个序列读段

中的每个相应的序列读段

的实施方案中，如果可能要额外对位置i处的接合性错误进行采样，那么观察到的序列读段覆盖来自片段f的变异i的概率被计算为：

其中，

X^-是H_-1，并且

1(A_i，p＝X^-)是指示函数，所述指示函数在A_i，p等于-1(H_-1)时具有第一值(例如，“1”)，否则就为第二值(例如，“0”)。

在

在此处，

是细化的定相矢量，而

是有待推测的定相矢量结果，并且

在

的实施方案中，定相矢量可以通过优化总目标函数来找出：

其中，

H_-1是位置i处的接合性错误状态，

ε_i是对位置i处出现这种形式错误的估计，并且

在一些实施方案中，ε_i是位置i处的变异的类型的函数。例如，ε_i在位置i处的变异通过基因插入或缺失来产生时被规定为是第一值，并且在位置i处的变异通过其他手段(例如，单核苷酸多态性)来产生时被规定为是另一个值。

测试核酸片段306f的数据来自于三种情况之一。前两种情况是存在的等位基因仅来自于H₀或仅来自于H₁。这些情况是典型情况，并且具有高先验概率，取决于存在于每个分区304中的测试核酸片段306(例如，基因组)的分数。第三种情况是来自两种单倍型的输入DNA存在于基因座处，因此会同等可能地观察到任一个等位基因：

P(O_1，f，...，O_N，f|X，H_f＝M)＝Π_i0.5

以上三个等式给出观察到的来自片段306f的序列读段128处于变异位置i，X_i且为片段单倍型H_f的概率。鉴于变异方和片段单倍型，观察是独立的。第三种情况的先验概率是∝-分区在基因座处含有两种单倍型的概率。总似然率可以通过对三种情况求和来计算：

对具有杂合变异的测试核酸602(例如，基因组)中的每个位置给出变异索引v∈1,…,N，并且任意地对两个等位基因中的每一个分配索引a∈0,1。

优化。在一些实施方案中，对定相矢量

使用层级搜索来优化以上呈现的总目标函数之一。

的实施方案的目标函数示出于图12。在一些实施方案中，

分解成n≈40个变异的局部组块，并且对X_k、X_k+1、…、X_k+n的分配使用定向搜索来确定块的相对定相，其中k是局部块中的第一变异。在一些实施方案中，局部组块由10至20个变异、20至30个变异、30至40个变异、35至45个变异、40至50个变异、或超过50个变异组成。在例如en.wikipedia.org/wiki/Beam_search处描述了定向搜索，所述网址特此以引用的方式整体并入本文。还参见图13，其示出了定向搜索。在图13中，在定向搜索的每个阶段，仅保留k最高评分部分解。在图13中，k＝6。在图13中，用红色X标记的节点不处于最高k，因此不对所述节点进行进一步的探索。

找到了大量相邻块的相对定相，从而产生候选定相矢量

最终，通过交换个别变异的相位来迭代地细化

这种细化的收敛产生对最优定相配置

的估计。在一些实施方案中，每个定相决策的置信度是介于最优与其次最佳解之间的似然比。在一些实施方案中，对定相配置的准确性的估计通过计算介于最优配置

之间的似然比来确定，而对一些替代配置X_替代的准确性的估计通过计算假设之间的似然比来确定。在一些实施方案中，然后将置信度报道为Phred格式质量值：

在一些实施方案中，考虑了两种类别的错误：短交换错误和长交换错误。短交换错误是在正确定相区域中却分配了错误定相的单一变异。为了测量变异i的短交换置信度，翻转X_i来形成X_替代。当短交换置信度较低时，在输出中将变异标记为未定相，而不是报告定相识别可能是错误的。

长交换错误在以下情况下发生：两个相邻的变异块…,X_i-2,X_i-1和X_i,X_i+1,…在内部正确地定相，但是两个块之间的相对定相是错误的。在这种情况下，在位置i处识别长交换错误。位置i处的长交换置信度通过针对所有i>＝j反转X_j的相位来测试。当长交换置信度下降到阈值以下时，开始新的相位块，并且不同相位块中的变异相对于彼此并不称为已定相。

实施例1.

样本制备。图8提供根据本公开的示例性实施方案的样本制备的实例。GemCode平台大量分配DNA并为其编制条形码，从而产生具有>100,000个唯一条形码的测序就绪的文库。自定义算法使用这种条形码信息来将读段往回映射到DNA的原始的长分子，从而产生跨越数十个千碱基的链接读段。在>100,000个带条形码的分区上随机地分布来自约1ng gDNA的长模板分子，从而给出<10fg(<0.3％的基因组)/分区。每个分区携带具有条形码的引物，所述条形码在一个分区内是恒定的，但是在整个分区上是相异的。扩增反应在每个分区内产生带条形码的短读段文库片段。所得文库可与标准外显子组捕获兼容，同时保留长距离键信息。具体而言，所得文库是以样本为索引并且可以是全基因组测序的，或者用作输入来输入到许多可商购的杂交捕获平台之一中以产生靶向测序文库。这个新的链接读段数据类型的强大性质意指在靶富集之后，甚至是在内含子区未被选择或测序的情况下都能保留大范围信息。

链接读段。参考图9，在映射之后，来自相同基因座的具有相同条形码的读段形成一组‘链接读段’，所述链接读段产生自单一输入分子。在外显子组数据中，链接读段跨越多个靶区，从而允许从外显子组数据来进行定相和结构变异识别。在图9中，每个点表示NGS读段对(例如，序列读段)。在图9中通过水平线联合的这类序列读段组共享共同条形码，所述共同条形码来自用于对测试核酸测序的超过100,000个条形码的集合。此外，水平线被布置成相应的组902和904，每个这样的组表示从中获得测试核酸的二倍体生物体的两个父系单倍型。图9中进一步示出了测试核酸的基因组内的外显子的位置906。每个这样的外显子在图中被示出为竖直条。

测序结果。参考图10，来自获自两个不同生物体(分别标记为NA12878 WGS和NA12878 WES)的靶核酸的序列读段的文库实现了低PCR复制率和高映射分数，但是仅要求1ng输入材料。每个输入分子产生一组数十个链接读段。

定相。通过对现有的变异识别进行定相来将所公开的用于定相(柱NA12878 WES)的系统和方法与产生自以下各项的定相的基因组进行比较：谱系定相(Cleary等人，2014，“Joint variant and de novo mutation identification on pedigrees from high-throughput sequencing data”，J Comput Biol，21:405-419，所述文献以引用的方式整体并入本文)(NA12878 WGS)；精子直接单倍型分型(Kirkness等人，2013，“Sequencing ofisolated sperm cells for direct haplotyping of a human genome”，Genome Res，23:826-832，所述文献以引用的方式整体并入本文)(HuRef1 WGS)；以及fosmid汇集(Kitzman等人，2011，“Haplotype-resolved genome sequencing of a Gujarati Indianindividual”，Nat Biotechnol，29:59-63，所述文献以引用的方式整体并入本文)(NA20847WGS)。图14中总结了这些结果。发现与先前结果高度一致，并且一致地实现了处于适度覆盖水平的MB水平相位块。在外显子组测序的情况下，使用本公开的系统和方法，单一相位块中含有短于100kb的96％的基因。

结构变异确定-大规模结构变异检测-WGS情况研究CEPH trio的结果。在本实施例中，所有识别的缺失可发现于先前的研究。选择了先前通过另外三项研究报告的八个缺失以便使用OS-seq(Myllykangas等人，2011，“Efficient targeted resequencing of humangermline and cancer genomes by oligonucleotide-selective sequencing”，NatBiotechnol，29:1024-1027，所述文献以引用的方式并入本文)、定相信息、LOH以及覆盖深度来进行进一步验证，所述另外三项研究为Kidd等人，2010，“A human genome structuralvariation sequencing resource reveals insights into mutational mechanisms”，Cell，143:837-47；Layer等人，2014，“LUMPY:a probabilistic framework forstructural variant discovery”，Genome Biol，15:R84；以及Mills等人，2011，“Mappingcopy number variation by population-scale genome sequencing”，Nature,470:59-65，所述文献中的每一个以引用的方式并入本文。表1和表2提供结果。

表1

后代的所有识别与孟德尔遗传一致(参见结构变异定相部分)。Trio信息未用于对结构变异定相。

表2

结构变异确定–外显子组情况研究：H2228。肺癌细胞系H2228具有长内含子内具有断点的两个验证的基因融合(Choi等人，2008，“Identification of novel isoforms ofthe EML4-ALK transforming gene in non–small cell lung cancer”，Cancer Res，68:4971-4976；以及Jung等人，2012，“Discovery of ALK-PTPN3 gene fusion from humannon-small cell lung carcinoma cell line using next generation RNAsequencing”，Genes Chromosomes Cancer，51:590-597，所述文献中的每一个以引用的方式并入本文。尽管不存在重叠的捕获靶标，但是这些断点可以利用链接读段来检测。表3提供结果。

表3

结构变异定相–实施例1中采用的方法。在定相期间，利用变异同时计算每个模板分子的单倍型。通过使支持结构变异的每个条形码与从中获得所述结构变异的单倍型相关联，可以对结构变异进行定相。定相结构变异提供强有力的证实方法–假阳性结构变异不可能定相到单一单倍型。使用二项式测试来计算结构变异与单倍型相关联的p-值。图15示出定相的结构变异识别。通过对每个输入分子进行单倍型分配来拆分链接读段揭示了结构变异的定相结构。竖直条1504指示结构变异识别的断点。

图16示出NA12878的识别的缺失。支持结构变异识别的条形码定相到单一单倍型。表底部处的三个结构变异表示适当地被所公开的算法过滤出的短读段假阳性识别。假阳性识别不唯一地定相或遵循孟德尔遗传模式。

实施例2.本实施例描述了关于从癌症外显子组测序检测结构变异并对单倍型进行定相的技术。具体地并入到实施例2中的是于2015年2月24日提交的名称为“DetectingStructural Variants and Phasing Haplotypes from Cancer Exome Sequencing Using1ng Dna Input”的美国临时专利申请62/120,330，所述专利申请特此以引用的方式整体并入。

结构变化以及尤其是基因融合是许多癌症中的已知的驱动性突变。在许多情况下，经证明它们还是有效的药物靶标。然而，检测融合对于现有短读段测序技术而言是一项挑战，尤其是在使用外显子靶富集方法来实现灵敏地检测异质癌症样本中的重要突变所需的超深覆盖的情况下。因此，现有技术需要用于检测异质癌症样本中的重要突变的改进的系统和方法。

本实施例中提供了用于检测异质癌症样本中的重要突变的技术解决方案(例如，计算系统、方法和非暂时性计算机可读存储介质)。具体而言，使用来自10X Genomics的新平台来解决癌症测序中的多项挑战：(i)从外显子组测序数据检测基因融合事件，(ii)从约1ng DNA输入获得复杂的测序文库，(iii)对单核苷酸多态性和结构变异进行定相，以及(iv)解析复杂的重排。

在实施例2中，样本制备和链接读段的确定与实施例1中参考图8和图9给出的一样。从ATCC获取癌症细胞系和匹配的正常DNA，并且针对≥20kb的片段使用来自SageScience的BluePippin来选择大小。使用约1ng gDNA输入到GemCode平台中来制备测序文库。5mg文库用于使用具有IDT

通用阻断寡核苷酸的AGILENT SURESELECT HumanAll Exon V5+UTR来进行外显子组捕获。在ILLUMINA HiSeq 2500上使用双端2x98操作来对文库测序。使用GEMCode软件套件来分析测序结果并且将其可视化。图17在不同输入量下比较所公开的系统和方法的方法论与TruSeq+AGILENT SS数据的方法论之间的PCR复制率。图18在不同输入量下比较10X方法论与TruSeq/SS的方法论的变异识别性能。图19提供使用10X方法论进行的各种样本操作的测序度量。图17至图19示出所公开的系统和方法(例如，10X GemCode平台)使用约1ng范围内的输入产生了高复杂度的测序文库。此高复杂度允许在样本量有限的情况下进行更深入的靶向测序和更灵敏的变异识别。

参考图20，将先前注解的在用外显子组捕获靶向的30kb区域内发生的重排与使用本公开的系统和方法(例如，具有全外显子组测序的GemCode平台)检测的基因融合进行比较。使用全基因组测序或基于RNA的分析发现先前的注解。

图21示出使用本公开的系统和方法来对HCC38三阴性乳癌细胞系中的肿瘤特异性基因融合进行高置信度检测。

图22和图23示出使用本公开的系统和方法来解析复杂的重排。具体而言，在H2228肺癌细胞系中寻找EML4/ALK融合揭示了更复杂的事件：全基因组测序BC和读段计数证实ALK的外显子2-19内存在缺失。

图25和图26示出全基因组测序的链接读段和定相如何揭示HCC1143三阴性乳癌中的复杂缺失和等位基因丢失事件。线26A和26B提供了图26相对于图25的X轴的相对定位。

图27示出用于利用全外显子组测序检测BCR-ABL的示意图，在所述全外显子组测序中存在长内含子的额外诱饵。参考图28和图29，使用所公开的系统和方法从约1ng KU812gDNA输入产生了10XGemCode文库。利用标准IDT外显子组面板来完成杂交捕获，所述外显子组面板具有(外显子组+)或不具有(外显子组)附加Ultramer DNA诱饵(平均诱饵间隔约为2kb)，所述诱饵映射至介于ABL1的外显子1与外显子2之间的>100kb的内含子区。图30总结了0.2fmol内含子诱饵相对于无内含子诱饵操作的结构变异统计。

结论

可以为本文中作为单个实例描述的部件、操作或结构提供复数个实例。最后，各种部件、操作和数据存储之间的边界稍稍任意，并且在特定说明性配置的背景中说明特定操作。功能性的其它分配是可设想到的并且可以属于实现方式的范围内。一般来说，在示例配置中作为单独部件呈现的结构和功能性可以实现为组合的结构或部件。类似地，作为单个部件呈现的结构和功能性可以实现为单独部件。这些和其它变化、修改、增添和改进属于实现方式的范围内。

还将理解，虽然在本文中可以使用术语“第一”、“第二”等来描述各种元件，但是这些元件不应受这些术语所限制。这些术语仅用于将一个元件与另一个元件区分开。举例来说，第一物体可以被称作第二物体，并且类似地，第二物体可以被称作第一物体，而不会改变所述描述的含义，只要“第一物体”的所有出现被一致地重命名，并且“第二物体”的所有出现被一致地重命名。所述第一物体与所述第二物体都是物体，但是它们不是同一个物体。

本文所使用的术语是仅用于描述特定实现方式而不旨在限制权利要求书。如具体实现方式和所附权利要求书中所使用，单数形式“一”、“一个”和“所述”旨在也包括复数形式，除非上下文另外清楚地指示。还将理解，如本文中所使用，术语“和/或”指代并且涵盖相关联的所列项目中的一者或多者的任何和所有的可能组合。将进一步理解，术语“包括”和/或“包括了”在本说明书中使用时指定了所述特征、整体、步骤、操作、元件和/或部件的存在，但不排除一个或多个其它特征、整体、步骤、操作、元件、部件和/或其组的存在或增添。

如本文所使用，术语“如果”可以被理解为表示“在所述前提条件成立时”或“在所述前提条件成立后”或“响应于确定所述前提条件成立”或“根据所述前提条件成立的确定”或“响应于检测到所述前提条件成立”，具体取决于上下文。类似地，短语“如果确定(所述前提条件成立)”或“如果(所述前提条件成立)”或“当(所述前提条件成立)时”可以被理解为表示“在确定所述前提条件成立后”或“响应于确定所述前提条件成立”或“根据所述前提条件成立的确定”或“在检测到所述前提条件成立后”或“响应于检测到所述前提条件成立”，具体取决于上下文。

前文的描述包括具体实现说明性实现方式的示例系统、方法、技术、指令序列和计算机器程序产品。为了进行阐释，陈述众多具体细节以便提供对创新主题的各种实现方式的理解。然而，本领域的技术人员将明显看到创新目标的实现可以在没有这些具体细节的情况下实践。一般来说，没有详细展示熟知的指令实例、协议、结构和技术。

为了进行阐释，已参考特定实现方式来描述前文的描述。然而，上文的说明性论述不旨在为详尽的或不旨在将实现方式限于所公开的精确形式。鉴于以上教导，许多修改和变化是可能的。选择并描述实现方式以便最好地阐释原理以及其实际应用，由此使本领域的其他技术人员能够最好地利用所述实现方式以及为了适合于所预期的特定使用而作出了各种修改的各种实现方式。

Claims

1.一种用于非诊断和非治疗目的的确定获自单一生物样本的测试核酸中发生结构变异的似然率的方法，所述方法包括：

在计算机系统处，所述计算机系统具有一个或多个处理器和存储器，所述存储器存储用于由所述一个或多个处理器执行的一个或多个程序：

(A)从将所述测试核酸片段化的多个测序反应获得多个序列读段，其中

所述多个序列读段中的每个相应的序列读段包括第一部分，所述第一部分对应于所述测试核酸的子集；以及第二部分，所述第二部分以多个条形码对所述相应的序列读段的相应的条形码进行编码，并且

每个相应的条形码独立于所述测试核酸的测序数据，并且

所述多个序列读段统一包括所述多个条形码；

(B)获得多个单元的单元信息，其中

所述多个单元中的每个相应的单元表示所述测试核酸的不同部分，

所述单元信息为所述多个单元中的每个相应的单元识别处于所述多个序列读段中的多个序列读段组中的序列读段组，并且

所述多个序列读段组中的每个相应的序列读段组中的每个相应的序列读段的所述相应的第一部分对应于至少部分与所述测试核酸的所述不同部分重叠的所述测试核酸的子集，所述不同部分由对应于所述相应的序列读段组的所述单元表示；

(C)在所述多个单元当中识别对应于所述测试核酸的不重叠的部分的第一单元和第二单元，其中所述第一单元由所述多个序列读段中的第一序列读段组表示，并且所述第二单元由所述多个序列读段中的第二序列读段组表示；

(D)确定表示所述第一序列读段组和所述第二序列读段组共有的条形码的数目可归因于机会的数值概率或似然率的第一值；

(E)响应于确定所述第一值满足预定截止值，针对所述第一单元和所述第二单元共有的每个条形码，获得片段对，从而获得一个或多个片段对，所述一个或多个片段对中的每个片段对(i)对应于所述第一单元和所述第二单元共有的不同条形码；并且(ii)由不同的第一计算片段和不同的第二计算片段组成，其中对于所述一个或多个片段对中的每个相应的片段对：

所述不同的第一计算片段由所述多个序列读段中具有对应于所述相应的片段对的所述多个条形码中的条形码的相应的第一序列读段子集组成，其中

所述相应的第一序列读段子集中的每个序列读段在所述相应的第一序列读段子集中的另一个序列读段的预先确定的遗传距离内，

所述相应的片段对的所述不同的第一计算片段起源于具有对应于所述第一单元中的所述相应的片段对的所述多个条形码中的条形码的第一序列读段，并且

所述相应的第一序列读段子集中的每个序列读段来自所述第一单元，并且

所述不同的第二计算片段由所述多个序列读段中具有对应于所述相应的片段对的所述多个条形码中的条形码的相应的第二序列读段子集组成，其中

所述相应的第二序列读段子集中的每个序列读段在所述相应的第二序列读段子集中的另一个序列读段的预先确定的遗传距离内，

所述相应的片段对的所述不同的第二计算片段起源于具有对应于所述第二单元中的所述相应的片段对的所述多个条形码中的条形码的第二序列读段，并且

所述相应的第二序列读段子集中的每个序列读段来自所述第二单元；以及

(F)基于关于所述一个或多个片段对的第一模型的发生概率和第二模型的发生概率而计算相应的似然率，从而提供所述测试核酸中的结构变异的似然率，其中

(i)所述第一模型规定：观察到所述一个或多个片段对的所述相应的第一计算片段和所述相应的第二计算片段并未给出所述测试核酸序列的结构变异，并且所述相应的第一计算片段和所述相应的第二计算片段是共同分子的一部分，并且

(ii)所述第二模型规定：观察到所述一个或多个片段对的所述相应的第一计算片段和所述相应的第二计算片段已给出所述测试核酸序列的结构变异。

2.如权利要求1所述的方法，其中计算步骤(F)中的所述相应的似然率是所述第一模型的所述发生概率与所述第二模型的所述发生概率之间的比率评分。

3.如权利要求1或2所述的方法，其中所述第一单元和所述第二单元在所述测试核酸上间隔开至少预定数目千碱基。

4.如权利要求3所述的方法，其中所述第一单元和所述第二单元在所述测试核酸上间隔开至少50千碱基。

5.如权利要求1所述的方法，其中步骤(D)中使用二项式测试来计算所述第一值。

6.如权利要求1所述的方法，其中步骤(D)中使用二项式测试来计算所述第一值，所述二项式测试具有以下形式：

p＝1-P_Binom(n；n₁n₂/B)

其中，

p是所述第一值，其表述为p-值，

n是发现于所述第一序列读段组和所述第二序列读段组两者的唯一条形码的数目，

n₁是所述第一序列读段组中的唯一条形码的数目，

n₂是所述第二序列读段组中的唯一条形码的数目，并且

B是所述多个单元中的唯一条形码的总数。

7.如权利要求1所述的方法，其中所述单一生物样本是人，所述测试核酸是所述单一生物样本的基因组，并且当所述第一值为10^-14或更小时，所述第一值满足所述预定截止值。

8.如权利要求1所述的方法，其中所述单一生物样本是人，所述测试核酸是所述单一生物样本的基因组，并且当所述第一值为10^-15或更小时，所述第一值满足所述预定截止值。

9.如权利要求1所述的方法，其中所述结构变异是由所述第一序列读段组表示的所述测试核酸的所述不同部分中插入或缺失50个连续碱基或更多。

10.如权利要求1所述的方法，其中所述结构变异是由所述第一序列读段组表示的所述测试核酸的所述不同部分中插入或缺失500个连续碱基或更多。

11.如权利要求1所述的方法，其中所述结构变异是由所述第一序列读段组表示的所述测试核酸的所述不同部分中插入或缺失5000个连续碱基或更多。

12.如权利要求1所述的方法，其中所述结构变异与遗传病相关联。

13.如权利要求1所述的方法，其中所述多个单元中的每个单元表示所述测试核酸的至少20千碱基、所述测试核酸的至少50千碱基、所述测试核酸的至少100千碱基、所述测试核酸的至少250千碱基、或所述测试核酸的至少500千碱基。

14.如权利要求1所述的方法，其中所述多个序列读段中的每个相应的序列读段组中的每个相应的序列读段具有相应的第一部分，所述第一部分对应于完全与所述测试核酸的所述不同部分重叠的所述测试核酸的子集，所述不同部分由对应于所述相应的序列读段组的所述单元表示。

15.如权利要求1所述的方法，其中所述多个单元包括10,000个或更多个单元。

16.如权利要求1所述的方法，其中所述多个单元包括100,000个或更多个单元。

17.如权利要求1所述的方法，其中所述多个单元包括1,000,000个或更多个单元。

18.如权利要求1所述的方法，其中所述单一生物样本来自多染色体物种，并且所述测试核酸包括统一表示所述多染色体物种中的多条染色体的多个核酸。

19.如权利要求1所述的方法，其中所述多个序列读段中的每个相应的序列读段的条形码对值进行编码，所述值选自集合{1,…,1024}、选自集合{1,…,4096}、选自集合{1,…,16384}、选自集合{1,…,65536}、选自集合{1,…,262144}、选自集合{1,…,1048576}，选自集合{1,…,4194304}、选自集合{1,…,16777216}、选自集合{1,…,67108864}、或选自集合{1,…,1x10¹²}。

20.如权利要求1所述的方法，其中所述多个序列读段中的相应的序列读段的条形码定位于所述相应的序列读段内的连续的寡核苷酸组。

21.如权利要求20所述的方法，其中所述连续的寡核苷酸组是N-mer，其中N是选自集合{4,…,20}的整数。

22.如权利要求1所述的方法，其中所述多个序列读段中的序列读段的条形码定位于所述序列读段内的预定的不连续的核苷酸组。

23.如权利要求22所述的方法，其中所述预定的不连续的核苷酸组统一由N个核苷酸组成，其中N是集合{4,…,20}中的整数。

24.如权利要求1所述的方法，其中所述第一序列读段对应于大于10千碱基的第一测试核酸子集。

25.如权利要求1所述的方法，其中所述第一序列读段对应于大于20千碱基的第一测试核酸子集。

26.如权利要求1所述的方法，其中所述第一单元和所述第二单元的同一性通过使用稀疏矩阵乘法进行步骤(C)来确定，所述稀疏矩阵乘法具有以下形式：

其中，

A₁是包括所述第一单元的第一BxN₁条形码矩阵，

A₂是包括所述第二单元的第二BxN₂条形码矩阵，

B是所述多个单元中的唯一条形码的数目，

N₁是A₁中的单元的数目，

N₂是A₂中的单元的数目，并且

是矩阵A₁的转置。

27.如权利要求26所述的方法，其中

所述第一单元与所述单一生物样本的第一染色体相关联，

所述第二单元与所述单一生物样本的第二染色体相关联，

N₁是与所述第一染色体相关联的单元的数目，并且

N₂是与所述第二染色体相关联的单元的数目。

28.如权利要求26所述的方法，其中

所述第一单元和所述第二单元都与所述单一生物样本的第一染色体相关联，

N₁是与所述第一染色体相关联的单元的数目，并且

N₂等于N₁。

29.如权利要求1所述的方法，所述方法还包括：

维持中断列表，所述中断列表包括所述测试核酸的多个中断区，所述方法还包括在步骤(C)之前：

当序列读段的所述第一部分与所述多个中断区中的中断区重叠时，从所述多个序列读段除去所述序列读段。

30.如权利要求1所述的方法，其中计算步骤(F)中的所述相应的似然率被计算为：

其中LR等于多个项的乘积，其中所述多个项中的每个项(i)表示所述一个或多个片段对中的相应的片段对，并且(ii)具有以下形式：

r₁是所述相应的片段对的所述第一计算片段中的所述相应的第一序列读段子集中的序列读段的数目，

l₁是如通过所述相应的片段对的所述第一序列读段子集确定的所述第一计算片段的长度，

r₂是所述相应的片段对的所述第二计算片段中的所述相应的第二序列读段子集中的读段的数目，

l₂是如通过所述相应的片段对的所述第二序列读段子集确定的所述第二计算片段的长度，

d是所述测试核酸中的所述相应的片段对的所述第一计算片段与所述第二计算片段之间的距离，

a_b是所述多个序列读段中的条形码的读取率，

SV指示根据所述第一模型，观察到了所述第一计算片段和所述第二计算片段，并且

无SV指示根据所述第二模型，观察到了所述第一计算片段和所述第二计算片段。

31.如权利要求30所述的方法，其中

P(r₁，r₂，l₁，l₂，d|无SV；a_b)＝

其中，

SM是以下假设：第一计算分子和第二计算分子源自于所述多个测序反应中的所述测试核酸的相同片段，

DM是以下假设：所述第一计算分子和所述第二计算分子源自于所述多个测序反应中的所述测试核酸的不同片段，

P(r₁，r₂，l₁，l₂，d|DM，无SV；a_b)＝P_frag(r₁，l₁；a_b)P_frag(r₂，l₂；a_b)，其中

P_frag(r₁，l₁；a_b)是从未知长度的第一分子观察到r₁个读段，使得所述读段跨越观察长度l₁的概率，并且

P_frag(r₂，l₂；a_b)是从未知长度的第二分子观察到r₂个读段，使得所述读段跨越观察长度l₂的概率。

32.如权利要求31所述的方法，其中P_frag(r₁，l₁；a_b)和P_frag(r₂，l₂；a_b)分别被计算为

其中，

P_p(r；b)具有参数b的泊松分布的概率质量函数，并且

P_L(m)是相应的分子的真实分子长度为m的预估计概率。

33.如权利要求31所述的方法，其中

P(r₁，r₂，l₁，l₂，d|SM，无SV；a_b)被计算为

其中，

m是真实分子长度的长度，

P_p(r₁-2；a_bl₁)是有关r₁的具有参数b的泊松分布的概率质量函数，

P_p(r₂-2；a_bl₂)是有关r₂的具有参数b的泊松分布的概率质量函数，

P_p(0；a_b(m-l₁-l₂))是具有参数b的泊松分布的概率质量函数，并且

P_L(m)是真实共同分子长度为m的预估计概率。

34.如权利要求30所述的方法，其中

P(r₁，r₂，l₁，l₂，d|SV；a_b)＝

其中，

P(r₁，r₂，l₁，l₂，2d′|DM，无SV；a_b)＝P_frag(r₁，l₁；a_b)P_frag(r₂，l₂；a_b)，

其中

2d′＝考虑到对与所述第一计算分子和所述第二计算分子相关联的结构变异的断点的估计，所述测试核酸中的所述相应的片段对的所述第一计算片段与所述第二计算片段之间的距离。

35.如权利要求34所述的方法，其中

和P_frag(r₂，l₂；a_b)分别被计算为

其中，

P_p(r；b)是具有参数b的泊松分布的概率质量函数，并且

P_L(m)是相应的分子的真实分子长度为m的预估计概率。

36.如权利要求34所述的方法，其中

P(r₁，r₂，l₁，l₂，2d′|SM，无SV；a_b)被计算为

其中，

m是真实分子长度的长度，

P_L(m)是共同分子长度为m的预估计概率。

37.如权利要求34所述的方法，其中2d’通过计算最大范围d'，使得P_p(0；a_bd′)≥0.75来估计。

38.如权利要求1所述的方法，其中所述多个序列读段表示全基因组测序数据。

39.如权利要求1所述的方法，其中所述多个序列读段表示基因组的子集的靶向测序，

所述多个序列读段的第一子集来自所述基因组的所述子集之内并且具有第一读取率a_b，

所述多个序列读段的第二子集来自所述基因组的所述子集之外并且具有第一读取率

其中

不同于a_b，并且其中针对所述多个序列读段的所述相应的第一子集和第二子集的所述不同读取率在所述计算(F)中校正所述似然率。

40.如权利要求1所述的方法，其中针对多个第一单元和第二单元计算所述(D)至所述(F)，从而识别所述测试核酸中的一个或多个结构变异，所述方法还包括使用所述多个序列读段和所述识别的一个或多个结构变异来细化所述测试核酸中的断点位置。

41.如权利要求1所述的方法，其中所述多个条形码包括1000个或更多个条形码。

42.如权利要求1所述的方法，其中所述多个条形码包括10,000个或更多个条形码。

43.如权利要求1所述的方法，其中所述多个条形码包括100,000个或更多个条形码。

44.如权利要求1所述的方法，其中所述多个条形码包括1x10⁶个或更多个条形码。

45.一种计算系统，所述计算系统包括：

一个或多个处理器；

存储器，所述存储器存储有待由所述一个或多个处理器执行的一个或多个程序；

所述一个或多个程序包括指令，所述指令用于：

(A)从将测试核酸片段化的多个测序反应获得多个序列读段，其中

所述多个序列读段中的每个相应的序列读段包括第一部分，所述第一部分对应于所述测试核酸的子集；以及第二部分，所述第二部分以多个条形码对所述相应的序列读段的相应的条形码进行编码，

每个相应的条形码独立于所述测试核酸的测序数据，并且

所述多个序列读段统一包括所述多个条形码；

(B)获得多个单元的单元信息，其中

(C)在所述多个单元当中识别对应于所述测试核酸的不重叠的部分的第一单元和第二单元，其中所述第一单元由所述多个序列读段中的第一序列读段组表示，并且第二单元由所述多个序列读段中的第二序列读段组表示；

46.如权利要求45所述的计算系统，其中所述多个条形码包括1000个或更多个条形码。

47.如权利要求45所述的计算系统，其中所述多个条形码包括10,000个或更多个条形码。

48.如权利要求45所述的计算系统，其中所述多个条形码包括100,000个或更多个条形码。

49.如权利要求45所述的计算系统，其中所述多个条形码包括1x10⁶个或更多个条形码。

50.一种非暂时性计算机可读存储介质，所述非暂时性计算机可读存储介质存储一个或多个程序，所述一个或多个程序被配置用于由计算机执行，所述一个或多个程序包括如下指令，所述指令用于:

每个相应的条形码独立于所述测试核酸的测序数据，并且

所述多个序列读段统一包括所述多个条形码；

(B)获得多个单元的单元信息，其中

所述相应的第一序列读段子集中的一个序列读段在所述相应的第一序列读段子集中的另一个序列读段的预先确定的遗传距离内，

51.如权利要求50所述的非暂时性计算机可读存储介质，其中所述多个条形码包括1000个或更多个条形码。

52.如权利要求50所述的非暂时性计算机可读存储介质，其中所述多个条形码包括10,000个或更多个条形码。

53.如权利要求50所述的非暂时性计算机可读存储介质，其中所述多个条形码包括100,000个或更多个条形码。

54.如权利要求50所述的非暂时性计算机可读存储介质，其中所述多个条形码包括1x10⁶个或更多个条形码。