CN110914911B

CN110914911B - 压缩分子标记的核酸序列数据的方法

Info

Publication number: CN110914911B
Application number: CN201880032274.5A
Authority: CN
Inventors: C-Z·白
Original assignee: Life Technologies Corp
Current assignee: Life Technologies Corp
Priority date: 2017-05-16
Filing date: 2018-05-15
Publication date: 2023-09-22
Anticipated expiration: 2038-05-15
Also published as: EP3625714A1; WO2018213235A1; US20240274241A1; CN110914911A; US20180336316A1; US11468972B2; US11887699B2; US20210202044A1; US10892037B2; US20230083776A1; EP3625714B1

Abstract

一种压缩分子标记的序列数据的方法，包括：将与分子标记序列相关的序列读段分组以形成序列读段家族、流动空间信号测量值的对应向量和对应的序列比对值，计算所述流动空间信号测量值的对应向量的算术平均值以形成共有流动空间信号测量值的向量，计算所述流动空间信号测量值的对应向量的标准偏差以形成标准偏差向量，基于所述共有流动空间信号测量值的向量确定共有碱基序列，确定共有序列比对值并生成包含共有压缩数据的压缩数据结构，所述共有压缩数据包括每个家族的所述共有碱基序列、所述共有序列比对值、所述共有流动空间信号测量值的向量、所述标准偏差向量和成员数量。

Description

压缩分子标记的核酸序列数据的方法

交叉引用

本申请根据35U.S.C.§119(e)要求2017年5月16日提交的美国临时申请第62/507,117号和2017年6月9日提交的美国临时申请第62/517,235号的权益。前述申请的整个内容通过引用并入本文。

发明内容

核酸序列的分子标记可用于鉴定源自相同多核苷酸分子的核酸序列读段，并基于其标记序列将其分类为一个家族。可以存储使用各种技术、平台或工艺从核酸样品中获得的大量分子标记的核酸序列数据，并对其进行处理以进行变体识别。需要新的方法、系统和计算机可读介质来压缩核酸序列数据以减少对存储器的存储需求并提高变体识别操作的计算效率，而不损害变体识别的质量。

根据一个示例性实施方案，提供了一种用于压缩分子标记的核酸序列数据的方法，其包括(a)接收多个核酸序列读段、多个流动空间信号测量值的向量和多个序列比对值，其中每个序列读段与分子标记序列相关，所述分子标记序列标识由核酸样品中的特定多核苷酸分子产生的序列读段家族，其中每个流动空间信号测量值的向量和每个序列比对值与其中一个序列读段相对应；(b)将与相同分子标记序列相关的序列读段分组以形成序列读段家族、流动空间信号测量值的对应向量和对应的序列比对值，每个家族具有许多成员；(c)计算流动空间信号测量值的对应向量的算术平均值以形成所述家族的共有流动空间信号测量值的向量；(d)计算所述流动空间信号测量值的对应向量的标准偏差以形成所述家族的标准偏差向量；(e)基于所述家族的所述共有流动空间信号测量值的向量确定共有碱基序列；(f)通过将所述共有碱基序列与所述家族的所述对应序列比对值的映射质量最高的所述序列读段进行比较来确定共有序列比对值；和(g)生成包含共有压缩数据的压缩数据结构，所述共有压缩数据包括每个家族的所述共有碱基序列、所述共有序列比对值、所述共有流动空间信号测量值的向量、所述标准偏差向量和成员数量。

根据一个示例性实施方案，提供了一种非临时性机器可读存储介质，其包括在由处理器执行时，使所述处理器进行用于压缩分子标记的核酸序列数据的方法的指令，所述方法包括(a)接收多个核酸序列读段、多个流动空间信号测量值的向量和多个序列比对值，其中每个序列读段与分子标记序列相关，所述分子标记序列标识由核酸样品中的特定多核苷酸分子产生的序列读段家族，其中每个流动空间信号测量值的向量和每个序列比对值与其中一个序列读段相对应；(b)将与相同分子标记序列相关的序列读段分组以形成序列读段家族、流动空间信号测量值的对应向量和对应的序列比对值，每个家族具有许多成员；(c)计算流动空间信号测量值的对应向量的算术平均值以形成所述家族的共有流动空间信号测量值的向量；(d)计算所述流动空间信号测量值的对应向量的标准偏差以形成所述家族的标准偏差向量；(e)基于所述家族的所述共有流动空间信号测量值的向量确定共有碱基序列；(f)通过将所述共有碱基序列与所述家族的所述对应序列比对值的映射质量最高的所述序列读段进行比较来确定共有序列比对值；和(g)生成包含共有压缩数据的压缩数据结构，所述共有压缩数据包括每个家族的所述共有碱基序列、所述共有序列比对值、所述共有流动空间信号测量值的向量、所述标准偏差向量和成员数量。

根据一个示例性实施方案，提供了一种用于压缩分子标记的核酸序列数据的系统，其包括：机器可读存储器和配置成执行机器可读指令的处理器，所述指令在由处理器执行时使所述系统进行用于压缩分子标记的核酸序列数据的方法，所述方法包括(a)接收多个核酸序列读段、多个流动空间信号测量值的向量和多个序列比对值，其中每个序列读段与分子标记序列相关，所述分子标记序列标识由核酸样品中的特定多核苷酸分子产生的序列读段家族，其中每个流动空间信号测量值的向量和每个序列比对值与其中一个序列读段相对应；(b)将与相同分子标记序列相关的序列读段分组以形成序列读段家族、流动空间信号测量值的对应向量和对应的序列比对值，每个家族具有许多成员；(c)计算流动空间信号测量值的对应向量的算术平均值以形成所述家族的共有流动空间信号测量值的向量；(d)计算所述流动空间信号测量值的对应向量的标准偏差以形成所述家族的标准偏差向量；(e)基于所述家族的所述共有流动空间信号测量值的向量确定共有碱基序列；(f)通过将所述共有碱基序列与所述家族的所述对应序列比对值的映射质量最高的所述序列读段进行比较来确定共有序列比对值；和(g)生成包含共有压缩数据的压缩数据结构，所述共有压缩数据包括每个家族的所述共有碱基序列、所述共有序列比对值、所述共有流动空间信号测量值的向量、所述标准偏差向量和成员数量。

附图说明

本发明的新颖特征在所附权利要求书中有具体阐述。通过参考下面的具体实施方式和附图可以更好地理解本发明的特征和优点，具体实施方式阐述了其中利用了本发明原理的说明性实施方案，并且附图中：

图1说明了分子标记的实例，其中已经将独特的分子标记附接到单独的多核苷酸分子上，接着进行了PCR扩增和测序。

图2是根据一个实施方案，生成共有压缩数据的示例性方法的方框图。

图3是根据一个实施方案，用于共有管道206的示例性方法的方框图。

图4示出了由其进行碱基识别的流动空间信号测量值的示例性表示。

图5说明了单个家族的流动空间信号测量值的示例图。

图6说明了单个家族的共有流动空间信号测量值的示例图。

图7是使用共有压缩数据进行变体识别操作的示例性方法的方框图。

图8说明了通过方程(9)和(10)的积分得到的后验概率APP(H_REF)和APP(H_VAR)的实例。

图9A示出了使用来自映射BAM文件的原始数据与来自映射共有BAM文件的共有压缩数据识别的变体的质量值QUAL的示例性比较图。

图9B示出了使用来自映射BAM文件的原始数据与来自映射共有BAM文件的共有压缩数据估计的偏倚半径(RBI)的示例性比较图。

图9C示出了使用来自BAM文件的原始数据与来自共有BAM文件的共有压缩数据识别的变体的等位基因频率(AF)的示例性比较图。

图10是根据一个实施方案，用于核酸测序的示例性系统的方框图。

具体实施方式

根据本申请中体现的教导和原理，提供了新的方法、系统和非临时性机器可读存储介质以压缩分子标记的核酸序列数据，以形成与独特的分子标记相关的核酸序列读段的共有压缩数据。进一步的教导提供基于共有压缩数据来检测变体。

在各个实施方案中，DNA(脱氧核糖核酸)可以称为由4种类型的核苷酸组成的核苷酸链；A(腺嘌呤)、T(胸腺嘧啶)、C(胞嘧啶)和G(鸟嘌呤)，并且RNA(核糖核酸)由4种类型的核苷酸组成；A、U(尿嘧啶)、G和C。某些核苷酸对以互补方式彼此特异性结合(称为互补碱基配对)。即，腺嘌呤(A)与胸腺嘧啶(T)配对(但在RNA的情况下，腺嘌呤(A)与尿嘧啶(U)配对)，胞嘧啶(C)与鸟嘌呤(G)配对。当第一核酸链与由与第一链中的核苷酸互补的核苷酸组成的第二核酸链结合时，两条链结合形成双链。在各个实施方案中，“核酸测序数据”、“核酸测序信息”、“核酸序列”、“基因组序列”、“基因序列”或“片段序列”或“核酸测序读段”表示指示DNA或RNA分子(例如，全基因组、全转录组、外显子组、寡核苷酸、多核苷酸、片段等)中核苷酸碱基(例如，腺嘌呤、鸟嘌呤、胞嘧啶和胸腺嘧啶/尿嘧啶)的顺序的任何信息或数据。

在各个实施方案中，“多核苷酸”、“核酸”或“寡核苷酸”是指通过核苷间连键连接的核苷(包括脱氧核糖核苷、核糖核苷或其类似物)的线性聚合物。通常，多核苷酸包含至少三个核苷。通常，寡核苷酸的大小范围为几个单体单元(例如3-4个)到数百个单体单元。除非另有说明，否则每当用一系列字母如“ATGCCTG”表示多核苷酸如寡核苷酸时，应当理解核苷酸从左到右的顺序为5′-＞3′，并且“A”表示脱氧腺苷，“C”表示脱氧胞苷，“G”表示脱氧鸟苷，而“T”表示胸苷。如本领域中的标准，字母A、C、G和T可用于指碱基本身，指核苷或指包含碱基的核苷酸。

如本文所用，术语“等位基因”是指与基因或DNA区段相关的遗传变异，即，占据相同基因座的DNA序列的两种或更多种替代形式之一。

如本文所用，术语“基因座”是指染色体或核酸分子上的特定位置。一个基因座的等位基因位于同源染色体上的相同位点。

如本文所用，术语“衔接子”或“衔接子及其补体”及其衍生物是指可以连接至本公开的核酸分子的任何线性寡核苷酸。任选地，衔接子包括基本上不与样品中至少一个靶序列的3′末端或5′末端互补的核酸序列。在一些实施方案中，衔接子基本上不与样品中存在的任何靶序列的3′末端或5′末端互补。在一些实施方案中，衔接子包括基本上不与扩增靶序列互补的任何单链或双链线性寡核苷酸。在一些实施方案中，衔接子基本上不与样品的至少一个、一些或全部核酸分子互补。在一些实施方案中，合适的衔接子长度在约10-100个核苷酸，约12-60个核苷酸和约15-50个核苷酸的范围内。衔接子可以包括核苷酸和/或核酸的任何组合。在一些方面，衔接子可在一个或多个位置包括一个或多个可裂解基团。在另一方面，衔接子可包含与引物(例如通用引物)的至少一部分基本上相同或基本上互补的序列。在一些实施方案中，衔接子可包含条形码或标记以辅助下游分类、标识或测序。在一些实施方案中，当单链衔接子连接至扩增靶序列时，特别是在合适的温度和pH下在聚合酶和dNTP的存在下，单链衔接子可以充当扩增的底物。

如本文所用，“DNA条形码”或“DNA标记序列”及其衍生物是指衔接子内独特的短(例如6-14个核苷酸)核酸序列，其可以充当区分或分离样品中的多个扩增靶序列的“密钥”。为了本公开的目的，可以将DNA条形码或DNA标记序列并入衔接子的核苷酸序列中。

在一些实施方案中，本公开提供了从靶核酸分子群体扩增多个靶特异性序列。在一些实施方案中，该方法包括使一个或多个靶特异性引物对与靶序列杂交，延伸引物对中的第一引物，使来自核酸分子群体的延伸的第一引物产物变性，使引物对中的第二引物与延伸的第一引物产物杂交，延伸第二引物以形成双链产物，并从双链产物上消化掉靶特异性引物对以产生多个扩增靶序列。在一些实施方案中，消化包括从扩增靶序列上部分消化一个或多个靶特异性引物。在一些实施方案中，扩增靶序列可以连接至一个或多个衔接子。在一些实施方案中，衔接子可以包括一个或多个DNA条形码或标记序列。在一些实施方案中，扩增靶序列一旦连接至衔接子就可以经历切口翻译反应和/或进一步扩增以产生衔接子连接的扩增靶序列的文库。

在一些实施方案中，本公开的方法包括选择性扩增含有多种核酸分子的样品中的靶序列，并将扩增靶序列连接到至少一个衔接子和/或条形码上。用于分子生物学文库制备技术中的衔接子和条形码是本领域技术人员众所周知的。如本文所用的衔接子和条形码的定义与本领域所用的术语一致。例如，使用条形码允许在每个多重反应中检测和分析多个样品、来源、组织或核酸分子群体。带条形码的扩增靶序列含有独特的核酸序列，通常是6-15个核苷酸的短序列，该序列即使在两个减去条形码的核酸分子都含有相同的核酸序列时，也可以将一个扩增的核酸分子与另一个扩增的核酸分子标识和区分开来。衔接子的使用允许以均一化方式扩增每个扩增的核酸分子，并有助于减少链的偏倚。衔接子可以包括通用衔接子或专有衔接子，它们都可以在下游使用以进行一个或多个不同的功能。例如，可以将通过本文公开的方法制备的扩增靶序列连接到可以在下游用作克隆扩增的平台的衔接子上。衔接子可以用作模板链，用于随后使用第二组引物进行扩增，因此允许对衔接子连接的扩增靶序列的通用扩增。在一些实施方案中，选择性扩增靶核酸以产生扩增子库还可包括将一个或多个条形码和/或衔接子连接至扩增靶序列。并入条形码的能力提高了样品处理量，并且允许同时分析多个样品或材料来源。

在本申请中，“反应限制区”通常是指其中可以对反应进行限制的任何区域，并且包括例如“反应室”、“孔”和“微孔”(可以互换地使用其中的每一个)。例如，反应限制区可以包括其中固体衬底的物理或化学属性可以容许对目标反应进行定位的区域，以及可以特异性结合目标分析物的衬底表面的离散区域(例如有寡核苷酸或抗体与此类表面共价连接的离散区域)。反应限制区可以是中空的，或者可以具有可以制成衬底的明确限定的形状和体积。这后一种类型的反应限制区在本文中称为微孔或反应室，并且可以使用任何合适的微加工技术来制造。例如，反应限制区也可以是没有孔的衬底上的基本上平坦的区域。

多个限定的空间或反应限制区可以布置成阵列，并且每个限定的空间或反应限制区均可以与至少一个传感器电连通，以允许检测或测量一个或多个可检测或可测量的参数或特性。该阵列在本文中称为传感器阵列。传感器可以将反应副产物的存在、浓度或量方面的变化(或反应物离子特性方面的变化)转换为输出信号，可以电子方式记录该输出信号，例如，作为电压水平或电流水平的变化，又可以对其进行处理以提取有关化学反应或所需缔合事件(例如核苷酸并入事件)的信息。传感器可以包括至少一个化学敏感的场效应晶体管(“chemFET”)，该晶体管可以配置为产生至少一个与化学反应或附近的目标靶分析物的性质有关的输出信号。此类性质可以包括反应物、产物或副产物的浓度(或浓度的变化)，或物理性质(例如离子浓度)的值(或此类值的变化)。例如，对于限定的空间或反应限制区，pH的初始测量或询问可以表示为电信号或电压，电信号或电压可以数字化(例如，转换为电信号或电压的数字表示)。这些测量和表示中的任一种都可以视为原始数据或原始信号。

在各个实施方案中，短语“碱基空间”是指核苷酸序列的表示。短语“流动空间”是指特定核苷酸流的并入事件或非并入事件的表示。例如，流动空间可以是代表该特定核苷酸流的核苷酸并入事件(例如一，“1”)或非并入事件(例如零，“0”)的一系列值。具有非并入事件的核苷酸流可以称为空流，而具有核苷酸并入事件的核苷酸流可以称为正流。应当理解，零和一是对非并入事件和核苷酸并入事件的方便表示；然而，可以替代地使用任何其他符号或名称来表示和/或标识这些事件和非事件。特别地，当在给定位置并入多个核苷酸时，例如对于均聚物拉伸，该值可以与核苷酸并入事件的数量成比例，因此与均聚物拉伸的长度成比例。

图1说明了分子标记的实例，其中已经将各个多核苷酸分子用独特的分子标记(UMT)进行标记，在PCR反应中扩增并测序。该实施例表示可以从无细胞的DNA(cfDNA)样品中获得的两种肿瘤变体多核苷酸分子和三种野生型多核苷酸分子的分子标记。将肿瘤变体多核苷酸分子102表示为具有真变体。野生型多核苷酸分子112没有变体。附接于每个多核苷酸分子上的独特分子标记用前缀标记106和116以及后缀标记108和118的不同图案表示。标记的肿瘤变体多核苷酸分子104和标记的野生型多核苷酸分子114的PCR扩增和测序可以产生多个扩增子，每个原始标记的多核苷酸分子产生多个序列读段。独特的分子标记用于鉴定源自相同多核苷酸分子的序列读段，并将其分类为具有相同标记序列的家族。肿瘤变体序列读段组110显示两个家族，每个家族具有三个扩增子，其中每个家族中的扩增子具有相同的独特分子标记序列。野生型序列读段组120显示三个家族，其中扩增子具有相同的独特分子标记序列，三个家族分别具有四个、五个和三个扩增子的大小。家族的数量和大小仅用于说明的目的，而不是限制。肿瘤变体序列读段110和野生型序列读段120具有错误，用X描绘。这些错误可能是由于PCR扩增错误或测序错误引起的。错误可以随机分布在序列读段中。相反，真变体应出现在与具有该变体的多核苷酸分子相关的所有序列读段中。

家族或分子家族是指具有相同独特分子标记的序列读段的集合。家族大小是该家族中序列读段的数量。功能家族是指其成员数量大于最小的家族大小的家族。最小的家族大小可以是任意整数值。例如，最小的家族大小可以是三个或更大。

图2是根据一个实施方案，生成共有压缩数据的示例性方法的方框图。可由核酸测序装置向处理器提供流动空间信号测量值。在一些实施方案中，每个流动空间信号测量值表示响应于传感器阵列的微孔中样品核酸并入或未并入流动核苷酸而测量的信号幅度或强度。对于并入事件，信号幅度取决于在每个流并入的碱基的数量。对于均聚物，信号幅度随均聚物长度的增加而增加。处理器可以应用碱基识别器202通过分析流动空间信号测量值来针对序列读段生成碱基识别。

图4示出了由其进行碱基识别的流动空间信号测量值的示例性表示。在该实例中，x轴示出了流的数量和在流序列中流动的核苷酸。图中的条形示出了来自传感器阵列中微孔的特定位置的每个流的流动空间信号测量值的幅度。流动空间信号测量值可以是原始采集数据或已经处理，例如通过缩放、背景过滤、归一化、信号衰减校正和/或相位误差或影响校正等处理的数据。通过分析任何合适的信号特性(例如，信号幅度或强度)来进行碱基识别。用于与本教导一起使用的传感器阵列的结构和/或设计、信号处理和碱基识别可包括2013年4月11日提交的美国专利申请公开第2013/0090860号中描述的一种或多种特征，其通过引用整体并入本文。

一旦确定了序列读段的碱基序列，就可以例如以非映射BAM文件的形式将序列读段提供给映射器204。映射器204将序列读段与参考基因组进行比对以确定已比对的序列读段和相关的映射质量参数。用于与本教导一起使用的比对序列读段的方法包括2012年8月2日公布的美国专利申请公开第2012/0197623号中描述的一种或多种特征，其通过引用整体并入本文。可以映射BAM文件的形式将已比对的序列读段提供给共有管道206。

BAM文件格式结构在本文称为“BAM说明书”的2014年9月12日的“序列比对/映射格式说明书”(https：//github.com/samtools/hts-specs)中进行了描述。如本文所述，“BAM文件”是指与BAM格式兼容的文件。如本文所述，“非映射”BAM文件是指不含比对序列读段信息和映射质量参数的BAM文件，而“映射”BAM文件是指含比对序列读段信息和映射质量参数的BAM文件。如本文所述，“共有”BAM文件是指含共有压缩数据的BAM文件。

在一些实施方案中，用于对具有分子标记的读段进行测序的读段结构从5′末端开始可包括文库密钥、条形码序列、条形码衔接子、前缀分子标记、序列模板、后缀分子标记和PI衔接子。碱基识别可以包括从其余序列读段上修剪掉文库密钥、条形码序列和条形码衔接子，并将它们存储在BAM文件格式的读段组标题@RG的密钥序列(KS)标记字段中。碱基识别可包括从测序读段中修剪掉PI衔接子并将其存储在BAM标题的注释行@CO中。

在一些实施例中，碱基识别器202可以配置为检测标记结构并从测序读段中修剪掉标记。可以将修剪的标记存储在BAM读段组标题(@RG)中的自定义标记字段ZT(例如，对于前缀标记而言)和YT(例如，对于后缀标记而言)中。由于读段组标题与模板的测序读段数据相关，因此可以维持标记与家族组关联的完整性。可对模板序列应用与参考序列的后续映射或比对，而无需前缀标记或后缀标记。这减少了将标记的一部分错误地映射到参考序列的可能性。

在一些实施方案中，标记序列可以包括随机碱基的子集和已知碱基的子集。标记修剪方法可能需要测序读段的标记部分中的碱基序列与已知碱基匹配。标记修剪方法可以选择碱基数量与标记的已知长度相等的碱基串。在一些实施方案中，标记修剪方法可以检测并校正标记中的测序错误，例如插入和缺失。校正标记中的测序错误可以提供更准确的家族鉴定。

在一些实施方案中，映射BAM文件可以存储多个序列读段、多个流动空间信号测量值的向量和多个与序列读段相对应的序列比对值。映射BAM文件可以将流动空间信号测量值的向量存储在自定义标记字段ZM中。映射BAM文件可以将模型参数存储在自定义标记字段ZP中。如上所述，映射BAM文件可以将与序列读段相关的分子标记序列存储在BAM读段组标题中。映射BAM文件可以存储在存储器中，并提供给共有管道206。在一些实施方案中，可以使用其他文件格式来存储多个序列读段、多个流动空间信号测量值的向量、多个序列比对值和与序列读段相对应的分子标记序列。

图3是根据一个实施方案，用于共有管道206的示例性方法的方框图。分组操作302可以使用分子标记序列信息来鉴定序列读段家族和对应的流动空间信号测量值。分组操作302可以比较与序列读段相关的分子标记序列并应用分组阈值。例如，分组阈值的标准可能要求一组序列读段的成员的所有标记序列具有100％的标记序列同一性。按满足分组阈值的标准，确定具有共同标记序列的序列读段和对应的流动空间信号测量值，分组为给定的家族，其中共同标记序列对该家族是唯一的。每个家族的成员数量是分组在该家族中的序列读段的数量。在一些实施方案中，不具有至少最少数量的成员的家族将进一步处理并且可以从存储器中移除。用于与本教导一起使用的基于分子标记序列对序列读段进行分组的方法可包括2016年12月15日公布的美国专利申请公开第2016/0362748号中描述的一种或多种特征，其通过引用整体并入本文。

在一些实施方案中，流动空间共有压缩器304可以基于每个分组家族的流动空间信号测量值来确定共有压缩数据，如下：

a.计算每个分组家族的流动空间信号测量值的向量的算术平均值，以形成每个家族的共有流动空间信号测量值的向量。

b.计算每个家族的流动空间信号测量值的向量的标准偏差，以形成每个家族的标准偏差向量。

在一些实施方案中，流动空间共有压缩器304可以接收至少一个与每个流动空间信号测量值的向量相对应的模型参数。流动空间共有压缩器304可以计算家族的模型参数的算术平均值，以形成该家族的至少一个共有模型参数。如下所述，模型参数可用于碱基识别。在一些实施方案中，模型参数可以包括每个流动空间信号测量值的向量的不完整扩展(IE)参数和转发(CF)参数。流动空间共有压缩器304可以计算每个家族的IE参数的算术平均值和CF参数的算术平均值，以形成每个家族的共有IE参数和共有CF参数。

在一些实施方案中，可以将碱基识别器202应用于每个家族的共有流动空间信号测量值的向量，以生成各个家族的共有碱基序列。可以在应用模型进行碱基识别时使用共有模型参数。例如，可以将每个家族的共有不完整扩展(IE)参数和共有转发(CF)参数提供给碱基识别器202。碱基识别可以包括2013年4月11日公开的美国专利申请公布第2013/0090860号和2012年5月3日公开的美国专利申请公布第2012/0109598号中描述的一个或多个特征，所述专利申请公布全部通过引用整体并入本文。可以通过将共有碱基序列与家族中具有最高映射质量的序列读段进行比较来确定共有碱基序列的共有序列比对值。如果共有碱基序列与具有最高映射质量的序列读段匹配，则选择相应的序列比对值作为共有序列比对值。如果共有碱基序列与具有最高映射质量的序列读段不匹配，则映射器204可以将该共有碱基序列与参考序列或参考基因组比对，以确定共有序列比对值。用于比对共有序列读段的方法可包括2012年8月2日公布的美国专利申请公开第2012/0197623号中描述的一种或多种特征，其通过引用整体并入本文。在一些实施方案中，平均约1％的共有测序读段可能需要通过映射器204重新比对。

在一些实施方案中，处理器可以将每个家族的共有压缩数据存储在存储器中的压缩数据结构中。共有压缩数据可包括每个家族的共有碱基序列、共有序列比对值、共有流动空间信号测量值的向量、标准偏差向量和成员数量。共有压缩数据还可包括每个家族的一组共有模型参数。如果已经将该家族分成流同步的子族，则共有压缩数据可包括每个子族的共有碱基序列、共有序列比对值、共有流动空间信号测量值的向量、标准偏差向量和成员数量。在一些实施方案中，压缩数据结构可以与BAM文件格式兼容以产生映射的共有BAM文件。BAM规范允许用户定义自定义标记字段。例如，可以为用于存储一些共有压缩数据的BAM文件定义自定义标记字段，如表1所示。

表1.

每个家族的原始序列读段、流动空间信号测量值的原始向量和原始模型参数不包括在共有压缩数据中，可以从存储器中移除。在一些实施方案中，压缩数据结构可以使用与BAM文件格式不同的格式协议，包括自定义文件格式。

在一些实施方案中，可以将压缩数据结构，例如映射的共有BAM文件，提供给图2的变体识别器208。如下所述，变体识别器使用共有压缩数据，而不是原始序列读段和流动空间信号测量值来进行变体识别。用于与本教导一起使用的变体识别的方法包括2014年10月2日公布的美国专利申请公开第2014/0296080号中描述的一种或多种特征，其通过引用整体并入本文。

在一些实施方案中，碱基识别器202应用模型以由流动空间信号测量值的向量来确定序列读段。一个此类模型用以下方程表示：

y＝Hx+w

(1)

其中y表示流动空间信号测量值的向量，x表示理想流程图向量，w表示噪声向量，并且H是表示模型传递函数的矩阵。理想流程图向量x表示给定碱基序列和给定流动顺序的整数信号值的向量。整数信号值对应于该流动顺序的特定流量下核苷酸并入的数量。例如，对于1-mer而言，理想流程图值为1，对于2-mer而言，理想流程图值为2，对于n-mer而言，理想流程图值为n，以此类推。例如，鉴于重复的流动顺序ACGT和给定的碱基序列GTCGGA，理想流程图向量为。参考表2，理想流程图向量(第3列)可由给定的碱基序列(第1列)和流动顺序(第2列)构建。

表2.

碱基序列	流动顺序	理想流程图值	硬削波流程图值
					A	0	0
	C	0	0
				G	G	1	1
T	T	1	1
					A	0	0
C	C	1	1
				GG	G	2	1
	T	0	0
				A	A	1	1

由矩阵H表示的模型传递函数可以基于基本信号模型或物理模型。模型传递函数可取决于模型参数。在示例性模型中，模型参数可包括定相参数，如不完整扩展(IE)参数和转发(CF)参数。描述的用于与本教导一起使用的确定IE和CF可包括2012年8月2日公布的美国专利申请公开第2012/0197623号中描述的一种或多种特征，其通过引用整体并入本文。

理想地，在核苷酸并入期间，与模板多核苷酸链群体相关的每个延伸反应在每个流动循环中在相同序列位置执行相同并入步骤，这通常可以称为彼此“同相”或“相同步”。然而，已经观察到，每个群体中的一部分模板链可能与群体中的大部分模板链失去相同步或不同步。对于具有共同标记序列的序列读段家族，流同步的序列读段是由相同多核苷酸分子并入同相的核苷酸并入中产生的相应多核苷酸链产生的。理想地，相同家族中的序列读段应具有相同的流程图向量。然而，家族中的一个或多个序列读段可能与家族中的其他序列读段具有不同的流程图向量。在这种情况下，可以将该家族分为子族，其中每个子族都具有匹配的流同步。下面进一步描述检测家族中序列读段的流同步。

关于等式(1)描述的示例性模型的假设是，家族内的流同步读段将具有相同的理想流程图向量x。还假设噪声向量w是独立同分布的高斯随机变量的向量。流动空间信号测量值的向量y的算术平均值建模如下，

其中N是家族中序列读段的数量，n表示与第n个家族成员相对应的参数和向量，上划线表示参数、向量元素和矩阵元素的算术平均值。假设家族中的序列读段是流同步的。对于该家族中的流同步序列读段，假设理想流程图向量x相同，因此其平均值相同。通过如下的多项展开式估计模型传递函数H，

其中i、j表示矩阵H的元素，而c₀、a₁和b₁是展开系数。对于示例性模型，模型参数IE和CF具有小于1％的典型值，因此多项展开式的高阶项(H.O.T)无关紧要。上面的方程式(1)-(3)显示，与该家族的序列读段相对应的流动空间信号测量值的向量的算术平均值和模型参数的算术平均值保持了用于变体识别和碱基识别的有用信息。此外，噪声向量w的算术平均值的噪声方差减小。变体识别器208可以将噪声的平均值估计为偏倚，从而减轻其影响。

在一些实施方案中，可以通过如下分析对应的流程图向量来确定家族中序列读段的流同步：

a.为家族中的每个序列读段生成流程图向量，该流程图向量具有整数值的元素。(参见表2，第3列)

b.将流程图向量的整数值的元素硬削波为二进制值的元素，其中当流程图向量元素x(i)≥1时将硬削波流程图向量的元素X_b(i)设为1，并且当x(i)＝0时将X_b(i)设为0。任何大于1的值都与均聚物(HP)长度相关，因此硬削波流程图向量也称为HP压缩流程图向量。(参见表2，第4列)

c.比较家族中的硬削波流程图向量。

d.如果家族中的硬削波流程图向量匹配，则该家族是流同步的。

e.如果家族中的硬削波流程图向量不匹配，则将家族成员划分为子族，其中每个子族都有匹配的硬削波流程图向量。

图5说明了单个家族的流动空间信号测量值的示例图。流动指数表示流序列中的第j个流。归一化幅度表示流动空间信号测量值。绘图符号的类型与特定流处的核苷酸相对应。这个流动空间信号测量值图对应于与共同分子标记相关的单个流同步序列读段家族。每个流处的流动空间信号测量值聚集在相似值附近。流动指数对应于流动空间信号测量值向量中的元素指数。可以将该图中表示的流动空间信号测量值输入到流动空间共有压缩器304中。

图6说明了单个家族的共有流动空间信号测量值的示例图。该图示出了由对图5所示的流动空间信号测量值的共有计算得出的共有流动空间信号测量值。绘图符号表示算术平均值，该算术平均值是该家族的共有流动空间测量值的向量的元素。条形表示标准偏差，标准偏差是该家族标准偏差向量的元素。

图7是使用共有压缩数据进行变体识别操作的示例性方法的方框图。在一些实施方案中，变体识别器208可以假设候选等位基因并确定候选等位基因的预测流动空间信号值的对数似然性。与共有流动空间信号测量值的向量的给定元素相对应的预测流动空间信号值的对数似然性在本文中称为族对数似然性。家族对数似然性可建模为原始流动空间信号测量值y_n的对数似然性之和，其中对数似然性基于非标准化学生t分布，由以下表达式给出：

其中p是候选或假设等位基因在给定位置的预测流动空间信号值，y_n是该家族的第n个成员的原始流动空间信号测量值的第n个向量在给定位置的元素，是该家族的共有流动空间信号测量值的向量在给定位置的元素，σ_y是该家族的标准偏差向量在给定位置的元素，N是该家族中成员的数量。参数α、β和γ基于非标准化学生t分布的自由度参数和比例参数，其中α是自由度和比例参数的函数，β是自由度参数的函数且γ是自由度和比例参数的函数。可以将自由度设为特定值。可以使用用于向分布拟合数据的任何合适的方法来估计比例参数。在一些实施方案中，对数似然性可以基于其他分布，例如高斯分布。

在一些实施方案中，变体识别器208可以通过修改预测的流动空间信号值p来更新预测以使的平均值为0。在一些实施方案中，估计两个候选或假设等位基因u和v的对数似然性，以判定更有可能存在的候选等位基因。变体识别器208可以估计偏倚，其中差值是在两个候选或假设等位基因u和v下预测的预测流动空间信号值的差，如下所示：

其中β_f是正向序列读段的偏倚，是对应于第i个家族的第i个共有读段中第j个流的方差估计值，N_i是第i个家族中成员的数量，m_ij是对应于第i个读段和第j个流指数的共有流动空间信号测量值，并且p_i是第i个家族的家族响应性。对正向链和所有相关流上的所有共有读段取总和。注意方程(4)中的共有流动空间信号测量值/>与m_ij相对应，其中j表示共有流动空间信号测量值的向量的第j个元素，方程(4)中的σ_y与σ_ij相对应并且i表示第i个家族。对于反向偏倚β_r，可以类似地估计映射到反向链的读段上的偏倚，不同之处在于，然后对反向链和所有相关流上的所有共有读段取总和。可通过以下表达式来估计家族响应性：

其中f表示候选或假设等位基因u的等位基因频率并且(l-f)表示候选或假设等位基因v的等位基因频率，并且LL_ui和LL_vi是使用方程(4)估计的对数似然性，其中预测的流动空间信号测量值p将会与LL_ui中的候选等位基因u相对应，或与LL_vi的候选等位基因v相对应。可以如下由家族响应性更新共有读段响应性：

其中ρ_ni是第i个家族的第n个成员的共有读段响应性，并且LL_un和LL_vn分别是候选等位基因u和v的第n个共有流动空间信号测量值的对数似然性。在一些实施方案中，针对图7所示的步骤进行的估计和更新迭代可以重复直到收敛为止，或者可以重复进行固定次数的迭代。

在一些实施方案中，变体识别可以使用假设检验。对于两个假设的实例，假定候选或假设等位基因u表示参考序列，而候选或假设等位基因v表示变体序列。

要检验是否存在变体的假设可以表示为：

H_REF＝{等位基因频率f≤最低等位基因频率f_c}

H_VAR＝{等位基因频率f＞最低等位基因频率f_c}

最低等位基因频率f_c可以是用户设定的参数。应用最大后验概率标准可做出以下判定：

APP(H_REF)≥APP(H_VAR)：H_REF概率更大

APP(H_REF)＜APP(H_VAR)：H_VAR概率更大

其中APP表示鉴于读段序列系综的后验概率。识别的质量值QUAL通过以下给出，

QUAL＝min{APP(H_REF)，APP(H_VAR)}

(8)

通过以下表达式给出后验概率：

其中f_APP是等位基因频率AF＝f的后验概率密度函数，并且f_c是用于判定该位置存在变体的最低等位基因频率。图8说明了通过方程(9)和(10)的积分得到的后验概率APP(H_REF)和APP(H_VAR)的实例。

图9A、9B和9C示出了基于来自映射共有BAM文件的共有压缩数据与来自原始映射BAM文件的原始数据进行的变体识别的结果的示例性比较。映射共有BAM文件由共有管道206从原始映射BAM文件生成。沿对角线的点表示，共有压缩数据和原始数据的结果相同。图9A示出了使用来自映射BAM文件的原始数据与来自映射共有BAM文件的共有压缩数据识别的变体的质量值QUAL的示例性比较图。图9B示出了使用来自映射BAM文件的原始数据与来自映射共有BAM文件的共有压缩数据估计的偏倚半径(RBI)的示例性比较图。

RBI计算如下：

其中β_f是正向偏倚而β_r是反向偏倚，如上所述。仅存在正向序列读段时，方程(11)中省略了术语β_r。图9C示出了使用来自BAM文件的原始数据与来自共有BAM文件的共有压缩数据识别的变体的等位基因频率(AF)的示例性比较图。图9A、9B和9C显示，基于共有压缩数据的变体识别与使用原始数据的变体识别非常相似。因此，使用共有压缩数据未损害变体识别结果的质量。

表3汇总了三个实例的流动空间共有压缩的结果。

表3.

鉴定的功能家族的数量是通过分组操作302鉴定的、其成员数量大于最小家族大小的家族的数量计数。例如，功能家族的家族大小可以为三个或更多个成员。所鉴定的功能家族中的序列读段的数量是属于功能家族成员的所有序列读段的计数。产生的共有序列读段的数量是针对家族和子族产生的共有读段的总数的计数。由映射器204重新比对的共有序列读段的数量是来自重新比对的家族和子族的共有读段的计数。每个功能家族的共有序列读段的平均数是共有序列读段与功能家族数量之比。每个功能家族的共有序列读段的平均数是每个家族产生(例如对于流同步)的子族的指标。通过将共有序列读段的数量除以功能家族中的序列读段的数量来计算压缩率。共有序列读段的数量与共有压缩数据的量成正比，功能家族中序列读段的数量与原始读段数据的量成正比，因此它们的比率可以衡量压缩率。

压缩率显示出来自原始读段数据的共有压缩数据的数据量减少。压缩率与存储共有压缩数据所需的存储量相比于存储原始读段数据所需的存储量的减少有关。

实例1表示单向测序和更高扩增的结果。压缩率为约0.01。实例2表示单向测序和较低扩增的结果。压缩率为约0.13。每个功能家族的共有读段平均数低于实例1。实例3表示双向测序(正向和反向读段方向)的结果。对于双向测序，每个家族包括至少两个子族、一个正向序列读段的子族和一个反向序列读段的子族。可以添加其他子族进行流同步。实例3的压缩率为约0.19。

表3和图9A-9C的结果显示在不损害变体识别结果的情况下实现了压缩。共有压缩BAM文件具有比原始BAM文件更小的内存要求。此外，使用共有压缩数据减少了进行变体识别的计算需求。变体识别的计算需求近似于MlogM操作，其中M是为进行变体识别而处理的序列读段的数量。对于使用原始序列读段进行的变体识别，M将等于功能家族中序列读段的数量(参见表3)。对于使用共有序列读段进行的变体识别，M将等于共有序列读段的数量(参见表3)。使用共有序列读段的计算减少导致变体识别时间更快。

根据一个示例性实施方案，提供了一种用于压缩分子标记的核酸序列数据的方法，其包括(a)接收多个核酸序列读段、多个流动空间信号测量值的向量和多个序列比对值，其中每个序列读段与分子标记序列相关，所述分子标记序列标识由核酸样品中的特定多核苷酸分子产生的序列读段家族，其中每个流动空间信号测量值的向量和每个序列比对值与其中一个序列读段相对应；(b)将与相同分子标记序列相关的序列读段分组以形成序列读段家族、流动空间信号测量值的对应向量和对应的序列比对值，每个家族具有许多成员；(c)计算流动空间信号测量值的对应向量的算术平均值以形成所述家族的共有流动空间信号测量值的向量；(d)计算所述流动空间信号测量值的对应向量的标准偏差以形成所述家族的标准偏差向量；(e)基于所述家族的所述共有流动空间信号测量值的向量确定共有碱基序列；(f)通过将所述共有碱基序列与所述家族的所述对应序列比对值的映射质量最高的所述序列读段进行比较来确定共有序列比对值；和(g)生成包含共有压缩数据的压缩数据结构，所述共有压缩数据包括每个家族的所述共有碱基序列、所述共有序列比对值、所述共有流动空间信号测量值的向量、所述标准偏差向量和成员数量。该方法还可包括确定所述家族的序列读段是否流同步。该方法还可包括基于匹配流同步定义所述家族的子族，其中所述子族的序列读段流同步。该方法还可包括进行以下步骤：计算所述流动空间信号测量值的向量的算术平均值，计算所述流动空间信号测量值的向量的标准偏差，并且确定所述家族的子族的序列读段的共有碱基序列，其中所述生成压缩数据结构包括所述家族的子族的共有压缩数据。接收的步骤还可包括接收至少一个与每个流动空间信号测量值的向量相对应的模型参数，其中所述方法还包括计算所述家族的流动空间信号测量值的对应向量的所述模型参数的算术平均值以形成所述家族的至少一个共有模型参数，其中所述生成压缩数据结构包括所述共有压缩数据中的所述共有模型参数。确定所述家族的序列读段的共有碱基序列的步骤可进一步基于所述家族的所述至少一个共有模型参数。所述至少一个模型参数可包括不完整扩展(IE)参数。所述至少一个模型参数可包括转发(CF)参数。该方法还可包括使用至少一部分来自于所述压缩数据结构的所述共有压缩数据确定给定共有碱基序列中的变体。确定变体的步骤可基于对应所述给定共有碱基序列的所述共有流动空间信号测量值的向量和所述标准偏差向量。确定变体的步骤还可包括基于所述共有流动空间信号测量值的向量中给定位置的所述共有流动空间信号测量值与所述标准偏差向量中给定位置的所述标准偏差的函数，估计候选等位基因的预测流动空间信号值的对数似然性。压缩数据结构可与BAM文件格式兼容。该方法还可包括将所述共有碱基序列映射到参考基因组以生成所述共有碱基序列不匹配所述家族中映射质量最高的序列读段时的所述共有序列比对值。在此类方法中，所述多个核酸序列读段包含正向序列读段和反向序列读段，其中将序列读段分组的步骤还可包括标识所述家族的子族，其中所述第一子族含有所述正向序列读段而第二子族含有所述反向序列读段。该方法还可包括进行以下步骤：计算所述流动空间信号测量值的向量的算术平均值，计算所述流动空间信号测量值的向量的标准偏差，并且确定所述家族的两个子族中的每一个的序列读段的共有碱基序列，其中所述生成压缩数据结构包括所述家族的两个子族的共有压缩数据。

根据一个示例性实施方案，提供了一种非临时性机器可读存储介质，其包括在由处理器执行时，使所述处理器进行用于压缩分子标记的核酸序列数据的方法的指令，所述方法包括(a)接收多个核酸序列读段、多个流动空间信号测量值的向量和多个序列比对值，其中每个序列读段与分子标记序列相关，所述分子标记序列标识由核酸样品中的特定多核苷酸分子产生的序列读段家族，其中每个流动空间信号测量值的向量和每个序列比对值与其中一个序列读段相对应；(b)将与相同分子标记序列相关的序列读段分组以形成序列读段家族、流动空间信号测量值的对应向量和对应的序列比对值，每个家族具有许多成员；(c)计算流动空间信号测量值的对应向量的算术平均值以形成所述家族的共有流动空间信号测量值的向量；(d)计算所述流动空间信号测量值的对应向量的标准偏差以形成所述家族的标准偏差向量；(e)基于所述家族的所述共有流动空间信号测量值的向量确定共有碱基序列；(f)通过将所述共有碱基序列与所述家族的所述对应序列比对值的映射质量最高的所述序列读段进行比较来确定共有序列比对值；和(g)生成包含共有压缩数据的压缩数据结构，所述共有压缩数据包括每个家族的所述共有碱基序列、所述共有序列比对值、所述共有流动空间信号测量值的向量、所述标准偏差向量和成员数量。该方法还可包括确定所述家族的序列读段是否流同步。该方法还可包括基于匹配流同步定义所述家族的子族，其中所述子族的序列读段流同步。该方法还可包括进行以下步骤：计算所述流动空间信号测量值的向量的算术平均值，计算所述流动空间信号测量值的向量的标准偏差，并且确定所述家族的子族的序列读段的共有碱基序列，其中所述生成压缩数据结构包括所述家族的子族的共有压缩数据。接收的步骤还可包括接收至少一个与每个流动空间信号测量值的向量相对应的模型参数，其中所述方法还包括计算所述家族的流动空间信号测量值的对应向量的所述模型参数的算术平均值以形成所述家族的至少一个共有模型参数，其中所述生成压缩数据结构包括所述共有压缩数据中的所述共有模型参数。确定所述家族的序列读段的共有碱基序列的步骤可进一步基于所述家族的所述至少一个共有模型参数。所述至少一个模型参数可包括不完整扩展(IE)参数。所述至少一个模型参数可包括转发(CF)参数。该方法还可包括使用至少一部分来自于所述压缩数据结构的所述共有压缩数据确定给定共有碱基序列中的变体。确定变体的步骤可基于对应所述给定共有碱基序列的所述共有流动空间信号测量值的向量和所述标准偏差向量。确定变体的步骤还可包括基于所述共有流动空间信号测量值的向量中给定位置的所述共有流动空间信号测量值与所述标准偏差向量中给定位置的所述标准偏差的函数，估计候选等位基因的预测流动空间信号值的对数似然性。压缩数据结构可与BAM文件格式兼容。该方法还可包括将所述共有碱基序列映射到参考基因组以生成所述共有碱基序列不匹配所述家族中映射质量最高的序列读段时的所述共有序列比对值。在此类方法中，所述多个核酸序列读段包含正向序列读段和反向序列读段，其中将序列读段分组的步骤还可包括标识所述家族的子族，其中所述第一子族含有所述正向序列读段而第二子族含有所述反向序列读段。该方法还可包括进行以下步骤：计算所述流动空间信号测量值的向量的算术平均值，计算所述流动空间信号测量值的向量的标准偏差，并且确定所述家族的两个子族中的每一个的序列读段的共有碱基序列，其中所述生成压缩数据结构包括所述家族的两个子族的共有压缩数据。

根据一个示例性实施方案，提供了一种用于压缩分子标记的核酸序列数据的系统，其包括：机器可读存储器和配置成执行机器可读指令的处理器，所述指令在由处理器执行时，使所述系统进行用于压缩分子标记的核酸序列数据的方法，所述方法包括(a)接收多个核酸序列读段、多个流动空间信号测量值的向量和多个序列比对值，其中每个序列读段与分子标记序列相关，所述分子标记序列标识由核酸样品中的特定多核苷酸分子产生的序列读段家族，其中每个流动空间信号测量值的向量和每个序列比对值与其中一个序列读段相对应；(b)将与相同分子标记序列相关的序列读段分组以形成序列读段家族、流动空间信号测量值的对应向量和对应的序列比对值，每个家族具有许多成员；(c)计算流动空间信号测量值的对应向量的算术平均值以形成所述家族的共有流动空间信号测量值的向量；(d)计算所述流动空间信号测量值的对应向量的标准偏差以形成所述家族的标准偏差向量；(e)基于所述家族的所述共有流动空间信号测量值的向量确定共有碱基序列；(f)通过将所述共有碱基序列与所述家族的所述对应序列比对值的映射质量最高的所述序列读段进行比较来确定共有序列比对值；和(g)生成包含共有压缩数据的压缩数据结构，所述共有压缩数据包括每个家族的所述共有碱基序列、所述共有序列比对值、所述共有流动空间信号测量值的向量、所述标准偏差向量和成员数量。该方法还可包括确定所述家族的序列读段是否流同步。该方法还可包括基于匹配流同步定义所述家族的子族，其中所述子族的序列读段流同步。该方法还可包括进行以下步骤：计算所述流动空间信号测量值的向量的算术平均值，计算所述流动空间信号测量值的向量的标准偏差，并且确定所述家族的子族的序列读段的共有碱基序列，其中所述生成压缩数据结构包括所述家族的子族的共有压缩数据。接收的步骤还可包括接收至少一个与每个流动空间信号测量值的向量相对应的模型参数，其中所述方法还包括计算所述家族的流动空间信号测量值的对应向量的所述模型参数的算术平均值以形成所述家族的至少一个共有模型参数，其中所述生成压缩数据结构包括所述共有压缩数据中的所述共有模型参数。确定所述家族的序列读段的共有碱基序列的步骤可进一步基于所述家族的所述至少一个共有模型参数。所述至少一个模型参数可包括不完整扩展(IE)参数。所述至少一个模型参数可包括转发(CF)参数。该方法还可包括使用至少一部分来自于所述压缩数据结构的所述共有压缩数据确定给定共有碱基序列中的变体。确定变体的步骤可基于对应所述给定共有碱基序列的所述共有流动空间信号测量值的向量和所述标准偏差向量。确定变体的步骤还可包括基于所述共有流动空间信号测量值的向量中给定位置的所述共有流动空间信号测量值与所述标准偏差向量中给定位置的所述标准偏差的函数，估计候选等位基因的预测流动空间信号值的对数似然性。压缩数据结构可与BAM文件格式兼容。该方法还可包括将所述共有碱基序列映射到参考基因组以生成所述共有碱基序列不匹配所述家族中映射质量最高的序列读段时的所述共有序列比对值。在此类方法中，所述多个核酸序列读段包含正向序列读段和反向序列读段，其中将序列读段分组的步骤还可包括标识所述家族的子族，其中所述第一子族含有所述正向序列读段而第二子族含有所述反向序列读段。该方法还可包括进行以下步骤：计算所述流动空间信号测量值的向量的算术平均值，计算所述流动空间信号测量值的向量的标准偏差，并且确定所述家族的两个子族中的每一个的序列读段的共有碱基序列，其中所述生成压缩数据结构包括所述家族的两个子族的共有压缩数据。

可以使用各种技术、平台或工艺来生成核酸序列数据，包括但不限于：毛细管电泳、微阵列、基于连接的系统、基于聚合酶的系统、基于杂交的系统、直接或间接核苷酸鉴定系统、焦磷酸测序、基于离子或pH的检测系统、基于电子标记的系统等。

核酸测序平台的各个实施方案，例如核酸测序仪，可以包括如图10的方框图中所示的部件。根据各个实施方案，测序仪器1200可以包括流体递送和控制单元1202、样品处理单元1204、信号检测单元1206以及数据采集、分析和控制单元1208。用于下一代测序的仪器、试剂、文库和方法的各个实施方案在美国专利申请公开第2009/0127589号和第2009/0026082号中有描述。仪器1200的各个实施方案可以提供自动化测序，自动化测序可以用于并行地，例如基本上同时地从多个序列收集序列信息。

在各个实施方案中，流体递送和控制单元1202可以包括试剂递送系统。试剂递送系统可以包括用于存储各种试剂的试剂储库。试剂可以包括基于RNA的引物、正向/反向DNA引物、用于连接测序的寡核苷酸混合物、用于合成测序的核苷酸混合物、任选的ECC寡核苷酸混合物、缓冲液、洗涤试剂、封闭试剂、剥离试剂等。另外，试剂递送系统可以包括连接样品处理单元与试剂储库的移液系统或连续流动系统。

在各个实施方案中，样品处理单元1204可以包括样品室，例如流通池、基板、微阵列、多孔托盘等。样品处理单元1204可以包括多个泳道、多个通道、多个孔或基本同时处理多个样品组的其他装置。另外，样品处理单元可以包括多个样品室，以使得能够同时处理多个运行。在特定实施方案中，该系统可以在一个样品室上执行信号检测，而基本上同时处理另一个样品室。另外，样品处理单元可以包括用于移动或操纵样品室的自动化系统。

在各个实施方案中，信号检测单元1206可以包括成像或检测传感器。例如，成像或检测传感器可以包括CCD、CMOS、离子或化学传感器，例如覆盖CMOS或FET的离子敏感层，电流或电压检测器等。信号检测单元1206可以包括激励系统，以使诸如荧光染料的探针发射信号。激发系统可以包括照明源，例如弧光灯、激光器、发光二极管(LED)等。在特定实施方案中，信号检测单元1206可以包括用于将光从照明源传输到样品或从样品传输到成像或检测传感器的光学器件。可替代地，信号检测单元1206可以提供基于电子或非光子的检测方法，因此不包括照明源。在各个实施方案中，当在测序反应期间产生可检测的信号或物质时，可以发生基于电子的信号检测。例如，可以通过释放的副产物或部分(例如释放的离子，例如氢离子)与离子或化学敏感层的相互作用而产生信号。在其他实施方案中，由于用于焦磷酸测序中的酶促级联反应(例如，参见美国专利申请公开第2009/0325145号)，可能会产生可检测的信号，其中焦磷酸是通过聚合酶进行碱基并入产生的，所述聚合酶在5′磷酸腺苷的存在下进一步与ATP硫酸化酶反应产生ATP，其中产生的ATP可在萤光素酶介导的反应中被消耗以产生化学发光信号。在另一个实例中，可以在核酸穿过纳米孔时检测到电流的变化，而不需要照明源。

在各个实施方案中，数据采集分析和控制单元1208可以监测各种系统参数。系统参数可以包括仪器1200各个部分(例如样品处理单元或试剂容器)的温度，各种试剂的体积，各种系统子部件(例如操纵器、步进电机、泵等)的状态，或其任何组合。

本领域技术人员将认识到，仪器1200的各个实施方案可用于实践多种测序方法，包括基于连接的方法、合成测序、单分子方法、纳米孔测序以及其他测序技术。

在各个实施方案中，测序仪器1200可以确定核酸例如多核苷酸或寡核苷酸的序列。核酸可以包括DNA或RNA，并且可以是单链，例如ssDNA和RNA，或双链，例如dsDNA或RNA/cDNA对。在各个实施方案中，核酸可以包括或源自片段文库、伴侣对文库、ChIP片段等。在特定实施方案中，测序仪器1200可从单个核酸分子或从一组基本上相同的核酸分子获得序列信息。

在各个实施方案中，测序仪器1200可以以多种不同的输出数据文件类型/格式输出核酸测序读段数据，包括但不限于：*.fasta、*.csfasta、*seq.txt、*qseq.txt、*.fastq、*.sff、*prb.txt、*.sms、*srs和/或*.qv。

根据各个示例性实施方案，可以使用适当配置和/或编程的硬件和/或软件元件来实现或执行以上讨论的教导和/或示例性实施方案中的任何一个或多个的一种或多种特征。确定是否使用硬件和/或软件元件来执行实施方案可以基于许多因素，例如期望的计算速率、功率水平、耐热性、处理周期预算、输入数据速率、输出数据速率、存储器资源、数据总线速度等，以及其他设计或性能限制。

硬件元件的实例可以包括经由本地接口电路、电路元件(例如，晶体管、电阻器、电容器、电感器等)、集成电路、专用集成电路(ASIC)、可编程逻辑设备(PLD)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、逻辑门、寄存器、半导体器件、芯片、微芯片、芯片组等通信耦合的处理器、微处理器、输入和/或输出(I/O)设备(或外围设备)。本地接口可以包括例如一个或多个总线或其他有线或无线连接、控制器、缓冲器(高速缓存)、驱动器、转发器和接收器等，以允许硬件部件之间的适当通信。处理器是用于执行软件，特别是存储在存储器中的软件的硬件设备。处理器可以是任何定制的或可商购的处理器、中央处理器(CPU)、与计算机相关联的多个处理器中的辅助处理器、基于半导体的微处理器(例如，呈微芯片或芯片组的形式)、宏处理器或通常用于执行软件指令的任何设备。处理器也可以代表分布式处理体系结构。I/O设备可以包括输入设备，例如键盘、鼠标、扫描仪、麦克风、触摸屏、用于各种医疗设备和/或实验室仪器的接口、条形码阅读器、触针、激光阅读器、射频设备阅读器等。此外，I/O设备还可以包括输出设备，例如打印机、条形码打印机、显示器等。最后，I/O设备还可以包括同时作为输入和输出进行通信的设备，例如调制器/解调器(调制解调器；用于访问另一设备、系统或网络)、射频(RF)或其他收发器、电话接口、网桥、路由器等。

软件的实例可以包括软件部件、程序、应用程序、计算机程序、应用程序、系统程序、机器程序、操作系统软件、中间件、固件、软件模块、例程，子例程、功能、方法、过程、软件接口、应用程序接口(API)、指令集、计算代码、计算机代码、代码段、计算机代码段、字、值、符号或其任意组合。存储器中的软件可以包括一个或多个单独的程序，这些程序可以包括用于执行逻辑功能的可执行指令的有序列表。存储器中的软件可以包括根据本教导用于识别数据流的系统以及任何合适的定制或可商购的操作系统(O/S)，该操作系统可以控制诸如该系统的其他计算机程序的执行，并提供调度、输入输出控制、文件和数据管理、内存管理、通信控制等。

根据各个示例性实施方案，可以使用可以存储指令或指令集的适当配置和/或编程的非暂时性机器可读介质或制品来实现或执行以上讨论的教导和/或示例性实施方案中的任何一个或多个的一种或多种特征，所述指令或指令集如果由机器执行，则可以使该机器实现根据示例性实施方案的方法和/或操作。此类机器可以包括例如任何合适的处理平台、计算平台、计算设备、处理设备、计算系统、处理系统、计算机、处理器、科学或实验室仪器等，并且可以使用以下硬件和/或软件的任何合适组合来执行。机器可读介质或制品可以包括例如任何合适类型的存储器单元、存储器设备、存储器制品、存储器介质、存储设备、存储制品、存储介质和/或存储单元，例如存储器、可移动或不可移动介质、可擦除或不可擦除介质、可写或可重写介质、数字或模拟介质、硬盘、软盘、只读存储器光盘(CD-ROM)、可记录光盘(CD-R)、可重写光盘(CD-RW)、光盘、磁介质、磁光介质、可移动存储卡或磁盘、各种类型的数字多功能光盘(DVD)、磁带、盒式磁带等，包括任何适用于计算机的介质。存储器可以包括以下的任何一种或组合：易失性存储器元件(例如，随机存取存储器(RAM，例如DRAM、SRAM、SDRAM等))和非易失性存储器元件(例如，ROM、EPROM、EEROM、闪存、硬盘驱动器、磁带、CDROM等)。而且，存储器可以并入电子、磁性、光学和/或其他类型的存储介质。存储器可以具有分布式体系结构，其中各种部件彼此远离，但仍可以由处理器访问。指令可以包括使用任何合适的高级、低级、面向对象的、可视、编译和/或解释性编程语言执行的任何适当类型的代码，例如源代码、编译代码、解释代码、可执行代码、静态代码、动态代码、加密代码等。

根据各个示例性实施方案，可以至少部分地使用分布式、集群、远程或云计算资源来实现或执行以上讨论的教导和/或示例性实施方案中的任何一个或多个的一种或多种特征。

根据各个示例性实施方案，可以使用源程序、可执行程序(目标代码)、脚本或包括待执行的指令集的任何其他实体来实现或执行以上讨论的教导和/或示例性实施方案中的任何一个或多个的一种或多种特征。当是源程序时，可以通过可能包含在存储器中或可能不包含在存储器中的编译程序、汇编程序、解释程序等对程序进行翻译，以便与O/S一起正常运行。可以使用(a)具有多类数据和方法的面向对象的编程语言，或(b)具有例程、子例程和/或功能的程序化编程语言来编写指令，所述语言可以包括例如C、C++、R、Pascal、Basic、Fortran、Cobol、Perl、Java和Ada。

根据各个示例性实施方案，以上讨论的示例性实施方案中的一个或多个可以包括向用户接口设备、计算机可读存储介质、本地计算机系统或远程计算机系统发送、显示、存储、打印或输出与此类示例性实施方案可能已经生成、访问或使用的任何信息、信号、数据和/或中间或最终结果有关的信息。发送、显示、存储、打印或输出的此类信息可以采取例如运行和报告、图片、表格、图表、图形、电子表格、相关性、序列及其组合的可搜索和/或可过滤列表的形式。

虽然本文已经显示和描述了本发明的优选实施方案，但是对于本领域技术人员显而易见的是，此类实施方案仅以举例的方式提供。在不脱离本发明的情况下，现在本领域技术人员将想到许多改变、变化和取代。应该理解的是，本文所述的本发明的实施方案的各种替代方案可用于实践本发明。以下权利要求旨在限定本发明的范围，并且由此覆盖了这些权利要求及其等同项范围内的方法和结构。

Claims

1.一种压缩分子标记的核酸序列数据的方法，其包括：

接收多个核酸序列读段、多个流动空间信号测量值的向量和多个序列比对值，其中每个序列读段与分子标记序列相关，所述分子标记序列标识由核酸样品中的特定多核苷酸分子产生的序列读段家族，其中每个流动空间信号测量值的向量和每个序列比对值与所述序列读段的一个相对应；

将与相同分子标记序列相关的序列读段分组以形成序列读段家族、流动空间信号测量值的对应向量和对应的序列比对值，每个家族具有许多成员；

计算所述流动空间信号测量值的对应向量的算术平均值以形成所述家族的共有流动空间信号测量值的向量；

计算所述流动空间信号测量值的对应向量的标准偏差以形成所述家族的标准偏差向量；

基于所述家族的所述共有流动空间信号测量值的向量确定共有碱基序列；

通过将所述共有碱基序列与所述家族的所述对应序列比对值的映射质量最高的所述序列读段进行比较来确定共有序列比对值；

生成包含共有压缩数据的压缩数据结构，所述共有压缩数据包括每个家族的所述共有碱基序列、所述共有序列比对值、所述共有流动空间信号测量值的向量、所述标准偏差向量和成员数量；以及

使用至少一部分来自于所述压缩数据结构的所述共有压缩数据确定给定共有碱基序列中的变体。

2.根据权利要求1所述的方法，其还包括确定所述家族的序列读段是否流同步。

3.根据权利要求1所述的方法，其还包括基于匹配流同步定义所述家族的子族，其中所述子族的序列读段流同步。

4.根据权利要求3所述的方法，其还包括进行以下步骤：计算所述流动空间信号测量值的向量的算术平均值，计算所述流动空间信号测量值的向量的标准偏差，并且确定所述家族的子族的序列读段的共有碱基序列，其中所述生成压缩数据结构包括所述家族的子族的共有压缩数据。

5.根据权利要求1所述的方法，其中所述接收还包括接收至少一个与流动空间信号测量值的每个向量相对应的模型参数，其中所述方法还包括计算所述家族的流动空间信号测量值的对应向量的所述模型参数的算术平均值以形成所述家族的至少一个共有模型参数，其中所述生成压缩数据结构包括所述共有压缩数据中的所述共有模型参数。

6.根据权利要求5所述的方法，其中所述确定所述家族的序列读段的共有碱基序列进一步基于所述家族的所述至少一个共有模型参数。

7.根据权利要求5所述的方法，其中所述至少一个模型参数包括不完整扩展(IE)参数。

8.根据权利要求5所述的方法，其中所述至少一个模型参数包括转发(CF)参数。

9.根据权利要求1所述的方法，其中所述确定变体是基于对应所述给定共有碱基序列的所述共有流动空间信号测量值的向量和所述标准偏差向量。

10.根据权利要求1所述的方法，其中所述确定变体还包括基于所述共有流动空间信号测量值的向量中给定位置的所述共有流动空间信号测量值与所述标准偏差向量中给定位置的所述标准偏差的函数，估计候选等位基因的预测流动空间信号值的对数似然性。

11.根据权利要求1所述的方法，其中所述压缩数据结构与BAM文件格式兼容。

12.根据权利要求1所述的方法，其包括将所述共有碱基序列映射到参考基因组以生成当所述共有碱基序列不匹配所述家族中映射质量最高的序列读段时的所述共有序列比对值。

13.根据权利要求1所述的方法，其中所述多个核酸序列读段包含正向序列读段和反向序列读段，其中将序列读段分组还包括标识所述家族的子族，其中第一子族含有所述正向序列读段而第二子族含有所述反向序列读段。

14.根据权利要求13所述的方法，其还包括进行以下步骤：计算所述流动空间信号测量值的向量的算术平均值，计算所述流动空间信号测量值的向量的标准偏差，并且确定所述家族的两个子族中的每一个的序列读段的共有碱基序列，其中所述生成压缩数据结构包括所述家族的两个子族的共有压缩数据。

15.一种非临时性机器可读存储介质，其包括在由处理器执行时，使所述处理器执行压缩分子标记的核酸序列数据的方法的指令，所述方法包括：

计算流动空间信号测量值的对应向量的算术平均值以形成所述家族的共有流动空间信号测量值的向量；

16.根据权利要求15所述的非临时性机器可读存储介质，其还包括使所述处理器进行所述方法的指令，其中所述接收还包括接收至少一个与每个流动空间信号测量值的向量相对应的模型参数，其中所述方法还包括计算所述家族的流动空间信号测量值的对应向量的所述模型参数的算术平均值以形成所述家族的至少一个共有模型参数，其中所述生成压缩数据结构包括所述共有压缩数据中的所述共有模型参数。

17.根据权利要求15所述的非临时性机器可读存储介质，其还包括使所述处理器执行所述方法的指令，所述方法还包括基于匹配流同步定义所述家族的子族，其中所述子族的序列读段流同步。

18.根据权利要求15所述的非临时性机器可读存储介质，其中所述多个核酸序列读段包含正向序列读段和反向序列读段，其中将序列读段分组还包括标识所述家族的子族，其中第一子族含有所述正向序列读段而第二子族含有所述反向序列读段。

19.根据权利要求15所述的非临时性机器可读存储介质，其中所述压缩数据结构与BAM文件格式兼容。

20.一种压缩分子标记的核酸序列数据的系统，其包括：

机器可读存储器；和

配置成执行机器可读指令的处理器，所述指令在由处理器执行时使所述系统进行用于压缩分子标记的核酸序列数据的方法，所述方法包括：