CN110870016A

CN110870016A - 用于序列变体呼出的验证方法和系统

Info

Publication number: CN110870016A
Application number: CN201880043471.7A
Authority: CN
Inventors: 姜婷婷; 赵晨
Original assignee: Illumina Inc
Current assignee: Illumina Inc
Priority date: 2017-11-30
Filing date: 2018-11-30
Publication date: 2020-03-06
Also published as: IL271235A; AU2018375785A1; US20190206510A1; AU2021269294B2; JP7013490B2; WO2019108972A1; CA3067425A1; KR102356323B1; AU2021269294A1; EP3718113A1; JP2020524499A; KR20200013709A; CA3067425C

Abstract

本发明提出了用于识别和/或验证基因组序列数据中的序列变体的技术。该技术包括生成反映基因组序列数据中存在的序列错误的错误率。错误率可用于验证潜在的序列变体。错误率可以基于在针对与单独的独特分子标识符相关联的序列读序的共有序列确认期间所识别出的错误。

Description

用于序列变体呼出的验证方法和系统

相关申请的交叉引用

本申请要求于2017年11月30日提交的题为“用于序列变体检出的验证方法和系统”的美国临时申请号62/593,095的优先权，其公开内容出于所有目的通过引用合并于此。

技术领域

本公开总体上涉及与生物样本有关的数据领域，诸如序列数据。更具体地，本公开涉及基于在测序操作期间获取的测序数据来验证序列变体呼出物(calls)的技术。

背景技术

基因测序已成为基因研究中越来越重要的领域，有望未来用在诊断和其它应用中。通常，遗传测序涉及确定核酸(诸如RNA或DNA片段)的核苷酸顺序。下一代测序(NGS)提供了识别生物样本中序列变体的能力。NGS检测包括用于识别单核苷酸变体(SNV)、小的插入和缺失(indels)、多核苷酸变体(MNV)、基因扩增(CNV)的DNA工作流程。NGS检测还包括用于识别剪接变体和基因融合体的RNA工作流程。当确定样本核酸序列在沿着序列的一个或多个碱基对位置处不同于参考序列或基准序列时，识别出序列变体。一种或多种序列变体的识别进而可以用于表征患者样本、诊断临床状况和/或分类疾病(例如，癌症)进展。

然而，序列变体的验证是复杂的。某些测序技术会遇到与变体呼出(variantcalling)相关的假阳性。例如，该技术可能错误地确定样本序列中特定位置(碱基对)处存在变体、和/或错误地识别变体的类型，这会导致所识别的序列变体出现假阳性。假阳性序列变体可能是在样本制备阶段引入样本本身的错误的结果和/或可能是在扩增或序列获取期间引入的系统错误的结果。此外，某些类型的样本(例如FFPE样本)可能更容易出错。仍然需要能够以有效和成本有效的方式减少假阳性数量并准确识别DNA变体的测序方法和系统。

定义

本申请中引用的所有文献和类似材料，包括但不限于专利、专利申请、文章、书籍、论文和网页，无论此类文献和类似材料的格式如何，均明确地全部通过引用并入。如果一个或多个所并入的文献和类似材料与本申请不同或矛盾，包括但不限于所定义的术语、术语用法、所描述的技术等，则以本申请为准。如在此所使用的，以下术语具有所指示的含义。

术语“染色体”是指活细胞的携带遗传信息的基因载体，其衍生自包含DNA和蛋白质成分(特别是组蛋白)的染色质链。在此采用了惯例的国际公认的人类基因组染色体编号系统。

术语“位点”是指参考基因组上的独特位置(例如，染色体ID、染色体位置和取向)。在一些实施方案中，位点可以是序列上残基、序列标签或片段的位置。术语“基因座”可用于指一个核酸序列或多态性在参考染色体上的特定位置。

术语“样本”或“生物样本”在此是指，通常衍生自生物液体、细胞、组织、器官或生物的样本，其含有核酸或核酸混合物，其中包含待排序和/或定相的至少一个核酸序列。此类样本包括但不限于痰/口腔液、羊水、血液、血液级分、细针穿刺活组织检查样本(例如，外科活组织检查、细针穿刺活组织检查等)、尿液、腹膜液、胸膜积液、组织外植体、器官培养物和任何其它组织或细胞制品，或其级分或衍生物、或从中分离的分离物。尽管样本常取自人类受试者(例如患者)，但是样本也可以取自具有染色体的任何生物，包括但不限于狗、猫、马、山羊、绵羊、牛、猪等。样本可以在从生物来源获得后直接使用或可以在预处理以修饰样本的特性后使用。例如，此类预处理可以包括从血液中制备血浆，稀释粘性液体等。预处理方法还可以涉及但不限于过滤、沉淀、稀释、蒸馏、混合、离心、冷冻、冻干、浓缩、扩增、核酸片段化、干扰组分失活、试剂添加、裂解等。

术语“序列”包括或表示彼此偶联的核苷酸的链。核苷酸可以基于DNA或RNA。应当理解，一个序列可以包括多个子序列。例如，单个序列(例如，一个PCR扩增子的序列)可以具有350个核苷酸。样本读序(read)可以包括在这350个核苷酸内的多个子序列。例如，样本读序可以包括具有例如20-50个核苷酸的第一和第二侧翼子序列。第一和第二侧翼子序列可以位于具有对应子序列的重复片段(例如40-100个核苷酸)的任一侧。每个侧翼子序列可包括(或包括部分)引物子序列(例如10-30个核苷酸)。为了易于阅读，术语“子序列”将被称为“序列”，但是应理解，在共同链上的两个序列不一定彼此分开。为了区分本文中所述的各种序列，可以给序列赋予不同的标签(例如，目标序列、引物序列、侧翼序列、基因组序列、样本序列、参考序列等)。其它术语诸如“等位基因”可以被赋予不同的标签以在相似的对象之间实现区分。

术语“配对末端测序”(paired-end sequencing)是指对目标片段的两端均进行测序的测序方法。配对末端测序可以促进检测基因组重排和重复片段、以及基因融合和新转录本。在PCT公开WO07010252、PCT申请序列号PCTGB2007/003798和美国专利申请公开US2009/0088327中描述了用于配对末端测序的方法，在此将其各自通过引用并入。在一个示例中，一系列操作可以如下执行；(a)生成核酸簇；(b)使核酸线性化；(c)杂交第一测序引物，并如上所述执行延伸、扫描和解封闭的重复循环；(d)通过合成互补拷贝，在流通池(flow cell)表面上对目标核酸进行反转(invert)；(e)使重新合成的链线性化；(f)杂交第二测序引物，并如上所述执行延伸、扫描和解封闭的重复循环。可以通过递送如上所述的用于单个循环的桥式扩增的试剂，来执行该反转操作。

术语“参考基因组”、“参考序列”或“基准序列”是指任何生物的任何特定的已知基因组序列，无论是部分的还是完整的，其可用作来自受试者的识别序列的参考，并且相对于其可以确定一个或多个序列变体。例如，在美国国家生物技术信息中心(ncbi.nlm.nih.gov)上可以找到用于人类受试者以及许多其它生物的参考基因组。“基因组”或基因组序列是指以核酸序列表达的生物或病毒的完整遗传信息。基因组既包括基因又包括DNA的非编码序列。参考序列可以比与之比对的读序大。例如，它可以大至少约100倍，或至少约1000倍，或至少约10000倍，或至少约10⁵倍，或至少约10⁶倍，或至少约10⁷倍。在一个示例中，参考基因组序列是全长人类基因组的序列。在另一个示例中，参考基因组序列限于特定的人类染色体。此类序列可以被称为染色体参考序列，但术语参考基因组旨在覆盖此类序列。参考序列的其它示例包括其它物种的基因组，以及任何物种的染色体、亚染色体区域(诸如链)等。在另一个实施方案中，参考序列可以包括与靶向测序区域比对的基因组子集的序列信息。在多个实施方案中，参考基因组是衍生自多个个体的共有序列或其它组合。也就是说，参考序列可以是假设的或代表性的序列。然而，在某些应用中，参考序列可以取自特定个体。在一个实施方案中，参考序列是正常序列，而感兴趣的样本是来自同一个体的匹配的肿瘤序列。在另一个实施方案中，在第一时间点获取参考序列，并且在第二后续时间点获取样本序列。如本文所提供的，参考序列可用作确定序列变体的基础。参考序列可以以存储的数据文件来提供，所述数据文件可以根据处理器执行的指令来访问和/或操作。此外，本文的系统可包括存储的一组不同参考序列，可基于与感兴趣的样本和/或测序类型(整个基因组、靶向测序)有关的用户输入来选择所述参考序列。在一个实施方案中，可以对来自个体用户的样本进行测序，并且可以(例如，从云计算环境)访问适当的参考序列作为基因组序列数据上的序列变体操作的输入。

术语“读序”或“序列读序”是指，描述核苷酸模板样本或参考的片段的序列数据集合。该片段可以是在样本制备期间生成的片段。术语“读序”可以指样本读序(来自感兴趣的生物样本)和/或参考读序(作为参考样本测序的一部分而获取的序列读序)。读序可以是样本或参考中连续碱基对的短序列。读序可以通过样本或参考片段的碱基对序列以字符(ATCG)表示。可以将读序存储在存储器设备中，并酌情处理，以确定读序是否与参考序列匹配或具有相对于参考序列的差异，或是否符合其它标准。序列读序可以直接从测序装置获得，或者可以从与样本有关的存储序列信息访问。在一些情况下，读序是足够长度(例如，至少约25 bp)的DNA序列，其可用于识别更大的序列或区域，例如可以被比对，例如拼接在一起，并且作为基因组组装的一部分被特异地指派(assign)到染色体或基因组区域或基因上。术语“样本读序”、“样本序列”或“样本片段”是指来自样本的感兴趣的基因组序列的序列数据。例如，在一个实施方案中，样本读序包括来自具有正向和反向引物序列的PCR扩增子的序列数据。序列数据可以从任何合适的序列方法中获得。样本读序可以例如来自合成测序(SBS)反应、连接测序反应、或需要确定重复元素的长度和/或同一性的任何其它合适的测序方法。样本读序可以是衍生自多个样本读序的共有序列(例如，平均或加权的)或折叠序列(collapsed sequence)。

下一代测序(NGS)方法包括例如合成测序技术(Illumina)、焦磷酸测序(454)、离子半导体技术(Ion Torrent测序)、单分子实时测序(Pacific Biosciences)和连接测序(SOLiD测序)。取决于测序方法，每个读序的长度可从约30bp到超过10,000 bp变化。例如，使用SOLiD测序仪的Illumina测序方法可生成约50 bp的核酸读序。在另一个示例中，IonTorrent测序生成高达400 bp的核酸读序，而454焦磷酸测序生成约700 bp的核酸读序。在另一个示例中，单分子实时测序方法可生成10,000 bp至15,000 bp的读序。因此，在某些实施例中，如本文提供的读序具有30-100 bp、50-200 bp或50-400 bp的长度。

术语“经比对”、“比对”或“进行比对”是指，将读序或标签与参考序列进行比较并且从而确定参考序列是否包含读序序列的过程。如果参考序列包含读序，则该读序可以被映射(map)到参考序列，或者在某些实施方案中，被映射到参考序列中的特定位置。在一些情况下，比对只是告诉读序是否为特定参考序列的成员(也就是说，读序在参考序列中存在还是不存在)。在一些情况下，比对还指示读序或标签所映射到的参考序列中的位置。例如，如果参考序列是全人类基因组序列，则比对可以指示读序于特定染色体上，并且可以进一步指示该读序在染色体的特定链和/或位点上。

术语“变体”或“序列变体”是指与参考序列不同的核酸序列。典型的核酸序列变体包括但不限于单核苷酸多态性(SNP)、短缺失和插入多态性(Indel)、拷贝数变异(CNV)、微卫星标记或短串联重复和结构变异。变体也可以出现在具有至少4个重复核苷酸(例如AAAA、GGGG、CCCC、TTTT)的均聚区域。如在此提供的，体细胞变体呼出、序列变体呼出或变体呼出是指，识别和/或验证感兴趣样本中存在的序列变体。在一个实施方案中，变体呼出可用于表征癌症进展。例如，可以在覆盖给定碱基的读序的一定百分比中看到单核苷酸变体。

术语“插入缺失”(indel)是指生物体DNA中碱基的插入和/或缺失。微型插入缺失表示导致1至50个核苷酸的净变化的插入缺失。在基因组的编码区域中，除非插入缺失的长度是3的倍数，否则它将产生移码突变。插入缺失可以与点突变形成对比。插入缺失向序列中插入核苷酸和从序列中删除核苷酸，而点突变是一种替换形式，其可以替换一个核苷酸而不改变DNA中的核苷酸总数。插入缺失也可以与串联碱基突变(TBM)形成对比，串联碱基突变可以定义为在相邻核苷酸处的替换(主要是在两个相邻核苷酸处的替换，但是已经观察到在三个相邻核苷酸处的替换)。

术语“变体频率”或“变体等位基因频率”表示，群体中特定基因座处的等位基因(基因的变体)的相对频率，以分数或百分比表达。例如，分数或百分比可以是群体中携带该等位基因的所有染色体的分数。举例来说，样本变体频率表示，沿着感兴趣的基因组序列在特定基因座/位置处的等位基因/变体在“群体”上的相对频率，其中所述“群体”对应于针对该感兴趣的基因组序列从个体获得的读序和/或样本的数量。作为另一示例，基准变体频率表示，沿着一个或多个基准基因组序列在特定基因座/位置处的等位基因/变体的相对频率，其中“群体”对应于针对该一个或多个基准基因组序列从正常个体群体中获得的读序和/或样本的数量。

术语“位置”、“指定位置”和“基因座”是指核苷酸序列内一个或多个核苷酸的位置或坐标。术语“位置”、“指定位置”和“基因座”也指核苷酸序列中一个或多个碱基对的位置或坐标。

术语“单体型”(haplotype)是指，在染色体上一起遗传的、相邻位点的等位基因的组合。单体型可以是一个基因座、几个基因座或整个染色体，取决于给定的一组基因座之间发生的重组事件(如果发生的话)的数量。

术语“阈值”在本文是指用作截断值以表征样本、核酸或其部分(例如，读序)的数字或非数字的值。阈值可基于经验分析而变化。可以将阈值与测量值或计算值进行比较，以确定是否应以特定方式对产生此类值的来源进行分类。阈值可以凭经验或分析来识别。阈值的选择取决于用户希望进行分类的置信度。可以出于特定目的(例如，以平衡灵敏度和选择性)来选择阈值。如在此所使用的，术语“阈值”指示可以改变分析过程的点和/或可以触发动作的点。阈值不需要是预定数。相反，阈值可以是例如基于多个因素的函数。该阈值可以适应环境而调整。此外，阈值可以指示上限、下限或两限之间的范围。

在一些实施方案中，可以将基于测序数据的度量(metric)或分数(score)，与阈值进行比较。如在此所使用的，术语“度量”或“分数”可以包括从测序数据已经确定的值或结果，或者可以包括基于从测序数据已经确定的值或结果的函数。像阈值一样，度量或分数可以适应环境而调整。例如，度量或分数可以是归一化值。作为分数或度量的示例，一个或多个实施方案可以在分析数据时使用计数分数(count score)。计数分数可以基于样本读序的数量。样本读序可以已经历一个或多个过滤阶段，使得样本读序具有至少一个共同的特征或质量。例如，用于确定计数分数的每个样本读序可以已经与参考序列比对，或者可以被指定为潜在等位基因。可以对具有共同特征的样本读序的数量进行计数以确定读序数量。计数分数可以基于读序计数。在一些实施方案中，计数分数可以是等于读序计数的值。在其它实施方案中，计数分数可以基于读序计数和其它信息。例如，计数分数可以基于遗传基因座的特定等位基因的读序计数和遗传基因座的读序总数。在一些实施方案中，计数分数可以基于读序计数和先前获得的遗传基因座的数据。在一些实施方案中，计数分数可以是预定值之间的归一化分数。计数分数还可以是来自样本的其它基因座的读序计数的函数，或者是来自与感兴趣样本并行运行的其它样本的读序计数的函数。例如，计数分数可以是特定等位基因的读序计数和样本中其它基因座的读序计数和/或来自其它样本的读序计数的函数。作为一个示例，来自其它基因座的读序计数和/或来自其它样本的读序计数可用于归一化特定等位基因的计数分数。“似然性分数”(likelihood score)是考虑到根据本公开实施方案的错误率估计(error rate estimate)的每变体位点的分数，并且也可以部分地基于所讨论变体位点的可变读序计数(alternative read count,变体样本读序的数量的计数)和总读序计数。在一个实施方案中，错误率基于如下序列读序的总计数，所述序列读序被确定为具有如在此所提供的序列错误。具有较高总计数的生物样本可以被认为比具有较低总计数的另一个生物样本具有更高的错误率。

术语“覆盖度”、“序列覆盖度”、“读序覆盖度”或“片段覆盖度”是指针对序列的相同片段的多个样本读序的计数或其它度量。序列读序计数可以表示覆盖对应片段的读序的数量的计数。可替代地，可以通过将读序计数乘以指定因数来确定覆盖度，其中指定因数可以基于历史知识、样本知识、基因座知识等。

“等位基因质量”(AQ)是相对于基准或参考样本，在测试样本中观察到的等位基因频率的质量分数。

独特分子索引或独特分子标识符(UMI)是应用于或标识在核酸分子中的核苷酸序列，可用于各个核酸分子的彼此区分。UMI可以与它们所关联的核酸分子一起被测序，以确定读序序列是一个源核酸分子的序列还是另一个源核酸分子的序列。在此术语“UMI”可以用来指多核苷酸的序列信息和物理多核苷酸本身。UMI与条形码相似，条形码通常用于区分一个样本的读序与其它样本的读序，但是当将单个样本中的许多片段一起测序时，UMI用于核酸模板片段彼此的区分。UMI可以是单链或双链，并且可以是至少5个碱基，至少6个碱基，至少7个碱基，至少8个碱基或更多。在某些实施方案中，UMI在长度上是5-8个碱基，5-10个碱基，5-15个碱基，5-25个碱基，8-10个碱基，8-12个碱基，8-15个碱基或8-25个碱基。此外，在某些实施方案中，UMI在长度上不超过30个碱基，不超过25个碱基，不超过20个碱基，不超过15个碱基。应当理解，在此提供的UMI序列的长度可以指序列的独特/可区别的部分，并且可排除相邻的共同序列或衔接子序列(例如，p5、p7)，其中所述共同序列或衔接子序列可以用作测序引物并且在具有不同标识符序列的多个UMI之间是共同的。

发明内容

本公开提供了用于检测生物样本中的序列变体和/或验证已识别的序列变体的新颖方法。所公开的技术利用用于序列组装和/或分析的序列信息来提取序列数据错误率，该序列数据错误率是存在于序列数据中的总体测序错误的特征。此类技术增强或可以结合其它技术用于减少错误。例如，某些技术涉及减少读序组中的错误，读序组是一组读序序列，其均包含相同的独特分子标识符(UMI)或与之相关联。如在此所提供的，本技术跟踪，并且在一些实施方案中表征，在基因组序列数据的多个单独读序组内识别的错误，以生成基因组序列数据的特征错误率。错误率可进而用于确定单个潜在序列变体是否有效(valid)。例如，对于具有相对较高的总错误率的基因组序列数据，在序列变体验证之前，可以对潜在的序列变体使用更严格的读序覆盖度阈值。对于具有相对较低的总错误率的基因组序列数据，可以在此类样本中允许较低的读序覆盖度阈值，来验证单独的潜在序列变体。以该方式，序列变体的验证可以取决于由错误率所展现的基因组序列数据的质量。

本技术提高了序列变体的识别和验证的效率和准确性。在某些实施方案中，对于识别为具有适当错误率的样本，即使在低读序覆盖度和/或不存在合格双链的情况下，本技术也允许变体呼出。在某些实施方案中，本技术通过识别可能含有假阳性的基因组序列数据或此类数据中的位点，可以减少所识别的假阳性序列变体的数量。此外，本技术利用在共有序列确定期间通常被忽略的数据来提取有意义的信息，从而提高了变体呼出的效率。也就是说，本技术不是简单地消除读序组内的异常序列(outlier sequence)，而是识别这些消除的序列以确定存在的序列错误的数量和性质。可以基于特定样本的序列数据中所有测序错误或某些类型的测序错误的总体或全局错误率，来验证各个变体。验证条件可以基于每种改变类型的错误率来设置。如果特定样本与某些类型的核苷酸改变(例如，C到T)的高测序错误率相关联，则相对于具有与样本内较低错误率相关联的可变序列的变体，具有替代性C至T序列的识别变体可具有更严格的验证条件。

这样，可以基于样本到样本来确定单独样本的特征错误率(或多个错误率)。尽管基因组序列数据中错误的存在可能与难以预测的各种错误源有关，但是所公开的实施方案有助于以定制的方式确定更准确的序列变体信息，以解决此类错误源和错误变异性。

在一个实施方案中，提供了一种计算机实现的方法。该方法在处理器执行指令的控制下执行。该方法包括接收生物样本的基因组序列数据的步骤，其中该基因组序列数据包括多个序列读序，每个序列读序与多个独特分子标识符中的一个独特分子标识符相关联。该方法还包括以下步骤：基于与第一独特分子标识符相关联的多个序列读序的第一子集内的序列不一致性、第一子集和具有与第一独特分子标识符互补的第二独特分子标识符的多个序列读序的第二子集之间的序列不一致性，或两者，来识别基因组序列数据中的错误，以生成基因组序列数据的错误率。该方法还包括以下步骤：识别基因组序列数据中相对于参考序列的多个潜在序列变体；基于基因组序列数据的错误率，对多个潜在序列变体中的假阳性序列变体进行分类；以及从多个潜在的序列变体中消除假阳性序列变体以产生多个序列变体。

在一个实施方案中，提供了一种计算机实现的方法。该方法在处理器执行指令的控制下执行。该方法包括以下步骤：接收第一生物样本的基因组序列数据，其中，基因组序列数据包括多个序列读序，每个序列读序与多个独特分子标识符中的一个独特分子标识符相关联。该方法还包括以下步骤：识别与第一独特分子标识符相关联的多个序列读序的第一子集内的第一序列差异。该方法还包括以下步骤：折叠第一子集以产生折叠的第一子集序列读序，其中，折叠包括消除在第一子集的占少数测序读序中存在的序列差异。该方法还包括以下步骤：识别与第二独特分子标识符相关联的多个序列读序的第二子集内的第二序列差异，该第二独特分子标识符至少部分地与第一独特分子标识符互补。该方法还包括以下步骤：折叠第二子集以产生折叠的第二子集序列读序，其中，折叠包括消除在第二子集的占少数测序读序中存在的序列差异。该方法还包括以下步骤：基于基因组序列数据的错误率的函数，确定在折叠的第一子集、折叠的第二子集、或折叠的第一子集和折叠的第二子集的双链体(duplex)中相对于基准的序列变体是有效的，其中，错误率部分地基于所识别的第一序列差异和所识别的第二序列差异来确定。

在一个实施方案中，提供了测序设备，该测序设备被配置为识别生物样本的基因组序列数据中的序列变体。该设备包括：存储器设备，其包括存储在其中的可执行应用指令；以及处理器，其被配置为执行存储在存储器设备中的应用指令。应用指令包括使处理器执行以下操作的指令：接收生物样本的基因组序列数据，其中，基因组序列数据包括多个序列读序，每个序列读序与多个独特分子标识符中的一个独特分子标识符相关联；基于与多个独特分子标识符中的每个独特分子标识符相关联的序列读序之间的序列差异，识别基因组序列数据中的多个错误，以生成基因组序列数据的错误率；识别基因组序列数据中相对于参考序列的多个潜在序列变体；以及至少部分地基于错误率确定多个潜在序列变体的有效性。

附图说明

图1是根据本技术用于识别基因组序列错误率的工作流程的示意图；

图2是根据本技术用于序列变体验证的技术的流程图；

图3是根据本技术用于序列变体识别的技术的流程图；

图4是根据本技术用于确定基因组序列数据错误日期的技术的流程图；

图5示出了针对各种源样本和错误类型的分层错误率；

图6是根据本技术用于确定分层错误率和序列变体验证的技术的流程图；

图7示出了源样本(包括具有高错误率的样本)的分层错误类型；

图8示出了图7的高错误率样本的各种错误类型的分层错误率；

图9的图示出相对于决策树技术改善的特异性；

图10的表示出相对于默认决策树技术的灵敏度和特异性结果；以及

图11是根据本技术的测序设备的框图。

具体实施方式

本发明技术涉及测序数据的分析和处理，用于改进的序列变体检测和/或验证。为此，所公开的技术可以消除或减少对假阳性序列变体的指定，并且还允许改善某些样本的序列变体的检测限制。图1是示出样本制备和序列获取工作流程的示意性工作流程图10。

衍生自感兴趣的生物样本的模板12经过库制备(步骤14)而并入一个或多个UMI16。模板12可表示多个核酸片段。每个模板12并入多个UMI中的单个UMI 16(其可以包括一个或多个标识符序列)，使得不同的源模板12各自与具有不同序列的可区分的UMI 16相关联。例如，所描绘的10在叉状配对末端测序衔接子的背景下示出，该叉状配对末端测序衔接子包括独特分子标识符(UMI)16，该独特分子标识符(UMI)16被配置为与核酸模板片段12的5'和3'末端偶联，使得模板12的侧翼是UMI 16的不同部分16a、16b。此外，正链20a包括一个或多个第一UMI序列，而负链20b包括与第一UMI序列互补的第二UMI序列。第一UMI序列和第二UMI序列可以被认为是单个UMI 16的一部分或不同UMI 16。通过识别该UMI或UMI 16的互补序列，正链20a和负链20b的序列可以彼此相关联。

在库制备之后，通过任何合适的测序技术获取样本(包括多个模板12)的基因组序列数据，在此将其描述为配对末端测序(步骤26)。配对末端测序产生多个序列读序28，该序列读序28可以进而通过模板源经由相应的UMI 16分开或分离。例如，包括所获取的序列读序28的第一子集的第一读序组30可以与第一UMI 16相关联，而包括所获取的序列读序28的第二子集的第二读序组32可以与和第一UMI 16互补的第二UMI 16相关联。如所指出的，互补的UMI也可以被视为单个UMI。

通常，在单个读序组(例如，第一读序组30、第二读序组32)内的同一链上的序列读序应彼此相同，因为相关联的UMI 16将该序列读序28的子集联系到单个源模板12上。组内的偏差或差异指示样本制备或序列获取错误。识别和消除读序组内的异常读序以将读序组折叠成共有序列或折叠序列(步骤40)，可用于防止引入的序列错误传播到序列数据中以产生假阳性变体。如在此所提供的，在第一读序组30内的其它序列读序中不存在的此类异常差异，诸如差异42，可以被认为是由于序列错误引起的。提供读序组内任何已识别的差异或变体作为确定样本总错误率的输入。

通过共有序列构建的任何差异，例如差异46，可以进一步跟与UMI 16的互补链相关联的序列读序进行比较。也就是说，第一读序组30和第二读序组32的序列可以被组装为双链体。同样，在组装互补链的共有双链体之前，可以识别组30、32之间的任何差异(步骤47)。此类差异也可以作为错误率的一部分进行跟踪。另外，折叠的单链体或双链体组可以在重叠区域拼接在一起(步骤48)，以生成折叠的较长片段作为序列组装的一部分。拼接可用于确定任何潜在序列变体的频率。

尽管所描绘的图示出了单个模板12(例如，核酸片段)，但是所公开的技术跟踪整个基因组序列数据中的错误以生成总体或全局错误率。特别地，图2是接收生物样本的基因组序列数据的方法50的流程图，其中基因组序列数据包括多个序列读序，每个序列读序与多个独特分子标识符中的一个独特分子标识符相关联；该方法包括接收单个生物样本的基因组序列数据的步骤(框52)。

如在此提供的，可以在样本制备和生物样本的测序之后接收所接收的序列数据。此外，可以存储所接收的基因组序列数据或回顾性序列数据。基因组序列数据可包括客户信息、生物样本生物体信息、生物样本类型信息(例如，标识样本是新鲜、冷冻还是保存的信息)、组织类型、序列设备类型和测序试验类型(整个基因组、靶向的小区域)。

对基因组序列数据进行操作以确定基因组序列数据的错误率(框54)。错误率是样本本身及其相关联基因组序列数据的特征。因此，可以针对感兴趣的生物样本的每个测序运行，从头计算错误率。从同一个体在不同时间获取的样本的错误率可表现出不同的特征错误率，该特征错误率取决于样本制备的变异性、测序设备的设置等。

该方法还可以识别基因组序列数据中的潜在序列变体(框56)。可以相对于参考序列识别潜在的序列变体。潜在的序列变体识别可包括序列读序的基因座映射和指派到对应的遗传基因座。可以基于样本读序的核苷酸的序列，或者换句话说，样本读序内的核苷酸的顺序(例如，A、C、G、T)，将样本读序指派到对应的遗传基因座。基于该分析，可以将样本读序指定为包括了特定遗传基因座的可能变体/等位基因。样本读序可以与已经指定为包括遗传基因座的可能变体/等位基因的其它样本读序收集在一起(或聚集或分仓(bin))。可以分析样本读序，以定位区分该样本读序与其它样本读序的一个或多个标识性核苷酸序列(例如，UMI 16)。

相对于参考序列分析映射的样本读序以识别潜在的序列变体。其中，分析结果识别潜在的变体呼出、样本变体频率、参考序列以及感兴趣的基因组序列内变体发生的位置。例如，如果已知遗传基因座包含SNP，则可以分析针对该遗传基因座呼出的指派读序，以识别该指派读序的SNP。如果已知遗传基因座包含多态性重复DNA元素，则可以分析该指派的读序，以识别或表征样本读序内的多态性重复DNA元素。在一些实施方案中，如果指派的读序与STR基因座和SNP基因座有效匹配，则可以将警告或标志分配给该样本读序。样本读序可以被指定为STR基因座和SNP基因座二者。该分析可以包括根据比对方案来比对所指派的读序，以确定所指派的读序的序列和/或长度。比对方案可以包括2013年3月15日提交的国际申请号PCT/US2013/030867(公开号WO 2014/142831)中描述的方法，该申请的全部内容通过引用合并于此。该分析还可以，相对于特定基因座的总覆盖度，对具有特定潜在变体等位基因的读序的数量进行计数。

一旦被识别，潜在的序列变体就通过考虑所确定的错误率的函数来进行操作，以区分真阳性和假阳性(框58)。在一个实施方案中，对于单个潜在序列变体，基于似然比确定似然分数：

似然比(L)＝似然度(观察到的变体是错误|覆盖度，错误率)/似然度(观察到的变体是真阳性|覆盖度，变体等位基因频率)，其中变体等位基因频率(VAF)＝max(观察到的VAF，检测限)。

似然性分数是错误率、特定位点处的读序覆盖度、以及读序中潜在序列变体发生的频率的函数。例如，较低频率的变体可能不太可能得到验证。似然分数或比率可以具有由用户或系统基于用户输入和/或样本类型设置的可调节阈值。可以基于高于或低于阈值或在范围内的似然性分数来验证潜在的序列变体。例如，低于0.01且高于0.0001或在10^-6至10^-2之间的似然性分数或比率可以指示通过。在另一个实施方案中，可以基于计算出的特异性目标来设置阈值。

一旦被识别，就可以将验证的序列变体提供给用户(框60)。例如，验证的序列可以被提供为生成的报告，例如，被存储为报告文件或者被显示在图形用户界面上以用于用户交互。可替代地，当验证操作使潜在的变体呼出无效或取消资格时，验证操作还可以报告或存储对应的指示(例如，否定指示符、无呼出指示符、无效的呼出指示符)作为报告的一部分。验证还可以提供与变体呼出正确或无效呼出指定正确的置信度有关的似然分数。

图3是方法64的流程图，该方法64对接收到的生物样本的基因组序列数据进行操作(框66)以确定序列变体。基因组序列数据包括UMI序列，由此，每个序列读序与测序运行中使用的多个UMI中的一个UMI相关联。序列读序可被分成读序组，由此每个读序组是与共同的UMI相关联的序列读序的子集(框70)。因此，每个序列读序应仅存在于一个读序组中。一旦分离，基于读序组内的序列读序子集之间的序列差异，识别基因组序列数据中的错误。一个特定UMI的每个序列读序应相同。此外，对于配对末端测序，两个方向中的测序链应对准。一个特定读序组内序列变异性的存在指示系统错误。因此，基于在每个不同读序组内识别的总错误(框72)，可以确定基因组序列数据的总错误率(框74)。错误率进而可以用于识别和/或验证基因组序列数据中的序列变体(框76)。

图4是如在此所提供的用于生成错误率的方法80的流程图。方法80对已接收的生物样本的基因组序列数据进行操作(框82)，该生物样本的基因组序列数据已基于共同的独特分子标识符被分离为子集(框84)。作为生成共有序列或折叠序列的一部分，识别子集内的序列差异(框86)。可以基于多数投票规则(majority voting rule)来确定折叠的序列，由此将特定子集(也就是说，读序组)中少数序列读序中的序列差异指定为序列错误(框88)，而多数序列读序中的序列差异通过以建立共有或折叠的序列(框90)。基于所识别的序列错误，识别错误率(框92)。然而，并非每个子组中的所有序列差异都必然导致错误率。区分在序列读序的大多数中的序列差异(参见图1的差异46)与在少数中的序列差异。

尽管在针对基因组序列数据的全局或总体错误率的上下文中公开了某些实施方案，但是可以基于核苷酸改变的类型另外地或可替代地将错误率分层。以该方式，识别出偏向特定核苷酸改变的系统性错误。图5是按改变类型分开的错误率小图。比较了不同样本类型之间的错误率，包括24种单细胞游离DNA(cfDNA)BRN样本、7种癌细胞系的核小体制备物、和6种0.2％的动物混合样本，以及包括3种健康样本和21种HD753滴定样本的基因组pipDNA。此外，用于错误率确定的输入，分开为各种组合的双链体、单链体、拼接和未拼接的序列读序。如参考图1所指出的，双链体构建和拼接可以通过消除与错误相关联的序列差异来纠正模板序列中的错误。

如所观察到的，每种错误类型的错误率基于样本类型而变化。例如，在细胞游离DNA和核小体制备物中，脱氨基和由此产生的G至A错误以相对较高的水平存在。氧化在pipDNA中占主导地位，导致观察到的G到T变化的较高错误率。因此，在某些实施方案中，某些生物样本类型可与特定的特征错误相关联。在一个实施方案中，序列变体确定可以包括加权因子，以对跟与所讨论的样本类型的错误相关联的潜在变体进行加权抵消(weighagainst)。

图6是如图5中所示的确定分层错误率的方法100的流程图。对于属于单个读序组的一部分的序列读序，消除具有在组内和少数链中的序列差异的各单个读序，以校正模板。可以进一步分析这些消除的序列读序，以识别在每个基因座处发生的错误序列改变的类型(框102)。可以将形成错误序列改变的核苷酸改变，相对于组中占多数的序列读序进行考虑，以识别核苷酸改变的类型。例如，如果多数序列读序在读序的位置(n)处包括G，并且少数读序在位置(n)处包括A，则可以将改变类型归类为G>A改变。该改变可以是单核苷酸改变或插入缺失。将该过程应用于包括具有序列差异的少数序列读序的所有单独读序组，以在整个基因组序列数据中生成每种类型的核苷酸改变的分层错误率(框104)，由此核苷酸改变将基于基因组序列数据本身内的不一致性。使用分层错误率，可以验证潜在的序列变体。一旦作为变体识别操作的一部分被接收(框106)后，基因组序列数据中的潜在序列变体就可以相对于参考序列、根据核苷酸改变的类型进行分类(框108)。特别地，使用基因组序列数据内部的度量(如本文所提供的读序组的序列读序之间的内部序列不一致)来计算错误率，相对于参考序列来确定序列变体。如果潜在变体序列相对于参考序列是G>A改变，则使用G>A错误率(而不是其它类型的核苷酸改变的其它错误率)来确定潜在序列变体为真阳性或假阳性(框110)，例如，作为似然比确定的一部分。以该方式，具有相对低的G>A错误率的生物样本可以验证G>A序列变体，而具有相对高的G>T错误率的相同生物样本可以将更严格的条件应用于验证潜在的G>T序列变体。在一个实施方案中，可以基于分层的错误率来生成每种错误类型的加权因子。

图7示出不同细胞游离DNA样本相对于彼此的错误率的比较以及每个样本的序列变体识别的相关特异性。相对于样本队列，突出显示的样本BRN022表现出C>T错误的显著增加。然而，相对于其它错误类型，样本队列通常示出相对较高的C>T错误，这指示C>T或G>A的脱氨基改变。然而，具有高C>T或G>A错误率的样本中的特异性约为或大于99.95％，指示在具有高序列错误率的生物样本和基因组序列数据的背景下高的特异性。

图8示出了，针对拼接和未拼接的双链体和单链体(正和负)数据，图7的高错误率样本的各种错误类型的分层错误率。相对于未拼接数据，拼接数据中的模板校正看起来与不同错误识别相关联。然而，正链和负链错误看起来相互关联，C>T错误在相对链中显示为G>A。类似地，识别的T>C错误峰在相对链中表现为A>G错误峰。相对于不进行在此所提供的错误率计算的默认技术，检查识别出的高错误C>T和G>A改变。默认技术在BRN022样本中识别出257C>T和G>A假阳性，而分层错误率方法识别出24和14(取决于检测阈值的极限)，示出对于高错误率的样本，假阳性识别的显著降低。

图9是示出相对于决策树技术改善的特异性的绘图。此类技术可以是PCT公开WO2018093780中提供的技术，并且涉及基于加权片段类型的一个或多个质量分数。与决策树技术相反，本文公开的技术可以基于每个样本而不是使用预定的加权因子来确定错误率。例如，某些样本在正链中可比在负链中表现较高的错误。因此，错误也可以基于从头计算的片段类型进行分层。如图9中所示，对于所检查的所有三种样本类型，相对于决策树技术，如在此提供的错误率技术，似然性模型，导致更高的特异性。图10的表示出，相对于默认的决策树技术，核小体制备样本的灵敏度和特异性结果，包括动物混合物的百分比，其示出了与决策树技术一致的灵敏度。似然性(基于错误率)技术表示出高特异性，指示变体呼出的改善以及假阳性识别的降低。

图11是测序设备160的示意图，该测序设备可以与所公开的实施方案结合使用，以获取测序数据，该测序数据用于识别和/或验证序列变体呼出，如在此提供的。可以根据任何测序技术来实现序列设备160，诸如结合了在美国专利公开号2007/0166705；2006/0188901；2006/0240439；2006/0281109；2005/0100900；美国专利号7,057,026；WO 05/065814；WO06/064199；WO 07/010,251中描述的合成测序方法的那些技术，这些文献的公开内容通过引用整体并入在此。可替代地，可以在测序设备160中使用连接测序技术。此类技术使用DNA连接酶来并入寡核苷酸并识别此类寡核苷酸的并入，并且在美国专利号6,969,488；美国专利6,172,218；和美国专利6,306,597中描述；其公开内容通过引用整体并入在此。一些实施方案可以利用纳米孔测序，其中目标核酸链或从目标核酸通过外切核酸而去除的核苷酸穿过纳米孔。随着目标核酸或核苷酸穿过纳米孔，可以通过测量孔的电导率波动来识别每种类型的碱基(美国专利号7,001,792；Soni&Meller，临床化学第53期，第1996-2001页(2007)；Healy，Nanomed.2，459-481(2007)；以及Cockroft等人，J.Am.Chem.Soc.130，818-820(2008)，其公开内容通过引用整体并入在此)。其它实施方案包括检测将核苷酸并入延伸产物后释放的质子。例如，基于释放的质子的检测的测序可以使用可从Ion Torrent(Guilford，CT，Life Technologies的子公司)商购的电检测器和相关技术或US 2009/0026082A1、US 2009/0127589 A1；US 2010/0137143 A1；或US 2010/0282617 A1中描述的测序方法和系统，其每一个均通过引用整体并入在此。特定实施方案可以利用涉及实时监测DNA聚合酶活性的方法。可以通过载有荧光团的聚合酶和γ-磷酸标记的核苷酸之间的荧光共振能量转移(FRET)相互作用，或采用例如Levene等人科学第299期，第682-686页(2003)；Lundquist等人光学快报第33期,第1026-1028页(2008)；Korlach等人美国国家科学院学报第105期，第1176-1181页(2008)中描述的零模式波导来检测核苷酸并入，其公开内容通过引用整体并入在此。其它合适的替代技术包括例如荧光原位测序(FISSEQ)和大规模并行标签测序(MPSS)。在特定实施方案中，测序设备160可以是来自Illumina(加利福尼亚州拉霍亚)的HiSeq、MiSeq或HiScanSQ。在其它实施方案中，测序设备160可以被配置为使用具有在光电二极管上制造的纳米孔的CMOS传感器操作，使得DNA沉积与每个光电二极管一对一地对准。

测序设备160可以是“一个通道”检测设备，其中对于任何给定图像，四个核苷酸中只有两个核苷酸被标记并且是可检测的。例如，胸腺嘧啶可具有永久性荧光标记，而腺嘌呤以可分离的形式使用相同的荧光标记。鸟嘌呤可永远是黑暗的，而胞嘧啶可最初是黑暗的，但能够在循环期间添加标记。因此，每个循环可涉及初始图像和第二图像，在第二图像中，染料从任何腺嘌呤裂解并添加至任何胞嘧啶，使得在初始图像中仅可检测胸腺嘧啶和腺嘌呤，而在第二图像中仅可检测胸腺嘧啶和胞嘧啶。在两个图像中都暗的任何碱基是鸟嘌呤以及在两个图像中都可检测的任何碱基为胸腺嘧啶。在第一图像中可检测但在第二图像中不可检测的碱基是腺嘌呤，而在第一图像中不可检测但在第二图像中可检测的碱基是胞嘧啶。通过组合来自初始图像和第二图像的信息，可以使用一个通道区分所有四个碱基。

在所描绘的实施方案中，测序设备160包括单独的样本处理设备162和相关联的计算机164。然而，如所指出的，这些可以被实现为单个设备。此外，相关联的计算机164可以位于样本处理设备162的本地或与样本处理设备162联网。在所示的实施方案中，可以将生物样本加载到样本处理设备162中的样本基板170(例如流通池或载玻片)上，对该样本基板170进行成像以生成序列数据。例如，与生物样本相互作用的试剂响应于成像模块172生成的激发束而在特定的波长发出荧光，并且从而返回用于成像的辐射。例如，荧光组分可以由与组分的互补分子杂交的荧光标记的核酸生成，或与使用聚合酶并入寡核苷酸的荧光标记的核苷酸生成。如本领域技术人员将理解的，激发样本的染料的波长和它们发荧光的波长将取决于特定染料的吸收和发射光谱。此类返回的辐射可传播返回通过定向光学器件。该后光束(retrobeam)通常可以指向成像模块172的检测光学器件。

成像模块检测光学器件可以基于任何适当的技术，并且可以是例如基于设备中光子影响位置而生成像素化图像数据的电荷耦合器件(CCD)传感器。然而，将理解，还可使用多种其它检测器中的任何一种，包括但不限于配置用于时延积分(TDI)操作的检测器阵列、互补金属氧化物半导体(CMOS)检测器、雪崩光电二极管(APD)检测器、盖革模式光子计数器或任何其它合适的检测器。如美国专利号7,329,860中所述，可以将TDI模式检测与线扫描相结合，该专利通过引用并入在此。其它有用的检测器描述在例如本文之前有关各种核酸测序方法提供的参考文献中。

成像模块172可以，例如经由处理器174，在处理器的控制下，并且样本接收设备162还可以包括I/O控件176、内部总线78、非易失性存储器180、RAM 182以及任何其它存储器结构，使得该存储器能够存储可执行指令，以及其它合适的硬件组件，该硬件组件可以类似于就图11所描述的那些硬件组件。此外，关联的计算机164还可以包括处理器184、I/O控件186、通信模块184以及包括RAM 188和非易失性存储器190的存储器架构，使得该存储器架构能够存储可执行指令192。硬件组件可以由内部总线194链接，该内部总线194也可以链接到显示器196。在其中测序设备160被实现为多合一设备的实施方案中，可以消除某些冗余硬件元素。

处理器184可以被编程为如在此提供的对基因组序列数据进行操作。在特定实施方案中，基于成像模块172获取的图像数据，测序设备160可以被配置为生成测序数据，该测序数据包括针对序列读序的每个碱基的碱基呼出。此外，基于图像数据，即使对于串行执行的序列读序，也可以经由图像数据将各个读序链接到相同的位置，并因此链接到相同的模板链。处理器184还可以被编程为，在将序列读序指派给样本之后，对与针对特定样本的插入物相对应的序列，执行下游分析。处理器184可以被配置为对BAM文件形式的序列数据进行操作，并以各种格式(诸如.VCF或.GVCF文件)输出变体呼出。

尽管在此仅示出和描述了本公开的某些特征，但是本领域技术人员将想到许多修改和改变。因此，应理解，所附权利要求书旨在涵盖落入本公开的真实精神内的所有此类修改和改变。

Claims

1.一种在处理器执行指令的控制下的计算机实现的方法，包括：

接收生物样本的基因组序列数据，其中，所述基因组序列数据包括多个序列读序，每个序列读序与多个独特分子标识符中的一个独特分子标识符相关联；

基于与第一独特分子标识符相关联的多个序列读序的第一子集内的序列差异、所述第一子集和具有与所述第一独特分子标识符互补的第二独特分子标识符的所述多个序列读序的第二子集之间的序列差异、或两者，来识别所述基因组序列数据中的错误，以生成所述基因组序列数据的错误率；

识别所述基因组序列数据中相对于参考序列的多个潜在序列变体；

基于所述基因组序列数据的错误率，分类所述多个潜在序列变体中的假阳性序列变体；以及

从所述多个潜在的序列变体中消除所述假阳性序列变体以产生多个序列变体。

2.根据权利要求1所述的方法，其中，所述错误率包括基于核苷酸改变类型的单独错误率。

3.根据权利要求2所述的方法，其中，所述分类包括：应用单独的核苷酸改变类型的错误率和单独的潜在序列变体的读序覆盖度的函数，以确定所述单独的潜在序列变体是假阳性序列变体。

4.根据权利要求1所述的方法，其中，基于所述多个序列读序的第一子集内的所述序列差异来识别所述基因组序列数据中的错误包括：识别与单独的独特分子标识符相关联的第一读序方向或第二读序方向之间的差异，其中，所识别的差异贡献所述错误率。

5.根据权利要求4所述的方法，包括折叠所述第一子集的序列读序以产生折叠的第一子集序列读序，所述折叠的第一子集序列读序指示所述第一子集的序列读序中占多数的共有序列。

6.根据权利要求5所述的方法，其中，基于第一子集和与所述第一子集互补的所述多个序列读序的第二子集之间的序列差异、识别所述基因组序列数据中的错误包括：识别所述折叠的第一子集序列读序和所述第二子集的序列读序之间的第二差异，其中，所识别的第二差异贡献所述错误率。

7.根据权利要求6所述的方法，包括折叠所述第二子集的序列读序和所述折叠的第一子集序列读序，以产生双链体折叠序列读序，所述双链体折叠序列读序指示所述第一子集和所述第二子集的序列读序中占多数的共有序列。

8.根据权利要求7所述的方法，其中，将所述双链体折叠序列读序与参考序列进行比较，以识别所述多个潜在序列变体中的潜在序列变体。

9.根据权利要求1所述的方法，其中，所述分类包括：将至少部分地基于所述错误率的函数应用于每个潜在的序列变体以生成分数；以及基于所述分数来确定每个潜在序列变体的假阳性或真阳性分类。

10.根据权利要求9所述的方法，其中，所述错误率是所述序列数据的全局错误率，以及其中，所述函数基于所述错误率和每个单独的潜在序列变体的位点处的读序覆盖度。

11.根据权利要求9所述的方法，其中，基于潜在序列变体的类型，从每个潜在序列变体位点处的多个错误率中选择所述错误率，以及其中，所述函数基于所选的错误率和每个单独的潜在序列变体位点处的读序覆盖度。

12.根据权利要求9所述的方法，其中，基于所述生物样本的类型对所述错误率进行加权，以及其中，所述函数基于所述加权的错误率和每个单独的潜在序列变体位点处的读序覆盖度。

13.根据权利要求1所述的方法，包括在显示器上提供所述多个序列变体的指示。

14.根据权利要求1所述的方法，其中，所述错误率独立于正链识别或负链识别。

15.一种在处理器执行指令的控制下的计算机实现的方法，包括：

接收第一生物样本的基因组序列数据，其中，所述基因组序列数据包括多个序列读序，每个序列读序与多个独特分子标识符中的一个独特分子标识符相关联；

识别与第一独特分子标识符相关联的所述多个序列读序的第一子集内的第一序列差异；

折叠所述第一子集以产生折叠的第一子集序列读序，其中，所述折叠包括消除存在于所述第一子集的测序读序的少数中的序列差异；

识别与第二独特分子标识符相关联的所述多个序列读序的第二子集内的第二序列差异，所述第二独特分子标识符至少部分地与所述第一独特分子标识符互补；

折叠所述第二子集以产生折叠的第二子集序列读序，其中，所述折叠包括消除存在于所述第二子集的测序读序的少数中的序列差异；以及

基于所述基因组序列数据的错误率的函数，确定在所述折叠的第一子集、所述折叠的第二子集、或所述折叠的第一子集和所述折叠的第二子集的双链体中相对于基准的序列变体是有效的，其中，所述错误率部分地基于所识别的第一序列差异和所识别的第二序列差异来确定。

16.根据权利要求15所述的方法，包括：基于所述错误率的函数，确定与第三独特分子标识符相关联的第三子集中的另外的序列变体是有效的。

17.根据权利要求15所述的方法，包括：基于所述错误率的函数，确定与第三独特分子标识符相关联的第三子集中的另外的序列变体是假阳性。

18.根据权利要求17所述的方法，包括：从所述基因组序列数据中的序列变体的指示中，消除所述另外的序列变体。

19.一种测序设备，其被配置为识别生物样本的基因组序列数据中的序列变体，所述测序设备包括：

存储器设备，其包括存储在其中的可执行应用指令；以及

处理器，其被配置为执行存储在所述存储器设备中的所述应用指令，其中，所述应用指令包括使处理器执行以下操作的指令：

基于与所述多个独特分子标识符中的每个独特分子标识符相关联的序列读序之间的序列差异，识别所述基因组序列数据中的多个错误，以生成所述基因组序列数据的错误率；

识别所述基因组序列数据中相对于参考序列的多个潜在序列变体；以及

至少部分地基于所述错误率，确定所述多个潜在序列变体的有效性。

20.根据权利要求19所述的测序设备，其中，所述有效性基于所述错误率和单独的潜在序列变体的序列覆盖度的函数。

21.根据权利要求19所述的测序设备，其包括被配置为接收用户输入的用户界面，其中，所述用户输入包括所述生物样本的样本类型。

22.根据权利要求21所述的测序设备，其中，基于所述样本类型对所述错误率进行加权。