CN117561573A - 从碱基判读错误模式自动鉴定核苷酸测序中的故障来源 - Google Patents

从碱基判读错误模式自动鉴定核苷酸测序中的故障来源 Download PDF

Info

Publication number
CN117561573A
CN117561573A CN202280043788.7A CN202280043788A CN117561573A CN 117561573 A CN117561573 A CN 117561573A CN 202280043788 A CN202280043788 A CN 202280043788A CN 117561573 A CN117561573 A CN 117561573A
Authority
CN
China
Prior art keywords
base
sequencing
base interpretation
sample
interpretation error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280043788.7A
Other languages
English (en)
Inventor
T·格罗斯
Z·W·谢尼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inmair Ltd
Original Assignee
Inmair Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inmair Ltd filed Critical Inmair Ltd
Publication of CN117561573A publication Critical patent/CN117561573A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/123DNA computing

Abstract

本发明公开了方法、系统和非暂态计算机可读介质,该方法、系统和非暂态计算机可读介质用于从测序数据准确且有效地鉴定碱基判读错误瘢痕或模式,以确定促成这些碱基判读错误瘢痕或模式的故障来源。例如,本发明所公开的系统能够利用参考基因组来确定测序流水线的运行内的核苷酸特异性错误。基于不同核苷酸特异性错误的共同出现,本发明所公开的系统能够确定碱基判读错误瘢痕。本发明所公开的系统能够进一步从样品测序运行中确定与碱基判读错误瘢痕相关的一个或多个样品错误瘢痕。基于该相关性并且通过利用统计模型,本发明所公开的系统可以鉴定促成碱基判读错误瘢痕内的核苷酸特异性错误的故障来源。

Description

从碱基判读错误模式自动鉴定核苷酸测序中的故障来源
相关申请的交叉引用
本本申请要求2021年9月17日提交的名称为“AUTOMATICALLY IDENTIFYINGFAILURE SOURCES IN NUCLEOTIDE SEQUENCING FROM BASE-CALL-ERROR PATTERNS”的美国临时申请号63/245,639的权益和优先权,该临时申请的内容据此全文以引用方式并入本文。
背景技术
近年来,生物技术公司和研究机构已经改进了硬件和软件平台以确定核苷酸碱基序列或整个基因组。例如,一些现有的核酸测序平台通过使用现有的桑格测序或边合成边测序(SBS)来确定序列内的各个核苷酸碱基。使用SBS时,现有平台可以监测并行合成的数以万计或更多寡核苷酸,以确定核苷酸碱基判读。例如,SBS平台中的相机可以捕获来自掺入此类寡核苷酸中的核苷酸碱基的经照射荧光标签的图像。在捕获图像后,现有的SBS平台向具有测序数据分析软件的计算装置发送碱基判读数据(或图像数据),其中该测序数据分析软件将核苷酸读段与参考基因组比对。基于这些比对的核苷酸片段读段,现有的SBS平台可以确定基因组区域的核苷酸碱基判读,并且鉴定样品核酸序列内的变体。
尽管测序取得了进展,现有的核苷酸碱基测序平台和测序数据分析软件(在下文中统称为“现有的测序系统”)在遍及基因组的多个位置处或在测序运行期间频繁地确定不正确的核苷酸碱基判断,却无法准确地或有效地检测此类不正确的核苷酸碱基判读的系统性原因或随机原因。实际上,由于复杂的硬件故障、错误的试剂彼此相互作用或与核苷酸相互作用,或者复杂的软件不正确地分析核苷酸读段或其他碱基判读数据,现有的测序系统可能确定不正确的碱基判读,或者减慢甚至停止测序运行中碱基判读的产生。虽然一些现有的测序系统在测序机器的管道或其他部分内包括传感器,但是这样的机器内传感器只能检测硬件或试剂故障的相对小的子集,而且可能完全不能检测软件错误。除了机器内传感器之外,一些现有系统利用软件修整工具来排除具有较低质量得分的核苷酸片段读段末端或输入数据的其他部分。然而,通过减少核苷酸片段读段长度,常规的修整工具常常加剧覆盖范围偏差,由此引入检测系统性错误的其他复杂性。就这一点进一步而言,许多常规的错误校正工具(诸如用于错误校正的贝叶斯聚类、布隆过滤器校正(BFC)、用于高通量测序读取的基于布隆过滤器的错误校正解决方案(BLESS),以及其他工具)被设计为校正常见的读取错误或扩展某些读取,但是对此类错误的潜在原因几乎没有给出指示。由于化学、机械或软件中的许多潜在故障点,现有的测序系统时常不能准确地查明对数据质量或碱基判读效率有贡献的潜在因素。
除了故障检测不准确或不存在故障检测之外,现有的测序系统通常只能使用低效或庞大的检测传感器或算法来检测系统性错误。例如,现有系统经常耗费额外的处理资源、计算资源、存储资源和时间来在测序中正确或不正确地鉴定错误来源。常规系统通常利用多种方法和算法来分析基因组并校正错误。此类方法和算法在计算上是昂贵的。在一个示例中,现有系统通过分析读取对并生成读取对之间的相似性分数来利用Louvian社区检测算法。为了降低为每个读取对生成相似性分数的计算成本,一些现有系统分析序列的具体区段,而必须忽略其他区段。但是计算每个读取对之间的相似性分数通常既是计算密集的,又是时间密集的。由于现有系统常常不能有效地鉴定故障来源,所以它们在成功地鉴定问题之前时常要求用户多次重复测序运行。
除了计算密集的错误检测之外,一些现有的测序系统只能不灵活地解决某些类型的错误。一般来讲,测序平台缺乏鉴定现有系统中出现的广谱潜在故障来源所需的基础结构。例如,现有的测序系统通常利用Phred算法来确定估计单个碱基判读不正确的可能性的质量得分。现有系统即使可以估计各个碱基判读错误,通常也不能鉴定此类碱基判读错误的根本原因。为了说明,现有系统通常不能指示特定错误是源于机械、试剂、化学还是软件中的故障。
这些问题和难题,连同附加的问题和难题存在于现有的测序系统中。
发明内容
本公开描述了解决一个或多个上述问题或提供优于现有技术的其他优点的系统、方法和非暂态计算机可读存储介质的一个或多个实施方案。具体地,本发明所公开的系统可以从测序流水线的测序数据准确且高效地鉴定碱基判读错误瘢痕或模式,并且确定对碱基判读错误瘢痕或模式有贡献的故障来源。例如,本发明所公开的系统可以利用参考基因组来确定测序流水线的测序运行内的核苷酸特异性错误。基于核苷酸特异性错误的不同量值或组合,本发明所公开的系统可以进一步在测序流水线的碱基判读数据之中鉴定碱基判读错误瘢痕。本发明所公开的系统可以使用相同或相似的测序流水线进一步分析来自样品测序运行的数据,然后应用统计模型来从样品测序运行中鉴定与碱基判读错误瘢痕相关的样品碱基判读错误瘢痕。基于来自测序流水线的数据的碱基判读错误瘢痕与一个或多个相应的样品碱基判读错误瘢痕之间的相关性,本发明所公开的系统可以鉴定促成碱基判读错误瘢痕之中的核苷酸特异性错误的故障来源。例如,本发明所公开的系统可以鉴定硬件、化学或软件中的故障来源。
本公开的一个或多个实施方案的附加的特征部和优点将在随后的描述中阐述,并且部分地将从该描述中显而易见,或者可以通过此类示例性实施方案的实践获知。
附图说明
具体实施方式将通过使用附图来描述具有附加特异性和细节的各种实施方案,这些附图汇总如下。
图1展示了根据本公开的一个或多个实施方案的变异来源鉴定系统能够在其中工作的环境。
图2展示了根据本公开的一个或多个实施方案的变异来源鉴定系统的概览图,该变异来源鉴定系统从测序流水线的测序数据中检测碱基判读错误模式并且基于该碱基判读错误模式确定故障来源。
图3展示了根据本公开的一个或多个实施方案的确定碱基判读错误率的变异来源鉴定系统。
图4展示了根据本公开的一个或多个实施方案的从分组的碱基判读错误率检测碱基判读错误模式的变异来源鉴定系统。
图5展示了根据本公开的一个或多个实施方案的变异来源鉴定系统,其鉴定用于一个或多个样品测序运行的样品碱基判读错误模式。
图6A至图6C展示了根据本公开的一个或多个实施方案的变异来源鉴定系统确定贡献量度,这些贡献量度指示测序流水线材料对来自测序流水线的碱基判读错误的贡献。
图7A至图7C展示了根据本公开的一个或多个实施方案的由变异来源鉴定系统生成的一系列示例方差成分分析输出,这些输出作为鉴定促成碱基判读错误的故障来源的一部分。
图8展示了根据本公开的一个或多个实施方案的促成插入和缺失(INDEL)长度变异的测序流水线材料的示例可分配原因变异百分比。
图9A至图9B展示了根据本公开的一个或多个实施方案的包括来自变异来源鉴定系统的通知图形用户界面的示例系列图形用户界面,该通知图形用户界面包括故障模式通知和错误模式分析图形用户界面。
图10展示了根据本公开的一个或多个实施方案的用于从测序流水线的测序数据检测碱基判读错误模式以及基于该碱基判读错误模式确定碱基判读错误类型的故障来源的一系列动作。
图11展示了根据本公开的一个或多个实施方案的示例计算设备的框图。
具体实施方式
本公开描述了变异来源鉴定系统的一个或多个实施方案,该变异来源鉴定系统从测序流水线的测序数据鉴定碱基判读错误模式,并且基于该碱基判读错误模式确定故障来源。在一个或多个实施方案中,变异来源鉴定系统生成对参考基因组的碱基判读,以确定各个碱基的碱基判读错误率。变异来源鉴定系统还可以基于碱基判读错误率来鉴定碱基判读错误模式。作为一个比较点,变异来源鉴定系统进一步鉴定对应于碱基判读错误模式的样品碱基判读错误模式。基于碱基判读错误模式与样品碱基判读错误模式之间的相关性,变异来源鉴定系统可以确定测序流水线的测序数据内的变异的故障来源(例如,基于可分配原因变异百分比)。
为了说明,在一个或多个实施方案中,变异来源鉴定系统确定由测序流水线生成的核苷酸碱基判读不同于参考基因组中的参考碱基的碱基判读错误率。变异来源鉴定系统可以从根据碱基判读错误类型分组的碱基判读错误率检测碱基判读错误模式。在一些实施方案中,变异来源鉴定系统鉴定用于一个或多个样品测序运行的样品碱基判读错误模式,这些样品测序运行基于该碱基判读错误模式利用对应于测序流水线的一个或多个测序流水线。变异来源鉴定系统可以进一步基于碱基判读错误模式与样品碱基判读错误模式之间的相关性来确定对应于测序流水线的碱基判读错误类型的故障来源。
如所提及的,变异来源鉴定系统可以确定核苷酸碱基判读不同于参考碱基的碱基判读错误率。具体地,变异来源鉴定系统可以利用具有已知参考碱基序列的参考基因组。在一些实施方案中,变异来源鉴定系统利用混淆矩阵来指示对测序运行的碱基判读是正确还是不正确。此外,在一个或多个实施方案中,变异来源鉴定系统进一步对来自该混淆矩阵的数据进行归一化。在任何情况下,变异来源鉴定系统均可以利用参考基因组来准确地鉴定由测序流水线生成的碱基判读是正确还是不正确。
变异来源鉴定系统可以进一步从根据碱基判读错误类型分组的碱基判读错误率检测碱基判读错误模式。具体地,变异来源鉴定系统可以鉴定指示正确的碱基判读和不正确的碱基判读的碱基判读错误类型。例如,变异来源鉴定系统可以确定正确的鸟嘌呤(G)碱基判读被错误地鉴定为不正确的腺苷(A)碱基判读的次数。此外,在一些实施方案中,变异来源鉴定系统可以通过基于不同的相邻核苷酸碱基对不正确的碱基判读进行分组来生成更详细的碱基判读错误模式。例如,变异来源鉴定系统可以确定当两侧均侧接A核苷酸而不是A和胞嘧啶(C)时,G碱基判读何时被不正确地判读为A。一般来讲,变异来源鉴定系统可以生成包括碱基判读错误类型组和不同的相邻核苷酸碱基的碱基判读错误模式。
基于来自测序流水线的测序数据的碱基判读错误模式,变异来源鉴定系统可以进一步鉴定用于一个或多个样品测序运行的样品碱基判读错误模式,这些样品测序运行利用对应于测序流水线的一个或多个测序流水线。一般来讲,变异来源鉴定系统利用统计模型(诸如方差成分分析(VCA))来分析样品测序运行和制造数据,以估计各种因素的可变性。在一个示例中,变异来源鉴定系统可以基于制造鉴定数据限定利用类似制造材料的样品测序运行集合。变异来源鉴定系统检测样品测序运行集合的样品碱基判读错误模式,并且利用统计模型来确定促成样品碱基判读错误的测序流水线材料、化学或软件的可分配原因变异。
基于来自测序流水线的数据的碱基判读错误模式与来自样品测序运行的样品碱基判读错误模式之间的相关性,变异来源鉴定系统可以进一步确定碱基判读错误类型的故障来源。如所提及的,在一些情况下,变异来源鉴定系统利用统计模型来估计硬件、化学和软件对测序运行数据的影响。通过鉴定与碱基判读错误模式对应的样品碱基判读错误模式,变异来源鉴定系统可以确定碱基判读错误类型的故障来源。
在一个或多个实施方案中,在鉴定出故障来源之后,变异来源鉴定系统提供指示故障来源的通知,以显示在与测序流水线相关联的计算设备上。例如,变异来源鉴定系统可以提供指示负面地影响测序运行的一个或多个故障来源的通知。变异来源鉴定系统还可以经由该通知提供潜在故障来源的分解,以及这些潜在故障来源对测序运行产生负面影响的概率。
变异来源鉴定系统相对于现有的测序系统提供了几个技术益处。具体地,相对于现有的测序系统,变异来源鉴定系统可以提高检测系统性错误来源的准确性。更具体地,变异来源鉴定系统利用参考基因组的碱基判读错误率来推断对测序运行产生负面影响的具体故障来源。与依赖于Phred算法确定估计单个碱基判读不正确的可能性的质量得分的现有系统相比,变异来源鉴定系统可以准确地鉴定起源于沿测序流水线的各部分中的系统性错误来源。例如,变异来源鉴定系统可以鉴定机械、试剂、化学或软件中的故障来源。此外,与在核苷酸序列中引入新错误的常规错误校正工具相比,变异来源鉴定系统在分析碱基判读数据时不会对读段长度或覆盖范围偏差产生负面影响。
相对于现有的测序系统,变异来源鉴定系统还可以提高检测测序故障来源的效率。通过利用测序碱基判读数据来有效地鉴定故障来源,变异来源鉴定系统消除了运行和重新运行多个测序循环以获得高质量数据的需要,由此比现有测序系统更有效地使用化学试剂。在一些实施方案中,变异来源鉴定系统还可以通过实时提供潜在故障来源的通知(例如,错误代码的图形指示)来提高效率。例如,虽然许多现有系统依赖于算法(诸如Louvian社区检测算法)来生成给定区段内的各个读取对之间的相似性得分,但是变异来源鉴定系统可以检查整个核苷酸序列的碱基判读数据以准确地鉴定故障来源。因此,与许多需要过多计算资源来鉴定和校正测序错误的现有系统不同,该变异来源鉴定系统可以提供用于鉴定和校正潜在故障来源的有效接口。
通过提供故障来源的及时通知,变异来源鉴定系统可以相应地减少在鉴定出错误的测序运行上浪费的试剂的量,并且对测序流水线内的故障来源进行故障排除(和校正)。在鉴定出碱基判读错误模式的故障来源的情况下,变异来源鉴定系统能够以原材料和修复或改进未来生产的原材料的过程为目标。类似地,变异来源鉴定系统可以及早结束测序循环或测序运行,以校正所鉴定的故障来源,从而保留当前循环或运行的试剂。一旦已经针对测序流水线对故障来源做出补救,使用该经补救的测序流水线来确定样品基因组(或其他核酸聚合物)序列的测序系统就可以改善先前的测序运行中的碱基判读错误率。通过在制造数据和现场数据两者中鉴定新的碱基判读错误模式,变异来源鉴定系统还可以改善未来测序运行中的碱基判读错误率和预测故障来源的准确性。
除了提高准确性和效率之外,变异来源鉴定系统相对于现有测序系统提高了灵活性。在一些实施方案中,与常规的机器内传感器不同,变异来源鉴定系统与平台无关,而且不需要使用附加硬件。具体地,变异来源鉴定系统灵活地利用了对于许多测序平台来说容易获得的经测序参考基因组的碱基判读错误率。此外,变异来源鉴定系统不限于单个参考基因组,相反,变异来源鉴定系统可以灵活地利用来自任何已知参考基因组的测序来生成用于测序运行的碱基判读错误模式。因此,变异来源鉴定系统可以由现有的测序系统实施和利用,而不需要附加的硬件。
如上述讨论所展示,本公开利用多种术语来描述变异来源鉴定系统的特征和优点。现在提供关于此类术语的含义的附加细节。例如,如本文所用,术语“碱基判读错误率”是指确定不正确的核苷酸碱基判读的分数、频率、百分比或其他部分的指示。具体地,碱基判读错误率可以指示由测序流水线生成的核苷酸碱基判读不同于参考基因组中的参考碱基的分数、频率或百分比。在一个示例中,碱基判读错误率包括测序流水线生成不正确的核苷酸碱基判读(例如,错误地将腺嘌呤碱基判读为鸟嘌呤碱基)的情况的计数。
如本文所用,术语“核苷酸碱基判读”(或简称为“碱基判读”)是指在测序循环期间确定或预测样品基因组的基因组坐标或寡核苷酸的具体核苷酸碱基(或核苷酸碱基对)。具体地,核苷酸碱基判读可以指示:(i)确定或预测已掺入核苷酸样品载片上的寡核苷酸内的核苷酸碱基的类型(例如,基于读段的核苷酸碱基判读)或(ii)确定或预测存在于基因组内的基因组坐标或区域处的核苷酸碱基的类型,包括数字输出文件中的变体判读或非变体判读。在一些情况下,对于核苷酸片段读段,核苷酸碱基判读包括基于由添加到核苷酸样品载片(例如,在流动池的孔中)的寡核苷酸中的带荧光标签的核苷酸所产生的强度值确定或预测核苷酸碱基。替代性地,核苷酸碱基判读包括由色谱峰或电流变化确定或预测核苷酸碱基,这些色谱峰或电流变化是由穿过核苷酸样品载片的纳米孔的核苷酸产生的。相比之下,基于与基因组坐标对应的核苷酸片段读段,核苷酸碱基判读还可以包括对变体判读文件或其他碱基判读输出文件的样品基因组的基因组坐标处的核苷酸碱基的最终预测。因此,核苷酸碱基检出可包括与基因组坐标和参考基因组对应的碱基检出,诸如与参考基因组对应的特定位置处的变体或非变体的指示。实际上,核苷酸碱基检出可指变体检出,包括但不限于单核苷酸多态性(SNP)、插入或缺失(indel)或作为结构变体的一部分的碱基检出。如上文所提出的,单个核苷酸碱基判读可以是腺嘌呤(A)判读、胞嘧啶(C)判读、鸟嘌呤(G)判读,或胸腺嘧啶(T)判读。
如本文所用,术语“故障来源”是指给定碱基判读错误的原因、碱基判读错误率或碱基判读错误类型。具体地,故障来源是指在测序流水线内各种部件处发现的对核苷酸碱基判读有负面影响的具体问题。例如,故障来源可以包括影响硬件、化学或软件,导致错误(诸如核苷酸碱基被错误判读)的问题或困难。在硬件中发现的故障来源的示例可以包括测序机器有缺陷的部分,以及劣化或在其他方面存在缺陷的耗材产品。在化学中发现的故障来源的示例可以包括以下耗材产品:其在与其他耗材产品、环境或测序机器部件相互作用时受到负面影响。在软件中发现的故障来源可以包括源于在测序流水线内利用的计算过程的计算错误或其他不规则性。
如本文所用,术语“参考基因组”是指作为生物体基因的一个代表性示例(或多个代表性示例)而组装的数字核酸序列。无论序列长度如何,在一些情况下,参考基因组均表示数字核酸序列中由科学家或统计模型确定为代表特定物种的生物体的示例基因集合或核酸序列集合。例如,参考基因组可以包括PhiX基因组。作为另外的示例,线性人类参考基因组可以是GRCh38或来自基因组参考联盟的其他参考基因组版本。参考基因组由参考碱基的已知序列构成。如本文所用,术语“参考碱基”是指构成参考基因组的核苷酸碱基。具体地,参考碱基的序列可以用作测序运行的对照。
如本文所用,术语“测序流水线”是指用于确定核酸聚合物或整个基因组的序列的各种物理元件和软件。具体地,测序流水线可以包括核酸序列提取方法,以及用于提取的相应试剂和相应装备。测序设备和测序运行中利用的相应试剂、装备和/或反应;以及序列分析软件。例如,测序流水线可以包括测序设备的特定模型,以及测序设备在一系列事件中利用以生成核苷酸碱基序列的相应试剂。
如本文所用,术语“相似的制造材料”是指在一个或多个测序流水线中利用的具有共同特征的材料。具体地,类似的制造材料可以包括也具有共享特性的相同类型或者相同或重叠的板条箱或制造标识符的两种材料。如将在下文中说明的,在一些情况下,变异来源鉴定系统截短用于测序设备、测序设备部件、耗材产品、核苷酸样品载片和其他材料的制造鉴定数据,以鉴定类似的制造材料。因此,类似的制造材料可以包括测序设备部件、耗材产品、核苷酸样品载片,以及在组成或构造方面相同或类似的其他材料。在一些实施方案中,类似的制造材料可以包括相同类型的两种试剂,这两种试剂使用相同的原材料,通过相同的过程同时产生。
如本文所用,术语“碱基判读错误模式”是指碱基判读错误的特有或独特的组合。具体地,碱基判读错误模式可以包括跨一个或多个测序运行的各种碱基判读错误的特征图或独特系列。例如,碱基判读错误模式可以指代指示跨一个或多个测序运行的每个碱基判读错误类型的碱基判读错误量的特征图。此外,碱基判读错误模式可以包括指示根据不同的相邻核苷酸碱基组织的特定类型碱基判读错误(例如,不正确地判读A而不是T)的量的模式。
如本文进一步使用的,术语“样品测序运行”是指具有来自测序流水线的已知变量的核苷酸测序运行。具体地,样品测序运行通过利用用于一个或多个测序流水线的已知制造数据来生成样品测序数据。在一些实施方案中,样品测序运行包括利用具有已知制造鉴定数据的制造材料的测试测序运行。例如,样品测序运行可以包括使用核酸序列提取方法、测序设备或序列分析软件进行的质量测试运行,以确保这些核酸序列提取方法、测序设备或序列分析软件通过相应的质量标准。
类似地,如本文所用,术语“样品碱基判读错误模式”是指在一个或多个样品测序运行内存在的碱基判读错误的特有或独特的组合。具体地,样品碱基判读错误模式可以指在样品测序运行期间由测序流水线产生的碱基判读错误的特征图或独特系列。在一个示例中,当测序设备或序列分析软件正在分析样品数据时,样品碱基判读错误模式指示各种碱基判读错误的量。
如本文所用,术语“碱基判读错误类型”是指碱基判读错误的类别。具体地,碱基判读错误类型指示所确定的具体错误碱基判读,而不是正确的碱基判读。例如,碱基判读错误类型可以包括A碱基(例如,在这里,正确的碱基判读是A)被测序系统错误判读为G。相比之下,不同的碱基判读错误类型可以包括A碱基被测序系统错误判读为T。在一个示例中,通过将参考碱基的已知序列与核苷酸碱基判读进行比较来确定碱基判读错误类型。
现在将提供关于与描绘变异来源鉴定系统的示例实施方案和具体实施的说明性附图有关的变异来源鉴定系统的附加细节。例如,图1展示了其中变异来源鉴定系统106根据一个或多个实施方案工作的系统环境(或“环境”)100的示意图。如所示,环境100包括经由网络112连接到用户客户端设备108和测序设备114的一个或多个服务器设备102。虽然图1示出了变异来源鉴定系统106的一个实施方案,但是替代性的实施方案和配置也是可行的。
如图1中进一步所示,服务器设备102、用户客户端设备108和测序设备114经由网络112连接。环境100的每个部件可以经由网络112通信。网络112包括计算设备可在其上通信的任何合适的网络。下文结合图11更详细地讨论示例网络。
如图1中所示,环境100包括测序设备114。测序设备114包括用于对核酸聚合物或整个基因组进行测序的设备。在一些实施方案中,测序设备114分析样品以利用本文所述的计算机实现的方法和系统在测序设备114上直接或间接地生成数据。在一个或多个实施方案中,测序设备114利用边合成边测序(SBS)以对核酸聚合物测序。如图所示,在一些实施方案中,测序设备114绕过网络112并且直接与用户客户端设备108通信。
如图1进一步描绘的,环境100包括服务器设备102。服务器设备102可以生成、接收、分析、存储、接收和传输电子数据,诸如用于对核酸聚合物测序的数据。服务器设备102可以接收来自测序设备114的数据。例如,服务器设备102可以收集和/或接收测序数据,包括核苷酸碱基判读数据、质量数据,以及与测序核酸聚合物相关的其他数据。服务器设备102还可与用户客户端设备108通信。具体地,服务器设备102可以向用户客户端设备108发送核酸聚合物序列、错误数据和其他信息。在一些实施方案中,服务器设备102包括分布式服务器,其中服务器设备102包括跨网络112分布并且位于不同物理位置的许多服务器设备。服务器设备102可包括内容服务器、应用程序服务器、通信服务器、网络托管服务器或另一类型的服务器。
如图1中进一步所示,服务器设备102可包括测序系统104。一般来讲,测序系统104分析从测序设备114接收的测序数据,以确定核酸聚合物的核苷酸序列。例如,测序系统104可以从测序设备114接收原始数据(例如,用于核苷酸片段读段的碱基判读数据)并且确定样品的核酸序列。为了说明,测序系统104可以从测序设备114接收核苷酸片段读段,然后测序系统104从这些核苷酸片段读段生成针对基因组的核苷酸碱基判读。在一些实施方案中,测序系统104确定DNA和/或RNA中核碱基的序列。除了处理和确定核酸聚合物的序列之外,测序系统104还分析测序数据以检测单独的测序循环或多个测序循环中的不规则性。例如,测序系统104可以通过将参考基因组的核苷酸碱基判读与参考基因组的已知参考碱基进行比较来检测测序运行内的碱基判读错误。
如图1中所展示,测序系统104包括变异来源鉴定系统106。一般来讲,变异来源鉴定系统106分析来自测序设备114的数据,以确定与测序设备114相关联的测序运行故障来源。更具体地,在一些实施方案中,变异来源鉴定系统106确定由测序流水线生成的核苷酸碱基判读不同于参考基因组中的参考碱基的碱基判读错误率。变异来源鉴定系统106可以进一步从根据碱基判读错误类型分组的碱基判读错误率检测碱基判读错误模式。基于这些碱基判读错误模式,变异来源鉴定系统106可以鉴定用于一个或多个样品测序运行的样品碱基判读错误模式,这些样品测序运行利用对应于测序流水线的一个或多个测序流水线。基于碱基判读错误模式与样品碱基判读错误模式之间的相关性,变异来源鉴定系统106可以确定对应于测序流水线的碱基判读错误类型的故障来源。
图1中所展示的环境100还包括用户客户端设备108。用户客户端设备108可以生成、存储、接收和发送数字数据。具体地,用户客户端设备108可从测序设备114接收测序数据。此外,用户客户端设备108可以与服务器设备102通信以接收核苷酸碱基判读、核苷酸序列和测序运行内的不规则性报告,诸如指示核苷酸碱基判读中的错误的潜在故障来源的通知。用户客户端设备108可以向与用户客户端设备108相关联的用户呈现测序数据和故障来源的通知。
图1中示出的用户客户端设备108可包括各种类型的客户端设备。例如,在一些实施方案中,用户客户端设备108包括非移动设备,诸如台式计算机或服务器,或其他类型的客户端设备。在还有一些实施方案中,用户客户端设备108包括移动设备,诸如膝上型计算机、平板计算机、移动电话、智能电话等。关于用户客户端设备108的附加细节在下文关于图11进行讨论。
如图1中进一步所展示,用户客户端设备108包括测序应用程序110。测序应用程序110可以是用户客户端设备108上的网络应用程序或本机应用程序(例如,移动应用程序、桌面应用程序等)。测序应用程序110可以包括以下指令,这些指令(在被执行时)使得用户客户端设备108从变异来源鉴定系统106接收数据并且呈现测序数据。此外,测序应用程序110可以包括以下指令,这些指令(在被执行时)使得用户客户端设备108提供指示影响测序运行的潜在故障来源的通知。
如图1中进一步所展示,变异来源鉴定系统106可以作为测序应用程序110的一部分位于用户客户端设备108上。如图所展示,在一些实施方案中,变异来源鉴定系统106通过(例如,完全或部分地)位于用户客户端设备108上来实施。在还有其他实施方案中,变异来源鉴定系统106由环境100的一个或多个其他部件实施。具体地,变异来源鉴定系统106能够以多种不同的方式跨服务器设备102、用户客户端设备108和测序设备114实施。
尽管图1展示了经由网络112进行通信的环境100的部件,但是在一些实施方案中,环境100的这些部件绕过该网络直接与彼此通信。例如,并且如前所述,用户客户端设备108可直接与测序设备114通信。此外,用户客户端设备108可以绕过网络112直接与变异来源鉴定系统106通信。此外,变异来源鉴定系统106可以访问容纳在服务器设备102上或环境100中的其他位置的一个或多个数据库。
如先前所提及的,变异来源鉴定系统106可以确定对应于测序流水线的碱基判读错误类型的故障来源。以下附图和段落根据一些实施方案提供关于变异来源鉴定系统106如何确定一个或多个故障来源的附加细节。图2和相应段落根据一个或多个实施方案提供变异来源鉴定系统106作为确定故障来源的一部分执行的动作的一般概述。如图2中所示,变异来源鉴定系统106确定不正确的碱基判读,以及基于组合的不正确碱基判读的碱基判读错误模式。变异来源鉴定系统106进一步将碱基判读错误模式与样品碱基判读错误模式进行比较,以鉴定相应的样品碱基判读错误模式。基于相应的样品碱基判读错误模式,变异来源鉴定系统106可以确定故障来源。
如图2中所展示,系列动作200包括确定碱基判读错误率的动作202。具体地,变异来源鉴定系统106确定由测序流水线生成的核苷酸碱基判读不同于参考基因组中的参考碱基的碱基判读错误率。一般来讲,变异来源鉴定系统106确定由测序流水线生成的核苷酸碱基判读不同于参考基因组的已知参考碱基的错误率。在一些实施方案中,变异来源鉴定系统106将参考基因组的核苷酸碱基判读(如通过测序流水线从核苷酸片段读段确定的)与参考基因组的参考碱基进行比较。基于核苷酸碱基判读与参考碱基的比较,变异来源鉴定系统106鉴定由测序流水线生成的不正确的核苷酸碱基判读和正确的核苷酸碱基判读两者。例如,如图2中所展示,变异来源鉴定系统106可以确定测序系统错误地生成不正确的核苷酸碱基判读T而不是代表参考碱基的正确的核苷酸碱基判读A的情况。
变异来源鉴定系统106进一步确定不正确的碱基判读的错误率。在一些实施方案中,变异来源鉴定系统106确定测序流水线中的测序系统生成不正确的核苷酸碱基判读的实例的数量。例如,如图2中所展示,变异来源鉴定系统106确定测序流水线在6798个实例中正确地预测了核苷酸碱基判读A。相比之下,测序流水线在349个实例中将A碱基不正确地判读为T,在112个实例中将A碱基不正确地判读为C,并且在103个实例中将A碱基不正确地判读为G。如上文所提出的,在一些实施方案中,变异来源鉴定系统106进一步确定归一化的碱基判读错误率,以将碱基判读错误率标准化。
尽管图2展示了对A碱基的不正确的核苷酸碱基判读,但是变异来源鉴定系统106确定核苷酸序列内所有碱基的碱基判读错误率。图3和相应段落根据一个或多个实施方案提供关于确定碱基判读错误率的附加细节。
如图2中进一步所展示,变异来源鉴定系统106执行从碱基判读错误率检测一种或多种碱基判读错误模式的动作204。一般来讲,变异来源鉴定系统106对碱基判读错误率进行分组,然后基于这些分组的碱基判读错误率确定碱基判读错误模式。在一些实施方案中,例如,变异来源鉴定系统106根据碱基判读错误类型简单地将这些碱基判读错误模式分组。例如,变异来源鉴定系统106可以指定不正确的核苷酸碱基判读T代替A(例如,A->T)作为单碱基判读错误类型。除此之外,或替代性地,变异来源鉴定系统106通过不同的相邻核苷酸碱基来对碱基判读错误率进行分组。为了说明,对于碱基判读错误类型A->T,变异来源鉴定系统106可以基于相邻核苷酸碱基进一步区分这些分组。例如,A->T碱基判读错误类型可以侧接A和A(即,A_A)。
图2展示了代表用于测序流水线的碱基判读错误模式的三维图表。该三维图表代表通过碱基判读错误类型和相邻核苷酸碱基这两者分组的碱基判读错误率。如下文进一步描述,图4和相应的讨论根据一个或多个实施方案提供与检测碱基判读错误模式相关的附加细节。
图2还展示变异来源鉴定系统106执行鉴定用于一个或多个样品测序运行的一种或多种样品碱基判读错误模式的动作206。一般来讲,变异来源鉴定系统106鉴定落入与碱基判读错误模式具有阈值相似性的范围内的样品碱基判读错误模式。具体地,变异来源鉴定系统106使用样品测序运行生成样品碱基判读错误模式。变异来源鉴定系统106进一步利用与样品测序运行相关联的统计方法和制造数据来确定测序运行内变异的故障来源。例如,如图2中所展示,变异来源鉴定系统106确定样品碱基判读错误模式212在碱基判读错误模式210的阈值相似度内。
作为图2中所展示的系列动作200的一部分,变异来源鉴定系统106执行确定故障来源的动作208。基于碱基判读错误模式与样品碱基判读错误模式之间的相关性,变异来源鉴定系统106确定对应于测序流水线的碱基判读错误类型的故障来源。在一些实施方案中,变异来源鉴定系统106利用统计模型来确定贡献量度,这些贡献量度指示测序流水线材料促成来自测序流水线的碱基判读错误的概率。变异来源鉴定系统106可以进一步基于这些贡献量度来确定碱基判读错误类型的故障来源。
作为这种统计模型的一个示例,在一些实施方案中,变异来源鉴定系统106利用方差成分模型来确定促成可归因于测序流水线的碱基判读错误的测序流水线材料的可分配原因变异。图6A至图6C和相应段落提供关于变异来源鉴定系统106确定对应于测序流水线的碱基判读错误类型的故障来源的附加细节。
图2提供变异来源鉴定系统106执行以确定对应于测序流水线的一个或多个故障来源的动作的一般概述。以下附图和段落提供关于图2中所展示的系列动作内的多个动作的附加细节。例如,图3和相应段落根据一个或多个实施方案提供与变异来源鉴定系统106确定碱基判读错误率相关的附加细节。
如图3中所展示,变异来源鉴定系统106利用测序设备306生成参考基因组302的核苷酸片段读段308。变异来源鉴定系统106进一步利用测序系统310(例如,测序系统104)基于核苷酸片段读段308生成核苷酸碱基判读312。变异来源鉴定系统106生成并利用混淆矩阵314来将核苷酸碱基判读312与参考基因组302的参考碱基304进行比较。变异来源鉴定系统106通过执行将错误率归一化的动作322以生成归一化错误率324,来进一步处理由混淆矩阵314输出的混淆矩阵数据320。
如图3中进一步所展示,变异来源鉴定系统106利用包含参考碱基304的参考基因组302来生成核苷酸碱基判读312。一般来讲,参考基因组302包含参考碱基304的已知序列。变异来源鉴定系统106利用参考基因组302作为对照,通过该对照来测量核苷酸碱基判读的准确性。例如,在一些实施方案中,参考基因组302包括PhiX基因组。PhiX是具有单链DNA的二十面体无尾噬菌体。在一些实施方案中,变异来源鉴定系统106利用其他对照基因组作为参考基因组302。例如,参考基因组302可以包含刺突基因组DNA,或者表现出或模拟诱变的突变序列。
如图3中进一步所展示,变异来源鉴定系统106利用测序设备306和测序系统310来生成参考基因组302的核苷酸碱基判读312。一般来讲,测序设备306生成核苷酸片段读段308,其指示来自参考基因组302内的各种片段的序列。测序系统310将核苷酸片段读段308与参考基因组302进行比对,以生成核苷酸碱基判读312。因为核苷酸片段读段308可能包括不正确的核苷酸碱基判读,所以核苷酸片段读段308可能无法与参考基因组302很好地比对。例如,来自核苷酸片段读段308的多个核苷酸碱基判读可能与参考基因组302不匹配,因而导致映射质量量度低于阈值量度(例如,低于相对MAPQ得分或低于MAPQ 40)。类似地,因为测序设备306或测序流水线的其他部分包括有缺陷的部分、试剂或软件,所以测序系统104可能生成不正确的核苷酸碱基判读作为核苷酸碱基判读312的一部分。
如图3中进一步所展示,变异来源鉴定系统106利用混淆矩阵314来检测核苷酸碱基判读312内的错误。一般来讲,混淆矩阵314评价测序设备306和测序系统310的性能。在一些实施方案中,混淆矩阵314包括如图3中所展示的表格。该表格包括用于预测的碱基判读316和实际碱基318的不同类别。预测的碱基判读316表示来自核苷酸碱基判读312的碱基判读。实际碱基318表示已知的参考碱基304。
变异来源鉴定系统106通过为其中测序流水线正确地预测核苷酸碱基判读的每个实例生成计数来利用混淆矩阵314。变异来源鉴定系统106还利用混淆矩阵314来提供关于不正确的核苷酸碱基判读的细节。例如,变异来源鉴定系统106可以利用混淆矩阵314来指示实际碱基和不正确的核苷酸碱基判读。例如,变异来源鉴定系统106利用混淆矩阵314确定其中测序流水线确定对实际A碱基的不正确C碱基判读的单个实例。
如上文所提出的,变异来源鉴定系统106利用混淆矩阵314来生成混淆矩阵数据320。混淆矩阵数据320指示其中测序流水线生成正确和不正确的核苷酸碱基判读的实例的数量。混淆矩阵314中的数字指示测序系统310生成正确或不正确的核苷酸碱基判读的实例的数量。
例如,混淆矩阵314指示测序系统310在87个实例中正确地鉴定A碱基,在88个实例中正确地鉴定T碱基,在85个实例中正确地鉴定G碱基,并且在79个实例中正确地鉴定C碱基。相比之下,变异来源鉴定系统106利用混淆矩阵314来确定对于实际的碱基T,测序系统310在三个实例中生成了不正确的A碱基判读。类似地,变异来源鉴定系统106鉴定一个A->C判读、一个T->G判读、两个G->C判读和四个C->T判读。图3中所展示的混淆矩阵数据320包括专门用于实际A碱基的混淆矩阵数据。
在一些实施方案中,如图3中所展示,变异来源鉴定系统106执行将错误率归一化的动作322。通过执行动作322,变异来源鉴定系统106可以准确地将一个测序运行的结果与另一个测序运行的结果进行比较,而不管核苷酸碱基判读的数量是多少。变异来源鉴定系统106可以利用不同的归一化方法来执行动作322。例如,在一些实施方案中,变异来源鉴定系统106通过将具体错误实例的数目除以对应的正确核苷酸碱基判读实例的数目来执行动作322。
为了说明这种归一化,图3中所展示的变异来源鉴定系统106通过将A->C错误判读实例的数目除以A->A正确判读实例的数目来计算归一化的错误百分比。在该示例中,变异来源鉴定系统106将1(A->C错误)除以87(A->A正确判读)。在其他实施方案中,变异来源鉴定系统106利用不同的归一化方法,诸如缩放至范围、对数缩放,以及其他方法来执行将错误率归一化的动作322。
图3进一步展示了归一化的错误率324。变异来源鉴定系统106根据上述方法将每个具体错误归一化。一般来讲,如图3中所展示,测序循环内的错误率往往是核苷酸特异性的。变异来源鉴定系统106通过基于实际核苷酸碱基和不正确的核苷酸碱基确定归一化错误率来考虑错误率的核苷酸特异性。例如,如图3中所展示,A->T错误比其他碱基判读错误类型对总错误率的贡献更大。
此外,在一些实施方案中,变异来源鉴定系统106针对每个测序循环对错误率进行归一化。图3中所展示的图表显示了在所有测序循环中每种碱基判读错误类型的归一化错误率。例如,变异来源鉴定系统106确定在测序循环150与200之间,A->T碱基判读错误类型显著增加。
图3和相应段落根据一个或多个实施方案描述变异来源鉴定系统106通过生成归一化错误率来确定碱基判读错误率。如先前所提及的,变异来源鉴定系统106可以进一步从根据碱基判读错误类型分组的碱基判读错误率检测碱基判读错误模式。图4和相应的讨论根据一个或多个实施方案提供关于变异来源鉴定系统106检测碱基判读错误模式的附加细节。如图4中所示,变异来源鉴定系统106针对每个不正确的核苷酸碱基判读确定碱基判读错误类型和相邻核苷酸碱基。变异来源鉴定系统106进一步根据相邻核苷酸碱基和碱基判读错误类型对不正确的核苷酸碱基判读进行分组,然后基于这些分组的不正确的核苷酸碱基判读来检测碱基判读错误模式。
如图4中所展示,系列动作400包括确定根据碱基判读错误类型和不同的相邻核苷酸碱基分组的碱基判读错误率的动作402。如先前所提及的,诸如A->T之类的具体碱基判读错误类型可能比其他碱基判读错误类型对总错误率的贡献更大。此外,尽管混淆矩阵数据可能显示特定的碱基判读错误类型具有更高的错误率,但旁侧核苷酸也可能对总错误率做出主要贡献。一般来讲,变异来源鉴定系统106确定碱基判读错误率的组,然后基于所确定的组来确定碱基判读错误模式。如先前所提及的,碱基判读错误类型可以包括确定不正确的核苷酸碱基判读的具体类型,而不是正确的核苷酸碱基判读的规范类型。例如,变异来源鉴定系统106确定碱基判读错误类型为A->T,指示对于实际碱基A,不正确的核苷酸碱基判读为T。变异来源鉴定系统106确定每个不正确的核苷酸碱基判读的碱基判读错误类型,然后根据碱基判读错误类型对碱基判读错误率进行分组。
除此之外,或替代性地,变异来源鉴定系统106根据不同的相邻核苷酸碱基对碱基判读错误率进行分组。具体地,变异来源鉴定系统106确定可能的旁侧上游和下游核苷酸碱基的每种组合的组。在一些实施方案中,变异来源鉴定系统106基于单个上游相邻核苷酸碱基和单个下游相邻核苷酸碱基来确定这些组。例如,如图4中所展示,变异来源鉴定系统106可以确定包括侧接上游T和下游T的不正确核苷酸碱基判读(即,T_T)的组。在一个示例中,变异来源鉴定系统106独立于碱基判读错误类型基于相邻核苷酸碱基来确定这些组。在其他实施方案中,变异来源鉴定系统106基于碱基判读错误类型和相邻核苷酸碱基这两者的组合来确定这些组。
为了说明,变异来源鉴定系统106可以根据相邻核苷酸碱基将特定碱基判读错误类型的碱基判读错误率分配给这些组。例如,变异来源鉴定系统106根据相邻的核苷酸碱基对A->T碱基判读错误类型的碱基判读错误率进行分组。通过根据碱基判读错误类型和不同的相邻核苷酸碱基这两者对碱基判读错误率进行分组,变异来源鉴定系统106生成更详细的碱基判读错误率组。
虽然图4展示了根据两个相邻核苷酸碱基(一个上游碱基和一个下游碱基)对碱基判读错误率进行分组,但是变异来源鉴定系统106可以根据更多的相邻核苷酸碱基对碱基判读错误率进行分组。例如,变异来源鉴定系统106可以通过考虑四个相邻核苷酸碱基(例如,两个上游碱基和两个下游碱基)、六个相邻核苷酸碱基(例如,三个上游碱基和三个下游碱基)或更多相邻核苷酸碱基来描绘更多的组。
如图4中进一步所展示,变异来源鉴定系统106执行从分组的碱基判读错误率检测碱基判读错误模式的动作404。一般来讲,碱基判读错误模式包括一起移动或发生的一组归一化核苷酸特异性错误。更具体地,变异来源鉴定系统106跟踪哪些碱基判读错误率组彼此一致地增加。例如,在一个或多个实施方案中,变异来源鉴定系统106简单地使用根据碱基判读错误类型和/或相邻核苷酸碱基来分组的归一化错误率作为碱基判读错误模式。
图4中展示的三维图表代表示例的碱基判读错误模式。如图所展示,变异来源鉴定系统106在侧接T_A时的C->A分组中,以及在侧接C_T时的A->C分组中,鉴定出更大数量的碱基判读错误率或单核苷酸变体(SNV)。
在一些实施方案中,变异来源鉴定系统106确定阈值误差值,用于将碱基判读错误率计数为碱基判读错误模式的一部分。一般来讲,测序运行受到基线误差的影响。在一些示例中,变异来源鉴定系统106通过利用阈值误差值来确定在其碱基判读错误模式的检测中忽略基线误差。具体地,在一些实施方案中,变异来源鉴定系统106利用预期基线误差来确定阈值误差值。变异来源鉴定系统106通过利用来自测序系统的质量数据或其他误差预测方法,基于用户输入确定预期基线误差。
在一个或多个示例中,变异来源鉴定系统106通过确定预期基线误差的放大率来确定阈值误差值。例如,在至少一个实施方案中,变异来源鉴定系统106确定阈值误差值是预期基线误差的2倍。在一些实施方案中,变异来源鉴定系统106在所有组的碱基判读错误率上利用相同的阈值误差值。例如,变异来源鉴定系统106确定预期基线误差率为0.1%,因此将阈值误差值设置为0.2%误差率。因此,当检测到碱基判读错误模式时,变异来源鉴定系统106忽略低于0.2%的碱基判读错误率。在一些实施方案中,变异来源鉴定系统106利用不同放大率的预期基线误差作为阈值误差值。例如,变异来源鉴定系统106可以将预期基线误差放大2.5倍、3倍等,以确定阈值误差值。在一些实施方案中,变异来源鉴定系统106基于对参考基因组(诸如PhiX)测序的历史测序运行来预先确定预期基线误差率。
在一些实施方案中,变异来源鉴定系统106确定对应于每组碱基判读错误率的多个阈值错误率。变异来源鉴定系统106确定每组碱基判读错误率的预期基线误差。例如,变异来源鉴定系统106可以确定每种碱基判读错误类型的预期基线误差。除此之外,或替代性地,变异来源鉴定系统106可以确定不同的相邻核苷酸碱基的预期基线误差。为了说明,变异来源鉴定系统106可以确定A->T的基线误差率等于0.1%,而T->C的基线误差率等于0.05%。因此,变异来源鉴定系统106确定A->T的阈值误差值等于0.2%(0.1%×2),T->C的阈值误差值等于0.1%(0.05%×2)。如所提及的,变异来源鉴定系统106可以确定相邻核苷酸碱基组或者碱基判读错误类型与相邻核苷酸碱基的组合的附加阈值误差值。
图4展示根据一个或多个实施方案的变异来源鉴定系统106检测碱基判读错误模式。如所提及的,变异来源鉴定系统106鉴定与碱基判读错误模式相关的样品碱基判读错误模式。样品碱基判读错误模式来自具有已知制造数据的样品测序运行。在一些实施方案中,通过分析样品测序运行和制造数据,变异来源鉴定系统106可以预测与样品测序运行对应的故障来源。
图5和相应的讨论根据一个或多个实施方案描述变异来源鉴定系统106鉴定用于一个或多个样品测序运行的样品碱基判读错误模式。如图5中所展示,变异来源鉴定系统106执行鉴定用于一个或多个样品测序运行的样品碱基判读错误模式的动作500。具体地,变异来源鉴定系统106鉴定用于一个或多个样品测序运行的样品碱基判读错误模式,这些样品测序运行利用对应于测序流水线的一个或多个测序流水线。更具体地,变异来源鉴定系统106搜索对应于特定测序流水线的样品碱基判读错误模式。例如,如果变异来源鉴定系统106确定碱基判读错误率是由第一样品测序流水线利用测序设备的模型x和耗材产品的系列y生成的,则变异来源鉴定系统106利用测序设备的模型x(或类似模型)和耗材产品的系列y(或类似模型)从样品测序运行鉴定一种或多种样品碱基判读错误模式。为了说明,为了鉴定这样的样品碱基判读错误模式,变异来源鉴定系统106执行一系列动作,包括对利用类似制造材料的样品测序运行集合进行分类的动作508、检测样品测序运行集合的不同样品碱基判读错误模式的动作510,以及基于碱基判读错误模式与样品碱基判读错误模式之间的相关性来鉴定样品碱基判读错误模式的动作512。
图5展示变异来源鉴定系统106执行对利用类似制造材料的样品测序运行集合进行分类的动作508。一般来讲,作为在样品测序运行内鉴定故障来源的一部分,变异来源鉴定系统106定义具有类似制造材料的样品测序运行的集合。如所提及的,变异来源鉴定系统106可以鉴定测序流水线内的各种类型的故障来源,包括硬件、化学和软件。硬件既需要组成测序设备的装备,还需要测序设备在测序期间利用的一些耗材,诸如核苷酸样品载片(例如,流动池)。化学包括试剂,试剂之间或耗材与试剂之间,以及试剂与测序设备的硬件部件之间的相互作用。软件包括由测序流水线利用的程序和操作信息。例如,软件可以包括序列分析软件,诸如由Illumina,Inc.提供的DRAGEN。
在一些实施方案中,变异来源鉴定系统106鉴定利用类似耗材的样品测序运行集合。例如,如图5中所展示,变异来源鉴定系统106限定样品测序运行的集合502与样品测序运行的集合504。如图所展示,集合502包括利用来自批次1的试剂A的样品测序运行,而集合504包括利用来自批次2的试剂A的样品测序运行。虽然图5展示变异来源鉴定系统106基于试剂对集合进行分类,但是该变异来源鉴定系统106可以基于利用类似装备或软件的样品测序运行对集合进行分类。
作为对集合进行分类的一部分,该变异来源鉴定系统可以将单个样品测序运行分配给几个集合。例如,变异来源鉴定系统106可以基于确定特定的样品测序运行利用来自批次1的试剂A,而将该特定的样品测序运行分配给集合502。变异来源鉴定系统106可以进一步基于特定的样品测序运行利用来自特定批次的核苷酸样品载片,将该特定的样品测序运行分配给第二集合。
如图5中进一步所展示,变异来源鉴定系统106执行检测样品测序运行集合的不同样品碱基判读错误模式的动作510。一般来讲,变异来源鉴定系统106执行与图3至图4中描绘的那些动作类似的动作,以检测用于样品测序运行集合的不同样品碱基判读错误模式。在一些实施方案中,变异来源鉴定系统106为一组样品测序运行内的每个样品测序运行生成样品碱基判读错误模式,然后将这些样品碱基判读错误模式进行聚集。在一些实施方案中,变异来源鉴定系统106可以在一组样品测序运行内的多个样品测序运行上确定有统计学显著性的样品错误率。
例如,如图5中所展示,变异来源鉴定系统106确定集合502与集合504的样品碱基判读错误模式。图5展示变异来源鉴定系统106生成的样品碱基判读错误模式基于碱基判读错误类型将样品碱基判读错误率分组。在一些实施方案中,变异来源鉴定系统106基于碱基判读错误类型和/或相邻核苷酸碱基将样品碱基判读错误率分组。图6A和相应的讨论提供了与检测样品测序运行集合的不同样品碱基判读错误模式相关的附加细节。
如图5中进一步所展示,变异来源鉴定系统106基于碱基判读错误模式与样品碱基判读错误模式之间的相关性来执行鉴定样品碱基判读错误模式的动作512。具体地,动作512包括基于碱基判读错误模式与样品碱基判读错误模式之间的相关性从样品测序运行集合的不同样品碱基判读错误模式之中鉴定样品碱基判读错误模式。在一些实施方案中,变异来源鉴定系统106鉴定与碱基判读错误模式相同的样品碱基判读错误模式。在一些实施方案中,变异来源鉴定系统106鉴定类似于碱基判读错误模式的一个或多个样品碱基判读错误模式。
为了说明,在图5中,变异来源鉴定系统106用碱基判读错误模式514鉴定集合502与集合504之间的相似性。例如,变异来源鉴定系统106检测集合502以包括升高的A->T错误百分比,并且检测集合504以包括与碱基判读错误模式514的升高的A->T和T->C错误百分比相对应的升高的T->C错误百分比。
尽管图5展示了变异来源鉴定系统106对样品测序运行集合的碱基判读错误模式进行比较,但是在一些实施方案中,变异来源鉴定系统106将碱基判读错误模式514与故障特异性样品碱基判读错误模式或单独的样品碱基判读错误模式进行比较。具体地,为了确定故障特定的样品碱基判读错误模式,变异来源鉴定系统106生成对应于单个故障模式的样品碱基判读错误模式。具体地,在一些实施方案中,变异来源鉴定系统106鉴定随着特定故障来源而增加的故障特定的样品碱基判读错误率。例如,变异来源鉴定系统106可以确定以T_T作为相邻核苷酸碱基的A->C碱基判读错误类型的样品碱基判读错误率的增加与流动池批次问题直接相关。在一些实施方案中,变异来源鉴定系统106通过利用下文在对应于图6A的段落中另外详细描述的统计模型来生成故障特异性样品碱基判读错误模式。
因此,作为对从样品测序运行集合中鉴定对应于碱基判读错误模式514的样品碱基判读错误模式的补充或替代,变异来源鉴定系统106鉴定对应于碱基判读错误模式514的一种或多种故障特异性样品碱基判读错误模式。例如,基于确定碱基判读错误模式514包括A->T碱基判读错误率的错误百分比升高,变异来源鉴定系统106鉴定对应的A->T故障特异性样品碱基判读错误模式。类似地,变异来源鉴定系统106可以鉴定第二故障特异性样品碱基判读错误模式,其包括与碱基判读错误模式514内的升高的T->C和G->C碱基判读错误率相对应的升高的T->C和G->C错误百分比的组合。
在一些实施方案中,变异来源鉴定系统106鉴定对应于碱基判读错误模式514的单个样品碱基判读错误模式。具体地,变异来源鉴定系统106选择对应于碱基判读错误模式514的单独的碱基判读错误模式,而不是将用于样品测序运行的样品碱基判读错误模式聚集在集合内。
在一个或多个实施方案中,变异来源鉴定系统106通过利用机器学习模型鉴定类似于碱基判读错误模式514的样品碱基判读错误模式,基于碱基判读错误模式与样品碱基判读错误模式之间的相关性来执行鉴定样品碱基判读错误模式的动作512。例如,变异来源鉴定系统106可以利用聚类算法,诸如K均值聚类、多变量k均值聚类或其他类型的聚类算法。在一个示例中,变异来源鉴定系统106利用样品碱基判读错误模式来训练聚类算法。具体地,变异来源鉴定系统106可以利用样品碱基判读错误模式来预测哪些样品测序运行导致类似的样品故障来源。变异来源鉴定系统106将受过训练的聚类算法应用于碱基判读错误模式,以鉴定哪个或哪些样品碱基判读错误模式最类似于该碱基判读错误模式。
在一些实施方案中,变异来源鉴定系统106利用用户输入来进一步训练上述机器学习模型。例如,变异来源鉴定系统106可以提供确认预测的故障来源的选项来显示给用户。基于来自客户端设备的将预测的故障来源确认为故障来源的数据指示,变异来源鉴定系统106可以进一步验证与该故障来源相关联的概率。相比之下,基于接收到对预测的故障来源的否认,变异来源鉴定系统106可以调整机器学习模型的参数以在将来提供更准确的预测(例如,贡献量度)。
在一些实施方案中,如图5中所展示,变异来源鉴定系统106鉴定用于一个或多个样品测序运行的现有样品碱基判读错误模式。具体地,变异来源鉴定系统106可以从样品碱基判读错误模式储存库中鉴定与该碱基判读错误模式相同或相似的现有样品碱基判读错误模式。更具体地,变异来源鉴定系统106可以利用上述聚类算法从碱基判读错误模式储存库中确定类似的现有样品碱基判读错误模式。例如,变异来源鉴定系统106可以确定碱基判读错误模式指示具有C_G相邻核苷酸的C->G碱基判读错误类型和具有A_T相邻核苷酸的A->T碱基判读错误类型的错误率升高。变异来源鉴定系统106可以鉴定第一种现有样品碱基判读错误模式和第二种现有样品碱基判读错误模式,在前一种模式中,具有C_G相邻核苷酸的C->G碱基判读错误类型具有相同的升高错误率,在后一种模式中,具有A_T相邻核苷酸的A->T碱基判读错误类型具有相似的升高错误率。因此,具有A_T相邻核苷酸的A->T碱基判读错误类型确定了碱基判读错误模式与第一和第二现有样品碱基判读错误模式之间的相关性。
作为执行基于碱基判读错误模式与样品碱基判读错误模式之间的相关性来鉴定样品碱基判读错误模式的动作512的一部分,在一些情况下,变异来源鉴定系统106过滤掉不与碱基判读错误模式相关的样品碱基判读错误模式。例如,在一些实施方案中,基于确定碱基判读错误模式对应于一种或多种样品碱基判读错误模式,变异来源鉴定系统106过滤掉不与一种或多种样品碱基判读错误模式对应的一组不相似的样品碱基判读错误模式。通过排除不相似的样品碱基判读错误模式,变异来源鉴定系统106可以分析剩余的样品碱基判读错误模式以获得与正在考虑的碱基判读错误模式的最佳对应或匹配。
除此之外,或替代性地,变异来源鉴定系统106检测用于一个或多个样品测序运行的新的样品碱基判读错误模式。具体地,在一些实施方案中,变异来源鉴定系统106确定碱基判读错误模式不与现有样品碱基判读错误模式对应。在此类情况下,变异来源鉴定系统106可以基于碱基判读错误模式鉴定新的样品碱基判读错误模式。例如,变异来源鉴定系统106可以指定该碱基判读错误模式作为新的样品碱基判读错误模式,并且利用统计模型来分析具有对应于该新的样品碱基判读错误模式的制造数据的该新的样品碱基判读错误模式。在其他实施方案中,变异来源鉴定系统106通过聚集类似于该碱基判读错误模式的样品碱基判读错误模式的组合来检测该新的样品碱基判读错误模式。
一般来讲,如前所述,变异来源鉴定系统106确定一种或多种样品碱基判读错误模式与碱基判读错误模式之间的相关性。变异来源鉴定系统106进一步通过鉴定对应于一种或多种样品碱基判读错误模式的故障来源,来鉴定碱基判读错误模式的故障来源。虽然图5和相应段落描述变异来源鉴定系统106鉴定对应于碱基判读错误模式的一种或多种样品碱基判读错误模式,但是图6A至图6C和相应的讨论描述变异来源鉴定系统106确定样品碱基判读错误模式与故障来源之间的相关性。如所提及的,变异来源鉴定系统106确定贡献量度,这些贡献量度指示测序流水线材料促成来自测序流水线的碱基判读错误的概率。
图6A至图6C和相应段落根据一个或多个实施方案提供关于变异来源鉴定系统106确定对应于样品碱基判读错误模式和/或碱基判读错误模式的故障来源的细节。一般来讲,图6A至图6C展示了变异来源鉴定系统106利用统计模型614处理以确定贡献量度622的输入,这些贡献量度指示测序流水线材料620促成来自测序流水线的碱基判读错误的概率。作为概述,变异来源鉴定系统106利用统计模型614来处理样品测序数据616和制造数据618。
如图6A中所示,变异来源鉴定系统106处理样品测序数据616以用作统计模型614的输入。具体地,图6A展示了用于处理样品测序数据616的几个动作,包括聚集样品核苷酸片段读段的动作602、确定归一化样品错误率的动作604,以及根据碱基判读错误类型和不同的相邻核苷酸碱基对归一化样品错误率进行分组的动作608。图6A进一步展示用于处理制造数据618的几个动作。具体地,变异来源鉴定系统106执行截短制造鉴定数据的动作610,以及通过将阈值数量的测序运行分组来生成一组测序运行的动作612。
如上文所指示,变异来源鉴定系统106可以利用测序设备来生成参考基因组的样品核苷酸碱基判读。在一些实施方案中,在执行聚集样品核苷酸片段读段的动作602之前,变异来源鉴定系统106执行附加的预处理动作以改善样品测序数据616的质量。例如,变异来源鉴定系统106可以执行鉴定经过的样品测序运行的附加动作,以及除去比对错误的附加动作。在一些实施方案中,样品测序运行是质量保证措施的一部分,用于确保测序设备执行阈值错误标准。因此,来自特定测序设备的一些样品测序运行包含超过阈值错误标准的错误率。因此,在一些实施方案中,变异来源鉴定系统106除去未经过的样品测序运行,以提供正常测序变异的更现实的表示。
作为执行聚集样品核苷酸片段读段的动作602的一部分,在一些实施方案中,变异来源鉴定系统106处理来自变体判读文件(诸如变体判读格式(VCF)文件)的数据。一般来讲,变体判读文件包含关于在参考基因组中的具体位置或基因组坐标处发现的变体的信息。因此,作为执行动作602的一部分,变异来源鉴定系统106针对每个测序运行聚集用于正向读段1(R1F)、反向读段1(R1R)、正向读段2(R2F)和反向读段2(R2R)的VCF数据。聚集的VCF数据可以提供正常测序变异的表示。通过聚集用于各种读段的VCF数据,在一些情况下,变异来源鉴定系统106生成用于聚集的读段1(R1)和聚集的读段2(R2)的VCF数据。
除此之外,如先前所提及的,变异来源鉴定系统106有时执行除去样品测序数据616内的比对错误的附加预处理步骤。具体地,变异来源鉴定系统106能够鉴定以高于阈值变体频率的频率出现的比对错误,然后将这些鉴定的比对错误除去。例如,基于确定比对错误的出现频率高于60%阈值变体频率,变异来源鉴定系统106将参考基因组比对错误除去。
如图6A中进一步所展示,变异来源鉴定系统106执行聚集样品核苷酸片段读段的动作602。一般来讲,变异来源鉴定系统106聚集来自单个测序运行的多个读段,以合并样品测序数据。具体地,测序系统通常从提取自参考基因组的寡核苷酸确定数千个至数百万个核苷酸片段读段。此外,测序系统还可以确定正向和反向的核苷酸片段读段。例如,在一些实施方案中,测序系统为每个样品测序运行生成R1F、R1R、R2F和R2R。
在确定核苷酸片段读段之后,变异来源鉴定系统106将核苷酸片段读段与参考基因组比对。更具体地,变异来源鉴定系统106将R1F读段和R2F读段与参考基因组的正向部分比对,变异来源鉴定系统106还将R1R读段和R2R读段与参考基因组的反向互补序列比对。在一些实施方案中,变异来源鉴定系统106将正向读段和反向读段组合,以进一步简化数据。
如图6A所提出的,在将这些核苷酸片段读段比对之后,变异来源鉴定系统106分析这些经比对的核苷酸片段读段以确定样品核苷酸碱基判读。变异来源鉴定系统106可以进一步将样品核苷酸碱基判读与参考基因组的参考碱基进行比较,以鉴定正确和不正确的样品核苷酸碱基判读。例如,在一些实施方案中,变异来源鉴定系统106利用图3中所展示的混淆矩阵来确定样品核苷酸特异性错误率。
如图6A中进一步所展示,变异来源鉴定系统106执行确定归一化样品错误率的动作604。一般来讲,变异来源鉴定系统106可以利用混淆矩阵来生成样品碱基判读错误率。变异来源鉴定系统106以与如上文关于图3所描述的变异来源鉴定系统106如何将碱基判读错误率归一化类似的方式对样品碱基判读错误率进行归一化。在一些具体实施中,变异来源鉴定系统106确定错误百分比等于具体错误的计数除以正确判读的计数。与上文解释变异来源鉴定系统106如何将碱基判读错误率归一化的公开内容一致,变异来源鉴定系统106可以确定特定碱基判读错误类型和/或相邻核苷酸碱基的归一化样品碱基判读错误率。
如图6A中进一步所示,在执行确定归一化样品错误率的动作604之后,变异来源鉴定系统106执行根据碱基判读错误类型和不同的相邻核苷酸碱基对归一化样品错误率进行分组的动作608。具体地,变异来源鉴定系统106通过以与如上文关于图4所描述的变异来源鉴定系统106如何将归一化碱基判读错误率分组类似的方式对归一化样品错误率进行分组,来生成样品碱基判读错误模式。在一个或多个实施方案中,变异来源鉴定系统106利用样品碱基判读错误模式作为进入统计模型614的输入。
图6A展示了变异来源鉴定系统106预处理和处理样品测序数据616以供统计模型614分析的一系列示例动作。具体地,图6A展示了利用归一化样品错误率和样品错误率组作为统计模型614的输入。除此之外,或替代性地,变异来源鉴定系统106利用其他样品测序数据作为进入统计模型614的输入。为了说明,在一些实施方案中,变异来源鉴定系统106可以访问测序运行错误率、质量得分、比对量度、读段深度,以及从测序流水线获得的其他主要或次要量度。
如图6A中进一步所展示,变异来源鉴定系统106利用统计模型614来分析制造数据618。一般来讲,变异来源鉴定系统106处理制造数据618以鉴定利用类似制造材料、其他硬件、化学和/或软件的样品测序运行集合。制造数据通常包括指示测序运行中使用的材料、硬件、化学和/或软件的身份和各种性质的数据。具体地,制造数据可以包括与一件硬件、耗材或软件相关联的通用目的、身份、制造编号或其他鉴定信息。例如,制造数据可以包括与试剂、零件或软件版本相关联的批号或者生产或发布日期。在一些实施方案中,变异来源鉴定系统106通过执行截短制造鉴定数据的动作610和凭借将阈值数量的测序运行分组来生成一组测序运行的动作612来处理制造数据618。
在一些实施方案中,如图6A中所展示,变异来源鉴定系统106执行截短制造鉴定数据的动作610。在许多情况下,故障来源局限于来自相同或相似批次的制造材料,或者在相同或相似时间表内生产的制造材料。例如,在一种制造材料中明显的生产错误可能影响到来自相同生产批次的类似制造材料。变异来源鉴定系统106鉴定类似制造材料的一种方法是通过执行截短制造鉴定数据的动作610。制造鉴定数据可以包括条形码ID或其他制造鉴定码。如图所展示,变异来源鉴定系统106可以将七位制造鉴定编号截短为四位截短制造ID。
如图6A中进一步所展示,变异来源鉴定系统106通过对阈值数量的测序运行进行分组来执行生成一组测序运行的动作612。具体地,变异来源鉴定系统106通过对共用相同的截短制造鉴定数据的阈值数量的测序运行进行分组来生成一组测序运行,从而执行动作612。如图所展示,变异来源鉴定系统106基于与制造鉴定编号1234567、1234566、1234565和1234564对应的测序运行共用相同的截短制造鉴定数据1234,来对这些测序运行进行分组。在一些实施方案中,变异来源鉴定系统106还设定待分配给测序运行集合的测序运行目标百分比。例如,变异来源鉴定系统106能够以将至少80%的测序运行分组为包含至少十个或更多个测序运行的集合为目标。
图6A展示根据一个或多个实施方案的变异来源鉴定系统106执行用于处理制造数据618的特定系列动作。变异来源鉴定系统106可以利用附加方法或替代方法来处理制造数据618,以便进入统计模型614中。例如,代替利用制造鉴定数据,变异来源鉴定系统106可以通过供应商、硬件类型或鉴定、软件类型或鉴定,或者化学类型或鉴定来生成样品测序运行集合。
如图6A中所展示,变异来源鉴定系统106利用统计模型614来分析样品测序数据616和制造数据618。具体地,变异来源鉴定系统106利用统计模型614来确定贡献量度,这些贡献量度指示测序流水线材料促成来自测序流水线的碱基判读错误的概率。在至少一个实施方案中,统计模型614包括方差成分模型。变异来源鉴定系统106利用该方差成分模型来生成测序流水线材料促成碱基判读错误的可分配原因变异百分比。具体地,变异来源鉴定系统106可以利用该方差成分模型来确定指示给定测序流水线材料是变异来源或其他故障来源的概率的百分比。
除此之外,或替代性地,统计模型614包括其他类型的统计模型或算法。例如,在一个或多个实施方案中,统计模型614包括针对连续数据的边界值分析和等价类划分测试。更具体地,变异来源鉴定系统106可以利用完整的制造鉴定数据,而不是将制造鉴定数据截短。变异来源鉴定系统106基于未截短的制造鉴定数据,利用等价类划分测试来鉴定具有类似样品测序数据的等价类划分或等价测序运行组。在一些实施方案中,变异来源鉴定系统106进一步利用边界分析测试来测试等价类划分之间的边界。
如图6A中进一步所展示,变异来源鉴定系统106利用统计模型614来分析样品测序数据616以及与样品测序数据616相关联的制造数据618。在一个或多个实施方案中,变异来源鉴定系统106利用统计模型614来分析任何其他测序数据。例如,在一些实施方案中,样品测序数据616代表内部质量测试数据,对于该测试数据,制造数据618是受控的或已知的。变异来源鉴定系统106还可以收集不是样品测序数据的测序数据。例如,在一些实施方案中,变异来源鉴定系统106利用测序设备收集测序数据连同每次测序运行的制造数据。
图6B展示了由变异来源鉴定系统106利用统计模型614生成的示例输出。具体地,图6B展示了指示测序流水线材料620促成来自测序流水线的碱基判读错误的概率的示例贡献量度622。更具体地,图6B展示了由变异来源鉴定系统106为促成碱基判读错误的测序流水线材料生成的可分配原因变异百分比。在一些实施方案中,变异来源鉴定系统106通过利用方差成分模型来生成可分配原因变异百分比。一般来讲,可分配原因变异百分比表示给定测序流水线材料作为特定碱基判读错误类型的原因的概率。例如,对于具有相邻核苷酸C_T的错误类型G->A,变异来源鉴定系统106确定成簇试剂HCXE2以及LDR(连接酶检测反应)对变性剂有影响。图6B所展示图表中的每个柱条显示特定核苷酸的特异性驱动子连同其相邻核苷酸一起改变的概率。
图6B中所展示的测序流水线材料620指示对测序流水线有贡献的各种部件。例如,测序流水线材料620可以包括耗材产品、测序机器部件,或者核苷酸样品载片的部件。在一些实施方案中,测序流水线材料620包括附加部件。一般来讲,测序流水线材料620可以包括对测序流水线有贡献的硬件、化学或软件的任何部分。
如所提及的,变异来源鉴定系统106可以生成用于测序流水线材料的可分配原因变异百分比。在一些实施方案中,变异来源鉴定系统106基于可分配原因变异百分比生成排序列表。例如,变异来源鉴定系统106将测序流水线材料按可分配原因的最高百分比到最低百分比的顺序排列。因此,该排列指示何种测序流水线材料针对错误偏移最可能具有显著相关性。此外,变异来源鉴定系统106可以基于所生成的可分配原因变异百分比来确定一个或多个故障来源。例如,在一些情况下,变异来源鉴定系统106确定主要故障来源是与最高的可分配原因变异百分比相关联的测序流水线材料。
如关于图6A至图6B所述,变异来源鉴定系统106利用根据碱基判读错误类型和不同的相邻核苷酸碱基分组的样品错误率来确定故障来源与碱基判读错误模式之间的相关性。图6C展示了表示按碱基判读错误类型组织的碱基判读错误发生率百分位数的柱形图624。一般来讲,柱形图624表明碱基判读错误率在所有碱基判读错误类型上分布不均匀。例如,如图6C中所展示,T->A碱基判读错误类型的碱基判读错误的发生频率远超过T->G碱基判读错误类型的碱基判读错误。此外,如图6C中所展示,涉及Ts的错误更普遍(如T->A、T->C和A->T峰值所示)。
如通过图6C的柱形图624内的阴影框进一步展示的,碱基判读错误率也可能在所有核苷酸片段读段上分布不均匀。例如,读段2(R2)倾向于比读段1(R1)经历更多错误,这可能是由于R1与R2之间存在信号衰减。因此,在一些实施方案中,作为根据碱基判读错误类型和不同的相邻核苷酸碱基对归一化样品错误率进行分组的补充或替代,变异来源鉴定系统106可以根据读段数(例如,R1和R2)对归一化样品错误率进行分组。
图6A至图6C展示了根据一个或多个实施方案的变异来源鉴定系统106利用统计模型来确定贡献量度,这些贡献量度指示测序流水线材料对来自测序流水线的碱基判读错误的贡献。图7A至图7C展示了根据一个或多个实施方案的一系列柱形图,这些柱形图表示变异来源鉴定系统106如何利用一种或多种统计模型来以分层方式缩小故障来源范围以生成贡献量度。作为简要概述,图7A展示了根据一个或多个实施方案的总组件柱形图700,该柱形图表明基于总组件分析的可分配原因百分比。图7B展示了根据一个或多个实施方案的子组件部件柱形图702,该柱形图是由变异来源鉴定系统106利用子组件上的统计模型来提供关于潜在故障来源的较小子集的附加细节而产生的。图7C展示了根据一个或多个实施方案的变异来源鉴定系统106使用核苷酸特异性错误(而不是图7A至图7B中所利用的简单主要量度)来生成碱基判读错误类型柱形图704。
经由介绍图7A至图7C,在一些实施方案中,变异来源鉴定系统106可以鉴定制造数据内的几百个变量或潜在故障来源。变异来源鉴定系统106能够以分层方式处理数百个变量,该分层方式由统计模型(诸如VCA)更有效地分析。在一些实施方案中,统计模型可以一次准确且高效地处理一组潜在故障来源。例如,统计模型可以限于一次处理32个潜在故障来源。因此,变异来源鉴定系统106可以开始分析高级总组件故障来源(以32个潜在故障来源为上限),然后分析详细的子组件原材料(再次以32个潜在故障来源为上限)。图7A至图7C展示了根据一个或多个实施方案的这种分层方法。虽然图7A至图7C包括由变异来源鉴定系统106利用VCA生成的可分配原因百分比,但是变异来源鉴定系统106可以利用替代性统计模型以分层方式分析潜在故障来源。
具体地,图7A展示的总组件柱形图700表示可归因于主要量度708变异的总组件潜在故障来源706的可分配原因百分比。如图7A中所展示,变异来源鉴定系统106利用VCA来处理潜在的总组件故障来源706。例如,潜在的总组件故障来源706包括SBS批次、核苷酸样品载片(例如,流动池)批次、簇批次、Mach Short和缓冲液批次。在其他实施方案中,变异来源鉴定系统106利用VCA来处理其他潜在的总组件故障来源,诸如一般软件或计算故障来源和测序设备部件。
如图7A中进一步所展示,变异来源鉴定系统106确定与潜在的总组件故障来源706相关联的主要量度708的可分配变异原因百分比。例如,如图7A中所展示,变异来源鉴定系统106确定潜在的总组件故障来源706,这些故障来源是主要量度708中的变异的最可能原因。在一些情况下,对于R1和R2,主要量度708包括错误率(ER)、Phred质量得分(Q30)、预先相位调整(PP)、相位调整(Ph)、通道密度(CnInt)、重新合成(Resynth)和产率。在其他实施方案中,变异来源鉴定系统106生成用于不同主要量度的可分配原因百分比,包括但不限于簇数量、已进行错误评级的循环的数量、经过过滤的簇的百分比、簇密度、样品片数量,以及其他主要量度。在还有其他实施方案中,如下文关于图7C所描述的,变异来源鉴定系统106生成次级量度的可分配原因百分比,其中次级量度包括碱基判读错误类型和相邻的核苷酸碱基。
变异来源鉴定系统106评价潜在的总组件故障来源706,以从主要量度708之中确定引起感兴趣测序变量的最大变异来源的那些主要量度。如图7A中所展示,变异来源鉴定系统106确定SBS批次对预先相位调整影响最大,而簇批次对重新合成影响最大。如图7A中进一步描绘的,流动池批次不成比例地影响强度、错误率、Phred分数和相位调整。变异来源鉴定系统106可以进一步分析任何一种潜在的总组件故障来源706,以进一步评价潜在的子组件故障来源。例如,变异来源鉴定系统106可以将流动池潜在的总组件故障来源分解成子组件故障来源。
具体地,并且如先前所提及的,变异来源鉴定系统106可以进一步分析任何潜在的总组件故障来源以评价其子组件故障来源。在一些情况下,变异来源鉴定系统106将流动池潜在的总组件故障来源分解为以下子组件故障来源:试剂盒批次、玻璃批次、塑料批次、引物批次、水凝胶批次等。为此,变异来源鉴定系统106将其他组件变量保持在高水平(或设置为对照),以便更具体地鉴定源于潜在的子组件故障来源的可变性。例如,变异来源鉴定系统106分析其中发现SBS批次、簇批次、machshort和缓冲液批次对碱基判读错误几乎没有贡献的测序运行,然后分析潜在的子组件故障来源。在一些实施方案中,变异来源鉴定系统106生成类似于总组件柱形图700但指示潜在子组件故障来源的子组件柱形图。
通过利用统计模型,变异来源鉴定系统106可以通过分析潜在的子组件故障来源以鉴定子组件部件的特定贡献,而在更细粒度的水平上进行分析。例如,变异来源鉴定系统106可以利用VCA来评价试剂盒子组件特定的贡献。变异来源鉴定系统106将其他子组件变量保持在高水平(或设置为对照),以便更精确地鉴定源于子组件部件的可变性。例如,图7B展示变异来源鉴定系统106评价潜在子组件部件故障来源710的主要量度712。更具体地,图7B展示了反映试剂盒部件贡献的可分配原因变异百分比的子组件部件柱形图702。
如上所述,图7A至图7B展示变异来源鉴定系统106利用VCA来生成关于主要量度(诸如错误率、Q30得分等)的潜在故障来源的可分配原因变异百分比。在一些实施方案中,变异来源鉴定系统106利用VCA来测量其他量度(包括核苷酸特异性错误)的潜在故障来源的贡献。图7C展示变异来源鉴定系统106确定各种潜在故障来源对核苷酸特异性错误变异的贡献。具体地,图7C展示了指示潜在故障来源714对次级量度716变异的贡献的碱基判读错误类型柱形图704。
如图7C中所展示,变异来源鉴定系统106在对碱基判读错误率具有最大或最高贡献的所有总组件故障来源上测试潜在的故障来源714。如碱基判读错误类型柱形图704所展示,潜在故障来源714包括缓冲液批号(BufferLotNbr);PhiX文库制备日期(PhiXLibPrepDate);机器组;流动池条形码(fcBarcodeShort);以及耗材,包括试剂、酶、核苷酸结构等。在图7C中测量的次级量度716包括读取号(R1或R2),以及碱基判读错误类型。例如,AC指示碱基判读错误类型为A->C,AG指示碱基判读错误类型为A->G,等等。
如先前所提及的,变异来源鉴定系统106可以利用不同类型的样品测序数据连同制造数据来确定贡献量度。图8展示了一个示例实施方案,其中变异来源鉴定系统106利用插入或缺失(INDEL)长度作为测序数据来确定贡献量度,这些贡献量度指示测序流水线材料对来自测序流水线的碱基判读错误的贡献。
一般来讲,除了驱动碱基判读错误率的变异之外,测序流水线材料还可以驱动INDEL长度的变异。因此,变异来源鉴定系统106可以利用统计模型来分析INDEL长度,然后基于在测序流水线中检测到的INDEL长度来确定测序流水线材料802的可分配原因变异百分比。例如,如图8中所展示,较短的INDEL(其中插入或缺失的区段少于或等于9个核苷酸)主要由硬件和流体驱动。更具体地,流动池和流体差异(包括桶式泵、柱塞和孔板测序流水线材料)促成INDEL长度变异的概率更大。相比之下,较长的INDEL(其中插入或缺失的区段大于九个核苷酸)更多地由流动池和掺入混合物驱动。更具体地,SBS染料试剂(例如,WIM2)和成簇试剂(例如,HCXE2)是促成更长的INDEL变异的更突出的驱动剂。
如上文所指示,在一些实施方案中,变异来源鉴定系统106提供指示一个或多个故障来源的通知,以显示在与测序流水线相关联的计算设备上。图9A至图9B展示了一系列图形用户界面,包括故障模式通知和关于所鉴定的故障来源的附加信息。作为概述,图9A展示了根据一个或多个实施方案的包括故障模式通知的示例通知图形用户界面。相比之下,图9B展示了提供对来自故障模式通知的信息的附加分析的示例错误模式分析图形用户界面。
具体地,图9A展示了用户客户端设备900(例如,用户客户端设备108)的屏幕902上的通知图形用户界面904。通知图形用户界面904包括故障模式通知906,其包括故障模式元素908、概率元素910和变异来源图形元素912。
如图9A中所展示,故障模式通知906包括故障模式元素908。故障模式元素908指示变异来源鉴定系统106已鉴定为潜在故障模式的一种或多种测序流水线材料。在一些实施方案中,变异来源鉴定系统106确定将在故障模式元素908内显示的潜在故障来源的阈值数量。例如,变异来源鉴定系统106确定显示不超过三个潜在故障来源。在一个或多个实施方案中,变异来源鉴定系统106基于阈值可能性百分比确定潜在故障来源的阈值数量。在至少一个示例中,变异来源鉴定系统106确定显示具有超过概率阈值的可分配原因变异百分比的潜在故障来源。为了说明,变异来源鉴定系统106确定显示与等于或大于3%的可分配原因变异百分比相关联的故障来源。在某些实施方案中,作为描述潜在故障来源的文本的补充或替代,变异来源鉴定系统106生成并提供用于在通知图形用户界面904上显示的错误代码,从而用代码指示故障来源。
如图9A中进一步所示,故障模式通知906还包括概率元素910。概率元素910指示对应测序流水线材料是对应于测序流水线的碱基判读错误类型的故障来源的概率。在一些实施方案中,概率元素910等于所确定的可分配原因变异百分比。
图9A还展示了包括变异来源图形元素912的故障模式通知906。在一些实施方案中,基于检测到用户与变异来源图形元素912的交互,用户客户端设备900更新通知图形用户界面904以显示指示可分配原因变异百分比的图表。在某些具体实施中,变异来源鉴定系统106提供图6B中所展示的图表,经由通知图形用户界面904显示。除此之外,或替代性地,变异来源鉴定系统106从图6B中所展示的图表中选择特定的柱条,以经由通知图形用户界面904来显示。具体地,变异来源鉴定系统106确定显示对应于特定碱基判读错误类型和/或具有碱基判读错误率的相邻核苷酸碱基的柱条。变异来源鉴定系统106可以基于用户对变异来源图形元素912的选择来提供各种类型的图表和视觉效果。例如,变异来源鉴定系统106还可以呈现图3中所展示的图表。
在一些实施方案中,变异来源鉴定系统106在故障模式通知906内提供确认故障来源的元素。具体地,用户客户端设备900可以呈现故障模式通知906,并且对确认在故障模式通知906中鉴定的制造材料的用户选择进行检测。例如,用户可以经由选择用户客户端设备900上的可选择选项来检查桶式泵筒并确认该桶式泵筒内存在气泡或其他故障。在一些实施方案中,故障模式通知906包括确认预测的故障来源的可选择选项。例如,故障模式通知906可以包括确认桶式泵筒故障来源的选项。在另一个示例中,故障模式通知906包括几个可选择选项,其中每个选项与不同的故障来源相关联。例如,故障模式通知906可以包括与桶式泵筒、孔板筒和试剂1中的每一者相关联的可选择选项。变异来源鉴定系统106可以基于给定故障来源的用户选择来确认给定故障来源的存在。如先前所提及的,变异来源鉴定系统106可以进一步基于用户与该元素的交互来修改机器学习模型的参数以确认故障来源。
在一些实施方案中,变异来源鉴定系统106提供故障模式通知906,用于在检测到碱基判读错误模式时实时(或接近实时)显示。因此,变异来源鉴定系统106可以及时提供给定的测序材料可能导致测序流水线内的故障的通知。
如所提及的,图9B展示了包括来自故障模式通知的附加信息的示例错误模式分析图形用户界面。具体地,图9B展示了用户客户端设备900的屏幕902上的错误模式分析图形用户界面914。具体地,错误模式分析图形用户界面914包括测序运行元素916、可视化修改元素918、变量元素920和错误可视化元素922。一般来讲,错误模式分析图形用户界面914提供碱基判读错误模式的可视化。在一些实施方案中,变异来源鉴定系统106基于接收到图9A中所展示的变异来源图形元素912的用户选择的指示,来提供用于显示的错误模式分析图形用户界面914。在其他实施方案中,变异来源鉴定系统106基于图9A中未展示的附加用户界面元素的用户选择来提供错误模式分析图形用户界面914。
图9B展示了包括错误可视化元素922的错误模式分析图形用户界面914。通过提供错误可视化元素922,变异来源鉴定系统106生成用于一个或多个测序运行的碱基判读错误模式的图形可视化。例如,图9B中所展示的错误可视化元素922包括指示总错误率(错误率)和按碱基组织的正确判读内的模式的箱形图。如图所展示,错误可视化元素922包括正确的A判读(A A)、正确的C判读(C C)、正确的G判读(G G)和正确的T判读(T T)的指示。
在其他实施方案中,错误可视化元素922显示根据碱基判读错误类型组织的碱基判读错误率。例如,错误可视化元素922可以包括A->C碱基判读错误、C->T碱基判读错误等。此外,错误可视化元素922可以包括各种类型的可视化。例如,如所提及的,错误可视化元素922可以包括箱形图、柱形图、柱状图、直方图、线图、散点图,以及其他类型的图形或图表。
如图9B中进一步所展示,错误模式分析图形用户界面914包括测序运行元素916。测序运行元素916指示由错误可视化元素922描绘的一个或多个测序运行。例如,如图9B中所展示,变异来源鉴定系统106可以从用户客户端设备900接收用户与在测序运行元素916中列出的测序运行交互的指示。用户客户端设备900可以更新测序运行元素916以指示所选择的测序运行,例如,通过高亮显示所选择的测序运行。
除了测序运行元素916之外,错误模式分析图形用户界面914还包括变量元素920。具体地,变量元素920指示在错误可视化元素922内可视化的变量。为了说明,基于来自用户客户端设备900的用户与变量元素920交互的指示,变异来源鉴定系统106可以基于碱基判读错误类型和侧翼核苷酸碱基来确定将错误可视化。例如,如图9B中所展示,用户客户端设备900接收指示用户在侧接C_A时对正确的C->C碱基判读的选择的数据。基于检测到这样的用户选择,用户客户端设备900可以更新错误可视化元素922以包括对所选择的碱基判读错误类型和侧翼核苷酸碱基的可视化。
除了变量元素920之外,错误模式分析图形用户界面914还包括可视化修改元素918。例如,基于用户与可视化修改元素918的交互,用户客户端设备900可以定制在错误可视化元素922内显示的可视化。具体地,对于在错误可视化元素922内显示的每个图表,可视化修改元素918包括抖动修改元素、离群值元素、箱类型元素、箱样式元素、5号汇总元素、响应轴元素和变量指示元素。基于用户与可视化修改元素918内的任何元素的交互,用户客户端设备900可以定制错误可视化元素922。例如,通过取消选择离群值元素,用户客户端设备900可以从错误可视化元素922中移除所有离群值。在另一个示例中,用户客户端设备900可以基于检测到的用户与可视化修改元素918的交互来更新错误可视化元素922,以包括其他类型的图形和图表。
图1至图9B、对应的文本和示例提供变异来源鉴定系统106的许多不同的方法、系统、设备和非暂态计算机可读介质。除了前述内容之外,还可以根据包括用于实现特定结果的动作的流程图(诸如图10中所示动作的流程图)来描述一个或多个实施方案。附加地,本文所描述的动作可以重复或与彼此并行地执行或与相同或类似动作的不同实例并行地执行。
图10展示了用于确定碱基判读错误类型的故障来源的系列动作1000的流程图。虽然图10展示了根据一个实施方案的动作,但是替代性实施方案可以省略、添加、重新排序和/或修改图10中所示的任何动作。图10的动作可以作为方法的一部分来执行。替代性地,非暂态计算机可读介质可以包括当由一个或多个处理器执行时使得计算设备执行图10的动作的指令。在一些实施方案中,系统可以执行图10的动作。
在一个或多个实施方案中,系列动作1000在一个或多个计算设备(诸如图11中所展示的计算设备)上实施。此外,在一些实施方案中,一系列动作1000在用于对核酸聚合物进行测序的数字环境中实施。如图10中所展示,系列动作1000包括确定碱基判读错误率的动作1002、从碱基判读错误率确定碱基判读错误模式的动作1004、鉴定用于一个或多个样品测序运行的样品碱基判读错误模式的动作1006,以及确定碱基判读错误类型的故障来源的动作1008。
图10中所展示的系列动作1000包括确定碱基判读错误率的动作1002。具体地,动作1002包括确定由测序流水线生成的核苷酸碱基判读不同于参考基因组中的参考碱基的碱基判读错误率。在一些实施方案中,动作1002还包括通过确定由测序流水线生成的核苷酸碱基判读不同于参考碱基的核苷酸特异性错误率来确定碱基判读错误率。在一个或多个实施方案中,动作1002还包括通过利用混淆矩阵来确定碱基判读错误率。在一些实施方案中,动作1002还包括通过基于特定类型的核苷酸碱基判读中的正确核苷酸碱基判读总数对包括碱基判读错误数据的混淆矩阵进行归一化来确定碱基判读错误率。此外,在一些实施方案中,动作1002还包括基于碱基判读错误的周期、时间或核苷酸读段中的一者或多者以及特定类型的核苷酸碱基判读中的正确核苷酸碱基判读总数对包括碱基判读错误数据的混淆矩阵进行归一化。
系列动作1000包括从根据碱基判读错误类型分组的碱基判读错误率检测一种或多种碱基判读错误模式的动作1004。具体地,动作1004包括从根据碱基判读错误类型分组的碱基判读错误率检测碱基判读错误模式。在一些实施方案中,动作1004包括确定根据碱基判读错误类型和分别位于不正确的核苷酸碱基判读侧翼的不同的相邻核苷酸碱基分组的碱基判读错误率;以及从根据碱基判读错误类型和不同的相邻核苷酸碱基分组的碱基判读错误率检测一种或多种碱基判读错误模式。
系列动作1000包括鉴定用于一个或多个样品测序运行的一个或多个样品碱基判读错误模式的动作1006。具体地,动作1006包括基于碱基判读错误模式、基于一种或多种碱基判读错误模式,鉴定用于利用对应于测序流水线的一个或多个测序流水线的一个或多个样品测序运行的一种或多种样品碱基判读错误模式。在一些实施方案中,动作1006包括通过以下方式鉴定用于一个或多个样品测序运行的一个或多个样品碱基判读错误模式:基于制造鉴定数据从利用类似制造材料的样品测序运行中分类样品测序运行集合;检测这些样品测序运行集合的不同样品碱基判读错误模式;以及基于一种或多种碱基判读错误模式与一种或多种样品碱基判读错误模式之间的相关性,从样品测序运行集合的不同样品碱基判读错误模式之中鉴定一种或多种样品碱基判读错误模式。此外,动作1006可以进一步包括通过以下步骤来检测不同的样品碱基判读错误模式:将用于样品测序运行的样品核苷酸片段读段进行聚集;确定样品核苷酸碱基判读不同于参考碱基的样品核苷酸特异性错误率;以及根据碱基判读错误类型和分别位于不正确的核苷酸碱基判读侧翼的不同的相邻核苷酸碱基对样品核苷酸特异性错误率进行分组。在一些实施方案中,动作1006还包括通过以下步骤对利用类似制造材料的样品测序运行集合进行分类:截短制造鉴定数据;以及通过对共用相同的截短制造鉴定数据的阈值数量测序运行进行分组来生成一组测序运行。
此外,在一些实施方案中,动作1006还包括通过鉴定一个或多个样品测序运行的现有样品碱基判读错误模式或者检测一个或多个样品测序运行的新样品碱基判读错误模式,来鉴定一个或多个样品测序运行的一种或多种样品碱基判读错误模式。
如图10中进一步所展示,系列动作1000还包括确定碱基判读错误类型的故障来源的动作1008。具体地,动作1008包括基于一种或多种碱基判读错误模式与一种或多种样品碱基判读错误模式之间的相关性,确定对应于测序流水线的碱基判读错误类型的故障来源。在一些实施方案中,动作1008包括基于一种或多种碱基判读错误模式与一种或多种样品碱基判读错误模式对应的概率,确定对应于测序流水线的碱基判读错误类型的故障来源。在一些实施方案中,动作1008进一步包括通过确定贡献量度来确定对应于测序流水线的故障来源,这些贡献量度指示测序流水线材料对来自测序流水线的碱基判读错误的贡献;以及基于贡献量度确定碱基判读错误类型的故障来源。此外,在一些实施方案中,动作1008进一步包括通过确定促成来自测序流水线的碱基判读错误的测序流水线材料的可分配原因变异来确定贡献量度。在一些实施方案中,动作1008进一步包括通过将耗材产品、测序机器的一部分、软件应用程序或特征、或者核苷酸样品载片的一部分鉴定为促成测序流水线中的测序变异的因素来确定故障来源。
在一些实施方案中,动作1008进一步包括通过以下步骤来确定对应于测序流水线的故障来源:利用统计模型确定贡献量度,这些贡献量度指示测序流水线材料促成来自测序流水线的碱基判读错误的概率;以及基于贡献量度确定碱基判读错误类型的故障来源。此外,动作1008可以包括利用统计模型,通过利用方差成分模型生成促成碱基判读错误的测序流水线材料的可分配原因变异百分比,来确定贡献量度。在一些实施方案中,动作1008包括通过利用方差成分模型确定促成碱基判读错误类型的碱基判读错误的测序流水线材料的可分配原因变异百分比,来确定一种或多种碱基判读错误模式与一种或多种样品碱基判读错误模式之间的相关性。
在一些实施方案中,系列动作1000包括提供指示故障来源的通知以显示在与测序流水线相关联的计算设备上的附加动作。
本文所述的方法可与多种核酸测序技术结合使用。特别适用的技术是其中核酸附接到阵列中的固定位置处使得其相对位置不改变并且其中该阵列被重复成像的那些技术。在不同颜色通道(例如,与用于将一种核苷酸碱基类型与另一种核苷酸碱基类型区分开的不同标记吻合)中获得图像的实施方案特别适用。在一些实施方案中,确定靶核酸(即,核酸聚合物)的核苷酸序列的过程可以是自动化过程。优选的实施方案包括边合成边测序(SBS)技术。
SBS技术通常包括通过针对模板链反复加入核苷酸进行的新生核酸链的酶促延伸。在传统的SBS方法中,可在每次递送中在存在聚合酶的情况下将单个核苷酸单体提供给靶核苷酸。然而,在本文所述的方法中,可在递送中存在聚合酶的情况下向靶核酸提供多于一种类型的核苷酸单体。
下文描述的SBS技术可利用单端测序或双端测序。在单读段测序中,测序设备从一端到另一端读取片段以生成碱基对的序列。相反,在双端测序期间,测序设备开始于一次读取,在相同方向中完成特定读长的读取,并且从片段的相对端开始另一次读取。
SBS可利用具有终止子部分的核苷酸单体或缺少任何终止子部分的核苷酸单体。使用缺少终止子的核苷酸单体的方法包括例如焦磷酸测序和使用γ-磷酸标记的核苷酸的测序,如下文进一步详细描述的。在使用缺少终止子的核苷酸单体的方法中,在每个循环中加入的核苷酸的数目通常是可变的,并且该数目取决于模板序列和核苷酸递送的方式。对于利用具有终止子部分的核苷酸单体的SBS技术,终止子在使用的测序条件下可为有效不可逆的,如利用双脱氧核苷酸的传统桑格测序的情况,或者终止子可为可逆的,如由Solexa(现为Illumina,Inc.)开发的测序方法的情况。
SBS技术可利用具有标记部分的核苷酸单体或缺少标记部分的核苷酸单体。因此,可基于以下项来检测掺入事件:标记的特性,诸如标记的荧光;核苷酸单体的特性,诸如分子量或电荷;掺入核苷酸的副产物,诸如焦磷酸盐的释放;等等。在测序试剂中存在两种或更多种不同的核苷酸的实施方案中,不同的核苷酸可以是彼此可区分的,或者另选地,两种或更多种不同的标记在所使用的检测技术下可以是不可区分的。例如,测序试剂中存在的不同核苷酸可具有不同的标记,并且它们可使用适当的光学器件进行区分,如由Solexa(现为Illumina,Inc.)开发的测序方法所例示。
优选的实施方案包括焦磷酸测序技术。焦磷酸测序检测当将特定的核苷酸掺入新生链中时无机焦磷酸盐(PPi)的释放(Ronaghi,M.、Karamohamed,S.、Pettersson,B.、Uhlen,M.和Nyren,P.(1996年),“Real-time DNA sequencing using detection ofpyrophosphate release.”,Analytical Biochemistry 242(1),84-9;Ronaghi,M.(2001)“Pyrosequencing sheds light on DNA sequencing.”Genome Res.,11(1),3-11;Ronaghi,M.,Uhlen,M.and Nyren,P.(1998)“A sequencing method based on real-timepyrophosphate.”Science 281(5375),363;美国专利号6,210,891;美国专利号6,258,568和美国专利号6,274,320,这些文献的公开内容全文以引用方式并入本文)。在焦磷酸测序中,释放的PPi可通过被腺苷三磷酸(ATP)硫酸化酶立即转化为ATP成来进行检测,并且通过荧光素酶产生的光子来检测所产生的ATP水平。待测序的核酸可附接到阵列中的特征部,并且可对阵列进行成像以捕获由于在阵列的特征部处掺入核苷酸而产生的化学发光信号。可在用特定核苷酸类型(例如,A、T、C或G)处理阵列后获得图像。在添加每种核苷酸类型后获得的图像将在阵列中哪些特征部被检测到方面不同。图像中的这些差异反映阵列上的特征部的不同序列内容。然而,每个特征部的相对位置将在图像中保持不变。可使用本文所述的方法存储、处理和分析图像。例如,在用每种不同核苷酸类型处理阵列后获得的图像可以与本文针对从用于基于可逆终止子的测序方法的不同检测通道获得的图像所例示的相同方式进行处理。
在另一种示例性类型的SBS中,通过逐步添加可逆终止子核苷酸来完成循环测序,这些可逆终止子核苷酸包含例如可裂解或可光漂白的染料标记,如例如WO 04/018497和美国专利号7,057,026所述,这两份专利的公开内容以引用方式并入本文。该方法由Solexa(现为Illumina Inc.)商业化,并且还在WO 91/06678和WO 07/123,744中有所描述,这些文献中的每一者的公开内容以引用方式并入本文。荧光标记终止子(其中终止可以是可逆的并且荧光标记可被切割)的可用性有利于高效的循环可逆终止(CRT)测序。聚合酶也可共工程化以有效地掺入这些经修饰的核苷酸并从这些经修饰的核苷酸延伸。
优选地,在基于可逆终止子的测序实施方案中,标记在SBS反应条件下基本上不抑制延伸。然而,检测标记可以是可移除的,例如通过裂解或降解移除。可在将标记掺入到阵列化核酸特征部中后捕获图像。在特定实施方案中,每个循环涉及将四种不同的核苷酸类型同时递送到阵列,并且每种核苷酸类型具有在光谱上不同的标记。然后可获得四个图像,每个图像使用对四个不同标记中的一个标记具有选择性的检测通道。另选地,可顺序地添加不同的核苷酸类型,并且可在每个添加步骤之间获得阵列的图像。在此类实施方案中,每个图像将示出已掺入特定类型的核苷酸的核酸特征部。由于每个特征部的不同序列内容,不同特征部将存在于或不存在于不同图像中。然而,特征部的相对位置将在图像中保持不变。通过此类可逆终止子-SBS方法获得的图像可如本文所述进行存储、处理和分析。在图像捕获步骤后,可移除标记并且可移除可逆终止子部分以用于核苷酸添加和检测的后续循环。已在特定循环中以及在后续循环之前检测到标记之后移除这些标记可提供减少循环之间的背景信号和串扰的优点。可用的标记和去除方法的示例在下文进行阐述。
在特定实施方案中,一些或所有核苷酸单体可包括可逆终止子。在此类实施方案中,可逆终止子/可裂解荧光团可包括经由3'酯键连接到核糖部分的荧光团(Metzker,Genome Res.15:1767-1776(2005年),该文献以引用方式并入本文)。其他方法已将终止子化学与荧光标记的裂解分开(Ruparel等人,Proc Natl Acad Sci USA 102:5932-7(2005年),该文献全文以引用方式并入本文)。Ruparel等人描述了可逆终止子的发展,这些可逆终止子使用小的3'烯丙基基团来阻断延伸,但是可通过用钯催化剂进行的短时间处理来容易地去阻断。荧光团经由可光裂解的接头附接到碱基,该可光裂解的接头可通过暴露于长波长紫外光30秒来容易地裂解。因此,二硫化物还原或光裂解可用作可裂解的接头。可逆终止的另一种方法是使用天然终止,该天然终止在将大体积染料放置在dNTP上之后接着发生。dNTP上存在带电大体积染料可通过空间位阻和/或静电位阻而充当高效的终止子。除非染料被移除,否则一个掺入事件的存在防止进一步的掺入。染料的裂解移除荧光团并有效地逆转终止。修饰的核苷酸的示例还描述于美国专利号7,427,673和美国专利号7,057,026中,其公开内容全文以引用方式并入本文。
可与本文所述的方法和系统一起利用的附加的示例性SBS系统和方法描述于美国专利申请公布号2007/0166705、美国专利申请公布号2006/0188901、美国专利号7,057,026、美国专利申请公布号2006/0240439、美国专利申请公布号2006/0281109、PCT公布号WO05/065814、美国专利申请公布号2005/0100900、PCT公布号WO 06/064199、PCT公布号WO07/010,251、美国专利申请公布号2012/0270305和美国专利申请公布号2013/0260372中,这些文献的公开内容全文以引用方式并入本文。
一些实施方案可使用少于四种不同标记来使用对四种不同核苷酸的检测。例如,可以利用并入的美国专利申请公布号2013/0079232的材料中所述的方法和系统来执行SBS。作为第一个示例,一对核苷酸类型可在相同波长下检测,但基于对中的一个成员相对于另一个成员的强度差异,或基于对中的一个成员的导致与检测到的该对的另一个成员的信号相比明显的信号出现或消失的变化(例如,通过化学改性、光化学改性或物理改性)来区分。作为第二个示例,四种不同核苷酸类型中的三种能够在特定条件下被检测到,而第四种核苷酸类型缺少在那些条件下可被检测到或在那些条件下被最低限度地检测到的标记(例如,由于背景荧光而导致的最低限度检测等)。可基于其相应信号的存在来确定前三种核苷酸类型掺入到核酸中,并且可基于任何信号的不存在或对任何信号的最低限度检测来确定第四核苷酸类型掺入到核酸中。作为第三示例,一种核苷酸类型可包括在两个不同通道中检测到的标记,而其他核苷酸类型在不超过一个通道中被检测到。上述三种例示性构型不被认为是互相排斥的,并且可以各种组合进行使用。组合所有三个示例的示例性实施方案是基于荧光的SBS方法,该方法使用在第一通道中检测到的第一核苷酸类型(例如,具有当由第一激发波长激发时在第一通道中检测到的标记的dATP),在第二通道中检测到的第二核苷酸类型(例如,具有当由第二激发波长激发时在第二通道中检测到的标记的dCTP),在第一通道和第二通道两者中检测到的第三核苷酸类型(例如,具有当被第一激发波长和/或第二激发波长激发时在两个通道中检测到的至少一个标记的dTTP),以及缺少在任一通道中检测到或最低限度地检测到的标记的第四核苷酸类型(例如,不具有标记的dGTP)。
此外,如并入的美国专利申请公布号2013/0079232的材料中所述,可使用单个通道获得测序数据。在此类所谓的单染料测序方法中,标记第一核苷酸类型,但在生成第一图像之后移除标记,并且仅在生成第一图像之后标记第二核苷酸类型。第三核苷酸类型在第一图像和第二图像中都保留其标记,并且第四核苷酸类型在两个图像中均保持未标记。
一些实施方案可以利用边连接边测序技术。此类技术利用DNA连接酶掺入寡核苷酸并确定此类寡核苷酸的掺入。寡核苷酸通常具有与寡核苷酸杂交的序列中的特定核苷酸的同一性相关的不同标记。与其他SBS方法一样,可在用已标记的测序试剂处理核酸特征部的阵列后获得图像。每个图像将示出已掺入特定类型的标记的核酸特征部。由于每个特征部的不同序列内容,不同特征部将存在于或不存在于不同图像中,但特征部的相对位置将在图像中保持不变。通过基于连接的测序方法获得的图像可如本文所述进行存储、处理和分析。可以与本文所述的方法和系统一起使用的示例性SBS系统和方法在美国专利号6,969,488、美国专利号6,172,218和美国专利号6,306,597中有所描述,这些专利的公开内容全文以引用方式并入本文。
一些实施方案可以利用纳米孔测序(Deamer,D.W.和Akeson,M."Nanopores andnucleic acids:prospects for ultrarapid sequencing.”Trends Biotechnol.18,147-151(2000);Deamer,D.and D.Branton,“Characterization of nucleic acids bynanopore analysis”.Acc.Chem.相对35:817-825(2002);Li,J.、M.Gershow、D.Stein、E.Brandin和J.A.Golovchenko,“DNA molecules and configurations in a solid-statenanopore microscope”,Nat.Mater.,2:611-615(2003),这些文献的公开内容全文以引用方式并入本文)。在此类实施方案中,目标核酸穿过纳米孔。纳米孔可为合成孔或生物膜蛋白,诸如α-溶血素。当目标核酸穿过纳米孔时,可以通过测量孔的电导率的波动来识别每个碱基对。(美国专利号7,001,792;Soni,G.V.和Meller,“A.Progress toward ultrafastDNA sequencing using solid-state nanopores.”Clin.Chem.53,1996-2001(2007);Healy,K.,“Nanopore-based single-molecule DNA analysis.”,Nanomed.,2,459-481(2007);Cockroft,S.L.、Chu,J.、Amorin,M.和Ghadiri,M.R.,“A single-moleculenanopore device detects DNA polymerase activity with single-nucleotideresolution.”,J.Am.Chem.Soc.130,818-820(2008),这些文献的公开内容全文以引用方式并入本文)。从纳米孔测序获得的数据可如本文所述进行存储、处理和分析。具体地,根据本文所述的光学图像和其他图像的示例性处理,可将数据如同图像那样进行处理。
一些实施方案可利用涉及DNA聚合酶活性的实时监测的方法。可以通过携带荧光团的聚合酶与γ-磷酸标记的核苷酸之间的荧光共振能量转移(FRET)相互作用来检测核苷酸掺入,如例如美国专利号7,329,492和美国专利号7,211,414中所述(这两份专利中的每一者以引用方式并入本文),或者可以用零模波导来检测核苷酸掺入,如例如美国专利号7,315,019中所述(该专利以引用方式并入本文),并且可以使用荧光核苷酸类似物和工程化聚合酶来检测核苷酸掺入,如例如美国专利号7,405,281和美国专利申请公布号2008/0108082中所述(这两份专利中的每一者以引用方式并入本文)。照明可限于表面栓系的聚合酶周围的仄升量级的体积,使得可在低背景下观察到荧光标记的核苷酸的掺入(Levene,M.J.等人,“Zero-mode waveguides for single-molecule analysis at highconcentrations.”,Science 299,682-686(2003);Lundquist,P.M.等人,“Parallelconfocal detection of single molecules in real time.”,Opt.Lett.33,1026-1028(2008);Korlach,J.等人,“Selective aluminum passivation for targetedimmobilization of single DNA polymerase molecules in zero-mode waveguide nanostructures.”,Proc.Natl.Acad.Sci.USA 105,1176-1181(2008),这些文献的公开内容全文以引用方式并入本文)。通过此类方法获得的图像可如本文所述进行存储、处理和分析。
一些SBS实施方案包括检测在核苷酸掺入延伸产物时释放的质子。例如,基于释放质子的检测的测序可使用可从Ion Torrent公司(Guilford,CT,它是Life Technologies子公司)商购获得的电检测器和相关技术或在US 2009/0026082A1、US2009/0127589 A1、US2010/0137143 A1或US 2010/0282617A1中所述的测序方法和系统,这些文献中的每一篇均以引用方式并入本文。本文阐述的使用动力学排阻来扩增靶核酸的方法可以容易地应用于用于检测质子的基板。更具体地,本文阐述的方法可以用于产生用于检测质子的扩增子克隆群体。
上述SBS方法可有利地以多种格式进行,使得同时操纵多个不同的目标核酸。在特定实施方案中,可在共同的反应容器中或在特定基板的表面上处理不同的目标核酸。这允许以多种方式方便地递送测序试剂、移除未反应的试剂和检测掺入事件。在使用表面结合的目标核酸的实施方案中,目标核酸可为阵列格式。在阵列格式中,目标核酸通常可以在空间上可区分的方式结合到表面。目标核酸可通过直接共价附着、附着到小珠或其他粒子或结合到附着到表面的聚合酶或其他分子来结合。阵列可包括在每个位点(也被称为特征部)处的目标核酸的单个拷贝,或者具有相同序列的多个拷贝可存在于每个位点或特征部处。多个拷贝可通过扩增方法(诸如,如下文进一步详细描述的桥式扩增或乳液PCR)产生。
本文所述的方法可使用具有处于多种密度中任一种密度的特征部的阵列,该多种密度包括例如至少约10个特征部/cm2、100个特征部/cm2、500个特征部/cm2、1,000个特征部/cm2、5,000个特征部/cm2、10,000个特征部/cm2、50,000个特征部/cm2、100,000个特征部/cm2、1,000,000个特征部/cm2、5,000,000个特征部/cm2或更高。
本文阐述的方法的优点是它们并行提供了对多个靶核酸的快速且有效检测。因此,本公开提供了能够使用本领域已知的技术(诸如上文所例示的那些)来制备和检测核酸的整合系统。因此,本公开的整合系统可以包括能够将扩增试剂和/或测序试剂递送到一个或多个固定DNA片段的流体部件,该系统包括诸如泵、阀、贮存器、流体管线等的部件。流通池在整合系统中可以被配置用于和/或用于检测靶核酸。示例性流通池在例如US2010/0111768A1和美国序列号13/273,666中有所描述,这两份专利中的每一者以引用方式并入本文。如针对流通池所例示的,整合系统的一个或多个流体部件可以用于扩增方法和检测方法。以核酸测序实施方案为例,整合系统的一个或多个流体部件可以用于本文阐述的扩增方法以及用于在测序方法(诸如上文例示的那些)中递送测序试剂。另选地,整合系统可包括单独的流体系统以执行扩增方法并执行检测方法。能够产生扩增核酸并且还确定核酸序列的整合测序系统的示例包括但不限于MiSeqTM平台(Illumina,Inc.,San Diego,CA)以及在美国序列号13/273,666中描述的设备,该专利以引用方式并入本文。
上述测序系统对由测序设备接收的样品中存在的核酸聚合物进行测序。如本文所定义,“样品”及其衍生物以其最广泛的意义使用,包括怀疑包含目标的任何标本、培养物等。在一些实施方案中,样品包括DNA、RNA、PNA、LNA、嵌合或杂交形式的核酸。样品可以包括含有一种或多种核酸的任何基于生物、临床、外科、农业、大气或水生动植物的标本。该术语还包括任何分离的核酸样品,诸如基因组DNA、新鲜冷冻或福尔马林固定石蜡包埋的核酸标本。还设想样品的来源可以是:单个个体、来自遗传相关成员的核酸样品的集合、来自遗传不相关成员的核酸样品、来自单个个体的(与之匹配的)核酸样品(诸如肿瘤样品和正常组织样品),或者来自含有两种不同形式的遗传物质(诸如从母体受试者获得的母体DNA和胎儿DNA)的单个来源的样品,或者在含有植物或动物DNA的样品中存在污染性细菌DNA。在一些实施方案中,核酸材料的来源可以包括从新生儿获得的核酸,例如通常用于新生儿筛检的核酸。
该核酸样品可以包括高分子量物质,诸如基因组DNA(gDNA)。该样品可以包括低分子量物质,诸如从FFPE样品或存档的DNA样品获得的核酸分子。在另一实施方案中,低分子量物质包括酶促片段化或机械片段化的DNA。该样品可以包含无细胞循环DNA。在一些实施方案中,该样品可以包括从活检组织、肿瘤、刮取物、拭子、血液、黏液、尿液、血浆、精液、毛发、激光捕获显微解剖、手术切除和其他临床或实验室获得的样品获得的核酸分子。在一些实施方案中,该样品可以是流行病学样品、农业样品、法医学样品或病原性样品。在一些实施方案中,该样品可包括从动物(诸如人类或哺乳动物来源)获得的核酸分子。在另一实施方案中,该样品可包括从非哺乳动物来源(诸如植物、细菌、病毒或真菌)获得的核酸分子。在一些实施方案中,核酸分子的来源可以是存档或灭绝的样品或物种。
另外,本文所公开的方法和组合物可以用于扩增具有低质量核酸分子的核酸样品,诸如来自法医学样品的降解的和/或片段化的基因组DNA。在一个实施方案中,法医学样品可包括从犯罪现场获得的核酸、从失踪人员DNA数据库获得的核酸、从与法医调查相关联的实验室获得的核酸,或者包括由执法机关、一种或多种军事服务或任何此类人员获得的法医学样品。核酸样品可以是经纯化的样品或含有粗DNA的溶胞产物,例如来源于口腔拭子、纸、织物或者其他可以用唾液、血液或其他体液浸渍的基材。因此,在一些实施方案中,该核酸样品可包含少量DNA(诸如基因组DNA),或者DNA的片段化部分。在一些实施方案中,靶序列可存在于一种或多种体液中,其中体液包括但不限于血液、痰、血浆、精液、尿液和血清。在一些实施方案中,靶序列可从受害者的毛发、皮肤、组织样品、尸体解剖或遗骸获得。在一些实施方案中,包含一种或多种靶序列的核酸可从死亡的动物或人获得。在一些实施方案中,靶序列可包括从非人类DNA(诸如微生物、植物或昆虫DNA)获得的核酸。在一些实施方案中,靶序列或扩增的靶序列导向人类身份识别的目的。在一些实施方案中,本公开整体涉及用于识别法医学样品的特性的方法。在一些实施方案中,本公开整体涉及使用本文所公开的一种或多种目标特异性引物或者用本文概述的引物设计标准设计的一种或多种目标特异性引物的人类身份识别方法。在一个实施方案中,含有至少一种靶序列的法医学样品或人类身份识别样品可以使用本文所公开的任何一种或多种目标特异性引物或者使用本文概述的引物标准进行扩增。
变异来源鉴定系统106的部件可以包括软件、硬件或两者。例如,变异来源鉴定系统106的部件可以包括存储在非暂态计算机可读存储介质上并且能够由一个或多个计算设备(例如,用户客户端设备108)的处理器执行的一个或多个指令。变异来源鉴定系统106的计算机可执行指令在由一个或多个处理器执行时,可以使得计算设备执行本文所述的故障来源鉴定方法。替代性地,变异来源鉴定系统106的部件可以包括硬件,诸如专用处理设备,用来执行某种功能或成组功能。除此之外,或替代性地,变异来源鉴定系统106的部件可以包括计算机可执行指令和硬件的组合。
此外,变异来源鉴定系统106的执行本文关于变异来源鉴定系统106所述功能的部件可以例如被实施作为独立应用程序的一部分、作为应用程序的模块、作为应用程序的插件、作为可以被其他应用程序调用的一种或多种库函数,以及/或者作为云计算模型。因此,变异来源鉴定系统106的部件可以被实施作为个人计算设备或移动设备上的独立应用程序的一部分。除此之外,或替代性地,变异来源鉴定系统106的部件可以实施在提供测序服务的任何应用程序中,包括但不限于Illumina BaseSpace、Illumina DRAGEN或IlluminaTruSight软件。“Illumina”、“BaseSpace”、“DRAGEN”和“TruSight”是Illumina,Inc.公司在美国和/或其他国家的注册商标或商标。
如以下更详细讨论的,本公开的实施方案可以包括或利用包括计算机硬件(诸如例如一个或多个处理器和系统存储器)的专用或通用计算机。本公开范围内的实施方案还包括用于携带或存储计算机可执行指令和/或数据结构的物理和其他计算机可读介质。具体地,本文所述过程中的一者或多者可以至少部分地实施为体现在非暂态计算机可读介质中并且能够由一个或多个计算设备(例如,本文所述介质内容访问设备中的任一者)执行的指令。一般来讲,处理器(例如,微处理器)从非暂态计算机可读介质(例如,存储器等)接收指令,并且执行那些指令,由此执行一个或多个过程,包括本文所述过程中的一者或多者。
计算机可读介质可以是可由通用或专用计算机系统访问的任何可用介质。存储计算机可执行指令的计算机可读介质是非暂态计算机可读存储介质(设备)。携带计算机可执行指令的计算机可读介质是传输介质。因此,通过示例方式而非限制,本公开的实施方案可包括至少两种明显不同种类的计算机可读介质:非暂态计算机可读存储介质(设备)和传输介质。
非暂态计算机可读存储介质(设备)包括RAM、ROM、EEPROM、CD-ROM、固态驱动器(SSD)(例如,基于RAM)、快闪存储器、相变存储器(PCM)、其他类型的存储器、其他光盘存储装置、磁盘存储装置或其他磁存储设备,或可用于存储呈计算机可执行指令或数据结构形式的期望的程序代码手段并且其可由通用或专用计算机访问的任何其他介质。
“网络”定义为使得能够在计算机系统和/或模块和/或其他电子设备之间传输电子数据的一个或多个数据链路。当通过网络或另一通信连接(硬连线、无线或硬连线或无线的组合)向计算机转移或提供信息时,计算机适当地将该连接视为传输介质。传输介质可包括网络和/或数据链路,该网络和/或数据链路可用于携带呈计算机可执行指令或数据结构形式的期望的程序代码手段,并且其可由通用或专用计算机访问。上述的组合也应当被包括在计算机可读介质的范围内。
此外,在到达各种计算机系统部件后,呈计算机可执行指令或数据结构形式的程序代码手段可从传输介质自动转移到非暂态计算机可读存储介质(设备)(或反之亦然)。例如,通过网络或数据链路接收的计算机可执行指令或数据结构可被缓冲在网络接口模块(例如,NIC)内的RAM中,并且然后最终被转移到计算机系统RAM和/或到计算机系统处的较不易失的计算机存储介质(设备)。因此,应当理解,非暂态计算机可读存储介质(设备)可被包括在也(或甚至主要)利用传输介质的计算机系统部件中。
计算机可执行指令包括例如当在处理器处执行时使得通用计算机、专用计算机或专用处理设备执行某些功能或功能的组的指令和数据。在一些实施方案中,在通用计算机上执行计算机可执行指令以将通用计算机变成实施本公开的元素的专用计算机。计算机可执行指令可以是例如二进制数、诸如汇编语言的中间格式指令、或者甚至源代码。尽管已经以特定于结构特征和/或方法动作的语言描述了主题内容,但是应当理解,在所附权利要求中定义的主题内容不必限于所描述的特征部或动作。相反,所描述的特征部和动作是作为实施权利要求的示例性形式来公开的。
本领域中的技术人员将理解,本公开可以在具有许多类型的计算机系统配置的网络计算环境中实践,包括个人计算机、台式计算机、便携式电脑、消息处理器、手持式设备、多处理器系统、基于微处理器的或可编程消费电子产品、网络PC、小型计算机、大型计算机、移动电话、PDA、平板电脑、寻呼机、路由器、交换机等。本公开还可以在分布式系统环境中实践,其中通过网络链接(通过硬连线数据链路、无线数据链路或者通过硬连线和无线数据链路的组合)的本地和远程计算机系统两者都执行任务。在分布式系统环境中,程序模块可以位于本地和远程存储器存储设备两者中。
本公开的实施方案还可在云计算环境中实施。在本说明书中,“云计算”定义为用于实现对可配置计算资源的共享池的按需网络访问的模型。例如,可在市场中采用云计算以提供对可配置计算资源的共享池的无处不在并且便利的按需访问。可配置计算资源的共享池可经由虚拟化快速预置并且以低管理努力或服务提供者交互释放,并且然后因此扩展。
云计算模型可由各种特性组成,诸如例如按需自助服务、广泛网络访问、资源池化、快速弹性、可计量服务等。云计算模型还可展示各种服务模型,诸如例如软件即服务(SaaS)、平台即服务(PaaS)和基础设施即服务(IaaS)。云计算模型还可使用不同的部署模型来部署,诸如私有云、社区云、公共云、混合云等。在本说明书和在权利要求书中,“云计算环境”是在其中采用云计算的环境。
图11展示了可以被配置为执行上述过程中的一者或多者的计算设备1100的框图。应当理解,一个或多个计算设备(诸如计算设备1100)可以实施变异来源鉴定系统106和测序系统104。如图11所示,计算设备1100可以包括处理器1102、存储器1104、存储设备1106、I/O接口1108和通信接口1111,它们可以通过通信基础设施1111通信地耦接。在某些实施方案中,计算设备1100可以包括比图11中示出的部件更少或更多的部件。以下段落更详细地描述图11中所示的计算设备1100的部件。
在一个或多个实施方案中,处理器1102包括用于执行指令的硬件,诸如构成计算机程序的那些指令。作为一个示例,而非通过限制的方式,为了执行用于动态地修改工作流程的指令,处理器1102可以从内部寄存器、内部高速缓存、存储器1104或存储设备1106检索(或提取)这些指令,然后解码并加以执行。存储器1104可以是用于存储由处理器执行的数据、元数据和程序的易失性或非易失性存储器。存储设备1106包括用于存储用于执行本文所述方法的数据或指令的存储装置,诸如硬盘、闪存盘驱动器或其他数字存储设备。
I/O接口1108允许用户向计算设备1100提供输入、从该计算设备接收输出,以及以其他方式向该计算设备转移数据和从该计算设备接收数据。I/O接口1108可以包括鼠标、小键盘或键盘、触摸屏、相机、光学扫描仪、网络接口、调制解调器、其他已知I/O设备或此类I/O接口的组合。I/O接口1108可以包括用于向用户呈现输出的一个或多个设备,包括但不限于图形引擎、显示器(例如,显示屏)、一个或多个输出驱动程序(例如,显示驱动程序)、一个或多个音频扬声器,以及一个或多个音频驱动程序。在某些实施方案中,I/O接口1108被配置为向显示器提供图形数据以呈现给用户。图形数据可以表示一个或多个图形用户界面和/或可以服务于特定实施的任何其他图形内容。
通信接口1111可以包括硬件、软件或两者。在任何情况下,通信接口1111均可以提供用于计算设备1100与一个或多个其他计算设备或网络之间的通信(诸如例如,基于分组的通信)的一个或多个接口。作为一个示例,而非通过限制的方式,通信接口1111可以包括用于与以太网或其他基于线缆的网络通信的网络接口控制器(NIC)或网络适配器,或者用于与无线网络(诸如WI-FI)通信的无线NIC(WNIC)或无线适配器。
此外,通信接口1111可以促进与各种类型的有线网络或无线网络通信。通信接口1111还可以促进使用各种通信协议的通信。通信基础设施1111还可以包括将计算设备1100的部件彼此耦接的硬件、软件或两者。例如,通信接口1111可以使用一个或多个网络和/或协议以使得由特定基础设施连接的多个计算设备能够彼此通信以执行本文所述过程的一个或多个方面。为了说明,测序过程可允许多个设备(例如,客户端设备、测序设备和服务器设备)交换诸如测序数据和误差通知的信息。
在前述说明书中,本公开已经参考其特定示例性实施方案进行描述。参考本文所讨论的细节描述了本公开的各种实施方案和方面,并且附图说明各种实施方案。上面的描述和图是对本公开的说明,并且不应被解释为限制本公开。描述了许多特定细节以提供对本公开的各种实施方案的透彻理解。
本公开可以以其它特定形式体现而不脱离其精神或本质特征。所述实施方案在所有方面都应被视为仅为示例性的而非限制性的。例如,本文所描述的方法可以用更少或更多的步骤/动作执行,或者步骤/动作可以以不同的顺序执行。附加地,本文所描述的步骤/动作可以重复或与彼此并行地执行或与相同或类似步骤/动作的不同实例并行地执行。因此,本申请的范围由所附权利要求书而非前述描述来指示。在权利要求的等效含义和范围内的所有改变都将包含在其范围内。

Claims (20)

1.一种系统,包括:
至少一个处理器;以及
包括指令的非暂态计算机可读介质,所述指令在由所述至少一个处理器执行时使得所述系统:
确定由测序流水线生成的核苷酸碱基判读不同于参考基因组中的参考碱基的碱基判读错误率;
从根据碱基判读错误类型分组的所述碱基判读错误率检测一种或多种碱基判读错误模式;
基于所述一种或多种碱基判读错误模式,鉴定用于利用对应于所述测序流水线的一个或多个测序流水线的一个或多个样品测序运行的一种或多种样品碱基判读错误模式;以及
基于所述一种或多种碱基判读错误模式与所述一种或多种样品碱基判读错误模式之间的相关性,确定对应于所述测序流水线的碱基判读错误类型的故障来源。
2.根据权利要求1所述的系统,还包括以下指令,所述指令在由所述至少一个处理器执行时,使得所述系统通过确定由所述测序流水线生成的核苷酸碱基判读不同于所述参考碱基的核苷酸特异性错误率来确定所述碱基判读错误率。
3.根据权利要求1所述的系统,还包括以下指令,所述指令在由所述至少一个处理器执行时使得所述系统:
确定根据所述碱基判读错误类型和分别位于不正确的核苷酸碱基判读侧翼的不同的相邻核苷酸碱基分组的所述碱基判读错误率;以及
从根据所述碱基判读错误类型和所述不同的相邻核苷酸碱基分组的所述碱基判读错误率检测所述一种或多种碱基判读错误模式。
4.根据权利要求1所述的系统,还包括以下指令,所述指令在由所述至少一个处理器执行时,使得所述系统通过以下步骤确定对应于所述测序流水线的所述故障来源:
确定贡献量度,所述贡献量度指示测序流水线材料对来自所述测序流水线的碱基判读错误的贡献;以及
基于所述贡献量度确定所述碱基判读错误类型的所述故障来源。
5.根据权利要求4所述的系统,还包括以下指令,所述指令在由所述至少一个处理器执行时,使得所述系统通过确定促成来自所述测序流水线的所述碱基判读错误的所述测序流水线材料的可分配原因变异来确定所述贡献量度。
6.根据权利要求1所述的系统,还包括以下指令,所述指令在由所述至少一个处理器执行时,使得所述系统提供指示所述故障来源的通知,以显示在与所述测序流水线相关联的计算设备上。
7.根据权利要求1所述的系统,还包括以下指令,所述指令在由所述至少一个处理器执行时,使得所述系统通过将耗材产品、测序机器的一部分、软件应用程序或特征、或者核苷酸样品载片的一部分鉴定为促成所述测序流水线中的测序变异的因素来确定所述故障来源。
8.根据权利要求1所述的系统,还包括以下指令,所述指令在由所述至少一个处理器执行时,使得所述系统通过利用混淆矩阵来确定所述碱基判读错误率。
9.根据权利要求1所述的系统,还包括以下指令,所述指令在由所述至少一个处理器执行时,使得所述系统通过以下步骤鉴定用于所述一个或多个样品测序运行的所述一个或多个样品碱基判读错误模式:
基于制造鉴定数据从利用类似制造材料的样品测序运行中分类样品测序运行集合;
检测所述样品测序运行集合的不同样品碱基判读错误模式;以及
基于所述一种或多种碱基判读错误模式与所述一种或多种样品碱基判读错误模式之间的所述相关性,从所述样品测序运行集合的所述不同样品碱基判读错误模式之中鉴定所述一种或多种样品碱基判读错误模式。
10.根据权利要求9所述的系统,还包括以下指令,所述指令在由所述至少一个处理器执行时,使得所述系统通过以下步骤检测所述不同的样品碱基判读错误模式:
将用于所述样品测序运行的样品核苷酸片段读段进行聚集;
确定所述样品核苷酸碱基判读不同于所述参考碱基的样品核苷酸特异性错误率;以及
根据所述碱基判读错误类型和分别位于不正确的核苷酸碱基判读侧翼的不同的相邻核苷酸碱基对所述样品核苷酸特异性错误率进行分组。
11.根据权利要求9所述的系统,还包括以下指令,所述指令在由所述至少一个处理器执行时,使得所述系统通过以下步骤对利用类似制造材料的所述样品测序运行集合进行分类:
截短所述制造鉴定数据;以及
通过对共用相同的截短制造鉴定数据的阈值数量测序运行进行分组来生成一组测序运行。
12.一种包括指令的非暂态计算机可读介质,所述指令在由至少一个处理器执行时使得计算设备:
确定由测序流水线生成的核苷酸碱基判读不同于参考基因组中的参考碱基的碱基判读错误率;
从根据碱基判读错误类型分组的所述碱基判读错误率检测一种或多种碱基判读错误模式;
基于所述一种或多种碱基判读错误模式,鉴定用于利用对应于所述测序流水线的一个或多个测序流水线的一个或多个样品测序运行的一种或多种样品碱基判读错误模式;以及
基于所述一种或多种碱基判读错误模式与所述一种或多种样品碱基判读错误模式对应的概率,确定对应于所述测序流水线的碱基判读错误类型的故障来源。
13.根据权利要求12所述的非暂态计算机可读介质,还包括以下指令,所述指令在由所述至少一个处理器执行时,使得所述计算设备通过以下步骤确定对应于所述测序流水线的所述故障来源:
利用统计模型确定贡献量度,所述贡献量度指示测序流水线材料促成来自所述测序流水线的碱基判读错误的概率;以及
基于所述贡献量度确定所述碱基判读错误类型的所述故障来源。
14.根据权利要求13所述的非暂态计算机可读介质,还包括以下指令,所述指令在由所述至少一个处理器执行时,使得所述计算设备利用所述统计模型,通过利用方差成分模型生成促成所述碱基判读错误的所述测序流水线材料的可分配原因变异百分比,来确定所述贡献量度。
15.根据权利要求12所述的非暂态计算机可读介质,还包括以下指令,所述指令在由所述至少一个处理器执行时,使得所述计算设备通过鉴定所述一个或多个样品测序运行的现有样品碱基判读错误模式或者检测所述一个或多个样品测序运行的新样品碱基判读错误模式,来鉴定所述一个或多个样品测序运行的所述一种或多种样品碱基判读错误模式。
16.根据权利要求12所述的非暂态计算机可读介质,根据权利要求12所述的非暂态计算机可读介质,还包括以下指令,所述指令在由所述至少一个处理器执行时,使得所述计算设备基于特定类型的核苷酸碱基判读中的正确核苷酸碱基判读总数对包括碱基判读错误数据的混淆矩阵进行归一化来确定所述碱基判读错误率。
17.一种计算机实现的方法,包括:
确定由测序流水线生成的核苷酸碱基判读不同于参考基因组中的参考碱基的碱基判读错误率;
从根据碱基判读错误类型分组的所述碱基判读错误率检测一种或多种碱基判读错误模式;
基于所述一种或多种碱基判读错误模式,鉴定用于利用对应于所述测序流水线的一个或多个测序流水线的一个或多个样品测序运行的一种或多种样品碱基判读错误模式;以及
基于所述一种或多种碱基判读错误模式与所述一种或多种样品碱基判读错误模式之间的相关性,确定对应于所述测序流水线的碱基判读错误类型的故障来源。
18.根据权利要求17所述的计算机实现的方法,还包括:
确定根据位于不正确的核苷酸碱基判读侧翼的不同的相邻核苷酸碱基分组的所述碱基判读错误率;以及
从根据所述不同的相邻核苷酸碱基分组的所述碱基判读错误率检测所述一种或多种碱基判读错误模式。
19.根据权利要求17所述的计算机实现的方法,其中确定所述碱基判读错误率包括基于碱基判读错误的周期、时间或核苷酸读段中的一者或多者以及特定类型的核苷酸碱基判读中的正确核苷酸碱基判读总数对包括碱基判读错误数据的混淆矩阵进行归一化。
20.根据权利要求17所述的计算机实现的方法,还包括通过利用方差成分模型确定促成所述碱基判读错误类型的碱基判读错误的测序流水线材料的可分配原因变异百分比,来确定所述一种或多种碱基判读错误模式与所述一种或多种样品碱基判读错误模式之间的相关性。
CN202280043788.7A 2021-09-17 2022-08-22 从碱基判读错误模式自动鉴定核苷酸测序中的故障来源 Pending CN117561573A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163245639P 2021-09-17 2021-09-17
US63/245639 2021-09-17
PCT/US2022/075287 WO2023044229A1 (en) 2021-09-17 2022-08-22 Automatically identifying failure sources in nucleotide sequencing from base-call-error patterns

Publications (1)

Publication Number Publication Date
CN117561573A true CN117561573A (zh) 2024-02-13

Family

ID=83283306

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280043788.7A Pending CN117561573A (zh) 2021-09-17 2022-08-22 从碱基判读错误模式自动鉴定核苷酸测序中的故障来源

Country Status (3)

Country Link
US (1) US20230093253A1 (zh)
CN (1) CN117561573A (zh)
WO (1) WO2023044229A1 (zh)

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2044616A1 (en) 1989-10-26 1991-04-27 Roger Y. Tsien Dna sequencing
US5846719A (en) 1994-10-13 1998-12-08 Lynx Therapeutics, Inc. Oligonucleotide tags for sorting and identification
US5750341A (en) 1995-04-17 1998-05-12 Lynx Therapeutics, Inc. DNA sequencing by parallel oligonucleotide extensions
GB9620209D0 (en) 1996-09-27 1996-11-13 Cemu Bioteknik Ab Method of sequencing DNA
GB9626815D0 (en) 1996-12-23 1997-02-12 Cemu Bioteknik Ab Method of sequencing DNA
ES2563643T3 (es) 1997-04-01 2016-03-15 Illumina Cambridge Limited Método de secuenciación de ácido nucleico
US6969488B2 (en) 1998-05-22 2005-11-29 Solexa, Inc. System and apparatus for sequential processing of analytes
US6274320B1 (en) 1999-09-16 2001-08-14 Curagen Corporation Method of sequencing a nucleic acid
US7001792B2 (en) 2000-04-24 2006-02-21 Eagle Research & Development, Llc Ultra-fast nucleic acid sequencing device and a method for making and using the same
EP1975251A3 (en) 2000-07-07 2009-03-25 Visigen Biotechnologies, Inc. Real-time sequence determination
EP1354064A2 (en) 2000-12-01 2003-10-22 Visigen Biotechnologies, Inc. Enzymatic nucleic acid synthesis: compositions and methods for altering monomer incorporation fidelity
US7057026B2 (en) 2001-12-04 2006-06-06 Solexa Limited Labelled nucleotides
ES2407681T3 (es) 2002-08-23 2013-06-13 Illumina Cambridge Limited Nucleótidos modificados para la secuenciación de polinucleótidos.
GB0321306D0 (en) 2003-09-11 2003-10-15 Solexa Ltd Modified polymerases for improved incorporation of nucleotide analogues
JP2007525571A (ja) 2004-01-07 2007-09-06 ソレクサ リミテッド 修飾分子アレイ
CA2579150C (en) 2004-09-17 2014-11-25 Pacific Biosciences Of California, Inc. Apparatus and method for analysis of molecules
WO2006064199A1 (en) 2004-12-13 2006-06-22 Solexa Limited Improved method of nucleotide detection
JP4990886B2 (ja) 2005-05-10 2012-08-01 ソレックサ リミテッド 改良ポリメラーゼ
GB0514936D0 (en) 2005-07-20 2005-08-24 Solexa Ltd Preparation of templates for nucleic acid sequencing
US7405281B2 (en) 2005-09-29 2008-07-29 Pacific Biosciences Of California, Inc. Fluorescent nucleotide analogs and uses therefor
EP3373174A1 (en) 2006-03-31 2018-09-12 Illumina, Inc. Systems and devices for sequence by synthesis analysis
WO2008051530A2 (en) 2006-10-23 2008-05-02 Pacific Biosciences Of California, Inc. Polymerase enzymes and reagents for enhanced nucleic acid sequencing
EP4134667A1 (en) 2006-12-14 2023-02-15 Life Technologies Corporation Apparatus for measuring analytes using fet arrays
US8349167B2 (en) 2006-12-14 2013-01-08 Life Technologies Corporation Methods and apparatus for detecting molecular interactions using FET arrays
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
WO2008150432A1 (en) * 2007-06-01 2008-12-11 454 Life Sciences Corporation System and meth0d for identification of individual samples from a multiplex mixture
US20100137143A1 (en) 2008-10-22 2010-06-03 Ion Torrent Systems Incorporated Methods and apparatus for measuring analytes
US8951781B2 (en) 2011-01-10 2015-02-10 Illumina, Inc. Systems, methods, and apparatuses to image a sample for biological or chemical analysis
SI3623481T1 (sl) 2011-09-23 2022-01-31 Illumina, Inc. Sestavki za sekvenciranje nukleinske kisline
CA2867665C (en) 2012-04-03 2022-01-04 Illumina, Inc. Integrated optoelectronic read head and fluidic cartridge useful for nucleic acid sequencing
US10354747B1 (en) * 2016-05-06 2019-07-16 Verily Life Sciences Llc Deep learning analysis pipeline for next generation sequencing
US11347965B2 (en) * 2019-03-21 2022-05-31 Illumina, Inc. Training data generation for artificial intelligence-based sequencing

Also Published As

Publication number Publication date
WO2023044229A1 (en) 2023-03-23
US20230093253A1 (en) 2023-03-23

Similar Documents

Publication Publication Date Title
KR102539188B1 (ko) 심층 컨볼루션 신경망을 트레이닝하기 위한 심층 학습-기반 기술
AU2021257920A1 (en) Variant classifier based on deep neural networks
US20190318806A1 (en) Variant Classifier Based on Deep Neural Networks
US20220319641A1 (en) Machine-learning model for detecting a bubble within a nucleotide-sample slide for sequencing
CN117730372A (zh) 用于确定核苷酸碱基检出和碱基检出质量的信噪比度量
US20230093253A1 (en) Automatically identifying failure sources in nucleotide sequencing from base-call-error patterns
US20220415443A1 (en) Machine-learning model for generating confidence classifications for genomic coordinates
US20230340571A1 (en) Machine-learning models for selecting oligonucleotide probes for array technologies
US20240120027A1 (en) Machine-learning model for refining structural variant calls
US20230207050A1 (en) Machine learning model for recalibrating nucleotide base calls corresponding to target variants
US20230095961A1 (en) Graph reference genome and base-calling approach using imputed haplotypes
US20230420080A1 (en) Split-read alignment by intelligently identifying and scoring candidate split groups
US20230021577A1 (en) Machine-learning model for recalibrating nucleotide-base calls
US20230420082A1 (en) Generating and implementing a structural variation graph genome
US20240112753A1 (en) Target-variant-reference panel for imputing target variants
US20240038327A1 (en) Rapid single-cell multiomics processing using an executable file
US20240127905A1 (en) Integrating variant calls from multiple sequencing pipelines utilizing a machine learning architecture
NZ791625A (en) Variant classifier based on deep neural networks
Clarke Bioinformatics challenges of high-throughput SNP discovery and utilization in non-model organisms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination