CN110785813A - 具有多路生物样本聚合的测序系统 - Google Patents

具有多路生物样本聚合的测序系统 Download PDF

Info

Publication number
CN110785813A
CN110785813A CN201880041432.3A CN201880041432A CN110785813A CN 110785813 A CN110785813 A CN 110785813A CN 201880041432 A CN201880041432 A CN 201880041432A CN 110785813 A CN110785813 A CN 110785813A
Authority
CN
China
Prior art keywords
sequencing
biological sample
yield
data
quality control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201880041432.3A
Other languages
English (en)
Inventor
E·史密斯
J·比尔勒
S·金
T·阿拉贡
P·克鲁兹
R·康斯坦德斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Irumina Co Ltd
Illumina Inc
Original Assignee
Irumina Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Irumina Co Ltd filed Critical Irumina Co Ltd
Publication of CN110785813A publication Critical patent/CN110785813A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing

Abstract

对于测序产量的每生物样本聚集,支持各种各样的方案。测序系统可以对多个生物样本进行并行测序。当获得测序产量结果时,它们可以与生物样本匹配,并且可以监视针对生物样本的测序进展。可以指定目标产量,使得当聚合的产量达到目标时自动启动测序产量分析应用。与质量控制和进展中的产量相关的其他功能可以带来更有效的测序活动并减少浪费。

Description

具有多路生物样本聚合的测序系统
相关申请
本申请要求2017年7月31日提交的美国临时申请No.62/539,402的权益,该临时申请通过引用纳入本申请。
技术领域
测序技术继续以令人难以置信的速度发展。曾经花费数月或数年才能完成的事情现在可以在几天内完成。然而,虽然完成测序任务的能力已经提高,但协调这些任务的逻辑现在已经超出了实验室或科学家可用的工具的能力。例如,在高通量实验室环境中,可以并行运行许多测序任务。由于多路测序运行的可用性,可以在单个测序器上并行运行大量测序任务。除了这些复杂性之外,通常的做法是在单个实验室中同时运行多个测序器。
因此,随着多路和其他技术提供了更有效和更快的测序环境,生成测序数据的能力超过了合成和分析所得测序数据的能力。
因此存在改进的空间。
发明内容
本发明内容是为了以简化的形式介绍一些概念,这些概念将在下面的具体描述中进一步描述。本发明内容不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于限制所要求保护的主题的范围。
在一个示例中,测序设备系统包括多个测序设备,其输出包括特定生物样本的多个输入生物样本的多路原始生物样本测序数据,其中序列产量的碱基对的目标数目被指定为足以启动用于进一步分析特定生物样本的应用;一个或多个处理器;以及耦合到一个或多个处理器的存储器,其中存储器包括计算机可执行指令,使得一个或多个处理器执行过程,所述过程包括:从多个测序设备接收多个输入生物样本的多路原始生物样本测序数据;将多路原始生物样本测序数据多路分解并转换成多个候选生物样本测序产量数据集;识别哪个候选生物样本测序产量数据集源自特定生物样本;将源自特定生物样本的候选生物样本测序产量数据集聚合成特定生物样本的聚合的测序数据产量;确定特定生物样本的聚合的测序数据产量是否足够,其中确定聚合测序数据产量是否足够包括将特定生物样本的聚合的测序数据产量中的碱基对数目与碱基对的目标数目进行比较;以及响应于确定特定生物样本的聚合的测序数据产量是足够的,启动执行进一步分析具有特定生物样本的聚合的测序数据产量的特定生物样本的应用。
在另一个示例中,测序设备系统包括多个测序设备,其输出包括特定生物样本的多个输入生物样本的多路原始生物样本测序数据;在一个或多个计算机可读介质中,存储为运行标识符、通道标识符、库标识符和生物样本标识符的测序运行、通道、库和生物样本的内部表示;以及产量聚合器,其被配置为接收源自多路原始生物样本测序数据的多路分解的候选生物样本测序产量数据集,从内部表示确定源自特定生物样本的数据集,将数据集与源自相同的特定生物样本的其他数据集聚合,并提供对特定生物样本获得的产量的总量的指示。
如本文所述,可以根据需要将各种其他特征和优点整合到所述技术中。
附图说明
图1是实现多路生物样本聚合的示例系统的框图。
图2是实现多路生物样本聚合的示例方法的流程图。
图3是执行用于多路生物样本聚合的单个测序运行的示例系统的框图。
图4是执行用于多路生物样本聚合的单次测序运行的示例方法的流程图。
图5是多路生物样本聚合方案中的测序实体的示例关系的框图。
图6是在多路生物样本聚合方案中处理测序实体的示例方法的流程图。
图7是聚合来自多路生物样本的产量的示例系统的框图。
图8是聚合来自多路生物样本的产量的示例方法的流程图。
图9是基于质量控制选择性地聚合来自多路生物样本的产量的示例系统的框图。
图10是实现基于质量控制的选择性聚合的示例方法的流程图。
图11是示例聚合系统的框图,其示出了与特定生物样本有关的数据如何被识别为源自特定生物样本的细节。
图12是示例聚合方法的流程图,其示出了如何将与特定生物样本有关的数据识别为源自特定生物样本的细节。
图13是经由基于质量控制的选择性产量聚合器跟踪产量进展的示例系统的框图。
图14是在基于质量控制的选择性产量聚合方案中跟踪产量进展的示例方法的流程图。
图15是考虑进展中的产量来确定生物样本是否有足够的测序产量的示例方法的流程图。
图16A-图16D是示出了涉及质量控制失败的示例性的基于质量控制的选择性产量聚合方案中的产量进展的条形图。
图17示出了涉及质量控制失败的示例性的基于质量控制的选择性产量聚合方案中的产量进展的内部表示。
图18A-图18E和图19A-图19D是示出了示例性过期产量方案中的产量进展的条形图。
图20是将来自测序运行的预期产量与用于跟踪产量进展的实验室请求进行匹配的示例系统的框图。
图21是将来自测序运行的预期产量与用于跟踪产量进展的实验室请求进行匹配的示例方法的流程图。
图22是在产量匹配期间使用的测序实体之间的关系的示例性内部表示的框图。
图23是技术示例性实现为综合测序解决方案的方法的流程图。
图24是实现针对技术的工作指令的示例方法的流程图。
图25是通过测序通道在测序数据聚合方案中实现质量控制的示例方法的流程图。
图26是跨测序实体实现基于质量控制的选择性产量聚合的示例方法的流程图。
图27是其中可以实现所描述的示例的示例计算系统的图。
具体实施方式
本文描述了涉及由生物样本测序数据的聚合的各种方案。源自各种测序实体的测序产量可以在各种情况下聚合,提供更有效的测序数据处理和更快的结果。可以结合其他特征以增强如本文所述的技术。
可以使质量控制自动化以实现选择性聚合,使得聚合结果提供有意义的、可用的信息,其可以用于决定何时可以继续进一步分析。
当聚合结果指示已经聚合了足够的产量时,可以触发自动启动用于对聚合产量执行进一步分析的应用。
如本文所述,进展中的产量特征可有助于避免缺失产量确定中的假阳性。结果,浪费的测序运行和过度测序可以避免。
这些技术可以考虑失败的产量,例如与失败的质量控制度量相关的产量。可以提供重新排列警报,使得可以及时获得足够的产量。这些技术可以考虑缺失产量确定中的这种重新排列。超时可用于实现过期产量方案。
科学家可以从这些技术中受益,因为准确的聚合产量可以更好地指示缺失的产量、失败的产量等。由于完成这种进一步分析所需的时间量,自动启动进一步的分析应用可以导致显著更高的通量。
因此,如本文所述,可以增强测序和相关分析的总体性能。
示例1-示例优点
如本文所述,这些技术可以带来许多优点。在某些情况下,完成生物样本分析的瓶颈可能是确定有足够的产量。由于测序的多路性质,无法立刻明确得知,完成的测序运行指示现在有足够的产量,并且可以启动进一步的分析。由于此类进一步分析可能需要很长时间才能完成,当系统经由本文所述的聚合的生物样本产量技术检测到有足够的产量时,这些技术可以通过自动启动产量分析应用来大大提高总体吞吐量。整体工作完成得更快。
可以产生许多其他益处,例如增加测序进展的可见性、改进测序工作流程的管理等。
示例2-实现多路生物样本聚合的系统的示例
图1是实现多路生物样本聚合的示例系统100的框图。
在该示例中,多个生物样本105A-105N用于准备相关库110A-110M。将库110A-110M组合成池115A-115K。池115A-115K用作测序设备系统120的物理输入。即,通过测序设备130A-130Z对池进行测序。
测序设备130A-130Z执行测序运行并输出原始测序数据,该原始测序数据被作为多路分解器的数据格式转换器140多路分解和格式转换,数据格式转换器140将测序产量数据集输出到基于质量控制的选择性聚合器150,基于质量控制的选择性聚合器150可以执行本文描述的聚合方法。
如本文所述,基于质量控制的选择性聚合器150可以聚合各个生物样本105A-105N的测序产量,跟踪产量进展,考虑质量控制度量,并且当足够的产量被聚合时,对聚合的生物样本产量170A-170N(例如,测序产量数据集)自动启动产量分析应用180。可以由聚合器150执行与本文所述的聚合相关的任何方法。
尽管示出了单一产量分析应用180,但实际上,可以使用不同的应用来分析不同生物样本的产量。并且,不同的应用也可用于分析相同生物样本的产量。
尽管未示出,但是测序实体的内部表示可以存储在一个或多个计算机可读介质中。例如,测序运行、通道、库、生物样本等的内部表示可以存储为运行标识符、通道标识符、库标识符、生物样本标识符等。还可以存储实体之间的关系也指示哪些通道与哪些运行相关,等等。产量聚合器150可以被配置为接收源自多路原始生物样本测序数据的多路分解的候选生物样本测序产量数据集,并且从内部表示确定数据集源自特定生物样本,将数据集与源自相同的特定生物样本的其他数据集聚合,并计算针对特定生物样本获得的产量的总量(例如,通过将来自聚合数据集的产量加在一起)。
然后,应用180可以产生生物样本结果190A-190N。由于数据量和分析的复杂性,产量分析应用180花费大量时间(例如,小时、天等)来完成并不罕见。因此,有足够的产量可用后立即开始分析是有利的(例如,无论一天的何时,科学家目前是否知道产量可用,或者实验室当时是否配备人员)。
可以对生物样本结果190A-190N执行进一步的分析。
如本文所述,有时由于各种原因请求生物样本的附加产量是可取的。例如,从初始测序请求实际获得的聚合生物样本产量可能不足。本文的技术可以支持重新排列请求185A-185C,其可以指定要进行附加测序。取决于质量控制和/或剩余的物理生物材料,这种重新排列可以在不同水平(例如,池水平185A、库水平185B、或生物样本水平185C)发生。然后可以如本文所述测序、获得和聚合附加的产量。
在本文的任何示例中,尽管一些子系统在单个框中示出,但实际上,它们可以以具有多于一个设备的系统实现。组件之间的边界可以变化。例如,尽管作为多路分解器的数据格式转换器140被示为单个实体,但是它可以由跨多个物理位置的多个设备来实现。
实际上,本文所示的系统,例如系统100,可以在复杂性以及附加功能、更复杂的组件等方面变化。例如,附加服务可以实现为定序设备130A-130Z的一部分。可以包括附加组件以实现基于云的计算、安全性、冗余、负载平衡、审计等。
实际上,本文所示的系统,例如系统100,可以实现为自动化测序编排环境的一部分,其提供用于管理测序任务和后续分析的各种功能(例如,科学家可以在其中实现他们的研究或实验目标的自动化工作空间)。出于灵活性和协作目的,这样的环境可以实现基于云的功能。虽然系统的一些部分在测序仪器本身中实现(例如,在设备130A-130Z内分析池115A-115K),但系统的其他部分可以在测序编排环境中实现。测序设备和环境之间的实际分工可以变化。实际上,聚合器150和产量分析应用180通常是测序编排环境的一部分。作为多路分解器的数据格式转换器可以在设备130B内或在环境内实现。
所描述的系统100可以与如本文所述的实验室信息管理系统集成。
所描述的系统可以经由有线或无线网络连接联网到全球计算机网络(例如,因特网)。可替代地,系统可以通过内联网连接(例如,在公司环境、政府环境、教育环境、研究环境等)而连接。
系统100和本文描述的任何其他系统可以结合本文描述的任何硬件组件来实现,所述硬件组件诸如下面描述的计算系统(例如,处理单元、存储器等)。在本文的任何示例中,输入、输出、聚合的生物样本产量、生物样本产量进展、配置信息等可以存储在一个或多个计算机可读存储介质或计算机可读存储设备中。本文描述的技术可以是与操作系统或硬件的细节通用的,并且可以应用于任何种类的环境中以利用所描述的特征。
示例3-多路生物样本聚合方法的示例
图2是实现多路生物样本聚合的示例方法200的流程图,并且可以例如在诸如图1所示的系统中实现。可以支持多个生物样本。
实际上,可以在过程开始之前采取动作。例如,科学家可能决定进行一系列涉及多个生物样本的实验。或者,实验室人员可以安排生物样本分析以提高效率,同时保持过程的完整性。如本文所述,当没有充分产量可用时,还可以支持重新排列功能以获得附加的产量。
在210处,在实验室中从生物样本准备库。在实践中,可以通过准备和提交指定生物样本的各种细节的工作指令、相关库(例如,准备试剂盒)和其他相关信息来组织这种准备的逻辑。该库可以与不同的序列相关联,其允许识别在池场景中识别的生物样本的结果。这种排列有时被称为“条形码”,因为该序列有效地用作测序仪器产生的测序结果中的条形码标识符。
如果需要,可以将库组合成池,导致如本文所述的多路测序。然而,可以在不使用池的情况下实现本文的许多特征。因此,还可以实现未多路化的聚合(例如,聚合生物样本的产量,其中至少一个生物样本经由包含通道或测序仪器中的单个库的池测序)。这种未多路化的聚合仍然可以提供本文描述的许多益处。
在240处,在一次或多次测序运行期间对池进行测序,产生多路输出。在实践中,测序运行可以并行运行,使得同时执行多于一次的测序运行(例如,在多于一种仪器上)。并行性也可以通过每个仪器在多于一个测序通道上进行测序来实现。测序仪器本身可以产生多路输出,其中可以在单次测序运行期间产生多于一个生物样本(例如,与生物样本相关联的库)的测序数据。
在250处,对测序运行的输出进行多路分解,并且将数据的格式从原始数据格式转换为测序产量格式(例如,从.bcl文件到由库分离的FASTQ数据集的转换)。如本文所述,在实践中,生物样本与一个或多个库相关联,其允许通过识别与以原始数据格式的库相关联的条形码来与生物样本相关联。
质量控制度量的评估可以影响聚合过程。例如,如果某些结果被识别为失败的质量控制,则可以从聚合中排除这些结果。因此,可以实现基于质量控制的选择性聚合。如本文所述,可以实现各种各样的质量控制度量和方案,包括对自动质量控制失败的明确否定。
在260处,基于生物样本标识符的识别,通过生物样本来聚合测序产量。例如,尽管一组测序运行可能涉及许多不同的生物样本,但所描述的技术能够通过运行中的生物样本协调测序产量的聚合,包括在简单的情景或涉及池、跨通道的平行测序、跨仪器的平行测序、由于质量控制失败的重新排列等更复杂的情景。
在270处,确定是否有足够的生物样本的产量(例如,如生物样本标识符所标识的)。例如,相关联的电子工作指令可以指定目标数目的碱基对是足够的。当获得足够的产量时,工作指令可以进一步指定要以产量作为输入启动的应用。如本文所述,确定足够的产量可涉及许多因素,包括质量控制确定,进展中的产量和其他技术,使得可以对是否实际存在足够的可用产量、是否建议请求额外的产量等进行实际、准确的确定。
响应于确定有足够的产量,在280处自动启动应用(例如,在相关联的工作指令中指定的)并且将聚合的测序产量作为输入提供。
另一方面,响应于确定产量不足,可以生成适当的警报,导致在290处重新排列生物样本运行。然后该过程导致进一步的测序活动。尽管该示例示出了涉及对现有池进行测序的重新排列方案,但是如本文所述,其他重新排列方案也是可能的。然后,最终将重新排列的测序结果与生物样本进行匹配和聚合,从而重新评估是否有足够的产量。可以进行多次重新排列。
作为重新排列过程的一部分,可以考虑进展中的产量。例如,可以将一定量的产量指定为“待定”,并且如本文所述当确定是否存在的足够产量时可以考虑这样的产量。
示例4-生物样本示例
在本文的任何示例中,生物的样本(或“生物样本”或简称“样本”)可用作技术的物理输入。在实践中,这种生物样本可以采取源自活生物体的大量生物材料的形式。例如,可以获取来自唾液、血液、肿瘤或器官的有机组织并将其加工成适合于测序或库准备的形式。在一些情况下,期望将生物样本限制于一种特定生物体(例如,具有共享基因组的生物体),但是可以支持多生物体生物样本。
生物样本准备请求可以是用于对一定量数据进行测序的请求。这种产量在本文中称为“目标产量”或“所需产量”。为了便于跟踪测序系统内的生物样本,可以将生物样本标识符(或“生物样本id”)分配给特定的生物样本并存储在系统的各种组件中。例如,生物样本标识符可以与在特定仪器、通道等上测序的特定库相关联。随后,当测序仪器提供测序数据时,数据可以与生物样本标识符匹配,从而允许确定是否存在如本文所述的足够的产量。
因此,当在本文中使用术语“生物样本”时,它通常是“生物样本标识符”的同义词。例如,在实践中,确定是否有足够的生物样本的产量采取确定是否有足够的生物样本标识符(由其标识的生物样本)的产量的形式。相反,当使用“生物样本标识符”或“生物样本id”时,指示生物样本。
示例5-示例生物样本清单
在本文的任何示例中,可以存储电子生物样本清单,其指示生物样本名称、项目、容器名称、容器、准备请求、目标产量(例如,以Gbp计)、分析工作流程、样本标签、传送模式、来源和样本类型。清单可以指示某些样本被分组(例如,通过产量分析程序一起分析)。在组的情况下,响应于确定针对组的成员获得足够的产量,可以发生应用的自动启动。
示例6–索引序列示例
在本文的任何示例中,可以通过使用索引序列(或简称“索引”)来完成多路测序。在实践中,生物样本准备试剂盒(kit)可以通过创建库来准备用于测序的生物样本,使得在测序期间针对生物样本检测独特碱基序列。其他生物样本可以有其他索引,因此即使它们一起测序,也可以区分结果。索引序列有时被称为“条形码”,因为它用作测序过程中读取的序列当中的区分。
如本文所述,可以跨多个测序仪器对单个生物样本进行测序。在这种情况下,单个生物样本可以与多个不同的索引相关联(例如,第一池中的第一索引在第一仪器上测序,第二池中的第二、不同的索引在第二仪器上测序,等等)。相反,相同的索引可以用于多于一个生物样本(例如,在第一仪器上测序的第一池中的第一生物样本可以使用与在第二仪器上测序的另一个池中的第二生物样本相同的索引)。因此,尽管生物样本和索引之间存在某种相关性,但生物样本标识符并不总是与相同的索引标识符匹配;因此,它们不能总是互换使用。可以如本文所述使用从指定生物样本标识符的样本表累积的其他信息,以使测序数据与特定生物样本完全相关。然后可以如本文所述完成质量控制和聚合。
在内部,索引序列可以在计算机可读介质中表示为字符串。例如,有效字符可以是A、C、G和T。还可以包括“N”,其中“N”匹配任何碱基。
索引可以具有由测序编排环境分配的相关联的索引标识符(例如,多个其他标识符),以用于跟踪和/或显示目的。这种标识符有时简称为“索引”,以用于方便的目的。
示例7-测序产量示例
待处理的实际测序产量可以采取生物样本中检测到的核苷酸序列的形式(例如,“n-mers”),然后可以进一步分析(例如,通过如本文所述的产量分析应用)以确定生物样本的特征。
在实践中,产量是该方法的重要部分,因为足够量的产量通常指定为需要执行进一步分析。因此,术语“产量”有时用于简单地表示产量。实际上,产量可以用碱基对(bp)、千兆碱基对(Gbp或Gb)等表示。
示例8-产量聚合示例
在本文的任何示例中,可以通过生物样本聚合测序产量。换句话说,可以实现每个生物样本测序产量的聚合。因此,来自特定生物样本的各种不同产量路径的产量可以与来自该特定生物样本的其他产量组合,而来自其他生物样本的产量不与来自该特定生物样本的产量组合。可以针对多个生物样本执行这样的过程,导致多个生物样本的聚合产量,每个通过生物样本分离。
实际上,产量可以采取将测序产量数据集(例如,FASTQ文件)聚合成特定数据样本的测序产量数据产量的形式。因为这些数据集可能被拒绝作为聚合过程的一部分(例如,因为它们是否来自另一个生物样本、不满足质量控制等),它们有时最初被称为“候选生物样本测序产量数据集”。这些被识别为源自特定生物样本并且还满足质量控制的候选数据集实际上是聚合的。
尽管本文使用术语“组合”,但产量组合可采用逻辑组合的形式。例如,可以将具有产量结果的一组文件指定为属于相同的生物样本而不实际将文件组合在一起。但是,在分析期间的某个时刻,可以根据需要执行组合。
基于质量控制来选择要包括哪些数据集有时被称为“选择性聚合”,因为可以从聚合中排除(例如,未选择)被确定为不满足质量控制的一些数据。因此,在本文的任何示例中,聚合可以在该产量中采取基于质量控制的选择性聚合的形式,由此可以从聚合中排除(例如,滤除)被检测或指定为失败质量控制的产量。
如本文所述,由系统可以通过监测获得的产量的碱基对的数目,以及考虑进展中的产量、失败的产量等来监测每个生物样本的测序进展。
以这种方式,可以确定针对特定生物样本的测序进展的清晰和准确的情形,并且可以管理测序过程以提高效率并减少浪费。
示例9-示例测序仪器
在本文的任何示例中,测序仪器(也称为“测序设备”或“设备”)可用于生成针对生物样本的序列数据。在实践中,测序仪器观察生物样本中存在的核苷酸序列,并且此类序列通常用于整个过程,有时称为“对生物样本进行测序”。
本文描述的技术可以使用多种测序硬件中的任何一种,包括可从加利福尼亚州圣地亚哥的Illumina公司获得的ILLUMINA系列测序仪器,包括MiniSeq、HiSeq、MiSeq、HiScanSQ、NextSeq或NovaSeq仪器。
示例10–重新排列示例
在本文的任何示例中,可以重新排列生物样本测序。在实践中,许多测序任务可以在没有意外的情况下完成,并且可以在不必进行重新排列处理的情况下进一步分析所得到的测序数据。例如,在指定产量分析应用以及具有足够产量的指示的情况下,当获得足够的产量时,可以自动启动应用。
然而,由于各种原因中的任何一种,在测序过程中可能存在失败,无论是数据累积还是结果置信度的失败。失败可以由一个或多个质量控制度量(例如,在一个或多个相应阈值之外)、有缺陷的生物样本、生物样本的不正确准备、有缺陷的设备或试剂、组件当中的干扰、物理失常或许多其他变量中的任何一个导致。
在这种情况下,通常希望重新开始测序过程的某个阶段并获得附加的产量,使得最终可以获得足够的产量。
如本文所述,当发现产量不足时,可以发出重新排列警报。实际上,缺失的产量警报可以用作重新排列警报。
与缺失的产量条件相关联的用户界面可以有助于容易地启动重新排列,并且重新排列过程可以包括考虑与重新排列相关联的进展中的产量,以及当重新排列的产量到达时准备将产量与请求匹配。
如本文所述,取决于失败发生的位置和/或待测序的物理材料的数目,可以在测序过程的不同阶段进行重新排列。例如,如果与失败的产量相关联的池可用,则可以简单地对池重新测序。在一些情况下,可以与除了与被重新排列的特定生物样本相关联的库之外的库相关联,但是重新排列的决定可以考虑这种情况。
如果池的剩余量不可用或不希望被测序,则可以重新测序所准备的库(例如,是否组合到池中)。并且,如果库的剩余量不可用或不希望被测序,则生物样本本身可用于准备更多或不同的库材料用于测序。类似地可以涉及库类型。
与重新排列相关联的工作指令可以与生物样本相关联,并且工作指令可以被指定为重新排列。因此,当最终提供产量时,它可以与如本文所述的重新排列请求匹配。然后可以将产量聚合到生物样本的其他产量,并且可以更新进展(例如,待定产量等)以进一步确定是否有足够的产量。
示例11-缺失产量条件警报示例
在本文的任何示例中,缺失的产量条件警报(或“缺失产量警报”)可以采取明确的消息、示出产量缺失的产量显示等形式。
例如,警报可以发出、显示或被传递以由用户快速行动。或者,在仪表板上显示正在测序的生物样本的进展期间,对于相应的生物样本的产量可以指示进展。可以在仪表板上指示缺失的产量(例如,通过以独特颜色暗示或明确显示具有缺失产量的那些生物样本的产量等)。
实际上,缺失的产量条件警报可以用作重新排列警报。与缺失的产量条件相关联的用户界面可以便于轻松启动重新排列(例如,指定为重新排列工作指令的适当工作指令)。因此,缺失产量警报可以包括用户界面元件,其用于请求针对特定生物样本的测序处理的重新排列。例如,可以显示图形按钮,并且响应于按钮的激活,可以开始用于重新排列的工作流程,包括收集工作指令的信息或最终包括在这样的工作指令中的信息。可以存储信息并随后与到来的产量数据集匹配,使得可以实现聚合。这样的信息可以包括生物样本标识符、库、仪器、通道信息、预期产量的量等。
示例12–示例工作指令
在本文的任何示例中,工作指令可以采用各种电子形式。在实践中,工作指令可以是指示,其指示测序活动并且由测序系统以电子方式存储和传递。例如,工作指令可以请求生物样本的准备和测序。因此,工作指令可以包含或采取准备请求(或“准备请求”)的形式,指定生物样本的准备和测序。电子样本表可以包含有助于测序活动的进一步信息,并且工作指令可以参考(例如,链接到)样本表。
工作指令可以指定如何准备生物样本(例如,用于准备库的试剂盒的类型等)。
如本文所述,工作指令可以进一步指定什么是足够的测序产量和在获得这种测序产量时要启动的应用。
工作指令还可以如本文所述指定用于重新排列。
示例13–示例测序编排环境
本文中的任何示例都可以在测序编排环境中实现。这样的环境可以采用自动化工作空间的形式,用户可以在自动化工作空间中监视、控制和分析测序任务。丰富的功能还可以跟踪样本和库的准备,并用作各种测序信息的中心。
基于云的功能可以支持来自各种位置和设备的连接,使得用户能够持续地编排各种各样的任务。
生物样本标识符、电子样本表、多路原始生物样本测序数据之间的关系从测序产量数据集的测序仪器中输出。
示例14-示例产量分析应用
在本文的任何示例中,产量分析应用可在如本文所述的测序编配环境中执行。这些应用可用于遗传分析、数据处理、数据质量控制、数据可视化、基因表达和调控、微生物基因组学、宏基因组学、蛋白质组学等领域。此类应用的示例包括执行基因表达谱分析、外显子组测序、全基因组测序、肿瘤分析、法医分析、从头测序等的那些应用。
这种产量分析应用可以执行多种功能,例如比对、变体调用、变体分析、从头组装、系统发育分析、病毒分型、途径分析等。
产量分析应用可以由除提供基础测序仪器或测序设备系统的其他组件的那些方之外的其他方提供。此类应用可以在测序编排环境中执行,并且如本文所述被提供有获得的测序产量。
这些应用的示例包括Amplicon DS应用、TruSight Tumor应用、Tumor Normal应用、全基因组测序应用、MethylKit应用以及现在可用或以后开发的各种其他应用。
示例15-测序实体示例
在本文的任何示例中,可以针对各种测序实体或跨各种测序实体执行各种过程。此类测序实体可包括生物样本、库、库类型、池、测序仪器、测序运行、流通池通道、小区等)
示例16-执行单个测序运行的示例系统
图3是执行用于多路生物样本聚合的单次测序运行的示例系统300的框图。在该示例中,准备了多个被准备用于测序的生物样本和相对应的库。生物样本与库的关系可以是一对多。换句话说,可以使用相同的、单个生物样本来创建一个或多个库。
实际上,可以实现更复杂的场景。例如,许多测序运行可以跨多个测序仪器并行执行。
尽管不是测序或聚合所必需的,但是如图所示将多个库组合成单个物理池,然后在单个测序运行中对单个物理池进行分析,该测序运行具有多个并行执行测序的测序通道。
如所示,单个测序仪器可以在单次测序运行期间分析多个通道。对测序通道的分析产生相应组的FASTQ文件,其表示多路分解的测序数据(即,表示测序产量)。至于这一点,产量尚未被考虑获得,因为它可能遭受质量控制问题。产量还未被考虑聚合,因为尚未将其合并到同一生物样本的其他产量数据集中。
如图所示,特定生物样本(例如,生物样本1)的聚合可以由基于质量控制的选择性聚合器350通过识别和组合(例如,关联在一起)特定生物样本的FASTQ文件来实现。
如本文所述,可以监视测序产量进展,并且最终可以进一步分析获得的生物样本的产量。
示例17-执行单个测序运行的示例方法
图4是执行单个测序运行以用于多路生物样本聚合,并且可以例如通过图3的系统来执行的示例性方法400的流程图。实际上,方法400可以并行实现(例如,同时在测序仪器上执行多个测序运行)。
在420处,如本文所述准备用于多个生物样本的库。
尽管不需要测序或聚合,但是在430处,来自多个生物样本的库被组合到如本文所述的池中。
在440处,测序仪器对池进行测序,产生多路输出。如本文所述,仪器可具有多个通道。
在450处,从测序运行接收来自测序器的多个通道的输出。
在460处,可以根据库索引对输出进行多路分解。例如,通过库索引(例如,索引条形码)将与不同库相关联的不同结果分组在一起。
在470处,如本文所述聚合特定生物样本的产量。在实践中,库的识别与生物样本相关。来自测序仪器的到来的产量可以与特定的生物样本匹配(例如,经由生物样本与工作指令、库等的关联)。
示例18-示例库类型
尽管本文中的许多描述涉及一般意义上的库,但是可以具有不同的库类型。在描述聚合的任何示例中,也可以按库类型进行聚合。
多种库准备试剂盒类型可用于从生物样本准备不同的库类型。生物样本可用于生成特定类型的一个或多个库,并且可以针对每种库类型明显地执行生物样本的测序数据的聚合。例如,生物样本1可用于生成类型A(例如A1、A2和A3)的库和类型B(例如B1和B2)库,并且当针对生物样本1聚合测序数据时,来自A1、A2和A3的数据与来自B1和B2的数据分开聚合。
例如,
*生物样本1
*库(类型A)-聚合在一起(A1+A2+A3)
*库(类型b)-聚合在一起(B1+B2)
以这种方式,分析可以指定不同库类型的一定量的产量是足够的(例如,40Gbp类型A,以及20Gbp类型B)。重新排列和进展功能可以扩展到库类型(例如,警报指定需要库类型A的更多的产量,并且实现重新排列并且最终聚合回生物样本的产量,作为库类型A的产量)。
示例19-执行单个测序运行的示例系统
图5是用于多路生物样本聚合场景中的测序实体的示例关系500的框图。在实践中,这种关系可能变得复杂且难以跟踪和分析。本文描述的技术可以使科学家和其他用户不必担心这些复杂性,并专注于他们的研究或实验的最终目标。
实际上,可以将单个生物样本处理为一个或多个库,并且这些库可以是如本文所述的不同类型。
特定库可以找到进入一个或多个池的路径(并且,池可以包含一个或多个库)。
然后可以在一个或多个测序运行中的一个或多个测序通道中对池进行测序(例如,通过一个或多个测序仪器执行)。
对单个测序通道的运行的测序结果可以产生一个或多个测序产量数据集(例如,FASTQ文件),并且任何测序产量数据集可以用作到基于质量控制的选择性聚合器550的输入以实现如本文所述的聚合。
示例20-执行单个测序运行的示例方法
图6是在多路生物样本聚合场景中处理测序实体,并且可以例如根据图5的布置来实现的示例方法600的流程图。
在620处,从生物样本准备一个或多个库。跟踪生物样本,以便库(例如,由独特的核苷酸串识别)之间的关系可以被存储,并且可以用于将测序结果与特定的生物样本相关联以用于聚合目的。
在630处,从生物样本准备一个或多个池。池也可以跟踪。例如,池可以与特定测序运行的特定通道相关联。
在640处,准备具有一个或多个通道的一个或多个测序运行,并且可以跟踪此类测序运行以用于稍后将产量聚合到生物样本的目的。
在650处,接收测序运行的生物样本的原始生物样本测序数据。实际上,在通道水平处接收数据,并且可以如本文所述跟踪测序通道。多路分解可以将原始数据转换为测序产量数据集。
在660处,可以在生物样本、库、池、通道和/或运行水平处执行质量控制。如本文所述,可以实现自动质量控制度量,并且用户可以重写这样的自动化确定。
在670处,将特定生物样本的生物样本测序产量数据集聚合成聚合产量,排除不满足如本文所述的质量控制的测序产量数据。
示例21-跨测序实体进行聚合的示例系统
图7是聚合来自多路生物样本的产量的示例系统500的框图。在该示例中,有生物样本与库的1:1映射,并且并行分析生物样本A-H。
将多个库组合成池1-12,其通过多个测序运行进行分析。
为了说明,示出了用8个通道进行的特定测序运行。对于测序运行,原始数据被多路分解成8组生物样本测序产量数据集(即,每个通道一个)。产量数据集可以按相关样本分组,即使数据来自不同的通道。
基于质量控制的选择性聚合器750可以接收生物样本测序产量数据集并且聚合满足如本文所述的质量控制的特定生物样本的产量。尽管该图示出了针对单个测序运行的聚合,但实际上,可以在多个测序运行中聚合。
示例22-跨测序实体执行聚合的示例方法
图8是从多路生物样本聚合产量并且可以例如在图7所示的布置中实现的示例方法800的流程图。在820处,针对产量的分析启动产量分析应用。在830处,选择生物样本B作为输入。实际上,可以提供生物样本标识符或名称。
在840处,收集生物样本B的满足质量控制的高质量数据(例如,生物样本测序产量数据集),从而导致聚合。
在850处,将高质量数据文件提交给应用。
在860处,分析文件,并且应用提供输出。
示例23-聚合的示例模式
在本文的任何示例中,多种模式可以用于聚合。一种示例模式是响应请求而按需聚合。图8示出了这种情况。产量数据到达并存储。用户可以激活产量分析应用(例如,通过选择用户界面中的按钮)。然后可以发生聚合,并且聚合的数据被产量分析应用用作输入。
可替换地,可以持续地执行聚合。例如,可以检测指示到来的产量(例如,生物样本测序产量数据集)到达的事件,并且可以聚合到来的产量。作为设置生物样本工作流程的一部分,请求用户可以指定要响应于获取指定的产量而启动的特定产量分析应用。在指定(例如,假设获得的产量)之后,用户不需要采取进一步的行动。如本文所述,当获得足够的产量时,可以启动应用。
示例24-跨测序实体执行选择性聚合的示例系统
图9是选择性地聚合来自多路生物样本的产量的示例系统900的框图。该场景与图7的场景并行。然而,已经确定特定通道(即通道1)和特定库(即库E)的质量控制失败。结果,这些实体的测序产量数据集不包括在基于质量控制的选择性聚合器950的聚合中。
尽管在通道和库水平处示出了失败,但质量控制可用于检测本文所述的任何各种测序实体的水平处的失败。
示例25-示例原始生物样本测序数据
在本文所述的任何示例中,原始生物样本测序数据可包含针对由单个仪器同时测序的多个生物样本读取的序列。因此,原始输出包含对物理生物样本中存在的实际碱基序列(例如,n-mers)的观察,并且通常采用多路数据的形式。实际上,多个这样的仪器可以并行执行测序。
这种数据的示例是由加利福尼亚州圣地亚哥的Illumina公司提供的ILLUMINA系列测序仪器生成的.bcl文件,并且可以命名为包括所涉及的通道和小区。这样的文件可以编码由仪器在代码中读取的碱基(例如,使用0、1、2、3代表A、C、G、T等)。然而,可以使用其他格式来生成可以如本文所述聚合的产量数据集。
这种原始数据的原始形式通常几乎没有用,因为虽然它确实指示了仪器读取的序列,但是特定样本的实际序列与其他生物样本的实际序列混合在一起。
实际上,这种数据可以被多路分解并转换成对于本文所述的各种目的更有用的形式(例如,通过多路分解器,如本文所述的数据格式转换器)。此外,尽管本文描述了多路分解的场景,但是这些技术仍然可以应用于存在至少一些未被多路化的数据的场景(例如,输出用于由单个仪器分析的单个生物样本,并且存在并行操纵的多个这样的仪器)。
示例26-示例测序产量数据集
在本文的任何示例中,测序产量数据集可包括从源自测序仪器的原始生物样本测序数据转换和多路分解的数据。数据格式转换器这个多路分解器可以接受原始生物样本测序数据并输出各个库的多个测序产量数据集。
在实践中,单个产量数据集与特定生物样本相关联,或者在实践中与单个库相关联,然后将其与特定生物样本相关联。测序产量数据集可以指示在测序期间读取的库的条形码序列,使得条形码可以与生物样本相关联。例如,条形码(例如,索引标识符)可以合并到文件名中或另外存储为与数据集相关联。
这种数据集的示例是存储核苷酸序列和相对应的质量分数的FASTQ文件。这样的FASTQ文件可以由ILLUMINA测序设备系统生成,并用于以有用的形式存储测序仪器的输出。
除了指示实际序列本身之外,数据集还可以根据需要包括其他信息,例如仪器标识符、仪器上的运行编号、流通池标识符、通道、小区、质量信息等。
实际上,从单个测序运行生成多个这样的产量数据集,然后可以如本文所述聚合数据集。如本文所述,确定是否存在足够的产量可以基于是否存在在聚合的产量数据集中指示的足够的产量(例如,基于由在测序产量数据集中指示的观察到的序列的组合总长度指示的碱基对的数目)。
示例27-示例多路分解和转换
在本文的任何示例中,作为多路分解器的数据格式转换器(例如,140)可以接受原始生物样本测序数据(例如,由诸如.bcl文件的定序器输出的文件),读取数据行,识别本文提到的库,聚合特定库的数据,并输出原始数据中表示的每个库的测序产量数据集(例如,一个或多个FASTQ文件)。测序产量数据文件可以在运行、通道或其他水平上精细化(例如,特定通道的数据包括在一个FASTQ文件中,而另一个通道的数据包括在不同的FASTQ文件中),从而产生每个库的多个文件。数据也被转换为FAST格式,其可以包括仪器已读取的序列的质量信息。
如本文所述,然后可以使用库信息来与特定生物样本相关联,并识别哪种测序产量数据集与哪种生物样本相关联。
示例28-质量控制到聚合中的示例实现
在本文的任何示例中,可以将自动质量控制结合到聚合过程中。因此,例如,生物样本测序数据的一部分可以被识别为使质量控制度量失败,并且响应于确定所述部分数据使质量控制度量失败,所述部分可以被排除在聚合之外。例如,候选生物样本测序产量数据集的一部分可以被识别为使质量控制度量失败,并且响应于这样的确定,可以从聚合中排除数据集的所述部分。这样的部分可以包括一个或多个数据集。
如本文所述,将生物样本测序数据的一部分识别为使质量控制度量失败可以包括将观察到的质量控制度量值(例如,对于所述部分,特定数据集等)与存储的质量控制度量的阈值进行比较。例如,对于由特定测序设备执行的特定测序运行,可以将测序通道识别为使质量控制度量失败。然后可以从聚合中排除用于失败通道(例如,以及涉及的运行)的任何生物样本测序数据(例如,数据集)。可以排除来自多个生物样本(例如,特定的生物样本和在通道中测序的其他生物样本)的数据。
如本文所述,进一步响应于确定数据部分失败质量控制,可以针对特定生物样本更新产量状态以指示排除的产量失败。
在从聚合中排除生物样本测序数据的一部分之后,可以接收用于重新排列针对特定生物样本的产量的请求的指示。针对产量的请求可以重新排列,并且可以更新产量状态以反映如本文所述的重新排列的针对产量的请求。然后,针对产量状态的请求可以指示针对特定生物样本的获得的产量和进展中的产量。预期来自重新排列的请求的产量可以包括在计算中的产量,所述计算用于确定是否已经针对特定生物样本请求了足够的产量。预期来自进展中的多路分解或格式转换的产量可以包括在这样的计算中。
如本文所述,这种自动化确定可以被覆盖。因此,在所述部分被识别为使质量控制度量失败之后,所述部分可被指示为失败。然后,经由用户输入,可以接收对确定的覆盖。响应于接收覆盖,所述部分然后可以包括在聚合中。
尽管示例示出了生物样本测序产量数据组水平处的失败,但也可以在其他水平检测失败,所述其他水平例如在原始数据水平、聚合的数据水平或分析水平。
示例29-实现基于质量控制的选择性聚合的示例方法
图10是实现基于质量控制的选择性聚合并且可以在本文描述的任何聚合示例中实现的示例方法1000的流程图。
在1020处,接收质量控制度量的质量控制阈值。该系统可以支持在测序过程和后续分析的不同阶段期间接收的各种质量控制度量中的任何一个。这些度量的阈值可以指定为简单阈值、组合阈值、规则等。
在实践中,不同的实验室、不同的用户、不同的实验、不同的生物样本类型等可以具有指定的不同阈值。因此,可以在每个用户的系统中单独配置阈值(以及要考虑的度量)。
在1030处,针对测序实体接收观察到的质量控制度量,无论是来自与实体直接相关联的分析还是下游分析。这些度量可以包括在原始测序数据、生物样本测序产量数据集或下游分析中。尽管示出了通道质量控制失败的示例,但是质量控制失败可以在如本文所述的测序过程的不同阶段和实体(例如,生物样本、库、库类型、池、运行等)处实现。
在1040处,将观察到的质量控制度量应用于阈值。例如,可以针对一个或多个质量控制度量进行观察到的值和阈值之间的比较。
然后确定观察到的质量控制度量是否满足或未达到阈值。响应于确定度量失败,在1060处从聚合中排除相关联的实体的数据(例如,生物样本测序产量数据集)。可以更新跟踪这样的数据的数据库以指示失败以及失败发生的原因(例如,导致失败的度量、规则等)。
相反,如果质量控制度量满足阈值,则数据被包括在1080处的聚合产量中。
可以在自动化的基础上实现产量确定1060、1080,使得质量控制度量的自动比较发生(例如,在运行完成、分析完成等时)。但是,如果需要,用户可以覆盖这样的确定。例如,如果度量在技术上使度量失败,但用户确定此类数据仍具有合适的质量,则可以更改此类数据已失败的指定以指示数据已满足质量控制,并且随后得到的产量包括在聚合中(例如,并随后确定是否有足够的产量)。
可以采用用户界面来帮助沟通和理解质量控制。因此,自动质量控制可以与阈值进行比较,并告诉用户产量失败以及失败的原因。这样的用户界面可以示出度量的名称、它们的阈值和观察到的值(例如,用于测序运行)。
度量获取的示例是通过监视来自测序仪器的数据输出(例如,从交互操作解析)等。
示例30-示例下游质量控制失败
在本文的任何示例中,可以利用附加的下游质量控制失败来补充初始自动质量控制。例如,可以在聚合的测序产量数据集的分析期间确定某些测序实体(例如,如本文所述的类似通道)存在质量控制失败。类似于与FASTQ文件关联的质量控制度量可以应用于产量分析应用输出。失败可以指示某些上游数据质量较差。手动实验还可以指示质量控制失败(例如,关闭通道显著影响输出)。
即使在这样的后期阶段,系统也可以接受测序实体使质量控制失败的指示,并且可以更新聚合结果(例如,排除新的失败数据)。结果,系统现在可以指示一个或多个生物样本的产量不足,并且可以开始重新排列过程。但是,其他产量可以保留在系统中。如果需要,失败的质量控制指示可以级联到来自相同或其他生物样本的产量。
然后将重新排列的测序结果聚合到现有产量后,如果有足够的产量,则可以再次自动启动或以其他方式处理分析。
因此可以从用户或其他来源接收测序实体的质量控制失败的指示,并且可以回顾性地将与指示的测序实体相关联的测序产量数据排除在聚合之外,然后可以启动另外的测序并且跟踪直到再次指示获得足够的满足质量控制的产量。
示例31-选择性聚合的示例质量控制度量
出于质量控制的目的,用户可以选择关注的度量,并且用户可以设置这些度量的阈值。测序运行通常具有许多用户可以选择用于阈值处理的度量。
例如,阈值可以指定第一度量必须大于特定值,并且第二度量必须小于某个其他值,等等。
示例32-示例质量控制度量
各种度量中的任何一种都可以用于质量控制。度量可以按层次结构组织为组,以便于参考。本文任意示例中可用的示例度量如下所示。额外的或其他度量也可替换使用:
Lane.Density
Lane.ErrorRate
Lane.PercentAligned
Lane.PercentGtQ30
Lane.PercentPf
Lane.Phasing
Lane.PrePhasing
Lane.Reads
Lane.ReadsPf
SequencingRead1.Density
SequencingRead1.ErrorRate
SequencingRead1.PercentAligned
SequencingRead1.PercentGtQ30
SequencingRead1.PercentPf
SequencingRead1.Phasing
SequencingRead1.PrePhasing
SequencingRead1.Reads
SequencingRead1.ReadsPf
实际上,使质量控制度量的失败可能涉及使质量控制失败条件,其中这样的条件涉及一个或多个度量以及一个或多个相应的阈值。当度量超出其指定阈值时,将指示失败。
示例33-示例质量控制阈值规范
以下JSON文本根据可接受的格式指示一组质量控制阈值。实际上,可以使用其他格式。
Figure BDA0002327883810000241
Figure BDA0002327883810000251
Figure BDA0002327883810000261
应用于通道的阈值的示例结果如下所示:
度量 观察值 操作符 阈值 状态
Lane.Density 854000 > 900000 不满足
Lane.PercentGtQ30 90 > 75 通过
Lane.Phasing 0.160 < 0.5 通过
示例34-将数据识别为源自特定生物样本的示例系统
图11是示例性聚合系统1100的框图,其示出了与特定生物样本有关的数据如何被识别为源自特定生物样本的细节,其可以在本文的任何示例中使用。从生物样本标识符1105识别的特定生物样本的角度示出该示例。实际上,可以并行处理多个生物样本,因此导致确定哪个数据源自哪个生物样本的问题。系统1100仅是示例。不同的实现是可能的并且可以具有更大的复杂性(例如,更多的仪器等)。在某些方面,其他实现在一些方面可能看起来不那么复杂(例如,组件被适当地组合或重用)。测序编配环境可以包含如本文所述的系统1100。
在该示例中,生物样本在三种不同的仪器上进行测序(例如,并行)。样本表1110A、1110E和1110H具有指向相同生物样本标识符的信息1110A、1110E和1110H。如图所示,关于仪器的哪个通道和索引标识符的其他信息也可以包括在信息1110A、1110E和1110H中。样本表1110A、1110E和1110H可以用作对各个测序仪器1120A、1120B和1120N的输入,其对池1125A进行测序。实际上,与生物样本识别器1105相关联的生物样本的测序可以与其他生物样本的测序并行进行,其他生物样本可以有自己的样本表,如图所示但未标记。
实际上,样本表1110A、1110E和1110H中的信息可以被转换为适合于由测序仪器1120A、1120B和1120N消耗的格式,并且被发送到仪器控制和分析软件。基于已经从样本表1110A传递给仪器1120A的数据,可以在特定样本表1110A与关联的仪器1120A之间存储关联(例如,样本表-标识符-工具-标识符关系)(例如,在实体关系1180中)。可以使用其他方式将来自样本表1110A的信息1115A与仪器1120A相关联,以便以后进行相关。例如,可以在仪器和信息之间存储直接关系,而不考虑样本表。
测序仪器1120A-1120N输出由生物样本标识符1105以及其他生物样本一起识别的生物样本的各自的多路原始生物样本测序数据1130A-1130N。原始数据1130A-1130N还可以包括识别如本文所述的测序运行的运行标识符(例如,用于识别每个仪器或跨仪器的多个运行中的哪个测序运行)、仪器标识符(例如,用于识别数据源自哪个物理仪器1130A-1130N)、通道标识符和索引标识符。
作为多路分解器的数据格式转换器1140A-1140N可以根据索引标识符对原始数据1130A-1130N进行多路分解,输出多个测序产量数据集1150AA-1150HA。尽管示出了多个多路分解器1140A-1140N,但实际上可以采用一个或多个多路分解器1140来进行多路分解和转换。
测序产量数据集1150AA-1150HA可包括信息1155AA-1155HA,其包括运行标识符、仪器标识符、通道标识符和索引标识符。如本文所述,可以通过索引来组织测序产量数据集1150AA-1150HA(例如,每个文件仅具有一个索引标识符的信息)。
可以将数据集1150AA-1150HA视为候选生物样本测序产量数据集。识别来源生物样本的信息可以存在或可以不存在于数据集1150AA-1150HA中。聚合器1160A-1160N可以识别数据集1150AA-1150HA中的哪一个源自(例如,由生物样本标识符1105识别的)特定生物样本。例如,聚合器可以接受生物样本标识符、通道和索引信息1115A,并且使用它来在数据集1150AA-1150AD中的索引标识符和来自样本表1110A的信息1115A的索引标识符之间关联(例如,使两个匹配)。因此,信息1115允许聚合器1160A-1160N区分来自不同生物样本的数据集。实际上,匹配索引信息(例如,索引序列)可能是不够的,因为可以跨不同的生物样本使用相同的索引序列。因此,诸如运行标识符、仪器标识符、通道标识符等的进一步信息可用于将到来的数据集最终匹配到它们各自的来源生物样本。
实际上,信息1115和附加信息可以存储为实体关系1180,其可以由系统1100的组件读取。例如,样本表1110A与所引用的生物样本标识符1105以及索引标识符、仪器标识符、通道标识符等之间的关系可以以(例如,数据库表的)行或以其他方式指示。
实际上,可以暗示一些信息。例如,信息可以存储在文件名中或者由其来源暗示(例如,来自特定测序仪器的信息可以与测序仪器的仪器标识符相关联,允许进一步的关联)。
通过查询信息11115A-11115H、实体关系1180或两者,多路分解层1140也可以是生物样本感知的,并且关于原始数据的起源的信息可以用于如本文所述的质量控制目的。
尽管示出了多个聚合器1160A-1160N,但实际上,可以使用一个或多个聚合器1160来完成聚合。
被识别为源自生物样本的那些数据集由聚合器1160A-1160N输出(例如,聚合)为由生物样本标识符1105(例如,基于存储的实体关系1180)标识的特定生物样本的聚合的测序数据产量1170。如本文所述,这种输出可以采用实际序列读数、涉及的碱基对数目的形式,或两者。实际上,这种输出可以通过参考(例如,到数据集1150AA、1155EA、1155HA)。
如本文所述,当聚合足够的产量时,可以实现质量控制和重新排列功能,以及测序产量进展监测和应用的自动启动。
示例35-将数据识别为源自特定生物样本的示例方法
图12是示例聚合方法1200的流程图,其示出了与特定生物样本有关的数据如何被识别为源自特定生物样本的细节,其可以在本文的任何示例中使用。识别哪个候选生物样本测序数据集源自特定生物样本可以包括将与特定生物样本标识符相关联的索引标识符与由候选生物样本测序产量数据集指示的索引标识符相匹配(例如,检测两者之间的匹配)。索引标识符之间的匹配指示数据集源自特定生物样本。实际上,其他信息(例如,仪器标识符、通道标识符等)可以用于关联。如本文所述,索引标识符可以指示实际索引序列,其在准备期间附属于生物样本,并且在测序期间由测序仪器读取。因此,当通过索引标识符对测序信息进行分组时,如果知道哪个索引用于生物样本,则可以确定信息源自哪个生物样本。
附加信息可用于(例如,补充)匹配过程。例如,如果在运行标识符和生物样本标识符之间存储关系,则标识可以包括将候选生物样本测序产量数据集的运行标识符与存储在关系中的运行标识符(例如,与索引标识符一起)匹配。通道标识符还可以用于(例如,补充)匹配。
在1210处,如本文所述(例如,通过测序编排环境)接收由生物样本标识符表示的特定生物样本的多个样本表。
在1220处,基于样本表将不同测序实体之间的关系存储在计算机可读介质中。例如,可以存储生物样本标识符和特定样本表之间的关系。样本表可以包含其他信息,例如通道标识符和索引标识符,也可以存储测序实体之间的这种关系。
在1230处,可以从测序仪器接收多个生物样本的原始生物样本测序数据,来自样本表的信息作为输入被馈送到测序仪器。可以补充测序实体之间的关系。例如,在完成运行时,原始输出数据然后可以与仪器标识符、运行标识符等相关联。
在1240处,将原始生物样本测序数据多路分解并转换为多个候选生物样本测序产量数据集。如本文所述,这样的产量数据集与相应的索引标识符相关联。
在1260处,基于所存储的实体关系聚合源自单个、相同的生物样本的候选生物样本测序产量数据集。例如,可以如本文所述识别源自特定生物样本的候选生物样本测序产量数据集,并且可以将这样的数据集聚合成特定生物样本的聚合的测序数据产量。
如本文所述,索引标识符可以与作为特定生物样本的测序运行的一部分提供的样本表中的特定生物样本相关联(例如,并作为测序过程的一部分提交给测序仪器)。或者,实验室信息管理系统(LIMS)可以生成针对特定生物样本的测序运行的这样的样本表。或者,可以基于由实验室信息管理系统提供的信息生成样本表。
如本文所述,当有足够的产量时,还可以结合质量控制和重新排列功能,以及测序产量进展监测和应用的自动启动。
示例36-示例样本表
在本文的任何示例中,样本表可以采用电子形式并存储关于准备好的生物样本的各种信息,例如生物样本标识符、指示与所准备的样本相关联的索引序列的索引标识符,在仪器内的哪条通道上将准备的样本进行测序等。
生物样本标识符可以采用各种形式,例如针对生物样本的字符串标识符,其通常是条形码但可以具有任何值。
可以直接编辑样本表,或者可以使用自动化工具来跨一个或多个测序项目创建、编辑、验证和管理样本表。
实际上,来自样本表的信息被转换成适合于由仪器消耗的格式,并且来自样本表的信息可用于存储如本文所述的测序实体之间的关系。此外,当样本表被传递到特定仪器时,可以创建实体关系并将其存储在样本表标识符和特定仪器的仪器标识符之间。
样本表中存在的实际信息可以根据实现而变化。例如,还可以包括各种各样的信息,例如研究者姓名、项目名称、日期、实验名称、工作流程、清单文件等。在某些情况下,可以存在多个索引标识符。
样本表还可以指定目标产量和当获得目标产量时自动启动的应用。如本文所述,聚合可以与指定的目标量进行比较。如本文所述,这种目标产量和要启动的应用可以存储在其他位置,例如生物样本清单的一部分等。
尽管可以提供样本表作为启动测序运行的过程的一部分,但是替代地,可以基于从实验室信息管理系统(LIMS)提供的信息生成样本表,所述实验室信息管理系统管理测序运行信息和测序工作流程的其他方面。
示例37-跟踪产量进展的示例系统
图13是经由基于质量控制的选择性产量聚合器1330跟踪产量进展并且可以在本文描述的任何聚合场景中实现的示例性系统1300的框图。
在该示例中,多个测序设备1310分析多个生物样本,如本文所述,输出原始生物样本测序数据。像转换器140一样,作为多路分解器的数据格式转换器1320接受多个库的测序数据,并且将多路分解输出到多个单独的候选生物样本测序产量数据集(例如,FASTQ文件)。尽管示出了单个多路分解器1320,但实际上,多个多路分解器1320可以在相同或单独的计算系统上并行执行。
测序设备1310和转换器1320发送用于消费的数字事件(例如,通过事件订户),其指示处理何时开始(例如,原始数据已被接收并且正被多路分解和转换),以及针对特定生物样本测序产量数据集的多路分解和转换何时完成。该事件还可以包括允许到来的数据与系统中的其他信息相关以确定库、生物样本、运行、通道等之间的匹配的信息。
多路分解器1320和聚合器1330可以在计算系统上执行,所述计算系统可以是测序设备1310本地或远离测序设备1310。例如,可以支持云计算场景。
如图所示,基于质量控制的选择性聚合器1330可以包括配置服务1350、质量控制系统1360、生物样本进展信息1380和应用启动器1390。存储在计算机可读介质中的测序实体关系1370可以用于确定要应用来自候选数据集的哪个生物样本(例如,生物样本标识符)产量,并且可以表示内部、数字表示中的各种测序实体。
配置服务1350允许灵活配置本文描述的各种特征。例如,不同的用户可以具有不同偏好,可以通过接收这样的偏好然后实现它们来实现。
质量控制系统1360可以执行本文描述的质量控制过程,例如实现质量控制阈值以实现基于质量控制的选择性聚合。
生物样本产量进展信息1380包括针对进行分析的各个生物样本的生物样本产量进展记录1380A-1380N。
应用启动器1390可以执行如本文所述的应用的自动启动(例如,响应于确定存在足够的产量)。
具体示出了示例生物样本产量进展记录1380A。实际上,实际结构可以不同(例如,日志1389可以与记录1380A分开实现、元件可以组合等)。
在该示例中,生物样本标识符1382用作数据库键,其允许跨测序设备系统跟踪特定生物样本。实际上,可以包括友好名称和其他信息(例如,描述、组织类型等)。
谱系信息1383指示细节,诸如生物样本来自何处(例如,源生物体、受试者等)以及系统内的谱系。这样的信息可以指代在测序实体关系1370中表示的实体。对于每个生物样本,可以跟踪针对到来的产量的运行和通道信息,使得可以追溯它。可以跟踪任何测序实体的谱系。例如,可以实现库和池跟踪。库和池也可以用作数据库中的键。这样的布置允许追踪上游或下游以知道生物样本产量来自何处(例如,哪个运行、哪个仪器、哪个通道、哪个库、哪个池等)。这种方法允许如本文所述的每个实体的质量控制(例如,通道失败,并且与通道相关联的产量被指定为使质量控制失败并且不包括在聚合中)。在执行进一步分析之后有时进行这种质量控制确定,由此在执行聚合和分析之后可以维持谱系数据。
还可以针对生物样本产量进展记录1380A存储目标产量1384。如本文所述的目标数目的碱基对数可用于自动触发启动对测序数据执行进一步分析的应用(例如,对于生物样本id 1382的特定生物样本)。还可以存储指向应用的指针或应用名称。可替代地,这样的信息可以存储在工作指令中,并且进展记录1380可以指代工作指令。
获得的产量1385指示已通过质量控制的特定生物样本的实际当前产量(例如,以Gbp计的产量)。因此,当检测到到来的产量时,可以递增所获得的产量以反映。可以排除(例如,过滤掉)不满足质量控制的失败产量。
进展中的产量1386指示针对特定生物样本有多少进展中的产量(例如,以Gbp计的产量)。如本文所述,进展中的产量可包括处理产量和待定产量。
如果需要,还可以跟踪失败的产量1387以指示我们预定但从未到达的产量有多少产量已经失败(例如,以Gbp计的产量),有多少产量不满足质量控制等。
还可以维护日志1389以指示各种事件,其导致产量累积,质量控制失败,以及聚合器1330针对生物样本标识符1382的特定生物样本所参与的活动的运行日志。
聚合器1330和库信息管理系统(LIMS)之间的集成可以变化。LIMS可用于管理实验室任务,但某些测序实体可由包含聚合器的系统管理,例如流动池、通道映射和数据集。测序工作流程的这些部分可以由包含聚合器的系统来管理,并且谱系信息1383可以来自各种来源,如果存在与LIMS的更强集成,则包括LIMS。
示例38-跟踪产量进展的方法示例
图14是在基于质量控制的选择性产量聚合场景中跟踪产量进展,并且可以例如在图1、3、5、7、9、11或13的系统中实现的示例性方法1400的流程图。例如,测序设备系统可以包括测序设备系统,该测序设备系统包括多个测序设备,其输出多个输入生物样本的多路原始生物样本测序数据(例如,包括特定的生物样本)。如本文所述,测序产量的碱基对的目标数目可以被指定为足以启动用于进一步分析特定生物样本的应用。
系统还可以包括一个或多个处理器,以及耦合到处理器的存储器,其中存储器包括使得一个或多个处理器执行图14所示的过程的计算机可执行指令。
方法1400还可以作为计算机实现的方法来执行,或者通过在一个或多个计算机可读介质上编码的一个或多个计算机可执行指令来执行,所述一个或多个计算机可执行指令使计算系统执行该方法。该方法还可以在包括多个测序仪器的测序环境中进行。
在1420处,如本文所述,接收来自多个生物样本的测序运行的原始生物样本测序数据输出(例如,来自多个测序仪器或设备)。如本文所述,这种原始数据可以包含多路数据。可以通过订阅由测序仪器或其他设施发送的事件来编排这些数据的接收。
在1450处,将原始数据多路分解并转换成多个候选生物样本测序产量数据集(例如,FASTQ文件)。如本文所述,此类测序产量数据集与单个相应库相关联,因此与和库(例如,包括运行标识符,仪器标识符等)相关联的单个相应生物样本相关联。
在1460处,通过生物样本标识符聚合测序结果。实际上,测序产量数据集可以与库标识符(例如,条形码)相关联。给定与数据集相关联的库标识符和测序运行信息,可以确定针对产量数据集的生物样本标识符。例如,可以使用结合图11和图12描述的技术。与相同生物样本标识符相关联的产量数据集被分组在一起并与生物样本标识符相关联。如本文所述,聚合还可以考虑质量控制,使得实现选择性聚合(例如,只有满足质量控制的那些数据集包括在针对生物样本的聚合的数据集中)。
因此,聚合1460可以包括识别候选生物样本测序产量集中的哪个源自特定生物样本,然后将源自特定生物样本的候选生物样本测序产量集聚合成针对特定生物样本的聚合的测序数据产量。
如本文所述,可以使用相同的识别技术来识别和聚合产量以计算产量的量(例如,以Gbp计)并将实际产量结果(例如,序列)组合在一起用于进一步分析。
在1470处,针对特定生物样本标识符确定是否有足够的产量。这样的确定可以确定针对特定生物样本的聚合的测序数据产量是否足够,并且该确定可以包括将针对特定生物样本的聚合的测序数据产量中的碱基对的数目与目标数目的碱基对进行比较。
例如,当处理源自测序仪器的到来的数据集时,可以将它们相关并聚合到生物样本标识符。可以检查针对所涉及的生物样本标识符的聚合产量的量以确定产量是否足够。对于通过生物样本标识符识别的特定生物样本,可以将聚合的产量(例如,总计、共计等)与测序产量目标数目相比较以确定其是否满足(例如,大于、大于或等于等等)测序产量的目标数目。这种确定可以在聚合发生时、周期性地或根据本文所述的要求进行。实际上,可以维持运行总计以监视如本文所述的进展。
然后,响应于确定存在足够的产量,在1480处,可以自动启动产量分析应用执行并提供产量(例如,针对生物样本标识符的测序产量数据集)作为输入。然后,应用可以利用针对特定生物样本的聚合的测序数据产量执行对生物样本的进一步分析。
响应于确定没有足够的产量,可以在1490处发出缺失产量的情况的警报,指示针对特定生物样本的缺失产量。然而,可以考虑进展中的产量以避免如本文所述的过度请求的产量。因此,确定产量不足可以包括包括针对特定生物样本的进展中的产量。随着测序活动的继续,该过程可以通过在1420处接收的额外原始数据恢复。
如本文所述,缺失产量条件警报还可以用作重新排列警报,因为用户现在可以请求重新排列以获得进一步的产量,并因此具有足够的产量用于进一步分析。
实际上,1420和1450的任务可以由系统的单独组件执行。因此,该过程可以从接收生物样本测序产量数据集开始,然后在1460处聚合这样的数据集。
示例39-考虑进展中的产量以确定足够产量的方法示例
图15是示例性方法1500的流程图,其考虑进展中的产量以确定针对生物样本(例如,由生物样本标识符识别)是否存在足够的测序产量,并且可以用于本文所述的与确定足够的产量相关的任何方案中。例如,方法1500可用于实现图14中的1470处的决定。方法1500是一种在计算中包括进展中的产量,用于确定是否已经针对特定生物样本请求了足够的产量的方式。
关于是否存在足够产量的总体确定1570可以包括方法1570。在1580处,确定是否存在针对生物样本标识符的足够的获得的产量。如本文所述,获得的产量可以是已经通过质量控制的针对特定生物样本的实际当前产量(例如,以Gbp计的产量)(例如,获得的产量1385)。可以在针对生物样本的获得的产量和目标产量之间进行比较(例如,将碱基对的数目与碱基对的目标数目进行比较)。如果获得的产量大于或大于或等于目标产量,则存在足够的获得的产量。
响应于确定存在足够的获得的产量,整个方法可以指示“是”的结果(例如,存在足够的产量)。
在1585处,响应于确定没有足够的获得的产量,考虑进展中的产量以确定是否有足够的产量。例如,不同于仅包括获得的产量,可以将进展中的产量包括在与目标产量的比较中。进展中的产量可以包括如本文所述的待定产量和处理的产量。响应于确定没有足够的产量,即使考虑到进展中的产量,整体方法指示“否”的结果,这可导致如本文所述的缺失产量警报。
然而,响应于在考虑进展中的产量时确定存在足够的产量,该确定可以等待额外的产量。通过这种方式,考虑进展中的产量可以抑制“否”的结果以及由此导致缺失产量警报。如本文所述,这种方法对于避免过度请求产量特别有用。
如本文所述,待定产量最终可能超时,此时可能不再具有足够的产量,即使考虑到进展中的产量。
示例40-示例足够产量
在本文的任何示例中,可以如本文所述储存足够的产量(或“目标”产量或“所需”产量)以追踪产量进展。这种足够的产量数目可以作为进一步处理的条件。例如,足够的产量可以作为进一步处理的依赖或先决条件。如本文所述,可以由请求对生物样本进行测序的用户(例如,通过如本文所述的工作指令)来设置被认为是足够的产量。
示例41-示例进展中的产量
除了可以采取生成的测序产量数据集(例如,FASTQ文件)的形式的获得(或“实际”)产量之外,系统可以考虑进展中的产量。
在本文的任何示例中,进展中的产量可包括针对特定生物样本的待定产量(例如,已请求但未过期)和处理产量(例如,经历多路分解和转换)。
当检测到请求时(例如,通过评估工作指令或其他数据源),可以考虑待定产量。在本文的任何示例中,可以针对待定产量设置超时时间段,使得即使未检测到明确的失败,它也最终超时。这样的超时时间段可以是几分钟、几小时、几天等。超时过期后,可以更新产量状态以指示针对产量的请求已过期。然后可以将这种产量从进展中的产量计算中的待定产量中排除。
超时可以应用于初始请求和重新排列。响应于确定已经接收到来自与特定测序运行相关联的任何通道的产量(例如,当来自任何通道的产量首先显示为已经测序时),可以针对特定测序运行设置超时。
在实验室信息管理系统(LIMS)之间具有更大集成的系统中,可以将明确的失败传送给系统,这将产量移除作为待定。例如,可以从LIMS接收到产量请求已经完成的指示,并且响应于接收到指示,可以将跟踪的请求标记为已确认(例如,以防止对其进行重复计算),无论是初始请求还是重新排列的请求。
所考虑的待定产量的实际量不必是精确的。例如,产量估算可以用于避免过多的请求的目的。例如,可以为针对产量的任何请求分配默认(例如,用户可配置的)产量量,然后抑制产量不足的误导性指示。进展中的产量特征可以利用指示正在进行产量获取的任何占位符,从而避免产量的过度获取。
进展中的产量可以包括预期将很快上传到系统的产量,因为它正在经历多路分解和转换(例如,转换成FASTQ文件)。
在产量超时后,可以进行是否有针对生物样本的足够产量的新确定。如果产量不足,则可以如本文所述生成缺失产量警报。
可以在测序进展仪表板用户界面中显示进展中的产量(例如,作为“进展中”、“待定”、“处理”等),以使得用户可以看到进展。
通过考虑警报中的进展中的产量并在用户界面中提供这样的信息,该技术可以避免对产量的过度请求。没有这样的系统,通常可以看到没有足够的获得的产量并且请求来自实验室的额外产量(例如,经由工作指令)。事实上,可能会产生多个此类请求,从而导致过多的产量请求。因此,本文的技术可以节省时间和其他实验室资源,否则这些资源会在获得不必要的过量测序产量时被浪费。因此可以避免重叠请求。
示例42-示例产量聚合方案
在本文的任何示例中,可以使用不同的术语来识别由系统跟踪的不同类型的产量。生物样本准备请求可以是用于对一定量数据进行测序的请求。该产量表示为“目标产量”或“所需产量”。然后,系统可以跟踪所获得的产量、待定产量等,如图所示。预期产量可以采用实际产量、进展中的产量和待定产量的总和的形式。
示例43-产量聚合方案演练示例:QC失败
图16A-图16D是条形图,其示出涉及质量控制失败的示例性的基于质量控制的选择性产量聚合方案中的产量进展。可以显示这样的条形图以表示针对特定生物样本的产量进展。在该示例中,“待定”的简单指示用于进展中的产量。实际上,实际数字可能差异很大,初始请求的产量可能超过目标产量。
在图16A处,已经针对特定生物样本请求了32Gbp,并且由条形图1610表示。
在测序期间,成功测序了24Gbp,但是8Gbp使所述质量控制度量失败。因此,在图16B中,显示了获得的产量1620,但是缺失一些产量(例如,没有足够的产量来满足所需的目标产量)。
在检测到缺失产量并且发出缺失产量警报之后,系统接收重新排列请求。在图16C处,待定产量1632与获得的产量1630一起示出。
最终,8Gbp被成功测序并满足质量控制。现在有32Gbp或获得的产量1640,其满足目标产量。因此,可以自动启动产量分析应用并提供产量作为输入。
图17示出了图16A-图16D的场景中的产量进展的内部、电子表示。在生物样本进展数据结构1780A中,系统内部跟踪有四个量。与图16并行,首先,数据结构1780A存储生物样本标识符1782、目标产量1784、获得的产量1785、进展中的产量1786和失败的产量1788的指示。在一些产量使质量控制失败后,警报被触发,导致重新排列并最终获得目标产量。
进展中的产量1786可以用作被请求但尚未获得的产量的占位符。
数据结构1780A可用于跟踪进展,生成仪表板,并在成功获得足够的产量时自动启动应用。虽然示例中显示了以Gbp计的预期产量的实际数目,但这样的占位符可以采用不同的形式,例如如下的简单指示:运行正在进行、正在进行的运行的数目、每次运行的默认产量(例如,每个用户可配置)等。
示例44-示例产量聚合方案演练:过期产量
图18A-图18E和图19A-图19D是示出示例性过期产量方案中的产量进展的条形图。可以显示这样的条形图以表示针对特定生物样本的产量进展。在该示例中,进展中的产量表示为“待定”或“处理中”。在实践中,实际数目可能差别很大;如图所示,当包括进展中的产量时,所请求的产量可以超过目标产量。
在图18A处,存在待定产量的量。工作指令通过生物样本工作流程.csv文件输入。此时产量全部待定,因为指令刚刚启动。
在图18B处,正在将测序运行上传到系统。正在处理产量.bcl文件被转换为FASTQ文件。
在图18C处,生成FASTQ数据集。现在,产量计算为使用生物样本时可用于应用输入的实际产量。
在图18D处,已经显示另一次运行。总数表明,估计将有足够的产量来满足要求。
在图18E处,第二次运行结束(例如,转换为FASTQ格式)。
在图19A处,待定产量已经过期。在如本文所述的可配置时间段之后,原始请求过期并且待定产量被设置为零。系统现在在生物样本上触发缺失产量状态,以通知用户请求更多。
在图19B处,用户创建针对更多的产量的实验室重新排列请求。系统现在将产量显示为待定,因为估计实验室将完成额外的工作指令。
在图19C处,实验室将重新排列的样本放到另一次运行中,该运行被上传到系统。在该示例中,预期产量超过了所需的最小量。
在图19D处,现在完成原始工作指令和额外工作指令。如果产量分析应用仅依赖于存在足够的测序数据,则它可以自动启动。
不同种类的产量可以在内部以数字形式表示,类似于图17中所示。
示例45-示例预期的产量匹配系统
图20是示例系统2000的框图,该系统2000将来自测序运行的预期产量与用于跟踪产量进展的实验室请求相匹配,并且可以在跟踪进展中的产量的本文描述的任何系统中实施。在实践中,匹配可以用作监测产量进展的一部分,因为匹配可以确定正在处理的产量有多少,允许准确估计进展中的产量,包括待定的或进展中的产量。
在该示例中,基于质量控制的选择性聚合器2030可以在本文描述的任何环境(例如,测序编排环境2005)中执行。聚合器2030内的匹配引擎2035可以将工作指令与实验室请求匹配,包括现有池重新排列2012、现有库重新排列2014、新库重新排列2016和准备请求2018。这样的引擎2035可以执行图21的方法或其中的匹配行为。
当环境2005检测到新的测序运行已经开始时,可以发送可以由聚合器2030检测到的消息。因此,运行可以在其完成之前显示。因为完成运行可能花费大量时间,所以将从运行预期的产量考虑作为如本文所述产量进展的一部分是有用的。
各种实体关系2050可以存储在计算机可读介质中,包括运行2060、通道2070、库2080等的信息。
此外,用户可以设置每用户可配置的预期通道产量配置2090以指示预期产量的量(例如,通道的Gbp),其可以在实验室请求与运行匹配时结合到产量进展中。如果不存在此类信息,可以查阅统计数据以估算预期产量。或者,可以使用简单的默认值(例如,指示Gbp的数目的常数,例如MaxProjectedYieldlnGbp)来避免过多的缺失产量警报。
针对特定运行的条目2062可以包括关于运行是否已经被映射的指示2065,以及与其相关的通道2067。
针对特定通道的条目2075可以包括与通道相关联的库的指示2077。
针对特定库的条目2085可以包括与库相关联的条形码(例如,索引序列)的指示2087。
其他表可以包括附加信息。例如,可以维护库-生物样本关联。
示例46-示例预期产量匹配方法
图21是将来自测序运行的预期产量与用于跟踪产量进展的实验室请求进行匹配的示例性方法2100的流程图,并且可以例如通过图20的系统(例如,匹配引擎2035)或跟踪产量进展的其他系统来实现。
在2120处,接收指示针对特定生物样本的实验室请求的工作指令。在某些情况下,工作指令与重新排列有关。系统可以存储重新排列和工作指令之间的关系。例如,作为重新排列警报用户界面的一部分,可以存储指示,所述指示指示所产生的工作指令与重新排列有关。如本文所述,实验室请求可以是现有池重新排列、现有库重新排列、新库请求和初始准备请求。
随后,可以接收运行已经开始的通知。这样的通知可以采取来自系统的消息的形式。可以创建存储的测序实体中的条目以表示测序运行。如本文所述,此类实体关系可包括库、测序仪器、运行、通道等之间的关系。
在2140处,经由优先化方案将运行与工作指令信息匹配,从而确定所涉及的生物样本(例如,生物样本标识符)。在实践中,可以执行逐通道匹配(例如,针对特定运行的特定通道与特定工作指令相匹配)。优先级方案可以在检查如本文所述的初始测序运行之前检查重新排列。用于聚合的谱系信息可用于匹配目的。例如,如本文所述,索引测序信息可以用于与其他信息一起匹配。
在2150处,在找到匹配之后,如本文所述更新针对特定生物样本的进展。例如,可以更新获得的产量、进展中的产量、失败产量等。实际上,可以基于用户偏好、统计等来计算预期的产量。
方法2100可以用于重新排列或初始请求。在本文的任何示例中,可以跟踪针对产量的重新排列的请求,其可以包括将重新排列的请求与活动的测序运行匹配,并且来自活动的运行的预测产量可以包括在重新排列的特定生物样本的进展中的产量中。匹配可以将重新排列优先于初始请求考虑。
示例47-对预期产量的估计的示例实现
在本文的任何示例中,可以使用各种技术估计预期产量作为总体设计的一部分以考虑产量进展。来自测序运行的预测产量(例如,是否完成)可以与针对生物样本的尚未完成的实验室请求相匹配。通过使用估计的到来的产量来考虑所请求的产量,系统可以更准确地确定预期在未来看到的产量(例如,待定产量),从而确定生物样本何时是缺失产量。
以下实验室请求可以与来自测序运行的到来的产量相关联:
现有池重新排列:现有池重新排列请求整个库池的更多产量。它们通常映射到包含整个池的一个或多个通道。与测序运行中的通道相关联的池必须与重新排列中的池完全匹配。如果找到带有池的通道,并且有一个针对池的尚未完成的实验室重新排列,那么通道很可能与重新排列相关联。可以将整个通道指定为与实验室重新排列相关联,并且可以防止其匹配任何其他类型的请求。
现有库重新排列:现有库重新排列请求与生物样本相关联的特定库的更多产量,但是不指定必须包含库的库池。因此,库可以进入现有池、系统未遇到的新池、甚至可以作为通道的整个内容。为了匹配,输入通道必须包含针对所请求库的完全匹配。这种类型的匹配是部分的,因为通道的其他内容也可以同时匹配针对不同生物样本的其他请求。
新库重新排列(a/k/a生物样本重新排列):这种类型的重新排列使用特定库类型(例如,准备试剂盒)请求针对生物样本的更高产量。它没有指定库用于提供额外产量。因此,匹配库可以是现有库或新库,只要库类型(例如,准备试剂盒)与请求匹配即可。它可能出现在现有池或新池。
准备请求:准备请求代表对实验室的初始请求以产生针对生物样本的产量。它们类似于新库请求,因为它们仅指定库类型(例如,准备试剂盒)。只要类型与请求的类型匹配,匹配库就可以以任何形式出现。
异步消息
系统可以使用与运行相关联的异步消息(例如,SatisfyRequestMappingsWithLanes),以在检测到新运行时触发通道到实验室请求匹配过程。在执行匹配之前,运行将建立通道库映射(因为匹配需要知道要匹配的生物样本)。为了针对实验室请求匹配正确的产量,系统还可以确定测序运行中将提供的每个通道的产量。这可能通过以下发生:
1每个通道配置的预期产量:用户可以提供的配置设置,其指定将提供产量匹配目的的匹配运行的每个通道的产量;或者
2使用测序统计:如果未找到针对运行的每个通道的预期产量配置,则匹配可依赖于与该通道相关联的MaxProjectedYieldlnGbp值。该值是基于运行的交互操作计算的,作为GenerateSequencingStats异步消息的一部分。
逻辑可以如下:
1当针对到达的测序运行建立通道库映射时(例如,通过LIMS或通过仪器样本表),系统注册SatisfyRequestMappingWithLanes异步消息,以检查它是否可以处理运行并完成映射过程。
2当首先解析运行的交互操作并且计算每个通道的MaxProjectedYieldlnGbp时,系统还注册SatisfyRequestMappingWithLanes异步消息,以防运行需要测序状态以便执行映射。
消息可以在任何时间以消息消费者的任何顺序出现,因此,消息消费者仅在运行已经建立了通道库映射之后处理该消息。运行实体有一个设置为如此指示的属性。此外,消息使用者检查是否没有匹配每个运行的每个通道的预期产量配置。如果是,则为运行生成测序统计。这由具有非零测序统计的运行确定。如果匹配每个通道的预期产量配置,则不必等待测序统计,并且可以立即进行关联。
因为可能存在针对来自不同位置的相同运行触发的多个SatisfyRequestMappingsWithLanes异步消息,所以以下可以确保对于给定运行仅执行映射一次:
1系统可以检测多个消费者是否正在同时处理同一运行的消息。如果检测到,则可以将消息放回队列中并延迟以便稍后处理。
2运行中的属性可用于检测运行何时成功执行SatisfyRequestMappings处理,以便不再处理它。
目标可以是尽可能快地用来自测序运行的到来的产量满足待定实验室请求(例如,在计算统计数据之前运行失败的情况下)。所以当首次建立通道-库映射时,可以立即执行SatisfyRequestMappingsWithLanes消息处理。如果没有预期的产量配置,系统可以在继续进行之前等待生成测序统计。这种方法可以确保即使在解析交互操作之前的早期循环中运行失败,如果已知每条通道的预期产量,也可以充分考虑待定产量。
因为对于相同的运行可能存在多个SatisfyRequestMappingsWithLanes消息,所以可以防止针对相同运行的消息的重复处理。
跟踪实验室请求与输入测序运行之间的关联
称为“LaneSatisfiesRequestMapping”的实体可用于跟踪已与给定通道相关联的实验室请求。实体将通道与LabRequeue或PrepRequest相关联。
对于现有池重新排列,每个通道仅需要单个LaneSatisfiesRequestMapping实体,因为整个通道可以与单个池重新排列相关联。
对于其他类型的实验室请求,每个通道可以有多个LaneSatisfiesRequestMapping实体,因为单个通道可以同时与多个实验室请求匹配(例如,一个通道可以匹配给定生物样本的单个实验室请求,但它可以匹配针对不同生物样本的多个实验室请求)。
这样的LaneSatisfiesRequestMapping实体可用于计算每个通道在每个样本的生物样本产量计算期间对LabRequeues和PrepRequests贡献的产量。
增强准备请求超时时间段
当前准备请求超时可以从找到与准备请求相关联的第一通道开始。但是,在运行具有测序统计之后才可能创建此关联。如果在生成测序统计之前运行失败,则可能无法创建关联,并且准备请求可能永不过期。
具体地,对于准备请求,单独的备份方法可以用于超时:如果检测到与生物样本/库类型相关联的任何运行,则可以将最早的这样运行的创建数据用作该准备请求超时时间段的开始,因为它通常与准备请求相关联。这种方法可以在满足准备请求或实验室重新排列时纠正需要使用测序统计的问题。
这样的问题可以通过在生成测序统计之前实现来自运行的产量与准备请求的匹配来纠正。对于未配置每通道预期产量且依赖于测序统计的情况,可以保留逻辑。
在超时时间段之后使实验室请求过期
为了在超时时间段之后使实验室重新排列超期,可以使用类似于用于准备请求过期的方法。通常,实验室重新排列比初始准备请求具有更高的优先级,因此估计它们将在合理的时间段内由实验室处理。
可以记录实验室重新排列被标记为已确认的日期和时间。可确认的超时时间段可以在确认重新排列时开始(例如,AcknolwedgedOn date)。
如果实验室重新排列过期,则它不再有助于与重新排列相关联的生物样本的待定产量,但是它仍然可以从测序运行接收到来的产量并最终转变成满足状态。
在一些实施方式中,仅确认的重新排列可以过期。用户可以管理待定的实验室重新排列以指示它已取消或已过期。
每个通道配置实体的预期产量
数据库表可用于存储每个用户的每个通道的预期产量配置值:
ExpectedYieldPerLaneConfiguration(表/实体):
Figure BDA0002327883810000451
为了避免对通道实体的不必要的添加,可以使用通道的现有MaxProjectedYieldlnGbp字段。这样的字段表示在整个运行期间找到的每条通道的最大估计产量。对于该功能,可以根据可用时的配置将该值初始化为“每道预期产量”值。因为它是最大值,所以它为每次运行设置值的下限。
API变化
可以提供API以允许用户创建、查看、更新和删除预期的YieldPerLaneConfiguration条目:
POST/v2/expectedyieldperlaneconfigurations-创建
PUT/v2/expectedyieldperlaneconfigurations/{id}-更新
GET/v2/expectedyieldperlane配置-获取列表
DELETE/v2/expectedyieldperlaneconfigurations{id}
处理
当首次创建运行时,系统寻找匹配ExpectedYieldPerLaneConfiguration以下列顺序获得乐趣:
InstrumentID(80分)
BarcodeMask-正则表达式匹配(40分)
InstrumentType(20分)
InstrumentPlatform(10分)
如果条目与这些项目中的任何项目都不匹配,则它具有0分并且不被使用。这意味着空配置条目与任何运行都不匹配。
如果找到用于运行的多于一个匹配配置条目,则具有最多匹配点的条目用于特定运行。
如果找到匹配,则通过设置MaxProjectedYieldlnGbp值以匹配ExpectedYieldPerLaneBp值来使用匹配的ExpectedYieldPerLaneBp值更新通道。可以执行单位变换。否则,MaxProjectedYieldlnGbp值保持其当前值(例如,可能在解析交互操作并生成测序统计时设置)。
当计算生物样本产量时,默认情况下,系统可以使用MaxProjectedYieldlnGbp用于计算Processing Yield而不是Projected Yield的值,除非将用户配置设置设置为使用Projected Yield而非Processing Yield。这种方法在运行测序时提供运行稳定性,并且可以避免生物样本的过早缺失产量确定。这样的方法对于在运行测序时避免许多缺失产量事件是有用的。
匹配从运行到实验室请求的预期产量
以下逻辑可用于匹配从运行到现有实验室请求的预期产量。可以对系统进行配置,以便只有已确认且尚未实现的LabRequeues才能从给定的通道接收输入的产量。LabRequeue可以在测序运行中从一个通道完成,并且在这种情况发生后不应该在同一测序运行中考虑其他通道。为了保持一致性,可以按照通道数的递增顺序匹配通道。
无论来自准备请求的所请求的产量是否已经匹配,准备请求都可以从测序运行接收到来的产量。
考虑顺序可以基于是否找到了匹配的ExpectedYieldPerLaneConfiguration条目:
1.如果找到配置条目,则实验室请求被指定为“最早的第一”,以供考虑。指定仅适用于给定的优先级。使用“最早的第一”是因为预期的产量配置是准确的并且应该完全考虑具有测序产量的请求产量,因此在考虑更新的请求之前尝试在给定优先级内完成旧请求是有意义的。
2.如果未找到配置条目,则实验室请求被指定为“最早的第一”以供考虑。指定仅适用于给定的优先级。使用“最早的第一”是因为测序统计的预期产量通常不是非常准确并且可能低估了产量。因此,尝试将更新的请求与新的测序数据匹配是有意义的,假设更旧的、未实现的请求可能仅部分匹配,这就是它们尚未被满足的原因。
对于运行中的每个通道(例如,按照增加的通道号1-n的顺序):
优先级1-现有池重新排列优先于其他实验室请求,并且首先匹配直到完全实现(例如,不管其他请求的日期)。匹配可以要求通道具有与现有池重新排列相关联的确切池,以便匹配。
只有单个现有池重新排列可以与给定通道匹配。如果现有池重新排列与通道匹配,则不能将其他实验室请求与通道匹配。
因为整个通道匹配单个现有池实验室重新排列,所以来自通道的整个产量可以与现有池重新排列相关联,而不管池包含多少库。
重排可以匹配多个通道,直到被满足为止。
优先级2-现有库和新库重新排列被认为是下一个并且优先于用于匹配目的的准备请求。匹配可以要求通道包含确切的库以匹配现有的库重新排列,并且它包含用于相同LibraryPrep的生物样本的库,以便匹配给定生物样本PrepRequest的新库重新排列。
对于给定的生物样本,只有一个实验室重新排列可以与给定的通道匹配。对不同生物样本的请求可以同时匹配相同的通道。
在该优先级中的实验室请求以其日期顺序被考虑,直到它们被满足为止。它们可以匹配同一次运行的多个通道。
对于具有池的通道,可以假设来自通道的产量均匀地分布在池中的库中以用于产量分配目的。这种方法意味着每个匹配的实验室请求将仅获得与其相关的一部分通道产量。例如,如果池有三个库,则每个匹配请求获得整个通道的三分之一的产量。
优先级3-生物样本的准备请求被认为是最后的。对于匹配,可能要求通道包含与准备请求相同的LibraryPrep的生物样本的库。
如果先前将给定生物样本的实验室重新排列与给定通道匹配,则来自相同生物样本的准备请求不应与通道匹配。对不同生物样本的请求可以同时匹配相同的通道。
即使准备请求所需的产量已经完全匹配,准备请求也始终与该水平的匹配通道相关联。以这种方式,包含生物样本的通道可以与某物相匹配。
对于具有池的通道,可以假设来自通道的产量均匀地分布在池中的库中以用于产量分配目的。
尽管逻辑可以假设池将仅包含与给定生物样本相关联的单个库,但是可以针对其他场景更新它。
示例48-到来的产量匹配内部表示的示例
图22是在产量匹配期间使用的测序实体之间的关系的示例性内部电子表示2200的框图。如图所示,可以维持特定运行、一个或多个通道、库和样本之间的关系。
重新排列可以与何时创建重新排列一起表示,导致到来的产量与重新排列的更准确匹配,然后更快地启动相关的产量分析应用。
示例49-任务分布的示例
在本文的任何示例中,各种任务可以由系统的不同组件或硬件执行。例如,对于涉及接收原始数据和多路分解/转换这样的数据的那些实现,这样的工作可以由与聚合结果的组件不同的组件来执行。例如,测序仪器可以包括用于执行除简单输出原始测序数据之外的附加任务的硬件。
示例50-实现示例
本文中任何地方描述的技术可以实现为用于与数据交互的各种测序编排环境中的任何一种。例如,这些技术可以集成到Illumina有限公司提供的ILLUMINA BASESPACESequence Hub系统中。
尽管在本文的一些示例中描述了简单的线性场景,但是测序编排环境可以支持对测序结果的持续维护。例如,用户可以任意选择添加与特定自动化任务无关的其他测序数据。用于一种产量分析应用的数据可以通过相同或另一种产量分析应用来重复使用和/或补充和分析。
示例51-综合实施的示例
图23是将技术示例性实施为综合测序编排环境的方法2300的流程图,并且可以用于实现本文描述的任何聚合技术(例如,产量聚合器)。
在2310,接收用于测序的工作指令,启动测序工作流程。用户决定他们希望对生物样本进行测序,并且需要一定量的数据来运行成功的分析。数据(例如,产量)可以来自多个库、池或仪器。
在2320处,将生物样本工作流程上传到环境。工作流程包括生物样本的工作指令,以获得一定量的测序产量,并在达到产量时启动特定的产量分析应用。
在2330处,连接的测序仪器将.bcl文件上传到环境。
在2340处,在逐个通道的基础上评估来自测序运行的统计数据,其中自动阈值确定通过或失败状态。失败将排除下游聚合中的数据。
在2350处,运行的.bcl文件由环境应用自动转换为FASTQ文件。这些文件保存为FASTQ数据集,这是生物样本的产量来源。
在2360处,新创建的FASTQ数据集链接到生物样本和库。
在2370处,用户可以选择一个或多个生物样本作为测序编排环境应用的输入。
在2380处,环境找到链接到所选输入生物样本的所有非失败FASTQ数据集。可以检查生物样本的其他链接实体的失败状态,这可以排除更多数据集。
在2390处,产量分析应用使用FASTQ文件聚合在一起作为其算法的输入以产生输出。输出可用于进一步的下游分析。
示例52-示例工作指令实施
图24是实现工作指令的示例性方法2400的流程图,并且可以在本文涉及工作指令的任何示例中实现,包括图23的2320。
在2410处,下载生物样本工作流程.csv模板。用户可以填写表单以定义工作指令以及要自动化的内容。
在2420处,对于工作指令,可以命名生物样本,并且可以指定默认项目。处理生成的测序数据的应用可以将数据写入默认项目。
在2430处,添加准备请求。准备请求可以指示用于生物样本准备的库准备试剂盒。它还可以定义运行应用所需的目标产量。它可以是实验室生成一定数目的测序数据的原始工作指令请求。
在2440处,可以定义分析工作流程。这样的工作流程可以是用于自动化的应用模板。可以在.csv上传时提前安排它们,并在满足依赖性(例如,产量获得)时启动。
在2450处,如果需要,可以包括元数据键值对,以向生物样本添加更多信息。此类数据不必影响产量或应用启动。
在将.csv文件上传到测序编排环境之后,创建指定的生物样本、项目和分析。实验室可以开始工作以满足产量。
示例53-基于通道的质量控制示例
图25是通过测序通道在测序数据聚合场景中实现质量控制的示例性方法2500的流程图,并且可以在本文涉及质量控制的任何示例中实现,包括图23的2340。虽然显示了基于通道的质量控制,但除了通道之外可以使用其他测序实体,或使用其他测序实体代替通道。
在2520处,测序仪器将.bcl文件和其他运行文件上传到测序编排环境中的用户帐户。
在2530处,使用来自运行上传的交互操作文件,环境确定关于每个流通池通道的质量和产量的统计。
在2570处,基于用户将其阈值存储在特定度量上以确定每个通道的质量的设置,如果通过了阈值度量,则环境可以在2580处将通道设置为“QC通过”。失败导致在2590处设置为“QC失败”。用户可以查看自动设置的通道状态并手动否定它。将通道设置为“QC失败”不包括在该通道中为通道的生物样本生成的数据。
环境可以使用来自运行的.bcl文件来生成FASTQ文件。生成FAST文件的应用可以不受通道状态的影响,这会影响后续步骤中的数据聚合。
示例54-跨测序实体的质量控制示例
图26是跨测序实体实施基于质量控制的选择性产量聚合的示例性方法2600的流程图,并且可以在本文涉及聚合和质量控制的任何示例中实现,包括图23的2380。这种方法可以通过基于质量控制的选择性聚合器来实现,用于如本文所述的基于质量控制的选择性聚合。
在2610处,生物样本通常链接到下游实体,例如库、池、运行和流通池通道。当选择生物样本作为输入时,这种关系可用于收集数据。
生物样本链接到一个或多个库,在2620处,环境检查设置为“QC失败”状态的任何库并在2625处排除它们。排除来自库的FASTQ文件。如果存在未失败的库,则可以检查其他测序实体。
生物样本可以链接到一个或多个池。在2630处,环境检查任何失败的池并在2635处将它们排除。
生物样本可以与一个或多个运行相关联。在2640处,环境检查任何失败的运行并在2645处排除它们。
生物样本可以与来自相同或不同运行的一个或多个通道连接。在2650处,环境检查任何失败的通道并在2655处排除它们。
然后,环境聚合器可以收集来自未设置为失败状态的库、池、运行和通道的FASTQ文件。这些文件经链接到环境中创建的聚合生物样本表示。
聚合样本和链接的FASTQ文件可以用作应用的输入。如果需要,可以通过产量分析应用格式化FASTQ文件以供合适使用。
示例55-测序技术示例
可以结合本文描述的测序设备实施多种测序技术。
库准备
可以以任何合适的方式准备包含多核苷酸的库,以将寡核苷酸接头连接至靶多核苷酸。如本文所用,“库”是来自给定来源或样本的多核苷酸群。库包含多个靶多核苷酸。如本文所用,“靶多核苷酸”是期望被测序的多核苷酸。靶多核苷酸可以基本上是已知或未知序列的任何多核苷酸。它可以是,例如,基因组DNA或cDNA的片段。测序可以导致确定整个序列或一部分靶多核苷酸。靶多核苷酸可以衍生自随机片段化的初级多核苷酸样本。可以通过在每个靶片段的末端放置通用引物序列将靶多核苷酸加工成适于扩增的模板。靶多核苷酸也可以通过逆转录成cDNA从初级RNA样本中获得。
如本文所用,术语“多核苷酸”和“寡核苷酸”可互换地使用并且是指包含两个或更多个通常通过磷酸二酯键彼此共价结合的核苷酸单体的分子。多核苷酸通常含有比寡核苷酸更多的核苷酸。出于说明而非限制的目的,可以认为多核苷酸含有15、20、30、40、50、100、200、300、400、500或更多个核苷酸,而寡核苷酸可以被认为含有100、50、20、15或更少的核苷酸。
多核苷酸和寡核苷酸可包含脱氧核糖核酸(DNA)或核糖核酸(RNA)。该术语应理解为包括由核苷酸类似物准备的DNA或RNA的类似物作为等同物,并且适用于单链(例如有义或反义)和双链多核苷酸。本文使用的术语还包括cDNA,其是由RNA模板产生的互补或拷贝DNA,例如通过逆转录酶的作用。
初级多核苷酸分子可以起源于双链DNA(dsDNA)形式(例如基因组DNA片段,PCR和扩增产物等),或者可以起源于单链形式,如DNA或RNA,并且已经转化为dsDNA形式。举例来说,可以使用本领域熟知的标准技术将mRNA分子复制成双链cDNA。初级多核苷酸的精确序列通常不是本文提供的公开内容的材料,并且可以是已知的或未知的。
在一些示例中,初级靶多核苷酸是RNA分子。在此类示例的一个方面,首先使用本领域已知的技术将从特定样本中分离的RNA转化为双链DNA。然后可以用库特异性标签对双链DNA进行索引标记。可以从不同来源或样本中分离的RNA平行地产生包含库特异性索引标签的这种双链DNA的不同制剂。随后,可以混合包含不同库特异性索引标签的双链DNA的不同制剂,进行大量测序,并且通过库特异性索引标签序列的存在,相对于分离/衍生它的库确定每个测序片段的同一性。
在一些示例中,初级靶多核苷酸是DNA分子。例如,初级多核苷酸可以代表生物体的完整遗传互补物,并且是基因组DNA分子,例如人类DNA分子,其包括内含子和外显子序列(编码序列),以及非编码调节序列,例如启动子和增强子序列。尽管可以设想也可以使用特定的多核苷酸序列或基因组DNA亚组,例如特定染色体或其部分。在许多示例中,初级多核苷酸的序列是未知的。DNA靶多核苷酸可以在片段化过程,例如随机片段化过程之前或之后,并且在连接接头寡核苷酸之前、期间或之后进行化学或酶促处理。
可以将初级靶多核苷酸片段化为适合于测序的合适长度。靶多核苷酸可以以任何合适的方式片段化。靶多核苷酸可以是随机片段化的。随机片段化是指通过例如酶促、化学或机械方式以无序方式片段化多核苷酸。这种片段化方法是本领域已知的并且使用标准方法(Sambrook和Russell,Molecular Cloning,A Laboratory Manual,第三版)。为清楚起见,通过这种较小片段的特异性PCR扩增产生较大片段的多核苷酸的较小片段不等同于将较大片段的多核苷酸片段化,因为较大片段的多核苷酸保持完整(即未被PCR扩增片段化)。此外,设计随机片段化以产生片段,而不管包含和/或包围断裂的核苷酸的序列同一性或位置。
在一些示例中,随机片段化是通过机械方式如雾化或超声处理产生长度为约50个碱基对至约1500个碱基对,例如长度为50-700个碱基对或50-500个碱基对的片段。
通过机械方式(例如雾化、超声处理和水切力)使多核苷酸分子片段化可以产生具有平端和3'-和5'-突出末端的异质混合物的片段。可以使用本领域已知的方法或试剂盒(例如Lucigen DNA终止子末端修复试剂盒)修复片段末端,以产生最适于插入的末端,例如插入克隆载体的平端位点。在一些示例中,核酸群的片段末端是平端的。片段末端可以是平端的并且是磷酸化的。可以通过酶处理引入磷酸部分,例如,使用多核苷酸激酶。
在一些示例中,通过例如某些类型的DNA聚合酶(例如Taq聚合酶或Klenow exominus聚合酶)的活性准备具有单个突出核苷酸的靶多核苷酸序列,所述聚合酶具有非模板依赖性末端转移酶活性,其在例如PCR产物的3'末端增加了单脱氧核苷酸,例如,脱氧腺苷(A)。这些酶可用于将单个核苷酸“A”添加到靶多核苷酸双链体的每条链的平末端3'末端。因此,通过与Taq或Klenow exo minus聚合酶反应,可以将“A”添加到靶多核苷酸双链体的每个末端修复的双链体链的3'末端,而接头多核苷酸构建体可以是T-构建体,其具有在接头构建体的每个双链体区的3'末端上存在的相容“T”突出端。该末端修饰还阻止靶多核苷酸的自连接,使得存在对形成组合的连接的接头-靶多核苷酸的偏向。
在一些示例中,通过标记实现片段化,如例如国际专利申请公开WO2016/130704中所述。在这样的方法中,转座酶用于片段化双链多核苷酸并将通用引物序列连接到双链多核苷酸的一条链中。得到的分子可以是间隙填充的并且可以延伸,例如通过PCR扩增,使用包含具有与连接的通用引物序列互补的序列的3'末端和含有接头的其他序列的5'末端的引物。
接头可以以任何其他合适的方式与靶多核苷酸连接。在一些示例中,接头以多步骤方法,例如两步法引入,包括将接头的一部分连接到具有通用引物序列的靶多核苷酸上。第二步包括延伸,例如通过PCR扩增,使用包含3'末端的引物和5'末端,所述3'末端具有与所连接的通用引物序列互补的序列,所述5'末端含有接头的其他序列。举例来说,可以如美国专利No8,053,192中所述进行这种延伸。可以进行另外的延伸以向得到的先前延伸的多核苷酸的5'末端提供额外的序列。
在一些示例中,整个接头与片段化的靶多核苷酸连接。连接的接头可以包含与双链靶多核苷酸连接的双链区。双链区可以尽可能短而不丧失功能。在本文中,“功能”是指双链区在标准反应条件下形成稳定双链体的能力。在一些示例中,标准反应条件是指酶催化的多核苷酸连接反应的反应条件,这是本领域技术人员所熟知的(例如在适合于酶的连接缓冲液中4℃至25℃的温度范围下孵育),使得形成接头的两条链在接头与靶分子的连接过程中保持部分退火。连接方法是本领域已知的并且可以使用标准方法(Sambrook和Russell,分子克隆,实验室手册,第三版)。这些方法利用连接酶如DNA连接酶来实现或催化两个多核苷酸链的末端的连接,在这种情况下,是接头双链体寡核苷酸和靶多核苷酸双链体,从而形成共价连接。接头双链体寡核苷酸可含有5'-磷酸部分,以促进与靶多核苷酸3'-OH的连接。靶多核苷酸可含有5'-磷酸部分,或者来自剪切过程的残留,或者使用酶处理步骤添加,并且已经结束修复,并且任选地通过突出的碱基延伸,得到适合连接的3'-OH。在本文中,连接意指以前没有共价关联的多核苷酸链的共价连接。在一个特定方面,这种连接通过在两条多核苷酸链之间形成磷酸二酯连接而发生,但也可以使用其他共价连接方式(例如非磷酸二酯骨架连接)。接头与靶多核苷酸的连接更详细地描述于例如美国专利No 8,053,192号中。
任何合适的接头均可以通过任何合适的方法与靶多核苷酸连接,例如上面讨论的那些。接头包括库特异性的索引标签序列。在固定样本用于测序之前,可以将索引标签序列与来自每个库的靶多核苷酸连接。索引标签本身不是由靶多核苷酸的一部分形成,而是成为用于扩增的模板的一部分。索引标签可以是合成的核苷酸序列,其作为模板准备步骤的一部分添加到靶标中。因此,库特异性索引标签是附属于特定库的每个靶分子的核酸序列标签,其存在指示或用于识别从中分离靶分子的库。
索引标签序列的长度可以是20个核苷酸或更少。例如,索引标签序列的长度可以是1-10个核苷酸或4-6个核苷酸。四核苷酸索引标签提供了在同一阵列上多路256个样本的可能性,六碱基索引标签使得能够在同一阵列上处理4,096个样本。
接头可以包含多于一个索引标签,从而可以增加多路可能性。
接头可包含双链区和包含两条非互补单链的区域。接头的双链区可以是任何合适数目的碱基对。双链区可以是短双链区,通常包含5个或更多个连续碱基对,通过两个部分互补的多核苷酸链的退火形成。接头的这个“双链区”是指两条链退火的区域,并且不暗示任何特定的结构构象。在一些示例中,双链区包含20个或更少的连续碱基对,例如10个或更少或5个或更少的连续碱基对。
通过包含比标准的Watson-Crick碱基对表现出更强碱基配对的非天然核苷酸,可以增加双链区的稳定性,并因此其长度可能降低。接头的两个链可以是在双链区域100%互补。
当接头与靶多核苷酸连接时,非互补单链区可以形成待测序的多核苷酸的5'和3'末端。术语“非互补单链区”是指接头的区域,其中形成接头的两条多核苷酸链的序列表现出一定程度的非互补性,使得两条链在PCR反应的标准退火条件下不能完全相互退火。
非互补单链区由形成双链区的相同两条多核苷酸链的不同部分提供。单链部分长度的下限通常通过例如提供用于引物的结合的合适序列的功能来确定,所述结合用于引物延伸、PCR和/或测序。理论上,不匹配区域的长度没有上限,除了通常最小化接头的总长度是有利的,例如,为了便于在连接步骤之后将未结合的接头与接头-目标构建体分离。因此,通常优选接头的非互补单链区长度为50或更少的连续核苷酸,例如长度为40或更少,30或更少,或25或更少的连续核苷酸。
库特异性索引标签序列可以位于单链、双链区中,或跨接头的单链和双链区。索引标签序列可以在接头的单链区中。
除了索引标签序列之外,接头可以包括任何其他合适的序列。例如,接头可以包含通用延伸引物序列,其通常位于接头的5'或3'末端,并且所得多核苷酸用于测序。通用延伸引物序列可以与结合到固体载体表面的互补引物杂交。互补引物包含游离的3'末端,聚合酶或其他合适的酶可以使用杂交的库多核苷酸作为模板向3'末端添加核苷酸以延伸序列,导致库多核苷酸的反向链偶联至固体表面。这种延伸可以是测序运行或簇扩增的一部分。
在一些示例中,接头包含一种或多种通用测序引物序列。通用测序引物序列可以与测序引物结合,以允许对索引标签序列、靶序列或索引标签序列和靶序列进行测序。
接头的精确核苷酸序列通常不是重要的技术,并且可以由用户选择,使得期望的序列元件最终包括在从接头衍生的模板库的共同序列中,例如,为特定组的通用延伸引物和/或测序引物提供结合位点。
接头寡核苷酸可含有核酸外切酶抗性修饰,例如硫代磷酸酯键。
接头可以连接到靶多肽的两端以产生具有第一接头-靶-第二接头序列核苷酸的多核苷酸。第一和第二接头可以相同或不同。第一和第二接头可以是相同的。如果第一和第二接头不同,则第一和第二接头中的至少一个包括库特异性索引标签序列。
应当理解,“第一接头-靶-第二接头序列”或“接头-靶-接头”序列是指接头相对于彼此和靶标的取向,并不一定意味着该序列不可以包括额外的序列,例如接头序列。
可以以类似的方式准备其他库,每个库包括至少一个库特异性索引标签序列或不同于来自其他库的索引标签序列或索引标签序列的组合的索引标签序列的组合。
如本文所用,“连接”或“结合”在相对于靶序列的接头的上下文中可互换使用。如上所述,可以使用任何合适的方法将接头连接至靶多核苷酸。例如,接头可以通过以下方式连接到靶上:连接酶连接;接头一部分连接和通过例如PCR延伸将接头另外的或剩余部分添加的组合,所述PCR使用包含接头另外的或剩余部分的引物;通过转座引入接头的一部分并通过例如PCR延伸将接头另外的或剩余部分添加,所述PCR使用包含接头另外的或剩余部分的引物,等等。连接的接头寡核苷酸可以与靶多核苷酸共价结合。
在接头与靶多核苷酸连接后,得到的多核苷酸可以进行清理过程,以通过除去至少一部分未掺入的接头来增强接头-靶-接头多核苷酸的纯度。可以使用任何合适的清理方法,例如电泳,尺寸排阻色谱等。在一些示例中,可以使用固相反向固定化(SPRI)顺磁珠来将接头-靶-接头多核苷酸与未结合的接头分开。虽然这些过程可以增强所得接头-靶-接头多核苷酸的纯度,可能存在一些未连接的接头寡核苷酸。
用于测序的固定化样本的准备
然后在测序之前固定并扩增来自一种或多种来源的多个接头-靶-接头分子。将从一个或多个来源的接头-靶-接头分子连接到载体的方法是本领域已知的。同样,用于扩增固定的接头-靶-接头分子的方法包括但不限于桥式扩增和动力学排除。在测序之前固定和扩增的方法描述于例如Bignell等人(US 8,053,192),Gunderson等人(WO2016/130704),Shen等人(US 8,895,249)和Pipenburg等人(US 9,309,502)。
然后可以将样本,包括合并的样本,固定在制剂中进行测序。测序可以作为单个分子的阵列进行,或者可以在测序之前进行扩增。可以使用一种或多种固定化引物进行扩增。固定的引物可以是平坦表面上或珠子池上的坪。可以将珠子池分离成乳液,在乳液的每个“隔室”中具有单个珠子。在每个“隔室”仅一个模板的浓度下,在每个珠子上仅扩增单个模板。
如本文所用的术语“固相扩增”是指在固体支持物上或与固体支持物结合进行的任何核酸扩增反应,使得全部或部分扩增产物在形成时固定在固体支持物上。特别是,该术语包括固相聚合酶链式反应(固相PCR)和固相等温扩增,它们是类似于标准溶液相扩增的反应,除了将正向和反向扩增引物中的一个或两个固定在固体支持物上。固相PCR包括诸如乳液的系统,其中一种引物锚定在珠子上而另一种引物处于游离溶液中,并且在固相凝胶基质中形成集落,其中一种引物固定在表面上,一种是游离溶液。
在一些示例中,固体支持物包含图案化表面。“图案化表面”是指固体载体的暴露层中或上的不同区域的排列。例如,一个或多个区域可以是存在一种或多种扩增引物的特征(feature)。该特征可以通过不存在扩增引物的间隙区域分开。在一些示例中,图案可以是行和列中的x-y格式的特征。在一些示例中,图案可以是特征和/或间隙区域的重复排列。在一些示例中,图案可以是特征和/或间隙区域的随机排列。可用于本文所述方法和组合物中的示例性图案化表面描述于美国专利号8,778,848、8,778,849和9,079,148以及美国公开号2014/0243224中,其各自通过引用并入本文。
在一些示例中,固体支持物包括表面中的一系列孔或凹陷。这可以使用各种技术如本领域公知的那样制造,包括但不限于光刻、冲压技术、模塑技术和微蚀刻技术。如本领域技术人员所理解的,所使用的技术将取决于阵列载体的组成和形状。
图案化表面中的特征可以是玻璃、硅、塑料或其他合适的固体载体上的孔阵列(例如微孔或纳米孔)中的孔,其具有图案化的共价连接的凝胶,例如聚(N-(5-叠氮基乙酰胺基戊基)丙烯酰胺-共-丙烯酰胺)(PAZAM,参见,例如,美国公开号2013/184796,WO 2016/066586和WO 2015/002813,其各自通过引用整体并入本文)。该过程产生用于测序的凝胶垫,其可以在具有大量循环的测序运行中稳定。聚合物与孔的共价连接有助于在各种用途期间在结构化载体的整个寿命期间将凝胶保持在结构化特征中。然而,在许多示例中,凝胶不需要与孔共价连接。例如,在某些条件下,无硅烷丙烯酰胺(SFA,参见例如美国专利No8,563,477,其通过引用整体并入本文)可用作凝胶材料,所述无硅烷丙烯酰胺不共价连接到结构化载体的任何部分。
在特定示例中,结构化载体可以通过用孔(例如微孔或纳米孔)图案化固体支持材料,用凝胶材料(例如PAZAM、SFA或其化学修饰变体,例如叠氮化形式的SFA(叠氮基-SFA))涂覆图案化的载体以及抛光凝胶涂覆的支持物,例如通过化学或机械抛光,从而在孔中保留凝胶,但从孔间结构化载体表面上的间隙区域除去或灭活基本上所有的凝胶。引物核酸可以附属在凝胶材料上。然后可以使靶核酸(例如片段化的人基因组)的溶液与抛光的载体接触,使得各个靶核酸将通过与连接于凝胶材料的引物相互作用而接种单个孔;然而,由于凝胶材料的缺失或失活,靶核酸不会占据间隙区域。靶核酸的扩增将限于孔中,因为间隙区域中凝胶的缺失或失活阻止了生长的核酸菌落的向外迁移。该方法可方便地制造、可扩展并利用传统的微米或纳米加工方法。
尽管所述技术包括“固相”扩增方法,其中仅固定一种扩增引物(另一种引物通常存在于游离溶液中),但优选固体支持物具有固定的正向和反向引物。在实践中,将存在'多个'相同的正向引物和/或'多个'固定在固体支持物上的相同的反向引物,因为扩增过程需要过量的引物来维持扩增。除非上下文另有说明,否则本文中对正向和反向引物的引用应相应地解释为包括多个这些引物。
任何给定的扩增反应需要对待扩增模板特异性的至少一种类型的正向引物和至少一种反向引物。但是,在某些示例中,正向和反向引物可以包含相同序列的模板特异性部分,并且可以具有完全相同的核苷酸序列和结构(包括任何非核苷酸修饰)。换句话说,可以仅使用一种类型的引物进行固相扩增,并且这种单引物方法包括在本技术的范围内。其他示例可以使用正向和反向引物,其包含相同的模板特异性序列但在一些其他结构特征上不同。例如,一种类型的引物可含有非核苷酸修饰,其不存在于另一种中。
在公开的示例中,用于固相扩增的引物可以通过在引物的5'末端处或附近单点共价连接到固体支持物上而固定,使引物的模板特异性部分自由地与其同源模板退火,3'羟基自由地用于引物延伸。本领域已知的任何合适的共价连接方法可用于此目的。所选择的连接化学将取决于固体载体的性质,以及应用于其的任何衍生化或官能化。引物本身可以包括部分,其可以是非核苷酸化学修饰,以促进连接。在一个具体示例中,引物可在5'末端包含含硫亲核试剂,例如硫代磷酸酯或硫代磷酸酯。在固体支持的聚丙烯酰胺水凝胶的情况下,该亲核试剂将结合水凝胶中存在的溴乙酰胺基团。将引物和模板连接到固体支持物上的更具体的方法是通过5'硫代磷酸酯连接到由聚合的丙烯酰胺和N-(5-溴乙酰基戊基)丙烯酰胺(BRAPA)组成的水凝胶上,如WO 05/065814中所述。
某些示例可以利用由已经“官能化”的惰性载体或基质(例如载玻片、聚合物珠等)组成的固体支持物,例如通过施加包含反应基团的层或涂层,所述反应基团允许共价连接至生物分子,例如多核苷酸。这种支持物的示例包括但不限于负载在惰性载体如玻璃上的聚丙烯酰胺水凝胶。在这样的示例中,生物分子(例如多核苷酸)可以直接共价连接到中间材料(例如水凝胶),但是中间材料本身可以非共价连接到载体或基质(例如玻璃载体)上。术语“与固体支持物共价连接”应相应地解释为包含这种类型的排列。
可以在珠子上扩增合并的样本,其中每个珠子含有正向和反向扩增引物。在一个特定的示例中,通过固相扩增,更特别是固相等温扩增,模板库可用于准备核酸集落的成簇阵列,类似于美国专利No2005/0100900、美国专利号7,115,400、WO 00/18957和WO 98/44151,其内容通过引用整体并入本文。术语“簇”和“集落”在本文中可互换使用,是指固体支持物上的离散位点,其由多个相同的固定化核酸链和多个相同的固定化互补核酸链组成。术语“成簇阵列”是指由这样的簇或集落形成的阵列。在这种情况下,术语“阵列”不应理解为需要有序的簇排列。
术语“固相”或“表面”用于表示平面阵列,其中引物连接于平坦表面,例如玻璃、二氧化硅或塑料显微镜载玻片或类似的流动池设备;珠子,其中一个或两个引物与珠子连接并且珠子被扩增;或者表面上的一系列珠子,在珠子被扩增后。
可以使用热循环方法(如WO 98/44151中所述)或将温度保持为常数的方法准备聚簇阵列,并且使用试剂的改变进行延伸和变性的循环。这种等温扩增方法描述于专利申请号WO 02/46456和美国专利2008/0009420中,其全部内容通过引用并入本文。由于等温过程中所需的较低温度,这是特别优选的。
应当理解,本文描述的或本领域通常已知的任何扩增方法可以与通用或靶特异性引物一起使用以扩增固定的DNA片段。合适的扩增方法包括但不限于聚合酶链反应(PCR)、链置换扩增(SDA)、转录介导的扩增(TMA)和基于核酸序列的扩增(NASBA),如美国专利8,003,354中所述,其全部内容通过引用并入本文。以上扩增方法可用于扩增一种或多种目的核酸。例如,PCR,包括多路PCR、SDA、TMA、NASBA等可用于扩增固定的DNA片段。在一些示例中,特异性针对目标多核苷酸的引物包括在扩增反应中。
用于扩增多核苷酸的其他合适方法可包括寡核苷酸延伸和连接,滚环扩增(RCA)(Lizardi等,NatGenet19:225-232(1998))和寡核苷酸连接测定(OLA)技术(一般参见美国专利号7,582,420,5,185,243,5,679,524和5,573,907;EP 0 320 308 B1;EP 0 336 731B1;EP 0 439 182 B1;WO 90/01069;WO 89/12696;以及WO 89/09835)。应当理解,可以设计这些扩增方法以扩增固定的DNA片段。例如,在一些示例中,扩增方法可包括连接探针扩增或寡核苷酸连接测定(OLA)反应,其含有特异性针对目标核酸的引物。在一些示例中,扩增方法可包括引物延伸-连接反应,其含有特异性针对目标核酸的引物。作为可以特异性设计用于扩增目标核酸的引物延伸和连接引物的非限制性示例,扩增可以包括用于GoldenGate测定的引物(Illumina,Inc,San Diego,CA),如美国专利号7,582,420和7,611,869所例示。
可以在本公开的方法中使用的示例性等温扩增方法包括但不限于多重置换扩增(MDA),例如Dean等人,ProcNatlAcadSciUSA,99:5261-66(2002)所例示,或等温链置换核酸扩增,例如美国专利号6,214,587所例示。可以在本公开中使用的其他基于非PCR的方法包括,例如,链置换扩增(SDA),其描述于例如Walker等,Molecular Methods for VirusDetection,Academic Press,Inc,1995;美国专利5,455,166和5,130,238,以及Walker等,Nucl Acids Res 20:1691-96(1992)或超支化链置换扩增,其描述于例如Lage等,GenomeRes 13:294-307(2003)。等温扩增方法可与链置换Phi 29聚合酶或Bst DNA聚合酶大片段,5'->3'外切酶一起用于基因组DNA的随机引物扩增。这些聚合酶的使用利用了它们的高持续合成能力和链置换活性。高持续合成能力使聚合酶产生长度为10-20kb的片段。如上所述,可以在等温条件下使用具有低持续合成能力和链置换活性的聚合酶如Klenow聚合酶产生较小的片段。对扩增反应的另外描述,如条件和组分在美国专利No7,670,810的公开内容中详细阐述,其通过引用整体并入本文。
可用于本公开内容的另一种多核苷酸扩增方法是标记PCR,其使用具有恒定5'区域的随后是随机3'区域的双结构域引物群,例如在Grothues等人,Nucleic Acids Res 21(5):1321-2(1993)中描述。基于来自随机合成的3'区域的个体杂交进行第一轮扩增,以允许在热变性DNA上进行大量启动。由于3'区域的性质,起始位点预期在整个基因组中是随机的。此后,可以除去未结合的引物,并且可以使用与恒定5'区互补的引物进一步复制。
在一些示例中,可以使用动力学排阻扩增(KEA)进行等温扩增,也称为排阻扩增(ExAmp)。可以使用包括使扩增试剂反应产生多个扩增位点的步骤的方法准备本公开的核酸库,每个扩增位点包括来自已接种该位点的单个靶核酸的基本上克隆的扩增子群。在一些示例中,扩增反应进行直至产生足够数目的扩增子以填充相应扩增位点的容量。以这种方式填充已经接种的位点的容量抑制靶核酸在该位点着陆和扩增,从而在该位点产生克隆群体的扩增子。在一些示例中,即使在第二靶核酸到达该位点之前扩增位点未被填充至容量,也可以实现明显的克隆性。在一些条件下,第一靶核酸的扩增可以进行到这样的程度,即准备足够数目的拷贝以有效地胜过或压倒从运输到该位点的第二靶核酸产生的拷贝。例如,在对直径小于500nm的圆形特征使用桥式扩增过程的示例中,已经确定在第一靶核酸的指数扩增的14个循环之后,在相同的位点的来自第二靶核酸的污染将产生数目不足的污染扩增子,从而对Illumina测序平台上的合成测序分析产生不利影响。
阵列中的扩增位点在特定示例中可以是但不必是完全克隆的。相反,对于一些应用,单个扩增位点可以主要由来自第一靶核酸的扩增子填充,并且还可以具有来自第二靶核酸的低水平的污染扩增子。阵列可具有一个或多个具有低水平的污染扩增子的扩增位点,只要污染水平对随后的阵列使用不具有不可接受的影响即可。例如,当阵列要用于检测应用时,可接受的污染水平将是不会以不可接受的方式影响信噪比或检测技术的分辨率的水平。因此,表观克隆性通常与通过本文所述方法准备的阵列的特定用途或应用相关。对于特定应用,在单个扩增位点可接受的示例性污染水平包括但不限于,至多01%、05%、1%、5%、10%或25%的污染扩增子。阵列可包括具有这些示例性水平的污染扩增子的一个或多个扩增位点。例如,阵列中高达5%、10%、25%、50%、75%或甚至100%的扩增位点可具有一些污染性扩增子。应当理解,在阵列或其他位点集合中,至少50%、75%、80%、85%、90%、95%或99%或更多的位点可以是克隆的或明显克隆的。
在一些示例中,当过程以足够快的速率发生以有效地排除另一事件或过程发生时,可发生动力学排除。例如,准备核酸阵列,其中阵列的位点随机地用来自溶液的靶核酸接种,并且在扩增过程中产生靶核酸的拷贝以将每个接种位点填充至容量。根据本公开的动力学排除方法,接种和扩增过程可以在扩增速率超过接种率的条件下同时进行。因此,在已经由第一靶核酸接种的位点处进行拷贝的相对快速的速率将有效地排除第二核酸接种用于扩增的位点。动力学排除扩增方法可以如美国申请2013/0338042公开中详细描述的那样进行,其全部内容通过引用并入本文。
相比于相对快速地准备靶核酸(或靶核酸的第一拷贝)的后续拷贝,动力学排除可以利用相对慢的速率来启动扩增(例如,慢速准备靶核酸的第一拷贝)。在前一段的例子中,相比于发生扩增以用核酸种子拷贝填充该位点的相对快速的速率,由于靶核酸接种速率相对较慢(例如相对缓慢的扩散或转运)而发生动力学排除。在另一个示例性示例中,相比于以相对快速的速率准备后续拷贝以填充位点,由于延迟形成已经接种位点的靶核酸的第一拷贝(例如延迟或缓慢激活)而发生动力学排除。在该示例中,可以用几种不同的靶核酸接种单个位点(例如,在扩增之前,每个位点可以存在几种靶核酸)。然而,可以随机激活任何给定靶核酸的第一拷贝形成,使得与产生后续拷贝的速率相比,第一拷贝形成的平均速率相对较慢。在这种情况下,虽然可以用几种不同的靶核酸接种单个位点,但动力学排除将允许只有一种目标核酸被扩增。更具体地,一旦第一靶核酸被激活用于扩增,该位点将迅速用其拷贝填充至容量,从而防止在该位点准备第二靶核酸的拷贝。
扩增试剂可以包括促进扩增子形成,并且在一些情况下增加扩增子形成速率的其他组分。一个例子是重组酶。重组酶可通过允许重复侵入/延伸来促进扩增子形成。更具体地,重组酶可以促进聚合酶对靶核酸的侵入,并使用靶核酸作为扩增子形成的模板,通过聚合酶延伸引物。该过程可以作为连锁反应重复,其中从每轮侵入/延伸产生的扩增子在随后的回合中用作模板。该过程可以比标准PCR更快地发生,因为不需要变性循环(例如通过加热或化学变性)。因此,重组酶促进的扩增可以等温进行。通常希望在重组酶促进的扩增试剂中包括ATP或其他核苷酸(或在某些情况下,其不可水解的类似物)以促进扩增。重组酶和单链结合(SSB)蛋白的混合物特别有用,因为SSB可以进一步促进扩增。用于重组酶促扩增的示例性制剂包括由TwistDx(Cambridge,UK)作为TwistAmp试剂盒商业销售的那些。重组酶促进的扩增试剂的有用组分和反应条件在US 5,223,414和US 7,399,590中列出,其每一篇通过引用并入本文。
可以包含在扩增试剂中以促进扩增子形成并且在一些情况下增加扩增子形成速率的组分的另一个实例是解旋酶。通过允许扩增子形成的链式反应,解旋酶可以促进扩增子形成。该过程可以比标准PCR更快地发生,因为不需要变性循环(例如通过加热或化学变性)。因此,可以等温地进行解旋酶促进的扩增。解旋酶和单链结合(SSB)蛋白的混合物特别有用,因为SSB可以进一步促进扩增。用于解旋酶促进的扩增的示例性制剂包括来自Biohelix(Beverly,MA)作为IsoAmp试剂盒商业销售的那些。此外,包含解旋酶蛋白的有用制剂的示例描述于US 7,399,590和US 7,829,284中,其各自通过引用并入本文。
可以包含在扩增试剂中以促进扩增子形成并且在一些情况下增加扩增子形成速率的组分的另一个示例是起始结合蛋白。
用于测序
在将接头-靶-接头分子连接到表面后,确定固定的和扩增的接头-靶-接头分子的序列。可以使用任何合适的测序技术进行测序,并且用于确定固定的和扩增的接头-靶-接头分子的序列的方法,包括链重新合成,是本领域已知的,并且描述于例如Bignell等人(US8,053,192),Gunderson等人(WO2016/130704),Shen等人(US 8,895,249)和Pipenburg等人(US 9,309,502)。
本文描述的方法可以与多种核酸测序技术结合使用。特别适用的技术是其中核酸连接在阵列中的固定位置使得它们的相对位置不改变并且其中阵列被重复成像的技术。在不同颜色通道中获得图像的示例,例如,与用于将一种核苷酸碱基类型与另一种核苷酸碱基类型区分开的不同标记重合的示例是特别适用。在一些示例中,确定靶核酸的核苷酸序列的过程可以是自动化过程。优选的示例包括合成测序(“SBS”)技术。
SBS技术通常涉及通过针对模板链反复添加核苷酸来酶促延伸新生核酸链。在SBS的传统方法中,可以在每次递送中在聚合酶存在下将单核苷酸单体提供给靶核苷酸。然而,在本文所述的方法中,可以在递送中在聚合酶存在下向靶核酸提供一种以上类型的核苷酸单体。
SBS可以利用具有终止子部分的核苷酸单体或缺乏任何终止子部分的核苷酸单体。利用缺乏终止子的核苷酸单体的方法包括,例如,使用γ-磷酸标记的核苷酸进行焦磷酸测序和测序,如下文进一步详述。在使用缺乏终止子的核苷酸单体的方法中,每个循环中添加的核苷酸的数目通常是可变的并且取决于模板序列和核苷酸递送的模式。对于利用具有终止子部分的核苷酸单体的SBS技术,终止子可以在使用的测序条件下有效地不可逆,如使用双脱氧核苷酸的传统Sanger测序的情况,或终止子可以是可逆的,如Solexa(现为Illumina,Inc)开发的测序方法的情况。
SBS技术可利用具有标记部分的核苷酸单体或缺乏标记部分的核苷酸单体。因此,可以基于以下检测掺入事件:标记的特征,例如标记的荧光;核苷酸单体的特征,如分子量或电荷;核苷酸掺入的副产物,例如焦磷酸盐的释放;等等。在测序试剂中存在两种或更多种不同核苷酸的示例中,不同的核苷酸可以彼此区分,或者,在所使用的检测技术下,两种或更多种不同的标记可以是不可区分的。例如,测序试剂中存在的不同核苷酸可以具有不同的标记,并且可以使用合适的光学器件来区分它们,例如由Solexa(现在的Illumina,Inc)开发的测序方法所示例的。
优选的示例包括焦磷酸测序技术。在特定的核苷酸被整合到新生链中时,焦磷酸测序检测到无机焦磷酸(PPi)的释放(Ronaghi,M,Karamohamed,S,Pettersson,B,Uhlen,M和Nyren,P(1996)“Real-time DNA sequencing using detection of pyrophosphaterelease“Analytical Biochemistry 242(1),84-9;Ronaghi,M(2001)”Pyrosequencingsheds light on DNA sequencing“Genome Res11(1),3-11;Ronaghi,M,Uhlen,M和Nyren,P(1998)“A sequencing method based on real-time pyrophosphate。”Science 281(5375),363;美国专利No6,210,891;6,258,568和6,274,320,其公开的全部内容通过引用并入本文。在焦磷酸测序中,释放的PPi可以通过ATP硫酰酶立即转化为三磷酸腺苷(ATP)来检测,并且通过荧光素酶产生的光子检测产生的ATP水平。待测序的核酸可以连接到阵列中的特征,并且可以对阵列进行成像以捕获由于在阵列的特征处掺入核苷酸而产生的化学发光信号。在用特定核苷酸类型(例如A、T、C或G)处理阵列后,可以获得图像。添加每种核苷酸类型后获得的图像将在检测到阵列中的哪些特征方面不同。图像中的这些差异反映了阵列上特征的不同序列内容。但是,每个特征的相对位置在图像中将保持不变。可以使用本文所述的方法存储,处理和分析图像。例如,在处理具有每种不同核苷酸类型的阵列后获得的图像可以以与本文例示的相同方式处理,用于从基于可逆终止子的测序方法的不同检测通道获得的图像。
在另一个示例性类型的SBS中,循环测序通过逐步添加可逆终止子核苷酸来完成,所述可逆终止子核苷酸含有例如可如WO 04/018497和美国专利No 7,057,026中所述的可切割或可光漂白的染料标记,其公开内容在此引入作为参考。该方法由Solexa(现为Illumina Inc)商业化,并且还描述于WO 91/06678和WO 07/123,744中,其各自通过引用并入本文。荧光标记的终止子的可用性,其中终止可以被逆转并且荧光标记被切割,促进有效的循环可逆终止(CRT)测序。聚合酶也可以共同工程化以有效地掺入和延伸这些修饰的核苷酸。
优选地,在基于可逆终止子的测序示例中,标记基本上不抑制SBS反应条件下的延伸。然而,检测标记可以是可移除的,例如,通过切割或降解。在将标记掺入阵列核酸特征中后可以捕获图像。在特定示例中,每个循环涉及将四种不同核苷酸类型同时递送至阵列,并且每种核苷酸类型具有光谱上不同的标记。然后可以获得四个图像,每个图像使用对四种不同标记之一有选择性的检测通道。或者,可以顺序添加不同的核苷酸类型,并且可以在每个添加步骤之间获得阵列的图像。在此类示例中,每个图像将显示掺入特定类型的核苷酸的核酸特征。由于每个特征的不同序列内容,在不同图像中将存在或不存在不同的特征。但是,特征的相对位置在图像中保持不变。从这种可逆终止子-SBS方法获得的图像可以如本文所述进行储存、处理和分析。在图像捕获步骤之后,可以去除标记并且可以去除可逆终止子部分,以便于随后的核苷酸添加和检测循环。在特定周期中和在后续周期之前检测到标签之后去除标签可以提供减少背景信号和周期之间串扰的优点。有用标记和去除方法的实例如下所述。
在特定示例中,一些或所有核苷酸单体可包括可逆终止子。在此类示例中,可逆终止子/可切割的荧光团可包括通过3'酯键与核糖部分连接的荧光团(Metzker,GenomeRes15:1767-1776(2005),其通过引用并入本文)。其他方法已将终止子化学与荧光标记的切割分开(Ruparel等,Proc Natl Acad Sci USA 102:5932-7(2005),其通过引用整体并入本文)。Ruparel等人描述了使用小的3'烯丙基基团阻断延伸的可逆终止子的开发,但是可以通过用钯催化剂的短处理容易地解封。荧光团通过光可切割的接头连接到基底上,该接头可以通过30秒暴露于长波紫外光而容易地裂解。因此,二硫化物还原或光切割可用作可切割的接头。可逆终止的另一种方法是在dNTP上放置大体积染料后使用自然终止。在dNTP上存在带电的大体积染料可以通过空间和/或静电阻碍作为有效的终止剂。除非染料被除去,否则一种掺入事件的存在阻止了进一步的掺入。染料的裂解除去荧光团并有效地逆转终止。修饰的核苷酸的示例也描述于美国专利专利7,427,673和7,057,026中,其公开内容通过引用整体并入本文。
可以与本文描述的方法和系统一起使用的另外的示例性SBS系统和方法描述于美国专利2007/0166705、2006/0188901、2006/0240439、2006/0281109、2012/0270305和2013/0260372,美国专利7,057,026,PCT公开号WO 05/065814,美国专利申请公开号2005/0100900和PCT公开号WO 06/064199和WO 07/010,251,其公开内容通过引用整体并入本文。。
一些示例可以使用少于四种不同标记来利用四种不同核苷酸的检测。例如,可以利用美国专利2013/0079232公布的引入的材料中描述的方法和系统来执行SBS。作为第一例子,可以在相同波长下检测一对核苷酸类型,但是基于该对中一个成员与另一个成员相比的强度差异,或者基于该对中一个成员的变化来区分(例如,通过化学修饰,光化学修饰或物理修饰,与对该对的另一成员检测到的信号相比,导致明显的信号出现或消失。作为第二例子,在某些特定条件下可以检测四种不同核苷酸类型中的三种,第四种核苷酸类型缺乏在这些条件下可检测的标记,或在这些条件下最低限度检测的标记(例如,由于背景荧光引起的最小检测等)。可以基于它们各自信号的存在来确定将前三种核苷酸类型掺入核酸中,并且可以基于任何信号的不存在或最小检测来确定将第四核苷酸类型掺入核酸中。作为第三个例子,一种核苷酸类型可以包括在两个不同通道中检测的标记,而在不多于一个通道中检测其他核苷酸类型。上述三个示例性配置不被认为是相互排斥的,并且可以以各种组合使用。组合所有三个示例的示例性示例是基于荧光的SBS方法,其使用在第一通道中检测的第一核苷酸类型(例如,具有在第一激发波长激发时在第一通道中检测到的标记的dATP),第二核苷酸类型,其在第二通道中检测到(例如,dCTP具有在被第二激发波长激发时在第二通道中检测到的标记),第三核苷酸类型在第一和第二通道中检测到(例如,dTTP具有至少一个在第一和/或第二激发波长激发时在两个通道中检测到的标记)和第四核苷酸类型,其缺少在任一通道中没有或最低限度地检测到的标记(例如,dGTP没有标签)。
此外,如美国公布的并入材料中所述。在美国专利号2013/0079232中,可以使用单个通道获得测序数据。在这种所谓的单染色测序方法中,标记第一核苷酸类型,但在产生第一图像后除去标记,并且仅在产生第一图像后标记第二核苷酸类型。第三种核苷酸类型在第一和第二图像中都保留其标记,第四种核苷酸类型在两种图像中都保持未标记。
一些示例可以利用连接技术进行测序。这些技术利用DNA连接酶掺入寡核苷酸并识别这些寡核苷酸的掺入。寡核苷酸通常具有与寡核苷酸杂交的序列中特定核苷酸的特性相关的不同标记。与其他SBS方法一样,可以在用标记的测序试剂处理一系列核酸特征后获得图像。每个图像将显示具有特定类型标记的核酸特征。由于每个特征的不同序列内容,不同的图像中将存在或不存在不同的特征,但是特征的相对位置将保持不变。如本文所述,可以存储、处理和分析从基于连接的测序方法获得的图像。可以与本文描述的方法和系统一起使用的示例性SBS系统和方法描述于美国专利6,969,488、6,172,218和6,306,597中,其公开内容通过引用整体并入本文。
一些示例可以利用纳米孔测序(Deamer,DW&Akeson,M“Nanopores and nucleicacids:prospects for ultrarapid sequencing”趋势生物技术。18,147-151(2000);Trends Biotechnol 18,147-151(2000);Deamer,D and D Branton,"Characterizationof nucleic acids by nanopore analysis",Acc Chem Res 35:817-825(2002);Li,J,MGershow,D Stein,E Brandin,and J A Golovchenko,"DNA molecules andconfigurations in a solid-state nanopore microscope"Nat Mater 2:611-615(2003),其公开内容通过引用整体并入本文。在此类示例中,靶核酸通过纳米孔。纳米孔可以是合成孔或生物膜蛋白,例如α-溶血素。当靶核酸通过纳米孔时,可以通过测量孔的电导的波动来识别每个碱基对。(美国专利号7,001,792;Soni,G V&Meller,"A Progresstoward ultrafast DNA sequencing using solid-state nanopores"Clin Chem 53,1996-2001(2007);Healy,K"Nanopore-based single-molecule DNA analysis"Nanomed2,459-481(2007);Cockroft,S L,Chu,J,Amorin,M&Ghadiri,M R"A single-moleculenanopore device detects DNA polymerase activity with single-nucleotideresolution"J Am Chem Soc 130,818-820(2008),其公开内容通过引用整体并入本文。如本文所述,可以存储、处理和分析从纳米孔测序获得的数据。特别地,根据本文阐述的光学图像和其他图像的示例性处理,可以将数据视为图像。
一些示例可以利用涉及DNA聚合酶活性的实时监测的方法。可以通过具有荧光团的聚合酶和γ-磷酸盐标记的核苷酸之间的荧光共振能量转移(FRET)相互作用来检测核苷酸掺入,如例如美国专利No7,329,492和7,211,414中所述,均通过引用并入本文,或核苷酸掺入可以用零模式波导检测,例如,如美国专利7,315,019中所述,其通过引用并入本文,并且使用如例如美国专利号7,405,281和美国公开号No 2008/0108082中所述的荧光核苷酸类似物和工程化聚合酶,两者都在此引入作为参考。可以将照射限制在表面束缚的聚合酶周围的仄升级体积,使得可以在低背景下观察到荧光标记的核苷酸的掺入(Levene,M J etal"Zero-mode waveguides for single-molecule analysis at high concentrations"Science 299,682-686(2003);Lundquist,P M et al"Parallel confocal detection ofsingle molecules in real time"Opt Lett 33,1026-1028(2008);Korlach,J et al"Selective aluminum passivation for targeted immobilization of single DNApolymerase molecules in zero-mode waveguide nano structures"Proc Natl AcadSci USA 105,1176-1181(2008),其公开内容通过引用全文结合到本文中)。从这些方法获得的图像可以如本文所述进行存储、处理和分析。
一些SBS示例包括检测在将核苷酸掺入延伸产物中时释放的质子。例如,基于释放的质子的检测的测序可以使用电子检测器和相关技术,这些技术可以是从Ion Torrent(Guilford,CT,Life Technologies子公司)商购获得的或美国专利申请公开2009/0026082;2009/0127589;2010/0137143;以及2010/0282617No2004/080964中描述的测序方法和系统,所有这些都通过引用并入本文。本文所述的用于使用动力学排除来扩增靶核酸的方法可以容易地应用于用于检测质子的底物。更具体地,本文所述的方法可用于产生用于检测质子的扩增子克隆群。
上述SBS方法可以有利地以多路形式进行,使得同时操作多种不同的靶核酸。在特定的示例中,可以在共同的反应容器中或在特定底物的表面上处理不同的靶核酸。这允许方便地递送测序试剂,去除未反应的试剂和以多路方式检测掺入事件。在使用表面结合的靶核酸的示例中,靶核酸可以是阵列形式。在阵列形式中,靶核酸通常可以以空间可区分的方式结合到表面。靶核酸可以通过直接共价连接、与珠子或其他颗粒的连接或与聚合酶或附着于表面的其他分子结合而结合。阵列可以在每个位点包括靶核酸的单拷贝(也称为特征),或者在每个位点或特征处可以存在具有相同序列的多个拷贝。多拷贝可以通过扩增方法产生,例如桥式扩增或乳液PCR,如下面进一步详细描述的。
本文所述的方法可以使用具有各种密度中的任何一种的特征的阵列,包括例如至少约10个特征/cm 2、100个特征/cm 2、500个特征/cm 2、1,000个特征/cm 2、5,000个特征/cm 2、10,000个特征/cm 2、50,000个特征/cm 2,100,000个特征/cm 2、1,000,000个特征/cm 2、5,000,000个特征/cm 2或更高。
所描述的技术可以提供并行的多种靶核酸的快速和有效检测。因此,集成系统能够使用多种技术中的任何技术准备和检测核酸,包括上述那些技术。因此,本公开的集成系统可包括能够将扩增试剂和/或测序试剂递送至一个或多个固定的DNA片段的流体组分,该系统包含组分,例如泵、阀、储库、流体管线等。流动池可以配置和/或用于集成系统中以检测靶核酸。示例性的流动池描述于例如美国专利申请公布No No 2010/0111768和美国专利号13/273,666(美国公开号2012/0270305),其各自通过引用并入本文。如流通池所示,集成系统的一个或多个流体组件可用于扩增方法和检测方法。以核酸测序示例为例,集成系统的一种或多种流体组分可用于本文所述的扩增方法,并用于在测序方法中递送测序试剂,例如上面例举的那些。或者,集成系统可包括单独的流体系统以执行扩增方法和执行检测方法。能够产生扩增的核酸并且还确定核酸序列的集成测序系统的示例包括但不限于MiSeqTM平台(Ulumina,Inc,San Diego,CA)和美国专利13/273,666(美国公开号2012/0270305)中描述的设备,其通过引用并入本文。
示例56-计算系统示例
图27示出了合适的计算系统2700的一般化示例,其中可以实现任何所描述的技术。计算系统2700不旨在对使用范围或功能提出任何限制,因为创新可以在包括专用计算系统的各种计算系统中实现。实际上,计算系统可以包括所示计算系统的多个联网示例。
参考图27,计算系统2700包括一个或多个处理单元2710、2715和存储器2720、2725。在图27中,该基本配置2730包括在虚线内。处理单元2710、2715执行计算机可执行指令。处理单元可以是中央处理单元(CPU),专用集成电路(ASIC)中的处理器或任何其他类型的处理器。在多处理系统中,多个处理单元执行计算机可执行指令以增加处理能力。例如,图27示出了中央处理单元2710以及图形处理单元或协处理单元2715。有形存储器2720、2725可以是易失性存储器(例如,寄存器、高速缓存、RAM),非易失性存储器(例如,ROM、EEPROM、闪存等),或两者的某种组合,可由处理单元访问。存储器2720、2725以适于由处理单元执行的计算机可执行指令的形式存储实现本文描述的一个或多个创新的软件2780。
计算系统可以具有附加特征。例如,计算系统2700包括存储器2740,一个或多个输入设备2750,一个或多个输出设备2760,以及一个或多个通信连接2770。互连机制(未示出)例如总线、控制器或网络互连计算系统2700的组件。通常,操作系统软件(未示出)为在计算系统2700中执行的其他软件提供操作环境,并协调计算系统2700的组件的活动。
有形存储器2740可以是可移除的或不可移除的,并且包括磁盘、磁带或盒式磁带、CD-ROM、DVD或可用于以非暂时性方式存储信息、并且可以在计算系统2700内访问的任何其他介质。存储器2740存储用于实现本文描述的一个或多个创新的软件2780的指令。
输入设备2750可以是触摸输入设备,诸如键盘、鼠标、笔或轨迹球、语音输入设备、扫描设备或向计算系统2700提供输入的另一设备。对于视频编码,输入设备2750可以是照相机,视频卡,电视调谐器卡或接受模拟或数字形式的视频输入的类似设备,或者是将视频样本读入计算系统2700的CD-ROM或CD-RW。输出设备2760可以是显示器、打印机、扬声器、CD刻录机或提供来自计算系统2700的输出的另一设备。
通信连接2770使得能够通过通信介质与另一计算实体进行通信。通信介质传送诸如计算机可执行指令、音频或视频输入或输出之类的信息或调制数据信号中的其他数据。调制数据信号是以对信号中的信息进行编码的方式设置或改变其一个或多个特征的信号。作为举例而非限制,通信介质可以使用电、光、RF或其他载体。
可以在计算机可执行指令的一般上下文中描述创新,例如包括在程序模块中的指令,在目标真实或虚拟处理器上的计算系统中执行。通常,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、库、对象、类、组件、数据结构等。在各种示例中,可以根据需要在程序模块之间组合或分割程序模块的功能。用于程序模块的计算机可执行指令可以在本地或分布式计算系统内执行。
为了呈现,详细描述使用诸如“确定”和“使用”之类的术语来描述计算系统中的计算机操作。这些术语是计算机执行操作的高级抽象,不应与人类执行的操作混淆。对应于这些术语的实际计算机操作根据实现会有所变化。
示例57-计算机可读介质
本文的任何计算机可读介质可以是非暂时性的(例如,诸如DRAM或SRAM的易失性存储器,诸如磁存储、光学存储的非易失性存储器等)和/或有形的。本文描述的任何存储动作可以通过存储在一个或多个计算机可读介质(例如,计算机可读存储介质或其他有形介质)中来实现。描述为存储的任何事物(例如,在实现期间创建和使用的数据)可以存储在一个或多个计算机可读介质(例如,计算机可读存储介质或其他有形介质)中。计算机可读介质可以限于不包括信号的实现。
示例58-计算机可执行的实现
尽管所示的一些方法行为涉及实验室活动并且由人类活动执行(例如,“从生物样本准备库”),但是本文描述的任何方法的其他行为可以通过计算机可执行指令(例如,使计算系统执行该方法)执行存储在一个或多个计算机可读介质(例如,存储或其他有形介质)中或存储在一个或多个计算机可读存储设备中的方法。可以用软件、固件、硬件或其组合来执行这些方法。这些方法可以至少部分地由计算系统(例如,一个或多个计算设备)执行。
本文描述的方法的这种动作可以通过一个或多个计算机可读介质(例如,计算机可读存储介质或其他有形的介质)或一个或多个计算机可读存储设备(例如,存储器、磁存储器、光存储器等)中(例如,存储在其上、编码在其上等)的计算机可执行指令来实现。这些指令可以使计算设备执行该方法。本文描述的技术可以用各种编程语言实现。
在本文描述的任何技术中,可以从替代的角度描述所示动作,同时仍然实现这些技术。例如,“接收”也可以从不同视角被描述为“发送”。
进一步说明
可以实现以下任何实施例。
条款1.一种测序设备系统,包括:
多个测序设备,其输出包括特定生物样本的多个输入生物样本的多路原始生物样本测序数据,其中,序列产量的碱基对的目标数目被指定为足以启动用于进一步分析所述特定生物样本的应用;
一个或多个处理器;以及
存储器,其耦合到所述一个或多个处理器,其中,所述存储器包括用于使所述一个或多个处理器执行过程的计算机可执行指令,所述过程包括:
从所述多个测序设备接收所述多个输入生物样本的多路原始生物样本测序数据;
将所述多路原始生物样本测序数据多路分解并且转换成多个候选生物样本测序产量数据集;
识别所述候选生物样本测序产量数据集中的哪个源自所述特定生物样本;
将源自所述特定生物样本的所述候选生物样本测序产量数据集聚合成针对所述特定生物样本的聚合的测序数据产量;
确定针对所述特定生物样本的聚合的测序数据产量是否足够,其中,确定聚合测序数据产量是否足够包括比较针对所述特定生物样本的聚合的测序数据产量中的碱基对数目与所述碱基对的目标数目;以及
响应于确定针对所述特定生物样本的聚合的测序数据产量是足够的,启动应用,所述应用利用针对所述特定生物样本的所述聚合的测序数据产量执行对所述特定生物样本的进一步分析。
条款2.根据条款1所述的测序设备系统,其中,所述过程还包括:
将所述候选生物样本测序产量数据集的一部分识别为使质量控制度量失败;以及
响应于确定使所述质量控制度量失败的所述数据集的一部分,从聚合中排除所述数据集的所述部分。
条款3.根据条款1所述的测序设备系统,其中,所述过程还包括:
将所述候选生物样本测序产量数据集的一部分识别为使质量控制度量失败;以及
响应于确定使所述质量控制度量失败的所述数据集的一部分,将所述数据集的所述部分指示为失败;
经由用户输入,接收对使所述质量控制度量失败的所述数据集的一部分的确定的覆盖;以及
响应于接收所述覆盖,将所述数据集的所述部分包括在聚合中。
条款4.根据条款2或3中的一项所述的测序设备系统,其中:
将所述候选生物样本测序产量数据集的一部分识别为使质量控制度量失败包括将针对所述候选数据集的特定数据集的观察到的质量控制度量值与所述质量控制度量的存储的阈值进行比较。
条款5.根据条款4所述的测序设备系统,其中:
将所述部分识别为使所述质量控制度量失败包括,对于由所述测序设备中的特定测序设备执行的特定测序运行,将所述测序设备的测序通道识别为使所述质量控制度量失败;并且
从聚合中排除所述部分包括从聚合中排除针对所述测序通道的任何生物样本测序数据。
条款6.根据条款5所述的测序设备系统,其中:
所述排除排除来自针对多个生物样本的聚合的针对所述测序通道的候选生物样本测序产量数据集。
条款7.根据条款2-6中的任一项所述的测序设备系统,其中,所述过程还包括:
进一步响应于确定使所述质量控制度量失败的数据的一部分,更新针对所述特定生物样本的产量状态以指示被排除的部分失败。
条款8.根据条款2-7中的任一项所述的测序设备系统,其中,所述过程还包括:
响应于根据所述碱基对的目标数目确定产量不足,发出缺失产量警报。
条款9.根据条款8所述的测序设备系统,其中:
所述缺失产量警报包括用户界面元件,其用于请求针对所述特定生物样本的序列处理的重新排列。
条款10.根据条款8或9所述的测序设备系统,其中:
确定产量不足包括包括针对所述特定生物样本的进展中的产量。
条款11.根据条款2-10中的任一项所述的测序设备系统,其中,所述过程还包括:
在从聚合中排除生物样本测序数据的所述部分之后,接收用于重新排列针对所述特定生物样本的产量的请求的指示;
重新排列针对产量的所述请求;以及
更新所述特定生物样本的产量状态,以反映针对所述特定生物样本的产量的重新排列的请求。
条款12.根据条款11所述的测序设备系统,其中,所述过程还包括:
响应于针对所述特定生物样本的产量状态的请求,指示针对所述特定生物样本的获得的产量,以及针对所述特定生物样本的进展中的产量。
条款13.根据条款11-12中的任一项所述的测序设备系统,其中,所述过程还包括:
将预期来自产量的重新排列的请求的产量包括在计算中,用于确定是否已经针对所述特定生物样本请求了足够的产量。
条款14.根据条款11-13中的任一项所述的测序设备系统,其中,所述过程还包括:
将预期来自进展中的多路分解或格式转换的产量包括在计算中,用于确定是否已经针对所述生物样本请求了足够的产量。
条款15.根据条款11-14中的任一项所述的测序设备系统,其中,所述过程还包括:
设置针对产量的所述重新排列的请求的超时;以及
在所述超时过期之后,更新所述产量状态以指示针对产量的所述重新排列的请求已过期。
条款16.根据条款15所述的测序设备系统,其中:
响应于确定已经接收到来自与特定测序运行相关联的任何通道的产量,针对所述特定测序运行设置超时。
条款17.根据条款11-16中的任一项所述的测序设备系统,其中,所述过程还包括:
将针对产量的所述重新排列的请求集成到实验室信息管理系统中;
从所述实验室信息管理系统接收针对产量的所述重新排列的请求已经完成的指示;以及
响应于接收到针对产量的所述重新排列的请求已经完成的所述指示,将所述重新排列的请求标记为已确认。
条款18.根据条款11-17中的任一项所述的测序设备系统,其中,所述过程还包括:
跟踪针对产量的所述重新排列的请求,其中,跟踪包括将针对产量的所述重新排列的请求与活动的测序运行相匹配;以及
将来自所述活动的测序运行的预测产量包括在针对所述特定生物样本的进展中的产量中。
条款19.根据条款18所述的测序设备系统,其中:
将所述重新排列的请求与活动的运行相匹配使重新排列优先于初始请求。
条款20.根据条款1-19中的任一项所述的测序设备系统,其中:
识别所述候选生物样本测序数据集中的哪个源自所述特定生物样本包括:
将与所述特定生物样本相关联的索引标识符与所述候选生物样本测序数据集中指示的相应索引标识符相匹配。
条款21.根据条款20所述的测序设备系统,其中:
与所述特定生物样本相关联的索引标识符指示附属于所述特定生物样本并且由所述测序设备中的一个读取的索引序列。
条款22.根据条款20-21中的任一项所述的测序设备系统,其中:
所述索引标识符与作为针对所述特定生物样本的测序运行的一部分提供的样本表中的所述特定生物样本相关联;以及
所述样本表指示所述特定生物样本的生物样本标识符。
条款23.根据条款20-22中的任一项所述的测序设备系统,其中:
所述索引标识符与样本表中的所述特定生物样本相关联,所述样本表基于由实验室信息系统针对所述特定生物样本的测序运行提供的信息而生成;以及
所述样本表指示所述特定生物样本的生物样本标识符。
条款24.一种计算机实现的方法,包括:
从多个测序设备接收多个生物样本的多路原始生物样本测序数据;
将所述多路原始生物样本测序数据多路分解并且转换成多个候选生物样本测序产量数据集;
识别所述候选生物样本测序产量数据集中的哪个源自特定生物样本;
将所述候选生物样本测序产量数据集聚合成针对所述特定生物样本的聚合的测序数据产量;
确定针对所述特定生物样本的聚合的测序数据产量是否足够,其中,确定聚合测序数据产量是否足够包括比较针对所述特定生物样本的聚合的测序数据产量中的碱基对数目与所述特定生物样本的碱基对的目标数目;以及
响应于确定针对所述特定生物样本的聚合的测序数据产量是足够的,启动应用,所述应用利用针对所述特定生物样本的聚合的测序数据产量执行对所述特定生物样本的进一步分析。
条款25.一种或多种计算机可读介质,其上编码有计算机可执行指令,所述计算机可执行指令在被执行时使计算系统执行根据条款24所述的方法。
条款26.根据条款24所述的方法,还包括:
将所述候选生物样本测序产量数据集的一部分识别为使质量控制度量失败;以及
响应于确定使所述质量控制度量失败的所述数据集的一部分,从聚合中排除所述数据集的所述部分。
条款27.根据条款24或26所述的方法,还包括:
将所述候选生物样本测序产量数据集的一部分识别为使质量控制度量失败;以及
响应于确定使所述质量控制度量失败的所述数据集的一部分,将所述数据集的所述部分指示为失败;
经由用户输入,接收对使所述质量控制度量失败的所述数据集的一部分的确定的覆盖;以及
响应于接收所述覆盖,将所述数据集的所述部分包括在聚合中。
条款28.根据条款26所述的方法,其中:
将所述候选生物样本测序产量数据集的一部分识别为使质量控制度量失败包括将针对所述候选数据集的特定数据集的观察到的质量控制度量值与用于所述质量控制度量的存储的阈值进行比较。
条款29.根据条款28所述的方法,其中:
将所述部分识别为使所述质量控制度量失败包括,对于由所述测序设备中的特定测序设备执行的特定测序运行,将所述测序设备的测序通道识别为使所述质量控制度量失败;并且
从聚合中排除所述部分包括从聚合中排除针对所述测序通道的任何生物样本测序数据。
条款30.根据条款24或条款26-29中的任一项所述的方法,其中:
识别所述候选生物样本测序数据集中的哪个源自所述特定生物样本包括:
将与所述特定生物样本相关联的索引标识符与所述候选生物样本测序数据集中指示的相应索引标识符相匹配。
条款31.一种计算机实现的方法,包括:
在计算机可读介质中,存储索引序列的索引标识符和特定生物样本的生物样本标识符之间的关系;
从多个测序设备接收多个生物样本的多路原始生物样本测序数据;
将所述多路原始生物样本测序数据多路分解并且转换成多个候选生物样本测序产量数据集;
识别所述候选生物样本测序产量数据集中的哪个源自所述特定生物样本,其中,所述识别包括将特定候选生物样本测序产量数据集中指示的索引序列的索引标识符与存储在所述关系中的索引标识符匹配;以及
将识别为源自所述特定生物样本的候选生物样本测序产量数据集聚合成针对所述特定生物样本的聚合的测序数据产量。
条款32.根据条款31所述的方法,其中,所述识别还包括:
在所述计算机可读介质中,存储运行标识符和所述生物样本标识符之间的关系;
其中,所述识别包括将特定候选生物样本测序产量数据集的运行标识符与存储在所述关系中的运行标识符进行匹配。
条款33.根据条款32所述的方法,其中,所述识别还包括:
在所述计算机可读介质中,存储通道标识符和所述生物样本标识符之间的关系;
其中,所述识别包括将特定候选生物样本测序产量数据集的通道标识符与存储在所述关系中的所述通道标识符进行匹配。
条款34.一种测序设备系统,包括:
多个测序设备,其输出包括特定生物样本的多个输入生物样本的多路原始生物样本测序数据;
在一个或多个计算机可读介质中,存储为运行标识符、通道标识符、库标识符和生物样本标识符的测序运行、通道、库和生物样本的内部表示;以及
产量聚合器,其被配置为接收源自所述多路原始生物样本测序数据的多路分解的候选生物样本测序产量数据集,从所述内部表示确定数据集源自所述特定生物样本,将所述数据集与源自相同的特定生物样本的其他数据集聚合,并且提供针对所述特定生物样本获得的产量的总量的指示。
条款100.在包括多个测序仪器的测序环境中,执行前述条款中的任一项所述的方法(或过程)。
条款101.一种计算系统,包括:
一个或多个处理器;
存储器,包括计算机可执行指令,所述计算机可执行指令使得所述一个或多个处理器执行前述条款中的任一项所述的方法(或过程)。
条款102.一种或多种计算机可读介质,包括计算机可执行指令,所述计算机可执行指令使计算系统执行前述条款中的任一项所述的方法(或过程)。
进一步的实现
在包括多个测序仪器的测序环境中,可以执行本文描述的方法或过程中的任何一项。
一种计算系统,包括:
一个或多个处理器;
存储器,包括计算机可执行指令,所述计算机可执行指令使得一个或多个处理器执行本文描述的方法或过程中的任何一项。
一种或多种计算机可读介质,包括计算机可执行指令,所述计算机可执行指令使得计算系统执行本文描述的方法或过程中的任何一项。
备选方案
来自任何示例的技术可以与任何一个或多个其他示例中描述的技术组合。鉴于可以应用所公开技术的原理的许多可能的实施例,应该认识到,所示实施例是所公开技术的示例,并且不应该被视为对所公开技术的范围的限制。相反,所公开的技术的范围包括以下权利要求所涵盖的内容。因此要求保护权利要求的范围和精神内的所有内容。

Claims (34)

1.一种测序设备系统,包括:
多个测序设备,其输出包括特定生物样本的多个输入生物样本的多路原始生物样本测序数据,其中,序列产量的碱基对的目标数目被指定为足以启动用于进一步分析所述特定生物样本的应用;
一个或多个处理器;以及
存储器,其耦合到所述一个或多个处理器,其中,所述存储器包括用于使所述一个或多个处理器执行过程的计算机可执行指令,所述过程包括:
从所述多个测序设备接收所述多个输入生物样本的多路原始生物样本测序数据;
将所述多路原始生物样本测序数据多路分解并且转换成多个候选生物样本测序产量数据集;
识别所述候选生物样本测序产量数据集中的哪个源自所述特定生物样本;
将源自所述特定生物样本的所述候选生物样本测序产量数据集聚合成针对所述特定生物样本的聚合的测序数据产量;
确定针对所述特定生物样本的聚合的测序数据产量是否足够,其中,确定聚合测序数据产量是否足够包括比较针对所述特定生物样本的聚合的测序数据产量中的碱基对数目与所述碱基对的目标数目;以及
响应于确定针对所述特定生物样本的聚合的测序数据产量是足够的,启动应用,所述应用利用针对所述特定生物样本的所述聚合的测序数据产量执行对所述特定生物样本的进一步分析。
2.根据权利要求1所述的测序设备系统,其中,所述过程还包括:
将所述候选生物样本测序产量数据集的一部分识别为使质量控制度量失败;以及
响应于确定使所述质量控制度量失败的所述数据集的一部分,从聚合中排除所述数据集的所述部分。
3.根据权利要求1所述的测序设备系统,其中,所述过程还包括:
将所述候选生物样本测序产量数据集的一部分识别为使质量控制度量失败;以及
响应于确定使所述质量控制度量失败的所述数据集的一部分,将所述数据集的所述部分指示为失败;
经由用户输入,接收对使所述质量控制度量失败的所述数据集的一部分的确定的覆盖;以及
响应于接收所述覆盖,将所述数据集的所述部分包括在聚合中。
4.根据权利要求2所述的测序设备系统,其中:
将所述候选生物样本测序产量数据集的一部分识别为使质量控制度量失败包括将针对所述候选数据集的特定数据集的观察到的质量控制度量值与所述质量控制度量的存储的阈值进行比较。
5.根据权利要求4所述的测序设备系统,其中:
将所述部分识别为使所述质量控制度量失败包括,对于由所述测序设备中的特定测序设备执行的特定测序运行,将所述测序设备的测序通道识别为使所述质量控制度量失败;并且
从聚合中排除所述部分包括从聚合中排除针对所述测序通道的任何生物样本测序数据。
6.根据权利要求5所述的测序设备系统,其中:
所述排除排除来自针对多个生物样本的聚合的针对所述测序通道的候选生物样本测序产量数据集。
7.根据权利要求2所述的测序设备系统,其中,所述过程还包括:
进一步响应于确定使所述质量控制度量失败的数据的一部分,更新针对所述特定生物样本的产量状态以指示被排除的部分失败。
8.根据权利要求2所述的测序设备系统,其中,所述过程还包括:
响应于根据所述碱基对的目标数目确定产量不足,发出缺失产量警报。
9.根据权利要求8所述的测序设备系统,其中:
所述缺失产量警报包括用户界面元素,其用于请求针对所述特定生物样本的序列处理的重新排列。
10.根据权利要求8所述的测序设备系统,其中:
确定产量不足包括包括针对所述特定生物样本的进展中的产量。
11.根据权利要求2所述的测序设备系统,其中,所述过程还包括:
在从聚合中排除生物样本测序数据的所述部分之后,接收用于重新排列针对所述特定生物样本的产量的请求的指示;
重新排列针对产量的所述请求;以及
更新所述特定生物样本的产量状态,以反映针对所述特定生物样本的产量的重新排列的请求。
12.根据权利要求11所述的测序设备系统,其中,所述过程还包括:
响应于针对所述特定生物样本的产量状态的请求,指示针对所述特定生物样本的获得的产量,以及针对所述特定生物样本的进展中的产量。
13.根据权利要求11所述的测序设备系统,其中,所述过程还包括:
将预期来自产量的所述重新排列的请求的产量包括在计算中,用于确定是否已经针对所述特定生物样本请求了足够的产量。
14.根据权利要求11所述的测序设备系统,其中,所述过程还包括:
将预期来自进展中的多路分解或格式转换的产量包括在计算中,用于确定是否已经针对所述特定生物样本请求了足够的产量。
15.根据权利要求11所述的测序设备系统,其中,所述过程还包括:
设置针对产量的所述重新排列的请求的超时;以及
在所述超时过期之后,更新所述产量状态以指示针对产量的所述重新排列的请求已过期。
16.根据权利要求15所述的测序设备系统,其中:
响应于确定已经接收到来自与特定测序运行相关联的任何通道的产量,针对所述特定测序运行设置所述超时。
17.根据权利要求11所述的测序设备系统,其中,所述过程还包括:
将针对产量的所述重新排列的请求集成到实验室信息管理系统中;
从所述实验室信息管理系统接收针对产量的所述重新排列的请求已经完成的指示;以及
响应于接收到针对产量的所述重新排列的请求已经完成的所述指示,将所述重新排列的请求标记为已确认。
18.根据权利要求11所述的测序设备系统,其中,所述过程还包括:
跟踪针对产量的所述重新排列的请求,其中,跟踪包括将针对产量的所述重新排列的请求与活动的测序运行相匹配;以及
将来自所述活动的测序运行的预测产量包括在所述特定生物样本的进展中的产量中。
19.根据权利要求18所述的测序设备系统,其中:
将所述重新排列的请求与活动的运行相匹配使重新排列的请求优先于初始请求。
20.根据权利要求1所述的测序设备系统,其中:
识别所述候选生物样本测序数据集中的哪个源自所述特定生物样本包括:
将与所述特定生物样本相关联的索引标识符与所述候选生物样本测序数据集中指示的相应索引标识符相匹配。
21.根据权利要求20所述的测序设备系统,其中:
与所述特定生物样本相关联的索引标识符指示附属于所述特定生物样本并且由所述测序设备中的一个读取的索引序列。
22.根据权利要求20所述的测序设备系统,其中:
所述索引标识符与作为针对所述特定生物样本的测序运行的一部分提供的样本表中的所述特定生物样本相关联;以及
所述样本表指示所述特定生物样本的生物样本标识符。
23.根据权利要求20所述的测序设备系统,其中:
所述索引标识符与样本表中的所述特定生物样本相关联,所述样本表基于由实验室信息系统针对所述特定生物样本的测序运行提供的信息而生成;以及
所述样本表指示所述特定生物样本的生物样本标识符。
24.一种计算机实现的方法,包括:
从多个测序设备接收多个生物样本的多路原始生物样本测序数据;
将所述多路原始生物样本测序数据多路分解并且转换成多个候选生物样本测序产量数据集;
识别所述候选生物样本测序产量数据集中的哪个源自特定生物样本;
将所述候选生物样本测序产量数据集聚合成针对所述特定生物样本的聚合的测序数据产量;
确定针对所述特定生物样本的聚合的测序数据产量是否足够,其中,确定聚合测序数据产量是否足够包括比较针对所述特定生物样本的聚合的测序数据产量中的碱基对数目与所述特定生物样本的碱基对的目标数目;以及
响应于确定针对所述特定生物样本的聚合的测序数据产量是足够的,启动应用,所述应用利用针对所述特定生物样本的聚合的测序数据产量执行对所述特定生物样本的进一步分析。
25.一种或多种计算机可读介质,其上编码有计算机可执行指令,所述计算机可执行指令在被执行时使计算系统执行根据权利要求24所述的方法。
26.根据权利要求24所述的方法,还包括:
将所述候选生物样本测序产量数据集的一部分识别为使质量控制度量失败;以及
响应于确定使所述质量控制度量失败的所述数据集的一部分,从聚合中排除所述数据集的所述部分。
27.根据权利要求24所述的方法,还包括:
将所述候选生物样本测序产量数据集的一部分识别为使质量控制度量失败;以及
响应于确定使所述质量控制度量失败的所述数据集的一部分,将所述数据集的所述部分指示为失败;
经由用户输入,接收对使所述质量控制度量失败的所述数据集的一部分的确定的覆盖;以及
响应于接收所述覆盖,将所述数据集的所述部分包括在聚合中。
28.根据权利要求26所述的方法,其中:
将所述候选生物样本测序产量数据集的一部分识别为使质量控制度量失败包括将针对所述候选数据集的特定数据集的观察到的质量控制度量值与用于所述质量控制度量的存储的阈值进行比较。
29.根据权利要求28所述的方法,其中:
将所述部分识别为使所述质量控制度量失败包括,对于由所述测序设备中的特定测序设备执行的特定测序运行,将所述测序设备的测序通道识别为使所述质量控制度量失败;并且
从聚合中排除所述部分包括从聚合中排除针对所述测序通道的任何生物样本测序数据。
30.根据权利要求24所述的方法,进一步其中:
识别所述候选生物样本测序数据集中的哪个源自所述特定生物样本包括:
将与所述特定生物样本相关联的索引标识符与所述候选生物样本测序数据集中指示的相应索引标识符相匹配。
31.一种计算机实现的方法,包括:
在计算机可读介质中,存储索引序列的索引标识符和特定生物样本的生物样本标识符之间的关系;
从多个测序设备接收多个生物样本的多路原始生物样本测序数据;
将所述多路原始生物样本测序数据多路分解并且转换成多个候选生物样本测序产量数据集;
识别所述候选生物样本测序产量数据集中的哪个源自所述特定生物样本,其中,所述识别包括将特定候选生物样本测序产量数据集中指示的索引序列的索引标识符与存储在所述关系中的索引标识符匹配;以及
将识别为源自所述特定生物样本的候选生物样本测序产量数据集聚合成针对所述特定生物样本的聚合的测序数据产量。
32.根据权利要求31所述的方法,其中,所述识别还包括:
在所述计算机可读介质中,存储运行标识符和所述生物样本标识符之间的关系;
其中,所述识别包括将特定候选生物样本测序产量数据集的运行标识符与存储在所述关系中的运行标识符进行匹配。
33.根据权利要求32所述的方法,其中,所述识别还包括:
在所述计算机可读介质中,存储通道标识符和所述生物样本标识符之间的关系;
其中,所述识别包括将特定候选生物样本测序产量数据集的通道标识符与存储在所述关系中的所述通道标识符进行匹配。
34.一种测序设备系统,包括:
多个测序设备,其输出包括特定生物样本的多个输入生物样本的多路原始生物样本测序数据;
在一个或多个计算机可读介质中,存储为运行标识符、通道标识符、库标识符和生物样本标识符的测序运行、通道、库和生物样本的内部表示;以及
产量聚合器,其被配置为接收源自所述多路原始生物样本测序数据的多路分解的候选生物样本测序产量数据集,从所述内部表示确定数据集源自所述特定生物样本,将所述数据集与源自相同的特定生物样本的其他数据集聚合,并且提供针对所述特定生物样本获得的产量的总量的指示。
CN201880041432.3A 2017-07-31 2018-07-25 具有多路生物样本聚合的测序系统 Pending CN110785813A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762539402P 2017-07-31 2017-07-31
US62/539,402 2017-07-31
PCT/US2018/043744 WO2019027767A1 (en) 2017-07-31 2018-07-25 SEQUENCING SYSTEM COMPRISING AGGREGATION OF MULTIPLEXED BIOLOGICAL SAMPLES

Publications (1)

Publication Number Publication Date
CN110785813A true CN110785813A (zh) 2020-02-11

Family

ID=63371764

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880041432.3A Pending CN110785813A (zh) 2017-07-31 2018-07-25 具有多路生物样本聚合的测序系统

Country Status (4)

Country Link
US (1) US20200202977A1 (zh)
EP (1) EP3662482A1 (zh)
CN (1) CN110785813A (zh)
WO (1) WO2019027767A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111961710A (zh) * 2020-08-12 2020-11-20 苏州金唯智生物科技有限公司 一种样本处理方法及设备
CN113744803A (zh) * 2020-05-29 2021-12-03 鸿富锦精密电子(天津)有限公司 基因测序进度管理方法、装置、计算机装置及存储介质
CN111961710B (zh) * 2020-08-12 2024-04-26 苏州金唯智生物科技有限公司 一种样本处理方法及设备

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11347965B2 (en) 2019-03-21 2022-05-31 Illumina, Inc. Training data generation for artificial intelligence-based sequencing
US11210554B2 (en) 2019-03-21 2021-12-28 Illumina, Inc. Artificial intelligence-based generation of sequencing metadata
US11593649B2 (en) 2019-05-16 2023-02-28 Illumina, Inc. Base calling using convolutions
US20230030373A1 (en) * 2019-12-23 2023-02-02 Cold Spring Harbor Laboratory Mixseq: mixture sequencing using compressed sensing for in-situ and in-vitro applications
CN115136244A (zh) 2020-02-20 2022-09-30 因美纳有限公司 基于人工智能的多对多碱基判读
WO2022104272A1 (en) * 2020-11-16 2022-05-19 Life Technologies Corporation System and method for sequencing
CA3216359A1 (en) * 2021-04-07 2022-10-13 Battelle Memorial Institute Rapid design, build, test, and learn technologies for identifying and using non-viral carriers
US20220336054A1 (en) 2021-04-15 2022-10-20 Illumina, Inc. Deep Convolutional Neural Networks to Predict Variant Pathogenicity using Three-Dimensional (3D) Protein Structures
CN116024079B (zh) * 2023-03-16 2023-08-04 深圳市真迈生物科技有限公司 控制芯片加载的方法、装置、测序系统和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090074618A1 (en) * 2007-09-13 2009-03-19 Sysmex Corporation Sample analyzer
US20130275486A1 (en) * 2012-04-11 2013-10-17 Illumina, Inc. Cloud computing environment for biological data
US20140121116A1 (en) * 2012-10-31 2014-05-01 Counsyl, Inc. System and Methods for Detecting Genetic Variation

Family Cites Families (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1323293C (en) 1987-12-11 1993-10-19 Keith C. Backman Assay using template-dependent nucleic acid probe reorganization
CA1341584C (en) 1988-04-06 2008-11-18 Bruce Wallace Method of amplifying and detecting nucleic acid sequences
WO1989009835A1 (en) 1988-04-08 1989-10-19 The Salk Institute For Biological Studies Ligase-based amplification method
DE68927373T2 (de) 1988-06-24 1997-03-20 Amgen Inc Verfahren und mittel zum nachweis von nukleinsäuresequenzen
US5130238A (en) 1988-06-24 1992-07-14 Cangene Corporation Enhanced nucleic acid amplification process
JP2955759B2 (ja) 1988-07-20 1999-10-04 セゲブ・ダイアグノスティックス・インコーポレイテッド 核酸配列を増幅及び検出する方法
US5185243A (en) 1988-08-25 1993-02-09 Syntex (U.S.A.) Inc. Method for detection of specific nucleic acid sequences
WO1991006678A1 (en) 1989-10-26 1991-05-16 Sri International Dna sequencing
ATE137269T1 (de) 1990-01-26 1996-05-15 Abbott Lab Verbessertes verfahren zur amplifikation von nuklein säurezielsequenz, einsetzbar für die polymerase und ligasekettenreaktion
US5573907A (en) 1990-01-26 1996-11-12 Abbott Laboratories Detecting and amplifying target nucleic acids using exonucleolytic activity
US5223414A (en) 1990-05-07 1993-06-29 Sri International Process for nucleic acid hybridization and amplification
US5455166A (en) 1991-01-31 1995-10-03 Becton, Dickinson And Company Strand displacement amplification
CA2182517C (en) 1994-02-07 2001-08-21 Theo Nikiforov Ligase/polymerase-mediated primer extension of single nucleotide polymorphisms and its use in genetic analysis
KR100230718B1 (ko) 1994-03-16 1999-11-15 다니엘 엘. 캐시앙, 헨리 엘. 노르호프 등온 가닥 변위 핵산 증폭법
US5846719A (en) 1994-10-13 1998-12-08 Lynx Therapeutics, Inc. Oligonucleotide tags for sorting and identification
US5750341A (en) 1995-04-17 1998-05-12 Lynx Therapeutics, Inc. DNA sequencing by parallel oligonucleotide extensions
GB9620209D0 (en) 1996-09-27 1996-11-13 Cemu Bioteknik Ab Method of sequencing DNA
GB9626815D0 (en) 1996-12-23 1997-02-12 Cemu Bioteknik Ab Method of sequencing DNA
ES2563643T3 (es) 1997-04-01 2016-03-15 Illumina Cambridge Limited Método de secuenciación de ácido nucleico
US6969488B2 (en) 1998-05-22 2005-11-29 Solexa, Inc. System and apparatus for sequential processing of analytes
AR021833A1 (es) 1998-09-30 2002-08-07 Applied Research Systems Metodos de amplificacion y secuenciacion de acido nucleico
US6274320B1 (en) 1999-09-16 2001-08-14 Curagen Corporation Method of sequencing a nucleic acid
US7582420B2 (en) 2001-07-12 2009-09-01 Illumina, Inc. Multiplex nucleic acid reactions
US7955794B2 (en) 2000-09-21 2011-06-07 Illumina, Inc. Multiplex nucleic acid reactions
US7611869B2 (en) 2000-02-07 2009-11-03 Illumina, Inc. Multiplexed methylation detection methods
US7001792B2 (en) 2000-04-24 2006-02-21 Eagle Research & Development, Llc Ultra-fast nucleic acid sequencing device and a method for making and using the same
EP1368460B1 (en) 2000-07-07 2007-10-31 Visigen Biotechnologies, Inc. Real-time sequence determination
US7211414B2 (en) 2000-12-01 2007-05-01 Visigen Biotechnologies, Inc. Enzymatic nucleic acid synthesis: compositions and methods for altering monomer incorporation fidelity
AR031640A1 (es) 2000-12-08 2003-09-24 Applied Research Systems Amplificacion isotermica de acidos nucleicos en un soporte solido
US7057026B2 (en) 2001-12-04 2006-06-06 Solexa Limited Labelled nucleotides
US8030000B2 (en) 2002-02-21 2011-10-04 Alere San Diego, Inc. Recombinase polymerase amplification
US7399590B2 (en) 2002-02-21 2008-07-15 Asm Scientific, Inc. Recombinase polymerase amplification
EP3002289B1 (en) 2002-08-23 2018-02-28 Illumina Cambridge Limited Modified nucleotides for polynucleotide sequencing
WO2004027025A2 (en) 2002-09-20 2004-04-01 New England Biolabs, Inc. Helicase dependent amplification of nucleic acids
EP1636337A4 (en) 2003-06-20 2007-07-04 Illumina Inc METHODS AND COMPOSITIONS USEFUL FOR THE AMPLIFICATION AND GENOTYPING OF THE GENOME
GB0321306D0 (en) 2003-09-11 2003-10-15 Solexa Ltd Modified polymerases for improved incorporation of nucleotide analogues
EP1701785A1 (en) 2004-01-07 2006-09-20 Solexa Ltd. Modified molecular arrays
US7476503B2 (en) 2004-09-17 2009-01-13 Pacific Biosciences Of California, Inc. Apparatus and method for performing nucleic acid analysis
EP1828412B2 (en) 2004-12-13 2019-01-09 Illumina Cambridge Limited Improved method of nucleotide detection
JP4990886B2 (ja) 2005-05-10 2012-08-01 ソレックサ リミテッド 改良ポリメラーゼ
GB0514936D0 (en) 2005-07-20 2005-08-24 Solexa Ltd Preparation of templates for nucleic acid sequencing
US7405281B2 (en) 2005-09-29 2008-07-29 Pacific Biosciences Of California, Inc. Fluorescent nucleotide analogs and uses therefor
US20080009420A1 (en) 2006-03-17 2008-01-10 Schroth Gary P Isothermal methods for creating clonal single molecule arrays
CN101460953B (zh) 2006-03-31 2012-05-30 索雷克萨公司 用于合成分析的序列的系统和装置
WO2008051530A2 (en) 2006-10-23 2008-05-02 Pacific Biosciences Of California, Inc. Polymerase enzymes and reagents for enhanced nucleic acid sequencing
US8349167B2 (en) 2006-12-14 2013-01-08 Life Technologies Corporation Methods and apparatus for detecting molecular interactions using FET arrays
EP2677309B9 (en) 2006-12-14 2014-11-19 Life Technologies Corporation Methods for sequencing a nucleic acid using large scale FET arrays, configured to measure a limited pH range
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
WO2008093098A2 (en) 2007-02-02 2008-08-07 Illumina Cambridge Limited Methods for indexing samples and sequencing multiple nucleotide templates
US8198028B2 (en) 2008-07-02 2012-06-12 Illumina Cambridge Limited Using populations of beads for the fabrication of arrays on surfaces
US20100137143A1 (en) 2008-10-22 2010-06-03 Ion Torrent Systems Incorporated Methods and apparatus for measuring analytes
EP2652659B1 (en) * 2010-12-14 2020-04-15 Life Technologies Corporation Systems and methods for run-time sequencing run quality monitoring
US8951781B2 (en) 2011-01-10 2015-02-10 Illumina, Inc. Systems, methods, and apparatuses to image a sample for biological or chemical analysis
WO2012170936A2 (en) 2011-06-09 2012-12-13 Illumina, Inc. Patterned flow-cells useful for nucleic acid analysis
HUE056246T2 (hu) 2011-09-23 2022-02-28 Illumina Inc Készítmények nukleinsav-szekvenáláshoz
CA3003082C (en) 2011-10-28 2020-12-15 Illumina, Inc. Microarray fabrication system and method
US8653384B2 (en) 2012-01-16 2014-02-18 Greatbatch Ltd. Co-fired hermetically sealed feedthrough with alumina substrate and platinum filled via for an active implantable medical device
WO2013151622A1 (en) 2012-04-03 2013-10-10 Illumina, Inc. Integrated optoelectronic read head and fluidic cartridge useful for nucleic acid sequencing
US8895249B2 (en) 2012-06-15 2014-11-25 Illumina, Inc. Kinetic exclusion amplification of nucleic acid libraries
US9116139B2 (en) * 2012-11-05 2015-08-25 Illumina, Inc. Sequence scheduling and sample distribution techniques
US9512422B2 (en) 2013-02-26 2016-12-06 Illumina, Inc. Gel patterned surfaces
EP3919624A3 (en) 2013-07-01 2021-12-29 Illumina, Inc. Catalyst-free surface functionalization and polymer grafting
CN114805710B (zh) 2014-10-31 2023-11-17 伊鲁米纳剑桥有限公司 聚合物以及dna共聚物涂层
DK3256604T3 (da) 2015-02-10 2020-05-25 Illumina Inc Fremgangsmåder og sammensætninger til analyse af cellebestanddele
EP3374903A4 (en) * 2015-11-12 2019-08-14 Samuel Williams RAPID SEQUENCING OF SHORT DNA FRAGMENTS USING NANOPORA TECHNOLOGY

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090074618A1 (en) * 2007-09-13 2009-03-19 Sysmex Corporation Sample analyzer
US20130275486A1 (en) * 2012-04-11 2013-10-17 Illumina, Inc. Cloud computing environment for biological data
US20140121116A1 (en) * 2012-10-31 2014-05-01 Counsyl, Inc. System and Methods for Detecting Genetic Variation

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SON HOANG NGUYEN 等: ""Real-time demultiplexing Nanopore barcoded sequencing data with npBarcode"", 《BIORXIV》, pages 1 - 5 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113744803A (zh) * 2020-05-29 2021-12-03 鸿富锦精密电子(天津)有限公司 基因测序进度管理方法、装置、计算机装置及存储介质
CN111961710A (zh) * 2020-08-12 2020-11-20 苏州金唯智生物科技有限公司 一种样本处理方法及设备
WO2022032885A1 (zh) * 2020-08-12 2022-02-17 苏州金唯智生物科技有限公司 一种样本处理方法及设备
CN111961710B (zh) * 2020-08-12 2024-04-26 苏州金唯智生物科技有限公司 一种样本处理方法及设备

Also Published As

Publication number Publication date
WO2019027767A1 (en) 2019-02-07
EP3662482A1 (en) 2020-06-10
US20200202977A1 (en) 2020-06-25

Similar Documents

Publication Publication Date Title
CN110785813A (zh) 具有多路生物样本聚合的测序系统
Van Dijk et al. The third revolution in sequencing technology
US11817180B2 (en) Systems and methods for analyzing nucleic acid sequences
US10984887B2 (en) Systems and methods for detecting structural variants
Ambardar et al. High throughput sequencing: an overview of sequencing chemistry
Van Dijk et al. Ten years of next-generation sequencing technology
Shendure et al. Next-generation DNA sequencing
US20190385698A1 (en) Systems and methods for detecting structural variants
US20150051088A1 (en) Next-generation sequencing libraries
US20110003701A1 (en) System and method for improved processing of nucleic acids for production of sequencable libraries
JP7171709B2 (ja) 圧縮分子タグ付き核酸配列データを用いた融合の検出のための方法
CN103917654A (zh) 用于对长核酸进行测序的方法和系统
CN114555821B (zh) 检测与dna靶区域独特相关的序列
EP3303614B1 (en) Enhanced utilization of surface primers in clusters
US20170199734A1 (en) Systems and methods for versioning hosted software
US20220415442A1 (en) Signal-to-noise-ratio metric for determining nucleotide-base calls and base-call quality
Mishra et al. Strategies and tools for sequencing and assembly of plant genomes
US20230410944A1 (en) Calibration sequences for nucelotide sequencing
WO2024006705A1 (en) Improved human leukocyte antigen (hla) genotyping

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination