CN115552535A

CN115552535A - 基因组测序和检测技术

Info

Publication number: CN115552535A
Application number: CN202180032029.6A
Authority: CN
Inventors: S·比尔克; J·F·W·施莱辛格
Original assignee: Inmair Ltd
Current assignee: Inmair Ltd
Priority date: 2020-05-08
Filing date: 2021-05-07
Publication date: 2022-12-30
Also published as: EP4147241A1; WO2021226522A1; JP2023525470A; AU2021269069A1; IL297921A; CN115461817A; US20210350873A1; US20230207059A1; WO2021226523A3; AU2021267389A1; WO2021226523A2; KR20230009877A; BR112022020101A2; JP2023524531A; EP4147242A2; IL297920A; MX2022014017A; KR20230009878A; CA3174298A1

Abstract

本发明描述了一种核酸测序技术。可以分析例如由测序装置生成的序列数据以扫描该序列数据中的单独读段中固定大小n的k聚体。识别该序列数据中的该k聚体与参考k聚体的精确匹配。K聚体匹配可用于识别序列数据中具有与污染或其他质量问题相关联的异常分布的替代等位基因，并且实时确定质量度量。

Description

基因组测序和检测技术

相关申请的交叉引用

本申请要求于2020年5月8日提交的美国临时申请号63/022,296的优先权和权益，其公开内容以引用方式并入本文。

背景技术

所公开的技术整体涉及核酸表征，例如测序技术。在一些实施方案中，所公开的技术包括用于从基于基因组测序(例如，全基因组测序)的序列数据进行病毒检测的快速准确的方法。

本部分中讨论的主题不应仅因为在本部分中有提及就被认为是现有技术。类似地，在本部分中提及的或与作为背景技术提供的主题相关联的问题不应被认为先前在现有技术中已被认识到。本部分中的主题仅表示不同的方法，这些方法本身也可对应于受权利要求书保护的技术的具体实施。

下一代测序技术提供越来越高的测序速度，从而允许更大的测序深度。然而，测序准确度和灵敏度受到来自各种来源的错误和噪声的影响，例如，在库制备期间的样品缺陷或PCR偏差。因此，诸如在包括低浓度病毒或细菌核酸的宿主样品中检测频率非常低的序列可能是复杂的。因此，期望开发用于以快速且准确的方式对以低量存在的核酸分子进行检测和/或测序的方法。

简要说明

在一个实施方案中，本公开涉及一种实时质量控制方法。该方法包括使用进行测序运行的测序装置从生物样品生成序列数据；识别序列数据中在散列表中具有精确匹配的k聚体，该散列表用包含参考等位基因k聚体和参考等位基因的替代等位基因k聚体的k聚体集合初始化；基于所述精确匹配的计数确定所述参考等位基因和所述替代等位基因在所述序列数据中的分布；以及基于分布并且在生物样品的测序运行期间生成生物样品的质量度量。

在另一个实施方案中，本公开涉及一种测序装置，该测序装置包括其上装载有从样品制备的测序库的基底。测序装置还包括计算机，该计算机被编程为使测序装置进行测序运行以从测序库生成序列数据；识别序列数据中在散列表中具有精确匹配的k聚体，该散列表用包含参考等位基因k聚体和参考等位基因的替代等位基因k聚体的k聚体集合初始化；基于所述精确匹配的计数确定所述参考等位基因和所述替代等位基因在所述序列数据中的分布；并且基于测序运行期间的分布在测序装置上生成生物样品的质量度量。

在另一个实施方案中，本公开涉及一种在生物样品中进行变体检测的方法。该方法包括使用引物对从生物样品生成扩增子；从所生成的扩增子制备测序库；从所述测序库生成序列数据；识别所述序列数据中的序列读段，所述序列读段在单独引物对中的引物的引物区域内开始并且与所述引物在相同方向上；修剪与所述引物在所述相同方向上的所识别的序列读段以排除所述引物区域中的序列；以及识别未修剪的序列读段中跨越引物区域或者在与引物不同的方向上并且在未修剪序列读段中与引物区域相对应或互补的位置处的变体序列。

呈现前述描述以使得能够制造和使用所公开的技术。对所公开的具体实施的各种修改将是显而易见的，并且在不脱离所公开的技术的实质和范围的情况下，本文所定义的一般原理可应用于其他具体实施和应用。因此，所公开的技术并非旨在限于所示的具体实施，而是要符合与本文所公开的原理和特征一致的最广范围。所公开的技术的范围由所附权利要求限定。

附图说明

当参考附图阅读以下详细描述时将更好地理解本发明的这些和其他特征、方面和优点，其中在整个附图中相同的字符表示相同的部件，其中：

图1是根据本公开的各方面的用于k聚体比对的工作流程的示意图；

图2是根据本公开的各方面的基因组的示例性k聚体的示意图；

图3是根据本公开的各方面的用于从测序数据进行病毒检测的方法的示意图；

图4是根据本公开的各方面的用于基于比对的病毒检测的方法的示意图；

图5是根据本公开的各方面的基于比对的病毒检测中的靶区域或k聚体覆盖范围的示意图；

图6是根据本公开的各方面的生成用于病原体检测的病原体特异性k聚体和对照k聚体的集合的方法的示意图；

图7是根据本公开的各方面的被配置成采集测序数据并执行基于比对的检测的系统的框图；

图8示出了用于病原体检测的样品制备的示例性工作流程；

图9示出了图8的工作流程的扩增子测序结果；并且

图10示出了引物修剪后的变体识别。

具体实施方式

呈现以下讨论以使得本领域的任何技术人员能够实现和使用所公开的技术，并且在特定应用及其要求的上下文中提供以下讨论。对所公开的具体实施的各种修改对于本领域的技术人员而言将是显而易见的，并且在不脱离所公开的技术的实质和范围的情况下，本文所定义的一般原理可应用于其他具体实施和应用。因此，所公开的技术并非旨在限于所示的具体实施，而是要符合与本文所公开的原理和特征一致的最广范围。

本文描述了允许表征核酸的多种方法和组合物。在实施方案中，所公开的技术用作从生物样品生成的序列数据的序列分析的一部分，以快速且准确地检测感兴趣的基因组序列。在实施方案中，所公开的技术使用基于超快散列的比对器来从序列数据生成减少错误或无错误的子序列。所公开的技术的一个应用是快速检测测序库中存在的病毒基因组。该技术操作以在测序库的每个序列读段中扫描固定大小“n”的每个k聚体，并在散列表中查找存在/不存在。散列表用病毒基因组的所有n个k-聚体或其精选子集进行初始化。例如，可以使用精选来移除对于感兴趣的病原体不是唯一的k聚体。对于每个病毒k聚体，计数序列k聚体相对于散列表的成功匹配。

在实施方案中，使用对病毒唯一的k聚体的完整或减少(例如，精选)集合的快速、精确k聚体匹配的专门比对器用于检测具有人类阳性对照扩增子的病原体感染。然而，所公开的技术可以用于其他应用，诸如检测生物样品中的种系变体、微生物组表征、在环境监测(例如，污水监测)中检测汇集或复杂的输入样品。此外，所公开的技术可以用于检测感兴趣的单一病原体(例如，SARS-CoV-2)或检测病原体组中的一种或多种病原体，例如呼吸病原体组(SARS-CoV-2、RSV、肺炎、流感)或包括代表特定病原体的不同菌株的k聚体的菌株跟踪组。

图1是示例性工作流程12，其包括通过可与所公开的技术结合使用的序列分析进行样品处理的步骤。样品20经历处理或样品制备24以产生测序库，该测序库包括适合于测序步骤28以生成序列数据30的多个核酸片段。序列数据30可以经历某些主要分析步骤，例如，质量或过滤，然后被传递到如本文通常提供的k聚体扫描和k聚体比对。

扫描所生成的序列数据30以识别固定大小n的k聚体，并且将这些所识别的k聚体提供给k聚体比对器36。k聚体比对器36可以包括用从参考基因组得出的大小n的已知k聚体的集合34初始化的散列表。参考基因组可以是病原体基因组的所有感兴趣的大小n的k聚体(或其精选子集)或如本文所提供的其他感兴趣序列。

序列数据30可以实时地或在滚动基础上流式传输到k聚体比对器36，使得k聚体比对器36在框40处对可用的附加序列数据30进行操作，因为其被接收以检测序列数据30中感兴趣的k聚体。k聚体比对器36识别序列数据30中的k聚体，该k聚体为感兴趣的k聚体集合34的精确匹配。精确匹配可以有助于样品20的匹配的总计数。一旦样品20通过所识别的k聚体精确匹配的阈值计数，工作流程12就提供检测输出42。在实施方案中，单独样品20可以被表征为阳性或阴性以用于检测集合34中的序列。因为k聚体比对器36对实时流式传输数据进行操作，所以一旦通过阈值计数，检测功能就允许使用k聚体精确匹配来快速识别样品20的状态。此外，基于k聚体的检测比常规的基于比对的技术以及在实施方案中的其他k聚体技术计算密集度更低。在一个示例中，所公开的技术使用固定k聚体大小n。因此，k聚体匹配基于仅匹配大小n的k聚体，而不匹配所有可能大小或在k聚体大小范围内的所有k聚体。在另一个示例中，在固定大小n的所有可能k聚体的集合内，该技术基于参考基因组的已知序列仅评估已知子集的匹配。

如本文所提供使用每个样品20的所得k聚体计数来表征样品以提供检测输出42，例如确定病原体感染状态。例如，高于阈值的k聚体计数指示样品中病原体存在的阳性结果。阴性结果指示样品中没有k聚体计数或k聚体计数低于阈值水平。可以相对于反映每个样品20的总k聚体匹配计数的全局阈值来评估k聚体计数。在其他实施方案中并且如本文所公开的，k聚体计数可以在每个靶区域的基础上评估并且/或者可以在有助于k聚体计数和病原体的检测之前经受质量度量，例如阳性或阴性结果。

在实施方案中，检测输出42可以包括提供指示样品20的特性的通知、消息或报告，例如，阳性检测结果、阴性检测结果。在实施方案中，检测输出42可以控制序列数据30的后续处理步骤。与将所有或大部分传入数据传递到二次分析的常规的基于比对的检测相比，工作流程12可以限制对对于病原体或其他基因组/感兴趣序列呈阳性的样品子集的附加处理。也就是说，一旦被识别，只有阳性样品20可以被传递到附加或二次序列分析。以此方式，工作流程12通过不将资源投入到基于k聚体匹配可能不包括感兴趣序列的样品的二次分析来改进处理资源的分配。附加序列分析可以包括在框46处确定生物样品的子序列以生成变体调用输出48。因此，可能耗时的分析，即与参考基因组的比对和变体调用，可以以这种方式在识别后被限制于阳性(例如，感染的)样品。此外，尚未识别为阳性的样品20可以继续通过k聚体比对器36进行评估，直到采集足够的数据以确认阴性或阳性结果。所公开的技术的附加益处是基于k聚体的检测实时地并且基于相对快速的分析而发生。因此，在没有显著延迟的情况下实现处理效率改进，以开始对阳性样品的相关子集的二次分析。此外，对于一些分析运行，工作流程12可以在检测输出42之后终止，而不推进到框46中的后续分析或变体调用。

图2是形成k聚体比对器36的感兴趣的k聚体的集合34的核酸60的k聚体64的示意图(参见图1)。核酸60可以代表参考基因组或先前表征的感兴趣的基因组的全部或部分，例如病原体基因组。因此，所公开的技术在不需要将参考基因组与样品20一起测序的意义上可以是无参考的，并且可以基于核酸60的存储或访问的参考序列数据通过计算构建集合34。在实施方案中，核酸60可以是单链参考基因组的反向互补物和/或cDNA拷贝。

如本文所提供的，一个或多个k聚体是指包含在诸如核酸序列之类的生物序列内的长度“k”的一个或多个连续子串。k聚体的集合可以指包含在长度为L的核酸内的所有或仅一些子序列。长度L的已知或表征序列将具有总k聚体并且未表征或未知序列可以具有x^k个可能的或潜在的k聚体，其中x是可能单体的数目(例如，在DNA或RNA的情况下为四)。

在实施方案中，以固定大小n使用k聚体，使得对于给定操作，用于构建k聚体集合34以及用于扫描序列数据的所有k聚体相对于彼此是相同的固定大小。然而，相同大小的不同k聚体表示相对于彼此在不同或移位位置处的不同序列串。在某些实施方案中，长度＝32的k聚体(其可以在64位CPU上有效地分析)用于k聚体匹配，但是可以使用固定长度大于24的任何大小的k聚体。因此，固定k聚体长度可以是25、26、27、28、29、30等。

虽然核酸60可以包括先前表征的序列，但可以包括附加序列，诸如已知或预测的变体70。所公开的无参考技术的优点在于以下事实：病毒基因组中的变体相对于病毒的总大小是罕见的。在k聚体比对期间，来自样品序列数据的包括/重叠变体的k聚体将“丢失”，因为它们将无法在用参考k聚体的无变体集合34初始化的散列表中具有精确匹配。然而，由于变体相对于病毒的总大小是罕见的，因此这仅导致灵敏度的最小损失。在一些方法中，群体中存在的已知变体也可作为添加到k聚体比对器36中的k聚体集合34中的一个或多个“变体k聚体”34而被包括。

图3示出了用于人类样品中病毒病原体检测的示例性方法100。所示实施方案中的人类样品序列数据102作为FASTQ格式的数据提供，其允许例如使用DRAGEN或另一二次分析工具进行序列读段的二次分析和比对。可以使用k聚体比对器36(参见图1)来执行序列读段的比对104，以使用参考k聚体集合基于病毒病原体的基因组来识别固定大小n的k聚体的精确匹配。比对104还可以包括识别用作样品质量的量度的一个或多个人类对照扩增子(例如，2至15个扩增子)的序列数据102中的精确k聚体匹配。在一些实施方案中，比对104可以是与包括病毒(例如，SARS-CoV2)和一个或多个人类对照扩增子的参考基因组的常规DRAGEN比对。

人类读段110和病毒读段112经受如本文所提供的附加度量，以基于人类扩增子覆盖范围114评估样品质量以生成对照检测输出120。度量还包括病毒扩增子覆盖范围度量130以提供病毒检测输出132。基于病毒检测输出和对照检测输出120，阳性样品可以传递到变体调用124以生成病毒序列输出128。

一旦使用k聚体比对器36进行序列读段的比对/匹配，则解释与指定病毒相关的度量并且对病毒和内部(人类)对照的检测进行确定，如图4所示。在一些方法中，可以计数映射到每个扩增子的靶区域(或所检测的k聚体)的独特读段160的数目。

如图5所示，“靶区域”在实施方案中可被定义为扩增子序列184减去引物并减去与另一扩增子184的任何重叠。这可以通过以下方式中的任一者进行：a)将读段与病毒基因组180进行比对并且计数映射到每个扩增子的位置的(可能去重复的)读段188的数目；或b)计数在读段中观察到的来自每个扩增子序列184的k聚体190的数目。将k聚体或读段的数量与每扩增子覆盖范围的阈值进行比较，以将每个扩增子184称为“覆盖的”或“未覆盖的”。如果超过第二集合阈值的病毒扩增子184被覆盖，则调用或病毒检测输出是检测到病毒。总扩增子的数目取决于所使用的测定。在图5的示例中，扩增子184不重叠。然而，应理解，可以使用更多和重叠的扩增子184来实现对病毒的全基因组覆盖范围。

返回图4，在对人类扩增子162和病毒扩增子164的比对和/或k聚体识别之后，对每个单独人类扩增子的覆盖范围170和每个病毒扩增子的覆盖范围172进行计数。将每扩增子的读段计数(或检测到的k聚体的计数)与目标阈值进行比较以确定覆盖的扩增子。然后使用覆盖的扩增子的数目检测病毒178(基于覆盖的扩增子大于或等于病毒阈值，具有阳性检测结果)和内部(人类)对照174(基于覆盖的扩增子大于或等于人类对照阈值，具有阳性对照检测结果)。检测阳性扩增子和检测对照和/或病毒所需的扩增子数目的阈值可以变化。在一些实施方案中，检测阈值可以低至2个扩增子，或者可以更高，例如三个、四个或更多个扩增子。在一个实施方案中，覆盖的扩增子的阈值数目可以是扩增子总数的至少1％、至少10％、或至少50％。在一个实施方案中，覆盖的扩增子的阈值数目可以在测定的扩增子总数的1％-5％的范围内。因为检测被设计为当从样品生成附加序列数据时提供对实时序列数据的快速结果，所以设定百分比阈值允许基于阳性扩增子的任何组合进行检测。因此，检测独立于测序的簇的位置或样品与样品之间不同的其他检测特异性变量的样品变化。

图4示出了用人类对照进行的示例性病毒检测。对于人类对照扩增子170，对照1具有25个独特读段，并且对照3具有通过靶阈值的64个独特读段，并且这些扩增子被确定为覆盖的扩增子。在下一步骤中，将人类对照的2个阳性扩增子与设定为等于2或更大的人类对照阈值进行比较，这导致对照检测阈值的通过测定174。因此，人类对照检测174包括两步分析，即基于扩增子覆盖范围阈值确定单独人类扩增子覆盖范围，以及然后评估通过覆盖范围阈值的扩增子的数目。同样，病毒检测178包括第一步骤，其中对每个病毒扩增子(例如，病毒1、病毒2、病毒3等)的独特读段的数目进行计数。病毒1具有34个独特读段，病毒2具有21个独特读段，并且病毒扩增子3具有64个独特读段，而且都被认为是覆盖的扩增子，但是仅具有1个独特读段的病毒扩增子98不被认为是覆盖的扩增子。在下一步骤中，将3个覆盖的扩增子与设定为等于3或更大的病毒阈值进行比较，这导致检测到病毒的结果。

所公开的技术包括用于建立基于k聚体的比对的k聚体比对器(例如，k聚体比对器36)中使用的参考和/或对照k聚体的集合的质量和控制参数。图6是生成用于病原体检测的病原体特异性k聚体和对照k聚体的集合的方法200的示意图。给定病原体基因组包括固定大小n的所有潜在k聚体的集合，其中n可以大于24个碱基。然而，这些k聚体中的某些可以在对照基因组(例如，人类基因组)内具有精确匹配。在框204处，对对照基因组运行潜在病原体k聚体，并且在框206处可以移除某些k聚体，以在框208处生成病原体k聚体的最终集合。在一个示例中，移除潜在集合中与对照基因组具有精确匹配的k聚体。在另一个示例中，移除高于与对照基因组的阈值相似性的k聚体，例如，高于阈值相似性的k聚体可以包括具有与对照基因组不同的1至3个碱基(连续或非连续)的k聚体。例如，对于固定大小32的k聚体，移除具有与对照基因组匹配的31/32或30/32序列的潜在k聚体以解决可能产生检测假阳性的潜在碱基调用错误。因此，在框208处的最终集合中的保留的k聚体可以包括对照基因组中没有精确匹配的k聚体和/或与对照基因组具有足够非相似性(例如，在k聚体内相差1至3个碱基)的k聚体。

可以基于框210处的度量从潜在k聚体的池中选择对照k聚体集合。在对人类样品中的RNA进行测序以检测RNA病毒的存在的测定中，人类样品还将包括人类RNA，例如mRNA。因此，人类对照k聚体的集合可以基于可能总是在样品组织中表达的mRNA序列。对照k聚体集合可被选择为小于参考集合，例如可以包括较少数目的扩增子。对照k聚体的潜在集合相对于彼此运行，并且在实施方案中，在框214处运行到参考基因组，并且在步骤216处移除彼此并且与对照基因组精确匹配或过于相似(例如，具有1至3个不同的碱基，但在其他方面具有精确匹配)的对照k聚体以在框218处生成对照k聚体的最终集合。在框220处，将病原体k聚体的最终集合和对照k聚体的最终集合提供给k聚体比对器。

图7是可以与所公开的实施方案结合使用以用于从本文提供的样品采集序列数据的测序装置260的示意图。测序装置260可以对样品进行测序运行以采集序列数据。测序装置260可以根据任何测序技术来实现，诸如结合了以下文献中描述的合成测序方法的那些技术：美国专利公布号2007/0166705、2006/0188901、2006/0240439、2006/0281109、2005/0100900，美国专利号7,057,026、WO 05/065814、WO 06/064199、WO 07/010,251，这些文献的公开内容全文以引用方式并入本文。可替代地，可以在测序装置260中使用通过连接技术的测序。此类技术利用DNA连接酶掺入寡核苷酸并确定此类寡核苷酸的掺入，并且在以下文献中有所描述：美国专利号6,969,488、美国专利号6,172,218、以及美国专利号6,306,597，这些文献的公开内容全文以引用方式并入本文。一些实施方案可以利用纳米孔测序，由此样品核酸链或从样品核酸外切移除的核苷酸穿过纳米孔。随着样品核酸或核苷酸穿过纳米孔，可以通过测量孔的电导率的波动来识别每种类型的碱基(美国专利号7,001,792，Soni&Meller,Clin.Chem.53,1996–2001(2007)；Healy，Nanomed.2,459–481(2007)；以及Cockroft等人，J.Am.Chem.Soc.130,818–820(2008)，这些文献的公开内容全文以引用方式并入本文)。又一些实施方案包括检测在核苷酸掺入延伸产物时释放的质子。例如，基于释放质子的检测的测序可使用可从Ion Torrent公司(Guilford，CT，Life Technologies子公司)商购获得的电检测器和相关技术或在以下专利中描述的测序方法和系统：US 2009/0026082 A1；US 2009/0127589 A1；US 2010/0137143 A1；或US 2010/0282617 A1，这些文献中的每一篇均全文以引用方式并入本文。特定实施方案可利用涉及DNA聚合酶活性的实时监测的方法。可以通过带有荧光团的聚合酶与γ-磷酸标记的核苷酸之间的荧光共振能量转移(FRET)相互作用或者利用零模式波导来检测核苷酸掺入，如例如以下文献中所述：Levene等人，Science 299,682–686(2003)；Lundquist等人，Opt.Lett.33,1026–1028(2008)；Korlach等人，Proc.Natl.Acad.Sci.USA 105,1176–1181(2008)，这些文献的公开内容全文以引用方式并入本文。其他合适的替代技术包括例如荧光原位测序(FISSEQ)和大规模并行签名测序(MPSS)。在特定实施方案中，测序装置260可以是来自Illumina(LaJolla,CA)的iSeq。在其他实施方案中，测序装置260可以被配置成使用CMOS传感器操作，该CMOS传感器具有在光电二极管上制造的纳米阱，使得DNA沉积与每个光电二极管一对一地比对。

在所描绘的实施方案中，测序装置260包括单独的样品基底262，例如流动池或测序盒，以及相关联的计算机264。然而，如上所述，这些可以实现为单个装置。在所描绘的实施方案中，可以将生物样品装载到基底262中，该基底被成像以生成序列数据。例如，与生物样品相互作用的试剂响应于由成像模块272生成的激发束而以特定波长发荧光，并且由此返回辐射以用于成像。例如，荧光组分可由荧光标记的核酸生成，该荧光标记的核酸与组分的互补分子或与使用聚合酶掺入寡核苷酸中的荧光标记的核苷酸杂交。如本领域技术人员将理解的，激发样品的染料的波长和其发荧光的波长将取决于特定染料的吸收和发射光谱。此类返回的辐射可以通过引导光学器件传播回来。该向后束通常可被导向成像模块272的检测光学器件，其可以是相机或其他光学检测器。

成像模块检测光学器件可以基于任何合适的技术，并且可以是例如带电耦合装置(CCD)传感器，其基于影响装置中的位置的光子生成像素化图像数据。然而，应理解，也可以使用各种其他检测器中的任一种，包括但不限于被配置用于时间延迟积分(TDI)操作的检测器阵列、互补金属氧化物半导体(CMOS)检测器、雪崩光电二极管(APD)检测器、Geiger模式光子计数器或任何其他合适的检测器。TDI模式检测可以与线扫描耦合，如美国专利号7,329,860中所述，该专利以引用方式并入本文。其他可用的检测器在例如本文先前在各种核酸测序方法的上下文中提供的参考文献中有所描述。

成像模块272可以处于处理器控制下(例如，经由处理器274)，并且还可以包括I/O控件276、内部总线278、非易失性存储器280、RAM 282和使得存储器能够存储可执行指令的任何其他存储器结构，以及可以类似于关于图7所描述的那些的其他合适的硬件部件。此外，相关联的计算机264还可包括处理器184、I/O控件286、通信模块294和包括RAM 288和非易失性存储器290的存储器架构，使得存储器架构能够存储可执行指令292。硬件部件可由内部总线294链接，该内部总线也可以链接到显示器296。在测序装置260被实现为一体装置的实施方案中，可以消除某些冗余硬件元件。

处理器(例如，处理器274、284)可以被编程为根据本文提供的技术基于一个或多个相关联索引序列将单独的测序读段分配给样品。在特定实施方案中，基于由成像模块272采集的图像数据，测序装置260可以被配置成生成包括单独簇的序列读段的测序数据，其中每个序列读段与基底270上的特定位置相关联。每个序列读段可以来自包含插件的片段。测序数据包括测序读段的每个碱基的碱基调用。此外，基于图像数据，即使对于串联执行的测序读段，单独读段也可经由图像数据链接到相同位置，并且因此链接到相同的模板链。以此方式，索引测序读段可以在分配给原始样品之前与插入序列的测序读段相关联。处理器274还可以被编程为在将测序读段分配到样品之后对特定样品的序列执行下游分析。

)。在某些实施方案中，可执行指令292使处理器执行本文公开的方法的一个或多个动作。处理器(例如，处理器274、284)可以是高度可重新配置的现场可编程门阵列技术(FPGA)。处理器(例如，处理器274、284)可以被编程为接收特定分析工作流程的用户输入以访问包括存储在存储器(例如，存储器280、290)中的参考k聚体和/或对照k聚体的适当集合的散列表。在一个示例中，装置260接收选择感兴趣的运行或组的用户输入，并且k聚体比对器比对流式传输序列，以使用与用户输入相关联的散列表识别序列数据中的精确k聚体匹配。存储器可以存储基于用户输入专门选择的多个不同的k聚体集合或不同的初始化散列表。在实施方案中，选择还可以包括对照k聚体选择。例如，对照k聚体可以包括人类、哺乳动物或其他宿主生物对照k聚体。

所公开的技术可用于表征样品，例如生物样品。样品可源于任何体内或体外来源，包括源于一种或多种细胞、组织、器官或生物体(无论是活体还是非活体)或源于任何生物或环境来源(例如，水、空气、土壤)。例如，在一些实施方案中，样品核酸包括真核和/或原核dsDNA或由其组成，其来源于或源于人、动物、植物、真菌(例如，霉菌或酵母)、细菌、病毒、类病毒、支原体或其他微生物。在一些实施方案中，样品核酸包括基因组DNA、亚基因组DNA、染色体DNA(例如，来自分离的染色体或染色体的一部分，例如，来自染色体的一个或多个基因或基因座)、线粒体DNA、叶绿体DNA、质粒或其他附加体衍生的DNA(或其中包含的重组DNA)或双链cDNA或由这些组成，该双链cDNA通过使用RNA依赖性DNA聚合酶或逆转录酶逆转录RNA以生成第一链cDNA，然后延伸与第一链cDNA退火的引物以生成dsDNA来制备。在一些实施方案中，样品核酸包括在核酸分子中或由核酸分子制备的多个dsDNA分子(例如，在基因组DNA或cDNA中或由基因组DNA或cDNA制备的多个dsDNA分子，该基因组DNA或cDNA由在生物来源(例如，细胞、组织、器官、生物体)或环境来源(例如，水、空气、土壤、唾液、痰、尿液、粪便)中或来自该生物来源或环境来源的RNA制备)。在一些实施方案中，样品核酸来自体外来源。例如，在一些实施方案中，样品核酸包括dsDNA或由其组成，该dsDNA由单链DNA(ssDNA)或由单链或双链RNA在体外制备(例如，使用本领域已知的方法，诸如使用合适的DNA依赖性和/或RNA依赖性DNA聚合酶(逆转录酶)进行引物延伸)。在一些实施方案中，样品核酸包括dsDNA或由其组成，该dsDNA是使用本领域已知的任何方法由一个或多个双链或单链DNA或RNA分子的全部或一部分制备的，方法包括用于如下操作的方法：DNA或RNA扩增(例如，PCR或逆转录酶-PCR(RT-PCR)、转录介导的扩增方法，其中对一个或多个核酸分子的全部或一部分进行扩增)；将一个或多个核酸分子的全部或一部分分子克隆到随后在合适的宿主细胞中复制的质粒、F黏粒、BAC或其他载体中；或通过杂交捕获一个或多个核酸分子，诸如通过与阵列或微阵列上的DNA探针杂交。

所公开的技术的优点包括抑制噪声(例如，交叉污染)，其表现为通过病毒基因组均匀分散的读段，与通过扩增子聚簇的真实信号相反。通过设定可变每扩增子阈值(对于强扩增的扩增子更高)，该技术适用于具有不同PCR性能的不同扩增子。所公开的技术与现有qPCR测试密切对应，该现有qPCR测试还报告了许多阳性扩增子，并且因此输出结果易于翻译用于临床使用。每个样品的检测输出可以被报告出来和/或经受下游质量控制。

在一些实施方案中，对于任何阳性样品变体，调用数据也可以被报告出来。在一些实施方案中，可以识别阳性样品，并且该技术包括基于阳性样品的诊断提供用于治疗的通知或建议。在一个实施方案中，根据所公开的技术，基于病原体检测或无病原体检测的诊断，对从其采集样品的患者施用针对所检测的病原体的治疗，并用作护理点检测系统。例如，如果检测到的病原体基于检测到SARS-CoV-2基因组，则施用SARS-CoV-2治疗或启动监测方案。如果未检测到SARS-CoV-2基因组，则可以基于没有活性感染的诊断来施用SARS-CoV-2疫苗。

所公开的技术的附加优点包括在机器和变体检测中生成的实时质量度量。在图7的示例中，实时质量度量在测序装置260上生成，而不是作为基于云的二次分析的一部分。在具体实施方案中，可以基于变体的存在和分布来分析序列数据，该变体可以包括替代等位基因或单核苷酸多态性(SNP)。测定可以包括基于期望变体或SNP分析的扩增子生成和/或靶向测序。对于任何特定的检测到的等位基因，可以评估序列读段内等位基因的分布以产生机器上的质量度量。等位基因检测可以是基于比对的或使用如本文所提供的k聚体匹配。通过包括k聚体的替代等位基因版本(一个代表参考，另一个代表替代等位基因)，k聚体方法可以扩展到检测已知变体。参考等位基因k聚体和替代等位基因k聚体可以包括跨越一个或多个变体序列的位置的相应k聚体集合。利用这些修改，可以在测序装置260仍然生成数据的同时执行无比对(以及因此快速)版本的算法。

对于给定变体和给定单独样品，等位基因分布可以根据可预测的水平。在一个示例中，特定种系变体等位基因(如果存在的话)可能是50％分布(在具有一个等位基因的位置处具有50％的序列读段，并且另外50％具有另一个等位基因)或100％在读段内。此外，在测序读段中没有检测到种系变体的情况可能是0％。因此，变体与参考的1:1、1:0的比率可以被认为是在检测到的种系变体的预期分布内。然而，单独样品的读段内80％-20％或95％-5％的分布是生物上不太可能的，并且因此可能是错误或污染的结果。因此，偏离1:1比率或1:0比率的比率(例如，在5％-10％容差内以解决测序错误)可能是测序伪影和/或基于样品污染。因此，测序装置260可以基于序列读段内的变体检测来评估种系变体等位基因分布的样品。

对于给定变体组，例如SNP组，只有几个变体可以匹配特定样品。然而，对于被检测和偏离预期等位基因分布的变体，异常分布可以是样品污染、分配样品读段中的患者识别或样品识别错误、或样品制备问题的迹象。因此，可以标记包括具有异常分布或低频分布(例如，95％-5％)的分布的变体的样品。响应于标记，测序装置260可以实时地证明图形用户界面上的错误消息(例如，显示的通知)，从而识别潜在污染的样品。因此，所公开的技术包括测序装置260的实时样品质量度量。根据一个或多个评估的等位基因分布，样品可以被指示为通过或未通过。在实施方案中，仅一个等位基因分布未通过就足以标记样品。对于基于k聚体的检测，可以随着新的变体或菌株被跟踪，更新变体或替代等位基因的计算生成的k聚体集合。

基于异常等位基因分布来识别经标记或未通过样品可以使测序装置260停止将样品的相关联序列数据传送至基于云的二次分析。因此，对于多样本或多路复用的运行，测序装置260可仅将通过样品传送到云以进行进一步分析。如果多个样品都包括相同的异常等位基因分布，则整个多路复用的运行可以被标记为潜在污染的。

在实施方案中，所公开的技术包括改进可以基于引物设计或位置在序列数据中掩蔽的变体的检测。例如，可以基于重叠扩增子设计识别基因组的对应于引物区域的区域中的变体，由此引物区域由来自重叠扩增子的基因组读段覆盖。图8示出了用于病原体检测的样品制备的示例性工作流程，其可以与所公开的变体检测技术结合使用。在所示示例中，在框300处处理样品以提取RNA。可以从样品(诸如鼻咽拭子)中提取RNA。

提取的RNA被转化为cDNA，并且cDNA用于使用测定特异性引物集合生成扩增子。例如，对于COVIDSeq应用，cDNA被分成两个部分，并且两个不同的引物池用于在两个部分之间生成不同的重叠扩增子304。在步骤308处，例如经由标签化索引每个样品，并且在步骤310处对其进行测序。

图9示出了图8的工作流程的扩增子测序结果，其示出对于一起索引(例如，索引为源自相同样品)的序列读段，从第一引物池生成的重叠扩增子314以及从第二引物池生成的扩增子316的覆盖范围。池1读段320和池2读段324在引物区域中其边缘处包括重叠部分。在池1读段320和池2读段324内的是正向读段326和反向读段328。PCR后的片段化具有部分消耗引物的作用，这导致边缘效应，使得读段在正向和反向方向上朝向引物侧聚簇。重叠区域中的序列读段包括基因组读段与变体的异质混合物，以及引物读段与参考序列的异质混合物。

然而，引物读段朝向扩增子末端的聚簇可以降低观察到的替代等位基因级分，因为引物读段代表由于边缘效应导致的混合物的膨胀部分。例如，正向引物330与另一扩增子334的内部区域重叠。池1读段320是源自引物330的所有正向读段326。池2读段324包括正向读段326和反向读段328。源自引物330的池1中的读段320将是精确引物匹配，并且因此不包括存在于引物330所覆盖的基因组区域中的任何变体。

为了提高对变体检测的灵敏度，所公开的技术包括引物修剪步骤，该引物修剪步骤从读段中硬剪切、掩蔽或移除引物序列。过滤器修剪读段1)开始于引物区域以及2)匹配引物取向。也就是说，修剪具有开始于由引物覆盖的区域的第一核苷酸，并且是正向引物方向上的正向读段或反向引物方向上的反向读段的任何序列读段。然而，引物区域中的覆盖范围保持来自重叠的扩增子跨越读段和任何相反链(互补)反向读段。图10示出了由反应引物覆盖的区域中的修剪读段的示例。读段混合物包括未修剪或保留的读段350以及经修剪的读段352。只在对应于引物区域354的序列中修剪读段352，由开始和结束Xs指示，并且仅修剪正向读段。如图所示，保留的读段350主要包括G到T变体。在大多数修剪读段中未观察到T变体。在一个示例中，基于包括变体的未修剪读段350的阈值百分比(例如，至少50％)来调用变体。

表1示出了单个G到T变体的改进检测的示例。在过滤器修剪后，剩余的等位基因级分在剩余读段中显示向几乎100％等位基因级分的收敛，这将是预期的生物学分布。

表1：引物修剪对检测到的等位基因级分G到T的影响

虽然所描绘的实施方案示出了单个引物的修剪，但是引物修剪可用于在反应中覆盖所有引物，正向和反向均有，以改善由引物覆盖的任何区域中的变体识别。对于其中使用若干个(例如，50个或更多个)引物对的病原体的全基因组测序，引物修剪可显著改善变体检测。

该书面描述使用本公开的实施方案中的示例，包括最佳模式，并且还使得本领域的任何技术人员能够实践所公开的实施方案，包括制造和使用任何装置或系统以及执行任何结合的方法。本公开的可取得专利的范围由权利要求限定，并且可包括本领域的技术人员想到的其他示例。如果此类其他示例具有与权利要求的字面语言无差异的结构元件，或者如果它们包括与权利要求的字面语言无实质差异的等同结构元件，则这些其他示例旨在落入权利要求的范围内。

Claims

1.一种实时质量控制方法，包括：

使用进行测序运行的测序装置从生物样品生成序列数据；

识别所述序列数据中在散列表中具有精确匹配的k聚体，所述散列表用包含参考等位基因k聚体和所述参考等位基因的替代等位基因k聚体的k聚体集合初始化；

基于所述精确匹配的计数确定所述参考等位基因和所述替代等位基因在所述序列数据中的分布；以及

基于所述分布并且在所述生物样品的所述测序运行期间生成所述生物样品的质量度量。

2.根据权利要求1所述的方法，包括基于所述质量度量将所述生物样品标记为被污染。

3.根据权利要求2所述的方法，其中所述替代等位基因存在于所污染的样品中的所述序列数据的5％或更少的序列读段中。

4.根据权利要求1所述的方法，包括基于所述序列数据中所述参考等位基因与所述替代等位基因的比率在预期范围内来指示所述生物样品通过所述质量度量。

5.根据权利要求1所述的方法，其中所述质量度量是在所述测序装置上生成的。

6.根据权利要求1所述的方法，其中所述替代等位基因包含先前表征的单核苷酸多态性。

7.一种测序装置，包括：

基底，所述基底上装载有从样品制备的测序库；

计算机，所述计算机被编程为：

使所述测序装置进行测序运行以从测序库生成序列数据；

基于所述精确匹配的计数确定所述参考等位基因和所述替代等位基因在所述序列数据中的分布；并且

基于所述测序运行期间的所述分布在所述测序装置上生成所述生物样品的质量度量。

8.根据权利要求7所述的测序装置，包括显示器，所述显示器显示所述质量度量。

9.根据权利要求7所述的测序装置，包括通信电路，所述通信电路基于所述生物样品的所述质量度量与通过相关联来将所生成的序列数据传送到云计算环境。

10.根据权利要求9所述的测序装置，其中所述生物样品的所述质量度量与所述参考等位基因和所述替代等位基因的比率在预期范围内相关联。

11.根据权利要求7所述的测序装置，包括通信电路，所述通信电路基于所述生物样品的所述质量度量与未通过相关联来停止将所生成的序列数据传送到云计算环境。

12.根据权利要求11所述的测序装置，其中所述生物样品的所述质量度量基于所述替代等位基因存在于所述序列数据的5％或更少的序列读段中而与未通过相关联。

13.一种在生物样品中进行变体检测的方法，包括：

使用引物对从生物样品生成扩增子；

从所生成的扩增子制备测序库；

从所述测序库生成序列数据；

识别所述序列数据中的序列读段，所述序列读段在单独引物对中的引物的引物区域内开始并且与所述引物在相同方向上；

修剪与所述引物在所述相同方向上的所识别的序列读段以排除所述引物区域中的序列；以及

识别未修剪的序列读段中跨越所述引物区域或者在与所述引物不同的方向上并且在所述未修剪序列读段中与所述引物区域相对应或互补的位置处的变体序列。

14.根据权利要求13所述的方法，包括从所述生物样品中提取RNA并且在生成所述扩增子之前将所述RNA转化为cDNA。

15.根据权利要求13所述的方法，其中所述扩增子包括参考基因组的重叠部分。

16.根据权利要求15所述的方法，其中所述参考基因组是病原体基因组。

17.根据权利要求15所述的方法，其中所述参考基因组是SARS-CoV-2基因组。

18.根据权利要求16所述的方法，其中所述参考基因组是人类基因组。

19.根据权利要求13所述的方法，包括基于所述变体序列在所述位置处存在于所述未修剪序列读段的至少50％中而调用所识别的变体序列。

20.根据权利要求13所述的方法，包括识别所述序列数据中的序列读段，所述序列读段在所述引物对的反向引物的反向引物区域内开始并且与所述反向引物在相同方向上；以及修剪所识别的序列读段以排除所述反向引物区域中的序列。