CN110785814A

CN110785814A - 使用深度神经网络预测测序结果的质量

Info

Publication number: CN110785814A
Application number: CN201980003115.7A
Authority: CN
Inventors: A·杜塔; A·起亚
Original assignee: Inmair Ltd
Current assignee: Inmair Ltd
Priority date: 2018-01-05
Filing date: 2019-01-04
Publication date: 2020-02-11
Anticipated expiration: 2039-01-04
Also published as: JP2020525890A; EP3619711A1; IL271103B; IL271103A; JP6978519B2; KR102216898B1; CA3065927A1; AU2019205311A1; WO2019136284A1; AU2019205311B2; CN110785814B; EP3619711B1; SG11201911754TA; KR20200013684A; NZ759639A; US11288576B2; US20190213473A1

Abstract

所公开的技术预测在扩展的光学碱基识别过程期间的碱基识别质量。碱基识别过程包括前预测碱基识别过程循环和至少两倍于前预测循环的后预测碱基识别过程循环。将来自前预测碱基识别循环的多个时间序列作为输入提供给经过训练的卷积神经网络。卷积神经网络根据前预测碱基识别过程循环来确定后预测碱基识别过程循环之后预期的可能的总碱基识别质量。当碱基识别过程包括成对读取的序列时，还将第一读取的总碱基识别质量时间序列作为附加输入提供给卷积神经网络，以确定在第二读取的后预测循环之后可能的总碱基识别质量。

Description

使用深度神经网络预测测序结果的质量

优先权申请

本PCT申请要求于2018年1月5日提交的美国非临时专利申请No.15/863,790的优先权或权益，其标题为“PREDICTING QUALITY OF SEQUENCING RESULTS USING DEEPNEURAL NETWORKS”(律师，卷宗编号：ILLM1002-2/IP-1646-US)。该优先权申请通过引用并入本文以用于所有目的。

技术领域

所公开的技术涉及人工智能型计算机和数字数据处理系统以及用于智能仿真的相应的数据处理方法和产品，包括机器学习系统和人工神经网络。特别地，所公开的技术涉及使用深度学习和深度卷积神经网络来分析有序数据。

背景技术

背景部分中讨论的主题不应仅仅因为其在背景部分中提及而被认为是现有技术。类似地，背景部分中提到的或与背景部分的主题相关的问题不应被认为是先前在现有技术中已经被承认的。背景部分中的主题仅代表不同的方法，这些方法本身也可能对应于所要求保护的技术的实现。

生物或化学研究中的各种方案涉及执行大量的受控反应循环。一些DNA测序方案，诸如边合成边测序(SBS)，检测一系列反应位点的光发射。在SBS中，多个荧光标记的核苷酸用于对位于底物表面的大量的扩增DNA簇(或克隆群)的核酸进行测序。例如，该表面可以定义流动槽中的通道。不同簇中的核酸序列是通过运行数百个循环来确定的，在这些循环中，荧光标记的核苷酸被添加到簇中，然后由光源激发以提供光发射。

虽然SBS是用于确定核酸序列的有效技术，但SBS运行可能需要三天或更长时间才能完成。由于质量问题，有些运行失败。可靠地预测经过几个循环之后测序运行的最终质量，将有利于测序仪器的用户，允许他们在半天或更短的时间后停止不合格的运行。测序仪器的操作员无法提前预测测序运行的最终质量。

幸运的是，已经收集了大量的子系统性能数据，用于执行故障排除。该子系统数据可以被组合起来，并用于在测序读取或运行结束时，以及在读取期间的间隔预测总碱基识别质量。通过使用在运行早期报告的子系统性能指标，经过训练的深度神经网络可以预测可能的总碱基识别质量。

附图说明

所包括的附图用于说明目的，并且仅用于提供本公开的一个或多个实施方式的可能结构和过程操作的示例。在不脱离本公开的精神和范围的情况下，这些附图决不限制本领域技术人员在形式和细节方面所做的任何改变。当结合以下附图考虑时，可以通过参照详细的说明书和权利要求书来获得对主题的更完整的理解，其中，类似的附图标记在全部附图中指代类似的元素。

图1示出了系统的架构级示意图，其中包括质量预测卷积神经网络的机器学习系统预测由测序系统生成的测序数据的总碱基识别质量。

图2示出了在图1的测序质量数据库中每个循环存储的子系统性能和总碱基识别质量数据。

图3示出了由图1的质量预测卷积神经网络的不同层对具有一个通道的输入的处理。

图4示出了由图1的质量预测卷积神经网络的不同层对具有四个通道的输入的处理。

图5示出了存储在图1的测序质量数据库中的子系统性能数据和总碱基识别质量数据的示例。

图6示出了示例测序运行的两次读取的总碱基识别质量数据的图形表示。

图7示出了两个示例测序运行的两次读取的总碱基识别质量数据，指示在不同目标循环中预测的总碱基识别质量。

图8示出了目标循环内的预测的和真实的总碱基识别质量数据的示例数据，以及中间目标循环内的验证数据和测试数据的比较的图。

图9示出了图1的质量预测卷积神经网络在训练和生产中的架构级示意图的示例。

图10为计算机系统的简化框图，该计算机系统可用于实施图1的机器学习系统。

具体实施方式

下面的详细说明是参照附图做出的。描述示例实施方式是为了说明所公开的技术，而不是为了限制其范围(由权利要求限定)。本领域普通技术人员将认识到以下描述的各种等效变化。

介绍

碱基识别的质量是DNA或RNA分子中核苷酸测序成功与否的一个衡量标准。边合成边测序(SBS)是一种测序技术，它涉及将互补核苷酸一次一个地添加到待测序的DNA的核苷酸序列片段中。使用SBS的光学平台可以在一个载玻片或流动槽上对数十亿簇核苷酸序列片段(有时称为分子)进行测序，这些片段排列在多个泳道中，每个泳道中都有小块。分子簇表示分子的克隆。克隆分子会放大SBS过程中产生的信号。

对分子中的核苷酸进行测序需要数百个循环。在循环开始之前，克隆簇已经为SBS过程做好了准备。在一个循环中，有化学操作、图像捕获操作和图像处理操作。化学操作被设计为在每个循环的每个簇中的每个分子上添加一个染料标记的互补核苷酸。当一个分子相对于其簇内的其他分子落后于或超过SBS时，它就会失相(out of phase)，称为定相(phasing)或预定相(pre-phasing)。图像捕获操作涉及将相机对准泳道中的小块，照亮该小块，并捕获一到四个图像。图像处理产生碱基识别，这意味着在一个循环中识别添加到簇中的分子上的互补核苷酸。在不同的测序平台上，染料化学、照明、相机的设计和捕获的图像数量都有所不同。测序仪器可以提供化学、相机定位或配准、图像捕获或采集以及总碱基识别质量的子系统性能度量。

通过SBS对350个核苷酸的分子进行测序，在运行中可能涉及300个或更多的处理循环。运行被分为从同一序列片段的3′端和5′端开始的两次读取。当循环数小于分子的长度时，从3′端和5′端读取结束后，分子中间将保留一个未测序的区域。

测序人类基因组需要对许多DNA片段分子进行平行测序，因为人类基因组包含大约30亿个碱基对。这些碱基对被组织在每个细胞中复制的23对人类染色体中。将部分序列组合成全基因组的300个循环以及后续处理可能需要3天或更长时间才能完成。由于质量问题，有些运行失败。可靠地预测经过几个循环之后的测序运行的最终质量，将有利于测序仪器的用户，允许他们在半天或更短的时间后停止不合格的运行。

测序仪器的操作员无法提前预测测序运行的最终质量。幸运的是，已经收集了大量的子系统性能数据，用于执行故障排除。该子系统数据可以被组合起来，并用于在测序读取或运行结束时，以及在读取期间的间隔预测总碱基识别质量。通过使用在运行早期报告的子系统性能指标，经过训练的深度神经网络可以预测可能的总碱基识别质量。

当运行包括从分子两端的两次读取时，可以对第二读取进行类似的、甚至更早的预测。由于第二读取紧跟第一读取，因此第一读取后期的数据可以与第二读取早期的数据组合。这可以显著减少第二读取所需的循环数。例如，如果子系统性能数据在第一读取期间用于25个循环，那么只需将在第二读取时的5个循环的数据与第一读取时的20个循环的数据组合就足够了。可以对第一和第二读取的质量进行单独的预测。

环境

我们描述了一种用于在扩展的光学碱基识别过程中对碱基识别质量进行早期预测的系统。DNA分子中有四种核苷酸——腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)和胸腺嘧啶(T)。碱基识别是指在测序运行的一个循环中确定每簇DNA分子的核苷酸碱基(A，C，G，T)的过程。该系统参照图1进行描述，图1示出了根据一种实施方式的系统的架构级示意图。由于图1是架构图，因此有意省略某些细节以提高描述的清晰性。对于图1的讨论安排如下。首先，对图形的元素进行描述，接着对它们的互连进行描述。然后，对系统中元素的使用进行更详细的描述。

图1包括系统100。系统100包括测序系统111、测序质量数据库115、训练模式下的机器学习系统151、生产模式下的机器学习系统159以及监视子系统性能和碱基识别质量的操作员165。所公开的技术适用于各种测序系统111，也称为测序仪器或测序平台。测序系统111的一些示例包括Illumina的HiSeqX^TM、HiSeq3000^TM、HiSeq4000^TM、NovaSeq 6000^TM和MiSeqDx^TM。这些测序系统被配置为应用边合成边测序(SBS)技术进行碱基识别。

在SBS中，激光被用于照射每个循环中附加在每个簇中每个分子上的染料标记的互补核苷酸。相机拍摄小块的图像，然后对其进行处理，以识别附加在簇中的分子上的核苷酸(A、C、G、T)。一些测序系统使用四通道来识别每个循环中附加在分子上的四种核苷酸(A、C、G、T)。在这样的系统中，产生四个图像，每个图像包含信号，这些信号针对每个图像具有单个不同的颜色。这四种颜色对应于在特定位置存在的四种可能的核苷酸。在另一种测序系统中，双通道用于识别四种核苷酸(A、C、G、T)。在这样的系统中，每个循环拍摄两个图像。在第一通道中检测到第一核苷酸类型，在第二通道中检测到第二核苷酸类型，在第一和第二通道中都检测到第三核苷酸类型，并且在两个通道中都没有或极少检测到缺少染料标记标签的第四核苷酸类型。

测序质量数据库115存储每个循环的子系统性能和总碱基识别质量数据。在一个实施方式中，测序质量数据库115存储化学处理子系统性能数据116、图像配准子系统性能数据117、图像采集子系统性能数据118和总碱基识别质量数据119。测序质量数据库115存储特定测序系统的每个循环的这些数据。测序系统111在测序运行中对分子进行测序。如上所述，使用SBS对350个核苷酸的分子进行测序，在测序运行中涉及300个或更多的处理循环。测序运行有时被分为针对同一测序分子(也称为片段或插入物)的3′端和5′端开始的两次读取。这也被称为成双端读取。在一种测序仪中，从分子两端的两次读取中的每一次都涉及150个碱基识别循环。每次读取的循环数可以是差不多150个，随测序仪型号而变化。所公开的技术将每次读取的总循环分为前预测循环和后预测循环。在系统100的一个实施方式中，读取1的前25个循环是前预测循环，而随后的125个循环是后预测循环。读取2的前预测循环更少。在一个实施方式中，读取2的前5个循环是前预测循环，而随后的145个循环是后预测循环。可以理解的是，在每次读取中可以将更少或更多的循环分别用作前预测循环和后预测循环。

机器学习系统151包括数据库，该数据库包含训练数据161、验证数据162和测试数据163。这三个数据集包含来自测序质量数据库115的数据，用于子系统的性能和来自测序系统111的先前测序运行的总碱基识别质量。每个循环组织数据，指示子系统在前预测碱基识别过程循环中的性能以及测序运行的所有循环的总碱基识别质量。这些数据集用于训练和测试质量预测卷积神经网络171的性能。每个质量预测卷积神经网络包括一个或多个卷积神经网络(CNN)和全连接(FC)网络。在机器学习系统151的训练模式中，使用正向传递和反向传播，而机器学习系统159的生产模式仅执行正向传递。在正向传递中，机器学习系统预测在目标后预测碱基识别过程循环中预期的可能的总碱基识别质量。在反向传播中，机器学习系统计算一个或多个代价函数的梯度，并在训练期间将梯度传播到CNN和FC神经网络。

在系统100的一个实施方式中，机器学习系统151包括一个质量预测卷积神经网络171。该质量预测卷积神经网络171预测在读取的后预测碱基识别过程循环结束时预期的可能的总碱基识别质量。在系统100的一个实施方式中，读取的后预测循环数至少是前预测碱基识别过程循环数的两倍。在系统100的另一个实施方式中，质量预测卷积神经网络171在后预测碱基识别过程循环期间，针对至少五个中间循环计数预测可能的总碱基识别质量。质量预测卷积神经网络171针对五个中间循环中的每一个，输出中间可能的总碱基识别质量确定结果。在系统100的另一个实施方式中，质量预测卷积神经网络171预测在读取的每个后预测循环中预期的可能的总碱基识别质量。

在系统100的另一个实施方式中，机器学习系统151包括多个质量预测卷积神经网络171。每个质量预测卷积神经网络单独使用训练数据161来训练，训练数据161包括用于前预测碱基识别过程循环的子系统的性能时间序列和总碱基识别质量时间序列以及用于目标循环的后预测总碱基识别质量时间序列。在系统100的这种实施方式中，特定的经过训练的卷积神经网络根据前预测碱基识别过程循环确定在目标循环预期的可能的总碱基识别质量。目标循环可以是读取的最后一个循环，也可以是后预测循环中的任何一个中间循环。在图1中，示例性机器学习系统151包括质量预测卷积神经网络，用于以5或10个循环的增量往上直到最后一个循环的目标循环，例如读取中的第100或150个碱基识别循环。

经过训练的质量预测卷积神经网络179部署在生产模式中，并作为机器学习系统159的一部分在图1中示出。机器学习系统159还包括生产数据库169。生产数据库169包含测序系统的每个前预测循环的子系统的性能数据116、117、118和总碱基识别质量数据119。经过训练的质量预测卷积神经网络179根据前预测碱基识别过程循环，确定在至少两倍于前预测循环的后预测碱基识别过程循环之后预期的可能的总碱基识别质量。如上所述，在系统100的一个实施方式中，单个经过训练的质量预测卷积神经网络179可用于预测测序数据的一个读取的后生产循环中多个目标循环的预期总碱基识别质量。在系统100的另一个实施方式中，如图1所示，对每个目标循环使用单独经过训练的质量预测卷积神经网络。训练151和生产159中的机器学习系统可以在各种硬件处理器(例如图形处理单元(GPU))上运行。基于神经网络的模型涉及计算密集型方法，诸如基于卷积和矩阵的运算。GPU非常适合这些类型的计算。最近，专门的硬件正在开发中，以有效地训练神经网络模型。

测序质量数据

图2示出了特定测序系统200的测序运行的每个循环存储在测序质量数据库115中的测序质量指标213。图2列出了较高抽象级别上的一些示例子系统性能指标。这些指标包括化学处理子系统性能数据116、图像配准子系统性能数据117和图像采集子系统性能数据118。每个循环的总碱基识别质量数据119也作为输入被提供给机器学习系统。在图2中，出于说明的目的，示出了针对测序运行的读取的“n”个测序循环的子系统性能数据116、117和118。读取的总循环数显示为“3n”。前“n”个测序循环是前预测循环，随后的“2n”个循环是测序运行的读取中的后预测循环。

每个循环的测序质量数据219显示了较低抽象级别上的子系统性能指标。化学处理子系统性能数据116包括两个指标，显示为测序运行的前“n”个循环的定相度量C_n1和预定相度量C_n2。在边合成边测序(SBS)技术的每个循环中，化学过程将互补核苷酸附加到底物上数百万个位置处的靶核苷酸链(或分子)。术语“定相(phasing)”描述了在测序过程期间，分子簇中的分子比同一簇中的其他分子至少落后一个碱基的情况。这是由于不完全的化学反应造成的。这些分子的排列顺序与簇的其余部分不同相。更具体地，这些分子落后于簇中的其他分子一个循环。这种效应是累积的，一旦一个分子落后，它就无法赶上簇中的其他分子。在下一个循环中，可能会有更多的分子落后。

术语“预定相(prephasing)”是指一个分子比同一分子簇中的其他分子至少提前一个碱基的情况。预定相的一个原因是将一个未终止的核苷酸并入，然后在同一测序循环中并入第二个核苷酸。测序质量数据219包括针对一次读取的前预测循环的定相度量和预定相度量。在系统100的实施方式中，一次测序运行有两次读取，对于测序运行的读取1，“n”的值为“25”，对于读取2，“n”的值为“5”。可以理解的是，在读取1和读取2中，可以将不同数量的循环用作前预测循环。

在实施方式中，测序系统111在流动槽的小块上提供两种类型的簇排列，称为随机和模式化。测序系统111使用相机在测序循环期间按照流动槽上的小块捕获簇的图像。将虚拟图像(也称为模板)与给定测序图像对齐的过程称为配准。对于流动槽上具有随机排列的簇位置的图像配准，在测序运行的前几个循环(例如5个循环)中生成模板，该模板识别流动槽上簇的位置(x和y位置)。图像配准子系统性能数据包括针对前“n”个循环(也称作测序运行的读取的前预测循环)的图像中的簇位置的“x”偏移调整R_n1和“y”偏移调整R_n2。

可替换地，测序系统111使用的第二簇形成技术是基于模式化的流动槽。模式化的流动槽具有纳米井阵列，允许更高的簇密度和明确的簇识别。对于具有模式化的簇位置的流动槽，模板生成过程被一个步骤所代替，该步骤将簇的六边形填充晶格放置在与小块尺寸相对应的区域的x、y位置上。将虚拟图像(或模板)替换为环基准的虚拟图像，该环基准的虚拟图像与包含实际环基准的测序图像的一部分相关联。这种测序系统中的图像配准子系统性能数据与以上针对具有随机排列的簇位置的测序系统所提出的性能数据相同。

在SBS技术的每个循环期间，四种互补核苷酸(A、C、G、T)同时被传递到流动槽上的泳道中排列的小块上的分子簇。每个核苷酸都具有附加在它上面的光谱不同的标签。激光被用来照射附加在每个循环中每个簇中每个分子上的染料标记的互补核苷酸。相机拍摄小块的图像，然后对其进行处理，以识别附加在簇中的分子上的核苷酸(A、C、G、T)。一些测序系统使用四通道来识别每个循环附加在分子上的四种类型的核苷酸(A、C、G、T)。在这样的系统中，产生四个图像，每个图像包含信号，这些信号针对每个图像具有单个不同颜色。这四种颜色对应于在特定位置存在的四种可能的核苷酸。然后获得四个图像，每个图像使用对四种不同标签中的一种具有选择性的检测通道。然后使用标识的标签针对每个簇识别碱基。在这种实施方式中，循环“n”的“x”偏移调整R_n1和“y”偏移调整R_n2的四个值(每个通道一个)作为输入被提供给机器学习系统。

在另一种类型的测序系统中，双通道用于识别附加在分子上的四种互补核苷酸(A、C、G、T)。在这种系统中，每个循环拍摄两个图像。在第一通道中检测到第一核苷酸类型，在第二通道中检测到第二核苷酸类型，在第一和第二通道中都检测到第三核苷酸类型，并且在这两个通道中都没有或极少检测到缺少染料标记标签的第四核苷酸类型。如上所述，测序质量数据219包括前“n”个循环(也称为测序运行的读取的前预测循环)的图像配准子系统性能数据。

图像采集子系统性能数据包括测序运行的前“n”个循环的聚焦分数A_n1、最小对比度度量A_n2、最大对比度度量A_n3和强度度量A_n4。聚焦分数被定义为分子簇的平均半峰全宽(FWHM)，以像素表示它们的近似大小。最小对比度和最大对比度值分别是原始图像的所选列的每个通道的第10个百分点和第95.5个百分点。所选列可以是流动槽的特定小块或泳道。针对给定测序图像的模板中的每个簇确定强度值的过程称为强度提取。为了提取强度，使用包含簇的图像的一部分计算簇的本底。从簇的信号中减去本底信号以确定强度。从数据的第90个百分点提取的强度存储在测序质量数据219中。测序运行的读取的前“n”个前预测循环的图像采集子系统性能数据存储在测序质量数据库219中。在一个实施方式中，每个图像采集子系统性能数据值包括与上面讨论的四个通道对应的四个值。

总碱基识别质量数据119作为测序运行的读取中的所有“3n”个循环的输入Q30被给出。质量评分是DNA测序中广泛使用的一种技术，用于确定碱基识别的正确性的置信度，从而分配Phred质量分数。例如，Illumina公司使用预先训练的仪器特定模型来获得在测序系统(也称为测序仪器)的每个循环中的碱基识别质量。高于Q30的碱基百分比(也称为％Q>30)表示质量分数为30或更高的碱基识别的百分比。质量分数为30则表示碱基识别的准确度为3个9，或表示碱基识别的准确度为99.9％。同样，质量分数为20意味着碱基识别的准确度为99％。质量分数为40表示碱基识别的准确度为99.99％。在测序运行过程中，可以在不同级别(例如每个循环的每个小块，或每个循环的泳道上所有小块的平均值，或每个循环的所有小块的平均值，以及整个测序运行的“总”平均值)查看％Q>30指标。

运行的质量可以通过％Q>30值来判断，较高的％Q>30值表示可以可靠地用于下游数据分析的较高碱基数。Illumina公司的每个测序系统都有预期的％Q>30规格。例如，对于HiSeqX^TM系统，平均而言，大于或等于75％的碱基预期高于Q30，用于测序读长为150个核苷酸(也称为碱基)的双端读取。在系统100的一个实施方式中，在训练期间，每个后预测测序循环(Q30_n+1至Q30_3n)的总碱基识别质量是10个循环的平均值。例如，后预测循环50的总碱基识别质量值是循环45到54的总碱基识别质量值的平均值。

前预测循环(“n”)的子系统性能数据116、117和118以及读取的所有循环(“3n”)的总碱基识别数据119都存储在测序质量数据库219中。在系统100的一个实施方式中，额外的测序质量指标被用作机器学习系统的输入。这些指标的示例包括由流动槽中的温度传感器和激光功率传感器报告的数据。测序系统111中的传感器报告的数据用于在测序运行期间监视系统性能。有时，传感器报告的数据也可以包括测序运行前后的数据。可以用作机器学习系统的输入的指标的进一步示例包括，每个循环的误差指标(包含循环错误率)以及完整读取和具有一到四个误差的读取的计数。可以理解的是，可以将额外的指标作为机器学习系统的输入包括进来，用于预测测序运行的总碱基识别质量。

质量预测卷积神经网络

图3示出了图1的质量预测卷积神经网络(CNN)300的层。图3是具有两个卷积层的实施方式。该网络可以具有一到五个卷积层。在其他实施方式中，该网络可以具有五个以上的卷积层。分析卷积的输出的一种方法是通过全连接(FC)网络。因此，在质量预测CNN的最后一层，卷积层的输出被提供给FC网络。全连接层可以实施为具有两到五层的多层感知器。来自FC网络的一个输出可用于在读取的后预测循环中预测在特定目标循环中预期的可能的总碱基识别质量。在这样一个系统的实施方式中，单独的机器学习系统被训练来预测在每个目标循环中预期的可能的总碱基识别质量。在机器学习系统的替代实施方式中，来自FC网络的多个输出可用于预测在多个后预测目标循环中预期的总碱基识别质量。

在图3中，质量预测CNN的每一层的输入的维度显示在括号中。如上所述，质量预测CNN的一些输入具有一个通道，而其他输入可以具有四个通道。图3所示的示例质量预测CNN用于具有一个信道的输入。输入时间序列的维度表明有25个输入，每个输入值包括一个一维值(311)。这个输入可以设想为包含25个实数的一维向量。这25个值对应于特定的子系统性能。例如，化学处理子系统性能时间序列或总碱基识别质量时间序列。如上所述，这两个输入每个循环都有一个通道。每个输入都经过独立的卷积。然后，输入通过块321处的批归一化层被传递。

在卷积神经网络(CNN)中，每一层的分布在训练期间都会发生变化，并且每一层的分布因层而异。这降低了优化算法的收敛速度。批归一化(Ioffe和Szegedy 2015)是解决这一问题的技术。用x表示批归一化层的输入，用z表示其输出，批归一化对x应用以下变换：

批归一化使用μ和σ和线性标度对输入x应用均值方差归一化，并使用γ和β转换它。使用被称为指数移动平均线的方法计算训练集上当前层的归一化参数μ和σ。换句话说，它们不是可训练的参数。相比之下，γ和β是可训练的参数。以上在训练期间计算的μ和σ值用于生产期间的正向传递。

来自批归一化层321的输出作为输入被提供给卷积层331。批归一化不改变输入的维度。在图3所示的卷积层的示例中，64个宽度为5、高度为1的滤波器卷积在每边用两个零填充的输入上。在卷积期间，零填充用于处理边缘。用pad＝2零填充一个H×W输入可以被认为是创建一个大小为(H+2pad)×(W+2pad)的零矩阵，并将输入复制到该矩阵中，使其正好位于零矩阵的中间。如果卷积滤波器的大小为(2pad+1)×(2pad+1)，则具有零填充输入的卷积的结果为HxW，与输入的大小正好相等。填充通常是为了保持卷积运算的输入和输出的大小不变。

第一卷积层331的输出包括25个值，每个值具有64个通道和一个宽度。卷积的输出也称为特征映射。该输出作为输入被提供给最大池化层343。池化层的目标是降低特征映射的维度。因此，它也被称为“下采样”。将要进行下采样的因子称为“步长”或“下采样因子”。池化步长用“s”表示。在一种称为“最大池化”的池化中，为每一步长选择最大值。例如，考虑将s＝2的最大池化应用于12维向量x＝[1、10、8、2、3、6、7、0、5、4、9、2]。步长s＝2的最大池化向量x意味着我们从索引0开始的每两个值中选择最大值，从而得到向量[10,8,6，7,5,9]。因此，步长s＝2的最大池化向量x将得到一个6维向量。最大池化层343使用s＝2的步长将第一卷积的输出341的维度从25个值减少到12个值。输出341中第25位的值被丢弃。

在将最大池化层343的输出作为输入提供给下一卷积层351之前，该输出通过批归一化层347被传递。在卷积层中，64个大小为5乘1(5×1)的内核分别在64个维度上进行卷积，以生成大小为64乘12(64×12)的输出特征映射。在64个维度上执行求和操作，以生成大小为1乘12(1×12)的特征映射。这个卷积层有128个内核，因此，上面的操作被执行128次，生成维度为128乘12(128×12)的输出特征映射。如上所述，第二卷积层还对每边有两个零填充的输入进行操作。第二卷积层的输出如块361所示。步长s＝2的最大池化层363将卷积的输出从12个值减少到6个值，每个值有128个通道，该值通过块365处的第三批归一化层被传递。来自批归一化层365的输出被提供给求和层，然后是两个全连接(FC)网络。这些层的细节如图4所示。

丢弃法是防止神经网络过度拟合的一种简单而有效的技术。它的工作原理是在每次训练的迭代中从网络中随机丢弃一小部分神经元。这意味着所选神经元的输出和梯度被设置为零，因此它们不会对正向和反向传递产生任何影响。在图3所示的质量预测卷积神经网络的示例中，分别在第二和第三批归一化层347和365之前使用0.3的概率执行丢弃。

图4示出了示例质量预测卷积神经网络(CNN)400的架构，该网络与图3所示的网络类似，但其设计用于具有四个通道的输入。如上所述，图像配准子系统性能时间序列和图像采集子系统性能时间序列由四个通道的数据组成。这些通道可以对应于四种核苷酸(A、C、G、T)。在质量预测CNN的一个实施方式中，在质量预测CNN处理输入之前，将每个输入的四个通道组合在一起。在该网络的另一个实施方式中，质量预测CNN采用四个通道的输入，并产生与该输入对应的四个通道的输出。将来自质量预测CNN的每个输出值的四个通道相加，得到一个通道的值。在这两种实施方式中，都可以使用针对每个输入值的四个通道中添加值的求和操作。在图4所示的示例网络中，卷积滤波器在具有四个通道的输入上进行卷积。

输入411包括25个值，这些值对应于测序运行的读取中的25个前预测循环。25个输入值中的每一个的大小都是1，并具有四个通道。在块421，对输入执行批归一化。在块431，执行具有两个零填充的填充卷积。四个大小为5乘1(5×1)的内核在四个通道上卷积，生成大小为4乘25(4×25)的特征映射。在四维上执行求和操作，以生成大小为1乘25(1×25)的特征映射。执行上述操作64次，因为有64个内核产生维度为64乘25(64×25)的输出，如块443所示。在块445执行步长s＝2的最大池化，从而得到64个大小为12的特征映射。在块449，最大池化层的输出通过第二批归一化被传递。

在块451，使用128个大小为5的滤波器执行第二卷积。第二卷积在每边有两个零填充的输入上卷积滤波器。如块461所示，第二卷积的输出包括128个大小为12的特征映射。在块463，步长s＝2的最大池化将维度减少到128个大小为6的特征映射。在块465，执行第三批归一化。所有输入(465和365)的卷积的输出在求和层467求和。求和层467的输入是对应于9个输入特征的9个特征映射。每个特征映射的维度是6乘以128(6×128)。求和层467对9个特征求和，以将维度减少到768个输入(6×128)。然后，求和层467的输出在压平之后被传递给第一全连接(FC)网络471。FC 471产生64个输出，这些输出作为输入被提供给第二FC网络481，产生一个输出491。输出491为操作员165预测目标循环的可能的总碱基识别质量。

子系统性能数据的示例

图5示出了化学处理子系统性能116、图像配准子系统性能117、图像采集子系统性能118和总碱基识别质量119的示例数据500。该数据根据每个子系统的性能度量进行排列。例如，化学处理子系统性能数据116包括定相和预定相度量。类似地，图像配准子系统性能数据117包括平移x和平移y度量。图像采集子系统性能数据118包括强度、最大对比度、最小对比度和聚焦分数度量。总碱基识别质量数据119指示高于Q30质量度量的碱基识别的百分比。在该系统的一个实施方式中，来自Illumina公司的HiSeqX、HiSeq3000和HiSeq4000测序机器的23,000个测序运行的上述数据被用于训练质量预测卷积神经网络171。

碱基识别质量预测结果分析

图6包括示出在测序系统中的示例测序运行的平均总碱基识别质量结果(Q30)的图表600。测序运行包括双端读取：读取1和读取2。每次读取包含150个碱基识别，对应于150个测序循环，其中一个互补核苷酸附加在流动槽小块上排列成簇的分子上。这两次读取由索引读取分隔。在一些测序运行中，来自多个来源DNA样本的分子一起被测序。索引读取用于识别属于唯一来源DNA样本的测序数据。

在一个实施方式中，读取1的前25个循环和读取2的前5个循环被用作前预测碱基识别过程循环。来自前预测循环的子系统性能数据116、117和118以及总碱基识别质量数据119作为输入被提供给质量预测卷积神经网络(CNN)。在另一个实施方式中，读取1的最后20个循环的总碱基识别质量分数也作为输入被提供给读取2的质量预测CNN。图表600显示，示例测序运行的平均Q30分数随着分子测序的进行而降低。由于测序循环中执行的化学过程是随机过程，因此每个循环中的化学处理步骤的误差会累积。随着更多的测序循环被执行，将以前循环中的误差汇总，以创建由图表600中的读取1和读取2的曲线指示的衰减。

图7示出了图表711和751所示的两个示例双端测序运行的总碱基识别质量预测结果700以及置信区间。两个测序运行的实际平均Q30值显示为“读取1”和“读取2”曲线。经过训练的质量预测卷积神经网络(CNN)179输出循环150的可能的总碱基识别质量，循环150是读取1的最后一个循环。质量预测CNN还预测中间循环的碱基识别质量，所述中间循环从循环30开始并以10个测序循环(例如循环30、40、50、60)的间隔持续到循环150，直到读取结束。预测值与每个预测的置信区间用方框表示。

在实施方式中，在生产(也称为“推理”)期间使用由三个经过训练的质量预测卷积神经网络(CNN)179组成的集成来预测目标循环的可能的总碱基识别质量。根据一个实施方式，这三个模型中的每一个都运行100次以生成一样多的预测值。然后，由这三个质量预测CNN生成的总共300个预测值的平均值被用来作为最终预测结果。预测值的标准差被用来作为置信区间。具有接近训练数据的总碱基识别质量值的读取可能具有较低的不确定性或较短的置信区间。与训练示例相差甚远的预测结果可能具有较高的不确定性。

在训练期间，根据一个实施方式，每个循环的总碱基识别质量数据119可最接近10个测序循环的平均值。例如，循环50的总碱基识别质量数据是循环45到54的总碱基识别质量数据的平均值。在这样的实施方式中，在生产期间，质量预测CNN预测每个目标循环的平均(跨10个循环)总碱基识别质量。这是因为，由于单个循环的波动，可能很难确定一个特定目标循环内的质量预测CNN的性能。例如，一个特定的循环，比如说循环50是不合格的，但之前和之后的循环并没有不合格。因此，可以使用10个循环的平均值来预测特定目标循环的总碱基识别质量。

图表711示出了一个实施方式，在此实施方式中，质量预测CNN 179在预测读取1的较早的目标循环的平均Q30分数方面比预测较后的目标循环更确信。此测序运行的读取2具有较低的平均Q30分数。尽管CNN 179预测的可能的总碱基识别质量分数高于实际的读取2结果，但是在读取2的前五个循环之后的预测结果通知操作员165，读取2的可能的总碱基识别质量较低。

图表751示出了一种实施方式，在此实施方式中，质量预测CNN 179以高置信度和准确度预测目标循环的质量分数。

使用图表711和751，操作员165可以在读取1和读取2的生命周期的早期审查质量预测CNN 179的结果之后，决定继续或终止测序运行。在一个实施方式中，在读取1的循环25结束时以及在读取2的循环5结束时将预测分数和置信值提交给操作员165。

图8在图表811中示出了循环100的高于Q30分数的碱基识别的百分比(％>Q30)的真实值和预测值的比较800。很明显，大多数数据点沿着虚线821，这意味着预测值接近真实值。在图表811的左上角有几个数据点，表示与高于Q30分数的碱基识别的百分比的真实值相比，预测值较高。如上所述，碱基识别是一个随机过程，每个循环涉及若干化学处理步骤。在图表的左上角的几个循环中，质量预测CNN 179的预测结果不接近真实值。然而，由于质量预测CNN预测多个目标循环的Q30分数，因此操作员165可以使用所有目标循环的预测值来做出关于测序运行的决策。

图表861和865分别显示了针对示例测序运行的读取1和读取2的质量预测卷积神经网络的性能。前25个循环的子系统性能指标和总碱基识别质量用于预测读取1在目标循环50、70、100、120和150的可能的总碱基识别质量。同样，读取2的前五个循环的输入用于预测读取2在相同目标循环的可能的总碱基识别质量。

确定系数表示为R²，是从自变量预测出的因变量中方差的比例。它是预测数据接近真实数据点的统计度量。R²为“1”表示回归数据完全符合真实数据。图表861和865显示了在验证和测试中，可能的总碱基识别质量的模型预测值与真实值的接近程度。

质量预测卷积神经网络的训练与推理

图9示出了根据一种实施方式的用于质量预测卷积神经网络(CNN)的训练和生产部署900的示意图911和961。在训练期间，来自训练数据库161的子系统的性能数据和总碱基识别质量分数作为输入被提供给质量预测CNN 171。每个质量预测CNN包含多个层，如图3所示，用于具有一个通道的输入，如图4所示，用于具有四个通道的输入。在一个实施方式中，针对特定输入(即子系统性能时间序列和总碱基识别质量时间序列)训练不同的质量预测CNN。在另一个实施方式中，对所有输入训练单一质量预测CNN。在一个实施方式中，质量预测CNN的输出是测序运行的读取中的目标循环的可能总碱基识别质量。将输出与目标循环的地面真值(ground truth)碱基识别质量进行比较。在一个实施方式中，地面真值是如上面所讨论的读取的10个循环的平均碱基识别质量。在质量预测CNN中，利用输出与地面真值之间计算的预测误差来更新权重，使输出更接近地面真值。

经过训练的质量预测CNN被部署到生产环境中，在那里它们接收用于在测序仪器111的测序运行中读取的前预测循环的生产数据。在生产(或推理)期间，质量预测CNN在后预测碱基识别过程循环中针对目标循环产生可能的总碱基识别质量分数。然后，操作员165可以将读取的可能的总碱基识别质量分数与下游数据分析所需的碱基识别质量进行比较。如果后预测循环的碱基识别质量分数的可能质量低于所需的碱基识别的质量，则系统将向操作员165发出警告，操作员165可以中止测序运行。

计算机系统

图10是计算机系统1000的简化框图，该计算机系统1000可用于实施图1的机器学习系统151，以在扩展的光学碱基识别过程期间对碱基识别质量进行早期预测。类似的计算机系统1000可以实施用于生产或推理的机器学习系统159。计算机系统1000包括至少一个中央处理单元(CPU)1072，其经由总线子系统1055与多个外围设备通信。这些外围设备可以包括存储子系统1010，存储子系统1010包括例如存储器设备和文件存储子系统1036、用户接口输入设备1038、用户接口输出设备1076和网络接口子系统1074。输入和输出设备允许用户与计算机系统1000交互。网络接口子系统1074提供了与外部网络的接口，包括与其它计算机系统中的相应接口设备的接口。

在一个实施方式中，图1的机器学习系统151可通信地连接到存储子系统1010和用户接口输入设备1038。

用户接口输入设备1038可以包括：键盘；指针设备，诸如鼠标、轨迹球、触摸板或图形板；扫描仪；并入显示器的触摸屏；音频输入设备，诸如语音识别系统和麦克风；以及其它类型的输入设备。一般而言，术语“输入设备”的使用旨在包括将信息输入计算机系统1000的所有可能类型的设备以及方式。

用户接口输出设备1076可以包括显示子系统、打印机、传真机或诸如音频输出设备的非可视显示器。显示子系统可以包括LED显示器、阴极射线管(CRT)、诸如液晶显示器(LCD)的平板设备、投影设备或用于创建可见图像的某些其他机构。显示子系统还可以提供非可视显示器，例如音频输出设备。一般而言，术语“输出设备”的使用旨在包括将信息从计算机系统1000输出到用户或另一机器或计算机系统的所有可能类型的设备以及方式。

存储子系统1010存储编程和数据构造，这些构造提供了本文描述的部分或全部模块和方法的功能。这些软件模块通常由深度学习处理器1078执行。

深度学习处理器1078可以是图形处理单元(GPU)或现场可编程门阵列(FPGA)。深度学习处理器1078可以由深度学习云平台(例如Google云平台(Google cloudplatform^TM)、Xilinx^TM和Cirrascale^TM)托管。深度学习处理器1078的示例包括Google的张量处理单元(TPU^TM)，机架安装解决方案，如GX4机架安装系列^TM，GX8机架安装系列^TM，NVIDIA的DGX-1^TM，微软的Stratix V FPGA^TM，Graphcore的智能处理单元(IPU^TM)，高通的具有Snapdragon处理器^TM的Zeroth平台^TM，NVIDIA的Volta^TM、NVIDIA的DRIVE PX^TM、NVIDIA的JETSON TX1/TX2模块^TM、Intel的Nirvana^TM、Movidius的VPU^TM、Fujitsu的DPI^TM、ARM的DynamicIQ^TM、IBM的TrueNorth^TM等。

存储子系统1010中使用的存储器子系统1022可以包括多个存储器，这些存储器包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)1032和存储固定指令的只读存储器(ROM)1034。文件存储子系统1036可以为程序和数据文件提供持久存储，并且可以包括硬盘驱动器、软盘驱动器以及相关的可移动介质、CD-ROM驱动器、光驱或可移动介质盒。实施某些实施方式的功能的模块可以由文件存储子系统1036存储在存储子系统1010中，或者存储在处理器可访问的其他机器中。

总线子系统1055提供了允许计算机系统1000的各个组件和子系统按预期相互通信的机制。尽管总线子系统1055示意性地显示为单条总线，但是总线子系统的替代实施方式可以使用多条总线。

计算机系统1000本身可以是各种类型的，包括个人计算机、便携式计算机、工作站、计算机终端、网络计算机、电视、主机、服务器场、广泛分布的一组松散网络计算机、或任何其他数据处理系统或用户设备。由于计算机和网络的不断变化的性质，图10所示的计算机系统1000的描述仅作为用于说明本发明的优选实施例的具体示例。计算机系统1000的许多其它配置可以具有比图10所示的计算机系统更多或更少的组件。

特定实施方式

所公开的技术涉及在扩展的光学碱基识别过程期间对碱基识别质量进行早期预测。

所公开的技术可以作为一种系统、方法或制品来实施。一个实施方式的一个或多个特征可以与基本实施方式相结合。非互斥的实施方式被教导为可组合的。一个实施方式的一个或多个特征可以与其他实施方式相结合。本公开定期提醒用户这些选项。不应将出自重复这些选项的引述的某些实施方式中的省略内容视为限制前面章节中所教导的组合-这些引述在此通过引用并入以下每个实施方式中。

所公开的技术的第一系统实施方式包括耦接到存储器的一个或多个处理器。存储器加载有计算机指令，以在扩展的光学碱基识别过程期间执行对碱基识别质量的早期预测。碱基识别过程包括前预测碱基识别过程循环和至少两倍于前预测循环的后预测碱基识别过程循环。每个碱基识别过程循环包括(a)将额外的互补核苷酸附加到底物上数百万个位置处的靶核苷酸链上的化学处理，(b)在底物的图像块上进行相机定位和图像配准，以及(c)在图像块上进行图像采集。当在处理器上执行时，计算机指令将多个时间序列从前预测碱基识别过程循环输入到经过训练的卷积神经网络。所述多个时间序列包括化学处理子系统性能时间序列、图像配准子系统性能时间序列、图像采集子系统性能时间序列和总碱基识别质量时间序列。

该系统利用碱基识别质量经验来训练卷积神经网络，碱基识别质量经验包括用于前预测碱基识别过程循环的多个时间序列和后预测总碱基识别质量时间序列。经过训练的卷积神经网络根据前预测碱基识别过程循环，确定在至少两倍于前预测循环的后预测碱基识别过程循环之后预期的可能的总碱基识别质量。最后，系统输出总碱基识别质量供操作员评估。

本系统实施方式和所公开的其他系统可选地包括以下一个或多个特征。系统还可以包括结合所公开的计算机实现的方法描述的特征。为了简洁起见，不单独列举系统特征的替代组合。对于每个法定类的基本特征集合，不重复适用于系统、方法和制品的特征。读者将了解如何将本章节中标识的特征与其他法定类中的基本特征结合起来。

该系统包括在化学处理子系统性能时间序列中通过定相和预定相误差的估计来表示化学处理性能。该系统包括在图像配准子系统性能时间序列中通过图像捕获后的x和y图像偏移调整的报告来表示图像配准性能。该系统还包括在图像采集子系统性能时间序列中通过聚焦和对比度的报告来表示图像采集性能。在这样的实施方式中，该系统包括通过簇图像中单个簇的半峰全宽的窄度来表示聚焦。在该系统的另一个这样的实施方式中，对比度包括最小对比度，该最小对比度被计算为针对一列图像的每个通道的第10个百分点。在该系统的另一个这样的实施方式中，对比度包括最大对比度，该最大对比度被计算为针对一列图像的每个通道的第99.5个百分点。

在系统的一个实施方式中，图像采集性能还包括簇强度的图像采集子系统性能时间序列报告。在这样的实施方式中，系统以成像簇的强度的第90个百分点报告簇强度。在系统的一个实施方式中，碱基识别过程包括2到25倍于前预测循环的后预测碱基识别过程循环。在系统的一个实施方式中，碱基识别过程包括20到50个前预测碱基识别过程循环。在系统的一个实施方式中，碱基识别过程包括100到500个后预测碱基识别过程循环。

在一个实施方式中，在后预测碱基识别过程循环期间，系统根据前预测碱基识别过程循环确定用于至少五个中间循环计数的可能的总碱基识别质量。在确定之后，系统输出中间可能的总碱基识别质量确定结果。在系统的一个实施方式中，总碱基识别质量被计算为Phred质量分数。在系统的另一个实施方式中，总碱基识别质量被计算为Sanger质量分数。

所公开的技术的第二系统实施方式包括耦接到存储器的一个或多个处理器。存储器加载有计算机指令，以在包括成对读取的序列的扩展光学碱基识别过程期间执行对碱基识别质量的早期预测，每个读取包括前预测碱基识别过程循环和至少两倍于前预测循环的后预测碱基识别过程循环。每个碱基识别过程循环包括：(a)将额外的互补核苷酸附加到底物上数百万个位置处的靶核苷酸链上的化学处理，(b)在底物的图像块上进行相机定位和图像配准，以及(c)在图像块上进行图像采集。该系统包括将多个时间序列从第二读取的前预测碱基识别过程循环提供给经过训练的卷积神经网络。所述多个时间序列包括化学处理子系统性能时间序列、图像配准子系统性能时间序列、图像采集子系统性能时间序列和总碱基识别质量时间序列。该系统还包括将第一读取的总碱基识别质量时间序列提供给经过训练的卷积神经网络。

该系统包括使用碱基识别质量经验来训练卷积神经网络，该碱基识别质量经验包括用于第二读取的前预测碱基识别过程循环的多个时间序列、第二读取的后预测总碱基识别质量时间序列、和第一读取的总碱基识别质量时间序列。经过训练的卷积神经网络使用第二读取的前预测碱基识别过程循环和第一读取的总碱基识别质量时间序列，来确定在至少两倍于前预测循环的后预测碱基识别过程循环之后预期的第二读取的可能的总碱基识别质量。最后，系统输出第二读取的可能的总碱基识别质量，以供操作员评估。在该系统的这种实施方式中，第一读取先于第二读取，并且包括在正方向上碱基识别已测序的分子。第二读取包括在相反反向上碱基识别已测序的分子。

在第一系统实施方式的本特定的实施方式部分中讨论的每个特征都同样适用于第二系统实施方式。如上所述，此处不重复所有的系统特征，应视为通过引用重复。

其他实施方式可以包括非暂时性计算机可读存储介质，该存储介质存储可由处理器执行以执行上述系统的功能的指令。另一个实施方式可以包括执行上述系统的功能的计算机实现的方法。

所公开的技术的第一计算机实现的方法实施方式包括在扩展的光学碱基识别过程期间对碱基识别质量进行早期预测。碱基识别过程循环包括前预测碱基识别过程循环和至少两倍于前预测循环的后预测碱基识别过程循环。每个碱基识别过程循环包括：(a)将额外的互补核苷酸附加到底物上数百万个位置处的靶核苷酸链上的化学处理，(b)在底物的图像块上进行相机定位和图像配准，以及(c)在图像块上进行图像采集。该方法包括将多个时间序列从前预测碱基识别过程循环提供给经过训练的卷积神经网络。所述多个时间序列包括化学处理子系统性能时间序列、图像配准子系统性能时间序列、图像采集子系统性能时间序列和总碱基识别质量时间序列。

计算机实现的方法还包括使用碱基识别质量经验来训练卷积神经网络，该碱基识别质量经验包括用于前预测碱基识别过程循环的多个时间序列和后预测总碱基识别质量时间序列。经过训练的卷积神经网络确定在至少两倍于前预测碱基识别过程循环的前预测循环的后预测碱基识别过程循环之后预期的可能的总碱基识别质量。最后，该方法输出可能的总碱基识别质量，以供操作员评估。

在第一系统实施方式的本特定实施方式部分中讨论的每个特征同样适用于本计算机实现的方法实施方式。如上所述，此处不重复所有的系统特征，应视为通过引用重复。

其他实施方式可包括非暂时性计算机可读存储介质，该存储介质存储可由处理器执行以执行上述第一计算机实现的方法的指令。另一个实施方式可以包括一种系统，该系统包括存储器和一个或多个处理器，该处理器可用于执行存储在存储器中的指令，以执行上述第一计算机实现的方法。

所公开的技术的计算机可读介质(CRM)实施方式包括一种非暂时性计算机可读存储介质，该计算机可读存储介质存储有计算机程序指令，这些指令在处理器上执行时实现上述计算机实现的方法。

在第一系统实施方式的本特定实施方式部分中讨论的每个特征都同样适用于CRM实施方式。如上所述，此处不重复所有的系统特征，应视为通过引用重复。

所公开的技术的第二计算机实现的方法实施方式包括在扩展的光学碱基识别过程期间对碱基识别质量进行早期预测，该碱基识别过程包括成对读取的序列。每个读取包括前预测碱基识别过程循环和至少两倍于前预测循环的后预测碱基识别过程循环。每个碱基识别过程循环包括：(a)将额外的互补核苷酸附加到底物上数百万个位置处的靶核苷酸链上的化学处理，(b)在底物的图像块上进行相机定位和图像配准，以及(c)在图像块上进行图像采集。该方法包括将多个时间序列从第二读取的前预测碱基识别过程循环提供给经过训练的卷积神经网络。所述多个时间序列包括化学处理子系统性能时间序列、图像配准子系统性能时间序列、图像采集子系统性能时间序列和总碱基识别质量时间序列。该方法还包括将第一读取的总碱基识别质量时间序列提供给经过训练的卷积神经网络。

计算机实现的方法包括使用碱基识别质量经验来训练卷积神经网络，该碱基识别质量经验包括用于第二读取的前预测碱基识别过程循环的多个时间序列、第二读取的后预测总碱基识别质量时间序列、以及第一读取的总碱基识别质量时间序列。经过训练的卷积神经网络使用第二读取的前预测碱基识别过程循环和第一读取的总碱基识别质量时间序列，来确定在至少两倍于前预测循环的后预测碱基识别过程循环之后预期的第二读取的可能的总碱基识别质量。最后，该方法输出第二读取的可能的总碱基识别质量，以供操作员评估。在第二计算机实现的方法实施方式中，第一读取先于第二读取，并且包括在正方向上碱基识别已测序的分子。第二读取包括在相反反向上碱基识别已测序的分子。

在第一系统实施方式的本特定的实施方式部分中讨论的每个特征都同样适用于本方法实施方式。如上所述，此处不重复所有的系统特征，应视为通过引用重复。

其他实施方式可包括非暂时性计算机可读存储介质，该存储介质存储指令，所述指令可由处理器执行以执行上述计算机实现的方法。另一个实施方式可以包括一种系统，该系统包括存储器和一个或多个处理器，该处理器可用于执行存储在存储器中的指令，以执行上述计算机实现的方法。

所公开的技术的计算机可读介质(CRM)实施方式包括非暂时性计算机可读存储介质，该存储介质存储有计算机程序指令，这些指令在处理器上执行时实现上述第二种计算机实现的方法。

在第一系统实施方式的本特定的实施方式部分中讨论的每个特征都同样适用于CRM实施方式。如上所述，此处不重复所有的系统特征，应视为通过引用重复。

提供上述说明书是为了使所公开的技术能够制造和使用。对所公开的实施方式的各种修改将是显而易见的，并且在不脱离所公开的技术的精神和范围的情况下，本文定义的一般原理可以应用于其他实施方式和应用。因此，所公开的技术并不旨在限于所示的实施方式，而是被赋予与本文公开的原理和特征一致的最宽范围。所公开的技术的范围由所附权利要求书限定。

Claims

1.一种用于在扩展的光学碱基识别过程期间对碱基识别质量进行早期预测的计算机实现的方法，所述扩展的光学碱基识别过程包括前预测碱基识别过程循环和至少两倍于前预测循环的后预测碱基识别过程循环，其中，每个碱基识别过程循环包括：(a)将额外的互补核苷酸附加到底物上数百万个位置处的靶核苷酸链的化学处理，(b)在所述底物的图像块上进行相机定位和图像配准，以及(c)在所述图像块上进行图像采集，所述方法包括：

将来自所述前预测碱基识别过程循环的多个时间序列输入到经过训练的卷积神经网络中，所述多个时间序列包括化学处理子系统性能时间序列、图像配准子系统性能时间序列、图像采集子系统性能时间序列和总碱基识别质量时间序列；

其中，所述经过训练的卷积神经网络使用碱基识别质量经验进行训练，所述碱基识别质量经验包括所述前预测碱基识别过程循环的多个时间序列和后预测总碱基识别质量时间序列；

所述经过训练的卷积神经网络根据所述前预测碱基识别过程循环，确定在至少两倍于所述前预测循环的后预测碱基识别过程循环之后预期的可能的总碱基识别质量；以及

输出所述可能的总碱基识别质量，以供操作员评估。

2.根据权利要求1所述的计算机实现的方法，其中，在所述化学处理子系统性能时间序列中通过定相和预定相误差的估计来表示化学处理性能。

3.根据权利要求1至2中任一项所述的计算机实现的方法，其中，在所述图像配准子系统性能时间序列中通过图像捕获后的x和y图像偏移调整的报告来表示图像配准性能。

4.根据权利要求1至3中任一项所述的计算机实现的方法，其中，在所述图像采集子系统性能时间序列中通过聚焦和对比度的报告来表示图像采集性能。

5.根据权利要求4所述的计算机实现的方法，其中，所述聚焦由簇图像中各个簇的半峰全宽的窄度来表示。

6.根据权利要求4所述的计算机实现的方法，其中，所述对比度包括最小对比度，所述最小对比度被计算为针对一列图像的每个通道的第10个百分点。

7.根据权利要求4所述的计算机实现的方法，其中，所述对比度包括最大对比度，所述最大对比度被计算为针对一列图像的每个通道的第99.5个百分点。

8.根据权利要求4所述的计算机实现的方法，其中，所述图像采集性能还包括簇强度的图像采集子系统性能时间序列报告。

9.根据权利要求8所述的计算机实现的方法，其中，所述簇强度是以成像簇的强度的第90个百分点而报告的。

10.根据权利要求1至9中任一项所述的计算机实现的方法，其中，所述碱基识别过程包括3至25倍于前预测循环的后预测碱基识别过程循环。

11.根据权利要求1至9中任一项所述的计算机实现的方法，其中，所述碱基识别过程包括2至50倍于前预测循环的后预测碱基识别过程循环。

12.根据权利要求1至9中任一项所述的计算机实现的方法，其中，所述碱基识别过程包括20至50个前预测碱基识别过程循环。

13.根据权利要求1至9中任一项所述的计算机实现的方法，其中，所述碱基识别过程包括100至500个后预测碱基识别过程循环。

14.根据权利要求1所述的计算机实现的方法，还包括在所述后预测碱基识别过程循环期间，根据所述前预测碱基识别过程循环确定用于至少五个中间循环计数的可能的总碱基识别过程质量，并输出所述中间的可能的总碱基识别质量确定。

15.一种用于在扩展的光学碱基识别过程期间对碱基识别质量进行早期预测的计算机实现的方法，所述扩展的光学碱基识别过程包括成对读取的序列，每个读取包括前预测碱基识别过程循环和至少两倍于前预测循环的后预测碱基识别过程循环，每个碱基识别过程循环包括：(a)将额外的互补核苷酸附加到底物上数百万个位置处的靶核苷酸链的化学处理，(b)在底物的图像块上进行相机定位和图像配准，以及(c)在所述图像块上进行图像采集，所述方法包括：

将以下输入到经过训练的卷积神经网络中：

来自第二读取的所述前预测碱基识别过程循环的多个时间序列，所述多个时间序列包括化学处理子系统性能时间序列、图像配准子系统性能时间序列、图像采集子系统性能时间序列、以及总碱基识别质量时间序列，以及

第一读取的总碱基识别质量时间序列；

其中，所述经过训练的卷积神经网络使用碱基识别质量经验进行训练，所述碱基识别质量经验包括所述第二读取的所述前预测碱基识别过程循环的多个时间序列、所述第二读取的后预测总碱基识别质量时间序列和所述第一读取的总碱基识别质量时间序列；

所述经过训练的卷积神经网络根据所述第二读取的所述前预测碱基识别过程循环和所述第一读取的总碱基识别质量时间序列，确定在至少两倍于所述前预测循环的后预测碱基识别过程循环之后预期的所述第二读取的可能的总碱基识别质量；以及

输出所述第二读取的可能的总碱基识别质量，以供操作员评估。

16.一种系统，包括一个或多个耦接到存储器的处理器，所述存储器加载有计算机指令，以在扩展的光学碱基识别过程期间执行对碱基识别质量的早期预测，所述扩展的光学碱基识别过程包括前预测碱基识别过程循环和至少两倍于前预测循环的后预测碱基识别过程循环，其中，每个碱基识别过程循环包括：(a)将额外的互补核苷酸附加到底物上数百万个位置处的靶核苷酸链的化学处理，(b)在所述底物的图像块上进行相机定位和图像配准，以及(c)在所述图像块上进行图像采集；所述指令在所述处理器上执行时实施操作，所述操作包括：

输出所述可能的总碱基识别质量，以供操作员评估。

17.根据权利要求16所述的系统，其中，在所述化学处理子系统性能时间序列中通过定相和预定相误差的估计来表示化学处理性能。

18.一种非暂时性的计算机可读介质，具有用于实施根据权利要求1至15中任一项所述的基于神经网络的碱基识别质量系统的早期预测的计算机可执行指令。

19.一种适于执行根据权利要求1至15中任一项所述的计算机实现的方法的在许多并行处理器上运行的计算机系统。