CN117501372A - 使用生物体序列训练的自学碱基检出器 - Google Patents

使用生物体序列训练的自学碱基检出器 Download PDF

Info

Publication number
CN117501372A
CN117501372A CN202280042700.XA CN202280042700A CN117501372A CN 117501372 A CN117501372 A CN 117501372A CN 202280042700 A CN202280042700 A CN 202280042700A CN 117501372 A CN117501372 A CN 117501372A
Authority
CN
China
Prior art keywords
base
sequence
training
detector
predicted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280042700.XA
Other languages
English (en)
Inventor
A·起亚
A·杜塔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inmair Ltd
Original Assignee
Inmair Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US17/830,316 external-priority patent/US20230026084A1/en
Application filed by Inmair Ltd filed Critical Inmair Ltd
Priority claimed from PCT/US2022/035567 external-priority patent/WO2023278609A1/en
Publication of CN117501372A publication Critical patent/CN117501372A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种渐进地训练碱基检出器的方法。该方法包括初始训练碱基检出器,并使用该初始训练的碱基检出器生成标记训练数据;以及(i)利用包含生物体碱基序列的分析物进一步训练该碱基检出器,并使用该进一步训练的碱基检出器生成标记训练数据。该方法包括通过重复步骤(i)进行N次迭代来迭代地进一步训练该碱基检出器,该方法包括利用包含第一生物体碱基序列的分析物进一步训练该碱基检出器进行这些N次迭代中的N1次迭代,以及利用包含第二生物体碱基序列的分析物进一步训练该碱基检出器进行这些N次迭代中的N2次迭代。在该碱基检出器中加载的神经网络配置的复杂性随着这些N次迭代单调地增加,并且在迭代期间生成的标记训练数据用于在紧接的后续迭代期间训练该碱基检出器。

Description

使用生物体序列训练的自学碱基检出器
优先权申请
本申请要求2022年6月1日提交的名称为“Self-Learned Base Caller,TrainedUsing Organism Sequences”的美国非临时专利申请号17/830,316(代理人案卷号ILLM1038-5/IP-2094-US)的优先权,该美国非临时专利申请继而又要求2021年6月29日提交的名称为“Self-Learned Base Caller,Trained Using Organism Sequences”的美国临时专利申请号63/216,404(代理人案卷号ILLM 1038-2/IP-2094-PRV)和2021年6月29日提交的名称为“Self-Learned Base Caller,Trained Using Oligo Sequences”的美国临时专利申请号63/216,419(代理人案卷号ILLM 1038-1/IP-2050-PRV)的优先权。据此优先权申请以引用方式并入以用于所有目的。
本申请要求2022年6月1日提交的名称为“Self-Learned Base Caller,TrainedUsing Oligo Sequences”的美国非临时专利申请号17/830,287(代理人案卷号ILLM 1038-3/IP-2050-US)的优先权,该美国非临时专利申请继而又要求2021年6月29日提交的名称为“Self-Learned Base Caller,Trained Using Oligo Sequences”的美国临时专利申请号63/216,419(代理人案卷号ILLM 1038-1/IP-2050-PRV)和2021年6月29日提交的名称为“Self-Learned Base Caller,Trained Using Organism Sequences”的美国临时专利申请号63/216,404(代理人案卷号ILLM 1038-2/IP-2094-PRV)的优先权。据此优先权申请以引用方式并入以用于所有目的。
技术领域
本发明所公开的技术涉及人工智能类型计算机和数字数据处理系统以及对应数据处理方法和用于仿真智能的产品(即,基于知识的系统、推断系统和知识采集系统);并且包括用于不确定性推断的系统(例如,模糊逻辑系统)、自适应系统、机器学习系统和人工神经网络。具体地,所公开的技术涉及将深度神经网络诸如深度卷积神经网络用于分析数据。
文献并入
以下文献以引用方式并入,即如同在本文完整示出一样:
同时提交的PCT专利申请,名称为“SELF-LEARNED BASE CALLER,TRAINED USINGOLIGO SEQUENCES”(代理人案卷号ILLM 1038-4/IP-2050-PCT);
2020年2月20日提交的名称为“ARTIFICIAL INTELLIGENCE-BASED BASE CALLINGOF INDEX SEQUENCES”的美国临时专利申请号62/979,384(代理人案卷号ILLM 1015-1/IP-1857-PRV);
2020年2月20日提交的名称为“ARTIFICIAL INTELLIGENCE-BASED MANY-TO-MANYBASE CALLING”的美国临时专利申请号62/979,414(代理人案卷号ILLM 1016-1/IP-1858-PRV);
2020年3月20日提交的名称为“TRAINING DATA GENERATION FOR ARTIFICIALINTELLIGENCE-BASED SEQUENCING”的美国非临时专利申请号16/825,987(代理人案卷号ILLM 1008-16/IP-1693-US);
2020年3月20日提交的名称为“ARTIFICIAL INTELLIGENCE-BASED GENERATION OFSEQUENCING METADATA”的美国非临时专利申请号16/825,991(代理人案卷号ILLM 1008-17/IP-1741-US);
2020年3月20日提交的名称为“ARTIFICIAL INTELLIGENCE-BASED BASE CALLING”的美国非临时专利申请号16/826,126(代理人案卷号ILLM 1008-18/IP-1744-US);
2020年3月20日提交的名称为“ARTIFICIAL INTELLIGENCE-BASED QUALITYSCORING”的美国非临时专利申请号16/826,134(代理人案卷号ILLM 1008-19/IP-1747-US);以及
2020年3月21日提交的名称为“ARTIFICIAL INTELLIGENCE-BASED SEQUENCING”的美国非临时专利申请号16/826,168(代理人案卷号ILLM 1008-20/IP-1752-PRV-US)。
背景技术
本部分中讨论的主题不应仅因为在本部分中有提及就被认为是现有技术。类似地,在本部分中提及的或与作为背景技术提供的主题相关联的问题不应被认为先前在现有技术中已被认识到。本部分中的主题仅表示不同的方法,这些方法本身也可对应于受权利要求书保护的技术的具体实施。
近年来,计算能力的快速提高使得深度卷积神经网络(CNN)在许多准确度显著提高的计算机视觉任务上取得了很大的成功。在推理阶段,许多应用需要以严格的功率消耗要求对一个图像进行低等待时间处理,这降低了图形处理单元(GPU)和其他通用平台的效率,通过定制专用于深度学习算法推理的数字电路,为特定的加速硬件(例如,现场可编程门阵列(FPGA))带来了机会。然而,由于大数据量、密集型计算、变化的算法结构和频繁的存储器访问,在便携式和嵌入式系统上部署CNN仍然具有挑战性。
由于卷积在CNN中贡献了大部分运算,因此卷积加速方案显著影响了硬件CNN加速器的效率和性能。卷积涉及具有沿内核和特征图滑动的四个循环级的乘法和累加(MAC)运算。第一循环级计算内核窗口内的像素的MAC。第二循环级跨不同的输入特征图累加MAC的乘积之和。在完成第一循环级和第二循环级之后,通过添加偏置来获得输出特征图中的最终的输出元素。第三循环级在输入特征图内滑动内核窗口。第四循环级生成不同的输出特征图。
FPGA由于其(1)高度可重构性,(2)与专用集成电路(ASIC)相比开发时间更快,以跟上CNN的快速发展,(3)良好的性能,以及(4)与GPU相比优越的能量效率,获得了越来越多的关注和普及,特别是在加速推理任务方面。FPGA的高性能和高效率可以通过合成针对特定计算定制的电路来实现,以利用定制的存储器系统直接处理数十亿次运算。例如,现代FPGA上的数百至数千个数字信号处理(DSP)块以高并行性支持核心卷积运算,例如乘法和加法。外部片上存储器和片上处理引擎(PE)之间的专用数据缓冲器可被设计成通过在FPGA芯片上配置数十兆字节的片上块随机存取存储器(BRAM)来实现优选的数据流。
需要高效的数据流和CNN加速的硬件架构来最小化数据通信,同时最大化资源利用来实现高性能。因此有机会设计出在具有高性能、高效率和高度灵活性的加速硬件上加速各种CNN算法的推理过程的方法和框架。
附图说明
在附图中,在所有不同视图中,类似的参考符号通常是指类似的部件。另外,附图未必按比例绘制,而是重点说明所公开的技术的原理。在以下描述中,参考以下附图描述了所公开的技术的各种具体实施,其中:
图1示出了可以在各种实施方案中使用的生物传感器的横截面。
图2示出了在其区块中包含簇的流通池的一个具体实施。
图3示出了具有八个槽道的示例性流通池,并且还示出了一个区块及其簇和它们的周围背景的放大视图。
图4是用于分析来自测序系统的传感器数据(诸如碱基检出传感器输出)的系统的简化框图。
图5是示出了碱基检出操作的方面的简化图,该方面包括由主机处理器执行的运行时程序的功能。
图6是可配置处理器(诸如,图4的可配置处理器)的配置的简化图。
图7是可使用如本文所述配置的可配置或可重构阵列执行的神经网络架构的图。
图8A是由如图7一样的神经网络架构使用的传感器数据的区块的组织的简化图示。
图8B是由如图7一样的神经网络架构使用的传感器数据的区块的补片的简化图示。
图9示出了可配置或可重构阵列(诸如现场可编程门阵列(FPGA))上的如图7一样的神经网络的配置的一部分。
图10是可使用如本文所述配置的可配置或可重构阵列执行的另一个另选的神经网络架构的图。
图11示出了基于神经网络的碱基检出器的专门化架构的一个具体实施,该基于神经网络的碱基检出器用于隔离对不同测序循环的数据的处理。
图12示出了隔离层的一个具体实施,每个隔离层可包括卷积。
图13A示出了组合层的一个具体实施,每个组合层可包括卷积。
图13B示出了组合层的另一个具体实施,每个组合层可包括卷积。
图14A示出了在单寡核苷酸训练阶段操作的碱基检出系统,以使用已知的合成寡核苷酸序列来训练包括神经网络配置的碱基检出器,并且图14A1示出了预测的碱基序列和对应的基准真值碱基序列之间的比较操作。
图14B示出了图14A的碱基检出系统的进一步细节,该碱基检出系统在单寡核苷酸训练阶段中操作,以使用已知的合成寡核苷酸序列来训练包括神经网络配置的碱基检出器。
图15A示出了图14A的碱基检出系统,该碱基检出系统在双寡核苷酸训练阶段的训练数据生成阶段中操作,以使用两个已知的合成序列生成标记训练数据。
图15B和图15C示出了相对于图15A讨论的双寡核苷酸序列的两个对应的示例选择。
图15D示出了示例映射操作,用于(i)将预测的碱基检出序列映射到第一寡核苷酸或第二寡核苷酸中的任一者,或者(ii)声明将预测的碱基检出序列映射到两个寡核苷酸中的任一者的不确定性。
图15E示出了从图15D的映射生成的标记训练数据,其中训练数据由图16A所示的另一个神经网络配置使用。
图16A示出了图14A的碱基检出系统,该碱基检出系统在双寡核苷酸训练阶段的训练数据消耗和训练阶段中操作,以使用两个已知的合成寡核苷酸序列来训练包括另一个神经网络配置(其不同于图14A的神经网络配置,并且相对于其更复杂)的碱基检出器。
图16B示出了图14A的碱基检出系统,该碱基检出系统在双寡核苷酸训练阶段的训练数据生成阶段的第二次迭代中操作。
图16C示出了从图16B所示的映射生成的标记训练数据,其中训练数据将用于进一步训练。
图16D示出了图14A的碱基检出系统,该碱基检出系统在“双寡核苷酸训练阶段”的“训练数据消耗和训练阶段”的第二次迭代中操作,以使用两个已知的合成寡核苷酸序列来训练包括图16A的神经网络配置的碱基检出器。
图17A示出了描绘用于使用单寡核苷酸和双寡核苷酸序列迭代地训练用于碱基检出的神经网络配置的示例方法的流程图。
图17B示出了在图17A的方法1700结束时由第P个NN配置生成的示例标记训练数据。
图18A示出了图14A的碱基检出系统,该碱基检出系统在“三寡核苷酸训练阶段”的“训练数据消耗和训练阶段”的第一次迭代中操作,以训练包括3-寡神经网络配置的碱基检出器。
图18B示出了图14A的碱基检出系统,该碱基检出系统在“三寡核苷酸训练阶段”的“训练数据生成阶段”中操作,以训练包括图18A的3-寡核苷酸神经网络配置的碱基检出器。
图18C示出了映射操作,用于(i)将预测的碱基检出序列映射到图18B的三个寡核苷酸中的任一者,或(ii)声明预测的碱基检出序列的映射是不确定的。
图18D示出了从图18C的映射生成的标记训练数据,其中训练数据用于训练另一个神经网络配置。
图18E示出了描绘用于使用3-寡核苷酸基准真值序列来迭代地训练用于碱基检出的神经网络配置的示例方法的流程图。
图19示出了描绘用于使用多寡寡核苷酸基准真值序列来迭代地训练用于碱基检出的神经网络配置的示例方法的流程图。
图20A示出了用于训练图14A的碱基检出器的生物体序列。
图20B示出了图14A的碱基检出系统,该碱基检出系统在第一生物体训练阶段的训练数据生成阶段中操作的,以使用图20A的第一生物体序列的各种子序列来训练包括第一生物体水平神经网络配置的碱基检出器。
图20C示出了衰落的示例,其中信号强度随着作为碱基检出操作的测序运行的循环数而降低。
图20D概念性地示出了随着测序循环进展而降低的信噪比。
图20E示出了子序列的L1数量的碱基中的前L2数量的碱基的碱基检出,其中子序列的前L2数量的碱基用于将子序列映射到图20A的生物体序列。
图20F示出了从图20E的映射生成的标记训练数据,其中标记训练数据包括作为基准真值的图20A的生物体序列的部分。
图20G示出了图14A的碱基检出系统,该碱基检出系统在“生物体水平训练阶段”的“训练数据消耗和训练阶段”中操作,以训练包括第一生物体水平神经网络配置的碱基检出器。
图21示出了描绘用于使用图20A的简单生物体序列迭代地训练用于碱基检出的神经网络配置的示例方法的流程图。
图22示出了用于训练图14A的碱基检出器的对应的NN配置的复杂生物体序列的使用。
图23A示出了描绘用于迭代地训练用于碱基检出的神经网络配置的示例方法的流程图,并且图23B至图23E示出了示出本公开中讨论的碱基检出器训练过程的有效性的各种图表。
图24是根据一个具体实施的碱基检出系统的框图。
图25是可在图24的系统中使用的系统控制器的框图。
图26是可用于实施所公开的技术的计算机系统的简化框图。
具体实施方式
如本文所用,术语“多核苷酸”或“核酸”指脱氧核糖核酸(DNA),但是在适当的情况下,技术人员将认识到本文的系统和装置也可以应用于核糖核酸(RNA)。应理解,该术语包括作为等同物的由核苷酸类似物形成的DNA或RNA的类似物。如本文所用,术语还涵盖cDNA,即由RNA模板例如通过逆转录酶的作用产生的互补DNA或拷贝DNA。
由本文的系统和装置测序的单链多核苷酸分子可以单链形式起源,如DNA或RNA,或以双链DNA(dsDNA)形式起源(例如,基因组DNA片段、PCR和扩增产物等)。因此,单链多核苷酸可以是多核苷酸双螺旋的有义链或反义链。使用标准技术制备适用于本公开的方法中的单链多核苷酸分子的方法是本领域公知的。初级多核苷酸分子的精确序列通常对本公开并不重要,并且可以是已知的或未知的。单链多核苷酸分子可以表示基因组DNA分子(例如,人的基因组DNA),该基因组DNA分子包括内含子和外显子序列(编码序列),还有非编码调控序列,诸如,启动子和增强子序列。
在某些实施方案中,将通过使用本公开进行测序的核酸固定在基板(例如,流通池内的基板或基板诸如流通池上的一个或多个小珠等)上。除非另有说明或通过上下文明确指示,否则如本文所用的术语“固定”旨在涵盖直接或间接的、共价或非共价结合。在某些实施方案中,可优选共价附接,但一般来讲全部所需的是分子(例如,核酸)在旨在使用载体的条件下(例如,在需要核酸测序的应用中)保持固定或附接到载体。
如本文所用,术语“固体载体”(或在某些使用中为“基板”)是指核酸可附着到其上的任何惰性基板或基质,诸如例如玻璃表面、塑料表面、胶乳、葡聚糖、聚苯乙烯表面、聚丙烯表面、聚丙烯酰胺凝胶、金表面和硅晶片。在许多实施方案中,固体载体是玻璃表面(例如,流通池通道的平坦表面)。在某些实施方案中,固体载体可包括已经被“官能化”的惰性基板或基质,例如通过施加中间材料的层或涂层,该中间材料包括允许共价附着到分子诸如多核苷酸的反应性基团。作为非限制性示例,此类载体可包括负载在惰性基板诸如玻璃上的聚丙烯酰胺水凝胶。在此类实施方案中,分子(多核苷酸)可直接共价附接到中间材料(例如,水凝胶),但该中间材料本身可非共价附接到基板或基质(例如,玻璃基板)。共价附接到固体载体应相应地被解释为涵盖这种类型的布置。
如上所指出的那样,本公开包括用于对核酸进行测序的新型系统和装置。对本领域技术人员显而易见的是,根据上下文,本文对特定核酸序列的引用也可指包含这种核酸序列的核酸分子。对靶片段进行测序意味着建立了对碱基的时间顺序的读段。所读取的碱基不需要是连续的,尽管这是优选的,但在测序期间也不必对整个片段上的每个碱基进行测序。可使用任何合适的测序技术进行测序,其中核苷酸或寡核苷酸连续添加到游离3'羟基基团上,从而导致在5'至3'方向上合成多核苷酸链。优选地在每次核苷酸添加之后确定添加的核苷酸的性质。使用边连接边测序的测序技术(其中不是每个连续碱基都被测序)和技术诸如大规模平行签名测序(MPSS)(其中碱基从表面上的链移除而不是添加到表面上的链)也适用于本公开的系统和装置。
在某些实施方案中,本公开公开了边合成边测序(SBS)。在SBS中,使用四个荧光标记的经修饰核苷酸来对存在于基板(例如,流通池)的表面上的扩增的DNA的密集簇(可能数百万簇)进行测序。在例如WO04018497、WO04018493和美国专利号7,057,026(核苷酸)、WO05024010和WO06120433(聚合酶)、WO05065814(表面附着技术)以及WO 9844151、WO06064199和WO07010251中公开了可与本文的系统和装置一起利用的关于SBS程序和方法的各种另外的方面,这些专利中的每一者的内容以引用方式整体并入本文。
在本文的系统/装置的特定用途中,将含有用于测序的核酸样品的流通池放置在合适的流通池保持器内。用于测序的样品可采取单分子形式、簇形式的扩增的单分子形式或包含核酸的分子的小珠的形式。核酸被制备成使得它们包括与未知靶序列相邻的寡核苷酸引物。为了启动第一SBS测序循环,一种或多种不同的标记核苷酸和DNA聚合酶等通过流体流动子系统流入/流过流通池(本文描述了其各种实施方案)。一次可添加单个核苷酸,或者可将测序过程中所用的核苷酸特别地设计成具有可逆终止属性,从而使得测序反应的每个循环在存在所有四个标记核苷酸(A、C、T、G)的情况下同时发生。在将四种核苷酸混合在一起的情况下,聚合酶能够选择要掺入的正确碱基,并且每个序列通过单个碱基延伸。在使用该系统的此类方法中,所有四种选择之间的天然竞争导致比其中仅一种核苷酸存在于反应混合物中(其中大多数序列因此不暴露于正确的核苷酸)更高的准确度。一个接一个重复特定碱基的序列(例如,同聚物)像任何其他序列一样被寻址并且具有高准确度。
流体流动子系统还使合适的试剂流动以从每个掺入的碱基去除封闭的3'末端(如果合适的话)和荧光团。基板可暴露于四个封闭核苷酸的第二轮,或者任选地暴露于具有不同单个核苷酸的第二轮。然后重复此类循环,并且在该多个化学循环中读取每个簇的序列。本公开的计算机方面可任选地对准从每个单分子、簇或小珠收集的序列数据以确定较长聚合物的序列等。另选地,图像处理和对准可在单独的计算机上进行。
该系统的加热/冷却部件调节流通池通道和试剂储存区域/容器(以及任选地相机、光学器件和/或其他部件)内的反应条件,同时流体流动部件允许基板表面暴露于用于掺入的合适试剂(例如,待掺入的适当荧光标记的核苷酸),同时未掺入的试剂被冲洗掉。流通池放置在其上的任选的可移动台允许流通池进入用于基板的激光(或其他光)激发的适当取向,并且任选地相对于透镜物镜移动以允许读取基板的不同区域。另外,该系统的其他部件也可任选地是可移动/可调节的(例如,相机、透镜物镜、加热器/冷却器等)。在激光激发期间,来自核酸的发射荧光在基板上的图像/位置由相机部件捕获,从而在计算机部件中记录每个单分子、簇或小珠的第一碱基的身份。
本文所述的实施方案可用于学术或商业分析的各种生物过程和系统或化学过程和系统。更具体地,本文所述的实施方案可用于期望检测指示所需反应的事件、属性、质量或特征的各种过程和系统中。例如,本文所述的实施方案包括盒、生物传感器和它们的部件,以及与盒和生物传感器一起操作的生物测定系统。在特定实施方案中,盒和生物传感器包括流通池和一个或多个传感器、像素、光检测器或光电二极管,它们在基本上单一结构中耦接在一起。
当结合以下附图阅读时,将更好地理解某些实施方案的以下详细描述。就附图例示了各种实施方案的功能块的图而言,功能块不一定指示硬件电路之间的划分。因此,例如,功能块中的一个或多个功能块(例如,处理器或存储器)可在单片硬件(例如,通用信号处理器或随机存取存储器、硬盘等)中实施。类似地,程序可以是独立式程序,可作为子例程并入操作系统中,可以是所安装的软件包中的功能等。应理解,各种实施方案不限于附图中所示的布置和手段。
如本文所用,以单数形式叙述且前面带有词语“一个”或“一种”的元件或步骤应当理解为不排除多个所述元件或步骤,除非明确地指明此类排除。此外,对“一个实施方案”的引用并非旨在被解释为排除同样并入所叙述特征的附加实施方案的存在。此外,除非有相反的明确说明,否则“包括(comprising)”或“具有”或“包括(including)”具有特定属性的一个或多个元件的实施方案可包括附加元件,无论它们是否具有该属性。
如本文所用,“所需反应”包括感兴趣的分析物的化学属性、电属性、物理属性或光学属性(或质量)中的至少一者的变化。在特定实施方案中,所需反应是阳性结合事件(例如,荧光标记的生物分子与感兴趣的分析物结合)。更一般地,所需反应可以是化学转化、化学变化或化学相互作用。所需反应也可为电属性的变化。例如,所需反应可以是溶液内离子浓度的变化。示例性反应包括但不限于化学反应,诸如还原、氧化、添加、消除、重排、酯化、酰胺化、醚化、环化或取代;第一化学物质与第二种化学物质结合的结合相互作用;两个或更多个化学物质彼此分离的解离反应;荧光;发光;生物发光;化学发光;和生物反应,诸如核酸复制、核酸扩增、核酸杂交、核酸连接、磷酸化、酶催化、受体结合或配体结合。所需反应还可以是质子的添加或消除,例如,可检测为周围溶液或环境的pH变化。附加所需反应可以是检测跨膜(例如,天然或合成双层膜)的离子流,例如,当离子流过膜时,电流被中断,并且该中断可被检测到。
在特定实施方案中,所需反应包括将荧光标记的分子与分析物结合。分析物可为寡核苷酸,并且荧光标记的分子可为核苷酸。当激发光被导向具有标记核苷酸的寡核苷酸,并且荧光团发出可检测的荧光信号时,可检测到所需反应。在另选的实施方案中,检测到的荧光是化学发光或生物发光的结果。所需反应还可例如通过使供体荧光团接近受体荧光团来增加荧光(或)共振能量转移(FRET),通过分离供体荧光团和受体荧光团来降低FRET,通过分离淬灭基团与荧光团来增加荧光,或通过共定位淬灭基团和荧光团来减少荧光。
如本文所用,“反应组分”或“反应物”包括可用于获得所需反应的任何物质。例如,反应组分包括试剂、酶、样品、其他生物分子和缓冲液。可将反应组分通常被递送至溶液中的反应位点和/或固定在反应位点处。反应组分可直接或间接地与另一种物质相互作用,诸如感兴趣的分析物。
如本文所用,术语“反应位点”是可发生所需反应的局部区域。反应位点可包括其上可固定物质的基板的支撑表面。例如,反应位点可包括流通池的通道中的基本上平面的表面,该表面上具有核酸群体。通常,但并不总是如此,群体中的核酸具有相同的序列,例如为单链或双链模板的克隆拷贝。然而,在一些实施方案中,反应位点可仅包含单个核酸分子,例如单链或双链形式。此外,多个反应位点可沿着支撑表面不均匀分布或以预定方式布置(例如,在矩阵中并排布置,诸如在微阵列中)。反应位点还可包括反应室(或孔),其至少部分地限定了被配置为分隔所需反应的空间区域或体积。
本申请可互换地使用术语“反应室”和“孔”。如本文所用,术语“反应室”或“孔”包括与流动通道流体连通的空间区域。反应室可至少部分地与周围环境或其他空间区域隔开。例如,多个反应室可通过共用壁彼此隔开。作为更具体的示例,反应室可包括由孔的内表面限定的腔,并且可具有开口或孔隙,使得该腔可与流动通道流体连通。包括此类反应室的生物传感器在2011年10月20日提交的国际申请号PCT/US2011/057111中有更详细的描述,该专利全文以引用方式并入本文。
在一些实施方案中,反应室的尺寸和形状相对于固体(包括半固体)被设定成使得固体可完全或部分地插入其中。例如,反应室的尺寸和形状可被设定成仅容纳一个捕获小珠。该捕获小珠可在其上具有克隆扩增的DNA或其他物质。另选地,反应室的尺寸和形状可被设定成接纳大约数量的小珠或固体基板。又如,反应室还可填充有多孔凝胶或物质,该多孔凝胶或物质被配置为控制扩散或过滤可流入反应室的流体。
在一些实施方案中,传感器(例如,光检测器、光电二极管)与生物传感器的样品表面的对应像素区域相关联。因此,像素区域是表示一个传感器(或像素)在生物传感器样品表面上的区域的几何构造。当在覆盖相关联的像素区域的反应位置或反应室发生所需反应时,与像素区域相关联的传感器检测从相关联的像素区域收集的光发射。在平坦表面实施方案中,像素区域可重叠。在一些情况下,多个传感器可与单个反应位点或单个反应室相关联。在其他情况下,单个传感器可与一组反应位点或一组反应室相关联。
如本文所用,“生物传感器”包括具有多个反应位点和/或反应室(或孔)的结构。生物传感器可包括固态成像设备(例如,CCD或CMOS成像器件)以及任选地安装到其上的流通池。流通池可包括与反应位点和/或反应室流体连通的至少一个流动通道。作为一个具体示例,生物传感器被配置为流体耦接和电耦接到生物测定系统。生物测定系统可根据预定方案(例如,边合成边测序)将反应物递送到反应位点和/或反应室,并执行多个成像事件。例如,生物测定系统可引导溶液沿着反应位点和/或反应室流动。溶液中的至少一种溶液可包括四种类型的具有相同或不同荧光标记的核苷酸。核苷酸可与位于反应位点和/或反应室的对应寡核苷酸结合。然后,生物测定系统可使用激发光源(例如,固态光源,诸如发光二极管(LED))照亮反应位点和/或反应室。激发光可具有预定的一个或多个波长,包括一个波长范围。所激发的荧光标签提供可被传感器捕获的发射信号。
在另选的实施方案中,生物传感器可包括被配置为检测其他可识别属性的电极或其他类型的传感器。例如,传感器可被配置为检测离子浓度的变化。在另一个示例中,传感器可被配置为检测跨膜的离子电流。
如本文所用,“簇”是相似或相同的分子或核苷酸序列或DNA链的群体。例如,簇可以是扩增的寡核苷酸或具有相同或相似序列的任何其他组的多核苷酸或多肽。在其他实施方案中,簇可为占据样品表面上的物理区域的任何元素或元素组。在实施方案中,在碱基检出循环期间,簇被固定到反应位点和/或反应室。
如本文所用,当关于生物分子或生物或化学物质使用时,术语“固定的”包括在分子水平上基本上将生物分子或生物或化学物质附着到表面。例如,可使用吸附技术将生物分子或生物或化学物质固定到基板材料的表面,这些吸附技术包括非共价相互作用(例如,静电力、范德华力以及疏水界面的脱水)和共价结合技术,其中官能团或接头有利于将生物分子附着到表面。将生物分子或生物或化学物质固定到基板材料的表面可基于基板表面的属性、携带生物分子或生物或化学物质的液体介质以及生物分子或生物或化学物质本身的属性。在一些情况下,基板表面可被官能化(例如,化学或物理改性),以有利于将生物分子(或生物或化学物质)固定到基板表面。可首先对基板表面进行改性,使官能团结合到表面。然后,官能团可结合到生物分子或生物或化学物质,以将其固定在其上。可经由凝胶将物质固定在表面,例如,如美国专利公布US2011/0059865 A1,该专利以引用方式并入本文。
在一些实施方案中,核酸可附着到表面,并使用桥式扩增进行扩增。有用的桥式扩增方法描述于,例如,美国专利5,641,658;WO 2007/010251;美国专利6,090,592;美国专利公布2002/0055100 A1;美国专利7,115,400;美国专利公布2004/0096853 A1;美国专利公布2004/0002090 A1;美国专利公布2007/0128624A1;和美国专利公布2008/0009420 A1,这些专利中的每一篇均全文并入本文。另一种用于在表面上扩增核酸的有用方法是滚环扩增(RCA),例如,使用下面进一步详细阐述的方法。在一些实施方案中,核酸可附着到表面,并使用一个或多个引物对进行扩增。例如,引物中的一个引物可在溶液中,并且另一个引物可固定在表面上(例如,5’-附着)。通过举例的方式,核酸分子可与表面上的引物中的一个引物杂交,之后延伸固定的引物以产生核酸的第一拷贝。然后溶液中的引物与核酸的第一拷贝杂交,该第一拷贝可用核酸的第一拷贝作为模板进行延伸。任选地,在产生核酸的第一拷贝后,原始核酸分子可与表面上的第二固定引物杂交,并且可在溶液中的引物延伸的同时或之后延伸。在任何实施方案中,使用固定的引物和溶液中的引物的重复一轮的循环(例如,扩增)提供了核酸的多个拷贝。
在特定实施方案中,由本文所述的系统和方法执行的测定协议包括使用天然核苷酸以及被配置为与天然核苷酸相互作用的酶。天然核苷酸包括例如,核糖核苷酸(RNA)或脱氧核糖核苷酸(DNA)。天然核苷酸可为单磷酸盐、二磷酸盐或三磷酸盐形式,并且可具有选自腺嘌呤(A)、胸腺嘧啶(T)、尿嘧啶(U)、鸟嘌呤(G)或胞嘧啶(C)的碱基。然而,应当理解,可使用非天然核苷酸、经修饰的核苷酸或前述核苷酸的类似物。关于通过合成方法进行的基于可逆终止子的测序,下面列出了有用的非天然核苷酸的一些示例。
在包括反应室的实施方案中,物品或固体物质(包括半固体物质)可设置在反应室内。当被设置时,物品或固体可通过过盈配合、粘附或截留被物理地保持或固定在反应室内。可设置在反应室内的示例性物品或固体包括聚合物小珠、微丸、琼脂糖凝胶、粉末、量子点或可被压缩和/或保持在反应室内的其他固体。在特定实施方案中,核酸超结构(诸如DNA球)可例如通过附着至反应室的内表面或通过停留在反应室内的液体中而设置在反应室中或反应室处。可进行DNA球或其他核酸超结构,然后将其设置在反应室中或反应室处。另选地,DNA球可在反应室处原位合成。可以通过滚环扩增来合成DNA球,以产生特定核酸序列的多联体,并且可用形成相对紧凑的球的条件来处理多联体。DNA球及其合成方法在例如美国专利公布2008/0242560 A1或2008/0234136 A1中有所描述,这些专利中的每一篇均全文并入本文。保持或设置在反应室中的物质可以是固态、液态或气态。
如本文所用,“碱基检出”识别核酸序列中的核苷酸碱基。碱基检出是指在具体循环针对每个簇确定碱基检出(A,C,G,T)的过程。作为示例,可利用美国专利申请公布2013/0079232的合并材料中描述的四通道方法和系统、双通道方法和系统或一通道方法和系统来执行碱基检出。在特定实施方案中,碱基检出循环被称为“采样事件”。在一种染料和双通道测序协议中,采样事件包括时间序列中的两个照明阶段,使得像素信号在每个阶段处生成。第一照明阶段诱导来自指示AT像素信号中核苷酸碱基A和T的给定簇的照明,并且第二照明阶段诱导来自指示CT像素信号中核苷酸碱基C和T的给定簇的照明。
所公开的技术(例如,所公开的碱基检出器)可在处理器如中央处理单元(CPU)、图形处理单元(GPU)、现场可编程门阵列(FPGA)、粗粒度可重构架构(CGRA)、专用集成电路(ASIC)、专用指令集处理器(ASIP)和数字信号处理器(DSP)上实施。
生物传感器
图1示出了可以在各种实施方案中使用的生物传感器100的横截面。生物传感器100具有像素区域106'、108'、110'、112'和114',这些像素区域可各自在碱基检出循环期间保持多于一个簇(例如,每像素区域2个簇)。如图所示,生物传感器100可包括安装到采样设备104上的流通池102。在例示的实施方案中,流通池102直接附连到采样设备104。然而,在另选的实施方案中,流通池102可以可移除地耦接到采样设备104。采样设备104具有可被官能化的样品表面134(例如,以适合进行期望反应的方式进行化学或物理改性)。例如,样品表面134可被官能化并且可包括多个像素区域106'、108'、110'、112'和114',该多个像素区域可各自在碱基检出循环期间保持多于一个簇(例如,每个像素区域具有对应的簇对106A、106B;108A、108B;110A、110B;112A、112B;和114A、114B固定在其上)。每个像素区域与对应的传感器(或像素或光电二极管)106、108、110、112和114相关联,使得由像素区域接收的光由对应的传感器捕获。像素区域106'也可以与样品表面134上保持簇对的对应反应位点106”相关联,使得从反应位点106”发射的光由像素区域106'接收并且由对应的传感器106捕获。由于这种感测结构,在以下情况下,该碱基检出循环中的像素信号携带基于该两个或更多个簇中的所有簇的信息:其中在碱基检出循环期间,在特定传感器的像素区域中存在两个或更多个簇(例如,每个像素区域具有对应的簇对)。因此,如本文所述的信号处理用于区分每个簇,其中在特定碱基检出循环的给定采样事件中存在比像素信号更多的簇。
在例示的实施方案中,流通池102包括侧壁138、125和由侧壁138、125支撑的流罩136。侧壁138、125耦接到样品表面134并且在流罩136与侧壁138、125之间延伸。在一些实施方案中,侧壁138、125由可固化粘合剂层形成,该可固化粘合剂层将流罩136粘结到采样设备104。
侧壁138、125的尺寸和形状被设定成使得流动通道144存在于流罩136与采样设备104之间。流罩136可包括对从生物传感器100的外部传播到流动通道144中的激发光101透明的材料。在示例中,激发光101以非正交角度接近流罩136。
另外如图所示,流罩136可包括入口端口和出口端口142、146,该入口端口和出口端口被配置为流体地接合其他端口(未示出)。例如,其他端口可来自卡盒或工作站。流动通道144的尺寸和形状被设定成沿样品表面134引导流体。流动通道144的高度H1和其他尺寸可被配置为维持流体沿样品表面134的基本上均匀的流动。流动通道144的尺寸也可被配置为控制气泡形成。
以举例的方式,流罩136(或流通池102)可包括透明材料,诸如玻璃或塑料。流罩136可构成具有平面外表面和限定流动通道144的平面内表面的基本上矩形的块。该块可安装到侧壁138、125上。另选地,可蚀刻流通池102以限定流罩136和侧壁138、125。例如,可以将凹槽蚀刻到透明材料中。当蚀刻材料安装到采样设备104时,凹槽可变成流动通道144。
采样设备104可类似于例如包括多个堆叠的基板层120至126的集成电路。基板层120至126可包括基底基板120、固态成像器件122(例如,CMOS图像传感器)、滤波器或光控制层124和钝化层126。应当注意,以上仅是说明性的,并且其他实施方案可包括更少层或附加层。此外,基板层120至126中的每个层可包括多个子层。采样设备104可使用类似于制造集成电路(诸如CMOS图像传感器和CCD)中使用的工艺来制造。例如,基板层120至126或其部分可被生长、沉积、蚀刻等以形成采样设备104。
钝化层126被配置为使滤波器层124屏蔽流动通道144的流体环境。在一些情况下,钝化层126还被配置为提供允许生物分子或其他感兴趣分析物固定在其上的固体表面(即,样品表面134)。例如,每个反应位点可包括固定到样品表面134的生物分子的簇。因此,钝化层126可以由允许反应位点固定到其上的材料形成。钝化层126还可包括至少对期望荧光透明的材料。以举例的方式,钝化层126可包含氮化硅(Si2N4)和/或二氧化硅(SiO2)。然而,可使用其他合适的材料。在例示的实施方案中,钝化层126可以是基本上平面的。然而,在另选的实施方案中,钝化层126可包括凹槽,诸如凹坑、孔、槽等。在例示的实施方案中,钝化层126具有约150nm至200nm,并且更具体地约170nm的厚度。
滤波器层124可包括影响光的透射的各种特征。在一些实施方案中,滤波器层124可执行多个功能。例如,滤波器层124可被配置为(a)过滤不想要的光信号,诸如来自激发光源的光信号;(b)将来自反应位点的发射信号导向对应的传感器106、108、110、112和114,这些传感器被配置为检测来自反应位点的发射信号;或(c)阻止或防止检测到来自邻近反应位点的不想要的发射信号。因此,滤波器层124也可称为光控制层。在例示的实施方案中,滤波器层124具有约1μm至5μm,更具体地约2μm至4μm的厚度。在另选的实施方案中,滤波器层124可包括微透镜或其他光学元件的阵列。每个微透镜可被配置为将发射信号从相关联的反应位点引导到传感器。
在一些实施方案中,固态成像器件122和基底基板120可作为先前构造的固态成像设备(例如,CMOS芯片)一起提供。例如,基底基板120可以是硅晶片,并且固态成像器件122可安装在其上。固态成像器件122包括半导体材料(例如,硅)层和传感器106、108、110、112和114。在例示的实施方案中,传感器是被配置为检测光的光电二极管。在其他实施方案中,传感器包括光检测器。固态成像器件122可通过基于CMOS的制造工艺制造为单个芯片。
固态成像器件122可包括传感器106、108、110、112和114的密集阵列,这些传感器被配置为检测指示来自流动通道144内或沿该流动通道的期望反应的活动。在一些实施方案中,每个传感器具有约1平方微米至2平方微米(μm2)的像素区域(或检测区域)。阵列可包括五十万个传感器、五百万个传感器、一千万个传感器或甚至一亿两千万个传感器。传感器106、108、110、112和114可被配置为检测指示期望反应的预先确定的波长的光。
在一些实施方案中,采样设备104包括微电路布置,诸如美国专利号7,595,882中描述的微电路布置,该美国专利以引用方式整体并入本文。更具体地,采样设备104可包括具有传感器106、108、110、112和114的平面阵列的集成电路。在采样设备104内形成的电路可被配置用于信号放大、数字化、存储和处理中的至少一者。电路可收集和分析检测到的荧光并生成用于将检测数据传送到信号处理器的像素信号(或检测信号)。电路还可以在采样设备104中执行附加的模拟和/或数字信号处理。采样设备104可包括导电通孔130,这些导电通孔执行信号路由(例如,将像素信号传输到信号处理器)。像素信号也可通过采样设备104的电触点132传输。
相对于2020年5月14日提交的名称为“Systems and Devices forCharacterization and Performance Analysis of Pixel-Based Sequencing”的美国非临时专利申请号16/874,599(代理人案卷号ILLM 1011-4/IP-1750-US)进一步详细讨论了采样设备104,该专利申请以引用方式并入本文,如同在本文中完全阐述一样。采样设备104不限于如上所述的上述构造或用途。在另选的实施方案中,采样设备104可采取其他形式。例如,采样设备104可包括CCD设备(诸如CCD相机),其耦接到流通池或移动以与其中具有反应位点的流通池交互。
图2示出了在其区块中包含簇的流通池200的一个具体实施。流通池200对应于图1的流通池102,例如,没有流罩136。此外,流通池200的描绘在性质上是象征性的,并且流通池200象征性地描绘了其内的各种槽道和区块,而未示出其内的各种其他部件。图2示出了流通池200的顶视图。
在一个实施方案中,流通池200被划分或分区为多个槽道,诸如槽道202a、202b、…、202P,即,P个槽道。在图2的示例中,流通池200被示出为包括8个槽道,即,在该示例中,P=8,但是流通池内的槽道的数量是具体实施特定的。
在一个实施方案中,各个槽道202被进一步分区为被称为“区块”212的非重叠区域。例如,图2示出了示例性槽道的区段208的放大视图。区段208被示出为包括多个区块212。
在示例中,每个槽道202包括一个或多个区块列。例如,在图2中,每个槽道202包括两个对应的区块列212,如放大区段208内所示。每个槽道内的每个区块列中的区块数量是具体实施特定的,并且在一个示例中,每个槽道内的每个区块列中可存在50个区块、60个区块、100个区块或另一适当数量的区块。
每个区块包括对应的多个簇。在测序过程中,对区块上的簇及其周围背景进行成像。例如,图2示出了示例区块内的示例簇216。
图3示出了具有八个槽道的示例性Illumina GA-IIxTM流通池,并且还示出了一个区块及其簇和它们的周围背景的放大视图。例如,Illumina基因组分析仪II中的每个槽道有一百个区块,Illumina HiSeq2000中的每个槽道有六十八个区块。区块212容纳数十万至数百万的簇。在图3中,在308处(例如,308是区块的放大图像视图)示出了从具有示出为亮点的簇的区块生成的图像,其中标记了示例性簇304。簇304包括模板分子的大约一千个相同副本,但簇的尺寸和形状不同。在测序运行之前,通过对输入文库进行桥式扩增,由模板分子生成簇。扩增和簇生长的目的是增加发射信号的强度,因为成像设备不能可靠地感测单个荧光团。然而,簇304内的DNA片段的物理距离较小,因此成像设备将片段的簇感知为单个点304。
相对于2020年3月20日提交的名称为“TRAINING DATA GENERATION FORARTIFICIAL INTELLIGENCE-BASED SEQUENCING”的美国非临时专利申请号16/825,987(代理人案卷号ILLM 1008-16/IP-1693-US)进一步详细讨论了簇和区块。
图4是用于分析来自测序系统的传感器数据(诸如碱基检出传感器输出(例如,参见图1))的系统的简化框图。在图4的示例中,系统包括测序机器400和可配置处理器450。可配置处理器450可以与由主机处理器(诸如中央处理单元(CPU)402)执行的运行时程序协调地执行基于神经网络的碱基检出器。测序机器400包括碱基检出传感器和流通池401(例如,相对于图1至图3所讨论的)。流通池可包括一个或多个区块,其中遗传物质的簇暴露于分析物流的序列,该分析物流的序列用于引起簇中的反应以识别遗传物质中的碱基,如相对于图1至图3所讨论的。传感器感测流通池的每个区块中该序列的每个循环的反应以提供区块数据。下文更详细地描述了该技术的示例。遗传测序是数据密集型操作,其将碱基检出传感器数据转换为在碱基检出操作期间感测到的遗传物质的每个簇的碱基检出序列。
该示例中的系统包括执行运行时程序以协调碱基检出操作的CPU 402、用于存储区块数据阵列的序列的存储器403、由碱基检出操作产生的碱基检出读段以及碱基检出操作中使用的其他信息。另外,在该图示中,系统包括用于储存一个配置文件(或多个文件)诸如FPGA位文件的存储器404和用于配置和重新配置可配置处理器450并且执行神经网络的神经网络的模型参数。测序机器400可包括用于配置可配置处理器以及在一些实施方案中的可重构处理器的程序,以执行神经网络。
测序机器400通过总线405耦接到可配置处理器450。总线405可使用高通量技术来实现,诸如在一个示例中,总线技术与当前由PCI-SIG(PCI特别兴趣小组)维护和开发的PCIe标准(快速外围组件互连)兼容。另外,在该示例中,存储器460通过总线461耦接到可配置处理器450。存储器460可以是设置在具有可配置处理器450的电路板上的板载存储器。存储器460用于由可配置处理器450高速访问在碱基检出操作中使用的工作数据。总线461还可使用高通量技术诸如与PCIe标准兼容的总线技术来实现。
可配置处理器,包括现场可编程门阵列(FPGA)、粗粒度可重构阵列(CGRA)以及其他可配置和可重构的设备,可被配置为比使用执行计算机程序的通用处理器可能实现的更有效或更快地实现各种功能。可配置处理器的配置涉及编译功能描述以产生有时称为位流或位文件的配置文件,以及将配置文件分发到处理器上的可配置元件。
该配置文件通过将电路配置为设置数据流模式、分布式存储器和其他片上存储器资源的使用、查找表内容、可配置逻辑块和可配置执行单元(如乘法累加单元、可配置互连和可配置阵列的其他元件)的操作,来定义要由可配置处理器执行的逻辑功能。如果配置文件可在现场通过改变加载的配置文件而改变,则可配置处理器是可重构的。例如,配置文件可存储在易失性SRAM元件中、非易失性读写存储器元件中以及它们的组合中,分布在可配置或可重构处理器上的可配置元件阵列中。多种可商购获得的可配置处理器适用于如本文所述的碱基检出操作。示例包括可商购获得的产品,诸如Xilinx AlveoTMU200、XilinxAlveoTMU250、Xilinx AlveoTMU280、Intel/Altera StratixTMGX2800、Intel/AlteraStratixTMGX2800和Intel StratixTMGX10M。在一些示例中,主机CPU可在与可配置处理器相同的集成电路上实现。
本文所述的实施方案使用可配置处理器450实现多循环神经网络。可配置处理器的配置文件可通过使用高级描述语言(HDL)或寄存器传输级(RTL)语言规范指定要执行的逻辑功能来实现。可使用被设计用于所选择的可配置处理器的资源来编译规范以生成配置文件。为了生成可能不是可配置处理器的专用集成电路的设计,可编译相同或相似的规范。
因此,在本文所述的所有实施方案中,可配置处理器的另选方案包括配置的处理器,该配置的处理器包括专用ASIC或专用集成电路或集成电路组,或片上系统(SOC)器件,该配置的处理器被配置为执行如本文所述的基于神经网络的碱基检出操作。
一般来讲,如被配置为执行神经网络的运行的本文所述的可配置处理器和配置的处理器在本文中称为神经网络处理器。
在该示例中,可配置处理器450通过使用由CPU 402或其他源执行的程序加载的配置文件进行配置,该配置文件配置可配置处理器454上的可配置元件的阵列以执行碱基检出功能。在该示例中,该配置包括数据流逻辑451,该数据流逻辑耦接到总线405和总线461,并且执行用于在碱基检出操作中使用的元件之间分发数据和控制参数的功能。
另外,可配置处理器450配置有碱基检出执行逻辑452以执行多循环神经网络。逻辑452包括多个多循环执行簇(例如,453),在该示例中,该多个多循环执行簇包括多循环簇1至多循环簇X。可根据涉及操作的所需通量和可配置处理器上的可用资源的权衡来选择多循环簇的数量。
多循环簇通过使用可配置处理器上的可配置互连和存储器资源实现的数据流路径454耦接到数据流逻辑451。另外,多循环簇通过使用例如可配置处理器上的可配置互连和存储器资源实现的控制路径455耦接到数据流逻辑451,这些控制路径提供指示可用簇、准备好向可用簇提供用于执行神经网络的运行的输入单元、准备好提供用于神经网络的经训练参数、准备好提供碱基检出分类数据的输出补片的控制信号,以及用于执行神经网络的其他控制数据。
可配置处理器被配置为使用经训练参数来执行多循环神经网络的运行,以产生碱基流操作的感测循环的分类数据。执行神经网络的运行以产生用于碱基检出操作的受试者感测循环的分类数据。神经网络的运行对序列(包括来自N个感测循环中的相应感测循环的区块数据的数字N个阵列)进行操作,其中N个感测循环在本文所述示例中针对时间序列中每个操作的一个碱基位置提供用于不同碱基检出操作的传感器数据。任选地,如果需要,根据正在执行的特定神经网络模型,N个感测循环中的一些可能会失序。数字N可以是大于1的任何数字。在本文所述的一些示例中,N个感测循环中的感测循环表示时间序列中受试者感测循环之前的至少一个感测循环和受试者循环(subject cycle)之后的至少一个感测循环的一组感测循环。本文描述了其中数字N为等于或大于五的整数的示例。
数据流逻辑451被配置为使用用于给定运行的输入单元(包括N个阵列的空间对准补片的区块数据)将区块数据和模型的至少一些经训练参数从存储器460移动到用于神经网络的运行的可配置处理器。输入单元可通过一个DMA操作中的直接存储器存取操作来移动,或者在可用时隙期间与所部署的神经网络的执行相协调地移动的较小单元中移动。
如本文所述的用于感测循环的区块数据可包括具有一个或多个特征的传感器数据阵列。例如,传感器数据可包括两个图像,对这两个图像进行分析以识别在DNA、RNA或其他遗传物质的遗传序列中的碱基位置处的四种碱基中的一种。区块数据还可包括关于图像和传感器的元数据。例如,在碱基检出操作的实施方案中,区块数据可包括关于图像与簇的对准的信息,诸如距中心距离的信息,该距离指示传感器数据阵列中的每个像素距区块上遗传物质的簇的中心的距离。
在如下所述的多循环神经网络的执行期间,区块数据还可包括在多循环神经网络的执行期间产生的数据,称为中间数据,该数据可在多循环神经网络的运行期间重复使用而不是重新计算。例如,在多循环神经网络的执行期间,数据流逻辑可将中间数据代替用于区块数据阵列的给定补片的传感器数据写入存储器460。下文更详细地描述了类似于此的实施方案。
如图所示,描述了用于分析碱基检出传感器输出的系统,该系统包括可由运行时程序访问的存储器(例如,460),该存储器储存区块数据,这些区块数据包括来自碱基检出操作的感测循环的区块的传感器数据。另外,该系统包括神经网络处理器,诸如可访问存储器的可配置处理器450。神经网络处理器被配置为使用经训练参数来执行神经网络的运行,以产生用于感测循环的分类数据。如本文所述,神经网络的运行对来自N个感测循环的相应感测循环(包括受试者循环)的区块数据的N个阵列的序列进行操作,以产生受试者循环的分类数据。提供数据流逻辑451以使用输入单元(包括来自N个感测循环的相应感测循环的N个阵列的空间对准补片的数据)将区块数据和经训练参数从存储器移动到神经网络处理器以用于神经网络的运行。
另外,描述了一种系统,其中神经网络处理器能够访问存储器,并且包括多个执行簇,该多个执行簇中的执行逻辑簇被配置为执行神经网络。数据流逻辑能够访问存储器和多个执行簇中的执行簇,以将区块数据的输入单元提供到该多个执行簇中的可用执行簇,这些输入单元包括来自相应感测循环(包括受试者感测循环)的区块数据阵列的数字N个空间对准补片,并且使执行簇将N个空间对准补片应用于神经网络以产生受试者感测循环的空间对准补片的分类数据的输出补片,其中N大于1。
图5是示出了碱基检出操作的方面的简化图,该方面包括由主机处理器执行的运行时程序的功能。在该图中,来自流通池(诸如图1至图2所示的流通池)的图像传感器的输出在线500上提供到图像处理线程501,该图像处理线程可对图像执行处理,诸如各个区块的传感器数据阵列中的重采样、对准和布置,并且可由为流通池中的每个区块计算区块簇掩膜的过程使用,该过程识别与流通池的对应区块上的遗传物质的簇对应的传感器数据阵列中的像素。为了计算簇掩膜,一个示例性算法是基于用于使用来源于softmax输出的度量来检测在早期测序循环中不可靠的簇的过程,然后丢弃来自那些阱/簇的数据,并且不针对那些簇产生输出数据。例如,过程可在第一N1个(例如,25个)碱基检出期间识别具有高可靠性的簇,并且拒绝其他簇。所拒绝的簇可能是多克隆的或强度非常弱的或因基准点模糊。该程序可在主机CPU上执行。在另选的实施方案中,该信息将潜在地用于识别要传回CPU的必要的感兴趣簇,从而限制中间数据所需的存储。
根据碱基检出操作的状态,图像处理线程501的输出在线502上提供到CPU中的调度逻辑510,该调度逻辑将区块数据阵列在高速总线503上路由到数据高速缓存504,或者在高速总线505上路由到多簇神经网络处理器硬件520,诸如图4的可配置处理器。硬件520将由神经网络输出的分类数据返回到调度逻辑510,该调度逻辑将信息传递到数据高速缓存504,或者在线511上传递到使用分类数据执行碱基检出和质量分数计算的线程502,并且可以标准格式布置用于碱基检出读段的数据。在线512上将执行碱基检出和质量分数计算的线程502的输出提供给线程503,该线程聚合碱基检出读段,执行其他操作诸如数据压缩,并且将所得的碱基检出输出写入指定目的地以供客户利用。
在一些实施方案中,主机可包括执行硬件520的输出的最终处理以支持神经网络的线程(未示出)。例如,硬件520可提供来自多簇神经网络的最终层的分类数据的输出。主机处理器可对分类数据执行输出激活功能诸如softmax功能,以配置供碱基检出和质量评分线程502使用的数据。另外,主机处理器可执行输入操作(未示出),诸如在输入到硬件520之前对区块数据进行重采样、批量归一化或其他调整。
图6是可配置处理器(诸如,图4的可配置处理器)的配置的简化图。在图6中,可配置处理器包括具有多个高速PCIe接口的FPGA。FPGA配置有封装器(wrapper)600,该封装器包括参考图1描述的数据流逻辑。封装器600通过CPU通信链路609来管理与CPU中的运行时程序的接口和协调,并且经由DRAM通信链路610来管理与板载DRAM 602(例如,存储器460)的通信。封装器600中的数据流逻辑将通过遍历板载DRAM 602上的数字N个循环的区块数据阵列而检索到的补片数据提供到簇601,并且从簇601检索过程数据615以递送回板载DRAM602。封装器600还管理板载DRAM 602和主机存储器之间的数据传输,以用于区块数据的输入阵列和分类数据的输出补片两者。封装器将线613上的补片数据传输到分配的簇601。封装器在线612上将经训练的参数诸如权重和偏置提供到从板载DRAM 602检索到的簇601。封装器在线611上将配置和控制数据提供到簇601,该簇经由CPU通信链路609从主机上的运行时程序提供或响应于该运行时程序而生成。簇还可在线616上向封装器600提供状态信号,该状态信号与来自主机的控制信号协作使用,以管理区块数据阵列的遍历,从而提供空间对准的补片数据,并且使用簇601的资源对补片数据执行多循环神经网络。
如上所述,在由封装器600管理的单个可配置处理器上可存在多个簇,该多个簇被配置用于在区块数据的多个补片中的对应补片上执行。每个簇可被配置为使用本文所述的多个感测循环的区块数据来提供受试者感测循环中的碱基检出的分类数据。
在系统的示例中,可将模型数据(包括内核数据,如过滤器权重和偏置)从主机CPU发送到可配置处理器,使得模型可根据循环数进行更新。举一个代表性示例,碱基检出操作可包括大约数百个感测循环。在一些实施方案中,碱基检出操作可包括双端读段。例如,模型训练参数可以每20个循环(或其他数量的循环)更新一次,或者根据针对特定系统和神经网络模型实现的更新模式来更新。在包括双端读段的一些实施方案中,其中区块上的遗传簇中的给定字符串的序列包括从第一末端沿字符串向下(或向上)延伸的第一部分和从第二末端沿字符串向上(或向下)延伸的第二部分,可在从第一部分到第二部分的过渡中更新经训练参数。
在一些示例中,可将区块的感测数据的多个循环的图像数据从CPU发送到封装器600。封装器600可任选地对感测数据进行一些预处理和转换,并且将信息写入板载DRAM602。每个感测循环的输入区块数据可包括传感器数据阵列,包括每个感测循环每个区块大约4000×3000个像素或更多,其中两个特征表示区块的两个图像的颜色,并且每个特征每个像素一个或两个字节。对于其中数字N为要在多循环神经网络的每个运行中使用的三个感测循环的实施方案,用于多循环神经网络的每个运行的区块数据阵列可消耗每个区块大约数百兆字节。在系统的一些实施方案中,区块数据还包括每个区块存储一次的DFC数据的阵列,或关于传感器数据和区块的其他类型的元数据。
在操作中,当多循环簇可用时,封装器将补片分配给簇。封装器在区块的遍历中获取区块数据的下一个补片,并将其连同适当的控制和配置信息一起发送到所分配的簇。簇可被配置为在可配置处理器上具有足够的存储器,以保存包括来自一些系统中的多个循环的补片且正被就地处理的数据补片,以及当在各种实施方案中使用乒乓缓冲技术或光栅扫描技术完成对当前补片的处理时将被处理的数据补片。
当分配的簇完成其对当前补片的神经网络的运行并产生输出补片时,其将发信号通知封装器。封装器将从分配的簇读取输出补片,或者另选地,分配的簇将数据推送到封装器。然后,封装器将对DRAM 602中的经处理的区块组装输出补片。当整个区块的处理已完成并且数据的输出补片已传输到DRAM时,封装器将区块的经处理输出阵列以指定格式发送回主机/CPU。在一些具体实施中,板载DRAM 602由封装器600中的存储器管理逻辑管理。运行时程序可控制测序操作,以连续流的方式完成运行中所有循环的区块数据的所有阵列的分析,从而提供实时分析。
图7是可使用本文所述的系统执行的多循环神经网络模型的图。图7所示的示例可称为五循环输入、一循环输出神经网络。对多循环神经网络模型的输入包括来自给定区块的五个感测循环的区块数据阵列的五个空间对准补片(例如,700个)。空间对准补片具有与集合中的其他补片相同的对准行和列尺寸(x,y),使得信息涉及序列循环中的区块上的遗传物质的相同簇。在该示例中,受试者补片是来自循环K的区块数据阵列的补片。一组五个空间对准补片包括来自在受试者补片之前两个循环的循环K-2的补片、来自在受试者补片之前一个循环的循环K-1的补片、来自在来自受试者循环的补片之后一个循环的循环K+1的补片、以及来自在来自受试者循环的补片之后两个循环的循环K+2的补片。
该模型包括输入补片中的每个输入补片的神经网络的层的隔离叠堆701。因此,叠堆701接收来自循环K+2的补片的区块数据作为输入,并且与叠堆702、703、704和705隔离,使得它们不共享输入数据或中间数据。在一些实施方案中,叠堆710至705中的所有叠堆可具有相同的模型和相同的经训练参数。在其他实施方案中,模型和经训练参数在不同叠堆中可能不同。叠堆702接收来自循环K+1的补片的区块数据作为输入。叠堆703接收来自循环K的补片的区块数据作为输入。叠堆704接收来自循环K-1的补片的区块数据作为输入。叠堆705接收来自循环K-2的补片的区块数据作为输入。隔离叠堆的层各自执行内核的卷积操作,该内核包括层的输入数据上的多个滤波器。如在以上示例中,补片700可包括三个特征。层710的输出可包括更多的特征,诸如10个至20个特征。同样,层711至716中的每个层的输出可包括适用于特定具体实施的任何数量的特征。滤波器的参数是神经网络的经训练参数,诸如权重和偏置。来自叠堆701-705中的每个叠堆的输出特征集(中间数据)作为输入被提供到时间组合层的逆层次结构720,其中来自多个循环的中间数据被组合。在例示的示例中,逆层次结构720包括:第一层,该第一层包括三个组合层721、722、723,每个组合层接收来自隔离叠堆中的三个隔离叠堆的中间数据;以及最终层,该最终层包括一个组合层730,该组合层接收来自三个时间层721、722、723的中间数据。
最终组合层730的输出是位于来自循环K的区块的对应补片中的簇的分类数据的输出补片。可将输出补片组装成循环K的区块的输出阵列分类数据。在一些实施方案中,输出补片可具有不同于输入补片的大小和尺寸。在一些实施方案中,输出补片可包括可经主机滤波以选择簇数据的逐像素数据。
根据特定具体实施,然后可将输出分类数据应用于任选地由主机或在可配置处理器上执行的softmax函数740(或其他输出激活函数)。可使用不同于softmax的输出函数(例如,根据最大输出产生碱基检出输出参数,然后利用使用上下文/网络输出的经学习非线性映射给出碱基质量)。
最后,可提供softmax函数740的输出作为循环K的碱基检出概率(750)并且将其储存在主机存储器中以在后续处理中使用。其他系统可使用用于输出概率计算的另一种函数,例如,另一个非线性模型。
可使用具有多个执行簇的可配置处理器来实现神经网络,以便在等于或接近一个感测循环的时间间隔的持续时间内完成一个区块循环的评估,从而有效地实时提供输出数据。数据流逻辑可被配置为将区块数据和经训练参数的输入单元分布到执行簇,并且分布输出补片以用于聚合在存储器中。
参考图8A和图8B描述了用于使用双通道传感器数据的碱基检出操作的如图7一样的五循环输入、一循环输出神经网络的数据的输入单元。例如,对于基因序列中的给定碱基,碱基检出操作可执行两个分析物流和两个反应,该两个反应生成两个信号(诸如图像)通道,这些图像可被处理以识别四种碱基中的哪一种碱基位于遗传物质的每个簇的遗传序列的当前位置处。在其他系统中,可利用不同数量的感测数据的通道。例如,可利用一通道方法和系统来执行碱基检出。美国专利申请公开号2013/0079232的合并材料讨论了使用各种数量的通道(诸如一通道、两通道或四通道)的碱基检出。
图8A示出了针对给定区块(区块M)的五个循环的区块数据阵列,该区块M出于执行五循环输入、一循环输出神经网络的目的使用。该示例中的五循环输入区块数据可被写入板载DRAM或系统中的可由数据流逻辑访问的其他存储器,并且对于循环K-2包括用于通道1的阵列801和用于通道2的阵列811,对于循环K-1包括用于通道1的阵列802和用于通道2的阵列812,对于循环K包括用于通道1的阵列803和用于通道2的阵列813,对于循环K+1包括用于通道1的阵列804和用于通道2的阵列814,对于循环K+2包括用于通道1的阵列805和用于通道2的阵列815。另外,区块的元数据的阵列820可在存储器中写入一次,在该情况下,包括DFC文件以连同每个循环用作对神经网络的输入。
尽管图8A讨论了两通道碱基检出操作,但是使用两个通道仅仅是示例,并且可使用任何其他适当数量的通道来执行碱基检出。例如,美国专利申请公开号2013/0079232的合并材料讨论了使用各种数量的通道(诸如一通道、两通道、或四通道、或另一适当数量的通道)的碱基检出。
数据流逻辑构成区块数据的输入单元,这些输入单元可参考图8B理解,该区块数据包括每个执行簇的区块数据阵列的空间对准补片,该每个执行簇被配置为对输入补片执行神经网络的运行。用于分配的执行簇的输入单元由数据流逻辑通过以下方式构成:从五个输入循环的区块数据阵列801-805、811、815、820中的每个阵列读取空间对准补片(例如,851、852、861、862、870),并且经由数据路径(示意性地,850)将它们递送到被配置用于由分配的执行簇使用的可配置处理器上的存储器。分配的执行簇执行五循环输入/一循环输出神经网络的运行,并且针对受试者循环K递送受试者循环K中的区块的相同补片的分类数据的输出补片。
图9是如图7(例如,701和720)一样的系统中可使用的神经网络的叠堆的简化表示。在该示例中,神经网络的一些功能(例如,900、902)在主机上执行,并且神经网络的其他部分(例如,901)在可配置处理器上执行。
在一个示例中,第一函数可以是在CPU上形成的批量归一化(层910)。然而,在另一个示例中,作为函数的批量归一化可被融合到一个或多个层中,并且可不存在单独的批量归一化层。
如上文关于可配置处理器所讨论的,多个空间隔离卷积层被执行为神经网络的第一组卷积层。在该示例中,第一组卷积层在空间上应用2D卷积。
如图9所示,针对每个叠堆中的数字L/2(L是参考图7描述的)个空间隔离的神经网络层,执行第一空间卷积921,之后执行第二空间卷积922,之后执行第三空间卷积923,并依此类推。如923A处所指示,空间层的数量可以是任何实际数字,针对上下文的该实际数字在不同实施方案中可在从几个到多于20个的范围内。
对于SP_CONV_0,内核权重例如储存在(1,6,6,3,L)结构中,因为对于该层存在3个输入通道。在该示例中,该结构中的“6”归因于将系数储存在变换的Winograd域中(内核大小在空间域中为3×3,但在变换域中扩展)。
对于该示例,对于其他SP_CONV层,内核权重储存在(1,6,6L)结构中,因为对于这些层中的每个层,存在K(=L)个输入和输出。
空间层的叠堆的输出被提供到时间层,包括在FPGA上执行的卷积层924、925。层924和925可以是在循环间应用1D卷积的卷积层。如924A处所指示,时间层的数量可以是任何实际数字,针对上下文的该实际数字在不同实施方案中可在从几个到多于20个的范围内。
第一时间层TEMP_CONV_0层824将循环通道的数量从5减少到3,如图7所示。第二时间层(层925)将循环通道的数量从3减少到1,如图7所示,并且针对每个像素将特征映射图的数量减少到四个输出,从而表示每个碱基检出中的置信度。
时间层的输出被累加在输出补片中并且被递送到主机CPU以应用例如softmax函数930或其他函数以归一化碱基检出概率。
图10示出了示出可针对碱基检出操作执行的10输入、六输出神经网络的另选具体实施。在该示例中,来自循环0至9的空间对准输入补片的区块数据被应用于空间层的隔离叠堆,诸如循环9的叠堆1001。将隔离叠堆的输出应用于具有输出1035(2)至1035(7)的时间叠堆1020的逆分层布置,从而提供受试者循环2至7的碱基检出分类数据。
图11示出了基于神经网络的碱基检出器(例如,图7)的专门化架构的一个具体实施,该基于神经网络的碱基检出器用于隔离对不同测序循环的数据的处理。首先描述使用专门化架构的动机。
基于神经网络的碱基检出器处理当前测序循环、一个或多个先前测序循环以及一个或多个后续测序循环的数据。附加测序循环的数据提供序列特异性上下文。基于神经网络的碱基检出器在训练期间学习序列特异性上下文,并且对该序列特异性上下文进行碱基检出。此外,前测序循环和后测序循环的数据为当前测序循环提供了预定相和定相信号的二阶贡献。
在不同测序循环处和不同图像通道中捕获的图像相对于彼此未对准并且具有残差配准误差。考虑到这种未对准,专门化架构包括空间卷积层,该空间卷积层不混合测序循环之间的信息并且仅混合测序循环内的信息。
空间卷积层使用所谓的“隔离卷积”,该隔离卷积通过经由“专用非共享”卷积序列独立处理多个测序循环中的每个测序循环的数据来实现隔离。该隔离卷积对仅给定测序循环(即,循环内)的数据和所得特征映射图进行卷积,而不对任何其他测序循环的数据和所得特征映射图进行卷积。
例如,考虑输入数据包括(i)待进行碱基检出的当前(时间t)测序循环的当前数据,(ii)先前(时间t-1)测序循环的先前数据,以及(iii)先前(时间t+1)测序循环的后续数据。然后,专门化架构发起三个单独的数据处理管道(或卷积管道),即当前数据处理管道、先前数据处理管道和后续数据处理管道。当前数据处理管道接收当前(时间t)测序循环的当前数据作为输入,并且通过多个空间卷积层独立地处理该当前数据,以产生所谓的“当前空间卷积表示”作为最终空间卷积层的输出。先前数据处理管道接收先前(时间t-1)测序循环的先前数据作为输入,并且通过多个空间卷积层独立地处理该先前数据,以产生所谓的“先前空间卷积表示”作为最终空间卷积层的输出。后续数据处理管道接收后续(时间t+1)测序循环的后续数据作为输入,并且通过多个空间卷积层独立地处理该后续数据以产生所谓的“后续空间卷积表示”作为最终空间卷积层的输出。
在一些具体实施中,当前管道、一个或多个先前管道和一个或多个后续处理管道并行执行。
在一些具体实施中,空间卷积层是专门化架构内的空间卷积网络(或子网络)的一部分。
基于神经网络的碱基检出器还包括混合测序循环之间(即,循环间)的信息的时间卷积层。时间卷积层从空间卷积网络接收其输入,并且对由相应数据处理管道的最终空间卷积层产生的空间卷积表示进行操作。
时间卷积层的循环间可操作性自由源于以下事实:未对准属性通过由空间卷积层序列执行的隔离卷积的叠堆或级联而从空间卷积表示清除,该未对准属性存在于作为输入馈送到空间卷积网络的图像数据中。
时间卷积层使用所谓的“组合卷积”,该组合卷积在滑动窗口的基础上逐组地对后续输入中的输入通道进行卷积。在一个具体实施中,这些后续输入是由先前的空间卷积层或先前时间卷积层产生的后续输出。
在一些具体实施中,时间卷积层是专门化架构内的时间卷积网络(或子网络)的一部分。时间卷积网络从空间卷积网络接收其输入。在一个具体实施中,时间卷积网络的第一时间卷积层逐组地组合测序循环之间的空间卷积表示。在另一个具体实施中,时间卷积网络的后续时间卷积层组合先前时间卷积层的后续输出。
最终时间卷积层的输出被馈送到产生输出的输出层。输出用于在一个或多个测序循环处对一个或多个簇进行碱基检出。
在前向传播期间,专门化架构以两个阶段处理来自多个输入的信息。在第一阶段中,使用隔离卷积来防止输入之间的信息混合。在第二阶段中,使用组合卷积来混合输入之间的信息。将来自第二阶段的结果用于对该多个输入进行单个推断。
这不同于其中卷积层同时处理批量中的多个输入并且对该批量中的每个输入进行对应推断的批处理模式技术。相比之下,专门化架构将该多个输入映射到该单个推断。该单个推断可包括多于一个预测,诸如四种碱基(A、C、T和G)中的每种碱基的分类得分。
在一个具体实施中,这些输入具有时间顺序,使得每个输入在不同的时间步长处生成并且具有多个输入通道。例如,该多个输入可包括以下三个输入:在时间步长(t)处由当前测序循环生成的当前输入、在时间步长(t-1)处由先前测序循环生成的先前输入以及在时间步长(t+1)处由后续测序循环生成的后续输入。在另一个具体实施中,每个输入分别来源于由一个或多个先前卷积层产生的当前输出、先前输出和后续输出,并且包括k个特征映射图。
在一个具体实施中,每个输入可包括以下五个输入通道:红色图像通道(红色)、红色距离通道(黄色)、绿色图像通道(绿色)、绿色距离通道(紫色)和缩放通道(蓝色)。在另一个具体实施中,每个输入可包括由先前卷积层产生的k特征映射图,并且每个特征映射图被视为输入通道。在又一示例中,每个输入可具有仅一个通道、两个通道或另一不同数量的通道。美国专利申请公开号2013/0079232的合并材料讨论了使用各种数量的通道(诸如一通道、两通道或四通道)的碱基检出。
图12示出了隔离层的一个具体实施,每个隔离层可包括卷积。隔离卷积通过将卷积滤波器同步地应用于每个输入一次来处理该多个输入。利用隔离卷积,卷积滤波器组合相同输入中的输入通道,并且不组合不同输入中的输入通道。在一个具体实施中,将相同的卷积滤波器同步地应用于每个输入。在另一个具体实施中,将不同的卷积滤波器同步地应用于每个输入。在一些具体实施中,每个空间卷积层包括一组k个卷积滤波器,其中每个卷积滤波器同步地应用于每个输入。
图13A示出了组合层的一个具体实施,每个组合层可包括卷积。图13B示出了组合层的另一个具体实施,每个组合层可包括卷积。组合卷积通过对不同输入的对应输入通道进行分组并将卷积滤波器应用于每个分组来混合不同输入之间的信息。对这些对应输入通道的分组和卷积滤波器的应用是在滑动窗口的基础上发生的。在该上下文中,窗口跨越两个或更多个后续输入通道,其表示例如两个后续测序循环的输出。由于该窗口是滑动窗口,因此大多数输入通道用于两个或更多个窗口中。
在一些具体实施中,不同输入源于由先前空间卷积层或先前时间卷积层产生的输出序列。在该输出序列中,这些不同输入被布置为后续输出并且因此被后续时间卷积层视为后续输入。然后,在该后续时间卷积层中,这些组合卷积将卷积滤波器应用于这些后续输入中的对应输入通道组。
在一个具体实施中,这些后续输入具有时间顺序,使得当前输入在时间步长(t)处由当前测序循环生成,先前输入在时间步长(t-1)处由先测序循环生成,并且后续输入在时间步长(t+1)处由后续测序循环生成。在另一个具体实施中,每个后续输入分别来源于由一个或多个先前卷积层产生的当前输出、先前输出和后续输出,并且包括k个特征映射图。
在一个具体实施中,每个输入可包括以下五个输入通道:红色图像通道(红色)、红色距离通道(黄色)、绿色图像通道(绿色)、绿色距离通道(紫色)和缩放通道(蓝色)。在另一个具体实施中,每个输入可包括由先前卷积层产生的k特征映射图,并且每个特征映射图被视为输入通道。
卷积滤波器的深度B取决于后续输入的数量,这些后续输入的对应输入通道由卷积滤波器在滑动窗口的基础上逐组地进行卷积。换句话讲,深度B等于每个滑动窗口中的后续输入的数量和组大小。
在图13A中,来自两个后续输入的对应输入通道在每个滑动窗口中组合,并且因此B=2。在图13B中,来自三个后续输入的对应输入通道在每个滑动窗口中组合,并且因此B=3。
在一个具体实施中,滑动窗口共享相同的卷积滤波器。在另一个具体实施中,针对每个滑动窗口使用不同的卷积滤波器。在一些具体实施中,每个时间卷积层包括一组k个卷积滤波器,其中每个卷积滤波器在滑动窗口的基础上应用于后续输入。
图4至图10的更多细节及其变型可见于2021年2月15日提交的名称为“HARDWAREEXECUTION AND ACCELERATION OF ARTIFICIAL INTELLIGENCE-BASED BASE CALLER”的共同未决的美国非临时专利申请号17/176,147(代理人案卷号ILLM 1020-2/IP-1866-US),该专利申请以引用方式并入本文,如同在本文中完全阐述一样。
从头训练碱基检出器
训练碱基检出系统以预测包含碱基序列的未知分析物的碱基检出。例如,碱基检出系统具有包括神经网络的碱基检出器,该碱基检出器预测对未知分析物的碱基的碱基检出。
训练碱基检出系统的神经网络具有挑战性。在缺少用于训练碱基检出系统的标记训练数据的情况下尤其如此。在一些示例中,实时分析(RTA)系统可用于生成标记训练数据,该标记训练数据可用于训练碱基检出系统。2019年5月28日发布的名称为“Dataprocessing system and methods”的美国专利号US10304189B2中讨论了RTA系统的示例,该美国专利以引用方式并入本文,如同在本文中完全阐述一样。然而,如果系统缺少RTA或者不能完全利用RTA的功能,则生成用于训练碱基检出系统的神经网络的初始标记训练数据将具有挑战性。
本公开讨论了自学碱基检出器,该自学碱基检出器生成初始标记训练数据,使用标记训练数据来训练自己,使用该至少部分训练的碱基检出器来生成另外的标记训练数据,使用另外的标记训练数据来训练自己,生成甚至另外的标记训练数据,并且迭代地重复该过程以充分地训练碱基检出器。这种迭代训练和标记训练数据生成过程包括不同的阶段,诸如单寡核苷酸阶段、多寡核苷酸阶段(诸如双寡核苷酸阶段、三寡核苷酸阶段,并依此类推),随后是简单生物体阶段、复杂生物体阶段、另外的复杂生物体阶段,并依此类推。因此,用于训练和生成标记训练数据的分析物的复杂性和/或长度随着迭代以及碱基检出器的基础神经网络配置的复杂性而渐进地且单调地增加,如将在本文中进一步详细讨论的。因为碱基检出器是渐进地自训练的,所以这种系统避免了使用RTA来生成标记训练数据。因此,尽管本文讨论的碱基检出系统可包括RTA,但是本文讨论的迭代训练过程可作为RTA的补充或替代用于训练碱基检出器。
图14A示出了碱基检出系统1400,该碱基检出系统在单寡核苷酸训练阶段操作,以使用已知的合成序列1406来训练包括神经网络(NN)配置1415的碱基检出器1414。
在图14A的示例中,碱基检出系统1400包括测序机器1404,诸如图4的测序机器400。在实施方案中,测序机器1404包括生物传感器(图14A中未示出),该生物传感器包括类似于图1的生物传感器100的流通池102的流通池1405。
如相对于图2、图3和图6所讨论的,流通池1405包括多个簇1407a、…、1407G。具体地,在示例中,流通池1405包括多个区块槽道,每个区块包括对应的多个簇,如相对于图2所讨论的。在图14A中,流通池1405被示为包括一些此类示例簇1407a、…、1407G。在碱基检出过程期间,预测特定循环的每个簇的碱基检出(A、C、G、T)。
典型的流通池1405可包括多个簇1407,诸如数千或甚至数百万个簇。仅作为示例,不限制本公开的范围,并且为了解释本公开的一些原理,假设在流通池1405中存在10,000(或10k)数量的簇1407(即,G=10,000),尽管实际流通池可能具有更高数量的此类簇。
在示例中,已知的合成序列1406被用作在单寡核苷酸训练阶段期间用于碱基检出操作的分析物。在示例中,已知的合成序列1406包括合成地生成的寡聚物。寡核苷酸是短DNA或RNA分子,其被称为寡聚物或简称为寡核苷酸(oligo),其在基因檢測、研究和法医中具有广泛应用。通常在实验室中通过固相化学合成制备,这些少量核酸可被制造为具有任何用户指定序列的单链分子,并且因此对于人工基因合成、聚合酶链式反应(PCR)、DNA测序、分子克隆以及作为分子探针是至关重要的。寡核苷酸的长度通常表示为“聚体(-mer)”。例如,六个核苷酸(nt)的寡核苷酸是六聚体,而25个核苷酸中的一个通常称为“25聚体”。在示例中,包含已知的合成序列1406的寡聚物或寡核苷酸的大小可具有任何适当数量的碱基,诸如8、10、12或更高,并且是实施方式特异性的。仅作为示例,图14A示出了包含8个碱基的已知的合成序列1406的寡核苷酸。
图14A中提及的寡核苷酸被标记为寡核苷酸#1(或寡核苷酸编号1)。由于在图14A中仅使用一个独特的寡核苷酸,所以同一寡核苷酸#1被填充在单个簇1407中。因此,所有10k簇1407填充有同一寡核苷酸序列。即,在所有簇1407中填充同一寡核苷酸的拷贝。
测序机器1404为该多个簇1407a、…、1407G中的对应簇生成序列信号1412a、…、1412G。例如,对于簇1407a,测序机器1404生成对应的序列信号1412a,其指示在簇1407a内填充的用于一系列测序循环的碱基序列。类似地,对于簇1407b,测序机器1404生成对应的序列信号1412b,其指示在簇1407b内填充的用于一系列测序循环的碱基序列,并依此类推。碱基检出器1414接收序列信号1412,并且旨在检出(例如,预测)对应的碱基。在示例中,包括NN配置1415(以及本文稍后讨论的各种其他NN配置)的碱基检出器1414可被存储在存储器404、403和/或406中,并且在主机CPU(诸如图4的CPU 402)上和/或在对于测序机器400属于本地的可配置处理器(诸如图4的可配置处理器450)上执行。在另一示例中,碱基检出器1414可远离测序机器400存储(例如,存储在云中),并且可由远程处理器执行(例如,在云中执行)。例如,在碱基检出器1414的远程版本中,碱基检出器1414接收(例如,通过网络诸如因特网)序列信号1412,执行碱基检出操作,并将碱基检出结果传输(例如,通过网络诸如因特网)到测序机器400。
在示例中,序列信号1412包括由传感器(例如,光检测器、光电二极管)捕获的图像,如本文先前所讨论的。因此,本文所讨论的示例和实施方案中的至少一些涉及迭代地训练处理包括图像的序列信号的碱基检出器(诸如碱基检出器1414)。然而,本公开的原理不限于训练接收特定类型的序列信号的任何特定类型的碱基检出器。例如,本文在本公开中讨论的迭代训练独立于待训练的碱基检出器的类型或所使用的序列信号的类型。例如,本文在本公开中讨论的迭代训练可用于训练任何其他适当类型的碱基检出器,诸如被配置为基于不包括图像的序列信号来检出碱基的碱基检出器。例如,序列信号可包括电信号(例如,电压信号、电流信号)、pH水平等,并且本文所讨论的迭代训练方法可被应用于训练接收任何此类类型的序列信号的碱基检出器。
神经网络配置1415是卷积神经网络(其示例在图7、图9、图10、图11、图12中示出),该卷积神经网络使用相对较小数量的层和相对较小数量的参数(例如,相比于本文稍后讨论的一些其他神经网络配置,诸如图16A的神经网络配置1615),如本文将进一步详细讨论的。
包括神经网络配置1415的初始未训练的碱基检出器1414分别基于对应的序列信号1412a、…、1412G来预测该多个簇1407a、…、1407G中的对应簇的碱基检出序列1418a、…、1418G。例如,对于簇1407a,碱基检出器1414基于对应的序列信号1412a来预测对应的碱基检出序列1418a,包括用于一系列测序循环的簇1407a的碱基检出。类似地,对于簇1407b,碱基检出器1414基于对应的序列信号1412b预测对应的碱基检出序列1418b,包括用于一系列测序循环的簇1407b的碱基检出,并依此类推。因此,G碱基检出序列1418a、…、1418G由碱基检出器1414预测。
假设寡核苷酸#1具有通常标记为GA1、…、GA8的8个碱基。仅作为示例并且不限制本公开的范围,假设寡核苷酸#的8个碱基是A、C、T、T、G、C、A、C。最初,碱基检出器1414是未经训练的,因此很可能在碱基检出中存在错误。例如,预测的碱基检出序列1418a(通常标记为Sa1、…、Sa8)是C、A、T、C、G、C、A、G,如图14A所示。因此,比较寡核苷酸#1的基准真值碱基序列1406(即,A,C,T,T,G,C,A,C)和预测的碱基序列1418a(即,C,A,T,C,G,C,A,G),在碱基编号1、2、4和8的碱基检出中存在错误。因此,在图14A中,在操作1413a处比较寡核苷酸#1的基准真值基序列1406和预测的基序列1418a,并且这两个碱基序列之间的错误在碱基检出器1414的神经网络配置1415的后向通路中被用于训练神经网络配置1415,诸如用于更新神经网络配置1415的梯度和权重(在图14A中被象征性地标记为梯度更新1417)。
图14A1进一步详细地示出了预测的碱基序列1418a和寡核苷酸#1的基准真值碱基序列1406之间的比较操作。例如,参考图14A和图14A1,预测的碱基序列1418a是C、A、T、C、G、C、A、G,并且寡核苷酸#1的基准真值碱基序列1406是A、C、T、T、G、C、A、C。因此,比较寡核苷酸#1的基准真值碱基序列1406(即,A,C,T,T,G,C,A,C)和预测的碱基序列1418a(即,C,A,T,C,G,C,A,G),在碱基编号1、2、4和8的碱基检出中存在错误。例如,在图14A1中,碱基编号1的碱基检出的错误由以下给出:“C应当是A”,即,碱基检出C应当是碱基检出A。类似地,碱基编号2的碱基检出的错误由以下给出:“A应当是C”,即,碱基检出A应当是碱基检出B,并依此类推。对于碱基编号3、5、6和7的碱基检出不存在错误(在图14A1中示为“匹配(无错误)”)。因此,在图14A1中,在比较期间,将预测的碱基检出序列1418a的每个碱基检出与对应的基准真值序列(例如,寡核苷酸#1的碱基序列1406)的对应的碱基检出进行比较,以生成对应的比较结果,如图14A1中所示。
再次参考图14A,碱基检出系统1400还包括映射逻辑1416,其功能将在本文稍后讨论。在示例中,映射逻辑1416可存储在存储器404、403及/或406中,并且映射逻辑1416可在主机CPU(诸如图4的CPU 402)上和/或在对于测序机器400属于本地的可配置处理器(诸如图4的可配置处理器450)上执行。在另一示例中,映射逻辑1416可远离测序机器400存储(例如,存储在云中),并且可由远程处理器执行(例如,在云中执行)。例如,在映射逻辑1416的远程版本中,映射逻辑从测序机器400接收(例如,通过网络诸如因特网)待映射的数据,执行映射操作,并将映射结果传输(例如,通过网络诸如因特网)到测序机器400。映射操作在本文稍后进一步详细讨论。
图14A和本公开的各种其他图、示例和实施方案涉及预测碱基检出序列的碱基检出器。本文已经讨论了碱基检出序列的这种预测的各种示例。碱基检出预测的进一步细节可见于2021年7月1日提交的名称为“IMPROVED ARTIFICIAL INTELLIGENCE-BASED BASECALLING OF INDEX SEQUENCES”的共同未决的美国临时专利申请号63/217,644(代理人案卷号ILLM 1046-1/IP-2135-PRV),该专利申请以引用方式并入本文,如同在本文中完全阐述一样。
图14B示出了图14A的碱基检出系统1400的进一步细节,该碱基检出系统在单寡核苷酸训练阶段中操作,以使用已知的合成序列1406来训练包括神经网络配置1415的碱基检出器1414。例如,图14B示出了使用预测的碱基检出序列1418a、…、1418G来训练碱基检出器1414。例如,将预测的碱基检出序列1418a、…、1418G中的各个碱基检出序列与寡核苷酸#1的基准真值碱基序列1406进行比较(参见比较操作1413a、…、1413G),并且所得错误用于梯度更新以及由神经网络配置1415的反向传播部分对神经网络配置1415的参数(诸如权重和偏置)的后续更新(在图14A中象征性地标记为梯度更新1417)。
因此,使用由神经网络配置1415预测的碱基检出序列1418并使用寡核苷酸#1的基准真值碱基序列1406来训练神经网络配置1415。因为相对于图14A和图14B讨论的训练使用单个寡核苷酸,所以该训练阶段也被称为“单寡核苷酸训练阶段”,并且图14A和图14B已经被相应地标记。
在示例中,图14A和图14B的过程可迭代地重复。例如,在图14A的第一次迭代中,至少部分地训练NN配置1415。在第二次迭代期间再次使用至少部分训练的NN配置1415以从序列信号1412重新生成预测的碱基检出序列(例如,如相对于图14A所讨论的),并且再次将所得预测的碱基检出序列与基准真值1406(即,寡核苷酸#1)进行比较以生成错误信号,这些错误信号用于进一步训练NN配置1415。该过程可迭代地重复多次,直到NN配置1415被充分训练。在示例中,该过程可迭代地重复特定次数。在另一个示例中,该过程可迭代地重复直到存在若干错误的饱和为止(例如,连续迭代中的错误不显著减少)。
图15A示出了图14A的碱基检出系统1400,该碱基检出系统在双寡核苷酸训练阶段的训练数据生成阶段中操作,以使用两个已知的合成序列1501A和1501B生成标记训练数据。
图15A的碱基检出系统1400与图14A的碱基检出系统相同,并且在两个图中,碱基检出系统1400使用神经网络配置1415。此外,两个不同的独特寡核苷酸序列1501A和1501B被加载在流通池1405的不同簇中。仅作为示例并且不限制本公开的范围,假设在10,000个簇1407中,约5,200个簇填充有寡核苷酸序列1501A并且剩余的4,800个簇填充有寡核苷酸序列1501B(尽管在另一个示例中,两个寡核苷酸可基本上等分10,000个簇)。
测序机器1404为该多个簇1407a、…、1407G中的对应簇生成序列信号1512a、…、1512G。例如,对于簇1407a,测序机器1404生成对应的序列信号1512a,其指示用于一系列测序循环的簇1407a的碱基。类似地,对于簇1407b,测序机器1404生成对应的序列信号1512b,其指示用于一系列测序循环的簇1407b的碱基,并依此类推。
包括至少部分训练的神经网络配置1415(例如,其通过迭代地重复图14A和图14B的操作来训练)的碱基检出器1414分别基于对应的序列信号1512a、…、1512G来预测该多个簇1407a、…、1407G中的对应簇的碱基检出序列1518a、…、1518G。例如,对于簇1407a,碱基检出器1414基于对应的序列信号1512a来预测对应的碱基检出序列1518a,包括用于一系列测序循环的簇1407a的碱基检出。类似地,对于簇1407b,碱基检出器1414基于对应的序列信号1512b预测对应的碱基检出序列1518b,包括用于一系列测序循环的簇1407b的碱基检出,并依此类推。因此,G碱基检出序列1518a、…、1518G由碱基检出器1414预测。注意,图15A的神经网络配置1415在相对于图14A和图14B讨论的单寡核苷酸训练阶段的迭代期间被较早地训练。因此,预测的碱基检出序列1518a、…、1518G将稍微准确,但不是非常高度准确(因为碱基检出器1414未被完全训练)。
在实施方案中,寡核苷酸序列1501A和1501B被选择为在两个寡核苷酸的碱基之间具有足够的编辑距离。图15B和图15C示出了图15A的寡核苷酸序列1501A和1501B的两个对应的示例选择。例如,在图15B中,寡核苷酸1501A被选择为具有碱基A、C、T、T、G、C、A、C,而寡核苷酸1501B被选择为具有碱基C、C、T、A、G、C、A、C。因此,两个寡核苷酸1510A和1510B中的第一个碱基和第四个碱基不同,从而导致两个寡核苷酸1510A和1510B之间的编辑距离为二。
相反,在图15B中,寡核苷酸1501A被选择为具有碱基A、C、T、T、G、C、A、C,而寡核苷酸1501B被选择为具有碱基C、A、T、G、A、T、A、G。因此,在图15B的示例中,两个寡核苷酸1510A和1510B中的第一个、第二个、第四个、第五个、第六个和第八个碱基不同,从而导致两个寡核苷酸1510A和1510B之间的编辑距离为六。
在示例中,两个寡核苷酸1501A和1501B被选择为使得两个寡核苷酸分开至少阈值编辑距离。仅作为示例,阈值编辑距离可以是4个碱基、5个碱基、6个碱基、7个碱基或甚至8个碱基。因此,两个寡核苷酸1501A和1501B被选择为使得两个寡核苷酸彼此足够不同。
再次参考图15A,碱基检出器1414不知道在哪个簇中填充了哪个寡核苷酸序列。因此,碱基检出器1414不知道已知的寡核苷酸序列1501A、1501B和各种簇之间的映射。在示例中,映射逻辑1416接收预测的碱基检出序列1518,并且将每个预测的碱基检出序列1518映射到寡核苷酸1501A或寡核苷酸1501B,或者声明将预测的碱基检出序列映射到两个寡核苷酸中的任一者的不确定性。图15D示出了示例映射操作,用于(i)将预测的碱基检出序列映射到寡核苷酸1501A或寡核苷酸1501B中的任一者,或(ii)声明将预测的碱基检出序列映射到两个寡核苷酸中的任一者的不确定性。
在示例中,两个寡核苷酸之间的编辑距离越高,将单独的预测映射到两个寡核苷酸中的任一者越容易(或越准确)。例如,参考图15B,由于两个寡核苷酸1501A和1501B之间的编辑距离仅为二,所以两个寡核苷酸几乎相似,并且可能相对难以将碱基检出预测映射到两个寡核苷酸中的任一者。然而,由于图15C中的两个寡核苷酸1501A和1501B之间的编辑距离为六,所以这两个寡核苷酸非常不相似,并且可相对容易地将预测映射到两个寡核苷酸中的任一者。因此,编辑距离为二的图15B被标记为“不太适用于训练”,并且编辑距离为六的图15C被标记为“更适用于训练”。因此,在示例中,根据图15C(并且不是根据图15B)的寡核苷酸1501A和1501B被生成并用于训练,如本文将进一步详细讨论的。
再次参考图15D,示出了示例预测的碱基检出序列1518a、1518b和1518G。还示出了两个寡核苷酸1501A和1501B的示例碱基(两个寡核苷酸的示例碱基对应于图15C中所示的碱基)。
因为神经网络配置1415被稍微训练,但未被完全训练,所以神经网络配置1415可能能够进行碱基检出预测,但此类碱基检出预测将易于出现错误。
预测的碱基检出序列1518a包括C、A、G、G、C、T、A、C。这与寡核苷酸1501A的碱基检出序列A、C、T、T、G、C、A、C进行比较,并且也与寡核苷酸1501B的碱基检出序列C、A、T、G、A、T、A、G进行比较。预测的碱基检出序列1518a具有与寡核苷酸1501A的对应的第七个和第八个碱基匹配的第七个和第八个碱基,并且具有与寡核苷酸1501B的对应的碱基匹配的第一个、第二个、第四个、第六个和第七个碱基。因此,如图15D所示,预测的碱基检出序列1518a与寡核苷酸1501A具有2个碱基的相似性,并且预测的碱基检出序列1518a与寡核苷酸1501B具有5个碱基的相似性。
如果确实预测的碱基检出序列1518a是用于寡核苷酸1501B的(例如,因为预测的碱基检出序列1518a与寡核苷酸1501B具有5个碱基的相似性),则这意味着神经网络配置1415能够正确地预测8碱基序列的五个碱基(即,能够正确地预测与寡核苷酸1501B的对应的碱基匹配的第一个、第二个、第四个、第六个和第七个碱基)。然而,当神经网络配置1415没有被完全训练时,神经网络配置1415在预测剩余的三个碱基(即,第三个、第五个和第八个碱基)时出现错误。
映射逻辑1416可使用适当的逻辑来将预测的碱基检出序列映射到对应的寡核苷酸。例如,假设预测的碱基检出序列具有与寡核苷酸1501A的SA数量的相似性,以及与寡核苷酸1501B的SB数量的相似性。在示例中,如果SA>ST且SB<ST,则映射逻辑1416将预测的碱基检出序列映射到寡核苷酸1501A,其中ST是阈值数量。即,如果与寡核苷酸1501A的相似性水平高于阈值,并且如果与寡核苷酸1501B的相似性水平低于阈值,则映射逻辑1416将预测的碱基检出序列映射到寡核苷酸1501A。
类似地,在另一个示例中,如果SB>ST且SA<ST,则映射逻辑1416将预测的碱基检出序列映射到寡核苷酸1501B。
在又一个示例中,如果SA和SB都小于阈值ST,或者如果SA和SB都大于阈值ST,则映射逻辑1416声明预测的碱基检出序列是不确定的。
上文的讨论可写成等式形式:
对于预测的碱基检出序列:
如果SA>ST且SB<ST,则映射到寡核苷酸1501A;等式1
如果SB>ST且SA<ST,则映射到寡核苷酸1501B;等式2
如果SA、SB都<ST,则声明不确定映射;或等式3
如果SA、SB都>ST,则声明不确定映射。等式4
阈值ST取决于寡核苷酸中碱基的数量(在图中所示的示例使用情况中为8个)、期望的准确度和/或实施方式特异性的。仅作为示例,在图15D中所示的示例使用情况下,假设阈值ST为4。注意,阈值ST为4仅仅是示例,并且阈值ST的选择可以是实施方式特异性的。仅作为示例,在训练的初始迭代期间,阈值ST可具有相对较低的值(例如,4);并且在训练的稍后迭代期间,阈值ST可具有相对较高的值(例如,6或7)(训练迭代已在本文稍后讨论)。因此,当NN配置在稍后的训练迭代期间得到更好地训练时,可逐渐增加阈值ST。然而,在另一个示例中,阈值ST可在训练的所有迭代中具有同一值。尽管在图15D的示例中将阈值ST选择为4,但在其他示例实施方案中,阈值ST可为(例如)5、6或7。在示例中,阈值ST也可表示为百分比。例如,当阈值ST为4并且碱基的总数为8时,阈值ST可表示为(4/8)×100,即,50%。阈值ST可以是用户可选择的参数,并且在示例中可被选择为介于50%至95%之间。
现在再次参考图15D,如上所讨论的,预测的碱基检出序列1518a与寡核苷酸1501A具有2个碱基的相似性,并且预测的碱基检出序列1518a与寡核苷酸1501B具有5个碱基的相似性。因此,SA=2且SB=5。假设阈值ST为4,根据等式2,预测的碱基检出序列1518a被映射到寡核苷酸1501B。
现在参考预测的碱基检出序列1518b,预测的碱基检出序列1518b与寡核苷酸1501A具有2个碱基的相似性,并且预测的碱基检出序列1518b与寡核苷酸1501B具有3个碱基的相似性。因此,SA=2且SB=3。假设阈值ST为4,根据等式3,声明预测的碱基检出序列1518b对于映射到寡核苷酸序列中的任一者是不确定的。
现在参考预测的碱基检出序列1518G,预测的碱基检出序列1518G与寡核苷酸1501A具有6个碱基的相似性,并且预测的碱基检出序列1518G与寡核苷酸1501B具有3个碱基的相似性。因此,SA=6且SB=3。假设阈值ST为4,根据等式2,预测的碱基检出序列1518G被映射到寡核苷酸1501A。
图15E示出了从图15D的映射生成的标记训练数据1550,其中标记训练数据1550由另一个神经网络配置1615使用(例如,在图16A中所示,其中另一个神经网络配置1615不同于图14A、图14B、图15A的神经网络配置1415,并且相对于其更复杂)。
如图15E所示,一些预测的碱基检出序列1518和对应的序列信号被映射到寡核苷酸1501A的碱基序列(即,基准真值1506a),一些其他预测的碱基检出序列1518和对应的序列信号被映射到寡核苷酸1501B的碱基序列(即,基准真值1506b),并且剩余的预测的碱基检出序列1518和对应的序列信号的映射是不确定的。
例如,预测的碱基检出序列1518c、1518d、1518G和对应的序列信号1512c、1512d、1512G被映射到寡核苷酸1501A的碱基序列(即,基准真值1506a);将预测的碱基检出序列1518a、1518f和对应的序列信号1512a、1512f映射到寡核苷酸1501B的碱基序列(即,基准真值1506b);并且剩余的预测的碱基检出序列1518b、1518e、1518g和对应的序列信号1512b、1512e、1512g的映射是不确定的。
仅作为示例,假设训练数据1550的2,600个碱基检出序列被映射到寡核苷酸1501A,并且训练数据1550的3,000个碱基检出序列被映射到寡核苷酸1501B。如图15E所示,剩余的4,400个碱基检出序列是不确定的,并且没有映射到两个寡核苷酸中的任一者。
注意,图15A、图15D和图15E被称为“双寡核苷酸训练阶段”的“训练数据生成阶段”,因为使用来自两个寡核苷酸的序列并使用神经网络配置1415来生成标记训练数据1550。
图16A示出了图14A的碱基检出系统1400,该碱基检出系统在“双寡核苷酸训练阶段”的“训练数据消耗和训练阶段”中操作,以使用两个已知的合成序列1501A和1501B来训练包括另一个神经网络配置1615(其不同于图14A的神经网络配置1415,并且相对于其更复杂)的碱基检出器1414。
图16A的碱基检出系统1400与图14A的碱基检出系统相同。然而,与图14A(其中神经网络配置1415被用于碱基检出器1414中)不同,图16A中的碱基检出器1414使用不同的神经网络配置1615。图16A的神经网络配置1615不同于图14A的神经网络配置1415。例如,神经网络配置1615是卷积神经网络(其示例在图7、图9、图10、图11、图12中示出),其使用比神经网络配置1415更大数量的层和参数(诸如权重和偏置)。在另一个示例中,神经网络配置1615是使用比神经网络配置1415更大数量的卷积滤波器的卷积神经网络。在一些示例中,两个神经网络配置1415和1615的配置、拓扑以及层和/或滤波器的数量可以不同。
在图16A中示出的“双寡核苷酸训练阶段”的“训练数据消耗和训练阶段”中,包括神经网络配置1615的碱基检出器1414接收序列信号1512,这些序列信号先前在图15A的“训练数据生成阶段”期间生成。即,包括神经网络配置1615的碱基检出器1414重复使用先前生成的序列信号1512。因此,由于先前生成的序列信号1512在图16A中示出的“双寡核苷酸训练阶段”的“训练数据消耗和训练阶段”中被重复使用,所以测序机器1404和其中的部件不起作用,因此使用虚线示出。类似地,映射逻辑1416也不扮演任何角色(因为在图16A中没有执行映射),因此映射逻辑1416也使用虚线示出。
因此,在图16A中,包括神经网络配置1615的碱基检出器1414接收先前生成的序列信号1512,并从序列信号1512预测碱基检出序列1618。预测的碱基检出序列1618包括预测的碱基检出序列1618a、1618b、…、1618G。例如,序列信号1512a用于预测碱基检出序列1618a,序列信号1512b用于预测碱基检出序列1618b,序列信号1512G用于预测碱基检出序列1618G,并依此类推。
神经网络配置1615尚未被训练,因此预测的碱基检出序列1618a、1618b、…、1618G将具有许多错误。图15E的映射训练数据1550现在被用于训练神经网络配置1615。例如,根据训练数据1550,碱基检出器1414知道:
(i)序列信号1512c、1512d、1512G是用于寡核苷酸1501A的碱基序列(即,基准真值1506a);
(ii)序列信号1512a、1512f是用于寡核苷酸1501B的碱基序列(即,基准真值1506b);并且
(iii)序列信号1512b、1512e、1512g的映射是不确定的。
因此,序列信号1512和预测的碱基检出序列1518被挑选成三个类别:(i)第一类别,其包括可被映射到寡核苷酸1501A的碱基序列(即,基准真值1506a)的序列信号1512c、1512d、1512G(以及对应的预测的碱基检出序列1518c、1518d、1518G);(i)第二类别,其包括可被映射到寡核苷酸1501B的碱基序列(即,基准真值1506b)的序列信号1512a、1512f(以及对应的预测的碱基检出序列1518a、1518f);(iii)第三类别,其包括不能被映射到寡核苷酸1501A或1501B的任何碱基检出序列的序列信号1512b、1512e、1512g(和对应的预测的碱基序列1518b、1518e、1518g)。
因此,基于上文的(iii),预测的碱基检出序列1618b、1618e和1618g(例如,对应于序列信号1512b、1512e、1512g)不用于训练神经网络配置1615。因此,预测的碱基检出序列1618b、1618e和1618g在训练迭代期间被丢弃并且不用于梯度更新(在图16A中使用预测的碱基检出序列1618b、1618e和1618g以及梯度更新框1617之间的“X”或“叉号”象征性地示出)。
基于上文的(i),碱基检出器1414知道预测的碱基检出序列1618c、1618d、1618G(例如,对应于序列信号1512c、1512d、1512G)可能是用于寡核苷酸1501A的。即,寡核苷酸1501A的碱基序列可能是这些预测的碱基检出序列1618c、1618d、1618G的基准真值,尽管未经训练的神经网络配置1615可能已经错误地预测了这些预测的碱基检出序列的至少一些碱基。因此,神经网络配置使用比较功能1613将预测的碱基检出序列1618c、1618d和1618G中的每一者与基准真值1506a(其是寡核苷酸1501A的碱基序列)进行比较,并且将所生成的错误用于梯度更新1617以及神经网络配置1615的所得训练。
类似地,基于上文的(ii),碱基检出器知道预测的碱基检出序列1618a和1618f(例如,分别对应于序列信号1512a和1512f)可能是用于寡核苷酸1501B的。即,寡核苷酸1501B的碱基序列可能是这些预测的碱基检出序列1618a和1618f的基准真值,尽管未经训练的神经网络配置1615可能已经错误地预测了这些预测的碱基检出序列的至少一些碱基。因此,神经网络配置使用比较功能1613将预测的碱基检出序列1618a和1618f中的每一者与基准真值1506b(其是寡核苷酸1501B的碱基序列)进行比较,并且将所生成的错误用于梯度更新1617和所得的神经网络配置1615的训练。
在图16A的训练数据消耗和训练阶段结束时,至少部分地训练NN配置1615。
图16B示出了图14A的碱基检出系统1400,该碱基检出系统在双寡核苷酸训练阶段的训练数据生成阶段的第二次迭代中操作。例如,在图16A中,使用训练数据1550来训练神经网络配置1615。在图16B中,稍微或至少部分训练的神经网络配置1615用于生成进一步的训练数据。例如,至少部分训练的神经网络配置1615使用先前生成的序列信号1512来预测碱基检出序列1628。图16B的预测的碱基检出序列1628可能比图16A的预测的碱基检出序列1618相对更准确,因为图16A的预测的碱基检出序列1618是使用未经训练的神经网络配置1615生成的,而图16B的预测的碱基检出序列1628是使用至少部分神经网络配置1615生成的。
此外,映射逻辑1416将预测的碱基检出序列1628中的各个碱基检出序列映射到寡核苷酸1501A或寡核苷酸1501B,或者声明预测的碱基检出序列1628的映射是不确定的(例如,类似于相对于图15D的讨论)。
图16C示出了从图16B的映射生成的标记训练数据1650,其中训练数据1650将用于进一步训练。
如图16C所示,一些预测的碱基检出序列1628和对应的序列信号1512被映射到寡核苷酸1501A的碱基序列(即,基准真值1506a),一些其他预测的碱基检出序列1628和对应的序列信号1512被映射到寡核苷酸1501B的碱基序列(即,基准真值1506b),并且剩余的预测的碱基检出序列1628和对应的序列信号1512的映射是不确定的。
例如,预测的碱基检出序列1628被挑选成三个类别—(i)预测的碱基检出序列1628c、1628d和1628G以及对应的序列信号1512c、1512d和1512G被映射到寡核苷酸1501A的碱基序列(即,基准真值1506a);(ii)将预测的碱基检出序列1628a、1628b和1628f以及对应的序列信号1512a、1512b和1512f映射到寡核苷酸1501B的碱基序列(即,基准真值1506b);并且(iii)剩余的预测的碱基检出序列1628e和1628g以及对应的序列信号1512e和1512g的映射是不确定的。
仅作为示例,假设训练数据1650的3,300个碱基检出序列被映射到寡核苷酸1501A,并且训练数据1650的3,200个碱基检出序列被映射到寡核苷酸1501B。如图16C所示,剩余的3,500个碱基检出序列是不确定的,并且没有映射到两个寡核苷酸中的任一者。
比较图15E和图16C的训练数据之间的未映射的(或不确定的)碱基检出序列的数量,观察到该数量在图15E中是4,400,并且在图16C中是3,500。这是因为图16B的至少部分训练的神经网络配置1615(其用于生成训练数据1650的映射)可比图15A的至少部分训练的神经网络配置1415(其用于生成训练数据1550的映射)相对更准确和/或更经训练。因此,碱基检出的不确定序列的数量逐渐减少,因为碱基检出变得相对更准确(例如,更少错误倾向),因此现在相对更正确地映射。
图16D示出了图14A的碱基检出系统1400,该碱基检出系统在“双寡核苷酸训练阶段”的“训练数据消耗和训练阶段”的第二次迭代中操作,以使用两个已知的合成序列1501A和1501B来训练包括图16A的神经网络配置1615的碱基检出器1414。
图16A和图16D至少部分相似。例如,图16A和图16D分别用于使用图15E的训练数据1550和图16C的训练数据1650来训练神经网络配置1615。注意,在图16A的初始阶段,神经网络配置1615是完全未经训练的;而在图16D的初始阶段,神经网络配置1615至少部分地被训练。
在图16D中,包括至少部分训练的神经网络配置1615的碱基检出器1414接收先前在图15A的“训练数据生成阶段”期间生成的序列信号1512,并根据序列信号1512预测碱基检出序列1638。预测的碱基检出序列1638包括预测的碱基检出序列1638a、1638b、…、1638G。例如,序列信号1512a用于预测碱基检出序列1638a,序列信号1512b用于预测碱基检出序列1638b,序列信号1512G用于预测碱基检出序列1638G,并依此类推。
神经网络配置1615没有被完全训练,因此预测的碱基检出序列1638a、1638b、…、1638G将包括一些错误,尽管图16D的预测的碱基检出序列1638中的错误可能小于图16A的预测的碱基检出序列1618和图16B的预测的碱基检出序列1628中的错误。图16C的映射训练数据1650现在被用于进一步训练神经网络配置1615。例如,根据训练数据1650,碱基检出器1414知道:
(i)序列信号1512c、1512d、1512G是用于寡核苷酸1501A的碱基序列(即,基准真值1506a);
(ii)序列信号1512a、1512b、1512f是用于寡核苷酸1501B的碱基序列(即,基准真值1506b);并且
(iii)序列信号1512e、1512g的映射是不确定的。
因此,基于上文的(iii),图16D中的预测的碱基检出序列1638e和1638g(例如,分别对应于序列信号1512e和1512g)不用于训练神经网络配置1615。因此,这些预测的碱基检出序列1638e和1638g被从训练数据中丢弃并且不用于梯度更新(在图16D中使用预测的碱基检出序列1618e、1618g和梯度更新框1617之间的“X”或“叉号”来象征性地示出)。
基于上文的(i),碱基检出器1414知道预测的碱基检出序列1638c、1638d和1638G(例如,分别对应于序列信号1512c、1512d和1512G)可能是用于寡核苷酸1501A的。即,寡核苷酸1501A的碱基序列可能是这些预测的碱基检出序列1638c、1638d、1638G的基准真值,尽管部分神经网络配置1615可能已经错误地预测了这些预测的碱基检出序列的至少一些碱基。因此,神经网络配置使用比较功能1613将预测的碱基检出序列1638c、1638d、1638G中的每一者与基准真值1506a(其是寡核苷酸1501A的碱基序列)进行比较,并且将所生成的错误用于梯度更新1617以及神经网络配置1615的所得训练。例如,在比较期间,将预测的碱基检出序列1638c的每个碱基检出与对应的基准真值序列的对应的碱基检出进行比较,以生成对应的比较结果,例如,如相对于图14A1所讨论的。
类似地,基于上文的(ii),碱基检出器知道预测的碱基检出序列1638a、1638b和1638f(例如,分别对应于序列信号1512a、1512b和1512f)可能是用于寡核苷酸1501B的。即,寡核苷酸1501A的碱基序列可能是这些预测的碱基检出序列1638a、1638b和1638f的基准真值,尽管部分神经网络配置1615可能已经错误地预测了这些预测的碱基检出序列上的至少一些碱基。因此,神经网络配置使用比较功能1613将预测的碱基检出序列1638a、1638b和1638f中的每一者与基准真值1506b(其是寡核苷酸1501B的碱基序列)进行比较,并且将所生成的错误用于梯度更新1617和所得的神经网络配置1615的训练。
图17A示出了描绘用于使用单寡核苷酸和双寡核苷酸序列迭代地训练用于碱基检出的神经网络配置的示例方法1700的流程图。方法1700渐进地训练本质上渐进且单调复杂的NN配置。增加NN配置的复杂性可包括增加NN配置的层的数量、增加NN配置的滤波器的数量、增加NN配置中的拓扑复杂性等。例如,方法1700是指第一个NN配置(其是本文之前相对于图14A和其他图讨论的NN配置1415)、第二个NN配置(其是本文之前相对于图16A和其他图讨论的NN配置1615)、第P个NN配置(其没有相对于图14A至图16D具体讨论),并依此类推。在示例中,第P个NN配置的复杂性高于第(P-1)个NN配置的复杂性,后者高于第(P-2)个NN配置的复杂性,并依此类推,并且第二个NN配置的复杂性高于第一个NN配置的复杂性,如图17A的框1710内象征性示出的。因此,NN配置的复杂性单调地增加(即,稍后阶段的NN配置至少具有与较早阶段的NN配置类似的复杂性或比较早阶段的NN配置更高的复杂性)。
注意,在方法1700中,操作1704a用于迭代地训练第一个NN配置并且生成用于第二个NN配置的标记训练数据,操作1704b1-1704bk用于训练第二个NN配置并且生成用于第三个NN配置的标记训练数据,操作1704c用于训练第三个NN配置并且生成用于第四个NN配置的标记训练数据。该过程继续,并且操作1704P用于训练第P个NN配置并且生成用于后续NN配置的标记训练数据。因此,一般而言,在方法1700中,操作1704i用于训练第i个NN配置并且生成用于第(i+1)个NN配置的标记训练数据,其中i=1、…、P。
方法1700包括,在1704a处,(i)用单个寡核苷酸序列迭代地训练第一个NN配置,以及(ii)使用经训练的第一个NN配置生成第一个2-寡核苷酸的标记训练数据。如所讨论的,第一个NN配置是图14A的NN配置1415,并且单个寡核苷酸序列包含相对于图14A、图14B讨论的寡核苷酸#1。相对于图14A、图14B讨论了具有单个寡核苷酸序列的第一个NN配置的迭代训练。相对于图15A、图15D、图15E讨论了使用经训练的第一个NN配置的第一个2-寡核苷酸的标记训练数据的生成,其中第一个2-寡核苷酸的标记训练数据是图15E的训练数据1550。
方法1700然后从1704a进行到1704b。如图所示,操作1704b用于训练第二个NN配置(例如,使用从操作1704a生成的第一个2-寡核苷酸的标记训练数据),并且使用训练的第二个NN配置来生成用于训练第三个NN配置的另外的2-寡核苷酸的标记训练数据。操作1704b包括框1704b1-1704bk处的子操作。
在框1704b1处,(i)使用在1704a处生成的第一个2-寡核苷酸的标记训练数据来训练第二个NN配置,以及(ii)使用该至少部分训练的第二个NN配置来生成第二个2-寡核苷酸的标记训练数据。如所讨论的,第二个NN配置是图16A的NN配置1615。使用第一个2-寡核苷酸的标记训练数据训练第二个NN配置也示于图16A中。相对于图16B和图16C讨论了使用该至少部分训练的第二个NN配置生成第二个2-寡核苷酸的标记训练数据(例如,其是图16C的训练数据1650)。
方法1700然后从1704b1进行到1704b2。在框1704b2处,(i)使用第二个2-寡核苷酸的标记训练数据进一步训练第二个NN配置,以及(ii)使用进一步训练的第二个NN配置生成第三个2-寡核苷酸的标记训练数据。使用第二个2-寡核苷酸的标记训练数据训练第二个NN配置示于图16D中。使用进一步训练的第二个NN配置的第三个2-寡核苷酸的标记训练数据的生成未示出,但将类似于相对于图16B和图16C的讨论。
注意,框1704b1是训练第二个NN配置的第一次迭代,框1704b2是训练第二个NN配置的第二次迭代,并依此类推,并且最后框1704bk是训练第二个NN配置的第k次迭代。如所讨论的,相对于图16A、图16B、图16C详细地讨论了框1704b1的操作。后续框1704b2、…、1704bk的操作将类似于对框1704b1的讨论。
注意,在所有迭代1704b1、…、1704bk中使用同一第二个NN配置。因此,这些k次迭代旨在迭代地训练同一第二个NN配置,而不增加第二个NN配置的复杂性。
第二个NN配置的训练随着框1704b1、1704b2、…、1704bk的每次迭代而进行。由于在迭代1704b1、…、1704bk的每个步骤处逐渐训练第二神经网络,因此第二神经网络在预测碱基检出序列时逐渐产生相对较少的错误。例如,如框1704a所示并且也如图15E所示,使用训练的第一个NN配置生成的第一个2-寡核苷酸的标记训练数据(即,训练数据1550)具有44%(即,10,000中的4,400)不确定映射。如框1704b1所示并且也如图16C所示,使用部分训练的第二个NN配置生成的第二个2-寡核苷酸的标记训练数据(即,训练数据1650)具有35%(即,10,000中的3,500)不确定映射。如框1704b2所示并且仅作为示例,使用进一步训练的第二个NN配置生成的第三个2-寡核苷酸的标记训练数据可具有32%(即,10,000中的3,200)不确定映射。不确定映射的百分比可随着每次迭代而逐渐减小,直到例如在框1704bk处达到约20%。
用于训练第二个NN配置的迭代次数“k”可基于一个或多个收敛条件的满足。一旦满足收敛条件,用于训练第二个NN配置的迭代就可结束。收敛条件是实施方式特异性的,并且指示为了训练第二个NN配置而要经历的迭代次数。在示例中,满足收敛条件是进一步迭代可能不显著有助于进一步训练第二个NN配置的指示,因此可终止用于第二个NN配置的训练迭代。本文讨论的是收敛条件及其满足的一些示例。例如,可迭代地训练第二个NN配置,直到不确定映射的百分比小于阈值百分比。此处,一旦不确定映射的百分比变得小于阈值百分比,就满足收敛条件。例如,对于第二个NN配置,该阈值可以是约20%,仅作为示例。因此,在迭代k时,一旦满足阈值,就满足收敛条件,并且第二个NN配置的训练结束。因此,该方法进行到1704c,其中在框1704bk处生成的第K个2-寡核苷酸的标记训练数据用于训练比第二个NN配置更复杂的第三个NN配置。
在另一个示例中,第二个NN配置的迭代继续,直到不确定映射百分比稍微饱和(即,不随着连续迭代而显著降低),这满足收敛条件。即,在该示例中,低于阈值水平的饱和指示迭代训练的足够收敛(例如,指示收敛条件的满足),并且进一步迭代不能显著改善模型,因此当前模型的迭代可结束。例如,假设在迭代(k-2)时(例如,在框1704b(k-2)时),不确定映射百分比为21%;在迭代(k-1)时(例如,在框1704b(k-2)时),不确定映射百分比为20.4%;并且在迭代k时(例如,在框1704bk时),不确定映射百分比为20%。因此,对于最后两次迭代,不确定映射百分比的减少相对较低(例如,分别为0.6%和0.4%),这意味着训练已经几乎饱和并且进一步训练不能显著改善第二个NN配置。此处,饱和度被测量为在两次连续迭代期间不确定映射百分比之间的差值。即,如果两个连续迭代具有几乎相同的不确定映射百分比,则进一步迭代可能对该百分比的进一步减小没有帮助,因此可终止训练迭代。因此,在该阶段,终止针对第二个NN配置的迭代,并且方法1700针对第三个NN配置进行到1704c。
在又一个示例中,预先指定迭代次数“k”,并且完成k数量迭代满足收敛条件,使得针对当前NN配置的训练可结束并且下一个NN配置可开始。
因此,在针对第二个NN配置的迭代结束时(即,在框1704k结束时),方法1700进行到框1704c,其中迭代地训练第三个NN配置。第三个NN配置的训练还将包括类似于相对于操作1704b1、…、1704bk所讨论的那些迭代的迭代,因此不再进一步详细讨论。
该渐进地训练更复杂的NN配置的过程继续,直到在方法1700的1704P处,训练了第P个NN配置,并且生成用于训练下一个NN配置的2-寡核苷酸训练数据。
注意,在示例中并且如本文中所讨论的,相同的2-寡核苷酸序列可用于框1704b1、…、1704bk、1704c、…、1704P的所有迭代。然而,在一些其他示例中并且尽管本文未讨论,不同的2-寡核苷酸序列也可用于图17的方法1700的不同迭代。
如所讨论的,模型越复杂,训练该模型以预测碱基检出越好。例如,在训练第二个NN配置结束时,由第二个NN配置生成的最终标记训练数据具有20%不确定映射。在第三个NN配置的训练结束时,不确定映射百分比进一步降低。例如,在第三个NN配置的第一次训练迭代期间,不确定映射百分比可以为36%(例如,因为第三个NN配置在第一次迭代期间刚刚被训练),并且该百分比可随着第三个NN配置的后续训练迭代而逐渐减小。假设,如图17A所示,例如,在训练第三个NN配置结束时,由第三个NN配置生成的最终标记训练数据具有17%不确定映射。该不确定映射百分比随着图17A的迭代的进行而进一步降低,并且例如,在训练第P个NN配置结束时,由第P个NN配置生成的最终标记训练数据具有12%不确定映射。注意,当对于第P个NN配置满足收敛条件(本文较早讨论的)时,训练在例如12%不确定映射处结束。因此,在方法1700中训练P数量NN配置。数字“P”可以是三、四、五或更多,并且是实施方式特异性的,并且还可基于对应的一个或多个收敛条件的满足。例如,如果第(P-1)个NN配置导致12.05%不确定映射,并且如果第P个NN配置导致12%不确定映射,则在两个NN配置之间存在0.05%不确定映射的边际改善。这表明用2-寡核苷酸序列训练新NN配置是饱和的。此处,饱和度是指两个连续NN配置之间的不确定映射百分比的差值。如果饱和度等于或低于阈值(诸如0.1%),则终止2-寡核苷酸序列训练的训练。在另一个示例中,NN配置的数量“P”可由用户预先指定为例如三个、四个或更高数量。如将在本文稍后依次讨论的,一旦完成使用2-寡核苷酸序列的P数量NN配置的训练,另外的复杂分析物(诸如3-寡核苷酸序列)就可用于训练。
图17B示出了在图17A的方法1700结束时由第P个NN配置生成的示例最终标记训练数据1750。如所讨论的,在训练第P个NN配置结束时,由第P个NN配置生成的最终标记训练数据具有12%(或10,000中的1,200)不确定映射。预测的碱基检出序列被挑选成三个类别:(i)包含映射到寡核苷酸1501A的预测的碱基检出序列的第一类别,(ii)包含映射到寡核苷酸1501B的预测的碱基检出序列的第二类别,和(iii)包含未映射到寡核苷酸1501A或1501B两者的预测的碱基检出序列的第三类别。基于相对于图15E和图16C的训练数据的讨论,图17B的训练数据1750将是明显的。
图18A示出了图14A的碱基检出系统1400,该碱基检出系统在“三寡核苷酸训练阶段”的“训练数据消耗和训练阶段”的第一次迭代中操作,以训练包括3-寡神经网络配置1815的碱基检出器1414。将神经网络配置1815标记为“3-寡核苷酸”神经网络配置1815的原因将在本文稍后中显而易见。图18A至少部分地类似于图16D。然而,与图15D不同,在图18A中的训练期间使用在方法1700结束时生成的(例如,通过使用基于2-寡核苷酸的训练的第P个NN配置)标记训练数据1750(参见图17B)。
例如,在图18A中,包括3-寡核苷酸神经网络配置1815的碱基检出器1414预测碱基检出序列1838a、1838b、…、1838G。图17B的映射训练数据1750现在被用于进一步训练3-寡核苷酸神经网络配置1815,类似于相对于图16D讨论的训练。
图18B示出了图14A的碱基检出系统1400,该碱基检出系统在“三寡核苷酸训练阶段”的“训练数据生成阶段”中操作,以训练包括图18A的3-寡核苷酸神经网络配置1815的碱基检出器1414。
在图18B中,三个不同的寡核苷酸序列1801A、1801B和1801C被加载在流通池1405的各种簇中。仅作为数量并且不限制本公开的范围,假设在10,000个簇1407中,约3,200个簇包括寡核苷酸序列1801A,约3,300个簇包括寡核苷酸序列1801B,并且剩余的3,500个簇包括寡核苷酸序列1501C(尽管在另一个示例中,三个寡核苷酸可基本上等分10,000个簇)。
测序机器1404为该多个簇1407a、…、1407G中的对应簇生成序列信号1812a、…、1812G。例如,对于簇1407a,测序机器1404生成对应的序列信号1812a,其指示用于一系列测序循环的簇1407a的碱基。类似地,对于簇1407b,测序机器1404生成对应的序列信号1812b,其指示用于一系列测序循环的簇1407b的碱基,并依此类推。
包括神经网络配置1815的碱基检出器1414分别基于对应的序列信号1812a、…、1812G来预测该多个簇1407a、…、1407G中的对应簇的碱基检出序列1818a、…、1818G,例如,如相对于图15A所讨论的。
在实施方案中,寡核苷酸序列1801A、1801B和1801C被选择为在三个寡核苷酸的碱基之间具有足够的编辑距离,例如,这基于相对于图15B和图15C的讨论将是明显的。例如,三个寡核苷酸序列1801A、1801B和1801C中的任一者与三个寡核苷酸序列1801A、1801B和1801C中的另一者分离至少阈值编辑距离。仅作为示例,阈值编辑距离可以是4个碱基、5个碱基、6个碱基、7个碱基或甚至8个碱基。因此,三个寡核苷酸被选择为使得三个寡核苷酸彼此足够不同。
再次参考图18B,在示例中,碱基检出器1414不知道在哪个簇中填充了哪个寡核苷酸序列。因此,碱基检出器1414不知道已知的寡核苷酸序列1801A、1801B和1801C以及各种簇之间的映射。映射逻辑1416接收预测的碱基检出序列1818,并将每个预测的碱基检出序列1818映射到寡核苷酸1801A、1801B或1801C中的一者,或者声明将预测的碱基检出序列映射到三个寡核苷酸中的任一者的不确定性。图18C示出了映射操作,用于(i)将预测的碱基检出序列映射到三个寡核苷酸1801A、1801B、1801C中的任一者,或(ii)声明将预测的碱基检出序列映射到三个寡核苷酸中的任一者是不确定的。
如图18C所示,预测的碱基检出序列1818a与寡核苷酸1801A具有2个碱基的相似性,与寡核苷酸1801B具有5个碱基的相似性,并且与寡核苷酸1801C具有1个碱基的相似性。假设阈值相似性ST为4(例如,相对于等式1至4所讨论的),将预测的碱基检出序列1818a映射到寡核苷酸1801B。
类似地,在图18C的示例中,预测的碱基检出序列1818b被映射到寡核苷酸1801C,并且预测的碱基检出序列1818a的映射被图18B的映射逻辑1416声明为不确定的。
图18D示出了从图18C的映射生成的标记训练数据1850,其中训练数据1850用于训练另一个神经网络配置。如图18D所示,一些预测的碱基检出序列1818和对应的序列信号被映射到寡核苷酸1801A的碱基序列(即,基准真值1806a),一些预测的碱基检出序列1818和对应的序列信号被映射到寡核苷酸1801B的碱基序列(即,基准真值1806b),一些预测的碱基检出序列1818和对应的序列信号被映射到寡核苷酸1801C的碱基序列(即,基准真值1506c),并且剩余的预测的碱基检出序列1818和对应的序列信号的映射是不确定的。基于本文较早相对于图15E的训练数据1550的讨论,图18D的训练数据1850将是显而易见的。
图18E示出了描绘用于使用3-寡核苷酸基准真值序列来迭代地训练用于碱基检出的神经网络配置的示例方法1880的流程图。方法1800渐进地训练本质上渐进且单调复杂的3-寡核苷酸NN配置。增加NN配置的复杂性可包括增加NN配置的层的数量、增加NN配置的滤波器的数量、增加NN配置中的拓扑复杂性等,也如相对于图17A所讨论的。例如,方法1880涉及第一个3-寡核苷酸NN配置(其是本文较早相对于图18A讨论的3-寡核苷酸NN配置1815)、第二个3-寡核苷酸NN配置、第Q个NN配置,并依此类推。在示例中,第Q个3-寡核苷酸NN配置的复杂性高于第(Q-1)个3-寡核苷酸NN配置的复杂性,后者高于第(Q-2)个3-寡核苷酸NN配置的复杂性,并依此类推,并且第二个3-寡核苷酸NN配置的复杂性高于第一个3-寡核苷酸NN配置的复杂性,如图18E的框1890内象征性示出的。
注意,在图18E的方法1880中,操作1704P来自图17A的方法1700的最后框,操作1888a1-1888am用于迭代地训练第一个3-寡核苷酸NN配置并生成用于第二个3-寡核苷酸NN配置的标记训练数据,并且操作1888b用于迭代地训练第二个3-寡核苷酸NN配置并生成用于第三个3-寡核苷酸NN配置的标记训练数据,并依此类推。该过程继续,并且操作1888Q用于训练第Q个3-寡核苷酸NN配置并且生成用于训练后续NN配置的标记训练数据。因此,一般而言,在方法1880中,操作1888i用于训练第i个3-寡核苷酸NN配置并且生成用于第i+1个3-寡核苷酸NN配置的标记训练数据,其中i=1、…、Q。
方法1880包括,在1704P处,重复操作1704b1、…、1704bk以使用2-寡核苷酸基准真值数据来训练第P个NN配置,并且生成2-寡核苷酸的标记训练数据以用于训练下一个NN配置,这是图17A的方法1700的最后框。
方法1880然后从1704P进行到1888a1。如图所示,操作1888a用于使用从先前框(例如,框1704P)生成的标记训练数据(例如,图17B的训练数据1750)来训练第一个3-寡核苷酸NN配置(例如,3-寡核苷酸神经网络配置1815),并且使用训练的第一个3-寡核苷酸NN配置来生成用于第二个3-寡核苷酸NN配置的后续训练的另外的3-寡核苷酸的标记训练数据。操作1888a包括框1888a1-1888am处的子操作。
在框1888a1处,(i)使用在1704P处生成的标记训练数据来训练第一个3-寡核苷酸NN配置(例如,图18A的3-寡核苷酸NN配置1815),以及(ii)使用该至少部分训练的第一个3-寡核苷酸NN配置来生成3-寡核苷酸的标记训练数据(诸如图18D的训练数据1850)。
方法1880然后从1888a1进行到1888a2。在框1888a2处,(i)使用在先前阶段生成的(例如,在框1888a1处生成的)3-寡核苷酸的标记训练数据进一步训练第一个3-寡核苷酸NN配置,以及(ii)使用进一步训练的第一个3-寡核苷酸NN配置生成新3-寡核苷酸的标记训练数据。
在1888a3、…、1888am处迭代地重复相对于框1888a2(和框1888a2)讨论的操作。注意,框1888a1、…、1888am全部用于训练第一个3-寡核苷酸NN配置。迭代次数“m”可以是实施方式特异性的,并且已经相对于图17A的方法1700讨论了用于选择用于训练特定NN模型的迭代次数的示例标准(例如,在该方法中迭代次数“k”的选择)。
在第一个3-寡核苷酸NN配置在1888am被充分或令人满意地训练之后,方法1888进行到框1888b,其中第二个3-寡核苷酸NN配置被迭代地训练。第二个3-寡核苷酸NN配置的训练还将包括类似于相对于操作1888a1、…、1888am所讨论的那些迭代的迭代,因此不再进一步详细讨论。
该渐进地训练更复杂的NN配置的过程继续,直到在方法1888的1888Q处,训练了第Q个3-寡核苷酸NN配置,并且生成用于训练下一个NN配置的对应的3-寡核苷酸训练数据。
图19示出了描绘用于使用多寡寡核苷酸基准真值序列来迭代地训练用于碱基检出的神经网络配置的示例方法1900的流程图。实质上,图19总结了相对于图14A至图18E的讨论。例如,图19示出了使用不同的寡核苷酸阶段(诸如单寡核苷酸阶段、双寡核苷酸阶段、三寡核苷酸阶段,并依此类推)的迭代训练和标记训练数据生成过程。因此,用于训练和生成标记训练数据的分析物的复杂性和/或长度随着迭代以及碱基检出器的基础神经网络配置的复杂性而渐进地且单调地增加。
方法1900包括,在1904a处,迭代地训练1-寡核苷酸NN配置,并且生成标记训练数据,例如,如相对于图14A和图14B以及图17A的方法1704的框1700a所讨论的。
方法1900进一步包括,在1904b处,使用双寡核苷酸序列迭代地训练一个或多个2-寡核苷酸NN配置,并且生成标记的2-寡核苷酸训练数据,例如,如相对于图17A的方法1700的框1704b1-1704P所讨论的。
方法1900进一步包括,在1904c处,使用三寡核苷酸序列迭代地训练一个或多个3-寡核苷酸NN配置,并且生成标记的3-寡核苷酸训练数据,例如,如相对于图18E的方法1880的框1888a1-1888Q所讨论的。
该过程继续,并且可渐进地使用更高数量的寡核苷酸序列。最后,在1904N处,使用N-寡核苷酸序列训练一个或多个N-寡核苷酸NN配置,并且生成对应的N-寡核苷酸的标记训练数据,其中N可以是大于或等于2的适当正整数。基于相对于在1904b和1904c处的操作的讨论,在1904N处的操作将是显而易见的。
图14A至图19与用合成地测序的简单寡核苷酸序列训练NN模型相关联。例如,与生物体的DNA中发现的序列相比,这些图中使用的寡核苷酸序列可能具有更少数量的碱基。在实施方案中,相对于图14A至图19讨论的基于寡核苷酸的训练用于渐进地训练复杂的NN模型并生成渐进的丰富标记训练数据集。例如,图19使用N-寡核苷酸NN配置输出N-寡核苷酸的标记训练数据集,其中N-寡核苷酸的标记训练数据集可具有比与“少于N”数量的寡核苷酸相关联的标记训练数据集更丰富、多样和更大的标记训练数据集。
然而,在实践中,测序机器1404和碱基检出器1414用于碱基检出比简单的寡核苷酸序列复杂得多的序列。例如,在实践中,测序机器1404和碱基检出器1414用于碱基检出比简单的寡核苷酸序列复杂得多的生物体序列。因此,必须在生物体DNA和RNA中发现的比寡核苷酸序列更复杂的碱基序列上训练碱基检出器1414。
图20A示出了用于训练图14A的碱基检出器1414的生物体序列2000。生物体序列可以是具有相对较少碱基的生物体,诸如phix(也称为phi X)。phix噬菌体是单链DNA(ssDNA)病毒。phix 174噬菌体是感染大肠杆菌的ssDNA病毒,并且是在1977年被测序的第一个基于DNA的基因组。phix(诸如ΦX174)病毒颗粒也已在体外成功组装。在实施方案中,在用寡核苷酸序列(如相对于图14A至图19所讨论的)训练碱基检出器1414之后,可用简单生物体DNA(诸如phix DNA)进一步训练碱基检出器1414,尽管这不限制本公开的范围。例如,代替phix,可使用更复杂的生物体,诸如细菌(诸如大肠杆菌或大肠埃希菌)。因此,生物体序列2000可以是phix或另一种相对简单的生物体DNA。生物体序列2000是预先测序的,即,生物体序列2000的碱基序列是先验已知的(例如,由不同于图14A所示的那些的测序机器和已经训练的碱基检出器测序)。
如图20A所示,当将生物体序列2000加载到图14A的测序机器1404中时,生物体序列2000被划分或分割成多个子序列2004a、2004b、…、2004N。每个子序列被加载到对应的一个或多个簇中。因此,每个簇1407填充有对应的子序列2004及其合成副本。可使用任何适当的标准来分割生物体序列2000,例如,簇可被填充的子序列的最大大小。例如,如果流通池的单个簇可填充有具有最多约150个碱基的子序列,则可相应地进行分割,使得子序列2004中的单个子序列具有最多150个碱基。在示例中,单个子序列2004可具有基本上相等数量的碱基;而在另一个示例中,单个子序列2004可具有不同数量的碱基。被用作讨论本公开的教导的示例的子序列2004b被假定为具有L1数量的碱基。仅作为示例,数量L1可介于100至200之间,尽管它可具有任何其他适当的值并且是实施方式特异性的。
图20B示出了图14A的碱基检出系统1400,该碱基检出系统在第一生物体训练阶段的训练数据生成阶段中操作,以使用图20A的第一生物体序列2000的子序列2004a、…、2004S来训练包括第一生物体水平神经网络配置2015的碱基检出器1414。
注意,尽管未在图20B中示出,但第一个生物体水平NN配置2015初始使用来自图19的方法1904的N-寡核苷酸的标记训练数据进行训练。因此,第一个生物体水平NN配置2015是至少部分预先训练的。图20B的碱基检出系统1400与图14A的碱基检出系统相同,尽管在两个图中碱基检出系统1400使用不同的神经网络配置和不同的分析物。
如所讨论的,将子序列2004a、…、2004S加载到对应的簇1407中。例如,将子序列2004a加载到簇1407a中,将子序列2004b加载到簇1407b中,并依此类推。注意,每个簇1407将包括同一子序列2004的多个测序拷贝。例如,加载在簇中的子序列将被合成地复制,使得该簇具有同一子序列的多个拷贝,这有助于生成该簇的对应的序列信号2012。
注意,碱基检出器1414不知道哪个簇填充有哪个子序列。例如,如果子序列2004a及其合成副本被加载到特定簇中,则碱基检出器1414将不知道由子序列2004a填充的簇。如本文稍后将讨论的,映射逻辑1416旨在将单个子序列2004映射到对应的簇1407,以促进训练过程。
测序机器1404为该多个簇1407a、…、1407G中的对应簇生成序列信号2012a、…、2012G。例如,对于簇1407a,测序机器1404生成对应的序列信号2012a,其指示用于一系列测序循环的簇1407a的碱基。类似地,对于簇1407b,测序机器1404生成对应的序列信号2012b,其指示用于一系列测序循环的簇1407b的碱基,并依此类推。
在示例中,尽管单个子序列2004被加载到对应的簇1407中,但碱基检出器1414不知道哪个子序列加载到哪个簇中。因此,碱基检出器1414不知道子序列2004和簇1407之间的映射。当每个簇1407生成对应的序列信号2012时,碱基检出器1414不知道子序列2004和序列信号2012之间的映射。
包括神经网络配置2015的碱基检出器1414分别基于对应的序列信号2012a、…、2012G来预测该多个簇1407a、…、1407G中的对应簇的碱基检出序列2018a、…、2018G。例如,对于簇1407a,碱基检出器1414基于对应的序列信号2012a来预测对应的碱基检出序列2018a,包括用于一系列测序循环的簇1407a的碱基检出。类似地,对于簇1407b,碱基检出器1414基于对应的序列信号2012b预测对应的碱基检出序列2018b,包括用于一系列测序循环的簇1407b的碱基检出,并依此类推。
注意,神经网络配置2015仅是部分训练的,并且不是完全训练的。因此,神经网络配置2015不可能正确地预测单个子序列的一些或大多数碱基。
此外,随着碱基检出在子序列中进行,例如由于衰落以及/或者噪声的定相或预定相,所以碱基越来越难以检出。图20C示出了衰落的示例,其中信号强度随着作为碱基检出操作的测序运行的循环数而降低。衰落是荧光信号强度随着循环数的指数衰减。随着测序运行的进行,分析物链被过度洗涤,暴露于产生反应性物质的激光辐射,并且经受恶劣环境条件。所有这些导致每个分析物中片段的逐渐丢失,从而降低了其荧光信号强度。衰落也称为变暗或信号衰减。图20C示出了衰落2000C的一个示例。在图20C中,具有AC微卫星的分析物片段的强度值表现出指数衰减。
图20D概念性地示出了随着测序循环进展而降低的信噪比。例如,随着测序进行,准确的碱基检出变得越来越困难,因为信号强度降低且噪声增加,从而导致信噪比显著降低。在物理上,观察到与较早合成步骤相比,稍后合成步骤在相对于传感器的不同位置上附着标签。当传感器位于正被合成的序列下方时,由于与较早步骤相比,在稍后测序步骤中,标签附着到距传感器更远的链上,从而导致信号衰减。这导致随着测序循环进展,信号衰减。在一些设计中,在传感器位于保持簇的基板上方的情况下,随着测序进行,信号可增加而不是衰减。
在研究的流通池设计中,当信号衰减时,噪声变大。在物理上,随着测序进行,定相和预定相增加噪声。定相是指测序中标签未能沿序列前进的步骤。预定相是指标签在测序循环期间向前跳两个位置而不是一个位置的测序步骤。定相和预定相相对不频繁,在大约500个至1000个循环中发生一次。与预定相相比,定相略微更频繁。定相和预定相影响产生强度数据的簇中的各个链,因此随着测序进行,来自簇的强度噪声分布累积成二项、三项、四项等展开式。
衰落、信号衰减和信噪比降低以及图20C和图20D的更多细节可见于2020年5月14日提交的名称为“Systems and Devices for Characterization and PerformanceAnalysis of Pixel-Based Sequencing”的美国非临时专利申请号16/874,599(代理人案卷号ILLM 1011-4/IP-1750-US)中,该专利申请以引用方式并入本文,如同在本文中完全阐述一样。
因此,在碱基检出期间,碱基检出的可靠性或可预测性随着测序循环的进行而降低。例如,参考特定子序列,诸如图20A的子序列2004b,通常,子序列2004b的碱基1至10的检出可比检出碱基10-20或检出碱基50-60更可靠。换句话说,子序列2004b的L1个碱基的前几个碱基可能比子序列2004b的L1个碱基的剩余碱基相对更正确地被预测。
图20E示出了子序列2004b的L1数量的碱基中的前L2数量的碱基的碱基检出,其中子序列2004b的前L2数量的碱基用于将子序列2004b映射到序列2000。
例如,参考图20A、图20B和图20E,测序机器1404生成对应于子序列2004b的序列信号2012b(即,假设子序列2004b被填充在簇1407b中)。但是,碱基检出器1414不知道对应于序列信号2012b的子序列适合于序列2000中的位置。即,碱基检出器1414不知道特定的子序列2004b被加载到簇1407b中。
如图20E所示,部分训练的NN配置2015(例如,使用来自图19的方法1904的N-寡核苷酸的标记训练数据训练的)接收序列信号2012b,并且预测由序列信号2012b指示的L1个碱基。L1个碱基的预测包括前L2个碱基的预测,其中子序列2004b的前L2数量的碱基的预测用于将子序列2004b映射到序列2000。
在示例中,数量L2为10。数量L2可以是任何适当的数量,诸如8、10、12、13等,只要L2相对小于L1即可。例如,L2小于L1的10%、小于L1的25%等。
例如,由NN配置2015预测的子序列2004b的前L2个碱基是A、C、C、T、G、A、G、C、G、A,如图20E所示。再挖掘(L1-L2)个碱基的预测在图20E中通常示为B1、…、B1。
现在,有可能NN配置2015已经正确地预测了前L2数量的碱基,或者在这些L2数量的碱基预测中可能存在一个或多个错误。映射逻辑1416试图将前L2数量的碱基预测映射到生物体序列2000中对应的连续L2个碱基。换句话说,映射逻辑1416试图将前L2数量的碱基预测与生物体序列2000中的连续L2个碱基匹配,使得可鉴定生物体序列2000内的子序列2004b。
如图20E所示,映射逻辑1416能够在针对子序列2004b预测的前L2数量的碱基和生物体序列2000中的连续L2个碱基之间找到“基本”和“独特”的匹配。注意,“基本”匹配意味着匹配可能不是100%,并且在匹配中可能存在一个或多个错误。例如,由NN配置2015预测的子序列2004b的前L2数量的碱基是A、C、C、T、G、A、G、C、G、A,而生物体序列2000中的对应的基本匹配的序列L2个碱基是A、G、C、T、G、A、G、C、G、A。因此,这两个L2个碱基序列中的第二个碱基不匹配,但剩余的碱基匹配。只要这种错配数量小于阈值百分比,映射逻辑1416就声明两个L2数量的碱基片段匹配。错配的阈值百分比可以是数量L2的10%或20%或某一类似百分比。因此,在示例中,L2为10且匹配逻辑1416可容忍多达2个错配(或20%错配)。因此,映射逻辑1416旨在将针对子序列2004b预测的前L2数量的碱基或其轻微变型(例如,其中该变型暗示匹配期间的错误容限)映射到生物体序列2000中的连续L2碱基。阈值百分比的值可以是实施方式特异性的,并且可以是用户可配置的。仅作为示例,在训练的初始迭代期间,阈值百分比可具有相对高的值(诸如20%);并且阈值百分比可在训练的稍后迭代期间具有相对较低的值(诸如10%)。因此,在训练迭代的早期阶段,阈值百分比可以是相对高的,因为在碱基检出预测中出现错误的可能性相对高。当NN配置被更好地训练时,它们可能做出更好的碱基检出预测,因此阈值百分比可逐渐降低。然而,在另一个示例中,阈值百分比在训练的所有迭代中可以是相同的。
而且,在示例中,两个L2数量的碱基之间的匹配对于适当的映射必须是独特的,并且非独特匹配可能导致该匹配和映射被声明为不确定的。因此,针对子序列2004b(或其轻微变型)预测的前L2数量的碱基在生物体序列2000中仅出现一次,以使匹配和映射有效。通常,对于较简单生物体的实际碱基序列,连续L2个碱基(或其小变型)在生物体序列2000中仅出现一次的可能性很高。
例如,参考图20E的示例,如果在生物体序列2000的一个部分中出现连续碱基A、G、C、T、G、A、G、C、G、A,G、A、G、C、G、A,并且在生物体序列2000的另一个部分中出现连续碱基A、C、A、T、G、A、G、C、G、A,则生物体序列2000的两个部分可与由NN配置2015预测的子序列2004b的前L2数量的碱基(其是A、C、C、T、G、A、G、C、G、A、G)匹配。因此,在该示例中,匹配不是独特的,并且映射逻辑1416不知道生物体序列2000的两个部分中的哪一个被映射到子序列2004b上的L2数量的碱基。在这种场景下,映射逻辑1416声明没有可靠的匹配(即,声明不确定映射)。
参考图20E的示例,如图所示,由NN配置2015预测的子序列2004b的前L2数量的碱基与生物体序列2000的对应L2数量的连续碱基“基本上”和“唯一地”匹配。还假设生物体序列2000的部分2000B(其具有L1个碱基),其中子序列2004b的前L2个预测与生物体序列2000的部分B的前L2个碱基“基本上”和“唯一地”匹配。因此,最可能地,子序列2004b实际上是生物体序列2000的部分2000B。换句话说,最可能地,在图20A中将生物体序列2000的部分2000B分割以形成子序列2004b。
因此,生物体序列2000的部分2000B充当对应于子序列2004b的序列信号2012b的基准真值。图20F示出了从图20E的映射生成的标记训练数据2050,其中标记训练数据2050包括图20A的生物体序列2000的部分作为基准真值。
在图20F的标记训练数据2050中,仅作为示例,由于不确定映射,因此子序列2004a、2004d没有映射到生物体序列2000的任何部分。例如,如相对于图20E所讨论的,在子序列的前L2个碱基和生物体序列2000的对应部分之间必须存在基本的和独特的匹配,以使映射逻辑1416声明结论性映射。NN配置2015可能在每个子序列2004a、2004d的前L2个碱基中产生相对较高数量的错误,其结果是这些子序列不能被映射到生物体序列2000的任何对应部分。
在图20F的标记训练数据2050中,子序列2004b(因此序列信号2012b)被映射到生物体序列2000的部分2000B,如相对于图20E所讨论的。类似地,子序列2004c被映射到生物体序列2000的部分2000C,并且子序列2004S被映射到生物体序列2000的部分2000S。例如,子序列2004c被映射到生物体序列2000的部分2000C(例如,具有与子序列2004c相同数量的碱基),使得子序列2004c的前L2个碱基预测与部分2000C的前L2个碱基“基本上”和“唯一地”匹配。
图20G示出了图14A的碱基检出系统1400,该碱基检出系统在“生物体水平训练阶段”的“训练数据消耗和训练阶段”中操作,以训练包括第一生物体水平神经网络配置2015的碱基检出器1414。例如,图20F的标记训练数据2050用于图20G的训练。
例如,将由碱基检出器1414预测的子序列2004b的L1个碱基与生物体序列2000的部分2000B进行比较。注意,由碱基检出器1414预测的子序列2004b的L1个碱基具有与生物体序列2000比较以生成图20F的映射的前L2个碱基。当生成图20F的映射时,不比较剩余的(L1-L2)个碱基,因为剩余的(L1-L2)个碱基可能包括许多错误。这是因为,如相对于图20C和图20D所讨论的,由于衰落、定相和/或预定相,所以在子序列中较晚出现的碱基具有较高的错误预测的机会。在图20G中,将由碱基检出器1414预测的子序列2004b的全部L1个碱基与生物体序列2000的部分2000B上的对应L1个碱基进行比较。
因此,图20F的映射指定了生物体序列2000的一部分(即,部分2000B),子序列2004b将与该部分在图20G中进行比较。一旦映射完成并且生成标记训练数据2050,就在图20G中使用标记训练数据2050用于错误信号的比较和生成,这些错误信号用于NN配置2015的后向通道中的梯度更新2017以及NN配置2015的结果训练。
注意,一些子序列(诸如子序列2004a和2004d,参见图20F)没有最终匹配生物体序列2000的对应部分,因此,在图20G的训练中不使用对应于这些子序列的碱基检出预测。
图21示出了描绘用于使用图20A的简单生物体序列2000迭代地训练用于碱基检出的神经网络配置的示例方法2100的流程图。方法2100渐进地训练本质上单调复杂的NN配置。如本文先前所讨论的,增加NN配置的复杂性可包括增加NN配置的层的数量、增加NN配置的滤波器的数量、增加NN配置中的拓扑复杂性等。例如,方法2100涉及第一个生物体水平NN配置(其是本文稍早相对于图20B、20G和其他图讨论的NN配置2015)、第二个生物体水平NN配置、第R个生物体水平NN配置,并依此类推。在示例中,第R个生物体水平NN配置的复杂性高于第(R-1)个生物体水平NN配置的复杂性,后者高于第(R-2)个生物体水平NN配置的复杂性,并依此类推,并且第二个生物体水平NN配置的复杂性高于第一个生物体水平NN配置的复杂性。
注意,在方法2100中,操作2104a(其包括框2104a1、…、2104am)用于训练第一个生物体水平NN配置并生成用于第二个生物体水平NN配置的标记训练数据,操作2104b用于训练第二个生物体水平NN配置并生成用于第三个生物体水平NN配置的标记训练数据,并依此类推。该过程继续,并且最后操作2104R用于训练第R个生物体水平NN配置并且生成用于下一阶段NN配置的标记训练数据。因此,一般而言,在方法2100中,操作2104i用于训练第i个生物体水平NN配置并且生成用于第i+1个生物体水平NN配置的标记训练数据,其中i=1、…、R。
方法2100包括,在2104a1处,(i)使用来自图19的方法1900的1904N的N-寡核苷酸的标记训练数据来训练第一个生物体水平NN配置(例如,图20B的生物体水平NN配置2015,尽管该NN配置的训练未在图20B中示出),以及(ii)使用至少部分训练的第一个生物体水平NN配置2015来生成标记训练数据。标记训练数据在图20F中示出,其生成相对于图20E和图20F讨论。
方法2100然后从2104a1进行到2014a2,在此期间进行训练第一个生物体水平NN配置2015的第二次迭代。例如,在2104a2处,(i)使用来自先前阶段的标记训练数据进一步训练第一个生物体水平NN配置2015,例如,如相对于图20G所讨论的;以及(ii)使用至少部分训练的第一个生物体水平NN配置2015生成进一步标记训练数据(例如,类似于相对于图20E和20F的讨论)。
训练和生成操作被迭代地重复,并且最后在2104am处完成第一个生物体水平NN配置2015的训练。注意,框2014a1是训练第一个生物体水平NN配置2015的第一次迭代,框2104a2是训练第一个生物体水平NN配置2015的第二次迭代,并依此类推,并且最后的框2104am是训练第一个生物体水平NN配置2015的第m次迭代。迭代次数可基于一个或多个因素,诸如本文先前相对于图17A的方法1700所讨论的那些因素(例如,其中讨论了用于选择迭代次数“k”的标准)。第一个生物体水平NN配置2015的复杂性在2104a1、…、2104am的迭代期间不改变。
在第一个生物体水平NN配置2015的迭代结束时(即,在框2104am结束时),方法2100进行到框2104b,其中现在迭代地训练第二个生物体水平NN配置。第二个生物体水平NN配置的训练和训练标记数据的相关生成也将包括类似于相对于操作2104a1、…、2104am讨论的那些迭代的迭代,因此不再进一步详细讨论。
该渐进地训练与训练标记数据的生成相关联的更复杂NN配置的过程继续,直到在方法2100的2104R处,训练第R个生物体水平NN配置,并且生成对应的标记训练数据用于训练下一个NN配置。
图22示出了用于训练图14A的碱基检出器1414的对应的NN配置的复杂生物体序列的使用。例如,如相对于图20A至图21所讨论的,每个子序列包含约L1数量的碱基的相对简单的生物体序列2000用于迭代地训练R数量的简单的生物体水平NN配置,并生成对应的标记训练数据。例如,图21的方法2100示出了使用简单生物体序列2000的这种迭代训练和标记训练数据的生成。如所讨论的,简单生物体序列2000可以是Phix或具有相对简单(或相对小)的遗传序列的另一个生物体。
图22还示出了相对复杂的生物体序列2200a的使用。生物体序列2200a比生物体序列2000更复杂,因为例如复杂生物体序列2200a中的碱基数量高于生物体序列2000中的碱基数量。仅作为示例,生物体序列2000可具有约1百万个碱基,并且复杂生物体序列2200a可具有4百万个碱基。在另一个示例中,从复杂生物体序列2200a分割的每个子序列具有比从生物体序列2000分割的每个子序列更高数量的碱基。在又一个示例中,从复杂生物体序列2200a分割的子序列的数量高于从生物体序列2000分割的子序列的数量。例如,当对复杂生物体序列2200a和生物体序列2000进行分割时,从复杂生物体序列2200a分割的子序列的数量将高于从生物体序列2000分割的子序列的数量,因为(i)复杂生物体序列2200a具有比生物体序列2000更高数量的碱基,并且(ii)每个子序列可具有至多阈值数量的碱基。在示例中,复杂生物体序列2200a包含来自细菌的遗传物质,诸如大肠杆菌,或比生物体序列2000更复杂的另一种适当的生物体序列。
如图22所示,复杂生物体序列2200a用于迭代地训练Ra数量的复杂生物体水平NN配置并且生成标记训练数据。标记训练数据的训练和生成类似于相对于图21的方法2100所讨论的那些(区别在于方法2100特别针对生物体序列2000,而此处使用复杂生物体序列2200a)。
该迭代过程继续,并且最后使用相对更复杂的生物体序列2200T。另外的复杂生物体序列2200T比生物体序列2000和2200a更复杂。例如,另外的复杂生物体序列2200T中的碱基数量高于生物体序列2000和2200a中的每一者的碱基数量。在另一个示例中,从另外的复杂生物体序列2200T分割的每个子序列比从生物体序列2000或2200a分割的每个子序列具有更高数量的碱基。在又一个示例中,从另外的复杂生物体序列2200T分割的子序列的数量高于从生物体序列2000或2200a分割的子序列的数量。在示例中,另外的复杂生物体序列2200T包含来自复杂物种的遗传物质,诸如来自人或其他哺乳动物的遗传物质。
如图22所示,生物体序列2200T用于迭代地训练RT数量的另外的复杂生物体水平NN配置并且生成标记训练数据。标记训练数据的训练和生成类似于相对于图21的方法2100所讨论的那些(区别在于方法2100特别针对生物体序列2000,而此处使用生物体序列2000T)。
图23A示出了描绘用于迭代地训练用于碱基检出的神经网络配置的示例方法2300的流程图。方法2300总结了本文相对于图14A至图22讨论的至少一些实施方案和示例中。方法2300训练本质上单调复杂的NN配置,如本文所讨论的。方法2300还单调地使用复杂遗传序列作为分析物。方法2300用于训练本文所讨论的各个图的碱基检出器1414。
方法2300在2304处开始,其中如相对于图17A的方法1700的框1704所讨论的,使用单个寡核苷酸基准真值数据来迭代地训练包括NN配置1415的碱基检出器1414(例如,参见图14A)。图14A的至少部分训练的NN配置1415用于生成标记训练数据,也如相对于图17A的方法1700的框1704所讨论的。
方法2300然后从2304进行到2308,其中使用2-寡核苷酸序列迭代地训练一个或多个NN配置,并且生成对应的标记训练数据,例如,如相对于图17A的方法1700所讨论的。
方法2300然后从2308进行到2312,其中使用3-寡核苷酸序列迭代地训练一个或多个NN配置,并且生成对应的标记训练数据,例如,如相对于图19的方法1900所讨论的。
该使用渐进地更高数量的寡核苷酸训练NN配置的过程继续,直到在2316处,使用N-寡核苷酸序列迭代地训练一个或多个NN配置,并且生成对应的标记训练数据,例如,如相对于图19的方法1900所讨论的。
方法2300然后转移到2320,其中训练和标记训练数据生成涉及生物体。在2320处,使用简单生物体序列,诸如图20A的简单生物体序列2000。使用简单生物体序列训练一个或多个NN配置(例如参见图21的方法2100),并且生成标记训练数据。
当方法2300从2320进行时,使用逐渐复杂的生物体序列,例如,如相对于图22所讨论的。最后,在2328处,使用复杂生物体序列(例如,图22的另外的复杂生物体序列2200T)迭代地训练一个或多个NN配置,并且生成对应的标记训练数据。
因此,方法2300继续直到碱基检出器1414被“充分训练”为止。“充分训练”可暗示碱基检出器1414现在可以小于目标错误率的错误率进行碱基检出。如所讨论的,训练过程可迭代地继续,直到实现充分的训练和碱基检出的目标错误率(例如,参见图23E的“错误率”图表)。在方法2300结束时,包括方法2300的最后NN配置的碱基检出器1414现在被充分训练。因此,包括方法2300的最后NN配置的训练的碱基检出器1414现在可用于推理,例如,用于对未知遗传序列进行测序。
图23B至图23E示出了示出本公开中讨论的碱基检出器训练过程的有效性的各种图表。参考图23B,示出的是示出由以下项生成的训练数据的映射百分比的图表2360:(i)使用本文讨论的基于神经网络的训练数据生成技术训练的第一个2-寡核苷酸NN配置(诸如NN配置1615)和(ii)使用常规2-寡核苷酸训练数据生成技术训练的NN配置。图表2360中的白色柱示出了来自使用训练数据训练的第一个2-寡核苷酸NN配置的映射数据,该映射数据使用本文讨论的基于神经网络的模型生成。因此,图表2360中的白色柱示出了使用本文讨论的各种技术生成的映射数据。图表2360中的灰色柱示出了与NN配置相关联的数据,该数据通过训练由常规基于非神经网络的模型(诸如实时分析(RTA)模型)生成的数据来训练。2019年5月28日发布的名称为“Data processing system and methods”的美国专利号US10304189B2中讨论了RTA模型的示例,该美国专利以引用方式并入本文,如同在本文中完全阐述一样。因此,图表2360中的灰色柱示出了使用常规技术生成的映射数据。在示例中,图表2360的白色柱可在图17A的方法1700的操作1704b1处生成。图表2360示出了映射到寡核苷酸1的碱基检出预测的百分比、映射到寡核苷酸2的碱基检出预测的百分比、以及不能最终映射到寡核苷酸1或2中的任一者的碱基检出预测的百分比(即,不确定百分比)。如图所示,使用本文讨论的技术生成的训练数据的不确定百分比略高于使用常规技术生成的训练数据的不确定百分比。因此,最初(例如,在训练迭代开始时),常规技术略优于本文讨论的训练数据生成技术。
现在参考图23C,示出的是示出使用以下项生成的训练数据中的映射百分比的图表2365:(i)使用本文讨论的基于神经网络的训练数据生成技术训练的第一个2-寡核苷酸NN配置(诸如NN配置1615)(白色柱)、(ii)使用本文讨论的基于神经网络的训练数据生成技术训练的第二个2-寡核苷酸NN配置(虚线柱)和(iii)使用常规2-寡核苷酸训练数据生成技术(诸如基于RTA的常规训练数据生成技术)训练的NN配置(灰色柱)。在示例中,第一个2-寡核苷酸NN配置(白色柱)和第二个2-寡核苷酸NN配置(虚线柱)分别对应于图17A的方法1700的操作1704b和1704c。图表2365示出了映射到寡核苷酸1的碱基检出预测的百分比、映射到寡核苷酸2的碱基检出预测的百分比、以及不能最终映射到寡核苷酸1或2中的任一者的碱基检出预测的百分比(即,不确定百分比)。如图所示,使用第一个2-寡核苷酸NN配置生成的训练数据的不确定百分比高于(i)使用第二个2-寡核苷酸NN配置生成的训练数据和(ii)使用常规技术生成的训练数据中的每一者。此外,使用第二个2-寡核苷酸NN配置生成的训练数据的不确定百分比几乎与使用常规技术生成的训练数据相当。因此,通过迭代和更复杂的NN配置,使用基于NN的配置生成的训练数据几乎与使用常规技术生成的训练数据相当。
现在参考图23D,示出的是示出由以下项生成的训练数据的映射百分比的图表2370:(i)使用本文讨论的基于神经网络的训练数据生成技术训练的第一4-寡核苷酸NN配置(白色柱)和(ii)使用常规4-寡核苷酸训练数据生成技术(例如,基于RTA的技术)训练的NN配置(灰色柱)。如图所示,使用本文讨论的技术生成的训练数据的不确定百分比与使用常规技术生成的训练数据的不确定百分比相当。因此,当训练转变为4-寡核苷酸序列时,本文讨论的常规技术和训练数据生成技术生成了可比较结果。
现在参考图23E,示出的是示出由以下项生成的数据中的错误率的图表2375:(i)使用本文讨论的复杂生物体序列训练的NN配置,例如,相对于图23A的方法2300的操作2328(实线),和(ii)使用常规复杂生物体训练数据生成技术训练的NN配置,例如,基于RTA的技术(虚线)。如图所示,使用本文讨论的技术生成的数据的错误率与使用常规技术生成的数据相当。因此,本文讨论的常规技术和训练数据生成技术生成了可比较结果。如所讨论的,当例如常规技术不可用或未准备好用于训练数据生成时,可使用本文讨论的训练数据生成技术来代替常规技术。
图24是根据一个具体实施的碱基检出系统2400的框图。碱基检出系统2400可操作以获得与生物物质或化学物质中的至少一者相关的任何信息或数据。在一些具体实施中,碱基检出系统2400是可类似于台式设备或台式计算机的工作站。例如,用于进行所需反应的大部分(或全部)系统和部件可位于共同的外壳2416内。
在特定具体实施中,碱基检出系统2400是被配置用于各种应用的核酸测序系统(或测序仪),各种应用包括但不限于从头测序、全基因组或靶基因组区域的重测序以及宏基因组学。测序仪也可用于DNA或RNA分析。在一些具体实施中,碱基检出系统2400还可被配置为在生物传感器中生成反应位点。例如,碱基检出系统2400可被配置为接收样品并且生成来源于样品的克隆扩增核酸的表面附着簇。每个簇可构成生物传感器中的反应位点或作为其一部分。
示例性碱基检出系统2400可包括被配置为与生物传感器2402相互作用以在生物传感器2402内执行所需反应的系统插座或接口2412。在以下相对于图24的描述中,将生物传感器2402加载到系统插座2412中。然而,应当理解,可将包括生物传感器2402的卡盒插入到系统插座2412中,并且在一些状态下,可暂时或永久地移除卡盒。如上所述,除了别的以外,卡盒还可包括流体控制部件和流体储存部件。
在特定具体实施中,碱基检出系统2400被配置为在生物传感器2402内执行大量平行反应。生物传感器2402包括可发生所需反应的一个或多个反应位点。反应位点可例如固定至生物传感器的固体表面或固定至位于生物传感器的对应反应室内的小珠(或其他可移动基板)。反应位点可包括,例如,克隆扩增核酸的簇。生物传感器2402可包括固态成像设备(例如,CCD或CMOS成像器件)和安装到其上的流通池。流通池可包括一个或多个流动通道,该一个或多个流动通道从碱基检出系统2400接收溶液并且将溶液引向反应位点。任选地,生物传感器2402可被配置为接合热元件,以用于将热能传递到流动通道中或从流动通道传递出去。
碱基检出系统2400可包括彼此相互作用以执行用于生物或化学分析的预先确定的方法或测定协议的各种部件、组件和系统(或子系统)。例如,碱基检出系统2400包括系统控制器2404,该系统控制器可与碱基检出系统2400的各种部件、组件和子系统以及生物传感器2402通信。例如,除了系统插座2412之外,碱基检出系统2400还可包括流体控制系统2406以控制流体在碱基检出系统2400和生物传感器2402的整个流体网络中的流动;流体储存系统2408,该流体储存系统被配置为保持生物测定系统可使用的所有流体(例如,气体或液体);温度控制系统2410,该温度控制系统可调节流体网络、流体储存系统2408和/或生物传感器2402中的流体的温度;和照射系统2409,该照射系统被配置为照亮生物传感器2402。如上所述,如果将具有生物传感器2402的卡盒加载到系统插座2412中,则该卡盒还可包括流体控制部件和流体储存部件。
还如图所示,碱基检出系统2400可包括与用户交互的用户界面2414。例如,用户界面2414可包括用于显示或请求来自用户的信息的显示器2413和用于接收用户输入的用户输入设备2415。在一些具体实施中,显示器2413和用户输入设备2415是同一设备。例如,用户界面2414可包括触敏显示器,该触敏显示器被配置为检测个体触摸的存在并且还识别触摸在显示器上的位置。然而,可使用其他用户输入设备2415,诸如鼠标、触摸板、键盘、小键盘、手持扫描仪、语音识别系统、运动识别系统等。如将在下文更详细地讨论,碱基检出系统2400可与包括生物传感器2402(例如,呈卡盒的形式)的各种部件通信,以执行所需反应。碱基检出系统2400还可被配置为分析从生物传感器获得的数据以向用户提供所需信息。
系统控制器2404可包括任何基于处理器或基于微处理器的系统,包括使用微控制器、精简指令集计算机(RISC)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、逻辑电路以及能够执行本文所述功能的任何其他电路或处理器。上述示例仅是示例性的,因此不旨在以任何方式限制术语系统控制器的定义和/或含义。在示例性具体实施中,系统控制器2404执行存储在一个或多个存储元件、存储器或模块中的指令集,以便进行获得检测数据和分析检测数据中的至少一者。检测数据可包括多个像素信号序列,使得可在许多碱基检出循环内检测来自数百万个传感器(或像素)中的每个传感器(或像素)的像素信号序列。储存元件可为呈碱基检出系统2400内的信息源或物理存储器元件的形式。
指令集可包括指示碱基检出系统2400或生物传感器2402执行具体操作(诸如本文所述的各种具体实施的方法和过程)的各种命令。指令集可为软件程序的形式,该软件程序可形成有形的一个或多个非暂态计算机可读介质的一部分。如本文所用,术语“软件”和“固件”是可互换的,并且包括存储在存储器中以供计算机执行的任何计算机程序,包括RAM存储器、ROM存储器、EPROM存储器、EEPROM存储器和非易失性RAM(NVRAM)存储器。上述存储器类型仅是示例性的,因此不限制可用于存储计算机程序的存储器类型。
软件可为各种形式,诸如系统软件或应用软件。此外,软件可以是独立程序的集合的形式,或者是较大程序内的程序模块或程序模块的一部分的形式。软件还可包括面向对象编程形式的模块化编程。在获得检测数据之后,检测数据可由碱基检出系统2400自动处理,响应于用户输入而处理,或者响应于另一个处理机器提出的请求(例如,通过通信链路的远程请求)而处理。在例示的具体实施中,系统控制器2404包括分析模块2538(在图25中示出)。在其他具体实施中,系统控制器2404不包括分析模块2538,而是可访问分析模块2538(例如,分析模块2538可单独地托管在云上)。
系统控制器2404可经由通信链路连接到生物传感器2402和碱基检出系统2400的其他部件。系统控制器2404还可通信地连接到非现场系统或服务器。通信链路可以是硬连线的、有线的或无线的。系统控制器2404可从用户界面2414和用户输入设备2415接收用户输入或命令。
流体控制系统2406包括流体网络,并且被配置为引导和调节一种或多种流体通过流体网络的流动。流体网络可与生物传感器2402和流体储存系统2408流体连通。例如,选定的流体可以从流体储存系统2408抽吸并以受控方式引导至生物传感器2402,或者流体可以从生物传感器2402抽吸并朝向例如流体储存系统2408中的废物储存器引导。虽然未示出,但流体控制系统2406可包括检测流体网络内的流体的流速或压力的流量传感器。传感器可与系统控制器2404通信。
温度控制系统2410被配置为调节流体网络、流体储存系统2408和/或生物传感器2402的不同区域处流体的温度。例如,温度控制系统2410可包括热循环仪,该热循环仪与生物传感器2402对接并且控制沿着生物传感器2402中的反应位点流动的流体的温度。温度控制系统2410还可调节碱基检出系统2400或生物传感器2402的固体元件或部件的温度。尽管未示出,但温度控制系统2410可包括用于检测流体或其他部件的温度的传感器。传感器可与系统控制器2404通信。
流体储存系统2408与生物传感器2402流体连通,并且可以储存用于在其中进行所需反应的各种反应组分或反应物。流体储存系统2408还可储存用于洗涤或清洁流体网络和生物传感器2402以及用于稀释反应物的流体。例如,流体储存系统2408可包括各种储存器,以储存样品、试剂、酶、其他生物分子、缓冲溶液、水性溶液和非极性溶液等。此外,流体储存系统2408还可包括废物储存器,用于接收来自生物传感器2402的废物。在包括卡盒的具体实施中,卡盒可包括流体储存系统、流体控制系统或温度控制系统中的一者或多者。因此,本文所述的与那些系统有关的一个或多个部件可容纳在卡盒外壳内。例如,卡盒可具有各种储存器,以储存样品、试剂、酶、其他生物分子、缓冲溶液、水性溶液和非极性溶液、废物等。因此,流体储存系统、流体控制系统或温度控制系统中的一者或多者可经由卡盒或其他生物传感器与生物测定系统可移除地接合。
照明系统2409可包括光源(例如,一个或多个LED)和用于照亮生物传感器的多个光学部件。光源的示例可包括激光器、弧光灯、LED或激光二极管。光学部件可以是例如反射器、二向色镜、分束器、准直器、透镜、滤光器、楔镜、棱镜、反射镜、检测器等。在使用照明系统的具体实施中,照明系统2409可被配置为将激发光引导至反应位点。作为一个示例,荧光团可由绿色波长的光激发,因此激发光的波长可为大约532nm。在一个具体实施中,照明系统2409被配置为产生平行于生物传感器2402的表面的表面法线的照明。在另一个具体实施中,照明系统2409被配置为产生相对于生物传感器2402的表面的表面法线成偏角的照明。在又一个具体实施中,照明系统2409被配置为产生具有多个角度的照明,包括一些平行照明和一些偏角照明。
系统插座或接口2412被配置为以机械、电气和流体方式中的至少一种方式接合生物传感器2402。系统插座2412可将生物传感器2402保持在所需取向,以有利于流体流过生物传感器2402。系统插座2412还可包括电触点,该电触点被配置为接合生物传感器2402,使得碱基检出系统2400可与生物传感器2402通信和/或向生物传感器2402提供功率。此外,系统插座2412可包括被配置为接合生物传感器2402的流体端口(例如,喷嘴)。在一些具体实施中,生物传感器2402以机械方式、电气方式以及流体方式可移除地耦接到系统插座2412。
此外,碱基检出系统2400可与其他系统或网络或与其他生物测定系统2400远程通信。由生物测定系统2400获得的检测数据可储存在远程数据库中。
图25是可在图24的系统中使用的系统控制器2404的框图。在一个具体实施中,系统控制器2404包括可彼此通信的一个或多个处理器或模块。处理器或模块中的每一者可以包括用于执行特定过程的算法(例如,存储在有形和/或非暂态计算机可读存储介质上的指令)或子算法。系统控制器2404在概念上被例示为模块的集合,但可利用专用硬件板、DSP、处理器等的任何组合来实现。另选地,系统控制器2404可利用具有单个处理器或多个处理器的现成PC来实现,其中功能操作分布在处理器之间。作为进一步的选择,下文所述的模块可利用混合配置来实现,其中某些模块化功能利用专用硬件来执行,而其余模块化功能利用现成PC等来执行。模块还可被实现为处理单元内的软件模块。
在操作期间,通信端口2520可向生物传感器2402(图24)和/或子系统2406、2408、2410(图24)传输信息(例如,命令)或从其接收信息(例如,数据)。在具体实施中,通信端口2520可输出多个像素信号序列。通信端口2520可从用户界面2414(图24)接收用户输入并且将数据或信息传输到用户界面2414。来自生物传感器2402或子系统2406、2408、2410的数据可在生物测定会话期间由系统控制器2404实时处理。除此之外或另选地,数据可在生物测定会话期间临时储存在系统存储器中,并且以比实时或脱机操作更慢的速度进行处理。
如图25所示,系统控制器2404可包括与主控制模块2530通信的多个模块2531-2539。主控制模块2530可与用户界面2414(图24)通信。尽管模块2531-2539被示出为与主控制模块2530直接通信,但模块2531-2539也可彼此直接通信,与用户界面2414和生物传感器2402直接通信。另外,模块2531-2539可通过其他模块与主控制模块2530通信。
多个模块2531-2539包括分别与子系统2406、2408、2410和2409通信的系统模块2531-2533、2539。流体控制模块2531可与流体控制系统2406通信,以控制流体网络的阀和流量传感器,从而控制一种或多种流体通过流体网络的流动。流体储存模块2532可在流体量低时或在废物储存器处于或接近容量时通知用户。流体储存模块2532还可与温度控制模块2533通信,使得流体可储存在所需温度下。照明模块2539可与照明系统2409通信,以在协议期间的指定时间照亮反应位点,诸如在已发生所需反应(例如,结合事件)之后。在一些具体实施中,照明模块2539可与照明系统2409通信,从而以指定角度照亮反应位点。
多个模块2531-2539还可包括与生物传感器2402通信的设备模块2534和确定与生物传感器2402相关的标识信息的标识模块2535。设备模块2534可例如与系统插座2412通信以确认生物传感器已与碱基检出系统2400建立电连接和流体连接。标识模块2535可接收标识生物传感器2402的信号。标识模块2535可使用生物传感器2402的身份来向用户提供其他信息。例如,标识模块2535可确定并随后显示批号、制造日期或建议与生物传感器2402一起运行的协议。
多个模块2531-2539还包括接收和分析来自生物传感器2402的信号数据(例如,图像数据)的分析模块2538(也称为信号处理模块或信号处理器)。分析模块2538包括用于储存检测数据的存储器(例如,RAM或闪存)。检测数据可包括多个像素信号序列,使得可在许多碱基检出循环内检测来自数百万个传感器(或像素)中的每个传感器(或像素)的像素信号序列。信号数据可被存储用于后续分析,或者可被传输到用户界面2414以向用户显示所需信息。在一些具体实施中,信号数据可在分析模块2538接收到信号数据之前由固态成像器件(例如,CMOS图像传感器)处理。
分析模块2538被配置为在多个测序循环的每个测序循环处从光检测器获得图像数据。图像数据来源于由光检测器检测到的发射信号,并且通过神经网络(例如,基于神经网络的模板生成器2548、基于神经网络的碱基检出器2558(例如,参见图7、图9和图10)和/或基于神经网络的质量评分器2568)处理多个测序循环的每个测序循环的图像数据,并且在多个测序循环的每个测序循环处针对分析物中的至少一些产生碱基检出。
协议模块2536和协议模块2537与主控制模块2530通信,以在进行预先确定的测定协议时控制子系统2406、2408和2410的操作。协议模块2536和2537可包括用于指示碱基检出系统2400根据预先确定的协议执行具体操作的指令集。如图所示,协议模块可以是边合成边测序(SBS)模块2536,该模块被配置为发出用于执行边合成边测序过程的各种命令。在SBS中,监测核酸引物沿核酸模板的延伸,以确定模板中核苷酸的序列。基础化学过程可以是聚合(例如,由聚合酶催化)或连接(例如,由连接酶催化)。在特定的基于聚合酶的SBS具体实施中,以依赖于模板的方式将荧光标记的核苷酸添加至引物(从而使引物延伸),使得对添加至引物的核苷酸的顺序和类型的检测可用于确定模板的序列。例如,为了启动第一SBS循环,可发出命令以将一个或多个标记的核苷酸、DNA聚合酶等递送至/通过容纳有核酸模板阵列的流通池。核酸模板可位于对应的反应位点。其中引物延伸导致标记的核苷酸掺入的那些反应位点可通过成像事件来检测。在成像事件期间,照明系统2409可向反应位点提供激发光。任选地,核苷酸还可以包括一旦将核苷酸添加到引物就终止进一步的引物延伸的可逆终止属性。例如,可以将具有可逆终止子部分的核苷酸类似物添加到引物,使得后续的延伸直到递送解封闭剂以去除该部分才发生。因此,对于使用可逆终止的具体实施,可发出命令以将解封闭剂递送到流通池(在检测发生之前或之后)。可发出一个或多个命令以实现各个递送步骤之间的洗涤。然后可重复该循环n次,以将引物延伸n个核苷酸,从而检测长度为n的序列。示例性测序技术描述于:例如Bentley等人,Nature,第456卷:第53-59页(2008年),WO04/018497、US 7,057,026、WO 91/06678、WO 07/123744、US 7,329,492、US 7,211,414、US 7,315,019和US 7,405,281中,这些文献中的每一篇以引用方式并入本文。
对于SBS循环的核苷酸递送步骤,可以一次递送单一类型的核苷酸,或者可以递送多种不同的核苷酸类型(例如,A、C、T和G一起)。对于一次仅存在单一类型的核苷酸的核苷酸递送构型,不同的核苷酸不需要具有不同的标记,因为它们可基于个体化递送中固有的时间间隔来区分。因此,测序方法或装置可使用单色检测。例如,激发源仅需要提供单个波长或单个波长范围内的激发。对于其中递送导致多种不同核苷酸同时存在于流通池中的核苷酸递送构型,可基于附着到混合物中相应核苷酸类型的不同荧光标记来区分掺入不同核苷酸类型的位点。例如,可使用四种不同的核苷酸,每种核苷酸具有四种不同荧光团中的一种。在一个具体实施中,可使用在光谱的四个不同区域中的激发来区分四种不同的荧光团。例如,可使用四种不同的激发辐射源。另选地,可使用少于四种不同的激发源,但来自单个源的激发辐射的光学过滤可用于在流通池处产生不同范围的激发辐射。
在一些具体实施中,可在具有四种不同核苷酸的混合物中检测到少于四种不同颜色。例如,核苷酸对可在相同波长下检测,但基于对中的一个成员相对于另一个成员的强度差异,或基于对中的一个成员的导致与检测到的该对的另一个成员的信号相比明显的信号出现或消失的变化(例如,通过化学改性、光化学改性或物理改性)来区分。用于使用少于四种颜色的检测来区分四个不同核苷酸的示例性装置和方法描述于例如美国专利申请序列号61/538,294和61/619,878,这些专利申请全文以引用方式并入本文。2012年9月21日提交的美国申请13/624,200也全文以引用方式并入。
多个协议模块还可包括样品制备(或生成)模块2537,该模块被配置为向流体控制系统2406和温度控制系统2410发出命令,以扩增生物传感器2402内的产物。例如,生物传感器2402可接合至碱基检出系统2400。扩增模块2537可向流体控制系统2406发出指令,以将必要的扩增组分递送到生物传感器2402内的反应室。在其他具体实施中,反应位点可能已包含一些用于扩增的组分,诸如模板DNA和/或引物。在将扩增组分递送至反应室之后,扩增模块2537可指示温度控制系统2410根据已知的扩增协议循环通过不同的温度阶段。在一些具体实施中,扩增和/或核苷酸掺入等温进行。
SBS模块2536可发出命令以执行桥式PCR,其中克隆扩增子的簇形成于流通池的通道内的局部区域上。通过桥式PCR产生扩增子后,可将扩增子“线性化”以制备单链模板DNA或sstDNA,并且可将测序引物杂交至侧接感兴趣的区域的通用序列。例如,可如上所述或如下使用基于可逆终止子的边合成边测序方法。
每个碱基检出或测序循环可通过单个碱基延伸sstDNA,这可例如通过使用经修饰的DNA聚合酶和四种类型的核苷酸的混合物来完成。不同类型的核苷酸可具有独特的荧光标记,并且每个核苷酸还可具有可逆终止子,该可逆终止子仅允许在每个循环中发生单碱基掺入。在将单个碱基添加到sstDNA之后,激发光可入射到反应位点上并且可检测荧光发射。在检测后,可从sstDNA化学切割荧光标记和终止子。接下来可为另一个类似的碱基检出或测序循环。在此类测序协议中,SBS模块2536可指示流体控制系统2406引导试剂和酶溶液流过生物传感器2402。可与本文所述的装置和方法一起使用的基于可逆终止子的示例性SBS方法描述于美国专利申请公布2007/0166705A1、美国专利申请公布2006/0188901 A1、美国专利7,057,026、美国专利申请公布2006/0240439 A1、美国专利申请公布2006/02814714709 A1、PCT公布WO 05/065814、PCT公布WO 06/064199,这些专利中的每一篇均全文以引用方式并入本文。US 7,541,444;US 7,057,026;US 7,427,673;US 7,566,537;以及US 7,592,435中描述了基于可逆终止子的SBS的示例性试剂,这些专利中的每一篇均全文以引用方式并入本文。
在一些具体实施中,扩增模块和SBS模块可在单个测定协议中操作,其中例如扩增模板核酸并随后将其在同一盒内测序。
碱基检出系统2400还可允许用户重新配置测定协议。例如,碱基检出系统2400可通过用户界面2414向用户提供用于修改所确定的协议的选项。例如,如果确定生物传感器2402将用于扩增,则碱基检出系统2400可请求退火循环的温度。此外,如果用户已提供对于所选测定协议通常不可接受的用户输入,则碱基检出系统2400可向用户发出警告。
在具体实施中,生物传感器2402包括数百万个传感器(或像素),每个传感器(或像素)在后续的碱基检出循环内生成多个像素信号序列。分析模块2538根据传感器阵列上传感器的逐行和/或逐列位置来检测多个像素信号序列并将它们归属于对应的传感器(或像素)。
传感器阵列中的每个传感器可产生流通池的区块的传感器数据,其中区块位于流通池上的在碱基检出操作期间设置遗传物质的簇的区域中。传感器数据可包括像素阵列中的图像数据。对于给定循环,传感器数据可包括多于一个图像,从而产生多特征每像素作为区块数据。
图26是可用于实现所公开的技术的计算机系统2600的简化框图。计算机系统2600包括经由总线子系统2655与多个外围设备通信的至少一个中央处理单元(CPU)2672。这些外围设备可以包括存储子系统2610(包括例如存储器设备和文件存储子系统2636)、用户界面输入设备2638、用户界面输出设备2676和网络接口子系统2674。输入设备和输出设备允许用户与计算机系统2600进行交互。网络接口子系统2674提供通向外部网络的接口,该接口包括通向其他计算机系统中的对应接口设备的接口。
用户界面输入设备2638可以包括:键盘;指向设备,诸如鼠标、轨迹球、触摸板或图形输入板;扫描仪;结合到显示器中的触摸屏;音频输入设备,诸如语音识别系统和麦克风;以及其他类型的输入设备。一般来讲,使用术语“输入设备”旨在包括将信息输入到计算机系统2600中的所有可能类型的设备和方式。
用户界面输出设备2676可以包括显示子系统、打印机、传真机或非视觉显示器(诸如音频输出设备)。显示子系统可包括LED显示器、阴极射线管(CRT)、平板设备诸如液晶显示器(LCD)、投影设备或用于产生可见图像的一些其他机构。显示子系统还可提供非视觉显示器,诸如音频输出设备。一般来讲,使用术语“输出设备”旨在包括将信息从计算机系统2600输出到用户或者输出到另一机器或计算机系统的所有可能类型的设备和方式。
存储子系统2610存储提供本文描述的一些或全部模块和方法的功能的编程结构和数据结构。这些软件模块通常由深度学习处理器2678执行。
在一个具体实施中,神经网络使用深度学习处理器2678来实施,这些深度学习处理器可以是可配置和可重构处理器、现场可编程门阵列(FPGA)、专用集成电路(ASIC)和/或粗粒度可重构架构(CGRA)和图形处理单元(GPU)或其他配置的设备。深度学习处理器2678可由深度学习云平台诸如Google Cloud PlatformTM、XilinxTM和CirrascaleTM托管。深度学习处理器14978的示例包括Google的Tensor Processing Unit(TPU)TM、机架解决方案(如GX4 Rackmount SeriesTM、GX149 Rackmount SeriesTM)、NVIDIA DGX-1TM、Microsoft的Stratix V FPGATM、Graphcore的Intelligent Processor Unit(IPU)TM、Qualcomm的具有Snapdragon processorsTM的Zeroth PlatformTM、NVIDIA的VoltaTM、NVIDIA的DRIVE PXTM、NVIDIA的JETSON TX1/TX2 MODULETM、Intel的NirvanaTM、Movidius VPUTM、Fujitsu DPITM、ARM的DynamicIQTM、IBM TrueNorthTM等。
在存储子系统2610中使用的存储器子系统2622可以包括多个存储器,包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)2634和其中存储固定指令的只读存储器(ROM)2632。文件存储子系统2636可以为程序文件和数据文件提供持久性存储,并且可以包括硬盘驱动器、软盘驱动器以及相关联的可移动介质、CD-ROM驱动器、光盘驱动器或可移动介质磁盘盒。实现某些具体实施的功能的模块可以由文件存储子系统2636存储在存储子系统2610中,或者存储在处理器可访问的其他机器中。
总线子系统2655提供用于使计算机系统2600的各种部件和子系统按照预期彼此通信的机构。尽管总线子系统2655被示意性地示出为单条总线,但是该总线子系统的另选具体实施可使用多条总线。
计算机系统2600本身可具有不同类型,包括个人计算机、便携式计算机、工作站、计算机终端、网络计算机、电视机、主机、服务器群、一组广泛分布的松散联网的计算机或任何其他数据处理系统或用户设备。由于计算机和网络的不断变化的性质,对图26中描绘的计算机系统2600的描述仅旨在作为用于示出本发明的优选具体实施的具体示例。计算机系统2600的许多其他配置是可能的,其具有比图26中描绘的计算机系统更多或更少的部件。
本发明公开了以下条款:
条款
条款集#1(使用寡核苷酸序列训练的自学碱基检出器)
1.一种渐进地训练碱基检出器的计算机实现的方法,所述方法包括:
利用包含单寡核苷酸碱基序列的分析物迭代地初始训练碱基检出器,并使用所述初始训练的碱基检出器生成标记训练数据;
(i)利用包含多寡核苷酸碱基序列的分析物进一步训练所述碱基检出器,并使用所述进一步训练的碱基检出器生成标记训练数据;以及
通过重复步骤(i)来迭代地进一步训练所述碱基检出器,同时在至少一次迭代期间增加在所述碱基检出器内加载的神经网络配置的复杂性,其中在迭代期间生成的标记训练数据被用于在紧接的后续迭代期间训练所述碱基检出器。
1a.根据条款1所述的方法,所述方法进一步包括:
在利用包含多寡核苷酸碱基序列的所述分析物进一步训练所述碱基检出器的至少一次迭代期间,增加所述分析物内所述多寡核苷酸碱基序列的独特的寡核苷酸碱基序列的数量。
2.根据条款1所述的方法,其中用包含所述单寡核苷酸碱基序列的所述分析物迭代地初始训练所述碱基检出器包括:
在所述碱基检出器的所述初始训练的第一次迭代期间:
将所述已知的单寡核苷酸碱基序列填充到流通池的多个簇中;
生成与所述多个簇对应的多个序列信号,所述多个序列信号中的每个序列信号表示在所述多个簇中的对应簇中加载的碱基序列;
基于所述多个序列信号中的每个序列信号,预测所述已知的单个寡核苷酸碱基序列的对应碱基检出,从而生成多个预测的碱基检出;
对于所述多个序列信号中的每个序列信号,基于(i)对应的预测的碱基检出与(ii)所述已知的单个寡核苷酸碱基序列的所述碱基的比较,生成对应的错误信号,从而生成对应于所述多个序列信号的多个错误信号;以及
基于所述多个错误信号,在所述第一次迭代期间初始训练所述碱基检出器。
2a.根据条款2所述的方法,其中在所述第一次迭代期间初始训练所述碱基检出器包括:
基于所述多个错误信号,使用在所述碱基检出器中加载的神经网络配置的反向传播路径来更新所述神经网络配置的权重和/或偏置。
3.根据条款2所述的方法,其中用包含所述单寡核苷酸碱基序列的所述分析物迭代地初始训练所述碱基检出器进一步包括:
在所述初始训练的所述第一次迭代之后发生的所述碱基检出器的所述初始训练的第二次迭代期间:
使用在所述初始训练的所述第一次迭代期间已经部分训练的所述碱基检出器,基于所述多个序列信号中的每个序列信号来预测所述已知的单个寡核苷酸碱基序列的对应的另外的碱基检出,从而生成多个另外的预测的碱基检出;
对于所述多个序列信号中的每个序列信号,基于(i)对应的另外的预测的碱基检出与(ii)所述已知的单个寡核苷酸序列的所述碱基的比较,生成对应的另外的错误信号,从而生成对应于所述多个序列信号的多个另外的错误信号;以及
基于所述多个另外的错误信号,在所述第二次迭代期间进一步初始训练所述碱基检出器。
4.根据条款3所述的方法,其中用包含所述单寡核苷酸碱基序列的所述分析物迭代地初始训练所述碱基检出器包括:
针对多个实例,用包含所述单寡核苷酸碱基序列的分析物重复所述碱基检出器的所述初始训练的所述第二次迭代,直到满足收敛条件。
5.根据条款4所述的方法,其中当在所述碱基检出器的所述初始训练的所述第二次迭代的两个连续重复之间,所述多个另外的错误信号的减少小于阈值时,满足所述收敛条件。
6.根据条款4所述的方法,其中当针对至少阈值数量的实例重复所述碱基检出器的所述初始训练的所述第二次迭代时,满足所述收敛条件。
7.根据条款3所述的方法,其中:
在所述碱基检出器的所述初始训练的所述第一次迭代期间生成的对应于所述多个簇的所述多个序列信号被重复用于所述碱基检出器的所述初始训练的所述第二次迭代。
8.根据条款2所述的方法,其中比较(i)所述对应的预测的碱基检出与(ii)所述已知的单个寡核苷酸序列的所述碱基包括:
对于第一预测的碱基检出,(i)将所述第一预测的碱基检出的第一碱基与所述已知的单个寡核苷酸序列的第一碱基进行比较,以及(ii)将所述第一预测的碱基检测的第二碱基与所述已知的单个寡核苷酸序列的第二碱基进行比较,从而生成对应的第一错误信号。
9.根据条款1所述的方法,其中迭代地进一步训练所述碱基检出器包括:
利用包含两个已知的独特寡核苷酸碱基序列的分析物进一步训练所述碱基检出器进行N1次迭代;以及
利用包含三个已知的独特寡核苷酸碱基序列的分析物进一步训练所述碱基检出器进行N2次迭代,
其中在所述N2次迭代之前执行所述N1次迭代。
10.根据条款1所述的方法,其中在用包含所述单寡核苷酸碱基序列的所述分析物所述迭代地初始训练所述碱基检出器期间,在所述碱基检出器内加载第一神经网络配置,并且其中迭代地进一步训练所述碱基检出器包括:
利用包含两个已知的独特寡核苷酸碱基序列的分析物进一步训练所述碱基检出器进行N1次迭代,使得
(i)对于所述N1次迭代的第一子集,在所述碱基检出器内加载第二神经网络配置,以及
(ii)对于在所述N1次迭代的所述第一子集之后发生的所述N1次迭代的第二子集,在碱基检出器内加载第三神经网络配置,其中所述第一神经网络配置、所述第二神经网络配置和所述第三神经网络配置彼此不同。
11.根据条款10所述的方法,其中所述第二神经网络配置比所述第一神经网络配置更复杂,并且其中所述第三神经网络配置比所述第二神经网络配置更复杂。
12.根据条款10所述的方法,其中所述第二神经网络配置具有比所述第一神经网络配置更大数量的层。
13.根据条款10所述的方法,其中所述第二神经网络配置具有比所述第一神经网络配置更大数量的权重。
14.根据条款10所述的方法,其中所述第二神经网络配置具有比所述第一神经网络配置更大数量的参数。
15.根据条款10所述的方法,其中所述第三神经网络配置具有比所述第二神经网络配置更大数量的层。
16.根据条款10所述的方法,其中所述第三神经网络配置具有比所述第二神经网络配置更大数量的权重。
17.根据条款10所述的方法,其中所述第三神经网络配置具有比所述第二神经网络配置更大数量的参数。
18.根据条款10所述的方法,其中针对所述N1次迭代中的一次迭代,利用包含两个已知的独特寡核苷酸碱基序列的所述分析物进一步训练所述碱基检出器进行所述N1次迭代包括:
(i)利用所述两个已知的独特寡核苷酸碱基序列中的第一已知的寡核苷酸碱基序列填充流通池的第一多个簇,以及(ii)利用所述两个已知的独特寡核苷酸碱基序列中的第二已知的寡核苷酸碱基序列填充流通池的第二多个簇;
针对所述第一多个簇和所述第二多个簇中的每个簇预测对应的碱基检出,使得生成多个预测的碱基检出;
将(i)所述多个预测的碱基检出中的第一预测的碱基检出映射到所述第一已知的寡核苷酸碱基序列,以及将(ii)所述多个预测的碱基检出中的第二预测的碱基检出映射到所述第二已知的寡核苷酸碱基序列,同时避免将所述多个预测的碱基检出中的第三预测的碱基检出映射到所述第一已知的寡核苷酸碱基序列或所述第二已知的寡核苷酸碱基序列中的任一者;
生成(i)基于所述第一预测的碱基检出与所述第一已知的寡核苷酸碱基序列的比较的第一错误信号,和(ii)基于所述第二预测的碱基检出与所述第二已知的寡核苷酸碱基序列的比较的第二错误信号;以及
基于所述第一错误信号和所述第二错误信号进一步训练所述碱基检出器。
19.根据条款18所述的方法,其中将所述第一预测的碱基检出映射到所述两个已知的独特寡核苷酸碱基序列中的所述第一已知的寡核苷酸碱基序列包括:
将所述第一预测的碱基检出的每个碱基与所述第一已知的寡核苷酸碱基序列和所述第二已知的寡核苷酸碱基序列的对应的应碱基进行比较;
确定所述第一预测的碱基检出与所述第一已知的寡核苷酸碱基序列具有至少阈值数量的碱基相似性,并且与所述第二已知的寡核苷酸碱基序列具有小于所述阈值数量的碱基相似性;以及
基于确定所述第一预测的碱基检出与第一已知的寡核苷酸碱基序列具有至少所述阈值数量的碱基相似性,将所述第一预测的碱基检出映射到所述第一已知的寡核苷酸碱基序列。
20.根据条款18所述的方法,其中避免将所述第三预测的碱基检出映射到所述第一已知的寡核苷酸碱基序列或所述第二已知的寡核苷酸碱基序列中的任一者包括:
将所述第一预测的碱基检出的每个碱基与所述第一已知的寡核苷酸碱基序列和所述第二已知的寡核苷酸碱基序列的对应的应碱基进行比较;
确定所述第一预测的碱基检出与所述第一已知的寡核苷酸碱基序列和第二已知的寡核苷酸碱基序列中的每一者具有小于阈值数量的碱基相似性;以及
基于确定所述第一预测的碱基检出与所述第一已知的寡核苷酸碱基序列和第二已知的寡核苷酸碱基序列中的每一者具有小于所述阈值数量的碱基相似性,避免将所述第三预测的碱基检出映射到所述第一已知的寡核苷酸碱基序列或所述第二已知的寡核苷酸碱基序列中的任一者。
21.根据条款18所述的方法,其中避免将所述第三预测的碱基检出映射到所述第一已知的寡核苷酸碱基序列或所述第二已知的寡核苷酸碱基序列中的任一者包括:
将所述第一预测的碱基检出的每个碱基与所述第一已知的寡核苷酸碱基序列和所述第二已知的寡核苷酸碱基序列的对应的应碱基进行比较;
确定所述第一预测的碱基检出与所述第一已知的寡核苷酸碱基序列和第二已知的寡核苷酸碱基序列中的每一者具有大于阈值数量的碱基相似性;以及
基于确定所述第一预测的碱基检出与所述第一已知的寡核苷酸碱基序列和第二已知的寡核苷酸碱基序列中的每一者具有大于所述阈值数量的碱基相似性,避免将所述第三预测的碱基检出映射到所述第一已知的寡核苷酸碱基序列或所述第二已知的寡核苷酸碱基序列中的任一者。
22.根据条款18所述的方法,其中使用所述进一步训练的碱基检出器进行所述N1次迭代中的所述一次迭代来生成标记训练数据包括:
在所述N1次迭代中的所述一次迭代期间进一步训练所述碱基检出器之后,针对所述第一多个簇和所述第二多个簇中的每一个簇重新预测对应的碱基检出,使得生成另一多个预测的碱基检出;
将(i)所述其他多个预测的碱基检出的第一子集重新映射到所述第一已知的寡核苷酸碱基序列,以及将(ii)所述其他多个预测的碱基检出的第二子集重新映射到所述第二已知的寡核苷酸碱基序列,同时避免将所述其他多个预测的碱基检出的第三子集映射到所述第一已知的寡核苷酸碱基序列或所述第二已知的寡核苷酸碱基序列中的任一者;以及
基于所述重新映射来生成标记训练数据,使得所述标记训练数据包括(i)所述其他多个预测的碱基检出的所述第一子集,其中所述第一已知的寡核苷酸碱基序列形成所述其他多个预测的碱基检出的所述第一子集的基准真值数据,和(ii)所述其他多个预测的碱基检出的所述第二子集,其中所述第二已知的寡核苷酸碱基序列形成所述其他多个预测的碱基检出的所述第二子集的基准真值数据。
23.根据条款22所述的方法,其中:
在所述N1次迭代的所述一次迭代期间生成的标记训练数据被用于在所述N1次迭代的紧接的后续迭代期间训练所述碱基检出器。
24.根据条款23所述的方法,其中:
所述碱基检出器的所述神经网络配置在所述N1次迭代的所述一次迭代和所述N1次迭代的所述紧接的后续迭代期间是相同的。
25.根据条款23所述的方法,其中:
所述N1次迭代的所述紧接的后续迭代期间的所述碱基检出器的神经网络配置不同于所述N1次迭代的所述一次迭代期间的所述碱基检出器的神经网络配置,并且比所述N1次迭代的所述一次迭代期间的所述碱基检出器的神经网络配置更复杂。
26.根据条款1所述的方法,其中迭代地进一步训练所述碱基检出器包括:
在所述迭代地进一步训练期间随着所述迭代的进行,单调地增加包含所述多寡核苷酸碱基序列的所述分析物中的独特寡核苷酸碱基序列的数量。
27.一种计算机实现的方法,所述方法包括:
使用碱基检出器来预测被测序为具有寡核苷酸的已知序列的未知分析物的碱基检出序列;
用与所述已知序列匹配的基准真值序列标记所述未知分析物中的每个未知分析物;以及
使用所述标记未知分析物训练所述碱基检出器。
28.根据条款27所述的计算机实现的方法,所述方法进一步包括迭代所述使用、所述标记和所述训练直到满足收敛。
29.一种计算机实现的方法,所述方法包括:
使用碱基检出器来预测被测序为具有两个或更多个寡核苷酸的两个或更多个已知序列的未知分析物群体的碱基检出序列;
基于将挑选出的未知分析物的碱基检出序列分类为所述已知序列,从所述未知分析物群体中所述挑选未知分析物;
基于所述分类,用分别与所述已知序列匹配的相应基准真值序列标记所挑选的未知分析物的相应子集;以及
使用所挑选的未知分析物的所标记的相应子集来训练所述碱基检出器。
30.根据条款29所述的计算机实现的方法,所述方法进一步包括迭代所述使用、所述挑选、所述标记和所述训练直到满足收敛。
31.一种印有渐进地训练碱基检出器的计算机程序指令的非暂态计算机可读存储介质,所述指令在处理器上执行时实现包括以下各项的方法:
利用包含单寡核苷酸碱基序列的分析物迭代地初始训练碱基检出器,并使用所述初始训练的碱基检出器生成标记训练数据;
(i)利用包含多寡核苷酸碱基序列的分析物进一步训练所述碱基检出器,并使用所述进一步训练的碱基检出器生成标记训练数据;以及
通过重复步骤(i)来迭代地进一步训练所述碱基检出器,同时在至少一次迭代期间增加在所述碱基检出器内加载的神经网络配置的复杂性,其中在迭代期间生成的标记训练数据被用于在紧接的后续迭代期间训练所述碱基检出器。
31a.根据条款31所述的计算机可读存储介质,其中所述指令实现进一步包括以下项的所述方法:
在利用包含多寡核苷酸碱基序列的所述分析物进一步训练所述碱基检出器的至少一次迭代期间,增加所述分析物内所述多寡核苷酸碱基序列的独特的寡核苷酸碱基序列的数量。
32.根据条款31所述的计算机可读存储介质方法,其中用包含所述单寡核苷酸碱基序列的所述分析物迭代地初始训练所述碱基检出器包括:
在所述碱基检出器的所述初始训练的第一次迭代期间:
将所述已知的单寡核苷酸碱基序列填充到流通池的多个簇中;
生成与所述多个簇对应的多个序列信号,所述多个序列信号中的每个序列信号表示在所述多个簇中的对应簇中加载的碱基序列;
基于所述多个序列信号中的每个序列信号,预测所述已知的单个寡核苷酸碱基序列的对应碱基检出,从而生成多个预测的碱基检出;
对于所述多个序列信号中的每个序列信号,基于(i)对应的预测的碱基检出与(ii)所述已知的单个寡核苷酸碱基序列的所述碱基的比较,生成对应的错误信号,从而生成对应于所述多个序列信号的多个错误信号;以及
基于所述多个错误信号,在所述第一次迭代期间初始训练所述碱基检出器。
32a.根据条款32所述的计算机可读存储介质,其中在所述第一次迭代期间初始训练所述碱基检出器包括:
基于所述多个错误信号,使用在所述碱基检出器中加载的神经网络配置的反向传播路径来更新所述神经网络配置的权重和/或偏置。
33.根据条款32所述的计算机可读存储介质,其中用包含所述单寡核苷酸碱基序列的所述分析物迭代地初始训练所述碱基检出器进一步包括:
在所述初始训练的所述第一次迭代之后发生的所述碱基检出器的所述初始训练的第二次迭代期间:
使用在所述初始训练的所述第一次迭代期间已经部分训练的所述碱基检出器,基于所述多个序列信号中的每个序列信号来预测所述已知的单个寡核苷酸碱基序列的对应的另外的碱基检出,从而生成多个另外的预测的碱基检出;
对于所述多个序列信号中的每个序列信号,基于(i)对应的另外的预测的碱基检出与(ii)所述已知的单个寡核苷酸序列的所述碱基的比较,生成对应的另外的错误信号,从而生成对应于所述多个序列信号的多个另外的错误信号;以及
基于所述多个另外的错误信号,在所述第二次迭代期间进一步初始训练所述碱基检出器。
34.根据条款33所述的计算机可读存储介质,其中用包含所述单寡核苷酸碱基序列的所述分析物迭代地初始训练所述碱基检出器进一步包括:
针对多个实例,用包含所述单寡核苷酸碱基序列的分析物重复所述碱基检出器的所述初始训练的所述第二次迭代,直到满足收敛条件。
35.根据条款34所述的计算机可读存储介质,其中当在所述碱基检出器的所述初始训练的所述第二次迭代的两个连续重复之间,所述多个另外的错误信号的减少小于阈值时,满足所述收敛条件。
36.根据条款34所述的计算机可读存储介质,其中当针对至少阈值数量的实例重复所述碱基检出器的所述初始训练的所述第二次迭代时,满足所述收敛条件。
37.根据条款33所述的计算机可读存储介质,其中:
在所述碱基检出器的所述初始训练的所述第一次迭代期间生成的对应于所述多个簇的所述多个序列信号被重复用于所述碱基检出器的所述初始训练的所述第二次迭代。
38.根据条款32所述的计算机可读存储介质,其中比较(i)所述对应的预测的碱基检出与(ii)所述已知的单个寡核苷酸序列的所述碱基包括:
对于第一预测的碱基检出,(i)将所述第一预测的碱基检出的第一碱基与所述已知的单个寡核苷酸序列的第一碱基进行比较,以及(ii)将所述第一预测的碱基检测的第二碱基与所述已知的单个寡核苷酸序列的第二碱基进行比较,从而生成对应的第一错误信号。
39.根据条款31所述的计算机可读存储介质,其中迭代地进一步训练所述碱基检出器包括:
利用包含两个已知的独特寡核苷酸碱基序列的分析物进一步训练所述碱基检出器进行N1次迭代;以及
利用包含三个已知的独特寡核苷酸碱基序列的分析物进一步训练所述碱基检出器进行N2次迭代,
其中在所述N2次迭代之前执行所述N1次迭代。
40.根据条款31所述的计算机可读存储介质,其中在用包含所述单寡核苷酸碱基序列的所述分析物所述迭代地初始训练所述碱基检出器期间,在所述碱基检出器内加载第一神经网络配置,并且其中迭代地进一步训练所述碱基检出器包括:
利用包含两个已知的独特寡核苷酸碱基序列的分析物进一步训练所述碱基检出器进行N1次迭代,使得
(i)对于所述N1次迭代的第一子集,在所述碱基检出器内加载第二神经网络配置,以及
(ii)对于在所述N1次迭代的所述第一子集之后发生的所述N1次迭代的第二子集,在碱基检出器内加载第三神经网络配置,其中所述第一神经网络配置、所述第二神经网络配置和所述第三神经网络配置彼此不同。
41.根据条款40所述的计算机可读存储介质,其中所述第二神经网络配置比所述第一神经网络配置更复杂,并且其中所述第三神经网络配置比所述第二神经网络配置更复杂。
42.根据条款40所述的计算机可读存储介质,其中所述第二神经网络配置具有比所述第一神经网络配置更大数量的层。
43.根据条款40所述的计算机可读存储介质,其中所述第二神经网络配置具有比所述第一神经网络配置更大数量的权重。
44.根据条款40所述的计算机可读存储介质,其中所述第二神经网络配置具有比所述第一神经网络配置更大数量的参数。
45.根据条款40所述的计算机可读存储介质,其中所述第三神经网络配置具有比所述第二神经网络配置更大数量的层。
46.根据条款40所述的计算机可读存储介质,其中所述第三神经网络配置具有比所述第二神经网络配置更大数量的权重。
47.根据条款40所述的计算机可读存储介质,其中所述第三神经网络配置具有比所述第二神经网络配置更大数量的参数。
48.根据条款40所述的计算机可读存储介质,其中利用包含两个已知的独特寡核苷酸碱基序列的所述分析物进一步训练所述碱基检出器进行所述N1次迭代包括:针对所述N1次迭代中的一次迭代,
(i)利用所述两个已知的独特寡核苷酸碱基序列中的第一已知的寡核苷酸碱基序列填充流通池的第一多个簇,以及(ii)利用所述两个已知的独特寡核苷酸碱基序列中的第二已知的寡核苷酸碱基序列填充流通池的第二多个簇;
针对所述第一多个簇和所述第二多个簇中的每个簇预测对应的碱基检出,使得生成多个预测的碱基检出;
将(i)所述多个预测的碱基检出中的第一预测的碱基检出映射到所述第一已知的寡核苷酸碱基序列,以及将(ii)所述多个预测的碱基检出中的第二预测的碱基检出映射到所述第二已知的寡核苷酸碱基序列,同时避免将所述多个预测的碱基检出中的第三预测的碱基检出映射到所述第一已知的寡核苷酸碱基序列或所述第二已知的寡核苷酸碱基序列中的任一者;
生成(i)基于所述第一预测的碱基检出与所述第一已知的寡核苷酸碱基序列的比较的第一错误信号,和(ii)基于所述第二预测的碱基检出与所述第二已知的寡核苷酸碱基序列的比较的第二错误信号;以及
基于所述第一错误信号和所述第二错误信号进一步训练所述碱基检出器。
49.根据条款38所述的计算机可读存储介质,其中将所述第一预测的碱基检出映射到所述两个已知的独特寡核苷酸碱基序列中的所述第一已知的寡核苷酸碱基序列包括:
将所述第一预测的碱基检出的每个碱基与所述第一已知的寡核苷酸碱基序列和所述第二已知的寡核苷酸碱基序列的对应的应碱基进行比较;
确定所述第一预测的碱基检出与所述第一已知的寡核苷酸碱基序列具有至少阈值数量的碱基相似性,并且与所述第二已知的寡核苷酸碱基序列具有小于所述阈值数量的碱基相似性;以及
基于确定所述第一预测的碱基检出与第一已知的寡核苷酸碱基序列具有至少所述阈值数量的碱基相似性,将所述第一预测的碱基检出映射到所述第一已知的寡核苷酸碱基序列。
50.根据条款48所述的计算机可读存储介质,其中避免将所述第三预测的碱基检出映射到所述第一已知的寡核苷酸碱基序列或所述第二已知的寡核苷酸碱基序列中的任一者包括:
将所述第一预测的碱基检出的每个碱基与所述第一已知的寡核苷酸碱基序列和所述第二已知的寡核苷酸碱基序列的对应的应碱基进行比较;
确定所述第一预测的碱基检出与所述第一已知的寡核苷酸碱基序列和第二已知的寡核苷酸碱基序列中的每一者具有小于阈值数量的碱基相似性;以及
基于确定所述第一预测的碱基检出与所述第一已知的寡核苷酸碱基序列和第二已知的寡核苷酸碱基序列中的每一者具有小于所述阈值数量的碱基相似性,避免将所述第三预测的碱基检出映射到所述第一已知的寡核苷酸碱基序列或所述第二已知的寡核苷酸碱基序列中的任一者。
51.根据条款48所述的计算机可读存储介质,其中避免将所述第三预测的碱基检出映射到所述第一已知的寡核苷酸碱基序列或所述第二已知的寡核苷酸碱基序列中的任一者包括:
将所述第一预测的碱基检出的每个碱基与所述第一已知的寡核苷酸碱基序列和所述第二已知的寡核苷酸碱基序列的对应的应碱基进行比较;
确定所述第一预测的碱基检出与所述第一已知的寡核苷酸碱基序列和第二已知的寡核苷酸碱基序列中的每一者具有大于阈值数量的碱基相似性;以及
基于确定所述第一预测的碱基检出与所述第一已知的寡核苷酸碱基序列和第二已知的寡核苷酸碱基序列中的每一者具有大于所述阈值数量的碱基相似性,避免将所述第三预测的碱基检出映射到所述第一已知的寡核苷酸碱基序列或所述第二已知的寡核苷酸碱基序列中的任一者。
52.根据条款48所述的计算机可读存储介质,其中使用所述进一步训练的碱基检出器进行所述N1次迭代中的所述一次迭代来生成标记训练数据包括:
在所述N1次迭代中的所述一次迭代期间进一步训练所述碱基检出器之后,针对所述第一多个簇和所述第二多个簇中的每一个簇重新预测对应的碱基检出,使得生成另一多个预测的碱基检出;
将(i)所述其他多个预测的碱基检出的第一子集重新映射到所述第一已知的寡核苷酸碱基序列,以及将(ii)所述其他多个预测的碱基检出的第二子集重新映射到所述第二已知的寡核苷酸碱基序列,同时避免将所述其他多个预测的碱基检出的第三子集映射到所述第一已知的寡核苷酸碱基序列或所述第二已知的寡核苷酸碱基序列中的任一者;以及
基于所述重新映射来生成标记训练数据,使得所述标记训练数据包括(i)所述其他多个预测的碱基检出的所述第一子集,其中所述第一已知的寡核苷酸碱基序列形成所述其他多个预测的碱基检出的所述第一子集的基准真值数据,和(ii)所述其他多个预测的碱基检出的所述第二子集,其中所述第二已知的寡核苷酸碱基序列形成所述其他多个预测的碱基检出的所述第二子集的基准真值数据。
53.根据条款52所述的计算机可读存储介质,其中:
在所述N1次迭代的所述一次迭代期间生成的标记训练数据被用于在所述N1次迭代的紧接的后续迭代期间训练所述碱基检出器。
54.根据条款53所述的计算机可读存储介质,其中:
所述碱基检出器的所述神经网络配置在所述N1次迭代的所述一次迭代和所述N1次迭代的所述紧接的后续迭代期间是相同的。
55.根据条款53所述的计算机可读存储介质,其中:
所述N1次迭代的所述紧接的后续迭代期间的所述碱基检出器的神经网络配置不同于所述N1次迭代的所述一次迭代期间的所述碱基检出器的神经网络配置,并且比所述N1次迭代的所述一次迭代期间的所述碱基检出器的神经网络配置更复杂。
56.根据条款31所述的计算机可读存储介质,其中迭代地进一步训练所述碱基检出器包括:
在所述迭代地进一步训练期间随着所述迭代的进行,单调地增加包含所述多寡核苷酸碱基序列的所述分析物中的独特寡核苷酸碱基序列的数量。
条款集#2(使用生物体序列训练的自学碱基检出器)
A1.一种渐进地训练碱基检出器的计算机实现的方法,所述方法包括:
初始训练碱基检出器,并使用所述初始训练的碱基检出器生成标记训练数据;
(i)利用包含生物体碱基序列的分析物进一步训练所述碱基检出器,并使用所述进一步训练的碱基检出器生成标记训练数据;以及
通过重复步骤(i)进行N次迭代来迭代地进一步训练所述碱基检出器,包括:
利用包含在第一多个碱基子序列中挑选出的第一生物体碱基序列的分析物进一步训练所述碱基检出器进行所述N次迭代中的N1次迭代,以及
利用包含在第二多个碱基子序列中挑选出的第二生物体碱基序列的分析物进一步训练所述碱基检出器进行所述N次迭代中的N2次迭代,
其中在所述碱基检出器中加载的神经网络配置的复杂性随着所述N次迭代单调地增加,并且
其中在所述N次迭代的迭代期间生成的标记训练数据用于在所述N次迭代的紧接的后续迭代期间训练所述碱基检出器。
A1a.根据条款A1所述的方法,其中初始训练所述碱基检出器包括:
利用包含一个或多个寡核苷酸碱基序列的分析物初始训练所述碱基检出器,并使用所述初始训练的碱基检出器生成标记训练数据。
A2.根据条款A1所述的方法,其中在所述N2次迭代之前进行所述N1次迭代,并且其中所述第二生物体碱基序列具有比所述第一生物体碱基序列更高数量的碱基。
A3.根据条款A1所述的方法,其中进一步训练所述碱基检出器进行所述N1次迭代包括,在所述N1次迭代的一次迭代期间:
(i)利用所述第一生物体的所述第一多个碱基子序列的第一碱基子序列填充流通池的多个簇中的第一簇,(ii)利用所述第一生物体的所述第一多个碱基子序列的第二碱基子序列填充所述流通池的所述多个簇中的第二簇,以及(iii)利用所述第一生物体的所述第一多个碱基子序列的第三碱基子序列填充所述流通池的所述多个簇中的第三簇;
接收(i)来自所述第一簇的指示填充在所述第一簇中的所述碱基子序列的第一序列信号,(ii)来自所述第二簇的指示填充在所述第二簇中的所述碱基子序列的第二序列信号,以及(iii)来自所述第三簇的指示填充在所述第三簇中的所述碱基子序列的第三序列信号;
生成(i)基于所述第一序列信号的第一预测的碱基子序列、(ii)基于所述第二序列信号的第二预测的碱基子序列和(iii)基于所述第三序列信号的第三预测的碱基子序列;
将(i)所述第一预测的碱基子序列与所述第一生物体碱基序列的第一部分映射,以及将(ii)所述第二预测的碱基子序列与所述第一生物体碱基序列的第二部分映射,同时未能将所述第三预测的碱基子序列与所述第一生物体碱基序列的任何部分映射;以及
生成标记训练数据,所述标记训练数据包含(i)映射到所述第一生物体碱基序列的所述第一部分的所述第一预测的碱基子序列,其中所述第一生物体碱基序列的所述第一部分是所述第一预测的碱基子序列的基准真值,和(ii)映射到所述第一生物体碱基序列的所述第二部分的所述第二预测的碱基子序列,其中所述第一生物体碱基序列的所述第二部分是所述第二预测的碱基子序列的基准真值。
A3a.根据条款A3所述的方法,其中进一步训练所述碱基检出器进行所述N1次迭代包括,在所述N1次迭代的所述一次迭代期间:
在生成所述第一预测的碱基子序列、所述第二预测的碱基子序列和所述第三预测的碱基子序列之前,使用在初始训练所述碱基检出器期间生成的标记训练数据来训练所述碱基检出器。
A4.根据条款A3所述的方法,其中:
所述第一预测的碱基子序列具有L1数量的碱基;并且
所述第一预测的碱基子序列的所述L1个碱基中的一个或多个碱基与所述第一生物体碱基序列的所述第一部分的对应碱基不匹配,这是由于所述碱基检出器的碱基检出预测的错误。
A5.根据条款A3所述的方法,所述第一预测的碱基子序列具有L1数量的碱基,其中所述第一预测的碱基子序列的所述L1数量的碱基包括初始L2个碱基,随后是后续L3个碱基,并且其中将所述第一预测的碱基子序列与所述第一生物体碱基序列的所述第一部分映射包括:
将所述第一预测的碱基序列的所述初始L2个碱基与所述第一生物体碱基序列的连续L2个碱基基本上且唯一地匹配;
鉴定所述第一生物体碱基序列的所述第一部分,使得所述第一部分(i)包括所述连续L2个碱基作为初始碱基并且(ii)包括L1数量的碱基;以及
将所述第一预测的碱基子序列与所述第一生物体碱基序列的所鉴定的第一部分映射。
A6.根据A5所述的方法,所述方法进一步包括:
在所述第一预测的碱基序列的所述初始L2个碱基基本上且唯一地匹配时,避免将所述第一预测的碱基序列的所述后续L3个碱基与所述第一生物体碱基序列的任何碱基匹配。
A7.根据A5所述的方法,其中所述第一预测的碱基序列的所述初始L2个碱基与所述第一生物体碱基序列的所述连续L2个碱基基本上匹配,使得所述第一预测的碱基序列的所述初始L2个碱基的至少阈值数量的碱基与所述第一生物体碱基序列的所述连续L2个碱基匹配。
A8.根据A5所述的方法,其中所述第一预测的碱基序列的所述初始L2个碱基与所述第一生物体碱基序列的连续L2个碱基唯一地匹配,使得所述第一预测的碱基序列的所述初始L2个碱基仅与所述第一生物体碱基序列的所述连续L2个碱基基本上匹配,并且不与所述第一生物体碱基序列的其他连续L2个碱基匹配。
A9.根据条款A3所述的方法,所述第三预测的碱基子序列具有L1数量的碱基,并且其中未能将所述第三预测的碱基子序列与所述第一多个碱基子序列中的任何所述碱基子序列映射包括:
(i)未能将所述第三预测的碱基序列的所述L1个碱基的初始L2个碱基与所述第一生物体碱基序列的连续L2个碱基基本上且唯一地匹配。
A10.根据条款A3所述的方法,其中所述N1次迭代中的所述一次迭代是所述N1次迭代中的第一次迭代,并且其中进一步训练所述碱基检出器进行所述N1次迭代中的第二次迭代包括:
使用在所述N1次迭代的所述第一次迭代期间生成的所述标记训练数据来训练所述碱基检出器;
使用利用在所述N1次迭代的所述第一次迭代期间生成的所述标记训练数据训练的所述碱基检出器,生成(i)基于所述第一序列信号的另外的第一预测的碱基子序列、(ii)基于所述第二序列信号的另外的第二预测的碱基子序列和(iii)基于所述第三序列信号的另外的第三预测的碱基子序列;
将(i)所述另外的第一预测的碱基子序列与所述第一生物体碱基序列的所述第一部分映射,将(ii)所述另外的第二预测的碱基子序列与所述第一生物体碱基序列的所述第二部分映射,以及将(iii)所述另外的第三预测的碱基子序列与所述第一生物体碱基序列的第三部分映射;以及
生成另外的标记训练数据,所述另外的标记训练数据包含(i)映射到所述第一生物体碱基序列的所述第一部分的所述另外的第一预测的碱基子序列,其中所述第一生物体碱基序列的所述第一部分是所述另外的第一预测的碱基子序列的基准真值,(ii)映射到所述第一生物体碱基序列的所述第二部分的所述另外的第二预测的碱基子序列,其中所述第一生物体碱基序列的所述另外的第二部分是所述另外的第二预测的碱基子序列的基准真值,和(iii)映射到所述第一生物体碱基序列的所述第三部分的所述另外的第三预测的碱基子序列,其中所述第一生物体碱基序列的所述另外的第三部分是所述另外的第三预测的碱基子序列的基准真值。
A11.根据条款A10所述的方法,所述方法进一步包括:
在(i)所述N1次迭代的所述第一次迭代期间生成的所述第一预测的碱基子序列和(ii)所述第一生物体碱基序列的所述第一部分之间生成第一错误;以及
在(i)所述N1次迭代的所述第二次迭代期间生成的所述另外的第一预测的碱基子序列和(ii)所述第一生物体碱基序列的所述第一部分之间生成第二错误,
其中所述第二错误小于所述第一错误,因为相对于所述第一次迭代,所述碱基检出器在所述第二次迭代期间得到了更好地训练。
A12.根据条款A10所述的方法,其中:
在所述第二次迭代中重新使用所述第一次迭代期间生成的所述第一序列信号、所述第二序列信号和所述第三序列信号,以分别生成所述另外的第一预测的碱基子序列、所述另外的第二预测的碱基子序列和所述另外的第三预测的碱基子序列。
A13.根据条款A10所述的方法,其中:
所述碱基检出器的神经网络配置在所述N1次迭代的所述第一次迭代和所述N1次迭代的所述第二次迭代期间是相同的。
A13a.根据条款A13所述的方法,其中:
所述碱基检出器的所述神经网络配置被重复用于多次迭代,直到满足收敛条件。
A14.根据条款A10所述的方法,其中:
所述N1次迭代的所述第一次迭代期间的所述碱基检出器的神经网络配置不同于所述N1次迭代的所述第二次迭代期间的所述碱基检出器的神经网络配置,并且比所述N1次迭代的所述第二次迭代期间的所述碱基检出器的神经网络配置更复杂。
A15.根据条款A1所述的方法,其中利用包含所述第一生物体碱基序列的所述分析物进一步训练所述碱基检出器进行所述N次迭代中的所述N1次迭代包括:
对于所述N1次迭代的第一子集,利用所述碱基检出器中加载的第一神经网络配置进一步训练所述碱基检出器;
对于所述N1次迭代的第二子集,利用在所述碱基检出器中加载的第二神经网络配置进一步训练所述碱基检出器,所述第二神经网络配置不同于所述第一神经网络配置。
A16.根据条款A15所述的方法,其中所述第二神经网络配置具有比所述第一神经网络配置更大数量的层。
A17.根据条款A15所述的方法,其中所述第二神经网络配置具有比所述第一神经网络配置更大数量的权重。
A18.根据条款A15所述的方法,其中所述第二神经网络配置具有比所述第一神经网络配置更大数量的参数。
A19.根据条款A1所述的方法,其中迭代地进一步训练所述碱基检出器包括:
对于包含所述第一生物体碱基序列的分析物的所述N1次迭代中的一次或多次迭代,在所述碱基检出器中加载第一神经网络配置;以及
对于包含所述第二生物体碱基序列的分析物的所述N2次迭代中的一次或多次迭代,在所述碱基检出器中加载第二神经网络配置,所述第二神经网络配置不同于所述第一神经网络配置。
A20.根据条款A19所述的方法,其中所述第二神经网络配置具有比所述第一神经网络配置更大数量的层。
A21.根据条款A19所述的方法,其中所述第二神经网络配置具有比所述第一神经网络配置更大数量的权重。
A22.根据条款A19所述的方法,其中所述第二神经网络配置具有比所述第一神经网络配置更大数量的参数。
A23.根据条款A1所述的方法,其中利用包含所述第一生物体碱基序列的所述分析物进一步训练所述碱基检出器进行所述N次迭代中的所述N1次迭代包括:
利用第一生物体碱基序列重复所述进一步训练,直到在所述N1次迭代之后满足收敛条件。
A24.根据条款A23所述的方法,其中当在所述N1次迭代的两次连续迭代之间,生成的错误信号的减少小于阈值时,满足所述收敛条件。
A25.根据条款A23所述的方法,其中在完成所述N1次迭代之后满足所述收敛条件。
B1.一种印有渐进地训练碱基检出器的计算机程序指令的非暂态计算机可读存储介质,所述指令在处理器上执行时实现包括以下各项的方法:
初始训练碱基检出器,并使用所述初始训练的碱基检出器生成标记训练数据;
(i)利用包含生物体碱基序列的分析物进一步训练所述碱基检出器,并使用所述进一步训练的碱基检出器生成标记训练数据;以及
通过重复步骤(i)进行N次迭代来迭代地进一步训练所述碱基检出器,包括:
利用包含在第一多个碱基子序列中挑选出的第一生物体碱基序列的分析物进一步训练所述碱基检出器进行所述N次迭代中的N1次迭代,以及
利用包含在第二多个碱基子序列中挑选出的第二生物体碱基序列的分析物进一步训练所述碱基检出器进行所述N次迭代中的N2次迭代,
其中在所述碱基检出器中加载的神经网络配置的复杂性随着所述N次迭代单调地增加,并且
其中在所述N次迭代的迭代期间生成的标记训练数据用于在所述N次迭代的紧接的后续迭代期间训练所述碱基检出器。
B1a.根据条款B1所述的计算机可读存储介质,其中初始训练所述碱基检出器包括:
利用包含一个或多个寡核苷酸碱基序列的分析物初始训练所述碱基检出器,并使用所述初始训练的碱基检出器生成标记训练数据。
B2.根据条款B1所述的计算机可读存储介质,其中在所述N2次迭代之前进行所述N1次迭代,并且其中所述第二生物体碱基序列具有比所述第一生物体碱基序列更高数量的碱基。
B3.根据条款B1所述的计算机可读存储介质,其中进一步训练所述碱基检出器进行所述N1次迭代包括,在所述N1次迭代的一次迭代期间:
(i)利用所述第一生物体的所述第一多个碱基子序列的第一碱基子序列填充流通池的多个簇中的第一簇,(ii)利用所述第一生物体的所述第一多个碱基子序列的第二碱基子序列填充所述流通池的所述多个簇中的第二簇,以及(iii)利用所述第一生物体的所述第一多个碱基子序列的第三碱基子序列填充所述流通池的所述多个簇中的第三簇;
接收(i)来自所述第一簇的指示填充在所述第一簇中的所述碱基子序列的第一序列信号,(ii)来自所述第二簇的指示填充在所述第二簇中的所述碱基子序列的第二序列信号,以及(iii)来自所述第三簇的指示填充在所述第三簇中的所述碱基子序列的第三序列信号;
生成(i)基于所述第一序列信号的第一预测的碱基子序列、(ii)基于所述第二序列信号的第二预测的碱基子序列和(iii)基于所述第三序列信号的第三预测的碱基子序列;
将(i)所述第一预测的碱基子序列与所述第一生物体碱基序列的第一部分映射,以及将(ii)所述第二预测的碱基子序列与所述第一生物体碱基序列的第二部分映射,同时未能将所述第三预测的碱基子序列与所述第一生物体碱基序列的任何部分映射;以及
生成标记训练数据,所述标记训练数据包含(i)映射到所述第一生物体碱基序列的所述第一部分的所述第一预测的碱基子序列,其中所述第一生物体碱基序列的所述第一部分是所述第一预测的碱基子序列的基准真值,和(ii)映射到所述第一生物体碱基序列的所述第二部分的所述第二预测的碱基子序列,其中所述第一生物体碱基序列的所述第二部分是所述第二预测的碱基子序列的基准真值。
B3a.根据条款B3所述的计算机可读存储介质,其中进一步训练所述碱基检出器进行所述N1次迭代包括,在所述N1次迭代的所述一次迭代期间:
在生成所述第一预测的碱基子序列、所述第二预测的碱基子序列和所述第三预测的碱基子序列之前,使用在初始训练所述碱基检出器期间生成的标记训练数据来训练所述碱基检出器。
B4.根据条款B3所述的计算机可读存储介质,其中:
所述第一预测的碱基子序列具有L1数量的碱基;并且
所述第一预测的碱基子序列的所述L1个碱基中的一个或多个碱基与所述第一生物体碱基序列的所述第一部分的对应碱基不匹配,这是由于所述碱基检出器的碱基检出预测的错误。
B5.根据条款B3所述的计算机可读存储介质,所述第一预测的碱基子序列具有L1数量的碱基,其中所述第一预测的碱基子序列的所述L1数量的碱基包括初始L2个碱基,随后是后续L3个碱基,并且其中将所述第一预测的碱基子序列与所述第一生物体碱基序列的所述第一部分映射包括:
将所述第一预测的碱基序列的所述初始L2个碱基与所述第一生物体碱基序列的连续L2个碱基基本上且唯一地匹配;
鉴定所述第一生物体碱基序列的所述第一部分,使得所述第一部分(i)包括所述连续L2个碱基作为初始碱基并且(ii)包括L1数量的碱基;以及
将所述第一预测的碱基子序列与所述第一生物体碱基序列的所鉴定的第一部分映射。
B6.根据B5所述的计算机可读存储介质,所述计算机可读存储介质进一步包括:
在所述第一预测的碱基序列的所述初始L2个碱基基本上且唯一地匹配时,避免将所述第一预测的碱基序列的所述后续L3个碱基与所述第一生物体碱基序列的任何碱基匹配。
B7.根据B5所述的计算机可读存储介质,其中所述第一预测的碱基序列的所述初始L2个碱基与所述第一生物体碱基序列的所述连续L2个碱基基本上匹配,使得所述第一预测的碱基序列的所述初始L2个碱基的至少阈值数量的碱基与所述第一生物体碱基序列的所述连续L2个碱基匹配。
B8.根据B5所述的计算机可读存储介质,其中所述第一预测的碱基序列的所述初始L2个碱基与所述第一生物体碱基序列的连续L2个碱基唯一地匹配,使得所述第一预测的碱基序列的所述初始L2个碱基仅与所述第一生物体碱基序列的所述连续L2个碱基基本上匹配,并且不与所述第一生物体碱基序列的其他连续L2个碱基匹配。
B9.根据条款B3所述的计算机可读存储介质,所述第三预测的碱基子序列具有L1数量的碱基,并且其中未能将所述第三预测的碱基子序列与所述第一多个碱基子序列中的任何所述碱基子序列映射包括:
(i)未能将所述第三预测的碱基序列的所述L1个碱基的初始L2个碱基与所述第一生物体碱基序列的连续L2个碱基基本上且唯一地匹配。
B10.根据条款B3所述的计算机可读存储介质,其中所述N1次迭代中的所述一次迭代是所述N1次迭代中的第一次迭代,并且其中进一步训练所述碱基检出器进行所述N1次迭代中的第二次迭代包括:
使用在所述N1次迭代的所述第一次迭代期间生成的所述标记训练数据来训练所述碱基检出器;
使用利用在所述N1次迭代的所述第一次迭代期间生成的所述标记训练数据训练的所述碱基检出器,生成(i)基于所述第一序列信号的另外的第一预测的碱基子序列、(ii)基于所述第二序列信号的另外的第二预测的碱基子序列和(iii)基于所述第三序列信号的另外的第三预测的碱基子序列;
将(i)所述另外的第一预测的碱基子序列与所述第一生物体碱基序列的所述第一部分映射,将(ii)所述另外的第二预测的碱基子序列与所述第一生物体碱基序列的所述第二部分映射,以及将(iii)所述另外的第三预测的碱基子序列与所述第一生物体碱基序列的第三部分映射;以及
生成另外的标记训练数据,所述另外的标记训练数据包含(i)映射到所述第一生物体碱基序列的所述第一部分的所述另外的第一预测的碱基子序列,其中所述第一生物体碱基序列的所述第一部分是所述另外的第一预测的碱基子序列的基准真值,(ii)映射到所述第一生物体碱基序列的所述第二部分的所述另外的第二预测的碱基子序列,其中所述第一生物体碱基序列的所述另外的第二部分是所述另外的第二预测的碱基子序列的基准真值,和(iii)映射到所述第一生物体碱基序列的所述第三部分的所述另外的第三预测的碱基子序列,其中所述第一生物体碱基序列的所述另外的第三部分是所述另外的第三预测的碱基子序列的基准真值。
B11.根据条款B10所述的计算机可读存储介质,所述计算机可读存储介质进一步包括:
在(i)所述N1次迭代的所述第一次迭代期间生成的所述第一预测的碱基子序列和(ii)所述第一生物体碱基序列的所述第一部分之间生成第一错误;以及
在(i)所述N1次迭代的所述第二次迭代期间生成的所述另外的第一预测的碱基子序列和(ii)所述第一生物体碱基序列的所述第一部分之间生成第二错误,
其中所述第二错误小于所述第一错误,因为相对于所述第一次迭代,所述碱基检出器在所述第二次迭代期间得到了更好地训练。
B12.根据条款B10所述的计算机可读存储介质,其中:
在所述第二次迭代中重新使用所述第一次迭代期间生成的所述第一序列信号、所述第二序列信号和所述第三序列信号,以分别生成所述另外的第一预测的碱基子序列、所述另外的第二预测的碱基子序列和所述另外的第三预测的碱基子序列。
B13.根据条款B10所述的计算机可读存储介质,其中:
所述碱基检出器的神经网络配置在所述N1次迭代的所述第一次迭代和所述N1次迭代的所述第二次迭代期间是相同的。
B13a.根据条款B13所述的计算机可读存储介质,其中:
所述碱基检出器的所述神经网络配置被重复用于多次迭代,直到满足收敛条件。
B14.根据条款B10所述的计算机可读存储介质,其中:
所述N1次迭代的所述第一次迭代期间的所述碱基检出器的神经网络配置不同于所述N1次迭代的所述第二次迭代期间的所述碱基检出器的神经网络配置,并且比所述N1次迭代的所述第二次迭代期间的所述碱基检出器的神经网络配置更复杂。
B15.根据条款B1所述的计算机可读存储介质,其中利用包含所述第一生物体碱基序列的所述分析物进一步训练所述碱基检出器进行所述N次迭代中的所述N1次迭代包括:
对于所述N1次迭代的第一子集,利用所述碱基检出器中加载的第一神经网络配置进一步训练所述碱基检出器;
对于所述N1次迭代的第二子集,利用在所述碱基检出器中加载的第二神经网络配置进一步训练所述碱基检出器,所述第二神经网络配置不同于所述第一神经网络配置。
B16.根据条款B15所述的计算机可读存储介质,其中所述第二神经网络配置具有比所述第一神经网络配置更大数量的层。
B17.根据条款B15所述的计算机可读存储介质,其中所述第二神经网络配置具有比所述第一神经网络配置更大数量的权重。
B18.根据条款B15所述的计算机可读存储介质,其中所述第二神经网络配置具有比所述第一神经网络配置更大数量的参数。
B19.根据条款B1所述的计算机可读存储介质,其中迭代地进一步训练所述碱基检出器包括:
对于包含所述第一生物体碱基序列的分析物的所述N1次迭代中的一次或多次迭代,在所述碱基检出器中加载第一神经网络配置;以及
对于包含所述第二生物体碱基序列的分析物的所述N2次迭代中的一次或多次迭代,在所述碱基检出器中加载第二神经网络配置,所述第二神经网络配置不同于所述第一神经网络配置。
B20.根据条款B19所述的计算机可读存储介质,其中所述第二神经网络配置具有比所述第一神经网络配置更大数量的层。
B21.根据条款B19所述的计算机可读存储介质,其中所述第二神经网络配置具有比所述第一神经网络配置更大数量的权重。
B22.根据条款B19所述的计算机可读存储介质,其中所述第二神经网络配置具有比所述第一神经网络配置更大数量的参数。
B23.根据条款B1所述的计算机可读存储介质,其中利用包含所述第一生物体碱基序列的所述分析物进一步训练所述碱基检出器进行所述N次迭代中的所述N1次迭代包括:
利用第一生物体碱基序列重复所述进一步训练,直到在所述N1次迭代之后满足收敛条件。
B24.根据条款B23所述的计算机可读存储介质,其中当在所述N1次迭代的两次连续迭代之间,生成的错误信号的减少小于阈值时,满足所述收敛条件。
B25.根据条款B23所述的计算机可读存储介质,其中在完成所述N1次迭代之后满足所述收敛条件。
1.一种渐进地训练碱基检出器的计算机实现的方法,所述方法包括:
以单寡核苷酸训练阶段开始,所述单寡核苷酸训练阶段(i)使用所述碱基检出器来预测被测序为具有寡核苷酸的已知序列的单寡核苷酸未知分析物(即,未知目标序列)群体的单寡核苷酸碱基检出序列,(ii)利用匹配所述已知序列的单寡核苷酸基准真值序列标记所述单寡核苷酸未知分析物群体中的每个单寡核苷酸未知分析物,以及(iii)使用所标记的单寡核苷酸未知分析物群体训练所述碱基检出器;
利用一个或多个多寡核苷酸训练阶段继续,所述一个或多个多寡核苷酸训练阶段(i)使用所述碱基检出器来预测被测序为具有两个或更多个寡核苷酸的两个或更多个已知序列的多寡核苷酸未知分析物群体的多寡核苷酸碱基检出序列,(ii)基于挑选的多寡核苷酸未知分析物的多寡核苷酸碱基检出序列到所述已知序列的分类从所述多寡核苷酸未知分析物群体所述挑选多寡核苷酸未知分析物,(iii)基于所述分类,利用分别匹配所述已知序列的相应多寡核苷酸基准真值序列标记所挑选的多寡核苷酸未知分析物的相应子集,以及(iv)使用所挑选的多寡核苷酸未知分析物的所标记的相应子集进一步训练所述碱基检出器;以及
利用一个或多个生物体特异性训练阶段继续,所述一个或多个生物体特异性训练阶段(i)使用所述碱基检出器来预测被测序为具有生物体的参考序列的一个或多个已知子序列的生物体特异性未知分析物群体的生物体特异性碱基检出序列,(ii)基于挑选的生物体特异性未知分析物的生物体特异性碱基检出序列到含有所述已知子序列的所述参考序列的部分的映射从所述生物体特异性未知分析物群体所述挑选生物体特异性未知分析物,(iii)基于所述映射,利用分别匹配所述已知子序列的相应生物体特异性基准真值序列标记所挑选的生物体特异性未知分析物的相应子集,以及(iv)使用所挑选的生物体特异性未知分析物的所标记的相应子集进一步训练所述碱基检出器。
2.根据条款1所述的计算机实现的方法,所述方法进一步包括在进行到所述多寡核苷酸训练阶段之前执行所述单寡核苷酸训练阶段的多次迭代,直到满足收敛条件。
3.根据条款1所述的计算机实现的方法,所述方法进一步包括在进行到所述生物体特异性训练阶段之前执行所述多寡核苷酸训练阶段中的每个多寡核苷酸训练阶段的多次迭代,直到满足收敛条件。
4.根据条款3所述的计算机实现的方法,其中在本发明多寡核苷酸训练阶段的每次迭代中,从所述多寡核苷酸未知分析物群体中利用置换来挑选所挑选的多寡核苷酸未知分析物,因此所挑选的多寡核苷酸未知分析物的所标记的相应子集的相应大小在所述本发明多寡核苷酸训练阶段的连续迭代之间增加。
5.根据条款1所述的计算机实现的方法,所述方法进一步包括执行生物体特异性训练阶段中的每个生物体特异性训练阶段的多次迭代,直到满足收敛条件。
6.根据条款5所述的计算机实现的方法,其中在本发明生物体特异性训练阶段的每次迭代中,从所述生物体特异性未知分析物群体中利用置换来挑选所挑选的生物体特异性未知分析物,因此所挑选的生物体特异性未知分析物的所标记的相应子集的相应大小在所述本发明生物体特异性训练阶段的连续迭代之间增加。
7.根据条款1所述的计算机实现的方法,其中所述分类基于所述多寡核苷酸碱基检出序列与所述已知序列之间的重叠。
8.根据条款7所述的计算机实现的方法,其中基于编辑距离和最小相似性阈值来确定所述重叠。
9.根据条款1所述的计算机实现的方法,其中所述映射基于所述生物体特异性碱基检出序列的初始部分是否与所述参考序列的所述区段的初始部分匹配。
10.根据条款2所述的计算机实现的方法,其中所述收敛条件是所述碱基检出器的目标准确度。
11.根据条款3所述的计算机实现的方法,其中所述收敛条件是所述碱基检出器的目标准确度。
12.根据条款5所述的计算机实现的方法,其中所述收敛条件是所述碱基检出器的目标准确度。
13.根据条款3所述的计算机实现的方法,其中所述收敛条件是所挑选的多寡核苷酸未知分析物的所标记的相应子集的目标累积大小。
14.根据条款5所述的计算机实现的方法,其中所述收敛条件是所挑选的生物体特异性未知分析物的所标记的相应子集的目标累积大小。
15.根据条款2所述的计算机实现的方法,所述方法进一步包括在所述单寡核苷酸训练阶段的连续迭代之间改变所述碱基检出器的配置。
16.根据条款3所述的计算机实现的方法,所述方法进一步包括在所述本发明多寡核苷酸训练阶段的所述连续迭代之间改变所述碱基检出器的所述配置。
17.根据条款5所述的计算机实现的方法,所述方法进一步包括在所述本发明生物体特异性训练阶段的所述连续迭代之间改变所述碱基检出器的所述配置。
18.根据条款2所述的计算机实现的方法,所述方法进一步包括在所述单寡核苷酸训练阶段的连续迭代之间保持所述碱基检出器的所述配置固定。
19.根据条款3所述的计算机实现的方法,所述方法进一步包括在所述本发明多寡核苷酸训练阶段的所述连续迭代之间保持所述碱基检出器的所述配置固定。
20.根据条款5所述的计算机实现的方法,所述方法进一步包括在所述本发明生物体特异性训练阶段的所述连续迭代之间保持所述碱基检出器的所述配置固定。
21.根据条款1所述的计算机实现的方法,所述方法进一步包括当从所述单寡核苷酸训练阶段进行到所述多寡核苷酸训练阶段时改变所述碱基检出器的所述配置。
22.根据条款1所述的计算机实现的方法,所述方法进一步包括当从所述多寡核苷酸训练阶段进行到所述生物体特异性训练阶段时改变所述碱基检出器的所述配置。
23.根据条款1所述的计算机实现的方法,所述方法进一步包括当从所述单寡核苷酸训练阶段进行到所述多寡核苷酸训练阶段时保持所述碱基检出器的所述配置固定。
24.根据条款1所述的计算机实现的方法,所述方法进一步包括当从所述多寡核苷酸训练阶段进行到所述生物体特异性训练阶段时保持所述碱基检出器的所述配置固定。
25.根据条款1所述的计算机实现的方法,其中所述碱基检出器是神经网络。
26.根据条款25所述的计算机实现的方法,其中所述配置由所述神经网络的参数的数量定义。
27.根据条款25所述的计算机实现的方法,其中所述配置由所述神经网络的层的数量定义。
28.根据条款25所述的计算机实现的方法,其中所述配置在正向传递实例中由所述神经网络处理的输入的数量来定义(例如,侧面图像的逐渐增大的滑动窗口)。
29.根据条款25所述的计算机实现的方法,其中所述神经网络是卷积神经网络。
30.根据条款29所述的计算机实现的方法,其中通过所述卷积神经网络中的卷积滤波器的数量来定义所述配置。
31.根据条款29所述的计算机实现的方法,其中通过所述卷积神经网络中的卷积层的数量来定义所述配置。
31A.根据条款1所述的计算机实现的方法,还包括:
使用所述碱基检出器的第一配置来实现所述单寡核苷酸训练阶段的至少一次迭代;以及
使用所述碱基检出器的第二配置来实现所述多寡核苷酸训练阶段的至少一次迭代,
其中所述碱基检出器的所述第一配置包括第一神经网络,所述第一神经网络具有比所述碱基检出器的所述第二配置的第二神经网络更少数量的参数。
31B.根据条款31A所述的计算机实现的方法,所述方法进一步包括:
使用所述碱基检出器的第三配置来实现所述生物体特异性训练阶段的至少一次迭代,
其中所述碱基检出器的所述第二配置包括所述第二神经网络,所述第二神经网络具有比所述碱基检出器的所述第三配置的第三神经网络更少数量的参数。
32.根据条款4所述的计算机实现的方法,其中在所述本发明多寡核苷酸训练阶段的每次迭代中,所述多寡核苷酸碱基序列中的至少一些多寡核苷酸碱基检出序列不被分类为所述已知序列。
33.根据条款32所述的计算机实现的方法,其中未分类的多寡核苷酸碱基检出序列的数量在所述本发明多寡核苷酸训练阶段的连续迭代之间减少。
34.根据条款6所述的计算机实现的方法,其中在所述本发明生物体特异性训练阶段的每次迭代中,生物体特异性碱基检出序列中的至少一些生物体特异性碱基检出序列不被分类为所述已知子序列。
35.根据条款34所述的计算机实现的方法,其中未分类的生物体特异性碱基检出序列的数量在所述本发明生物体特异性训练阶段的连续迭代之间减少。
36.根据条款4所述的计算机实现的方法,其中在本多寡核苷酸训练阶段的每次迭代中,所述多寡核苷酸碱基检出序列中的至少一些多寡核苷酸碱基序列被错配为所述已知序列。
37.根据条款36所述的计算机实现的方法,其中错配的多寡核苷酸碱基检出序列的数量在所述本发明多寡核苷酸训练阶段的连续迭代之间减少。
38.根据条款6所述的计算机实现的方法,其中在所述本发明生物体特异性训练阶段的每次迭代中,生物体特异性碱基检出序列中的至少一些生物体特异性碱基检出序列被错配为所述已知子序列。
39.根据条款38所述的计算机实现的方法,其中错配的生物体特异性碱基检出序列的数量在所述本发明生物体特异性训练阶段的连续迭代之间减少。
40.根据条款1所述的计算机实现的方法,其中所述碱基检出器的准确度随着从所述单寡核苷酸训练阶段、所述多寡核苷酸训练阶段和所述生物体特异性训练阶段的所述训练的所述进展而增加。
41.根据条款1所述的计算机实现的方法,其中所述寡核苷酸的所述已知序列具有1至100个碱基,其中所述两个或更多个寡核苷酸的所述已知序列中的每个已知序列具有1至100个碱基,并且其中所述参考序列的所述已知子序列中的每个已知子序列具有1至1000个碱基。
42.根据条款41所述的计算机实现的方法,其中用于训练所述碱基检出器的标记训练示例的碱基多样性随着从所述单寡核苷酸训练阶段、所述多寡核苷酸训练阶段和所述生物体特异性训练阶段的训练进展而增加。
43.根据条款1所述的计算机实现的方法,其中所述单寡核苷酸训练阶段通过基于所述单寡核苷酸碱基检出序列和所述单寡核苷酸基准真值序列之间的错配来更新所述碱基检出器的权重来训练所述碱基检出器。
44.根据条款1所述的计算机实现的方法,其中所述多寡核苷酸训练阶段通过基于所分类的多寡核苷酸碱基检出序列和相应的多寡核苷酸基准真值序列之间的错配来更新所述碱基检出器的权重来训练所述碱基检出器。
45.根据条款1所述的计算机实现的方法,其中所述生物体特异性训练阶段通过基于所映射的生物体特异性碱基检出序列和相应的生物体特异性基准真值序列之间的错配来更新所述碱基检出器的权重来训练所述碱基检出器。
46.根据条款1所述的计算机实现的方法,其中所述生物体特异性训练阶段不对那些映射到所述参考序列的低映射阈值部分和/或已知变体部分的生物体特异性碱基检出预测进行分类。
47.根据条款1所述的计算机实现的方法,所述方法进一步包括使用由所述单寡核苷酸训练阶段产生的所述训练的碱基检出器以在推断阶段对未知分析物进行碱基检出。
48.根据条款47所述的计算机实现的方法,所述方法进一步包括使用由任何所述多寡核苷酸训练阶段产生的所述进一步训练的碱基检出器以在所述推断阶段对未知分析物进行碱基检出。
49.根据条款48所述的计算机实现的方法,所述方法进一步包括使用由任何所述生物体特异性训练阶段产生的所述进一步训练的碱基检出器以在所述推断阶段对未知分析物进行碱基检出。
50.根据条款1所述的计算机实现的方法,其中所述多寡核苷酸训练阶段包括双寡核苷酸训练阶段、三寡核苷酸训练阶段、四寡核苷酸训练阶段和后续的多寡核苷酸训练阶段。
51.根据条款50所述的计算机实现的方法,其中所述双寡核苷酸训练阶段(i)使用所述碱基检出器来预测被测序为具有两个寡核苷酸的两个已知序列的双寡核苷酸未知分析物群体的双寡核苷酸碱基检出序列,(ii)基于挑选的双寡核苷酸未知分析物的双寡核苷酸碱基检出序列到所述两个已知序列的分类从所述双寡核苷酸未知分析物群体所述挑选双寡核苷酸未知分析物,(iii)利用分别匹配所述两个已知序列的相应双寡核苷酸基准真值序列标记所挑选的双寡核苷酸未知分析物的相应子集,以及(iv)使用所挑选的双寡核苷酸未知分析物的所标记的相应子集进一步训练所述碱基检出器。
52.根据条款50所述的计算机实现的方法,其中所述三寡核苷酸训练阶段(i)使用所述碱基检出器来预测被测序为具有三个寡核苷酸的三个已知序列的三寡核苷酸未知分析物群体的三寡核苷酸碱基检出序列,(ii)基于挑选的三寡核苷酸未知分析物的三寡核苷酸碱基检出序列到所述三个已知序列的分类从所述三寡核苷酸未知分析物群体挑选三寡核苷酸未知分析物,(iii)利用分别匹配所述三个已知序列的相应三寡核苷酸基准真值序列标记所挑选的三寡核苷酸未知分析物的相应子集,以及(iv)使用所挑选的三寡核苷酸未知分析物的所标记的相应子集进一步训练所述碱基检出器。
53.根据条款50所述的计算机实现的方法,其中所述四寡核苷酸训练阶段(i)使用所述碱基检出器来预测被测序为具有四个寡核苷酸的四个已知序列的四寡核苷酸未知分析物群体的四寡核苷酸碱基检出序列,(ii)基于挑选的四寡核苷酸未知分析物的四寡核苷酸碱基检出序列到所述四个已知序列的分类从所述四寡核苷酸未知分析物群体所述挑选四寡核苷酸未知分析物,(iii)利用分别匹配所述四个已知序列的相应四寡核苷酸基准真值序列标记所挑选的四寡核苷酸未知分析物的相应子集,以及(iv)使用所挑选的四寡核苷酸未知分析物的所标记的相应子集进一步训练所述碱基检出器。
54.根据条款1所述的计算机实现的方法,其中所述生物体是细菌(例如,PhiX、大肠杆菌)。
55.根据条款1所述的计算机实现的方法,其中所述生物体是灵长类动物(例如,人)。
56.根据条款1所述的计算机实现的方法,其中所述单寡核苷酸未知分析物的特征在于由所述碱基检出器处理以预测所述单寡核苷酸碱基检出序列的单寡核苷酸信号序列,其中所述单寡核苷酸基准真值序列被分配给所述单寡核苷酸信号序列用于训练所述碱基检出器。
57.根据条款56所述的计算机实现的方法,其中所述多寡核苷酸未知分析物的特征在于由所述碱基检出器处理以预测所述多寡核苷酸碱基检出序列的多寡核苷酸信号序列,其中所述多寡核苷酸基准真值序列被分配给所述多寡核苷酸信号序列用于训练所述碱基检出器。
58.根据条款57所述的计算机实现的方法,其中所述生物体特异性未知分析物的特征在于由所述碱基检出器处理以预测所述生物体特异性碱基检出序列的生物体特异性信号序列,其中所述生物体特异性基准真值序列被分配给所述生物体特异性信号序列用于训练所述碱基检出器。
59.根据条款58所述的计算机实现的方法,其中所述单寡核苷酸信号序列、所述多寡核苷酸信号序列和所述生物体特异性信号序列是图像序列。
60.根据条款58所述的计算机实现的方法,其中所述单寡核苷酸信号序列、所述多寡核苷酸信号序列和所述生物体特异性信号序列是电压读取序列。
61.根据条款58所述的计算机实现的方法,其中所述单寡核苷酸信号序列、所述多寡核苷酸信号序列和所述生物体特异性信号序列是当前读取序列。
62.根据条款1所述的计算机实现的方法,其中所述单寡核苷酸未知分析物、所述多寡核苷酸未知分析物和所述生物体特异性未知分析物是单分子。
63.根据条款1所述的计算机实现的方法,其中所述单寡核苷酸未知分析物、所述多寡核苷酸未知分析物和所述生物体特异性未知分析物是扩增的单分子(例如,簇)。
64.根据条款1所述的计算机实现的方法,其中所述单寡核苷酸未知分析物、所述多寡核苷酸未知分析物和所述生物体特异性未知分析物是包含分子的小珠。
65.一种计算机实现的方法,所述方法包括:
使用碱基检出器来预测被测序为具有生物体的参考序列的一个或多个已知子序列的未知分析物群体的碱基检出序列;
基于将挑选的未知分析物的碱基检出序列映射到含有所述已知子序列的所述参考序列的部分,从所述未知分析物群体中所述挑选未知分析物;
基于所述映射,利用分别与所述已知子序列匹配的相应基准真值序列标记所挑选的未知分析物的相应子集;以及
使用所挑选的未知分析物的所标记的相应子集来训练所述碱基检出器。
66.根据条款65所述的计算机实现的方法,所述方法进一步包括迭代所述使用、所述挑选、所述标记和所述训练直到满足收敛。
67.一种计算机实现的方法,所述方法包括:
在渐进地更复杂的未知碱基序列的训练示例上训练渐进地更复杂的碱基检出器的配置,包括基于将由所述碱基检出器响应于处理所述训练示例而生成的碱基检出序列映射到已知碱基组成来迭代地生成用于所述训练示例的增加量的基准真值标记,之后对所述未知碱基序列进行测序。
68.根据条款67所述的计算机实现的方法,其中通过渐进地增加所述碱基检出器的参数的数量来定义所述碱基检出器的所述更复杂的配置。
69.根据条款68所述的计算机实现的方法,其中所述碱基检出器是神经网络。
70.根据条款69所述的计算机实现的方法,其中通过渐进地增加所述神经网络的层的数量来定义所述神经网络的所述更复杂的配置。
71.根据条款68所述的计算机实现的方法,其中所述神经网络的所述更复杂的配置在正向传递实例中由渐进地增加由所述神经网络处理的输入的数量来定义。
72.根据条款69所述的计算机实现的方法,其中所述神经网络是卷积神经网络。
73.根据条款72所述的计算机实现的方法,其中通过渐进地增加所述卷积神经网络的卷积滤波器的数量来定义所述卷积神经网络的所述更复杂的配置。
74.根据条款72所述的计算机实现的方法,其中通过渐进地增加所述卷积神经网络的卷积层的数量来定义所述卷积神经网络的所述更复杂的配置。
75.根据条款67所述的计算机实现的方法,其中通过渐进地增加未知碱基序列的长度来定义所述未知碱基序列的更复杂的训练示例。
76.根据条款67所述的计算机实现的方法,其中通过渐进地增加未知碱基序列的碱基多样性来定义所述未知碱基序列的所述更复杂的训练示例。
77.根据条款67所述的计算机实现的方法,其中通过渐进地增加从中测序未知碱基序列的样品的数量来定义所述未知碱基序列的所述更复杂的训练示例。
78.根据条款67所述的计算机实现的方法,其中通过从寡核苷酸样品到细菌样品到灵长类动物样品的进展来定义未知碱基序列的所述更复杂的训练示例。
C1.一种渐进地训练碱基检出器的计算机实现的方法,所述方法包括:
利用包含单寡核苷酸碱基序列的分析物迭代地初始训练碱基检出器,并使用所述初始训练的碱基检出器生成标记训练数据;
(i)利用特定长度和/或其中包括特定数量的碱基序列或碱基子序列的分析物进一步训练所述碱基检出器,并使用所述进一步训练的碱基检出器生成标记训练数据;以及
通过重复步骤(i)来迭代地进一步训练所述碱基检出器,同时对于每次迭代,(a)单调地增加所述分析物内的碱基序列或基础子序列的所述长度和/或所述数量,以及(b)单调地增加所述碱基检出器内加载的神经网络配置的复杂性,其中在迭代期间生成的标记训练数据被用于在紧接的后续迭代期间训练所述碱基检出器。
C2.根据条款C1所述的方法,其中用包含所述单寡核苷酸碱基序列的所述分析物迭代地初始训练所述碱基检出器包括:
在所述碱基检出器的所述初始训练的迭代期间:
将所述已知的单寡核苷酸碱基序列加载到流通池的多个簇中;
对于所述多个簇中的每个簇,预测所述已知的单个寡核苷酸碱基序列的对应的碱基检出;
对于所述多个簇中的每个簇,基于将所述对应的预测的碱基检出与所述已知的单个寡核苷酸序列的碱基进行比较来生成对应的错误信号,从而生成与所述多个簇对应的多个错误信号;以及
基于所述多个错误信号,初始训练所述碱基检出器。
C3.根据条款C1所述的方法,其中迭代地进一步训练所述碱基检出器包括:
利用包含两个已知的独特寡核苷酸碱基序列的分析物进一步训练所述碱基检出器进行N1次迭代;
利用包含在第一多个碱基子序列中挑选出的第一生物体碱基序列的分析物进一步训练所述碱基检出器进行N2次迭代;以及
利用包含在第二多个碱基子序列中挑选出的第二生物体碱基序列的分析物进一步训练所述碱基检出器进行N3次迭代,
其中所述N1次迭代在所述N2次迭代之前执行,后者在所述N3次迭代之前执行,并且
其中所述第二生物体碱基序列具有比所述第一生物体碱基序列更高数量的碱基。
C4.根据条款C3所述的方法,其中迭代地进一步训练所述碱基检出器包括:
利用包含三个已知的独特寡核苷酸碱基序列的分析物进一步训练所述碱基检出器进行N4次迭代,
其中在执行所述N1次迭代和所述N2次迭代之间执行所述N4次迭代。
C5.根据条款C3所述的方法,其中利用包含两个已知的独特寡核苷酸碱基序列的所述分析物进一步训练所述碱基检出器进行所述N1次迭代包括:
利用所述碱基检出器内加载的第一神经网络配置进一步训练所述碱基检出器进行所述N1次迭代的第一子集;以及
利用所述碱基检出器内加载的第二神经网络配置进一步训练所述碱基检出器进行所述N1次迭代的第二子集,所述第二神经网络配置比所述第一神经网络配置更复杂,所述N1次迭代的所述第二子集在所述N1次迭代的所述第一子集发生之后发生。
C6.根据条款C5所述的方法,其中所述第二神经网络配置具有比所述第一神经网络配置更高数量的层。
C7.根据条款C5所述的方法,其中所述第二神经网络配置具有比所述第一神经网络配置更高数量的权重。
C8.根据条款C5所述的方法,其中所述第二神经网络配置具有比所述第一神经网络配置更高数量的参数。
C9.根据条款C3所述的方法,其中利用包含两个已知的独特寡核苷酸碱基序列的所述分析物进一步训练所述碱基检出器进行所述N1次迭代包括:针对所述N1次迭代中的一次迭代,
(i)利用所述两个已知的独特寡核苷酸碱基序列中的第一已知的寡核苷酸碱基序列填充流通池的第一多个簇,以及(ii)利用所述两个已知的独特寡核苷酸碱基序列中的第二已知的寡核苷酸碱基序列填充流通池的第二多个簇;
针对所述第一多个簇和所述第二多个簇中的每个簇预测对应的碱基检出,使得生成多个预测的碱基检出;
将(i)所述多个预测的碱基检出中的第一预测的碱基检出映射到所述第一已知的寡核苷酸碱基序列,以及将(ii)所述多个预测的碱基检出中的第二预测的碱基检出映射到所述第二已知的寡核苷酸碱基序列,同时避免将所述多个预测的碱基检出中的第三预测的碱基检出映射到所述第一已知的寡核苷酸碱基序列或所述第二已知的寡核苷酸碱基序列中的任一者;
生成(i)基于所述第一预测的碱基检出与所述第一已知的寡核苷酸碱基序列的比较的第一错误信号,和(ii)基于所述第二预测的碱基检出与所述第二已知的寡核苷酸碱基序列的比较的第二错误信号;以及
基于所述第一错误信号和所述第二错误信号进一步训练所述碱基检出器。
C10.根据条款C9所述的方法,其中将所述第一预测的碱基检出映射到所述两个已知的独特寡核苷酸碱基序列中的所述第一已知的寡核苷酸碱基序列包括:
将所述第一预测的碱基检出的每个碱基与所述第一已知的寡核苷酸碱基序列和所述第二已知的寡核苷酸碱基序列的对应的应碱基进行比较;
确定所述第一预测的碱基检出与所述第一已知的寡核苷酸碱基序列具有至少阈值数量的碱基相似性,并且与所述第二已知的寡核苷酸碱基序列具有小于所述阈值数量的碱基相似性;以及
基于确定所述第一预测的碱基检出与第一已知的寡核苷酸碱基序列具有至少所述阈值数量的碱基相似性,将所述第一预测的碱基检出映射到所述第一已知的寡核苷酸碱基序列。
C11.根据条款C9所述的方法,其中避免将所述第三预测的碱基检出映射到所述第一已知的寡核苷酸碱基序列或所述第二已知的寡核苷酸碱基序列中的任一者包括:
将所述第一预测的碱基检出的每个碱基与所述第一已知的寡核苷酸碱基序列和所述第二已知的寡核苷酸碱基序列的对应的应碱基进行比较;
确定所述第一预测的碱基检出与所述第一已知的寡核苷酸碱基序列和第二已知的寡核苷酸碱基序列中的每一者具有小于阈值数量的碱基相似性;以及
基于确定所述第一预测的碱基检出与所述第一已知的寡核苷酸碱基序列和第二已知的寡核苷酸碱基序列中的每一者具有小于所述阈值数量的碱基相似性,避免将所述第三预测的碱基检出映射到所述第一已知的寡核苷酸碱基序列或所述第二已知的寡核苷酸碱基序列中的任一者。
C12.根据条款C9所述的方法,其中避免将所述第三预测的碱基检出映射到所述第一已知的寡核苷酸碱基序列或所述第二已知的寡核苷酸碱基序列中的任一者包括:
将所述第一预测的碱基检出的每个碱基与所述第一已知的寡核苷酸碱基序列和所述第二已知的寡核苷酸碱基序列的对应的应碱基进行比较;
确定所述第一预测的碱基检出与所述第一已知的寡核苷酸碱基序列和第二已知的寡核苷酸碱基序列中的每一者具有大于阈值数量的碱基相似性;以及
基于确定所述第一预测的碱基检出与所述第一已知的寡核苷酸碱基序列和第二已知的寡核苷酸碱基序列中的每一者具有大于所述阈值数量的碱基相似性,避免将所述第三预测的碱基检出映射到所述第一已知的寡核苷酸碱基序列或所述第二已知的寡核苷酸碱基序列中的任一者。
C13.根据条款C9所述的方法,其中使用所述进一步训练的碱基检出器进行所述N1次迭代中的所述一次迭代来生成标记训练数据包括:
在所述N1次迭代中的所述一次迭代期间进一步训练所述碱基检出器之后,针对所述第一多个簇和所述第二多个簇中的每一个簇重新预测对应的碱基检出,使得生成另一多个预测的碱基检出;
将(i)所述其他多个预测的碱基检出的第一子集重新映射到所述第一已知的寡核苷酸碱基序列,以及将(ii)所述其他多个预测的碱基检出的第二子集重新映射到所述第二已知的寡核苷酸碱基序列,同时避免将所述其他多个预测的碱基检出的第三子集映射到所述第一已知的寡核苷酸碱基序列或所述第二已知的寡核苷酸碱基序列中的任一者;以及
基于所述重新映射来生成标记训练数据,使得所述标记训练数据包括(i)所述其他多个预测的碱基检出的所述第一子集,其中所述第一已知的寡核苷酸碱基序列形成所述其他多个预测的碱基检出的所述第一子集的基准真值数据,和(ii)所述其他多个预测的碱基检出的所述第二子集,其中所述第二已知的寡核苷酸碱基序列形成所述其他多个预测的碱基检出的所述第二子集的基准真值数据。
C14.根据条款C13所述的方法,其中:
在所述N1次迭代的所述一次迭代期间生成的标记训练数据被用于在所述N1次迭代的紧接的后续迭代期间训练所述碱基检出器。
C15.根据条款C14所述的方法,其中:
所述碱基检出器的所述神经网络配置在所述N1次迭代的所述一次迭代和所述N1次迭代的所述紧接的后续迭代期间是相同的。
C16.根据条款C14所述的方法,其中:
所述N1次迭代的所述紧接的后续迭代期间的所述碱基检出器的神经网络配置不同于所述N1次迭代的所述一次迭代期间的所述碱基检出器的神经网络配置,并且比所述N1次迭代的所述一次迭代期间的所述碱基检出器的神经网络配置更复杂。
C17.根据条款C3所述的方法,其中进一步训练所述碱基检出器进行所述N2次迭代包括:
(i)利用所述第一生物体的所述第一多个碱基子序列的第一碱基子序列填充流通池的多个簇中的第一簇,(ii)利用所述第一生物体的所述第一多个碱基子序列的第二碱基子序列填充所述流通池的所述多个簇中的第二簇,以及(iii)利用所述第一生物体的所述第一多个碱基子序列的第三碱基子序列填充所述流通池的所述多个簇中的第三簇;
接收(i)来自所述第一簇的指示填充在所述第一簇中的所述碱基子序列的第一序列信号,(ii)来自所述第二簇的指示填充在所述第二簇中的所述碱基子序列的第二序列信号,以及(iii)来自所述第三簇的指示填充在所述第三簇中的所述碱基子序列的第三序列信号;
生成(i)基于所述第一序列信号的第一预测的碱基子序列、(ii)基于所述第二序列信号的第二预测的碱基子序列和(iii)基于所述第三序列信号的第三预测的碱基子序列;
将(i)所述第一预测的碱基子序列与所述第一生物体碱基序列的第一部分映射,以及将(ii)所述第二预测的碱基子序列与所述第一生物体碱基序列的第二部分映射,同时未能将所述第三预测的碱基子序列与所述第一生物体碱基序列的任何部分映射;以及
生成标记训练数据,所述标记训练数据包含(i)映射到所述第一生物体碱基序列的所述第一部分的所述第一预测的碱基子序列,其中所述第一生物体碱基序列的所述第一部分是所述第一预测的碱基子序列的基准真值,和(ii)映射到所述第一生物体碱基序列的所述第二部分的所述第二预测的碱基子序列,其中所述第一生物体碱基序列的所述第二部分是所述第二预测的碱基子序列的基准真值。
C18.根据条款C17所述的方法,其中:
所述第一预测的碱基子序列具有L1数量的碱基;并且
所述第一预测的碱基子序列的所述L1个碱基中的一个或多个碱基与所述第一生物体碱基序列的所述第一部分的对应碱基不匹配,这是由于所述碱基检出器的碱基检出预测的错误。
C19.根据条款C18所述的方法,所述第一预测的碱基子序列具有L1数量的碱基,其中所述第一预测的碱基子序列的所述L1数量的碱基包括初始L2个碱基,随后是后续L3个碱基,并且其中将所述第一预测的碱基子序列与所述第一生物体碱基序列的所述第一部分映射包括:
(i)将所述第一预测的碱基序列的所述初始L2个碱基与所述第一生物体碱基序列的连续L2个碱基基本上且唯一地匹配;
鉴定所述第一生物体碱基序列的所述第一部分,使得所述第一部分(i)包括所述连续L2个碱基作为初始碱基并且(ii)包括L1数量的碱基;以及
将所述第一预测的碱基子序列与所述第一生物体碱基序列的所述第一部分映射。
C20.根据C19所述的方法,所述方法进一步包括:
在所述第一预测的碱基序列的所述初始L2个碱基基本上且唯一地匹配时,避免将所述第一预测的碱基序列的所述后续L3个碱基与所述第一生物体碱基序列的任何碱基匹配。
C21.根据C19所述的方法,其中所述第一预测的碱基序列的所述初始L2个碱基与所述第一生物体碱基序列的所述连续L2个碱基基本上匹配,使得所述第一预测的碱基序列的所述初始L2个碱基的至少阈值数量的碱基与所述第一生物体碱基序列的所述连续L2个碱基匹配。
C22.根据C19所述的方法,其中所述第一预测的碱基序列的所述初始L2个碱基与所述第一生物体碱基序列的连续L2个碱基唯一地匹配,使得所述第一预测的碱基序列的所述初始L2个碱基仅与所述第一生物体碱基序列的所述连续L2个碱基基本上匹配,并且不与所述第一生物体碱基序列的其他连续L2个碱基匹配。
C23.根据条款C17所述的方法,所述第三预测的碱基子序列具有L1数量的碱基,并且其中未能将所述第三预测的碱基子序列与所述第一多个碱基子序列中的任何所述碱基子序列映射包括:
(i)未能将所述第三预测的碱基序列的所述L1个碱基的初始L2个碱基与所述第一生物体碱基序列的连续L2个碱基基本上且唯一地匹配。

Claims (32)

1.一种渐进地训练碱基检出器的计算机实现的方法,所述方法包括:
初始训练碱基检出器,并使用所述初始训练的碱基检出器生成标记训练数据;
(i)利用包含生物体碱基序列的分析物进一步训练所述碱基检出器,并使用所述进一步训练的碱基检出器生成标记训练数据;以及
通过重复步骤(i)进行N次迭代来迭代地进一步训练所述碱基检出器,包括:
利用包含在第一多个碱基子序列中挑选出的第一生物体碱基序列的分析物进一步训练所述碱基检出器进行所述N次迭代中的N1次迭代,以及
利用包含在第二多个碱基子序列中挑选出的第二生物体碱基序列的分析物进一步训练所述碱基检出器进行所述N次迭代中的N2次迭代,
其中在所述碱基检出器中加载的神经网络配置的复杂性随着所述N次迭代单调地增加,并且
其中在所述N次迭代的迭代期间生成的标记训练数据用于在所述N次迭代的紧接的后续迭代期间训练所述碱基检出器。
2.根据权利要求1所述的方法,其中初始训练所述碱基检出器包括:
利用包含一个或多个寡核苷酸碱基序列的分析物初始训练所述碱基检出器,并使用所述初始训练的碱基检出器生成标记训练数据。
3.根据权利要求1或2所述的方法,其中在所述N2次迭代之前进行所述N1次迭代,并且其中所述第二生物体碱基序列具有比所述第一生物体碱基序列更高数量的碱基。
4.根据权利要求1至3中任一项所述的方法,其中进一步训练所述碱基检出器进行所述N1次迭代包括,在所述N1次迭代的一次迭代期间:
(i)利用所述第一生物体的所述第一多个碱基子序列的第一碱基子序列填充流通池的多个簇中的第一簇,(ii)利用所述第一生物体的所述第一多个碱基子序列的第二碱基子序列填充所述流通池的所述多个簇中的第二簇,以及(iii)利用所述第一生物体的所述第一多个碱基子序列的第三碱基子序列填充所述流通池的所述多个簇中的第三簇;
接收(i)来自所述第一簇的指示填充在所述第一簇中的所述碱基子序列的第一序列信号,(ii)来自所述第二簇的指示填充在所述第二簇中的所述碱基子序列的第二序列信号,以及(iii)来自所述第三簇的指示填充在所述第三簇中的所述碱基子序列的第三序列信号;
生成(i)基于所述第一序列信号的第一预测的碱基子序列、(ii)基于所述第二序列信号的第二预测的碱基子序列和(iii)基于所述第三序列信号的第三预测的碱基子序列;
将(i)所述第一预测的碱基子序列与所述第一生物体碱基序列的第一部分映射,以及将(ii)所述第二预测的碱基子序列与所述第一生物体碱基序列的第二部分映射,同时未能将所述第三预测的碱基子序列与所述第一生物体碱基序列的任何部分映射;以及
生成标记训练数据,所述标记训练数据包含(i)映射到所述第一生物体碱基序列的所述第一部分的所述第一预测的碱基子序列,其中所述第一生物体碱基序列的所述第一部分是所述第一预测的碱基子序列的基准真值,和(ii)映射到所述第一生物体碱基序列的所述第二部分的所述第二预测的碱基子序列,其中所述第一生物体碱基序列的所述第二部分是所述第二预测的碱基子序列的基准真值。
5.根据权利要求1至4中任一项所述的方法,其中进一步训练所述碱基检出器进行所述N1次迭代包括,在所述N1次迭代的所述一次迭代期间:
在生成所述第一预测的碱基子序列、所述第二预测的碱基子序列和所述第三预测的碱基子序列之前,使用在初始训练所述碱基检出器期间生成的标记训练数据来训练所述碱基检出器。
6.根据权利要求4或5所述的方法,其中:
所述第一预测的碱基子序列具有L1数量的碱基;并且
所述第一预测的碱基子序列的所述L1个碱基中的一个或多个碱基与所述第一生物体碱基序列的所述第一部分的对应碱基不匹配,这是由于所述碱基检出器的碱基检出预测的错误。
7.根据权利要求4至6中任一项所述的方法,所述第一预测的碱基子序列具有L1数量的碱基,其中所述第一预测的碱基子序列的所述L1数量的碱基包括初始L2个碱基,随后是后续L3个碱基,并且其中将所述第一预测的碱基子序列与所述第一生物体碱基序列的所述第一部分映射包括:
将所述第一预测的碱基序列的所述初始L2个碱基与所述第一生物体碱基序列的连续L2个碱基基本上且唯一地匹配;
鉴定所述第一生物体碱基序列的所述第一部分,使得所述第一部分(i)包括所述连续L2个碱基作为初始碱基并且(ii)包括L1数量的碱基;以及
将所述第一预测的碱基子序列与所述第一生物体碱基序列的所鉴定的第一部分映射。
8.根据权利要求7所述的方法,所述方法进一步包括:
在所述第一预测的碱基序列的所述初始L2个碱基基本上且唯一地匹配时,避免将所述第一预测的碱基序列的所述后续L3个碱基与所述第一生物体碱基序列的任何碱基匹配。
9.根据权利要求7或8所述的方法,其中所述第一预测的碱基序列的所述初始L2个碱基与所述第一生物体碱基序列的所述连续L2个碱基基本上匹配,使得所述第一预测的碱基序列的所述初始L2个碱基的至少阈值数量的碱基与所述第一生物体碱基序列的所述连续L2个碱基匹配。
10.根据权利要求7至9中任一项所述的方法,其中所述第一预测的碱基序列的所述初始L2个碱基与所述第一生物体碱基序列的连续L2个碱基唯一地匹配,使得所述第一预测的碱基序列的所述初始L2个碱基仅与所述第一生物体碱基序列的所述连续L2个碱基基本上匹配,并且不与所述第一生物体碱基序列的其他连续L2个碱基匹配。
11.根据权利要求4至10中任一项所述的方法,所述第三预测的碱基子序列具有L1数量的碱基,并且其中未能将所述第三预测的碱基子序列与所述第一多个碱基子序列中的任何所述碱基子序列映射包括:
(i)未能将所述第三预测的碱基序列的所述L1个碱基的初始L2个碱基与所述第一生物体碱基序列的连续L2个碱基基本上且唯一地匹配。
12.根据权利要求4至11中任一项所述的方法,其中所述N1次迭代中的所述一次迭代是所述N1次迭代中的第一次迭代,并且其中进一步训练所述碱基检出器进行所述N1次迭代中的第二次迭代包括:
使用在所述N1次迭代的所述第一次迭代期间生成的所述标记训练数据来训练所述碱基检出器;
使用利用在所述N1次迭代的所述第一次迭代期间生成的所述标记训练数据训练的所述碱基检出器,生成(i)基于所述第一序列信号的另外的第一预测的碱基子序列、(ii)基于所述第二序列信号的另外的第二预测的碱基子序列和(iii)基于所述第三序列信号的另外的第三预测的碱基子序列;
将(i)所述另外的第一预测的碱基子序列与所述第一生物体碱基序列的所述第一部分映射,将(ii)所述另外的第二预测的碱基子序列与所述第一生物体碱基序列的所述第二部分映射,以及将(iii)所述另外的第三预测的碱基子序列与所述第一生物体碱基序列的第三部分映射;以及
生成另外的标记训练数据,所述另外的标记训练数据包含(i)映射到所述第一生物体碱基序列的所述第一部分的所述另外的第一预测的碱基子序列,其中所述第一生物体碱基序列的所述第一部分是所述另外的第一预测的碱基子序列的基准真值,(ii)映射到所述第一生物体碱基序列的所述第二部分的所述另外的第二预测的碱基子序列,其中所述第一生物体碱基序列的所述另外的第二部分是所述另外的第二预测的碱基子序列的基准真值,和(iii)映射到所述第一生物体碱基序列的所述第三部分的所述另外的第三预测的碱基子序列,其中所述第一生物体碱基序列的所述另外的第三部分是所述另外的第三预测的碱基子序列的基准真值。
13.根据权利要求12所述的方法,所述方法进一步包括:
在(i)所述N1次迭代的所述第一次迭代期间生成的所述第一预测的碱基子序列和(ii)所述第一生物体碱基序列的所述第一部分之间生成第一错误;以及
在(i)所述N1次迭代的所述第二次迭代期间生成的所述另外的第一预测的碱基子序列和(ii)所述第一生物体碱基序列的所述第一部分之间生成第二错误,
其中所述第二错误小于所述第一错误,因为相对于所述第一次迭代,所述碱基检出器在所述第二次迭代期间得到了更好地训练。
14.根据权利要求12或13所述的方法,其中:
在所述第二次迭代中重新使用所述第一次迭代期间生成的所述第一序列信号、所述第二序列信号和所述第三序列信号,以分别生成所述另外的第一预测的碱基子序列、所述另外的第二预测的碱基子序列和所述另外的第三预测的碱基子序列。
15.根据权利要求12至14中任一项所述的方法,其中:
所述碱基检出器的神经网络配置在所述N1次迭代的所述第一次迭代和所述N1次迭代的所述第二次迭代期间是相同的。
16.根据权利要求15所述的方法,其中:
所述碱基检出器的所述神经网络配置被重复用于多次迭代,直到满足收敛条件。
17.根据权利要求12至16中任一项所述的方法,其中:
所述N1次迭代的所述第一次迭代期间的所述碱基检出器的神经网络配置不同于所述N1次迭代的所述第二次迭代期间的所述碱基检出器的神经网络配置,并且比所述N1次迭代的所述第二次迭代期间的所述碱基检出器的神经网络配置更复杂。
18.根据权利要求1至17中任一项所述的方法,其中利用包含所述第一生物体碱基序列的所述分析物进一步训练所述碱基检出器进行所述N次迭代中的所述N1次迭代包括:
对于所述N1次迭代的第一子集,利用所述碱基检出器中加载的第一神经网络配置进一步训练所述碱基检出器;以及
对于所述N1次迭代的第二子集,利用在所述碱基检出器中加载的第二神经网络配置进一步训练所述碱基检出器,所述第二神经网络配置不同于所述第一神经网络配置。
19.根据权利要求18所述的方法,其中所述第二神经网络配置具有比所述第一神经网络配置更大数量的层。
20.根据权利要求18或19所述的方法,其中所述第二神经网络配置具有比所述第一神经网络配置更大数量的权重。
21.根据权利要求18至20中任一项所述的方法,其中所述第二神经网络配置具有比所述第一神经网络配置更大数量的参数。
22.根据权利要求1至21中任一项所述的方法,其中迭代地进一步训练所述碱基检出器包括:
对于包含所述第一生物体碱基序列的分析物的所述N1次迭代中的一次或多次迭代,在所述碱基检出器中加载第一神经网络配置;以及
对于包含所述第二生物体碱基序列的分析物的所述N2次迭代中的一次或多次迭代,在所述碱基检出器中加载第二神经网络配置,所述第二神经网络配置不同于所述第一神经网络配置。
23.根据权利要求22所述的方法,其中所述第二神经网络配置具有比所述第一神经网络配置更大数量的层。
24.根据权利要求22或23所述的方法,其中所述第二神经网络配置具有比所述第一神经网络配置更大数量的权重。
25.根据权利要求22至24中任一项所述的方法,其中所述第二神经网络配置具有比所述第一神经网络配置更大数量的参数。
26.根据权利要求1至25中任一项所述的方法,其中利用包含所述第一生物体碱基序列的所述分析物进一步训练所述碱基检出器进行所述N次迭代中的所述N1次迭代包括:
利用第一生物体碱基序列重复所述进一步训练,直到在所述N1次迭代之后满足收敛条件。
27.根据权利要求26所述的方法,其中当在所述N1次迭代的两次连续迭代之间,生成的错误信号的减少小于阈值时,满足所述收敛条件。
28.根据权利要求26或27所述的方法,其中在完成所述N1次迭代之后满足所述收敛条件。
29.一种印有渐进地训练碱基检出器的计算机程序指令的非暂态计算机可读存储介质,所述指令在处理器上执行时实现包括以下各项的方法:
初始训练碱基检出器,并使用所述初始训练的碱基检出器生成标记训练数据;
(i)利用包含生物体碱基序列的分析物进一步训练所述碱基检出器,并使用所述进一步训练的碱基检出器生成标记训练数据;以及
通过重复步骤(i)进行N次迭代来迭代地进一步训练所述碱基检出器,包括:
利用包含在第一多个碱基子序列中挑选出的第一生物体碱基序列的分析物进一步训练所述碱基检出器进行所述N次迭代中的N1次迭代,以及
利用包含在第二多个碱基子序列中挑选出的第二生物体碱基序列的分析物进一步训练所述碱基检出器进行所述N次迭代中的N2次迭代,
其中在所述碱基检出器中加载的神经网络配置的复杂性随着所述N次迭代单调地增加,并且
其中在所述N次迭代的迭代期间生成的标记训练数据用于在所述N次迭代的紧接的后续迭代期间训练所述碱基检出器。
30.一种渐进地训练碱基检出器的计算机实现的方法,所述方法包括:
以单寡核苷酸训练阶段开始,所述单寡核苷酸训练阶段(i)使用所述碱基检出器来预测被测序为具有寡核苷酸的已知序列的单寡核苷酸未知分析物(即,未知目标序列)群体的单寡核苷酸碱基检出序列,(ii)利用匹配所述已知序列的单寡核苷酸基准真值序列标记所述单寡核苷酸未知分析物群体中的每个单寡核苷酸未知分析物,以及(iii)使用所标记的单寡核苷酸未知分析物群体训练所述碱基检出器;
利用一个或多个多寡核苷酸训练阶段继续,所述一个或多个多寡核苷酸训练阶段(i)使用所述碱基检出器来预测被测序为具有两个或更多个寡核苷酸的两个或更多个已知序列的多寡核苷酸未知分析物群体的多寡核苷酸碱基检出序列,(ii)基于挑选的多寡核苷酸未知分析物的多寡核苷酸碱基检出序列到所述已知序列的分类从所述多寡核苷酸未知分析物群体所述挑选多寡核苷酸未知分析物,(iii)基于所述分类,利用分别匹配所述已知序列的相应多寡核苷酸基准真值序列标记所挑选的多寡核苷酸未知分析物的相应子集,以及(iv)使用所挑选的多寡核苷酸未知分析物的所标记的相应子集进一步训练所述碱基检出器;以及
利用一个或多个生物体特异性训练阶段继续,所述一个或多个生物体特异性训练阶段(i)使用所述碱基检出器来预测被测序为具有生物体的参考序列的一个或多个已知子序列的生物体特异性未知分析物群体的生物体特异性碱基检出序列,(ii)基于挑选的生物体特异性未知分析物的生物体特异性碱基检出序列到含有所述已知子序列的所述参考序列的部分的映射从所述生物体特异性未知分析物群体所述挑选生物体特异性未知分析物,(iii)基于所述映射,利用分别匹配所述已知子序列的相应生物体特异性基准真值序列标记所挑选的生物体特异性未知分析物的相应子集,以及(iv)使用所挑选的生物体特异性未知分析物的所标记的相应子集进一步训练所述碱基检出器。
31.一种计算机实现的方法,所述方法包括:
使用碱基检出器来预测被测序为具有生物体的参考序列的一个或多个已知子序列的未知分析物群体的碱基检出序列;
基于将挑选的未知分析物的碱基检出序列映射到含有所述已知子序列的所述参考序列的部分,从所述未知分析物群体中所述挑选未知分析物;
基于所述映射,利用分别与所述已知子序列匹配的相应基准真值序列标记所挑选的未知分析物的相应子集;以及
使用所挑选的未知分析物的所标记的相应子集来训练所述碱基检出器。
32.一种计算机实现的方法,所述方法包括:
在渐进地更复杂的未知碱基序列的训练示例上训练渐进地更复杂的碱基检出器的配置,包括基于将由所述碱基检出器响应于处理所述训练示例而生成的碱基检出序列映射到已知碱基组成来迭代地生成用于所述训练示例的增加量的基准真值标记,之后对所述未知碱基序列进行测序。
CN202280042700.XA 2021-06-29 2022-06-29 使用生物体序列训练的自学碱基检出器 Pending CN117501372A (zh)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US63/216404 2021-06-29
US63/216419 2021-06-29
US17/830316 2022-06-01
US17/830,316 US20230026084A1 (en) 2021-06-29 2022-06-01 Self-learned base caller, trained using organism sequences
US17/830287 2022-06-01
PCT/US2022/035567 WO2023278609A1 (en) 2021-06-29 2022-06-29 Self-learned base caller, trained using organism sequences

Publications (1)

Publication Number Publication Date
CN117501372A true CN117501372A (zh) 2024-02-02

Family

ID=89673099

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202280042700.XA Pending CN117501372A (zh) 2021-06-29 2022-06-29 使用生物体序列训练的自学碱基检出器
CN202280043765.6A Pending CN117546249A (zh) 2021-06-29 2022-06-29 使用寡核苷酸序列训练的自学碱基检出器

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202280043765.6A Pending CN117546249A (zh) 2021-06-29 2022-06-29 使用寡核苷酸序列训练的自学碱基检出器

Country Status (1)

Country Link
CN (2) CN117501372A (zh)

Also Published As

Publication number Publication date
CN117546249A (zh) 2024-02-09

Similar Documents

Publication Publication Date Title
CN112789680A (zh) 基于人工智能的质量评分
US20210265018A1 (en) Knowledge Distillation and Gradient Pruning-Based Compression of Artificial Intelligence-Based Base Caller
US20220301657A1 (en) Tile location and/or cycle based weight set selection for base calling
US20230343414A1 (en) Sequence-to-sequence base calling
CN117616474A (zh) 用于碱基检出的具有插值和自适应的强度提取
CN117501372A (zh) 使用生物体序列训练的自学碱基检出器
US20220415445A1 (en) Self-learned base caller, trained using oligo sequences
US20230026084A1 (en) Self-learned base caller, trained using organism sequences
KR20240027599A (ko) 올리고 서열을 사용하여 훈련된 자체-학습 염기 호출자
US20230029970A1 (en) Quality score calibration of basecalling systems
US20230087698A1 (en) Compressed state-based base calling
US20230298339A1 (en) State-based base calling
CN117529780A (zh) 碱基检出系统的质量分数校准
WO2023009758A1 (en) Quality score calibration of basecalling systems
JP2024510539A (ja) ベースコールのためのタイル位置及び/又はサイクルベースの重みセット選択
WO2023049215A1 (en) Compressed state-based base calling
KR20240031968A (ko) 염기 호출에 대한 보간 및 적응을 갖는 강도 추출
WO2022197752A1 (en) Tile location and/or cycle based weight set selection for base calling
CN117546248A (zh) 使用多个碱基检出器模型的碱基检出

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination