CN117935916A - 使用卷积的碱基识别 - Google Patents

使用卷积的碱基识别 Download PDF

Info

Publication number
CN117935916A
CN117935916A CN202311510081.5A CN202311510081A CN117935916A CN 117935916 A CN117935916 A CN 117935916A CN 202311510081 A CN202311510081 A CN 202311510081A CN 117935916 A CN117935916 A CN 117935916A
Authority
CN
China
Prior art keywords
convolution
cycle
analyte
sequencing
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311510081.5A
Other languages
English (en)
Inventor
E·科斯特姆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inmair Ltd
Original Assignee
Inmair Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US16/874,633 external-priority patent/US11593649B2/en
Priority claimed from US16/874,599 external-priority patent/US11423306B2/en
Application filed by Inmair Ltd filed Critical Inmair Ltd
Publication of CN117935916A publication Critical patent/CN117935916A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/62Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
    • G01N21/63Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
    • G01N21/64Fluorescence; Phosphorescence
    • G01N21/6428Measuring fluorescence of fluorescent products of reactions or of fluorochrome labelled reactive substances, e.g. measuring quenching effects, using measuring "optrodes"
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/62Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
    • G01N21/63Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
    • G01N21/64Fluorescence; Phosphorescence
    • G01N21/645Specially adapted constructive features of fluorimeters
    • G01N21/6452Individual samples arranged in a regular 2D-array, e.g. multiwell plates
    • G01N21/6454Individual samples arranged in a regular 2D-array, e.g. multiwell plates using an integrated detector array
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/048Fuzzy inferencing

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Immunology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Pathology (AREA)
  • Biochemistry (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioethics (AREA)
  • Signal Processing (AREA)
  • Epidemiology (AREA)
  • Molecular Biology (AREA)
  • Public Health (AREA)
  • Optics & Photonics (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本发明涉及使用卷积的碱基识别。公开了一种基于神经网络的碱基识别器,该碱基识别器检测和解释测序过程的静态、动态和机械特性,将在分析数据中每个序列周期处观察到的信息映射到核苷酸的潜在序列。基于神经网络的碱基识别器将特征工程化、降维、离散化和动力学建模的任务组合到一个端到端的学习框架中。特别是,基于神经网络的碱基识别器使用3D卷积、1D卷积和逐点卷积的组合来检测和解释诸如定相和预定相效应、空间串扰、发射重叠和衰落等检测偏差。

Description

使用卷积的碱基识别
本申请是2020年12月23日提交的申请号为202080003513.1、发明名称为“使用卷积的碱基识别”的专利申请的分案申请。
技术领域
所公开的技术涉及用于智能仿真的人工智能型计算机和数字化数据处理系统以及相应的数据处理方法和产品(即:基于知识的系统、推理系统和知识获取系统),并且包括用于不确定性推理的系统(例如:模糊逻辑系统)、自适应系统、机器学习系统和人工神经网络。尤其是,所公开的技术涉及利用诸如深度卷积神经网络等的深度神经网络来分析数据。
参考文献
出于所有目的,以下参考文献通过引用并入本文,如同在本文中做了充分的阐述一样:
2019年3月21日提交的名称为“TRAINING DATA GENERATION FOR ARTIFICIALINTELLIGENCE-BASED SEQUENCING”的美国临时专利申请第62/821,602号(代理人案号:ILLM 1008-1/IP-1693-PRV);
2019年3月21日提交的名称为“TRAINING DATA GENERATION FOR ARTIFICIALINTELLIGENCE-BASED SEQUENCING”的美国临时专利申请第62/821,618号(代理人案号:ILLM 1008-3/IP-1741-PRV);
2019年3月21日提交的名称为“ARTIFICIAL INTELLIGENCE-BASED BASE CALLING”的美国临时专利申请第62/821,681号(代理人案号:ILLM 1008-4/IP-1744-PRV);
2019年3月21日提交的名称为“ARTIFICIAL INTELLIGENCE-BASED SEQUENCING”的美国临时专利申请第62/821,766号(代理人案号:ILLM 1008-7/IP-1747-PRV);
2019年3月21日提交的名称为“ARTIFICIAL INTELLIGENCE-BASED QUALITYSCORING”的美国临时专利申请第62/821,724号(代理人案号:ILLM 1008-9/IP-1752-PRV);
2017年4月21日提交的随后于2017年10月26日公布为PCT公告第WO 2017/184997Al号的名称为“PHOTONIC STUCTURE-BASED DEVICES AND COMPOSITIONS FOR USEIN LUMINESCENT IMAGING OF MULTIPLE SITES WITHIN A PIXEL,AND METHODS OF USINGTHE SAME”的PCT专利申请第PCT/US2017/028883号;
2016年8月17日提交并随后于2017年3月2日公布为PCT公告第WO 2017/034868Al号的名称为“IN-LINE PRESSURE ACCUMULATOR AND FLOW-CONTROL SYSTEM FORBIOLOGICAL OR CHEMICAL ASSAYS”的PCT专利申请第PCT/US2016/047253号;
2017年6月20日提交并随后于2017年12月28日公布为PCT公告第WO 2017/223041Al号的名称为“SUPER-RESOLUTION MICROSCOPY”的PCT专利申请第PCT/US2017/038259号;
2016年3月22日提交并随后于2016年9月29日公布为US2016/0281150 Al的名称为“METHODS,CARRIER ASSEMBLIES,AND SYSTEMS FOR IMAGING SAMPLES FOR BIOLOGICAL ORCHEMICAL ANALYSIS”的美国专利申请第15/077,182号;
2015年11月24日发布的名称为“SUPER RESOLUTION IMAGING”的美国专利第9,193,998B2号;
2018年4月10日发布的名称为“MICRODEVICES AND BIOSENSOR CARTRIDGES FORBIOLOGICAL OR CHEMICAL ANALYSIS AND SYSTEMS AND METHODS FOR THE SAME”的美国专利第9,937,497B2号;
2017年7月6日公布的名称为“SYSTEMIS AND METHODS FOR BOCHEMICAL ANALYSISINCLUDING A BASE INSTRUMENT AND AREMOVABLE CARTRIDGE”的美国公告第US2017/0189904 Al号;
2015年3月11日提交并随后于2017年1月19日公布为US2017/0016060 Al的名称为“DISPOSABLE,INTEGRATED MICROFLUIDIC CARTRIDGE AND METHODS OF MAKING AND USINGSAME”的美国专利申请第15/125,124号;
2016年5月4日公布为EP公告第EP 2 173 467 Bl号的名称为“METHOD ANDAPPARATUS USING ELECTRIC FIELD FOR IMPROVED BIOLOGICAL ASSAYS”的欧洲专利申请第08781608.8号;
2016年3月10日提交并随后于2019年1月1日以美国专利第10,167,505B2号获得专利权并发布的名称为“INTEGRATED SEQUENCING APPARATUSES AND METHODS OF USE”的美国专利申请第15/067,013号;以及
2013年4月26日提交并随后于2015年8月4日以美国专利第9,096,899B2号获得专利权并发布的名称为“MICRODEVICES AND BIOSENSOR CARTRIDGES FOR BOLOGICAL ORCHEMICAL ANALYSIS AND SYSTEMS AND METHODS FOR THE SAME”的美国专利申请第13/882,088号。
背景技术
本节中所讨论的主题不能仅仅因为在本节中提及而被认为是现有技术。同样地,本节中所提及的或与作为背景技术而提供的主题相关的问题不应被认为之前已经在现有技术中得到了认可。本节中的主题仅仅代表不同的方法,这些方法本身也可以对应于所述要求保护的技术的实施方式。
用于碱基识别的数据存在已知和未知的技术误差、偏差和错误的情况。碱基识别中的一个重大挑战是解释检测数据中的这些缺陷。用于碱基识别的动力学模型依赖于大量的技术专长和生物化学直觉。为了处理这些偏差,动力学模型使用显式编程进行特征工程化以及转换和校正矩阵的计算。
本发明提供了一种基于神经网络的碱基识别器,该碱基识别器可以自动从检测数据中提取特征,以学习检测和解释这些缺陷。从而可以利用深度学习来提高测序技术的准确性和吞吐量。
附图说明
在附图中,在不同的视图中的相同附图标记通常指代相同的部分。此外,附图不一定按比例绘制,而重点通常放在说明所公开的技术的原理上。在以下描述中,参考以下附图描述了所公开的技术的各种实施方式,其中:
图1示出了根据一个实施方式的生物传感器的横截面,并且还示出了生物传感器的检测装置的俯视图。
图2示出了在一个示例中,图1的检测装置的一部分的横截面,其示出了反应结构的一部分及其光导,并且在一个示例中,还示出了横截面的放大部分。
图3示出了使用卷积的碱基识别的一个实施方式。
图4示出了根据一种在成像通道之间混合信息的实施方式在基于卷积的碱基识别中使用的三维(3D)卷积。
图5示出了根据一个实施方式由3D卷积产生的输出特征。
图6示出了根据一个实施方式的强度数据特征,该强度数据特征为中心像素生成的并且在基于卷积的碱基识别中用作补充输入。
图7示出了根据一个实施方式的补充有图7的强度数据特征的图5的输出特征。
图8示出了根据一个实施方式的基于卷积的碱基识别中使用的一维(1D)卷积。
图9示出了根据一个实施方式的由1D卷积产生的其他输出特征。
图10示出了根据一个实施方式的在基于卷积的碱基识别中使用的逐点卷积。
图11示出了根据一个实施方式的输出层,该输出层处理由逐点卷积产生的最终输出特征,并发出对中心像素的碱基识别。
图12示出了根据一个实施方式的强度数据特征,该强度数据特征为像素块生成的并且在基于卷积的碱基识别中用作补充输入。
图13示出了根据一个实施方式的图5的输出特征,其补充有图12的强度数据特征。
图14示出了根据一个实施方式的输出层,该输出层处理由逐点卷积产生的最终输出特征,并发出对像素块中的像素的碱基识别。
图15示出了使用不在成像通道之间混合信息的分离卷积进行基于卷积的碱基识别的一个实施方式。
图16示出了使用不在成像通道之间混合信息的分离的3D卷积和在成像通道之间混合信息的1D卷积进行基于卷积的碱基识别的一个实施方式。
图17示出了根据一个实施方式的聚合酶群体移动的概率分布。
图18示出了指定图17的聚合酶群体移动的概率分布的定相和预定相数据,并根据一个实施方式用作基于紧凑卷积的碱基识别的输入。
图19示出了根据一个实施方式的三个周期的碱基上下文数据,该数据被用作基于紧凑卷积的碱基识别的输入。
图20示出了根据一个实施方式的五个周期的碱基上下文数据,该数据被用作基于紧凑卷积的碱基识别的输入。
图21示出了使用三个周期的图像数据进行基于紧凑卷积的碱基识别的一个示例。
图22示出了使用五个周期的图像数据进行基于紧凑卷积的碱基识别的另一个示例。
图23示出了用于在时间步长/卷积窗/测序周期中将图像数据、定相和预定相数据以及基于紧凑卷积的碱基识别的碱基上下文数据混合的卷积的一个实施方式。
图24示出了拉-推卷积和推-拉卷积的一个实施方式,其中使用了1D卷积和转置卷积的组合来进行基于紧凑卷积的碱基识别。
图25示出了通过仅使用来自测序周期子集的图像数据在中央处理单元(CPU)上推理期间执行基于紧凑卷积的碱基识别的一个实施方式。
图26是示出根据一个实施方式的用于基于卷积的碱基识别和基于紧凑卷积的碱基识别的各种系统模块和数据存储的框图。
图27示出了在基于卷积的碱基识别中使用的3D卷积的一个实施方式。
图28示出了在基于卷积的碱基识别中使用的1D卷积的一个实施方式。
图29示出了在基于卷积的碱基识别中使用的逐点卷积的一个实施方式。
图30示出了定相和预定相效应的一个示例。
图31示出了空间串扰的一个示例。
图32示出了发射重叠的一个示例。
图33示出了衰落的一个示例。
图34示出了由质量评分映射器产生的质量评分映射的一个示例。
图35示出了转置卷积的一个示例。
图36示出了可用于实现本文公开的基于卷积的碱基识别和基于紧凑卷积的碱基识别的计算机系统。
具体实施方式
以下讨论旨在使本领域技术人员能够制造和使用所公开的技术,并且这些讨论是针对特定应用及其要求的背景而提供的。对于本领域技术人员来说,对所公开的实施方式的各种修改将是显而易见的,并且在不脱离所公开的技术的精神和范围的情况下,本文中定义的一般原理可以应用于其他实施方式和应用。因此,所公开的技术不限于所示的实施方式,而是包括与本文所公开的原理和特征一致的最广范围。
介绍
提出了一种基于神经网络的碱基识别器,该碱基识别器可以检测和解释测序过程的静态、动态和机械特性,将分析数据中每个序列周期观察到的结果映射到核苷酸的潜在的序列。基于神经网络的碱基识别器将特征工程化、降维、离散化和动力学建模的任务组合到一个端到端的学习框架中。特别是,基于神经网络的碱基识别器使用3D卷积、1D卷积和逐点卷积的组合来检测和解释检测偏差,例如定相和预定相效应、空间串扰、发射重叠和衰落。
深度神经网络是一种人工神经网络,其使用多个非线性和复杂的转换层来连续地对高级特征进行建模。深度神经网络通过反向传播提供反馈,反向传播携带观察输出和预测输出之间的差异来调整参数。深度神经网络随着大型训练数据集的可用性、并行和分布式计算的能力以及复杂的训练算法而发展。深度神经网络促进了许多领域的重大进展,如计算机视觉、语音识别和自然语言处理。
卷积神经网络(CNN)和递归神经网络(RNN)是深度神经网络的组成部分。卷积神经网络在图像识别方面特别成功,其结构包括卷积层、非线性层和池化层。递归神经网络旨在利用输入数据的顺序信息,在感知器、长短期记忆单元和门控递归单元等模块之间建立周期连接。此外,许多其他新兴的深度神经网络已经被提出用于有限的环境,例如深度时空神经网络、多维递归神经网络和卷积自动编码器。
训练深度神经网络的目的是优化每一层中的权重参数,将较简单的特征逐渐组合成复杂的特征,从而可以从数据中学习到最合适的层次表示。优化过程的单个周期组织如下。首先,给定一个训练数据集,前向传递依次计算每一层的输出,并通过网络向前传播函数信号。在最终输出层中,目标损失函数测量推理出的输出与给定标签之间的误差。为了最小化训练误差,反向传递使用链式规则反向传递误差信号,并计算整个神经网络中所有权重的梯度。最后,使用基于随机梯度下降的优化算法更新权重参数。批量梯度下降为每个完整数据集执行参数更新,而随机梯度下降通过为每个小数据集示例执行更新来提供随机近似值。随机梯度下降法产生了几种优化算法。例如,Adagrad和Adam训练算法执行随机梯度下降,同时分别基于每个参数的更新频率和梯度矩自适应地修改学习速率。
深度神经网络训练中的另一个核心要素是正则化,正则化是指旨在避免过拟合从而实现良好泛化性能的策略。例如,权重衰减给目标损失函数增加了惩罚项,使得权重参数收敛到较小的绝对值。在训练过程中,丢弃随机地从神经网络中移除隐藏的单元,并且这些单元可以被认为是可能的子网络的集合。为了增强丢弃的能力,提出了一种新的激活函数maxout和一种被称为rnnDrop的递归神经网络的丢弃变体。此外,批量归一化通过对小批量中每个激活的标量特征进行归一化,并学习每个均值和方差作为参数,提供了一种新的正则化方法。
鉴于测序数据是多维和高维的,深度神经网络由于其广泛的适用性和增强的预测能力在生物信息学研究中具有广阔的前景。卷积神经网络已被用于解决基因组学中基于序列的问题,如基序发现、致病性变体识别和基因表达推理。卷积神经网络使用权重共享策略,这对于研究DNA特别有用,因为它可以捕获序列基序,序列基序是DNA中短的、重复出现的局部图案,被认为具有重要的生物学功能。卷积神经网络的一个标志是使用卷积滤波器。
生物传感器
本文描述的示例可以用于学术或商业分析的各种生物或化学过程和系统。更具体地,本文描述的示例可以用于期望检测指示指定反应的事件、性质、质量或特性的各种过程和系统。例如,本文描述的示例包括光检测装置、生物传感器及其组件,以及与生物传感器一起操作的生物测定系统。在一些示例中,这些装置、生物传感器和系统可以包括流动槽和一个或多个光传感器,它们以基本单一的结构耦合在一起(可移除地或固定地)。
这些装置、生物传感器和生物测定系统可以配置成执行多个指定的反应,这些反应可以被单独或共同检测。这些设备、生物传感器和生物测定系统可以配置成执行多个周期,其中多个指定的反应并行发生。例如,这些装置、生物传感器和生物测定系统可用于通过酶操作和光或图像检测/采集的迭代周期对密集的DNA特征阵列进行测序。这样,这些装置、生物传感器和生物测定系统(例如,通过一个或多个盒)可以包括一个或多个微流体通道,该通道将反应溶液中的试剂或其他反应组分输送到装置、生物传感器和生物测定系统的反应位点。在一些示例中,反应溶液可以是基本上酸性的,例如pH小于或等于约5,或小于或等于约4,或小于或等于约3。在一些其他示例中,反应溶液可以是基本上碱性的,例如pH大于或等于约8,或大于或等于约9,或大于或等于约10。本文所用的术语“酸性”及其语法变体是指pH值小于约7,术语“碱性”及其语法变体是指pH值大于约7。
在一些示例中,反应位点以预定的方式提供或间隔开,例如以均匀或重复的图案。在其他一些示例中,反应位点是随机分布的。每个反应位点可以与一个或多个光导和一个或多个检测来自相关反应位点的光的光传感器相关联。在一些示例中,反应位点位于反应凹槽或反应室中,这可以至少部分地分隔其中的指定反应。
如本文所用,“指定反应”包括感兴趣的化学或生物物质(例如感兴趣的分析物)的化学、电学、物理或光学性质(或质量)中的至少一种的变化。在特定示例中,指定的反应是正结合事件,例如,将荧光标记的生物分子与感兴趣的分析物结合。更一般地,指定的反应可以是化学转化、化学变化或化学相互作用。指定的反应也可能是电特性的变化。在特定的示例中,指定的反应包括将荧光标记的分子与分析物结合。分析物可以是寡核苷酸,荧光标记的分子可以是核苷酸。当激发光指向具有标记核苷酸的寡核苷酸,并且荧光团发出可检测的荧光信号时,可以检测到指定的反应。在可选示例中,检测到的荧光是化学发光或生物发光的结果。指定的反应也可以增加荧光(或福斯特)共振能量转移(FRET),例如,通过使供体荧光团接近受体荧光团,通过分离供体和受体荧光团来降低FRET,通过分离淬灭剂和荧光团来增加荧光,或通过淬灭剂和荧光团共定位来降低荧光。
如本文所用,“反应溶液”、“反应组分”或“反应物”包括可用于获得至少一个指定反应的任何物质。例如,潜在的反应组分包括例如试剂、酶、样本、其他生物分子和缓冲溶液。反应组分可以被输送到溶液中的反应位点和/或固定在反应位点。反应组分可以直接或间接地与另一种物质(例如固定在反应位点的感兴趣的分析物)相互作用。如上所述,反应溶液可以是基本酸性的(即,包括相对高的酸度)(例如,包括pH小于或等于约5,pH小于或等于约4,或pH小于或等于约3)或基本碱性的(即,包括相对高的碱度)(例如,包括pH大于或等于约8,pH大于或等于约9,或pH大于或等于约10)。
如本文所用,术语“反应位点”是可发生至少一个指定反应的局部区域。反应位点可以包括反应结构或底物的支撑表面,在该支撑表面上可以固定有物质。例如,反应位点可以包括反应结构的表面(其可以位于流动槽的通道中),其上具有反应成分,例如其上的核酸集落。在一些这样的示例中,集落中的核酸具有相同的序列,例如单链或双链模板的克隆拷贝。然而,在一些示例中,反应位点可以仅包含单个核酸分子,例如以单链或双链形式。
多个反应位点可以沿着反应结构随机分布或以预定方式排列(例如,在矩阵中,例如在微阵列中并排排列)。反应位点还可以包括反应室或凹槽,其至少部分地限定了配置成分隔指定反应的空间区域或体积。如本文所用,术语“反应腔室”或“反应凹槽”包括支撑结构的限定空间区域(其通常与流动通道流体连通)。反应凹槽可以至少部分地与周围环境或其他空间区域分开。例如,多个反应凹槽可以通过共享壁(例如检测表面)彼此分开。作为更具体的示例,反应凹槽可以是纳米板,其包括由检测表面的内表面限定的凹痕、凹坑、凹井、凹槽、空腔或凹陷,并且具有开口或孔隙(即,侧面敞开),使得纳米板可以与流动通道流体连通。
在一些示例中,反应结构的反应凹槽的尺寸和形状相对于固体(包括半固体)而定,使得固体可以全部或部分地插入其中。例如,反应凹槽的尺寸和形状可以设置成容纳捕获珠。捕获珠上可以有克隆扩增的DNA或其他物质。或者,反应凹槽的尺寸和形状可以容纳大约数量的珠或固体底物。作为另一个示例,反应凹槽可以填充有多孔凝胶或物质,该多孔凝胶或物质配置成控制扩散或过滤可流入反应凹槽的流体或溶液。
在一些示例中,光传感器(例如,光电二极管)与相应的反应位点相关联。与反应位点相关联的光传感器配置成当在相关联的反应位点发生指定的反应时,经由至少一个光导检测来自相关联的反应位点的光发射。在一些情况下,多个光传感器(例如,光检测或摄像器件的几个像素)可以与单个反应位点相关联。在其他情况下,单个光传感器(例如单个像素)可以与单个反应位点或一组反应位点相关联。可以配置光传感器、反应位点和生物传感器的其他特征,使得至少一些光被光传感器直接检测而不被反射。
如本文所用,“生物或化学物质”包括生物分子、感兴趣的样本、感兴趣的分析物和其他化合物。生物或化学物质可用于检测、识别或分析其他化合物,或作为研究或分析其他化合物的中介。在特定的示例中,生物或化学物质包括生物分子。如本文所用,“生物分子”包括生物聚合物、核苷、核酸、多核苷酸、寡核苷酸、蛋白质、酶、多肽、抗体、抗原、配体、受体、多糖、碳水化合物、多磷酸盐、细胞、组织、生物体或其片段中的至少一种,或任何其它生物活性化合物,例如上述物种的类似物或模拟物。在另一个示例中,生物或化学物质或生物分子包括在偶联反应中用于检测另一个反应产物(例如酶或试剂)的酶或试剂,例如在焦磷酸测序反应中用于检测焦磷酸的酶或试剂。用于焦磷酸检测的酶和试剂描述在例如公开号为2005/0244870A1的美国专利中,其通过引用整体并入本文。
生物分子、样本和生物或化学物质可以是天然存在的或合成的,并且可以悬浮在反应凹槽或区域内的溶液或混合物中。生物分子、样本和生物或化学物质也可以结合到固相或凝胶材料上。生物分子、样本和生物或化学物质也可以包括药物组合物。在某些情况下,感兴趣的生物分子、样本和生物或化学物质可称为靶标、探针或分析物。
如本文所用,“生物传感器”包括一种装置,该装置包括具有多个反应位点的反应结构,该反应结构配置成检测发生在反应位点处或附近的指定反应。生物传感器可以包括固态光检测或“成像”设备(例如,电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS)光检测装置),以及可选地,安装在其上的流动槽。流动槽可以包括至少一个与反应位点流体连通的流动通道。作为一个具体的示例,生物传感器配置成流体耦合和电耦合到生物测定系统。生物测定系统可以根据预定的方案(例如,合成法测序)将反应溶液递送到反应位点,并执行多个成像事件。例如,生物测定系统可以引导反应溶液沿着反应位点流动。至少一种反应溶液可以包括具有相同或不同荧光标记的四种类型的核苷酸。核苷酸可以结合到反应位点,例如结合到反应位点的相应寡核苷酸。生物测定系统然后可以使用激发光源(例如,固态光源,例如发光二极管(LED))照射反应位点。激发光可以具有预定的一个或多个波长,包括一个波长范围。由入射激发光激发的荧光标签可以提供可以被光传感器检测到的发射信号(例如,波长不同于激发光并且可能彼此不同的光)。
如本文所用,术语“固定的”,当用于生物分子或生物或化学物质时,包括在分子水平上将生物分子或生物或化学物质基本附着到表面,例如光检测装置或反应结构的检测表面。例如,可以使用吸附技术将生物分子或生物或化学物质固定到反应结构的表面,所述吸附技术包括非共价相互作用(例如静电力、范德华力和疏水界面的脱水)和共价结合技术,其中,官能团或接头有助于将生物分子附着到表面。将生物分子或生物或化学物质固定到表面上可以基于表面的性质、携带生物分子或生物或化学物质的液体介质以及生物分子或生物或化学物质本身的性质。在一些情况下,可以对表面进行功能化(例如,化学或物理改性),以促进将生物分子(或生物或化学物质)固定到表面。
在一些示例中,核酸可以固定在反应结构上,例如固定在反应凹槽的表面上。在特定示例中,本文所述的装置、生物传感器、生物测定系统和方法可包括使用天然核苷酸以及配置成与天然核苷酸相互作用的酶。天然核苷酸包括例如核糖核苷酸或脱氧核糖核苷酸。天然核苷酸可以是单磷酸、二磷酸或三磷酸形式,并且可以具有选自腺嘌呤(A)、胸腺嘧啶(T)、尿嘧啶(U)、鸟嘌呤(G)或胞嘧啶(C)的碱基。然而,应当理解,可以使用非天然核苷酸、修饰的核苷酸或上述核苷酸的类似物。
如上所述,生物分子或生物或化学物质可以固定在反应结构的反应凹槽中的反应位点。这种生物分子或生物物质可以通过过盈配合、粘附、共价键或截留被物理地保持或固定在反应凹槽内。可设置在反应凹槽内的物品或固体的示例包括聚合物珠、小球、琼脂糖凝胶、粉末、量子点或可被压缩和/或保持在反应室内的其它固体。在某些实施方式中,反应凹槽可以涂覆或填充有能够共价结合DNA寡核苷酸的水凝胶层。在特定的示例中,核酸超结构,例如DNA球,可以设置在反应凹槽中或反应凹槽处,例如,通过附着到反应凹槽的内表面或通过停留在反应凹槽内的液体中。可以采用DNA球或其它核酸超结构,然后将其置于反应凹槽中或反应凹槽处。或者,可以在反应凹槽中原位合成DNA球。固定在反应凹槽中的物质可以是固态、液态或气态。
图1示出了根据一个实施方式的生物传感器100的横截面。如图所示,生物传感器100可以包括直接或间接耦合到光检测装置104的流动槽102。流动槽102可以安装在光检测装置104上。在图示的示例中,流动槽102通过一个或多个固定机构(例如,胶粘剂、粘合剂、紧固剂等)直接固定到光检测装置104。在一些示例中,流动槽102可以可移除地耦合到光检测装置104。
生物传感器100和/或检测装置104可以配置用于生物或化学分析,以获得与其相关的任何信息或数据。在特定示例中,生物传感器100和/或检测装置104可以包括为各种应用配置的核酸测序系统(或测序仪),包括但不限于从头测序、全基因组或目标基因组区域的重测序以及宏基因组学。测序系统可以配置成执行DNA或RNA分析。在一些示例中,生物传感器100和/或检测装置104配置成在生物传感器100和/或检测装置104内执行大量并行反应,以获得与其相关的信息。
流动槽102可包括一个或多个流动通道,该一个或多个流动通道将溶液引导至或引导向检测装置104上的反应位点114,如下文进一步解释。流动槽102和/或生物传感器100因此可以包括流体/溶液存储系统(未示出),或者与流体/溶液存储系统流体连通,该流体/溶液存储系统可以存储例如用于在其中进行指定反应的各种反应组分或反应物。流体存储系统还可以存储用于清洗或清洁流体网络和生物传感器100和/或检测装置104的流体或溶液,并且潜在地用于稀释反应物。例如,流体储存系统可以包括各种储存器,以储存样本、试剂、酶、其他生物分子、缓冲溶液、水溶液、油和其他非极性溶液等。如上所述,反应结构126上提供的流体或溶液可以是相对酸性的(例如,pH小于或等于约5)或碱性的(例如,pH大于或等于约8)。此外,流体存储系统还可以包括用于接收来自生物传感器100和/或检测装置104的废物的废物储存器。
在图示的示例中,光检测装置104包括装置基座125和覆盖装置基座125的反应结构126。在特定示例中,装置基座125包括多个堆叠层(例如,硅层或晶片、介电层、金属介电层等)。装置基座125可以包括光传感器140的传感器阵列124和光导118的光导阵列。反应结构126可以包括反应凹槽108的阵列,该阵列具有至少一个设置在其中的相应反应位点114(例如,固定在其表面上)。在某些示例中,配置光检测装置104以使得每个光传感器140对应于(并且可能对准)单个光导118和/或单个反应凹槽108,使得光传感器140仅从其接收光子。然而,在其他示例中,单个光传感器140可以通过一个以上的光导118和/或从一个以上的反应凹槽108接收光子。单个光传感器140可以由此形成一个像素或一个以上的像素。
反应凹槽108和/或光导118(和可能的光传感器140)的阵列可以以限定的重复图案提供,使得至少一些凹槽108和/或光导118(和可能的光传感器140)以限定的位置图案彼此等距隔开。在其他示例中,反应凹槽108和/或光导118(和可能的光传感器140)可以以随机图案提供,和/或至少一些反应凹槽108和/或光导118(和可能的光传感器140)可以可变地彼此隔开。
如图1和图2所示,检测装置104的反应结构126可以限定检测器表面112,反应溶液可以在该检测器表面112上流动和驻留,如下文进一步解释。反应结构126的检测器表面112可以是检测装置104的顶部暴露表面。检测器表面112可以包括凹槽108的表面和在凹槽108之间和周围延伸的间隙区域113。
可以功能化光检测装置104的检测器表面112(例如,以合适的方式进行化学或物理改性以进行指定的反应)。例如,可以功能化检测器表面112,并且可以包括多个反应位点114,其上固定有一个或多个生物分子。如上所述,检测器表面112可以包括反应凹槽108的阵列(例如,侧面开放的反应室)。每个反应凹槽108可以包括一个或多个反应位点114。反应凹槽108可以由例如沿着检测器表面112的深度(或厚度)的变化来限定。在其他示例中,检测器表面112可以是基本平坦的。
反应位点114可以沿着检测器表面112以图案分布,例如在反应凹槽108内。例如,反应位点114可以以类似于微阵列的方式沿着反应凹槽108位于行和列中。然而,应当理解,可以使用反应位点114的各种图案。反应位点114可以包括发出光信号的生物或化学物质,下文将进一步解释。例如,反应位点114的生物或化学物质可以响应于激发光101而产生光发射。在特定示例中,反应位点114包括固定在反应凹槽108内的检测器表面112上的生物分子(例如,寡核苷酸)的簇或集落。在用反应溶液处理之后,反应位点114可以响应于入射激发光而产生光发射。例如,反应溶液可在反应位点114(但可能不在装置104的反应结构126的其它反应位点)引发反应和/或形成反应产物,该反应产物响应于激发光而产生光发射。
激发光101可以从任何照射源(未示出)射出,该照射源可以是或可以不是生物测定系统、生物传感器100或光检测装置104的一部分。在一些示例中,照射系统可以包括光源(例如,一个或多个发光二极管)和可能的多个光学组件,以至少照明检测装置104的反应结构126。光源可以是激光器、弧光灯、LED或激光二极管。光学组件可以是,例如,反射器、二向色镜、分束器、准直器、透镜、滤光器、楔形物、棱镜、镜子、检测器等。在特定示例中,照射系统配置成将激发光101导向检测装置104的反应结构126的凹槽108内的反应位点114。在一些示例中,照射系统可以在一定波长范围内发射激发光101,例如在大约300nm至大约700nm的范围内,或者更具体地例如在大约400nm至大约600nm的范围内。在一些示例中,照射系统可以以某个波长或多个波长发射激发光101,该激发光激发反应位点108的生物或化学物质(例如,由反应位点114处的反应溶液和/或反应溶液形成的反应产物引发的反应),以发射不同波长或多个波长的光发射。例如,在反应位点108包括由绿色波长的光激发的荧光团的一个示例中,激发光可以是大约532nm,并且光发射可以是大约570nm或更大。
检测装置
图2比图1更详细地示出了检测装置104。更具体地,图2示出了单个光传感器140、用于将来自与其相关联的至少一个反应位点114的光发射导向光传感器140并使其通过的单个光导118以及用于基于光传感器140检测到的光发射(例如,光子)传输信号的相关电路146。应当理解,传感器阵列124的其他光传感器140和相关组件可以以相同或相似的方式配置。然而,还应当理解,光检测装置104不需要整体上均一地制造。相反,一个或多个光传感器140和/或相关组件可以不同地制造,或者彼此具有不同的关系。
电路146可以包括能够传导电流的互连的导电元件(例如,导体、迹线、通孔、互连件等),例如基于检测到的光子的数据信号的传输。例如,在一些示例中,电路146可以包括微电路布置。光检测装置104和/或装置基座125可以包括具有至少一个具有光传感器140阵列的集成电路。位于检测装置104内的电路146可以被配置用于信号放大、数字化、存储和处理中的至少一个。电路146可以收集(并且潜在地分析)检测到的光发射,并且生成用于将检测数据传送给生物测定系统的数据信号。电路146还可以在光检测装置104中执行附加的模拟和/或数字信号处理。
装置基座125和电路146可以使用集成电路制造工艺来制造,例如用于制造电荷耦合器件或电路(CCD)或互补金属氧化物半导体(CMOS)器件或电路的工艺。例如,如图2所示,装置基座125可以是由包括传感器底物141的多个堆叠层组成的互补金属氧化物半导体器件,在一些示例中,传感器底物141可以是硅层(例如,晶片)。传感器基座141可以包括光传感器140和形成在其上的栅极143。栅极143可以电耦合到光传感器140。当如图2所示配置光检测装置104时,光传感器140可以例如通过栅极143电耦合到电路146。
基于卷积的碱基识别
图3描述了使用卷积的碱基识别300的一个实施方式。碱基识别300由基于神经网络的碱基识别器2614操作。也就是说,三维(3D)卷积滤波器304、跳跃连接326、一维(1D)卷积滤波器308、逐点卷积滤波器310和输出层314是基于神经网络的碱基识别器2614的组件,该识别器通过其组件处理输入数据2632,并产生碱基识别332作为输出。基于神经网络的碱基识别器2614的卷积运算由卷积算子2615操作,卷积算子2615也是基于神经网络的碱基识别器2614的组件。卷积算子2615依次包括三维卷积算子2616、一维卷积算子2617、逐点卷积算子2618和转置卷积算子2619。
在一个实施方式中,输入数据2632是基于描述分析物发射的强度信号的图像数据302(例如,对于Illumina的情况)。图像数据302从测序运行期间由测序仪产生的测序图像中得出。在一个实施方式中,图像数据302包括从测序图像中提取的w×h图像块,其中w(宽度)和h(高度)是范围从1到10,000的任何数字(例如,3×3、5×5、7×7、10×10、15×15、25×25)。在一些实施方式中,w和h相同。在其他实施方式中,w和h不同。
测序运行为相应的c成像通道在每个测序周期产生c图像,并且由输入准备器2625从每个c图像中提取图像块,以准备特定测序周期的图像数据。在例如4通道、2通道和1通道化学等不同的实施方式中,c是4或2。在其他实施方式中,c是1、3或大于4。在一些实施方式中,图像数据302处于光学像素域,而在其他实施方式中,图像数据302处于上采样子像素域。
图像数据302包括多个测序周期(例如,当前测序周期、一个或多个先前测序周期以及一个或多个后续测序周期)的数据。在一个实施方式中,图像数据302包括三个测序周期的数据,使得待进行碱基识别的当前(时间t)测序周期的数据伴随有(i)左侧翼/上下文/前一/先前/之前(时间t-1)测序周期的数据和(ii)右侧翼/上下文/先前/在先/之前(时间/t+1)测序周期的数据。在其他实施方式中,图像数据302包括单个测序周期的数据。在其他实施方式中,图像数据302包括58、75、92、130、168、175、209、225、230、275、318、325、330、525或625个测序周期的数据。
图像数据302示出了一个或多个簇及其周围背景的强度发射。在一个实施方式中,当单个目标簇待进行碱基识别时,输入准备器2625从序列图像中提取图像块,使得每图像块在其中心像素中包含来自目标簇的强度信号数据。
使用强度通道(也称为成像通道)将图像数据302编码在输入数据2632中。对于特定测序周期从测序仪获得的每个c图像,使用单独的成像通道对其强度信号数据进行编码。例如,考虑测序运行使用2通道化学,其在每个测序周期产生红色图像和绿色图像。在这种情况下,输入数据2632包括(i)具有w×h像素的第一红色成像通道,其示出了在红色图像中捕获的一个或多个簇及其周围本底的强度发射,以及(ii)具有w×h像素的第二绿色成像通道,其示出了在绿色图像中捕获的一个或多个簇及其周围背景的强度发射。
在另一个实施方式中,输入数据2632基于分子延伸期间释放氢离子引起的pH值变化。检测pH变化,并将其转换为与结合的碱基数量成比例的电压变化(例如,在Ion Torrent的情况下)。
在又一实施方式中,输入数据2632由纳米孔感测构建,该纳米孔感测使用生物传感器来测量当分析物通过纳米孔或其孔附近时电流的中断,同时确定碱基的ID。例如,牛津纳米孔公司(Oxford Nanopore Technologies,ONT)测序基于以下概念:通过纳米孔将单链DNA(或RNA)穿过膜,并在膜上施加电压差。孔隙中存在的核苷酸会影响孔隙的电阻,因此随着时间的推移,电流测量可以指示穿过孔隙的DNA碱基序列。该电流信号(由于其绘制的外观而被称为“波形曲线”)是由ONT测序仪收集的原始数据。这些测量值存储为16位整数数据采集(DAC)值,(例如)以4kHz频率采集。以每秒约450个碱基对的DNA链速度,平均每个碱基大约可得到9个原始观察值。然后对该信号进行处理,以识别对应于单个读长的开孔信号中的断裂。对这些原始信号片段进行碱基识别(将DAC值转换成DNA碱基序列的过程)。在一些实施方式中,输入数据2632包括归一化或缩放的DAC值。
图像数据302的维数可以表示为w×h×k×c,其中“w”表示图像数据302的宽度,“h”表示图像数据302的高度,“k”表示获得图像数据302的测序周期数,“c”表示图像数据302中成像通道的数量。在一个实施方式中,w可以是3、5、6、10、15或25,h可以与w相同。在一个实施方式中,k可以是1、3、5、7、9、11、13、15、17、19、21、23、25、58、75、92、130、168、175、209、225、230、275、318、325、330、525或625。在一个实施方式中,c可以是1、2、3、4、6或10。
3D卷积滤波器304对图像数据302应用3D卷积(3D CONV),并产生输出特征306。3D卷积的维数可以表示为w×h×r×n,其中“w”表示3D卷积内核的宽度,“h”表示3D卷积内核的高度,“r”表示3D卷积内核的感受野,“n”表示三维卷积滤波器304的总数。在一个实施方式中,w可以是3、5、6、10、15或25,h可以与w相同。在一个实施方式中,r可以是3、5、7、10、15或25。在一个实施方式中,n可以是3、5、10、50、100、150、198、200、250或300。3D卷积由3D卷积算子2616操作。
图27示出了在基于卷积的碱基识别300中使用的3D卷积2700的一个实施方式。3D卷积是一种数学运算,其中输入体积中存在的每个体素乘以卷积内核的等效位置中的一个体素。最后,将结果的总和添加到输出体积中。在图27中,有可能观察到三维卷积的表征,其中在输入2716中突出显示的体素2716a与它们在内核2718中各自的体素相乘。在这些计算之后,其总和2720a被加到输出2720。
由于输入体积的坐标由(x,y,z)给出,并且卷积内核具有大小(P,Q,R),因此3D卷积运算可以在数学上定义为:
O是卷积的结果,
I是输入体积,
K是卷积内核,并且
(p,q,r)是K的坐标。
为简明起见,上述等式中省略了偏差项。
因此,3D卷积除了从像2D卷积这样的矩阵中提取空间信息之外,还提取连续矩阵之间存在的信息。这允许其映射3D数据的空间信息和一组连续图像的时间信息。
在一些实施方式中,输出特征306通过非线性激活函数进行处理,例如修正线性单元(ReLU)、泄漏ReLU、指数线性单元(eLU)、参数ReLU(PReLU)、sigmoid和双曲正切(tanh)函数,以产生激活的输出特征。非线性激活函数由非线性激活函数应用器504操作,非线性激活函数应用器504也是基于神经网络的碱基识别器2614的组件。在一些实施方式中,在3D卷积之前或之后应用批量归一化。批量归一化由批量归一化器2622操作,批量归一化器2622也是基于神经网络的碱基识别器2614的组件。
在一些实施方式中,跳跃连接326将图像数据302(或输入数据2632)的部分324与输出特征306(或激活的输出特征)相组合。在其他实施方式中,跳跃连接326将所有图像数据302(或输入数据2632)与输出特征306(或激活的输出特征)相组合。该组合可以通过串联或求和来完成。所得的组合数据称为补充特征334。在一个实施方式中,当单个目标簇将被进行碱基识别时,从图像数据302(或输入数据2632)中选择关于单个目标簇的信息,并将其与输出特征306(或激活的输出特征)组合。在一些实施方式中,从图像数据302中,为每个成像通道(c)和每个测序周期(k)选择由与单个目标簇相关联的像素(1x1)描绘的强度信号数据,并将其与输出特征306(或激活的输出特征)组合。跳跃连接326由跳跃连接器2620操作,跳跃连接器2620也是基于神经网络的碱基识别器2614的组件。
1D卷积滤波器308对补充特征334应用1D卷积,并产生另外的输出特征328。在一个实施方式中,应用1D卷积的级联330。也就是说,级联330中的第一1D卷积处理补充特征334作为起始输入,并产生第一组另外的输出特征328。然后,级联330中的第二1D卷积处理第一组的其他输出特征328,并产生第二组其他输出特征328。然后,级联330中的第三1D卷积处理第二组其他输出特征328,并产生第三组其他输出特征328。级联330中的最终一维卷积处理另一输出特征328的倒数第二集合,并产生另一输出特征328的最终集合,然后将其作为起始输入馈送给逐点卷积(逐点卷积)。
在其他实施方式中,仅应用一个1D卷积而不是级联。
级联330中的每个1D卷积使用一组(n个)维卷积滤波器308。在一些实施方式中,级联330中的每个一维卷积具有不同的内核宽度或感受野(l)。例如,l可以是3、5、7、9、11和13。在其他实施方式中,级联330中的一些1D卷积具有相同的l,而级联330中的其他1D卷积具有不同的l。在级联330中,随着1D卷积的应用,l可以逐渐增加、逐渐减小、随机变化或随机保持。1D卷积由1D卷积算子2617操作。
图28示出了在基于卷积的碱基识别300中使用的1D卷积2800的一个实施方式。辅助卷积从输入序列2802中提取局部一维块2812或子序列,并从每个这样的1D块2812中获得输出2826。1D卷积识别输入序列2802中的局部图案。因为在每个块2812上执行相同的输入变换,所以在输入序列2802中的特定位置学习的图案可以稍后在不同的位置被识别,使得1D卷积对于时间平移不变。例如,当1D卷积使用大小为5的卷积窗2804处理输入序列2802时,它学习长度为5或更短的序列图案,并因此识别输入序列2802中的碱基基序。通过这种方式,1D卷积能够学习潜在的碱基形态。
在一些实施方式中,另外的输出特征328通过非线性激活函数进行处理,例如修正线性单元(ReLU)、泄漏ReLU、指数线性单元(eLU)、参数ReLU(PReLU)、sigmoid和双曲正切(tanh)函数,以产生激活的另外的输出特征。在一些实施方式中,在级联中的每个1D卷积之前或之后应用批量归一化。
逐点卷积滤波器310对最终的另一组输出特征328(或激活的另一输出特征)应用逐点卷积,并产生最终输出特征312。逐点卷积由逐点卷积算子2618操作。
图29示出了在基于卷积的碱基识别300中使用的逐点卷积2900的一个实施方式。逐点卷积是1×1感受野/内核宽度/窗口/空间维度的卷积。当具有一组(n个)滤波器的逐点卷积应用于具有n个通道的输入时,得到的输出具有b个通道。然而,输出具有与输入相同的空间维度,即逐点卷积将输入的空间维度带到输出中。在图29中,当输入2902被单个逐点卷积滤波器2904卷积时,得到的输出2906只有一个通道。类似地,当另一个输入2912被一组(256个)逐点卷积滤波器2914卷积时,得到的输出2916具有256个通道。注意,在两个示例中,输出空间维度与输入空间维度相匹配,即8×8。
在一些实施方式中,最终输出特征312通过非线性激活函数进行处理,例如修正线性单元(ReLU)、泄漏ReLU、指数线性单元(eLU)、参数ReLU(PReLU)、sigmoid和双曲正切(tanh)函数,以产生激活的最终输出特征。在一些实施方式中,在逐点卷积之前或之后应用批量归一化。
输出层314处理最终输出特征312并产生碱基识别332。输出层314可以包括全连接网络2348、sigmoid层、softmax层和/或回归层。
在一个实施方式中,基于神经网络的碱基识别器2614使用在输入通道之间混合信息的3D卷积和也在输入通道之间混合信息的1D卷积。在另一实施方式中,基于神经网络的碱基识别器2614使用在输入通道之间混合信息的3D卷积,但是使用不在输入通道之间混合信息的1D卷积。在又一实施方式中,基于神经网络的碱基识别器2614不在输入通道之间混合信息的3D卷积,但是使用在输入通道之间混合信息的1D卷积。在又一实施方式中,基于神经网络的碱基识别器2614使用不在输入通道之间混合信息的3D卷积和也不在输入通道之间混合信息的1D卷积。
3D卷积、1D卷积、逐点卷积和转置卷积可以使用填充。在一个实施方式中,填充是SAME填充或零填充,并且产生对应于每个测序周期的至少一个特征元素。在另一个实施方式中,填充是VALID填充。此外,基于神经网络的碱基识别器2614的中间计算也被存储为中间特征2605。
3D卷积
图4示出了根据一种在成像通道之间混合信息的实施方式,在基于卷积的碱基识别400中使用的3D卷积402。3D卷积402对图像数据302进行卷积。首先描述图像数据302如何包括包含关联分析物的强度数据的像素,以及如何通过配置成检测关联分析物的发射的相应光传感器获得一个或多个成像通道的强度数据。
图像数据
生物传感器100包括光传感器阵列。光传感器配置成感测来自生物传感器100的检测表面上的相应像素区域(例如,反应位点/凹井/纳米板)的信息。将布置在像素区域中的分析物称为与像素区域相关联,即关联分析物。在测序周期,对应于像素区域的光传感器配置成检测/捕获/感测来自关联分析物的发射/光子,并且作为响应,为每个成像通道生成像素信号。在一个实施方式中,每个成像通道对应于多个滤光器波长带中的一个。在另一实施方式中,每个成像通道对应于一个测序周期中的多个成像事件之一。在又一实施方式中,每个成像通道对应于用特定激光照射和通过特定滤光器成像的组合。
来自光传感器的像素信号被传送到耦合到生物传感器100的信号处理器(例如,通过通信端口)。对于每个测序周期和每个成像通道,信号处理器产生图像,其像素分别描绘/包含/表示/代表/表征从相应的光传感器获得的像素信号。这样,图像中的像素对应于:(i)生物传感器100的光传感器,其产生由像素描绘的像素信号,(ii)关联分析物,其发射被相应的光传感器检测到并被转换成像素信号,以及(iii)生物传感器100的检测表面上保持关联分析物的像素区域。
例如,考虑测序运行使用两个不同的成像通道:红色通道和绿色通道。然后,在每个测序周期,信号处理器产生一个红色图像和一个绿色图像。这样,对于测序运行的一系列k个测序周期,产生具有k对红色图像和绿色图像的序列作为输出。
红色图像和绿色图像(即不同的成像通道)中的像素在一个测序周期内具有一一对应的对应关系。这意味着一对红色图像和绿色图像中的对应像素示出了相同关联分析物的强度数据,尽管是在不同的成像通道中。类似地,红色图像和绿色图像对之间的像素在测序周期之间具有一一对应的关系。这意味着不同红色图像和绿色图像对中的对应像素示出了相同关联分析物的强度数据,尽管测序运行的采集事件/时间步长(测序周期)不同。
红色图像和绿色图像中的对应像素(即,不同的成像通道)可以被认为是在第一红色通道和第二绿色通道中表达强度数据的“每周期图像”的像素。其像素示出了像素区域子集(即生物传感器100的检测表面的区域(分块))的像素信号的每周期图像被称为“每周期分块图像”从每周期分块图像中提取的块称为“每周期图像块”在一个实施方式中,块提取由输入准备器2625执行。
图像数据302包括为测序运行的一系列k个测序周期生成的每周期图像块序列。每周期图像块中的像素包含关联分析物的强度数据,并且通过配置成检测关联分析物的发射的相应光传感器获得一个或多个成像通道(例如,红色通道422r和绿色通道422g)的强度数据。在一个实施方式中,当对单个目标簇进行碱基识别时,每周期图像块以包含目标关联分析物的强度数据的中心像素412为中心,并且每周期图像块中的非中心像素包含邻近目标关联分析物的关联分析物的强度数据。在一个实施方式中,图像数据302由输入准备器2625准备。
例如,图4中的数字490表示周期4的每周期图像块。还要注意,在图4中,在k个每周期图像块中对中心像素412的重复引用说明了上面讨论的像素到像素的对应关系。图像数据302用填充404填充。在一个实施方式中,填充404是SAME或零填充,并且产生对应于k个测序周期中的每一个的至少一个特征元素。在另一实施方式中,填充404是VALID填充。
卷积窗
基于滑动卷积窗,将3D卷积402应用于图像数据302。图4示出了四个卷积窗415、425、435和485。卷积窗覆盖多个每周期图像块(例如,形成多个的每周期图像块在2到200之间的任何位置),并产生特征元素作为输出。在图4中,对应于第一3D卷积滤波器418的卷积窗415、425、435和485的特征元素466是i1、i2、i3和ik。特征元件466布置在输出特征502a中。
卷积内核
3D卷积402使用成像通道特定卷积内核,使得卷积内核卷积其自身的成像通道的数据,而不卷积另一个成像通道的数据。例如,在图4中,红色卷积内核418r卷积红色通道422r中的数据,绿色卷积内核418g卷积绿色通道422g(以及偏差418b)中的数据。对多个每周期图像块进行卷积的卷积内核的输出是中间特征元素(未示出)。像i1、i2、i3或ik这样的特征元素是对由3D卷积滤波器的所有卷积内核产生的相应中间特征元素进行累积(求和)的结果。
例如,由第一3D卷积滤波器418为卷积窗415产生的特征元素il由红色卷积内核418r产生的红色中间特征元素ilr(未示出)和绿色卷积内核418g产生的绿色中间特征元素ilg(未示出)组成。在图4中,红色中间特征元素和绿色中间特征元素被组合或混合以产生特征元素466。在本文中,将其称为“通道混合”或“混合卷积”。
当卷积滤波器的卷积内核的相应输出没有被组合,而是被保持为用于下游处理的单独通道时,这种实施方式在本文中称为“通道分离”或“分离卷积”。如上所述,根据该实施方式,基于神经网络的碱基识别器2614可以使用(i)混合的3D卷积和1D卷积,(ii)混合的3D卷积及分离的1D卷积,(iii)分离的3D卷积及混合的1D卷积,和/或(iv)分离的3D卷积和1D卷积。
图像数据中的偏差
图像数据302受到诸如定相和预定相效应、空间串扰、发射重叠和衰落的偏差的影响。
定相和预定相效应
在理想情况下,分析物中所有新生链的长度都是相同的。周期可逆终止(CRT)化学中的缺陷造成随机故障,导致新生链长度不均一,在分析物中引入后随(太短)和前导(太长)新生链,并通过来自相邻核苷酸的信号污染来降低来自被询问位置的信号输出的纯度。定相和预定相效应是指特定周期的信号受到前后周期的信号污染。定相和预定相会导致分析物序列拷贝的读出失去同步性。
定相是由于未完全去除3’终止子和荧光团以及缺少合并周期的分析物中的序列引起的。预定相是由没有有效3’-封闭的核苷酸合并引起的。定相和预定相效应是一种非平稳失真,因此每个分析物中受定相和预定相影响的序列比例随着周期次数的增加而增加;妨碍了正确的碱基识别并限制了有用序列读长的长度。
由于定相导致的不完全延伸导致后随链(例如,来自当前周期的t-1)。由于预沉淀,在一个相同的链的群体中添加多个核苷酸或探针会导致前导链(例如,来自当前周期开始的t+1)。用于指代定相和定相的其他术语包括落后、前移、后随、前导、移相、后定相、异相、不同步、核苷酸合成不同步、异步、结转(CF)、不完全或过早延伸(IE)和下垂(DR)。
图30示出了定相和预定相效应3000的一个示例。图30a示出了分析物的某些链(红色)前导,而其他则后随(蓝色),从而导致分析物的混合信号读出。图30b示出了在异质本底中每15个周期具有“C”脉冲的分析物片段的强度输出。注意定相和预定相效应3000造成的预期信号(灰色箭头)和记忆信号(黑色箭头)。
空间串扰
空间串扰是指由关联分析物(或像素区域)的相应光检测器检测到的来自一个或多个非关联分析物(或像素区域)的信号或光发射。空间串扰是由相邻分析物的有害辐射引起的。理想情况下,每种分析物的强度应仅对应于一种分析物序列。然而,观察到的强度通常包含来自邻近分析物序列的信号,而不是来自被询问/目标序列的信号,因此不是纯的。
图31示出了空间串扰的一个示例。图31示出了在检测器表面602上具有多个像素区域3156A-3156D的检测装置3100。检测装置3100包括光传感器3136A-3136D。光传感器3136A-3136D分别与像素区域3156A-3156D相关联并对应。相应的检测路径3140A-3140D在光传感器3136A-3136D和相应的像素区域3156A-3156D之间延伸。指示检测路径3140A-3140D的箭头仅仅是为了说明光通过相应检测路径传播的大致方向。
在成像事件期间,检测装置3100配置成使用光传感器3136A-3136D来检测光。如图31中金字塔形散列标记的区域或地带所示,光发射(或发射信号)从像素区域3156A和3156B传播,但是光发射不从3156C或3156D传播。光发射可以指示例如位于相应像素区域的分析物和另一生物分子之间的正结合事件。在特定实施方式中,像素区域3156A-3156D由激发光(例如,532nm)照射。像素区域3156A和3156B结合到具有光标记(例如荧光部分)的相应生物分子。响应于激励,像素区域3156A和3156B提供光发射,如图31所示。
然而,像素区域3156和光传感器3136可以彼此相对靠近,使得来自非关联像素区域的光发射可以被光传感器检测到。这种光发射可以被称为串扰发射或空间串扰。举例来说,从像素区域3156A传播的光发射包括串扰信号和像素信号。来自像素区域3156A的光发射的像素信号是配置成由光传感器3136A检测的光发射的信号。换句话说,像素信号包括以通常朝向光传感器3136A的角度传播的光发射,使得限定检测路径3140A的滤光器壁3130能够将光发射导向光传感器3136A。串扰信号是光发射的信号,其穿过限定检测路径3140A的滤光器壁3130,并传播到例如检测路径3140B中。在这种情况下,串扰信号可以被导向光传感器3136B,光传感器3136B不与像素区域3156A相关联。因此,光传感器3136B可以被称为相对于像素区域3156A的非关联光传感器。
使用图31所示的实施方式作为示例,光传感器3136A可以检测来自像素区域3156A的像素发射和来自像素区域3156B的串扰发射。同样,光传感器3136B可以检测来自像素区域3156B的像素发射和来自像素区域3156A的串扰发射。光传感器3136C可以检测来自像素区域3156B的串扰发射。然而,在图31中,像素区域3156C不提供光发射。因此,由光传感器3136C检测到的光量小于由光传感器3136A和3136B检测到的相应光量。如图31所示,光传感器3136C仅检测来自像素区域3156B的串扰发射,而光传感器3136D不检测串扰发射或像素发射。
发射重叠
发射重叠是指在多个通道中记录来自单个荧光团的光。在理想的周期可逆终止(CRT)反应中,不同的荧光团将具有不同的发射光谱和相似的产率。然而,用于测序的荧光团的发射光谱很宽并且彼此重叠。因此,当一个荧光团被激发时,其信号也通过其他通道的滤光器。图32示出了发射重叠3200的一个示例。图32a显示G荧光团(红色)的光谱渗入T滤光器的光谱(粉红色阴影区域)。因此,当G荧光团被激发时,也将检测到T信号。
图32b是T通道与G通道强度数据的二维直方图。G荧光团(右箭头)传输到T通道,因此呈正线性。另一方面,T荧光团(左箭头)不传输到G通道。请注意,“A”和“C”通道之间以及“G”和“T”通道之间有很强的重叠—每对荧光通道都是由相同的激光激发的。
衰落
衰落是荧光信号强度作为周期数的函数的指数衰减。随着测序运行的进行,分析物链会被过度洗涤,暴露于产生活性物质的激光辐射下,并受到恶劣环境条件的影响。所有这些都会导致每种分析物中的片段逐渐丢失,从而降低其荧光信号强度。衰落也称为变暗或信号衰减。图33示出了衰落3300的一个示例。在图33中,带有AC微卫星的分析物片段的强度值显示出指数衰减。
3D卷积解释的偏差
3D卷积402检测和解释在基于卷积的碱基识别400期间的这些偏差。在同一卷积窗内,3D卷积402的3D卷积滤波器304(例如第一3D卷积滤波器418)(i)对沿着时间维度428k的多个每个周期图像斑进行卷积,以检测和解释用于异步读出关联分析物的序列拷贝导致的测序周期的后续测序周期之间的定相和预定相效应,(ii)对沿着空间维度428w、428h的每周期图像块中的每个中的多个像素进行卷积,以检测和解释由关联分析物的相应光传感器检测来自非关联分析物的发射所引起的相邻分析物之间的空间串扰,以及(iii)对沿着深度维度428c的每个成像通道进行卷积,以检测和解释由染料发射光谱重叠所引起的成像通道之间的发射重叠。
通过对将当前测序周期和侧翼测序周期的图像数据带入同一卷积窗内的体积进行卷积,3D卷积滤波器304学会关联观察到的周期间发射,该周期间发射累积地产生强度图案,该强度图案表示:(i)在当前测序周期的潜在碱基形态的信号,和(ii)作为定相和预定相效应3000的侧翼测序周期所产生的噪声,以及当前测序周期的正确碱基识别预测(在训练期间,通过真值2608进行传送)。
通过对将来自一组空间上连续的分析物(像素)的像素数据带入相同的卷积窗内的图像块进行卷积,3D卷积滤波器304能够关联观察到的分析物间发射,该发射累积地产生强度图案,该强度图案表示:(i)被询问/目标分析物的信号和(ii)作为空间串扰3100的由相邻分析物产生的噪声,以及对被询问/目标分析物的正确的碱基识别预测(在训练期间,通过真值2608传送)。
通过对表示在同一卷积窗内的每个成像通道中捕获的强度的图像数据进行卷积,3D卷积滤波器304进行学习以关联观察到的通道间发射,这些通道间发射累积地创建强度图案,该强度图案表示:(i)在相应的成像通道中激发的荧光团的信号和(ii)在非对应的成像通道中由于发射重叠3200而由非激发的荧光团产生的噪声,其具有相应成像通道的正确的碱基识别预测分量(在训练期间,通过真值2608传送)。
通过在每周期图像块序列上对相同的3D卷积滤波器304进行卷积,3D卷积滤波器304进行学习以将由衰落3300引起的在过去周期中观察到的强度值的逐渐减小与测序周期的正确碱基识别预测相关联(在训练期间,该预测通过真值2608传送)。
3D卷积滤波器304基于针对各种流动槽、测序仪器、测序运行、测序方案、测序化学、测序试剂和分析物密度获得的图像数据进行训练,因此学习原始数据中发现的许多不同类型的这种关联,并针对每种类型的关联的许多示例或示例进行优化。在一些实施方式中,使用数百、数千或数百万个训练示例。优化包括调整/进化/更新3D卷积滤波器304的卷积内核(和偏差)的系数/权重/参数,以以使预测的碱基识别和由真值识别的正确的碱基识别之间的损失最小化。使用带反向传播的随机梯度下降使损失最小化。
输出特征
由于在滑动卷积窗基础上对每周期图像块序列进行卷积,3D卷积滤波器产生至少一个输出特征。例如,第一3D卷积滤波器418产生输出特征502a。图5示出了分别由n个3D卷积滤波器304产生的输出特征502a-n。输出特征包括对应于k个测序周期的k个特征元素。基于神经网络的碱基识别器2614使用这种配置来为预测中的每个测序周期产生碱基识别。在一个实施方式中,输出特征502a-n由非线性激活函数应用器504通过ReLU进行处理,以产生激活的输出特征502a-n。
补充特征
图6示出了根据一个实施方式的为中心像素412生成的并在基于卷积的碱基识别400中用作补充输入324的强度数据特征。跳跃连接326跨k个测序周期的每周期像素块选择中心像素412的强度值,并创建中心像素412的强度数据特征。对每个成像通道分别进行选择。例如,跳跃连接326访问红色通道422r的像素块,并选择红色通道422r中的中心像素412的强度值,以创建红色通道强度数据特征602r。类似地,跳跃连接326访问绿色通道422g的像素块,并选择绿色通道422g中的中心像素412的强度值,以创建绿色通道强度数据特征602g。在一个实施方式中,跳跃连接326串联每周期强度值以创建强度数据特征。在另一实施方式中,跳跃连接326将每周期强度值相加,以创建强度数据特征。
如图7所示,跳跃连接326用红色和绿色通道强度数据特征602r、602g补充输出特征502a-n(或激活的输出特征502a-n)。这使得基于神经网络的碱基识别器2614进一步关注中心像素412的强度数据。
1D卷积的级联
从补充有强度数据特征324的输出特征306作为起始输入开始,应用1D卷积308的级联330来产生另外的输出特征312。1D卷积308使用不同的感受野来检测由定相和预定相效应3000引起的不同程度的异步读出。
不同的感受野解释不同顺序的定相和预定相
图8示出了对补充的输出特征800进行卷积的第一1D卷积滤波器808的一个实施方式,该补充的输出特征800包括输出特征502a-n和强度数据特征602r、602g。第一1D卷积滤波器808的感受野/内核宽度(l)是三,因为它具有三个权重/系数w1、w2、w3,即l=3。类似地,对于具有11个权重的1D卷积滤波器,l=11。对于每个l,应用一组1D卷积滤波器。也就是说,级联330使用多个1D卷积组,每个组包括一套1D卷积滤波器。在一些实施方式中,每个1D卷积滤波器组使用不同的l。在其他实施方式中,一些组具有相同的l。在级联330中,从一个组到下一个组,l可以逐渐增加、逐渐减少、随机增加、随机减少或随机保持不变。
1D卷积滤波器308中的权重被逐元素乘以补充输出特征800的特征元素。因为每个特征元素对应于k个测序周期中的一个,所以权重和对应的特征元素之间的逐元素乘法在本文中被称为“交叉周期乘法”在一个实施方式中,交叉周期乘法导致测序周期之间的信息混合。随着l的改变,信息混合的测序周期的窗口也改变,以说明对当前测序周期的信号有产生的侧翼测序周期的不同数量(t),即不同的水平/顺序/程度的定相(t-1、t-2、t-3等)和预定相(t+1、t+2、t+3等)。
更多输出特征
交叉周期乘法和后续求和的一个示例产生中间输出特征。在图8中,中间输出特征804使用符号来标识,其中i表示输出特征或强度数据特征,j表示周期数。通过使用SAME填充,在补充的输出特征800上的交叉周期乘法和求和产生对应于k个测序周期的k个中间输出特征。
对补充输出特征800进行卷积的第一1D卷积滤波器808的输出是另一输出特征902a。另一输出特征902a由中间输出特征804的交叉特征累积826产生,使得相同周期位置(相同j)的中间输出特征相加,以在另一输出特征902a中产生该周期位置的特征元素。例如,第一周期的中间输出特征(j=1)在补充的输出特征800上相加,以产生另一输出特征902a的第一特征元素(i1)。交叉特征累积826导致另一输出特征902a具有对应于k个测序周期的k个特征元素。基于神经网络的碱基识别器2614使用这种配置来为预测中的每个测序周期产生碱基识别。
如上所述,级联330中的每个存储体使用一套1D卷积滤波器。每个1D卷积滤波器因对补充的输出特征800进行卷积而产生另一个输出特征。因此,另外的输出特征902a-n分别由n个1D卷积滤波器308产生。在一个实施方式中,非线性激活函数应用器504对另外的输出特征902a-n通过ReLU进行处理,以产生激活的另外的输出特征902a-n。
逐点卷积
级联330中最后一组一维卷积滤波器产生的其他输出特征(即最终的其他输出特征)作为输入被馈送到逐点卷积滤波器310。在一些实施方式中,激活的另外的输出特征被馈送作为输入。
在一个实施方式中,应用于最终的其他输出特征的逐点卷积滤波器的数量是待进行碱基识别(p)的分析物(像素)数量的函数。在另一个实施方式中,它是以下数量的函数:(i)将被进行碱基识别(p)的分析物(像素)的数量,以及(ii)由基于神经网络的碱基识别器2614为其生成碱基识别预测分量(c)的成像通道的数量。
例如,基于卷积的碱基识别400针对的是碱基识别中心像素412(即p=1),并且涉及生成用于红色通道422r的第一碱基识别预测分量1112和用于绿色通道422g的第二碱基识别预测组件1132(即c=2)。这里,逐点卷积滤波器的数量是p×c,即2。类似地,当红色和绿色通道422r、422g的整个像素块(即p=9)时进行碱基识别时,使用18个逐点卷积滤波器。
在图10中,两个逐点卷积滤波器1008、1048分别通过交叉特征累积1026、1066产生最终输出特征1112、1132。逐点卷积滤波器1008、1048具有其各自的内核权重/系数,该内核权重/系数被分别应用于另外的输出特征328。
最终输出特征
最终输出特征312具有对应于k个测序周期的k个特征元素。每个最终输出特征对应于成像通道之一,基于神经网络的碱基识别器2614为该成像通道生成碱基识别预测分量。例如,第一最终输出特征1112对应于为红色通道422r生成的碱基识别预测分量,第二最终输出特征1132对应于为绿色通道422g生成的碱基识别预测分量。
输出层
输出层314对最终输出特征312进行操作,并产生碱基识别1138。最终输出特征312包括未归一化的每周期值1122。非线性激活函数应用器504将未归一化的每周期值1122转换成归一化的每周期值1134。在一个实施方式中,非线性激活函数应用器504应用sigmoid函数,该函数将未归一化的每周期值1122压缩到0和1之间,如图11中关于归一化的每周期值1134所示。
然后,二进制分配器1126基于阈值(例如0.5)将归一化的每周期值1134转换为每周期二进制值1136。二进制分配器1126可以是输出层314的一部分。在一个实施方式中,低于阈值的那些压缩后的每周期值被分配0值,而高于阈值的那些压缩后的每周期值被分配1值。
然后,碱基分配器1128基于在最终输出特征312中相应位置(例如i1,i2,i3,...ik)对在k测序周期的每一个处的中心像素412的关联分析物进行碱基识别。碱基分配器1128可以是输出层314的一部分。在图11中,碱基识别1138使用2通道测序碱基识别器案1102来分配,该方案使用开(1)和关(0)位来分配碱基字母。
在一些实施方式中,输出层314包括softmax函数,该函数产生在测序周期中结合在待进行碱基识别为A、C、T和G的关联分析物中的碱基的指数归一化概率分布,并基于该分布将该碱基分类为A、C、T或G。在一个实施方式中,softmax函数通过softmax算子2623应用,该算子可以是输出层314的一部分。
关于softmax,softmax是多类分类的输出激活函数。形式上,训练所谓的softmax分类器是对分类概率的回归,而不是真正的分类器,因为它不会返回分类,而是对每个分类的可能性进行置信度预测。softmax函数接受一类值,并将它们转换为总和为1的概率。softmax函数将任意真值的k维向量压缩为0到1范围内的真值的k维向量。因此,使用softmax函数可以确保输出是一个有效的、指数归一化的概率质量函数(非负且求和为一)。
考虑是向量/>的第i个元素:
其中
是长度为n的向量,其中n是分类中的类数。这些元素的值介于0和1之间,并且总和为1,因此它们代表有效的概率分布。
在一个示例中,softmax激活函数可应用于三个类,即请注意,三个输出的总和始终为一。因此,它们定义了一个离散的概率质量函数。
用于分类时,给出在类i中的概率。
“softmax”这个名称可能有些令人困惑。该函数与argmax函数的关系比与max函数的关系更密切。“soft”一词源于softmax函数是连续且可微的这一事实。argmax函数的结果表示为一个独热向量,它不是连续的或可微的。softmax函数因此提供了argmax的“软化”版本。将softmax函数称为“softargmax”可能更好,但当前的名称是一个根深蒂固的惯例。
碱基识别像素块
基于神经网络的碱基识别器2614可以同时对由像素块1202中的相应像素描绘的多个关联分析物进行碱基识别。图12示出了根据一个实施方式的为像素块1202生成的并且在基于卷积的碱基识别1400中用作补充输入1200的强度数据特征1204r、1204g。
图13示出了根据一个实施方式的补充(1300)有强度数据特征1204r、1204g的输出特征502a-n。图14示出了根据一个实施方式的输出层314,该输出层处理由逐点卷积产生的最终输出特征1402,并对像素块1202中的像素进行碱基识别1408。图14还示出了像素块1202的归一化每周期值1404和像素块1202的每周期二进制值1406。
碱基识别-分离卷积
图15描述了基于卷积的碱基识别1500的一个实施方式,其使用不在成像通道之间混合信息的分离卷积。在图15中,图像数据1502具有两个通道中的像素强度数据,一个红色通道和一个绿色通道。第一3D卷积滤波器1516a具有两个卷积内核:红色内核1514和绿色内核1524。红色内核1514卷积红色通道中的像素强度数据,绿色内核1524卷积绿色通道中的像素强度数据。
n个3D卷积滤波器的红色核产生n个红色输出通道1504。n个3D卷积滤波器的绿色核产生n个绿色输出通道1534。红心和绿心的输出不混合,保持分离。然后,为红色输出通道1504和绿色输出通道1534启动单独的处理流水线,使得在红色输出通道1504和绿色输出通道1534上操作的下游卷积不会在红色输出通道1504和绿色输出通道1534之间混合信息。
下游卷积(如1D卷积和逐点卷积)产生独立的红色和绿色输出通道,如1506(红色)、1546(绿色),和1508(红色)、1558(绿色)。然后,sigmoid函数1528为红色通道1530r产生一个二进制序列,为绿色通道1530g产生一个二进制序列,这些二进制序列又被用于基于逐位置对来推理碱基识别1532。
碱基识别-分离的三维卷积、混合1卷积
图16示出了基于卷积的碱基识别1600的一个实施方式,其使用不在成像通道之间混合信息的分离的3D卷积和在成像通道之间混合信息的1D卷积。在图16中,图像数据1602在两个通道(红色通道和绿色通道)中具有像素强度数据。第一3D卷积滤波器1616a具有两个卷积内核:红色内核1614和绿色内核1624。红色内核1614卷积红色通道中的像素强度数据,绿色内核1624卷积绿色通道中的像素强度数据。
n个3D卷积滤波器的红色核产生n个红色输出通道1604。n个3D卷积滤波器的绿色核产生n个绿色输出通道1634。红色内核1604和绿色内核1634的输出没有混合并且保持分离。
然后,在红色输出通道1604和绿色输出通道1634上操作的下游卷积(例如,1D卷积)在红色输出通道1504和绿色输出通道1534之间混合信息,并产生混合输出通道1606。
对混合输出通道1606进行逐点卷积以产生分离的红色最终输出通道1608(红色)和绿色最终输出通道1658(绿色)。然后,sigmoid函数1628为红色通道1630r产生一个二进制序列,为绿色通道1630g产生一个二进制序列,这些二进制序列又被用于基于逐位置对来推理碱基识别1632。
质量评分
在一个实施方式中,基于神经网络的碱基识别器2614使用成像通道的最终输出特征312中的归一化每周期值1134,以基于质量评分映射将质量评分2610分配给由输出层314发出的碱基识别预测。质量评分映射由以下确定:(i)计算在训练数据2505上做出的碱基识别预测的预测错误率,并确定相应的预测质量评分,(ii)确定预测质量评分和根据从测试数据得出的经验碱基识别错误率确定的经验质量评分之间的拟合,以及(iii)基于该拟合将预测质量评分与经验质量评分相关联。
在一个实施方式中,作为归一化的每周期值1134的sigmoid输出可用于解释质量评分2610,如下:
在一个实施方式中,质量评分2610由质量评分映射器2613生成,质量评分映射器2613可以是基于神经网络的碱基识别器2614的一部分。图34a示出了由质量评分映射器2613从平均值约为Q37的原始质量评分产生的质量评分映射3400的一个示例。图34b示出了观察到的逐通道sigmoid评分和预测质量评分之间的对应关系。
基于紧凑卷积的碱基识别
现在讨论所谓的“基于紧凑卷积的碱基识别”基于紧凑卷积的碱基识别使用来自k个测序周期的子集的图像数据来逐个周期地预测碱基识别。与上面讨论的基于卷积的碱基识别300相比,它还在每个卷积窗中使用更少的卷积滤波器。由于这些原因,紧凑的基于卷积的碱基识别更适合于实时碱基识别和在中央处理器上的实施方式。
基于紧凑卷积的碱基识别使用来自先前时间步长/卷积窗/测序周期的信号来预测当前时间步长/卷积窗/测序周期的碱基识别。这些信号包括:(i)在先前时间步长/卷积窗/测序周期中预测的碱基识别,以及(ii)在前一测序周期中聚合酶群体移动的概率分布。在每个时间步长/卷积窗内,基于紧凑卷积的碱基识别使用3D卷积、1D卷积和逐点卷积来预测碱基识别。
特别地,基于紧凑卷积的碱基识别包括在滑动卷积窗基础上处理每个周期的图像块序列,使得在时间步长/卷积窗/测序周期中,它使用以下作为输入:(i)图像数据,包括当前测序周期(t)的每周期图像块,一个或多个后续测序周期(t+1,t+2,...)的每周期图像块,以及一个或多个先前测序周期(t-1,t-2,...)的每周期图像块,(ii)定相和预定相数据,以及(iii)碱基上下文数据,其产生作为输出的当前时间步长/卷积窗/测序周期(t)的碱基识别和待进行碱基识别的一个或多个关联分析物的碱基识别。紧凑的基于卷积的碱基识别还包括在每个后续的时间步长/卷积窗/测序周期顺序输出碱基识别,并在每个测序周期对关联分析物进行碱基识别。
定相和预定相数据
定相和预定相数据1800代表聚合酶群体移动1700的概率分布。概率分布1700跨越关联分析物1702的序列拷贝,用于:(i)对应于当前测序周期(t)的当前序列位置1724。(ii)对应于后续测序周期(t+1,t+2,...)的前导序列位置1728,和(iii)对应于先前的测序周期(t-1,t-2,...)的后随序列位置1722。
在图17所示的示例中,大多数聚合酶群体1744观察到碱基C在DNA模板1756的互补链1766中的正常合并1714。聚合酶群体1744的第一少数在DNA模板1756的互补链1766的第一个后续测序周期(t+1,碱基A)和第二个后续测序周期(t+2,碱基G)观察到预定相1718。聚合酶群体1744的第二少数在DNA模板1756的互补链1766中观察到第一个先前测序周期(t-1,碱基G)和第二个先前测序周期(t-2,碱基T)的定相1712。
图17还示出了聚合酶群体移动1700的概率分布的示例1734。概率分布的总和为1。概率分布的其他示例是:0.0017、0.9970、0.0012(三个周期);0.0017、0.9972、0.0011(三个周期);以及3.70e-4、1.28e-4、8.04e-5、9.77e-8、1.05e-7、1.22e-4、1.57e-6、1.67e-3、9.96el,1.04e-3(十个周期)。
定相和预定相数据1800由使用一个或多个卷积内核的转置卷积3500生成。图18示出了使用卷积内核1802生成定相和预定相数据1800的一个示例。卷积内核1802具有三个权重/系数a、b、c,它们是在训练期间学习的。在图18中,由字母a、b、c表示的多项式是为了说明的目的,并且在操作中,是由转置卷积3500产生的数字。
在一个实施方式中,对于第一测序周期(周期l),聚合酶群体移动的初始概率分布1804假设所有聚合酶群体1744都在第一序列位置,即[1,0,0,0,...].这样,初始概率分布1804被预设为指定在第一测序周期,聚合酶群体移动被限制在第一序列位置。
在另一个实施方式中,对于第一测序周期(周期1),聚合酶群体移动的初始概率分布1804包括位置特异性参数(a)1806。位置特异性参数(a)1806从第一序列位置开始,并跨越一个或多个后续的序列位置。它们在训练中被学习以解释在第一个测序周期中延伸到第一个序列位置之外的聚合酶群体移动。
从聚合酶群体运动的初始概率分布1804作为起始输入开始,通过卷积内核1802的转置卷积3500与聚合酶群体运动在先前测序周期(t-1)的概率分布来确定定相和预定相数据1800。在一个实施方式中,反复地或重复地应用(1816)转置卷积3500,直到产生k个测序周期中的每一个的概率分布。
例如,周期2的概率分布1814是作为周期1的卷积内核1802和初始概率分布1804之间的转置卷积3500的结果而产生的;周期3的概率分布1824是作为周期2的卷积内核1802和概率分布1814之间的转置卷积3500的结果而产生的;周期4的概率分布1834是作为周期3的卷积内核1802和概率分布1824之间的转置卷积3500的结果而产生的;周期5的概率分布1844是作为周期4的卷积内核1802和概率分布1834之间的转置卷积3500的结果而产生的。在一个实施方式中,当卷积内核1802在初始概率分布1804上转置卷积时,使用SAME填充或零填充。
在一个实施方式中,转置卷积3500产生k×k定相和预定相矩阵1800,其中:(i)行分别表示k个测序周期,(ii)列也分别表示k个测序周期。每行代表相应测序周期中聚合酶群体的概率分布。每列指定聚合酶群体处于相应的当前测序周期或侧翼测序周期的概率。
图35示出了转置卷积3500如何用于计算输出3552的概率分布的一个示例。该示例使用一个步长,并在重叠位置对中间输出3512、3522、3532进行求和3542。通过将卷积内核1802的每个元素与输入3502的每个元素相乘来计算中间输出3512、3522、3532。在一个实施方式中,转置卷积3500由转置卷积算子2619操作,转置卷积算子2619可以是基于神经网络的碱基识别器2614的一部分。
在一些实施方式中,m个卷积内核被用于生成定相和预定相数据1800,并且m个卷积内核的权重/系数在训练期间得到学习。也就是说,m个卷积内核中的每一个都被用于通过使用周期转置卷积来生成相应的k×k定相和预定相矩阵。因此,定相和预定相数据1800包括m个定相和预定相通道2606,这些通道是根据m个卷积内核中的相应卷积内核为当前测序周期(t)确定的。
用于相应的当前测序周期的定相和预定相通道包括来自由卷积内核生成的的k×k定相和预定相矩阵的一行元素的子集(也称为“感兴趣的窗口”)。该行表示在相应的当前测序周期中聚合酶群体的概率分布。
感兴趣的窗口包括与图像数据用作输入的测序周期数一样多的元素。感兴趣的窗口以对应的当前测序周期的概率值为中心,并且包括用于左侧测序周期和右侧测序周期的左侧翼概率值和右侧翼概率值。例如,如果图像数据用于三个测序周期:当前测序周期(t)、后续/右侧翼测序周期(t+1)和先前/左侧翼测序周期(t-1),那么感兴趣的窗口包括三个元素。
在一个实施方式中,定相和预定相数据1800由定相、预定相数据生成器2630生成,数据生成器2630可以是基于神经网络的碱基识别器2614的一部分。
碱基上下文数据
碱基上下文数据1900、2000识别:(i)在一个或多个先前测序周期中识别的碱基,和(ii)在当前测序周期和后续测序周期中的碱基识别概率。在一个实施方式中,碱基上下文数据1900、2000使用碱基编码来识别被识别的碱基和碱基识别概率,该碱基编码通过为每个成像通道分配值来表示每个碱基。在一个实施方式中,碱基上下文数据1900、2000使用r输入真值表来表征碱基识别概率,其中r表示当前测序周期和后续测序周期的计数。
图19示出了三个测序周期的碱基上下文数据1900:当前测序周期(i)、前一测序周期(i-1)和未来测序周期(i+1)。为红色通道1912和绿色通道1922生成碱基上下文数据1900。在各个通道中,前一测序周期(i-1)的已知碱基识别预测分量保持固定。在前一测序周期(i-1)中的碱基识别1902是C,在红色通道1912中的碱基识别预测分量是0,在绿色通道1922中的碱基识别预测分量是1。
然后,真值表式编码用于列出当前测序周期(i)和未来测序周期(i+1)的碱基识别概率。这里,当前和未来测序周期的计数r是2,因此产生2输入真值表,以在红色通道1912和绿色通道1922的每一个中产生22=4个二进制值。
然后,红色通道1912和绿色通道1922的碱基上下文数据1900被逐行串联以产生相应的碱基上下文通道2607。
图20示出了五个测序周期的碱基上下文数据2000:当前测序周期(i)、第一先前测序周期(i-1)、第二先前测序周期(i-2)、第一未来测序周期(i+1)和第二未来测序周期(i+2)。为红色通道2012和绿色通道2022生成碱基上下文数据1900。在各自的通道中,第一先前测序周期(i-1)和第二先前测序周期(z-2)的已知碱基识别预测分量保持固定。第一先前测序周期(i-1)中的碱基识别2002是C,红色通道2012中的碱基识别预测分量为0,绿色通道2022中的碱基识别预测分量为1。第二先前测序周期(z-2)中的碱基识别2004是A,红色通道2012中有1个碱基识别预测分量,绿色通道2022中有0个碱基识别预测分量。
然后,真值表式编码用于列出当前测序周期(i)、第一未来测序周期(i+1)和第二未来测序周期(i+2)的碱基识别概率。这里,当前和未来测序周期的计数r是3,因此产生3输入真值表,以在红色通道2012和绿色通道2022的每一个中产生23=8个二进制值。
然后,红色通道2012和绿色通道2022的碱基上下文数据2000被逐行串联以产生相应的碱基上下文通道2607。
在一个实施方式中,碱基上下文数据1900、2000由碱基上下文数据生成器2631生成,碱基上下文数据生成器2631可以是基于神经网络的碱基识别器2614的一部分。
注意,与定相和预定相通道一样,碱基上下文通道也包括与图像数据用作输入的测序周期数一样多的元素,如上所述。
基于紧凑卷积的碱基识别示例1——三个周期
基于紧凑卷积的碱基识别2100使用每个时间步长/卷积窗/测序周期的三个测序周期的图像数据,以逐周期为基础预测碱基识别。来自一个先前时间步长/卷积窗/测序周期的碱基识别预测被用于创建当前时间步长/卷积窗/测序周期的碱基上下文数据1900。碱基上下文数据1900表征当前测序周期和一个未来测序周期(r=2)的碱基识别概率。聚合酶群体在先前测序周期中的概率分布被用于为当前时间步长/卷积窗/测序周期创建定相和预定相数据(具有三个元素的受关注窗口)。在一个实施方式中,数据传播器2624将来自前一个时间步长/卷积窗/测序周期的数据提供给下一个时间步长/卷积窗/测序周期。
在图21中,在测序周期1处,图像数据2142t包括用于测序周期1和测序周期2的每周期图像块,以及SAME填充或零填充。测序周期1的定相和预定相数据(h0)2122包括m个卷积内核的聚合酶群体移动的初始概率分布。先前的碱基识别(b0)2102,即碱基上下文数据,被设置为在训练期间学习的起始值或令牌(<s>)。在对图像数据2142t、碱基上下文数据1900以及定相和预定相数据进行特定的卷积运算(在图23中讨论)之后,对测序周期1进行碱基识别预测2104。
然后,如上所述,为测序周期1做出的碱基识别预测2104被用于为测序周期2准备碱基上下文数据2106。同样,如上所述,通过使用具有m个卷积内核的转置卷积2132,用于测序周期1的定相和预定相数据(h0)2122被用于准备用于测序周期2的定相和预定相数据(hl)2124。注意,如上所述,通过使用具有m个卷积内核的转置卷积2132生成k×k定相和预定相矩阵,可以预先准备每个测序周期的定相和预定相数据。在一个实施方式中,m个卷积内核中的每一个在时间步长/卷积窗/测序周期中保持固定。
对于测序周期2,图像数据2142t+1包括测序周期1、测序周期2和测序周期3的每周期图像块。图像数据2142t+1、碱基上下文数据2106以及定相和预定相数据(hl)2124用于产生测序周期2的碱基识别预测2108。
然后,如上所述,为测序周期2做出的碱基识别预测2108被用于为测序周期3准备碱基上下文数据2110。此外,如上所述,通过使用具有m个卷积内核的转置卷积2132,用于测序周期2的定相和预定相数据(h1)2124被用于准备用于测序周期3的定相和预定相数据(h2)2126。
对于测序周期3,图像数据2142t+2包括测序周期2、测序周期3和测序周期4的每周期图像块。图像数据2142t+2、碱基上下文数据2110以及定相和预定相数据(h2)2126用于产生测序周期3的碱基识别预测2112。
然后,如上所述,为测序周期3做出的碱基识别预测2112被用于为测序周期4准备碱基上下文数据2114。此外,如上所述,通过使用具有m个卷积内核的转置卷积2132,用于测序周期3的定相和预定相数据(h2)2126被用于准备用于测序周期4的定相和预定相数据(h3)2128。
对于测序周期4,图像数据2142t+3包括测序周期3、测序周期4和测序周期5的每周期图像块。图像数据2142t+3、碱基上下文数据2114以及定相和预定相数据(h3)2128用于产生测序周期4的碱基识别预测。
基于紧凑卷积的碱基识别2100在每个后续卷积窗处顺序输出碱基识别,并且在每个测序周期中碱基识别关联分析物。
全局通道
在一些实施方式中,在每个时间步长/卷积窗/测序周期中,分别馈送每周期分块范围的全局通道2152t、2152t+1、2152t+2和2152t+3。每周期分块范围的全局通道2601由全局通道计算器2626确定。使用布置在流动槽分块上的多个关联分析物的图像数据中的图像数据特征的奇异值分解来确定每周期分块范围的全局通道2601。在其他实施方式中,可以使用其他主成分分析(PCA)技术,例如协方差矩阵确定。
每周期分块范围的全局通道包括在相应的测序周期从布置在分块上的关联分析物获得的图像数据中的图像数据特征的一组主要成分。图像数据特征包括本底、空间串扰、定相和预定相效应、发射重叠、信号强度和强度衰减中的至少一个。在一些实施方式中,每周期分块范围的全局通道2601作为补充输入被馈送到相应测序周期的卷积窗。在一个实施方式中,用于生成每个周期的分块范围的全局通道的图像数据是从各种流动槽、测序仪器、测序运行、测序方案、测序化学、测序试剂和分析物密度中获得的。在一个实施方式中,图像数据从由测序仪2628产生的分块和流动槽数据2609中获得。
基于紧凑卷积的碱基识别示例2——五个周期
紧凑的基于卷积的碱基识别2200使用每个时间步长/卷积窗/测序周期的五个测序周期的图像数据,以逐周期地预测碱基识别。来自两个先前时间步长/卷积窗/测序周期的碱基识别预测被用于为当前时间步长/卷积窗/测序周期创建碱基上下文数据2000。碱基上下文数据2000表征当前测序周期和两个未来测序周期(r=3)的碱基识别概率。聚合酶群体在先前测序周期中的概率分布被用于为当前时间步长/卷积窗/测序周期创建定相和预定相数据(具有五个元素的感兴趣窗口)。
在图22中,在测序周期3处,图像数据2234包括测序周期1、2、3、4和5的每周期图像块。如上所述,通过使用具有m个卷积内核的转置卷积2224,将测序周期2的定相和预定相数据(未示出)用于准备测序周期3的定相和预定相数据2212。在一个实施方式中,m个卷积内核中的每一个在时间步长/卷积窗/测序周期中保持固定。
通过使用在测序周期1进行的碱基识别、在测序周期2进行的碱基识别2202、在测序周期3进行的碱基识别概率、在测序周期4进行的碱基识别概率和在测序周期5进行的碱基识别概率来构建测序周期3的碱基上下文数据2000。在对图像数据2234、碱基上下文数据2000以及定相和预定相数据2212进行某些卷积运算(在图23中讨论)之后,对测序周期3进行碱基识别预测2204。
对于测序周期4,图像数据2238包括用于测序周期2、3、4、5和6的每周期图像块。如上所述,通过使用具有m个卷积内核的转置卷积2224,用于测序周期3的定相和预定相数据2212被用于为测序周期4准备定相和预定相数据2216。通过使用在测序周期2进行的碱基识别2202、在测序周期3进行的碱基识别2204、在测序周期4进行的碱基识别概率、在测序周期5进行的碱基识别概率和在测序周期6进行的碱基识别概率来构建测序周期4的碱基上下文数据2206(具有红色碱基上下文通道22064和绿色碱基上下文通道2206g)。
在对图像数据2238、碱基上下文数据2206以及定相和预定相数据2216进行某些卷积运算(在图23中讨论)之后,对测序周期4进行碱基识别预测2208。此外,补充的每周期补充全局通道2232、2236也作为输入被馈送到相应的时间步长/卷积窗/测序周期。
基于紧凑卷积的碱基识别2200在每个后续卷积窗顺序输出碱基识别,并在每个测序周期对关联分析物进行碱基识别。
时间步长/卷积窗中的卷积
图23示出了卷积的一个实施方式,该卷积用于在时间步长/卷积窗/测序周期中混合图像数据2302、定相和预定相数据2316以及基于紧凑卷积的碱基识别2100、2200的碱基上下文数据2326。如上所述,对图像数据2302应用3D卷积2304以产生图像通道2306。如上所述,转置卷积2314用于生成具有定相和预定相通道的定相和预定相数据2316。先前的碱基识别2324用于生成具有碱基上下文通道的碱基上下文数据2326。
然后,使用1D卷积330和逐级卷积310的级联,将图像通道2306、定相和预定相数据2316和碱基上下文数据2326混合,以产生最终输出特征2328、2330。最终输出特征2328、2330被馈送到完全连接的网络2348。完全连接的网络2348产生未归一化的每个成像通道值,这些值会被非线性激活函数应用器504转换为归一化的每个成像通道值2358。然后,通过二进制分配器1126将归一化的每个成像通道值2358转换为每个成像通道二进制值2368。碱基分配器1128使用每个成像通道的二进制值2368来为当前测序周期产生碱基识别2378。
拉-推/推-拉卷积
图24示出了拉-推卷积和推-拉卷积的一个实施方式,其中,基于紧凑卷积的碱基识别2100、2200使用了一维卷积(拉)2404、2408、2412、2416和转置卷积(拉)2406、2410、2414、2418的组合2400。组合2400在图像数据2402上交替应用的1D卷积和转置卷积。
在一个实施方式中,在每个时间步长/卷积窗/测序周期中使用不同的3D卷积滤波器组。每个组包括一到十个3D卷积滤波器。
CPU推理
图25示出了一个通过仅使用来自测序周期的子集的图像数据在中央处理单元(CPU)上进行推理2506期间执行基于紧凑卷积的碱基识别的实施方式。特别地,使用当前测序周期的每周期图像块、一个或多个后续测序周期的每周期图像块以及一个或多个先前测序周期的每周期图像块来执行推理2506。在训练2502期间,基于训练数据2505训练基于神经网络的碱基识别器2614,训练数据2505又包括测序数据2515。未经训练的模型2614可以在中央处理器、图形处理器、现场可编程门阵列、专用集成电路和/或粗粒度可重构架构(CGRA)上训练以产生训练的模型2614。
在推理2506期间,经训练的模型2614在CPU上运行,并对包含测序数据2518的传入数据2508执行实时碱基识别2528,并产生碱基识别2548。推理2506由测试器2629操作。
系统模块和数据存储
图26是方框图2600,示出了根据一个实施方式的用于基于卷积的碱基识别和基于紧凑卷积的碱基识别的各种系统模块和数据存储。
本申请中的模块可以用硬件或软件来实现,并且不需要被分成如图所示的完全相同的块。有些也可以在不同的处理器或计算机上实现,或者分布在多个不同的处理器或计算机上。此外,应当理解,一些模块可以被组合、并行操作或者以不同于图中所示的顺序操作,而不影响所实现的功能。同样,本文所使用的术语“模块”可以包括“子模块”,它们本身在本文中可以被认为是模块的组成部分。图中被指定为模块的块也可以被认为是方法中的流程图步骤。
测序数据2515、2518由测序仪器或测序仪2628产生(例如,Illumina的Firefly、iSeq、HiSeqX、HiSeq3000、HiSeq4000、HiSeq2500、NovaSeq 6000、NextSeq、NextSeqDx、MiSeq和MiSeqDx)。下面的一个实施方式讨论了测序数据2515、2518是如何生成的以及它描述了什么。
碱基识别是将测序仪2628的原始信号(即从图像中提取的强度数据)解码成DNA序列和质量评分的过程。在一个实施方式中,Illumina平台采用周期可逆终止(CRT)化学方法进行碱基识别。该过程依赖于生长新生的DNA链,这些链与带有修饰核苷酸的模板DNA链互补,同时跟踪每个新添加的核苷酸发出的信号。修饰的核苷酸具有锚定核苷酸类型的荧光团信号的3‘可去除的嵌段。
测序以重复周期进行,每个周期包括三个步骤:(a)通过添加修饰的核苷酸来延伸新生链;(b)使用光学系统的一个或多个激光器激发荧光团,并通过光学系统的不同滤光器成像,产生测序图像;和(c)切割荧光团并去除3‘嵌段,为下一个测序周期做准备。重复合并和成像周期直至指定数量的测序周期,从而定义所有簇的读长长度。使用这种方法,每个周期沿着模板链询问一个新的位置。
Illumina平台的强大力量源于其能够同时执行和感测数百万甚至数十亿正在经历阴极射线管(CRT)反应的簇。测序过程在流动槽中进行——流动槽是一个小载玻片,在测序过程中容纳输入的DNA片段。流动槽连接到高通量光学系统,该系统包括显微成像、激发激光器和荧光滤光器。流动槽包括多个称为泳道的腔室。泳道在物理上是相互分离的,可能包含不同的标记测序文库,可区分而无样本交叉污染。成像设备(例如,固态成像器,如电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS)传感器)在一系列称为分块的非重叠区域中沿着泳道的多个位置拍摄快照。
例如,Illumina Genome Analyzer II中每条泳道有100个分块,IlluminaHiSeq2000中每条泳道有68个分块。一块瓷砖可以容纳几十万到几百万个簇。一个簇包含大约一千个相同的模板分子拷贝,尽管簇的大小和形状各不相同。在测序之前,通过输入文库的桥扩增,从模板分子中生长出簇。扩增和团簇生长的目的是增加发出的信号强度,因为成像设备不能可靠地感测单个荧光团。然而,一个簇中的DNA片段的物理距离很小,因此成像设备将片段的簇感知为单个点。
测序运行的输出是测序图像,每幅图像示出了泳道、分块、测序周期和荧光团的特定组合的像素域中分块上的簇的强度发射。
计算机系统
图36是计算机系统3600,该系统可用于实现本文公开的基于卷积的碱基识别和基于紧凑卷积的碱基识别。计算机系统3600包括至少一个中央处理单元(CPU)3672,其经由总线子系统3655与多个外围设备进行通信。这些外围设备可以包括存储子系统3610,存储子系统3610包括例如存储器设备和文件存储子系统3636、用户接口输入设备3638、用户接口输出设备3676和网络接口子系统3674。输入和输出设备允许用户与计算机系统3600进行交互。网络接口子系统3674提供到外部网络的接口,包括到其他计算机系统中相应接口设备的接口。
在一个实施方式中,基于神经网络的碱基识别器2614可通信地链接到存储子系统3610和用户界面输入设备3638。
用户界面输入设备3638可以包括键盘;鼠标、轨迹球、触摸板或图形输入板等点击设备;扫描仪;并入显示器的触摸屏;语音识别系统和麦克风等音频输入设备;以及其他类型的输入设备。通常,术语“输入设备”的使用旨在包括将信息输入计算机系统3600的所有可能类型的设备和方式。
用户界面输出设备3676可以包括显示子系统、打印机、传真机或诸如音频输出设备的非视觉显示器。显示子系统可以包括发光二极管显示器、阴极射线管(CRT)、诸如液晶显示器(LCD)的平板设备、投影设备或用于创建可视图像的一些其他机构。显示子系统还可以提供非视觉显示,例如音频输出设备。通常,术语“输出设备”的使用旨在包括从计算机系统3600向用户或另一机器或计算机系统输出信息的所有可能类型的设备和方式。
存储子系统3610存储提供这里描述的一些或所有模块和方法的功能的编程和数据结构。这些软件模块通常由深度学习处理器3678执行。
深度学习处理器3678可以是图形处理单元(GPU)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)和/或粗粒度可重构架构(CGRA)。深度学习处理器3678可以由深度学习云平台托管,例如Google Cloud PlatformTM,XilinxTM和CirrascaleTM。深度学习处理器3678的示例包括Google的Tensor Processing Unit(TPU)TM、机架式解决方案,例如GX4Rackmount SeriesTM、GX36 Rackmount SeriesTM、NVIDIA DGX-1TM、Microsoft的Stratix VFPGATM、Graphcore的智能处理器单元(IPU)TM、具有Snapdragon处理器TM的高通公司的Zeroth PlatformTM、NVIDIA的VoltaTM、NVIDIA的DRIVE PXTM、NVIDIA的JETSON TX1/TX2MODULETM、英特尔的NirvanaTM、Movidius VPUTM、富士通DPITM、ARM的DynamicIQTM、IBMTrueNorthTM等。
在存储子系统3610中使用的存储器子系统3622可以包括多个存储器,包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)3632以及存储固定指令的只读存储器(ROM)3636。文件存储子系统3636可以提供用于程序和数据文件的持久存储,并且可以包括硬盘驱动器、软盘驱动器以及相关联的可移动介质、CD-ROM驱动器、光盘驱动器或可移动介质盒。可以通过文件存储子系统3636将实现某些实施方式的功能的模块存储在存储子系统3610中或处理器可访问的其他机器中。
总线子系统3655提供了一种用于让计算机系统3600的各种组件和子系统按照预期相互通信的机制。尽管总线子系统3655被示意性地示出为单个总线,但是总线子系统的替代实施方式可以使用多个总线。
计算机系统3600本身可以是各种类型,包括个人计算机、便携式计算机、工作站、计算机终端、网络计算机、电视、大型机、服务器群、广泛分布的一组松散联网的计算机、或任何其他数据处理系统或用户设备。由于计算机和网络的不断变化的性质,图36中描述的计算机系统3600的描述仅仅是为了举例说明本发明的优选实施方式的目的的特定示例。计算机系统3600的许多其他配置可能具有比图36所示的计算机系统更多或更少的组件。
具体实现
以下描述基于卷积的碱基识别的各种实施方式。实施方式的一个或多个特征可以与基本实施方式相组合。不互斥的实施方式是可组合的。一个实施方式的一个或多个特征可以与其他实施方式相组合。本公开定期提醒用户这些选项。省略重复这些选项的叙述的一些实施方式时,不应该被认为是对前面部分中教导的组合的限制——因此,这些叙述通过引用被结合到下面的每个实施方式中。
基于卷积的碱基识别
在一个实施方式中,公开了一种基于神经网络的对分析物进行碱基识别的方法。该方法包括访问为测序运行的一系列测序周期生成的每周期图像块序列。每周期图像块中的像素包含关联分析物的强度数据。通过相应的光传感器获得一个或多个成像通道的强度数据,所述光传感器配置成检测关联分析物的发射。
该方法包括在滑动卷积窗的基础上在每周期图像块序列上应用三维(3D)卷积。在卷积窗中,3D卷积滤波器对以下内容进行卷积:(i)沿着时间维度的多个每周期图像块,并检测和解释由关联分析物的序列拷贝的异步读出引起的测序周期的后续测序周期之间的定相和预定相效应,(ii)沿着空间维度在每个每周期图像块中的多个像素,并检测和解释由关联分析物的相应光传感器对来自非关联分析物的发射的检测引起的相邻分析物之间的空间串扰,和(iii)沿着深度维度的每个成像通道,并检测和解释由染料发射光谱的重叠引起的成像通道之间的发射重叠,并由于在滑动卷积窗基础上对每周期图像块序列进行卷积而产生至少一个输出特征。
该方法包括补充作为多个3D卷积滤波器的结果而产生的输出特征,所述多个3D卷积滤波器将每周期图像块序列与一个或多个像素的成像通道特定的和交叉周期强度数据特征进行卷积,所述像素包含一个或多个待进行碱基识别的关联分析物的强度数据。
该方法包括以补充有强度数据特征的输出特征作为起始输入开始,应用一维(1D)卷积的级联并产生另外的输出特征,该级联使用具有不同感受野的1D卷积并检测由定相和预定相效应引起的不同程度的异步读出。
该方法包括在另外的输出特征上应用逐点卷积,并产生最终的输出特征。
该方法包括通过输出层处理最终输出特征,并在每个测序周期产生关联分析物的碱基识别。
在本部分和所公开技术的其他部分中描述的方法可以包括一个或多个以下特征和/或结合所公开的附加方法描述的特征。为了简明起见,在本申请中公开的特征的组合没有单独列举,并且对于特征的每个碱基组都不再重复。读者将理解在这些实施方式中表征的特征如何能够容易地与在其他实施方式中表征的碱基特征组相组合。
对于待进行碱基识别的关联分析物,该方法包括为每个成像通道产生最终输出特征,归一化成像通道的最终输出特征中的未归一化的每周期值,基于阈值将归一化的每周期值转换成每周期二进制值,以及基于最终输出特征中相应位置处的每周期二进制值在每个测序周期对关联分析物进行碱基识别。
在一个实施方式中,输出层包括sigmoid函数,该函数将最终输出特征中的未归一化的每周期值压缩到0和1之间。在这样的实施方式中,该方法包括将低于阈值的那些压缩后的每周期值指定为0值,并将高于阈值的那些压缩后的每周期值指定为1值。
在一个实施方式中,输出层包括softmax函数,该函数产生在测序周期中结合在待进行碱基识别为A、C、T和G的关联分析物中的碱基的指数归一化概率分布。在这样的实施方式中,该方法包括基于该分布将碱基分类为A、C、T或G。
在一个实施方式中,该方法包括3D卷积在每个成像通道上分别应用各自的卷积内核,并为每个成像通道产生至少一个中间输出特征,3D卷积进一步组合成像通道的中间输出特征并产生输出特征,其中输出特征表示在成像通道之间混合的信息,并以补充有强度数据特征的输出特征作为起始输入开始,应用1D卷积的级联。
在一个实施方式中,该方法包括3D卷积在每个成像通道上分别应用各自的卷积内核,并为每个成像通道产生至少一个中间输出特征,3D卷积进一步组合成像通道的中间输出特征并产生输出特征,其中输出特征表示在成像通道之间混合的信息,并以补充有强度数据特征的输出特征作为起始输入开始,应用一维卷积的多个级联,使得多个级联中的每个级联对应于一个成像通道,并且独立于另一个级联对输入进行操作。
在一个实施方式中,该方法包括3D卷积在每个成像通道上分别应用各自的卷积内核,并为每个成像通道产生至少一个中间输出特征,3D卷积不组合成像通道的中间输出特征,而是使它们可用作成像通道特定的输出特征,用来自一个或多个像素的对应成像通道的交叉周期强度数据特征来补充成像通道特定输出特征,所述像素包含待进行碱基识别的一个或多个关联分析物的强度数据,并且以补充有强度数据特征的成像通道特定输出特征作为起始输入,应用1D卷积的级联。
在一个实施方式中,该方法包括3D卷积在每个成像通道上分别应用各自的卷积内核,并为每个成像通道产生至少一个中间输出特征,3D卷积不组合成像通道的中间输出特征,而是使它们可用作成像通道特定的输出特征,用来自一个或多个像素的对应成像通道的交叉周期强度数据特征来补充成像通道特定输出特征,所述像素包含待进行碱基识别的一个或多个关联分析物的强度数据,并且以补充有强度数据特征的成像通道特定输出特征作为起始输入,应用1D卷积的多个级联,使得多个级联中的每个级联对应于一个成像通道,并且独立于另一个级联对输入进行操作。
在一个实施方式中,该方法包括在滑动窗基础上在每个输出特征和强度数据特征的各个每周期元素之间混合信息并为每个输出特征和强度数据特征产生至少一个中间输出特征的1D卷积,以及在每周期元素基础上在输出特征的中间输出特征上累积信息并产生另外的输出特征的一维卷积。在一些实施方式中,滑动窗的大小基于1D卷积的感受野,并且在级联中变化。
在一个实施方式中,该方法包括应用1D卷积和转置卷积的组合,而不是1D卷积的级联,其中,该组合在1D卷积和转置卷积的应用之间交替。
在一个实施方式中,该方法包括逐点卷积(分别在每周期元素的基础上卷积另外的输出特征),并为每个另外的输出特征产生至少一个中间输出特征,逐点卷积在每周期元素的基础上累积另外的输出特征的中间输出特征的信息,并产生至少一个最终输出特征。
在一个实施方式中,该方法包括使用成像通道的最终输出特征中的归一化每周期值,以基于质量评分映射将质量评分分配给由输出层发出的碱基识别预测。质量评分映射是通过计算对训练数据进行的碱基识别预测的预测误差率并确定相应的预测质量评分,确定预测质量评分和从测试数据得出的经验碱基识别误差率确定的经验质量评分之间的拟合,并基于该拟合将预测质量评分与经验质量评分相关联来确定的。
在一个实施方式中,该方法包括在训练期间使用基于反向传播的梯度更新技术来学习由3D卷积、1D卷积和逐点卷积应用的卷积滤波器的内核权重,该梯度更新技术逐渐将输出层发出的碱基识别预测与真值2608相匹配。在一个实施方式中,训练由训练器2611操作。
在一个实施方式中,真值包括每个成像通道的每周期二进制值。在这样的实施方式中,该方法包括基于反向传播的梯度更新技术,该技术计算真值2608中的每周期二进制值和成像通道的最终输出特征中的相应每周期二进制值之间的误差。
在一个实施方式中,真值包括表征正确碱基的独热编码。在这样的实施方式中,该方法包括基于反向传播的梯度更新技术,该技术计算真值2608中的独热编码和由sofimax函数产生的指数归一化概率分布之间的误差。
在一个实施方式中,该方法包括改变学习的学习速率,这由训练速率变化器2612操作。在一个实施方式中,该方法包括从其上布置有分析物的流动槽的分块的相应每周期图像中提取每周期图像块。在一个实施方式中,训练数据2505(其包括测序数据2515、2518)由数据归一化器2602使用z分数来归一化。
在一个实施方式中,该方法包括通过从分块的重叠区域提取每周期图像块,使得所提取的每周期图像块具有重叠的像素,来对布置在整个分块中的分析物进行碱基识别。在一个实施方式中,1D卷积使用双线性形式的乘积来混合信息。
在一个实施方式中,该方法包括在输出特征上应用非线性激活函数,并产生被激活的输出特征以通过1D卷积进行处理。在一个实施方式中,该方法包括在另外的输出特征上应用非线性激活函数,并产生激活的另外的输出特征以通过逐点卷积进行处理。在一个实施方式中,该方法包括使用批量归一化以及一维卷积。在一个实施方式中,该方法包括使用批量归一化以及逐点卷积。在一个实施方式中,该方法包括在级联中的每个1D卷积中使用多个1D卷积滤波器。
在一个实施方式中,该方法包括在逐点卷积中使用多个逐点卷积滤波器,使得多个逐点卷积滤波器中的每个逐点卷积滤波器对应于一个成像通道,并且独立于另一个逐点卷积滤波器对另外的输出特征进行操作。在一个实施方式中,三维卷积、一维卷积和逐点卷积使用SAME填充。在一个实施方式中,该方法包括三维卷积滤波器对每周期图像块序列进行卷积,以检测和解释由于衰落引起的信号衰减。
本节中描述的方法的其他实施方式可以包括存储可由处理器执行以执行上述任何方法的指令的非暂时性计算机可读存储介质。在本节中描述的方法的又一实施方式可以包括一种系统,该系统包括存储器和一个或多个处理器,该处理器可操作来执行存储在存储器中的指令以执行上述任何方法。
在另一个实施方式中,公开了一种基于神经网络的对分析物进行碱基识别的方法。该方法包括访问为测序运行的一系列测序周期生成的每周期图像块序列。每周期图像块中的每个像素与一种分析物相关联。每周期图像块以包含目标关联分析物的强度数据的中心像素为中心。每周期图像块中的非中心像素包含与目标关联分析物相邻的关联分析物的强度数据。获得一个或多个成像通道的强度数据。
该方法包括在滑动卷积窗的基础上在每周期图像块序列上应用三维(3D)卷积。在卷积窗中,3D卷积滤波器对以下内容进行卷积:(i)沿着时间维度的多个每周期图像块,并检测和解释由于关联分析物的序列拷贝的异步读出而导致的来自一个或多个后续测序周期和一个或多个先前测序周期的当前测序周期中的定相和预定相效应,(ii)沿着空间维度的中心像素和非中心像素,并检测和解释由于目标关联分析物的相应光传感器检测到来自相邻关联分析物的发射而导致的来自中心像素中的非中心像素的空间串扰,以及(iii)沿着深度维度的每个成像通道,并检测和解释由于染料发射光谱的重叠而导致的成像通道之间的发射重叠,并且因在滑动卷积窗的基础上对每个周期图像块序列进行卷积而产生至少一个输出特征。
该方法包括补充作为多个3D卷积滤波器的结果而产生的输出特征,所述多个3D卷积滤波器用中心像素的特定于成像通道的特征和交叉周期强度数据特征对每周期图像块序列进行卷积。
该方法包括以补充有强度数据特征的输出特征作为起始输入,应用1D卷积的级联并产生另外的输出特征,该级联使用具有不同感受野的1D卷积并检测由定相和预定相效应引起的不同程度的异步读出。
该方法包括在另外的输出特征上应用逐点卷积,并产生最终的输出特征。
该方法包括通过输出层处理最终输出特征并产生输出。
该方法包括基于输出在每个测序周期中对目标关联分析物进行碱基识别。
在另一个实施方式中,公开了一种基于基于神经网络的对分析物进行碱基识别的方法。该方法包括访问为测序运行的一系列测序周期生成的每周期图像块序列。每周期图像块中的像素包含一个或多个成像通道中关联分析物的强度数据。
该方法包括在滑动卷积窗基础上对每周期图像块序列应用三维(3D)卷积,使得在卷积窗中,三维卷积滤波器对多个每周期图像块进行卷积,并且产生至少一个输出特征,以作为在滑动卷积窗基础上对每周期图像块序列进行卷积的结果。
该方法包括以三维卷积产生的输出特征作为起始输入,应用另外的的卷积并产生最终输出特征。
该方法包括通过输出层处理最终输出特征,并在每个测序周期中产生一个或多个待进行碱基识别的关联分析物的碱基识别。
本节中描述的方法的其他实施方式可以包括存储可由处理器执行以执行上述任何方法的指令的非暂时性计算机可读存储介质。在本节中描述的方法的又一实施方式可以包括一种系统,该系统包括存储器和一个或多个处理器,该处理器可操作来执行存储在存储器中的指令以执行上述任何方法。
基于紧凑卷积的碱基识别
在一个实施方式中,公开了一种基于神经网络的对分析物进行碱基识别的方法。该方法包括访问为测序运行的一系列测序周期生成的每周期图像块序列。每周期图像块中的像素包含关联分析物的强度数据。通过相应的光传感器获得一个或多个成像通道的强度数据,所述光传感器配置成检测关联分析物的发射。
该方法包括在滑动卷积窗的基础上处理每周期图像块序列,使得在卷积窗中,使用包括当前测序周期的每周期图像块、一个或多个后续测序周期的每周期图像块以及一个或多个先前测序周期的每周期图像块作为输入图像数据,且定相和预定相数据,所述数据表示聚合酶群体在对应于当前测序周期的当前序列位置、对应于后续测序周期的前导序列位置和对应于前面测序周期的后随序列位置的关联分析物的序列拷贝间移动的概率分布,以及用于表征在一个或多个先前测序周期中被识别的碱基和在当前测序周期和后随测序周期中碱基识别概率的碱基上下文数据,并产生当前测序周期和一个或多个待进行碱基识别的关联分析物的碱基识别作为输出。
该方法包括在每个后续的卷积窗顺序输出碱基识别,并在每个测序周期中对关联分析物进行碱基识别。
在本部分和所公开技术的其他部分中描述的方法可以包括一个或多个以下特征和/或结合所公开的附加方法描述的特征。为了简明起见,在本申请中公开的特征的组合没有单独列举,并且对于特征的每个碱基组都不再重复。读者将理解在这些实施方式中识别的特征如何能够容易地与在其他实施方式中表征的碱基特征组相组合。
在一个实施方式中,定相和预定相数据包括从多个卷积内核中的相应卷积滤波器为当前测序周期确定的定相和预定相通道。在一个实施方式中,通过以第一测序周期的聚合酶群体移动的初始概率分布作为起始输入开始,并且作为相应卷积内核与先前测序周期的聚合酶群体移动的概率分布的转置卷积的结果,确定后续测序周期的聚合酶群体移动的后续概率分布,从相应卷积滤波器为当前测序周期确定定相和预定相通道,从当前测序周期聚合酶群体移动的概率分布中选择出现在当前序列位置、前导序列位置和后随序列位置的那些值,并将所选值包括在定相和预定相通道中。
在一个实施方式中,预设初始概率分布以指定在第一测序周期中,聚合酶群体移动被限制在第一序列位置。在一个实施方式中,初始概率分布包括位置特异性参数,该参数从第一序列位置开始,跨越一个或多个后续的序列位置,并且在训练期间被学习以解释在第一测序周期延伸超过第一序列位置的聚合酶群体移动。
在一个实施方式中,碱基上下文数据使用碱基编码来表征被识别的碱基和碱基识别概率,该碱基编码通过为每个成像通道分配值来表示每个碱基。在一个实施方式中,碱基上下文数据使用r输入真值表来表征碱基识别概率,其中r表示卷积窗中当前测序周期和后续测序周期的计数。
在一个实施方式中,该方法包括在卷积窗中,通过多个三维(3D)卷积滤波器处理图像数据,并产生多个成像通道作为输出,以图像通道、定相和预定相数据以及碱基上下文数据作为起始输入开始,应用一维(ID)卷积的级联并产生另外的输出特征,以及对另外的输出特征应用逐点卷积并产生最终输出特征,以及通过输出层处理最终输出特征,并产生当前测序周期和关联分析物的碱基识别。
在一个实施方式中,该方法包括在每个卷积窗中使用不同的多个三维卷积滤波器。在一个实施方式中,该方法包括使用双线性形式的乘积来混合图像通道、定相和预定相数据以及碱基上下文数据。
在一个实施方式中,三维卷积滤波器沿时间维度卷积多个每周期图像块,并检测和解释由关联分析物的序列拷贝的异步读出引起的后续测序周期之间的定相和预定相效应,每个每周期图像块中的多个像素沿空间维度检测并解释相邻分析物之间的空间串扰,该串扰是由关联分析物的相应光传感器检测来自非关联分析物的发射引起的,并且每个成像通道沿深度维度检测并解释由染料发射光谱重叠引起的成像通道之间的发射重叠,并且产生至少一个图像通道,作为对每个周期图像块中的序列进行卷积的结果。
在一个实施方式中,一维卷积使用不同的感受野,并检测异步读出的不同度数。在一个实施方式中,该方法包括用包含关联分析物的强度数据的一个或多个像素的成像通道特定和当前周期特定强度数据特征来补充图像通道。
在一个实施方式中,该方法包括应用一维卷积和转置卷积的组合,而不是一维卷积的级联。该组合在应用一维卷积和转置卷积之间交替进行。在一个实施方式中,该方法包括:对于要被进行碱基识别的关联分析物,为每个成像通道产生最终输出特征,并且在输出层中,通过完全连接的网络处理最终输出特征,并且产生未归一化的每个成像通道值,将未归一化的每个成像通道值归一化,基于阈值将归一化的每个成像通道值转换为每个成像通道二进制值,并且基于每个成像通道二进制值产生当前测序周期和关联分析物的碱基识别。
在一个实施方式中,输出层包括sigmoid函数,该函数将最终输出特征中的未归一化的每个成像通道值压缩到0和1之间。在该实施方式中,该方法包括将低于阈值的那些压缩后的每个成像的通道值指定为0值,并将高于阈值的那些压缩后的每个成像的通道值指定为1值。
在一个实施方式中,输出层包括softmax函数,该函数产生碱基识别为A、C、T和G的指数归一化概率分布。在该实施方式中,该方法包括基于该分布将碱基识别分类为A、C、T或G。
在一个实施方式中,该方法包括使用布置在流动槽的分块上的多个关联分析物的图像数据中的图像数据特征的奇异值分解来确定每周期分块范围的全局通道。每周期分块范围的全局通道包括图像数据中的图像数据特征的一组主要成分,所述图像数据是在相应的测序周期从布置在分块上的关联分析物获得的。
在一个实施方式中,图像数据特征包括背景、空间串扰、定相和预定相效应、发射重叠、信号强度和强度衰减中的至少一个。在一个实施方式中,该方法包括将每周期分块范围的全局通道作为补充输入馈送到相应测序周期的卷积窗。在一个实施方式中,用于生成每周期分块范围的全局通道的图像数据从各种流动槽、测序仪器、测序运行、测序方案、测序化学、测序试剂和分析物密度获得。在一个实施方式中,该方法包括通过仅使用用于当前测序周期的每周期图像块、用于一个或多个后续测序周期的每周期图像块、以及用于一个或多个先前测序周期的每周期图像块,在中央处理单元(CPU)上的推理期间执行碱基识别,并生成用于当前测序周期的碱基识别。
本节中描述的方法的其他实施方式可以包括存储可由处理器执行以执行上述任何方法的指令的非暂时性计算机可读存储介质。在本节中描述的方法的又一实施方式可以包括一种系统,该系统包括存储器和一个或多个处理器,该处理器可操作来执行存储在存储器中的指令以执行上述任何方法。
术语
如本文所用,术语“分析物”旨在表示图案中的点或区域,其可以根据相对位置与其他点或区域区分开来。单个分析物可以包括一个或多个特定类型的分子。例如,分析物可以包括具有特定序列的单个靶核酸分子,或者分析物可以包括具有相同序列(和/或其互补序列)的几个核酸分子。位于图案的不同分析物处的不同分子可以根据分析物在图案中的位置而彼此区分。示例性分析物包括但不限于底物中的凹井、底物中或底物上的珠(或其他颗粒)、底物的突起、底物上的脊、底物上的凝胶材料垫或底物中的通道。
待检测、特征化或表征的多种目标分析物中的任何一种都可用于本文所述的装置、系统或方法。示例性分析物包括但不限于核酸(例如DNA、RNA或其类似物)、蛋白质、多糖、细胞、抗体、表位、受体、配体、酶(例如激酶、磷酸酶或聚合酶)、小分子候选药物、细胞、病毒、生物体等。
术语“分析物”、“核酸”、“核酸分子”和“多核苷酸”在本文中可互换使用。在各种实施方式中,核酸可用作本文提供的模板(例如,核酸模板,或与核酸模板互补的核酸补体),用于特定类型的核酸分析,包括但不限于核酸扩增、核酸表达分析和/或核酸序列测定或其合适的组合。在某些实施方式中,核酸包括例如3’-5’磷酸二酯或其他键中的脱氧核糖核苷酸的线性聚合物,例如脱氧核糖核酸(例如单链和双链DNA、基因组DNA、拷贝DNA或互补DNA、重组DNA或任何形式的合成或修饰的DNA)。在其他实施方式中,核酸包括例如3’-5’磷酸二酯或其他键中的核糖核苷酸的线性聚合物,例如核糖核酸(RNA)(例如单链和双链RNA、信使(RNA)、拷贝RNA或互补RNA(cRNA)、选择性剪接的RNA、核糖体RNA、小核仁RNA(snoRNA)、微小RNA(miRNA)、小干扰RNA(sRNA)、小干扰RNA(PIWI RNA)、或任何形式的合成或修饰的RNA)。本发明的组合物和方法中使用的核酸的长度可以不同,并且可以是完整的或全长的分子或片段或较大核酸分子的较小部分。在特定实施方式中,核酸可具有一个或多个可检测的标记,如本文其他地方所述。
术语“分析物”、“簇”、“核酸簇”、“核酸集落”和“DNA簇”可互换使用,指附着在固体支持物上的核酸模板和/或其补体的多个拷贝。通常,在某些优选的实施方式中,核酸簇包含多个拷贝的模板核酸和/或其补体,通过它们的5’末端附着到固体支持物上。构成核酸簇的核酸链的拷贝可以是单链或双链形式。簇中存在的核酸模板的拷贝可以在相应的位置具有彼此不同的核苷酸(例如,由于标记部分的存在)。相应的位置也可以包含具有不同化学结构但具有相似的沃森-克里克碱基配对性质的类似结构,例如尿嘧啶和胸腺嘧啶的情况。
核酸集落也可称为“核酸簇”。核酸集落可以任选地通过簇扩增或桥扩增技术产生,本文其他地方进一步详细阐述。目标序列的多个重复可以存在于单个核酸分子中,例如使用滚环扩增程序产生的多联体。
根据使用的条件,本发明的核酸簇可以具有不同的形状、大小和密度。例如,簇可以具有基本上为圆形、多边形、甜甜圈形或环形的形状。核酸簇的直径可以设计为约0.2pm至约6pm、约0.3pm至约4pm、约0.4pm至约3pm、约0.5pm至约2pm、约0.75pm至约1.5pm,或任何中间直径。在特定实施方式中,核酸簇的直径为约0.5pm、约1pm、约1.5pm、约2pm、约2.5pm、约3pm、约4pm、约5pm或约6pm。核酸簇的直径可能受许多参数的影响,包括但不限于在产生簇时进行的扩增周期的次数、核酸模板的长度或附着于其上形成簇的表面的引物的密度。核酸簇的密度通常可以设计在0.1/mm2、1/mm2、10/mm2、100/mm2、1,000/mm2、10,000/mm2至100,000/mm2的范围内。本发明还部分考虑了更高密度的核酸簇,例如,100,000/mm2至1,000,000/mm2和1,000,000/mm2至10,000,000/mm2
本文所用的“分析物”是样本或视野内的受关注区域。当与微阵列装置或其他分子分析装置结合使用时,分析物是指由相似或相同的分子占据的区域。例如,分析物可以是扩增的寡核苷酸或具有相同或相似序列的多核苷酸或多肽的任何其他基团。在其他实施方式中,分析物可以是占据样本上的物理区域的任何元素或元基团。例如,分析物可以是一块土壤、一块水体等。当分析物成像时,每种分析物都有一定的面积。因此,在许多实施方式中,分析物不仅仅是一个像素。
分析物之间的距离可以用多种方式描述。在一些实施方式中,分析物之间的距离可以描述为从一种分析物的中心到另一种分析物的中心。在其他实施方式中,可以描述从一种分析物的边缘到另一种分析物的边缘的距离,或者每个分析物的最外侧可表征点之间的距离。分析物的边缘可以描述为芯片上的理论或实际物理边界,或者分析物边界内的某个点。在其他实施方式中,可以相对于样本上的固定点或样本图像来描述距离。
一般来说,本文将针对分析方法描述几种实施方式。应当理解,还提供了用于以自动或半自动方式执行该方法的系统。因此,本公开提供了基于神经网络的模板生成和碱基识别系统,其中该系统可以包括处理器;存储设备;以及用于图像分析的程序,该程序包括用于执行本文所述的一个或多个方法的指令。因此,本文阐述的方法可以在(例如,具有本文所述或本领域已知的组件的)计算机上进行。
本文阐述的方法和系统对于分析各种对象中的任何一种都是有用的。特别有用的对象是附着有分析物的固体支持物或固相表面。当用于在xy平面中具有分析物的重复图案的物体时,本文阐述的方法和系统具有优势。一个示例是具有细胞、病毒、核酸、蛋白质、抗体、碳水化合物、小分子(例如候选药物)、生物活性分子或其他感兴趣的分析物的附着集合的微阵列。
已经开发了越来越多的应用,用于具有生物分子如核酸和多肽的分析物的阵列。这种微阵列通常包括脱氧核糖核酸(DNA)或核糖核酸(RNA)探针。这些对于人类和其他生物中存在的核苷酸序列是特定的。例如,在某些应用中,单个DNA或RNA探针可以附着在阵列的单个分析物上。例如来自已知人或生物体的测试样本可以暴露于阵列,使得靶核酸(例如,基因片段、mRNA或其扩增子)与阵列中相应分析物的互补探针杂交。可以在目标特定过程中标记探针(例如,由于靶核酸上存在标记,或者由于在分析物中以杂交形式存在的探针或目标的酶标记)。然后,可以通过扫描分析物上特定频率的光来检查阵列,以识别样本中存在哪些靶核酸。
生物微阵列可用于基因测序和类似应用。一般来说,遗传测序包括确定一段靶核酸(如DNA或RNA的一个片段)中核苷酸的顺序。通常在每个分析物上对相对短的序列进行测序,并且可以在各种生物信息学方法中使用所得的序列信息来将序列片段逻辑地拟合在一起,从而可靠地确定衍生出片段的更大长度的遗传物质的序列。已经开发出用于特征片段的自动化的、基于计算机的算法,并且最近已经用于基因组作图、基因及其功能的表征等。微阵列对于表征基因组内容特别有用,因为存在大量变体,这取代了在单个探针和靶标上进行许多实验的选择。微阵列是以实用方式进行此类研究的理想形式。
本领域已知的多种分析物阵列(也称为“微阵列”)中的任何一种都可用于本文所述的方法或系统。典型的阵列包含分析物,每个分析物具有单独的探针或探针群体。在后一种情况下,每种分析物的探针群体通常是同质的,具有单一种类的探针。例如,在核酸阵列的情况下,每个分析物可以具有多个核酸分子,每个核酸分子具有共同的序列。然而,在一些实施方式中,阵列中每个分析物的群体可以是异质的。类似地,蛋白质阵列可以具有单一蛋白质或蛋白质群体的分析物,其通常但不总是具有相同的氨基酸序列。探针可以例如通过探针与表面的共价连接或通过探针与表面的非共价相互作用而附着于阵列的表面。在一些实施方式中,诸如核酸分子之类的探针可以经由凝胶层附着于表面,如例如在第13/784,368号美国专利申请和公开号为2011/0059865A1的美国专利申请中所述,其每一个均通过引用并入本文。
示例性阵列包括但不限于可从Illumina公司(加利福尼亚州圣地亚哥)获得的微珠芯片(BeadChip)阵列或其他阵列,例如那些探针附着到表面上存在的微珠(例如表面上的凹井中的珠)的阵列,如第6,266,459号、第6,355,431号、第6,770,441号、第6,859,570号美国专利或第7,622,294号美国专利,或公开号为WO 00/63437的PCT专利所述,其每一个均通过引用并入本文。可使用的市售微阵列的其他示例包括,例如,微阵列或根据有时被称为VLSIPSTM(超大规模固定化聚合物合成)技术合成的其他微阵列。点状微阵列还可以用于根据本公开的一些实施方式的方法或系统。点状微阵列的一个示例是可从Amersham Biosciences获得的CodeLinkTM阵列。另一种有用的微阵列是使用喷墨印刷方法制造的微阵列,例如可从Agilent Technologies获得的SurePrintTM技术。
其他有用的阵列包括用于核酸测序应用的阵列。例如,具有基因组片段扩增子的阵列(通常称为簇)特别有用,如在以下文献中所述:Bentley等人,Nature456:53-59(2008),WO 04/018497;WO91/06678;WO07/123744;第7,329,492号、第7,329,492号、第7,211,414号、第7,315,019号、第7,405,281号或第7,057,026号美国专利,或第2008/0108082A1号美国专利。其每一个均通过引用并入本文。另一种对核酸测序有用的阵列是由乳液聚合酶链反应技术产生的颗粒阵列。例如在Dressman等人,Proc.Natl.Acad.Sci.USA100:8817-8822(2003)、WO 05/010145专利,第2005/0130173号或第2005/0064460号美国专利中所述,其每一个均通过引用并入本文。
用于核酸测序的阵列通常具有核酸分析物的随机空间图案。例如,可从Illumina公司(加利福尼亚州圣地亚哥)获得的HiSeq或MiSeq测序平台利用流动槽,在其上通过随机接种和桥扩增形成核酸阵列。然而,图案化的阵列也可以用于核酸测序或其他分析应用。示例性的图案化阵列、其制造方法和使用方法在第13/787,396号美国专利、第13/783,043号美国专利、第13/784,368号美国专利和第2013/0116153Al美国专利和公开号为2012/0316086Al的美国专利申请中进行了阐述,其每一个均通过引用并入本文。这种图案化阵列的分析物可用于捕获单个核酸模板分子,以接种随后形成的同质集落,例如通过桥扩增。这种图案化阵列对于核酸测序应用特别有用。
可以选择阵列(或本文方法或系统中使用的其他对象)上的分析物的尺寸以适合特定应用。例如,在一些实施方式中,阵列的分析物可以具有仅容纳单个核酸分子的尺寸。具有在该尺寸范围内的多种分析物的表面对于构建用于以单分子分辨率检测的分子阵列是有用的。该尺寸范围内的分析物也可用于含有分析物的阵列,每个分析物含有一个核酸分子集落。因此,阵列的每个分析物可以具有不大于约1mm2、不大于约500pm2、不大于约100pm2、不大于约10pm2、不大于约1pm2、不大于约500nm2、或不大于约100nm2、不大于约10nm2、不大于约5nm2、或不大于约1nm2的面积。可选地或附加地,阵列的分析物将不小于约1mm2、不小于约500pm2、不小于约100pm2、不小于约10pm2、不小于约1pm2、不小于约500nm2、不小于约100nm2、不小于约10nm2、不小于约5nm2或不小于约1nm2。实际上,分析物的尺寸可以在选自上述示例的上限和下限之间的范围内。虽然表面的分析物的几个尺寸范围已经针对核酸和核酸的尺度进行了举例说明,但是应当理解,这些尺寸范围内的分析物可以用于不包括核酸的应用。还应理解,分析物的大小不必局限于核酸应用中使用的尺度。
对于包括具有多个分析物的物体的实施方式,例如分析物阵列,分析物可以是离散的,彼此之间用空间隔开。在本发明中有用的阵列可以具有被至多100pm、50pm、10pm、5pm、1pm、0.5pm或更小的边对边距离分开的分析物。可选地或附加地,阵列可以具有被至少0.5pm、1pm、5pm、10pm、50pm、100pm或更多的边对边距离分开的分析物。这些范围适用于分析物的平均边对边间距以及最小或最大间距。
在一些实施方式中,阵列的分析物不必是离散的,而是相邻的分析物可以彼此邻接。无论分析物是否离散,分析物的尺寸和/或分析物的间距可以变化,使得阵列可以具有期望的密度。例如,规则图案中的平均分析物间距可以是至多100pm、50pm、10pm、5pm、1pm、0.5pm或更小。可选地或附加地,规则图案中的平均分析物间距可以是至少0.5pm、1pm、5pm、10pm、50pm、100pm或更多。这些范围也适用于规则图案的最大或最小间距。例如,规则图案的最大分析物间距可以是至多100pm、50pm、10pm、5pm、1pm、0.5pm或更小;且/或规则图案中的最小分析物间距可以是至少0.5pm、1pm、5pm、10pm、50pm、100pm或更多。
阵列中分析物的密度也可以根据每单位面积存在的分析物数量来理解。例如,阵列的分析物的平均密度可以是至少约1×103分析物/mm2、1×104分析物/mm2、1×105分析物/mm2、1×106分析物/mm2、1×107分析物/mm2、1×108分析物/mm2或1×109分析物/mm2或更高。可选地或附加地,阵列的分析物的平均密度可以是至多约1×109分析物/mm2、1×108分析物/mm2、1×107分析物/mm2、1×106分析物/mm2、1×105分析物/mm2、1×104分析物/mm2或1×103分析物/mm2或更小。
上述范围可适用于全部或部分规则图案,包括例如全部或部分分析物阵列。
图案中的分析物可以具有多种形状。例如,当在二维平面中观察时,例如在阵列的表面上,分析物可以呈现圆形、环形、椭圆形、矩形、正方形、对称、不对称、三角形、多边形等。分析物可以以规则的重复图案排列,包括例如六边形或直线图案。可以选择一种图案以获得所需的包装水平。例如,圆形分析物以六边形排列进行最佳包装。当然,其他包装布置也可以用于圆形分析物,反之亦然。
可以根据形成图案的最小几何单位的子集中存在的分析物的数量来表征图案。该子集可以包括例如至少约2、3、4、5、6、10个或更多的分析物。根据分析物的大小和密度,几何单位可以占据小于1mm2、500pm2、100pm2、50pm2、10pm2、1pm2、500nm2、100nm2、50nm2、10nm2或更小的面积。可选地或附加地,几何单位可以占据大于10nm2、50nm2、100nm2、500nm2、1pm2、10pm2、50pm2、100pm2、500pm2、1mm2或更多的面积。几何单位中的分析物的特征,例如形状、尺寸、间距等,可以从这里针对阵列或图案中的分析物更一般地阐述的特征中选择。
具有分析物规则图案的阵列可以相对于分析物的相对位置进行排序,但是相对于每个分析物的一个或多个其他特征是随机的。例如,在核酸阵列的情况下,核酸分析物可以相对于它们的相对位置进行排序,但是相对于人们对存在于任何特定分析物上的核酸种类的序列的了解是随机的。作为更具体的示例,通过用模板核酸接种分析物的重复图案并在每一分析物处扩增模板以在分析物处形成模板的拷贝(例如,经由簇扩增或桥扩增)而形成的核酸阵列将具有核酸分析物的规则图案,但就核酸序列在阵列上的分布而言将是随机的。因此,通常在阵列上检测核酸材料的存在可以产生分析物的重复图案,而序列特异性检测可以产生信号在阵列上的非重复分布。
应当理解,本文中对图案、顺序、随机性等的描述不仅涉及对象上的分析物,例如阵列上的分析物,还涉及图像中的分析物。这样,图案、顺序、随机性等可以以用于存储、操纵或传送图像数据的各种格式中的任何一种来呈现,包括但不限于计算机可读介质或计算机组件,例如图形用户界面或其他输出设备。
如本文所用,术语“图像”旨在意指全部或部分对象的表示。该表示可以是光学检测的再现。例如,可以从荧光、发光、散射或吸收信号中获得图像。图像中出现的对象部分可以是对象的表面或其他xy平面。通常,图像是二维表示,但在某些情况下,图像中的信息可以从三维或更多维导出。图像不需要包括光学检测的信号。可以用非光信号代替。可以以计算机可读格式或介质(例如本文中其他地方阐述的一个或多个介质)提供图像。
本文所用的“图像”是指样本或其他物体的至少一部分的再现或表示。在一些实施方式中,再现是例如由照相机或其他光学检测器产生的光学再现。再现可以是非光学再现,例如,从纳米孔分析物阵列获得的电信号的表示或者从离子敏感型CMOS检测器获得的电信号的表示。在特定实施方式中,非光学再现可以从本文阐述的方法或装置中排除。图像可以具有能够区分以各种间距中的任何一种存在的样本分析物的分辨率,所述间隔包括例如小于100pm、50pm、10pm、5pm、1pm或0.5pm的间隔。
本文所用的“获取”、“采集”等术语指的是获取图像文件的过程的任何部分。在一些实施方式中,数据采集可以包括生成样本的图像、在样本中寻找信号、指示检测装置寻找或生成信号的图像、给出图像文件的进一步分析或变换的指令以及图像文件的任意数量的变换或操作。

Claims (9)

1.一种神经网络实现的对分析物进行碱基识别的方法,所述方法包括:
访问为测序运行的一系列测序周期生成的每周期图像块序列,其中所述每周期图像块中的像素包含关联分析物的强度数据,并且所述强度数据是通过配置成检测来自所述关联分析物的发射的相应光传感器针对一个或多个成像通道获得的;
在滑动卷积窗的基础上对所述每周期图像块序列应用三维(3D)卷积,使得在卷积窗中,3D卷积滤波器
对以下内容进行卷积:
沿着时间维度的多个所述每周期图像块,并检测和解释由关联分析物的序列拷贝的异步读出引起的测序周期的后续测序周期之间的定相和预定相效应,
沿空间维度的每个所述每周期图像块中的多个像素,并检测和解释由关联分析物的相应光传感器检测来自非关联分析物的发射引起的相邻分析物之间的空间串扰,以及
沿着深度维度的每个所述成像通道,并检测和解释由染料发射光谱的重叠引起的所述成像通道之间的发射重叠,以及
由于在所述滑动卷积窗的基础上对所述每周期图像块序列进行卷积,产生至少一个输出特征;
补充因多个3D卷积滤波器对具有一个或多个像素的成像通道特定的和交叉周期强度数据特征的每周期图像块序列进行卷积而产生的输出特征,所述像素包含一个或多个待进行碱基识别的关联分析物的强度数据;
从补充有所述强度数据特征的所述输出特征作为起始输入开始,应用一维(1D)卷积的级联并产生另外的输出特征,所述级联使用具有不同感受野的1D卷积并检测由所述定相和预定相效应引起的不同程度的异步读出;
对所述另外的输出特征应用逐点卷积,并产生最终输出特征;以及
通过输出层处理所述最终输出特征,并在每个所述测序周期产生所述关联分析物的碱基识别。
2.一种神经网络实现的对分析物进行碱基识别的方法,所述方法包括:
访问针对测序运行的一系列测序周期生成的每周期图像块序列,其中所述每周期图像块中的每个像素与分析物相关联,其中所述每周期图像块以包含目标关联分析物的强度数据的中心像素为中心,其中所述每周期图像块中的非中心像素包含邻近所述目标关联分析物的关联分析物的强度数据,并且其中所述强度数据是针对一个或多个成像通道获得的;
在滑动卷积窗的基础上对所述每周期图像块序列应用三维(3D)卷积,使得在卷积窗中,3D卷积滤波器
对以下内容进行卷积:
沿着时间维度的多个所述每周期图像块,并检测和解释由于关联分析物的序列拷贝的异步读出而导致的来自一个或多个后续测序周期和一个或多个先前测序周期的当前测序周期中的定相和预定相效应,
沿着空间维度的所述中心像素和所述非中心像素,并检测和解释由于所述目标关联分析物的相应光传感器检测到来自相邻关联分析物的发射而导致的来自所述中心像素中的所述非中心像素的空间串扰,以及
沿着深度维度的每个所述成像通道,并检测和解释由于染料发射光谱的重叠而导致的所述成像通道之间的发射重叠,以及
由于在所述滑动卷积窗的基础上对所述每周期图像块序列进行卷积,产生至少一个输出特征;
补充因多个3D卷积滤波器对具有所述中心像素的成像通道特定的和交叉周期强度数据特征的每周期图像块序列进行卷积而产生的输出特征;
从补充有所述强度数据特征的所述输出特征作为起始输入开始,应用一维(1D)卷积的级联并产生另外的输出特征,所述级联使用具有不同感受野的1D卷积并检测由所述定相和预定相效应引起的不同程度的所述异步读出;
对所述另外的输出特征应用逐点卷积,并产生最终输出特征;
通过输出层处理所述最终输出特征并产生输出;以及
基于所述输出在每个所述测序周期对所述目标关联分析物进行碱基识别。
3.一种神经网络识别的对分析物进行碱基识别的方法,所述方法包括:
访问为测序运行的一系列测序周期生成的每周期图像块序列,其中,所述每周期图像块中的像素包含一个或多个成像通道中的关联分析物的强度数据;
在滑动卷积窗的基础上对所述每周期图像块序列应用三维(3D)卷积,使得在卷积窗中,3D卷积滤波器对多个所述每周期图像块进行卷积,并且由于在所述滑动卷积窗的基础上对所述每周期图像块序列进行卷积,产生至少一个输出特征;
从所述3D卷积产生的输出特征作为起始输入开始,应用进一步的卷积并产生最终输出特征;以及
通过输出层处理所述最终输出特征,并在每个所述测序周期产生一个或多个待进行碱基识别的所述关联分析物的碱基识别。
4.一种非暂时性计算机可读存储介质,其印有计算机程序指令以对分析物进行碱基识别,当所述指令在处理器上执行时,执行包括以下步骤的方法:
访问为测序运行的一系列测序周期生成的每周期图像块序列,其中,所述每周期图像块中的像素包含关联分析物的强度数据,并且所述强度数据是通过配置成检测来自所述关联分析物的发射的相应光传感器针对一个或多个成像通道获得的;
在滑动卷积窗的基础上对所述每周期图像块序列应用三维(3D)卷积,使得在卷积窗中,3D卷积滤波器
对以下内容进行卷积:
沿着时间维度的多个所述每周期图像块,并检测和解释由关联分析物的序列拷贝的异步读出引起的所述测序周期的后续测序周期之间的定相和预定相效应,
沿着空间维度的每个所述每周期图像块中的多个像素,并检测和解释由关联分析物的相应光传感器检测来自非关联分析物的发射引起的相邻分析物之间的空间串扰,以及
沿着深度维度的每个所述成像通道,并检测和解释由染料发射光谱的重叠引起的所述成像通道之间的发射重叠,以及
由于在所述滑动卷积窗的基础上对所述每周期图像块序列进行卷积,产生至少一个输出特征;
补充因多个3D卷积滤波器对具有一个或多个所述像素的成像通道特定的和交叉周期强度数据特征的所述每周期图像块序列进行卷积而产生的输出特征,所述像素包含一个或多个待进行碱基识别的所述关联分析物的所述强度数据;
从补充有所述强度数据特征的所述输出特征作为起始输入开始,应用一维(1D)卷积的级联并产生另外的输出特征,所述级联使用具有不同感受野的1D卷积并检测由所述定相和预定相效应引起的不同程度的所述异步读出;
对所述另外的输出特征应用逐点卷积,并产生最终输出特征;以及
通过输出层处理所述最终输出特征,并在每个所述测序周期产生所述关联分析物的碱基识别。
5.一种非暂时性计算机可读存储介质,其印有计算机程序指令以对分析物进行碱基识别,当所述指令在处理器上执行时,执行包括以下步骤的方法:
访问针对测序运行的一系列测序周期生成的每周期图像块序列,其中所述每周期图像块中的每个像素与分析物相关联,其中所述每周期图像块以包含目标关联分析物的强度数据的中心像素为中心,其中所述每周期图像块中的非中心像素包含邻近所述目标关联分析物的关联分析物的强度数据,并且其中所述强度数据是针对一个或多个成像通道获得的;
在滑动卷积窗的基础上对所述每周期图像块序列应用三维(3D)卷积,使得在卷积窗中,3D卷积滤波器
对以下内容进行卷积:
沿着时间维度的多个所述每周期图像块,并检测和解释由于关联分析物的序列拷贝的异步读出而导致的来自一个或多个后续测序周期和一个或多个先前测序周期的当前测序周期中的定相和预定相效应,
沿着空间维度的所述中心像素和所述非中心像素,并检测和解释由于所述目标关联分析物的相应光传感器检测到来自相邻关联分析物的发射而导致的来自所述中心像素中的所述非中心像素的空间串扰,以及
沿着深度维度的每个所述成像通道,并检测和解释由于染料发射光谱的重叠而导致的所述成像通道之间的发射重叠,以及
由于在所述滑动卷积窗的基础上对所述每周期图像块序列进行卷积,产生至少一个输出特征;
补充因多个3D卷积滤波器对具有所述中心像素的成像通道特定的和交叉周期强度数据特征的所述每周期图像块序列进行卷积而产生的输出特征;
从补充有所述强度数据特征的所述输出特征作为起始输入开始,应用一维(1D)卷积的级联并产生另外的输出特征,所述级联使用具有不同感受野的1D卷积并检测由所述定相和预定相效应引起的不同程度的所述异步读出;
对所述另外的输出特征应用逐点卷积,并产生最终输出特征;
通过输出层处理所述最终输出特征并产生输出;以及
基于所述输出在每个所述测序周期对所述目标关联分析物进行碱基识别。
6.一种非暂时性计算机可读存储介质,其印有计算机程序指令以对分析物进行碱基识别,当所述指令在处理器上执行时,执行包括以下步骤的方法:
访问为测序运行的一系列测序周期生成的每周期图像块序列,其中,所述每周期图像块中的像素包含一个或多个成像通道中关联分析物的强度数据;
在滑动卷积窗的基础上对所述每周期图像块序列应用三维(3D)卷积,使得在卷积窗中,3D卷积滤波器对多个所述每周期图像块进行卷积,并且由于在所述滑动卷积窗的基础上对所述每周期图像块序列进行卷积,产生至少一个输出特征;
从所述3D卷积产生的输出特征作为起始输入开始,应用进一步的卷积并产生最终输出特征;以及
通过输出层处理所述最终输出特征,并在每个所述测序周期产生一个或多个待进行碱基识别的所述关联分析物的碱基识别。
7.一种系统,包括耦合到存储器的一个或多个处理器,所述存储器加载有计算机指令以对分析物进行碱基识别,当所述指令在所述处理器上执行时,执行包括以下步骤的动作:
访问为测序运行的一系列测序周期生成的每周期图像块序列,其中,所述每周期图像块中的像素包含关联分析物的强度数据,并且所述强度数据是通过配置成检测来自所述关联分析物的发射的相应光传感器针对一个或多个成像通道获得的;
在滑动卷积窗的基础上对所述每周期图像块序列应用三维(3D)卷积,使得在卷积窗中,3D卷积滤波器
对以下内容进行卷积:
沿着时间维度的多个所述每周期图像块,并检测和解释由关联分析物的序列拷贝的异步读出引起的测序周期的后续测序周期之间的定相和预定相效应,
沿着空间维度的每一个所述每周期图像块中的多个像素,并检测和解释由关联分析物的相应光传感器检测来自非关联分析物的发射引起的相邻分析物之间的空间串扰,以及
沿着深度维度的每个所述成像通道,并检测和解释由染料发射光谱的重叠引起的所述成像通道之间的发射重叠,以及
由于在所述滑动卷积窗的基础上对所述每周期图像块序列进行卷积,产生至少一个输出特征;
补充因多个3D卷积滤波器对具有一个或多个所述像素的成像通道特定的和交叉周期强度数据特征的所述每周期图像块序列进行卷积而产生的输出特征,所述像素包含一个或多个待进行碱基识别的所述关联分析物的所述强度数据;
从补充有所述强度数据特征的所述输出特征作为起始输入开始,应用一维(1D)卷积的级联并产生另外的输出特征,所述级联使用具有不同感受野的1D卷积并检测由所述定相和预定相效应引起的不同程度的所述异步读出;
对所述另外的输出特征应用逐点卷积,并产生最终输出特征;以及
通过输出层处理所述最终输出特征,并在每个所述测序周期产生所述关联分析物的碱基识别。
8.一种系统,包括耦合到存储器的一个或多个处理器,所述存储器加载有计算机指令以对分析物进行碱基识别,当所述指令在所述处理器上执行时,执行包括以下步骤的动作:
访问为测序运行的一系列测序周期生成的每周期图像块序列,其中所述每周期图像块中的每个像素与分析物相关联,其中所述每周期图像块以包含目标关联分析物的强度数据的中心像素为中心,其中所述每周期图像块中的非中心像素包含邻近所述目标关联分析物的关联分析物的强度数据,并且其中所述强度数据是针对一个或多个成像通道获得的;
在滑动卷积窗的基础上对所述每周期图像块序列应用三维(3D)卷积,使得在卷积窗中,3D卷积滤波器
对以下内容进行卷积:
沿着时间维度的多个所述每周期图像块,并检测和解释由于关联分析物的序列拷贝的异步读出而导致的来自一个或多个后续测序周期和一个或多个先前测序周期的当前测序周期中的定相和预定相效应,
所述中心像素和所述非中心像素沿着空间维度,并检测和解释由于所述目标关联分析物的相应光传感器检测到来自相邻关联分析物的发射而导致的来自所述中心像素中的所述非中心像素的空间串扰,以及
每个所述成像通道沿着深度维度,并检测和解释由于染料发射光谱的重叠而导致的所述成像通道之间的发射重叠,以及
由于在所述滑动卷积窗的基础上对所述每周期图像块序列进行卷积,产生至少一个输出特征;
补充因多个3D卷积滤波器对具有所述中心像素的成像通道特定的和交叉周期强度数据特征的所述每周期图像块序列进行卷积而产生的输出特征;
从补充有所述强度数据特征的所述输出特征作为起始输入开始,应用一维(1D)卷积的级联并产生另外的输出特征,所述级联使用具有不同感受野的1D卷积并检测由所述定相和预定相效应引起的不同不程度的所述异步读出;
对所述另外的输出特征应用逐点卷积,并产生最终输出特征;
通过输出层处理所述最终输出特征并产生输出;以及
基于所述输出在每个所述测序周期对所述目标关联分析物进行碱基识别。
9.一种系统,包括耦合到存储器的一个或多个处理器,所述存储器加载有计算机指令以对分析物进行碱基识别,当所述指令在所述处理器上执行时,执行包括以下步骤的动作:
访问为测序运行的一系列测序周期生成的每周期图像块序列,其中,所述每周期图像块中的像素包含一个或多个成像通道中关联分析物的强度数据;
在滑动卷积窗的基础上对所述每周期图像块序列应用三维(3D)卷积,使得在卷积窗中,3D卷积滤波器对多个所述每周期图像块进行卷积,并且由于在所述滑动卷积窗的基础上对所述每周期图像块序列进行卷积,产生至少一个输出特征;
从所述3D卷积产生的输出特征作为起始输入开始,应用进一步的卷积并产生最终输出特征;以及
通过输出层处理所述最终输出特征,并在每个所述测序周期产生一个或多个待进行碱基识别的所述关联分析物的碱基识别。
CN202311510081.5A 2019-05-16 2020-05-15 使用卷积的碱基识别 Pending CN117935916A (zh)

Applications Claiming Priority (12)

Application Number Priority Date Filing Date Title
US201962849091P 2019-05-16 2019-05-16
US201962849132P 2019-05-16 2019-05-16
US201962849133P 2019-05-16 2019-05-16
US62/849091 2019-05-16
US62/849132 2019-05-16
US62/849133 2019-05-16
US16/874599 2020-05-14
US16/874,633 US11593649B2 (en) 2019-05-16 2020-05-14 Base calling using convolutions
US16/874633 2020-05-14
US16/874,599 US11423306B2 (en) 2019-05-16 2020-05-14 Systems and devices for characterization and performance analysis of pixel-based sequencing
CN202080003513.1A CN112313750B (zh) 2019-05-16 2020-05-15 使用卷积的碱基识别
PCT/US2020/033281 WO2020232410A1 (en) 2019-05-16 2020-05-15 Base calling using convolutions

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN202080003513.1A Division CN112313750B (zh) 2019-05-16 2020-05-15 使用卷积的碱基识别

Publications (1)

Publication Number Publication Date
CN117935916A true CN117935916A (zh) 2024-04-26

Family

ID=74041703

Family Applications (3)

Application Number Title Priority Date Filing Date
CN202311510081.5A Pending CN117935916A (zh) 2019-05-16 2020-05-15 使用卷积的碱基识别
CN202080003513.1A Active CN112313750B (zh) 2019-05-16 2020-05-15 使用卷积的碱基识别
CN202080003540.9A Active CN112368567B (zh) 2019-05-16 2020-05-15 用于基于像素测序的表征和性能分析的系统和设备

Family Applications After (2)

Application Number Title Priority Date Filing Date
CN202080003513.1A Active CN112313750B (zh) 2019-05-16 2020-05-15 使用卷积的碱基识别
CN202080003540.9A Active CN112368567B (zh) 2019-05-16 2020-05-15 用于基于像素测序的表征和性能分析的系统和设备

Country Status (4)

Country Link
EP (2) EP3970151A1 (zh)
CN (3) CN117935916A (zh)
AU (2) AU2020276115A1 (zh)
CA (2) CA3104851A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11676685B2 (en) 2019-03-21 2023-06-13 Illumina, Inc. Artificial intelligence-based quality scoring
US11210554B2 (en) 2019-03-21 2021-12-28 Illumina, Inc. Artificial intelligence-based generation of sequencing metadata
US11593649B2 (en) 2019-05-16 2023-02-28 Illumina, Inc. Base calling using convolutions
KR20220143854A (ko) 2020-02-20 2022-10-25 일루미나, 인코포레이티드 인공 지능 기반 다-대-다 염기 호출
WO2022197752A1 (en) * 2021-03-16 2022-09-22 Illumina, Inc. Tile location and/or cycle based weight set selection for base calling
EP4222749A4 (en) 2021-12-24 2023-08-30 GeneSense Technology Inc. DEEP LEARNING-BASED METHODS AND SYSTEMS FOR NUCLEIC ACID SEQUENCING
CN115376613A (zh) * 2022-09-13 2022-11-22 郑州思昆生物工程有限公司 一种碱基类别检测方法、装置、电子设备及存储介质
CN117726621A (zh) * 2024-02-05 2024-03-19 深圳赛陆医疗科技有限公司 基于深度学习的基因测序碱基质量评估方法、产品、设备及介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7576371B1 (en) * 2006-03-03 2009-08-18 Array Optronix, Inc. Structures and methods to improve the crosstalk between adjacent pixels of back-illuminated photodiode arrays
EP2933629B1 (en) * 2010-02-19 2019-04-10 Pacific Biosciences Of California, Inc. System for measuring analytical reactions comprising a socket for an optode array chip
US9736388B2 (en) * 2013-12-13 2017-08-15 Bio-Rad Laboratories, Inc. Non-destructive read operations with dynamically growing images
CN105980578B (zh) * 2013-12-16 2020-02-14 深圳华大智造科技有限公司 用于使用机器学习进行dna测序的碱基判定器
US10584378B2 (en) * 2015-08-13 2020-03-10 Centrillion Technology Holdings Corporation Methods for synchronizing nucleic acid molecules
CN109614981B (zh) * 2018-10-17 2023-06-30 东北大学 基于斯皮尔曼等级相关的卷积神经网络的电力系统智能故障检测方法及系统

Also Published As

Publication number Publication date
CN112313750A (zh) 2021-02-02
AU2020276115A1 (en) 2021-01-07
CN112313750B (zh) 2023-11-17
EP3969884C0 (en) 2024-04-17
CA3104854A1 (en) 2020-11-19
EP3969884A1 (en) 2022-03-23
EP3970151A1 (en) 2022-03-23
CA3104851A1 (en) 2020-11-19
CN112368567B (zh) 2024-04-16
CN112368567A (zh) 2021-02-12
AU2020273459A1 (en) 2021-01-07
EP3969884B1 (en) 2024-04-17

Similar Documents

Publication Publication Date Title
CN112313750B (zh) 使用卷积的碱基识别
US11817182B2 (en) Base calling using three-dimentional (3D) convolution
US11961593B2 (en) Artificial intelligence-based determination of analyte data for base calling
US11347965B2 (en) Training data generation for artificial intelligence-based sequencing
WO2020191387A1 (en) Artificial intelligence-based base calling
US20210265018A1 (en) Knowledge Distillation and Gradient Pruning-Based Compression of Artificial Intelligence-Based Base Caller
NL2023310B1 (en) Training data generation for artificial intelligence-based sequencing
NL2023311B1 (en) Artificial intelligence-based generation of sequencing metadata
US20230087698A1 (en) Compressed state-based base calling
US20230298339A1 (en) State-based base calling
WO2023049215A1 (en) Compressed state-based base calling

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination