CN117730372A - 用于确定核苷酸碱基检出和碱基检出质量的信噪比度量 - Google Patents

用于确定核苷酸碱基检出和碱基检出质量的信噪比度量 Download PDF

Info

Publication number
CN117730372A
CN117730372A CN202280043937.XA CN202280043937A CN117730372A CN 117730372 A CN117730372 A CN 117730372A CN 202280043937 A CN202280043937 A CN 202280043937A CN 117730372 A CN117730372 A CN 117730372A
Authority
CN
China
Prior art keywords
signal
nucleotide
noise ratio
base detection
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280043937.XA
Other languages
English (en)
Inventor
E·J·奥贾德
N·伍德帕
A·A·卡格瓦拉
J·S·维切利
R·美雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inmair Ltd
Original Assignee
Inmair Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inmair Ltd filed Critical Inmair Ltd
Publication of CN117730372A publication Critical patent/CN117730372A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Molecular Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Analytical Chemistry (AREA)
  • Bioethics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本公开描述了方法、非暂态计算机可读介质和系统,这些方法、非暂态计算机可读介质和系统可以生成带标签核苷酸碱基被添加到的寡核苷酸簇的信噪比度量,并且利用这些信噪比度量来生成核苷酸碱基检出并且确定碱基检出质量。例如,所公开的系统可以使用与从这些寡核苷酸簇检测到的光信号相关联的缩放因子和噪声水平来生成这些信噪比度量。所公开的系统可以利用这些信噪比度量根据一个或多个碱基检出分布模型生成用于生成这些信号的核苷酸碱基检出的强度值边界。附加地,所公开的系统可以利用阈值来滤除从具有低信噪比度量的寡核苷酸簇检测到的信号。所公开的系统可以进一步利用这些信噪比度量来生成所生成的核苷酸碱基检出的质量度量。

Description

用于确定核苷酸碱基检出和碱基检出质量的信噪比度量
相关申请的交叉引用
本申请要求2021年6月29日提交的美国临时申请号63/216,401的权益和优先权。上述申请全文据此以引用方式并入。
背景技术
近年来,生物技术公司和研究机构已经改进了用于确定核酸样品中核苷酸碱基(也称为“核碱基”)序列的硬件和软件平台。例如,一些现有的核酸测序平台通过使用常规桑格测序或通过使用边合成边测序(SBS)来确定核酸序列的各个核苷酸碱基。当使用SBS时,现有平台可以监测并行合成的数千、数万或更多核酸聚合物以检测更准确的核苷酸碱基检出。例如,SBS平台中的相机可以捕获来自掺入此类合成核酸序列(通常分组成簇)中的核苷酸碱基的经照射荧光标签的图像。在捕获图像之后,现有的SBS平台将图像数据发送到具有测序数据分析软件的计算设备,以确定核酸聚合物的核苷酸碱基序列。测序数据分析软件可以基于在图像数据中捕获的光信号来确定在给定图像中检测到的核苷酸碱基。通过反复地将核苷酸碱基掺入寡核苷酸中并在各种测序循环中捕获所发射光信号的图像,SBS平台可以确定核酸样品中存在的核苷酸碱基序列。
尽管有这些最近的进展,但是现有的测序平台通常受到妨碍那些平台的准确性和灵活性的技术限制。具体地,刚性强度值边界模型通常阻碍此类测序平台解释在图像数据中捕获的光信号以进行正确的核苷酸碱基检出。此外,有缺陷的碱基检出质量模型和过滤模型往往限制此类平台确定所确定核苷酸碱基检出的准确性的能力。
实际上,现有测序平台的强度值边界模型在解释从核苷酸碱基的经照射荧光标签发射的光信号以在进行核苷酸碱基检出时对那些核苷酸碱基进行分类时经常导致不准确。例如,一些现有平台使用将与光信号相关联的强度值(例如,波长和/或亮度值)映射到对应的核苷酸碱基的决策边界来生成核苷酸碱基检出。然而,这些平台可以使用对于给定光信号不适当(例如,不能将强度值准确地映射到核苷酸碱基)的决策边界,从而导致不准确的核苷酸碱基检出。此类不准确的检出通常是由某些现有平台对所有光信号严格应用同一组决策边界引起的。实际上,现有的测序平台可以使用单个模型(例如,单个高斯混合模型)来生成用于所有检测到的光信号的决策边界。然而,不同的光信号可以具有影响相关联强度值的变化因素,诸如变化水平的信号纯度。由于未考虑到这些因素,现有平台未能针对光信号的特性灵活地定制决策边界。
一些现有的测序平台试图通过滤除有问题的核酸聚合物簇(例如,从所得到的碱基检出数据中排除对应的核苷酸碱基检出)来规避生成核苷酸碱基检出的不准确性。例如,现有平台可以使用纯化过滤器(chastity filter)滤除核酸聚合物簇,该纯化过滤器分析对应的光信号的纯化值。纯化值可以被确定为与光信号相关联的强度和最近的核苷酸碱基质心之间的距离与该强度和另一质心(例如,第二最近的质心)之间的距离的比率。
如果簇的纯化值未能满足阈值(例如,在第一组测序循环内多次),则现有平台可以滤除该簇的核苷酸碱基检出,从而指示所发射的光信号质量不良并且不可靠(例如,对应的核苷酸碱基检出可能不准确)。然而,随着测序的进行,簇可能变得更成问题。实际上,在早期测序循环中满足纯化过滤器的簇的不良质量可能在稍后测序循环中显现。因使用纯化过滤器,许多现有平台未能正确地识别这些有问题簇。因此,此类平台往往基于从这些簇发射的不良光信号生成不可靠的核苷酸碱基检出,并且将那些核苷酸碱基检出包括在碱基检出数据中。
除了生成准确的核苷酸碱基检出以及滤除发射不可靠光信号的核酸聚合物的问题之外,现有的测序平台在确定给定核苷酸碱基检出的质量时通常也是不准确的。例如,许多现有平台确定诸如Phred质量评分之类的度量,该度量估计核苷酸碱基检出的误差的可能性。然而,用于确定该质量评分的模型没有考虑许多与核苷酸碱基相关联的特征(例如,与对应的光信号相关联),即使此类特征对核苷酸碱基检出的质量有显著贡献。因此,现有平台通常不能准确地估计核苷酸碱基检出的质量。
此外,如先前所提及,现有平台不能定制用于生成针对光信号特性的核苷酸碱基检出的决策边界。在许多情况下,质量估计固有地依赖于在生成核苷酸碱基检出中使用的决策边界。因此,使用不能将光信号的强度值准确地映射到核苷酸碱基的决策边界也可能导致对所得到的核苷酸碱基检出的质量的不准确估计。
发明内容
本公开描述了方法、非暂态计算机可读介质和系统的实施方案,这些方法、非暂态计算机可读介质和系统确定从核苷酸碱基的荧光标签发射的光信号的信噪比度量,并且使用此类信噪比度量来确定更准确和灵活的碱基检出。例如,所公开的系统可以确定带标签核苷酸碱基被添加到的各种寡核苷酸簇的单独信噪比度量。所公开的系统可以利用与从簇发射的光信号相关联的强度值来确定其对应的信噪比度量。例如,所公开的系统基于针对寡核苷酸簇的光信号的缩放因子和噪声水平来确定该簇中的标记的核苷酸碱基的信噪比度量。在一些情况下,所公开的系统在每个测序循环之后更新信噪比度量。
所公开的系统可以将此类与簇相关联的信噪比度量用于下文进一步描述的各种碱基检出应用。例如,所公开的系统可以使用此类信噪比度量根据碱基检出分布模型(例如,分段高斯混合模型)生成用于区分对应于不同核苷酸碱基的信号的强度值边界,滤除质量不良的簇,以及/或者确定核苷酸碱基检出的质量评分。通过利用此类信噪比度量,所公开的系统灵活地定制不同核苷酸云之间的决策边界,这些决策边界用于确定针对检测到的光信号的特性的核苷酸碱基检出,从而允许更准确的碱基检出。此外,所公开的系统可以利用信噪比度量来更准确地过滤质量不良的孔并且更准确地确定给定的核苷酸碱基检出的质量评分。
在以下描述中概述了本公开的一个或多个实施方案的附加的特征和优点。
附图说明
详细描述参考下文简要描述的附图。
图1示出了根据一个或多个实施方案的包括信噪比感知碱基检出系统的测序系统的框图。
图2示出了根据一个或多个实施方案的生成并利用信噪比度量的信噪比感知碱基检出系统的概述图。
图3示出了根据一个或多个实施方案的用于确定信噪比度量的示图。
图4示出了根据一个或多个实施方案的利用信噪比度量进行分布模型分段的框图。
图5示出了根据一个或多个实施方案的利用信号的信噪比度量来过滤核苷酸碱基检出的框图。
图6示出了根据一个或多个实施方案的用于生成核苷酸碱基检出的质量度量的框图。
图7示出了根据一个或多个实施方案的反映关于信噪比感知碱基检出系统的有效性的研究结果的曲线图。
图8A至图8B示出了根据一个或多个实施方案的反映关于信噪比感知碱基检出系统的有效性的附加的研究结果的曲线图。
图9示出了根据一个或多个实施方案的用于使用信噪比度量生成核苷酸碱基检出的质量度量的一系列动作的流程图。
图10示出了根据一个或多个实施方案的用于使用信噪比度量来过滤对应于信号的核苷酸碱基检出的一系列动作的流程图。
图11示出了根据一个或多个实施方案的用于使用信噪比度量生成信噪比范围的强度值边界的一系列动作的流程图。
图12示出了用于实施本公开的一个或多个实施方案的示例性计算设备的框图。
具体实施方式
本公开描述了信噪比感知碱基检出系统的一个或多个实施方案,该信噪比感知碱基检出系统利用信噪比度量来确定核苷酸碱基检出、测量核苷酸碱基检出的质量以及滤除质量不良的孔。具体地,在一些实施方式中,信噪比感知碱基检出系统确定含有寡核苷酸簇的核苷酸样品载玻片的部分(例如,图案化流通池的孔或非图案化流通池的子部分)的信噪比度量。例如,信噪比感知碱基检出系统可以基于对应于由簇发射的光信号的强度值的缩放因子和噪声水平来确定信噪比度量。
信噪比感知碱基检出系统可以利用此类信噪比度量来通过各种应用确定更好质量或更准确的核碱基检出。例如,在一些情况下,信噪比感知碱基检出系统利用信噪比度量根据一个或多个碱基检出分布模型(例如,分段高斯混合模型)生成用于区分对应于不同核苷酸碱基的信号的强度值边界。在一些情况下,信噪比感知碱基检出系统使用或确立信噪比阈值,并且如果信噪比度量未能满足阈值,则从测序数据滤除与核苷酸样品载玻片的部分相关联的核苷酸碱基检出。在一些实施方案中,信噪比感知碱基检出系统利用信噪比度量作为模型(例如,Phred算法)的输入,该模型估计针对核苷酸样品载玻片的部分生成的核苷酸碱基检出的质量。
如刚刚提及,在一个或多个实施方案中,信噪比感知碱基检出系统确定核苷酸样品载玻片的部分的信噪比度量。在一个或多个实施方案中,信噪比度量对于核苷酸样品载玻片的该部分是特定的,并且信噪比感知碱基检出系统确定核苷酸样品载玻片的其他部分的其他信噪比度量。在一个或多个实施方案中,信噪比感知碱基检出系统随着每个测序循环更新核苷酸样品载玻片的部分的信噪比度量。
如上文所建议,在一个或多个实施方案中,基于从核苷酸样品载玻片的部分检测到的信号(例如,光信号)的强度值,信噪比感知碱基检出系统确定核苷酸样品载玻片的部分的信噪比度量。例如,信噪比感知碱基检出系统可以确定检测到的信号的缩放因子。在一些情况下,信噪比感知碱基检出系统基于信号的强度值使用最小二乘算法来确定缩放因子。信噪比感知碱基检出系统可以进一步确定对应于检测到的信号的噪声水平。例如,在一些实施方案中,信噪比感知碱基检出系统基于信号的经校正强度值来确定噪声水平。信噪比感知碱基检出系统可以基于缩放因子和噪声水平两者来确定信噪比度量。
如上文进一步所提及,在一些实施方式中,信噪比感知碱基检出系统利用信噪比度量来生成用于区分对应于不同核苷酸碱基的信号的强度值边界。为了说明,在某些情况下,信噪比感知碱基检出系统生成核苷酸样品载玻片的多个部分的信噪比度量(例如,基于在测序循环期间检测到的信号)。信噪比感知碱基检出系统可以确定所确定信噪比度量的信噪比范围,并且将碱基检出分布模型拟合到与每个信噪比范围相关联的核苷酸样品载玻片部分。然后,信噪比感知碱基检出系统可以根据信噪比范围的碱基检出分布模型生成核苷酸样品载玻片的部分的核苷酸碱基检出,该信噪比范围涵盖核苷酸样品载玻片的该部分的信噪比度量。
附加地,如上文所提及,在一个或多个实施方案中,信噪比感知碱基检出系统利用核苷酸样品载玻片部分的信噪比度量来确定是否从由测序产生的核苷酸碱基检出数据(例如,测序数据)中滤除对应的核苷酸碱基检出。实际上,在一些实施方式中,信噪比感知碱基检出系统确立信噪比阈值。当确定信噪比度量满足信噪比阈值时,信噪比感知碱基检出系统可以确定并且包括在核苷酸碱基检出数据内的核苷酸样品载玻片的部分的核苷酸碱基检出。如果信噪比度量未能满足信噪比阈值,则信噪比感知碱基检出系统可以从核苷酸碱基检出数据中排除核苷酸样品载玻片的部分的核苷酸碱基检出。
除了生成强度值边界或过滤之外(或作为替代),在一个或多个实施方案中,信噪比感知碱基检出系统利用核苷酸样品载玻片的部分的信噪比度量来估计针对核苷酸样品载玻片的部分生成的核苷酸碱基检出的质量。例如,在一些情况下,信噪比感知碱基检出系统提供信噪比度量作为碱基检出质量模型(例如,Phred算法)的输入。信噪比感知碱基检出系统可以利用碱基检出质量模型来生成质量度量,该质量度量基于信噪比度量来估计核苷酸碱基检出的误差。在一些实施方式中,信噪比感知碱基检出系统将信噪比度量作为许多输入之一(例如,与纯化值一起)提供给碱基检出质量模型。
信噪比感知碱基检出系统提供了优于常规测序平台的几个优点。例如,作为最初的问题,信噪比感知碱基检出系统引入了新的计算模型,用于确定由荧光标签发射并且由相机捕获的光信号的信噪比度量。具体地,所公开的计算模型通过分解光信号的纯度并且将其与和由荧光标签发射的光波长或强度相关联的噪声相关来确定对应于光信号的信噪比度量。例如,如上文和下文所述,计算模型可以将检测到的光信号分解成缩放因子和噪声水平,并且基于这些值确定信噪比度量。通过这样做,计算模型可以更准确地区分对应于核苷酸碱基检出的光信号和噪声。人类大脑不能检测从标记的核苷酸碱基发射的光信号,更不用说将光信号与相关联噪声分离。因此,通过确定信噪比度量,新的计算模型提供先前对测序平台不可用的功能性。
通过利用信噪比度量,信噪比感知碱基检出系统改进了核苷酸碱基检出。例如,如上文所论述,信噪比感知碱基检出系统将用于生成核苷酸碱基检出的碱基检出分布模型拟合到各种信噪比范围。这些碱基检出分布模型提供核苷酸碱基检出所基于的强度值边界(例如,决策边界)。因此,信噪比感知碱基检出系统灵活地将强度值边界定制到与从核苷酸样品载玻片的部分检测到的信号相关联的各种水平的信号纯度。如下文所描述的结果进一步证明的,信噪比感知碱基检出系统使用适于其发射的信号的强度值边界来改进核苷酸样品载玻片的部分的核苷酸碱基检出,从而产生更准确的核苷酸碱基检出。
通过利用信噪比度量,信噪比感知碱基检出系统还滤除用于核苷酸样品载玻片的部分的质量不良的碱基检出。具体地,信噪比感知碱基检出系统更准确地识别发射不良信号的核苷酸样品载玻片的部分。实际上,信噪比感知碱基检出系统可以识别核苷酸样品载玻片的那些部分,那些部分原本将仅通过由常规测序平台实施的纯化过滤器以在稍后测序循环中显现其错误。通过改进过滤过程,信噪比感知碱基检出系统生成更准确、更可靠的核苷酸碱基检出数据。
除了改进的核苷酸碱基检出和改进的过滤之外,信噪比感知碱基检出系统比常规测序平台更准确地确定核苷酸碱基检出质量。实际上,通过利用信噪比度量,信噪比感知碱基检出系统可以更准确地估计核苷酸碱基检出的质量。例如,如上文所提及,信噪比感知碱基检出系统可以提供核苷酸样品载玻片的部分的信噪比度量作为碱基检出质量模型(例如,Phred模型)的输入。因此,当与常规测序平台相比时,信噪比感知碱基检出系统利用核苷酸碱基检出质量的新颖且改进的(且有时附加的)指示剂,从而允许更准确的质量估计。此外,通过使用针对检测到的光信号的特性定制的强度值边界,还针对光信号的特性定制了依赖于那些强度值边界的质量估计。
如上述论述所示,本公开利用多种术语以描述信噪比感知碱基检出系统的特征和优点。现在提供关于此类术语的含义的附加细节。例如,如本文所用,术语“核苷酸样品载玻片”是指包括用于对样品的核苷酸片段进行测序的寡核苷酸的板或载玻片。具体地,核苷酸样品载玻片可以是指含有流体通道的载玻片,试剂和缓冲液可以作为测序的一部分通过该流体通道行进。例如,在一个或多个实施方案中,核苷酸样品载玻片包括流通池(例如,图案化流通池或未图案化流通池),该流通池包括小流体通道和与接头序列互补的短寡核苷酸。
相关地,如本文所用,术语“核苷酸样品载玻片的部分”(或“核苷酸样品载玻片部分”)是指作为核苷酸样品载玻片的一部分的区域。具体地,核苷酸样品载玻片的部分可以是指核苷酸样品载玻片的离散部分,该离散部分不同于核苷酸样品载玻片的其他部分。例如,核苷酸样品载玻片的部分可以包括图案化流通池的孔(例如,纳米孔)或非图案化流通池的离散子部分(例如,对应于簇的子部分)。在一些情况下,核苷酸样品载玻片的部分包括具有并行生长的相同或相似寡核苷酸簇的块(tile)或子块。
附加地,如本文所用,术语“标记的核苷酸碱基”是指具有核苷酸碱基分类的基于荧光或光的指示剂的核苷酸碱基。具体地,标记的核苷酸碱基可以是指掺入基于荧光或光的指示剂以识别碱基类型(例如,腺嘌呤、胞嘧啶、胸腺嘧啶或鸟嘌呤)的核苷酸碱基。例如,在一个或多个实施方案中,标记的核苷酸碱基包括具有发射识别碱基类型的信号的荧光标签的核苷酸碱基。
此外,如本文所用,术语“信号”是指从标记的核苷酸碱基或一组标记的核苷酸碱基(例如,添加到寡核苷酸簇的标记的核苷酸碱基)发射、反射或以其他方式传递的信号。具体地,信号可以是指指示碱基类型的信号。例如,信号可以包括从核苷酸碱基的荧光标签或掺入寡核苷酸中的多个核苷酸碱基的荧光标签发射或反射的光信号。在一些实施方式中,信噪比感知碱基检出系统通过诸如激光或其他光源之类的外部刺激来触发信号。在一些情况下,信噪比感知碱基检出系统通过一些内部刺激触发信号。此外,在一些实施方案中,信噪比感知碱基检出系统使用在捕获核苷酸样品载玻片(例如,核苷酸样品载玻片的部分)的图像时应用的过滤器来观察信号。如上文所建议,在某些情况下,信号包括由添加到寡核苷酸簇中的各个寡核苷酸的每个标记的核苷酸碱基提供的信号的聚集。
如本文所用,术语“强度值”是指指示从标记的核苷酸碱基或来自寡核苷酸簇的一组标记的核苷酸碱基发射、反射或以其他方式传递的信号的特性或属性的值。具体地,强度值可以是指与颜色强度(例如,波长)或光强度(例如,亮度)相关联的值。在一些情况下,信噪比感知碱基检出系统使用不同的过滤器(或强度通道)捕获具有标记的核苷酸碱基的寡核苷酸簇的若干图像。因此,信号的强度值可以对应于通过特定过滤器观察到的信号的强度。
附加地,如本文所用,术语“信噪比度量”是指与噪声的水平或内容相比的目标信号的度量。具体地,信噪比度量可以是指从标记的核苷酸碱基检测到的光信号与相关联噪声相比的强度。例如,在一些实施方式中,信噪比度量包括与信号相关联的缩放因子与对应的噪声水平相比的比率。如本文所用,术语“缩放因子”是指指示亮度的系数或值。具体地,如本文所用,术语缩放因子可以是指考虑簇间强度分布变异(其涉及簇群中的簇的强度分布的标度和从多维空间的原点的移位的差异)中的标度变异(例如,振幅/亮度变异)的值。在一个或多个实施方案中,信噪比感知碱基检出系统使针对光信号确定的缩放因子等同于光信号本身(例如,没有添加噪声的信号纯度)。此外,如本文所用,术语“噪声水平”是指指示与信号相关联的噪声的值。实际上,在一些情况下,噪声水平包括指示噪声的值,该噪声包括导致(或反映)所观察群体中的分布的信号变异。信号变异可以来自核苷酸样品载玻片或测序设备的部件或内容的化学或物理性质,诸如可归因于寡核苷酸长度、定相或预定相的信号变异,或寡核苷酸簇相对于相机或其他传感器的视场的位置。在一个或多个实施方案中,如下文将更详细所论述,信噪比感知碱基检出系统使用信号的一个或多个强度值来确定缩放因子和噪声水平。如本文所用,术语“信噪比范围”是指信噪比度量的范围。换句话说,在一些实施方式中,信噪比感知碱基检出系统确立一个或多个信噪比范围,并且确定信号的信噪比度量是否属于特定的信噪比范围内。
此外,如本文所用,术语“信噪比阈值”是指基于信噪比度量确立用于滤除寡核苷酸簇(例如,与寡核苷酸簇相关联的核苷酸碱基检出)的阈值。例如,在一些实施方式中,信噪比感知碱基检出系统将信噪比阈值确定为来自对应于寡核苷酸簇的标记的核苷酸碱基的信号必须满足(例如,满足或超过)的信噪比值,以使该簇的核苷酸碱基检出包括在所产生的核苷酸碱基检出数据中。
如本文所用,术语“核苷酸碱基检出”是指用以添加到或掺入用于测序循环的寡核苷酸内的特定核苷酸碱基的指定或确定。具体地,核苷酸碱基检出指示已掺入核苷酸样品载玻片上的寡核苷酸内的核苷酸类型的指定或确定。在一些情况下,核苷酸碱基检出包括核苷酸碱基至强度值的指定或确定,该强度值由添加到核苷酸样品载玻片的部分中的寡核苷酸的核苷酸产生。另选地,核苷酸碱基检出包括核苷酸碱基至色谱峰或电流变化的指定或确定,该色谱峰或电流变化由穿过核苷酸样品载玻片的纳米孔的核苷酸产生。通过使用核苷酸碱基检出,测序系统确定核酸聚合物的序列。例如,单个核苷酸碱基检出可以包括腺嘌呤检出、胞嘧啶检出、鸟嘌呤检出或胸腺嘧啶检出。
附加地,如本文所用,术语“测序循环”(或“循环”)是指将核苷酸碱基添加到或掺入寡核苷酸的反复或将核苷酸碱基并行添加到或掺入寡核苷酸的反复。具体地,循环可以包括反复采集并分析一个或多个图像,该一个或多个图像具有指示被添加或掺入到一个寡核苷酸中或并行添加或掺入到多个寡核苷酸的各个核苷酸碱基的数据。因此,循环可被重复作为核酸聚合物测序的一部分。例如,在一个或多个实施方案中,每个测序循环涉及其中仅以单一方向读取DNA或RNA链的单个读段或者其中从两个末端读取DNA或RNA链的双端读段。此外,在某些情况下,每个测序循环涉及相机拍摄核苷酸样品载玻片或核苷酸样品载玻片的多个部分的图像,以生成用于确定添加或掺入特定寡核苷酸中的特定核碱基的图像数据。在图像捕获阶段之后,测序系统可以从掺入的核苷酸碱基中移除某些荧光标记,并且执行另一测序循环,直到核酸聚合物已经被完全测序。在一个或多个实施方案中,测序循环包括边合成边测序(SBS)运行内的循环。
附加地,如本文所用,术语“核苷酸碱基检出数据”是指指示核酸聚合物的各个核苷酸碱基或核苷酸碱基的序列的数字文件、图像数据或其他数字信息。具体地,核苷酸碱基检出数据可以包括来自核苷酸样品载玻片的由相机拍摄的图像的强度值(例如,各个簇的颜色或光强度值)或指示核酸聚合物的各个核苷酸碱基或核苷酸碱基的序列的其他数据。作为强度值的补充或替代,核苷酸碱基检出数据可以包括指示序列中的各个核碱基的色谱峰或电流变化。附加地,在一些实施方案中,核苷酸碱基检出数据包括识别各个核苷酸碱基(例如,A、T、C或G)的各个核苷酸碱基检出。例如,核苷酸碱基检出数据可以包括核酸聚合物序列中核苷酸碱基检出的数据,核苷酸碱基检出的数目对应于特定碱基(例如腺嘌呤、胞嘧啶、胸腺嘧啶或鸟嘌呤),如在数字文件(诸如二元碱基检出(BCL)文件)中组织的。此外,核苷酸碱基检出数据可以包括误差/准确性信息,诸如与每个核苷酸碱基检出相关联的质量度量。在一些实施方案中,核苷酸碱基检出数据包括来自利用边合成边测序(SBS)的测序设备的信息。
如本文所用,术语“质量度量”是指指示测序循环的核苷酸碱基检出的准确性的特定评分或其他测量。具体地,质量度量包括指示一个或多个预测的核苷酸碱基检出包含误差的可能性的值。例如,在某些实施方式中,质量度量可以包括预测测序循环内任何给定核苷酸碱基检出的误差概率的Q评分(例如,质量评分)。
如本文所用,术语“碱基检出质量模型”是指生成核苷酸碱基检出的质量度量的计算机模型或算法。例如,碱基检出质量模型可以是指分析信号和/或对应的簇或标记的核苷酸碱基的特性并基于该分析生成核苷酸碱基检出的质量度量的计算机算法。为了说明,在一些实施方式中,碱基检出质量模型包括生成Phred质量评分的计算机算法。
附加地,如本文所用,术语“强度值边界”是指用于生成信号的核苷酸碱基检出的决策边界。具体地,强度值边界可以是指基于信号的一个或多个强度值将核苷酸碱基分类(例如,分类为A、T、C或G)的决策边界。为了说明,强度值边界可以定义或以其他方式指示对应于每个核苷酸碱基的核苷酸云的边界。在一些实施方式中,强度值边界不标记信号被分类为核苷酸碱基的界限,而是信号可以被分类为具有特定准确性水平的核苷酸碱基的点。
如本文所用,术语“碱基检出分布模型”是指生成强度值边界的计算机模型或算法。例如,在一些实施方式中,碱基检出分布模型包括但不限于高斯分布模型、均匀分布模型、伯努利分布模型、二项分布模型或泊松分布模型。如本文所用,术语“质心”是指由一个或多个强度值边界限定或以其他方式指示的核苷酸云的中心。此外,如本文所用,术语“质心强度值”是指与质心相关联的强度值。具体地,质心强度值指示对应于核苷酸云的中心的强度值。
以下段落关于描绘示例实施方案和实施方式的说明性附图来描述信噪比感知碱基检出系统。例如,图1示出根据一个或多个实施方案的系统环境(或“环境”)100的示意图,信噪比感知碱基检出系统106在其中操作。如所示,环境100包括经由网络108连接到测序设备110和用户客户端设备114的一个或多个服务器设备102。虽然图1示出了信噪比感知碱基检出系统106的实施方案,但本发明描述下文的替代实施方案及配置。
如图1中所示,服务器设备102、测序设备110和用户客户端设备114经由网络108连接。因此,环境100的每个部件可以经由网络108通信。网络108包括计算设备可以在其上通信的任何合适的网络。下文关于图12更详细地论述示例性网络。
如图1所指示,测序设备110包括用于对核酸聚合物进行测序的设备。在一些实施方案中,测序设备110分析从样品中提取的核酸片段或寡核苷酸以利用计算机实施的方法和系统在测序设备110上直接或间接生成数据。更具体地,测序设备110在核苷酸样品载玻片(例如,流通池)内接收以及分析从样品中提取的核酸序列。在一个或多个实施方案中,测序设备110利用SBS以对核酸聚合物测序。作为跨网络108进行通信的补充或替代,在一些实施方案中,测序设备110绕过网络108并且直接与服务器设备102和/或用户客户端设备114通信。
如刚刚所提及,并且如图1中所示,信噪比感知碱基检出系统106可以生成或至少有助于生成核苷酸碱基检出数据112。具体地,在一些实施方案中,信噪比感知碱基检出系统106利用信噪比度量生成核苷酸碱基检出数据112。为了说明,在一些情况下,信噪比感知碱基检出系统106在每个测序循环期间确定核苷酸样品载玻片的部分(例如,从那些部分检测到的信号)的信噪比度量。信噪比感知碱基检出系统106可以利用每个部分的信噪比度量来生成对应于从该部分检测到的信号的核苷酸碱基检出。信噪比感知碱基检出系统106还可以利用信噪比度量来从碱基检出过程中排除部分和/或从核苷酸碱基检出数据112中排除针对该部分生成的核苷酸碱基检出。此外,信噪比感知碱基检出系统106可以利用针对核苷酸样品载玻片的部分确定的信噪比度量来生成对应于针对从该部分检测到的信号生成的核苷酸碱基检出的质量度量。在一些情况下,信噪比感知碱基检出系统106向核苷酸碱基检出数据112贡献附加的信息,诸如信噪比度量本身、用于过滤的信噪比阈值、平均质量度量等。
如图1进一步所指示,服务器设备102可以生成、接收、分析、存储、以及传输电子数据,诸如与核苷酸碱基检出或测序核酸聚合物相关的数据。如图1中所示,测序设备110可以发送(并且服务器设备102可以接收)来自测序设备110的核苷酸碱基检出数据112。服务器设备102还可以与用户客户端设备114通信。具体地,服务器设备102可以向用户客户端设备114发送核碱基序列、误差数据和其他信息。
在一些实施方案中,服务器设备102包括分布式服务器集合,其中服务器设备102包括跨网络108分布并且位于相同或不同物理位置中的许多服务器设备。此外,服务器设备102可以包括内容服务器、应用程序服务器、通信服务器、网络托管服务器或另一类型的服务器。
如图1中进一步所示,服务器设备102可以包括测序系统104。通常,测序系统104分析从测序设备110接收的核苷酸碱基序列数据112,以确定核酸聚合物的核苷酸碱基序列,诸如样品基因组的核苷酸碱基序列。例如,测序系统104可以接收来自测序设备110的原始数据并且确定核酸片段的核苷酸碱基序列。在一些实施方案中,测序系统104确定DNA和/或RNA片段或寡核苷酸中核苷酸碱基的序列。在一些情况下,如上文所提及,测序系统104接收预处理的数据,其包括核苷酸碱基检出、质量度量形式的误差/准确性信息,和/或关于过滤的(例如,排除的)簇的数据。因此,在一些实施方式中,测序系统104将来自核苷酸碱基检出数据112的数据组织成有用的、用户可读的格式。
如图1中进一步示出,信噪比感知碱基检出系统106可以位于测序设备110上和/或服务器设备102上作为测序系统104的一部分。因此,在一些实施方案中,信噪比感知碱基检出系统106由(例如,完全或部分地位于)服务器设备102上实施。在又其他实施方案中,信噪比感知碱基检出系统106由环境100的一个或多个其他部件(诸如测序设备110)实施。具体地,信噪比感知碱基检出系统106可以多种不同的方式跨服务器设备102、网络108,和测序设备110实施。
如图1中进一步所示和指示,用户客户端设备114可以生成、存储、接收和发送数字数据。具体地,用户客户端设备114可以从服务器设备102或测序设备110接收测序数据。此外,用户客户端设备114可以与服务器设备102通信以接收核碱基序列以及测序循环内的不规则报告。用户客户端设备114可以因此在图形用户界面内向与用户客户端设备114相关联的用户呈现测序数据和核碱基检出的通知。在一些情况下,用户客户端设备114可以进一步呈现强度值边界、核苷酸碱基检出数据以及与计算和使用信噪比度量相关的其他信息用于显示。
图1中示出的用户客户端设备114可以包括各种类型的客户端设备。例如,在一些实施方案中,用户客户端设备114包括非移动设备,诸如台式计算机或服务器,或其他类型的客户端设备。在又其他实施方案中,用户客户端设备114包括移动设备,诸如膝上型计算机、平板、移动电话或智能电话。关于用户客户端设备114的附加的细节在下文关于图12论述。
如图1中进一步所示,用户客户端设备114包括测序应用程序116。测序应用程序116可以是在用户客户端设备114上存储和执行的网络应用程序或本机应用程序(例如,移动应用程序、桌面应用程序)。测序应用程序116可以从信噪比感知碱基检出系统106接收数据,并且可以呈现测序数据用于在用户客户端设备114处显示。此外,测序应用程序116可以提供关于强度值边界、经过滤的核苷酸碱基检出等的通知。在一些实施方式中,信噪比感知碱基检出系统106作为测序应用程序116的一部分位于用户客户端设备114上。
尽管图1示出经由网络108进行通信的环境100的部件,但是在某些实施方式中,环境100的部件还可以绕过网络108直接与彼此通信。例如,并且如先前所提及,在一些实施方式中,服务器设备102直接与测序设备110和/或用户客户端设备114通信。而且,信噪比感知碱基检出系统106可以访问容纳在服务器设备102上或由该服务器设备访问的一个或多个数据库,或者环境100中的其他地方。
如先前所提及,信噪比感知碱基检出系统106生成核苷酸样品载玻片的部分的信噪比度量。具体地,信噪比感知碱基检出系统106生成从位于该部分处或该部分内的标记的核苷酸碱基检测到的信号的信噪比度量。信噪比感知碱基检出系统106可以利用信噪比度量来提供各种核苷酸碱基检出特征。图2示出了根据一个或多个实施方案的生成并利用信噪比度量的信噪比感知碱基检出系统106的概述图。
如图2中所示,信噪比感知碱基检出系统106利用核苷酸样品载玻片202进行测序。核苷酸样品载玻片202可以包括接收或掺入标记的核苷酸碱基的寡核苷酸。具体地,核苷酸样品载玻片202可以在每个部分(例如,孔)内包括寡核苷酸簇。当被刺激时,标记的核苷酸碱基可以发射具有与核苷酸碱基类型相关联的特性的信号。
如图2中进一步所示,信噪比感知碱基检出系统106捕获核苷酸样品载玻片202的至少一个部分的图像204。具体地,当核苷酸样品载玻片202的部分内的标记的核苷酸碱基发射信号时,信噪比感知碱基检出系统106捕获图像204。如所示,在一个或多个实施方案中,信噪比感知碱基检出系统106捕获多个图像。例如,信噪比感知碱基检出系统106可以使用各种图像过滤器来捕获多个图像。为了说明,在一些实施方案中,信噪比感知碱基检出系统106利用双通道实施方式,捕获核苷酸样品载玻片202的部分的两个图像。具体地,信噪比感知碱基检出系统106使用第一图像过滤器使用第一图像捕获第一图像,并且使用第二图像过滤器捕获第二图像。第一图像和第二图像可以捕获对应于所使用的图像过滤器的发射信号的强度。在一些情况下,信噪比感知碱基检出系统106利用四通道实施方式并且捕获核苷酸样品载玻片202的部分的四个不同图像。类似于双通道实施方式,信噪比感知碱基检出系统106可以使用不同图像过滤器捕获用于四通道实施方式的每个图像。每个图像可以基于用于该图像的图像过滤器来捕获所发射信号的强度。因此,在一些情况下,四个图像中的每个图像描绘了具有不同强度的所发射信号。
如图2中所指示,图像204描绘了从位于核苷酸样品载玻片202的部分内的标记的核苷酸碱基发射的信号206。如先前所提及,信号206可以指示添加到核苷酸样品载玻片202的部分内的寡核苷酸的核苷酸碱基的类型。例如,如下文将更详细地论述,信号206可以具有指示核苷酸碱基类型的一个或多个对应的强度值。为了说明,在一些实施方式中,图像204中的每个图像捕获对应于信号206的至少一个强度值。
信号206可以具有一些相关联的噪声。具体地,信号206可以具有影响信号206的纯度的相关联噪声水平。因此,如图2所指示,信噪比感知碱基检出系统106可以生成信号206的信噪比度量208。例如,信噪比感知碱基检出系统106可以确定对应于信号206的缩放因子。在一个或多个实施方案中,信噪比感知碱基检出系统106使所确定的缩放因子等同于信号206。此外,信噪比感知碱基检出系统106可以确定对应于信号206的噪声水平。因此,信噪比感知碱基检出系统106可以利用缩放因子和噪声水平来生成信号206的信噪比度量208。
信噪比感知碱基检出系统106可以利用信噪比度量208来提供各种碱基检出特征。例如,如图2中所示,信噪比感知碱基检出系统106可以将信噪比度量208用于分布模型分段210。具体地,信噪比感知碱基检出系统106可以利用信噪比度量208来将诸如高斯混合模型之类的碱基检出分布模型分割成单独的碱基检出分布模型。在一些实施方式中,信噪比感知碱基检出系统106通过将单独的碱基检出分布模型拟合到多个信噪比范围中的每个范围来对碱基检出分布模型进行分段。实际上,如下文将进一步所论述,信噪比感知碱基检出系统106可以确定从核苷酸样品载玻片202的多个部分检测到的多个信号的信噪比度量(包括信噪比度量208)。信噪比感知碱基检出系统106进一步确定多个信噪比度量的多个信噪比范围。因此,信噪比感知碱基检出系统106可以使碱基检出分布拟合到信噪比范围中的每个范围。
信噪比感知碱基检出系统106可以进一步利用用于特定信噪比范围的碱基检出分布模型来生成具有属于该范围内的信噪比度量的信号的核苷酸碱基检出。因此,信噪比感知碱基检出系统106可以利用信噪比度量208来经由分布模型分段210生成信号206的核苷酸碱基检出。
如图2中进一步所示,信噪比感知碱基检出系统106可以利用信噪比度量208来进行信噪比过滤212。具体地,如果信噪比度量208未能满足信噪比阈值,则信噪比感知碱基检出系统106可以确立信噪比阈值,并且从核苷酸碱基检出数据中排除信号206(例如,核苷酸样品载玻片202的对应的部分)。
附加地,如图2中进一步所示,信噪比感知碱基检出系统106可以利用信噪比度量208来确定信号206的核苷酸碱基检出生成的质量度量214。例如,信噪比感知碱基检出系统106可以利用碱基检出质量模型来基于信噪比度量208确定质量度量214。
尽管许多上述论述(以及下文的论述)集中于确定核苷酸样品载玻片的部分的信噪比度量,但是应当理解,信噪比感知碱基检出系统106可以并行地确定核苷酸样品载玻片的多个部分中的每个部分的信噪比度量。例如,在一个或多个实施方案中,信噪比感知碱基检出系统106检测来自核苷酸样品载玻片的每个部分(例如,对应于簇的每个孔或每个部分)的信号,并且确定每个检测到的信号的信噪比度量。因此,信噪比感知碱基检出系统106可以利用各种信噪比度量来经由分段碱基检出分布模型确定核苷酸碱基检出、进行信噪比过滤,以及确定所生成的核苷酸碱基检出的质量度量。
如先前所提及,在一个或多个实施方案中,信噪比感知碱基检出系统106确定从核苷酸样品载玻片的部分内的标记的核苷酸碱基检测到的信号的信噪比度量。图3示出了根据一个或多个实施方案的用于确定信噪比度量的示图。
如图3中所示,信噪比感知碱基检出系统106捕获核苷酸样品载玻片302的至少一个部分的图像304。例如,用于测序设备110并且与信噪比感知碱基检出系统106相关联的相机捕获核苷酸样品载玻片302内的块的图像304,其中每个块包括包含簇的多个纳米孔或包含簇的多个子部分。如进一步所示,图像304描绘了从核苷酸样品载玻片302的至少一个部分(例如,从对应于簇的孔或子部分内的标记的核苷酸碱基)发射的信号306。
如图3中进一步所示,信噪比感知碱基检出系统106确定对应于信号306的缩放因子310。具体地,信噪比感知碱基检出系统106利用最小二乘模型308来确定缩放因子310。在一个或多个实施方案中,信噪比感知碱基检出系统106利用最小二乘模型308来确定对应于信号306的变异校正系数。在一个或多个实施方案中,诸如在使用双通道实施方式的情况下,变异校正系数包括缩放因子310和两个偏移因子(也称为通道特定偏移系数),该缩放因子考虑簇间强度分布中的标度变异,该两个偏移因子分别考虑簇间强度分布变异中沿着第一强度通道和第二强度通道的移位变异。
信噪比感知碱基检出系统106可以利用最小二乘模型308来通过确定标记的核苷酸碱基的测得强度(例如,对应于信号306的测得强度)与变异校正系数之间的关系来确定变异校正系数。信噪比感知碱基检出系统106可以进一步基于测得强度与变异校正系数之间的关系来确定误差函数。信噪比感知碱基检出系统106可以通过生成误差函数相对于缩放因子的偏导数来确定缩放因子310。具体地,在一些实施方式中,106利用最小二乘模型308来确定误差函数的两个偏导数:一者关于缩放因子310,并且另一者关于通道特定偏移因子。实际上,在一些实施方式中,信噪比感知碱基检出系统106利用最小二乘模型308来确定缩放因子310,如2020年10月27日提交的标题为“SYSTEMS AND METHODS FOR PRE-CLUSTER INTENSITY CORRECTION AND BASE CALLING”的美国专利申请号63/106,256中所描述,该美国专利申请的全部内容以引用方式并入本文。
如图3中进一步所示,信噪比感知碱基检出系统106确定对应于信号306的噪声水平312。具体地,如所示,信噪比感知碱基检出系统106可以使用(例如,信号306的)核苷酸样品载玻片302的部分的经校正强度值来确定噪声水平312。在一个或多个实施方案中,术语“经校正强度值”是指对应于从已经基于信号的一个或多个特征而调整的核苷酸样品载玻片的部分发射的信号的强度值。为了说明,在一个或多个实施方案中,经校正强度值包括已经校正以考虑偏移的强度值和对应于强度值的缩放因子。在校正时,在一些情况下,经校正强度值比针对信号最初测量的对应强度值更接近于核苷酸云的质心。例如,在双通道实施方式中,信噪比感知碱基检出系统106可以确定一对经校正强度值(例如,每个强度通道一个经校正强度值),使得该对比针对信号最初测量的对应的强度值对更靠近核苷酸云的质心。在一个或多个实施方案中,信噪比感知碱基检出系统106使用下式来确定经校正强度值:
在函数(1)中,和/>表示经校正强度值,并且IX和IY表示针对信号306最初测量的强度值。此外,S表示针对信号306确定的缩放因子(例如,缩放因子310),并且OX和OY表示对应于信号306的偏移因子。在四通道实施方式中,信噪比感知碱基检出系统106类似地操作以确定四个经校正强度值(例如,所使用的四个强度通道中的每个强度通道的一个经校正强度值)。在此类情况下,信噪比感知碱基检出系统106利用类似于函数(1)的函数,以通过并入它们相应偏移因子来确定经校正强度值。具体地,信噪比感知碱基检出系统106可以使用针对给定强度通道最初测量的强度值、针对该强度通道确定的偏移因子以及缩放因子来确定针对该强度通道的经校正强度值。
图3经由曲线图314提供了经校正强度值的可视化。曲线图314的轴线316a-316b表示在双通道实施方式中每个强度通道的强度值。曲线图314将核苷酸云318a-318d映射到具有它们相应强度值边界的强度值。如图3中所示,针对信号306最初测量的强度值对应于核苷酸云318d内的点320。此外,经校正强度值对应于点322。如进一步所示,对应于经校正强度值的点322更接近于核苷酸云318d的质心324。
在一个或多个实施方案中,信噪比感知碱基检出系统106通过确定经校正强度值与核苷酸云(诸如最近的核苷酸云或最近质心)的质心强度值之间的距离来确定噪声水平312。例如,在一个或多个实施方案中,信噪比感知碱基检出系统106如下确定噪声水平312,其中BX和BY表示质心强度值:
在一个或多个实施方案中,信噪比感知碱基检出系统106进一步使用针对一个或多个先前测序循环所确定的核苷酸样品载玻片302的相同部分所确定的噪声水平来确定噪声水平312。实际上,在一些实施方式中,信噪比感知碱基检出系统106存储在每个测序循环之后针对核苷酸样品载玻片302的部分确定的噪声水平。在一个或多个实施方案中,信噪比感知碱基检出系统106对先前测序循环的所存储噪声水平求平均,并且在确定当前测序循环的噪声水平312时利用经平均噪声水平(例如,通过将经平均噪声水平添加到使用函数2确定的噪声水平,通过对经平均噪声水平与使用函数2确定的噪声水平求平均等)。在一些实施方式中,信噪比感知碱基检出系统106利用先前测序循环的噪声水平的加权平均。例如,信噪比感知碱基检出系统106可以基于新近度将权重指定给针对先前测序循环确定的噪声水平。为了说明,信噪比感知碱基检出系统106可以将相对较高的权重指定给针对更近的测序循环确定的噪声水平。
在一些实施方式中,信噪比感知碱基检出系统106在确定当前测序循环的噪声水平时利用设定数目的先前测序循环的噪声水平。例如,信噪比感知碱基检出系统106可以基于用户输入确定要利用的先前测序循环的设定数目。在一些情况下,信噪比感知碱基检出系统106利用所有先前测序循环的噪声水平(例如,相同读数内或跨多个读数的所有噪声水平)。
尽管以上段落描述了使用与核苷酸样品载玻片的部分相关联的先前噪声水平来确定当前测序循环的该部分的噪声水平,但在一些情况下,信噪比感知碱基检出系统106利用与核苷酸样品载玻片的所有部分相关联的先前噪声水平。
如图3中所示,信噪比感知碱基检出系统106利用缩放因子310和噪声水平312来确定信号306的信噪比度量326。例如,信噪比感知碱基检出系统106可以利用缩放因子310与噪声水平312的比率来确定信噪比度量326。实际上,在一个或多个实施方案中,为了确定信噪比度量326,信噪比感知碱基检出系统106使缩放因子310等同于信号306(例如,将缩放因子310视为信号306)。
在一个或多个实施方案中,当确定信号的信噪比度量时,信噪比感知碱基检出系统106考虑定相或预定相。如本文所用,术语“定相”是指其中在特定循环对一个分子的测序将至少一个碱基落在其他分子之后的效应或情况。相反,如本文中所用,术语“预定相”是指其中在特定循环对一个分子的测序在其他分子之前跳跃至少一个碱基的效应或情况。在一个或多个实施方案中,为了校正定相或预定相的效应,信噪比感知碱基检出系统106可以在每个循环检测具有用于碱基掺入的强度值的信号,并且通过(i)从当前循环的强度值减去紧前一循环的强度值和(ii)从当前循环的强度值减去紧后一循环的强度值来校正强度值。实际上,在一个或多个实施方案中,信噪比感知碱基检出系统106校正定相或预定相的效应,如2020年6月23日发布的并且标题为“Methods and Systems for Analyzing ImageData”的美国专利10,689,696号中所描述的,该美国专利的全部内容以引用方式并入本文。
如先前所论述,在一个或多个实施方案中,信噪比感知碱基检出系统106利用对应于从用于分布模型分段的核苷酸样品载玻片的多个部分检测到的信号的信噪比度量。图4示出了根据一个或多个实施方案的利用信噪比度量进行分布模型分段的框图。
如图4中所示,信噪比感知碱基检出系统106确定信噪比度量402a-402d。具体地,基于在测序循环期间从核苷酸样品载玻片的多个部分检测到的信号,信噪比感知碱基检出系统106确定这些部分的信噪比度量。信噪比感知碱基检出系统106可以确定信噪比度量,如上文参考图3所论述。
如图4中进一步所示,信噪比感知碱基检出系统106将信噪比度量402a-402d分成不同的组。例如,信噪比感知碱基检出系统106可以利用信噪比范围来分离信噪比度量402a-402d。实际上,在一个或多个实施方案中,信噪比感知碱基检出系统106确立多个信噪比范围。信噪比感知碱基检出系统106可以基于用户输入、使用固定范围或基于针对当前测序循环确定的信噪比度量来确立信噪比范围(例如,确立覆盖最低信噪比度量集合的第一范围、确立覆盖第二最低信噪比度量集合的第二范围等)。尽管图4示出了特定数目的信噪比范围,但是信噪比感知碱基检出系统106可以确立各种数目的信噪比范围。
在一个或多个实施方案中,信噪比度量402a-402d中的每个信噪比度量对应于不同的信噪比范围。例如,信噪比度量402a可以对应于第一信噪比范围(例如,9.00-9.99),信噪比度量402b可以对应于第二信噪比范围(例如,10.00-10.99),信噪比度量402c可以对应于第三信噪比范围(例如,11.00-11.99),并且信噪比度量402d可以对应于第四信噪比范围(例如,12.00-12.99)。信噪比感知碱基检出系统106可以将从核苷酸样品载玻片的每个部分检测到的信号与信号对应的信噪比度量属于的信噪比范围相关联。实际上,如图4中所示,信噪比感知碱基检出系统106基于信噪比范围确立多组强度值404a-404d。例如,该组强度值404a包括与信噪比度量402a相关联(例如,与包括信噪比度量402a的第一信噪比范围相关联)的信号的强度值。
如进一步所示,信噪比感知碱基检出系统106生成来自核苷酸样品载玻片的部分的信号的强度值边界。例如,图4示出了具有对应于每个可能的核苷酸碱基(例如,A、T、C或G)的多组强度值边界(例如,强度值边界408)的曲线图406a-406d。
在一个或多个实施方案中,信噪比感知碱基检出系统106根据一个或多个碱基检出分布模型生成所述多组强度值边界。例如,信噪比感知碱基检出系统106可以根据第一碱基检出分布模型生成第一组强度值边界(例如,曲线图406a中所示的那些),根据第二碱基检出分布模型生成第二组强度值边界(例如,曲线图406b中示出的那些)等。
如图4中所示,信噪比感知碱基检出系统106可以利用碱基检出分布模型410来生成强度值边界。在一些情况下,碱基检出分布模型410包括单个碱基检出分布模型,但是在一些实施方式中,信噪比感知碱基检出系统106可以利用多个碱基检出分布模型(例如,针对每个信噪比范围的单独碱基检出分布模型)。此外,在一个或多个实施方案中,碱基检出分布模型410可以包括高斯分布模型,但是也可以利用其他碱基检出分布模型。
虽然图4中未示,但是信噪比感知碱基检出系统106可以利用该组强度值边界中的一者来生成信号的核苷酸碱基检出。具体地,信噪比感知碱基检出系统106可以利用对应于与信号相关联的信噪比范围的该组强度值边界(即,根据对应于信噪比范围的碱基检出分布模型)来生成核苷酸碱基检出。在一个或多个实施方案中,信噪比感知碱基检出系统106进一步利用针对信号确定的强度值生成核苷酸碱基检出。
为了说明,在确定信号具有属于第一信噪比范围(例如,9.00-9.99)内的对应的信噪比度量时,信噪比感知碱基检出系统106可以使用针对第一信噪比范围生成的该组强度值边界(例如,曲线图406a中所示的那些)来生成核苷酸碱基检出。信噪比感知碱基检出系统106可以进一步确定信号的该组强度值如何与该组强度值边界相关,并且相应地生成核苷酸碱基检出。例如,当确定信号的该组强度值属于特定核苷酸碱基的决策边界内时,信噪比感知碱基检出系统106可以生成指示信号与该核苷酸碱基相关联的核苷酸碱基检出。基于确定信号的该组强度值在所有核苷酸碱基的决策边界之外,信噪比感知碱基检出系统106可以基于每个核苷酸碱基的决策边界的接近度和/或基于与对应于每个核苷酸碱基的核苷酸云的质心的接近度来生成信号的核苷酸碱基检出。
因为信噪比感知碱基检出系统106根据对应于与信号相关联的信噪比范围的碱基检出分布模型生成信号的核苷酸碱基检出,所以在一些情况下信噪比感知碱基检出系统106可以生成具有类似强度值的信号的不同核苷酸碱基检出。为了说明,在一个或多个实施方案中,针对第一信噪比范围,信噪比感知碱基检出系统106根据第一碱基检出分布模型生成对应于不同核苷酸碱基的第一组强度值边界。针对第二信噪比范围,信噪比感知碱基检出系统106进一步根据第二碱基检出分布模型生成对应于不同核苷酸碱基的第二组强度值边界,该第二组强度值边界不同于第一组强度值边界。
此外,信噪比感知碱基检出系统106可以检测第一信号,该第一信号对应于第一信噪比范围内的第一信噪比度量并且具有第一组强度值边界之外和第二组强度值边界之外的一组强度值;以及检测第二信号,该第二信号对应于第二信噪比范围内的第二信噪比度量并且具有该组强度值(例如,与第一信号相同的该组强度值)。因此,信噪比感知碱基检出系统106可以基于第一碱基检出分布模型的第一组强度值边界生成第一信号的第一核苷酸碱基检出,并且基于第二碱基检出分布模型的第二组强度值边界生成第二信号的第二核苷酸碱基检出。实际上,即使两个信号具有一组相同的强度值,信噪比感知碱基检出系统106也可以利用两个不同的碱基检出分布模型来生成不同的核苷酸碱基检出。
通过生成用于各种信噪比范围的强度值边界,当与常规测序平台相比时,信噪比感知碱基检出系统106更灵活地操作。实际上,信噪比感知碱基检出系统106针对诸如检测到的信号的信噪比度量之类的特性来定制强度值边界,从而提供比常规平台更大的灵活性,常规平台往往针对所有信号利用同一组决策边界而不管它们的特性。通过如所述调整强度值边界,信噪比感知碱基检出系统106进一步比常规测序平台更准确地操作。具体地,信噪比感知碱基检出系统106使用更适合于那些信号的强度值边界生成信号的核苷酸碱基检出,因为强度值边界更接近地对应于信号的特性。
此外,通过针对不同的信噪比范围生成不同的强度值边界,信噪比感知碱基检出系统106更准确地确定针对检测到的信号生成的核苷酸碱基检出的质量。实际上,如图4中可见,曲线图406a-406d各自包括一组虚轮廓线。等高线可以表示对应于核苷酸碱基检出的不同质量度量(例如,Q评分)。例如,最靠近给定强度边界值定位的等高线可以对应于指示与强度值边界相关联的核苷酸碱基检出的准确性的相对高置信度(例如,低误差概率)的质量度量,而更远的等高线对应于指示相对较低置信度的质量度量。因此,与强度值边界相关联的等高线指示如果指定对应于强度值边界的核苷酸碱基检出,则远离强度值边界的强度值对应于较低置信度。
如图4中进一步可见,与强度值边界相关联的一组虚轮廓线在曲线图406a-406d之间改变(例如,随着曲线图的信噪比范围包括更高的信噪比度量,轮廓线更靠近在一起)。因此,与核苷酸碱基检出本身的生成一样,曲线图406a-406d指示确定还针对对应信号的特性定制核苷酸碱基检出的质量。因此,使用单独的强度值边界生成核苷酸碱基检出可以导致更准确地确定那些核苷酸碱基检出的质量,这将在下文参考图6更详细地进一步论述。
图4描绘了在使用两个强度通道的双通道实施方式中强度值边界和对应核苷酸碱基检出的生成。然而,应注意,信噪比感知碱基检出系统106可以类似地在使用四个强度通道的四通道实施方式中操作。例如,在一些实施方式中,用于生成强度值边界的碱基检出分布模型被配置为根据四个强度通道生成强度值边界。
如上文进一步论述,在一个或多个实施方案中,信噪比感知碱基检出系统106利用与核苷酸样品载玻片的部分相关联的信噪比度量来从核苷酸碱基检出数据中滤除针对该部分生成的一个或多个核苷酸碱基检出。图5示出了根据一个或多个实施方案的利用信号的信噪比度量来过滤核苷酸碱基检出的信噪比感知碱基检出系统106的框图。
如图5中所示,信噪比感知碱基检出系统106执行将针对信号确定的信噪比度量与信噪比阈值进行比较的动作502。实际上,在一个或多个实施方案中,信噪比感知碱基检出系统106确立用于过滤核苷酸碱基检出的信噪比阈值。信噪比感知碱基检出系统106可以基于用户输入确立信噪比阈值,或利用预定的信噪比阈值。在一些实施方式中,信噪比感知碱基检出系统106基于历史数据来确立信噪比阈值。例如,信噪比感知碱基检出系统106可以分析先前的测序数据以确定哪些信噪比度量通常与低于期望质量度量的核苷酸碱基检出相关联。因此,信噪比感知碱基检出系统106可以确立足够高的信噪比阈值以滤除具有此类不期望的信噪比度量的信号。在一些情况下,信噪比感知碱基检出系统106随着每个测序循环或一系列测序循环调整信噪比阈值。然而,在一些情况下,信噪比感知碱基检出系统106在所有测序循环中利用恒定的信噪比阈值。
如图5中进一步所示,在确定信噪比度量未能满足(例如,小于)信噪比阈值时,信噪比感知碱基检出系统106执行从核苷酸碱基检出数据中排除对应于信号的核苷酸碱基检出的动作504。具体地,在一些实施方式中,当确定对应于信号的信噪比度量未能满足信噪比阈值时,信噪比感知碱基检出系统106确定信号质量不良并且对应的核苷酸碱基检出(在生成时)不可靠。因此,信噪比感知碱基检出系统106从核苷酸碱基检出数据中排除核苷酸碱基检出。
在一些实施方式中,信噪比感知碱基检出系统106进一步从核苷酸碱基检出数据中排除针对从核苷酸样品载玻片的相同部分检测到的一个或多个后续信号生成的一个或多个后续核苷酸碱基检出。换句话说,信噪比感知碱基检出系统106可以排除在随后的测序循环期间针对核苷酸样品载玻片的部分生成的所有核苷酸碱基检出。如上文所述,信噪比感知碱基检出系统106可以因此排除所有核苷酸碱基检出或不继续确定对应于图案化核苷酸样品载玻片的孔的寡核苷酸簇或该簇的非图案化核苷酸样品载玻片的子部分的核苷酸碱基检出。在一些实施方式中,信噪比感知碱基检出系统106还从核苷酸碱基检出数据中排除针对核苷酸样品载玻片的该部分生成的一个或多个先前的核苷酸碱基检出。
实际上,在一个或多个实施方案中,在确定针对信号确定的信噪比度量未能满足信噪比阈值时,信噪比感知碱基检出系统106完全滤除核苷酸样品载玻片的对应部分。换句话说,基于未能满足信噪比阈值,信噪比感知碱基检出系统106确定核苷酸样品载玻片的对应的部分质量不良并且不可靠。因此,在确定未能满足信噪比阈值时,信噪比感知碱基检出系统106可以从随后的测序循环中移除核苷酸样品载玻片的部分(例如,信噪比感知碱基检出系统106将不分析未来循环中的部分)。
如图5中所示,当确定信噪比度量确实满足(例如,等于或大于)信噪比阈值时,信噪比感知碱基检出系统106执行将对应于信号的核苷酸碱基检出包括在核苷酸碱基检出数据中的动作506。例如,信噪比感知碱基检出系统106可以生成信号的核苷酸碱基检出并且将该核苷酸碱基检出添加到核苷酸碱基检出数据。
在一个或多个实施方案中,信噪比感知碱基检出系统106在每个测序循环将针对核苷酸样品载玻片的部分确定的信噪比度量与信噪比阈值进行比较。因此,在任何测序循环,信噪比感知碱基检出系统106可以确定从核苷酸碱基检出数据中排除针对该核苷酸样品载玻片的该部分生成的核苷酸碱基检出。
通过使用信噪比度量滤除某些核苷酸碱基检出(或其完全对应的核苷酸样品载玻片的部分),信噪比感知碱基检出系统106比常规测序平台更准确地操作。实际上,当与通常仅依赖于基于纯化的过滤的常规平台相比时,信噪比感知碱基检出系统106可以更准确地识别质量不良的核苷酸碱基检出(或核苷酸样品载玻片的质量不良的部分)。实际上,如上文所提及,基于纯化值的过滤可能无法识别在早期测序循环中可能休眠但随着测序进展而显现的问题。因此,专门依赖于用于过滤的纯化值的常规平台往往在所得到的核苷酸碱基检出数据内包括错误的核苷酸碱基检出。然而,通过利用信噪比度量进行过滤,信噪比感知碱基检出系统106可以更准确地识别质量不良的核苷酸碱基检出并将它们从核苷酸碱基检出数据中排除,从而提供更准确的测序结果。
如上文所提及,在一个或多个实施方案中,信噪比感知碱基检出系统106确定质量度量,该质量度量估计利用信噪比度量为信号生成的核苷酸碱基检出的误差。图6示出了根据一个或多个实施方案的用于生成核苷酸碱基检出的质量度量的框图。
如图6中所示,信噪比感知碱基检出系统106确定对应于与图像604(或多个图像)一起捕获的信号的信噪比度量602。如进一步所示,信噪比感知碱基检出系统106生成信号的核苷酸碱基检出610。例如,信噪比感知碱基检出系统106可以根据如上文参考图3所论述的碱基检出分布模型,利用信噪比度量602生成核苷酸碱基检出610。
如图6中进一步所示,信噪比感知碱基检出系统106生成用于核苷酸碱基检出610的质量度量612以估计核苷酸碱基检出610的误差。具体地,信噪比感知碱基检出系统106利用碱基检出质量模型606来生成质量度量612。在一个或多个实施方案中,碱基检出质量模型606接受与信号的特征和/或核苷酸样品载玻片的对应部分的特征相关的一个或多个维度(例如,输入),并且基于这些维度生成质量度量。因此,信噪比感知碱基检出系统106可以提供信噪比度量602作为碱基检出质量模型606的输入之一。
如图6中所示,并且如先前所提及,碱基检出质量模型606可以包括Phred算法(如曲线图608所指示)。因此,信噪比感知碱基检出系统106可以利用信噪比度量602作为Phred算法的输入之一。此外,信噪比感知碱基检出系统106可以利用Phred算法来生成估计核苷酸碱基检出610的准确性的Q评分(即,Phred质量评分)。换句话说,质量度量612可以包括由Phred算法生成的Q评分。
在一些情况下,信噪比感知碱基检出系统106利用针对对应于信号的核苷酸碱基检出所确定的质量度量来将核苷酸碱基检出映射到参考基因组。具体地,信噪比感知碱基检出系统106可以将位于核苷酸样品载玻片的发射信号的部分处的寡核苷酸映射到参考基因组。因此,在一个或多个实施方案中,信噪比感知碱基检出系统106通过检测来自在某基因组位置处掺入正生长的寡核苷酸中的标记的核苷酸碱基的信号来检测信号,该基因组位置稍后在与参考基因组的比对中确定。附加地,信噪比感知碱基检出系统106生成用于对应于信号的基因组位置处的核苷酸碱基检出的信噪比度量。此外,信噪比感知碱基检出系统106可以确定核苷酸碱基检出的质量度量,并且利用该质量度量将核苷酸碱基检出映射到参考基因组。
如上文所指示,在一些实施方式中,信噪比感知碱基检出系统106利用除信噪比度量之外的值来确定核苷酸碱基检出的质量度量。例如,在一些情况下,除了信噪比度量之外,信噪比感知碱基检出系统106还利用对应于信号的纯化值。为了说明,在一些情况下,基于信号的强度值与最近质心的强度值之间以及信号的强度值与至少一个附加的质心的强度值之间的距离,信噪比感知碱基检出系统106确定信号的纯化值(例如,核苷酸样品载玻片的对应部分)。在一些情况中,信噪比感知碱基检出系统106利用第二最近质心作为附加的质心。因此,信噪比感知碱基检出系统106可以利用碱基检出质量模型基于信噪比度量和纯化值来生成质量度量。
通过利用对应于信号的信噪比度量来生成对应于该信号的核苷酸碱基检出的质量度量,当与常规测序平台相比时,信噪比感知碱基检出系统106可以更准确地估计核苷酸碱基检出的质量。实际上,通过将信噪比度量并入到分析中,信噪比感知碱基检出系统106利用附加的质量指示剂。因此,信噪比感知碱基检出系统106利用比常规测序平台更多的信息来确定质量。
如上文所提及,信噪比感知碱基检出系统106提供了对核苷酸样品载玻片的质量不良的部分的改进过滤。具体地,信噪比感知碱基检出系统106更准确地识别质量不良的部分,并且排除对应的核苷酸碱基检出被生成或被包括在核苷酸碱基检出数据中。因此,当与可能未能识别核苷酸样品载玻片的有问题的部分的常规测序平台相比时,信噪比感知碱基检出系统106提供更准确的测序结果。
研究人员进行研究以确定与各种信噪比度量相关联的核苷酸样品载玻片的部分的核苷酸碱基检出误差率。具体地,研究人员分析了跨一系列测序循环的核苷酸碱基检出误差率。图7示出了显示根据一个或多个实施方案的具有各种信噪比度量的一个或多个核苷酸样品载玻片的部分的核苷酸碱基检出误差率的曲线图。
如图7的曲线图所示,与较低信噪比度量(例如,SNR=4、SNR=5等)相关联的一个或多个核苷酸样品载玻片的测试部分表现出核苷酸碱基检出的高误差率。比较而言,与较高信噪比度量(例如,SNR=15、SNR=14等)相关联的部分与核苷酸碱基检出的相对较低误差率相关联。因此,通过从核苷酸碱基检出数据中排除与具有较低信噪比度量的部分相关联的核苷酸碱基检出,信噪比感知碱基检出系统106防止在核苷酸碱基检出数据内包括高误差数据。因此,信噪比感知碱基检出系统106在核苷酸碱基检出数据中提供更准确、可靠的碱基检出。
研究人员进行了附加的研究以比较信噪比感知碱基检出系统106的各种实施方案的有效性。图8A至图8B示出了根据一个或多个实施方案的反映关于信噪比感知碱基检出系统106的有效性的研究结果的曲线图。
具体地,图8A-8B的曲线图比较了信噪比感知碱基检出系统106的实施方案与基线核苷酸碱基检出系统(标记为“RTA3”)的性能。这些曲线图进一步比较了利用纯化过滤器而不使用分布模型分段(标记为“LS,无SNR,纯化过滤”)的信噪比感知碱基检出系统106的一个实施方案的性能。这些曲线图示出了使用纯化过滤器以及分布模型分段(标记为“LS,有SNR,纯化过滤”)的信噪比感知碱基检出系统106的另一实施方案的性能。此外,这些曲线图示出了使用分布模型分段和利用信噪比阈值的过滤器(标记为“LS,有SNR,SNR过滤”)的信噪比感知碱基检出系统106的又一实施方案的性能。
图8A的曲线图示出了基于所分析的核苷酸样品载玻片的部分(例如,孔)的分数的与每个测试模型相关联的核苷酸碱基检出误差率。例如,所分析的部分的分数可以基于通过由测试模型实施的过滤器(例如,纯化过滤器或基于信噪比阈值的过滤器)并且与参照物(例如,参照基因组)对齐的部分的分数。如图8A中所示,信噪比度量的实施方式导致较低的核苷酸碱基检出误差率。更具体地,分布模型分段和信噪比阈值的使用在所有比较的模型中提供最低的核苷酸碱基检出误差率。如进一步所述,图8A的曲线图示出调整用于滤除核苷酸样品载玻片的部分的阈值对误差率具有相反的影响(即,在x轴上向右移动对应于较低的阈值,并且因此对应于通过过滤器的较高百分比的部分,从而导致较高的误差率)。
图8B的曲线图比较了跨一系列测序循环的模型的性能。如所示,与每个模型相关联的误差率随着该模型经过一系列测序循环而增加。然而,信噪比感知碱基检出系统106的实施方案提供最低误差率。此外,如上文参考图8A的曲线图所论述,由信噪比感知碱基检出系统106使用分布模型分段和信噪比阈值提供了所有比较模型中的最低核苷酸碱基检出误差率。因此,如图8A和图8B两者所示,当生成核苷酸碱基检出时,信噪比度量的实施方式提供了改进的准确性。
图1至图8B、对应的文本和示例提供信噪比感知检出系统106的许多不同方法、系统、设备和非暂态计算机可读介质。除了前述内容之外,还可以就包括用于实现特定结果的动作的流程图(如图9至图11中所示)而言描述一个或多个实施方案。图9至图11可以用更多或更少的动作来执行。此外,这些动作可以按不同顺序执行。附加地,本文所描述的动作可以重复或与彼此并行地执行或与相同或类似动作的不同实例并行地执行。
图9示出根据一个或多个实施方案的用于使用信噪比度量生成核苷酸碱基检出的质量度量的一系列动作900的流程图。虽然图9示出根据一个实施方案的动作,替代实施方案可以省略、添加、重新排序和/或修改图9中所示的任何动作。在一些实施方式中,图9的动作作为方法的一部分来执行。在一些情况下,非暂态计算机可读介质在其上存储当由至少一个处理器执行时导致计算设备执行图9的动作的指令。在一些实施方案中,系统执行图9的动作。例如,在一种或多种情况下,系统包括至少一个处理器和包括指令的非暂态计算机可读介质,该指令在由该至少一个处理器执行时使得该系统执行图9的动作。
一系列动作900包括用于检测来自核苷酸样品载玻片的部分内的标记的核苷酸碱基的信号的动作902。例如,动作902可以涉及检测来自图案化流通池的孔内或非图案化流通池的子部分内的标记的核苷酸碱基的信号。
附加地,一系列动作900包括确定对应于该信号的缩放因子和噪声水平的动作904。例如,动作904可以涉及基于信号的强度值针对核苷酸样品载玻片的部分确定对应于信号的缩放因子和噪声水平。
在一个或多个实施方案中,信噪比感知碱基检出系统106基于信号的强度值,通过以下方式针对核苷酸样品载玻片的部分确定对应于信号的噪声水平:针对核苷酸样品载玻片的部分,确定信号的经校正强度值;以及基于该信号的经校正强度值确定对应于该信号的噪声水平。在一些情况下,对于核苷酸样品载玻片的部分,信噪比感知碱基检出系统106通过基于信号的强度值、对应于信号的缩放因子和对应于信号的校正偏移因子确定经校正强度值来确定信号的经校正强度值。在一些情况中,信噪比感知碱基检出系统106基于信号的经校正强度值通过以下方式确定对应于信号的噪声水平:确定对应于信号的核苷酸碱基检出的质心强度值;以及确定该质心强度值与该信号的经校正强度值之间的距离。
在一个或多个实施方案中,信噪比感知碱基检出系统106为核苷酸样品载玻片的部分确定一个或多个先前测序循环的平均噪声水平。因此,对于核苷酸样品载玻片的部分,信噪比感知碱基检出系统106可以通过基于一个或多个先前测序循环的平均噪声水平确定当前测序循环的噪声水平来确定对应于信号的噪声水平。
在一些实施方式中,信噪比感知碱基检出系统106针对核苷酸样品载玻片的部分确定多个先前测序循环的多个噪声水平;通过基于测序循环新近度将加权值应用于多个噪声水平来确定多个先前测序循环的加权平均噪声水平;以及通过基于多个先前测序循环的加权平均噪声水平确定当前测序循环的噪声水平,针对核苷酸样品载玻片的部分,确定对应于信号的噪声水平。
在一些实施方式中,对于核苷酸样品载玻片的部分,信噪比感知碱基检出系统106通过以下方式基于信号的强度值确定对应于信号的缩放因子:确定标记的核苷酸碱基的测得强度与包括缩放因子的变异校正系数之间的关系;基于测得强度与变异校正系数之间的关系确定误差函数;通过生成误差函数相对于缩放因子的偏导数来确定缩放因子。
此外,一系列动作900包括基于缩放因子和噪声水平来生成信噪比度量的动作906。例如,动作906可以涉及基于缩放因子和噪声水平生成用于核苷酸样品载玻片的部分的信噪比度量。在一个或多个实施方案中,信噪比感知碱基检出系统106通过生成图案化流通池的孔或非图案化流通池的子部分的信噪比度量来生成核苷酸样品载玻片的部分的信噪比度量。
一系列动作900进一步包括基于信噪比度量来生成质量度量的动作908。具体地,动作908可以涉及利用碱基检出质量模型生成质量度量,该质量度量基于信噪比度量来估计对应于信号的核苷酸碱基检出的误差。在一些实施方式中,信噪比感知碱基检出系统106通过生成Phred质量评分来生成基于信噪比度量估计对应于信号的核苷酸碱基检出的误差的质量度量,该Phred质量评分基于信噪比度量估计对应于信号的核苷酸碱基检出的准确性。
在一些实施方式中,基于信号的强度值与最近质心的强度值之间以及信号的强度值与至少一个附加的质心的强度值之间的距离,信噪比感知碱基检出系统106进一步确定核苷酸样品载玻片的部分的纯化值。因此,信噪比感知碱基检出系统106可以利用碱基检出质量模型基于信噪比度量和纯化值来生成质量度量。
图10示出根据一个或多个实施方案的用于使用信噪比度量来过滤对应于信号的核苷酸碱基检出的一系列动作1000的流程图。虽然图10示出根据一个实施方案的动作,替代实施方案可以省略、添加、重新排序和/或修改图10中所示的任何动作。在一些实施方式中,图10的动作作为方法的一部分来执行。在一些情况下,非暂态计算机可读介质在其上存储当由至少一个处理器执行时导致计算设备执行图10的动作的指令。在一些实施方案中,系统执行图10的动作。例如,在一种或多种情况下,系统包括至少一个处理器和包括指令的非暂态计算机可读介质,该指令在由该至少一个处理器执行时使得该系统执行图10的动作。
一系列动作1000包括从核苷酸样品载玻片的部分内的标记的核苷酸碱基检测信号的动作1002。例如,动作1002涉及检测来自图案化流通池的孔内或非图案化流通池的子部分内的标记的核苷酸碱基的信号。在一些情况下,信噪比感知碱基检出系统106通过检测来自在某基因组位置处掺入正生长的寡核苷酸中的标记的核苷酸碱基的信号来检测信号,该基因组位置稍后在与参考基因组的比对中确定。
一系列动作1000还包括确定信号的缩放因子和噪声水平的动作1004。例如,动作1004可以涉及基于信号的强度值针对核苷酸样品载玻片的部分确定对应于信号的缩放因子和噪声水平。
在一个或多个实施方案中,信噪比感知碱基检出系统106为核苷酸样品载玻片的部分确定一个或多个先前测序循环的平均噪声水平。因此,对于核苷酸样品载玻片的部分,信噪比感知碱基检出系统106可以通过基于一个或多个先前测序循环的平均噪声水平确定当前测序循环的噪声水平来确定对应于信号的噪声水平。
附加地,一系列动作1000包括基于缩放因子和噪声水平生成信噪比度量的动作1006。例如,动作1006可以涉及基于缩放因子和噪声水平生成用于核苷酸样品载玻片的部分的信噪比度量。在一些情况中,信噪比感知碱基检出系统106通过使缩放因子等于信号以确定缩放因子对噪声水平的比率来生成信噪比度量。在一些情况下,信噪比感知碱基检出系统106生成用于对应于信号的基因组位置处的核苷酸碱基检出的信噪比度量。
此外,动作系列1000包括基于信噪比度量过滤对应于信号的核苷酸碱基检出的动作1008。例如,动作1008可以涉及基于将信噪比度量与信噪比阈值进行比较,将对应于信号的核苷酸碱基检出包括在核苷酸碱基检出数据内或从核苷酸碱基检出数据中排除。在一些实施方式中,信噪比意识碱基检出系统106排除对应于图案化流通池的孔或非图案化流通池的子部分的信号的核苷酸碱基检出。
在一些实施方式中,基于确定信噪比度量低于信噪比阈值,信噪比感知碱基检出系统106排除对应于从添加到核苷酸样品载玻片的部分内的寡核苷酸簇的后续标记的核苷酸碱基检测到的后续信号的后续核苷酸碱基检出。
图11示出了根据一个或多个实施方案的用于使用信噪比度量生成信噪比范围的强度值边界的动作系列1100的流程图。虽然图11示出根据一个实施方案的动作,替代实施方案可以省略、添加、重新排序和/或修改图11中所示的任何动作。在一些实施方式中,图11的动作作为方法的一部分来执行。在一些情况下,非暂态计算机可读介质在其上存储当由至少一个处理器执行时导致计算设备执行图11的动作的指令。在一些实施方案中,系统执行图11的动作。例如,在一种或多种情况下,系统包括至少一个处理器和包括指令的非暂态计算机可读介质,该指令在由该至少一个处理器执行时使得该系统执行图11的动作。
动作系列1100包括从核苷酸样品载玻片的部分内的标记的核苷酸碱基检测信号的动作1102。例如,动作1102可以包括检测来自图案化流通池的孔内或非图案化流通池的子部分内的标记的核苷酸碱基的信号。
动作系列1100还包括生成信号的信噪比度量的动作1104。例如,动作1104可以包括基于信号和对应于信号的噪声水平生成至少一个核苷酸样品载玻片的部分的信噪比度量。
动作系列1100进一步包括确定信噪比度量的信噪比范围的动作1106。实际上,信噪比感知碱基检出系统106可以确定多个信噪比范围。
此外,动作系列包括生成信噪比范围的强度值边界的动作1108。例如,动作1108可以包括针对信噪比范围中的每个信噪比范围,根据一个或多个碱基检出分布模型生成用于区分对应于不同核苷酸碱基的信号的强度值边界。在一个或多个实施方案中,根据一个或多个碱基检出分布模型生成用于区分对应于不同核苷酸碱基的信号的强度值边界包括针对信噪比范围中的每个信噪比范围根据一个或多个高斯分布模型生成强度值边界。
在一些情况下,信噪比感知碱基检出系统106检测来自一子组标记的核苷酸碱基的信号,该子组标记的核苷酸碱基来自核苷酸样品载玻片的部分内的寡核苷酸簇;基于该信号生成该核苷酸样品载玻片的该部分的在信噪比范围内的信噪比度量;以及基于对应于信噪比范围的强度值边界中的一组强度值边界,确定对应于该信号的核苷酸碱基检出。此外,信噪比感知碱基检出系统106可以检测来自一子组附加的标记的核苷酸碱基的附加的信号,该一子组附加的标记的核苷酸碱基来自核苷酸样品载玻片的附加的部分内的附加的寡核苷酸簇;基于附加的信号为核苷酸样品载玻片的附加的部分生成在附加的信噪比范围内的附加的信噪比度量,其中附加的信噪比范围不同于信噪比范围;以及基于对应于附加的信噪比范围的强度值边界中的一组附加的强度值边界,确定对应于附加的信号的附加的核苷酸碱基检出。
在一个或多个实施方案中,针对该信噪比范围中的每个信噪比范围,根据该一个或多个碱基检出分布模型生成用于区分对应于不同核苷酸碱基的信号的强度值边界包括:针对第一信噪比范围,根据第一碱基检出分布模型生成对应于不同核苷酸碱基的第一组强度值边界;以及针对第二信噪比范围,根据第二碱基检出分布模型生成对应于不同核苷酸碱基的第二组强度值边界,该第二组强度值边界不同于该第一组强度值边界。
在一些情况下,信噪比感知碱基检出系统106检测第一信号,该第一信号对应于第一信噪比范围内的第一信噪比度量并且具有第一组强度值边界之外和第二组强度值边界之外的一组强度值;检测第二信号,该第二信号对应于该第二信噪比范围内的第二信噪比度量并且具有该组强度值;基于第一碱基检出分布模型的第一组强度值边界生成第一信号的第一核苷酸碱基检出;以及基于第二碱基检出分布模型的第二组强度值边界生成第二信号的第二核苷酸碱基检出。
本文所述的方法可与多种核酸测序技术结合使用。特别适用的技术是其中核酸附接到阵列中的固定位置处使得其相对位置不改变并且其中该阵列被重复成像的那些技术。在不同颜色通道(例如,与用于将一种核苷酸碱基类型与另一种核苷酸碱基类型区分开的不同标记吻合)中获得图像的实施方案特别适用。在一些实施方案中,确定靶核酸(即,核酸聚合物)的核苷酸序列的过程可以是自动化过程。优选的实施方案包括边合成边测序(SBS)技术。
SBS技术通常包括通过针对模板链反复加入核苷酸进行的新生核酸链的酶促延伸。在传统的SBS方法中,可在每次递送中在存在聚合酶的情况下将单个核苷酸单体提供给靶核苷酸。然而,在本文所述的方法中,可在递送中存在聚合酶的情况下向靶核酸提供多于一种类型的核苷酸单体。
SBS可利用具有终止子部分的核苷酸单体或缺少任何终止子部分的核苷酸单体。使用缺少终止子的核苷酸单体的方法包括例如焦磷酸测序和使用γ-磷酸标记的核苷酸的测序,如下文进一步详细描述的。在使用缺少终止子的核苷酸单体的方法中,在每个循环中加入的核苷酸的数目通常是可变的,并且该数目取决于模板序列和核苷酸递送的方式。对于利用具有终止子部分的核苷酸单体的SBS技术,终止子在使用的测序条件下可为有效不可逆的,如利用双脱氧核苷酸的传统桑格测序的情况,或者终止子可为可逆的,如由Solexa(现为Illumina,Inc.)开发的测序方法的情况。
SBS技术可利用具有标记部分的核苷酸单体或缺少标记部分的核苷酸单体。因此,可基于以下项来检测掺入事件:标记的特性,诸如标记的荧光;核苷酸单体的特性,诸如分子量或电荷;掺入核苷酸的副产物,诸如焦磷酸盐的释放;等等。在测序试剂中存在两种或更多种不同的核苷酸的实施方案中,不同的核苷酸可以是彼此可区分的,或者另选地,两种或更多种不同的标记在所使用的检测技术下可以是不可区分的。例如,测序试剂中存在的不同核苷酸可具有不同的标记,并且它们可使用适当的光学器件进行区分,如由Solexa(现为Illumina,Inc.)开发的测序方法所例示。
优选的实施方案包括焦磷酸测序技术。焦磷酸测序检测当将特定的核苷酸掺入新生链中时无机焦磷酸盐(PPi)的释放(Ronaghi,M.、Karamohamed,S.、Pettersson,B.、Uhlen,M.和Nyren,P.(1996年),“Real-time DNA sequencing using detection ofpyrophosphate release.”,Analytical Biochemistry 242(1),84-9;Ronaghi,M.(2001)“Pyrosequencing sheds light on DNA sequencing.”Genome Res.,11(1),3-11;Ronaghi,M.,Uhlen,M.and Nyren,P.(1998)“A sequencing method based on real-timepyrophosphate.”Science 281(5375),363;美国专利号6,210,891;美国专利号6,258,568和美国专利号6,274,320,这些文献的公开内容全文以引用方式并入本文)。在焦磷酸测序中,释放的PPi可通过被腺苷三磷酸(ATP)硫酸化酶立即转化为ATP成来进行检测,并且通过荧光素酶产生的光子来检测所产生的ATP水平。待测序的核酸可附接到阵列中的特征部,并且可对阵列进行成像以捕获由于在阵列的特征部处掺入核苷酸而产生的化学发光信号。可在用特定核苷酸类型(例如,A、T、C或G)处理阵列后获得图像。在添加每种核苷酸类型后获得的图像将在阵列中哪些特征部被检测到方面不同。图像中的这些差异反映阵列上的特征部的不同序列内容。然而,每个特征部的相对位置将在图像中保持不变。可使用本文所述的方法存储、处理和分析图像。例如,在用每种不同核苷酸类型处理阵列后获得的图像可以与本文针对从用于基于可逆终止子的测序方法的不同检测通道获得的图像所例示的相同方式进行处理。
在另一种示例性类型的SBS中,通过逐步添加可逆终止子核苷酸来完成循环测序,这些可逆终止子核苷酸包含例如可裂解或可光漂白的染料标记,如例如WO 04/018497和美国专利号7,057,026所述,这两份专利的公开内容以引用方式并入本文。该方法由Solexa(现为Illumina Inc.)商业化,并且还在WO 91/06678和WO 07/123,744中有所描述,这些文献中的每一者的公开内容以引用方式并入本文。荧光标记终止子(其中终止可以是可逆的并且荧光标记可被切割)的可用性有利于高效的循环可逆终止(CRT)测序。聚合酶也可共工程化以有效地掺入这些经修饰的核苷酸并从这些经修饰的核苷酸延伸。
优选地,在基于可逆终止子的测序实施方案中,标记在SBS反应条件下基本上不抑制延伸。然而,检测标记可以是可移除的,例如通过裂解或降解移除。可在将标记掺入到阵列化核酸特征部中后捕获图像。在特定实施方案中,每个循环涉及将四种不同的核苷酸类型同时递送到阵列,并且每种核苷酸类型具有在光谱上不同的标记。然后可获得四个图像,每个图像使用对四个不同标记中的一个标记具有选择性的检测通道。另选地,可顺序地添加不同的核苷酸类型,并且可在每个添加步骤之间获得阵列的图像。在此类实施方案中,每个图像将示出已掺入特定类型的核苷酸的核酸特征部。由于每个特征部的不同序列内容,不同特征部将存在于或不存在于不同图像中。然而,特征部的相对位置将在图像中保持不变。通过此类可逆终止子-SBS方法获得的图像可如本文所述进行存储、处理和分析。在图像捕获步骤后,可移除标记并且可移除可逆终止子部分以用于核苷酸添加和检测的后续循环。已在特定循环中以及在后续循环之前检测到标记之后移除这些标记可提供减少循环之间的背景信号和串扰的优点。可用的标记和去除方法的示例在下文进行阐述。
在特定实施方案中,一些或所有核苷酸单体可包括可逆终止子。在此类实施方案中,可逆终止子/可裂解荧光团可包括经由3'酯键连接到核糖部分的荧光团(Metzker,Genome Res.15:1767-1776(2005年),该文献以引用方式并入本文)。其他方法已将终止子化学与荧光标记的裂解分开(Ruparel等人,Proc Natl Acad Sci USA 102:5932-7(2005年),该文献全文以引用方式并入本文)。Ruparel等人描述了可逆终止子的发展,这些可逆终止子使用小的3'烯丙基基团来阻断延伸,但是可通过用钯催化剂进行的短时间处理来容易地去阻断。荧光团经由可光裂解的接头附接到碱基,该可光裂解的接头可通过暴露于长波长紫外光30秒来容易地裂解。因此,二硫化物还原或光裂解可用作可裂解的接头。可逆终止的另一种方法是使用天然终止,该天然终止在将大体积染料放置在dNTP上之后接着发生。dNTP上存在带电大体积染料可通过空间位阻和/或静电位阻而充当高效的终止子。除非染料被移除,否则一个掺入事件的存在防止进一步的掺入。染料的裂解移除荧光团并有效地逆转终止。修饰的核苷酸的示例还描述于美国专利号7,427,673和美国专利号7,057,026中,其公开内容全文以引用方式并入本文。
可与本文所述的方法和系统一起利用的附加的示例性SBS系统和方法描述于美国专利申请公布号2007/0166705、美国专利申请公布号2006/0188901、美国专利号7,057,026、美国专利申请公布号2006/0240439、美国专利申请公布号2006/0281109、PCT公布号WO05/065814、美国专利申请公布号2005/0100900、PCT公布号WO 06/064199、PCT公布号WO07/010,251、美国专利申请公布号2012/0270305和美国专利申请公布号2013/0260372中,这些文献的公开内容全文以引用方式并入本文。
一些实施方案可使用少于四种不同标记来使用对四种不同核苷酸的检测。例如,可以利用并入的美国专利申请公布号2013/0079232的材料中所述的方法和系统来执行SBS。作为第一个示例,一对核苷酸类型可在相同波长下检测,但基于对中的一个成员相对于另一个成员的强度差异,或基于对中的一个成员的导致与检测到的该对的另一个成员的信号相比明显的信号出现或消失的变化(例如,通过化学改性、光化学改性或物理改性)来区分。作为第二个示例,四种不同核苷酸类型中的三种能够在特定条件下被检测到,而第四种核苷酸类型缺少在那些条件下可被检测到或在那些条件下被最低限度地检测到的标记(例如,由于背景荧光而导致的最低限度检测等)。可基于其相应信号的存在来确定前三种核苷酸类型掺入到核酸中,并且可基于任何信号的不存在或对任何信号的最低限度检测来确定第四核苷酸类型掺入到核酸中。作为第三示例,一种核苷酸类型可包括在两个不同通道中检测到的标记,而其他核苷酸类型在不超过一个通道中被检测到。上述三种例示性构型不被认为是互相排斥的,并且可以各种组合进行使用。组合所有三个示例的示例性实施方案是基于荧光的SBS方法,该方法使用在第一通道中检测到的第一核苷酸类型(例如,具有当由第一激发波长激发时在第一通道中检测到的标记的dATP),在第二通道中检测到的第二核苷酸类型(例如,具有当由第二激发波长激发时在第二通道中检测到的标记的dCTP),在第一通道和第二通道两者中检测到的第三核苷酸类型(例如,具有当被第一激发波长和/或第二激发波长激发时在两个通道中检测到的至少一个标记的dTTP),以及缺少在任一通道中检测到或最低限度地检测到的标记的第四核苷酸类型(例如,不具有标记的dGTP)。
此外,如并入的美国专利申请公布号2013/0079232的材料中所述,可使用单个通道获得测序数据。在此类所谓的单染料测序方法中,标记第一核苷酸类型,但在生成第一图像之后移除标记,并且仅在生成第一图像之后标记第二核苷酸类型。第三核苷酸类型在第一图像和第二图像中都保留其标记,并且第四核苷酸类型在两个图像中均保持未标记。
一些实施方案可以利用边连接边测序技术。此类技术利用DNA连接酶掺入寡核苷酸并确定此类寡核苷酸的掺入。寡核苷酸通常具有与寡核苷酸杂交的序列中的特定核苷酸的同一性相关的不同标记。与其他SBS方法一样,可在用已标记的测序试剂处理核酸特征部的阵列后获得图像。每个图像将示出已掺入特定类型的标记的核酸特征部。由于每个特征部的不同序列内容,不同特征部将存在于或不存在于不同图像中,但特征部的相对位置将在图像中保持不变。通过基于连接的测序方法获得的图像可如本文所述进行存储、处理和分析。可以与本文所述的方法和系统一起使用的示例性SBS系统和方法在美国专利号6,969,488、美国专利号6,172,218和美国专利号6,306,597中有所描述,这些专利的公开内容全文以引用方式并入本文。
一些实施方案可以利用纳米孔测序(Deamer,D.W.和Akeson,M.“Nanopores andnucleic acids:prospects for ultrarapid sequencing.”Trends Biotechnol.18,147-151(2000);Deamer,D.and D.Branton,“Characterization of nucleic acids bynanopore analysis”.Acc.Chem.Res.35:817-825(2002);Li,J.、M.Gershow、D.Stein、E.Brandin和J.A.Golovchenko,“DNA molecules and configurations in a solid-statenanopore microscope”,Nat.Mater.,2:611-615(2003),这些文献的公开内容全文以引用方式并入本文)。在此类实施方案中,目标核酸穿过纳米孔。纳米孔可为合成孔或生物膜蛋白,诸如α-溶血素。当目标核酸穿过纳米孔时,可以通过测量孔的电导率的波动来识别每个碱基对。(美国专利号7,001,792;Soni,G.V.和Meller,“A.Progress toward ultrafastDNA sequencing using solid-state nanopores.”Clin.Chem.53,1996-2001(2007);Healy,K.,“Nanopore-based single-molecule DNA analysis.”,Nanomed.,2,459-481(2007);Cockroft,S.L.、Chu,J.、Amorin,M.和Ghadiri,M.R.,“A single-moleculenanopore device detects DNA polymerase activity with single-nucleotideresolution.”,J.Am.Chem.Soc.130,818-820(2008),这些文献的公开内容全文以引用方式并入本文)。从纳米孔测序获得的数据可如本文所述进行存储、处理和分析。具体地,根据本文所述的光学图像和其他图像的示例性处理,可将数据如同图像那样进行处理。
一些实施方案可利用涉及DNA聚合酶活性的实时监测的方法。可以通过携带荧光团的聚合酶与γ-磷酸标记的核苷酸之间的荧光共振能量转移(FRET)相互作用来检测核苷酸掺入,如例如美国专利号7,329,492和美国专利号7,211,414中所述(这两份专利中的每一者以引用方式并入本文),或者可以用零模波导来检测核苷酸掺入,如例如美国专利号7,315,019中所述(该专利以引用方式并入本文),并且可以使用荧光核苷酸类似物和工程化聚合酶来检测核苷酸掺入,如例如美国专利号7,405,281和美国专利申请公布号2008/0108082中所述(这两份专利中的每一者以引用方式并入本文)。照明可限于表面栓系的聚合酶周围的仄升量级的体积,使得可在低背景下观察到荧光标记的核苷酸的掺入(Levene,M.J.等人,“Zero-mode waveguides for single-molecule analysis at highconcentrations.”,Science 299,682-686(2003);Lundquist,P.M.等人,“Parallelconfocal detection of single molecules in real time.”,Opt.Lett.33,1026-1028(2008);Korlach,J.等人,“Selective aluminum passivation for targetedimmobilization of single DNA polymerase molecules in zero-mode waveguide nanostructures.”,Proc.Natl.Acad.Sci.USA 105,1176-1181(2008),这些文献的公开内容全文以引用方式并入本文)。通过此类方法获得的图像可如本文所述进行存储、处理和分析。
一些SBS实施方案包括检测在核苷酸掺入延伸产物时释放的质子。例如,基于释放质子的检测的测序可使用可从Ion Torrent公司(Guilford,CT,它是Life Technologies子公司)商购获得的电检测器和相关技术或在US 2009/0026082A1、US2009/0127589 A1、US2010/0137143 A1或US 2010/0282617A1中所述的测序方法和系统,这些文献中的每一篇均以引用方式并入本文。本文阐述的使用动力学排阻来扩增靶核酸的方法可以容易地应用于用于检测质子的基板。更具体地,本文阐述的方法可以用于产生用于检测质子的扩增子克隆群体。
上述SBS方法可有利地以多种格式进行,使得同时操纵多个不同的目标核酸。在特定实施方案中,可在共同的反应容器中或在特定基板的表面上处理不同的目标核酸。这允许以多种方式方便地递送测序试剂、移除未反应的试剂和检测掺入事件。在使用表面结合的目标核酸的实施方案中,目标核酸可为阵列格式。在阵列格式中,目标核酸通常可以在空间上可区分的方式结合到表面。目标核酸可通过直接共价附着、附着到小珠或其他粒子或结合到附着到表面的聚合酶或其他分子来结合。阵列可包括在每个位点(也被称为特征部)处的目标核酸的单个拷贝,或者具有相同序列的多个拷贝可存在于每个位点或特征部处。多个拷贝可通过扩增方法(诸如,如下文进一步详细描述的桥式扩增或乳液PCR)产生。
本文所述的方法可使用具有处于多种密度中任一种密度的特征部的阵列,该多种密度包括例如至少约10个特征部/cm2、100个特征部/cm2、500个特征部/cm2、1,000个特征部/cm2、5,000个特征部/cm2、10,000个特征部/cm2、50,000个特征部/cm2、100,000个特征部/cm2、1,000,000个特征部/cm2、5,000,000个特征部/cm2或更高。
本文阐述的方法的优点是它们并行提供了对多个靶核酸的快速且有效检测。因此,本公开提供了能够使用本领域已知的技术(诸如上文所例示的那些)来制备和检测核酸的整合系统。因此,本公开的整合系统可以包括能够将扩增试剂和/或测序试剂递送到一个或多个固定DNA片段的流体部件,该系统包括诸如泵、阀、贮存器、流体管线等的部件。流通池在整合系统中可以被配置用于和/或用于检测靶核酸。示例性流通池在例如US 2010/0111768 A1和美国序列号13/273,666中有所描述,这两份专利中的每一者以引用方式并入本文。如针对流通池所例示的,整合系统的一个或多个流体部件可以用于扩增方法和检测方法。以核酸测序实施方案为例,整合系统的一个或多个流体部件可以用于本文阐述的扩增方法以及用于在测序方法(诸如上文例示的那些)中递送测序试剂。另选地,整合系统可包括单独的流体系统以执行扩增方法并执行检测方法。能够产生扩增核酸并且还确定核酸序列的整合测序系统的示例包括但不限于MiSeqTM平台(Illumina,Inc.,San Diego,CA)以及在美国序列号13/273,666中描述的设备,该专利以引用方式并入本文。
上述测序系统对由测序设备接收的样品中存在的核酸聚合物进行测序。如本文所定义,“样品”及其衍生物以其最广泛的意义使用,包括怀疑包含目标的任何标本、培养物等。在一些实施方案中,样品包括DNA、RNA、PNA、LNA、嵌合或杂交形式的核酸。样品可以包括含有一种或多种核酸的任何基于生物、临床、外科、农业、大气或水生动植物的标本。该术语还包括任何分离的核酸样品,诸如基因组DNA、新鲜冷冻或福尔马林固定石蜡包埋的核酸标本。还设想样品的来源可以是:单个个体、来自遗传相关成员的核酸样品的集合、来自遗传不相关成员的核酸样品、来自单个个体的(与之匹配的)核酸样品(诸如肿瘤样品和正常组织样品),或者来自含有两种不同形式的遗传物质(诸如从母体受试者获得的母体DNA和胎儿DNA)的单个来源的样品,或者在含有植物或动物DNA的样品中存在污染性细菌DNA。在一些实施方案中,核酸材料的来源可以包括从新生儿获得的核酸,例如通常用于新生儿筛检的核酸。
该核酸样品可以包括高分子量物质,诸如基因组DNA(gDNA)。该样品可以包括低分子量物质,诸如从FFPE样品或存档的DNA样品获得的核酸分子。在另一实施方案中,低分子量物质包括酶促片段化或机械片段化的DNA。该样品可以包含无细胞循环DNA。在一些实施方案中,该样品可以包括从活检组织、肿瘤、刮取物、拭子、血液、黏液、尿液、血浆、精液、毛发、激光捕获显微解剖、手术切除和其他临床或实验室获得的样品获得的核酸分子。在一些实施方案中,该样品可以是流行病学样品、农业样品、法医学样品或病原性样品。在一些实施方案中,该样品可包括从动物(诸如人类或哺乳动物来源)获得的核酸分子。在另一实施方案中,该样品可包括从非哺乳动物来源(诸如植物、细菌、病毒或真菌)获得的核酸分子。在一些实施方案中,核酸分子的来源可以是存档或灭绝的样品或物种。
另外,本文所公开的方法和组合物可以用于扩增具有低质量核酸分子的核酸样品,诸如来自法医学样品的降解的和/或片段化的基因组DNA。在一个实施方案中,法医学样品可包括从犯罪现场获得的核酸、从失踪人员DNA数据库获得的核酸、从与法医调查相关联的实验室获得的核酸,或者包括由执法机关、一种或多种军事服务或任何此类人员获得的法医学样品。核酸样品可以是经纯化的样品或含有粗DNA的溶胞产物,例如来源于口腔拭子、纸、织物或者其他可以用唾液、血液或其他体液浸渍的基材。因此,在一些实施方案中,该核酸样品可包含少量DNA(诸如基因组DNA),或者DNA的片段化部分。在一些实施方案中,靶序列可存在于一种或多种体液中,其中体液包括但不限于血液、痰、血浆、精液、尿液和血清。在一些实施方案中,靶序列可从受害者的毛发、皮肤、组织样品、尸体解剖或遗骸获得。在一些实施方案中,包含一种或多种靶序列的核酸可从死亡的动物或人获得。在一些实施方案中,靶序列可包括从非人类DNA(诸如微生物、植物或昆虫DNA)获得的核酸。在一些实施方案中,靶序列或扩增的靶序列导向人类身份识别的目的。在一些实施方案中,本公开整体涉及用于识别法医学样品的特性的方法。在一些实施方案中,本公开整体涉及使用本文所公开的一种或多种目标特异性引物或者用本文概述的引物设计标准设计的一种或多种目标特异性引物的人类身份识别方法。在一个实施方案中,含有至少一种靶序列的法医学样品或人类身份识别样品可以使用本文所公开的任何一种或多种目标特异性引物或者使用本文概述的引物标准进行扩增。
信噪比感知碱基检出系统106的部件可包括软件、硬件或两者。例如,信噪比感知检出系统106的部件可包括存储在计算机可读存储介质上并且可由一个或多个计算设备的处理器执行的一个或多个指令。当由一个或多个处理器执行时,信噪比感知碱基检出系统106的计算机可执行指令可使计算设备执行本文所描述的气泡检测方法。另选地,信噪比感知碱基检出系统106的部件可包括硬件,诸如专用处理设备用以执行某一功能或功能组。附加地或另选地,信噪比感知碱基检出系统106的部件可包括计算机可执行指令和硬件的组合。
此外,执行本文所描述关于信噪比感知碱基检出系统106的功能的信噪比感知碱基检出系统106的部件可以例如被实施作为独立应用程序的一部分、作为应用程序的模块、作为应用程序的插件、作为可以被其他应用程序检出的库函数或函数,和/或作为云计算模型。因此,信噪比感知检出系统106的部件可以被实施作为个人计算设备或移动设备上的独立应用程序的一部分。附加地或另选地,信噪比感知碱基检出系统106的部件可以实施在提供测序服务的任何应用程序中,包括但不限于Illumina BaseSpace、Illumina DRAGEN或Illumina TruSight软件。“Illumina”、“BaseSpace”、“DRAGEN”和“TruSight”是Illumina,Inc.公司在美国和/或其他国家的注册商标或商标。
如以下更详细讨论的,本公开的实施方案可以包括或利用包括计算机硬件(诸如例如一个或多个处理器和系统存储器)的专用或通用计算机。本公开范围内的实施方案还包括用于携带或存储计算机可执行指令和/或数据结构的物理和其他计算机可读介质。具体地,本文所述的过程中的一者或多者可以至少部分实施为体现在非暂态计算机可读介质中并且可由一个或多个计算设备(例如,本文所述的介质内容访问设备中的任一者)执行的指令。一般来讲,处理器(例如,微处理器)从非暂态计算机可读介质(例如,存储器等)接收指令,并且执行那些指令,由此执行一个或多个过程,包含本文所述的过程中的一者或多者。
计算机可读介质可以是可由通用或专用计算机系统访问的任何可用介质。存储计算机可执行指令的计算机可读介质是非暂态计算机可读存储介质(设备)。携带计算机可执行指令的计算机可读介质是传输介质。因此,通过示例方式而非限制,本公开的实施方案可包括至少两种明显不同种类的计算机可读介质:非暂态计算机可读存储介质(设备)和传输介质。
非暂态计算机可读存储介质(设备)包括RAM、ROM、EEPROM、CD-ROM、固态驱动器(SSD)(例如,基于RAM)、快闪存储器、相变存储器(PCM)、其他类型的存储器、其他光盘存储装置、磁盘存储装置或其他磁存储设备,或可用于存储呈计算机可执行指令或数据结构形式的期望的程序代码手段并且其可由通用或专用计算机访问的任何其他介质。
“网络”定义为使得能够在计算机系统和/或模块和/或其他电子设备之间传输电子数据的一个或多个数据链路。当通过网络或另一通信连接(硬连线、无线或硬连线或无线的组合)向计算机转移或提供信息时,计算机适当地将该连接视为传输介质。传输介质可包括网络和/或数据链路,该网络和/或数据链路可用于携带呈计算机可执行指令或数据结构形式的期望的程序代码手段,并且其可由通用或专用计算机访问。上述的组合也应当被包括在计算机可读介质的范围内。
此外,在到达各种计算机系统部件后,呈计算机可执行指令或数据结构形式的程序代码手段可从传输介质自动转移到非暂态计算机可读存储介质(设备)(或反之亦然)。例如,通过网络或数据链路接收的计算机可执行指令或数据结构可被缓冲在网络接口模块(例如,NIC)内的RAM中,并且然后最终被转移到计算机系统RAM和/或到计算机系统处的较不易失的计算机存储介质(设备)。因此,应当理解,非暂态计算机可读存储介质(设备)可被包括在也(或甚至主要)利用传输介质的计算机系统部件中。
计算机可执行指令包括例如当在处理器处执行时使得通用计算机、专用计算机或专用处理设备执行某些功能或功能的组的指令和数据。在一些实施方案中,在通用计算机上执行计算机可执行指令以将通用计算机变成实施本公开的元素的专用计算机。计算机可执行指令可以是例如二进制数、诸如汇编语言的中间格式指令、或者甚至源代码。尽管已经以特定于结构特征和/或方法动作的语言描述了主题内容,但是应当理解,在所附权利要求中定义的主题内容不必限于所描述的特征部或动作。相反,所描述的特征部和动作是作为实施权利要求的示例性形式来公开的。
本领域中的技术人员将理解,本公开可以在具有许多类型的计算机系统配置的网络计算环境中实践,包括个人计算机、台式计算机、便携式电脑、消息处理器、手持式设备、多处理器系统、基于微处理器的或可编程消费电子产品、网络PC、小型计算机、大型计算机、移动电话、PDA、平板电脑、寻呼机、路由器、交换机等。本公开还可以在分布式系统环境中实践,其中通过网络链接(通过硬连线数据链路、无线数据链路或者通过硬连线和无线数据链路的组合)的本地和远程计算机系统两者都执行任务。在分布式系统环境中,程序模块可以位于本地和远程存储器存储设备两者中。
本公开的实施方案还可在云计算环境中实施。在本说明书中,“云计算”定义为用于实现对可配置计算资源的共享池的按需网络访问的模型。例如,可在市场中采用云计算以提供对可配置计算资源的共享池的无处不在并且便利的按需访问。可配置计算资源的共享池可经由虚拟化快速预置并且以低管理努力或服务提供者交互释放,并且然后因此扩展。
云计算模型可由各种特性组成,诸如例如按需自助服务、广泛网络访问、资源池化、快速弹性、可计量服务等。云计算模型还可展示各种服务模型,诸如例如软件即服务(SaaS)、平台即服务(PaaS)和基础设施即服务(IaaS)。云计算模型还可使用不同的部署模型来部署,诸如私有云、社区云、公共云、混合云等。在本说明书和在权利要求书中,“云计算环境”是在其中采用云计算的环境。
图12示出可以被配置为执行上述过程中的一者或多者的计算设备1200的框图。将理解的是,诸如计算设备1200的一个或多个计算设备可以实施信噪比感知碱基检出系统106和测序系统104。如图12所示,计算设备1200可以包括处理器1202、存储器1204、存储设备1206、I/O接口1208和通信接口1210,它们可以通过通信基础设施1212通信地耦合。在某些实施方案中,计算设备1200可以包括比图12中所示的部件更少或更多的部件。以下段落更详细地描述图12中所示的计算设备1200的部件。
在一个或多个实施方案中,处理器1202包括用于执行指令的硬件,诸如构成计算机程序的那些指令。作为示例,而非以限制的方式,为了执行用于动态地修改工作流程的指令,处理器1202可以从内部寄存器、内部高速缓存、存储器1204或存储设备1206检索(或提取)指令,并且解码以及执行它们。存储器1204可以是用于存储由处理器执行的数据、元数据和程序的易失性或非易失性存储器。存储设备1206包括用于存储用于执行本文所述的方法的数据或指令的存储装置,诸如硬盘、闪存盘驱动器或其他数字存储设备。
I/O接口1208允许用户向计算设备1200提供输入、从该计算设备接收输出,以及以其他方式向该计算设备转移数据和从该计算设备接收数据。I/O接口1208可以包括鼠标、小键盘或键盘、触摸屏、相机、光学扫描仪、网络接口、调制解调器、其他已知I/O设备或此类I/O接口的组合。I/O接口1208可以包括用于向用户呈现输出的一个或多个设备,包括但不限于图形引擎、显示器(例如,显示屏)、一个或多个输出驱动程序(例如,显示驱动程序)、一个或多个音频扬声器,以及一个或多个音频驱动程序。在某些实施方案中,I/O接口1208被配置为向显示器提供图形数据用于呈现给用户。图形数据可以表示一个或多个图形用户界面和/或可以服务于特定实施的任何其他图形内容。
通信接口1210可以包括硬件、软件或两者。在任何情况下,通信接口1210可以提供用于计算设备1200与一个或多个其他计算设备或网络之间的通信(诸如例如,基于分组的通信)的一个或多个接口。作为示例,而非以限制的方式,通信接口1210可以包括用于与以太网或其他基于有线的网络通信的网络接口控制器(NIC)或网络适配器,或用于与无线网络(诸如WI-FI)通信的无线NIC(WNIC)或无线适配器。
附加地,通信接口1210可以促进与各种类型的有线或无线网络的通信。通信接口1210还可以促进使用各种通信协议的通信。通信基础设施1212还可以包括将计算设备1200的部件彼此耦合的硬件、软件或两者。例如,通信接口1210可以使用一个或多个网络和/或协议以使得由特定基础设施连接的多个计算设备能够与彼此通信以执行本文所述的过程的一个或多个方面。为了说明,测序过程可允许多个设备(例如,客户端设备、测序设备和服务器设备)交换诸如测序数据和误差通知的信息。
在前述说明书中,本公开已经参考其特定示例性实施方案进行描述。参考本文所讨论的细节描述了本公开的各种实施方案和方面,并且附图说明各种实施方案。上面的描述和图是对本公开的说明,并且不应被解释为限制本公开。描述了许多特定细节以提供对本公开的各种实施方案的透彻理解。
本公开可以在不脱离其精神或本质特征的情况下以其他特定形式体现。所述实施方案在所有方面都应被视为仅为示例性的而非限制性的。例如,本文所描述的方法可以用更少或更多的步骤/动作执行,或者步骤/动作可以以不同的顺序执行。附加地,本文所描述的步骤/动作可以重复或与彼此并行地执行或与相同或类似步骤/动作的不同实例并行地执行。因此,本申请的范围由所附权利要求书而非前述描述来指示。在权利要求的等效含义和范围内的所有改变都将包含在其范围内。

Claims (22)

1.一种系统,所述系统包括:
至少一个处理器;和
包括指令的非暂态计算机可读介质,所述指令当由所述至少一个处理器执行时使得所述系统:
检测来自核苷酸样品载玻片的部分内的标记的核苷酸碱基的信号;
针对所述核苷酸样品载玻片的所述部分,基于所述信号的强度值,确定对应于所述信号的缩放因子和噪声水平;
基于所述缩放因子和所述噪声水平生成所述核苷酸样品载玻片的所述部分的信噪比度量;以及
利用碱基检出质量模型,基于所述信噪比度量生成估计对应于所述信号的核苷酸碱基检出的误差的质量度量。
2.根据权利要求1所述的系统,所述系统还包括指令,所述指令当由所述至少一个处理器执行时,使得所述系统通过以下操作针对所述核苷酸样品载玻片的所述部分基于所述信号的所述强度值确定对应于所述信号的所述噪声水平:
针对所述核苷酸样品载玻片的所述部分,确定所述信号的经校正强度值;以及
基于所述信号的所述经校正强度值确定对应于所述信号的所述噪声水平。
3.根据权利要求2所述的系统,所述系统还包括指令,所述指令当由所述至少一个处理器执行时,使得所述系统通过以下操作针对所述核苷酸样品载玻片的所述部分确定所述信号的所述经校正强度值:基于所述信号的所述强度值、对应于所述信号的所述缩放因子和对应于所述信号的校正偏移因子确定所述经校正强度值。
4.根据权利要求2所述的系统,所述系统还包括指令,所述指令当由所述至少一个处理器执行时,使得所述系统通过以下操作基于所述信号的所述经校正强度值来确定对应于所述信号的所述噪声水平:
确定对应于所述信号的所述核苷酸碱基检出的质心强度值;以及
确定所述质心强度值与所述信号的所述经校正强度值之间的距离。
5.根据权利要求1所述的系统,所述系统还包括指令,所述指令当由所述至少一个处理器执行时使得所述系统:
针对所述核苷酸样品载玻片的所述部分,确定一个或多个先前测序循环的平均噪声水平;以及
针对所述核苷酸样品载玻片的所述部分,通过基于所述一个或多个先前测序循环的所述平均噪声水平确定当前测序循环的所述噪声水平,来确定对应于所述信号的所述噪声水平。
6.根据权利要求1所述的系统,所述系统还包括指令,所述指令当由所述至少一个处理器执行时,使得所述系统通过以下操作针对所述核苷酸样品载玻片的所述部分基于所述信号的所述强度值确定对应于所述信号的所述缩放因子:
确定所述标记的核苷酸碱基的测得强度与包括所述缩放因子的变异校正系数之间的关系;
基于所述测得强度与所述变异校正系数之间的所述关系确定误差函数;以及
通过生成所述误差函数相对于所述缩放因子的偏导数来确定所述缩放因子。
7.根据权利要求1所述的系统,所述系统还包括指令,所述指令当由所述至少一个处理器执行时,使得所述系统通过以下操作来生成所述核苷酸样品载玻片的所述部分的所述信噪比度量:生成图案化流通池的孔或非图案化流通池的子部分的所述信噪比度量。
8.根据权利要求1所述的系统,所述系统还包括指令,所述指令当由所述至少一个处理器执行时,使得所述系统通过以下操作基于所述信噪比度量生成估计对应于所述信号的所述核苷酸碱基检出的所述误差的所述质量度量:基于所述信噪比度量生成估计对应于所述信号的所述核苷酸碱基检出的准确性的Phred质量评分。
9.根据权利要求1所述的系统,所述系统还包括指令,所述指令当由所述至少一个处理器执行时使得所述系统:
基于信号的所述强度值与最近质心的强度值之间以及所述信号的所述强度值与至少一个附加的质心的强度值之间的距离,确定所述核苷酸样品载玻片的所述部分的纯化值;以及
利用所述碱基检出质量模型,基于所述信噪比度量和所述纯化值生成所述质量度量。
10.根据权利要求1所述的系统,所述系统还包括指令,所述指令当由所述至少一个处理器执行时使得所述系统:
针对所述核苷酸样品载玻片的所述部分,确定多个先前测序循环的多个噪声水平;
通过基于测序循环新近度将加权值应用于所述多个噪声水平来确定所述多个先前测序循环的加权平均噪声水平;以及
针对所述核苷酸样品载玻片的所述部分,通过基于所述多个先前测序循环的所述加权平均噪声水平确定当前测序循环的所述噪声水平,来确定对应于所述信号的所述噪声水平。
11.一种其上存储有指令的非暂态计算机可读介质,所述指令当由至少一个处理器执行时使得计算设备:
检测来自核苷酸样品载玻片的部分内的标记的核苷酸碱基的信号;
针对所述核苷酸样品载玻片的所述部分,基于所述信号的强度值,确定对应于所述信号的缩放因子和噪声水平;
基于所述缩放因子和所述噪声水平生成所述核苷酸样品载玻片的所述部分的信噪比度量;以及
基于将所述信噪比度量与信噪比阈值进行比较,将对应于所述信号的核苷酸碱基检出包括在核苷酸碱基检出数据内或从所述核苷酸碱基检出数据中排除。
12.根据权利要求11所述的非暂态计算机可读介质,所述非暂态计算机可读介质还包括指令,所述指令当由所述至少一个处理器执行时,使得所述计算设备基于确定所述信噪比度量低于所述信噪比阈值,排除对应于从添加到所述核苷酸样品载玻片的所述部分内的寡核苷酸簇的后续标记的核苷酸碱基检测到的后续信号的后续核苷酸碱基检出。
13.根据权利要求11所述的非暂态计算机可读介质,所述非暂态计算机可读介质还包括指令,所述指令当由所述至少一个处理器执行时,使得所述计算设备排除对应于图案化流通池的孔或非图案化流通池的子部分的所述信号的所述核苷酸碱基检出。
14.根据权利要求11所述的非暂态计算机可读介质,所述非暂态计算机可读介质还包括指令,所述指令当由所述至少一个处理器执行时,使得所述计算设备通过使所述缩放因子等于所述信号以确定所述缩放因子与所述噪声水平的比率来生成所述信噪比度量。
15.根据权利要求11所述的非暂态计算机可读介质,所述非暂态计算机可读介质还包括指令,所述指令当由所述至少一个处理器执行时使得所述计算设备:
通过检测来自在某基因组位置处掺入正生长的寡核苷酸中的所述标记的核苷酸碱基的所述信号来检测所述信号,所述基因组位置稍后在与参考基因组的比对中确定;以及
生成对应于所述信号的所述基因组位置处的所述核苷酸碱基检出的所述信噪比度量。
16.根据权利要求11所述的非暂态计算机可读介质,所述非暂态计算机可读介质还包括指令,所述指令当由所述至少一个处理器执行时使得所述计算设备:
针对所述核苷酸样品载玻片的所述部分,确定一个或多个先前测序循环的平均噪声水平;以及
针对所述核苷酸样品载玻片的所述部分,通过基于所述一个或多个先前测序循环的所述平均噪声水平确定当前测序循环的所述噪声水平,来确定对应于所述信号的所述噪声水平。
17.一种方法,所述方法包括:
检测来自至少一个核苷酸样品载玻片的部分内的标记的核苷酸碱基的信号;
基于所述信号和对应于所述信号的噪声水平生成所述至少一个核苷酸样品载玻片的所述部分的信噪比度量;
确定所述信噪比度量的信噪比范围;以及
针对所述信噪比范围中的每个信噪比范围,根据一个或多个碱基检出分布模型生成用于区分对应于不同核苷酸碱基的信号的强度值边界。
18.根据权利要求17所述的方法,其中,针对所述信噪比范围中的每个信噪比范围,根据所述一个或多个碱基检出分布模型生成用于区分对应于所述不同核苷酸碱基的所述信号的所述强度值边界包括:
针对第一信噪比范围,根据第一碱基检出分布模型生成对应于所述不同核苷酸碱基的第一组强度值边界;以及
针对第二信噪比范围,根据第二碱基检出分布模型生成对应于所述不同核苷酸碱基的第二组强度值边界,所述第二组强度值边界不同于所述第一组强度值边界。
19.根据权利要求18所述的方法,所述方法还包括:
检测第一信号,所述第一信号对应于所述第一信噪比范围内的第一信噪比度量并且具有所述第一组强度值边界之外和所述第二组强度值边界之外的一组强度值;
检测第二信号,所述第二信号对应于所述第二信噪比范围内的第二信噪比度量并且具有所述一组强度值;
基于所述第一碱基检出分布模型的所述第一组强度值边界生成所述第一信号的第一核苷酸碱基检出;以及
基于所述第二碱基检出分布模型的所述第二组强度值边界生成所述第二信号的第二核苷酸碱基检出。
20.根据权利要求17所述的方法,所述方法还包括:
检测来自一子组标记的核苷酸碱基的信号,所述一子组标记的核苷酸碱基来自核苷酸样品载玻片的部分内的寡核苷酸簇;
基于所述信号生成所述核苷酸样品载玻片的所述部分的在信噪比范围内的信噪比度量;以及
基于对应于所述信噪比范围的所述强度值边界中的一组强度值边界来确定对应于所述信号的核苷酸碱基检出。
21.根据权利要求20所述的方法,所述方法还包括:
检测来自一子组附加的标记的核苷酸碱基的附加的信号,所述一子组附加的标记的核苷酸碱基来自所述核苷酸样品载玻片的附加的部分内的附加的寡核苷酸簇;
基于所述附加的信号生成所述核苷酸样品载玻片的所述附加的部分的在附加的信噪比范围内的附加的信噪比度量,其中所述附加的信噪比范围不同于所述信噪比范围;以及
基于对应于所述附加的信噪比范围的所述强度值边界中的一组附加的强度值边界,确定对应于所述附加的信号的附加的核苷酸碱基检出。
22.根据权利要求17所述的方法,其中,根据所述一个或多个碱基检出分布模型生成用于区分对应于所述不同核苷酸碱基的所述信号的所述强度值边界包括针对所述信噪比范围中的每个信噪比范围根据一个或多个高斯分布模型生成所述强度值边界。
CN202280043937.XA 2021-06-29 2022-06-02 用于确定核苷酸碱基检出和碱基检出质量的信噪比度量 Pending CN117730372A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163216401P 2021-06-29 2021-06-29
US63/216401 2021-06-29
PCT/US2022/072737 WO2023278927A1 (en) 2021-06-29 2022-06-02 Signal-to-noise-ratio metric for determining nucleotide-base calls and base-call quality

Publications (1)

Publication Number Publication Date
CN117730372A true CN117730372A (zh) 2024-03-19

Family

ID=82483142

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280043937.XA Pending CN117730372A (zh) 2021-06-29 2022-06-02 用于确定核苷酸碱基检出和碱基检出质量的信噪比度量

Country Status (11)

Country Link
US (1) US20220415442A1 (zh)
EP (1) EP4364154A1 (zh)
JP (1) JP2024527307A (zh)
KR (1) KR20240022490A (zh)
CN (1) CN117730372A (zh)
AU (1) AU2022305321A1 (zh)
BR (1) BR112023026615A2 (zh)
CA (1) CA3224402A1 (zh)
IL (1) IL309308A (zh)
MX (1) MX2023015504A (zh)
WO (1) WO2023278927A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117497055B (zh) * 2024-01-02 2024-03-12 北京普译生物科技有限公司 神经网络模型训练、碱基测序电信号的片段化方法及装置

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2044616A1 (en) 1989-10-26 1991-04-27 Roger Y. Tsien Dna sequencing
US5846719A (en) 1994-10-13 1998-12-08 Lynx Therapeutics, Inc. Oligonucleotide tags for sorting and identification
US5750341A (en) 1995-04-17 1998-05-12 Lynx Therapeutics, Inc. DNA sequencing by parallel oligonucleotide extensions
GB9620209D0 (en) 1996-09-27 1996-11-13 Cemu Bioteknik Ab Method of sequencing DNA
GB9626815D0 (en) 1996-12-23 1997-02-12 Cemu Bioteknik Ab Method of sequencing DNA
AU6846698A (en) 1997-04-01 1998-10-22 Glaxo Group Limited Method of nucleic acid amplification
US6969488B2 (en) 1998-05-22 2005-11-29 Solexa, Inc. System and apparatus for sequential processing of analytes
US6274320B1 (en) 1999-09-16 2001-08-14 Curagen Corporation Method of sequencing a nucleic acid
US7001792B2 (en) 2000-04-24 2006-02-21 Eagle Research & Development, Llc Ultra-fast nucleic acid sequencing device and a method for making and using the same
US20030064366A1 (en) 2000-07-07 2003-04-03 Susan Hardin Real-time sequence determination
WO2002044425A2 (en) 2000-12-01 2002-06-06 Visigen Biotechnologies, Inc. Enzymatic nucleic acid synthesis: compositions and methods for altering monomer incorporation fidelity
US7057026B2 (en) 2001-12-04 2006-06-06 Solexa Limited Labelled nucleotides
SI3363809T1 (sl) 2002-08-23 2020-08-31 Illumina Cambridge Limited Modificirani nukleotidi za polinukleotidno sekvenciranje
GB0321306D0 (en) 2003-09-11 2003-10-15 Solexa Ltd Modified polymerases for improved incorporation of nucleotide analogues
EP3175914A1 (en) 2004-01-07 2017-06-07 Illumina Cambridge Limited Improvements in or relating to molecular arrays
WO2006044078A2 (en) 2004-09-17 2006-04-27 Pacific Biosciences Of California, Inc. Apparatus and method for analysis of molecules
WO2006064199A1 (en) 2004-12-13 2006-06-22 Solexa Limited Improved method of nucleotide detection
EP1888743B1 (en) 2005-05-10 2011-08-03 Illumina Cambridge Limited Improved polymerases
GB0514936D0 (en) 2005-07-20 2005-08-24 Solexa Ltd Preparation of templates for nucleic acid sequencing
US7405281B2 (en) 2005-09-29 2008-07-29 Pacific Biosciences Of California, Inc. Fluorescent nucleotide analogs and uses therefor
CA2648149A1 (en) 2006-03-31 2007-11-01 Solexa, Inc. Systems and devices for sequence by synthesis analysis
AU2007309504B2 (en) 2006-10-23 2012-09-13 Pacific Biosciences Of California, Inc. Polymerase enzymes and reagents for enhanced nucleic acid sequencing
EP2639578B1 (en) 2006-12-14 2016-09-14 Life Technologies Corporation Apparatus for measuring analytes using large scale fet arrays
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
US8349167B2 (en) 2006-12-14 2013-01-08 Life Technologies Corporation Methods and apparatus for detecting molecular interactions using FET arrays
US20100137143A1 (en) 2008-10-22 2010-06-03 Ion Torrent Systems Incorporated Methods and apparatus for measuring analytes
US8951781B2 (en) 2011-01-10 2015-02-10 Illumina, Inc. Systems, methods, and apparatuses to image a sample for biological or chemical analysis
PT3623481T (pt) 2011-09-23 2021-10-15 Illumina Inc Composições para sequenciação de ácidos nucleicos
EP4219012A1 (en) 2012-04-03 2023-08-02 Illumina, Inc. Method of imaging a substrate comprising fluorescent features and use of the method in nucleic acid sequencing
PL3077943T3 (pl) 2013-12-03 2020-11-30 Illumina, Inc. Sposoby i układy do analizy danych obrazowych
BR112020014542A2 (pt) * 2018-01-26 2020-12-08 Quantum-Si Incorporated Aprendizado de máquina habilitado por aplicação de pulso e de base para dispositivos de sequenciamento
US11210554B2 (en) * 2019-03-21 2021-12-28 Illumina, Inc. Artificial intelligence-based generation of sequencing metadata

Also Published As

Publication number Publication date
US20220415442A1 (en) 2022-12-29
IL309308A (en) 2024-02-01
EP4364154A1 (en) 2024-05-08
KR20240022490A (ko) 2024-02-20
MX2023015504A (es) 2024-01-22
CA3224402A1 (en) 2023-01-05
BR112023026615A2 (pt) 2024-03-05
JP2024527307A (ja) 2024-07-24
AU2022305321A1 (en) 2024-01-18
WO2023278927A1 (en) 2023-01-05

Similar Documents

Publication Publication Date Title
US20240038327A1 (en) Rapid single-cell multiomics processing using an executable file
CN117730372A (zh) 用于确定核苷酸碱基检出和碱基检出质量的信噪比度量
US20220319641A1 (en) Machine-learning model for detecting a bubble within a nucleotide-sample slide for sequencing
US20240266003A1 (en) Determining and removing inter-cluster light interference
US20230420080A1 (en) Split-read alignment by intelligently identifying and scoring candidate split groups
US20220415443A1 (en) Machine-learning model for generating confidence classifications for genomic coordinates
US20240127906A1 (en) Detecting and correcting methylation values from methylation sequencing assays
US20230021577A1 (en) Machine-learning model for recalibrating nucleotide-base calls
US20230340571A1 (en) Machine-learning models for selecting oligonucleotide probes for array technologies
US20230313271A1 (en) Machine-learning models for detecting and adjusting values for nucleotide methylation levels
US20230207050A1 (en) Machine learning model for recalibrating nucleotide base calls corresponding to target variants
US20240112753A1 (en) Target-variant-reference panel for imputing target variants
US20230420082A1 (en) Generating and implementing a structural variation graph genome
JP2024535664A (ja) 帰属ハプロタイプを用いたグラフ参照ゲノム及び塩基コールアプローチ
JP2024535663A (ja) ヌクレオチド配列決定における塩基コールエラーパターンからの障害ソースの自動的特定
WO2024006705A1 (en) Improved human leukocyte antigen (hla) genotyping
CN117581303A (zh) 产生用于确定核苷酸碱基检出的簇特异性信号校正

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination