CN117043867A - 用于检测用于测序的核苷酸样品玻片内的气泡的机器学习模型 - Google Patents

用于检测用于测序的核苷酸样品玻片内的气泡的机器学习模型 Download PDF

Info

Publication number
CN117043867A
CN117043867A CN202280021725.1A CN202280021725A CN117043867A CN 117043867 A CN117043867 A CN 117043867A CN 202280021725 A CN202280021725 A CN 202280021725A CN 117043867 A CN117043867 A CN 117043867A
Authority
CN
China
Prior art keywords
nucleobase
bubble
data
detections
sequencing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280021725.1A
Other languages
English (en)
Inventor
B·T·韦斯特伯格
袁俊琪
R·E·兰洛伊斯
M·D·哈姆
G·D·帕纳比
T·格罗斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Imena Software Co ltd
Inmair Ltd
Original Assignee
Imena Software Co ltd
Inmair Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Imena Software Co ltd, Inmair Ltd filed Critical Imena Software Co ltd
Publication of CN117043867A publication Critical patent/CN117043867A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Organic Chemistry (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Analytical Chemistry (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Bioethics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了方法、系统和非暂态计算机可读介质,用于基于在测序运行期间的碱基检出期间捕获(或来源于该期间)的数据准确并有效地检测气泡何时影响核酸测序运行。具体地,在一个或多个实施方案中,所公开的系统在测序循环期间接收识别核碱基检出的数据和识别该核碱基检出的质量指标的数据。基于特定核碱基检出和针对该质量指标的阈值标记,所公开的系统利用机器学习模型以检测核苷酸样品玻片中气泡的存在。除了简单地检测气泡的该存在之外,所公开的系统还可对不同的检测到的气泡分类,诸如空气泡、油泡或重影泡,或测序期间的其他输出。通过利用检出数据和质量指标,所公开的系统可在平台无关的方法中使用容易获得的测序数据,以使用唯一训练的机器学习模型来检测气泡。

Description

用于检测用于测序的核苷酸样品玻片内的气泡的机器学习 模型
相关申请的交叉引用
本申请要求2021年4月2日提交的美国临时申请号63/170,072的权益和优先权。上述申请全文据此以引用方式并入。
背景技术
近年来,生物技术公司和研究机构已经改进了用于测序和分析核苷酸的硬件和软件平台。例如,一些现有的核酸测序系统通过使用常规桑格测序确定核酸序列的个体核碱基。相比之下,一些现有系统通过执行边合成边测序(SBS)来确定此类核碱基序列。通过使用SBS,现有系统可以监测并行合成的数千、数万或更多核酸聚合物,以从更大的碱基检出数据集检测更准确的碱基检出并且捕获其他测序信息。在一些情况下,现有系统在核苷酸样品玻片(诸如流通池)的孔内的单克隆集落中合成寡核苷酸。例如,在相机捕获荧光标签(该荧光标签照亮来自掺入此类寡核苷酸中的核碱基的颜色)的图像后,一些现有系统将图像数据发送到具有测序数据分析软件的设备,以分析图像数据的碱基检出并且确定核酸聚合物的核碱基序列(例如,核酸聚合物的基因编码区)。
尽管在测序中有这些进展,但是现有的核酸测序系统表现出几个技术缺点,例如,抑制碱基检出的准确度和误差检测,需要核苷酸样品的低效的重新测序和重新分析,并且将误差检测限于测序设备上的特定硬件。实际上,现有系统经常不准确地进行碱基检出或捕获不可靠的图像数据,因为延行穿过测序设备或玻片的流体和气体可在图像数据下面产生不规则性。例如,核苷酸样品玻片中的气泡(例如,空气或油泡)可能干扰、在其中产生噪声、或以其他方式导致来自此类图像数据(用于碱基检出)的数据特征中的数据质量问题。此类气泡不仅会使碱基检出的数据特征失真,而且会抑制或减慢运行质量或收率。尽管存在由气泡引起的问题,但是现有的核酸测序系统和现有的测序数据分析软件经常缺乏检测气泡的有效手段。
部分地由于气泡导致的误差或其他测序误差,现有的核酸测序系统经常低效地重新测序和重新分析核苷酸样品。具体地,现有系统和软件经常执行或消耗附加的处理、计算、存储资源和时间来生成质量数据以校正受气泡干扰影响的数据。为了说明,测序运行可能经受许多问题类型,诸如失败的测序反应、污染、差的样品加载或气泡的存在。因为现有系统经常不能识别气泡的存在或者将气泡干扰与其他误差区分开,所以此类系统经常需要用户在成功识别问题之前重复测序运行。
虽然已经开发或设想了用于检测气泡的基本机械方法,但是此类检测方法是低效的并且可能限于特定平台类型。例如,现有的核酸测序系统经常需要关于测序运行的附加信息以识别气泡的存在或测序误差的其他来源。更具体地,使流体通过管路流到盒的常规核酸测序系统经常需要附加的硬件以捕获指示气泡的存在的数据。例如,现有系统经常需要附加的管路相机、管路检测器或其他类型的传感器。在某些情况下,此类系统使用超声波或电容传感检测器以识别穿过管路的气泡。但是测序设备上的此类本地硬件限于具有管路的湿式平台,并且需要附加的处理、存储和分析资源以实施此类气泡检测方法。
除了用于在湿式测序平台中检测气泡的现有机制的低效之外,一些此类气泡检测方法限于测序设备上的特定硬件。如上所述,一些常规核酸测序系统试图通过利用基于硬件的气泡检测器来检测气泡。即使一些常规核酸测序系统可在管路或其他部件中包括传感器以检测气泡,但此类检测硬件不仅昂贵而且在干式测序平台中不可行。例如,干式测序平台经常对一次性消耗品执行流体操作,该一次性消耗品缺乏将流体汇聚入该消耗品中的管路。此类干式测序平台不能利用专用的气泡检测传感器,或者此类传感器由于需要昂贵的测序设备或可消耗的核苷酸样品玻片的庞大的重新设计而不切实际。
发明内容
本公开描述了提供益处和/或解决本领域的上述问题中的一个或多个的系统、方法和非暂态计算机可读存储介质的一个或多个实施方案。例如,所公开的系统使用机器学习模型来基于在此类测序运行期间的碱基检出期间捕获(或来源于此期间)的数据准确并且有效地检测气泡何时影响核酸测序运行。为了说明,所公开的系统可以在测序循环期间从测序平台接收识别核碱基检出的数据和识别此类核碱基检出的质量指标的数据。基于特定核碱基检出和针对质量指标的阈值标记,机器学习模型可以检测核苷酸样品玻片中气泡的存在。通过使用检出数据和质量指标,所公开的系统可在平台无关的方法中使用容易获得的测序数据,以使用唯一训练的机器学习模型来检测气泡。
在一些情况下,所公开的系统使用机器学习模型,该机器学习模型被训练成在测序循环期间识别核苷酸样品玻片(例如,流通池)的特定部分或单元(例如,区块)内的气泡。除了简单地检测气泡的存在之外,在一些示例中,所公开的系统还可以对不同的检测到的气泡(诸如油泡、空气气泡或重影泡)进行分类,或者其他在测序期间识别其他输出(诸如区块登记失败和掉落的区块)。
本公开的一个或多个实施方案的附加的特征部和优点将在随后的描述中阐述,并且部分地将从该描述中显而易见,或者可以通过此类示例性实施方案的实践获知。
附图说明
各种实施方案将通过使用附图以附加的特征和细节来描述和解释,附图概述如下。
图1示出根据本公开的一个或多个实施方案的气泡检测系统可在其中操作的环境。
图2示出根据本公开的一个或多个实施方案的检测气泡的存在的气泡检测系统的概览图。
图3示出根据本公开的一个或多个实施方案的关于单通道、双通道和四通道测序数据操作的气泡检测系统的概览图。
图4A至图4C示出根据本公开的一个或多个实施方案的图解对应于不同误差分类的数据特征的示例性图表。
图5示出根据本公开的一个或多个实施方案的示例性气泡检测机器学习模型。
图6A至图6C示出根据一个或多个实施方案的训练气泡检测机器学习模型的气泡检测系统,以及流通池内具有气泡的示例性空间图像。
图7示出根据本公开的一个或多个实施方案的用于检测气泡的存在的一系列动作。
图8示出根据本公开的一个或多个实施方案的示例性计算设备的方框图。
具体实施方式
本公开描述了气泡检测系统的一个或多个实施方案,该气泡检测系统利用机器学习模型基于在核酸测序运行期间捕获的(或来源于核酸测序运行的)数据来检测核苷酸样品玻片内气泡的存在。在一些实施方案中,例如,气泡检测系统访问或接收用于在测序循环期间核碱基检出的碱基检出数据和识别质量指标的质量数据,该质量指标估计在测序循环期间此类核碱基检出的误差。此类检出数据和质量数据可以特定于核苷酸样品玻片,例如流通池或玻片的一部分。气泡检测系统从检出数据和质量数据确定对应于至少一个核碱基的核碱基检出的子群(例如,腺嘌呤和鸟嘌呤碱基检出的子群)和满足阈值质量值的核苷酸检出的子群。基于作为输入的这些数据子群,气泡检测系统利用机器学习模型以检测核苷酸样品玻片内气泡的存在。在一些此类实施方案中,此类气泡检测机器学习模型对检测到的气泡的类型进行分类。
如刚刚所指出,在一些实施方案中,气泡检测系统接收检出数据,该检出数据包括核酸聚合物测序循环的核碱基检出。通常,气泡检测系统接收在每个测序循环识别核碱基的检出数据。气泡检测系统可以接收根据各种类型的数据组织或打包的检出数据。例如,气泡检测系统可以接收根据在单通道数据、双通道数据或四通道数据上组织的检出数据。在任何情况下,气泡检测系统可从各种类型的测序平台接收并且利用检出数据。
如上文进一步指出的,气泡检测系统还接收包括质量指标的质量数据,该质量指标估计循环的核碱基检出中的误差。在一些实施方案中,质量指标指示核苷酸样品玻片的碱基检出准确度。例如,质量指标可以包括指示不正确的碱基检出的概率的值。在一个或多个实施方案中,质量指标包括质量分数(或Q分数),该分数指示对于核苷酸样品玻片的部分的不正确碱基检出的概率对于Q20分数为1/100,对于Q30分数为1/1,000,对于Q40分数为1/10,000,等等。但是气泡检测系统灵活地接收任何数目的质量指标作为确定气泡的存在的一部分。
在一些实施方案中,基于检出数据,气泡检测系统确定对应于至少一个核碱基的核碱基检出的子集。例如,在某些实施方式中,气泡检测系统确定腺嘌呤检出、胸腺嘧啶检出、胞嘧啶检出或鸟嘌呤检出的比例。在一个示例中,气泡检测系统确定每个循环中包括腺嘌呤检出的碱基检出的比例或百分比,以及每个循环中包括胸腺嘧啶检出的碱基检出的比例或百分比。因此,在某些实施方式中,气泡检测系统确定在核苷酸样品玻片的特定部分内对应于腺嘌呤的核碱基检出的百分比(或其他子集)和对应于鸟嘌呤的核碱基检出的百分比(或其他子集)。
基于质量数据,在某些情况下,气泡检测系统还可以确定符合质量指标的阈值质量指标的核碱基检出的子集。在一些实施方案中,气泡检测系统确定阈值质量指标。例如,气泡检测系统可能确定循环中的碱基检出的阈值质量指标等于Q30,并且对应于99.9%的准确度或者1,000次机会中有1次给定碱基检出不正确。气泡检测系统还确定满足所确定的阈值质量指标的碱基检出的比例或百分比。具体地,气泡检测系统将来自所接收的质量数据的质量指标与阈值质量指标进行比较。因此,在某些实施方式中,气泡检测系统确定符合核苷酸样品玻片的特定部分内的阈值质量指标的核碱基检出的百分比(或其他子集)。
在确定了核碱基检出的相关子集后,在某些情况下,气泡检测系统生成用于气泡检测机器学习模型的输入矩阵,该输入矩阵包括对应于至少一个核碱基的核碱基检出的第一子集和符合阈值质量指标的核碱基检出的第二子集。更具体地,在一个示例中,气泡检测系统使用符合阈值质量指标(例如,对于测序循环总数内的每个循环)的腺嘌呤检出的子集、鸟嘌呤检出的子集和核碱基检出的子集来编写输入矩阵。气泡检测系统可通过基于测序循环的数目调整输入矩阵来适应各种输入大小。例如,在一个实施方案中,输入矩阵包括长度为N的三个一维输入通道,其中三个输入通道包括符合阈值质量指标的腺嘌呤检出的子集、鸟嘌呤检出的子集和核碱基检出的第二子集,并且N等于测序循环的数目。
不论输入形式如何,气泡检测系统可以使用气泡检测机器学习模型以基于检出数据和质量数据的子集检测核苷酸样品玻片内的气泡的存在。为了检测此类气泡的存在,气泡检测系统可以利用各种类型的机器学习模型。例如,在一些实施方案中,气泡检测系统利用诸如卷积神经网络(CNN)的神经网络以检测气泡。在其他实施方案中,气泡检测系统利用其他类型的机器学习模型以检测气泡。例如,在一些实施方式中,气泡检测系统实施支持向量机(SVM)或自适应增强机器学习模型。
如上所述,相对于常规核酸测序系统和对应的测序数据分析软件,气泡检测系统提供了几个技术益处和技术改进。具体地,气泡检测系统可以改进现有核酸测序系统或对应的软件用其检测干扰测序的气泡的存在的准确度。所公开的气泡检测系统引入了同类中的第一个机器学习模型,该模型检测现有技术或本领域无法比拟的核苷酸样品玻片内的气泡。如上所述,现有系统无法直接检测干扰测序的气泡,或者使用机械传感器以检测限于特定平台的气泡。与此类现有系统不同,所公开的气泡检测系统利用机器学习模型,该机器学习模型被训练成基于可获得数据(即,识别核碱基检出的检出数据和识别此类核碱基检出的质量指标的质量数据)的唯一分析以准确地检测核苷酸样品玻片内的气泡。通过依赖检出数据和质量数据,气泡检测系统可以利用经过训练的气泡检测机器学习模型准确地检测核苷酸样品玻片内的气泡的存在(并且有时识别气泡的类型)。与常规和机械气泡检测方法不同,气泡检测系统可以通过使用容易获得的检出数据和质量数据跨各种测序平台应用其机器学习模型。
除了新的和准确的气泡检测方法之外,在一些实施方案中,气泡检测系统可以准确地检测在核苷酸样品玻片的特定部分内(例如,在流通池的区块内或流通池的一组区块内)气泡的存在和受气泡影响的对应的检出数据。更具体地,在某些情况下,气泡检测系统利用气泡检测机器学习模型,该模型传递特定于载玻片部分的检出数据和质量数据,以自动检测被气泡影响的核苷酸样品玻片的部分。通过指定核苷酸样品玻片的哪些部分已被影响,气泡检测系统可切除不准确的数据并且改进测序数据的准确度和总体质量。为了说明,在一些实施方式中,气泡检测系统从检出数据中移除核苷酸样品玻片的部分的读段,或者降低对应于被气泡影响的核苷酸样品玻片的特定部分的读段或核碱基检出的质量指标。在一些情况下,当检测到的气泡等于或超过大小阈值时或者当核碱基检出的数据特征与标准相差特定阈值时,气泡检测系统去除核碱基检出或降低质量指标。
除了改进准确度之外,气泡检测系统改进了常规核酸测序系统和对应的测序数据分析软件用其确定核酸聚合物的核碱基序列的效率。通过识别何时气泡影响或以其他方式干扰核苷酸样品玻片,气泡检测系统消除了对排除某些误差并且因此运行和重新运行多个测序循环以实现高质量数据的需要。在一些此类情况下,气泡检测系统识别被气泡影响的核苷酸样品玻片的特定部分,以特异性地识别哪个对应的数据部分被气泡破坏或干扰。此外,气泡检测系统还可通过对特定类型的气泡(例如,油、空气或重影)或用于校正的其他特定误差类型(例如,区块登记失败或掉落的区块)进行分类来改进测序的效率。因此,气泡检测系统通过识别和最小化核苷酸样品玻片的部分的数据或需要丢弃或重新评估以准确地测定核酸聚合物序列的循环的数目来改进核酸聚合物测序的效率。
除了减少再测序尝试或识别特定的气泡影响的数据之外,在一些实施方案中,相对于常规核酸测序系统和对应的测序数据分析软件,气泡检测系统通过减少在测序运行内识别气泡通常所需的资源来改进效率。如前所述,气泡检测系统利用气泡检测机器学习模型以检测测序运行内的气泡。在至少一个实施方案中,气泡检测系统利用轻量级CNN识别气泡的存在。因此,在一些实施方案中,气泡检测系统更有效地利用从计算方面上讲轻量级机器学习模型以分析来自各种测序平台的可用检出数据和质量数据,而不是要求在测序设备上使用附加的硬件(例如,管路传感器)或使用从计算方面上讲重量级神经网络以处理附加的信息。因此,在此类情况下,相较于使用图像或其他传感器数据以检测气泡,气泡检测系统产生低数据足迹。
与改进的效率无关,气泡检测系统还改进了核酸测序系统和对应的测序数据分析软件用其检测气泡的灵活性。如上所述,在一些实施方式中,气泡检测系统是平台无关的,并且没有附加的管路传感器(像一些基于流体的测序设备上的那些)。具体地,气泡检测系统灵活地利用容易从许多测序平台访问的碱基检出和质量数据。在至少一个实施方案中,气泡检测系统利用具有自适应最大池化层的CNN,其使得气泡检测系统能够更灵活地分析可变输入大小。因此,气泡检测系统可以由现有的测序平台实施和利用,而不需要附加的硬件。此外,在一些实施方案中,气泡检测系统利用各种可配置电路(诸如专用集成电路(ASIC)或现场可编程门阵列(FPGA))灵活地应用。
如上述讨论所示,本公开利用多种术语以描述气泡检测系统的特征部和优点。现在提供关于此类术语的含义的附加细节。例如,如本文所用,术语“核苷酸样品玻片”是指包括用于对样品的核苷酸片段进行测序的寡核苷酸的板或玻片。在一些实施方案中,核苷酸样品玻片包括含有流体通道的玻片,试剂和缓冲液可以作为测序的一部分通过该流体通道行进。例如,在一个或多个实施方案中,核苷酸样品玻片包括流通池,该流通池包括小流体通道和与接头序列互补的短寡核苷酸。
如本文所用,术语“检出数据”是指指示核酸聚合物的个体核碱基或核碱基的序列的图像数据或其他数字信息。具体地,检出数据可包括来自核苷酸样品玻片的相机拍摄的图像的强度值(例如,个体簇的颜色或光强度值)或指示核酸聚合物的个体核碱基或核碱基的序列的其他数据。作为强度值的补充或替代,检出数据可包括指示序列中的个体核碱基的色谱峰或电流变化。附加地,在一些实施方案中,检出数据包括识别个体核碱基(例如,A、T、C或G)的个体核碱基检出。例如,检出数据可包括核酸聚合物的序列中核碱基检出的数据、对应于特定碱基(例如腺嘌呤、胞嘧啶、胸腺嘧啶或鸟嘌呤)的核碱基检出的数目。在一些实施方案中,检出数据包括来自利用边合成边测序(SBS)的测序设备的信息。
如本文所用,术语“核碱基检出”是指用以添加到或掺入用于测序循环的寡核苷酸内的特定核碱基的指定或确定。具体地,核碱基检出指示已掺入核苷酸样品玻片上的寡核苷酸内的核苷酸类型的指定或确定。在一些情况下,核碱基检出包括核碱基至强度值的指定或确定,该强度值由添加到核苷酸样品玻片的纳米孔中的寡核苷酸的核苷酸产生。另选地,核碱基检出包括核碱基至色谱峰或电流变化的指定或确定,该色谱峰或电流变化由穿过核苷酸样品玻片的纳米孔的核苷酸产生。通过使用核碱基检出,测序系统确定核酸聚合物的序列。例如,单个核碱基检出可包括腺嘌呤检出、胞嘧啶检出、鸟嘌呤检出或胸腺嘧啶检出。
如本文进一步所用,术语“测序循环”或简单地“循环”是指将核碱基添加到或掺入寡核苷酸的迭代或将核碱基并行添加到或掺入寡核苷酸的迭代。具体地,循环可以包括采集和分析一个或多个图像的迭代,该一个或多个图像具有指示个体核碱基被添加或掺入寡核苷酸或并行添加或掺入寡核苷酸的数据。因此,循环可被重复作为核酸聚合物测序的一部分。例如,在一个或多个实施方案中,每个测序循环涉及其中仅以单一方向读取DNA或RNA链的单个读段或者其中从两个末端读取DNA或RNA链的双端读段。此外,在某些情况下,每个测序循环涉及相机拍摄核苷酸样品玻片或核苷酸样品玻片的多个部分的图像,以生成用于确定添加或掺入特定寡核苷酸中的特定核碱基的图像数据。在图像捕获阶段之后,测序系统可以从掺入的核碱基移除某些荧光标记,并且执行另一个测序循环,直到核酸聚合物已经被完全测序。在一个或多个实施方案中,“循环”是指边合成边测序(SBS)运行内的测序循环。
如本文所用,术语“核酸聚合物”是指由核酸单元组成的大分子。具体地,核酸聚合物可包括由序列中的不同含氮杂环碱基组成的大分子。例如,核酸聚合物可包括脱氧核糖核酸(DNA)、核糖核酸(RNA)的片段或分子,或者核酸的其他聚合形式或下文所述核酸的嵌合或杂合形式。更具体地,在一些情况下,核酸聚合物是在由试剂盒制备或分离并且由测序设备接收的样品中发现的核酸聚合物。
如本文所用,术语“质量数据”是指指示测序循环的核碱基检出的准确度或质量的信息。具体地,质量数据通常指示测序循环内一个或多个碱基检出的准确度。例如,质量数据可包括一个或多个质量指标。
如本文所用,术语“质量指标”是指指示测序循环的核碱基检出的准确度的特定评分或其他测量。具体地,质量指标包括指示一个或多个预测的核碱基检出包含误差的可能性的值。例如,在某些实施方式中,质量指标可包括预测测序循环内任何给定碱基检出的误差概率的Q分数。
如本文所用,术语“气泡”是指球形或类似球体的球状体或包封气体、液体或其他材料的其他容器。具体地,气泡是指可以进入核苷酸样品玻片并且可以影响测序循环的数据质量的球形球状体。例如,气泡可包括发生在核苷酸样品玻片内的空气泡或油泡。
现在将结合描绘气泡检测系统的示例性实施方案和实施方式的说明性附图提供关于气泡检测系统的附加细节。例如,图1示出根据一个或多个实施方案的系统环境(或“环境”)100的示意图,气泡检测系统106在其中操作。如所示,环境100包括经由网络112连接到用户客户端设备108和测序设备114的一个或多个服务器设备102。虽然图1示出气泡检测系统106的实施方案,但是替代实施方案和配置是可能的。
如图1中所示,服务器设备102、用户客户端设备108和测序设备114经由网络112连接。因此,环境100的每个部件可经由网络112通信。网络112包括计算设备可在其上通信的任何合适的网络。下文结合图8更详细地讨论示例性网络。
如图1中所示,测序设备114包括用于对核酸聚合物进行测序的设备。在一些实施方案中,测序设备114分析从样品中提取的核酸片段以利用本文所述的计算机实现的方法和系统在测序设备114上直接或间接生成数据。更具体地,测序设备114在核苷酸样品玻片内接收并且分析从样品中提取的核酸片段。在一个或多个实施方案中,测序设备114利用SBS以对核酸聚合物测序。作为跨网络112进行通信的补充或替代,在一些实施方案中,测序设备114绕过网络112并且直接与用户客户端设备108通信。
如图1进一步所示,服务器设备102可生成、接收、分析、存储、接收和传输电子数据,诸如用于确定核碱基检出或测序核酸聚合物的数据。如图1中所示,服务器设备102可接收来自测序设备114的数据。例如,服务器设备102可收集和/或接收测序数据,包括检出数据、质量数据和与测序核酸聚合物相关的其他数据。服务器设备102还可与用户客户端设备108通信。具体地,服务器设备102可向用户客户端设备108发送核碱基序列、误差数据和其他信息。
在一些实施方案中,服务器设备102包括分布式服务器,其中服务器设备102包括跨网络112分布并且位于不同物理位置的许多服务器设备。服务器设备102可包括内容服务器、应用程序服务器、通信服务器、网络托管服务器或另一类型的服务器。
如图1中进一步所示,服务器设备102可包括测序系统104。通常,测序系统104分析从测序设备114接收的测序数据,以确定核酸聚合物的核碱基序列。例如,测序系统104可接收来自测序设备114的原始数据并且确定核酸片段的核碱基序列。在一些实施方案中,测序系统104确定DNA和/或RNA片段中核碱基的序列。除了处理和确定核酸聚合物的序列之外,测序系统104还分析测序数据以检测测序循环中的不规则性。具体地,测序系统104可使用气泡检测系统106以在测序循环内检测气泡并且向用户客户端设备108发送对应的通知。
如刚刚所述,并且如图1中所示,气泡检测系统106分析来自测序设备114的数据以检测与测序设备114相关联的核苷酸样品玻片内的气泡的存在。更具体地,在一些实施方案中,气泡检测系统106从测序设备114接收检出数据和质量数据。基于检出数据和质量数据,气泡检测系统106确定对应于至少一个核碱基的核碱基检出的第一子集和符合阈值质量指标的核碱基检出的第二子集。基于核碱基检出的第一子集和核碱基检出的第二子集,气泡检测系统106实施气泡检测机器学习模型以检测气泡的存在。因此,气泡检测系统106可包括一个或多个机器学习模型(例如,神经网络、SVM、自适应增强)。
如图1中进一步所示和指示,用户客户端设备108可生成、存储、接收和发送数字数据。具体地,用户客户端设备108可从测序设备114接收测序数据。此外,用户客户端设备108可与服务器设备102通信以接收核碱基序列以及测序循环内的不规则报告,诸如指示气泡的存在的警报。用户客户端设备108可因此在图形用户界面内向与用户客户端设备108相关联的用户呈现测序数据和气泡的通知。
图1中示出的用户客户端设备108可包括各种类型的客户端设备。例如,在一些实施方案中,用户客户端设备108包括非移动设备,诸如台式计算机或服务器,或其他类型的客户端设备。在又其他实施方案中,用户客户端设备108包括移动设备,诸如便携式电脑、平板电脑、移动电话或智能电话。关于用户客户端设备108的附加细节在下文关于图8论述。
如图1中所示,用户客户端设备108包括测序应用程序110。测序应用程序110可以是在用户客户端客户端设备108上存储和执行的网络应用程序或本机应用程序(例如,移动应用程序、桌面应用程序)。测序应用程序110可以从气泡检测系统106接收数据,并且可以呈现测序数据用于在用户客户端设备108处显示。此外,测序应用程序110可提供指示在核苷酸样品玻片的一部分内气泡的存在的通知。
如图1中进一步所示,气泡检测系统106可作为测序应用程序110的一部分位于用户客户端设备108上。如所示,在一些实施方案中,气泡检测系统106通过(例如,完全或部分地位于)在用户客户端设备108上实施。附加地或另选地,在一些实施方式中,气泡检测系统106通过(例如,完全或部分地位于)在测序设备114上实施。在又其他实施方案中,气泡检测系统106由环境100的一个或多个其他部件实施。具体地,气泡检测系统106可以多种不同的方式跨服务器设备102、网络112、用户客户端设备108和测序设备114实施。
尽管图1示出经由网络112进行通信的环境100的部件,但是在某些实施方式中,环境100的部件还可以绕过网络直接与彼此通信。例如,并且如前所述,用户客户端设备108可直接与测序设备114通信。附加地,用户客户端设备108可直接与气泡检测系统106通信。而且,气泡检测系统106可访问容纳在服务器设备102上或由该服务器设备访问的一个或多个数据库,或者环境100中的其他地方。
如上所指示,气泡检测系统106可检测核苷酸样品玻片内的气泡的存在。例如,图2示出根据一个或多个实施方案的执行一系列动作200以检测核苷酸样品玻片内的气泡的存在的气泡检测系统106。作为一系列动作200的一部分,气泡检测系统106执行接收检出数据的动作202、接收质量数据的动作204、确定核碱基检出的第一子集和第二子集的动作206以及检测气泡的存在的动作208。
如图2中所示,一系列动作200包括接收检出数据的动作202。具体地,当执行动作202时,气泡检测系统106接收检出数据,该检出数据包括或指示核酸聚合物测序循环的核碱基检出。在一些情况下,气泡检测系统106访问来自测序设备的检出数据(例如,来自测序设备114的成像数据),该检出数据指示每个测序循环的核碱基检出。例如,如图2中所示,气泡检测系统106接收每个循环的图像数据,该图像数据包括指示每个测序循环和核苷酸样品玻片的部分的腺嘌呤(A)检出、胸腺嘧啶(T)检出、胞嘧啶(C)检出或鸟嘌呤(G)检出的强度值。在一些实施方案中,检出数据还指示在特定循环内所检出的特定核碱基的总数或百分比。尽管图2将检出数据描绘为具有指示强度值的颜色的图像数据,但气泡检测系统106可接收以任何合适格式的检出数据,诸如作为二进制碱基检出(BCL)序列文件或InterOp指标文件的一部分的检出数据。
作为当执行动作202时接收图像数据的补充或替代,在某些实施方式中,气泡检测系统106接收检出数据,该检出数据包括跨核酸聚合物测序循环的个体核碱基检出。例如,在一些情况下,检出数据包括针对特定循环和核苷酸样品玻片的部分的A、T、C或G检出的显式信息或文本指示器。如上所述,检出数据还可包括在特定循环内检出的特定核碱基的总数或百分比。
如图2中进一步所示,一系列动作200包括气泡检测系统106执行接收质量数据的动作204。如上所指示,质量数据包括估计循环的核碱基检出中的误差的质量指标。具体地,气泡检测系统106从测序设备接收指示每个循环的误差核碱基检出的概率的质量数据。例如,如图2中所示,质量数据包括对应于每个循环所检出碱基总数的质量指标。尽管图2将质量数据描绘为与特定质量指标相关联的总碱基检出的分布,但气泡检测系统106可接收以任何合适格式的质量数据,诸如BCL文件或InterOp指标文件内的质量指标。在一个或多个实施方案中,质量数据包括质量指标,如下文更详细地描述。
如上文进一步指示,在一些实施方案中,质量指标包括与不正确核碱基检出的概率或碱基检出准确度相关联的质量分数。例如,在一个或多个实施方案中,质量指标包括基于Phred算法或由Illumina,Inc开发的改良的Phred算法的Phred质量分数。在一些实施方案中,气泡检测系统106确定或使用Phred分数作为质量指标,如Method and System forDetermining the Accuracy ofDNA Base Identifications(美国专利号8,392,126,2009年9月23日提交)所述,其内容全文据此以引用方式并入。Phred质量分数Q10等于10次中1次不正确核碱基检出的概率,这意味着每10个核碱基测序读段可能包含误差。下表包括附加的Phred质量分数以及它们的不正确核碱基检出的等效概率和核碱基检出准确度。
关于Phred质量分数的附加细节由Ewing B,Green P.Base-calling ofAutomated Sequencer Traces Using Phred.II.Error Probabilities.Genome Res.,1998Mar.;8(3):186-194.PMID:9521922提供,其全文以引用方式并入本文。
如图2中进一步所示,一系列动作200包括确定核碱基检出的第一子集和第二子集的动作206。具体地,当执行动作206时,气泡检测系统106确定对应于至少一个核碱基的核碱基检出的第一子集和符合质量指标的阈值质量指标的核碱基检出的第二子集。在一些实施方案中,第一子集和第二子集包括给定循环和核苷酸样品玻片的特定部分(例如,区块)的所有核碱基检出的比例或百分比。以下段落提供关于第一子集和第二子集的附加细节。
如图2所示,气泡检测系统106确定对应于至少一个核碱基210的第一子集。例如,并且如图2中所示,气泡检测系统106确定每个循环的腺嘌呤检出的子集和鸟嘌呤检出的子集。在一个或多个实施方案中,第一子集包括指示对应于特定核碱基的所有核碱基检出的部分的百分比值。虽然图2示出气泡检测系统106通过确定腺嘌呤检出的百分比和鸟嘌呤检出的百分比来确定对应于至少一个核碱基210的第一子集,但是气泡检测系统106还可以确定包括腺嘌呤检出、胸腺嘧啶检出、胞嘧啶检出和鸟嘌呤检出的任何组合的第一子集。
如图2中进一步所示,气泡检测系统106还确定符合阈值质量指标212的第二子集。气泡检测系统106识别阈值质量指标并且确定符合阈值质量指标的核碱基检出的子集。在一些实施方式中,气泡检测系统106确定阈值质量指标,该阈值质量指标包括满足或超过基准阈值质量指标的核碱基检出的百分比或比例。为了说明,在一个或多个实施方案中,气泡检测系统106确定阈值质量指标等于Phred质量分数Q30。对于每个循环,气泡检测系统106确定满足或超过Q30质量指标的核碱基检出的百分比(或其他子集)。
在执行确定核碱基检出的第一子集和第二子集的动作206之后,气泡检测系统106执行检测气泡的存在的动作208。具体地,当执行动作208时,气泡检测系统106通过利用基于核碱基检出的第一子集和核碱基检出的第二子集的气泡检测机器学习模型检测在核苷酸样品玻片内的气泡的存在。如图2中所示,例如,气泡检测系统106利用气泡检测机器学习模型216以分析输入矩阵214并且生成输出218。
除了一系列动作200之外,在一些情况下,气泡检测系统106还向计算设备提供指示气泡的存在的警报。具体地,气泡检测系统106提供通知或警报用于经由与用户相关联的计算设备显示。附加地或另选地,气泡检测系统106向测序设备提供警报。在任何情况下,气泡检测系统106可在警报内包括指示气泡或误差的类型的误差分类。此外,警报可包括附加的信息,该信息包括核苷酸样品玻片的部分和/或在其中发生气泡的测序循环。
此外,在一些实施方式中,气泡检测系统106基于检测气泡的存在确定一个或多个校正动作。为了说明,在一些实施方式中,气泡检测系统106基于检测气泡的存在降低循环、特定循环或核苷酸样品玻片的特定部分中的特定读段的质量指标。在一些情况下,例如,气泡检测系统106可通过识别对应的读段的唯一分子标识符(UMI)识别以为其降低质量指标的循环中的核碱基检出。附加地或另选地,气泡检测系统106可基于识别循环、特定循环、或受气泡影响的核苷酸样品玻片的特定部分中的特定读段,从检出数据中切除受影响的检出。在一些情况下,基于确定气泡的持久性,气泡检测系统106可在警报内包括解决气泡的建议动作。例如,基于确定检测到的油泡的数目满足阈值,气泡检测系统106提供包括建议动作的警报以检查测序设备的部件的油泄漏或重新装载核苷酸样品玻片。
如前所述,在一些实施方案中,气泡检测系统106识别受气泡影响的核苷酸样品玻片的特定部分。在一个示例中,核苷酸样品玻片的一部分包括流通池的区块。因此,在一个或多个实施方案中,气泡检测系统106针对核苷酸样品玻片的特定部分执行一系列动作200。因此,在某些实施方式中,气泡检测系统106跨核苷酸样品玻片的单个部分的循环接收检出数据和质量数据。因此,气泡检测系统106可识别受气泡影响的核苷酸样品玻片的特定部分。
如图2中进一步所示,气泡检测系统106利用输入矩阵214作为进入气泡检测机器学习模型216的输入。在一个或多个实施方案中,输入矩阵214包括对应于至少一个核碱基的核碱基检出的第一子集(例如,腺嘌呤检出的子集和鸟嘌呤检出的子集)和符合阈值质量指标的核碱基检出的第二子集的数据。如下文关于图5所述,输入矩阵214的大小可基于测序循环的数目而变化。
如图2进一步所示,气泡检测系统106实施气泡检测机器学习模型216。气泡检测机器学习模型216从输入矩阵214提取特征部以识别核苷酸样品玻片内气泡的存在。气泡检测机器学习模型216可包括各种类型的机器学习模型。在一些实施方案中,气泡检测机器学习模型216包括神经网络,诸如CNN,或不同类型的机器学习模型,诸如SVM或自适应增强机器学习模型。图5和对应的讨论进一步描述了根据一个或多个实施方案的示例性CNN。
在使输入矩阵214穿过气泡检测机器学习模型216之后,气泡检测系统106利用气泡检测机器学习模型216生成输出218。在一些实施方案中,输出218包括(i)核苷酸样品玻片内的气泡的指示和(ii)误差分类。如图2中所示,例如,输出218包括潜在的误差分类,该分类包括油泡、空气泡和失落。在附加的实施方案中,输出218包括附加误差分类重影泡。图4A至图4C和对应的段落进一步描述根据一个或多个实施方案的由气泡检测系统106生成的误差分类。
图2提供根据一个或多个实施方案的确定核苷酸样品玻片内气泡的存在的气泡检测系统106的总体概述。如上所述,气泡检测系统106可基于各种类型的检出数据灵活地确定气泡的存在。图3示出气泡检测系统106可用于确定核苷酸样品玻片内气泡的存在的不同类型的检出数据。通常,图3示出作为SBS循环的一部分而获得的单通道数据302、双通道数据304和四通道数据306。以下段落进一步描述这些类型的数据中的每一者。
如图3中所示,在一些实施方案中,检出数据可包括呈单通道数据302形式的图像数据。在一些实施方案中,并且如图3中所示,单通道数据包括核酸聚合物测序的给定循环的核苷酸样品玻片308a的部分310a的双图像合成312。在某些实施方案中,双图像合成312包括两个图像的组合,每个使用相同的检测通道、相同的染料或在不同时间捕获的相同的荧光标记捕获。与其中测序仪针对每个核碱基使用不同的荧光染料或标记的四通道SBS化学不同,单通道SBS化学每个测序循环使用一种荧光染料、两个化学步骤和两个成像步骤(产生两个图像)。在单通道化学中,例如腺嘌呤具有能够去除的标记并且仅在第一图像318中进行标记。胞嘧啶具有可以结合标记并且仅在第二图像320中进行标记的接头基团。胸腺嘧啶具有持久荧光标记,并且因此在第一图像318和第二图像320两者中进行标记。鸟嘌呤未被标记,因此在任一图像中都不发荧光。气泡检测系统106基于分析跨两个图像的每一碱基的不同发射图案确定核碱基检出。
在一个或多个实施方案中,气泡检测系统106基于强度信息获得单通道数据。在此类实施方案中,代替捕获两个图像,测序系统104捕获单个图像并且将不同的强度值与不同的核碱基相关联。具体地,三个或更多个核碱基以不同的强度结合一种荧光染料或标记。气泡检测系统106可将强度范围与特定核碱基相关联,或者将染料或标记的缺乏与特定核碱基相关联。因此,气泡检测系统106使用单个通道基于强度数据确定核碱基检出。
如图3中进一步所示,在某些情况下,气泡检测系统106接收呈双通道数据304形式的检出数据。具体地,双通道数据304包括核苷酸样品玻片308b的部分310b的双图像合成314。具体地,双图像合成314包括两个图像,每个使用特定于两种不同染料或不同荧光标记的检测通道捕获。双通道SBS通过使用两种荧光染料和双图像合成314以确定所有四个核碱基检出相对于四通道SBS化学简化核苷酸检测。例如,在一个实施方案中,测序设备的相机使用红色和绿色过滤带捕获图像。胸腺嘧啶核碱基用绿色荧光团标记,胞嘧啶用红色荧光团标记,并且腺嘌呤用红色和绿色荧光团两者标记。鸟嘌呤是永久黑色。气泡检测系统106通过使用两个过滤通道以处理双图像合成314并且以确定哪些核碱基被掺入核苷酸样品玻片308b的部分310b内的每个簇中来确定核碱基检出。
如上文进一步指出的,在一些实施方式中,气泡检测系统106接收呈四通道数据306形式的检出数据。具体地,四通道数据306包括核苷酸样品玻片308c的部分310c的四图像合成316。具体地,四图像合成316包括四个图像,每个使用特定于四种不同染料或荧光标记中的一种的检测通道捕获。四通道SBS循环以化学步骤开始,其中将所有四种不同的标记的碱基添加到核苷酸样品玻片中。成像循环开始并且包括使用四个不同的过滤通道或波长带捕获四图像合成316。气泡检测系统106处理四图像合成316以确定哪些核碱基被掺入在跨核苷酸样品玻片的每个簇位置处。
气泡检测系统106基于检出数据确定核碱基检出的子集。具体地,气泡检测系统106存储、处理和分析单通道数据302、双通道数据304和/或四通道数据306,以确定每个测序循环的碱基检出。更具体地,气泡检测系统106通过分析跨所捕获的图像的每个核碱基的不同发射图案识别核碱基。在完成测序循环时,气泡检测系统106确定核碱基检出的总数。气泡检测系统还通过将特定核碱基检出的数目与循环的核碱基检出的总数进行比较来确定个体核碱基检出的子集。在一个示例中,气泡检测系统106确定给定循环的1000个总碱检出中的310个腺嘌呤检出。基于此确定,气泡检测系统106确定腺嘌呤检出的子集(%A检出)等于0.31。
如前所述,在一些实施方案中,作为检测核苷酸样品玻片内气泡的存在的一部分,气泡检测系统106利用气泡检测机器学习模型以基于符合核酸聚合物测序循环的阈值质量指标的腺嘌呤检出的子集、鸟嘌呤检出的子集和核碱基检出的子集来生成误差分类。例如,在某些实施方案中,气泡检测系统106生成识别由空气泡、油泡、重影泡或失落导致的误差的误差分类。每种误差分类对应于来自检出数据和质量数据的指标的不同数据特征。
气泡检测系统106可检测气泡或对对应于图4A至图4C中所描绘的各种数据特征的此类误差进行分类。根据一个或多个实施方案,图4A、图4B和图4C示出示例性图表,其图解了被描绘为数据特征的输入数据在测序运行内的循环期间的进展。具体地,图4A示出指示对应于无气泡的核苷酸样品玻片的示例性数据特征的数据图表。图4B示出根据一个或多个实施方案的对应于空气泡、重影泡和油泡的示例性数据特征。图4C示出根据一个或多个实施方案的对应于可疑气泡、失落和在单个循环内发生的失落的示例性数据特征。虽然图4A至图4C描绘了输入气泡检测机器学习模型中的数据(包括符合阈值指标的腺嘌呤检出的子集、鸟嘌呤检出的子集和核碱基检出的子集)的图表,气泡检测系统106不会将图表本身输入到此类模型中。
作为概述,图4A至图4C中的图表共享一些共同特征部。例如,图4A至图4C示出具有对应于各种误差分类的数据特征的示例性图表412a至图表412g。由示出的图表412a至图表412g图解的指标包括误差百分比404a至404g、腺嘌呤检出百分比406a至406g、鸟嘌呤检出百分比408a至408g,以及符合Q30的百分比410a至410g。更具体地,图表412a至图表412g指示在测序运行内的测序循环期间的指标的进展。误差百分比404a至404g指示每个循环中核碱基检出的预测的误差百分比。腺嘌呤检出百分比406a至406g指示每个循环中包括腺嘌呤检出的所有核碱基检出的百分比(或子集)。类似地,鸟嘌呤检出百分比408a至408g指示每个循环中包括鸟嘌呤检出的所有核碱基检出的百分比(或子集)。符合Q30的百分比410a至410g指示每个循环中符合Q30阈值质量指标的核碱基检出的百分比。在一个或多个其他实施方案中,气泡检测系统106从其他指标中提取特征部以识别和分类误差。
如上所述,图4A示出与无气泡相关联的图表412a。具体地,图表412a显示不包含气泡的核苷酸样品玻片的数据特征。通常,无气泡对应于具有相对稳定的指标的数据特征。例如,误差百分比404a、腺嘌呤检出百分比406a、鸟嘌呤检出百分比408a和符合Q30的百分比410a在测序循环内保持相对稳定。图表412a提供用于比较对应于不同误差的图表的基线。基于对应于图表412a的数据,气泡检测系统106不会检测到气泡的存在。
相比之下,图4B示出具有指示空气泡的数据特征的图表412b、具有指示重影泡的数据特征的图表412c,以及具有指示油泡的数据特征的图表412d。例如,图表412b包括反映针对包含空气泡的核苷酸样品玻片的核碱基检出的数据特征中的指标。通常,空气泡由进入核苷酸样品玻片内的流体管线和通道的空气产生。当空气泡发生并且在测序循环的成像阶段期间被捕获时,空气泡不利地影响测序读段的数据质量。例如,在成像阶段期间,空气泡可使部分图像模糊或降低化学效率。更具体地,空气泡可从核苷酸样品玻片的衬垫进入核苷酸样品玻片,并且在成像期间层压除气。
如图表412b所指示,空气泡导致误差百分比404b和鸟嘌呤检出百分比408b两者中的尖状峰,同时也导致腺嘌呤检出百分比406b和符合Q30的百分比410b的下降。如图4B中进一步所示,测序设备在第60个和第80个测序循环之间捕获空气泡。基于对应于图表412b中所示的数据特征的数据,气泡检测系统106会检测气泡的存在并且将气泡分类为空气泡。
如图4B中进一步示出,图表412c图解包含重影泡的核苷酸样品玻片的指标。重影泡是指在成像台的外部产生的空气泡或油泡。例如,与当测序设备的相机拍摄核苷酸样品玻片的图片时发生的空气泡和油泡相反,重影泡通过影响在成像阶段之前(和随后)的化学步骤影响质量数据。例如,在当引物和核苷酸被洗到核苷酸样品玻片上时的掺入期间,或者在当荧光末端阻断基团被去除时的去阻断期间,可能发生重影泡。
如图表412c中所示,在第80个测序循环之后的某个时间发生的重影泡导致误差百分比404c快速增加并且对于剩余的测序循环保持升高。附加地,符合Q30的百分比410c反映了误差百分比404c,并且在相同的测序循环下降。如图表412c中进一步所示,腺嘌呤检出百分比406c和鸟嘌呤检出百分比408c保持与对照相对类似。基于对应于图表412c中所示的数据特征的数据,气泡检测系统106会检测气泡的存在并且将气泡分类为重影泡。
还如图4B中所描绘,图表412d图解包含空气泡的核苷酸样品玻片的指标。通常,当来自测序设备的部件的油进入核苷酸样品玻片时发生油泡。类似于空气泡,油泡通过影响在测序循环的成像阶段期间捕获的图像负面地影响数据质量。更具体地,油泡吸收染料或标记并且发出荧光,导致测序设备捕获过量的荧光。例如,并且如图表412d所示,在第20个和第40个测序循环之间捕获的油泡导致误差百分比404d和腺嘌呤检出百分比406d中的尖峰。图表412d还图解了鸟嘌呤检出百分比408d中的较小下降以及符合Q30的百分比410d中的更显著下降。基于对应于图表412d中所示的数据特征的数据,气泡检测系统106会检测气泡的存在并且将气泡分类为油泡。
如上所指示,图4C示出对应于附加误差分类的示例性图表。具体地,图4C示出对应于可疑气泡的图表412e、对应于失落的图表412f以及对应于单个循环内的失落的图表412g。
如图4C中所示,例如,图表412e图解了具有可疑气泡的核苷酸样品玻片的指标。通常,可疑气泡可指示无气泡、先前所述的气泡中的一者(例如,空气泡、重影泡、油泡)或另一类型的误差。具体地,虽然某些气泡分类(例如,空气泡、重影泡和油泡)与不同的数据特征相联系,此类数据特征也可以包括一些变化。附加地,除气泡之外,其他误差可能影响数据的质量。因此,在一些实施方案中,气泡检测系统106基于对应于图表412e中的数据特征的核碱基检出的子集生成“无气泡”的分类。另选地,在某些实施方式中,气泡检测系统106基于对应于图表412e中的数据特征的核碱基检出的子集生成“未知气泡类型”或“未知误差类型”的分类。在一个或多个实施方案中,可疑气泡分类对应于与特定气泡分类的典型数据特征或无气泡数据特征略微不同的数据特征(例如,如图4A中所示)。
为了说明,图表412e展示误差百分比404e中的峰以及符合Q30的百分比410e中的对应的下降。但是图表412e的腺嘌呤检出百分比406e和鸟嘌呤检出百分比408e保持相对不受影响。在一个或多个实施方案中,气泡检测系统106基于输入矩阵的特征部确定可疑气泡的分类,该输入矩阵的特征部类似于空气、油或重影泡的特征部但与空气、油或重影泡的特征部的差异超出阈值。基于对应于图表412e中所示的数据特征的数据,气泡检测系统106会检测气泡的存在,但不对气泡进行分类。
图4C还示出对应于具有失落的核苷酸样品玻片的图表412f和图表412g。通常,失落是指当相机不捕获或捕获有限量的核苷酸样品玻片的部分(例如,流通池内的区块)或部分内的簇的图像数据时。此类失落不同于并且不是指具有暗信号或强度值的图像数据,该暗信号或强度值指示缺少特定荧光标记的核苷酸或具有未被特定波长的光辐照的标记的核苷酸。失落可发生在测序循环的各种阶段中。如图表412f所示,失落可发生在SBS测序的簇或部分登记阶段期间。附加地,并且如图表412g所示,失落可在单个循环期间发生。
如上所述,图表412f示出在簇或部分登记期间发生的失落的影响。通常,簇是指来自样品的一组核酸片段或克隆片段。具体地,簇代表相同DNA或RNA片段的数千个拷贝。例如,在一个或多个实施方案中,簇固定在核苷酸样品玻片的部分中。在一些实施方案中,簇可以使用图案化的核苷酸样品玻片均匀地间隔开。
在簇和部分登记期间,测序系统104记录用于成像的簇和部分的位置。在一些实施方案中,测序系统104还记录在簇和部分登记期间的强度值。通常,在簇登记期间发生的失落导致测序系统104不能登记测序循环的持续时间的特定簇。如图表412f所示,在部分或簇登记期间发生的失落引起较长的持续影响。具体地,误差百分比404f指示在第120个测序循环附近的急剧增加,并且符合Q30的百分比410f指示对应的下降。基于对应于在图表412f中示出的数据特征的数据,气泡检测系统106会在登记期间检测失落事件。
在簇和部分登记期间发生的失落可具有各种原因。例如,在簇登记期间的失落可能指示覆盖核苷酸样品玻片的整个部分的气泡的存在。附加地,在簇登记期间的失落可能指示其他类型的不规则性。例如,失落可能指示软件或硬件功能中的误差。在一个示例中,失落指示在测序设备与用户客户端设备或服务器设备之间的直接内存访问(DMA)转移失败。附加地,失落可能示意传感器或相机中的硬件故障,其引起与特定核苷酸样品玻片部分或簇相关的数据的切除。例如,测序设备内的传感器可能是离焦的。
如图4C的图表412g进一步所示,气泡检测系统106可检测在测序循环期间发生的失落。具体地,在给定循环期间,测序设备可能错误地忽略核苷酸样品玻片的簇或部分的数据。例如,测序设备可能经受机械误差,该机械误差导致传感器在循环期间掉落核苷酸样品玻片的整个簇或部分。在另一个示例中,测序设备经受实时分析(RTA)误差,该误差导致在测序运行期间的失落。如图表412g所示,单个测序循环中的失落可能表现为符合Q30的百分比410g中的显著下降和误差百分比404g中的较小的对应的下降。此外,腺嘌呤检出百分比406g和鸟嘌呤检出百分比408g两者具有对应于受失落影响的循环的数据缺口。基于对应于在图表412f中示出的数据特征的数据,气泡检测系统106会在单个循环期间检测失落事件。
图4B至图4C示出显示各种误差分类的数据特征的示例性图表。在一些实施方案中,气泡检测系统106利用气泡检测机器学习模型以从输入矩阵提取特征部并且确定气泡的存在以及气泡的对应的分类。如前所述,气泡检测机器学习模型可包括神经网络。图5示出根据一个或多个实施方案的气泡检测神经网络的示例性配置。具体地,图5示出包括特征部提取层502、分类层504和自适应最大池化层508的气泡检测神经网络500。如所示,气泡检测神经网络500包括气泡检测系统106应用于输入矩阵510的训练的神经网络。气泡检测系统106还通过利用气泡检测神经网络500生成输出分类506。
如图5中所示,气泡检测神经网络500包括训练的神经网络。具体地,在一个或多个实施方案中,气泡检测系统106利用训练数据集训练气泡检测神经网络500。在一个实施方案中,气泡检测系统106访问包括用于训练输入矩阵的基准真相分类的训练数据集。图6A和对应的讨论提供关于根据一个或多个实施方案的气泡检测系统106如何训练气泡检测神经网络500的附加描述。
如图5中进一步所示,气泡检测系统106在训练之后将气泡检测神经网络500应用于输入矩阵510。如图5中所示,对于核苷酸样品玻片的每个部分(例如,流通池的区块),输入矩阵510包括长度为N的三个一维输入通道,其中N等于运行中的SBS循环的数目。在一些实施方案中,三个一维输入通道包括符合阈值质量指标(例如,%Q30)的腺嘌呤检出的子集、鸟嘌呤检出的子集和核碱基检出的子集。输入矩阵510的大小是可变的,并且可因此适应大范围的测序运行长度。
除了训练机器学习模型以检测和分类气泡之外,在某些实施方式中,气泡检测系统106训练此类模型以区分在特定测序化学步骤或阶段期间引入的气泡。在不同的SBS或桑格化学步骤或阶段发生的气泡可引起唯一的数据特征。例如,通过使用对应于此类唯一数据特征(特定于气泡在其进入或干扰核苷酸样品玻片的化学步骤或阶段)的训练数据,气泡检测系统106可训练气泡检测机器学习模型以检测和区分在特定SBS化学步骤或阶段期间引入的气泡。在一些实施方案中,例如,气泡检测系统106区分在测序步骤(例如,掺入或去阻断)期间或在成像步骤(例如,流通池中的试剂的扫描混合)期间引入的气泡。
如上所指示,以及如图5中所示,在一些实施方案中,气泡检测神经网络500包括轻量级CNN。气泡检测神经网络500可包括具有较低网络层(例如,卷积和解卷积层)和较高神经网络层(例如,全连接层)的CNN。在替代实施方案中,气泡检测神经网络500采用不同的神经网络架构。此外,在一些实施方式中,气泡检测神经网络500不使用下采样方法,诸如实施最大池化层以在卷积运算之后压缩维度。在此类实施方式中,气泡检测系统106排除最大池化层以维持表示大小,特别是对于短测序运行(例如,N=36)。
如图5中进一步所示,气泡检测神经网络500包括自适应最大池化层508。在一些实施方式中,自适应最大池化层508位于气泡检测神经网络500的特征部提取层502和分类层504之间。通过实施自适应最大池化层508,气泡检测系统106指定表示大小并且在空间上折叠特征部用于输入到分类层504中。自适应最大池化层508的实施改进了气泡检测神经网络500的效率。在如图5中所示的CNN的替代中,在一些情况下,气泡检测神经网络500不包括自适应最大池化层508。
在一些实施方案中,通过使用自适应最大池化层508,气泡检测神经网络500变得平移不变。更具体地,平移不变网络产生相同的输出,不论输入中的某些变化。在一个示例中,气泡检测神经网络500的平移不变版本简单地指示在核苷酸样品玻片部分内的气泡的存在和分类,但不指示气泡在其中发生的特定循环。通过移除或调整自适应最大池化层508的参数,气泡检测系统106可指定附加分类以包括在输出中。例如,气泡检测神经网络500可生成除了误差分类之外的气泡在其中发生的特定循环的指示。
如上所指示,图5示出作为气泡检测神经网络500的一部分的分类层504。如此处所示,分类层504包括对由特征部提取层502提取的特征部进行分类的全连接神经网络。在一个或多个实施方式中,分类层504可生成多类输出并且指示针对核苷酸样品玻片的单个部分的多个误差分类。例如,分类层504可为单个部分生成油泡和空气泡两者的分类。
如图5中进一步所示,气泡检测神经网络500包括输出分类506。在一些实施方案中,气泡检测神经网络500输出对应的置信度或概率分数。基于确定特定分类的置信度或概率分数符合置信度阈值,气泡检测系统106确定输入矩阵510的油泡、空气泡或失落的特定分类。换言之,气泡检测系统106检测气泡或失落事件,并且基于符合特定阈值的置信度分数将相同的分类为油泡、空气泡或失落。虽然图5示出油泡、空气泡和失落分类,输出分类506可包括任何数目的附加分类。例如,输出分类506可包括重影泡分类、登记失落分类、成像失落分类、可疑气泡分类和其他误差分类。
图5中的气泡检测神经网络500示出根据一个或多个实施方式的CNN的示例性配置。在其他实施方案中,气泡检测系统106利用具有各种其他配置的机器学习模型。另选地,气泡检测系统106可利用具有不同配置的神经网络以识别受气泡影响的特定循环。例如,在某些实施方式中,气泡检测系统106将注意层并入CNN中以生成指示受气泡影响的核苷酸样品玻片上的特定位置(例如,簇、部分)的分类。气泡检测系统106还可实施其他类型的深度神经网络。例如,气泡检测系统106可实施长短期记忆(LSTM)网络或其他类型的循环神经网络。此外,在附加的实施方案中,气泡检测系统106利用不同类型的机器学习模型作为气泡检测神经网络500。在一些示例中,气泡检测系统106利用SVM或自适应增强(AdaBoost)机器学习模型。
在一些实施方案中,气泡检测系统106使用对应于空间图像(或重建的空间图像)的核碱基检出数据以检测核苷酸样品玻片的部分内的气泡的存在。例如,并且如前所述,气泡检测系统106可使用核苷酸样品玻片的部分(例如,区块)或子部分(例如,子区块)的空间图像以训练图像机器学习模型以检测或分类气泡。在一些实施方案中,例如,气泡检测系统106识别对应于具有正确检测到的气泡的存在或不存在的空间图像数据的核碱基检出数据(例如,来自BCL或BAM文件)的基准真相分类标记以训练气泡检测机器学习模型(例如,气泡检测神经网络500)。
如刚刚所建议,图6A至图6C总体上示出根据一个或多个实施方案的使用对应于空间图像的核碱基检出数据训练图像机器学习模型和气泡检测机器学习模型的气泡检测系统106。具体地,图6A示出气泡检测系统106使用核苷酸样品玻片部分的空间图像训练图像机器学习模型,生成针对此类空间图像的基准真相分类标记以及对应的核碱基检出数据,并且利用核碱基检出数据和基准真相分类标记以进一步训练气泡检测机器学习模型。图6B示出根据一个或多个实施方案的由气泡检测系统106生成的示例性空间图像。图6C示出根据一个或多个实施方案的描绘核苷酸样品玻片的一部分的示例性测序运行图像。
如上所述,在一些实施方式中,气泡检测系统106利用图像机器学习模型608基于核苷酸样品玻片的部分或子部分的空间图像(或重建的空间图像)以检测或分类气泡。为了说明,图6A描绘了气泡检测系统106使用空间图像606a至图像606n训练图像机器学习模型608,并且识别对应于空间图像606a至图像606n的核碱基检出数据602a至数据602n和基准真相分类标记604a至标记604n。气泡检测系统106随后使用核碱基检出数据602a至数据602n和基准真相分类标记604a至标记604n以训练气泡检测机器学习模型622。虽然图6A示出气泡检测系统106训练图像机器学习模型608,此类训练或图像机器学习模型608的使用是可选的,并且代表一个或多个实施方案。实际上,在一些实施方案中,气泡检测系统106使用核碱基检出数据602a至数据602n和基准真相分类标记604a至标记604n中的一些或全部以训练气泡检测机器学习模型622,而不训练或使用图像机器学习模型608。因此,图6A包括围绕图像机器学习模型608以及对应的输出和确定的损失的虚线,以指示此类训练和使用是可选的。
为简单起见,本发明描述初始训练迭代,随后是如图6A中所描绘的后续训练迭代的总结。通过概述的方式,在如图6A所描绘的初始训练迭代中,气泡检测系统106利用核碱基检出数据602a以生成或重建空间图像606a。气泡检测系统106利用空间图像606a作为用于图像机器学习模型608的输入以随后生成气泡分类610a。
如刚刚图6A中所指示和如所示,气泡检测系统106利用核碱基检出数据602a至数据602n以生成空间图像606a至图像606n。在一个或多个实施方案中,核碱基检出数据602a至数据602n包括对应于给定测序循环的核苷酸样品玻片内的部分或子部分的核碱基检出和质量指标。在某些情况下,气泡检测系统106从BCL序列文件或BAM(*.bam)文件访问核碱基检出数据602a至数据602n。一些此类核碱基检出数据可能例如包括核碱基检出的图案(例如,A检出或G检出的圆形图案),其指示在核苷酸样品玻片的区块或子区块内气泡的存在。
如图6A中进一步所示,在一个或多个实施方案中,气泡检测系统106基于核碱基检出数据602a至数据602n生成或重建空间图像606a至图像606n。通常,气泡检测系统106通过从根据核苷酸样品玻片上的簇的位置布置的BCL或BAM文件生成核碱基检出的空间表示来将核碱基检出掺入空间图案中。在一个示例中,气泡检测系统106通过将核碱基与特定颜色连接来对空间图像606a至图像606n进行颜色编码。例如,气泡检测系统106可将A检出与黄色相关联,将G检出与蓝色相关联,将C检出与红色相关联,并且将T检出与绿色相关联。气泡检测系统106图6B示出根据一个或多个实施方案的示例性空间图像。
在一个或多个实施方案中,气泡检测系统106在将空间图像606a至图像606n输入到图像机器学习模型608中之前减小它们的大小。在至少一个示例中,气泡检测系统106下采样空间图像606a至图像606n。例如,气泡检测系统106处理空间图像606a至图像606n以去除高频信息并且保留用于输入的低频信息。因此,在一些情况下,气泡检测系统106可将图像机器学习模型608应用于空间图像606a至图像606n的低频版本以改进效率。
例如,在作为初始训练迭代的一部分输入空间图像606a之后,气泡检测系统106执行图像机器学习模型608。如上所述,图像机器学习模型608可以是神经网络,诸如CNN。在一些情况下,举几个例子,图像机器学习模型608采用密集卷积网络(DenseNet)或残差神经网络(ResNet)的形式。
如图6A中进一步所示,在接收到用于初始训练迭代的输入数据后,图像机器学习模型608确定气泡分类610a。附加地,图像机器学习模型608基于输入数据内的空间图案预测核苷酸样品玻片的部分或子部分内检测到的气泡的位置。例如,图像机器学习模型608生成气泡分类610a,该分类包括指示核苷酸样品玻片的部分内的气泡的存在和位置的标记。通常,气泡与核碱基检出数据602a或空间图像606a内的圆形空间图案相关联。因此,在一些实施方案中,气泡分类610a包括气泡分类连同气泡的位置。例如,气泡分类610a可指示包含气泡或气泡的一部分的核苷酸样品玻片的预测部分或子部分。气泡分类610a可同样地指示不包含气泡或气泡的一部分的核苷酸样品玻片的预测部分或子部分。
如图6A中进一步所示,气泡检测系统106使用损失函数612以将气泡分类610a与基准真相分类标记604a进行比较。在一些实施方式中,基准真相分类标记604a包括对应于核碱基检出数据602a的基准真相气泡分类和气泡位置。例如,基准真相分类标记604a可指示(i)包含气泡或气泡的一部分的核苷酸样品玻片的特定部分或子部分,以及(ii)不包含气泡或不包含气泡的一部分的核苷酸样品玻片的特定部分或子部分。
取决于图像机器学习模型608的形式,气泡检测系统106可针对损失函数612使用多种损失函数。在某些实施方案中,气泡检测系统106使用交叉熵损失函数(例如,针对CNN)。例如,气泡检测系统106可针对DenseNet或ResNet或一些其他合适的损失函数(例如,像素级L1或L2、特征部级的感知损失)使用像素级交叉熵损失函数。不论损失函数612的形式如何,气泡检测系统106基于气泡分类610a与基准真相分类标记604a的比较从损失函数612确定损失614a至损失614n。实际上,在某些实施方式中,损失614a至损失614n可以包括针对核苷酸样品玻片的特定部分(例如,区块或子区块)的单独损失。
基于来自损失函数612的确定的损失614a至损失614n,气泡检测系统106随后调整图像机器学习模型608的参数。通过调整参数,气泡检测系统106提高了图像机器学习模型608用其基于空间图像通过多次训练迭代确定气泡的存在和位置的准确度。实际上,如图6A中进一步所示,气泡检测系统106执行随后的训练迭代。如图6A所建议,在一些实施方案中,气泡检测系统106迭代地将空间图像606b至图像606n输入到图像机器学习模型608中以生成气泡分类610b至分类610n,迭代地将气泡分类610b至分类610n与基准真相分类标记604b至标记604n进行比较以确定损失614b至损失614n,并且迭代地调整图像机器学习模型608的参数。在一些情况下,气泡检测系统106执行训练迭代,直到图像机器学习模型608的参数(例如,值或权重)跨训练迭代没有显著改变或以其他方式符合收敛标准为止。
如上所述,在一些实施方案中,气泡检测系统106利用图像机器学习模型608作为识别用于气泡检测机器学习模型的训练数据集的一部分。附加地或另选地,在一些实施方案中,气泡检测系统106利用图像机器学习模型608作为气泡检测机器学习模型。在又附加的实施方案中,除了气泡检测机器学习模型622之外,气泡检测系统106还利用图像机器学习模型608以改进所生成的分类的准确度。在一个示例中,气泡检测系统106利用图像机器学习模型608以去除由气泡检测机器学习模型622生成的假阳性。
如刚刚所述,在某些实施方式中,气泡检测系统106利用图像机器学习模型608以识别或生成用于气泡检测机器学习模型的训练数据集620。例如,在一些情况下,作为训练数据集620的一部分,气泡检测系统106识别来自核碱基检出602a至检出602n的核碱基检出,对于该核碱基检出,图像机器学习模型608正确地检测由对应的空间图像描绘的核苷酸样品玻片的部分(例如,区块或子区块)内的气泡的存在(或不存在)。已经从用于训练数据集620的BCL或BAM文件识别了此类核碱基检出,气泡检测系统106同样地针对训练数据集620从正确地指示气泡的存在(或不存在)的基准真相分类标记604a至标记604n识别对应的基准真相分类标记。在一些情况下,修改基准真相分类标记以正确地指示核苷酸样品玻片的部分内气泡的存在(或不存在)--对于被选择用于包括在训练数据集620内的对应的核碱基检出。如图6A中所示,气泡检测系统106选择(i)核碱基检出、(ii)对应的质量指标和(iii、)空间图像的对应的基准真相分类标记的组合以包括在训练数据集620内,该空间图像从图像机器学习模型608产生正确检测的气泡的存在或不存在。
在使用图像机器学习模型608以识别训练数据集620的替代方案中,在一些实施方案中,作为训练数据集620的一部分,气泡检测系统106识别来自核碱基检出602a至检出602n的核碱基检出,对于该核碱基检出,研究人员正确地检测由对应的空间图像描绘的核苷酸样品玻片的部分(例如,区块或子区块)内的气泡的存在(或不存在)。换言之,在一些实施方案中,气泡检测系统106使用由具有专业技术的人(而不是图像机器学习模型608)识别的空间图像606a至图像606n以从核碱基检出602a至检出602n中选择核碱基检出用于包含在训练数据集620内。在一些此类情况下,气泡检测系统106使用来自BCL或BAM文件的核碱基检出,该BCL或BAM文件对应于具有包含由人识别的气泡(或无气泡)的部分的此类空间图像。如图6A中所示,气泡检测系统106另选地选择(i)核碱基检出、(ii)对应的质量指标和(iii)技术人员或研究人员正确地检测到气泡的存在或不存在的空间图像的对应的基准真相分类标记的组合,以包括在训练数据集620内。
不论如何选择训练数据集620,如图6A中进一步所示,气泡检测系统106利用训练数据集620以训练气泡检测机器学习模型622(例如,图5中所示的气泡检测神经网络500)。如上所指示,在一些情况下,气泡检测系统106利用来自训练数据集620的训练输入矩阵,该训练输入矩阵包括对应于至少一个核碱基的核碱基检出的第一子集和符合阈值质量指标的核碱基检出的第二子集。更具体地,气泡检测系统106生成训练输入矩阵,该训练输入矩阵包括符合来自训练数据集620的阈值质量指标(例如,Q30)的腺嘌呤检出的子集(例如,百分比)、鸟嘌呤检出的子集和核碱基检出的子集。在此类实施方案中,气泡检测机器学习模型622被训练以生成误差分类(例如,空气泡、油泡等)。
在输入来自训练数据集620的核碱基检出的此类子集的替代方案中,在一些实施方案中,气泡检测系统106将根据核苷酸样品玻片的部分内的簇和对应的质量指标布置的核碱基检出输入到气泡检测机器学习模型622中。通过使用根据簇布置的核碱基检出作为气泡检测机器学习模型622的输入,气泡检测系统106可识别指示气泡的存在或不存在的核碱基检出的图案。例如,此类核碱基检出可以反映核碱基检出的图案(例如,A检出的圆形图案或G检出的圆形图案),其指示核苷酸样品玻片的部分(例如,区块或子区块)内气泡的存在。
不论训练数据集620的形式如何,如图6A所示,气泡检测系统106使用训练数据集620以训练气泡检测机器学习模型622。例如,在初始训练迭代中,气泡检测系统106输入输入矩阵,该输入矩阵包括对应于至少一个核碱基的核碱基检出的第一子集和符合来自训练数据集620的阈值质量指标的核碱基检出的第二子集。另选地,气泡检测系统106输入根据核苷酸样品玻片的部分内的簇和来自训练数据集620的对应的质量指标布置的核碱基检出。
基于输入数据,气泡检测机器学习模型622确定指示气泡的存在或不存在的预测的分类标记624。在一些情况下,预测的分类标记624指示气泡的微粒类型(例如,空气泡、油泡)和核苷酸样品玻片的特定部分的存在或不存在。例如,预测的分类标记624可以指示流通池的区块或子区块内气泡的存在或不存在。如上所指示,在一个或多个实施方案中,气泡检测系统106确定对应于来自预测的分类标记624的个体分类的置信度分数。因此,气泡检测系统106可基于所生成的置信度分数确定预测的分类标记624。
如图6A中进一步所示,气泡检测系统106使用损失函数626以将预测的分类标记624与来自训练数据集620的对应的基准真相分类标记进行比较。在一些实施方式中,来自训练数据集620的基准真相分类标记包括对应于输入核碱基检出数据和质量指标的基准真相气泡分类和气泡位置。类似于上述训练过程,例如,基准真相分类标签可指示(i)包含气泡或气泡的一部分的核苷酸样品玻片的特定部分或子部分,以及(ii)不包含气泡或不包含气泡的一部分的核苷酸样品玻片的特定部分或子部分。
取决于气泡检测机器学习模型622的形式,气泡检测系统106可针对损失函数626使用多种损失函数。在某些实施方案中,气泡检测系统106使用交叉熵损失函数(例如,针对CNN)。但任何合适的损失函数可以用作损失函数626。不论损失函数626的形式如何,气泡检测系统106基于预测的分类标记624与来自训练数据集620的对应的基准真相分类标记的比较确定来自损失函数626的损失628a。实际上,在某些实施方式中,损失628a可以包括针对核苷酸样品玻片的特定部分(例如,区块或子区块)的单独损失。
基于来自损失函数626的确定的损失628a,气泡检测系统106随后调整气泡检测机器学习模型622的参数。通过调整参数,气泡检测系统106改进了气泡检测机器学习模型622用其在多次训练迭代中确定气泡的存在和位置的准确度。实际上,如图6A中进一步所示,气泡检测系统106执行随后的训练迭代。如图6A所建议,在一些实施方案中,气泡检测系统106将来源于核碱基检出的数据和来自训练数据集620的质量指标迭代地输入到气泡检测机器学习模型622中以生成预测的分类标记,将预测的分类标记与来自训练数据集620的对应的基准真相分类标记迭代地比较以确定损失628a至损失628n,并且迭代地调整气泡检测机器学习模型622的参数。在一些情况下,气泡检测系统106执行训练迭代,直到气泡检测机器学习模型622的参数(例如,值或权重)跨训练迭代没有显著改变或以其他方式符合收敛标准为止。
除了生成预测的分类标记之外,在一些实施方式中,气泡检测系统106训练气泡检测机器学习模型622以推断气泡的大小。具体地,气泡检测机器学习模型622可从训练数据集620的核碱基检出中提取特征部以预测所识别的气泡的大小。为了说明,气泡检测系统106可训练气泡检测机器学习模型622以基于来源于核碱基检出和质量指标的空间数据确定预测的气泡的直径。另选地,气泡检测系统106训练气泡检测机器学习模型622以基于尖状峰的强度或核碱基检出百分比或Q30百分比中的下降确定气泡的大小。因此,气泡检测系统106可训练气泡检测机器学习模型622以基于输入数据的分析生成预测的气泡大小。
如前所述,在一些实施方案中,气泡检测系统106基于确定气泡的存在来降低核苷酸样品玻片的给定读段、循环、部分或子部分的质量指标(例如,Q分数)。在一些实施方案中,气泡检测系统106基于检测到的气泡的大小或直径降低质量指标。例如,气泡检测系统106使用气泡检测机器学习模型622生成检测到的气泡的预测直径,并且将更大的直径尺寸与质量指标的更大降低相关联。此外,在一些实施方案中,气泡检测系统106确定阈值气泡直径值,在该阈值气泡直径值以下气泡检测系统106不改变质量指标。具体地,气泡检测系统106可以确定较小的气泡对读段质量具有微不足道的影响。
如前所述,气泡检测系统106可识别或生成包括对应于核碱基检出的空间图案的空间图像。图6B示出根据一个或多个实施方案的示例性空间图像。具体地,图6B示出包括具有空间图案638的区块640的空间图像636。如所示,气泡检测系统106使用核碱基检出642构建空间图像636。另选地,气泡检测系统106接收空间图像636作为技术人员或研究人员为其识别区块640内的气泡的空间图像。
如前所述,在一些实施方案中,气泡检测系统106可分析在空间图像636内识别的空间图案的形状以确定气泡或其他伪影的存在或不存在。例如,如图6B所指示,气泡检测机器学习模型622可以将G检出的圆形图案检测为表示气泡。实际上,在某些实施方式中,气泡检测系统106将特定核碱基检出(例如,A检出或G检出)的圆形空间图案与气泡相关联,并且将非圆形或替代空间图案与其他类型的伪影相关联。对于后一种伪影,例如,气泡检测系统106可以将替代的空间图案与伪影相关联,诸如低占据区域或扩增子区域。
为了帮助可视化核苷酸样品玻片内的气泡的真实示例,本公开包括图6C。具体地,图6C示出描绘包括区块(包括区块656a至区块656c)的流通池658的一部分的测序运行图像650。如图6C中所示,测序运行图像650描绘对应于穿过或存在于不同的区块内的气泡654a至气泡654c的黑色圆形区域。例如,图6C示出跨越区块656a和区块656b的气泡654b,而气泡654c被包含在区块656c内。
图6C示出示例性测序运行图像,该图像展示了流通池上气泡的外观。如前所述,访问、存储和处理图像数据从计算方面上讲是昂贵的并且经常是不切实际的。因此,在一些实施方式中,气泡检测系统106不访问测序运行图像650,而是访问和处理核碱基检出数据和质量指标(来自各种文件类型),以确认气泡的存在或不存在,如上所述。
图1至图6B、对应的文本和示例提供气泡检测系统106的许多不同方法、系统、设备和非暂态计算机可读介质。除了前述内容之外,还可就包括用于实现特定结果的动作的流程图(诸如图7中所示的动作的流程图)而言描述一个或多个实施方案。附加地,本文所描述的动作可以重复或与彼此并行地执行或与相同或类似动作的不同实例并行地执行。
图7示出用于检测核苷酸样品玻片内气泡的存在的一系列动作700的流程图。虽然图7示出根据一个实施方案的动作,替代实施方案可以省略、添加、重新排序和/或修改图7中所示的任何动作。图7的动作可作为方法的一部分来执行。另选地,非暂态计算机可读介质可包括当由一个或多个处理器执行时导致计算设备执行图7的动作的指令。在一些实施方案中,系统可执行图7的动作。
在一个或多个实施方案中,一系列动作700在一个或多个计算设备(诸如图8中所示的计算设备)上实施。另外,在一些实施方案中,一系列动作700在用于核酸聚合物测序的数字环境中实施。例如,在具有包括气泡检测机器学习模型的存储器的计算设备上实施一系列动作700。在一些实施方案中,存储器还存储包括基准真相分类和训练输入矩阵的训练数据。
如图7中所示,一系列动作700包括接收检出数据的动作702。具体地,该动作702包括针对核苷酸样品玻片接收检出数据,该检出数据包括针对核酸聚合物测序的循环的核碱基检出。在一些实施方案中,该动作702还包括基于以下项接收包括该核碱基检出的该检出数据:单通道强度数据,该单通道强度数据包括该核酸聚合物测序的给定循环的该核苷酸样品玻片的每个部分的单个图像;双通道数据,该双通道数据包括针对该核酸聚合物测序的该给定循环的该核苷酸样品玻片的每个部分的两个图像;或四通道数据,该四通道数据包括针对该核酸聚合物测序的该给定循环的该核苷酸样品玻片的每个部分的四个图像。
图7中示出的一系列动作700包括接收质量数据的动作704。具体地,该动作704包括针对该核苷酸样品玻片接收质量数据,该质量数据包括估计该循环的该核碱基检出中的误差的质量指标。
一系列动作700包括确定核碱基检出的第一子集和核碱基检出的第二子集的动作706。具体地,该动作706包括从该循环的该核碱基检出中确定对应于至少一个核碱基的该核碱基检出的第一子集和符合该质量指标的阈值质量指标的该核碱基检出的第二子集。在一些实施方案中,该动作706还包括通过确定该核酸聚合物测序的该循环的腺嘌呤检出的子集、胸腺嘧啶检出的子集、胞嘧啶检出的子集或鸟嘌呤检出的子集中的至少一者来确定对应于该至少一个核碱基的该核碱基检出的该第一子集。
如图7中进一步所示,一系列动作700包括利用气泡检测神经网络检测气泡的存在的动作708。具体地,该动作708包括利用基于该核碱基检出的该第一子集和该核碱基检出的该第二子集的气泡检测机器学习模型检测该核苷酸样品玻片内的气泡的存在。附加地,在一个或多个实施方案中,气泡检测神经网络包括支持向量机或自适应增强机器学习模型中的至少一者。
在一些实施方式中,该动作708还包括利用该气泡检测机器学习模型通过利用该气泡检测机器学习模型的层从输入矩阵中提取特征部来检测该气泡的存在,该输入矩阵包括符合该核酸聚合物测序的该循环的该阈值质量指标的腺嘌呤检出的该子集、鸟嘌呤检出的该子集和该核碱基检出的该第二子集。此外,在一个或多个实施方案中,动作708包括通过检测核苷酸样品玻片内的空气泡、油泡或重影泡中的至少一者来检测气泡的存在。附加地,在一些实施方案中,该气泡检测机器学习模型包括卷积神经网络,该卷积神经网络包括特征部提取层、分类层和该特征部提取层与该分类层之间的自适应最大池化层。
在一个或多个实施方案中,该动作708还包括通过以下项检测该气泡的存在的附加动作:利用该气泡检测机器学习模型生成该核苷酸样品玻片的部分包含该气泡的概率;以及确定该概率符合指示该气泡的存在的阈值。
在一些实施方案中,一系列动作700包括接收针对核苷酸样品玻片的部分的检出数据和质量数据以及检测核苷酸样品玻片的部分内气泡的存在的附加动作。更具体地,在一些实施方案中,附加的动作还包括通过检测流通池的区块内的气泡来检测核苷酸样品玻片的部分内的气泡的存在。
附加地,在一些实施方式中,一系列动作700还包括在核酸聚合物测序的循环的一个或多个循环期间确定气泡的存在的附加动作。
此外,在一个或多个实施方案中,一系列动作700还包括提供用于在计算设备上显示的警报的动作,该警报指示核苷酸样品玻片内气泡的存在。
附加地,在一些实施方式中,一系列动作700包括在核酸聚合物测序的循环的一个循环期间确定气泡的存在的附加动作。
本文所述的方法可与多种核酸测序技术结合使用。特别适用的技术是其中核酸附接到阵列中的固定位置处使得其相对位置不改变并且其中该阵列被重复成像的那些技术。在不同颜色通道(例如,与用于将一种核苷酸碱基类型与另一种核苷酸碱基类型区分开的不同标记吻合)中获得图像的实施方案特别适用。在一些实施方案中,确定靶核酸(即,核酸聚合物)的核苷酸序列的过程可以是自动化过程。优选的实施方案包括边合成边测序(SBS)技术。
SBS技术通常包括通过针对模板链反复加入核苷酸进行的新生核酸链的酶促延伸。在传统的SBS方法中,可在每次递送中在存在聚合酶的情况下将单个核苷酸单体提供给靶核苷酸。然而,在本文所述的方法中,可在递送中存在聚合酶的情况下向靶核酸提供多于一种类型的核苷酸单体。
下文描述的SBS技术可利用单端测序或双端测序。在单端测序中,测序设备从一端到另一端读取片段以生成碱基对的序列。相反,在双端测序期间,测序设备开始于一次读取,在相同方向中完成特定读长的读取,并且从片段的相对端开始另一次读取。
SBS可利用具有终止子部分的核苷酸单体或缺少任何终止子部分的核苷酸单体。使用缺少终止子的核苷酸单体的方法包括例如焦磷酸测序和使用γ-磷酸标记的核苷酸的测序,如下文进一步详细描述的。在使用缺少终止子的核苷酸单体的方法中,在每个循环中加入的核苷酸的数目通常是可变的,并且该数目取决于模板序列和核苷酸递送的方式。对于利用具有终止子部分的核苷酸单体的SBS技术,终止子在使用的测序条件下可为有效不可逆的,如利用双脱氧核苷酸的传统桑格测序的情况,或者终止子可为可逆的,如由Solexa(现为Illumina,Inc.)开发的测序方法的情况。
SBS技术可利用具有标记部分的核苷酸单体或缺少标记部分的核苷酸单体。因此,可基于以下项来检测掺入事件:标记的特性,诸如标记的荧光;核苷酸单体的特性,诸如分子量或电荷;掺入核苷酸的副产物,诸如焦磷酸盐的释放;等等。在测序试剂中存在两种或更多种不同的核苷酸的实施方案中,不同的核苷酸可以是彼此可区分的,或者另选地,两种或更多种不同的标记在所使用的检测技术下可以是不可区分的。例如,测序试剂中存在的不同核苷酸可具有不同的标记,并且它们可使用适当的光学器件进行区分,如由Solexa(现为Illumina,Inc.)开发的测序方法所例示。
优选的实施方案包括焦磷酸测序技术。焦磷酸测序检测当将特定的核苷酸掺入新生链中时无机焦磷酸盐(PPi)的释放(Ronaghi,M.、Karamohamed,S.、Pettersson,B.、Uhlen,M.和Nyren,P.(1996年),“Real-time DNA sequencing using detection ofpyrophosphate release.”,Analytical Biochemistry 242(1),84-9;Ronaghi,M.(2001)“Pyrosequencing sheds light onDNA sequencing.”Genome Res.,11(1),3-11;Ronaghi,M.,Uhlen,M.和Nyren,P.(1998)“A sequencing method based on real-timepyrophosphate.”Science281(5375),363;美国专利号6,210,891;美国专利号6,258,568和美国专利号6,274,320,这些文献的公开内容全文以引用方式并入本文)。在焦磷酸测序中,释放的PPi可通过被腺苷三磷酸(ATP)硫酸化酶立即转化为ATP成来进行检测,并且通过荧光素酶产生的光子来检测所产生的ATP水平。待测序的核酸可附接到阵列中的特征部,并且可对阵列进行成像以捕获由于在阵列的特征部处掺入核苷酸而产生的化学发光信号。可在用特定核苷酸类型(例如,A、T、C或G)处理阵列后获得图像。在添加每种核苷酸类型后获得的图像将在阵列中哪些特征部被检测到方面不同。图像中的这些差异反映阵列上的特征部的不同序列内容。然而,每个特征部的相对位置将在图像中保持不变。可使用本文所述的方法存储、处理和分析图像。例如,在用每种不同核苷酸类型处理阵列后获得的图像可以与本文针对从用于基于可逆终止子的测序方法的不同检测通道获得的图像所例示的相同方式进行处理。
在另一种示例性类型的SBS中,通过逐步添加可逆终止子核苷酸来完成循环测序,这些可逆终止子核苷酸包含例如可裂解或可光漂白的染料标记,如例如WO 04/018497和美国专利号7,057,026所述,这两份专利的公开内容以引用方式并入本文。该方法由Solexa(现为Illumina Inc.)商业化,并且还在WO 91/06678和WO 07/123,744中有所描述,这些文献中的每一者的公开内容以引用方式并入本文。荧光标记终止子(其中终止可以是可逆的并且荧光标记可被切割)的可用性有利于高效的循环可逆终止(CRT)测序。聚合酶也可共工程化以有效地掺入这些经修饰的核苷酸并从这些经修饰的核苷酸延伸。
优选地,在基于可逆终止子的测序实施方案中,标记在SBS反应条件下基本上不抑制延伸。然而,检测标记可以是可移除的,例如通过裂解或降解移除。可在将标记掺入到阵列化核酸特征部中后捕获图像。在特定实施方案中,每个循环涉及将四种不同的核苷酸类型同时递送到阵列,并且每种核苷酸类型具有在光谱上不同的标记。然后可获得四个图像,每个图像使用对四个不同标记中的一个标记具有选择性的检测通道。另选地,可顺序地添加不同的核苷酸类型,并且可在每个添加步骤之间获得阵列的图像。在此类实施方案中,每个图像将示出已掺入特定类型的核苷酸的核酸特征部。由于每个特征部的不同序列内容,不同特征部将存在于或不存在于不同图像中。然而,特征部的相对位置将在图像中保持不变。通过此类可逆终止子-SBS方法获得的图像可如本文所述进行存储、处理和分析。在图像捕获步骤后,可移除标记并且可移除可逆终止子部分以用于核苷酸添加和检测的后续循环。已在特定循环中以及在后续循环之前检测到标记之后移除这些标记可提供减少循环之间的背景信号和串扰的优点。可用的标记和去除方法的示例在下文进行阐述。
在特定实施方案中,一些或所有核苷酸单体可包括可逆终止子。在此类实施方案中,可逆终止子/可裂解荧光团可包括经由3′酯键连接到核糖部分的荧光团(Metzker,Genome Res.15∶1767-1776(2005年),该文献以引用方式并入本文)。其他方法已将终止子化学与荧光标记的裂解分开(Ruparel等人,Proc Natl Acad Sci USA 102∶5932-7(2005年),该文献全文以引用方式并入本文)。Ruparel等人描述了可逆终止子的发展,这些可逆终止子使用小的3′烯丙基基团来阻断延伸,但是可通过用钯催化剂进行的短时间处理来容易地去阻断。荧光团经由可光裂解的接头附接到碱基,该可光裂解的接头可通过暴露于长波长紫外光30秒来容易地裂解。因此,二硫化物还原或光裂解可用作可裂解的接头。可逆终止的另一种方法是使用天然终止,该天然终止在将大体积染料放置在dNTP上之后接着发生。dNTP上存在带电大体积染料可通过空间位阻和/或静电位阻而充当高效的终止子。除非染料被移除,否则一个掺入事件的存在防止进一步的掺入。染料的裂解移除荧光团并有效地逆转终止。修饰的核苷酸的示例还描述于美国专利号7,427,673和美国专利号7,057,026中,其公开内容全文以引用方式并入本文。
可与本文所述的方法和系统一起利用的附加的示例性SBS系统和方法描述于美国专利申请公布号2007/0166705、美国专利申请公布号2006/0188901、美国专利号7,057,026、美国专利申请公布号2006/0240439、美国专利申请公布号2006/0281109、PCT公布号WO05/065814、美国专利申请公布号2005/0100900、PCT公布号WO 06/064199、PCT公布号WO07/010,251、美国专利申请公布号2012/0270305和美国专利申请公布号2013/0260372中,这些文献的公开内容全文以引用方式并入本文。
一些实施方案可使用少于四种不同标记来使用对四种不同核苷酸的检测。例如,可以利用并入的美国专利申请公布号2013/0079232的材料中所述的方法和系统来执行SBS。作为第一个示例,一对核苷酸类型可在相同波长下检测,但基于对中的一个成员相对于另一个成员的强度差异,或基于对中的一个成员的导致与检测到的该对的另一个成员的信号相比明显的信号出现或消失的变化(例如,通过化学改性、光化学改性或物理改性)来区分。作为第二个示例,四种不同核苷酸类型中的三种能够在特定条件下被检测到,而第四种核苷酸类型缺少在那些条件下可被检测到或在那些条件下被最低限度地检测到的标记(例如,由于背景荧光而导致的最低限度检测等)。可基于其相应信号的存在来确定前三种核苷酸类型掺入到核酸中,并且可基于任何信号的不存在或对任何信号的最低限度检测来确定第四核苷酸类型掺入到核酸中。作为第三示例,一种核苷酸类型可包括在两个不同通道中检测到的标记,而其他核苷酸类型在不超过一个通道中被检测到。上述三种例示性构型不被认为是互相排斥的,并且可以各种组合进行使用。组合所有三个示例的示例性实施方案是基于荧光的SBS方法,该方法使用在第一通道中检测到的第一核苷酸类型(例如,具有当由第一激发波长激发时在第一通道中检测到的标记的dATP),在第二通道中检测到的第二核苷酸类型(例如,具有当由第二激发波长激发时在第二通道中检测到的标记的dCTP),在第一通道和第二通道两者中检测到的第三核苷酸类型(例如,具有当被第一激发波长和/或第二激发波长激发时在两个通道中检测到的至少一个标记的dTTP),以及缺少在任一通道中检测到或最低限度地检测到的标记的第四核苷酸类型(例如,不具有标记的dGTP)。
此外,如并入的美国专利申请公布号2013/0079232的材料中所述,可使用单个通道获得测序数据。在此类所谓的单染料测序方法中,标记第一核苷酸类型,但在生成第一图像之后移除标记,并且仅在生成第一图像之后标记第二核苷酸类型。第三核苷酸类型在第一图像和第二图像中都保留其标记,并且第四核苷酸类型在两个图像中均保持未标记。
一些实施方案可以利用边连接边测序技术。此类技术利用DNA连接酶掺入寡核苷酸并确定此类寡核苷酸的掺入。寡核苷酸通常具有与寡核苷酸杂交的序列中的特定核苷酸的同一性相关的不同标记。与其他SBS方法一样,可在用已标记的测序试剂处理核酸特征部的阵列后获得图像。每个图像将示出已掺入特定类型的标记的核酸特征部。由于每个特征部的不同序列内容,不同特征部将存在于或不存在于不同图像中,但特征部的相对位置将在图像中保持不变。通过基于连接的测序方法获得的图像可如本文所述进行存储、处理和分析。可以与本文所述的方法和系统一起使用的示例性SBS系统和方法在美国专利号6,969,488、美国专利号6,172,218和美国专利号6,306,597中有所描述,这些专利的公开内容全文以引用方式并入本文。
一些实施方案可以利用纳米孔测序(Deamer,D.W.和Akeson,M.“Nanopores andnucleic acids:prospects for ultrarapid sequencing.”Trends Biotechnol.18,147-151(2000);Deamer,D.和D.Branton,“Characterization of nucleic acids by nanoporeanalysis”.Acc.Chem.Res.35:817-825(2002);Li,J.、M.Gershow、D.Stein、E.Brandin和J.A.Golovchenko,“DNA molecules and configurations in a solid-state nanoporemicroscope”,Nat.Mater.,2:611-615(2003),这些文献的公开内容全文以引用方式并入本文)。在此类实施方案中,目标核酸穿过纳米孔。纳米孔可为合成孔或生物膜蛋白,诸如α-溶血素。当目标核酸穿过纳米孔时,可以通过测量孔的电导率的波动来识别每个碱基对。(美国专利号7,001,792;Soni,G.V.和Meller,“A.Progress toward ultrafast DNAsequencing using solid-state nanopores.”Clin.Chem.53,1996-2001(2007);Healy,K.,“Nanopore-based single-molecule DNA analysis.”,Nanomed.,2,459-481(2007);Cockroft,S.L.、Cgu,J.、Amorin,M.和Ghadiri,M.R.,“A single-molecule nanoporedevice detects DNA polymerase activity with single-nucleotide resolution.”,J.Am.Chem.Soc.130,818-820(2008),这些文献的公开内容全文以引用方式并入本文)。从纳米孔测序获得的数据可如本文所述进行存储、处理和分析。具体地,根据本文所述的光学图像和其他图像的示例性处理,可将数据如同图像那样进行处理。
一些实施方案可利用涉及DNA聚合酶活性的实时监测的方法。可以通过携带荧光团的聚合酶与γ-磷酸标记的核苷酸之间的荧光共振能量转移(FRET)相互作用来检测核苷酸掺入,如例如美国专利号7,329,492和美国专利号7,211,414中所述(这两份专利中的每一者以引用方式并入本文),或者可以用零模波导来检测核苷酸掺入,如例如美国专利号7,315,019中所述(该专利以引用方式并入本文),并且可以使用荧光核苷酸类似物和工程化聚合酶来检测核苷酸掺入,如例如美国专利号7,405,281和美国专利申请公布号2008/0108082中所述(这两份专利中的每一者以引用方式并入本文)。照明可限于表面栓系的聚合酶周围的仄升量级的体积,使得可在低背景下观察到荧光标记的核苷酸的掺入(Levene,M.J.等人,“Zero-mode waveguides for single-molecule analysis at highconcentrations.”,Science 299,682-686(2003);Lundquist,P.M.等人,“Parallelconfocal detection of single molecules in real time.”,Opt.Lett.33,1026-1028(2008);Korlach,J.等人,“Selective aluminum passivation for targetedimmobilization of single DNA polymerase molecules in zero-mode waveguide nanostructures.”,Proc.Natl.Acad.Sci.USA 105,1176-1181(2008),这些文献的公开内容全文以引用方式并入本文)。通过此类方法获得的图像可如本文所述进行存储、处理和分析。
一些SBS实施方案包括检测在核苷酸掺入延伸产物时释放的质子。例如,基于释放质子的检测的测序可使用可从Ion Torrent公司(Guilford,CT,它是Life Technologies子公司)商购获得的电检测器和相关技术或在US 2009/0026082 A1、US 2009/0127589 A1、US2010/0137143 A1或US 2010/0282617 A1中所述的测序方法和系统,这些文献中的每一篇均以引用方式并入本文。本文阐述的使用动力学排阻来扩增靶核酸的方法可以容易地应用于用于检测质子的基板。更具体地,本文阐述的方法可以用于产生用于检测质子的扩增子克隆群体。
上述SBS方法可有利地以多种格式进行,使得同时操纵多个不同的目标核酸。在特定实施方案中,可在共同的反应容器中或在特定基板的表面上处理不同的目标核酸。这允许以多种方式方便地递送测序试剂、移除未反应的试剂和检测掺入事件。在使用表面结合的目标核酸的实施方案中,目标核酸可为阵列格式。在阵列格式中,目标核酸通常可以在空间上可区分的方式结合到表面。目标核酸可通过直接共价附着、附着到小珠或其他粒子或结合到附着到表面的聚合酶或其他分子来结合。阵列可包括在每个位点(也被称为特征部)处的目标核酸的单个拷贝,或者具有相同序列的多个拷贝可存在于每个位点或特征部处。多个拷贝可通过扩增方法(诸如,如下文进一步详细描述的桥式扩增或乳液PCR)产生。
本文所述的方法可使用具有处于多种密度中任一种密度的特征部的阵列,该多种密度包括例如至少约10个特征部/cm2、100个特征部/cm2、500个特征部/cm2、1,000个特征部/cm2、5,000个特征部/cm2、10,000个特征部/cm2、50,000个特征部/cm2、100,000个特征部/cm2、1,000,000个特征部/cm2、5,000,000个特征部/cm2或更高。
本文阐述的方法的优点是它们并行提供了对多个靶核酸的快速且有效检测。因此,本公开提供了能够使用本领域已知的技术(诸如上文所例示的那些)来制备和检测核酸的整合系统。因此,本公开的整合系统可以包括能够将扩增试剂和/或测序试剂递送到一个或多个固定DNA片段的流体部件,该系统包括诸如泵、阀、贮存器、流体管线等的部件。流通池在整合系统中可以被配置用于和/或用于检测靶核酸。示例性流通池在例如US2010/0111768A1和美国序列号13/273,666中有所描述,这两份专利中的每一者以引用方式并入本文。如针对流通池所例示的,整合系统的一个或多个流体部件可以用于扩增方法和检测方法。以核酸测序实施方案为例,整合系统的一个或多个流体部件可以用于本文阐述的扩增方法以及用于在测序方法(诸如上文例示的那些)中递送测序试剂。另选地,整合系统可包括单独的流体系统以执行扩增方法并执行检测方法。能够产生扩增核酸并且还确定核酸序列的整合测序系统的示例包括但不限于MiSeqTM平台(Illumina,Inc.,San Diego,CA)以及在美国序列号13/273,666中描述的设备,该专利以引用方式并入本文。
上述测序系统对由测序设备接收的样品中存在的核酸聚合物进行测序。如本文所定义,“样品”及其衍生物以其最广泛的意义使用,包括怀疑包含目标的任何标本、培养物等。在一些实施方案中,样品包括DNA、RNA、PNA、LNA、嵌合或杂交形式的核酸。样品可以包括含有一种或多种核酸的任何基于生物、临床、外科、农业、大气或水生动植物的标本。该术语还包括任何分离的核酸样品,诸如基因组DNA、新鲜冷冻或福尔马林固定石蜡包埋的核酸标本。还设想样品的来源可以是:单个个体、来自遗传相关成员的核酸样品的集合、来自遗传不相关成员的核酸样品、来自单个个体的(与之匹配的)核酸样品(诸如肿瘤样品和正常组织样品),或者来自含有两种不同形式的遗传物质(诸如从母体受试者获得的母体DNA和胎儿DNA)的单个来源的样品,或者在含有植物或动物DNA的样品中存在污染性细菌DNA。在一些实施方案中,核酸材料的来源可以包括从新生儿获得的核酸,例如通常用于新生儿筛检的核酸。
该核酸样品可以包括高分子量物质,诸如基因组DNA(gDNA)。该样品可以包括低分子量物质,诸如从FFPE样品或存档的DNA样品获得的核酸分子。在另一实施方案中,低分子量物质包括酶促片段化或机械片段化的DNA。该样品可以包含无细胞循环DNA。在一些实施方案中,该样品可以包括从活检组织、肿瘤、刮取物、拭子、血液、黏液、尿液、血浆、精液、毛发、激光捕获显微解剖、手术切除和其他临床或实验室获得的样品获得的核酸分子。在一些实施方案中,该样品可以是流行病学样品、农业样品、法医学样品或病原性样品。在一些实施方案中,该样品可包括从动物(诸如人类或哺乳动物来源)获得的核酸分子。在另一实施方案中,该样品可包括从非哺乳动物来源(诸如植物、细菌、病毒或真菌)获得的核酸分子。在一些实施方案中,核酸分子的来源可以是存档或灭绝的样品或物种。
另外,本文所公开的方法和组合物可以用于扩增具有低质量核酸分子的核酸样品,诸如来自法医学样品的降解的和/或片段化的基因组DNA。在一个实施方案中,法医学样品可包括从犯罪现场获得的核酸、从失踪人员DNA数据库获得的核酸、从与法医调查相关联的实验室获得的核酸,或者包括由执法机关、一种或多种军事服务或任何此类人员获得的法医学样品。核酸样品可以是经纯化的样品或含有粗DNA的溶胞产物,例如来源于口腔拭子、纸、织物或者其他可以用唾液、血液或其他体液浸渍的基材。因此,在一些实施方案中,该核酸样品可包含少量DNA(诸如基因组DNA),或者DNA的片段化部分。在一些实施方案中,靶序列可存在于一种或多种体液中,其中体液包括但不限于血液、痰、血浆、精液、尿液和血清。在一些实施方案中,靶序列可从受害者的毛发、皮肤、组织样品、尸体解剖或遗骸获得。在一些实施方案中,包含一种或多种靶序列的核酸可从死亡的动物或人获得。在一些实施方案中,靶序列可包括从非人类DNA(诸如微生物、植物或昆虫DNA)获得的核酸。在一些实施方案中,靶序列或扩增的靶序列导向人类身份识别的目的。在一些实施方案中,本公开整体涉及用于识别法医学样品的特性的方法。在一些实施方案中,本公开整体涉及使用本文所公开的一种或多种目标特异性引物或者用本文概述的引物设计标准设计的一种或多种目标特异性引物的人类身份识别方法。在一个实施方案中,含有至少一种靶序列的法医学样品或人类身份识别样品可以使用本文所公开的任何一种或多种目标特异性引物或者使用本文概述的引物标准进行扩增。
气泡检测系统106的部件可包括软件、硬件或两者。例如,气泡检测系统106的部件可包括存储在计算机可读存储介质上并且可由一个或多个计算设备(例如,用户客户端设备108)的处理器执行的一个或多个指令。当由一个或多个处理器执行时,气泡检测系统106的计算机可执行指令可使计算设备执行本文所描述的气泡检测方法。另选地,气泡检测系统106的部件可包括硬件,诸如专用处理设备用以执行某些功能或功能的组。附加地或另选地,气泡检测系统106的部件可包括计算机可执行指令和硬件的组合。
此外,执行本文所描述关于气泡检测系统106的功能的气泡检系测系统106的部件可以例如被实施作为独立应用的一部分、作为应用的模块、作为应用的插件、作为可以被其他应用调用的库函数或函数、和/或作为云计算模型。因此,气泡检测系统106的部件可以被实施作为个人计算设备或移动设备上的独立应用的一部分。附加地或另选地,气泡检测系统106的部件可以实施在提供测序服务的任何应用中,包括但不限于Illumina BaseSpace、Illumina DRAGEN或Illumina TruSight软件。“Illumina”、“BaseSpace”、“DRAGEN”和“TmSight”是Illumina,Inc.公司在美国和/或其他国家的注册商标或商标。
如以下更详细讨论的,本公开的实施方案可以包括或利用包括计算机硬件(诸如例如一个或多个处理器和系统存储器)的专用或通用计算机。本公开范围内的实施方案还包括用于携带或存储计算机可执行指令和/或数据结构的物理和其他计算机可读介质。具体地,本文所述的过程中的一者或多者可以至少部分实施为体现在非暂态计算机可读介质中并且可由一个或多个计算设备(例如,本文所述的介质内容访问设备中的任一者)执行的指令。一般来讲,处理器(例如,微处理器)从非暂态计算机可读介质(例如,存储器等)接收指令,并且执行那些指令,由此执行一个或多个过程,包含本文所述的过程中的一者或多者。
计算机可读介质可以是可由通用或专用计算机系统访问的任何可用介质。存储计算机可执行指令的计算机可读介质是非暂态计算机可读存储介质(设备)。携带计算机可执行指令的计算机可读介质是传输介质。因此,通过示例方式而非限制,本公开的实施方案可包括至少两种明显不同种类的计算机可读介质:非暂态计算机可读存储介质(设备)和传输介质。
非暂态计算机可读存储介质(设备)包括RAM、ROM、EEPROM、CD-ROM、固态驱动器(SSD)(例如,基于RAM)、快闪存储器、相变存储器(PCM)、其他类型的存储器、其他光盘存储装置、磁盘存储装置或其他磁存储设备,或可用于存储呈计算机可执行指令或数据结构形式的期望的程序代码手段并且其可由通用或专用计算机访问的任何其他介质。
“网络”定义为使得能够在计算机系统和/或模块和/或其他电子设备之间传输电子数据的一个或多个数据链路。当通过网络或另一通信连接(硬连线、无线或硬连线或无线的组合)向计算机转移或提供信息时,计算机适当地将该连接视为传输介质。传输介质可包括网络和/或数据链路,该网络和/或数据链路可用于携带呈计算机可执行指令或数据结构形式的期望的程序代码手段,并且其可由通用或专用计算机访问。上述的组合也应当被包括在计算机可读介质的范围内。
此外,在到达各种计算机系统部件后,呈计算机可执行指令或数据结构形式的程序代码手段可从传输介质自动转移到非暂态计算机可读存储介质(设备)(或反之亦然)。例如,通过网络或数据链路接收的计算机可执行指令或数据结构可被缓冲在网络接口模块(例如,NIC)内的RAM中,并且然后最终被转移到计算机系统RAM和/或到计算机系统处的较不易失的计算机存储介质(设备)。因此,应当理解,非暂态计算机可读存储介质(设备)可被包括在也(或甚至主要)利用传输介质的计算机系统部件中。
计算机可执行指令包括例如当在处理器处执行时使得通用计算机、专用计算机或专用处理设备执行某些功能或功能的组的指令和数据。在一些实施方案中,在通用计算机上执行计算机可执行指令以将通用计算机变成实施本公开的元素的专用计算机。计算机可执行指令可以是例如二进制数、诸如汇编语言的中间格式指令、或者甚至源代码。尽管已经以特定于结构特征和/或方法动作的语言描述了主题内容,但是应当理解,在所附权利要求中定义的主题内容不必限于所描述的特征部或动作。相反,所描述的特征部和动作是作为实施权利要求的示例性形式来公开的。
本领域中的技术人员将理解,本公开可以在具有许多类型的计算机系统配置的网络计算环境中实践,包括个人计算机、台式计算机、便携式电脑、消息处理器、手持式设备、多处理器系统、基于微处理器的或可编程消费电子产品、网络PC、小型计算机、大型计算机、移动电话、PDA、平板电脑、寻呼机、路由器、交换机等。本公开还可以在分布式系统环境中实践,其中通过网络链接(通过硬连线数据链路、无线数据链路或者通过硬连线和无线数据链路的组合)的本地和远程计算机系统两者都执行任务。在分布式系统环境中,程序模块可以位于本地和远程存储器存储设备两者中。
本公开的实施方案还可在云计算环境中实施。在本说明书中,“云计算”定义为用于实现对可配置计算资源的共享池的按需网络访问的模型。例如,可在市场中采用云计算以提供对可配置计算资源的共享池的无处不在并且便利的按需访问。可配置计算资源的共享池可经由虚拟化快速预置并且以低管理努力或服务提供者交互释放,并且然后因此扩展。
云计算模型可由各种特性组成,诸如例如按需自助服务、广泛网络访问、资源池化、快速弹性、可计量服务等。云计算模型还可展示各种服务模型,诸如例如软件即服务(SaaS)、平台即服务(PaaS)和基础设施即服务(IaaS)。云计算模型还可使用不同的部署模型来部署,诸如私有云、社区云、公共云、混合云等。在本说明书和在权利要求书中,“云计算环境”是在其中采用云计算的环境。
图8示出可以被配置为执行上述过程中的一者或多者的计算设备800的方框图。人们将理解,诸如计算设备800的一个或多个计算设备可以实施气泡检测系统106和测序系统104。如图8所示,计算设备800可包括处理器802、存储器804、存储设备806、I/O接口808和通信接口810,它们可以通过通信基础设施812的方式通信地耦合。在某些实施方案中,计算设备800可包括比图8中示出的部件更少或更多的部件。以下段落更详细地描述图8中所示的计算设备800的部件。
在一个或多个实施方案中,处理器802包括用于执行指令的硬件,诸如构成计算机程序的那些指令。作为示例,而非通过限制的方式,为了执行用于动态地修改工作流程的指令,处理器802可以从内部寄存器、内部高速缓存、存储器804或存储设备806检索(或提取)指令,并且解码和执行它们。存储器804可以是用于存储由处理器执行的数据、元数据和程序的易失性或非易失性存储器。存储设备806包括用于存储用于执行本文所述的方法的数据或指令的存储装置,诸如硬盘、闪存盘驱动器或其他数字存储设备。
I/O接口808允许用户向计算设备800提供输入、从该计算设备接收输出,以及以其他方式向该计算设备转移数据和从该计算设备接收数据。I/O接口808可以包括鼠标、小键盘或键盘、触摸屏、相机、光学扫描仪、网络接口、调制解调器、其他已知I/O设备或此类I/O接口的组合。I/O接口808可以包括用于向用户呈现输出的一个或多个设备,包括但不限于图形引擎、显示器(例如,显示屏)、一个或多个输出驱动程序(例如,显示驱动程序)、一个或多个音频扬声器,以及一个或多个音频驱动程序。在某些实施方案中,I/O接口808被配置为向显示器提供图形数据用于呈现给用户。图形数据可以表示一个或多个图形用户界面和/或可以服务于特定实施的任何其他图形内容。
通信接口810可包括硬件、软件或两者。在任何情况下,通信接口810可提供用于计算设备800与一个或多个其他计算设备或网络之间的通信(诸如例如,基于分组的通信)的一个或多个接口。作为示例,而非通过限制的方式,通信接口810可以包括用于与以太网或其他基于有线的网络通信的网络接口控制器(NIC)或网络适配器,或用于与无线网络(诸如WI-FI)通信的无线NIC(WNIC)或无线适配器。
附加地,通信接口810可以促进与各种类型的有线或无线网络的通信。通信接口810还可以促进使用各种通信协议的通信。通信基础设施812还可以包括将计算设备800的部件彼此耦合的硬件、软件或两者。例如,通信接口810可以使用一个或多个网络和/或协议以使得由特定基础设施连接的多个计算设备能够与彼此通信以执行本文所述的过程的一个或多个方面。为了说明,测序过程可允许多个设备(例如,客户端设备、测序设备和服务器设备)交换诸如测序数据和误差通知的信息。
在前述说明书中,本公开已经参考其特定示例性实施方案进行描述。参考本文所讨论的细节描述了本公开的各种实施方案和方面,并且附图说明各种实施方案。上面的描述和图是对本公开的说明,并且不应被解释为限制本公开。描述了许多特定细节以提供对本公开的各种实施方案的透彻理解。
本公开可以以其它特定形式体现而不脱离其精神或本质特征。所述实施方案在所有方面都应被视为仅为示例性的而非限制性的。例如,本文所描述的方法可以用更少或更多的步骤/动作执行,或者步骤/动作可以以不同的顺序执行。附加地,本文所描述的步骤/动作可以重复或与彼此并行地执行或与相同或类似步骤/动作的不同实例并行地执行。因此,本申请的范围由所附权利要求书而非前述描述来指示。在权利要求的等效含义和范围内的所有改变都将包含在其范围内。

Claims (20)

1.一种系统,所述系统包括:
至少一个处理器;以及
包括指令的非暂态计算机可读介质,所述指令当由所述至少一个处理器执行时使得所述系统:
针对核苷酸样品玻片接收检出数据,所述检出数据包括核酸聚合物测序的循环的核碱基检出;
针对所述核苷酸样品玻片接收包括质量指标的质量数据,
所述质量指标估计所述循环的所述核碱基检出中的误差;
从所述循环的所述核碱基检出中确定对应于至少一个核碱基的所述核碱基检出的第一子集和符合所述质量指标的阈值质量指标的所述核碱基检出的第二子集;以及
利用基于所述核碱基检出的所述第一子集和所述核碱基检出的所述第二子集的气泡检测机器学习模型检测所述核苷酸样品玻片内的气泡的存在。
2.根据权利要求1所述的系统,所述系统还包括指令,所述指令当由所述至少一个处理器执行时使得所述系统:
接收所述核苷酸样品玻片的部分的所述检出数据和所述质量数据;以及
检测所述核苷酸样品玻片的所述部分内所述气泡的所述存在。
3.根据权利要求2所述的系统,所述系统还包括指令,所述指令当由至少一个处理器执行时,使得所述系统通过检测流通池的区块内的所述气泡来检测所述核苷酸样品玻片的所述部分内的所述气泡的所述存在。
4.根据权利要求1所述的系统,所述系统还包括指令,所述指令当由至少一个处理器执行时,使得所述系统通过确定所述核酸聚合物测序的所述循环的腺嘌呤检出的子集、胸腺嘧啶检出的子集、胞嘧啶检出的子集或鸟嘌呤检出的子集中的至少一者以确定对应于所述至少一个核碱基的所述核碱基检出的所述第一子集。
5.根据权利要求4所述的系统,所述系统还包括指令,所述指令当由至少一个处理器执行时,使得所述系统通过利用所述气泡检测机器学习模型的层从输入矩阵中提取特征部来检测所述气泡的所述存在,所述输入矩阵包括符合所述核酸聚合物测序的所述循环的所述阈值质量指标的腺嘌呤检出的所述子集、鸟嘌呤检出的所述子集和所述核碱基检出的所述第二子集。
6.根据权利要求1所述的系统,所述系统还包括指令,所述指令当由至少一个处理器执行时,使得所述系统通过检测所述核苷酸样品玻片内的空气泡、油泡或重影泡中的至少一者以检测所述气泡的所述存在。
7.根据权利要求1所述的系统,其中所述气泡检测机器学习模型包括卷积神经网络,所述卷积神经网络包括特征部提取层、分类层和所述特征部提取层与所述分类层之间的自适应最大池化层。
8.根据权利要求1所述的系统,所述系统还包括指令,所述指令当由至少一个处理器执行时,使得所述系统通过以下项检测所述气泡的所述存在:
利用所述气泡检测机器学习模型生成所述核苷酸样品玻片的部分包含所述气泡的概率;以及
确定所述概率符合指示所述气泡的所述存在的阈值。
9.根据权利要求1所述的系统,所述系统还包括指令,所述指令当由至少一个处理器执行时,使得所述系统基于以下项接收包括所述核碱基检出的所述检出数据:
单通道数据,所述单通道数据包括针对所述核酸聚合物测序的给定循环的所述核苷酸样品玻片的每个部分的单个图像;
双通道数据,所述双通道数据包括针对所述核酸聚合物测序的所述给定循环的所述核苷酸样品玻片的每个部分的两个图像;或者
四通道数据,所述四通道数据包括针对所述核酸聚合物测序的所述给定循环的所述核苷酸样品玻片的每个部分的四个图像。
10.根据权利要求1所述的系统,所述系统还包括指令,所述指令当由至少一个处理器执行时,使得所述系统在所述核酸聚合物测序的所述循环的一个或多个循环期间确定所述气泡的所述存在。
11.一种包括指令的非暂态计算机可读介质,所述指令当由至少一个处理器执行时使得计算设备:
针对核苷酸样品玻片接收检出数据,所述检出数据包括核酸聚合物测序的循环的核碱基检出;
针对所述核苷酸样品玻片接收包括质量指标的质量数据,所述质量指标估计所述循环的所述核碱基检出中的误差;
从所述循环的所述核碱基检出中确定对应于至少一个核碱基的所述核碱基检出的第一子集和符合所述质量指标的阈值质量指标的所述核碱基检出的第二子集;以及
利用基于所述核碱基检出的所述第一子集和所述核碱基检出的所述第二子集的气泡检测机器学习模型检测所述核苷酸样品玻片内的气泡的存在。
12.根据权利要求11所述的非暂态计算机可读介质,其中所述气泡检测机器学习模型包括支持向量机或自适应增强机器学习模型中的至少一者。
13.根据权利要求11所述的非暂态计算机可读介质,所述非暂态计算机可读介质还包括指令,所述指令当由至少一个处理器执行时,使得所述计算设备基于检测所述气泡的所述存在来提供用于在所述计算设备上显示的指示所述核苷酸样品玻片内所述气泡的所述存在的警报。
14.根据权利要求11所述的非暂态计算机可读介质,所述非暂态计算机可读介质还包括指令,所述指令当由所述至少一个处理器执行时使得所述计算设备:
接收所述核苷酸样品玻片的部分的所述检出数据和所述质量数据;以及
检测所述核苷酸样品玻片的所述部分内所述气泡的所述存在。
15.根据权利要求14所述的非暂态计算机可读介质,所述非暂态计算机可读介质还包括指令,所述指令当由至少一个处理器执行时,使得所述计算设备通过检测流通池的区块内的所述气泡来检测所述核苷酸样品玻片的所述部分内的所述气泡的所述存在。
16.根据权利要求11所述的非暂态计算机可读介质,所述非暂态计算机可读介质还包括指令,所述指令当由至少一个处理器执行时,使得所述计算设备在所述核酸聚合物测序的所述循环的一个循环期间确定所述气泡的所述存在。
17.一种计算机实现的方法,所述方法包括:
针对核苷酸样品玻片接收检出数据,所述检出数据包括核酸聚合物测序的循环的核碱基检出;
针对所述核苷酸样品玻片接收包括质量指标的质量数据,所述质量指标估计所述循环的所述核碱基检出中的误差:
从所述循环的所述核碱基检出中确定对应于至少一个核碱基的所述核碱基检出的第一子集和符合所述质量指标的阈值质量指标的所述核碱基检出的第二子集;以及
利用基于所述核碱基检出的所述第一子集和所述核碱基检出的所述第二子集的气泡检测机器学习模型检测所述核苷酸样品玻片内的气泡的存在。
18.根据权利要求17所述的计算机实现的方法,其中确定对应于所述至少一个核碱基的所述核碱基检出的所述第一子集包括确定所述核酸聚合物测序的所述循环的腺嘌呤检出的子集、胸腺嘧啶检出的子集、胞嘧啶检出的子集或鸟嘌呤检出的子集中的至少一者。
19.根据权利要求17所述的计算机实现的方法,所述计算机实现的方法还包括基于利用所述气泡检测机器学习模型检测所述气泡的所述存在来修改核碱基检出的质量指标。
20.根据权利要求17所述的计算机实现的方法,其中检测所述气泡的所述存在包括检测所述核苷酸样品玻片内的空气泡、油泡或重影泡中的至少一者。
CN202280021725.1A 2021-04-02 2022-03-23 用于检测用于测序的核苷酸样品玻片内的气泡的机器学习模型 Pending CN117043867A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163170072P 2021-04-02 2021-04-02
US63/170072 2021-04-02
PCT/US2022/071297 WO2022213027A1 (en) 2021-04-02 2022-03-23 Machine-learning model for detecting a bubble within a nucleotide-sample slide for sequencing

Publications (1)

Publication Number Publication Date
CN117043867A true CN117043867A (zh) 2023-11-10

Family

ID=81308122

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280021725.1A Pending CN117043867A (zh) 2021-04-02 2022-03-23 用于检测用于测序的核苷酸样品玻片内的气泡的机器学习模型

Country Status (10)

Country Link
US (1) US20220319641A1 (zh)
EP (1) EP4315342A1 (zh)
JP (1) JP2024512651A (zh)
KR (1) KR20230167028A (zh)
CN (1) CN117043867A (zh)
BR (1) BR112023019465A2 (zh)
CA (1) CA3214148A1 (zh)
IL (1) IL307378A (zh)
MX (1) MX2023011659A (zh)
WO (1) WO2022213027A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11520844B2 (en) * 2021-04-13 2022-12-06 Casepoint, Llc Continuous learning, prediction, and ranking of relevancy or non-relevancy of discovery documents using a caseassist active learning and dynamic document review workflow

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0450060A1 (en) 1989-10-26 1991-10-09 Sri International Dna sequencing
US5846719A (en) 1994-10-13 1998-12-08 Lynx Therapeutics, Inc. Oligonucleotide tags for sorting and identification
US5750341A (en) 1995-04-17 1998-05-12 Lynx Therapeutics, Inc. DNA sequencing by parallel oligonucleotide extensions
GB9620209D0 (en) 1996-09-27 1996-11-13 Cemu Bioteknik Ab Method of sequencing DNA
GB9626815D0 (en) 1996-12-23 1997-02-12 Cemu Bioteknik Ab Method of sequencing DNA
EP3034626A1 (en) 1997-04-01 2016-06-22 Illumina Cambridge Limited Method of nucleic acid sequencing
US6969488B2 (en) 1998-05-22 2005-11-29 Solexa, Inc. System and apparatus for sequential processing of analytes
US6274320B1 (en) 1999-09-16 2001-08-14 Curagen Corporation Method of sequencing a nucleic acid
US7001792B2 (en) 2000-04-24 2006-02-21 Eagle Research & Development, Llc Ultra-fast nucleic acid sequencing device and a method for making and using the same
AU2001282881B2 (en) 2000-07-07 2007-06-14 Visigen Biotechnologies, Inc. Real-time sequence determination
EP1354064A2 (en) 2000-12-01 2003-10-22 Visigen Biotechnologies, Inc. Enzymatic nucleic acid synthesis: compositions and methods for altering monomer incorporation fidelity
US7057026B2 (en) 2001-12-04 2006-06-06 Solexa Limited Labelled nucleotides
EP2607369B1 (en) 2002-08-23 2015-09-23 Illumina Cambridge Limited Modified nucleotides for polynucleotide sequencing
GB0321306D0 (en) 2003-09-11 2003-10-15 Solexa Ltd Modified polymerases for improved incorporation of nucleotide analogues
EP3175914A1 (en) 2004-01-07 2017-06-07 Illumina Cambridge Limited Improvements in or relating to molecular arrays
US7315019B2 (en) 2004-09-17 2008-01-01 Pacific Biosciences Of California, Inc. Arrays of optical confinements and uses thereof
WO2006064199A1 (en) 2004-12-13 2006-06-22 Solexa Limited Improved method of nucleotide detection
US8623628B2 (en) 2005-05-10 2014-01-07 Illumina, Inc. Polymerases
GB0514936D0 (en) 2005-07-20 2005-08-24 Solexa Ltd Preparation of templates for nucleic acid sequencing
US7405281B2 (en) 2005-09-29 2008-07-29 Pacific Biosciences Of California, Inc. Fluorescent nucleotide analogs and uses therefor
EP3722409A1 (en) 2006-03-31 2020-10-14 Illumina, Inc. Systems and devices for sequence by synthesis analysis
WO2008051530A2 (en) 2006-10-23 2008-05-02 Pacific Biosciences Of California, Inc. Polymerase enzymes and reagents for enhanced nucleic acid sequencing
GB2457851B (en) 2006-12-14 2011-01-05 Ion Torrent Systems Inc Methods and apparatus for measuring analytes using large scale fet arrays
US8349167B2 (en) 2006-12-14 2013-01-08 Life Technologies Corporation Methods and apparatus for detecting molecular interactions using FET arrays
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
WO2008092150A1 (en) * 2007-01-26 2008-07-31 Illumina, Inc. Nucleic acid sequencing system and method
WO2010039553A1 (en) 2008-10-03 2010-04-08 Illumina, Inc. Method and system for determining the accuracy of dna base identifications
US20100137143A1 (en) 2008-10-22 2010-06-03 Ion Torrent Systems Incorporated Methods and apparatus for measuring analytes
US8951781B2 (en) 2011-01-10 2015-02-10 Illumina, Inc. Systems, methods, and apparatuses to image a sample for biological or chemical analysis
CA2859660C (en) 2011-09-23 2021-02-09 Illumina, Inc. Methods and compositions for nucleic acid sequencing
BR112014024789B1 (pt) 2012-04-03 2021-05-25 Illumina, Inc aparelho de detecção e método para formação de imagem de um substrato
EP3844477A4 (en) * 2018-08-28 2023-01-04 Essenlix Corporation IMPROVING THE ACCURACY OF A DOSAGE
WO2020206464A1 (en) * 2019-04-05 2020-10-08 Essenlix Corporation Assay accuracy and reliability improvement

Also Published As

Publication number Publication date
BR112023019465A2 (pt) 2023-12-05
JP2024512651A (ja) 2024-03-19
EP4315342A1 (en) 2024-02-07
US20220319641A1 (en) 2022-10-06
IL307378A (en) 2023-11-01
CA3214148A1 (en) 2022-10-06
WO2022213027A1 (en) 2022-10-06
MX2023011659A (es) 2023-10-11
KR20230167028A (ko) 2023-12-07

Similar Documents

Publication Publication Date Title
Bharti et al. Current challenges and best-practice protocols for microbiome analysis
JP2016518822A (ja) アセンブルされていない配列情報、確率論的方法、及び形質固有(trait−specific)のデータベースカタログを用いた生物材料の特性解析
US20240038327A1 (en) Rapid single-cell multiomics processing using an executable file
CN117043867A (zh) 用于检测用于测序的核苷酸样品玻片内的气泡的机器学习模型
US20220415442A1 (en) Signal-to-noise-ratio metric for determining nucleotide-base calls and base-call quality
US20230420082A1 (en) Generating and implementing a structural variation graph genome
US20230021577A1 (en) Machine-learning model for recalibrating nucleotide-base calls
US20230340571A1 (en) Machine-learning models for selecting oligonucleotide probes for array technologies
US20230313271A1 (en) Machine-learning models for detecting and adjusting values for nucleotide methylation levels
US20230207050A1 (en) Machine learning model for recalibrating nucleotide base calls corresponding to target variants
US20230095961A1 (en) Graph reference genome and base-calling approach using imputed haplotypes
US20240112753A1 (en) Target-variant-reference panel for imputing target variants
US20240127906A1 (en) Detecting and correcting methylation values from methylation sequencing assays
US20220415443A1 (en) Machine-learning model for generating confidence classifications for genomic coordinates
CN117561573A (zh) 从碱基判读错误模式自动鉴定核苷酸测序中的故障来源
WO2024006705A1 (en) Improved human leukocyte antigen (hla) genotyping
WO2023250504A1 (en) Improving split-read alignment by intelligently identifying and scoring candidate split groups

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination