CN115769301A - 基于人工智能预测的碱基判读来检测和过滤簇 - Google Patents

基于人工智能预测的碱基判读来检测和过滤簇 Download PDF

Info

Publication number
CN115769301A
CN115769301A CN202180043746.9A CN202180043746A CN115769301A CN 115769301 A CN115769301 A CN 115769301A CN 202180043746 A CN202180043746 A CN 202180043746A CN 115769301 A CN115769301 A CN 115769301A
Authority
CN
China
Prior art keywords
sequencing
clusters
cluster
cycle
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180043746.9A
Other languages
English (en)
Inventor
D·卡什夫哈吉吉
G·D·帕纳比
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inmair Ltd
Original Assignee
Inmair Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inmair Ltd filed Critical Inmair Ltd
Publication of CN115769301A publication Critical patent/CN115769301A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F15/78Architectures of general purpose stored program computers comprising a single central processing unit
    • G06F15/7867Architectures of general purpose stored program computers comprising a single central processing unit with reconfigurable architecture
    • G06F15/7871Reconfiguration support, e.g. configuration loading, configuration switching, or hardware OS
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2193Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/10Interfaces, programming languages or software development kits, e.g. for simulating neural networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biotechnology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Hardware Design (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Signal Processing (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Image Analysis (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Radar Systems Or Details Thereof (AREA)

Abstract

所公开的技术涉及识别不可靠的簇以提高碱基判读的准确性和效率。所公开的技术包括访问用于多个簇和用于测序运行的测序循环的第一子集的每循环簇数据,并对测序循环的第一子集中的每个测序循环处的多个簇中的每个簇进行碱基判读,包括针对每个簇和针对每个测序循环生成每循环概率四元组。所公开的技术包括基于由每个每簇、每循环概率四元组识别的概率确定其滤波值,将多个簇中其滤波值的序列包含至少“N”个滤波值低于阈值“M”的那些簇识别为不可靠的簇,并且在测序运行的测序循环的剩余部分处绕过对不可靠的簇进行碱基判读。

Description

基于人工智能预测的碱基判读来检测和过滤簇
优先权申请
本申请要求于2021年8月25日提交的名称为“DETECTING AND FILTERINGCLUSTERS BASED ON ARTIFICIAL INTELLIGENCE-PREDICTED BASE CALLS”的美国临时申请第17/411,980号的优先权(代理人案卷号ILLM 1018-2/IP-1860-US),该临时申请要求于2020年8月28日提交的名称为“DETECTING AND FILTERING CLUSTERS BASED ONARTIFICIAL INTELLIGENCE-PREDICTED BASE CALLS”的美国临时申请第63/072,032号的权益(代理人案卷号ILLM 1018-1/IP-1860-PRV)。优先权申请以引用的方式并入本文中。
文献并入
以下文献以引用方式并入,即如同在本文完整示出一样,以用于所有目的:
2019年3月21日提交的名称为“Training Data Generation for ArtificialIntelligence-Based Sequencing”的美国临时专利申请第62/821,602号(代理人案卷号ILLM 1008-1/IP-1693-PRV);
2019年3月21日提交的名称为“Artificial Intelligence-Based Generation ofSequencing Metadata”的美国临时专利申请第62/821,618号(代理人案卷号ILLM 1008-3/IP-1741-PRV);
2019年3月21日提交的名称为“Artificial Intelligence-Based Base Calling”的美国临时专利申请第62/821,681号(代理人案卷号ILLM 1008-4/IP-1744-PRV);
2019年3月21日提交的名称为“Artificial Intelligence-Based QualityScoring”的美国临时专利申请第62/821,724号(代理人案卷号ILLM 1008-7/IP-1747-PRV);
2019年3月21日提交的名称为“Artificial Intelligence-Based Sequencing”的美国临时专利申请第62/821,766号(代理人案卷号ILLM 1008-9/IP-1752-PRV);
2019年6月14日提交的名称为“Training Data Generation for ArtificialIntelligence-Based Sequencing”的荷兰专利申请第2023310号(代理人案卷号ILLM1008-11/IP-1693-NL);
2019年6月14日提交的名称为“Artificial Intelligence-Based Generation ofSequencing Metadata”的荷兰专利申请第2023311号(代理人案卷号ILLM 1008-12/IP-1741-NL);
2019年6月14日提交的名称为“Artificial Intelligence-Based Base Calling”的荷兰专利申请第2023312号(代理人案卷号ILLM 1008-13/IP-1744-NL);
2019年6月14日提交的名称为“Artificial Intelligence-Based QualityScoring”的荷兰专利申请第2023314号(代理人案卷号ILLM 1008-14/IP-1747-NL);
2019年6月14日提交的名称为“Artificial Intelligence-Based Sequencing”的荷兰专利申请第2023316号(代理人案卷号ILLM 1008-15/IP-1752-NL);
2019年5月16日提交的名称为“Systems and Devices for Characterizationand Performance Analysis of Pixel-Based Sequencing”的美国临时专利申请第62/849,091号(代理人案卷号ILLM 1011-1/IP-1750-PRV);
2019年5月16日提交的名称为“Base Calling Using Convolutions”的美国临时专利申请第62/849,132号(代理人案卷号ILLM 1011-2/IP-1750-PR2);
2019年5月16日提交的名称为“Base Calling Using Compact Convolutions”的美国临时专利申请第62/849,133号(代理人案卷号ILLM1011-3/IP-1750-PR3);
2020年2月20日提交的名称为“Artificial Intelligence-Based Base Callingof Index Sequences”的美国临时专利申请第62/979,384号(代理人案卷号ILLM 1015-1/IP-1857-PRV);
2020年2月20日提交的名称为“Artificial Intelligence-Based Many-To-ManyBase Calling”的美国临时专利申请第62/979,414号(代理人案卷号ILLM 1016-1/IP-1858-PRV);
2020年2月20日提交的名称为“Knowledge Distillation-Based Compression ofArtificial Intelligence-Based Base Caller”的美国临时专利申请第62/979,385号(代理人案卷号ILLM 1017-1/IP-1859-PRV);
2020年2月20日提交的名称为“Multi-Cycle Cluster Based Real TimeAnalysis System”的美国临时专利申请第62/979,412号(代理人案卷号ILLM 1020-1/IP-1866-PRV);
2020年2月20日提交的名称为“Data Compression for ArtificialIntelligence-Based Base Calling”的美国临时专利申请第62/979,411号(代理人案卷号ILLM 1029-1/IP-1964-PRV);以及
2020年2月20日提交的名称为“Squeezing Layer for ArtificialIntelligence-Based Base Calling”的美国临时专利申请第62/979,399号(代理人案卷号ILLM 1030-1/IP-1982-PRV)。
技术领域
本发明所公开的技术涉及人工智能类型计算机和数字数据处理系统以及对应数据处理方法和用于仿真智能的产品(即,基于知识的系统、推断系统和知识采集系统);并且包括用于不确定性推断的系统(例如,模糊逻辑系统)、自适应系统、机器学习系统和人工神经网络。具体地,所公开的技术涉及将深度神经网络诸如深度卷积神经网络用于分析数据。
背景技术
本部分中讨论的主题不应仅因为在本部分中有提及就被认为是现有技术。类似地,在本部分中提及的或与作为背景技术提供的主题相关联的问题不应被认为先前在现有技术中已被认识到。本部分中的主题仅表示不同的方法,这些方法本身也可对应于受权利要求书保护的技术的具体实施。
碱基判读为读段的每个位置分配碱基和相关质量值。测序碱基的质量由Illumina测序仪用被称为纯净度滤波器的程序评估。纯净度可以确定为最高强度值除以最高强度值和第二高强度值之和。质量评估可以包括识别读段,其中碱基判读的第一子集中倒数第二的纯净度低于阈值,并且将那些读段标记为不良质量数据。碱基判读的第一子集可以是任何合适数量的碱基判读。例如,该子集可以是前1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25个或比前25个更多的碱基判读。这可以被称为读段过滤,使得满足此截止值的簇被称为“通过滤波器”。
Figure BDA0004006069630000041
在一些实施方案中,在前二十五个循环中检查来自每个簇的信号的纯度并计算为纯净度值。至多一个循环可以下降到纯净度阈值以下(例如,0.6),否则读段不会通过纯净度滤波器。
Illumina计算用于存储碱基判读错误概率的评估的Phred分值。Phred分值基于强度分布(偏移纯度:有多少信号被最亮通道所占?)和信噪比(信号与背景的重叠:来自菌落的信号是否与流通池周围的区域很好地区分开来?)来计算。Illumina尝试量化最强碱基信号的纯净度,无论给定碱基判读的信号是否比附近碱基的信号强得多,表示菌落的点在测序过程中是否变得可疑暗淡(强度衰减),以及前后循环中的信号是否干净。
有机会基于人工智能预测的碱基判读来检测和过滤不可靠的簇。可能会提高碱基判读的准确性和质量。
附图说明
在附图中,在所有不同视图中,类似的参考符号通常是指类似的部件。另外,附图未必按比例绘制,而是重点说明所公开的技术的原理。在以下描述中,参考以下附图描述了本发明所公开的技术的各种实施方式,其中:
图1是示出所公开的技术的各个方面的框图。
图2A示出了示例性softmax函数。
图2B描绘了由所公开的技术产生的示例性每簇、每循环概率四元组。
图3示出了使用滤波值识别不可靠的簇的示例。
图4是示出识别不可靠的簇以提高碱基判读d的准确性和效率的方法的一个具体实施的流程图。
图5A和图5B描绘了测序系统的一个具体实施。该测序系统包括可配置处理器。
图5C是用于分析来自测序系统的传感器数据(诸如,碱基判读传感器输出)的系统的简化框图。
图6示出了所公开的数据流逻辑的一个具体实施,其使主机处理器能够基于由在可配置处理器上运行的神经网络预测的碱基判读来过滤不可靠的簇,并且进一步使可配置处理器使用识别不可靠的簇的数据来生成可靠的剩余中间表示。
图7示出了所公开的数据流逻辑的另一具体实施,其使主机处理器能够基于由在可配置处理器上运行的神经网络预测的碱基判读来过滤不可靠的簇,并且进一步使主机处理器使用识别不可靠的簇的数据来仅对可靠的簇进行碱基判读。
图8示出了所公开的数据流逻辑的又一具体实施,其使主机处理器能够基于由在可配置处理器上运行的神经网络预测的碱基判读来过滤不可靠的簇,并且进一步使用识别不可靠的簇的数据来生成可靠的剩余每簇数据。
图9、图10、图11、图12和图13示出了使用在本文中称为“DeepRTA”的技术与称为实时分析(RTA)软件的Illumina的传统碱基判读器来检测空孔和非空孔的对比分析结果。
图14是可以用于实现所公开的技术的计算机系统。
具体实施方式
呈现以下讨论以使得本领域的任何技术人员能够实现和使用所公开的技术,并且在特定应用及其要求的上下文中提供以下讨论。对所公开的具体实施的各种修改对于本领域的技术人员而言将是显而易见的,并且在不脱离所公开的技术的实质和范围的情况下,本文所定义的一般原理可应用于其他具体实施和应用。因此,所公开的技术并非旨在限于所示的具体实施,而是要符合与本文所公开的原理和特征一致的最广范围。
本公开提供了基于人工智能的图像分析方法和系统,特别适用于检测和过滤不可靠的簇。图1示出了示例数据分析和过滤系统以及其某些部件。该系统包括图像生成系统132、每循环簇数据112、数据提供商102、基于神经网络的碱基判读器104、概率四元组106、检测和过滤逻辑146以及识别不可靠的簇124的数据。系统可由一个或多个编程的计算机形成,其中编程存储在一个或多个机器可读介质上,其中执行代码以进行本文所述方法的一个或多个步骤。在所示的具体实施中,例如,系统包括图像生成系统132,该图像生成系统被配置为将每循环簇数据112输出为数字图像数据,例如,表示单独图片元素或像素的图像数据,它们一起形成阵列或其他对象的图像。
基于神经网络的碱基判读
碱基判读是确定序列的核苷酸组成的过程。碱基判读涉及分析图像数据,即测序图像,该图像数据在由测序仪器,诸如Illumina的iSeq、HiSeqX、HiSeq 3000、HiSeq 4000、HiSeq 2500、NovaSeq 6000、NextSeq 550、NextSeq 1000、NextSeq 2000、NextSeqDx、MiSeq和MiSeqDx执行的测序反应期间产生。以下讨论概述根据一个具体实施的生成测序图像的方法及其描绘的内容。
碱基判读将测序仪器的原始信号(即从测序图像中提取的强度数据)解码到核苷酸序列。在一个具体实施中,Illumina平台采用循环可逆终止(CRT)化学来进行碱基判读。该过程依赖于生长与具有经荧光标记的核苷酸的模板链互补的新生链,同时跟踪每个新添加的核苷酸的发射信号。经荧光标记的核苷酸具有锚定核苷酸类型的荧光团信号的3'可移除块。
测序在重复的循环中进行,每个循环包括三个步骤:(a)通过添加经荧光标记的核苷酸延长新生链;(b)使用测序仪器的光学系统的一个或多个激光器激发荧光团,并通过光学系统的不同滤波器成像,从而产生测序图像;以及(c)裂解荧光团并移除3'块,以为下一个测序循环做准备。重复掺入和成像循环直至达到指定数量的测序循环,从而限定读段长度。使用该方法,每个循环询问沿着模板链的新位置。
Illumina测序仪的巨大能力源于其同时执行和感测数百万或甚至数十亿个经历CRT反应的簇(例如,簇)的能力。簇包括模板链的约一千个相同副本,但簇的尺寸和形状不同。在测序运行之前,通过对输入文库进行桥式扩增或排除扩增,使来自模板链的簇生长。扩增和簇生长的目的是增加发射信号的强度,因为成像设备不能可靠地感测单个链的荧光团信号。然而,簇内的链的物理距离较小,因此成像设备将链的簇感知为单个点。
测序发生在流通池(保持输入链的小载玻片)中。流通池连接到光学系统,该光学系统包括显微镜成像、激发激光器和荧光滤波器。流通池包括被称为槽道的多个腔室。槽道在物理上彼此分离,并且可以包含不同的带标记的测序文库,这些带标记的测序文库在无样品交叉污染的情况下可以进行区分。测序仪器的成像设备(例如,固态成像器件,诸如电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS)传感器)在一系列非重叠区域(被称为区块)中沿槽道的多个位置拍摄快照。例如,Illumina基因组分析仪II中的每个槽道有一百个区块,并且Illumina HiSeq 2000中的每个槽道有六十八个区块。区块容纳数十万至数百万的簇。
测序的输出是测序图像,每个测序图像描绘了簇及其周围背景的强度发射。测序图像描绘了由于在测序期间核苷酸掺入序列中而产生的强度发射。强度发射来自相关联的簇及其周围背景。
接下来的讨论将按以下步骤来进行。首先,根据一个具体实施,描述对基于神经网络的碱基判读器104的输入。然后,提供基于神经网络的碱基判读器104的结构和形式的实例。最后,根据一个具体实施,描述基于神经网络的碱基判读器104的输出。
关于基于神经网络的碱基判读器104的更多细节可以在2019年3月21日提交的名称为“ARTIFICIAL INTELLIGENCE-BASED SEQUENCING”的美国临时专利申请第62/821,766号中找到(代理人案卷号ILLM 1008-9/IP-1752-PRV),该专利申请以引用方式并入本文。
在一个具体实施中,从测序图像中提取图像补片。数据提供商102向基于神经网络的碱基判读器104提供所提取的图像补片作为用于碱基判读的“输入图像数据”。图像补片的尺寸为w×h,其中,w(宽度)和h(高度)是在1和10000范围内的任何数字(例如,3×3、5×5、7×7、10×10、15×15、25×25)。在一些具体实施中,w和h是相同的。在其他具体实施中,w和h是不同的。
测序对于对应的m个图像通道,每个测序循环产生m个图像。在一个具体实施中,每个图像通道对应于多个滤波器波长带中的一个滤波器波长带。在另一具体实施中,每个图像通道对应于处于测序循环的多个成像事件中的一个成像事件。在又一具体实施中,每个图像通道对应于利用特定激光器照明与通过特定光学滤波器成像的组合。
从m个图像中的每个图像中提取一个图像补片,以制备用于特定测序循环的输入图像数据。在诸如四通道化学、双通道化学和单通道化学的不同具体实施中,m为4或2。在其他具体实施中,m为1、3或大于4。在一些具体实施中,输入图像数据在光学像素域中,并且在其他具体实施中,输入图像数据在上采样的子像素域中。
例如,考虑测序使用两个不同的图像通道(即,红色通道和绿色通道)的情况。然后,在每个测序循环处,测序产生红色图像和绿色图像。这样,针对一系列k测序循环,产生具有k对红色图像和绿色图像的序列作为输出。
输入图像数据包括针对测序运行的一系列k测序循环生成的每循环图像补片的序列。每循环图像补片包含一个或多个图像通道(例如,红色通道和绿色通道)中相关联的簇及其周围背景的强度数据。在一个具体实施中,当要对单个目标簇(例如,簇)进行碱基判读时,每循环图像补片以包含靶相关联簇的强度数据的中心像素为中心,并且每循环图像补片中的非中心像素包含与靶相关联簇相邻的相关联簇的强度数据。用于多个测序循环的每循环图像补片被存储为每循环簇数据112。
输入图像数据包括多个测序循环(例如,当前测序循环、一个或多个先前测序循环以及一个或多个后续测序循环)的数据。在一个具体实施中,输入图像数据包括用于三个测序循环的数据,使得用于当前(时间t)测序循环的待进行碱基判读的数据伴随有:(i)用于左侧翼/上下文/先前/前一个/之前(时间t-1)测序循环的数据和(ii)用于右侧翼/上下文/后一个/后续/之后(时间t+1)测序循环的数据。在另一具体实施中,输入图像数据包括用于五个测序循环的数据,使得用于待碱基判读的当前(时间t)测序循环的数据伴随有:(i)用于第一左侧翼/上下文/先前/前一个/之前(时间t-1)测序循环的数据;(ii)用于第二左侧翼/上下文/先前/前一个/之前(时间t-2)测序循环的数据;(iii)用于第一右侧翼/上下文/后一个/后续/之后(时间t+1)测序循环的数据;以及(iv)用于第二右侧翼/上下文/后一个/后续/之后(时间t+2)测序循环的数据。在又一具体实施中,输入图像数据包括用于七个测序循环的数据,使得用于待碱基判读的当前(时间t)测序循环的数据伴随有:(i)用于第一左侧翼/上下文/先前/前一个/之前(时间t-1)测序循环的数据;(ii)用于第二左侧翼/上下文/先前/前一个/之前(时间t-2)测序循环的数据;(iii)用于第三左侧翼/上下文/先前/前一个/之前(时间t-3)测序循环的数据;(iv)用于第一右侧翼/上下文/后一个/后续/之后(时间t+1)测序循环的数据;(v)用于第二右侧翼/上下文/后一个/后续/之后(时间t+2)测序循环的数据;以及(vi)用于第三右侧翼/上下文/后一个/后续/之后(时间t+3)测序循环的数据。在其他具体实施中,输入图像数据包括用于单个测序循环的数据。在其他具体实施中,输入图像数据包括用于58、75、92、130、168、175、209、225、230、275、318、325、330、525或625测序循环的数据。
在一个具体实施中,来自当前(时间t)测序循环的测序图像伴随有来自第一和第二先前(时间t-1、时间t-2)测序循环的测序图像和来自第一和第二后续(时间t+1、时间t+2)测序循环的测序图像。根据一个具体实施,基于神经网络的碱基判读器104通过其卷积层处理测序图像,并产生替代表示。然后,由输出层(例如,softmax层)使用替代表示以生成针对仅当前(时间t)测序循环或测序循环中的每个测序循环(即,当前(时间t)测序循环、第一和第二先前(时间t-1、时间t-2)测序循环,以及第一后续和第二后续(时间t+1、时间t+2)测序循环)的碱基判读。所得的碱基判读形成测序读段。
在一个具体实施中,来自当前(时间t)的测序循环的测序图像伴随有来自先前(时间t-1)测序循环的测序图像和来自后续(时间t+1)测序循环的测序图像。根据一个具体实施,基于神经网络的碱基判读器104通过其卷积层处理测序图像,并产生替代表示。然后,输出层(例如,softmax层)使用替代表示来为仅当前(时间t)测序循环或测序循环中的每个测序循环(即,当前(时间t)测序循环、先前(时间t-1)测序循环和后续(时间t+1)测序循环)生成碱基判读。所得的碱基判读形成测序读段。
在一个具体实施中,基于神经网络的碱基判读器104输出针对用于特定测序循环的单个目标簇的碱基判读。在另一个具体实施中,该基于神经网络的碱基判读器输出针对特定测序循环的多个目标簇中的每个目标簇的碱基判读。在又一个具体实施中,该基于神经网络的碱基判读器输出针对多个测序循环中的每个测序循环的多个目标簇中的每个目标簇的碱基判读,从而产生每个目标簇的碱基判读序列。
在一个具体实施中,基于神经网络的碱基判读器104是多层感知器(MLP)。在另一具体实施中,基于神经网络的碱基判读器104是前馈神经网络。在又一具体实施中,基于神经网络的碱基判读器104是全连接神经网络。在另一具体实施中,基于神经网络的碱基判读器104是全卷积神经网络。在又进一步的具体实施中,基于神经网络的碱基判读器104是语义分割神经网络。在又一进一步的具体实施中,基于神经网络的碱基判读器104是生成对抗网络(GAN)。
在一个具体实施中,基于神经网络的碱基判读器104是具有多个卷积层的卷积神经网络(CNN)。在另一个具体实施中,该基于神经网络的碱基判读器是递归神经网络(RNN),诸如长短期记忆网络(LSTM)、双向LSTM(Bi-LSTM)或门控递归单元(GRU)。在又一个具体实施中,该基于神经网络的碱基判读器包括CNN和RNN两者。
在其他具体实施中,基于神经网络的碱基判读器104可以使用1D卷积、2D卷积、3D卷积、4D卷积、5D卷积、扩张或空洞卷积、转置卷积、深度可分离卷积、逐点卷积、1×1卷积、分组卷积、扁平卷积、空间和跨通道卷积、混洗分组卷积、空间可分离卷积和去卷积。其可使用一种或多种损失函数,诸如逻辑回归/对数损失函数、多类交叉熵/softmax损失函数、二元交叉熵损失函数、均方误差损失函数、L1损失函数、L2损失函数、平滑L1损失函数和Huber损失函数。其可以使用任何并行性、效率性和压缩方案,诸如TFRecords、压缩编码(例如,PNG)、锐化、映射图转换的并行检出、批处理、预取、模型并行性、数据并行性和同步/异步随机梯度下降(SGD)。其可包括上采样层、下采样层、递归连接、栅极和栅极存储器单元(如LSTM或GRU)、残差块、残差连接、高速连接、跳跃连接、窥视孔连接、激活函数(例如,非线性变换函数如修正线性单元(ReLU)、泄露ReLU、指数衬里单元(ELU)、sigmoid和双曲线正切(tanh))、批量归一化层、正则化层、丢弃层、池化层(例如,最大或平均池化)、全局平均池化层和注意力机制。
基于神经网络的碱基判读器104使用基于反向传播的梯度更新技术来训练。可以用于训练基于神经网络的碱基判读器104的示例性梯度下降技术包括随机梯度下降、批量梯度下降和微型批量梯度下降。可以用于训练基于神经网络的碱基判读器104的梯度下降优化算法的一些示例是Momentum、Nesterov加速梯度、Adagrad、Adadelta、RMSprop、Adam、AdaMax、Nadam和AMSGrad。
基于神经网络的碱基判读器104使用特化的架构来分离不同测序循环的数据的处理。首先描述使用特化的架构的动机。如上所述,基于神经网络的碱基判读器104处理用于当前测序循环、一个或多个先前测序循环和一个或多个后续测序循环的强度语境化补片。附加测序循环的数据提供序列特异性上下文。基于神经网络的碱基判读器104在训练期间学习序列特异性上下文,并对该序列特异性上下文进行碱基判读。此外,前测序循环和后测序循环的数据为当前测序循环提供了预定相和定相信号的二阶贡献。
然而,在不同测序循环处和不同图像通道中捕获的图像相对于彼此未对准并且具有残差配准误差。考虑到这种未对准,特化的架构包括空间卷积层,该空间卷积层不混合测序循环之间的信息并且仅混合测序循环内的信息。
空间卷积层使用所谓的“隔离卷积”,该隔离卷积通过经由“专用非共享”卷积序列独立处理多个测序循环中的每个测序循环的数据来实现隔离。该隔离卷积对仅给定测序循环(即,循环内)的数据和所得特征映射图进行卷积,而不对任何其他测序循环的数据和所得特征映射图进行卷积。
例如,考虑输入图像数据包括:(i)待进行碱基判读的当前(时间t)测序循环的当前强度语境化补片;(ii)先前(时间t-1)测序循环的先前强度语境化补片;以及(iii)后一个(时间t+1)测序循环的后一个强度语境化补片。然后,特化的架构发起三个单独的卷积流水线,即当前卷积流水线、先前卷积流水线和后一个卷积流水线。当前数据处理流水线接收用于当前(时间t)测序循环的当前强度语境化补片作为输入,并且通过多个空间卷积层784独立地处理该当前强度语境化补片,以产生所谓的“当前空间卷积表示”作为最终空间卷积层的输出。先前卷积流水线接收用于先前(时间t-1)测序循环的先前强度语境化补片作为输入,并且通过多个空间卷积层独立地处理该先前强度语境化补片,以产生所谓的“先前空间卷积表示”作为最终空间卷积层的输出。后一个卷积流水线接收用于后一个(时间t+1)测序循环的后一个强度语境化补片作为输入,并且通过多个空间卷积层独立地处理该后一个强度语境化补片,以产生所谓的“后一个空间卷积表示”作为最终空间卷积层的输出。
在一些具体实施中,并行执行当前卷积流水线、先前卷积流水线和后一个卷积流水线。在一些具体实施中,空间卷积层是专门化架构内的空间卷积网络(或子网络)的一部分。
基于神经网络的碱基判读器104还包括混合测序循环之间(即,循环间)的信息的时间卷积层。时间卷积层从空间卷积网络接收其输入,并且对由相应数据处理管道的最终空间卷积层产生的空间卷积表示进行操作。
时间卷积层的循环间可操作性自由源于以下事实:未对准属性通过由空间卷积层序列执行的隔离卷积的叠堆或级联而从空间卷积表示清除,该未对准属性存在于作为输入馈送到空间卷积网络的图像数据中。
时间卷积层使用所谓的“组合卷积”,该组合卷积在滑动窗口的基础上逐组地对后续输入中的输入通道进行卷积。在一个具体实施中,这些后续输入是由先前的空间卷积层或先前时间卷积层产生的后续输出。
在一些具体实施中,时间卷积层是专门化架构内的时间卷积网络(或子网络)的一部分。时间卷积网络从空间卷积网络接收其输入。在一个具体实施中,时间卷积网络的第一时间卷积层逐组地组合测序循环之间的空间卷积表示。在另一个具体实施中,时间卷积网络的后续时间卷积层组合先前时间卷积层的后续输出。最终时间卷积层的输出被馈送到产生输出的输出层。输出用于在一个或多个测序循环处对一个或多个簇进行碱基判读。
在一个具体实施中,绕过对不可靠的簇进行碱基判读是指仅通过基于神经网络的碱基判读器104的空间卷积层处理不可靠的簇,并且不通过基于神经网络的碱基判读器104的时间卷积层处理不可靠的簇。
在本申请的上下文中,不可靠的簇也由不描绘任何簇的像素来识别,并且这样的像素从时间卷积层的处理中丢弃。在一些具体实施中,当放置生物样品的孔是空的时,就会发生这种情况。
检测和过滤不可靠的簇
所公开的技术检测和过滤不可靠的簇。以下讨论解释了不可靠的簇。
不可靠的簇是低质量簇,发射与背景信号相比不显著的一定量的期望信号。不可靠的簇的信噪比相当低,例如,小于1。在一些具体实施中,不可靠的簇可能不产生任何量的期望信号。在其他具体实施中,不可靠的簇可以产生相对于背景非常低的量的信号。在一个具体实施中,信号是光信号并且旨在包括例如荧光、发光、散射或吸收信号。信号电平是指具有期望的或预定义的特性的检测到的能量或编码信息的量或数量。例如,光信号可通过强度、波长、能量、频率、功率、亮度等中的一者或多者来量化。其他信号可根据特征诸如电压、电流、电场强度、磁场强度、频率、功率、温度等进行量化。不可靠的簇中的信号缺失被理解为信号电平为零或信号电平与噪声没有明显区别。
对于不可靠的簇的低质量信号存在许多可能的原因。如果在菌落扩增中已经存在聚合酶链式反应(PCR)误差,使得不可靠的簇中的~1000个分子中相当大比例的分子在某个位置包含不同的碱基,则可以观察到两个碱基的信号—这被解释为低质量的迹象并且被称为相位误差。当不可靠的簇中的各个分子在某一循环中不掺入核苷酸(例如,由于3'终止子的不完全移除,称为定相),然后滞后于其他分子时,或者当各个分子在单个循环中掺入多于一个核苷酸时(例如,由于掺入核苷酸而没有有效的3'阻断,称为定相),发生相位误差。这导致在序列副本的读段中失去同步。受定相和预定相影响的不可靠的簇中的序列比例随着循环数而增加,这是读段质量在高循环数下趋于下降的主要原因。
衰落也导致不可靠的簇。衰落是作为循环数的函数的不可靠的簇的信号强度的指数衰减。随着测序运行的进行,不可靠的簇中的链被过度洗涤,暴露于产生反应性物质的激光辐射,并且经受恶劣环境条件。所有这些导致不可靠的簇中片段的逐渐丢失,从而降低了它们的信号强度。
不可靠的簇也由发育不全的菌落,即,在图案化流通池上产生空的或部分填充的孔的不可靠的簇的小的簇尺寸产生。即,在一些具体实施中,不可靠的簇指示图案化流通池上的空的、多克隆的以及暗孔。不可靠的簇也由非排他性扩增引起的重叠菌落产生。不可靠的簇也由照明不足或照明不均匀导致,例如,由于位于流通池的边缘。不可靠的簇也由流动池上的杂质引起,这些杂质混淆所发射的信号。当多个簇沉积在相同的孔中时,不可靠的簇还包括多克隆簇。
现在讨论可以如何通过检测和过滤逻辑146来检测和过滤不可靠的簇,以提高碱基判读的准确性和效率。数据提供商102向基于神经网络的碱基判读器104提供每循环簇数据112。每循环簇数据112用于多个簇和测序运行的测序循环的第一子集。例如,考虑测序运行具有150个测序循环。然后,测序循环的第一子集可以包括150个测序循环的任何子集,例如,150次循环测序运行的前5、10、15、25、35、40、50或100个测序循环。而且,每个测序循环产生描绘多个簇中的簇的强度发射的测序图像。这样,用于多个簇和测序运行的测序循环的第一子集的每循环簇数据112包括仅用于150次循环测序运行的前5、10、15、25、35、40、50或100个测序循环的测序图像,并且不包括用于150次循环测序运行的剩余测序循环的测序图像。
基于神经网络的碱基判读器104在测序循环的第一子集中的每个测序循环对多个簇中的每个簇进行碱基判读。为此,基于神经网络的碱基判读器104处理每循环簇数据112并生成每循环簇数据112的中间表示。然后,基于神经网络的碱基判读器104通过输出层处理中间表示,并针对每个簇和每个测序循环产生每簇、每循环概率四元组。输出层的示例包括softmax函数、log-softmax函数、集成输出平均函数、多层感知器不确定性函数、贝叶斯高斯分布函数和簇强度函数。每簇、每循环概率四元组存储为概率四元组106。
下面的讨论集中于使用softmax函数作为示例的每簇、每循环概率四元组。最先解释softmax函数,然后解释每簇、每循环概率四元组。
Softmax函数是用于多级分类的优选函数。softmax函数在整个所有可能的目标类别计算每个目标类别的概率。softmax函数的输出范围在零到一之间,并且所有概率的总和等于一。softmax函数计算给定输入值的指数和所有输入值的指数值的总和。输入值的指数与指数值的总和的比率是softmax函数的输出,在本文中称之为“指数归一化”。
正式地,训练所谓的softmax分类器是回归到类别概率,而不是回归到真实分类器,因为它不返回类别,而是返回每个类别概率的置信度预测。softmax函数取一类值并将它们转换为总和为1的概率。softmax函数将任意实数值的n维度向量压缩到0到1范围内的实数值的n维度向量。因此,使用softmax函数确保输出是有效的、指数归一化的概率质量函数(非负且总和为1)。
直观地,softmax函数是最大函数的“软”版本。术语“soft”来源于这样的事实:softmax函数是连续且可微的。代替选择一个最大元素,该最大元素将向量断裂成整体的部分,其中最大输入元素得到比例较大的值,其他获得比例较小的值。输出概率分布的特性使得softmax函数适合于分类任务中的概率解释。
让我们将z视为对softmax层的输入向量。softmax层单元是softmax层中的节点的数量,并且因此,z向量的长度是softmax层中的单元的数量(如果有十个输出单元,则存在十个z元素)。
对于n-维度向量Z=[z1,z2,...zn],softmax函数使用指数归一化(exp)来产生具有在范围[0,1]内并且加和为一的经归一化的值的另一个n-维度向量p(Z)。
Figure BDA0004006069630000151
以及,
Figure BDA0004006069630000152
Figure BDA0004006069630000153
图2A示出了示例性softmax函数。softmax函数如下应用于三个类:
Figure BDA0004006069630000154
需注意,三个输出总是总和为1。因此,它们定义了离散的概率质量函数。
特定每簇、每循环概率四元组识别在特定测序循环处掺入特定簇中的碱基为A、C、T和G的概率。当基于神经网络的碱基判读器104的输出层使用softmax函数时,每簇、每循环概率四元组中的概率是指数归一化的分类得分,该分类得分总和为一。图2B描绘了针对簇1(202,以棕色示出)和测序循环1至S(212)由softmax函数分别产生的示例性每簇、每循环概率四元组222。换句话讲,测序循环的第一子集包括S个测序循环。
检测和过滤逻辑146基于从每簇、每循环概率四元组生成滤波值来识别不可靠的簇。在本申请中,每簇、每循环概率四元组也被称为碱基判读分类得分或归一化的碱基判读分类得分或初始碱基判读分类得分或归一化的初始碱基判读分类得分或初始碱基判读。
滤波器计算器116基于由每个每簇、每循环概率四元组识别的概率来确定其滤波值,从而生成每个簇的滤波值序列232。滤波值序列232被存储为滤波值126。
基于涉及概率中的一个或多个概率的算术运算来确定每簇每循环概率四要素的滤波器值。在一个具体实施中,滤波器计算器116使用的算术运算是减法。例如,在图2B所示的具体实施中,通过从概率中的最高概率(以品红色示出)中减去概率中的第二高概率(以蓝色示出)来确定每簇、每循环概率四元组的滤波值。
在另一具体实施中,滤波器计算器116使用的算术运算是除法。例如,每簇、每循环概率四元组的滤波值被确定为概率中的最高概率(以品红色示出)与概率中的第二高概率(以蓝色示出)的比率。在又一具体实施中,滤波器计算器116使用的算术运算是加法。在又进一步的具体实施中,滤波器计算器116使用的算术运算是乘法。
在一个具体实施中,滤波器计算器116使用滤波函数来生成滤波值126。在一个示例中,滤波函数是将纯净度(chastity)定义为最亮检出强度除以最亮检出强度和第二最亮检出强度之和的比率的纯净度滤波器。在另一示例中,滤波函数是最大对数概率函数、最小平方误差函数、平均信噪比(SNR)和最小绝对误差函数中的至少一个函数。
不可靠的簇识别器136使用滤波值126来将多个簇中的一些簇识别为不可靠的簇124。识别不可靠的簇124的数据可以是计算机可读格式或介质。不可靠的簇可以通过仪器ID、仪器上的运行编号、流通池ID、槽道编号、区块编号、簇的X坐标、簇的Y坐标和独特的分子标识符(UMI)来识别。不可靠的簇识别器136将多个簇中其滤波值的序列包含“N”个滤波值低于阈值“M”的那些簇识别为不可靠的簇124。在另一具体实施中,“M”的范围为1至5。在另一个具体实施中,“M”的范围为0.5至0.99。
图3示出了使用滤波值126识别不可靠的簇124的示例。在图3中,阈值“M”是0.5,并且滤波值的数量“N”是2。图3分别示出了簇1、2和3的滤波值302、312和322的三个序列。在簇1的第一序列302中,有两个滤波值低于M(以紫色显示),即,N=2,因此簇1被识别为不可靠的簇。在簇2的第二序列312中,有三个滤波值低于M(以粉红色显示),即,N=3,因此簇2被识别为不可靠的簇。在簇3的第三序列322中,仅有一个滤波值低于M(以绿色显示),即,N=1,因此簇3被识别为可靠的簇。
现在讨论由数据提供商102实施的旁路逻辑142。旁路逻辑142在测序运行的测序循环的剩余部分处绕过对不可靠的簇(例如,簇1和簇2)进行碱基判读,从而在测序循环的剩余部分处仅对多个簇中那些未被识别为不可靠的簇进行碱基判读。例如考虑测序运行的测序循环的第一子集包括25个测序循环,并且测序运行总共具有100个测序循环。然后,在前25个测序循环之后,基于上述滤波函数,簇1、2和3中的每个簇具有一个25个滤波值相应序列。
然后,测序循环的剩余部分包括100次循环测序运行的后75个循环。然后,在前25个测序循环之后以及第26个测序循环之前,不可靠的簇识别器136基于簇的25个滤波值相应序列确定簇1、2和3中的哪一个簇是不可靠的簇。然后,在剩余测序循环处(即,100次循环测序运行的后75个循环),旁路逻辑142绕过对被不可靠的簇识别器136识别为不可靠的簇的那些簇(例如,簇1和簇2)进行碱基判读(即,停止碱基判读),而仅对未被不可靠的簇识别器136识别为不可靠的簇的那些簇(例如,簇3)继续进行碱基判读。换句话说,仅在测序运行的循环1-25而非测序运行的循环26-100对不可靠的簇进行碱基判读,但在测序运行的所有循环1-100都可对可靠的簇进行碱基判读。
关于簇和碱基判读使用的术语过滤是指丢弃或忽略作为数据点的簇。因此,任何强度或质量较差的簇都可以被过滤,不包含在输出数据集中。在一些具体实施中,低质量簇的过滤发生在测序运行期间在一个或多个离散点处。在一些具体实施中,过滤发生在模板生成期间。另选地或除此之外,在一些具体实施中,过滤发生在预定义循环之后。在某些具体实施中,过滤发生在循环1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29之后,或在循环30或更晚之后。在一些具体实施中,过滤发生在循环25,这样基于针对前25个循环确定的滤波值的序列而不可靠的簇会被过滤掉。
图4是示出识别不可靠的簇以提高碱基判读的准确性和效率的方法的一个具体实施的流程图。可以使用计算机来执行本文所述的方法的各种过程和步骤。计算机可以包含作为检测设备的一部分的处理器,其与用于获得由计算机处理的数据的检测设备联网或与检测设备分离。在一些具体实施中,信息(例如,图像数据)可以直接或经由计算机网络在本文所公开的系统的部件之间传输。局域网(LAN)或广域网(WAN)可以是企业计算网络,包括对互联网的访问,包括系统的计算机和计算设备连接到该网络。在一个具体实施中,LAN符合传输控制协议/互联网协议(TCP/IP)行业标准。在一些情况下,信息(例如,图像数据)经由输入设备(例如,磁盘驱动器、光盘播放器、USB端口等)输入到本文所公开的系统。在一些情况下,通过例如从诸如磁盘或闪存驱动器的存储设备加载信息来接收信息。
用于运行本文所述的算法或其他过程的处理器可包括微处理器。微处理器可以是任何常规的通用单或多芯片微处理器,诸如由因特尔公司(Intel Corporation)制造的奔腾(PentiumTM)处理器。一台特别有用的计算机可以使用因特尔Ivybridge dual-12核处理器、LSI raid控制器,具有128GB的RAM和2TB固态硬盘。此外,处理器可以包括任何常规的专用处理器,诸如数字信号处理器或图形处理器。处理器通常具有常规地址线、常规数据线和一个或多个常规控制线。
本文所公开的具体实施可被实现为使用标准编程或工程技术来产生软件、固件、硬件或它们的任何组合的方法、装置、系统或制品。如本文所用,术语“制品”是指在硬件或计算机可读介质诸如光学存储设备和易失性或非易失性存储器设备中实现的代码或逻辑。此类硬件可包括但不限于现场可编程门阵列(FPGA)、专用集成电路(ASIC)、复杂可编程逻辑器件(CPLD)、可编程逻辑阵列(PLA)、微处理器或其他类似的处理设备。在特定具体实施中,本文阐述的信息或算法存在于非暂态存储介质中。
在特定具体实施中,本文阐述的计算机实现的方法可在获得对象的多个图像时实时发生。此类实时分析尤其可用于核酸测序应用,其中核酸阵列经受流体和检测步骤的重复循环。测序数据的分析通常可能是计算密集型的,使得在进行其他数据采集或分析算法时实时或在后台执行本文所述的方法可能是有益的。可与本发明方法一起使用的示例性实时分析方法是用于可从Illumina公司(San Diego,Calif.)商购获得和/或描述于美国专利申请公布2012/0020537A1中的MiSeq和HiSeq测序设备的那些方法,该专利申请公布以引用方式并入本文。
在动作402处,该方法包括访问用于多个簇和测序运行的测序循环的第一子集的每循环簇数据。
在动作412处,该方法包括在测序循环的第一子集中的每个测序循环处对多个簇中的每个簇进行碱基判读。
在动作422处,该方法包括处理每循环簇数据并生成每循环簇数据的中间表示。
在动作432处,该方法包括通过输出层处理中间表示,并针对每个簇和每个测序循环产生每簇、每循环概率四元组。特定每簇、每循环概率四元组识别在特定测序循环掺入特定簇中的碱基为A、C、T和G的概率。
在动作442处,该方法包括基于每个每簇、每循环概率四元组识别的概率来确其滤波值,从而生成每个簇的滤波值序列。
在动作452处,该方法包括将多个簇中其滤波值的序列包含至少“N”个滤波值低于阈值“M”的那些簇识别为不可靠的簇。
在动作462处,该方法包括在测序运行的测序循环的剩余部分处绕过对不可靠的簇进行碱基判读,从而在测序循环的剩余部分处仅对多个簇中那些未被识别为不可靠的簇进行碱基判读。
测序系统
图5A和图5B描绘了测序系统500A的一个具体实施。测序系统500A包括可配置处理器546。可配置处理器546实施本文所公开的碱基判读技术。测序系统也称为“测序仪”。
测序系统500A可以进行操作以获得与生物物质或化学物质中的至少一者相关的任何信息或数据。在一些具体实施中,测序系统500A是可类似于台式设备或台式计算机的工作站。例如,用于进行所需反应的大部分(或全部)系统和部件可位于共同的外壳502内。
在特定具体实施中,测序系统500A是被配置用于各种应用的核酸测序系统,各种应用包括但不限于从头测序、全基因组或靶基因组区域的重测序以及宏基因组学。测序仪也可用于DNA或RNA分析。在一些具体实施中,测序系统500A还可以被配置为在生物传感器中产生反应位点。例如,测序系统500A可以被配置为接收样品并生成来源于样品的克隆扩增核酸的表面附着簇。每个簇可构成生物传感器中的反应位点或作为其一部分。
示例性测序系统500A可以包括被配置为与生物传感器512相互作用以在生物传感器512内进行所需反应的系统插座或接口510。在以下关于图5A的描述中,将生物传感器512装载到系统插座510中。然而,应当理解,可将包括生物传感器512的卡盒插入到系统插座510中,并且在一些状态下,可暂时或永久地移除卡盒。如上所述,除了别的以外,卡盒还可包括流体控制部件和流体储存部件。
在特定具体实施中,测序系统500A被配置为在生物传感器512内进行大量平行反应。生物传感器512包括可发生所需反应的一个或多个反应位点。反应位点可例如固定至生物传感器的固体表面或固定至位于生物传感器的对应反应室内的小珠(或其他可移动基板)。反应位点可包括,例如,克隆扩增核酸的簇。生物传感器512可以包括固态成像设备(例如,CCD或CMOS成像器件)和安装到其上的流通池。流通池可以包括一个或多个流动通道,该一个或多个流动通道从测序系统500A接收溶液并将溶液引向反应位点。任选地,生物传感器512可以被配置为接合热元件,以用于将热能传递到流动通道中或从流动通道传递出去。
测序系统500A可以包括彼此相互作用以执行用于生物或化学分析的预定方法或测定协议的各种部件、组件和系统(或子系统)。例如,测序系统500A包括系统控制器506,该系统控制器可以与测序系统500A的各种部件、组件和子系统以及生物传感器512通信。例如,除了系统插座510之外,测序系统500A还可以包括流体控制系统508,以控制流体在测序系统500A的整个流体网络和生物传感器512中的流动;流体储存系统514,该流体储存系统被配置为容纳可由生物测定系统使用的所有流体(例如,气体或液体);温度控制系统504,该温度控制系统可以调节流体网络、流体储存系统514和/或生物传感器512中流体的温度;和照明系统516,该照明系统被配置为照亮生物传感器512。如上所述,如果将具有生物传感器512的卡盒装载到系统插座510中,则该卡盒还可以包括流体控制部件和流体储存部件。
还如图所示,测序系统500A可以包括与用户交互的用户界面518。例如,用户界面518可以包括用于显示或请求来自用户的信息的显示器520和用于接收用户输入的用户输入设备522。在一些具体实施中,显示器520和用户输入设备522是相同的设备。例如,用户界面518可以包括触敏显示器,该触敏显示器被配置为检测个体触摸的存在并且还识别触摸在显示器上的位置。然而,可以使用其他用户输入设备522,诸如鼠标、触摸板、键盘、小键盘、手持扫描仪、语音识别系统、运动识别系统等。如将在下文更详细地讨论,测序系统500A可以与包括生物传感器512(例如,呈卡盒的形式)的各种部件通信,以进行所需反应。测序系统500A还可以被配置为分析从生物传感器获得的数据以向用户提供所需信息。
系统控制器506可以包括任何基于处理器或基于微处理器的系统,包括使用微控制器、精简指令集计算机(RISC)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、粗粒度可重构架构(CGRA)、逻辑电路以及能够执行本文所述功能的任何其他电路或处理器的系统。上述示例仅是示例性的,因此不旨在以任何方式限制术语系统控制器的定义和/或含义。在示例性具体实施中,系统控制器506执行存储在一个或多个存储元件、存储器或模块中的指令集,以便进行获得检测数据和分析检测数据中的至少一者。检测数据可包括多个像素信号序列,使得可在许多碱基判读循环内检测来自数百万个传感器(或像素)中的每个传感器(或像素)的像素信号序列。存储元件可以为测序系统500A内的信息源或物理存储器元件的形式。
指令集可以包括指示测序系统500A或生物传感器512执行特定操作(诸如本文所述的各种具体实施的方法和过程)的各种命令。指令集可为软件程序的形式,该软件程序可形成有形的一个或多个非暂态计算机可读介质的一部分。如本文所用,术语“软件”和“固件”是可互换的,并且包括存储在存储器中以供计算机执行的任何计算机程序,包括RAM存储器、ROM存储器、EPROM存储器、EEPROM存储器和非易失性RAM(NVRAM)存储器。上述存储器类型仅是示例性的,因此不限制可用于存储计算机程序的存储器类型。
软件可为各种形式,诸如系统软件或应用软件。此外,软件可以是独立程序的集合的形式,或者是较大程序内的程序模块或程序模块的一部分的形式。软件还可包括面向对象编程形式的模块化编程。在获得检测数据之后,检测数据可由测序系统500A自动处理,响应于用户输入而处理,或者响应于另一处理机提出的请求(例如,通过通信链路的远程请求)而处理。在示出的具体实施中,系统控制器506包括分析模块544。在其他具体实施中,系统控制器506不包括分析模块544,而是可以访问分析模块544(例如,分析模块544可以单独地托管在云上)。
系统控制器506可以经由通信链路连接到生物传感器512和测序系统500A的其他部件。系统控制器506还可以通信地连接到非现场系统或服务器。通信链路可以是硬连线的、有线的或无线的。系统控制器506可以从用户界面518和用户输入设备522接收用户输入或命令。
流体控制系统508包括流体网络,并且被配置为引导和调节一种或多种流体通过流体网络的流动。流体网络可以与生物传感器512和流体储存系统514流体连通。例如,选定的流体可以从流体储存系统514抽吸并以受控方式引导至生物传感器512,或者流体可以从生物传感器512抽吸并朝向例如流体储存系统514中的废物储存器引导。虽然未示出,但流体控制系统508可以包括检测流体网络内的流体的流速或压力的流量传感器。传感器可以与系统控制器506通信。
温度控制系统504被配置为调节流体网络、流体储存系统514和/或生物传感器512的不同区域处流体的温度。例如,温度控制系统504可以包括热循环仪,该热循环仪与生物传感器512对接并且控制沿着生物传感器512中的反应位点流动的流体的温度。温度控制系统504还可以调节测序系统500A或生物传感器512的固体元件或部件的温度。尽管未示出,但温度控制系统504可以包括用于检测流体或其他部件的温度的传感器。传感器可以与系统控制器506通信。
流体储存系统514与生物传感器512流体连通,并且可以储存用于在其中进行所需反应的各种反应组分或反应物。流体储存系统514还可以储存用于洗涤或清洁流体网络和生物传感器512以及用于稀释反应物的流体。例如,流体储存系统514可以包括各种储存器,以储存样品、试剂、酶、其他生物分子、缓冲溶液、水性溶液和非极性溶液等。此外,流体储存系统514还可以包括废物储存器,用于接收来自生物传感器512的废物。在包括卡盒的具体实施中,卡盒可包括流体储存系统、流体控制系统或温度控制系统中的一者或多者。因此,本文所述的与那些系统有关的一个或多个部件可容纳在卡盒外壳内。例如,卡盒可具有各种储存器,以储存样品、试剂、酶、其他生物分子、缓冲溶液、水性溶液和非极性溶液、废物等。因此,流体储存系统、流体控制系统或温度控制系统中的一者或多者可经由卡盒或其他生物传感器与生物测定系统可移除地接合。
照明系统516可以包括光源(例如,一个或多个LED)和用于照亮生物传感器的多个光学部件。光源的示例可包括激光器、弧光灯、LED或激光二极管。光学部件可以是例如反射器、二向色镜、分束器、准直器、透镜、滤光器、楔镜、棱镜、反射镜、检测器等。在使用照明系统的具体实施中,照明系统516可以被配置为将激发光引导至反应位点。作为一个示例,荧光团可由绿色波长的光激发,因此激发光的波长可为大约532nm。在一个具体实施中,照明系统516被配置为产生平行于生物传感器512的表面的表面法线的照明。在另一具体实施中,照明系统516被配置为产生相对于生物传感器512的表面的表面法线成偏角的照明。在又一具体实施中,照明系统516被配置为产生具有多个角度的照明,包括一些平行照明和一些偏角照明。
系统插座或接口510被配置为以机械、电气和流体方式中的至少一种方式接合生物传感器512。系统插座510可将生物传感器512保持在所需取向,以有利于流体流过生物传感器512。系统插座510还可以包括电触点,该电触点被配置为接合生物传感器512,使得测序系统500A可与生物传感器512通信和/或向生物传感器512提供功率。此外,系统插座510可以包括被配置为接合生物传感器512的流体端口(例如,喷嘴)。在一些具体实施中,生物传感器512以机械方式、电方式以及流体方式可移除地耦接到系统插座510。
此外,测序系统500A可以与其他系统或网络或与其他生物测定系统500A远程通信。由生物测定系统500A获得的检测数据可以存储在远程数据库中。
图5B是可以在图5A的系统中使用的系统控制器506的框图。在一个具体实施中,系统控制器506包括可以彼此通信的一个或多个处理器或模块。处理器或模块中的每一者可包括用于执行特定过程的算法(例如,存储在有形和/或非暂态计算机可读存储介质上的指令)或子算法。系统控制器506在概念上被示出为模块的集合,但可以利用专用硬件板、DSP、处理器等的任何组合来实现。另选地,系统控制器506可以利用具有单个处理器或多个处理器的现成PC来实现,其中功能操作分布在处理器之间。作为进一步的选择,下文所述的模块可利用混合配置来实现,其中某些模块化功能利用专用硬件来执行,而其余模块化功能利用现成PC等来执行。模块还可被实现为处理单元内的软件模块。
在操作期间,通信端口550可以向生物传感器512(图5A)和/或子系统508、514、504(图5A)传输信息(例如,命令)或从其接收信息(例如,数据)。在具体实施中,通信端口550可以输出多个像素信号序列。通信链路534可以从用户界面518(图5A)接收用户输入并将数据或信息传输到用户界面518。来自生物传感器512或子系统508、514、504的数据可以在生物测定会话期间由系统控制器506实时处理。除此之外或另选地,数据可在生物测定会话期间临时存储在系统存储器中,并且以比实时或脱机操作更慢的速度进行处理。
如图5B所示,系统控制器506可以包括与主控制模块524以及中央处理单元(CPU)552通信的多个模块526-548。主控制模块524可以与用户界面518(图5A)通信。尽管模块526-548被示出为与主控制模块524直接通信,但模块526-548也可以彼此直接通信,与用户界面518和生物传感器512直接通信。另外,模块526-548可以通过其他模块与主控制模块524通信。
多个模块526-548包括分别与子系统508、514、504和516通信的系统模块528-532、526。流体控制模块528可以与流体控制系统508通信,以控制流体网络的阀和流量传感器,从而控制一种或多种流体通过流体网络的流动。流体储存模块530可以在流体量低时或在废物储存器处于或接近容量时通知用户。流体储存模块530还可以与温度控制模块532通信,使得流体可以储存在所需温度下。照明模块526可以与照明系统516通信,以在协议期间的指定时间照亮反应位点,诸如在已发生所需反应(例如,结合事件)之后。在一些具体实施中,照明模块526可以与照明系统516通信,从而以指定角度照亮反应位点。
多个模块526-548还可以包括与生物传感器512通信的设备模块536和确定与生物传感器512相关的识别信息的识别模块538。设备模块536可以例如与系统插座510通信以确认生物传感器已与测序系统500A建立电连接和流体连接。识别模块538可以接收识别生物传感器512的信号。识别模块538可以使用生物传感器512的身份来向用户提供其他信息。例如,识别模块538可以确定并随后显示批号、制造日期或建议与生物传感器512一起运行的协议。
多个模块526-548还包括接收和分析来自生物传感器512的信号数据(例如,图像数据)的分析模块544(也称为信号处理模块或信号处理器)。分析模块544包括用于存储检测/图像数据的存储器(例如,RAM或闪存)。检测数据可包括多个像素信号序列,使得可在许多碱基判读循环内检测来自数百万个传感器(或像素)中的每个传感器(或像素)的像素信号序列。信号数据可以被存储用于后续分析,或者可以被传输到用户界面518以向用户显示所需信息。在一些具体实施中,信号数据可以在分析模块544接收到信号数据之前由固态成像器件(例如,CMOS图像传感器)处理。
分析模块544被配置为在多个测序循环的每个测序循环处从光检测器获得图像数据。图像数据来源于由光检测器检测到的发射信号,并且通过基于神经网络的碱基判读器104处理该多个测序循环的每个测序循环的图像数据,并且在多个测序循环的每个测序循环处针对分析物中的至少一些分析物产生碱基判读。光检测器可以是一个或多个俯视相机的一部分(例如,Illumina的GAIIx的CCD相机从顶部拍摄生物传感器512上的簇的图像),或者可以是生物传感器512本身的一部分(例如,Illumina的iSeq的CMOS图像传感器位于生物传感器512上的簇下面并且从底部拍摄簇的图像)。
光检测器的输出是测序图像,每个测序图像描绘了簇及其周围背景的强度发射。测序图像描绘了由于在测序期间核苷酸掺入序列中而产生的强度发射。强度发射来自相关联的分析物及其周围背景。测序图像存储在存储器548中。
协议模块540和协议模块542与主控制模块524通信,以在进行预先确定的测定协议时控制子系统508、514和504的操作。协议模块540和协议模块542可以包括用于指示测序系统500A根据预先确定的协议执行特定操作的指令集。如图所示,协议模块可以是边合成边测序(SBS)模块540,该模块被配置为发出用于执行边合成边测序过程的各种命令。在SBS中,监测核酸引物沿核酸模板的延伸,以确定模板中核苷酸的序列。基础化学过程可以是聚合(例如,由聚合酶催化)或连接(例如,由连接酶催化)。在特定的基于聚合酶的SBS具体实施中,以依赖于模板的方式将荧光标记的核苷酸添加至引物(从而使引物延伸),使得对添加至引物的核苷酸的顺序和类型的检测可用于确定模板的序列。例如,为了启动第一SBS循环,可发出命令以将一个或多个标记的核苷酸、DNA聚合酶等递送至/通过容纳有核酸模板阵列的流通池。核酸模板可位于对应的反应位点。其中引物延伸导致标记的核苷酸掺入的那些反应位点可通过成像事件来检测。在成像事件期间,照明系统516可向反应位点提供激发光。任选地,核苷酸还可以包括一旦将核苷酸添加到引物就终止进一步的引物延伸的可逆终止属性。例如,可以将具有可逆终止子部分的核苷酸类似物添加到引物,使得后续的延伸直到递送解封闭剂以去除该部分才发生。因此,对于使用可逆终止的具体实施,可发出命令以将解封闭剂递送到流通池(在检测发生之前或之后)。可发出一个或多个命令以实现各个递送步骤之间的洗涤。然后可以重复该循环n次,以将引物延伸n个核苷酸,从而检测长度为n的序列。示例性测序技术描述于例如,Bentley等人,Nature 456:53-59(2005)、WO 04/015497、US 7,057,026、WO 91/06675、WO 07/123744、US 7,329,492、US 7,211,414、US 7,315,019、US 7,405,251和US 2005/014705052,其各自以引用的方式并入本文。
对于SBS循环的核苷酸递送步骤,可一次递送单一类型的核苷酸,或者可递送多种不同的核苷酸类型(例如,A、C、T和G一起)。对于一次仅存在单一类型的核苷酸的核苷酸递送构型,不同的核苷酸不需要具有不同的标记,因为它们可基于个体化递送中固有的时间间隔来区分。因此,测序方法或装置可使用单色检测。例如,激发源仅需要提供单个波长或单个波长范围内的激发。对于其中递送导致多种不同核苷酸同时存在于流通池中的核苷酸递送构型,可基于附着到混合物中相应核苷酸类型的不同荧光标记来区分掺入不同核苷酸类型的位点。例如,可使用四种不同的核苷酸,每种核苷酸具有四种不同荧光团中的一种。在一个具体实施中,可使用在光谱的四个不同区域中的激发来区分四种不同的荧光团。例如,可使用四种不同的激发辐射源。另选地,可使用少于四种不同的激发源,但来自单个源的激发辐射的光学过滤可用于在流通池处产生不同范围的激发辐射。
在一些具体实施中,可在具有四种不同核苷酸的混合物中检测到少于四种不同颜色。例如,核苷酸对可在相同波长下检测,但基于对中的一个成员相对于另一个成员的强度差异,或基于对中的一个成员的导致与检测到的该对的另一个成员的信号相比明显的信号出现或消失的变化(例如,通过化学改性、光化学改性或物理改性)来区分。用于使用少于四种颜色的检测来区分四个不同核苷酸的示例性装置和方法描述于例如美国专利申请序列号61/535,294和61/619,575,其全文以引用方式并入本文。2012年9月21日提交的美国申请号13/624,200也全文以引用方式并入。
多个协议模块还可以包括样品制备(或生成)模块542,该模块被配置为向流体控制系统508和温度控制系统504发出命令,以扩增生物传感器512内的产物。例如,生物传感器512可以接合至测序系统500A。扩增模块542可以向流体控制系统508发出指令,以将必要的扩增组分递送到生物传感器512内的反应室。在其他具体实施中,反应位点可能已包含一些用于扩增的组分,诸如模板DNA和/或引物。在将扩增组分递送至反应室之后,扩增模块542可以指示温度控制系统504根据已知的扩增协议循环通过不同的温度阶段。在一些具体实施中,扩增和/或核苷酸掺入等温进行。
SBS模块540可以发出命令以执行桥式PCR,其中克隆扩增子的簇形成于流通池的通道内的局部区域上。通过桥式PCR产生扩增子后,可将扩增子“线性化”以制备单链模板DNA或sstDNA,并且可将测序引物杂交至侧接感兴趣的区域的通用序列。例如,可如上所述或如下使用基于可逆终止子的边合成边测序方法。
每个碱基判读或测序循环可通过单个碱基延伸sstDNA,这可例如通过使用经修饰的DNA聚合酶和四种类型的核苷酸的混合物来完成。不同类型的核苷酸可具有独特的荧光标记,并且每个核苷酸还可具有可逆终止子,该可逆终止子仅允许在每个循环中发生单碱基掺入。在将单个碱基添加到sstDNA之后,激发光可入射到反应位点上并且可检测荧光发射。在检测后,可从sstDNA化学切割荧光标记和终止子。接下来可为另一个类似的碱基判读或测序循环。在此类测序协议中,SBS模块540可以指示流体控制系统508引导试剂和酶溶液流过生物传感器512。可与本文所述的设备和方法一起使用的基于可逆终止子的示例性SBS方法描述于美国专利申请公布号2007/0166705A1、美国专利申请公布号2006/0156*3901A1、美国专利号7,057,026、美国专利申请公布号2006/0240439A1、美国专利申请公布号2006/02514714709A1、PCT公布号WO 05/065514、美国专利申请公布号2005/014700900A1、PCT公布号WO 06/05B199和PCT公布号WO 07/01470251,其各自全文以引用方式并入本文。用于基于可逆终止子的SBS的示例性试剂描述于US 7,541,444、US 7,057,026、US 7,414,14716、US 7,427,673、US 7,566,537、US 7,592,435和WO 07/14535365,其各自全文以引用方式并入本文。
在一些具体实施中,扩增模块和SBS模块可在单个测定协议中操作,其中例如扩增模板核酸并随后将其在同一盒内测序。
测序系统500A还可以允许用户重新配置测定协议。例如,测序系统500A可以通过用户界面518向用户提供用于修改所确定的协议的选项。例如,如果确定生物传感器512将用于扩增,则测序系统500A可以请求退火循环的温度。此外,如果用户已提供对于所选测定协议通常不可接受的用户输入,则测序系统500A可以向用户发出警告。
在具体实施中,生物传感器512包括数百万个传感器(或像素),每个传感器(或像素)在后续的碱基判读循环内生成多个像素信号序列。分析模块544根据传感器阵列上传感器的逐行和/或逐列位置来检测多个像素信号序列并将它们归属于对应的传感器(或像素)。
可配置处理器
图5C是用于分析来自测序系统500A的传感器数据(诸如,碱基判读传感器输出)的系统的简化框图。在图5C的示例中,系统包括可配置处理器546。可配置处理器546可以与由中央处理单元(CPU)552(即,主机处理器)执行的运行时程序协调地执行碱基判读器(例如,基于神经网络的碱基判读器104)。测序系统500A包括生物传感器512和流通池。流通池可包括一个或多个区块,其中遗传物质的簇暴露于分析物流的序列,该分析物流的序列用于引起簇中的反应以识别遗传物质中的碱基。传感器感测流通池的每个区块中该序列的每个循环的反应以提供区块数据。遗传测序是数据密集型操作,其将碱基判读传感器数据转换为在碱基判读操作期间感测到的遗传物质的每个簇的碱基判读序列。
该示例中的系统包括执行运行时程序以协调碱基判读操作的CPU 552、用于存储区块数据阵列的序列的存储器548B、由碱基判读操作产生的碱基判读读段,以及碱基判读操作中使用的其他信息。另外,在该图示中,系统包括存储器548A,以存储配置文件(或多个文件)诸如FPGA位文件和用于配置和重新配置可配置处理器546的神经网络的模型参数,并且执行神经网络。测序系统500A可包括用于配置可配置处理器以及在一些具体实施中的可重构处理器的程序,以执行神经网络。
测序系统500A通过总线589耦接到可配置处理器546。总线589可以使用高通量技术来实现,诸如在一个示例中,总线技术与当前由PCI-SIG(PCI特别兴趣小组)维护和开发的PCIe标准(快速外围组件互连)兼容。同样在该示例中,存储器548A通过总线593耦接到可配置处理器546。存储器548A可以是设置在具有可配置处理器546的电路板上的板上存储器。存储器548A用于由可配置处理器546高速访问在碱基判读操作中使用的工作数据。总线593还可以使用高通量技术诸如与PCIe标准兼容的总线技术来实现。
可配置处理器,包括现场可编程门阵列FPGA、粗粒度可重构阵列CGRA以及其他可配置和可重构的设备,可被配置为比使用执行计算机程序的通用处理器可能实现的更有效或更快地实现各种功能。可配置处理器的配置涉及编译功能描述以产生有时称为位流或位文件的配置文件,以及将配置文件分发到处理器上的可配置元件。该配置文件通过将电路配置为设置数据流模式、分布式存储器和其他片上存储器资源的使用、查找表内容、可配置逻辑块和可配置执行单元(如乘法累加单元、可配置互连和可配置阵列的其他元件)的操作,来定义要由可配置处理器执行的逻辑功能。如果配置文件可在现场通过改变加载的配置文件而改变,则可配置处理器是可重构的。例如,配置文件可存储在易失性SRAM元件中、非易失性读写存储器元件中以及它们的组合中,分布在可配置或可重构处理器上的可配置元件阵列中。多种可商购获得的可配置处理器适用于如本文所述的碱基判读操作。示例包括Google的Tensor Processing Unit(TPU)TM、机架解决方案(如GX4 Rackmount SeriesTM、GX9 Rackmount SeriesTM)、NVIDIA DGX-1TM、Microsoft的Stratix V FPGATM、Graphcore的Intelligent Processor Unit(IPU)TM、Qualcomm的具有Snapdragon processorsTM的Zeroth PlatformTM、NVIDIA的VoltaTM、NVIDIA的DRIVE PXTM、NVIDIA的JETSON TX1/TX2MODULETM、Intel的NirvanaTM、Movidius VPUTM、Fujitsu DPITM、ARM的DynamicIQTM、IBMTrueNorthTM、具有Testa V100sTM的Lambda GPU服务器、Xilinx AlveoTMU200、XilinxAlveoTMU250、Xilinx AlveoTMU280、Intel/Altera StratixTMGX2800、Intel/AlteraStratixTMGX2800和Intel StratixTMGX10M。在一些示例中,主机CPU可在与可配置处理器相同的集成电路上实现。
本文所述的具体实施使用可配置处理器546来实施基于神经网络的碱基判读器104。可配置处理器546的配置文件可以通过使用高级描述语言HDL或寄存器传输级RTL语言规范指定要执行的逻辑功能来实现。可使用被设计用于所选择的可配置处理器的资源来编译规范以生成配置文件。为了生成可能不是可配置处理器的专用集成电路的设计,可编译相同或相似的规范。
因此,在本文所述的所有具体实施中,可配置处理器546的另选方案包括配置的处理器,该配置的处理器包括专用ASIC或专用集成电路或集成电路组,或片上系统SOC器件,或图形处理单元(GPU)处理器或粗粒度可重构架构(CGRA)处理器,该配置的处理器被配置为执行如本文所述的基于神经网络的碱基判读操作。
一般来讲,如被配置为执行神经网络的运行的本文所述的可配置处理器和配置的处理器在本文中称为神经网络处理器。
在该示例中,可配置处理器546由使用CPU 552执行的程序所加载的配置文件配置,或由在可配置处理器上配置可配置元件591(例如,配置逻辑块(CLB),诸如查找表(LUT)、触发器、计算处理单元(PMU)和计算存储器单元(CMU)、可配置I/O块、可编程互连)的阵列的其他源配置,以执行碱基判读功能。在该示例中,该配置包括数据流逻辑597,该数据流逻辑耦接到总线589和总线593,并且执行用于在碱基判读操作中使用的元件之间分发数据和控制参数的功能。
此外,可配置处理器546配置有数据流逻辑597以执行基于神经网络的碱基判读器104。逻辑597包括多循环执行簇(例如,579),在该示例中,该多循环执行簇包括执行簇1至执行簇X。可根据涉及操作的所需通量和可配置处理器546上的可用资源的权衡来选择多循环执行簇的数量。
多循环执行簇通过使用可配置处理器546上的可配置互连和存储器资源实现的数据流路径599耦接到数据流逻辑597。另外,多循环执行簇通过使用例如可配置处理器546上的可配置互连和存储器资源实现的控制路径595耦接到数据流逻辑597,该控制路径提供指示可用执行簇、准备好向可用执行簇提供用于执行基于神经网络的碱基判读器104的运行的输入单元、准备好向基于神经网络的碱基判读器104提供经训练的参数、准备好提供碱基判读分类数据的输出补片以及用于执行基于神经网络的碱基判读器104的其他控制数据。
可配置处理器546被配置为使用经训练的参数来执行基于神经网络的碱基判读器104的运行,以产生用于碱基判读操作的感测循环的分类数据。执行基于神经网络的碱基判读器104的运行,以产生用于碱基判读操作的受试者感测循环的分类数据。基于神经网络的碱基判读器104的运行对序列(包括来自N个感测循环的相应感测循环的区块数据的数字N个阵列)进行操作,其中N个感测循环在本文所述示例中针对时间序列中每个操作的一个碱基位置提供用于不同碱基判读操作的传感器数据。任选地,如果需要,根据正在执行的特定神经网络模型,N个感测循环中的一些可能会失序。数字N可以是大于1的任何数字。在本文所述的一些示例中,N个感测循环中的感测循环表示时间序列中受试者感测循环之前的至少一个感测循环和受试者循环(subject cycle)之后的至少一个感测循环的一组感测循环。本文描述了其中数字N为等于或大于五的整数的示例。
数据流逻辑597被配置为使用用于给定运行的输入单元将区块数据和模型参数的至少一些经训练的参数从存储器548A移动到用于基于神经网络的碱基判读器104的运行的可配置处理器546,该输入单元包括用于N个阵列的空间对准的补片的区块数据。输入单元可通过一个DMA操作中的直接存储器存取操作来移动,或者在可用时隙期间与所部署的神经网络的执行相协调地移动的较小单元中移动。
如本文所述的用于感测循环的区块数据可包括具有一个或多个特征的传感器数据阵列。例如,传感器数据可包括两个图像,对这两个图像进行分析以识别在DNA、RNA或其他遗传物质的遗传序列中的碱基位置处的四种碱基中的一种。区块数据还可包括关于图像和传感器的元数据。例如,在碱基判读操作的具体实施中,区块数据可包括关于图像与簇的对准的信息,诸如距中心距离的信息,该距离指示传感器数据阵列中的每个像素距区块上遗传物质的簇的中心的距离。
在如下所述的基于神经网络的碱基判读器104的执行期间,区块数据还可以包括在执行基于神经网络的碱基判读器104期间产生的数据,该数据被称为中间数据,可以被重复使用而不是在基于神经网络的碱基判读器104的运行期间重新计算。例如,在基于神经网络的碱基判读器104的执行期间,数据流逻辑597可以将中间数据代替用于区块数据阵列的给定补片的传感器数据写入到存储器548A。下文更详细地描述了类似于此的具体实施。
如图所示,描述了用于分析碱基判读传感器输出的系统,该系统包括可由运行时程序访问的存储器(例如,548A),该存储器储存区块数据,这些区块数据包括来自碱基判读操作的感测循环的区块的传感器数据。另外,该系统包括神经网络处理器,诸如可访问存储器的可配置处理器546。神经网络处理器被配置为使用经训练参数来执行神经网络的运行,以产生用于感测循环的分类数据。如本文所述,神经网络的运行对来自N个感测循环的相应感测循环(包括受试者循环)的区块数据的N个阵列的序列进行操作,以产生受试者循环的分类数据。提供数据流逻辑908以使用输入单元(包括来自N个感测循环的相应感测循环的N个阵列的空间对准补片的数据)将区块数据和经训练参数从存储器移动到神经网络处理器以用于神经网络的运行。
另外,描述了一种系统,其中神经网络处理器可访问存储器,并且包括多个执行簇,该多个执行簇中的执行簇被配置为执行神经网络。数据流逻辑597可以访问存储器和多个执行簇中的执行簇,以将区块数据的输入单元提供至该多个执行簇中的可用执行簇,该输入单元包括来自相应感测循环(包括受试者感测循环)的区块数据阵列的数字N个空间对准补片,并且使执行簇将N个空间对准补片应用于神经网络以产生用于受试者感测循环的空间对准补片的分类数据的输出补片,其中N大于1。
数据流逻辑
图6示出了所公开的数据流逻辑的一个具体实施,其使主机处理器能够基于由在可配置处理器上运行的神经网络预测的碱基判读来过滤不可靠的簇,并且进一步使可配置处理器使用识别不可靠的簇的数据来生成可靠的剩余中间表示。
在动作1处,数据流逻辑597从存储器548B请求初始簇数据。初始簇数据包括测序图像,该测序图像描绘测序运行的初始测序循环处的簇的强度发射,即测序运行的测序循环的第一子集,如上文所论述的。例如,初始簇数据可以包括测序运行的前25个测序循环(初始测序循环)的测序图像。
注意,因为簇以高空间密度(例如,在低微米或亚微米分辨率下)布置在流通池上,所以初始簇数据中的测序图像描绘了来自多个簇的强度发射,这些簇可以包括可靠的和不可靠的簇。也就是说,当某些不可靠的簇与某些可靠的簇相邻时,则初始簇数据中的对应测序图像描绘来自不可靠的簇和可靠的簇的强度发射,因为初始簇数据的测序图像是以捕获从多个簇发射的光或信号的光学分辨率捕获的。
在动作2处,存储器548B将初始簇数据发送到数据流逻辑597。
在动作3处,数据流逻辑597向可配置处理器546提供初始簇数据。
在动作4处,在可配置处理器546上运行的基于神经网络的碱基判读器104(例如,通过经由其空间和时间卷积层处理初始簇数据)从初始簇数据生成初始中间表示(例如,特征映射图),并且基于初始中间表示为多个簇和初始测序循环产生初始碱基判读分类得分。在一个具体实施中,初始碱基判读分类得分是未归一化的,例如,它们未被softmax函数指数归一化。
在动作5处,可配置处理器546将未归一化的初始碱基判读分类得分发送到数据流逻辑597。
在动作6处,数据流逻辑597向主机处理器552提供未归一化的初始碱基判读分类得分。
在动作7处,主机处理器552(例如,通过应用softmax函数)将未归一化的初始碱基判读分类得分归一化,并且生成归一化的初始碱基判读分类得分,即初始碱基判读。
在动作8处,在主机处理器552上运行的检测和过滤逻辑146使用归一化的初始碱基判读分类得分/初始碱基判读基于生成滤波值来识别多个簇中的不可靠的簇,如上文名称为“检测和过滤不可靠的簇”的章节中所讨论的。
在动作9处,主机处理器552将识别不可靠的簇的数据发送到数据流逻辑597。不可靠的簇可以通过仪器ID、仪器上的运行编号、流通池ID、槽道编号、区块编号、簇的X坐标、簇的Y坐标和独特的分子标识符(UMI)来识别。
在动作10处,数据流逻辑597从存储器548B请求剩余簇数据。剩余簇数据包括测序图像,该测序图像描绘测序运行的剩余测序循环处的簇的强度发射,即,不包括测序运行的测序循环的第一子集的测序运行的那些测序循环,如上文所论述的。例如,剩余簇数据可以包括100次循环测序运行的26个至100个测序循环(后75个测序循环)的测序图像。
注意,因为簇以高空间密度(例如,在低微米或亚微米分辨率下)布置在流通池上,所以剩余簇数据中的测序图像描绘来自多个簇的强度发射,这些簇可以包括可靠的和不可靠的簇。也就是说,当某些不可靠的簇与某些可靠的簇相邻时,则剩余簇数据中的对应测序图像描绘来自不可靠的簇和可靠的簇两者的强度发射,因为剩余簇数据中的测序图像是以捕获从多个簇发射的光或信号的光学分辨率捕获的。
在动作11处,存储器548B将剩余簇数据发送到数据流逻辑597。
在动作12处,数据流逻辑597将识别不可靠的簇的数据发送到可配置处理器546。不可靠的簇可以通过仪器ID、仪器上的运行编号、流通池ID、槽道编号、区块编号、簇的X坐标、簇的Y坐标和独特的分子标识符(UMI)来识别。
在动作13处,数据流逻辑597将剩余簇数据发送到可配置处理器546。
在动作14处,在可配置处理器546上运行的基于神经网络的碱基判读器104(例如,通过经由其空间卷积层处理剩余簇数据)从剩余簇数据生成剩余中间表示(例如,特征映射图)。可配置处理器546使用识别不可靠的簇的数据通过从剩余中间表示移除由表示不可靠的簇的剩余簇数据的部分产生的那些部分来生成可靠的剩余中间表示。在一个具体实施中,识别不可靠的簇的数据识别描绘初始簇数据和剩余簇数据中不可靠的簇的强度发射的像素。在一些具体实施中,可配置处理器546被进一步配置为通过基于神经网络的碱基判读器104从由剩余簇数据生成的像素化特征映射图丢弃由剩余簇数据的像素产生的那些特征映射图像素来生成可靠的剩余中间表示,这些剩余簇数据的像素描绘针对剩余测序循环捕获的不可靠的簇的强度发射。
在动作15处,可配置处理器546被进一步配置为向基于神经网络的碱基判读器104提供可靠的剩余中间表示,并使得基于神经网络的碱基判读器104仅为多个簇中那些非不可靠的簇和剩余测序循环产生剩余碱基判读分类得分,从而不为不可靠的簇产生剩余碱基判读分类得分。在一个具体实施中,剩余碱基判读分类得分是未归一化的,例如,它们未被softmax函数指数归一化。
在动作16处,可配置处理器546将未归一化的剩余碱基判读分类得分发送到数据流逻辑597。
在动作17处,数据流程逻辑597向主机处理器552提供未归一化的剩余碱基判读得分。
在动作18处,主机处理器552(例如,通过应用softmax函数)将未归一化的剩余碱基判读分类得分归一化,并且生成归一化的剩余碱基判读分类得分,即剩余碱基判读。
图7示出了所公开的数据流逻辑的另一具体实施,其使主机处理器能够基于由在可配置处理器上运行的神经网络预测的碱基判读来过滤不可靠的簇,并且进一步使主机处理器使用识别不可靠的簇的数据来仅对可靠的簇进行碱基判读。
在动作1处,数据流逻辑597从存储器548B请求初始簇数据。初始簇数据包括测序图像,该测序图像描绘测序运行的初始测序循环处的簇的强度发射,即测序运行的测序循环的第一子集,如上文所论述的。例如,初始簇数据可以包括测序运行的前25个测序循环(初始测序循环)的测序图像。
注意,因为簇以高空间密度(例如,在低微米或亚微米分辨率下)布置在流通池上,所以初始簇数据中的测序图像描绘了来自多个簇的强度发射,这些簇可以包括可靠的和不可靠的簇。也就是说,当某些不可靠的簇与某些可靠的簇相邻时,则初始簇数据中的对应测序图像描绘来自不可靠的簇和可靠的簇的强度发射,因为初始簇数据的测序图像是以捕获从多个簇发射的光或信号的光学分辨率捕获的。
在动作2处,存储器548B将初始簇数据发送到数据流逻辑597。
在动作3处,数据流逻辑597向可配置处理器546提供初始簇数据。
在动作4处,在可配置处理器546上运行的基于神经网络的碱基判读器104(例如,通过经由其空间和时间卷积层处理初始簇数据)从初始簇数据生成初始中间表示(例如,特征映射图),并且基于初始中间表示为多个簇和初始测序循环产生初始碱基判读分类得分。在一个具体实施中,初始碱基判读分类得分是未归一化的,例如,它们未被softmax函数指数归一化。
在动作5处,可配置处理器546将未归一化的初始碱基判读分类得分发送到数据流逻辑597。
在动作6处,数据流逻辑597向主机处理器552提供未归一化的初始碱基判读分类得分。
在动作7处,主机处理器552(例如,通过应用softmax函数)将未归一化的初始碱基判读分类得分归一化,并且生成归一化的初始碱基判读分类得分,即初始碱基判读。
在动作8处,在主机处理器552上运行的检测和过滤逻辑146使用归一化的初始碱基判读分类得分/初始碱基判读基于生成滤波值来识别多个簇中的不可靠的簇,如上文名称为“检测和过滤不可靠的簇”的章节中所讨论的。
在动作9处,主机处理器552将识别不可靠的簇的数据发送到数据流逻辑597。
在动作10处,数据流逻辑597从存储器548B请求剩余簇数据。剩余簇数据包括测序图像,该测序图像描绘测序运行的剩余测序循环处的簇的强度发射,即,不包括测序运行的测序循环的第一子集的测序运行的那些测序循环,如上文所论述的。例如,剩余簇数据可以包括100次循环测序运行的26个至100个测序循环(后75个测序循环)的测序图像。
注意,因为簇以高空间密度(例如,在低微米或亚微米分辨率下)布置在流通池上,所以剩余簇数据中的测序图像描绘来自多个簇的强度发射,这些簇可以包括可靠的和不可靠的簇。也就是说,当某些不可靠的簇与某些可靠的簇相邻时,则剩余簇数据中的对应测序图像描绘来自不可靠的簇和可靠的簇两者的强度发射,因为剩余簇数据中的测序图像是以捕获从多个簇发射的光或信号的光学分辨率捕获的。
在动作11处,存储器548B将剩余簇数据发送到数据流逻辑597。
在动作12处,数据流逻辑597将剩余簇数据发送到可配置处理器546。
在动作13处,在可配置处理器546上运行的基于神经网络的碱基判读器104(例如,通过经由其空间和时间卷积层处理剩余簇数据)从剩余簇数据生成剩余中间表示(例如,特征映射图)。基于神经网络的碱基判读器104进一步基于剩余中间表示为多个簇和剩余测序循环产生剩余碱基判读分类得分。在一个具体实施中,剩余碱基判读分类得分是未归一化的,例如,它们未被softmax函数指数归一化。
在动作14处,可配置处理器546将未归一化的剩余碱基判读分类得分发送到数据流逻辑597。
在动作15处,数据流逻辑597将识别不可靠的簇的数据发送到主机处理器552。
在动作16处,数据流程逻辑597向主机处理器552提供未归一化的剩余碱基判读分类得分。
在动作17处,主机处理器552(例如,通过应用softmax函数)将未归一化的剩余碱基判读分类得分归一化,并且通过使用识别不可靠的簇的数据来生成归一化的剩余碱基判读分类得分,即,剩余碱基判读,以仅对多个簇中那些非不可靠的簇进行碱基判读,从而在剩余测序循环处绕过对不可靠的簇进行碱基判读。在一个具体实施中,识别不可靠地簇的数据识别不可靠的簇的位置坐标。
图8示出了所公开的数据流逻辑的又一具体实施,其使主机处理器能够基于由在可配置处理器上运行的神经网络预测的碱基判读来过滤不可靠的簇,并且进一步使用识别不可靠的簇的数据来生成可靠的剩余每簇数据。
在动作1处,数据流逻辑597从存储器548B请求初始每簇数据。每簇数据是指从测序图像中提取并且以待碱基判读的目标簇为中心的图像补片。图像补片的中心像素包括目标簇的中心。除了目标簇之外,图像补片还描绘来自与目标簇相邻的附加簇的信号。初始每簇数据包括以目标簇为中心的图像补片,并且描绘测序运行的初始测序循环处的目标簇的强度发射,即测序运行的测序循环的第一子集,如上文所论述的。例如,初始每簇数据可以包括测序运行的前25个测序循环(初始测序循环)的图像补片。
在动作2处,存储器548B将初始每簇数据发送到数据流逻辑597。
在动作3处,数据流逻辑597向可配置处理器546提供初始每簇数据。
在动作4处,在可配置处理器546上运行的基于神经网络的碱基判读器104(例如,通过经由其空间和时间卷积层处理初始每簇数据)从初始每簇数据生成初始中间表示(例如,特征映射图),并且基于初始中间表示为多个簇和初始测序循环产生初始碱基判读分类得分。在一个具体实施中,初始碱基判读分类得分是未归一化的,例如,它们未被softmax函数指数归一化。
在动作5处,可配置处理器546将未归一化的初始碱基判读分类得分发送到数据流逻辑597。
在动作6处,数据流逻辑597向主机处理器552提供未归一化的初始碱基判读分类得分。
在动作7处,主机处理器552(例如,通过应用softmax函数)将未归一化的初始碱基判读分类得分归一化,并且生成归一化的初始碱基判读分类得分,即初始碱基判读。
在动作8处,在主机处理器552上运行的检测和过滤逻辑146使用归一化的初始碱基判读分类得分/初始碱基判读基于生成滤波值来识别多个簇中的不可靠的簇,如上文名称为“检测和过滤不可靠的簇”的章节中所讨论的。
在动作9处,主机处理器552将识别不可靠的簇的数据发送到数据流逻辑597。不可靠的簇可以通过仪器ID、仪器上的运行编号、流通池ID、槽道编号、区块编号、簇的X坐标、簇的Y坐标和独特的分子标识符(UMI)来识别。
在动作10处,数据流逻辑597从存储器548B请求剩余每簇数据。剩余每簇数据包括图像补片,该图像补片以目标簇为中心,并且描绘测序运行的剩余测序循环处的目标簇的强度发射,即,不包括测序运行的测序循环的第一子集的测序运行的那些测序循环,如上文所论述的。例如,剩余每簇数据可以包括100次循环测序运行的26个至100个测序循环(后75个测序循环)的图像补片。
在动作11处,存储器548B将剩余每簇数据发送到数据流逻辑597。
在动作12处,数据流程逻辑597使用识别不可靠的簇的数据通过从剩余每簇数据移除表示不可靠的簇的每簇数据来生成可靠的剩余每簇数据。
在动作13处,数据流逻辑597向可配置处理器546提供可靠的剩余每簇数据。
在动作14处,在可配置处理器546上运行的基于神经网络的碱基判读器104仅为多个簇中那些非不可靠的簇和剩余测序循环产生剩余碱基判读分类得分,从而不为不可靠的簇产生剩余碱基判读分类得分。在一个具体实施中,剩余碱基判读分类得分是未归一化的,例如,它们未被softmax函数指数归一化。
在动作15处,可配置处理器546将未归一化的剩余碱基判读分类得分发送到数据流逻辑597。
在动作16处,数据流程逻辑597向主机处理器552提供未归一化的剩余碱基判读分类得分。
在动作17处,主机处理器552(例如,通过应用softmax函数)将未归一化的剩余碱基判读分类得分归一化,并且生成归一化的剩余碱基判读分类得分,即剩余碱基。
技术改进
图9、图10、图11、图12和图13示出了使用本文所公开的称为“DeepRTA”的数据流逻辑与称为实时分析(RTA)软件的Illumina的传统碱基判读器来检测空孔和非空孔的对比分析结果。
在图9中,在所有三个图表中,x轴是前25个循环的得分差的最小值,其中得分差是用最高可能性减去第二高可能性的结果。y轴是一个区块的簇的数量。第一个图表是通过RTA纯净度滤波器的簇的结果。中间的图表是空孔的(根据RTA,这些纳米孔中无簇)。第三个图表是没有通过RTA纯净度滤波器的簇的结果。大多数使用RTA纯净度滤波器检测到的不可靠的簇在前25个循环中至少具有一个低score_diff实例。
在图10中,描绘了一个区块的对准度量。最后一列显示了使用基于RTA纯净度滤波器的可靠的簇和RTA碱基判读的对准度量。倒数第二列显示了使用基于RTA纯净度滤波器的可靠的簇和DeepRTA碱基判读的对准度量。前两列是使用DeepRTA碱基判读和基于所公开的数据流逻辑的可靠的簇的对准度量,其中阈值为0.8(第一列)或0.9(第二列),并且前25个循环中的2个循环应当未满足阈值而被认为是不可靠的。
在图11中,类似于图10,添加了阈值0.97。使用所公开的数据流逻辑和阈值0.97,与使用RTA纯净度滤波器相比,更多簇被检测为可靠的,同时保持了类似(或更好)的对准度量。
图12示出了基于来自测序运行的18个区块的数据的对准度量。第一列是DeepRTA碱基判读和使用了阈值0.97(用最高可能性减去第二高可能性)的可靠的簇,并且前25个循环中的2个循环应当低于阈值而被认为是不可靠的。最后一列是DeepRTA碱基判读和使用了RTA纯净度滤波器的可靠的簇。使用所公开的数据流逻辑,与使用RTA纯净度滤波器相比,更多簇被检测为可靠的,同时保持了类似的对准度量。
图13示出了RTA纯净度滤波器和使用不同阈值的所公开的数据流逻辑的比较。很大比例的通过所公开的数据流逻辑检测到的不可靠的簇也被RTA纯净度滤波器检测为不可靠的。
计算机系统
图14是可以由测序系统500A使用以实现本文所公开的碱基判读技术的计算机系统1400。计算机系统1400包括经由总线子系统1455与多个外围设备通信的至少一个中央处理单元(CPU)1472。这些外围设备可以包括存储子系统858,该存储子系统包括例如存储器设备和文件存储子系统1436、用户界面输入设备1438、用户界面输出设备1476和网络接口子系统1474。输入设备和输出设备允许用户与计算机系统1400进行交互。网络接口子系统1474提供通向外部网络的接口,该接口包括通向其他计算机系统中的对应接口设备的接口。
在一个具体实施中,系统控制器506可以通信地链接到存储子系统1410和用户界面输入设备1438。
用户界面输入设备1438可以包括:键盘;指向设备,诸如鼠标、轨迹球、触摸板或图形输入板;扫描仪;结合到显示器中的触摸屏;音频输入设备,诸如语音识别系统和麦克风;以及其他类型的输入设备。一般来讲,使用术语“输入设备”旨在包括将信息输入到计算机系统1400中的所有可能类型的设备和方式。
用户界面输出设备1476可以包括显示子系统、打印机、传真机或非视觉显示器(诸如音频输出设备)。显示子系统可包括LED显示器、阴极射线管(CRT)、平板设备诸如液晶显示器(LCD)、投影设备或用于产生可见图像的一些其他机构。显示子系统还可提供非视觉显示器,诸如音频输出设备。一般来讲,使用术语“输出设备”旨在包括将信息从计算机系统1400输出到用户或者输出到另一机器或计算机系统的所有可能类型的设备和方式。
存储子系统858存储提供本文描述的一些或全部模块和方法的功能的编程结构和数据结构。这些软件模块通常由深度学习处理器1478执行。
深度学习处理器1478可以是图形处理单元(GPU)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)和/或粗粒度可重构架构(CGRA)。深度学习处理器1478可以由深度学习云平台诸如Google Cloud PlatformTM、XilinxTM和CirrascaleTM托管。深度学习处理器1478的示例包括Google的Tensor Processing Unit(TPU)TM、机架解决方案(如GX4 RackmountSeriesTM、GX14 Rackmount SeriesTM)、NVIDIA DGX-1TM、Microsoft的Stratix V FPGATM、Graphcore的Intelligent Processor Unit(IPU)TM、Qualcomm的具有SnapdragonprocessorsTM的Zeroth PlatformTM、NVIDIA的VoltaTM、NVIDIA的DRIVE PXTM、NVIDIA的JETSON TX1/TX2 MODULETM、Intel的NirvanaTM、Movidius VPUTM、Fujitsu DPITM、ARM的DynamicIQTM、IBM TrueNorthTM、具有Testa V100sTM的Lambda GPU服务器等。
在存储子系统858中使用的存储器子系统1422可以包括多个存储器,包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)1432和其中存储固定指令的只读存储器(ROM)1434。文件存储子系统1436可以为程序文件和数据文件提供持久性存储,并且可以包括硬盘驱动器、软盘驱动器以及相关联的可移动介质、CD-ROM驱动器、光盘驱动器或可移动介质磁盘盒。实现某些实施方式的功能的模块可以由文件存储子系统1436存储在存储子系统858中,或者存储在处理器可访问的其他机器中。
总线子系统1455提供用于使计算机系统1400的各种部件和子系统按照预期彼此通信的机构。尽管总线子系统1455被示意性地示出为单条总线,但是总线子系统的替代性实施方式可以使用多条总线。
计算机系统1400本身可以具有不同类型,包括个人计算机、便携式计算机、工作站、计算机终端、网络计算机、电视机、主机、服务器群、一组广泛分布的松散联网的计算机,或者任何其他数据处理系统或用户设备。由于计算机和网络的不断变化的性质,对图14中描绘的计算机系统1400的描述仅旨在作为用于示出本发明的优选具体实施的具体示例。计算机系统1400的许多其他配置也是可能的,其具有比图14中描绘的计算机系统更多或更少的部件。
特定具体实施
我们描述了基于人工智能预测碱基判读的过滤簇的各种具体实施。具体实施的一个或多个特征可以与基础具体实施组合,并且可以作为系统、方法或制品实践。不互相排斥的具体实施被教导为可组合的。具体实施的一个或多个特征可与其他具体实施组合。本公开周期性地提醒用户这些选项。从一些具体实施中省略重复这些选项的表述不应被视为限制前述部分中教导的组合,这些表述将据此以引用方式并入以下具体实施中的每个具体实施中。
在一个具体实施中,所公开的技术提出了一种识别不可靠的簇以提高基于神经网络的碱基判读的准确性和效率的计算机实现的方法。所公开的技术访问用于多个簇和测序运行的测序循环的第一子集的每循环簇数据。
所公开的技术使用基于神经网络的碱基判读器在测序循环的第一子集中的每个测序循环处对多个簇中的每个簇进行碱基判读。这包括通过基于神经网络的碱基判读器处理每循环簇数据并生成每循环簇数据的中间表示。这还包括通过输出层处理中间表示,并针对每个簇和每个测序循环产生每簇、每循环概率四元组。特定每簇、每循环概率四元组识别在特定测序循环掺入特定簇中的碱基为A、C、T和G的概率。
所公开的技术基于由每个每簇、每循环概率四元组识别的概率来确定其滤波值,从而生成每个簇的滤波值序列。
所公开的技术将多个簇中其滤波值的序列包含“N”个滤波值低于阈值“M”的那些簇识别为不可靠的簇。
所公开的技术在测序运行的测序循环的剩余部分处绕过对不可靠的簇进行碱基判读,从而使用基于神经网络的碱基判读器在测序循环的剩余部分处仅对多个簇中那些未被识别为不可靠的簇进行碱基判读。
条款
1.一种识别不可靠的簇以提高碱基判读的准确性和效率的计算机实现的方法,该方法包括:
访问用于多个簇和测序运行的测序循环的第一子集的每循环簇数据;
在测序循环的第一子集中的每个测序循环处对多个簇中的每个簇进行碱基判读,包括
处理每循环簇数据并生成每循环簇数据的中间表示,以及
通过输出层处理中间表示,并针对每个簇和每个测序循环产生每簇、每循环概率四元组,其中特定每簇、每循环概率四元组识别在特定测序循环掺入特定簇中的碱基为A、C、T和G的概率;
基于由每个每簇、每循环概率四元组识别的概率来确定其滤波值,从而生成每个簇的滤波值序列;
将多个簇中其滤波值的序列包含至少“N”个滤波值低于阈值“M”的那些簇识别为不可靠的簇;以及
在测序运行的测序循环的剩余部分处绕过对不可靠的簇进行碱基判读,从而在测序循环的剩余部分处仅对多个簇中那些未被识别为不可靠的簇进行碱基判读。
2.根据条款1所述的计算机实现的方法,其中基于涉及概率中的一个或多个概率的算术运算来确定每簇、每循环概率四元组的滤波值。
3.根据条款1至2所述的计算机实现的方法,其中算术运算是减法。
4.根据条款1至3所述的计算机实现的方法,其中通过从概率中的最高概率中减去概率中的第二高概率来确定每簇、每循环概率四元组的滤波值。
5.根据条款1至4所述的计算机实现的方法,其中算术运算是除法。
6.根据条款1至5所述的计算机实现的方法,其中每簇、每循环概率四元组的滤波值被确定为概率中的最高概率与概率中的第二高概率的比率。
7.根据条款1至6所述的计算机实现的方法,其中算术运算是加法。
8.根据条款1至7所述的计算机实现的方法,其中算术运算是乘法。
9.根据条款1至8所述的计算机实现的方法,其中“N”的范围为1至5。
10.根据条款1至9所述的计算机实现的方法,其中“M”的范围为0.5至0.99。
11.根据条款1至10所述的计算机实现的方法,其中第一子集包括测序运行的1个至25个测序循环。
12.根据条款1至11所述的计算机实现的方法,其中第一子集包括测序运行的1个至50个测序循环。
13.根据条款1至12所述的计算机实现的方法,其中所述输出层是softmax层,并且每簇、每循环概率四元组中的概率是指数归一化的分类得分,分类得分总和为一。
14.根据条款1至13所述的计算机实现的方法,其中不可靠的簇指示图案化流通池上的空的、多克隆的以及暗孔。
15.根据条款1至14所述的计算机实现的方法,其中滤波值由滤波函数生成。
16.根据条款1至15所述的计算机实现的方法,其中所述滤波函数是将纯净度(chastity)定义为最亮检出强度除以最亮检出强度和第二亮检出强度之和的比率的纯净度滤波器。
17.根据条款1至16所述的计算机实现的方法,其中滤波函数是最大对数概率函数、最小平方误差函数、平均信噪比(SNR)和最小绝对误差函数中的至少一个函数。
18.根据条款1至17所述的计算机实现的方法,所述方法还包括:
基于每循环簇数据中的强度数据为每个簇确定在测序循环的第一子集中的测序循环的平均SNR,其中强度数据描绘多个簇中的簇和周围背景的强度发射;以及
将多个簇中其平均SNR低于阈值的那些簇识别为不可靠的簇。
19.根据条款1至18所述的计算机实现的方法,所述方法还包括:
基于为测序循环的第一子集中的测序循环产生的每簇、每循环概率四元组中的最大概率得分来确定每个簇的平均概率得分;
以及
将多个簇中其平均概率得分低于阈值的那些簇识别为不可靠的簇。
20.一种用于提高基于神经网络的碱基判读的准确性和效率的系统,该系统包括:
存储器,该存储器为多个簇存储用于测序运行的初始测序循环的初始簇数据,以及用于测序运行的剩余测序循环的剩余簇数据;
主机处理器,该主机处理器能够访问存储器并且被配置为执行检测和过滤逻辑以识别不可靠的簇;
可配置处理器,该可配置处理器能够访问存储器并且被配置为执行神经网络以产生碱基判读分类得分;以及
数据流逻辑,该数据流逻辑能够访问存储器、主机处理器和可配置处理器,并且被配置为
向神经网络提供初始簇数据,并使得神经网络基于从初始簇数据生成初始中间表示为多个簇和初始测序循环产生初始碱基判读分类得分,
向检测和过滤逻辑提供初始碱基判读分类得分,并使得检测和过滤逻辑基于从初始碱基判读分类得分生成滤波值来识别多个簇中的不可靠的簇,
向神经网络提供剩余簇数据,并使得神经网络从剩余簇数据生成剩余中间表示,以及
向可配置处理器提供识别不可靠的簇的数据,并使得可配置处理器通过从剩余中间表示移除由表示不可靠的簇的剩余簇数据的部分产生的那些部分来生成可靠的剩余中间表示。
21.根据条款20所述的系统,其中可配置处理器被进一步配置为向神经网络提供可靠的剩余中间表示,并使得神经网络仅为多个簇中那些非不可靠的簇和剩余测序循环产生剩余碱基判读分类得分,从而不为不可靠的簇产生剩余碱基判读分类得分。
22.根据条款20至21所述的系统,其中初始和剩余碱基判读分类得分未被归一化。
23.根据条款20至22所述的系统,其中数据流量逻辑被进一步配置为向主机处理器提供未归一化的初始和剩余碱基判读分类得分,并使得主机处理器应用输出函数并且生成指数归一化的初始和剩余碱基判读分类得分,该指数归一化初始和剩余碱基判读分类得分的总和为一,并且指示在特定测序循环掺入特定簇中的碱基为A、C、T和G的概率,并且
其中输出函数是softmax函数、log-softmax函数、集成输出平均函数、多层感知器不确定性函数、贝叶斯高斯分布函数和簇强度函数中的至少一个函数。
24.根据条款20至23所述的系统,其中主机处理器被进一步配置为基于涉及概率中的一个或多个概率的算术运算从指数归一化的初始碱基判读分类得分生成滤波值。
25.根据条款20至24所述的系统,其中算术运算是减法。
26.根据条款20至25所述的系统,其中滤波值是通过从概率中的最高概率中减去概率中的第二高概率来生成的。
27.根据条款20至26所述的系统,其中算术运算是除法。
28.根据条款20至27所述的系统,其中滤波值是概率中的最高概率与概率中的第二高概率的比率。
29.根据条款20至28所述的系统,其中算术运算是加法。
30.根据条款20至29所述的系统,其中算术运算是乘法。
31.根据条款20至30所述的系统,其中主机处理器被进一步配置为基于从所初始簇数据中的强度数据为每个簇确定的平均信噪比(SNR)来生成滤波值,其中强度数据描绘多个簇中的簇和周围背景的强度发射。
32.根据条款20至31所述的系统,其中主机处理器被进一步配置为基于从初始碱基判读分类得分中的最大分类得分为每个簇确定的平均概率得分来生成滤波值。
33.根据条款20至32所述的系统,其中识别不可靠的簇的数据识别不可靠的簇的位置坐标。
34.根据条款20至33所述的系统,其中主机处理器被进一步配置为将多个簇中在初始测序循环具有“N”个滤波值低于阈值“M”的那些簇识别为不可靠的簇。
35.根据条款20至34所述的系统,其中“N”的范围为1至5。
36.根据条款20至35所述的系统,其中“M”的范围为0.5至0.99。
37.根据条款20至36所述的系统,其中主机处理器进一步被配置为基于指数归一化的剩余碱基判读分类得分的最高值在剩余测序循环处仅对多个簇中那些非不可靠的簇进行碱基判读,从而在剩余测序循环处绕过对不可靠的簇进行碱基判读。
38.根据条款20至37所述的系统,其中初始簇数据和剩余簇数据是像素化数据,
其中中间表示是像素化特征映射图,并且
其中部分是像素。
39.根据条款20至38所述的系统,其中识别不可靠的簇的数据识别描绘初始簇数据和剩余簇数据中不可靠的簇的强度发射的像素。
40.根据条款20至39所述的系统,其中识别不可靠簇的数据识别不描绘任何强度发射的像素。
41.根据条款20至40所述的系统,其中可配置处理器进一步被配置为通过由神经网络的空间卷积层从剩余簇数据生成的像素化特征映射图中丢弃由剩余簇数据的像素产生的那些特征映射图像素来生成可靠的剩余中间表示,该剩余簇数据的像素描绘针对剩余测序循环捕获的不可靠的簇的强度发射。
42.根据条款20至41所述的系统,其中剩余中间表示的总像素是可靠的剩余中间表示的四到九倍。
43.根据条款20至42所述的系统,其中丢弃使得神经网络通过对较少像素进行操作来产生剩余碱基判读分类得分,从而执行较少的计算操作。
44.根据条款20至43所述的系统,其中丢弃减少进出可配置处理器的数据的量和数据存储量,该数据包括簇强度状态信息。
45.根据条款20至44所述的系统,其中不可靠的簇指示图案化流通池上的空的、多克隆的以及暗孔。
46.一种用于提高基于神经网络的碱基判读的准确性和效率的系统,该系统包括:
存储器,该存储器为多个簇存储用于测序运行的初始测序循环的初始簇数据,以及用于测序运行的剩余测序循环的剩余簇数据;
主机处理器,该主机处理器能够访问存储器并且被配置为执行检测和过滤逻辑以识别不可靠的簇;
可配置处理器,该可配置处理器能够访问存储器并且被配置为执行神经网络以产生碱基判读分类得分;和
数据流逻辑,该数据流逻辑能够访问存储器、主机处理器和可配置处理器,并且被配置为
向神经网络提供初始簇数据,并使得神经网络基于从初始簇数据生成初始中间表示为多个簇和初始测序循环产生初始碱基判读分类得分,
向检测和过滤逻辑提供初始碱基判读分类得分,并使得检测和过滤逻辑基于从初始碱基判读分类得分生成滤波值来识别多个簇中的不可靠的簇,
向神经网络提供剩余簇数据,并使得神经网络基于从剩余簇数据生成剩余中间表示为多个簇和剩余测序循环产生剩余碱基判读分类得分,以及
向主机处理器提供剩余碱基判读分类得分,并使得主机处理器使用识别不可靠的簇的数据来仅对多个簇中那些非不可靠的簇进行碱基判读,从而在剩余测序循环处绕过对不可靠的簇进行碱基判读。
47.一种用于提高基于神经网络的碱基判读的准确性和效率的系统,该系统包括:
存储器,该存储器为多个簇存储用于测序运行的初始测序循环的初始每簇数据,以及用于测序运行的剩余测序循环的剩余每簇数据;
主机处理器,该主机处理器能够访问存储器并且被配置为执行检测和过滤逻辑以识别不可靠的簇;
可配置处理器,该可配置处理器能够访问存储器并且被配置为执行神经网络以产生碱基判读分类得分;和
数据流逻辑,该数据流逻辑能够访问存储器、主机处理器和可配置处理器,并且被配置为
向神经网络提供初始每簇数据,并使得神经网络基于从初始每簇数据生成初始中间表示为多个簇和初始测序循环产生初始碱基判读分类得分,
向检测和过滤逻辑提供初始碱基判读分类得分,并使得检测和过滤逻辑基于从初始碱基判读分类得分生成滤波值来识别多个簇中的不可靠的簇,
使用识别不可靠簇的数据通过从剩余每簇数据中移除表示不可靠的簇的每簇数据来生成可靠的剩余每簇数据,以及
向神经网络提供可靠的剩余每簇数据,并使得神经网络仅为所多个簇中非不可靠的那些簇和剩余测序循环产生剩余碱基判读分类得分,从而不为不可靠的簇产生剩余碱基判读分类得分。
48.一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质施加有计算机程序指令以识别不可靠的簇,提高碱基判读的准确性和效率,该指令在处理器上执行时实现一种方法,该方法包括:
访问用于多个簇和测序运行的测序循环的第一子集的每循环簇数据;
在测序循环的第一子集中的每个测序循环处对多个簇中的每个簇进行碱基判读,包括
处理每循环簇数据并生成每循环簇数据的中间表示,以及
通过输出层处理中间表示,并针对每个簇和每个测序循环产生每簇、每循环概率四元组,其中特定每簇、每循环概率四元组识别在特定测序循环掺入特定簇中的碱基为A、C、T和G的概率;
基于由每个每簇、每循环概率四元组识别的概率来确定其滤波值,从而生成每个簇的滤波值序列;
将多个簇中其滤波值的序列包含至少“N”个滤波值低于阈值“M”的那些簇识别为不可靠的簇;以及
在测序运行的测序循环的剩余部分处绕过对不可靠的簇进行碱基判读,从而在测序循环的剩余部分处仅对多个簇中那些未被识别为不可靠的簇进行碱基判读。
49.一种系统,该系统包括存储器以及与之耦接的一个或多个处理器,存储器装载有计算机指令以执行碱基判读,指令在处理器上执行时实施多个动作,包括:
访问用于多个簇和测序运行的测序循环的第一子集的每循环簇数据;
在测序循环的第一子集中的每个测序循环处对多个簇中的每个簇进行碱基判读,包括
处理每循环簇数据并生成每循环簇数据的中间表示,以及
通过输出层处理中间表示,并针对每个簇和每个测序循环产生每簇、每循环概率四元组,其中特定每簇、每循环概率四元组识别在特定测序循环掺入特定簇中的碱基为A、C、T和G的概率;
基于由每个每簇、每循环概率四元组识别的概率来确定其滤波值,从而生成每个簇的滤波值序列;
将多个簇中其滤波值的序列包含至少“N”个滤波值低于阈值“M”的那些簇识别为不可靠的簇;以及
在测序运行的测序循环的剩余部分处绕过对不可靠的簇进行碱基判读,从而在测序循环的剩余部分处仅对多个簇中那些未被识别为不可靠的簇进行碱基判读。
虽然通过参考上文详细描述的优选实施方式和示例公开了本发明,但是应当理解,这些示例旨在进行说明而非进行限制。可以预期,本领域的技术人员将容易想到修改和组合,这些修改和组合将在本发明的实质和以下权利要求书的范围之内。

Claims (20)

1.一种识别不可靠的簇以提高碱基判读的准确性和效率的计算机实现的方法,所述方法包括:
访问用于多个簇和用于测序运行的测序循环的第一子集的每循环簇数据;
在测序循环的所述第一子集中的每个测序循环处对所述多个簇中的每个簇进行碱基判读,包括
处理所述每循环簇数据并生成所述每循环簇数据的中间表示,以及
通过输出层处理所述中间表示,并针对每个簇和每个测序循环产生每簇、每循环概率四元组,其中特定每簇、每循环概率四元组识别在特定测序循环掺入特定簇中的碱基为A、C、T和G的概率;
基于由每个每簇、每循环概率四元组识别的概率来确定其滤波值,从而生成每个簇的滤波值序列;
将所述多个簇中其滤波值的序列包含至少“N”个滤波值低于阈值“M”的那些簇识别为不可靠的簇;以及
在所述测序运行的测序循环的剩余部分处绕过对所述不可靠的簇进行碱基判读,从而在测序循环的所述剩余部分处仅对所述多个簇中那些未被识别为所述不可靠的簇进行碱基判读。
2.根据权利要求1所述的计算机实现的方法,其中基于涉及所述概率中的一个或多个概率的算术运算来确定每簇、每循环概率四元组的所述滤波值。
3.根据权利要求1至2所述的计算机实现的方法,其中所述算术运算是减法。
4.根据权利要求1至3所述的计算机实现的方法,其中通过从所述概率中的最高概率中减去所述概率中的第二高概率来确定所述每簇、每循环概率四元组的所述滤波值。
5.根据权利要求1至4所述的计算机实现的方法,其中所述算术运算是除法。
6.根据权利要求1至5所述的计算机实现的方法,其中所述每簇、每循环概率四元组的所述滤波值被确定为所述概率中的所述最高概率与所述概率中的所述第二高概率的比率。
7.根据权利要求1至6所述的计算机实现的方法,其中所述算术运算是加法。
8.根据权利要求1至7所述的计算机实现的方法,其中所述算术运算是乘法。
9.根据权利要求1至8所述的计算机实现的方法,其中所述“N”的范围为1至5。
10.根据权利要求1至9所述的计算机实现的方法,其中所述“M”的范围为0.5至0.99。
11.根据权利要求1至10所述的计算机实现的方法,其中所述第一子集包括所述测序运行的1个至25个测序循环。
12.根据权利要求1至11所述的计算机实现的方法,其中所述第一子集包括所述测序运行的1个至50个测序循环。
13.根据权利要求1至12所述的计算机实现的方法,其中所述输出层是softmax层,并且所述每簇、每循环概率四元组中的所述概率是指数归一化的分类得分,所述分类得分总和为一。
14.根据权利要求1至13所述的计算机实现的方法,其中所述不可靠的簇指示图案化流通池上的空的、多克隆的以及暗孔。
15.根据权利要求1至14所述的计算机实现的方法,其中所述滤波值由滤波函数生成。
16.根据权利要求1至15所述的计算机实现的方法,其中所述滤波函数是将纯净度(chastity)定义为最亮检出强度除以所述最亮检出强度和第二亮检出强度之和的比率的纯净度滤波器。
17.根据权利要求1至16所述的计算机实现的方法,其中所述滤波函数是最大对数概率函数、最小平方误差函数、平均信噪比(SNR)和最小绝对误差函数中的至少一个函数。
18.根据权利要求1至17所述的计算机实现的方法,所述方法还包括:
基于所述每循环簇数据中的强度数据为每个簇确定在测序循环的所述第一子集中的测序循环的所述平均SNR,其中所述强度数据描绘所述多个簇中的簇和周围背景的强度发射;以及
将所述多个簇中其平均SNR低于阈值的那些簇识别为所述不可靠的簇。
19.根据权利要求1至18所述的计算机实现的方法,所述方法还包括:
基于针对测序循环的所述第一子集中的所述测序循环产生的每簇、每循环概率四元组中的最大概率得分来确定每个簇的平均概率得分;以及
将所述多个簇中其平均概率得分低于阈值的那些簇识别为所述不可靠的簇。
20.一种用于提高基于神经网络的碱基判读的准确性和效率的系统,所述系统包括:
存储器,所述存储器为多个簇存储用于测序运行的初始测序循环的初始簇数据,以及用于所述测序运行的剩余测序循环的剩余簇数据;
主机处理器,所述主机处理器能够访问所述存储器并且被配置为执行检测和过滤逻辑以识别不可靠的簇;
可配置处理器,所述可配置处理器能够访问所述存储器并且被配置为执行神经网络以产生碱基判读分类得分;和
数据流逻辑,所述数据流逻辑能够访问所述存储器、所述主机处理器和所述可配置处理器,并且被配置为
向所述神经网络提供所述初始簇数据,并使得所述神经网络基于从所述初始簇数据生成初始中间表示为所述多个簇和为所述初始测序循环产生初始碱基判读分类得分,
向所述检测和过滤逻辑提供所述初始碱基判读分类得分,
并使得所述检测和过滤逻辑基于从所述初始碱基判读分类得分生成滤波值来识别所述多个簇中的不可靠的簇,
向所述神经网络提供所述剩余簇数据,并使得所述神经网络从所述剩余簇数据生成剩余中间表示,以及
向所述可配置处理器提供识别所述不可靠的簇的数据,并使得所述可配置处理器通过从所述剩余中间表示移除由表示所述不可靠的簇的所述剩余簇数据的部分产生的那些部分来生成可靠的剩余中间表示。
CN202180043746.9A 2020-08-28 2021-08-26 基于人工智能预测的碱基判读来检测和过滤簇 Pending CN115769301A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202063072032P 2020-08-28 2020-08-28
US63/072032 2020-08-28
US17/411,980 US20220067489A1 (en) 2020-08-28 2021-08-25 Detecting and Filtering Clusters Based on Artificial Intelligence-Predicted Base Calls
US17/411980 2021-08-25
PCT/US2021/047763 WO2022047038A1 (en) 2020-08-28 2021-08-26 Detecting and filtering clusters based on artificial intelligence-predicted base calls

Publications (1)

Publication Number Publication Date
CN115769301A true CN115769301A (zh) 2023-03-07

Family

ID=77914452

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180043746.9A Pending CN115769301A (zh) 2020-08-28 2021-08-26 基于人工智能预测的碱基判读来检测和过滤簇

Country Status (9)

Country Link
US (1) US20220067489A1 (zh)
EP (1) EP4205123A1 (zh)
JP (1) JP2023539544A (zh)
KR (1) KR20230058319A (zh)
CN (1) CN115769301A (zh)
AU (1) AU2021332341A1 (zh)
CA (1) CA3184598A1 (zh)
IL (1) IL299034A (zh)
WO (1) WO2022047038A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117523559A (zh) * 2024-01-08 2024-02-06 深圳赛陆医疗科技有限公司 碱基识别方法及装置、基因测序仪及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024007190A1 (en) * 2022-07-06 2024-01-11 GeneSense Technology Inc. Methods and systems for enhancing nucleic acid sequencing quality in high-throughput sequencing processes with machine learning

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03147799A (ja) 1989-11-02 1991-06-24 Hoechst Japan Ltd 新規なオリゴヌクレオチドプローブ
US6332154B2 (en) 1998-09-11 2001-12-18 Genesys Telecommunications Laboratories, Inc. Method and apparatus for providing media-independent self-help modules within a multimedia communication-center customer interface
US6826718B1 (en) 1999-07-15 2004-11-30 Sbc Holdings Properties, L.P. Method and apparatus for tracking call processing failure data in a radiotelephone system
GB0004523D0 (en) 2000-02-26 2000-04-19 Ultraframe Uk Ltd Fascias
CN100462433C (zh) 2000-07-07 2009-02-18 维西根生物技术公司 实时序列测定
WO2002044425A2 (en) 2000-12-01 2002-06-06 Visigen Biotechnologies, Inc. Enzymatic nucleic acid synthesis: compositions and methods for altering monomer incorporation fidelity
US7057026B2 (en) 2001-12-04 2006-06-06 Solexa Limited Labelled nucleotides
US7405251B2 (en) 2002-05-16 2008-07-29 Dow Corning Corporation Flame retardant compositions
WO2004015497A1 (ja) 2002-08-07 2004-02-19 Mitsubishi Chemical Corporation 青紫色レーザー感光性レジスト材層を有する画像形成材及びそのレジスト画像形成方法
WO2004018497A2 (en) 2002-08-23 2004-03-04 Solexa Limited Modified nucleotides for polynucleotide sequencing
GB0321306D0 (en) 2003-09-11 2003-10-15 Solexa Ltd Modified polymerases for improved incorporation of nucleotide analogues
WO2005065514A1 (fr) 2004-01-12 2005-07-21 Djibril Soumah Lunette de wc
CN101914620B (zh) 2004-09-17 2014-02-12 加利福尼亚太平洋生命科学公司 核酸测序的方法
US20060111346A1 (en) 2004-11-23 2006-05-25 Fazix Corporation. Methods of modulating high-density lipoprotein cholesterol levels and pharmaceutical formulations for the same
US20060251471A1 (en) 2005-05-06 2006-11-09 Wei-Gen Chen Manual adjustment device for headlamps
GB0517097D0 (en) 2005-08-19 2005-09-28 Solexa Ltd Modified nucleosides and nucleotides and uses thereof
EP2018622B1 (en) 2006-03-31 2018-04-25 Illumina, Inc. Systems for sequence by synthesis analysis
JPWO2007145365A1 (ja) 2006-06-14 2009-11-12 学校法人自治医科大学 癌治療薬及びそのスクリーニング法
US7414716B2 (en) 2006-10-23 2008-08-19 Emhart Glass S.A. Machine for inspecting glass containers
US8965076B2 (en) 2010-01-13 2015-02-24 Illumina, Inc. Data processing system and methods
SI3077943T1 (sl) * 2013-12-03 2020-10-30 Illumina, Inc. Postopki in sistemi za analiziranje slikovnih podatkov
NL2023312B1 (en) 2019-03-21 2020-09-28 Illumina Inc Artificial intelligence-based base calling
NL2023316B1 (en) 2019-03-21 2020-09-28 Illumina Inc Artificial intelligence-based sequencing
NL2023310B1 (en) 2019-03-21 2020-09-28 Illumina Inc Training data generation for artificial intelligence-based sequencing
NL2023314B1 (en) 2019-03-21 2020-09-28 Illumina Inc Artificial intelligence-based quality scoring
NL2023311B9 (en) 2019-03-21 2021-03-12 Illumina Inc Artificial intelligence-based generation of sequencing metadata

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117523559A (zh) * 2024-01-08 2024-02-06 深圳赛陆医疗科技有限公司 碱基识别方法及装置、基因测序仪及存储介质
CN117523559B (zh) * 2024-01-08 2024-03-29 深圳赛陆医疗科技有限公司 碱基识别方法及装置、基因测序仪及存储介质

Also Published As

Publication number Publication date
JP2023539544A (ja) 2023-09-15
WO2022047038A1 (en) 2022-03-03
EP4205123A1 (en) 2023-07-05
CA3184598A1 (en) 2022-03-03
KR20230058319A (ko) 2023-05-03
AU2021332341A1 (en) 2023-02-02
US20220067489A1 (en) 2022-03-03
IL299034A (en) 2023-02-01

Similar Documents

Publication Publication Date Title
US20210265016A1 (en) Data Compression for Artificial Intelligence-Based Base Calling
US20210265015A1 (en) Hardware Execution and Acceleration of Artificial Intelligence-Based Base Caller
US11749380B2 (en) Artificial intelligence-based many-to-many base calling
CN115769301A (zh) 基于人工智能预测的碱基判读来检测和过滤簇
US20220319639A1 (en) Artificial intelligence-based base caller with contextual awareness
US20230005253A1 (en) Efficient artificial intelligence-based base calling of index sequences
CA3183578A1 (en) Artificial intelligence-based base caller with contextual awareness
CN117501373A (zh) 基于人工智能的索引序列的高效碱基检出

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination