CN112368567B - 用于基于像素测序的表征和性能分析的系统和设备 - Google Patents

用于基于像素测序的表征和性能分析的系统和设备 Download PDF

Info

Publication number
CN112368567B
CN112368567B CN202080003540.9A CN202080003540A CN112368567B CN 112368567 B CN112368567 B CN 112368567B CN 202080003540 A CN202080003540 A CN 202080003540A CN 112368567 B CN112368567 B CN 112368567B
Authority
CN
China
Prior art keywords
pixel
intensity
sampling
phasing
series
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202080003540.9A
Other languages
English (en)
Other versions
CN112368567A (zh
Inventor
E·科斯特姆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inmair Ltd
Original Assignee
Inmair Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US16/874,599 external-priority patent/US11423306B2/en
Priority claimed from US16/874,633 external-priority patent/US11593649B2/en
Application filed by Inmair Ltd filed Critical Inmair Ltd
Publication of CN112368567A publication Critical patent/CN112368567A/zh
Application granted granted Critical
Publication of CN112368567B publication Critical patent/CN112368567B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/62Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
    • G01N21/63Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
    • G01N21/64Fluorescence; Phosphorescence
    • G01N21/6428Measuring fluorescence of fluorescent products of reactions or of fluorochrome labelled reactive substances, e.g. measuring quenching effects, using measuring "optrodes"
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/62Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
    • G01N21/63Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
    • G01N21/64Fluorescence; Phosphorescence
    • G01N21/645Specially adapted constructive features of fluorimeters
    • G01N21/6452Individual samples arranged in a regular 2D-array, e.g. multiwell plates
    • G01N21/6454Individual samples arranged in a regular 2D-array, e.g. multiwell plates using an integrated detector array
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/048Fuzzy inferencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Immunology (AREA)
  • Molecular Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Analytical Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Pathology (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Biochemistry (AREA)
  • Biotechnology (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Bioethics (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Optics & Photonics (AREA)
  • Multimedia (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)

Abstract

公开了一种根据测量强度确定标记信号的方法,该测量强度是由光传感器在指向样本表面(234)的传感器阵列中收集的光传感器(206、208、210、212、214)收集的,该样本表面(234)包括像素区域(206’、208’、210’、212’、214’)并在一系列采样事件期间容纳多个簇(206A、206、208A、208B、210A、210B、212A、212B、214A、214B),每个光传感器(206、208、210、212、214)在每个采样周期期间指向所述像素区域(206’、208’、210’、212’、214’)中的一个并测量来自所述像素区域中的一个的强度,该方法包括对背景强度(675)和串扰(645)的调整,并考虑了信号衰减(625)和定相(623)/预定相。通过由系统进行真值碱基调用或使用经系统运行的良好采样的可靠碱基调用,调整系数可以通过梯度下降来确定。

Description

用于基于像素测序的表征和性能分析的系统和设备
技术领域
所公开的技术涉及用于智能仿真的人工智能型计算机和数字化数据处理系统以及相应的数据处理方法和产品(即:基于知识的系统、推理系统和知识获取系统),并且包括用于不确定性推理的系统(例如:模糊逻辑系统)、自适应系统、机器学习系统和人工神经网络。尤其是,所公开的技术涉及利用诸如深度卷积神经网络等的深度神经网络来分析数据。
参考文献
出于所有目的,以下参考文献通过引用并入本文,如同在本文中做了充分的阐述一样:
2019年3月21日提交的名称为“基于人工智能测序的培训数据生成”的第62/821,602号美国临时专利申请(代理人案号:ILLM1008-1/IP-1693-PRV);
2019年3月21日提交的名称为“基于人工智能测序的训练数据生成”的第62/821,618号美国临时专利申请(代理人案号:ILLM1008-3/IP-1741-PRV);
2019年3月21日提交的名称为“基于人工智能的碱基识别”的第62/821,681号美国临时专利申请(代理人案号:ILLM 1008-4/IP-1744-PRV);
2019年3月21日提交的名称为“基于人工智能的测序”的第62/821,766号美国临时专利申请(代理人案号:ILLM 1008-7/IP-1747-PRV);
2019年3月21日提交的名称为“基于人工智能的质量评分”的第62/821,724号美国临时专利申请(代理人案号:ILLM 1008-9/IP-1752-PRV);
2017年4月21日提交的随后于2017年10月26日公布为PCT公告第WO 2017/184997Al号的名称为“用于在像素内对多个部位进行发光成像的基于光子结构的设备和组合物及其使用方法”的第PCT/US2017/028883号PCT专利申请;
2016年8月17日提交并随后于2017年3月2日公布为PCT公告第WO 2017/034868 Al号的名称为“用于生物或化学分析的在线压力蓄能器和流量控制系统”的第PCT/US2016/047253号PCT专利申请;
2017年6月20日提交并随后于2017年12月28日公布为PCT公告第WO 2017/223041Al号的名称为“超高分辨率显微镜”的第PCT/US2017/038259号PCT专利申请;
2016年3月22日提交并随后于2016年9月29日公布为US 2016/0281150 Al的名称为“生物或化学分析用成像样品的方法、载体组件和系统”的第15/077,182号美国专利申请;
2015年11月24日发布的名称为“超高分辨率成像”的第9,193,998 B2号美国专利;
2018年4月10日发布的名称为“用于生物或化学分析的微设备和生物传感器盒及其系统和方法”的第9,937,497B2号美国专利;
2017年7月6日公布的名称为“用于生化分析的系统和方法,包括基本仪器和可去除的试剂盒”的第US 2017/0189904 Al号美国公告;
2015年3月11日提交并随后于2017年1月19日公布为US 2017/0016060 Al的名称为“一次性集成微流试剂盒及其制造和使用方法”的第15/125,124号美国专利申请;
2016年5月4日公布为EP公告第EP 2 173 467 Bl号的名称为“利用电场改进生物测定的方法和装置”的第08781608.8号欧洲专利申请;
2016年3月10日提交并随后于2019年1月1日以美国专利第10,167,505B2号获得专利权并发布的名称为“综合测序仪及使用方法”的第15/067,013号美国专利申请;以及
2013年4月26日提交并随后于2015年8月4日以第9,096,899B2号美国专利获得专利权并发布的名称为“用于生物或化学分析的微设备和生物传感器及其系统和方法”的第13/882,088号美国专利申请。
背景技术
本节中所讨论的主题不能仅仅因为在本节中提及而被认为是现有技术。同样地,本节中所提及的或与作为背景技术而提供的主题相关的问题不应被认为之前已经在现有技术中得到了认可。本节中的主题仅仅代表不同的方法,这些方法本身也可以对应于所述要求保护的技术的实施方式。
生物或化学研究中的各种方案涉及在局部支撑表面上或在预定的反应腔(或孔)内进行大量的受控反应。然后可以对所需的反应进行观察和检测,并且随后的分析可以有助于识别或揭示反应中涉及的化学物质的性质。例如,在一些多重检测中,具有可识别标记(例如,荧光标记)的未知分析物(例如,克隆扩增核酸簇)可以在受控条件下暴露于数千种已知的探针。每种已知的探针都可以沉积到孔板或流动池的相应孔中。观察孔中已知的探针和未知分析物之间发生的任何化学反应都可以有助于识别或揭示分析物的性质。这类方案的其他实例包括已知的DNA测序过程,如合成法测序(SBS)或循环阵列测序。
在一些传统的荧光检测方案中,利用光学系统将激发光引导到荧光标记的分析物上,并且还检测可能从分析物发出的荧光信号。然而,这类光学系统会比较昂贵,并且需要更大的台面面积。例如,光学系统可以设有镜头、滤光器和光源。在其他提出的检测系统中,受控反应直接在固态成像器(例如,电荷耦合器件(CCD)或互补型金属氧化物半导体(CMOS)传感器)上发生,该固态成像器不需要大型光学组件来检测荧光发射。
所提出的固态成像系统会与现有的光学系统有很大的不同,因此需要新的方法和装置来表征固态近场成像系统并分析它们的性能。这对于每个传感器(或像素)只能对一个簇进行碱基识别的系统和每个像素读取两个或更多簇的系统来说都是如此。
提高对固态成像系统中信号和噪声的理解的时机出现了,这将在这些系统可用时实现改进的设计和制造工艺、更好的质量控制以及专门适用于新系统的碱基识别技术。本公开解决了这一需求,并且还提供了其他优点。
附图说明
根据一个或多个实施例,参照以下附图对本公开进行了详细的描述。这些附图仅用于说明目的,并且仅描绘了示例性实施例。此外,应当注意的是,为了清楚且易于说明,附图中的元件未必是按比例绘制的。
图1示出了一种传统设计,其中多个相机像素捕捉衬底上一个簇的放大图像。
图2示出了可用于各种实施例的生物传感器的横截面。
图3A示出了根据一个实施例的每个像素区域具有两个孔(包括主要孔和次要孔)的样本表面的侧视图。
图3B示出了样本表面的顶视平面图。
图4概念性地示出了随着测序循环的进行,信噪比降低。
图5示出了利用卷积内核来产生定相(落后)(在正确的时间内)和预定相(超前)标记荧光的信号分布的估计矩阵。
图6为从捕捉的强度图导出实际信号以及区分信号和噪声的高水平框图。
图7示出了对一次运行中150个循环的分析,其中仅对衰减和背景进行了校正。
图8示出了对150个循环和一次运行的分析,其中除了衰减和背景外,还对定相进行了校正。
图9示出了对一次运行中150个循环的分析,其中对串扰而不是定相进行了校正。
图10示出了除了背景、强度和衰减的估计外,对定相和串扰的组合校正。
图11和图12利用扩展定相内核进行分析,扩展至分别处理最多3个和8个预定相跳跃的五项和十项多项式。
图13A-F为基于对一个通道的强度图中各种因素对测定强度的影响的分析,通过对流动池的照片应用伪色而生成的一系列热图。
图14A和图14B反映了背景读数中非随机分布的传感器特有的变化。
图15示出了考虑其相邻像素的背景水平时设置特定像素的背景水平的背景水平超参数方法。
图16包括示出了考虑了各个传感器固有的多个背景水平之后降低的串扰估计量的表格。
图17示出了实现所公开的技术的各种模块。
图18示出了定相和预定相效应的一个实例。
图19示出了空间串扰的一个实例。
图20示出了衰落的一个实例。
图21为可用于实现所公开的技术的计算机系统。
具体实施方式
本文所述的实施例可用于各种用于理论或商业分析的生物或化学过程和系统。更具体地,本文所述的实施例可用于各种过程和系统,其中需要检测指示所需反应的事件、性质、质量或特征。例如,本文所述的实施例包括试剂盒、生物传感器及其组件以及与试剂盒和生物传感器一起工作的生物测定系统。在特定的实施例中,试剂盒和生物传感器包括流动池及一个或多个传感器、像素、光检测器或光电二极管,它们以基本上整体的结构耦接在一起。
当结合所附附图进行阅读时,以下对某些实施例的具体描述将能得到更好的理解。就附图所示出的各种实施例的功能块的示意图而言,功能块未必指示了硬件电路之间的划分。因此,例如,一个或多个功能块(例如,处理器或存储器)可以在单个硬件(例如,通用信号处理器或随机存取存储器、硬盘等)中实现。类似地,程序可以是独立的程序、结合在操作系统中的子程序、安装的软件包中的功能等。应当理解的是,各种实施例不限于附图中所示的设备和装置。
如本文中所使用,以单数形式叙述的并且以单词“或”开头的元件或步骤应当理解为不排除所述元件或步骤的复数形式,除非明确说明了这种排除。此外,当提及“一个实施例”时,这并非为了被理解为排除也包括所述特征的其他实施例的存在。此外,除非另有明确说明,否则“包括”、“具有”或“包含”一个或多个具有特定特性的元件的实施例可以包含其他的元件,无论它们是否有该特性。
如本文中所使用,“所需的反应”包括被关注的分析物的化学、电气、物理和光学性质(品质)中的至少一种性质的变化。在特定的实施例中,所需的反应是阳性结合事件(例如,荧光标记的生物分子与被关注的分析物的结合)。更一般地来讲,所需的反应可以是化学转化、化学变化或化学相互作用。所需的反应也可以是电气性质的变化。例如,所需的反应可以是溶液中离子浓度的变化。示例性的反应包括但不限于化学反应,例如:还原反应、氧化反应、加成反应、消除反应、重排反应、酯化反应、酰胺化反应、醚化反应、环化反应或取代反应;结合相互作用,其中第一种化学物质与第二种化学物质结合;离解反应,其中两种或多种化学物质相互分离;荧光;发光;生物发光;化学发光;和生物反应,例如:核酸复制、核酸扩增、核酸杂交、核酸连接、磷酸化、酶催化、受体结合或配体结合。所需的反应也可以是质子的加成反应或消除反应,例如,可以作为周围溶液或环境的pH变化来检测。另一种所需的反应可以是检测穿过膜(例如,天然或合成双分子膜)的离子流,例如,当离子流过膜时,离子流被中断,并且可以检测到中断。
在特定的实施例中,所需的反应包括将荧光标记的分子结合至分析物。该分析物可以是寡核苷酸,并且该荧光标记的分子可以是核苷酸。当激发光指向具有标记的核苷酸的寡核苷酸并且荧光团发出可检测的荧光信号时,可以检测到所需的反应。在可选实施例中,检测到的荧光是由化学发光或生物发光产生的。所需的反应还可以例如通过使供体荧光团接近受体荧光团来增加荧光(或Forster)共振能量转移(FRET),通过分离供体和受体荧光团来降低FRET,通过分离淬灭剂和荧光团来增加荧光,或者通过淬灭剂和荧光团共定位来降低荧光。
如本文中所用,“反应组分”或“反应物”包括可用于获得所需反应的任何物质。例如,反应组分包括试剂、酶、样本、其他生物分子和缓冲溶液。反应组分通常被输送到溶液中的反应位点和/或固定在反应位点。反应组分可以直接或间接地与另一种物质(例如,被关注的分析物)相互作用。
如本文中所用,术语“反应位点”是可能发生所需反应的局部区域。反应位点可以包括其上可以固定物质的衬底的支撑表面。例如,反应位点可以在其上具有核酸群体的流动池的通道中包括基本平坦的表面。群体中的核酸通常但不总是具有相同的序列,例如,单链或双链模板的克隆拷贝。然而,在一些实施例中,反应位点可以仅包含单个例如单链或双链形式的核酸分子。此外,多个反应位点可沿支撑表面不均匀分布或以预定的方式排列(例如,在诸如微阵列等的矩阵中并排排列)。反应位点还可以包括反应腔(或孔),该反应腔至少部分地限定了被配置成分隔所需反应的空间区域或体积。
本申请可互换地使用术语“反应腔”和“孔”。如本文中所用,术语“反应腔”或“孔”包括与流动通道流体连通的空间区域。反应腔可以至少部分地与周围环境或其他空间区域分离。例如,多个反应腔可以通过共用的内壁彼此分开。作为更具体的实例,反应腔可以包括由孔的内表面限定的空腔,并且具有开口或开孔,使得空腔可以与流动通道流体连通。在2011年10月20日提交的第PCT/US2011/057111号国际申请中更详细地描述了包括这种反应腔的生物传感器,其全部内容通过引用并入本文。
在一些实施例中,相对于固体(包括半固体)来设置反应腔的尺寸和形状,使得固体可以全部或部分地插入其中。例如,反应腔的尺寸和形状可以设置成仅容纳一个捕获微球。捕获微球上可以有克隆扩增的DNA或其他物质。可选地,反应腔的尺寸和形状可以设置成容纳大致数量的微球或固体衬底。作为另一个实例,反应腔也可以填充多孔凝胶或物质,该多孔凝胶或物质被配置为控制可能流入反应腔的扩散或过滤流体。
在一些实施例中,传感器(例如,光检测器或光电二极管)与生物传感器的样本表面的相应像素区域相关联。同样地,像素区域是代表一个传感器(或像素)的生物传感器的样本表面上的区域的几何结构。当在覆盖相关像素区域的反应位点或反应腔发生所需的反应时,与像素区域相关的传感器检测从相关像素区域收集的光发射。在一个平坦表面实施例中,像素区域可以重叠。在一些情况下,多个传感器可以与单个反应位点或单个反应腔相关联。在其他情况下,单个传感器可以与一组反应位点或一组反应腔相关联。
如本文中所用,“生物传感器”包括具有多个反应位点和/或反应腔(或孔)的结构。生物传感器可以包括固态成像装置(例如,CCD或CMOS成像器)和可选地安装在其上的流动池。流动池可以包括至少一个与反应位点和/或反应腔流体连通的流动通道。作为一个具体的实例,生物传感器被配置成流体和电气耦接至生物测定系统。生物测定系统可以根据预定的方案(例如,合成法测序)将反应物输送至反应位点和/或反应腔,并执行多个成像事件。例如,生物测定系统可以引导溶液沿着反应位点和/或反应腔流动。至少一种溶液可以包括具有相同或不同荧光标记的四种核苷酸。这些核苷酸可以结合位于反应位点和/或反应腔的相应寡核苷酸。生物测定系统接着可以利用激发光源(例如,诸如发光二极管(LED)等的固态光源)照射反应位点和/或反应腔。激发光可以具有预定的一个或多个波长,包括一个波长范围。被激发的荧光标记提供可以被传感器捕获的发射信号。
在可选实施例中,生物传感器可以包括被配置成检测其他可识别性质的电极或其他类型的传感器。例如,传感器可以被配置成检测离子浓度的变化。在另一个实例中,传感器可以被配置成检测穿过膜的离子流。
如本文中所用,“簇”是相似或相同分子、核苷酸序列或DNA链的群体。例如,簇可以是扩增的寡核苷酸或具有相同或相似序列的多核苷酸或多肽的任何其他组。在其他实施例中,簇可以是占据样本表面上的物理区域的任何元素或元素组。在实施例中,在一个碱基识别循环期间,将簇固定至一个反应位点和/或反应腔。
如本文中所用,术语“固定的”在用于生物分子或生物或化学物质时包括在分子水平上将生物分子或生物或化学物质基本附着到表面。例如,可以使用吸附技术将生物分子或生物或化学物质固定到基底材料的表面,这些吸附技术包括非共价相互作用(例如,静电力、范德瓦尔斯力和疏水界面的脱水)和共价结合技术,其中官能团或连接基团有助于将生物分子附着到表面。可以基于基底表面的性质、携带生物分子或生物或化学物质的液体介质以及生物分子或生物或化学物质本身的性质来将生物分子或生物或化学物质固定至基底材料的表面。在一些情况下,基底表面可以被功能化(例如,化学或物理改性),以便于将生物分子(或生物或化学物质)固定至基底表面。可以首先对基底表面进行改性,使其表面结合有官能团。然后,官能团可以结合生物分子或生物或化学物质,以将它们固定在其上。物质可以通过凝胶固定至表面,例如,如第US 2011/0059865 Al号美国专利公告中所述,其通过引用并入本文。
在一些实施例中,核酸可以附着至表面,并采用桥式扩增进行扩增。可用的桥式扩增方法在例如第5,641,658号美国专利、WO 2007/010251、第6,090,592号美国专利、第2002/0055100 A1号美国专利公告、第7,115,400号美国专利、第2004/0096853 A1号美国专利公告、第2004/0002090 A1号美国专利公告、第2007/0128624 A1号美国专利公告和第2008/0009420 A1号美国专利公告中描述,其中的每个专利的全部内容都并入本文。另一种在表面上扩增核酸的可用方法是滚环扩增(RCA),例如,使用下面更详细阐述的方法。在一些实施例中,核酸可以附着在表面上,并使用一个或多个引物对进行扩增。例如,一个引物可以在溶液中,而另一个引物可以固定在表面上(例如,5’-附着)。举例来说,核酸分子可以与表面上的其中一个引物杂交,然后延伸固定的引物以产生核酸的第一个拷贝。然后,溶液中的引物与核酸的第一个拷贝杂交,其可以用核酸的第一个拷贝作为模板进行延伸。任选地,在产生核酸的第一个拷贝后,原始核酸分子可与表面上的第二个固定引物杂交,并可以同时或在溶液中的引物延伸后延伸。在任何实施例中,使用固定引物和溶液中的引物进行的重复轮次的延伸(例如,扩增)提供了核酸的多个拷贝。
在特定的实施例中,由本文所述的系统和方法执行的测定方案包括使用天然核苷酸以及被配置为与天然核苷酸相互作用的酶。例如,天然核苷酸包括核糖核苷酸(RNA)或脱氧核糖核苷酸(DNA)。天然核苷酸可以是单磷酸盐、二磷酸盐或三磷酸盐形式,并且可以具有选自腺嘌呤(A)、胸腺嘧啶(T)、尿嘧啶(U)、鸟嘌呤(G)或胞嘧啶(C)的碱基。然而,应当理解的是,可以使用非天然核苷酸、修饰的核苷酸或上述核苷酸的类似物。可用的非天然核苷酸的一些实例如下所述,涉及通过合成方法进行的基于可逆终止子的测序。
在包括反应腔的实施例中,物品或固体物质(包括半固体物质)可以设置在反应腔内。设置时,物品或固体可以通过干涉配合、粘附或截留而物理地保持或固定在反应腔内。可设置在反应腔内的示例性物品或固体包括聚合物微球、小球、琼脂糖凝胶、粉末、量子点或可被压缩和/或保持在反应腔内的其他固体。在特定的实施例中,诸如DNA球等的核酸超结构可以例如通过附着到反应腔的内表面或通过停留在反应腔内的液体中而设置在反应腔中或反应腔处。可以预先形成DNA球或其他核酸超结构,然后将其置于反应腔中或反应腔处。可选地,可以在反应腔处原位合成DNA球。DNA球可以通过滚环扩增来合成,以产生特定核酸序列的连环体,并且连环体可以用形成相对紧密的球的条件来处理。例如,在第2008/0242560 A1或2008/0234136 A1号美国专利公告中描述了DNA球及其合成方法,其中的每个专利的全部内容都并入本文。容纳或设置在反应腔中的物质可以是固态、液态或气态。
如本文中所用,“碱基识别”是识别核酸序列中的核苷酸碱基。碱基识别是指在特定循环为每个簇确定碱基识别(A,C,G,T)的过程。例如,可以利用第2013/0079232号美国专利申请公告的合编材料中描述的四通道、两通道或一通道方法和系统来执行碱基识别。在特定的实施例中,碱基识别循环被称为“采样事件”。在一种染料和双通道测序方案中,采样事件包括时间顺序中的两个光照阶段,使得在每个阶段产生像素信号。第一个光照阶段引起来自指示AT像素信号中的核苷酸碱基A和T的给定簇的发光,并且第二光照阶段引起来自指示CT像素信号中的核苷酸碱基C和T的给定簇的发光。
引言
流动池设计的新方法涉及一个或两个簇在其中扩增的纳米孔。图1示出了一种传统设计,其中多个相机像素捕捉衬底上一个簇的放大图像。在一种设计中,纳米孔被构建在CMOS传感器衬底的顶部。参见第16/241,905号申请。在另一种设计中,传感器直接位于纳米孔上方。在两种设计中,采样装置包括具有像素区域阵列和固态传感器阵列的样本表面。每个传感器在碱基识别循环中生成像素信号。像素信号表示从样本表面的相应像素区域收集的光线。在一些实施方式中,传感器从两个孔中收集光线。在其他实施方式中,离轴光照可以区分来自在一个孔中生长的两个簇的信号。这与现有的依赖相机的远场成像方案有很大的不同。
在测序期间,流体通道输送试剂通过纳米孔。在每个循环中,诸如激光照射等的光能刺激附着在序列上的荧光标记发光,指示序列中当前的核苷酸。传感器收集来自标记的光线。利用可选的化学成分,一次、两次或四次光照产生相同数量的强度图。这些强度图是近场强度图,与摄影图像不同,更像是感应笔画而不是拍照。
这时就可以对标记的刺激响应进行表征以分析新设计的性能。表征的结果可以指导流动池的设计、制造和操作。表征的结果还可以用于改进碱基识别。
每个孔有一个传感器的流动池是用于对数百万个扩增簇进行平行测序的相对较新的设计。随着测序的快速发展,同时计算能力的提高速率和成本的降低速率遵循了摩尔定律,技术的快速发展和未来进步是不可避免的。每个新设计都需要进行表征和性能分析。
假设大规模并行设计的一部分包括由九个CMOS传感器组成的贴片,该贴片被滤光器和纳米孔覆盖。纳米孔的尺寸设置成适合一个或两个簇(图2、图3A和图3B)的扩增和生长,或者可选地容纳一个在其上合成序列的微球。假设在每个合成循环中,纳米孔先后被红色激光和绿色激光照射。纳米孔内簇标记的荧光由红色和绿色通道中的CMOS传感器收集。假设合成继续进行,并且进行150个循环的碱基识别。
所公开的技术的发展始于对感测强度的影响的物理分析。分析显示,随着测序的进行,准确的碱基识别变得越来越困难,因为信号强度的降低和噪声的增加(图4)导致信噪比显著降低。从物理上来说,通过观察发现,相较于早期的合成步骤,后来的合成步骤将标记附着在相对于传感器的不同位置。当传感器低于正在合成的序列时,因为相较于早期步骤,在后来的测序步骤中标记附着至离传感器(206)更远的链(206A)上,造成了信号衰减。我们将此称为信号衰减。在一些设计中,当传感器位于支撑簇的衬底上方时,随着测序的进行,信号可能会增加,而不是衰减。
在所研究的流动池设计中,当信号衰减时,噪声增加。从物理上来说,随着测序的进行,定相和预定相(505)增加了噪声。定相是指测序中标记不能沿序列前进的步骤。预定相是指在一个测序循环中标记向前跳跃两个位置而不是一个位置的测序步骤。定相和预定相都较少发生(图10,定相内核),大约500到1000个循环发生一次。定相比预定相稍微频繁一些。定相和预定相影响正在产生强度数据的簇中的各个链,因此随着测序的进行,来自簇的强度噪声分布以二项展开式、三项展开式、四项展开式等展开式(513)的形式累积。从图形上看,这被描绘为随着测序的进行,一个簇中的链之间测序进展的拓宽分布锥形图(517)。
另外两个源影响了传感器的强度读出。参见图13,它们是串扰和背景。在由九个传感器组成的贴片中,中间传感器从位于中心的北面、南面、东面和西面(上方、下方、左边和右边)的至少四个相邻的纳米孔接收串扰噪声。以棋盘样式排列的正方形或近似正方形的像素从周界的主要点接收的串扰比从对角线接收的串扰多。研究显示,串扰不是对称的。图13C,不对称的原因似乎与流动池的制造和光照源的定位有关。串扰是在相邻流动池中测定的强度的一个因素,它在不同循环之间是变化的,因为串扰是从相邻流动池泄漏到中间流动池的信号部分。
特定流动池的背景强度在两个循环之间相对稳定,但在传感器之间会变化。图14A和图14B。光照源的定位可以根据光照颜色而改变,它在传感器的视场上方产生背景变化的空间模式。图13A。令人惊讶的是,通过观察发现,传感器之间的制造差异产生了不同的背景强度读出,即使是在相邻的传感器之间也是如此。图15。在第一个近似值中,传感器之间的特殊变化可以忽略不计。在一种改进中,可以考虑传感器之间背景强度的特殊变化,同时在串扰效应的估计方面有令人惊讶的改善。图16。
在一个模型中,背景强度是总体或每个像素的待拟合常量参数。在该改进中,当估计串扰时,考虑了不同的背景强度。图14A、图14B和图15。例如,使用适用于由九个传感器组成的贴片中的传感器的背景强度,实现了均方误差的改善,并且串扰估计值变得更符合实际,在一些方向上减少了一半,而在其他方向上增加到可以忽略不计的水平以上。图16。
与测定强度的影响因素之间的关系近似的等式如下:
其中
y是n(如,150)个循环期间一个测量通道的测定强度(例如,来自由九个传感器组成的贴片中的中间传感器)的向量,
c是n个循环期间来自位于中间传感器的上方、下方、左边和右边的传感器的测定强度的向量,
u是表示n个循环期间的活动信号的布尔向量,它表示处于正确时间(非定相或预定相)的标记为特定强度测量通道发射信号,该信号来源于碱基识别,
d是在n个循环期间传感器测量的标记荧光的减弱比例的估计衰减(或增强)向量,它减弱了信号,
W是n个循环期间定相(落后)(在正确的时间内)和预定相(超前)标记荧光的信号分布的估计矩阵,它是在多个循环期间增强的噪声增加部分,
H是从位于中间传感器的上方、下方、左边和右边的传感器的测定强度e溢出的中间传感器的测定强度y的串扰影响的估计矩阵,它是作为相邻测定强度的一个因素的噪声变化部分,
是对测定强度的估计背景强度影响,它是噪声稳定部分,可以在空间上和/或特性上针对中间像素对其进行个别设置,
是从中间流动池测量的纳米孔中的一个或两个簇发出的衍生信号,即:上述信号。
的计算公式:
是否有效?在一个解中重排点积的规则是什么?
该等式用于说明目的,因为如上所述,串扰的估计可以取决于相邻传感器之间背景测量值的特殊变化。该等式分别适用于每个强度测量通道,尽管估计的参数值可能相似。与衬底传感器相反,相同的表征方法可以应用于架空传感器,其中随着荧光标记接近传感器,衰减向量易于变成增强向量。
碱基识别系统
所公开的与先进系统(653、673)配套的技术通常适用于碱基识别系统,例如上文引用的第16/241,902号美国非临时专利申请的图1所示的碱基识别系统。
生物传感器
图2示出了可用于各种实施例的生物传感器200的横截面。生物传感器200具有像素区域206’、208’、210’、212’和214’,每个像素区域都可以在碱基识别循环期间支撑一个以上的簇(例如,每个像素区域两个簇)。如图所示,生物传感器200可以包括安装在采样装置204上的流动池202。在图示的实施例中,流动池202直接固定在采样装置204上。然而,在可选实施例中,流动池202可以可移除地耦接至采样装置204。采样装置204具有可被功能化(例如,以合适的方式进行化学或物理改性以进行所需的反应)的样本表面234。例如,样本表面234可以被功能化,并且可以包括多个像素区域206’、208’、210’、212’和214’,每个像素区域都可以在碱基识别循环期间支撑一个以上的簇(例如,每个像素区域都具有固定在其上的对应的簇对206AB、208AB、210AB、212AB或214AB)。每个像素区域与相应的传感器(或像素或光电二极管)206、208、210、212和214相关联,使得像素区域接收的光线被相应的传感器捕获。像素区域206’也可以与支撑一个簇对的样本表面234上对应的反应位点206”相关联,使得从反应位点206”发射的光线被像素区域206’接收并被对应的传感器206捕获。由于这种感测结构,在碱基识别循环期间特定传感器的像素区域中存在两个或更多个簇(例如,每个像素区域具有对应的簇对)的情况下,该碱基识别循环中的像素信号携带基于所有两个或更多个簇的信息。因此,本文所述的信号处理用于区分每个簇,其中在特定的碱基识别循环的给定采样事件中,簇的数量多于像素信号的数量。
在图示的实施例中,流动池202包括侧壁238、240和由侧壁238、240支撑的流动池盖236。侧壁238、240耦接至样本表面234,并在流动池盖236和侧壁238、240之间延伸。在一些实施例中,侧壁238、240由将流动池盖236结合至采样装置204的可固化粘合剂层形成。
侧壁238、240的尺寸和形状使得流动通道244存在于流动池盖236和采样装置204之间。如图所示,流动通道244可以包括由侧壁238、240确定的高度H1。高度H1可以在大约50μ0至400μ0(微米)之间,或者更具体地,大约80μ0至200μ0之间。在图示的实施例中,高度H1约为100μ0。流动池盖236可以包括对从生物传感器200的外部传播到流动通道244中的激发光201透明的材料。如图2所示,激发光201以非正交的角度接近流动池盖236。然而,这仅仅是为了说明目的,因为激发光201可以从不同的角度接近流动池盖236。
同样如图所示,流动池盖236可以包括入口和出口242、246,该入口和出口被配置成与其他端口(未示出)流体接合。例如,其他端口可能来自试剂盒或工作站。流动通道244的尺寸和形状被设置成沿着样本表面234引导流体。流动通道244的高度H1和其他尺寸可以被配置成保持流体沿着样本表面234基本均匀地流动。流动通道244的尺寸也可以配置成控制气泡的形成。
如图2的实例所示,侧壁238、240和流动池盖236是彼此耦接的独立部件。在可选实施例中,侧壁238、240和流动池盖236可以一体形成,使得侧壁238、240和流动池盖236由一块连续的材料形成。举例来说,流动池盖236(或流动池202)可以包括透明材料,例如玻璃或塑料。流动池盖236可以构成具有外平面和内平面的大致矩形的块,该块限定了流动通道244。该块可以安装在侧壁238、240上。可选地,可以对流动池202进行蚀刻以限定流动池盖236和侧壁238、240。例如,可以在透明材料中蚀刻出凹穴。当蚀刻的材料被安装至采样装置204时,凹穴可以变成流动通道244。
采样装置204可以类似于例如包括多个堆叠的衬底层220-226的集成电路。衬底层220-226可以包括基底220、固态成像器222(例如,CMOS图像传感器)、滤光层或光管理层224和钝化层226。应当说明的是,以上仅是说明性的,并且其他实施例可以包括更少或更多的层。此外,衬底层220-226中的每一个都可以包括多个子层。如将在下文更详细描述的,采样装置204可以采用与制造集成电路(例如,CMOS图像传感器和CCD)中采用的工艺类似的工艺来制造。例如,衬底层220-226或其部分可以通过生长、沉积、蚀刻等方式形成采样装置204。
钝化层226被配置成将滤光层224与流动通道244的流体环境屏蔽开。在一些情况下,钝化层226还被配置成提供固体表面(即,样本表面234),该固体表面允许生物分子或其他被关注的分析物固定在其上。例如,每个反应位点可以包括固定在样本表面234上的生物分子簇。因此,钝化层226可以由允许反应位点固定在其上的材料形成。钝化层226还可以包括至少对所需的荧光透明的材料。举例来说,钝化层226可以包括氮化硅(Si2N4)和/或二氧化硅(SiO2)。然而,可以采用其他合适的材料。在图示的实施例中,钝化层226可以是基本平坦的。然而,在可选实施例中,钝化层226可以包括凹穴,例如凹坑、孔、凹槽等。在所示的实施例中,钝化层226的厚度约为150nm至200nm,更具体地,约为170nm。
滤光层224可以包括影响光透射的各种特征。在一些实施例中,滤光层224可以执行多种功能。例如,滤光层224可以被配置成(a)过滤不需要的光信号(例如,来自激发光源的光信号);(b)将来自反应位点的发射信号导向相应的传感器206、208、210、212和214,这些传感器被配置成检测来自反应位点的发射信号;或者(c)阻止或防止检测来自相邻反应位点的不需要的发射信号。这样,滤光层224也可以被称为光管理层。在所示的实施例中,滤光层224的厚度约为1厚度至5μ厚,更具体地,约为2更具至4更具。在可选实施例中,滤光层224可以包括由显微透镜或其他光学组件组成的阵列。每个显微透镜可以被配置成将来自相关反应位点的发射信号导向传感器。
在一些实施例中,固态成像器222和基底220可以作为预先构造的固态成像器件(例如,CMOS流动池)一起提供。例如,基底220可以是硅晶片,并且固态成像器222可以安装在其上。固态成像器222包括一层半导体材料(例如,硅)和传感器206、208、210、212和214。在所示的实施例中,传感器是被配置成检测光线的光电二极管。在其他实施例中,传感器包括光检测器。固态成像器222可以通过基于CMOS的制造工艺制成单个流动池。
固态成像器222可以包括由传感器206、208、210、212和214组成的密集阵列,这些传感器被配置成检测来自流动通道244内或沿着流动通道244的指示所需反应的活动。在一些实施例中,每个传感器具有大约1至2平方微米(μm2)的像素面积(或检测面积)。该阵列可以包括50万个传感器、500万个传感器、1000万个传感器或者甚至1.2亿个传感器。传感器206、208、210、212和214可以被配置成检测指示所需反应的预定波长的光线。
在一些实施例中,采样装置204包括微电路装置,例如第7,595,882号美国专利中描述的微电路装置,其全部内容通过引用并入此文。更具体地,采样装置204可以包括具有由传感器206、208、210、212和214组成的平面阵列的集成电路。由传感器206、208、210、212和214组成的阵列可以通信耦接至行解码器和列放大器或解码器。列放大器还可以通信耦接至列模数转换器(列模数转换器/多路复用器)。其他电路可以耦接至上述组件,包括数字信号处理器和存储器。在采样装置204内形成的电路可以被配置成用于信号放大、数字化、存储和处理中的至少一个。该电路可以收集和分析检测到的荧光,并产生像素信号(或检测信号),用于将检测数据传送给信号处理器128。该电路还可以在采样装置204中执行其他的模拟和/或数字信号处理。采样装置204可以包括执行信号传输(例如,将像素信号传输至信号处理器128)的导电通孔230。像素信号也可以通过采样装置204的电气触点232传输。
然而,采样装置204不限于如上所述的上述构造或用途。在可选实施例中,采样装置204可以采取其他形式。例如,采样装置204可以包括耦接至流动池或移动至与其中具有反应位点的流动池结合的CCD器件,例如:CCD相机。在其他实施例中,采样装置204可以是CMOS制成的传感器,包括化学敏感场效应晶体管(chemFET)、离子敏感场效应晶体管(ISFET)和/或金属氧化物半导体场效应晶体管(MOSFET)。这样的实施例可以包括场效应晶体管(FET)阵列,该阵列可以被配置成检测反应腔内的电气性质的变化。例如,场效应晶体管可以检测各种分析物的存在和浓度变化中的至少一种。举例来说,场效应晶体管阵列可以监测氢离子浓度的变化。第2009/0127589号美国专利申请公告更详细地描述了这种采样装置,为了便于理解这种场效应晶体管阵列,该专利的全部内容通过引用并入本文。
图2还示出了可用于各种实施例的生物传感器250的横截面。生物传感器250具有孔256、258、260、262和264,每个孔可以在碱基识别循环期间容纳一个以上的簇(例如,每个孔两个簇)。样本表面234可以是基本平坦的(未示出)。在所示的实施例中,样本表面234的形状被设置成限定孔(或反应腔),其中每个孔具有一个或多个反应位点。孔可以由例如孔壁来限定,该孔壁有效地将一个孔的反应位点与相邻孔的反应位点分开。
如图2所示,孔256、258、260、262和264可以沿着样本表面234以一种样式分布。例如,孔256、258、260、262和264可以以类似于微阵列的方式沿着样本表面234以行和列定位。然而,应当理解的是,可以采用各种样式的孔256、258、260、262和264。在特定的实施例中,孔256、258、260、262和264中的每一个都包括固定在样本表面234上的一个以上的生物分子(例如,寡核苷酸)簇。例如,孔256容纳簇对206AB,孔258容纳簇对208AB,孔260容纳簇对210AB,孔262容纳簇对212AB,孔264容纳簇对214AB。
传感器被配置成检测从孔内发出的光信号。在特定的实施例中,像素区域206’、208’、210’、212’和214’还可以与样本表面234上的相应孔256、258、260、262和264相关联,使得从孔256、258、260、262和264发射的光被相关联的像素区域206’、208’、210’、212’和214’接收并被相应的传感器206、208、210、212和214捕获。
在实施例中,样本表面234具有相对于采样装置204的固定位置,使得孔256、258、260、262和264具有相对于至少一个预定传感器(或像素)的已知空间位置。该至少一个预定传感器检测来自上覆孔的所需反应的活动。这样,孔256、258、260、262和264可以被分配给传感器206、208、210、212和214中的至少一个。为此,采样装置204的电路可以包括内核,该内核自动将由预定传感器206、208、210、212和214提供的像素信号(或检测信号)与分配的孔256、258、260、262和264相关联。举例来说,当传感器206产生像素信号时,像素信号将自动与孔256相关联。这种配置可以便于处理和分析检测数据。例如,基于逐行和/或逐列解码,来自一个孔的像素信号可以自动位于阵列上的某个位置。
在一些实施例中,传感器(或像素)位于簇的下面或下方。在其他实施例中,传感器(或像素)位于簇的上面或上方。在另外一些实施例中,传感器(或像素)位于簇的一侧(例如,右侧和/或左侧)。
每个传感器(或像素)对多个簇进行碱基识别
在实施例中,所公开的技术通过使用来自比在碱基识别循环中进行碱基识别的多个簇更少的传感器(或像素)的像素信号来增加生物传感器205的通量。在特定的实施例中,如果生物传感器200具有N个主动式传感器,则所公开的技术使用来自N个主动式传感器的像素信号来对N+M个簇进行碱基识别,其中M是正整数。在实施例中,如下所述,这是通过每个传感器(或像素)对多个簇进行碱基识别来实现的。
在实施例中,样本表面234上的传感器(或像素)被配置成接收来自至少两个簇的光发射。在一些实施例中,传感器同时接收来自至少两个簇的光发射。
在特定的实施例中,两个簇各自的光发射强度显著不同,使得两个簇中的一个是“亮”簇,而另一个是“暗”簇。在实施例中,碱基识别循环之间的强度值不同,因此亮簇和暗簇的分类也可以在循环之间变化。在其他实施例中,亮簇被称为“主要”或“主导”簇,而暗簇被称为“次要”或“从属”簇。亮簇和暗簇之间的发射强度值比率的一些实例包括0.55:0.45、0.60:0.25、0.65:0.25、0.70:0.20、0.75:0.25、80:0.20、0.85:0.15、0.90:0.10和0.95:0.05。
在其他实施例中,所述至少两个簇不是亮簇和暗簇,而是具有不同强度的簇或产生不同类型信号的簇。
在每个采样事件期间(例如,每个光照阶段或每个图像采集阶段),信号处理器接收至少两个簇(例如,亮簇和暗簇)的单个公共像素信号。在每个采样事件中生成的单个公共像素包括/表示/反射/携带用于或来自至少两个簇(例如,亮簇和暗簇)的捕获的光发射/强度信号/光线/感测信息。换句话说,至少两个簇(例如,亮簇和暗簇)影响了在每个采样事件中生成的单个公共像素。因此,在每个采样事件中同时检测来自至少两个簇(例如,亮簇和暗簇)的光发射,并且单个公共像素反射来自所述至少两个簇(例如,亮簇和暗簇)的光发射。
例如,在图2中,簇对206AB包括共享传感器206的两个簇206A和206B。这样,根据它们各自的强度值,簇206A可以是暗簇,而簇206B可以是亮簇。信号处理器接着采用碱基识别算法将来自亮簇和暗簇的像素信号分类成十六个分布之一,如下所述。在特定的实施例中,亮簇和暗簇共同占据一个孔,例如:孔206。因此,可以基于共享像素区域、共享孔或两者来定义簇配对。
每个传感器(像素)两个孔
图3A示出了根据一个实施例的每个像素区域具有两个孔(包括主要孔和次要孔)的样本表面的侧视图300A。图3B示出了图3A的样本表面的顶视平面图300B。
在所示的实施例中,共享传感器306(或像素)对应于样本表面234上的两个孔302和304。主要孔在像素区域上方的横截面比次要孔大。孔304是主要孔,孔302是次要孔,因为孔304在传感器306上具有更大的横截面。
在实施例中,两个孔相对于像素区域306’的中心具有不同的偏移量。在所示的实施例中,主要孔304比次要孔302更靠近像素区域中心306A(即,主要孔304相对于像素区域中心306A的偏移量小于次要孔302)。
由于不同的横截面范围和相对偏移量结果,传感器306在碱基识别循环(或采样事件)的光照阶段从两个孔接收不同的发光量。由于孔302和304中的每一个容纳相应的簇302A和304A,因此不同的发光量允许将其中一个簇识别为亮簇(或主要簇)而另一个簇识别为暗簇(或次要簇)。在所示的实施例中,主要孔302内的簇302A被识别为亮簇,而次要孔304内的簇304A被识别为暗簇。在实施例中,传感器306从亮簇302A接收到的发光量大于从次要孔304中的暗簇304A接收到的发光量。
在亮簇和暗簇被识别之后,可以采用上述测序方案中的一种通过信号处理器138对它们进行碱基识别。在每个传感器(或像素)双孔的一些实施例中,所公开的技术通过使用一个共享传感器306对由两个相应的孔302和304容纳的两个簇302A和302B进行碱基识别来增加生物传感器300的通量。在每个传感器(或像素)双孔的其他实施例中,所公开的技术通过使用N个传感器对在样本表面234的对应N+M个孔中的N+M个簇进行碱基识别来增加生物传感器300的通量,其中M是正整数。在一些实施例中,M等于或几乎等于N。在其他实施例中,M可以不等于N或者甚至小于N。
解决信噪比逐渐减小的问题
图4概念性地示出了随着测序循环的进行,信噪比降低。上面的曲线显示逐渐减弱的信号。下面的曲线显示了逐渐增加的背景噪声。背景噪声中信号之间的差异减小,信噪比也随之减小。
我们在上面解释过,对于所研究的传感器,信号衰减是由于在离传感器(206)越来越远的位置将标记附着到链(206A)上而产生的。此外,定相和预定相(505)减弱了信号,因为它们增加了噪声。
通过影响由哪个标记发出荧光,定相和预定相(505)增加了连续测序循环中的噪声。定相和预定相影响哪个序列位置被标记并在扩增簇的各个样本链中产生光线,概率分布由多项展开式(513)表示。这种分布随着测序的进行而扩大。
如图4所示,随着循环的进行,信号的减弱和噪声的增加会降低信噪比并使碱基识别变得复杂。
图5示出了利用卷积内核来产生定相(落后)(在正确的时间内)和预定相(超前)标记荧光的信号分布的估计矩阵。示出了四项多项式(505)的构造和三项多项式(513)的应用。多项式的系数加起来是1或100%,因为这些系数代表了概率。系数(a)是一个循环期间化学处理未能推进序列标记的概率。也就是说,由荧光标记标记的核苷酸停留在与前一个循环相同的位置。在图12中,该事件的显示值为0.0017(即0.17%),约为1/600。系数(b)是过程按预期进行并且由荧光标记标记的核苷酸前进一个位置的主要概率。这种结果的概率为99.7%。系数(c)是预定相的概率,而系数(d)是两个位置预定相的概率。综合起来,在图12中,一个或两个位置预定相的概率是0.0012或0.12%,约为1/800。
三项多项式应用于循环0至循环2(513),说明了定相和预定相的多项式概率分布是如何随着循环的进行而扩大的。在循环0,假设标记的初始附着已完成。这是一种简化,有助于说明。在循环1中,三项多项式分别应用了过程将正确进行的主要概率(b)和任何单个链的标记将落后或超前的较小概率(a,c)。在循环2中,三项多项式被自身相乘,产生具有五项的二阶多项式。尽管该二阶多项式有五项,但是重复定相和落后两个循环的概率只有1/36000。重复预定相和超前两个循环的概率更小。在循环150中,三项多项式与其自身的重复相乘产生具有299项的多项式,其中首项和末项为150阶。由于在该实例中仅收集了150个强度信号,所以项151至299可以被忽略,并且可以不用在估计信号分布矩阵W中。
热图517示出了多项式分布是如何随着测序循环的进行而扩大的。分布形状类似一个圆锥。
图6为从捕捉的强度图导出实际信号以及区分信号和噪声的高水平框图。诸如iSeq 100(673)的测序装置采用流动池(653),获取强度读数,并对流动池上的簇进行碱基识别。对于表征和性能分析,碱基识别可以对照先前分析的样本。熟知的样本的序列真值可以在该样本的测序仪碱基识别和/或先前测序中。该真值用在对测序仪的性能进行表征的时候。利用该真值,可以校正特定传感器(621)和相邻传感器(643)的强度数据,以将定相(623)、强度衰减(625)、串扰(645)和背景读数(675)考虑进来。这些校正(647)的组合从捕获的强度中提取潜在信号(649)。在有信号状况下,提取的信号可以小于捕获强度的一半。
可以为特定像素计算定相(623)和强度衰减(625)的校正。在我们的实例中,针对该像素可以得到150个强度读数。随着测序的进行,定相和预定相对测定强度读数是针对当前位置/循环还是针对当前循环的理想位置之前或之后的位置的影响越来越大。由于针对整个读长都可以得到强度读数,因此对于本实例中的150个位置/循环,来自先前和后续位置的数据都可以用于进行定相校正(623)。这种校正可以采用位置相关的一维卷积进行。150个位置的位置相关卷积可以保持在150×150的信号分布估计矩阵W中。类似地,可以在位置相关的基础上为特定像素校正强度衰减(625)。强度衰减校正因子可以保存在150×1的估计衰减向量d中。
串扰校正(645)取决于相邻像素的强度读数(643)。来自相邻强度读数的一部分值增加了特定像素的强度读数。串扰系数与像素相关。尽管串扰与循环相关,但是这种相关性与相邻像素中的强度有关;串扰系数可以计算一次,而不取决于循环。
背景强度水平也影响了特定像素的强度读数。可以使用一般的背景水平作为第一近似值。在图14A、图14B和图15的情况下,当特定背景水平用于特定像素时,性能可能会提高,这将在下文中说明。
用于执行这些校正(例如,使用上述公式)的系数可以通过在梯度下降训练期间使用均方误差作为损失函数来拟合。信号是否存在于特定强度通道的真值可从样本的碱基识别中获得。通过将该真值编码为一个布尔值,为特定像素倍增地置入(1)或移除(0)信号项。
为了设定这些校正而需要拟合的参数相对较少。在特定的像素项中,需要拟合估计的衰减向量。拟合后,唯一未知的是潜在信号,其从其他值得出。在串扰项中,对于待拟合的串扰系数,需要考虑四个相邻像素的影响。可选地,可以使用更多的系数来考虑更多的相邻像素。例如,如果在正方形像素中使用六边形像素,则串扰将来自六个相邻像素。或者对于一个贴片来说。或者对于一个由九个像素组成的棋盘形贴片来说,所有的相邻像素都可以被用到。在背景项中,可以为每个特定像素拟合单个系数或拟合一个系数。可以基于单个像素的工作并考虑来自可能具有不同背景水平的相邻像素的串扰来为每个特定像素拟合系数。下文描述了一种用于计算像素特有的背景系数的方法,该方法考虑了来自相邻像素的串扰。由于需要拟合的系数很少,梯度下降法可以高效地计算系数。实际上,训练受益于学习率的变化。不需要进行丢弃法来避免过拟合。
校正的相对分布
所分析的每一次校正本身都是有价值的。下文讨论了它们的相对价值和组合价值。评估了校正后的残差,并且生成了热图,以确认对强度读数的影响的空间分布。图7至图12示出了当应用各种校正时,连续150个循环的预测值和强度读数。图13示出了生成的热图,这些热图显示了各种因素对各个像素处的测定强度的影响的空间分布。
图7示出了对一次运行中150个循环的分析,仅对衰减和背景进行了校正。请注意,只显示了一次运行,一个特定的像素。拟合后,残余均方误差为1298.20。以实心点表示的预测值和以空心点表示的实际数据显示在上图(710)中。对于无信号和有信号状况,预测值应用于特定的强度通道,忽略了串扰和定相。在下图中,对于无信号状况,预测的实心点处于的背景水平(739)为391.82。实际上,读数分散在预测的上方和下方。残差是预测值和实际值之间的差。下面一行的实心点中的间隙与上面一行中的实心点互补。在上面一行中,当预测有信号状况时,随着衰减影响信号,实线点从391.82+215.18=607向下倾斜到循环150处的大约540。
图733是无信号和有信号循环的簇的预测值与实际值或观测值的散点图。图735和图737是预测值和观测值之间的残差的归一化直方图,图735用于有信号状况,而图737用于无信号状况。从该表征(739)中得出的值包括均方误差(1298.20)、背景强度(391.82)、信号强度(215.18)和每循环衰减(0.263%)。
图8示出了对150个循环和一次运行的分析,其中除了衰减和背景外,还对定相进行了校正。定相分布由三项多项式表示,其中单循环定相概率为0.17%,正确行为概率为99.70%,预定相概率为0.12%。拟合后,残余均方误差降至1047.22。在上图810中,预测值和实际值用实心点和空心点表示。预测线不再是直线。随着实际值的变化,预测值的改进有时是显而易见的。例如,在循环100之前和之后预测的无信号状况随着实际观测值而上下波动。循环80前后的有信号状况也有更贴近观测值的预测值。
图833示出了分布云,而不是无信号状况的恒定预测值。图835和图837中的分布比不考虑定相的情况下的分布略微更紧密。从该表征(839)中得出的值包括均方误差(1047.22)、降低的背景强度(369.35)、提高的信号强度(238.47)和降低的每循环衰减(0.105%)。
图9示出了对一次运行中150个循环的分析,其中对串扰而不是定相进行了校正。串扰校正并没有像定相校正那样多地减少残余均方误差。残余均方误差为1077.49。如上图810所示,考虑了串扰时,计算得到的背景降低至300.27,同时对来自相邻像素的强度的影响很大。
图933显示了通过旋转而与实心对角线更加对齐的云。图935和图937中的分布具有通过串扰校正而不能很好预测的异常值。该校正(939)得出的值包括均方误差(1077.49)、降低的背景强度(300.27)、信号强度(212.61)和每循环衰减(0.242%)。来自上方相邻像素的计算串扰远远高于来自左侧写入器的计算串扰。拟合后,来自上方、下方、左侧和右侧的串扰系数分别为11.84%、4.75%、0.65%和0.96%。
图10示出了除了背景、强度和衰减的估计外,对定相和串扰的组合校正。通过应用与图8相同的三项多项式定相内核,定相和串扰的校正显著地将残余均方误差降低至845.59。在上图810中,预测值随着实际观测值上下波动,尤其是在循环40之后,其中预测值中的超调量极少。
图1033显示了很好地分散在实心对角线周围的云。图1035和图1037中的残差历史是越来越紧密的分布,其中,由于异常值,在无信号预测中有一些SKU。在循环20之后、循环100之前和循环130之前,可以看到低于观测值的预测值的异常值。该校正(1039)得出的值包括均方误差(845.59)、更低的背景强度(279.30)、信号强度(235.24)和降低的每循环衰减(0.0943%)。串扰系数显示,来自上方的串扰减少,并且来自其他相邻像素的串扰略微增加。来自上方、下方、左侧和右侧的串扰系数分别为10.64%、5.44%、0.81%和1.28%。
图11和图12利用扩展定相内核进行分析,扩展至五项和十项多项式。图11示出了将定相内核从3个循环扩展到5个循环,涵盖了最多三次跳跃的预定相。定相内核的扩展增加了特定循环中考虑的预定相向前跳跃的数量;相比之下,定相只会导致每个循环落后一个位置,因此定相系数的数量仍然是一。将预定相校正从一次跳跃增加到三次跳跃时,仅将均方误差从845.59降低到844.04,这在图10和图11之间的任何可视化图中产生了非常小的变化。背景、强度和每循环衰减都有小幅改善。来自上方和右侧像素的计算串扰略有增加,而来自下方和左侧像素的串扰没有变化。
图12示出了将定相内核进一步扩展到10个循环,涵盖了最多八次跳跃。在该内核中,正确标记作业的概率从99.70%略微降低到99.6%。这种极端的预定相校正仅将均方误差降低到834.13。背景略有下降,强度略有增加,并且衰减略有下降。可视化图中最明显的特征是在1237中,其中来自图1137的三分之二的低异常值点被带至更靠近分布的中心。
图13A至图F为基于对一个通道的强度图中各种因素对测定强度的影响的分析,通过对流动池的照片应用伪色而生成的一系列热图。所分析和图示的因素是背景光照(图13A)、背景传感器变化(图13B)、来自相邻像素的串扰(图13C)、定相和预定相(图13D和图13E)以及信号衰减(图13F)的影响。在150个循环期间,分别为每个像素计算参数。
定相图、预定相图和信号衰减图显示了变化的均匀分布。例如,信号衰减的图示(图13F)没有显示任何明显的模式,除了右下角流动池的出口处外。该出口区域显示了所有热图中的变化。定相和预定相的热图(图13D和图13E)也有均匀的分布,除了离底部五行的黑色斑点的左边有一个红色斑点。热图中定相和预定相之间的颜色差异表明定相比预定相的可能性稍大。正如预期的那样,热图中的均匀分布表明了测序期间几个因素的随机变化。
图13A和图13B将背景光照效果与传感器特有的背景读数偏差分开。背景光照热图(图13A)显示流动池左侧的光照比右侧更亮。除了光照效果,特定于传感器的背景读数偏差映射在图13B中。这种明显的制造或设计后果比预期的要大,正如下面在图14A和图14B的情况下所讨论的。
图13C示出了上下左右相邻像素的相对串扰影响。到目前为止,最大的影响因素是上方的像素,其位于正产生信号的中心像素的北面。下方的像素比左侧或右侧的相邻像素产生更多的串扰。(然而,下面的分析表明,这个估计值可能有偏差。)
对于制造和设计来说,这些热图表征了该特定流动池的性能,为设计和制造的改进提供了建议。光照不太均匀,但可以改善。来自上方和下方像素的系统性较大串扰表明设计或制造可能需要改进,或者可能仅仅是双孔设计(300B)中主要孔和次要孔设置不对称造成的。离底部五行的黑色斑点左边的红色斑点间接表明了一个制造缺陷,这需要通过分解该特定的流动池来检查。右下角的流动池出口处的红色斑点可能表明,设计需要改进。因此,流动池性能的表征可以改进制造和设计。
对于生产过程中的推理和碱基识别来说,这些热图确认了导出的系数和所确定的校正的一般适用性。待校正因素的准确识别可以实现深度学习系统的输入和结构的可靠设计。
图14A和图14B反映了背景读数中非随机分布的传感器特有的变化。图14A中的二维直方图显示,在250、750和900周围的三个范围内存在无信号状况的背景读数水平,如箭头所示。图14B中的标准直方图确定了垂直虚线左侧的台阶中的三个不同的背景水平。作为模型的改进,设置了各个像素背景水平,而不是具有统一的传感器背景读数。
图15示出了考虑到其相邻像素的背景水平来设置特定像素的背景水平的背景水平超参数方法。图15中的分析主题是,在无信号状况下是根据其最小背景水平来调整像素等级,还是根据略小于最小背景水平来调整像素等级。一种移动特定像素的信号水平的方法是在多个被测量的循环期间减去该像素(在该强度通道中)的最小信号水平。最小信号水平对应于无信号状况,与有信号状况相反。从直觉上来说,完全减去最小值是有吸引力的,但分析表明,减去稍小的值会实现更好的校正。曲线图1513以红色示出了特定像素的无信号状况和有信号状况下的测定强度值,并以蓝色示出了四个相邻像素的值。选择该特定像素是因为相邻像素包含了簇。对于五个像素中的每一个,针对无信号状况和有信号状况有不同的线。然而,这些不同的线在曲线图1531中相对靠近在一起,并且对于相邻的像素在视觉上是无法分辨的。
曲线图1515示出了按最小强度值的90%至100%调整特定像素的强度值时对均方误差的影响。正如预期的那样,通过减去其最小背景水平的增加部分来调整各个像素可以改善均方误差。令人惊讶的是,当使用100%的最小强度值作为调整因子时,改善在最小强度值的99%停止,并向上返回。这个观测结果可以通过创建一个自由参数来测试,shrinkage_limit:
Shifted_signals=signals-(min(signals)*shrinkage_limit),其中
signals(信号)是通道中一个像素的测定强度的向量,
min(signals)是该向量中的最小值,而
shrinkage_limit是通常在0.90到1.00范围内的超参数。
在本实例中,对shrinkage_limit超参数中微小变化的均方误差的分析显示,最佳校正在0.99处。
曲线图1517示出了像素强度读数的分布,对于五个像素减少了0.99*min(signals),其绘制在重新调整过比例的曲线图上。该曲线图是在调整后在0至225的范围内绘制强度水平,而不是在0至1000的强度水平范围内绘制。有信号状况下的上方点序列与无信号状况下的下方点序列在视觉上是分开的。在表1521和表1527中,估计的均方误差据报告被显著降低,并且从串扰估计值中去除了偏差。均方误差从82.85降低到57.54。均方误差的大幅降低是逐像素调整以从强度读数中去除了大部分背景后产生的结果。
在该像素位置,表1521和表1527表明来自上方像素的串扰不是主要的。去除偏差后,估计来自相邻像素的串扰几乎相等。与图7至图13的串扰系数相比,这较少地反映出制造或光照角度问题。在表1523和表1529中,给出了调整前后中心或红色像素的参数。
尽管强度信号有所下降,但它不再是背景水平的一小部分。衰减估计值略有增加。定相和预定相估计值略有下降。
图16包括示出了考虑了各个传感器固有的多个背景水平之后降低的串扰估计量的表格。这些表格包括其相邻像素含有DNA簇的像素之间串扰系数的中值数据。红色和绿色激光照射的两个强度通道用于三个不同的流动池。给出了上下左右相邻像素的串扰系数。调整后,估计的串扰系数是最初估计的系数的一半或更少。对于所分析的像素,基于传感器的固有背景水平的调整消除了来自上方相邻像素的串扰凌驾于来自其他相邻像素的串扰的现象,这出现在图7至图13中。
图18示出了定相和预定相效应的一个实例。
图19示出了空间串扰的一个实例。
图20示出了发射重叠的一个实例。
图21示出了衰落的一个实例。
图22为可用于实现所公开的技术的计算机系统。
在理想情况下,分析物中所有新生链的长度都是相同的。循环可逆终止(CRT)化学方法中的缺陷造成随机失效,这些随机失效导致新生链长度不均匀,在分析物中引入了滞后(太短)和前导(太长)新生链,并通过来自相邻核苷酸的信号污染来降低来自被探询位置的信号输出的纯度。定相和预定相效应是指特定循环的信号被前后循环的信号污染。定相和预定相会导致分析物的序列拷贝的读出失去同步性。
定相是由于3’终止子和荧光团没有完全去除以及分析物中的序列错过了掺入周期而引起的。预定相是由于没有有效3’-封闭的核苷酸掺入引起的。定相和预定相效应是一种非平稳失真,因此每个分析物中受定相和预定相影响的序列比例随着循环次数的增加而增加;妨碍了正确的碱基识别并限制了有用序列读长的长度。
滞后链(例如,来自当前循环的t-1)是由于因定相引起的不完全延伸而导致的。前导链(例如,来自当前循环的t+1)是由于因预定相而在一群相同的链中添加多个核苷酸或探针而导致的。用于指代定相和预定相的其他术语包括落后、前移、滞后、领先、失相、后定相、异相、不同步、不同步的核苷酸合成、异步、延后(CF)、不完全或过早延伸(IE)和下垂(DR)。
图18示出了定相和预定相效应1800的一个实例。如图18a所示,分析物的一些链领先(红色),而其他链滞后(蓝色),导致分析物的混合信号读出。图18b示出了在异质背景中每15个循环具有“C”脉冲的分析物片段的强度输出。注意一下由于定相和预定相效应1800而产生的预期信号(灰色箭头)和记忆信号(黑色箭头)。
空间串扰是指由相关分析物(或像素区域)的相应光检测器检测到的来自一个或多个非相关分析物(或像素区域)的信号或光发射。空间串扰是由来自相邻分析物的无用发射引起的。理想情况下,每种分析物的强度应仅对应于一种分析物序列。然而,观察到的强度常常包含来自相邻分析物序列的信号,而不是来自被探询/目标序列的信号,因此强度是不纯的。
图19示出了空间串扰的一个实例。图19示出了在检测器表面602上具有多个像素区域1956A-1956D的检测装置1900。检测装置1900包括光传感器1919A-1919D。光传感器1919A-1919D分别与像素区域1956A-1956D对应关联。相应的检测路径1940A-1940D在光传感器1919A-1919D和相应的像素区域1956A-1956D之间延伸。指示检测路径1940A-1940D的箭头仅仅是为了说明光线传播通过各个检测路径的大致方向。
在成像事件期间,检测装置1900被配置为使用光传感器1919A-1919D来检测光线。如图19中金字塔形杂乱线条标记的区域或地带所示,光发射(或发射信号)正从像素区域1956A和1956B传播,但是光发射不从像素区域1956C或1956D传播。光发射可以指示例如位于相应像素区域的分析物和另一个生物分子之间的阳性结合事件。在特定的实施方式中,像素区域1956A-1956D由激发光(例如,532nm)照射。像素区域1956A和1956B结合到具有光标记(例如,荧光部分)的相应生物分子。响应于激发刺激,像素区域1956A和1956B提供光发射,如图19所示。
然而,像素区域1956和光传感器1919的位置可以彼此相对靠近,使得来自非关联像素区域的光发射可以被光传感器检测到。这种光发射可以被称为串扰发射或空间串扰。举例来说,从像素区域1956A传播的光发射包括串扰信号和像素信号。来自像素区域1956A的光发射的像素信号是被配置为由光传感器1919A检测的光发射的信号。换句话说,像素信号包括以一般朝向光传感器1919A的角度传播的光发射,使得限定检测路径1940A的滤光壁1930能够将光发射导向光传感器1919A。串扰信号是光发射的信号,该信号穿过限定检测路径1940A的滤光壁1930,并传播到例如检测路径1940B中。在这类情况下,串扰信号可以被导向与像素区域1956A不相关的光传感器1919B。因此,光传感器1919B可以被称为相对于像素区域1956A的非关联光传感器。
当采用图19所示的实施方式作为一个实例时,光传感器1919A可以检测来自像素区域1956A的像素发射和来自像素区域1956B的串扰发射。类似地,光传感器1919B可以检测来自像素区域1956B的像素发射和来自像素区域1956A的串扰发射。光传感器1919C可以检测来自像素区域1956B的串扰发射。然而,像素区域1956C没有提供图19中的光发射。因此,由光传感器1919C检测到的光线量小于由光传感器1919A和1919B检测到的相应光线量。如图19所示,光传感器1919C仅检测来自像素区域1956B的串扰发射,并且光传感器1919D不检测串扰发射或像素发射。
衰落是荧光信号强度中取决于循环次数的指数衰减。随着测序运行的进行,分析物链被过度洗涤,暴露于产生活性种的激光发射下,并受到恶劣环境条件的影响。所有这些都会导致每种分析物中的片段逐渐丢失,从而降低其荧光信号强度。衰落还被称为变暗或信号衰减。图20示出了衰落2000的一个实例。在图20中,具有AC微卫星的分析物片段的强度值显示出指数衰减。
计算机系统
图21是计算机系统2100,该计算机系统可用于实现本文所公开的基于卷积的碱基识别和基于紧凑卷积的碱基识别。计算机系统2100包括至少一个通过总线子系统2155与一些外围设备通信的中央处理器(CPU)2172。这些外围设备可包括存储子系统2110(例如,包括存储器设备和文件存储子系统2121)、用户接口输入设备2138、用户接口输出设备2176和网络接口子系统2174。所述输入和输出设备实现与计算机系统2100的用户交互。网络接口子系统2174提供了一个针对外部网络的接口,包括针对其他计算机系统中对应的接口设备的接口。
在一个实施方式中,模型623与存储子系统2110和用户接口输入设备2138通信连接。
用户接口输入设备2138可包括键盘、指示设备(例如:鼠标、轨迹球、触摸板或图形输入板)、扫描仪、整合在显示器中的触摸屏、音频输入设备(例如:语音识别系统和麦克风)以及其它类型的输入设备。通常,术语“输入设备”的使用意在包括将信息输入计算机系统2100的所有可能类型的设备和方式。
用户接口输出设备2176可包括显示子系统、打印机、传真机或非视频显示器(例如:语音输出设备)。显示子系统可包括LED显示器、阴极射线管(CRT)显示器、平板设备(例如:液晶显示器(LCD))、投影设备或用于产生可见图像的其它一些机构。显示子系统还可提供非视频显示器(例如:语音输出设备)。通常,术语“输出设备”的使用意在包括将信息从计算机系统2100输出给用户或另一台机器或计算机系统的所有可能类型的设备和方式。
存储子系统2110存储了编程和数据结构,这些编程和数据结构提供了本文所述的一些或全部模块和方法的功能。这些软件模块一般通过深度学习处理器2178来执行。
深度学习处理器2178可以是图形处理器(GPU)、现场可编程门阵列(FPGA)、应用专用集成电路(ASIC)和/或粗粒度可重构结构(CGRA)。深度学习处理器2178可由深度学习云平台(例如:Google云平台TM、XilinxTM和CirrascaleTM)托管。深度学习处理器2178的实例包括Google张量处理器(TPU)TM、机架式方案(例如:GX4 Rackmount系列TM和GX21 Rackmount系列TM)、英伟达DGX-1TM、微软Stratix V FPGATM、Graphcore智能处理器单元(IPU)TM、具有骁龙处理器TM的高通Zeroth平台TM、英伟达VoltaTM、英伟达DRIVE PXTM、英伟达JETSON TX1/TX2MODULETM、英特尔NirvanaTM、Movidius VPUTM、富士通DPITM、ARM DynamicIQTM、IBMTrueNorthTM等。
在存储器子系统2110中使用的存储子系统2122可包括若干个存储器,其包括在程序执行期间用于存储指令和数据的主随机存取存储器(RAM)2132和存储固定指令的只读存储器(ROM)2121。文件存储子系统2121可永久存储程序和数据文件,且可以包括硬盘驱动器、软盘驱动器及相关的可移动介质、CD-ROM驱动器、光驱或可移动介质磁带。实施某些实施方式的功能的模块可由存储子系统2110中的文件存储子系统2121存储,或者可以存储在由所述处理器访问的其它机器中。
总线子系统2155为使计算机系统2100的各种组件和子系统按预期的方式彼此通信提供了一种机制。虽然总线子系统2155被示意性地显示为单条总线,但是总线子系统的可选实施方式可以使用多条总线。
计算机系统2100自身可以是不同的类型,包括个人计算机、便携式计算机、工作站、计算机终端、网络计算机、电视、大型主机、服务器群、分布广泛的松散联网的计算机集群或者任何其它的数据处理系统或用户设备。由于计算机和网络不断变化的特性,图21所示的计算机系统2100的描述仅作为用于说明本发明的优选实施方式的特定实例。计算机系统2100的许多其它配置可能比图21所示的计算机系统具有更多或更少的部件。
特定实施方式
我们描述了根据测定强度确定标记信号的各种实施方式。一种实施方式的一个或多个特征可以与基本实施方式相结合。相互不排斥的实施方式被教导为是可组合的。一种实施方式的一个或多个特征可以与其他实施方式相结合。本公开定期提醒用户这些选项。对重复这些选项的叙述的一些实施方式的省略不应该被认为是对前面部分中教导的组合的限制,因此这些叙述通过引用并入下面的每个实施方式中。
在一种实施方式中,我们公开了一种根据测定强度确定标记信号的由计算机实现的方法。这些测定强度由指向样本表面的传感器阵列中的光传感器收集。样本表面包括像素区域,并在一系列采样事件期间容纳多个簇。在每个采样周期期间,每个光传感器指向并测量来自一个像素区域的强度。
通过将串扰估计值应用于各个采样周期中相邻像素的测定强度,调整确定器1702确定针对来自相邻像素的串扰对采样周期中来自一个像素的测定强度进行调整。
调整确定器1702确定针对背景强度对采样周期中来自像素的测定强度进行进一步调整。
标记信号确定器1704确定在采样周期中源自像素的标记信号,考虑对测定强度进行调整和进一步调整,结合至少修改这些测定强度以考虑该系列采样事件的进程中的信号衰减,并用于定相和预定相。
强度修改器1712通过渐进衰减函数修改采样周期中的测定强度,该渐进衰减函数考虑了该系列采样事件中每个采样周期多晚出现。
分布函数应用器1712将分布函数应用于至少当前、先前和后续的测定强度,在采样周期中使用像素的信号存在真值,并将由于定相和预定相导致的强度影响与当前标记信号对当前测定强度的影响分开。
在本节和所公开技术的其他章节中描述的方法可以包括一个或多个以下特征和/或结合所公开的其他方法描述的特征。为了简明起见,在本申请中公开的特征的组合没有单独列举,也没有用每个基本特征集来重复。读者将会理解在这些实施方式中识别的特征如何能够轻易地与在其他实施方式中识别的基本特征集合相结合。
在一个实施方式中,定相和预定相的分布函数考虑了该系列采样事件的进程中变宽的分布。在一个实施方式中,变宽的分布是通过将定相内核与其自身反复卷积来确定的。
在一个实施方式中,定相内核包括三个项,用于序列处理按预期进行、未能进行和向前跳跃一个位置的概率。在一个实施方式中,定相内核包括五个项,用于序列处理按预期进行、未能进行、向前跳跃一个位置、向前跳跃两个位置以及向前跳跃三个位置的概率。
在一个实施方式中,衰减函数是指数衰减函数。在一个实施方式中,利用逐像素背景系数对像素执行背景强度的调整。
在一个实施方式中,背景强度的调整是像素的最小测定强度与该系列采样事件中的测定强度之间的0.95至0.995的比例。在一个实施方式中,考虑到来自相邻像素的串扰与像素和相邻像素的背景调整之间的相互作用来确定该比例。
在一个实施方式中,利用逐像素串扰系数对像素进行串扰调整。在一些实施方式中,系数确定器1722通过对像素的信号存在真值和像素的该系列采样事件的测定强度应用梯度下降来确定串扰估计的系数、背景强度的系数、衰减函数的系数和分布函数的系数。
在一个实施方式中,将采样事件应用于已知样本,并且信号存在真值基于该已知样本被转换为像素处的部分测序的可靠测序。在一个实施方式中,训练器1724在多个训练轮次内改变梯度下降的学习率。
本节中描述的方法的其他实施方式可以包括存储可由处理器执行以执行上述任何方法的指令的非暂时性计算机可读存储介质。在本节中描述的方法的又一个实施方式可以包括一种系统,该系统包括存储器和一个或多个处理器,该处理器可操作来执行存储在存储器中的指令,以执行上述任何方法。

Claims (39)

1.一种根据测定强度确定标记信号的由计算机实现的方法,所述测定强度由指向样本表面的传感器阵列中的光传感器收集,所述样本表面包括像素区域并在一系列采样事件期间容纳多个簇,每个光传感器在每个采样周期期间指向所述像素区域中的一个并测量来自所述像素区域中的一个的强度,所述由计算机实现的方法包括:
通过将串扰估计值应用于各个采样周期中相邻像素的测定强度,确定针对来自所述相邻像素的串扰对采样周期中来自一个像素的测定强度进行的调整;
在逐像素的基础上,通过去除与像素相关联的最小背景水平的一部分,确定针对背景强度对采样周期中来自所述像素的测定强度进行的进一步调整;以及
确定在采样周期中源自所述像素的标记信号,考虑对所述测定强度进行的调整和进一步调整,结合至少修改所述测定强度以考虑所述系列采样事件的进程中的信号衰减,并用于定相和预定相,包括:
通过渐进衰减函数修改采样周期中的测定强度,所述渐进衰减函数考虑了所述系列采样事件中每个采样周期多晚出现;以及
将分布函数应用于至少当前、先前和后续的测定强度,在采样周期中使用所述像素的信号存在真值,并将由于定相和预定相导致的强度影响与当前标记信号对当前的测定强度的影响分开。
2.根据权利要求1所述的由计算机实现的方法,其中用于定相和预定相的分布函数考虑了所述系列采样事件的进程中变宽的分布。
3.根据权利要求2所述的由计算机实现的方法,其中所述变宽的分布是通过将定相内核与其自身反复卷积来确定的。
4.根据权利要求3所述的由计算机实现的方法,其中所述定相内核包括三个项,用于所述系列采样事件按预期进行、未能进行和向前跳跃一个位置的概率。
5.根据权利要求3所述的由计算机实现的方法,其中所述定相内核包括五个项,用于所述系列采样事件按预期进行、未能进行、向前跳跃一个位置、向前跳跃两个位置以及向前跳跃三个位置的概率。
6.根据权利要求1所述的由计算机实现的方法,其中所述渐进衰减函数是指数衰减。
7.根据权利要求1所述的由计算机实现的方法,其中利用逐像素背景系数对所述像素执行背景强度的调整。
8.根据权利要求7所述的由计算机实现的方法,其中对背景强度的调整包括:在所述系列采样事件中的测定强度中去除0.95至0.995之间的与像素相关联的最小背景水平。
9.根据权利要求8所述的由计算机实现的方法,其中去除最小背景水平的一部分是考虑到来自所述相邻像素的串扰与所述像素和所述相邻像素的背景调整之间的相互作用来确定的。
10.根据权利要求1所述的由计算机实现的方法,其中利用逐像素串扰系数对所述像素进行串扰调整。
11.根据权利要求1所述的由计算机实现的方法,进一步包括:通过对所述像素的信号存在真值和所述像素的系列采样事件的测定强度应用梯度下降来确定相应的串扰估计的系数、所述背景强度的系数、所述渐进衰减函数的系数和所述分布函数的系数。
12.根据权利要求11所述的由计算机实现的方法,其中将所述采样事件应用于已知样本,并且所述信号存在真值基于所述已知样本被转换为所述像素处的部分测序的可靠测序。
13.根据权利要求11所述的由计算机实现的方法,进一步包括:在多个训练轮次内改变所述梯度下降的学习率。
14.一种非暂时性计算机可读存储介质,所述非暂时性计算机可读存储介质存有计算机程序指令以根据测定强度确定标记信号,所述测定强度由指向样本表面的传感器阵列中的光传感器收集,所述样本表面包括像素区域并在一系列采样事件期间容纳多个簇,每个光传感器在每个采样周期期间指向所述像素区域中的一个并测量来自所述像素区域中的一个的强度,所述计算机程序指令在被处理器执行时实现多个动作,包括:
通过将串扰估计值应用于各个采样周期中相邻像素的测定强度,确定针对来自所述相邻像素的串扰对采样周期中来自一个像素的测定强度进行的调整;
在逐像素的基础上,通过去除与像素相关联的最小背景水平的一部分,确定针对背景强度对采样周期中来自所述像素的测定强度进行的进一步调整;以及
确定在采样周期中源自所述像素的标记信号,考虑对所述测定强度进行的调整和进一步调整,结合至少修改所述测定强度以考虑所述系列采样事件的进程中的信号衰减,并用于定相和预定相,包括:
通过渐进衰减函数修改采样周期中的测定强度,所述渐进衰减函数考虑了所述系列采样事件中每个采样周期多晚出现;以及
将分布函数应用于至少当前、先前和后续的测定强度,在采样周期中使用所述像素的信号存在真值,并将由于定相和预定相导致的强度影响与当前标记信号对当前的测定强度的影响分开。
15.根据权利要求14所述的非暂时性计算机可读存储介质,其中用于定相和预定相的分布函数考虑了所述系列采样事件的进程中变宽的分布。
16.根据权利要求15所述的非暂时性计算机可读存储介质,其中所述变宽的分布是通过将定相内核与其自身反复卷积来确定的。
17.根据权利要求16所述的非暂时性计算机可读存储介质,其中所述定相内核包括三个项,用于所述系列采样事件按预期进行、未能进行和向前跳跃一个位置的概率。
18.根据权利要求16所述的非暂时性计算机可读存储介质,其中所述定相内核包括五个项,用于所述系列采样事件按预期进行、未能进行、向前跳跃一个位置、向前跳跃两个位置以及向前跳跃三个位置的概率。
19.根据权利要求14所述的非暂时性计算机可读存储介质,其中所述渐进衰减函数是指数衰减。
20.根据权利要求14所述的非暂时性计算机可读存储介质,其中利用逐像素背景系数对所述像素执行背景强度的调整。
21.根据权利要求20所述的非暂时性计算机可读存储介质,其中对背景强度的调整包括:在所述系列采样事件中的测定强度中去除0.95至0.995之间的与像素相关联的最小背景水平。
22.根据权利要求21所述的非暂时性计算机可读存储介质,其中去除最小背景水平的一部分是考虑到来自所述相邻像素的串扰与所述像素和所述相邻像素的背景调整之间的相互作用来确定的。
23.根据权利要求14所述的非暂时性计算机可读存储介质,其中利用逐像素串扰系数对所述像素进行串扰调整。
24.根据权利要求14所述的非暂时性计算机可读存储介质,进一步包括在被处理器执行时实现多个动作的计算机程序指令,所述多个动作包括:
通过对所述像素的信号存在真值和所述像素的系列采样事件的测定强度应用梯度下降来确定相应的串扰估计的系数、所述背景强度的系数、所述渐进衰减函数的系数和所述分布函数的系数。
25.根据权利要求24所述的非暂时性计算机可读存储介质,其中将所述采样事件应用于已知样本,并且所述信号存在真值基于所述已知样本被转换为所述像素处的部分测序的可靠测序。
26.根据权利要求24所述的非暂时性计算机可读存储介质,进一步包括在被处理器执行时实现多个动作的计算机程序指令,所述多个动作包括:
在多个训练轮次内改变所述梯度下降的学习率。
27.一种计算机系统,所述计算机系统包括与存储器耦接的一个或多个处理器,所述存储器装载有计算机指令以根据测定强度确定标记信号,所述测定强度由指向样本表面的传感器阵列中的光传感器收集,所述样本表面包括像素区域并在一系列采样事件期间容纳多个簇,每个光传感器在每个采样周期期间指向所述像素区域中的一个并测量来自所述像素区域中的一个的强度,所述指令在被所述处理器执行时实现多个动作,包括:
通过将串扰估计值应用于各个采样周期中相邻像素的测定强度,确定针对来自所述相邻像素的串扰对采样周期中来自一个像素的测定强度进行的调整;
在逐像素的基础上,通过去除与像素相关联的最小背景水平的一部分,确定针对背景强度对采样周期中来自所述像素的测定强度进行的进一步调整;以及
确定在采样周期中源自所述像素的标记信号,考虑对所述测定强度进行的调整和进一步调整,结合至少修改所述测定强度以考虑所述系列采样事件的进程中的信号衰减,并用于定相和预定相,包括:
通过渐进衰减函数修改采样周期中的测定强度,所述渐进衰减函数考虑了所述系列采样事件中每个采样周期多晚出现;以及
将分布函数应用于至少当前、先前和后续的测定强度,在采样周期中使用所述像素的信号存在真值,并将由于定相和预定相导致的强度影响与当前标记信号对当前的测定强度的影响分开。
28.根据权利要求27所述的计算机系统,其中用于定相和预定相的分布函数考虑了所述系列采样事件的进程中变宽的分布。
29.根据权利要求28所述的计算机系统,其中所述变宽的分布是通过将定相内核与其自身反复卷积来确定的。
30.根据权利要求29所述的计算机系统,其中所述定相内核包括三个项,用于所述系列采样事件按预期进行、未能进行和向前跳跃一个位置的概率。
31.根据权利要求29所述的计算机系统,其中所述定相内核包括五个项,用于所述系列采样事件按预期进行、未能进行、向前跳跃一个位置、向前跳跃两个位置以及向前跳跃三个位置的概率。
32.根据权利要求27所述的计算机系统,其中所述渐进衰减函数是指数衰减。
33.根据权利要求27所述的计算机系统,其中利用逐像素背景系数对所述像素执行背景强度的调整。
34.根据权利要求33所述的计算机系统,其中对背景强度的调整包括:在所述系列采样事件中的测定强度中去除0.95至0.995之间的与像素相关联的最小背景水平。
35.根据权利要求34所述的计算机系统,其中去除最小背景水平的一部分是考虑到来自所述相邻像素的串扰与所述像素和所述相邻像素的背景调整之间的相互作用来确定的。
36.根据权利要求27所述的计算机系统,其中利用逐像素串扰系数对所述像素进行串扰调整。
37.根据权利要求27所述的计算机系统,多个动作的实现进一步包括:通过对所述像素的信号存在真值和所述像素的系列采样事件的测定强度应用梯度下降来确定相应的串扰估计的系数、所述背景强度的系数、所述渐进衰减函数的系数和所述分布函数的系数。
38.根据权利要求37所述的计算机系统,其中将所述采样事件应用于已知样本,并且所述信号存在真值基于所述已知样本被转换为所述像素处的部分测序的可靠测序。
39.根据权利要求37所述的计算机系统,多个动作的实现进一步包括:在多个训练轮次内改变所述梯度下降的学习率。
CN202080003540.9A 2019-05-16 2020-05-15 用于基于像素测序的表征和性能分析的系统和设备 Active CN112368567B (zh)

Applications Claiming Priority (11)

Application Number Priority Date Filing Date Title
US201962849132P 2019-05-16 2019-05-16
US201962849091P 2019-05-16 2019-05-16
US201962849133P 2019-05-16 2019-05-16
US62/849091 2019-05-16
US62/849132 2019-05-16
US62/849133 2019-05-16
US16/874633 2020-05-14
US16/874599 2020-05-14
US16/874,599 US11423306B2 (en) 2019-05-16 2020-05-14 Systems and devices for characterization and performance analysis of pixel-based sequencing
US16/874,633 US11593649B2 (en) 2019-05-16 2020-05-14 Base calling using convolutions
PCT/US2020/033280 WO2020232409A1 (en) 2019-05-16 2020-05-15 Systems and devices for characterization and performance analysis of pixel-based sequencing

Publications (2)

Publication Number Publication Date
CN112368567A CN112368567A (zh) 2021-02-12
CN112368567B true CN112368567B (zh) 2024-04-16

Family

ID=74041703

Family Applications (3)

Application Number Title Priority Date Filing Date
CN202080003513.1A Active CN112313750B (zh) 2019-05-16 2020-05-15 使用卷积的碱基识别
CN202080003540.9A Active CN112368567B (zh) 2019-05-16 2020-05-15 用于基于像素测序的表征和性能分析的系统和设备
CN202311510081.5A Pending CN117935916A (zh) 2019-05-16 2020-05-15 使用卷积的碱基识别

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202080003513.1A Active CN112313750B (zh) 2019-05-16 2020-05-15 使用卷积的碱基识别

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202311510081.5A Pending CN117935916A (zh) 2019-05-16 2020-05-15 使用卷积的碱基识别

Country Status (4)

Country Link
EP (3) EP3970151A1 (zh)
CN (3) CN112313750B (zh)
AU (2) AU2020276115A1 (zh)
CA (2) CA3104851A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11210554B2 (en) 2019-03-21 2021-12-28 Illumina, Inc. Artificial intelligence-based generation of sequencing metadata
US11347965B2 (en) 2019-03-21 2022-05-31 Illumina, Inc. Training data generation for artificial intelligence-based sequencing
US11423306B2 (en) 2019-05-16 2022-08-23 Illumina, Inc. Systems and devices for characterization and performance analysis of pixel-based sequencing
US11593649B2 (en) 2019-05-16 2023-02-28 Illumina, Inc. Base calling using convolutions
CN115136244A (zh) 2020-02-20 2022-09-30 因美纳有限公司 基于人工智能的多对多碱基判读
WO2022197754A1 (en) * 2021-03-16 2022-09-22 Illumina Software, Inc. Neural network parameter quantization for base calling
CN117063240A (zh) 2021-12-24 2023-11-14 上海芯像生物科技有限公司 基于深度学习的核酸测序方法和系统
CN115376613A (zh) * 2022-09-13 2022-11-22 郑州思昆生物工程有限公司 一种碱基类别检测方法、装置、电子设备及存储介质
CN117726621B (zh) * 2024-02-05 2024-06-25 深圳赛陆医疗科技有限公司 基于深度学习的基因测序碱基质量评估方法、产品、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7576371B1 (en) * 2006-03-03 2009-08-18 Array Optronix, Inc. Structures and methods to improve the crosstalk between adjacent pixels of back-illuminated photodiode arrays
CN102985803A (zh) * 2010-02-19 2013-03-20 加利福尼亚太平洋生物科学股份有限公司 集成的分析系统和方法
CN105473998A (zh) * 2013-12-13 2016-04-06 生物辐射实验室股份有限公司 具有动态生长图像的无损读取操作
CN105980578A (zh) * 2013-12-16 2016-09-28 考利达基因组股份有限公司 用于使用机器学习进行dna测序的碱基判定器
EP3130681A1 (en) * 2015-08-13 2017-02-15 Centrillion Technology Holdings Corporation Methods for synchronizing nucleic acid molecules

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6090592A (en) 1994-08-03 2000-07-18 Mosaic Technologies, Inc. Method for performing amplification of nucleic acid on supports
US5641658A (en) 1994-08-03 1997-06-24 Mosaic Technologies, Inc. Method for performing amplification of nucleic acid with two primers bound to a single solid support
JP2001517948A (ja) 1997-04-01 2001-10-09 グラクソ、グループ、リミテッド 核酸配列決定法
AR021833A1 (es) 1998-09-30 2002-08-07 Applied Research Systems Metodos de amplificacion y secuenciacion de acido nucleico
AR031640A1 (es) 2000-12-08 2003-09-24 Applied Research Systems Amplificacion isotermica de acidos nucleicos en un soporte solido
US20040002090A1 (en) 2002-03-05 2004-01-01 Pascal Mayer Methods for detecting genome-wide sequence variations associated with a phenotype
EP3175914A1 (en) 2004-01-07 2017-06-07 Illumina Cambridge Limited Improvements in or relating to molecular arrays
US7709197B2 (en) 2005-06-15 2010-05-04 Callida Genomics, Inc. Nucleic acid analysis by random mixtures of non-overlapping fragments
GB0514936D0 (en) 2005-07-20 2005-08-24 Solexa Ltd Preparation of templates for nucleic acid sequencing
GB0522310D0 (en) 2005-11-01 2005-12-07 Solexa Ltd Methods of preparing libraries of template polynucleotides
WO2007107710A1 (en) 2006-03-17 2007-09-27 Solexa Limited Isothermal methods for creating clonal single molecule arrays
US20080242560A1 (en) 2006-11-21 2008-10-02 Gunderson Kevin L Methods for generating amplified nucleic acid arrays
EP2639578B1 (en) 2006-12-14 2016-09-14 Life Technologies Corporation Apparatus for measuring analytes using large scale fet arrays
EP2173467B1 (en) 2007-07-13 2016-05-04 The Board Of Trustees Of The Leland Stanford Junior University Method and apparatus using electric field for improved biological assays
US7595882B1 (en) 2008-04-14 2009-09-29 Geneal Electric Company Hollow-core waveguide-based raman systems and methods
US8965076B2 (en) * 2010-01-13 2015-02-24 Illumina, Inc. Data processing system and methods
US9096899B2 (en) 2010-10-27 2015-08-04 Illumina, Inc. Microdevices and biosensor cartridges for biological or chemical analysis and systems and methods for the same
US9387476B2 (en) 2010-10-27 2016-07-12 Illumina, Inc. Flow cells for biological or chemical analysis
PT3623481T (pt) 2011-09-23 2021-10-15 Illumina Inc Composições para sequenciação de ácidos nucleicos
US8637242B2 (en) 2011-11-07 2014-01-28 Illumina, Inc. Integrated sequencing apparatuses and methods of use
US9193998B2 (en) 2013-03-15 2015-11-24 Illumina, Inc. Super resolution imaging
EP3116651B1 (en) 2014-03-11 2020-04-22 Illumina, Inc. Disposable, integrated microfluidic cartridge and methods of making it
EP3148697A1 (en) 2014-05-27 2017-04-05 Illumina, Inc. Systems and methods for biochemical analysis including a base instrument and a removable cartridge
CA3225867A1 (en) 2015-03-24 2016-09-29 Illumina, Inc. Methods, carrier assemblies, and systems for imaging samples for biological or chemical analysis
US10976334B2 (en) 2015-08-24 2021-04-13 Illumina, Inc. In-line pressure accumulator and flow-control system for biological or chemical assays
US11579336B2 (en) 2016-04-22 2023-02-14 Illumina, Inc. Photonic structure-based devices and compositions for use in luminescent imaging of multiple sites within a pixel, and methods of using the same
CN109313328A (zh) 2016-06-21 2019-02-05 伊鲁米那股份有限公司 超分辨率显微术
KR102385560B1 (ko) * 2017-01-06 2022-04-11 일루미나, 인코포레이티드 페이징 보정
CN109614981B (zh) * 2018-10-17 2023-06-30 东北大学 基于斯皮尔曼等级相关的卷积神经网络的电力系统智能故障检测方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7576371B1 (en) * 2006-03-03 2009-08-18 Array Optronix, Inc. Structures and methods to improve the crosstalk between adjacent pixels of back-illuminated photodiode arrays
CN102985803A (zh) * 2010-02-19 2013-03-20 加利福尼亚太平洋生物科学股份有限公司 集成的分析系统和方法
CN105473998A (zh) * 2013-12-13 2016-04-06 生物辐射实验室股份有限公司 具有动态生长图像的无损读取操作
CN105980578A (zh) * 2013-12-16 2016-09-28 考利达基因组股份有限公司 用于使用机器学习进行dna测序的碱基判定器
EP3130681A1 (en) * 2015-08-13 2017-02-15 Centrillion Technology Holdings Corporation Methods for synchronizing nucleic acid molecules

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Ashley Cacho et al.A Comparison of Base-calling Algorithms for Illumina Sequencing Technology.《Briefings in bioinformatics》.2015,17(5),786-795. *
Bo Wang et al.An adaptive decorrelation method removes illumina DNA base-calling errors caused by crosstalk between adjacent clusters.《Scientific reports》.2017,(7),1-11. *

Also Published As

Publication number Publication date
CN112368567A (zh) 2021-02-12
EP3969884A1 (en) 2022-03-23
EP3969884C0 (en) 2024-04-17
AU2020276115A1 (en) 2021-01-07
CN112313750B (zh) 2023-11-17
CN112313750A (zh) 2021-02-02
AU2020273459A1 (en) 2021-01-07
CN117935916A (zh) 2024-04-26
CA3104854A1 (en) 2020-11-19
EP4394778A2 (en) 2024-07-03
EP3970151A1 (en) 2022-03-23
EP4394778A3 (en) 2024-08-28
CA3104851A1 (en) 2020-11-19
EP3969884B1 (en) 2024-04-17

Similar Documents

Publication Publication Date Title
CN112368567B (zh) 用于基于像素测序的表征和性能分析的系统和设备
US12106828B2 (en) Systems and devices for signal corrections in pixel-based sequencing
US11378544B2 (en) High-throughput sequencing with semiconductor-based detection
EP3913358B1 (en) High-throughput sequencing with semiconductor-based detection
JP2023525993A (ja) 等化ベースの画像処理及び空間クロストーク減衰器
US20220301657A1 (en) Tile location and/or cycle based weight set selection for base calling
US11989265B2 (en) Intensity extraction from oligonucleotide clusters for base calling
US20240212791A1 (en) Context-dependent base calling
US20230026084A1 (en) Self-learned base caller, trained using organism sequences
US20220415445A1 (en) Self-learned base caller, trained using oligo sequences
CA3224382A1 (en) Self-learned base caller, trained using oligo sequences
CA3183581A1 (en) Tile location and/or cycle based weight set selection for base calling
JP2024529843A (ja) 複数のベースコーラモデルを使用するベースコール
KR20240031968A (ko) 염기 호출에 대한 보간 및 적응을 갖는 강도 추출
WO2022197752A1 (en) Tile location and/or cycle based weight set selection for base calling
CN117546248A (zh) 使用多个碱基检出器模型的碱基检出
NZ789034A (en) Systems and devices for high-throughput sequencing with semiconductor-based detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant