CN115461778A - 基于均衡的图像处理和空间串扰衰减器 - Google Patents

基于均衡的图像处理和空间串扰衰减器 Download PDF

Info

Publication number
CN115461778A
CN115461778A CN202180029821.6A CN202180029821A CN115461778A CN 115461778 A CN115461778 A CN 115461778A CN 202180029821 A CN202180029821 A CN 202180029821A CN 115461778 A CN115461778 A CN 115461778A
Authority
CN
China
Prior art keywords
pixel
sub
coefficients
image
pixels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180029821.6A
Other languages
English (en)
Inventor
E·J·奥贾德
R·美雄
G·D·帕纳比
N·伍德帕
J·S·维切利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inmair Ltd
Original Assignee
Inmair Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inmair Ltd filed Critical Inmair Ltd
Publication of CN115461778A publication Critical patent/CN115461778A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/698Matching; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19107Clustering techniques
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30072Microarray; Biochip, DNA array; Well plate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/04Recognition of patterns in DNA microarrays

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Public Health (AREA)
  • Biotechnology (AREA)
  • Bioethics (AREA)
  • Biophysics (AREA)
  • Epidemiology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Image Processing (AREA)
  • Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)
  • Stereophonic System (AREA)
  • Ultra Sonic Daignosis Equipment (AREA)
  • Details Of Connecting Devices For Male And Female Coupling (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Image Analysis (AREA)

Abstract

本发明所公开的技术衰减来自用于碱基检出的测序图像的空间串扰。具体地讲,本发明所公开的技术访问其像素描绘来自目标簇的强度发射和来自附加相邻簇的强度发射的图像。这些像素包括中心像素,该中心像素包含目标簇的中心。这些像素中的每个像素能够被划分成多个子像素。根据特定子像素,在包含目标簇中心的中心像素的多个子像素中,本发明所公开的技术从子像素查找表库中选择对应于该特定子像素的子像素查找表。所选择的子像素查找表包含被配置为将信噪比最大化的像素系数。本发明所公开的技术将这些像素系数与像素逐元素相乘,并且确定加权和。

Description

基于均衡的图像处理和空间串扰衰减器
优先权申请
本PCT专利申请要求以下专利申请的权益:2020年5月5日提交的名称为“EQUALIZATION-BASED IMAGE PROCESSING AND SPATIAL CROSSTALK ATTENUATOR”的美国临时专利申请第63/020,449号(代理人案卷号ILLM 1032-1/IP-1991-PRV),以及2021年5月4日提交的名称为“EQUALIZATION-BASED IMAGE PROCESSING AND SPATIAL CROSSTALKATTENUATOR”的美国专利申请第17/308,035号(代理人案卷号ILLM 1032-2/IP-1991-US)。优先权申请以引用方式并入本文中用于所有目的。
技术领域
本发明所公开的技术涉及用于自动分析图像或识别图案的装置和相应方法。本文包括变换图像用于以下目的的系统:(a)在识别之前增强图像的视觉质量,(b)相对于传感器或存储的原型定位和记录图像,或通过丢弃无关数据来减少图像数据量,以及(c)测量图像的显著特征。具体地讲,本发明所公开的技术涉及使用基于均衡的图像处理技术从传感器像素去除空间串扰。
文献并入
以下文献以引用方式并入,即如同在本文完整示出一样,以用于所有目的:
2018年3月26日提交的名称为“DETECTION APPARATUS HAVING AMICROFLUOROMETER,A FLUIDIC SYSTEM,AND A FLOW CELL LATCH CLAMP MODULE”的美国非临时专利申请第15/936,365号;
2019年9月11日提交的名称为“FLOW CELLS AND METHODS RELATED TO SAME”的美国非临时专利申请第16/567,224号;
2019年6月12日提交的名称为“DEVICE FOR LUMINESCENT IMAGING”的美国非临时专利申请第16/439,635号;
2017年5月12日提交的名称为“INTEGRATED OPTOELECTRONIC READ HEAD ANDFLUIDIC CARTRIDGE USEFUL FOR NUCLEIC ACID SEQUENCING”的美国非临时专利申请第15/594,413号;
2019年3月12日提交的名称为“ILLUMINATION FOR FLUORESCENCE IMAGING USINGOBJECTIVE LENS”的美国非临时专利申请第16/351,193号;
2009年12月15日提交的名称为“DYNAMIC AUTOFOCUS METHOD AND SYSTEM FORASSAY IMAGER”的美国非临时专利申请第12/638,770号;
2013年3月1日提交的名称为“KINETIC EXCLUSION AMPLIFICATION OF NUCLEICACID LIBRARIES”的美国非临时专利申请第13/783,043号;
2011年1月13日提交的名称为“DATA PROCESSING SYSTEM AND METHODS”的美国非临时专利申请第13/006,206号;
2014年10月31日提交的名称为“IMAGE ANALYSIS USEFUL FOR PATTERNEDOBJECTS”的美国非临时专利申请第14/530,299号;
2014年12月3日提交的名称为“METHODS AND SYSTEMS FOR ANALYZING IMAGEDATA”的美国非临时专利申请第15/153,953号;
2013年9月6日提交的名称为“CENTROID MARKERS FOR IMAGE ANALYSIS OF HIGHDENSITY CLUSTERS IN COMPLEX POLYNUCLEOTIDE SEQUENCING”的美国非临时专利申请第14/020,570号;
2014年10月31日提交的名称为“IMAGE ANALYSIS USEFUL FOR PATTERNEDOBJECTS”的美国非临时专利申请第14/530,299号;
2009年9月23日提交的名称为“METHOD AND SYSTEM FOR DETERMINING THEACCURACY OF DNA BASE IDENTIFICATIONS”的美国非临时专利申请第12/565,341号;
2007年3月30日提交的名称为“SYSTEMS AND DEVICES FOR SEQUENCE BYSYNTHESIS ANALYSIS”的美国非临时专利申请第12/295,337号;
2008年1月28日提交的名称为“IMAGE DATA EFFICIENT GENETIC SEQUENCINGMETHOD AND SYSTEM”的美国非临时专利申请第12/020,739号;
2013年3月15日提交的名称为“BIOSENSORS FOR BIOLOGICAL OR CHEMICALANALYSIS AND SYSTEMS AND METHODS FOR SAME”的美国非临时专利申请第13/833,619号(代理人案卷号IP-0626-US);
2016年6月7日提交的名称为“BIOSENSORS FOR BIOLOGICAL OR CHEMICALANALYSIS AND METHODS OF MANUFACTURING THE SAME”的美国非临时专利申请第15/175,489号(代理人案卷号IP-0689-US);
2013年4月26日提交的名称为“MICRODEVICES AND BIOSENSOR CARTRIDGES FORBIOLOGICAL OR CHEMICAL ANALYSIS AND SYSTEMS AND METHODS FOR THE SAME”的美国非临时专利申请第13/882,088号(代理人案卷号IP-0462-US);
2012年9月21日提交的名称为“METHODS AND COMPOSITIONS FOR NUCLEIC ACIDSEQUENCING”的美国非临时专利申请第13/624,200号(代理人案卷号IP-0538-US);
2019年3月21日提交的名称为“Training Data Generation for ArtificialIntelligence-Based Sequencing”的美国临时专利申请第62/821,602号(代理人案卷号ILLM 1008-1/IP-1693-PRV);
2019年3月21日提交的名称为“Artificial Intelligence-Based Generation ofSequencing Metadata”的美国临时专利申请第62/821,618号(代理人案卷号ILLM 1008-3/IP-1741-PRV);
2019年3月21日提交的名称为“Artificial Intelligence-Based Base Calling”的美国临时专利申请第62/821,681号(代理人案卷号ILLM 1008-4/IP-1744-PRV);
2019年3月21日提交的名称为“Artificial Intelligence-Based QualityScoring”的美国临时专利申请第62/821,724号(代理人案卷号ILLM 1008-7/IP-1747-PRV);
2019年3月21日提交的名称为“Artificial Intelligence-Based Sequencing”的美国临时专利申请第62/821,766号(代理人案卷号ILLM 1008-9/IP-1752-PRV);
2019年6月14日提交的名称为“Training Data Generation for ArtificialIntelligence-Based Sequencing”的荷兰专利申请第2023310号(代理人案卷号ILLM1008-11/IP-1693-NL);
2019年6月14日提交的名称为“Artificial Intelligence-Based Generation ofSequencing Metadata”的荷兰专利申请第2023311号(代理人案卷号ILLM 1008-12/IP-1741-NL);
2019年6月14日提交的名称为“Artificial Intelligence-Based Base Calling”的荷兰专利申请第2023312号(代理人案卷号ILLM 1008-13/IP-1744-NL);
2019年6月14日提交的名称为“Artificial Intelligence-Based QualityScoring”的荷兰专利申请第2023314号(代理人案卷号ILLM 1008-14/IP-1747-NL);以及
2019年6月14日提交的名称为“Artificial Intelligence-Based Sequencing”的荷兰专利申请第2023316号(代理人案卷号ILLM 1008-15/IP-1752-NL)。
2020年3月20日提交的名称为“Training Data Generation for ArtificialIntelligence-Based Sequencing”的美国非临时专利申请第16/825,987号(代理人案卷号ILLM 1008-16/IP-1693-US);
2020年3月20日提交的名称为“Training Data Generation for ArtificialIntelligence-Based Sequencing”的美国非临时专利申请第16/825,991号(代理人案卷号ILLM 1008-17/IP-1741-US);
2020年3月20日提交的名称为“Artificial Intelligence-Based Base Calling”的美国非临时专利申请第16/826,126号(代理人案卷号ILLM 1008-18/IP-1744-US);
2020年3月20日提交的名称为“Artificial Intelligence-Based QualityScoring”的美国非临时专利申请第16/826,134号(代理人案卷号ILLM 1008-19/IP-1747-US);
2020年3月21日提交的名称为“Artificial Intelligence-Based Sequencing”的美国非临时专利申请第16/826,168号(代理人案卷号ILLM 1008-20/IP-1752-PRV);
2019年5月16日提交的名称为“Systems and Devices for Characterizationand Performance Analysis of Pixel-Based Sequencing”的美国临时专利申请第62/849,091号(代理人案卷号ILLM 1011-1/IP-1750-PRV);
2019年5月16日提交的名称为“Base Calling Using Convolutions”的美国临时专利申请第62/849,132号(代理人案卷号ILLM 1011-2/IP-1750-PR2);
2019年5月16日提交的名称为“Base Calling Using Compact Convolutions”的美国临时专利申请第62/849,133号(代理人案卷号ILLM 1011-3/IP-1750-PR3);
2020年2月20日提交的名称为“Artificial Intelligence-Based Base Callingof Index Sequences”的美国临时专利申请第62/979,384号(代理人案卷号ILLM 1015-1/IP-1857-PRV);
2020年2月20日提交的名称为“Artificial Intelligence-Based Many-To-ManyBase Calling”的美国临时专利申请第62/979,414号(代理人案卷号ILLM 1016-1/IP-1858-PRV);
2020年2月20日提交的名称为“Knowledge Distillation-Based Compression ofArtificial Intelligence-Based Base Caller”的美国临时专利申请第62/979,385号(代理人案卷号ILLM 1017-1/IP-1859-PRV);
2020年2月20日提交的名称为“Multi-Cycle Cluster Based Real TimeAnalysis System”的美国临时专利申请第62/979,412号(代理人案卷号ILLM 1020-1/IP-1866-PRV);
2020年2月20日提交的名称为“Data Compression for ArtificialIntelligence-Based Base Calling”的美国临时专利申请第62/979,411号(代理人案卷号ILLM 1029-1/IP-1964-PRV);以及
2020年2月20日提交的名称为“Squeezing Layer for ArtificialIntelligence-Based Base Calling”的美国临时专利申请第62/979,399号(代理人案卷号ILLM 1030-1/IP-1982-PRV)。
背景技术
本部分中讨论的主题不应仅因为在本部分中有提及就被认为是现有技术。类似地,在本部分中提及的或与作为背景技术提供的主题相关联的问题不应被认为先前在现有技术中已被认识到。本部分中的主题仅表示不同的方法,这些方法本身也可对应于受权利要求书保护的技术的具体实施。
生物或化学研究中的各种方案涉及在局部支撑表面上或预定义的反应室内进行大量受控反应。然后可以观察或检测到期望的反应,并且随后的分析可以有助于鉴定或揭示该反应中所涉及的化学物质的特性。例如,在一些多重测定中,具有可识别标签(例如,荧光标签)的未知分析物可以在受控条件下暴露于数千种已知探针。可以将每种已知探针放入微孔板的对应孔中。观察孔内的已知探针与未知分析物之间发生的任何化学反应可以有助于鉴定或揭示分析物的特性。此类方案的其他示例包括已知的DNA测序过程,诸如边合成边测序或循环阵列测序。在循环阵列测序中,DNA特征(例如,模板核酸)的密集阵列通过酶促操作的反复循环来测序。在每个循环之后,可捕获图像并随后与其他图像一起分析以确定DNA特征的序列。
作为一个更具体的示例,一种已知的DNA测序系统使用焦磷酸测序方法,并且包括具有熔接光纤面板的芯片,该光纤面板具有数百万个孔。具有从感兴趣的基因组克隆扩增的sstDNA的单个捕获珠粒沉积到每个孔中。在捕获珠粒沉积到孔中之后,通过使含有特定核苷酸的溶液沿着面板流动而将核苷酸按顺序添加到孔中。孔内的环境使得如果流过特定孔的核苷酸与对应捕获珠粒上的DNA链互补,则该核苷酸被添加到DNA链上。DNA链的群体被称为簇。核苷酸结合到簇中引发了最终生成化学发光的光信号的过程。该系统包括CCD相机,该相机定位在与面板直接相邻的位置并且被配置为检测来自孔中的DNA簇的光信号。对整个焦磷酸测序过程中拍摄的图像的后续分析可以确定感兴趣的基因组的序列。
然而,除了其他系统之外,上述焦磷酸测序系统可能具有某些限制。例如,光纤面板被酸蚀刻以形成数百万个小孔。尽管这些孔可以彼此近似地间隔开,却难以知道一个孔相对于其他相邻孔的精确位置。当CCD相机定位在与面板直接相邻的位置时,孔沿CCD相机的像素不均匀分布,因此,孔不以已知的方式与像素对准。空间串扰是相邻孔之间的孔间串扰,其使得在随后的分析中难以将来自感兴趣孔的真实光信号与其他不需要的光信号区分开。而且,荧光发射基本上是各向同性的。随着分析物的密度增加,管理或解决来自相邻分析物的不需要的光发射(例如,串扰)变得越来越具有挑战性。因此,必须仔细分析测序循环期间记录的数据。
碱基检出的准确性对于高通量DNA测序和下游分析(诸如读段映射和基因组组装)至关重要。相邻簇之间的空间串扰导致了大部分的测序错误。因此,通过校正簇强度数据中的空间串扰,有机会减少DNA测序错误和提高碱基检出的准确性。
附图说明
本专利或专利申请文件包含至少一幅彩色附图。具有彩色附图的本专利或本专利申请公布的副本将在提出请求并支付必要费用后由专利局提供。彩色附图也可通过补充内容选项卡成对地获得。
在附图中,在所有不同视图中,类似的参考符号通常是指类似的部件。另外,附图未必按比例绘制,而是重点说明所公开的技术的原理。在以下描述中,参考以下附图描述了本发明所公开的技术的各种实施方式,其中:
图1A示出了通过训练均衡器来生成查找表(LUT)/均衡器滤波器的一种实施方式。
图1B描绘了使用图1的LUT/均衡器滤波器来衰减来自传感器像素的空间串扰以及使用串扰校正的传感器像素对簇进行碱基检出的一种实施方式。
图2可视化了在流动池上包含至少五个簇/孔的中心/点源的测序图像的一个示例。
图3可视化了从图2的测序图像提取像素补片(黄色),使得目标簇1(蓝色)的中心被包含在该像素补片的中心像素中的一个示例。
图4可视化了簇到像素信号的一个示例。
图5可视化了簇到像素信号重叠的一个示例。
图6可视化了簇信号模式的一个示例。
图7可视化了用于衰减来自图3的像素补片的空间串扰的子像素LUT网格的一个示例。
图8示出了基于像素内的簇/孔中心的子像素位置从图1B的LUT库中选择LUT/均衡器滤波器。
图9展示了一种实施方式,其中目标簇1(蓝色)的中心基本上不与像素的中心同心。
图10描绘了在一组所选择的LUT之间进行插值并且生成相应的LUT权重的一种实施方式。
图11示出了使用LUT 12、7、8和13的计算出的权重来生成权重核的权重核生成器。
图12示出了逐元素乘法器将权重核的插值像素系数逐元素地与像素补片中的像素的强度值相乘,然后将乘法的中间乘积求和以产生输出。
图13A、图13B、图13C、图13D、图13E和图13F示出了LUT 12、7、8和13的系数的示例。
图14A描绘了权重核的一个示例。
图14B和图14C展示了由权重核生成器使用以从LUT 12、7、8和13的计算出的权重生成权重核的权重核生成逻辑的一个示例。
图15A和图15B展示了权重核的插值像素系数如何最大化信噪比并且从被来自簇2、3、4和5的串扰破坏的信号中恢复目标簇1的底层信号。
图16示出了逐碱基高斯拟合的一种实施方式,这些拟合在其中心包含在训练期间用作误差计算的地面真值的逐碱基强度目标。
图17是可以用于实现本发明所公开的技术的计算机系统。
图18示出了可以用于训练均衡器的自适应均衡技术的一种实施方式。
图19A、图19B-1、图19B-2、图19C和图19D展示了本发明所公开的技术的各种性能度量。
具体实施方式
以下描述将典型地参考具体的结构实施方式和方法。应当理解,不旨在将本发明的技术限于具体公开的实施方式和方法,而是可以使用其他的特征、元件、方法和实施方式来实践本发明的技术。描述优选实施方式是为了说明本发明的技术,而不是限制其范围,其范围由权利要求书限定。本领域的普通技术人员将认识到关于以下描述的多种等效变型形式。
生成查找表
图1示出了通过训练均衡器104来生成查找表(LUT)(或LUT库)106的一种实施方式。均衡器104在本文也被称为基于均衡器的碱基检出器104。系统100A包括使用最小二乘估计来训练均衡器104的训练器114。关于均衡器和最小二乘估计的附加细节可以在包含于本申请中的附录内找到。
测序图像102在由测序仪器(诸如Illumina的iSeq、HiSeqX、HiSeq 3000、HiSeq4000、HiSeq 2500、NovaSeq 6000、NextSeq 550、NextSeq 1000、NextSeq 2000、NextSeqDx、MiSeq和MiSeqDx)进行的测序运行期间生成。在一种实施方式中,Illumina测序仪采用循环可逆终止(CRT)化学来进行碱基检出。该过程依赖于生长与具有经荧光标记的核苷酸的模板链互补的新生链,同时跟踪每个新添加的核苷酸的发射信号。经荧光标记的核苷酸具有锚定核苷酸类型的荧光团信号的3'可移除块。
测序在重复的循环中进行,每个循环包括三个步骤:(a)通过添加经荧光标记的核苷酸延长新生链;(b)使用测序仪器的光学系统的一个或多个激光器激发荧光团,并通过光学系统的不同滤波器成像,从而产生测序图像;以及(c)裂解荧光团并移除3'块,以为下一个测序循环做准备。重复掺入和成像循环直至达到指定数量的测序循环,从而限定读段长度。使用该方法,每个循环询问沿着模板链的新位置。
Illumina测序仪的巨大能力源于其同时执行和感测数百万或甚至数十亿个经历CRT反应的分析物(例如,簇)的能力。簇包括模板链的约一千个相同副本,但簇的尺寸和形状不同。在测序运行之前,通过对输入文库进行桥式扩增或排除扩增,使来自模板链的簇生长。扩增和簇生长的目的是增加发射信号的强度,因为成像设备不能可靠地感测单个链的荧光团信号。然而,簇内的链的物理距离较小,因此成像设备将链的簇感知为单个点。
测序发生在流通池(保持输入链的小载玻片)中。流通池连接到光学系统,该光学系统包括显微镜成像、激发激光器和荧光滤波器。流通池包括被称为槽道的多个腔室。槽道在物理上彼此分离,并且可以包含不同的带标记的测序文库,这些带标记的测序文库在无样品交叉污染的情况下可以进行区分。在一些具体实施中,该流通池包括图案化表面。“图案化表面”是指在固体载体的暴露层中或该暴露层上的不同区域的布置。例如,这些区域中的一个或多个区域可以是存在一种或多种扩增引物的特征部。特征部可由不存在扩增引物的间隙区域隔开。在一些具体实施中,图案可为呈行和列形式的特征部的x-y格式。在一些具体实施中,图案可为特征部和/或间隙区域的重复布置。在一些具体实施中,图案可为特征部和/或间隙区域的随机布置。可用于本文所述的方法和组合物中的示例性图案化表面描述于美国专利No.8,778,849、美国专利No.9,079,148、美国专利No.8,778,848和美国专利公布No.2014/0243224中,这些专利中的每一篇均以引用方式并入本文。
在一些实施方式中,流动池在表面中包括孔或凹陷的阵列。这可如本领域通常已知的那样使用多种技术来制造,这些技术包括但不限于光刻、压印技术、模制技术和微蚀刻技术。本领域的技术人员将会知道,所使用的技术将取决于阵列基板的组成和形状。
图案化表面中的特征部可以是玻璃、硅、塑料或其他合适的具有图案化的且共价连接的凝胶(诸如聚(N-(5-叠氮基乙酰氨基戊基)丙烯酰胺-共-丙烯酰胺)(PAZAM,参见例如美国专利公布第2013/184796号、WO 2016/066586和WO 2015-002813,这些专利中的每一篇均全文以引用方式并入本文))的固体载体上的孔阵列中的孔(例如,微孔或纳米孔)。该方法产生用于测序的凝胶垫,该凝胶垫在具有大量循环的测序运行中可为稳定的。聚合物与孔的共价连接有助于在多种用途期间以及在结构化基板的整个寿命期间将凝胶保持为结构化特征。然而,在许多实施方式中,凝胶无需共价连接到孔。例如,在一些条件下,未共价附接到结构化基板的任何部分的不含硅烷的丙烯酰胺(SFA,参见例如,美国专利No.8,563,477,其全文以引用方式并入本文)可用作凝胶材料。
在特定实施方式中,结构化基板可以通过以下方法来制作:将固体载体材料图案化为具有孔(例如,微孔或纳米孔)、用凝胶材料(例如,PAZAM、SFA或其化学改性的变体,诸如SFA的叠氮化版本(叠氮-SFA))涂覆图案化载体,以及例如经由化学或机械抛光来抛光已涂覆凝胶的载体,从而将凝胶保持在孔中,而从结构化基板的表面上的孔之间的间隙区域移除基本上所有凝胶或使这里的基本上所有凝胶失活。引物核酸可附着到凝胶材料。然后可以使靶核酸(例如,片段化的人基因组)的溶液与已抛光的基板接触,使得各个靶核酸将经由与附着到凝胶材料的引物的相互作用而接种到各个孔中;然而,由于不存在凝胶材料或该凝胶材料失活,靶核酸将不占用间隙区域。靶核酸的扩增将被限制在孔中,因为间隙区域中不存在凝胶或凝胶失活会阻止生长的核酸群体(nucleic acid colony)的向外迁移。该过程是可制造的且具有可扩展性,其利用常规的微米或纳米制造方法。
测序仪器的成像设备(例如,固态成像器件,诸如电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS)传感器)在沿槽道的多个位置、在一系列非重叠区域(被称为区块)中拍摄快照。例如,每个槽道可以存在六十四个区块或九十六个区块。区块容纳数十万至数百万的簇。
测序运行的输出是测序图像,每个测序图像均描绘了簇及其周围背景的强度发射。测序图像描绘了由于在测序期间核苷酸掺入序列中而产生的强度发射。这些强度发射来自相关联的分析物/簇及其周围背景。
测序图像102源自多个测序仪器、测序运行、循环、流动池、区块、孔和簇。在一种实施方式中,测序图像由均衡器104在成像通道的基础上处理。测序运行在每个测序循环产生对应于m个成像通道的m个图像。在一种实施方式中,每个图像通道对应于多个滤波器波长带中的一个滤波器波长带。在另一种实施方式中,每个成像通道对应于测序循环中的多个成像事件中的一个成像事件。在又一种实施方式中,每个成像通道对应于利用特定激光器照明和通过特定光学滤波器成像的组合。在诸如4通道化学、2通道化学和1通道化学的不同实施方式中,m为4或2。在其他实施方式中,m为1、3或大于4。
在另一种实施方式中,输入数据基于在分子延伸期间由氢离子的释放所诱导的pH变化。检测pH变化并将其转化为与引入的碱基的数量成比例的电压变化(例如,就IonTorrent而言)。在又一个具体实施中,输入数据根据纳米孔感测构造而成,该纳米孔感测使用生物传感器来测量当分析物穿过纳米孔或靠近其孔口时电流的中断,同时确定碱基的种类。例如,牛津纳米孔技术(ONT)测序基于以下概念:使单链DNA(或RNA)经由纳米孔穿过膜,并且跨膜施加电压差。孔中存在的核苷酸将影响孔的电阻,因此随时间推移的电流测量结果可指示DNA碱基穿过孔的序列。该电流信号(由于其在绘制时的外观而被称为“波形曲线(squiggle)”)是由ONT测序器收集的原始数据。这些测量结果被存储为在(例如)4kHz频率下获取的16位整数数据采集(DAC)值。在DNA链速度为约450碱基对/秒的情况下,这给出了平均每种碱基大约九个原始观察结果。然后处理该信号以识别对应于各个读数的开孔信号的中断。对原始信号的这些最大限度的利用是进行碱基检出,即将DAC值转换成DNA碱基序列的过程。在一些具体实施中,输入数据包括归一化或缩放的DAC值。关于基于非图像的测序数据的附加信息可以在2019年5月16日提交的名称为“Base Calling UsingConvolutions”的美国临时专利申请第62/849,132号(代理人案卷号ILLM 1011-2/IP-1750-PR2)、2019年5月16日提交的名称为“Base Calling Using Compact Convolutions”的美国临时专利申请第62/849,133号(代理人案卷号ILLM 1011-3/IP-1750-PR3)以及2020年3月21日提交的名称为“Artificial Intelligence-Based Sequencing”的美国非临时专利申请第16/826,168号(代理人案卷号ILLM 1008-20/IP-1752-PRV)中找到。
训练
均衡器104生成具有多个LUT(均衡器滤波器)106的LUT库,这些LUT具有子像素分辨率。在一种实施方式中,由均衡器104为LUT库生成的LUT 106的数量取决于测序图像102的传感器像素被划分成或可以被划分成的子像素的数量。例如,如果测序图像102的传感器像素各自能够被划分成n×n个子像素(例如,5×5个子像素),则均衡器104生成n2个LUT106(例如,25个LUT)。
在该训练的一种实施方式中,来自测序图像的数据通过孔子像素位置进行分箱。例如,对于5×5的LUT,1/25的孔的中心在箱(1,1)中(例如,传感器像素的左上角),1/25的孔在箱(1,2)中,依此类推。使用对来自每个箱中的孔的数据子集的最小二乘估计来确定每个孔中心箱的均衡器系数。进入均衡器104的输入是那些箱的测序图像的原始感官像素。所得的估计的均衡器系数对于每个箱是不同的。
每个LUT具有从训练中学习的多个系数。在一种实施方式中,LUT中系数的数量对应于用于对簇进行碱基检出的传感器像素的数量。例如,如果用于对簇进行碱基检出的传感器像素(图像或像素补片)的局部网格的大小为p×p(例如,9×9像素补片),则每个LUT具有p2个系数(例如,81个系数)。
训练产生均衡器系数,这些均衡器系数被配置为以最大化信噪比的方式混合/组合像素的强度值,所述像素描绘来自进行碱基检出的目标簇的强度发射和来自一个或多个相邻簇的强度发射。信噪比被最大化的信号是来自目标簇的强度发射,而信噪比被最小化的噪声是来自相邻簇的强度发射,即空间串扰,加上一些随机噪声(例如,以考虑背景强度发射)。均衡器系数用作权重,并且所述混合/组合包括执行均衡器系数与像素的强度值之间的逐元素乘法,以计算这些像素的强度值的加权和。
在训练期间,根据一种实施方式,均衡器104学习通过最小二乘估计来最大化信噪比。在使用最小二乘估计的情况下,均衡器104被训练成由受试孔周围的像素强度和期望的输出估计共享的均衡器系数。最小二乘估计非常适合于该目的,因为其输出将平方误差最小化并且考虑噪声放大的影响的系数。
当强度通道打开时,期望的输出是孔位置(点源)处的脉冲,而当强度通道关闭时,期望的输出是背景水平。在一些实施方式中,使用地面真值碱基检出112来生成期望的输出。在一些实施方式中,修改地面真值碱基检出112来说明被包括在最小二乘估计中的每孔DC偏移量、放大系数、多克隆性程度和增益偏移量参数。在一种实施方式中,在训练期间,DC偏移量(即固定偏移量)作为最小二乘估计的一部分计算。在推断期间,DC偏移量作为偏差被添加到每次均衡器计算。
在一种实施方式中,使用Illumina的实时分析(RTA)碱基检出器(其不使用均衡器)来估计期望的输出。关于RTA的细节可以在美国专利申请第13/006,206号中找到,该专利申请以引用方式并入,如同在本文完整阐述一样。由于RTA具有低的碱基检出错误率,所以使用RTA碱基检出器作为地面真值碱基检出112的来源。碱基检出错误在许多训练示例中取平均值。在另一种实施方式中,地面真值碱基检出112是使用比对的基因组数据获得的,该数据具有较好的质量,因为比对的基因组数据可以使用参考基因组和真值信息,该参考基因组和真值信息将从多个测序平台和测序运行获得的知识结合,以对噪声取平均值。
地面真值碱基检出112是分别可靠地表示碱基A、C、G和T的强度分布的碱基特异性强度值。碱基检出器(如RTA)通过处理测序图像102并且为每次碱基检出产生逐颜色强度值/输出,来对簇进行碱基检出。可以将这些逐颜色强度值看作逐碱基强度值,因为取决于化学物质的类型(例如,2色化学物质或4色化学物质),颜色映射到碱基A、C、G和T中的每一者。具有最接近匹配的强度分布的碱基被检出。
图16示出了逐碱基高斯拟合的一种实施方式,这些拟合在其中心包含在训练期间用作误差计算的地面真值的逐碱基强度目标。由碱基检出器针对训练数据中的大量碱基检出(例如,数十个、数百个、数千个或数百万个碱基检出)产生的逐碱基强度输出用于产生逐碱基强度分布。图16示出了具有四个高斯云的图表,这四个高斯云分别是碱基A、C、G和T的逐碱基强度输出的概率分布。在这四个高斯云的中心处的强度值被用作地面真值强度目标(假设分别为碱基A、C、G和T的地面真值碱基检出112),并且在本文中被称为强度目标。
考虑在训练期间,将馈送给均衡器104的输入图像数据用碱基“A”注释为地面真值碱基检出。然后,均衡器104的目标/期望输出是图16中的绿色云的中心处的强度值,即,碱基A的强度目标。类似地,对于碱基“C”的地面真值碱基检出,均衡器104的期望输出是图16中的蓝色云的中心处的强度值,即,碱基C的强度目标。因此,在训练均衡器104期间的目标或期望输出是在训练数据中求平均之后相应碱基A、C、G和T的平均强度。在一种实施方式中,训练器114使用最小二乘估计来拟合均衡器104的系数,以针对这些强度目标来最小化均衡器输出误差。
在一种实施方式中,在训练期间,均衡器104将给定查找表(LUT)中的系数应用于测序图像中用给定碱基标记的像素。这包括将所述系数逐元素地与像素的强度值相乘,并生成强度值的加权和,其中所述系数充当/作为/用作权重。该加权和然后变成均衡器104的预测输出。然后,基于成本/误差函数(例如,误差平方和(SSE)),计算加权和与针对给定碱基确定的强度目标(例如,从对应的强度高斯拟合的中心,作为针对给定碱基观察到的平均强度)之间的误差(例如,最小平方误差、最小均方误差)。成本函数(诸如SSE)是用于使用自适应方法来估计均衡器系数的可微函数,因此我们可以评估所述误差相对于所述系数的导数,然后使用这些导数,用使所述误差最小化的值来更新所述系数。重复该过程,直到更新的系数不再将误差减小为止。在其他实施方式中,使用批量最小二乘方法来训练均衡器104。
在其他实施方式中,图16中所示的逐碱基强度分布/高斯云可以在“一个孔接一个孔”的基础上生成,并且通过添加DC偏移量、放大系数和/或相位调整参数来校正噪声。这样,取决于特定孔的孔位置,可以使用相应的逐碱基高斯云来生成该特定孔的目标强度值。
在一种实施方式中,将偏差项添加到产生均衡器104的输出的点积中。在训练期间,可以使用用于学习均衡器系数的类似方法(即最小二乘法或最小均方(LMS)法)来估计偏差参数。在一些实施方式中,偏差参数的值是等于1的恒定值,即,不随输入像素强度变化的值。每组均衡器系数均存在一个偏差。在训练期间学习该偏差,然后将其固定以供在推断期间使用。学习的偏差表示在推断期间在每次均衡器计算中所使用的DC偏移量,以及每个LUT的学习的系数。该偏差说明了由不同的簇尺寸、不同的背景强度、变化的刺激响应、变化的焦点、变化的传感器灵敏度和变化的透镜像差引起的随机噪声。
在还有其他决策导向的实施方式中,假定均衡器104的输出对于训练目的是正确的。
在该训练的另一种实施方式中,均衡器104仅为一个箱生成单个LUT(均衡器滤波器),然后使用多个每箱插值滤波器108为剩余的箱生成剩余的均衡器滤波器。在该实施方式中,对于每个训练示例,围绕每个孔的传感器像素被重新采样/插值到良好对准的空间中(即,这些孔在它们各自的像素补片/局部网格中居中)。然后,每个示例的重新采样的像素在所有孔中一致地对准。
然而,为了将由均衡器104产生的单个均衡器滤波器应用于真实的在线系统中进行碱基检出,我们需要预处理测序图像的原始传感器像素以回到良好对准的空间,即,对每个孔周围的原始像素执行插值,且插值参数根据给定孔的子像素位置而变化。为了避免这种插值过程,我们预先计算给定孔子像素位置的总响应。我们通过将原始像素强度插值到良好对准的像素空间中来计算良好对准的均衡器输入值。我们将插值响应和均衡器响应卷积在一起,以减少计算。由于插值滤波器随子像素孔位置而变化,因此这赋予每个子像素孔位置不同的均衡器系数集合/均衡器滤波器,从而为剩余的箱生成剩余的LUT。因此,在训练的该实施方式中,在训练期间仅训练单个均衡器滤波器的系数,但预计算过程通过将箱特定的插值滤波器108与单个均衡器滤波器结合应用来生成基于LUT的均衡器的库,其中LUT索引是子像素孔位置。
训练器114可以训练均衡器104,并且使用多种训练技术生成LUT 106的受过训练的系数。训练技术的示例包括最小二乘估计、普通最小二乘法、最小均方法和递归最小二乘法。最小二乘技术调整函数的参数以最佳拟合数据集,使得平方残差的和最小化。这里可以找到关于最小二乘估计算法的附加细节—Least squares,https://en.wikipedia.org/w/index.php?title=Least_squares&oldid=951737821(最后访问日期:2020年4月28日),该网页以引用方式并入,如同在本文完整阐述一样。普通最小二乘法是一种用于在线性回归模型中进行估计的最小二乘法。这里可以找到关于普通最小二乘法算法的附加细节—Ordinary least squares,https://en.wikipedia.org/w/index.php?title=Ordinary_least_squares&oldid=951770366(最后访问日期:2020年4月28日),该网页以引用方式并入,如同在本文完整阐述一样。在其他实施方式中,可以使用其他估计算法和自适应均衡算法来训练均衡器104。
均衡器104可以在离线模式下训练。在离线模式下,根据一种实施方式,使用以下批量最小二乘均衡逻辑生成LUT 106的受过训练的系数:
Figure BDA0003899539100000161
在以上关系式中,LUT系数为βhat,像素强度为X,目标为y。还将DC项添加到像素强度和所述系数(例如,对于所有情况都固定为1的额外强度项)。然后,作为一个示例,认为X是大小82(=9×9输入强度加上常数DC项)×批次中的训练示例的数目的矩阵,Y是针对每个训练示例的目标输出,即,每个值是取决于训练示例真值的开/关云的强度中心。βhat则是使平方残差的和最小化的系数集合,并且还具有大小82(=9×9个系数加上1个DC项)。
均衡器104还可以在在线模式下训练,以便在测序仪正在运行并且测序运行循环地进行时,调适LUT 106的系数以便在“一个区块接一个区块”或子区块的基础上跟踪温度(例如,光学畸变)、焦点、化学性质、机器特定变化等的改变。在在线模式下,使用自适应均衡来生成LUT 106的受过训练的系数。在线模式使用最小均方作为训练算法,该算法为随机梯度下降的形式。这里可以找到关于最小均方算法的附加细节—Least mean squaresfilter,https://en.wikipedia.org/w/index.php?title=Least_mean_squares_filter&oldid=941899198(最后访问日期:2020年4月28日),该网页以引用方式并入,如同在本文完整阐述一样。
最小均方技术使用平方误差相对于每个系数的梯度,以在使成本函数最小化的方向上移动这些系数,其中该成本函数是平方误差的预期值。这具有极低的计算成本,仅执行每个系数的乘法和累加运算。除系数之外,不需要长期存储。最小均方技术非常适合于处理巨量数据(例如,并行处理来自数十亿个簇的数据)。最小均方技术的扩展包括归一化的最小均方和频域最小均方,这些扩展也可以在本文中使用。在一些实施方式中,最小均方技术能够以决策导向的方式应用,其中假设我们的决策是正确的,即,我们的错误率非常低,并且小Mu值将过滤掉由于不正确的碱基检出而引起的任何受干扰的更新。
图18示出了可以用于训练均衡器104的自适应均衡技术的一种实施方式。这里,均衡逻辑是y=x.h+d,其中x是输入像素强度,h是均衡器系数,d是DC偏移量。在一种实施方式中,x和h分别是长度为81的行向量和列向量。该向量模型等同于表示输入像素和系数的9×9矩阵的点积。成本是平方误差的预期值。梯度更新在减小平方误差的预期值的方向上移动每个系数。这导致以下更新:
Figure BDA0003899539100000171
对于大多数系统,期望函数E{x(n)e*(n)}必须近似。这可以通过以下无偏估计器来完成
Figure BDA0003899539100000181
其中N指示用于该估计的样品数量。最简单的情况是N=1
Figure BDA0003899539100000182
对于该简单的情况,更新算法如下
Figure BDA0003899539100000183
实际上,这构成了LMS滤波器的更新算法。
在以上关系式中,h是均衡器系数(例如,9×9个均衡器系数)的向量,x是均衡器输入强度(例如,像素补片中的9×9个像素)的向量,e是使用x中的81个值执行的均衡器计算的误差,即,每个均衡器输出仅有1个误差项。
应用该更新生成9×9个均衡器系数的新估计,该估计在(平均起来)减小均方误差(MSE)的方向上移动这些系数。有81个更新,每个均衡器系数一个。在一些实施方式中,Mu是用于改变自适应速率/收敛速度的小常数。DC项更新能够以类似的方式计算。增益项更新也能够以类似的方式计算。
系数集合可以在例如区块、区块区域或流动池表面之间共享。这通过在输入数据改变时保存和恢复系数集合来实现。
在一些实施方式中,由于对系数集合应用线性插值,因此按以下方式略微不同地应用这些更新:
h(q,n+1)=h(q,n)+λ_q.mu.x(n).e(n)
在以上关系式中,h(q,n)是循环n处的权重q,λ_q是特定系数集合的线性插值权重,并且由于二维线性插值而可以包括每个均衡器输出的四个更新。
递归最小二乘技术将最小二乘技术扩展到递归算法。这里可以找到关于递归最小二乘算法的附加细节-Recursive least squares filter,https://en.wikipedia.org/w/index.php?title=Recursive_least_squares_filter&oldid=916406502(最后访问日期:2020年4月28日),该网页以引用方式并入,如同在本文完整阐述一样。
在多域实施方式中,可以沿多个域生成LUT 106及其受过训练的系数。这些域的示例包括测序仪或测序仪器/机器(例如,Illumina的NextSeq、MiSeq、HiSeq和它们各自的模型)、测序方案和化学物质(例如,桥式扩增、排除扩增)、测序运行(例如,正向和反向)、测序照明(例如,结构化、非结构化、成角度)、测序设备(例如,顶置CCD相机、底层CMOS传感器、一个激光器、多个激光器)、成像技术(单通道、双通道、四通道)、流动池(例如,图案化、非图案化、嵌入在CMOS芯片上、底层CCD相机),以及流动池上的空间分辨率(例如,在流动池内的不同区域或象限(例如,流动池上的不同区块(例如,用于较接近激光器或相机或流体系统的区块上的边缘孔))以及在区块内的不同区域处(例如,区块上的不同槽道(例如,用于较接近激光器或相机或流体系统的槽道上的边缘孔))。本领域的技术人员将会知道,类似地包括通常与测序相关联的其他可选择的域和参数(例如,图像处理算法、图像配准算法、地面真值注释方案(例如,连续标签如强度值、硬标签如独热编码、软标签如softmax评分)、温度、焦点、透镜、测序试剂、测序缓冲液)。
使用这些域中的相应域生成的测序图像可以用于为相应域创建离散且不同的训练集合。这些离散训练集合可以用于训练均衡器104,以生成具有对应域的受过训练的系数的LUT。根据在当前或正在进行的测序操作中使用哪个域或哪些域的组合,可以在在线模式期间相应地存储和访问为多个所述域中的相应域生成的受过专门训练的系数。例如,对于测序操作,可以使用更适合于流动池的边缘孔的第一系数集合,以及更适合于同一流动池的中心孔的第二系数集合。
在一种实施方式中,配置文件可以指定这些域的不同组合,并且可以在在线模式期间被分析以选择特定于由该配置文件识别的所述域的不同系数集合。
在多训练实施方式中,均衡器104经受预训练以及训练。也就是说,首先在预训练阶段期间使用第一训练技术训练LUT 106及其系数,然后在进一步的训练阶段期间使用第二训练技术重新训练或进一步训练LUT 106及其系数。第一训练技术和第二训练技术可以是上文列出的训练技术中的任一种。第一训练技术和第二训练技术可以相同,或者它们可以不同。例如,预训练阶段可以是使用批量普通最小二乘训练技术的离线模式,而训练阶段可以是使用迭代随机最小均方技术的在线模式。
在一些实施方式中,可以将多域实施方式和多训练实施方式组合,使得域特定系数被预训练,然后以域特定方式被进一步训练。也就是说,进一步的训练(例如,在线模式)仅使用表示特定域并且类似于在预训练阶段中所使用的数据的数据来重新训练该特定域的系数。在其他知识转移实施方式中,预训练和训练可以使用来自跨域的训练数据,例如,系数集合在预训练期间使用来自图案化流动池的图像生成,但是在后续的训练阶段期间使用来自非图案化流动池的图像进行重新训练。
空间串扰衰减器
图2描绘了使用图1的受过训练的LUT/均衡器滤波器106来衰减来自传感器像素的空间串扰以及使用串扰校正的传感器像素对簇进行碱基检出的一种实施方式。受过训练的均衡器碱基检出器104在碱基检出发生时的推断阶段期间工作。在一些实施方式中,图2中所示的动作在碱基检出阶段之前的预处理阶段处执行,并且生成由碱基检出器用于碱基检出的经串扰校正的图像数据。
在一种实施方式中,均衡器系数被应用于在成像通道基础和目标簇基础上从测序图像116提取的像素补片120(图像补片或传感器像素的局部网格)。关于成像通道基础,在一些实施方式中,每个测序图像均具有用于多个成像通道的图像数据。考虑Illumina测序仪的光学系统,其使用两个不同的成像通道:红色通道和绿色通道。然后,在每个测序循环中,该光学系统产生具有红色通道强度的红色图像和具有绿色通道强度的绿色图像,它们一起形成单个测序图像(如典型彩色图像的RGB通道)。
在训练期间,所述系数被训练/配置为通过最小化预测/估计输出与期望/实际输出之间的误差来使信噪比(SNR)最大化。该误差的一个示例是均方误差(MSE)或均方偏差(MSD)。信噪比被最大化的信号是来自进行碱基检出的目标簇(例如,在图像补片中居中的簇)的强度发射,而信噪比被最小化的噪声是来自一个或多个相邻簇的强度发射,即,空间串扰,加上其他噪声源(例如,以考虑背景强度发射)。将受过训练的系数逐元素地乘以图像补片的像素,以计算这些像素的强度值的加权和。然后使用该加权和来对目标簇进行碱基检出。
在一种实施方式中,补片提取器118从单个测序图像中提取来自红色通道的红色像素补片和来自绿色通道的绿色像素补片。在其他实施方式中,从受试测序循环的红色测序图像提取红色像素补片,并且从受试测序循环的绿色测序图像提取绿色像素补片。LUT106的系数用于生成红色像素补片的红色加权和以及绿色像素补片的绿色加权和。然后,红色加权和与绿色加权和均用于对目标簇进行碱基检出。图像补片120的尺寸为w×h,其中w(宽度)和h(高度)是在1至10,000范围内的任何数字(例如,3×3、5×5、7×7、9×9、15×15、25×25)。在一些具体实施中,w和h相同。在其他具体实施中,w和h不同。本领域的技术人员将会知道,可以针对目标簇的每个测序循环生成一个、两个、三个、四个或更多个通道或图像的数据,并且分别提取一个、两个、三个、四个或更多个补片以分别生成一个、两个、三个、四个或更多个加权和,用于对目标簇进行碱基检出。
关于从测序图像116中提取像素补片120的目标簇基础,像素提取器118基于这些簇/孔的中心在测序图像116上所处的位置来提取像素补片120,使得每个提取的像素补片的中心像素均包含目标簇/孔的中心。在一些实施方式中,补片提取器118将簇/孔中心定位在测序图像上、识别测序图像中包含簇/孔中心的那些像素(即,中心像素),并且提取中心像素周围的连续相邻像素邻域的像素补片。
图2可视化了在流动池上包含至少五个簇/孔的中心/点源的测序图像200的一个示例。测序图像200的像素描绘了来自目标簇1(蓝色)的强度发射,以及来自附加的相邻簇2(紫色)、簇3(橙色)、簇4(棕色)和簇5(绿色)的强度发射。
图3可视化了从测序图像200提取像素补片300(黄色),使得目标簇1(蓝色)的中心被包含在像素补片300的中心像素206中的一个示例。图3还示出了其他像素202、204、214和216,其分别包含相邻簇2(紫色)、簇3(橙色)、簇4(棕色)和簇5(绿色)的中心。
图4可视化了簇到像素信号400的一个示例。在一种实施方式中,传感器像素(黄色)处于像素平面中。空间串扰由样品平面(例如,流动池)中的周期性分布的簇412引起。在一种实施方式中,目标簇和附加的相邻簇以菱形形状周期性地分布在流动池上,并且固定在流动池的孔上。在另一种实施方式中,目标簇和附加的相邻簇以六边形形状周期性地分布在流动池上,并且固定在流动池的孔上。来自该簇的信号锥402通过至少一个透镜(例如,顶置或相邻CCD相机的一个或多个透镜)光学耦合到传感器像素(例如,像素补片300)的局部网格。
除了菱形形状和六边形形状之外,这些簇还能够以其他规则形状(诸如正方形、斜方形、三角形等)排列。在还有其他实施方式中,这些簇以随机、非周期性的布置排列在样品平面上。本领域的技术人员将会知道,根据特定测序实施方式的需要,可以将这些簇以任何布置排列在样品平面上。
图5可视化了簇到像素信号重叠500的一个示例。信号锥402重叠并撞击在传感器像素上,从而产生空间串扰502。
图6可视化了簇信号模式600的一个示例。在一种实施方式中,簇信号模式600遵循衰减模式602,其中簇信号在簇中心处最强,并且随着其远离簇中心传播而衰减。
图6还示出了均衡器系数604的一个示例,这些均衡器系数被训练/配置为通过计算来自目标簇1的强度发射和来自相邻簇2、簇3、簇4和簇5的强度发射的加权和来使信噪比最大化。均衡器系数604充当权重。该加权和通过将包括均衡器系数604的第一矩阵逐元素地与包括像素强度值的第二矩阵相乘来计算,其中每个像素强度值是来自簇1、簇2、簇3、簇4和簇5中的一个或多个簇的发射加上系统中由像素传感器测量的其他噪声源的总和。
图7可视化了用于衰减来自像素补片300的空间串扰的子像素LUT网格700的一个示例。像素补片300中的每个像素能够被划分成多个子像素。在图7中,包含目标簇1(蓝色)的中心的像素206被分成与受过训练的LUT 106的数目一样多的子像素。也就是说,像素206被划分成数目与在训练期间均衡器104为其生成LUT 106的箱的数目相同的子像素。因此,像素206的每个子像素对应于LUT库中的相应LUT,该LUT库是由均衡器104使用决策导向的反馈和最小二乘估计来产生的。
在图7所示的该示例中,像素206(中心像素)被分成5×5个子像素LUT网格700,以产生25个子像素,这些子像素分别对应于由自适应滤波器104作为训练结果生成的25个LUT(均衡器滤波器)。这25个LUT中的每一者均包括被配置为以最大化信噪比的方式混合/组合像素补片300中的像素的强度值的系数,这些像素描绘了来自目标簇1的强度发射以及来自相邻簇2、簇3、簇4和簇5的强度发射。信噪比被最大化的信号是来自目标簇的强度发射,而信噪比被最小化的噪声是来自相邻簇2、簇3、簇4和簇5的强度发射,即空间串扰,加上一些随机噪声(例如,以考虑背景强度发射)。这些LUT系数用作权重,并且所述混合/组合包括执行LUT系数与像素补片300中的像素的强度值之间的逐元素乘法,以计算这些像素的强度值的加权和。
这25个LUT的每一者中的系数的数目与像素补片300中的像素的数目相同,即,对于像素补片300中的9×9个像素,每个LUT中存在9×9个系数网格。出现这种情况是因为这些系数与像素补片300中的像素逐元素相乘。
在一种实施方式中,像素-子像素转换器(图1B中未示出)基于预设的像素除数参数(例如,每个子像素1/5个像素,以生成5×5个子像素LUT网格700)将像素206划分为子像素LUT网格700。例如,像素可以被分成具有以下边界的五个子像素箱:-0.5、-0.3、-0.1、0.1、0.3、0.5。
在图7中,需注意,目标簇1(蓝色)的中心基本上与变换后的像素702的中心同心。出现这种情况是因为对测序图像200并因此对像素补片300进行重新采样,以通过以下方式使目标簇1(蓝色)的中心基本上与变换后的像素702的中心同心:(i)将测序图像200相对于模板图像配准,并且确定仿射变换参数和非线性变换参数,(ii)使用这些参数将目标簇1(蓝色)的位置坐标变换为测序图像200的图像坐标,以及(iii)使用目标簇1(蓝色)的变换后的位置坐标应用插值,以使其中心基本上与变换后的像素702的中心同心。样品平面中孔的位置是已知的,并且可以用于计算特定孔的均衡器输入在原始像素空间中的位置。然后,我们可以使用插值来从原始图像恢复那些位置处的强度。
图8示出了基于像素内的簇/孔中心的子像素位置从LUT库106中选择LUT/均衡器滤波器。由于目标簇(蓝色)的中心落在子像素LUT网格700的特定子像素12中,并且像素206的特定子像素12对应于LUT库106中的LUT 12,所以LUT选择器122从LUT库106中选择LUT 12及其系数,以应用于像素补片300的像素。然后,逐元素乘法器134将LUT 12的系数逐元素地乘以像素补片300中的像素的强度值,并且将乘法的乘积求和以产生输出(例如,加权和136)。该输出被用来对目标簇1进行碱基检出(例如,通过将该输出作为输入馈送到碱基检出器138)。
当目标簇基本上与像素的中心同心时,如上文关于图7和图8所论述的,均衡器104实施以下均衡逻辑:
Figure BDA0003899539100000241
在以上关系式中,孔中心坐标(m,n)是整数,以确保孔基本上与像素对准;p(i,j)是位置i,j处的像素强度;w(i,j)是位置i,j处的像素的均衡器权重;i,j是在围绕以p(m,n)为中心的孔的像素范围上起作用的求和限制,例如,-4<=i<=4,-4<=j<=4;并且输出是输入像素的加权平均数。
图9展示了一种实施方式,其中目标簇1(蓝色)的中心基本上不与像素206的中心同心,因为没有执行诸如关于图8所讨论的重新采样。在这种实施方式中,所述插值发生在一组所选择的LUT 124中,以产生具有插值系数的插值LUT。具有插值系数的插值LUT在本文中也被称为权重核132。
首先,像在图8那样,选择对应于目标簇1(蓝色)的中心落在其中的特定子像素的第一LUT,即LUT 12。然后,LUT选择器122从子像素查找表106库中选择附加的子像素查找表,其对应于与特定子像素最连续相邻的子像素。在图9中,邻接特定子像素12的最近的连续相邻子像素是子像素7、8和13,因此LUT 7、8和13分别选自LUT库106。
图10描绘了在一组所选择的LUT之间进行插值并且生成相应的LUT权重的一种实施方式。插值器126被配置为具有插值逻辑(例如,线性、双线性或双三次插值),其使用所选择的LUT 12、7、8和13的系数,并且生成LUT 12、7、8和13中的每一者的权重128。
图13A、图13B、图13C、图13D、图13E和图13F示出了LUT 12、7、8和13的系数的示例。这些图还示出了被插值器126用来计算LUT 12、7、8和13的权重128的插值逻辑的示例1312、1322和1332。这些图还示出了为LUT 12、7、8和13计算的权重128的示例。这些图是Excel表格的快照,并且这些图中的蓝色箭头和颜色编码由Excel的跟踪优先级特征生成以展示插值逻辑。
图11示出了使用LUT 12、7、8和13的计算出的权重128来生成权重核132的权重核生成器130。图14A描绘了权重核132的一个示例。图14B和图14C展示了由权重核生成器130使用以从LUT 12、7、8和13的计算出的权重128生成权重核132的权重核生成逻辑的一个示例1402。权重核132包括插值像素系数1412,这些插值像素系数被配置为以最大化信噪比的方式混合/组合像素补片300中的像素的强度值,这些像素描绘了来自目标簇1的强度发射以及来自相邻簇2、簇3、簇4和簇5的强度发射。信噪比被最大化的信号是来自目标簇的强度发射,而信噪比被最小化的噪声是来自相邻簇2、簇3、簇4和簇5的强度发射,即空间串扰,加上一些随机噪声(例如,以考虑背景强度发射)。这些插值像素系数1412用作权重,并且所述混合/组合包括执行LUT系数与像素补片300中的像素的强度值之间的逐元素乘法,以计算这些像素的强度值的加权和。
图12示出了逐元素乘法器134将权重核132的插值像素系数1412逐元素地与像素补片300中的像素的强度值相乘,然后将乘法的中间乘积1202求和以产生加权和136。对于每个孔,光学系统在点光源(孔中的簇强度)上以点扩展函数(光学系统的响应)操作。在一些实施方式中,将偏差添加到该操作,以说明由不同的簇尺寸、不同的背景强度、变化的刺激响应、变化的焦点、变化的传感器灵敏度和变化的透镜像差引起的噪声。捕获的图像是来自所有孔的响应的叠加。所选择的LUT将每个孔周围的系统响应均衡,以估计来自该孔的点源的强度,即,它处理传感器像素的局部邻域/网格上的PSF强度,以估计生成传感器像素的局部网格的点源的强度。该均衡器运算是局部网格中的传感器像素与均衡器系数的点积。
当目标簇基本上不与中心像素的中心同心时,如上文关于图9、图10、图11和图12所论述的,均衡器104实施以下均衡逻辑。当孔不在像素中心时,均衡器104的输出被计算为从测序图像的像素的实际像素强度导出的虚拟像素强度p'(i,j)的函数:
(1)ym,n=∑i,jp′(m+i,n+j).w(i,j)
在以上关系式中,孔中心坐标(m,n)可以具有小数部分。每个“虚拟的”均衡器输入p'(i,j)通过对像素邻域应用插值滤波器来生成。在一种实施方式中,将窗口化Sinc低通滤波器h(x,y)用于插值。在其他实施方式中,可以使用另一些滤波器,如双线性插值滤波器。
使用插值滤波器计算位置(i,j)处的虚拟像素,如下:
(2)p'(i,j)=∑u,vp(u,v).h(i-u,j-v)
通过将关系式(1)和(2)组合,均衡器104仅使用如下的原始像素强度:
Figure BDA0003899539100000261
在以上关系式中,在给定子像素偏移量frac(m),frac(n)的情况下,h是固定的;u,v指定用于插值以生成均衡器输入的像素的范围;并且i,j指定用作均衡器104的输入的虚拟像素的范围。
对于给定的子像素偏移量,发生变化的都是输入像素,而不是滤波器或权重。因此,对于每个分箱的子像素偏移量的中心,我们计算一组固定的插值均衡器系数。于是输出为:
Figure BDA0003899539100000262
在以上关系式中,hfm,fn表示具有分箱的小数子像素偏移量fm,fn的孔的LUT均衡器系数,其中(fm,fn)是LUT索引。
图15A和图15B展示了权重核的插值像素系数1412如何最大化信噪比并且从被来自簇2、3、4和5的串扰破坏的信号中恢复目标簇1的底层信号。
加权和136作为输入被馈送给碱基检出器138,以产生碱基检出140。碱基检出器138可以是基于非神经网络的碱基检出器或基于神经网络的碱基检出器,这两种碱基检出器的示例描述于以引用方式并入本文的专利申请中,诸如美国专利申请第62/821,766号和第16/826,168号。
在还有其他实施方式中,通过拥有大LUT来消除对插值的需要,其中每个LUT具有大量的子像素箱(例如,每个LUT具有50、75、100、150、200、300等个子像素箱)。
图19A使用来自NovaSeq测序仪的图像示出了表示碱基检出错误率的图。错误率由X轴上的循环示出。Y轴上的0.004表示0.4%的碱基检出错误率。在将读段映射到Phi-X参考(其为高置信度地面真值集合)并且与之比对后,计算这里的错误率。蓝线是旧式碱基检出器。红线是本文所公开的基于改进的均衡器的碱基检出器104。以有限的额外计算为代价,总错误率降低了57%。由于系统中的额外噪声(例如,预定相/定相、簇变暗),随后的循环中的碱基错误率较高。随后的循环中的性能增益增加,这是有价值的,因为这表明我们可以支持更长的读段。循环之间的性能变化也显著减小。
图19B-1和图19B-2示出了本发明所公开的基于均衡器的碱基检出器104关于来自NovaSeq测序仪和Vega测序仪的测序数据的性能结果的另一个示例。对于NovaSeq测序仪,本发明所公开的基于均衡器的碱基检出器104将碱基检出错误率降低超过50%。对于Vega测序仪,本发明所公开的基于均衡器的碱基检出器104将碱基检出错误率降低超过35%。
图19C示出了本发明所公开的基于均衡器的碱基检出器104关于来自NextSeq2000测序仪的测序数据的性能结果的另一个示例。对于NextSeq 2000测序仪,本发明所公开的基于均衡器的碱基检出器104将碱基检出错误率平均降低10%,而不影响通量。
图19D示出了本发明所公开的基于均衡器的碱基检出器104所需的计算资源的一种实施方式。如图所示,本发明所公开的基于均衡器的碱基检出器104可以使用范围从两个至七个线程的少量CPU线程来运行。因此,本发明所公开的基于均衡器的碱基检出器104是计算上高效的碱基检出器,其显著降低了碱基错误率,从而可以被集成到大多数现有的测序仪中,而不需要任何附加的计算资源或专用处理器(如GPU、FPGA、ASIC等)。
在本专利申请中,术语“簇”、“孔”、“样品”和“荧光样品”可互换使用,因为孔包含相应的簇/样品/荧光样品。如本文所定义,“样品”及其衍生物以其最广泛的意义使用,包括怀疑包含目标的任何标本、培养物等。在一些实施方式中,样品包括DNA、RNA、PNA、LNA、嵌合或杂交形式的核酸。样品可以包括含有一种或多种核酸的任何基于生物、临床、外科、农业、大气或水生动植物的标本。该术语还包括任何分离的核酸样品,诸如基因组DNA、新鲜冷冻或福尔马林固定石蜡包埋的核酸标本。还设想样品的来源可以是:单个个体、来自遗传相关成员的核酸样品的集合、来自遗传不相关成员的核酸样品、来自单个个体的(与之匹配的)核酸样品(诸如肿瘤样品和正常组织样品),或者来自含有两种不同形式的遗传物质(诸如从母体受试者获得的母体DNA和胎儿DNA)的单个来源的样品,或者在含有植物或动物DNA的样品中存在污染性细菌DNA。在一些实施方式中,核酸材料的来源可以包括从新生儿获得的核酸,例如通常用于新生儿筛检的核酸。
该核酸样品可以包括高分子量物质,诸如基因组DNA(gDNA)。该样品可以包括低分子量物质,诸如从FFPE样品或存档的DNA样品获得的核酸分子。在另一种实施方式中,低分子量物质包括酶促片段化或机械片段化的DNA。该样品可以包含无细胞循环DNA。在一些实施方式中,该样品可以包括从活检组织、肿瘤、刮取物、拭子、血液、黏液、尿液、血浆、精液、毛发、激光捕获显微解剖、手术切除和其他临床或实验室获得的样品获得的核酸分子。在一些实施方式中,该样品可以是流行病学样品、农业样品、法医学样品或病原性样品。在一些实施方式中,该样品可以包括从动物(诸如人或哺乳动物来源)获得的核酸分子。在另一种实施方式中,该样品可以包括从非哺乳动物来源(诸如植物、细菌、病毒或真菌)获得的核酸分子。在一些实施方式中,核酸分子的来源可以是存档或灭绝的样品或物种。
另外,本文所公开的方法和组合物可以用于扩增具有低质量核酸分子的核酸样品,诸如来自法医学样品的降解的和/或片段化的基因组DNA。在一种实施方式中,法医学样品可以包括从犯罪现场获得的核酸、从失踪人员DNA数据库获得的核酸、从与法医调查相关联的实验室获得的核酸,或者包括由执法机关、一种或多种军事服务或任何此类人员获得的法医学样品。核酸样品可以是经纯化的样品或含有粗DNA的溶胞产物,例如来源于口腔拭子、纸、织物或者其他可以用唾液、血液或其他体液浸渍的基材。因此,在一些实施方式中,核酸样品可以包含少量DNA(诸如基因组DNA),或者DNA的片段化部分。在一些实施方式中,目标序列可以存在于一种或多种体液中,其中体液包括但不限于血液、痰、血浆、精液、尿液和血清。在一些实施方式中,目标序列可以获自受害者的毛发、皮肤、组织样品、尸体解剖或遗骸。在一些实施方式中,包括一种或多种目标序列的核酸可以获自死亡的动物或人。在一些实施方式中,目标序列可以包括从非人DNA(诸如微生物、植物或昆虫DNA)获得的核酸。在一些实施方式中,目标序列或扩增的目标序列涉及人类身份识别的目的。在一些实施方式中,本公开整体涉及用于识别法医学样品的特征的方法。在一些实施方式中,本公开整体涉及使用本文所公开的一种或多种目标特异性引物或者用本文概述的引物设计标准设计的一种或多种目标特异性引物的人类身份识别方法。在一种实施方式中,含有至少一种目标序列的法医学样品或人类身份识别样品可以使用本文所公开的任何一种或多种目标特异性引物或者使用本文概述的引物标准进行扩增。
如本文所用,术语“相邻”在关于两个反应位点使用时,意味着在这两个反应位点之间没有其他的反应位点。术语“相邻”在关于相邻检测路径和相邻光检测器使用时可以具有类似的含义(例如,相邻光检测器之间没有其他的光检测器)。在一些情况下,一个反应位点可以不与另一个反应位点相邻,但仍然可以在该另一个反应位点的紧邻范围内。当来自第一反应位点的荧光发射信号被与第二反应位点相关联的光检测器检测到时,第一反应位点可以紧邻第二反应位点。更具体地,当与第二反应位点相关联的光检测器检测到例如来自第一反应位点的串扰时,第一反应位点可以紧邻第二反应位点。相邻反应位点可以是相接的,使得它们彼此邻接;或者相邻位点可以是非相接的,在它们之间具有间距空间。
技术改进和术语
本申请中引用的所有文献和类似材料,包括但不限于专利、专利申请、文章、书籍、论文和网页,无论这些文献和类似材料的格式如何,都明确地全文以引用方式并入。如果所并入文献和类似材料中的一者或多者与本申请不同或矛盾,包括但不限于所定义的术语、术语用法、所描述的技术等,则以本申请为准。关于术语的附加信息可以在2020年3月21日提交的名称为“Artificial Intelligence-Based Sequencing”的美国非临时专利申请第16/826,168号(代理人案卷号ILLM 1008-20/IP-1752-PRV)和2019年3月21日提交的名称为“Artificial Intelligence-Based Sequencing”的美国临时专利申请第62/821,766号(代理人案卷号ILLM 1008-9/IP-1752-PRV)中找到。
所公开的技术使用神经网络来改善可从核酸样品(诸如核酸模板或其互补序列,例如DNA或RNA多核苷酸或其他核酸样品)获得的核酸序列信息的质量和数量。因此,相对于先前可用的方法,所公开的技术的某些具体实施提供更高通量的多核苷酸测序,例如更高的DNA或RNA序列数据收集速率、更高的序列数据收集效率和/或获得这种序列数据的更低成本。
所公开的技术使用神经网络来识别固相核酸簇的中心并且分析在此类簇的测序期间生成的光信号,以明确地区分相邻、邻接或重叠的簇,以便将测序信号分配给单个离散源簇。因此,这些和相关具体实施允许从高密度簇阵列的区域检索有意义的信息诸如序列数据,其中由于重叠或非常紧密间隔的相邻簇的混杂效应,包括从其发出的重叠信号(例如,如在核酸测序中所用)的效应,先前无法从此类区域获得可用信息。
如下文更详细地描述,在某些具体实施中,提供了包含固体载体的组合物,该固体载体具有固定到其上的一个或多个如本文提供的核酸簇。每个簇包含多个相同序列的固定化核酸并且具有可识别中心,该可识别中心具有如本文所提供的可检测中心标记,通过该可检测中心标记可将可识别中心与簇中周围区域中的固定化核酸区分开。本文还描述了用于制造和使用具有可识别中心的此类簇的方法。
本发明所公开的具体实施将在许多情况下使用,其中从识别、确定、注释、记录或以其他方式分配簇内基本上中心位置的位置的能力中获得优势,诸如高通量核酸测序、用于将光学或其他信号分配给离散源簇的图像分析算法的开发,以及其中识别固定化核酸簇中心是期望的且有益的其他应用。
在某些具体实施中,本发明设想了涉及高通量核酸分析诸如核酸序列测定(例如,“测序”)的方法。示例性的高通量核酸分析包括但不限于从头测序、重新测序、全基因组测序、基因表达分析、基因表达监测、表观遗传分析、基因组甲基化分析、等位基因特异性引物延伸(APSE)、遗传多样性分析、全基因组多态性发现和分析、单核苷酸多态性分析、基于杂交的序列测定方法等。本领域的技术人员将会知道,可使用本发明的方法和组合物分析多种不同的核酸。
虽然关于核酸测序描述了本发明的具体实施,但它们适用于分析在不同时间点、空间位置或其他时间或物理视角采集的图像数据的任何领域。例如,本文所述的方法和系统可用于分子和细胞生物学领域,其中在不同的时间点或视角采集来自微阵列、生物标本、细胞、生物体等的图像数据并进行分析。图像可使用本领域已知的任何数量的技术获得,包括但不限于荧光显微镜法、光学显微镜法、共聚焦显微镜法、光学成像、磁共振成像、断层扫描等。又如,可应用本文所述的方法和系统,其中在不同的时间点或视角采集通过监测、空中或卫星成像技术等获得的图像数据并进行分析。该方法和系统尤其可用于分析针对视野获得的图像,其中被观察的分析物在视野中相对于彼此保持在相同位置。然而,该分析物可能具有在单独图像中不同的特征,例如,该分析物可能在视野的单独图像中看起来不同。例如,就在不同图像中检测到的给定分析物的颜色、在不同图像中检测到的给定分析物的信号强度的变化、或者甚至在一个图像中检测到的给定分析物的信号出现以及在另一个图像中检测到的该分析物的信号消失而言,分析物可能看起来不同。
如本文所用,术语“分析物”旨在表示图案中的点或区域,其可根据相对位置区别于其他点或区域。单个分析物可包括一种或多种特定类型的分子。例如,分析物可包括具有特定序列的单个靶核酸分子,或者分析物可包括具有相同序列(和/或其互补序列)的若干核酸分子。位于图案的不同分析物处的不同分子可根据分析物在图案中的位置而彼此区分。示例性分析物包括但不限于基板中的孔、基板中或基板上的小珠(或其他颗粒)、基板的突出部、基板上的脊、基板上的凝胶材料垫或基板中的通道。
待检测、表征或鉴定的多种靶分析物中的任一种可用于本文所述的设备、系统或方法中。示例性分析物包括但不限于核酸(例如,DNA、RNA或它们的类似物)、蛋白质、多糖、细胞、抗体、表位、受体、配体、酶(例如,激酶、磷酸酶或聚合酶)、小分子候选药物、细胞、病毒、生物体等。
术语“分析物”、“核酸”、“核酸分子”和“多核苷酸”在本文中可互换使用。在各种具体实施中,核酸可用作如本文所提供的模板(例如,核酸模板,或与核酸模板互补的核酸互补序列)以用于特定类型的核酸分析,包括但不限于核酸扩增、核酸表达分析和/或核酸序列测定或它们的合适组合。在某些具体实施中,核酸包括例如3'-5'磷酸二酯或其他键中的脱氧核糖核苷酸的线性聚合物,诸如脱氧核糖核酸(DNA),例如单链和双链DNA、基因组DNA、拷贝DNA或互补DNA(cDNA)、重组DNA或任何形式的合成或修饰DNA。在其他具体实施中,核酸包括例如3'-5'磷酸二酯或其他键中的核糖核苷酸的线性聚合物,诸如核糖核酸(RNA),例如单链和双链RNA、信使(mRNA)、拷贝RNA或互补RNA(cRNA)、选择性剪接的mRNA、核糖体RNA、核仁小RNA(snoRNA)、微小RNA(miRNA)、小干扰RNA(sRNA)、piwi RNA(piRNA)或任何形式的合成或修饰的RNA。用于本发明的组合物和方法中的核酸的长度可变化,并且可以是完整的或全长的分子或片段或较大核酸分子的较小部分。在特定具体实施中,核酸可具有一种或多种可检测标记,如本文别处所述。
术语“分析物”、“簇”、“核酸簇”、“核酸群体”和“DNA簇”可互换使用,指附着到固体载体的核酸模板和/或其互补序列的多个拷贝。通常并且在某些优选的具体实施中,核酸簇包含模板核酸和/或其互补序列的多个拷贝,所述多个拷贝通过它们的5'末端连接至固体载体。构成核酸簇的核酸链的拷贝可为单链或双链形式。簇中存在的核酸模板的拷贝可在例如由于标记部分的存在而彼此不同的对应位置处具有核苷酸。对应的位置还可包含具有不同化学结构但具有相似Watson-Crick碱基配对属性的类似结构,诸如尿嘧啶和胸腺嘧啶的情况。
核酸群体也可称为“核酸簇”。核酸群体可任选地通过簇扩增或桥式扩增技术产生,如本文其他地方进一步详细阐述的。靶序列的多个重复可存在于单个核酸分子中,诸如使用滚环扩增程序产生的多联体。
根据所用的条件,本发明的核酸簇可具有不同的形状、大小和密度。例如,簇可具有基本上圆形、多边形、圆环形或环形的形状。核酸簇的直径可被设计成约0.2μm至约6μm、约0.3μm至约4μm、约0.4μm至约3μm、约0.5μm至约2μm、约0.75μm至约1.5μm或任何介于其间的直径。在特定具体实施中,核酸簇的直径为约0.5μm、约1μm、约1.5μm、约2μm、约2.5μm、约3μm、约4μm、约5μm或约6μm。核酸簇的直径可受到多个参数的影响,包括但不限于产生簇时进行的扩增循环数、核酸模板的长度或附着到其上形成有簇的表面的引物的密度。核酸簇的密度可被设计成通常在0.1/mm2、1/mm2、10/mm2、100/mm2、1,000/mm2、10,000/mm2至100,000/mm2的范围内。本发明还部分地设想了较高密度的核酸簇,例如100,000/mm2至1,000,000/mm2和1,000,000/mm2至10,000,000/mm2
如本文所用,“分析物”是标本或视野内的感兴趣区域。当与微阵列设备或其他分子分析设备结合使用时,分析物是指由类似或相同分子占据的区域。例如,分析物可以是扩增的寡核苷酸或具有相同或相似序列的任何其他组的多核苷酸或多肽。在其他具体实施中,分析物可为占据标本上的物理区域的任何元素或元素组。例如,分析物可以是一片土地、一片水域等。当对分析物成像时,每种分析物都会有一定的面积。因此,在许多具体实施中,分析物不仅仅是一个像素。
分析物之间的距离可用任意多种方式描述。在一些具体实施中,分析物之间的距离可被描述为从一种分析物的中心到另一种分析物的中心。在其他具体实施中,距离可被描述为从一种分析物的边缘到另一种分析物的边缘,或者在每种分析物的最外侧可识别点之间。分析物的边缘可被描述为芯片上的理论或实际物理边界,或分析物边界内的某个点。在其他具体实施中,距离可相对于标本上的固定点或标本的图像中的固定点来描述。
一般来讲,本文将关于分析方法来描述若干具体实施。应当理解,还提供了用于以自动化或半自动化的方式执行方法的系统。因此,本公开提供了基于神经网络的模板生成和碱基检出系统,其中该系统可包括处理器;存储设备;以及用于图像分析的程序,该程序包括用于执行本文所述方法中的一种或多种方法的指令。因此,本文所述的方法可在例如具有本文所述或本领域已知的组件的计算机上进行。
本文示出的方法和系统可用于分析多种对象中的任一种。特别有用的对象是具有连接的分析物的固体载体或固相表面。当用于在xy平面中具有分析物的重复图案的对象时,本文示出的方法和系统提供优点。一个示例是具有细胞、病毒、核酸、蛋白质、抗体、碳水化合物、小分子(诸如候选药物)、生物活性分子或其他感兴趣的分析物的连接集合的微阵列。
已经开发出越来越多的应用,用于具有生物分子(诸如核酸和多肽)的分析物的阵列。此类微阵列通常包括脱氧核糖核酸(DNA)或核糖核酸(RNA)探针。这些探针对人类和其他生物体中存在的核苷酸序列为特异性的。在某些应用中,例如,可将单个DNA或RNA探针连接到阵列的单个分析物上。可将诸如来自已知的人或生物体的试样暴露于阵列,使得靶核酸(例如,基因片段、mRNA或其扩增子)与阵列中相应分析物处的互补探针杂交。探针可在靶标特异性过程中进行标记(例如,由于存在于靶核酸上的标记或由于在分析物中以杂交形式存在的探针或靶标的酶标记)。然后可通过扫描分析物上特定频率的光来检查阵列,以识别样品中存在哪些靶核酸。
生物微阵列可用于基因测序和类似应用。一般来讲,基因测序包括确定靶核酸(诸如DNA或RNA的片段)的长度中的核苷酸顺序。相对短的序列通常在每种分析物处进行测序,并且所得的序列信息可用于各种生物信息学方法中以将序列片段逻辑地拟合在一起,从而可靠地确定从其衍生出片段的遗传物质的长度范围更广的序列。已开发出用于特征性片段的自动化的、基于计算机的算法,并且最近已将其用于基因组作图、基因及其功能的鉴定等。微阵列尤其可用于表征基因组含量,因为存在大量变体,并且这取代了对单个探针和靶标进行许多实验的选择方案。微阵列是用于以实际方式进行此类研究的理想形式。
本领域已知的多种分析物阵列(也称为“微阵列”)中的任一种均可用于本文所述的方法或系统中。典型的阵列包含分析物,每种分析物具有单独的探针或探针群。在后一种情况下,每种分析物处的探针群通常是同质的,具有单一种类的探针。例如,就核酸阵列而言,每种分析物可具有多个核酸分子,每个核酸分子具有共同的序列。然而,在一些具体实施中,阵列的每种分析物处的探针群可以是异质的。类似地,蛋白质阵列可具有含单个蛋白质或蛋白质群的分析物,单个蛋白质或蛋白质群通常但不总是具有相同的氨基酸序列。探针可例如通过探针与表面的共价键合或通过探针与表面的非共价相互作用附着到阵列的表面。在一些具体实施中,探针诸如核酸分子可经由凝胶层附着到表面,如例如在以下专利申请中所述:美国专利申请序列号13/784,368和美国专利申请公布第2011/0059865A1号,这些专利申请中的每一篇均以引用方式并入本文。
示例性阵列包括但不限于得自Illumina公司(San Diego,Calif.)的BeadChip阵列或其他阵列,诸如其中探针附着到存在于表面上的珠粒(例如,表面上的孔中的珠粒)的那些阵列,诸如美国专利第6,266,459号、第6,355,431号、第6,770,441号、第6,859,570号、或第7,622,294号;或者PCT公布第WO 00/63437号中所述的那些阵列,这些文献中的每一篇均以引用方式并入本文。可使用的可商购获得的微阵列的其他示例包括,例如,
Figure BDA0003899539100000351
微阵列或根据有时称为VLSIPSTM(超大规模固定化聚合物合成)技术合成的其他微阵列。点状微阵列也可用于根据本发明的一些具体实施的方法或系统中。示例性点状微阵列是得自Amersham Biosciences的CodeLinkTM阵列。可用的另一个微阵列是使用喷墨印刷方法(诸如得自Agilent Technologies的SurePrintTM技术)制造的微阵列。
其他可用的阵列包括用于核酸测序应用的阵列。例如,具有基因组片段扩增子的阵列(通常称为簇)是特别有用的,诸如在Bentley等人,Nature 456:53-59(2008);WO 04/018497;WO 91/06678、WO 07/123744;美国专利第7,329,492号、第7,211,414号、第7,315,019号、第7,405,281号或第7,057,026号;或美国专利申请公布第2008/0108082A1号中所述的那些,这些文献中的每一篇均以引用方式并入本文。可用于核酸测序的另一种类型的阵列是由乳液PCR技术产生的颗粒的阵列。示例描述于Dressman等人,Proc.Natl.Acad.Sci.USA 100:8817-8822(2003)、WO 05/010145、美国专利申请公布2005/0130173,或美国专利申请公布2005/0064460中,这些文献中的每一篇均全文以引用方式并入本文。
用于核酸测序的阵列通常具有核酸分析物的随机空间模式。例如,得自Illumina公司(San Diego,Calif.)的HiSeq或MiSeq测序平台利用流通池,在该流通池上通过随机接种然后桥式扩增形成核酸阵列。然而,图案化阵列也可用于核酸测序或其他分析应用。示例性图案化阵列、其制造方法及其使用方法阐述于美国序列号13/787,396、美国序列号13/783,043、美国序列号13/784,368、美国专利申请公布第2013/0116153A1号以及美国专利申请公布第2012/0316086A1号中,这些文献中的每一篇均以引用方式并入本文。此类图案化阵列的分析物可用于捕获单个核酸模板分子以进行接种,随后例如经由桥式扩增形成同质群体。此类图案化阵列尤其可用于核酸测序应用。
可选择阵列(或本文的方法或系统中使用的其他对象)上的分析物的尺寸以适合特定应用。例如,在一些具体实施中,阵列的分析物可具有仅容纳单个核酸分子的尺寸。具有多个在该尺寸范围内的分析物的表面可用于构造分子阵列,从而以单分子分辨率进行检测。该尺寸范围内的分析物也可用于具有分析物的阵列中,这些分析物各自包含核酸分子的群体。因此,阵列的分析物可各自具有不大于约1mm2、不大于约500μm2、不大于约100μm2、不大于约10μm2、不大于约1μm2、不大于约500nm2、或不大于约100nm2、不大于约10nm2、不大于约5nm2或不大于约1nm2的面积。另选地或除此之外,阵列的分析物将不小于约1mm2、不小于约500μm2、不小于约100μm2、不小于约10μm2、不小于约1μm2、不小于约500nm2、不小于约100nm2、不小于约10nm2、不小于约5nm2或不小于约1nm2。实际上,分析物可具有在选自上文所例示的那些上限和下限之间的范围内的尺寸。尽管已关于核酸和核酸的尺度举例说明了表面的分析物的若干尺寸范围,但应当理解,这些尺寸范围内的分析物可用于不包括核酸的应用。还应当理解,分析物的尺寸不必局限于核酸应用中使用的尺度。
对于包括具有多种分析物的对象(诸如,分析物的阵列)的具体实施而言,分析物可以是离散的,彼此之间有间隔。可用于本发明的阵列可具有由至多100μm、50μm、10μm、5μm、1μm、0.5μm或更小的边缘到边缘距离隔开的分析物。另选地或除此之外,阵列可具有由至少0.5μm、1μm、5μm、10μm、50μm、100μm或更大的边缘到边缘距离隔开的分析物。这些范围可适用于分析物的平均边缘到边缘间距以及最小或最大间距。
在一些具体实施中,阵列的分析物不必是离散的,相反相邻的分析物可彼此邻接。无论分析物是否为离散的,分析物的尺寸和/或分析物的间距都可变化,使得阵列可具有期望的密度。例如,规则图案中的平均分析物间距可为至多100μm、50μm、10μm、5μm、1μm、0.5μm或更小。另选地或除此之外,规则图案中的平均分析物间距可为至少0.5μm、1μm、5μm、10μm、50μm、100μm或更大。这些范围也可适用于规则图案的最大或最小间距。例如,规则图案的最大分析物间距可为至多100μm、50μm、10μm、5μm、1μm、0.5μm或更小;并且/或者规则图案中的最小分析物间距可为至少0.5μm、1μm、5μm、10μm、50μm、100μm或更大。
阵列中分析物的密度也可根据每单位面积存在的分析物数量来理解。例如,阵列的平均分析物密度可为至少约1×103个分析物/mm2、1×104个分析物/mm2、1×105个分析物/mm2、1×106个分析物/mm2、1×107个分析物/mm2、1×108个分析物/mm2或1×109个分析物/mm2或更高。另选地或除此之外,阵列的平均分析物密度可为至多约1×109个分析物/mm2、1x108个分析物/mm2、1×107个分析物/mm2、1×106个分析物/mm2、1×105个分析物/mm2、1×104个分析物/mm2或1×103个分析物/mm2或更低。
上述范围可适用于规则图案的全部或部分,包括例如分析物阵列的全部或部分。
图案中的分析物可具有多种形状中的任一种。例如,当在二维平面内(诸如在阵列的表面上)观察时,分析物可看起来为圆形、环形、椭圆形、矩形、正方形、对称的、不对称的、三角形、多边形等。分析物可以规则的重复图案布置,包括例如六边形或直线形图案。可选择图案以实现所需的填充水平。例如,圆形分析物以六边形布置进行最佳填充。当然,其他填充布置也可用于圆形分析物,并且反之亦然。
图案可根据在形成该图案的最小几何单元的子集中存在的分析物的数量来表征。该子集可包括例如至少约2、3、4、5、6、10种或更多种分析物。根据分析物的尺寸和密度,几何单元可占据小于1mm2、500μm2、100μm2、50μm2、10μm2、1μm2、500nm2、100nm2、50nm2、10nm2或更小的面积。另选地或除此之外,几何单元可占据大于10nm2、50nm2、100nm2、500nm2、1μm2、10μm2、50μm2、100μm2、500μm2、1mm2或更大的面积。几何单元中的分析物的特征(诸如形状、尺寸、间距等)可选自本文针对阵列或图案中的分析物更一般地阐述的那些。
具有分析物的规则图案的阵列关于分析物的相对位置可为有序的,但关于每种分析物的一个或多个其他特征为随机的。例如,就核酸阵列而言,核酸分析物关于其相对位置可为有序的,但关于人们对存在于任何特定分析物处的核酸物质的序列的了解为随机的。作为更具体的示例,通过用模板核酸接种分析物的重复图案,并在每种分析物处扩增模板以在分析物处形成模板的拷贝(例如,通过簇扩增或桥式扩增)形成的核酸阵列将具有核酸分析物的规则图案,但关于核酸序列在整个阵列中的分布将是随机的。因此,通常在阵列上检测核酸材料的存在可产生分析物的重复图案,而序列特异性检测可产生信号在整个阵列上的非重复分布。
应当理解,本文对图案、顺序、随机性等的描述不仅涉及对象上的分析物,诸如阵列上的分析物,而且还涉及图像中的分析物。因此,图案、顺序、随机性等可以用于存储、操纵或传送图像数据的多种格式中的任一种存在,包括但不限于计算机可读介质或计算机部件,诸如图形用户界面或其他输出设备。
如本文所用,术语“图像”旨在表示对象的全部或部分的表示。该表示可以是光学检测的再现。例如,可从荧光、发光、散射或吸收信号获得图像。存在于图像中的对象的部分可以是对象的表面或其他xy平面。通常,图像为二维表示,但在一些情况下,图像中的信息可来源于3个或更多个维度。图像不需要包括光学检测的信号。相反,可存在非光信号。图像可以计算机可读格式或介质提供,诸如在本文其他地方阐述的那些中的一者或多者。
如本文所用,“图像”是指标本或其他对象的至少一部分的再现或表示。在一些具体实施中,再现是例如由相机或其他光学检测器产生的光学再现。该再现可以是非光学再现,例如,从纳米孔分析物阵列获得的电信号的表示或从离子敏感型CMOS检测器获得的电信号的表示。在特定具体实施中,非光学再现可从本文阐述的方法或设备中排除。图像可具有能够区分以多种间距中的任一种存在的标本的分析物的分辨率,所述间距包括例如间隔小于100μm、50μm、10μm、5μm、1μm或0.5μm的那些间距。
如本文所用,“获取”、“采集”等术语是指获得图像文件的过程的任何部分。在一些具体实施中,数据采集可包括生成标本的图像,查找标本中的信号,指示检测设备查找或生成信号的图像,给出用于进一步分析或转换图像文件的指令,以及图像文件的任何数量的转换或操纵。
如本文所用,术语“模板”是指信号或分析物之间的位置或关系的表示。因此,在一些具体实施中,模板是具有对应于标本中的分析物的信号的表示的物理网格。在一些具体实施中,模板可以是指示与分析物对应的位置的图表、表格、文本文件或其他计算机文件。在本文呈现的具体实施中,生成模板以便跟踪在不同参考点处捕获的标本的图像集上标本的分析物的位置。例如,模板可以是一组x,y坐标或描述一种分析物相对于另一种分析物的方向和/或距离的一组值。
如本文所用,术语“标本”可指捕获图像的对象或对象的区域。例如,在拍摄地球表面的图像的具体实施中,一片土地可为标本。在流通池中进行生物分子的分析的其他具体实施中,流通池可被分成任何数量的子部分,每个子部分可为标本。例如,流通池可被分成各种流动通道或槽道,并且每个槽道可被进一步分成2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、110、120、140、160、180、200、400、600、800、1000或更多个单独的成像区域。流通池的一个示例具有8个槽道,其中每个槽道被分成120个标本或区块。在另一个具体实施中,标本可由多个区块或甚至整个流通池组成。因此,每个标本的图像可表示较大表面的成像区域。
应当理解,本文所述的对范围和序数列表的引用不仅包括所枚举的数字,而且还包括所枚举的数字之间的所有实数。
如本文所用,“参考点”是指图像之间的任何时间或物理区别。在优选的具体实施中,参考点为时间点。在更优选的具体实施中,参考点是测序反应期间的时间点或循环。然而,术语“参考点”可包括区分或分离图像的其他方面,诸如角度方面、旋转方面、时间方面或可区分或分离图像的其他方面。
如本文所用,“图像子集”是指集合内的图像集。例如,子集可包含1个、2个、3个、4个、6个、8个、10个、12个、14个、16个、18个、20个、30个、40个、50个、60个图像或选自图像集的任意数量个图像。在特定具体实施中,子集可包含不超过1个、2个、3个、4个、6个、8个、10个、12个、14个、16个、18个、20个、30个、40个、50个、60个图像或选自图像集的任意数量个图像。在优选的具体实施中,从一个或多个测序循环获得图像,其中四个图像与每个循环相关。因此,例如,子集可以是通过四个循环获得的一组16个图像。
碱基是指如下核苷酸碱基或核苷酸,A(腺嘌呤)、C(胞嘧啶)、T(胸腺嘧啶)或G(鸟嘌呤)。本专利申请可互换使用“碱基”和“核苷酸”。
术语“染色体”是指活细胞的携带遗传性的基因载体,其来源于包含DNA和蛋白质组分(尤其是组蛋白)的染色质链。本文采用了常规的国际公认的个体人类基因组染色体编号系统。
术语“位点”是指参考基因组上的独特位置(例如,染色体ID、染色体位置和取向)。在一些具体实施中,位点可为残基、序列标签或片段在序列上的位置。术语“基因位点”可用于指核酸序列或多态性在参考染色体上的特定位置。
本文的术语“样本”是指通常来源于生物流体、细胞、组织、器官或生物体且包含核酸或核酸混合物的样本,该核酸或核酸混合物包含待测序和/或定相的至少一种核酸序列。此类样本包括但不限于痰/口腔液、羊水、血液、血液级分、细针活检样本(例如,外科活检、细针活检等)、尿液、腹膜液、胸膜液、组织外植体、器官培养物和任何其他组织或细胞制剂,或其级分或衍生物,或从其分离的级分或衍生物。虽然样本通常取自人类受试者(例如,患者),但样本可取自具有染色体的任何生物体,包括但不限于狗、猫、马、山羊、绵羊、牛、猪等。样本可按从生物来源获得的原样直接使用,或者经过预处理以改变样本的性质后使用。例如,此类预处理可包括由血液制备血浆、稀释粘性流体等。预处理的方法还可涉及但不限于过滤、沉淀、稀释、蒸馏、混合、离心、冷冻、冻干、浓缩、扩增、核酸片段化、干扰组分的灭活、添加试剂、裂解等。
术语“序列”包括或代表彼此偶联的核苷酸链。核苷酸可基于DNA或RNA。应当理解,一个序列可包括多个子序列。例如,单个序列(例如,PCR扩增子的序列)可具有350个核苷酸。样本读段可包括这350个核苷酸内的多个子序列。例如,样本读段可包括具有例如20-50个核苷酸的第一侧翼子序列和第二侧翼子序列。第一侧翼子序列和第二侧翼子序列可位于具有对应子序列(例如,40个-100个核苷酸)的重复片段的任一侧上。每个侧翼子序列可包括引物子序列(例如,10个-30个核苷酸)(或包括其部分)。为了便于阅读,术语“子序列”将被称为“序列”,但应当理解,两个序列不一定在共同链上彼此分开。为了区分本文所述的各种序列,可给序列赋予不同的标记(例如,靶序列、引物序列、侧翼序列、参考序列等)。其他术语诸如“等位基因”可被赋予不同的标记,以区分相似的对象。本申请可互换使用“读段”和“序列读段”。
术语“双端测序”是指对靶片段的两端进行测序的测序方法。双端测序可有助于检测基因组重排和重复片段,以及基因融合和新转录本。用于双端测序的方法描述于PCT公布WO07010252、PCT申请序列号PCTGB2007/003798和美国专利申请公布US 2009/0088327中,这些专利中的每一篇均以引用方式并入本文。在一个示例中,可如下执行一系列操作;(a)生成核酸簇;(b)使核酸线性化;(c)使第一测序引物杂交,并如上所述进行延伸、扫描和解封闭的重复循环;(d)通过合成互补拷贝“反转”流通池表面上的靶核酸;(e)使重新合成的链线性化;以及(f)使第二测序引物杂交,并如上所述进行延伸、扫描和解封闭的重复循环。反转操作可通过将如上所述的试剂递送用于桥式扩增的单个循环来进行。
术语“参考基因组”或“参考序列”是指可用于参考来自受试者的已鉴定序列的任何生物体的任何特定已知基因组序列,无论是部分的还是完整的。例如,可在ncbi.nlm.nih.gov的美国国家生物技术信息中心(National Center for BiotechnologyInformation)找到用于人类受试者以及许多其他生物体的参考基因组。“基因组”是指以核酸序列表达的生物体或病毒的完整遗传信息。基因组既包括基因又包括DNA的非编码序列。参考序列可大于与其比对的读段。例如,参考序列可为比对读段的至少约100倍大、或至少约1000倍大、或至少约10,000倍大、或至少约105倍大、或至少约106倍大、或至少约107倍大。在一个示例中,参考基因组序列是全长人类基因组的序列。在另一个示例中,参考基因组序列限于特定的人类染色体,诸如13号染色体。在一些具体实施中,参考染色体是来自人类基因组版本hg19的染色体序列。此类序列可称为染色体参考序列,但术语参考基因组旨在涵盖此类序列。参考序列的其他示例包括其他物种的基因组,以及任何物种的染色体、亚染色体区域(诸如链)等。在各种具体实施中,参考基因组是来源于多个个体的共有序列或其他组合。然而,在某些应用中,参考序列可取自特定个体。在其他具体实施中,“基因组”还涵盖所谓的“图形基因组”,其使用基因组序列的特定存储格式和表示。在一个具体实施中,图形基因组将数据存储在线性文件中。在另一个具体实施中,图形基因组是指其中另选序列(例如,具有小差异的染色体的不同拷贝)作为不同路径存储在图中的表示。关于图形基因组具体实施的其他详细信息可见于https://www.biorxiv.org/content/biorxiv/early/2018/03/20/194530.full.pdf,其内容据此全文以引用方式并入本文。
术语“读段”是指描述核苷酸样本或参考的片段的序列数据的集合。术语“读段”可指样本读段和/或参考读段。通常,尽管不是必须的,读段表示样本或参考中邻接碱基对的短序列。读段可由样本或参考片段的碱基对序列(ATCG形式)象征性地表示。读段可存储在存储器设备中并视情况进行处理,以确定该读段是匹配参考序列还是满足其他标准。读段可直接从测序装置获得或间接从所存储的关于样本的序列信息获得。在一些情况下,读段为足够长度(例如,至少约25bp)的DNA序列,其可用于鉴定更大的序列或区域,例如,其可被比对并特异性地分配给染色体或基因组区域或基因。
下一代测序方法包括例如边合成边测序技术(Illumina)、焦磷酸测序(454)、离子半导体技术(Ion Torrent测序)、单分子实时测序(Pacific Biosciences)和边连接边测序(SOLiD测序)。根据测序方法,每个读段的长度可在约30bp至超过10,000bp之间变化。例如,使用SOLiD测序仪的DNA测序方法产生约50bp的核酸读段。又如,Ion Torrent测序产生最多400bp的核酸读段并且454焦磷酸测序产生约700bp的核酸读段。又如,单分子实时测序方法可产生10,000bp至15,000bp的读段。因此,在某些具体实施中,核酸序列读段的长度为30bp-100bp、50bp-200bp或50bp-400bp。
术语“样本读段”、“样本序列”或“样本片段”是指来自样本的感兴趣的基因组序列的序列数据。例如,样本读段包含来自具有正向和反向引物序列的PCR扩增子的序列数据。序列数据可从任何选择的序列方法中获得。样本读段可例如来自边合成边测序(SBS)反应、边连接边测序反应或需要确定重复元件的长度和/或同一性的任何其他合适的测序方法。样本读段可以是来源于多个样本读段的共有(例如,平均或加权)序列。在某些具体实施中,提供参考序列包括基于PCR扩增子的引物序列鉴定感兴趣的基因位点。
术语“原始片段”是指感兴趣的基因组序列的一部分的序列数据,该序列数据与样本读段或样本片段中感兴趣的指定位置或次要位置至少部分地重叠。原始片段的非限制性示例包括双重拼接片段、单重拼接片段、双重未拼接片段和单重未拼接片段。术语“原始”用于表示原始片段包括与样本读段中的序列数据具有一些关系的序列数据,而不管原始片段是否表现出对应于并验证或确认样本读段中的潜在变异的支持变异。术语“原始片段”不表示该片段必然包括在样本读段中验证变异检出的支持变异。例如,当变异检出应用程序确定样本读段表现出第一变异时,变异检出应用程序可确定一个或多个原始片段缺少对应类型的“支持”变异,原本在给定样本读段中的变异的情况下可能预计会出现该“支持”变异。
术语“映射”、“比对(aligned、alignment或aligning)”是指将读段或标签与参考序列进行比较,从而确定参考序列是否包含该读段序列的过程。如果参考序列包含该读段,则该读段可映射到参考序列,或者在某些具体实施中,映射到参考序列中的特定位置。在一些情况下,比对简单地告知读段是否为特定参考序列的成员(即,该读段是否存在于该参考序列中)。例如,读段与人类13号染色体的参考序列的比对将告知该读段是否存在于13号染色体的参考序列中。提供该信息的工具可被称为集合成员资格测试仪(set membershiptester)。在一些情况下,比对另外指示读段或标签映射到的参考序列中的位置。例如,如果参考序列是人类全基因组序列,则比对可指示读段存在于13号染色体上,并且还可指示该读段存在于13号染色体的特定链和/或位点上。
术语“插入缺失”指生物体DNA中碱基的插入和/或缺失。微插入缺失表示导致1至50个核苷酸的净变化的插入缺失。在基因组的编码区中,除非插入缺失的长度是3的倍数,否则会产生移码突变。插入缺失可与点突变形成对比。插入缺失插入片段从序列中插入和缺失核苷酸,而点突变是置换其中一个核苷酸而不改变DNA中的核苷酸总数的置换形式。插入缺失也可与串联碱基突变(TBM)形成对比,该串联碱基突变可被定义为相邻核苷酸处的置换(主要是两个相邻核苷酸处的置换,但已观察到三个相邻核苷酸处的置换)。
术语“变异”是指与核酸参照物不同的核酸序列。典型的核酸序列变异包括但不限于单核苷酸多态性(SNP)、短缺失和插入多态性(Indel)、拷贝数变异(CNV)、微卫星标记或短串联重复序列和结构变异。体细胞变异检出是识别以低频率存在于DNA样本中的变异的工作。体细胞变异检出在癌症治疗的背景下是令人感兴趣的。癌症是由DNA中突变的积聚引起的。来自肿瘤的DNA样本通常是异质的,包括一些正常细胞、癌症进展早期的一些细胞(具有较少突变)和一些晚期细胞(具有较多突变)。由于这种异质性,当对肿瘤(例如,来自FFPE样本)测序时,体细胞突变将通常以低频率出现。例如,可在覆盖给定碱基的读段的仅10%中看到SNV。待由变异分类器分类为体细胞或种系的变异在本文中也被称为“待测变异”。
术语“噪声”是指由测序过程和/或变异检出应用程序中的一个或多个错误引起的错误变异检出。
术语“变异频率”表示等位基因(基因变异)在群体中特定基因位点处的相对频率,以分数或百分比表示。例如,分数或百分比可以是群体中所有携带该等位基因的染色体的分数。以举例的方式,样本变异频率表示等位基因/变异在沿感兴趣的基因组序列的特定基因位点/位置处相对于“群体”的相对频率,群体对应于从个体获得的感兴趣的基因组序列的读段和/或样本的数量。又如,基线变异频率表示等位基因/变异在沿一个或多个基线基因组序列的特定基因位点/位置处的相对频率,其中“群体”对应于从正常个体的群体获得的一个或多个基线基因组序列的读段和/或样本的数量。
术语“变异等位基因频率(VAF)”是指观察到的匹配变异的测序读段的百分比除以靶位置处的总体覆盖率。VAF是携带变异的测序读段的比例的量度。
术语“位置”、“指定位置”和“基因位点”是指核苷酸序列内的一个或多个核苷酸的位置或坐标。术语“位置”、“指定位置”和“基因位点”也指核苷酸序列中的一个或多个碱基对的位置或坐标。
术语“单倍型”指染色体上相邻位点处一起遗传的等位基因的组合。单倍型可为一个基因位点、多个基因位点或整个染色体,具体取决于在给定的一组基因位点之间发生的重组事件的数目(如果有的话)。
术语“阈值”在本文中是指用作表征样本、核酸或其部分(例如,读段)的截止值的数字或非数字值。阈值可基于经验分析而改变。可将阈值与测量值或计算值进行比较,以确定是否应以特定方式对产生此类值的源进行分类。阈值可根据经验或分析来识别。阈值的选择取决于用户希望必须进行分类的置信水平。阈值可被选择用于特定目的(例如,以平衡灵敏度和选择性)。如本文所用,术语“阈值”指示可改变分析过程的点和/或可触发动作的点。阈值不需要是预定数量。相反,阈值可以是例如基于多个因素的函数。阈值可根据情况进行调整。此外,阈值可指示上限、下限或限值之间的范围。
在一些具体实施中,可将基于测序数据的度量或分数与阈值进行比较。如本文所用,术语“度量”或“分数”可包括由测序数据确定的值或结果,或者可包括基于由测序数据确定的值或结果的函数。与阈值一样,度量或分数可根据情况进行调整。例如,度量或分数可以是归一化值。作为分数或度量的示例,一个或多个具体实施可在分析数据时使用计数分数。计数分数可基于样本读段的数量。样本读段可能已经历一个或多个过滤阶段,使得样本读段具有至少一个共同的特征或质量。例如,用于确定计数分数的每个样本读段可能已经与参考序列比对,或者可能被分配为潜在等位基因。可对具有共同特征的样本读段的数量进行计数以确定读段计数。计数分数可基于读段计数。在一些具体实施中,计数分数可以是等于读段计数的值。在其他具体实施中,计数分数可基于读段计数和其他信息。例如,计数分数可基于基因位点的特定等位基因的读段计数和基因位点的读段总数。在一些具体实施中,计数分数可基于基因位点的读段计数和先前获得的数据。在一些具体实施中,计数分数可以是预定值之间的归一化分数。计数分数还可以是来自样本的其他基因位点的读段计数的函数或来自与感兴趣的样本并行运行的其他样本的读段计数的函数。例如,计数分数可以是特定等位基因的读段计数和样本中其他基因位点的读段计数和/或来自其他样本的读段计数的函数。例如,来自其他基因位点的读段计数和/或来自其他样本的读段计数可用于归一化特定等位基因的计数分数。
术语“覆盖率”或“片段覆盖率”是指序列的相同片段的多个样本读段的计数或其他量度。读段计数可表示覆盖对应片段的读段数量的计数。另选地,可通过将读段计数乘以基于历史知识、样本知识、基因位点知识等的指定因子来确定覆盖率。
术语“读段深度”(通常为数字后跟“×”)是指在靶位置处具有重叠比对的序列读段的数量。这通常表示为一组区间(诸如外显子、基因或组)内的平均值或超过截止值的百分比。例如,临床报告可能说组平均覆盖率为1,105×,其中98%的靶碱基覆盖率>100×。
术语“碱基检出质量分数”或“Q分数”是指与单个测序碱基正确的概率成反比的0-50范围内的PHRED标度概率。例如,Q为20的T碱基检出被认为可能是正确的,概率为99.99%。Q<20的任何碱基检出应被认为是低质量的,并且在支持变异的相当大比例的测序读段具有低质量的情况下识别的任何变异应被认为是潜在假阳性的。
术语“变异读段”或“变异读段数量”是指支持变异存在的测序读段的数量。
关于“链型”(或DNA链型),DNA中的遗传信息可表示为字母A、G、C和T的字符串。例如,5’–AGGACA–3’。通常,序列沿此处所示的方向书写,即,5’端向左而3’端向右。DNA有时可以单链分子的形式出现(如在某些病毒中),但通常我们发现DNA为双链单元。它具有双螺旋结构,该结构具有两条逆平行链。在这种情况下,词语“逆平行”是指两条链平行延伸,但具有相反的极性。双链DNA通过碱基之间的配对保持在一起,并且配对总是使得腺嘌呤(A)与胸腺嘧啶(T)配对并且胞嘧啶(C)与鸟嘌呤(G)配对。这种配对被称为互补性,并且DNA的一条链被称为另一条链的互补序列。因此,双链DNA可表示为两个字符串,像这样:5’–AGGACA–3’和3’–TCCTGT–5’。注意,两条链具有相反的极性。因此,两条DNA链的链型可称为参考链及其互补链、正向链和反向链、顶部链和底部链、有义链和反义链或沃森链和克里克链。
读段比对(也称为读段映射)是找出序列在基因组中的位置的过程。一旦进行了比对,给定读段的“映射质量”或“映射质量分数(MAPQ)”对其在基因组上的位置正确的概率进行定量。映射质量以phred标度进行编码,其中P是比对不正确的概率。概率计算为:P=10(-MAQ/10),其中MAPQ是映射质量。例如,40的映射质量=10的-4次方,这意味着读段有0.01%的机会被错误地比对。因此,映射质量与若干比对因素相关联,诸如读段的碱基质量、参考基因组的复杂性以及双端信息。关于第一个因素,如果读段的碱基质量低,则意味着观察到的序列可能是错误的,因此其比对是错误的。关于第二个因素,可映射性是指基因组的复杂性。重复区域更难以映射,并且落入这些区域中的读段通常获得低映射质量。在这种情况下,MAPQ反映了这样一个事实,即读段不是唯一比对的,它们的真正来源无法确定。关于第三个因素,在双端测序数据的情况下,一致的对更可能是良好比对的。映射质量越高,比对越好。以良好映射质量比对的读段通常意味着读段序列良好,并且在高可映射性区域中几乎没有错配地进行比对。MAPQ值可用作比对结果的质量控制。MAPQ高于20的所比对读段的比例通常用于下游分析。
如本文所用,“信号”是指可检测的事件,诸如图像中的发射,优选地为光发射。因此,在优选的具体实施中,信号可表示在图像中捕获的任何可检测的光发射(即,“光点”)。因此,如本文所用,“信号”可指来自标本的分析物的实际发射,并且可指与实际分析物不相关的杂散发射。因此,信号可能由噪声产生,并且由于不代表标本的实际分析物而可能随后被丢弃。
如本文所用,术语“丛”是指一组信号。在特定具体实施中,信号来源于不同的分析物。在优选的具体实施中,信号丛是聚集在一起的一组信号。在更优选的具体实施中,信号丛表示由一个扩增的寡核苷酸覆盖的物理区域。每个信号丛在理想情况下应被观察为若干信号(每个模板循环一个,并且可能由于串扰而更多)。因此,在来自同一信号丛的模板中包括两个(或更多个)信号的情况下,检测到重复信号。
如本文所用,术语诸如“最小”、“最大”、“最小化”、“最大化”及其语法变型可包括不是绝对最大值或最小值的值。在一些具体实施中,这些值包括接近最大值和接近最小值。在其他具体实施中,这些值可包括局部最大值和/或局部最小值。在一些具体实施中,这些值仅包括绝对最大值或最小值。
如本文所用,“串扰”是指在一个图像中检测到的信号也在单独的图像中检测到。在优选的具体实施中,当在两个单独的检测通道中检测到发射的信号时,可发生串扰。例如,在发射信号以一种颜色出现的情况下,该信号的发射光谱可与另一种颜色的另一个发射信号重叠。在优选的具体实施中,在单独的通道中检测用于指示核苷酸碱基A、C、G和T的存在的荧光分子。然而,因为A和C的发射光谱重叠,所以可在使用A颜色通道的检测期间检测C颜色信号中的一些。因此,A信号和C信号之间的串扰允许来自一个彩色图像的信号出现在另一个彩色图像中。在一些具体实施中,G和T串扰。在一些具体实施中,通道之间的串扰量为不对称的。应当理解,通道之间的串扰量可通过(除了别的以外)选择具有适当发射光谱的信号分子以及选择检测通道的尺寸和波长范围来控制。
如本文所用,“配准(register、registering、registration)”和类似术语是指将来自第一时间点或视角的图像或数据集中的信号与来自另一时间点或视角的图像或数据集中的信号相关联的任何过程。例如,配准可用于对准来自图像集的信号以形成模板。又如,配准可用于将来自其他图像的信号与模板对准。一个信号可直接或间接配准到另一个信号。例如,来自图像“S”的信号可直接配准到图像“G”。又如,来自图像“N”的信号可直接配准到图像“G”,或者另选地,来自图像“N”的信号可配准到先前已配准到图像“G”的图像“S”。因此,来自图像“N”的信号间接配准到图像“G”。
如本文所用,术语“基准”旨在表示对象中或对象上的可区分的参考点。参考点可为例如标记、第二对象、形状、边缘、区域、不规则性、通道、凹坑、柱等。参考点可存在于对象的图像中或存在于从检测对象导出的另一数据集中。参考点可由对象平面中的x和/或y坐标来指定。另选地或除此之外,参考点可由正交于xy平面的z坐标指定,例如由对象和检测器的相对位置限定。可相对于对象或图像或从对象导出的其他数据集的一个或多个其他分析物来指定参考点的一个或多个坐标。
如本文所用,术语“光信号”旨在包括例如荧光信号、发光信号、散射信号或吸收信号。可在电磁光谱的紫外(UV)范围(约200纳米至390纳米)、可见(VIS)范围(约391纳米至770纳米)、红外(IR)范围(约0.771微米至25微米)或其他范围内检测光信号。可以排除这些范围中的一个或多个的全部或部分的方式检测光信号。
如本文所用,术语“信号电平”旨在表示具有期望或预定义特征的检测到的能量或编码信息的量或数量。例如,光信号可通过强度、波长、能量、频率、功率、亮度等中的一者或多者来量化。其他信号可根据特征诸如电压、电流、电场强度、磁场强度、频率、功率、温度等进行量化。信号缺失被理解为信号电平为零或信号电平与噪声没有明显区别。
如本文所用,术语“模拟”旨在表示创建物理事物或动作的表示或模型,其预测该事物或动作的特征。在许多情况下,表示或模型可与事物或动作区分开来。例如,就一个或多个特征诸如颜色、从事物的全部或部分检测到的信号强度、尺寸或形状而言,表示或模型可与事物区分开来。在特定具体实施中,当与事物或动作相比时,表示或模型可以是理想化的、放大的、变暗的或不完整的。因此,在一些具体实施中,例如,就上述特征中的至少一个特征而言,模型的表示可与其所表示的事物或动作区分开来。该表示或模型可以计算机可读格式或介质提供,诸如在本文其他地方阐述的那些中的一者或多者。
如本文所用,术语“特定信号”旨在表示相对于其他能量或信息(诸如背景能量或信息)选择性地观察到的检测到的能量或编码信息。例如,特定信号可以是在特定强度、波长或颜色下检测到的光信号;在特定频率、功率或场强下检测到的电信号;或本领域已知的与光谱和分析检测有关的其他信号。
如本文所用,术语“长条”旨在表示对象的矩形部分。长条可为细长的条带,其通过在平行于该条带的最长维度的方向上对象与检测器之间的相对运动来扫描。一般来讲,矩形部分或条带的宽度沿其全长将是恒定的。对象的多个长条可彼此平行。对象的多个长条可彼此相邻、彼此重叠、彼此邻接或通过间隙区域彼此隔开。
如本文所用,术语“方差”旨在表示预期值与观察值之间的差值或两个或更多个观察值之间的差值。例如,方差可以是期望值与测量值之间的差异。方差可使用统计函数来表示,诸如标准偏差、标准偏差的平方、变异系数等。
如本文所用,术语“xy坐标”旨在表示指定xy平面中的位置、尺寸、形状和/或取向的信息。该信息可以是例如笛卡尔系统中的数字坐标。坐标可相对于x轴和y轴中的一者或两者提供,或者可相对于xy平面中的另一个位置提供。例如,对象的分析物的坐标可指定分析物相对于对象的基准或其他分析物的位置的位置。
如本文所用,术语“xy平面”旨在表示由直线轴x和y限定的二维区域。当参考检测器和检测器所观察的对象使用时,该区域可被进一步指定为与检测器和所检测的对象之间的观察方向正交。
如本文所用,术语“z坐标”旨在表示指定沿着正交于xy平面的轴的点、线或区域的位置的信息。在特定具体实施中,z轴正交于检测器所观察的对象的区域。例如,光学系统的焦点方向可沿z轴指定。
在一些具体实施中,使用仿射变换来变换所采集的信号数据。在一些此类具体实施中,模板生成利用颜色通道之间的仿射变换在运行之间是一致的这一事实。由于这种一致性,当确定标本中分析物的坐标时,可使用一组默认偏移量。例如,默认偏移文件可包含不同通道相对于一个通道(诸如A通道)的相对变换(移动、缩放、偏斜)。然而,在其他具体实施中,颜色通道之间的偏移在运行期间和/或运行之间漂移,使得偏移驱动的模板生成变得困难。在此类具体实施中,本文所提供的方法和系统可利用无偏移模板生成,这将在下文进一步描述。
在上述具体实施的一些方面,该系统可包括流通池。在一些方面,流通池包括区块的槽道或其他配置,其中至少一些区块包括一个或多个分析物阵列。在一些方面,分析物包含多个分子诸如核酸。在某些方面,流通池被配置为将标记的核苷酸碱基递送至核酸阵列,从而延伸与分析物内的核酸杂交的引物,以便产生对应于包含核酸的分析物的信号。在优选的具体实施中,分析物内的核酸彼此相同或基本上相同。
在本文所述的一些图像分析系统中,图像集中的每个图像包括颜色信号,其中不同的颜色对应于不同的核苷酸碱基。在一些方面,该图像集中的每个图像包括具有选自至少四种不同颜色的单一颜色的信号。在一些方面,该图像集中的每个图像包括具有选自四种不同颜色的单一颜色的信号。在本文所述的一些系统中,可通过向分子阵列提供四种不同的标记核苷酸碱基来对核酸进行测序,从而产生四种不同的图像,每种图像包含具有单一颜色的信号,其中信号颜色对于四种不同图像中的每一种都是不同的,从而产生对应于核酸中特定位置存在的四种可能核苷酸的四种颜色图像的循环。在某些方面,该系统包括流通池,该流通池被配置为将另外的标记核苷酸碱基递送到分子阵列,从而产生彩色图像的多个循环。
在优选的具体实施中,本文提供的方法可包括确定处理器是否正在主动采集数据或处理器是否处于低活动状态。采集和存储大量高质量图像通常需要大量存储容量。另外,一旦采集和存储,对图像数据的分析可能变为资源密集型,并且可能干扰其他功能的处理能力,诸如正在进行的额外图像数据的采集和存储。因此,如本文所用,术语低活动状态是指处理器在给定时间的处理能力。在一些具体实施中,当处理器未采集和/或存储数据时,低活动状态发生。在一些具体实施中,当进行一些数据采集和/或存储时,低活动状态发生,但是额外的处理能力保持不变,使得图像分析可在不干扰其他功能的情况下同时发生。
如本文所用,“识别冲突”是指识别多个进程竞争资源的情况。在一些此类具体实施中,一个进程被赋予比另一个进程更高的优先级。在一些具体实施中,冲突可能涉及为时间分配、处理能力、存储容量或被赋予优先级的任何其他资源赋予优先级的需要。因此,在一些具体实施中,当处理时间或能力要分布在两个进程(诸如分析数据集和采集和/或存储数据集)之间时,两个进程之间存在冲突,并且可通过赋予其中一个进程优先级来解决冲突。
本文还提供了用于执行图像分析的系统。该系统可包括处理器;存储容量;以及用于图像分析的程序,该程序包括用于处理用于存储的第一数据集和用于分析的第二数据集的指令,其中该处理包括在存储设备上采集和/或存储第一数据集,并且当处理器未采集第一数据集时分析第二数据集。在某些方面,该程序包括用于以下操作的指令:识别采集和/或存储第一数据集与分析第二数据集之间的冲突的至少一个实例;以及解决冲突以有利于采集和/或存储图像数据,使得采集和/或存储第一数据集被赋予优先级。在某些方面,第一数据集包括从光学成像设备获得的图像文件。在某些方面,系统还包括光学成像设备。在一些方面,光学成像设备包括光源和检测设备。
如本文所用,术语“程序”是指执行任务或进程的指令或命令。术语“程序”可与术语模块互换使用。在某些具体实施中,程序可以是在同一命令集下执行的各种指令的编译。在其他具体实施中,程序可指离散的批或文件。
下文阐述了利用本文所述的用于执行图像分析的方法和系统的一些令人惊讶的效果。在一些测序具体实施中,测序系统效用的重要量度是其总体效率。例如,每天产生的可映射数据量以及安装和运行仪器的总成本是经济测序解决方案的重要方面。为了减少生成可映射数据的时间并提高系统的效率,可在仪器计算机上启用实时碱基检出,并且可与测序化学过程和成像同步运行。这允许许多数据处理和分析在测序化学过程结束之前完成。另外,它可减少中间数据所需的存储,并限制需要通过网络传输的数据量。
虽然序列输出增加了,但从本文提供的系统传输到网络和辅助分析处理硬件的每次运行的数据已显著减少。通过在仪器计算机(采集计算机)上转换数据,显著降低了网络负载。如果没有这些机载的、离线的数据简化技术,一组DNA测序仪器的图像输出将使大多数网络瘫痪。
高通量DNA测序仪器的广泛采用部分是由于易于使用、对各种应用的支持以及对几乎任何实验室环境的适用性。本文介绍的高效算法允许将重要的分析功能添加到可控制测序仪器的简单工作站中。对计算硬件要求的这种降低具有若干实际益处,这些益处将随着对测序输出水平的不断提高而变得甚至更重要。例如,通过在简单塔上执行图像分析和碱基检出,将热量产生、实验室占地面积和功耗保持在最低水平。相比之下,其他商业测序技术最近已将其计算基础结构扩展到用于主要分析,处理能力高达五倍以上,从而导致热量输出和功耗的相应增加。因此,在一些具体实施中,本文提供的方法和系统的计算效率使得客户能够增加其测序通量,同时将服务器硬件费用保持在最小。
因此,在一些具体实施中,本文提出的方法和/或系统充当状态机,跟踪每个标本的单独状态,并且当其检测到标本准备前进到下一状态时,其进行适当的处理并使标本前进到该状态。根据优选的具体实施,状态机如何监控文件系统以确定标本何时准备好前进到下一状态的更详细示例在下面的实施例1中示出。
在优选的具体实施中,本文提供的方法和系统是多线程的,并且可与可配置数量的线程一起工作。因此,例如在核酸测序的情况下,本文提供的方法和系统能够在实时分析的实时测序运行期间在后台工作,或者其可使用预先存在的图像数据集运行以用于离线分析。在某些优选的具体实施中,方法和系统通过为每个线程赋予其自身所负责的标本的子集来处理多线程。这将线程争用的可能性降至最低。
本公开的方法可包括使用检测装置获得对象的目标图像的步骤,其中图像包括对象上分析物的重复图案。能够对表面进行高分辨率成像的检测装置尤其有用。在特定具体实施中,检测装置将具有足够的分辨率,从而以本文所述的密度、间距和/或分析物尺寸来区分分析物。能够从表面获得图像或图像数据的检测装置特别有用。示例性检测器是被配置为在获得区域图像时使对象和检测器保持静态关系的那些检测器。也可使用扫描装置。例如,可使用获得顺序区域图像的装置(例如,所谓的“步进拍摄”检测器)。在对象的表面上连续扫描点或线以积累数据来构建表面图像的设备也是有用的。点扫描检测器可被配置为经由表面的x-y平面中的光栅运动来扫对象表面上的点(即,小的检测区域)。线扫描检测器可被配置为沿着对象表面的y维度扫描线,该线的最长维度沿着x维度出现。应当理解,可移动检测设备、对象或两者以实现扫描检测。特别适用于例如核酸测序应用的检测装置在以下专利中有所描述:美国专利申请公布第2012/0270305A1号、第2013/0023422A1号和第2013/0260372A1号;以及美国专利第5,528,050号、第5,719,391号、第8,158,926号和第8,241,573号,这些专利中的每一篇均以引用方式并入本文。
本文所公开的具体实施可被实现为使用编程或工程技术来产生软件、固件、硬件或它们的任何组合的方法、装置、系统或制品。如本文所用,术语“制品”是指在硬件或计算机可读介质诸如光学存储设备和易失性或非易失性存储器设备中实现的代码或逻辑。此类硬件可包括但不限于现场可编程门阵列(FPGA)、粗粒度可重构架构(CGRA)、专用集成电路(ASIC)、复杂可编程逻辑器件(CPLD)、可编程逻辑阵列(PLA)、微处理器或其他类似的处理设备。在特定具体实施中,本文阐述的信息或算法存在于非暂态存储介质中。
在特定具体实施中,本文阐述的计算机实现的方法可在获得对象的多个图像时实时发生。此类实时分析尤其可用于核酸测序应用,其中核酸阵列经受流体和检测步骤的重复循环。测序数据的分析通常可能是计算密集型的,使得在进行其他数据采集或分析算法时实时或在后台执行本文所述的方法可能是有益的。可与本发明方法一起使用的示例性实时分析方法是用于可从Illumina公司(San Diego,Calif.)商购获得和/或描述于美国专利申请公布2012/0020537A1中的MiSeq和HiSeq测序设备的那些方法,该专利申请公布以引用方式并入本文。
由一个或多个编程的计算机形成的示例性数据分析系统,其中编程存储在一个或多个机器可读介质上,其中执行代码以进行本文所述方法的一个或多个步骤。在一个具体实施中,例如,该系统包括被设计成允许系统联网到被配置为从目标对象采集数据的一个或多个检测系统(例如,光学成像系统)的接口。接口可在适当的地方接收和调节数据。在特定具体实施中,检测系统将输出数字图像数据,例如,代表单独的图片元素或像素的图像数据,它们共同形成阵列或其他对象的图像。处理器根据由处理代码定义的一个或多个例程来处理接收到的检测数据。处理代码可存储在各种类型的存储器电路中。
根据当前设想的具体实施,对检测数据执行的处理代码包括数据分析例程,该例程被设计成分析检测数据以确定在数据中可见或编码的单独分析物的位置和元数据,以及没有检测到分析物的位置(即,没有分析物的位置,或没有从现有分析物检测到有意义信号的位置)。在特定具体实施中,由于存在附着到成像分析物的荧光染料,阵列中的分析物位置通常将看起来比非分析物位置更亮。应当理解,例如,当探针在分析物处的靶标不存在于被检测的阵列中时,分析物不需要看起来比其周围区域更亮。单独分析物出现的颜色可取决于所采用的染料以及成像系统用于成像目的所用的光的波长。靶标不与之结合或以其他方式缺乏特定标记的分析物可根据其他特征(诸如它们在微阵列中的预期位置)进行鉴定。
一旦数据分析例程已在数据中定位单独分析物,就可进行值分配。一般来讲,值分配将基于由对应位置处的检测器组件(例如,像素)表示的数据的特征,将数字值分配给每个分析物。也就是说,例如当处理成像数据时,值分配例程可被设计成识别在特定位置处检测到特定颜色或波长的光,如由该位置处的像素组或簇所指示的。例如,在典型的DNA成像应用中,四种常见核苷酸将由四种独立且可区分的颜色表示。然后,可为每种颜色分配对应于该核苷酸的值。
如本文所用,术语“模块”、“系统”或“系统控制器”可包括操作以执行一个或多个功能的硬件和/或软件系统和电路。例如,模块、系统或系统控制器可包括基于存储在有形和非暂态计算机可读存储介质诸如计算机存储器上的指令来执行操作的计算机处理器、控制器或其他基于逻辑的设备。另选地,模块、系统或系统控制器可包括基于硬接线逻辑和电路来执行操作的硬接线设备。附图中所示的模块、系统或系统控制器可表示基于软件或硬接线指令来操作的硬件和电路、指导硬件执行操作的软件或它们的组合。模块、系统或系统控制器可包括或表示硬件电路或电路,该硬件电路或电路包括一个或多个处理器并且/或者与该一个或多个处理器连接,诸如一个或多个计算机微处理器。
如本文所用,术语“软件”和“固件”是可互换的,并且包括存储在存储器中以供计算机执行的任何计算机程序,包括RAM存储器、ROM存储器、EPROM存储器、EEPROM存储器和非易失性RAM(NVRAM)存储器。上述存储器类型仅为示例,因此不限制可用于存储计算机程序的存储器类型。
在分子生物学领域中,所使用的核酸测序方法中的一种方法是边合成边测序。该技术可应用于大规模并行测序项目。例如,通过使用自动化平台,可以同时进行成千上万的测序反应。因此,本发明的具体实施中的一个具体实施涉及用于采集、存储和分析在核酸测序期间生成的图像数据的仪器和方法。
可采集和存储的数据量的巨大增益使得简化的图像分析方法甚至更加有益。例如,本文所述的图像分析方法允许设计者和最终用户有效地利用现有计算机硬件。因此,面对快速增加的数据输出,本文呈现了减少处理数据的计算负担的方法和系统。例如,在DNA测序领域中,在最近一年中产出已按比例缩放了15倍,并且现在可在DNA测序设备的单次运行中达到数百个十亿碱基。如果计算基础设施要求成比例增长,则大多数研究者将仍然无法实现大型基因组级实验。因此,生成更原始的序列数据将增加对二次分析和数据存储的需要,使得对数据传输和存储的优化极其有价值。本文呈现的方法和系统的一些具体实施可减少产生可用序列数据所需的时间、硬件、网络和实验室基础设施要求。
本公开描述了用于执行这些方法的各种方法和系统。方法中一些的示例被描述为一系列步骤。然而,应当理解,具体实施不限于本文所述的特定步骤和/或步骤顺序。可省略步骤,可修改步骤,并且/或者可添加其他步骤。此外,可组合本文所述的步骤,可同时执行步骤,可并行执行步骤,可将步骤分成多个子步骤,可以不同顺序执行步骤,或者可以迭代方式重新执行步骤(或一系列步骤)。此外,尽管本文阐述了不同方法,但应当理解,在其他具体实施中可组合这些不同方法(或这些不同方法的步骤)。
在一些具体实施中,“被配置为”执行任务或操作的处理单元、处理器、模块或计算系统可被理解为被特别地构造成执行任务或操作(例如,使存储在其上或与其结合使用的一个或多个程序或指令被定制成或旨在执行任务或操作,并且/或者使处理电路的布置被定制成或旨在执行任务或操作)。出于清楚和免生疑问的目的,除非或直到被特别编程或在结构上经修改以执行任务或操作,通用计算机(如果适当编程,则其可被“配置为”执行任务或操作)不被“配置为”执行任务或操作。
此外,本文所述的方法的操作可足够复杂,使得在商业上合理的时间段内这些操作无法由普通技术人员或本领域的普通技术人员实际执行。例如,这些方法可依赖于相对复杂的计算,使得人员无法在商业上合理的时间内完成这些方法。
在整个本申请中,已引用了各种公布、专利或专利申请。这些公布的公开内容据此全文以引用方式并入本申请中,以便更全面地描述与本发明有关的现有技术。
术语“包含”在本文中旨在为开放式的,不仅包括所列举的要素,而且还涵盖任何附加要素。
如本文所用,当参考项目的集合使用时,术语“每个”旨在识别集合中的单个项目,但不一定是指集合中的每个项目。如果明确公开或上下文另有明确规定,则可能会出现例外情况。
尽管已参考上文提供的示例描述了本发明,但应当理解,在不脱离本发明的前提下,可进行各种修改。
本申请中的模块可在硬件或软件中实现,并且不需要按如图所示那样精确地划分成相同的框。这些模块中的一些还可在不同的处理器或计算机上实现,或者在多个不同的处理器或计算机之间扩展。此外,应当理解,在不影响所实现的功能的情况下,可组合、同步操作或以与图中所示不同的序列操作模块中的一些。同样如本文所用,术语“模块”可包括“子模块”,“子模块”本身在本文中可被认为构成模块。图中被分配为模块的框也可被认为是方法中的流程图步骤。
如本文所用,信息项的“识别”不一定需要直接指定该信息项。通过简单地利用一个或多个间接层参考实际信息,或者通过识别一起足以确定实际信息项的一个或多个不同信息项,可以在字段中“识别”信息。此外,术语“指定”在本文中用来指与“识别”相同的含义。
如本文所用,给定信号、事件或值“依赖于”先导信号、该先导信号的事件或值、受给定信号、事件或值影响的事件或值。如果存在居间处理元件、步骤或时间段,则给定信号、事件或值仍然可以“依赖于”先导信号、事件或值。如果居间处理元件或步骤组合多于一个信号、事件或值,则处理元件或步骤的信号输出被认为“依赖于”信号、事件或值输入中的每一者。如果给定信号、事件或值与先导信号、事件或值相同,则这仅仅是其中给定信号、事件或值仍然被认为“依赖于”或“取决于”或“基于”先导信号、事件或值的简并情况。给定信号、事件或值对另一信号、事件或值的“响应性”以类似方式定义。
如本文所用,“并行”或“同步”不需要精确的同时性。如果这些个体中的一个的评估在这些个体中的另一个的评估完成之前开始,则就足够了。
计算机系统
图17是可以用于实现本发明所公开的技术的计算机系统1700。计算机系统1700包括经由总线子系统1755与多个外围设备通信的至少一个中央处理单元(CPU)1772。这些外围设备可以包括存储子系统1710,该存储子系统包括例如存储器设备和文件存储子系统1736、用户界面输入设备1738、用户界面输出设备1776和网络接口子系统1774。输入设备和输出设备允许用户与计算机系统1700进行交互。网络接口子系统1774提供通向外部网络的接口,该接口包括通向其他计算机系统中的对应接口设备的接口。
在一种实施方式中,均衡器碱基检出器104可通信地链接到存储子系统1710和用户界面输入设备1738。
用户界面输入设备1738可以包括:键盘;指向设备,诸如鼠标、轨迹球、触摸板或图形输入板;扫描仪;结合到显示器中的触摸屏;音频输入设备,诸如语音识别系统和麦克风;以及其他类型的输入设备。一般来讲,使用术语“输入设备”旨在包括将信息输入到计算机系统1700中的所有可能类型的设备和方式。
用户界面输出设备1776可以包括显示子系统、打印机、传真机或非视觉显示器(诸如音频输出设备)。显示子系统可包括LED显示器、阴极射线管(CRT)、平板设备诸如液晶显示器(LCD)、投影设备或用于产生可见图像的一些其他机构。显示子系统还可提供非视觉显示器,诸如音频输出设备。一般来讲,使用术语“输出设备”旨在包括将信息从计算机系统1700输出到用户或者输出到另一机器或计算机系统的所有可能类型的设备和方式。
存储子系统1710存储提供本文描述的一些或全部模块和方法的功能的编程结构和数据结构。这些软件模块通常由处理器1778执行。
处理器1778可以是图形处理单元(GPU)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)和/或粗粒度可重构架构(CGRA)。处理器1778可以由深度学习云平台(诸如GoogleCloud PlatformTM、XilinxTM和CirrascaleTM)托管。处理器1778的示例包括Google的TensorProcessing Unit(TPU)TM、Rackmount解决方案(如GX4 Rackmount SeriesTM、GX17Rackmount SeriesTM)、NVIDIA DGX-1TM、Microsoft的Stratix V FPGATM、Graphcore的Intelligent Processor Unit(IPU)TM、Qualcomm的具有Snapdragon processorsTM的Zeroth PlatformTM、NVIDIA的VoltaTM、NVIDIA的DRIVE PXTM、NVIDIA的JETSON TX1/TX2MODULETM、Intel的NirvanaTM、Movidius VPUTM、Fujitsu DPITM、ARM的DynamicIQTM、IBMTrueNorthTM、具有Testa V100sTM的Lambda GPU服务器,等等。
在存储子系统1710中使用的存储器子系统1722可以包括多个存储器,包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)1732和其中存储固定指令的只读存储器(ROM)1734。文件存储子系统1736可以为程序文件和数据文件提供持久性存储,并且可以包括硬盘驱动器、软盘驱动器以及相关联的可移动介质、CD-ROM驱动器、光盘驱动器或可移动介质磁盘盒。实现某些实施方式的功能的模块可以由文件存储子系统1736存储在存储子系统1710中,或者存储在处理器可访问的其他机器中。
总线子系统1755提供用于使计算机系统1700的各种部件和子系统按照预期彼此通信的机构。尽管总线子系统1755被示意性地示出为单条总线,但是总线子系统的替代性实施方式可以使用多条总线。
计算机系统1700本身可以具有不同类型,包括个人计算机、便携式计算机、工作站、计算机终端、网络计算机、电视机、主机、服务器群、一组广泛分布的松散联网的计算机,或者任何其他数据处理系统或用户设备。由于计算机和网络的不断变化的性质,对图17中描绘的计算机系统1700的描述仅旨在作为用于展示本发明的优选实施方式的具体示例。计算机系统1700的许多其他配置也是可能的,其具有比图17中描绘的计算机系统更多或更少的部件。
特定具体实施
本发明所公开的技术使用基于均衡的图像处理技术来衰减来自传感器像素的空间串扰。本发明所公开的技术可以作为系统、方法或制品来实践。具体实施的一个或多个特征可与基本具体实施组合。不互相排斥的具体实施被教导为可组合的。具体实施的一个或多个特征可与其他具体实施组合。本公开周期性地提醒用户这些选项。从一些具体实施中省略重复这些选项的表述不应被视为限制前述部分中教导的组合,这些表述将据此以引用方式并入以下具体实施中的每个具体实施中。
在一种实施方式中,本发明所公开的技术提出一种衰减来自传感器像素的空间串扰的计算机实现的方法。
本发明所公开的技术解决了由样品平面中周期性分布的荧光样品引起的像素平面中的传感器像素上的空间串扰。来自荧光样品的信号锥通过至少一个透镜光学耦合到传感器像素的局部网格。信号锥重叠并撞击在传感器像素上,从而产生空间串扰。
本发明所公开的技术在至少一个子像素查找表中捕获通过透镜投射的特征信号锥的特征扩展,以及特征信号锥对由传感器像素的局部网格中的传感器像素检测到的荧光的所得到的贡献。传感器像素的局部网格基本上与特征信号锥的中心同心。
本发明所公开的技术在以子像素分辨率表示特征扩展的一组子像素查找表之间进行插值,以基于目标荧光样品中心生成插值查找表。
本发明所公开的技术通过将插值查找表与传感器像素的目标局部网格中的传感器像素卷积在一起而从目标荧光样品分离信号,该信号将信号锥的中心大致投射到该目标局部网格的中心上。
本发明所公开的技术使用分离信号的卷积贡献之和作为来自目标荧光样品的荧光强度。
本发明所公开的技术然后使用荧光强度对第一目标荧光样品进行碱基检出。确定多个成像通道中的每个成像通道的第一目标荧光样品的荧光强度。考虑四通道化学,其使用四个成像通道在每个测序循环中生成四个图像。然后,对于第一目标荧光样品,如上所述,使用本发明所公开的技术测定四种荧光强度。接着,由碱基检出器处理这四种荧光强度,以对第一目标荧光样品进行碱基检出。类似地,对于双通道化学,使用两种荧光强度来对第一目标荧光样品进行碱基检出。
在所公开的技术的本部分和其他部分中描述的方法可包括以下特征中的一者或多者和/或结合所公开的附加方法所述的特征。为了简洁起见,本申请中公开的特征的组合不是单独列举的,并且不与每个基本特征组一起重复。读者将理解在该方法中识别的特征可以如何容易地与在本申请的其他章节中被识别为实施方式的基本特征集合组合。
在一些实施方式中,周期性分布的荧光样品以菱形形状布置。在其他实施方式中,周期性分布的荧光样品以六角形形状布置。
在本部分中描述的方法的其他具体实施可包括存储指令的非暂态计算机可读存储介质,这些指令可由处理器执行以执行上述方法中的任一种方法。在本部分中描述的方法的又一具体实施可包括一种系统,该系统包括存储器和一个或多个处理器,该一个或多个处理器可操作以执行存储在存储器中的指令,以执行上述方法中的任一种方法。
在另一种实施方式中,本发明所公开的技术提出一种碱基检出的计算机实现的方法。
本发明所公开的技术访问其像素描绘来自目标簇的强度发射和来自附加相邻簇的强度发射的图像。这些像素包括中心像素,该中心像素包含目标簇的中心。这些像素中的每个像素能够被划分成多个子像素。
根据特定子像素,在包含目标簇中心的中心像素的多个子像素中,本发明所公开的技术从子像素查找表库中选择对应于该特定子像素的子像素查找表。所选择的子像素查找表包含被配置为接受来自目标簇的强度发射并且拒绝来自相邻簇的强度发射的像素系数。
本发明所公开的技术将像素系数逐元素地乘以图像中的像素的强度值,并且将乘法的乘积求和以产生输出。
本发明所公开的技术使用该输出来对目标簇进行碱基检出。
在该特定实施方式章节中讨论的用于其他实施方式的每个特征同样适用于该方法实施方式。如上所示,所有方法特征在此处不再重复,并且应被视为以引用方式重复。
在一些实施方式中,本发明所公开的技术还包括:(i)从子像素查找表库中选择附加的子像素查找表,其对应于与特定子像素最连续相邻的子像素,(ii)在所选择的子像素查找表的像素系数和所选择的附加子像素查找表的像素系数之间进行插值,并且生成插值像素系数,所述插值像素系数被配置为接受来自目标簇的强度发射并且拒绝来自相邻簇的强度发射,(iii)将插值像素系数逐元素地乘以图像中的像素的强度值,并且将乘法的乘积求和以产生输出,以及(iv)使用该输出对目标簇进行碱基检出。
在一些实施方式中,目标簇和附加的相邻簇以菱形形状周期性地分布在流动池上,并且固定在流动池的孔上。在其他实施方式中,目标簇和附加的相邻簇以六边形形状周期性地分布在流动池上,并且固定在流动池的孔上。
在一些实施方式中,所述插值基于线性插值、双线性插值和双三次插值中的至少一者。
在一些实施方式中,子像素查找表库中的子像素查找表的像素系数作为使用决策导向的均衡训练均衡器的结果而被学习。在一种实施方式中,决策导向的均衡使用最小二乘估计作为损失函数。在一种实施方式中,最小二乘估计使用地面真值碱基检出来最小化平方误差。在一种实施方式中,修改地面真值碱基检出来说明DC偏移量、放大系数和多克隆性程度。
在一些实施方式中,子像素查找表库中的子像素查找表的像素系数是从以下各项的组合导出的:(i)单个子像素查找表,其像素系数作为使用决策导向的均衡训练均衡器的结果而被学习,和(ii)预先计算的插值滤波器集合。插值滤波器集合中的每个插值滤波器分别对应于多个子像素中的每个子像素。
本发明所公开的技术还包括通过以下方式使目标簇的中心基本上与中心像素的中心同心:(i)将图像相对于模板图像配准,并且确定仿射变换参数和非线性变换参数,(ii)使用这些参数将目标簇和附加相邻簇的位置坐标变换为所述图像的图像坐标,并且生成具有变换后的像素的变换后的图像,以及(iii)使用目标簇和附加相邻簇的变换后的位置坐标来应用插值,以使它们各自的簇中心基本上与包含簇中心的相应的变换后的像素的中心同心。
本发明所公开的技术还包括为在特定的测序循环中使用相应成像通道捕获的多个图像中的每个图像产生输出,并且使用为每个图像分别产生的输出来对目标簇进行碱基检出。
在本部分中描述的方法的其他具体实施可包括存储指令的非暂态计算机可读存储介质,这些指令可由处理器执行以执行上述方法中的任一种方法。在本部分中描述的方法的又一具体实施可包括一种系统,该系统包括存储器和一个或多个处理器,该一个或多个处理器可操作以执行存储在存储器中的指令,以执行上述方法中的任一种方法。
本发明公开了以下条款:
1.一种碱基检出的计算机实现的方法,所述方法包括:
访问其像素描绘来自目标簇的强度发射和来自附加的相邻簇的强度发射的图像,所述像素包括含有所述目标簇的中心的中心像素,并且所述像素中的每个像素能够被划分成多个子像素;
根据特定子像素,在包含目标簇中心的中心像素的多个子像素中,从子像素查找表库中选择对应于该特定子像素的子像素查找表,所选择的子像素查找表包含被配置为将信噪比最大化的像素系数;
将所述像素系数逐元素地乘以图像中的像素的强度值,并且将乘法的乘积求和以产生输出,所述像素系数充当权重,并且所述输出是强度值的加权和;以及
使用所述输出来对所述目标簇进行碱基检出。
2.根据条款1所述的计算机实现的方法,其中信噪比被最大化的信号是来自目标簇的强度发射,而信噪比被最小化的噪声是来自相邻簇的强度发射。
3.根据条款1所述的计算机实现的方法,其中所述逐元素乘法为给定的均衡器系数集合添加偏差。
4.根据条款3所述的计算机实现的方法,其中所述偏差是作为背景噪声强度的平均值的DC偏移量。
5.根据条款1所述的计算机实现的方法,还包括:
从子像素查找表库中选择附加的子像素查找表,其对应于与特定子像素最连续相邻的子像素;
在所选择的子像素查找表的像素系数和所选择的附加子像素查找表的像素系数之间进行插值,并且生成被配置为最大化信噪比的插值像素系数;
将所述插值像素系数逐元素地乘以图像中的像素的强度值,并且将乘法的乘积求和以产生输出,所述插值像素系数充当权重,并且所述输出是强度值的加权和;以及
使用所述输出来对所述目标簇进行碱基检出。
6.根据条款1所述的计算机实现的方法,其中目标簇和附加的相邻簇以菱形形状周期性地分布在流动池上,并且固定在流动池的孔上。
7.根据条款6所述的计算机实现的方法,其中目标簇和附加的相邻簇以六边形形状周期性地分布在流动池上,并且固定在流动池的孔上。
8.根据条款1所述的计算机实现的方法,其中所述插值基于线性插值、双线性插值和双三次插值中的至少一者。
9.根据条款1所述的计算机实现的方法,其中所述子像素查找表库中的子像素查找表的像素系数作为使用最小二乘估计、普通最小二乘法、最小均方法和递归最小二乘法中的至少一者训练均衡器的结果而被学习。在其他实施方式中,可以使用其他估计算法和自适应算法来训练均衡器。
10.根据条款9所述的计算机实现的方法,还包括在离线模式下训练所述均衡器,其中在对来自先前执行的测序运行的多批次训练数据进行训练之后,子像素查找表的像素系数被固定。
11.根据条款10所述的计算机实现的方法,还包括在在线模式下训练所述均衡器,其中当来自正在进行的测序运行的训练数据变得可用时,子像素查找表的像素系数被迭代更新。
12.根据条款11所述的计算机实现的方法,还包括访问在对训练数据中的图像进行碱基检出之前期间生成的四种碱基A、C、G和T中的每一者的逐碱基强度分布、选择所述逐碱基强度分布的相应中心作为逐碱基地面真值目标强度,以及使用所述逐碱基地面真值目标强度来训练均衡器。
13.根据条款12所述的计算机实现的方法,还包括在离线模式下预训练均衡器,以及在在线模式下重新训练均衡器。
14.根据条款9所述的计算机实现的方法,还包括生成子像素查找表库中的查找表,方式为一起应用单个均衡器系数集合和预先计算的插值滤波器集合,包括对像素强度进行插值以生成均衡器的输入。这包括通过使用插值像素强度值来生成均衡器输入,计算与受过训练的均衡器系数相比相对于像素具有显著不同的对准的簇的像素权重。为了用单个共享LUT有效地实现本发明的技术,可以将插值和均衡器滤波器响应卷积在一起。在其他实施方式中,插值滤波器计算可以直接进行,而无需对子像素进行分箱。
15.根据条款1所述的计算机实现的方法,还包括通过以下方式使目标簇的中心基本上与中心像素的中心同心:
将所述图像相对于模板图像配准,并且确定仿射变换参数和非线性变换参数;
使用所述参数将所述目标簇和所述附加相邻簇的位置坐标变换为所述图像的图像坐标,并且生成具有变换后的像素的变换后的图像;以及
使用所述目标簇和所述附加相邻簇的所述变换后的位置坐标来应用插值,以使它们各自的簇中心基本上与包含所述簇中心的相应的变换后的像素的中心同心。
16.根据条款4所述的计算机实现的方法,还包括为在特定的测序循环中使用相应成像通道和/或颜色通道捕获的多个图像中的每个图像产生输出,并且使用为每个图像分别产生的所述输出来对目标簇进行碱基检出。
17.一种计算机实现的方法,其恢复来自定位在样品平面中的荧光样品的底层信号,所述底层信号是从被也处于所述样品平面中的周围荧光源破坏的信号恢复的,所述方法包括:
在至少一个子像素查找表中基于考虑来自所述周围荧光源的破坏的采样方式由传感器像素阵列捕获图像平面中的照明的特征集合,然后当所述荧光样品的中心坐标处于分布在所述传感器阵列的中心像素上的位置时,生成用于由所述传感器像素阵列产生的照明的所述特征集合的一组查找表,所述位置相对于所述中心像素的坐标中心分布;
接收所述荧光样品的中心坐标在所述传感器像素阵列的所述中心像素中某处的图像,其中所述图像被所述周围荧光源破坏,并且接收所述中心像素内的所述荧光样品的所述中心坐标;
基于所述查找表组中的查找表之间的插值来计算针对所述荧光样品的所接收的中心坐标定制的传感器像素阵列产生的照明的特征集合的插值表;
通过将所述插值查找表逐元素地与传感器像素的目标局部网格中的传感器像素相乘而从目标荧光样品恢复信号,该信号将信号锥的中心大致投射到所述目标局部网格的中心上;
使用这些逐元素乘法的乘积的总和作为来自所述目标荧光样品的荧光的强度;以及
使用荧光强度对第一目标荧光样品进行碱基检出。
1.一种碱基检出的计算机实现的方法,所述方法包括:
访问其像素描绘来自目标簇的强度发射和来自附加的相邻簇的强度发射的图像;
选择包含被配置为将信噪比最大化的像素系数的查找表;
将所述像素系数与所述图像中的所述像素的强度值卷积在一起,以产生输出;以及
基于所述输出对所述目标簇进行碱基检出。
2.根据权利要求1所述的计算机实现的方法,其中所述信噪比被最大化的所述信号是来自所述目标簇的所述强度发射,而所述信噪比被最小化的所述噪声是来自所述相邻簇的所述强度发射,加上附加的噪声源。
3.根据权利要求1所述的计算机实现的方法,其中所述像素包括中心像素,所述中心像素包含所述目标簇的中心,并且所述像素中的每个像素能够被划分成多个子像素。
4.根据权利要求3所述的计算机实现的方法,其中所述查找表是子像素查找表。
5.根据权利要求4所述的计算机实现的方法,还包括:
根据特定子像素,在包含所述目标簇的所述中心的所述中心像素的多个子像素中,从子像素查找表库中选择对应于所述特定子像素的所述子像素查找表,所选择的子像素查找表包含所述像素系数;
将所述像素系数逐元素地乘以所述图像中的所述像素的所述强度值,并且将所述乘法的乘积求和以产生所述输出,所述像素系数充当权重,并且所述输出是所述强度值的加权和;以及
使用所述输出对所述目标簇进行碱基检出,包括为多个成像通道中的每个成像通道生成所述输出,以及使用每个成像通道的所述输出来对所述目标簇进行碱基检出。
6.根据权利要求5所述的计算机实现的方法,其中所述逐元素乘法为给定的均衡器系数集合添加偏差,其中所述偏差是作为背景噪声强度的平均值的DC偏移量。
7.根据权利要求5所述的计算机实现的方法,还包括:
从所述子像素查找表库中选择附加的子像素查找表,其对应于与所述特定子像素连续相邻的子像素;
基于所选择的子像素查找表和所选择的附加子像素查找表的像素系数生成插值像素系数,所述插值像素系数被配置为最大化所述信噪比;
将所述插值像素系数与所述图像中的所述像素的所述强度值卷积在一起,以产生输出;以及
基于所述输出对所述目标簇进行碱基检出。
8.根据权利要求7所述的计算机实现的方法,还包括:
将所述插值像素系数逐元素地乘以所述图像中的所述像素的所述强度值,并且将所述乘法的乘积求和以产生所述输出,所述插值像素系数充当权重,并且所述输出是所述强度值的加权和。
9.根据权利要求1所述的计算机实现的方法,还包括使用最小二乘估计、普通最小二乘法、最小均方法和递归最小二乘法中的至少一者训练均衡器,以生成所述像素系数。
10.根据权利要求9所述的计算机实现的方法,还包括在离线模式下训练所述均衡器,其中在对来自先前执行的测序运行的多批次训练数据进行训练之后,所述子像素查找表的像素系数被固定。
11.根据权利要求10所述的计算机实现的方法,还包括在在线模式下训练所述均衡器,其中在正在进行的测序运行期间,所述子像素查找表的像素系数被迭代更新。
12.根据权利要求11所述的计算机实现的方法,还包括访问在对所述训练数据中的图像进行碱基检出之前期间生成的四种碱基A、C、G和T中的每一者的逐碱基强度分布、选择所述逐碱基强度分布的相应中心作为对应颜色通道的逐碱基地面真值目标强度,以及使用所述逐碱基地面真值目标强度来训练所述均衡器。
13.根据权利要求12所述的计算机实现的方法,还包括在所述离线模式下预训练所述均衡器,以及在所述在线模式下重新训练所述均衡器。
14.根据权利要求9所述的计算机实现的方法,还包括生成所述子像素查找表库中的所述查找表,方式为一起应用单个均衡器系数集合和预先计算的插值滤波器集合,包括对像素强度进行插值以生成所述均衡器的输入。
15.根据权利要求1所述的计算机实现的方法,还包括通过以下方式使所述目标簇的所述中心与所述中心像素的中心同心:
将所述图像相对于模板图像配准,并且确定仿射变换参数和非线性变换参数;
使用所述参数将所述目标簇和所述附加相邻簇的位置坐标变换为所述图像的图像坐标,并且生成具有变换后的像素的变换后的图像;以及
使用所述目标簇和所述附加相邻簇的所述变换后的位置坐标来应用插值,以使它们各自的簇中心与包含所述簇中心的相应的变换后的像素的中心同心。
16.一种非暂态计算机可读存储介质,其施加有计算机程序指令以执行碱基检出,所述指令在处理器上执行时实施一种方法,所述方法包括:
访问其像素描绘来自目标簇的强度发射和来自附加的相邻簇的强度发射的图像;
选择包含被配置为将信噪比最大化的像素系数的查找表;
将所述像素系数与所述图像中的所述像素的强度值卷积在一起,以产生输出;以及
基于所述输出对所述目标簇进行碱基检出。
17.根据权利要求16所述的非暂态计算机可读存储介质,其中所述信噪比被最大化的所述信号是来自所述目标簇的所述强度发射,而所述信噪比被最小化的所述噪声是来自所述相邻簇的所述强度发射,加上附加的噪声源。
18.根据权利要求16所述的非暂态计算机可读存储介质,实施所述方法还包括使用最小二乘估计、普通最小二乘法、最小均方法和递归最小二乘法中的至少一者训练均衡器,以生成所述像素系数。
19.一种系统,所述系统包括存储器以及与之耦接的一个或多个处理器,所述存储器装载有计算机指令以执行碱基检出,所述指令在所述处理器上执行时实施多个动作,包括:
访问其像素描绘来自目标簇的强度发射和来自附加的相邻簇的强度发射的图像;
选择包含被配置为将信噪比最大化的像素系数的查找表;
将所述像素系数与所述图像中的所述像素的强度值卷积在一起,以产生输出;以及
基于所述输出对所述目标簇进行碱基检出。
20.根据权利要求19所述的系统,进一步实施多个动作包括使用最小二乘估计、普通最小二乘法、最小均方法和递归最小二乘法中的至少一者训练均衡器,以生成所述像素系数。
虽然通过参考上文详细描述的优选实施方式和示例公开了本发明,但是应当理解,这些示例旨在进行说明而非进行限制。可以预期,本领域的技术人员将容易想到修改和组合,这些修改和组合将在本发明的实质和以下权利要求书的范围之内。

Claims (20)

1.一种碱基检出的计算机实现的方法,所述方法包括:
访问其像素描绘来自目标簇的强度发射和来自附加的相邻簇的强度发射的图像;
选择包含被配置为将信噪比最大化的像素系数的查找表;
将所述像素系数与所述图像中的所述像素的强度值卷积在一起,以产生输出;以及
基于所述输出对所述目标簇进行碱基检出。
2.根据权利要求1所述的计算机实现的方法,其中所述信噪比被最大化的所述信号是来自所述目标簇的所述强度发射,而所述信噪比被最小化的所述噪声是来自所述相邻簇的所述强度发射,加上附加的噪声源。
3.根据权利要求1所述的计算机实现的方法,其中所述像素包括中心像素,所述中心像素包含所述目标簇的中心,并且所述像素中的每个像素能够被划分成多个子像素。
4.根据权利要求3所述的计算机实现的方法,其中所述查找表是子像素查找表。
5.根据权利要求4所述的计算机实现的方法,还包括:
根据特定子像素,在包含所述目标簇的所述中心的所述中心像素的多个子像素中,从子像素查找表库中选择对应于所述特定子像素的所述子像素查找表,所选择的子像素查找表包含所述像素系数;
将所述像素系数逐元素地乘以所述图像中的所述像素的所述强度值,并且将所述乘法的乘积求和以产生所述输出,所述像素系数充当权重,并且所述输出是所述强度值的加权和;以及
使用所述输出对所述目标簇进行碱基检出,包括为多个成像通道中的每个成像通道生成所述输出,以及使用每个成像通道的所述输出来对所述目标簇进行碱基检出。
6.根据权利要求5所述的计算机实现的方法,其中所述逐元素乘法为给定的均衡器系数集合添加偏差,其中所述偏差是作为背景噪声强度的平均值的DC偏移量。
7.根据权利要求5所述的计算机实现的方法,还包括:
从所述子像素查找表库中选择附加的子像素查找表,其对应于与所述特定子像素连续相邻的子像素;
基于所选择的子像素查找表和所选择的附加子像素查找表的像素系数生成插值像素系数,所述插值像素系数被配置为最大化所述信噪比;
将所述插值像素系数与所述图像中的所述像素的所述强度值卷积在一起,以产生输出;以及
基于所述输出对所述目标簇进行碱基检出。
8.根据权利要求7所述的计算机实现的方法,还包括:
将所述插值像素系数逐元素地乘以所述图像中的所述像素的所述强度值,并且将所述乘法的乘积求和以产生所述输出,所述插值像素系数充当权重,并且所述输出是所述强度值的加权和。
9.根据权利要求1所述的计算机实现的方法,还包括使用最小二乘估计、普通最小二乘法、最小均方法和递归最小二乘法中的至少一者训练均衡器,以生成所述像素系数。
10.根据权利要求9所述的计算机实现的方法,还包括在离线模式下训练所述均衡器,其中在对来自先前执行的测序运行的多批次训练数据进行训练之后,所述子像素查找表的像素系数被固定。
11.根据权利要求10所述的计算机实现的方法,还包括在在线模式下训练所述均衡器,其中在正在进行的测序运行期间,所述子像素查找表的像素系数被迭代更新。
12.根据权利要求11所述的计算机实现的方法,还包括访问在对所述训练数据中的图像进行碱基检出之前期间生成的四种碱基A、C、G和T中的每一者的逐碱基强度分布、选择所述逐碱基强度分布的相应中心作为对应颜色通道的逐碱基地面真值目标强度,以及使用所述逐碱基地面真值目标强度来训练所述均衡器。
13.根据权利要求12所述的计算机实现的方法,还包括在所述离线模式下预训练所述均衡器,以及在所述在线模式下重新训练所述均衡器。
14.根据权利要求9所述的计算机实现的方法,还包括生成所述子像素查找表库中的所述查找表,方式为一起应用单个均衡器系数集合和预先计算的插值滤波器集合,包括对像素强度进行插值以生成所述均衡器的输入。
15.根据权利要求1所述的计算机实现的方法,还包括通过以下方式使所述目标簇的所述中心与所述中心像素的中心同心:
将所述图像相对于模板图像配准,并且确定仿射变换参数和非线性变换参数;
使用所述参数将所述目标簇和所述附加相邻簇的位置坐标变换为所述图像的图像坐标,并且生成具有变换后的像素的变换后的图像;以及
使用所述目标簇和所述附加相邻簇的所述变换后的位置坐标来应用插值,以使它们各自的簇中心与包含所述簇中心的相应的变换后的像素的中心同心。
16.一种非暂态计算机可读存储介质,其施加有计算机程序指令以执行碱基检出,所述指令在处理器上执行时实施一种方法,所述方法包括:
访问其像素描绘来自目标簇的强度发射和来自附加的相邻簇的强度发射的图像;
选择包含被配置为将信噪比最大化的像素系数的查找表;
将所述像素系数与所述图像中的所述像素的强度值卷积在一起,以产生输出;以及
基于所述输出对所述目标簇进行碱基检出。
17.根据权利要求16所述的非暂态计算机可读存储介质,其中所述信噪比被最大化的所述信号是来自所述目标簇的所述强度发射,而所述信噪比被最小化的所述噪声是来自所述相邻簇的所述强度发射,加上附加的噪声源。
18.根据权利要求16所述的非暂态计算机可读存储介质,实施所述方法还包括使用最小二乘估计、普通最小二乘法、最小均方法和递归最小二乘法中的至少一者训练均衡器,以生成所述像素系数。
19.一种系统,所述系统包括存储器以及与之耦接的一个或多个处理器,所述存储器装载有计算机指令以执行碱基检出,所述指令在所述处理器上执行时实施多个动作,包括:
访问其像素描绘来自目标簇的强度发射和来自附加的相邻簇的强度发射的图像;
选择包含被配置为将信噪比最大化的像素系数的查找表;
将所述像素系数与所述图像中的所述像素的强度值卷积在一起,以产生输出;以及
基于所述输出对所述目标簇进行碱基检出。
20.根据权利要求19所述的系统,进一步实施多个动作包括使用最小二乘估计、普通最小二乘法、最小均方法和递归最小二乘法中的至少一者训练均衡器,以生成所述像素系数。
CN202180029821.6A 2020-05-05 2021-05-05 基于均衡的图像处理和空间串扰衰减器 Pending CN115461778A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202063020449P 2020-05-05 2020-05-05
US63/020449 2020-05-05
US17/308,035 US11188778B1 (en) 2020-05-05 2021-05-04 Equalization-based image processing and spatial crosstalk attenuator
US17/308035 2021-05-04
PCT/US2021/030965 WO2021226285A1 (en) 2020-05-05 2021-05-05 Equalization-based image processing and spatial crosstalk attenuator

Publications (1)

Publication Number Publication Date
CN115461778A true CN115461778A (zh) 2022-12-09

Family

ID=78412803

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180029821.6A Pending CN115461778A (zh) 2020-05-05 2021-05-05 基于均衡的图像处理和空间串扰衰减器

Country Status (11)

Country Link
US (3) US11188778B1 (zh)
EP (1) EP4147196A1 (zh)
JP (1) JP2023525993A (zh)
KR (1) KR20230006464A (zh)
CN (1) CN115461778A (zh)
AU (1) AU2021268952A1 (zh)
BR (1) BR112022022361A2 (zh)
CA (1) CA3174053A1 (zh)
IL (1) IL297889A (zh)
MX (1) MX2022013820A (zh)
WO (1) WO2021226285A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116204770A (zh) * 2022-12-12 2023-06-02 中国公路工程咨询集团有限公司 一种用于桥梁健康监测数据异常检测的训练方法及装置

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11521382B2 (en) * 2020-02-09 2022-12-06 Stout Industrial Technology, Inc. Machine vision plant tracking system for precision agriculture
US11188778B1 (en) * 2020-05-05 2021-11-30 Illumina, Inc. Equalization-based image processing and spatial crosstalk attenuator
US11532313B2 (en) * 2020-08-27 2022-12-20 Google Llc Selectively storing, with multiple user accounts and/or to a shared assistant device: speech recognition biasing, NLU biasing, and/or other data
US11361194B2 (en) 2020-10-27 2022-06-14 Illumina, Inc. Systems and methods for per-cluster intensity correction and base calling
US11455487B1 (en) 2021-10-26 2022-09-27 Illumina Software, Inc. Intensity extraction and crosstalk attenuation using interpolation and adaptation for base calling
WO2023164660A1 (en) 2022-02-25 2023-08-31 Illumina, Inc. Calibration sequences for nucelotide sequencing
US20230407386A1 (en) * 2022-06-09 2023-12-21 Illumina, Inc. Dependence of base calling on flow cell tilt
WO2024167954A1 (en) * 2023-02-06 2024-08-15 Illumina, Inc. Determining and removing inter-cluster light interference

Family Cites Families (100)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2073908A (en) 1930-12-29 1937-03-16 Floyd L Kallam Method of and apparatus for controlling rectification
CA2044616A1 (en) 1989-10-26 1991-04-27 Roger Y. Tsien Dna sequencing
US6090592A (en) 1994-08-03 2000-07-18 Mosaic Technologies, Inc. Method for performing amplification of nucleic acid on supports
US5641658A (en) 1994-08-03 1997-06-24 Mosaic Technologies, Inc. Method for performing amplification of nucleic acid with two primers bound to a single solid support
EP0746865B1 (en) 1994-12-08 2003-03-26 Molecular Dynamics, Inc. Fluorescence imaging system employing a macro scanning objective
US5528050A (en) 1995-07-24 1996-06-18 Molecular Dynamics, Inc. Compact scan head with multiple scanning modalities
US6327410B1 (en) 1997-03-14 2001-12-04 The Trustees Of Tufts College Target analyte sensors utilizing Microspheres
US7622294B2 (en) 1997-03-14 2009-11-24 Trustees Of Tufts College Methods for detecting target analytes and enzymatic reactions
US6023540A (en) 1997-03-14 2000-02-08 Trustees Of Tufts College Fiber optic sensor with encoded microspheres
WO1998044152A1 (en) 1997-04-01 1998-10-08 Glaxo Group Limited Method of nucleic acid sequencing
AR021833A1 (es) 1998-09-30 2002-08-07 Applied Research Systems Metodos de amplificacion y secuenciacion de acido nucleico
US20020150909A1 (en) 1999-02-09 2002-10-17 Stuelpnagel John R. Automated information processing in randomly ordered arrays
WO2000063437A2 (en) 1999-04-20 2000-10-26 Illumina, Inc. Detection of nucleic acid reactions on bead arrays
US6355431B1 (en) 1999-04-20 2002-03-12 Illumina, Inc. Detection of nucleic acid amplification reactions using bead arrays
US6770441B2 (en) 2000-02-10 2004-08-03 Illumina, Inc. Array compositions and methods of making same
US6865301B1 (en) * 2000-02-28 2005-03-08 Adobe Systems Incorporated Reducing aliasing artifacts when shaping a digital image
CA2309002A1 (en) * 2000-05-23 2001-11-23 Jonathan Martin Shekter Digital film grain reduction
AU2001282881B2 (en) 2000-07-07 2007-06-14 Visigen Biotechnologies, Inc. Real-time sequence determination
US6778692B1 (en) * 2000-08-11 2004-08-17 General Electric Company Image processing method and apparatus including image improving circuit
WO2002044425A2 (en) 2000-12-01 2002-06-06 Visigen Biotechnologies, Inc. Enzymatic nucleic acid synthesis: compositions and methods for altering monomer incorporation fidelity
AR031640A1 (es) 2000-12-08 2003-09-24 Applied Research Systems Amplificacion isotermica de acidos nucleicos en un soporte solido
US6598013B1 (en) * 2001-07-31 2003-07-22 University Of Maine Method for reducing cross-talk within DNA data
GB0127564D0 (en) 2001-11-16 2002-01-09 Medical Res Council Emulsion compositions
US7057026B2 (en) 2001-12-04 2006-06-06 Solexa Limited Labelled nucleotides
US20040002090A1 (en) 2002-03-05 2004-01-01 Pascal Mayer Methods for detecting genome-wide sequence variations associated with a phenotype
PT3147292T (pt) 2002-08-23 2018-11-22 Illumina Cambridge Ltd Nucleótidos identificados
SI3363809T1 (sl) 2002-08-23 2020-08-31 Illumina Cambridge Limited Modificirani nukleotidi za polinukleotidno sekvenciranje
WO2005003375A2 (en) 2003-01-29 2005-01-13 454 Corporation Methods of amplifying and sequencing nucleic acids
EP1641809B2 (en) 2003-07-05 2018-10-03 The Johns Hopkins University Method and compositions for detection and enumeration of genetic variations
GB0321306D0 (en) 2003-09-11 2003-10-15 Solexa Ltd Modified polymerases for improved incorporation of nucleotide analogues
EP2789383B1 (en) 2004-01-07 2023-05-03 Illumina Cambridge Limited Molecular arrays
US7664326B2 (en) * 2004-07-09 2010-02-16 Aloka Co., Ltd Method and apparatus of image processing to detect and enhance edges
WO2006015251A2 (en) * 2004-07-29 2006-02-09 The Research Foundation Of State University Of New York System and method for cross-talk cancellation in a multilane fluorescence detector
EP3415641B1 (en) 2004-09-17 2023-11-01 Pacific Biosciences Of California, Inc. Method for analysis of molecules
JP4990886B2 (ja) 2005-05-10 2012-08-01 ソレックサ リミテッド 改良ポリメラーゼ
US8445194B2 (en) 2005-06-15 2013-05-21 Callida Genomics, Inc. Single molecule arrays for genetic and chemical analysis
GB0514936D0 (en) 2005-07-20 2005-08-24 Solexa Ltd Preparation of templates for nucleic acid sequencing
GB0514910D0 (en) 2005-07-20 2005-08-24 Solexa Ltd Method for sequencing a polynucleotide template
US7405281B2 (en) 2005-09-29 2008-07-29 Pacific Biosciences Of California, Inc. Fluorescent nucleotide analogs and uses therefor
GB0522310D0 (en) 2005-11-01 2005-12-07 Solexa Ltd Methods of preparing libraries of template polynucleotides
US7329860B2 (en) 2005-11-23 2008-02-12 Illumina, Inc. Confocal imaging methods and apparatus
US9445025B2 (en) * 2006-01-27 2016-09-13 Affymetrix, Inc. System, method, and product for imaging probe arrays with small feature sizes
EP2021503A1 (en) 2006-03-17 2009-02-11 Solexa Ltd. Isothermal methods for creating clonal single molecule arrays
EP4105644A3 (en) 2006-03-31 2022-12-28 Illumina, Inc. Systems and devices for sequence by synthesis analysis
US7754429B2 (en) 2006-10-06 2010-07-13 Illumina Cambridge Limited Method for pair-wise sequencing a plurity of target polynucleotides
AU2007309504B2 (en) 2006-10-23 2012-09-13 Pacific Biosciences Of California, Inc. Polymerase enzymes and reagents for enhanced nucleic acid sequencing
US20080242560A1 (en) 2006-11-21 2008-10-02 Gunderson Kevin L Methods for generating amplified nucleic acid arrays
EP2155855B1 (en) * 2007-06-06 2016-10-12 Pacific Biosciences of California, Inc. Methods and processes for calling bases in sequence by incorporation methods
US8703422B2 (en) * 2007-06-06 2014-04-22 Pacific Biosciences Of California, Inc. Methods and processes for calling bases in sequence by incorporation methods
CN101688841B (zh) * 2007-06-29 2011-12-07 霍夫曼-拉罗奇有限公司 用于确定pcr和其他数据集中的串扰系数的系统和方法
US7595882B1 (en) 2008-04-14 2009-09-29 Geneal Electric Company Hollow-core waveguide-based raman systems and methods
US8039817B2 (en) 2008-05-05 2011-10-18 Illumina, Inc. Compensator for multiple surface imaging
EP2291533B2 (en) 2008-07-02 2020-09-30 Illumina Cambridge Limited Using populations of beads for the fabrication of arrays on surfaces
US8407012B2 (en) * 2008-07-03 2013-03-26 Cold Spring Harbor Laboratory Methods and systems of DNA sequencing
US20100034444A1 (en) * 2008-08-07 2010-02-11 Helicos Biosciences Corporation Image analysis
US8965076B2 (en) 2010-01-13 2015-02-24 Illumina, Inc. Data processing system and methods
US20120015825A1 (en) * 2010-07-06 2012-01-19 Pacific Biosciences Of California, Inc. Analytical systems and methods with software mask
EP2632593B1 (en) 2010-10-27 2021-09-29 Illumina, Inc. Flow cells for biological or chemical analysis
US8951781B2 (en) 2011-01-10 2015-02-10 Illumina, Inc. Systems, methods, and apparatuses to image a sample for biological or chemical analysis
WO2012170936A2 (en) 2011-06-09 2012-12-13 Illumina, Inc. Patterned flow-cells useful for nucleic acid analysis
PT3623481T (pt) 2011-09-23 2021-10-15 Illumina Inc Composições para sequenciação de ácidos nucleicos
WO2013056241A2 (en) * 2011-10-14 2013-04-18 Pacific Biosciences Of California, Inc. Real-time redox sequencing
CA2856163C (en) 2011-10-28 2019-05-07 Illumina, Inc. Microarray fabrication system and method
US8938309B2 (en) 2012-01-16 2015-01-20 Greatbatch Ltd. Elevated hermetic feedthrough insulator adapted for side attachment of electrical conductors on the body fluid side of an active implantable medical device
CA2867665C (en) 2012-04-03 2022-01-04 Illumina, Inc. Integrated optoelectronic read head and fluidic cartridge useful for nucleic acid sequencing
US8906320B1 (en) * 2012-04-16 2014-12-09 Illumina, Inc. Biosensors for biological or chemical analysis and systems and methods for same
US9012022B2 (en) 2012-06-08 2015-04-21 Illumina, Inc. Polymer coatings
US8895249B2 (en) 2012-06-15 2014-11-25 Illumina, Inc. Kinetic exclusion amplification of nucleic acid libraries
FI2951754T3 (fi) * 2013-01-31 2024-05-16 Codexis Inc Menetelmät, järjestelmät ja ohjelmisto biomolekyylien tunnistamiseksi vuorovaikuttavien komponenttien avulla
US9512422B2 (en) 2013-02-26 2016-12-06 Illumina, Inc. Gel patterned surfaces
CN105378113B (zh) * 2013-05-06 2020-02-21 加利福尼亚太平洋生物科学股份有限公司 实时电子测序
KR102266002B1 (ko) 2013-07-01 2021-06-16 일루미나, 인코포레이티드 촉매-무함유 표면 작용화 및 중합체 그라프팅
US10540783B2 (en) 2013-11-01 2020-01-21 Illumina, Inc. Image analysis useful for patterned objects
ES2808824T3 (es) 2013-12-03 2021-03-02 Illumina Inc Métodos y sistemas para analizar datos de imagen
EP3084002A4 (en) * 2013-12-16 2017-08-23 Complete Genomics, Inc. Basecaller for dna sequencing using machine learning
ES2905706T3 (es) 2014-10-31 2022-04-11 Illumina Cambridge Ltd Polímeros y recubrimientos de copolímeros de ADN
EP3387617B1 (en) * 2015-12-10 2020-05-27 Qiagen GmbH Method for determining the overall brightness of at least one object in a digital image
US10038862B2 (en) * 2016-05-02 2018-07-31 Qualcomm Incorporated Methods and apparatus for automated noise and texture optimization of digital image sensors
US10467749B2 (en) * 2016-10-10 2019-11-05 Genemind Biosciences Company Limited Method and system for processing an image comprising spots in nucleic acid sequencing
PT3566158T (pt) * 2017-01-06 2022-06-23 Illumina Inc Correção por faseamento
NL2018852B1 (en) * 2017-05-05 2018-11-14 Illumina Inc Optical distortion correction for imaged samples
CN112203648A (zh) 2018-03-30 2021-01-08 朱诺诊断学公司 用于产前检查的基于深度学习的方法、设备和系统
CN112513885B (zh) 2018-06-22 2024-02-27 三星电子株式会社 神经处理器
KR20200091623A (ko) 2019-01-23 2020-07-31 삼성전자주식회사 위노그라드 변환에 기반한 뉴럴 네트워크의 컨볼루션 연산을 수행하는 방법 및 장치
US11263513B2 (en) 2019-02-25 2022-03-01 Deepx Co., Ltd. Method and system for bit quantization of artificial neural network
US11210554B2 (en) 2019-03-21 2021-12-28 Illumina, Inc. Artificial intelligence-based generation of sequencing metadata
NL2023311B9 (en) 2019-03-21 2021-03-12 Illumina Inc Artificial intelligence-based generation of sequencing metadata
NL2023316B1 (en) 2019-03-21 2020-09-28 Illumina Inc Artificial intelligence-based sequencing
NL2023312B1 (en) 2019-03-21 2020-09-28 Illumina Inc Artificial intelligence-based base calling
NL2023314B1 (en) 2019-03-21 2020-09-28 Illumina Inc Artificial intelligence-based quality scoring
NL2023310B1 (en) 2019-03-21 2020-09-28 Illumina Inc Training data generation for artificial intelligence-based sequencing
US11783917B2 (en) 2019-03-21 2023-10-10 Illumina, Inc. Artificial intelligence-based base calling
US12062417B2 (en) * 2019-05-01 2024-08-13 New York University System, method and computer accessible-medium for multiplexing base calling and/or alignment
US11423306B2 (en) * 2019-05-16 2022-08-23 Illumina, Inc. Systems and devices for characterization and performance analysis of pixel-based sequencing
US11593649B2 (en) * 2019-05-16 2023-02-28 Illumina, Inc. Base calling using convolutions
SG11202012495YA (en) 2019-05-21 2021-01-28 Illumina Inc Sensors having an active surface
US11269835B2 (en) 2019-07-11 2022-03-08 International Business Machines Corporation Customization and recommendation of tree-structured templates
CN116360086A (zh) * 2019-10-21 2023-06-30 因美纳有限公司 用于结构化照明显微术的系统和方法
US11514573B2 (en) 2019-11-27 2022-11-29 Shanghai United Imaging Intelligence Co., Ltd. Estimating object thickness with neural networks
US11188778B1 (en) * 2020-05-05 2021-11-30 Illumina, Inc. Equalization-based image processing and spatial crosstalk attenuator

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116204770A (zh) * 2022-12-12 2023-06-02 中国公路工程咨询集团有限公司 一种用于桥梁健康监测数据异常检测的训练方法及装置
CN116204770B (zh) * 2022-12-12 2023-10-13 中国公路工程咨询集团有限公司 一种用于桥梁健康监测数据异常检测的训练方法及装置

Also Published As

Publication number Publication date
US11188778B1 (en) 2021-11-30
WO2021226285A1 (en) 2021-11-11
AU2021268952A1 (en) 2022-12-01
US20220067418A1 (en) 2022-03-03
US20210350163A1 (en) 2021-11-11
US20230385991A1 (en) 2023-11-30
MX2022013820A (es) 2022-11-30
EP4147196A1 (en) 2023-03-15
US11694309B2 (en) 2023-07-04
CA3174053A1 (en) 2021-11-11
BR112022022361A2 (pt) 2022-12-13
IL297889A (en) 2023-01-01
JP2023525993A (ja) 2023-06-20
KR20230006464A (ko) 2023-01-10

Similar Documents

Publication Publication Date Title
EP3942072B1 (en) Training data generation for artificial intelligence-based sequencing
US11188778B1 (en) Equalization-based image processing and spatial crosstalk attenuator
US20200302225A1 (en) Training Data Generation for Artificial Intelligence-Based Sequencing
WO2020205296A1 (en) Artificial intelligence-based generation of sequencing metadata
NL2023310B1 (en) Training data generation for artificial intelligence-based sequencing
NL2023311B1 (en) Artificial intelligence-based generation of sequencing metadata
WO2023183937A1 (en) Sequence-to-sequence base calling
US11989265B2 (en) Intensity extraction from oligonucleotide clusters for base calling
US20230407386A1 (en) Dependence of base calling on flow cell tilt
WO2023003757A1 (en) Intensity extraction with interpolation and adaptation for base calling
US20230087698A1 (en) Compressed state-based base calling
US20230298339A1 (en) State-based base calling
WO2023049215A1 (en) Compressed state-based base calling

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination