CN112313666A - 用于基于人工智能的测序的训练数据生成 - Google Patents

用于基于人工智能的测序的训练数据生成 Download PDF

Info

Publication number
CN112313666A
CN112313666A CN202080003622.3A CN202080003622A CN112313666A CN 112313666 A CN112313666 A CN 112313666A CN 202080003622 A CN202080003622 A CN 202080003622A CN 112313666 A CN112313666 A CN 112313666A
Authority
CN
China
Prior art keywords
cluster
sub
map
image
pixels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202080003622.3A
Other languages
English (en)
Other versions
CN112313666B (zh
Inventor
A·杜塔
D·卡什夫哈吉
A·起亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inmair Ltd
Original Assignee
Inmair Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from NL2023314A external-priority patent/NL2023314B1/en
Priority claimed from NL2023310A external-priority patent/NL2023310B1/en
Priority claimed from NL2023311A external-priority patent/NL2023311B9/en
Priority claimed from NL2023316A external-priority patent/NL2023316B1/en
Priority claimed from NL2023312A external-priority patent/NL2023312B1/en
Priority claimed from US16/826,126 external-priority patent/US11783917B2/en
Application filed by Inmair Ltd filed Critical Inmair Ltd
Priority claimed from PCT/US2020/024090 external-priority patent/WO2020191389A1/en
Publication of CN112313666A publication Critical patent/CN112313666A/zh
Publication of CN112313666B publication Critical patent/CN112313666B/zh
Application granted granted Critical
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23211Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with adaptive number of clusters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • G06V10/7784Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • G06V10/993Evaluation of the quality of the acquired pattern
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/046Forward inferencing; Production systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Biotechnology (AREA)
  • Computational Linguistics (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Bioethics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Quality & Reliability (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Signal Processing (AREA)
  • Organic Chemistry (AREA)
  • Library & Information Science (AREA)
  • Genetics & Genomics (AREA)

Abstract

本发明所公开的技术涉及生成基准真值训练数据以训练用于簇元数据确定任务的基于神经网络的模板生成器。具体地,所述技术涉及:访问测序图像;从碱基检出器获得将所述测序图像中的每个子像素分类为四种碱基(A、C、T和G)中的一种碱基的碱基检出;生成簇映射图,该簇映射将簇识别为共享基本上匹配的碱基检出序列的邻接子像素的不相交区域;基于该簇映射图中的该不相交区域来确定簇元数据;以及使用该簇元数据来生成该基准真值训练数据,以用于训练用于该簇元数据确定任务的该基于神经网络的模板生成器。

Description

用于基于人工智能的测序的训练数据生成
优先权申请
本专利申请要求以下专利申请的优先权或权益:
2019年3月21日提交的名称为“Training Data Generation for ArtificialIntelligence-Based Sequencing”的美国临时专利申请第62/821,602号(代理人案卷号ILLM 1008-1/IP-1693-PRV);
2019年3月21日提交的名称为“Artificial Intelligence-Based Generation ofSequencing Metadata”的美国临时专利申请第62/821,618号(代理人案卷号ILLM 1008-3/IP-1741-PRV);
2019年3月21日提交的名称为“Artificial Intelligence-Based Base Calling”的美国临时专利申请第62/821,681号(代理人案卷号ILLM 1008-4/IP-1744-PRV);
2019年3月21日提交的名称为“Artificial Intelligence-Based QualityScoring”的美国临时专利申请第62/821,724号(代理人案卷号ILLM 1008-7/IP-1747-PRV);
2019年3月21日提交的名称为“Artificial Intelligence-Based Sequencing”的美国临时专利申请第62/821,766号(代理人案卷号ILLM 1008-9/IP-1752-PRV);
2019年6月14日提交的名称为“Training Data Generation for ArtificialIntelligence-Based Sequencing”的荷兰专利申请第2023310号(代理人案卷号ILLM1008-11/IP-1693-NL);
2019年6月14日提交的名称为“Artificial Intelligence-Based Generation ofSequencing Metadata”的荷兰专利申请第2023311号(代理人案卷号ILLM 1008-12/IP-1741-NL);
2019年6月14日提交的名称为“Artificial Intelligence-Based Base Calling”的荷兰专利申请第2023312号(代理人案卷号ILLM 1008-13/IP-1744-NL);
2019年6月14日提交的名称为“Artificial Intelligence-Based QualityScoring”的荷兰专利申请第2023314号(代理人案卷号ILLM 1008-14/IP-1747-NL);
2019年6月14日提交的名称为“Artificial Intelligence-Based Sequencing”的荷兰专利申请第2023316号(代理人案卷号ILLM 1008-15/IP-1752-NL);以及
2020年3月20日提交的名称为“Training Data Generation for ArtificialIntelligence-Based Sequencing”的美国非临时专利申请第16/825,987号(代理人案卷号ILLM 1008-16/IP-1693-US);
2020年3月20日提交的名称为“Training Data Generation for ArtificialIntelligence-Based Sequencing”的美国非临时专利申请第16/825,991号(代理人案卷号ILLM 1008-17/IP-1741-US);
2020年3月20日提交的名称为“Artificial Intelligence-Based Base Calling”的美国非临时专利申请第16/826,126号(代理人案卷号ILLM 1008-18/IP-1744-US);
2020年3月20日提交的名称为“Artificial Intelligence-Based QualityScoring”的美国非临时专利申请第16/826,134号(代理人案卷号ILLM 1008-19/IP-1747-US);
2020年3月21日提交的名称为“Artificial Intelligence-Based Sequencing”的美国非临时专利申请第16/826,168号(代理人案卷号ILLM 1008-20/IP-1752-PRV);
同时提交的名称为“Artificial Intelligence-Based Generation ofSequencing Metadata”的PCT专利申请No.PCT________(代理人案卷号ILLM 1008-22/IP-1741-PCT),该专利申请随后公开为PCT公布No.WO_________;
同时提交的名称为“Artificial Intelligence-Based Base Calling”的PCT专利申请No.PCT_______(代理人案卷号ILLM 1008-23/IP-1744-PCT),该专利申请随后公开为PCT公布No.WO_________;
同时提交的名称为“Artificial Intelligence-Based Quality Scoring”的PCT专利申请No.PCT_______(代理人案卷号ILLM 1008-24/IP-1747-PCT),该专利申请随后公开为PCT公布No.WO_____________;以及
同时提交的名称为“Artificial Intelligence-Based Sequencing”的PCT专利申请No.PCT_______(代理人案卷号ILLM 1008-25/IP-1752-PCT),该专利申请随后公开为PCT公布No.WO__________。
据此将这些优先权申请以引用方式并入,即如同在本文完整示出一样,以用于所有目的。
文献并入
以下文献以引用方式并入,即如同在本文完整示出一样,以用于所有目的:
2019年5月16日提交的名称为“Systems and Devices for Characterizationand Performance Analysis of Pixel-Based Sequencing”的美国临时专利申请第62/849,091号(代理人案卷号ILLM 1011-1/IP-1750-PRV);
2019年5月16日提交的名称为“Base Calling Using Convolutions”的美国临时专利申请第62/849,132号(代理人案卷号ILLM 1011-2/IP-1750-PR2);
2019年5月16日提交的名称为“Base Calling Using Compact Convolutions”的美国临时专利申请第62/849,133号(代理人案卷号ILLM 1011-3/IP-1750-PR3);
2020年2月20日提交的名称为“Artificial Intelligence-Based Base Callingof Index Sequences”的美国临时专利申请第62/979,384号(代理人案卷号ILLM 1015-1/IP-1857-PRV);
2020年2月20日提交的名称为“Artificial Intelligence-Based Many-To-ManyBase Calling”的美国临时专利申请第62/979,414号(代理人案卷号ILLM 1016-1/IP-1858-PRV);
2020年2月20日提交的名称为“Knowledge Distillation-Based Compression ofArtificial Intelligence-Based Base Caller”的美国临时专利申请第62/979,385号(代理人案卷号ILLM 1017-1/IP-1859-PRV);
2020年2月20日提交的名称为“Multi-Cycle Cluster Based Real TimeAnalysis System”的美国临时专利申请第62/979,412号(代理人案卷号ILLM 1020-1/IP-1866-PRV);
2020年2月20日提交的名称为“Data Compression for ArtificialIntelligence-Based Base Calling”的美国临时专利申请第62/979,411号(代理人案卷号ILLM 1029-1/IP-1964-PRV);
2020年2月20日提交的名称为“Squeezing Layer for ArtificialIntelligence-Based Base Calling”的美国临时专利申请第62/979,399号(代理人案卷号ILLM 1030-1/IP-1982-PRV);
Liu P、Hemani A、Paul K、Weis C、Jung M、Wehn N,“3D-Stacked Many-CoreArchitecture for Biological Sequence Analysis Problems”,Int J Parallel Prog,2017年,第45卷(第6期):第1420页-第1460页;
Z.Wu、K.Hammad、R.Mittmann、S.Magierowski、E.Ghafar-Zadeh和X.Zhong,“FPGA-Based DNA Basecalling Hardware Acceleration”,Proc.IEEE 61st Int.MidwestSymp.Circuits Syst.,2018年8月,第1098页-第1101页;
Z.Wu、K.Hammad、E.Ghafar-Zadeh和S.Magierowski,“FPGA-Accelerated 3rdGeneration DNA Sequencing”,IEEE Transactions on Biomedical Circuits andSystems,第14卷,第1期,2020年2月,第65页-第74页;
Prabhakar等人,“Plasticine:A Reconfigurable Architecture for ParallelPatterns”,ISCA 17,2017年6月24日-28日,加拿大安大略省多伦多市(Toronto,ON,Canada);
M.Lin、Q.Chen和S.Yan,“Network in Network”,Proc.of ICLR,2014年;
L.Sifre,“Rigid-motion Scattering for Image Classification”,Ph.D.论文,2014;
L.Sifre和S.Mallat,“Rotation,Scaling and Deformation InvariantScattering for Texmre Discrimination”,Proc.of CVPR,2013年;
F.Chollet,“Xception:Deep Learning with Depthwise SeparableConvolutions”,Proc.of CVPR,2017年;
X.Zhang、X.Zhou、M.Lin和J.Sun,“ShuffleNet:An Extremely EfficientConvolutional Neural Network for Mobile Devices,”arXiv:1707.01083,2017年;
K.He、X.Zhang、S.Ren和J.Sun,“Deep Residual Learning for ImageRecognition”,Proc.of CVPR,2016年;
S.Xie、R.Girshick、P.Dollár、Z.Tu和K.He,“Aggregated ResidualTransformations for Deep Neural Networks”,Proc.of CVPR,2017年;
A.G.Howard、M.Zhu,B.Chen、D.Kalenichenko、W.Wang、T.Weyand、M.Andreetto和H.Adam,“Mobilenets:Efficient Convolutional Neural Networks for Mobile VisionApplications”,arXiv:1704.04861,2017年;
M.Sandler、A.Howard、M.Zhu、A.Zhmoginov和L.Chen,“MobileNetV2:InvertedResiduals and Linear Bottlenecks”,arXiv:1801.04381v3,2018年;
Z.Qin、Z.Zhang、X.Chen和Y.Peng,“FD-MobileNet:Improved MobileNet with aFast Downsampling Strategy”,arXiv:1802.03750,2018年;
Liang-Chieh Chen、George Papandreou、Florian Schroff和Hartwig Adam,“Rethinking atrous convolution for semantic image segmentation”,CoRR,abs/1706.05587,2017年;
J.Huang、V.Rathod,C.Sun、M.Zhu、A.Korattikara、A.Fathi、I.Fischer、Z.Wojna、Y.Song、S.Guadarrama等人,“Speed/accuracy trade-offs for modern convolutionalobject detectors”,arXiv preprint arXiv:1611.10012,2016年;
S.Dieleman、H.Zen、K.Simonyan、O.Vinyals、A.Graves、N.Kalchbrenner、A.Senior和K.Kavukcuoglu,“WAVENET:A GENERATIVE MODEL FOR RAW AUDIO”,arXiv:1609.03499,2016年;
S.
Figure BDA0002860234930000051
Arik,M.Chrzanowski,A.Coates,G.Diamos,A.Gibiansky,Y.Kang,X.Li,J.Miller,A.Ng,J.Raiman,S.Sengupta和M.Shoeybi,“DEEP VOICE:REAL-TIME NEURALTEXT-TO-SPEECH”,arXiv:1702.07825,2017年;
F.Yu和V.Koltun,“MULTI-SCALE CONTEXT AGGREGATION BY DILATEDCONVOLUTIONS”,arXiv:1511.07122,2016年;
K.He、X.Zhang、S.Ren和J.Sun,“DEEP RESIDUAL LEARNING FOR IMAGERECOGNITION”,arXiv:1512.03385,2015年;
R.K.Srivastava、K.Greff和J.Schmidhuber,“HIGHWAY NETWORKS”,arXiv:1505.00387,2015年;
G.Huang、Z.Liu、L.van der Maaten和K.Q.Weinberger,“DENSELY CONNECTEDCONVOLUTIONAL NETWORKS”,arXiv:1608.06993,2017年;
C.Szegedy、W.Liu、Y.Jia、P.Sermanet、S.Reed、D.Anguelov、D.Erhan、V.Vanhoucke和A.Rabinovich,“GOING DEEPER WITH CONVOLUTIONS”,arXiv:1409.4842,2014年;
S.Ioffe和C.Szegedy,“BATCH NORMALIZATION:ACCELERATING DEEP NETWORKTRAINING BY REDUCING INTERNAL COVARIATE SHIFT”,arXiv:1502.03167,2015年;
J.M.Wolterink、T.Leiner、M.A.Viergever和I.
Figure BDA0002860234930000061
“DILATED CONVOLUTIONALNEURAL NETWORKS FOR CARDIOVASCULAR MR SEGMENTATION IN CONGENITAL HEARTDISEASE”,arXiv:1704.03669,2017年;
L.C.Piqueras,“AUTOREGRESSIVE MODEL BASED ON A DEEP CONVOLUTIONALNEURAL NETWORK FOR AUDIO GENERATION”,坦佩雷理工大学,2016年;
J.Wu,“Introduction to Convolutional Neural Networks”,南京大学,2017年;
“Illumina CMOS Chip and One-Channel SBS Chemistry”,Illumina,Inc,2018年,第2页;
“skikit-image/peak.py at master”,GitHub,第5页,[检索于2018年11月16日],检索自互联网<URL:https://github.com/scikit-image/scikit-image/blob/master/ skimage/feature/peak.py#L25>;
“3.3.9.11.Watershed and random walker for segmentation”,Scipy lecturenotes,第2页,[检索于2018年11月13日],检索自互联网<URL:http://scipy- lectures.org/packages/scikit-image/auto_examples/plot_segmentations.html>
Mordvintsev,Alexander和Revision,Abid K.,“Image Segmentation withWatershed Algorithm”,版本43532856,2013年,第6页,[检索于2018年11月13日],检索自互联网<URL:https://opencv-python-tutroals.readthedocs.io/en/latest/py_ tutorials/py_imgproc/py_watershed/py_water shed.html>
Mzur,“Watershed.py”,2017年10月25日,第3页,[检索于2018年11月13日],检索自互联网<URL:https://github.com/mzur/watershed/blob/master/Watershed.py>
Thakur、Pratibha等人,“A Survey of Image Segmentation Techniques”,International Journal of Research in Computer Applications and Robotics,第4期,第2卷,2014年4月,第158页-第165页;
Long、Jonathan等人,“Fully Convolutional Networks for SemanticSegmentation”,IEEE Transactions on Pattern Analysis and Machine Intelligence,第4期,第39卷,2017年4月1日,第10页;
Ronneberger,Olaf等人,“U-net:Convolutional networks for biomedicalimage segmentation”,International Conference on Medical image computing andcomputer-assisted intervention,2015年5月18日,第8页;
Xie,W.等人,“Microscopy cell counting and detection with fullyconvolutional regression networks”,Computer methods in biomechanics andbiomedical engineering:Imaging&Visualization,第6期(第3卷),第283页-第292页,2018年;
Xie、Yuanpu等人,“Beyond classification:structured regression forrobust cell detection using convolutional neural network”,InternationalConference on Medical Image Computing and Computer-Assisted Intervention,2015年10月12日,第12页;
Snuverink、I.A.F.,“Deep Learning for Pixelwise Classification ofHyperspectral Images”,理工硕士论文,代尔夫特理工大学,2017年11月23日,第19页;
Shevchenko,A.,“Keras weighted categorical_crossentropy”,第1页,[检索于2019年1月15日],检索自互联网<URL:https://gist.github.com/skeeet/cad06d584548f b45eece1d4e28cfa98b>;
van den Assem、D.C.F.,“Predicting periodic and chaotic signals usingWavenets”,理工硕士论文,代尔夫特理工大学,2017年8月18日,第3页-第38页;
I.J.Goodfellow,D.Warde-Farley,M.Mirza,A.Courville和Y.Bengio,“CONVOLUTIONAL NETWORKS”,深度学习,MIT出版社,2016年;以及
J.Gu、Z.Wang、J.Kuen、L.Ma、A.Shahroudy、B.Shuai、T.Liu、X.Wang和G.Wang,“RECENT ADVANCES IN CONVOLUTIONAL NEURAL NETWORKS”,arXiv:1512.07108,2017年。
技术领域
本发明所公开的技术涉及人工智能类型计算机和数字数据处理系统以及对应数据处理方法和用于仿真智能的产品(即,基于知识的系统、推断系统和知识采集系统);并且包括用于不确定性推断的系统(例如,模糊逻辑系统)、自适应系统、机器学习系统和人工神经网络。具体地,所公开的技术涉及将深度神经网络诸如深度卷积神经网络用于分析数据。
背景技术
本部分中讨论的主题不应仅因为在本部分中有提及就被认为是现有技术。类似地,在本部分中提及的或与作为背景技术提供的主题相关联的问题不应被认为先前在现有技术中已被认识到。本部分中的主题仅表示不同的方法,这些方法本身也可对应于受权利要求书保护的技术的具体实施。
深度神经网络是一种人工神经网络,其使用多个非线性且复杂的变换层来对高级特征进行连续建模。深度神经网络经由反向传播提供反馈,该反向传播携带观察输出和预测输出之间的差异以调整参数。深度神经网络随着大型训练数据集的可用性、并行与分布式计算的能力以及复杂的训练算法而演进。深度神经网络已促进了许多领域诸如计算机视觉、语音识别和自然语言处理的重大进步。
卷积神经网络(CNN)和递归神经网络(RNN)是深度神经网络的组成部分。卷积神经网络在具有包括卷积层、非线性层和池化层的架构的图像识别方面尤其成功。递归神经网络被设计成利用输入数据的顺序信息,并且具有在构建模块如感知子、长短期记忆单元和门控递归单元之间循环连接。此外,已提出了针对有限情境的许多其他新兴深度神经网络,诸如深度时空神经网络、多维递归神经网络和卷积自编码器。
训练深度神经网络的目标是优化每层中的权重参数,这将较简单的特征逐渐组合成复杂的特征,使得可以从数据中学习到最合适的分层表示。优化过程的单个循环按以下步骤来进行。首先,在给定训练数据集的情况下,前向传递顺序地计算每层中的输出并将函数信号通过网络向前传播。在最终输出层中,目标损失函数测量推断的输出与给定标记之间的误差。为了使训练误差最小化,向后传递使用链规则来反向传播误差信号并计算相对于整个神经网络中的所有权重的梯度。最后,基于随机梯度下降使用优化算法来更新权重参数。虽然批量梯度下降针对每个完整的数据集执行参数更新,但随机梯度下降通过针对每个小数据示例集执行更新来提供随机逼近。若干优化算法源自随机梯度下降。例如,Adagrad和Adam训练算法执行随机梯度下降,同时分别基于每个参数的梯度的更新频率和动量自适应地修改学习速率。
深度神经网络训练中的另一个核心元素是正则化,该正则化是指旨在避免过度拟合并因此实现良好泛化性能的策略。例如,权重衰减将惩罚因子添加到目标损失函数,使得权重参数收敛到较小绝对值。丢弃在训练期间从神经网络随机移除隐藏单元,并且可被认为是可能子网络的集成。为了增强丢弃的能力,已提出了新的激活函数、最大输出和递归神经网络的丢弃变体(被称为rnnDrop)。此外,批量归一化通过归一化微型批量内每次激活的标量特征并学习每个平均值和方差作为参数来提供新的正则化方法。
鉴于序列数据是多维和高维的,深度神经网络由于其广泛的适用性和增强的预测能力而在生物信息学研究方面具有巨大前景。卷积神经网络已被用于解决基因组学中基于序列的问题,诸如基序发现、致病性变异鉴定和基因表达推断。卷积神经网络使用权重共享策略,该策略尤其可用于研究DNA,因为其可捕获序列基序,该序列基序是DNA中被假定具有显著生物学功能的短且反复出现的局部模式。卷积神经网络的标志是卷积滤波器的使用。
与基于精密设计的特征和手工制作的特征的传统分类方法不同,卷积滤波器执行特征的自适应学习,类似于将原始输入数据映射到知识的信息表示的过程。在这个意义上,卷积滤波器用作一系列基序扫描器,因为一组此类滤波器能够在训练过程期间识别输入中的相关模式并更新其自身。递归神经网络可捕获具有不同长度的序列数据(诸如,蛋白质或DNA序列)中的长程依赖。
因此,有机会使用基于深度学习的原则框架来进行模板生成和碱基检出(calling)。
在高通量技术时代,以每次工作的最低成本积累最多可解释数据仍然是一个重大挑战。基于簇的核酸测序方法,诸如将桥式扩增用于形成簇的那些方法,已对增加核酸测序通量的目标做出了重要贡献。这些基于簇的方法依赖于对固定在固体载体上的核酸的密集群体进行测序,并且通常涉及使用图像分析软件对在对位于固体载体上不同位置处的多个簇同时测序的过程中产生的光信号进行去卷积。
然而,此类基于固相核酸簇的测序技术仍面临着相当大的障碍,这些障碍限制了可实现的通量。例如,在基于簇的测序方法中,在确定物理上彼此太接近而无法在空间上分辨或实际上在固体载体上物理重叠的两个或更多个簇的核酸序列方面可能存在障碍。例如,当前的图像分析软件可能需要宝贵的时间和计算资源来确定从两个重叠簇中的哪一个簇发出了光信号。因此,对于多种检测平台而言,关于可获得的核酸序列信息的数量和/或质量的折衷是不可避免的。
基于高密度核酸簇的基因组学方法也扩展到了基因组分析的其他领域。例如,基于核酸簇的基因组学可用于测序应用、诊断和筛选、基因表达分析、表观遗传分析、多态性遗传分析等。当不能解析由紧密接近的或在空间上重叠的核酸簇生成的数据时,这些基于核酸簇的基因组技术中的每一种也会受到限制。
显然,仍然需要增加可快速且成本效益高地获得的核酸测序数据的质量和数量以用于各种各样的用途,包括基因组学(例如,用于任何和所有动物、植物、微生物或其他生物物种或群体的基因组表征)、药物遗传学、转录组学、诊断学、预后、生物医学风险评估、临床和研究遗传学、个体化用药、药物功效和药物相互作用评估、兽医学、农业、进化和生物多样性研究、水产养殖、林业、海洋学、生态和环境管理以及其他目的。
所公开的技术提供了基于神经网络的方法和系统,该方法和系统解决了这些需求和类似需求,包括增加了高通量核酸测序技术中的通量水平,并且提供了其他相关优点。
附图说明
本专利或专利申请文件包含至少一幅彩色附图。具有彩色附图的本专利或本专利申请公布的副本将在提出请求并支付必要费用后由专利局提供。彩色附图也可通过补充内容选项卡成对地获得。
在附图中,在所有不同视图中,类似的参考符号通常是指类似的部件。另外,附图未必按比例绘制,而是重点说明所公开的技术的原理。在以下描述中,参考以下附图描述了所公开的技术的各种具体实施,其中:
图1示出了使用子像素碱基检出来确定簇元数据的处理流水线的一个具体实施。
图2描绘了在其区块中包含簇的流通池的一个具体实施。
图3示出了具有八个槽道的Illumina GA-IIx流通池的一个示例。
图4描绘了用于四通道化学的测序图像的图像集,即,该图像集具有使用像素域中的四个不同波长带(图像/成像通道)捕获的四个测序图像。
图5是将测序图像划分成子像素(或子像素区域)的一个具体实施。
图6示出了在子像素碱基检出期间由碱基检出器(caller)识别的簇的初始中心坐标。
图7描绘了合并在多个测序循环内产生的子像素碱基检出以生成包含簇元数据的所谓的“簇映射图”的一个示例。
图8a示出了通过合并子像素碱基检出而生成的簇映射图的一个示例。
图8b描绘了子像素碱基检出的一个具体实施。
图9示出了识别簇元数据的簇映射图的另一个示例。
图10示出了如何计算簇映射图中的不相交区域的质心(COM)。
图11描绘了基于不相交区域中的子像素距该不相交区域的COM的欧几里得距离来计算加权衰减因子的一个具体实施。
图12示出了从由子像素碱基检出产生的示例性簇映射图导出的示例性基准真值衰减映射图的一个具体实施。
图13示出了从簇映射图导出三元映射图的一个具体实施。
图14示出了从簇映射图导出二元映射图的一个具体实施。
图15是示出生成训练数据的一种具体实施的框图,该训练数据用于训练基于神经网络的模板生成器和基于神经网络的碱基检出器。
图16示出了用于训练基于神经网络的模板生成器和基于神经网络的碱基检出器的所公开的训练示例的特征。
图17示出了通过所公开的基于神经网络的模板生成器处理输入图像数据并为阵列中的每个单元生成输出值的一个具体实施。在一个具体实施中,该阵列是衰减映射图。在另一个具体实施中,该阵列是三元映射图。在又一个具体实施中,该阵列是二元映射图。
图18示出了后处理技术的一个具体实施,该后处理技术应用于由基于神经网络的模板生成器产生的衰减映射图、三元映射图或二元映射图以导出簇元数据,包括簇中心、簇形状、簇尺寸、簇背景和/或簇边界。
图19描绘了提取像素域中的簇强度的一个具体实施。
图20示出了提取子像素域中的簇强度的一个具体实施。
图21a示出了基于神经网络的模板生成器的三个不同具体实施。
图21b描绘了作为输入馈送到基于神经网络的模板生成器1512的输入图像数据的一个具体实施。输入图像数据包括具有测序图像的一系列图像集,这些测序图像是在测序运行的一定数量的初始测序循环期间生成的。
图22示出了从图21b中的一系列图像集中提取补片(patch)以产生形成输入图像数据的一系列“缩小尺寸的”图像集的一个具体实施。
图23描绘了对图21b中的一系列图像集进行上采样以产生形成输入图像数据的一系列“上采样的”图像集的一个具体实施。
图24示出了从图23中的一系列上采样的图像集中提取补片以产生形成输入图像数据的一系列“上采样且缩小尺寸的”图像集的一个具体实施。
图25示出了生成用于训练基于神经网络的模板生成器的基准真值数据的总体示例性过程的一个具体实施。
图26示出了回归模型的一个具体实施。
图27描绘了从簇映射图生成基准真值衰减映射图的一个具体实施。基准真值衰减映射图用作用于训练回归模型的基准真值数据。
图28是使用基于反向传播的梯度更新技术来训练回归模型的一个具体实施。
图29是在推断期间通过回归模型生成模板的一个具体实施。
图30示出了使衰减映射图经受后处理以识别簇元数据的一个具体实施。
图31描绘了识别非重叠的邻接簇/表征簇的簇内部子像素组的分水岭分割技术的一个具体实施。
图32是示出回归模型的示例性U-Net架构的表。
图33示出了使用模板图像中识别的簇形状信息提取簇强度的不同方法。
图34示出了使用回归模型的输出进行碱基检出的不同方法。
图35示出了当RTA碱基检出器使用基准真值质心(COM)位置作为簇中心而不是使用非COM位置作为簇中心时,碱基检出性能的差异。结果表明,使用COM改善了碱基检出。
图36在左侧示出了由回归模型产生的示例性衰减映射图。图36还在右侧示出了回归模型在训练期间近似的示例性基准真值衰减映射图。
图37描绘了峰值定位器通过检测峰值来识别衰减映射图中的簇中心的一个具体实施。
图38将由回归模型产生的衰减映射图中的峰值定位器检测到的峰值与对应的基准真值衰减映射图中的峰值进行比较。
图39示出了使用查准率和查全率统计量的回归模型的性能。
图40比较了针对20pM文库浓度(正常运行)的回归模型与RTA碱基检出器的性能。
图41比较了针对30pM文库浓度(密集运行)的回归模型与RTA碱基检出器的性能。
图42比较了回归模型所检测到的非重复正确读段对的数量(即,两个读段均未在合理距离内向内比对的配对读段的数量)与RTA碱基检出器所检测到的非重复正确读段对的数量。
图43在右侧示出了由回归模型产生的第一衰减映射图。图43在左侧示出了由回归模型产生的第二衰减映射图。
图44比较了针对40pM文库浓度(高度密集运行)的回归模型与RTA碱基检出器的性能。
图45在左侧示出了由回归模型产生的第一衰减映射图。图45在右侧示出了应用于第一衰减映射图的阈值化、峰值定位和分水岭分割技术的结果。
图46示出了二元分类模型的一个具体实施。
图47是使用涉及softmax分数的基于反向传播的梯度更新技术来训练二元分类模型的一个具体实施。
图48是使用涉及sigmoid分数的基于反向传播的梯度更新技术来训练二元分类模型的另一个具体实施。
图49示出了馈送到二元分类模型的输入图像数据和用于训练二元分类模型的对应类标记的另一个具体实施。
图50是在推断期间通过二元分类模型生成模板的一个具体实施。
图51示出了使二元映射图经受峰值检测以识别簇中心的一个具体实施。
图52a在左侧示出了由二元分类模型产生的示例性二元映射图。图52a还在右侧示出了在训练期间二元分类模型接近的示例性基准真值二元映射图。
图52b示出了使用查准率统计量的二元分类模型的性能。
图53是示出二元分类模型的示例架构的表。
图54示出了三元分类模型的一个具体实施。
图55是使用基于反向传播的梯度更新技术来训练三元分类模型的一个具体实施。
图56示出了馈送到三元分类模型的输入图像数据和用于训练三元分类模型的对应类标记的另一个具体实施。
图57是示出三元分类模型的示例架构的表。
图58是在推断期间通过三元分类模型生成模板的一个具体实施。
图59示出了由三元分类模型产生的三元映射图。
图60描绘了由三元分类模型5400产生的单元阵列,以及逐单元输出值。
图61示出了对三元映射图进行后处理以识别簇中心、簇背景和簇内部的一个具体实施。
图62a示出了三元分类模型的示例性预测。
图62b示出了三元分类模型的其他示例性预测。
图62c还示出了三元分类模型的其他示例性预测。
图63描绘了从图62a中的三元分类模型的输出导出簇中心和簇形状的一个具体实施。
图64比较了二元分类模型、回归模型和RTA碱基检出器的碱基检出性能。
图65将三元分类模型的性能与RTA碱基检出器的性能在三种上下文、五种测序指标和两种运行密度下进行比较。
图66将回归模型的性能与RTA碱基检出器的性能在图65中讨论的三种上下文、五中测序指标和两种运行密度下进行比较。
图67聚焦于基于神经网络的模板生成器的倒数第二层。
图68可视化了基于神经网络的模板生成器的倒数第二层由于基于反向传播的梯度更新训练而学到的东西。例示的具体实施可视化了图67中描绘的倒数第二层的32个经训练的卷积滤波器中的24个。
图69将二元分类模型的簇中心预测(蓝色)叠加到RTA碱基检出器的那些簇中心预测(粉色)上。
图70将由RTA碱基检出器做出的簇中心预测(粉色)叠加到二元分类模型的倒数第二层的经训练的卷积滤波器的可视化上。
图71示出了用于训练基于神经网络的模板生成器的训练数据的一个具体实施。
图72是以基于神经网络的模板生成器的簇中心预测为基础使用小珠进行图像配准的一个具体实施。
图73示出了由基于神经网络的模板生成器识别的簇的簇统计的一个具体实施。
图74示出了当使用输入图像数据的初始测序循环的数量从五增加到七时,基于神经网络的模板生成器区分相邻簇的能力如何提高。
图75示出了当RTA碱基检出器使用基准真值质心(COM)位置作为簇中心而不是使用非COM位置作为簇中心时,碱基检出性能的差异。
图76描绘了基于神经网络的模板生成器对额外检测到的簇的性能。
图77示出了用于训练基于神经网络的模板生成器的不同数据集。
图78A和图78B描绘了测序系统的一个具体实施。该测序系统包括可配置处理器。
图79是用于分析来自测序系统的传感器数据(诸如,碱基检出传感器输出)的系统的简化框图。
图80是示出碱基检出操作的各方面的简化图,该操作包括由主机处理器执行的运行时程序的功能。
图81是可配置处理器诸如图79描绘的可配置处理器的配置的简化图。
图82是可由图78A的测序系统用来实现本文所公开的技术的计算机系统。
具体实施方式
呈现以下讨论以使得本领域的任何技术人员能够实现和使用所公开的技术,并且在特定应用及其要求的上下文中提供以下讨论。对所公开的具体实施的各种修改对于本领域的技术人员而言将是显而易见的,并且在不脱离所公开的技术的实质和范围的情况下,本文所定义的一般原理可应用于其他具体实施和应用。因此,所公开的技术并非旨在限于所示的具体实施,而是要符合与本文所公开的原理和特征一致的最广范围。
简介
根据数字图像进行的碱基检出是大规模并行且计算密集的。这呈现了我们在引入新技术之前所认识到的许多技术挑战。
随着碱基分类循环进行,来自被评估的图像集的信号越来越微弱,尤其是随着越来越长的碱基链变得越来越微弱。随着碱基分类沿着链的长度进行,信噪比减小,因此可靠性减小。当碱基分类的估计可靠性改变时,期待更新的可靠性估计。
从扩增的样品链簇捕获数字图像。通过使用多种物理结构和化学物质复制链来扩增样品。在合成测序期间,标签被循环地化学附着并被刺激发光。数字传感器从标签收集被读出像素的光子以产生图像。
解释数字图像以对碱基进行分类需要解决位置不确定性,这受到了有限图像分辨率的阻碍。在比碱基检出期间收集到的分辨率更大的分辨率下,明显看出成像簇具有不规则的形状和不确定的中心位置。因为簇位置不是机械调控的,因此簇中心不与像素中心对准。像素中心可以是分配给像素的整数坐标。在其他具体实施中,像素中心可为像素的左上角。在其他具体实施中,像素中心可为像素的质量中心或质心。扩增不会产生均匀的簇形状。因此,簇信号在数字图像中的分布是统计分布而非规则图案。我们将其称为位置不确定性。
信号类别中的一种可能不产生可检测信号,并且基于“暗”信号而在特定位置处被分类。因此,模板对于黑暗循环期间的分类是必要的。产生模板使用多个成像循环来解决初始位置不确定性,以避免缺失暗信号。
在图像传感器尺寸、放大率和步进式设计上的权衡导致相对较大的像素尺寸,该像素尺寸太大而不能将簇中心视为与传感器像素中心重合。本公开使用两种意义的像素。物理传感器像素是光学传感器报告检测到的光子的区域。逻辑像素(被简称为像素)是对应于至少一个物理像素(即从传感器像素读取的数据)的数据。可将像素细分或“上采样”成子像素,诸如4×4的子像素。考虑到所有光子击中物理像素的一侧而不是相对侧的可能性,可通过插值法(诸如双线性插值法或面积加权)将值分配给子像素。当通过将仿射变换应用于来自物理像素的数据来使像素重新成帧时,也应用插值法或双线性插值法。
与较小的像素相比,较大的物理像素对微弱信号更敏感。虽然数字传感器随时间推移而改善,但收集器表面积的物理限制是不可避免的。考虑到设计权衡,传统系统已被设计成收集和分析来自传感器的3×3补片的图像数据,其中簇中心位于补片的中心像素中的某处。
高分辨率传感器一次仅捕获成像介质的一部分。传感器在成像介质上是步进式的,以覆盖整个场。在一个处理循环期间可收集到成千上万的数字图像。
将传感器和照明设计组合以区分用于对碱基进行分类的至少四个照明响应值。如果使用具有Bayer滤色器阵列的传统RGB相机,则四个传感器像素将被组合成单个RGB值。这将使有效传感器分辨率降低到原来的四分之一。另选地,使用不同照明波长和/或旋转到成像介质和传感器之间的位置中的不同滤波器可在单个位置处收集到多个图像。区分四种碱基分类所需的图像数量在系统之间有所不同。一些系统将具有四个强度水平的一个图像用于不同类别的碱基。其他系统使用具有不同照明波长(例如,红色和绿色)的两个图像和/或具有一种真值表的滤波器来对碱基进行分类。系统还可使用具有不同照明波长的四个图像和/或被调谐到特定碱基类别的滤波器。
实际上需要大规模并行处理数字图像,以将相对短的链(大约30至2000个碱基对)对准和组合成更长的序列,长度可能为数百万或甚至数十亿个碱基。冗余样本在成像介质上是期望的,因此序列的一部分可被数十个样本读数覆盖。从单个成像介质成像数百万或至少数十万个样品簇。大规模并行处理如此多的簇提高了测序能力,同时降低了成本。
测序能力的增长速度堪比摩尔定律。虽然首次测序耗资数十亿美元,但2018年服务商诸如IlluminaTM交付测序结果的价格为数百美元。由于测序变为主流并且单位价格下降,因此可用于分类的计算能力更少了,这增加了近实时分类的挑战。考虑到这些技术挑战,我们转向所公开的技术。
所公开的技术改善了在生成模板以解决位置不确定性期间以及在对分辨位置处的簇进行碱基分类期间的处理。应用所公开的技术,可使用较便宜的硬件来降低机器的成本。近实时分析可变得具有成本效益,从而减少图像收集和碱基分类之间的滞后。
所公开的技术可使用上采样图像,该上采样图像是通过将传感器像素插值到子像素中,然后产生解决位置不确定性的模板而产生的。将所得的子像素提交给碱基检出器以进行分类,该碱基检出器将子像素视为位于簇中心。从重复接收相同碱基分类的相邻子像素组中确定簇。该技术的这一方面利用现有的碱基检出技术来确定簇的形状并以子像素分辨率超定位簇中心。
所公开的技术的另一方面是创建将图像与确信地确定的簇中心和/或簇形状配对的基准真值训练数据集。深度学习系统和其他机器学习方法需要大量的训练集。人为策划的数据编译起来很昂贵。所公开的技术可用于在非标准操作模式下利用现有分类器来生成大量确信地分类的训练数据集,而无需干预或耗费人力。在非标准操作模式下,诸如在基于CNN的深度学习系统中,训练数据将原始图像与可从现有分类器获得的簇中心和/或簇形状相关联,然后该基于CNN的深度学习系统可直接处理图像序列。可旋转并反射一个训练图像以产生另外同样有效的示例。训练示例可集中于整个图像内具有预先确定尺寸的区域。在碱基检出期间评估的上下文确定示例性训练区域的尺寸,而不是确定来自整个成像介质的图像的尺寸或整个成像介质的尺寸。
所公开的技术可产生不同类型的映射图,该映射图可用作用于碱基分类的训练数据或模板,并且将簇中心和/或簇形状与数字图像相关联。首先,子像素可被分类为簇中心,从而将簇中心定位在物理传感器像素内。第二,簇中心可被计算为簇形状的质量中心。该位置可以所选择的数字精确度报告。第三,可在衰减映射图中以子像素或像素分辨率报告具有周围子像素的簇中心。随着区域与簇中心的分离增加,衰减映射图降低了在区域中检测到的光子的权重,从而使来自更远位置的信号减弱。第四,二元或三元分类可应用于相邻区域的簇中的子像素或像素。在二元分类中,区域被分类为属于簇中心或被分类为背景。在三元分类中,第三类类型为包含簇内部但不包含簇中心的区域。为簇中心位置的子像素分类可替代较大光学像素内的实值簇中心坐标。
另选样式的映射图最初可被产生为基准真值数据集,或者通过训练,可使用神经网络来产生这些映射图。例如,簇可被描绘为具有适当分类的相邻子像素的不相交区域。如果中心尚未确定,则来自神经网络的强度映射簇可由峰值检测器滤波器进行后处理,以计算簇中心。应用所谓的分水岭分析,可将邻接区域分配给单独的簇。当由神经网络推断引擎产生时,映射图可用作用于评估数字图像序列并且在碱基检出的循环过程中对碱基进行分类的模板。
基于神经网络的模板生成
模板生成的第一步是确定簇元数据。簇元数据识别簇的空间分布,并且识别这些簇的中心、形状、尺寸、背景和/或边界。
确定簇元数据
图1示出了使用子像素碱基检出来确定簇元数据的处理流水线的一个具体实施。
图2描绘了在其区块中包含簇的流通池的一个具体实施。流通池被划分成槽道。这些槽道被进一步划分成被称为“区块”的非重叠区域。在测序过程中,对区块上的簇及其周围背景进行成像。
图3示出了具有八个槽道的示例性Illumina GA-IIxTM流通池。图3还示出了一个区块及其簇及其周围背景的放大图。
图4描绘了用于四通道化学的测序图像的图像集,即,该图像集具有使用像素域中的四个不同波长带(图像/成像通道)捕获的四个测序图像。图像集中的每个图像覆盖流通池的区块,并且描绘区块上的簇及其周围背景的在对流通池执行的测序运行的多个测序循环中的特定测序循环中针对特定成像通道捕获的强度发射。在一个具体实施中,每个成像通道对应于多个滤波器波长带中的一个滤波器波长带。在另一个具体实施中,每个成像通道对应于测序循环中的多个成像事件中的一个成像事件。在又一个具体实施中,每个成像通道对应于利用特定激光器照明和通过特定光学滤波器成像的组合。簇的强度发射包括从分析物检测到的信号,这些信号可用于对与分析物相关联的碱基进行分类。例如,强度发射可为指示由标签发射的光子的信号,这些标记在刺激标记的循环期间化学地附着到分析物并且可由一个或多个数字传感器检测,如上所述。
图5是将测序图像划分成子像素(或子像素区域)的一个具体实施。在例示的具体实施中,使用四分之一(0.25)的子像素,这导致测序图像中的每个像素被划分成十六个子像素。鉴于所示的测序图像的分辨率为20x20像素(即,400个像素),划分产生了6400个子像素。子像素中的每个子像素被碱基检出器视为子像素碱基检出的区域中心。在一些具体实施中,该碱基检出器不使用基于神经网络的处理。在其他具体实施中,该碱基检出器是基于神经网络的碱基检出器。
对于给定的测序循环和特定的子像素,碱基检出器被配置为具有逻辑,以通过执行图像处理步骤并从测序循环的对应图像集中提取子像素的强度数据来为给定的测序循环和特定的子像素产生碱基检出。这是针对子像素中的每个子像素和多个测序循环中的每个测序循环进行的。也已在对Illumina MiSeq测序器的1800x1800像素分辨率的区块图像进行四分之一子像素划分的情况下进行了实验。针对五十给个测序循环和一个槽道的十个区块执行了子像素碱基检出。
图6示出了在子像素碱基检出期间由碱基检出器识别的簇的初始中心坐标。图6还示出了包含初始中心坐标的“原点子像素”或“中心子像素”。
图7描绘了合并在多个测序循环内产生的子像素碱基检出以生成包含簇元数据的所谓的“簇映射图”的一个示例。在例示的具体实施中,使用广度优先搜索方法来合并子像素碱基检出。
图8a示出了通过合并子像素碱基检出而生成的簇映射图的一个示例。图8b描绘了子像素碱基检出的一个示例。图8b还示出了分析由子像素碱基检出产生的逐子像素碱基检出序列以生成簇映射图的一个具体实施。
测序图像
簇元数据确定涉及分析由测序仪器102(例如,Illumina的iSeq、HiSeqX、HiSeq3000、HiSeq4000、HiSeq2500、NovaSeq6000、NextSeq、NextSeqDx、MiSeq和MiSeqDx)产生的图像数据。根据一个具体实施,以下讨论概述了如何生成图像数据及其所描绘的内容。
碱基检出是其中测序仪器102的原始信号(即,从图像提取的强度数据)被解码成DNA序列和质量得分的过程。在一个具体实施中,Illumina平台采用循环可逆终止(CRT)化学来进行碱基检出。该过程依赖于生长与具有经修饰核苷酸的模板DNA链互补的新生DNA链,同时跟踪每个新添加的核苷酸的发射信号。经修饰核苷酸具有锚定核苷酸类型的荧光团信号的3′可移除块。
测序在重复的循环中进行,每个循环包括三个步骤:(a)通过添加经修饰核苷酸延长新生链;(b)使用光学系统104的一个或多个激光器激发荧光团并且通过光学系统104的不同滤波器成像,从而产生测序图像108;以及(c)裂解荧光团并移除3′块,以为下一个测序循环做准备。重复结合和成像循环直至达到指定数量的测序循环,从而限定所有簇的读取长度。使用该方法,每个循环询问沿着模板链的新位置。
Illumina平台的巨大能力源于其同时执行和感测数百万或甚至数十亿个经历CRT反应的簇的能力。测序过程发生在流通池202中,该流通池为在测序过程中保持输入DNA片段的小载玻片。流通池202连接到高通量光学系统104,该高通量光学系统包括显微镜成像、激发激光器和荧光滤波器。流通池202包括被称为槽道204的多个室。槽道204在物理上彼此分离,并且可包含不同的标记测序文库,这些标记测序文库在无样品交叉污染的情况下可进行区分。成像设备106(例如,固态成像器,诸如电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS)传感器)在沿着槽道204的多个位置处、在一系列非重叠区域(被称为区块206)中拍摄快照。
例如,Illumina基因组分析仪II中的每个槽道有一百个区块,IlluminaHiSeq2000中的每个槽道有六十八个区块。区块206容纳数十万至数百万的簇。在208处示出从具有被示出为亮点的簇的区块生成的图像。簇302包括模板分子的大约一千个相同副本,但簇的尺寸和形状不同。在测序运行之前,通过对输入文库进行桥式扩增,由模板分子生成簇。扩增和簇生长的目的是增加发射信号的强度,因为成像设备106不能可靠地感测单个荧光团。然而,簇302内的DNA片段的物理距离较小,因此成像设备106将片段的簇感知为单个点302。
测序运行的输出是测序图像108,每个测序图像针对槽道、区块、测序循环和荧光团(208A、208C、208T、208G)的特定组合描绘了像素域中的区块上的簇的强度发射。
在一个具体实施中,生物传感器包括光传感器阵列。光传感器被配置为感测来自生物传感器的检测表面上的对应像素区域(例如,反应位点/孔(well)/纳米孔)的信息。设置在像素区域中的分析物据说与像素区域相关联,即为相关联分析物。在测序循环中,对应于像素区域的光传感器被配置为检测/捕获/感测来自相关联分析物的发射/光子,并且作为响应,针对每个成像通道生成像素信号。在一个具体实施中,每个成像通道对应于多个滤波器波长带中的一个滤波器波长带。在另一个具体实施中,每个成像通道对应于测序循环中的多个成像事件中的一个成像事件。在又一个具体实施中,每个成像通道对应于利用特定激光器照明和通过特定光学滤波器成像的组合。
来自光传感器的像素信号被传送到(例如,经由通信端口)耦接到生物传感器的信号处理器。对于每个测序循环和每个成像通道,信号处理器产生图像,该图像的像素分别描绘/包含/指示/表示/表征从对应的光传感器获得的像素信号。这样,图像中的像素对应于:(i)生物传感器的光传感器,该光传感器生成由像素描绘的像素信号,(ii)相关联分析物,该相关联分析物的发射由对应的光传感器检测并被转换成像素信号,以及(iii)生物传感器的检测表面上保持相关联的分析物的像素区域。
例如,考虑测序运行使用两个不同的成像通道(即红色通道和绿色通道)的情况。然后,在每个测序循环中,信号处理器产生红色图像和绿色图像。这样,针对测序运行的一系列k测序循环,产生具有k对红色和绿色图像的序列作为输出。
红色和绿色图像(即,不同的成像通道)中的像素在测序循环内一一对应。这意味着,尽管是在不同的成像通道中,但一对红色和绿色图像中的对应像素也描绘了同一相关联分析物的强度数据。类似地,成对的红色和绿色图像上的像素在测序循环之间一一对应。这意味着,尽管是针对测序运行的不同采集事件/时间步长(测序循环)进行的,但不同对的红色和绿色图像中的对应像素也描绘了同一相关联分析物的强度数据。
红色和绿色图像(即,不同的成像通道)中的对应像素可被视为在第一红色通道和第二绿色通道中表达强度数据的“针对每个循环的图像”的像素。其像素描绘了像素区域(即,生物传感器的检测表面的区域(区块))的子集的像素信号的针对每个循环的图像被称为“针对每个循环的区块图像”。从针对每个循环的区块图像中提取的补片被称为“针对每个循环的图像补片”。在一个具体实施中,补片提取由输入准备器执行。
图像数据包括针对测序运行的一系列k测序循环生成的针对每个循环的图像补片的序列。针对每个循环的图像补片中的像素包含相关联分析物的强度数据,并且由对应的光传感器获得一个或多个成像通道(例如,红色通道和绿色通道)的强度数据,该光传感器被配置为检测来自相关联分析物的发射。在一个具体实施中,当要对单个目标簇进行碱基检出时,针对每个循环的图像补片以包含目标相关联分析物的强度数据的中心像素为中心,并且针对每个循环的图像补片中的非中心像素包含与目标相关分析物相邻的相关联分析物的强度数据。在一个具体实施中,图像数据由输入准备器准备。
子像素碱基检出
所公开的技术访问在测序运行期间生成的一系列图像集。该图像集包括测序图像108。在测序运行的相应测序循环期间捕获该系列图像集中的每个图像集。该系列图像集中的每个图像(或测序图像)捕获流通池的区块上的簇及其周围背景。
在一个具体实施中,测序运行利用四通道化学,并且每个图像集具有四个图像。在另一个具体实施中,测序运行利用双通道化学,并且每个图像集具有两个图像。在又一个具体实施中,测序运行利用单通道化学,并且每个图像集具有两个图像。在其他具体实施中,每个图像集仅具有一个图像。
像素域中的测序图像108首先由子像素寻址器110转换成子像素域以在子像素域中产生测序图像112。在一个具体实施中,将测序图像108中的每个像素划分成十六个子像素502。因此,在一个具体实施中,子像素502为四分之一子像素。在另一个具体实施中,子像素502是二分之一子像素。因此,子像素域中的每个测序图像112具有多个子像素502。
然后将子像素作为输入单独馈送到碱基检出器114,以从碱基检出器114获得将子像素中的每个子像素分类为四种碱基(A、C、T和G)中的一种的碱基检出。这在测序运行的多个测序循环中针对子像素中的每个子像素产生了碱基检出序列116。在一个具体实施中,由碱基检出器114基于其整数坐标或非整数坐标来识别子像素502。通过跨在多个测序循环期间生成的图像集跟踪来自子像素502的发射信号,碱基检出器114恢复每个子像素的底层DNA序列。其示例在图8b中示出。
在其他具体实施中,所公开的技术从碱基检出器114获得将子像素中的每个子像素分类为五种碱基(A、C、T、G和N)中的一种的碱基检出。在此类具体实施中,N碱基检出指示未决定的碱基检出,这通常是由于提取的强度水平较低导致的。
碱基检出器114的一些示例包括基于非神经网络的Illumina产品,诸如RTA(实时分析)、基因组分析仪分析管线的Firecrest程序、IPAR(综合主要分析和报告)机器和OLB(离线碱基检出器)。例如,碱基检出器114通过对子像素的强度进行插值来产生碱基检出序列,强度提取的方式包括:最近邻强度提取、基于高斯的强度提取、基于2×2子像素区域的平均值的强度提取、基于2×2子像素区域中最亮处的强度提取、基于3×3子像素区域的平均值的强度提取、双线性强度提取、双立方强度提取和/或基于加权区域覆盖的强度提取。这些技术在标题为“强度提取方法”的附录中有详细描述。
在其他具体实施中,碱基检出器114可以是基于神经网络的碱基检出器,诸如本文所公开的基于神经网络的碱基检出器1514。
然后将逐子像素碱基检出序列116作为输入馈送至搜索器118。搜索器118搜索邻接子像素的基本上匹配的碱基检出序列。当碱基检出的预先确定部分按位置顺序匹配时,邻接子像素的碱基检出序列是“基本上匹配的”(例如,在45个循环中存在≥41个匹配,在45个循环中存在≤4个错配,在50个循环中存在≤4个错配,或在34个循环中存在≤2个错配)。
然后,搜索器118生成簇映射图802,该簇映射图将簇识别为共享基本上匹配的碱基检出序列的邻接子像素的不相交区域,例如804a-d。本申请可互换地使用“不相交的”和“非重叠的”。搜索涉及对包含簇的部分的子像素进行碱基检出,以允许将所检出的子像素链接到与它们共享基本上匹配的碱基检出序列的邻接子像素。在一些具体实施中,搜索器118要求不相交区域中的至少一些具有预先确定的最小数量的子像素(例如,多于4、6或10个子像素)以作为簇进行处理。
在一些具体实施中,碱基检出器114还识别簇的初始中心坐标。包含初始中心坐标的子像素被称为原点子像素。图6中示出了由碱基检出器114识别的一些示例性初始中心坐标(604a-c)和对应的原点子像素(606a-c)。然而,不需要识别原点子像素(簇的初始中心坐标),如下所述。在一些具体实施中,搜索器118通过以原点子像素606a-c开始并以连续邻接的非原点子像素702a-c继续,将广度优先搜索用于识别子像素的基本上匹配的碱基检出序列。这同样是任选的,如下所述。
簇映射图
图8a示出了通过合并子像素碱基检出生成的簇映射图802的一个示例。簇映射图识别多个不相交区域(在图8a中以各种颜色描绘)。每个不相交区域包括一组非重叠的邻接子像素,其表示区块上的相应簇(经由子像素碱基检出根据其测序图像和针对其生成簇映射图)。不相交区域之间的区域表示区块上的背景。背景区域中的子像素被称为“背景子像素”。不相交区域中的子像素被称为“簇子像素”或“簇内部子像素”。在该讨论中,原点子像素是由RTA或另一个碱基检出器确定的初始中心簇坐标所位于的那些子像素。
原点子像素包含初始中心簇坐标。这意味着由原点子像素覆盖的区域包括与初始中心簇坐标位置重合的坐标位置。由于簇映射图802是逻辑子像素的图像,因此原点子像素是簇映射图中的一些子像素。
搜索以识别具有子像素的基本上匹配的碱基检出序列的簇不需要从识别原点子像素(簇的初始中心坐标)开始,因为搜索可对所有子像素进行并且可从任何子像素(例如,0,0子像素或任何随机子像素)开始。因此,由于评估每个子像素是为了确定其是否与另一个邻接子像素共享基本上匹配的碱基检出序列,因此搜索不依赖于原点子像素;搜索可以任何子像素开始。
无论是否使用原点子像素,都识别不包含由碱基检出器114预测的原点子像素(簇的初始中心坐标)的某些簇。通过合并子像素碱基检出识别的并且不包含原点子像素的簇的一些示例是图8a中的簇812a、812b、812c、812d和812e。因此,所公开的技术识别尚未被碱基检出器114识别出中心的另外的或额外的簇。因此,使用碱基检出器114来识别原点子像素(簇的初始中心坐标)是可选的,并且对于邻接子像素的搜索基本上匹配的碱基检出序列不是必需的。
在一个具体实施中,首先,将由碱基检出器114识别的原点子像素(簇的初始中心坐标)用于(通过识别邻接子像素的基本上匹配的碱基检出序列)识别第一组簇。然后,将不是该第一组簇的一部分的子像素用于(通过识别邻接子像素的基本匹配的碱基检出序列)识别第二组簇。这允许所公开的技术识别尚未被碱基检出器114识别出中心的另外的或额外的簇。最后,将不是该第一组簇和该第二组簇的一部分的子像素识别为背景子像素。
图8b描绘了子像素碱基检出的一个示例。在图8b中,每个测序循环具有带有使用四个不同波长带(图像/成像通道)和四种不同荧光染料(每种碱基一种)捕获的四个不同图像(即,A、C、T、G图像)的图像集。
在该示例中,图像中的像素被划分成十六个子像素。然后,在每个测序循环中由碱基检出器114对子像素进行独立地碱基检出。为了在特定测序循环中对给定子像素进行碱基检出,碱基检出器114使用A、C、T、G图像中的每一者中的给定子像素的强度。例如,由循环1的A、C、T、G图像中的每一者中的子像素1覆盖的图像区域中的强度用于在循环1中对子像素1进行碱基检出。对于子像素1,这些图像区域包括循环1的A、C、T、G图像中的每一者中的相应左上像素的左上十六分之一的区域。类似地,由循环n的A、C、T、G图像中的每一者中的子像素m覆盖的图像区域中的强度用于在循环n中对子像m进行碱基检出。对于子像素m,这些图像区域包括循环1的A、C、T、G图像中的每一者中的相应右下像素的右下十六分之一的区域。
该过程跨多个测序循环产生逐子像素碱基检出序列116。然后,搜索器118评估成对的邻接子像素以确定它们是否具有基本上匹配的碱基检出序列。如果是,则将该对子像素存储在簇映射图802中,作为属于不相交区域中的同一簇的部分。如果否,则将该对子像素存储在簇映射图802中,作为不属于相同的不相交区域的部分。因此,簇映射图802识别邻接子像素组,对于该邻接子像素组,针对子像素的碱基检出跨多个循环基本上匹配。簇映射图802因此使用来自多个循环的信息来提供具有高置信度的多个簇,其中该多个簇中的每个簇提供单个DNA链的序列数据。
然后,簇元数据生成器122处理簇映射图802以确定簇元数据,包括基于不相交区域来确定簇的空间分布,并且确定簇的中心(810a)、形状、尺寸、背景和/或边界(图9)。
在一些具体实施中,簇元数据生成器122将簇映射图802中不属于不相交区域中的任一个不相交区域的并因此不对任何簇做出贡献的那些子像素识别为背景。此类子像素被称为背景子像素806a-c。
在一些具体实施中,簇映射图802识别其碱基检出序列基本上不匹配的两个邻接子像素之间的簇边界部分808a-c。
将簇映射图存储在存储器(例如,簇映射图数据存储装置120)中,以用作用于训练分类器诸如基于神经网络的模板生成器1512和基于神经网络的碱基检出器1514的基准真值。簇元数据还可存储在存储器(例如,簇元数据存储装置124)中。
图9示出了识别簇元数据的簇映射图的另一个示例,该簇元数据包括簇的空间分布,以及簇中心、簇形状、簇尺寸、簇背景和/或簇边界。
质心(COM)
图10示出了如何计算簇映射图中的不相交区域的质心(COM)。COM可用作下游处理中的对应簇的“修改”或“改进”中心。
在一些具体实施中,质心生成器1004通过将簇映射图的不相交区域的质心计算为形成不相交区域的相应邻接子像素的坐标的平均值来逐簇地确定簇的超定位中心坐标1006。然后该质心生成器将簇的超定位中心坐标逐簇地存储在存储器中,以用作用于训练分类器的基准真值。
在一些具体实施中,子像素分类器在簇的超定位中心坐标1006处逐簇地识别簇映射图802的不相交区域804a-d中的质心子像素1008。
在其他具体实施中,使用插值法对簇映射图进行上采样。将上采样的簇映射图存储在存储器中,以用作用于训练分类器的基准真值。
衰减因子和衰减映射图
图11描绘了基于子像素距该子像素所属的不相交区域的质心(COM)的欧几里德距离来计算子像素的加权衰减因子的一个具体实施。在所示具体实施中,加权衰减因子向包含COM的子像素提供最高值,并且距离COM越远的子像素所得的值越小。加权衰减因子用于从根据上文所述的子像素碱基检出生成的簇映射图导出基准真值衰减映射图1204。基准真值衰减映射图1204包含单元阵列并向阵列中的每个单元分配至少一个输出值。在一些具体实施中,单元为子像素,并且基于加权衰减因子向每个子像素分配输出值。然后将基准真值衰减映射图1204用作用于训练所公开的基于神经网络的模板生成器1512的基准真值。在一些具体实施中,来自基准真值衰减映射图1204的信息还用于为所公开的基于神经网络的碱基检出器1514准备输入。
图12示出了从由如上所述的子像素碱基检出产生的示例性簇映射图导出的示例性基准真值衰减映射图1204的一个具体实施。在一些具体实施中,在上采样的簇映射图中,基于衰减因子1102逐簇地将值分配给不相交区域中的每个邻接子像素,该衰减因子与邻接子像素距该邻接子像素所属的不相交区域中的质心子像素1104的距离1106成比例。
图12描绘了基准真值衰减映射图1204。在一个具体实施中,子像素值是在归一化在零和一之间的强度值。在另一个具体实施中,在上采样的簇映射图中,将相同的预先确定值分配给被识别为背景的所有子像素。在一些具体实施中,预先确定值为零强度值。
在一些具体实施中,基准真值衰减映射图1204由基准真值衰减映射图生成器1202根据上采样的簇映射图生成,该基准真值衰减映射图基于该邻接子像素的分配值来表达不相交区域中的邻接子像素和被识别为背景的子像素。将基准真值衰减映射图1204存储在存储器中,以用作用于训练分类器的基准真值。在一个具体实施中,基准真值衰减映射图1204中的每个子像素具有归一化在零和一之间的值。
三元(三类)映射图
图13示出了从簇映射图导出基准真值三元映射图1304的一个具体实施。基准真值三元映射图1304包含单元阵列并向阵列中的每个单元分配至少一个输出值。顾名思义,基准真值三元映射图1304的三元映射图具体实施将三个输出值分配给阵列中的每个单元,使得对于每个单元,第一输出值对应于背景类的分类标记或分数,第二输出值对应于簇中心类的分类标记或分数,并且第三输出值对应于簇/簇内部类的分类标记或分数。基准真值三元映射图1304被用作用于训练基于神经网络的模板生成器1512的基准真值数据。在一些具体实施中,来自基准真值三元映射图1304的信息还用于为基于神经网络的碱基检出器1514准备输入。
图13描绘了示例性基准真值三元映射图1304。在另一个具体实施中,在上采样簇映射图中,基准真值三元映射图生成器1302将不相交区域中的邻接子像素逐簇地分类为属于同一簇的簇内部子像素、将质心子像素分类为簇中心子像素,并且将不属于任何簇的子像素分类为背景子像素。在一些具体实施中,将分类存储在基准真值三元映射图1304中。将这些分类和基准真值三元映射图1304存储在存储器中,以用作用于训练分类器的基准真值。
在其他具体实施中,将簇内部子像素、簇中心子像素和背景子像素的坐标逐簇地存储在存储器中,以用作用于训练分类器的基准真值。然后,以用于对簇映射图进行上采样的因子缩小坐标。然后,将缩小的坐标逐簇地存储在存储器中,以用作用于训练分类器的基准真值。
在其他具体实施中,基准真值三元映射图生成器1302使用簇映射图根据上采样的簇映射图来生成三元基准真值数据1304。三元基准真值数据1304将背景子像素标记为属于背景类,将簇中心子像素标记为属于簇中心类,并且将簇内部子像素标记为属于簇内部类。在一些可视化具体实施中,颜色编码可用于描绘和区分不同的类标记。将三元基准真值数据1304存储在存储器中,以用作用于训练分类器的基准真值。
二元(二类)映射图
图14示出了从簇映射图导出基准真值二元映射图1404的一个具体实施。二元映射图1404包含单元阵列并向阵列中的每个单元分配至少一个输出值。顾名思义,二元映射图将两个输出值分配给阵列中的每个单元,使得对于每个单元,第一输出值对应于簇中心类的分类标记或分数,并且第二输出值对应于非中心类的分类标记或分数。二元映射图用作用于训练基于神经网络的模板生成器1512的基准真值数据。在一些具体实施中,来自二元映射图的信息还用于为基于神经网络的碱基检出器1514准备输入。
图14描绘了基准真值二元映射图1404。基准真值二元映射图生成器1402使用簇映射图120根据上采样的簇映射图来生成二元基准真值数据1404。二元基准真值数据1404将簇中心子像素标记为属于簇中心类,并且将所有其他子像素标记为属于非中心类。将二元基准真值数据1404存储在存储器中,以用作用于训练分类器的基准真值。
在一些具体实施中,所公开的技术针对流通池的多个区块生成簇映射图120,将这些簇映射图存储在存储器中,并且基于这些簇映射图120来确定区块中簇的空间分布,并且确定这些簇的形状和尺寸。然后,在区块中的簇的上采样的簇映射图120中,所公开的技术逐簇地将子像素分类为属于同一簇的簇内部子像素、簇中心子像素和背景子像素。然后,所公开的技术将分类存储在存储器中以用作用于训练分类器的基准真值,并且跨区块地逐簇地将簇内部子像素、簇中心子像素和背景子像素的坐标存储在存储器中,以用作用于训练分类器的基准真值。此外,所公开的技术将坐标缩小用于对簇映射图进行上采样的因子,并且跨区块地逐簇地将缩小的坐标存储在存储器中,以用作用于训练分类器的基准真值。
在一些具体实施中,流通池具有至少一个图案化表面,该图案化表面具有占用簇的孔的阵列。在此类具体实施中,所公开的技术基于所确定的簇的形状和尺寸来确定:(1)孔中的哪些孔基本上被至少一个簇占用,(2)孔中的哪些孔被最低限度地占用,以及(3)孔中的哪些孔被多个簇共同占用。这允许确定共同占用相同孔的多个簇的相应元数据,即共享相同孔的两个或更多个簇的中心、形状和尺寸。
在一些具体实施中,其上样品被扩增成簇的固体载体包括图案化表面。“图案化表面”是指在固体载体的暴露层中或该暴露层上的不同区域的布置。例如,这些区域中的一个或多个区域可以是存在一种或多种扩增引物的特征部。特征部可由不存在扩增引物的间隙区域隔开。在一些具体实施中,图案可为呈行和列形式的特征部的x-y格式。在一些具体实施中,图案可为特征部和/或间隙区域的重复布置。在一些具体实施中,图案可为特征部和/或间隙区域的随机布置。可用于本文所述的方法和组合物中的示例性图案化表面描述于美国专利No.8,778,849、美国专利No.9,079,148、美国专利No.8,778,848和美国专利公布No.2014/0243224中,这些专利中的每一篇均以引用方式并入本文。
在一些具体实施中,固体载体在表面中包括孔或凹陷的阵列。这可如本领域通常已知的那样使用多种技术来制造,这些技术包括但不限于光刻、压印技术、模制技术和微蚀刻技术。本领域的技术人员将会知道,所使用的技术将取决于阵列基板的组成和形状。
图案化表面中的特征部可以是玻璃、硅、塑料或其他合适的具有图案化的且共价连接的凝胶(诸如,聚(N-(5-叠氮基乙酰胺基戊基)丙烯酰胺-共-丙烯酰胺)(PAZAM,参见例如,美国专利公布No.2013/184796、WO 2016/066586和WO 2015-002813,这些专利中的每一篇均全文以引用方式并入本文))的固体载体上的孔阵列中的孔(例如,微孔或纳米孔)。该方法产生用于测序的凝胶垫,该凝胶垫在具有大量循环的测序运行中可为稳定的。聚合物与孔的共价连接有助于在多种用途期间以及在结构化基板的整个寿命期间将凝胶保持为结构化特征。然而,在许多具体实施中,凝胶无需共价连接到孔。例如,在一些条件下,未共价附接到结构化基板的任何部分的不含硅烷的丙烯酰胺(SFA,参见例如,美国专利No.8,563,477,其全文以引用方式并入本文)可用作凝胶材料。
在特定具体实施中,结构化基板可通过以下方法来制作:将固体载体材料图案化为具有孔(例如,微孔或纳米孔),用凝胶材料(例如,PAZAM、SFA或其化学改性的变体,诸如SFA的叠氮化版本(叠氮-SFA))涂覆图案化载体,并且例如通过化学或机械抛光来抛光已涂覆凝胶的载体,从而将凝胶保持孔中,而从孔之间的结构化基板的表面上的间隙区域移除基本上所有凝胶或使该基本上所有凝胶失活。引物核酸可附着到凝胶材料。然后可使靶核酸(例如,片段化的人基因组)的溶液与已抛光的基板接触,使得单个靶核酸将通过与附着到凝胶材料的引物的相互作用接种到单个孔中;然而,由于不存在凝胶材料或该凝胶材料失活,靶核酸将不占用间隙区域。靶核酸的扩增将被限制在孔中,因为间隙区域中不存在凝胶或凝胶失活会阻止生长的核酸群体(nucleic acid colony)的向外迁移。该过程可为制造方便地且具有可扩展性的,并且利用微米或纳米制造方法。
如本文所用,术语“流通池”是指包括固体表面的室,一种或多种流体试剂可流过该固体表面。可容易地用于本公开的方法中的流通池以及相关流体系统和检测平台的示例描述于例如以下中:Bentley等人,Nature,456:53-59(2008年);WO 04/018497、US 7,057,026、WO 91/06678、WO 07/123744、US 7,329,492、US 7,211,414、US 7,315,019、US 7,405,281和US 2008/0108082,上述中的每一篇均以引用方式并入本文。
在整个本公开中,当提及扩增引物时,使用术语“P5”和“P7”。应当理解,任何合适的扩增引物都可用于本文所呈现的方法中,并且P5和P7的使用仅为示例性具体实施。在流通池上使用扩增引物诸如P5和P7是本领域已知的,如WO 2007/010251、WO 2006/064199、WO2005/065814、WO 2015/106941、WO 1998/044151和WO 2000/018957的公开内容所例示,上述中的每一篇均以引用方式全文并入本文。例如,任何合适的正向扩增引物,无论是固定化的还是处于溶液状态的,都可用于本文所呈现的方法中,以用于与互补序列杂交和扩增序列。类似地,任何合适的反向扩增引物,无论是固定化的还是处于溶液状态的,都可用于本文所呈现的方法中,以用于与互补序列杂交和扩增序列。本领域的技术人员将理解如何设计和使用适用于捕获和扩增本文所呈现的核酸的引物序列。
在一些具体实施中,流通池具有至少一个非图案化表面,并且簇不均匀地分散在非图案化表面上。
在一些具体实施中,簇的密度在约100,000簇/mm2至约1,000,000簇/mm2的范围内。在其他具体实施中,簇的密度在约1,000,000簇/mm2至约10,000,000簇/mm2的范围内。
在一个具体实施中,由碱基检出器确定的簇的初始中心坐标限定在区块的模板图像中。在一些具体实施中,像素分辨率、图像坐标系和图像坐标系的测量标度对于模板图像和图像都是相同的。
在另一个具体实施中,所公开的技术涉及确定关于流通池的区块上的簇的元数据。首先,所公开的技术访问(1)在测序运行期间捕获的区块的图像集和(2)由碱基检出器确定的簇的初始中心坐标。
然后,针对每个图像集,所公开的技术获得碱基检出,该碱基检出将以下各项分类为四种碱基中的一种碱基:(1)包含初始中心坐标的原点子像素,以及(2)邻接子像素的预先确定的邻域,这些邻接子像素与原点子像素中的相应原点子像素连续邻接。这针对原点子像素中的每个原点子像素和邻接子像素的预先确定的邻域中的每个预先确定的邻域产生碱基检出序列。邻接子像素的预先确定的邻域可为以包含原点子像素的子像素为中心的m×n的子像素补片。在一个具体实施中,子像素补片为3×3的子像素。在其他具体实施中,图像补片可具有任何尺寸,诸如5×5、15×15、20×20等。在其他具体实施中,邻接子像素的预先确定的邻域可为以包含原点子像素的子像素为中心的n连接子像素邻域。
在一个具体实施中,所公开的技术将簇映射图中不属于不相交区域中的任一个不相交区域的那些子像素识别为背景。
然后,所公开的技术生成簇映射图,该簇映射图将簇识别为邻接子像素的不相交区域,这些邻接子像素:(a)与原点子像素中的相应原点子像素中的至少一些连续邻接,并且(b)与原点子像素中的相应原点子像素的中至少一些共享四种碱基中的一种的基本上匹配的碱基检出序列。
然后,所公开的技术将簇映射图存储在存储器中,并且基于簇映射图中的不相交区域来确定簇的形状和尺寸。在其他具体实施中,还确定簇的中心。
为模板生成器生成训练数据
图15是示出生成训练数据的一种具体实施的框图,该训练数据用于训练基于神经网络的模板生成器1512和基于神经网络的碱基检出器1514。
图16示出了用于训练基于神经网络的模板生成器1512和基于神经网络的碱基检出器1514的所公开的训练示例的特征。每个训练示例对应于区块,并且用对应的基准真值数据表示来标记。在一些具体实施中,基准真值数据表示为基准真值掩膜或基准真值映射图,其以基准真值衰减映射图1204、基准真值三元映射图1304或基准真值二元映射图1404的形式识别基准真值簇元数据。在一些具体实施中,多个训练示例对应于同一区块。
在一个具体实施中,所公开的技术涉及生成用于基于神经网络的模板生成和碱基检出的训练数据1504。首先,所公开的技术访问在测序运行的多个循环内捕获的流通池202的多个图像108。流通池202具有多个区块。在多个图像108中,区块中的每个区块具有在多个循环内生成的图像集的序列。图像集108的序列中的每个图像描绘了簇302及其周围背景304在特定循环中在区块中的特定区块上的强度发射。
然后,训练集构造器1502构造具有多个训练示例的训练集1504。如图16所示,每个训练示例对应于区块中的特定区块,并且包括来自区块中的特定区块的图像集1602的序列中的至少一些图像集的图像数据。在一个具体实施中,图像数据包括区块中的特定区块的图像集1602的序列中的至少一些图像集中的图像。例如,图像可具有1800×1800的分辨率。在其他具体实施中,图像可具有任何分辨率,诸如100×100、3000×3000、10000×10000等。在其他具体实施中,图像数据包括来自每个图像的至少一个图像补片。在一个具体实施中,图像补片覆盖区块中的特定区块的一部分。在一个示例中,图像补片可具有20×20的分辨率。在其他具体实施中,图像补片可具有任何分辨率,诸如50×50、70×70、90×90、100×100、3000×3000、10000×10000等。
在一些具体实施中,图像数据包括图像补片的上采样表示。上采样表示可具有例如80×80的分辨率。在其他具体实施中,上采样表示可具有任何分辨率,诸如50×50、70×70、90×90、100×100、3000×3000、10000×10000等。
在一些具体实施中,多个训练示例对应于区块中的同一特定区块,并且分别包括来自区块中的同一特定区块的图像集1602的序列中的至少一些图像集中的每个图像集中的每个图像的不同图像补片作为图像数据。在此类具体实施中,不同图像补片中的至少一些彼此重叠。
然后,基准真值生成器1506针对训练示例中的每个训练示例生成至少一个基准真值数据表示。基准真值数据表示识别区块中的特定区块上的簇的空间分布及其周围背景中的至少一者,并且识别簇形状、簇尺寸和/或簇边界和/或簇中心中的至少一者,这些簇的强度发射由图像数据描绘。
在一个具体实施中,基准真值数据表示将簇识别为邻接子像素的不相交区域,将簇的中心识别为不相交区域中的相应不相交区域内的质心子像素,并且将其周围背景识别为不属于不相交区域中的任一个不相交区域的子像素。
在一个具体实施中,基准真值数据表示具有80×80的上采样分辨率。在其他具体实施中,基准真值数据表示可具有任何分辨率,诸如50×50、70×70、90×90、100×100、3000×3000、10000×10000等。
在一个具体实施中,基准真值数据表示将每个子像素识别为簇中心或非中心。在另一个具体实施中,基准真值数据表示将每个子像素识别为簇内部、簇中心或周围背景。
在一些具体实施中,所公开的技术在存储器中存储训练集1504中的训练示例和相关联的基准真值数据1508作为用于训练基于神经网络的模板生成器1512和基于神经网络的碱基检出器1514的训练数据1504。训练由训练器1510操作。
在一些具体实施中,所公开的技术针对多种流通池、测序仪器、测序方案、测序化学、测序试剂和簇密度生成训练数据。
基于神经网络的模板生成器
在推断或生产具体实施中,所公开的技术使用峰值检测和分割来确定簇元数据。所公开的技术通过神经网络1706处理从一系列图像集1602导出的输入图像数据1702,以生成输入图像数据1702的另选表示1708。例如,图像集可用于特定的测序循环并且包括四个图像(A、C、T和G图像),每个成像通道对应一个图像。然后,对于具有五十个测序循环的测序运行,将存在五十个此类图像集,即总共200个图像。当暂时布置时,其中每个图像集具有四个图像的五十个图像集将形成一系列图像集1602。在一些具体实施中,从五十个图像集中的每个图像中提取具有特定尺寸的图像补片,从而形成其中每个图像补片集具有四个图像补片的五十个图像补片集,并且在一个具体实施中,这是输入图像数据1702。在其他具体实施中,输入图像数据1702包括其中每个图像补片集具有四个图像补片的图像补片集,这些图像补片集用于少于五十个测序循环,即,仅一个、两个、三个、十五个、二十个测序循环。
图17示出了通过基于神经网络的模板生成器1512处理输入图像数据1702并为阵列中的每个单元生成输出值的一个具体实施。在一个具体实施中,阵列是衰减映射图1716。在另一个具体实施中,阵列是三元映射图1718。在又一个具体实施中,阵列是二元映射图1720。因此,阵列可表示在输入图像数据1702中表示的多个位置中的每个位置的一个或多个属性。
不同于使用先前图中的结构训练模板生成器,基准真值衰减映射图1204、基准真值三元映射图1304和基准真值二元映射图1404、衰减映射图1716、三元映射图1718和/或二元映射图1720是通过经训练的基于神经网络的模板生成器1512的前向传播生成的。前向传播可在训练期间或在推断期间进行。在训练期间,由于基于后向传播的梯度更新,衰减映射图1716、三元映射图1718和二元映射图1720(即,累积地为输出1714)分别逐渐匹配或接近基准真值衰减映射图1204、基准真值三元映射图1304和基准真值二元映射图1404。
根据一个具体实施,在推断期间所分析的图像阵列的尺寸取决于输入图像数据1702的尺寸(例如,相同或放大或缩小版本的尺寸)。每个单元可表示像素、子像素或超像素。阵列的逐单元输出值可表征/表示/指示衰减映射图1716、三元映射图1718或二元映射图1720。在一些具体实施中,输入图像数据1702也是处于像素、子像素或超像素分辨率的单元阵列。在此类具体实施中,基于神经网络的模板生成器1512使用语义分割技术来为输入阵列中的每个单元产生输出值。关于输入图像数据1702的其他详细信息可见于图21b、图22、图23和图24以及关于这些图的讨论。
在一些具体实施中,基于神经网络的模板生成器1512是全卷积网络,诸如J.Long、E.Shelhamer和T.Darrell在CVPR中的“Fully convolutional networks for semanticsegmentation”(2015年)中所述的全卷积网络,该文献以引用方式并入本文。在其他具体实施中,基于神经网络的模板生成器1512是在解码器和编码器之间具有跳跃连接的U-Net网络,诸如Ronneberger O、Fischer P、Brox T.在Med.Image Comput.Comput.Assist.Interv中的“U-net:Convolutional networks for biomedical image segmentation”(2015年)(该文献从http://link.springer.com/chapter/10.1007/978-3-319-24574-4_28获得)中所述的U-Net网络,该文献以引用方式并入本文。U-Net架构类似于具有以下两个主子结构的自动编码器:1)编码器,该编码器获取输入图像并通过多个卷积层降低其空间分辨率以创建表示编码。2)解码器,该解码器获取表示编码并将空间分辨率增加回去以产生重构图像作为输出。U-Net向该架构引入了两个创新:第一,设置目标函数以使用损失函数重构分割掩膜;第二,使用跳跃连接将编码器的卷积层连接到解码器中具有相同分辨率的对应层。在另外的具体实施中,基于神经网络的模板生成器1512是具有编码器子网络和对应解码器网络的深度全卷积分割神经网络。在此类具体实施中,编码器子网络包括编码器分级结构,并且解码器子网络包括将低分辨率编码器特征映射图映射到全输入分辨率特征映射图的解码器分级结构。关于分割网络的其他详细信息可见于标题为“分割网络”的附录。
在一个具体实施中,基于神经网络的模板生成器1512是卷积神经网络。在另一个具体实施中,基于神经网络的模板生成器1512是递归神经网络。在又一个具体实施中,基于神经网络的模板生成器1512是具有残差块和残差连接的残差神经网络。在另一个具体实施中,基于神经网络的模板生成器1512是卷积神经网络和递归神经网络的组合。
本领域的技术人员将理解,基于神经网络的模板生成器1512(即,神经网络1706和/或输出层1710)可使用各种填充和步幅配置。其可使用不同的输出函数(例如,分类或回归),并且可包括或可不包括一个或多个全连接层。其可使用1D卷积、2D卷积、3D卷积、4D卷积、5D卷积、扩张或空洞卷积、转置卷积、深度可分离卷积、逐点卷积、1×1卷积、分组卷积、扁平卷积、空间和跨通道卷积、混洗分组卷积、空间可分离卷积和去卷积。其可使用一种或多种损失函数,诸如逻辑回归/对数损失函数、多类交叉熵/softmax损失函数、二元交叉熵损失函数、均方误差损失函数、L1损失函数、L2损失函数、平滑L1损失函数和Huber损失函数。其可以使用任何并行性、效率性和压缩方案,诸如TFRecords、压缩编码(例如,PNG)、锐化、映射图转换的并行检出、批处理、预取、模型并行性、数据并行性和同步/异步SGD。其可包括上采样层、下采样层、递归连接、栅极和栅极存储器单元(如LSTM或GRU)、残差块、残差连接、高速连接、跳跃连接、窥视孔连接、激活函数(例如,非线性变换函数如修正线性单元(ReLU)、泄露ReLU、指数衬里单元(ELU)、sigmoid和双曲线正切(tanh))、批量归一化层、正则化层、丢弃层、池化层(例如,最大或平均池化)、全局平均池化层和注意力机制。
在一些具体实施中,图像集1602的序列中的每个图像覆盖区块,并且描绘了区块上的簇及其周围背景的在流通池上执行的测序运行的多个测序循环中的特定测序循环中针对特定成像通道捕获的强度发射。在一个具体实施中,输入图像数据1702包括来自图像集1602的序列中的图像中的每个图像的至少一个图像补片。在此类具体实施中,图像补片覆盖区块的一部分。在一个示例中,图像补片具有20×20的分辨率。在其他情况下,图像补片的分辨率可在20×20至10000×10000的范围内。在另一个具体实施中,输入图像数据1702包括来自图像集1602序列中的图像中的每个图像的图像补片的上采样子像素分辨率表示。在一个示例中,上采样子像素表示具有80×80的分辨率。在其他情况下,上采样子像素表示的分辨率可在80×80至10000×10000的范围内。
输入图像数据1702具有描绘簇及其周围背景的单元阵列1704。例如,图像集可用于特定的测序循环并且包括四个图像(A、C、T和G图像),每个成像通道对应一个图像。然后,对于具有五十个测序循环的测序运行,将存在五十个此类图像集,即总共200个图像。当暂时布置时,其中每个图像集具有四个图像的五十个图像集将形成一系列图像集1602。在一些具体实施中,从五十个图像集中的每个图像中提取具有特定尺寸的图像补片,从而形成其中每个图像补片集具有四个图像补片的五十个图像补片集,并且在一个具体实施中,这是输入图像数据1702。在其他具体实施中,输入图像数据1702包括其中每个图像补片集具有四个图像补片的图像补片集,这些图像补片集用于少于五十个测序循环,即,仅一个、两个、三个、十五个、二十个测序循环。另选表示是特征映射图。当神经网络是卷积神经网络时,特征映射图可以是卷积特征或卷积表示。当神经网络是递归神经网络时,特征映射图可以是隐藏状态特征或隐藏状态表示。
然后,所公开的技术通过输出层1710处理另选表示1708以生成输出1714,该输出具有针对阵列1704中的每个单元的输出值1712。输出层可以是产生逐单元输出值的分类层,诸如softmax或sigmoid。在一个具体实施中,输出层是ReLU层或产生逐单元输出值的任何其他激活函数层。
在一个具体实施中,输入图像数据1702中的单元为像素,因此在输出1714中产生逐像素输出值1712。在另一个具体实施中,输入图像数据1702中的单元为子像素,因此在输出1714中产生逐子像素输出值1712。在又一个具体实施中,输入图像数据1702中的单元为超像素,因此在输出1714中产生逐超像素输出值1712。
从衰减映射图、三元映射图和/或二元映射图导出簇元数据
图18示出了后处理技术的一个具体实施,该后处理技术应用于由基于神经网络的模板生成器1512产生的衰减映射图1716、三元映射图1718或二元映射图1720以导出簇元数据,包括簇中心、簇形状、簇尺寸、簇背景和/或簇边界。在一些具体实施中,后处理技术由后处理器1814应用,该后处理器还包括阈值器1802、峰值定位器1806和分割器1810。
阈值器1802的输入是由模板生成器1512(诸如,所公开的基于神经网络的模板生成器)产生的衰减映射图1716、三元映射图1718或二元映射图1720。在一个具体实施中,阈值器1802对衰减映射图、三元映射图或二元映射图中的值应用阈值化以识别背景单元1804(即,表征非簇背景的子像素)和非背景单元。换句话讲,一旦产生输出1714,阈值器1802就将单元1712的输出值阈值化,并且将单元1712的第一子集分类为或者可将其重新分类为“背景单元”1804和“非背景单元”,该背景单元描绘簇的周围背景,“非背景单元”描绘可能属于簇的单元。可预设由阈值器1802施加的阈值。
峰值定位器1806的输入也是由基于神经网络的模板生成器1512产生的衰减映射图1716、三元映射图1718或二元映射图1720。在一个具体实施中,峰值定位器1806对衰减映射图1716、三元映射图1718或二元映射图1720中的值应用峰值检测以识别中心单元1808(即,表征簇中心的中心子像素)。换句话讲,峰值定位器1806处理输出1714中的单元1712的输出值,并且将单元1712的第二子集分类为包含簇中心的“中心单元”1808。在一些具体实施中,由峰值定位器1806检测到的簇中心也是簇质心。然后将中心单元1808提供给分割器1810。关于峰值定位器1806的其他详细信息可见于标题为“峰值检测”的附录。
阈值化和峰值检测可并行进行或相继进行。即,它们彼此独立。
分割器1810的输入也是由基于神经网络的模板生成器1512产生的衰减映射图1716、三元映射图1718或二元映射图1720。分割器1810的附加补充输入包括由阈值器1802识别的阈值单元(背景、非背景单元)1804,以及由峰值定位器1806识别的中心单元1808。分割器1810使用背景、非背景单元1804和中心单元1808来识别不相交区域1812(即,非重叠的邻接簇/表征簇的簇内部子像素组)。换句话讲,分割器1810处理输出1714中的单元1712的输出值,并且使用背景、非背景单元1804和中心单元1808来将簇的形状1812确定为由背景单元1804分开并以中心单元1808为中心的邻接单元的非重叠区域。分割器1810的输出是簇元数据1812。簇元数据1812识别簇中心、簇形状、簇尺寸、簇背景和/或簇边界。
在一个具体实施中,分割器1810从中心单元1808开始,并且为每个中心单元确定一组连续邻接的单元,该组连续邻接的单元描绘了其质心包含在中心单元中的同一簇。在一个具体实施中,分割器1810使用所谓的“分水岭”分割技术来将邻接簇细分成处于山谷强度的多个相邻簇。关于分水岭分割技术和其他分割技术的其他详细信息可见于标题为“分水岭分割”的附录。
在一个具体实施中,输出1714中的单元1712的输出值是连续值,诸如在基准真值衰减映射图1204中编码的值。在另一个具体实施中,输出值是softmax分数,诸如在基准真值三元映射图1304和基准真值二元映射图1404中编码的分数。在基准真值衰减映射图1204中,根据一个具体实施,非重叠区域中的相应非重叠区域中的邻接单元具有根据邻接单元距该邻接单元所属的非重叠区域中的中心单元的距离而加权的输出值。在这种具体实施中,中心单元在非重叠区域中的相应非重叠区域内具有最高输出值。如上所述,在训练期间,由于基于后向传播的梯度更新,衰减映射图1716、三元映射图1718和二元映射图1720(即,累积地为输出1714)分别逐渐匹配或接近基准真值衰减映射图1204、基准真值三元映射图1304和基准真值二元映射图1404。
像素域-对不规则簇形状的强度提取
现在讨论由所公开的技术确定的簇形状可如何用于提取簇的强度。由于簇通常具有不规则形状和轮廓,因此所公开的技术可用于识别哪些子像素对表示簇形状的不规则形状的不相交/非重叠区域做出了贡献。
图19描绘了提取像素域中的簇强度的一个具体实施。“模板图像”或“模板”可指包含或识别从衰减映射图1716、三元映射图1718和/或二元映射图1718导出的簇元数据1812的数据结构。簇元数据1812识别簇中心、簇形状、簇尺寸、簇背景和/或簇边界。
在一些具体实施中,模板图像在上采样的子像素域中,以区分处于细粒度级别的簇边界。然而,包含簇和背景强度数据的测序图像108通常在像素域中。因此,所公开的技术提出了两种方法来将在处于上采样的子像素分辨率的模板图像中编码的簇形状信息用于从光学像素分辨率测序图像中提取不规则形状簇的强度。在第一种方法中,如图19所描绘的,模板图像中识别的非重叠的邻接子像素组位于像素分辨率测序图像中,并且这些非重叠的邻接子像素组的强度通过插值法进行提取。关于该强度提取技术的其他详细信息可见于图33以及关于该图的讨论。
在一个具体实施中,当非重叠区域具有不规则轮廓并且单元为子像素时,给定簇的簇强度1912由强度提取器1902按照如下方式进行确定。
首先,子像素定位器1904基于识别给定簇的形状的邻接子像素的对应非重叠区域来识别对给定簇的簇强度做出贡献的子像素。
然后,子像素定位器1904将所识别的子像素定位在一个或多个光学像素分辨率图像1918中,该一个或多个光学像素分辨率图像是在当前测序循环中针对一个或多个成像通道生成的。在一个具体实施中,在基于与用于创建子像素域的上采样因子匹配的缩小因子进行了缩小之后,整数或非整数坐标(例如,浮点)位于光学像素分辨率图像中。
然后,插值器和子像素强度组合器1906进行以下操作:对经处理图像中识别的子像素的强度进行插值,组合插值强度并且归一化组合的插值强度,以针对图像中的每个图像中的给定簇产生每个图像簇强度。归一化由归一化器1908执行并且基于归一化因子。在一个具体实施中,归一化因子为所识别的子像素的数量。这样做是为了归一化/考虑不同簇尺寸以及簇接收的不均匀照明(这取决于其在流通池中的位置)。
最后,跨通道子像素强度累加器1910组合针对图像中的每个图像的每个图像簇强度,以确定当前测序循环中给定簇的簇强度1912。
然后,通过本申请中讨论的碱基检出器中的任一个碱基检出器基于当前测序循环中的簇强度1912对给定簇进行碱基检出,从而产生碱基检出1916。
然而,在一些具体实施中,当簇尺寸足够大时,基于神经网络的碱基检出器1514的输出(即,衰减映射图1716、三元映射图1718和二元映射图1720)在光学像素域中。因此,在此类具体实施中,模板图像也在光学像素域中。
子像素域-对不规则簇形状的强度提取
图20描绘了提取子像素域中的簇强度的第二种方法。在该第二种方法中,将处于光学像素分辨率的测序图像上采样为子像素分辨率。这导致了模板图像中的“描绘子像素的簇形状”与上采样的测序图像中的“描绘子像素的簇强度”之间的对应关系。然后基于对应关系提取簇强度。关于该强度提取技术的其他详细信息可见于图33以及关于该图的讨论。
在一个具体实施中,当非重叠区域具有不规则轮廓并且单元为子像素时,给定簇的簇强度2012由强度提取器2002按照如下方式进行确定。
首先,子像素定位器2004基于识别给定簇的形状的邻接子像素的对应非重叠区域来识别对给定簇的簇强度做出贡献的子像素。
然后,子像素定位器2004将所识别的子像素定位在从对应光学像素分辨率图像1918上采样的一个或多个光学像素分辨率图像2018中,该一个或多个光学像素分辨率图像是在当前测序循环中针对一个或多个成像通道生成的。上采样可通过以下方式来执行:最近邻强度提取、基于高斯的强度提取、基于2×2子像素区域的平均值的强度提取、基于2×2子像素区域中最亮处的强度提取、基于3×3子像素区域的平均值的强度提取、双线性强度提取、双立方强度提取和/或基于加权区域覆盖的强度提取。这些技术在标题为“强度提取方法”的附录中有详细描述。在一些具体实施中,模板图像可用作强度提取的掩膜。
然后,在上采样的图像中的每个上采样的图像中,子像素强度组合器2006组合所识别的子像素的强度,并且归一化组合强度,以针对上采样的图像中的每个上采样的图像中的给定簇产生每个图像簇强度。归一化由归一化器2008执行并且基于归一化因子。在一个具体实施中,归一化因子为所识别的子像素的数量。这样做是为了归一化/考虑不同簇尺寸以及簇接收的不均匀照明(这取决于其在流通池中的位置)。
最后,跨通道子像素强度累加器2010组合针对上采样的图像中的每个上采样的图像的每个图像簇强度,以确定当前测序循环中给定簇的簇强度2012。
然后,通过本申请中讨论的碱基检出器中的任一个碱基检出器基于当前测序循环中的簇强度2012对给定簇进行碱基检出,从而产生碱基检出2016。
基于神经网络的模板生成器的类型
现在讨论基于神经网络的模板生成器1512的三个不同具体实施的细节。这三个不同具体实施在图21a中示出并且包括:(1)基于衰减映射图的模板生成器2600(也被称为回归模型),(2)基于二元映射图的模板生成器4600(也被称为二元分类模型),以及(3)基于三元映射图的模板生成器5400(也被称为三元分类模型)。
在一个具体实施中,回归模型2600是全卷积网络。在另一个具体实施中,回归模型2600是在解码器和编码器之间具有跳跃连接的U-Net网络。在一个具体实施中,二元分类模型4600是全卷积网络。在另一个具体实施中,二元分类模型4600是在解码器和编码器之间具有跳跃连接的U-Net网络。在一个具体实施中,三元分类模型5400是全卷积网络。在另一个具体实施中,三元分类模型5400是在解码器和编码器之间具有跳跃连接的U-Net网络。
输入图像数据
图21b描绘了作为输入馈送到基于神经网络的模板生成器1512的输入图像数据1702的一个具体实施。输入图像数据1702包括具有测序图像108的一系列图像集2100,这些测序图像在测序运行的一定数量的初始测序循环(例如,前2至7个测序循环)期间生成。
在一些具体实施中,针对背景校正测序图像108的强度并且/或者使用仿射变换将图像彼此对准。在一个具体实施中,测序运行利用四通道化学,并且每个图像集具有四个图像。在另一个具体实施中,测序运行利用双通道化学,并且每个图像集具有两个图像。在又一个具体实施中,测序运行利用单通道化学,并且每个图像集具有两个图像。在其他具体实施中,每个图像集仅具有一个图像。附录6和9中描述了这些和其他不同的具体实施。
该一系列图像集2100中的每个图像2116覆盖流通池2102的区块2104,并且描绘了区块2104上的簇2106及其周围背景的在测序运行的多个测序循环中的特定测序循环中针对特定成像通道捕获的强度发射。在一个示例中,对于循环t1,图像集包括四个图像2112A、2112C、2112T和2112G:每种碱基A、C、T和G一个图像,这些碱基标记有对应荧光染料并且在对应波长带(图像/成像通道)中成像。
为了进行示意性的说明,在图像2112G中,图21b将簇强度发射描绘为2108并且将背景强度发射描绘为2110。在另一个示例中,对于循环tn,图像集包括四个图像2114A、2114C、2114T和2114G:每种碱基A、C、T和G一个图像,这些碱基标记有对应荧光染料并且在对应波长带(图像/成像通道)中成像。同样为了进行示意性的说明,在图像2114A中,图21b将簇强度发射描绘为2118,并且在图像2114T中,将背景强度发射描绘为2120。
使用强度通道(也被称为成像通道)对输入图像数据1702进行编码。对于从用于特定测序循环的测序器获得的c图像中的每个图像,使用单独的成像通道对其强度信号数据进行编码。例如,考虑到测序运行使用双通道化学,该双通道化学在每个测序循环中产生红色图像和绿色图像。在这种情况下,输入数据2632包括(i)具有w×h的像素的第一红色成像通道,该第一红色成像通道描绘了该一个或多个簇及其周围背景的在红色图像中捕获的强度发射;以及(ii)具有w×h的像素的第二绿色成像通道,该第二绿色成像通道描绘了该一个或多个簇及其周围背景的在绿色图像中捕获的强度发射。
非图像数据
在另一个具体实施中,基于神经网络的模板生成器1512和基于神经网络的碱基检出器1514的输入数据基于在分子延伸期间由于氢离子的释放引起的pH变化。检测pH变化并将其转换成与掺入的碱基的数量成比例的电压变化(例如,在Ion Torrent的情况下)。
在又一个具体实施中,输入数据根据纳米孔感测构造而成,该纳米孔感测使用生物传感器来测量当分析物穿过纳米孔或靠近其孔口时电流的中断,同时确定碱基的种类。例如,牛津纳米孔技术(ONT)测序基于以下概念:使单链DNA(或RNA)经由纳米孔穿过膜,并且跨膜施加电压差。孔中存在的核苷酸将影响孔的电阻,因此随时间推移的电流测量结果可指示DNA碱基穿过孔的序列。该电流信号(由于其在绘制时的外观而被称为“波形曲线(squiggle)”)是由ONT测序器收集的原始数据。这些测量结果被存储为在(例如)4kHz频率下获取的16位整数数据采集(DAC)值。在DNA链速度为约450碱基对/秒的情况下,这给出了平均每种碱基大约九个原始观察结果。然后处理该信号以识别对应于各个读数的开孔信号的中断。对原始信号的这些最大限度的利用是进行碱基检出,即将DAC值转换成DNA碱基序列的过程。在一些具体实施中,输入数据包括归一化或缩放的DAC值。
在另一个具体实施中,图像数据不用作基于神经网络的模板生成器1512或基于神经网络的碱基检出器1514的输入。相反,基于神经网络的模板生成器1512和基于神经网络的碱基检出器1514的输入基于在分子延伸期间由于氢离子的释放引起的pH变化。检测pH变化并将其转换成与掺入的碱基的数量成比例的电压变化(例如,在Ion Torrent的情况下)。
在又一个具体实施中,基于神经网络的模板生成器1512和基于神经网络的碱基检出器1514的输入根据纳米孔感测构造而成,该纳米孔感测使用生物传感器来测量当分析物穿过纳米孔或靠近其孔口时电流的中断,同时确定碱基的种类。例如,牛津纳米孔技术(ONT)测序基于以下概念:使单链DNA(或RNA)经由纳米孔穿过膜,并且跨膜施加电压差。孔中存在的核苷酸将影响孔的电阻,因此随时间推移的电流测量结果可指示DNA碱基穿过孔的序列。该电流信号(由于其在绘制时的外观而被称为“波形曲线(squiggle)”)是由ONT测序器收集的原始数据。这些测量结果被存储为在(例如)4kHz频率下获取的16位整数数据采集(DAC)值。在DNA链速度为约450碱基对/秒的情况下,这给出了平均每种碱基大约九个原始观察结果。然后处理该信号以识别对应于各个读数的开孔信号的中断。对原始信号的这些最大限度的利用是进行碱基检出,即将DAC值转换成DNA碱基序列的过程。在一些具体实施中,输入数据2632包括归一化或缩放的DAC值。
补片提取
图22示出了从图21b中的一系列图像集2100中提取补片以产生形成输入图像数据1702的一系列“缩小尺寸的”图像集的一个具体实施。在所示具体实施中,一系列图像集2100中的测序图像108的尺寸为L×L(例如,2000×2000)。在其他具体实施中,L为1至10,000范围内的任何数。
在一个具体实施中,补片提取器2202从一系列图像集2100中的测序图像108中提取补片,并且生成一系列缩小尺寸的图像集2206、2208、2210和2212。该一系列缩小尺寸的图像集中的每个图像是从一系列图像集2100中的对应测序图像中提取的尺寸为M×M(例如,20×20)的补片。补片的尺寸可为预设的。在其他具体实施中,M为1至1000范围内的任何数。
在图22中,示出了四个示例性系列的缩小尺寸的图像集。从一系列图像集2100中的测序图像108(坐标0,0至20,20)中提取第一示例性系列的缩小尺寸的图像集2206。从一系列图像集2100中的测序图像108(坐标20,20至40,40)中提取第二示例性系列的缩小尺寸的图像集2208。从一系列图像集2100中的测序图像108(坐标40,40至60,60)中提取第三示例性系列的缩小尺寸的图像集2210。从一系列图像集2100中的测序图像108(坐标60,60至80,80)中提取第四示例性系列的缩小尺寸的图像集2212。
在一些具体实施中,该一系列缩小尺寸的图像集形成输入图像数据1702,该输入图像数据作为输入被馈送到基于神经网络的模板生成器1512。多个系列的缩小尺寸的图像集可作为输入批同时馈送,并且可以针对输入批中的每个系列产生单独的输出。
上采样
图23描绘了对图21b中的一系列图像集2100进行上采样以产生形成输入图像数据1702的一系列“上采样的”图像集2300的一个具体实施。
在一个具体实施中,上采样器2302使用插值法(例如,双立方插值法)以上采样因子(例如,4倍)对一系列图像集2100中的测序图像108进行上采样,以产生一系列上采样的图像集2300。
在例示的具体实施中,一系列图像集2100中的测序图像108的尺寸为L×L(例如,2000×2000),并且被以为4的上采样因子进行上采样,以在一系列上采样的图像集2300中产生尺寸为U×U(例如,8000×8000)的上采样的图像。
在一个具体实施中,将一系列图像集2100中的测序图像108直接馈送到基于神经网络的模板生成器1512,并且由基于神经网络的模板生成器1512的初始层执行上采样。即,上采样器2302是基于神经网络的模板生成器1512的一部分,并且作为其第一层操作,该第一层对一系列图像集2100中的测序图像108进行上采样并产生一系列上采样的图像集2300。
在一些具体实施中,一系列上采样的图像集2300形成输入图像数据1702,该输入图像数据作为输入被馈送到基于神经网络的模板生成器1512。
图24示出了从图23中的一系列上采样的图像集2300中提取补片以产生形成输入图像数据1702的一系列“上采样且缩小尺寸的”图像集2406、2408、2410和2412的一个具体实施。
在一个具体实施中,补片提取器2202从一系列上采样的图像集2300中的上采样的图像提取补片,并且产生一系列上采样且缩小尺寸的图像集2406、2408、2410和2412。该一系列上采样且缩小尺寸的图像集中的每个上采样的图像是从一系列上采样的图像集2300中的对应上采样的图像中提取的尺寸为M×M(例如,80×80)的补片。补片的尺寸可为预设的。在其他具体实施中,M为1至1000范围内的任何数。
在图24中,示出了四个示例性系列的上采样且缩小尺寸的图像集。从一系列上采样的图像集2300中的上采样的图像(坐标0,0至80,80)中提取第一示例性系列的上采样且缩小尺寸的图像集2406。从一系列上采样的图像集2300中的上采样的图像(坐标80,80至160,160)中提取第二示例性系列的上采样且缩小尺寸的图像集2408。从一系列上采样的图像集2300中的上采样的图像(坐标160,160至240,240)中提取第三示例性系列的上采样且缩小尺寸的图像集2410。从一系列上采样的图像集2300中的上采样的图像(坐标240,240至320,320)中提取第四示例性系列的上采样且缩小尺寸的图像集2412。
在一些具体实施中,该一系列上采样且缩小尺寸的图像集形成输入图像数据1702,该输入图像数据作为输入被馈送到基于神经网络的模板生成器1512。多个系列的上采样且缩小尺寸的图像集可作为输入批同时馈送,并且可以针对输入批中的每个系列产生单独的输出。
输出
训练这三个模型来产生不同的输出。这通过使用不同类型的基准真值数据表示作为训练标记来实现。训练回归模型2600以产生表征/表示/指示所谓的“衰减映射图”1716的输出。训练二元分类模型4600以产生表征/表示/指示所谓的“二元映射图”1720的输出。训练三元分类模型5400以产生表征/表示/指示所谓的“三元映射图”1718的输出。
每种类型的模型的输出1714包括单元1712的阵列。单元1712可以是像素、子像素或超像素。每种类型的模型的输出包括逐单元输出值,使得单元阵列的输出值在回归模型2600的情况下一起表征/表示/指示衰减映射图1716,在二元分类模型4600的情况下一起表征/表示/指示二元映射图1720,以及在三元分类模型5400的情况下一起表征/表示/指示三元映射图1718。更多详细信息如下。
基准真值数据生成
图25示出了生成用于训练基于神经网络的模板生成器1512的基准真值数据的总体示例性过程的一个具体实施。对于回归模型2600,基准真值数据可以是衰减映射图1204。对于二元分类模型4600,基准真值数据可以是二元映射图1404。对于三元分类模型5400,基准真值数据可以是三元映射图1304。从簇元数据生成基准真值数据。簇元数据由簇元数据生成器122生成。基准真值数据由基准真值数据生成器1506生成。
在例示的具体实施中,针对在流通池A的槽道A上的区块A生成基准真值数据。从在测序运行A期间捕获的区块A的测序图像108生成基准真值数据。区块A的测序图像108在像素域中。在涉及每个测序循环生成四个测序图像的四通道化学的一个示例中,五十个测序循环获得两百个测序图像108。两百个测序图像108中的每个测序图像描绘了区块A上的簇及其周围背景的在特定测序循环中在特定成像通道中捕获的强度发射。
子像素寻址器110将测序图像108转换成子像素域(例如,通过将每个像素划分成多个子像素),并且在子像素域中产生测序图像112。
然后,碱基检出器114(例如,RTA)处理子像素域中的测序图像112,并且针对每个子像素和五十个测序循环中的每个测序循环生成碱基检出。这在本文中被称为“子像素碱基检出”。
然后合并子像素碱基检出116,以针对每个子像素产生跨五十个测序循环的碱基检出序列。每个子像素的碱基检出序列具有五十个碱基检出,即,五十个测序循环中的每个测序循环具有一个碱基检出。
搜索器118逐对地评估邻接子像素的碱基检出序列。搜索涉及评估每个子像素,以确定每个子像素与其邻接子像素中的哪个邻接子像素共享基本上匹配的碱基检出序列。当碱基检出的预先确定部分按位置顺序匹配时,邻接子像素的碱基检出序列是“基本上匹配的”(例如,在45个循环中存在≥41个匹配,在45个循环中存在≤4个错配,在50个循环中存在≤4个错配,或在34个循环中存在≤2个错配)。
在一些具体实施中,碱基检出器114还识别簇的初始中心坐标。包含初始中心坐标的子像素被称为中心或原点子像素。图6中示出了由碱基检出器114识别的一些示例性初始中心坐标(604a-c)和对应的原点子像素(606a-c)。然而,不需要识别原点子像素(簇的初始中心坐标),如下所述。在一些具体实施中,搜索器118通过以原点子像素606a-c开始并以连续邻接的非原点子像素702a-c继续,将广度优先搜索用于识别子像素的基本上匹配的碱基检出序列。这同样是任选的,如下所述。
对子像素的基本匹配的碱基检出序列的搜索不需要识别原点子像素(簇的初始中心坐标),因为可对所有子像素进行搜索,并且搜索不必从原点子像素开始,而是可从任何子像素(例如,0,0子像素或任何随机子像素)开始。因此,由于评估每个子像素是为了确定其是否与另一个邻接子像素共享基本上匹配的碱基检出序列,因此搜索不必利用原点子像素并且可以任何子像素开始。
无论是否使用原点子像素,都识别不包含由碱基检出器114预测的原点子像素(簇的初始中心坐标)的某些簇。通过合并子像素碱基检出识别的并且不包含原点子像素的簇的一些示例是图8a中的簇812a、812b、812c、812d和812e。因此,使用碱基检出器114来识别原点子像素(簇的初始中心坐标)是可选的,并且对于搜索子像素的基本上匹配的碱基检出序列不是必需的。
搜索器118:(1)将具有基本上匹配的碱基检出序列的邻接子像素识别为所谓的“不相交区域”,(2)进一步评估不属于在(1)处已识别的任何不相交区域的那些子像素的碱基检出序列,以产生另外的不相交区域,并且(3)然后将背景子像素识别为不属于在(1)处和(2)处已识别的不相交区域中的任一个不相交区域的那些子像素。动作(2)允许所公开的技术识别尚未被碱基检出器114识别出中心的另外的或额外的簇。
搜索器118的结果被编码在所谓的区块A的“簇映射图”中并且被存储在簇映射图数据存储装置120中。在簇映射图中,区块A上的簇中的每个簇由邻接子像素的相应不相交区域识别,其中背景子像素隔开不相交区域以识别区块上的周围背景。
质心(COM)计算器1004通过将不相交区域中的每个不相交区域的COM计算为形成不相交区域的相应邻接子像素的坐标的平均值,来确定区块A上的簇中的每个簇的中心。簇的质心被存储为COM数据2502。
子像素分类器2504使用簇映射图和COM数据2502来产生子像素分类2506。子像素分类2506将子像素在簇映射图中分类为:(1)背景子像素,(2)COM子像素(包含相应不相交区域的COM的每个不相交区域各具有一个COM子像素),以及(3)形成相应不相交区域的簇/簇内部子像素。即,簇映射图中的每个子像素被分配为三种类别中的一种。
基于子像素分类2506,在一些具体实施中,(i)基准真值衰减映射图1204由基准真值衰减映射图生成器1202产生,(ii)基准真值二元映射图1304由基准真值二元映射图生成器1302产生,并且(iii)基准真值三元映射图1404由基准真值三元映射图生成器1402产生。
1.回归模型
图26示出了回归模型2600的一个具体实施。在例示的具体实施中,回归模型2600是通过编码器子网络和对应解码器子网络处理输入图像数据1702的全卷积网络2602。编码器子网络包括编码器分级结构。解码器子网络包括将低分辨率编码器特征映射图映射到全输入分辨率衰减映射图1716的解码器分级结构。在另一个具体实施中,回归模型2600是在解码器和编码器之间具有跳跃连接的U-Net网络2604。关于分割网络的其他详细信息可见于标题为“分割网络”的附录。
衰减映射图
图27描绘了从簇映射图2702生成基准真值衰减映射图1204的一个具体实施。基准真值衰减映射图1204用作用于训练回归模型2600的基准真值数据。在基准真值衰减映射图1204中,基准真值衰减映射图生成器1202基于加权衰减因子向不相交区域中的每个邻接子像素分配加权衰减值。加权衰减值与邻接子像素距该邻接子像素所属的不相交区域中的质心(COM)子像素的欧几里德距离成比例,使得加权衰减值对于COM子像素最高(例如,1或100),并且对于距离COM子像素越远的子像素越低。在一些具体实施中,将加权衰减值乘以预设因子,诸如100。
此外,基准真值衰减映射图生成器1202为所有背景子像素分配相同的预先确定的值(例如,最低限背景值)。
基准真值衰减映射图1204基于分配值来表达不相交区域中的邻接子像素和背景子像素。基准真值衰减映射图1204还将分配值存储在单元阵列中,其中阵列中的每个单元表示输入中的对应子像素。
训练
图28是使用基于反向传播的梯度更新技术训练2800回归模型2600的一个具体实施,该基于反向传播的梯度更新技术修改回归模型2600的参数,直到回归模型2600在训练2800期间的训练输出逐渐接近或匹配基准真值衰减映射图1204时产生衰减映射图1716。
训练2800包括迭代地优化使衰减映射图1716和基准真值衰减映射图1204之间的误差2806最小化的损失函数,以及基于误差2806更新回归模型2600的参数。在一个具体实施中,损失函数是均方误差,并且误差在衰减映射图1716和基准真值衰减映射图1204中的对应子像素的加权衰减值之间逐子像素地最小化。
训练2800包括前向传播2808和后向传播2810的数百、数千和/或数百万次迭代,迭代包括并行化技术诸如批处理。训练数据1504包括一系列上采样且缩小尺寸的图像集作为输入图像数据1702。训练数据1504由注释器2806用基准真值标记注释。训练2800由训练器1510使用随机梯度更新算法诸如ADAM来操作。
推断
图29是在推断2900期间通过回归模型2600生成模板的一个具体实施,其中通过回归模型2600产生衰减映射图1716作为在推断2900期间的推断输出。衰减映射图1716的一个示例在标题为“Regression_Model_Sample_Ouput”的附录中公开。附录包括一起表示衰减映射图1716的逐单元加权衰减输出值2910。
推断2900包括前向传播2904的数百次、数千次和/或数百万次迭代,迭代包括并行化技术诸如批处理。对推断数据2908执行推断2900,该推断数据包括一系列上采样且缩小尺寸的图像集作为输入图像数据1702。推断2900由测试器2906操作。
分水岭分割
图30示出了使衰减映射图1716经受(i)阈值化以识别表征簇背景的背景子像素并且经受(ii)峰值检测以识别表征簇中心的中心子像素的一个具体实施。阈值化由阈值器1802执行,该阈值器使用局部阈值二值来产生二值化输出。峰值检测由峰值定位器1806执行以识别簇中心。关于峰值定位器的其他详细信息可见于标题为“峰值检测”的附录。
图31描绘了分水岭分割技术的一个具体实施,该分水岭分割技术采用由阈值器1802识别的背景子像素和由峰值定位器1806识别中心子像素作为输入,找到相邻簇之间的山谷强度,并且输出非重叠的邻接簇/表征簇的簇内部子像素组。关于分水岭分割技术的其他详细信息可见于标题为“分水岭分割”的附录。
在一个具体实施中,分水岭分割器3102采用以下数据作为输入:(1)衰减映射图1716中的负向输出值2910,(2)阈值器1802的二值化输出,以及(3)由峰值定位器1806识别的簇中心。然后,分水岭分割器3102基于输入产生输出3104。在输出3104中,每个簇中心被识别为属于簇中心的一组唯一子像素(只要子像素在二值化输出中为“1”,即不是背景子像素,就属于簇中心)。此外,基于包含至少四个子像素对簇进行过滤。分水岭分割器3102可以是分割器1810的一部分,继而是后处理器1814的一部分。
网络架构
图32是示出回归模型2600的示例性U网络架构以及回归模型2600的层的细节、层的输出的维度、模型参数的量值和层之间的互连的表。在标题为“Regression_Model_Example_Architecture”的文件中公开了类似的详细信息,该文件作为本申请的附录提交。
簇强度提取
图33示出了使用模板图像中识别的簇形状信息提取簇强度的不同方法。如上所述,模板图像识别处于上采样的子像素分辨率的簇形状信息。然而,簇强度信息在测序图像108中,这些测序图像通常具有光学像素分辨率。
根据第一种方法,子像素的坐标位于测序图像108中,并且这些子像素各自的强度使用双线性插值法来提取,并且基于对簇有贡献的子像素的计数对这些子像素各自的强度进行归一化。
第二种方法使用加权区域覆盖技术来根据对像素有贡献的子像素的数量来调制像素的强度。此处同样地,由子像素计数参数对经调制的像素强度进行归一化。
第三种方法使用双立方插值法将测序图像上采样到子像素域中,对属于簇的上采样的像素的强度进行求和,并且基于对属于簇的上采样的像素的计数对求和的强度进行归一化。
实验结果和观察
图34示出了使用回归模型2600的输出进行碱基检出的不同方法。在第一方法中,将从模板图像中基于神经网络的模板生成器1512的输出中识别的簇中心馈送到碱基检出器(例如,Illumina的实时分析软件,在本文中称为“RTA碱基检出器”)以用于碱基检出。
在第二方法中,代替簇中心,将基于模板图像中的簇形状信息从测序图像提取的簇强度馈送到RTA碱基检出器以用于碱基检出。
图35示出了当RTA碱基检出器使用基准真值质心(COM)位置作为簇中心而不是使用非COM位置作为簇中心时,碱基检出性能的差异。结果表明,使用COM改善了碱基检出。
示例性模型输出
图36在左侧示出了由回归模型2600产生的示例性衰减映射图1716。图36在右侧还示出了回归模型2600在训练期间近似的示例性基准真值衰减映射图1204。
衰减映射图1716和基准真值衰减映射图1204都将簇描绘为邻接子像素的不相交区域,将簇的中心描绘为不相交区域中的相应不相交区域的质心处的中心子像素,并且将其周围背景描绘为不属于所述不相交区域中的任一个不相交区域的背景子像素。
另外,不相交区域中的相应不相交区域中的邻接子像素具有根据邻接子像素距该邻接子像素所属的不相交区域中的中心子像素的距离而加权的值。在一个具体实施中,中心子像素在不相交区域中的相应不相交区域内具有最高值。在一个具体实施中,背景子像素在衰减映射图内均具有相同的最低限背景值。
图37描绘了峰值定位器1806通过检测峰值3702来识别衰减映射图中的簇中心的一个具体实施。关于峰值定位器的其他详细信息可见于标题为“峰值检测”的附录。
图38将由回归模型2600产生的衰减映射图1716中的峰值定位器1806检测到的峰值与对应的基准真值衰减映射图1204中的峰值进行比较。红色标记是通过回归模型2600预测为簇中心的峰值,并且绿色标记是簇的基准真值质心。
更多实验结果和观察
图39示出了使用查准率和查全率统计量的回归模型2600的性能。查准率和查全率统计量表明,回归模型2600适于恢复所有识别的簇中心。
图40比较了针对20pM文库浓度(正常运行)的回归模型2600与RTA碱基检出器的性能。优于RTA碱基检出器,回归模型2600在较高簇密度环境中识别出多34,323个(4.46%)簇(即,988,884个簇)。
图40还示出了其他测序指标的结果,诸如通过纯度过滤器的簇的数量(“%PF”(通过过滤))、比对读段的数量(“%比对”)、重复读段的数量(“%重复”)、与参考序列比对的所有读段中与参考序列错配的读段数量(“%错配”)、检出的质量分数为30及以上的碱基(“%Q30碱基”)等等。
图41比较了针对30pM文库浓度(密集运行)的回归模型2600与RTA碱基检出器的性能。优于RTA碱基检出器,回归模型2600在高得多的簇密度环境中识别出多34,323个(6.27%)簇(即,1,351,588个簇)。
图41还示出了其他测序指标的结果,诸如通过纯度过滤器的簇的数量(“%PF”(通过过滤))、比对读段的数量(“%比对”)、重复读段的数量(“%重复”)、与参考序列比对的所有读段中与参考序列错配的读段数量(“%错配”)、检出的质量分数为30及以上的碱基(“%Q30碱基”)等等。
图42比较了回归模型2600所检测到的非重复(唯一的或去重复的)正确读段对的数量(即,两个读段均在合理距离内向内比对的配对读段的数量)与RTA碱基检出器所检测到的非重复正确读段对的数量。对20pM正常运行和30pM密集运行两者进行比较。
更重要的是,图42示出了,与RTA碱基检出器相比,所公开的基于神经网络的模板生成器能够在更少的模板生成输入的测序循环中检测到更多的簇。在仅四个测序循环中,回归模型2600在20pM正常运行期间识别出比RTA碱基检出器多11%的非重复正确读段对,在30pM密集运行期间识别出比RTA碱基检出器多33%的非重复正确读段对。在仅七个测序循环中,回归模型2600在20pM正常运行期间识别出比RTA碱基检出器多4.5%的非重复正确读段对,在30pM密集运行期间识别出比RTA碱基检出器多6.3%的非重复正确读段对。
图43在右侧示出了由回归模型2600产生的第一衰减映射图。第一衰减映射图识别在20pM正常运行期间成像的簇及其周围背景,以及其描绘簇形状、簇尺寸和簇中心的空间分布。
图43在左侧示出了由回归模型2600产生的第二衰减映射图。第二衰减映射图识别在30pM密集运行期间成像的簇及其周围背景,以及其描绘簇形状、簇尺寸和簇中心的空间分布。
图44比较了针对40pM文库浓度(高度密集运行)的回归模型2600与RTA碱基检出器的性能。回归模型2600在高得多的簇密度环境(即,1,509,395个簇)中产生了比RTA碱基检出器多89,441,688个比对碱基。
图44还示出了其他测序指标的结果,诸如通过纯度过滤器的簇的数量(“%PF”(通过过滤))、比对读段的数量(“%比对”)、重复读段的数量(“%重复“)、与参考序列比对的所有读段中与参考序列错配的读段数量(”%错配“)、检出的质量分数为30及以上的碱基(”%Q30碱基“)等等。
更多示例性模型输出
图45在左侧示出了由回归模型2600产生的第一衰减映射图。第一衰减映射图识别在40pM正常运行期间成像的簇及其周围背景,以及其描绘簇形状、簇尺寸和簇中心的空间分布。
图45在右侧示出了如下操作的结果:将阈值化和峰值定位应用于第一衰减映射图,以将相应簇彼此区分并与背景区分,并识别其相应的簇中心。在一些具体实施中,识别相应簇的强度,并应用纯度过滤器(或通过过滤)来降低错配率。
2.二元分类模型
图46示出了二元分类模型4600的一个具体实施。在例示的具体实施中,二元分类模型4600是通过编码器子网络和对应解码器子网络处理输入图像数据1702的深度全卷积分割神经网络。编码器子网络包括编码器分级结构。解码器子网络包括将低分辨率编码器特征映射图映射到全输入分辨率二元映射图1720的解码器分级结构。在另一个具体实施中,二元分类模型4600是在解码器和编码器之间具有跳跃连接的U-Net网络。关于分割网络的其他详细信息可见于标题为“分割网络”的附录。
二元映射图
二元分类模型4600的最终输出层是为输出阵列中的每个单元产生分类标记的逐单元分类层。在一些具体实施中,逐单元分类层是如下逐子像素分类层,其为二元映射图1720中的每个子像素产生跨两个类(即,簇中心类和非簇类)的softmax分类分数分布,并且给定子像素的分类标记由对应的softmax分类分数分布确定。
在其他具体实施中,逐单元分类层是如下逐子像素分类层,其为二元映射图1720中的每个子像素产生sigmoid分类分数,使得单元的激活被解释为该单元属于第一类的概率,并且相反地,1减去激活给出其属于第二类的概率。
二元映射图1720基于预测的分类分数来表达每个子像素。二元映射图1720还将预测值分类分数存储在单元阵列中,其中阵列中的每个单元表示输入中的对应子像素。
图47是使用基于反向传播的梯度更新技术训练4700二元分类模型4600的一个具体实施,该梯度更新技术修改二元分类模型4600的参数,直到二元分类模型4600的二元映射图1720逐渐接近或匹配基准真值二元映射图1404。
在例示的具体实施中,二元分类模型4600的最终输出层是基于softmax的逐子像素分类层。在softmax具体实施中,基准真值二元映射图生成器1402为每个基准真值子像素分配(i)簇中心值对(例如,[1,0])或(ii)非中心值对(例如,[0,1])。
在簇中心值对[1,0]中,第一值[1]表示簇中心类标记,并且第二值[0]表示非中心类标记。在非中心值对[0,1]中,第一值[0]表示簇中心类标记,并且第二值[1]表示非中心类标记。
基准真值二元映射图1404基于分配值对/值来表达每个子像素。基准真值二元映射图1404还将分配值对/值存储在单元阵列中,其中阵列中的每个单元表示输入中的对应子像素。
训练包括迭代地优化使二元映射图1720与基准真值二元映射图1404之间的误差4706(例如,softmax误差)最小化的损失函数,以及基于误差4706更新二元分类模型4600的参数。
在一个具体实施中,损失函数是自定义加权的二元交叉熵损失,并且误差4706在二元映射图1720和基准真值二元映射图1404中的对应子像素的预测分类分数(例如,softmax分数)和标记的类分数(例如,softmax分数)之间逐子像素地最小化,如图47所示。
自定义加权的损失函数将赋予COM子像素更多的权重,使得每当COM子像素被错误分类时,交叉熵损失就会与奖励(或惩罚)矩阵中指定的对应奖励(或惩罚)权重相乘。关于自定义加权损失函数的其他详细信息可见于标题为“自定义加权损失函数”的附录。
训练4700包括前向传播4708和后向传播4710的数百、数千和/或数百万次迭代,迭代包括并行化技术诸如批处理。训练数据1504包括一系列上采样且缩小尺寸的图像集作为输入图像数据1702。训练数据1504由注释器2806用基准真值标记注释。训练2800由训练器1510使用随机梯度更新算法诸如ADAM来操作。
图48是训练4800二元分类模型4600的另一个具体实施,其中二元分类模型4600的最终输出层是基于sigmoid的逐子像素分类层。
在sigmoid具体实施中,基准真值二元映射图生成器1302为每个基准真值子像素分配(i)簇中心值(例如,[1])或(ii)非中心值(例如,[0])。COM子像素被分配簇中心值对/值,并且所有其他子像素被分配非中心值对/值。
对于簇中心值,高于0和1之间的阈值中间值的值(例如,高于0.5的值)表示中心类标记。对于非中心值,低于0和1之间的阈值中间值的值(例如,低于0.5的值)表示非中心类标记。
基准真值二元映射图1404基于分配值对/值来表达每个子像素。基准真值二元映射图1404还将分配值对/值存储在单元阵列中,其中阵列中的每个单元表示输入中的对应子像素。
训练包括迭代地优化使二元映射图1720与基准真值二元映射图1404之间的误差4806(例如,sigmoid误差)最小化的损失函数,以及基于误差4806更新二元分类模型4600的参数。
在一个具体实施中,损失函数是自定义加权的二元交叉熵损失,并且误差4806在二元映射图1720和基准真值二元映射图1404中的对应子像素的预测分数(例如,sigmoid分数)和标记的分数(例如,sigmoid分数)之间逐子像素地最小化,如图48所示。
自定义加权的损失函数将赋予COM子像素更多的权重,使得每当COM子像素被错误分类时,交叉熵损失就会与奖励(或惩罚)矩阵中指定的对应奖励(或惩罚)权重相乘。关于自定义加权损失函数的其他详细信息可见于标题为“自定义加权损失函数”的附录。
训练4800包括前向传播4808和后向传播4810的数百、数千和/或数百万次迭代,迭代包括并行化技术诸如批处理。训练数据1504包括一系列上采样且缩小尺寸的图像集作为输入图像数据1702。训练数据1504由注释器2806用基准真值标记注释。训练2800由训练器1510使用随机梯度更新算法诸如ADAM来操作。
图49示出了馈送到二元分类模型4600的输入图像数据1702和用于训练二元分类模型4600的对应类标记4904的另一个具体实施。
在例示的具体实施中,输入图像数据1702包括一系列上采样且缩小尺寸的图像集4902。类标记4904包括两个类:(1)“无簇中心”和(2)“簇中心”,它们使用不同的输出值来区分。也就是说,(1)浅绿色单元/子像素4906表示由二元分类模型4600预测为不包含簇中心的子像素,以及(2)深绿色子像素4908表示由二元分类模型4600预测为包含簇中心的单元/子像素。
推断
图50是在推断5000期间由二元分类模型4600生成模板的一个具体实施,其中二元映射图1720由二元分类模型4600生成,作为在推断5000期间的推断输出。二元映射图1720的一个示例包括一起表示二元映射图1720的逐单元二元分类分数5010。在softmax应用中,二元映射图1720具有针对非中心类的逐单元分类分数的第一阵列5002a和针对簇中心类的逐单元分类分数的第二阵列5002b。
推断5000包括前向传播5004的数百次、数千次和/或数百万次迭代,迭代包括并行化技术诸如批处理。对推断数据2908执行推断5000,该推断数据包括一系列上采样且缩小尺寸的图像集作为输入图像数据1702。推断5000由测试器2906操作。
在一些具体实施中,对二元映射图1720进行上文论述的后处理技术,诸如阈值化、峰值检测和/或分水岭分割,以生成簇元数据。
峰值检测
图51描绘了对二元映射图1720进行峰值检测以识别簇中心的一个具体实施。如上所述,二元映射图1720是基于预测的分类分数对每个子像素进行分类的单元阵列,其中阵列中的每个单元表示输入中的对应子像素。分类分数可以是softmax分数或sigmoid分数。
在softmax应用中,二元映射图1720包括两个阵列:(1)针对非中心类的逐单元分类分数的第一阵列5002a和(2)针对簇中心类的逐单元分类分数的第二阵列5002b。在这两个阵列中,每个单元表示输入中的对应子像素。
为了确定输入中的哪些子像素包含簇中心以及哪些子像素不包含簇中心,峰值定位器1806对二元映射图1720中的单元应用峰值检测。峰值检测识别分类分数(例如,softmax/sigmoid分数)高于预设阈值的那些单元。所识别的单元被推断为簇中心,并且这些单元在输入中的对应子像素被确定为包含簇中心并且被存储为子像素分类数据存储装置5102中的簇中心子像素。关于峰值定位器1806的其他详细信息可见于标题为“峰值检测”的附录。
剩余单元及其在输入中的对应子像素被确定为不包含簇中心并且被存储为子像素分类数据存储装置5102中的非中心子像素。
在一些具体实施中,在应用峰值检测之前,将分类分数低于某个背景阈值(例如,0.3)的那些单元设置为零。在一些具体实施中,此类单元及这些单元在输入中的对应子像素被推断为表示簇周围的背景并且被存储为子像素分类数据存储装置5102中的背景子像素。在其他具体实施中,此类单元可被认为是噪声并且被忽略。
示例性模型输出
图52a在左侧示出了由二元分类模型4600产生的示例性二元映射图。图52a在右侧还示出了二元分类模型4600在训练期间近似的示例性基准真值二元映射图。二元映射图具有多个子像素,并且将每个子像素分类为簇中心或非中心。类似地,基准真值二元映射图具有多个子像素,并且将每个子像素分类为簇中心或非中心。
实验结果和观察
图52b示出了使用查全率和查准率统计量的二元分类模型4600的性能。应用这些统计,二元分类模型4600优于RTA碱基检出器。
网络架构
图53是示出二元分类模型4600的示例性架构,以及二元分类模型4600的层的细节、层的输出的维度、模型参数的量值以及层之间的互连的表。类似的细节在标题为“Binary_Classification_Model_Example_Architecture”的附录中公开。
3.三元(三类)分类模型
图54示出了三元分类模型5400的一个具体实施。在例示的具体实施中,三元分类模型5400是通过编码器子网络和对应解码器子网络处理输入图像数据1702的深度全卷积分割神经网络。编码器子网络包括编码器分级结构。解码器子网络包括将低分辨率编码器特征映射图映射到全输入分辨率三元映射图1718的解码器分级结构。在另一个具体实施中,三元分类模型5400是在解码器和编码器之间具有跳跃连接的U-Net网络。关于分割网络的其他详细信息可见于标题为“分割网络”的附录。
三元映射图
三元分类模型5400的最终输出层是为输出阵列中的每个单元产生分类标记的逐单元分类层。在一些具体实施中,逐单元分类层是如下逐子像素分类层,其为三元映射图1718中的每个子像素产生跨三个类(即,背景类、簇中心类和簇/簇内部类)的softmax分类分数分布,并且给定子像素的分类标记由对应的softmax分类分数分布确定。
三元映射图1718基于预测的分类分数来表达每个子像素。三元映射图1718还将预测值分类分数存储在单元阵列中,其中阵列中的每个单元表示输入中的对应子像素。
训练
图55是使用基于反向传播的梯度更新技术训练5500三元分类模型5400的一个具体实施,该梯度更新技术修改三元分类模型5400的参数,直到三元分类模型5400的三元映射图1718逐渐接近或匹配基准真值三元映射图1304。
在例示的具体实施中,三元分类模型5400的最终输出层是基于softmax的逐子像素分类层。在softmax具体实施中,基准真值三元映射图生成器1402为每个基准真值子像素分配(i)背景值三元组(例如,[1,0,0])、(ii)簇中心值三元组(例如,[0,1,0])或(iii)簇/簇内部值三元组(例如,[0,0,1])。
为背景子像素分配背景值三元组。为质心(COM)子像素分配簇中心值三元组。为簇/簇内部子像素分配簇/簇内部值三元组。
在背景值三元组[1,0,0]中,第一值[1]表示背景类标记,第二值[0]表示簇中心标记,并且第三值[0]表示簇/簇内部类标记。
在簇中心值三元组[0,1,0]中,第一值[0]表示背景类标记,第二值[1]表示簇中心标记,并且第三值[0]表示簇/簇内部类标记。
在簇/簇内部值三元组[0,0,1]中,第一值[0]表示背景类标记,第二值[0]表示簇中心标记,并且第三值[1]表示簇/簇内部类标记。
基准真值三元映射图1304基于分配值三元组来表达每个子像素。基准真值三元映射图1304还将所分配的三元组存储在单元阵列中,其中阵列中的每个单元表示输入中的对应子像素。
训练包括迭代地优化使三元映射图1718与基准真值三元映射图1304之间的误差5506(例如,softmax误差)最小化的损失函数,以及基于误差5506更新三元分类模型5400的参数。
在一个具体实施中,损失函数是自定义加权的分类交叉熵损失,并且误差5506在三元映射图1718和基准真值三元映射图1304中的对应子像素的预测分类分数(例如,softmax分数)和标记的类分数(例如,softmax分数)之间逐子像素地最小化,如图54所示。
自定义加权的损失函数将赋予COM子像素更多的权重,使得每当COM子像素被错误分类时,交叉熵损失就会与奖励(或惩罚)矩阵中指定的对应奖励(或惩罚)权重相乘。关于自定义加权损失函数的其他详细信息可见于标题为“自定义加权损失函数”的附录。
训练5500包括前向传播5508和后向传播5510的数百、数千和/或数百万次迭代,迭代包括并行化技术诸如批处理。训练数据1504包括一系列上采样且缩小尺寸的图像集作为输入图像数据1702。训练数据1504由注释器2806用基准真值标记注释。训练5500由训练器1510使用随机梯度更新算法诸如ADAM来操作。
图56示出了馈送到三元分类模型5400的输入图像数据1702和用于训练三元分类模型5400的对应类标记的一个具体实施。
在例示的具体实施中,输入图像数据1702包括一系列上采样且缩小尺寸的图像集5602。类标记5604包括三个类:(1)“背景类”、(2)“簇中心类”和(3)“簇内部类”,它们使用不同的输出值来区分。例如,这些不同输出值中的一些可在视觉上表示如下:(1)灰色单元/子像素5606表示由三元分类模型5400预测为背景的子像素,(2)深绿色单元/子像素5608表示由三元分类模型5400预测为包含簇中心的子像素,并且(3)浅绿色子像素5610表示由三元分类模型5400预测为包含簇的内部的子像素。
网络架构
图57是示出三元分类模型5400的示例性架构,以及三元分类模型5400的层的细节、层的输出的维度、模型参数的量值以及层之间的互连的表。类似的细节在标题为“Ternary_Classification_Model_Example_Architecture”的附录中公开。
推断
图58是在推断5800期间由三元分类模型5400生成模板的一个具体实施,其中三元映射图1718由三元分类模型5400生成,作为在推断5800期间的推断输出。三元映射图1718的一个示例在标题为“Ternary_Classification_Model_Sample_Ouput”的附录中公开。附录包括一起表示三元映射图1718的逐单元二元分类分数5810。在softmax应用中,附录具有用于背景类的逐单元分类分数的第一阵列5802a、用于簇中心类的逐单元分类分数的第二阵列5802b,以及用于簇/簇内部类的逐单元分类分数的第三阵列5802c。
推断5800包括前向传播5804的数百次、数千次和/或数百万次迭代,迭代包括并行化技术诸如批处理。对推断数据2908执行推断5800,该推断数据包括一系列上采样且缩小尺寸的图像集作为输入图像数据1702。推断5000由测试器2906操作。
在一些具体实施中,三元映射图1718由三元分类模型5400使用上文论述的后处理技术,诸如阈值化、峰值检测和/或分水岭分割来产生。
图59以图形方式描绘了由三元分类模型5400产生的三元映射图1718,其中每个子像素具有用于三个对应类(即,背景类5906、簇中心类5902和簇/簇内部类5904)的三向softmax分类分数分布。
图60描绘了由三元分类模型5400产生的单元阵列,以及逐单元输出值。如所描绘的,每个单元具有三个对应类的三个输出值,即背景类5906、簇中心类5902和簇/簇内部类5904。对于每个分类(逐列),为每个单元分配具有最高输出值的类,如每个单元下方括号中的类所示。在一些具体实施中,针对相应类5906、5902和5904中的每个类分析输出值6002、6004和6006(逐行)。
峰值检测和分水岭分割
图61示出了对三元映射图1718进行后处理以识别簇中心、簇背景和簇内部的一个具体实施。如上所述,三元映射图1718是基于预测的分类分数对每个子像素进行分类的单元阵列,其中阵列中的每个单元表示输入中的对应子像素。分类分数可以是softmax分数。
在softmax应用中,三元映射图1718包括三个阵列:(1)用于背景类的逐单元分类分数的第一阵列5802a、(2)用于簇中心类的逐单元分类分数的第二阵列5802b,以及(3)用于簇内部类的逐单元分类分数的第三阵列5802c。在所有三个阵列中,每个单元表示输入中的对应子像素。
为了确定输入中的哪些子像素包含簇中心、哪些子像素包含簇的内部以及哪些子像素包含背景,峰值定位器1806对簇中心类5802b的三元映射图1718中的softmax值应用峰值检测。峰值检测识别分类分数(例如,softmax分数)高于预设阈值的那些单元。所识别的单元被推断为簇中心,并且这些单元在输入中的对应子像素被确定为包含簇中心并且被存储为子像素分类和分割数据存储装置6102中的簇中心子像素。关于峰值定位器1806的其他详细信息可见于标题为“峰值检测”的附录。
在一些具体实施中,在应用峰值检测之前,将分类分数低于某个噪声阈值(例如,0.3)的那些单元设置为零。此类单元可被认为是噪声并且被忽略。
另外,背景类5802a的分类分数高于某个背景阈值(例如,等于或大于0.5)的单元及其在输入中的对应子像素被推断为表示簇周围的背景并且被存储为子像素分类和分割数据存储装置6102中的背景子像素。
然后,由分水岭分割器3102操作的分水岭分割算法用于确定簇的形状。在一些具体实施中,背景单元/子像素由分水岭分割算法用作掩膜。推断为簇中心和簇内部的单元/子像素的分类分数相加,以产生所谓的“簇标记”。簇中心用作分水岭标记,用于由分水岭分割算法通过强度谷隔开。
在一个具体实施中,负特征簇标记作为输入图像提供给分水岭分割器3102,该分水岭分割器执行分割并产生簇形状作为由背景子像素隔开的邻接簇内部子像素的不相交区域。此外,每个不相交区域包括对应的簇中心子像素。在一些具体实施中,对应的簇中心子像素是其所属的不相交区域的中心。在其他具体实施中,不相交区域的质心(COM)基于基础位置坐标来计算,并且被存储为簇的新中心。
分水岭分割器3102的输出存储在子像素分类和分割数据存储装置6102中。关于分水岭分割算法和其他分割算法的其他详细信息可见于标题为“分水岭分割”的附录。
峰值定位器1806和分水岭分割器3102的示例性输出在图62a、图62b、图63和图64中示出。
示例性模型输出
图62a示出了三元分类模型5400的示例性预测。图62a示出了四个映射图,并且每个映射图具有单元阵列。第一映射图6202(最左侧)示出了簇中心类5802b的每个单元的输出值。第二映射图6204示出了簇/簇内部类5802c的每个单元的输出值。第三映射图6206(最右侧)示出了背景类5802a的每个单元的输出值。第四映射图6208(底部)是基准真值三元映射图6008的二元掩膜,该二元掩膜为每个单元分配具有最高输出值的类标记。
图62b示出了三元分类模型5400的其他示例性预测。图62b示出了四个映射图,并且每个映射图具有单元阵列。第一映射图6212(最左下部)示出了簇/簇内部类的每个单元的输出值。第二映射图6214示出了簇中心类的每个单元的输出值。第三映射图6216(最右下部)示出了背景类的每个单元的输出值。第四映射图(顶部)6210是基准真值三元映射图,其为每个单元分配具有最高输出值的类标记。
图62c还示出了三元分类模型5400的其他示例性预测。图64示出了四个映射图,并且每个映射图具有单元阵列。第一映射图6220(最左下部)示出了簇/簇内部类的每个单元的输出值。第二映射图6222示出了簇中心类的每个单元的输出值。第三映射图6224(最右下部)示出了背景类的每个单元的输出值。第四映射图6218(顶部)是基准真值三元映射图,其为每个单元分配具有最高输出值的类标记。
图63描绘了通过对输出进行后处理而从图62a中的三元分类模型5400的输出导出簇中心和簇形状的一个具体实施。后处理(例如,峰值定位、分水岭分割)生成在簇映射图6310中识别的簇形状数据和其他元数据。
实验结果和观察
图64比较了二元分类模型4600、回归模型2600和RTA碱基检出器的性能。使用多种测序指标来评估性能。一个指标是检测到的簇的总数(“#簇”),其可通过检测到的唯一簇中心的数量来测量。另一个指标是检测到的通过纯度过滤器的簇的数量(“%PF”(通过过滤))。在测序运行的第1-25个循环期间,纯度过滤器从图像提取结果中移除最不可靠的簇。如果在前25个循环中不超过一个碱基检出具有低于0.6的纯度值,则簇“通过过滤”。纯度被定义为最亮的碱基信号强度除以最亮的和第二亮的碱基信号强度之和的比值。该指标超出了检测到的簇的数量,还传达了它们的质量,即检测到的簇中有多少可用于准确的碱基检出以及下游的二元和三元分析(诸如变异检出和变异致病性注释)。
测量检测到的簇对下游分析的良好程度的其他指标包括由检测到的簇产生的比对读段的数量(“%比对”)、由检测到的簇产生的重复读段的数量(“%重复”)、所有与参考序列比对的读段中由检测到的簇产生的与参考序列错配的读段的数量(“%错配”)、由检测到的簇产生的其部分与任一侧上的参考序列匹配不良好因此在比对中被忽略的读段的数量(“%软剪切”)、针对检测到的簇检出的质量分数为30及以上的碱基的数量(“%Q30碱基”)、由检测到的簇产生的两个读段均在合理距离内向内比对的配对读段的数量(“总正确读段对”),以及由检测到的簇产生的唯一的或去重复的正确读段对的数量(“非重复正确读段对”)。
如图64所示,在模板生成中,二元分类模型4600和回归模型2600在大多数指标上均优于RTA碱基检出器。
图65将三元分类模型5400的性能与RTA碱基检出器的性能在三种上下文、五种测序指标和两种运行密度下进行比较。
在称为“RTA”的第一上下文中,簇中心由RTA碱基检出器检测,对簇的强度提取由RTA碱基检出器完成,并且簇也使用RTA碱基检出器进行碱基检出。在称为“RTA IE”的第二上下文中,簇中心由三元分类模型5400检测;然而,对簇的强度提取由RTA碱基检出器完成,并且簇也使用RTA碱基检出器进行碱基检出。在称为“Self IE”的第三上下文中,簇中心由三元分类模型5400检测,并且使用本文所公开的基于簇形状的强度提取技术完成对簇的强度提取(需注意,簇形状信息由三元分类模型5400生成);但是簇使用RTA碱基检出器进行碱基检出。
在三元分类模型5400和RTA碱基检出器之间,根据五个指标对性能进行比较:(1)检测到的簇的总数(“#簇”),(2)检测到的通过纯度过滤器的簇的数量(“#PF”),(3)由检测到的簇产生的唯一的或去重复的正确读段对的数量(“#非重复正确读段对”),(4)比对后由检测到的簇产生的序列读段与参考序列之间的错配率(“%错配率”),以及(5)针对检测到的簇检出的质量分数为30及以上的碱基(“%Q30”)。
在三种上下文和两种类型的测序运行的五种指标下,比较三元分类模型5400和RTA碱基检出器之间的性能:(1)具有20pM文库浓度的正常运行和(2)具有30pM文库浓度的密集运行。
如图65所示,三元分类模型5400在所有指标上均优于RTA碱基检出器。
在相同的三种上下文、五种指标和两种运行密度下,图66示出了回归模型2600在所有指标上均优于RTA碱基检出器。
图67聚焦于基于神经网络的模板生成器1512的倒数第二层6702。
图68可视化了基于神经网络的模板生成器1512的倒数第二层6702由于基于反向传播的梯度更新训练而学到的东西。例示的具体实施可视化了叠加在基准真值簇形状上的倒数第二层6702的32个卷积滤波器中的24个。如图68所示,倒数第二层6702已学习了簇元数据,包括簇的空间分布,诸如簇中心、簇形状、簇尺寸、簇背景和簇边界。
图69将二元分类模型4600的簇中心预测(蓝色)叠加到RTA碱基检出器的那些簇中心预测(粉色)上。对来自Illumina NextSeq测序仪的测序图像数据进行预测。
图70将由RTA碱基检出器做出的簇中心预测(粉色)叠加到二元分类模型4600的倒数第二层的经训练的卷积滤波器的可视化上。这些卷积滤波器是由于对来自IlluminaNextSeq测序仪的测序图像数据进行训练来学习的。
图71示出了用于训练基于神经网络的模板生成器1512的训练数据的一个具体实施。在该具体实施中,训练数据从密集流通池获得,该密集流通池产生具有STORM探针图像的数据。在另一个具体实施中,训练数据从密集流通池获得,该密集流通池产生具有较少桥式扩增循环的数据。
图72是以基于神经网络的模板生成器1512的簇中心预测为基础使用小珠进行图像配准的一个具体实施。
图73示出了由基于神经网络的模板生成器1512识别的簇的簇统计的一个具体实施。簇统计包括基于贡献子像素的数量和GC含量的簇尺寸。
图74示出了当使用输入图像数据1702的初始测序循环的数量从五增加到七时,基于神经网络的模板生成器1512区分相邻簇的能力如何提高。对于五个测序循环,单个簇由邻接子像素的单个不相交区域识别。对于七个测序循环,单个簇被分割成两个相邻的簇,每个簇具有它们自己的邻接子像素的不相交区域。
图75示出了当RTA碱基检出器使用基准真值质心(COM)位置作为簇中心而不是使用非COM位置作为簇中心时,碱基检出性能的差异。
图76描绘了基于神经网络的模板生成器1512对额外检测到的簇的性能。
图77示出了用于训练基于神经网络的模板生成器1512的不同数据集。
测序系统
图78A和图78B描绘了测序系统7800A的一个具体实施。测序系统7800A包括可配置处理器7846。可配置处理器7846实现本文所公开的碱基检出技术。测序系统也称为“测序仪”。
测序系统7800A可操作以获得与生物物质或化学物质中的至少一者相关的任何信息或数据。在一些具体实施中,测序系统7800A是可类似于台式设备或台式计算机的工作站。例如,用于进行所需反应的大部分(或全部)系统和部件可位于共同的外壳7802内。
在特定具体实施中,测序系统7800A是被配置用于各种应用的核酸测序系统,各种应用包括但不限于从头测序、全基因组或靶基因组区域的重测序以及宏基因组学。测序仪也可用于DNA或RNA分析。在一些具体实施中,测序系统7800A还可被配置为在生物传感器中产生反应位点。例如,测序系统7800A可被配置为接收样品并生成来源于样品的克隆扩增核酸的表面附着簇。每个簇可构成生物传感器中的反应位点或作为其一部分。
示例性测序系统7800A可包括被配置为与生物传感器7812相互作用以在生物传感器7812内进行所需反应的系统插座或接口7810。在以下关于图78A的描述中,将生物传感器7812装载到系统插座7810中。然而,应当理解,可将包括生物传感器7812的卡盒插入到系统插座7810中,并且在一些状态下,可暂时或永久地移除卡盒。如上所述,除了别的以外,卡盒还可包括流体控制部件和流体储存部件。
在特定具体实施中,测序系统7800A被配置为在生物传感器7812内进行大量平行反应。生物传感器7812包括可发生所需反应的一个或多个反应位点。反应位点可例如固定至生物传感器的固体表面或固定至位于生物传感器的对应反应室内的小珠(或其他可移动基板)。反应位点可包括,例如,克隆扩增核酸的簇。生物传感器7812可包括固态成像设备(例如,CCD或CMOS成像器)和安装到其上的流通池。流通池可包括一个或多个流动通道,所述一个或多个流动通道从测序系统7800A接收溶液并将溶液引向反应位点。任选地,生物传感器7812可被配置为接合热元件,以用于将热能传递到流动通道中或从流动通道传递出去。
测序系统7800A可包括彼此相互作用以执行用于生物或化学分析的预定方法或测定方案的各种部件、组件和系统(或子系统)。例如,测序系统7800A包括系统控制器7806,该系统控制器可与测序系统7800A的各种部件、组件和子系统以及生物传感器7812通信。例如,除了系统插座7810之外,测序系统7800A还可包括流体控制系统7808以控制流体在测序系统7800A和生物传感器7812的整个流体网络中的流动;流体储存系统7814,该流体储存系统被配置为保存生物测定系统可使用的所有流体(例如,气体或液体);温度控制系统7804,该温度控制系统可调节流体网络、流体储存系统7814和/或生物传感器7812中流体的温度;以及照明系统7816,该照明系统被配置为照亮生物传感器7812。如上所述,如果将具有生物传感器7812的卡盒装载到系统插座7810中,则该卡盒还可包括流体控制部件和流体储存部件。
还如图所示,测序系统7800A可包括与用户交互的用户界面7818。例如,用户界面7818可包括用于显示或请求来自用户的信息的显示器7820和用于接收用户输入的用户输入设备7822。在一些具体实施中,显示器7820和用户输入设备7822是相同的设备。例如,用户界面7818可包括触敏显示器,该触敏显示器被配置为检测个体触摸的存在并且还识别触摸在显示器上的位置。然而,可使用其他用户输入设备7822,诸如鼠标、触摸板、键盘、小键盘、手持扫描仪、语音识别系统、运动识别系统等。如将在下文更详细地讨论,测序系统7800A可与包括生物传感器7812(例如,呈卡盒的形式)的各种部件通信,以进行所需反应。测序系统7800A还可被配置为分析从生物传感器获得的数据以向用户提供所需信息。
系统控制器7806可包括任何基于处理器或基于微处理器的系统,包括使用微控制器、精简指令集计算机(RISC)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、粗粒度可重构架构(CGRA)、逻辑电路以及能够执行本文所述功能的任何其他电路或处理器。上述示例仅是示例性的,因此不旨在以任何方式限制术语系统控制器的定义和/或含义。在示例性具体实施中,系统控制器7806执行存储在一个或多个存储元件、存储器或模块中的指令集,以便进行获得检测数据和分析检测数据中的至少一者。检测数据可包括多个像素信号序列,使得可在许多碱基检出循环内检测来自数百万个传感器(或像素)中的每个传感器(或像素)的像素信号序列。存储元件可为测序系统7800A内的信息源或物理存储器元件的形式。
指令集可包括指示测序系统7800A或生物传感器7812执行特定操作(诸如本文所述的各种具体实施的方法和过程)的各种命令。指令集可为软件程序的形式,该软件程序可形成有形的一个或多个非暂态计算机可读介质的一部分。如本文所用,术语“软件”和“固件”是可互换的,并且包括存储在存储器中以供计算机执行的任何计算机程序,包括RAM存储器、ROM存储器、EPROM存储器、EEPROM存储器和非易失性RAM(NVRAM)存储器。上述存储器类型仅是示例性的,因此不限制可用于存储计算机程序的存储器类型。
软件可为各种形式,诸如系统软件或应用软件。此外,软件可以是独立程序的集合的形式,或者是较大程序内的程序模块或程序模块的一部分的形式。软件还可包括面向对象编程形式的模块化编程。在获得检测数据之后,检测数据可由测序系统7800A自动处理,响应于用户输入而处理,或者响应于另一处理机提出的请求(例如,通过通信链路的远程请求)而处理。在例示的具体实施中,系统控制器7806包括分析模块7844。在其他具体实施中,系统控制器7806不包括分析模块7844,而是可访问分析模块7844(例如,分析模块7844可单独地托管在云上)。
系统控制器7806可经由通信链路连接到生物传感器7812和测序系统7800A的其他部件。系统控制器7806还可通信地连接到非现场系统或服务器。通信链路可以是硬连线的、有线的或无线的。系统控制器7806可从用户界面7818和用户输入设备7822接收用户输入或命令。
流体控制系统7808包括流体网络,并且被配置为引导和调节一种或多种流体通过流体网络的流动。流体网络可与生物传感器7812和流体储存系统7814流体连通。例如,选定的流体可从流体储存系统7814抽吸并以受控方式引导至生物传感器7812,或者流体可从生物传感器7812抽吸并朝向例如流体储存系统7814中的废物储存器引导。虽然未示出,但流体控制系统7808可包括检测流体网络内的流体的流速或压力的流量传感器。传感器可与系统控制器7806通信。
温度控制系统7804被配置为调节流体网络、流体储存系统7814和/或生物传感器7812的不同区域处流体的温度。例如,温度控制系统7804可包括热循环仪,该热循环仪与生物传感器7812对接并且控制沿着生物传感器7812中的反应位点流动的流体的温度。温度控制系统7804还可调节测序系统7800A或生物传感器7812的固体元件或部件的温度。尽管未示出,但温度控制系统7804可包括用于检测流体或其他部件的温度的传感器。传感器可与系统控制器7806通信。
流体储存系统7814与生物传感器7812流体连通,并且可储存用于在其中进行所需反应的各种反应组分或反应物。流体储存系统7814还可储存用于洗涤或清洁流体网络和生物传感器7812以及用于稀释反应物的流体。例如,流体储存系统7814可包括各种储存器,以储存样品、试剂、酶、其他生物分子、缓冲溶液、水性溶液和非极性溶液等。此外,流体储存系统7814还可包括废物储存器,用于接收来自生物传感器7812的废物。在包括卡盒的具体实施中,卡盒可包括流体储存系统、流体控制系统或温度控制系统中的一者或多者。因此,本文所述的与那些系统有关的一个或多个部件可容纳在卡盒外壳内。例如,卡盒可具有各种储存器,以储存样品、试剂、酶、其他生物分子、缓冲溶液、水性溶液和非极性溶液、废物等。因此,流体储存系统、流体控制系统或温度控制系统中的一者或多者可经由卡盒或其他生物传感器与生物测定系统可移除地接合。
照明系统7816可包括光源(例如,一个或多个LED)和用于照亮生物传感器的多个光学部件。光源的示例可包括激光器、弧光灯、LED或激光二极管。光学部件可以是例如反射器、二向色镜、分束器、准直器、透镜、滤光器、楔镜、棱镜、反射镜、检测器等。在使用照明系统的具体实施中,照明系统7816可被配置为将激发光引导至反应位点。作为一个示例,荧光团可由绿色波长的光激发,因此激发光的波长可为大约532nm。在一个具体实施中,照明系统7816被配置为产生平行于生物传感器7812的表面的表面法线的照明。在另一个具体实施中,照明系统7816被配置为产生相对于生物传感器7812的表面的表面法线成偏角的照明。在又一个具体实施中,照明系统7816被配置为产生具有多个角度的照明,包括一些平行照明和一些偏角照明。
系统插座或接口7810被配置为以机械、电气和流体方式中的至少一种方式接合生物传感器7812。系统插座7810可将生物传感器7812保持在所需取向,以有利于流体流过生物传感器7812。系统插座7810还可包括电触点,该电触点被配置为接合生物传感器7812,使得测序系统7800A可与生物传感器7812通信和/或向生物传感器7812提供功率。此外,系统插座7810可包括被配置为接合生物传感器7812的流体端口(例如,喷嘴)。在一些具体实施中,生物传感器7812以机械方式、电方式以及流体方式可移除地耦接到系统插座7810。
此外,测序系统7800A可与其他系统或网络或与其他生物测定系统7800A远程通信。由生物测定系统7800A获得的检测数据可存储在远程数据库中。
图78B是可在图78A的系统中使用的系统控制器7806的框图。在一个具体实施中,系统控制器7806包括可彼此通信的一个或多个处理器或模块。处理器或模块中的每一者可包括用于执行特定过程的算法(例如,存储在有形和/或非暂态计算机可读存储介质上的指令)或子算法。系统控制器7806在概念上被示出为模块的集合,但可利用专用硬件板、DSP、处理器等的任何组合来实现。另选地,系统控制器7806可利用具有单个处理器或多个处理器的现成PC来实现,其中功能操作分布在处理器之间。作为进一步的选择,下文所述的模块可利用混合配置来实现,其中某些模块化功能利用专用硬件来执行,而其余模块化功能利用现成PC等来执行。模块还可被实现为处理单元内的软件模块。
在操作期间,通信端口7850可向生物传感器7812(图78A)和/或子系统7808、7814、7804(图78A)传输信息(例如,命令)或从其接收信息(例如,数据)。在具体实施中,通信端口7850可输出多个像素信号序列。通信链路7834可从用户界面7818(图78A)接收用户输入并将数据或信息传输到用户界面7818。来自生物传感器7812或子系统7808、7814、7804的数据可在生物测定会话期间由系统控制器7806实时处理。除此之外或另选地,数据可在生物测定会话期间临时存储在系统存储器中,并且以比实时或脱机操作更慢的速度进行处理。
如图78B所示,系统控制器7806可包括与主控制模块7824以及中央处理单元(CPU)7852通信的多个模块7826-7848。主控制模块7824可与用户界面7818(图78A)通信。尽管模块7826-7848被示出为与主控制模块7824直接通信,但模块7826-7848也可彼此直接通信,与用户界面7818和生物传感器7812直接通信。另外,模块7826-7848可通过其他模块与主控制模块7824通信。
多个模块7826-7848包括分别与子系统7808、7814、7804和7816通信的系统模块7828-7832、7826。流体控制模块7828可与流体控制系统7808通信,以控制流体网络的阀和流量传感器,从而控制一种或多种流体通过流体网络的流动。流体储存模块7830可在流体量低时或在废物储存器处于或接近容量时通知用户。流体储存模块7830还可与温度控制模块7832通信,使得流体可储存在所需温度下。照明模块7826可与照明系统7816通信,以在方案期间的指定时间照亮反应位点,诸如在已发生所需反应(例如,结合事件)之后。在一些具体实施中,照明模块7826可与照明系统7816通信,从而以指定角度照亮反应位点。
多个模块7826-7848还可包括与生物传感器7812通信的设备模块7836和确定与生物传感器7812相关的识别信息的识别模块7838。设备模块7836可例如与系统插座7810通信以确认生物传感器已与测序系统7800A建立电连接和流体连接。识别模块7838可接收识别生物传感器7812的信号。识别模块7838可使用生物传感器7812的身份来向用户提供其他信息。例如,识别模块7838可确定并随后显示批号、制造日期或建议与生物传感器7812一起运行的方案。
多个模块7826-7848还包括接收和分析来自生物传感器7812的信号数据(例如,图像数据)的分析模块7844(也称为信号处理模块或信号处理器)。分析模块7844包括用于存储检测/图像数据的存储器(例如,RAM或闪存)。检测数据可包括多个像素信号序列,使得可在许多碱基检出循环内检测来自数百万个传感器(或像素)中的每个传感器(或像素)的像素信号序列。信号数据可被存储用于后续分析,或者可被传输到用户界面7818以向用户显示所需信息。在一些具体实施中,信号数据可在分析模块7844接收到信号数据之前由固态成像器(例如,CMOS图像传感器)处理。
分析模块7844被配置为在多个测序循环的每个测序循环处从光检测器获得图像数据。图像数据来源于由光检测器检测到的发射信号,并且通过基于神经网络的模板生成器1512和/或基于神经网络的碱基检出器1514处理多个测序循环的每个测序循环的图像数据,并且在多个测序循环的每个测序循环处针对分析物中的至少一些产生碱基检出。光检测器可以是一个或多个俯视相机的一部分(例如,Illumina的GAIIx的CCD相机从顶部拍摄生物传感器7812上的簇的图像),或者可以是生物传感器7812本身的一部分(例如,Illumina的iSeq的CMOS图像传感器位于生物传感器7812上的簇下面并且从底部拍摄簇的图像)。
光检测器的输出是测序图像,每个测序图像描绘了簇及其周围背景的强度发射。测序图像描绘了由于在测序期间核苷酸掺入序列中而产生的强度发射。强度发射来自相关联的分析物及其周围背景。测序图像存储在存储器7848中。
协议模块7840和7842与主控制模块7824通信,以在进行预定的测定方案时控制子系统7808、7814和7804的操作。协议模块7840和7842可包括用于指示测序系统7800A根据预定的方案执行特定操作的指令集。如图所示,方案模块可以是边合成边测序(SBS)模块7840,其被配置为发出用于执行边合成边测序过程的各种命令。在SBS中,监测核酸引物沿核酸模板的延伸,以确定模板中核苷酸的序列。基础化学过程可以是聚合(例如,由聚合酶催化)或连接(例如,由连接酶催化)。在特定的基于聚合酶的SBS具体实施中,以依赖于模板的方式将荧光标记的核苷酸添加至引物(从而使引物延伸),使得对添加至引物的核苷酸的顺序和类型的检测可用于确定模板的序列。例如,为了启动第一SBS循环,可发出命令以将一个或多个标记的核苷酸、DNA聚合酶等递送至/通过容纳有核酸模板阵列的流通池。核酸模板可位于对应的反应位点。其中引物延伸导致标记的核苷酸掺入的那些反应位点可通过成像事件来检测。在成像事件期间,照明系统7816可向反应位点提供激发光。任选地,核苷酸可进一步包括可逆终止属性,一旦将核苷酸添加至引物,该可逆终止属性终止进一步的引物延伸。例如,可将具有可逆终止子部分的核苷酸类似物添加至引物,使得随后的延伸直到递送解封闭剂以除去该部分才发生。因此,对于使用可逆终止的具体实施,可发出命令以将解封闭剂递送到流通池(在检测发生之前或之后)。可发出一个或多个命令以实现各个递送步骤之间的洗涤。然后可重复该循环n次,以将引物延伸n个核苷酸,从而检测长度为n的序列。示例性测序技术描述于:例如Bentley等人,Nature 456:53-59(20078);WO 04/0178497、US 7,057,026、WO 91/066778、WO 07/123744、US 7,329,492、US 7,211,414、US7,315,019、US 7,405,2781和US 20078/01470780782,这些文献中的每一篇均以引用方式并入本文。
对于SBS循环的核苷酸递送步骤,可一次递送单一类型的核苷酸,或者可递送多种不同的核苷酸类型(例如,A、C、T和G一起)。对于一次仅存在单一类型的核苷酸的核苷酸递送构型,不同的核苷酸不需要具有不同的标记,因为它们可基于个体化递送中固有的时间间隔来区分。因此,测序方法或装置可使用单色检测。例如,激发源仅需要提供单个波长或单个波长范围内的激发。对于其中递送导致多种不同核苷酸同时存在于流通池中的核苷酸递送构型,可基于附着到混合物中相应核苷酸类型的不同荧光标记来区分掺入不同核苷酸类型的位点。例如,可使用四种不同的核苷酸,每种核苷酸具有四种不同荧光团中的一种。在一个具体实施中,可使用在光谱的四个不同区域中的激发来区分四种不同的荧光团。例如,可使用四种不同的激发辐射源。另选地,可使用少于四种不同的激发源,但来自单个源的激发辐射的光学过滤可用于在流通池处产生不同范围的激发辐射。
在一些具体实施中,可在具有四种不同核苷酸的混合物中检测到少于四种不同颜色。例如,核苷酸对可在相同波长下检测,但基于对中的一个成员相对于另一个成员的强度差异,或基于对中的一个成员的导致与检测到的该对的另一个成员的信号相比明显的信号出现或消失的变化(例如,通过化学改性、光化学改性或物理改性)来区分。使用少于四种颜色的检测来区分四种不同核苷酸的示例性装置和方法在例如以下专利中有所描述:美国专利申请序列号61/5378,294和61/619,78778,这些专利申请全文以引用方式并入本文中。2012年9月21日提交的美国申请13/624,200也全文以引用方式并入。
多个方案模块还可包括样品制备(或生成)模块7842,该模块被配置为向流体控制系统7808和温度控制系统7804发出命令,以用于扩增生物传感器7812内的产物。例如,生物传感器7812可接合至测序系统7800A。扩增模块7842可向流体控制系统7808发出指令,以将必要的扩增组分递送到生物传感器7812内的反应室。在其他具体实施中,反应位点可能已包含一些用于扩增的组分,诸如模板DNA和/或引物。在将扩增组分递送至反应室之后,扩增模块7842可指示温度控制系统7804根据已知的扩增方案循环通过不同的温度阶段。在一些具体实施中,扩增和/或核苷酸掺入等温进行。
SBS模块7840可发出命令以执行桥式PCR,其中克隆扩增子的簇形成于流通池的通道内的局部区域上。通过桥式PCR产生扩增子后,可将扩增子“线性化”以制备单链模板DNA或sstDNA,并且可将测序引物杂交至侧接感兴趣的区域的通用序列。例如,可如上所述或如下使用基于可逆终止子的边合成边测序方法。
每个碱基检出或测序循环可通过单个碱基延伸sstDNA,这可例如通过使用经修饰的DNA聚合酶和四种类型的核苷酸的混合物来完成。不同类型的核苷酸可具有独特的荧光标记,并且每个核苷酸还可具有可逆终止子,该可逆终止子仅允许在每个循环中发生单碱基掺入。在将单个碱基添加到sstDNA之后,激发光可入射到反应位点上并且可检测荧光发射。在检测后,可从sstDNA化学切割荧光标记和终止子。接下来可为另一个类似的碱基检出或测序循环。在这种测序方案中,SBS模块7840可指示流体控制系统7808引导试剂和酶溶液流过生物传感器7812。可与本文所述的设备和方法一起使用的基于可逆终止子的示例性SBS方法描述于美国专利申请公布2007/0166705 A1、美国专利申请公布2006/017878901A1、美国专利7,057,026、美国专利申请公布2006/0240439 A1、美国专利申请公布2006/027814714709 A1、PCT公布WO 05/0657814、美国专利申请公布2005/014700900 A1、PCT公布WO 06/078B199和PCT公布WO 07/01470251,这些专利中的每一篇均全文以引用方式并入本文。用于基于可逆终止子的SBS的示例性试剂描述于:US 7,541,444、US 7,057,026、US7,414,14716、US 7,427,673、US 7,566,537、US 7,592,435和WO 07/1478353678,这些专利中的每一篇均全文以引用方式并入本文。
在一些具体实施中,扩增模块和SBS模块可在单个测定方案中操作,其中例如扩增模板核酸并随后将其在同一盒内测序。
测序系统7800A还可允许用户重新配置测定方案。例如,测序系统7800A可通过用户界面7818向用户提供用于修改所确定的方案的选项。例如,如果确定生物传感器7812将用于扩增,则测序系统7800A可请求退火循环的温度。此外,如果用户已提供对于所选测定方案通常不可接受的用户输入,则测序系统7800A可向用户发出警告。
在具体实施中,生物传感器7812包括数百万个传感器(或像素),每个传感器(或像素)在连续的碱基检出循环内生成多个像素信号序列。分析模块7844根据传感器阵列上传感器的逐行和/或逐列位置来检测多个像素信号序列并将它们归属于对应的传感器(或像素)。
图79是用于分析来自测序系统7800A的传感器数据(诸如,碱基检出传感器输出)的系统的简化框图。在图79的示例中,系统包括可配置处理器7846。可配置处理器7846可与由中央处理单元(CPU)7852(即,主机处理器)执行的运行时程序协调地执行碱基检出器(例如,基于神经网络的模板生成器1512和/或基于神经网络的碱基检出器1514)。测序系统7800A包括生物传感器7812和流通池。流通池可包括一个或多个区块,其中遗传物质的簇暴露于分析物流的序列,该分析物流的序列用于引起簇中的反应以识别遗传物质中的碱基。传感器感测流通池的每个区块中该序列的每个循环的反应以提供区块数据。遗传测序是数据密集型操作,其将碱基检出传感器数据转换为在碱基检出操作期间感测到的遗传物质的每个簇的碱基检出序列。
该示例中的系统包括执行运行时程序以协调碱基检出操作的CPU 7852、用于存储区块数据阵列的序列的存储器7848B、由碱基检出操作产生的碱基检出读段,以及碱基检出操作中使用的其他信息。另外,在该图示中,系统包括存储器7848A,以存储配置文件(或多个文件)诸如FPGA位文件和用于配置和重新配置可配置处理器7846的神经网络的模型参数,并且执行神经网络。测序系统7800A可包括用于配置可配置处理器以及在一些实施方案中的可重构处理器的程序,以执行神经网络。
测序系统7800A通过总线7902耦接至可配置处理器7846。总线7902可使用高吞吐量技术来实现,诸如在一个示例中,总线技术与当前由PCI-SIG(PCI特别兴趣小组)维护和开发的PCIe标准(快速外围组件互连)兼容。同样在该示例中,存储器7848A通过总线7906耦接到可配置处理器7846。存储器7848A可以是设置在具有可配置处理器7846的电路板上的板上存储器。存储器7848A用于由可配置处理器7846高速访问在碱基检出操作中使用的工作数据。总线7906还可使用高吞吐量技术诸如与PCIe标准兼容的总线技术来实现。
可配置处理器,包括现场可编程门阵列FPGA、粗粒度可重构阵列CGRA以及其他可配置和可重构的设备,可被配置为比使用执行计算机程序的通用处理器可能实现的更有效或更快地实现各种功能。可配置处理器的配置涉及编译功能描述以产生有时称为位流或位文件的配置文件,以及将配置文件分发到处理器上的可配置元件。该配置文件通过将电路配置为设置数据流模式、分布式存储器和其他片上存储器资源的使用、查找表内容、可配置逻辑块和可配置执行单元(如乘法累加单元、可配置互连和可配置阵列的其他元件)的操作,来定义要由可配置处理器执行的逻辑功能。如果配置文件可在现场通过改变加载的配置文件而改变,则可配置处理器是可重构的。例如,配置文件可存储在易失性SRAM元件中、非易失性读写存储器元件中以及它们的组合中,分布在可配置或可重构处理器上的可配置元件阵列中。多种可商购获得的可配置处理器适用于如本文所述的碱基检出操作。示例包括Google的Tensor Processing Unit(TPU)TM、机架解决方案(如GX4 Rackmount SeriesTM、GX9 Rackmount SeriesTM)、NVIDIA DGX-1TM、Microsoft的Stratix V FPGATM、Graphcore的Intelligent Processor Unit(IPU)TM、Qualcomm的具有Snapdragon processorsTM的Zeroth PlatformTM、NVIDIA的VoltaTM、NVIDIA的DRIVE PXTM、NVIDIA的JETSON TX1/TX2MODULETM、Intel的NirvanaTM、Movidius VPUTM、Fujitsu DPITM、ARM的DynamicIQTM、IBMTrueNorthTM、具有Testa V100sTM的Lambda GPU服务器、Xilinx AlveoTM U200、XilinxAlveoTM U250、Xilinx AlveoTM U280、Intel/Altera StratixTM GX2800、Intel/AlteraStratixTM GX2800和Intel StratixTM GX10M。在一些示例中,主机CPU可在与可配置处理器相同的集成电路上实现。
本文所述的实施方案使用可配置处理器7846来实现基于神经网络的模板生成器1512和/或基于神经网络的碱基检出器1514。可配置处理器7846的配置文件可通过使用高级描述语言HDL或寄存器传输级RTL语言规范指定要执行的逻辑功能来实现。可使用被设计用于所选择的可配置处理器的资源来编译规范以生成配置文件。为了生成可能不是可配置处理器的专用集成电路的设计,可编译相同或相似的规范。
因此,在本文所述的所有实施方案中,可配置处理器7846的另选方案包括配置的处理器,该配置的处理器包括专用ASIC或专用集成电路或集成电路组,或片上系统(SOC)器件,或图形处理单元(GPU)处理器或粗粒度可重构架构(CGRA)处理器,该配置的处理器被配置为执行如本文所述的基于神经网络的碱基检出操作。
一般来讲,如被配置为执行神经网络的运行的本文所述的可配置处理器和配置的处理器在本文中称为神经网络处理器。
在该示例中,可配置处理器7846由使用CPU 7852执行的程序所加载的配置文件配置,或由在可配置处理器上配置可配置元件7916(例如,配置逻辑块(CLB),诸如查找表(LUT)、触发器、计算处理单元(PMU)和计算存储器单元(CMU)、可配置I/O块、可编程互连)的阵列的其他源配置,以执行碱基检出功能。在该示例中,该配置包括数据流逻辑7908,该数据流逻辑耦接到总线7902和7906并且执行用于在碱基检出操作中使用的元件之间分发数据和控制参数的功能。
另外,可配置处理器7846被配置为具有碱基检出执行逻辑7908,以执行基于神经网络的模板生成器1512和/或基于神经网络的碱基检出器1514。逻辑7908包括多循环执行簇(例如,7914),在该示例中,该多循环执行簇包括执行簇1至执行簇X。可根据涉及操作的所需吞吐量和可配置处理器7846上的可用资源的权衡来选择多循环执行簇的数量。
多循环执行簇通过使用可配置处理器7846上的可配置互连和存储器资源实现的数据流路径7910耦接到数据流逻辑7908。另外,多循环执行簇通过使用例如可配置处理器7846上的可配置互连和存储器资源实现的控制路径7912耦接到数据流逻辑7908,该控制路径提供指示可用执行簇、准备好为基于神经网络的模板生成器1512和/或基于神经网络的碱基检出器1514的运行的执行提供输入单元、准备好为基于神经网络的模板生成器1512和/或基于神经网络的碱基检出器1514提供经训练参数、准备好提供碱基检出分类数据的输出补片的控制信号,以及用于执行基于神经网络的模板生成器1512和/或基于神经网络的碱基检出器1514的其他控制数据。
可配置处理器7846被配置为使用经训练参数来执行基于神经网络的模板生成器1512和/或基于神经网络的碱基检出器1514的运行,以产生用于碱基检出操作的感测循环的分类数据。执行基于神经网络的模板生成器1512和/或基于神经网络的碱基检出器1514的运行,以产生用于碱基检出操作的受试者感测循环(subject sensing cycle)的分类数据。基于神经网络的模板生成器1512和/或基于神经网络的碱基检出器1514的运行对序列(包括来自N个感测循环的相应感测循环的区块数据的数字N个阵列)进行操作,其中N个感测循环在本文所述示例中针对时间序列中每个操作的一个碱基位置提供用于不同碱基检出操作的传感器数据。任选地,如果需要,根据正在执行的特定神经网络模型,N个感测循环中的一些可能会失序。数字N可以是大于1的任何数字。在本文所述的一些示例中,N个感测循环中的感测循环表示时间序列中受试者感测循环之前的至少一个感测循环和受试者循环(subject cycle)之后的至少一个感测循环的一组感测循环。本文描述了其中数字N为等于或大于五的整数的示例。
数据流逻辑7908被配置为使用用于给定运行的输入单元将区块数据和模型参数的至少一些经训练参数从存储器7848A移动到用于基于神经网络的模板生成器1512和/或基于神经网络的碱基检出器1514的运行的可配置处理器7846,输入单元包括用于N个阵列的空间对准的补片的区块数据。输入单元可通过一个DMA操作中的直接存储器存取操作来移动,或者在可用时隙期间与所部署的神经网络的执行相协调地移动的较小单元中移动。
如本文所述的用于感测循环的区块数据可包括具有一个或多个特征的传感器数据阵列。例如,传感器数据可包括两个图像,对这两个图像进行分析以识别在DNA、RNA或其他遗传物质的遗传序列中的碱基位置处的四种碱基中的一种。区块数据还可包括关于图像和传感器的元数据。例如,在碱基检出操作的实施方案中,区块数据可包括关于图像与簇的对准的信息,诸如距中心距离的信息,该距离指示传感器数据阵列中的每个像素距区块上遗传物质的簇的中心的距离。
在如下所述执行基于神经网络的模板生成器1512和/或基于神经网络的碱基检出器1514期间,区块数据还可包括在执行基于神经网络的模板生成器1512和/或基于神经网络的碱基检出器1514期间产生的数据,被称为中间数据,其可在基于神经网络的模板生成器1512和/或基于神经网络的碱基检出器1514的运行期间重复使用而不是重新计算。例如,在执行基于神经网络的模板生成器1512和/或基于神经网络的碱基检出器1514期间,数据流逻辑7908可将中间数据代替用于区块数据阵列的给定补片的传感器数据写入到存储器7848A。下文更详细地描述了类似于此的实施方案。
如图所示,描述了用于分析碱基检出传感器输出的系统,该系统包括可由运行时程序访问的存储器(例如,7848A),该存储器存储区块数据,该区块数据包括来自碱基检出操作的感测循环的区块的传感器数据。另外,该系统包括神经网络处理器,诸如可访问存储器的可配置处理器7846。神经网络处理器被配置为使用经训练参数来执行神经网络的运行,以产生用于感测循环的分类数据。如本文所述,神经网络的运行对来自N个感测循环的相应感测循环(包括受试者循环)的区块数据的N个阵列的序列进行操作,以产生受试者循环的分类数据。提供数据流逻辑908以使用输入单元(包括来自N个感测循环的相应感测循环的N个阵列的空间对准补片的数据)将区块数据和经训练参数从存储器移动到神经网络处理器以用于神经网络的运行。
另外,描述了一种系统,其中神经网络处理器可访问存储器,并且包括多个执行簇,所述多个执行簇中的执行簇被配置为执行神经网络。数据流逻辑7908可访问存储器和多个执行簇中的执行簇,以将区块数据的输入单元提供至所述多个执行簇中的可用执行簇,该输入单元包括来自相应感测循环(包括受试者感测循环)的区块数据阵列的数字N个空间对准补片,并且使执行簇将N个空间对准补片应用于神经网络以产生用于受试者感测循环的空间对准补片的分类数据的输出补片,其中N大于1。
图80是示出碱基检出操作的各方面的简化图,该操作包括由主机处理器执行的运行时程序的功能。在该图中,来自流通池的图像传感器的输出在线8000上提供给图像处理线程8001,该图像处理线程可对图像执行处理,诸如各个区块的传感器数据阵列中的对准和布置以及图像的重采样,并且可由为流通池中的每个区块计算区块簇掩码的过程使用,该过程识别与流通池的对应区块上的遗传物质的簇对应的传感器数据阵列中的像素。根据碱基检出操作的状态,图像处理线程8001的输出在线8002上提供给CPU中的调度逻辑8010,该调度逻辑将区块数据阵列在高速总线8003上路由到数据高速缓存8004(例如,SSD存储装置),或者在高速总线8005上路由到神经网络处理器硬件8020,诸如图79的可配置处理器7846。经处理和变换的图像可存储在数据高速缓存8004上,以用于先前使用的感测循环。硬件8020将由神经网络输出的分类数据返回到调度逻辑8080,该调度逻辑将信息传递到数据高速缓存8004,或者在线8011上传递到使用分类数据执行碱基检出和质量分数计算的线程8002,并且可以标准格式布置用于碱基检出读段的数据。在线8012上将执行碱基检出和质量分数计算的线程8002的输出提供给线程8003,该线程聚合碱基检出读段,执行其他操作诸如数据压缩,并且将所得的碱基检出输出写入指定目的地以供客户利用。
在一些实施方案中,主机可包括执行硬件8020的输出的最终处理以支持神经网络的线程(未示出)。例如,硬件8020可提供来自多簇神经网络的最终层的分类数据的输出。主机处理器可对分类数据执行输出激活功能诸如softmax功能,以配置供碱基检出和质量评分线程8002使用的数据。另外,主机处理器可执行输入操作(未示出),诸如在输入到硬件8020之前对区块数据进行批量归一化。
图81是可配置处理器7846诸如图79的可配置处理器的配置的简化图。在图81中,可配置处理器7846包括具有多个高速PCIe接口的FPGA。FPGA配置有封装器(wrapper)8100,该封装器包括参考图79描述的数据流逻辑7908。封装器8100通过CPU通信链路8109来管理与CPU中的运行时程序的接口和协调,并且经由DRAM通信链路8110来管理与板载DRAM 8102(例如,存储器7848A)的通信。封装器8100中的数据流逻辑7908将通过遍历板载DRAM 8102上的数字N个循环的区块数据阵列而检索到的补片数据提供到簇8101,并且从簇8101检索过程数据8115以递送回板载DRAM 8102。封装器8100还管理板载DRAM 8102和主机存储器之间的数据传输,以用于区块数据的输入阵列和分类数据的输出补片两者。封装器将线8113上的补片数据传输到分配的簇8101。封装器在线8112上将经训练参数诸如权重和偏差提供到从板载DRAM 8102检索的簇8101。封装器在线8111上将配置和控制数据提供到簇8101,该簇经由CPU通信链路8109从主机上的运行时程序提供或响应于该运行时程序而生成。簇还可在线8116上向封装器8100提供状态信号,该状态信号与来自主机的控制信号协作使用,以管理区块数据阵列的遍历,从而提供空间对准的补片数据,并且使用簇8101的资源对补片数据执行多循环神经网络。
如上所述,在由封装器8100管理的单个可配置处理器上可存在多个簇,所述多个簇被配置用于在区块数据的多个补片的对应补片上执行。每个簇可被配置为使用本文所述的多个感测循环的区块数据来提供受试者感测循环中的碱基检出的分类数据。
在系统的示例中,可将模型数据(包括内核数据,如过滤器权重和偏差)从主机CPU发送到可配置处理器,使得模型可根据循环次数进行更新。举一个代表性示例,碱基检出操作可包括大约数百个感测循环。在一些实施方案中,碱基检出操作可包括双端读段。例如,模型训练参数可以每20个循环(或其他数量的循环)更新一次,或者根据针对特定系统和神经网络模型实现的更新模式来更新。在包括双端读段的一些实施方案中,其中区块上的遗传簇中的给定字符串的序列包括从第一末端沿字符串向下(或向上)延伸的第一部分和从第二末端沿字符串向上(或向下)延伸的第二部分,可在从第一部分到第二部分的过渡中更新经训练参数。
在一些示例中,可将区块的感测数据的多个循环的图像数据从CPU发送到封装器8100。封装器8100可任选地对感测数据进行一些预处理和转换,并且将信息写入板载DRAM8102。每个感测循环的输入区块数据可包括传感器数据阵列,包括每个感测循环每个区块大约4000×3000个像素或更多,其中两个特征表示区块的两个图像的颜色,并且每个特征每个像素一个或两个字节。对于其中数字N为要在多循环神经网络的每个运行中使用的三个感测循环的实施方案,用于多循环神经网络的每个运行的区块数据阵列可消耗每个区块大约数百兆字节。在系统的一些实施方案中,区块数据还包括每个区块存储一次的DFC数据的阵列,或关于传感器数据和区块的其他类型的元数据。
在操作中,当多循环簇可用时,封装器将补片分配给簇。封装器在区块的遍历中获取区块数据的下一个补片,并将其连同适当的控制和配置信息一起发送到所分配的簇。簇可被配置为在可配置处理器上具有足够的存储器,以保存包括来自一些系统中的多个循环的补片且正被就地处理的数据补片,以及当在各种实施方案中使用乒乓缓冲技术或光栅扫描技术完成对当前补片的处理时将被处理的数据补片。
当分配的簇完成其对当前补片的神经网络的运行并产生输出补片时,其将发信号通知封装器。封装器将从分配的簇读取输出补片,或者另选地,分配的簇将数据推送到封装器。然后,封装器将为DRAM 8102中的经处理区块组装输出补片。当整个区块的处理已完成并且数据的输出补片已传输到DRAM时,封装器将区块的经处理输出阵列以指定格式发送回主机/CPU。在一些实施方案中,板载DRAM 8102由封装器8100中的存储器管理逻辑管理。运行时程序可控制测序操作,以连续流的方式完成运行中所有循环的区块数据的所有阵列的分析,从而提供实时分析。
技术改进和术语
碱基检出包括将荧光标记的标签与分析物结合或连接。分析物可为核苷酸或寡核苷酸,并且标签可用于特定核苷酸类型(A、C、T或G)。激发光被导向具有标签的分析物,并且标签发射可检测的荧光信号或强度发射。强度发射指示由化学附着到分析物的激发标签发射的光子。
在包括权利要求书的整个本申请中,当使用诸如或类似于“描绘分析物及其周围背景的强度发射的图像、图像数据或图像区域”的短语时,它们是指附着到分析物的标签的强度发射。本领域的技术人员将会知道,附着的标签的强度发射代表或等同于标签所附着到的分析物的强度发射,因此可互换使用。类似地,分析物的属性是指附着到分析物的标签的属性或来自所连接标签的强度发射的属性。例如,分析物的中心是指由附着到分析物的标签发射的强度发射的中心。在另一个示例中,分析物的周围背景是指由附着到分析物的标签发射的强度发射的周围背景。
本申请中引用的所有文献和类似材料,包括但不限于专利、专利申请、文章、书籍、论文和网页,无论这些文献和类似材料的格式如何,都明确地全文以引用方式并入。如果所并入文献和类似材料中的一者或多者与本申请不同或矛盾,包括但不限于所定义的术语、术语用法、所描述的技术等,则以本申请为准。
所公开的技术使用神经网络来改善可从核酸样品(诸如核酸模板或其互补序列,例如DNA或RNA多核苷酸或其他核酸样品)获得的核酸序列信息的质量和数量。因此,相对于先前可用的方法,所公开的技术的某些具体实施提供更高通量的多核苷酸测序,例如更高的DNA或RNA序列数据收集速率、更高的序列数据收集效率和/或获得这种序列数据的更低成本。
所公开的技术使用神经网络来识别固相核酸簇的中心并且分析在此类簇的测序期间生成的光信号,以明确地区分相邻、邻接或重叠的簇,以便将测序信号分配给单个离散源簇。因此,这些和相关具体实施允许从高密度簇阵列的区域检索有意义的信息诸如序列数据,其中由于重叠或非常紧密间隔的相邻簇的混杂效应,包括从其发出的重叠信号(例如,如在核酸测序中所用)的效应,先前无法从此类区域获得可用信息。
如下文更详细地描述,在某些具体实施中,提供了包含固体载体的组合物,该固体载体具有固定到其上的一个或多个如本文提供的核酸簇。每个簇包含多个相同序列的固定化核酸并且具有可识别中心,该可识别中心具有如本文所提供的可检测中心标记,通过该可检测中心标记可将可识别中心与簇中周围区域中的固定化核酸区分开。本文还描述了用于制造和使用具有可识别中心的此类簇的方法。
本发明所公开的具体实施将在许多情况下使用,其中从识别、确定、注释、记录或以其他方式分配簇内基本上中心位置的位置的能力中获得优势,诸如高通量核酸测序、用于将光学或其他信号分配给离散源簇的图像分析算法的开发,以及其中识别固定化核酸簇中心是期望的且有益的其他应用。
在某些具体实施中,本发明设想了涉及高通量核酸分析诸如核酸序列测定(例如,“测序”)的方法。示例性的高通量核酸分析包括但不限于从头测序、重新测序、全基因组测序、基因表达分析、基因表达监测、表观遗传分析、基因组甲基化分析、等位基因特异性引物延伸(APSE)、遗传多样性分析、全基因组多态性发现和分析、单核苷酸多态性分析、基于杂交的序列测定方法等。本领域的技术人员将会知道,可使用本发明的方法和组合物分析多种不同的核酸。
虽然关于核酸测序描述了本发明的具体实施,但它们适用于分析在不同时间点、空间位置或其他时间或物理视角采集的图像数据的任何领域。例如,本文所述的方法和系统可用于分子和细胞生物学领域,其中在不同的时间点或视角采集来自微阵列、生物标本、细胞、生物体等的图像数据并进行分析。图像可使用本领域已知的任何数量的技术获得,包括但不限于荧光显微镜法、光学显微镜法、共聚焦显微镜法、光学成像、磁共振成像、断层扫描等。又如,可应用本文所述的方法和系统,其中在不同的时间点或视角采集通过监测、空中或卫星成像技术等获得的图像数据并进行分析。该方法和系统尤其可用于分析针对视野获得的图像,其中被观察的分析物在视野中相对于彼此保持在相同位置。然而,该分析物可能具有在单独图像中不同的特征,例如,该分析物可能在视野的单独图像中看起来不同。例如,就在不同图像中检测到的给定分析物的颜色、在不同图像中检测到的给定分析物的信号强度的变化、或者甚至在一个图像中检测到的给定分析物的信号出现以及在另一个图像中检测到的该分析物的信号消失而言,分析物可能看起来不同。
本文所述的示例可用于学术或商业分析的各种生物或化学过程和系统。更具体地,本文所述的示例可用于期望检测指示指定反应的事件、属性、质量或特征的各种过程和系统中。例如,本文所述的示例包括光检测设备、生物传感器及其部件,以及与生物传感器一起操作的生物测定系统。在一些示例中,设备、生物传感器和系统可包括流通池和一个或多个光传感器,它们以基本上一体的结构(可移除地或固定地)耦接在一起。
这些设备、生物传感器和生物测定系统可被配置为执行可单独或共同检测的多个指定反应。这些设备、生物传感器和生物测定系统可被配置为执行多个循环,其中所述多个指定反应同步发生。例如,这些设备、生物传感器和生物测定系统可用于通过酶操纵和光或图像检测/采集的迭代循环对DNA特征的密集阵列进行测序。因此,这些设备、生物传感器和生物测定系统(例如,经由一个或多个盒)可包括一个或多个微流体通道,所述一个或多个微流体通道将反应溶液中的试剂或其他反应组分递送到这些设备、生物传感器和生物测定系统的反应位点。在一些示例中,反应溶液可为基本上酸性的,诸如具有小于或等于约5,或小于或等于约4,或小于或等于约3的pH。在一些其他示例中,反应溶液可为基本上碱的/碱性的,诸如具有大于或等于约8,或大于或等于约9,或大于或等于约10的pH。如本文所用,术语“酸度”及其语法变型是指小于约7的pH值,并且术语“碱度”、“碱性”及其语法变型是指大于约7的pH值。
在一些示例中,反应位点以预定方式提供或间隔开,诸如以均匀或重复的模式提供或间隔开。在一些其他示例中,反应位点是随机分布的。每个反应位点可与一个或多个光导以及检测来自相关联反应位点的光的一个或多个光传感器相关联。在一些示例中,反应位点位于反应凹槽或反应室中,这可至少部分地分隔其中的指定反应。
如本文所用,“指定反应”包括感兴趣的化学或生物物质(例如,感兴趣的分析物)的化学、电、物理或光学性质(或质量)中的至少一者的变化。在特定示例中,指定反应为阳性结合事件,例如,将荧光标记的生物分子与感兴趣的分析物结合。更一般地,指定反应可以是化学转化、化学变化或化学相互作用。指定反应也可为电属性的变化。在特定示例中,指定反应包括将荧光标记的分子与分析物结合。分析物可为寡核苷酸,并且荧光标记的分子可为核苷酸。当激发光被导向具有标记核苷酸的寡核苷酸,并且荧光团发出可检测的荧光信号时,可检测到指定反应。在另选的示例中,检测到的荧光是化学发光或生物发光的结果。指定反应还可例如通过使供体荧光团接近受体荧光团来增加荧光(或
Figure BDA0002860234930000871
)共振能量转移(FRET),通过分离供体荧光团和受体荧光团来降低FRET,通过分离淬灭基团与荧光团来增加荧光,或通过共定位淬灭基团和荧光团来减少荧光。
如本文所用,“反应溶液”、“反应组分”或“反应物”包括可用于获得至少一种指定反应的任何物质。例如,可能的反应组分包括例如试剂、酶、样品、其他生物分子和缓冲液。可将反应组分递送至溶液中的反应位点和/或固定在反应位点处。反应组分可直接或间接地与另一种物质相互作用,诸如固定在反应位点的感兴趣的分析物。如上所述,反应溶液可以是基本上酸性的(即,包括相对高的酸度)(例如,具有小于或等于约5的pH,小于或等于约4的pH,或小于或等于约3的pH)或基本上碱的/碱性的(即,包括相对高的碱性/碱度)(例如,具有大于或等于约8的pH,大于或等于约9的pH,或大于或等于约10的pH)。
如本文所用,术语“反应位点”是可发生至少一个指定反应的局部区域。反应位点可包括其上可固定物质的反应结构或基板的支撑表面。例如,反应位点可包括其上具有反应组分(诸如其上的核酸群体)的反应结构的表面(可位于流通池的通道中)。在一些此类示例中,群体中的核酸具有相同的序列,例如为单链或双链模板的克隆拷贝。然而,在一些示例中,反应位点可仅包含单个核酸分子,例如单链或双链形式。
多个反应位点可沿着反应结构随机分布或以预定方式布置(例如,在矩阵中并排布置,诸如在微阵列中)。反应位点还可包括反应室或反应凹槽,其至少部分地限定了被配置为分隔指定反应的空间区域或体积。如本文所用,术语“反应室”或“反应凹槽”包括支撑结构的限定空间区域(其通常与流动通道流体连通)。反应凹槽可至少部分地与其他或空间区域的周围环境隔开。例如,多个反应凹槽可通过共用壁诸如检测表面彼此隔开。作为更具体的示例,反应凹槽可以是包括由检测表面的内表面限定的凹痕、凹坑、孔、槽、腔或凹陷的纳米孔,并且具有开口或孔隙(即,为敞开的),使得纳米孔可与流动通道流体连通。
在一些示例中,反应结构的反应凹槽的尺寸和形状相对于固体(包括半固体)被设定成使得固体可完全或部分地插入其中。例如,反应凹槽的尺寸和形状可被设定成容纳捕获小珠。该捕获小珠可在其上具有克隆扩增的DNA或其他物质。或者,反应凹槽的尺寸和形状可被设定成接纳大约数量的小珠或固体基板。又如,反应凹槽可填充有多孔凝胶或物质,该多孔凝胶或物质被配置为控制扩散或过滤可流入反应凹槽的流体或溶液。
在一些示例中,光传感器(例如,光电二极管)与对应的反应位点相关联。与反应位点相关联的光传感器被配置为当在相关联的反应位点处已发生指定反应时,经由至少一个光导检测来自相关联的反应位点的光发射。在一些情况下,多个光传感器(例如,光检测或相机设备的若干像素)可与单个反应位点相关联。在其他情况下,单个光传感器(例如,单个像素)可与单个反应位点或与一组反应位点相关联。光传感器、反应位点和生物传感器的其他特征可被配置为使得光中的至少一些被光传感器直接检测到而不被反射。
如本文所用,“生物或化学物质”包括生物分子、感兴趣的样品、感兴趣的分析物和其他化合物。生物或化学物质可用于检测、识别或分析其他化合物,或者用作研究或分析其他化合物的中间物。在特定示例中,生物或化学物质包括生物分子。如本文所用,“生物分子”包括生物聚合物、核苷、核酸、多核苷酸、寡核苷酸、蛋白质、酶、多肽、抗体、抗原、配体、受体、多糖、碳水化合物、多磷酸盐、细胞、组织、生物体或它们的片段中的至少一种,或任何其他生物活性化合物诸如前述物质的类似物或模拟物。在另一个示例中,生物或化学物质或生物分子包括在偶联反应中用于检测另一反应的产物的酶或试剂,诸如酶或试剂,诸如用于在焦磷酸测序反应中检测焦磷酸盐的酶或试剂。可用于焦磷酸盐检测的酶和试剂描述于例如美国专利公布2005/0244870 A1中,其全文以引用方式并入。
生物分子、样品以及生物或化学物质可为天然存在的或合成的,并且可悬浮在反应凹槽或区域内的溶液或混合物中。生物分子、样品以及生物或化学物质也可结合至固相或凝胶材料。生物分子、样品以及生物或化学物质也可包括药物组合物。在一些情况下,感兴趣的生物分子、样品以及生物或化学物质可称为靶标、探针或分析物。
如本文所用,“生物传感器”包括具有多个反应位点的反应结构的设备,该设备被配置为检测在反应位点处或附近发生的指定反应。生物传感器可包括固态光检测或“成像”设备(例如,CCD或CMOS光检测设备)以及任选地安装到其上的流通池。流通池可包括与反应位点流体连通的至少一个流动通道。作为一个具体示例,生物传感器被配置为流体耦接和电耦接到生物测定系统。生物测定系统可根据预定方案(例如,边合成边测序)将反应溶液递送到反应位点,并且执行多个成像事件。例如,生物测定系统可引导反应溶液沿反应位点流动。反应溶液中的至少一种可包含四种类型的具有相同或不同荧光标记的核苷酸。核苷酸可结合至反应位点,诸如结合至反应位点处的对应寡核苷酸。然后,生物测定系统可使用激发光源(例如固态光源,诸如发光二极管(LED))照亮反应位点。激发光可具有预定的一个或多个波长,包括一个波长范围。由入射激发光激发的荧光标记可提供可由光传感器检测的发射信号(例如,与激发光不同并且可能彼此不同的一个或多个波长的光)。
如本文所用,当关于生物分子或生物或化学物质使用时,术语“固定的”包括在分子水平上基本上将生物分子或生物或化学物质连接到表面,诸如连接到光检测设备或反应结构的检测表面。例如,可使用吸附技术将生物分子或生物或化学物质固定到反应结构的表面,所述吸附技术包括非共价相互作用(例如,静电力、范德华力以及疏水界面的脱水)和共价结合技术,其中官能团或接头有利于将生物分子连接到表面。将生物分子或生物或化学物质固定到表面可基于表面的属性、携带生物分子或生物或化学物质的液体介质以及生物分子或生物或化学物质本身的属性。在一些情况下,表面可被官能化(例如,化学或物理改性),以有利于将生物分子(或生物或化学物质)固定到表面。
在一些示例中,核酸可固定到反应结构,诸如固定到其反应凹槽的表面。在特定示例中,本文所述的设备、生物传感器、生物测定系统和方法可包括使用天然核苷酸以及被配置为与天然核苷酸相互作用的酶。天然核苷酸包括例如核糖核苷酸或脱氧核糖核苷酸。天然核苷酸可为单磷酸盐、二磷酸盐或三磷酸盐形式,并且可具有选自腺嘌呤(A)、胸腺嘧啶(T)、尿嘧啶(U)、乌嘌呤(G)或胞嘧啶(C)的碱基。然而,应当理解,可使用非天然核苷酸、经修饰的核苷酸或前述核苷酸的类似物。
如上所述,生物分子或生物或化学物质可固定在反应结构的反应凹槽中的反应位点处。此类生物分子或生物物质可通过过盈配合、粘附、共价键或截留物理地保持或固定在反应凹槽内。可设置在反应凹槽内的物品或固体的示例包括聚合物小珠、微丸、琼脂糖凝胶、粉末、量子点或可被压缩和/或保持在反应室内的其他固体。在某些具体实施中,反应凹槽可涂覆或填充有能够共价结合DNA寡核苷酸的水凝胶层。在特定示例中,核酸超结构(诸如DNA球)可例如通过附接至反应凹槽的内表面或通过停留在反应凹槽内的液体中而设置在反应凹槽中或反应凹槽处。可进行DNA球或其他核酸超结构,然后将其设置在反应凹槽中或反应凹槽处。另选地,DNA球可在反应凹槽处原位合成。固定在反应凹槽中的物质可为固态、液态或气态。
如本文所用,术语“分析物”旨在表示图案中的点或区域,其可根据相对位置区别于其他点或区域。单个分析物可包括一种或多种特定类型的分子。例如,分析物可包括具有特定序列的单个靶核酸分子,或者分析物可包括具有相同序列(和/或其互补序列)的若干核酸分子。位于图案的不同分析物处的不同分子可根据分析物在图案中的位置而彼此区分。示例性分析物包括但不限于基板中的孔、基板中或基板上的小珠(或其他颗粒)、基板的突出部、基板上的脊、基板上的凝胶材料垫或基板中的通道。
待检测、表征或鉴定的多种靶分析物中的任一种可用于本文所述的设备、系统或方法中。示例性分析物包括但不限于核酸(例如,DNA、RNA或它们的类似物)、蛋白质、多糖、细胞、抗体、表位、受体、配体、酶(例如,激酶、磷酸酶或聚合酶)、小分子候选药物、细胞、病毒、生物体等。
术语“分析物”、“核酸”、“核酸分子”和“多核苷酸”在本文中可互换使用。在各种具体实施中,核酸可用作如本文所提供的模板(例如,核酸模板,或与核酸模板互补的核酸互补序列)以用于特定类型的核酸分析,包括但不限于核酸扩增、核酸表达分析和/或核酸序列测定或它们的合适组合。在某些具体实施中,核酸包括例如3′-5′磷酸二酯或其他键中的脱氧核糖核苷酸的线性聚合物,诸如脱氧核糖核酸(DNA),例如单链和双链DNA、基因组DNA、拷贝DNA或互补DNA(cDNA)、重组DNA或任何形式的合成或修饰DNA。在其他具体实施中,核酸包括例如3′-5′磷酸二酯或其他键中的核糖核苷酸的线性聚合物,诸如核糖核酸(RNA),例如单链和双链RNA、信使(mRNA)、拷贝RNA或互补RNA(cRNA)、选择性剪接的mRNA、核糖体RNA、核仁小RNA(snoRNA)、微小RNA(miRNA)、小干扰RNA(sRNA)、piwi RNA(piRNA)或任何形式的合成或修饰的RNA。用于本发明的组合物和方法中的核酸的长度可变化,并且可以是完整的或全长的分子或片段或较大核酸分子的较小部分。在特定具体实施中,核酸可具有一种或多种可检测标记,如本文别处所述。
术语“分析物”、“簇”、“核酸簇”、“核酸群体”和“DNA簇”可互换使用,指附着到固体载体的核酸模板和/或其互补序列的多个拷贝。通常并且在某些优选的具体实施中,核酸簇包含模板核酸和/或其互补序列的多个拷贝,所述多个拷贝通过它们的5′末端连接至固体载体。构成核酸簇的核酸链的拷贝可为单链或双链形式。簇中存在的核酸模板的拷贝可在例如由于标记部分的存在而彼此不同的对应位置处具有核苷酸。对应的位置还可包含具有不同化学结构但具有相似Watson-Crick碱基配对属性的类似结构,诸如尿嘧啶和胸腺嘧啶的情况。
核酸群体也可称为“核酸簇”。核酸群体可任选地通过簇扩增或桥式扩增技术产生,如本文其他地方进一步详细阐述的。靶序列的多个重复可存在于单个核酸分子中,诸如使用滚环扩增程序产生的多联体。
根据所用的条件,本发明的核酸簇可具有不同的形状、大小和密度。例如,簇可具有基本上圆形、多边形、圆环形或环形的形状。核酸簇的直径可被设计成约0.2μm至约6μm、约0.3μm至约4μm、约0.4μm至约3μm、约0.5μm至约2μm、约0.75μm至约1.5μm或任何介于其间的直径。在特定具体实施中,核酸簇的直径为约0.5μm、约1μm、约1.5μm、约2μm、约2.5μm、约3μm、约4μm、约5μm或约6μm。核酸簇的直径可受到多个参数的影响,包括但不限于产生簇时进行的扩增循环数、核酸模板的长度或附着到其上形成有簇的表面的引物的密度。核酸簇的密度可被设计成通常在0.1/mm2、1/mm2、10/mm2、100/mm2、1,000/mm2、10,000/mm2至100,000/mm2的范围内。本发明还部分地设想了较高密度的核酸簇,例如100,000/mm2至1,000,000/mm2和1,000,000/mm2至10,000,000/mm2
如本文所用,“分析物”是标本或视野内的感兴趣区域。当与微阵列设备或其他分子分析设备结合使用时,分析物是指由类似或相同分子占据的区域。例如,分析物可以是扩增的寡核苷酸或具有相同或相似序列的任何其他组的多核苷酸或多肽。在其他具体实施中,分析物可为占据标本上的物理区域的任何元素或元素组。例如,分析物可以是一片土地、一片水域等。当对分析物成像时,每种分析物都会有一定的面积。因此,在许多具体实施中,分析物不仅仅是一个像素。
分析物之间的距离可用任意多种方式描述。在一些具体实施中,分析物之间的距离可被描述为从一种分析物的中心到另一种分析物的中心。在其他具体实施中,距离可被描述为从一种分析物的边缘到另一种分析物的边缘,或者在每种分析物的最外侧可识别点之间。分析物的边缘可被描述为芯片上的理论或实际物理边界,或分析物边界内的某个点。在其他具体实施中,距离可相对于标本上的固定点或标本的图像中的固定点来描述。
一般来讲,本文将关于分析方法来描述若干具体实施。应当理解,还提供了用于以自动化或半自动化的方式执行方法的系统。因此,本公开提供了基于神经网络的模板生成和碱基检出系统,其中该系统可包括处理器;存储设备;以及用于图像分析的程序,该程序包括用于执行本文所述方法中的一种或多种方法的指令。因此,本文所述的方法可在例如具有本文所述或本领域已知的组件的计算机上进行。
本文示出的方法和系统可用于分析多种对象中的任一种。特别有用的对象是具有连接的分析物的固体载体或固相表面。当用于在xy平面中具有分析物的重复图案的对象时,本文示出的方法和系统提供优点。一个示例是具有细胞、病毒、核酸、蛋白质、抗体、碳水化合物、小分子(诸如候选药物)、生物活性分子或其他感兴趣的分析物的连接集合的微阵列。
已经开发出越来越多的应用,用于具有生物分子(诸如核酸和多肽)的分析物的阵列。此类微阵列通常包括脱氧核糖核酸(DNA)或核糖核酸(RNA)探针。这些探针对人类和其他生物体中存在的核苷酸序列为特异性的。在某些应用中,例如,可将单个DNA或RNA探针连接到阵列的单个分析物上。可将诸如来自已知的人或生物体的试样暴露于阵列,使得靶核酸(例如,基因片段、mRNA或其扩增子)与阵列中相应分析物处的互补探针杂交。探针可在靶标特异性过程中进行标记(例如,由于存在于靶核酸上的标记或由于在分析物中以杂交形式存在的探针或靶标的酶标记)。然后可通过扫描分析物上特定频率的光来检查阵列,以识别样品中存在哪些靶核酸。
生物微阵列可用于基因测序和类似应用。一般来讲,基因测序包括确定靶核酸(诸如DNA或RNA的片段)的长度中的核苷酸顺序。相对短的序列通常在每种分析物处进行测序,并且所得的序列信息可用于各种生物信息学方法中以将序列片段逻辑地拟合在一起,从而可靠地确定从其衍生出片段的遗传物质的长度范围更广的序列。已开发出用于特征性片段的自动化的、基于计算机的算法,并且最近已将其用于基因组作图、基因及其功能的鉴定等。微阵列尤其可用于表征基因组含量,因为存在大量变体,并且这取代了对单个探针和靶标进行许多实验的选择方案。微阵列是用于以实际方式进行此类研究的理想形式。
本领域已知的多种分析物阵列(也称为“微阵列”)中的任一种均可用于本文所述的方法或系统中。典型的阵列包含分析物,每种分析物具有单独的探针或探针群。在后一种情况下,每种分析物处的探针群通常是同质的,具有单一种类的探针。例如,就核酸阵列而言,每种分析物可具有多个核酸分子,每个核酸分子具有共同的序列。然而,在一些具体实施中,阵列的每种分析物处的探针群可以是异质的。类似地,蛋白质阵列可具有含单个蛋白质或蛋白质群的分析物,单个蛋白质或蛋白质群通常但不总是具有相同的氨基酸序列。探针可例如通过探针与表面的共价键合或通过探针与表面的非共价相互作用附着到阵列的表面。在一些具体实施中,探针诸如核酸分子可经由凝胶层附着到表面,如例如在以下专利申请中所述:美国专利申请序列号13/784,368和美国专利申请公布2011/0059865 A1中,这些专利申请中的每一篇均以引用方式并入本文。
示例性阵列包括但不限于得自Illumina公司(San Diego,Calif.)的BeadChip阵列或其他阵列,诸如其中探针附着到存在于表面上的小珠(例如,表面上的孔中的小珠)的那些阵列,例如美国专利6,266,459、6,355,431、6,770,441、6,859,570或7,622,294,或PCT公布WO 00/63437,这些专利申请中的每一篇均以引用方式并入本文。可使用的可商购获得的微阵列的其他示例包括,例如,
Figure BDA0002860234930000941
微阵列或根据有时称为VLSIPSTM(超大规模固定化聚合物合成)技术合成的其他微阵列。点状微阵列也可用于根据本发明的一些具体实施的方法或系统中。示例性点状微阵列是得自Amersham Biosciences的CodeLinkTM阵列。可用的另一个微阵列是使用喷墨印刷方法(诸如得自AgilentTechnologies的SurePrintTM技术)制造的微阵列。
其他可用的阵列包括用于核酸测序应用的阵列。例如,具有基因组片段扩增子的阵列(通常称为簇)是特别有用的,诸如在Bentley等人,Nature 456:53-59(2008);WO 04/018497;WO 91/06678;WO 07/123744;美国专利7,329,492;7,211,414;7,315,019;7,405,281或7,057,026;或美国专利申请公布2008/0108082 A1中所述的那些,这些文献中的每一篇均以引用方式并入本文。可用于核酸测序的另一种类型的阵列是由乳液PCR技术产生的颗粒的阵列。示例描述于:Dressman等人,Proc.Natl.Acad.Sci.USA 100:8817-8822(2003);WO 05/010145;美国专利申请公布2005/0130173或美国专利申请公布2005/0064460,这些文献中的每一篇均全文以引用方式并入本文。
用于核酸测序的阵列通常具有核酸分析物的随机空间模式。例如,得自Illumina公司(San Diego,Calif.)的HiSeq或MiSeq测序平台利用流通池,在该流通池上通过随机接种然后桥式扩增形成核酸阵列。然而,图案化阵列也可用于核酸测序或其他分析应用。示例性图案化阵列、其制造方法及其使用方法阐述于以下美国专利中:美国序列号13/787,396、美国序列号13/783,043、美国序列号13/784,368、美国专利申请公布2013/0116153 A1和美国专利申请公布2012/0316086 A1,这些专利申请中的每一篇均以引用方式并入本文。此类图案化阵列的分析物可用于捕获单个核酸模板分子以进行接种,随后例如经由桥式扩增形成同质群体。此类图案化阵列尤其可用于核酸测序应用。
可选择阵列(或本文的方法或系统中使用的其他对象)上的分析物的尺寸以适合特定应用。例如,在一些具体实施中,阵列的分析物可具有仅容纳单个核酸分子的尺寸。具有多个在该尺寸范围内的分析物的表面可用于构造分子阵列,从而以单分子分辨率进行检测。该尺寸范围内的分析物也可用于具有分析物的阵列中,这些分析物各自包含核酸分子的群体。因此,阵列的分析物可各自具有不大于约1mm2、不大于约500μm2、不大于约100μm2、不大于约10μm2、不大于约1μm2、不大于约500nm2、或不大于约100nm2、不大于约10nm2、不大于约5nm2或不大于约1nm2的面积。另选地或除此之外,阵列的分析物将不小于约1mm2、不小于约500μm2、不小于约100μm2、不小于约10μm2、不小于约1μm2、不小于约500nm2、不小于约100nm2、不小于约10nm2、不小于约5nm2或不小于约1nm2。实际上,分析物可具有在选自上文所例示的那些上限和下限之间的范围内的尺寸。尽管已关于核酸和核酸的尺度举例说明了表面的分析物的若干尺寸范围,但应当理解,这些尺寸范围内的分析物可用于不包括核酸的应用。还应当理解,分析物的尺寸不必局限于核酸应用中使用的尺度。
对于包括具有多种分析物的对象(诸如,分析物的阵列)的具体实施而言,分析物可以是离散的,彼此之间有间隔。可用于本发明的阵列可具有由至多100μm、50μm、10μm、5μm、1μm、0.5μm或更小的边缘到边缘距离隔开的分析物。另选地或除此之外,阵列可具有由至少0.5μm、1μm、5μm、10μm、50μm、100μm或更大的边缘到边缘距离隔开的分析物。这些范围可适用于分析物的平均边缘到边缘间距以及最小或最大间距。
在一些具体实施中,阵列的分析物不必是离散的,相反相邻的分析物可彼此邻接。无论分析物是否为离散的,分析物的尺寸和/或分析物的间距都可变化,使得阵列可具有期望的密度。例如,规则图案中的平均分析物间距可为至多100μm、50μm、10μm、5μm、1μm、0.5μm或更小。另选地或除此之外,规则图案中的平均分析物间距可为至少0.5μm、1μm、5μm、10μm、50μm、100μm或更大。这些范围也可适用于规则图案的最大或最小间距。例如,规则图案的最大分析物间距可为至多100μm、50μm、10μm、5μm、1μm、0.5μm或更小;并且/或者规则图案中的最小分析物间距可为至少0.5μm、1μm、5μm、10μm、50μm、100μm或更大。
阵列中分析物的密度也可根据每单位面积存在的分析物数量来理解。例如,阵列的平均分析物密度可为至少约1×103个分析物/mm2、1×104个分析物/mm2、1×105个分析物/mm2、1×106个分析物/mm2、1×107个分析物/mm2、1×108个分析物/mm2或1×109个分析物/mm2或更高。另选地或除此之外,阵列的平均分析物密度可为至多约1×109个分析物/mm2、1×108个分析物/mm2、1×107个分析物/mm2、1×106个分析物/mm2、1×105个分析物/mm2、1×104个分析物/mm2或1×103个分析物/mm2或更低。
上述范围可适用于规则图案的全部或部分,包括例如分析物阵列的全部或部分。
图案中的分析物可具有多种形状中的任一种。例如,当在二维平面内(诸如在阵列的表面上)观察时,分析物可看起来为圆形、环形、椭圆形、矩形、正方形、对称的、不对称的、三角形、多边形等。分析物可以规则的重复图案布置,包括例如六边形或直线形图案。可选择图案以实现所需的填充水平。例如,圆形分析物以六边形布置进行最佳填充。当然,其他填充布置也可用于圆形分析物,并且反之亦然。
图案可根据在形成该图案的最小几何单元的子集中存在的分析物的数量来表征。该子集可包括例如至少约2、3、4、5、6、10种或更多种分析物。根据分析物的尺寸和密度,几何单元可占据小于1mm2、500μm2、100μm2、50μm2、10μm2、1μm2、500nm2、100nm2、50nm2、10nm2或更小的面积。另选地或除此之外,几何单元可占据大于10nm2、50nm2、100nm2、500nm2、1μm2、10μm2、50μm2、100μm2、500μm2、1mm2或更大的面积。几何单元中的分析物的特征(诸如形状、尺寸、间距等)可选自本文针对阵列或图案中的分析物更一般地阐述的那些。
具有分析物的规则图案的阵列关于分析物的相对位置可为有序的,但关于每种分析物的一个或多个其他特征为随机的。例如,就核酸阵列而言,核酸分析物关于其相对位置可为有序的,但关于人们对存在于任何特定分析物处的核酸物质的序列的了解为随机的。作为更具体的示例,通过用模板核酸接种分析物的重复图案,并在每种分析物处扩增模板以在分析物处形成模板的拷贝(例如,通过簇扩增或桥式扩增)形成的核酸阵列将具有核酸分析物的规则图案,但关于核酸序列在整个阵列中的分布将是随机的。因此,通常在阵列上检测核酸材料的存在可产生分析物的重复图案,而序列特异性检测可产生信号在整个阵列上的非重复分布。
应当理解,本文对图案、顺序、随机性等的描述不仅涉及对象上的分析物,诸如阵列上的分析物,而且还涉及图像中的分析物。因此,图案、顺序、随机性等可以用于存储、操纵或传送图像数据的多种格式中的任一种存在,包括但不限于计算机可读介质或计算机部件,诸如图形用户界面或其他输出设备。
如本文所用,术语“图像”旨在表示对象的全部或部分的表示。该表示可以是光学检测的再现。例如,可从荧光、发光、散射或吸收信号获得图像。存在于图像中的对象的部分可以是对象的表面或其他xy平面。通常,图像为二维表示,但在一些情况下,图像中的信息可来源于3个或更多个维度。图像不需要包括光学检测的信号。相反,可存在非光信号。图像可以计算机可读格式或介质提供,诸如在本文其他地方阐述的那些中的一者或多者。
如本文所用,“图像”是指标本或其他对象的至少一部分的再现或表示。在一些具体实施中,再现是例如由相机或其他光学检测器产生的光学再现。该再现可以是非光学再现,例如,从纳米孔分析物阵列获得的电信号的表示或从离子敏感型CMOS检测器获得的电信号的表示。在特定具体实施中,非光学再现可从本文阐述的方法或设备中排除。图像可具有能够区分以多种间距中的任一种存在的标本的分析物的分辨率,所述间距包括例如间隔小于100μm、50μm、10μm、5μm、1μm或0.5μm的那些间距。
如本文所用,“获取”、“采集”等术语是指获得图像文件的过程的任何部分。在一些具体实施中,数据采集可包括生成标本的图像,查找标本中的信号,指示检测设备查找或生成信号的图像,给出用于进一步分析或转换图像文件的指令,以及图像文件的任何数量的转换或操纵。
如本文所用,术语“模板”是指信号或分析物之间的位置或关系的表示。因此,在一些具体实施中,模板是具有对应于标本中的分析物的信号的表示的物理网格。在一些具体实施中,模板可以是指示与分析物对应的位置的图表、表格、文本文件或其他计算机文件。在本文呈现的具体实施中,生成模板以便跟踪在不同参考点处捕获的标本的图像集上标本的分析物的位置。例如,模板可以是一组x,y坐标或描述一种分析物相对于另一种分析物的方向和/或距离的一组值。
如本文所用,术语“标本”可指捕获图像的对象或对象的区域。例如,在拍摄地球表面的图像的具体实施中,一片土地可为标本。在流通池中进行生物分子的分析的其他具体实施中,流通池可被分成任何数量的子部分,每个子部分可为标本。例如,流通池可被分成各种流动通道或槽道,并且每个槽道可被进一步分成2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、110、120、140、160、180、200、400、600、800、1000或更多个单独的成像区域。流通池的一个示例具有8个槽道,其中每个槽道被分成120个标本或区块。在另一个具体实施中,标本可由多个区块或甚至整个流通池组成。因此,每个标本的图像可表示较大表面的成像区域。
应当理解,本文所述的对范围和序数列表的引用不仅包括所枚举的数字,而且还包括所枚举的数字之间的所有实数。
如本文所用,“参考点”是指图像之间的任何时间或物理区别。在优选的具体实施中,参考点为时间点。在更优选的具体实施中,参考点是测序反应期间的时间点或循环。然而,术语“参考点”可包括区分或分离图像的其他方面,诸如角度方面、旋转方面、时间方面或可区分或分离图像的其他方面。
如本文所用,“图像子集”是指集合内的图像集。例如,子集可包含1个、2个、3个、4个、6个、8个、10个、12个、14个、16个、18个、20个、30个、40个、50个、60个图像或选自图像集的任意数量个图像。在特定具体实施中,子集可包含不超过1个、2个、3个、4个、6个、8个、10个、12个、14个、16个、18个、20个、30个、40个、50个、60个图像或选自图像集的任意数量个图像。在优选的具体实施中,从一个或多个测序循环获得图像,其中四个图像与每个循环相关。因此,例如,子集可以是通过四个循环获得的一组16个图像。
碱基是指如下核苷酸碱基或核苷酸,A(腺嘌呤)、C(胞嘧啶)、T(胸腺嘧啶)或G(鸟嘌呤)。本专利申请可互换使用“碱基”和“核苷酸”。
术语“染色体”是指活细胞的携带遗传性的基因载体,其来源于包含DNA和蛋白质组分(尤其是组蛋白)的染色质链。本文采用了常规的国际公认的个体人类基因组染色体编号系统。
术语“位点”是指参考基因组上的独特位置(例如,染色体ID、染色体位置和取向)。在一些具体实施中,位点可为残基、序列标签或片段在序列上的位置。术语“基因位点”可用于指核酸序列或多态性在参考染色体上的特定位置。
本文的术语“样本”是指通常来源于生物流体、细胞、组织、器官或生物体且包含核酸或核酸混合物的样本,该核酸或核酸混合物包含待测序和/或定相的至少一种核酸序列。此类样本包括但不限于痰/口腔液、羊水、血液、血液级分、细针活检样本(例如,外科活检、细针活检等)、尿液、腹膜液、胸膜液、组织外植体、器官培养物和任何其他组织或细胞制剂,或其级分或衍生物,或从其分离的级分或衍生物。虽然样本通常取自人类受试者(例如,患者),但样本可取自具有染色体的任何生物体,包括但不限于狗、猫、马、山羊、绵羊、牛、猪等。样本可按从生物来源获得的原样直接使用,或者经过预处理以改变样本的性质后使用。例如,此类预处理可包括由血液制备血浆、稀释粘性流体等。预处理的方法还可涉及但不限于过滤、沉淀、稀释、蒸馏、混合、离心、冷冻、冻干、浓缩、扩增、核酸片段化、干扰组分的灭活、添加试剂、裂解等。
术语“序列”包括或代表彼此偶联的核苷酸链。核苷酸可基于DNA或RNA。应当理解,一个序列可包括多个子序列。例如,单个序列(例如,PCR扩增子的序列)可具有350个核苷酸。样本读段可包括这350个核苷酸内的多个子序列。例如,样本读段可包括具有例如20-50个核苷酸的第一侧翼子序列和第二侧翼子序列。第一侧翼子序列和第二侧翼子序列可位于具有对应子序列(例如,40-100个核苷酸)的重复片段的任一侧上。每个侧翼子序列可包括引物子序列(例如,10-30个核苷酸)(或包括其部分)。为了便于阅读,术语“子序列”将被称为“序列”,但应当理解,两个序列不一定在共同链上彼此分开。为了区分本文所述的各种序列,可给序列赋予不同的标记(例如,靶序列、引物序列、侧翼序列、参考序列等)。其他术语诸如“等位基因”可被赋予不同的标记,以区分相似的对象。本申请可互换使用“读段”和“序列读段”。
术语“双端测序”是指对靶片段的两端进行测序的测序方法。双端测序可有助于检测基因组重排和重复片段,以及基因融合和新转录本。用于双端测序的方法描述于PCT公布WO07010252、PCT申请序列号PCTGB2007/003798和美国专利申请公布US 2009/0088327中,这些专利中的每一篇均以引用方式并入本文。在一个示例中,可如下执行一系列操作;(a)生成核酸簇;(b)使核酸线性化;(c)使第一测序引物杂交,并如上所述进行延伸、扫描和解封闭的重复循环;(d)通过合成互补拷贝“反转”流通池表面上的靶核酸;(e)使重新合成的链线性化;以及(f)使第二测序引物杂交,并如上所述进行延伸、扫描和解封闭的重复循环。反转操作可通过将如上所述的试剂递送用于桥式扩增的单个循环来进行。
术语“参考基因组”或“参考序列”是指可用于参考来自受试者的已鉴定序列的任何生物体的任何特定已知基因组序列,无论是部分的还是完整的。例如,可在ncbi.nlm.nih.gov的美国国家生物技术信息中心(National Center for BiotechnologyInformation)找到用于人类受试者以及许多其他生物体的参考基因组。“基因组”是指以核酸序列表达的生物体或病毒的完整遗传信息。基因组既包括基因又包括DNA的非编码序列。参考序列可大于与其比对的读段。例如,参考序列可为比对读段的至少约100倍大、或至少约1000倍大、或至少约10,000倍大、或至少约105倍大、或至少约106倍大、或至少约107倍大。在一个示例中,参考基因组序列是全长人类基因组的序列。在另一个示例中,参考基因组序列限于特定的人类染色体,诸如13号染色体。在一些具体实施中,参考染色体是来自人类基因组版本hg19的染色体序列。此类序列可称为染色体参考序列,但术语参考基因组旨在涵盖此类序列。参考序列的其他示例包括其他物种的基因组,以及任何物种的染色体、亚染色体区域(诸如链)等。在各种具体实施中,参考基因组是来源于多个个体的共有序列或其他组合。然而,在某些应用中,参考序列可取自特定个体。在其他具体实施中,“基因组”还涵盖所谓的“图形基因组”,其使用基因组序列的特定存储格式和表示。在一个具体实施中,图形基因组将数据存储在线性文件中。在另一个具体实施中,图形基因组是指其中另选序列(例如,具有小差异的染色体的不同拷贝)作为不同路径存储在图中的表示。关于图形基因组具体实施的其他详细信息可见于https://www.biorxiv.org/content/biorxiv/early/2018/03/20/194530.full.pdf,其内容据此全文以引用方式并入本文。
术语“读段”是指描述核苷酸样本或参考的片段的序列数据的集合。术语“读段”可指样本读段和/或参考读段。通常,尽管不是必须的,读段表示样本或参考中邻接碱基对的短序列。读段可由样本或参考片段的碱基对序列(ATCG形式)象征性地表示。读段可存储在存储器设备中并视情况进行处理,以确定该读段是匹配参考序列还是满足其他标准。读段可直接从测序装置获得或间接从所存储的关于样本的序列信息获得。在一些情况下,读段为足够长度(例如,至少约25bp)的DNA序列,其可用于鉴定更大的序列或区域,例如,其可被比对并特异性地分配给染色体或基因组区域或基因。
下一代测序方法包括例如边合成边测序技术(Illumina)、焦磷酸测序(454)、离子半导体技术(Ion Torrent测序)、单分子实时测序(Pacific Biosciences)和边连接边测序(SOLiD测序)。根据测序方法,每个读段的长度可在约30bp至超过10,000bp之间变化。例如,使用SOLiD测序仪的DNA测序方法产生约50bp的核酸读段。又如,Ion Torrent测序产生最多400bp的核酸读段并且454焦磷酸测序产生约700bp的核酸读段。又如,单分子实时测序方法可产生10,000bp至15,000bp的读段。因此,在某些具体实施中,核酸序列读段的长度为30bp-100bp、50bp-200bp或50bp-400bp。
术语“样本读段”、“样本序列”或“样本片段”是指来自样本的感兴趣的基因组序列的序列数据。例如,样本读段包含来自具有正向和反向引物序列的PCR扩增子的序列数据。序列数据可从任何选择的序列方法中获得。样本读段可例如来自边合成边测序(SBS)反应、边连接边测序反应或需要确定重复元件的长度和/或同一性的任何其他合适的测序方法。样本读段可以是来源于多个样本读段的共有(例如,平均或加权)序列。在某些具体实施中,提供参考序列包括基于PCR扩增子的引物序列鉴定感兴趣的基因位点。
术语“原始片段”是指感兴趣的基因组序列的一部分的序列数据,该序列数据与样本读段或样本片段中感兴趣的指定位置或次要位置至少部分地重叠。原始片段的非限制性示例包括双重拼接片段、单重拼接片段、双重未拼接片段和单重未拼接片段。术语“原始”用于表示原始片段包括与样本读段中的序列数据具有一些关系的序列数据,而不管原始片段是否表现出对应于并验证或确认样本读段中的潜在变异的支持变异。术语“原始片段”不表示该片段必然包括在样本读段中验证变异检出的支持变异。例如,当变异检出应用程序确定样本读段表现出第一变异时,变异检出应用程序可确定一个或多个原始片段缺少对应类型的“支持”变异,原本在给定样本读段中的变异的情况下可能预计会出现该“支持”变异。
术语“映射”、“比对(aligned、alignment或aligning)”是指将读段或标签与参考序列进行比较,从而确定参考序列是否包含该读段序列的过程。如果参考序列包含该读段,则该读段可映射到参考序列,或者在某些具体实施中,映射到参考序列中的特定位置。在一些情况下,比对简单地告知读段是否为特定参考序列的成员(即,该读段是否存在于该参考序列中)。例如,读段与人类13号染色体的参考序列的比对将告知该读段是否存在于13号染色体的参考序列中。提供该信息的工具可被称为集合成员资格测试仪(set membershiptester)。在一些情况下,比对另外指示读段或标签映射到的参考序列中的位置。例如,如果参考序列是人类全基因组序列,则比对可指示读段存在于13号染色体上,并且还可指示该读段存在于13号染色体的特定链和/或位点上。
术语“插入缺失”指生物体DNA中碱基的插入和/或缺失。微插入缺失表示导致1至50个核苷酸的净变化的插入缺失。在基因组的编码区中,除非插入缺失的长度是3的倍数,否则会产生移码突变。插入缺失可与点突变形成对比。插入缺失插入片段从序列中插入和缺失核苷酸,而点突变是置换其中一个核苷酸而不改变DNA中的核苷酸总数的置换形式。插入缺失也可与串联碱基突变(TBM)形成对比,该串联碱基突变可被定义为相邻核苷酸处的置换(主要是两个相邻核苷酸处的置换,但已观察到三个相邻核苷酸处的置换)。
术语“变异”是指与核酸参照物不同的核酸序列。典型的核酸序列变异包括但不限于单核苷酸多态性(SNP)、短缺失和插入多态性(Indel)、拷贝数变异(CNV)、微卫星标记或短串联重复序列和结构变异。体细胞变异检出是识别以低频率存在于DNA样本中的变异的工作。体细胞变异检出在癌症治疗的背景下是令人感兴趣的。癌症是由DNA中突变的积聚引起的。来自肿瘤的DNA样本通常是异质的,包括一些正常细胞、癌症进展早期的一些细胞(具有较少突变)和一些晚期细胞(具有较多突变)。由于这种异质性,当对肿瘤(例如,来自FFPE样本)测序时,体细胞突变将通常以低频率出现。例如,可在覆盖给定碱基的读段的仅10%中看到SNV。待由变异分类器分类为体细胞或种系的变异在本文中也被称为“待测变异”。
术语“噪声”是指由测序过程和/或变异检出应用程序中的一个或多个错误引起的错误变异检出。
术语“变异频率”表示等位基因(基因变异)在群体中特定基因位点处的相对频率,以分数或百分比表示。例如,分数或百分比可以是群体中所有携带该等位基因的染色体的分数。以举例的方式,样本变异频率表示等位基因/变异在沿感兴趣的基因组序列的特定基因位点/位置处相对于“群体”的相对频率,群体对应于从个体获得的感兴趣的基因组序列的读段和/或样本的数量。又如,基线变异频率表示等位基因/变异在沿一个或多个基线基因组序列的特定基因位点/位置处的相对频率,其中“群体”对应于从正常个体的群体获得的一个或多个基线基因组序列的读段和/或样本的数量。
术语“变异等位基因频率(VAF)”是指观察到的匹配变异的测序读段的百分比除以靶位置处的总体覆盖率。VAF是携带变异的测序读段的比例的量度。
术语“位置”、“指定位置”和“基因位点”是指核苷酸序列内的一个或多个核苷酸的位置或坐标。术语“位置”、“指定位置”和“基因位点”也指核苷酸序列中的一个或多个碱基对的位置或坐标。
术语“单倍型”指染色体上相邻位点处一起遗传的等位基因的组合。单倍型可为一个基因位点、多个基因位点或整个染色体,具体取决于在给定的一组基因位点之间发生的重组事件的数目(如果有的话)。
术语“阈值”在本文中是指用作表征样本、核酸或其部分(例如,读段)的截止值的数字或非数字值。阈值可基于经验分析而改变。可将阈值与测量值或计算值进行比较,以确定是否应以特定方式对产生此类值的源进行分类。阈值可根据经验或分析来识别。阈值的选择取决于用户希望必须进行分类的置信水平。阈值可被选择用于特定目的(例如,以平衡灵敏度和选择性)。如本文所用,术语“阈值”指示可改变分析过程的点和/或可触发动作的点。阈值不需要是预定数量。相反,阈值可以是例如基于多个因素的函数。阈值可根据情况进行调整。此外,阈值可指示上限、下限或限值之间的范围。
在一些具体实施中,可将基于测序数据的度量或分数与阈值进行比较。如本文所用,术语“度量”或“分数”可包括由测序数据确定的值或结果,或者可包括基于由测序数据确定的值或结果的函数。与阈值一样,度量或分数可根据情况进行调整。例如,度量或分数可以是归一化值。作为分数或度量的示例,一个或多个具体实施可在分析数据时使用计数分数。计数分数可基于样本读段的数量。样本读段可能已经历一个或多个过滤阶段,使得样本读段具有至少一个共同的特征或质量。例如,用于确定计数分数的每个样本读段可能已经与参考序列比对,或者可能被分配为潜在等位基因。可对具有共同特征的样本读段的数量进行计数以确定读段计数。计数分数可基于读段计数。在一些具体实施中,计数分数可以是等于读段计数的值。在其他具体实施中,计数分数可基于读段计数和其他信息。例如,计数分数可基于基因位点的特定等位基因的读段计数和基因位点的读段总数。在一些具体实施中,计数分数可基于基因位点的读段计数和先前获得的数据。在一些具体实施中,计数分数可以是预定值之间的归一化分数。计数分数还可以是来自样本的其他基因位点的读段计数的函数或来自与感兴趣的样本并行运行的其他样本的读段计数的函数。例如,计数分数可以是特定等位基因的读段计数和样本中其他基因位点的读段计数和/或来自其他样本的读段计数的函数。例如,来自其他基因位点的读段计数和/或来自其他样本的读段计数可用于归一化特定等位基因的计数分数。
术语“覆盖率”或“片段覆盖率”是指序列的相同片段的多个样本读段的计数或其他量度。读段计数可表示覆盖对应片段的读段数量的计数。另选地,可通过将读段计数乘以基于历史知识、样本知识、基因位点知识等的指定因子来确定覆盖率。
术语“读段深度”(通常为数字后跟“×”)是指在靶位置处具有重叠比对的序列读段的数量。这通常表示为一组区间(诸如外显子、基因或组)内的平均值或超过截止值的百分比。例如,临床报告可能说组平均覆盖率为1,105×,其中98%的靶碱基覆盖率>100×。
术语“碱基检出质量分数”或“Q分数”是指与单个测序碱基正确的概率成反比的0-50范围内的PHRED标度概率。例如,Q为20的T碱基检出被认为可能是正确的,概率为99.99%。Q<20的任何碱基检出应被认为是低质量的,并且在支持变异的相当大比例的测序读段具有低质量的情况下识别的任何变异应被认为是潜在假阳性的。
术语“变异读段”或“变异读段数量”是指支持变异存在的测序读段的数量。
关于“链型”(或DNA链型),DNA中的遗传信息可表示为字母A、G、C和T的字符串。例如,5’-AGGACA-3’。通常,序列沿此处所示的方向书写,即,5’端向左而3’端向右。DNA有时可以单链分子的形式出现(如在某些病毒中),但通常我们发现DNA为双链单元。它具有双螺旋结构,该结构具有两条逆平行链。在这种情况下,词语“逆平行”是指两条链平行延伸,但具有相反的极性。双链DNA通过碱基之间的配对保持在一起,并且配对总是使得腺嘌呤(A)与胸腺嘧啶(T)配对并且胞嘧啶(C)与鸟嘌呤(G)配对。这种配对被称为互补性,并且DNA的一条链被称为另一条链的互补序列。因此,双链DNA可表示为两个字符串,像这样:5’-AGGACA-3’和3’-TCCTGT-5’。注意,两条链具有相反的极性。因此,两条DNA链的链型可称为参考链及其互补链、正向链和反向链、顶部链和底部链、有义链和反义链或沃森链和克里克链。
读段比对(也称为读段映射)是找出序列在基因组中的位置的过程。一旦进行了比对,给定读段的“映射质量”或“映射质量分数(MAPQ)”对其在基因组上的位置正确的概率进行定量。映射质量以phred标度进行编码,其中P是比对不正确的概率。概率计算为:P=10(-MAQ/10),其中MAPQ是映射质量。例如,40的映射质量=10的-4次方,这意味着读段有0.01%的机会被错误地比对。因此,映射质量与若干比对因素相关联,诸如读段的碱基质量、参考基因组的复杂性以及双端信息。关于第一个因素,如果读段的碱基质量低,则意味着观察到的序列可能是错误的,因此其比对是错误的。关于第二个因素,可映射性是指基因组的复杂性。重复区域更难以映射,并且落入这些区域中的读段通常获得低映射质量。在这种情况下,MAPQ反映了这样一个事实,即读段不是唯一比对的,它们的真正来源无法确定。关于第三个因素,在双端测序数据的情况下,一致的对更可能是良好比对的。映射质量越高,比对越好。以良好映射质量比对的读段通常意味着读段序列良好,并且在高可映射性区域中几乎没有错配地进行比对。MAPQ值可用作比对结果的质量控制。MAPQ高于20的所比对读段的比例通常用于下游分析。
如本文所用,“信号”是指可检测的事件,诸如图像中的发射,优选地为光发射。因此,在优选的具体实施中,信号可表示在图像中捕获的任何可检测的光发射(即,“光点”)。因此,如本文所用,“信号”可指来自标本的分析物的实际发射,并且可指与实际分析物不相关的杂散发射。因此,信号可能由噪声产生,并且由于不代表标本的实际分析物而可能随后被丢弃。
如本文所用,术语“丛”是指一组信号。在特定具体实施中,信号来源于不同的分析物。在优选的具体实施中,信号丛是聚集在一起的一组信号。在更优选的具体实施中,信号丛表示由一个扩增的寡核苷酸覆盖的物理区域。每个信号丛在理想情况下应被观察为若干信号(每个模板循环一个,并且可能由于串扰而更多)。因此,在来自同一信号丛的模板中包括两个(或更多个)信号的情况下,检测到重复信号。
如本文所用,术语诸如“最小”、“最大”、“最小化”、“最大化”及其语法变型可包括不是绝对最大值或最小值的值。在一些具体实施中,这些值包括接近最大值和接近最小值。在其他具体实施中,这些值可包括局部最大值和/或局部最小值。在一些具体实施中,这些值仅包括绝对最大值或最小值。
如本文所用,“串扰”是指在一个图像中检测到的信号也在单独的图像中检测到。在优选的具体实施中,当在两个单独的检测通道中检测到发射的信号时,可发生串扰。例如,在发射信号以一种颜色出现的情况下,该信号的发射光谱可与另一种颜色的另一个发射信号重叠。在优选的具体实施中,在单独的通道中检测用于指示核苷酸碱基A、C、G和T的存在的荧光分子。然而,因为A和C的发射光谱重叠,所以可在使用A颜色通道的检测期间检测C颜色信号中的一些。因此,A信号和C信号之间的串扰允许来自一个彩色图像的信号出现在另一个彩色图像中。在一些具体实施中,G和T串扰。在一些具体实施中,通道之间的串扰量为不对称的。应当理解,通道之间的串扰量可通过(除了别的以外)选择具有适当发射光谱的信号分子以及选择检测通道的尺寸和波长范围来控制。
如本文所用,“配准(register、registering、registration)”和类似术语是指将来自第一时间点或视角的图像或数据集中的信号与来自另一时间点或视角的图像或数据集中的信号相关联的任何过程。例如,配准可用于对准来自图像集的信号以形成模板。又如,配准可用于将来自其他图像的信号与模板对准。一个信号可直接或间接配准到另一个信号。例如,来自图像“S”的信号可直接配准到图像“G”。又如,来自图像“N”的信号可直接配准到图像“G”,或者另选地,来自图像“N”的信号可配准到先前已配准到图像“G”的图像“S”。因此,来自图像“N”的信号间接配准到图像“G”。
如本文所用,术语“基准”旨在表示对象中或对象上的可区分的参考点。参考点可为例如标记、第二对象、形状、边缘、区域、不规则性、通道、凹坑、柱等。参考点可存在于对象的图像中或存在于从检测对象导出的另一数据集中。参考点可由对象平面中的x和/或y坐标来指定。另选地或除此之外,参考点可由正交于xy平面的z坐标指定,例如由对象和检测器的相对位置限定。可相对于对象或图像或从对象导出的其他数据集的一个或多个其他分析物来指定参考点的一个或多个坐标。
如本文所用,术语“光信号”旨在包括例如荧光信号、发光信号、散射信号或吸收信号。可在电磁光谱的紫外(UV)范围(约200纳米至390纳米)、可见(VIS)范围(约391纳米至770纳米)、红外(IR)范围(约0.771微米至25微米)或其他范围内检测光信号。可以排除这些范围中的一个或多个的全部或部分的方式检测光信号。
如本文所用,术语“信号电平”旨在表示具有期望或预定义特征的检测到的能量或编码信息的量或数量。例如,光信号可通过强度、波长、能量、频率、功率、亮度等中的一者或多者来量化。其他信号可根据特征诸如电压、电流、电场强度、磁场强度、频率、功率、温度等进行量化。信号缺失被理解为信号电平为零或信号电平与噪声没有明显区别。
如本文所用,术语“模拟”旨在表示创建物理事物或动作的表示或模型,其预测该事物或动作的特征。在许多情况下,表示或模型可与事物或动作区分开来。例如,就一个或多个特征诸如颜色、从事物的全部或部分检测到的信号强度、尺寸或形状而言,表示或模型可与事物区分开来。在特定具体实施中,当与事物或动作相比时,表示或模型可以是理想化的、放大的、变暗的或不完整的。因此,在一些具体实施中,例如,就上述特征中的至少一个特征而言,模型的表示可与其所表示的事物或动作区分开来。该表示或模型可以计算机可读格式或介质提供,诸如在本文其他地方阐述的那些中的一者或多者。
如本文所用,术语“特定信号”旨在表示相对于其他能量或信息(诸如背景能量或信息)选择性地观察到的检测到的能量或编码信息。例如,特定信号可以是在特定强度、波长或颜色下检测到的光信号;在特定频率、功率或场强下检测到的电信号;或本领域已知的与光谱和分析检测有关的其他信号。
如本文所用,术语“长条”旨在表示对象的矩形部分。长条可为细长的条带,其通过在平行于该条带的最长维度的方向上对象与检测器之间的相对运动来扫描。一般来讲,矩形部分或条带的宽度沿其全长将是恒定的。对象的多个长条可彼此平行。对象的多个长条可彼此相邻、彼此重叠、彼此邻接或通过间隙区域彼此隔开。
如本文所用,术语“方差”旨在表示预期值与观察值之间的差值或两个或更多个观察值之间的差值。例如,方差可以是期望值与测量值之间的差异。方差可使用统计函数来表示,诸如标准偏差、标准偏差的平方、变异系数等。
如本文所用,术语“xy坐标”旨在表示指定xy平面中的位置、尺寸、形状和/或取向的信息。该信息可以是例如笛卡尔系统中的数字坐标。坐标可相对于x轴和y轴中的一者或两者提供,或者可相对于xy平面中的另一个位置提供。例如,对象的分析物的坐标可指定分析物相对于对象的基准或其他分析物的位置的位置。
如本文所用,术语“xy平面”旨在表示由直线轴x和y限定的二维区域。当参考检测器和检测器所观察的对象使用时,该区域可被进一步指定为与检测器和所检测的对象之间的观察方向正交。
如本文所用,术语“z坐标”旨在表示指定沿着正交于xy平面的轴的点、线或区域的位置的信息。在特定具体实施中,z轴正交于检测器所观察的对象的区域。例如,光学系统的焦点方向可沿z轴指定。
在一些具体实施中,使用仿射变换来变换所采集的信号数据。在一些比类具体实施中,模板生成利用颜色通道之间的仿射变换在运行之间是一致的这一事实。由于这种一致性,当确定标本中分析物的坐标时,可使用一组默认偏移量。例如,默认偏移文件可包含不同通道相对于一个通道(诸如A通道)的相对变换(移动、缩放、偏斜)。然而,在其他具体实施中,颜色通道之间的偏移在运行期间和/或运行之间漂移,使得偏移驱动的模板生成变得困难。在此类具体实施中,本文所提供的方法和系统可利用无偏移模板生成,这将在下文进一步描述。
在上述具体实施的一些方面,该系统可包括流通池。在一些方面,流通池包括区块的槽道或其他配置,其中至少一些区块包括一个或多个分析物阵列。在一些方面,分析物包含多个分子诸如核酸。在某些方面,流通池被配置为将标记的核苷酸碱基递送至核酸阵列,从而延伸与分析物内的核酸杂交的引物,以便产生对应于包含核酸的分析物的信号。在优选的具体实施中,分析物内的核酸彼此相同或基本上相同。
在本文所述的一些图像分析系统中,图像集中的每个图像包括颜色信号,其中不同的颜色对应于不同的核苷酸碱基。在一些方面,该图像集中的每个图像包括具有选自至少四种不同颜色的单一颜色的信号。在一些方面,该图像集中的每个图像包括具有选自四种不同颜色的单一颜色的信号。在本文所述的一些系统中,可通过向分子阵列提供四种不同的标记核苷酸碱基来对核酸进行测序,从而产生四种不同的图像,每种图像包含具有单一颜色的信号,其中信号颜色对于四种不同图像中的每一种都是不同的,从而产生对应于核酸中特定位置存在的四种可能核苷酸的四种颜色图像的循环。在某些方面,该系统包括流通池,该流通池被配置为将另外的标记核苷酸碱基递送到分子阵列,从而产生彩色图像的多个循环。
在优选的具体实施中,本文提供的方法可包括确定处理器是否正在主动采集数据或处理器是否处于低活动状态。采集和存储大量高质量图像通常需要大量存储容量。另外,一旦采集和存储,对图像数据的分析可能变为资源密集型,并且可能干扰其他功能的处理能力,诸如正在进行的额外图像数据的采集和存储。因此,如本文所用,术语低活动状态是指处理器在给定时间的处理能力。在一些具体实施中,当处理器未采集和/或存储数据时,低活动状态发生。在一些具体实施中,当进行一些数据采集和/或存储时,低活动状态发生,但是额外的处理能力保持不变,使得图像分析可在不干扰其他功能的情况下同时发生。
如本文所用,“识别冲突”是指识别多个进程竞争资源的情况。在一些此类具体实施中,一个进程被赋予比另一个进程更高的优先级。在一些具体实施中,冲突可能涉及为时间分配、处理能力、存储容量或被赋予优先级的任何其他资源赋予优先级的需要。因此,在一些具体实施中,当处理时间或能力要分布在两个进程(诸如分析数据集和采集和/或存储数据集)之间时,两个进程之间存在冲突,并且可通过赋予其中一个进程优先级来解决冲突。
本文还提供了用于执行图像分析的系统。该系统可包括处理器;存储容量;以及用于图像分析的程序,该程序包括用于处理用于存储的第一数据集和用于分析的第二数据集的指令,其中该处理包括在存储设备上采集和/或存储第一数据集,并且当处理器未采集第一数据集时分析第二数据集。在某些方面,该程序包括用于以下操作的指令:识别采集和/或存储第一数据集与分析第二数据集之间的冲突的至少一个实例;以及解决冲突以有利于采集和/或存储图像数据,使得采集和/或存储第一数据集被赋予优先级。在某些方面,第一数据集包括从光学成像设备获得的图像文件。在某些方面,系统还包括光学成像设备。在一些方面,光学成像设备包括光源和检测设备。
如本文所用,术语“程序”是指执行任务或进程的指令或命令。术语“程序”可与术语模块互换使用。在某些具体实施中,程序可以是在同一命令集下执行的各种指令的编译。在其他具体实施中,程序可指离散的批或文件。
下文阐述了利用本文所述的用于执行图像分析的方法和系统的一些令人惊讶的效果。在一些测序具体实施中,测序系统效用的重要量度是其总体效率。例如,每天产生的可映射数据量以及安装和运行仪器的总成本是经济测序解决方案的重要方面。为了减少生成可映射数据的时间并提高系统的效率,可在仪器计算机上启用实时碱基检出,并且可与测序化学过程和成像同步运行。这允许许多数据处理和分析在测序化学过程结束之前完成。另外,它可减少中间数据所需的存储,并限制需要通过网络传输的数据量。
虽然序列输出增加了,但从本文提供的系统传输到网络和辅助分析处理硬件的每次运行的数据已显著减少。通过在仪器计算机(采集计算机)上转换数据,显著降低了网络负载。如果没有这些机载的、离线的数据简化技术,一组DNA测序仪器的图像输出将使大多数网络瘫痪。
高通量DNA测序仪器的广泛采用部分是由于易于使用、对各种应用的支持以及对几乎任何实验室环境的适用性。本文介绍的高效算法允许将重要的分析功能添加到可控制测序仪器的简单工作站中。对计算硬件要求的这种降低具有若干实际益处,这些益处将随着对测序输出水平的不断提高而变得甚至更重要。例如,通过在简单塔上执行图像分析和碱基检出,将热量产生、实验室占地面积和功耗保持在最低水平。相比之下,其他商业测序技术最近已将其计算基础结构扩展到用于主要分析,处理能力高达五倍以上,从而导致热量输出和功耗的相应增加。因此,在一些具体实施中,本文提供的方法和系统的计算效率使得客户能够增加其测序通量,同时将服务器硬件费用保持在最小。
因此,在一些具体实施中,本文提出的方法和/或系统充当状态机,跟踪每个标本的单独状态,并且当其检测到标本准备前进到下一状态时,其进行适当的处理并使标本前进到该状态。根据优选的具体实施,状态机如何监控文件系统以确定标本何时准备好前进到下一状态的更详细示例在下面的实施例1中示出。
在优选的具体实施中,本文提供的方法和系统是多线程的,并且可与可配置数量的线程一起工作。因此,例如在核酸测序的情况下,本文提供的方法和系统能够在实时分析的实时测序运行期间在后台工作,或者其可使用预先存在的图像数据集运行以用于离线分析。在某些优选的具体实施中,方法和系统通过为每个线程赋予其自身所负责的标本的子集来处理多线程。这将线程争用的可能性降至最低。
本公开的方法可包括使用检测装置获得对象的目标图像的步骤,其中图像包括对象上分析物的重复图案。能够对表面进行高分辨率成像的检测装置尤其有用。在特定具体实施中,检测装置将具有足够的分辨率,从而以本文所述的密度、间距和/或分析物尺寸来区分分析物。能够从表面获得图像或图像数据的检测装置特别有用。示例性检测器是被配置为在获得区域图像时使对象和检测器保持静态关系的那些检测器。也可使用扫描装置。例如,可使用获得顺序区域图像的装置(例如,所谓的“步进拍摄”检测器)。在对象的表面上连续扫描点或线以积累数据来构建表面图像的设备也是有用的。点扫描检测器可被配置为经由表面的x-y平面中的光栅运动来扫对象表面上的点(即,小的检测区域)。线扫描检测器可被配置为沿着对象表面的y维度扫描线,该线的最长维度沿着x维度出现。应当理解,可移动检测设备、对象或两者以实现扫描检测。特别适用于例如核酸测序应用的检测装置在以下专利中有所描述:美国专利申请公布2012/0270305 A12013/0023422 A1和2013/0260372A1;和美国专利5,528,050、5,719,391、8,158,926和8,241,573中,这些专利中的每一篇均以引用方式并入本文。
本文所公开的具体实施可被实现为使用编程或工程技术来产生软件、固件、硬件或它们的任何组合的方法、装置、系统或制品。如本文所用,术语“制品”是指在硬件或计算机可读介质诸如光学存储设备和易失性或非易失性存储器设备中实现的代码或逻辑。此类硬件可包括但不限于现场可编程门阵列(FPGA)、粗粒度可重构架构(CGRA)、专用集成电路(ASIC)、复杂可编程逻辑器件(CPLD)、可编程逻辑阵列(PLA)、微处理器或其他类似的处理设备。在特定具体实施中,本文阐述的信息或算法存在于非暂态存储介质中。
在特定具体实施中,本文阐述的计算机实现的方法可在获得对象的多个图像时实时发生。此类实时分析尤其可用于核酸测序应用,其中核酸阵列经受流体和检测步骤的重复循环。测序数据的分析通常可能是计算密集型的,使得在进行其他数据采集或分析算法时实时或在后台执行本文所述的方法可能是有益的。可与本发明方法一起使用的示例性实时分析方法是用于得自Illumina公司(San Diego,Calif.)和/或描述于美国专利申请公布2012/0020537 A1中的MiSeq和HiSeq测序设备的那些方法,该专利申请公布以引用方式并入本文。
由一个或多个编程的计算机形成的示例性数据分析系统,其中编程存储在一个或多个机器可读介质上,其中执行代码以进行本文所述方法的一个或多个步骤。在一个具体实施中,例如,该系统包括被设计成允许系统联网到被配置为从目标对象采集数据的一个或多个检测系统(例如,光学成像系统)的接口。接口可在适当的地方接收和调节数据。在特定具体实施中,检测系统将输出数字图像数据,例如,代表单独的图片元素或像素的图像数据,它们共同形成阵列或其他对象的图像。处理器根据由处理代码定义的一个或多个例程来处理接收到的检测数据。处理代码可存储在各种类型的存储器电路中。
根据当前设想的具体实施,对检测数据执行的处理代码包括数据分析例程,该例程被设计成分析检测数据以确定在数据中可见或编码的单独分析物的位置和元数据,以及没有检测到分析物的位置(即,没有分析物的位置,或没有从现有分析物检测到有意义信号的位置)。在特定具体实施中,由于存在附着到成像分析物的荧光染料,阵列中的分析物位置通常将看起来比非分析物位置更亮。应当理解,例如,当探针在分析物处的靶标不存在于被检测的阵列中时,分析物不需要看起来比其周围区域更亮。单独分析物出现的颜色可取决于所采用的染料以及成像系统用于成像目的所用的光的波长。靶标不与之结合或以其他方式缺乏特定标记的分析物可根据其他特征(诸如它们在微阵列中的预期位置)进行鉴定。
一旦数据分析例程已在数据中定位单独分析物,就可进行值分配。一般来讲,值分配将基于由对应位置处的检测器组件(例如,像素)表示的数据的特征,将数字值分配给每个分析物。也就是说,例如当处理成像数据时,值分配例程可被设计成识别在特定位置处检测到特定颜色或波长的光,如由该位置处的像素组或簇所指示的。例如,在典型的DNA成像应用中,四种常见核苷酸将由四种独立且可区分的颜色表示。然后,可为每种颜色分配对应于该核苷酸的值。
如本文所用,术语“模块”、“系统”或“系统控制器”可包括操作以执行一个或多个功能的硬件和/或软件系统和电路。例如,模块、系统或系统控制器可包括基于存储在有形和非暂态计算机可读存储介质诸如计算机存储器上的指令来执行操作的计算机处理器、控制器或其他基于逻辑的设备。另选地,模块、系统或系统控制器可包括基于硬接线逻辑和电路来执行操作的硬接线设备。附图中所示的模块、系统或系统控制器可表示基于软件或硬接线指令来操作的硬件和电路、指导硬件执行操作的软件或它们的组合。模块、系统或系统控制器可包括或表示硬件电路或电路,该硬件电路或电路包括一个或多个处理器并且/或者与该一个或多个处理器连接,诸如一个或多个计算机微处理器。
如本文所用,术语“软件”和“固件”是可互换的,并且包括存储在存储器中以供计算机执行的任何计算机程序,包括RAM存储器、ROM存储器、EPROM存储器、EEPROM存储器和非易失性RAM(NVRAM)存储器。上述存储器类型仅为示例,因此不限制可用于存储计算机程序的存储器类型。
在分子生物学领域中,所使用的核酸测序方法中的一种方法是边合成边测序。该技术可应用于大规模并行测序项目。例如,通过使用自动化平台,可以同时进行成千上万的测序反应。因此,本发明的具体实施中的一个具体实施涉及用于采集、存储和分析在核酸测序期间生成的图像数据的仪器和方法。
可采集和存储的数据量的巨大增益使得简化的图像分析方法甚至更加有益。例如,本文所述的图像分析方法允许设计者和最终用户有效地利用现有计算机硬件。因此,面对快速增加的数据输出,本文呈现了减少处理数据的计算负担的方法和系统。例如,在DNA测序领域中,在最近一年中产出已按比例缩放了15倍,并且现在可在DNA测序设备的单次运行中达到数百个十亿碱基。如果计算基础设施要求成比例增长,则大多数研究者将仍然无法实现大型基因组级实验。因此,生成更原始的序列数据将增加对二次分析和数据存储的需要,使得对数据传输和存储的优化极其有价值。本文呈现的方法和系统的一些具体实施可减少产生可用序列数据所需的时间、硬件、网络和实验室基础设施要求。
本公开描述了用于执行这些方法的各种方法和系统。方法中一些的示例被描述为一系列步骤。然而,应当理解,具体实施不限于本文所述的特定步骤和/或步骤顺序。可省略步骤,可修改步骤,并且/或者可添加其他步骤。此外,可组合本文所述的步骤,可同时执行步骤,可并行执行步骤,可将步骤分成多个子步骤,可以不同顺序执行步骤,或者可以迭代方式重新执行步骤(或一系列步骤)。此外,尽管本文阐述了不同方法,但应当理解,在其他具体实施中可组合这些不同方法(或这些不同方法的步骤)。
在一些具体实施中,“被配置为”执行任务或操作的处理单元、处理器、模块或计算系统可被理解为被特别地构造成执行任务或操作(例如,使存储在其上或与其结合使用的一个或多个程序或指令被定制成或旨在执行任务或操作,并且/或者使处理电路的布置被定制成或旨在执行任务或操作)。出于清楚和免生疑问的目的,除非或直到被特别编程或在结构上经修改以执行任务或操作,通用计算机(如果适当编程,则其可被“配置为”执行任务或操作)不被“配置为”执行任务或操作。
此外,本文所述的方法的操作可足够复杂,使得在商业上合理的时间段内这些操作无法由普通技术人员或本领域的普通技术人员实际执行。例如,这些方法可依赖于相对复杂的计算,使得人员无法在商业上合理的时间内完成这些方法。
在整个本申请中,已引用了各种公布、专利或专利申请。这些公布的公开内容据此全文以引用方式并入本申请中,以便更全面地描述与本发明有关的现有技术。
术语“包括”在本文中旨在为开放式的,不仅包括所列举的元素,而且还涵盖任何附加的元素。
如本文所用,当参考项目的集合使用时,术语“每个”旨在识别集合中的单个项目,但不一定是指集合中的每个项目。如果明确公开或上下文另有明确规定,则可能会出现例外情况。
尽管已参考上文提供的示例描述了本发明,但应当理解,在不脱离本发明的前提下,可进行各种修改。
本申请中的模块可在硬件或软件中实现,并且不需要按如图所示那样精确地划分成相同的框。这些模块中的一些还可在不同的处理器或计算机上实现,或者在多个不同的处理器或计算机之间扩展。此外,应当理解,在不影响所实现的功能的情况下,可组合、同步操作或以与图中所示不同的序列操作模块中的一些。同样如本文所用,术语“模块”可包括“子模块”,“子模块”本身在本文中可被认为构成模块。图中被分配为模块的框也可被认为是方法中的流程图步骤。
如本文所用,信息项的“识别”不一定需要直接指定该信息项。通过简单地利用一个或多个间接层参考实际信息,或者通过识别一起足以确定实际信息项的一个或多个不同信息项,可以在字段中“识别”信息。此外,术语“指定”在本文中用来指与“识别”相同的含义。
如本文所用,给定信号、事件或值“依赖于”先导信号、该先导信号的事件或值、受给定信号、事件或值影响的事件或值。如果存在居间处理元件、步骤或时间段,则给定信号、事件或值仍然可以“依赖于”先导信号、事件或值。如果居间处理元件或步骤组合多于一个信号、事件或值,则处理元件或步骤的信号输出被认为“依赖于”信号、事件或值输入中的每一者。如果给定信号、事件或值与先导信号、事件或值相同,则这仅仅是其中给定信号、事件或值仍然被认为“依赖于”或“取决于”或“基于”先导信号、事件或值的简并情况。给定信号、事件或值对另一信号、事件或值的“响应性”以类似方式定义。
如本文所用,“并行”或“同步”不需要精确的同时性。如果这些个体中的一个的评估在这些个体中的另一个的评估完成之前开始,则就足够了。
计算机系统
图82是可由测序系统800A用来实现本文所公开的技术的计算机系统8200。计算机系统8200包括经由总线子系统8255与多个外围设备通信的至少一个中央处理单元(CPU)8272。这些外围设备可包括存储子系统8210,该存储子系统包括例如存储器设备和文件存储子系统8236、用户界面输入设备8238、用户界面输出设备8276和网络接口子系统8274。输入和输出设备允许用户与计算机系统8200进行交互。网络接口子系统8274提供到外部网络的接口,包括提供到其他计算机系统中的对应接口设备的接口。
在一个具体实施中,系统控制器7806可通信地链接到存储子系统8210和用户界面输入设备8238。
用户界面输入设备8238可包括:键盘;指向设备,诸如鼠标、轨迹球、触摸板或图形输入板;扫描仪;结合到显示器中的触摸屏;音频输入设备,诸如语音识别系统和麦克风;以及其他类型的输入设备。一般来讲,使用术语“输入设备”旨在包括将信息输入到计算机系统8200中的所有可能类型的设备和方式。
用户界面输出设备8276可包括显示子系统、打印机、传真机或非视觉显示器诸如音频输出设备。显示子系统可包括LED显示器、阴极射线管(CRT)、平板设备诸如液晶显示器(LCD)、投影设备或用于产生可见图像的一些其他机构。显示子系统还可提供非视觉显示器,诸如音频输出设备。一般来讲,使用术语“输出设备”旨在包括将信息从计算机系统8200输出到用户或输出到另一个机器或计算机系统的所有可能类型的设备和方式。
存储子系统8210存储提供本文所述的模块的一些或全部功能和方法的编程和数据构造。这些软件模块通常由深度学习处理器8278执行。
深度学习处理器8278可以是图形处理单元(GPU)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)和/或粗粒度可重构架构(CGRA)。深度学习处理器8278可以由深度学习云平台诸如Google Cloud PlatformTM、XilinxTM和CirrascaleTM托管。深度学习处理器8278的示例包括Google的Tensor Processing Unit(TPU)TM、机架解决方案(如GX4 RackmountSeriesTM、GX82 Rackmount SeriesTM)、NVIDIA DGX-1TM、Microsoft的Stratix V FPGATM、Graphcore的Intelligent Processor Unit(IPU)TM、Qualcomm的具有SnapdragonprocessorsTM的Zeroth PlatformTM、NVIDIA的VoltaTM、NVIDIA的DRIVE PXTM、NVIDIA的JETSON TX1/TX2 MODULETM、Intel的NirvanaTM、Movidius VPUTM、Fujitsu DPITM、ARM的DynamicIQTM、IBM TrueNorthTM、具有Testa V100sTM的Lambda GPU服务器等。
在存储子系统8210中使用的存储器子系统8222可包括多个存储器,包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)8232和其中存储固定指令的只读存储器(ROM)8234。文件存储子系统8236可为程序文件和数据文件提供持久性存储,并且可包括硬盘驱动器、软盘驱动器以及相关联的可移动介质、CD-ROM驱动器、光盘驱动器或可移动介质磁带盘。实现某些具体实施的功能的模块可由文件存储子系统8236存储在存储子系统8210中,或存储在处理器可访问的其他机器中。
总线子系统8255提供用于使计算机系统8200的各种部件和子系统按照预期彼此通信的机构。尽管总线子系统8255被示意性地示出为单个总线,但总线子系统的另选具体实施可使用多条总线。
计算机系统8200本身可具有不同类型,包括个人计算机、便携式计算机、工作站、计算机终端、网络计算机、电视机、主机、服务器群、一组广泛分布的松散联网的计算机或任何其他数据处理系统或用户设备。由于计算机和网络的不断变化的性质,对图82中描绘的计算机系统8200的描述仅旨在作为用于示出本发明的优选具体实施的具体示例。计算机系统8200的许多其他配置是可能的,其具有比图82中描绘的计算机系统更多或更少的部件。
特定具体实施
本发明描述了基于神经网络的模板生成和基于神经网络的碱基检出的各种具体实施。具体实施的一个或多个特征可与基本具体实施组合。不互相排斥的具体实施被教导为可组合的。具体实施的一个或多个特征可与其他具体实施组合。本公开周期性地提醒用户这些选项。从一些具体实施中省略重复这些选项的表述不应被视为限制前述部分中教导的组合,这些表述将据此以引用方式并入以下具体实施中的每个具体实施中。
子像素碱基检出
本发明公开了确定关于流通池的区块上的分析物的元数据的计算机实现的方法。该方法包括访问在测序运行期间生成的一系列图像集,该一系列图像集中的每个图像集在所述测序运行的相应测序循环期间生成,该一系列图像集中的每个图像描绘分析物及其周围背景,并且该一系列图像集中的每个图像具有多个子像素。该方法包括从碱基检出器获得将子像素中的每个子像素分类为四种碱基(A、C、T和G)中的一种的碱基检出,从而在测序运行的多个测序循环中针对子像素中的每个子像素产生碱基检出序列。该方法包括生成分析物映射图,该分析物映射图将分析物识别为共享基本上匹配的碱基检出序列的邻接子像素的不相交区域。该方法包括基于不相交区域来确定分析物的空间分布并且确定这些分析物的形状和尺寸,以及将分析物映射图存储在存储器中,以用作用于训练分类器的基准真值。
在所公开的技术的本部分和其他部分中描述的方法可包括以下特征中的一者或多者和/或结合所公开的附加方法所述的特征。为了简洁起见,本申请中公开的特征的组合不是单独列举的,并且不与每个基本特征组一起重复。读者将理解在这些具体实施中识别的特征可如何容易地与在其他具体实施中识别的基本特征组组合。
在一个具体实施中,该方法包括将分析物映射图中不属于不相交区域中的任一个不相交区域的那些子像素识别为背景。在一个具体实施中,该方法包括从碱基检出器获得将子像素中的每个子像素分类为五种碱基(A、C、T、G和N)中的一种的碱基检出。在一个具体实施中,分析物映射图识别其碱基检出序列基本上不匹配的两个邻接子像素之间的分析物边界部分。
在一个具体实施中,该方法包括在由碱基检出器确定的分析物的初始中心坐标处识别原点子像素,以及通过以原点子像素开始并以连续邻接的非原点子像素继续,对基本上匹配的碱基检出序列进行广度优先搜索。在一个具体实施中,该方法包括,通过将分析物映射图的不相交区域的质心计算为形成不相交区域的相应邻接子像素的坐标的平均值来逐分析物地确定分析物的超定位中心坐标,以及逐分析物地将分析物的超定位中心坐标存储在存储器中,以用作用于训练分类器的基准真值。
在一个具体实施中,该方法包括:在分析物的中心坐标处逐分析物地识别分析物映射图的不相交区域中的质心子像素;使用插值法对分析物映射图进行上采样,并且将上采样的分析物映射图存储在存储器中,以用作用于训练分类器的基准真值;以及在上采样的分析物映射图中,基于衰减因子逐分析物地将值分配给不相交区域中的每个邻接子像素,该衰减因子与邻接子像素距该邻接子像素所属的不相交区域中的质心子像素的距离成比例。在一个具体实施中,该值是归一化在零和一之间的强度值。在一个具体实施中,该方法包括,在上采样的分析物映射图中,将相同的预先确定值分配给被识别为背景的所有子像素。在一个具体实施中,预先确定值为零强度值。
在一个具体实施中,该方法包括:根据上采样的分析物映射图生成衰减映射图,该衰减映射图基于该邻接子像素的分配值表达不相交区域中的邻接子像素和被识别为背景的子像素;以及将衰减映射图存储在存储器中,以用作用于训练分类器的基准真值。在一个具体实施中,衰减映射图中的每个子像素具有归一化在零和一之间的值。在一个具体实施中,该方法包括:在上采样的分析物映射图中,逐分析物地将不相交区域中的邻接子像素分类为属于同一分析物的分析物内部子像素,将质心子像素分类为分析物中心子像素,将包含分析物边界部分的子像素分类为边界子像素,并且将被识别为背景的子像素分类为背景子像素;以及将分类存储在存储器中,以用作用于训练分类器的基准真值。
在一个具体实施中,该方法包括:逐分析物地将分析物内部子像素、分析物中心子像素、边界子像素和背景子像素的坐标存储在存储器中,以用作用于训练分类器的基准真值;以用于对分析物映射图进行上采样的因子缩小坐标;以及逐分析物地将缩小的坐标存储在存储器中,以用作用于训练分类器的基准真值。
在一个具体实施中,该方法包括:在根据上采样的分析物映射图生成的二元基准真值数据中,使用颜色编码将分析物中心子像素标记为属于分析物中心类,并且将所有其他子像素标记为属于非中心类;以及将二元基准真值数据存储在存储器中,以用作用于训练分类器的基准真值。在一个具体实施中,该方法包括,在根据上采样的分析物映射图生成的三元基准真值数据中,使用颜色编码将背景子像素标记为属于背景类,将分析物中心子像素标记为属于分析物中心类,并且将分析物内部子像素标记为属于分析物内部类;以及将三元基准真值数据存储在存储器中,以用作用于训练分类器的基准真值。
在一个具体实施中,该方法包括:针对流通池的多个区块生成分析物映射图,将该分析物映射图存储在存储器中,以及基于该分析物映射图来确定区块中分析物的空间分布,并且确定这些分析物的形状和尺寸;在区块中的分析物的上采样的分析物映射图中,逐分析物地将子像素分类为属于同一分析物的分析物内部子像素、分析物中心子像素、边界子像素和背景子像素,将分类存储在存储器中以用作用于训练分类器的基准真值;跨区块地逐分析物地将分析物内部子像素、分析物中心子像素、边界子像素和背景子像素的坐标存储在存储器中,以用作用于训练分类器的基准真值;以用于对分析物映射图进行上采样的因子缩小坐标,以及跨区块地逐分析物地将缩小的坐标存储在存储器中,以用作用于训练分类器的基准真值。
在一个具体实施中,当碱基检出的预先确定部分按位置顺序匹配时,碱基检出序列是基本匹配的。在一个具体实施中,碱基检出器通过对子像素的强度进行插值来产生碱基检出序列,强度提取的方式包括:最近邻强度提取、基于高斯的强度提取、基于2×2子像素区域的平均值的强度提取、基于2×2子像素区域中最亮处的强度提取、基于3×3子像素区域的平均值的强度提取、双线性强度提取、双立方强度提取和/或基于加权区域覆盖的强度提取。在一个具体实施中,由碱基检出器基于其整数坐标或非整数坐标来识别子像素。
在一个具体实施中,该方法包括要求不相交区域中的至少一些具有预先确定的最小数量的子像素。在一个具体实施中,流通池具有至少一个图案化表面,该图案化表面具有占用分析物的孔的阵列。在这种具体实施中,该方法包括基于所确定的分析物的形状和尺寸来确定:孔中的哪些孔基本上被至少一个分析物占用,孔中的哪些孔被最低限度地占用,以及孔中的哪些孔被多个分析物共同占用。
在一个具体实施中,流通池具有至少一个非图案化表面,并且分析物不均匀地分散在非图案化表面上。在一个具体实施中,分析物的密度在约100,000分析物/mm2至约1,000,000分析物/mm2的范围内。在一个具体实施中,分析物的密度在约1,000,000分析物/mm2至约10,000,000分析物/mm2的范围内。在一个具体实施中,子像素是四分之一子像素。在另一个具体实施中,子像素是二分之一子像素。在一个具体实施中,由碱基检出器确定的分析物的初始中心坐标限定在区块的模板图像中,并且像素分辨率、图像坐标系和图像坐标系的测量标度对于模板图像和图像都是相同的。在一个具体实施中,每个图像集具有四个图像。在另一个具体实施中,每个图像集具有两个图像。在另一个具体实施中,每个图像集具有一个图像。在一个具体实施中,测序运行利用四通道化学。在另一个具体实施中,测序运行利用双通道化学。在又一个具体实施中,测序运行利用单通道化学。
在本部分中描述的方法的其他具体实施可包括存储指令的非暂态计算机可读存储介质,这些指令可由处理器执行以执行上述方法中的任一种方法。在本部分中描述的方法的又一个具体实施可包括一种系统,该系统包括存储器和一个或多个处理器,该一个或多个处理器可操作以执行存储在存储器中的指令,以执行上述方法中的任一种方法。
本发明公开了确定关于流通池的区块上的分析物的元数据的计算机实现的方法。该方法包括访问在测序运行期间捕获的区块的图像集以及由碱基检出器确定的分析物的初始中心坐标。该方法包括:针对每个图像集,从碱基检出器获得碱基检出,该碱基检出将以下各项分类为四种中的一种:包含初始中心坐标的原点子像素和邻接子像素的预先确定的邻域,这些邻接子像素与原点子像素中的相应原点子像素连续邻接,从而针对原点子像素中的每个原点子像素和邻接子像素的预先确定的邻域中的每个邻接子像素的预先确定的邻域产生碱基检出序列。该方法包括:生成分析物映射图,该分析物映射图将分析物识别为邻接子像素的不相交区域,这些邻接子像素与原点子像素中的相应原点子像素中的至少一些连续邻接,并且与原点子像素中的相应原点子像素中的至少一些共享四种碱基中的一种的基本上匹配的碱基检出序列。该方法包括将分析物映射图存储在存储器中,并且基于分析物映射图中的不相交区域来确定分析物的形状和尺寸。
在其他具体实施的特定具体实施部分中所讨论的特征中的每个特征同样适用于本具体实施。如上所示,所有其他特征在此处不再重复,并且应被视为以引用方式重复。读者将理解在这些具体实施中识别的特征可如何容易地与在其他具体实施中识别的基本特征组组合。
在一个具体实施中,邻接子像素的预先确定的邻域是以包含原点子像素的像素为中心的m×n子像素补片,并且子像素补片是3×3的像素。在一个具体实施中,邻接子像素的预先确定的邻域是以包含原点子像素的像素为中心的n连接子像素邻域。在一个具体实施中,该方法包括将分析物映射图中不属于不相交区域中的任一个不相交区域的那些子像素识别为背景。
在本部分中描述的方法的其他具体实施可包括存储指令的非暂态计算机可读存储介质,这些指令可由处理器执行以执行上述方法中的任一种方法。在本部分中描述的方法的又一个具体实施可包括一种系统,该系统包括存储器和一个或多个处理器,该一个或多个处理器可操作以执行存储在存储器中的指令,以执行上述方法中的任一种方法。
训练数据生成
本发明公开了生成用于基于神经网络的模板生成和碱基检出的训练数据的计算机实现的方法。该方法包括访问在测序运行的多个循环内捕获的流通池的多个图像,该流通池具有多个区块,并且在该多个图像中,区块中的每个区块具有在该多个循环内生成的图像集序列,并且该图像集序列中的每个图像描绘分析物及其周围背景在循环的特定循环中在区块中的特定区块上的强度发射。该方法包括构建具有多个训练示例的训练集,每个训练示例对应于区块中的特定区块,并且包括来自区块中的该特定区块的图像集序列中至少一些图像集的图像数据。该方法包括:针对训练示例中的每个训练示例生成至少一个基准真值数据表示,该基准真值数据表示识别区块中的特定区块上的分析物的空间分布及其周围背景中的至少一者,并且识别分析物形状、分析物尺寸和/或分析物边界和/或分析物中心中的至少一者,这些分析物的强度发射由图像数据描绘。
在其他具体实施的特定具体实施部分中所讨论的特征中的每个特征同样适用于本具体实施。如上所示,所有其他特征在此处不再重复,并且应被视为以引用方式重复。读者将理解在这些具体实施中识别的特征可如何容易地与在其他具体实施中识别的基本特征组组合。
在一个具体实施中,图像数据包括区块中的特定区块的图像集序列中的至少一些图像集中的每个图像集中的图像,并且图像具有1800×1800的分辨率。在一个具体实施中,图像数据包括来自图像中的每个图像的至少一个图像补片,并且该图像补片覆盖区块中的特定区块的一部分并且具有20×20的分辨率。在一个具体实施中,图像数据包括图像补片的上采样表示,并且该上采样表示具有80×80的分辨率。在一个具体实施中,基准真值数据表示具有80×80的上采样分辨率。
在一个具体实施中,多个训练示例对应于区块中的同一特定区块,并且分别包括来自区块中的同一特定区块的图像集序列中的至少一些图像集中的每个图像集中的每个图像的不同图像补片作为图像数据,并且这些不同图像补片中的至少一些彼此重叠。在一个具体实施中,基准真值数据表示将分析物识别为相邻子像素的不相交区域,将分析物的中心识别为不相交区域中的相应不相交区域内的质心子像素,并且将其周围背景识别为不属于不相交区域中的任一个不相交区域的子像素。在一个具体实施中,基准真值数据表示使用颜色编码来将每个子像素识别为分析物中心或非中心。在一个具体实施中,基准真值数据表示使用颜色编码来将每个子像素识别为分析物内部、分析物中心或周围背景。
在一个具体实施中,该方法包括将训练集中的训练示例和相关联的基准真值数据存储在存储器中,作为用于基于神经网络的模板生成和碱基检出的训练数据。在一个具体实施中,该方法包括针对多种流通池、测序仪器、测序方案、测序化学、测序试剂和分析物密度生成训练数据。
在本部分中描述的方法的其他具体实施可包括存储指令的非暂态计算机可读存储介质,这些指令可由处理器执行以执行上述方法中的任一种方法。在本部分中描述的方法的又一个具体实施可包括一种系统,该系统包括存储器和一个或多个处理器,该一个或多个处理器可操作以执行存储在存储器中的指令,以执行上述方法中的任一种方法。
元数据和碱基检出生成
在一个具体实施中,方法包括访问由测序器产生的分析物的测序图像,根据测序图像生成训练数据,以及将训练数据用于训练神经网络以生成关于分析物的元数据。在其他具体实施的特定具体实施部分中所讨论的特征中的每个特征同样适用于本具体实施。如上所示,所有其他特征在此处不再重复,并且应被视为以引用方式重复。读者将理解在这些具体实施中识别的特征可如何容易地与在其他具体实施中识别的基本特征组组合。在本部分中描述的方法的其他具体实施可包括存储指令的非暂态计算机可读存储介质,这些指令可由处理器执行以执行上述方法中的任一种方法。在本部分中描述的方法的又一个具体实施可包括一种系统,该系统包括存储器和一个或多个处理器,该一个或多个处理器可操作以执行存储在存储器中的指令,以执行上述方法中的任一种方法。
在一个具体实施中,方法包括访问由测序器产生的分析物的测序图像,根据测序图像生成训练数据,以及将训练数据用于训练神经网络以对分析物进行碱基检出。在其他具体实施的特定具体实施部分中所讨论的特征中的每个特征同样适用于本具体实施。如上所示,所有其他特征在此处不再重复,并且应被视为以引用方式重复。读者将理解在这些具体实施中识别的特征可如何容易地与在其他具体实施中识别的基本特征组组合。在本部分中描述的方法的其他具体实施可包括存储指令的非暂态计算机可读存储介质,这些指令可由处理器执行以执行上述方法中的任一种方法。在本部分中描述的方法的又一个具体实施可包括一种系统,该系统包括存储器和一个或多个处理器,该一个或多个处理器可操作以执行存储在存储器中的指令,以执行上述方法中的任一种方法。
回归模型
本发明公开了识别流通池的区块上的分析物和相关的分析物元数据的计算机实现的方法。该方法包括通过神经网络处理来自图像集序列的输入图像数据,以及生成输入图像数据的另选表示。图像集序列中的每个图像覆盖区块,并且描绘了描绘了区块上的分析物及其周围背景的在流通池上执行的测序运行的多个测序循环中的特定测序循环中针对特定成像通道捕获的强度发射。该方法包括通过输出层处理另选表示以及生成输出,该输出将其强度发射由输入图像数据描绘的分析物识别为相邻子像素的不相交区域,将分析物的中心识别为不相交区域中的相应不相交区域的质心处的中心子像素,并且将其周围背景识别为不属于不相交区域中的任一个不相交区域的背景子像素。
在其他具体实施的特定具体实施部分中所讨论的特征中的每个特征同样适用于本具体实施。如上所示,所有其他特征在此处不再重复,并且应被视为以引用方式重复。读者将理解在这些具体实施中识别的特征可如何容易地与在其他具体实施中识别的基本特征组组合。
在一个具体实施中,不相交区域中的相应不相交区域中的相邻子像素具有根据相邻子像素距该相邻子像素所属的不相交区域中的中心子像素的距离而加权的强度值。在一个具体实施中,中心子像素在不相交区域中的相应不相交区域内具有最高强度值。在一个具体实施中,背景子像素在输出中均具有相同的最低强度值。在一个具体实施中,输出层将强度值归一化在零和一之间。
在一个具体实施中,该方法包括:将峰值定位器应用于输出以找到输出中的峰值强度,基于峰值强度来确定分析物中心的位置坐标,以用于准备输入图像数据的上采样因子缩小位置坐标,并且将缩小的位置坐标存储在存储器中以用于对分析物进行碱基检出。在一个具体实施中,该方法包括将不相交区域中的相应不相交区域中的相邻子像素分类为属于同一分析物的分析物内部子像素,以及逐分析物地将分类以及分析物内部子像素的缩小的位置坐标存储在存储器中以用于对分析物进行碱基检出。在一个具体实施中,该方法包括:逐分析物地确定分析物内部子像素距分析物中心中的相应中心的距离,以及逐分析物地将距离存储在存储器中以用于对分析物进行碱基检出。
在一个具体实施中,该方法包括:从不相交区域中的相应不相交区域中的分析物内部子像素中提取强度,强度提取的方式包括:最近邻强度提取、基于高斯的强度提取、基于2×2子像素区域的平均值的强度提取、基于2×2子像素区域中最亮处的强度提取、基于3×3子像素区域的平均值的强度提取、双线性强度提取、双立方强度提取和/或基于加权区域覆盖的强度提取;以及逐分析物地将强度存储在存储器中以用于对分析物进行碱基检出。
在一个具体实施中,该方法包括基于不相交区域来确定分析物的空间分布并且确定分析物形状、分析物尺寸和/或分析物边界中的至少一者作为相关的分析物元数据的一部分,以及逐分析物地将相关的分析物元数据存储在存储器中以用于对分析物进行碱基检出。
在一个具体实施中,输入图像数据包括图像集序列中的图像,并且这些图像具有3000×3000的分辨率。在一个具体实施中,输入图像数据包括来自图像集序列中的图像中的每个图像的至少一个图像补片,并且该图像补片覆盖区块的一部分并且具有20×20的分辨率。在一个具体实施中,输入图像数据包括来自图像集序列中图像中的每个图像的图像补片的上采样表示,并且该上采样表示具有80×80的分辨率。在一个具体实施中,输出具有80×80的上采样分辨率。
在一个具体实施中,神经网络是具有编码器子网络和对应解码器网络的深度全卷积分割神经网络,编码器子网络包括编码器分级结构,并且解码器子网络包括将低分辨率编码器特征映射图映射到全输入分辨率特征映射图的解码器分级结构。在一个具体实施中,分析物的密度在约100,000分析物/mm2至约1,000,000分析物/mm2的范围内。在另一个具体实施中,分析物的密度在约1,000,000分析物/mm2至约10,000,000分析物/mm2的范围内。
在本部分中描述的方法的其他具体实施可包括存储指令的非暂态计算机可读存储介质,这些指令可由处理器执行以执行上述方法中的任一种方法。在本部分中描述的方法的又一个具体实施可包括一种系统,该系统包括存储器和一个或多个处理器,该一个或多个处理器可操作以执行存储在存储器中的指令,以执行上述方法中的任一种方法。
训练回归模型
本发明公开了训练神经网络以识别分析物和相关的分析物元数据的计算机实现的方法。该方法包括获得用于训练神经网络的训练数据。训练数据包括多个训练示例和应当由神经网络通过处理训练示例生成的对应基准真值数据。每个训练示例包括来自图像集序列的图像数据。图像集序列中的每个图像覆盖流通池的区块,并且描绘区块上的分析物及其周围背景的在对流通池执行的测序运行的多个测序循环中的特定测序循环中针对特定成像通道捕获的强度发射。每个基准真值数据将其强度发射由对应训练示例的图像数据描绘的分析物识别为相邻子像素的不相交区域,将分析物的中心识别为不相交区域中的相应不相交区域的质心处的中心子像素,并且将其周围背景识别为不属于不相交区域中的任一个不相交区域的背景子像素。该方法包括:使用梯度下降训练技术来训练神经网络,以及生成用于训练示例的逐渐匹配基准真值数据的输出,包括迭代地优化使输出和基准真值数据之间的误差最小化的损失函数,以及基于该误差更新神经网络的参数。
在其他具体实施的特定具体实施部分中所讨论的特征中的每个特征同样适用于本具体实施。如上所示,所有其他特征在此处不再重复,并且应被视为以引用方式重复。读者将理解在这些具体实施中识别的特征可如何容易地与在其他具体实施中识别的基本特征组组合。
在一个具体实施中,该方法包括:在最后迭代之后误差收敛时,将神经网络的更新参数存储在存储器中以待应用于进一步的基于神经网络的模板生成和碱基检出。在一个具体实施中,在基准真值数据中,不相交区域中的相应不相交区域中的相邻子像素具有根据相邻子像素距该相邻子像素所属的不相交区域中的中心子像素的距离而加权的强度值。在一个具体实施中,在基准真值数据中,中心子像素在不相交区域中的相应不相交区域内具有最高强度值。在一个具体实施中,在基准真值数据中,背景子像素在输出中均具有相同的最低强度值。在一个具体实施中,在基准真值数据中,强度值在零和一之间归一化。
在一个具体实施中,损失函数是均方误差,并且误差在输出中的对应子像素的归一化强度值和基准真值数据之间在子像素的基础上最小化。在一个具体实施中,基准真值数据识别分析物的空间分布并且识别分析物形状、分析物尺寸和/或分析物边界中的至少一者作为相关的分析物元数据的一部分。在一个具体实施中,图像数据包括图像集序列中的图像,并且这些图像具有1800×1800的分辨率。在一个具体实施中,图像数据包括来自图像集序列中的图像中的每个图像的至少一个图像补片,并且该图像补片覆盖区块的一部分并且具有20×20的分辨率。在一个具体实施中,图像数据包括来自图像集序列中的图像中的每个图像的图像补片的上采样表示,并且该图像补片的上采样表示具有80×80的分辨率。
在一个具体实施中,在训练数据中,多个训练示例分别包括来自同一区块的图像集序列中的每个图像的不同图像补片作为图像数据,并且这些不同图像补片中的至少一些彼此重叠。在一个具体实施中,基准真值数据具有80×80的上采样分辨率。在一个具体实施中,训练数据包括流通池的多个区块的训练示例。在一个具体实施中,训练数据包括多种流通池、测序仪器、测序方案、测序化学、测序试剂和分析物密度的训练示例。在一个具体实施中,神经网络是具有编码器子网络和对应解码器网络的深度全卷积分割神经网络,编码器子网络包括编码器分级结构,并且解码器子网络包括将低分辨率编码器特征映射图映射到全输入分辨率特征映射图以通过最终分类层进行逐子像素分类的解码器分级结构。
在本部分中描述的方法的其他具体实施可包括存储指令的非暂态计算机可读存储介质,这些指令可由处理器执行以执行上述方法中的任一种方法。在本部分中描述的方法的又一个具体实施可包括一种系统,该系统包括存储器和一个或多个处理器,该一个或多个处理器可操作以执行存储在存储器中的指令,以执行上述方法中的任一种方法。
基于神经网络的模板生成器
本发明公开了确定关于流通池上的分析物的元数据的计算机实现的方法。该方法包括:访问描绘分析物的强度发射的图像数据,通过神经网络的一个或多个层处理图像数据并生成图像数据的另选表示,以及通过输出层处理另选表示并生成识别分析物的形状和尺寸和/或分析物中心中的至少一者的输出。
在其他具体实施的特定具体实施部分中所讨论的特征中的每个特征同样适用于本具体实施。如上所示,所有其他特征在此处不再重复,并且应被视为以引用方式重复。读者将理解在这些具体实施中识别的特征可如何容易地与在其他具体实施中识别的基本特征组组合。
在一个具体实施中,图像数据还描绘了分析物的周围背景的强度发射。在这种具体实施中,该方法包括输出,该输出识别流通池上的分析物的空间分布,并且识别周围背景和分析物之间的边界。在一个具体实施中,该方法包括基于输出来确定流通池上的分析物的中心位置坐标。在一个具体实施中,神经网络是卷积神经网络。在一个具体实施中,神经网络是递归神经网络。在一个具体实施中,神经网络是在输出层之前的具有编码器子网络和对应解码器网络的深度全卷积分割神经网络,编码器子网络包括编码器分级结构,并且解码器子网络包括将低分辨率编码器特征映射图映射到全输入分辨率特征映射图的解码器分级结构。
在本部分中描述的方法的其他具体实施可包括存储指令的非暂态计算机可读存储介质,这些指令可由处理器执行以执行上述方法中的任一种方法。在本部分中描述的方法的又一个具体实施可包括一种系统,该系统包括存储器和一个或多个处理器,该一个或多个处理器可操作以执行存储在存储器中的指令,以执行上述方法中的任一种方法。
二元分类模型
本发明公开了识别流通池的区块上的分析物和相关的分析物元数据的计算机实现的方法。该方法包括通过神经网络处理来自图像集序列的输入图像数据,以及生成图像数据的另选表示。在一个具体实施中,图像集序列中的每个图像覆盖区块,并且描绘了描绘了区块上的分析物及其周围背景的在流通池上执行的测序运行的多个测序循环中的特定测序循环中针对特定成像通道捕获的强度发射。该方法包括通过分类层处理另选表示以及生成识别分析物的中心的输出,这些分析物的强度发射由输入图像数据描绘。输出具有多个子像素,并且该多个子像素中的每个子像素被分类为分析物中心或非中心。
在其他具体实施的特定具体实施部分中所讨论的特征中的每个特征同样适用于本具体实施。如上所示,所有其他特征在此处不再重复,并且应被视为以引用方式重复。读者将理解在这些具体实施中识别的特征可如何容易地与在其他具体实施中识别的基本特征组组合。
在一个具体实施中,分类层给输出中为分析物中心的每个子像素分配第一可能分数,并且给为非中心的每个子像素分配第二可能分数。在一个具体实施中,第一可能分数和第二可能分数基于softmax函数来确定,并且在零和一之间指数地归一化。在一个具体实施中,第一可能分数和第二可能分数基于sigmoid形函数来确定,并且在零和一之间归一化。在一个具体实施中,基于第一可能分数和第二可能分数中的哪一个更高来将输出中的每个子像素分类为分析物中心或非中心。在一个具体实施中,基于第一可能分数和第二可能分数是否高于预先确定的阈值可能分数来将输出中的每个子像素分类为分析物中心或非中心。在一个具体实施中,输出识别分析物中的相应分析物的质心处的中心。在一个具体实施中,在输出中,被分类为分析物中心的子像素被分配相同的第一预先确定值,并且被分类为非中心的子像素全部被分配相同的第二预先确定值。在一个具体实施中,第一预先确定值和第二预先确定值为强度值。在一个具体实施中,第一预先确定值和第二预先确定值为连续值。
在一个具体实施中,该方法包括:确定被分类为分析物中心的子像素的位置坐标,以用于准备输入图像数据的上采样因子缩小位置坐标,以及将缩小的位置坐标存储在存储器中以用于对分析物进行碱基检出。在一个具体实施中,输入图像数据包括图像集序列中的图像,并且这些图像具有3000×3000的分辨率。在一个具体实施中,输入图像数据包括来自图像集序列中的图像中的每个图像的至少一个图像补片,并且该图像补片覆盖区块的一部分并且具有20×20的分辨率。在一个具体实施中,输入图像数据包括来自图像集序列中图像中的每个图像的图像补片的上采样表示,并且该上采样表示具有80×80的分辨率。在一个具体实施中,输出具有80×80的上采样分辨率。
在一个具体实施中,神经网络是分类层之前的具有编码器子网络和对应解码器网络的深度全卷积分割神经网络,编码器子网络包括编码器分级结构,并且解码器子网络包括将低分辨率编码器特征映射图映射到全输入分辨率特征映射图以通过分类层进行逐子像素分类的解码器分级结构。在一个具体实施中,分析物的密度在约100,000分析物/mm2至约1,000,000分析物/mm2的范围内。在另一个具体实施中,分析物的密度在约1,000,000分析物/mm2至约10,000,000分析物/mm2的范围内。
在本部分中描述的方法的其他具体实施可包括存储指令的非暂态计算机可读存储介质,这些指令可由处理器执行以执行上述方法中的任一种方法。在本部分中描述的方法的又一个具体实施可包括一种系统,该系统包括存储器和一个或多个处理器,该一个或多个处理器可操作以执行存储在存储器中的指令,以执行上述方法中的任一种方法。
训练二元分类模型
本发明公开了训练神经网络以识别分析物和相关的分析物元数据的计算机实现的方法。该方法包括获得用于训练神经网络的训练数据。训练数据包括多个训练示例和应当由神经网络通过处理训练示例生成的对应基准真值数据。每个训练示例包括来自图像集序列的图像数据。图像集序列中的每个图像覆盖流通池的区块,并且描绘区块上的分析物及其周围背景的在对流通池执行的测序运行的多个测序循环中的特定测序循环中针对特定成像通道捕获的强度发射。每个基准真值数据识别分析物的中心,这些分析物的强度发射由对应训练示例的图像数据描绘。基准真值数据具有多个子像素,并且该多个子像素中的每个子像素被分类为分析物中心或非中心。该方法包括:使用梯度下降训练技术来训练神经网络,以及生成用于训练示例的逐渐匹配基准真值数据的输出,包括迭代地优化使输出和基准真值数据之间的误差最小化的损失函数,以及基于该误差更新神经网络的参数。
在其他具体实施的特定具体实施部分中所讨论的特征中的每个特征同样适用于本具体实施。如上所示,所有其他特征在此处不再重复,并且应被视为以引用方式重复。读者将理解在这些具体实施中识别的特征可如何容易地与在其他具体实施中识别的基本特征组组合。
在一个具体实施中,该方法包括:在最后迭代之后误差收敛时,将神经网络的更新参数存储在存储器中以待应用于进一步的基于神经网络的模板生成和碱基检出。在一个具体实施中,在基准真值数据中,被分类为分析物中心的子像素全部被分配相同的第一预先确定的类分数,并且被分类为非中心的子像素全部被分配相同的第二预先确定的类分数。在一个具体实施中,在每个输出中,为分析物中心的每个子像素具有第一预测分数,并且为非中心的每个子像素具有第二预测分数。在一个具体实施中,损失函数是自定义加权的二元交叉熵损失,并且误差在输出和基准真值数据中的对应子像素的预测分数和类分数之间在子像素的基础上最小化。在一个具体实施中,基准真值数据识别分析物中的相应分析物的质心处的中心。在一个具体实施中,在基准真值数据中,被分类为分析物中心的子像素全部被分配相同的第一预先确定值,并且被分类为非中心的子像素都被分配相同的第二预先确定值。在一个具体实施中,第一预先确定值和第二预先确定值为强度值。在另一个具体实施中,第一预先确定值和第二预先确定值为连续值。
在一个具体实施中,基准真值数据识别分析物的空间分布并且识别分析物形状、分析物尺寸和/或分析物边界中的至少一者作为相关的分析物元数据的一部分。在一个具体实施中,图像数据包括图像集序列中的图像,并且这些图像具有1800×1800的分辨率。在一个具体实施中,图像数据包括来自图像集序列中的图像中的每个图像的至少一个图像补片,并且该图像补片覆盖区块的一部分并且具有20×20的分辨率。在一个具体实施中,图像数据包括来自图像集序列中的图像中的每个图像的图像补片的上采样表示,并且该图像补片的上采样表示具有80×80的分辨率。在一个具体实施中,在训练数据中,多个训练示例分别包括来自同一区块的图像集序列中的每个图像的不同图像补片作为图像数据,并且这些不同图像补片中的至少一些彼此重叠。在一个具体实施中,基准真值数据具有80×80的上采样分辨率。在一个具体实施中,训练数据包括流通池的多个区块的训练示例。在一个具体实施中,训练数据包括多种流通池、测序仪器、测序方案、测序化学、测序试剂和分析物密度的训练示例。在一个具体实施中,神经网络是分类层之前的具有编码器子网络和对应解码器网络的深度全卷积分割神经网络,编码器子网络包括编码器分级结构,并且解码器子网络包括将低分辨率编码器特征映射图映射到全输入分辨率特征映射图以通过分类层进行逐子像素分类的解码器分级结构。
在本部分中描述的方法的其他具体实施可包括存储指令的非暂态计算机可读存储介质,这些指令可由处理器执行以执行上述方法中的任一种方法。在本部分中描述的方法的又一个具体实施可包括一种系统,该系统包括存储器和一个或多个处理器,该一个或多个处理器可操作以执行存储在存储器中的指令,以执行上述方法中的任一种方法。
三元分类模型
本发明公开了识别流通池的区块上的分析物和相关的分析物元数据的计算机实现的方法。该方法包括通过神经网络处理来自图像集序列的输入图像数据,以及生成图像数据的另选表示。图像集序列中的每个图像覆盖区块,并且描绘了描绘了区块上的分析物及其周围背景的在流通池上执行的测序运行的多个测序循环中的特定测序循环中针对特定成像通道捕获的强度发射。该方法包括:通过分类层处理另选表示以及生成输出,该输出识别分析物的空间分布及其周围背景,并且识别分析物中心、分析物形状、分析物尺寸和/或分析物边界中的至少一者,该这些分析物的强度发射由输入图像数据示出。输出具有多个子像素,并且该多个子像素中的每个子像素被分类为背景、分析物中心或分析物内部。
在其他具体实施的特定具体实施部分中所讨论的特征中的每个特征同样适用于本具体实施。如上所示,所有其他特征在此处不再重复,并且应被视为以引用方式重复。读者将理解在这些具体实施中识别的特征可如何容易地与在其他具体实施中识别的基本特征组组合。
在一个具体实施中,分类层给输出中为背景的每个子像素分配第一可能分数,给为分析物中心的每个子像素分配第二可能分数并且给为分析物内部的每个子像素分配第三可能分数。在一个具体实施中,第一可能分数、第二可能分数和第三可能分数基于softmax函数来确定,并且在零和一之间指数地归一化。在一个具体实施中,基于第一可能分数、第二可能分数和第三可能分数中的哪一个最高来将输出中的每个子像素分类为背景、分析物中心或分析物内部。在一个具体实施中,基于第一可能分数、第二可能分数和第三可能分数是否高于预先确定的阈值可能分数来将输出中的每个子像素分类为背景、分析物中心或分析物内部。在一个具体实施中,输出识别分析物中的相应分析物的质心处的分析物中心。在一个具体实施中,在输出中,被分类为背景的子像素全部被分配相同的第一预先确定值,被分类为分析物中心的子像素全部被分配相同的第二预先确定值,并且被分类为分析物内部的子像素全部被分配相同的第三预先确定值。在一个具体实施中,第一预先确定值、第二预先确定值和第三预先确定值为强度值。在一个具体实施中,第一预先确定值、第二预先确定值和第三预先确定值为连续值。
在一个具体实施中,该方法包括:逐分析物地确定被分类为分析物中心的子像素的位置坐标,以用于准备输入图像数据的上采样因子缩小位置坐标,以及逐分析物地将缩小的位置坐标存储在存储器中以用于对分析物进行碱基检出。在一个具体实施中,该方法包括:逐分析物地确定被分类为分析物内部的子像素的位置坐标,以用于准备输入图像数据的上采样因子缩小位置坐标,以及逐分析物地将缩小的位置坐标存储在存储器中以用于对分析物进行碱基检出。在一个具体实施中,该方法包括:逐分析物地确定被分类为分析物内部的子像素距被分类为分析物中心的子像素中的相应子像素的距离,以及逐分析物地将距离存储在存储器中以用于对分析物进行碱基检出。在一个具体实施中,该方法包括:逐分析物地从被分类为分析物内部的子像素中提取强度,强度提取的方式包括:最近邻强度提取、基于高斯的强度提取、基于2×2子像素区域的平均值的强度提取、基于2×2子像素区域中最亮处的强度提取、基于3×3子像素区域的平均值的强度提取、双线性强度提取、双立方强度提取和/或基于加权区域覆盖的强度提取;以及逐分析物地将强度存储在存储器中以用于对分析物进行碱基检出。
在一个具体实施中,输入图像数据包括图像集序列中的图像,并且这些图像具有3000×3000的分辨率。在一个具体实施中,输入图像数据包括来自图像集序列中的图像中的每个图像的至少一个图像补片,并且该图像补片覆盖区块的一部分并且具有20×20的分辨率。在一个具体实施中,输入图像数据包括来自图像集序列中图像中的每个图像的图像补片的上采样表示,并且该上采样表示具有80×80的分辨率。在一个具体实施中,输出具有80×80的上采样分辨率。在一个具体实施中,神经网络是分类层之前的具有编码器子网络和对应解码器网络的深度全卷积分割神经网络,编码器子网络包括编码器分级结构,并且解码器子网络包括将低分辨率编码器特征映射图映射到全输入分辨率特征映射图以通过分类层进行逐子像素分类的解码器分级结构。在一个具体实施中,分析物的密度在约100,000分析物/mm2至约1,000,000分析物/mm2的范围内。在另一个具体实施中,分析物的密度在约1,000,000分析物/mm2至约10,000,000分析物/mm2的范围内。
在本部分中描述的方法的其他具体实施可包括存储指令的非暂态计算机可读存储介质,这些指令可由处理器执行以执行上述方法中的任一种方法。在本部分中描述的方法的又一个具体实施可包括一种系统,该系统包括存储器和一个或多个处理器,该一个或多个处理器可操作以执行存储在存储器中的指令,以执行上述方法中的任一种方法。
训练三元分类模型
本发明公开了训练神经网络以识别分析物和相关的分析物元数据的计算机实现的方法。该方法包括获得用于训练神经网络的训练数据。训练数据包括多个训练示例和应当由神经网络通过处理训练示例生成的对应基准真值数据。每个训练示例包括来自图像集序列的图像数据。图像集序列中的每个图像覆盖流通池的区块,并且描绘区块上的分析物及其周围背景的在对流通池执行的测序运行的多个测序循环中的特定测序循环中针对特定成像通道捕获的强度发射。每个基准真值数据识别分析物的空间分布及其周围背景,并且识别分析物中心、分析物形状、分析物尺寸和分析物边界,这些分析物的强度发射由输入图像数据描绘。基准真值数据具有多个子像素,并且该多个子像素中的每个子像素被分类为背景、分析物中心或分析物内部。该方法包括:使用梯度下降训练技术来训练神经网络,以及生成用于训练示例的逐渐匹配基准真值数据的输出,包括迭代地优化使输出和基准真值数据之间的误差最小化的损失函数,以及基于该误差更新神经网络的参数。
在其他具体实施的特定具体实施部分中所讨论的特征中的每个特征同样适用于本具体实施。如上所示,所有其他特征在此处不再重复,并且应被视为以引用方式重复。读者将理解在这些具体实施中识别的特征可如何容易地与在其他具体实施中识别的基本特征组组合。
在一个具体实施中,该方法包括:在最后迭代之后误差收敛时,将神经网络的更新参数存储在存储器中以待应用于进一步的基于神经网络的模板生成和碱基检出。在一个具体实施中,在基准真值数据中,被分类为背景的子像素全部被分配相同的第一预先确定的类分数,被分类为分析物中心的子像素全部被分配相同的第二预先确定的类分数,并且被分类为分析物内部的子像素全部被分配相同的第三预先确定的类分数。
在一个具体实施中,在每个输出中,为背景的每个子像素具有第一预测分数,为分析物中心的每个子像素具有第二预测分数,并且为分析物内部的每个子像素具有第三预测得分。在一个具体实施中,损失函数是自定义加权的三元交叉熵损失,并且误差在输出和基准真值数据中的对应子像素的预测分数和类分数之间在子像素的基础上最小化。在一个具体实施中,基准真值数据识别分析物中的相应分析物的质心处的分析物中心。在一个具体实施中,在基准真值数据中,被分类为背景的子像素全部被分配相同的第一预先确定值,被分类为分析物中心的子像素全部被分配相同的第二预先确定值,并且被分类为分析物内部的子像素全部被分配相同的第三预先确定值。在一个具体实施中,第一预先确定值、第二预先确定值和第三预先确定值为强度值。在一个具体实施中,第一预先确定值、第二预先确定值和第三预先确定值为连续值。在一个具体实施中,图像数据包括图像集序列中的图像,并且这些图像具有1800×1800的分辨率。在一个具体实施中,图像数据包括图像集序列中的图像,并且这些图像具有1800×1800的分辨率。
在一个具体实施中,图像数据包括来自图像集序列中的图像中的每个图像的至少一个图像补片,并且该图像补片覆盖区块的一部分并且具有20×20的分辨率。在一个具体实施中,图像数据包括来自图像集序列中的图像中的每个图像的图像补片的上采样表示,并且该图像补片的上采样表示具有80×80的分辨率。在一个具体实施中,在训练数据中,多个训练示例分别包括来自同一区块的图像集序列中的每个图像的不同图像补片作为图像数据,并且这些不同图像补片中的至少一些彼此重叠。在一个具体实施中,基准真值数据具有80×80的上采样分辨率。在一个具体实施中,训练数据包括流通池的多个区块的训练示例。在一个具体实施中,训练数据包括多种流通池、测序仪器、测序方案、测序化学、测序试剂和分析物密度的训练示例。在一个具体实施中,神经网络是分类层之前的具有编码器子网络和对应解码器网络的深度全卷积分割神经网络,编码器子网络包括编码器分级结构,并且解码器子网络包括将低分辨率编码器特征映射图映射到全输入分辨率特征映射图以通过分类层进行逐子像素分类的解码器分级结构。
在本部分中描述的方法的其他具体实施可包括存储指令的非暂态计算机可读存储介质,这些指令可由处理器执行以执行上述方法中的任一种方法。在本部分中描述的方法的又一个具体实施可包括一种系统,该系统包括存储器和一个或多个处理器,该一个或多个处理器可操作以执行存储在存储器中的指令,以执行上述方法中的任一种方法。
分割
本发明公开了确定分析物元数据的计算机实现的方法。该方法包括通过神经网络处理从图像集序列导出的输入图像数据,以及生成输入图像数据的另选表示。输入图像数据具有描绘分析物及其周围背景的单元阵列。该方法包括通过输出层处理另选表示以及为阵列中的每个单元生成输出值。该方法包括对单元的输出值进行阈值化以及将单元的第一子集分类为描绘周围背景的背景单元。该方法包括定位在单元的输出值中的峰值以及将单元的第二子集分类为包含分析物中心的中心单元。该方法包括将分割器应用于单元的输出值,以及将分析物的形状确定为由背景单元分开并以中心单元为中心的邻接单元的非重叠区域。分割器从中心单元开始,并且为每个中心单元确定一组连续邻接的单元,该组连续邻接的单元描绘其中心包含在中心单元中的同一分析物。
在其他具体实施的特定具体实施部分中所讨论的特征中的每个特征同样适用于本具体实施。如上所示,所有其他特征在此处不再重复,并且应被视为以引用方式重复。读者将理解在这些具体实施中识别的特征可如何容易地与在其他具体实施中识别的基本特征组组合。
在一个具体实施中,单元为像素。在另一个具体实施中,单元为子像素。在又一个具体实施中,单元为超像素。在一个具体实施中,输出值是连续值。在另一个具体实施中,输出值是softmax分数。在一个具体实施中,非重叠区域中的相应非重叠区域中的邻接单元具有根据邻接单元距该邻接单元所属的非重叠区域中的中心单元的距离而加权的输出值。在一个具体实施中,中心单元在非重叠区域中的相应非重叠区域内具有最高输出值。
在一个具体实施中,非重叠区域具有不规则轮廓,并且单元为子像素。在这种具体实施中,该方法包括:通过基于识别给定分析物的形状的邻接子像素的对应非重叠区域识别对给定分析物的分析物强度有贡献的子像素来确定给定分析物的分析物强度;在当前测序循环中针对一个或多个成像通道生成的一个或多个光学像素分辨率图像中定位所识别的子像素;在图像中的每个图像中,对所识别的子像素的强度进行插值,组合插值强度并且归一化组合的插值强度,以针对图像中的每个图像中的给定分析物产生每个图像分析物强度;以及组合针对图像中的每个图像的每个图像分析物强度,以确定当前测序循环中给定分析物的分析物强度。在一个具体实施中,归一化基于归一化因子,并且归一化因子为所识别的子像素的数量。在一个具体实施中,该方法包括基于当前测序循环中的分析物强度来对给定分析物进行碱基检出。
在一个具体实施中,非重叠区域具有不规则轮廓,并且单元为子像素。在这种具体实施中,该方法包括:通过基于识别给定分析物的形状的邻接子像素的对应非重叠区域识别对给定分析物的分析物强度有贡献的子像素来确定给定分析物的分析物强度;在一个或多个子像素分辨率图像中定位所识别的子像素,该一个或多个子像素分辨率图像是从当前测序循环中针对一个或多个成像通道生成的一个或多个光学像素分辨率图像上采样而来;在上采样的图像中的每个图像中,组合所识别的子像素的强度并且归一化组合的强度,以针对上采样的图像中的每个图像中的给定分析物产生每个图像分析物强度;以及组合针对上采样的图像中的每个图像的每个图像分析物强度,以确定当前测序循环中给定分析物的分析物强度。在一个具体实施中,归一化基于归一化因子,并且归一化因子为所识别的子像素的数量。在一个具体实施中,该方法包括基于当前测序循环中的分析物强度来对给定分析物进行碱基检出。
在一个具体实施中,图像集序列中的每个图像覆盖区块,并且描绘了描绘了区块上的分析物及其周围背景的在流通池上执行的测序运行的多个测序循环中的特定测序循环中针对特定成像通道捕获的强度发射。在一个具体实施中,输入图像数据包括来自图像集序列中的图像中的每个图像的至少一个图像补片,并且该图像补片覆盖区块的一部分并且具有20×20的分辨率。在一个具体实施中,输入图像数据包括来自图像集序列中的每个图像的图像补片的上采样子像素分辨率表示,并且上采样子像素表示具有80×80的分辨率。
在一个具体实施中,神经网络是卷积神经网络。在另一个具体实施中,神经网络是递归神经网络。在又一个具体实施中,神经网络是具有残差块和残差连接的残差神经网络。在又一个具体实施中,神经网络是具有编码器子网络和对应解码器网络的深度全卷积分割神经网络,编码器子网络包括编码器分级结构,并且解码器子网络包括将低分辨率编码器特征映射图映射到全输入分辨率特征映射图的解码器分级结构。
在本部分中描述的方法的其他具体实施可包括存储指令的非暂态计算机可读存储介质,这些指令可由处理器执行以执行上述方法中的任一种方法。在本部分中描述的方法的又一个具体实施可包括一种系统,该系统包括存储器和一个或多个处理器,该一个或多个处理器可操作以执行存储在存储器中的指令,以执行上述方法中的任一种方法。
峰值检测
本发明公开了确定分析物元数据的计算机实现的方法。该方法包括通过神经网络处理从图像集序列导出的输入图像数据,以及生成输入图像数据的另选表示。输入图像数据具有描绘分析物及其周围背景的单元阵列。该方法包括通过输出层处理另选表示以及为阵列中的每个单元生成输出值。该方法包括对单元的输出值进行阈值化以及将单元的第一子集分类为描绘周围背景的背景单元。该方法包括定位在单元的输出值中的峰值以及将单元的第二子集分类为包含分析物中心的中心单元。
在其他具体实施的特定具体实施部分中所讨论的特征中的每个特征同样适用于本具体实施。如上所示,所有其他特征在此处不再重复,并且应被视为以引用方式重复。读者将理解在这些具体实施中识别的特征可如何容易地与在其他具体实施中识别的基本特征组组合。
在一个具体实施中,该方法包括将分割器应用于单元的输出值,以及将分析物的形状确定为由背景单元分开并以中心单元为中心的邻接单元的非重叠区域。分割器从中心单元开始,并且为每个中心单元确定一组连续邻接的单元,该组连续邻接的单元描绘其中心包含在中心单元中的同一分析物。
在本部分中描述的方法的其他具体实施可包括存储指令的非暂态计算机可读存储介质,这些指令可由处理器执行以执行上述方法中的任一种方法。在本部分中描述的方法的又一个具体实施可包括一种系统,该系统包括存储器和一个或多个处理器,该一个或多个处理器可操作以执行存储在存储器中的指令,以执行上述方法中的任一种方法。
基于神经网络的分析物元数据生成器
在一个具体实施中,方法包括通过神经网络处理图像数据以及生成图像数据的另选表示。图像数据描绘了分析物的强度发射。该方法包括通过输出层处理另选表示以及生成识别关于分析物的元数据的输出,该元数据包括分析物的空间分布、分析物的形状、分析物的中心和/或分析物之间的边界中的至少一者。在其他具体实施的特定具体实施部分中所讨论的特征中的每个特征同样适用于本具体实施。如上所示,所有其他特征在此处不再重复,并且应被视为以引用方式重复。读者将理解在这些具体实施中识别的特征可如何容易地与在其他具体实施中识别的基本特征组组合。在本部分中描述的方法的其他具体实施可包括存储指令的非暂态计算机可读存储介质,这些指令可由处理器执行以执行上述方法中的任一种方法。在本部分中描述的方法的又一个具体实施可包括一种系统,该系统包括存储器和一个或多个处理器,该一个或多个处理器可操作以执行存储在存储器中的指令,以执行上述方法中的任一种方法。
基于单元的回归模型
本发明公开了识别流通池的区块上的分析物和相关的分析物元数据的计算机实现的方法。该方法包括通过神经网络处理来自图像集序列的输入图像数据,以及生成输入图像数据的另选表示。图像集序列中的每个图像覆盖区块,并且描绘了描绘了区块上的分析物及其周围背景的在流通池上执行的测序运行的多个测序循环中的特定测序循环中针对特定成像通道捕获的强度发射。该方法包括通过输出层处理另选表示以及生成输出,该输出将其强度发射由输入图像数据描绘的分析物识别为相邻单元的不相交区域,将分析物的中心识别为不相交区域中的相应不相交区域的质心处的中心单元,并且将其周围背景识别为不属于不相交区域中的任一个不相交区域的背景单元。
在其他具体实施的特定具体实施部分中所讨论的特征中的每个特征同样适用于本具体实施。如上所示,所有其他特征在此处不再重复,并且应被视为以引用方式重复。读者将理解在这些具体实施中识别的特征可如何容易地与在其他具体实施中识别的基本特征组组合。
在一个具体实施中,单元为像素。在另一个具体实施中,单元为子像素。在又一个具体实施中,单元为超像素。在本部分中描述的方法的其他具体实施可包括存储指令的非暂态计算机可读存储介质,这些指令可由处理器执行以执行上述方法中的任一种方法。在本部分中描述的方法的又一个具体实施可包括一种系统,该系统包括存储器和一个或多个处理器,该一个或多个处理器可操作以执行存储在存储器中的指令,以执行上述方法中的任一种方法。
基于单元的二元分类模型
本发明公开了识别流通池的区块上的分析物和相关的分析物元数据的计算机实现的方法。该方法包括通过神经网络处理来自图像集序列的输入图像数据,以及生成图像数据的另选表示。图像集序列中的每个图像覆盖区块,并且描绘了描绘了区块上的分析物及其周围背景的在流通池上执行的测序运行的多个测序循环中的特定测序循环中针对特定成像通道捕获的强度发射。该方法包括通过分类层处理另选表示以及生成识别分析物的中心的输出,这些分析物的强度发射由输入图像数据描绘。输出具有多个单元,并且该多个单元中的每个单元被分类为分析物中心或非中心。
在其他具体实施的特定具体实施部分中所讨论的特征中的每个特征同样适用于本具体实施。如上所示,所有其他特征在此处不再重复,并且应被视为以引用方式重复。读者将理解在这些具体实施中识别的特征可如何容易地与在其他具体实施中识别的基本特征组组合。
在一个具体实施中,单元为像素。在另一个具体实施中,单元为子像素。在又一个具体实施中,单元为超像素。在本部分中描述的方法的其他具体实施可包括存储指令的非暂态计算机可读存储介质,这些指令可由处理器执行以执行上述方法中的任一种方法。在本部分中描述的方法的又一个具体实施可包括一种系统,该系统包括存储器和一个或多个处理器,该一个或多个处理器可操作以执行存储在存储器中的指令,以执行上述方法中的任一种方法。
基于单元的三元分类模型
本发明公开了识别流通池的区块上的分析物和相关的分析物元数据的计算机实现的方法。该方法包括通过神经网络处理来自图像集序列的输入图像数据,以及生成图像数据的另选表示。图像集序列中的每个图像覆盖区块,并且描绘了描绘了区块上的分析物及其周围背景的在流通池上执行的测序运行的多个测序循环中的特定测序循环中针对特定成像通道捕获的强度发射。该方法包括:通过分类层处理另选表示以及生成输出,该输出识别分析物的空间分布及其周围背景,并且识别分析物中心、分析物形状、分析物尺寸和/或分析物边界中的至少一者,该这些分析物的强度发射由输入图像数据示出。输出具有多个单元,并且该多个单元中的每个单元被分类为背景、分析物中心或分析物内部。
在其他具体实施的特定具体实施部分中所讨论的特征中的每个特征同样适用于本具体实施。如上所示,所有其他特征在此处不再重复,并且应被视为以引用方式重复。读者将理解在这些具体实施中识别的特征可如何容易地与在其他具体实施中识别的基本特征组组合。
在一个具体实施中,单元为像素。在另一个具体实施中,单元为子像素。在又一个具体实施中,单元为超像素。在本部分中描述的方法的其他具体实施可包括存储指令的非暂态计算机可读存储介质,这些指令可由处理器执行以执行上述方法中的任一种方法。在本部分中描述的方法的又一个具体实施可包括一种系统,该系统包括存储器和一个或多个处理器,该一个或多个处理器可操作以执行存储在存储器中的指令,以执行上述方法中的任一种方法。
条款
本发明公开了以下条款:
条款组1
1.一种确定指示流通池的区块上的分析物的图像区域的计算机实现的方法,所述方法包括:
访问在测序运行期间生成的一系列图像集,所述一系列图像集中的每个图像集是在所述测序运行的相应测序循环期间生成的,所述一系列图像集中的每个图像描绘所述分析物及其周围背景,并且所述一系列图像集中的每个图像具有多个子像素;
从碱基检出器获得对所述子像素中的每个子像素分类的碱基检出,从而在所述测序运行的多个测序循环中针对所述子像素中的每个子像素产生碱基检出序列;
确定共享基本上匹配的碱基检出序列的邻接子像素的多个不相交区域;以及
生成识别所确定的不相交区域的分析物映射图。
2.根据条款1所述的计算机实现的方法,所述方法还包括:
基于所确定的邻接子像素的多个不相交区域来训练分类器,所述分类器是用于处理输入图像数据以生成衰减映射图、三元映射图或二元映射图的基于神经网络的模板生成器,所述衰减映射图、所述三元映射图或所述二元映射图表示所述输入图像数据中表示的多个分析物中的每个分析物的一个或多个属性以用于通过基于神经网络的碱基检出器进行的碱基检出,
优选地,以便增加高通量核酸测序技术中的通量水平。
3.根据条款1至2中任一项所述的计算机实现的方法,所述方法还包括:
通过将不属于所述不相交区域中的任一个不相交区域的那些子像素识别为背景来生成所述分析物映射图。
4.根据条款1至3中任一项所述的计算机实现的方法,其中所述分析物映射图识别两个邻接子像素之间的分析物边界部分,所述两个邻接子像素的碱基检出序列基本上不匹配。
5.根据条款1至4中任一项所述的计算机实现的方法,其中所述确定所述邻接子像素的多个不相交区域还包括:
在由所述碱基检出器确定的所述分析物的初始中心坐标处识别原点子像素;以及
通过以所述原点子像素开始并以连续邻接的非原点子像素继续,对基本上匹配的碱基检出序列进行广度优先搜索。
6.根据条款1至5中任一项所述的计算机实现的方法,所述方法还包括:
通过将所述分析物映射图的所述不相交区域的质心计算为形成所述不相交区域的相应邻接子像素的坐标的平均值来确定所述分析物的超定位中心坐标;以及
将所述分析物的所述超定位中心坐标存储在存储器中,以用作用于训练所述分类器的基准真值。
7.根据条款6所述的计算机实现的方法,所述方法还包括:
在所述分析物的所述超定位中心坐标处识别所述分析物映射图的所述不相交区域中的质心子像素;
使用插值法对所述分析物映射图进行上采样,并且将所上采样的分析物映射图存储在所述存储器中,以用作用于训练所述分类器的基准真值;以及
在所上采样的分析物映射图中,基于衰减因子将值分配给所述不相交区域中的每个邻接子像素,所述衰减因子与邻接子像素距所述邻接子像素所属的不相交区域中的质心子像素的距离成比例。
8.根据条款7所述的计算机实现的方法,所述方法更优选地还包括:
从所上采样的分析物映射图生成所述衰减映射图,所述衰减映射图基于所述邻接子像素的分配值来表达所述不相交区域中的所述邻接子像素和被识别为所述背景的所述子像素;以及
将所述衰减映射图存储在所述存储器中,以用作用于训练所述分类器的基准真值。
9.根据条款8所述的计算机实现的方法,所述方法甚至更优选地还包括:
在所上采样的分析物映射图中,逐分析物地将所述不相交区域中的所述邻接子像素分类为属于同一分析物的分析物内部子像素,将所述质心子像素分类为分析物中心子像素,将包含所述分析物边界部分的子像素分类为边界子像素,并且将被识别为所述背景的所述子像素分类为背景子像素;以及
将所述分类存储在所述存储器中,以用作用于训练所述分类器的基准真值。
10.根据条款1至9中任一项所述的计算机实现的方法,所述方法还包括:
逐分析物地将在所述分析物内部子像素、所述分析物中心子像素、所述边界子像素和所述背景子像素的坐标存储在所述存储器中,以用作用于训练所述分类器的基准真值;
以用于对所述分析物映射图进行上采样的因子来缩小所述坐标;以及
逐分析物地将所缩小的坐标存储在所述存储器中,以用作用于训练所述分类器的基准真值。
11.根据条款1至10中任一项所述的计算机实现的方法,所述方法还包括:
在根据所上采样的分析物映射图生成的二元基准真值数据中,使用颜色编码将所述分析物中心子像素标记为属于分析物中心类,并且将所有其他子像素标记为属于非中心类;以及
将所述二元基准真值数据存储在所述存储器中,以用作用于训练所述分类器的基准真值。
12.根据条款1至11中任一项所述的计算机实现的方法,所述方法还包括:
在根据所上采样的分析物映射图生成的三元基准真值数据中,使用颜色编码将所述背景子像素标记为属于背景类,将所述分析物中心子像素标记为属于分析物中心类,并且将所述分析物内部子像素标记为属于分析物内部类;以及
将所述三元基准真值数据存储在所述存储器中,以用作用于训练所述分类器的基准真值。
13.根据条款1至12中任一项所述的计算机实现的方法,所述方法还包括:
针对所述流通池的多个区块生成分析物映射图;
将所述分析物映射图存储在存储器中,并基于所述分析物映射图来确定所述区块中分析物的空间分布,包括确定所述分析物的形状和尺寸;
在所述区块中的所述分析物的所上采样的分析物映射图中,逐分析物地将子像素分类为属于同一分析物的分析物内部子像素、分析物中心子像素、边界子像素和背景子像素;
将所述分类存储在所述存储器中,以用作用于训练所述分类器的基准真值;
跨所述区块逐分析物地将在所述分析物内部子像素、所述分析物中心子像素、所述边界子像素和所述背景子像素的坐标存储在所述存储器中,以用作用于训练所述分类器的基准真值;
以用于对所述分析物映射图进行上采样的所述因子来缩小所述坐标;以及
跨所述区块逐分析物地将所缩小的坐标存储在所述存储器中,以用作用于训练所述分类器的基准真值。
14.根据条款1至13中任一项所述的计算机实现的方法,其中当碱基检出的预先确定部分按位置顺序匹配时,所述碱基检出序列是基本上匹配的。
15.根据条款1至14中任一项所述的计算机实现的方法,其中所述确定共用基本上匹配的碱基检出序列的所述邻接子像素的多个不相交区域基于不相交区域的预先确定的最小数量的子像素。
16.根据条款1至15中任一项所述的计算机实现的方法,其中所述流通池具有至少一个图案化表面,所述图案化表面具有占用所述分析物的孔的阵列,所述方法还包括:
基于所确定的所述分析物的形状和尺寸来确定:
所述孔中的哪些孔被至少一个分析物基本上占用,
所述孔中哪些孔被最低限度地占用,以及
所述孔中的哪些孔被多个分析物共同占用。
17.一种确定关于流通池的区块上的分析物的元数据的计算机实现的方法,所述方法包括:
访问在测序运行期间捕获的所述区块的图像集以及由碱基检出器确定的所述分析物的初始中心坐标;
针对每个图像集,从碱基检出器获得碱基检出,所述碱基检出将以下各项分类为四种碱基中的一种碱基:
包含所述初始中心坐标的原点子像素,以及
邻接子像素的预先确定的邻域,所述邻接子像素与所述原点子像素中的相应原点子像素连续邻接,
从而针对所述原点子像素中的每个原点子像素和所述邻接子像素的预先确定的邻域中的每个邻接子像素的预先确定的邻域产生碱基检出序列;
生成分析物映射图,所述分析物映射图将所述分析物识别为邻接子像素的不相交区域,所述邻接子像素
与所述原点子像素中的所述相应原点子像素中的至少一些连续邻接,并且
与所述原点子像素中的所述相应原点子像素中的所述至少一些共享所述四种碱基中的所述一种碱基的基本上匹配的碱基检出序列;以及
将所述分析物映射图存储在存储器中,并且基于所述分析物映射图中的所述不相交区域来确定所述分析物的形状和尺寸。
18.一种生成用于基于神经网络的模板生成和碱基检出的训练数据的计算机实现的方法,所述方法包括:
访问在测序运行的多个循环内捕获的流通池的多个图像,所述流通池具有多个区块,并且在所述多个图像中,所述区块中的每个区块具有在所述多个循环内生成的图像集序列,并且所述图像集序列中的每个图像描绘分析物及其周围背景在所述循环中的特定循环处在所述区块中的特定区块上的强度发射;
构建具有多个训练示例的训练集,每个训练示例对应于所述区块中的特定区块,并且包括来自所述区块中的所述特定区块的所述图像集序列中至少一些图像集的图像数据;以及
针对所述训练示例中的每个训练示例生成至少一个基准真值数据表示,所述基准真值数据表示识别所述区块中的所述特定区块上的分析物的至少一个属性,所述分析物的强度发射由所述图像数据描绘并且至少部分地使用根据条款1至17中任一项所述的方法来确定。
19.根据条款18所述的计算机实现的方法,其中所述分析物的所述至少一个属性选自:所述区块上分析物的空间分布;分析物形状;分析物尺寸;分析物边界;以及包括单个分析物的邻接区域的中心。
20.根据条款18至19中任一项所述的计算机实现的方法,其中所述图像数据包括所述区块中的所述特定区块的所述图像集序列中的所述至少一些图像集中的每个图像集中的图像。
21.根据条款18至20中任一项所述的计算机实现的方法,其中所述图像数据包括来自所述图像中的每个图像的至少一个图像补片。
22.根据条款18至21中任一项所述的计算机实现的方法,其中所述图像数据包括所述图像补片的上采样表示。
23.根据条款18至22中任一项所述的计算机实现的方法,其中多个训练示例对应于所述区块中的同一特定区块,并且分别包括来自所述区块中的所述同一特定区块的图像集序列中的至少一些图像集中的每个图像集中的每个图像的不同图像补片作为图像数据,并且
其中所述不同图像补片中的至少一些彼此重叠。
24.根据条款18至23中任一项所述的计算机实现的方法,其中所述基准真值数据表示将所述分析物识别为相邻子像素的不相交区域,将所述分析物的所述中心识别为所述不相交区域中的相应不相交区域内的质心子像素,并且将所述分析物的周围背景识别为不属于所述不相交区域中的任一个不相交区域的子像素。
25.根据条款18至24中任一项所述的计算机实现的方法,所述方法还包括:
将所述训练集中的所述训练示例和相关联的基准真值数据表示存储在存储器中,作为用于所述基于神经网络的模板生成和碱基检出的所述训练数据。
26.一种计算机实现的方法,所述方法包括:
访问由测序器产生的分析物的测序图像;
根据所述测序图像生成训练数据;以及
将所述训练数据用于训练神经网络以生成关于所述分析物的元数据。
27.一种计算机实现的方法,所述方法包括:
访问由测序器产生的分析物的测序图像;
根据所述测序图像生成训练数据;以及
将所述训练数据用于训练神经网络以对所述分析物进行碱基检出。
28.一种确定指示流通池的区块上的分析物的图像区域的计算机实现的方法,所述方法包括:
访问在测序运行期间生成的一系列图像集,所述一系列图像集中的每个图像集是在所述测序运行的相应测序循环期间生成的,所述一系列图像集中的每个图像描绘所述分析物及其周围背景,并且所述一系列图像集中的每个图像具有多个子像素;
从碱基检出器获得对所述子像素中的每个子像素分类的碱基检出,从而在所述测序运行的多个测序循环中针对所述子像素中的每个子像素产生碱基检出序列;以及
确定共享基本上匹配的碱基检出序列的邻接子像素的多个不相交区域。
条款组2
1.一种生成基准真值训练数据以训练用于簇元数据确定任务的基于神经网络的模板生成器的计算机实现的方法,所述方法包括:
访问在测序运行期间生成的一系列图像集,所述一系列图像集中的每个图像集是在所述测序运行的相应测序循环期间生成的,所述一系列图像集中的每个图像描绘簇及其周围背景,所述一系列图像集中的每个图像具有在像素域中的像素,并且所述像素中的每个像素被划分成子像素域中的多个子像素;
从碱基检出器获得将所述子像素中的每个子像素分类为四种碱基(A、C、T和G)中的一种碱基的碱基检出,从而在所述测序运行的多个测序循环中针对所述子像素中的每个子像素产生碱基检出序列;
生成簇映射图,所述簇映射图将所述簇识别为共享基本上匹配的碱基检出序列的邻接子像素的不相交区域;
基于所述簇映射图中的所述不相交区域来确定簇元数据,
其中所述簇元数据包括簇中心、簇形状、簇尺寸、簇背景和/或簇边界;以及
使用所述簇元数据来生成所述基准真值训练数据,以用于训练用于所述簇元数据确定任务的所述基于神经网络的模板生成器,
其中所述基准真值训练数据包括衰减映射图、三元映射图或二元映射图,
其中训练所述基于神经网络的模板生成器以基于所述基准真值训练数据来产生所述衰减映射图、所述三元映射图或所述二元映射图作为输出,并且
其中,在推断期间执行所述簇元数据确定任务时,所述簇元数据继而根据由所训练的基于神经网络的模板生成器产生作为所述输出的所述衰减映射图、所述三元映射图或所述二元映射图来确定。
2.根据权利要求1所述的计算机实现的方法,所述方法还包括:
将从由所述基于神经网络的模板生成器产生作为所述输出的所述衰减映射图、所述三元映射图或所述二元映射图导出的所述簇元数据用于由基于神经网络的碱基检出器进行碱基检出,以便增加高通量核酸测序技术中的通量。
3.根据权利要求1所述的计算机实现的方法,所述方法还包括:
通过将不属于所述不相交区域中的任一个不相交区域的那些子像素识别为背景来生成所述簇映射图。
4.根据权利要求1所述的计算机实现的方法,其中所述簇映射图识别两个邻接子像素之间的簇边界部分,所述两个邻接子像素的碱基检出序列基本上不匹配。
5.根据权利要求至1所述的计算机实现的方法,其中基于以下项来生成所述簇映射图:
在由所述碱基检出器确定的所述簇的初始中心坐标处识别原点子像素;以及
通过以所述原点子像素开始并以连续邻接的非原点子像素继续,对基本上匹配的碱基检出序列进行广度优先搜索。
6.根据权利要求1所述的计算机实现的方法,所述方法还包括:
通过将所述簇映射图的所述不相交区域的质心计算为形成所述不相交区域的相应邻接子像素的坐标的平均值来确定所述簇的超定位中心坐标;以及
将所述簇的所述超定位中心坐标存储在存储器中,以用作用于训练所述基于神经网络的模板生成器的所述基准真值训练数据。
7.根据权利要求6所述的计算机实现的方法,所述方法还包括:
在所述簇的所述超定位中心坐标处识别所述簇映射图的所述不相交区域中的质心子像素;
使用插值法对所述簇映射图进行上采样,并且将所上采样的簇映射图存储在所述存储器中,以用作用于训练所述基于神经网络的模板生成器的所述基准真值训练数据;以及
在所上采样的簇映射图中,基于衰减因子将值分配给所述不相交区域中的每个邻接子像素,所述衰减因子与邻接子像素距所述邻接子像素所属的不相交区域中的质心子像素的距离成比例。
8.根据权利要求7所述的计算机实现的方法,所述方法还包括:
从所上采样的簇映射图生成所述衰减映射图,所述衰减映射图基于所述邻接子像素的分配值来表达所述不相交区域中的所述邻接子像素和被识别为所述背景的所述子像素;以及
将所述衰减映射图存储在所述存储器中,以用作用于训练所述基于神经网络的模板生成器的所述基准真值训练数据。
9.根据权利要求8所述的计算机实现的方法,所述方法还包括:
在所上采样的簇映射图中,逐簇地将所述不相交区域中的所述邻接子像素分类为属于同一簇的簇内部子像素,将所述质心子像素分类为簇中心子像素,将包含所述簇边界部分的子像素分类为边界子像素,并且将被识别为所述背景的所述子像素分类为背景子像素;以及
将所述分类存储在所述存储器中,以用作用于训练所述基于神经网络的模板生成器的所述基准真值训练数据。
10.根据权利要求9所述的计算机实现的方法,所述方法还包括:
逐簇地将所述簇内部子像素、所述簇中心子像素、所述边界子像素和所述背景子像素的坐标存储在所述存储器中,以用作用于训练所述基于神经网络的模板生成器的所述基准真值训练数据;
以用于对所述簇映射图进行上采样的因子来缩小所述坐标;以及
逐簇地将所缩小的坐标存储在所述存储器中,以用作用于训练所述基于神经网络的模板生成器的所述基准真值训练数据。
11.根据权利要求10所述的计算机实现的方法,所述方法还包括:
针对所述流通池的多个区块生成簇映射图;
将所述簇映射图存储在存储器中,并且基于所述簇映射图来确定所述区块中的簇的所述簇元数据,包括所述簇中心、所述簇形状、所述簇尺寸、所述簇背景和/或所述簇边界;
在所述区块中的所述簇的所上采样的簇映射图中,逐簇地将子像素分类为属于同一簇的簇内部子像素、簇中心子像素、边界子像素和背景子像素;
将所述分类存储在所述存储器中,以用作用于训练所述基于神经网络的模板生成器的所述基准真值训练数据;
跨所述区块逐簇地将所述簇内部子像素、所述簇中心子像素、所述边界子像素和所述背景子像素的坐标存储在所述存储器中,以用作用于训练所述基于神经网络的模板生成器的所述基准真值训练数据;
以用于对所述簇映射图进行上采样的所述因子来缩小所述坐标;以及
跨所述区块逐簇地将所缩小的坐标存储在所述存储器中,以用作用于训练所述基于神经网络的模板生成器的所述基准真值训练数据。
12.根据权利要求11所述的计算机实现的方法,其中当碱基检出的预先确定部分按位置顺序匹配时,所述碱基检出序列是基本上匹配的。
13.根据权利要求1所述的计算机实现的方法,其中基于不相交区域的预先确定的最小数量的子像素来生成所述簇映射图。
14.根据权利要求1所述的计算机实现的方法,其中所述流通池具有至少一个图案化表面,所述图案化表面具有占用所述簇的孔的阵列,所述方法还包括:
基于所确定的所述簇的形状和尺寸来确定:
所述孔中的哪些孔被至少一个簇基本上占用,
所述孔中哪些孔被最低限度地占用,以及
所述孔中的哪些孔被多个簇共同占用。
15.一种确定关于流通池的区块上的簇的元数据的计算机实现的方法,所述方法包括:
访问在测序运行期间捕获的所述区块的图像集以及由碱基检出器确定的所述簇的初始中心坐标;
针对每个图像集,从碱基检出器获得碱基检出,所述碱基检出将以下项分类为四种碱基中的一种碱基:
包含所述初始中心坐标的原点子像素,以及
邻接子像素的预先确定的邻域,所述邻接子像素与所述原点子像素中的相应原点子像素连续邻接,
从而针对所述原点子像素中的每个原点子像素和所述邻接子像素的预先确定的邻域中的每个预先确定的邻域产生碱基检出序列;
生成簇映射图,所述簇映射图将所述簇识别为邻接子像素的不相交区域,所述邻接子像素
与所述原点子像素中的所述相应原点子像素中的至少一些连续邻接,并且
与所述原点子像素中的所述相应原点子像素中的所述至少一些共享所述四种碱基中的所述一种碱基的基本上匹配的碱基检出序列;以及
将所述簇映射图存储在存储器中,并且基于所述簇映射图中的所述不相交区域来确定所述簇的形状和尺寸。
16.一种生成用于基于神经网络的模板生成和碱基检出的训练数据的计算机实现的方法,所述方法包括:
访问在测序运行的多个循环内捕获的流通池的多个图像,所述流通池具有多个区块,并且在所述多个图像中,所述区块中的每个区块具有在所述多个循环内生成的图像集序列,并且所述图像集序列中的每个图像描绘簇及其周围背景在所述循环的特定循环中在所述区块中的特定区块上的强度发射;
构建具有多个训练示例的训练集,每个训练示例对应于所述区块中的特定区块,并且包括来自所述区块中的所述特定区块的所述图像集序列中至少一些图像集的图像数据;以及
针对所述训练示例中的每个训练示例生成至少一个基准真值数据表示,所述基准真值数据表示识别所述区块中的所述特定区块上的分析物的至少一个属性,所述分析物的强度发射由所述图像数据描绘。
17.根据权利要求16所述的计算机实现的方法,其中所述簇的所述至少一个属性选自:所述区块上簇的空间分布;簇形状;簇尺寸;簇边界;以及包括单个簇的邻接区域的中心。
18.根据权利要求16所述的计算机实现的方法,其中所述图像数据包括所述区块中的所述特定区块的所述图像集序列中的所述至少一些图像集中的每个图像集中的图像。
19.根据权利要求18所述的计算机实现的方法,其中所述图像数据包括来自所述图像中的每个图像的至少一个图像补片。
20.根据权利要求19所述的计算机实现的方法,其中所述图像数据包括所述图像补片的上采样表示。
21.根据权利要求16所述的计算机实现的方法,其中多个训练示例对应于所述区块中的同一特定区块,并且分别包括来自所述区块中的所述同一特定区块的图像集序列中的至少一些图像集中的每个图像集中的每个图像的不同图像补片作为图像数据,并且
其中所述不同图像补片中的至少一些彼此重叠。
22.根据权利要求16所述的计算机实现的方法,其中所述基准真值数据表示将所述簇识别为相邻子像素的不相交区域,将所述簇的所述中心识别为所述不相交区域中的相应不相交区域内的质心子像素,并且将所述簇的周围背景识别为不属于所述不相交区域中的任一个不相交区域的子像素。
23.根据权利要求16所述的计算机实现的方法,所述方法还包括:
将所述训练集中的所述训练示例和相关联的基准真值数据表示存储在存储器中,作为用于所述基于神经网络的模板生成和碱基检出的所述训练数据。
24.一种计算机实现的方法,所述方法包括:
访问由测序器产生的簇的测序图像;
根据所述测序图像生成训练数据;以及
将所述训练数据用于训练神经网络以生成关于所述簇的元数据。
25.一种计算机实现的方法,所述方法包括:
访问由测序器产生的簇的测序图像;
根据所述测序图像生成训练数据;以及
将所述训练数据用于训练神经网络以对所述簇进行碱基检出。
26.一种确定指示流通池的区块上的分析物的图像区域的计算机实现的方法,所述方法包括:
访问在测序运行期间生成的一系列图像集,所述一系列图像集中的每个图像集是在所述测序运行的相应测序循环期间生成的,所述一系列图像集中的每个图像描绘所述分析物及其周围背景,并且所述一系列图像集中的每个图像具有多个子像素;
从碱基检出器获得对所述子像素中的每个子像素分类的碱基检出,从而在所述测序运行的多个测序循环中针对所述子像素中的每个子像素产生碱基检出序列;
确定共享基本上匹配的碱基检出序列的邻接子像素的多个不相交区域;以及
生成识别所确定的不相交区域的簇映射图。

Claims (25)

1.一种生成基准真值训练数据以训练用于簇元数据确定任务的基于神经网络的模板生成器的计算机实现的方法,所述方法包括:
访问在测序运行期间生成的一系列图像集,所述一系列图像集中的每个图像集是在所述测序运行的相应测序循环期间生成的,所述一系列图像集中的每个图像描绘簇及其周围背景,所述一系列图像集中的每个图像具有在像素域中的像素,并且所述像素中的每个像素被划分成子像素域中的多个子像素;
从碱基检出器获得将所述子像素中的每个子像素分类为四种碱基(A、C、T和G)中的一种的碱基检出,从而在所述测序运行的多个测序循环中针对所述子像素中的每个子像素产生碱基检出序列;
生成簇映射图,所述簇映射图将所述簇识别为共享基本上匹配的碱基检出序列的邻接子像素的不相交区域;
基于所述簇映射图中的所述不相交区域来确定簇元数据,
其中所述簇元数据包括簇中心、簇形状、簇尺寸、簇背景和/或簇边界;以及
使用所述簇元数据来生成基准真值训练数据,以用于训练用于所述簇元数据确定任务的基于神经网络的模板生成器,
其中所述基准真值训练数据包括衰减映射图、三元映射图或二元映射图,
其中训练所述基于神经网络的模板生成器以基于所述基准真值训练数据来产生所述衰减映射图、所述三元映射图或所述二元映射图作为输出,并且
其中,在推断期间执行所述簇元数据确定任务时,所述簇元数据继而根据由所训练的基于神经网络的模板生成器产生作为所述输出的所述衰减映射图、所述三元映射图或所述二元映射图来确定。
2.根据权利要求1所述的计算机实现的方法,所述方法还包括:
将从由所述基于神经网络的模板生成器产生作为所述输出的所述衰减映射图、所述三元映射图或所述二元映射图导出的所述簇元数据用于由基于神经网络的碱基检出器进行碱基检出,以便增加高通量核酸测序技术中的通量。
3.根据权利要求1至2中任一项所述的计算机实现的方法,所述方法还包括:
通过将不属于所述不相交区域中的任一个不相交区域的那些子像素识别为背景来生成所述簇映射图。
4.根据权利要求1至3中任一项所述的计算机实现的方法,其中所述簇映射图识别两个邻接子像素之间的簇边界部分,所述两个邻接子像素的碱基检出序列基本上不匹配。
5.根据权利要求1至4中任一项所述的计算机实现的方法,其中基于以下项来生成所述簇映射图:
在由所述碱基检出器确定的所述簇的初始中心坐标处识别原点子像素;以及
通过以所述原点子像素开始并以连续邻接的非原点子像素继续,对基本上匹配的碱基检出序列进行广度优先搜索。
6.根据权利要求1至5中任一项所述的计算机实现的方法,所述方法还包括:
通过将所述簇映射图的所述不相交区域的质心计算为形成所述不相交区域的相应邻接子像素的坐标的平均值来确定所述簇的超定位中心坐标;以及
将所述簇的所述超定位中心坐标存储在所述存储器中,以用作用于训练所述基于神经网络的模板生成器的所述基准真值训练数据。
7.根据权利要求6所述的计算机实现的方法,所述方法还包括:
在所述簇的所述超定位中心坐标处识别所述簇映射图的所述不相交区域中的质心子像素;
使用插值法对所述簇映射图进行上采样,并且将所上采样的簇映射图存储在所述存储器中,以用作用于训练所述基于神经网络的模板生成器的所述基准真值训练数据;以及
在所上采样的簇映射图中,基于衰减因子将值分配给所述不相交区域中的每个邻接子像素,所述衰减因子与邻接子像素距所述邻接子像素所属的不相交区域中的质心子像素的距离成比例。
8.根据权利要求7所述的计算机实现的方法,所述方法还包括:
从所上采样的簇映射图生成所述衰减映射图,所述衰减映射图基于所述邻接子像素的分配值来表达所述不相交区域中的所述邻接子像素和被识别为所述背景的所述子像素;以及
将所述衰减映射图存储在所述存储器中,以用作用于训练所述基于神经网络的模板生成器的所述基准真值训练数据。
9.根据权利要求8所述的计算机实现的方法,所述方法还包括:
在所上采样的簇映射图中,逐簇地将所述不相交区域中的所述邻接子像素分类为属于同一簇的簇内部子像素,将所述质心子像素分类为簇中心子像素,将包含所述簇边界部分的子像素分类为边界子像素,并且将被识别为所述背景的所述子像素分类为背景子像素;以及
将所述分类存储在所述存储器中,以用作用于训练所述基于神经网络的模板生成器的所述基准真值训练数据。
10.根据权利要求1至9中任一项所述的计算机实现的方法,所述方法还包括:
逐簇地将所述簇内部子像素、所述簇中心子像素、所述边界子像素和所述背景子像素的坐标存储在所述存储器中,以用作用于训练所述基于神经网络的模板生成器的所述基准真值训练数据;
以用于对所述簇映射图进行上采样的因子来缩小所述坐标;以及
逐簇地将所缩小的坐标存储在所述存储器中,以用作用于训练所述基于神经网络的模板生成器的所述基准真值训练数据。
11.根据权利要求1至10中任一项所述的计算机实现的方法,所述方法还包括:
针对流通池的多个区块生成簇映射图;
将所述簇映射图存储在存储器中,并且基于所述簇映射图来确定所述区块中的簇的所述簇元数据,包括所述簇中心、所述簇形状、所述簇尺寸、所述簇背景和/或所述簇边界;
在所述区块中的所述簇的所上采样的簇映射图中,逐簇地将子像素分类为属于同一簇的簇内部子像素、簇中心子像素、边界子像素和背景子像素;
将所述分类存储在所述存储器中,以用作用于训练所述基于神经网络的模板生成器的所述基准真值训练数据;
跨所述区块逐簇地将所述簇内部子像素、所述簇中心子像素、所述边界子像素和所述背景子像素的坐标存储在所述存储器中,以用作用于训练所述基于神经网络的模板生成器的所述基准真值训练数据;
以用于对所述簇映射图进行上采样的所述因子来缩小所述坐标;以及
跨所述区块地逐簇地将所缩小的坐标存储在所述存储器中,以用作用于训练所述基于神经网络的模板生成器的所述基准真值训练数据。
12.根据权利要求1至11中任一项所述的计算机实现的方法,其中当碱基检出的预先确定部分按位置顺序匹配时,所述碱基检出序列是基本上匹配的。
13.根据权利要求1至12中任一项所述的计算机实现的方法,其中基于不相交区域的预先确定的最小数量的子像素来生成所述簇映射图。
14.根据权利要求1至13中任一项所述的计算机实现的方法,其中所述流通池具有至少一个图案化表面,所述图案化表面具有占用所述簇的孔的阵列,所述方法还包括:
基于所确定的所述簇的形状和尺寸来确定:
所述孔中的哪些孔被至少一个簇基本上占用,
所述孔中哪些孔被最低限度地占用,以及
所述孔中的哪些孔被多个簇共同占用。
15.一种确定关于流通池的区块上的簇的元数据的计算机实现的方法,所述方法包括:
访问在测序运行期间捕获的所述区块的图像集以及由碱基检出器确定的所述簇的初始中心坐标;
针对每个图像集,从碱基检出器获得碱基检出,所述碱基检出将以下项分类为四种碱基中的一种碱基:
包含所述初始中心坐标的原点子像素,以及
邻接子像素的预先确定的邻域,所述邻接子像素与所述原点子像素中的相应原点子像素连续邻接,
从而针对所述原点子像素中的每个原点子像素和所述邻接子像素的预先确定的邻域中的每个预先确定的邻域产生碱基检出序列;
生成簇映射图,所述簇映射图将所述簇识别为邻接子像素的不相交区域,所述邻接子像素
与所述原点子像素中的所述相应原点子像素中的至少一些原点子像素连续邻接,并且
与所述原点子像素中的所述相应原点子像素中的所述至少一些原点子像素共享所述四种碱基中的所述一种碱基的基本上匹配的碱基检出序列;以及
将所述簇映射图存储在存储器中,并且基于所述簇映射图中的所述不相交区域来确定所述簇的形状和尺寸。
16.一种生成用于基于神经网络的模板生成和碱基检出的训练数据的计算机实现的方法,所述方法包括:
访问在测序运行的多个循环内捕获的流通池的多个图像,所述流通池具有多个区块,并且在所述多个图像中,所述区块中的每个区块具有在所述多个循环内生成的图像集序列,并且所述图像集序列中的每个图像描绘簇及其周围背景在所述循环中的特定循环处在所述区块中的特定区块上的强度发射;
构建具有多个训练示例的训练集,每个训练示例对应于所述区块中的特定区块并包括来自所述区块中的所述特定区块的所述图像集序列中至少一些图像集的图像数据;以及
针对所述训练示例中的每个训练示例生成至少一个基准真值数据表示,所述基准真值数据表示识别所述区块中的所述特定区块上的簇的至少一个属性,所述簇的强度发射由所述图像数据描绘并且至少部分地使用根据权利要求1至15中任一项所述的方法来确定。
17.根据权利要求16所述的计算机实现的方法,其中所述簇的所述至少一个属性选自:所述区块上簇的空间分布;簇形状;簇尺寸;簇边界;以及包括单个簇的邻接区域的中心。
18.根据权利要求16至17中任一项所述的计算机实现的方法,其中所述图像数据包括所述区块中的所述特定区块的所述图像集序列中的所述至少一些图像集中的每个图像集中的图像。
19.根据权利要求16至18中任一项所述的计算机实现的方法,其中所述图像数据包括来自所述图像中的每个图像的至少一个图像补片。
20.根据权利要求16至19中任一项所述的计算机实现的方法,其中所述图像数据包括所述图像补片的上采样表示。
21.根据权利要求16至20中任一项所述的计算机实现的方法,其中多个训练示例对应于所述区块中的同一特定区块,并且分别包括来自所述区块中的所述同一特定区块的图像集序列中的至少一些图像集中的每个图像集中的每个图像的不同图像补片作为图像数据,并且
其中所述不同图像补片中的至少一些图像补片彼此重叠。
22.根据权利要求16至21中任一项所述的计算机实现的方法,其中所述基准真值数据表示将所述簇识别为相邻子像素的不相交区域,将所述簇的所述中心识别为所述不相交区域中的相应不相交区域内的质心子像素,并且将所述簇的周围背景识别为不属于所述不相交区域中的任一个不相交区域的子像素。
23.根据权利要求16至22中任一项所述的计算机实现的方法,所述方法还包括:
将所述训练集中的所述训练示例和相关联的基准真值数据表示存储在存储器中,作为用于所述基于神经网络的模板生成和碱基检出的所述训练数据。
24.一种计算机实现的方法,所述方法包括:
访问由测序器产生的簇的测序图像;
根据所述测序图像生成训练数据;以及
将所述训练数据用于训练神经网络以生成关于所述簇的元数据。
25.一种计算机实现的方法,所述方法包括:
访问由测序器产生的簇的测序图像;
根据所述测序图像生成训练数据;以及
将所述训练数据用于训练神经网络以对所述簇进行碱基检出。
CN202080003622.3A 2019-03-21 2020-03-21 用于基于人工智能的测序的训练数据生成 Active CN112313666B (zh)

Applications Claiming Priority (29)

Application Number Priority Date Filing Date Title
US201962821618P 2019-03-21 2019-03-21
US201962821681P 2019-03-21 2019-03-21
US201962821766P 2019-03-21 2019-03-21
US201962821602P 2019-03-21 2019-03-21
US201962821724P 2019-03-21 2019-03-21
US62/821681 2019-03-21
US62/821602 2019-03-21
US62/821618 2019-03-21
US62/821724 2019-03-21
US62/821766 2019-03-21
NL2023316 2019-06-14
NL2023310 2019-06-14
NL2023311 2019-06-14
NL2023312A NL2023312B1 (en) 2019-03-21 2019-06-14 Artificial intelligence-based base calling
NL2023314A NL2023314B1 (en) 2019-03-21 2019-06-14 Artificial intelligence-based quality scoring
NL2023316A NL2023316B1 (en) 2019-03-21 2019-06-14 Artificial intelligence-based sequencing
NL2023311A NL2023311B9 (en) 2019-03-21 2019-06-14 Artificial intelligence-based generation of sequencing metadata
NL2023310A NL2023310B1 (en) 2019-03-21 2019-06-14 Training data generation for artificial intelligence-based sequencing
NL2023314 2019-06-14
NL2023312 2019-06-14
US16/825987 2020-03-20
US16/826134 2020-03-20
US16/826,126 US11783917B2 (en) 2019-03-21 2020-03-20 Artificial intelligence-based base calling
US16/825,987 US11347965B2 (en) 2019-03-21 2020-03-20 Training data generation for artificial intelligence-based sequencing
US16/826,134 US11676685B2 (en) 2019-03-21 2020-03-20 Artificial intelligence-based quality scoring
US16/825991 2020-03-20
US16/825,991 US11210554B2 (en) 2019-03-21 2020-03-20 Artificial intelligence-based generation of sequencing metadata
US16/826126 2020-03-20
PCT/US2020/024090 WO2020191389A1 (en) 2019-03-21 2020-03-21 Training data generation for artificial intelligence-based sequencing

Publications (2)

Publication Number Publication Date
CN112313666A true CN112313666A (zh) 2021-02-02
CN112313666B CN112313666B (zh) 2024-09-06

Family

ID=74041737

Family Applications (5)

Application Number Title Priority Date Filing Date
CN202080004547.2A Pending CN112585689A (zh) 2019-03-21 2020-03-21 基于人工智能的碱基检出
CN202080003622.3A Active CN112313666B (zh) 2019-03-21 2020-03-21 用于基于人工智能的测序的训练数据生成
CN202080005431.0A Pending CN112789680A (zh) 2019-03-21 2020-03-21 基于人工智能的质量评分
CN202080003614.9A Pending CN112334984A (zh) 2019-03-21 2020-03-21 基于人工智能的测序元数据生成
CN202080004529.4A Pending CN112689875A (zh) 2019-03-21 2020-03-22 基于人工智能的测序

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202080004547.2A Pending CN112585689A (zh) 2019-03-21 2020-03-21 基于人工智能的碱基检出

Family Applications After (3)

Application Number Title Priority Date Filing Date
CN202080005431.0A Pending CN112789680A (zh) 2019-03-21 2020-03-21 基于人工智能的质量评分
CN202080003614.9A Pending CN112334984A (zh) 2019-03-21 2020-03-21 基于人工智能的测序元数据生成
CN202080004529.4A Pending CN112689875A (zh) 2019-03-21 2020-03-22 基于人工智能的测序

Country Status (11)

Country Link
US (6) US11210554B2 (zh)
EP (6) EP3942070A1 (zh)
JP (5) JP2022525267A (zh)
KR (5) KR20210143100A (zh)
CN (5) CN112585689A (zh)
AU (5) AU2020240383A1 (zh)
BR (4) BR112020026408A2 (zh)
CA (1) CA3104951A1 (zh)
IL (5) IL279533B1 (zh)
MX (4) MX2020014293A (zh)
SG (4) SG11202012461XA (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949499A (zh) * 2021-03-04 2021-06-11 北京联合大学 一种基于ShuffleNet改进的MTCNN人脸检测方法
CN113095304A (zh) * 2021-06-08 2021-07-09 成都考拉悠然科技有限公司 减弱重采样对行人重识别的影响的方法
CN113100803A (zh) * 2021-04-20 2021-07-13 西门子数字医疗科技(上海)有限公司 用于显示静脉血栓的方法、装置、计算机设备和介质
CN113552855A (zh) * 2021-07-23 2021-10-26 重庆英科铸数网络科技有限公司 工业设备动态阈值设定方法、装置、电子设备及存储介质
CN113780450A (zh) * 2021-09-16 2021-12-10 郑州云智信安安全技术有限公司 基于自编码神经网络的分布式存储方法及系统
CN116363403A (zh) * 2023-05-26 2023-06-30 深圳赛陆医疗科技有限公司 用于基因样本的图像识别方法、图像识别系统和存储介质
CN117473444A (zh) * 2023-12-27 2024-01-30 北京诺赛基因组研究中心有限公司 基于CNN和SVM的Sanger测序结果质检方法

Families Citing this family (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11615285B2 (en) 2017-01-06 2023-03-28 Ecole Polytechnique Federale De Lausanne (Epfl) Generating and identifying functional subnetworks within structural networks
US11893471B2 (en) 2018-06-11 2024-02-06 Inait Sa Encoding and decoding information and artificial neural networks
US11663478B2 (en) 2018-06-11 2023-05-30 Inait Sa Characterizing activity in a recurrent artificial neural network
US11972343B2 (en) 2018-06-11 2024-04-30 Inait Sa Encoding and decoding information
EP3617947A1 (en) * 2018-08-30 2020-03-04 Nokia Technologies Oy Apparatus and method for processing image data
US11652603B2 (en) 2019-03-18 2023-05-16 Inait Sa Homomorphic encryption
US11569978B2 (en) 2019-03-18 2023-01-31 Inait Sa Encrypting and decrypting information
US11210554B2 (en) 2019-03-21 2021-12-28 Illumina, Inc. Artificial intelligence-based generation of sequencing metadata
US11347965B2 (en) 2019-03-21 2022-05-31 Illumina, Inc. Training data generation for artificial intelligence-based sequencing
CN110084309B (zh) * 2019-04-30 2022-06-21 北京市商汤科技开发有限公司 特征图放大方法、装置和设备及计算机可读存储介质
CN113767416A (zh) * 2019-05-06 2021-12-07 索尼集团公司 电子装置、方法、以及计算机程序
US11593649B2 (en) 2019-05-16 2023-02-28 Illumina, Inc. Base calling using convolutions
US11423306B2 (en) 2019-05-16 2022-08-23 Illumina, Inc. Systems and devices for characterization and performance analysis of pixel-based sequencing
US11651210B2 (en) 2019-12-11 2023-05-16 Inait Sa Interpreting and improving the processing results of recurrent neural networks
US11816553B2 (en) 2019-12-11 2023-11-14 Inait Sa Output from a recurrent neural network
US11580401B2 (en) 2019-12-11 2023-02-14 Inait Sa Distance metrics and clustering in recurrent neural networks
US11797827B2 (en) * 2019-12-11 2023-10-24 Inait Sa Input into a neural network
US11977723B2 (en) * 2019-12-17 2024-05-07 Palantir Technologies Inc. Image tiling and distributive modification
CN115136244A (zh) 2020-02-20 2022-09-30 因美纳有限公司 基于人工智能的多对多碱基判读
US11687764B2 (en) * 2020-04-17 2023-06-27 Samsung Electronics Co., Ltd. System and method for increasing utilization of dot-product based neural network accelerator
CN111583940A (zh) * 2020-04-20 2020-08-25 东南大学 极低功耗关键词唤醒神经网络电路
US11977632B2 (en) * 2020-04-23 2024-05-07 Booz Allen Hamilton Inc. Evaluating automatic malware classifiers in the absence of reference labels
US11188778B1 (en) 2020-05-05 2021-11-30 Illumina, Inc. Equalization-based image processing and spatial crosstalk attenuator
US12019747B2 (en) * 2020-10-13 2024-06-25 International Business Machines Corporation Adversarial interpolation backdoor detection
US11800258B2 (en) * 2020-10-19 2023-10-24 University Of Florida Research Foundation, Incorporated High-performance CNN inference model at the pixel-parallel CMOS image sensor
US11361194B2 (en) * 2020-10-27 2022-06-14 Illumina, Inc. Systems and methods for per-cluster intensity correction and base calling
US11983916B2 (en) * 2020-11-11 2024-05-14 Ubtech Robotics Corp Ltd Relocation method, mobile machine using the same, and computer readable storage medium
CN112651299A (zh) * 2020-11-27 2021-04-13 深圳第三代半导体研究院 图片处理方法及其系统、应用以及计算机可读存储介质
US20220180630A1 (en) * 2020-12-04 2022-06-09 Intelinair, Inc. Resudue analysis and management system
CN112508457B (zh) * 2020-12-25 2024-05-31 树根互联股份有限公司 数据处理方法和装置、工业设备及存储介质
US11989628B2 (en) * 2021-03-05 2024-05-21 International Business Machines Corporation Machine teaching complex concepts assisted by computer vision and knowledge reasoning
JP2022147328A (ja) * 2021-03-23 2022-10-06 株式会社Screenホールディングス 細胞計数方法、細胞計数のための機械学習モデルの構築方法、プログラムおよび記録媒体
US11263170B1 (en) 2021-03-29 2022-03-01 SambaNova Systems, Inc. Lossless tiling in convolution networks—padding before tiling, location-based tiling, and zeroing-out
US11195080B1 (en) 2021-03-29 2021-12-07 SambaNova Systems, Inc. Lossless tiling in convolution networks—tiling configuration
CN113052189B (zh) * 2021-03-30 2022-04-29 电子科技大学 一种基于改进的MobileNetV3特征提取网络
AU2022248999A1 (en) * 2021-03-31 2023-02-02 Illumina, Inc. Artificial intelligence-based base caller with contextual awareness
CN112801881B (zh) * 2021-04-13 2021-06-22 湖南大学 一种高分辨率高光谱计算成像方法、系统及介质
US11693570B2 (en) * 2021-04-29 2023-07-04 EMC IP Holding Company LLC Machine learning to improve caching efficiency in a storage system
CN113361683B (zh) * 2021-05-18 2023-01-10 山东师范大学 一种生物仿脑存储方法及系统
CA3222270A1 (en) * 2021-06-24 2022-12-29 Vadim Lobanov Methods and systems for assay refinement
JP2023535662A (ja) * 2021-06-28 2023-08-21 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド ビデオを修復するための方法、装置、機器、媒体及びコンピュータプログラム
JP2024527307A (ja) * 2021-06-29 2024-07-24 イルミナ インコーポレイテッド ヌクレオチド塩基コール及び塩基コール品質を決定するための信号対雑音比メトリック
WO2023283411A2 (en) * 2021-07-08 2023-01-12 Intelligent Virus Imaging Inc. Method for machine-learning based training and segmentation of overlapping objects
CN113343937B (zh) * 2021-07-15 2022-09-02 北华航天工业学院 一种基于深度卷积和注意力机制的唇语识别方法
KR20240031968A (ko) * 2021-07-19 2024-03-08 일루미나, 인코포레이티드 염기 호출에 대한 보간 및 적응을 갖는 강도 추출
US11455487B1 (en) 2021-10-26 2022-09-27 Illumina Software, Inc. Intensity extraction and crosstalk attenuation using interpolation and adaptation for base calling
CN113963199B (zh) * 2021-10-13 2023-04-18 电子科技大学 一种基于多种传感器特征融合和机器学习的医废识别方法
US11967165B2 (en) * 2021-11-15 2024-04-23 Accenture Global Solutions Limited Artificial intelligence (AI) based document processing and validation
CN117999359A (zh) * 2021-12-03 2024-05-07 深圳华大生命科学研究院 核酸样本的碱基识别方法及装置
CN114200548B (zh) * 2021-12-15 2023-07-18 南京信息工程大学 基于SE-Resnet模型的延伸期气象要素预报方法
CN114445456B (zh) * 2021-12-23 2023-04-07 西北工业大学 基于部分模型的数据驱动智能机动目标跟踪方法及装置
CN117063240A (zh) * 2021-12-24 2023-11-14 上海芯像生物科技有限公司 基于深度学习的核酸测序方法和系统
CN114465909B (zh) * 2022-02-09 2024-03-22 哈尔滨工业大学 一种智能感知边缘计算融合纳米组网装置
CN114648723B (zh) * 2022-04-28 2024-08-02 之江实验室 基于时间一致性对比学习的动作规范性检测方法和装置
US20230358564A1 (en) * 2022-05-05 2023-11-09 Here Global B.V. Method, apparatus, and computer program product for probe data-based geometry generation
CN114706798B (zh) * 2022-06-08 2022-08-12 四川省人工智能研究院(宜宾) 基于注意力机制的固态硬盘数据预取方法
CN115078430B (zh) * 2022-06-10 2023-03-24 水木未来(北京)科技有限公司 确定冷冻电镜载网支持膜质量的方法及装置
WO2023240536A1 (zh) * 2022-06-16 2023-12-21 深圳华大基因科技有限公司 图像处理方法、装置及系统
CN115409174B (zh) * 2022-11-01 2023-03-31 之江实验室 一种基于dram存内计算的碱基序列过滤方法与装置
CN117275583B (zh) * 2023-09-27 2024-04-16 四川大学 基于量子技术的基因搜索blast加速方法及系统
CN117437976B (zh) * 2023-12-21 2024-04-02 深圳人体密码基因科技有限公司 基于基因检测的疾病风险筛查方法及系统
CN117574133B (zh) * 2024-01-11 2024-04-02 湖南工商大学 一种不安全生产行为识别方法及相关设备
CN118470361B (zh) * 2024-07-15 2024-09-03 中国人民解放军火箭军工程大学 一种基于神经网络的sar影像适配区选取预测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120020537A1 (en) * 2010-01-13 2012-01-26 Francisco Garcia Data processing system and methods
US20180195953A1 (en) * 2017-01-06 2018-07-12 Illumina, Inc. Phasing correction

Family Cites Families (244)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2044616A1 (en) 1989-10-26 1991-04-27 Roger Y. Tsien Dna sequencing
US5502773A (en) 1991-09-20 1996-03-26 Vanderbilt University Method and apparatus for automated processing of DNA sequence data
US5641658A (en) 1994-08-03 1997-06-24 Mosaic Technologies, Inc. Method for performing amplification of nucleic acid with two primers bound to a single solid support
US6090592A (en) 1994-08-03 2000-07-18 Mosaic Technologies, Inc. Method for performing amplification of nucleic acid on supports
WO1997027317A1 (en) 1996-01-23 1997-07-31 Affymetrix, Inc. Nucleic acid analysis techniques
DE69530072T2 (de) 1994-12-08 2004-03-04 Molecular Dynamics, Sunnyvale System zur fluoreszenzabbildung unter verwendung eines objektivs mit makroabtastung
US5528050A (en) 1995-07-24 1996-06-18 Molecular Dynamics, Inc. Compact scan head with multiple scanning modalities
US6327410B1 (en) 1997-03-14 2001-12-04 The Trustees Of Tufts College Target analyte sensors utilizing Microspheres
US6023540A (en) 1997-03-14 2000-02-08 Trustees Of Tufts College Fiber optic sensor with encoded microspheres
US7622294B2 (en) 1997-03-14 2009-11-24 Trustees Of Tufts College Methods for detecting target analytes and enzymatic reactions
JP2001517948A (ja) 1997-04-01 2001-10-09 グラクソ、グループ、リミテッド 核酸配列決定法
AU6846698A (en) 1997-04-01 1998-10-22 Glaxo Group Limited Method of nucleic acid amplification
US6332154B2 (en) 1998-09-11 2001-12-18 Genesys Telecommunications Laboratories, Inc. Method and apparatus for providing media-independent self-help modules within a multimedia communication-center customer interface
AR021833A1 (es) 1998-09-30 2002-08-07 Applied Research Systems Metodos de amplificacion y secuenciacion de acido nucleico
US6355431B1 (en) 1999-04-20 2002-03-12 Illumina, Inc. Detection of nucleic acid amplification reactions using bead arrays
US20050244870A1 (en) 1999-04-20 2005-11-03 Illumina, Inc. Nucleic acid sequencing using microsphere arrays
WO2000063437A2 (en) 1999-04-20 2000-10-26 Illumina, Inc. Detection of nucleic acid reactions on bead arrays
US6770441B2 (en) 2000-02-10 2004-08-03 Illumina, Inc. Array compositions and methods of making same
US20030064366A1 (en) 2000-07-07 2003-04-03 Susan Hardin Real-time sequence determination
EP1323736A4 (en) 2000-08-10 2005-08-24 Masabumi Shibuya CHIMERIC GROWTH FACTOR OF HUMAN TYPE VASCULAR ENDOTHELIAL CELLS
WO2002015107A2 (en) * 2000-08-14 2002-02-21 Incyte Genomics, Inc. Basecalling system and protocol
WO2002044425A2 (en) 2000-12-01 2002-06-06 Visigen Biotechnologies, Inc. Enzymatic nucleic acid synthesis: compositions and methods for altering monomer incorporation fidelity
AR031640A1 (es) 2000-12-08 2003-09-24 Applied Research Systems Amplificacion isotermica de acidos nucleicos en un soporte solido
US7668697B2 (en) * 2006-02-06 2010-02-23 Andrei Volkov Method for analyzing dynamic detectable events at the single molecule level
US20030062485A1 (en) 2001-09-28 2003-04-03 Fernandez Salvador M. Compact multiwavelength phase fluorometer
GB0127564D0 (en) 2001-11-16 2002-01-09 Medical Res Council Emulsion compositions
US7057026B2 (en) 2001-12-04 2006-06-06 Solexa Limited Labelled nucleotides
US20040002090A1 (en) 2002-03-05 2004-01-01 Pascal Mayer Methods for detecting genome-wide sequence variations associated with a phenotype
SI3363809T1 (sl) 2002-08-23 2020-08-31 Illumina Cambridge Limited Modificirani nukleotidi za polinukleotidno sekvenciranje
US6914961B2 (en) 2002-09-30 2005-07-05 Teradyne, Inc. Speed binning by neural network
WO2004059006A1 (en) 2002-12-25 2004-07-15 Casio Computer Co., Ltd. Optical dna sensor, dna reading apparatus, identification method of dna and manufacturing method of optical dna sensor
EP2159285B1 (en) 2003-01-29 2012-09-26 454 Life Sciences Corporation Methods of amplifying and sequencing nucleic acids
US7575865B2 (en) 2003-01-29 2009-08-18 454 Life Sciences Corporation Methods of amplifying and sequencing nucleic acids
SE0301945D0 (sv) * 2003-06-30 2003-06-30 Gyros Ab Confidence determination
EP1641809B2 (en) 2003-07-05 2018-10-03 The Johns Hopkins University Method and compositions for detection and enumeration of genetic variations
GB0321306D0 (en) 2003-09-11 2003-10-15 Solexa Ltd Modified polymerases for improved incorporation of nucleotide analogues
JP4587664B2 (ja) 2003-12-19 2010-11-24 パナソニック株式会社 発光装置
US20050145249A1 (en) 2003-12-31 2005-07-07 Solyntjes Alan J. Personal respiratory protection device that has a permanent or semi-permanent bayonet connection
EP3175914A1 (en) 2004-01-07 2017-06-07 Illumina Cambridge Limited Improvements in or relating to molecular arrays
US7035740B2 (en) 2004-03-24 2006-04-25 Illumina, Inc. Artificial intelligence and global normalization methods for genotyping
WO2006020627A1 (en) * 2004-08-11 2006-02-23 Aureon Laboratories, Inc. Systems and methods for automated diagnosis and grading of tissue images
WO2006044078A2 (en) 2004-09-17 2006-04-27 Pacific Biosciences Of California, Inc. Apparatus and method for analysis of molecules
WO2006064199A1 (en) 2004-12-13 2006-06-22 Solexa Limited Improved method of nucleotide detection
US20060178901A1 (en) 2005-01-05 2006-08-10 Cooper Kelana L Home movies television (HMTV)
SE529136C2 (sv) 2005-01-24 2007-05-08 Volvo Lastvagnar Ab Styrväxelkylare
JP2008545959A (ja) * 2005-05-25 2008-12-18 スティフテルセン ウニヴェルジテーツフォルスクニング ベルゲン 顕微鏡装置および薬品、物理療法と生物学的危険物質のためのふるい分け(screening)方法
FR2886433B1 (fr) * 2005-05-30 2007-09-07 Commissariat Energie Atomique Methode de segmentation d'une sequence d'images tridimensionnelles, notamment en pharmaco-imagerie.
US7293515B2 (en) 2005-06-10 2007-11-13 Janome Sewing Machine Co., Ltd. Embroidery sewing machine
US7709197B2 (en) 2005-06-15 2010-05-04 Callida Genomics, Inc. Nucleic acid analysis by random mixtures of non-overlapping fragments
GB0514910D0 (en) 2005-07-20 2005-08-24 Solexa Ltd Method for sequencing a polynucleotide template
GB0514936D0 (en) 2005-07-20 2005-08-24 Solexa Ltd Preparation of templates for nucleic acid sequencing
DE102005036355A1 (de) 2005-07-29 2007-02-01 Cairos Technologies Ag Verfahren zur Erfassung der Kraft- und Bewegungsverhältnisse an einem Spielgerät
GB0517097D0 (en) 2005-08-19 2005-09-28 Solexa Ltd Modified nucleosides and nucleotides and uses thereof
US7405281B2 (en) 2005-09-29 2008-07-29 Pacific Biosciences Of California, Inc. Fluorescent nucleotide analogs and uses therefor
GB0522310D0 (en) 2005-11-01 2005-12-07 Solexa Ltd Methods of preparing libraries of template polynucleotides
US7329860B2 (en) 2005-11-23 2008-02-12 Illumina, Inc. Confocal imaging methods and apparatus
JP2007199397A (ja) 2006-01-26 2007-08-09 Nikon Corp 顕微鏡装置
WO2007107710A1 (en) 2006-03-17 2007-09-27 Solexa Limited Isothermal methods for creating clonal single molecule arrays
CA2648149A1 (en) 2006-03-31 2007-11-01 Solexa, Inc. Systems and devices for sequence by synthesis analysis
CA2657998A1 (en) 2006-06-22 2007-12-27 Novozymes A/S Preparation of dough and baked products
US7754429B2 (en) 2006-10-06 2010-07-13 Illumina Cambridge Limited Method for pair-wise sequencing a plurity of target polynucleotides
AU2007309504B2 (en) 2006-10-23 2012-09-13 Pacific Biosciences Of California, Inc. Polymerase enzymes and reagents for enhanced nucleic acid sequencing
US7414716B2 (en) 2006-10-23 2008-08-19 Emhart Glass S.A. Machine for inspecting glass containers
US20080242560A1 (en) 2006-11-21 2008-10-02 Gunderson Kevin L Methods for generating amplified nucleic acid arrays
JP2010516285A (ja) 2007-01-26 2010-05-20 イルミナ インコーポレイテッド 核酸配列決定システムおよび方法
WO2008115405A2 (en) * 2007-03-16 2008-09-25 Sti Medicals Systems, Llc A method of image quality assessment to procuce standardized imaging data
EP2155855B1 (en) 2007-06-06 2016-10-12 Pacific Biosciences of California, Inc. Methods and processes for calling bases in sequence by incorporation methods
US8703422B2 (en) 2007-06-06 2014-04-22 Pacific Biosciences Of California, Inc. Methods and processes for calling bases in sequence by incorporation methods
US8039817B2 (en) 2008-05-05 2011-10-18 Illumina, Inc. Compensator for multiple surface imaging
WO2010003132A1 (en) 2008-07-02 2010-01-07 Illumina Cambridge Ltd. Using populations of beads for the fabrication of arrays on surfaces
US8407012B2 (en) 2008-07-03 2013-03-26 Cold Spring Harbor Laboratory Methods and systems of DNA sequencing
EP2327061A4 (en) * 2008-08-15 2016-11-16 Univ Brown METHOD AND DEVICE FOR ESTIMATING BODY SHAPES
US8175379B2 (en) * 2008-08-22 2012-05-08 Adobe Systems Incorporated Automatic video image segmentation
US8392126B2 (en) 2008-10-03 2013-03-05 Illumina, Inc. Method and system for determining the accuracy of DNA base identifications
US20100157086A1 (en) 2008-12-15 2010-06-24 Illumina, Inc Dynamic autofocus method and system for assay imager
US8300971B2 (en) * 2009-04-17 2012-10-30 LevelSet Systems, Inc. Method and apparatus for image processing for massive parallel DNA sequencing
EP2435983A4 (en) * 2009-05-28 2017-08-23 Hewlett-Packard Development Company, L.P. Image processing
US9524369B2 (en) 2009-06-15 2016-12-20 Complete Genomics, Inc. Processing and analysis of complex nucleic acid sequence data
US8182994B2 (en) * 2009-09-15 2012-05-22 Illumina Cambridge Limited Centroid markers for image analysis of high denisty clusters in complex polynucleotide sequencing
US20140152801A1 (en) 2009-10-28 2014-06-05 Alentic Microscience Inc. Detecting and Using Light Representative of a Sample
US9023769B2 (en) 2009-11-30 2015-05-05 Complete Genomics, Inc. cDNA library for nucleic acid sequencing
US10619195B2 (en) 2010-04-06 2020-04-14 Massachusetts Institute Of Technology Gene-expression profiling with reduced numbers of transcript measurements
EP2569721A4 (en) * 2010-05-14 2013-11-27 Datalogic Adc Inc SYSTEMS AND METHODS FOR OBJECT DETECTION USING A LARGE DATABASE
US20110295902A1 (en) 2010-05-26 2011-12-01 Tata Consultancy Service Limited Taxonomic classification of metagenomic sequences
US20120015825A1 (en) 2010-07-06 2012-01-19 Pacific Biosciences Of California, Inc. Analytical systems and methods with software mask
US9096899B2 (en) 2010-10-27 2015-08-04 Illumina, Inc. Microdevices and biosensor cartridges for biological or chemical analysis and systems and methods for the same
DE102010062341B4 (de) 2010-12-02 2023-05-17 Carl Zeiss Microscopy Gmbh Vorrichtung zur Erhöhung der Tiefendiskriminierung optisch abbildender Systeme
US20130090860A1 (en) 2010-12-30 2013-04-11 Life Technologies Corporation Methods, systems, and computer readable media for making base calls in nucleic acid sequencing
US10241075B2 (en) 2010-12-30 2019-03-26 Life Technologies Corporation Methods, systems, and computer readable media for nucleic acid sequencing
US20130060482A1 (en) 2010-12-30 2013-03-07 Life Technologies Corporation Methods, systems, and computer readable media for making base calls in nucleic acid sequencing
US8951781B2 (en) 2011-01-10 2015-02-10 Illumina, Inc. Systems, methods, and apparatuses to image a sample for biological or chemical analysis
AU2012242525B2 (en) 2011-04-14 2015-09-17 Complete Genomics, Inc. Processing and analysis of complex nucleic acid sequence data
US8778848B2 (en) 2011-06-09 2014-07-15 Illumina, Inc. Patterned flow-cells useful for nucleic acid analysis
PT3623481T (pt) 2011-09-23 2021-10-15 Illumina Inc Composições para sequenciação de ácidos nucleicos
US11914674B2 (en) 2011-09-24 2024-02-27 Z Advanced Computing, Inc. System and method for extremely efficient image and pattern recognition and artificial intelligence platform
AU2012328662B2 (en) 2011-10-28 2015-12-17 Illumina, Inc. Microarray fabrication system and method
US9279154B2 (en) 2011-12-21 2016-03-08 Illumina, Inc. Apparatus and methods for kinetic analysis and determination of nucleic acid sequences
EP2628504A1 (en) 2012-01-16 2013-08-21 Greatbatch Ltd. EMI filtered co-connected hermetic feedthrough, feedthrough capacitor and leadwire assembly for an active implantable medical device
US8660342B2 (en) * 2012-01-24 2014-02-25 Telefonica, S.A. Method to assess aesthetic quality of photographs
EP4219012A1 (en) 2012-04-03 2023-08-02 Illumina, Inc. Method of imaging a substrate comprising fluorescent features and use of the method in nucleic acid sequencing
US8906320B1 (en) 2012-04-16 2014-12-09 Illumina, Inc. Biosensors for biological or chemical analysis and systems and methods for same
US10068054B2 (en) 2013-01-17 2018-09-04 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US9512422B2 (en) 2013-02-26 2016-12-06 Illumina, Inc. Gel patterned surfaces
CA2907484C (en) 2013-03-13 2021-06-29 Illumina, Inc. Methods and systems for aligning repetitive dna elements
EP2971070B2 (en) 2013-03-14 2021-03-03 Illumina, Inc. Modified polymerases for improved incorporation of nucleotide analogues
CA2899714C (en) * 2013-03-15 2020-10-27 Ventana Medical Systems, Inc. Tissue object-based machine learning system for automated scoring of digital whole slides
CN111187811B (zh) 2013-05-06 2024-03-08 加利福尼亚太平洋生物科学股份有限公司 实时电子测序
PT3017065T (pt) 2013-07-01 2018-12-18 Illumina Inc Funcionalização de superfícies sem catalisador e enxerto de polímeros
ES2875892T3 (es) 2013-09-20 2021-11-11 Spraying Systems Co Boquilla de pulverización para craqueo catalítico fluidizado
US9299004B2 (en) * 2013-10-24 2016-03-29 Adobe Systems Incorporated Image foreground detection
PL3077943T3 (pl) 2013-12-03 2020-11-30 Illumina, Inc. Sposoby i układy do analizy danych obrazowych
AU2014364006B2 (en) 2013-12-10 2019-07-11 Illumina, Inc. Biosensors for biological or chemical analysis and methods of manufacturing the same
CN105980578B (zh) * 2013-12-16 2020-02-14 深圳华大智造科技有限公司 用于使用机器学习进行dna测序的碱基判定器
US9677132B2 (en) 2014-01-16 2017-06-13 Illumina, Inc. Polynucleotide modification on solid support
GB201408853D0 (en) 2014-05-19 2014-07-02 Diamond Light Source Ltd Analysis of signals from pixellated detectors of ionizing radiation
WO2016011563A1 (en) * 2014-07-25 2016-01-28 Ontario Institute For Cancer Research System and method for process control of gene sequencing
US10127448B2 (en) * 2014-08-27 2018-11-13 Bae Systems Information And Electronic Systems Integration Inc. Method and system for dismount detection in low-resolution UAV imagery
WO2016038220A1 (en) 2014-09-12 2016-03-17 Illumina Cambridge Limited Detecting repeat expansions with short read sequencing data
WO2016060974A1 (en) * 2014-10-13 2016-04-21 Life Technologies Corporation Methods, systems, and computer-readable media for accelerated base calling
CN107108822B (zh) 2014-10-31 2020-02-07 伊鲁米纳剑桥有限公司 聚合物以及dna共聚物涂层
RU2580425C1 (ru) 2014-11-28 2016-04-10 Общество С Ограниченной Ответственностью "Яндекс" Способ структуризации хранящихся объектов в связи с пользователем на сервере и сервер
US10181191B2 (en) * 2014-12-02 2019-01-15 Shanghai United Imaging Healthcare Co., Ltd. Methods and systems for identifying spine or bone regions in computed tomography image sequence
US10711294B2 (en) 2014-12-26 2020-07-14 Hitachi High-Tech Corporation Nucleic acid analysis device
IL236598A0 (en) 2015-01-05 2015-05-31 Superfish Ltd Image similarity as a function of image weighted image descriptors generated from neural networks
CN105989248B (zh) 2015-02-05 2018-11-27 中国科学院数学与系统科学研究院 用于多个分子信号的数据处理方法和装置
KR20160103398A (ko) 2015-02-24 2016-09-01 삼성전자주식회사 이미지의 품질 측정 방법 및 장치
WO2016145516A1 (en) 2015-03-13 2016-09-22 Deep Genomics Incorporated System and method for training neural networks
WO2016172612A1 (en) * 2015-04-23 2016-10-27 Cedars-Sinai Medical Center Automated delineation of nuclei for three dimensional (3-d) high content screening
US9836839B2 (en) 2015-05-28 2017-12-05 Tokitae Llc Image analysis systems and related methods
US10061972B2 (en) * 2015-05-28 2018-08-28 Tokitae Llc Image analysis systems and related methods
CA2894317C (en) 2015-06-15 2023-08-15 Deep Genomics Incorporated Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network
US10185803B2 (en) 2015-06-15 2019-01-22 Deep Genomics Incorporated Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network
CA2985491A1 (en) 2015-06-22 2016-12-29 Counsyl, Inc. Methods of predicting pathogenicity of genetic sequence variants
WO2018126026A1 (en) 2016-12-28 2018-07-05 Ascus Biosciences, Inc. Methods, apparatuses, and systems for analyzing complete microorganism strains in complex heterogeneous communities, determining functional relationships and interactions thereof, and identifying and synthesizing bioreactive modificators based thereon
EP3130681B1 (en) 2015-08-13 2019-11-13 Centrillion Technology Holdings Corporation Methods for synchronizing nucleic acid molecules
US11094058B2 (en) 2015-08-14 2021-08-17 Elucid Bioimaging Inc. Systems and method for computer-aided phenotyping (CAP) using radiologic images
US10755810B2 (en) 2015-08-14 2020-08-25 Elucid Bioimaging Inc. Methods and systems for representing, storing, and accessing computable medical imaging-derived quantities
US10176408B2 (en) 2015-08-14 2019-01-08 Elucid Bioimaging Inc. Systems and methods for analyzing pathologies utilizing quantitative imaging
CA2994911C (en) * 2015-09-02 2022-07-05 Ventana Medical Systems, Inc. Automated analysis of cellular samples having intermixing of analytically distinct patterns of analyte staining
EP3147650A1 (en) 2015-09-22 2017-03-29 MyCartis N.V. Cross-talk correction in multiplexing analysis of biological sample
US10930372B2 (en) 2015-10-02 2021-02-23 Northrop Grumman Systems Corporation Solution for drug discovery
US10474951B2 (en) 2015-10-23 2019-11-12 Nec Corporation Memory efficient scalable deep learning with model parallelization
US10740883B2 (en) 2015-12-10 2020-08-11 Qiagen Gmbh Background compensation
KR102592076B1 (ko) 2015-12-14 2023-10-19 삼성전자주식회사 딥러닝 기반 영상 처리 장치 및 방법, 학습 장치
EP3427183A1 (en) * 2016-03-10 2019-01-16 Genomic Vision Method of curvilinear signal detection and analysis and associated platform
CN109072304A (zh) * 2016-04-11 2018-12-21 新加坡科技研究局 用于准确预测化合物诱导的肝损伤的高通量法
GB2549554A (en) 2016-04-21 2017-10-25 Ramot At Tel-Aviv Univ Ltd Method and system for detecting an object in an image
US11579336B2 (en) 2016-04-22 2023-02-14 Illumina, Inc. Photonic structure-based devices and compositions for use in luminescent imaging of multiple sites within a pixel, and methods of using the same
US20180211001A1 (en) 2016-04-29 2018-07-26 Microsoft Technology Licensing, Llc Trace reconstruction from noisy polynucleotide sequencer reads
US10354747B1 (en) 2016-05-06 2019-07-16 Verily Life Sciences Llc Deep learning analysis pipeline for next generation sequencing
EP3465503B1 (en) 2016-06-01 2021-09-29 Quantum-Si Incorporated Pulse caller and base caller
KR20240025702A (ko) 2016-06-07 2024-02-27 일루미나, 인코포레이티드 2차 및/또는 3차 프로세싱을 수행하기 위한 생물정보학 시스템, 장치, 및 방법
US20180107927A1 (en) 2016-06-15 2018-04-19 Deep Genomics Incorporated Architectures for training neural networks using biological sequences, conservation, and molecular phenotypes
US10648027B2 (en) 2016-08-08 2020-05-12 Roche Sequencing Solutions, Inc. Basecalling for stochastic sequencing processes
MX2018015412A (es) 2016-10-07 2019-05-27 Illumina Inc Sistema y metodo para analisis secundario de datos de secuenciamiento de nucleotido.
CN106529424B (zh) * 2016-10-20 2019-01-04 中山大学 一种基于选择性搜索算法的车标检测识别方法及系统
US11004199B2 (en) * 2016-11-11 2021-05-11 University Of South Florida Automated stereology for determining tissue characteristics
EP3545406A1 (en) 2016-11-22 2019-10-02 Genetic Intelligence, Inc. Methods for identifying genetic causation of complex traits
EP3549099B1 (en) 2016-12-01 2024-08-21 Bruker Cellular Analysis, Inc. Automated detection and repositioning of micro-objects in microfluidic devices
CN108203847B (zh) * 2016-12-16 2022-01-04 深圳华大智造科技股份有限公司 用于二代测序质量评估的文库、试剂及应用
JP6968177B2 (ja) * 2016-12-22 2021-11-17 ベンタナ メディカル システムズ, インコーポレイテッド 一次染色および免疫組織化学画像に基づくコンピュータ採点
CN106770114B (zh) * 2016-12-23 2018-03-13 西安交通大学 一种高通量测序碱基荧光识别系统装置与方法
US10858661B2 (en) 2017-01-10 2020-12-08 University-Industry Cooperation Group Of Kyung Hee University Use of Methylomonas sp. DH-1 strain and its transformants
EP3889962A1 (en) 2017-01-18 2021-10-06 Illumina, Inc. Methods and systems for generation and error-correction of unique molecular index sets with heterogeneous molecular lengths
US10740880B2 (en) 2017-01-18 2020-08-11 Elucid Bioimaging Inc. Systems and methods for analyzing pathologies utilizing quantitative imaging
US10491239B1 (en) 2017-02-02 2019-11-26 Habana Labs Ltd. Large-scale computations using an adaptive numerical format
US10930370B2 (en) * 2017-03-03 2021-02-23 Microsoft Technology Licensing, Llc Polynucleotide sequencer tuned to artificial polynucleotides
CA3046015A1 (en) 2017-03-07 2018-09-13 Illumina, Inc. Single light source, two-optical channel sequencing
NL2018852B1 (en) 2017-05-05 2018-11-14 Illumina Inc Optical distortion correction for imaged samples
US10713794B1 (en) 2017-03-16 2020-07-14 Facebook, Inc. Method and system for using machine-learning for object instance segmentation
JP6915349B2 (ja) * 2017-04-04 2021-08-04 コニカミノルタ株式会社 画像処理装置、画像処理方法、及び画像処理プログラム
CA3060979C (en) 2017-04-23 2023-07-11 Illumina Cambridge Limited Compositions and methods for improving sample identification in indexed nucleic acid libraries
US10943255B1 (en) 2017-04-28 2021-03-09 Snap Inc. Methods and systems for interactive advertising with media collections
SG11201909697TA (en) 2017-05-01 2019-11-28 Illumina Inc Optimal index sequences for multiplex massively parallel sequencing
US10552663B2 (en) 2017-05-02 2020-02-04 Techcyte, Inc. Machine learning classification and training for digital microscopy cytology images
GB201707138D0 (en) 2017-05-04 2017-06-21 Oxford Nanopore Tech Ltd Machine learning analysis of nanopore measurements
DK3622089T3 (da) 2017-05-08 2024-10-14 Illumina Inc Fremgangsmåde til sekventering under anvendelse af universelle korte adaptere til indeksering af polynukleotidprøver
CN111742370A (zh) 2017-05-12 2020-10-02 密歇根大学董事会 个体和队列药理学表型预测平台
WO2018218103A1 (en) 2017-05-26 2018-11-29 Life Technologies Corporation Methods and systems to detect large rearrangements in brca1/2
US11587644B2 (en) * 2017-07-28 2023-02-21 The Translational Genomics Research Institute Methods of profiling mass spectral data using neural networks
WO2019027767A1 (en) 2017-07-31 2019-02-07 Illumina Inc. SEQUENCING SYSTEM COMPRISING AGGREGATION OF MULTIPLEXED BIOLOGICAL SAMPLES
US11352668B2 (en) 2017-08-01 2022-06-07 Illumina, Inc. Spatial indexing of genetic material and library preparation using hydrogel beads and flow cells
CA3065957A1 (en) 2017-08-14 2019-02-21 Raytheon Company Subtraction algorithm for detection of tumors
CN107563150B (zh) 2017-08-31 2021-03-19 深圳大学 蛋白质结合位点的预测方法、装置、设备及存储介质
US11507806B2 (en) 2017-09-08 2022-11-22 Rohit Seth Parallel neural processor for Artificial Intelligence
US10706535B2 (en) * 2017-09-08 2020-07-07 International Business Machines Corporation Tissue staining quality determination
SG11201911977VA (en) 2017-09-15 2020-01-30 Illumina Inc Tuning and calibration features of a sequence-detection system
US11454738B2 (en) * 2017-10-11 2022-09-27 Beyond Limits, Inc. Recommendation engine for a cognitive reservoir system
AU2018350891B9 (en) 2017-10-16 2022-05-19 Illumina, Inc. Deep learning-based techniques for training deep convolutional neural networks
KR102526103B1 (ko) 2017-10-16 2023-04-26 일루미나, 인코포레이티드 심층 학습 기반 스플라이스 부위 분류
US10540591B2 (en) 2017-10-16 2020-01-21 Illumina, Inc. Deep learning-based techniques for pre-training deep convolutional neural networks
CN111527044A (zh) 2017-10-26 2020-08-11 阿尔缇玛基因组学公司 用于序列判定的方法和系统
US11326989B2 (en) 2017-10-26 2022-05-10 Essenlix Corporation Devices and methods for tissue and cell staining
WO2019084517A1 (en) 2017-10-26 2019-05-02 Essenlix Corporation SYSTEM AND METHODS FOR IMAGE-BASED ANALYSIS USING MACHINE LEARNING AND CROF
US11609224B2 (en) 2017-10-26 2023-03-21 Essenlix Corporation Devices and methods for white blood cell analyses
WO2019084559A1 (en) 2017-10-27 2019-05-02 Apostle, Inc. SOMATIC MUTATION CANCER PATHOGENIC IMPACT PREDICTION USING DEEP LEARNING BASED METHODS
NZ758684A (en) 2017-11-06 2024-07-26 Illumina Inc Nucleic acid indexing techniques
US10803350B2 (en) * 2017-11-30 2020-10-13 Kofax, Inc. Object detection and image cropping using a multi-detector approach
WO2019108888A1 (en) * 2017-11-30 2019-06-06 The Research Foundation For The State University Of New York SYSTEM AND METHOD TO QUANTIFY TUMOR-INFILTRATING LYMPHOCYTES (TILs) FOR CLINICAL PATHOLOGY ANALYSIS
CN111448584B (zh) * 2017-12-05 2023-09-26 文塔纳医疗系统公司 计算肿瘤空间和标记间异质性的方法
US11288576B2 (en) 2018-01-05 2022-03-29 Illumina, Inc. Predicting quality of sequencing results using deep neural networks
WO2019136376A1 (en) 2018-01-08 2019-07-11 Illumina, Inc. High-throughput sequencing with semiconductor-based detection
EP3738122A1 (en) 2018-01-12 2020-11-18 Life Technologies Corporation Methods for flow space quality score prediction by neural networks
CN108319817B (zh) * 2018-01-15 2020-12-25 无锡臻和生物科技有限公司 循环肿瘤dna重复序列的处理方法及装置
SG11201911805VA (en) 2018-01-15 2020-01-30 Illumina Inc Deep learning-based variant classifier
BR112020014542A2 (pt) 2018-01-26 2020-12-08 Quantum-Si Incorporated Aprendizado de máquina habilitado por aplicação de pulso e de base para dispositivos de sequenciamento
JP6992590B2 (ja) * 2018-02-23 2022-01-13 日本電信電話株式会社 特徴表現装置、特徴表現方法、およびプログラム
US20210020314A1 (en) 2018-03-30 2021-01-21 Juno Diagnostics, Inc. Deep learning-based methods, devices, and systems for prenatal testing
WO2019197509A1 (en) * 2018-04-13 2019-10-17 Ventana Medical Systems, Inc. Systems for cell shape estimation
US10649459B2 (en) * 2018-04-26 2020-05-12 Zoox, Inc. Data segmentation using masks
US20210324374A1 (en) 2018-06-04 2021-10-21 Chan Zuckerberg Biohub, Inc. Compositions and methods for screening aptamers
JP7068054B2 (ja) * 2018-06-07 2022-05-16 株式会社東芝 距離計測装置、および距離計測方法
US12073922B2 (en) 2018-07-11 2024-08-27 Illumina, Inc. Deep learning-based framework for identifying sequence patterns that cause sequence-specific errors (SSEs)
US10635979B2 (en) * 2018-07-20 2020-04-28 Google Llc Category learning neural networks
CN113168886A (zh) 2018-08-13 2021-07-23 豪夫迈·罗氏有限公司 用于使用神经网络进行种系和体细胞变体调用的系统和方法
US11446008B2 (en) 2018-08-17 2022-09-20 Tokitae Llc Automated ultrasound video interpretation of a body part with one or more convolutional neural networks
US11600360B2 (en) 2018-08-20 2023-03-07 Microsoft Technology Licensing, Llc Trace reconstruction from reads with indeterminant errors
WO2020077232A1 (en) 2018-10-12 2020-04-16 Cambridge Cancer Genomics Limited Methods and systems for nucleic acid variant detection and analysis
EP3640837A1 (en) 2018-10-15 2020-04-22 Koninklijke Philips N.V. System for co-registration of medical images using a classifier
KR20200043169A (ko) 2018-10-17 2020-04-27 삼성전자주식회사 뉴럴 네트워크의 파라미터를 양자화하는 방법 및 장치
US10818386B2 (en) 2018-11-21 2020-10-27 Enlitic, Inc. Multi-label heat map generating system
GB201819378D0 (en) 2018-11-28 2019-01-09 Oxford Nanopore Tech Ltd Analysis of nanopore signal using a machine-learning technique
JP7230208B2 (ja) 2018-12-10 2023-02-28 ライフ テクノロジーズ コーポレーション サンガーシーケンシングの深層ベースコーラ
US10783632B2 (en) 2018-12-14 2020-09-22 Spectral Md, Inc. Machine learning systems and method for assessment, healing prediction, and treatment of wounds
US10789462B2 (en) 2019-01-15 2020-09-29 International Business Machines Corporation Weakly and fully labeled mammogram classification and localization with a dual branch deep neural network
WO2020185790A1 (en) 2019-03-10 2020-09-17 Ultima Genomics, Inc. Methods and systems for sequence calling
NL2023316B1 (en) 2019-03-21 2020-09-28 Illumina Inc Artificial intelligence-based sequencing
US11347965B2 (en) 2019-03-21 2022-05-31 Illumina, Inc. Training data generation for artificial intelligence-based sequencing
NL2023311B9 (en) 2019-03-21 2021-03-12 Illumina Inc Artificial intelligence-based generation of sequencing metadata
NL2023310B1 (en) 2019-03-21 2020-09-28 Illumina Inc Training data generation for artificial intelligence-based sequencing
US11210554B2 (en) 2019-03-21 2021-12-28 Illumina, Inc. Artificial intelligence-based generation of sequencing metadata
NL2023312B1 (en) 2019-03-21 2020-09-28 Illumina Inc Artificial intelligence-based base calling
NL2023314B1 (en) 2019-03-21 2020-09-28 Illumina Inc Artificial intelligence-based quality scoring
SG10201902958PA (en) * 2019-04-02 2020-11-27 Accenture Global Solutions Ltd Artificial intelligence based plantable blank spot detection
CN110245685B (zh) 2019-05-15 2022-03-25 清华大学 基因组单位点变异致病性的预测方法、系统及存储介质
US11593649B2 (en) 2019-05-16 2023-02-28 Illumina, Inc. Base calling using convolutions
AU2020276115A1 (en) 2019-05-16 2021-01-07 Illumina, Inc. Systems and devices for characterization and performance analysis of pixel-based sequencing
CN113939600A (zh) 2019-05-29 2022-01-14 X基因组公司 用于测定序列的系统和方法
EP4018365A1 (en) * 2019-08-23 2022-06-29 Memorial Sloan Kettering Cancer Center Identifying regions of interest from whole slide images
US11327178B2 (en) * 2019-09-06 2022-05-10 Volvo Car Corporation Piece-wise network structure for long range environment perception
US20210265016A1 (en) 2020-02-20 2021-08-26 Illumina, Inc. Data Compression for Artificial Intelligence-Based Base Calling
US20210265015A1 (en) 2020-02-20 2021-08-26 Illumina, Inc. Hardware Execution and Acceleration of Artificial Intelligence-Based Base Caller
FR3109635B1 (fr) * 2020-04-27 2022-04-15 Ifp Energies Now Procédé de détection d’au moins un constituant géologique d’un échantillon de roche
EP4211268A4 (en) 2020-09-10 2024-09-18 Ultima Genomics Inc METHODS AND SYSTEMS FOR SEQUENCE AND VARIANT CALLING

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120020537A1 (en) * 2010-01-13 2012-01-26 Francisco Garcia Data processing system and methods
US20180195953A1 (en) * 2017-01-06 2018-07-12 Illumina, Inc. Phasing correction

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ANONYMOUS: "MiSEQ:Imaging and base calling", 《HTTPS://SUPPORT.ILLUMINA.COM/TRAINING.HTML》, 1 January 2013 (2013-01-01) *
TIM ALBRECHT ET AL: "Deep Learning for single-molecule science", 《INSTITUTE OF PHYSICS PUBLISHING》, vol. 18, no. 42, 18 September 2017 (2017-09-18) *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949499A (zh) * 2021-03-04 2021-06-11 北京联合大学 一种基于ShuffleNet改进的MTCNN人脸检测方法
CN113100803A (zh) * 2021-04-20 2021-07-13 西门子数字医疗科技(上海)有限公司 用于显示静脉血栓的方法、装置、计算机设备和介质
CN113095304A (zh) * 2021-06-08 2021-07-09 成都考拉悠然科技有限公司 减弱重采样对行人重识别的影响的方法
CN113552855A (zh) * 2021-07-23 2021-10-26 重庆英科铸数网络科技有限公司 工业设备动态阈值设定方法、装置、电子设备及存储介质
CN113780450A (zh) * 2021-09-16 2021-12-10 郑州云智信安安全技术有限公司 基于自编码神经网络的分布式存储方法及系统
CN116363403A (zh) * 2023-05-26 2023-06-30 深圳赛陆医疗科技有限公司 用于基因样本的图像识别方法、图像识别系统和存储介质
CN116363403B (zh) * 2023-05-26 2023-08-11 深圳赛陆医疗科技有限公司 用于基因样本的图像识别方法、图像识别系统和存储介质
CN117473444A (zh) * 2023-12-27 2024-01-30 北京诺赛基因组研究中心有限公司 基于CNN和SVM的Sanger测序结果质检方法
CN117473444B (zh) * 2023-12-27 2024-03-01 北京诺赛基因组研究中心有限公司 基于CNN和SVM的Sanger测序结果质检方法

Also Published As

Publication number Publication date
EP3942072A1 (en) 2022-01-26
SG11202012441QA (en) 2021-01-28
US12119088B2 (en) 2024-10-15
AU2020241586A1 (en) 2021-01-14
BR112020026433A2 (pt) 2021-03-23
BR112020026426A2 (pt) 2021-03-23
US20230268033A1 (en) 2023-08-24
CN112334984A (zh) 2021-02-05
IL279533A (en) 2021-01-31
EP3942074A2 (en) 2022-01-26
CA3104951A1 (en) 2020-09-24
EP3942071A1 (en) 2022-01-26
AU2020240383A1 (en) 2021-04-15
IL279527A (en) 2021-01-31
US20240071573A1 (en) 2024-02-29
JP7566638B2 (ja) 2024-10-15
BR112020026408A2 (pt) 2021-03-23
AU2020241905A1 (en) 2021-01-07
KR20210143100A (ko) 2021-11-26
US20220147760A1 (en) 2022-05-12
MX2020014288A (es) 2021-05-28
SG11202012453PA (en) 2021-01-28
EP3942073A2 (en) 2022-01-26
KR20210145116A (ko) 2021-12-01
EP3942072B1 (en) 2023-09-06
AU2020256047A1 (en) 2021-01-07
IL279533B1 (en) 2024-09-01
CN112789680A (zh) 2021-05-11
IL281668A (en) 2021-05-31
JP2022525267A (ja) 2022-05-12
CN112689875A (zh) 2021-04-20
AU2020240141A1 (en) 2021-01-14
SG11202012463YA (en) 2021-01-28
BR112020026455A2 (pt) 2021-03-23
JP2022524562A (ja) 2022-05-09
MX2020014293A (es) 2021-03-25
KR20210142529A (ko) 2021-11-25
EP4276769A2 (en) 2023-11-15
US20220292297A1 (en) 2022-09-15
JP2022526470A (ja) 2022-05-25
MX2020014299A (es) 2021-03-25
MX2020014302A (es) 2021-05-28
JP2022532458A (ja) 2022-07-15
IL279525A (en) 2021-01-31
EP3942070A1 (en) 2022-01-26
IL279522A (en) 2021-01-31
US20200302223A1 (en) 2020-09-24
US11210554B2 (en) 2021-12-28
KR20210143154A (ko) 2021-11-26
JP2022535306A (ja) 2022-08-08
US11908548B2 (en) 2024-02-20
US11961593B2 (en) 2024-04-16
SG11202012461XA (en) 2021-01-28
EP4276769A3 (en) 2024-01-24
KR20210145115A (ko) 2021-12-01
CN112313666B (zh) 2024-09-06
CN112585689A (zh) 2021-03-30
US20230004749A1 (en) 2023-01-05

Similar Documents

Publication Publication Date Title
CN112313666B (zh) 用于基于人工智能的测序的训练数据生成
US11347965B2 (en) Training data generation for artificial intelligence-based sequencing
WO2020205296A1 (en) Artificial intelligence-based generation of sequencing metadata
US20210265018A1 (en) Knowledge Distillation and Gradient Pruning-Based Compression of Artificial Intelligence-Based Base Caller
NL2023311B9 (en) Artificial intelligence-based generation of sequencing metadata
NL2023310B1 (en) Training data generation for artificial intelligence-based sequencing
EP4405955A1 (en) Compressed state-based base calling

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant