JP2022526470A - 人工知能ベースのベースコール - Google Patents

人工知能ベースのベースコール Download PDF

Info

Publication number
JP2022526470A
JP2022526470A JP2020572703A JP2020572703A JP2022526470A JP 2022526470 A JP2022526470 A JP 2022526470A JP 2020572703 A JP2020572703 A JP 2020572703A JP 2020572703 A JP2020572703 A JP 2020572703A JP 2022526470 A JP2022526470 A JP 2022526470A
Authority
JP
Japan
Prior art keywords
cluster
cycle
neural network
data
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020572703A
Other languages
English (en)
Other versions
JPWO2020191387A5 (ja
Inventor
キショール・ジャガナタン
ジョン・ランドール・ゴベル
アミラリ・キア
Original Assignee
イルミナ インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from NL2023310A external-priority patent/NL2023310B1/en
Priority claimed from NL2023311A external-priority patent/NL2023311B9/en
Priority claimed from NL2023314A external-priority patent/NL2023314B1/en
Priority claimed from NL2023316A external-priority patent/NL2023316B1/en
Priority claimed from NL2023312A external-priority patent/NL2023312B1/en
Priority claimed from US16/826,134 external-priority patent/US11676685B2/en
Application filed by イルミナ インコーポレイテッド filed Critical イルミナ インコーポレイテッド
Priority claimed from PCT/US2020/024088 external-priority patent/WO2020191387A1/en
Publication of JP2022526470A publication Critical patent/JP2022526470A/ja
Publication of JPWO2020191387A5 publication Critical patent/JPWO2020191387A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23211Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with adaptive number of clusters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • G06V10/7784Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • G06V10/993Evaluation of the quality of the acquired pattern
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/046Forward inferencing; Production systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images

Abstract

開示される技術は、入力データをニューラルネットワークによって処理し、入力データの代替表現を生成する。入力データは、配列決定実行の1つ又はそれ以上の配列決定サイクルのそれぞれのためのサイクルごとの画像データを含む。サイクルごとの画像データは、それぞれの配列決定サイクルにおいて捕捉された1つ又はそれ以上の分析物及びそれらの周囲背景の強度発光を表現する。開示される技術は、代替表現を出力層によって処理し、出力を生成し、出力に基づいて、配列決定サイクルのうちの1つ又はそれ以上における1つ又はそれ以上の分析物をベースコールする。

Description

(優先権出願)
本出願は、以下の出願の優先権又は利益を主張する。
2019年3月21日に出願された「Training Data Generation for Artificial Intelligence-Based Sequencing」と題する米国仮特許出願第62/821,602号(代理人整理番号ILLM1008-1/IP-1693-PRV)、
2019年3月21日に出願された「Artificial Intelligence-Based Generation of Sequencing Metadata」と題する米国仮特許出願第62/821,618号(代理人整理番号ILLM1008-3/IP-1741-PRV)、
2019年3月21日に出願された「Artificial Intelligence-Based Base Calling」と題する米国仮特許出願第62/821,681号(代理人整理番号ILLM1008-4/IP-1744-PRV)、
2019年3月21日に出願された「Artificial Intelligence-Based Quality Scoring」と題する米国仮特許出願第62/821,724号(代理人整理番号ILLM1008-7/IP-1747-PRV)、
2019年3月21日に出願された「Artificial Intelligence-Based Sequencing」と題する米国仮特許出願第62/821,766号(代理人整理番号ILLM1008-9/IP-1752-PRV)、
2019年6月14日に出願された「Training Data Generation for Artificial Intelligence-Based Sequencing」と題する蘭国特許出願第2023310号(代理人整理番号ILLM1008-11/IP-1693-NL)、
2019年6月14日に出願された「Artificial Intelligence-Based Generation of Sequencing Metadata」と題する蘭国特許出願第2023311号(代理人整理番号ILLM1008-12/IP-1741-NL)、
2019年6月14日に出願された「Artificial Intelligence-Based Base Calling」と題する蘭国特許出願第2023312号(代理人整理番号ILLM1008-13/IP-1744-NL)、
2019年6月14日に出願された「Artificial Intelligence-Based Quality Scoring」と題する蘭国特許出願第2023314号(代理人整理番号ILLM1008-14/IP-1747-NL)、及び
2019年6月14日に出願された「Artificial Intelligence-Based Sequencing」と題する蘭国特許出願第2023316号(代理人整理番号ILLM1008-15/IP-1752-NL)。
2020年3月20日に出願された「Training Data Generation for Artificial Intelligence-Based Sequencing」と題する米国特許出願第16/825,987号(代理人整理番号ILLM1008-16/IP-1693-US)、
2020年3月20日に出願された「Training Data Generation for Artificial Intelligence-Based Sequencing」と題する米国特許出願第16/825,991号(代理人整理番号ILLM1008-17/IP-1741-US)、
2020年3月20日に出願された「Artificial Intelligence-Based Base Calling」と題する米国特許出願第16/826,126号(代理人整理番号ILLM1008-18/IP-1744-US)、
2020年3月20日に出願された「Artificial Intelligence-Based Quality Scoring」と題する米国特許出願第16/826,134号(代理人整理番号第ILLM1008-19/IP-1747-US)、
2020年3月21日に出願された「Artificial Intelligence-Based Sequencing」と題する米国特許出願第16/826,168号(代理人整理番号ILLM1008-20/IP-1752-PRV)、
本願と同時に出願され、その後PCT国際公開第WO____________号として公開されている「Training Data Generation for Artificial Intelligence-Based Sequencing」と題するPCT特許出願第PCT___________号(代理人整理番号ILLM1008-21/IP-1693-PCT)、
本願と同時に出願され、その後、PCT国際公開第WO____________号として公開されている「Artificial Intelligence Based Generation of Sequencing Metadata」と題するPCT特許出願第PCT__________号(代理人整理番号第ILLM1008-22/IP-1741-PCT)、
本願と同時に出願され、その後PCT国際公開第WO____________号として公開されている「Artificial Intelligence-Based Quality Scoring」と題するPCT特許出願第PCT__________号(代理人整理番号第ILLM1008-24/IP-1747-PCT)、及び
本願と同時に出願され、その後PCT国際公開第WO____________号として公開されている「Artificial Intelligence-Based Sequencing」と題するPCT特許出願第PCT___________号(代理人整理番号ILLM1008-25/IP-1752-PCT)、
優先権出願は、本明細書に完全に記載されているかのように、全ての目的のために参照により本明細書に組み込まれる。
(組み込み)
以下は、本明細書に完全に記載されているかのように、全ての目的のために参照により組み込まれる。
2019年5月16日に出願された「Systems and Devices for Characterization and Performance Analysis of Pixel-Based Sequencing」と題する米国仮特許出願第62/849,091号(代理人整理番号ILLM1011-1/IP-1750-PRV)、
2019年5月16日に出願された「Base Calling Using Convolutions」と題する米国特許仮出願第62/849,132号(代理人整理番号ILLM1011-2/IP-1750-PR2)、
2019年5月16日に出願された「Base Calling Using Compact Convolutions」と題する米国仮特許仮出願第62/849,133号(代理人整理番号ILLM1011-3/IP-1750-PR3)、
2020年2月20日に出願された「Artificial Intelligence-Based Base Calling of Index Sequences」と題する米国仮特許出願第62/979,384号(代理人整理番号ILLM1015-1/IP-1857-PRV)、
2020年2月20日に出願された「Artificial Intelligence-Based Many-To-Many Base Calling」と題する米国仮特許出願第62/979,414号(代理人整理番号ILLM1016-1/IP-1858-PRV)、
2020年2月20日に出願された「Knowledge Distillation-Based Compression of Artificial Intelligence-Based Base Caller」と題する米国仮特許出願第62/979,385号(代理人整理番号ILLM1017-1/IP-1859-PRV)、
2020年2月20日に出願された「Multi-Cycle Cluster Based Real Time Analysis System」と題する米国特許仮出願第62/979,412号(代理人整理番号ILLM1020-1/IP-1866-PRV)、
2020年2月20日に出願された「Data Compression for Artificial Intelligence-Based Base Calling」と題する米国仮特許出願第62/979,411号(代理人整理番号ILLM1029-1/IP-1964-PRV)、
2020年2月20日に出願された「Squeezing Layer for Artificial Intelligence-Based Base Calling」と題する米国仮特許出願第62/979,399号(代理人整理番号ILLM1030-1/IP-1982-PRV)、
Liu P,Hemani A,Paul K,Weis C,Jung M,Wehn N.3D-Stacked Many-Core Architecture for Biological Sequence Analysis Problems.Int J Parallel Prog.2017;45(6):1420-60、
Z.Wu,K.Hammad,R.Mittmann,S.Magierowski,E.Ghafar-Zadeh,and X.Zhong,「FPGA-Based DNA Basecalling Hardware Acceleration」,in Proc.IEEE 61st Int.Midwest Symp.Circuits Syst.,Aug.2018,pp.1098-1101、
Z.Wu,K.Hammad,E.Ghafar-Zadeh,and S.Magierowski,「FPGA-Accelerated 3rd Generation DNA Sequencing」,in IEEE Transactions on Biomedical Circuits and Systems,Volume 14,Issue 1,Feb.2020,pp.65-74、
Prabhakar et al.,「Plasticine:A Reconfigurable Architecture for Parallel Patterns」,ISCA’17,June 24-28,2017,Toronto,ON,Canada、
M.Lin,Q.Chen,and S.Yan,「Network in Network」,in Proc.of ICLR,2014、
L.Sifre,「Rigid-motion Scattering for Image Classification,Ph.D.thesis,2014、
L.Sifre and S.Mallat,「Rotation,Scaling and Deformation Invariant Scattering for Texture Discrimination」,in Proc.of CVPR,2013、
F.Chollet,「Xception:Deep Learning with Depthwise Separable Convolutions」,in Proc.of CVPR,2017、
X.Zhang,X.Zhou,M.Lin,and J.Sun,「ShuffleNet:An Extremely Efficient Convolutional Neural Network for Mobile Devices」,in arXiv:1707.01083,2017、
K.He,X.Zhang,S.Ren,and J.Sun,「Deep Residual Learning for Image Recognition」,in Proc.of CVPR,2016、
S.Xie,R.Girshick,P.Dollar,Z.Tu,and K.He,「Aggregated Residual Transformations for Deep Neural Networks」,in Proc.of CVPR,2017、
A.G.Howard,M.Zhu,B.Chen,D.Kalenichenko,W.Wang,T.Weyand,M.Andreetto,and H.Adam,「Mobilenets:Efficient Convolutional Neural Networks for Mobile Vision Applications」,in arXiv:1704.04861,2017、
M.Sandler,A.Howard,M.Zhu,A.Zhmoginov,and L.Chen,「MobileNetV2:Inverted Residuals and Linear Bottlenecks」,in arXiv:1801.04381v3,2018、
Z.Qin,Z.Zhang,X.Chen,and Y.Peng,「FD-MobileNet:Improved MobileNet with a Fast Downsampling Strategy」,in arXiv:1802.03750,2018、
Liang-Chieh Chen,George Papandreou,Florian Schroff,and Hartwig Adam.Rethinking atrous convolution for semantic image segmentation.CoRR,abs/1706.05587,2017、
J.Huang,V.Rathod,C.Sun,M.Zhu,A.Korattikara,A.Fathi,I.Fischer,Z.Wojna,Y.Song,S.Guadarrama,et al.Speed/accuracy trade-offs for modern convolutional object detectors.arXiv preprint arXiv:1611.10012,2016、
S.Dieleman,H.Zen,K.Simonyan,O.Vinyals,A.Graves,N.Kalchbrenner,A.Senior,and K.Kavukcuoglu,「WAVENET:A GENERATIVE MODEL FOR RAW AUDIO」,arXiv:1609.03499,2016、
S.O.Arik,M.Chrzanowski,A.Coates,G.Diamos,A.Gibiansky,Y.Kang,X.Li,J.Miller,A.Ng,J.Raiman,S.Sengupta and M.Shoeybi,「DEEP VOICE:REAL-TIME NEURAL TEXT-TO-SPEECH」,arXiv:1702.07825,2017、
F.Yu and V.Koltun,「MULTI-SCALE CONTEXT AGGREGATION BY DILATED CONVOLUTIONS」,arXiv:1511.07122,2016、
K.He,X.Zhang,S.Ren,and J.Sun,「DEEP RESIDUAL LEARNING FOR IMAGE RECOGNITION」,arXiv:1512.03385,2015、
R.K.Srivastava,K.Greff,and J.Schmidhuber,「HIGHWAY NETWORKS」,arXiv:1505.00387,2015、
G.Huang,Z.Liu,L.van der Maaten and K.Q.Weinberger,「DENSELY CONNECTED CONVOLUTIONAL NETWORKS」,arXiv:1608.06993,2017、
C.Szegedy,W.Liu,Y.Jia,P.Sermanet,S.Reed,D.Anguelov,D.Erhan,V.Vanhoucke,and A.Rabinovich,「GOING DEEPER WITH CONVOLUTIONS」,arXiv:1409.4842,2014、
S.Ioffe and C.Szegedy,「BATCH NORMALIZATION:ACCELERATING DEEP NETWORK TRAINING BY REDUCING INTERNAL COVARIATE SHIFT」,arXiv:1502.03167,2015、
J.M.Wolterink,T.Leiner,M.A.Viergever,and I.Isgum,「DILATED CONVOLUTIONAL NEURAL NETWORKS FOR CARDIOVASCULAR MR SEGMENTATION IN CONGENITAL HEART DISEASE」,arXiv:1704.03669,2017、
L.C.Piqueras,「AUTOREGRESSIVE MODEL BASED ON A DEEP CONVOLUTIONAL NEURAL NETWORK FOR AUDIO GENERATION」,Tampere University of Technology,2016、
J.Wu,「Introduction to Convolutional Neural Networks」,Nanjing University,2017、
「Illumina CMOS Chip and One-Channel SBS Chemistry」,Illumina,Inc.2018,2 pages、
「skikit-image/peak.py at master」、GitHub,5 pages,[2018-11-16に検索]。インターネット<URL:https://github.com/scikit-image/scikit-image/blob/master/skimage/feature/peak.py#L25>から検索、
「3.3.9.11.Watershed and random walker for segmentation」,Scipy lecture notes,2 pages,[2018-11-13に検索]。インターネット<URL:http://scipy-lectures.org/packages/scikit-image/auto_examples/plot_segmentations.html>から検索、
Mordvintsev,Alexander and Revision,Abid K.,「Image Segmentation with Watershed Algorithm」,Revision 43532856,2013,6 pages [2018-11-13に検索]。インターネット<URL:https://opencv-python-tutroals.readthedocs.io/en/latest/py_tutorials/py_imgproc/py_watershed/py_watershed.html>から検索、
Mzur,「Watershed.py」,25 October 2017,3 pages,[2018-11-13に検索]。インターネット<URL:https://github.com/mzur/watershed/blob/master/Watershed.py>から検索、
Thakur,Pratibha,et.al.「A Survey of Image Segmentation Techniques」,International Journal of Research in Computer Applications and Robotics,Vol.2,Issue.4,April 2014,Pg.:158-165、
Long,Jonathan,et.al.,「Fully Convolutional Networks for Semantic Segmentation」,:IEEE Transactions on Pattern Analysis and Machine Intelligence,Vol 39,Issue 4,1 April 2017,10 pages、
Ronneberger,Olaf,et.al.,「U-net:Convolutional networks for biomedical image segmentation.」 In International Conference on Medical image computing and computer-assisted intervention,18 May 2015,8 pages、
Xie,W.,et.al.,「Microscopy cell counting and detection with fully convolutional regression networks」,Computer methods in biomechanics and biomedical engineering:Imaging & Visualization,6(3),pp.283-292,2018、
Xie,Yuanpu,et al.,「Beyond classification:structured regression for robust cell detection using convolutional neural network」,International Conference on Medical Image Computing and Computer-Assisted Intervention.October 2015,12 pages、
Snuverink,I.A.F.、「Deep Learning for Pixelwise Classification of Hyperspectral Images」、Master of Science Thesis,Delft University of Technology,23 November 2017、19 pages、
Shevchenko,A.、「Keras weighted categorical_crossentropy」,1 page,[2019-01-15に検索]。インターネット<URL:https://gist.github.com/skeeet/cad06d584548fb45eece1d4e28cfa98b>から検索、
van den Assem,D.C.F.、「Predicting periodic And chaotic signals using Wavenets」、Master of Science Thesis,Delft University Of Technology,18 August 2017,Pages 3-38、
I.J.Goodfellow,D.Warde-Farley,M.Mirza,A.Courville,and Y.Bengio、「CONVOLUTIONAL NETWORKS」、Deep Learning,MIT Press,2016、及び
J.Gu,Z.Wang,J.Kuen,L.Ma,A.Shahroudy,B.Shuai,T.Liu,X.Wang,and G.Wang、「RECENT ADVANCES IN CONVOLUTIONAL NEURAL NETWORKS」、arXiv:1512.07108,2017。
(発明の分野)
本開示の技術は、人工知能コンピュータ及びデジタルデータ処理システム、並びに、知能をエミュレーションするための対応するデータ処理方法及び製品(すなわち、知識ベースのシステム、推論システム及び知識取得システム)に関すると共に、不確実性(例えば、ファジー論理システム)、適応システム、機械学習システム、及び人工ニューラルネットワークを用いて推論するためのシステムを含む。具体的には、開示される技術は、データを分析するための深層畳み込みニューラルネットワークなどの深層ニューラルネットワークを使用することに関する。
このセクションで説明される主題は、単にこのセクションにおける言及の結果として、先行技術であると想定されるべきではない。同様に、このセクションで言及した問題、又は背景として提供された主題に関連する問題は、先行技術において以前に認識されていると想定されるべきではない。このセクションの主題は、単に、異なるアプローチを表し、それ自体はまた、特許請求される技術の実施に対応し得る。
深層ニューラルネットワークは、高レベル機能を連続的にモデル化するために、複数の非線形及び複雑な変換層を使用する、人工ニューラルネットワークの類である。深層ニューラルネットワークは、観測された出力と予測出力との間の差を伝達してパラメータを調整する逆伝搬を介してフィードバックを提供する。深層ニューラルネットワークは、大きな訓練データセットの利用可能性、並列分散コンピューティングの能力、及び高度な訓練アルゴリズムと共に進化している。深層ニューラルネットワークは、コンピュータビジョン、音声認識、及び自然言語処理などの多数のドメインにおける主な進歩を促進している。
畳み込みニューラルネットワーク(CNN)及び反復ニューラルネットワーク(RNN)は、深層ニューラルネットワークの構成要素である。畳み込みニューラルネットワークは、特に、畳み込み層、非線形層、及びプーリング層を含む構造で画像認識に成功してきた。反復ニューラルネットワークは、パーセプトロン、長い短期メモリユニット、及びゲートされた反復単位のような構成単位間の周期的接続を有する入力データの連続的な情報を利用するように設計される。加えて、多くの他の出現深層ニューラルネットワークが、深層時空間ニューラルネットワーク、多次元反復ニューラルネットワーク、及び畳み込み自動エンコーダなどの限定された状況に関して提案されてきた。
深層ニューラルネットワークの訓練の目標は、各層における重みパラメータの最適化であり、このことは、より好適な階層表現がデータから学習され得るように、より単純な特徴を複雑な特徴に徐々に組み合わせる。最適化プロセスの単一サイクルは、以下のように構成される。まず、訓練データセットと仮定すると、前方へのパスは、各層内の出力を順次計算し、ネットワークを通って機能信号を順方向に伝搬する。最終出力層において、客観的な損失関数は、推論された出力と所与のラベルとの間の誤差を測定する。訓練誤差を最小化するために、後方へのパスは、連鎖ルールを使用して、誤差信号を逆伝搬し、ニューラルネットワーク全体の全ての重みに対する勾配を計算する。最後に、確率勾配降下に基づいて最適化アルゴリズムを使用して確率パラメータが更新される。バッチ勾配降下が完全データセットごとにパラメータ更新するのに対し、確率的勾配降下は、データ例の各々の小さいセットについて更新を実行することによって確率的近似値を提供する。いくつかの最適化アルゴリズムは確率的勾配降下に由来する。例えば、Adagrad and Adam訓練アルゴリズムは、それぞれ、各パラメータの更新頻度及び勾配のモーメントに基づいて学習率を適応的に修正しながら、確率的勾配降下を実行する。
深層ニューラルネットワークの訓練における別のコア要素は規則化であり、規則化は、過剰適合を回避し、したがって良好な一般化性能を達成することを意図する戦略を指す。例えば、重み減衰は、重みパラメータがより小さい絶対値に収束するように、客観的損失関数にペナルティ項を追加する。ドロップアウトは、訓練中にニューラルネットワークから隠れたユニットをランダムに除去し、可能なサブネットワークの集合体と見なすことができる。ドロップアウトの能力を向上させるために、新たな起動関数、maxout、及びrnnDropと呼ばれる反復性ニューラルネットワークに対するドロップアウトのバリアントが提案されている。更に、バッチ正規化は、ミニバッチ内の各アクティブ化に関するスカラ特徴の正規化を介した新たな規則化方法を提供し、各々の平均及び分散をパラメータとして学習する。
配列データが多次元及び高次元であると仮定すると、深層ニューラルネットワークは、それらの広範な適用性及び強化された予測能力により、生物情報科学研究のためにかなり有望である。畳み込みニューラルネットワークは、モチーフ発見、病原性変異体の同定、及び遺伝子発現推論などのゲノミクスにおける配列に基づく問題を解決するために採用されている。畳み込みニューラルネットワークは、DNAを研究するのに特に有用な重み共有戦略を使用するが、これは、短い配列モチーフを捕捉することができ、この配列モチーフは、有意な生物学的機能を有すると推定されるDNA中の局所的パターンを再現する。畳み込みニューラルネットワークの顕著な特徴は、畳み込みフィルタの使用である。
精巧に設計され、手動で巧妙に作り上げられた特徴に基づく従来の分類アプローチとは異なり、畳み込みフィルタは、知識の情報表現に生入力データをマッピングするプロセスに類似した特徴の適応学習を実行する。この意味では、畳み込みフィルタは、そのようなフィルタのセットが入力内の関連するパターンを認識し、訓練手順中にそれ自体を更新することができるため、一連のモチーフスキャナーとして機能する。反復ニューラルネットワークは、タンパク質又はDNA配列などの様々な長さの連続的データにおける長距離依存性を捉えることができる。
したがって、テンプレートの生成及びベースコールのための、理にかなった深層学習ベースの枠組みを使用する機会が生じる。
ハイスループット技術の時代では、努力ごとに最も低いコストで解釈可能なデータの最高収率を蓄積することは、重大な課題を残している。クラスター形成のためにブリッジ増幅を利用するものなどの核酸配列決定のクラスターベースの方法は、核酸配列決定のスループットを増加させる目的に有益な貢献をしている。これらのクラスターベースの方法は、固体支持体上に固定化された核酸の密集した集団を配列決定することに依存し、典型的には、固体支持体上の別個の場所に位置する複数のクラスターを同時に配列決定する過程で生成される光信号を抑制するための画像解析ソフトウェアの使用を伴う。
しかしながら、このような固相核酸クラスターベースの配列決定技術は、達成することができるスループットの量を制限する相当な障害に直面している。例えば、クラスターベースの配列決定方法では、空間的に分解されるには互いに物理的に近接し過ぎる、又は実際には、固体支持体上で物理的に重なり合う2つ又はそれ以上のクラスターの核酸配列を決定することは障害物をもたらす可能性がある。例えば、現在の画像解析ソフトウェアは、2つの重複クラスターのうちのどれから光信号が発せられたかを判定するための貴重な時間及び計算リソースを必要とする場合がある。結果として、得られ得る核酸配列情報の量及び/又は質に関して、様々な検出プラットフォームにとって妥協が不可避である。
高密度核酸凝集体ベースのゲノミクス法は、ゲノム分析の他の領域にも同様に延在する。例えば、核酸クラスターベースのゲノミクスは、配列決定用途、診断及びスクリーニング、遺伝子発現分析、エピジェネティクス分析、多型の遺伝分析などに使用することができる。これらの核酸クラスターベースのゲノミクス技術のそれぞれは、厳密に近接して又は空間的に重複する核酸クラスターから生成されたデータを分解する能力がない場合に制限される。
明らかに、ゲノミクス(例えば、任意の及び全ての動物、植物、微生物又は他の生物学的種又は集団のゲノム特性評価のための)、薬理ゲノミクス、トランスクリプトミクス、診断、予後、生物医学的リスク評価、臨床及び研究遺伝学、個人向け医療、薬物有効性及び薬物相互作用評価、獣医医学、農業、進化、及び生物学的研究、水性培養、林業、海洋調査、生態学的管理、及び環境管理、並びに他の目的を含む、様々な用途で迅速かつ費用効果の高い方法で取得できる核酸配列データの質と量を向上させる必要がある。
開示される技術は、ハイスループット核酸配列決定技術におけるスループットのレベルを増加させることを含めて、これら及び同様のニーズに対処するニューラルネットワークベースの方法及びシステムを提供すると共に、他の関連する利点を提供する。
特許又は出願ファイルは、カラーで創作された少なくとも1つの図面を含む。カラー図面(単数又は複数)を有するこの特許又は特許出願公開のコピーは、必要な料金の要求及び支払いの際に、庁によって提供される。カラー図面はまた、補助コンテンツタブを介してPAIR(patent application information retrieval:特許出願情報検索)で利用可能であってもよい。
図面では、同様の参照文字は、概して、異なる図全体を通して同様の部分を指す。また、図面は必ずしも縮尺通りではなく、その代わりに、開示された技術の原理を例示することを強調している。以下の説明では、開示される技術の様々な実施態様が、以下の図面を参照して説明される。
一実施態様による、ベースコールするためにRTAベースコーラーによって使用される処理段階を示す。
開示されたニューラルネットワークベースのベースコーラーを使用してベースコールする一実施態様を示す。
ニューラルネットワークベースのテンプレート生成器の出力から識別されたクラスター中心の場所/位置情報をサブピクセルドメインからピクセルドメインに変換する一実施態様である。
サイクル固有及び画像チャネル固有の変換を使用して参照クラスター中心からいわゆる「変換されたクラスター中心」を導き出す一実施態様である。
ニューラルネットワークベースのベースコーラーに供給される入力データの一部である画像パッチを示す。
単一のターゲットクラスターがニューラルネットワークベースのベースコーラーによってベースコールされているときに距離チャネルのための距離値を決定する一実施態様を示す。
ピクセルとターゲットクラスターとの間で計算される距離値をピクセル単位で符号化する一実施態様を示す。
複数のターゲットクラスターがニューラルネットワークベースのベースコーラーによって同時にベースコールされているときに距離チャネルのための距離値を決定する一実施態様を示す。
ターゲットクラスターのそれぞれについて、ピクセル中心-最も近いクラスター中心間の距離に基づいて決定されたいくつかの最も近いピクセルを示す。
ピクセルとクラスターのうちの最も近いクラスターとの間で計算される最小距離値をピクセル単位で符号化する一実施態様を示す。
本明細書において「クラスター形状データ」と称される、ピクセル-クラスター間の分類/帰属/カテゴリー化を使用する一実施態様を示す。
クラスター形状データを使用して距離値を計算する一実施態様を示す。
ピクセルと割り当てられたクラスターとの間で計算される距離値をピクセル単位で符号化する一実施態様を示す。
異なる配列決定サイクルのためのデータの処理を分離するために使用されるニューラルネットワークベースのベースコーラーの特殊化したアーキテクチャの一実施態様を示す。
分離された畳み込みの一実施態様を示す。
組み合わせ畳み込みの一実施態様を示す。
組み合わせ畳み込みの別の一実施態様を示す。
各畳み込み層が畳み込みフィルタのバンクを有する、ニューラルネットワークベースのベースコーラーの畳み込み層の一実施態様を示す。
画像チャネルを補足するスケーリングチャネルの2つの構成を示す。
赤色画像及び緑色画像を生成する単一の配列決定サイクルのための入力データの一実施態様を示す。
画像チャネルから生成された特徴マップに組み込まれる加法的バイアスを供給する距離チャネルの一実施態様を示す。
単一のターゲットクラスターをベースコールする一実施態様を示す。 単一のターゲットクラスターをベースコールする一実施態様を示す。 単一のターゲットクラスターをベースコールする一実施態様を示す。
複数のターゲットクラスターに同時にベースコールする一実施態様を示す。
複数の継続的な配列決定サイクルにおける複数のターゲットクラスターを同時にベースコールし、それによって複数のターゲットクラスターのそれぞれのためのベースコール配列を同時に生成する一実施態様を示す。
単一のクラスターのベースコールの実施態様のための次元数ダイアグラムを示す。
複数のクラスター、単一の配列決定サイクルのベースコールの実施態様のための次元数ダイアグラムを示す。
複数のクラスター、複数の配列決定サイクルのベースコールの実施態様のための次元数ダイアグラムを示す。
多重サイクル入力データの例示的なアレイ化された入力構成を示す。
多重サイクル入力データの例示的なスタック化された入力構成を示す。
ベースコールされているターゲットクラスターの中心を中心ピクセルの中心に配置するように画像パッチのピクセルをリフレームする一実施態様を示す。
(i)中心ピクセルの中心がターゲットクラスターの中心と一致し、(ii)非中心ピクセルがターゲットクラスターの中心から等距離である、別の例示的なリフレームされた/シフトされた画像パッチを示す。
標準的な畳み込みニューラルネットワーク及びリフレームされた入力を使用して、現在の配列決定サイクルにおける単一のターゲットクラスターをベースコールする一実施態様を示す。
標準的な畳み込みニューラルネットワーク及び整列された入力を使用して、現在の配列決定サイクルにおける複数のターゲットクラスターをベースコールする一実施態様を示す。
標準的な畳み込みニューラルネットワーク及び整列された入力を使用して、複数の配列決定サイクルにおける複数のターゲットクラスターをベースコールする一実施態様を示す。
ニューラルネットワークベースのベースコーラーを訓練する一実施態様を示す。
ニューラルネットワークベースのベースコーラーとして使用されるハイブリッドニューラルネットワークの一実施態様を示す。
現在の隠れ状態表現を生成するためにハイブリッドニューラルネットワークの反復モジュールによって使用される3D畳み込みの一実施態様を示す。
ベースコールされる一連のt個の配列決定サイクルのうちの単一の配列決定サイクルのためのサイクルごとの入力データを畳み込みモジュールの畳み込み層のカスケードによって処理する一実施態様を示す。
単一の配列決定サイクルのサイクルごとの入力データを、畳み込みモジュールの畳み込み層のカスケードによって生成された対応する畳み込み表現と混合する一実施態様を示す。
継続的な配列決定サイクルの平坦化された混合表現をスタックとして配列する一実施態様を示す。
図34のスタックに順方向及び逆方向での3D畳み込みの反復適用を受けさせ、一連内のt個の配列決定サイクルのそれぞれにおけるクラスターのそれぞれのためのベースコールを生成する一実施態様を示す。
3D畳み込みを適用する長・短期記憶(LSTM)ネットワークの入力ゲート、活性化ゲート、忘却ゲート、及び出力ゲートによって3D入力体積x(t)(平坦化された混合表現のグループを含む)を処理する一実施態様を示す。LSTMネットワークは、ハイブリッドニューラルネットワークの反復モジュールの一部である。
ニューラルネットワークベースのベースコーラーを訓練するために使用される訓練データ内のトリヌクレオチド(3量体)を平衡化する一実施態様を示す。
RTAベースコーラーのベースコール精度をニューラルネットワークベースのベースコーラーと比較する。
RTAベースコーラーのタイル間一般化を同じタイル上でのニューラルネットワークベースのベースコーラーのものと比較する。
RTAベースコーラーのタイル間一般化を、同じタイル上での、及び異なるタイル上でのニューラルネットワークベースのベースコーラーのものと比較する。
同様に、RTAベースコーラーのタイル間一般化を異なるタイル上でのニューラルネットワークベースのベースコーラーのものと比較する。
ニューラルネットワークベースのベースコーラーへの入力として供給される異なるサイズの画像パッチが、ベースコール精度にどのような変化をもたらすかを示す。
A.baumanni及びE.coliからの訓練データ上でのニューラルネットワークベースのベースコーラーのレーン間一般化を示す。 A.baumanni及びE.coliからの訓練データ上でのニューラルネットワークベースのベースコーラーのレーン間一般化を示す。 A.baumanni及びE.coliからの訓練データ上でのニューラルネットワークベースのベースコーラーのレーン間一般化を示す。 A.baumanni及びE.coliからの訓練データ上でのニューラルネットワークベースのベースコーラーのレーン間一般化を示す。
図42、図43、図44、及び図45に関して上述したレーン間一般化のための誤りプロファイルを示す。
図46の誤りプロファイルによって検出された誤りの発生源が緑色チャネルにおける低いクラスター強度に帰属することを示す。
2回の配列決定実行(リード1及びリード2)についてのRTAベースコーラー及びニューラルネットワークベースのベースコーラーの誤りプロファイルを比較する。
4つの異なる器具上でのニューラルネットワークベースのベースコーラーの実行間一般化を示す。
同じ器具上で実施された4つの異なる実行上でのニューラルネットワークベースのベースコーラーの実行間一般化を示す。
ニューラルネットワークベースのベースコーラーを訓練するために使用される訓練データのゲノム統計を示す。
ニューラルネットワークベースのベースコーラーを訓練するために使用される訓練データのゲノムコンテキストを示す。
ロングリード(例えば、2×250)のベースコールにおけるニューラルネットワークベースのベースコーラーのベースコール精度を示す。
ニューラルネットワークベースのベースコーラーが、画像パッチ間にわたって中央クラスターピクセル及びその隣接ピクセルにどのように着目するかの一実施態様を示す。
一実施態様による、ニューラルネットワークベースのベースコーラーを訓練及び実行するために使用される様々なハードウェア構成要素及び構成を示す。他の実施態様では、異なるハードウェア構成要素及び構成が使用される。
ニューラルネットワークベースのベースコーラーを使用して実施することができる様々な配列決定タスクを示す。
t分布型確率的近傍埋め込み法(t-SNE)によって可視化された散布図であり、ニューラルネットワークベースのベースコーラーのベースコール結果を表現する。
品質スコアリングのためにニューラルネットワークベースのベースコーラーによって作成されたベースコール信頼確率を選択する一実施態様を示す。
ニューラルネットワークベースの品質スコアリングの一実施態様を示す。
品質スコアとニューラルネットワークベースのベースコーラーによって行われたベースコール信頼性予測との間の対応の一実施態様を示す。 品質スコアとニューラルネットワークベースのベースコーラーによって行われたベースコール信頼性予測との間の対応の一実施態様を示す。
推論中にニューラルネットワークベースのベースコーラーによって行われたベースコール信頼性予測から品質スコアを推論する一実施態様を示す。
配列決定画像から導出された入力データを処理し、品質指標を直接生成するように、ニューラルネットワークベースの品質スコアラーを訓練する一実施態様を示す。
推論中にニューラルネットワークベースの品質スコアラーの出力として品質指標を直接生成する一実施態様を示す。
配列決定システムの一実施態様を示す。配列決定システムは、構成可能なプロセッサを含む。 配列決定システムの一実施態様を示す。配列決定システムは、構成可能なプロセッサを含む。
ベースコールセンサー出力など、配列決定システムからのセンサーデータの分析のためのシステムの簡略ブロック図である。
ホストプロセッサによって実行される実行時プログラムの機能を含む、ベースコール動作の態様を示す簡略図である。
図63Cに示されるものなどの構成可能プロセッサの構成の簡略図である。
本明細書に開示される技術を実施するために、図63Aの配列決定システムによって使用され得るコンピュータシステムである。
データ正規化及びデータ増強を含むことができる、データ前処理の異なる実施態様を示す。
ニューラルネットワークベースのベースコーラーが、細菌データ上で訓練され、ヒトデータ上で試験されるとき(細菌データ及びヒトデータは同じアッセイを共有する(例えば、両方ともイントロンデータを含む))、図66のデータ正規化技術(DeepRTA(norm))及びデータ増強技術(DeepRTA(augment))がベースコール誤り率を減少させることを示す。
ニューラルネットワークベースのベースコーラーが、非エクソンデータ(例えば、イントロンデータ)上で訓練され、エクソンデータ上で試験されるとき、図66のデータ正規化技術(DeepRTA(norm))及びデータ増強技術(DeepRTA(augment))がベースコール誤り率を減少させることを示す。
以下の説明は、開示された技術を当業者が作製及び使用することを可能にするために提示され、特定の用途及びその要件に関連して提供される。開示される実施態様に対する様々な修正は、当業者には容易に明らかとなり、本明細書で定義される一般原理は、開示される技術の趣旨及び範囲から逸脱することなく、他の実施態様及び用途に適用され得る。したがって、開示される技術は、示される実施態様に限定されることを意図するものではなく、本明細書に開示される原理及び特徴と一致する最も広い範囲を与えられるものである。
導入
塩基がデジタル画像のシーケンスで分類されるとき、ニューラルネットワークは、過去及び将来のサイクルの画像チャネルと共に現在のサイクル内の複数の画像チャネルを処理する。クラスター内において、ストランドのいくつかは、合成の主過程より先に又は遅れて進み得、この位相の外れた標識付けは、プレフェージング(プレフェージング)又はフェージング(phasing)として知られている。低率のプレフェージング及びポストフェージング(post-phasing)が経験的に観察された場合、プレフェージング及びポストフェージングからもたらされる信号内のノイズのほとんど全ては、現在、過去及び将来のサイクルで、すなわち、3つのサイクルだけでデジタル画像を処理するニューラルネットワークによって処理することができる。
現在のサイクル内のデジタル画像チャネルの間では、画像をサイクル内で整列する慎重なレジストレーションが、正確な塩基分類に強く寄与する。誤りの発生源の中でも、波長及び不一致照明源の組み合わせは、測定されたクラスター中心位置に小さい補正可能な差を生じさせる。画像タイル全体にわたってクラスター中心を正確に位置合わせするために、並進、回転、及びスケーリングを伴う、一般的なアフィン変換を使用することができる。アフィン変換は、画像データをリフレームするために及びクラスター中心についてオフセットを解消するために使用することができる。
画像データをリフレームすることは、典型的には、アフィン変換を適用することによって、画像データを補間することを意味する。リフレームすることにより、対象のクラスター中心をピクセルパッチの中心ピクセルの中央に置くことができる。又は、画像収集時のジッタ及び他の不一致を克服するために、画像をテンプレートと位置合わせすることができる。リフレームすることは、ピクセルパッチ内の全てのピクセルの強度値を調整することを含む。バイリニア及びバイキュービック補間並びに重み付け面積調整は、代替的な方策である。
いくつかの実施態様では、クラスター中心座標を、追加の画像チャネルとしてニューラルネットワークに供給することができる。
距離信号もまた、塩基分類に寄与することができる。いくつかのタイプの距離信号は、クラスター中心からの領域の分離を反映する。最も強い光信号は、クラスター中心と一致すると見なされる。クラスター周辺部に沿った光信号は、近くのクラスターからの漂遊信号を含むことがある。分類は、信号成分の寄与がクラスター中心からのその分離に従って減衰されると、より正確であることが観察されている。機能する距離信号としては、単一クラスター距離チャネル、マルチクラスター距離チャネル、及びマルチクラスター形状ベース距離チャネルが挙げられる。単一クラスター距離チャネルは、中心ピクセル内にクラスター中心を有するパッチに適用される。そのとき、パッチ内の全ての領域の距離は、中心ピクセル内のクラスター中心からの距離である。中心ピクセルと同じクラスターに属していないピクセルには、計算した距離を与える代わりに、背景としてフラグ付けすることができる。マルチクラスター距離チャネルは、各領域から最も近いクラスター中心までの距離を事前計算する。これは、領域を誤ったクラスター中心に接続する可能性を有するが、その可能性は低いものである。マルチクラスター形状ベース距離チャネルは、領域(サブピクセル又はピクセル)を、同じ塩基分類を生成するピクセル中心に隣接領域を介して関連付ける。これにより、いくらかの計算コストで、誤ったピクセルまでの距離を測定する可能性が回避される。距離信号に対するマルチクラスター及びマルチクラスター形状ベースのアプローチは、事前計算、及び画像内の複数のクラスターとの併用の対象となるという利点を有する。
形状情報は、ノイズから信号を分離し、信号対ノイズ比を改善するために、ニューラルネットワークによって使用することができる。上記の考察では、領域分類への及び距離チャネル情報を供給することへのいくつかのアプローチが識別された。いずれのアプローチにおいても、領域は、クラスターエッジを画定するために、背景として(クラスターの一部でないものとして)マーキングすることができる。ニューラルネットワークは、結果として得られる不規則なクラスター形状に関する情報を利用するように訓練することができる。距離情報及び背景分類は、組み合わせても、別個に使用してもよい。当接するクラスターからの信号を分離することは、クラスター密度が増加すると、ますます重要になる。
並列処理の規模を増大させるための1つの方向性は、撮像媒体上のクラスター密度を増加させることである。密度を増加させることは、隣接するクラスターを有するクラスターを読み取るときに背景ノイズを増加させるという欠点を有する。任意のパッチ(例えば、3×3ピクセル)の代わりに、形状データを使用すると、例えば、クラスター密度が増加するのに応じて信号分離を維持するのに役立つ。
開示される技術の一態様を適用すると、塩基分類スコアもまた、品質を予測するために活用することができる。開示される技術は、分類スコアを従来のSanger又はPhred品質Q-スコアと直接又は予測モデルを介して相関させることを含む。Q20、Q30又はQ40などのスコアは、Q=-10log10Pによって、塩基分類誤り確率に対数的に関係付けられる。Qスコアとのクラススコアの相関は、多出力ニューラルネットワーク又は多変量回帰分析を使用して実施することができる。品質スコアのリアルタイム計算の利点は、塩基分類中に、欠陥のある配列決定実行を早期に終了させることができることである。出願人は、分析シーケンスが全体の8分の1~4分の1まで進んだときに、実行を終了させる時折の(まれな)決定が行われ得ることを見出した。終了させる決定は、50サイクル後又は25~75サイクル後に行うことができる。別の方法で300~1000サイクルを実行する連続プロセスでは、早期の終了は、実質的なリソースの節約をもたらす。
特殊化した畳み込みニューラルネットワーク(CNN)アーキテクチャを使用して、複数のサイクルにわたって塩基を分類することができる。1つの特殊化は、初期層の処理中でのデジタル画像チャネル間の分離を含む。畳み込みフィルタスタックは、処理をサイクル間で分離するように構造化することができ、異なるサイクルからのデジタル画像セットの間のクロストークを防止する。処理をサイクル間で分離する動機は、異なるサイクルにおいて撮影された画像が残差レジストレーション誤差を有し、したがって位置がずれていて、互いに対してランダムな並進オフセットを有することである。これは、センサーの運動段階の動きの有限の精度に起因し、また、異なる周波数チャネルで撮影された画像は、異なる光路及び波長を有するためでもある。
継続的なサイクルからの画像セットを使用する動機は、特定のサイクルにおける信号へのプレフェージング及びポストフェージングの寄与が、2次の寄与であることである。したがって、畳み込みニューラルネットワークが下位層のデジタル画像セットの畳み込みを画像収集サイクル間で構造的に分離することは有用であり得る。
畳み込みニューラルネットワーク構造はまた、クラスター化に関する情報の取り扱いにおいて特殊化することもできる。クラスター中心及び/又は形状のためのテンプレートは、畳み込みニューラルネットワークがデジタル画像データと組み合わせる、追加情報を提供する。クラスター中心の分類及び距離データは、サイクル間にわたって繰り返し適用することができる。
畳み込みニューラルネットワークは、画像フィールド内の複数のクラスターを分類するように構造化することができる。複数のクラスターが分類されるとき、ピクセル又はサブピクセルのための距離チャネルは、ピクセル又はサブピクセルが属する、最も近いクラスター中心又は隣接するクラスター中心のいずれかに対して相対的な距離情報をよりコンパクトに含むことができる。あるいは、各ピクセル若しくはサブピクセルのために、又は少なくとも、クラスター中心を含む各ピクセルのために、大きな距離ベクトルを供給することができ、これにより、所与のピクセルのためのコンテキストである、クラスター中心から全ての他のピクセルまでの完全な距離情報を与える。
ベースコールとのテンプレート生成のいくつかの組み合わせは、面積重み付けの変動を使用して距離チャネルの代わりとなることができる。ここからは、距離チャネルの代わりに、テンプレート生成器の出力が、どのように直接使用され得るかについて説明する。
ピクセル値修正へのテンプレート画像の直接適用に影響を及ぼす3つの検討事項、すなわち、画像セットがピクセル又はサブピクセルドメイン内で処理されるかどうか、いずれのドメインにおいても、面積重みがどのように計算されるか、及びサブピクセルドメインにおいて、補間された強度値を修正するためにテンプレート画像をマスクとして適用すること、について説明する。
ピクセルドメイン内で塩基分類を実行することは、アップサンプリングから生じる計算量の増加(16倍など)を必要としない利点を有する。ピクセルドメインでは、畳み込みの最上位層であっても、不要な計算を解消するための論理を追加する代わりに、収集されない計算の実行を正当化するのに十分なクラスター密度を有し得る。まず、ピクセルドメインにおいて距離チャネルなしでテンプレート画像データを直接使用する実施例から始める。
いくつかの実施態様では、分類は、特定のクラスターに焦点を合わせる。これらの例では、クラスターの周辺部上のピクセルは、どの隣接するクラスターが分類の焦点であるかに応じて、異なる修正された強度値を有し得る。サブピクセルドメイン内のテンプレート画像は、重複ピクセルが2つの異なるクラスターに強度値を寄与することを示すことができる。本明細書において、2つ以上の隣接する又は当接するクラスターが両方とも同じ光学ピクセルに重なっているとき、この光学ピクセルを「重複ピクセル」と称し、両方のクラスターが、この光学ピクセルからの強度読み取り値に寄与する。流域解析(雨流を稜線において異なる流域に分けることに因んで名付けられた)は、当接するクラスターでさえも分離するために適用することができる。データがクラスターごとの分類のために受信されるとき、テンプレート画像は、クラスターの周辺部に沿った重複ピクセルのための強度データを修正するために使用することができる。重複ピクセルは、どのクラスターが分類の焦点であるかに応じて、異なる修正された強度を有することができる。
ピクセルの修正された強度は、ホームクラスター(すなわち、そのピクセルが属するクラスター又はそのピクセルによって強度発光が主に表現されるクラスター)への重複ピクセル内のサブピクセル寄与に基づいて、アウェイクラスター(すなわち、そのピクセルによって強度発光が表現される非ホームクラスター)とは対照的に、低減させることができる。5つのサブピクセルがホームクラスターの一部であり、2つのサブピクセルがアウェイクラスターの一部であると仮定する。そのとき、7つのサブピクセルは、ホーム又はアウェイクラスターの強度に寄与する。ホームクラスターに焦点がある間、一実施態様では、重複ピクセルは、16個のサブピクセルのうちの7つがホーム又はアウェイクラスターの強度に寄与するため、7/16で強度を低減させられる。別の実施態様では、強度は、サブピクセルの総数によって除したホームクラスターに寄与するサブピクセルの面積に基づいて、5/16で低減させられる。第3の実施態様では、強度は、寄与するサブピクセルの総面積によって除したホームクラスターに寄与するサブピクセルの面積に基づいて、5/7で低減させられる。後者の2つの計算は、焦点がアウェイクラスターに移ると変化し、分子に「2」を有する分数をもたらす。
当然ながら、距離チャネルがクラスター形状のサブピクセルマップと共に考慮されている場合、強度の更なる低減を適用することができる。
分類の焦点であるクラスターのためのピクセル強度がテンプレート画像を使用して修正されると、修正されたピクセル値は、ニューラルネットワークベースの分類器の層によって畳み込みされて、修正された画像を生成する。修正された画像は、継続的な配列決定サイクルにおいて塩基を分類するために使用される。
あるいは、ピクセルドメイン内の分類は、画像のチャンク内の全てのピクセル又は全てのクラスターについて並列に進行することができる。このシナリオでは、中間計算の再利用性を保証するために、ピクセル値の1つの修正のみを適用することができる。上記の分数のいずれも、強度のより小さい又はより大きい減衰が望まれるかどうかに応じて、ピクセル強度を変更するために使用することができる。
画像チャンクのためのピクセル強度がテンプレート画像を使用して修正されると、ピクセル及び周囲コンテキストは、ニューラルネットワークベースの分類器の層によって畳み込みされて、修正された画像を生成することができる。画像チャンク上で畳み込みを実行することにより、共有されたコンテキストを有するピクセル間での中間計算の再利用が可能になる。修正された画像は、継続的な配列決定サイクルにおいて塩基を分類するために使用される。
この説明は、サブピクセルドメイン内での面積重みの適用のために並列化することができる。この並列とは、個々のサブピクセルについて重みを計算することができるということである。重みは、光学ピクセルの異なるサブピクセル部分について同じになり得るが、必ずしもそうである必要はない。重複ピクセルのサブピクセルがそれぞれ5つ及び2つである、ホーム及びアウェイクラスターの上記のシナリオを繰り返すと、ホームクラスターに属するサブピクセルへの強度の割り当ては、ピクセル強度の7/16、5/16又は5/7とすることができる。この場合もやはり、距離チャネルがクラスター形状のサブピクセルマップと共に考慮されている場合、強度の更なる低減を適用することができる。
画像チャンクのためのピクセル強度がテンプレート画像を使用して修正されると、サブピクセル及び周囲コンテキストは、ニューラルネットワークベースの分類器の層によって畳み込みされて、修正された画像を生成することができる。画像チャンク上で畳み込みを実行することにより、共有されたコンテキストを有するサブピクセル間での中間計算の再利用が可能になる。修正された画像は、継続的な配列決定サイクルにおいて塩基を分類するために使用される。
別の代替例は、サブピクセルドメイン内に補間された画像データにテンプレート画像をサブピクセルドメイン内で2値マスクとして適用することである。テンプレート画像は、クラスター間の背景ピクセルを必要とするか、又は異なるクラスターからのサブピクセルが当接することを可能にするかのいずれかになるように配置することができる。テンプレート画像は、マスクとして適用することができる。このマスクは、補間されたピクセルがテンプレート画像内で背景として分類されると、その補間されたピクセルが、補間によって割り当てられた値を保持するか、又は背景値(例えば、ゼロ)を受け入れるかどうかを決定する。
この場合もやはり、画像チャンクのためのピクセル強度がテンプレート画像を使用してマスクされると、サブピクセル及び周囲コンテキストは、ニューラルネットワークベースの分類器の層によって畳み込みされて、修正された画像を生成することができる。画像チャンク上で畳み込みを実行することにより、共有されたコンテキストを有するサブピクセル間での中間計算の再利用が可能になる。修正された画像は、継続的な配列決定サイクルにおいて塩基を分類するために使用される。
開示される技術の特徴は、共有されたコンテキスト内で任意の数のクラスターを分類し、中間計算を再利用するために、組み合わせることができる。光学ピクセル解像度において、一実施態様では、約10パーセントのピクセルが、分類されるクラスター中心を保持する。レガシーシステムでは、不規則な形状のクラスターが観察されると、3×3個の光学ピクセルが、クラスター中心のための潜在的な信号寄与因子として分析のためにグループ化された。最上位の畳み込み層から離れた1つの3×3フィルタであっても、クラスター密度は、実質的に半分よりも多くの光学ピクセルからの光信号をクラスター中心のピクセル内にロールアップする傾向にある。スーパーサンプリングされた解像度においてのみ、最上位の畳み込み層のためのクラスター中心密度は、1パーセント未満に低下する。
共有されたコンテキストは、いくつかの実施態様ではかなり大きい。例えば、15×15光学ピクセルコンテキストが、正確な塩基分類に寄与し得る。同等の4倍アップサンプリングされたコンテキストは、60×60個のサブピクセルになるであろう。この広大なコンテキストは、ニューラルネットワークが撮像中に不均一な照明及び背景の影響を認識するのに役立つ。
開示される技術は、テンプレート入力内のクラスター境界をデジタル画像入力内で検出された境界と組み合わせるために、下位の畳み込み層において小さなフィルタを使用する。クラスター境界は、ニューラルネットワークが背景条件から信号を分離し、画像処理を背景に対して正規化するのを助ける。
開示された技術は、中間計算を実質的に再利用する。20~25個のクラスター中心が15×15個の光学ピクセルのコンテキスト領域内に現れると仮定する。そのとき、第1の層の畳み込みが、ブロック単位の畳み込みロールアップにおいて20~25回再利用される。再利用率は、最後から2番目の層に至るまで層ごとに低減されていき、最後から2番目の層において、光学解像度における再利用率が初めて1倍未満に低下する。
複数の畳み込み層からのブロック単位のロールアップ訓練及び推論は、ピクセル又はサブピクセルのブロックに継続的なロールアップを適用する。ブロック周辺部の周囲には、第1のデータブロックのロールアップ中に使用されるデータがロールアップの第2のブロックと重なっており、ロールアップの第2のブロックのために再利用することができる、重複ゾーンが存在する。ブロック内には、重複ゾーンによって囲まれた中心領域において、ロールアップすることができ、かつ再利用することができる、ピクセル値及び中間計算が存在する。重複ゾーンを用いると、コンテキストフィールドのサイズを(例えば3×3フィルタの適用によって15×15から13×13に)漸進的に低減させる畳み込み結果は、畳み込みされた値を保持する同じメモリブロック内に書き込むことができ、ブロック内での基礎計算の再利用を損なうことなくメモリを節約する。より大きなブロックでは、重複ゾーン内の中間計算を共有することは、より少ないリソースを必要とする。より小さいブロックでは、複数のブロックを並列に計算して、重複ゾーン内の中間計算を共有することが可能であり得る。
より大きなフィルタ及び拡張は、下位の畳み込み層がテンプレート及び/又はデジタル画像データ内のクラスター境界に反応した後、畳み込み層の数を低減し、これは、分類を損なうことなく速度計算であり得る。
テンプレートデータのための入力チャネルは、デジタル画像フィールド内の複数のクラスター中心を分類することと一貫性のあるテンプレート構造体を作製するように選択することができる。上記の2つの代替例は、この一貫性基準、すなわち、コンテキスト全体にわたってリフレームし、距離マッピングすることを満たさない。リフレームすることは、1つのクラスターのみの中心を光学ピクセルの中心に配置する。複数のクラスターを分類するためにより良好であるのは、クラスター中心を保持していると分類されるピクセルのために中心オフセットを供給することである。
距離マッピングは、提供される場合、全てのピクセルがそれぞれ独自の距離マップをコンテキスト全体にわたって有しない限り、コンテキスト領域全体にわたって実行することは困難である。より単純な距離マップは、デジタル画像入力ブロックから複数のクラスターを分類するための有用な一貫性を提供する。
ニューラルネットワークは、クラスターの境界におけるピクセル又はサブピクセルのテンプレート内の分類から学習することができ、そのため、距離チャネルは、クラスター中心オフセットチャネルを伴った、2値又は3値分類を供給するテンプレートに置き換えることができる。距離マップは、使用される場合、ピクセル(又はサブピクセル)が属するクラスター中心からのピクセルの距離を与えることができる。又は距離マップは、最も近いクラスター中心までの距離を与えることができる。距離マップは、背景ピクセルに割り当てられたフラグ値で2値分類を符号化することができ、又はピクセル分類からの別個のチャネルとすることができる。クラスター中心オフセットと組み合わされると、距離マップは、3値分類を符号化することができる。いくつかの実施態様、特に1又は2ビットでピクセル分類を符号化する実施態様では、少なくとも開発中に、ピクセル分類のために及び距離のために別個のチャネルを使用することが望ましい場合がある。
開示される技術は、上位層内でいくらかの計算リソースを節約するために計算の低減を含むことができる。クラスター中心オフセットチャネル又は3値分類マップは、ピクセル中心の最終分類に寄与しないピクセル畳み込みの中心を識別するために使用することができる。多くのハードウェア/ソフトウェア実装では、推論中にルックアップを実行し、畳み込みロールアップをスキップすることは、更に9つの乗算及び8つの加算を実行して3×3フィルタを適用するよりも、上位層において効率を向上させることができる。並列実行のために計算をパイプライン処理するカスタムハードウェアでは、全てのピクセルをパイプライン内でそれぞれ分類することができる。そのとき、クラスター中心マップは、クラスター中心と一致するピクセルのみについて結果を収集するために、それらのピクセルに対して最終分類のみが所望されることから、最終の畳み込み後に使用することができる。この場合もやはり、光学ピクセルドメイン内では、現在観察されているクラスター密度において、約10パーセントのピクセルのためのロールアップされた計算が収集される。4倍アップサンプリングされたドメイン内では、最上位層内でのサブピクセル分類のうちの1パーセント未満が収集されるため、より多くの層が、一部のハードウェア上において、スキップされた畳み込みから利益を得ることができる。
ニューラルネットワークベースのベースコール
図1は、一実施態様による、ベースコールするためにRTAベースコーラーによって使用される処理段階を示す。図1はまた、2つの実施態様による、ベースコールするために、開示されるニューラルネットワークベースのベースコーラーによって使用される処理段階も示す。図1に示すように、ニューラルネットワークベースのベースコーラー218は、RTAベースコーラーによって使用される処理段階の多くを不要にすることによって、ベースコールプロセスを合理化することができる。合理化することにより、ベースコール精度及びスケールが改善する。ニューラルネットワークベースのベースコーラー218の第1の実施態様では、ベースコーラーは、ニューラルネットワークベースのテンプレート生成器1512の出力から識別されたクラスター中心の場所/位置情報を使用してベースコールを実行する。第2の実施態様では、ニューラルネットワークベースのベースコーラー218は、ベースコールするためにクラスター中心の場所/位置情報を使用しない。第2の実施態様は、パターン化されたフローセル設計がクラスター生成に使用されるときに使用される。パターン化されたフローセルは、既知の基準位置に対して正確に位置付けられ、かつパターン化されたフローセル上に事前配置されたクラスター分布を提供する、ナノウェルを含む。他の実施態様では、ニューラルネットワークベースのベースコーラー218は、ランダムなフローセル上に生成されたクラスターをベースコールする。
ここからは、ニューラルネットワークが配列決定画像をマッピングしてベースコールするように訓練されているニューラルネットワークベースのベースコールについて説明する。議論は、以下のように整理される。最初に、ニューラルネットワークへの入力について説明する。次に、ニューラルネットワークの構造及び形態について説明する。最後に、ニューラルネットワークの出力について説明する。
入力
図2は、ニューラルネットワーク206を使用してベースコールする一実施態様を示す。
主入力:画像チャネル
ニューラルネットワーク206への主入力は、画像データ202である。画像データ202は、配列決定実行中に配列決定器222によって生成された配列決定画像108から導出される。一実施態様では、画像データ202は、配列決定画像222から抽出されたn×n個の画像パッチを含み、nは1~10,000の範囲の任意の数である。配列決定実行は、対応するm個の画像チャネルのために配列決定サイクルごとにm個の画像を生成し、画像パッチは、特定の配列決定サイクルのための画像データを調製するためにm個の画像のそれぞれから抽出される。4、2、及び1チャネルケミストリーなどの異なる実施態様では、mは4又は2である。他の実施態様では、mは、1、3、又は4超である。画像データ202は、いくつかの実施態様では光学的なピクセルドメイン内にあり、他の実施態様ではアップサンプリングされたサブピクセルドメイン内にある。
画像データ202は、複数の配列決定サイクル(例えば、現在の配列決定サイクル、1つ又はそれ以上の先行する配列決定サイクル、及び1つ又はそれ以上の継続的な配列決定サイクル)のためのデータを含む。一実施態様では、画像データ202は、ベースコールされる現在(時間t)の配列決定サイクルのためのデータが、(i)左側フランキング/コンテキスト/前の/先行する/先の(時間t-1の)配列決定サイクルのためのデータ及び(ii)右側フランキング/コンテキスト/次の/継続的な/後続の(時間t+1の)配列決定サイクルのためのデータを伴うように、3個の配列決定サイクルのためのデータを含む。他の実施態様では、画像データ202は、単一の配列決定サイクルのためのデータを含む。
画像データ202は、1つ又はそれ以上のクラスター及びそれらの周囲背景の強度発光を表現する。一実施態様では、単一のターゲットクラスターがベースコールされる場合、画像パッチは、本明細書において「ターゲットクラスター中心化パッチ抽出」と称される概念である、各画像パッチがその中心ピクセル内にターゲットクラスターの中心を含むような方法で、配列決定画像108から抽出される。
画像データ202は、入力データ204内で強度チャネル(画像チャネルとも呼ばれる)を使用して符号化される。特定の配列決定サイクルのために配列決定器222から取得されたm個の画像のそれぞれについて、その強度データを符号化するために別個の画像チャネルが使用される。例えば、配列決定実行が、各配列決定サイクルにおいて赤色画像及び緑色画像を生成する2チャネルケミストリーを使用し、そのとき、入力データ204は、(i)赤色画像内に捕捉された1つ又はそれ以上のクラスター及びそれらの周囲背景の強度発光を表現するnxn個のピクセルを有する第1の赤色画像チャネルと、(ii)緑色画像内に捕捉された1つ又はそれ以上のクラスター及びそれらの周囲背景の強度発光を表現するnxn個のピクセルを有する第2の緑色画像チャネルと、を含むと、考える。
一実施態様では、バイオセンサーは、光センサーのアレイを備える。光センサーは、バイオセンサーの検出表面上の対応するピクセル領域(例えば、反応部位/ウェル/ナノセル)からの情報を感知するように構成されている。ピクセル領域内に配設された分析物は、ピクセル領域、すなわち、関連する分析物と関連付けられると言われる。配列決定サイクルでは、ピクセル領域に対応する光センサーは、関連する検体からの発光/光子を検出/捕捉/検知するように構成され、それに応じて、画像化されたチャネルごとにピクセル信号を生成するように構成される。一実施態様では、各撮像チャネルは、複数のフィルタ波長帯域のうちの1つに対応する。別の実施態様では、各撮像チャネルは、配列決定サイクルで複数の撮像イベントのうちの1つに対応する。更に別の実施態様では、各撮像チャネルは、特定のレーザーを用いた照明と特定の光学フィルタを通した撮像との組み合わせに対応する。
光センサーからのピクセル信号は、(例えば、通信ポートを介して)バイオセンサーに結合された信号プロセッサに伝達される。各配列決定サイクル及び各画像化チャネルについて、信号プロセッサは、ピクセルが対応する光センサーから得られるピクセル信号をそれぞれ描写/含有/示す/表す/特徴付ける画像を生成する。このようにして、画像内のピクセルは、(i)ピクセルによって表されるピクセル信号を生成したバイオセンサーの光センサーと、(ii)対応する光センサーによって放射が検出され、ピクセル信号に変換された関連分析物と、(iii)関連分析物を保持するバイオセンサーの検出表面上のピクセル領域と、に対応する。
例えば、配列決定動作が2つの異なる画像化チャネル:赤色チャネル及び緑色チャネルを使用すると考える。次いで、各配列決定サイクルにおいて、信号プロセッサは、赤色画像及び緑色画像を生成する。このようにして、配列決定実行の一連のk配列決定サイクルについて、赤色画像及び緑色画像のk対を有するシーケンスが出力として生成される。
赤色画像及び緑色画像(すなわち、異なる画像化チャネル)内のピクセルは、配列決定サイクル内で1対1の対応を有する。これは、一対の赤色画像及び緑色画像内の対応するピクセルが、異なる画像化チャネル内にある同じ関連する検体の強度データを示すことを意味する。同様に、赤色画像及び緑色画像の対にわたるピクセルは、配列決定サイクル間に1対1の対応を有する。これは、赤色画像及び緑色画像の異なるペア内の対応するピクセルが、配列決定実行の異なる獲得イベント/タイムステップ(配列決定サイクル)に関して、同じ関連する分析物の強度データを示すことを意味する。
赤色画像及び緑色画像(すなわち、異なる画像化チャネル)内の対応するピクセルは、第1の赤色チャネル及び第2の緑チャネル内の強度データを表す、「サイクルごとの画像」のピクセルと見なすことができる。ピクセルがピクセルエリアのサブセットのピクセル信号、すなわち、バイオセンサーの検出面の領域(タイル)を描写するサイクルごとの画像は、「サイクルごとのタイル画像」と呼ばれる。サイクルごとのタイル画像から抽出されたパッチは、「サイクルごとの画像パッチ」と呼ばれる。一実施態様では、パッチ抽出は、入力準備者によって実行される。
画像データは、配列決定実行の一連のkシーケンスサイクルのために生成された一連のサイクルごとの画像パッチを含む。サイクルごとの画像パッチ内のピクセルは、関連する検体のための強度データを含み、強度データは、関連付けられた検体からの排出を検出するように構成された対応する光センサーによって、1つ又はそれ以上の画像化チャネル(例えば、赤色チャネル及び緑色チャネル)のために取得される。一実施態様では、単一のターゲットクラスターをベースとする場合、サイクルごとの画像パッチは、標的関連検体及び非中心ピクセルに関する強度データを含む中心ピクセルで中心に置かれ、サイクルごとの画像パッチ内の非中心ピクセルは、標的関連検体に隣接する関連する検体の強度データを含む。一実施態様では、画像データは、入力準備者によって調製される。
非画像データ
別の実施態様では、ニューラルネットワークベースのベースコーラー218及びニューラルネットワークベースの品質スコアラー6102への入力データは、分子延長中の水素イオンの放出によって誘発されるpH変化に基づく。pH変化は検出され、組み込まれた塩基の数に比例する電圧変化に変換される(例えば、Ion Torrentの場合)。
更に別の実施態様では、ニューラルネットワークベースのベースコーラー218及びニューラルネットワークベースの品質スコアラー6102への入力データは、塩基を同定しながら分析物がナノ細孔の中又はその開口部付近を通過する際の電流の中断を測定するためにバイオセンサーを使用するナノ細孔検知から構築される。例えば、Oxford Nanopore Technologies(ONT)配列決定は、以下の概念に基づく:ナノ細孔を介して膜を介してDNA(又はRNA)の単一鎖を通過させ、膜にわたって電位差を印加する。細孔内に存在するヌクレオチドは、細孔の電気抵抗に影響を及ぼし、そのため、経時的な電流測定は、細孔を通過するDNA塩基の配列を示すことができる。この電流信号(プロットされたときにその外観に起因する「押しつぶし」)は、ONTシーケンサによって収集された生データである。これらの測定値は、4kHz周波数(例えば)で取られた16ビットの整数データ取得(DAC)値として記憶される。1秒当たり~450塩基対のDNA鎖速度を用いて、これは、平均して、塩基当たり約9つの生観察を与える。次いで、この信号を処理して、個々の読み取りに対応する開孔信号の破断を特定する。これらの生信号の伸長は、ベースと呼ばれ、DAC値をDNA塩基の配列に変換するプロセスである。いくつかの実施態様では、入力データは、正規化又はスケーリングされたDAC値を含む。
補足的な入力:距離チャネル
画像データ202は、補足的な距離データ(距離チャネルとも呼ばれる)を伴う。距離チャネルは、画像チャネルから生成された特徴マップに組み込まれる加法的バイアスを供給する。この加法的バイアスは、ピクセル中心-クラスター中心間の距離に基づいていることからベースコール精度に寄与し、ピクセル中心-クラスター中心間の距離は、距離チャネル内にピクセル単位で符号化されている。
「単一のターゲットクラスター」ベースコール実施態様では、入力データ204内の各画像チャネル(画像パッチ)について、補足的な距離チャネルは、その中心ピクセルを含み、かつベースコールされるターゲットクラスターの中心からのそのピクセルの中心の距離を識別する。それにより、距離チャネルは、画像パッチの中心ピクセルからの画像パッチのピクセルのそれぞれの距離を示す。
「マルチクラスター」ベースコール実施態様では、入力データ204内の各画像チャネル(画像パッチ)について、補足的な距離チャネルは、ピクセルとクラスターのそれぞれとの間の中心間距離に基づいて選択されるクラスターのうちの最も近いクラスターからの各ピクセルの中心間距離を識別する。
「マルチクラスター形状ベース」ベースコール実施態様では、入力データ204内の各画像チャネル(画像パッチ)について、補足的な距離チャネルは、1つのクラスターのみに対して各クラスターピクセルを分類することに基づいて選択される割り当てられたクラスターからの各クラスターピクセルの中心間距離を識別する。
補足的な入力:スケーリングチャネル
画像データ202は、異なるクラスターサイズ及び不均一な照明条件を考慮する補足的なスケーリングデータ(スケーリングチャネルとも呼ばれる)を伴う。スケーリングチャネルもまた、画像チャネルから生成された特徴マップに組み込まれる加法的バイアスを供給する。この加法的バイアスは、中央クラスターピクセルの平均強度に基づくため、ベースコール精度に寄与し、この平均強度は、スケーリングチャネル内にピクセル単位で符号化されている。
補足的な入力:クラスター中心座標
いくつかの実施態様では、ニューラルネットワークベースのテンプレート生成器1512の出力から識別されたクラスター中心の場所/位置情報216(例えば、x-y座標)は、ニューラルネットワーク206に補足的な入力として供給される。
補足的な入力:クラスター帰属情報
いくつかの実施態様では、ニューラルネットワーク206は、どのピクセル又はサブピクセルが、同じクラスターを表現する/に寄与する/に属する背景ピクセル又はサブピクセル、クラスター中心ピクセル又はサブピクセル、及びクラスター/クラスター内部ピクセル又はサブピクセルであるかを分類するクラスター帰属情報を補足的な入力として受信する。他の実施態様では、減衰マップ、2値マップ、及び/若しくは3値マップ、又はそれらの変形が、ニューラルネットワーク206への補足的な入力として供給される。
前処理:強度修正
いくつかの実施態様では、入力データ204は距離チャネルを含んでいないが、代わりにニューラルネットワーク206が、ニューラルネットワークベースのテンプレート生成器1512 1512の出力、すなわち、減衰マップ、2値マップ、及び/又は3値マップに基づいて修正される修正された画像データを入力として受信する。このような実施態様では、画像データ202の強度は、距離チャネルの不在を考慮するように修正される。
他の実施態様では、画像データ202は、1つ又はそれ以上のロスレス変換動作(例えば、畳み込み、逆畳み込み、フーリエ変換)に供され、結果として得られる修正された画像データは、ニューラルネットワーク206への入力として供給される。
ネットワーク構造及び形態
ニューラルネットワーク206は、本明細書において「ニューラルネットワークベースのベースコーラー」218とも称される。一実施態様では、ニューラルネットワークベースのベースコーラー218は、多層パーセプトロン(MLP)である。別の実施態様では、ニューラルネットワークベースのベースコーラー218は、フィードフォワードニューラルネットワークである。更に別の実施態様では、ニューラルネットワークベースのベースコーラー218は、全結合型ニューラルネットワークである。更なる実施態様では、ニューラルネットワークベースのベースコーラー218は、完全畳み込みニューラルネットワークである。また更なる実施態様では、ニューラルネットワークベースのベースコーラー218は、セマンティックセグメンテーションニューラルネットワークである。
一実施態様では、ニューラルネットワークベースのベースコーラー218は、複数の畳み込み層を有する畳み込みニューラルネットワーク(CNN)である。別の実施態様では、長・短期記憶ネットワーク(LSTM)、双方向LSTM(Bi-LSTM)、又はゲート付き回帰型ユニット(GRU)などの反復ニューラルネットワーク(RNN)である。更に別の実施態様では、CNN及びRNNの両方を含む。
更に他の実施態様では、ニューラルネットワークベースのベースコーラー218は、1D重畳、2D重畳、3D重畳、4D重畳、5D重畳、拡張又は無性重畳、転置重畳、奥行分離可能な重畳、点単位の重畳、1×1重畳、グループ重畳、扁平重畳、空間及びクロスチャネルの重畳、シャッフルされたグループ化重畳、空間的な分離可能な重畳、並びに逆重畳を使用することができる。それは、ロジスティック回帰/対数損失、多クラスクロスエントロピー/ソフトマックス損失、二値クロスエントロピー損失、平均二乗誤差損失、L1損失、L2損失、平滑L1損失、及びHuber損失などの1つ又はそれ以上の損失機能を使用することができる。それは、TFRecord、圧縮符号化(例えば、PNG)、シャープ化、マップ変換に対する平行コール、バッチング、プリフェッチ、モデル並列、データ並列、及び同期/非同期SGDのような、任意の並列、効率、及び圧縮方式を使用することができる。これは、アップサンプリング層、ダウンサンプリング層、反復接続、ゲート及びゲートされたメモリユニット(LSTM又はGRUなど)、残留ブロック、残留接続、ハイウェイ接続、スキップ接続、ペエホル接続、アクティブ化機能(例えば、非線形変換関数は、整流線形ユニット(ReLU)、漏れやすいReLU、指数関数的ライナーユニット(ELU)、シグモイド及び双曲線正接(tanh))、バッチ正規化層、規則化層、ドロップアウト、プール層(例えば、最大又は平均プール)、グローバル平均プール層、及び注意機構のような非線形変換機能を含む。
ニューラルネットワークベースのベースコーラー218は、入力データ204を処理し、入力データ204の代替表現208を生成する。代替表現208は、いくつかの実施態様では畳み込み表現であり、他の実施態様では隠れ表現である。次いで、代替表現208は、出力層210によって処理され、出力212を生成する。出力212は、以下に説明するように、ベースコールを生成するために使用される。
出力
一実施態様では、ニューラルネットワークベースのベースコーラー218は、特定の配列決定サイクルのために、単一のターゲットクラスターのためのベースコールを出力する。別の実施態様では、特定の配列決定サイクルのために、複数のターゲットクラスター内の各ターゲットクラスターのためのベースコールを出力する。更に別の実施態様では、複数の配列決定サイクル内の各配列決定サイクルのために、複数のターゲットクラスター内の各ターゲットクラスターのためのベースコールを出力し、それによって、各ターゲットクラスターのためのベースコール配列を生成する。
距離チャネル計算
ここからは、距離チャネルの距離値を計算する際に使用するクラスター中心の適切な場所/位置情報(例えば、x-y座標)がどのように取得されるかについて説明する。
座標のダウンスケーリング
図3は、ニューラルネットワークベースのテンプレート生成器1512の出力から識別されたクラスター中心の場所/位置情報をサブピクセルドメインからピクセルドメインに変換する一実施態様である。
クラスター中心の場所/位置情報は、ニューラルネットワークベースのベースコールのために、少なくとも、(i)ベースコールされるターゲットクラスターの中心を中心ピクセル内に含む配列決定画像108からの画像パッチを抽出することによって入力データを構築するために、(ii)画像パッチの中心ピクセルに含まれるターゲットクラスターの中心からの画像パッチのピクセルの中心の距離を識別する距離チャネルを構築するために、及び/又は(iii)ニューラルネットワークベースのベースコーラー218への補足的な入力216として、使用される。
いくつかの実施態様では、クラスター中心の場所/位置情報は、アップサンプリングされたサブピクセル解像度でニューラルネットワークベースのテンプレート生成器1512の出力から識別される。しかしながら、いくつかの実施態様では、ニューラルネットワークベースのベースコーラー218は、光学ピクセル解像度の画像データ上で動作する。したがって、一実施態様では、クラスター中心の場所/位置情報は、ニューラルネットワークベースのテンプレート生成器1512への入力として供給される画像データをアップサンプリングするために使用されるのと同じアップサンプリング係数でクラスター中心の座標をダウンスケーリングすることによってピクセルドメインに変換される。
例えば、ニューラルネットワークベースのテンプレート生成器1512への入力として供給される画像パッチデータが、いくつかの初期配列決定サイクルからの配列決定画像108をアップサンプリング係数fでアップサンプリングすることによって導出されると考える。そのとき、一実施態様では、ポストプロセッサ1814によるニューラルネットワークベースのテンプレート生成器1512によって生成され、テンプレート/テンプレート画像304に記憶された、クラスター中心302の座標は、f(除数)で除される。これらのダウンスケーリングされたクラスター中心座標は、本明細書において「参照クラスター中心」308と称され、テンプレート/テンプレート画像304内に記憶される。一実施態様では、ダウンスケーリングは、ダウンスケーラー306によって実施される。
座標の変換
図4は、サイクル固有及び画像チャネル固有の変換を使用して参照クラスター中心308からいわゆる「変換されたクラスター中心」404を導き出す一実施態様である。このようにする動機について、最初に議論する。
異なる配列決定サイクルで撮影された配列決定画像は、位置がずれていて、互いに対してランダムな並進オフセットを有する。これは、センサーの運動段階の動きの有限の精度に起因し、また、異なる画像/周波数チャネルで撮影された画像は、異なる光路及び波長を有するためでもある。その結果、参照クラスター中心と、配列決定画像内のクラスター中心の場所/位置との間にオフセットが存在する。このオフセットは、異なる配列決定サイクルにおいて捕捉された画像間、及び異なる画像チャネル内で同じ配列決定サイクルにおいて捕捉された画像内で変化する。
このオフセットを考慮するために、サイクル固有及び画像チャネル固有の変換が参照クラスター中心に適用されて、各配列決定サイクルの画像パッチのためのそれぞれの変換されたクラスター中心を生成する。サイクル固有及び画像チャネル固有の変換は、画像相関を使用して、完全な6パラメータのアフィン変換(例えば、並進、回転、スケーリング、剪断、右反射、左反射)又はプロクラステス変換(例えば、並進、回転、スケーリング、任意選択的にアスペクト比に拡張される)を決定する画像レジストレーションプロセスによって導出され、その更なる詳細は、付録1、2、3、及び4に見出すことができる。
例えば、4つのクラスター中心のための参照クラスター中心が(x,y);(x,y);(x,y);(x,y)であり、配列決定実行が、各配列決定サイクルにおいて赤色画像及び緑色画像を生成する2チャネルケミストリーを使用する、と考える。そのとき、例示的な配列決定サイクル3では、サイクル固有及び画像チャネル固有の変換は、赤色画像に対して
Figure 2022526470000002
であり、緑色画像に対して
Figure 2022526470000003
である。
同様に、例示的な配列決定サイクル9では、サイクル固有及び画像チャネル固有の変換は、赤色画像に対して
Figure 2022526470000004
であり、緑色画像に対して
Figure 2022526470000005
である。
そして、配列決定サイクル3の赤色画像のための変換されたクラスター中心
Figure 2022526470000006
は、参照クラスター中心(x,y);(x,y);(x,y);(x,y)に変換
Figure 2022526470000007
を適用することによって導き出され、配列決定サイクル3の緑色画像のための変換されたクラスター中心
Figure 2022526470000008
は、参照クラスター中心(x,y);(x,y);(x,y);(x,y)に変換
Figure 2022526470000009
を適用することによって導き出される。
同様に、配列決定サイクル9の赤色画像のための変換されたクラスター中心
Figure 2022526470000010
は、参照クラスター中心(x,y);(x,y);(x,y);(x,y)に変換
Figure 2022526470000011
を適用することによって導き出され、配列決定サイクル9の緑色画像のための変換されたクラスター中心
Figure 2022526470000012
は、参照クラスター中心(x,y);(x,y);(x,y);(x,y)に変換
Figure 2022526470000013
を適用することによって導き出される。
一実施態様では、変換は、変換器402によって実施される。
変換されたクラスター中心404は、テンプレート/テンプレート画像304内に記憶され、(i)対応する配列決定画像108からのパッチ抽出を(例えば、パッチ抽出器406によって)行うために、(ii)距離式
Figure 2022526470000014
で対応する画像パッチのための距離チャネルを計算するために、及び(iii)ベースコールされている対応する配列決定サイクルのためのニューラルネットワークベースのベースコーラー218への補足的な入力として、それぞれ使用される。他の実施態様では、距離の2乗、e^距離、及びe^(距離の2乗)などの異なる距離式を使用することができる。
画像パッチ
図5は、ニューラルネットワークベースのベースコーラー218に供給される入力データの一部である画像パッチ502を示す。入力データは、配列決定実行の一連の配列決定サイクルのために生成されたサイクルごとの画像パッチセットのシーケンスを含む。シーケンス内の各サイクルごとの画像パッチセットは、1つ又はそれ以上の画像チャネルのそれぞれ1つのための画像パッチを有する。
例えば、配列決定実行が、各配列決定サイクルにおいて赤色画像及び緑色画像を生成する2チャネルケミストリーを使用し、入力データが、配列決定実行の一連の3つの配列決定サイクル、すなわち、ベースコールされる現在(時間t)の配列決定サイクル、前(時間t-1)の配列決定サイクル、及び次(時間t+1)の配列決定サイクルにわたるデータを含む、と考える。
そのとき、入力データは、以下のサイクルごとの画像パッチセットのシーケンスを含む:現在の赤色画像パッチ及び現在の緑色画像パッチが現在の配列決定サイクルにおいて捕捉された赤色及び緑色の配列決定画像からそれぞれ抽出されている現在のサイクルの画像パッチセット、前の赤色画像パッチ及び前の緑色画像パッチが前の配列決定サイクルにおいて捕捉された赤色及び緑色の配列決定画像からそれぞれ抽出されている前のサイクルの画像パッチセット、並びに次の赤色画像パッチ及び次の緑色画像パッチが次の配列決定サイクルにおいて捕捉された赤色及び緑色の配列決定画像からそれぞれ抽出されている次のサイクルの画像パッチセット。
各画像パッチのサイズはn×nとすることができ、nは1~10,000の範囲の任意の数とすることができる。各画像パッチは、光学ピクセルドメイン内、又はアップサンプリングされたサブピクセルドメイン内にあることができる。図5に示す実施態様では、抽出された画像ページ502は、複数のクラスター1~m及びそれらの周囲背景を覆う/表現するピクセルについてのピクセル強度データを有する。また、図示された実施態様では、画像パッチ502は、その中心ピクセル内に、ベースコールされているターゲットクラスターの中心を含むような方法で、抽出される。
図5では、ピクセル中心は黒い矩形によって表現され、整数の場所/位置座標を有しており、クラスター中心は紫色の円によって表現され、浮動小数点数の場所/位置座標を有する。
単一のターゲットクラスターのための距離計算
図6は、単一のターゲットクラスターがニューラルネットワークベースのベースコーラー218によってベースコールされているときに距離チャネルのための距離値602を決定する一実施態様を示す。ターゲットクラスターの中心は、ニューラルネットワークベースのベースコーラー218への入力として供給される画像パッチの中心ピクセル内に含まれている。距離値は、各ピクセルについて、その中心とターゲットクラスターの中心との間の距離が決定されるように、ピクセルごとに計算される。したがって、距離値は、入力データの一部である画像パッチのそれぞれ内の各ピクセルについて計算される。
図6は、特定の画像パッチのための3つの距離値d1、dc、及びdnを示す。一実施態様では、距離値602は、距離式
Figure 2022526470000015
を使用して計算され、これは、変換されたクラスター中心404上で動作する。他の実施態様では、距離の2乗、e^距離、及びe^(距離の2乗)などの異なる距離式を使用することができる。
他の実施態様では、画像パッチが、アップサンプリングされたサブピクセル解像度であるとき、距離値602は、サブピクセルドメイン内で計算される。
したがって、単一のターゲットクラスターベースコール実施態様では、距離チャネルは、ベースコールされているターゲットクラスターに対してのみ計算される。
図7は、ピクセルとターゲットクラスターとの間で計算される距離値602をピクセル単位で符号化すること702の一実施態様を示す。一実施態様では、入力データ内において、距離値602は距離チャネルの一部として、対応する各画像チャネル(画像パッチ)を「ピクセル距離データ」として補足する。赤色画像及び緑色画像が配列決定サイクルごとに生成される実施例に戻ると、入力データは、赤色画像チャネル及び緑色画像チャネルをピクセル距離データとしてそれぞれ補足する赤色距離チャネル及び緑色距離チャネルを含む。
他の実施態様では、画像パッチが、アップサンプリングされたサブピクセル解像度であるとき、距離チャネルは、サブピクセルごとに符号化される。
複数のターゲットクラスターのための距離計算
図8aは、複数のターゲットクラスター1~mがニューラルネットワークベースのベースコーラー218によって同時にベースコールされているときに距離チャネルのための距離値802を決定する一実施態様を示す。距離値は、各ピクセルについて、その中心と複数のクラスター1~mのそれぞれの各中心との間の距離が決定され、最小距離値(赤色)がピクセルに割り当てられるように、ピクセルごとに計算される。
したがって、距離チャネルは、ピクセルとクラスターのそれぞれとの間の中心間距離に基づいて選択されるクラスターのうちの最も近いクラスターからの各ピクセルの中心間距離を識別する。図示された実施態様では、図8aは、2つのピクセル及び4つのクラスター中心に対するピクセル中心-クラスター中心間の距離を示す。ピクセル1はクラスター1に最も近く、ピクセルnはクラスター3に最も近い。
一実施態様では、距離値802は、距離式
Figure 2022526470000016
を使用して計算され、これは、変換されたクラスター中心404上で動作する。他の実施態様では、距離の2乗、e^距離、及びe^(距離の2乗)などの異なる距離式を使用することができる。
他の実施態様では、画像パッチが、アップサンプリングされたサブピクセル解像度であるとき、距離値802は、サブピクセルドメイン内で計算される。
したがって、マルチクラスターベースコール実施態様では、距離チャネルは、複数のクラスターの中から最も近いクラスターに対して計算される。
図8bは、ターゲットクラスター1~mのそれぞれについて、ピクセル中心-最も近いクラスター中心間の距離804(d1、d2、d23、d29、d24、d32、dn、d13、d14など)に基づいて決定されたいくつかの最も近いピクセルを示す。
図9は、ピクセルとクラスターのうちの最も近いクラスターとの間で計算される最小距離値をピクセル単位で符号化すること902の一実施態様を示す。他の実施態様では、画像パッチが、アップサンプリングされたサブピクセル解像度であるとき、距離チャネルは、サブピクセルごとに符号化される。
クラスター形状に基づく複数のターゲットクラスターのための距離計算
図10は、複数のターゲットクラスター1~mがニューラルネットワークベースのベースコーラー218によって同時にベースコールされているときに、本明細書において「クラスター形状データ」又は「クラスター形状情報」と称される、ピクセル-クラスター間の分類/帰属/カテゴリー化1002を使用して、距離チャネルのためのクラスター距離値1102を決定する一実施態様を示す。最初に、以下において、クラスター形状データがどのように生成されるかについて簡単に検討する。
上述したように、ニューラルネットワークベースのテンプレート生成器1512の出力は、同じクラスターを表現する/に寄与する/に属する背景ピクセル、中心ピクセル、及びクラスター/クラスター内部ピクセルとしてピクセルを分類するために使用される。このピクセル-クラスター間の分類情報は、ピクセル中心とクラスター中心との間の距離に関係なく、各ピクセルを1つのクラスターのみに帰属させるために使用され、クラスター形状データとして記憶される。
図10に示す実施態様では、背景ピクセルは灰色に着色され、クラスター1に属するピクセルは黄色に着色され(クラスター1ピクセル)、クラスター2に属するピクセルは緑色に着色され(クラスター2ピクセル)、クラスター3に属するピクセルは赤色に着色され(クラスター3ピクセル)、クラスターmに属するピクセルは青色に着色されている(クラスターmピクセル)。
図11は、クラスター形状データを使用して距離値1102を計算する一実施態様を示す。最初に、クラスター形状を考慮しないで計算された距離情報が誤りを起こしやすい理由について説明する。その後、クラスター形状データがこの制限をどのように克服するかについて説明する。
クラスター形状データを使用しない「マルチクラスター」ベースコール実施態様では(図8a~図8b及び図9)、ピクセルのための中心間距離値は、複数のクラスターの中から最も近いクラスターに対して計算される。ここで、クラスターAに属するピクセルが、クラスターAの中心から遠く離れていて、クラスターBの中心にはより近くにある場合のシナリオを考える。そのような場合、クラスター形状データなしでは、ピクセルは、(ピクセルが実際に属している)クラスターAに対する距離値が割り当てられる代わりに、(ピクセルが属していない)クラスターBに対して計算される距離値を割り当てられる。
「マルチクラスター形状ベース」ベースコール実施態様は、生画像データにおいて定義され、ニューラルネットワークベースのテンプレート生成器1512によって生成されるような、真のピクセル-クラスター間のマッピングを使用することによってこれを回避する。
2つの実施態様間の対比は、ピクセル34及び35に関して見ることができる。図8bでは、ピクセル34及び35の距離値は、クラスター形状データを考慮しないで、クラスター3の最も近い中心に対して計算される。しかしながら、図11では、クラスター形状データに基づいて、ピクセル34及び35の距離値1102は、(それらが実際に属する)クラスター2に対して計算される。
図11において、クラスターピクセルはクラスター強度を表現し、背景ピクセルは背景強度を表現する。クラスター距離値は、クラスターのうちの1つのみに対して各クラスターピクセルを分類することに基づいて選択されるクラスターのうちの割り当てられたクラスターからの各クラスターピクセルの中心間距離を識別する。いくつかの実施態様では、背景ピクセルは、0若しくは0.1、又は何らかの他の最小値など、所定の背景距離値を割り当てられる。
一実施態様では、上述したように、クラスター距離値1102は、距離式
Figure 2022526470000017
を使用して計算され、これは、変換されたクラスター中心404上で動作する。他の実施態様では、距離の2乗、e^距離、及びe^(距離の2乗)などの異なる距離式を使用することができる。
他の実施態様では、画像パッチがアップサンプリングされたサブピクセル解像度であるとき、クラスター距離値1102はサブピクセルドメイン内で計算され、クラスター及び背景帰属1002はサブピクセルごとに生じる。
したがって、マルチクラスター形状ベースベースコール実施態様では、距離チャネルは、複数のクラスターの中から割り当てられたクラスターに対して計算される。割り当てられたクラスターは、生画像データにおいて定義された真のピクセル-クラスター間のマッピングに従ってクラスターのうちの1つのみに対して各クラスターピクセルを分類することに基づいて選択される。
図12は、ピクセルと割り当てられたクラスターとの間で計算される距離値1002をピクセル単位で符号化する一実施態様を示す。他の実施態様では、画像パッチが、アップサンプリングされたサブピクセル解像度であるとき、距離チャネルは、サブピクセルごとに符号化される。
深層学習は、多層ニューラルネットワークを使用する強力な機械学習技術である。コンピュータビジョン及び画像処理ドメインにおける1つの特に成功したネットワーク構造は、畳み込みニューラルネットワーク(CNN)であり、各層が、入力テンソル(画像様の多次元高密度アレイ)から異なる形状の出力テンソルへのフィードフォーワード畳み込み変換を実施する。CNNは、画像の空間コヒーレンス、及び最大3又は4Dのアレイ上で訓練を高速にする汎用のグラフィック処理ユニット(GPU)の出現により、画像様の入力に特に適している。これらの画像様の特性を活用することは、サポートベクターマシン(SVM)又は多層パーセプトロン(MLP)などの他の学習方法と比較して、優れた経験的性能をもたらす。
画像データと補足的な距離及びスケーリングデータとの両方を処理するために、標準的なCNNを増強する特殊化したアーキテクチャを導入する。以下の詳細がある。
特殊化したアーキテクチャ
図13は、異なる配列決定サイクルのためのデータの処理を分離するために使用されるニューラルネットワークベースのベースコーラー218の特殊化したアーキテクチャの一実施態様を示す。特殊化したアーキテクチャを使用する動機について、最初に説明する。
上述したように、ニューラルネットワークベースのベースコーラー218は、現在の配列決定サイクル、1つ又はそれ以上の先行する配列決定サイクル、及び1つ又はそれ以上の継続的な配列決定サイクルのためのデータを処理する。追加の配列決定サイクルのためのデータは、配列特異的なコンテキストを提供する。ニューラルネットワークベースのベースコーラー218は、訓練時に配列特異的なコンテキストを学習し、それらをベースコールする。更に、前及び後の配列決定サイクルのためのデータは、現在の配列決定サイクルにプレフェージング信号及びフェージング信号の2次の寄与を提供する。
空間的な畳み込み層
しかしながら、上述したように、異なる配列決定サイクルにおいて及び異なる画像チャネル内で捕捉された画像は、位置がずれていて、互いに対して残差レジストレーション誤差を有する。この位置ずれを考慮するために、特殊化したアーキテクチャは、配列決定サイクル間で情報を混合せず、配列決定サイクル内でのみ情報を混合する、空間的な畳み込み層を含む。
空間的な畳み込み層は、畳み込みの「専用の共有されていない」シーケンスを介して複数の配列決定サイクルのそれぞれのためのデータを独立して処理することによって分離を操作可能にする、いわゆる「分離された畳み込み」を使用する。分離された畳み込みは、所与の配列決定サイクルのみ、すなわち、イントラサイクルのデータ及び結果として得られる特徴マップにわたって畳み込みを行い、任意の他の配列決定サイクルのデータ及び結果として得られる特徴マップにわたって畳み込みを行うことはない。
例えば、入力データが、(i)ベースコールされる現在(時間t)の配列決定サイクルのための現在のデータ、(ii)前(時間t-1)の配列決定サイクルのための前のデータ、及び(iii)次(時間t+1)の配列決定サイクルのための次のデータを含む、と考える。そのとき、特殊化したアーキテクチャは、3つの別個のデータ処理パイプライン(又は畳み込みパイプライン)、すなわち、現在のデータ処理パイプライン、前のデータ処理パイプライン、及び次のデータ処理パイプラインを開始させる。現在のデータ処理パイプラインは、現在(時間t)の配列決定サイクルのための現在のデータを入力として受信し、それを複数の空間的な畳み込み層によって独立して処理して、いわゆる「現在の空間畳み込み表現」を最終の空間的な畳み込み層の出力として生成する。前のデータ処理パイプラインは、前(時間t-1)の配列決定サイクルのための前のデータを入力として受信し、それを複数の空間的な畳み込み層によって独立して処理して、いわゆる「前の空間畳み込み表現」を最終の空間的な畳み込み層の出力として生成する。次のデータ処理パイプラインは、次(時間t+1)の配列決定サイクルのための次のデータを入力として受信し、それを複数の空間的な畳み込み層によって独立して処理して、いわゆる「次の空間畳み込み表現」を最終の空間的な畳み込み層の出力として生成する。
いくつかの実施態様では、現在、前、及び次の処理パイプラインは並列に実行される。
いくつかの実施態様では、空間的な畳み込み層は、特殊化したアーキテクチャ内の空間的な畳み込みネットワーク(又はサブネットワーク)の一部である。
時間的な畳み込み層
ニューラルネットワークベースのベースコーラー218は、配列決定サイクル間、すなわち、インターサイクルの情報を混合する時間的な畳み込み層を更に含む。時間的な畳み込み層は、空間的な畳み込みネットワークからそれらの入力を受信し、それぞれのデータ処理パイプラインのための最終の空間的な畳み込み層によって生成された空間畳み込み表現上で動作する。
時間的な畳み込み層のインターサイクル動作の自由は、位置ずれ特性(空間的な畳み込みネットワークへの入力として供給される画像データ内に存在する)が、空間的な畳み込み層のシーケンスによって実行される分離された畳み込みのカスケードによって空間畳み込み表現から一掃されるという事実から生じる。
時間的な畳み込み層は、スライディングウィンドウに基づいた継続的な入力内の入力チャネルにわたってグループ単位の畳み込みを行う、いわゆる「組み合わせ畳み込み」を使用する。一実施態様では、継続的な入力は、前の空間的な畳み込み層又は前の時間的な畳み込み層によって生成される継続的な出力である。
いくつかの実施態様では、時間的な畳み込み層は、特殊化したアーキテクチャ内の時間的な畳み込みネットワーク(又はサブネットワーク)の一部である。時間的な畳み込みネットワークは、その入力を空間的な畳み込みネットワークから受信する。一実施態様では、時間的な畳み込みネットワークの最初の時間的な畳み込み層が、配列決定サイクル間の空間畳み込み表現をグループ単位で組み合わせる。別の実施態様では、時間的な畳み込みネットワークの後続の時間的な畳み込み層が、前の時間的な畳み込み層の継続的な出力を組み合わせる。
最終の時間的な畳み込み層の出力は、出力を生成する出力層に供給される。出力は、1つ又はそれ以上の配列決定サイクルにおける1つ又はそれ以上のクラスターをベースコールするために使用される。
以下では、分離された畳み込み及び組み合わせ畳み込みについてより詳細に説明する。
分離された畳み込み
前方伝搬の間、特殊化したアーキテクチャは、複数の入力からの情報を2つの段階で処理する。第1の段階では、入力間の情報の混合を防止するために、分離畳み込みが使用される。第2の段階では、入力間で情報を混合するために、組み合わせ畳み込みが使用される。第2の段階からの結果は、複数の入力に対する単一の推論を行うために使用される。
これは、畳み込み層がバッチ内の複数の入力を同時に処理し、バッチ内の各入力に対して対応する推論を行う、バッチモード技術とは異なる。対照的に、特殊化したアーキテクチャは、複数の入力を単一の推論にマッピングする。単一の推論は、4つの塩基(A、C、T、及びG)のそれぞれについての分類スコアなど、2つ以上の予測を含むことができる。
一実施態様では、入力は、各入力が異なる時間ステップにおいて生成され、複数の入力チャネルを有するように、時間的順序付けを有する。例えば、複数の入力は、以下の3つの入力を含むことができる:時間ステップ(t)における現在の配列決定サイクルによって生成された現在の入力、時間ステップ(t-1)における前の配列決定サイクルによって生成された前の入力、及び時間ステップ(t+1)における次の配列決定サイクルによって生成された次の入力。別の実施態様では、各入力は、それぞれ、1つ又はそれ以上の前の畳み込み層によって現在の、前の、及び次の入力から導出され、k個の特徴マップを含む。
一実施態様では、各入力は、以下の5つの入力チャネルを含むことができる:赤色画像チャネル(赤色)、赤色距離チャネル(黄色)、緑色画像チャネル(緑色)、緑色距離チャネル(紫色)、及びスケーリングチャネル(青色)。別の実施態様では、各入力は、前の畳み込み層によって生成されたk個の特徴マップを含むことができ、各特徴マップは入力チャネルとして処理される。
図14は、分離された畳み込みの一実施態様を示す。分離された畳み込みは、各入力に畳み込みフィルタを並列に適用することによって、複数の入力を一度に処理する。分離された畳み込みでは、畳み込みフィルタは、同じ入力内の入力チャネルを組み合わせ、異なる入力内の入力チャネルは組み合わせない。一実施態様では、各入力に同じ畳み込みフィルタが並列に適用される。別の実施態様では、各入力に異なる畳み込みフィルタが並列に適用される。いくつかの実施態様では、各空間的な畳み込み層は、k個の畳み込みフィルタのバンクを含み、これらのそれぞれが各入力に並列に適用される。
組み合わせ畳み込み
組み合わせ畳み込みは、異なる入力の対応する入力チャネルをグループ化し、各グループに畳み込みフィルタを適用することによって、異なる入力の間で情報を混合する。対応する入力チャネルのグループ化及び畳み込みフィルタの適用は、スライディングウィンドウに基づいて行われる。このコンテキストにおいて、ウィンドウは、例えば、2つの継続的な配列決定サイクルのための出力を表す、2つ以上の継続的な入力チャネルにわたる。このウィンドウはスライディングウィンドウなので、ほとんどの入力チャネルが2つ以上のウィンドウ内で使用される。
いくつかの実施態様では、異なる入力は、先行する空間的又は時間的な畳み込み層によって生成される出力シーケンスに由来する。出力シーケンスにおいて、異なる入力は、継続的な出力として配列されており、したがって、次の時間的な畳み込み層によって継続的な入力であると見なされる。次いで、次の時間的な畳み込み層において、組み合わせ畳み込みは、継続的な入力内の対応する入力チャネルのグループに畳み込みフィルタを適用する。
一実施態様では、継続的な入力は、現在の入力が時間ステップ(t)における現在の配列決定サイクルによって生成され、前の入力が、時間ステップ(t-1)における前の配列決定サイクルによって生成され、次の入力が、時間ステップ(t+1)における次の配列決定サイクルによって生成されるような、時間的順序付けを有する。別の実施態様では、各継続的な入力は、それぞれ、1つ又はそれ以上の前の畳み込み層によって現在の、前の、及び次の入力から導出され、k個の特徴マップを含む。
一実施態様では、各入力は、以下の5つの入力チャネルを含むことができる:赤色画像チャネル(赤色)、赤色距離チャネル(黄色)、緑色画像チャネル(緑色)、緑色距離チャネル(紫色)、及びスケーリングチャネル(青色)。別の実施態様では、各入力は、前の畳み込み層によって生成されたk個の特徴マップを含むことができ、各特徴マップは入力チャネルとして処理される。
畳み込みフィルタの深さBは、スライディングウィンドウに基づいて対応する入力チャネルが畳み込みフィルタによってグループ単位で畳み込みされる、継続的な入力の数に依存する。換言すれば、深さBは、各スライディングウィンドウ内の継続的な入力の数及びグループサイズに等しい。
図15aでは、各スライディングウィンドウ内で2つの継続的な入力からの対応する入力チャネルが組み合わされており、したがって、B=2である。図15bでは、各スライディングウィンドウ内で3つの継続的な入力からの対応する入力チャネルが組み合わされており、したがって、B=3である。
一実施態様では、スライディングウィンドウは、同じ畳み込みフィルタを共有する。別の実施態様では、各スライディングウィンドウに異なる畳み込みフィルタが使用される。いくつかの実施態様では、時間的な畳み込み層は、k個の畳み込みフィルタのバンクを含み、これらのそれぞれがスライディングウィンドウに基づいて継続的な入力に適用される。
フィルタバンク
図16は、各畳み込み層が畳み込みフィルタのバンクを有する、ニューラルネットワークベースのベースコーラー218の畳み込み層の一実施態様を示す。図16では、5つの畳み込み層が示されており、これらのそれぞれは、64個の畳み込みフィルタのバンクを有する。いくつかの実施態様では、各空間的な畳み込み層は、k個の畳み込みフィルタのバンクを有し、kは、1、2、8、64、128、256などの任意の数とすることができる。いくつかの実施態様では、各時間的な畳み込み層は、k個の畳み込みフィルタのバンクを有し、kは、1、2、8、64、128、256などの任意の数とすることができる。
ここからは、補足的なスケーリングチャネル、及びそれがどのように計算されるかについて説明する。
スケーリングチャネル
図17は、画像チャネルを補足するスケーリングチャネルの2つの構成を示す。スケーリングチャネルは、ニューラルネットワークベースのベースコーラー218に供給される入力データ内にピクセル単位で符号化されている。異なるクラスターサイズ及び不均一な照明条件は、広範囲のクラスター強度が抽出されるという結果をもたらす。スケーリングチャネルによって供給される加法的バイアスは、クラスター間にわたってクラスター強度を同等にする。他の実施態様では、画像パッチが、アップサンプリングされたサブピクセル解像度であるとき、スケーリングチャネルは、サブピクセルごとに符号化される。
単一のターゲットクラスターがベースコールされているとき、スケーリングチャネルは、全てのピクセルに同じスケーリング値を割り当てる。複数のターゲットクラスターが同時にベースコールされているとき、スケーリングチャネルは、クラスター形状データに基づいてピクセルのグループに異なるスケーリング値を割り当てる。
スケーリングチャネル1710は、全てのピクセルに対して同じスケーリング値(s1)を有する。スケーリング値(s1)は、ターゲットクラスターの中心を含む中心ピクセルの平均強度に基づく。一実施態様では、平均強度は、ターゲットクラスターに対するA及びTベースコールを生成した2つ以上の先行する配列決定サイクル中に観察された中心ピクセルの強度値を平均化することによって計算される。
スケーリングチャネル1708は、クラスター形状データに基づいた対応するクラスターに帰属するそれぞれのピクセルグループに対して異なるスケーリング値(s1、s2、s3、sm)を有する。各ピクセルグループは、対応するクラスターの中心を含む中央クラスターピクセルを含む。特定のピクセルグループのためのスケーリング値は、その中央クラスターピクセルの平均強度に基づく。一実施態様では、平均強度は、対応するクラスターに対するA及びTベースコールを生成した2つ以上の先行する配列決定サイクル中に観察する中央クラスターピクセルの強度値を平均化することによって計算される。
いくつかの実施態様では、背景ピクセルは、0若しくは0.1、又は何らかの他の最小値であり得る、背景スケーリング値(sb)を割り当てられる。
一実施態様では、スケーリングチャネル1706及びそれらのスケーリング値は、強度スケーラー1704によって決定される。強度スケーラー1704は、先行する配列決定サイクルからのクラスター強度データ1702を使用して、平均強度を計算する。
他の実施態様では、補足的なスケーリングチャネルは、ニューラルネットワークベースのベースコーラー218の最後の層より前に又はその層に、ニューラルネットワークベースのベースコーラー218の1つ又はそれ以上の中間層より前に又はそれらの層に、及び画像サイズに一致するようにピクセル単位で符号化する代わりに単一の値としてなど、異なる方法で入力として提供することができる。
ここからは、ニューラルネットワークベースのベースコーラー218に供給される入力データについて説明する。
入力データ:画像チャネル、距離チャネル、及びスケーリングチャネル
図18aは、赤色画像及び緑色画像を生成する単一の配列決定サイクルのための入力データ1800の一実施態様を示す。入力データ1800は、以下を含む。
・赤色画像から抽出された画像パッチ内のピクセルに関する赤色強度データ1802(赤色)。赤色強度データ1802は、赤色画像チャネル内に符号化される。
・ピクセル単位で赤色強度データ1802を補足する赤色距離データ1804(黄色)。赤色距離データ1804は、赤色距離チャネル内に符号化される。
・緑色画像から抽出された画像パッチ内のピクセルに関する緑色強度データ1806(緑色)。緑色強度データ1806は、緑色画像チャネル内に符号化される。
・ピクセル単位で緑色強度データ1806を補足する緑色距離データ1808(紫色)。緑色距離データ1808は、緑色距離チャネル内に符号化される。
・ピクセル単位で赤色強度データ1802及び緑色強度データ1806を補足するスケーリングデータ1810(青色)。スケーリングデータ1810は、スケーリングチャネル内に符号化される。
他の実施態様では、入力データは、より少ない又はより多い数の画像チャネル及び補足的な距離チャネルを含むことができる。一実施例では、4チャネルケミストリーを使用する配列決定実行のために、入力データは、各配列決定サイクルのための4つの画像チャネル、及び4つの補足的な距離チャネルを含む。
ここからは、距離チャネル及びスケーリングチャネルがベースコール精度にどのように寄与するかについて説明する。
加法的バイアス
図18bは、画像チャネルから生成された特徴マップに組み込まれる加法的バイアスを供給する距離チャネルの一実施態様を示す。この加法的バイアスは、ピクセル中心-クラスター中心間の距離に基づいていることからベースコール精度に寄与し、ピクセル中心-クラスター中心間の距離は、距離チャネル内にピクセル単位で符号化されている。
平均して、約3×3のピクセルが、1つのクラスターを含む。クラスターの中心における密度は、クラスターが実質的に中央の場所から外向きに成長することから、外辺部におけるよりも高いと予想される。周辺クラスターピクセルは、近くのクラスターからの競合する信号を含むことができる。したがって、中央クラスターピクセルは、最大強度領域と見なされ、クラスターを確実に識別するビーコンとして機能する。
画像パッチのピクセルは、複数のクラスター(例えば、10~200個のクラスター)及びそれらの周囲背景の強度発光を表現する。追加のクラスターは、より広い半径からの情報を組み込み、画像パッチ内に強度発光が表現されている、基礎をなす塩基を見分けることによってベースコール予測に寄与する。換言すれば、クラスターのグループからの強度発光は、個別の塩基(A、C、T、又はG)に割り当てることができる強度パターンを累積的に作り出す。
補足的な距離チャネルでクラスター中心からの各ピクセルの距離を畳み込みフィルタに明示的に伝えることは、より高いベースコール精度をもたらすことが観察されている。距離チャネルは、どのピクセルがクラスター中心を含んでいるか、及びどのピクセルがクラスター中心からより遠く離れているかを畳み込みフィルタに伝える。畳み込みフィルタは、(b)周辺クラスターピクセル、背景ピクセル、及びそれらから導出される特徴マップよりも、(a)中央クラスターピクセル、それらの隣接ピクセル、及びそれらから導出される特徴マップに着目することによって配列決定信号をその適切なソースクラスターに割り当てるために、この情報を使用する。着目することの一実施例では、距離チャネルは、(a)から生じた特徴マップに組み込まれている正の加法的バイアスを供給し、(b)から生じた特徴マップに組み込まれている負の加法的バイアスを供給する。
距離チャネルは、画像チャネルと同じ次元数を有する。これにより、畳み込みフィルタは、局所受容フィールド内の画像チャネル及び距離チャネルを別個に評価し、評価をコヒーレントに組み合わせることができる。
単一のターゲットクラスターがベースコールされているとき、距離チャネルは、画像パッチの中心にある1つの中央クラスターピクセルのみを識別する。複数のターゲットクラスターが同時にベースコールされているとき、距離チャネルは、画像パッチ間にわたって分布した複数の中央クラスターピクセルを識別する。
「単一クラスター」距離チャネルは、ベースコールされる単一のターゲットクラスターの中心を中心ピクセル内に含む画像パッチに適用される。単一クラスター距離チャネルは、単一のターゲットクラスターまでの画像パッチ内の各ピクセルの中心間距離を含む。この実施態様では、画像パッチはまた、単一のターゲットクラスターに隣接する追加のクラスターも含むが、追加のクラスターはベースコールされない。
「マルチクラスター」距離チャネルは、ベースコールされる複数のターゲットクラスターの中心をそれぞれの中央クラスターピクセル内に含む画像パッチに適用される。マルチクラスター距離チャネルは、複数のターゲットクラスターの中から最も近いクラスターまでの画像パッチ内の各ピクセルの中心間距離を含む。これは、誤ったクラスターまでの中心間距離を測定する可能性を有するが、その可能性は低いものである。
「マルチクラスター形状ベース」距離チャネルは、ベースコールされる複数のターゲットクラスターの中心をそれぞれの中央クラスターピクセル内に含み、かつピクセル-クラスター間の帰属情報が既知である、画像パッチに適用される。マルチクラスター距離チャネルは、画像パッチ内の各クラスターピクセルの中心から、複数のターゲットクラスターのうちでそのクラスターピクセルに属する又はそれに帰属するクラスターの中心までの距離を含む。背景ピクセルには、計算された距離を与える代わりに、背景としてフラグ付けすることができる。
図18bはまた、画像チャネルから生成された特徴マップに組み込まれる加法的バイアスを供給するスケーリングチャネルの一実施態様も示す。この加法的バイアスは、中央クラスターピクセルの平均強度に基づくため、ベースコール精度に寄与し、この平均強度は、スケーリングチャネル内にピクセル単位で符号化されている。距離チャネルのコンテキストにおける加法的バイアスについての議論は、スケーリングチャネルに類似的に適用される。
加法的バイアスの実施例
図18bは、加法的バイアスがどのようにして距離及びスケーリングチャネルから導出され、画像チャネルから生成された特徴マップに組み込まれるかの一実施例を更に示す。
図18bでは、畳み込みフィルタi1814は、2つの画像チャネル1802及び1806、2つの距離チャネル1804及び1808、並びにスケーリングチャネル1810にわたって局所受容フィールド1812(マゼンタ)を評価する。距離及びスケーリングチャネルは別個に符号化されるため、加法的バイアスは、チャネル固有の畳み込みカーネル(又は特徴検出器)1816a~eのそれぞれの中間出力1816a~e(及びバイアス1816f)が局所受容フィールド1812のための最終出力/特徴マップ要素1820としてチャネル単位で蓄積される(1818)ときに行われる。この実施例では、2つの距離チャネル1804及び1808によって供給される加法的バイアスは、それぞれ中間出力1816b及び1816dである。スケーリングチャネル1810によって供給される加法的バイアスは、中間出力1816eである。
加法的バイアスは、ベースコール、すなわち、中央クラスターピクセル及びそれらの隣接ピクセルのピクセル強度についてより重要で信頼性が高いと考えられる画像チャネル内でのそれらの特徴をより強調することによって、特徴マップコンパイレーションプロセスを進める。訓練中、グラウンドトゥルースベースコールとの比較から計算された勾配の逆伝播は、畳み込みカーネルの重みを更新して、中央クラスターピクセル及びそれらの隣接ピクセルに対してより強い活性化をもたらす。
例えば、局所受容フィールド1812によって覆われた隣接ピクセルのグループ内のピクセルがクラスター中心を含み、そのとき、距離チャネル1804及び1808は、クラスター中心へのピクセルの近接度を反映する、と考える。結果として、強度中間出力1816a及び1816cがチャネル単位の蓄積1818において距離チャネル加法的バイアス1816b及び1816dとマージされると、ピクセルの正にバイアスされた畳み込み表現1820がもたらされる。
対照的に、局所受容フィールド1812によって覆われたピクセルがクラスター中心の近くにないと、距離チャネル1804及び1808は、クラスター中心からのそれらの分離を反映する。結果として、強度中間出力1816a及び1816cがチャネル単位の蓄積1818において距離チャネル加法的バイアス1816b及び1816dとマージされると、ピクセルの負にバイアスされた畳み込み表現1820がもたらされる。
同様に、スケーリングチャネル1810から導出されるスケーリングチャネル加法的バイアス1816eは、ピクセルの畳み込み表現1820を正に又は負にバイアスすることができる。
明確にするために、図18bは、単一の配列決定サイクルのための入力データ1800上での単一の畳み込みフィルタi1814の適用を示す。当業者であれば、この説明が、複数の畳み込みフィルタ(例えば、k個のフィルタのフィルタバンクであり、kは8、16、32、64、128、256などとすることができる)に、複数の畳み込み層(例えば、複数の空間的及び時間的な畳み込み層)、及び複数の配列決定サイクル(例えば、t、t+1、t-1)に拡張され得ることは理解するであろう。
他の実施態様では、距離及びスケーリングチャネルは、距離及びスケーリングチャネル並びに画像チャネルが同じ次元数を有するので、別々に符号化される代わりに、画像チャネルに直接適用されて、変調されたピクセル増幅)を生成する。更なる実施態様では、畳み込みカーネルの重みは、要素単位の増幅中に画像チャネル内の最も重要な特徴を検出するように、距離及び画像チャネルに基づいて決定される。更に他の実施態様では、距離及びスケーリングチャネルは、第1の層に供給される代わりに、下流の層及び/又はネットワーク(例えば、全結合ネットワーク又は分類層)に補助入力として提供される。また更なる実施態様では、距離及びスケーリングチャネルは、第1の層に供給され、下流の層及び/又はネットワークに(例えば、残差接続を介して)再供給される。
上記の説明は、k個の入力チャネルを有する2D入力データについてのものである。3D入力への拡張は、当業者によって理解されるであろう。簡潔に述べると、体積入力は、次元k×l×w×hを有する4Dテンソルであり、lは追加の次元、すなわち、長さである。各個々のカーネルは、4Dテンソル内で掃引された4Dテンソルであり、3Dテンソル(チャネル次元は、横断方向に掃引されないため、潰れている)。
他の実施態様では、入力データ1800がアップサンプリングされたサブピクセル解像度にあるとき、距離及びスケーリングチャネルはサブピクセルごとに別個に符号化され、加法的バイアスはサブピクセルレベルで行われる。
特殊化したアーキテクチャ及び入力データを使用したベースコール
ここからは、特殊化したアーキテクチャ及び入力データが、ニューラルネットワークベースのベースコールのためにどのように使用されるかについて説明する。
単一のクラスターのベースコール
図19a、図19b、及び図19cは、単一のターゲットクラスターをベースコールする一実施態様を示す。特殊化したアーキテクチャは、3つの配列決定サイクル、すなわち、ベースコールされる現在(時間t)の配列決定サイクル、前(時間t-1)の配列決定サイクル、及び次(時間t+1)の配列決定サイクルを処理し、現在(時間t)の配列決定サイクルにおける単一のターゲットクラスターのためのベースコールを生成する。
図19a及び図19bは、空間的な畳み込み層を示す。図19cは、時間的な畳み込み層を、いくつかの他の非畳み込み層と共に示す。図19a及び図19bでは、垂直な点線が、空間的な畳み込み層を特徴マップから分離し、水平な破線が、3つの配列決定サイクルに対応する3つの畳み込みパイプラインを分離している。
各配列決定サイクルのために、入力データは、次元数n×n×m(例えば、図18aにおける入力テンソル1800)のテンソルを含み(nは正方形テンソルの幅及び高さを表し、mは入力チャネルの数を表す)、3つのサイクルのための次元数n×n×m×tの入力データを作成する。
ここで、各サイクルごとのテンソルは、その画像チャネルの中心ピクセル内に、単一のターゲットクラスターの中心を含む。各サイクルごとのテンソルはまた、特定の配列決定サイクルにおいて画像チャネルのそれぞれに捕捉された単一のターゲットクラスターの、いくつかの隣接するクラスターの、及びそれらの周囲背景の強度発光を表現する。図19aでは、2つの例示的な画像チャネル、すなわち、赤色画像チャネル及び緑色画像チャネルが示されている。
各サイクルごとのテンソルはまた、対応する画像チャネルを補足する距離チャネル(例えば、赤色距離チャネル及び緑色距離チャネル)も含む。距離チャネルは、単一のターゲットクラスターまでの対応する画像チャネル内の各ピクセルの中心間距離を識別する。各サイクルごとのテンソルは、画像チャネルのそれぞれにおいて強度値をピクセル単位でスケーリングするスケーリングチャネルを更に含む。
特殊化したアーキテクチャは、5つの空間的な畳み込み層及び2つの時間的な畳み込み層を有する。各空間的な畳み込み層は、次元数j×j×∂のk個の畳み込みフィルタのバンク(jは正方形フィルタの幅及び高さを表し、∂はその深さを表す)を使用して、分離された畳み込みを適用する。各時間的な畳み込み層は、次元数j×j×αのk個の畳み込みフィルタのバンク(jは正方形フィルタの幅及び高さを表し、αはその深さを表す)を使用して組み合わせ畳み込みを適用する。
特殊化したアーキテクチャは、分類前の層(例えば、平坦化層及び高密度層)及び出力層(例えば、ソフトマックス分類層)を有する。分類前の層は、出力層のための入力を調製する。出力層は、現在(時間t)の配列決定サイクルにおける単一のターゲットクラスターのためのベースコールを生成する。
一貫して減少する空間次元数
図19a、図19b、及び図19cはまた、畳み込みフィルタによって生成される、結果として得られる特徴マップ(畳み込み表現又は中間畳み込み表現又は畳み込みされた特徴又は活性化マップ)も示す。サイクルごとのテンソルから開始して、結果として得られる特徴マップの空間次元数は、1つの畳み込み層から次の畳み込み層までの間に一定ステップサイズで減少する(本明細書において「一貫して減少する空間次元数」と称される概念)。図19a、図19b、及び図19cでは、一貫して減少する空間次元数のために、2の例示的な一定ステップサイズが使用される。
一貫して減少する空間次元数は、以下の式によって表される:「現在の特徴マップ空間次元数=前の特徴マップ空間次元数-畳み込みフィルタ空間次元数+1」。一貫して減少する空間次元数は、畳み込みフィルタに、中央クラスターピクセル及びそれらの隣接ピクセル上でアテンションの焦点を漸進的に狭めさせ、中央クラスターピクセル及びそれらの隣接ピクセルの間で局所的な依存性を捕捉する特徴を有する特徴マップを生成させる。これは結果として、中央クラスターピクセル内に中心が含まれているクラスターを正確にベースコールするのを助ける。
5つの空間的な畳み込み層の分離された畳み込みは、3つの配列決定サイクル間での情報の混合を防止し、3つの別個の畳み込みパイプラインを維持する。
2つの時間的な畳み込み層の組み合わせ畳み込みは、3つの配列決定サイクルの間で情報を混合する。第1の時間的な畳み込み層は、最終の空間的な畳み込み層によって次及び現在の配列決定サイクルのためにそれぞれ生成された次及び現在の空間畳み込み表現にわたって畳み込みを行う。これにより、第1の時間的出力が得られる。第1の時間的な畳み込み層はまた、最終の空間的な畳み込み層によって現在及び前の配列決定サイクルのためにそれぞれ生成された現在及び前の空間畳み込み表現にわたって畳み込みを行う。これにより、第2の時間的出力が得られる。第2の時間的な畳み込み層は、第1及び第2の時間的出力にわたって畳み込みを行い、最終の時間的出力を生成する。
いくつかの実施態様では、最終の時間的出力は、平坦化層に供給されて、平坦化された出力を生成する。次いで、平坦化された出力は、高密度層に供給されて、高密度出力を生成する。高密度出力は、出力層によって処理されて、現在(時間t)の配列決定サイクルにおける単一のターゲットクラスターのためのベースコールを生成する。
いくつかの実施態様では、出力層は、現在の配列決定サイクルにおける単一のターゲットクラスターに組み込まれた塩基がA、C、T、及びGであることの尤度(分類スコア)を生成し、これらの尤度に基づいて塩基をA、C、T、又はGとして分類する(例えば、図19aの塩基Aなど、最大尤度を有する塩基が選択される)。このような実施態様では、尤度は、ソフトマックス分類層によって生成される指数関数的に正規化されたスコアであり、合計すると1になる。
いくつかの実施態様では、出力層は、単一のターゲットクラスターのための出力ペアを導出する。出力ペアは、現在の配列決定サイクルにおける単一のターゲットクラスターに組み込まれた塩基がA、C、T、又はGであることのクラスラベルを識別し、クラスラベルに基づいて単一のターゲットクラスターをベースコールする。一実施態様では、1,0のクラスラベルがA塩基を識別し、0,1のクラスラベルがC塩基を識別し、1,1のクラスラベルがT塩基を識別し、0,0のクラスラベルがG塩基を識別する。別の実施態様では、1,1のクラスラベルがA塩基を識別し、0,1のクラスラベルがC塩基を識別し、0.5,0.5のクラスラベルがT塩基を識別し、0,0のクラスラベルがG塩基を識別する。更に別の実施態様では、1,0のクラスラベルがA塩基を識別し、0,1のクラスラベルがC塩基を識別し、0.5,0.5のクラスラベルがT塩基を識別し、0,0のクラスラベルがG塩基を識別する。また更なる実施態様では、1,2のクラスラベルがA塩基を識別し、0,1のクラスラベルがC塩基を識別し、1,1のクラスラベルがT塩基を識別し、0,0のクラスラベルがG塩基を識別する。
いくつかの実施態様では、出力層は、現在の配列決定サイクルにおける単一のターゲットクラスターに組み込まれた塩基がA、C、T、又はGであることを識別する単一のターゲットクラスターのためのクラスラベルを導出し、クラスラベルに基づいて単一のターゲットクラスターをベースコールする。一実施態様では、0.33のクラスラベルがA塩基を識別し、0.66のクラスラベルがC塩基を識別し、1のクラスラベルがT塩基を識別し、0のクラスラベルがG塩基を識別する。別の実施態様では、0.50のクラスラベルがA塩基を識別し、0.75のクラスラベルがC塩基を識別し、1のクラスラベルがT塩基を識別し、0.25のクラスラベルがG塩基を識別する。
いくつかの実施態様では、出力層は、単一の出力値を導出し、この単一の出力値を塩基A、C、T、及びGに対応するクラス値範囲と比較し、この比較に基づいて、単一の出力値を特定のクラス値範囲に割り当て、この割り当てに基づいて単一のターゲットクラスターをベースコールする。一実施態様では、単一の出力値はシグモイド関数を使用して導出され、単一の出力値は0~1の範囲である。別の実施態様では、0~0.25のクラス値範囲がA塩基を表し、0.25~0.50のクラス値範囲がC塩基を表し、0.50~0.75のクラス値範囲がT塩基を表し、0.75~1のクラス値範囲がG塩基を表す。
当業者であれば、他の実施態様において、特殊化したアーキテクチャが、より少ない又はより多い数の配列決定サイクルのための入力データを処理することができ、より少ない又はより多い数の空間的及び時間的な畳み込み層を含むことができることは理解するであろう。また、入力データの次元数、入力データ内のサイクルごとのテンソル、畳み込みフィルタ、結果として生じる特徴マップ、及び出力が異なっていてもよい。また、畳み込み層内の畳み込みフィルタの数が異なっていてもよい。それは、異なるパディング及びストライディング構成を使用することができる。それは、異なる分類関数(例えば、シグモイド又は回帰)を使用することができ、全結合層を含んでも含まなくてもよい。それは、1D重畳、2D重畳、3D重畳、4D重畳、5D重畳、拡張又は無性重畳、転置重畳、奥行分離可能な重畳、1×1重畳、グループ重畳、扁平重畳、空間及びクロスチャネルの重畳、シャッフルされたグループ化重畳、空間的な分離可能な重畳、及び逆重畳を使用することができる。それは、ロジスティック回帰/対数損失、多クラスクロスエントロピー/ソフトマックス損失、二値クロスエントロピー損失、平均二乗誤差損失、L1損失、L2損失、平滑L1損失、及びHuber損失などの1つ又はそれ以上の損失機能を使用することができる。それは、TFRecord、圧縮符号化(例えば、PNG)、シャープ化、マップ変換に対する平行コール、バッチング、プリフェッチ、モデル並列、データ並列、及び同期/非同期SGDのような、任意の並列、効率、及び圧縮方式を使用することができる。これは、アップサンプリング層、ダウンサンプリング層、反復接続、ゲート及びゲートされたメモリユニット(LSTM又はGRUなど)、残留ブロック、残留接続、ハイウェイ接続、スキップ接続、ペエホル接続、アクティブ化機能(例えば、非線形変換関数は、整流線形ユニット(ReLU)、漏れやすいReLU、指数関数的ライナーユニット(ELU)、シグモイド及び双曲線正接(tanh))、バッチ正規化層、規則化層、ドロップアウト、プール層(例えば、最大又は平均プール)、グローバル平均プール層、及び注意機構のような非線形変換機能を含む。
単一のクラスターのベースコールについて説明してきたが、ここからは、複数のクラスターのベースコールについて説明する。
複数のクラスターのベースコール
入力データのサイズ及びフローセル上のクラスター密度に応じて、1入力当たり10個~30万個のクラスターが、ニューラルネットワークベースのベースコーラー218によって同時にベースコールされる。これを並列プロセッサ上に実装されたデータ並列戦略及び/又はモデル並列戦略に拡張し、サイズ10のバッチ又はミニバッチを使用すると、1バッチ当たり又は1ミニバッチ当たり100個~300万個のクラスターが同時にベースコールされるという結果になる。
配列決定構成(例えば、クラスター密度、フローセル上のタイルの数)に応じて、タイルは、2万個~30万個のクラスターを含む。別の実施態様では、IlluminaのNovaSeq配列決定器が、タイル当たり最大4百万個のクラスターを有する。したがって、タイルの配列決定画像(タイル画像)は、2万個~30万個のクラスター及びそれらの周囲背景からの強度発光を表現することができる。そのため、一実施態様では、タイル画像全体を含む入力データを使用すると、1入力当たり30万個のクラスターが同時にベースコールされるという結果になる。別の実施態様では、入力データ内でサイズ15×15ピクセルの画像パッチを使用すると、1入力当たり100個未満のクラスターが同時にベースコールされるという結果になる。当業者であれば、これらの数が、配列決定構成、並列戦略、アーキテクチャの詳細(例えば、最適なアーキテクチャハイパーパラメータに基づく)、及び利用可能な計算に応じて変化し得ることは理解するであろう。
図20は、複数のターゲットクラスターに同時にベースコールする一実施態様を示す。入力データは、上述の3つの配列決定サイクルのための3つのテンソルを有する。各サイクルごとのテンソル(例えば、図18aの入力テンソル1800)は、特定の配列決定サイクルにおいて画像チャネルのそれぞれに捕捉されたベースコールされる複数のターゲットクラスター及びそれらの周囲背景の強度発光を表現する。他の実施態様では、ベースコールされない、いくつかの追加の隣接するクラスターもまた、コンテキストのために含まれる。
マルチクラスターベースコール実施態様では、各サイクルごとのテンソルは、対応する画像チャネルを補足する距離チャネル(例えば、赤色距離チャネル及び緑色距離チャネル)を含む。距離チャネルは、複数のターゲットクラスターの中から最も近いクラスターまでの対応する画像チャネル内の各ピクセルの中心間距離を識別する。
マルチクラスター形状ベースベースコール実施態様では、各サイクルごとのテンソルは、対応する画像チャネルを補足する距離チャネル(例えば、赤色距離チャネル及び緑色距離チャネル)を含む。距離チャネルは、対応する画像チャネル内の各クラスターピクセルの中心から、複数のターゲットクラスターのうちでそのクラスターピクセルに属する又はそれに帰属するクラスターの中心までの距離を識別する。
各サイクルごとのテンソルは、画像チャネルのそれぞれにおいて強度値をピクセル単位でスケーリングするスケーリングチャネルを更に含む。
図20では、各サイクルごとのテンソルの空間次元数は、図19aに示されるものよりも大きい。すなわち、図19aの単一のターゲットクラスターベースコール実施態様では、各サイクルごとのテンソルの空間次元数が15×15であるのに対し、図20の複数のクラスターベースコール実施態様では、各サイクルごとのテンソルの空間次元数は114×114である。追加のクラスターの強度発光を表現するより大きな量の画素化データを有することは、いくつかの実施態様によれば、複数のクラスターに対して同時に予測されるベースコールの精度を向上させる。
冗長な畳み込みの回避
更に、各サイクルごとのテンソル内の画像チャネルは、配列決定画像から抽出された画像パッチから得られる。いくつかの実施態様では、空間的に連続している(例えば、左部、右部、上部、及び底部で連続している)抽出された画像パッチの間に重複ピクセルが存在する。したがって、一実施態様では、重複ピクセルは冗長な畳み込みを受けず、重複ピクセルが後続の入力の一部であるときは、前の畳み込みからの結果が後のインスタンスで再利用される。
例えば、サイズn×nピクセルの第1の画像パッチが配列決定画像から抽出され、サイズm×mピクセルの第2の画像パッチも同じ配列決定画像から抽出され、その結果、第1及び第2の画像パッチが空間的に連続し、o×oピクセルの重複領域を共有する、と考える。更に、o×oピクセルが第1の画像パッチの一部として畳み込みされて、メモリに記憶される第1の畳み込み表現を生成すると考える。そのとき、第2の画像パッチが畳み込みされると、o×oピクセルが再び畳み込みされることはなく、代わりに、第1の畳み込み表現がメモリから取り出され、再利用される。いくつかの実施態様では、n=mである。他の実施態様では、それらは等しくない。
次いで、入力データは、特殊化したアーキテクチャの空間的及び時間的な畳み込み層によって処理されて、次元数w×w×kの最終の時間的出力を生成する。ここでも、一貫して減少する空間次元数の事象下で、空間次元数は、各畳み込み層において2の一定ステップサイズで減少する。すなわち、n×nの空間次元数の入力データで開始すると、w×wの空間次元数の最終の時間的出力が導出される。
次いで、空間次元数w×wの最終の時間的出力に基づいて、出力層が、w×w組のユニット内の各ユニットのためのベースコールを生成する。一実施態様では、出力層は、ユニットごとに4つの塩基(A、C、T、及びG)のための4とおりの分類スコアを生成するソフトマックス層である。すなわち、w×w組のユニット内の各ユニットは、図20に示されるように、対応するソフトマックスクアドルプルにおける最大分類スコアに基づいてベースコールが割り当てられる。いくつかの実施態様では、w×w組のユニットは、最終の時間的出力を平坦化層及び高密度層によって処理して平坦化された出力及び高密度出力をそれぞれ生成することの結果として導出される。このような実施態様では、平坦化された出力は、w×w×k個の要素を有し、高密度出力は、w×w組のユニットを形成するw×w個の要素を有する。
複数のターゲットクラスターのためのベースコールは、w×w組のユニット内のベースコールされたユニットのうちのどれが、中央クラスターピクセル、すなわち、複数のターゲットクラスターのそれぞれの中心を含む入力データ内のピクセルと一致するか、又はそれに対応するかを識別することによって取得される。所与のターゲットクラスターには、所与のターゲットクラスターの中心を含むピクセルと一致する又はそれに対応するユニットのベースコールが割り当てられる。換言すれば、中央クラスターピクセルと一致しない又はそれに対応しないユニットのベースコールはフィルタで除外される。この機能は、ベースコールフィルタリング層によって操作可能になっており、ベースコールフィルタリング層は、いくつかの実施態様では特殊化したアーキテクチャの一部であり、又は他の実施態様では後処理モジュールとして実装されている。
他の実施態様では、複数のターゲットクラスターのためのベースコールは、w×w組のユニット内のベースコールされたユニットのどのグループが同じクラスターを覆うかを識別することによって、すなわち、同じクラスターを表現する入力データ内のピクセルグループを識別することによって取得される。次いで、各クラスター及びその対応するピクセルグループについて、それぞれの4つの塩基クラス(A、C、T、及びG)の分類スコア(ソフトマックス確率)の平均が、ピクセルグループ内のピクセルにわたって計算され、最も高い平均分類スコアを有する塩基クラスが、クラスターをベースコールするために選択される。
訓練中、いくつかの実施態様では、グラウンドトゥルース比較及び誤差計算は、中央クラスターピクセルと一致する又はそれらに対応するユニットに対してのみ行われ、その結果、それらの予測されたベースコールは、グラウンドトゥルースラベルとして識別される正しいベースコールに対して評価される。
複数のクラスターのベースコールについて説明してきたが、ここからは、複数のクラスター及び複数のサイクルのベースコールについて説明する。
複数のクラスター及び複数のサイクルのベースコール
図21は、複数の継続的な配列決定サイクルにおける複数のターゲットクラスターを同時にベースコールし、それによって複数のターゲットクラスターのそれぞれのためのベースコール配列を同時に生成する一実施態様を示す。
上述の単一及び複数のベースコール実施態様では、1つの配列決定サイクル(現在(時間t)の配列決定サイクル)におけるベースコールは、3つの配列決定サイクル(現在(時間t)、前/左側フランキング(時間t-1)、及び次/右側フランキング(時間t+1)の配列決定サイクル)のためのデータを使用して予測され、右側及び左側フランキングの配列決定サイクルは、塩基トリプレットモチーフのための配列特異的なコンテキスト、並びにプレフェージング信号及びフェージング信号の2次の寄与を提供する。この関係は、以下の式によって表される:「入力データにデータが含まれている配列決定サイクルの数(t)=ベースコールされている配列決定サイクルの数(y)+右側及び左側フランキングの配列決定サイクルの数(x)」。
図21では、入力データは、t個の配列決定サイクルのためのt個のサイクルごとのテンソルを含んでおり、それにより、入力データの次元数はn×n×m×tとなり、ここで、n=114、m=5、及びt=15である。他の実施態様では、これらの次元数は異なる。t個の配列決定サイクルのうち、第tの配列決定サイクル及び第1の配列決定サイクルは、右側及び左側フランキングコンテキストxとして機能し、それらの間のy個の配列決定サイクルがベースコールされる。したがって、y=13、x=2、及びt=y+xである。各サイクルごとのテンソルは、図18aの入力テンソル1800など、画像チャネル、対応する距離チャネル、及びスケーリングチャネルを含む。
次いで、t個のサイクルごとのテンソルを有する入力データは、特殊化したアーキテクチャの空間的及び時間的な畳み込み層によって処理されて、y個の最終の時間的出力を生成し、これらのそれぞれは、ベースコールされているy個の配列決定サイクルのそれぞれ1つに対応する。y個の最終の時間的出力のそれぞれは、w×w×kの次元数を有する。ここでも、一貫して減少する空間次元数の事象下で、空間次元数は、各畳み込み層において2の一定ステップサイズで減少する。すなわち、n×nの空間次元数の入力データで開始すると、w×wの空間次元数のy個の最終の時間的出力のそれぞれが導出される。
次に、y個の最終の時間的出力のそれぞれが、出力層によって並列に処理される。y個の最終の時間的出力のそれぞれについて、出力層は、w×w組のユニット内の各ユニットのためのベースコールを生成する。一実施態様では、出力層は、ユニットごとに4つの塩基(A、C、T、及びG)のための4とおりの分類スコアを生成するソフトマックス層である。すなわち、w×w組のユニット内の各ユニットは、図20に示されるように、対応するソフトマックスクアドルプルにおける最大分類スコアに基づいてベースコールが割り当てられる。いくつかの実施態様では、w×w組のユニットは、y個の最終の時間的出力のそれぞれについて、後のものを平坦化層及び高密度層によってそれぞれに処理して対応する平坦化された出力及び高密度出力を生成することの結果として導出される。このような実施態様では、各平坦化された出力は、w×w×k個の要素を有し、各高密度出力は、w×w組のユニットを形成するw×w個の要素を有する。
y個の配列決定サイクルのそれぞれについて、複数のターゲットクラスターのためのベースコールは、対応するw×w組のユニット内のベースコールされたユニットのうちのどれが、中央クラスターピクセル、すなわち、複数のターゲットクラスターのそれぞれの中心を含む入力データ内のピクセルと一致するか、又はそれに対応するかを識別することによって取得される。所与のターゲットクラスターには、所与のターゲットクラスターの中心を含むピクセルと一致する又はそれに対応するユニットのベースコールが割り当てられる。換言すれば、中央クラスターピクセルと一致しない又はそれに対応しないユニットのベースコールはフィルタで除外される。この機能は、ベースコールフィルタリング層によって操作可能になっており、ベースコールフィルタリング層は、いくつかの実施態様では特殊化したアーキテクチャの一部であり、又は他の実施態様では後処理モジュールとして実装されている。
訓練中、いくつかの実施態様では、グラウンドトゥルース比較及び誤差計算は、中央クラスターピクセルと一致する又はそれらに対応するユニットに対してのみ行われ、その結果、それらの予測されたベースコールは、グラウンドトゥルースラベルとして識別される正しいベースコールに対して評価される。
入力ごとに、y個の配列決定サイクルのそれぞれにおける複数のターゲットクラスターのそれぞれのためのベースコール、すなわち、複数のターゲットクラスターのそれぞれのための長さyのベースコール配列がもたらされる。他の実施態様では、yは20、30、50、150、300などである。当業者であれば、これらの数が、配列決定構成、並列戦略、アーキテクチャの詳細(例えば、最適なアーキテクチャハイパーパラメータに基づく)、及び利用可能な計算に応じて変化し得ることは理解するであろう。
エンドツーエンドの次元数ダイアグラム
以下の説明は、画像データからベースコールを生成するのに必要な基礎となるデータ次元数変化の異なる実施態様を、上記データ次元数変化を実現するデータオペレータの次元数と共に例示するために、次元数ダイアグラムを使用する。
図22、図23、及び図24では、矩形は、空間的及び時間的な畳み込み層並びにソフトマックス分類層のようなデータオペレータを表し、角に丸みを帯びた矩形は、データオペレータによって生成されたデータ(例えば、特徴マップ)を表す。
図22は、単一のクラスターのベースコールの実施態様のための次元数ダイアグラム2200を示す。入力の「サイクル次元」は3であり、第1の時間的な畳み込み層に至るまでは、結果として得られる特徴マップに対して3であり続けることに留意されたい。3のサイクル次元は、3つの配列決定サイクルを提示しており、その連続性は、3つの配列決定サイクルのための特徴マップが別個に生成及び畳み込みされ、かつ3つの配列決定サイクルの間で特徴が混合されないことを表す。分離された畳み込みパイプラインは、空間的な畳み込み層の深さ単位の分離された畳み込みフィルタによって実現される。空間的な畳み込み層の深さ単位の分離された畳み込みフィルタの「深さ次元数」は1であることに留意されたい。これは、深さ単位の分離された畳み込みフィルタが、所与の配列決定サイクルのみ、すなわち、イントラサイクルのデータ及び結果として得られる特徴マップにわたって畳み込みを行うことを可能にし、かつ深さ単位の分離された畳み込みフィルタが、任意の他の配列決定サイクルのデータ及び結果として得られる特徴マップにわたって畳み込みを行うことを防止するものである。
対照的に、時間的な畳み込み層の深さ単位の組み合わせ畳み込みフィルタの深さ次元数は2であることに留意されたい。これは、深さ単位の組み合わせ畳み込みフィルタが、複数の配列決定サイクルからの結果として得られた特徴マップにわたってグループ単位の畳み込みを行い、配列決定サイクル間で特徴を混合することを可能にするものである。
また、2の一定ステップサイズによる「空間次元数」の一貫した減少にも留意されたい。
更に、4つの要素を有するベクトルが、ソフトマックス層によって指数関数的に正規化されて、4つの塩基(A、C、T、及びG)のための分類スコア(すなわち、信頼性スコア、確率、尤度、ソフトマックススコア)を生成する。最も高い(最大)ソフトマックススコアを有する塩基は、現在の配列決定サイクルにおいてベースコールされている単一のターゲットクラスターに割り当てられる。
当業者であれば、他の実施態様では、例示された次元数が、配列決定構成、並列戦略、アーキテクチャの詳細(例えば、最適なアーキテクチャハイパーパラメータに基づく)、及び利用可能な計算に応じて変化し得ることは理解するであろう。
図23は、複数のクラスター、単一の配列決定サイクルのベースコールの実施態様のための次元数ダイアグラム2300を示す。単一のクラスターのベースコールに対するサイクル、深さ、及び空間次元数に関する上記の説明は、この実施態様に適用される。
ここで、ソフトマックス層は、10,000個のユニットのそれぞれに対して独立して動作し、10,000個のユニットのそれぞれについてソフトマックススコアのそれぞれのクアドルプルを生成する。クアドルプルは、4つの塩基(A、C、T、及びG)に対応する。いくつかの実施態様では、10,000個のユニットは、64,0000個の平坦化されたユニットの10,000個の高密度ユニットへの変換から導出される。
次いで、10,000個のユニットのそれぞれのソフトマックススコアクアドルプルから、各クアドルプルにおいて最も高いソフトマックススコアを有する塩基が、10,000個のユニットのそれぞれ1つに割り当てられる。
次いで、10,000個のユニットのうち、現在の配列決定サイクルにおいて同時にベースコールされている2,500個のターゲットクラスターのそれぞれの中心を含んでいる2,500個の中央クラスターピクセルに対応する、それらの2500個のユニットが選択される。選択された2,500個のユニットに割り当てられた塩基は、結果として、2,500個のターゲットクラスターのうちの対応するものに割り当てられる。
当業者であれば、他の実施態様では、例示された次元数が、配列決定構成、並列戦略、アーキテクチャの詳細(例えば、最適なアーキテクチャハイパーパラメータに基づく)、及び利用可能な計算に応じて変化し得ることは理解するであろう。
図24は、複数のクラスター、複数の配列決定サイクルのベースコールの実施態様のための次元数ダイアグラム2400を示す。単一のクラスターのベースコールに対するサイクル、深さ、及び空間次元数に関する上記の説明は、この実施態様に適用される。
更に、複数のクラスターのベースコールに対するソフトマックスベースのベースコール分類についての上記の説明は、ここでも適用される。しかしながら、ここでは、2,500個のターゲットクラスターのソフトマックスベースのベースコール分類は、ベースコールされた13個の配列決定サイクルのそれぞれに対して並列に行われ、それによって、2,500個のターゲットクラスターのそれぞれのための13個のベースコールを同時に生成する。
当業者であれば、他の実施態様では、例示された次元数が、配列決定構成、並列戦略、アーキテクチャの詳細(例えば、最適なアーキテクチャハイパーパラメータに基づく)、及び利用可能な計算に応じて変化し得ることは理解するであろう。
アレイ化された入力対スタック化された入力
ここからは、ニューラルネットワークベースのコーラーへの多重サイクル入力データが配置され得る2つの構成について説明する。第1の構成は「アレイ化された入力」と呼ばれ、第2の構成は「スタック化された入力」と呼ばれる。アレイ化された入力は、図25aに示されており、図19a~図24に関して上に説明されている。サイクルごとの入力内の画像パッチは、残差レジストレーション誤差に起因して互いに対して位置がずれていることから、アレイ化された入力は、各配列決定サイクルの入力を別個の列/ブロック内に符号化する。特殊化したアーキテクチャは、別個の列/ブロックのそれぞれの処理を分離するために、アレイ化された入力と共に使用される。また、距離チャネルは、サイクル内での画像パッチ間の位置ずれ、及びサイクル間での画像パッチ間の位置ずれを考慮するために、変換されたクラスター中心を使用して計算される。
対照的に、図25bに示される、スタック化された入力は、異なる配列決定サイクルからの入力を単一の列/ブロック内に符号化する。一実施態様では、これにより、スタック化された入力内の画像パッチが、インターサイクル及びイントラサイクルの残差レジストレーション誤差を排除する、アフィン変換及び強度補間によって互いに位置合わせされているため、特殊化したアーキテクチャを使用する必要性がなくなる。いくつかの実施態様では、スタック化された入力は、全ての入力に対して共通のスケーリングチャネルを有する。
別の実施態様では、各画像パッチの中心ピクセルの中心が、ベースコールされている単一のターゲットクラスターの中心と一致するように、画像パッチをリフレーム又はシフトするために、強度補間が使用される。これにより、全ての非中心ピクセルが単一のターゲットクラスターの中心から等距離であるため、補足的な距離チャネルを使用する必要性がなくなる。距離チャネルなしのスタック化された入力は、本明細書において「リフレームされた入力」と称され、図27に例示されている。
しかしながら、複数のクラスターを伴うベースコール実施態様では、画像パッチに、ベースコールされる複数の中央クラスターピクセルが含まれるため、リムレームすることは実行不可能であり得る。距離チャネルなし、かつリフレームなしのスタック化された入力は、本明細書において「整列された入力」と称され、図28及び図29に例示されている。整列された入力は、距離チャネルの計算が所望されず(例えば、計算制限に起因する)、リフレームすることが不可能であるときに使用され得る。
以下のセクションは、特殊化したアーキテクチャ及び補足的な距離チャネルを使用せず、代わりに標準的な畳み込み層及びフィルタを使用する、様々なベースコール実施態様について説明する。
リフレームされた入力:距離チャネルなしの整列された画像パッチ
図26aは、ベースコールされているターゲットクラスターの中心を中心ピクセルの中心に配置するように画像パッチ2602のピクセルをリフレームする(2600a)一実施態様を示す。ターゲットクラスターの中心(紫色)は、画像パッチ2602の中心ピクセル内に収まっているが、図2600aに示すように、中心ピクセルの中心からあるオフセット(赤色)の位置にある。
オフセットを排除するために、リフレーマー2604が、ピクセルの強度を補間してリフレームを補正することによって画像パッチ2602をシフトさせ、リフレームされた/シフトされた画像パッチ2606を生成する。シフトされた画像パッチ2606では、中心ピクセルの中心は、ターゲットクラスターの中心と一致する。また、非中心ピクセルは、ターゲットクラスターの中心から等距離である。補間は、最近傍強度抽出、ガウシアンベースの強度抽出、2×2サブピクセル領域の平均に基づく強度抽出、2×2サブピクセル領域の最大輝度に基づく強度抽出、3×3サブピクセル領域の平均に基づく強度抽出、バイリニア強度抽出、バイキュービック強度抽出、及び/又は重み付け面積カバー率に基づく強度抽出によって実行することができる。これらの技術は、「強度抽出方法」と題された付録に詳細に記載されている。
図26bは、(i)中心ピクセルの中心がターゲットクラスターの中心と一致し、(ii)非中心ピクセルがターゲットクラスターの中心から等距離である、別の例示的なリフレームされた/シフトされた画像パッチ2600bを示す。これらの2つの要因により、全ての非中心ピクセルがターゲットクラスターの中心に対して同じ程度の近接度を有するため、補足的な距離チャネルを提供する必要性がなくなる。
図27は、標準的な畳み込みニューラルネットワーク及びリフレームされた入力を使用して、現在の配列決定サイクルにおける単一のターゲットクラスターをベースコールする一実施態様を示す。図示された実施態様では、リフレームされた入力は、ベースコールされている現在(t)の配列決定サイクルのための現在の画像パッチセット、前(t-1)の配列決定サイクルのための前の画像パッチセット、及び次(t+1)の配列決定サイクルのための次の画像パッチセットを含む。各画像パッチセットは、1つ又はそれ以上の画像チャネルのそれぞれ1つのための画像パッチを有する。図27は、2つの画像チャネル、すなわち、赤色チャネル及び緑色チャネルを示す。各画像パッチは、ベースコールされているターゲットクラスター、いくつかの隣接するクラスター、及びそれらの周囲背景を覆うピクセルのためのピクセル強度データを有する。リフレームされた入力はまた、共通のスケーリングチャネルも含む。
図26a~図26bに関して上述したように、リフレームされた入力は、画像パッチが、中心にターゲットクラスターの中心を配置するようにリフレーム又はシフトされるため、いかなる距離チャネルも含んでいない。また、画像パッチは、インターサイクル及びイントラサイクルの残差レジストレーション誤差を除去するために互いに位置合わせされる。一実施態様では、これは、アフィン変換及び強度補間を使用して行われ、その更なる詳細は、付録1、2、3、及び4に見出すことができる。これらの要因により、特殊化したアーキテクチャを使用する必要性がなくなり、代わりに、標準的な畳み込みニューラルネットワークが、リフレームされた入力と共に使用される。
図示された実施態様では、標準的な畳み込みニューラルネットワーク2700は、標準的な畳み込みフィルタを使用する7つの標準的な畳み込み層を含む。これは、配列決定サイクル間でのデータの混合を防止するための分離された畳み込みパイプラインが存在しないことを意味する(データが整列されており、混合することができるので)。いくつかの実施態様では、中央クラスター中心及びその隣接ピクセルに対して他のピクセルよりも着目するように標準的な畳み込みフィルタを教育するために、一貫して減少する空間次元数の事象が使用される。
次いで、リフレームされた入力は、標準的な畳み込み層によって処理されて、最終畳み込み表現を生成する。最終畳み込み表現に基づいて、現在の配列決定サイクルにおけるターゲットクラスターのためのベースコールは、図19cに関して上述したように、平坦化層、高密度層、及び分類層を使用して同様の様式で取得される。
いくつかの実施態様では、プロセスは、複数の配列決定サイクルにわたって反復されて、ターゲットクラスターのためのベースコールの配列を生成する。
他の実施態様では、プロセスは、複数のターゲットクラスターのための複数の配列決定サイクルにわたって反復されて、複数のターゲットクラスター内の各ターゲットクラスターのためのベースコールの配列を生成する。
整列された入力:距離チャネル及びリフレームなしの整列された画像パッチ
図28は、標準的な畳み込みニューラルネットワーク及び整列された入力を使用して、現在の配列決定サイクルにおける複数のターゲットクラスターをベースコールする一実施態様を示す。ここで、リフレームすることは、画像パッチが、ベースコールされている複数の中央クラスターピクセルを含んでいるため、実行不可能である。その結果、整列された入力内の画像パッチは、リフレームされない。更に、一実施態様によれば、補足的な距離チャネルは、計算考慮事項に起因して含まれていない。
次いで、整列された入力は、標準的な畳み込み層によって処理されて、最終畳み込み表現を生成する。最終畳み込み表現に基づいて、ターゲットクラスターのそれぞれのためのベースコールは、図20に関して上述したように平坦化層(任意選択)、高密度層(任意選択)、分類層、及びベースコールフィルタリング層を使用して、同様の様式で現在の配列決定サイクルにおいて取得される。
図29は、標準的な畳み込みニューラルネットワーク及び整列された入力を使用して、複数の配列決定サイクルにおける複数のターゲットクラスターをベースコールする一実施態様を示す。整列された入力は、標準的な畳み込み層によって処理されて、ベースコールされているy個の配列決定サイクルのそれぞれのための最終畳み込み表現を生成する。y個の最終畳み込み表現に基づいて、ターゲットクラスターのそれぞれのためのベースコールは、図21に関して上述したように平坦化層(任意選択)、高密度層(任意選択)、分類層、及びベースコールフィルタリング層を使用して、ベースコールされているy個の配列決定サイクルのそれぞれのために同様の様式で取得される。
当業者であれば、他の実施態様において、標準的な畳み込みニューラルネットワークが、より少ない又はより多い数の配列決定サイクルのためのリフレームされた入力を処理することができ、より少ない又はより多い数の標準的な畳み込み層を含むことができることは理解するであろう。また、リフレームされた入力の次元数、リフレームされた入力内のサイクルごとのテンソル、畳み込みフィルタ、結果として生じる特徴マップ、及び出力が異なっていてもよい。また、畳み込み層内の畳み込みフィルタの数が異なっていてもよい。それは、1D重畳、2D重畳、3D重畳、4D重畳、5D重畳、拡張又は無性重畳、転置重畳、奥行分離可能な重畳、1×1重畳、グループ重畳、扁平重畳、空間及びクロスチャネルの重畳、シャッフルされたグループ化重畳、空間的な分離可能な重畳、及び逆重畳を使用することができる。それは、ロジスティック回帰/対数損失、多クラスクロスエントロピー/ソフトマックス損失、二値クロスエントロピー損失、平均二乗誤差損失、L1損失、L2損失、平滑L1損失、及びHuber損失などの1つ又はそれ以上の損失機能を使用することができる。それは、TFRecord、圧縮符号化(例えば、PNG)、シャープ化、マップ変換に対する平行コール、バッチング、プリフェッチ、モデル並列、データ並列、及び同期/非同期SGDのような、任意の並列、効率、及び圧縮方式を使用することができる。これは、アップサンプリング層、ダウンサンプリング層、反復接続、ゲート及びゲートされたメモリユニット(LSTM又はGRUなど)、残留ブロック、残留接続、ハイウェイ接続、スキップ接続、ペエホル接続、アクティブ化機能(例えば、非線形変換関数は、整流線形ユニット(ReLU)、漏れやすいReLU、指数関数的ライナーユニット(ELU)、シグモイド及び双曲線正接(tanh))、バッチ正規化層、規則化層、ドロップアウト、プール層(例えば、最大又は平均プール)、グローバル平均プール層、及び注意機構のような非線形変換機能を含む。
訓練
図30は、ニューラルネットワークベースのベースコーラー218を訓練する(3000)一実施態様を示す。特殊化したアーキテクチャ及び標準的なアーキテクチャの両方で、ニューラルネットワークベースのベースコーラー218は、予測されたベースコール3004を正しいベースコール3008と比較し、比較に基づいて誤差3006を計算する、逆伝播ベースの勾配更新技術を使用して訓練される。そのとき、誤差3006は勾配を計算するために使用され、勾配は、後方伝播3010中にニューラルネットワークベースのベースコーラー218の重み及びパラメータに適用される。訓練3000は、アダムなどの確率的勾配更新アルゴリズムを使用して、訓練器1510によって操作可能である。
訓練器1510は、訓練データ3002(配列決定画像108に由来する)を使用して、ニューラルネットワークベースのベースコーラー218を、予測されたベースコール3004を生成する前方伝播3012及び誤差3006に基づいて重み及びパラメータを更新する後方伝播3010の数千~数百万回の反復にわたって訓練する。訓練3000に関する更なる詳細は、「深層学習ツール」と題された付録に見出すことができる。
CNN-RNNベースのベースコーラー
ハイブリッドニューラルネットワーク
図31aは、ニューラルネットワークベースのベースコーラー218として使用されるハイブリッドニューラルネットワーク3100aの一実施態様を示す。ハイブリッドニューラルネットワーク3100aは、少なくとも1つの畳み込みモジュール3104(又は畳み込みニューラルネットワーク(CNN))及び少なくとも1つの反復モジュール3108(又は反復ニューラルネットワーク(RNN))を含む。反復モジュール3108は、畳み込みモジュール3104からの入力を使用及び/又は受信する。
畳み込みモジュール3104は、1つ又はそれ以上の畳み込み層によって入力データ3102を処理し、畳み込み出力3106を生成する。一実施態様では、入力データ3102は、「入力」と題されたセクションに上述したように、画像チャネル又は画像データのみを主入力として含む。ハイブリッドニューラルネットワーク3100aに供給される画像データは、上述した画像データ202と同じであってもよい。
別の実施態様では、入力データ3102はまた、画像チャネル又は画像データに加えて、「入力」と題されたセクションに上述したように、距離チャネル、スケーリングチャネル、クラスター中心座標、及び/又はクラスター帰属情報などの補足的なチャネルも含む。
画像データ(すなわち、入力データ3102)は、1つ又はそれ以上のクラスター及びそれらの周囲背景の強度発光を表現する。畳み込みモジュール3104は、配列決定実行の一連の配列決定サイクルのための画像データを畳み込み層によって処理し、画像データの1つ又はそれ以上の畳み込み表現(すなわち、畳み込み出力3106)を生成する。
一連の配列決定サイクルは、ベースコールされるt個の配列決定サイクルのための画像データを含むことができ、tは1~1000の任意の数である。tが15~21であるときに、正確なベースコール結果が観察されている。
反復モジュール3110は、畳み込み出力3106を畳み込み、反復出力3110を生成する。特に、反復モジュール3110は、畳み込み表現及び前の隠れ状態表現を畳み込むことに基づいて現在の隠れ状態表現(すなわち、反復出力3110)を生成する。
一実施態様では、反復モジュール3110は、畳み込み表現及び前の隠れ状態表現に三次元(3D)畳み込みを適用し、以下のように数式化される、現在の隠れ状態表現を生成する。
=W13DCONV+W23DCONVt-1、式中
は、現在の時間ステップtにおいて生成された現在の隠れ状態表現を表し、
は、現在の時間ステップtにおける現在のスライディングウィンドウにおいて入力体積を形成する、畳み込み表現のセット又はグループを表し、
W13DCONV は、Vに適用された第1の3D畳み込みフィルタの重みを表し、
t-1 は、前の時間ステップt-1において生成された前の隠れ状態表現を表し、
W23DCONV は、ht-1に適用された第2の3D畳み込みフィルタの重みを表す。
いくつかの実施態様では、W13DCONV及びW23DCONVは、重みが共有されるため同じである。
次いで、出力モジュール3112が、反復出力3110に基づいてベースコール3114を生成する。いくつかの実施態様では、出力モジュール3112は、1つ又はそれ以上の全結合層と分類層(例えば、ソフトマックス)とを含む。このような実施態様では、現在の隠れ状態表現は全結合層によって処理され、全結合層の出力は、分類層によって処理されて、ベースコール3114を生成する。
ベースコール3114は、クラスターのうちの少なくとも1つのための、かつ配列決定サイクルのうちの少なくとも1つのためのベースコールを含む。いくつかの実施態様では、ベースコール3114は、クラスターのそれぞれのための、かつ配列決定サイクルのそれぞれのためのベースコールを含む。したがって、例えば、入力データ3102が25個のクラスターのための、かつ15個の配列決定サイクルのための画像データを含むとき、ベースコール3102は、25個のクラスターのそれぞれに対する15個のベースコールからなるベースコール配列を含む。
3D畳み込み
図31bは、現在の隠れ状態表現を生成するためにハイブリッドニューラルネットワーク3100bの反復モジュール3110によって使用される3D畳み込み3100bの一実施態様を示す。
3D畳み込みは、入力体積内に存在する各ボクセルが、畳み込みカーネルの等価位置におけるボクセルによって乗算される数学的操作である。最後には、結果の合計が出力体積に加算される。図31bでは、3D畳み込み演算の表現を観察することができ、入力3116内の強調されたボクセル3116aが、カーネル3118内のそれらの対応するボクセルで乗算される。これらの計算後、それらの合計3120aが、出力3120に加算される。
入力体積の座標は(x,y,z)によって与えられ、畳み込みカーネルはサイズ(P,Q,R)を有するので、3D畳み込み演算は、以下のように数学的に定義することができる。
Figure 2022526470000018
式中
O は、畳み込みの結果であり、
I は、入力体積であり、
K は、畳み込みカーネルであり、
(p,q,r) は、Kの座標である。
バイアス項は、明確さを改善するために上記の式から省略されている。
3D畳み込みは、2D畳み込みのようにマトリックスから空間的な情報を抽出することに加えて、連続するマトリックスの間に存在する情報も抽出する。これにより、3D畳み込みは、3Dオブジェクトの空間的な情報及び連続画像のセットの時間的な情報の両方をマッピングすることが可能になる。
畳み込みモジュール
図32は、ベースコールされる一連のt個の配列決定サイクルのうちの単一の配列決定サイクルのためのサイクルごとの入力データ3202を畳み込みモジュール3104の畳み込み層3200のカスケードによって処理する一実施態様を示す。
畳み込みモジュール3104は、サイクルごとの入力データのシーケンス内の各サイクルごとの入力データを畳み込み層のカスケード3200によって別個に処理する。サイクルごとの入力データのシーケンスは、ベースコールされる配列決定実行の一連のt個の配列決定サイクルのために生成され、tは1~1000の任意の数である。したがって、例えば、この一連に15個の配列決定サイクルが含まれるとき、サイクルごとの入力データのシーケンスは、15個の異なるサイクルごとの入力データを含む。
一実施態様では、各サイクルごとの入力データは、画像チャネル(例えば、赤色チャネル及び緑色チャネル)又は画像データ(例えば、上記の画像データ202)のみを含む。画像チャネル又は画像データは、一連内のそれぞれの配列決定サイクルにおいて捕捉された1つ又はそれ以上のクラスター及びそれらの周囲背景の強度発光を表現する。別の実施態様では、各サイクルごとの入力データは、画像チャネル又は画像データに加えて、距離チャネル及びスケーリングチャネルなどの補足的なチャネルも含む(例えば、上述の入力データ1800)。
図示された実施態様では、サイクルごとの入力データ3202は、ベースコールされる一連のt個の配列決定サイクルのうちの単一の配列決定サイクルのための2つの画像チャネル、すなわち、赤色チャネル及び緑色チャネルを含む。各画像チャネルは、サイズ15×15の画像パッチ内に符号化される。畳み込みモジュール3104は、5つの畳み込み層を含む。各畳み込み層は、サイズ3×3の25個の畳み込みフィルタのバンクを有する。更に、畳み込みフィルタは、入力画像又はテンソルの高さ及び幅を維持する、いわゆるSAMEパディングを使用する。SAMEパディングを使用すると、出力特徴マップが入力特徴と同じサイズを有するように、入力特徴にパディングが追加される。対照的に、いわゆるVALIDパディングは、パディングなしを意味する。
第1の畳み込み層3204は、サイクルごとの入力データ3202を処理し、サイズ15×15×25の第1の畳み込み表現3206を生成する。第2の畳み込み層3208は、第1の畳み込み表現3206を処理し、サイズ15×15×25の第2の畳み込み表現3210を生成する。第3の畳み込み層3212は、第2の畳み込み表現3210を処理し、サイズ15×15×25の第3の畳み込み表現3214を生成する。第4の畳み込み層3216は、第3の畳み込み表現3214を処理し、サイズ15×15×25の第4の畳み込み表現3218を生成する。第5の畳み込み層3220は、第4の畳み込み表現3218を処理し、サイズ15×15×25の第5の畳み込み表現3222を生成する。SAMEパディングは、結果として生じる畳み込み表現の空間次元(例えば、15×15)を維持することに留意されたい。いくつかの実施態様では、畳み込み層内の畳み込みフィルタの数は、2、4、16、32、64、128、256、512、及び1024など、2のべき乗である。
畳み込みがより深くなると、情報が失われる可能性がある。これを考慮するために、いくつかの実施態様では、スキップコネクションを使用して、(1)元のサイクルごとの入力データを再導入すること、及び(2)それより前の畳み込み層によって抽出された低レベルの空間的特徴をそれより後の畳み込み層によって抽出された高レベルの空間的特徴と組み合わせることを行う。これにより、ベースコール精度の改善が観察される。
図33は、単一の配列決定サイクルのサイクルごとの入力データ3202を、畳み込みモジュール3104の畳み込み層のカスケード3200によって生成されたその対応する畳み込み表現3206、3210、3214、3218、及び3222と混合する(3300)一実施態様を示す。畳み込み表現3206、3210、3214、3218、及び3222は連結されて畳み込み表現のシーケンス3304を形成し、次に、サイクルごとの入力データ3202と連結されて、混合表現3306を生成する。他の実施態様では、連結の代わりに総和が使用される。また、混合3300は、混合器3302によって操作可能になっている。
次いで、平坦化器3308が、混合表現3306を平坦化し、サイクルごとの平坦化された混合表現3310を生成する。いくつかの実施態様では、平坦化された混合表現3310は、サイクルごとの入力データ3202並びに畳み込み表現3206、3210、3214、3218、及び3222と少なくとも1つの次元サイズを共有する高次元ベクトル又は二次元(2D)アレイである(例えば、15×1905、すなわち、同じ行方向次元)。これは、下流の3D畳み込みにおける特徴抽出を容易にするデータの対称性を生じさせる。
図32及び図33は、ベースコールされる一連のt個の配列決定サイクルのうちの単一の配列決定サイクルのためのサイクルごとの画像データ3202の処理を例示する。畳み込みモジュール3104は、t個の配列決定サイクルのそれぞれのためのそれぞれのサイクルごとの画像データを別個に処理し、t個の配列決定サイクルのそれぞれのためのそれぞれのサイクルごとの平坦化された混合表示を生成する。
スタック化
図34は、継続的な配列決定サイクルの平坦化された混合表現をスタック3400として配列する一実施態様を示す。図示された実施態様では、15個の配列決定サイクルのための15個の平坦化された混合表現3204a~3204oがスタック3400内にスタック化される。スタック3400は、利用可能な特徴を、3D畳み込みフィルタの同じ受容フィールド内の空間次元及び時間次元(すなわち、複数の配列決定サイクル)の両方から作成する3D入力体積である。スタック化は、スタック化器3402によって操作可能になっている。他の実施態様では、スタック3400は、任意の次元数(例えば、1D、2D、4D、5Dなど)のテンソルとすることができる。
反復モジュール
配列決定データにおける長期依存性を捕捉するために、具体的には、クロスサイクルの配列決定画像におけるプレフェージング及びフェージングからの2次の寄与を考慮するために、反復処理を使用する。反復処理は、時間ステップの使用により、連続データの分析に使用される。現在の時間ステップにおける現在の隠れ状態表現は、(i)前の時間ステップからの前の隠れ状態表現、及び(ii)現在の時間ステップにおける現在の入力の関数である。
反復モジュール3108は、スタック3400に順方向及び逆方向での3D畳み込みの反復適用(すなわち、反復処理3500)を受けさせ、一連内のt個の配列決定サイクルのそれぞれにおけるクラスターのそれぞれのためのベースコールを生成する。3D畳み込みは、スライディングウィンドウに基づいてスタック3400内の平坦化された混合表現のサブセットから時空間的な特徴を抽出するために使用される。各スライディングウィンドウ(w)は、それぞれの配列決定サイクルに対応しており、図35a中に橙色で強調されている。いくつかの実施態様では、wは、同時にベースコールされている配列決定サイクルの総数に応じて、1、2、3、5、7、9、15、21などとなるようにパラメータ化される。一実施態様では、wは、同時にベースコールされている配列決定サイクルの総数の分数である。
したがって、例えば、各スライディングウィンドウが、15個の平坦化された混合表現3204a~3204oを含むスタック3400からの3つの継続的な平坦化された混合表現を含むと考える。そのとき、第1のスライディングウィンドウ内の第1の3つの平坦化された混合表現3204a~3204cは、第1の配列決定サイクルに対応し、第2のスライディングウィンドウ内の次の3つの平坦化された混合表現3204b~3204dは、第2の配列決定サイクルに対応し、以下同様である。いくつかの実施態様では、最終の平坦化された混合表現3204oから開始して、最終の配列決定サイクルに対応する最終のスライディングウィンドウ内に十分な数の平坦化された混合表現を符号化するために、パディングが使用される。
各時間ステップにおいて、反復モジュール3108は、(1)現在の入力x(t)及び(2)前の隠れ状態表現h(t-1)を受け取り、現在の隠れ状態表現h(t)を計算する。現在の入力x(t)は、現在のスライディングウィンドウ((w)、橙色)内に入るスタック3400からの平坦化された混合表現のサブセットのみを含む。したがって、各時間ステップにおける、各現在の入力x(t)は、複数の平坦化された混合表現(例えば、wに応じて、1、2、3、5、7、9、15、又は21個の平坦化された混合表現)の3D体積である。例えば、(i)単一の平坦化された混合表現が次元15×1905を有する二次元(2D)であり、かつ(ii)wが7であるとき、各時間ステップにおける、各現在の入力x(t)は、次元15×1905×7の3D体積である。
反復モジュール3108は、第1の3D畳み込み(W13DCONV)を現在の入力x(t)に適用し、第2の3D畳み込み(W23DCONV)を前の隠れ状態表現h(t-1)に適用して、現在の隠れ状態表現h(t)を生成する。いくつかの実施態様では、W13DCONV及びW23DCONVは、重みが共有されるため同じである。
ゲート付き処理
一実施態様では、反復モジュール3108は、長・短期記憶(LSTM)ネットワーク又はゲート付き回帰型ユニット(GRU)ネットワークなどのゲート付きネットワークによって現在の入力x(t)及び前の隠れ状態表現h(t-1)を処理する。例えば、LSTMの実施態様では、現在の入力x(t)は、前の隠れ状態表現h(t-1)と共に、LSTMユニットの4つのゲート、すなわち、入力ゲート、活性化ゲート、忘却ゲート、及び出力ゲートのそれぞれによって処理される。これは、図35bに例示されており、この図は、3D畳み込みを現在の入力x(t)及び前の隠れ状態表現h(t-1)に適用し、出力として現在の隠れ状態表現h(t)を生成するLSTMユニットによって、現在の入力x(t)及び前の隠れ状態表現h(t-1)を処理する(3500b)一実施態様を示す。そのような実施態様では、入力、活性化、忘却、及び出力ゲートの重みは、3D畳み込みを適用する。
いくつかの実施態様では、ゲート付きユニット(LSTM又はGRU)は、双曲線正接及びシグモイドのような非線形/スカッシング関数を使用しない。
一実施態様では、現在の入力x(t)、前の隠れ状態表現h(t-1)、及び現在の隠れ状態表現h(t)は全て、同じ次元数を有する3D体積であり、3D体積として入力、活性化、忘却、及び出力ゲートによって処理されるか、又は生成される。
一実施態様では、反復モジュール3108の3D畳み込みは、SAMEパディングと共に、サイズ3×3の25個の畳み込みフィルタのバンクを使用する。いくつかの実施態様では、畳み込みフィルタのサイズは5×5である。いくつかの実施態様では、反復モジュール3108によって使用される畳み込みフィルタの数は、2、4、16、32、64、128、256、512、及び1024など、2のべき乗によって因数分解される。
双方向処理
反復モジュール3108は、最初に、スライディングウィンドウに基づいて始まりから終わりまで(トップダウンで)スタック3400を処理し、順方向トラバーサルのための現在の隠れ状態表現のシーケンス(ベクトル)
Figure 2022526470000019
を生成する。
次いで、反復モジュール3108は、スライディングウィンドウに基づいて終わりから始まりまで(ボトムアップで)スタック3400を処理し、逆方向/リバーストラバーサルのための現在の隠れ状態表現のシーケンス(ベクトル)
Figure 2022526470000020
を生成する。
いくつかの実施態様では、両方の方向について、各時間ステップで、処理は、LSTM又はGRUのゲートを使用する。例えば、各時間ステップにおいて、順方向の現在の入力x(t)は、LSTMユニットの入力、活性化、忘却、及び出力ゲートによって処理されて、順方向の現在の隠れ状態表現
Figure 2022526470000021
を生成し、逆方向の現在の入力x(t)は、別のLSTMユニットの入力、活性化、忘却、及び出力ゲートによって処理されて、逆方向の現在の隠れ状態表現
Figure 2022526470000022
を生成する。
次いで、各時間ステップ/スライディングウィンドウ/配列決定サイクルについて、反復モジュール3108は、対応する順方向及び逆方向の現在の隠れ状態表現を組み合わせて(連結又は総和又は平均化して)、組み合わせられた隠れ状態表現
Figure 2022526470000023
を生成する。
次いで、組み合わせられた隠れ表現
Figure 2022526470000024
は、1つ又はそれ以上の全結合ネットワークによって処理されて、高密度表現を生成する。次いで、高密度表現は、ソフトマックス層によって処理されて、所与の配列決定サイクルにおけるクラスターのそれぞれに組み込まれた塩基がA、C、T、及びGであることの尤度を生成する。塩基は、尤度に基づいてA、C、T、又はGとして分類される。これは、一連内のt個の配列決定サイクルのそれぞれ(又は各時間ステップ/スライディングウィンドウ)について、並列に又は逐次的にのいずれかで行われる。
当業者であれば、他の実施態様において、ハイブリッドアーキテクチャが、より少ない又はより多い数の配列決定サイクルのための入力データを処理することができ、より少ない又はより多い数の畳み込み層及び反復層を含むことができることは理解するであろう。また、入力データの次元数、現在及び前の隠れ表現、畳み込みフィルタ、結果として生じる特徴マップ、並びに出力が異なっていてもよい。また、畳み込み層内の畳み込みフィルタの数が異なっていてもよい。それは、異なるパディング及びストライディング構成を使用することができる。それは、異なる分類関数(例えば、シグモイド又は回帰)を使用することができ、全結合層を含んでも含まなくてもよい。それは、1D重畳、2D重畳、3D重畳、4D重畳、5D重畳、拡張又は無性重畳、転置重畳、奥行分離可能な重畳、1×1重畳、グループ重畳、扁平重畳、空間及びクロスチャネルの重畳、シャッフルされたグループ化重畳、空間的な分離可能な重畳、及び逆重畳を使用することができる。それは、ロジスティック回帰/対数損失、多クラスクロスエントロピー/ソフトマックス損失、二値クロスエントロピー損失、平均二乗誤差損失、L1損失、L2損失、平滑L1損失、及びHuber損失などの1つ又はそれ以上の損失機能を使用することができる。それは、TFRecord、圧縮符号化(例えば、PNG)、シャープ化、マップ変換に対する平行コール、バッチング、プリフェッチ、モデル並列、データ並列、及び同期/非同期SGDのような、任意の並列、効率、及び圧縮方式を使用することができる。これは、アップサンプリング層、ダウンサンプリング層、反復接続、ゲート及びゲートされたメモリユニット(LSTM又はGRUなど)、残留ブロック、残留接続、ハイウェイ接続、スキップ接続、ペエホル接続、アクティブ化機能(例えば、非線形変換関数は、整流線形ユニット(ReLU)、漏れやすいReLU、指数関数的ライナーユニット(ELU)、シグモイド及び双曲線正接(tanh))、バッチ正規化層、規則化層、ドロップアウト、プール層(例えば、最大又は平均プール)、グローバル平均プール層、及び注意機構のような非線形変換機能を含む。
実験結果及び考察
図36は、ニューラルネットワークベースのベースコーラー218を訓練するために使用される訓練データ内のトリヌクレオチド(3量体)を平衡化する一実施態様を示す。平衡化は、訓練データでのゲノムに関する統計の学習を非常に少なくし、ひいては一般化を改善する。ヒートマップ3602は、「A.baumanni」と呼ばれる第1の有機体のための訓練データ内の平衡化された3量体を示す。ヒープマップ(Heap map)3604は、「E.coli」と呼ばれる第2の有機体のための訓練データ内の平衡化された3量体を示す。
図37は、RTAベースコーラーのベースコール精度をニューラルネットワークベースのベースコーラー218と比較する。図37に示されるように、RTAベースコーラーは、2回の配列決定実行(リード:1及びリード:2)において、より高い誤り率を有する。すなわち、ニューラルネットワークベースのベースコーラー218は、両方の配列決定実行において、RTAベースコーラーよりも性能が優れている。
図38は、RTAベースコーラーのタイル間一般化を同じタイル上でのニューラルネットワークベースのベースコーラー218のものと比較する。すなわち、ニューラルネットワークベースのベースコーラー218では、推論(試験)は、訓練に使用されるのと同じタイルのためのデータ上で実行される。
図39は、RTAベースコーラーのタイル間一般化を、同じタイル上での、及び異なるタイル上でのニューラルネットワークベースのベースコーラー218のものと比較する。すなわち、ニューラルネットワークベースのベースコーラー218は、第1のタイル上のクラスターのためのデータ上で訓練されるが、推論を第2のタイル上のクラスターからのデータ上で実行する。同じタイルの実施態様では、ニューラルネットワークベースのベースコーラー218は、タイル5上のクラスターからのデータ上で訓練され、タイル5上のクラスターからのデータ上で試験される。異なるタイルの実施態様では、ニューラルネットワークベースのベースコーラー218は、タイル10上のクラスターからのデータ上で訓練され、タイル5上のクラスターからのデータ上で試験される。
図40もまた、RTAベースコーラーのタイル間一般化を異なるタイル上でのニューラルネットワークベースのベースコーラー218のものと比較する。異なるタイルの実施態様では、ニューラルネットワークベースのベースコーラー218は、タイル10上のクラスターからのデータ上で訓練され、タイル5上のクラスターからのデータ上で試験された後、タイル20上のクラスターからのデータ上で訓練され、タイル5上のクラスターからのデータ上で試験される。
図41は、ニューラルネットワークベースのベースコーラー218への入力として供給される異なるサイズの画像パッチが、ベースコール精度にどのような変化をもたらすかを示す。両方の配列決定実行(リード:1及びリード:2)において、誤り率は、パッチサイズが3×3から11×11へと増加するにつれて減少している。すなわち、ニューラルネットワークベースのベースコーラー218は、画像パッチが大きいほど、より正確なベースコールを生成する。いくつかの実施態様では、ベースコール精度は、100×100ピクセル以下の画像パッチを使用することによって、計算効率とのバランスが取られる。他の実施態様では、3000×3000ピクセルの大きさの(及びそれより大きい)画像パッチが使用される。
図42、図43、図44、及び図45は、A.baumanni及びE.coliからの訓練データ上でのニューラルネットワークベースのベースコーラー218のレーン間一般化を示す。
図43を参照すると、一実施態様では、ニューラルネットワークベースのベースコーラー218は、フローセルの第1のレーン上のクラスターからのE.coliデータ上で訓練され、フローセルの第1及び第2の両方のレーン上のクラスターからのA.baumanniデータ上で試験される。別の実施態様では、ニューラルネットワークベースのベースコーラー218は、第1のレーン上のクラスターからのA.baumanniデータ上で訓練され、第1及び第2の両方のレーン上のクラスターからのA.baumanniデータ上で試験される。更に別の実施態様では、ニューラルネットワークベースのベースコーラー218は、第2のレーン上のクラスターからのE.coliデータ上で訓練され、第1及び第2の両方のレーン上のクラスターからのA.baumanniデータ上で試験される。また更なる実施態様では、ニューラルネットワークベースのベースコーラー218は、第2のレーン上のクラスターからのA.baumanniデータ上で訓練され、第1及び第2の両方のレーン上のクラスターからのA.baumanniデータ上で試験される。
一実施態様では、ニューラルネットワークベースのベースコーラー218は、フローセルの第1のレーン上のクラスターからのE.coliデータ上で訓練され、フローセルの第1及び第2の両方のレーン上のクラスターからのE.coliデータ上で試験される。別の実施態様では、ニューラルネットワークベースのベースコーラー218は、第1のレーン上のクラスターからのA.baumanniデータ上で訓練され、第1及び第2の両方のレーン上のクラスターからのE.coliデータ上で試験される。更に別の実施態様では、ニューラルネットワークベースのベースコーラー218は、第2のレーン上のクラスターからのE.coliデータ上で訓練され、第1のレーン上のクラスターからのE.coliデータ上で試験される。また更なる実施態様では、ニューラルネットワークベースのベースコーラー218は、第2のレーン上のクラスターからのA.baumanniデータ上で訓練され、第1及び第2の両方のレーン上のクラスターからのE.coliデータ上で試験される。
図43では、ベースコール精度(誤り率によって測定される)が、これらの実施態様のそれぞれについて、2回の配列決定実行(例えば、リード:1及びリード:2)に対して示されている。
図44を参照すると、一実施態様では、ニューラルネットワークベースのベースコーラー218は、フローセルの第1のレーン上のクラスターからのE.coliデータ上で訓練され、第1のレーン上のクラスターからのA.baumanniデータ上で試験される。別の実施態様では、ニューラルネットワークベースのベースコーラー218は、第1のレーン上のクラスターからのA.baumanniデータ上で訓練され、第1のレーン上のクラスターからのA.baumanniデータ上で試験される。更に別の実施態様では、ニューラルネットワークベースのベースコーラー218は、第2のレーン上のクラスターからのE.coliデータ上で訓練され、第1のレーン上のクラスターからのA.baumanniデータ上で試験される。また更なる実施態様では、ニューラルネットワークベースのベースコーラー218は、第2のレーン上のクラスターからのA.baumanniデータ上で訓練され、第1のレーン上のクラスターからのA.baumanniデータ上で試験される。
一実施態様では、ニューラルネットワークベースのベースコーラー218は、フローセルの第1のレーン上のクラスターからのE.coliデータ上で訓練され、第1のレーン上のクラスターからのE.coliデータ上で試験される。別の実施態様では、ニューラルネットワークベースのベースコーラー218は、第1のレーン上のクラスターからのA.baumanniデータ上で訓練され、第1のレーン上のクラスターからのE.coliデータ上で試験される。更に別の実施態様では、ニューラルネットワークベースのベースコーラー218は、第2のレーン上のクラスターからのE.coliデータ上で訓練され、第1のレーン上のクラスターからのE.coliデータ上で試験される。また更なる実施態様では、ニューラルネットワークベースのベースコーラー218は、第2のレーン上のクラスターからのA.baumanniデータ上で訓練され、第1のレーン上のクラスターからのE.coliデータ上で試験される。
図44では、ベースコール精度(誤り率によって測定される)が、これらの実施態様のそれぞれについて、2回の配列決定実行(例えば、リード:1及びリード:2)に対して示されている。図43を図44と比較すると、後者によってカバーされる実施態様が50~80パーセントの誤り低減をもたらすことを見ることができる。
図45を参照すると、一実施態様では、ニューラルネットワークベースのベースコーラー218は、フローセルの第1のレーン上のクラスターからのE.coliデータ上で訓練され、第2のレーン上のクラスターからのA.baumanniデータ上で試験される。別の実施態様では、ニューラルネットワークベースのベースコーラー218は、第1のレーン上のクラスターからのA.baumanniデータ上で訓練され、第2のレーン上のクラスターからのA.baumanniデータ上で試験される。更に別の実施態様では、ニューラルネットワークベースのベースコーラー218は、第2のレーン上のクラスターからのE.coliデータ上で訓練され、第1のレーン上のクラスターからのA.baumanniデータ上で試験される。第2の第1のレーン内。また更なる実施態様では、ニューラルネットワークベースのベースコーラー218は、第2のレーン上のクラスターからのA.baumanniデータ上で訓練され、第2のレーン上のクラスターからのA.baumanniデータ上で試験される。
一実施態様では、ニューラルネットワークベースのベースコーラー218は、フローセルの第1のレーン上のクラスターからのE.coliデータ上で訓練され、第2のレーン上のクラスターからのE.coliデータ上で試験される。別の実施態様では、ニューラルネットワークベースのベースコーラー218は、第1のレーン上のクラスターからのA.baumanniデータ上で訓練され、第2のレーン上のクラスターからのE.coliデータ上で試験される。更に別の実施態様では、ニューラルネットワークベースのベースコーラー218は、第2のレーン上のクラスターからのE.coliデータ上で訓練され、第2のレーン上のクラスターからのE.coliデータ上で試験される。また更なる実施態様では、ニューラルネットワークベースのベースコーラー218は、第2のレーン上のクラスターからのA.baumanniデータ上で訓練され、第2のレーン上のクラスターからのE.coliデータ上で試験される。
図45では、ベースコール精度(誤り率によって測定される)が、これらの実施態様のそれぞれについて、2回の配列決定実行(例えば、リード:1及びリード:2)に対して示されている。図43を図45と比較すると、後者によってカバーされる実施態様が50~80パーセントの誤り低減をもたらすことを見ることができる。
図46は、図42、図43、図44、及び図45に関して上述したレーン間一般化のための誤りプロファイルを示す。一実施態様では、誤りプロファイルは、緑色チャネル内のA及びT塩基のベースコールにおける誤りを検出する。
図47は、図46の誤りプロファイルによって検出された誤りの発生源が緑色チャネルにおける低いクラスター強度に帰属することを示す。
図48は、2回の配列決定実行(リード1及びリード2)についてのRTAベースコーラー及びニューラルネットワークベースのベースコーラー218の誤りプロファイルを比較する。この比較により、ニューラルネットワークベースのベースコーラー218の優れたベースコール精度が確認される。
図49aは、4つの異なる器具上でのニューラルネットワークベースのベースコーラー218の実行間一般化を示す。
図49bは、同じ器具上で実施された4つの異なる実行上でのニューラルネットワークベースのベースコーラー218の実行間一般化を示す。
図50は、ニューラルネットワークベースのベースコーラー218を訓練するために使用される訓練データのゲノム統計を示す。
図51は、ニューラルネットワークベースのベースコーラー218を訓練するために使用される訓練データのゲノムコンテキストを示す。
図52は、ロングリード(例えば、2×250)のベースコールにおけるニューラルネットワークベースのベースコーラー218のベースコール精度を示す。
図53は、ニューラルネットワークベースのベースコーラー218が、画像パッチ間にわたって中央クラスターピクセル及びその隣接ピクセルにどのように着目するかの一実施態様を示す。
図54は、一実施態様による、ニューラルネットワークベースのベースコーラー218を訓練及び実行するために使用される様々なハードウェア構成要素及び構成を示す。他の実施態様では、異なるハードウェア構成要素及び構成が使用される。
図55は、ニューラルネットワークベースのベースコーラー218を使用して実施することができる様々な配列決定タスクを示す。いくつかの実施例としては、品質スコアリング(QScoring)及びバリアント分類が挙げられる。図55はまた、ニューラルネットワークベースのベースコーラー218がベースコールを実行するいくつかの例示的な配列決定器具も示す。
図56は、t分布型確率的近傍埋め込み法(t-SNE)によって可視化された散布図5600であり、ニューラルネットワークベースのベースコーラー218のベースコール結果を表現する。散布図5600は、ベースコール結果が64(4)個のグループにクラスター化され、各グループが主に特定の入力3量体(トリヌクレオチド反復パターン)に対応していることを示す。これは、ニューラルネットワークベースのベースコーラー218が、少なくとも3つの配列決定サイクルのための入力データを処理し、配列特異的なモチーフを学習して、現在のベースコールを前の及び継続的なベースコールに基づいて生成するからである。
品質スコアリング
品質スコアリングは、各ベースコールに品質スコアを割り当てるプロセスを指す。品質スコアは、配列決定トレースの予測特徴の値を品質テーブルに基づいて確率に変換する、Phredフレームワークに従って定義される。品質テーブルは、較正データセット上で訓練することによって取得され、配列決定プラットフォームの特性が変化するときに更新される。品質スコアの確率的な解釈は、バリアントコール及び配列アセンブリなどの下流の分析において異なる配列決定リードの適正な統合を可能にする。したがって、品質スコアを定義するための有効なモデルが、いずれのベースコーラーにも不可欠である。
最初に、品質スコアがどのようなものであるかについて説明する。品質スコアは、ベースコールにおける配列決定誤りの確率の尺度である。高い品質スコアは、ベースコールがより信頼でき、不正確である可能性がより低いことを意味する。例えば、ある塩基の品質スコアがQ30である場合、この塩基が不正確にコールされている確率は0.001である。これはまた、ベースコール精度が99.9%であることも示す。
以下の表は、ベースコール品質スコアと、それらに対応する誤り確率、ベースコール精度率、及びベースコール誤り率との関係を示す。
Figure 2022526470000025
次に、品質スコアがどのように生成されるかについて説明する。配列決定実行中、品質スコアは、全ての配列決定サイクルのそれぞれについて、全てのタイルのそれぞれの上で、全てのクラスターのそれぞれのための各ベースコールに割り当てられる。Illumina品質スコアが、各ベースコールに対して2ステップのプロセスで計算される。各ベースコールに対して、品質予測子値の数が計算される。品質予測子値は、ベースコールが抽出されるクラスターの観察可能な特性である。これらは、強度プロファイル及び信号対ノイズ比などの特性を含み、ベースコール信頼性の様々な態様を測定する。それらは、ベースコールの品質と相関するように経験的に決定されている。
品質モデルは、品質テーブル又はQテーブルとしても知られ、品質予測子値の組み合わせを列挙し、それらを対応する品質スコアに関連付ける。この関係は、経験的データを使用する較正プロセスによって決定される。新たな品質スコアを推定するために、品質予測子値は、新しいベースコールに対して計算され、事前較正された品質テーブル内の値と比較される。
次に、品質テーブルがどのように較正されるかについて説明する。較正は、複数の器具上で配列決定された様々な十分に特徴付けられたヒト及び非ヒトサンプルを含む経験的データから統計的な品質テーブルが導出されるプロセスである。Phredアルゴリズムの修正版を使用すると、品質テーブルは、生信号の特性、及びリードを適切な参照に位置合わせすることによって決定された誤り率を使用して開発及び改良される。
次に、品質テーブルが時々変化する理由について説明する。品質テーブルは、特定の器具構成及びバージョンのケミストリーによって生成された実行のための品質スコアを提供する。新しいハードウェア、ソフトウェア、又はケミストリーバージョンなど、配列決定プラットフォームの重要な特性が変化するとき、品質モデルは再較正を必要とする。例えば、配列決定ケミストリーの改善は、新たなデータを正確にスコアリングするために品質テーブルの再較正を必要とし、これは、相当量の処理時間及び計算リソースを消費する。
ニューラルネットワークベースの品質スコアリング
品質予測子値又は品質テーブルを使用せず、代わりに、十分に較正されたニューラルネットワークの予測に対する信頼性から品質スコアを推論する、品質スコアリングのためのニューラルネットワークベースの技術を開示する。ニューラルネットワークの文脈において、「較正」とは、主観的な予測と経験的な長期にわたる頻度との間の一貫性又は相関を指す。これは、頻度論者の確実性の観念であり、ニューラルネットワークが、時間の90%で、特定のラベルが正しいラベルであると主張する場合、評価中、正しいものとなる確率90%が与えられた全てのラベルの90%は、正しいラベルである。較正は、精度に対して直交性の関係であることに留意されたい。すなわち、ニューラルネットワークの予測は、正確であっても誤較正され得る。
開示されるニューラルネットワークは、現実世界の配列決定実行のベースコールドメインを適切にモデル化する多様な配列決定特性を有する大規模な訓練セット上で訓練されるため、十分に較正される。特に、様々な配列決定プラットフォーム、配列決定器具、配列決定プロトコル、配列決定ケミストリー、配列決定試薬、クラスター密度、及びフローセルから得られた配列決定画像が、ニューラルネットワークを訓練するための訓練実施例として使用される。他の実施態様では、異なるベースコール及び品質スコアリングモデルは、異なる配列決定プラットフォーム、配列決定器具、配列決定プロトコル、配列決定ケミストリー、配列決定試薬、クラスター密度、及び/又はフローセルに対してそれぞれ使用される。
4つのベースコールクラス(A、C、T、及びG)のそれぞれについて、多数の配列決定画像が、広範な配列決定条件の下で対応のベースコールクラスを表す強度パターンを識別する訓練実施例として使用される。これにより、結果として、ニューラルネットワークの分類能力を訓練中に存在しない新しいクラスにまで拡張する必要性がなくなる。更に、各訓練実施例は、リードを適切な参照に位置合わせすることに基づいて、対応するグラウンドトゥルースで正確にラベル付けされる。結果としてもたらされるのは、予測に対する信頼性を、以下に数学的に表現される、品質スコアリングのための確実性尺度として解釈することができる、十分に較正されたニューラルネットワークである。
Y={A,C,T,G}はベースコールクラスA、C、T、及びGのためのクラスラベルのセットを示し、Xは入力の空間を示すとする。Nθ(y|x)は、開示されたニューラルネットワークのうちの1つが入力x∈X上で予測する確率分布を示し、θはニューラルネットワークのパラメータを示すとする。正しいラベルyを有する訓練実施例xに対して、ニューラルネットワークはラベル
Figure 2022526470000026
を予測する。予測は、
Figure 2022526470000027
であればc=1、そうでなければ0の正確性スコアと、信頼性スコア
Figure 2022526470000028
とを取得する。
ニューラルネットワークNθ(y|x)は、全ての(x,y)∈D及びr=αにわたって、c=1である確率がαであるため、データ分布Dに対して十分に較正されている。例えば、Dからのサンプルから、100個の予測が得られ、それぞれが信頼性0.8を有する場合、80個は、ニューラルネットワークNθ(y|x)によって正確に分類される。より形式的には、Pθ,D(r,c)は、D上でのニューラルネットワークNθ(y|x)の予測のr及びc値に対する分布を示し、
Figure 2022526470000029
として表現され、式中、Iαは、αの周囲の小さい非ゼロの間隔を示す。
十分に較正されたニューラルネットワークは、品質予測子値又は品質テーブルとは異なり、多様な訓練セット上で訓練されるため、それらは、器具構成及びケミストリーバージョンに固有のものではない。これは、2つの利点を有する。第1に、異なる種類の配列決定器具に対して、十分に較正されたニューラルネットワークは、異なる品質テーブルを別個の較正プロセスから導出する必要性をなくす。第2に、同じ配列決定器具に対して、十分に較正されたニューラルネットワークは、配列決定器具の特性が変化するときの再較正の必要性をなくす。以下の詳細がある。
ソフトマックス信頼確率からの品質スコアの推論
第1の十分に較正されたニューラルネットワークは、配列決定画像108から導出された入力データを処理し、塩基がA、C、T、及びGであることのベースコール信頼確率を生成する、ニューラルネットワークベースのベースコーラー218である。ベースコール信頼確率はまた、尤度又は分類スコアと見なすこともできる。一実施態様では、ニューラルネットワークベースのベースコーラー218は、ソフトマックス関数を使用して、ベースコール信頼確率をソフトマックススコアとして生成する。
ソフトマックススコアは、較正され(すなわち、それらはグラウンドトゥルース正確性尤度を表す)、したがって、当然のことながら、品質スコアに対応するため、品質スコアは、ニューラルネットワークベースのベースコーラー218のソフトマックス関数によって生成されるベースコール信頼確率から推論される。
訓練中にニューラルネットワークベースのベースコーラー218によって生成されたベースコール信頼確率のセットを選択し、それらのベースコール誤り率(又はベースコール精度率)を決定することによって、ベースコール信頼確率と品質スコアとの間の対応を具体的に説明する。
それで、例えば、ニューラルネットワークベースのベースコーラー218によって生成されたベースコール信頼確率「0.90」を選択する。ニューラルネットワークベースのベースコーラー218が0.90のソフトマックススコアでベースコール予測を行ったときに多数(例えば、10000~1000000の範囲)のインスタンスを取得する。多数のインスタンスは、妥当性検査セット又は試験セットのいずれかから取得することができる。次いで、多数のインスタンスのうちの対応のインスタンスに関連付けられた対応するグラウンドトゥルースベースコールとの比較に基づいて、多数のインスタンスのうちのどれだけでベースコール予測が正しかったかを判定する。
ベースコールが多数のインスタンスの90パーセントで正確に予測され、誤コールは10パーセントだったことを観察する。これは、0.90のソフトマックススコアに対して、ベースコール誤り率が10%であり、ベースコール精度率が90%であることを意味し、これは、結果として、品質スコアQ10に対応する(上の表を参照)。同様に、0.99、0.999、0.9999、0.99999、及び0.999999のような他のソフトマックススコアに対して、それぞれ、品質スコアQ20、Q30、Q40、Q50、及びQ60との対応を観察する。これは、図59aに示されている。他の実施態様では、ソフトマックススコアと、Q9、Q11、Q12、Q23、Q25、Q29、Q37、及びQ39などの品質スコアとの間の対応を観察する。
また、ビニングされた品質スコアとの対応も観察する。例えば、0.80のソフトマックススコアはビニングされた品質スコアQ06に対応し、0.95のソフトマックススコアはビニングされた品質スコアQ15に対応し、0.993のソフトマックススコアはビニングされた品質スコアQ22に対応し、0.997のソフトマックススコアはビニングされた品質スコアQ27に対応し、0.9991のソフトマックススコアはビニングされた品質スコアQ33に対応し、0.9995のソフトマックススコアはビニングされた品質スコアQ37に対応し、0.9999のソフトマックススコアはビニングされた品質スコアQ40に対応する。これは、図59bに示されている。
本明細書において使用されるサンプルサイズは、小さなサンプルの問題を回避するために大きくなっており、例えば、10000~1000000の範囲とすることができる。いくつかの実施態様では、ベースコール誤り率(又はベースコール精度率)を決定するために使用されるインスタンスのサンプルサイズは、評価されているソフトマックススコアに基づいて選択される。例えば、0.99のソフトマックススコアに対して、サンプルは、100個のインスタンスを含み、0.999のソフトマックススコアに対して、サンプルは、1000個のインスタンスを含み、0.9999のソフトマックススコアに対して、サンプルは、10000個のインスタンスを含み、0.99999のソフトマックススコアに対して、サンプルは、100000個のインスタンスを含み、0.999999のソフトマックススコアに対して、サンプルは、1000000個のインスタンスを含む。
ソフトマックスに関しては、ソフトマックスは、多クラス分類のための出力活性化関数である。形式的には、いわゆるソフトマックス分類器を訓練することは、クラス確率への回帰であり、クラスを返すのではなく、各クラスの尤度の信頼性予測を返すので、真の分類器ではない。ソフトマックス関数は、値のクラスを取り、それらを、合計すると1になる確率値に変換する。ソフトマックス関数は、任意の実数値のk次元ベクトルを0~1の範囲内の実数値のk次元ベクトルにスカッシュする。したがって、ソフトマックス関数を使用することは、出力が、有効な指数関数的に正規化された確率質量関数である(非負かつ合計して1になる)ことを確実にする。
Figure 2022526470000030
がベクトル
Figure 2022526470000031
のi番目の要素であると考える。
Figure 2022526470000032
式中
Figure 2022526470000033
は長さnのベクトルであり、nは分類内のクラスの数である。これらの要素は、0~1の値を有し、それらが有効な確率分布を表すように、合計すると1になる。
例示的なソフトマックス活性化関数5706を図57に示す。ソフトマックス5706は、
Figure 2022526470000034
として3つのクラスに適用される。3つの出力は常に、合計すると1になることに留意されたい。したがって、それらは、離散確率質量関数を定義する。
分類に使用される場合、
Figure 2022526470000035
は、クラスi内にある確率を与える。
Figure 2022526470000036
「ソフトマックス」という名前は、多少の混乱を与え得る。この関数は、max関数よりも、argmax関数により密接に関連する。用語「ソフト」は、ソフトマックス関数が連続的かつ微分可能であるという事実に由来する。結果がワンホットベクトルとして表現される、argmax関数は、連続的でも微分可能でもない。したがって、ソフトマックス関数は、argmaxの「ソフト化された」バージョンを提供する。恐らく、ソフトマックス関数を「softargmax」と呼ぶことがより適切であるであろうが、現在の名前は、確立した慣習となっている。
図57は、品質スコアリングのためにニューラルネットワークベースのベースコーラー218のベースコール信頼確率3004を選択する(5700)一実施態様を示す。ニューラルネットワークベースのベースコーラー218のベースコール信頼確率3004は、分類スコア(例えば、ソフトマックススコア又はシグモイドスコア)又は回帰スコアとすることができる。一実施態様では、ベースコール信頼確率3004は、訓練3000中に生成される。
いくつかの実施態様では、選択5700は、量子化に基づいて行われ、この量子化は、ベースコール信頼確率3004にアクセスし、量子化された分類スコア5704を生成する量子化器5702によって実行される。量子化された分類スコア5704は、任意の実数とすることができる。一実施態様では、量子化された分類スコア5704は、
Figure 2022526470000037
として定義される選択式に基づいて選択される。別の実施態様では、量子化された分類スコア5704は、
Figure 2022526470000038
として定義される選択式に基づいて選択される。
図58は、ニューラルネットワークベースの品質スコアリング5800の一実施態様を示す。量子化された分類スコア5704のそれぞれについて、ベースコール誤り率5808及び/又はベースコール精度率5810は、そのベースコール予測3004を対応するグラウンドトゥルースベースコール3008と比較することによって決定される(例えば、様々なサンプルサイズを有するバッチにわたって)。比較は、比較器5802によって実行され、比較器は、結果として、ベースコール誤り率判定器5804及びベースコール精度率判定部5806を含む。
次いで、量子化された分類スコア5704と品質スコアとの間の対応を確立するために、適合が、量子化された分類スコア5704とそれらのベースコール誤り率5808(及び/又はそれらのベースコール精度率5810)との間で適合判定器5812によって決定される。一実施態様では、適合判定器5812は回帰モデルである。
適合に基づいて、品質スコアは、相関器5814によって、量子化された分類スコア5704と相関させられる。
図59a~図59bは、品質スコアとニューラルネットワークベースのベースコーラー218によって行われたベースコール信頼性予測との間の対応5900の一実施態様を示す。ニューラルネットワークベースのベースコーラー218のベースコール信頼確率は、分類スコア(例えば、ソフトマックススコア又はシグモイドスコア)又は回帰スコアとすることができる。図59aは、品質スコアのための品質スコア対応スキーム5900aである。図59bは、ビニングされた品質スコアのための品質スコア対応スキーム5900aである。
推論
図60は、推論6000中にニューラルネットワークベースのベースコーラー218によって行われたベースコール信頼性予測から品質スコアを推論する一実施態様を示す。ニューラルネットワークベースのベースコーラー218のベースコール信頼確率は、分類スコア(例えば、ソフトマックススコア又はシグモイドスコア)又は回帰スコアとすることができる。
推論6000の間、予測されたベースコール6006には、そのベースコール信頼確率(すなわち、最も高いソフトマックススコア(赤色))が最も対応する品質スコア6008が割り当てられる。いくつかの実施態様では、品質スコア対応5900は、品質スコア対応スキーム5900a~5900bをルックアップすることによって作成され、品質スコア推論器6012によって操作可能になっている。
いくつかの実施態様では、チャステティ(chastity)フィルタ6010が、所与のクラスターのベースコールを、そのコールベースに割り当てられた品質スコア6008、又は継続的なベースコールサイクルにわたる平均品質スコアが、予め設定された閾値を下回るときに終了させる。
推論6000は、バッチングなどの平行四辺形技術を含む、数百、数千、及び/又は数百万回の前方伝搬6014を含む。推論6000は、入力データを(配列決定画像108から導出された画像チャネル及び/又は補足的なチャネル(例えば、距離チャネル、スケーリングチャネル)と共に)含む推論データ6002上で実行される。推測6000は、テスタ6004によって動作可能である。
ベースコール品質の直接予測
第2の十分に較正されたニューラルネットワークは、配列決定画像108から導出された入力データを処理し、品質指標を直接生成する、ニューラルネットワークベースの品質スコアラー6102である。
一実施態様では、ニューラルネットワークベースの品質スコアラー6102は、多層パーセプトロン(MLP)である。別の実施態様では、ニューラルネットワークベースの品質スコアラー6102は、フィードフォワードニューラルネットワークである。更に別の実施態様では、ニューラルネットワークベースの品質スコアラー6102は、全結合型ニューラルネットワークである。更なる実施態様では、ニューラルネットワークベースの品質スコアラー6102は、完全畳み込みニューラルネットワークである。また更なる実施態様では、ニューラルネットワークベースの品質スコアラー6102は、セマンティックセグメンテーションニューラルネットワークである。
一実施態様では、ニューラルネットワークベースの品質スコアラー6102は、複数の畳み込み層を有する畳み込みニューラルネットワーク(CNN)である。別の実施態様では、長・短期記憶ネットワーク(LSTM)、双方向LSTM(Bi-LSTM)、又はゲート付き回帰型ユニット(GRU)などの反復ニューラルネットワーク(RNN)である。更に別の実施態様では、CNN及びRNNの両方を含む。
更に他の実施態様では、ニューラルネットワークベースの品質スコアラー6102は、1D重畳、2D重畳、3D重畳、4D重畳、5D重畳、拡張又は無性重畳、転置重畳、奥行分離可能な重畳、点単位の重畳、1x1重畳、グループ重畳、扁平重畳、空間及びクロスチャネルの重畳、シャッフルされたグループ化重畳、空間的な分離可能な重畳、並びに逆重畳を使用することができる。それは、ロジスティック回帰/対数損失、多クラスクロスエントロピー/ソフトマックス損失、二値クロスエントロピー損失、平均二乗誤差損失、L1損失、L2損失、平滑L1損失、及びHuber損失などの1つ又はそれ以上の損失機能を使用することができる。それは、TFRecord、圧縮符号化(例えば、PNG)、シャープ化、マップ変換に対する平行コール、バッチング、プリフェッチ、モデル並列、データ並列、及び同期/非同期SGDのような、任意の並列、効率、及び圧縮方式を使用することができる。これは、アップサンプリング層、ダウンサンプリング層、反復接続、ゲート及びゲートされたメモリユニット(LSTM又はGRUなど)、残留ブロック、残留接続、ハイウェイ接続、スキップ接続、ペエホル接続、アクティブ化機能(例えば、非線形変換関数は、整流線形ユニット(ReLU)、漏れやすいReLU、指数関数的ライナーユニット(ELU)、シグモイド及び双曲線正接(tanh))、バッチ正規化層、規則化層、ドロップアウト、プール層(例えば、最大又は平均プール)、グローバル平均プール層、及び注意機構のような非線形変換機能を含む。
いくつかの実施態様では、ニューラルネットワークベースの品質スコアラー6102は、ニューラルネットワークベースのベースコーラー218と同じアーキテクチャを有する。
入力データは、配列決定画像108から導出された画像チャネル及び/又は補足的なチャネル(例えば、距離チャネル、スケーリングチャネル)を含むことができる。ニューラルネットワークベースの品質スコアラー6102は、入力データを処理し、入力データの代替表現を生成する。代替表現は、いくつかの実施態様では畳み込み表現であり、他の実施態様では隠れ表現である。次いで、代替表現は、出力層によって処理されて、出力を生成する。出力は、品質指標を生成するために使用される。
一実施態様では、同じ入力データがニューラルネットワークベースのベースコーラー218及びニューラルネットワークベースの品質スコアラーラ6102に供給されて、(i)ニューラルネットワークベースのベースコーラー218からのベースコール、及び(ii)ニューラルネットワークベースの品質スコアラーラ6102からの対応する品質指標を生成する。いくつかの実施態様では、ニューラルネットワークベースのベースコーラー218及びニューラルネットワークベースの品質スコアラー6102は、エンドツーエンドの逆伝播で一緒に訓練される。
一実施態様では、ニューラルネットワークベースの品質スコアラー6102は、特定の配列決定サイクルのために、単一のターゲットクラスターのための品質指標を出力する。別の実施態様では、特定の配列決定サイクルのために、複数のターゲットクラスター内の各ターゲットクラスターのための品質指標を出力する。更に別の実施態様では、複数の配列決定サイクル内の各配列決定サイクルのために、複数のターゲットクラスター内の各ターゲットクラスターのための品質指標を出力し、それによって、各ターゲットクラスターのための品質指標配列を生成する。
一実施態様では、ニューラルネットワークベースの品質スコアラー6102は、配列決定画像108からのデータを含み、ベースコール品質グラウンドトゥルースでラベル付けされた訓練実施例上で訓練された畳み込みニューラルネットワークである。ニューラルネットワークベースの品質スコアラー6102は、畳み込みニューラルネットワーク6102のベースコール品質予測6104をベースコール品質グラウンドトゥルース6108と漸進的に一致させる逆伝播ベースの勾配更新技術を使用して訓練される。いくつかの実施態様では、塩基を、それが誤ったベースコールである場合は0として、そうでない場合は1としてラベル付けする。その結果、出力は、誤りの確率に対応する。一実施態様では、これにより、入力特徴として配列コンテキストを使用する必要性がなくなる。
畳み込みニューラルネットワーク6102の入力モジュールは、1つ又はそれ以上の配列決定サイクルにおいて捕捉された配列決定画像108からのデータを、1つ又はそれ以上のクラスターのためにコールされた1つ又はそれ以上の塩基の品質を判定するための畳み込みニューラルネットワーク6102に供給する。
畳み込みニューラルネットワーク6102の出力モジュールは、畳み込みニューラルネットワーク6102による分析を、1つ又はそれ以上のクラスターのためにコールされた1つ又はそれ以上の塩基の品質を識別する出力6202に変換する。
一実施態様では、出力モジュールは、高品質、中品質(任意選択であり、点線で示されている)、及び低品質である品質状態の尤度を生成するソフトマックス分類層を更に含む。別の実施態様では、出力モジュールは、高品質及び低品質である品質状態の尤度を生成するソフトマックス分類層を更に含む。当業者であれば、品質スコアを異なるようにかつ識別可能にバケット化する他のクラスが使用され得ることを理解するであろう。ソフトマックス分類層は、複数の品質スコアが割り当てられている品質について尤度を生成する。これらの尤度に基づいて、品質は、複数の品質スコアのうちの1つから品質スコアが割り当てられる。複数の品質スコアは、ベースコール誤り確率に対数的に基づいている。複数の品質スコアは、Q6、Q10、Q15、Q20、Q22、Q27、Q30、Q33、Q37、Q40、及びQ50を含む。別の実施態様では、出力モジュールは、品質を識別する連続的な値を生成する回帰層を更に含む。
いくつかの実施態様では、ニューラルネットワークベースの品質スコアラー6102は、配列決定画像108からのデータをコールされた塩基のための品質予測子値で補足し、品質予測子値を配列決定画像からのデータと共に畳み込みニューラルネットワーク6102に供給する、補足的な入力モジュールを更に含む。
いくつかの実施態様では、品質予測子値としては、オンライン重複、純度、フェージング、開始5(start5)、6量体スコア、モチーフ蓄積、エンジネス(endiness)、近似的なホモポリマー、強度減衰、最後から2番目のチャステティ、背景との信号重複(SOWB)、及び/又はシフトされた純度G調整が挙げられる。他の実施態様では、品質予測子値としては、ピーク高さ、ピーク幅、ピーク位置、相対ピーク位置、ピーク高さ比、ピーク間隔比、及び/又はピーク対応が挙げられる。品質予測子値に関する更なる詳細は、本明細書に完全に記載されているかのように参照により組み込まれる、米国特許出願公開第2018/0274023号及び同第2012/0020537号に見出すことができる。
訓練
図61は、配列決定画像108から導出された入力データを処理し、品質指標を直接生成するように、ニューラルネットワークベースの品質スコアラー6102を訓練する(6100)一実施態様を示す。ニューラルネットワークベースの品質スコアラー6102は、予測された品質指標6104を正しい品質指標6108と比較し、比較に基づいて誤差6106を計算する、逆伝播ベースの勾配更新技術を使用して訓練される。そのとき、誤差6106は勾配を計算するために使用され、勾配は、後方伝播6110中にニューラルネットワークベースの品質スコアラー6102の重み及びパラメータに適用される。訓練6100は、アダムなどの確率的勾配更新アルゴリズムを使用して、訓練器1510によって操作可能である。
訓練器1510は、訓練データ6112(配列決定画像108に由来する)を使用して、ニューラルネットワークベースの品質スコアラー6102を、予測された品質指標を生成する前方伝播6116及び誤差6106に基づいて重み及びパラメータを更新する後方伝播6110の数千~数百万回の反復にわたって訓練する。いくつかの実施態様では、訓練データ6112は、品質予測子値6114で補足される。訓練6100に関する更なる詳細は、「深層学習ツール」と題された付録に見出すことができる。
推論
図62は、推論6200中にニューラルネットワークベースの品質スコアラー6102の出力として品質指標を直接生成する一実施態様を示す。推論6200は、バッチングなどの平行四辺形技術を含む、数百、数千、及び/又は数百万回の前方伝搬6208を含む。推論6200は、入力データを(配列決定画像108から導出された画像チャネル及び/又は補足的なチャネル(例えば、距離チャネル、スケーリングチャネル)と共に)含む推論データ6204上で実行される。いくつかの実施態様では、推論データ6204は、品質予測子値6206で補足される。推測6200は、テスタ6210によって動作可能である。
データ前処理
いくつかの実施態様では、開示される技術は、画像データ202内のピクセルに適用され、前処理された画像データ202pを生成する前処理技術を使用する。このような実施態様では、画像データ202の代わりに、前処理された画像データ202pが、ニューラルネットワークベースのベースコーラー218への入力として提供される。データ前処理は、データプリプロセッサ6602によって操作可能になっており、データプリプロセッサは、結果として、データ正規化器6632及びデータ増強器6634を含むことができる。
図66は、データ正規化及びデータ増強を含むことができる、データ前処理の異なる実施態様を示す。
データ正規化
一実施態様では、データ正規化が、画像データ202内のピクセルに画像パッチごとに適用される。これは、結果として得られる正規化された画像パッチのピクセル強度ヒストグラムが、0の5パーセンタイル及び1の95パーセンタイルを有するように、画像パッチ内のピクセルの強度値を正規化することを含む。すなわち、正規化された画像パッチでは、(i)5%のピクセルは、0未満の強度値を有し、(ii)別の5%のピクセルは、1を超える強度値を有する。画像データ202のそれぞれの画像パッチは、別個に正規化することができ、又は画像データ202は、一度に全て正規化することができる。結果としてもたらされるのは、正規化された画像パッチ6616であり、これは、前処理された画像データ202pの一例である。データ正規化は、データ正規化器6632によって操作可能になっている。
データ増強
一実施態様では、データ増強は、画像データ202内のピクセルの強度値に適用される。これは、(i)画像データ202内の全てのピクセルの強度値に同じスケーリング係数を乗算することと、(ii)画像データ202内の全てのピクセルのスケーリングされた強度値に同じオフセット値を加算することと、を含む。単一のピクセルの場合、これは、以下の式によって表すことができる。
増強されたピクセル強度(API)=aX+b
式中、aはスケーリング係数、Xは元のピクセル強度、bはオフセット値、aXはスケーリングされたピクセル強度である
結果としてもたらされるのは、増強された画像パッチ6626であり、これもまた、前処理された画像データ202pの一例である。データ増強は、データ増強器6634によって操作可能になっている。
図67は、ニューラルネットワークベースのベースコーラー218が、細菌データ上で訓練され、ヒトデータ上で試験されるとき(細菌データ及びヒトデータは同じアッセイを共有する(例えば、両方ともイントロンデータを含む))、図66のデータ正規化技術(DeepRTA(norm))及びデータ増強技術(DeepRTA(augment))がベースコール誤り率を減少させることを示す。
図68は、ニューラルネットワークベースのベースコーラー218が、非エクソンデータ(例えば、イントロンデータ)上で訓練され、エクソンデータ上で試験されるとき、図66のデータ正規化技術(DeepRTA(norm))及びデータ増強技術(DeepRTA(augment))がベースコール誤り率を減少させることを示す。
換言すれば、図66のデータ正規化及びデータ増強技術により、ニューラルネットワークベースのベースコーラー218は、訓練では見られなかったデータ上でより良好に一般化し、ひいては過剰適合を低減することが可能になる。
一実施態様では、データ増強は、訓練中及び推論中の両方に適用される。別の実施態様では、データ増強は、訓練中にのみ適用される。更に別の実施態様では、データ増強は、推論中にのみ適用される。
配列決定システム
図63A及び63Bは、配列決定システム6300Aの一実施態様を示す。配列決定システム6300Aは、構成可能プロセッサ6346を含む。構成可能プロセッサ6346は、本明細書に開示されるベースコール技術を実施態様する。配列決定システムは、「シーケンサ」とも称される。
配列決定システム6300Aは、生物学的物質又は化学物質のうちの少なくとも1つに関連する任意の情報又はデータを得ることができる。いくつかの実施態様では、配列決定システム6300Aは、ベンチトップデバイス又はデスクトップコンピュータと同様であり得るワークステーションである。例えば、所望の反応を実施するためのシステム及び構成要素の大部分(又は全て)は、共通のハウジング6302内にあってもよい。
特定の実施態様では、配列決定システム6300Aは、de novo sequencing、全ゲノム又は標的ゲノム領域の再配列、及びメタゲノミクスを含むがこれらに限定されない、様々な用途のために構成された核酸配列決定システムである。シーケンサはまた、DNA又はRNA分析に使用されてもよい。いくつかの実施態様では、配列決定システム6300Aはまた、バイオセンサー内に反応部位を生成するように構成されてもよい。例えば、配列決定システム6300Aは、サンプルを受容し、サンプル由来のクロノウイルス増幅核酸の表面結合クラスターを生成するように構成され得る。各クラスターは、バイオセンサー内の反応部位を構成するか、又はその一部であってもよい。
例示的な配列決定システム6300Aは、バイオセンサー6312と相互作用して、バイオセンサー6312内で所望の反応を行うように構成されたシステム容器又はインターフェース6310を含んでもよい。図63Aに関して以下の説明では、バイオセンサー6312はシステム受け部6310内に装填される。しかしながら、バイオセンサー6312を含むカートリッジは、システム受け部6310に挿入されてもよく、一部の状態では、カートリッジは一時的又は永久的に除去され得ることが理解される。上述のように、カートリッジは、とりわけ、流体制御及び流体貯蔵構成要素を含んでもよい。
特定の実施態様では、配列決定システム6300Aは、バイオセンサー6312内で多数の平行反応を行うように構成されている。バイオセンサー6312は、所望の反応が生じ得る1つ又はそれ以上の反応部位を含む。反応部位は、例えば、バイオセンサーの固体表面に固定化されてもよく、又はバイオセンサーの対応する反応チャンバ内に位置するビーズ(又は他の可動基材)に固定化されてもよい。反応部位は、例えば、クロノウイルス増幅核酸のクラスターを含むことができる。バイオセンサー6312は、固体撮像装置(例えば、CCD又はCMOSイメージャ)及びそれに取り付けられたフローセルを含んでもよい。フローセルは、配列決定システム6300Aから溶液を受容し、溶液を反応部位に向けて方向付ける1つ又はそれ以上の流路を含んでもよい。任意選択的に、バイオセンサー6312は、熱エネルギーを流路の内外に伝達するための熱要素と係合するように構成することができる。
配列決定システム6300Aは、相互に相互作用して、生物学的又は化学的分析のための所定の方法又はアッセイプロトコルを実行する、様々な構成要素、アセンブリ、及びシステム(又はサブシステム)を含んでもよい。例えば、配列決定システム6300Aは、配列決定システム6300Aの様々な構成要素、アセンブリ、及びサブシステムと通信してもよく、またバイオセンサー6312も含むシステムコントローラ6306を含む。例えば、システム容器6310に加えて、配列決定システム6300Aはまた、配列決定システム6300Aの流体ネットワーク及びバイオセンサー6312の流体の流れを制御する流体制御システム6308と、バイオアッセイシステムによって使用され得る全ての流体(例えば、気体又は液体)を保持する流体貯蔵システム6314と、流体ネットワーク、流体貯蔵システム6314及び/又はバイオセンサー6312内の流体の温度を調節し得る温度制御システム6304と、バイオセンサー6312を照明するように構成された照明システム6316と、を備えていてもよい。上述のように、バイオセンサー6312を有するカートリッジがシステム容器6310内に装填される場合、カートリッジはまた、流体制御及び流体貯蔵構成要素を含んでもよい。
また、配列決定システム6300Aは、ユーザーと対話するユーザーインターフェース6318を含んでもよい。例えば、ユーザーインターフェース6318は、ユーザーから情報を表示又は要求するディスプレイ6320と、ユーザー入力を受け取るためのユーザー入力デバイス6322とを含むことができる。いくつかの実施態様では、ディスプレイ6320及びユーザー入力デバイス6322は、同じデバイスである。例えば、ユーザーインターフェース6318は、個々のタッチの存在を検出し、またディスプレイ上のタッチの場所を識別するように構成されたタッチ感知ディスプレイを含んでもよい。しかしながら、マウス、タッチパッド、キーボード、キーパッド、ハンドヘルドスキャナー、音声認識システム、動き認識システムなどの他のユーザー入力デバイス6322が使用されてもよい。以下でより詳細に説明するように、配列決定システム6300Aは、所望の反応を実施するために、バイオセンサー6312(例えば、カートリッジの形態)を含む様々な構成要素と通信してもよい。配列決定システム6300Aはまた、バイオセンサーから得られたデータを分析して、ユーザーに所望の情報を提供するように構成されてもよい。
システムコントローラ6306は、マイクロコントローラ、低減命令セットコンピュータ(RISC)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、粗粒化再構成可能構造(CGRAs)、論理回路、及び本明細書に記載される機能を実行することができる任意の他の回路又はプロセッサと、を備える。上記の実施例は、例示的なものに過ぎず、したがって、システムコントローラという用語の定義及び/又は意味を制限することを意図するものではない。例示的実施態様では、システムコントローラ6306は、検出データを取得し分析する少なくとも1つのために、1つ又はそれ以上の記憶要素、メモリ、又はモジュール内に記憶された命令のセットを実行する。検出データは、ピクセル信号の複数のシーケンスを含むことができ、それにより、数百万個のセンサー(又はピクセル)のそれぞれからのピクセル信号のシーケンスを、多くのベースコールサイクルにわたって検出することができる。記憶要素は、配列決定システム6300A内の情報源又は物理メモリ要素の形態であってもよい。
命令セットは、本明細書に記載される様々な実施態様の方法及びプロセスなどの特定の動作を実行するように配列決定システム6300A又はバイオセンサー6312に指示する様々なコマンドを含んでもよい。命令のセットは、有形の非一時的コンピュータ可読媒体又は媒体の一部を形成し得るソフトウェアプログラムの形態であってもよい。本明細書で使用するとき、用語「ソフトウェア」及び「ファームウェア」は互換可能であり、RAMメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、及び不揮発性RAM(NVRAM)メモリを含むコンピュータによって実行されるメモリに記憶された任意のコンピュータプログラムを含む。上記メモリタイプは、例示的なものに過ぎず、したがって、コンピュータプログラムの記憶に使用可能なメモリの種類に限定されない。
ソフトウェアは、システムソフトウェア又はアプリケーションソフトウェアなどの様々な形態であってもよい。更に、ソフトウェアは、別個のプログラムの集合、又はより大きいプログラム内のプログラムモジュール若しくはプログラムモジュールの一部の形態であってもよい。ソフトウェアはまた、オブジェクト指向プログラミングの形態のモジュール式プログラミングを含んでもよい。検出データを取得した後、検出データは、ユーザー入力に応じて処理された配列決定システム6300Aによって自動的に処理されてもよく、又は別の処理マシン(例えば、通信リンクを介したリモート要求)によって行われる要求に応じて処理されてもよい。図示の別の実施態様では、システムコントローラ6306は分析モジュール6344を含む。他の別の実施態様では、システムコントローラ6306は分析モジュール6344を含まず、代わりに分析モジュール6344へのアクセスを有する(例えば、分析モジュール6344は、クラウド上で別個にホスティングされ得る)。
システムコントローラ6306は、通信リンクを介して、バイオセンサー6312及び配列決定システム6300Aの他の構成要素に接続されてもよい。システムコントローラ6306はまた、オフサイトシステム又はサーバに通信可能に接続されてもよい。通信リンクは、配線、コード、又は無線であってもよい。システムコントローラ6306は、ユーザーインターフェース6318及びユーザー入力デバイス6322からユーザー入力又はコマンドを受信してもよい。
流体制御システム6308は、流体ネットワークを含み、流体ネットワークを通る1つ又はそれ以上の流体の流れを方向付けるように構成されている。流体ネットワークは、バイオセンサー6312及び流体貯蔵システム6314と流体連通していてもよい。例えば、流体貯蔵システム6314から流体を選択し、制御された方法でバイオセンサー6312に向けてもよく、又は流体は、バイオセンサー6312から引き出され、例えば、流体貯蔵システム6314内の廃棄物リザーバに向けられてもよい。図示されていないが、流体制御システム6308は、流体ネットワーク内の流体の流量又は圧力を検出する流量センサーを含んでもよい。センサーは、システムコントローラ6306と通信してもよい。
温度制御システム6304は、流体ネットワーク、流体貯蔵システム6314及び/又はバイオセンサー6312の異なる領域における流体の温度を調節するように構成されている。例えば、温度制御システム6304は、バイオセンサー6312と相互作用し、バイオセンサー6312内の反応部位に沿って流れる流体の温度を制御する熱循環器を含んでもよい。温度制御システム6304はまた、配列決定システム6300A又はバイオセンサー6312の中実要素又は構成要素の温度を調節してもよい。図示されていないが、温度制御システム6304は、流体又は他の構成要素の温度を検出するためのセンサーを含んでもよい。センサーは、システムコントローラ6306と通信してもよい。
流体貯蔵システム6314は、バイオセンサー6312と流体連通しており、所望の反応を行うために使用される様々な反応成分又は反応物質を貯蔵してもよい。流体貯蔵システム6314はまた、流体ネットワーク及びバイオセンサー6312を洗浄又は洗浄し、反応物質を希釈するための流体を貯蔵してもよい。例えば、流体貯蔵システム6314は、試料、試薬、酵素、他の生体分子、緩衝液、水性、及び非極性溶液などを保存するための様々なリザーバを含んでもよい。更に、流体貯蔵システム6314はまた、バイオセンサー6312から廃棄物を受容するための廃棄物リザーバを含んでもよい。カートリッジを含む実施態様形態では、カートリッジは、流体貯蔵システム、流体制御システム、又は温度制御システムのうちの1つ又はそれ以上を含み得る。したがって、これらのシステムに関する本明細書に記載される構成要素のうちの1つ又はそれ以上は、カートリッジハウジング内に収容され得る。例えば、カートリッジは、サンプル、試薬、酵素、他の生体分子、緩衝液、水性、及び非極性溶液、廃棄物などを保存するための様々なリザーバを有し得る。したがって、流体貯蔵システム、流体制御システム、又は温度制御システムのうちの1つ又はそれ以上は、カートリッジ又は他のバイオセンサーを介してバイオアッセイシステムと取り外し可能に係合され得る。
照明システム6316は、バイオセンサーを照明するための光源(例えば、1つ又はそれ以上のLED)及び複数の光学構成要素を含んでもよい。光源の例としては、レーザー、アークランプ、LED、又はレーザーダイオードが挙げられる。光学部品は、例えば、反射器、偏光板、ビームスプリッタ、コリマ、レンズ、フィルタ、ウェッジ、プリズム、鏡、検出器などであってもよい。照明システムを使用する実施態様では、照明システム6316は、励起光を反応部位に向けるように構成されてもよい。一例として、蛍光団は、緑色の光の波長によって励起されてもよく、そのため、励起光の波長は約532nmであり得る。一実施態様では、照明システム6316は、バイオセンサー6312の表面の表面法線に平行な照明を生成するように構成されている。別の実施態様では、照明システム6316は、バイオセンサー6312の表面の表面法線に対してオフアングルである照明を生成するように構成されている。更に別の実施態様では、照明システム6316は、いくつかの平行照明及びある程度のオフアングル照明を含む複数の角度を有する照明を生成するように構成されている。
システム容器又はインターフェース6310は、機械的、電気的、及び流体的な方法のうちの少なくとも1つにおいてバイオセンサー6312と係合するように構成される。システム受け部6310は、バイオセンサー6312を所望の配向に保持して、バイオセンサー6312を通る流体の流れを容易にすることができる。システム受け部6310はまた、バイオセンサー6312と係合するように構成された電気接点を含んでもよく、それにより、配列決定システム6300Aは、バイオセンサー6312と通信してもよく、及び/又はバイオセンサー6312に電力を供給することができる。更に、システム容器6310は、バイオセンサー6312と係合するように構成された流体ポート(例えば、ノズル)を含んでもよい。いくつかの実施態様では、バイオセンサー6312は、電気的に、また流体方式で、システム受け部6310に取り外し可能に連結される。
加えて、配列決定システム6300Aは、他のシステム若しくはネットワークと遠隔で、又は他のバイオアッセイシステム6300Aと通信してもよい。バイオアッセイシステム6300Aによって得られた検出データは、リモートデータベースに記憶されてもよい。
図63Bは、図63Aのシステムで使用することができるシステムコントローラ6306のブロック図である。一実施態様では、システムコントローラ6306は、互いに通信することができる1つ又はそれ以上のプロセッサ又はモジュールを含む。プロセッサ又はモジュールのそれぞれは、特定のプロセスを実行するためのアルゴリズム(例えば、有形及び/又は非一時的コンピュータ可読記憶媒体上に記憶された命令)又はサブアルゴリズムを含んでもよい。システムコントローラ6306は、モジュールの集合として概念的に例示されるが、専用ハードウェアボード、DSP、プロセッサなどの任意の組み合わせを利用して実施態様されてもよい。あるいは、システムコントローラ6306は、単一のプロセッサ又は複数のプロセッサを備えた既製のPCを使用して実施態様されてもよく、機能動作はプロセッサ間に分散される。更なる選択肢として、以下に記載されるモジュールは、特定のモジュール式機能が専用ハードウェアを利用して実施されるハイブリッド構成を利用して実施態様されてもよく、残りのモジュール式機能は、既製のPCなどを利用して実施される。モジュールはまた、処理ユニット内のソフトウェアモジュールとして実施態様されてもよい。
動作中、通信ポート6350は、バイオセンサー6312(図63A)及び/又はサブシステム6308、6314、6304(図63A)から情報(例えば、データ)に情報(例えば、コマンド)を送信してもよい。実施態様形態では、通信ポート6350は、ピクセル信号の複数のシーケンスを出力することができる。通信リンク6334は、ユーザーインターフェース6318からユーザー入力を受信し(図63A)、ユーザーインターフェース6318にデータ又は情報を送信してもよい。バイオセンサー6312又はサブシステム6308、6314、6304からのデータは、バイオアッセイセッション中に、システムコントローラ6306によってリアルタイムで処理されてもよい。追加的に又は代替的に、データは、バイオアッセイセッション中にシステムメモリ内に一時的に記憶され、リアルタイム又はオフライン操作よりも遅く処理されてもよい。
図63Bに示すように、システムコントローラ6306は、中心処理装置(CPU)6352と共に主制御モジュール6324と通信する複数のモジュール6326~6348を含んでもよい。主制御モジュール6324は、ユーザーインターフェース6318と通信してもよい(図63A)。モジュール6326~6348は、主制御モジュール6324と直接通信するものとして示されているが、モジュール6326~6348はまた、互いに、ユーザーインターフェース6318と、及びバイオセンサー6312と直接通信してもよい。また、モジュール6326~6348は、他のモジュールを介して主制御モジュール6324と通信してもよい。
複数のモジュール6326~6348は、サブシステム6308、6314、6304及び6316とそれぞれ通信するシステムモジュール6328~6332、6326を含む。流体制御モジュール6328は、流体ネットワークを通る1つ又はそれ以上の流体の流れを制御するために、流体制御システム6308と通信して、流体ネットワークの弁及び流量センサーを制御してもよい。流体貯蔵モジュール6330は、流体が低い場合、又は廃棄物リザーバが容量又はその近くにあるときにユーザーに通知することができる。流体貯蔵モジュール6330はまた、流体が所望の温度で貯蔵され得るように、温度制御モジュール6332と通信してもよい。照明モジュール6326は、所望の反応(例えば、結合事象)が生じた後など、プロトコル中に指定された時間で反応部位を照明するために、照明システム6316と通信してもよい。いくつかの実施態様では、照明モジュール6326は、照明システム6316と通信して、指定された角度で反応部位を照明することができる。
複数のモジュール6326~6348はまた、バイオセンサー6312と通信する装置モジュール6336と、バイオセンサー6312に関連する識別情報を判定する識別モジュール6338とを含んでもよい。装置モジュール6336は、例えば、システム容器6310と通信して、バイオセンサーが配列決定システム6300Aとの電気的及び流体的接続を確立したことを確認することができる。識別モジュール6338は、バイオセンサー6312を識別する信号を受信してもよい。識別モジュール6338は、バイオセンサー6312の識別情報を使用して、他の情報をユーザーに提供してもよい。例えば、識別モジュール6338は、ロット番号、製造日、又はバイオセンサー6312で実行されることが推奨されるプロトコルを決定し、その後表示してもよい。
複数のモジュール6326~6348はまた、バイオセンサー6312から信号データ(例えば、画像データ)を受信及び分析する分析モジュール6344(信号処理モジュール又は信号プロセッサとも呼ばれる)も含む。分析モジュール6344は、検出/画像データを記憶するためのメモリ(例えば、RAM又はフラッシュ)を含む。検出データは、ピクセル信号の複数のシーケンスを含むことができ、それにより、数百万個のセンサー(又はピクセル)のそれぞれからのピクセル信号のシーケンスを、多くのベースコールサイクルにわたって検出することができる。信号データは、その後の分析のために記憶されてもよく、又はユーザーインターフェース6318に送信されて、所望の情報をユーザーに表示することができる。いくつかの実施態様では、信号データは、分析モジュール6344が信号データを受信する前に、固体撮像素子(例えば、CMOS画像センサー)によって処理され得る。
分析モジュール6344は、複数の配列決定サイクルのそれぞれにおいて、光検出器から画像データを取得するように構成される。画像データは、光検出器によって検出された発光信号から導出され、ニューラルネットワークベースの品質スコアラー6102及び/又はニューラルネットワークベースのベースコーラー218を介して、複数の配列決定サイクルのそれぞれについて画像データを処理し、複数の配列決定サイクルのそれぞれにおいて分析物のうちの少なくとも一部のためのベースコールを生成する。光検出器は、1つ又はそれ以上のオーバーヘッドカメラ(例えば、バイオセンサー6312上のクラスターの画像を上から撮影するIlluminaのGAIIxのCCDカメラ)の一部であってもよく、又はバイオセンサー6312自体の一部(例えば、バイオセンサー6312上のクラスターの下にあり、底部からのクラスターの画像を取るIlluminaのiSeqのCMOS画像センサー)であってもよい。
光検出器の出力は、それぞれクラスターの強度放出及びそれらの周辺背景を示すシーケンス画像である。シーケンス画像は、配列決定中に配列にヌクレオチドを組み込む結果として生成される強度放出を示す。強度放出は、関連する検体及びそれらの周囲の背景からのものである。シーケンス画像は、メモリ6348に記憶される。
プロトコルモジュール6340及び6342は、メイン制御モジュール6324と通信して、所定のアッセイプロトコルを実施する際にサブシステム6308、6314及び6304の動作を制御する。プロトコルモジュール6340及び6342は、所定のプロトコルに従って特定の動作を実行するように配列決定システム6300Aに指示するための命令セットを含み得る。図示のように、プロトコルモジュールは、シーケンスごとの合成プロセスを実行するための様々なコマンドを発行するように構成された、配列合成(SBS)モジュール6340であってもよい。SBSにおいて、核酸テンプレートに沿った核酸プライマーの伸長を監視して、テンプレート中のヌクレオチド配列を決定する。下にある化学プロセスは、(例えば、ポリメラーゼ酵素により触媒される)又はライゲーション(例えば、リガーゼ酵素により触媒される)であり得る。特定のポリマー系SBSの実施態様では、プライマーに付加されるヌクレオチドの順序及び種類の検出を使用してテンプレートの配列を決定することができるように、蛍光標識ヌクレオチドをテンプレート依存様式でプライマー(それによってプライマーを伸長させる)に添加する。例えば、第1のSBSサイクルを開始するために、1つ又はそれ以上の標識されたヌクレオチド、DNAポリメラーゼなどを、核酸テンプレートのアレイを収容するフローセル内に/それを介して送達することができる。核酸テンプレートは、対応する反応部位に位置してもよい。プライマー伸長が、組み込まれる標識ヌクレオチドを、撮像事象を通して検出することができる、これらの反応部位が検出され得る。撮像イベントの間、照明システム6316は、反応部位に励起光を提供することができる。任意に、ヌクレオチドは、ヌクレオチドがプライマーに添加されると、更なるプライマー伸長を終結する可逆終端特性を更に含むことができる。例えば、可逆的ターミネーター部分を有するヌクレオチド類似体をプライマーに添加して、デブロッキング剤が部分を除去するためにデブロッキング剤が送達されるまで続く伸長が生じ得ない。したがって、可逆終端を使用する別の実施態様では、フローセル(検出前又は検出後)にデブロッキング試薬を送達するために、コマンドを与えることができる。1つ又はそれ以上のコマンドは、様々な送達工程間の洗浄(複数可)をもたらすために与えられ得る。次いで、サイクルをn回繰り返してプライマーをn個のヌクレオチドで伸長させることができ、それによって長さnの配列を検出する。例示的な配列決定技術は、例えば、Bentley et al.,Nature 456:53-59(20063)、国際公開第04/0163497号、米国特許第7,057,026号、国際公開第91/066763号、同第07/123744号、米国特許第7,329,492号、同第7,211,414号、同第7,315,019号、米国特許第7,405,2631号、及び米国特許出願第20063/01470630632号(それぞれ参照により本明細書に組み込まれる)に記載されている。
SBSサイクルのヌクレオチド送達工程では、単一の種類のヌクレオチドのいずれかを一度に送達することができ、又は複数の異なるヌクレオチドタイプ(例えば、A、C、T、及びG)を送達することができる。一度に単一の種類のヌクレオチドのみが存在するヌクレオチド送達構成では、異なるヌクレオチドは、個別化された送達に固有の時間的分離に基づいて区別することができるため、異なるヌクレオチドは別個の標識を有する必要はない。したがって、配列決定方法又は装置は、単一の色検出を使用することができる。例えば、励起源は、単一の波長又は単一の波長範囲の励起のみを提供する必要がある。ある時点で、送達がフローセル内に存在する複数の異なるヌクレオチドをもたらすヌクレオチド送達構成では、異なるヌクレオチドタイプを組み込む部位は、混合物中のそれぞれのヌクレオチドタイプに結合された異なる蛍光標識に基づいて区別することができる。例えば、4つの異なる蛍光団のうちの1つをそれぞれ有する4つの異なるヌクレオチドを使用することができる。一実施態様では、4つの異なるフルオロフォアは、スペクトルの4つの異なる領域における励起を使用して区別することができる。例えば、4つの異なる励起放射線源を使用することができる。あるいは、4つ未満の異なる励起源を使用することができるが、単一源からの励起放射線の光学的濾過を使用して、フローセルにおいて異なる励起放射線の範囲を生成することができる。
いくつかの実施態様では、4つ未満の異なる色を、4つの異なるヌクレオチドを有する混合物中で検出することができる。例えば、ヌクレオチドの対は、同じ波長で検出することができるが、対のうちの1つのメンバーに対する強度の差に基づいて、又は、対の他の部材について検出された信号と比較して明らかなシグナルを出現又は消失させる、対の1つのメンバーへの変化(例えば、化学修飾、光化学修飾、又は物理的改質を行うことを介して)に基づいて区別され得る。4つ未満の色の検出を使用して4つの異なるヌクレオチドを区別するための例示的な装置及び方法が、例えば、米国特許出願第61/5363,294号及び同第61/619,63763号に記載されており、これらはその全体が参照により本明細書に組み込まれる。2012年9月21日に出願された米国特許出願第13/624,200号は、その全体が参照により組み込まれる。
複数のプロトコルモジュールはまた、バイオセンサー6312内の製品を増幅するための流体制御システム6308及び温度制御システム6304にコマンドを発行するように構成された試料調製(又は生成)モジュール6342を含んでもよい。例えば、バイオセンサー6312は、配列決定システム6300Aに係合されてもよい。増幅モジュール6342は、バイオセンサー6312内の反応チャンバに必要な増幅成分を送達するために、流体制御システム6308に命令を発行することができる。他の実施態様では、反応部位は、テンプレートDNA及び/又はプライマーなどの増幅のためのいくつかの成分を既に含有していてもよい。増幅成分を反応チャンバに送達した後、増幅モジュール6342は、既知の増幅プロトコルに従って異なる温度段階を通して温度制御システム6304にサイクルするように指示し得る。いくつかの実施態様では、増幅及び/又はヌクレオチドの取り込みは、等温的に実施される。
SBSモジュール6340は、クローン性アンプリコンのクラスターがフローセルのチャネル内の局所領域上に形成されるブリッジPCRを実行するコマンドを発行することができる。ブリッジPCRを介してアンプリコンを生成した後、アンプリコンを「線形化」して、一本鎖テンプレートDNAを作製してもよく、sstDNA及び配列決定プライマーは、関心領域に隣接する普遍配列にハイブリダイズされてもよい。例えば、合成方法による可逆的ターミネーター系配列決定を、上記のように又は以下のように使用することができる。
各塩基性コーリング又は配列決定サイクルは、例えば、修飾DNAポリメラーゼ及び4種類のヌクレオチドの混合物を使用することによって達成することができる単一の塩基によってsstDNAを延長することができる。異なる種類のヌクレオチドは、固有の蛍光標識を有することができ、各ヌクレオチドは、各サイクルにおいて単一塩基の組み込みのみが生じることを可能にする可逆的ターミネーターを更に有し得る。sstDNA、励起光に単一の塩基を添加した後、反応部位に入射し、蛍光発光を検出することができる。検出後、蛍光標識及びターミネーターは、sstDNAから化学的に切断され得る。別の同様の基本コーリング又は配列決定サイクルは、以下の通りであってもよい。そのような配列決定プロトコルでは、SBSモジュール6340は、バイオセンサー6312を通る試薬及び酵素溶液の流れを方向付けるように流体制御システム6308に指示することができる。本明細書に記載される装置及び方法と共に利用することができる例示的な可逆性ターミネーターベースのSBS方法は、米国特許出願公開第2007/0166705(A1)号、米国特許出願公開第2006/016363901(A1)号、米国特許第7,057,026号、米国特許出願公開第2006/0240439(A1)号、米国特許出願公開第2006/026314714709(A1)号、国際公開第05/0656314号、米国特許出願公開第2005/014700900(A1)号、国際公開第06/063B199号及び国際公開第07/01470251号(それぞれ参照によりその全体が本明細書に組み込まれる)に記載されている。可逆性ターミネーター系SBSの例示的な試薬は、米国特許第7,541,444号、米国特許第7,057,026号、同第7,414,14716号、同第7,427,673号、同第7,566,537号、同第7,592,435号、及び国際公開第07/1463353663号に記載されており、これらはそれぞれ参照によりその全体が本明細書に組み込まれる。
いくつかの実施態様では、増幅及びSBSモジュールは、単一のアッセイプロトコルで動作してもよく、例えば、テンプレート核酸は増幅され、続いて同じカートリッジ内で配列される。
配列決定システム6300Aはまた、ユーザーがアッセイプロトコルを再構成することを可能にし得る。例えば、決定システム6300Aは、決定されたプロトコルを修正するために、ユーザーインターフェース6318を通じてユーザーにオプションを提供することができる。例えば、バイオセンサー6312が増幅のために使用されると判定された場合、配列決定システム6300Aは、アニーリングサイクルの温度を要求し得る。更に、配列決定システム6300Aは、選択されたアッセイプロトコルに対して一般的に許容されないユーザー入力をユーザーが提供した場合に、ユーザーに警告を発行し得る。
実施態様形態では、バイオセンサー6312は、センサー(又はピクセル)のミリオンを含み、それらのそれぞれは、連続するベースコールサイクルにわたって複数のピクセル信号のシーケンスを生成する。分析モジュール6344は、センサーのアレイ上のセンサーの行方向及び/又は列方向の位置に従って、ピクセル信号の複数のシーケンスを検出し、それらを対応するセンサー(又はピクセル)に属させる。
図63Cは、ベースコールセンサー出力などの配列決定システム6300Aからのセンサーデータの分析のためのシステムの簡略ブロック図である。図63Cの例では、システムは構成可能プロセッサ6346を含む。構成可能プロセッサ6346は、中心処理ユニット(CPU)6352(すなわち、ホストプロセッサ)によって実行される実行時プログラムと協調して、ベースコーラー(例えば、ニューラルネットワークベースの品質スコアラー6102及び/又はニューラルネットワークベースのベースコーラー218)を実行することができる。配列決定システム6300Aは、バイオセンサー6312及びフローセルを含む。フローセルは、遺伝物質のクラスターが、遺伝物質中の塩基を同定するためにクラスター内の反応を引き起こすために使用される一連の分析物フローに曝露される1つ又はそれ以上のタイルを含み得る。センサーは、タイルデータを提供するために、フローセルの各タイルにおけるシーケンスの各サイクルの反応を検知する。遺伝的配列決定はデータ集約的操作であり、このデータ集約的動作は、ベースコールセンサーデータを、ベースコール動作中に感知された各遺伝物質群のベースコールのシーケンスに変換する。
本実施例のシステムは、ベースコール動作を調整するための実行時プログラムを実行するCPU6352と、タイルデータのアレイのシーケンスを記憶するメモリ6348Bと、ベースコール動作によって生成されたベースコールリードと、ベースコール動作で使用される他の情報とを記憶する。また、この図では、システムは、構成ファイル(又はファイル)、例えば、FPGAビットファイル、並びに構成可能プロセッサ6346を構成及び再構成するために使用されるニューラルネットワークのモデルパラメータなどの構成ファイル(又はファイル)を記憶するメモリ6348Aを含む。配列決定システム6300Aは、構成可能プロセッサを構成するためのプログラムを含むことができ、いくつかの実施形態では、ニューラルネットワークを実行する再構成可能なプロセッサを含み得る。
配列決定システム6300Aは、バス6389によって構成可能プロセッサ6346に結合される。バス6389は、PCI-SIG規格(PCI Special Interest Group)によって現在維持及び開発されているPCIe規格(Peripheral Component Interconnect Express)と互換性のあるバス技術などの高スループット技術を使用して実施態様することができる。また、この例では、メモリ6348Aは、バス6393によって構成可能プロセッサ6346に結合される。メモリ6348Aは、構成可能プロセッサ6346を有する回路基板上に配置されたオンボードメモリであってもよい。メモリ6348Aは、ベースコール動作で使用される作業データの構成可能プロセッサ6346による高速アクセスに使用される。バス6393はまた、PCIe規格と互換性のあるバス技術などの高スループット技術を使用して実施態様することもできる。
フィールドプログラマブルゲートアレイFPGA、粗いグレー構成可能な再構成可能アレイCGRAs、並びに他の構成可能かつ再構成可能なデバイスを含む構成可能なプロセッサは、コンピュータプログラムを実行する汎用プロセッサを使用して達成され得るよりも、より効率的に又はより高速に様々な機能を実施態様するように構成することができる。構成可能なプロセッサの構成は、時にはビットストリーム又はビットファイルと称される構成ファイルを生成するために機能的な説明を編集することと、構成ファイルをプロセッサ上の構成可能要素に配布することと、を含む。構成ファイルは、データフローパターンを設定するように回路を構成することにより、分散メモリ及び他のオンチップメモリリソースの使用、ルックアップテーブルコンテンツ、構成可能な論理ブロックの動作、及び構成可能な論理ブロックの動作、及び構成可能なアレイの構成可能な相互接続及び他の要素のような構成可能な実行ユニットとを含む。構成ファイルがフィールド内で変更され得る場合、ロードされた構成ファイルを変更することによって構成ファイルを変更することができる場合に再構成可能である。例えば、構成ファイルは、揮発性SRAM要素内に、不揮発性読み書きメモリ素子内に記憶されてもよく、構成可能又は再構成可能なプロセッサ上の構成可能要素のアレイ間に分散されたものであってもよい。様々な市販の構成可能なプロセッサは、本明細書に記載されるようなベースコール動作において使用するのに好適である。例としては、Googleのテンソル処理ユニット(TPU)(商標)、GX4 Rackmount Series(商標)、GX9 Rackmount Series(商標)、NVIDIA DGX-1(商標)、Microsoft’ Stratix V FPGA(商標)、GraphcoreのIntelligent Processor Unit(IPU)(商標)、QualcommのZeroth Platform(商標)(Snapdragon processors(商標)、NVIDIA Volta(商標)、NVIDIAのドライブPX(商標)、NVIDIAのJETSON TX1/TX2 MODULE(商標)、Intel’s NirvanaTM、Movidius VPU(商標)、Fujitsu DPI(商標)、アームDynamicIQ(商標)、IBM TrueNorth(商標)、Lambda GPU Server with Testa V100s(商標)、Xilinx Alveo(商標) U200、Xilinx Alveo(商標) U250、Xilinx Alveo(商標) U280、Intel/Altera Stratix(商標) GX2800、Intel/Altera Stratix(商標) GX2800、及びIntel Stratix(商標) GX10M、が含まれる。いくつかの実施例では、ホストCPUは、構成可能プロセッサと同じ集積回路上に実施態様することができる。
本明細書に記載される実施形態は、構成可能プロセッサ6346を使用して、ニューラルネットワークベースの品質スコアラー6102及び/又はニューラルネットワークベースのベースコーラー218を実装する。構成可能プロセッサ6346の構成ファイルは、高レベルの記述言語HDL又はレジスタ転送レベルRTL言語仕様を使用して実行されるロジック機能を指定することによって実施態様することができる。本明細書は、選択された構成可能プロセッサが構成ファイルを生成するように設計されたリソースを使用してコンパイルすることができる。構成可能なプロセッサではない場合がある特定用途向け集積回路の設計を生成する目的で、同じ又は類似の仕様をコンパイルすることができる。
したがって、本明細書に記載される全ての実施形態における構成可能プロセッサ構成可能プロセッサ6346の代替例は、特定用途向けASIC又は専用集積回路又は集積回路のセットを含む構成されたプロセッサを含み、又はシステムオンチップSOCデバイス、又は本明細書に記載されるようなニューラルネットワークベースのベースコール動作を実行するように構成された、システムオンチップSOCデバイス、又はグラフィック処理ユニット(GPU)プロセッサ若しくは粗粒化再構成可能構造(CGRA)プロセッサである。
一般に、ニューラルネットワークの実行を実行するように構成された、本明細書に記載の構成可能なプロセッサ及び構成されたプロセッサは、本明細書ではニューラルネットワークプロセッサと称される。
構成可能プロセッサ6346は、この例では、CPU6352によって実行されるプログラムを使用して、又は構成可能要素6391のアレイを構成する他のソースによってロードされた構成ファイルによって構成される(例えば、構成論理ブロック(CLB)、例えばルックアップテーブル(LUT)、フリップフロップ、演算処理ユニット(PMU)、及び計算メモリユニット(CMU)、構成可能なI/Oブロック、プログラマブル相互接続)を計算して、ベースコール機能を実行する。この例では、構成は、バス6389及び6393に結合され、ベースコール動作で使用される要素間でデータ及び制御パラメータを分散する機能を実行するデータフローロジック6397を含む。
また、構成可能プロセッサ6346は、ニューラルネットワークベースの品質スコアラー6102及び/又はニューラルネットワークベースのベースコーラー218を実行するために、ベースコール実行論理6397を用いて構成される。論理6397は、マルチサイクル実行クラスター(例えば、6379)を含み、この実施例では、実行クラスターXを介した実行クラスター1を含む。多重サイクル実行クラスターの数は、動作の所望のスループットを伴うトレードオフ、及び構成可能プロセッサ6346上の利用可能なリソースに従って選択することができる。
多重サイクル実行クラスターは、構成可能なプロセッサ6346上の構成可能な相互接続及びメモリリソースを使用して実施態様されるデータ流路6399によってデータフローロジック6397に結合される。また、多重サイクル実行クラスターは、例えば構成可能プロセッサ6346上の構成可能な相互接続及びメモリリソースを使用して実装される制御経路6395によってもデータフローロジック6397に結合されており、これらの制御経路は、利用可能な実行クラスター、ニューラルネットワークベースの品質スコアラー6102及び/又はニューラルネットワークベースのベースコーラー218の実行を実施するための入力ユニットを利用可能な実行クラスターに提供する準備ができていること、ニューラルネットワークベースの品質スコアラー6102及び/又はニューラルネットワークベースのベースコーラー218のための訓練されたパラメータを提供する準備ができていること、ベースコール分類データの出力パッチを提供する準備ができていること、並びにニューラルネットワークベースの品質スコアラー6102及び/又はニューラルネットワークベースのベースコーラー218の実行に使用される他の制御データを示す制御信号を提供する。
構成可能プロセッサ6346は、訓練されたパラメータを使用してニューラルネットワークベースの品質スコアラー6102及び/又はニューラルネットワークベースのベースコーラー218の実行を実行して、ベースコール動作の検知サイクルに関する分類データを生成するように構成される。ニューラルネットワークベースの品質スコアラー6102及び/又はニューラルネットワークベースのベースコーラー218の実行を実行して、ベースコール動作の被験者検知サイクルの分類データを生成する。ニューラルネットワークベースの品質スコアラー6102及び/又はニューラルネットワークベースのベースコーラー218の実行は、N個の感知サイクルのそれぞれの検知サイクルからのタイルデータのアレイの数Nを含むシーケンスで動作し、N個の検知サイクルは、本明細書に記載される実施例での時間シーケンスにおける動作ごとの1つの基本位置に対する異なる基本呼び出し動作のためのセンサーデータを提供する。任意選択的に、N個の感知サイクルのうちのいくつかは、実行される特定のニューラルネットワークモデルに従って必要に応じて、シーケンスから出ることができる。数Nは、1を超える任意の数であり得る。本明細書に記載されるいくつかの実施例では、N個の検知サイクルの検知サイクルは、被験者の検知サイクルに先行する少なくとも1つの検知サイクル、及び被験者サイクルの後の少なくとも1回の検知サイクルについての検知サイクルのセットを表す。本明細書では、数Nが5以上の整数である、実施例が記載される。
データフローロジック6397は、N個のアレイの空間的に整合されたパッチのタイルデータを含む所与の実行のための入力ユニットを使用して、ニューラルネットワークベースの品質スコアラー6102及び/又はニューラルネットワークベースのベースコーラー218の実行のために、メモリ6348Aから構成可能プロセッサ6346に、タイルデータ及びモデルパラメータの少なくともいくつかの訓練されたパラメータを移動させるように構成される。入力ユニットは、1回のDMA動作におけるダイレクトメモリアクセス動作によって、又は、配備されたニューラルネットワークの実行と協調して、利用可能なタイムスロットの間に移動するより小さいユニット内で移動させることができる。
本明細書に記載される感知サイクルのタイルデータは、1つ又はそれ以上の特徴を有するセンサーデータのアレイを含むことができる。例えば、センサーデータは、DNA、RNA、又は他の遺伝物質の遺伝的配列における塩基位置で4塩基のうちの1つを同定するために分析される2つの画像を含むことができる。タイルデータはまた、画像及びセンサーに関するメタデータを含むことができる。例えば、ベースコール動作の実施形態では、タイルデータは、タイル上の遺伝物質群の中心からのセンサーデータのアレイ内の各ピクセルの距離を示す中心情報からの距離などの、クラスターとの画像の位置合わせに関する情報を含むことができる。
ニューラルネットワークベースの品質スコアラー6102及び/又はニューラルネットワークベースのベースコーラー218の実行中に、タイルデータはまた、ニューラルネットワークベースの品質スコアラー6102及び/又はニューラルネットワークベースのベースコーラー218の実行中に生成されるデータも含み得る。ニューラルネットワークベースの品質スコアラー6102及び/又はニューラルネットワークベースのベースコーラー218の実行中に再計算されるのではなく再計算することができる中間データと称される。例えば、ニューラルネットワークベースの品質スコアラー6102及び/又はニューラルネットワークベースのベースコーラー218の実行中に、データフローロジック6397は、タイルデータのアレイの所与のパッチのセンサーデータの代わりに、中間データをメモリ6348Aに書き込むことができる。このような実施形態は、以下により詳細に記載される。
図示されているように、ベースコール動作の検知サイクルからタイルのセンサーデータを含むタイルデータを記憶する実行時プログラムによってアクセス可能なメモリ(例えば、6348A)を含む、ベースコールセンサー出力の分析のためのシステムが説明される。また、システムは、メモリへのアクセスを有する構成可能プロセッサ6346などのニューラルネットワークプロセッサを含む。ニューラルネットワークプロセッサは、訓練されたパラメータを使用してニューラルネットワークの実行を実行して、検知サイクルのための分類データを生成するように構成される。本明細書に記載されるように、ニューラルネットワークの実行は、被験者サイクルを含むN個の感知サイクルのそれぞれの感知サイクルからタイルデータのN個のアレイのシーケンスで動作して、被験者サイクルの分類データを生成する。データフローロジック908は、N個の感知サイクルのそれぞれの感知サイクルからのN個のアレイの空間的に整合されたパッチのデータを含む入力ユニットを使用して、ニューラルネットワークの実行のために、メモリからニューラルネットワークプロセッサにタイルデータ及び訓練されたパラメータを移動させるために提供される。
また、ニューラルネットワークプロセッサがメモリへのアクセスを有し、複数の実行クラスターを含み、ニューラルネットワークを実行するように構成された複数の実行クラスター内の実行クラスターを含むシステムも説明される。データフローロジック6397は、メモリへのアクセス、及び複数の実行クラスター内のクラスターを実行して、複数の実行クラスター内の利用可能な実行クラスターにタイルデータの入力ユニットを提供し、入力ユニットは、それぞれの感知サイクルからタイルデータのアレイの空間的に整列されたパッチの数Nを含む、入力ユニットと、被験者検知サイクルを含み、N個の空間的に整合されたパッチをニューラルネットワークに適用して、被験者検知サイクルの空間的に整合されたパッチの分類データの出力パッチを生成させるように、実行クラスターに、ニューラルネットワークにN個の空間的に位置合わせされたパッチを適用させることと、を含み、Nは1より大きい。
図64Aは、ホストプロセッサによって実行される実行時プログラムの機能を含む、ベースコール動作の態様を示す簡略図である。この図では、フローセルからの画像センサーの出力は、ライン6400上で画像処理スレッド6401に提供され、画像処理スレッド8001は、個々のタイルのセンサーデータのアレイ内の位置合わせ及び配置、及び画像の再サンプリングなどの画像上のプロセスを実行することができ、フローセル内の各タイルのタイルクラスターマスクを計算するプロセスによって使用することができ、フローセルの対応するタイル上の遺伝子材料のクラスターに対応するセンサーデータのアレイ内のピクセルを識別するプロセスによって使用することができる。画像処理スレッド6401の出力は、CPU内のディスパッチロジック6410に、ライン6402上に提供され、これは、高速バス6403上又は高速バス6405上のデータキャッシュ6404(例えば、SSD記憶装置)に、ベースコール動作の状態に従って、図63Cの構成可能プロセッサ6346などのニューラルネットワークプロセッサハードウェア6420に転送される。処理され、変換された画像は、以前に使用されたサイクルを検知するために、データキャッシュ6404上に記憶され得る。ハードウェア6420は、ニューラルネットワークによって出力された分類データをディスパッチロジック6464に返し、ディスパッチロジック8080は、情報をデータキャッシュ6404に、又はライン6411上でスレッド6402に渡し、分類データを使用してベースコール及び品質スコア計算を実行し、ベースコール読み取りのための標準フォーマットでデータを配置することができる。ベースコール及び品質スコア計算を実行するスレッド6402の出力は、ベースコールリードを集約するスレッド6403に、ライン6412上に提供され、データ圧縮などの他の動作を実行し、結果として得られるベースコール出力を顧客による利用のために指定された宛先に書き込む。
いくつかの実施形態では、ホストは、ニューラルネットワークを支持するハードウェア6420の出力の最終処理を実行する、スレッド(図示せず)を含むことができる。例えば、ハードウェア6420は、マルチクラスターニューラルネットワークの最終層から分類データの出力を提供することができる。ホストプロセッサは、ベースコール及び品質スコアスレッド6402によって使用されるデータを設定するために、分類データを超えて、ソフトマックス関数などの出力起動機能を実行することができる。また、ホストプロセッサは、ハードウェア6420への入力前のタイルデータのバッチ正規化などの入力動作(図示せず)を実行することができる。
図64Bは、図63Cの構成などの構成可能プロセッサ6346の構成の簡略図である。図64Bでは、構成可能プロセッサ6346は、複数の高速PCIeインターフェースを有するFPGAを含む。FPGAは、図63Cを参照して説明されるデータフローロジック6397を含むラッパー6490を用いて構成される。ラッパー6490は、CPU通信リンク6477を介してCPU内の実行時プログラムとのインターフェース及び調整を管理し、DRAM通信リンク6497を介してオンボードDRAM6499(例えば、メモリ6348A)との通信を管理する。ラッパー6490内のデータフローロジック6397は、数Nのサイクルのために、オンボードDRAM6499上のタイルデータのアレイをクラスター6485まで横断することによって取得されたパッチデータを提供し、クラスター6485からプロセスデータ6487を取得して、オンボードDRAM6499に配信する。ラッパー6490はまた、タイルデータの入力アレイ、及び分類データの出力パッチの両方について、オンボードDRAM6499とホストメモリとの間のデータの転送を管理する。ラッパーは、ライン6483上のパッチデータを割り当てられたクラスター6485に転送する。ラッパーは、オンボードDRAM6499から取得されたクラスター6485にライン6481の重みやバイアスなどの訓練されたパラメータを提供する。ラッパーは、CPU通信リンク6477を介してホスト上のランタイムプログラムから提供されるか、又はそれに応答して生成されるクラスター6485に、ライン6479上の構成及び制御データを提供する。クラスターはまた、ホストからの制御信号と協働して使用されて、空間的に整列したパッチデータを提供し、クラスター6485のリソースを使用して、パッチデータを介して多重サイクルニューラルネットワークをパッチデータの上で実行するために、ホストからの制御信号と協働して使用されるラッパー6490に、ライン6489上の状態信号を提供することができる。
上述のように、タイルデータの複数のパッチのうちの対応するパッチ上で実行するように構成されたラッパー6490によって管理される単一の構成可能なプロセッサ上に複数のクラスターが存在し得る。各クラスターは、本明細書に記載される複数の感知サイクルのタイルデータを使用して、被験者検知サイクルにおけるベースコールの分類データを提供するように構成することができる。
システムの例では、フィルタ重み及びバイアスのようなカーネルデータを含むモデルデータをホストCPUから構成可能プロセッサに送信することができ、その結果、モデルは、サイクル数の関数として更新され得る。ベースコール動作は、代表的な例では、数百の感知サイクルの順序で含むことができる。ベースコール動作は、いくつかの実施形態では、ペアリングされた端部読み取りを含むことができる。例えば、モデル訓練されたパラメータは、20サイクルごと(又は他の数のサイクル)ごとに、又は特定のシステム及びニューラルネットワークモデルに実施態様される更新パターンに従って更新されてもよい。いくつかの実施形態では、タイル上の遺伝的クラスター内の所与のストリングのためのシーケンスが、ストリングの第1の端部から(又は上方に)延在する第1の部分と、ストリングの第2の端部から上方(又は下方)に延在する第2の部分とを含む、ペアリングされた端部リードを含むいくつかの実施形態では、訓練されたパラメータは、第1の部分から第2の部分への遷移で更新され得る。
いくつかの実施例では、タイルのための感知データの複数サイクルの画像データは、CPUから包装材6490に送信され得る。ラッパー6490は、任意選択的に、感知データの一部の前処理及び変換を行い、その情報をオンボードDRAM6499に書き込むことができる。各感知サイクルの入力タイルデータは、タイル当たり4000×3000ピクセル/タイル以上を含むセンサーデータのアレイを含むことができ、2つの特徴はタイルの2つの画像の色を表し、1ピクセル当たり1つ又は2つのバイトを含むセンサーデータのアレイを含むことができる。数Nが、多重サイクルニューラルネットワークの各実施において使用される3回の検知サイクルである実施形態では、多重サイクルニューラルネットワークの各実施のためのタイルデータのアレイは、数当たり数百メガバイトの数で消費することができる。システムのいくつかの実施形態では、タイルデータはまた、タイルごとに1回記憶されたDFCデータのアレイ、又はセンサーデータ及びタイルに関する他のタイプのメタデータも含む。
動作中、多重サイクルクラスターが利用可能である場合、ラッパーは、パッチをクラスターに割り当てる。ラッパーはタイルの横断面にタイルデータの次のパッチをフェッチし、適切な制御及び構成情報と共に割り当てられたクラスターに送信する。クラスターは、構成可能プロセッサ上の十分なメモリを用いて構成されて、パッチを含むデータのパッチを、定位置に処理されているいくつかのシステム内で複数サイクルから保持するのに十分なメモリを有するように構成することができ、様々な実施形態では、ピンポンバッファ技術又はラスタ走査技術を使用して処理される。
割り当てられたクラスターが、現在のパッチのニューラルネットワークのその動作を完了し、出力パッチを生成すると、それはラッパーに信号を送る。ラッパーは、割り当てられたクラスターから出力パッチを読み出すか、あるいは割り当てられたクラスターは、データをラッパーにプッシュする。次いで、ラッパーは、DRAM6499内の処理されたタイルのための出力パッチを組み立てる。タイル全体の処理が完了し、データの出力パッチがDRAMに転送されると、ラッパーは、処理された出力アレイを、特定のフォーマットでホスト/CPUに返送する。いくつかの実施形態では、オンボードDRAM6499は、ラッパー6490内のメモリ管理論理によって管理される。ランタイムプログラムは、リアルタイム分析を提供するために連続フローで実行される全てのサイクルについての全てのタイルデータのアレイの分析を完了するために、配列決定動作を制御することができる。
技術的な改善及び用語
ベースコールは、蛍光標識されたタグを分析物と共に組み込む又は取り付けることを含む。検体は、ヌクレオチド又はオリゴヌクレオチドであってよく、タグは、特定のヌクレオチド型(A、C、T、又はG)であってもよい。励起光は、タグを有する検体に向けられ、タグは検出可能な蛍光シグナル又は強度発光を発する。強度発光は、検体に化学的に結合された励起タグによって放出される光子を示す。
特許請求の範囲を含む本出願全体を通して、「画像、画像データ、又は分析物及びそれらの周囲背景の強度放射を示す画像領域が使用されるとき、それらは、検体に取り付けられたタグの強度放射を指す。当業者であれば、取り付けられたタグの強度放出は、タグが取り付けられている検体の強度放射を表すか、又はそれに相当し、したがって互換的に使用されることを理解するであろう。同様に、検体の特性は、検体に取り付けられたタグ、又は取り付けられたタグからの強度放出の特性を指す。例えば、検体の中心とは、検体に取り付けられたタグによって放出される強度放出の中心を指す。別の実施例では、検体の周囲の背景とは、検体に取り付けられたタグによって放出される強度放射の周囲の背景を指す。
特許、特許出願、論文、書籍、木、及びウェブページが挙げられるがこれらに限定されない、本出願において引用された文献及び類似材料は、その全体が参照により明示的に組み込まれる。組み込まれた文献及び類似の材料のうちの1つ又はそれ以上が、定義された用語、用語使用、記載された技術などを含むがこれらに限定されない、本出願とは異なる、又は矛盾する場合には、この出願は制御する。
開示される技術は、核酸テンプレート又はその相補体、例えば、DNA若しくはRNAポリヌクレオチド又は他の核酸サンプルなどの核酸サンプルから得ることができる核酸配列情報の品質及び量を改善するためにニューラルネットワークを使用する。したがって、開示される技術の特定の実施は、以前に利用可能な方法と比較して、より高いスループットのポリヌクレオチド配列決定、例えば、より高いDNA又はRNA配列データの収集速度、配列データ収集におけるより高い効率、及び/又はそのような配列データを得る低コストを提供する。
開示される技術は、ニューラルネットワークを使用して、固相核酸クラスターの中心を同定し、そのようなクラスターの配列決定中に生成される光信号を解析して、隣接する、隣接する、又は重複するクラスター間で曖昧さなく区別して、単一の離散したソースクラスターに配列決定シグナルを割り当てる。したがって、これら及び関連する実施態様は、高密度クラスターアレイの領域からの、配列データなどの有意義な情報の回収を可能にし、有用な情報は、重複する又は非常に近接して離間配置された隣接クラスターの影響を混乱させることに起因して、そのような領域から以前に得られなかった場合がある。重複するシグナルの効果(例えば、核酸配列決定において使用されるような)の効果を含む。
以下により詳細に記載されるように、特定の実施形態では、本明細書で提供されるように、1つ又は複数の核酸クラスターに固定化された固体支持体を含む組成物が提供される。各クラスターは、同じ配列の複数の固定化された核酸を含み、本明細書で提供されるような検出可能な中心標識を有する識別可能な中心を有し、識別可能な中心は、クラスター内の周囲領域において固定化された核酸と区別可能である。また、識別可能な中心を有するこのようなクラスターを作製及び使用するための方法も本明細書に記載される。
本開示の実施態様は、多数の状況での使用が見出され、その利点は、クラスター内の実質的に中心の位置の位置を識別、決定、アノテーション、記録、ないしは別の方法で割り当てる能力から得られる、多くの状況において使用が見出されるであろう。ハイスループット核酸配列決定、光学的又は他のシグナルを個別のソースクラスターに割り当てるための画像解析アルゴリズムの開発、及び固定化された核酸クラスターの中心の認識が望ましい及び有益である他の用途が望ましい。
特定の実施態様では、本発明は、核酸配列決定(例えば、「配列決定」)などのハイスループット核酸分析に関連する方法を企図する。例示的なハイスループット核酸解析としては、非限定的に、デノボ配列決定、再配列決定、全ゲノム配列決定、遺伝子発現解析、遺伝子発現モニタリング、エピジェネティクス分析、ゲノムメチル化分析、対立遺伝子特異的プライマー伸長(APSE)、遺伝的多様性プロファイリング、全ゲノム多型発見及び解析、単一ヌクレオチド多型解析、ハイブリダイゼーション系配列決定法などが挙げられる。当業者は、様々な異なる核酸が、本発明の方法及び組成物を使用して分析され得ることを理解するであろう。
本発明の実施は核酸配列決定に関連して記載されているが、それらは、異なる時点で取得された画像データ、空間的位置、又は他の時間的若しくは物理的観点で取得された画像データが分析される任意の分野において適用可能である。例えば、本明細書に記載される方法及びシステムは、マイクロアレイ、生物学的検体、細胞、生物などからの画像データが取得され、異なる時点又は視点で取得され、分析される、分子生物学及び細胞生物学の分野において有用である。画像は、蛍光顕微鏡法、光学顕微鏡法、共焦点顕微鏡法、光学画像化法、磁気共鳴画像化法、トモグラフィー走査などが挙げられるが、これらに限定されない、技術分野において既知の任意の数の技術を使用して得ることができる。別の例として、本明細書に記載される方法及びシステムは、監視、空中、又は衛星撮像技術などによって取得された画像データが、異なる時点又は視点で取得され、分析される場合に適用することができる。この方法及びシステムは、視野内で取得された画像を分析するのに特に有用であり、この視野内で、観察される検体は、視野内の互いに対して同じ場所に留まる。しかしながら、検体は、別個の画像で異なる特性を有してもよく、例えば、検体は、視野の別々の画像において異なるように見える場合がある。例えば、検体は、異なる画像で検出された所与の検体の色とは異なるように見える場合があり、異なる画像内の所与の分析物のために検出された信号の強度の変化、又は更には、1つの画像中の所与の分析物の信号の外観、及び別の画像内の検体の信号の消失を示し得る。
本明細書に記載される例は、学術分析又は商業的分析のための様々な生物学的又は化学的プロセス及びシステムにおいて使用されてもよい。より具体的には、本明細書に記載される例は、指定された反応を示すイベント、特性、品質、又は特性を検出することが望ましい様々なプロセス及びシステムにおいて使用されてもよい。例えば、本明細書に記載される例としては、光検出デバイス、バイオセンサー、及びそれらの構成要素、並びにバイオセンサーと共に動作するバイオアッセイシステムが挙げられる。いくつかの実施例では、装置、バイオセンサー、及びシステムは、フローセルと、実質的に一体型構造で一緒に(取り外し可能に又は固定的に)結合された1つ又はそれ以上の光センサーと、を含み得る。
装置、バイオセンサー、及びバイオアッセイシステムは、個別に又は集合的に検出され得る複数の指定された反応を実施するように構成されてもよい。装置、バイオセンサー、及びバイオアッセイシステムは、複数の指定された反応が並行して生じる多数のサイクルを実行するように構成されてもよい。例えば、装置、バイオセンサー、及びバイオアッセイシステムを使用して、酵素操作及び光又は画像検出/捕捉の反復サイクルを通して、DNA特徴の高密度配列を配列することができる。したがって、デバイス、バイオセンサー、及びバイオアッセイシステム(例えば、1つ又はそれ以上のカートリッジを介した)は、試薬又は他の反応成分を反応溶液中に送達する1つ又はそれ以上のマイクロ流体チャネル、バイオセンサー、及びバイオアッセイシステムを含んでもよい。いくつかの実施例では、反応溶液は、約5以下、又は約4以下、又は約3以下のpHを含むなど、実質的に酸性であってもよい。いくつかの他の実施例では、反応溶液は、約8以上、又は約9以上、又は約10以上のpHを含むなど、実質的にアルカリ性/塩基性であってもよい。本明細書で使用するとき、用語「酸性」及びその文法的変異体は、約7未満のpH値を指し、用語「塩基性」、「アルカリ性」及びその文法的変異型は、約7を超えるpH値を指す。
いくつかの実施例では、反応部位は、均一又は反復パターンなどの所定の方法で提供又は離間される。いくつかの他の実施例では、反応部位はランダムに分布している。反応部位のそれぞれは、関連する反応部位からの光を検出する1つ又はそれ以上の光ガイド及び1つ又はそれ以上の光センサーと関連付けることができる。いくつかの実施例では、反応部位は、指定された反応を少なくとも部分的に区画化し得る反応凹部又はチャンバ内に位置する。
本明細書で使用するとき、「指定された反応」は、対象となる検体などの対象となる化学物質又は生物学的物質の化学的、電気的、物理的、又は光学的特性(又は品質)のうちの少なくとも1つの変化を含む。特定の実施例では、指定された反応は、例えば、蛍光標識生体分子を対象とする蛍光標識生体分子の組み込みなどの正の結合事象である。より一般的には、指定された反応は、化学変換、化学変化、又は化学的相互作用であってもよい。指定された反応はまた、電気特性の変化であってもよい。特定の実施例では、指定された反応は、検体と蛍光標識された分子を組み込むことを含む。検体はオリゴヌクレオチドであってもよく、蛍光標識分子はヌクレオチドであってもよい。指定された反応は、励起光が標識ヌクレオチドを有するオリゴヌクレオチドに向けられ、蛍光団が検出可能な蛍光シグナルを発するときに、指定された反応が検出され得る。代替例では、検出された蛍光は、化学発光又は生物発光の結果である。指定された反応はまた、例えば、ドナーフルオロフォアをアクセプタ蛍光団に近接させることによって蛍光(又はForster)共鳴エネルギー移動(FRET)を増加させることができ、ドナーとアクセプタ蛍光団とを分離することによってFRETを減少させ、消光剤をフルオロフォアから分離することによって蛍光を増加させるか、又は消光剤及び蛍光団を共局在させることによって蛍光を減少させることができる。
本明細書で使用するとき、「反応溶液」、「反応成分」又は「反応物質」は、少なくとも1つの指定された反応を得るために使用され得る任意の物質を含む。例えば、潜在的な反応成分としては、例えば、試薬、酵素、サンプル、他の生体分子、及び緩衝液が挙げられる。反応成分は、溶液中の反応部位に送達されてもよく、及び/又は反応部位で固定されてもよい。反応成分は、反応部位で固定化された対象検体などの別の物質と直接又は間接的に相互作用し得る。上記のように、反応溶液は、実質的に酸性であってもよい(すなわち、比較的高い酸性度を含む)(例えば、約5以下のpH、約4以下のpHを含む)、又は約3以下のpH、又は実質的にアルカリ性/塩基性(すなわち、比較的高いアルカリ性/塩基性を含む)(例えば、約8以上のpH、約9以上のpH、又は約10以上のpHを含む)。
本明細書で使用するとき、用語「反応部位」は、少なくとも1つの指定された反応が生じ得る局所的領域である。反応部位は、物質がその上に固定され得る反応構造又は基材の支持表面を含んでもよい。例えば、反応部位は、その上に反応成分、例えば、その上に核酸のコロニーを有する反応構造(フローセルのチャネル内に配置され得る)の表面を含んでもよい。いくつかのこのような実施例では、コロニー中の核酸は同じ配列を有し、例えば、一本鎖又は二本鎖テンプレートのクローンコピーである。しかしながら、いくつかの実施例では、反応部位は、例えば、一本鎖又は二本鎖形態で、単一の核酸分子のみを含有してもよい。
複数の反応部位は、反応構造に沿ってランダムに分布してもよく、又は所定の様式で配置されてもよい(例えば、マイクロアレイなどのマトリックス内の並列)。反応部位はまた、指定された反応を区画化するように構成された空間領域又は容積を少なくとも部分的に画定する反応室又は凹部を含むことができる。本明細書で使用するとき、用語「反応チャンバ」又は「反応凹部」は、支持構造体の画定された空間領域(多くの場合、流路と流体連通している)を含む。反応凹部は、周囲環境又は空間領域から少なくとも部分的に分離されてもよい。例えば、複数の反応凹部は、検出表面などの共有された壁によって互いに分離されてもよい。より具体的な例として、反応凹部は、検出表面の内面によって画定された窪み、ウェル、溝、空洞、又は窪みを含むナノセルであってもよく、ナノセルが流路と流体連通することができるように、開口部又は開口部(すなわち、開側面である)を有することができる。
いくつかの実施例では、反応構造の反応凹部は、固体がその中に完全に又は部分的に挿入され得るように、固体(半固体を含む)に対してサイズ及び形状を定められる。例えば、反応凹部は、捕捉ビーズを収容するような大きさ及び形状であってもよい。捕捉ビーズは、クロノウイルス増幅DNA又はその上の他の物質を有してもよい。あるいは、反応凹部は、およその数のビーズ又は固体基材を受容するような大きさ及び形状であってもよい。別の例として、反応凹部は、拡散又はフィルタ流体又は反応凹部に流入し得る溶液を制御するように構成された多孔質ゲル又は物質で充填されてもよい。
いくつかの実施例では、光センサー(例えば、フォトダイオード)は、対応する反応部位と関連付けられる。反応部位に関連する光センサーは、関連する反応部位において指定された反応が生じたときに、少なくとも1つの光ガイドを介して、関連する反応部位からの光放射を検出するように構成されている。いくつかの場合では、複数の光センサー(例えば、光検出又はカメラデバイスのいくつかのピクセル)は、単一の反応部位に関連付けられてもよい。他の場合では、単一の光センサー(例えば、単一のピクセル)は、単一の反応部位に、又は反応部位の群と関連付けられてもよい。バイオセンサーの光センサー、反応部位、及び他の特徴は、光の少なくとも一部が反射されることなく光センサーによって直接検出されるように構成されてもよい。
本明細書で使用するとき、「生物学的又は化学物質」は、生体分子、対象試料、対象検体、及び他の化学化合物を含む。生物学的物質又は化学物質を使用して、他の化学化合物を検出、同定、若しくは分析するか、又は他の化学化合物を研究又は分析するための仲介として機能してもよい。特定の実施例では、生物学的物質又は化学物質は、生体分子を含む。本明細書で使用するとき、「生体分子」は、バイオポリマー、ヌクレオチド、核酸、ポリヌクレオチド、オリゴヌクレオチド、タンパク質、酵素、ポリペプチド、抗体、抗原、リガンド、受容体、多糖類、炭水化物、ポリリン酸、細胞、組織、生物、若しくはそれらの断片、又は前述の種の類似体若しくは模倣体などの任意の他の生物学的に活性な化学化合物のうちの少なくとも1つを含む。更なる例では、生物学的若しくは化学物質又は生体分子は、酵素又は試薬などの別の反応の生成物、例えば、ピロ配列決定反応においてピロリン酸を検出するために使用される酵素又は試薬などの酵素又は試薬の生成物を検出する。ピロホスフェート検出に有用な酵素及び試薬は、例えば、参照によりその全体が組み込まれる米国特許公開第2005/0244870号に記載されている。
生体分子、試料、及び生物学的物質又は化学物質は、天然に存在しても合成であってもよく、反応凹部又は領域内の溶液又は混合物中に懸濁されてもよい。生体分子、試料、及び生物学的物質又は化学物質もまた、固体相又はゲル材料に結合されてもよい。生体分子、試料、及び生物学的物質又は化学物質はまた、医薬組成物を含んでもよい。場合によっては、対象とする生体分子、試料、及び生物学的物質又は化学物質は、標的、プローブ、又は検体と呼ばれる場合がある。
本明細書で使用するとき、「バイオセンサー」は、反応部位又は反応部位に近接して生じる指定された反応を検出するように構成された複数の反応部位を有する反応構造を含む装置を含む。バイオセンサーは、固体光検出装置又は「撮像」デバイス(例えば、CCD又はCMOS光検出デバイス)、及び任意選択的に、それに取り付けられたフローセルを含んでもよい。フローセルは、反応部位と流体連通する少なくとも1つの流路を含み得る。1つの特定の例として、バイオセンサーは、生物学的アッセイシステムに流体的かつ電気的に結合するように構成される。バイオアッセイシステムは、所定のプロトコル(例えば、配列番号合成)に従って反応部位に反応溶液を送達し、複数の撮像事象を実施してもよい。例えば、バイオアッセイシステムは、反応溶液を反応部位に沿って流すことができる。反応溶液のうちの少なくとも1つは、同じ又は異なる蛍光標識を有する4種類のヌクレオチドを含んでもよい。ヌクレオチドは、反応部位の対応するオリゴヌクレオチドなどに結合してもよい。次いで、バイオアッセイシステムは、励起光源(例えば、発光ダイオード(LED)などの固体光源)を使用して反応部位を照明することができる。励起光は、波長の範囲を含む所定の波長又は波長を有してもよい。入射励起光によって励起された蛍光標識は、光センサーによって検出され得る発光信号(例えば、励起光とは異なる波長又は波長の光、及び潜在的に互いに異なる)を提供することができる。
本明細書で使用するとき、用語「固定化された」は、生体分子又は生物学的物質又は化学物質に関して使用されるとき、生体分子又は生物学的物質又は化学物質を、光検出デバイス又は反応構造の検出表面などの表面に実質的に付着させることを含む。例えば、生体分子又は生物学的物質又は化学物質は、非共有結合(例えば、静電力、ファンデルワールス、及び疎水性界面の脱水)を含む吸着技術、並びに官能基又はリンカーが生体分子の表面への結合を促進する共有結合技術を含む吸着技術を用いて、反応構造の表面に固定化されてもよい。生体分子又は生物学的物質若しくは化学物質を表面に固定化することは、表面の特性、生体分子又は生物学的物質若しくは化学物質を担持する液体媒体、並びに生体分子又は生物学的物質若しくは化学物質自体の特性に基づいてもよい。いくつかの場合において、表面は、生体分子(又は生物学的物質又は化学物質)を表面に固定化するのを容易にするために、表面を官能化(例えば、化学的又は物理的に修飾)してもよい。
いくつかの実施例では、核酸は、その反応凹部の表面などの反応構造に固定化することができる。特定の実施例では、本明細書に記載される装置、バイオセンサー、バイオアッセイシステム及び方法は、天然ヌクレオチド、及び天然ヌクレオチドと相互作用するように構成された酵素の使用を含んでもよい。天然ヌクレオチドとしては、例えば、リボヌクレオチド又はデオキシリボヌクレオチドが挙げられる。天然ヌクレオチドは、一リン酸、二リン酸、又は三リン酸形態であってよく、アデニン(A)、チミン(T)、ウラシル(U)、グアニン(G)、又はシトシン(C)から選択される塩基を有することができる。しかしながら、上記ヌクレオチドの非天然ヌクレオチド、修飾ヌクレオチド、又は類似体を使用することができることが理解されるであろう。
上記のように、生体分子又は生物学的物質又は化学物質は、反応構造の反応凹部内の反応部位に固定されてもよい。このような生体分子又は生物学的物質は、干渉嵌め、接着、共有結合、又は捕捉によって、反応凹部内に物理的に保持又は固定化されてもよい。反応凹部内に配置され得る物品又は固体の例としては、ポリマービーズ、ペレット、アガロースゲル、粉末、量子ドット、又は反応チャンバ内で圧縮及び/又は保持され得る他の固体が挙げられる。特定の実施態様では、反応凹部は、DNAオリゴヌクレオチドに共有結合することができるヒドロゲル層でコーティング又は充填されてもよい。特定の実施例では、DNAボールなどの核酸超構造は、例えば、反応凹部の内面に取り付けることによって、又は反応凹部内に液体中に滞留することによって、反応凹部内又は反応凹部に配置することができる。DNAボール又は他の核酸超構造を実施することができ、次いで、反応凹部内又は反応凹部に配置することができる。あるいは、DNAボールは、反応凹部においてその場で合成することができる。反応凹部内に固定された物質は、固体、液体、又は気体状態であり得る。
本明細書で使用するとき、用語「検体」は、相対位置に従って他の点又は領域と区別することができるパターンの点又は領域を意味することを意図する。個々の分析物は、特定の種類の1つ又はそれ以上の分子を含むことができる。例えば、検体は、特定の配列を有する単一の標的核酸分子を含むことができ、又は検体は、同じ配列(及び/又はその相補的配列)を有するいくつかの核酸分子を含むことができる。パターンの異なる検体である異なる分子は、パターン内の検体の場所に従って互いに分化させることができる。例示的な検体としては、基材中のウェル、基材中又は基材上のビーズ(又は他の粒子)、基材からの突出部、基材上の隆起部、基材上のゲル材料のパッド、又は基材内のチャネルが挙げられる。
検出、特徴付け、又は識別される様々な標的検体のいずれも、本明細書に記載される装置、システム、又は方法で使用することができる。例示的な検体としては、限定するものではないが、核酸(例えば、DNA、RNA又はそれらの類似体)、タンパク質、多糖類、細胞、抗体、エピトープ、受容体、リガンド、酵素(例えば、キナーゼ、ホスファターゼ又はポリメラーゼ)、小分子薬物候補、細胞、ウイルス、生物などが挙げられるが、これらに限定されない。
用語「検体」、「核酸」、「核酸分子」、及び「ポリヌクレオチド」という用語は、本明細書において互換的に使用される。様々な実施態様では、核酸は、特定の種類の核酸分析のために、本明細書で提供されるようなテンプレート(例えば、核酸テンプレート、又は核酸テンプレートに相補的な核酸相補体)として使用されてもよく、核酸増幅、核酸発現解析、及び/又は核酸配列決定、又はこれらの好適な組み合わせが挙げられるが、これらに限定されない。特定の実施における核酸としては、例えば、3’-5’ホスホジエステル中のデオキシリボヌクレオチドの直鎖ポリマー、又はデオキシリボ核酸(DNA)、例えば、一本鎖及び二本鎖DNA、ゲノムDNA、コピーDNA若しくは相補的DNA(cDNA)、組み換えDNA、又は任意の形態の合成DNA若しくは修飾DNAが挙げられる。他の実施態様では、核酸としては、例えば、3’-5’ホスホジエステル中のリボヌクレオチドの直鎖ポリマー、又はリボ核酸(RNA)などの他の結合、例えば、一本鎖及び二本鎖RNA、メッセンジャー(mRNA)、コピーRNA又は相補的RNA(cRNA)、あるいはスプライシングされたmRNA、リボソームRNA、小核RNA(snoRNA)、microRNA(miRNA)、低干渉RNA(sRNA)、ピウイRNA(piRNA)、又は任意の形態の合成若しくは修飾RNA。本発明の組成物及び方法において使用される核酸は、長さが変化してもよく、無傷又は完全長の分子若しくは断片、又はより大きい核酸分子のより小さい部分であってもよい。特定の実施態様では、核酸は、本明細書の他の箇所に記載されるように、1つ又はそれ以上の検出可能な標識を有してもよい。
用語「検体」、「クラスター」、「核酸クラスター」、「核酸コロニー」、及び「DNAクラスター」は互換的に使用され、固体支持体に結合された核酸テンプレート及び/又はその相補体の複数のコピーを指す。典型的には、特定の好ましい実施態様では、核酸クラスターは、それらの5’末端を介して固体支持体に結合されたテンプレート核酸及び/又はその相補体の複数のコピーを含む。核酸クラスターを構成する核酸鎖のコピーは、一本鎖又は二本鎖形態であってよい。クラスター内に存在する核酸テンプレートのコピーは、例えば、標識部分の存在に起因して、互いに異なる対応する位置にヌクレオチドを有することができる。対応する位置はまた、異なる化学構造を有するが、ウラシル及びチミンの場合など、類似のWatson-Crick塩基対形成特性を有するアナログ構造を含むことができる。
核酸のコロニーはまた、「核酸クラスター」と呼ばれることもある。核酸コロニーは、本明細書の他の箇所で更に詳細に記載されるように、クラスター増幅又はブリッジ増幅技術によって任意に作成することができる。標的配列の複数の反復は、ローリングサークル増幅手順を使用して作成された混乱剤などの単一の核酸分子中に存在し得る。
本発明の核酸クラスターは、使用される条件に応じて、異なる形状、サイズ、及び密度を有することができる。例えば、クラスターは、実質的に円形、多面、ドーナツ形、又はリング形状の形状を有することができる。核酸クラスターの直径は、約0.2μm~約6μm、約0.3μm~約4μm、約0.4μm~約3μm、約0.5μm~約2μm、約0.75μm~約1.5μm、又は任意の介在直径であるように設計することができる。特定の実施態様において、核酸クラスターの直径は、約0.5μm、約1μm、約1.5μm、約2μm、約2.5μm、約3μm、約4μm、約5μm、又は約6μmである。核酸クラスターの直径は、クラスターの産生において実施される増幅サイクルの数、核酸テンプレートの長さ、又はクラスターが形成される表面に付着したプライマーの密度を含むが、これらに限定されない多数のパラメータによって影響され得る。核酸クラスターの密度は、典型的には、0.1/mm、1/mm、10/mm2100/mm21,000/mm210,000/mm2100,000/mm2範囲であるように設計することができる。本発明は、一部では、より高密度の核酸クラスター、例えば、100,000/mm~1,000,000/mm、及び1,000,000/mm~10,000,000/mmを更に企図する。
本明細書で使用するとき、「検体」は、検体又は視野内の対象領域である。マイクロアレイデバイス又は他の分子分析デバイスに関連して使用される場合、分析物は、類似又は同一の分子によって占有される領域を指す。例えば、検体は、増幅オリゴヌクレオチド、又は同じ又は類似の配列を有するポリヌクレオチド又はポリペプチドの任意の他の群であり得る。他の実施態様では、検体は、試料上の物理的領域を占有する任意の要素又は要素群であり得る。例えば、分析物は、ランドのパセル、水の本体などであってもよい。分析物が撮像されると、各検体は、一部の領域を有する。したがって、多くの実施態様では、分析物は、単に1つのピクセルではない。
検体間の距離は、任意の数の方法で説明することができる。いくつかの実施態様では、検体間の距離は、1つの分析物の中心から別の分析物の中心まで説明することができる。他の実施態様では、距離は、1つの分析物の縁部から別の分析物の縁部まで、又は各分析物の最も外側の識別可能な点間に記載することができる。分析物の縁部は、チップ上の理論的若しくは実際の物理的境界、又は分析物の境界内のいくつかの点として説明することができる。他の実施態様では、距離は、試料上の固定点、又は試料の画像に関して説明することができる。
一般に、分析方法に関して、いくつかの実施態様が本明細書に記載される。自動又は半自動化方法で方法を実行するためのシステムも提供されることが理解されるであろう。したがって、本開示は、ニューラルネットワークベースのテンプレート生成及びベースコールシステムを提供し、システムは、プロセッサと、記憶装置と、画像解析用のプログラムと、を含むことができ、プログラムは、本明細書に記載される方法のうちの1つ又はそれ以上を実行するための命令を含む。したがって、本明細書に記載される方法は、例えば、本明細書に記載されるか又は技術分野において既知の構成要素を有するコンピュータ上で実行することができる。
本明細書に記載される方法及びシステムは、様々なオブジェクトのうちのいずれかを分析するのに有用である。特に有用な物体は、固体担体又は付着した検体を有する固相表面である。本明細書に記載される方法及びシステムは、xy平面における分析物の繰り返しパターンを有する物体と共に使用される場合、利点を提供する。一例は、細胞、ウイルス、核酸、タンパク質、抗体、炭水化物、小分子(薬物候補など)、生物学的活性分子、又は他の対象検体の集合を有するマイクロアレイである。
核酸及びポリペプチドなどの生物学的分子を有する検体を有するアレイの用途の数が増えてきた。このようなマイクロアレイは、典型的には、デオキシリボ核酸(DNA)又はリボ核酸(RNA)プローブが挙げられる。これらは、ヒト及び他の生物に存在するヌクレオチド配列に特異的である。特定の用途では、例えば、個々のDNA又はRNAプローブをアレイの個々の検体に取り付けることができる。既知のヒト又は生物からのものなどの試験サンプルは、標的核酸(例えば、遺伝子断片、mRNA、又はアンプリコン)が配列中のそれぞれの検体で相補的プローブにハイブリダイズするように、アレイに曝露することができる。プローブは、標的特異的プロセス(例えば、標的核酸上に存在する標識に起因して、又は検体においてハイブリダイズした形態で存在するプローブ又は標的の酵素標識に起因して)標識することができる。次いで、分析物の上の特定の光の周波数を走査して、どの標的核酸が試料中に存在するかを特定することによって検査することができる。
生物学的マイクロアレイは、遺伝子配列決定及び類似の用途に使用され得る。一般に、遺伝子配列決定は、DNA又はRNAの断片などの標的核酸の長さのヌクレオチドの順序を決定することを含む。比較的短い配列は、典型的には、各分析物において配列決定され、得られた配列情報は、様々な生物情報科学法において使用されて、フラグメントが由来する多くの広範な長さの遺伝物質の配列を確実に決定するために、様々な生物情報科学法において使用されてもよい。特徴的断片の自動化されたコンピュータベースのアルゴリズムが開発されており、ゲノムマッピング、遺伝子の同定、及びそれらの機能などにおいて、より最近使用されてきた。マイクロアレイは、多数の変異体が存在するため、ゲノム含有量を特徴付けるのに特に有用であり、このことは、個々のプローブ及び標的に対して多くの実験を実施する代替物であるため、ゲノム含有量を特徴付けるのに特に有用である。マイクロアレイは、実用的な方法でこのような調査を実施するための理想的なフォーマットである。
技術分野において既知の様々な分析物アレイ(「マイクロアレイ」とも呼ばれる)のいずれも、本明細書に記載される方法又はシステムにおいて使用することができる。典型的なアレイは、それぞれが個々のプローブ又はプローブの集団を有する検体を含む。後者の場合、各検体におけるプローブの集団は、典型的には、単一種のプローブを有する均質である。例えば、核酸配列の場合、各検体は、それぞれ共通の配列を有する複数の核酸分子を有することができる。しかしながら、いくつかの実施態様では、アレイの各分析物における集団は、不均質であり得る。同様に、タンパク質配列は、単一のタンパク質又はタンパク質の集団を有する検体を有することができ、典型的には、同じアミノ酸配列を有するが、必ずしもそうではない。プローブは、例えば、プローブを表面に共有結合することによって、又はプローブと表面との非共有相互作用(複数可)を介して、アレイの表面に取り付けることができる。いくつかの実施態様では、核酸分子などのプローブは、例えば、米国特許出願第13/784,368号及び米国特許出願公開第2011/0059865(A1)号に記載されるように(これらはそれぞれ参照により本明細書に組み込まれる)、ゲル層を介して表面に付着させることができる。
例示的なアレイとしては、限定するものではないが、Illumina,Incから入手可能なBeadChipアレイ(San Diego,Calif.)又は、例えば、プローブが、表面上に存在するビーズ(例えば、表面上のウェル内のビーズ)に取り付けられ、それぞれ参照により本明細書に組み込まれる、米国特許第6,266,459号、同第6,355,431号、同第6,770,441号、同第6,859,570号、又は同第7,622,294号、又は国際公開第00/63437号に記載されたものなどの他のものが挙げられる。使用することができる市販のマイクロアレイの更なる例としては、例えば、VLSIPS(商標)(Very Large Scale Immobilized Polymer Synthesis)技術と呼ばれることがある技術に従って合成されたAffymetrix(登録商標)GeneChip(登録商標)マイクロアレイ又は他のマイクロアレイが挙げられる。スポットされたマイクロアレイはまた、本開示のいくつかの実施態様による方法又はシステムにおいて使用することができる。例示的なスポッティングされたマイクロアレイは、Amersham Biosciencesから入手可能なCodeLink(商標) Arrayである。有用な別のマイクロアレイは、Agilent Technologiesから入手可能なSurePrintTM Technologyなどのインクジェット印刷法を使用して製造されるものである。
他の有用な配列としては、核酸配列決定用途で使用されるものが挙げられる。例えば、ゲノム断片(多くの場合、クラスターと呼ばれる)のアンプリコンを有する配列は、それぞれ参照により本明細書に組み込まれる、Bentley et al.,Nature 456:53-59(2008)、国際公開第04/018497号、国際公開第91/06678号、国際公開第07/123744号、米国特許第7,329,492号、同第7,211,414号、同第7,315,019号、同第7,405,281号、若しくは同第7,057,026号、又は米国特許出願公開第2008/0108082(A1)号に記載されているものなどが特に有用である。核酸配列決定に有用な別の種類の配列は、エマルションPCR技術から生成される粒子の配列である。実施例は、Dressman et al.,Proc.Natl.Acad.Sci.USA 100:8817-8822(2003)、国際公開第05/010145号、米国特許出願公開第2005/0130173号又は同第2005/0064460号に記載されており、これらはそれぞれその全体が参照により本明細書に組み込まれる。
核酸配列に使用される配列は、多くの場合、核酸分析物のランダムな空間パターンを有する。例えば、Illumina Incから入手可能なHiSeq又はMiSeq配列決定プラットフォーム(San Diego,Calif.)は、核酸配列がランダム播種、続いてブリッジ増幅によって形成されるフローセルを利用する。しかしながら、パターン化された配列は、核酸配列又は他の分析用途にも使用することができる。パターン化されたアレイの例、それらの使用方法及びその使用方法は、米国特許出願第13/787,396号、同第13/783,043号、同第13/784,368号、米国特許出願公開第2013/0116153(A1)号、及び同第2012/0316086(A1)号に記載されており、これらはそれぞれ参照により本明細書に組み込まれる。このようなパターン化された配列の分析物を使用して、単一の核酸テンプレート分子を捕捉して、例えば、ブリッジ増幅を介して、均質なコロニーの後続の形成を行うことができる。このようなパターン化された配列は、核酸配列決定用途に特に有用である。
アレイ(又は本明細書の方法又はシステムで使用される他の物体)上の検体のサイズは、特定の用途に適するように選択することができる。例えば、いくつかの実施態様では、アレイの分析物は、単一の核酸分子のみを収容するサイズを有することができる。このサイズ範囲の複数の検体を有する表面は、単一分子分解能で検出するための分子の配列を構築するのに有用である。このサイズ範囲の検体もまた、核酸分子のコロニーをそれぞれ含む検体を有するアレイでの使用にも有用である。したがって、アレイの検体はそれぞれ、約1mm以下、約500μm以下、約100μm以下、約10μm以下、約1μm以下、約500nm以下、又は約100nm以下、約10nm以下、約5nm以下、又は約1nm以下の面積を有することができる。代替的に又は追加的に、アレイの検体は、約1mm以上、約500μm以上、約100μm以上、約10μm以上、約1μm以上、約500nm以上、約100nm以上、約10nm以上、約5nm以上、又は約1nm以上である。実際に、検体は、上記に例示したものから選択される上限と下限との間の範囲内の大きさを有することができる。表面の検体のいくつかのサイズ範囲が核酸及び核酸のスケールに関して例示されてきたが、これらのサイズ範囲の検体は、核酸を含まない用途に使用できることが理解されるであろう。検体のサイズは、核酸用途に使用されるスケールに必ずしも限定される必要はないことが更に理解されるであろう。
分析物のアレイなどの複数の検体を有する物体を含む実施例では、検体は、互いの間の空間で分離されている、別個のものとすることができる。本発明において有用なアレイは、最大で100μm、50μm、10μm、5μm、1μm、0.5μm以下の縁部から縁部までの距離によって分離される分析物を有することができる。代替的に又は追加的に、アレイは、少なくとも0.5μm、1μm、5μm、10μm、50μm、100μm、又はそれ以上の縁部から縁部までの距離によって分離される分析物を有することができる。これらの範囲は、分析物の平均縁部間隔及び縁部間隔、並びに最小又は最大間隔に適用することができる。
いくつかの実施態様では、アレイの分析物は、別個である必要はなく、代わりに、隣接する検体は互いに当接することができる。検体が別個であるか否かに関わらず、検体及び/又は検体のピッチの大きさは、アレイが所望の密度を有することができるように変化し得る。例えば、規則的なパターンにおける平均分析物ピッチは、最大で100μm、50μm、10μm、5μm、1μm、0.5μm以下であり得る。代替的に又は追加的に、規則的なパターンにおける平均分析物ピッチは、少なくとも0.5μm、1μm、5μm、10μm、50μm、100μm、又はそれ以上であり得る。これらの範囲は、規則的なパターンの最大ピッチ又は最小ピッチにも適用することができる。例えば、規則的なパターンの最大分析物ピッチは、100μm以下、50μm以下、10μm以下、5μm以下、1μm以下、0.5μm以下とすることができ、かつ/又は規則的なパターンにおける最小分析物ピッチは、少なくとも0.5μm、1μm、5μm、10μm、50μm、100μm、又はそれ以上であり得る。
アレイ内の検体の密度は、単位面積当たりに存在する検体の数に関しても理解され得る。例えば、アレイに関する検体の平均密度は、少なくとも約1×10検体/mm、1×10検体/mm、1×10検体/mm、1×10検体/mm2、1×106検体/mm、1×10検体/mm、1×10検体/mm、又は1×10検体/mm以上であり得る。あるいは、又はそれに加えて、アレイに関する検体の平均密度は、最大で約1×10検体/mm、1×10検体/mm、1×10検体/mm、1×10検体/mm、1×10検体/mm、1×10検体/mm、又は1×10検体/mm以下であり得る。
上記の範囲は、例えば、分析物のアレイの全て又は一部を含む規則的なパターンの全て又は一部に適用することができる。
パターン内の検体は、様々な形状のいずれかを有することができる。例えば、アレイの表面上などの2次元平面で観察される場合、検体は、丸みを帯びた、円形、楕円形、矩形、正方形、対称、非対称、三角形、多角形などに見える場合がある。検体は、例えば六角形又は直線パターンを含む規則的な繰り返しパターンで配置することができる。パターンは、所望のレベルのパッキングを達成するように選択され得る。例えば、円形分析物は、六角形の配置で最適に充填される。当然のことながら、他の包装構成もまた、円形分析物のために使用することができ、逆もまた同様である。
パターンは、パターンの最小幾何学的単位を形成するサブセット内に存在する検体の数に関して特徴付けることができる。サブセットは、例えば、少なくとも約2、3、4、5、6、10以上の検体を含み得る。分析物のサイズ及び密度に応じて、幾何学的単位は、1mm、500μm、100μm、50μm、10μm、1μm、500nm、100nm、50nm、10nm以下の面積を占めることができる。代替的に又は追加的に、幾何学的単位は、10nm、50nm、100nm、500nm、1μm、10μm、50μm、100μm、500μm、1mm以上の面積を占めることができる。形状、サイズ、ピッチなどの幾何学的単位における検体の特性は、アレイ又はパターンの検体に関して、より一般的に本明細書に記載されるものから選択することができる。
分析物の規則的なパターンを有するアレイは、検体の相対的な場所に対して順序付けられるが、各検体の1つ又はそれ以上の他の特性に対してランダムであってもよい。例えば、核酸配列の場合、核酸検体は、それらの相対的な位置に関して規則的であるが、任意の特定の分析物に存在する核酸種に関する配列の知識に関してランダムであってもよい。より具体的な例として、テンプレート核酸を有する検体の反復パターンを播種し、各検体でテンプレートを増幅して、分析物においてテンプレートのコピーを形成することによって形成される核酸配列(例えば、クラスター増幅又はブリッジ増幅を介して、核酸検体の規則的なパターンを有するが、配列にわたる核酸の配列の分布に関してランダムであろう。したがって、アレイ上の核酸材料の存在の検出は、分析物の繰り返しパターンをもたらすことができるのに対し、配列特異的検出は、アレイにわたる信号の非反復分布をもたらすことができる。
本明細書におけるパターン、順序、ランダム性などの説明は、アレイ上の検体などの物体上の検体にも関するだけでなく、画像中の検体にも関連することが理解されるであろう。したがって、パターン、順序、ランダム性などは、限定するものではないが、グラフィカルユーザーインターフェース又は他の出力デバイスなどのコンピュータ可読媒体又はコンピュータ構成要素を含むがこれらに限定されない、画像データを記憶、操作、又は通信するために使用される様々なフォーマットのうちのいずれかに存在することができる。
本明細書で使用するとき、用語「画像」は、オブジェクトの全て又は一部の表現を意味することを意図する。表現は、光学的に検出された再現であり得る。例えば、蛍光、発光、散乱、又は吸収信号から画像を得ることができる。画像内に存在するオブジェクトの部分は、物体の表面又は他のxy面であり得る。典型的には、画像は2次元表現であるが、場合によっては、画像内の情報は、3つ又はそれ以上の次元から導出することができる。画像は、光学的に検出された信号を含む必要はない。非光信号を代わりに存在させることができる。画像は、本明細書の他の箇所に記載されるもののうちの1つ又はそれ以上などの、コンピュータ可読フォーマット又は媒体に提供することができる。
本明細書で使用するとき、「画像」は、試料又は他の物体の少なくとも一部分の再現又は表現を指す。いくつかの実施態様では、再現は、例えばカメラ又は他の光学検出器によって生成される光再現である。再現は、非光学的再現、例えば、ナノ細孔分析物のアレイから得られる電気信号の表現、又はイオン感応性CMOS検出器から得られた電気信号の表現であり得る。特定の実施態様では、非光学的再現性は、本明細書に記載される方法又は装置から除外され得る。画像は、例えば、100μm、50μm、10μm、5μm、1μm、又は0.5μm未満離れたものを含む、様々な間隔のいずれかで存在する検体の検体を区別することができる解像度を有することができる。
本明細書で使用するとき、「取得(acquiring)」、「取得(acquisition)」、及び同様の用語は、画像ファイルを取得するプロセスの任意の部分を指す。いくつかの実施態様では、データ取得は、標本の画像を生成することと、標本内の信号を探すことと、信号の画像を探すか又は生成するように検出デバイスに指示することと、画像ファイルの更なる分析又は変換のための命令、及び画像ファイルの任意の数の変換又は操作のための命令を与えることと、を含むことができる。
本明細書で使用するとき、用語「テンプレート」は、信号又は検体間の場所又は関係の表現を指す。したがって、いくつかの実施態様では、テンプレートは、検体中の検体に対応する信号の表現を有する物理的グリッドである。いくつかの実施態様では、テンプレートは、チャート、テーブル、テキストファイル、又は分析物に対応する場所を示す他のコンピュータファイルであり得る。本明細書に提示される実施態様では、異なる基準点で捕捉された試料の画像のセットにわたって検体の場所を追跡するためにテンプレートが生成される。例えば、テンプレートは、別の分析物に対する1つの分析物の方向及び/又は距離を記述するx、y座標、又は一連の値であり得る。
本明細書で使用するとき、用語「標本」は、画像が取り込まれる物体又は物体の領域を指すことができる。例えば、画像が土壌の表面から撮影される実施例では、ランドのパセルは、標本であり得る。生体分子の分析がフローセル内で行われる他の実施態様では、フローセルは、任意の数のサブディビジョンに分割されてもよく、これらのそれぞれは検体であってもよい。例えば、フローセルは、様々な流路又はレーンに分割されてもよく、各レーンは、画像化される2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、110、120、140、160、180、200、400、600、800、1000個以上の別個の領域に更に分割され得る。フローセルの一例は8つのレーンを有し、各レーンは120個の標本又はタイルに分割されている。別の実施態様では、試料は、複数のタイル、又は更にはフローセル全体で作製されてもよい。したがって、各検体の画像は、撮像されるより大きい表面の領域を表すことができる。
本明細書に記載される範囲及び連続数リストへの言及は、列挙された数だけではなく、列挙された数字間の全ての実数を含むことが理解されるであろう。
本明細書で使用するとき、「参照点」は、画像間の任意の時間的又は物理的区別を指す。好ましい別の実施態様では、基準点は時間点である。より好ましい実施態様では、参照点は、配列決定反応中の時点又はサイクルである。しかしながら、用語「基準点」は、画像を区別又は分離することができる、角度、回転、時間、又は他の態様などの画像を区別又は分離する他の態様を含むことができる。
本明細書で使用するとき、「画像のサブセット」は、セット内の画像のグループを指す。例えば、サブセットは、画像のセットから選択される1、2、3、4、6、8、10、12、14、16、18、20、30、40、50、60又は任意の数の画像を含んでもよい。特定の別の実施態様では、サブセットは、1、2、3、4、6、8、10、12、14、16、18、20、30、40、50、60以下、又は画像のセットから選択される任意の数の画像を含んでもよい。好ましい別の実施態様では、画像は、各サイクルに相関する4つの画像を有する1つ又はそれ以上の配列決定サイクルから得られる。したがって、例えば、サブセットは、4サイクルにわたって取得された16画像のグループであり得る。
塩基は、ヌクレオチド塩基又はヌクレオチド、A(アデニン)、C(シトシン)、T(チミン)、又はG(グアニン)を指す。本出願は、「塩基(複数可)」及び「ヌクレオチド(複数可)」を互換的に使用する。
用語「染色体」は、DNA及びタンパク質成分(特にヒストン)を含むクロマチンストランドに由来する、生きている細胞の本発明の有効性を有する遺伝子キャリアを指す。本明細書では、従来の国際的に認識されている個々のヒトゲノム染色体番号付けシステムが本明細書で使用される。
「部位」という用語は、参照ゲノム上の固有の位置(例えば、染色体ID、染色体位置及び配向)を指す。いくつかの実施態様では、部位は、残基、配列タグ、又は配列上のセグメントの位置であってもよい。用語「遺伝子座」は、参照染色体上の核酸配列又は多型の特定の位置を指すために使用されてもよい。
本明細書における用語「試料」は、典型的には、配列決定及び/又はフェーズドされる核酸を含有する生物液、細胞、組織、器官、又は生物に由来するサンプル、又は配列決定及び/又はフェーズドされる核酸配列を少なくとも1つ含有する核酸の混合物に由来するサンプルを指す。このような試料としては、痰/口腔流体、羊水、血液、血液画分、細針生検試料(例えば、外科生検、針生検など)、尿、腹膜流体、胸膜流体、組織外植片、臓器培養物、及びこれらの任意の他の組織若しくは細胞調製物、又はこれらの画分若しくは誘導体が挙げられるが、これらに限定されない。サンプルは、多くの場合、ヒト被験者(例えば、患者)から採取されるが、試料は、イヌ、ネコ、ウマ、ヤギ、ヒツジ、ウシ、ブタなどを含むがこれらに限定されない、染色体を有する任意の生物から採取することができる。試料は、生物学的源から得られるように、又は試料の特性を修正する前処理後に、直接使用することができる。例えば、このような前処理は、血漿を血液から調製すること、粘性流体を希釈することなどを含んでもよい。前処理の方法には、濾過、沈殿、希釈、蒸留、混合、遠心分離、凍結、凍結乾燥、濃縮、増幅、核酸断片化、干渉成分の不活性化、試薬の添加、溶解などを含んでもよいが、これらに限定されない。
用語「配列」は、互いに結合されたヌクレオチドの鎖を含むか、又はそれを表す。ヌクレオチドは、DNA又はRNAに基づくことができる。1つの配列は、複数のサブシーケンスを含んでもよいことを理解されたい。例えば、単一の配列(例えば、PCRアンプリコン)は、350ヌクレオチドを有してもよい。サンプル読み取りは、これらの350ヌクレオチド内に複数のサブシーケンスを含んでもよい。例えば、サンプル読み取りは、例えば、20~50ヌクレオチドを有する第1及び第2のフランキングサブシーケンスを含んでもよい。第1及び第2の隣接するサブシーケンスは、対応するサブシーケンス(例えば、40~100ヌクレオチド)を有する反復セグメントの両側に位置してもよい。隣接するサブ配列のそれぞれは、プライマーサブ配列(例えば、10~30ヌクレオチド)を含んでもよい(又はその一部を含み得る)。読書を容易にするために、用語「サブ配列」は「配列」と称されるが、2つの配列は、共通のストランド上で互いに別個である必要はないことが理解される。本明細書に記載の様々な配列を区別するために、配列は、異なる標識(例えば、標的配列、プライマー配列、隣接配列、参照配列など)を与えられてもよい。「対立遺伝子」などの他の用語は、同様の物体を区別するために異なるラベルを与えられてもよい。アプリケーションは、「読み取り(単数又は複数)」及び「シーケンス読み取り(単数又は複数)」を互換的に使用する。
用語「paired end sequencing」は、標的フラグメントの両端を配列する配列決定方法を指す。ペレッドエンド配列決定は、ゲノム再構成及び反復セグメントの検出、並びに遺伝子融合及び新規転写物の検出を容易にし得る。パイレッドエンド配列決定の方法は、国際公開第07010252号、国際出願PCT/GB2007/003798号、及び米国特許出願公開第2009/0088327号に記載されており、これらはそれぞれ参照により本明細書に組み込まれる。一実施例では、一連の操作は、以下のように実施されてもよく、(a)核酸のクラスターを生成する、(b)核酸を直鎖化すること、(c)第1の配列決定プライマーをハイブリダイズし、伸長の繰り返しサイクル、走査及び脱ブロッキングを行う。(d)相補的なコピーを合成することによって、フロー細胞表面上の標的核酸を「反転」し、(e)再合成された鎖を直鎖化し、(f)第2配列決定プライマーをハイブリダイズし、伸長の繰り返しサイクル、走査及び脱ブロッキングを行う。反転操作は、ブリッジ増幅の単一サイクルについて上述した試薬を送達することができる。
用語「参照ゲノム」又は「参照配列」は、対象からの同定された配列を参照するために使用され得る任意の生物の部分的又は完全ないずれかの特定の既知のゲノム配列を指す。例えば、ヒト被験者に使用される参照ゲノム、並びに多くの他の生物が、ncbi.nlm.nih.govのNational Center for Biotechnology Informationで見出される。「ゲノム」は、核酸配列で発現される、生物又はウイルスの完全な遺伝子情報を指す。ゲノムは、DNAの遺伝子及び非コード配列の両方を含む。参照配列は、それに位置合わせされたリードよりも大きくてもよい。例えば、それは、少なくとも約100倍大きい、又は少なくとも約1000倍大きい、又は少なくとも約10,000倍大きい、又は少なくとも約105倍大きい、又は少なくとも約106倍大きい、又は少なくとも約107倍大きい場合がある。一実施例では、参照ゲノム配列は、完全長ヒトゲノムのものである。別の例では、参照ゲノム配列は、13番染色体などの特定のヒト染色体に限定される。いくつかの実施態様では、参照染色体は、ヒトゲノムバージョンhg19からの染色体配列である。このような配列は、染色体参照配列と呼ばれる場合があるが、用語参照ゲノムは、そのような配列を網羅することを意図している。参照配列の他の例としては、他の種のゲノム、並びに任意の種の染色体、サブ染色体領域(ストランドなど)などが挙げられる。様々な実施態様では、参照ゲノムは、複数の個体に由来するコンセンサース配列又は他の組み合わせである。しかしながら、特定の用途では、参照配列は、特定の個体から採取されてもよい。他の実施態様では、「ゲノム」はまた、ゲノム配列の特定の記憶形式及び表現を使用するいわゆる「グラフゲノム」も被覆する。一実施態様では、グラフゲノムは、線形ファイルにデータを記憶する。別の実施態様では、グラフゲノムは、代替的な配列(例えば、小さな差異を有する染色体の異なるコピー)がグラフ内の異なる経路として記憶されている表現を指す。グラフゲノムの実施に関する更なる情報は、https://www.biorxiv.org/content/biorxiv/early/2018/03/20/194530.full.pdfにおいて見出すことができ、その内容は参照によりその全体が本明細書に組み込まれる。
用語「読み取られる」は、ヌクレオチドサンプル又は参照のフラグメントを記述する配列データの集合を指す。用語「読み取られる」は、サンプル読み取り及び/又は参照読み取りを指し得る。典型的には、必ずしもそうではないが、読み取りは、サンプル又は参照における連続的な塩基対の短いシーケンスを表す。読み取りは、サンプル又は参照フラグメントのベース対配列(ATCG)によって記号的に表されてもよい。読み取りが基準シーケンスと一致するか、又は他の基準を満たすかを判定するために、メモリデバイスに記憶され、適切に処理されてもよい。読み取りは、配列決定機器から直接、又はサンプルに関する記憶された配列情報から間接的に得られてもよい。場合によっては、例えば、染色体又はゲノム領域又は遺伝子に位置合わせされ、特異的に割り当てられ得る、より大きな配列又は領域を同定するために使用することができる十分な長さ(例えば、少なくとも約25bp)のDNA配列である。
次世代配列決定法としては、例えば、合成技術(Illumina)、ピロ配列決定(454)、イオン半導体技術(Ion Torrent sequencing)、一分子リアルタイム配列決定(Pacific Biosciences)及びライゲーションによる配列決定(SOLiD配列決定)が挙げられる。配列決定法に応じて、各読み取りの長さは、約30bp~10,000bpを超えて変化し得る。例えば、SOLiDシーケンサを用いたDNA配列決定法は、約50bpの核酸リードを生成する。別の例では、Ion Torrent Sequencingは、最大400bpの核酸リードを生成し、454のピロ配列は、約700bpの核酸リードを生成する。更に別の例では、単分子リアルタイム配列決定法は、10,000bp~15,000bpのリードを生成し得る。したがって、特定の実施態様では、核酸配列のリードは、30~100bp、50~200bp、又は50~400bpの長さを有する。
用語「サンプル読み取り」、「サンプル配列」又は「サンプル断片」は、サンプルから対象とするゲノム配列に関する配列データを指す。例えば、サンプル読み取りは、順方向及び逆方向プライマー配列を有するPCRアンプリコンからの配列データを含む。配列データは、任意の選択配列手順から得ることができる。サンプルの読み取りは、例えば、配列単位合成(SBS)反応、配列決定・ライゲーション反応、又は反復要素の長さ及び/若しくは同一性を決定することが望ましい任意の他の好適な配列決定方法であり得る。サンプル読み取りは、複数のサンプル読み取りに由来するコンセンサース(例えば、平均又は加重)配列であり得る。特定の実施態様では、参照配列を提供する工程は、PCRアンプリコンのプライマー配列に基づいて目的の遺伝子座を同定することを含む。
用語「生フラグメント」は、サンプル読み取り又はサンプル断片内の対象とする指定位置又は二次位置に少なくとも部分的に重なり合う、対象とするゲノム配列の一部の配列データを指す。生産物断片の非限定的な例としては、二重ステッチされた断片、単純なステッチされたフラグメント、及び単純な非ステッチの断片が挙げられる。用語「生」は、生のフラグメントがサンプル読み取りにおける配列データとのいくつかの関係を有する配列データを含むことを示すために使用され、生のフラグメントが、サンプル読み取りにおける潜在的変異体に対応し、かつそれを認証又は確認する支持変異体を示すかどうかに関わらず、使用される。用語「生フラグメント」は、フラグメントが、サンプル読み取りにおける変異型コールを検証する支持変異体を必ずしも含むことを示すものではない。例えば、サンプル読み取りが、第1の変異体を呈するために、変異型呼び出しアプリケーションによって判定されるとき、この変異型呼び出しアプリケーションは、1つ又はそれ以上の生のフラグメントが、サンプル読み取りにおける変異体を考慮して、そうでなければ発生することが予想され得る、対応する種類の「支持」変異体を欠くと判定することができる。
用語「マッピング」、「整列された」、「整列している」、又は「整列する」という用語は、読み取り又はタグを参照シーケンスと比較し、それによって、参照配列が読み取りシーケンスを含むかどうかを判定するプロセスを指す。参照配列が読み取られた場合、読み取りは参照シーケンスにマップされてもよく、又は特定の別の実施態様では、参照シーケンス内の特定の位置にマッピングされてもよい。いくつかの場合において、整列は、読み取りが特定の参照配列のメンバーであるか否か(すなわち、読み取りが参照配列中に存在するか又は存在していないか)かを単に伝える。例えば、ヒト染色体13についての参照配列に対する読み取りの位置合わせは、13番染色体の参照配列中に読み取りが存在するかどうかを伝える。この情報を提供するツールは、設定メンバシップ試験機と呼ばれることがある。場合によっては、位置合わせは、読み取り又はタグマップがある参照シーケンス内の位置を更に示す。例えば、参照配列がヒトゲノム配列全体である場合、アライメントは、染色体13上にリードが存在することを示してもよく、更に、読み取られたものが染色体13の特定の鎖及び/又は部位にあることを更に示してもよい。
用語「インデル」は、生物のDNA中の塩基の挿入及び/又は欠失を指す。マイクロインデルは、1~50ヌクレオチドの正味変化をもたらすインデルを表す。インデルの長さが3の倍数でない限り、ゲノムの領域をコードする際に、フレームシフト変異が生じる。インデルは、点突然変異と対比することができる。インデル挿入物は、配列からヌクレオチドを欠失させるが、点変異は、DNA中の全体的な数を変えることなくヌクレオチドのうちの1つを置き換える置換の形態である。インデルはまた、隣接するヌクレオチドにおける置換として定義され得るTandem Base変異(TBM)と対比することもできる(主に2つの隣接するヌクレオチドで置換されるが、隣接する3つのヌクレオチドでの置換が観察された。
用語「変異体」は、核酸参照とは異なる核酸配列を指す。典型的な核酸配列変異体としては、限定するものではないが、単一のヌクレオチド多型(SNP)、短い欠失及び挿入多型(Indel)、コピー数変動(CNV)、マイクロ衛星マーカー、又は短いタンデム反復及び構造変異が挙げられる。体細胞変異体の呼び出しは、DNAサンプル中に低頻度で存在する変異体を同定するための努力である。体細胞変異体のコーリングは、癌治療の文脈において対象となる。癌は、DNAにおける変異の蓄積によって引き起こされる。腫瘍由来のDNAサンプルは、一般的に不均質であり、いくつかの正常細胞、癌進行の早期段階(より少ない突然変異を伴う)、及び一部の後期細胞(より多くの変異を有する)を含む。この不均一性のため、腫瘍を配列決定するとき(例えば、FFPEサンプルから)、体細胞変異は、多くの場合、低頻度で現れる。例えば、SNVは、所与の塩基を被覆するリードの10%のみに見られ得る。変異体分類子によって体細胞又は生殖細胞系として分類される変異体は、本明細書では「試験中の変異体」とも称される。
用語「ノイズ」は、配列決定プロセス及び/又は変異型呼び出しアプリケーションにおける1つ又はそれ以上の誤差から生じる、誤りのある変異型コールを指す。
用語「変異体頻度」は、集団内の特定の遺伝子座における対立遺伝子(遺伝子の変異体)の相対頻度を表し、分画又は割合として表される。例えば、分画又は割合は、その対立遺伝子を保有する集団中の全ての染色体の割合であってもよい。一例として、サンプル変異体頻度は、個体から対象となるゲノム配列について得られたリード及び/又はサンプルの数に対応する「集団」にわたって、対象とするゲノム配列に沿った特定の遺伝子座/位置における対立遺伝子/変異体の相対頻度を表す。別の例として、ベースライン変異体頻度は、1つ又はそれ以上のベースラインゲノム配列に沿った特定の遺伝子座/位置における対立遺伝子/変異体の相対頻度を表し、ここで、1つ又はそれ以上のベースラインゲノム配列について得られた、1つ又はそれ以上のベースラインゲノム配列に沿った特定の遺伝子座/位置における対立遺伝子/変異体の相対頻度を表す。
用語「変異型対立遺伝子頻度(VAF)」は、変異体を標的位置での全体的な被覆率で割った、配列決定されたリードの割合を指す。VAFは、変異体を保有する配列決定されたリードの割合の尺度である。
用語「位置」、「指定位置」、及び「遺伝子座」は、ヌクレオチド配列内の1つ又はそれ以上のヌクレオチドの位置又は座標を指す。用語「位置」、「指定位置」、及び「遺伝子座」はまた、ヌクレオチドの配列における1つ又はそれ以上の塩基対の位置又は座標を指す。
用語「ハプロタイプ」は、互いに遺伝する染色体上の隣接する部位における対立遺伝子の組み合わせを指す。ハプロタイプは、存在する場合、所与の座の組の間に生じた組み換え事象の数に応じて、1つの遺伝子座、いくつかの座、又は染色体全体であってもよい。
本明細書における「閾値」という用語は、サンプル、核酸、又はその一部(例えば、読み取り)を特徴付けるためのカットオフとして使用される数値又は数値を指す。閾値は、経験的分析に基づいて変化してもよい。閾値は、そのような値を生じさせる源が特定の方法で分類されるべきかどうかを判定するために、測定値又は計算値と比較することができる。閾値は、経験的又は分析的に識別することができる。閾値の選択は、ユーザーが分類を行う必要があることを望む信頼度に依存する。閾値は、特定の目的(例えば、感度及び選択性のバランスのために)選択されてもよい。本明細書で使用するとき、用語「閾値」は、分析の過程が変化し得る点、及び/又はアクションがトリガされ得る点を示す。閾値は、所定の数である必要はない。その代わりに、閾値は、例えば、複数の因子に基づく関数であってもよい。閾値は、状況に適応し得る。更に、閾値は、上限、下限、又は限界間の範囲を示し得る。
いくつかの実施態様では、配列決定データに基づく指標又はスコアは、閾値と比較され得る。本明細書で使用するとき、用語「メトリック」又は「スコア」は、配列決定データから決定された値又は結果を含んでもよく、又は配列決定データから決定された値又は結果に基づく関数を含んでもよい。閾値と同様に、指標又はスコアは、状況に適応し得る。例えば、指標又はスコアは、正規化された値であってもよい。スコア又はメトリックの例として、1つ又はそれ以上の実施態様は、データを分析する際にカウントスコアを使用することができる。計数スコアは、サンプル読み取りの数に基づいてもよい。サンプル読み取りは、サンプル読み取りが少なくとも1つの共通の特性又は品質を有するように、1つ又はそれ以上のフィルタリング段階を経ていてもよい。例えば、計数スコアを決定するために使用されるサンプル読み取りのそれぞれは、参照配列と整列されていてもよく、又は潜在的な対立遺伝子として割り当てられてもよい。共通の特性を有するサンプル読み取りの数をカウントして、読み取りカウントを決定することができる。カウントスコアは、読み取りカウントに基づいてもよい。いくつかの実施態様では、計数スコアは、読み取りカウントと等しい値であってもよい。他の実施例では、計数スコアは、読み取りカウント及び他の情報に基づいてもよい。例えば、計数スコアは、遺伝子座の特定の対立遺伝子の読み取りカウント、及び遺伝子座の合計リード数に基づいてもよい。いくつかの実施態様では、計数スコアは、遺伝子座の読み出しカウント及び以前に得られたデータに基づいてもよい。いくつかの実施態様では、計数スコアは、所定の値間の正規化スコアであってもよい。計数スコアはまた、サンプルの他の遺伝子座からのリードカウントの関数、又は対象となるサンプルと同時に実行された他のサンプルからのリードカウントの関数であってもよい。例えば、計数スコアは、特定の対立遺伝子の読み取りカウント及びサンプル中の他の遺伝子座の読み取りカウント、及び/又は他のサンプルからのリードカウントの関数であってもよい。一例として、他の遺伝子座からのリードカウント及び/又は他のサンプルからのリードカウントを使用して、特定の対立遺伝子についての計数スコアを正規化してもよい。
用語「被覆率」又は「断片被覆率」は、配列の同じフラグメントに対する多数のサンプルリードの計数又は他の尺度を指す。読み取りカウントは、対応するフラグメントをカバーするリードの数のカウントを表し得る。あるいは、被覆率は、履歴知識、サンプルの知識、遺伝子座の知識などに基づく指定された因子を、読み取りカウントに掛けることによって決定されてもよい。
用語「読み取り深さ」(従来、「×」が続く数)は、標的位置における重複アラインメントを伴う配列決定されたリードの数を指す。これは、多くの場合、1組の間隔(エキソン、遺伝子、又はパネルなど)のカットオフを超える平均又は百分率として表現される。例えば、臨床報告は、パネル平均被覆率が、標的化されたベースカバー>100×の98%を有する1,105×であると言うことができる。
用語「ベースコール品質スコア」又は「Qスコア」は、単一の配列決定された塩基が正しい確率に反比例する0~50からの範囲のPHREDスケールされた確率を指す。例えば、20のQを有するTベースコールは、99.99%の確率で正しいと考えられる。Q<20での任意のベースコールは、低品質であると見なされるべきであり、変異体を支持する配列決定されたリードのかなりの割合が低い場合に同定される任意の変異体は、潜在的に偽陽性であると見なされるべきである。
用語「変異体リード」又は「変異体リード番号」は、変異体の存在を支持する配列決定されたリードの数を指す。
「ストリンデディティー」(又はDNAストランド)に関して、DNA中の遺伝的メッセージは、文字A、G、C、及びTの文字、例えば、5’-AGGACA-3’として表すことができる。多くの場合、配列は、本明細書に示される方向、すなわち、5’端を左に、3’端を右に書き込む。DNAは、(特定のウイルスのように)一本鎖分子として生じる場合があるが、通常、二本鎖単位としてDNAを見つける。これは、2つの抗平行ストランドを有する二重螺旋構造を有する。この場合、「逆平行」という語は、2つのストランドが平行に走るが、反対の極性を有することを意味する。二本鎖DNAは、塩基とペアリングによって一緒に保持され、ペアリングは、アデニン(A)対がチミン(T)及びシトシン(C)対とグアニン(G)との対となるように、常に保持される。このペアリングは相補性と呼ばれ、1本のDNA鎖は、他方の相補体であると言われる。したがって、二本鎖DNAは、5’-AGGACA-3’及び3’-TCCTGT-5’と同様に、2つのストリングとして表され得る。2つのストランドは、反対の極性を有することに留意されたい。したがって、2つのDNA鎖のストランド性は、基準ストランド及びその補体、順方向及び逆方向ストランド、トップ及びボトムストランド、センス及びアンチセンスストランド、又はWatson及びCrickストランドと呼ぶことができる。
リードアライメント(リードマッピングとも呼ばれる)は、ゲノム中の配列が由来する場合に、参照するプロセスである。整列が行われると、所与の読み取りの「マッピング品質」又は「マッピング品質スコア(MAPQ)」は、ゲノム上のその位置が正しい確率を定量化する。マッピング品質は、位相スケールで符号化され、Pはアライメントが正しくない確率である。確率は、以下のように計算される。式P=10(-MAQ/10)中、MAPQはマッピング品質である。例えば、-4の電力に対する40=10のマッピング品質は、読み取りが不正確に位置合わせされた0.01%の機会が存在することを意味する。したがって、マッピング品質は、読み取りの基本品質、参照ゲノムの複雑性、及びパレッドエンド情報などのいくつかの位置合わせ因子と関連付けられる。最初に、読み取りの基本品質が低い場合、観察された配列が誤っている可能性があり、したがってそのアライメントが誤っていることを意味する。第2に、マッピング能力はゲノムの複雑さを指す。反復領域は、これらの領域に含まれるマップ及びリードをマッピングすることがより困難であり、通常、マッピング品質が低くなる。この文脈では、MAPQは、リードが一意的に整列されておらず、それらの実際の原点を決定することができないという事実を反映する。第3に、パリッドエンド配列決定データの場合、コンコダント対は、より良好に整列される可能性が高い。マッピング品質が高いほど、アライメントがより良好である。良好なマッピング品質と整合された読み取りは、通常、読み出しシーケンスが良好であり、高いマッピング可能領域内ではわずかな不一致と位置合わせされたことを意味する。MAPQ値は、アライメント結果の品質管理として使用することができる。20よりも高いMAPQと位置合わせされたリードの割合は、通常、下流分析のためである。
本明細書で使用するとき、「信号」は、例えば画像内の発光、好ましくは発光などの検出可能な事象を指す。したがって、好ましい別の実施態様では、信号は、画像内に捕捉された任意の検出可能な発光(すなわち、「スポット」)を表すことができる。したがって、本明細書で使用するとき、「信号」は、検体の分析物からの実際の放出の両方を指すことができ、実際の分析物と相関しない擬似発光を指すことができる。したがって、信号はノイズから生じ得、試験片の実際の分析物を代表しないように後に廃棄することができる。
本明細書で使用するとき、用語「塊」は、一群の信号を指す。特定の実施態様では、信号は、異なる検体に由来する。好ましい別の実施態様では、信号塊は、一緒にクラスター化する信号群である。より好ましい実施態様では、シグナル凝集は、1つの増幅オリゴヌクレオチドによって覆われた物理的領域を表す。各信号塊は、理想的には、いくつかの信号(テンプレートサイクル当たり1つ、恐らくはクロストークによってより多く)として観察されるべきである。したがって、2つ(又はそれ以上)の信号が同じ信号の塊からテンプレートに含まれる、重複する信号が検出される。
本明細書で使用するとき、「最小」、「最大」、「最小化」、「最大化」、及びその文法的変異形などの用語は、絶対最大値又は最小値ではない値を含むことができる。いくつかの実施態様では、値は、最大値及び最小値付近を含む。他の実施例では、値は、局所的最大値及び/又は局所最小値を含むことができる。いくつかの実施態様では、値は、絶対最大値又は最小値のみを含む。
本明細書で使用するとき、「クロストーク」は、別個の画像においても検出される1つの画像内の信号の検出を指す。好ましい別の実施態様では、クロストークは、放出された信号が2つの別個の検出チャネルで検出されるときに発生し得る。例えば、放射された信号が1つの色で発生する場合、その信号の放射スペクトルは、別の色で別の放射された信号と重なってもよい。好ましい実施態様では、ヌクレオチド塩基A、C、G、及びTの存在を示すために使用される蛍光分子は、別個のチャネルで検出される。しかし、A及びCの発光スペクトルは重複するため、色チャネルを使用した検出中に、C色信号の一部が検出され得る。したがって、A信号とC信号との間のクロストークにより、1つのカラー画像からの信号が他のカラー画像に現れることを可能にする。いくつかの実施態様では、G及びTクロストークがある。いくつかの実施態様では、チャネル間のクロストークの量は非対称である。チャネル間のクロストークの量は、とりわけ、適切な放射スペクトルを有する信号分子の選択、並びに検出チャネルのサイズ及び波長範囲の選択によって制御され得ることが理解されるであろう。
本明細書で使用するとき、「レジスタ」、「登録」、「登録」、及び同様の用語は、画像又はデータセット内の信号を、別の時点又は視点からの画像又はデータセット内の信号と相関させるための任意のプロセスを指す。例えば、位置合わせを使用して、画像のセットからの信号を整列させてテンプレートを形成することができる。別の例では、位置合わせを使用して、他の画像からの信号をテンプレートに位置合わせすることができる。1つの信号は、別の信号に直接又は間接的に登録されてもよい。例えば、画像「S」からの信号は、画像「G」に直接登録されてもよい。別の例として、画像「N」からの信号は、画像「G」に直接登録されてもよく、あるいは、画像「N」からの信号は、以前に画像「G」に登録された画像「S」に登録されてもよい。したがって、画像「N」からの信号は、画像「G」に間接的に登録される。
本明細書で使用するとき、用語「基準」は、物体内又は物体上の区別可能な基準点を意味することを意図する。基準点は、例えば、マーク、第2の物体、形状、縁部、領域、不規則性、チャネル、ピット、ポストなどであり得る。基準点は、オブジェクトの画像内に、又はオブジェクトを検出することに由来する別のデータセット内に存在することができる。基準点は、物体の平面内のx及び/又はy座標によって指定することができる。代替的に又は追加的に、基準点は、例えば、物体と検出器との相対位置によって定義される、xy平面に直交するz座標によって指定することができる。基準点に対する1つ又はそれ以上の座標は、オブジェクトの1つ又はそれ以上の他の分析物、又はオブジェクトに由来する画像又は他のデータセットに対して指定することができる。
本明細書で使用するとき、用語「光信号」は、例えば、蛍光、発光、散乱、又は吸収信号を含むことを意図する。光信号は、紫外線(UV)範囲(約200~390nm)、可視(VIS)範囲(約391~770nm)、赤外線(IR)範囲(約0.771~25マイクロメートル)、又は電磁スペクトルの他の範囲で検出することができる。これらの範囲のうちの1つ又はそれ以上の全て又は一部を除外する方法で、光信号を検出することができる。
本明細書で使用するとき、用語「信号レベル」は、所望又は所定の特性を有する検出されたエネルギー又は符号化された情報の量又は量を意味することを意図する。例えば、光信号は、強度、波長、エネルギー、周波数、電力、輝度などのうちの1つ又はそれ以上によって定量化することができる。他の信号は、電圧、電流、電界強度、磁場強度、周波数、電力、温度などの特性に従って定量化することができる。信号の不在は、ゼロの信号レベル、又はノイズとは有意に区別されない信号レベルであると理解される。
本明細書で使用するとき、用語「シミュレートする」は、物理又は行動の特性を予測する物理的又は行動の表現又はモデルを作成することを意味することを意図する。表現又はモデルは、多くの場合、そのもの又は行動と区別可能であり得る。例えば、表現又はモデルは、色、被加工、サイズ、又は形状の全て又は一部から検出される信号の強度などの1つ又はそれ以上の特性に対するものと区別することができる。特定の実施態様では、表現又はモデルは、何か又は行為と比較して、理想化、誇張、ミュート、又は不完全であり得る。したがって、いくつかの実施態様では、モデルの表現は、例えば、上記の特性のうちの少なくとも1つに関して表すものであることを表すものであることができる。表現又はモデルは、本明細書の他の箇所に記載されるもののうちの1つ又はそれ以上などのコンピュータ可読フォーマット又は媒体に提供され得る。
本明細書で使用するとき、用語「特定の信号」は、背景エネルギー又は情報などの他のエネルギー又は情報にわたって選択的に観察される、検出されたエネルギー又は符号化情報を意味することを意図する。例えば、特定の信号は、特定の強度、波長、若しくは色で検出される光信号、特定の周波数、電力若しくは場強度で検出される電気信号、又は分光及び分析検出に関する技術分野において既知の他の信号であり得る。
本明細書で使用するとき、用語「スイング」は、物体の矩形部分を意味することを意図する。スイングは、ストリップの最長寸法に平行な方向に、物体と検出器との間の相対移動によって走査される細長いストリップであり得る。一般に、矩形部分又はストリップの幅は、その全長に沿って一定である。物体の複数のスエージは、互いに平行であってもよい。物体の複数のスエージは、互いに重なり合い、互いに隣接するか、又は間質領域によって互いに分離され得る。
本明細書で使用するとき、用語「分散」は、予想される差、及び観察される差、又は2つ又はそれ以上の観測結果間の差を意味することを意図する。例えば、分散は、期待値と測定値との間の不一致であり得る。標準偏差、標準偏差の二乗、変動係数などの統計関数を使用して、分散を表すことができる。
本明細書で使用するとき、用語「xy座標」は、xy平面内の位置、サイズ、形状、及び/又は向きを指定する情報を意味することを意図する。情報は、例えば、デカルトシステムにおける数値座標であり得る。座標は、x軸及びy軸の一方又は両方に対して提供することができ、又はxy平面内の別の場所に対して提供することができる。例えば、物体の検体の座標は、対象物の基準又は他の分析物の位置に対する検体の場所を指定することができる。
本明細書で使用するとき、用語「xy平面」は、直線軸x及びyによって画定される2次元領域を意味することを意図する。検出器及び検出器によって観察される物体を参照して使用される場合、検出器と検出されている物体との間の観測方向に直交するように更に指定することができる。
本明細書で使用するとき、用語「z座標」は、xy平面に直交する軸に沿った点、線、又は領域の位置を指定する情報を意味することを意図する。特定の別の実施態様では、z軸は、検出器によって観察される物体の領域に直交する。例えば、光学系の焦点の方向は、z軸に沿って指定されてもよい。
いくつかの実施態様では、獲得された信号データは、アフィン変換を用いて変換される。いくつかのそのような実施態様では、テンプレートの生成は、色チャネル間のアフィン変換が走る間に一貫しているという事実を使用する。この一貫性のため、標本中の検体の座標を決定する際に、デフォルトオフセットのセットを使用することができる。例えば、デフォルトオフセットファイルは、Aチャネルなどの1つのチャネルに対する異なるチャネルに対する相対変換(シフト、スケール、スキュー)を含むことができる。しかしながら、他の実施態様では、ラン中及び/又は走る間の色チャネルドリフト間のオフセットは、オフセット駆動型テンプレート生成を困難にする。このような実施例では、本明細書で提供される方法及びシステムは、オフセットしたテンプレート生成を利用することができ、これについては以下で更に説明する。
上記の実施態様のいくつかの態様では、システムはフローセルを含み得る。一部の態様では、フローセルは、レーン、又は他の構成のタイルを含み、タイルの少なくとも一部は、1つ又はそれ以上の検体群を含む。一部の態様では、検体は、核酸などの複数の分子を含む。特定の態様では、フローセルは、標識されたヌクレオチド塩基を核酸の配列に送達し、それによって、核酸を含む検体に対応するシグナルを生成するように、検体内の核酸にハイブリダイズするプライマーを伸長させるように構成される。好ましい実施態様では、検体内の核酸は、互いに同一又は実質的に同一である。
本明細書に記載される画像解析システムのいくつかにおいて、画像のセット内の各画像は、色信号を含み、異なる色は、異なるヌクレオチドベースに対応する。一部の態様では、画像のセットの各画像は、少なくとも4つの異なる色から選択される単一の色を有する信号を含む。一部の態様では、画像のセット内の各画像は、4つの異なる色から選択される単一の色を有する信号を含む。本明細書に記載されるシステムのいくつかにおいて、核酸は、4つの異なる画像を生成するように、4つの異なる標識ヌクレオチド塩基を分子の配列に提供することにより、核酸を配列決定することができ、各画像は単一の色を有するシグナルを含み、信号色が、4つの異なる画像のそれぞれに対して異なることにより、核酸内の特定の位置に存在する4つの可能なヌクレオチドに対応する4つのカラー画像のサイクルを生成する、方法。特定の態様では、システムは、追加の標識ヌクレオチド塩基を分子の配列に送達するように構成されたフローセルを含み、それによって複数のカラー画像のサイクルを生成する。
好ましい実施態様形態では、本明細書で提供される方法は、プロセッサがアクティブにデータを取得しているか、又はプロセッサが低活動状態にあるかどうかを判定することを含み得る。多数の高品質画像を取得及び記憶することは、典型的には、大量の記憶容量を必要とする。更に、取得され記憶されると、画像データの分析はリソース集約的になり得、追加の画像データの取得及び記憶などの他の機能の処理能力を妨げる可能性がある。したがって、本明細書で使用するとき、用語「低活動状態」は、所与の時間におけるプロセッサの処理能力を指す。いくつかの実施態様では、低活動状態は、プロセッサがデータを取得及び/又は記憶していないときに生じる。いくつかの実施態様では、一部のデータ取得及び/又はストレージが行われる場合には、低いアクティビティ状態が生じるが、他の機能に干渉することなく画像解析が同時に生じ得るように、追加の処理能力が残る。
本明細書で使用するとき、「競合を特定する」とは、複数のプロセスがリソースに対して競合する状況を特定することを指す。いくつかのそのような実施態様では、1つのプロセスは、別のプロセスに対して優先度を与えられる。いくつかの実施態様では、競合は、時間、処理能力、記憶能力、又は優先度が与えられる任意の他のリソースの割り当てに対する優先度を与える必要性に関連し得る。したがって、いくつかの実施態様では、処理時間又は容量が、データセットを分析し、データセットを取得及び/又は記憶するかのいずれかなどの2つのプロセス間に分散される場合、2つのプロセス間の不一致が存在し、プロセスのうちの1つに優先度を与えることによって解決することができる。
本明細書では、画像解析を実行するためのシステムも提供される。システムは、プロセッサと、記憶容量と、画像解析用のプログラムと、を含むことができ、プログラムは、記憶のための第1のデータセット及び分析のための第2のデータセットを処理するための命令を含み、処理は、記憶装置上の第1のデータセットを取得及び/又は記憶することと、プロセッサが第1のデータセットを取得していないときに第2のデータセットを解析することと、を含む。特定の態様では、プログラムは、第1のデータセットを取得及び/又は記憶することと、第2のデータセットを解析することとの間の競合の少なくとも1つのインスタンスを識別するための命令を含み、第1のデータセットを取得及び/又は記憶することが優先度を与えられるように、画像データを取得及び/又は記憶することが優先される。特定の態様では、第1のデータセットは、光学撮像装置から取得された画像ファイルを含む。特定の態様では、システムは、光学撮像装置を更に備える。一部の態様では、光学撮像装置は、光源と検出デバイスとを備える。
本明細書で使用するとき、用語「プログラム」は、タスク又はプロセスを実行するための命令又はコマンドを指す。用語「プログラム」は、用語「モジュール」と互換的に使用され得る。特定の実施態様では、プログラムは、同じコマンドセットの下で実行される様々な命令のコンパイルであり得る。他の実施態様では、プログラムは、別個のバッチ又はファイルを参照することができる。
以下に記載されるのは、本明細書に記載される画像解析を実行するための方法及びシステムを利用する驚くべき効果の一部である。いくつかの配列決定の実現例では、配列決定システムの有用性の重要な尺度は、その全体的な効率である。例えば、1日当たりに生成されるマッピング可能なデータの量、並びに器具の設置及び実行の総コストは、経済的な配列決定ソリューションの重要な態様である。マッピング可能なデータを生成し、システムの効率を高めるための時間を短縮するために、リアルタイムのベースコールを機器コンピュータ上で有効にすることができ、配列決定ケミストリー及び画像化と並行して実行することができる。これにより、配列決定化学仕上げの前に、データ処理及び分析が完了することを可能にする。更に、中間データに必要な記憶を低減し、ネットワークを横切って移動する必要があるデータの量を制限することができる。
シーケンス出力が増加している間、本明細書で提供されるシステムからネットワークに転送された実行ごとのデータ、及び二次分析処理ハードウェアは、実質的に減少している。機器コンピュータ(取得コンピュータ)上でデータを変換することにより、ネットワークロードが劇的に低減される。これらのオン機器、オフネットワークデータ低減技術を伴わずに、DNA配列決定機器のフレットの画像出力は、ほとんどのネットワークをクリップルするであろう。
ハイスループットDNA配列決定機器の広範な採用は、使用の容易さ、用途の範囲に対する支持、及び実質的に任意の実験室環境に対する適合性によって、部分的に駆動されてきた。本明細書に提示される高度に効率的なアルゴリズムは、配列決定インスツルメントを制御することができる単純なワークステーションに、有意な分析機能を加えることを可能にする。計算ハードウェアの必要条件のこの低減は、配列決定出力レベルが増加し続けるにつれて、更に重要となる、いくつかの実用的な利点を有する。例えば、単純なタワー、熱生成、実験室設置面積、及び電力消費を最小限に抑えるために、画像解析及びベースコールを行うことによって、最小に保たれる。対照的に、他の商業的な配列決定技術は、1次分析のために、最大5回の処理電力で、そのコンピューティングインフラストラクチャを最近ランプアップして、熱出力及び電力消費の増加を開始する。したがって、いくつかの実施態様では、本明細書で提供される方法及びシステムの計算効率は、サーバハードウェアを最小限に抑えながら、それらの配列決定スループットを増加させることを可能にする。
したがって、いくつかの実施態様では、本明細書に提示される方法及び/又はシステムは、状態マシンとして機能し、各試料の個々の状態の追跡を保ち、試料が次の状態に進む準備ができていることを検出すると、適切な処理を行い、試料をその状態に前進させる。状態マシンがファイルシステムを監視して、好ましい実施例に従って試料が次の状態に進む準備ができているかを判定する方法のより詳細な例が、以下の実施例1に記載されている。
好ましい実施態様では、本明細書で提供される方法及びシステムは、マルチスレッドであり、構成可能な数のスレッドと協働することができる。したがって、例えば、核酸配列決定の文脈において、本明細書で提供される方法及びシステムは、リアルタイム分析のためのライブ配列決定実行中に背景において作用することができ、又はオフライン分析のために既存の画像データセットを使用して実行することができる。特定の好ましい実施形態では、方法及びシステムは、それぞれのスレッドを、それが関与する検体のそれ自体のサブセットを与えることによって、マルチスレッドを取り扱う。これにより、スレッド保持の可能性が最小限に抑えられる。
本開示の方法は、検出装置を使用して物体の標的画像を取得する工程を含むことができ、この画像は、オブジェクト上の検体の繰り返しパターンを含む。表面の高解像度撮像が可能な検出装置が特に有用である。特定の実施態様では、検出装置は、本明細書に記載される密度、ピッチ、及び/又は検体サイズにおける検体を区別するのに十分な分解能を有するであろう。表面から画像又は画像データを得ることができる検出装置が特に有用である。例示的な検出器は、物体と検出器とを静的関係に維持しつつ、面積画像を取得するように構成されたものである。走査装置も使用することができる。例えば、連続領域画像を取得する装置(例えば、「ステップ及びショット」検出器と呼ばれる)を使用することができる。また、物体の表面上の点又は線を連続的に走査して、表面の画像を構築するためにデータを蓄積するデバイスも有用である。点走査検出器は、表面のx-y平面内のラスタ運動を介してオブジェクトの表面上の点(すなわち、小さい検出領域)を走査するように構成することができる。線走査検出器は、物体の表面のy次元に沿った線を走査するように構成することができ、この線の最長寸法は、x次元に沿って生じる。検出デバイス、物体、又はその両方を移動させて、走査検出を達成できることが理解されるであろう。例えば核酸配列決定用途において特に有用な検出装置は、米国特許出願公開第2012/0270305(A1)号、同第2013/0023422(A1)号、及び同第2013/0260372(A1)号、並びに米国特許第5,528,050号、同第5,719,391号、同第8,158,926号及び同第8,241,573号に記載されており、これらはそれぞれ、参照により本明細書に組み込まれる。
本明細書に開示される実施態様は、ソフトウェア、ファームウェア、ハードウェア、又はそれらの任意の組み合わせを生成するためのプログラミング技術又は工学技術を使用して、製造方法、装置、システム、又は物品として実施態様されてもよい。本明細書で使用するとき、用語「製造物品」は、光学記憶デバイスなどのハードウェア又はコンピュータ可読媒体、並びに揮発性又は不揮発性メモリデバイス内に実施態様されるコード又は論理を指す。そのようなハードウェアとしては、フィールドプログラマブルゲートアレイ(FPGA)、粗粒度再構成可能構造(CGRA)、特定用途向け集積回路(ASIC)、複合プログラマブル論理デバイス(CPLD)、プログラマブルロジックアレイ(PLA)、マイクロプロセッサ、又は他の同様の処理装置が挙げられるが、これらに限定されない。特定の実施態様では、本明細書に記載される情報又はアルゴリズムは、非一過性記憶媒体中に存在する。
特定の実施態様形態では、本明細書に記載されるコンピュータ実装の方法は、物体の複数の画像が取得されている間、リアルタイムで発生することができる。このようなリアルタイム分析は、核酸配列が流体及び検出工程の繰り返しサイクルに供される核酸配列決定用途に特に有用である。配列決定データの分析は、多くの場合、本明細書に記載される方法をリアルタイム又は背景で実行するのに有益であり得る一方で、他のデータ獲得又は分析アルゴリズムがプロセス中である間に、本明細書に記載される方法を実行することが有益であり得る。本方法で使用することができるリアルタイム分析法の例は、Illumina,Inc(San Diego,Calif.)から市販されており、及び/又は、参照により本明細書に組み込まれる米国特許出願公開第2012/0020537(A1)号に記載されているMiSeq及びHiSeq配列決定機器に使用されるものである。
1つ又はそれ以上のプログラムされたコンピュータによって形成され、本明細書に記載される方法の1つ又はそれ以上のステップを実行するために実行されるコードを有するプログラミングが、1つ又はそれ以上の機械可読媒体上に記憶されている、例示的データ分析システム。一実施態様では、例えば、システムは、標的オブジェクトからデータを取得するように構成された1つ又はそれ以上の検出システム(例えば、光学撮像システム)へのシステムのネットワーキングを可能にするように設計されたインターフェースを含む。インターフェースは、適切な場合には、データを受信及び条件することができる。特定の実施態様では、検出システムは、例えば、アレイ又は他の物体の画像を一緒に形成する個々の画像要素又はピクセルを表す画像データを出力する。プロセッサは、処理コードによって定義された1つ又はそれ以上のルーチンに従って、受信した検出データを処理する。処理コードは、様々な種類のメモリ回路に記憶されてもよい。
現時点で企図される実施態様によれば、検出データ上で実行される処理コードは、検出データを分析して、データ内で可視又は符号化された個々の検体の場所、及び分析物が検出されない場所(すなわち、分析物が存在しないか、又は、既存の分析物から有意な信号が検出されない場所)及びメタデータを判定するように設計されたデータ分析ルーチンを含む。特定の実施態様では、アレイ内の検体位置は、典型的には、撮像された検体に付着した蛍光染料の存在に起因して、非検体位置よりも明るく見える。検体は、例えば、検体におけるプローブの標的が検出されているアレイ内に存在しない場合、分析物は、それらの周囲領域よりも明るく見える必要はないことが理解されるであろう。個々の検体が現れる色は、使用される染料、並びに撮像目的のために撮像システムによって使用される光の波長の関数であり得る。標的が結合されていない、又は特定のラベルを有さない検体は、マイクロアレイ内の予想される場所などの他の特性に従って特定することができる。
データ分析ルーチンがデータ中に個々の分析物を配置すると、値割り当てが実行され得る。一般に、値割り当ては、対応する場所における検出器構成要素(例えば、ピクセル)によって表されるデータの特性に基づいて、各分析物にデジタル値を割り当てる。すなわち、例えば、画像化データが処理されるとき、値割り当てルーチンは、特定の場所で特定の色又は波長の光が特定の場所で検出されたことを認識するように設計されてもよい。典型的なDNA画像化用途では、例えば、4つの共通ヌクレオチドは、4つの別個の区別可能な色によって表される。次いで、各色は、そのヌクレオチドに対応する値を割り当てられてもよい。
本明細書で使用するとき、用語「モジュール」、「システム」、又は「システムコントローラ」は、1つ又はそれ以上の機能を実行するように動作するハードウェア及び/又はソフトウェアシステム及び回路を含み得る。例えば、モジュール、システム、又はシステムコントローラは、コンピュータメモリなどの有形及び非一時的コンピュータ可読記憶媒体上に記憶された命令に基づいて動作を実行する、コンピュータプロセッサ、コントローラ、又は他のログベースのデバイスを含んでもよい。あるいは、モジュール、システム、又はシステムコントローラは、有線論理及び回路に基づいて動作を実行する、有線デバイスを含んでもよい。添付の図面に示されるモジュール、システム、又はシステムコントローラは、ソフトウェア又は結線命令に基づいて動作するハードウェア及び回路、ハードウェアを動作させるように命令するソフトウェア、又はそれらの組み合わせを表し得る。モジュール、システム、又はシステムコントローラは、1つ又はコンピュータマイクロプロセッサなどの1つ又はそれ以上のプロセッサを含む、及び/又はそれと接続されるハードウェア回路又は回路を含むか、又は表すことができる。
本明細書で使用するとき、用語「ソフトウェア」及び「ファームウェア」は互換可能であり、RAMメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、及び不揮発性RAM(NVRAM)メモリを含むコンピュータによって実行されるメモリに記憶された任意のコンピュータプログラムを含む。上記メモリタイプは単なる例であり、コンピュータプログラムの記憶に使用可能なメモリの種類に限定されるものではない。
分子生物学分野では、使用中の核酸配列決定のためのプロセスの1つは、配列番号合成である。この技術は、非常に平行な配列決定プロジェクトに適用することができる。例えば、自動プラットフォームを使用することにより、数百万の配列決定反応を同時に行うことが可能である。したがって、本発明の実施態様の1つは、核酸配列決定中に生成された画像データを取得、記憶、及び分析するための器具及び方法に関する。
取得及び記憶することができるデータ量の莫大なゲインは、合理化された画像解析方法を更により有益にする。例えば、本明細書に記載される画像解析方法は、設計者及びエンドユーザーの両方が、既存のコンピュータハードウェアの効率的な使用を行うことを可能にする。したがって、本明細書では、迅速に増加するデータ出力の面における処理データの計算量を低減する方法及びシステムが本明細書に提示される。例えば、DNA配列決定の分野では、収率は最近の過程で15倍に拡大され、DNA配列決定デバイスの単一の実行において何百ギガーゼに達する可能性がある。計算インフラストラクチャの要件が比例的に増加した場合、大規模なゲノム規模の実験は、ほとんどの研究者に到達していない。したがって、より多くの生シーケンスデータの生成は、二次分析及びデータ記憶の必要性を増加させ、データ輸送及び記憶の最適化を非常に有益にする。本明細書に提示される方法及びシステムのいくつかの実施態様は、使用可能なシーケンスデータを生成するために必要な時間、ハードウェア、ネットワーキング、及び実験室インフラストラクチャ要件を低減することができる。
本開示は、方法を実行するための様々な方法及びシステムを説明する。方法のいくつかの例は、一連の工程として記載される。しかしながら、実施態様は、本明細書に記載される特定の工程及び/又は工程の順序に限定されないことを理解されたい。工程は省略されてもよく、工程は修正されてもよく、及び/又は他の工程が追加されてもよい。更に、本明細書に記載される工程を組み合わせることができ、工程は同時に(simultaneously)実行されてもよく、工程は同時に(concurrently)実行されてもよく、工程は複数のサブステップに分割されてもよく、工程は、異なる順序で実行されてもよく、又は工程(又は一連の工程)は、反復的に再実行されてもよい。加えて、本明細書には異なる方法が記載されているが、他の実施態様では、異なる方法(又は異なる方法の工程)を組み合わせてもよいことを理解されたい。
いくつかの実施態様では、タスク又は動作を実行するように「構成された」処理ユニット、プロセッサ、モジュール、又はコンピューティングシステムは、タスク又は動作を実行するように特に構造化されていると理解され得る(例えば、タスク又は動作を実行するように調整又は意図された、及び/又はタスク若しくは動作を実行するように調整若しくは意図された1つ又はそれ以上のプログラム又は命令を有すること、及び/又はタスク若しくは動作を実行するように調整又は意図された処理回路の配置を有する)。明確さ及び疑義の回避のために、汎用コンピュータ(適切にプログラムされた場合にタスク又は動作を実行するように構成された」となり得る)汎用コンピュータは、タスク又は動作を実行するために具体的にプログラム又は構造的に変更されない限り、タスク又は動作を実行するように「構成されている」ように構成されていない)。
更に、本明細書に記載される方法の操作は、操作が、商業的に妥当な時間期間内に、当業者には、平均的なヒト又は当業者によって実施されることができないように、十分に複雑であり得る。例えば、この方法は、そのような人が商業的に妥当な時間内で方法を完了できないように、比較的複雑な計算に依存し得る。
本出願全体を通して、様々な刊行物、特許、又は特許出願が参照されている。これらの出版物の全体の開示は、本発明が属する技術分野の状態をより完全に説明するために、本出願において参照により本明細書に組み込まれる。
用語「含む(comprising)」は、本明細書では、列挙された要素のみならず、任意の追加の要素を更に包含する、オープンエンドであることが意図される。
本明細書で使用するとき、用語「それぞれ」は、項目の集合を参照して使用されるとき、集合内の個々の項目を特定することを意図しているが、必ずしも集合内の全ての項目を指すものではない。明示的な開示又は文脈がそうでないことを明確に指示する場合、例外が生じ得る。
上記の実施例を参照して本発明を説明したが、本発明から逸脱することなく様々な修正を行うことができることを理解されたい。
本出願のモジュールは、ハードウェア又はソフトウェアで実施態様することができ、図に示されるように、正確に同じブロックで分割される必要はない。いくつかは、異なるプロセッサ若しくはコンピュータ上に実施態様されてもよく、又は多数の異なるプロセッサ若しくはコンピュータの中で広がることもできる。加えて、モジュールの一部は、達成される機能に影響を及ぼすことなく、図に示されるものとは並行して、又は異なる順序で操作され得ることが理解されるであろう。また、本明細書で使用するとき、用語「モジュール」は、モジュールを構成するために本明細書で考慮することができる、「サブモジュール」を含むことができる。モジュールとして指定された図のブロックはまた、方法におけるフローチャート工程と考えることができる。
本明細書で使用するとき、情報項目の「識別」は、その情報の項目の直接仕様を必ずしも必要としない。情報は、単に、一方向の1つ又はそれ以上の層を通じた実際の情報を単に参照することによって、又は情報の実際の項目を決定するのに十分である異なる情報の1つ又はそれ以上のアイテムを識別することによって、フィールド内で「識別され得る」ことができる。加えて、用語「指定する」は、本明細書では、「識別する」と同じであることを意味する。
本明細書で使用するとき、所与の信号、イベント又は値は、「前デセサー信号、イベント又は前デセサー信号の値、所与の信号、イベント、又は値によって影響されるイベント又は値に依存する。介在処理要素、工程又は期間が存在する場合、所与の信号、イベント、又は値は、「前デセサー信号、イベント又は値」に依存して「存在する」ことができる。介在処理要素又はステップが2つ又はそれ以上の信号、イベント、又は値を組み合わせる場合、処理要素又はステップの信号出力は、「信号、イベント、又は値入力のそれぞれ」に依存していると見なされる。所与の信号、イベント又は値が前デセサー信号、イベント又は値と同じである場合、これは単に、所与の信号、イベント、又は値が「前デセサー信号、イベント又は値」に依存して「依存して」又は「依存して」又は「ベースデセサー信号、イベント又は値」に基づいて、「依存して」又は「依存する」と見なされる。別の信号、イベント又は値に対する所与の信号、イベント、又は値の「応答性」は、同様に定義される。
本明細書で使用するとき、「並行して」又は「並行して」は、正確な同時性を必要としない。個人の1人の評価が、個人の別の評価が完了する前に開始する場合に十分である。
コンピュータシステム
図65は、本明細書に開示される技術を実施態様するために配列決定システム800Aによって使用され得るコンピュータシステム6500である。コンピュータシステム6500は、バスサブシステム6555を介して多数の周辺デバイスと通信する、少なくとも1つの中心処理装置(CPU)6572を含む。これらの周辺デバイスは、例えば、メモリデバイス及びファイルストレージサブシステム6536、ユーザーインターフェース入力デバイス6538、ユーザーインターフェース出力デバイス6576及びネットワークインターフェースサブシステム6574を含む記憶サブシステム6510を含むことができる。入力及び出力デバイスは、コンピュータシステム6500とのユーザー対話を可能にする。ネットワークインターフェースサブシステム6574は、他のコンピュータシステム内の対応するインターフェースデバイスへのインターフェースを含む外部ネットワークへのインターフェースを提供する。
一実施態様では、システムコントローラ7806は、記憶サブシステム6510及びユーザーインターフェース入力デバイス6538に通信可能にリンクされている。
ユーザーインターフェース入力デバイス6538は、キーボードと、マウス、トラックボール、タッチパッド、又はグラフィックスタブレットなどのポインティングデバイスと、スキャナーと、ディスプレイに組み込まれたタッチスクリーンと、音声認識システム及びマイクロフォンなどのオーディオ入力デバイスと、他の種類の入力デバイスと、を含むことができる。一般に、用語「入力デバイス」の使用は、コンピュータシステム6500に情報を入力するための全ての可能な種類のデバイス及び方法を含むことを意図する。
ユーザーインターフェース出力デバイス6576は、ディスプレイサブシステム、プリンタ、ファックス装置、又はオーディオ出力デバイスなどの非視覚ディスプレイを含むことができる。ディスプレイサブシステムは、LEDディスプレイ、陰極線管(CRT)、液晶ディスプレイ(LCD)などのフラットパネルデバイス、投影デバイス、又は可視画像を作成するための何らかの他の機構を含むことができる。ディスプレイサブシステムはまた、音声出力デバイスなどの非視覚ディスプレイを提供することができる。一般に、用語「出力装置」の使用は、コンピュータシステム6500からユーザー又は別のマシン若しくはコンピュータシステムに情報を出力するための、全ての可能な種類のデバイス及び方法を含むことを意図する。
記憶サブシステム6510は、本明細書に記載されるモジュール及び方法のうちのいくつか又は全ての機能を提供するプログラミング及びデータ構築物を記憶する。これらのソフトウェアモジュールは、概して、深層学習プロセッサ6578によって実行される。
深層学習プロセッサ6578は、グラフィック処理ユニット(GPU)、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、及び/又は粗粒化再構成可能構造(CGRAs)であり得る。深層学習プロセッサ6578は、Google Cloud Platform(商標)、Xilinx(商標)及びCirrascale(商標)などの深層学習クラウドプラットフォームによってホスティングすることができる。深層学習プロセッサ6578の例としては、Googleのテンソル処理ユニット(TPU)(商標)、GX4 Rackmount Series(商標)、GX65 Rackmount Series(商標)、NVIDIA DGX-1(商標)、Microsoft’Stratix V FPGA(商標)、GraphcoreのIntelligent Processor Unit(IPU)(商標)、Snapdragon processors(商標)、NVIDIAのVolta(商標)、NVIDIAのドライブPX(商標)、NVIDIAのJETSON TX1/TX2 MODULE(商標)、IntelのNirvana(商標)、Movidius VPU(商標)、Fujitsu DPI(商標)、アームDynamicIQ(商標)、IBM TrueNorth(商標)、Lambda GPU Server with Testa V100s(商標)、及び他のものが挙げられる。
記憶サブシステム6510で使用されるメモリサブシステム6522は、プログラム実行中に命令及びデータを記憶するためのメインランダムアクセスメモリ(RAM)6532と、固定命令が記憶された読み取り専用メモリ(ROM)6534とを含む多数のメモリを含むことができる。ファイル記憶サブシステム6536は、プログラム及びデータファイルのための永続的な記憶装置を提供することができ、ハードディスクドライブ、関連する取り外し可能な媒体、ドライブ、光学ドライブ、又は取り外し可能な媒体カートリッジを含むことができる。特定の実施態様の機能を実施態様するモジュールは、ストレージサブシステム6510内のファイル記憶サブシステム6536によって、又はプロセッサによってアクセス可能な他のマシン内に記憶され得る。
バスサブシステム6555は、コンピュータシステム6500の様々な構成要素及びサブシステムを、意図されるように互いに通信するための機構を提供する。バスサブシステム6555は、単一のバスとして概略的に示されているが、バスサブシステムの代替実施態様は、複数のバスを使用することができる。
コンピュータシステム6500自体は、パーソナルコンピュータ、ポータブルコンピュータ、ワークステーション、コンピュータ端末、ネットワークコンピュータ、テレビ、メインフレーム、サーバファーム、緩く分散した一組の緩くネットワーク化されたコンピュータ、又は任意の他のデータ処理システム若しくはユーザーデバイスを含む様々なタイプのものであり得る。コンピュータ及びネットワークの変化の性質により、図65に示されるコンピュータシステム6500の説明は、本発明の好ましい実施態様を例示する目的のための特定の例としてのみ意図される。コンピュータシステム6500の多くの他の構成は、図65に示されるコンピュータシステムよりも多く又は少ない構成要素を有することができる。
特定の改善
我々は、ニューラルネットワークベースのテンプレート生成及びニューラルネットワークベースのベースコールの様々な実施態様を説明している。実施態様の1つ又はそれ以上の特徴を、ベース実施態様と組み合わせることができる。相互に排他的でない実施態様は、組み合わせ可能であると教示されている。実施態様の1つ又はそれ以上の特徴を他の実施態様と組み合わせることができる。本開示は、これらのオプションのユーザーを定期的に通知する。これらの選択肢を繰り返す列挙のいくつかの実施態様からの省略は、前述のセクションで教示されている組み合わせを制限するものとして解釈されるべきではない。これらの記載は、以下の実施のそれぞれに参照することにより本明細書に組み込まれる。
ベースコール-単一分析物距離チャネル
配列決定実行中にフローセルのタイル上で合成された分析物をベースコールするニューラルネットワーク実装方法を開示し、配列決定実行は、複数の配列決定サイクルを有し、複数の配列決定サイクルのそれぞれは、1つ又はそれ以上の画像を有する画像セットを生成し、画像のそれぞれは、1つ又はそれ以上の画像チャネルのうちのそれぞれ1つにおいて分析物及びそれらの周囲背景の強度発光を表現する。方法は、複数の配列決定サイクルのうちの初期のサイクルにおいてそれぞれ生成された初期画像セットをテンプレート生成器によって処理して、テンプレート画像内の分析物の参照中心を識別することを含む。方法は、複数の配列決定サイクルのうちの現在のサイクルにおいて生成された現在の画像セットの、複数の配列決定サイクルのうちの現在のサイクルに先行する複数の配列決定サイクルのうちの1つ又はそれ以上においてそれぞれ生成された1つ又はそれ以上の先行する画像セットの、及び複数の配列決定サイクルのうちの現在のサイクルの後に続く複数の配列決定サイクルのうちの1つ又はそれ以上においてそれぞれ生成された1つ又はそれ以上の後続の画像セットのそれぞれにおける1つ又はそれ以上の画像にアクセスすることを含む。方法は、現在の、先行する、及び後続の画像セット内の画像のそれぞれをテンプレート画像と位置合わせして、サイクル固有及び画像チャネル固有の変換を決定することを含む。方法は、これらの変換を分析物の参照中心に適用して、画像のそれぞれにおける分析物の変換された中心を識別することを含む。方法は、ベースコールされている分析物のうちの特定の1つについて、各画像パッチが、画像のうちの対応の1つにおいて識別された分析物のうちの特定の1つの変換された中心をその中心ピクセル内に含み、画像チャネルのうちの対応する1つにおいて分析物のうちの特定の1つの、分析物のうちのいくつかの隣接する分析物の、及びそれらの周囲背景の強度発光を表現するように、現在の、先行する、後続の画像セット内の画像のそれぞれから画像パッチを抽出することを含む。方法は、各画像パッチについて、その中心ピクセルに含まれた分析物のうちの特定の1つの変換された中心からのそのピクセルの中心の距離を識別する距離情報を生成することを含む。方法は、距離情報を各画像パッチ内にピクセル単位で符号化することによって入力データを構築することを含む。方法は、入力データを畳み込みニューラルネットワークによって畳み込んで、入力データの畳み込み表現を生成することを含む。方法は、畳み込み表現を出力層によって処理して、複数の配列決定サイクルのうちの現在のサイクルにおける分析物のうちの特定の1つに組み込まれた塩基がA、C、T、及びGであることの尤度を生成することを含む。方法は、これらの尤度に基づいて塩基をA、C、T、又はGとして分類することを含む。
他の実施態様のための特定の実施態様セクションで説明される特徴のそれぞれは、この実施態様に等しく適用される。上記のように、全ての他の特徴はここでは繰り返されず、参照により繰り返されるべきである。読者は、これらの実施態様において特定された特徴が、他の実施態様で特定されたベース特徴のセットと容易に組み合わせることができるかを理解するであろう。
一実施態様では、方法は、各画像パッチについて、そのピクセルのうちのどれが分析物のうちの特定の1つを覆い、そのピクセルのうちのどれがこれを覆わないかを識別する分析物帰属情報を生成することと、分析物帰属情報を各画像パッチ内にピクセル単位で符号化することによって入力データを構築することと、を含む。一実施態様では、分析物のうちの特定の1つを覆うピクセルは、分析物帰属情報において非ゼロの値が割り当てられる。一実施態様では、分析物のうちの特定の1つを覆わないピクセルは、分析物帰属情報においてゼロの値が割り当てられる。一実施態様では、方法は、畳み込みニューラルネットワークへの入力として、分析物の変換された中心の位置座標を提供することを含む。そのような一実施態様では、入力は、畳み込みニューラルネットワークの第1の層に供給される。別のそのような実施態様では、入力は、畳み込みニューラルネットワークの1つ又はそれ以上の中間層に供給される。更に別のそのような実施態様では、入力は、畳み込みニューラルネットワークの最終層に供給される。一実施態様では、方法は、畳み込みニューラルネットワークへの入力として、画像パッチのピクセルに対応するスケーリング値を有する強度スケーリングチャネルを提供することを含む。そのような実施態様では、スケーリング値は、分析物のうちの特定の1つの中心を含む画像パッチの中心ピクセルの平均強度に基づく。一実施態様では、強度スケーリングチャネルは、画像パッチの全てのピクセルについて同じスケーリング値をピクセル単位で含む。一実施態様では、中心ピクセルの平均強度は、画像チャネルのうちの対応する1つのそれぞれについて決定される。
一実施態様では、中心ピクセルの平均強度は、第1の画像チャネルについて、分析物のうちの特定の1つに対するA及びTベースコールを生成した2つ以上の先行する配列決定サイクル中に観察された中心ピクセルの強度値を平均化することによって決定される。一実施態様では、中心ピクセルの平均強度は、第2の画像チャネルについて、分析物のうちの特定の1つに対するA及びCベースコールを生成した2つ以上の先行する配列決定サイクル中に観察された中心ピクセルの強度値を平均化することによって決定される。一実施態様では、中心ピクセルの平均強度は、第1の画像チャネルについて、分析物のうちの特定の1つに対するAベースコールを生成した2つ以上の先行する配列決定サイクル中に観察された中心ピクセルの強度値を平均化することによって決定される。一実施態様では、中心ピクセルの平均強度は、第2の画像チャネルについて、分析物のうちの特定の1つに対するGベースコールを生成した2つ以上の先行する配列決定サイクル中に観察された中心ピクセルの強度値を平均化することによって決定される。一実施態様では、中心ピクセルの平均強度は、第3の画像チャネルについて、分析物のうちの特定の1つに対するTベースコールを生成した2つ以上の先行する配列決定サイクル中に観察された中心ピクセルの強度値を平均化することによって決定される。一実施態様では、中心ピクセルの平均強度は、第3の画像チャネルについて、分析物のうちの特定の1つに対するCベースコールを生成した2つ以上の先行する配列決定サイクル中に観察された中心ピクセルの強度値を平均化することによって決定される。
一実施態様では、配列決定実行は、第1のリードプライマー及び第2のリードプライマーを使用して分析物中の断片の両端部を順方向及び逆方向に配列決定するペアードエンド配列決定を実施し、それによって各断片についてリードペアを生成するものであり、リードペアは、順方向リード及び逆方向リードを有する。一実施態様では、断片の両端部は、連続的に配列決定されて、順方向リード及び逆方向リードを交互に生成する。一実施態様では、断片の両端部は、同時に配列決定されて、順方向リード及び逆方向リードを同時に生成する。一実施態様では、順方向リード及び逆方向リードはそれぞれ、断片のうちの1つ又はそれ以上を含む。一実施態様では、断片のうちの1つ又はそれ以上は、連続的に配列決定される。一実施態様では、断片のうちの1つ又はそれ以上は、同時に配列決定される。一実施態様では、配列決定実行は、単一のリードプライマーを使用して1つの方向で断片を配列決定するシングルリード配列決定を実施する。一実施態様では、配列決定実行は、ループ内で断片の二本鎖コピーを配列決定するサーキュラー配列決定(circular sequencing)を実施し、このループは、所与の断片の二本鎖コピーにわたって複数回反復する。一実施態様では、配列決定実行は、断片の積み重ねられたコピーを配列決定するスタックド配列決定(stacked sequencing)を実施し、所与の断片の積み重ねられたコピーは、垂直又は水平に積み重ねられる。一実施態様では、画像パッチのサイズは、3×3ピクセルから10000×10000ピクセルの範囲である。
一実施態様では、変換された中心は、浮動小数点数座標値である。そのような実施態様では、方法は、丸め操作を使用して浮動小数点数座標値を丸めて、変換された中心の整数座標値を生成することと、中心ピクセルを、その整数座標と変換された中心に対して生成された整数座標値との間の重なりに基づいて識別することと、を含む。一実施態様では、丸め操作は、床関数、天井関数、及び/又は丸め関数のうちの少なくとも1つである。一実施態様では、丸め操作は、整数関数及び/又は正整数関数のうちの少なくとも1つである。一実施態様では、テンプレート生成器は、ニューラルネットワークベースのテンプレート生成器である。一実施態様では、出力層はソフトマックス層であり、尤度は、複数の配列決定サイクルのうちの現在のサイクルにおける分析物のうちの特定の1つに組み込まれた塩基がA、C、T、及びGであることの指数関数的に正規化されたスコア分布である。
一実施態様では、画像チャネルのそれぞれ1つは、複数のフィルタ波長帯域のうちの1つに対応する。別の実施態様では、画像チャネルのそれぞれ1つは、複数の画像イベントのうちの1つに対応する。一実施態様では、フローセルは、分析物を占有するウェルのアレイを有する、少なくとも1つのパターン化された表面を有する。別の実施態様では、フローセルは、少なくとも1つのパターン化されていない表面を有し、分析物は、非パターン化表面上で不均一に散乱される。一実施態様では、画像セットは、4つの画像を有する。別の実施態様では、画像セットは2つの画像を有する。更に別の実施態様では、画像セットは1つの画像を有する。一実施態様では、配列決定動作は、4チャネル化学を利用する。別の実施態様では、配列決定動作は、2チャネル化学を利用する。更に別の実施態様では、配列決定実行は、1チャネル化学を利用する。
このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な1つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
配列決定実行中に合成された分析物をベースコールするニューラルネットワーク実装方法を開示する。方法は、入力データを畳み込みニューラルネットワークによって畳み込んで、入力データの畳み込み表現を生成することを含む。入力データは、配列決定実行の現在の配列決定サイクルにおいて生成された現在の画像セットの、現在の配列決定サイクルに先行する配列決定実行の1つ又はそれ以上の配列決定サイクルにおいてそれぞれ生成された1つ又はそれ以上の先行する画像セットの、及び現在の配列決定サイクルの後に続く配列決定実行の1つ又はそれ以上の配列決定サイクルにおいてそれぞれ生成された1つ又はそれ以上の後続の画像セットのそれぞれで1つ又はそれ以上の画像から抽出された画像パッチを含む。画像パッチのそれぞれは、ベースコールされているターゲット分析物の、いくつかの隣接する分析物の、及びそれらの周囲背景の強度発光を対応する画像チャネル内で表現する。入力データは、画像パッチの中心ピクセル内に位置するターゲット分析物の中心からの画像パッチのピクセルの中心の距離を識別するために画像パッチのそれぞれにピクセル単位で符号化されている距離情報を更に含む。方法は、畳み込み表現を出力層によって処理して、出力を生成することを含む。方法は、現在の配列決定サイクルにおけるターゲット分析物を出力に基づいてベースコールすることを含む。
他の実施態様のための特定の実施態様セクションで説明される特徴のそれぞれは、この実施態様に等しく適用される。上記のように、全ての他の特徴はここでは繰り返されず、参照により繰り返されるべきである。読者は、これらの実施態様において特定された特徴が、他の実施態様で特定されたベース特徴のセットと容易に組み合わせることができるかを理解するであろう。
一実施態様では、方法は、畳み込み表現を出力層によって処理して、現在の配列決定サイクルにおけるターゲット分析物に組み込まれた塩基がA、C、T、及びGであることの尤度を生成することと、塩基をこれらの尤度に基づいてA、C、T、又はGとして分類することと、を含む。一実施態様では、尤度は、ソフトマックス層によって生成される指数関数的に正規化されたスコアである。
一実施態様では、方法は、出力から、現在の配列決定サイクルにおけるターゲット分析物に組み込まれた塩基がA、C、T、又はGであることのクラスラベルを識別するターゲット分析物の出力ペアを導出することと、クラスラベルに基づいてターゲット分析物をベースコールすることと、を含む。一実施態様では、1,0のクラスラベルがA塩基を識別し、0,1のクラスラベルがC塩基を識別し、1,1のクラスラベルがT塩基を識別し、0,0のクラスラベルがG塩基を識別する。別の実施態様では、1,1のクラスラベルがA塩基を識別し、0,1のクラスラベルがC塩基を識別し、0.5,0.5のクラスラベルがT塩基を識別し、0,0のクラスラベルがG塩基を識別する。更に別の実施態様では、1,0のクラスラベルがA塩基を識別し、0,1のクラスラベルがC塩基を識別し、0.5,0.5のクラスラベルがT塩基を識別し、0,0のクラスラベルがG塩基を識別する。また更なる実施態様では、1,2のクラスラベルがA塩基を識別し、0,1のクラスラベルがC塩基を識別し、1,1のクラスラベルがT塩基を識別し、0,0のクラスラベルがG塩基を識別する。一実施態様では、方法は、出力から、現在の配列決定サイクルにおけるターゲット分析物に組み込まれた塩基がA、C、T、又はGであることを識別するターゲット分析物のためのクラスラベルを導出することと、クラスラベルに基づいてターゲット分析物をベースコールすることと、を含む。一実施態様では、0.33のクラスラベルがA塩基を識別し、0.66のクラスラベルがC塩基を識別し、1のクラスラベルがT塩基を識別し、0のクラスラベルがG塩基を識別する。別の実施態様では、0.50のクラスラベルがA塩基を識別し、0.75のクラスラベルがC塩基を識別し、1のクラスラベルがT塩基を識別し、0.25のクラスラベルがG塩基を識別する。一実施態様では、方法は、出力から、単一の出力値を導出することと、単一の出力値を塩基A、C、T、及びGに対応するクラス値範囲と比較することと、比較に基づいて、単一の出力値を特定のクラス値範囲に割り当てることと、割り当てに基づいてターゲット分析物をベースコールすることと、を含む。一実施態様では、単一の出力値はシグモイド関数を使用して導出され、単一の出力値は0~1の範囲である。別の実施態様では、0~0.25のクラス値範囲がA塩基を表し、0.25~0.50のクラス値範囲がC塩基を表し、0.50~0.75のクラス値範囲がT塩基を表し、0.75~1のクラス値範囲がG塩基を表す。
このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な1つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
配列決定実行中にフローセルのタイル上で合成された分析物をベースコールするニューラルネットワーク実装方法を開示し、配列決定実行は、複数の配列決定サイクルを有し、複数の配列決定サイクルのそれぞれは、1つ又はそれ以上の画像を有する画像セットを生成し、画像のそれぞれは、1つ又はそれ以上の画像チャネルのうちのそれぞれ1つにおいて分析物及びそれらの周囲背景の強度発光を表現する。方法は、複数の配列決定サイクルのうちの初期のサイクルにおいてそれぞれ生成された初期画像セットをテンプレート生成器によって処理して、テンプレート画像内の分析物の参照中心を識別することを含む。方法は、複数の配列決定サイクルのうちの現在のサイクルにおいて生成された現在の画像セットの、複数の配列決定サイクルのうちの現在のサイクルに先行する複数の配列決定サイクルのうちの1つ又はそれ以上においてそれぞれ生成された1つ又はそれ以上の先行する画像セットの、及び複数の配列決定サイクルのうちの現在のサイクルの後に続く複数の配列決定サイクルのうちの1つ又はそれ以上においてそれぞれ生成された1つ又はそれ以上の後続の画像セットのそれぞれにおける1つ又はそれ以上の画像にアクセスすることを含む。方法は、現在の、先行する、及び後続の画像セット内の画像のそれぞれをテンプレート画像と位置合わせして、サイクル固有及び画像チャネル固有の変換を決定することを含む。方法は、これらの変換を分析物の参照中心に適用して、画像のそれぞれにおける分析物の変換された中心を識別することを含む。方法は、ベースコールされている分析物のうちの特定の1つについて、各画像パッチが、画像のうちの対応の1つにおいて識別された分析物のうちの特定の1つの変換された中心をその中心ピクセル内に含み、画像チャネルのうちの対応する1つにおいて分析物のうちの特定の1つの、分析物のうちのいくつかの隣接する分析物の、及びそれらの周囲背景の強度発光を表現するように、現在の、先行する、後続の画像セット内の画像のそれぞれから画像パッチを抽出することを含む。方法は、各画像パッチについて、その中心ピクセルに含まれた分析物のうちの特定の1つの変換された中心からのそのピクセルの中心の距離を識別する距離情報を生成することを含む。方法は、距離情報を各画像パッチ内にピクセル単位で符号化することによって入力データを構築することを含む。方法は、入力データを畳み込みニューラルネットワークによって畳み込んで、入力データの畳み込み表現を生成することを含む。方法は、畳み込み表現を出力層によって処理して、出力を生成することを含む。方法は、複数の配列決定サイクルのうち現在のサイクルにおける分析物のうちの特定の1つを出力に基づいてベースコールすることを含む。
他の実施態様のための特定の実施態様セクションで説明される特徴のそれぞれは、この実施態様に等しく適用される。上記のように、全ての他の特徴はここでは繰り返されず、参照により繰り返されるべきである。読者は、これらの実施態様において特定された特徴が、他の実施態様で特定されたベース特徴のセットと容易に組み合わせることができるかを理解するであろう。
一実施態様では、方法は、畳み込み表現を出力層によって処理して、複数の配列決定サイクルのうち現在のサイクルにおける分析物のうちの特定の1つに組み込まれた塩基がA、C、T、及びGであることの尤度を生成することと、塩基をこれらの尤度に基づいてA、C、T、又はGとして分類することと、を含む。
このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な1つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
一実施態様では、コンピュータ実装方法は、入力データをニューラルネットワークによって処理することと、入力データの代替表現を生成することと、を含む。入力データは、配列決定実行の1つ又はそれ以上の配列決定サイクルのそれぞれのためのサイクルごとの画像データを含む。サイクルごとの画像データは、それぞれの配列決定サイクルにおいて捕捉された1つ又はそれ以上の分析物及びそれらの周囲背景の強度発光を表現する。方法は、代替表現を出力層によって処理することと、出力を生成することと、を含む。方法は、配列決定サイクルのうちの1つ又はそれ以上における分析物のうちの1つ又はそれ以上を出力に基づいてベースコールすることを含む。
他の実施態様のための特定の実施態様セクションで説明される特徴のそれぞれは、この実施態様に等しく適用される。上記のように、全ての他の特徴はここでは繰り返されず、参照により繰り返されるべきである。読者は、これらの実施態様において特定された特徴が、他の実施態様で特定されたベース特徴のセットと容易に組み合わせることができるかを理解するであろう。
一実施態様では、方法は、サイクルごとの画像データのピクセルと分析物のうちの1つ又はそれ以上との間の距離を識別する補足的な距離情報をサイクルごとの画像データに添付することを含む。そのような実施態様では、距離は、分析物のうちの1つ又はそれ以上の中心、形状、及び/又は境界に関するコンテキストをニューラルネットワーク及び出力層による処理に組み込む。一実施態様では、方法は、サイクルごとの画像データのピクセルにスケーリング値を割り当てる補足的なスケーリング情報をサイクルごとの画像データに添付することを含む。そのような実施態様では、スケーリング値は、分析物のうちの1つ又はそれ以上の強度の変動を考慮する。
このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な1つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
ベースコール-多分析物距離チャネル
配列決定実行中に合成された分析物をベースコールするニューラルネットワーク実装方法を開示する。方法は、配列決定実行の一連の配列決定サイクルのために生成されたサイクルごとの画像パッチセットのシーケンスを含む入力データにアクセスすることを含む。シーケンス内の各サイクルごとの画像パッチセットは、1つ又はそれ以上の画像チャネルのそれぞれ1つのための画像パッチを有する。各画像パッチは、複数の分析物及びそれらの周囲背景を覆うピクセルのためのピクセル強度データと、ピクセルと分析物のそれぞれとの間の中心間距離に基づいて選択される分析物のうちの最も近い分析物からの各ピクセルの中心間距離を識別するピクセル距離データと、を有する。方法は、入力データを畳み込みニューラルネットワークによって畳み込んで、入力データの畳み込み表現を生成することを含む。方法は、畳み込み表現を出力層によって処理して、現在の配列決定サイクルにおける分析物のうちのそれぞれ1つに組み込まれた塩基がA、C、T、及びGであることの尤度を識別する、分析物のそれぞれのためのスコア分布を生成することを含む。方法は、分析物のそれぞれをこれらの尤度に基づいてベースコールすることを含む。
他の実施態様のための特定の実施態様セクションで説明される特徴のそれぞれは、この実施態様に等しく適用される。上記のように、全ての他の特徴はここでは繰り返されず、参照により繰り返されるべきである。読者は、これらの実施態様において特定された特徴が、他の実施態様で特定されたベース特徴のセットと容易に組み合わせることができるかを理解するであろう。
一実施態様では、ピクセル距離データは、各画像パッチ内にピクセル単位で符号化される。一実施態様では、中心間距離は、分析物の変換された中心の位置座標及びピクセル中心の位置座標を使用する距離式から導出される。一実施態様では、方法は、畳み込みニューラルネットワークへの入力として、各画像パッチのピクセルに対応するスケーリング値を有する強度スケーリングチャネルを提供することを含み、スケーリング値は、分析物の変換された中心を含む各画像パッチ内の中心ピクセルの平均強度の組み合わせに基づく。一実施態様では、強度スケーリングチャネルは、画像パッチの全てのピクセルのピクセル強度データに同じスケーリング値をピクセル単位で適用する。一実施態様では、強度スケーリングチャネルは、第1の中心ピクセルの平均強度から導出された第1のスケーリング値が、第1の中心ピクセルに連続的に隣接している隣接ピクセルの第1のピクセル近傍に適用され、別の中心ピクセルの平均強度から導出される別のスケーリング値が、別の中心ピクセルに連続的に隣接している隣接ピクセルの別のピクセル近傍に適用されるように、画像パッチのピクセルのピクセル強度データにピクセル近傍に基づいて異なるスケーリング値をピクセル単位で適用する。一実施態様では、ピクセル近傍は、中心ピクセルを中心とするm×nのピクセルパッチであり、ピクセルパッチは3×3ピクセルである。一実施態様では、ピクセル近傍は、中心ピクセルを中心とするn接続されたピクセル近傍である。一実施態様では、中心ピクセルの平均強度は、画像チャネルのうちの対応する1つのそれぞれについて決定される。一実施態様では、中心ピクセルの平均強度は、第1の画像チャネルについて、分析物のうちの対応の分析物に対するA及びTベースコールを生成した2つ以上の先行する配列決定サイクル中に観察された中心ピクセルの強度値を平均化することによって決定される。一実施態様では、中心ピクセルの平均強度は、第2の画像チャネルについて、分析物のうちの対応の分析物に対するA及びCベースコールを生成した2つ以上の先行する配列決定サイクル中に観察された中心ピクセルの強度値を平均化することによって決定される。一実施態様では、中心ピクセルの平均強度は、第1の画像チャネルについて、分析物のうちの対応の分析物に対するAベースコールを生成した2つ以上の先行する配列決定サイクル中に観察された中心ピクセルの強度値を平均化することによって決定される。一実施態様では、中心ピクセルの平均強度は、第2の画像チャネルについて、分析物のうちの対応の分析物に対するGベースコールを生成した2つ以上の先行する配列決定サイクル中に観察された中心ピクセルの強度値を平均化することによって決定される。一実施態様では、中心ピクセルの平均強度は、第3の画像チャネルについて、分析物のうちの対応の分析物に対するTベースコールを生成した2つ以上の先行する配列決定サイクル中に観察された中心ピクセルの強度値を平均化することによって決定される。一実施態様では、中心ピクセルの平均強度は、第3の画像チャネルについて、分析物のうちの対応の分析物に対するCベースコールを生成した2つ以上の先行する配列決定サイクル中に観察された中心ピクセルの強度値を平均化することによって決定される。一実施態様では、方法は、各画像パッチについて、そのピクセルのうちのどれが分析物を覆い、そのピクセルのうちのどれがこれらを覆わないかを識別する分析物帰属情報を生成することと、分析物帰属情報を各画像パッチ内にピクセル単位で符号化することによって入力データを構築することと、を含む。一実施態様では、分析物を覆うピクセルは、分析物帰属情報において非ゼロの値が割り当てられる。一実施態様では、分析物を覆わないピクセルは、分析物帰属情報においてゼロの値が割り当てられる。一実施態様では、各画像パッチのサイズは、3×3ピクセルから10000×10000ピクセルの範囲である。一実施態様では、出力層はソフトマックス層であり、スコア分布は指数関数的に正規化されたスコア分布である。
このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な1つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
配列決定実行中に合成された分析物をベースコールするニューラルネットワーク実装方法を開示する。方法は、配列決定実行の一連の配列決定サイクルのために生成されたサイクルごとの画像パッチセットのシーケンスを含む入力データにアクセスすることを含む。シーケンス内の各サイクルごとの画像パッチセットは、1つ又はそれ以上の画像チャネルのそれぞれ1つのための画像パッチを有する。各画像パッチは、複数の分析物及びそれらの周囲背景を覆うピクセルのためのピクセル強度データと、ピクセルと分析物のそれぞれとの間の中心間距離に基づいて選択される分析物のうちの最も近い分析物からの各ピクセルの中心間距離を識別するピクセル距離データと、を有する。方法は、入力データを畳み込みニューラルネットワークによって畳み込んで、入力データの畳み込み表現を生成することを含む。方法は、畳み込み表現を出力層によって処理して、出力を生成することを含む。方法は、現在の配列決定サイクルにおける分析物のそれぞれを出力に基づいてベースコールすることを含む。
他の実施態様のための特定の実施態様セクションで説明される特徴のそれぞれは、この実施態様に等しく適用される。上記のように、全ての他の特徴はここでは繰り返されず、参照により繰り返されるべきである。読者は、これらの実施態様において特定された特徴が、他の実施態様で特定されたベース特徴のセットと容易に組み合わせることができるかを理解するであろう。
一実施態様では、方法は、出力から、現在の配列決定サイクルにおける分析物のそれぞれ1つに組み込まれた塩基がA、C、T、及びGであることを識別する分析物のそれぞれのためのスコア分布を導出することと、分析物のそれぞれを尤度に基づいてベースコールすることと、を含む。一実施態様では、出力層はソフトマックス層であり、スコア分布は指数関数的に正規化されたスコア分布である。一実施態様では、方法は、出力から、現在の配列決定サイクルにおける分析物のそれぞれ1つに組み込まれた塩基がA、C、T、及びGであることを識別する分析物のそれぞれのための出力ペアを導出することと、分析物のそれぞれをクラスラベルに基づいてベースコールすることと、を含む。一実施態様では、方法は、出力から、単一の出力値を導出することと、単一の出力値を塩基A、C、T、及びGに対応するクラス値範囲と比較することと、比較に基づいて、単一の出力値を特定のクラス値範囲に割り当てることと、分析物のそれぞれを割り当てに基づいてベースコールすることと、を含む。一実施態様では、単一の出力値はシグモイド関数を使用して導出され、単一の出力値は0~1の範囲である。
このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な1つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
ベースコール-多分析物形状ベース距離チャネル
配列決定実行中に合成された分析物をベースコールするニューラルネットワーク実装方法を開示する。方法は、配列決定実行の一連の配列決定サイクルのために生成されたサイクルごとの画像パッチセットのシーケンスを含む入力データにアクセスすることを含む。シーケンス内の各サイクルごとの画像パッチセットは、1つ又はそれ以上の画像チャネルのそれぞれ1つのための画像パッチを有する。各画像パッチは、分析物強度を表現する分析物ピクセル及び背景強度を表現する背景ピクセルを使用して複数の分析物及びそれらの周囲背景の強度発光を表現する。各画像パッチは、分析物のうちの1つのみに対して各分析物ピクセルを分類することに基づいて選択される分析物のうちの割り当てられた分析物からの各分析物ピクセルの中心間距離を識別する分析物距離データと共に符号化される。方法は、入力データを畳み込みニューラルネットワークによって畳み込んで、入力データの畳み込み表現を生成することを含む。方法は、畳み込み表現を出力層によって処理して、現在の配列決定サイクルにおける分析物のうちのそれぞれ1つに組み込まれた塩基がA、C、T、及びGであることの尤度を識別する、分析物のそれぞれのためのスコア分布を生成することを含む。方法は、分析物のそれぞれをこれらの尤度に基づいてベースコールすることを含む。
他の実施態様のための特定の実施態様セクションで説明される特徴のそれぞれは、この実施態様に等しく適用される。上記のように、全ての他の特徴はここでは繰り返されず、参照により繰り返されるべきである。読者は、これらの実施態様において特定された特徴が、他の実施態様で特定されたベース特徴のセットと容易に組み合わせることができるかを理解するであろう。
一実施態様では、分析物は、複数の分析物ピクセルにわたる不規則な形状を有し、ピクセル-分析物間の分類は、不規則な形状に基づく。一実施態様では、全ての背景ピクセルは、分析物距離データ内で同じ最小中心間距離が割り当てられる。一実施態様では、全ての背景ピクセルは、同じ最小強度が割り当てられる。一実施態様では、各分析物ピクセルは、ニューラルネットワークベースのテンプレート生成器によって生成された減衰マップに基づいて、分析物のうちの1つのみに分類される。そのような実施態様では、減衰マップは、分析物を隣接ピクセルからなる不連続領域として、分析物の中心を不連続領域のうちの対応する領域の質量中心にある中心ピクセルとして、及びそれらの周囲背景を不連続領域のいずれにも属していない背景ピクセルとして表現する。一実施態様では、不連続領域のうちの対応する領域内の隣接ピクセルは、隣接ピクセルが属する不連続領域内の中心ピクセルからの隣接ピクセルの距離に従って重み付けされた強度値を有する。一実施態様では、不連続領域のうちの対応する領域内の隣接ピクセルは、同じ分析物に属し、かつそれを共同で表現する分析物内部ピクセルとしてカテゴリー化され、分析物ごとにメモリに記憶される。一実施態様では、中心ピクセルは、不連続領域のうちの対応する領域内で最も高い強度値を有する。一実施態様では、背景ピクセルは全て、減衰マップ内で同じ最低強度値を有する。一実施態様では、分析物距離データは、各画像パッチ内へのピクセル単位の符号化である。一実施態様では、中心間距離は、分析物の変換された中心の位置座標及びピクセル中心の位置座標を使用する距離式から導出される。一実施態様では、分析物の変換された中心は、減衰マップによって識別された分析物の中心にサイクル固有の変換及び画像チャネル固有の変換を適用することによって導出される。
一実施態様では、方法は、畳み込みニューラルネットワークへの入力として、各画像パッチのピクセルに対応するスケーリング値を有する強度スケーリングチャネルを提供することを含む。そのような実施態様では、スケーリング値は、分析物の変換された中心を含む各画像パッチ内の中心ピクセルの平均強度の組み合わせに基づく。一実施態様では、強度スケーリングチャネルは、第1の分析物の中心を含む第1の中心ピクセルの平均強度から導出された第1のスケーリング値が、第1の分析物に属し、かつそれを共同で表現する隣接ピクセルの第1のピクセルグループに適用され、別の分析物の中心を含む別の中心ピクセルの平均強度から導出された別のスケーリング値が、別の分析物に属し、かつそれを共同で表現する隣接ピクセルの別のピクセルグループに適用されるように、画像パッチのピクセルのピクセル強度データにピクセルグループに基づいて異なるスケーリング値をピクセル単位で適用する。一実施態様では、中心ピクセルの平均強度は、画像チャネルのうちの対応する1つのそれぞれについて決定される。一実施態様では、方法は、各画像パッチについて、そのピクセルのうちのどれが分析物を覆い、そのピクセルのうちのどれがこれらを覆わないかを識別する分析物帰属情報を生成することと、分析物帰属情報を各画像パッチ内にピクセル単位で符号化することによって入力データを構築することと、を含む。一実施態様では、分析物を覆うピクセルは、分析物帰属情報において非ゼロの値が割り当てられる。別の実施態様では、分析物を覆わないピクセルは、分析物帰属情報においてゼロの値が割り当てられる。
このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な1つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
配列決定実行中に合成された分析物をベースコールするニューラルネットワーク実装方法を開示する。方法は、配列決定実行の一連の配列決定サイクルのために生成されたサイクルごとの画像パッチセットのシーケンスを含む入力データにアクセスすることを含む。シーケンス内の各サイクルごとの画像パッチセットは、1つ又はそれ以上の画像チャネルのそれぞれ1つのための画像パッチを有する。各画像パッチは、分析物強度を表現する分析物ピクセル及び背景強度を表現する背景ピクセルを使用して複数の分析物及びそれらの周囲背景の強度発光を表現する。各画像パッチは、分析物のうちの1つのみに対して各分析物ピクセルを分類することに基づいて選択される分析物のうちの割り当てられた分析物からの各分析物ピクセルの中心間距離を識別する分析物距離データと共に符号化される。方法は、入力データを畳み込みニューラルネットワークによって畳み込んで、入力データの畳み込み表現を生成することを含む。方法は、畳み込み表現を出力層によって処理して、出力を生成することを含む。方法は、現在の配列決定サイクルにおける分析物のそれぞれを出力に基づいてベースコールすることを含む。
他の実施態様のための特定の実施態様セクションで説明される特徴のそれぞれは、この実施態様に等しく適用される。上記のように、全ての他の特徴はここでは繰り返されず、参照により繰り返されるべきである。読者は、これらの実施態様において特定された特徴が、他の実施態様で特定されたベース特徴のセットと容易に組み合わせることができるかを理解するであろう。このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な1つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
特殊化したアーキテクチャ
互いに対してレジストレーション誤差を有する配列決定画像を使用して分析物をベースコールするネットワーク実装方法を開示する。方法は、配列決定実行の一連の配列決定サイクルのために生成されたサイクルごとの画像パッチセットのシーケンスにアクセスすることを含む。シーケンスは、サイクルごとの画像パッチセット間にわたって、及びサイクルごとの画像パッチセット内で画像パッチ間のレジストレーション誤差を有する。シーケンス内の各画像パッチは、一連内の対応する配列決定サイクルにおける対応する画像チャネル内において、ベースコールされているターゲット分析物の、いくつかの隣接する分析物の、及びそれらの周囲背景の強度情報を表現する。シーケンス内の各画像パッチは、その中心ピクセル内に位置するターゲット分析物の中心からのそのピクセルの中心の距離を識別する距離情報と共に符号化される。方法は、第1の畳み込みサブネットワークによって各サイクルごとの画像パッチセットを別個に処理して、各配列決定サイクルのための中間畳み込み表現を生成することを含み、これは、強度及び距離情報を組み合わせ、かつ結果として得られる畳み込み表現を配列決定サイクル内でのみ組み合わせ、かつ配列決定サイクル間では組み合わせない畳み込みを適用することを含む。方法は、第2の畳み込みサブネットワークによって一連内の継続的な配列決定サイクルのための中間畳み込み表現をグループ単位で処理して、一連のための最終畳み込み表現を生成することを含み、これは、中間畳み込み表現を組み合わせ、かつ結果として得られる畳み込み表現を配列決定サイクルの間で組み合わせる畳み込みを適用することを含む。方法は、最終畳み込み表現を出力層によって処理して、出力を生成することを含む。方法は、現在の配列決定サイクルにおけるターゲット分析物を出力に基づいてベースコールすることを含む。
他の実施態様のための特定の実施態様セクションで説明される特徴のそれぞれは、この実施態様に等しく適用される。上記のように、全ての他の特徴はここでは繰り返されず、参照により繰り返されるべきである。読者は、これらの実施態様において特定された特徴が、他の実施態様で特定されたベース特徴のセットと容易に組み合わせることができるかを理解するであろう。
一実施態様では、シーケンス内の各画像パッチは、複数の分析物及びそれらの周囲背景を覆うピクセルのためのピクセル強度データと、ピクセルと分析物のそれぞれとの間の中心間距離に基づいて選択される分析物のうちの最も近い分析物からの各ピクセルの中心間距離を識別するピクセル距離データと、を有する。そのような実施態様では、方法は、現在の配列決定サイクルにおける分析物のそれぞれを出力に基づいてベースコールすることを含む。一実施態様では、シーケンス内の各画像パッチは、分析物強度を表現する分析物ピクセル及び背景強度を表現する背景ピクセルを使用して複数の分析物及びそれらの周囲背景の強度発光を表現し、各分析物ピクセルを分析物のうちの1つのみに分類することに基づいて選択される分析物のうちの割り当てられた分析物からの各分析物ピクセルの中心間距離を識別する分析物距離データと共に符号化される。そのような実施態様では、方法は、現在の配列決定サイクルにおける分析物のそれぞれを出力に基づいてベースコールすることを含む。一実施態様では、方法は、第1の畳み込みサブネットワークへの入力として、ターゲット分析物及び/又は隣接する分析物の位置座標を提供することを含む。一実施態様では、方法は、第2の畳み込みサブネットワークへの入力として、ターゲット分析物及び/又は隣接する分析物の位置座標を提供することを含む。一実施態様では、方法は、出力層への入力として、ターゲット分析物及び/又は隣接する分析物の位置座標を提供することを含む。
このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な1つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
レジストレーション誤差を有する画像データを使用して分析物をベースコールするネットワーク実装方法を開示する。方法は、配列決定実行の一連の配列決定サイクルのための入力データにアクセスすることを含む。入力データは、各配列決定サイクルのための画像テンソルを有する。各画像テンソルは、1つ又はそれ以上の画像チャネルのためのデータを有し、これには、画像チャネルごとに、ベースコールされているターゲット分析物、いくつかの隣接する分析物、及び周囲背景を覆うピクセルのためのピクセル強度データ、並びにターゲット分析物の中心からピクセルの中心までの距離のためのピクセル距離データが含まれる。入力データは、画像テンソル間にわたってのピクセル間のクロスサイクルのレジストレーション誤差と、画像テンソル内でのピクセル間のクロス画像チャネルのレジストレーション誤差と、を有する。方法は、各入力テンソルを、空間的な畳み込み層のシーケンスを有する空間的な畳み込みネットワークによって別個に処理して、各配列決定サイクルのための空間畳み込み表現を生成することを含み、これは、ピクセル強度及び距離を配列決定サイクル内でのみ組み合わせ、配列決定サイクル間では組み合わせない、第1の空間的な畳み込み層から始めることと、先行する空間的な畳み込み層の出力を一連の配列決定サイクル内の各配列決定サイクル内でのみ組み合わせ、配列決定サイクル間では組み合わせない、継続的な空間的な畳み込み層に進むことと、を含む。方法は、継続的な配列決定サイクルのための空間畳み込み表現を、時間的な畳み込み層のシーケンスを有する時間的な畳み込みネットワークによってグループ単位で処理して、これらの一連のための時間的畳み込み表現を生成することを含み、これは、空間畳み込み表現を一連の配列決定サイクル内の配列決定サイクルの間で組み合わせる第1の時間的な畳み込み層から始めることと、先行する時間的な畳み込み層の継続的な出力を組み合わせる継続的な時間的な畳み込み層に進むことと、を含む。方法は、時間的畳み込み表現を出力層によって処理して、出力を生成することを含む。方法は、現在の配列決定サイクルにおけるターゲット分析物を出力に基づいてベースコールすることを含む。
他の実施態様のための特定の実施態様セクションで説明される特徴のそれぞれは、この実施態様に等しく適用される。上記のように、全ての他の特徴はここでは繰り返されず、参照により繰り返されるべきである。読者は、これらの実施態様において特定された特徴が、他の実施態様で特定されたベース特徴のセットと容易に組み合わせることができるかを理解するであろう。
一実施態様では、グループ単位で処理することは、重複するスライディングウィンドウ内の継続的な中間畳み込み表現にわたって畳み込みを行うことを更に含む。一実施態様では、継続的な時間的な畳み込み層は、重複するスライディングウィンドウ内の継続的な出力を組み合わせる。一実施態様では、ピクセル距離データは、各画像テンソル内へのピクセル単位の符号化である。一実施態様では、シーケンス内の各画像テンソルは、複数の分析物及びそれらの周囲背景を覆うピクセルのためのピクセル強度データと、ピクセルと分析物のそれぞれとの間の中心間距離に基づいて選択される分析物のうちの最も近い分析物からの各ピクセルの中心間距離を識別するピクセル距離データと、を有する。一実施態様では、方法は、現在の配列決定サイクルにおける分析物のそれぞれを出力に基づいてベースコールすることを含む。一実施態様では、シーケンス内の各画像テンソルは、分析物強度を表現する分析物ピクセル及び背景強度を表現する背景ピクセルを使用して複数の分析物及びそれらの周囲背景の強度発光を表現し、各分析物ピクセルを分析物のうちの1つのみに分類することに基づいて選択される分析物のうちの割り当てられた分析物からの各分析物ピクセルの中心間距離を識別する分析物距離データと共に符号化される。一実施態様では、方法は、現在の配列決定サイクルにおける分析物のそれぞれを出力に基づいてベースコールすることを含む。一実施態様では、方法は、第1の畳み込みサブネットワークへの入力として、ターゲット分析物及び/又は隣接する分析物の位置座標を提供することを含む。一実施態様では、方法は、第2の畳み込みサブネットワークへの入力として、ターゲット分析物及び/又は隣接する分析物の位置座標を提供することを含む。一実施態様では、方法は、出力層への入力として、ターゲット分析物及び/又は隣接する分析物の位置座標を提供することを含む。
このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な1つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
リフレーム
配列決定実行中に合成された分析物をベースコールするニューラルネットワーク実装方法を開示する。方法は、配列決定実行の一連の配列決定サイクルのために生成されたサイクルごとの画像パッチセットのシーケンスにアクセスすることを含む。シーケンス内の各サイクルごとの画像パッチセットは、1つ又はそれ以上の画像チャネルのそれぞれ1つのための画像パッチを有する。各画像パッチは、ベースコールされているターゲット分析物、いくつかの隣接する分析物、及び周囲背景を覆うピクセルのためのピクセル強度データを有する。方法は、各画像パッチのピクセルをリフレームして、ターゲット分析物の中心を中心ピクセルの中心に配置することを含む。方法は、リフレームされた画像パッチを畳み込みニューラルネットワークによって畳み込んで、リフレームされた画像パッチの畳み込み表現を生成することを含む。方法は、畳み込み表現を出力層によって処理して、出力を生成することを含む。方法は、現在の配列決定サイクルにおけるターゲット分析物を出力に基づいてベースコールすることを含む。
他の実施態様のための特定の実施態様セクションで説明される特徴のそれぞれは、この実施態様に等しく適用される。上記のように、全ての他の特徴はここでは繰り返されず、参照により繰り返されるべきである。読者は、これらの実施態様において特定された特徴が、他の実施態様で特定されたベース特徴のセットと容易に組み合わせることができるかを理解するであろう。
一実施態様では、リフレームすることは、リフレームすることを補正するための各画像パッチのピクセルの強度補間を更に含む。一実施態様では、強度補間は、最近傍強度抽出、ガウシアンベースの強度抽出、2x2サブピクセル領域の平均に基づく強度抽出、2x2サブピクセル領域の最大輝度に基づく強度抽出、3x3サブピクセル領域の平均に基づく強度抽出、バイリニア強度抽出、バイキュービック強度抽出、及び/又は重み付け面積カバー率に基づく強度抽出のうちの少なくとも1つを更に含む。一実施態様では、リフレームする前に、ターゲット分析物の中心は、各画像パッチの中心ピクセル内で中心ピクセルの中心から外れた位置にある。一実施態様では、リフレームすることは、各画像パッチの非中心ピクセルが、ターゲット分析物のそれぞれの中心から等距離であることを必要とすることを更に含む。一実施態様では、シーケンス内の各画像パッチは、複数の分析物及びそれらの周囲背景を表現するピクセルのためのピクセル強度データと、ピクセルと分析物のそれぞれとの間の中心間距離に基づいて選択される分析物のうちの最も近い分析物からの各ピクセルの中心間距離を識別するピクセル距離データと、を有する。一実施態様では、方法は、現在の配列決定サイクルにおける分析物のそれぞれを出力に基づいてベースコールすることを含む。一実施態様では、シーケンス内の各画像パッチは、分析物強度を表現する分析物ピクセル及び背景強度を表現する背景ピクセルを使用して複数の分析物及びそれらの周囲背景の強度発光を表現し、各分析物ピクセルを分析物のうちの1つのみに分類することに基づいて選択される分析物のうちの割り当てられた分析物からの各分析物ピクセルの中心間距離を識別する分析物距離データと共に符号化される。一実施態様では、方法は、現在の配列決定サイクルにおける分析物のそれぞれを出力に基づいてベースコールすることを含む。一実施態様では、方法は、第1の畳み込みサブネットワークへの入力として、ターゲット分析物及び/又は隣接する分析物の位置座標を提供することを含む。一実施態様では、方法は、第2の畳み込みサブネットワークへの入力として、ターゲット分析物及び/又は隣接する分析物の位置座標を提供することを含む。一実施態様では、方法は、出力層への入力として、ターゲット分析物及び/又は隣接する分析物の位置座標を提供することを含む。
フローセル上の分析物をベースコールするニューラルネットワーク実装方法を開示する。方法は、フローセル上の分析物を合成する配列決定実行の複数の配列決定サイクルにわたって生成された画像セットのシーケンスにアクセスすることを含む。画像セットのシーケンス内の各画像は、フローセルの非重複領域を覆い、複数の配列決定サイクルのうちのそれぞれ1つにおける対応する画像チャネル内に捕捉された非重複領域上の分析物のサブセット及びそれらの周囲背景の強度発光を表現する。方法は、複数の配列決定サイクルのうちの特定の1つにおける分析物のサブセットのうちの特定の1つに組み込まれたヌクレオチド塩基(A、C、T、又はG)を、画像セットのシーケンスから、複数の配列決定サイクルのうちの特定の1つにおいて生成された現在の画像セット、複数の配列決定サイクルのうちの特定の1つに先行する複数のシーケンスサイクルのうちの1つ又はそれ以上においてそれぞれ生成された1つ又はそれ以上の先行する画像セット、及び複数の配列決定サイクルのうちの特定の1つの後に続く複数の配列決定サイクルのうちの1つ又はそれ以上においてそれぞれ生成された1つ又はそれ以上の後続の画像セットを選択することによって決定することを含む。方法は、選択された画像セットのそれぞれの中の画像から画像パッチを抽出することを含む。画像パッチは、分析物のサブセットのうちの特定の1つを中心とし、分析物のサブセットからの追加の隣接する分析物を含む。方法は、画像パッチを畳み込みニューラルネットワークの1つ又はそれ以上の層によって畳み込んで、画像パッチの畳み込み表現を生成することを含む。方法は、畳み込み表現を出力層によって処理して、ヌクレオチド塩基がA、C、T、及びGであることの尤度を生成することを含む。方法は、これらの尤度に基づいてヌクレオチド塩基をA、C、T、又はGとして分類することを含む。
他の実施態様のための特定の実施態様セクションで説明される特徴のそれぞれは、この実施態様に等しく適用される。上記のように、全ての他の特徴はここでは繰り返されず、参照により繰り返されるべきである。読者は、これらの実施態様において特定された特徴が、他の実施態様で特定されたベース特徴のセットと容易に組み合わせることができるかを理解するであろう。
一実施態様では、方法は、複数の配列決定サイクルのそれぞれについて選択すること、抽出すること、畳み込むこと、処理すること、及び分類することを反復することによって複数の配列決定サイクルにわたって分析物のサブセットのうちの特定の1つのためのベースコールの配列を生成することを含む。一実施態様では、方法は、サブセット内の複数の分析物のそれぞれのために複数の配列決定サイクルのそれぞれについて選択すること、抽出すること、畳み込むこと、処理すること、及び分類することを反復することによって複数の配列決定サイクルにわたってサブセット内の複数の分析物のためのベースコールの配列を生成することを含む。一実施態様では、フローセルの非重複領域はタイルである。一実施態様では、対応する画像チャネルは、複数のフィルタ波長帯域のうちの1つである。一実施態様では、対応する画像チャネルは、複数の画像イベントのうちの1つである。
このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な1つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
複数のサイクルにおける複数のクラスターの同時ベースコール
フローセル上の分析物をベースコールするニューラルネットワーク実装方法を開示する。方法は、画像セットのシーケンスから入力画像データを取得することを含む。画像セットのシーケンスは、フローセル上の分析物を合成する配列決定実行の複数の配列決定サイクルにわたって生成される。画像セットのシーケンス内の各画像は、フローセルの非重複領域を覆い、複数の配列決定サイクルのうちのそれぞれ1つにおける対応する画像チャネル内に捕捉された非重複領域上の分析物のサブセット及びそれらの周囲背景の強度発光を表現する。方法は、入力画像データをニューラルネットワークの1つ又はそれ以上の層によって処理して、入力画像データの代替表現を生成することを含む。方法は、代替表現を出力層によって処理して、複数の配列決定サイクルのそれぞれのそれぞれにおけるサブセット内の分析物のうちの少なくともいくつかに組み込まれたヌクレオチド塩基(A、C、T、又はG)を識別する出力を生成し、それによって、複数の配列決定サイクルにわたってサブセット内の分析物のうちの少なくともいくつかのためのベースコールの配列を生成することを含む。
他の実施態様のための特定の実施態様セクションで説明される特徴のそれぞれは、この実施態様に等しく適用される。上記のように、全ての他の特徴はここでは繰り返されず、参照により繰り返されるべきである。読者は、これらの実施態様において特定された特徴が、他の実施態様で特定されたベース特徴のセットと容易に組み合わせることができるかを理解するであろう。
一実施態様では、出力層はソフトマックス層であり、出力は、複数の配列決定サイクルのそれぞれにおいてサブセット内の分析物のうちの少なくともいくつかのそれぞれに組み込まれたヌクレオチド塩基がA、C、T、及びGであることの指数関数的に正規化されたスコア分布である。一実施態様では、入力画像データは、画像セットのシーケンス内の画像を含む。一実施態様では、入力画像データは、画像セットのシーケンス内の画像のそれぞれからの少なくとも1つの画像パッチを含む。一実施態様では、ニューラルネットワークは、畳み込みニューラルネットワークである。別の実施態様では、ニューラルネットワークは、残差ニューラルネットワークである。更に別の実施態様では、ニューラルネットワークは、反復ニューラルネットワークである。
このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な1つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
反復畳み込みベースのベースコール
ベースコールするためのニューラルネットワークベースのシステムを開示する。システムは、反復モジュール及び畳み込みモジュールを有するハイブリッドニューラルネットワークを含む。反復モジュールは、畳み込みモジュールからの入力を使用する。畳み込みモジュールは、配列決定実行の一連の配列決定サイクルのための画像データを1つ又はそれ以上の畳み込み層によって処理し、画像データの1つ又はそれ以上の畳み込み表現を生成する。画像データは、1つ又はそれ以上の分析物及びそれらの周囲背景の強度発光を表現する。反復モジュールは、畳み込み表現及び前の隠れ状態表現を畳み込むことに基づいて現在の隠れ状態表現を生成する。出力モジュールは、現在の隠れ状態表現に基づいて、分析物のうちの少なくとも1つのための、かつ配列決定サイクルのうちの少なくとも1つのためのベースコールを生成する。
他の実施態様のための特定の実施態様セクションで説明される特徴のそれぞれは、この実施態様に等しく適用される。上記のように、全ての他の特徴はここでは繰り返されず、参照により繰り返されるべきである。読者は、これらの実施態様において特定された特徴が、他の実施態様で特定されたベース特徴のセットと容易に組み合わせることができるかを理解するであろう。
ベースコールするニューラルネットワーク実装方法を開示する。方法は、サイクルごとの入力データのシーケンス内の各サイクルごとの入力データを畳み込みニューラルネットワークの畳み込み層のカスケードによって別個に処理することを含む。サイクルごとの入力データのシーケンスは、配列決定実行の一連の配列決定サイクルのために生成され、各サイクルごとの入力データは、それぞれの配列決定サイクルにおいて捕捉された1つ又はそれ以上の分析物及びそれらの周囲背景の強度発光を表現する画像チャネルを含む。方法は、各配列決定サイクルについて、別個に処理することに基づいて、畳み込み層のそれぞれにおいて畳み込み表現を生成し、それによって畳み込み表現のシーケンスを生成することと、そのサイクルごとの入力データをその対応する畳み込み表現のシーケンスと混合し、混合表現を生成することと、その混合表現を平坦化し、平坦化された混合表現を生成することと、を含む。方法は、継続的な配列決定サイクルの平坦化された混合表現をスタックとして配列することを含む。方法は、スタック内の平坦化された混合表現のサブセットにわたってスライディングウィンドウに基づいて畳み込みを行い(各スライディングウィンドウはそれぞれの配列決定サイクルに対応する)、(i)スタック上の現在のスライディングウィンドウ内の平坦化された混合表現のサブセット及び(ii)前の隠れ状態表現に基づいて、各配列決定サイクルのための各時間ステップにおける現在の隠れ状態表現を継続的に生成する反復ニューラルネットワークによって、スタックを順方向及び逆方向に処理することを含む。方法は、スタックを順方向及び逆方向に処理することの結果に基づいて、配列決定サイクルのそれぞれにおける分析物のそれぞれをベースコールすることを含む。反復ニューラルネットワークは、LSTM及びGRUなど、ゲート付き反復ニューラルネットワークとすることができる。
他の実施態様のための特定の実施態様セクションで説明される特徴のそれぞれは、この実施態様に等しく適用される。上記のように、全ての他の特徴はここでは繰り返されず、参照により繰り返されるべきである。読者は、これらの実施態様において特定された特徴が、他の実施態様で特定されたベース特徴のセットと容易に組み合わせることができるかを理解するであろう。
方法は、所与の配列決定サイクルの順方向及び逆方向の現在の隠れ状態表現を時間ステップに基づいて組み合わせ、組み合わせられた隠れ状態表現を生成すること、組み合わせられた隠れ状態表現を1つ又はそれ以上の全結合ネットワークによって処理し、高密度表現を生成すること、高密度表現をソフトマックス層によって処理して、所与の配列決定サイクルにおける分析物のそれぞれに組み込まれた塩基がA、C、T、及びGであることの尤度を生成すること、並びにこれらの尤度に基づいて塩基をA、C、T、又はGとして分類することによって、所与の配列決定サイクルにおける分析物のそれぞれをベースコールすることを含む。一実施態様では、組み合わせることは連結を含む。別の実施態様では、組み合わせることは総和を含む。更に別の実施態様では、組み合わせることは平均化を含む。
一実施態様では、各サイクルごとの入力データは、画像チャネルを補足し、対応する画像チャネル内のピクセルと1つ又はそれ以上の分析物中心との間の中心間距離を含む、距離チャネルを含む。一実施態様では、各サイクルごとの入力データは、画像チャネルを補足し、画像チャネル内の1つ又はそれ以上のピクセルの平均強度に基づいたスケーリング値を含む、スケーリングチャネルを含む。一実施態様では、混合することは、畳み込み表現及びサイクルごとの入力データを連結することを更に含む。一実施態様では、混合することは、畳み込み表現及びサイクルごとの入力データの総和をとることを更に含む。一実施態様では、平坦化された混合表現は二次元アレイである。一実施態様では、平坦化された混合表現のサブセットは、三次元体積である。一実施態様では、反復ニューラルネットワークは、三次元畳み込みを三次元体積に適用する。一実施態様では、三次元畳み込みは、SAMEパディングを使用する。一実施態様では、畳み込み層は、SAMEパディングを使用する。一実施態様では、反復ニューラルネットワークは、入力ゲート、活性化ゲート、忘却ゲート、及び出力ゲートを含む長・短期記憶(LSTM)ネットワークである。そのような実施態様では、方法は、(i)スタック上の現在のスライディングウィンドウ内の平坦化された混合表現のサブセット及び(ii)前の隠れ状態表現を、入力ゲート、活性化ゲート、忘却ゲート、及び出力ゲートによって処理することと、各配列決定サイクルのための各時間ステップにおける現在の隠れ状態表現を生成することと、を含む。入力ゲート、活性化ゲート、忘却ゲート、及び出力ゲートは、(i)スタック上の現在のスライディングウィンドウ内の平坦化された混合表現のサブセット及び(ii)前の隠れ状態表現に畳み込みを適用する。
このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な1つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
一実施態様では、ベースコールするニューラルネットワーク実装方法は、配列決定実行の一連の配列決定サイクルのための画像データを畳み込みモジュールの1つ又はそれ以上の畳み込み層によって畳み込むことと、画像データの1つ又はそれ以上の畳み込み表現を生成することとを含む。画像データは、1つ又はそれ以上の分析物及びそれらの周囲背景の強度発光を表現する。方法は、畳み込み表現及び前の隠れ状態表現を反復モジュールによって畳み込むことと、現在の隠れ状態表現を生成することとを含む。方法は、現在の隠れ状態表現を出力モジュールによって処理することと、分析物のうちの少なくとも1つのための、かつ配列決定サイクルのうちの少なくとも1つのためのベースコールを生成することとを含む。
他の実施態様のための特定の実施態様セクションで説明される特徴のそれぞれは、この実施態様に等しく適用される。上記のように、全ての他の特徴はここでは繰り返されず、参照により繰り返されるべきである。読者は、これらの実施態様において特定された特徴が、他の実施態様で特定されたベース特徴のセットと容易に組み合わせることができるかを理解するであろう。このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な1つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
品質スコアの推論
ニューラルネットワークベースのベースコーラーによってコールされた塩基に品質スコアを割り当てるコンピュータ実装方法を開示する。方法は、訓練中に訓練データを処理することに応じてニューラルネットワークベースのベースコーラーによって生成される予測されたベースコールの分類スコアを量子化することを含む。方法は、量子化された分類スコアのセットを選択することを含む。方法は、セット内の各量子化された分類スコアについて、その予測されたベースコールを対応するグラウンドトゥルースベースコールと比較することによって、ベースコール誤り率を決定することを含む。方法は、量子化された分類スコアとそれらのベースコール誤り率との間の適合を決定することを含む。すなわち、各量子化された分類スコアについて、その量子化された分類スコアが割り当てられている訓練データ内の訓練実施例のセットが決定される。決定された訓練実施例のセット内の各訓練実施例について、訓練実施例のための予測されたベースコールが、訓練実施例のためのグラウンドトゥルースベースコールと比較され、誤り率が、決定された訓練実施例のセットにわたる比較から決定されて、特定の量子化された分類スコアのための誤り率を提供する。方法は、適合に基づいて、品質スコアを量子化された分類スコアに相関させることを含む。
他の実施態様のための特定の実施態様セクションで説明される特徴のそれぞれは、この実施態様に等しく適用される。上記のように、全ての他の特徴はここでは繰り返されず、参照により繰り返されるべきである。読者は、これらの実施態様において特定された特徴が、他の実施態様で特定されたベース特徴のセットと容易に組み合わせることができるかを理解するであろう。
一実施態様では、量子化された分類スコアのセットは、訓練中に訓練データを処理することに応じてニューラルネットワークベースのベースコーラーによって生成される予測されたベースコールの分類スコアのサブセットを含み、分類スコアは実数である。一実施態様では、量子化された分類スコアのセットは、訓練中に訓練データを処理することに応じてニューラルネットワークベースのベースコーラーによって生成される予測されたベースコールの全ての分類スコアを含み、分類スコアは実数である。一実施態様では、分類スコアは、合計すると1になり、かつニューラルネットワークベースのベースコーラーのソフトマックス出力層によって生成される、指数関数的に正規化されたソフトマックススコアである。一実施態様では、量子化された分類スコアのセットは、
Figure 2022526470000039
として定義され、ソフトマックススコアに適用される選択式に基づいて選択される。一実施態様では、量子化された分類スコアのセットは、
Figure 2022526470000040
として定義され、ソフトマックススコアに適用される選択式に基づいて選択される。一実施態様では、方法は、相関に基づいて、推論中にニューラルネットワークベースのベースコーラーによってコールされた塩基に品質スコアを割り当てることを含む。一実施態様では、方法は、推論中にニューラルネットワークベースのベースコーラーによってコールされた塩基に品質スコア対応スキームを適用することに基づいて品質スコアを割り当てることを含む。そのような実施態様では、スキームは、推論中に、推論データを処理することに応じてニューラルネットワークベースのベースコーラーによって生成された、分類スコアの範囲を、セット内の対応する量子化された分類スコアにマッピングする。一実施態様では、方法は、推論中に、品質スコアが現在のベースコールサイクルのための設定閾値を下回っている分析物をベースコールすることを中止することを含む。一実施態様では、方法は、推論中に、平均品質スコアが継続的なベースコールサイクルの後に設定閾値を下回っている分析物をベースコールすることを中止することを含む。一実施態様では、予測されたベースコールを対応するグラウンドトゥルースベースコールと比較するために使用されるサンプルサイズは、各量子化された分類スコアに固有である。一実施態様では、予測されたベースコールを対応するグラウンドトゥルースベースコールと比較するために使用されるサンプルサイズは、各量子化された分類スコアに固有である。一実施態様では、適合は、回帰モデルを使用して決定される。一実施態様では、方法は、各量子化された分類スコアについて、その予測されたベースコールを対応するグラウンドトゥルースベースコールと比較することによってベースコール精度率を決定することと、量子化された分類スコアとそれらのベースコール精度率との間の適合を決定することとを含む。一実施態様では、対応するグラウンドトゥルースベースコールは、複数の配列決定器具、配列決定ケミストリー、及び配列決定プロトコル上で配列決定された十分に特徴付けられたヒト及び非ヒトサンプルから導出される。
このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な1つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
品質スコアの予測
並列に動作し、メモリに連結されている多数のプロセッサ上で実行されるニューラルネットワークベースの品質スコアラーを開示する。システムは、多数のプロセッサ上で実行される畳み込みニューラルネットワークを含む。畳み込みニューラルネットワークは、配列決定画像からのデータを含む訓練実施例上で訓練され、畳み込みニューラルネットワークのベースコール品質予測をベースコール品質グラウンドトゥルースと漸進的に一致させる逆伝播ベースの勾配更新技術を使用してベースコール品質グラウンドトゥルースでラベル付けされる。システムは、多数のプロセッサのうちの少なくとも1つの上で実行され、1つ又はそれ以上の配列決定サイクルにおいて捕捉された配列決定画像からのデータを、1つ又はそれ以上の分析物のためにコールされた1つ又はそれ以上の塩基の品質状態を判定するための畳み込みニューラルネットワークに供給する、畳み込みニューラルネットワークの入力モジュールを含む。システムは、多数のプロセッサのうちの少なくとも1つの上で実行され、畳み込みニューラルネットワークによる分析を1つ又はそれ以上の分析物のためにコールされた1つ又はそれ以上の塩基の品質状態を識別する出力に変換する、畳み込みニューラルネットワークの出力モジュールを含む。
他の実施態様のための特定の実施態様セクションで説明される特徴のそれぞれは、この実施態様に等しく適用される。上記のように、全ての他の特徴はここでは繰り返されず、参照により繰り返されるべきである。読者は、これらの実施態様において特定された特徴が、他の実施態様で特定されたベース特徴のセットと容易に組み合わせることができるかを理解するであろう。
一実施態様では、出力モジュールは、高品質、中品質、及び低品質である品質状態の尤度を生成するソフトマックス分類層を更に含む。そのような実施態様では、これらの尤度に基づいて、品質状態は、高品質、中質、又は低品質として分類される。一実施態様では、ソフトマックス分類層は、複数の品質スコアが割り当てられている品質状態について尤度を生成する。そのような実施態様では、これらの尤度に基づいて、品質状態は、複数の品質スコアのうちの1つから品質スコアが割り当てられる。一実施態様では、品質スコアは、ベースコール誤り確率に対数的に基づいており、複数の品質スコアは、Q6、Q10、Q43、Q20、Q22、Q27、Q30、Q33、Q37、Q40、及びQ50を含む。一実施態様では、出力モジュールは、品質状態を識別する連続的な値を生成する回帰層を更に含む。一実施態様では、システムは、配列決定画像からのデータをコールされた塩基のための品質予測子値で補足し、品質予測子値を配列決定画像からのデータと共に畳み込みニューラルネットワークに供給する、補足的な入力モジュールを含む。一実施態様では、品質予測子値としては、オンライン重複、純度、フェージング、開始5、6量体スコア、モチーフ蓄積、エンジネス、近似的なホモポリマー、強度減衰、最後から2番目のチャステティ、背景との信号重複(SOWB)、及び/又はシフトされた純度G調整が挙げられる。一実施態様では、品質予測子値としては、ピーク高さ、ピーク幅、ピーク位置、相対ピーク位置、ピーク高さ比、ピーク間隔比、及び/又はピーク対応が挙げられる。
このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な1つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
品質スコアリングするニューラルネットワーク実装方法も開示する。方法は、1つ又はそれ以上の配列決定サイクルにおいて捕捉された配列決定画像からのデータを、1つ又はそれ以上の分析物のためにコールされた1つ又はそれ以上の塩基の品質状態を判定するための畳み込みニューラルネットワークに供給することを含む。畳み込みニューラルネットワークは、配列決定画像からのデータを含む訓練実施例上で訓練され、ベースコール品質グラウンドトゥルースでラベル付けされる。訓練することは、畳み込みニューラルネットワークのベースコール品質予測をベースコール品質グラウンドトゥルースと漸進的に一致させる逆伝播ベースの勾配更新技術を使用することを含む。方法は、畳み込みニューラルネットワークによる分析を、1つ又はそれ以上の分析物のためにコールされた1つ又はそれ以上の塩基の品質状態を識別する出力に変換することを含む。
他の実施態様のための特定の実施態様セクションで説明される特徴のそれぞれは、この実施態様に等しく適用される。上記のように、全ての他の特徴はここでは繰り返されず、参照により繰り返されるべきである。読者は、これらの実施態様において特定された特徴が、他の実施態様で特定されたベース特徴のセットと容易に組み合わせることができるかを理解するであろう。
一実施態様では、コンピュータ実装方法は、1つ又はそれ以上の分析物のための入力データをニューラルネットワークによって処理し、入力データの代替表現を生成することと、代替表現を出力層によって処理して出力を生成することであって、出力は、分析物のうちの特定の1つに組み込まれた塩基がA、C、T、及びGであることの尤度を識別する、ことと、出力に基づいて、分析物のうちの1つ又はそれ以上に対して塩基をコールすることと、出力によって識別された尤度に基づいて、コールされた塩基の品質を判定することと、を含む。
他の実施態様のための特定の実施態様セクションで説明される特徴のそれぞれは、この実施態様に等しく適用される。上記のように、全ての他の特徴はここでは繰り返されず、参照により繰り返されるべきである。読者は、これらの実施態様において特定された特徴が、他の実施態様で特定されたベース特徴のセットと容易に組み合わせることができるかを理解するであろう。このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な1つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
ニューラルネットワークベースの品質スコアラーを開示し、このニューラルネットワークベースの品質スコアラーは、並列に動作し、かつメモリに連結されている、多数のプロセッサ上で実行される。システムは、多数のプロセッサ上で実行され、配列決定画像からのデータを含む訓練実施例上で訓練され、ニューラルネットワークのベースコール品質予測をベースコール品質グラウンドトゥルースと漸進的に一致させる逆伝播ベースの勾配更新技術を使用してベースコール品質グラウンドトゥルースでラベル付けされる、ニューラルネットワークを含む。システムは、多数のプロセッサのうちの少なくとも1つの上で実行され、1つ又はそれ以上の配列決定サイクルにおいて捕捉された配列決定画像からのデータを、1つ又はそれ以上の分析物のためにコールされた1つ又はそれ以上の塩基の品質状態を判定するためのニューラルネットワークに供給する、ニューラルネットワークの入力モジュールを含む。システムは、多数のプロセッサのうちの少なくとも1つの上で実行され、ニューラルネットワークによる分析を1つ又はそれ以上の分析物のためにコールされた1つ又はそれ以上の塩基の品質状態を識別する出力に変換する、ニューラルネットワークの出力モジュールを含む。
他の実施態様のための特定の実施態様セクションで説明される特徴のそれぞれは、この実施態様に等しく適用される。上記のように、全ての他の特徴はここでは繰り返されず、参照により繰り返されるべきである。読者は、これらの実施態様において特定された特徴が、他の実施態様で特定されたベース特徴のセットと容易に組み合わせることができるかを理解するであろう。
項目
本開示はまた、以下の項目も含む。
項目セット1
1.コンピュータ実装方法であって、
入力データをニューラルネットワークによって処理し、入力データの代替表現を生成することであって、入力データは、配列決定実行の1つ又はそれ以上の配列決定サイクルのそれぞれのためのサイクルごとのデータを含み、サイクルごとのデータは、それぞれの配列決定サイクルにおける1つ又はそれ以上の分析物を示している、ことと、
代替表現を出力層によって処理し、出力を生成することと、
出力に基づいて、配列決定サイクルのうちの1つ又はそれ以上における分析物のうちの1つ又はそれ以上をベースコールすることと、を含む、コンピュータ実装方法。
2.サイクルごとのデータが、それぞれの配列決定サイクルにおける周囲背景を示している、項目1に記載のニューラルネットワーク実装方法。
3.入力データが画像データであり、サイクルごとのデータが、それぞれの配列決定サイクルにおいて捕捉された1つ又はそれ以上の分析物及び周囲背景を示している強度発光を含む、項目1~2のいずれか一項に記載のニューラルネットワーク実装方法。
4.サイクルごとのデータのピクセルと、分析物のうちの1つ又はそれ以上を示している強度発光を表現するそれらのピクセルとの間の距離を識別する補足的な距離情報をサイクルごとのデータに添付することを更に含む、項目3に記載のコンピュータ実装方法。
5.サイクルごとのデータのピクセルにスケーリング値を割り当てる補足的なスケーリング情報をサイクルごとのデータに添付することを更に含む、項目3に記載のコンピュータ実装方法。
6.サイクルごとのデータが、それぞれの配列決定サイクルにおいて検出された電圧変化を示している、項目1に記載のニューラルネットワーク実装方法。
7.サイクルごとのデータが、それぞれの配列決定サイクルにおいて測定された電流信号を示している、項目1に記載のニューラルネットワーク実装方法。
8.複数の配列決定サイクルを含む配列決定実行中に合成された分析物をベースコールするニューラルネットワーク実装方法であって、この方法は、
入力データを畳み込みニューラルネットワークによって畳み込んで、入力データの畳み込み表現を生成することであって、
入力データが、配列決定実行の現在の配列決定サイクルにおいて生成された現在の画像セットの、現在の配列決定サイクルに先行する配列決定実行の1つ又はそれ以上の配列決定サイクルにおいてそれぞれ生成された1つ又はそれ以上の先行する画像セットの、及び現在の配列決定サイクルの後に続く配列決定実行の1つ又はそれ以上の配列決定サイクルにおいてそれぞれ生成された1つ又はそれ以上の後続の画像セットのそれぞれで1つ又はそれ以上の画像から抽出された画像パッチを含み、
画像パッチのそれぞれが、ベースコールされているターゲット分析物の強度発光を表現し、
入力データが、画像パッチの中心ピクセルからの画像パッチのピクセルのそれぞれの距離を示す距離情報を更に含む、ことと、
畳み込み表現を出力層によって処理して、出力を生成することと、
現在の配列決定サイクルにおけるターゲット分析物を出力に基づいてベースコールすることと、を含む、ニューラルネットワーク実装方法。
9.
畳み込みニューラルネットワークへの入力としてそれぞれの分析物を表す画像領域の中心の位置座標を提供することを更に含み、
入力が、畳み込みニューラルネットワークの第1の層に提供され、
入力が、畳み込みニューラルネットワークの1つ又はそれ以上の中間層に提供され、
入力が、畳み込みニューラルネットワークの最終層に提供される、項目8に記載のニューラルネットワーク実装方法。
10.
畳み込みニューラルネットワークへの入力として、画像パッチのピクセルに対応するスケーリング値を有する強度スケーリングチャネルを提供することを更に含み、
スケーリング値が、特定のターゲット分析物をそれぞれ含む画像パッチの中心ピクセルの平均強度に基づいている、項目8~9のいずれか一項に記載のニューラルネットワーク実装方法。
11.強度スケーリングチャネルが、画像パッチの全てのピクセルについてピクセル単位で同じスケーリング値を含む、項目8~10のいずれか一項に記載のニューラルネットワーク実装方法。
12.各画像パッチが、それぞれのピクセルと複数の分析物のうちの最も近い分析物との間の距離を示すピクセル距離データを更に含み、複数の分析物のうちの最も近い分析物は、ピクセルと分析物のそれぞれとの間の中心間距離に基づいて選択される、項目8に記載のニューラルネットワーク実装方法。
13.各画像パッチが、分析物のうちの1つのみに対して各分析物ピクセルを分類することに基づいて選択された複数の分析物のうちの割り当てられた分析物からの各分析物ピクセルの距離を識別する分析物距離データを更に含む、項目8に記載のニューラルネットワーク実装方法。
14.入力データを畳み込みニューラルネットワークによって畳み込んで、入力データの畳み込み表現を生成することが、
畳み込みニューラルネットワークの第1の畳み込みサブネットワークによって各サイクルごとの画像パッチセットを別個に処理して、各配列決定サイクルのための中間畳み込み表現を生成することであって、強度及び距離情報を組み合わせ、かつ結果として得られる畳み込み表現を配列決定サイクル内でのみ組み合わせ、かつ配列決定サイクル間では組み合わせない畳み込みを適用することを含む、ことと、
畳み込みニューラルネットワークの第2の畳み込みサブネットワークによって一連内の継続的な配列決定サイクルのための中間畳み込み表現をグループ単位で処理して、一連のための最終畳み込み表現を生成することであって、中間畳み込み表現を組み合わせ、かつ結果として得られる畳み込み表現を配列決定サイクルの間で組み合わせる畳み込みを適用することを含む、ことと、を含み、
出力層によって畳み込み表現を処理して出力を生成することが、出力層によって最終畳み込み表現を処理することを含む、項目8~13のいずれか一項に記載のニューラルネットワーク実装方法。
15.ターゲット分析物の中心を中心ピクセルの中心に配置するように各画像パッチのピクセルをリフレームして、リフレームされた画像パッチを生成することを更に含み、
入力データを畳み込みニューラルネットワークによって畳み込んで、入力データの畳み込み表現を生成することが、リフレームされた画像パッチを畳み込みニューラルネットワークによって畳み込んで、畳み込み表現を生成することを含む、項目8~14のいずれか一項に記載のニューラルネットワーク実装方法。
16.リフレームすることが、リフレームすることを補正するための各画像パッチのピクセルの強度補間を更に含む、項目15に記載のニューラルネットワーク実装方法。
17.ベースコールするニューラルネットワーク実装方法であって、この方法は、
サイクルごとの入力データのシーケンス内の各サイクルごとの入力データを畳み込みニューラルネットワークの畳み込み層のカスケードによって別個に処理することであって、
サイクルごとの入力データのシーケンスが、配列決定実行の一連の配列決定サイクルのために生成され、
各サイクルごとの入力データが、それぞれの配列決定サイクルにおいて捕捉された1つ又はそれ以上の分析物及びそれらの周囲背景の強度発光を表現する画像チャネルを含む、ことと、
各配列決定サイクルに対して、
別個に処理することに基づいて、畳み込み層のそれぞれにおいて畳み込み表現を生成し、それによって畳み込み表現のシーケンスを生成することと、
そのサイクルごとの入力データをその対応する畳み込み表現のシーケンスと混合し、混合表現を生成することと、
その混合表現を平坦化し、平坦化された混合表現を生成することと、を行うことと、
継続的な配列決定サイクルの平坦化された混合表現をスタックとして配列することと、
スタックを反復ニューラルネットワークによって順方向及び逆方向に処理することであって、この反復ニューラルネットワークが、
スライディングウィンドウに基づいたスタック内の平坦化された混合表現のサブセットにわたって畳み込みを行うことであって、各スライディングウィンドウがそれぞれの配列決定サイクルに対応する、ことと、
(i)スタック上の現在のスライディングウィンドウ内の平坦化された混合表現のサブセット及び(ii)前の隠れ状態表現に基づいて、各配列決定サイクルのための各時間ステップにおける現在の隠れ状態表現を継続的に生成することと、を行う、ことと、
スタックを順方向及び逆方向に処理することの結果に基づいて、配列決定サイクルのそれぞれにおける分析物のそれぞれをベースコールすることと、を含む、ニューラルネットワーク実装方法。
18.
所与の配列決定サイクルにおける分析物のそれぞれを、
所与の配列決定サイクルの順方向及び逆方向の現在の隠れ状態表現を時間ステップに基づいて組み合わせ、組み合わせられた隠れ状態表現を生成することであって、組み合わせることが、連結又は総和又は平均化を含む、ことと、
組み合わせられた隠れ状態表現を1つ又はそれ以上の全結合ネットワークによって処理し、高密度表現を生成することと、
高密度表現をソフトマックス層によって処理して、所与の配列決定サイクルにおける分析物のそれぞれに組み込まれた塩基がA、C、T、及びGであることの尤度を生成することと、
尤度に基づいて塩基をA、C、T、又はGとして分類することと、によってベースコールすることを更に含む、項目17に記載のニューラルネットワーク実装方法。
19.ベースコールするためのニューラルネットワークベースのシステムであって、システムは、
反復モジュール及び畳み込みモジュールを有するハイブリッドニューラルネットワークであって、反復モジュールが、畳み込みモジュールからの入力を使用する、ハイブリッドニューラルネットワークと、
配列決定実行の一連の配列決定サイクルのための画像データを1つ又はそれ以上の畳み込み層によって処理し、画像データの1つ又はそれ以上の畳み込み表現を生成する畳み込みモジュールであって、画像データが、1つ又はそれ以上の分析物及びそれらの周囲背景の強度発光を表現する、畳み込みモジュールと、
畳み込み表現及び前の隠れ状態表現を畳み込むことに基づいて現在の隠れ状態表現を生成する反復モジュールと、
現在の隠れ状態表現に基づいて、分析物のうちの少なくとも1つのための、かつ配列決定サイクルのうちの少なくとも1つのためのベースコールを生成する出力モジュールと、を備える、ニューラルネットワークベースのシステム。
20.クラスターをベースコールするコンピュータ実装方法であって、
入力データをニューラルネットワークによって処理し、入力データの代替表現を生成することであって、
入力データが、(i)配列決定実行の1つ又はそれ以上の配列決定サイクルのそれぞれのためのサイクルごとのデータと、(ii)補足的な距離情報と、を含み、
サイクルごとのデータが、配列決定サイクルのうちのそれぞれ1つにおいて捕捉された1つ又はそれ以上のクラスター及びその周囲背景を示している強度発光を表現するピクセルを含み、
サイクルごとのデータが、サイクルごとのデータのピクセル間の距離を識別する補足的な距離情報を伴い、
ニューラルネットワークによるサイクルごとのデータのピクセルの処理中に、補足的な距離情報が、サイクルごとのデータのピクセルのうちのどれがクラスターの中心を含んでいるか、及びサイクルごとのデータのピクセルのうちのどれがクラスターの中心からより遠く離れているかをニューラルネットワークに伝える加法的バイアスを供給する、ことと、
代替表現を出力層によって処理し、出力を生成することと、
出力に基づいて、配列決定サイクルのうちの1つ又はそれ以上におけるクラスターのうちの1つ又はそれ以上をベースコールすることと、を含む、コンピュータ実装方法。
21.加法的バイアスが、ベースコールすることの精度を改善する、項目20に記載のコンピュータ実装方法。
22.ニューラルネットワークが、周辺クラスターピクセル、背景ピクセル、及びそれらから導出される代替表現よりも、中央クラスターピクセル、それらの隣接ピクセル、及びそれらから導出される代替表現に着目することによって配列決定信号をその適切なソースクラスターに割り当てるために、補足的な距離情報を使用する、項目21に記載のコンピュータ実装方法。
23.クラスターをベースコールするコンピュータ実装方法であって、
入力データをニューラルネットワークによって処理し、入力データの代替表現を生成することであって、入力データが、
(i)配列決定実行の1つ又はそれ以上の配列決定サイクルのそれぞれについてのサイクルごとのデータであって、配列決定サイクルのうちのそれぞれ1つにおける1つ又はそれ以上のクラスターを示している強度発光を表現するピクセルを含む、サイクルごとのデータと、
(ii)サイクルごとのデータのピクセル間の距離を識別する補足的な距離情報と、を含み、
ニューラルネットワークによるサイクルごとのデータのピクセルの処理中に、補足的な距離情報が、サイクルごとのデータに付随し、サイクルごとのデータのピクセルのうちのどれがクラスターの中心を含んでいるか、及びサイクルごとのデータのピクセルのうちのどれがクラスターの中心からより遠く離れているかをニューラルネットワークに伝える、ことと、
代替表現を出力層によって処理し、出力を生成することと、
出力に基づいて、配列決定サイクルのうちの1つ又はそれ以上におけるクラスターのうちの1つ又はそれ以上をベースコールすることと、を含む、コンピュータ実装方法。
24.補足的な距離情報が、ベースコールすることの精度を改善する、項目1に記載のコンピュータ実装方法。
25.ニューラルネットワークが、周辺クラスターピクセル、背景ピクセル、及びそれらから導出される代替表現よりも、中央クラスターピクセル、それらの隣接ピクセル、及びそれらから導出される代替表現に着目することによって配列決定信号をその適切なソースクラスターに割り当てるために、補足的な距離情報を使用する、請求項24に記載のコンピュータ実装方法。
項目セット2
1.コンピュータ実装方法であって、
1つ又はそれ以上の分析物のための入力データをニューラルネットワークベースのベースコーラーによって処理し、入力データの代替表現を生成することと、
代替表現を出力層によって処理して出力を生成することであって、出力は、分析物のうちの特定の1つに組み込まれた塩基がA、C、T、及びGであることの尤度を識別する、ことと、
出力に基づいて、分析物のうちの1つ又はそれ以上に対して塩基をコールすることと、
出力によって識別された尤度に基づいて、コールされた塩基の品質スコアを判定することと、を含む、コンピュータ実装方法。
2.尤度に基づいて、コールされた塩基の品質スコアを判定することが、
訓練中に訓練データを処理することに応じてニューラルネットワークベースのベースコーラーによって生成されるベースコールの分類スコアを量子化することと、
量子化された分類スコアのセットを選択することと、
セット内の各量子化された分類スコアについて、その予測されたベースコールを対応するグラウンドトゥルースベースコールと比較することによって、ベースコール誤り率を決定することと、
量子化された分類スコアとそれらのベースコール誤り率との間の適合を決定することと、
適合に基づいて、品質スコアを量子化された分類スコアに相関させることと、を含む、項目1に記載のコンピュータ実装方法。
3.量子化された分類スコアのセットが、訓練中に訓練データを処理することに応じてニューラルネットワークベースのベースコーラーによって生成される予測されたベースコールの分類スコアのサブセットを含み、
分類スコアが実数である、項目1~2のいずれか一項に記載のコンピュータ実装方法。
4.量子化された分類スコアのセットが、訓練中に訓練データを処理することに応じてニューラルネットワークベースのベースコーラーによって生成される予測されたベースコールの全ての分類スコアを含み、
分類スコアが実数である、項目1~3のいずれか一項に記載のコンピュータ実装方法。
5.分類スコアが、合計すると1になり、かつニューラルネットワークベースのベースコーラーのソフトマックス出力層によって生成される、指数関数的に正規化されたソフトマックススコアである、項目1~4のいずれか一項に記載のコンピュータ実装方法。
6.量子化された分類スコアのセットが、
Figure 2022526470000041
として定義され、ソフトマックススコアに適用される選択式に基づいて選択される、項目1~5のいずれか一項に記載のコンピュータ実装方法。
7.量子化された分類スコアのセットが、
Figure 2022526470000042
として定義され、ソフトマックススコアに適用される選択式に基づいて選択される、項目1~6のいずれか一項に記載のコンピュータ実装方法。
8.
相関に基づいて、推論中にニューラルネットワークベースのベースコーラーによってコールされた塩基に品質スコアを割り当てることを更に含む、項目1~7のいずれか一項に記載のコンピュータ実装方法。
9.
推論中にニューラルネットワークベースのベースコーラーによってコールされた塩基に品質スコア対応スキームを適用することに基づいて品質スコアを割り当てることを更に含み、
スキームが、推論中に推論データを処理することに応じてニューラルネットワークベースのベースコーラーによって生成された、分類スコアの範囲を、セット内の対応する量子化された分類スコアにマッピングする、項目8に記載のコンピュータ実装方法。
10.
推論中に、品質スコアが現在のベースコールサイクルのための設定閾値を下回っている分析物をベースコールすることを中止することを更に含む、項目8~9のいずれか一項に記載のコンピュータ実装方法。
11.
推論中に、平均品質スコアが継続的なベースコールサイクルの後に設定閾値を下回っている分析物をベースコールすることを中止することを更に含む、項目8~10のいずれか一項に記載のコンピュータ実装方法。
12.予測されたベースコールを対応するグラウンドトゥルースベースコールと比較するために使用されるサンプルサイズが、各量子化された分類スコアに固有である、項目8~11のいずれか一項に記載のコンピュータ実装方法。
13.適合が、回帰モデルを使用して決定される、項目8~12のいずれか一項に記載のコンピュータ実装方法。
14.
各量子化された分類スコアについて、その予測されたベースコールを対応するグラウンドトゥルースベースコールと比較することによって、ベースコール精度率を決定することと、
量子化された分類スコアとそれらのベースコール精度率との間の適合を決定することと、を更に含む、項目8~13のいずれか一項に記載のコンピュータ実装方法。
15.対応するグラウンドトゥルースベースコールが、複数の配列決定器具、配列決定ケミストリー、及び配列決定プロトコル上で配列決定された十分に特徴付けられたヒト及び非ヒトサンプルから導出される、項目8~14のいずれか一項に記載のコンピュータ実装方法。
16.ニューラルネットワークベースの品質スコアラーであって、
並列に動作し、かつメモリに連結されている多数のプロセッサと、
多数のプロセッサ上で実行され、配列決定画像からのデータを含む訓練実施例上で訓練され、ニューラルネットワークのベースコール品質予測を、既知の正しいベースコールを識別するベースコール品質グラウンドトゥルースと漸進的に一致させる逆伝播ベースの勾配更新技術を使用してベースコール品質グラウンドトゥルースでラベル付けされる、ニューラルネットワークと、
多数のプロセッサのうちの少なくとも1つの上で実行され、1つ又はそれ以上の配列決定サイクルにおいて捕捉された配列決定画像からのデータを、1つ又はそれ以上の分析物のためにコールされた1つ又はそれ以上の塩基の品質を判定するためのニューラルネットワークに供給する、ニューラルネットワークの入力モジュールと、
多数のプロセッサのうちの少なくとも1つの上で実行され、ニューラルネットワークによる分析を1つ又はそれ以上の分析物のためにコールされた1つ又はそれ以上の塩基の品質を識別する出力に変換する、ニューラルネットワークの出力モジュールと、を含む、ニューラルネットワークベースの品質スコアラー。
17.ニューラルネットワークが畳み込みニューラルネットワークである、項目16に記載のニューラルネットワークベースの品質スコアラー。
18.出力モジュールが、高品質、中品質、及び低品質である品質の尤度を生成するソフトマックス分類層を更に含み、
尤度に基づいて、品質を高品質、中品質、又は低品質として分類することを更に含む、項目16に記載のニューラルネットワークベースの品質スコアラー。
19.ソフトマックス分類層が、複数の品質スコアを割り当てられている品質について尤度を生成し、
尤度に基づいて、品質に、複数の品質スコアのうちの1つから品質スコアを割り当てることを更に含む、項目16に記載のニューラルネットワークベースの品質スコアラー。
20.品質スコアが、ベースコール誤り確率に対数的に基づいており、
複数の品質スコアが、Q6、Q10、Q15、Q20、Q22、Q27、Q30、Q33、Q37、Q40、及びQ50を含む、項目16~19のいずれか一項に記載のニューラルネットワークベースの品質スコアラー。
21.出力モジュールが、品質を識別する連続的な値を生成する回帰層を更に含む、項目16~20のいずれか一項に記載のニューラルネットワークベースの品質スコアラー。
22.
補足的な入力モジュールであって、
配列決定画像からのデータを、コールされた塩基のための品質予測子値で補足し、
品質予測子値を配列決定画像からのデータと共に畳み込みニューラルネットワークに供給する、補足的な入力モジュールを更に含む、項目16~21のいずれか一項に記載のニューラルネットワークベースの品質スコアラー。
23.品質予測子値が、オンライン重複、純度、フェージング、開始5、6量体スコア、モチーフ蓄積、エンジネス、近似的なホモポリマー、強度減衰、最後から2番目のチャステティ、背景との信号重複(SOWB)、及び/又はシフトされた純度G調整を含む、項目22に記載のニューラルネットワークベースの品質スコアラー。
24.品質予測子値が、ピーク高さ、ピーク幅、ピーク位置、相対ピーク位置、ピーク高さ比、ピーク間隔比、及び/又はピーク対応を含む、項目22に記載のニューラルネットワークベースの品質スコアラー。

Claims (19)

  1. クラスターをベースコールするコンピュータ実装方法であって、
    入力データをニューラルネットワークによって処理し、前記入力データの代替表現を生成することであって、前記入力データが、
    (i)配列決定実行の1つ又はそれ以上の配列決定サイクルのそれぞれについてのサイクルごとのデータであって、前記配列決定サイクルのうちのそれぞれ1つにおける前記1つ又はそれ以上のクラスターを示している強度発光を表現するピクセルを含む、サイクルごとのデータと、
    (ii)前記サイクルごとのデータの前記ピクセル間の距離を識別する補足的な距離情報と、を含み、
    前記ニューラルネットワークによる前記サイクルごとのデータの前記ピクセルの前記処理中に、前記補足的な距離情報が、前記サイクルごとのデータに付随し、前記サイクルごとのデータの前記ピクセルのうちのどれが前記クラスターの中心を含んでいるか、及び前記サイクルごとのデータの前記ピクセルのうちのどれが前記クラスターの前記中心からより遠く離れているかを前記ニューラルネットワークに伝える、ことと、
    前記代替表現を出力層によって処理し、出力を生成することと、
    前記出力に基づいて、前記配列決定サイクルのうちの1つ又はそれ以上における前記クラスターのうちの1つ又はそれ以上をベースコールすることと、
    を含む、コンピュータ実装方法。
  2. 前記サイクルごとのデータが、前記配列決定サイクルのうちの前記それぞれ1つにおける周囲背景を示している、請求項1に記載のコンピュータ実装方法。
  3. 前記補足的な距離情報が、前記ベースコールすることの精度を改善する、請求項1又は2に記載のコンピュータ実装方法。
  4. 前記ニューラルネットワークが、周辺クラスターピクセル、背景ピクセル、及びそれらから導出される代替表現よりも、中央クラスターピクセル、それらの隣接ピクセル、及びそれらから導出される代替表現に着目することによって配列決定信号をその適切なソースクラスターに割り当てるために、前記補足的な距離情報を使用する、請求項3に記載のコンピュータ実装方法。
  5. 前記サイクルごとのデータの前記ピクセルにスケーリング値を割り当てる補足的なスケーリング情報を前記サイクルごとのデータに添付することを更に含む、請求項1に記載のコンピュータ実装方法。
  6. 前記サイクルごとのデータが、前記それぞれの配列決定サイクルにおいて検出された電圧変化を示している、請求項1に記載のコンピュータ実装方法。
  7. 前記サイクルごとのデータが、前記それぞれの配列決定サイクルにおいて測定された電流信号を示している、請求項1に記載のコンピュータ実装方法。
  8. 複数の配列決定サイクルを含む配列決定実行中に合成されたクラスターをベースコールするニューラルネットワーク実装方法であって、前記方法は、
    入力データを畳み込みニューラルネットワークによって畳み込んで、前記入力データの畳み込み表現を生成することであって、
    前記入力データが、前記配列決定実行の現在の配列決定サイクルにおいて生成された現在の画像セットの、前記現在の配列決定サイクルに先行する前記配列決定実行の1つ又はそれ以上の配列決定サイクルにおいてそれぞれ生成された1つ又はそれ以上の先行する画像セットの、及び前記現在の配列決定サイクルの後に続く前記配列決定実行の1つ又はそれ以上の配列決定サイクルにおいてそれぞれ生成された1つ又はそれ以上の後続の画像セットのそれぞれで1つ又はそれ以上の画像から抽出された画像パッチを含み、
    前記画像パッチのそれぞれが、ベースコールされているターゲットクラスターの強度発光を表現し、
    前記入力データが、前記画像パッチの中心ピクセルからの前記画像パッチのピクセルのそれぞれの距離を示す距離情報を更に含む、ことと、
    前記畳み込み表現を出力層によって処理して、出力を生成することと、
    前記現在の配列決定サイクルにおける前記ターゲットクラスターを前記出力に基づいてベースコールすることと、
    を含む、ニューラルネットワーク実装方法。
  9. 前記畳み込みニューラルネットワークへの入力として、それぞれのクラスターを表す画像領域の中心の位置座標を提供することを更に含み、
    前記入力が、前記畳み込みニューラルネットワークの第1の層に提供され、
    前記入力が、前記畳み込みニューラルネットワークの1つ又はそれ以上の中間層に提供され、
    前記入力が、前記畳み込みニューラルネットワークの最終層に提供される、請求項8に記載のニューラルネットワーク実装方法。
  10. 前記畳み込みニューラルネットワークへの入力として、前記画像パッチのピクセルに対応するスケーリング値を有する強度スケーリングチャネルを提供することを更に含み、
    前記スケーリング値が、特定のターゲットクラスターをそれぞれ含む前記画像パッチの中心ピクセルの平均強度に基づいている、請求項8~9のいずれか一項に記載のニューラルネットワーク実装方法。
  11. 前記強度スケーリングチャネルが、前記画像パッチの全ての前記ピクセルについてピクセル単位で同じスケーリング値を含む、請求項8~10のいずれか一項に記載のニューラルネットワーク実装方法。
  12. 各画像パッチが、それぞれのピクセルと前記複数のクラスターのうちの最も近いクラスターとの間の距離を示すピクセル距離データを更に含み、前記複数のクラスターのうちの前記最も近いクラスターは、前記ピクセルと前記クラスターのそれぞれとの間の中心間距離に基づいて選択される、請求項8に記載のニューラルネットワーク実装方法。
  13. 各画像パッチが、前記クラスターのうちの1つのみに対して各クラスターピクセルを分類することに基づいて選択された前記複数のクラスターのうちの割り当てられたクラスターからの各クラスターピクセルの距離を識別するクラスター距離データを更に含む、請求項8に記載のニューラルネットワーク実装方法。
  14. 前記入力データを前記畳み込みニューラルネットワークによって畳み込んで、前記入力データの前記畳み込み表現を生成することが、
    前記畳み込みニューラルネットワークの第1の畳み込みサブネットワークによって各サイクルごとの画像パッチセットを別個に処理して、各配列決定サイクルのための中間畳み込み表現を生成することであって、前記強度及び距離情報を組み合わせ、かつ結果として得られる畳み込み表現を配列決定サイクル内でのみ組み合わせ、かつ配列決定サイクル間では組み合わせない畳み込みを適用することを含む、ことと、
    前記畳み込みニューラルネットワークの第2の畳み込みサブネットワークによって一連内の継続的な配列決定サイクルのための中間畳み込み表現をグループ単位で処理して、前記一連のための最終畳み込み表現を生成することであって、前記中間畳み込み表現を組み合わせ、かつ結果として得られる畳み込み表現を前記配列決定サイクルの間で組み合わせる畳み込みを適用することを含む、ことと、
    を含み、
    前記出力層によって前記畳み込み表現を処理して前記出力を生成することが、前記出力層によって前記最終畳み込み表現を処理することを含む、請求項8~13のいずれか一項に記載のニューラルネットワーク実装方法。
  15. 前記ターゲットクラスターの中心を中心ピクセルの中心に配置するように各画像パッチの前記ピクセルをリフレームして、リフレームされた画像パッチを生成することを更に含み、
    前記入力データを前記畳み込みニューラルネットワークによって畳み込んで、前記入力データの前記畳み込み表現を生成することが、前記リフレームされた画像パッチを前記畳み込みニューラルネットワークによって畳み込んで、前記畳み込み表現を生成することを含む、請求項8~14のいずれか一項に記載のニューラルネットワーク実装方法。
  16. 前記リフレームすることが、前記リフレームすることを補正するための各画像パッチの前記ピクセルの強度補間を更に含む、請求項15に記載のニューラルネットワーク実装方法。
  17. ベースコールするニューラルネットワーク実装方法であって、前記方法は、
    サイクルごとの入力データのシーケンス内の各サイクルごとの入力データを前記畳み込みニューラルネットワークの畳み込み層のカスケードによって別個に処理することであって、
    サイクルごとの入力データの前記シーケンスが、配列決定実行の一連の配列決定サイクルのために生成され、
    各サイクルごとの入力データが、それぞれの配列決定サイクルにおいて捕捉された1つ又はそれ以上のクラスター及びそれらの周囲背景の強度発光を表現する画像チャネルを含む、ことと、
    各配列決定サイクルに対して、
    前記別個に処理することに基づいて、前記畳み込み層のそれぞれにおいて畳み込み表現を生成し、それによって畳み込み表現のシーケンスを生成することと、
    そのサイクルごとの入力データをその対応する畳み込み表現のシーケンスと混合し、混合表現を生成することと、
    その混合表現を平坦化し、平坦化された混合表現を生成することと、を行うことと、
    継続的な配列決定サイクルの平坦化された混合表現をスタックとして配列することと、
    前記スタックを反復ニューラルネットワークによって順方向及び逆方向に処理することであって、前記反復ニューラルネットワークが、
    スライディングウィンドウに基づいた前記スタック内の前記平坦化された混合表現のサブセットにわたって畳み込みを行うことであって、各スライディングウィンドウがそれぞれの配列決定サイクルに対応する、ことと、
    (i)前記スタック上の現在のスライディングウィンドウ内の前記平坦化された混合表現の前記サブセット及び(ii)前の隠れ状態表現に基づいて、各配列決定サイクルのための各時間ステップにおける現在の隠れ状態表現を継続的に生成することと、を行う、ことと、
    前記スタックを順方向及び逆方向に処理することの結果に基づいて、前記配列決定サイクルのそれぞれにおける前記クラスターのそれぞれをベースコールすることと、を含む、ニューラルネットワーク実装方法。
  18. 所与の配列決定サイクルにおける前記クラスターのそれぞれを、
    前記所与の配列決定サイクルの順方向及び逆方向の現在の隠れ状態表現を時間ステップに基づいて組み合わせ、組み合わせられた隠れ状態表現を生成することであって、前記組み合わせることが、連結又は総和又は平均化を含む、ことと、
    前記組み合わせられた隠れ状態表現を1つ又はそれ以上の全結合ネットワークによって処理し、高密度表現を生成することと、
    前記高密度表現をソフトマックス層によって処理して、前記所与の配列決定サイクルにおける前記クラスターのそれぞれに組み込まれた塩基がA、C、T、及びGであることの尤度を生成することと、
    前記尤度に基づいて前記塩基をA、C、T、又はGとして分類することと、
    によってベースコールすることを更に含む、請求項17に記載のニューラルネットワーク実装方法。
  19. ベースコールするためのニューラルネットワークベースのシステムであって、前記システムは、
    反復モジュール及び畳み込みモジュールを有するハイブリッドニューラルネットワークであって、前記反復モジュールが、前記畳み込みモジュールからの入力を使用する、ハイブリッドニューラルネットワークと、
    配列決定実行の一連の配列決定サイクルのための画像データを1つ又はそれ以上の畳み込み層によって処理し、前記画像データの1つ又はそれ以上の畳み込み表現を生成する前記畳み込みモジュールであって、前記画像データが、1つ又はそれ以上のクラスター及びそれらの周囲背景の強度発光を表現する、前記畳み込みモジュールと、
    前記畳み込み表現及び前の隠れ状態表現を畳み込むことに基づいて現在の隠れ状態表現を生成する前記反復モジュールと、
    前記現在の隠れ状態表現に基づいて、前記クラスターのうちの少なくとも1つのための、かつ前記配列決定サイクルのうちの少なくとも1つのためのベースコールを生成する出力モジュールと、を備える、ニューラルネットワークベースのシステム。
JP2020572703A 2019-03-21 2020-03-21 人工知能ベースのベースコール Pending JP2022526470A (ja)

Applications Claiming Priority (31)

Application Number Priority Date Filing Date Title
US201962821602P 2019-03-21 2019-03-21
US201962821681P 2019-03-21 2019-03-21
US201962821766P 2019-03-21 2019-03-21
US201962821724P 2019-03-21 2019-03-21
US201962821618P 2019-03-21 2019-03-21
US62/821,766 2019-03-21
US62/821,681 2019-03-21
US62/821,602 2019-03-21
US62/821,618 2019-03-21
US62/821,724 2019-03-21
NL2023311 2019-06-14
NL2023310 2019-06-14
NL2023310A NL2023310B1 (en) 2019-03-21 2019-06-14 Training data generation for artificial intelligence-based sequencing
NL2023311A NL2023311B9 (en) 2019-03-21 2019-06-14 Artificial intelligence-based generation of sequencing metadata
NL2023314A NL2023314B1 (en) 2019-03-21 2019-06-14 Artificial intelligence-based quality scoring
NL2023312 2019-06-14
NL2023316 2019-06-14
NL2023316A NL2023316B1 (en) 2019-03-21 2019-06-14 Artificial intelligence-based sequencing
NL2023312A NL2023312B1 (en) 2019-03-21 2019-06-14 Artificial intelligence-based base calling
NL2023314 2019-06-14
US16/826,134 US11676685B2 (en) 2019-03-21 2020-03-20 Artificial intelligence-based quality scoring
US16/825,991 US11210554B2 (en) 2019-03-21 2020-03-20 Artificial intelligence-based generation of sequencing metadata
US16/825,987 2020-03-20
US16/826,134 2020-03-20
US16/825,987 US11347965B2 (en) 2019-03-21 2020-03-20 Training data generation for artificial intelligence-based sequencing
US16/826,126 2020-03-20
US16/826,126 US11783917B2 (en) 2019-03-21 2020-03-20 Artificial intelligence-based base calling
US16/825,991 2020-03-20
PCT/US2020/024088 WO2020191387A1 (en) 2019-03-21 2020-03-21 Artificial intelligence-based base calling
US16/826,168 2020-03-21
US16/826,168 US11436429B2 (en) 2019-03-21 2020-03-21 Artificial intelligence-based sequencing

Publications (2)

Publication Number Publication Date
JP2022526470A true JP2022526470A (ja) 2022-05-25
JPWO2020191387A5 JPWO2020191387A5 (ja) 2023-03-30

Family

ID=74041737

Family Applications (5)

Application Number Title Priority Date Filing Date
JP2020572704A Pending JP2022532458A (ja) 2019-03-21 2020-03-21 人工知能ベースの配列決定のための訓練データ生成
JP2020572703A Pending JP2022526470A (ja) 2019-03-21 2020-03-21 人工知能ベースのベースコール
JP2021517978A Pending JP2022524562A (ja) 2019-03-21 2020-03-21 人工知能ベースの品質スコアリング
JP2020572715A Pending JP2022525267A (ja) 2019-03-21 2020-03-21 人工知能ベースのシーケンスメタデータ生成
JP2020572706A Pending JP2022535306A (ja) 2019-03-21 2020-03-22 人工知能ベースの配列決定

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2020572704A Pending JP2022532458A (ja) 2019-03-21 2020-03-21 人工知能ベースの配列決定のための訓練データ生成

Family Applications After (3)

Application Number Title Priority Date Filing Date
JP2021517978A Pending JP2022524562A (ja) 2019-03-21 2020-03-21 人工知能ベースの品質スコアリング
JP2020572715A Pending JP2022525267A (ja) 2019-03-21 2020-03-21 人工知能ベースのシーケンスメタデータ生成
JP2020572706A Pending JP2022535306A (ja) 2019-03-21 2020-03-22 人工知能ベースの配列決定

Country Status (11)

Country Link
US (6) US11210554B2 (ja)
EP (6) EP3942072B1 (ja)
JP (5) JP2022532458A (ja)
KR (5) KR20210143154A (ja)
CN (5) CN112313666A (ja)
AU (5) AU2020241905A1 (ja)
BR (4) BR112020026408A2 (ja)
CA (1) CA3104951A1 (ja)
IL (5) IL279533A (ja)
MX (4) MX2020014288A (ja)
SG (4) SG11202012453PA (ja)

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11615285B2 (en) 2017-01-06 2023-03-28 Ecole Polytechnique Federale De Lausanne (Epfl) Generating and identifying functional subnetworks within structural networks
US11893471B2 (en) 2018-06-11 2024-02-06 Inait Sa Encoding and decoding information and artificial neural networks
US11972343B2 (en) 2018-06-11 2024-04-30 Inait Sa Encoding and decoding information
US11663478B2 (en) 2018-06-11 2023-05-30 Inait Sa Characterizing activity in a recurrent artificial neural network
EP3617947A1 (en) * 2018-08-30 2020-03-04 Nokia Technologies Oy Apparatus and method for processing image data
US11569978B2 (en) 2019-03-18 2023-01-31 Inait Sa Encrypting and decrypting information
US11652603B2 (en) 2019-03-18 2023-05-16 Inait Sa Homomorphic encryption
US11347965B2 (en) 2019-03-21 2022-05-31 Illumina, Inc. Training data generation for artificial intelligence-based sequencing
US11210554B2 (en) 2019-03-21 2021-12-28 Illumina, Inc. Artificial intelligence-based generation of sequencing metadata
CN110084309B (zh) * 2019-04-30 2022-06-21 北京市商汤科技开发有限公司 特征图放大方法、装置和设备及计算机可读存储介质
EP3966778A1 (en) * 2019-05-06 2022-03-16 Sony Group Corporation Electronic device, method and computer program
US11593649B2 (en) 2019-05-16 2023-02-28 Illumina, Inc. Base calling using convolutions
US11816553B2 (en) 2019-12-11 2023-11-14 Inait Sa Output from a recurrent neural network
US11651210B2 (en) 2019-12-11 2023-05-16 Inait Sa Interpreting and improving the processing results of recurrent neural networks
US11580401B2 (en) 2019-12-11 2023-02-14 Inait Sa Distance metrics and clustering in recurrent neural networks
US11797827B2 (en) * 2019-12-11 2023-10-24 Inait Sa Input into a neural network
US11977723B2 (en) * 2019-12-17 2024-05-07 Palantir Technologies Inc. Image tiling and distributive modification
IL295560A (en) 2020-02-20 2022-10-01 Illumina Inc An artificial intelligence-based many-to-many base reader
US11977632B2 (en) * 2020-04-23 2024-05-07 Booz Allen Hamilton Inc. Evaluating automatic malware classifiers in the absence of reference labels
US11188778B1 (en) 2020-05-05 2021-11-30 Illumina, Inc. Equalization-based image processing and spatial crosstalk attenuator
US20220114259A1 (en) * 2020-10-13 2022-04-14 International Business Machines Corporation Adversarial interpolation backdoor detection
US11800258B2 (en) * 2020-10-19 2023-10-24 University Of Florida Research Foundation, Incorporated High-performance CNN inference model at the pixel-parallel CMOS image sensor
US20220180630A1 (en) * 2020-12-04 2022-06-09 Intelinair, Inc. Resudue analysis and management system
CN112508457A (zh) * 2020-12-25 2021-03-16 树根互联技术有限公司 数据处理方法和装置、工业设备及存储介质
CN112949499A (zh) * 2021-03-04 2021-06-11 北京联合大学 一种基于ShuffleNet改进的MTCNN人脸检测方法
US20220284343A1 (en) * 2021-03-05 2022-09-08 International Business Machines Corporation Machine teaching complex concepts assisted by computer vision and knowledge reasoning
JP2022147328A (ja) * 2021-03-23 2022-10-06 株式会社Screenホールディングス 細胞計数方法、細胞計数のための機械学習モデルの構築方法、プログラムおよび記録媒体
US11263170B1 (en) 2021-03-29 2022-03-01 SambaNova Systems, Inc. Lossless tiling in convolution networks—padding before tiling, location-based tiling, and zeroing-out
CN113052189B (zh) * 2021-03-30 2022-04-29 电子科技大学 一种基于改进的MobileNetV3特征提取网络
CN115803816A (zh) * 2021-03-31 2023-03-14 因美纳有限公司 具有情境感知的基于人工智能的碱基检出器
CN113100803A (zh) * 2021-04-20 2021-07-13 西门子数字医疗科技(上海)有限公司 用于显示静脉血栓的方法、装置、计算机设备和介质
US11693570B2 (en) * 2021-04-29 2023-07-04 EMC IP Holding Company LLC Machine learning to improve caching efficiency in a storage system
CN113361683B (zh) * 2021-05-18 2023-01-10 山东师范大学 一种生物仿脑存储方法及系统
CN113095304B (zh) * 2021-06-08 2021-09-03 成都考拉悠然科技有限公司 减弱重采样对行人重识别的影响的方法
EP4360097A1 (en) * 2021-06-24 2024-05-01 Nautilus Subsidiary, Inc. Methods and systems for assay refinement
AU2022305321A1 (en) * 2021-06-29 2024-01-18 Illumina, Inc. Signal-to-noise-ratio metric for determining nucleotide-base calls and base-call quality
WO2023283411A2 (en) * 2021-07-08 2023-01-12 Intelligent Virus Imaging Inc. Method for machine-learning based training and segmentation of overlapping objects
CN113343937B (zh) * 2021-07-15 2022-09-02 北华航天工业学院 一种基于深度卷积和注意力机制的唇语识别方法
WO2023003757A1 (en) * 2021-07-19 2023-01-26 Illumina Software, Inc. Intensity extraction with interpolation and adaptation for base calling
CN113552855B (zh) * 2021-07-23 2023-06-06 重庆英科铸数网络科技有限公司 工业设备动态阈值设定方法、装置、电子设备及存储介质
CN113780450B (zh) * 2021-09-16 2023-07-28 郑州云智信安安全技术有限公司 基于自编码神经网络的分布式存储方法及系统
CN113963199B (zh) * 2021-10-13 2023-04-18 电子科技大学 一种基于多种传感器特征融合和机器学习的医废识别方法
US11967165B2 (en) * 2021-11-15 2024-04-23 Accenture Global Solutions Limited Artificial intelligence (AI) based document processing and validation
WO2023097685A1 (zh) * 2021-12-03 2023-06-08 深圳华大生命科学研究院 核酸样本的碱基识别方法及装置
CN114200548B (zh) * 2021-12-15 2023-07-18 南京信息工程大学 基于SE-Resnet模型的延伸期气象要素预报方法
CN114445456B (zh) * 2021-12-23 2023-04-07 西北工业大学 基于部分模型的数据驱动智能机动目标跟踪方法及装置
CN117063240A (zh) 2021-12-24 2023-11-14 上海芯像生物科技有限公司 基于深度学习的核酸测序方法和系统
CN114465909B (zh) * 2022-02-09 2024-03-22 哈尔滨工业大学 一种智能感知边缘计算融合纳米组网装置
US20230358564A1 (en) * 2022-05-05 2023-11-09 Here Global B.V. Method, apparatus, and computer program product for probe data-based geometry generation
CN114706798B (zh) * 2022-06-08 2022-08-12 四川省人工智能研究院(宜宾) 基于注意力机制的固态硬盘数据预取方法
CN115078430B (zh) * 2022-06-10 2023-03-24 水木未来(北京)科技有限公司 确定冷冻电镜载网支持膜质量的方法及装置
WO2023240536A1 (zh) * 2022-06-16 2023-12-21 深圳华大基因科技有限公司 图像处理方法、装置及系统
CN115409174B (zh) * 2022-11-01 2023-03-31 之江实验室 一种基于dram存内计算的碱基序列过滤方法与装置
CN116363403B (zh) * 2023-05-26 2023-08-11 深圳赛陆医疗科技有限公司 用于基因样本的图像识别方法、图像识别系统和存储介质
CN117275583B (zh) * 2023-09-27 2024-04-16 四川大学 基于量子技术的基因搜索blast加速方法及系统
CN117437976B (zh) * 2023-12-21 2024-04-02 深圳人体密码基因科技有限公司 基于基因检测的疾病风险筛查方法及系统
CN117473444B (zh) * 2023-12-27 2024-03-01 北京诺赛基因组研究中心有限公司 基于CNN和SVM的Sanger测序结果质检方法
CN117574133B (zh) * 2024-01-11 2024-04-02 湖南工商大学 一种不安全生产行为识别方法及相关设备

Family Cites Families (236)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0450060A1 (en) 1989-10-26 1991-10-09 Sri International Dna sequencing
US5502773A (en) 1991-09-20 1996-03-26 Vanderbilt University Method and apparatus for automated processing of DNA sequence data
US5641658A (en) 1994-08-03 1997-06-24 Mosaic Technologies, Inc. Method for performing amplification of nucleic acid with two primers bound to a single solid support
US6090592A (en) 1994-08-03 2000-07-18 Mosaic Technologies, Inc. Method for performing amplification of nucleic acid on supports
WO1996018205A1 (en) 1994-12-08 1996-06-13 Molecular Dynamics, Inc. Fluorescence imaging system employing a macro scanning objective
US5528050A (en) 1995-07-24 1996-06-18 Molecular Dynamics, Inc. Compact scan head with multiple scanning modalities
JP2002515738A (ja) 1996-01-23 2002-05-28 アフィメトリックス,インコーポレイティド 核酸分析法
US6023540A (en) 1997-03-14 2000-02-08 Trustees Of Tufts College Fiber optic sensor with encoded microspheres
US6327410B1 (en) 1997-03-14 2001-12-04 The Trustees Of Tufts College Target analyte sensors utilizing Microspheres
US7622294B2 (en) 1997-03-14 2009-11-24 Trustees Of Tufts College Methods for detecting target analytes and enzymatic reactions
ATE269908T1 (de) 1997-04-01 2004-07-15 Manteia S A Methode zur sequenzierung von nukleinsäuren
DE69837913T2 (de) 1997-04-01 2008-02-07 Solexa Ltd., Saffron Walden Verfahren zur vervielfältigung von nukleinsäure
US6332154B2 (en) 1998-09-11 2001-12-18 Genesys Telecommunications Laboratories, Inc. Method and apparatus for providing media-independent self-help modules within a multimedia communication-center customer interface
AR021833A1 (es) 1998-09-30 2002-08-07 Applied Research Systems Metodos de amplificacion y secuenciacion de acido nucleico
US20050191698A1 (en) 1999-04-20 2005-09-01 Illumina, Inc. Nucleic acid sequencing using microsphere arrays
DK1923471T3 (da) 1999-04-20 2013-04-02 Illumina Inc Detektion af nukleinsyrereaktioner på bead-arrays
US6355431B1 (en) 1999-04-20 2002-03-12 Illumina, Inc. Detection of nucleic acid amplification reactions using bead arrays
US6770441B2 (en) 2000-02-10 2004-08-03 Illumina, Inc. Array compositions and methods of making same
WO2002004680A2 (en) 2000-07-07 2002-01-17 Visigen Biotechnologies, Inc. Real-time sequence determination
EP1323736A4 (en) 2000-08-10 2005-08-24 Masabumi Shibuya CHIMERIC GROWTH FACTOR OF HUMAN TYPE VASCULAR ENDOTHELIAL CELLS
AU2001283299A1 (en) * 2000-08-14 2002-02-25 Incyte Genomics, Inc. Basecalling system and protocol
US7211414B2 (en) 2000-12-01 2007-05-01 Visigen Biotechnologies, Inc. Enzymatic nucleic acid synthesis: compositions and methods for altering monomer incorporation fidelity
AR031640A1 (es) 2000-12-08 2003-09-24 Applied Research Systems Amplificacion isotermica de acidos nucleicos en un soporte solido
US20030062485A1 (en) 2001-09-28 2003-04-03 Fernandez Salvador M. Compact multiwavelength phase fluorometer
GB0127564D0 (en) 2001-11-16 2002-01-09 Medical Res Council Emulsion compositions
US7057026B2 (en) 2001-12-04 2006-06-06 Solexa Limited Labelled nucleotides
US20040002090A1 (en) 2002-03-05 2004-01-01 Pascal Mayer Methods for detecting genome-wide sequence variations associated with a phenotype
EP3795577A1 (en) 2002-08-23 2021-03-24 Illumina Cambridge Limited Modified nucleotides
US6914961B2 (en) 2002-09-30 2005-07-05 Teradyne, Inc. Speed binning by neural network
AU2003290429A1 (en) 2002-12-25 2004-07-22 Casio Computer Co., Ltd. Optical dna sensor, dna reading apparatus, identification method of dna and manufacturing method of optical dna sensor
DE602004024034D1 (de) 2003-01-29 2009-12-24 454 Corp Nukleinsäureamplifikation auf basis von kügelchenemulsion
US7575865B2 (en) 2003-01-29 2009-08-18 454 Life Sciences Corporation Methods of amplifying and sequencing nucleic acids
SE0301945D0 (sv) * 2003-06-30 2003-06-30 Gyros Ab Confidence determination
EP1641809B2 (en) 2003-07-05 2018-10-03 The Johns Hopkins University Method and compositions for detection and enumeration of genetic variations
GB0321306D0 (en) 2003-09-11 2003-10-15 Solexa Ltd Modified polymerases for improved incorporation of nucleotide analogues
JP4587664B2 (ja) 2003-12-19 2010-11-24 パナソニック株式会社 発光装置
US20050145249A1 (en) 2003-12-31 2005-07-07 Solyntjes Alan J. Personal respiratory protection device that has a permanent or semi-permanent bayonet connection
EP2789383B1 (en) 2004-01-07 2023-05-03 Illumina Cambridge Limited Molecular arrays
US7761240B2 (en) * 2004-08-11 2010-07-20 Aureon Laboratories, Inc. Systems and methods for automated diagnosis and grading of tissue images
JP2008513782A (ja) 2004-09-17 2008-05-01 パシフィック バイオサイエンシーズ オブ カリフォルニア, インコーポレイテッド 分子解析のための装置及び方法
WO2006064199A1 (en) 2004-12-13 2006-06-22 Solexa Limited Improved method of nucleotide detection
US20060178901A1 (en) 2005-01-05 2006-08-10 Cooper Kelana L Home movies television (HMTV)
SE529136C2 (sv) 2005-01-24 2007-05-08 Volvo Lastvagnar Ab Styrväxelkylare
WO2006125674A1 (en) * 2005-05-25 2006-11-30 Stiftelsen Universitetsforskning Bergen Microscope system and screening method for drugs, physical therapies and biohazards
FR2886433B1 (fr) * 2005-05-30 2007-09-07 Commissariat Energie Atomique Methode de segmentation d'une sequence d'images tridimensionnelles, notamment en pharmaco-imagerie.
US7293515B2 (en) 2005-06-10 2007-11-13 Janome Sewing Machine Co., Ltd. Embroidery sewing machine
DK1907571T3 (en) 2005-06-15 2017-08-21 Complete Genomics Inc NUCLEIC ACID ANALYSIS USING INCIDENTAL MIXTURES OF NON-OVERLAPPING FRAGMENTS
GB0514910D0 (en) 2005-07-20 2005-08-24 Solexa Ltd Method for sequencing a polynucleotide template
GB0514936D0 (en) 2005-07-20 2005-08-24 Solexa Ltd Preparation of templates for nucleic acid sequencing
DE102005036355A1 (de) 2005-07-29 2007-02-01 Cairos Technologies Ag Verfahren zur Erfassung der Kraft- und Bewegungsverhältnisse an einem Spielgerät
GB0517097D0 (en) 2005-08-19 2005-09-28 Solexa Ltd Modified nucleosides and nucleotides and uses thereof
US7405281B2 (en) 2005-09-29 2008-07-29 Pacific Biosciences Of California, Inc. Fluorescent nucleotide analogs and uses therefor
GB0522310D0 (en) 2005-11-01 2005-12-07 Solexa Ltd Methods of preparing libraries of template polynucleotides
US7329860B2 (en) 2005-11-23 2008-02-12 Illumina, Inc. Confocal imaging methods and apparatus
JP2007199397A (ja) 2006-01-26 2007-08-09 Nikon Corp 顕微鏡装置
EP2021503A1 (en) 2006-03-17 2009-02-11 Solexa Ltd. Isothermal methods for creating clonal single molecule arrays
EP3373174A1 (en) 2006-03-31 2018-09-12 Illumina, Inc. Systems and devices for sequence by synthesis analysis
AU2007262978A1 (en) 2006-06-22 2007-12-27 Novozymes A/S Preparation of dough and baked products
US7754429B2 (en) 2006-10-06 2010-07-13 Illumina Cambridge Limited Method for pair-wise sequencing a plurity of target polynucleotides
US7414716B2 (en) 2006-10-23 2008-08-19 Emhart Glass S.A. Machine for inspecting glass containers
AU2007309504B2 (en) 2006-10-23 2012-09-13 Pacific Biosciences Of California, Inc. Polymerase enzymes and reagents for enhanced nucleic acid sequencing
US20080242560A1 (en) 2006-11-21 2008-10-02 Gunderson Kevin L Methods for generating amplified nucleic acid arrays
WO2008092150A1 (en) 2007-01-26 2008-07-31 Illumina, Inc. Nucleic acid sequencing system and method
WO2008115405A2 (en) * 2007-03-16 2008-09-25 Sti Medicals Systems, Llc A method of image quality assessment to procuce standardized imaging data
US8703422B2 (en) 2007-06-06 2014-04-22 Pacific Biosciences Of California, Inc. Methods and processes for calling bases in sequence by incorporation methods
CA2689626C (en) 2007-06-06 2016-10-25 Pacific Biosciences Of California, Inc. Methods and processes for calling bases in sequence by incorporation methods
US9233253B2 (en) 2012-01-16 2016-01-12 Greatbatch Ltd. EMI filtered co-connected hermetic feedthrough, feedthrough capacitor and leadwire assembly for an active implantable medical device
US8039817B2 (en) 2008-05-05 2011-10-18 Illumina, Inc. Compensator for multiple surface imaging
EP2291533B2 (en) 2008-07-02 2020-09-30 Illumina Cambridge Limited Using populations of beads for the fabrication of arrays on surfaces
US8407012B2 (en) 2008-07-03 2013-03-26 Cold Spring Harbor Laboratory Methods and systems of DNA sequencing
BRPI0917864A2 (pt) * 2008-08-15 2015-11-24 Univ Brown aparelho e método para estimativa da forma corporal
US8175379B2 (en) * 2008-08-22 2012-05-08 Adobe Systems Incorporated Automatic video image segmentation
WO2010039553A1 (en) 2008-10-03 2010-04-08 Illumina, Inc. Method and system for determining the accuracy of dna base identifications
US20100157086A1 (en) 2008-12-15 2010-06-24 Illumina, Inc Dynamic autofocus method and system for assay imager
US8300971B2 (en) * 2009-04-17 2012-10-30 LevelSet Systems, Inc. Method and apparatus for image processing for massive parallel DNA sequencing
US8594439B2 (en) * 2009-05-28 2013-11-26 Hewlett-Packard Development Company, L.P. Image processing
US9524369B2 (en) 2009-06-15 2016-12-20 Complete Genomics, Inc. Processing and analysis of complex nucleic acid sequence data
US8182994B2 (en) 2009-09-15 2012-05-22 Illumina Cambridge Limited Centroid markers for image analysis of high denisty clusters in complex polynucleotide sequencing
US20140152801A1 (en) 2009-10-28 2014-06-05 Alentic Microscience Inc. Detecting and Using Light Representative of a Sample
US9023769B2 (en) 2009-11-30 2015-05-05 Complete Genomics, Inc. cDNA library for nucleic acid sequencing
US8965076B2 (en) 2010-01-13 2015-02-24 Illumina, Inc. Data processing system and methods
US10619195B2 (en) 2010-04-06 2020-04-14 Massachusetts Institute Of Technology Gene-expression profiling with reduced numbers of transcript measurements
US20110286628A1 (en) * 2010-05-14 2011-11-24 Goncalves Luis F Systems and methods for object recognition using a large database
EP2390810B1 (en) 2010-05-26 2019-10-16 Tata Consultancy Services Limited Taxonomic classification of metagenomic sequences
US20120015825A1 (en) 2010-07-06 2012-01-19 Pacific Biosciences Of California, Inc. Analytical systems and methods with software mask
EP2632593B1 (en) 2010-10-27 2021-09-29 Illumina, Inc. Flow cells for biological or chemical analysis
DE102010062341B4 (de) 2010-12-02 2023-05-17 Carl Zeiss Microscopy Gmbh Vorrichtung zur Erhöhung der Tiefendiskriminierung optisch abbildender Systeme
US20130090860A1 (en) 2010-12-30 2013-04-11 Life Technologies Corporation Methods, systems, and computer readable media for making base calls in nucleic acid sequencing
WO2012092515A2 (en) 2010-12-30 2012-07-05 Life Technologies Corporation Methods, systems, and computer readable media for nucleic acid sequencing
US20130060482A1 (en) 2010-12-30 2013-03-07 Life Technologies Corporation Methods, systems, and computer readable media for making base calls in nucleic acid sequencing
US8951781B2 (en) 2011-01-10 2015-02-10 Illumina, Inc. Systems, methods, and apparatuses to image a sample for biological or chemical analysis
WO2012142531A2 (en) 2011-04-14 2012-10-18 Complete Genomics, Inc. Processing and analysis of complex nucleic acid sequence data
WO2012170936A2 (en) 2011-06-09 2012-12-13 Illumina, Inc. Patterned flow-cells useful for nucleic acid analysis
HRP20211523T1 (hr) 2011-09-23 2021-12-24 Illumina, Inc. Pripravci za sekvenciranje nukleinske kiseline
US11914674B2 (en) 2011-09-24 2024-02-27 Z Advanced Computing, Inc. System and method for extremely efficient image and pattern recognition and artificial intelligence platform
EP2771103B1 (en) 2011-10-28 2017-08-16 Illumina, Inc. Microarray fabrication system and method
WO2013096692A1 (en) 2011-12-21 2013-06-27 Illumina, Inc. Apparatus and methods for kinetic analysis and determination of nucleic acid sequences
US8660342B2 (en) * 2012-01-24 2014-02-25 Telefonica, S.A. Method to assess aesthetic quality of photographs
WO2013151622A1 (en) 2012-04-03 2013-10-10 Illumina, Inc. Integrated optoelectronic read head and fluidic cartridge useful for nucleic acid sequencing
US8906320B1 (en) 2012-04-16 2014-12-09 Illumina, Inc. Biosensors for biological or chemical analysis and systems and methods for same
US10068054B2 (en) 2013-01-17 2018-09-04 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US9512422B2 (en) 2013-02-26 2016-12-06 Illumina, Inc. Gel patterned surfaces
ES2704255T3 (es) 2013-03-13 2019-03-15 Illumina Inc Métodos y sistemas para alinear elementos de ADN repetitivos
CA2898459C (en) 2013-03-14 2021-02-02 Illumina, Inc. Modified polymerases for improved incorporation of nucleotide analogues
CN105027165B (zh) * 2013-03-15 2021-02-19 文塔纳医疗系统公司 用于数字完整载片的自动化评分的基于组织对象的机器学习系统
WO2014182630A1 (en) 2013-05-06 2014-11-13 Pacific Biosciences Of California , Inc. Real-time electronic sequencing
KR102177225B1 (ko) 2013-07-01 2020-11-10 일루미나, 인코포레이티드 촉매-무함유 표면 작용화 및 중합체 그라프팅
ES2875892T3 (es) 2013-09-20 2021-11-11 Spraying Systems Co Boquilla de pulverización para craqueo catalítico fluidizado
US9299004B2 (en) * 2013-10-24 2016-03-29 Adobe Systems Incorporated Image foreground detection
EP3715467A1 (en) 2013-12-03 2020-09-30 Illumina, Inc. Methods and systems for analyzing image data
CN110411998B (zh) 2013-12-10 2022-06-07 伊鲁米那股份有限公司 用于生物或化学分析的生物传感器及其制造方法
CN105980578B (zh) * 2013-12-16 2020-02-14 深圳华大智造科技有限公司 用于使用机器学习进行dna测序的碱基判定器
US9677132B2 (en) 2014-01-16 2017-06-13 Illumina, Inc. Polynucleotide modification on solid support
GB201408853D0 (en) 2014-05-19 2014-07-02 Diamond Light Source Ltd Analysis of signals from pixellated detectors of ionizing radiation
US20170228496A1 (en) * 2014-07-25 2017-08-10 Ontario Institute For Cancer Research System and method for process control of gene sequencing
US10127448B2 (en) * 2014-08-27 2018-11-13 Bae Systems Information And Electronic Systems Integration Inc. Method and system for dismount detection in low-resolution UAV imagery
CN107077537B (zh) 2014-09-12 2021-06-22 伊鲁米纳剑桥有限公司 用短读测序数据检测重复扩增
US10676787B2 (en) * 2014-10-13 2020-06-09 Life Technologies Corporation Methods, systems, and computer-readable media for accelerated base calling
PT3212684T (pt) 2014-10-31 2020-02-03 Illumina Cambridge Ltd Revestimentos de polímeros e de copolímero de dna
RU2580425C1 (ru) 2014-11-28 2016-04-10 Общество С Ограниченной Ответственностью "Яндекс" Способ структуризации хранящихся объектов в связи с пользователем на сервере и сервер
WO2016086744A1 (en) * 2014-12-02 2016-06-09 Shanghai United Imaging Healthcare Co., Ltd. A method and system for image processing
DE112014007175B4 (de) 2014-12-26 2022-10-06 Hitachi High-Tech Corporation Substrat zur Verwendung bei der Analyse einer Nucleinsäure, Durchflusszelle zur Verwendung bei der Analyse einer Nucleinsäure und Nucleinsäure-Analysenvorrichtung
IL236598A0 (en) 2015-01-05 2015-05-31 Superfish Ltd Image similarity as a function of image weighted image descriptors generated from neural networks
CN105989248B (zh) 2015-02-05 2018-11-27 中国科学院数学与系统科学研究院 用于多个分子信号的数据处理方法和装置
KR20160103398A (ko) 2015-02-24 2016-09-01 삼성전자주식회사 이미지의 품질 측정 방법 및 장치
WO2016145516A1 (en) 2015-03-13 2016-09-22 Deep Genomics Incorporated System and method for training neural networks
US10733417B2 (en) * 2015-04-23 2020-08-04 Cedars-Sinai Medical Center Automated delineation of nuclei for three dimensional (3-D) high content screening
US9836839B2 (en) 2015-05-28 2017-12-05 Tokitae Llc Image analysis systems and related methods
US10061972B2 (en) * 2015-05-28 2018-08-28 Tokitae Llc Image analysis systems and related methods
US10185803B2 (en) 2015-06-15 2019-01-22 Deep Genomics Incorporated Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network
CA2894317C (en) 2015-06-15 2023-08-15 Deep Genomics Incorporated Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network
EP3311299A4 (en) 2015-06-22 2019-02-20 Myriad Women's Health, Inc. METHODS OF PREDICTING PATHOGENICITY OF GENETIC SEQUENCE VARIANTS
CN106434873B (zh) 2015-08-13 2021-08-27 生捷科技控股公司 使核酸分子同步化的方法
US11094058B2 (en) 2015-08-14 2021-08-17 Elucid Bioimaging Inc. Systems and method for computer-aided phenotyping (CAP) using radiologic images
US10755810B2 (en) 2015-08-14 2020-08-25 Elucid Bioimaging Inc. Methods and systems for representing, storing, and accessing computable medical imaging-derived quantities
US10176408B2 (en) 2015-08-14 2019-01-08 Elucid Bioimaging Inc. Systems and methods for analyzing pathologies utilizing quantitative imaging
WO2017037180A1 (en) * 2015-09-02 2017-03-09 Ventana Medical Systems, Inc. Automated analysis of cellular samples having intermixing of analytically distinct patterns of analyte staining
EP3147650A1 (en) 2015-09-22 2017-03-29 MyCartis N.V. Cross-talk correction in multiplexing analysis of biological sample
US10930372B2 (en) 2015-10-02 2021-02-23 Northrop Grumman Systems Corporation Solution for drug discovery
US10474951B2 (en) 2015-10-23 2019-11-12 Nec Corporation Memory efficient scalable deep learning with model parallelization
US10740883B2 (en) 2015-12-10 2020-08-11 Qiagen Gmbh Background compensation
KR102592076B1 (ko) 2015-12-14 2023-10-19 삼성전자주식회사 딥러닝 기반 영상 처리 장치 및 방법, 학습 장치
EP3427183A1 (en) * 2016-03-10 2019-01-16 Genomic Vision Method of curvilinear signal detection and analysis and associated platform
SG11201807576QA (en) * 2016-04-11 2018-10-30 Agency Science Tech & Res High throughput method for accurate prediction of compound-induced liver injury
GB2549554A (en) 2016-04-21 2017-10-25 Ramot At Tel-Aviv Univ Ltd Method and system for detecting an object in an image
EP4224219A3 (en) 2016-04-22 2023-08-30 Illumina Inc Photonic stucture-based devices and compositions for use in luminescent imaging of multiple sites within a pixel, and methods of using the same
US20180211001A1 (en) 2016-04-29 2018-07-26 Microsoft Technology Licensing, Llc Trace reconstruction from noisy polynucleotide sequencer reads
US10354747B1 (en) 2016-05-06 2019-07-16 Verily Life Sciences Llc Deep learning analysis pipeline for next generation sequencing
BR112018074572B1 (pt) 2016-06-01 2024-02-27 Quantum-Si Incorporated Métodos de identificação de nucleotídeos e para calibrar um instrumento de sequenciamento, meio de armazenamento legível em computador não transitório, dispositivo e instrumento de sequenciamento
JP7046840B2 (ja) 2016-06-07 2022-04-04 イルミナ インコーポレイテッド 二次および/または三次処理を実行するためのバイオインフォマティクスシステム、装置、および方法
US20180107927A1 (en) 2016-06-15 2018-04-19 Deep Genomics Incorporated Architectures for training neural networks using biological sequences, conservation, and molecular phenotypes
WO2018029108A1 (en) 2016-08-08 2018-02-15 F. Hoffmann-La Roche Ag Basecalling for stochastic sequencing processes
CN106529424B (zh) * 2016-10-20 2019-01-04 中山大学 一种基于选择性搜索算法的车标检测识别方法及系统
EP3552389A4 (en) * 2016-11-11 2021-07-28 University of South Florida AUTOMATED STEREOLOGY FOR DETERMINING FABRIC CHARACTERISTICS
CN108203847B (zh) * 2016-12-16 2022-01-04 深圳华大智造科技股份有限公司 用于二代测序质量评估的文库、试剂及应用
CN110088804B (zh) * 2016-12-22 2023-06-27 文塔纳医疗系统公司 基于原色和免疫组织化学图像的计算机评分
US11891647B2 (en) 2016-12-28 2024-02-06 Native Microbials, Inc. Methods, apparatuses, and systems for analyzing complete microorganism strains in complex heterogeneous communities, determining functional relationships and interactions thereof, and identifying and synthesizing bioreactive modificators based thereon
WO2018129314A1 (en) 2017-01-06 2018-07-12 Illumina, Inc. Phasing correction
WO2018131898A2 (ko) 2017-01-10 2018-07-19 경희대학교 산학협력단 메틸로모나스 속 dh-1 균주의 신규한 용도
US10740880B2 (en) 2017-01-18 2020-08-11 Elucid Bioimaging Inc. Systems and methods for analyzing pathologies utilizing quantitative imaging
AU2018210188B2 (en) 2017-01-18 2023-11-09 Illumina, Inc. Methods and systems for generation and error-correction of unique molecular index sets with heterogeneous molecular lengths
US10491239B1 (en) 2017-02-02 2019-11-26 Habana Labs Ltd. Large-scale computations using an adaptive numerical format
NL2018852B1 (en) 2017-05-05 2018-11-14 Illumina Inc Optical distortion correction for imaged samples
RU2736384C1 (ru) 2017-03-07 2020-11-16 Иллюмина, Инк. Секвенирование с помощью одиночного источника света и двух оптических каналов
US10713794B1 (en) 2017-03-16 2020-07-14 Facebook, Inc. Method and system for using machine-learning for object instance segmentation
JP6915349B2 (ja) * 2017-04-04 2021-08-04 コニカミノルタ株式会社 画像処理装置、画像処理方法、及び画像処理プログラム
ES2929837T3 (es) 2017-04-23 2022-12-02 Illumina Cambridge Ltd Composiciones y métodos para mejorar la identificación de muestras en bibliotecas de ácidos nucleicos indexados
US10943255B1 (en) 2017-04-28 2021-03-09 Snap Inc. Methods and systems for interactive advertising with media collections
AU2018261332A1 (en) 2017-05-01 2019-11-07 Illumina, Inc. Optimal index sequences for multiplex massively parallel sequencing
US10552663B2 (en) 2017-05-02 2020-02-04 Techcyte, Inc. Machine learning classification and training for digital microscopy cytology images
GB201707138D0 (en) 2017-05-04 2017-06-21 Oxford Nanopore Tech Ltd Machine learning analysis of nanopore measurements
WO2018208699A1 (en) 2017-05-08 2018-11-15 Illumina, Inc. Universal short adapters for indexing of polynucleotide samples
CN111742370A (zh) 2017-05-12 2020-10-02 密歇根大学董事会 个体和队列药理学表型预测平台
CN110997944A (zh) 2017-05-26 2020-04-10 生命科技股份有限公司 用于检测brca1/2中的大片段重排方法和系统
US11587644B2 (en) * 2017-07-28 2023-02-21 The Translational Genomics Research Institute Methods of profiling mass spectral data using neural networks
US20200202977A1 (en) 2017-07-31 2020-06-25 Illumina, Inc. Sequencing system with multiplexed biological sample aggregation
WO2019028047A1 (en) 2017-08-01 2019-02-07 Illumina, Inc SPATIAL INDEXING OF GENETIC MATERIAL AND PREPARATION OF PHARMACOTOQUE USING HYDROGEL BALLS AND FLOW CELLS
CN111164643A (zh) 2017-08-14 2020-05-15 雷神公司 用于肿瘤检测的减法算法
CN107563150B (zh) 2017-08-31 2021-03-19 深圳大学 蛋白质结合位点的预测方法、装置、设备及存储介质
US11507806B2 (en) 2017-09-08 2022-11-22 Rohit Seth Parallel neural processor for Artificial Intelligence
US10706535B2 (en) * 2017-09-08 2020-07-07 International Business Machines Corporation Tissue staining quality determination
AU2018334245B2 (en) 2017-09-15 2022-03-17 Illumina, Inc. Tuning and calibration features of a sequence-detection system
US11143789B2 (en) * 2017-10-11 2021-10-12 Beyond Limits, Inc. Static engine and neural network for a cognitive reservoir system
US10540591B2 (en) 2017-10-16 2020-01-21 Illumina, Inc. Deep learning-based techniques for pre-training deep convolutional neural networks
JP2020525887A (ja) 2017-10-16 2020-08-27 イルミナ インコーポレイテッド ディープラーニングベースのスプライス部位分類
NZ759818A (en) 2017-10-16 2022-04-29 Illumina Inc Semi-supervised learning for training an ensemble of deep convolutional neural networks
WO2019084158A1 (en) 2017-10-26 2019-05-02 Ultima Genomics, Inc. METHODS AND SYSTEMS FOR SEQUENCE CALL
WO2019084515A1 (en) 2017-10-26 2019-05-02 Essenlix Corporation DEVICES AND METHODS FOR COLORING TISSUES AND CELLS
EP3701260A4 (en) 2017-10-26 2021-10-27 Essenlix Corporation IMAGE-BASED ANALYSIS SYSTEM AND METHODS USING MACHINE LEARNING AND CROF
US11609224B2 (en) 2017-10-26 2023-03-21 Essenlix Corporation Devices and methods for white blood cell analyses
US20200342955A1 (en) 2017-10-27 2020-10-29 Apostle, Inc. Predicting cancer-related pathogenic impact of somatic mutations using deep learning-based methods
EP4289996A3 (en) 2017-11-06 2024-01-17 Illumina Inc. Nucleic acid indexing techniques
WO2019108888A1 (en) * 2017-11-30 2019-06-06 The Research Foundation For The State University Of New York SYSTEM AND METHOD TO QUANTIFY TUMOR-INFILTRATING LYMPHOCYTES (TILs) FOR CLINICAL PATHOLOGY ANALYSIS
US11062176B2 (en) * 2017-11-30 2021-07-13 Kofax, Inc. Object detection and image cropping using a multi-detector approach
JP7231631B2 (ja) * 2017-12-05 2023-03-01 ベンタナ メディカル システムズ, インコーポレイテッド 腫瘍空間異質性およびインターマーカ異質性の計算方法
US11288576B2 (en) 2018-01-05 2022-03-29 Illumina, Inc. Predicting quality of sequencing results using deep neural networks
WO2019136388A1 (en) 2018-01-08 2019-07-11 Illumina, Inc. Systems and devices for high-throughput sequencing with semiconductor-based detection
EP3738122A1 (en) 2018-01-12 2020-11-18 Life Technologies Corporation Methods for flow space quality score prediction by neural networks
JP6862581B2 (ja) 2018-01-15 2021-04-21 イルミナ インコーポレイテッド 深層学習ベースのバリアント分類器
US11538556B2 (en) 2018-01-26 2022-12-27 Quantum-Si Incorporated Machine learning enabled pulse and base calling for sequencing devices
JP6992590B2 (ja) * 2018-02-23 2022-01-13 日本電信電話株式会社 特徴表現装置、特徴表現方法、およびプログラム
WO2019191319A1 (en) 2018-03-30 2019-10-03 Juno Diagnostics, Inc. Deep learning-based methods, devices, and systems for prenatal testing
WO2019197509A1 (en) * 2018-04-13 2019-10-17 Ventana Medical Systems, Inc. Systems for cell shape estimation
US10649459B2 (en) * 2018-04-26 2020-05-12 Zoox, Inc. Data segmentation using masks
US20200251183A1 (en) 2018-07-11 2020-08-06 Illumina, Inc. Deep Learning-Based Framework for Identifying Sequence Patterns that Cause Sequence-Specific Errors (SSEs)
US10635979B2 (en) * 2018-07-20 2020-04-28 Google Llc Category learning neural networks
EP3837690A1 (en) 2018-08-13 2021-06-23 F. Hoffmann-La Roche AG Systems and methods for using neural networks for germline and somatic variant calling
US11446008B2 (en) 2018-08-17 2022-09-20 Tokitae Llc Automated ultrasound video interpretation of a body part with one or more convolutional neural networks
US11600360B2 (en) 2018-08-20 2023-03-07 Microsoft Technology Licensing, Llc Trace reconstruction from reads with indeterminant errors
WO2020077232A1 (en) 2018-10-12 2020-04-16 Cambridge Cancer Genomics Limited Methods and systems for nucleic acid variant detection and analysis
EP3640837A1 (en) 2018-10-15 2020-04-22 Koninklijke Philips N.V. System for co-registration of medical images using a classifier
KR20200043169A (ko) 2018-10-17 2020-04-27 삼성전자주식회사 뉴럴 네트워크의 파라미터를 양자화하는 방법 및 장치
US10818386B2 (en) 2018-11-21 2020-10-27 Enlitic, Inc. Multi-label heat map generating system
GB201819378D0 (en) 2018-11-28 2019-01-09 Oxford Nanopore Tech Ltd Analysis of nanopore signal using a machine-learning technique
CN113168890A (zh) 2018-12-10 2021-07-23 生命科技股份有限公司 用于Sanger测序的深度碱基识别器
US10783632B2 (en) 2018-12-14 2020-09-22 Spectral Md, Inc. Machine learning systems and method for assessment, healing prediction, and treatment of wounds
US10789462B2 (en) 2019-01-15 2020-09-29 International Business Machines Corporation Weakly and fully labeled mammogram classification and localization with a dual branch deep neural network
EP3939047A4 (en) 2019-03-10 2022-11-30 Ultima Genomics, Inc. METHODS AND SYSTEMS FOR SEQUENCE CALLING
NL2023314B1 (en) 2019-03-21 2020-09-28 Illumina Inc Artificial intelligence-based quality scoring
US11347965B2 (en) 2019-03-21 2022-05-31 Illumina, Inc. Training data generation for artificial intelligence-based sequencing
NL2023310B1 (en) 2019-03-21 2020-09-28 Illumina Inc Training data generation for artificial intelligence-based sequencing
NL2023312B1 (en) 2019-03-21 2020-09-28 Illumina Inc Artificial intelligence-based base calling
US11210554B2 (en) 2019-03-21 2021-12-28 Illumina, Inc. Artificial intelligence-based generation of sequencing metadata
NL2023311B9 (en) 2019-03-21 2021-03-12 Illumina Inc Artificial intelligence-based generation of sequencing metadata
NL2023316B1 (en) 2019-03-21 2020-09-28 Illumina Inc Artificial intelligence-based sequencing
SG10201902958PA (en) * 2019-04-02 2020-11-27 Accenture Global Solutions Ltd Artificial intelligence based plantable blank spot detection
CN110245685B (zh) 2019-05-15 2022-03-25 清华大学 基因组单位点变异致病性的预测方法、系统及存储介质
CN112313750B (zh) 2019-05-16 2023-11-17 因美纳有限公司 使用卷积的碱基识别
US11593649B2 (en) 2019-05-16 2023-02-28 Illumina, Inc. Base calling using convolutions
CN113939600A (zh) 2019-05-29 2022-01-14 X基因组公司 用于测定序列的系统和方法
WO2021041338A1 (en) * 2019-08-23 2021-03-04 Memorial Sloan Kettering Cancer Center Identifying regions of interest from whole slide images
US11327178B2 (en) * 2019-09-06 2022-05-10 Volvo Car Corporation Piece-wise network structure for long range environment perception
US20210265015A1 (en) 2020-02-20 2021-08-26 Illumina, Inc. Hardware Execution and Acceleration of Artificial Intelligence-Based Base Caller
US20210265016A1 (en) 2020-02-20 2021-08-26 Illumina, Inc. Data Compression for Artificial Intelligence-Based Base Calling
FR3109635B1 (fr) * 2020-04-27 2022-04-15 Ifp Energies Now Procédé de détection d’au moins un constituant géologique d’un échantillon de roche
EP4211268A1 (en) 2020-09-10 2023-07-19 Ultima Genomics, Inc. Methods and systems for sequence and variant calling

Also Published As

Publication number Publication date
US20220292297A1 (en) 2022-09-15
KR20210142529A (ko) 2021-11-25
KR20210145115A (ko) 2021-12-01
IL279522A (en) 2021-01-31
JP2022535306A (ja) 2022-08-08
EP3942070A1 (en) 2022-01-26
MX2020014288A (es) 2021-05-28
IL279533A (en) 2021-01-31
JP2022525267A (ja) 2022-05-12
MX2020014299A (es) 2021-03-25
EP3942073A2 (en) 2022-01-26
BR112020026433A2 (pt) 2021-03-23
IL279525A (en) 2021-01-31
SG11202012441QA (en) 2021-01-28
AU2020241905A1 (en) 2021-01-07
BR112020026408A2 (pt) 2021-03-23
EP3942074A2 (en) 2022-01-26
BR112020026455A2 (pt) 2021-03-23
SG11202012463YA (en) 2021-01-28
US20230268033A1 (en) 2023-08-24
IL281668A (en) 2021-05-31
MX2020014293A (es) 2021-03-25
SG11202012453PA (en) 2021-01-28
US20230004749A1 (en) 2023-01-05
KR20210145116A (ko) 2021-12-01
KR20210143100A (ko) 2021-11-26
AU2020241586A1 (en) 2021-01-14
EP3942072B1 (en) 2023-09-06
AU2020240141A1 (en) 2021-01-14
EP4276769A2 (en) 2023-11-15
US11961593B2 (en) 2024-04-16
SG11202012461XA (en) 2021-01-28
CN112585689A (zh) 2021-03-30
BR112020026426A2 (pt) 2021-03-23
EP3942072A1 (en) 2022-01-26
CN112689875A (zh) 2021-04-20
CA3104951A1 (en) 2020-09-24
US11908548B2 (en) 2024-02-20
JP2022524562A (ja) 2022-05-09
AU2020240383A1 (en) 2021-04-15
CN112334984A (zh) 2021-02-05
EP3942071A1 (en) 2022-01-26
IL279527A (en) 2021-01-31
JP2022532458A (ja) 2022-07-15
US20200302223A1 (en) 2020-09-24
MX2020014302A (es) 2021-05-28
US11210554B2 (en) 2021-12-28
CN112789680A (zh) 2021-05-11
KR20210143154A (ko) 2021-11-26
US20220147760A1 (en) 2022-05-12
CN112313666A (zh) 2021-02-02
US20240071573A1 (en) 2024-02-29
AU2020256047A1 (en) 2021-01-07
EP4276769A3 (en) 2024-01-24

Similar Documents

Publication Publication Date Title
US11783917B2 (en) Artificial intelligence-based base calling
US20240071573A1 (en) Artificial intelligence-based quality scoring
WO2020191390A2 (en) Artificial intelligence-based quality scoring
NL2023314B1 (en) Artificial intelligence-based quality scoring

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230322

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230322

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240507