CN115443508A - 用于基于人工智能的碱基检出器的拆分架构 - Google Patents
用于基于人工智能的碱基检出器的拆分架构 Download PDFInfo
- Publication number
- CN115443508A CN115443508A CN202180015544.3A CN202180015544A CN115443508A CN 115443508 A CN115443508 A CN 115443508A CN 202180015544 A CN202180015544 A CN 202180015544A CN 115443508 A CN115443508 A CN 115443508A
- Authority
- CN
- China
- Prior art keywords
- spatial
- convolution
- cycle
- temporal
- sequencing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013473 artificial intelligence Methods 0.000 title claims description 71
- 238000012163 sequencing technique Methods 0.000 claims abstract description 598
- 238000000034 method Methods 0.000 claims abstract description 199
- 238000012545 processing Methods 0.000 claims abstract description 122
- 230000008569 process Effects 0.000 claims abstract description 98
- 230000002123 temporal effect Effects 0.000 claims description 304
- 238000001514 detection method Methods 0.000 claims description 216
- 238000007906 compression Methods 0.000 claims description 99
- 230000006835 compression Effects 0.000 claims description 99
- 238000005516 engineering process Methods 0.000 abstract description 11
- 238000013528 artificial neural network Methods 0.000 description 145
- 230000015654 memory Effects 0.000 description 104
- 230000006870 function Effects 0.000 description 67
- 239000012530 fluid Substances 0.000 description 55
- 239000012491 analyte Substances 0.000 description 50
- 125000003729 nucleotide group Chemical group 0.000 description 43
- 239000002773 nucleotide Substances 0.000 description 42
- 238000003860 storage Methods 0.000 description 33
- 238000006243 chemical reaction Methods 0.000 description 31
- 238000001914 filtration Methods 0.000 description 22
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 20
- 238000005286 illumination Methods 0.000 description 19
- 238000013527 convolutional neural network Methods 0.000 description 16
- 230000003321 amplification Effects 0.000 description 15
- 238000003199 nucleic acid amplification method Methods 0.000 description 15
- 238000004891 communication Methods 0.000 description 14
- 238000004458 analytical method Methods 0.000 description 13
- 230000005284 excitation Effects 0.000 description 12
- 238000003384 imaging method Methods 0.000 description 11
- 230000004913 activation Effects 0.000 description 10
- 238000001994 activation Methods 0.000 description 10
- 238000010348 incorporation Methods 0.000 description 10
- 230000003287 optical effect Effects 0.000 description 10
- 238000010223 real-time analysis Methods 0.000 description 10
- 238000003491 array Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 9
- 108020004707 nucleic acids Proteins 0.000 description 8
- 102000039446 nucleic acids Human genes 0.000 description 8
- 150000007523 nucleic acids Chemical class 0.000 description 8
- 230000002441 reversible effect Effects 0.000 description 8
- 108010076504 Protein Sorting Signals Proteins 0.000 description 7
- 238000004590 computer program Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 239000000243 solution Substances 0.000 description 7
- 238000012384 transportation and delivery Methods 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 6
- 239000000203 mixture Substances 0.000 description 6
- 102000004169 proteins and genes Human genes 0.000 description 6
- 108090000623 proteins and genes Proteins 0.000 description 6
- 239000002699 waste material Substances 0.000 description 6
- 238000003556 assay Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000012958 reprocessing Methods 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 108020004414 DNA Proteins 0.000 description 4
- 239000003153 chemical reaction reagent Substances 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 238000003752 polymerase chain reaction Methods 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 230000005855 radiation Effects 0.000 description 4
- 239000000126 substance Substances 0.000 description 4
- 230000000153 supplemental effect Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 108091093088 Amplicon Proteins 0.000 description 3
- 102000004190 Enzymes Human genes 0.000 description 3
- 108090000790 Enzymes Proteins 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 3
- 239000003086 colorant Substances 0.000 description 3
- 238000013144 data compression Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 2
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 2
- 241000995070 Nirvana Species 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- 239000000872 buffer Substances 0.000 description 2
- 239000007853 buffer solution Substances 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005562 fading Methods 0.000 description 2
- 239000007850 fluorescent dye Substances 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 238000013090 high-throughput technology Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000002955 isolation Methods 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- -1 other biomolecules Substances 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 239000000376 reactant Substances 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000005406 washing Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 102000003960 Ligases Human genes 0.000 description 1
- 108090000364 Ligases Proteins 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 206010035148 Plague Diseases 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 241000607479 Yersinia pestis Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000000137 annealing Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 239000011324 bead Substances 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000001311 chemical methods and process Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000012864 cross contamination Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 238000007865 diluting Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000005684 electric field Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000001125 extrusion Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 229910052731 fluorine Inorganic materials 0.000 description 1
- 125000001153 fluoro group Chemical group F* 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 239000007789 gas Substances 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/20—Sequence assembly
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/10—Signal processing, e.g. from mass spectrometry [MS] or from PCR
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Chemical & Material Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biotechnology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Organic Chemistry (AREA)
- Bioethics (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Biodiversity & Conservation Biology (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Neurology (AREA)
- Signal Processing (AREA)
- Microbiology (AREA)
Abstract
本发明所公开的技术涉及包括空间卷积网络和总线网络的系统。该空间卷积网络被配置为通过相应的空间处理流水线分别处理相应的每循环测序图像集来逐个循环地处理每循环测序图像集的窗口,以针对相应的测序循环生成相应的每循环空间特征图集。该总线网络被配置为在该相应的空间处理流水线内的空间卷积层之间形成总线。该总线被配置为使由空间卷积层的特定序列中的两个或更多个空间卷积层针对特定测序循环生成的相应的每循环空间特征图集组合成组合的每循环空间特征图集,并且将该组合的每循环空间特征图集作为输入提供给空间卷积层的特定序列中的另一个空间卷积层。
Description
技术领域
本发明所公开的技术涉及人工智能类型计算机和数字数据处理系统,以及对应的数据处理方法和用于仿真智能的产品(即,基于知识的系统、推断系统和知识采集系统);并且包括用于不确定性推断的系统(例如,模糊逻辑系统)、自适应系统、机器学习系统和人工神经网络。具体地,所公开的技术涉及将深度神经网络诸如深度卷积神经网络用于分析数据。
优先权申请
本PCT申请要求2020年2月20日提交的名称为“DATA COMPRESSION FORARTIFICIAL INTELLIGENCE-BASED BASE CALLING”的美国临时专利申请号62/979,411(代理人案卷号ILLM 1029-1/IP-1964-PRV)和2021年2月18日提交的名称为“DATACOMPRESSION FOR ARTIFICIAL INTELLIGENCE-BASED BASE CALLING”的美国专利申请号17/179,395(代理人案卷号ILLM 1029-2/IP-1964-US)的优先权和利益。据此将这些优先权申请以引用方式并入,即如同在本文完整示出一样,以用于所有目的。
本PCT申请要求2020年2月20日提交的名称为“SQUEEZING LAYER FOR ARTIFICIALINTELLIGENCE-BASED BASE CALLING”的美国临时专利申请号62/979,399(代理人案卷号ILLM 1030-1/IP-1982-PRV)和2021年2月19日提交的名称为“SPLIT ARCHITECTURE FORARTIFICIAL INTELLIGENCE-BASED BASE CALLER”的美国专利申请号17/180,480(代理人案卷号ILLM 1030-2/IP-1982-US)的优先权和利益。据此将这些优先权申请以引用方式并入,即如同在本文完整示出一样,以用于所有目的。
本PCT申请要求2021年2月19日提交的名称为“NETWORK FOR ARTIFICIALINTELLIGENCE-BASED BASE CALLER”的美国专利申请号17/180,513(代理人案卷号ILLM1031-2/IP-1965-US)的优先权和权益。据此将这些优先权申请以引用方式并入,即如同在本文完整示出一样,以用于所有目的。
文献并入
以下文献以引用方式并入,即如同在本文完整示出一样:
2020年2月20日提交的名称为“ARTIFICIAL INTELLIGENCE-BASED BASE CALLINGOF INDEX SEQUENCES”的美国临时专利申请号62/979,384(代理人案卷号ILLM 1015-1/IP-1857-PRV);
2020年2月20日提交的名称为“ARTIFICIAL INTELLIGENCE-BASED MANY-TO-MANYBASE CALLING”的美国临时专利申请号62/979,414(代理人案卷号ILLM 1016-1/IP-1858-PRV);
2020年2月20日提交的名称为“KNOWLEDGE DISTILLATION-BASED COMPRESSION OFARTIFICIAL INTELLIGENCE-BASED BASE CALLER”的美国临时专利申请号62/979,385(代理人案卷号ILLM 1017-1/IP-1859-PRV);
2020年8月28日提交的名称为“DETECTING AND FILTERING CLUSTERS BASED ONARTIFICIAL INTELLIGENCE-PREDICTED BASE CALLS”的美国临时专利申请号63/072,032(代理人案卷号ILLM 1018-1/IP-1860-PRV);
2020年2月20日提交的名称为“MULTI-CYCLE CLUSTER BASED REAL TIMEANALYSIS SYSTEM”的美国临时专利申请号62/979,412(代理人案卷号ILLM 1020-1/IP-1866-PRV);
2020年3月20日提交的名称为“TRAINING DATA GENERATION FOR ARTIFICIALINTELLIGENCE-BASED SEQUENCING”的美国非临时专利申请号16/825,987(代理人案卷号ILLM 1008-16/IP-1693-US);
2020年3月20日提交的名称为“ARTIFICIAL INTELLIGENCE-BASED GENERATION OFSEQUENCING METADATA”的美国非临时专利申请号16/825,991(代理人案卷号ILLM 1008-17/IP-1741-US);
2020年3月20日提交的名称为“ARTIFICIAL INTELLIGENCE-BASED BASE CALLING”的美国非临时专利申请号16/826,126(代理人案卷号ILLM 1008-18/IP-1744-US);
2020年3月20日提交的名称为“ARTIFICIAL INTELLIGENCE-BASED QUALITYSCORING”的美国非临时专利申请号16/826,134(代理人案卷号ILLM 1008-19/IP-1747-US);以及
2020年3月21日提交的名称为“ARTIFICIAL INTELLIGENCE-BASED SEQUENCING”的美国非临时专利申请号16/826,168(代理人案卷号ILLM 1008-20/IP-1752-PRV-US)。
背景技术
本部分中讨论的主题不应仅因为在本部分中有提及就被认为是现有技术。类似地,在本部分中提及的或与作为背景技术提供的主题相关联的问题不应被认为先前在现有技术中已被认识到。本部分中的主题仅表示不同的方法,这些方法本身也可对应于受权利要求书保护的技术的具体实施。
近年来,计算能力的快速提高使得深度卷积神经网络(CNN)在许多准确度显著提高的计算机视觉任务上取得了很大的成功。在推理阶段,许多应用需要以严格的功率消耗要求对一个图像进行低等待时间处理,这降低了图形处理单元(GPU)和其他通用平台的效率,通过定制专用于深度学习算法推理的数字电路,为特定的加速硬件(例如,现场可编程门阵列(FPGA))带来了机会。然而,由于大数据量、密集型计算、变化的算法结构和频繁的存储器访问,在便携式和嵌入式系统上部署CNN仍然具有挑战性。
由于卷积在CNN中贡献了大部分运算,因此卷积加速方案显著影响了硬件CNN加速器的效率和性能。卷积涉及具有沿内核和特征图滑动的四个循环级的乘法和累加(MAC)运算。第一循环级计算内核窗口内的像素的MAC。第二循环级跨不同的输入特征图累加MAC的乘积之和。在完成第一循环级和第二循环级之后,通过添加偏置来获得最终的输出像素。第三循环级在输入特征图内滑动内核窗口。第四循环级生成不同的输出特征图。
FPGA由于其(1)高度可重构性,(2)与专用集成电路(ASIC)相比开发时间更快,以跟上CNN的快速发展,(3)良好的性能,以及(4)与GPU相比优越的能量效率,获得了越来越多的关注和普及,特别是在加速推理任务方面。FPGA的高性能和高效率可以通过合成针对特定计算定制的电路来实现,以利用定制的存储器系统直接处理数十亿次运算。例如,现代FPGA上的数百至数千个数字信号处理(DSP)块以高并行性支持核心卷积运算,例如乘法和加法。外部片上存储器和片上处理引擎(PE)之间的专用数据缓冲器可被设计成通过在FPGA芯片上配置数十兆字节的片上块随机存取存储器(BRAM)来实现优选的数据流。
需要高效的数据流和CNN加速的硬件架构来最小化数据通信,同时最大化资源利用来实现高性能。因此有机会设计出在具有高性能、高效率和高度灵活性的加速硬件上加速各种CNN算法的推理过程的方法和框架。
附图说明
在附图中,在所有不同视图中,类似的参考符号通常是指类似的部件。另外,附图未必按比例绘制,而是重点说明所公开的技术的原理。在以下描述中,参考以下附图描述了所公开的技术的各种具体实施,其中:
图1A示出了所公开的压缩逻辑的一个具体实施,该压缩逻辑为碱基检出的第一迭代生成压缩的空间图集。
图1B示出了通过所公开的时间逻辑来处理压缩的空间图集以生成时间图集的一个具体实施。
图1C示出了通过所公开的输出逻辑来处理时间图集以生成碱基检出分类数据的一个具体实施。
图1D示出了由空间卷积层的级联响应于针对目标测序循环处理每循环图像补片而连续生成的特征图体积序列的示例。
图1E描绘了示出1×1卷积如何压缩特征图的示例。
图1F示出由所公开的压缩逻辑实现的压缩比是由所公开的压缩逻辑应用的压缩滤波器的数量的函数。
图1G示出了示例性softmax函数。
图1H描绘了由所公开的技术产生的示例性每簇、每循环概率四元组。
图2A示出在碱基检出的第二迭代期间,仅针对非重叠测序循环6生成空间图和对应的压缩空间图。
图2B示出在碱基检出的第一迭代期间生成的压缩的空间图集与在碱基检出的第二迭代期间生成的压缩的空间图集结合使用,以针对中央测序循环4生成碱基检出。
图2C示出输出层处理在碱基检出的第二迭代期间生成的最终的时间图集并且针对中央测序循环4产生碱基检出。
图3A示出在碱基检出的第三迭代期间,仅针对非重叠测序循环7生成空间图和对应的压缩空间图。
图3B示出在碱基检出的第一迭代和第二迭代期间生成的压缩的空间图集与在碱基检出的第三迭代期间生成的压缩的空间图集结合使用,以针对中央测序循环5生成碱基检出。
图3C示出输出层处理在碱基检出的第三迭代期间生成的最终的时间图集并且针对中央测序循环5产生碱基检出。
图4A示出了用于对中央测序循环16进行碱基检出的碱基检出的第十四迭代。
图4B示出先前针对测序循环1至29生成的压缩的空间图被用于生成用于对中央测序循环16进行碱基检出的最终的时间图集。
图4C示出输出层处理在碱基检出的第十四迭代期间生成的最终的时间图集并且针对中央测序循环16产生碱基检出。
图5A示出了在碱基检出的第一迭代期间,使用滤波逻辑针对相应的测序循环1、2、3、4和5对压缩的空间图集进行滤波以生成相应的压缩的、滤波后的空间图的一个具体实施。
图5B示出输出层处理在碱基检出的第一迭代期间生成的最终的滤波后的时间图集并且针对中央测序循环3产生碱基检出。
图6A示出了在碱基检出的第二迭代期间,使用滤波逻辑针对相应的测序循环2、3、4、5和6对压缩的空间图集进行滤波以生成相应的压缩的、滤波后的空间图的一个具体实施。
图6B示出输出层处理在碱基检出的第二迭代期间生成的最终的滤波后的时间图集并且针对中央测序循环4产生碱基检出。
图7A示出了在碱基检出的第三迭代期间,使用滤波逻辑针对相应的测序循环3、4、5、6和7对压缩的空间图集进行滤波以生成相应的压缩的、滤波后的空间图的一个具体实施。
图7B示出输出层处理在碱基检出的第三迭代期间生成的最终的滤波后的时间图集并且针对中央测序循环5产生碱基检出。
图8A示出了通过压缩逻辑处理在碱基检出的第一迭代期间生成的时间特征图集以生成相应的压缩的时间特征图集的一个具体实施。
图8B示出输出层处理在碱基检出的第一迭代期间生成的最终的压缩的时间图集并且针对中央测序循环3产生碱基检出。
图9A示出在第一碱基检出迭代期间生成的压缩的时间图集与在碱基检出的第二迭代期间生成的压缩的时间图集结合使用,以针对中央测序循环4生成碱基检出。
图9B示出输出层处理在碱基检出的第二迭代期间生成的最终的压缩的时间图集并且针对中央测序循环4产生碱基检出。
图10A示出在碱基检出的第一迭代和碱基检出的第二迭代期间生成的压缩的时间图集与在碱基检出的第三迭代期间生成的压缩的时间图集结合使用以针对中央测序循环5生成碱基检出。
图10B示出输出层处理在碱基检出的第三迭代期间生成的最终的压缩的时间图集并且针对中央测序循环5产生碱基检出。
图11A示出了通过压缩逻辑处理在碱基检出的第一迭代期间生成的滤波后的时间特征图集以生成相应的压缩的、滤波后的时间特征图集的一个具体实施。
图11B示出输出层处理在碱基检出的第一迭代期间生成的最终的压缩的、滤波后的时间图集并且针对中央测序循环3产生碱基检出。
图12A示出在第一碱基检出迭代期间生成的压缩的、滤波后的时间图集与在碱基检出的第二迭代期间生成的压缩的、滤波后的时间图集结合使用,以针对中央测序循环4生成碱基检出。
图12B示出输出层处理在碱基检出的第二迭代期间生成的最终的压缩的、滤波后的时间图集并且针对中央测序循环4产生碱基检出。
图13A示出在第一碱基检出迭代和第二碱基检出迭代期间生成的压缩的、滤波后的时间图集与在碱基检出的第三迭代期间生成的压缩的、滤波后的时间图集结合使用,以针对中央测序循环5生成碱基检出。
图13B示出输出层处理在碱基检出的第三迭代期间生成的最终的压缩的、滤波后的时间图集并且针对中央测序循环5产生碱基检出。
图14示出了本文所公开的基于神经网络的碱基检出器的第一示例性架构。
图15示出了本文所公开的基于神经网络的碱基检出器的第二示例性架构。
图16示出了本文所公开的基于神经网络的碱基检出器的第三示例性架构。
图17示出了本文所公开的基于神经网络的碱基检出器的第四示例性架构。
图18示出了滤波器配置逻辑的一个具体实施,该滤波器配置逻辑根据输入数据中的通道数量来配置压缩层中的卷积滤波器的计数(或数量)。
图19A和图19B描绘了测序系统的一个具体实施。该测序系统包括可配置处理器。
图19C是用于分析来自测序系统的传感器数据(诸如,碱基检出传感器输出)的系统的简化框图。
图20A是示出碱基检出操作的各方面的简化图,该碱基检出操作包括由主机处理器执行的运行时程序的功能。
图20B是可配置处理器的配置的简化图。
图21示出了所公开的数据流逻辑的另一个具体实施,该数据流逻辑使得在第一碱基检出迭代期间生成的压缩的空间图在第二碱基检出迭代期间从片外存储器(例如,片外DRAM、主机RAM、主机高带宽存储器(HBM))可用。
图22示出了所公开的数据流逻辑的一个具体实施,该数据流逻辑使得在第一碱基检出迭代期间生成的压缩的空间图在第二碱基检出迭代期间从片上存储器(例如,经由互连器附接到处理器的片上DRAM、片上SRAM、片上BRAM、DRAM)可用。
图23示出了所公开的基于神经网络的碱基检出器的所谓的拆分架构的一个具体实施。
图24A描绘了经由特征图加法在下游再注入先前信息的残差连接。
图24B描绘了残差块和跳跃连接的一个具体实施。
图24C示出了基于神经网络的碱基检出器的残差架构,其中空间卷积层被分组为带有跳跃连接的残差块。
图25A示出了本文所述的基于神经网络的碱基检出器的所公开的总线网络的细节。
图25B示出了所公开的总线网络的示例性操作。
图25C示出了所公开的总线网络的维度兼容性逻辑的一个具体实施。
图26示出了所公开的总线网络的另一示例。
图27示出了所公开的总线网络的又一示例。
图28示出了所公开的总线网络的缩放逻辑的一个具体实施。
图29示出了时间网络的时间卷积层之间的跳跃连接的一个具体实施。
图30比较了配置有压缩逻辑的网络基于网络的碱基检出器(sqz2碱基检出器)与不带有压缩逻辑的网络基于网络的碱基检出器以及Illumina的不基于神经网络的碱基检出器实时分析(RTA)软件的碱基检出性能。
图31示出了通过使用所公开的压缩逻辑带来的RAM和DRAM使用中的节省。
图32比较了配置有拆分和跳跃架构(split_res)的网络基于网络的碱基检出器与RTA碱基检出器以及不带有拆分和跳跃架构(蒸馏的)的另一版本的网络基于网络的碱基检出器的碱基检出性能。
图33是可用于实现所公开的技术的计算机系统。
具体实施方式
呈现以下讨论以使得本领域的任何技术人员能够实现和使用所公开的技术,并且在特定应用及其要求的上下文中提供以下讨论。对所公开的具体实施的各种修改对于本领域的技术人员而言将是显而易见的,并且在不脱离所公开的技术的实质和范围的情况下,本文所定义的一般原理可应用于其他具体实施和应用。因此,所公开的技术并非旨在限于所示的具体实施,而是要符合与本文所公开的原理和特征一致的最广范围。
测序图像
碱基检出是确定测序的核苷酸组成的过程。碱基检出涉及分析图像数据,即在测序运行(或测序反应)期间产生的测序图像,该测序运行由测序仪器诸如Illumina的iSeq、HiSeqX、HiSeq 3000、HiSeq 4000、HiSeq2500、NovaSeq 6000、NextSeq 550、NextSeq 1000、NextSeq 2000、NextSeqDx、MiSeq和MiSeqDx进行。
根据一个具体实施,以下讨论概述了测序图像如何生成以及它们所描绘的内容。
碱基检出将测序图像中编码的强度数据解码为核苷酸序列。在一个具体实施中,Illumina测序平台采用循环可逆终止(CRT)化学来进行碱基检出。该过程依赖于生长与带有荧光标记的核苷酸的模板链互补的新生链,同时跟踪每个新添加的核苷酸的发射信号。带有荧光标记的核苷酸具有锚定核苷酸类型的荧光团信号的3'可移除块。
测序在重复的循环中进行,每个循环包括三个步骤:(a)通过添加带有荧光标记的核苷酸延长新生链;(b)使用测序仪器的光学系统的一个或多个激光器来激发荧光团并且通过光学系统的不同滤波器成像,从而产生测序图像;以及(c)裂解荧光团并且移除3'块,以为下一个测序循环做准备。重复结合和成像循环直至达到指定数量的测序循环,从而限定读段长度。使用该方法,每个循环询问沿着模板链的新位置。
Illumina测序仪的巨大能力源于其同时执行和感测数百万或甚至数十亿个经历CRT反应的簇(也称为“分析物”)的能力。簇包括模板链的约一千个相同副本,但簇的尺寸和形状不同。在测序运行之前,通过对输入库进行桥式扩增或排除扩增,簇从模板链生长。扩增和簇生长的目的是增加发射信号的强度,因为成像设备无法可靠地感测单链的荧光团信号。然而,簇内的链的物理距离较短,因此成像设备将链的簇感知为单个点。
测序在流动池(或生物传感器)—保持输入链的小载玻片中进行。流通池连接到光学系统,该光学系统包括显微镜成像、激发激光器和荧光滤波器。流通池包括被称为槽道的多个室。槽道在物理上彼此分离,并且可包含不同的标记测序文库,这些标记测序文库在无样品交叉污染的情况下可进行区分。在一些具体实施中,流动池包括图案化表面。“图案化表面”是指在固体载体的暴露层中或该暴露层上的不同区域的布置。
测序仪器的成像设备(例如,固态成像器,诸如电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS)传感器)在沿槽道的多个位置处、在一系列非重叠区域(被称为区块)中拍摄快照。例如,每个槽道可以有64个或96个区块。区块保持数十万至数百万个簇。
测序运行的输出是测序图像。测序图像使用像素化单元(例如,像素、超像素、子像素)的网格(或阵列)来描绘簇及其周围背景的强度发射。强度发射被存储为像素化单元的强度值。测序图像具有像素化单元的网格的维度w×h,其中w(宽度)和h(高度)是范围从1至100,000的任何数字(例如,115×115、200×200、1800×2000、2200×25000、2800×3600、4000×400)。在一些具体实施中,w和h是相同的。在其他具体实施中,w和h是不同的。测序图像描绘了由于在测序运行期间核苷酸掺入核苷酸序列而生成的强度发射。强度发射来自相关联的簇及其周围背景。
基于神经网络的碱基检出
下面的讨论集中于本文所述的基于神经网络的碱基检出器100。首先,根据一个具体实施,描述对基于神经网络的碱基检出器100的输入。然后,提供了基于神经网络的碱基检出器100的结构和形式的示例。最后,根据一个具体实施,描述了基于神经网络的碱基检出器100的输出。
数据流逻辑将测序图像提供给基于神经网络的碱基检出器100用于碱基检出。基于神经网络的碱基检出器100逐个补片(或逐个区块)地访问测序图像。补片中的每一个补片是形成测序图像的像素化单元的网格中的像素化单元的子网格(或子阵列)。补片具有像素化单元的子网格的维度q×r,其中q(宽度)和r(高度)是范围从1至10000的任何数字(例如,3×3、5×5、7×7、10×10、15×15、25×25、64×64、78×78、115×115)。在一些具体实施中,q和r是相同的。在其他具体实施中,q和r是不同的。在一些具体实施中,从测序图像中提取的补片具有相同的尺寸。在其他具体实施中,补片具有不同的尺寸。在一些具体实施中,补片可具有重叠的像素化单元(例如,在边缘上)。
对于对应的m个图像通道,测序在每个测序循环产生m个测序图像。即,测序图像中的每一个测序图像具有一个或多个图像(或强度)通道(类似于彩色图像的红、绿、蓝(RGB)通道)。在一个具体实施中,每个图像通道对应于多个滤波器波长带中的一个滤波器波长带。在另一个具体实施中,每个图像通道对应于测序循环中的多个成像事件中的一个成像事件。在又一个具体实施中,每个图像通道对应于利用特定激光器照明和通过特定光学滤波器成像的组合。对于特定测序循环,从m个图像通道中的每一个图像通道对图像补片分区块(tile)(或访问)。在诸如四通道化学、双通道化学和单通道化学的不同具体实施中,m为4或2。在其他具体实施中,m为1、3或大于4。
例如,考虑使用两个不同的图像通道来实施测序运行:蓝色通道和绿色通道。然后,在每个测序循环中,测序运行产生蓝色图像和绿色图像。这样,对于测序运行的一系列k测序循环,产生k对蓝色图像和绿色图像的序列作为输出并且将其存储为测序图像。因此,生成k对蓝色和绿色图像补片的序列,用于由基于神经网络的碱基检出器100进行补片级处理。
对于碱基检出的单次迭代(或前向传递的单个实例或单个前向遍历),对基于神经网络的碱基检出器100的输入图像数据包括用于多个测序循环的滑动窗口的数据。滑动窗口可以包括例如当前测序循环、一个或多个在前测序循环,以及一个或多个后续测序循环。
在一个具体实施中,输入图像数据包括用于3个测序循环的数据,使得用于当前(时间t)测序循环的待进行碱基检出的数据伴随有(i)用于左侧翼/上下文/先前/之前/在前(时间t-1)测序循环的数据和(ii)用于右侧翼/上下文/下一个/后续/随后(时间t+1)测序循环的数据。
在另一个具体实施中,输入图像数据包括5个测序循环的数据,使得待进行碱基检出的当前(时间t)测序循环的数据伴随有(i)第一左侧翼/上下文/先前/在前/之前(时间t-1)测序循环的数据,(ii)第二左侧翼/上下文/先前/在前/之前(时间t-2)测序循环的数据,(iii)第一右侧翼/上下文/下一个/后续/随后(时间t+1)的数据,以及(iv)第二右侧翼/上下文/下一个/后续/随后(时间t+2)测序循环的数据。
在又一个具体实施中,输入图像数据包括7个测序循环的数据,使得待进行碱基检出的当前(时间t)测序循环的数据伴随有(i)第一左侧翼/上下文/先前/在前/之前(时间t-1)测序循环的数据,(ii)第二左侧翼/上下文/先前/在前/之前(时间t-2)测序循环的数据,(iii)第三左侧翼/上下文/先前/在前/之前(时间t-3)测序循环的数据,(iv)第一右侧翼/上下文/下一个/后续/随后(时间t+1)的数据,(v)第二右侧翼/上下文/下一个/后续/随后(时间t+2)测序循环的数据,以及(vi)第三右侧翼/上下文/下一个/后续/随后(时间t+3)测序循环的数据。在其他具体实施中,输入图像数据包括用于单个测序循环的数据。在其他具体实施中,输入图像数据包括用于10、15、20、30、58、75、92、130、168、175、209、225、230、275、318、325、330、525或625个测序循环的数据。
根据一个具体实施,基于神经网络的碱基检出器100通过其卷积层处理图像补片,并且产生另选表示。然后,输出层(例如,softmax层)使用另选表示来为当前(时间t)测序循环或测序循环中的每一个测序循环,即当前(时间t)测序循环、第一在前测序循环和第二在前(时间t-1、时间t-2)测序循环,以及第一后续测序循环和第二后续(时间t+1、时间t+2)测序循环生成碱基检出。所得的碱基检出形成测序读段。
在一个具体实施中,基于神经网络的碱基检出器100针对特定测序循环输出单个目标簇的碱基检出。在另一个具体实施中,基于神经网络的碱基检出器100针对特定测序循环输出多个目标簇中的每一个目标簇的碱基检出。在又一个具体实施中,基于神经网络的碱基检出器100针对多个测序循环中的每一个测序循环输出多个目标簇中的每一个目标簇的碱基检出,从而产生每个目标簇的碱基检出序列。
在一个具体实施中,基于神经网络的碱基检出器100是多层感知器。在另一个具体实施中,基于神经网络的碱基检出器100是前馈神经网络。在又一个具体实施中,基于神经网络的碱基检出器100是全连接神经网络。在另一个具体实施中,基于神经网络的碱基检出器100是全卷积神经网络。在又一个具体实施中,基于神经网络的碱基检出器100是语义分割神经网络。在又一个具体实施中,基于神经网络的碱基检出器100是生成式对抗网络(GAN)。
在一个具体实施中,基于神经网络的碱基检出器100是具有多个卷积层的卷积神经网络(CNN)。在另一个具体实施中,基于神经网络的碱基检出器100是递归神经网络(RNN),诸如长短期记忆网络(LSTM)、双向LSTM(Bi-LSTM)或门控递归单元(GRU)。在又一个具体实施中,基于神经网络的碱基检出器100包括CNN和RNN。
在其他具体实施中,基于神经网络的碱基检出器100可使用1D卷积、2D卷积、3D卷积、4D卷积、5D卷积、扩张或空洞卷积、转置卷积、深度可分离卷积、逐点卷积、1×1卷积、分组卷积、扁平卷积、空间和跨通道卷积、混洗分组卷积、空间可分离卷积和去卷积。基于神经网络的碱基检出器100可使用一种或多种损失函数,诸如逻辑回归/对数损失函数、多类交叉熵/softmax损失函数、二元交叉熵损失函数、均方误差损失函数、L1损失函数、L2损失函数、平滑L1损失函数和Huber损失函数。基于神经网络的碱基检出器100可使用任何并行性、效率性和压缩方案,诸如TFRecords、压缩编码(例如,PNG)、锐化、映射图转换的并行检出、批处理、预取、模型并行性、数据并行性和同步/异步随机梯度下降(SGD)。基于神经网络的碱基检出器100可包括上采样层、下采样层、递归连接、栅极和栅极存储器单元(如LSTM或GRU)、残差块、残差连接、高速连接、跳跃连接、窥视孔连接、激活函数(例如,非线性变换函数如修正线性单元(ReLU)、泄露ReLU、指数衬里单元(ELU)、sigmoid和双曲线正切(tanh))、批量归一化层、正则化层、丢弃层、池化层(例如,最大或平均池化)、全局平均池化层和注意力机制。
使用基于反向传播的梯度更新技术来训练基于神经网络的碱基检出器100。可用于训练基于神经网络的碱基检出器100的示例性梯度下降技术包括随机梯度下降、批量梯度下降和小批量梯度下降。可用于训练基于神经网络的碱基检出器100的梯度下降优化算法的一些示例为Momentum、Nesterov加速梯度、Adagrad、Adadelta、RMSprop、Adam、AdaMax、Nadam和AMSGrad。
在一个具体实施中,基于神经网络的碱基检出器100使用专门化架构来隔离不同测序循环的数据处理。首先描述使用专门化架构的动机。如上所述,基于神经网络的碱基检出器100处理用于当前测序循环、一个或多个在前测序循环以及一个或多个后续测序循环的图像补片。附加测序循环的数据提供序列特异性上下文。基于神经网络的碱基检出器100在训练期间学习序列特异性上下文,并且对该序列特异性上下文进行碱基检出。此外,前测序循环和后测序循环的数据为当前测序循环提供了预定相和定相信号的二阶贡献。
然而,在不同测序循环处和不同图像通道中捕获的图像相对于彼此未对准并且具有残差配准误差。考虑到这种未对准,专门化架构包括空间卷积层,该空间卷积层不混合测序循环之间的信息并且仅混合测序循环内的信息。
空间卷积层(或空间逻辑)使用所谓的“隔离卷积”,该隔离卷积通过经由“专用非共享”卷积序列独立处理多个测序循环中的每一个测序循环的数据来实现隔离。隔离卷积对仅给定测序循环(即,循环内)的数据和所得特征图进行卷积,而不对任何其他测序循环的数据和所得特征图进行卷积。
例如,考虑输入图像数据包括(i)待进行碱基检出的当前(时间t)测序循环的当前图像补片,(ii)先前(时间t-1)测序循环的先前图像补片,以及(iii)下一个(时间t+1)测序循环的下一个图像补片。然后,专门化架构启动3个单独的卷积流水线,即,当前卷积流水线、先前卷积流水线和下一个卷积流水线。当前数据处理管道接收当前(时间t)测序循环的当前图像补片作为输入,并且通过多个空间卷积层独立地处理该当前数据,以产生所谓的“当前空间卷积表示”作为最终空间卷积层的输出。先前卷积流水线接收先前(时间t-1)测序循环的先前图像补片作为输入,并且通过多个空间卷积层独立地处理该先前数据,以产生所谓的“先前空间卷积表示”作为最终空间卷积层的输出。下一个卷积流水线接收下一个(时间t+1)测序循环的下一个图像补片作为输入,并且通过多个空间卷积层独立地处理该下一个数据以产生所谓的“下一个空间卷积表示”作为最终空间卷积层的输出。
在一些具体实施中,并行地执行当前卷积流水线、先前卷积流水线和下一个卷积流水线。在一些具体实施中,空间卷积层是专门化架构内的空间卷积网络(或子网络)的一部分。
基于神经网络的碱基检出器100还包括混合测序循环之间(即,循环间)的信息的时间卷积层(或时间逻辑)。时间卷积层从空间卷积网络接收其输入,并且对由相应数据处理流水线的最终空间卷积层产生的空间卷积表示进行操作。
时间卷积层的循环间可操作性自由源于以下事实:未对准属性通过由空间卷积层序列执行的隔离卷积的堆叠或级联而从空间卷积表示清除,该未对准属性存在于作为输入馈送到空间卷积网络的图像数据中。
时间卷积层使用所谓的“组合卷积”,该组合卷积在滑动窗口的基础上逐组地对后续输入中的输入通道进行卷积。在一个具体实施中,这些后续输入是由先前的空间卷积层或先前时间卷积层产生的后续输出。
在一些具体实施中,时间卷积层是专门化架构内的时间卷积网络(或子网络)的一部分。时间卷积网络从空间卷积网络接收其输入。在一个具体实施中,时间卷积网络的第一时间卷积层逐组地组合测序循环之间的空间卷积表示。在另一个具体实施中,时间卷积网络的后续时间卷积层组合先前时间卷积层的后续输出。最终时间卷积层的输出被馈送到产生输出的输出层。输出用于在一个或多个测序循环处对一个或多个簇进行碱基检出。
关于基于神经网络的碱基检出器100的其他细节可以在2019年3月21日提交的名称为“ARTIFICIAL INTELLIGENCE-BASED SEQUENCING”(代理人案卷号ILLM 1008-9/IP-1752-PRV)的美国临时专利申请号62/821,766中找到,该临时专利申请以引用方式并入本文。
压缩网络
如上所述,基于神经网络的碱基检出器100的专门化架构为对应的测序循环处理图像补片的滑动窗口。在后续滑动窗口的测序循环之间存在重叠。这使得基于神经网络的碱基检出器100对于重叠的测序循环冗余地处理图像补片。这继而导致计算资源的浪费。例如,在一个具体实施中,基于神经网络的碱基检出器100的每个空间卷积层具有近亿次乘法运算。然后,对于5个测序循环的窗口和7个空间卷积层的级联(或序列),空间卷积神经网络执行约6.2亿次乘法运算。此外,时间卷积神经网络执行大约1000万次乘法运算。
由于当前滑动窗口(或碱基检出的当前迭代)中循环N-1的图像数据在先前的滑动窗口(或碱基检出的先前迭代)中被处理为循环N,因此有机会存储在当前滑动窗口中完成的处理的中间结果和它们在后续滑动窗口中的中间结果,从而绕过(或避免)对输入图像数据的冗余处理(或重新处理),以用于后续滑动窗口之间的重叠的测序循环。
然而,中间结果是需要不切实际的存储量的数TB的数据。为了克服该技术问题,所公开的技术提出了在基于神经网络的碱基检出器100第一次生成中间结果时压缩中间结果,并且在随后的滑动窗口中重新利用压缩的中间结果以避免冗余计算,从而不重新生成(或仅生成一次)中间结果。在一些具体实施中,所公开的技术在基于神经网络的碱基检出器100的空间网络中节省了约80%的卷积。在一个具体实施中,当压缩逻辑和随后的测序循环中压缩的特征图的重新利用用于5个测序循环的输入窗口(例如,循环N、循环N+1、循环N-1、循环N+2、循环N-2)时,在空间卷积中可以观察到80%的节省。在另一个具体实施中,当压缩逻辑和随后的测序循环中压缩的特征图的重新利用用于10个测序循环的输入窗口(例如,循环N、循环N+1、循环N-1、循环N+2、循环N-2、循环N+3以及循环N-3)时,在空间卷积中可以观察到90%的节省。即,窗口尺寸越大,使用压缩逻辑和重新利用压缩的特征图所带来的节省就越大,并且窗口尺寸越大,由于结合了来自附加侧翼循环的更大上下文,碱基检出性能就越好。因此,对于给定的计算能力,较大窗口的较大节省提高了整体性能。
由压缩逻辑带来的计算效率和紧凑的计算占用面积有助于基于神经网络的碱基检出器100在资源受限的处理器上的硬件实现,这些资源受限的处理器如中央处理单元(CPU)、图形处理单元(GPU)、现场可编程门阵列(FPGA)、粗粒度可重构架构(CGRA)、专用集成电路(ASIC)、专用指令集处理器(ASIP)和数字信号处理器(DSP)。
由压缩逻辑保存的计算允许在基于神经网络的碱基检出器100中结合更多的卷积算子。示例包括在空间和时间卷积层中增加更多的卷积滤波器、增加卷积滤波器的尺寸,以及增加空间卷积层和时间卷积层的数量。附加卷积运算提高了基于神经网络的碱基检出器100的强度模式检测和整体碱基检出准确度。
由压缩逻辑保存的计算还允许扩展目标滑动窗口的输入图像数据以包括增加的数量的测序循环。扩展的滑动窗口通过从附加的侧翼测序循环引入多余的图像补片来扩展碱基检出上下文。
此外,与原始中间结果相反,由于使用压缩的中间结果而可能出现的准确度的任何下降通过结合附加的卷积算子和滑动窗口的扩展来补偿。
图1A示出了所公开的压缩逻辑的一个具体实施,该压缩逻辑为碱基检出的第一迭代生成压缩的空间图集。在所示示例中,测序循环的第一窗口包括测序循环1、2、3、4和5。通过空间逻辑104(或空间网络或空间子网络或空间卷积神经网络)分别处理用于相应的测序循环1、2、3、4和5的相应的图像补片102、112、122、132和142(或每循环分析物通道集),以生成用于相应的测序循环1、2、3、4和5的相应的空间图106、116、126、136和146(或中间结果或空间输出集或空间特征图集)。空间卷积网络104可以使用1D、2D或3D卷积。
空间逻辑104包括空间卷积层的序列(或级联)。每个空间卷积层具有滤波器组,该滤波器组具有实施隔离卷积的多个空间卷积滤波器。因此,每个空间卷积层产生多个空间特征图作为输出。由目标空间卷积层产生的空间特征图的数量是在目标空间卷积层中配置的空间卷积滤波器的数量的函数。例如,如果目标空间卷积层具有14个空间卷积滤波器,则目标空间卷积层产生14个空间特征图。从整体的角度来看,14个空间特征图可以被认为是具有14个通道(或深度维度=14)的空间特征图体积(或张量)。
此外,在目标空间卷积层之后的下一个空间卷积层也可以配置有14个空间卷积滤波器。在这种情况下,下一个空间卷积层将生成目标空间卷积层的14个空间特征图作为输入进行处理,并且其自身生成14个新的空间特征图作为输出。图1A示出了由空间网络104的最终空间卷积层针对相应的测序循环1、2、3、4和5生成的五个空间特征图集106、116、126、136和146。在所示示例中,五个空间特征图集106、116、126、136和146中的每一个空间特征图集具有14个特征图。
图1D示出了由空间网络104的七个空间卷积层的级联生成的七个空间特征图集196a、196b、196c、196d、196e、196f和196g的序列。目标测序循环i的每循环输入补片数据194具有115×115的空间维数和深度维数2(由于原始测序图像中的两个图像通道)。在一个具体实施中,七个空间卷积层的每一个空间卷积层使用3×3卷积,将后续空间特征图体积的空间维数减少2,例如从10×10减少到8×8。
第一空间特征图体积196a具有空间维度113×113(即,从115×115减小第一空间卷积层的3×3卷积)和深度维度14(即,由于第一空间卷积层中的14个空间卷积滤波器而导致的14个特征图或14个通道)。第二空间特征图体积196b具有空间维度111×111(即,从113×113减小第二空间卷积层的3×3卷积)和深度维度14(即,由于第二空间卷积层中的14个空间卷积滤波器而导致的14个特征图或14个通道)。第三空间特征图体积196c具有空间维度109×109(即,从111×111减小第三空间卷积层的3×3卷积)和深度维度14(即,由于第三空间卷积层中的14个空间卷积滤波器而导致的14个特征图或14个通道)。第四空间特征图体积196d具有空间维度107×107(即,从109×109减小第四空间卷积层的3×3卷积)和深度维度14(即,由于第四空间卷积层中的14个空间卷积滤波器而导致的14个特征图或14个通道)。第五空间特征图体积196e具有空间维度105×105(即,从107×107减小第五空间卷积层的3×3卷积)和深度维度14(即,由于第五空间卷积层中的14个空间卷积滤波器而导致的14个特征图或14个通道)。第六空间特征图体积196f具有空间维度103×103(即,从105×105减小第六空间卷积层的3×3卷积)和深度维度14(即,由于第六空间卷积层中的14个空间卷积滤波器而导致的14个特征图或14个通道)。第七空间特征图体积196g具有空间维度101×101(即,从103×103减小第七空间卷积层的3×3卷积)和深度维度14(即,由于第七空间卷积层中的14个空间卷积滤波器而导致的14个特征图或14个通道)。
类似于图1A所示的多循环示例,对于5个测序循环1、2、3、4和5以及5个每循环图像补片102、112、122、132和142,空间逻辑104分别产生7个空间特征图体积196a、196b、196c、196d、196e、196f和196g的5个相应的序列,其中图1A中的空间图106、116、126、136和146等效于图1D中的最终的空间特征图体积196g的5个单独实例。
压缩逻辑108(或压缩网络或压缩子网络或压缩层或挤压层)处理空间逻辑104的输出并且生成输出的压缩表示。在一个具体实施中,压缩网络108包括减小由空间网络104生成的特征图的深度维数的压缩卷积层。
例如,在图1A中,空间图106、116、126、136和146的深度维数为14(即,每个空间输出十四个特征图或十四个通道)。压缩网络108针对相应的测序循环1、2、3、4和5将空间图106、116、126、136和146衰减为相应的压缩空间图集110、120、130、140和150。压缩空间图集110、120、130、140和150中的每一者具有深度维数2(即,每个压缩空间输出两个特征图或两个通道)。在其他具体实施中,压缩的空间图集110、120、130、140和150可具有3或4的深度维数(即,每个压缩空间输出3个或第四特征图或3个或第四通道)。在其他具体实施中,压缩的空间集110、120、130、140和150可具有深度维数1(即,每个压缩的空间输出一个特征图或一个通道)。在一个具体实施中,压缩层108不包括类似于ReLU的激活功能。在其他具体实施中,它可以包括激活功能。在其他具体实施中,压缩逻辑108可以将对应的压缩空间图集配置为各自具有多于四个特征图。
现在讨论压缩逻辑108如何生成压缩输出。
在一个具体实施中,压缩逻辑108使用1×1卷积来减少特征图的数量(即,深度维度或通道的数量),同时引入非线性。1×1卷积的内核大小为1。1×1卷积可以在不改变空间维度的情况下将体积深度变换为另一种挤压或扩展的表示。1×1卷积运算类似于跨输入通道的完全连接的线性层。这对于从具有许多通道的特征图映射到较少的特征图是有用的。在图1E中,将单个1×1卷积应用于具有2个特征图的输入张量。1×1卷积将双通道输入压缩为单通道输出。
由压缩层108生成的压缩输出(或压缩特征图或压缩的空间图或压缩的时间图)的数量是在压缩层108中配置的1×1卷积滤波器(或压缩卷积滤波器或压缩滤波器)的数量的函数。在图1F中,压缩层108具有两个1×1卷积滤波器198a和198b。第一1×1卷积滤波器198a处理具有14个特征图的空间特征体积196g,并且生成第一特征图199a,同时保持101×101的空间维数。第二1×1卷积滤波器198b也处理具有14个特征图的空间特征体积196g,并且生成第二特征图199b,同时保持101×101的空间维数。因此,压缩层108将具有14个特征图的空间特征体积196g减小为具有2个空间特征图199a和199b的压缩输出(即,压缩比=7)。
从时间序列的角度来看,测序循环5是中央测序循环(N),测序循环1和测序循环2是左侧翼测序循环(N-1,N-2),并且测序循环4和测序循环5是左侧翼测序循环(N+1,N+2)。因此,针对中央测序循环(N)生成中央压缩输出130,针对左侧翼测序循环(N-1)生成左侧翼压缩输出120,针对另一个左侧翼测序循环(N-2)生成另一个左侧翼压缩输出110,针对右侧翼测序循环(N+1)生成右侧翼压缩输出140,以及针对另一个右侧翼测序循环(N+2)生成另一个右侧翼压缩输出150。
从流水线的角度来看,基于神经网络的碱基检出器100执行5个并行且独立的流水线,这些流水线分别通过空间逻辑104和压缩逻辑108处理图像补片102、112、122、132和142(例如,作为基于数据并行性的多线程执行或多簇执行)。因此,5个压缩输出110、120、130、140和150由基于神经网络的碱基检出器100分别地、同时地以及独立地生成。
在一些具体实施中,压缩层108可以被认为是空间网络104的最终的空间卷积层。在其他具体实施中,压缩网络108可以被认为是基于神经网络的碱基检出器100的专门化架构内部或外部的单独网络。
图1B示出了通过基于神经网络的碱基检出器100的时间逻辑160(或时间网络或时间子网络或时间卷积神经网络)处理压缩的空间图集110、120、130、140和150的一个具体实施。时间逻辑160在滑动窗口的基础上处理多组后续的压缩的空间图集。例如,在图1B中,时间逻辑160针对相应的测序循环1、2和3处理第一组/窗口的压缩的空间图集110、120和130,并且生成时间图172(或时间图集或时间特征图或时间特征图集)作为输出。时间逻辑160针对相应的测序循环2、3和4处理第二组/窗口的压缩的空间图集120、130和140,并且生成时间图174作为输出。时间逻辑160针对相应的测序循环3、4和5处理第三组/窗口的压缩是空间图集130、140和150,并且生成时间图176作为输出。时间卷积网络160可以使用1D、2D或3D卷积。
图1B所示的时间逻辑160的三个实例表示时间网络160的第一时间卷积层的三个滤波器组。第一滤波器组对第一组压缩空间图110、120和130应用第一组时间卷积滤波器,并且生成第一组时间图172。第二滤波器组对第二组压缩空间图120、130和140应用第二组时间卷积滤波器,并且生成第二组时间图174。第三滤波器组对第三组压缩的空间图130、140和150应用第三组时间卷积滤波器,并且生成第三组时间图176。
第一组时间图172、第二组时间图174和第三组时间图176由时间逻辑160处理为一组以生成时间图182。图1B中所示的时间逻辑160的第四实例表示时间网络160的第二时间卷积层,该第二时间卷积层针对所有测序循环1、2、3、4和5产生输出,针对所有测序循环,每循环图像补片对作为输入被馈送到图1A中的基于神经网络的碱基检出器100。
时间网络160具有时间卷积层的级联(例如,以序列布置的2、3、4、5或更多的时间卷积层)。时间卷积层的级联以具有不同分组级别的分级形式处理数据。即,在给定级别,滑动窗口方法在给定级别按组处理输入,以生成随后以滑动窗口方式在下一级别按组处理的输出。
时间卷积层配置有实施组合卷积的时间卷积滤波器。组合卷积在跨越多个测序循环的特征图之间混合信息。组合卷积在时间网络160中的当前级别组合目标组/窗口中的后续测序循环之间的数据。例如,第一时间卷积层针对第一组测序循环1、2和3组合第一组压缩空间图110、120和130以生成第一组时间图172;针对第二组测序循环2、3和4组合第二组压缩的空间图120、130和140以生成第二组时间图174;并且针对第三组测序循环3、4和5组合第三组压缩的空间图130、140和150以生成第三组时间图176。
组合卷积还在时间网络160中在当前级别组合目标组/窗口中的后续的多组测序循环之间的数据。例如,第二时间卷积层将第一组时间图、第二组时间图和第三组时间图172、174和176组合成最后一组时间图182。在第二级,来自第一级的第一组/窗口、第二组/窗口和第三组/窗口的测序循环在测序循环1、2、3、4和5的第一组/窗口中分组。
组合卷积配置有与待组合的输入的数量一样多的内核(即,时间卷积滤波器的深度列或纤维与当前级的目标组/窗口中的输入的数量相匹配)。例如,当时间卷积层组合三个压缩的空间图时,它使用时间卷积滤波器,每个时间卷积滤波器具有三个内核,这三个内核在三个压缩的空间图的整个深度上执行逐元素乘法和求和。
最后一组时间图182由时间网络160的最终(或最后)的时间卷积层产生。图1C示出了通过所公开的输出逻辑190(或输出层或输出网络或输出子网络)来处理最终的时间图集182以生成碱基检出分类数据的一个具体实施。在一个具体实施中,针对一个或多个测序循环,同时对多个簇进行碱基检出。在图1C所示出的示例中,仅针对中央测序循环3为许多簇生成碱基检出192。在其他具体实施中,根据一个具体实施,所公开的技术使得输出逻辑190对于给定的输入窗口,不仅针对中央测序循环而且还针对侧翼测序循环(如由任选的虚线所指示的)生成碱基检出。例如,在一个具体实施中,所公开的技术对于给定的输入窗口,针对循环N、循环N+1、循环N-1、循环N+2、循环N-2等同时生成碱基检出。即,基于神经网络的碱基检出器102的单个前向传播/遍历/碱基检出迭代在测序循环的输入窗口中针对多个测序循环生成碱基检出,这在本文中被称为“多对多碱基检出”。
输出层190的示例包括softmax函数、log-softmax函数、集成输出平均函数、多层感知器不确定性函数、贝叶斯高斯分布函数和簇强度函数。在一个具体实施中,输出层190为每个簇以及针对每个测序循环产生每簇、每循环概率四元组。
下面的讨论集中于使用softmax函数作为示例的每簇、每循环概率四元组。最先解释softmax函数,然后解释每簇、每循环概率四元组。
softmax函数是多类分类的优选函数。softmax函数计算每个目标类相对于所有可能的目标类的概率。softmax函数的输出范围在0和1之间,并且所有概率之和等于1。softmax函数计算给定输入值的指数和所有输入值的指数值之和。输入值的指数与指数值之和的比率是softmax函数的输出,在本文中称为“指数归一化”。
正式地,训练所谓的softmax分类器是回归到类概率,而不是回归到真实分类器,因为它不返回类,而是返回每个类的概率的置信度预测。softmax函数取一类值并将它们转换为总和为1的概率。softmax函数将任意实数值的n维向量压缩到0到1范围内的实数值的n维向量。因此,使用softmax函数确保输出是有效的、指数归一化的概率质量函数(非负且总和为1)。
直观地,softmax函数是最大函数的“软”版本。术语“soft”来源于这样的事实:softmax函数是连续且可微的。代替选择一个最大元素,它将向量分解为整体的一部分,其中最大输入元素得到成比例的较大值,并且另一个输入元素得到较小比例的值。输出概率分布的特性使得softmax函数适用于分类任务中的概率解释。
将z视为softmax层的输入向量。softmax层单元是softmax层中的节点的数量,因此,z向量的长度是softmax层中的单元数量(如果有10个输出单元,则有10个z元素)。
对于n-维向量Z=[z1,z2,...zn],softmax函数使用指数归一化(exp)来产生另一个n-维向量p(Z),其归一化值在[0,1]的范围内,并且相加为单位:
特定的每簇、每循环概率四元组识别碱基在特定测序循环并入特定簇中的概率为A、C、T和G。当基于神经网络的碱基检出器100的输出层使用softmax函数时,每簇、每循环概率四元组中的概率是按指数归一化的分类得分,其总和为单位。图1H描绘了分别由簇1(121,以棕色示出)和测序循环1至S(122)的softmax函数产生的示例性每簇、每循环概率四元组123。换句话讲,测序循环的第一子集包括S个测序循环。
不可靠的簇标识符125基于从每簇、每循环概率四元组生成滤波值来识别不可靠的簇。在本申请中,每簇、每循环概率四元组也被称为碱基检出分类得分或归一化的碱基检出分类得分或初始碱基检出分类得分或归一化的初始碱基检出分类得分或初始碱基检出。
滤波器计算器127基于其识别的概率来确定每个每簇、每循环概率四元组的滤波值,从而生成每一簇的滤波值序列。滤波值序列被存储为滤波值124。
基于涉及概率中的一个或多个概率的计算来确定每簇、每循环概率四元组的滤波值。在一个具体实施中,滤波器计算器127所使用的计算是减法。例如,在图1H所示的具体实施中,通过从概率中的最高概率(以品红色示出)中减去概率中的第二高概率(以蓝色示出)来确定每簇、每循环概率四元组的滤波值。
在另一个具体实施中,滤波器计算器116所使用的计算是除法。例如,每簇、每循环概率四元组的滤波值被确定为概率中的最高概率(以品红色示出)与概率中的第二高概率(以蓝色示出)的比率。在又一个具体实施中,滤波器计算器127所使用的计算是加法。在又一个具体实施中,滤波器计算器127所使用的计算是乘法。
在一个具体实施中,滤波器计算器127使用滤波函数来生成滤波值124。在一个示例中,滤波函数是将啁啾(chastity)定义为最亮检出强度除以最亮检出强度和第二最亮检出强度之和的比率的啁啾滤波器。在另一示例中,滤波函数是最大对数概率函数、最小平方误差函数、平均信噪比(SNR)和最小绝对误差函数中的至少一者。
不可靠的簇标识符125使用滤波值124来将多个簇中的一些簇识别为不可靠的簇128。识别不可靠的簇128的数据可以是计算机可读格式或介质。不可靠的簇可以通过仪器ID、仪器上的运行编号、流通池ID、槽道编号、区块编号、簇的X坐标、簇的Y坐标和独特的分子标识符(UMI)来识别。不可靠的簇标识符125将多个簇中的那些簇识别为滤波值序列包含低于阈值“H”的“G”滤波值的不可靠的簇。在一个具体实施中,“G”的范围从1到5。在另一个具体实施中,“H”的范围从0.5到0.99。在一个具体实施中,不可靠的簇128识别对应于不可靠的簇(即,描绘其强度发射)的那些像素。如稍后在本申请中描述的,此类像素被滤波逻辑502滤除。
不可靠的簇是低质量簇,发射与背景信号相比不显著的一定量的期望信号。不可靠的簇的信噪比相当低,例如,小于1。在一些具体实施中,不可靠的簇可能不产生任何量的期望信号。在其他具体实施中,不可靠的簇可以产生相对于背景非常低的量的信号。在一个具体实施中,信号是光信号并且旨在包括例如荧光、发光、散射或吸收信号。信号电平是指具有期望的或预定义的特性的检测到的能量或编码信息的量或数量。例如,光信号可通过强度、波长、能量、频率、功率、亮度等中的一者或多者来量化。其他信号可根据特征诸如电压、电流、电场强度、磁场强度、频率、功率、温度等进行量化。不可靠的簇中的信号缺失被理解为信号电平为零或信号电平与噪声没有明显区别。
对于不可靠的簇的低质量信号存在许多可能的原因。如果在菌落扩增中已经存在聚合酶链式反应(PCR)误差,使得不可靠的簇中的~1000个分子中相当大比例的分子在某个位置包含不同的碱基,则可以观察到两个碱基的信号—这被解释为低质量的迹象并且被称为相位误差。当不可靠的簇中的各个分子在某一循环中不掺入核苷酸(例如,由于3'终止子的不完全移除,称为定相),然后滞后于其他分子时,或者当各个分子在单个循环中掺入多于一个核苷酸时(例如,由于掺入核苷酸而没有有效的3'阻断,称为定相),发生相位误差。这导致在序列副本的读段中失去同步。受定相和预定相影响的不可靠的簇中的序列比例随着循环数而增加,这是读段质量在高循环数下趋于下降的主要原因。
衰落也导致不可靠的簇。衰落是作为循环数的函数的不可靠的簇的信号强度的指数衰减。随着测序运行的进行,不可靠的簇中的链被过度洗涤,暴露于产生反应性物质的激光辐射,并且经受恶劣环境条件。所有这些导致不可靠的簇中片段的逐渐丢失,从而降低了它们的信号强度。
不可靠的簇也由发育不全的菌落,即,在图案化的流动池上产生空的或部分填充的孔的不可靠的簇的小的簇尺寸产生。即,在一些具体实施中,不可靠的簇指示图案化流通池上的空的、多克隆的以及暗孔。不可靠的簇也由非排他性扩增引起的重叠菌落产生。不可靠的簇也由照明不足或照明不均匀导致,例如,由于位于流通池的边缘。不可靠的簇也由流动池上的杂质引起,这些杂质混淆所发射的信号。当多个簇沉积在相同的孔中时,不可靠的簇还包括多克隆簇。
测序循环的第一窗口包括测序循环1、2、3、4和5,并且碱基检出的第一迭代产生中央测序循环3的碱基检出192。测序循环的第二窗口包括测序循环2、3、4、5和6,并且碱基检出的第二迭代针对中央测序循环4产生碱基检出292。因此,测序循环2、3、4和5是碱基检出的第一窗口和第二窗口之间或第二迭代和第三迭代之间的重叠的测序循环。
所公开的碱基检出系统和技术在存储器(例如,片上DRM、片上SRAM或BRAM、片外DRAM)中存储针对相应的测序循环2、3、4和5在碱基检出的第一迭代期间生成的压缩的空间图集120、130、140和150。在碱基检出的第二迭代期间,所公开的碱基检出系统和技术不通过空间网络104对重叠循环2、3、4和5的相应的输入图像补片112、122、132和142进行重新处理。相反,在碱基检出的第二迭代期间,所公开的碱基检出系统和技术重新使用先前生成的压缩的空间图集120、130、140和150来代替相应的输入图像补片112、122、132和142。
压缩逻辑进一步被配置为要求压缩的空间图集120、130、140和150以及相应的输入图像补片112、122、132和142具有相同数量的每循环特征图/通道。这确保了压缩的空间图集120、130、140和150是相应的输入图像补片112、122、132和142的无损表示。即,如果相应的输入图像补片112、122、132和142各自具有两个特征图/通道,则压缩逻辑108将压缩的空间图集120、130、140和150配置为也具有两个特征图/通道。类似地,如果相应的输入图像补片112、122、132和142各自具有三个特征图/通道,则压缩逻辑108将压缩的空间图集120、130、140和150配置为也具有三个特征图/通道。同样地,如果相应的输入图像补片112、122、132和142各自具有四个特征图/通道,则压缩逻辑108将压缩的空间图集120、130、140和150配置为也具有四个特征图/通道。
图2A示出,在碱基检出的第二迭代期间,通过空间逻辑104和压缩逻辑108处理输入图像数据222,仅针对非重叠测序循环6生成空间图226和对应的压缩空间图230。因此,用于重叠循环2、3、4和5(在图例中用灰色填充突出显示)的输入图像补片112、122、132和142不会被重新处理以避免冗余卷积。
图2B示出在碱基检出的第一迭代期间生成的压缩的空间图集120、130、140和150与在碱基检出的第二迭代期间生成的压缩的空间图集230结合使用,以针对中央测序循环4生成碱基检出292。在图2B中,滤波后的时间图集174、176和278由时间网络160的第一时间卷积层以类似于关于图1B所讨论的方式生成。由时间网络160的第二时间卷积层和最后的时间卷积层以类似于以上关于图1B所讨论的方式生成时间图集282。图2C示出输出层190处理在碱基检出的第二迭代期间生成的最终的时间图集282并且针对中央测序循环4产生碱基检出292。
测序循环的第三窗口包括测序循环3、4、5、6和7,并且碱基检出的第三迭代针对中央测序循环5产生碱基检出392。因此,测序循环3、4、5和6是碱基检出的第二窗口和第三窗口之间或第二迭代和第三迭代之间的重叠的测序循环。
所公开的碱基检出系统和技术在存储器(例如,片上DRM、片上SRAM或BRAM、片外DRAM)中存储针对相应的测序循环3、4和5在碱基检出的第一迭代期间生成的压缩的空间图集130、140和150,以及在碱基检出的第二迭代期间针对测序循环6生成的压缩的空间图集230。在碱基检出的第三迭代期间,所公开的碱基检出系统和技术不通过空间网络104对重叠循环3、4、5和6的相应的输入图像补片122、132、142和222进行重新处理。相反,在碱基检出的第三迭代期间,所公开的碱基检出系统和技术重新使用先前生成的压缩的空间图集130、140、150和230来代替相应的输入图像补片122、132、142和222。
图3A示出,在碱基检出的第三迭代期间,通过空间逻辑104和压缩逻辑108处理输入图像数据322,仅针对非重叠测序循环7生成空间图326和对应的压缩空间图330。因此,用于重叠循环3、4、5和6(在图例中用灰色填充突出显示)的输入图像补片122、132、142和222不会被重新处理以避免冗余卷积。
图3B示出在碱基检出的第一迭代和第二迭代期间生成的压缩的空间图集130、140、150和230与在碱基检出的第三迭代期间生成的压缩的空间图集330结合使用,以针对中央测序循环5生成碱基检出392。在图3B中,滤波后的时间图集176、278和378由时间网络160的第一时间卷积层以类似于关于图1B所讨论的方式生成。由时间网络160的第二时间卷积层和最后的时间卷积层以类似于以上关于图1B所讨论的方式生成时间图集382。图3C示出输出层190处理在碱基检出的第三迭代期间生成的最终的时间图集382并且针对中央测序循环5产生碱基检出392。
一旦针对给定的测序循环生成了压缩的空间图集,就可以将其重新用于对任何后续的测序循环进行碱基检出。图4A示出了用于对中央测序循环16进行碱基检出的碱基检出的第十四迭代。图4B示出先前针对测序循环1至29生成的压缩的空间图被用于生成用于对中央测序循环16进行碱基检出的最终的时间图集482。图4C示出输出层190处理在碱基检出的第十四迭代期间生成的最终的时间图集482并且针对中央测序循环16产生碱基检出492。
图5A示出了使用滤波逻辑502对压缩的空间图集110、120、130、140和150进行滤波以在碱基检出的第一迭代期间生成相应的测序循环1、2、3、4和5的相应的压缩的、滤波后的空间图510、520、530、540和550(仅描绘了可靠的簇)的一个具体实施。如上所述,不可靠的簇数据128识别空间图和压缩空间图中对应于不可靠的簇的那些部分(例如,像素)。例如,可以基于不可靠的簇的位置坐标来识别此类像素。
滤波逻辑502使用识别不可靠的簇的数据128来滤除(或丢弃或移除)来自压缩的空间图集110、120、130、140和150的对应于不可靠的簇(即,描绘其强度发射)的那些像素。在一些具体实施中,这导致75%的像素从压缩的空间图集中被丢弃,从而防止了许多非生产性卷积。
在图5A中,从压缩的、滤波后的空间图510、520、530、540和550生成滤波后的时间图集572、574和576(仅描绘了可靠的簇),用于对中央测序循环3进行碱基检出。滤波后的时间图集572、574和576(仅描绘了可靠的簇)由时间网络160的第一时间卷积层以类似于关于图1B所讨论的方式生成。由时间网络160的第二时间卷积层和最后的时间卷积层以类似于以上关于图1B所讨论的方式生成滤波后的时间图集582(仅描绘可靠的簇)。图5B示出输出层190处理在碱基检出的第一迭代期间生成的最终的滤波后的时间图集582并且针对中央测序循环3产生碱基检出592。
图6A示出了使用滤波逻辑502对压缩的空间图集120、130、140、150和230进行滤波以在碱基检出的第二迭代期间生成相应的测序循环2、3、4、5和6的相应的压缩的、滤波后的空间图520、530、540、550和650(仅描绘了可靠的簇)的一个具体实施。滤波逻辑502使用识别不可靠的簇的数据128来滤除(或丢弃或移除)来自压缩的空间图集120、130、140、150和230的对应于不可靠的簇(即,描绘其强度发射)的那些像素。
在图6A中,从压缩的、滤波后的空间图520、530、540、550和650生成滤波后的时间图集574、576和676(仅描绘了可靠的簇),用于对中央测序循环4进行碱基检出。滤波后的时间图集574、576和676(仅描绘了可靠的簇)由时间网络160的第一时间卷积层以类似于关于图1B所讨论的方式生成。由时间网络160的第二时间卷积层和最后的时间卷积层以类似于以上关于图1B所讨论的方式生成滤波后的时间图集682(仅描绘可靠的簇)。图6B示出输出层190处理在碱基检出的第二迭代期间生成的最终的滤波后的时间图集682并且针对中央测序循环4产生碱基检出692。
图7A示出了使用滤波逻辑502对压缩的空间图集130、140、150、230和330进行滤波以在碱基检出的第三迭代期间生成相应的测序循环3、4、5、6和7的相应的压缩的、滤波后的空间图530、540、550、650和750(仅描绘了可靠的簇)的一个具体实施。滤波逻辑502使用识别不可靠的簇的数据128来滤除(或丢弃或移除)来自压缩的空间图集130、140、150、230和330的对应于不可靠的簇(即,描绘其强度发射)的那些像素。
在图7A中,从压缩的、滤波后的空间图530、540、550、650、750生成滤波后的时间图集576、676和776(仅描绘了可靠的簇),用于对中央测序循环5进行碱基检出。滤波后的时间图集576、676和776(仅描绘了可靠的簇)由时间网络160的第一时间卷积层以类似于关于图1B所讨论的方式生成。由时间网络160的第二时间卷积层和最后的时间卷积层以类似于以上关于图1B所讨论的方式生成滤波后的时间图集782(仅描绘可靠的簇)。图7B示出输出层190处理在碱基检出的第三迭代期间生成的最终的滤波后的时间图集782并且针对中央测序循环5产生碱基检出792。
在其他具体实施中,压缩逻辑108可以将对应的压缩时间图集配置为各自具有多于四个特征图。
以上关于空间特征图讨论的压缩逻辑108等效地应用于由时间逻辑160生成的时间特征图的压缩。在随后的测序循环中对曾经生成的压缩的空间特征图的重新使用也等效地应用于在随后的测序循环中对曾经生成的压缩的时间特征图的重新使用。
在一些具体实施中,重新使用压缩的时间特征图导致两个数量级的效率,以及与重新使用压缩的空间特征图相比的计算节省,因为压缩的时间特征图在处理流水线的稍后的阶段从压缩的空间特征图生成。重新利用来自另一处理引擎(即,时间网络160)的中间结果增加了可跳过的较早处理步骤的数量。即,重新使用压缩的空间特征图消除了通过空间网络104对原始图像数据的冗余处理,但是可以包括通过时间网络160对压缩的空间特征图的冗余处理。相反,重新使用压缩的时间特征图消除了通过空间网络104对原始图像数据的冗余处理和通过时间网络160对压缩的空间特征图的冗余处理。
图8A示出了通过压缩逻辑108处理在碱基检出的第一迭代期间生成的时间特征图集172、174和176以生成相应的压缩的时间特征图集802、804和806的一个具体实施。压缩逻辑108以类似于以上关于图1E和图1F所讨论的方式生成压缩的时间特征图集802、804和806。即,例如,如果第一时间特征图集172具有例如21个特征图(或通道或深度=21),则压缩逻辑108可以将对应的压缩的时间特征图集802配置为具有1、2、3、4或多个特征图。压缩的时间特征图的集合802、804和806由时间网络160的第二时间卷积层以类似于以上关于图1B所讨论的方式进行处理,以生成最终的压缩的时间特征图集814。图8B示出输出层190处理在碱基检出的第一迭代期间生成的最终的压缩的时间特征图集814并且针对中央测序循环3产生碱基检出892。
图9A示出了在第二碱基检出迭代中重新使用在第一碱基检出迭代中生成的那些压缩的时间图的一个具体实施。即,第一组压缩的时间图804和第二组压缩的时间图806在图8A中针对第一碱基检出迭代生成,并且现在在图9A和图9B所示的第二碱基检出迭代中被重新利用。
需注意,在图8A中,第一组压缩的时间图804和第二组压缩的时间图806从第一组滤波后的时间图172和第二组滤波后的时间图174生成。进一步注意,第一组时间图172和第二组时间图174在图1B中从压缩的空间图110、120、130和140生成,这些压缩的空间图继而在图1A中从相应的空间图106、116、126和136生成,这些相应的空间图继而在图1A中从相应的图像补片102、112、122和132生成。
与图9A中冗余地生成重叠的时间图172、174和176的图1B、图2B和图3B不同,重叠的时间图174和176(在图9A中用虚线和虚影文字描绘)不是从图8A(第一碱基检出迭代)至图9A(第二碱基检出迭代)冗余地生成的。这是因为压缩逻辑108被合并到时间网络160中,以在第一碱基检出迭代中生成第一组压缩的时间图804和第二组压缩的时间图806,第一组压缩的时间图和第二组压缩的时间图替换第二碱基检出迭代中的重叠的时间图174和176。压缩的时间图可以存储在存储器(例如,片上DRM、片上SRAM或BRAM、片外DRAM)中。
图9A还示出了通过压缩逻辑108处理非重叠时间图278(即,第一碱基检出迭代和第二碱基检出迭代之间的非重叠)以生成压缩的时间图906。压缩的时间图集804、806和906由时间网络160的第二时间卷积层以类似于以上关于图1B所讨论的方式来处理,以生成最终的压缩的时间特征图集914。图9B示出输出层190处理在碱基检出的第二迭代期间生成的最终的压缩的时间特征图集914并且针对中央测序循环4产生碱基检出992。
与图10A中冗余地生成重叠的时间图174、176和278的图1B、图2B和图3B不同,重叠的时间图176和278(在图10A中用虚线和虚影文字描绘)不是从图9A(第二碱基检出迭代)至图10A(第三碱基检出迭代)冗余地生成的。这是因为压缩逻辑108被合并到时间网络160中,以在第一碱基检出迭代和第二碱基检出迭代中生成第一组压缩的时间图806和第二组压缩的时间图906,第一组压缩的时间图和第二组压缩的时间图替换第三碱基检出迭代中的重叠的时间图176和278。压缩的时间图可以存储在存储器(例如,片上DRM、片上SRAM或BRAM、片外DRAM)中。
图10A还示出了通过压缩逻辑108处理非重叠时间图378(即,第二碱基检出迭代和第三碱基检出迭代之间的非重叠)以生成压缩的时间图1006。压缩的时间图集806、906和1006由时间网络160的第二时间卷积层以类似于以上关于图1B所讨论的方式来处理,以生成最终的压缩的时间特征图集1014。图10B示出输出层190处理在碱基检出的第三迭代期间生成的最终的压缩的时间特征图集1014并且针对中央测序循环5产生碱基检出1092。
图11A示出了处理在碱基检出的第一迭代期间通过压缩逻辑108生成的滤波后的时间特征图集572、574和576以生成相应的压缩的、滤波后的时间特征图集1102、1104和1306的一个具体实施。压缩逻辑108以类似于以上关于图1E和图1F所讨论的方式生成压缩的、滤波后的时间特征图集1102、1104和1106(仅描绘可靠的簇)。即,例如,如果第一滤波后的时间特征图集572具有例如21个特征图(或通道或深度=21),则压缩逻辑108可以将对应的压缩的、滤波后的时间特征图集1102配置为具有1、2、3或4个特征图。压缩的、滤波后的时间特征图的集合1102、1104和1106由滤波后的时间网络160的第二滤波后的时间卷积层以类似于以上关于图1B所讨论的方式进行处理,以生成最终的压缩的、滤波后的时间特征图集1114。图8B示出输出层190处理在碱基检出的第一迭代期间生成的最终的压缩的、滤波后的时间特征图集1114并且针对中央测序循环3产生碱基检出1192。
在其他具体实施中,压缩逻辑108可以将对应的压缩特征图集配置为各自具有多于四个特征图。
图12A示出了在第二碱基检出迭代中重新使用在第一碱基检出迭代中生成的那些压缩的、滤波后的时间图的一个具体实施。即,第一组压缩的、滤波后的时间图1104和第二组压缩的、滤波后的时间图1106在图11A中针对第一碱基检出迭代生成,并且现在在图12A和图2B所示的第二碱基检出迭代中被重新利用。
需注意,在图11A中,第一组压缩的、滤波后的时间图1104和第二组压缩的、滤波后的时间图1106从第一组滤波后的时间图572和第二组滤波后的时间图574生成。进一步注意,第一组滤波后的时间图572和第二组滤波后的时间图574在图5A中从压缩的、滤波后的空间图510、520、530和540生成,这些压缩的、滤波后的空间图继而在图5A中从相应的压缩的空间图110、120、130和140生成,这些相应的压缩的空间图继而在图1A中从相应的空间图106、116、126和136生成,这些相应的空间图继而在图1A中从相应的图像补片102、112、122和132生成。
与图12A中冗余地生成重叠的、滤波后的时间图572、574和576的图5A、图6A和图7A不同,重叠的、滤波后的时间图574和576(在图12A中用虚线和虚影文字描绘)不是从图11A(第一碱基检出迭代)至图12A(第二碱基检出迭代)冗余地生成的。这是因为压缩逻辑108被合并到滤波后的时间网络160中,以在第一碱基检出迭代中生成第一组压缩的、滤波后的时间图1104和第二组压缩的、滤波后的时间图1106,第一组压缩的、滤波后的时间图和第二组压缩的、滤波后的时间图替换第二碱基检出迭代中的重叠的、滤波后的时间图574和576。压缩的、滤波后的时间图可以存储在存储器(例如,片上DRM、片上SRAM或BRAM、片外DRAM)中。
图12A还示出了通过压缩逻辑108处理非重叠的、滤波后的时间图676(即,第一碱基检出迭代和第二碱基检出迭代之间的非重叠)以生成压缩的、滤波后的时间图1206(仅示出了可靠的簇)。压缩的、滤波后的时间图集1104、1106和1206由滤波后的时间网络160的第二滤波后的时间卷积层以类似于以上关于图1B所讨论的方式来处理,以生成最终的压缩的、滤波后的时间特征图集1214。图12B示出输出层190处理在碱基检出的第二迭代期间生成的最终的压缩的、滤波后的时间特征图集1214并且针对中央测序循环4产生碱基检出1292。
与图13A中冗余地生成重叠的、滤波后的时间图574、576和676的图5A、图6A和图7A不同,重叠的、滤波后的时间图576和676(在图13A中用虚线和虚影文字描绘)不是从图12A(第二碱基检出迭代)至图13A(第三碱基检出迭代)冗余地生成的。这是因为压缩逻辑108被合并到滤波后的时间网络160中,以在第一碱基检出迭代和第二碱基检出迭代中生成第一组压缩的、滤波后的时间图1106和第二组压缩的、滤波后的时间图1206,第一组压缩的、滤波后的时间图和第二组压缩的、滤波后的时间图替换第三碱基检出迭代中的重叠的、滤波后的时间图576和676。压缩的、滤波后的时间图可以存储在存储器(例如,片上DRM、片上SRAM或BRAM、片外DRAM)中。
图13A还示出了通过压缩逻辑108处理非重叠的、滤波后的时间图776(即,第二碱基检出迭代和第三碱基检出迭代之间的非重叠)以生成压缩的、滤波后的时间图1306(仅示出了可靠的簇)。压缩的、滤波后的时间图集1106、1206和1306由滤波后的时间网络160的第二滤波后的时间卷积层以类似于以上关于图1B所讨论的方式来处理,以生成最终的压缩的、滤波后的时间特征图集1314。图13B示出输出层190处理在碱基检出的第三迭代期间生成的最终的压缩的、滤波后的时间特征图集1314并且针对中央测序循环5产生碱基检出1392。
图14示出了基于神经网络的碱基检出器100的第一示例性架构。在所示具体实施中,基于神经网络的碱基检出器100包括空间网络104、压缩网络108和时间网络160。空间网络104包括7个空间卷积层。压缩网络108包括压缩层。时间网络160包括2个时间卷积层。
7个空间卷积层中的每一个空间卷积层可具有相同数量的卷积滤波器,或者可具有不同数量的卷积滤波器。第一空间卷积层可具有S1个滤波器,其中S1可以是例如7、14、21、64、128或254。第二空间卷积层可具有S2个滤波器,其中S2可以是例如7、14、21、64、128或254。第三空间卷积层可具有S3个滤波器,其中S3可以是例如7、14、21、64、128或254。第四空间卷积层可具有S4个滤波器,其中S4可以是例如7、14、21、64、128或254。第五空间卷积层可具有S5个滤波器,其中S5可以是例如7、14、21、64、128或254。第六空间卷积层可具有S6个滤波器,其中S6可以是例如7、14、21、64、128或254。第七空间卷积层可具有S7个滤波器,其中S7可以是例如7、14、21、64、128或254。
压缩层可具有C1个滤波器,其中C1可以是例如1、2、3、4或更多。
两个时间卷积层中的每一个时间卷积层可具有相同数量的卷积滤波器,或者可具有不同数量的卷积滤波器。第一时间卷积层可具有T1个滤波器,其中T1可以是例如7、14、21、64、128或254。第二时间卷积层可具有T2个滤波器,其中T2可以是例如7、14、21、64、128或254。图14还示出了由基于神经网络的碱基检出器100的各层生成的特征图1412。
图15示出了基于神经网络的碱基检出器100的第二示例性架构。图15示出了作为基于神经网络的碱基检出器100的一部分的滤波逻辑502。在其他具体实施中,滤波逻辑502不是基于神经网络的碱基检出器100的一部分。压缩的特征图C1具有P1×P2的空间维度。滤波逻辑502滤除压缩的特征图C1中对应于不可靠的簇的那些像素,并且生成空间维数为P3×P4的压缩的、滤波后的特征图F1。压缩的、滤波后的特征图F1仅描绘可靠的簇。在一个具体实施中,滤波逻辑502丢弃压缩特征图C1中75%的像素,因此P3是P1的25%,并且P4是P2的25%。图15还示出了由基于神经网络的碱基检出器100的各层生成的特征图1512。
图16示出了基于神经网络的碱基检出器100的第三示例性架构。图16示出压缩网络108用于压缩空间网络104以及时间网络160的输出。图16还示出了由基于神经网络的碱基检出器100的各层生成的特征图1612。
图17示出了基于神经网络的碱基检出器100的第四示例性架构。图17示出滤波逻辑502被应用于空间网络104的压缩输出,以从时间网络160生成压缩的和滤波后的时间输出。图17还示出了由基于神经网络的碱基检出器100的各层生成的特征图1712。
图18示出了滤波器配置逻辑1804的一个具体实施,该滤波器配置逻辑根据输入数据中的通道数量来配置压缩层108中的卷积滤波器的计数(或数量)。这允许压缩的特征图是输入数据的无损表示。在一些具体实施中,输入数据可以用对应的压缩表示在存储器中重写,以便在随后的测序循环中重新使用。
在一个具体实施中,对于在每个每循环输入中仅包含一个通道1812(例如,仅一个图像通道)的输入数据,滤波器配置逻辑1804将压缩层108配置为具有仅一个卷积滤波器1816,该卷积滤波器每个测序循环生成仅一个压缩的特征图1818。在另一个具体实施中,对于在每个每循环输入中包含两个通道1822的输入数据(例如,两个图像通道,如测序图像中对应于蓝色激光器和绿色激光器的蓝色图像通道和绿色图像通道),滤波器配置逻辑1804将压缩层108配置为具有两个卷积滤波器1826,这两个卷积滤波器在每个测序循环生成两个压缩的特征图1828。在又一个具体实施中,对于每个每循环输入中包含三个通道1832(例如,三个图像通道)的输入数据,滤波器配置逻辑1804将压缩层108配置为具有三个卷积滤波器1836,这三个卷积滤波器在每个测序循环生成三个压缩的特征图1838。在又一个具体实施中,对于在每个每循环输入中包含四个通道1842的输入数据(例如,在对应于核苷酸A、C、T和G的测序图像中的四个图像通道,如A、C、T和G通道),滤波器配置逻辑1804将压缩层108配置为具有四个卷积滤波器1846,这四个卷积滤波器在每个测序循环生成四个压缩的特征图1848。在其他具体实施中,压缩逻辑108可以将对应的压缩特征图集配置为各自具有多于四个特征图,并且因此为压缩层108选择多于四个滤波器。
图19A和图19B描绘了测序系统1900A的一个具体实施。测序系统1900A包括可配置处理器1946。可配置处理器1946实施本文所公开的碱基检出技术。测序系统也称为“测序仪”。
测序系统1900A可操作以获得与生物物质或化学物质中的至少一者相关的任何信息或数据。在一些具体实施中,测序系统1900A是可类似于台式设备或台式计算机的工作站。例如,用于进行所需反应的大部分(或全部)系统和部件可位于共同的外壳1902内。
在特定具体实施中,测序系统1900A是被配置用于各种应用的核酸测序系统,各种应用包括但不限于从头测序、全基因组或靶基因组区域的重测序以及宏基因组学。测序仪也可用于DNA或RNA分析。在一些具体实施中,测序系统1900A还可被配置为在生物传感器中生成反应位点。例如,测序系统1900A可被配置为接收样品并且生成来源于样品的克隆扩增核酸的表面附着簇。每个簇可构成生物传感器中的反应位点或作为其一部分。
示例性测序系统1900A可包括被配置为与生物传感器1912相互作用以在生物传感器1912内进行所需反应的系统插座或接口1910。在以下关于图19A的描述中,将生物传感器1912装载到系统插座1910中。然而,应当理解,可将包括生物传感器1912的卡盒插入到系统插座1910中,并且在一些状态下,可暂时或永久地移除卡盒。如上所述,除了别的以外,卡盒还可包括流体控制部件和流体储存部件。
在特定具体实施中,测序系统1900A被配置为在生物传感器1912内进行大量平行反应。生物传感器1912包括可发生所需反应的一个或多个反应位点。反应位点可例如固定至生物传感器的固体表面或固定至位于生物传感器的对应反应室内的小珠(或其他可移动基板)。反应位点可包括,例如,克隆扩增核酸的簇。生物传感器1912可包括固态成像设备(例如,CCD或CMOS成像器)和安装到其上的流通池。流通池可包括一个或多个流动通道,该一个或多个流动通道从测序系统1900A接收溶液并且将溶液引向反应位点。任选地,生物传感器1912可被配置为接合热元件,以用于将热能传递到流动通道中或从流动通道传递出去。
测序系统1900A可包括彼此相互作用以执行用于生物或化学分析的预定方法或测定方案的各种部件、组件和系统(或子系统)。例如,测序系统1900A包括系统控制器1906,该系统控制器可与测序系统1900A的各种部件、组件和子系统以及生物传感器1912通信。例如,除了系统插座1910之外,测序系统1900A还可包括流体控制系统1908以控制流体在测序系统1900A和生物传感器1912的整个流体网络中的流动;流体储存系统1914,该流体储存系统被配置为保持生物测定系统可使用的所有流体(例如,气体或液体);温度控制系统1904,该温度控制系统可调节流体网络、流体储存系统1914和/或生物传感器1912中流体的温度;以及照明系统1916,该照明系统被配置为照亮生物传感器1912。如上所述,如果将具有生物传感器1912的卡盒装载到系统插座1910中,则该卡盒还可包括流体控制部件和流体储存部件。
还如图所示,测序系统1900A可包括与用户交互的用户界面1918。例如,用户界面1918可包括用于显示或请求来自用户的信息的显示器1920和用于接收用户输入的用户输入设备1922。在一些具体实施中,显示器1920和用户输入设备1922是相同的设备。例如,用户界面1918可包括触敏显示器,该触敏显示器被配置为检测个体触摸的存在并且还识别触摸在显示器上的位置。然而,可使用其他用户输入设备1922,诸如鼠标、触摸板、键盘、小键盘、手持扫描仪、语音识别系统、运动识别系统等。如将在下文更详细地讨论,测序系统1900A可与包括生物传感器1912(例如,呈卡盒的形式)的各种部件通信,以进行所需反应。测序系统1900A还可被配置为分析从生物传感器获得的数据以向用户提供所需信息。
系统控制器1906可包括任何基于处理器或基于微处理器的系统,包括使用微控制器、精简指令集计算机(RISC)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、粗粒度可重构架构(CGRA)、逻辑电路以及能够执行本文所述功能的任何其他电路或处理器。上述示例仅是示例性的,因此不旨在以任何方式限制术语系统控制器的定义和/或含义。在示例性具体实施中,系统控制器1906执行存储在一个或多个存储元件、存储器或模块中的指令集,以便进行获得检测数据和分析检测数据中的至少一者。检测数据可包括多个像素信号序列,使得可在许多碱基检出循环内检测来自数百万个传感器(或像素)中的每个传感器(或像素)的像素信号序列。存储元件可为测序系统1900A内的信息源或物理存储器元件的形式。
指令集可包括指示测序系统1900A或生物传感器1912执行特定操作(诸如本文所述的各种具体实施的方法和过程)的各种命令。指令集可为软件程序的形式,该软件程序可形成有形的一个或多个非暂态计算机可读介质的一部分。如本文所用,术语“软件”和“固件”是可互换的,并且包括存储在存储器中以供计算机执行的任何计算机程序,包括RAM存储器、ROM存储器、EPROM存储器、EEPROM存储器和非易失性RAM(NVRAM)存储器。上述存储器类型仅是示例性的,因此不限制可用于存储计算机程序的存储器类型。
软件可为各种形式,诸如系统软件或应用软件。此外,软件可以是独立程序的集合的形式,或者是较大程序内的程序模块或程序模块的一部分的形式。软件还可包括面向对象编程形式的模块化编程。在获得检测数据之后,检测数据可由测序系统1900A自动处理,响应于用户输入而处理,或者响应于另一处理机提出的请求(例如,通过通信链路的远程请求)而处理。在例示的具体实施中,系统控制器1906包括分析模块1944。在其他具体实施中,系统控制器1906不包括分析模块1944,而是可访问分析模块1944(例如,分析模块1944可单独地托管在云上)。
系统控制器1906可经由通信链路连接到生物传感器1912和测序系统1900A的其他部件。系统控制器1906还可通信地连接到非现场系统或服务器。通信链路可以是硬连线的、有线的或无线的。系统控制器1906可从用户界面1918和用户输入设备1922接收用户输入或命令。
流体控制系统1908包括流体网络,并且被配置为引导和调节一种或多种流体通过流体网络的流动。流体网络可与生物传感器1912和流体储存系统1914流体连通。例如,选定的流体可从流体储存系统1914抽吸并且以受控方式引导至生物传感器1912,或者流体可从生物传感器1912抽吸并且朝向例如流体储存系统1914中的废物储存器引导。虽然未示出,但流体控制系统1908可包括检测流体网络内的流体的流速或压力的流量传感器。传感器可与系统控制器1906通信。
温度控制系统1904被配置为调节流体网络、流体储存系统1914和/或生物传感器1912的不同区域处流体的温度。例如,温度控制系统1904可包括热循环仪,该热循环仪与生物传感器1912对接并且控制沿着生物传感器1912中的反应位点流动的流体的温度。温度控制系统1904还可调节测序系统1900A或生物传感器1912的固体元件或部件的温度。尽管未示出,但温度控制系统1904可包括用于检测流体或其他部件的温度的传感器。传感器可与系统控制器1906通信。
流体储存系统1914与生物传感器1912流体连通,并且可储存用于在其中进行所需反应的各种反应组分或反应物。流体储存系统1914还可储存用于洗涤或清洁流体网络和生物传感器1912以及用于稀释反应物的流体。例如,流体储存系统1914可包括各种储存器,以储存样品、试剂、酶、其他生物分子、缓冲溶液、水性溶液和非极性溶液等。此外,流体储存系统1914还可包括废物储存器,用于接收来自生物传感器1912的废物。在包括卡盒的具体实施中,卡盒可包括流体储存系统、流体控制系统或温度控制系统中的一者或多者。因此,本文所述的与那些系统有关的一个或多个部件可容纳在卡盒外壳内。例如,卡盒可具有各种储存器,以储存样品、试剂、酶、其他生物分子、缓冲溶液、水性溶液和非极性溶液、废物等。因此,流体储存系统、流体控制系统或温度控制系统中的一者或多者可经由卡盒或其他生物传感器与生物测定系统可移除地接合。
照明系统1916可包括光源(例如,一个或多个LED)和用于照亮生物传感器的多个光学部件。光源的示例可包括激光器、弧光灯、LED或激光二极管。光学部件可以是例如反射器、二向色镜、分束器、准直器、透镜、滤光器、楔镜、棱镜、反射镜、检测器等。在使用照明系统的具体实施中,照明系统1916可被配置为将激发光引导至反应位点。作为一个示例,荧光团可由绿色波长的光激发,因此激发光的波长可为大约1932nm。在一个具体实施中,照明系统1916被配置为产生平行于生物传感器1912的表面的表面法线的照明。在另一个具体实施中,照明系统1916被配置为产生相对于生物传感器1912的表面的表面法线成偏角的照明。在又一个具体实施中,照明系统1916被配置为产生具有多个角度的照明,包括一些平行照明和一些偏角照明。
系统插座或接口1910被配置为以机械、电气和流体方式中的至少一种方式接合生物传感器1912。系统插座1910可以将生物传感器1912保持在所需取向,以有利于流体流过生物传感器1912。系统插座1910还可包括电触点,这些电触点被配置为接合生物传感器1912,使得测序系统1900A可与生物传感器1912通信以及/或者向生物传感器1912提供功率。此外,系统插座1910可包括被配置为接合生物传感器1912的流体端口(例如,喷嘴)。在一些具体实施中,生物传感器1912以机械方式、电方式以及流体方式可移除地耦接到系统插座1910。
此外,测序系统1900A可与其他系统或网络或与其他生物测定系统1900A远程通信。由生物测定系统1900A获得的检测数据可存储在远程数据库中。
图19B是可在图19A的系统中使用的系统控制器1906的框图。在一个具体实施中,系统控制器1906包括可彼此通信的一个或多个处理器或模块。处理器或模块中的每一者可包括用于执行特定过程的算法(例如,存储在有形和/或非暂态计算机可读存储介质上的指令)或子算法。系统控制器1906在概念上被示出为模块的集合,但可利用专用硬件板、DSP、处理器等的任何组合来实现。另选地,系统控制器1906可利用具有单个处理器或多个处理器的现成PC来实施,其中功能操作分布在处理器之间。作为进一步的选择,下文所述的模块可利用混合配置来实现,其中某些模块化功能利用专用硬件来执行,而其余模块化功能利用现成PC等来执行。模块还可被实现为处理单元内的软件模块。
在操作期间,通信端口1950可向生物传感器1912(图19A)和/或子系统1908、1914、1904(图19A)传输信息(例如,命令)或从其接收信息(例如,数据)。在具体实施中,通信端口1950可输出多个像素信号序列。通信链路1934可从用户界面1918(图19A)接收用户输入并且将数据或信息传输到用户界面1918。来自生物传感器1912或子系统1908、1914、1904的数据可在生物测定会话期间由系统控制器1906实时处理。除此之外或另选地,数据可在生物测定会话期间临时存储在系统存储器中,并且以比实时或脱机操作更慢的速度进行处理。
如图19B所示,系统控制器1906可包括与主控制模块1924以及中央处理单元(CPU)1952通信的多个模块1926至1948。主控制模块1924可与用户界面1918(图19A)通信。尽管模块1926至1948被示出为与主控制模块1924直接通信,但模块1926至1948也可彼此直接通信,与用户界面1918和生物传感器1912直接通信。另外,模块1926至1948可通过其他模块与主控制模块1924通信。
多个模块1926至1948包括分别与子系统1908、1914、1904和1916通信的系统模块1928至1932、1926。流体控制模块1928可与流体控制系统1908通信,以控制流体网络的阀和流量传感器,从而控制一种或多种流体通过流体网络的流动。流体储存模块1930可在流体量低时或在废物储存器处于或接近容量时通知用户。流体储存模块1930还可与温度控制模块1932通信,使得流体可储存在所需温度下。照明模块1926可与照明系统1916通信,以在方案期间的指定时间照亮反应位点,诸如在已发生所需反应(例如,结合事件)之后。在一些具体实施中,照明模块1926可与照明系统1916通信,从而以指定角度照亮反应位点。
多个模块1926至1948还可包括与生物传感器1912通信的设备模块1936和确定与生物传感器1912相关的识别信息的识别模块1938。设备模块1936可例如与系统插座1910通信以确认生物传感器已与测序系统1900A建立电连接和流体连接。识别模块1938可接收识别生物传感器1912的信号。识别模块1938可使用生物传感器1912的身份来向用户提供其他信息。例如,识别模块1938可确定并且随后显示批号、制造日期或建议与生物传感器1912一起运行的方案。
多个模块1926至1948还包括接收和分析来自生物传感器1912的信号数据(例如,图像数据)的分析模块1944(也称为信号处理模块或信号处理器)。分析模块1944包括用于存储检测/图像数据的存储器(例如,RAM或闪存)。检测数据可包括多个像素信号序列,使得可在许多碱基检出循环内检测来自数百万个传感器(或像素)中的每个传感器(或像素)的像素信号序列。信号数据可被存储用于随后的分析,或者可被传输到用户界面1918以向用户显示所需信息。在一些具体实施中,信号数据可在分析模块1944接收到信号数据之前由固态成像器(例如,CMOS图像传感器)处理。
分析模块1944被配置为在多个测序循环的每个测序循环处从光检测器获得图像数据。图像数据来源于由光检测器检测到的发射信号,并且通过基于神经网络的碱基检出器100处理该多个测序循环的每个测序循环的图像数据,并且在多个测序循环的每个测序循环处针对分析物中的至少一些分析物产生碱基检出。光检测器可以是一个或多个俯视相机的一部分(例如,Illumina的GAIIx的CCD相机从顶部拍摄生物传感器1912上的簇的图像),或者可以是生物传感器1912本身的一部分(例如,Illumina的iSeq的CMOS图像传感器位于生物传感器1912上的簇下面并且从底部拍摄簇的图像)。
光检测器的输出是测序图像,每个测序图像描绘了簇及其周围背景的强度发射。测序图像描绘了由于在测序期间核苷酸掺入序列中而产生的强度发射。强度发射来自相关联的分析物及其周围背景。测序图像存储在存储器1948中。
协议模块1940和协议模块1942与主控制模块1924通信,以在进行预先确定的测定方案时控制子系统1908、1914和1904的操作。协议模块1940和协议模块1942可包括用于指示测序系统1900A根据预先确定的方案执行特定操作的指令集。如图所示,方案模块可以是边合成边测序(SBS)模块1940,该SBS模块被配置为发出用于执行边合成边测序过程的各种命令。在SBS中,监测核酸引物沿核酸模板的延伸,以确定模板中核苷酸的序列。基础化学过程可以是聚合(例如,由聚合酶催化)或连接(例如,由连接酶催化)。在特定的基于聚合酶的SBS具体实施中,以依赖于模板的方式将荧光标记的核苷酸添加至引物(从而使引物延伸),使得对添加至引物的核苷酸的顺序和类型的检测可用于确定模板的序列。例如,为了启动第一SBS循环,可发出命令以将一个或多个标记的核苷酸、DNA聚合酶等递送至/通过容纳有核酸模板阵列的流通池。核酸模板可位于对应的反应位点。其中引物延伸导致标记的核苷酸掺入的那些反应位点可通过成像事件来检测。在成像事件期间,照明系统1916可向反应位点提供激发光。任选地,核苷酸还可以包括一旦将核苷酸添加到引物就终止进一步的引物延伸的可逆终止属性。例如,可以将具有可逆终止子部分的核苷酸类似物添加到引物,使得随后的延伸直到递送解封闭剂以除去该部分才发生。因此,对于使用可逆终止的具体实施,可发出命令以将解封闭剂递送到流通池(在检测发生之前或之后)。可发出一个或多个命令以实现各个递送步骤之间的洗涤。然后可重复该循环n次,以将引物延伸n个核苷酸,从而检测长度为n的序列。示例性测序技术描述于:例如Bentley等人,Nature 4196:193-199(20019);WO 04/0119497;US 7,0197,026;WO91/066719;WO 07/123744;US 7,329,492;US7,211,414;US 7,3119,019;US 7,4019,2191和US 20019/01470190192,这些文献中的每一篇均以引用方式并入本文。
对于SBS循环的核苷酸递送步骤,可一次递送单一类型的核苷酸,或者可递送多种不同的核苷酸类型(例如,A、C、T和G一起)。对于一次仅存在单一类型的核苷酸的核苷酸递送构型,不同的核苷酸不需要具有不同的标记,因为它们可基于个体化递送中固有的时间间隔来区分。因此,测序方法或装置可使用单色检测。例如,激发源仅需要提供单个波长或单个波长范围内的激发。对于其中递送导致多种不同核苷酸同时存在于流通池中的核苷酸递送构型,可基于附着到混合物中相应核苷酸类型的不同荧光标记来区分掺入不同核苷酸类型的位点。例如,可使用四种不同的核苷酸,每种核苷酸具有四种不同荧光团中的一种。在一个具体实施中,可使用在光谱的四个不同区域中的激发来区分四种不同的荧光团。例如,可使用四种不同的激发辐射源。另选地,可使用少于四种不同的激发源,但来自单个源的激发辐射的光学过滤可用于在流通池处产生不同范围的激发辐射。
在一些具体实施中,可在具有四种不同核苷酸的混合物中检测到少于四种不同颜色。例如,核苷酸对可在相同波长下检测,但基于对中的一个成员相对于另一个成员的强度差异,或基于对中的一个成员的导致与检测到的该对的另一个成员的信号相比明显的信号出现或消失的变化(例如,通过化学改性、光化学改性或物理改性)来区分。使用少于四种颜色的检测来区分四种不同核苷酸的示例性装置和方法描述于例如美国专利申请序列号61/19319,294和61/619,19719,这些专利的全文以引用方式并入本文。2012年9月21日提交的美国申请13/624,200也全文以引用方式并入。
多个方案模块还可包括样品制备(或生成)模块1942,该模块被配置为向流体控制系统1908和温度控制系统1904发出命令,以用于扩增生物传感器1912内的产物。例如,生物传感器1912可接合至测序系统1900A。扩增模块1942可向流体控制系统1908发出指令,以将必要的扩增组分递送至生物传感器1912内的反应室。在其他具体实施中,反应位点可能已包含一些用于扩增的组分,诸如模板DNA和/或引物。在将扩增组分递送至反应室之后,扩增模块1942可指示温度控制系统1904根据已知的扩增方案循环通过不同的温度阶段。在一些具体实施中,扩增和/或核苷酸掺入等温进行。
SBS模块1940可发出命令以执行桥式PCR,其中克隆扩增子的簇形成于流通池的通道内的局部区域上。通过桥式PCR产生扩增子后,可将扩增子“线性化”以制备单链模板DNA或sstDNA,并且可将测序引物杂交至侧接感兴趣的区域的通用序列。例如,可如上所述或如下使用基于可逆终止子的边合成边测序方法。
每个碱基检出或测序循环可通过单个碱基延伸sstDNA,这可例如通过使用经修饰的DNA聚合酶和四种类型的核苷酸的混合物来完成。不同类型的核苷酸可具有独特的荧光标记,并且每个核苷酸还可具有可逆终止子,该可逆终止子仅允许在每个循环中发生单碱基掺入。在将单个碱基添加到sstDNA之后,激发光可入射到反应位点上并且可检测荧光发射。在检测后,可从sstDNA化学切割荧光标记和终止子。接下来可为另一个类似的碱基检出或测序循环。在这种测序方案中,SBS模块1940可指示流体控制系统1908引导试剂和酶溶液流过生物传感器1912。可与本文所述的设备和方法一起使用的基于可逆终止子的示例性SBS方法描述于美国专利申请公布号2007/01667019 A1、美国专利申请公布2006/01196*3901 A1、美国专利7,0197,026、美国专利申请公布号2006/0240439 A1、美国专利申请公布号2006/021914714709 A1、PCT公布号WO 019/0619514、美国专利申请公布号20019/014700900 A1、PCT公布号WO 06/019B199和PCT公布号WO 07/014702191,这些专利中的每一篇的全文以引用方式并入本文。用于基于可逆终止子的SBS的示例性试剂描述于US 7,1941,444;US 7,0197,026;US 7,414,14716;US 7,427,673;US 7,1966,1937;US 7,1992,4319和WO 07/14193193619,这些专利中的每一篇的全文以引用方式并入本文。
在一些具体实施中,扩增模块和SBS模块可在单个测定方案中操作,其中例如扩增模板核酸并随后将其在同一盒内测序。
测序系统1900A还可允许用户重新配置测定方案。例如,测序系统1900A可通过用户界面1918向用户提供用于修改所确定的方案的选项。例如,如果确定生物传感器1912将用于扩增,则测序系统1900A可请求退火循环的温度。此外,如果用户已提供对于所选择的测定方案通常不可接受的用户输入,则测序系统1900A可向用户发出警告。
在具体实施中,生物传感器1912包括数百万个传感器(或像素),每个传感器(或像素)在后续的碱基检出循环内生成多个像素信号序列。分析模块1944根据传感器阵列上传感器的逐行和/或逐列位置来检测多个像素信号序列并且将它们归属于对应的传感器(或像素)。
图19C是用于分析来自测序系统1900A的传感器数据(诸如,碱基检出传感器输出)的系统的简化框图。在图19C的示例中,系统包括可配置处理器1946。可配置处理器1946可与由中央处理单元(CPU)1952(即,主机处理器)执行的运行时程序/逻辑1980协调地执行碱基检出器(例如,基于神经网络的碱基检出器100)。测序系统1900A包括生物传感器1912和流通池。流通池可包括一个或多个区块,其中遗传物质的簇暴露于分析物流的序列,该分析物流的序列用于引起簇中的反应以识别遗传物质中的碱基。传感器感测流通池的每个区块中该序列的每个循环的反应以提供区块数据。遗传测序是数据密集型操作,其将碱基检出传感器数据转换为在碱基检出操作期间感测到的遗传物质的每个簇的碱基检出序列。
该示例中的系统包括执行运行时程序/逻辑1980以协调碱基检出操作的CPU1952、用于存储区块数据阵列的序列的存储器1948B、由碱基检出操作产生的碱基检出读段,以及碱基检出操作中使用的其他信息。另外,在该图示中,系统包括存储器1948A,以存储配置文件(或多个文件)诸如FPGA位文件和用于配置和重新配置可配置处理器1946的神经网络的模型参数,并且执行神经网络。测序系统1900A可包括用于配置可配置处理器以及在一些具体实施中的可重构处理器的程序,以执行神经网络。
测序系统1900A通过总线1989耦接到可配置处理器1946。总线1989可使用高通量技术来实现,诸如在一个示例中,总线技术与当前由PCI-SIG(PCI特别兴趣小组)维护和开发的PCIe标准(快速外围组件互连)兼容。同样在该示例中,存储器1948A通过总线1993耦接到可配置处理器1946。存储器1948A可以是设置在具有可配置处理器1946的电路板上的板上存储器。存储器1948A用于由可配置处理器1946高速访问在碱基检出操作中使用的工作数据。总线1993还可使用高通量技术诸如与PCIe标准兼容的总线技术来实现。
可配置处理器,包括现场可编程门阵列FPGA、粗粒度可重构阵列CGRA以及其他可配置和可重构的设备,可被配置为比使用执行计算机程序的通用处理器可能实现的更有效或更快地实现各种功能。可配置处理器的配置涉及编译功能描述以产生有时称为位流或位文件的配置文件,以及将配置文件分发到处理器上的可配置元件。该配置文件通过将电路配置为设置数据流模式、分布式存储器和其他片上存储器资源的使用、查找表内容、可配置逻辑块和可配置执行单元(如乘法累加单元、可配置互连和可配置阵列的其他元件)的操作,来定义要由可配置处理器执行的逻辑功能。如果配置文件可在现场通过改变加载的配置文件而改变,则可配置处理器是可重构的。例如,配置文件可存储在易失性SRAM元件中、非易失性读写存储器元件中以及它们的组合中,分布在可配置或可重构处理器上的可配置元件阵列中。多种可商购获得的可配置处理器适用于如本文所述的碱基检出操作。示例包括Google的Tensor Processing Unit(TPU)TM、机架解决方案(如GX4 Rackmount SeriesTM、GX9 Rackmount SeriesTM)、NVIDIA DGX-1TM、Microsoft的Stratix V FPGATM、Graphcore的Intelligent Processor Unit(IPU)TM、Qualcomm的具有Snapdragon processorsTM的Zeroth PlatformTM、NVIDIA的VoltaTM、NVIDIA的DRIVE PXTM、NVIDIA的JETSON TX1/TX2MODULETM、Intel的NirvanaTM、Movidius VPUTM、Fujitsu DPITM、ARM的DynamicIQTM、IBMTrueNorthTM、具有Testa V100sTM的Lambda GPU服务器、Xilinx AlveoTM U200、XilinxAlveoTM U2190、Xilinx AlveoTM U280、Intel/Altera StratixTM GX2800、Intel/AlteraStratixTM GX2800和Intel StratixTM GX10M。在一些示例中,主机CPU可在与可配置处理器相同的集成电路上实现。
本文所述的具体实施使用可配置处理器1946来实施基于神经网络的碱基检出器100。可配置处理器1946的配置文件可通过使用高级描述语言HDL或寄存器传输级RTL语言规范指定要执行的逻辑功能来实现。可使用被设计用于所选择的可配置处理器的资源来编译规范以生成配置文件。为了生成可能不是可配置处理器的专用集成电路的设计,可编译相同或相似的规范。
因此,在本文所述的所有具体实施中,可配置处理器1946的另选方案包括配置的处理器,该配置的处理器包括专用ASIC或专用集成电路或集成电路组,或片上系统SOC器件,或图形处理单元(GPU)处理器或粗粒度可重构架构(CGRA)处理器,该配置的处理器被配置为执行如本文所述的基于神经网络的碱基检出操作。
一般来讲,如被配置为执行神经网络的运行的本文所述的可配置处理器和配置的处理器在本文中称为神经网络处理器。
在该示例中,可配置处理器1946由使用CPU 1952执行的程序所加载的配置文件配置,或者由在可配置处理器上配置可配置元件1991(例如,配置逻辑块(CLB),诸如查找表(LUT)、触发器、计算处理单元(PMU)和计算存储器单元(CMU)、可配置I/O块、可编程互连)的阵列的其他源配置,以执行碱基检出功能。在该示例中,配置包括数据流逻辑1997,该数据流逻辑耦接到总线1989和1993并且执行用于在碱基检出操作中使用的元件之间分发数据和控制参数的功能。
此外,可配置处理器1946配置有数据流逻辑1997以执行基于神经网络的碱基检出器100。逻辑1997包括多循环执行簇(例如,1979),在该示例中,该多循环执行簇包括执行簇1至执行簇X。可根据涉及操作的所需通量和可配置处理器1946上的可用资源的权衡来选择多循环执行簇的数量。
多循环执行簇通过使用可配置处理器1946上的可配置互连和存储器资源实现的数据流路径1999耦接到数据流逻辑1997。另外,多循环执行簇通过使用例如可配置处理器1946上的可配置互连和存储器资源实施的控制路径1995耦接到数据流逻辑1997,该控制路径提供指示可用执行簇、准备好为基于神经网络的碱基检出器100的运行的执行提供输入单元、准备好为基于神经网络的碱基检出器100提供经训练参数、准备好提供碱基检出分类数据的输出补片的控制信号,以及用于执行基于神经网络的碱基检出器100的其他控制数据。
可配置处理器1946被配置为使用经训练参数来执行基于神经网络的碱基检出器100的运行,以产生用于碱基检出操作的感测循环的分类数据。执行基于神经网络的碱基检出器100的运行,以产生用于碱基检出操作的受试者感测循环的分类数据。基于神经网络的碱基检出器100的运行对序列(包括来自N个感测循环的相应感测循环的区块数据的数字N个阵列)进行操作,其中N个感测循环在本文所述示例中针对时间序列中每个操作的一个碱基位置提供用于不同碱基检出操作的传感器数据。任选地,如果需要,根据正在执行的特定神经网络模型,N个感测循环中的一些可能会失序。数字N可以是大于1的任何数字。在本文所述的一些示例中,N个感测循环中的感测循环表示时间序列中受试者感测循环之前的至少一个感测循环和受试者循环(subject cycle)之后的至少一个感测循环的一组感测循环。本文描述了其中数字N为等于或大于五的整数的示例。
数据流逻辑1997被配置为使用用于给定运行的输入单元将区块数据和模型参数的至少一些经训练参数从存储器1948A移动到用于基于神经网络的碱基检出器100的运行的可配置处理器1946,该输入单元包括用于N个阵列的空间对准的补片的区块数据。输入单元可通过一个DMA操作中的直接存储器存取操作来移动,或者在可用时隙期间与所部署的神经网络的执行相协调地移动的较小单元中移动。
如本文所述的用于感测循环的区块数据可包括具有一个或多个特征的传感器数据阵列。例如,传感器数据可包括两个图像,对这两个图像进行分析以识别在DNA、RNA或其他遗传物质的遗传序列中的碱基位置处的四种碱基中的一种。区块数据还可包括关于图像和传感器的元数据。例如,在碱基检出操作的具体实施中,区块数据可包括关于图像与簇的对准的信息,诸如距中心距离的信息,该距离指示传感器数据阵列中的每个像素距区块上遗传物质的簇的中心的距离。
在如下所述执行基于神经网络的碱基检出器100期间,区块数据还可包括在执行基于神经网络的碱基检出器100期间产生的数据,被称为中间数据,该中间数据可在基于神经网络的碱基检出器100的运行期间被重复使用而不是重新计算。例如,在执行基于神经网络的碱基检出器100期间,数据流逻辑1997可将中间数据代替用于区块数据阵列的给定补片的传感器数据写入到存储器1948A。下文更详细地描述了类似于此的具体实施。
如图所示,描述了用于分析碱基检出传感器输出的系统,该系统包括可由运行时程序/逻辑1980访问的存储器(例如,1948A),该存储器存储区块数据,该区块数据包括来自碱基检出操作的感测循环的区块的传感器数据。另外,该系统包括神经网络处理器,诸如可访问存储器的可配置处理器1946。神经网络处理器被配置为使用经训练参数来执行神经网络的运行,以产生用于感测循环的分类数据。如本文所述,神经网络的运行对来自N个感测循环的相应感测循环(包括受试者循环)的区块数据的N个阵列的序列进行操作,以产生受试者循环的分类数据。提供数据流逻辑1997以使用输入单元(包括来自N个感测循环的相应感测循环的N个阵列的空间对准补片的数据)将区块数据和经训练参数从存储器移动到神经网络处理器以用于神经网络的运行。
另外,描述了一种系统,其中神经网络处理器可访问存储器,并且包括多个执行簇,所述多个执行簇中的执行簇被配置为执行神经网络。数据流逻辑1997可访问存储器和多个执行簇中的执行簇,以将区块数据的输入单元提供给所述多个执行簇中的可用执行簇,该输入单元包括来自相应感测循环(包括受试者感测循环)的区块数据阵列的数字N个空间对准补片,并且使执行簇将N个空间对准补片应用于神经网络以产生用于受试者感测循环的空间对准补片的分类数据的输出补片,其中N大于1。
图20A是示出碱基检出操作的各方面的简化图,该操作包括由主机处理器执行的运行时程序(例如,运行时逻辑1980)的功能。在该图中,来自流通池的图像传感器的输出在线2000上提供给图像处理线程2001,该图像处理线程可对图像执行处理,诸如各个区块的传感器数据阵列中的对准和布置以及图像的重采样,并且可由为流通池中的每个区块计算区块簇掩膜的过程使用,该过程识别与流通池的对应区块上的遗传物质的簇对应的传感器数据阵列中的像素。根据碱基检出操作的状态,图像处理线程2001的输出在线2002上提供给CPU中的调度逻辑2003,该调度逻辑将区块数据阵列在高速总线2004上路由到数据高速缓存2005(例如,SSD存储装置),或者在高速总线2006上路由到神经网络处理器硬件2007,诸如图19C的可配置处理器1946。经处理和变换的图像可存储在数据高速缓存2005上,以用于先前使用的感测循环。硬件2007将由神经网络输出的分类数据返回到调度逻辑2003,该调度逻辑将信息传递到数据高速缓存2005,或者在线2008上传递到使用分类数据执行碱基检出和质量得分计算的线程2009,并且可以标准格式布置用于碱基检出读段的数据。在线2010上将执行碱基检出和质量得分计算的线程2009的输出提供给线程2011,该线程聚合碱基检出读段,执行其他操作诸如数据压缩,并且将所得的碱基检出输出写入指定目的地以供客户利用。
在一些具体实施中,主机可包括执行硬件2007的输出的最终处理以支持神经网络的线程(未示出)。例如,硬件2007可提供来自多簇神经网络的最终层的分类数据的输出。主机处理器可对分类数据执行输出激活功能诸如softmax函数,以配置供碱基检出和质量评分线程2002使用的数据。另外,主机处理器可执行输入操作(未示出),诸如在输入到硬件2007之前对区块数据进行批量归一化。
图20B是可配置处理器1946诸如图19C的可配置处理器的配置的简化图。在图20B中,可配置处理器1946包括具有多个高速PCIe接口的FPGA。FPGA配置有封装器2090,该封装器包括参考图19C描述的数据流逻辑1997。封装器2090通过CPU通信链路2077来管理与CPU中的运行时程序的接口和协调,并且经由DRAM通信链路2097来管理与板载DRAM 2099(例如,存储器1448A)的通信。封装器2090中的数据流逻辑1997将通过遍历板载DRAM 2099上的数字N个循环的区块数据阵列而检索到的补片数据提供到簇2085,并且从簇2085检索过程数据2087以递送回板载DRAM 2099。封装器2090还管理板载DRAM 2099和主机存储器之间的数据传输,以用于区块数据的输入阵列和分类数据的输出补片两者。封装器将线2083上的补片数据传输到分配的簇2085。封装器在线2081上将经训练参数诸如权重和偏置提供到从板载DRAM 2099检索的簇2085。封装器在线2079上将配置和控制数据提供到簇2085,该簇经由CPU通信链路2077从主机上的运行时程序提供或响应于该运行时程序而生成。簇还可在线2089上向封装器2090提供状态信号,该状态信号与来自主机的控制信号协作使用,以管理区块数据阵列的遍历,从而提供空间对准的补片数据,并且使用簇2085的资源对补片数据执行多循环神经网络。
如上所述,在由封装器2090管理的单个可配置处理器上可存在多个簇,所述多个簇被配置用于在区块数据的多个补片的对应补片上执行。每个簇可被配置为使用本文所述的多个感测循环的区块数据来提供受试者感测循环中的碱基检出的分类数据。
在系统的示例中,可将模型数据(包括内核数据,如过滤器权重和偏置)从主机CPU发送到可配置处理器,使得模型可根据循环数进行更新。举一个代表性示例,碱基检出操作可包括大约数百个感测循环。在一些具体实施中,碱基检出操作可包括双端读段。例如,模型训练参数可以每20个循环(或其他数量的循环)更新一次,或者根据针对特定系统和神经网络模型实现的更新模式来更新。在包括双端读段的一些具体实施中,其中区块上的遗传簇中的给定字符串的序列包括从第一末端沿字符串向下(或向上)延伸的第一部分和从第二末端沿字符串向上(或向下)延伸的第二部分,可在从第一部分到第二部分的过渡中更新经训练参数。
在一些示例中,可将区块的感测数据的多个循环的图像数据从CPU发送到封装器2090。封装器2090可任选地对感测数据进行一些预处理和转换,并且将信息写入板载DRAM2099。每个感测循环的输入区块数据可包括传感器数据阵列,包括每个感测循环每个区块大约4000×3000个像素或更多,其中两个特征表示区块的两个图像的颜色,并且每个特征每个像素一个或两个字节。对于其中数字N为要在多循环神经网络的每个运行中使用的三个感测循环的具体实施,用于多循环神经网络的每个运行的区块数据阵列可消耗每个区块大约数百兆字节。在系统的一些具体实施中,区块数据还包括每个区块存储一次的距簇中心的距离(DFC)数据的阵列,或关于传感器数据和区块的其他类型的元数据。
在操作中,当多循环簇可用时,封装器将补片分配给簇。封装器在区块的遍历中获取区块数据的下一个补片,并将其连同适当的控制和配置信息一起发送到所分配的簇。簇可被配置为在可配置处理器上具有足够的存储器,以保存包括来自一些系统中的多个循环的补片且正被就地处理的数据补片,以及当在各种具体实施中使用乒乓缓冲技术或光栅扫描技术完成对当前补片的处理时将被处理的数据补片。
当分配的簇完成其对当前补片的神经网络的运行并产生输出补片时,其将发信号通知封装器。封装器将从分配的簇读取输出补片,或者另选地,分配的簇将数据推送到封装器。然后,封装器将为DRAM 2099中的经处理区块组装输出补片。当整个区块的处理已完成并且数据的输出补片已传输到DRAM时,封装器将区块的经处理输出阵列以指定格式发送回主机/CPU。在一些具体实施中,板载DRAM 2099由封装器2090中的存储器管理逻辑管理。运行时程序可控制测序操作,以连续流的方式完成运行中所有循环的区块数据的所有阵列的分析,从而提供实时分析。
图21示出了所公开的数据流逻辑的另一个具体实施,该数据流逻辑使得在第一碱基检出迭代期间生成的压缩的空间图在第二碱基检出迭代期间从片外存储器2116(例如,片外DRAM、主机RAM、主机高带宽存储器(HBM))可用。
在一个具体实施中,附接到主机处理器(例如,CPU 1952)的主机存储器(例如,存储器1948B)被配置为在测序运行进行时接收测序图像2102的进展。可配置处理器(例如,可配置处理器1946)具有处理单元阵列。处理单元阵列中的处理单元被配置为执行基于神经网络的碱基检出器100以产生碱基检出预测。数据流逻辑1997可以访问主机存储器、主机处理器和可配置处理器。对于第一碱基检出迭代,数据流逻辑1997在可配置处理器上从主机存储器加载测序循环的第一窗口(例如,图1A中的测序循环1至5)中的测序循环的测序图像。
运行时逻辑1980被配置为使可配置处理器的处理单元逐个循环地对测序图像2102执行基于神经网络的碱基检出器100的空间网络104,并且针对测序循环的第一窗口中的测序循环中的每一个测序循环生成空间特征图集2106。在一个具体实施中,运行时逻辑1980在从测序图像2102分区块的补片2104上并行地执行基于神经网络的碱基检出器100的多个处理簇。多个处理簇逐个补片地2105在补片2104上应用空间网络104。
运行时逻辑1980被配置为使可配置处理器的处理单元逐个循环地在空间特征图集2106上执行基于神经网络的碱基检出器100的压缩网络108,并且生成压缩的空间特征图集2107,并且通过时间网络160和输出网络190处理压缩的空间特征图集2107,以在测序循环的第一窗口中产生一个或多个测序循环的碱基检出预测2111。时间网络160生成时间特征图2108。输出网络190生成碱基检出分类得分2110(例如,非归一化的逐个碱基得分)。在一个具体实施中,压缩的空间特征图集2107存储在片外存储器2116上。
在一个具体实施中,数据流逻辑1997被配置为将压缩的空间特征图集2107移动到主机存储器2116,并且用压缩的空间特征图集2107重写对应的测序图像2102。在其他具体实施中,补片2104中的对应的补片由压缩的空间特征图集2107替换。
对于第二碱基检出迭代以及对于与测序循环的第一窗口共享一个或多个重叠的测序循环(例如,测序循环2至5)并且具有至少一个非重叠测序循环(例如,测序循环6)的测序循环的第二窗口(例如,图2A中的测序循环2至6),数据流逻辑1997被配置为在可配置处理器上从主机存储器加载重叠的测序循环的压缩的空间特征图集2126,以及非重叠测序循环的测序图像2122(或补片2124)。
运行时逻辑1980被配置为使可配置处理器的处理单元针对非重叠测序循环在测序图像2122上执行空间网络104并且针对非重叠测序循环生成空间特征图集2126。在一个具体实施中,多个处理簇逐个补片地2125在补片2124上应用空间网络104。
运行时逻辑1980被配置为使可配置处理器的处理单元在空间特征图集2126上执行压缩网络108并且针对非重叠测序循环生成压缩的空间特征图集2127,并且通过时间网络160和输出网络190处理重叠测序循环的压缩的空间特征图集2126和非重叠测序循环的压缩的空间特征图集2127,以针对测序循环的第二窗口中的一个或多个测序循环产生碱基检出预测2131。时间网络160生成时间特征图2128。输出网络190生成碱基检出分类得分2129(例如,非归一化的逐个碱基得分)。在一个具体实施中,压缩的空间特征图集2127存储在片外存储器2116上。
图22示出了所公开的数据流逻辑的一个具体实施,该数据流逻辑使得在第一碱基检出迭代期间生成的压缩的空间图在第二碱基检出迭代期间从片上存储器2216(例如,处理器存储器,如经由互连器附接到处理器的片上DRAM、片上SRAM、片上BRAM、DRAM)可用。在图22中,压缩的空间特征图集2107和压缩的空间特征图集2127存储在片上存储器2216上。同样在图22中,数据流逻辑1997被配置为在可配置处理器上从片上存储器2216加载重叠的测序循环的压缩的空间特征图集2126。
拆分架构
图23示出了基于神经网络的碱基检出器100的所谓的拆分架构的一个具体实施。如上所述,空间卷积网络104被配置为通过空间卷积层的相应的序列2301、2302、2303、2304和2405分别对每循环测序图像集的窗口中的相应的每循环测序图像集进行卷积,逐个循环地处理用于测序运行的一系列测序循环(循环N+2、N+1、N、N-1和N-2)的每循环测序图像集的窗口,以针对该一系列测序循环中的相应的测序循环生成相应的每循环空间特征图集。例如,空间卷积层的5个序列2301、2302、2303、2304和2405中的每一者具有7个空间卷积层(即,图23中的层L1至层L7)。
空间卷积层的相应的序列2301、2302、2303、2304和2405具有空间卷积滤波器组的相应的序列(例如,包括空间卷积层的序列2301的空间卷积滤波器组2310、2311、2312、2313、2314、2315和2316的序列)。在一个具体实施中,空间卷积滤波器组的相应的序列的空间卷积滤波器组中的空间卷积滤波器的经训练系数(或权重)在空间卷积层的相应的序列中的空间卷积层的序列之间变化。
例如,空间卷积层序列2301、2302、2303、2304和2405配置有具有不同经训练系数的卷积滤波器。在另一示例中,对应级别的空间卷积层中的卷积滤波器具有不同的经训练系数(例如,空间卷积层的五个序列2301、2302、2303、2304和2405的相应的第三空间卷积层中的卷积滤波器组2382、2383、2384、2385和2312)。
时间卷积网络160被配置为通过使用第一时间卷积层2320的相应的时间卷积滤波器组2321、2322和2323对每循环空间特征图集中的每循环空间特征图集的相应的重叠组(例如,组2360、2361和2362)进行卷积来按组处理每循环空间特征图集,以针对每循环空间特征图集的相应的重叠组生成相应的每组时间特征图集。在一个具体实施中,相应的时间卷积滤波器组中的时间卷积滤波器的经训练系数(或权重)在相应的时间卷积滤波器组中的时间卷积滤波器组2321、2322和2323之间变化。
跳跃架构
图24A描绘了经由特征图加法在下游再注入先前信息的残差(或跳跃)连接。残差连接包括通过将过去的输出张量添加到稍后输出张量来将先前表示再注入到下游数据流中,这有助于防止沿着数据处理流的信息损失。残差连接解决了困扰任何大规模深度学习模型的两个常见问题:消失梯度和表示瓶颈。
残差连接包括将较早层的输出作为输入用于稍后层,从而在顺序网络中有效地创建快捷方式。较早输出与稍后激活相加,而不是连接到稍后激活,这假设两个激活的尺寸相同。如果它们具有不同的尺寸,那么可以使用线性变换以将较早激活重塑为目标形状。
图24B描绘了残差块和跳跃连接的一个具体实施。残差网络堆叠多个残差单元,以缓解训练准确度的劣化。残差块利用特殊加性跳跃连接来减轻深度神经网络中的消失梯度。在残差块开始时,数据流被分成两个流:第一流携带块的不变输入,而第二流应用权重和非线性。在块结束时,使用逐元素求和来合并两个流。此类构造的主要优点是允许梯度更容易地流过网络。
配置有残差网络,在一些具体实施中,基于神经网络的碱基检出器100容易训练,并且对于图像分类和对象检测可以实现提高的准确度。基于神经网络的碱基检出器100将lth层的输出作为输入连接到(l+1)th层,这引起以下层转换:xl=Hl(xl-1)。残差块添加跳跃连接,该跳跃连接利用恒等函数绕过非线性变换:xl=Hl(xl-1)+xl-1。残差块的优点是梯度可以直接通过恒等函数从稍后层流到较早层(例如,空间卷积层和时间卷积层)。恒等函数和Hl的输出通过求和(加法)组合。
图24C示出了基于神经网络的碱基检出器100的残差架构,其中空间卷积层被分组为具有跳跃连接的残差块。在其他具体实施中,基于神经网络的碱基检出器100的时间卷积层被分组为具有跳跃连接的残差块。
在图24C所示的具体实施中,第二空间卷积层和第三空间卷积层被分组为第一残差块2412;第四空间卷积层和第五空间卷积层被分组为第二残差块2422;并且第六空间卷积层和第七空间卷积层被分组为第三残差块2432。
图25A示出了基于神经网络的碱基检出器100的总线网络的细节。在一个具体实施中,总线网络的给定残差块2585包括一组空间卷积层2590和2592。该组空间卷积层中的第一空间卷积层2590接收由不是给定残差块2585的一部分的在前空间卷积层(例如,空间网络104中的第一空间卷积层2590之前的零空间卷积层)生成的在前输出2586作为输入。第一空间卷积层2590处理在前输出2586并且生成第一输出2591。在第一空间卷积层2590之后的该组空间卷积层中的第二空间卷积层2592接收第一输出2591,处理第一输出2591并且生成第二输出2593。在一个具体实施中,第一空间卷积层2590具有生成第一输出2591的非线性激活函数,如ReLU。在另一个具体实施中,第二空间卷积层2592缺少非线性激活函数。
跳跃连接2589将在前输出2586提供给加法器2594。加法器2594还从第二空间卷积层2592接收第二输出2593。加法器2594将在前输出2586和第二输出2593进行组合,并且生成求和输出2595。求和输出2595通过非线性激活如ReLU被进一步处理,以生成最终的求和输出2587。在一些具体实施中,最终的求和输出2587然后作为输入被馈送到随后的残差块。在一些具体实施中,在前输出2586被修改为与第二输出2593维数兼容。例如,在前输出2586中的特征图的边缘被修整以产生与第二输出2593中的特征图具有相同的空间维数的特征图。
图25B示出了所公开的总线网络的示例性操作。在一个具体实施中,总线网络被配置为在空间卷积层的相应的序列内的空间卷积层之间形成总线(例如,2516、2526、2536、2602、2604、2702和2712)。该总线被配置为使由空间卷积层的特定序列中的两个或更多个空间卷积层针对特定测序循环生成的相应的每循环空间特征图集组合成组合的每循环空间特征图集,并且将该组合的每循环空间特征图集作为输入提供给空间卷积层的特定序列中的另一个空间卷积层。
例如,考虑第一残差块2412。在此,两个或更多个空间卷积层包括第一空间卷积层和第三空间卷积层。第一空间卷积层生成第一每循环空间特征图集2520。第一空间卷积层提供第一每循环空间特征图集2520作为第二空间卷积层的输入。第二空间卷积层处理第一每循环空间特征图集2520并且生成第二每循环空间特征图集2522。第二空间卷积层提供第二每循环空间特征图集2522作为第三空间卷积层的输入。第三空间卷积层处理第二每循环空间特征图集2522并且生成第三每循环空间特征图集2524。总线(例如,跳跃总线2519)进一步被配置为使第一空间特征图集2520和第三每循环空间特征图集2524组合(例如,由组合器2502求和或级联)成组合的每循环空间特征图集2518。然后,另一个空间卷积层是紧接在空间卷积层的特定序列中的第三空间卷积层之后的第四空间卷积层。第四空间卷积层处理组合的每循环空间特征图集2518作为输入。相同的概念类似地应用于第二残差块2422和第三残差块2432,其中2526和2536是跳跃总线如跳跃总线2516,并且使相应的组合器2512和2532生成相应的组合的每循环空间特征图集2528和2538。
图25C示出了维度兼容性逻辑2532的一个具体实施,该维度兼容性逻辑确保在组合之前修改(例如,修整)由跳跃总线提供的传入的特征图以具有与接收的特征图相同的空间维数,传入的特征图与接收的特征图由总线网络的组合器进行组合。
图26示出了所公开的总线网络的另一示例,其中跳跃总线2602将第一空间卷积层的输出与第一残差块的输出组合。图26还示出跳跃总线2604还可以使特征图跨残差块以及跨非连续层(例如,从层1和层5)被组合以生成可以由另一层(例如,至层6)处理的组合的表示。
图27示出了所公开的总线网络的又一示例,其中来自多个连续和/或非连续层(例如,来自层1、组合器2502和组合器2512)的输入和组合的表示可由示例性跳跃总线2702、2604和2712组合以生成可以由另一层(例如,至层6)处理的组合的表示。
图28示出了缩放逻辑2832的一个具体实施,该缩放逻辑在将由跳跃总线提供的传入的特征图与接收的特征图组合之前缩放传入的特征图,传入的特征图与接收的特征图由总线网络的组合器进行组合。缩放逻辑2832所使用的值可以例如为0和1之间的任何值,包括0和1。例如,缩放逻辑可用于衰减或放大传入的特征图的强度/量值/值(例如,特征值(例如,浮点值))。
图29示出了时间网络160的时间卷积层2902、2912、2922、2932、2942、2952、2962和2972之间的跳跃连接的一个具体实施。例如,跳跃连接2922将时间特征图从第一时间卷积层2902提供到第三时间卷积层2932。
图30比较了配置有压缩逻辑108的网络基于网络的碱基检出器100(sqz2碱基检出器)与不带有压缩逻辑108的网络基于网络的碱基检出器100(用作基线神经网络模型)以及Illumina的非基于神经网络的碱基检出器实时分析(RTA)软件)(用作基线传统图像处理模型)的碱基检出性能。如图30中的图所示,sqz2碱基检出器(紫色拟合线)具有比RTA碱基检出器(黑色拟合线)和不带有压缩逻辑108的基于网络的碱基检出器100的两个实例(红色和青色拟合线)更低的碱基检出错误百分比(Y轴上的“错误%”)。
图31示出了通过使用所公开的压缩逻辑108所带来的RAM和DRAM使用中的节省。
图32比较了配置有拆分和跳过架构(split_res)的网络基于网络的碱基检出器100与RTA碱基检出器以及不带有拆分和跳跃架构(蒸馏)的另一版本的网络基于网络的碱基检出器100的碱基检出性能。如图32中的图所示,split_res碱基检出器(橙色拟合线)具有比RTA碱基检出器(蓝色拟合线)低的碱基检出错误百分比(Y轴上的“错误计数”)。
如本文所用的“逻辑”(例如,数据流逻辑)可以计算机产品的形式实施,该计算机产品包括具有用于执行本文所述的方法步骤的计算机可用程序代码的非暂态计算机可读存储介质。“逻辑”可以用包括存储器和至少一个处理器的装置的形式来实施,该至少一个处理器耦合到存储器并且可操作来执行示例性方法步骤。“逻辑”可以用于执行本文所述的一个或多个方法步骤的装置的形式来实施;该装置可包括(i)硬件模块,(ii)在一个或多个硬件处理器上执行的软件模块,或(iii)硬件和软件模块的组合;(i)至(iii)中的任何一个实施本文所阐述的特定技术,并且软件模块被存储在计算机可读存储介质(或多个此类介质)中。在一个具体实施中,逻辑实施数据处理功能。逻辑可以是具有指定功能的计算机程序的通用、单核或多核处理器,具有计算机程序的数字信号处理器,可配置逻辑诸如具有配置文件的FPGA,专用电路诸如状态机,或这些的任何组合。此外,计算机程序产品可以体现逻辑的计算机程序和配置文件部分。
图33是可由测序系统1900A用来实施本文所公开的碱基检出技术的计算机系统3300。计算机系统3300包括经由总线子系统3355与多个外围设备通信的至少一个中央处理单元(CPU)3372。这些外围设备可包括存储子系统3358,该存储子系统包括例如存储器设备和文件存储子系统3336、用户界面输入设备3338、用户界面输出设备3376和网络接口子系统3374。输入和输出设备允许用户与计算机系统3300进行交互。网络接口子系统3374提供到外部网络的接口,包括提供到其他计算机系统中的对应接口设备的接口。
在一个具体实施中,系统控制器1906可通信地链接到存储子系统3310和用户界面输入设备3338。
用户界面输入设备3338可包括:键盘;指向设备,诸如鼠标、轨迹球、触摸板或图形输入板;扫描仪;结合到显示器中的触摸屏;音频输入设备,诸如语音识别系统和麦克风;以及其他类型的输入设备。一般来讲,使用术语“输入设备”旨在包括将信息输入到计算机系统3300中的所有可能类型的设备和方式。
用户界面输出设备3376可包括显示子系统、打印机、传真机或非视觉显示器诸如音频输出设备。显示子系统可包括LED显示器、阴极射线管(CRT)、平板设备诸如液晶显示器(LCD)、投影设备或用于产生可见图像的一些其他机构。显示子系统还可提供非视觉显示器,诸如音频输出设备。一般来讲,使用术语“输出设备”旨在包括将信息从计算机系统3300输出到用户或输出到另一机器或计算机系统的所有可能类型的设备和方式。
存储子系统3358存储提供本文所述的模块的一些或全部功能和方法的编程和数据构造。这些软件模块通常由深度学习处理器3378执行。
深度学习处理器3378可以是图形处理单元(GPU)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)和/或粗粒度可重构架构(CGRA)。深度学习处理器3378可以由深度学习云平台诸如Google Cloud PlatformTM、XilinxTM和CirrascaleTM托管。深度学习处理器3378的示例包括Google的Tensor Processing Unit(TPU)TM、机架解决方案(如GX4RackmountSeriesTM、GX33 Rackmount SeriesTM)、NVIDIA DGX-1TM、Microsoft的Stratix V FPGATM、Graphcore的Intelligent Processor Unit(IPU)TM、Qualcomm的具有SnapdragonprocessorsTM的Zeroth PlatformTM、NVIDIA的VoltaTM、NVIDIA的DRIVE PXTM、NVIDIA的JETSON TX1/TX2 MODULETM、Intel的NirvanaTM、Movidius VPUTM、Fujitsu DPITM、ARM的DynamicIQTM、IBM TrueNorthTM、具有Testa V100sTM的Lambda GPU服务器、SambaNova的可重构数据流单元(RDU)TM等。
在存储子系统3358中使用的存储器子系统3322可包括多个存储器,包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)3332和其中存储固定指令的只读存储器(ROM)3334。文件存储子系统3336可以为程序文件和数据文件提供持久性存储,并且可包括硬盘驱动器、软盘驱动器以及相关联的可移动介质、CD-ROM驱动器、光盘驱动器或可移动介质磁带盘。实现某些具体实施的功能的模块可由文件存储子系统3336存储在存储子系统3358中,或存储在处理器可访问的其他机器中。
总线子系统3355提供用于使计算机系统3300的各种部件和子系统按照预期彼此通信的机构。尽管总线子系统3355被示意性地示出为单个总线,但总线子系统的另选具体实施可使用多条总线。
计算机系统3300本身可具有不同类型,包括个人计算机、便携式计算机、工作站、计算机终端、网络计算机、电视机、主机、服务器群、一组广泛分布的松散联网的计算机或任何其他数据处理系统或用户设备。由于计算机和网络的不断变化的性质,对图33中描绘的计算机系统3300的描述仅旨在作为用于示出本发明的优选具体实施的具体示例。计算机系统3300的许多其他配置是可能的,其具有比图33中描绘的计算机系统更多或更少的部件。
条款
本发明公开了以下条款:
压缩(挤压)
1.一种基于人工智能的碱基检出方法,所述方法包括:
访问针对测序运行的测序循环生成的一系列每循环分析物通道集;
通过基于神经网络的碱基检出器的空间网络处理用于所述测序运行的测序循环的第一窗口的所述系列中的每循环分析物通道集的第一窗口,并且针对测序循环的所述第一窗口中的相应的测序循环生成空间输出集的相应的序列;
通过所述基于神经网络的碱基检出器的压缩网络处理空间输出集的所述相应的序列中的相应的最终的空间输出集,并且针对测序循环的所述第一窗口中的所述相应的测序循环生成相应的压缩的空间输出集;以及
基于所述相应的压缩的空间输出集,针对测序循环的所述第一窗口中的一个或多个测序循环生成碱基检出预测。
2.根据条款1所述的基于人工智能的方法,其中所述相应的最终的空间输出集具有M个通道(特征图),其中所述相应的压缩空间输出集具有N个通道(特征图),并且其中M>N。
3.根据条款1所述的基于人工智能的方法,还包括:
对于所述测序运行的测序循环的第二窗口,所述第二窗口与测序循环的所述第一窗口共享所述空间网络先前为其生成空间输出集的一个或多个重叠的测序循环和所述空间网络尚未为其生成空间输出集的至少一个非重叠测序循环,
通过所述空间网络仅针对所述非重叠测序循环处理每循环分析物通道集,并且针对所述非重叠测序循环生成空间输出集序列,从而绕过通过所述空间网络针对所述重叠的测序循环重新处理相应的每循环分析物通道集;
通过所述压缩网络处理所述空间输出集序列中的最终的空间输出集,并且针对所述非重叠测序循环生成压缩的空间输出集,其中所述最终的空间输出具有M个通道(特征图),其中所述压缩的空间输出具有N个通道(特征图),并且其中M>N;以及
基于先前针对测序循环的所述第一窗口生成的所述重叠的测序循环的相应的压缩的空间输出集并且基于所述压缩的空间输出集来生成针对测序循环的所述第二窗口中的一个或多个测序循环的碱基检出预测,从而将所述重叠的测序循环的所述相应的压缩的空间输出集替换为所述重叠的测序循环的所述相应的每循环分析物通道集。
4.根据条款3所述的基于人工智能的方法,还包括:
对于所述测序运行的测序循环的第三窗口,所述第三窗口与测序循环的所述第一窗口和所述第二窗口共享所述空间网络先前为其生成空间输出集的一个或多个重叠的测序循环和所述空间网络尚未为其生成空间输出集的至少一个非重叠测序循环,
通过所述空间网络仅针对所述非重叠测序循环处理每循环分析物通道集,并且针对所述非重叠测序循环生成空间输出集序列,从而绕过通过所述空间网络针对所述重叠的测序循环重新处理相应的每循环分析物通道集;
通过所述压缩网络处理所述空间输出集序列中的最终的空间输出集,并且针对所述非重叠测序循环生成压缩的空间输出集,其中所述最终的空间输出具有M个通道(特征图),其中所述压缩的空间输出具有N个通道(特征图),并且其中M>N;以及
基于先前针对测序循环的所述第一窗口和所述第二窗口生成的所述重叠的测序循环的相应的压缩的空间输出集并且基于所述压缩的空间输出集来生成针对测序循环的所述第三窗口中的一个或多个测序循环的碱基检出预测,从而将所述重叠的测序循环的所述相应的压缩的空间输出集替换为所述重叠的测序循环的所述相应的每循环分析物通道集。
5.根据条款1所述的基于人工智能的方法,其中所述系列中的每个每循环分析物通道集描绘了在所述测序运行中的对应的测序循环中响应于分析物中的核苷酸掺入而记录的强度。
6.根据条款5所述的基于人工智能的方法,其中所述空间网络具有空间卷积层序列,所述空间卷积层序列针对所述测序运行的测序循环的特定窗口分别处理所述系列中的每循环分析物通道集的特定窗口中的每循环分析物通道集,并且针对测序循环的所述特定窗口中的每个测序循环产生空间输出集序列,包括从第一空间卷积层开始,所述第一空间卷积层仅在目标测序循环的每循环分析物通道集内而不在测序循环的所述特定窗口中的不同测序循环的每循环分析物通道集之间组合强度,并且继续后续空间卷积层,所述后续空间卷积层仅在目标测序循环内而不在测序循环的所述特定窗口中的所述不同的测序循环之间组合在前空间卷积层的空间输出。
7.根据条款6所述的基于人工智能的方法,其中所述空间卷积层序列中的相应的空间卷积层具有不同计数的卷积滤波器,其中所述空间卷积层序列中的最终的空间卷积层具有M个卷积滤波器,并且其中M为大于四的整数。
8.根据条款7所述的基于人工智能的方法,其中所述空间卷积层序列中的相应的空间卷积层具有相同计数的卷积滤波器,其中所述相同计数为M,并且其中M为大于四的整数。
9.根据条款8所述的基于人工智能的方法,其中所述空间网络中的所述卷积滤波器使用二维(2D)卷积。
10.根据条款8所述的基于人工智能的方法,其中所述空间网络中的所述卷积滤波器使用三维(3D)卷积。
11.根据条款6所述的基于人工智能的方法,其中所述基于神经网络的碱基检出器具有时间网络,其中所述时间网络具有时间卷积层序列,所述时间卷积层序列按组处理测序循环的所述特定窗口中的后续测序循环的窗口的相应的压缩的空间输出集,并且针对测序循环的所述特定窗口产生时间输出集的序列,包括从第一时间卷积层开始,所述第一时间卷积层组合测序循环的所述特定窗口中的所述不同的测序循环之间的压缩的空间输出集,并且继续后续时间卷积层,所述后续时间卷积层组合在前时间卷积层的后续时间输出。
12.根据条款11所述的基于人工智能的方法,还包括:
针对测序循环的所述第一窗口,
通过所述时间网络的所述时间卷积层序列中的第一时间卷积层,处理测序循环的所述第一窗口中的后续测序循环的窗口的所述相应的压缩的空间输出集,并且生成测序循环的所述第一窗口的多个时间输出集;
通过所述压缩网络处理所述多个时间输出集,并且为所述多个时间输出集中的相应的时间输出集生成相应的压缩的时间输出集,其中所述相应的时间输出集具有M个通道(特征图),其中所述相应的压缩的时间输出集具有N个通道(特征图),并且其中M>N;
通过所述时间网络的所述时间卷积层序列中的最终的时间卷积层处理所述相应的压缩的时间输出集,并且针对测序循环的所述第一窗口生成最终的时间输出集;以及
基于所述最终的时间输出集,针对测序循环的所述第一窗口中的一个或多个测序循环生成所述碱基检出预测,
其中输出层处理所述最终的时间输出集并且针对测序循环的所述第一窗口产生最终输出,其中基于所述最终输出生成所述碱基检出预测。
13.根据条款12所述的基于人工智能的方法,还包括:
对于测序循环的所述第二窗口,所述第二窗口与测序循环的所述第一窗口共享所述第一时间卷积层先前为其生成时间输出集的后续测序循环的一个或多个重叠窗口和所述第一时间卷积层尚未为其生成时间输出集的后续测序循环的至少一个非重叠窗口,
通过所述第一时间卷积层处理仅针对后续测序循环的所述非重叠窗口中的相应的测序循环的相应的压缩的空间输出集,并且针对后续测序循环的所述非重叠窗口生成时间输出集,从而绕过通过所述第一时间卷积层针对后续测序循环的所述重叠窗口中的相应的测序循环重新处理相应的压缩的空间输出集;
通过所述压缩网络处理所述时间输出集,并且针对后续测序循环的所述非重叠窗口生成压缩的时间输出集,其中所述时间输出集具有M个通道(特征图),其中所述压缩的时间输出具有N个通道(特征图),并且其中M>N;
通过所述最终的时间卷积层处理先前针对测序循环的所述第一窗口并且在所述压缩的时间输出集上生成的后续测序循环的所述重叠窗口的相应的压缩的时间输出集,并且针对测序循环的所述第二窗口生成最终的时间输出集,从而将后续测序循环的所述重叠窗口的所述相应的压缩的时间输出集替换为后续测序循环的所述重叠窗口的所述相应的每循环分析物通道集;以及
基于所述最终的时间输出集,针对测序循环的所述第二窗口中的一个或多个测序循环生成所述碱基检出预测,
其中输出层处理所述最终的时间输出集并且针对测序循环的所述第二窗口产生最终输出,其中基于所述最终输出生成所述碱基检出预测。
14.根据条款13所述的基于人工智能的方法,还包括:
对于测序循环的所述第三窗口,所述第三窗口与测序循环的所述第一窗口和所述第二窗口共享所述第一时间卷积层先前为其生成时间输出集的后续测序循环的一个或多个重叠窗口以及所述第一时间卷积层尚未为其生成时间输出集的后续测序循环的至少一个非重叠窗口,
通过所述第一时间卷积层处理仅针对后续测序循环的所述非重叠窗口中的相应的测序循环的相应的压缩的空间输出集,并且针对后续测序循环的所述非重叠窗口生成时间输出集,从而绕过通过所述第一时间卷积层针对后续测序循环的所述重叠窗口中的相应的测序循环重新处理相应的压缩的空间输出集;
通过所述压缩网络处理所述时间输出集,并且针对后续测序循环的所述非重叠窗口生成压缩的时间输出集,其中所述时间输出集具有M个通道(特征图),其中所述压缩的时间输出具有N个通道(特征图),并且其中M>N;以及
通过所述最终的时间卷积层处理先前针对测序循环的所述第一窗口和所述第二窗口并且在所述压缩的时间输出集上生成的后续测序循环的所述重叠窗口的相应的压缩的时间输出集,并且针对测序循环的所述第三窗口生成最终的时间输出集,从而将后续测序循环的所述重叠窗口的所述相应的压缩的时间输出集替换为后续测序循环的所述重叠窗口的所述相应的每循环分析物通道集;以及
基于所述最终的时间输出集,针对测序循环的所述第三窗口中的一个或多个测序循环生成所述碱基检出预测,
其中输出层处理所述最终的时间输出集并且针对测序循环的所述第三窗口产生最终输出,其中基于所述最终输出生成所述碱基检出预测。
15.根据条款11所述的基于人工智能的方法,其中所述时间网络的所述时间卷积层序列中的相应的时间卷积层具有不同计数的卷积滤波器,其中所述第一时间卷积层具有M个卷积滤波器,并且其中M为大于四的整数。
16.根据条款11所述的基于人工智能的方法,其中所述时间网络的所述时间卷积层序列中的相应的时间卷积层具有相同计数的卷积滤波器,其中所述相同计数为M,并且其中M为大于四的整数。
17.根据条款16所述的基于人工智能的方法,其中所述时间网络中的所述卷积滤波器使用一维(1D)卷积。
18.根据条款1所述的基于人工智能的方法,其中所述压缩网络使用1×1卷积来控制压缩的空间输出集中的多个压缩的空间输出,其中所述压缩网络具有N个卷积滤波器,并且其中N为等于或小于四的整数。
19.根据条款1所述的基于人工智能的方法,还包括使用识别不可靠的分析物的数据来移除压缩的空间输出集中对应于所述不可靠的分析物的压缩的空间输出的部分,并且生成压缩的、滤波后的空间输出集以替换所述压缩的空间输出集,并且仅针对那些不是所述不可靠的分析物的分析物生成碱基检出预测。
20.根据条款19所述的基于人工智能的方法,还包括通过所述时间网络处理压缩的、滤波后的空间输出集而不是对应的压缩的空间输出集。
21.根据条款20所述的基于人工智能的方法,还包括从所述压缩的、滤波后的空间输出集生成压缩的时间输出集。
22.根据条款19所述的基于人工智能的方法,其中识别所述不可靠的分析物的所述数据识别描绘所述不可靠的簇的强度的像素。
23.根据条款19所述的基于人工智能的方法,其中识别所述不可靠的分析物的所述数据识别不描绘任何强度的像素。
24.根据条款20所述的基于人工智能的方法,其中所述压缩的空间输出集的总像素是所述对应的、压缩的、滤波后的空间输出集的四到九倍。
25.根据条款24所述的基于人工智能的方法,其中所述压缩的、滤波后的空间输出集使所述时间网络在减少75%的像素上操作,从而将所述时间网络的计算运算、存储器访问和存储器占用减少75%。
26.根据条款5所述的基于人工智能的方法,其中绕过通过所述空间网络重新处理将所述时间网络的计算运算、存储器访问和存储器占用减少80%。
27.根据条款14所述的基于人工智能的方法,其中绕过通过所述临时网络重新处理减少所述临时网络的计算运算、存储器访问和存储器占用。
28.根据条款27所述的基于人工智能的方法,还包括重新分配由所述压缩网络提供的计算资源,以在所述空间网络和所述时间网络中添加补充卷积滤波器。
29.根据条款27所述的基于人工智能的方法,还包括重新分配由所述压缩网络提供的计算资源,以在用于针对特定序列循环生成碱基检出预测的每循环分析物通道集的每个窗口中添加补充的每循环分析物通道集。
30.根据条款27所述的基于人工智能的方法,还包括重新分配由所述压缩网络提供的计算资源,以在所述空间网络中添加补充的空间卷积层。
31.根据条款27所述的基于人工智能的方法,还包括重新分配由所述压缩网络提供的计算资源,以在所述时间网络中添加补充的时间卷积层。
32.根据条款1所述的基于人工智能的方法,还包括将针对序列循环的一个或多个在前窗口生成的一个或多个压缩的空间输出集与针对序列循环的当前窗口生成的一个或多个压缩的空间输出集结合使用,以针对测序循环的所述当前窗口中的一个或多个测序循环生成碱基检出预测。
33.根据条款1所述的基于人工智能的方法,还包括将针对序列循环的一个或多个后续窗口生成的一个或多个压缩的空间输出集与针对序列循环的当前窗口生成的一个或多个压缩的空间输出集结合使用,以针对测序循环的所述当前窗口中的一个或多个测序循环生成碱基检出预测。
34.根据条款1所述的基于人工智能的方法,还包括将针对序列循环的一个或多个在前窗口生成的一个或多个压缩的时间输出集与针对序列循环的当前窗口生成的一个或多个压缩的时间输出集结合使用来生成针对测序循环的所述当前窗口中的一个或多个测序循环的碱基检出预测。
35.根据条款1所述的基于人工智能的方法,还包括将针对序列循环的一个或多个后续窗口生成的一个或多个压缩的时间输出集与针对序列循环的当前窗口生成的一个或多个压缩的时间输出集结合使用,以针对测序循环的所述当前窗口中的一个或多个测序循环生成碱基检出预测。
36.根据条款1所述的基于人工智能的方法,其中每循环分析物通道集对在所述测序运行期间测序的分析物的分析物数据进行编码。
37.根据条款36所述的基于人工智能的方法,其中所述分析物数据是识别从所述分析物收集的强度发射的图像数据。
38.根据条款37所述的基于人工智能的方法,其中所述图像数据具有多个图像通道(图像)。
39.根据条款38所述的基于人工智能的方法,其中通过(i)用特定激光器照明和(ii)通过特定滤光器成像的组合来生成图像通道(图像)。
40.根据条款36所述的基于人工智能的方法,其中所述分析物数据是基于分析物活性检测的电流和/或电压数据。
41.根据条款36所述的基于人工智能的方法,其中所述分析物数据是基于分析物活性检测的pH标度数据。
42.根据条款1所述的基于人工智能的方法,其中所述系列中的每个每循环分析物通道集中的通道数量确定所述压缩网络中的卷积滤波器的数量,并且因此确定压缩的空间输出集和压缩的时间输出集中的通道数量。
43.根据条款1所述的基于人工智能的方法,其中所述压缩的空间输出集、所述压缩的、滤波后的空间输出集和所述压缩的时间输出集以量化的形式存储。
44.一种系统,所述系统包括:
主机存储器,所述主机存储器被附接到主机处理器并且被配置为在测序运行进行时接收测序图像的进展;
可配置处理器,所述可配置处理器具有处理单元阵列,所述处理单元阵列中的处理单元被配置为执行基于神经网络的碱基检出器以产生碱基检出预测;
数据流逻辑,所述数据流逻辑能够访问所述主机存储器、所述主机处理器,以及所述可配置处理器,并且被配置为在所述可配置处理器上从所述主机存储器加载测序循环的第一窗口中的测序循环的测序图像;
运行时逻辑,所述运行时逻辑被配置为使所述处理单元逐个循环地对测序循环的所述第一窗口中的所述测序循环的所述测序图像执行所述基于神经网络的碱基检出器的空间网络,并且针对测序循环的所述第一窗口中的所述测序循环中的每一个测序循环生成空间特征图集;
所述运行时逻辑被配置为使所述处理单元逐个循环地对所述空间特征图集执行所述基于神经网络的碱基检出器的压缩网络并且生成压缩的空间特征图集,并且通过时间网络和输出网络来处理所述压缩的空间特征图集,以针对测序循环的所述第一窗口中的一个或多个测序循环产生碱基检出预测;
所述数据流逻辑被配置为将所述压缩的空间特征图集移动到所述主机存储器并且用所述压缩的空间特征图集重写所述测序图像;
对于与测序循环的所述第一窗口共享一个或多个重叠的测序循环并且具有至少一个非重叠测序循环的测序循环的第二窗口,所述数据流逻辑被配置为在所述可配置处理器上从所述主机存储器加载所述重叠的测序循环的压缩的空间特征图集,以及所述非重叠测序循环的测序图像;
所述运行时逻辑被配置为使所述处理单元针对所述非重叠测序循环对所述测序图像执行所述空间网络,并且针对所述非重叠测序循环生成空间特征图集;以及
所述运行时逻辑被配置为使所述处理单元对所述空间特征图集执行所述压缩网络并且针对所述非重叠测序循环生成压缩的空间特征图集,并且通过所述时间网络和所述输出网络处理所述重叠测序循环的所述压缩的空间特征图集和所述非重叠测序循环的所述压缩的空间特征图集,以针对测序循环的所述第二窗口中的一个或多个测序循环产生碱基检出预测。
45.一种系统,所述系统包括:
主机存储器,所述主机存储器被附接到主机处理器并且被配置为在测序运行进行时接收测序图像的进展;
可配置处理器,所述可配置处理器具有附接到处理器存储器的处理单元阵列,所述处理单元阵列中的处理单元被配置为执行基于神经网络的碱基检出器以产生碱基检出预测;
数据流逻辑,所述数据流逻辑能够访问所述主机存储器、所述主机处理器、所述可配置处理器,以及所述处理器存储器,并且被配置为在所述可配置处理器上从所述主机存储器加载测序循环的第一窗口中的测序循环的测序图像;
运行时逻辑,所述运行时逻辑被配置为使所述处理单元逐个循环地对测序循环的所述第一窗口中的所述测序循环的所述测序图像执行所述基于神经网络的碱基检出器的空间网络,并且针对测序循环的所述第一窗口中的所述测序循环中的每一个测序循环生成空间特征图集;
所述运行时逻辑被配置为使所述处理单元逐个循环地对所述空间特征图集执行所述基于神经网络的碱基检出器的压缩网络并且生成压缩的空间特征图集,并且通过时间网络和输出网络来处理所述压缩的空间特征图集,以针对测序循环的所述第一窗口中的一个或多个测序循环产生碱基检出预测;
所述数据流逻辑被配置为将所述压缩的空间特征图集移动至所述处理器存储器;
对于与测序循环的所述第一窗口共享一个或多个重叠的测序循环并且具有至少一个非重叠测序循环的测序循环的第二窗口,所述数据流逻辑被配置为在所述可配置处理器上从所述主机存储器加载所述重叠的测序循环的压缩的空间特征图集,并且从所述主机存储器加载所述非重叠测序循环的测序图像;
所述运行时逻辑被配置为使所述处理单元针对所述非重叠测序循环对所述测序图像执行所述空间网络,并且针对所述非重叠测序循环生成空间特征图集;以及
所述运行时逻辑被配置为使所述处理单元对所述空间特征图集执行所述压缩网络并且针对所述非重叠测序循环生成压缩的空间特征图集,并且通过所述时间网络和所述输出网络处理所述重叠测序循环的所述压缩的空间特征图集和所述非重叠测序循环的所述压缩的空间特征图集,以针对测序循环的所述第二窗口中的一个或多个测序循环产生碱基检出预测。
46.一种系统,所述系统包括:
神经网络逻辑,所述神经网络逻辑被配置为执行神经网络图的第一遍历以通过第一处理逻辑独立地处理第一组输入中的相应的输入,并且生成所述第一组输入中的所述相应的输入的相应的另选表示,而不在所述第一组输入中的所述相应的输入之间混合信息,并且基于所述第一组输入中的所述相应的输入的所述相应的另选表示来产生所述第一遍历的输出;
所述神经网络逻辑被配置为执行所述神经网络图的第二遍历以通过所述第一处理逻辑独立地处理第二组输入中的相应的输入,并且生成所述第二组输入中的所述相应的输入的相应的另选表示,而不在所述第二组输入中的所述相应的输入之间混合信息,并且基于所述第二组输入中的所述相应的输入的所述相应的另选表示产生所述第二遍历的输出,其中所述第一组输入和所述第二组输入具有一个或多个重叠输入和至少一个非重叠输入;
运行时逻辑,所述运行时逻辑配置有所述神经网络逻辑以执行所述第一遍历以生成所述第一组输入中的所述相应的输入的所述相应的另选表示,以压缩形式将所述第一组输入中的所述相应的输入的所述相应的另选表示存储在存储器中,并且基于所述第一组输入中的所述相应的输入的所述相应的另选表示的所述压缩形式产生所述第一遍历的所述输出;以及
所述运行时逻辑被配置为执行所述第二遍历以通过所述第一处理逻辑仅处理所述非重叠输入并且生成所述非重叠输入的另选表示,以将所述非重叠输入的所述另选表示以所述压缩形式存储在存储器中,以检索在所述第一遍历中生成的所述重叠输入的相应的另选表示的所述压缩形式,以补偿在所述第二遍历中绕过所述重叠输入的所述相应的另选表示的冗余生成,以及基于所述重叠输入的所述相应的另选表示的所述压缩形式和所述非重叠输入的所述另选表示的所述压缩形式来产生所述第二遍历的所述输出。
47.根据条款46所述的系统,其中所述存储器为片上存储器。
48.根据条款46所述的系统,其中所述存储器为片外存储器。
49.根据条款46所述的系统,其中所述压缩形式的通道的数量对应于所述第一组输入和所述第二组输入中的所述输入中的通道的数量。
50.一种基于人工智能的碱基检出方法,所述方法包括:
访问针对测序运行的测序循环生成的一系列每循环分析物通道集,其中目标每循环分析物通道集对在所述测序运行的目标测序循环中针对分析物检测到的分析物数据进行编码;
通过神经网络的第一处理模块处理所述目标每循环分析物通道集,并且产生具有M个特征图的所述目标每循环分析物通道集的中间表示;
通过所述神经网络的第二处理模块处理所述中间表示,并且产生具有N个特征图的所述目标每循环分析物通道集的简化的中间表示,其中M>N;以及
使用所述目标每循环分析物通道集的所述简化的中间表示,在所述目标测序循环和/或所述测序运行的其他测序循环针对分析物生成碱基检出预测。
51.根据条款50所述的基于人工智能的方法,其中所述第一处理模块是具有M个卷积滤波器的卷积层。
52.根据条款50所述的基于人工智能的方法,其中所述第二处理模块是具有N个卷积滤波器的卷积层。
53.一种基于人工智能的碱基检出方法,所述方法包括:
在滑动窗口的基础上通过基于神经网络的碱基检出器处理针对测序运行的测序循环生成的每循环分析物通道集的进展,使得后续滑动窗口具有重叠的测序循环,包括:
对于包括一个或多个在前测序循环、中央测序循环,以及一个或多个后续测序循环的测序循环的当前窗口:
基于将所述基于神经网络的碱基检出器应用于所述每循环分析物通道集的所述当前窗口,针对所述在前测序循环、所述中央测序循环,以及所述后续测序循环中的每一者生成空间中间表示和压缩的中间表示,其中所述空间中间表示具有M个通道,所述压缩的中间表示具有N个通道,并且M>N;以及
基于针对所述在前测序循环、所述中央测序循环,以及所述后续测序循环生成的所述压缩的中间表示,至少对所述中央测序循环进行碱基检出;以及
使用针对所述在前测序循环、所述中央测序循环,以及所述后续测序循环生成的所述压缩的中间表示,至少在所述测序循环的下一个窗口中的中央测序循环进行碱基检出。
54.一种用于碱基检出的基于人工智能的系统,所述系统包括:
主机处理器;
所述主机处理器能够访问的存储器,所述存储器存储用于测序运行的测序循环的分析物数据;以及
可配置处理器,所述可配置处理器能够访问所述存储器,所述可配置处理器包括:
多个执行簇,所述多个执行簇中的所述执行簇被配置为执行神经网络;以及
数据流逻辑,所述数据流逻辑能够访问所述存储器和所述多个执行簇中的所述执行簇,所述数据流逻辑被配置为将所述分析物数据提供给所述多个执行簇中的可用执行簇,使所述执行簇将所述分析物数据应用于所述神经网络以生成所述分析物数据的中间表示和压缩的中间表示,以用于当前碱基检出步骤,以及将所述压缩的中间表示反馈回所述存储器以在将来的碱基检出步骤中用作所述分析物数据的替换,其中中间表示为M个通道,压缩的中间表示具有N个通道,并且M>N。
55.一种系统,所述系统包括:
运行时逻辑,所述运行时逻辑被配置为执行碱基检出器的第一迭代以处理输入并且生成所述输入的中间表示;
压缩逻辑,所述压缩逻辑被配置为处理所述中间表示并且生成所述输入的压缩的中间表示;并且
所述运行时逻辑被配置为在所述碱基检出器的随后的迭代中使用所述压缩的中间表示代替所述输入。
56.一种系统,所述系统包括:
运行时逻辑,所述运行时逻辑被配置为执行碱基检出器的第一迭代以处理输入并且生成所述输入的中间表示;
压缩逻辑,所述压缩逻辑被配置为处理所述中间表示并且生成压缩的中间表示,其中所述压缩的中间表示被配置为具有与所述输入一样多的通道;并且
所述运行时逻辑被配置为在所述碱基检出器的随后的迭代中使用所述压缩的中间表示代替所述输入。
57.根据条款56所述的系统,其中所述通道对应于特征图。
58.根据条款56所述的系统,其中所述通道对应于深度维度。
59.根据条款56所述的系统,其中所述通道对应于空间维度。
拆分
1.一种系统,所述系统包括:
空间卷积网络,所述空间卷积网络被配置为通过空间卷积层的相应的序列分别对每循环测序图像集的窗口中的相应的每循环测序图像集进行卷积,逐个循环地处理用于测序运行的一系列测序循环的每循环测序图像集的窗口,以针对所述一系列测序循环中的相应的测序循环生成相应的每循环空间特征图集;
其中空间卷积层的所述相应的序列具有空间卷积滤波器组的相应的序列,其中空间卷积滤波器组的所述相应的序列的空间卷积滤波器组中的空间卷积滤波器的经训练系数在空间卷积层的所述相应的序列中的空间卷积层序列之间变化;
时间卷积网络,所述时间卷积网络被配置为通过使用第一时间卷积层的相应的时间卷积滤波器组对所述每循环空间特征图集中的每循环空间特征图集的相应的重叠组进行卷积来按组处理所述每循环空间特征图集,以针对每循环空间特征图集的所述相应的重叠组生成相应的每组时间特征图集;并且
其中所述相应的时间卷积滤波器组中的时间卷积滤波器的经训练系数在所述相应的时间卷积滤波器组中的时间卷积滤波器组之间变化。
2.根据条款1所述的系统,其中所述空间卷积滤波器使用循环内隔离卷积。
3.根据条款1所述的系统,其中所述时间卷积滤波器使用循环间组合卷积。
4.根据条款1所述的系统,进一步被配置为包括压缩网络,所述压缩网络通过相应的压缩卷积层分别对所述相应的每循环空间特征图集进行卷积,以针对所述相应的测序循环生成相应的每循环压缩的空间特征图集。
5.根据条款4所述的系统,其中所述相应的压缩卷积层中的压缩卷积滤波器的经训练系数在所述相应的压缩卷积层中的压缩卷积层之间变化。
6.根据条款5所述的系统,其中所述时间卷积网络进一步被配置为通过使用第二时间卷积层的相应的时间卷积滤波器组对所述每组时间特征图集中的每组时间特征图集的相应的重叠组进行卷积来按组处理所述每组时间特征图集,以针对每组时间特征图集的所述相应的重叠组生成相应的另外的每组时间特征图集。
7.根据条款6所述的系统,进一步被配置为包括输出网络,所述输出网络处理由最终的时间卷积层生成的最终的时间特征图集以生成最终输出。
8.根据条款7所述的系统,进一步被配置为基于所述最终输出,针对所述一系列测序循环中的一个或多个测序循环产生碱基检出预测。
9.一种系统,所述系统包括:
空间卷积网络,所述空间卷积网络被配置为通过空间卷积层的相应的序列分别对每循环测序图像集的窗口中的相应的每循环测序图像集进行卷积,逐个循环地处理用于测序运行的一系列测序循环的每循环测序图像集的窗口,以针对所述一系列测序循环中的相应的测序循环生成相应的每循环空间特征图集;
时间卷积网络,所述时间卷积网络被配置为通过使用相应的时间卷积滤波器组对所述每循环空间特征图集中的每循环空间特征图集的相应的重叠组进行卷积来按组处理所述每循环空间特征图集,以针对每循环空间特征图集的所述相应的重叠组生成相应的每组时间特征图集;并且
其中所述相应的时间卷积滤波器组中的时间卷积滤波器的经训练系数在所述相应的时间卷积滤波器组中的时间卷积滤波器组之间变化。
10.根据条款9所述的系统,其中空间卷积层的所述相应的序列具有空间卷积滤波器组的相应的序列,其中空间卷积滤波器组的所述相应的序列的空间卷积滤波器组中的空间卷积滤波器的经训练系数在空间卷积层的所述相应的序列中的空间卷积层序列之间共享。
11.根据条款9所述的系统,进一步被配置为包括压缩网络,所述压缩网络通过相应的压缩卷积层分别对所述相应的每循环空间特征图集进行卷积,以针对所述相应的测序循环生成相应的每循环压缩的空间特征图集,其中所述相应的压缩卷积层中的压缩卷积滤波器的经训练系数在所述相应的压缩卷积层中的压缩卷积层之间变化。
12.一种基于人工智能的碱基检出方法,所述方法包括:
通过空间卷积层的相应的序列分别对每循环测序图像集的所述窗口中的相应的每循环测序图像集进行卷积,通过空间卷积网络逐个循环地处理用于测序运行的一系列测序循环的每循环测序图像集的窗口,并且针对所述一系列测序循环中的相应的测序循环生成相应的每循环空间特征图集;
其中空间卷积层的所述相应的序列具有空间卷积滤波器组的相应的序列,其中空间卷积滤波器组的所述相应的序列的空间卷积滤波器组中的空间卷积滤波器的经训练系数在空间卷积层的所述相应的序列中的空间卷积层序列之间变化;
通过使用第一时间卷积层的相应的时间卷积滤波器组对所述每循环空间特征图集中的每循环空间特征图集的相应的重叠组进行卷积,通过时间卷积网络按组处理所述每循环空间特征图集,并且针对每循环空间特征图集的所述相应的重叠组生成相应的每组时间特征图集;并且
其中所述相应的时间卷积滤波器组中的时间卷积滤波器的经训练系数在所述相应的时间卷积滤波器组中的时间卷积滤波器组之间变化。
13.根据条款12所述的基于人工智能的方法,还包括通过压缩网络的相应的压缩卷积层分别对所述相应的每循环空间特征图集进行卷积,并且针对所述相应的测序循环生成相应的每循环压缩的空间特征图集。
14.根据条款13所述的基于人工智能的方法,其中所述相应的压缩卷积层中的压缩卷积滤波器的经训练系数在所述相应的压缩卷积层中的压缩卷积层之间变化。
15.根据条款14所述的基于人工智能的方法,还包括通过使用第二时间卷积层的相应的时间卷积滤波器组对所述每组时间特征图集中的每组时间特征图集的相应的重叠组进行卷积,通过所述时间卷积网络按组处理所述每组时间特征图集,并且针对每组时间特征图集的所述相应的重叠组生成相应的另外的每组时间特征图集。
16.根据条款15所述的基于人工智能的方法,还包括通过输出网络处理由最终的时间卷积层生成的最终的时间特征图集,并且生成最终输出。
17.根据条款16所述的基于人工智能的方法,还包括基于所述最终输出针对所述一系列测序循环中的一个或多个测序循环产生碱基检出预测。
18.一种基于人工智能的碱基检出方法,所述方法包括:
通过空间卷积层的相应的序列分别对每循环测序图像集的所述窗口中的相应的每循环测序图像集进行卷积,通过空间卷积网络逐个循环地处理用于测序运行的一系列测序循环的每循环测序图像集的窗口,并且针对所述一系列测序循环中的相应的测序循环生成相应的每循环空间特征图集;
通过使用第一时间卷积层的相应的时间卷积滤波器组对所述每循环空间特征图集中的每循环空间特征图集的相应的重叠组进行卷积,通过时间卷积网络按组处理所述每循环空间特征图集,并且针对每循环空间特征图集的所述相应的重叠组生成相应的每组时间特征图集;并且
其中所述相应的时间卷积滤波器组中的时间卷积滤波器的经训练系数在所述相应的时间卷积滤波器组中的时间卷积滤波器组之间变化。
19.根据条款18所述的基于人工智能的方法,其中空间卷积层的所述相应的序列具有空间卷积滤波器组的相应的序列,其中空间卷积滤波器组的所述相应的序列的空间卷积滤波器组中的空间卷积滤波器的经训练系数在空间卷积层的所述相应的序列中的空间卷积层序列之间共享。
20.根据条款18所述的基于人工智能的方法,还包括通过压缩网络的相应的压缩卷积层分别对所述相应的每循环空间特征图集进行卷积,并且针对所述相应的测序循环生成相应的每循环压缩的空间特征图集,其中所述相应的压缩卷积层中的压缩卷积滤波器的经训练系数在所述相应的压缩卷积层中的压缩卷积层之间变化。
21.一种系统,所述系统包括:
空间卷积网络,所述空间卷积网络被配置为将空间卷积层的相应的序列应用于每循环测序图像的窗口中的相应的每循环测序图像;并且
其中空间卷积层的所述相应的序列具有空间卷积滤波器组的相应的序列,所述空间卷积滤波器组的所述相应的序列从空间卷积层的一个序列到空间卷积层的另一个序列不同。
22.一种系统,所述系统包括:
时间卷积网络,所述时间卷积网络配置有第一时间卷积层,所述第一时间卷积层被配置为将相应的多组时间卷积滤波器应用于空间特征图的相应的滑动窗口;并且
其中所述第一时间卷积层中的所述相应的多组时间卷积滤波器具有从一组时间卷积滤波器到另一组时间卷积滤波器不同的时间卷积滤波器。
23.根据条款22所述的系统,其中所述时间卷积网络配置有在所述第一时间卷积层之后的第二时间卷积层,其中所述第二卷积层被配置为将相应的多组时间卷积滤波器应用于时间特征图的相应的滑动窗口,并且其中所述第二时间卷积层中的所述相应的多组时间卷积滤波器具有从一组时间卷积滤波器到另一组时间卷积滤波器不同的时间卷积滤波器。
跳跃
1.一种系统,所述系统包括:
空间卷积网络,所述空间卷积网络被配置为通过相应的空间处理流水线分别处理每循环测序图像集的所述窗口中的相应的每循环测序图像集来逐个循环地处理测序运行的一系列测序循环的每循环测序图像集的窗口,所述相应的空间处理流水线被配置为通过空间卷积层的相应的序列对所述相应的每循环测序图像集进行卷积,以针对所述一系列测序循环中的相应的测序循环生成相应的每循环空间特征图集;以及
总线网络,所述总线网络连接到所述空间卷积网络,并且被配置为在空间卷积层的所述相应的序列内的空间卷积层之间形成总线,所述总线被配置为使由特定空间卷积层序列中的两个或更多个空间卷积层针对特定测序循环生成的相应的每循环空间特征图集组合成组合的每循环空间特征图集,并且将所述组合的每循环空间特征图集作为输入提供给空间卷积层的所述特定序列中的另一个空间卷积层。
2.根据条款1所述的系统,其中所述两个或更多个空间卷积层包括第一空间卷积层和第三空间卷积层,其中所述第一空间卷积层生成第一每循环空间特征图集,其中所述第一空间卷积层将所述第一每循环空间特征图集作为输入提供给第二空间卷积层,其中所述第二空间卷积层处理所述第一每循环空间特征图集并且生成第二每循环空间特征图集,其中所述第二空间卷积层将所述第二每循环空间特征图集作为输入提供给所述第三空间卷积层,并且其中所述第三空间卷积层处理所述第二每循环空间特征图集并且生成第三每循环空间特征图集。
3.根据条款2所述的系统,其中所述总线进一步被配置为使所述第一空间特征图集和所述第三每循环空间特征图集组合成所述组合的每循环空间特征图集。
4.根据条款3所述的系统,其中所述另一个空间卷积层是第四空间卷积层,所述第四空间卷积层紧接在空间卷积层的所述特定序列中的所述第三空间卷积层之后,其中所述第四空间卷积层处理所述组合的每循环空间特征图集作为输入。
5.根据条款2所述的系统,其中所述两个或更多个空间卷积层包括所述第一空间卷积层和第七空间卷积层,其中所述第三空间卷积层将所述第三每循环空间特征图集作为输入提供给第四空间卷积层,其中所述第四空间卷积层处理所述第三每循环空间特征图集并且生成第四每循环空间特征图集,其中所述第四空间卷积层将所述第四每循环空间特征图集提供为第五空间卷积层的输入,并且其中所述第五空间卷积层处理所述第四每循环空间特征图集并且生成第五每循环空间特征图集。
6.根据条款5所述的系统,其中所述总线进一步被配置为使所述第一空间特征图集和所述第五空间特征图集组合成所述组合的每循环空间特征图集。
7.根据条款6所述的系统,其中所述另一个空间卷积层是第六空间卷积层,所述第六空间卷积层紧接在空间卷积层的所述特定序列中的所述第五空间卷积层之后,其中所述第六空间卷积层处理所述组合的每循环空间特征图集作为输入。
8.根据条款5所述的系统,其中所述两个或更多个空间卷积层包括所述第一空间卷积层、所述第三空间卷积层和所述第五空间卷积层,并且其中所述总线进一步被配置为使所述第一每循环空间特征图集、所述第三每循环空间特征图集和所述第五每循环空间特征图集组合成所述组合的每循环空间特征图集。
9.根据条款8所述的系统,其中所述另一个空间卷积层是处理所述组合的每循环空间特征图集作为输入的第六空间卷积层。
10.根据条款1所述的系统,其中所述总线进一步被配置为使作为输入被提供给所述第一空间卷积层的所述特定测序循环的每循环测序图像集和所述第三每循环空间特征图集组合成所述组合的每循环空间特征图集。
11.根据条款10所述的系统,其中所述另一个空间卷积层是处理所述组合的每循环空间特征图集作为输入的第四空间卷积层。
12.根据条款1所述的系统,其中所述总线网络进一步被配置为包括维数兼容性逻辑,所述维数兼容性逻辑被配置为修改与接收的每循环空间特征图集组合的传入的每循环空间特征图集的空间和深度维数,以生成所述组合的每循环空间特征图集。
13.根据条款12所述的系统,其中所述维数兼容性逻辑是维数减少操作,包括卷积、池化或平均。
14.根据条款12所述的系统,其中所述总线网络进一步被配置为包括缩放逻辑,所述缩放逻辑被配置为缩放与所述接收的每循环空间特征图集组合的所述传入的每循环空间特征图集的特征值,以生成所述组合的每循环空间特征图集。
15.根据条款1所述的系统,进一步被配置为包括时间卷积网络,所述时间卷积网络被配置为通过使用第一时间卷积层的相应的时间卷积滤波器组对所述每循环空间特征图集中的每循环空间特征图集的相应的重叠组进行卷积来按组处理所述每循环空间特征图集,以针对每循环空间特征图集的所述相应的重叠组生成相应的每组时间特征图集。
16.根据条款15所述的系统,进一步被配置为包括所述总线网络,所述总线网络连接到所述时间卷积网络,并且被配置为在时间卷积层的所述相应的序列内的时间卷积层之间形成总线,所述总线被配置为使由时间卷积层的特定序列中的两个或更多个时间卷积层针对特定测序循环生成的相应的每循环时间特征图集组合成组合的每循环时间特征图集,并且将所述组合的每循环空间特征图集作为输入提供给时间卷积层的所述特定序列中的另一时间卷积层。
17.一种基于人工智能的方法,包括:
通过相应的空间处理流水线分别处理每循环测序图像集的所述窗口中的相应的每循环测序图像集,包括通过空间卷积层的相应的序列对所述相应的每循环测序图像集进行卷积,通过空间卷积网络逐个循环地处理测序运行的一系列测序循环的每循环测序图像集的窗口,以针对所述一系列测序循环中的相应的测序循环生成相应的每循环空间特征图集;以及
将由空间卷积层的特定序列中的两个或更多个空间卷积层针对特定测序循环生成的相应的每循环空间特征图集组合成组合的每循环空间特征图集,并且将所述组合的每循环空间特征图集作为输入提供给空间卷积层的所述特定序列中的另一个空间卷积层。
18.根据条款17所述的基于人工智能的方法,其中所述两个或更多个空间卷积层包括第一空间卷积层和第三空间卷积层,其中所述第一空间卷积层生成第一每循环空间特征图集,其中所述第一空间卷积层将所述第一每循环空间特征图集作为输入提供给第二空间卷积层,其中所述第二空间卷积层处理所述第一每循环空间特征图集并且生成第二每循环空间特征图集,其中所述第二空间卷积层将所述第二每循环空间特征图集作为输入提供给所述第三空间卷积层,并且其中所述第三空间卷积层处理所述第二每循环空间特征图集并且生成第三每循环空间特征图集。
19.根据条款18所述的基于人工智能的方法,其中所述总线进一步被配置为使所述第一空间特征图集和所述第三每循环空间特征图集组合成所述组合的每循环空间特征图集。
20.根据条款19所述的基于人工智能的方法,其中所述另一个空间卷积层是第四空间卷积层,所述第四空间卷积层紧接在空间卷积层的所述特定序列中的所述第三空间卷积层之后,其中所述第四空间卷积层处理所述组合的每循环空间特征图集作为输入。
上述方法的其他具体实施可包括存储指令的非暂态计算机可读存储介质,这些指令可由处理器执行以执行上述方法中的任一种方法。在本部分中描述的方法的又一个具体实施可包括一种系统,该系统包括存储器和一个或多个处理器,该一个或多个处理器可操作以执行存储在存储器中的指令,以执行上述方法中的任一种方法。
Claims (20)
1.一种系统,所述系统包括:
空间卷积网络,所述空间卷积网络被配置为通过空间卷积层的相应的序列分别对每循环测序图像集的窗口中的相应的每循环测序图像集进行卷积,逐个循环地处理用于测序运行的一系列测序循环的每循环测序图像集的窗口,以针对所述一系列测序循环中的相应的测序循环生成相应的每循环空间特征图集;
其中空间卷积层的所述相应的序列具有空间卷积滤波器组的相应的序列,其中空间卷积滤波器组的所述相应的序列的空间卷积滤波器组中的空间卷积滤波器的经训练系数在空间卷积层的所述相应的序列中的空间卷积层序列之间变化;
时间卷积网络,所述时间卷积网络被配置为通过使用第一时间卷积层的相应的时间卷积滤波器组对所述每循环空间特征图集中的每循环空间特征图集的相应的重叠组进行卷积来按组处理所述每循环空间特征图集,以针对每循环空间特征图集的所述相应的重叠组生成相应的每组时间特征图集;并且
其中所述相应的时间卷积滤波器组中的时间卷积滤波器的经训练系数在所述相应的时间卷积滤波器组中的时间卷积滤波器组之间变化。
2.根据权利要求1所述的系统,其中所述空间卷积滤波器使用循环内隔离卷积。
3.根据权利要求1所述的系统,其中所述时间卷积滤波器使用循环间组合卷积。
4.根据权利要求1所述的系统,所述系统进一步被配置为包括压缩网络,所述压缩网络通过相应的压缩卷积层分别对所述相应的每循环空间特征图集进行卷积,以针对所述相应的测序循环生成相应的每循环压缩的空间特征图集。
5.根据权利要求4所述的系统,其中所述相应的压缩卷积层中的压缩卷积滤波器的经训练系数在所述相应的压缩卷积层中的压缩卷积层之间变化。
6.根据权利要求5所述的系统,其中所述时间卷积网络进一步被配置为通过使用第二时间卷积层的相应的时间卷积滤波器组对所述每组时间特征图集中的每组时间特征图集的相应的重叠组进行卷积来按组处理所述每组时间特征图集,以针对每组时间特征图集的所述相应的重叠组生成相应的另外的每组时间特征图集。
7.根据权利要求6所述的系统,所述系统进一步被配置为包括输出网络,所述输出网络处理由最终的时间卷积层生成的最终的时间特征图集以生成最终输出。
8.根据权利要求7所述的系统,所述系统进一步被配置为基于所述最终输出,针对所述一系列测序循环中的一个或多个测序循环产生碱基检出预测。
9.一种系统,所述系统包括:
空间卷积网络,所述空间卷积网络被配置为通过空间卷积层的相应的序列分别对每循环测序图像集的所述窗口中的相应的每循环测序图像集进行卷积,逐个循环地处理用于测序运行的一系列测序循环的每循环测序图像集的窗口,以针对所述一系列测序循环中的相应的测序循环生成相应的每循环空间特征图集;
时间卷积网络,所述时间卷积网络被配置为通过使用相应的时间卷积滤波器组对所述每循环空间特征图集中的每循环空间特征图集的相应的重叠组进行卷积来按组处理所述每循环空间特征图集,以针对每循环空间特征图集的所述相应的重叠组生成相应的每组时间特征图集;并且
其中所述相应的时间卷积滤波器组中的时间卷积滤波器的经训练系数在所述相应的时间卷积滤波器组中的时间卷积滤波器组之间变化。
10.根据权利要求9所述的系统,其中空间卷积层的所述相应的序列具有空间卷积滤波器组的相应的序列,其中空间卷积滤波器组的所述相应的序列的空间卷积滤波器组中的空间卷积滤波器的经训练系数在空间卷积层的所述相应的序列中的空间卷积层序列之间共享。
11.根据权利要求9所述的系统,所述系统进一步被配置为包括压缩网络,所述压缩网络通过相应的压缩卷积层分别对所述相应的每循环空间特征图集进行卷积,以针对所述相应的测序循环生成相应的每循环压缩的空间特征图集,其中所述相应的压缩卷积层中的压缩卷积滤波器的经训练系数在所述相应的压缩卷积层中的压缩卷积层之间变化。
12.一种基于人工智能的碱基检出方法,所述方法包括:
通过空间卷积层的相应的序列分别对每循环测序图像集的所述窗口中的相应的每循环测序图像集进行卷积,通过空间卷积网络逐个循环地处理用于测序运行的一系列测序循环的每循环测序图像集的窗口,并且针对所述一系列测序循环中的相应的测序循环生成相应的每循环空间特征图集;
其中空间卷积层的所述相应的序列具有空间卷积滤波器组的相应的序列,其中空间卷积滤波器组的所述相应的序列的空间卷积滤波器组中的空间卷积滤波器的经训练系数在空间卷积层的所述相应的序列中的空间卷积层序列之间变化;
通过使用第一时间卷积层的相应的时间卷积滤波器组对所述每循环空间特征图集中的每循环空间特征图集的相应的重叠组进行卷积,通过时间卷积网络按组处理所述每循环空间特征图集,并且针对每循环空间特征图集的所述相应的重叠组生成相应的每组时间特征图集;并且
其中所述相应的时间卷积滤波器组中的时间卷积滤波器的经训练系数在所述相应的时间卷积滤波器组中的时间卷积滤波器组之间变化。
13.根据权利要求12所述的基于人工智能的方法,所述基于人工智能的方法还包括通过压缩网络的相应的压缩卷积层分别对所述相应的每循环空间特征图集进行卷积并且针对所述相应的测序循环生成相应的每循环压缩的空间特征图集。
14.根据权利要求13所述的基于人工智能的方法,其中所述相应的压缩卷积层中的压缩卷积滤波器的经训练系数在所述相应的压缩卷积层中的压缩卷积层之间变化。
15.根据权利要求14所述的基于人工智能的方法,所述基于人工智能的方法还包括通过使用第二时间卷积层的相应的时间卷积滤波器组对所述每组时间特征图集中的每组时间特征图集的相应的重叠组进行卷积,通过所述时间卷积网络按组处理所述每组时间特征图集,并且针对每组时间特征图集的所述相应的重叠组生成相应的另外的每组时间特征图集。
16.根据权利要求15所述的基于人工智能的方法,所述基于人工智能的方法还包括通过输出网络处理由最终的时间卷积层生成的最终的时间特征图集,并且生成最终输出。
17.根据权利要求16所述的基于人工智能的方法,所述基于人工智能的方法还包括基于所述最终输出,针对所述一系列测序循环中的一个或多个测序循环产生碱基检出预测。
18.一种系统,所述系统包括:
空间卷积网络,所述空间卷积网络被配置为将空间卷积层的相应的序列应用于每循环测序图像的窗口中的相应的每循环测序图像;并且
其中空间卷积层的所述相应的序列具有空间卷积滤波器组的相应的序列,所述空间卷积滤波器组的所述相应的序列从空间卷积层的一个序列到空间卷积层的另一个序列不同。
19.一种系统,所述系统包括:
时间卷积网络,所述时间卷积网络配置有第一时间卷积层,所述第一时间卷积层被配置为将相应的多组时间卷积滤波器应用于空间特征图的相应的滑动窗口;并且
其中所述第一时间卷积层中的所述相应的多组时间卷积滤波器具有从一组时间卷积滤波器到另一组时间卷积滤波器不同的时间卷积滤波器。
20.根据权利要求19所述的系统,其中所述时间卷积网络配置有在所述第一时间卷积层之后的第二时间卷积层,其中所述第二卷积层被配置为将相应的多组时间卷积滤波器应用于时间特征图的相应的滑动窗口,并且其中所述第二时间卷积层中的所述相应的多组时间卷积滤波器具有从一组时间卷积滤波器到另一组时间卷积滤波器不同的时间卷积滤波器。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202062979411P | 2020-02-20 | 2020-02-20 | |
US202062979399P | 2020-02-20 | 2020-02-20 | |
US62/979399 | 2020-02-20 | ||
US62/979411 | 2020-02-20 | ||
US17/179395 | 2021-02-18 | ||
US17/179,395 US20210265016A1 (en) | 2020-02-20 | 2021-02-18 | Data Compression for Artificial Intelligence-Based Base Calling |
PCT/US2021/018915 WO2021168358A1 (en) | 2020-02-20 | 2021-02-19 | Split architecture for artificial intelligence-based base caller |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115443508A true CN115443508A (zh) | 2022-12-06 |
Family
ID=77366219
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180015512.3A Pending CN115280418A (zh) | 2020-02-20 | 2021-02-19 | 用于基于人工智能的碱基检出的数据压缩 |
CN202180015983.4A Pending CN115398549A (zh) | 2020-02-20 | 2021-02-19 | 用于基于人工智能的碱基检出器的总线网络 |
CN202180015544.3A Pending CN115443508A (zh) | 2020-02-20 | 2021-02-19 | 用于基于人工智能的碱基检出器的拆分架构 |
Family Applications Before (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180015512.3A Pending CN115280418A (zh) | 2020-02-20 | 2021-02-19 | 用于基于人工智能的碱基检出的数据压缩 |
CN202180015983.4A Pending CN115398549A (zh) | 2020-02-20 | 2021-02-19 | 用于基于人工智能的碱基检出器的总线网络 |
Country Status (11)
Country | Link |
---|---|
US (3) | US20210265016A1 (zh) |
EP (3) | EP4107740A1 (zh) |
JP (3) | JP2023515092A (zh) |
KR (3) | KR20220144374A (zh) |
CN (3) | CN115280418A (zh) |
AU (3) | AU2021224872A1 (zh) |
BR (2) | BR112022016416A2 (zh) |
CA (1) | CA3168731A1 (zh) |
IL (3) | IL295585A (zh) |
MX (2) | MX2022010273A (zh) |
WO (3) | WO2021168358A1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11210554B2 (en) | 2019-03-21 | 2021-12-28 | Illumina, Inc. | Artificial intelligence-based generation of sequencing metadata |
US11887277B2 (en) * | 2021-02-23 | 2024-01-30 | Adobe Inc. | Removing compression artifacts from digital images and videos utilizing generative machine-learning models |
US20230004318A1 (en) * | 2021-07-01 | 2023-01-05 | Samsung Electronics Co., Ltd. | Systems and methods for reordering data in a storage device based on data access patterns |
WO2023049212A2 (en) * | 2021-09-22 | 2023-03-30 | Illumina, Inc. | State-based base calling |
CN115514375B (zh) * | 2022-11-18 | 2023-03-24 | 江苏网进科技股份有限公司 | 一种缓存数据压缩方法 |
Family Cites Families (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US197026A (en) | 1877-11-13 | Improvement in fasteners for meeting-rails of sashes | ||
US741921A (en) | 1903-02-04 | 1903-10-20 | John Henry Miller | Hopple for cows. |
US1414716A (en) | 1919-12-12 | 1922-05-02 | Charles G Trosien | Gear lock for automobiles |
US7319019B1 (en) | 1991-04-10 | 2008-01-15 | Acorda Therapeutics, Inc. | Glial mitogenic factors lacking an N-terminal signal sequence |
ATE183758T1 (de) | 1994-12-21 | 1999-09-15 | Shell Int Research | Epoxypolyether |
US6698020B1 (en) | 1998-06-15 | 2004-02-24 | Webtv Networks, Inc. | Techniques for intelligent video ad insertion |
JP3821267B2 (ja) | 1999-01-18 | 2006-09-13 | 富士通株式会社 | 文書画像結合装置、文書画像結合方法及び文書画像結合プログラムを記録した記録媒体 |
EP2100971A3 (en) | 2000-07-07 | 2009-11-25 | Visigen Biotechnologies, Inc. | Real-time sequence determination |
US7211414B2 (en) | 2000-12-01 | 2007-05-01 | Visigen Biotechnologies, Inc. | Enzymatic nucleic acid synthesis: compositions and methods for altering monomer incorporation fidelity |
US6794578B2 (en) | 2001-03-14 | 2004-09-21 | Sabritec, Inc. | Quadrax to twinax conversion apparatus and method |
US7057026B2 (en) | 2001-12-04 | 2006-06-06 | Solexa Limited | Labelled nucleotides |
JP3861770B2 (ja) | 2002-08-21 | 2006-12-20 | ソニー株式会社 | 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体 |
US7620648B2 (en) | 2003-06-20 | 2009-11-17 | International Business Machines Corporation | Universal annotation configuration and deployment |
GB0321306D0 (en) | 2003-09-11 | 2003-10-15 | Solexa Ltd | Modified polymerases for improved incorporation of nucleotide analogues |
US7197026B2 (en) | 2003-12-23 | 2007-03-27 | Nokia Corporation | Method and system for RLP optimization |
MXPA06014020A (es) | 2004-07-14 | 2007-02-08 | Matsushita Electric Ind Co Ltd | Metodo para autenticar y ejecutar un programa. |
CN101006601A (zh) | 2004-08-17 | 2007-07-25 | Lg电子株式会社 | 燃料电池系统 |
US7255419B2 (en) | 2004-12-06 | 2007-08-14 | Silverbrook Research Pty Ltd | Inkjet printer with arcuately moveable duplex printhead assembly and capping/purging mechanism |
US7332023B2 (en) | 2005-03-07 | 2008-02-19 | Hewlett-Packard Development Company, L.P. | Dye-based ink compositions |
US7188578B2 (en) | 2005-03-29 | 2007-03-13 | Derosa Robert James | Cover plate removal tool |
WO2007002191A2 (en) | 2005-06-22 | 2007-01-04 | Biocryst Pharmaceuticals, Inc. | Methods for the preparation of 9-deazapurine derivatives |
GB2428533B (en) | 2005-06-24 | 2007-08-22 | Hewlett Packard Development Co | Determining data flows in a network |
US8231669B2 (en) | 2005-09-22 | 2012-07-31 | Boston Scientific Scimed, Inc. | Tether guided stent side branch |
JP4320657B2 (ja) | 2005-12-26 | 2009-08-26 | ソニー株式会社 | 信号処理装置 |
EP4105644A3 (en) | 2006-03-31 | 2022-12-28 | Illumina, Inc. | Systems and devices for sequence by synthesis analysis |
WO2007141931A1 (ja) | 2006-05-29 | 2007-12-13 | Panasonic Corporation | 複数チップ構成半導体装置、及び半導体検査方法 |
JP4481332B2 (ja) | 2006-06-06 | 2010-06-16 | 三菱電機株式会社 | ロールオーバ判定装置 |
US7279891B1 (en) | 2006-06-15 | 2007-10-09 | Honeywell International Inc. | Permalloy bridge with selectable wafer-anistropy using multiple layers |
US7966937B1 (en) | 2006-07-01 | 2011-06-28 | Jason Stewart Jackson | Non-newtonian projectile |
US7414716B2 (en) | 2006-10-23 | 2008-08-19 | Emhart Glass S.A. | Machine for inspecting glass containers |
CN201354430Y (zh) | 2008-12-09 | 2009-12-02 | 博西华电器(江苏)有限公司 | 干衣机的冷凝装置 |
US10204084B2 (en) | 2016-06-10 | 2019-02-12 | Microsoft Technology Licensing, Llc | Activity modeling in email or other forms of communication |
US10242113B2 (en) | 2016-10-13 | 2019-03-26 | International Business Machines Corporation | Modifying messages to be more discoverable on a social network |
GB201707138D0 (en) * | 2017-05-04 | 2017-06-21 | Oxford Nanopore Tech Ltd | Machine learning analysis of nanopore measurements |
CN107178938B (zh) | 2017-07-25 | 2023-02-03 | 远大空调有限公司 | 一种自动抽排气系统 |
WO2019061951A1 (zh) | 2017-09-28 | 2019-04-04 | 崔泽昊 | 一种洁面仪及其控制方法 |
CA3088687A1 (en) * | 2018-01-26 | 2019-08-01 | Quantum-Si Incorporated | Machine learning enabled pulse and base calling for sequencing devices |
US11829517B2 (en) | 2018-12-20 | 2023-11-28 | Intel Corporation | Method and apparatus for trust domain creation and destruction |
-
2021
- 2021-02-18 US US17/179,395 patent/US20210265016A1/en active Pending
- 2021-02-19 CN CN202180015512.3A patent/CN115280418A/zh active Pending
- 2021-02-19 CN CN202180015983.4A patent/CN115398549A/zh active Pending
- 2021-02-19 AU AU2021224872A patent/AU2021224872A1/en active Pending
- 2021-02-19 EP EP21712608.5A patent/EP4107740A1/en active Pending
- 2021-02-19 MX MX2022010273A patent/MX2022010273A/es unknown
- 2021-02-19 IL IL295585A patent/IL295585A/en unknown
- 2021-02-19 CN CN202180015544.3A patent/CN115443508A/zh active Pending
- 2021-02-19 IL IL295584A patent/IL295584A/en unknown
- 2021-02-19 KR KR1020227029024A patent/KR20220144374A/ko active Search and Examination
- 2021-02-19 US US17/180,480 patent/US20210264266A1/en active Pending
- 2021-02-19 AU AU2021222050A patent/AU2021222050A1/en active Pending
- 2021-02-19 JP JP2022549996A patent/JP2023515092A/ja active Pending
- 2021-02-19 IL IL295587A patent/IL295587A/en unknown
- 2021-02-19 MX MX2022010272A patent/MX2022010272A/es unknown
- 2021-02-19 WO PCT/US2021/018915 patent/WO2021168358A1/en active Search and Examination
- 2021-02-19 KR KR1020227029023A patent/KR20220144373A/ko active Search and Examination
- 2021-02-19 US US17/180,513 patent/US20210264267A1/en active Pending
- 2021-02-19 BR BR112022016416A patent/BR112022016416A2/pt unknown
- 2021-02-19 KR KR1020227029025A patent/KR20220144375A/ko active Search and Examination
- 2021-02-19 WO PCT/US2021/018913 patent/WO2021168356A1/en unknown
- 2021-02-19 AU AU2021224873A patent/AU2021224873A1/en active Pending
- 2021-02-19 BR BR112022016495A patent/BR112022016495A2/pt not_active Application Discontinuation
- 2021-02-19 WO PCT/US2021/018917 patent/WO2021168360A1/en active Search and Examination
- 2021-02-19 JP JP2022549984A patent/JP2023515500A/ja active Pending
- 2021-02-19 EP EP21712607.7A patent/EP4107739A1/en active Pending
- 2021-02-19 EP EP21712316.5A patent/EP4107738A1/en active Pending
- 2021-02-19 CA CA3168731A patent/CA3168731A1/en active Pending
- 2021-02-19 JP JP2022549987A patent/JP2023515804A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
JP2023515804A (ja) | 2023-04-14 |
KR20220144373A (ko) | 2022-10-26 |
EP4107738A1 (en) | 2022-12-28 |
EP4107739A1 (en) | 2022-12-28 |
JP2023515500A (ja) | 2023-04-13 |
IL295584A (en) | 2022-10-01 |
WO2021168356A1 (en) | 2021-08-26 |
AU2021224873A1 (en) | 2022-09-08 |
AU2021222050A1 (en) | 2022-09-08 |
EP4107740A1 (en) | 2022-12-28 |
WO2021168360A1 (en) | 2021-08-26 |
MX2022010272A (es) | 2022-09-19 |
IL295587A (en) | 2022-10-01 |
KR20220144374A (ko) | 2022-10-26 |
CN115398549A (zh) | 2022-11-25 |
KR20220144375A (ko) | 2022-10-26 |
IL295585A (en) | 2022-10-01 |
US20210264267A1 (en) | 2021-08-26 |
AU2021224872A1 (en) | 2022-09-08 |
BR112022016495A2 (pt) | 2022-10-11 |
CA3168731A1 (en) | 2021-08-26 |
BR112022016416A2 (pt) | 2022-10-11 |
CN115280418A (zh) | 2022-11-01 |
WO2021168358A1 (en) | 2021-08-26 |
JP2023515092A (ja) | 2023-04-12 |
MX2022010273A (es) | 2022-09-19 |
US20210265016A1 (en) | 2021-08-26 |
US20210264266A1 (en) | 2021-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210264267A1 (en) | Bus Network for Artificial Intelligence-Based Base Caller | |
US20210265015A1 (en) | Hardware Execution and Acceleration of Artificial Intelligence-Based Base Caller | |
CN115136244A (zh) | 基于人工智能的多对多碱基判读 | |
US20220067489A1 (en) | Detecting and Filtering Clusters Based on Artificial Intelligence-Predicted Base Calls | |
US20220319639A1 (en) | Artificial intelligence-based base caller with contextual awareness | |
US20230005253A1 (en) | Efficient artificial intelligence-based base calling of index sequences | |
CA3183578A1 (en) | Artificial intelligence-based base caller with contextual awareness | |
CN117501373A (zh) | 基于人工智能的索引序列的高效碱基检出 | |
EP4309080A1 (en) | Neural network parameter quantization for base calling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |