CN115004249A - 基于机器学习的过程周期图像的根本原因分析 - Google Patents
基于机器学习的过程周期图像的根本原因分析 Download PDFInfo
- Publication number
- CN115004249A CN115004249A CN202180010526.6A CN202180010526A CN115004249A CN 115004249 A CN115004249 A CN 115004249A CN 202180010526 A CN202180010526 A CN 202180010526A CN 115004249 A CN115004249 A CN 115004249A
- Authority
- CN
- China
- Prior art keywords
- image
- images
- random forest
- forest classifier
- failure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 306
- 230000008569 process Effects 0.000 title claims abstract description 145
- 238000004458 analytical method Methods 0.000 title description 32
- 238000010801 machine learning Methods 0.000 title description 6
- 238000004519 manufacturing process Methods 0.000 claims abstract description 99
- 238000003205 genotyping method Methods 0.000 claims abstract description 56
- 238000007637 random forest analysis Methods 0.000 claims description 126
- 238000012549 training Methods 0.000 claims description 96
- 238000003066 decision tree Methods 0.000 claims description 38
- 238000003860 storage Methods 0.000 claims description 25
- 230000015654 memory Effects 0.000 claims description 8
- 230000002146 bilateral effect Effects 0.000 claims description 6
- 239000003550 marker Substances 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 29
- 238000000513 principal component analysis Methods 0.000 description 43
- 239000000523 sample Substances 0.000 description 31
- 239000011159 matrix material Substances 0.000 description 27
- 239000013598 vector Substances 0.000 description 23
- 238000010586 diagram Methods 0.000 description 16
- 239000003153 chemical reaction reagent Substances 0.000 description 15
- 238000012706 support-vector machine Methods 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 13
- 238000006243 chemical reaction Methods 0.000 description 11
- 238000009396 hybridization Methods 0.000 description 11
- 230000003628 erosive effect Effects 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000007477 logistic regression Methods 0.000 description 8
- 125000006850 spacer group Chemical group 0.000 description 8
- 230000000875 corresponding effect Effects 0.000 description 7
- 230000009467 reduction Effects 0.000 description 7
- 238000005299 abrasion Methods 0.000 description 6
- 238000012993 chemical processing Methods 0.000 description 6
- 238000000354 decomposition reaction Methods 0.000 description 6
- 238000003709 image segmentation Methods 0.000 description 6
- 230000000877 morphologic effect Effects 0.000 description 6
- 238000002156 mixing Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000010339 dilation Effects 0.000 description 4
- 238000002073 fluorescence micrograph Methods 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 238000002360 preparation method Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 239000011324 bead Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 108700028369 Alleles Proteins 0.000 description 2
- 108020004414 DNA Proteins 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000002255 enzymatic effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000000556 factor analysis Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 239000007850 fluorescent dye Substances 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 238000010191 image analysis Methods 0.000 description 2
- 238000012880 independent component analysis Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 239000011325 microbead Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 1
- 241000022852 Letis Species 0.000 description 1
- 241000995070 Nirvana Species 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000004166 bioassay Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000003776 cleavage reaction Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006740 morphological transformation Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 102000054765 polymorphisms of proteins Human genes 0.000 description 1
- 238000001556 precipitation Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000007017 scission Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000010206 sensitivity analysis Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000005945 translocation Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
- 238000002759 z-score normalization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/62—Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
- G01N21/63—Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
- G01N21/64—Fluorescence; Phosphorescence
- G01N21/6428—Measuring fluorescence of fluorescent products of reactions or of fluorochrome labelled reactive substances, e.g. measuring quenching effects, using measuring "optrodes"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/2163—Partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/28—Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
- G06V10/507—Summing image-intensity values; Histogram projection analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
- G06V10/7747—Organisation of the process, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/98—Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
- G06V10/993—Evaluation of the quality of the acquired pattern
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/69—Microscopic objects, e.g. biological cells or cellular parts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/69—Microscopic objects, e.g. biological cells or cellular parts
- G06V20/698—Matching; Classification
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/10—Signal processing, e.g. from mass spectrometry [MS] or from PCR
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/62—Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
- G01N21/63—Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
- G01N21/64—Fluorescence; Phosphorescence
- G01N21/6428—Measuring fluorescence of fluorescent products of reactions or of fluorochrome labelled reactive substances, e.g. measuring quenching effects, using measuring "optrodes"
- G01N2021/6439—Measuring fluorescence of fluorescent products of reactions or of fluorochrome labelled reactive substances, e.g. measuring quenching effects, using measuring "optrodes" with indicators, stains, dyes, tags, labels, marks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10064—Fluorescence image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20024—Filtering details
- G06T2207/20028—Bilateral filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20172—Image enhancement details
- G06T2207/20192—Edge enhancement; Edge preservation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30072—Microarray; Biochip, DNA array; Well plate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30168—Image quality inspection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Molecular Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Genetics & Genomics (AREA)
- Biomedical Technology (AREA)
- Chemical & Material Sciences (AREA)
- Immunology (AREA)
- Epidemiology (AREA)
- Bioethics (AREA)
- Public Health (AREA)
- Pathology (AREA)
- Biochemistry (AREA)
- Analytical Chemistry (AREA)
- Optics & Photonics (AREA)
Abstract
本发明公开了一种技术,该技术涉及对过程周期图像进行分类以预测过程周期的成功或失败。所公开的技术包括在基因分型过程中捕获和处理布置在图像生成芯片上的区段的图像。创建生产周期图像的图像描述特征,并将其作为输入提供给分类器。受过训练的分类器将成功的生产图像与不成功的或失败的生产图像分开。通过受过训练的根本原因分类器将这些失败的生产图像进一步分类为各种类别的失败。
Description
优先权申请
本申请要求2021年1月28日提交的名称为“MACHINE LEARNING-BASED ROOT CAUSEANALYSIS OF PROCESS CYCLE IMAGES”的美国非临时专利申请号17/161,595(代理人案卷号ILLM 1026-2/IP-1911-US)的权益,该专利申请要求2020年1月31日提交的名称为“MACHINE LEARNING-BASED ROOT CAUSE ANALYSIS OF PROCESS CYCLE IMAGES”的美国临时专利申请号62/968,950(代理人案卷号ILLM 1026-1/IP-1911-PRV)的权益。优先权申请以引用方式并入本文中用于所有目的。
技术领域
所公开的技术涉及图像的分类以用于评估,以及生产过程的根本原因失败分析。
背景技术
本部分中讨论的主题不应仅因为在本部分中有提及就被认为是现有技术。类似地,在本部分中提及的或与作为背景技术提供的主题相关联的问题不应被认为先前在现有技术中已被认识到。本部分中的主题仅表示不同的方法,这些方法本身也可对应于受权利要求书保护的技术的具体实施。
基因分型是需要多日才能完成的过程。该过程易受机械及化学处理错误的影响。所收集的用于基因分型的样品被提取并且分布在图像生成芯片的区段和区域中。然后通过多个步骤对样品进行化学处理以生成荧光图像。该过程为所分析的每个区段生成质量评分。该质量无法洞察低质量过程的失败的根本原因。在一些情况下,失败的区段图像仍然产生可接受的质量评分。
因此,有机会引入新的方法和系统来评估区段图像,并且确定生产基因分型期间的失败的根本原因分析。
附图说明
在附图中,在所有不同视图中,类似的参考符号通常是指类似的部件。另外,附图未必按比例绘制,而是重点说明所公开的技术的原理。在以下描述中,参考以下附图描述了所公开的技术的各种具体实施,其中:
图1示出了系统的体系结构级示意图,其中对来自基因分型仪器的过程周期图像进行分类并且确定不良图像的根本原因。
图2例示了图1的特征生成器的子系统部件。
图3呈现了示例性基因分型过程的过程步骤。
图4呈现了在成功的处理完成之后在图像生成中布置的区段的图像。
图5A和图5B呈现了由于基因分型过程中的杂交失败而导致的失败的区段图像的示例。
图5C和图5D呈现了由于间隔区移位失败而导致的失败的区段图像的示例。
图5E呈现了由于偏移失败而导致的失败的区段图像的示例。
图5F呈现了由于表面磨蚀失败而导致的失败的区段图像的示例。
图5G和图5H呈现了由试剂流动失败而导致的失败的区段图像的示例。
图5I呈现了失败源未知的失败的或不健康的区段图像的示例。
图6A和图6B是通过使用主成分分析(PCA)生成的排序的主成分而选择的96个本征图像分量的基的示例。
图6C和图6D是从图6A和图6B中的96个图像中选择的前40个本征图像分量的放大图。
图7A例示了用于输入到主成分分析的区段图像的图像缩放和展平。
图7B例示了使用主成分分析来创建本征图像的基。
图8A例示了使用区段的区域的强度的特征生成的示例。
图8B例示了使用区段的区域的强度的特征生成的另一示例。
图9是一对多(OvR)分类器的图解说明。
图10A例示了使用包括过程周期图像的标记的训练数据来训练二值(良好与不良)分类器和多类(根本原因)分类器。
图10B例示了两步骤过程,其中生产过程周期图像被分类为良好与不良,并且进一步确定不良图像的失败类别。
图11是可用于实施所公开的技术的计算机系统的简化框图。
具体实施方式
呈现以下讨论以使得本领域的任何技术人员能够实现和使用所公开的技术,并且在特定应用及其要求的上下文中提供以下讨论。对所公开的具体实施的各种修改对于本领域的技术人员而言将是显而易见的,并且在不脱离所公开的技术的实质和范围的情况下,本文所定义的一般原理可应用于其他具体实施和应用。因此,所公开的技术并非旨在限于所示的具体实施,而是要符合与本文所公开的原理和特征一致的最广范围。
简介
所公开的技术将视觉系统和图像分类应用于生产基因分型的评估和根本原因失败分析。描述了两种不同的方法,一种方法涉及本征图像,并且另一种方法基于按区域阈值化。主成分分析(PCA)和非负矩阵因式分解(NMF)属于所公开的技术。可以应用于图像的其他降维技术包括独立成分分析、字典学习、稀疏主成分分析、因子分析、小批量K均值。可以使用图像分解和降维技术的变型形式。例如,PCA可以使用奇异值分解(SVD)或作为内核PCA来实施。这些技术的输出作为输入提供给分类器。所应用的分类器可包括随机森林、K最近邻(KNN)、多项式逻辑回归、支持向量机(SVM)、梯度增强树、朴素贝叶斯等。随着标记的图像的更大主体变得可用,还可以使用卷积神经网络,诸如ImageNet。
该生产过程易受机械和化学处理错误的影响。所收集的样品被提取,分布在BeadChip的区段和区域中,然后通过多个步骤进行化学处理以生成荧光图像。可以分析最终的荧光图像,甚至中间的荧光图像,以监测生产并且进行失败分析。
绝大多数生产分析是成功的。失败的分析目前被理解为符合五个类别加上剩余的失效类别。五个失败类别是杂交或混合失败、间隔区移位失败、偏移失败、表面磨蚀失败以及试剂流动失败。由于混合效应、未识别的原因和弱信号,剩余的类别是不健康的模式。随着时间的推移,尤其是当根本原因分析导致改进的生产时,可识别出更多不同的原因。
应用于质量控制和失败分析的第一图像处理技术从通过本征面部分析进行的面部识别发展而来。从数以万计的标记的图像中,识别出40至100或更多的图像分量的线性基。形成特征基的一种方法是进行主成分分析(PCA),随后根据可解释的变异性的量度对成分进行排序。观察到40个分量解释了大部分变异性。超过100个部件,附加分量似乎反映了样品处理中的噪声模式或自然变异性。预期相关分量的数量受图像分辨率的影响。在此,应用了分辨率降低,使得以180×80像素的分辨率分析图像生成芯片的区段。这足以解决对成功和不成功的生产的区分,然后在六个失败类别中对失败的根本原因进行分类。未应用正式的灵敏度分析,但预期分辨率稍低的图像也可以起作用,并且可以用相同的方式来处理具有该分辨率4至22倍的分辨率的图像,但会增加计算成本。待由本征图像分析进行分析的每个图像被表示为基图像的加权线性组合。用于基分量的有序集合的每个权重被用作用于训练分类器的特征。例如,在一个具体实施中,使用标记的图像的分量的96个权重来训练随机森林分类器。随机森林分类器具有200棵树,并且深度为20。随机森林分类器执行两个任务:对成功和不成功的生产图像进行分离,然后对不成功的生产图像进行根本原因分析。由于成功的生产运行占主导地位,因此选择这种两阶段分类,但也可以使用一阶段分类。
所应用的第二图像处理技术涉及图像区域的阈值化。图像生成芯片的区段的生产图像捕获若干个物理上分开的区域。在生产图像中可以看到与区段接界的结构和分开区段的物理区域的结构。阈值化策略包括将有效区域与边界结构分开,然后在分开的区域之间进行区分。可选地,还可以从图像中滤除将物理区域分开的结构。至少对有效区域进行阈值化以用于发光。该阈值化确定有多少有效区域正在产生期望的信号强度。在阈值化之后评估每个有效区域的成功或失败。可以进一步评估图像生成芯片的区域和区段间的失败模式,以用于根本原因分类。
可以在生产过程中立即执行生产图像的处理以检测失败的生产运行并且确定根本原因,甚至比从图像生成芯片读取结果并且判断质量更快地执行。该图像处理可以更快地完成,因为在一侧将图像收缩20次极大地降低了计算要求,并且对分辨率降低的图像的直接处理不需要将区域中的各个发光像素与各个探头相关联。根本原因分析的快速周转可用于在浪费化学品和处理时间之前校正上游过程。
环境
描述了用于基因分型系统中的失败的早期预测的系统。基因分型是通过使用生物测定检查个体的DNA序列并且将其与参考序列比较来确定个体的遗传组成(基因型)差异的过程。基因分型使研究人员能够探索遗传变体,诸如单核苷酸多态性(SNP)和DNA的结构变化。参考图1来描述该系统,该图示出了根据具体实施的系统的体系结构级示意图。因为图1是体系结构图,所以有意省略了某些细节以提高描述的清晰度。图1的讨论组织如下。首先,描述附图的元件,接着描述它们的互连。然后,更详细地描述系统中的元件的用途。
图1包括系统100。该段落对系统100的标记的部分进行命名。该图例示了基因分型仪器111、过程周期图像数据库115、失败类别标签数据库117、标记的过程周期图像数据库138、受过训练的良好与不良分类器151、特征图像基数据库168、受过训练的根本原因分类器171、特征生成器185,以及网络155。
所公开的技术适用于各种基因分型仪器111,也称为基因分型扫描仪和基因分型平台。网络155将基因分型仪器111、过程周期图像数据库115、失败类别标签数据库117、标记的过程周期图像数据库138、受过训练的良好与不良分类器151、特征图像基数据库168、受过训练的根本原因分类器171,以及特征生成器185彼此通信地耦合。
基因分型仪器可包括Illumina的BeadChip成像系统,诸如ISCANTM系统。仪器可以检测数百至数百万个微珠的荧光强度,这些微珠在图像生成芯片上的映射位置上分区段排列。基因分型仪器可包括仪器控制计算机,该仪器控制计算机控制仪器的各个方面,例如激光控制、精密机械控制、激发信号的检测、图像配准、图像提取以及数据输出。基因分型仪器可用于多种物理环境并且由不同技能水平的技术人员操作。样品准备可花费两至三天,并且可包括样品的手动和自动处理。
例示了图3中的示例性基因分型过程300的过程步骤。该示例性基因分型过程被称为Illumina的INFINIUMTM测定工作流程。该过程被设计成在广泛的基因座复用水平上研究许多SNP。使用单个微珠类型和双色(诸如红色和绿色)通道方法,该过程将基因分型从每个样品数百至数百万个SNP缩放。该过程从DNA样品的加入和提取开始。该过程可以用相对较低的输入样品诸如200ng进行操作,这可以测定数百万个SNP位点。对样品进行扩增。扩增过程可能需要几个小时到一夜的时间才能完成。扩增样品经历受控的酶断裂。然后进行醇沉淀和再悬浮。在毛细管流通室中准备图像生成芯片用于杂交。然后将样品施加到所准备的图像生成芯片并且温育过夜。在该过夜杂交期间,样品退火至与多达数百万微珠类型共价连接的基因座特异性50聚体。一个微珠类型对应于每个SNP基因座的每个等位基因。通过酶促碱基延伸和随后的荧光染色赋予等位基因特异性。基因分型仪器或扫描仪(诸如ISCANTM系统)检测微珠的荧光强度并且执行基因分型调用。
在一个示例中,基因分型的结果使用称为“调用率”的度量来呈现。该度量表示在图像生成芯片上正确扫描的基因分型的百分比。报告图像生成芯片的每个区段的单独的调用率。阈值可用于接受或拒绝结果。例如,可以使用98%或更高的调用率来接受区段的基因分型结果。可以使用不同的阈值,诸如低于98%或高于98%。如果区段的调用率低于阈值,则基因分型过程被认为是失败的。基因分型过程可以跨越许多天,并且因此重复的成本非常高昂。基因分型过程中的失败可由于操作错误(诸如机械或处理错误)或化学处理错误而发生。
基因分型系统可以在基因分型过程完成时提供图像生成芯片区段的过程周期图像以及它们的调用率。所公开的技术可以处理这些区段图像以分类基因分型过程是成功的(区段的良好图像)还是不成功的(区段的不良或失败的图像)。所公开的技术可以进一步处理不良或失败的图像以确定失败类别。当前,系统可以将失败的图像分类为六个失败类别中的一者:由于混合效应、未知原因、弱信号等导致的杂交或混合失败、间隔区移位失败、偏移失败、表面磨蚀失败、试剂流动失败以及总体不健康的图像。随着时间的推移,尤其是当根本原因分析导致改进的生产时,可识别出更多不同的原因。
现在参考图1来提供系统100的其余部件的描述。六个失败类型的失败类别标签可存储在失败类别标签数据库117中。标记的过程图像周期的训练数据集被存储在数据库138中。标记的训练示例可包括成功(良好)和不成功(不良)的过程周期图像。不成功的过程周期图像被标记为属于上文所列出的六个失败类别中的一者。在一个具体实施中,训练数据库138包括至少20,000个训练示例。训练数据库的大小可以增加,因为使用基因分型仪器从实验室收集更多的标记的图像数据。
所公开的技术包括从过程周期图像中提取特征的两种独立的图像处理技术。特征生成器185可用于应用两种技术中的一种技术,以从过程周期图像中提取特征,以用于输入到机器学习模型。第一图像处理技术从通过本征面部分析的面部识别发展而来。从数以万计的标记的图像中识别出相对少量的线性基,诸如40至100或更多的图像分量。形成本征基的一种方法是主成分分析(PCA)。生产周期图像被表示为用于输入到分类器的基图像的加权线性组合。例如,在一个具体实施中,使用标记的图像的分量的96个权重来训练分类器。本征图像的基可以存储在数据库168中。
提取特征的第二图像处理技术包括区段图像的阈值化。图像生成芯片的区段的生产图像捕获若干个物理上分开的区域。在生产图像中可以看到与区段接界的结构和分开区段的物理区域的结构。阈值化技术确定有多少有效区域正在产生期望的信号强度。阈值化技术的输出可以作为分类器的输入提供,以区分良好图像和不良图像。可以进一步评估图像生成芯片的区域和区段之间的失败模式,以用于根本原因分析。
由特征生成器185生成的生产图像的图像特征作为输入被提供给受过训练的分类器151和171。对两种类型的分类器进行训练。良好与不良分类器可以预测成功和不成功的生产图像。根本原因分析分类器可以预测不成功的图像的失败类别。所公开的技术所使用的分类器的一个示例包括随机森林分类器。可以应用的分类器的其他示例包括K最近邻(KNN)、多项式逻辑回归和支持向量机。随着标记的图像的更大主体变得可用,还可以使用卷积神经网络(CNN)。
完成图1的描述、上述系统100的部件均与网络155通信地耦合。实际的通信路径可以是公共和/或专用网络上的点对点。通信可以在各种网络上发生,例如,私有网络、VPN、MPLS电路或互联网,并且可以使用适当的应用编程接口(API)和数据交换格式,例如,具象状态转移(REST)、JavaScript对象符号(JSON)、可扩展标记语言(XML)、简单对象访问协议(SOAP)、Java消息服务(JMS)和/或Java平台模块系统。所有的通信都可以被加密。通信通常经由协议诸如EDGE、3G、4GLTE、Wi-Fi和WiMAX,通过网络,诸如LAN(局域网)、WAN(广域网)、电话网络(公共交换电话网络(PSTN)、会话发起协议(SIP)、无线网络、点对点网络、星形网络、令牌环网络、集线器网络、互联网(包括移动互联网)进行。图1的引擎或系统部件由运行在不同类型的计算设备上的软件来实施。示例性设备是工作站、服务器、计算集群、刀片式服务器和服务器群。另外,各种授权和认证技术,诸如用户名/密码、开放授权(OAuth)、Kerberos、安全的、数字证书等等,可用于保护通信。
特征发生器—系统部件
图2是特征生成器185的部件的高级框图200。这些部件是使用如以下在图11的描述中呈现的多种不同计算机系统来计算机实现的。所例示的部件在被实施时可被合并或进一步分离。特征生成器185由实施两种图像处理技术的两个高级部件组成:基于主成分分析或PCA的特征生成器235和基于图像分割的特征生成器255。基于PCA的特征生成器包括图像缩放器237和本征图像基创建器239。基于图像分割的特征生成器255包括图像转换器257和强度提取器259。在以下部分中,呈现了这些部件的具体实施的进一步细节。
基于PCA的特征生成器
第一图像处理技术从通过本征面部分析的面部识别发展而来。形成本征基的一种方法是主成分分析(PCA)。基于PCA的特征生成器235将PCA应用于经过尺寸调整的处理图像。图像缩放器部件237对过程周期图像进行尺寸调整(或重新缩放)。缩放减小了处理图像的尺寸,使得它们可以由本征图像基创建器部件239以计算有效的方式来处理。在以下部分中呈现了这些部件的详细信息。
图像缩放器
从基因分型仪器或扫描仪获得的较高分辨率的图像可能需要更多的计算资源来处理。从基因分型扫描仪获得的图像由图像缩放器237调整大小,使得以180×80像素的降低的分辨率分析图像生成芯片的区段的图像。在一个实例中,从扫描仪获得的区段的图像具有3600×1600像素的分辨率,并且应用减少到1/20的分辨率来调整图像的尺寸。该分辨率足以区分成功的生产图像和不成功的生产图像,然后在六个失败类别中对失败的根本原因进行分类。可以用相同的方式来处理从原始分辨率的4倍至25倍重新缩放的图像。
所公开的技术可以应用各种插值技术来减小生产图像的尺寸。在一个具体实施中,使用双线性插值来减小区段图像的尺寸。线性插值是一种使用线性多项式来构造具有已知数据点的离散集合的范围的新数据点的曲线拟合方法。双线性插值是用于对二维网格上的两个变量(例如,x和y)的函数进行插值的线性插值的扩展。双线性插值最先在一个方向上使用线性插值,然后同样地在第二方向上使用线性插值来执行。尽管每个步骤在采样值和位置上是线性的,但插值作为一个整体在采样位置上不是线性的而是二次的。还可以使用其他插值技术来减小区段图像的尺寸(重新缩放),诸如使用像素面积关系的最近邻插值和重采样。
本征图像基创建器
应用于区段图像以生成分类器的输入特征的第一图像处理技术是从通过特征面部分析的面部识别发展而来的。从数以万计的标记的图像中,识别出40至100或更多的图像分量的线性基。形成本征图像的基的一种方法是主成分分析(PCA)。如果V的每个元素可以唯一方式被写为B的元素的线性组合,则向量空间V中的元素(向量)的集合B被称为基。等效地,如果B的元素是线性无关的,则B为基,并且V的每个元素是B的元素的线性组合。向量空间可具有若干个基。然而,所有基都具有相同数量的元素,称为向量空间的维度。在我们的技术中,向量空间的基为本征图像。
PCA通常用于通过将d维数据集投影到k维子空间上来减小其维度,其中k<d。例如,训练数据库中的经过尺寸调整的标记的图像描述了维度d=14,400维空间(180×80像素)的向量。换句话讲,图像是14,400维空间中的点。基于本征空间的方法用较低维度特征向量来近似图像向量。该技术背后的主要假定是图像空间(由特征向量给出)具有比图像空间(由图像中的像素数量给出)更低的维度,并且可以在该缩小的空间中执行图像的识别。图像生成芯片的区段的图像在整体配置上相似,将不会随机分布在该巨大的空间中,并且因此可以用相对较低维度的子空间来描述。PCA技术找到最佳地考虑到整个图像空间内的区段图像的分布的向量。这些向量定义了图像的子空间,也称为“图像空间”。在我们的具体实施中,每个向量描述了180×80像素的图像,并且是训练数据中的图像的线性组合。在下面的文本中,呈现了如何使用主成分分析(PCA)来创建本征图像的基的细节。
标记的训练图像的基于PCA的分析可包括以下五个步骤。
步骤1:访问多维相关数据
应用PCA的第一步骤是访问高维数据。在一个实例中,使用20,000个标记的图像作为训练数据。将每个图像的尺寸调整为180×80像素分辨率,并且表示为14,400维空间中的点,每个像素一个维度。该技术可以处理比上述规定更高分辨率或更低分辨率的图像。当从实验室收集更多的标记的图像时,预期训练数据集的大小会增加。
步骤2:数据的标准化
标准化(或Z评分标准化)是重新缩放特征的过程,使得它们具有平均值等于零或μ=0并且与平均值的标准偏差等于1或σ=1的高斯分布的特性。执行标准化以构建彼此具有类似范围的特征。图像的标准评分可以通过从图像中减去平均值(图像)并且将结果除以标准偏差来计算。由于PCA产生使沿轴线的方差最大化的特征子空间,所以它有助于使数据标准化,使得它在轴线上居中。
步骤3:计算协方差矩阵
协方差矩阵是d维空间的d×d矩阵,其中每个元素表示两个特征之间的协方差。两个特征的协方差衡量它们一起变化的趋势。该变化是特征与其平均值的平方偏差的平均值。协方差是特征值与其平均值的偏差的乘积的平均值。考虑特征k和特征j。令{x(1,j),x(2,j),…,x(i,j)}为特征j的i个示例的集合,并且令{x(1,k),x(2,k),…,x(i,k)}为特征k的i个示例的集合。类似地,令为特征j的均值,并且为特征k的均值。特征j和特征k的协方差计算如下:
可以经由以下矩阵等式来表达协方差矩阵的计算:
其中平均向量可以表示为:
均值向量为d维向量,其中该向量中的每个值表示训练数据集中的特征列的样品均值。协方差值σjk可以在-(σij)(σik)(即,逆线性相关)至+(σij)(σik)线性相关之间变化。当两个特征之间不存在相关性时,σjk的值为零。
步骤4:计算本征向量和本征值
协方差矩阵的本征向量和本征值表示PCA的核心。本征向量(或主成分)确定新特征空间的方向,并且本征值确定它们的量值。换句话讲,本征值解释了沿着新特征空间的轴线的数据的变化。本征分解是一种通过使用矩阵的本征向量和本征值来表示矩阵的矩阵分解方法。本征向量被定义为当对其应用线性转换时仅以标量变化的向量。如果A是表示线性转换的矩阵,v是本征向量并且λ是对应的本征值,则它可以表示为Av=λv。方矩阵可具有与其维度一样多的本征向量。如果将所有本征向量表示为矩阵V的列并且将对应的本征值表示为对角矩阵L的条目,则上述等式可以表示为AV=VL。在协方差矩阵的情况下,所有特征向量彼此正交并且是新的特征空间的主要成分。
步骤5:使用可解释方差来选择本征图像的基
对于我们的具体实施,上述步骤可以产生14,400个主成分,等于特征空间的维度。本征对由本征向量和标量本征值组成。可以基于本征值对特征对进行分类,并且使用被称为“可解释方差”的度量来创建本征图像的基。可解释方差指示多少信息(或方差)可以归因于每个主成分。可以在二维图上绘制可解释量度值的结果。沿x轴表示分类的主成分。可以绘制指示累积可解释方差的图。可以选择表示方差的主要部分的前m个成分。
在我们的具体实施中,前40个成分表示可解释方差的高百分比,因此,选择了前40个主成分来形成新的特征空间的基。在其他具体实施中,可以选择25至100个主成分或多于100个主成分,多达256或512个主成分,以创建本征图像的基。待由本征图像分析进行分析的每个生产图像被表示为基图像的加权线性组合。基分量的有序集合的每个权重被用作用于训练分类器的特征。例如,在一个具体实施中,使用标记的图像的分量的96个权重来训练分类器。
所公开的技术可以使用其他图像分解和降维技术。例如,与学习图像的完整表示的PCA相比,非负矩阵分解(NMF)学习图像的基于部分的表示。与PCA不同,NMF学习用一组与图像的部分相似的基图像来表示图像。NMF将矩阵X分解为两个矩阵W和H,具有三个矩阵都不具有负元素的特性。假设矩阵X被设置为使得存在n个数据点(诸如图像生成芯片上的区段的图像),每个数据点具有p维(例如,14,400)。因此,矩阵X具有p行和n列。希望将p维降低到r维,或换句话讲,创建r阶近似。NMF将矩阵X近似为两个矩阵的乘积:W(p行和r列)和H(r行和n列)。
矩阵W的解释是每一列是一个基元素。通过基元素,指存在于n原始数据点(或图像)中的一些分量。这些是构建块,可以根据这些构建块来重建对所有原始数据点或图像的近似。矩阵H的解释是每一列给出基矩阵W中的数据点的坐标。换句话讲,说明了如何根据矩阵W中的构造块的线性组合来重构对原始数据点的近似。在面部图像的情况下,矩阵W中的基元素(或基图像)可包括特征,诸如眼睛、鼻子、唇部等。矩阵H的列指示哪些特征存在于哪个图像中。
基于图像分割的特征生成器
从过程周期图像中提取特征的第二图像处理技术基于图像区域的阈值化。基于图像分割的特征生成器255通过最先使用图像分割器257分割图像生成芯片的区段的图像,然后提取区段图像的有效区域或感兴趣的区域的强度来应用阈值化。该阈值化确定有多少有效区域正在产生期望的信号强度。
图像生成芯片可包括被组织成行和列的多个区段,诸如24、48、96或更多。这种设计使得能够在一个过程周期中处理多个样品,因为可以并行处理许多样品(每区段一个样品)。区段与其他区段物理上分开,使得样品不会彼此混合。另外,区段可被组织成称为“槽”的多个平行区域。因此,在区段和槽的边界处的结构在来自基因分型扫描仪的过程周期图像中可见。下面呈现基于图像分割的特征生成器255的两个部件的细节,该基于图像分割的特征生成器可以实施转换区段图像来提取图像特征的技术。
图像转换器
图像转换器257应用一系列图像转换技术来准备用于从感兴趣的区域提取强度的区段图像。在一个具体实施中,该图像转换和强度提取的过程由以下五个步骤中的一些或全部来执行。图像转换将区段的灰度图像转换成由暗像素和亮像素组成的二值图像。灰度图像和二值图像的有效区域的平均强度值作为输入特征被提供给分类器以将图像分类为健康(良好)或不健康(不良)的图像。在下面的文本中,呈现了图像转换步骤的细节,包括应用阈值化来将灰度图像转换成二值图像。处理步骤包括应用滤波器来移除噪声。
图像转换过程中的第一步骤是应用双向滤波器来处理区段的周期图像。双向滤波器是一种在保持边缘时平滑化图像的技术。双向滤波器用来自每个像素的相邻像素的强度值的加权平均值来替换每个像素的强度。每个相邻像素由惩罚远处像素的空间分量和惩罚具有不同强度的像素的范围分量进行加权。这两个分量的组合确保了仅附近的类似的像素对最终结果有贡献。因此,双向滤波器是平滑化图像的同时保持其不连续性或边缘的有效方式。可以使用其他滤波器,诸如中值滤波器和各向异性扩散。
图像转换中的第二步骤可以是对来自步骤1的输出图像应用阈值化。在一个具体实施中,应用Otsu的方法(Otsu,N.,1979,“A threshold selection method from gray-level histograms”,《IEEE Transactions on Systems,Man,and Cybernetics》,第9卷,第1期),该方法使用强度直方图并且搜索阈值以最大化分配给暗和亮的强度等级的像素之间的灰度方差的加权和。Otsu的方法试图最大化类别间方差。基本思想是,良好阈值化的类别应该相对于其像素的强度值是不同的,并且相反地,根据类别强度值在类别间给出最佳分离的阈值将是最佳阈值。此外,Otsu的方法具有完全基于对图像的直方图执行的计算的特性,该图像是容易获得的一维阵列。更多详细信息,请参阅Gonzalez和Woods的“DigitalImage Processing”(第3版)的第10.3.3节。
图像转换的第三步骤是应用降噪高斯模糊滤波器来移除斑点状噪声。噪声可以用小斑点来污染过程周期图像。高斯滤波是权重随着距中心位置的空间距离而减小的相邻位置的强度的加权平均。
图像转换的第四步骤包括图像形态学操作。通过形态学转换来处理来自第三步骤的二值输出图像以填充图像中的孔。孔可以被定义为由前景像素(由1表示)的相连边界围绕的背景区域(由0表示)。两种基本的图像形态学操作是“腐蚀”和“膨胀”。在腐蚀操作中,内核在二值图像上方滑动(或移动)。如果内核下方的所有像素都为1,则二值图像中的像素(1或0)被认为是1。否则,它被腐蚀(变为0)。腐蚀操作用于移除二值图像中的孤立的1。然而,腐蚀还通过腐蚀边缘来使1的集群收缩。膨胀操作与腐蚀相对。在该操作中,当内核在二值图像上方滑动时,如果内核下方的至少一个像素的值为1,则内核所叠置的二值图像区域中的所有像素的值被改变为1。如果在腐蚀操作之后对二值图像应用膨胀操作,则效果是闭合1的集群内的小孔(由图像中的0表示)。来自该步骤的输出作为输入提供给强度提取器部件259,该强度提取器部件执行该图像转换技术的第五步骤。
强度提取器
强度提取器259通过过滤掉区段和槽的界线处的结构来将区段图像划分为有效区域或片段。强度提取器可以应用不同的分割来将区段图像从八个划分为十七个或更多个有效区域。区段图像中的区域的示例包括四个槽、四个角,角之间的四个边缘,以及在区段和槽的边界处的各种竖直线和水平线。然后从图像中移除对应于分开有效区域的已知结构的区域。剩余有效区域的图像部分由强度提取器259处理。对转换的图像和对应的未转换的图像的每个有效区域提取强度值并且进行平均。例如,如果从转换图像的17个有效区域中提取强度值,则强度提取器还从非转换图像的相同的17个有效区域中提取强度值。因此,从每个区段图像总共提取34个特征。
在二值图像的情况下,有效区域的平均强度可以介于1和0之间。例如,认为暗像素的强度为0并且亮(或空白)像素的强度为1。如果有效区域中的所有像素都为暗像素,则有效区域的平均强度将为0。类似地,如果有效区域中的所有像素为亮像素,则该区域的强度将为1。健康图像中的有效区域在二值图像中显示为空白或亮的,而暗像素表示不健康的图像。还提取灰度图像中对应的有效区域的平均强度。将来自灰度图像和转换的二值图像的有效区域的平均强度作为输入提供给良好与不良分类器。在一个具体实施中,将来自分类器的分类置信度评分与阈值进行比较,以将图像分类为健康(良好)图像或不健康(不良)图像。阈值的示例为80%。较高阈值可导致更多的被分类为不健康的图像。
过程周期图像
现在呈现图像生成芯片上的区段的成功和不成功的生产图像的示例。图4是图像生成芯片上的24个区段的生产图像的图示400。区段以十二行两列排列。每个区段具有四个槽。图示400示出了成功的生产周期的区段图像。还可以使用具有区段的其他配置,诸如包括48、96或更多的区段的图像生成芯片。在下面的附图中,呈现了不成功的生产周期的区段图像的示例。生产过程易受操作和化学处理错误的影响。操作缺陷可由于机械或样品处理问题造成。化学处理错误可由样品中的问题或对样品的化学处理引起。所公开的技术试图对由于操作和化学处理错误而发生的不良处理图像周期进行分类。
图5A示出了来自不成功的生产周期的区段图像的示例510。图5A中的图像生成芯片的第二列和第七行中的区段的图像512在下半部分中是暗色的,并且在顶部部分中是略微浅色的。这种失败的原因与杂交过程有关。因此,区段的失败的图像被标记为“混合(Hyb)”失败。杂交失败也可能由于在图像生成芯片上的样品准备过程中处理样品的机器人的失败而发生。如图所示,该区段的调用率低于98%的阈值。在一些情况下,来自基因分型仪器的区段的调用率可高于通过阈值,但即便如此,区段图像也可能由于杂交错误而失败。
可注意到,在图示510中,在行11和列2处的区段514的图像在右壁上具有暗色区域。这还可以指示处理问题,然而,该图像的总调用率高于通过阈值,并且未被标记为失败的图像。在区段上存在足够的样品冗余,因此具有明显的失败的小面积区段可以被忽略,并且不会在结果中引起错误。例如,在一个实例中,扫描仪从冗余为10的区段上的约700K个探头读取荧光。因此,调用率基于约7百万个探头的读数。在图5B的图示515中呈现了杂交失败的另外的示例。由于杂交失败,图像生成芯片上的虚线框中的四个区段显示出区段的不良生产图像。需注意,这四个区段的调用率值高于通过阈值,但这些区段的图像由于杂交错误而被标记为失败。
图5C呈现了示出由于间隔区移位失败而导致的不成功的处理的九个区段图像的图示520。当在图像生成芯片上在区段上准备样品时,在区段周围放置暗色标记。间隔区将每个区段中的样品与相邻区段中的其他样品分开。如果标记放置不正确,则可能会阻挡部分图像信号。如图5C所示,偏移错误可发生在多个相邻区段上。该图中九个区段的顶部部分表现为暗色。当从左向右移动时,区段的顶部部分的暗部分增加。空间偏移问题是操作错误,因为该问题是由实验室技术人员在图像生成芯片上准备样品期间不准确地放置标记造成的。图5D呈现了由间隔区移位失败而导致的区段的失败的图像的另外三个示例。框525示出了具有间隔区移位失败的五个区段图像,因为区段图像的顶部部分是暗色的,宽度从右上侧到左上侧增加。框527示出了指示由于区段的底部部分处的间隔区移位问题而导致的失败过程的两个区段图像。类似地,框529示出了由于空间偏移问题而失败的两个区段的图像。
图5E示出了由偏移失败造成的不成功的处理所导致的区段的失败的图像的示例。在偏移失败中,图像生成芯片上的区段的图像偏移到一侧。例如,在图示530中,图像生成芯片上的所有区段图像均向左侧移动,因此,图像生成芯片左边缘的暗色外边界从图像中被截断。偏移失败可由扫描错误引起,诸如扫描仪未对准或图像生成芯片在芯片载体上的错误放置。
图5F示出了由于表面磨蚀失败而导致的失败的区段图像的示例。表面磨蚀是由制造过程中或区段上的样品准备过程中图像生成芯片中的区段表面上的划痕引起的。如图示535中所示,划痕在区段的图像上显示为线。需注意,尽管左侧虚线框中的三个区段的调用率值高于通过阈值,但图像被标记为由于表面磨蚀失败而失败。
图5G是由试剂流动失败而导致的失败的区段图像的图示540。由于试剂流动失败,框542中的十个区段图像被标记为失败的图像。由于因试剂流动不当而导致的不成功的过程,区段图像失败。在基因分型过程期间,将试剂从一侧引入图像生成芯片中。试剂从图像生成芯片的一个端部流向相对的端部并且完全覆盖所有区段。有时,试剂的流动存在问题,并且其无法均匀地传播到所有区段。在这种情况下,当足够量的试剂没有覆盖区段时,试剂可能变干。不适当的试剂流动可降低来自一些区段的发射信号强度,由于荧光染料可能不会均匀地分布在所有区段上,因此会影响图像质量。与表示成功的过程周期的区段图像相比,由于试剂流动失败而导致的失败的图像的颜色看起来可能更暗。图5H在图示545中示出了由于试剂流动失败而导致的失败的区段图像的其他示例。如图5G和图5H所示,试剂流动失败可影响图像生成芯片的区域中的多个相邻区段。
图5I呈现了由未知原因导致的失败的图像的示例。失败的区段图像被标记为“不健康”。不健康的失败类别中的失败的图像可由混合的或未识别的原因和弱信号导致。区段的图像的图示550还示出了图像生成芯片的左上方的区段的间隔区失败的示例。左上方位置(第1行和第2列)的图像区段被标记为间隔区失败。可以看出,失败的区段图像的顶部部分是暗色的。顶部的暗色区域的部分从区段图像的右角向左角增加。
基于主成分分析的特征生成
现在呈现本征图像的示例,在面部识别领域中,将其称为本征面部。从数以万计的标记的图像中,识别出40至100或更多的图像分量的线性基。图6A和图6B呈现了通过应用主成分分析(PCA)获得的96个本征图像(610和611)的示例。根据如上所述可解释变异性的量度,基于分量的排序来选择96个本征图像。图6C和图6D示出了来自图6A和图6B中的96个本征图像的排列在前40的本征图像(620和621)。在一个具体实施中,观察到40个分量解释了大部分变异性。所选择的附加分量似乎反映了样品处理中的噪声模式或自然变异性。
现在描述使用PCA的本征图像的基的维度降低和创建。第一步骤是降低区段的图像的分辨率并且准备缩小的图像用于输入到PCA。图7A(标记为710)示出了3600×1600像素分辨率的区段图像,这些区段图像被重新缩放20倍,从而导致尺寸为180×80像素的减小的区段图像。重新缩放的区段图像被展平。所得的展平的重新缩放的区段图像是一维阵列,即每个区段图像14,400×1个像素。如上所述,对展平的重新缩放的区段图像进行标准化,从而得到如图7B所示的标准化的展平的重新缩放的区段图像(标记为740),将其作为输入提供给PCA。PCA因此产生14,400个主成分或本征图像。每个输入图像是14,400维空间中的向量。然后,使用可解释方差来对主成分或本征图像进行排序并且创建基,例如40至100分量的基。这些分量形成线性空间的基。
基于图像分割的特征生成
根据区段的图像来生成特征的第二图像处理技术包括对图像区域或片段进行阈值化。图8A示出了应用于区段图像的基于分割的特征生成的示例810。图示812是图像生成芯片的区段的生产图像。应用图像转换来转换该灰度生产图像812以生成对应的二值图像814。在一个具体实施中,可执行以上参考图像转换器257来呈现的五个步骤中的一些或全部步骤,以将灰度图像转换为二值图像。二值图像814中的暗像素指示不健康或不良的图像像素,而亮像素指示健康或良好的图像像素。
右侧的图示816是指示区段的各个区域以及围绕这些区域的边界或线的区段的示例性示意图。从中记录荧光信号强度的区域也称为有效区域或感兴趣的区域。例如,剖面示意图816指示自上而下彼此平行地延伸的四个槽的有效区域。从图像中滤除区段图像的不是有效区域的区域。例如,槽的界线区域由指示槽的界线或边界的竖直线彼此分开。类似地,可以滤除区段图像的四个边上的边界。分割技术可以将区段图像划分为4至20个或更多的片段或有效区域。该阈值化确定有多少有效区域正在产生期望的信号强度。
有效区域的数量确定每个图像所生成的特征的数量。例如,如果将区段图像分割成八个有效区域,则将转换的图像的八个有效区域的图像强度和转换前的原始区段图像的相同的八个有效区域的图像强度值作为输入提供给分类器。因此,在该示例中,将向分类器提供每个区段图像的总共16个特征。来自有效区域的信号强度的平均强度可用作分类器的输入。例如,如果区段图像被分割成八个有效区域,则针对灰度图像和二值图像计算这八个有效区域的平均强度。将这十六个强度值作为输入提供给分类器,以将区段图像分类为良好与不良。可以使用其他分割方案,这些分割方案将图像分成更少或更多的片段,诸如每个图像4、12、17或更多的片段。如果作为输入提供给随机森林分类器,则为每棵决策树随机地选择特征的子集。决策树将图像投票为健康或不健康。随机森林中的多数投票用于对图像进行分类。在一个具体实施中,随机森林分类器中的树的数量的值在200至500的范围内,并且模型的深度的值在5至40的范围内。可以进一步评估图像生成芯片的区域和区段之间的失败模式,用于根本原因分类。
图8B呈现了三对区段图像822、824和826的图示820。每一对中的左侧图像是预转换的灰度区段图像,并且每一对中的右侧图像是在应用如参考图2所述的图像转换之后处理后的二值图像。第一图像对822是成功的基因分型过程的生产图像。第二图像对824是由于杂交(或混合)失败而失败的生产图像的生产图像。由于表面磨蚀问题,第三图像对826具有一个失败的图像。
一对多(OvR)分类
图9呈现了运行一对多分类器的图形图示900。图示出了在由属于如左图931所示的三个类别(正方形、圆形和三角形)的样品组成的数据集上运行一对多(OvR)分类器的示例。右上图915中所示的第一超平面916示出了针对正方形类别确定为基准真值的超平面。超平面916将正方形类别中的数据点与其余数据点(圆形和三角形)分开。类似地,图936和图955分别经由超平面937和超平面956将数据中的圆形类别和三角形类别中的数据点与数据中的其他类别分开。超平面的位置由权向量确定。训练算法试图最大化超平面与基准真值类别的界限以用于一般化,然而这可导致一个或多个数据点的不正确分类。应用OvR分类来区分来自属于良好类别的过程周期的区段图像与属于多个不良类别的图像。
随机森林分类器
所公开的技术可以应用各种分类器来区分来自良好或健康的图像的图像和属于多个失败类别的不良或不健康的图像。所应用的分类器包括随机森林、K最近邻、多项式逻辑回归和支持向量机。以随机森林分类器为例呈现了所公开的技术的具体实施。
随机森林分类器(也称为随机决策森林)是一种集成机器学习技术。集成技术或算法组合多于一种的相同或不同类型的技术用于分类对象。随机森林分类器由作为整体操作的多个决策树组成。随机森林中的每个单独的决策树充当基本分类器并且输出类别预测。投票最多的类别成为随机森林模型的预测。随机森林背后的基本概念是作为组(committee)运行的大量相对不相关的模型(决策树)将胜过任何单独的组成模型。
所公开的技术在两阶段分类过程中应用随机森林分类器。第一受过训练的随机森林分类器执行将成功的生产图像与不成功的生产图像分开的任务。第二受过训练的随机森林分类器通过预测不成功的图像的失败类别来执行不成功的生成图像的根本原因分析的任务。由于成功的生产运行占主导地位,因此选择了这种两阶段分类,但也可以使用一阶段分类。选择两阶段方法的另一个原因是该方法允许控制灵敏度阈值,以便将图像分类为健康或成功的生产图像与不健康或失败的生产图像。可以在第一阶段分类中增加阈值,从而使得分类器将更多的生产图像分类为失败的图像。然后,这些失败的图像由第二阶段分类器处理,用于通过识别失败类别进行根本原因分析。
随机森林分类器的训练
图10A描述了如图示1000所示的两个随机森林分类器的训练。如图1所示,训练数据包括存储在训练数据库138中的标记的过程周期图像的输入特征。在分类器的一个示例性训练中,使用区段的20,000个标记的生产图像。标记的图像包括来自成功的生产周期的良好图像和来自不成功的生产周期的失败的图像。当从执行基因分型过程的实验室接收到更多的标记的生产图像时,训练数据库138的大小将增大。
在一个具体实施中,使用标记的生产图像的分量的96个权重来训练随机森林分类器。随机森林分类器具有200棵决策树,并且深度为20。应当理解,预期具有200至500棵决策树的范围和10至40的深度范围的随机森林分类器为该具体实施提供良好的结果。使用随机搜索交叉验证调整了超参数。深度的搜索范围是从5至150,并且树的数量的搜索范围是从100至500。增加树的数量可以提升模型的性能,然而,还可以增加训练所需的时间。包括20,000个生产周期图像的特征的训练数据库1001用于训练标记为良好与不良分类器151的二值分类器。相同的训练数据库可用于训练根本原因分类器171以预测失败类别。如图10A所示,根本原因分类器171在仅由不良的或失败的生产图像组成的训练数据库1021上训练。
决策树倾向于过度拟合。为了克服这一问题,装袋(bagging)技术被用来训练随机森林中的决策树。装袋是自举和聚合技术的组合。在自举过程中,在训练期间,从训练数据库中取出行的样品并且用它来训练随机森林中的每棵决策树。例如,所选择的行的特征的子集可用于训练决策树1。因此,用于决策树1的训练数据可被称为行样品1与列样品1或RS1+CS1。可以随机地选择列或特征。通过使用训练数据的子集以类似的方式训练随机森林中的决策树2和随后的决策树。需注意,用于决策树的训练数据是用替换来生成的,即,相同的行数据可用于训练多棵决策树。
装袋技术的第二部分是在生产过程中应用的聚合部分。每棵决策树输出每个类的分类。在二值分类的情况下,它可以是1或0。随机森林的输出是随机森林中决策树的输出的聚合,其中选择多数投票作为随机森林的输出。通过使用来自多个决策树的投票,随机森林减少了决策树结果中的高方差,从而产生良好的预测结果。通过使用行和列采样来训练各个决策树,每棵决策树成为关于具有所选择的特征的训练记录的专家。
在训练期间,将随机森林的输出与基准真值标记进行比较,并且计算预测错误。在后向传播期间,调整96个分量(或本征图像)的权重,使得预测错误减少。分量或本征图像的数量取决于使用可解释方差量度从主成分分析(PCA)的输出中选择的分量的数量。在二值分类期间,良好与不良分类器使用来自训练数据的图像描述特征,并且对良好类别(或健康的标记的图像)与多个不良类别(用六个失败类别中的一者标记的图像)应用一对多(OvR)分类。受过训练的随机森林分类器的参数(诸如分量的权重)被存储用于在推理期间对生产周期图像的良好与不良分类。
以类似的方式执行根本原因分类器171的训练。训练数据库1021包括来自标记的过程周期图像的特征,标记的过程周期图像来自属于多个失败类别的不良过程周期。使用图像描述特征来训练随机森林分类器171,以用于每个失败类别与标记的训练示例的其余部分的一对多(OvR)分类。
使用随机森林分类器的分类
现在描述使用受过训练的分类器151和171的生产图像的分类。图10B示出了在第一阶段使用良好与不良分类器151以及在第二阶段使用根本原因分类器171的生产图像的两阶段分类1080。使用标记为1至9的工艺流程步骤序列来呈现该过程。该过程始于步骤1,访问标记为良好与不良分类器151的受过训练的随机森林分类器。存储在数据库1030中的生产图像的输入特征作为输入被提供给分类器151。分类器将属于成功的过程周期的良好图像与属于失败的过程周期的不良图像区分开。不良图像属于多个失败类别,例如,每个图像可属于如上所述的六个失败类别中的一者。受过训练的分类器访问用来分析生产图像的本征图像的基。受过训练的分类器基于本征图像的线性组合来创建生产图像的图像描述特征。如上所述,在分类器的训练期间学习本征图像的权重。
当应用一对多分类时,随机森林分类器中的所有决策树预测每个类别的输出,即,图像是否属于七个类别(一个良好类别和六个失败类别)中的一者。因此,随机森林中的每棵决策树将输出七个概率值,即每个类别一个值。来自决策树的结果被聚合,并且多数投票用于预测图像是良好的还是不良的。例如,如果随机森林中超过50%的决策树将图像分类为良好,则图像被分类为属于成功的生产周期的良好图像。例如,可以通过将阈值设置得更高来调整分类器的灵敏度,这将导致更多的图像被分类为不良。在处理步骤2中,检查分类器151的输出。如果图像被分类为良好图像(步骤3),则过程结束(步骤4)。否则,如果图像被分类为指示失败的过程周期的不良图像(步骤5),则系统调用根本原因分类器171(步骤6)。
在两阶段处理的第二阶段中应用根本原因分类器以确定不良图像的失败类别。通过访问不良图像的生产图像输入特征(步骤7)并且将输入特征提供给所训练的根本原因分类器171,该过程在第二阶段中继续(步骤8)。根本原因分类器171中的每棵决策树通过应用一对多分类来对输入图像特征进行投票。在这种情况下,分类确定图像是属于六个失败类别中的一者,还是五个失败类别中的其余类别。每棵决策树为每个类别提供分类。来自决策树的多数投票确定图像的失败类别(步骤9)。
可以使用其他分类器对良好区段图像和不良区段图像进行分类,并且执行根本原因分析。例如,所公开的技术可以应用K最近邻(k-NN或KNN)算法来对区段图像进行分类。k-NN算法假设类似的示例(或我们的具体实施中的区段图像)非常接近。k-NN算法通过计算数据点或图像之间的距离来捕获相似性(也称为接近度或接近性)的概念。直线距离(或欧几里得距离)通常用于此目的。在k-NN分类中,输出为类别成员,例如,良好图像类别或不良图像类别。图像通过其相邻图像的多个投票进行分类,其中对象被分配给在其k个最近相邻对象中最常见的类别。k的值为正整数。
为了为数据选择正确的k值,用不同的k值多次运行k-NN算法,并且选择减少遇到错误的数量的k值,同时保持算法在被赋予以前未遇到的数据时准确预测的能力。假设将k的值设置为1。这可导致不正确的预测。考虑具有两个数据点集群:良良好图像和不良图像。如果有被许多良好图像数据点包围,但接近也在良好图像数据点集群中的一个不良图像数据点的查询示例。当k=1时,k-NN不正确地预测查询示例为不良图像。当增加k的值时,由于(分类中的)多数投票和(回归中的)平均,k-NN算法的预测变得更加稳定。因此,该算法更有可能进行更准确的预测,直到达到k的某个值。当k的值增加时,开始观察到增加的错误数量。期望6至50范围内的k值起作用。
可以通过所公开的技术来训练和应用的其他分类器的示例包括多项式逻辑回归、支持向量机(SVM)、梯度增强树、朴素贝叶斯等。使用三个标准来评估分类器的性能:训练时间、准确性和结果的可解释性。随机森林分类器的性能优于其他分类器。在下面的文本中简要介绍其他分类器。
支持向量机分类器的表现也与随机森林分类器一样好。SVM分类器在良好类别的特征向量与多个不良类别的特征向量之间定位超平面。所公开的技术可包括训练多项逻辑回归。可以训练多项回归模型以预测不同的可能结果的概率(多类分类)。当输出是分类的(categorical)情况下使用该模型。因此,可以训练模型来预测图像是属于良好类别还是属于多个不良类别中的一者。逻辑回归分类器的性能低于随机森林和SVM分类器。所公开的技术可包括训练梯度增强模型,该梯度增强模型是预测模型诸如决策树的集成。模型试图通过迭代地选择指向负梯度方向的函数来优化函数空间上的成本函数。例如,可以训练模型以最小化训练数据集上的均方错误。与其他分类器相比,梯度增强模型需要更多的训练时间。所公开的技术可包括训练朴素贝叶斯分类器,该朴素贝叶斯分类器假设特定特征的值与任何其他特征的值无关。朴素贝叶斯分类器认为特征中的每一个特征独立地贡献于属于一个类别的示例的概率。可以训练朴素贝叶斯分类器以将图像分类为良好类别与多个不良类别。
特定具体实施
所公开的技术将图像分类应用于基因分型过程的评估和根本原因分析。由分类器执行两个任务:分离成功和不成功(或失败)的生产图像,然后对不成功的图像进行根本原因分析。所公开的技术可应用于来自基因分型处理仪器的过程周期图像。尽管所公开的技术被描述为对来自基因分型过程的图像进行分类,但是该分类可应用于来自其他类型的过程的图像,所述其他类型的过程在过程期间或者在过程结束时产生定位在图像生成芯片上的样品的图像。
最先呈现成功和不成功的生产图像的分类。在所公开的技术的一个具体实施中,描述了一种用于训练随机森林分类器以对基因分型过程周期图像进行分类的方法。训练分类器的方法包括访问来自属于成功(或良好的或健康的)类别和多个失败(或不良的或不健康的)类别的过程周期的图像的标记的训练示例。该方法可包括访问用来分析图像的本征图像的基。该方法包括基于本征图像的线性组合为每个标记的训练示例创建图像描述特征。该方法包括使用图像描述特征来训练随机森林分类器,以用于标记的训练示例的成功分类与多个失败分类的一对多确定。该方法可包括训练其他分类器,以用于标记的训练示例的成功类别与多个失败类别的一对多确定。例如,该方法可包括训练支持向量机(SVM)分类器。SVM分类器在成功类别的特征向量与其余类别(或者在我们的情况下多个失败类别)的特征向量之间定位超平面。该方法可包括训练多项逻辑回归。可以训练多项回归模型以预测不同的可能结果的概率(多类分类)。当输出是分类的情况下使用该模型。因此,可以训练模型来预测图像是属于成功类别还是属于多个失败类别中的一者。该方法可包括训练梯度增强模型,该梯度增强模型是预测模型诸如决策树的集成。模型试图通过迭代地选择指向负梯度方向的函数来优化函数空间上的成本函数。例如,可以训练模型以最小化训练数据集上的均方错误。该方法可包括训练朴素贝叶斯分类器,该朴素贝叶斯分类器假设特定特征的值与任何其他特征的值无关。朴素贝叶斯分类器认为特征中的每一个特征独立地贡献于属于一个类别的示例的概率。可以训练朴素贝叶斯分类器以将图像分类为成功类别与多个失败类别。存储所训练的分类器的参数,以用于生产过程周期图像的成功分类与失败分类。使用任何上述分类器对生产图像进行分类可以检测失败的生产运行。分类器可以向操作者提供关于基因分型过程的质量的快速反馈。来自分类器的反馈可用于校正上游过程,这样可以减少处理时间和有价值的样品的浪费。
训练用于基因分型过程周期图像的分类器的方法还可以包括创建用来分析图像的本征图像的基。该方法可包括访问本征图像的基。本征图像的基根据可解释变异性的量度进行排序。选择累积地解释高于阈值的变异性的本征图像的最高排序的基来分析过程周期图像。该方法可包括使用所选择的本征图像的基来分析过程周期图像。随机森林分类器可包括100至400棵决策树。随机森林分类器的深度可以介于10和40之间。
在生产具体实施中,该方法将生产过程周期图像分类为成功或失败。该方法包括访问随机森林分类器,该随机森林分类器被训练为将来自属于成功类别的过程周期的图像与属于多个失败类别的图像区分开。该方法可包括访问用来分析生产图像的本征图像的基,以及基于本征图像的线性组合来创建生产图像的图像描述特征。该方法将所训练的随机森林分类器应用于图像描述特征,以用于成功分类与多个失败分类的一对多确定。该方法包括在用户界面上提供通知以基于失败的过程周期确定来重复过程周期。
现在呈现不成功的(或失败的)图像的根本原因分析。在所公开的技术的一个具体实施中,描述了一种用于训练过程周期图像或基因分型过程周期图像的根本原因随机森林分类器的方法。训练分类器的方法包括访问来自属于多个失败类别的失败的过程周期的图像的标记的训练示例。该方法还包括访问用来分析图像的本征图像的基,并且基于本征图像的线性组合来创建每个标记的训练示例的图像描述特征。该方法包括使用图像描述特征来训练随机森林分类器,以用于每个失败类别与标记的训练示例的其余部分的一对多确定。存储所训练的随机森林分类器的参数以用于产生来自失败的过程周期的过程周期图像的根本原因分类。
训练根本原因分类器的方法还可以包括创建用来分析图像的本征图像的基。本征图像的基根据可解释变异性的量度进行排序。选择累积地解释高于阈值的变异性的本征图像的最高排序的基来分析过程周期图像。随机森林分类器可包括100至400棵决策树。随机森林分类器的深度可以介于10和40之间。
在生产具体实施的过程中,根据失败的过程周期图像进行根本原因分析的方法包括访问用来分析失败的生产图像的本征图像的基,以及基于本征图像的线性组合来创建失败的生产图像的图像描述特征。该方法包括访问随机森林分类器,该分类器被训练为区分来自属于多个失败类别中的一者的过程周期的图像。该方法包括将随机森林分类器应用于图像描述特征以用于多个失败类别中的一对多确定,包括对多个失败类别中的每一者与其余部分进行评分,并且使用所得评分来在多个失败类别中选择不良过程周期的可能的根本原因。
所公开的技术可以使用其他特征生成和降维技术来生成分类器的输入。这种技术的示例包括非负矩阵分解(NMF)、独立成分分析、字典学习、稀疏主成分分析、因子分析、小批量K均值。可以使用图像分解和降维技术的变型形式。所公开的技术还可以应用除随机森林分类器之外的分类器来对过程周期图像进行分类。所应用的分类器可包括随机森林、K最近邻(KNN)、多项式逻辑回归、支持向量机(SVM)、梯度增强树、朴素贝叶斯等。随着标记的图像的更大主体变得可用,还可以使用卷积神经网络,诸如ImageNet。
在一个具体实施中,单个方法可以端对端方式来实施成功与失败分类器和根本原因分类器。输入图像作为输入被提供给第一分类器,该第一分类器将成功的图像与失败的图像分开。该方法包括在确定图像描述特征不属于成功类别时访问第二随机森林分类器。第二随机森林分类器被训练为区分来自属于多个失败类别中的一者的过程周期的图像。该方法包括将第二随机森林分类器应用于图像描述特征,以用于多个失败类别中的一对多确定。该方法还包括对多个失败类别中的每一者与其余部分进行评分,并且使用所得评分来在多个失败类别中选择不良过程周期的可能的根本原因。
所公开的技术的另一具体实施使用对区段的图像的区域的阈值化,用于对过程周期图像进行分类。该方法包括根据灰度生产周期图像中的像素强度来确定并且应用阈值,利用该阈值将图像像素分类为亮和暗类别,将灰度图像转换为二值图像。该方法可包括产生亮和暗的图像像素分类。该方法包括将灰度图像和所转换的二值图像分割成八个或更多个区域,这八个或更多个区域将图像中的系统预期噪声与信号分开。该方法包括计算灰度图像和所转换的二值图像中的区域的平均强度值。该方法包括访问随机森林分类器,该分类器被训练为基于灰度和二值图像中的区域的平均强度值对来自过程周期的图像进行分类。图像被分类为属于成功类别或属于失败类别,并且为分类生成置信度评分。该方法可包括将由所训练的随机森林分类器生成的置信度评分与阈值进行比较,并且将图像分类为成功或失败。
在一个具体实施中,上述方法还包括,在转换生产周期图像之前应用双边滤波器以保留生产周期图像中的边缘。
在一个具体实施中,该方法还包括,在对生产周期图像进行转换之后,应用高斯模糊滤波器以从二值图像中移除斑点状噪声。
在一个具体实施中,该方法还包括,在转换生产周期图像之后,应用形态学操作来填充二值图像中的孔,其中形态学操作包括腐蚀和膨胀。
上述计算机实施的方法可在包括计算机硬件的系统中实践。该计算机实施的系统可实践上述方法中的一种或多种。该计算机实施的系统可并入紧接上述或贯穿本申请描述的方法的任何特征,这些特征适用于该系统实现的方法。为了简洁起见,没有单独枚举系统特征的替代组合。适用于系统、方法和制品的特征对于每组法定分类的基本特征并不重复。读者将理解在本部分中识别的特征可如何容易地与在其他法定分类中的基本特征组合。
作为制品而不是方法,非暂态计算机可读介质(CRM)可加载有处理器可执行的程序指令。当程序指令被执行时,实施上述计算机实现的方法中的一种或多种方法。另选地,程序指令可加载在非暂态CRM上,并且当与适当的硬件组合时成为实践本发明所公开的方法的计算机实现的系统中的一者或多者的部件。
在该方法具体实施的该特定具体实施部分中所讨论的特征中的每个特征同样适用于CRM和系统具体实施。如上所示,为简洁起见,所有方法特征在此处不再重复,并且应被视为以引用方式重复。
条款
1.一种训练用于基因分型过程周期图像的随机森林分类器的方法,包括:
访问来自属于成功类别和多个失败类别的过程周期的图像的标记的训练示例;
基于本征图像的线性组合来创建每个标记的训练示例的图像描述特征;
使用所述标记的训练示例的所述图像描述特征来训练所述随机森林分类器;以及
存储所训练的随机森林分类器的参数。
2.根据条款1所述的方法,还包括:
访问本征图像的基;
根据解释的变异性的量度对所述本征图像的基进行排序;以及
选择累积地解释高于阈值的变异性的本征图像的最高排序的基;以及
使用所选择的本征图像的基来分析所述过程周期图像。
3.根据条款1所述的方法,还包括使用所述图像描述特征来训练所述随机森林分类器,以用于所述成功类别和所述多个失败类别的一对多确定。
4.根据条款1所述的方法,其中所述随机森林分类器包括100至400棵决策树。
5.根据条款1所述的方法,其中所述随机森林分类器具有10至40的深度。
6.一种对基因分型过程周期图像进行分类的方法,包括:
访问随机森林分类器,所述随机森林分类器被训练为将来自属于成功类别的过程周期的图像与属于多个失败类别的图像区分开;
基于本征图像的线性组合来创建生产图像的图像描述特征;
将所述随机森林分类器应用于所述图像描述特征;以及
基于失败的过程周期确定,在用户界面上提供重复过程周期的通知。
7.根据条款6所述的方法,还包括使用所述图像描述特征来训练所述随机森林分类器,以用于所述成功类别和所述多个失败类别的一对多确定。
8.一种训练用于基因分型过程周期图像的根本原因随机森林分类器的方法,包括:
访问来自属于多个失败类别的失败的过程周期的图像的标记的训练示例;
基于本征图像的线性组合来创建每个标记的训练示例的图像描述特征;以及
使用所述标记的训练示例的所述图像描述特征来训练所述随机森林分类器;
存储所训练的随机森林分类器的参数。
9.根据条款8所述的方法,还包括使用所述图像描述特征来训练所述随机森林分类器,以用于所述成功类别和所述多个失败类别的一对多确定。
10.一种根据失败的过程周期图像进行根本原因分析的方法,包括:
访问用来分析失败的生产图像的本征图像的基;以及
基于所述本征图像的线性组合来创建所述失败的生产图像的图像描述特征;
访问随机森林分类器,所述随机森林分类器被训练为区分来自属于多个失败类别中的一者的过程周期的图像;以及
将所述随机森林分类器应用于所述图像描述特征以用于所述多个失败类别中的一对多确定,包括对所述多个失败类别中的每一者与其余类别进行评分,并且使用所得评分来在所述多个失败类别中选择所述失败的过程周期的可能的根本原因。
11.根据条款2所述的方法,还包括:
在确定所述图像描述特征不属于所述成功类别时访问第二随机森林分类器,其中所述第二随机森林分类器被训练为区分来自属于所述多个失败类别中的一者的过程周期的图像;以及
将所述第二随机森林分类器应用于所述图像描述特征,包括对所述多个失败类别中的每一者与其余类别进行评分,并且使用所得评分来在所述多个失败类别中选择失败的过程周期的可能的根本原因。
12.一种对基因分型过程周期图像进行分类的方法,包括:
根据灰度生产周期图像中的像素强度来确定并且应用阈值,利用所述阈值将图像像素分类为亮和暗类别,将所述灰度图像转换为二值图像;
将所述灰度图像和所转换的二值图像分割成八个或更多个区域,所述八个或更多个区域将所述图像中的系统预期噪声与信号分开;
计算所述灰度图像和所转换的二值图像中的所述区域的平均强度值;
访问随机森林分类器,所述随机森林分类器被训练为基于所述灰度图像和所述二值图像中的所述区域的所述平均强度值将来自过程周期的所述图像分类为属于成功类别或失败类别,并且将由所训练的随机森林分类器生成的置信度评分与阈值进行比较,并且将所述图像分类为成功或失败。
13.根据条款12所述的方法,还包括:
在转换所述生产周期图像之前应用双边滤波器以保留所述生产周期图像中的边缘。
14.根据条款12所述的方法,还包括:
在转换所述生产周期图像之后,应用高斯模糊滤波器以从所述二值图像中移除斑点状噪声。
15.根据条款12所述的方法,还包括:
在转换所述生产周期图像之后,应用形态学操作来填充所述二值图像中的孔,其中所述形态学操作包括腐蚀和膨胀。
16.一种印有训练用于基因分型过程周期图像的随机森林分类器的计算机程序指令的非暂态计算机可读存储介质,所述指令在处理器上执行时实施一种方法,所述方法包括:
访问来自属于成功类别和多个失败类别的过程周期的图像的标记的训练示例;
基于本征图像的线性组合来创建每个标记的训练示例的图像描述特征;
使用所述标记的训练示例的所述图像描述特征来训练所述随机森林分类器;以及
存储所训练的随机森林分类器的参数。
17.根据条款16所述的非暂态计算机可读存储介质,进一步实施所述方法还包括:
使用所述图像描述特征来训练所述随机森林分类器,以用于所述成功类别和所述多个失败类别的一对多确定。
18.根据条款16所述的非暂态计算机可读存储介质,实施所述方法还包括:
访问本征图像的基;
根据解释的变异性的量度对所述本征图像的基进行排序;
选择累积地解释高于阈值的变异性的本征图像的最高排序的基;以及
使用所选择的本征图像的基来分析所述过程周期图像。
19.根据条款16所述的非暂态计算机可读存储介质,其中所述随机森林分类器包括100至400棵决策树。
20.根据条款16所述的非暂态计算机可读存储介质,其中所述随机森林分类器具有10至40的深度。
21.根据条款18所述的非暂态计算机可读存储介质,实施所述方法还包括:
在确定所述图像描述特征不属于所述成功类别时访问第二随机森林分类器,其中所述第二随机森林分类器被训练为区分来自属于所述多个失败类别中的一者的过程周期的图像;以及
将所述第二随机森林分类器应用于所述图像描述特征,包括对所述多个失败类别中的每一者与其余类别进行评分,并且使用所得评分来在所述多个失败类别中选择失败的过程周期的可能的根本原因。
22.一种印有对基因分型过程周期图像进行分类的计算机程序指令的非暂态计算机可读存储介质,所述指令在处理器上执行时实施一种方法,所述方法包括:
根据灰度生产周期图像中的像素强度来确定并且应用阈值,利用所述阈值将图像像素分类为亮和暗类别,将所述灰度图像转换为二值图像;
将所述灰度图像和所转换的二值图像分割成八个或更多个区域,所述八个或更多个区域将所述图像中的系统预期噪声与信号分开;
计算所述灰度图像和所转换的二值图像中的所述区域的平均强度值;
访问随机森林分类器,所述随机森林分类器被训练为基于所述灰度图像和所述二值图像中的所述区域的所述平均强度值将来自过程周期的所述图像分类为属于成功类别或失败类别,并且将由所训练的随机森林分类器生成的置信度评分与阈值进行比较,并且将所述图像分类为成功或失败。
23.根据条款22所述的非暂态计算机可读存储介质,实施所述方法还包括:
在转换所述生产周期图像之前应用双边滤波器以保留所述生产周期图像中的边缘。
24.一种系统,包括耦合到存储器的一个或多个处理器,所述存储器加载有训练用于过程周期图像的随机森林分类器的计算机指令,所述计算机指令在所述处理器上执行时实施根据条款16所述的指令。
25.根据条款24所述的系统,进一步实施动作包括:
访问本征图像的基;
根据解释的变异性的量度对所述本征图像的基进行排序;以及
选择累积地解释高于阈值的变异性的本征图像的最高排序的基;以及
使用所选择的本征图像的基来分析所述过程周期图像。
26.根据条款24所述的系统,其中所述随机森林分类器包括100至400棵决策树。
27.根据条款24所述的系统,其中所述随机森林分类器具有10至40的深度。
28.根据条款25所述的系统,进一步实施动作包括:
在确定所述图像描述特征不属于所述成功类别时访问第二随机森林分类器,其中所述第二随机森林分类器被训练为区分来自属于所述多个失败类别中的一者的过程周期的图像;以及
将所述第二随机森林分类器应用于所述图像描述特征,包括对所述多个失败类别中的每一者与其余类别进行评分,并且使用所得评分来在所述多个失败类别中选择失败的过程周期的可能的根本原因。
29.一种系统,所述系统包括耦合到存储器的一个或多个处理器,所述存储器加载有对过程周期图像进行分类的计算机指令,所述计算机指令在所述处理器上执行时实施根据条款22所述的指令。
计算机系统
图11是可用于实施本发明所公开的技术的计算机系统1100的简化框图。计算机系统通常包括经由总线子系统1155与多个外围设备通信的至少一个处理器1172。这些外围设备可包括存储子系统1110,该存储子系统包括例如存储器子系统1122和文件存储子系统1136、用户界面输入设备1138、用户界面输出设备1176和网络接口子系统1174。输入设备和输出设备允许用户与计算机系统进行交互。网络界面子系统提供到外部网络的界面,包括到其他计算机系统中的对应界面设备的界面。
在一个具体实施中,对失败的(或不良的)图像进行分类的根本原因分类器171可通信地链接到存储子系统和用户界面输入设备。
用户界面输入设备1138可包括:键盘;指向设备,诸如鼠标、轨迹球、触摸板或图形输入板;扫描仪;结合到显示器中的触摸屏;音频输入设备,诸如语音识别系统和麦克风;以及其他类型的输入设备。一般来讲,使用术语“输入设备”旨在包括将信息输入到计算机系统中的所有可能类型的设备和方式。
用户界面输出设备1176可包括显示子系统、打印机、传真机或非视觉显示器,诸如音频输出设备。显示子系统可包括阴极射线管(CRT)、平板设备诸如液晶显示器(LCD)、投影设备或用于产生可见图像的一些其他机构。显示子系统还可提供非视觉显示器,诸如音频输出设备。一般来讲,使用术语“输出设备”旨在包括将信息从计算机系统输出到用户或输出到另一机器或计算机系统的所有可能类型的设备和方式。
存储子系统1110存储提供本文所述的模块的一些或全部功能和方法的编程和数据构造。这些软件模块通常由处理器单独或与其他处理器组合执行。
在存储子系统中使用的存储器可包括多个存储器,包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)1132和其中存储固定指令的只读存储器(ROM)1134。文件存储子系统1136可为程序文件和数据文件提供持久性存储,并且可包括硬盘驱动器、软盘驱动器以及相关联的可移动介质、CD-ROM驱动器、光盘驱动器或可移动介质磁带盘。实现某些具体实施的功能的模块可由文件存储子系统存储在存储子系统中,或存储在处理器可访问的其他机器中。
总线子系统1155提供用于使计算机系统的各种部件和子系统按照预期彼此通信的机构。尽管总线子系统被示意性地示出为单个总线,但总线子系统的替代具体实施可使用多条总线。
计算机系统本身可具有不同类型,包括个人计算机、便携式计算机、工作站、计算机终端、网络计算机、电视机、主机、服务器群、一组广泛分布的松散联网的计算机或任何其他数据处理系统或用户设备。由于计算机和网络的不断变化的性质,对图11中描绘的计算机系统的描述仅旨在作为用于示出所公开的技术的具体示例。计算机系统的许多其他配置是可能的,其具有比图11中描绘的计算机系统更多或更少的部件。
计算机系统1100包括GPU或FPGA 1178。它还可以包括由机器学习云平台诸如Google云平台、Xilinx和Cirrascale托管的机器学习处理器。深度学习处理器的示例包括Google公司的张量处理单元(TPU)、架装解决方案(如GX4架装系列、GX8架装系列)、NVIDIADGX-1、Microsoft公司的Stratix V FPGA、Graphcore公司的智能处理器单元(IPU)、Qualcomm公司的具有骁龙(Snapdragon)处理器的第零平台(Zeroth Platform)、英伟达(NVIDIA)公司的Volta、英伟达公司的DRIVE PX、英伟达公司的JETSON TX1/TX2 MODULE、Intel公司的Nirvana、Movidius VPU、Fujitsu DPI、ARM公司的DynamicIQ、IBM TrueNorth等。
Claims (20)
1.一种训练用于基因分型过程周期图像的随机森林分类器的方法,所述方法包括:
访问来自属于成功类别和多个失败类别的过程周期的图像的标记的训练示例;
基于本征图像的线性组合来创建每个标记的训练示例的图像描述特征;
使用所述标记的训练示例的所述图像描述特征来训练所述随机森林分类器;以及
存储所训练的随机森林分类器的参数。
2.根据权利要求1所述的方法,所述方法还包括:
访问本征图像的基;
根据解释的变异性的量度对所述本征图像的基进行排序;以及
选择累积地解释高于阈值的变异性的本征图像的最高排序的基;以及
使用所选择的本征图像的基来分析所述过程周期图像。
3.根据权利要求1所述的方法,所述方法还包括使用所述图像描述特征来训练所述随机森林分类器,以用于所述成功类别和所述多个失败类别的一对多确定。
4.根据权利要求1所述的方法,其中所述随机森林分类器包括100至400棵决策树。
5.根据权利要求1所述的方法,其中所述随机森林分类器具有10至40的深度。
6.根据权利要求2所述的方法,所述方法还包括:
在确定所述图像描述特征不属于所述成功类别时访问第二随机森林分类器,其中所述第二随机森林分类器被训练为区分来自属于所述多个失败类别中的一者的过程周期的图像;以及
将所述第二随机森林分类器应用于所述图像描述特征,包括对所述多个失败类别中的每一者与其余类别进行评分,并且使用所得评分来在所述多个失败类别中选择失败的过程周期的可能的根本原因。
7.一种印有训练用于基因分型过程周期图像的随机森林分类器的计算机程序指令的非暂态计算机可读存储介质,所述指令在处理器上执行时实施一种方法,所述方法包括:
访问来自属于成功类别和多个失败类别的过程周期的图像的标记的训练示例;
基于本征图像的线性组合来创建每个标记的训练示例的图像描述特征;
使用所述标记的训练示例的所述图像描述特征来训练所述随机森林分类器;以及
存储所训练的随机森林分类器的参数。
8.根据权利要求7所述的非暂态计算机可读存储介质,实施所述方法还包括:
使用所述图像描述特征来训练所述随机森林分类器,以用于所述成功类别和所述多个失败类别的一对多确定。
9.根据权利要求7所述的非暂态计算机可读存储介质,实施所述方法还包括:
访问本征图像的基;
根据解释的变异性的量度对所述本征图像的基进行排序;
选择累积地解释高于阈值的变异性的本征图像的最高排序的基;以及
使用所选择的本征图像的基来分析所述过程周期图像。
10.根据权利要求7所述的非暂态计算机可读存储介质,其中所述随机森林分类器包括100至400棵决策树。
11.根据权利要求7所述的非暂态计算机可读存储介质,其中所述随机森林分类器具有10至40的深度。
12.根据权利要求9所述的非暂态计算机可读存储介质,实施所述方法还包括:
在确定所述图像描述特征不属于所述成功类别时访问第二随机森林分类器,其中所述第二随机森林分类器被训练为区分来自属于所述多个失败类别中的一者的过程周期的图像;以及
将所述第二随机森林分类器应用于所述图像描述特征,包括对所述多个失败类别中的每一者与其余类别进行评分,并且使用所得评分来在所述多个失败类别中选择失败的过程周期的可能的根本原因。
13.一种印有对基因分型过程周期图像进行分类的计算机程序指令的非暂态计算机可读存储介质,所述指令在处理器上执行时实施一种方法,所述方法包括:
根据灰度生产周期图像中的像素强度来确定并且应用阈值,利用所述阈值将图像像素分类为亮和暗类别,并且将所述灰度生产周期图像转换为二值图像;
将所述灰度图像和所转换的二值图像分割成八个或更多个区域,所述八个或更多个区域将所述图像中的系统预期噪声与信号分开;
计算所述灰度图像和所述转换的二值图像中的所述区域的平均强度值;
访问随机森林分类器,所述随机森林分类器被训练为基于所述灰度图像和所述二值图像中的所述区域的所述平均强度值将来自过程周期的所述图像分类为属于成功类别或失败类别,并且将由所训练的随机森林分类器生成的置信度评分与阈值进行比较,并且将所述图像分类为成功或失败。
14.根据权利要求13所述的非暂态计算机可读存储介质,实施所述方法还包括:
在转换所述生产周期图像之前应用双边滤波器以保留所述生产周期图像中的边缘。
15.一种系统,所述系统包括耦合到存储器的一个或多个处理器,所述存储器加载有训练用于过程周期图像的随机森林分类器的计算机指令,所述计算机指令在所述处理器上执行时实施根据权利要求7所述的指令。
16.根据权利要求15所述的系统,进一步实施动作,包括:
访问本征图像的基;
根据解释的变异性的量度对所述本征图像的基进行排序;以及
选择累积地解释高于阈值的变异性的本征图像的最高排序的基;以及
使用所选择的本征图像的基来分析所述过程周期图像。
17.根据权利要求15所述的系统,其中所述随机森林分类器包括100至400棵决策树。
18.根据权利要求15所述的系统,其中所述随机森林分类器具有10至40的深度。
19.根据权利要求15所述的系统,进一步实施动作,包括:
在确定所述图像描述特征不属于所述成功类别时访问第二随机森林分类器,其中所述第二随机森林分类器被训练为区分来自属于所述多个失败类别中的一者的过程周期的图像;以及
将所述第二随机森林分类器应用于所述图像描述特征,包括对所述多个失败类别中的每一者与其余类别进行评分,并且使用所得评分来在所述多个失败类别中选择失败的过程周期的可能的根本原因。
20.一种系统,所述系统包括耦合到存储器的一个或多个处理器,所述存储器加载有对过程周期图像进行分类的计算机指令,所述计算机指令在所述处理器上执行时实施根据权利要求13所述的指令。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202062968950P | 2020-01-31 | 2020-01-31 | |
US62/968950 | 2020-01-31 | ||
US17/161595 | 2021-01-28 | ||
US17/161,595 US11715200B2 (en) | 2020-01-31 | 2021-01-28 | Machine learning-based root cause analysis of process cycle images |
PCT/US2021/015906 WO2021155291A1 (en) | 2020-01-31 | 2021-01-29 | Machine learning-based root cause analysis of process cycle images |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115004249A true CN115004249A (zh) | 2022-09-02 |
Family
ID=77062917
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180010526.6A Pending CN115004249A (zh) | 2020-01-31 | 2021-01-29 | 基于机器学习的过程周期图像的根本原因分析 |
Country Status (8)
Country | Link |
---|---|
US (1) | US11715200B2 (zh) |
EP (1) | EP4097635A1 (zh) |
JP (1) | JP2023512665A (zh) |
KR (1) | KR20220134752A (zh) |
CN (1) | CN115004249A (zh) |
AU (1) | AU2021213252A1 (zh) |
CA (1) | CA3166380A1 (zh) |
WO (1) | WO2021155291A1 (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220284243A1 (en) * | 2021-03-03 | 2022-09-08 | International Business Machines Corporation | Ensemble voting classifiers using adjusted thresholds |
JP7532288B2 (ja) * | 2021-03-04 | 2024-08-13 | キオクシア株式会社 | 検査結果分析装置および検査結果分析プログラム |
US12119070B2 (en) * | 2021-05-06 | 2024-10-15 | Micron Technology, Inc. | Memory failure prediction |
WO2024148157A1 (en) * | 2023-01-06 | 2024-07-11 | General Mills, Inc. | Vision-based food product reformulation |
CN116484263B (zh) * | 2023-05-10 | 2024-01-05 | 江苏圣骏智能科技有限公司 | 一种智能化自助机故障检测系统及方法 |
CN116628598B (zh) * | 2023-05-15 | 2024-03-12 | 生态环境部华南环境科学研究所(生态环境部生态环境应急研究所) | 一种基于大数据和nmf模型的二噁英来源解析方法及系统 |
CN117909886B (zh) * | 2024-03-18 | 2024-05-24 | 南京海关工业产品检测中心 | 一种基于优化随机森林模型的锯齿棉品级分类方法及系统 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3054279A1 (en) | 2015-02-06 | 2016-08-10 | St. Anna Kinderkrebsforschung e.V. | Methods for classification and visualization of cellular populations on a single cell level based on microscopy images |
WO2017106918A1 (en) | 2015-12-24 | 2017-06-29 | Immunexpress Pty Ltd | Triage biomarkers and uses therefor |
US11449980B2 (en) * | 2016-07-08 | 2022-09-20 | Ats Automation Tooling Systems Inc. | System and method for combined automatic and manual inspection |
WO2018140014A1 (en) | 2017-01-25 | 2018-08-02 | Athelas, Inc. | Classifying biological samples using automated image analysis |
WO2020028382A1 (en) * | 2018-07-30 | 2020-02-06 | Memorial Sloan Kettering Cancer Center | Multi-modal, multi-resolution deep learning neural networks for segmentation, outcomes prediction and longitudinal response monitoring to immunotherapy and radiotherapy |
US11265446B2 (en) | 2018-10-18 | 2022-03-01 | Sony Corporation | Frame handling for ML-based upscaling |
AU2020202249A1 (en) * | 2020-03-30 | 2021-10-14 | Anditi Pty Ltd | Feature extraction from mobile lidar and imagery data |
WO2022015728A1 (en) * | 2020-07-13 | 2022-01-20 | Aquyre Biosciences, Inc. | Cellular diagnostic and analysis methods |
US11860725B2 (en) * | 2020-09-22 | 2024-01-02 | Microsoft Technology Licensing, Llc. | Failure recovery recommendations for CLI commands |
US20220114593A1 (en) * | 2020-10-14 | 2022-04-14 | Paypal, Inc. | Probabilistic anomaly detection in streaming device data |
-
2021
- 2021-01-28 US US17/161,595 patent/US11715200B2/en active Active
- 2021-01-29 JP JP2022545420A patent/JP2023512665A/ja active Pending
- 2021-01-29 AU AU2021213252A patent/AU2021213252A1/en active Pending
- 2021-01-29 KR KR1020227026377A patent/KR20220134752A/ko not_active Application Discontinuation
- 2021-01-29 WO PCT/US2021/015906 patent/WO2021155291A1/en unknown
- 2021-01-29 EP EP21707856.7A patent/EP4097635A1/en active Pending
- 2021-01-29 CN CN202180010526.6A patent/CN115004249A/zh active Pending
- 2021-01-29 CA CA3166380A patent/CA3166380A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
KR20220134752A (ko) | 2022-10-05 |
AU2021213252A1 (en) | 2022-08-25 |
CA3166380A1 (en) | 2021-08-05 |
EP4097635A1 (en) | 2022-12-07 |
US11715200B2 (en) | 2023-08-01 |
WO2021155291A1 (en) | 2021-08-05 |
JP2023512665A (ja) | 2023-03-28 |
US20210241048A1 (en) | 2021-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11715200B2 (en) | Machine learning-based root cause analysis of process cycle images | |
US20220245801A1 (en) | Deep learning-based root cause analysis of process cycle images | |
US11699277B2 (en) | Classification with segmentation neural network for image-based content capture | |
Melnykov et al. | Initializing the EM algorithm in Gaussian mixture models with an unknown number of components | |
US20190347567A1 (en) | Methods for data segmentation and identification | |
CN109145964B (zh) | 一种实现图像颜色聚类的方法和系统 | |
US20230044794A1 (en) | Neural network training device, system and method | |
Vigdor et al. | Accurate and fast off and online fuzzy ARTMAP-based image classification with application to genetic abnormality diagnosis | |
Ghadhban et al. | Segments interpolation extractor for finding the best fit line in Arabic offline handwriting recognition words | |
Dutta et al. | Kannada character recognition using multi-class SVM method | |
Li et al. | Contour extraction of drosophila embryos | |
CN113850274B (zh) | 一种基于hog特征及dmd的图像分类方法 | |
US20230186109A1 (en) | Machine learning-based genotyping process outcome prediction using aggregate metrics | |
Giannakeas et al. | A classification-based segmentation of cDNA microarray images using support vector machines | |
Saidi et al. | Application of pixel selection in pixel-based classification for automatic white blood cell segmentation | |
Castleman et al. | Object Classification | |
Ahmad et al. | Supervised learning methods for skin segmentation classification | |
Chowdhury et al. | Genetic algorithm based global and local feature selection approach for handwritten numeral recognition | |
Giannakeas et al. | Multichannel segmentation of cDNA microarray images using the Bayes classifier | |
Sangeetha et al. | Proficient Prediction of Acute Lymphoblastic Leukemia Using Machine Learning Algorithm | |
Getu et al. | Ancient Ethiopic manuscripts character recognition using Deep Belief Networks | |
Hayder | Deep Structured Models for Large Scale Object Co-detection and Segmentation | |
Singh et al. | Reliable Devanagri handwritten numeral recognition using multiple classifier and flexible zoning approach | |
Li et al. | Gene classification using an improved SVM classifier with soft decision boundary | |
Bhandarkar et al. | Automated analysis of DNA hybridization images for high-throughput genomics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |