CN116894956A - 特征量选择方法以及装置 - Google Patents
特征量选择方法以及装置 Download PDFInfo
- Publication number
- CN116894956A CN116894956A CN202310311119.XA CN202310311119A CN116894956A CN 116894956 A CN116894956 A CN 116894956A CN 202310311119 A CN202310311119 A CN 202310311119A CN 116894956 A CN116894956 A CN 116894956A
- Authority
- CN
- China
- Prior art keywords
- standard deviation
- expert
- expert data
- feature
- feature quantity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010187 selection method Methods 0.000 title claims abstract description 16
- 230000007547 defect Effects 0.000 claims abstract description 106
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 14
- 239000000284 extract Substances 0.000 claims description 10
- 238000007689 inspection Methods 0.000 description 35
- 230000002950 deficient Effects 0.000 description 28
- 238000000034 method Methods 0.000 description 24
- 238000013500 data storage Methods 0.000 description 10
- 230000002159 abnormal effect Effects 0.000 description 9
- 238000013145 classification model Methods 0.000 description 9
- 238000013527 convolutional neural network Methods 0.000 description 7
- 238000007637 random forest analysis Methods 0.000 description 7
- 238000009826 distribution Methods 0.000 description 6
- 238000004519 manufacturing process Methods 0.000 description 5
- 238000003860 storage Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000011148 porous material Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0004—Industrial image inspection
- G06T7/0006—Industrial image inspection using a design-rule based approach
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0004—Industrial image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/255—Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20076—Probabilistic image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30108—Industrial image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30108—Industrial image inspection
- G06T2207/30164—Workpiece; Machine component
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/06—Recognition of objects for industrial automation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Image Analysis (AREA)
- Investigating Materials By The Use Of Optical Means Adapted For Particular Applications (AREA)
Abstract
本发明的课题在于提供一种使用最小限度的专家数据和少数的非专家数据,按每个缺陷模式选择贡献度高的特征量的特征量选择方法。本发明的特征量选择方法具有:从包含各种缺陷形状的图像的专家数据提取多维度的特征量的工序;从包含有限的缺陷形状的图像的非专家数据提取多维度的特征量的工序;计算所提取出的专家数据以及非专家数据各自的特征量的每个维度的标准偏差的工序;计算所计算出的专家数据的每个维度的标准偏差与所计算出的非专家数据的每个维度的标准偏差的每个维度之比的工序;从计算出的标准偏差比中按值从大到小的顺序选择给定数量,将与所选择的标准偏差比相关联的特征量选择为对特定的缺陷模式的贡献度高的特征量。
Description
技术领域
本发明涉及应用于具有使用了神经网络的机器学习功能的检查装置等,用于判定检查对象物的良好与否的学习模型中的特征量选择方法以及特征量选择装置。
背景技术
近年来,通过具有使用了神经网络的机器学习功能的检查装置,针对各种工业产品、部件等检查对象物,判定是正常品(合格品)还是异常品(不合格品)的验货作业的自动化技术的开发正在推进。在这样的检查装置中,通过读入许多被分类为合格品和不合格品的检查对象物的外观的图像数据作为教师数据,来进行学习。并且,通过学习了分类基准的检查装置,能够将由摄像机拍摄到的新的检查对象物分类为合格品和不合格品。
在这样的检查装置中的分类模型的学习中,使用SIFT(Scale-Invariant FeatureTransform:尺度不变特征转换)、CNN(Convolutional Neural Network:卷积神经网络)那样的技法,从教师数据的图像提取特征量,找出正常品或者异常品共同的图案、一贯性,由此能够高精度地进行正常品与异常品的分类。
若考虑作为教师数据而使用异常品的图像,使分类模型学习各种缺陷的形状的情况,则在缺陷中,例如若为铸造品,则如气孔、伤痕、打痕等那样,根据产品的特性、制造方法存在几个种类(缺陷模式),通常,缺陷的形状按每个缺陷模式而较大不同。因此,在从异常品的教师数据提取特征量的情况下,掌握每个缺陷模式所特有的特征量有时有助于高精度的分类模型的构建。
此外,在异常品的图像的收集这方面,可想到收集由熟练者、经验年数长的作业者等专家选定的数据(以下称为“专家数据”。)的情况、和收集由新人、经验年数短的作业者等非专家选定的数据(以下称为“非专家数据”。)的情况。前者若想要仅通过其得到足够量的教师数据,则需要长时间约束熟练者,因此成本方面的效率差,后者能够取得的异常品的种类、形状容易成为平均的种类、形状,在仅将其作为教师数据的情况下,存在无法准确地进行发生概率低的异常品的分类这样的问题。因此,通过组合最小限度的专家数据和容易收集的非专家数据,在抑制成本的同时收集确保了质量的教师数据变得重要。
以往,作为计算分类模型中的说明变量(特征量)的重要度(贡献度)的方法,已知有作为集成学习的一种的随机森林。在检查装置中的分类模型的学习中,作为使用随机森林来筛选贡献度高的特征量的技术,例如已知有专利文献1所记载的技术。
在该专利文献1中,基于预先准备的多个学习数据,使用将多个特征量作为说明变量的随机森林来生成临时分类器,确定在基于该临时分类器的分类中贡献度低的特征量。接下来,基于去除了该贡献度低的特征量的多个学习数据,再次使用随机森林来生成新的临时分类器,将分类的正确回答率与之前生成的临时分类器进行比较。通过反复多次进行这样的过程,最终生成仅使用了对分类的贡献度高的特征量的分类器。
在先技术文献
专利文献
专利文献1:日本特开2016-109495号公报
发明内容
发明所要解决的课题
但是,为了通过随机森林高精度地提取分类模型中的贡献度高的特征量,需要预先准备足够的质和量的教师数据,在足够的学习数据尚未齐备的阶段即使利用随机森林来提取贡献度高的特征量,该特征量在精度高的分类模型中贡献度不高的可能性也变高。
因此,例如在如运转初期的制造线那样,并未得到足够的教师数据的状况下,为了高效地构建精度高的分类模型,需要按每个缺陷模式提取影响大的特征量的情况下,无法使用随机森林来提取特征量,因此要求开发能够从生产线启动初期的少数的不合格品图像按每个缺陷模式选择贡献度高的特征量的新的方法。
本发明为了解决这样的课题而作,其目的在提供一种能够使用最小限度的专家数据和少数的非专家数据,按每个缺陷模式选择贡献度高的特征量的特征量选择方法。
用于解决课题的手段
为了达成该目的,本发明的技术方案1所涉及的特征量选择方法是基于包含各种缺陷形状的图像且按照表示缺陷的种类的每个缺陷模式分类的专家数据、和包含有限的缺陷形状的图像且按照每个缺陷模式分类的非专家数据,选择对特定的缺陷模式的贡献度高的特征量的特征量选择方法,其特征在于,具有:专家特征量提取工序,提取与特定的缺陷模式对应的专家数据,并从所提取出的专家数据中提取多维度的特征量(图3的步骤4);非专家特征量提取工序,提取与特定的缺陷模式对应的非专家数据,并从所提取出的非专家数据中提取多维度的特征量(图3的步骤5);专家标准偏差计算工序,计算所提取出的专家数据的特征量的每个维度的标准偏差(图3的步骤6);非专家标准偏差计算工序,计算所提取出的非专家数据的特征量的每个维度的标准偏差(图3的步骤6);标准偏差比计算工序,计算所计算出的专家数据的特征量的每个维度的标准偏差与所计算出的非专家数据的特征量的每个维度的标准偏差的每个维度之比作为标准偏差比(图3的步骤7);以及特征量选择工序,在所计算出的标准偏差比当中按照值从大到小的顺序选择给定数量,将与该选择的标准偏差比相关联的特征量选择为对特定的缺陷模式的贡献度高的特征量(图3的步骤9)。
在该特征量选择方法中,从少数的专家数据中提取与所希望的缺陷模式对应的数据,从该数据提取多维度的特征量,计算每个维度的标准偏差。在此,该专家数据是例如由熟练的作业者预先选定的数据,是按每个缺陷模式网罗性地包含可能产生的多种多様的缺陷形状的图案的数据,因此从其中提取的特征量成为整体上无遗漏地扩散的分布状态,存在标准偏差变大的倾向。
另一方面,非专家数据例如是由制造线中经验浅的作业者等选定并依次蓄积的数据,设想为包含很多对应的缺陷形状不明确且局限于比较容易检测的平均的缺陷形状的数据。因此,从收集初期的比较少数的非专家数据提取出的特征量成为偏在于平均值的附近的分布状态,存在标准偏差变小的倾向。
关于这样的倾向,进一步具体地进行研究。例如在铸造品的外观检查的情况下,作为检查对象物的特征量,可想到亮度、浓淡周期、位置信息等,但若将其按照图像的每个像素或者扫描图像的每个矩形区域位置来定义,则所得到的特征量超过1000维度的情况也不少见。另一方面,通常,在高精度地对存在多个的缺陷的每个种类(缺陷模式)的缺陷形状进行分类方面重要的(贡献度高)特征量有限,此外,可认为其按每个缺陷模式而不同。
在此,例如在所希望的缺陷模式中的贡献度小的特征量的情况下,在包含各种缺陷形状的专家数据、和可认为仅包含平均的缺陷形状的非专家数据的任一者中,所提取的特征量的分布都较窄,两者的标准偏差之差也较小。因此,该特征量的维度中的标准偏差比也成为较小的值。另一方面,在所希望的缺陷模式中的贡献度大的特征量的情况下,在包含各种缺陷形状的专家数据中提取的特征量的分布宽,标准偏差变大,另一方面,在仅包含平均的缺陷形状的非专家数据中提取的特征量的分布窄,标准偏差不会变得那么大,因而可认为两者的标准偏差之差表现得较大。因此,可认为该特征量的维度的标准偏差比会成为较大的值。
基于以上那样的见解,在本发明中,从所收集到的比较少数的非专家数据中提取与所希望的缺陷模式对应的数据,从该数据中提取与从专家数据提取出的特征量相同维度的特征量,计算每个维度的标准偏差。然后,计算根据专家数据计算出的各特征量的标准偏差与根据非专家数据计算出的各特征量的标准偏差的每个维度之比作为标准偏差比。然后,从标准偏差比中按照值从大到小的顺序选择给定数量,将与该选择的标准偏差比相关联的特征量选择为对特定的缺陷模式的贡献度高的特征量。因此,通过本发明,能够使用最小限度的专家数据和少数的非专家数据,按每个缺陷模式来选择贡献度高的特征量。
本发明的技术方案2所涉及的发明的特征在于,在技术方案1所述的特征量选择方法中,在特征量选择工序中,从所计算出的标准偏差比中的超过给定阈值的标准偏差比之中,按照值从大到小的顺序选择给定数量,将与该选择的标准偏差比相关联的特征量选择为对特定的缺陷模式的贡献度高的特征量。
根据该结构,由于仅将所计算出的标准偏差比中的超过给定阈值的标准偏差比设为选择对象,因此能够选择对特定的缺陷模式的贡献度更高的特征量。因此,能够使用最小限度的专家数据和少数的非专家数据,按每个缺陷模式来选择贡献度更高的特征量。
本发明的技术方案3所涉及的发明的特征在于,在技术方案1所述的特征量选择方法中,作为缺陷模式,包含气孔、伤痕、打痕、切屑残留中的至少一者。
根据该结构,由于作为缺陷模式而包含气孔、伤痕、打痕、切屑残留中的至少一者,因此特别是在铸造品的不合格品图像中,能够使用最小限度的专家数据和少数的非专家数据,按每个缺陷模式来选择贡献度高的特征量。
本发明的技术方案4所涉及的发明的特征在于,在技术方案1所述的特征量选择方法中,在专家数据中,包含基于缺陷形状的实际图像生成的生成图像。
根据该结构,由于作为最小限度的专家数据,不仅包含缺陷形状的实际图像,还包含基于实际图像通过图像生成技术而生成的生成图像,因此能够进一步减少约束熟练的作业者而得到的实际图像的数量。由此,能够进一步降低专家数据的收集所涉及的成本。
本发明的技术方案5所涉及的特征量选择装置是基于包含各种缺陷形状的图像且按照表示缺陷的种类的每个缺陷模式分类的专家数据、和包含有限的缺陷形状的图像且按照每个缺陷模式分类的非专家数据,选择对特定的缺陷模式的贡献度高的特征量的特征量选择装置,其特征在于,具备:专家特征量提取单元(实施方式中的(以下在本项中相同)特征量提取部15),其提取与特定的缺陷模式对应的专家数据,并从所提取出的专家数据中提取多维度的特征量;非专家特征量提取单元(特征量提取部15),其提取与特定的缺陷模式对应的非专家数据,并从所提取出的非专家数据中提取所述多维度的特征量;专家标准偏差计算单元(标准偏差计算部16),其计算所提取出的专家数据的特征量的每个维度的标准偏差;非专家标准偏差计算单元(标准偏差计算部16),其计算所提取出的非专家数据的特征量的每个维度的标准偏差;标准偏差比计算单元(标准偏差比计算部17),其计算所计算出的专家数据的特征量的每个维度的标准偏差与所计算出的非专家数据的特征量的每个维度的标准偏差的每个维度之比作为标准偏差比;以及特征量选择单元(特征量选择部18),其在所计算出的标准偏差比当中按照值从大到小的顺序选择给定数量,将与该选择的标准偏差比相关联的特征量选择为对特定的缺陷模式的贡献度高的特征量。
在该特征量选择装置中,从少数的专家数据中提取与所希望的缺陷模式对应的数据,从该数据中提取多维度的特征量,计算每个维度的标准偏差,并且从所收集到的比较少数的非专家数据中提取与所希望的缺陷模式对应的数据,从该数据中提取与从专家数据提取出的特征量相同维度的特征量,计算每个维度的标准偏差。然后,计算根据专家数据计算出的标准偏差与根据非专家数据计算出的标准偏差的每个维度之比作为标准偏差比。然后,从标准偏差比中按照值从大到小的顺序选择给定数量,将与该选择的标准偏差比相关联的特征量选择为对特定的缺陷模式的贡献度高的特征量。因此,通过本发明,能够使用最小限度的专家数据和少数的非专家数据,按每个缺陷模式来选择贡献度高的特征量。
附图说明
图1是用于说明将基于由本发明的一个实施方式的特征量选择装置选择的特征量而收集到的教师数据用于学习的检查系统的概要的图。
图2是表示本发明的一个实施方式的特征量选择装置的框图。
图3是表示特征量选择装置的特征量选择处理的流程图。
图4是用于说明基于特征量的每个维度的标准偏差比的特征量选择的图。
具体实施方式
以下,参照附图,对本发明的优选实施方式详细进行说明。图1示出了具备使用基于由后述的特征量选择装置11选择的特征量而收集到的不合格品图像的数据(不合格品数据)、以及合格品图像的数据(合格品数据)进行了学习的分类模型的检查系统。该检查系统1例如设置于车辆部件的制造工厂等,通过检查车辆部件的外观来自动地判别所制造的车辆部件(例如缸体)是正常品(合格品)还是异常品(不合格品)。以下,将要检查的车辆部件称为“检查对象物”。
如图1所示,检查系统1具备:输送机2,其沿给定方向以给定速度输送检查对象物G;以及检查装置3,其在检查对象物G到达给定的检查位置时,判定该检查对象物G的良好与否。另外,虽然省略图示,但由检查装置3判定为不合格品的检查对象物G从输送机2去除,或者被输送到不合格品专用的保存场所。
检查装置3主要由计算机所构成的信息处理装置构成,具备控制部4、图像取得部5、存储部6、学习部7、输入部8、输出部9以及摄像机10。
控制部4具备CPU,控制检查装置3的上述各部5~9以及摄像机10等。图像取得部5取得由摄像机10拍摄到的检查对象物G的外观图像作为数字数据。存储部6具有ROM以及RAM,存储有在检查装置3的控制中使用的各种程序,并且存储各种数据。学习部7具有学习了用于判别检查对象物G的良好与否的基准的学习模型。输入部8具有由作业者操作的键盘、鼠标,并且构成为能够从外部输入数据、信号。输出部9具有显示检查对象物G的判定结果的显示器等显示设备。
图2示出了本发明的一个实施方式的特征量选择装置11。该特征量选择装置11用于通过由进行检查对象物G的验货作业的作业者操作,针对不合格品数据中的每个缺陷的种类(缺陷模式)来筛选贡献度高的特征量。由该特征量选择装置11筛选出的贡献度高的特征量的信息通过传递到未图示的教师数据收集装置而有助于使教师数据的收集高效化,或者通过传递到检查装置3的学习部7而有助于使分类模型的学习高效化。
特征量选择装置11与前述的检查装置3同样,由计算机所构成的信息处理装置构成,具备不合格品图像取得部12、非专家数据保存部13、专家数据保存部14、特征量提取部15(专家特征量提取单元、非专家特征量提取单元)、标准偏差计算部16(专家标准偏差计算单元、非专家标准偏差计算单元)、标准偏差比计算部17(标准偏差比计算单元)、特征量选择部18(特征量选择单元)。
不合格品图像取得部12针对由与前述的检查装置3的摄像机10同样的摄像机拍摄到的检查对象物G的外观图像,取得由作业者判定为不合格品的图像作为不合格品数据。
非专家数据保存部13保存由非专家(新人、验货作业的经验年数短的作业者)选定的不合格品数据(非专家数据)。另一方面,专家数据保存部14保存由专家(熟练者、验货作业的经验年数长的作业者)选定的不合格品数据(专家数据)。
在各不合格品数据,预先标注有表示在该不合格品产生的缺陷的种类(缺陷模式)的标签,非专家数据保存部13以及专家数据保存部14将各不合格品数据以能够按该标签进行分类的形式保存。在检查对象物G为铸造品的情况下,作为缺陷模式,能够构成为包含气孔、伤痕、打痕、切屑残留等中的至少一种。在本实施方式中,作为缺陷模式,构成为包含气孔、伤痕、打痕、切屑残留中的任一种。
此外,非专家数据以及专家数据除了分别由非专家以及专家选定的实际的不合格品数据以外,也可以包含基于实际的不合格品数据,使用例如VAE(Variational AutoEncoder:变分自动编码器)、GAN(Generative Adversarial Network:对抗式生成网络)而生成的伪不合格品数据。
特征量提取部15从非专家数据保存部13以及专家数据保存部14中分别提取标注有表示由作业者选择的所希望的缺陷模式的标签的非专家数据以及专家数据,并从所提取出的非专家数据以及专家数据,分别提取给定的特征量(专家特征量提取工序、非专家特征量提取工序)。
例如在铸造品的外观检查的情况下,作为检查对象物的特征量,能够按图像的每个像素或者扫描图像的每个矩形区域位置来提取亮度、浓淡周期、位置信息等。在这样的特征量的提取中,例如能够使用SIFT(Scale-Invariant Feature Transform:尺度不变特征转换)、CNN(Convolutional Neural Network:卷积神经网络)那样的已知的方法。在本实施方式中,构成为作为给定的特征量,例如提取1058维度的特征量。为了方便起见,对各特征量赋予1~1058的特征量编号。
标准偏差计算部16计算所提取出的专家数据的特征量的每个维度的标准偏差作为标准偏差sexp (n)(专家标准偏差计算工序)。此外,计算所提取出的非专家数据的特征量的每个维度的标准偏差作为标准偏差sbase (n)(非专家标准偏差计算工序)。
标准偏差比计算部17计算标准偏差sexp (n)与标准偏差sbase (n)之比作为标准偏差比dfratio(n)(标准偏差比计算工序)。另外,(n)表示特征量编号,dfratio(n)表示特征量编号n的标准偏差比。
特征量选择部18从所计算出的每个维度的标准偏差比dfratio(n)当中按值从大到小的顺序选择给定数量,将所选择的特征量编号的特征量选择为对最初选择的所希望的缺陷模式的贡献度高的特征量(特征量选择工序)。
图3示出了上述的特征量选择装置11对所希望的缺陷模式中的贡献度高的特征量的选择处理。在本处理中,首先在步骤1(图示为“S1”。以下相同)中,取得不合格品图像。在此,在所取得的不合格品图像是由非专家选定的图像时,该不合格品图像作为非专家数据保存于非专家数据保存部13中。另一方面,在所取得的不合格品图像是由专家选定的图像时,该不合格品图像作为专家数据保存于专家数据保存部14中。
关于所取得的不合格品图像是专家和非专家中的哪一方的选定的图像,例如能够构成为基于在操作特征量选择装置11时输入的操作者的属性值来进行判定。或者,也能够构成为取得事先进行了是专家和非专家中的哪一方的选定的图像的标签标注的不合格品图像。在本实施方式中,取得的专家数据以及非专家数据都可以是少数,所以设为取得预先进行了上述的标签标注的不合格品图像的结构。
接着,在步骤2中,确定特征量选择装置11的操作者所选择的缺陷模式,决定成为在本次的处理中选择贡献度高的特征量的对象的缺陷模式(对象缺陷模式),前进至步骤3。
在步骤3中,判定标注有表示在步骤2中所决定的对象缺陷模式的标签的专家数据以及非专家数据的数量是否达到给定数量。该给定数量设定为足以选择对该对象缺陷模式的贡献度高的特征量的数量的数据数,可以在专家数据和非专家数据设定为不同的数量。在本实施方式中,专家数据的必要数例如设定为“30”,非专家数据的必要数例如设定为“200”。在步骤3的判别结果为“否”时,返回至步骤1,再次进行不合格品图像的取得。另一方面,在步骤3的判别结果为“是”时,前进至步骤4。
在步骤4中,提取标注有表示对象缺陷模式的标签的专家数据,从所提取的专家数据中,例如使用SIFT、CNN那样的已知的方法来提取给定维度数的特征量。接着,在步骤5中,提取标注有表示对象缺陷模式的标签的非专家数据,并从所提取出的非专家数据中,提取与专家数据相同给定维度数的特征量。另外,在本实施方式中给定维度数为1058,提取为了方便而标注了1~1058号的特征量编号的特征量。
接着,在步骤6中,计算所提取出的专家数据的特征量的每个维度的标准偏差作为标准偏差sexp (n),并且计算所提取出的非专家数据的特征量的每个维度的标准偏差作为标准偏差sbase (n)。
接着,在步骤7中,计算标准偏差sexp (n)与标准偏差sbase (n)之比作为标准偏差比dfratio(n)(dfratio(n)=sexp (n)/sbase (n))。即,计算与1~1058号的各特征量对应的标准偏差比dfratio(n)。
如上所述,在所希望的缺陷模式中的贡献度小的特征量的情况下,在专家数据和非专家数据的任一者中,所提取的特征量的分布都较窄,两者的标准偏差之差也较小,因此该特征量的标准偏差比dfratio(n)也成为较小的值。另一方面,在所希望的缺陷模式中的贡献度大的特征量的情况下,在专家数据中提取的特征量的分布宽,标准偏差sexp (n)变大,另一方面,在非专家数据中提取的特征量的分布窄,标准偏差sbase (n)不会变得那么大,所以两者的标准偏差之差变大,因此可认为该特征量的标准偏差比dfratio(n)成为较大的值。因此,可以认为,标准偏差比dfratio(n)越大的特征量,对象缺陷模式中的贡献度越高。
在接下来的步骤8中,判别所计算出的各维度的标准偏差比dfratio(n)的值当中的超过给定阈值dref的值是否为给定数量m个以上。给定数量m是作为贡献度高的特征量而想要选择的特征量的数量,能够任意设定。在本实施方式中,给定数量m例如设定为“5”。此外,阈值dref设定为,在标准偏差比dfratio(n)的值为该阈值以下的情况下,能够推定为对所决定的缺陷模式的贡献度不充分大的值。在本实施方式中,阈值dref例如设定为0.4。
在步骤8的判别结果为“否”、超过阈值dref的标准偏差比dfratio(n)比给定数量m个少的情况下,判定为无法选择m个贡献度高的特征量,返回至步骤1,继续不合格品图像的取得。另外,也可以构成为在返回至步骤1时,能够重新设定给定数量m的值。例如,能够将给定数量m变更为“4”,再次执行各处理。
另一方面,在步骤8的判别结果为“是”、超过阈值dref的标准偏差比dfratio(n)具有给定数量m个以上的情况下,判定为能够选择m个贡献度高的特征量,前进至步骤9,从各维度的标准偏差比dfratio(n)中按值从大到小的顺序选择m个,选择与所选择的标准偏差比dfratio(n)相关联的特征量作为对对象缺陷模式的贡献度高的特征量,结束本处理。另外,本处理的结束后,在特征量选择装置11中,通过未图示的显示部等来通知所选择的特征量编号等。
图4是对按特征量的每个维度计算出的标准偏差比的例子进行了图表显示的图。在该例中,能够确认超过阈值dref(设定为0.4设定)的标准偏差比dfratio(n)存在给定数量m(设定为5)个以上,所以会从超过阈值dref的标准偏差比dfratio(n)当中选择上位5个特征量。在该图的例子中,特征量编号为“43”“88”“161”“308”“349”的特征量被选择为对所决定的缺陷模式的贡献度高的特征量。
如以上详述的那样,根据本实施方式,提取标注有表示特定的缺陷模式的标签的专家数据以及非专家数据,计算所提取出的专家数据的特征量的每个维度的标准偏差sexp (n),并且计算所提取出的非专家数据的特征量的每个维度的标准偏差sbase (n),进而计算这些标准偏差之比dfratio(n),选择标准偏差比dfratio(n)的值大的作为对该缺陷模式的贡献度高的特征量。因此,能够使用最小限度的专家数据和少数的非专家数据,按每个缺陷模式选择贡献度高的特征量。
另外,本发明并不限定于所说明的上述实施方式,能够以各种方式实施。例如,在实施方式中,构成为计算出标准偏差比dfratio(n)之后,从超过给定阈值dref的特征量当中选择贡献度高的特征量,但作为更简单的结构,也可以构成为不设定阈值dref,从所有的标准偏差比dfratio(n)中选择值大的特征量。此外,在实施方式中示出的特征量选择装置11的细微部分的结构等仅为例示,能够在本发明的主旨的范围内适当变更。
符号说明
1检查系统
2输送机
3检查装置
4控制部
5图像取得部
6存储部
7学习部
8输入部
9输出部
10摄像机
11特征量选择装置
12不合格品图像取得部
13非专家数据保存部
14专家数据保存部
15特征量提取部
16标准偏差计算部
17标准偏差比计算部
18特征量选择部
G检查对象物。
Claims (5)
1.一种特征量选择方法,基于包含各种缺陷形状的图像且按照表示缺陷的种类的每个缺陷模式分类的专家数据、和包含有限的缺陷形状的图像且按照每个所述缺陷模式分类的非专家数据,选择对特定的所述缺陷模式的贡献度高的特征量,其特征在于,具有:
专家特征量提取工序,提取与所述特定的缺陷模式对应的所述专家数据,并从所提取出的所述专家数据中提取多维度的特征量;
非专家特征量提取工序,提取与所述特定的缺陷模式对应的所述非专家数据,并从所提取出的所述非专家数据中提取所述多维度的特征量;
专家标准偏差计算工序,计算所提取出的所述专家数据的特征量的每个维度的标准偏差;
非专家标准偏差计算工序,计算所提取出的所述非专家数据的特征量的每个维度的标准偏差;
标准偏差比计算工序,计算所计算出的所述专家数据的特征量的每个维度的标准偏差与所计算出的所述非专家数据的特征量的每个维度的标准偏差的每个维度之比作为标准偏差比;以及
特征量选择工序,在所计算出的所述标准偏差比当中按照值从大到小的顺序选择给定数量,将与该选择的标准偏差比相关联的特征量选择为对所述特定的缺陷模式的贡献度高的特征量。
2.根据权利要求1所述的特征量选择方法,其特征在于,
在所述特征量选择工序中,从所计算出的标准偏差比中的超过给定阈值的标准偏差比之中按照值从大到小的顺序选择给定数量,将与该选择的标准偏差比相关联的特征量选择为对所述特定的缺陷模式的贡献度高的特征量。
3.根据权利要求1所述的特征量选择方法,其特征在于,
作为所述缺陷模式,包含气孔、伤痕、打痕、切屑残留中的至少一者。
4.根据权利要求1所述的特征量选择方法,其特征在于,
在所述专家数据中,包含基于缺陷形状的实际图像生成的生成图像。
5.一种特征量选择装置,其基于包含各种缺陷形状的图像且按照表示缺陷的种类的每个缺陷模式分类的专家数据、和包含有限的缺陷形状的图像且按照每个所述缺陷模式分类的非专家数据,选择对特定的所述缺陷模式的贡献度高的特征量,其特征在于,具备:
专家特征量提取单元,其提取与特定的所述缺陷模式对应的所述专家数据,并从所提取出的所述专家数据中提取多维度的特征量;
非专家特征量提取单元,其提取与所述特定的缺陷模式对应的所述非专家数据,并从所提取出的所述非专家数据中提取所述多维度的特征量;
专家标准偏差计算单元,其计算所提取出的所述专家数据的特征量的每个维度的标准偏差;
非专家标准偏差计算单元,其计算所提取出的所述非专家数据的特征量的每个维度的标准偏差;
标准偏差比计算单元,其计算所计算出的所述专家数据的特征量的每个维度的标准偏差与所计算出的所述非专家数据的特征量的每个维度的标准偏差的每个维度之比作为标准偏差比;以及
特征量选择单元,其在所计算出的所述标准偏差比当中按照值从大到小的顺序选择给定数量,将与该选择的标准偏差比相关联的特征量选择为对所述特定的缺陷模式的贡献度高的特征量。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022053352A JP2023146255A (ja) | 2022-03-29 | 2022-03-29 | 特徴量選択方法及び装置 |
JP2022-053352 | 2022-03-29 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116894956A true CN116894956A (zh) | 2023-10-17 |
Family
ID=88193148
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310311119.XA Pending CN116894956A (zh) | 2022-03-29 | 2023-03-28 | 特征量选择方法以及装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230316494A1 (zh) |
JP (1) | JP2023146255A (zh) |
CN (1) | CN116894956A (zh) |
-
2022
- 2022-03-29 JP JP2022053352A patent/JP2023146255A/ja active Pending
-
2023
- 2023-03-22 US US18/187,775 patent/US20230316494A1/en active Pending
- 2023-03-28 CN CN202310311119.XA patent/CN116894956A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US20230316494A1 (en) | 2023-10-05 |
JP2023146255A (ja) | 2023-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7004145B2 (ja) | 欠陥検査装置、欠陥検査方法、及びそのプログラム | |
KR100414032B1 (ko) | 반도체검사장치, 반도체결함해석장치, 반도체설계데이터수정장치, 반도체검사방법, 반도체결함해석방법, 반도체설계데이터수정방법 및 컴퓨터판독가능한 기록매체 | |
JP4014379B2 (ja) | 欠陥レビュー装置及び方法 | |
JP6403261B2 (ja) | 分類器生成装置、外観検査装置、分類器生成方法、及びプログラム | |
JP4616864B2 (ja) | 外観検査方法及びその装置および画像処理評価システム | |
US8625906B2 (en) | Image classification standard update method, program, and image classification device | |
JP4443270B2 (ja) | 欠陥分類方法 | |
JP2013235578A (ja) | 画像処理装置 | |
JP2014021973A (ja) | 画像処理装置 | |
JP7254921B2 (ja) | 半導体試料の欠陥の分類 | |
CN115360116B (zh) | 一种晶圆的缺陷检测方法及系统 | |
JP5405245B2 (ja) | 画像検査方法及び画像検査装置 | |
CN117274245B (zh) | 基于图像处理技术的aoi光学检测方法及系统 | |
JP7404817B2 (ja) | 学習装置、検出装置、学習方法、及び学習プログラム | |
JP2018091771A (ja) | 検査方法、事前画像選別装置及び検査システム | |
CN116894956A (zh) | 特征量选择方法以及装置 | |
JP2007198968A (ja) | 画像分類方法及び画像分類装置 | |
JP4166247B2 (ja) | 半導体設計データ修正方法 | |
JP2011232302A (ja) | 画像検査方法及び画像検査装置 | |
US20230316717A1 (en) | Teacher data collecting method and collecting device | |
JP2007218912A (ja) | プログラム及び検査装置 | |
JP2024092507A (ja) | 外観検査装置および外観検査方法 | |
KR20220167443A (ko) | 인공지능을 활용한 결함 검사 방법 및 인공지능을 활용한 결함 검사 장치 | |
CN116894459A (zh) | 教师数据收集装置 | |
CN116894989A (zh) | 伪不合格品数据生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |