CN113537413A - 特征选择与组合优化算法的零部件缺陷检测区间聚类方法 - Google Patents

特征选择与组合优化算法的零部件缺陷检测区间聚类方法 Download PDF

Info

Publication number
CN113537413A
CN113537413A CN202111078192.4A CN202111078192A CN113537413A CN 113537413 A CN113537413 A CN 113537413A CN 202111078192 A CN202111078192 A CN 202111078192A CN 113537413 A CN113537413 A CN 113537413A
Authority
CN
China
Prior art keywords
data
combination
interval
physical quantity
positive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111078192.4A
Other languages
English (en)
Other versions
CN113537413B (zh
Inventor
邱增帅
王罡
侯大为
潘正颐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changzhou Weiyizhi Technology Co Ltd
Original Assignee
Changzhou Weiyizhi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changzhou Weiyizhi Technology Co Ltd filed Critical Changzhou Weiyizhi Technology Co Ltd
Priority to CN202111078192.4A priority Critical patent/CN113537413B/zh
Publication of CN113537413A publication Critical patent/CN113537413A/zh
Application granted granted Critical
Publication of CN113537413B publication Critical patent/CN113537413B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/62Analysis of geometric attributes of area, perimeter, diameter or volume

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种特征选择与组合优化算法的零部件缺陷检测区间聚类方法,具体步骤如下:第1步骤、采集数据;第2步骤、数据清洗;第3步骤、平衡数据分布;第4步骤、特征选择;第5步骤、设置区间组合,选取较优区间组合并对其进行膨胀优化;第6步骤、将组合中的数据从原数据集中去除,余下数据重复第5步骤,直到所有正样本均被规则选出,得到一系列规则描述,组合优化逼近算法结束。该方法对工业零部件的不同缺陷各个光学面进行正负样本的组合优化聚类区分,并且具有一定的鲁棒性,以确保可以得到多项目的缺陷精准检测及划分。

Description

特征选择与组合优化算法的零部件缺陷检测区间聚类方法
技术领域
本发明涉及图像数据处理的技术领域,尤其是一种特征选择与组合优化算法的零部件缺陷检测区间聚类方法。
背景技术
目前,基于图像数据处理的方法大多是根据经验选取物理量区间进行聚类,物理量权重、光学面及缺陷种类的不同影响着正负样本划分的准确性,存在很多的局限性。最明显的就是线状缺陷的长宽物理量权重较大,不考虑面积物理量;块状缺陷则是缺陷的面积物理量权重较大,不考虑长宽物理量。这导致部分区间组合并不是较优的结果。同时,相同缺陷的光学面不同,使得设置区间组合变得复杂。然而,为了精确的进行工业数据分析,必须找到工件准确的正负样本划分。
发明内容
本发明要解决的技术问题是:为了解决上述背景技术中存在的问题,提供一种特征选择与组合优化算法的零部件缺陷检测区间聚类方法,对工业零部件的不同缺陷各个光学面进行正负样本的组合优化聚类区分,并且具有一定的鲁棒性,以确保可以得到多项目的缺陷精准检测及划分。
本发明解决其技术问题所采用的技术方案是:一种特征选择与组合优化算法的零部件缺陷检测区间聚类方法,具体步骤如下:
第1步骤、采集数据: 由设备机台拍摄出工件图片,读取原始图片中的轮廓点,完成数据采集工作;
第2步骤、数据清洗:进行数据一致性检查、数据缺失值处理以及数据异常值处理;
第3步骤、平衡数据分布:由于变量数据类别分布不平衡,正样本数量极少,负样本数量极多,考虑数据的特殊性采用过采样方法进行平衡,随机复制正样本数据,将正样本的数量扩充到负样本的数量;
第4步骤、特征选择:使用过滤法对扩充后的数据进行特征物理量选择,以方差作为特征物理量评分标准;
第5步骤、设置区间组合,选取较优区间组合并对其进行膨胀优化,具体步骤如下:
第5.1步骤、获取基准点到其余点的欧氏距离:在正样本集合中,通过随机抽样选取一个数据点M作为基准点,以该基准点为中心,筛选附近欧氏距离d以内的正样本为一个集合,d是大于0的实数,使得这个集合内每个正样本距基准点的欧氏距离均小于等于d,以不同距离为标准重复该步骤;
第5.2步骤、设置区间组合:选取距离为d以内的所有点为集合,正样本集合内各特征物理量的极大值、极小值为边界形成区间范围组合,用区间组合对数据集进行筛选,统计区间组合内正负样本量,通过改变距离d来形成不同区间组合;
第5.3步骤、选取较优区间组合并对其进行膨胀优化:将选出正样本多且负样本比例小的区间组合作为一个规则,并将选出的规则进行区间膨胀,使其在不增加负样本的同时最大化区间,以此来增加规则的鲁棒性;
第6步骤、将组合中的数据从原数据集中去除,余下数据重复第5步骤,直到所有正样本均被规则选出,得到一系列规则描述,组合优化逼近算法结束,即从原数据中去除规则内的数据,并用余下数据重复第5步骤,直到数据中没有正样本,得出一系列所有组合优化规则描述,特征选择与组合优化算法完成。
进一步具体地限定,上述技术方案中,在第4步骤中,具体步骤如下:
第4.1步骤:准备变量分布已经平衡好的数据集,计算数据集中每个特征物理量的方差,由于特征物理量的方差取值差异越大,该特征物理量对区分样本的贡献度越大,故从扩充前的数据中选择前 k个贡献度最大的特征物理量进行组合优化,1≤k≤数据总物理量数,且k是正整数;
第4.2步骤:将各特征物理量的方差由大到小进行排列,这里选择方差较大的前k个特征物理量,去除方差较小的特征物理量;
第4.3步骤:从原数据集中选择方差较大的k个特征物理量进行后续的数据处理。
进一步具体地限定,上述技术方案中,所述的特征物理量的方差计算公式如下:
Figure 813839DEST_PATH_IMAGE001
(1)
其中,
Figure 730980DEST_PATH_IMAGE002
表示特征物理量的方差;
Figure 74498DEST_PATH_IMAGE003
表示点物理量X的平均数;
Figure 532025DEST_PATH_IMAGE004
表示该特征物理量在每条数据上的值;n表示数据集中 含正负样本的样本总个数。
进一步具体地限定,上述技术方案中,在第5步骤的第5.1步骤中,所述的欧氏距离d的计算公式如下:
Figure 346397DEST_PATH_IMAGE005
(2)
其中,
Figure 231176DEST_PATH_IMAGE006
表示多维空间点
Figure 560526DEST_PATH_IMAGE007
到多维空间点
Figure 759427DEST_PATH_IMAGE008
的欧氏距离;t表示t维空间,t为大于等于1的正整数;
Figure 992087DEST_PATH_IMAGE009
表示多维空间点 P1的坐标;
Figure 47768DEST_PATH_IMAGE010
表示多维空间点P2的坐标;i为大于等于1的正整数。
进一步具体地限定,上述技术方案中,在第5步骤的第5.2步骤中,取选定正样本集合中,特征物理量a的极大值与特征物理量a的极小值作为特征物理量a的区间;选正样本集合中特征物理量b的极大值与特征物理量b的极小值作为特征物理量b的区间;以此类推找到所有特征物理量的区间,组成此集合中各特征物理量区间的区间组合,并用该区间组合对整体数据进行筛选,统计正负样本数量。
本发明的有益效果是:本发明提供的一种特征选择与组合优化算法的零部件缺陷检测区间聚类方法,通过对缺陷物理量的特征筛选,以减少规则数量,使用组合优化对数据进行样本划分,使得规则内的正样本数量较多,负样本数量维持在相对比例以内,这样就得到了该缺陷光学面下的正负样本组合优化规则划分;该方法可以对工业零部件的不同缺陷各个光学面进行正负样本的聚类区分,同时使得区间规则具有一定的鲁棒性,克服了由于光照条件、工件材质、工件形状等导致的缺陷物理量描述不一的不利因素,完成对多项目的缺陷精准检测及划分。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是工业相机采集原图;
图2是缺陷分布坐标图;
图3是缺陷面积与最小平均亮度分布图;
图4是二维欧氏距离计算图;
图5是组合优化规则算法流程图;
图6是缺陷面积与最小平均亮度规则1划分及膨胀图;
图7是缺陷面积与最小平均亮度规则2划分及膨胀图;
图8是本发明的算法流程图。
具体实施方式
为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
见图5和图8,一种特征选择与组合优化算法的零部件缺陷检测区间聚类方法,具体步骤如下:
第1步骤、采集数据: 由设备机台拍摄出工件图片,读取原始图片中的轮廓点(像素坐标),完成数据采集工作。其中,设备机台可以是电子3C类表面缺陷外观检测设备。工件是电子3C类工件,如手机外壳、笔记本外壳、手机配件等。
第2步骤、数据清洗:进行数据一致性检查、数据缺失值处理以及数据异常值处理。一致性检查即检查数据当中各物理量下有无极大值或极小值与该物理量下大部分数值不同的数据。数据缺失值处理即某条数据中有缺失的数值时,删除该条数据。数据异常值处理即某条数据在某个或某几个物理量下的数值超过了该物理量的取值范围,删除该条数据。
第3步骤、平衡数据分布:由于变量数据类别分布不平衡,正样本数量极少,负样本数量极多,考虑数据的特殊性采用过采样方法进行平衡,这里的数据均为常量数据,是具有实际意义的真实数据。随机复制正样本数据,将正样本的数量扩充到负样本的数量。本发明主要用于缺陷检测,默认缺陷数据为正样本数据,所有非缺陷的数据均为负样本数据。数据为工业真实数据,所有正样本均为缺陷数据,在不遗漏正样本数据的前提下平衡数据分布;选用过采样方法进行平衡,分别统计正/负样本数量,在正样本数据中有放回的随机抽取并复制到正样本数据中,直到正样本的数量与负样本数量相同时停止,数据平衡完成。
第4步骤、特征选择:使用过滤法对扩充后的数据进行特征物理量选择,以方差作为特征物理量评分标准(特征物理量的方差取值差异越大,该特征物理量对区分样本的贡献度越大)。第四步骤的具体步骤如下:
第4.1步骤:准备变量分布已经平衡好的数据集,计算数据集中每个特征物理量的方差,由于特征物理量的方差取值差异越大,该特征物理量对区分样本的贡献度越大,故从扩充前的数据中选择前k个贡献度最大的特征物理量进行组合优化,1≤k≤数据总物理量数,且k是正整数,k表示特征选择之后的物理量个数。过滤法的具体步骤是:采用“数据平衡”之后的数据,以各物理量为组计算每一组的方差(若有100条正负样本,且正样本和负样本各有50条的数据,12个物理量,以物理量为组的时候就有12组数据,每组有100个该物理量的值,得到12个方差),以方差大小作为特征权重的评分标准,方差大的物理量,特征权重高即贡献度大,方差小的物理量,特征权重低,选取特征权重高的前k个物理量作为“特征选择”后的物理量,使用这些物理量进行下面组合优化逼近算法的步骤。
特征物理量的方差计算公式如下:
Figure 802097DEST_PATH_IMAGE011
(1)
其中,
Figure 601426DEST_PATH_IMAGE012
表示特征物理量的方差;
Figure 187128DEST_PATH_IMAGE013
表示点物理量X的平均数;
Figure 616972DEST_PATH_IMAGE004
表示该特征物理量在每条数据上的值;n表示数据集中 含正负样本的样本总个数。需要说明的是,此处的物理量即为特征,以物理量有12个为例, 用字母A、B、C等来表示,100条正负样本(正样本和负样本各有50条)的数据表示n为100,则 物理量A组中有数据A1至A100这100个数据,计算这100个数据的方差则为物理量A的方差,其 余物理量同样适用。
第4.2步骤:将各特征物理量的方差由大到小进行排列,这里选择方差较大的前k个特征物理量,去除方差较小的特征物理量;
第4.3步骤:从原数据集中选择方差较大的k个特征物理量进行后续的数据处理。
第5步骤、设置区间组合,选取较优区间组合并对其进行膨胀优化,具体步骤如下:
第5.1步骤、获取基准点到其余点的欧氏距离:在正样本集合中,通过随机抽样选取一个数据点M作为基准点,以该基准点为中心,筛选附近欧氏距离d以内的正样本为一个集合,d是大于0的实数(d可以是大于等于0的任意数值),使得这个集合内每个正样本距基准点的欧氏距离均小于等于d,以不同距离为标准重复该步骤;假如d=3.5,则说明以点M为中心生成的正样本集合半径为3.5,所有处在集合内的点到点M的距离均小于等于3.5。欧氏距离d的计算公式如下:
Figure 422380DEST_PATH_IMAGE005
(2)
其中,
Figure 759820DEST_PATH_IMAGE014
表示多维空间点
Figure 403291DEST_PATH_IMAGE015
到多维空间点
Figure 800774DEST_PATH_IMAGE016
的欧氏距离;t表示t维空间(数据维度,也就是说该数据的特征物 理量有t个),t为大于等于1的正整数,t的取值范围为[1, t];
Figure 592013DEST_PATH_IMAGE017
表示多维 空间点P1的坐标;
Figure 234609DEST_PATH_IMAGE018
表示多维空间点P2的坐标;i为大于等于1的正整数,i 的取值范围为[1, t]。
Figure 732586DEST_PATH_IMAGE019
表示多维空间点P1的坐标,若t= 1,则多维空间点P1位于一维 空间,其坐标为x1;若t= 2,则多维空间点P1位于二维空间,其坐标为(x1,x2);若t= 3,则多 维空间点P1位于三维空间,其坐标为(x1,x2,x3);若t= 4,则多维空间点P1位于四维空间,其 坐标为(x1,x2,x3,x4)。
Figure 566550DEST_PATH_IMAGE020
表示多维空间点P2的坐标,若t= 1,则多维空间P2位于一维空 间,其坐标为y1;若t= 2,则多维空间P2位于二维空间,其坐标为(y1,y2);若t= 3,则多维空 间点P2位于三维空间,其坐标为(y1,y2,y3);若t= 4,则多维空间点P2位于四维空间,其坐标 为(y1,y2,y3,y4)。
第5.2步骤、设置区间组合:选取距离为d以内的所有点为集合,正样本集合内各特征物理量的极大值、极小值为边界形成区间范围组合(例如:假设特征选择之后,数据集中保留A、B、C三个物理量且A、B、C位于正样本集合内距离为d范围内的极大值、极小值分别是[40,100],[12,19],[500,8800],随机选取的正样本数据点M(80,15,5000)必定在此范围内(初步选择的区间组合是以正样本物理量的极大值、极小值为边界形成的区间,随机选择任何正样本点都会在这个区间组合内),此时的区间组合1见表1),用区间组合对数据集进行筛选,统计区间组合内正负样本量,通过改变距离d来形成不同区间组合。具体地,取选定正样本集合中,特征物理量a的极大值与特征物理量a的极小值作为特征物理量a的区间;选正样本集合中特征物理量b的极大值与特征物理量b的极小值作为特征物理量b的区间;以此类推找到所有特征物理量的区间,组成此集合中各特征物理量区间的区间组合,并用该区间组合(该区间组合为区间组合1的形式)对整体数据进行筛选,统计正负样本数量。例如:分别统计符合区间组合1点集合的正负样本数量,并记录下来;在距离为d的情况下,符合区间组合1条件的正、负样本点集合占比为60:40。这是初步形成的区间组合,该区间组合为选定正样本数据集中物理量的极大值、极小值,例如物理量A在选定正样本数据集中的极小值为40,极大值为100,任意处在选定正样本数据集中的点其物理量A数值均在[40,100]之内,其他物理量同理。
表1
区间组合1 40≤A<sub>M</sub>≤100;且12≤B<sub>M</sub>≤19;且500≤C<sub>M</sub>≤8800
区间组合2 80≤A<sub>M</sub>≤100;且12≤B<sub>M</sub>≤17;且4100≤C<sub>M</sub>≤8800
区间组合3 80≤AM≤+
Figure 579506DEST_PATH_IMAGE021
;且-
Figure 462011DEST_PATH_IMAGE021
≤BM≤17;且4100≤CM≤+
Figure 440593DEST_PATH_IMAGE021
其中,表1中的AM表示点M在物理量A上的值;BM表示点M在物理量B上的值;CM表示点M在物理量C上的值;-
Figure 383142DEST_PATH_IMAGE021
表示负无穷,向下取值没有界限;+
Figure 883393DEST_PATH_IMAGE021
表示正无穷,向上取值没有界限;80≤AM≤+
Figure 366327DEST_PATH_IMAGE021
可以写作80≤AM;-
Figure 838897DEST_PATH_IMAGE021
≤BM≤17可以写作BM≤17。
第5.3步骤、选取较优区间组合并对其进行膨胀优化:将选出正样本多且负样本比例小的区间组合作为一个规则,并将选出的规则进行区间膨胀(规则区间膨胀后的区间组合3见表1),使其在不增加负样本的同时最大化区间,以此来增加规则的鲁棒性。例如:距离为d的情况下区间组合1中正样本点集合、负样本点集合占比为60:40,但是若去掉一个正样本时,正样本点集合、负样本点集合占比为59:15,符合正样本比例多且负样本比例尽量减小的要求,此时新的区间组合(较优区间组合,区间组合2见表1)。规则区间膨胀中,各物理量区间的膨胀步伐的计算公式如下:
Figure 14663DEST_PATH_IMAGE022
(3)
其中,f表示各物理量区间的膨胀步伐;Max表示各物理量的最大值;Min表示各物 理量的最小值;n表示数据集中含正负样本的样本总个数。例如样本数为1000,区间组合1中 物理量A的膨胀步伐为
Figure 503676DEST_PATH_IMAGE023
=0.06。膨胀方法为(40-0.06*U)以及(100+0.06*V),其中, U和V均为收缩步伐系数,U为大于等于1的正整数,V为大于等于1的正整数。(40-0.06*U)表 示以物理量A区间的下边界值为起始点逐渐向外膨胀,当U=2时表示物理量A的区间下边界 向外膨胀两个单位,物理量A的区间下边界由40变换为(40-0.06*2)=39.88,区间增大了 0.12。(100+0.06*V)表示以物理量A的区间上边界为起始点逐渐向外膨胀,当V=1时表示物 理量A的区间上边界向外膨胀一个单位,物理量A的区间上边界由100变换为(100+0.06*1)= 100.06,区间增大了0.06。在区间组合1中保持物理量B、C不变的情况下逐步增加物理量A的 膨胀步伐,即U、V的值,直到区间内增加一个膨胀单位会导致正/负样本比例产生变动时停 止,(规则区间膨胀的前提是要保证膨胀不会影响区间内样本比例的变化),若膨胀后的值 超过了该物理量的取值范围则用-
Figure 727983DEST_PATH_IMAGE021
(超过取值下限)或+
Figure 851797DEST_PATH_IMAGE021
(超过取值上限)来表示,其他物 理量区间膨胀方法相同,直到所有物理量完成膨胀工作时停止,膨胀后的规则区间组合为 局部较优区间组合。
第6步骤、将组合中的数据从原数据集中去除,余下数据重复第5步骤,直到所有正样本均被规则选出,得到一系列规则描述,组合优化逼近算法结束,即从原数据中去除规则内的数据,并用余下数据重复第5步骤,直到数据中没有正样本,得出一系列所有组合优化规则描述,特征选择与组合优化算法完成。在得出区间组合1(见表1所示)后,将符合区间组合1的数据从数据集中去除,余下的数据生成区间组合2(见表1所示),以此类推,这样可以避免符合之前生成区间组合的数据影响后续区间组合的效果。一系列组合规则描述可以是:区间组合1∪区间组合2∪区间组合3∪...... ∪区间组合g,其中的g∈[1,∞]且g为正整数;符号∪表示各个区间组合之间的关系为或,即符合任意一个区间组合的规则时将较优划分出正负样本。一系列组合规则描述也可以是这样的:(A1∩B1∩C1)∪(A2∩B2∩C2)∪(A3∩B3∩C3)∪……∪(Ag∩Bg∩Cg),其中的g∈[1,∞]且g为正整数;符号∪表示各个区间组合之间的关系为或,符号∩表示各个区间组合内的物理量之间的关系为且。
假如新数据集中数据不符合已有的一系列组合规则(4条),将新数据集放入算法内重复第5、6步骤,直到新数据集内没有正样本,将新生成的2条规则与已有的一系列组合规则(4条)合并成为新的组合规则,该组合规则内含6条规则。
见图1,它是工业相机采集原图。从该图中可以看出工件形状,缺陷数据需要读取轮廓像素等信息进行提取。
见图2,它是缺陷分布坐标图,横坐标的单位是像素;纵坐标的单位也是像素;从该图中可以看出缺陷分布的大致位置。
见图3,它是缺陷面积与最小平均亮度分布图,缺陷面积的单位用像素来表示;最小平均亮度的单位用亮度值来表示;从该图中可以看出缺陷面积与最小平均亮度的大致分布。
见图4,它是二维欧氏距离计算图,缺陷面积的单位用像素来表示;最小平均亮度的单位用亮度值来表示;图中显示基准点M到点K的欧氏距离dK
见图6,它是缺陷面积与最小平均亮度规则1划分及膨胀图,缺陷面积的单位用像素来表示;最小平均亮度的单位用亮度值来表示;图中显示基准点M1的位置,小框区域为膨胀前的规则,大框区域为膨胀后的规则。
见图7,它是缺陷面积与最小平均亮度规则2划分及膨胀图,缺陷面积的单位用像素来表示;最小平均亮度的单位用亮度值来表示;图中显示基准点M2的位置,小框区域为膨胀前的规则,大框区域为膨胀后的规则。
以上所述的,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (5)

1.一种特征选择与组合优化算法的零部件缺陷检测区间聚类方法,其特征在于,具体步骤如下:
第1步骤、采集数据: 由设备机台拍摄出工件图片,读取原始图片中的轮廓点,完成数据采集工作;
第2步骤、数据清洗:进行数据一致性检查、数据缺失值处理以及数据异常值处理;
第3步骤、平衡数据分布:由于变量数据类别分布不平衡,正样本数量极少,负样本数量极多,考虑数据的特殊性采用过采样方法进行平衡,随机复制正样本数据,将正样本的数量扩充到负样本的数量;
第4步骤、特征选择:使用过滤法对扩充后的数据进行特征物理量选择,以方差作为特征物理量评分标准;
第5步骤、设置区间组合,选取较优区间组合并对其进行膨胀优化,具体步骤如下:
第5.1步骤、获取基准点到其余点的欧氏距离:在正样本集合中,通过随机抽样选取一个数据点M作为基准点,以该基准点为中心,筛选附近欧氏距离d以内的正样本为一个集合,d是大于0的实数,使得这个集合内每个正样本距基准点的欧氏距离均小于等于d,以不同距离为标准重复该步骤;
第5.2步骤、设置区间组合:选取距离为d以内的所有点为集合,正样本集合内各特征物理量的极大值、极小值为边界形成区间范围组合,用区间组合对数据集进行筛选,统计区间组合内正负样本量,通过改变距离d来形成不同区间组合;
第5.3步骤、选取较优区间组合并对其进行膨胀优化:将选出正样本多且负样本比例小的区间组合作为一个规则,并将选出的规则进行区间膨胀,使其在不增加负样本的同时最大化区间,以此来增加规则的鲁棒性;
第6步骤、将组合中的数据从原数据集中去除,余下数据重复第5步骤,直到所有正样本均被规则选出,得到一系列规则描述,组合优化逼近算法结束,即从原数据中去除规则内的数据,并用余下数据重复第5步骤,直到数据中没有正样本,得出一系列所有组合优化规则描述,特征选择与组合优化算法完成。
2.根据权利要求1所述的特征选择与组合优化算法的零部件缺陷检测区间聚类方法,其特征在于:在第4步骤中,具体步骤如下:
第4.1步骤:准备变量分布已经平衡好的数据集,计算数据集中每个特征物理量的方差,由于特征物理量的方差取值差异越大,该特征物理量对区分样本的贡献度越大,故从扩充前的数据中选择前 k个贡献度最大的特征物理量进行组合优化,1≤k≤数据总物理量数,且k是正整数;
第4.2步骤:将各特征物理量的方差由大到小进行排列,这里选择方差较大的前k个特征物理量,去除方差较小的特征物理量;
第4.3步骤:从原数据集中选择方差较大的k个特征物理量进行后续的数据处理。
3.根据权利要求2所述的特征选择与组合优化算法的零部件缺陷检测区间聚类方法,其特征在于:所述的特征物理量的方差计算公式如下:
Figure 309597DEST_PATH_IMAGE001
(1)
其中,s2表示特征物理量的方差;
Figure 164421DEST_PATH_IMAGE002
表示点物理量X的平均数;
Figure 944158DEST_PATH_IMAGE004
表示该特征物理量在每条数据上的值;n表示数据 集中含正负样本的样本总个数。
4.根据权利要求1所述的特征选择与组合优化算法的零部件缺陷检测区间聚类方法,其特征在于:在第5步骤的第5.1步骤中,所述的欧氏距离d的计算公式如下:
Figure 277050DEST_PATH_IMAGE005
(2)
其中,
Figure 29106DEST_PATH_IMAGE006
表示多维空间点
Figure 851568DEST_PATH_IMAGE007
到多维空间点
Figure 546031DEST_PATH_IMAGE008
的欧氏距离;t表示t维空间,t为大于等于1的正整数;
Figure 682614DEST_PATH_IMAGE009
表示多维空间 点P1的坐标;
Figure 351493DEST_PATH_IMAGE010
表示多维空间点P2的坐标;i为大于等于1的正整数。
5.根据权利要求1所述的特征选择与组合优化算法的零部件缺陷检测区间聚类方法,其特征在于:在第5步骤的第5.2步骤中,取选定正样本集合中,特征物理量a的极大值与特征物理量a的极小值作为特征物理量a的区间;选正样本集合中特征物理量b的极大值与特征物理量b的极小值作为特征物理量b的区间;以此类推找到所有特征物理量的区间,组成此集合中各特征物理量区间的区间组合,并用该区间组合对整体数据进行筛选,统计正负样本数量。
CN202111078192.4A 2021-09-15 2021-09-15 特征选择与组合优化算法的零部件缺陷检测区间聚类方法 Active CN113537413B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111078192.4A CN113537413B (zh) 2021-09-15 2021-09-15 特征选择与组合优化算法的零部件缺陷检测区间聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111078192.4A CN113537413B (zh) 2021-09-15 2021-09-15 特征选择与组合优化算法的零部件缺陷检测区间聚类方法

Publications (2)

Publication Number Publication Date
CN113537413A true CN113537413A (zh) 2021-10-22
CN113537413B CN113537413B (zh) 2022-01-07

Family

ID=78092574

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111078192.4A Active CN113537413B (zh) 2021-09-15 2021-09-15 特征选择与组合优化算法的零部件缺陷检测区间聚类方法

Country Status (1)

Country Link
CN (1) CN113537413B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472510A (zh) * 2019-07-16 2019-11-19 上海电力学院 基于红外及可见图像的电力设备故障检测方法及评估设备
CN112001909A (zh) * 2020-08-26 2020-11-27 北京科技大学 基于图像特征融合的粉末床缺陷视觉检测方法
CN113096130A (zh) * 2021-06-09 2021-07-09 常州微亿智造科技有限公司 物件缺陷的检测方法、装置
CN113313709A (zh) * 2021-07-14 2021-08-27 常州微亿智造科技有限公司 工业部件的缺陷检测方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472510A (zh) * 2019-07-16 2019-11-19 上海电力学院 基于红外及可见图像的电力设备故障检测方法及评估设备
CN112001909A (zh) * 2020-08-26 2020-11-27 北京科技大学 基于图像特征融合的粉末床缺陷视觉检测方法
CN113096130A (zh) * 2021-06-09 2021-07-09 常州微亿智造科技有限公司 物件缺陷的检测方法、装置
CN113313709A (zh) * 2021-07-14 2021-08-27 常州微亿智造科技有限公司 工业部件的缺陷检测方法和装置

Also Published As

Publication number Publication date
CN113537413B (zh) 2022-01-07

Similar Documents

Publication Publication Date Title
CN113450307B (zh) 一种产品边缘缺陷检测方法
CN107169487B (zh) 基于超像素分割及深度特征定位的显著性目标检测方法
CN109859226B (zh) 一种图形分割的棋盘格角点亚像素的检测方法
CN109839385B (zh) 一种自适应的pcb板缺陷视觉定位检测及分类系统
CN111161222B (zh) 一种基于视觉显著性的印刷辊筒缺陷检测方法
CN105068918B (zh) 一种页面测试方法及装置
CN115272312B (zh) 基于机器视觉的塑料手机外壳缺陷检测方法
CN114596551A (zh) 一种车载前视图像裂缝检测的方法
CN113159064A (zh) 基于精简的YOLOv3电路板电子元件目标检测的方法与装置
CN115375629A (zh) 一种lcd屏幕中线缺陷检测及缺陷信息提取方法
CN105786957B (zh) 一种基于单元格邻接关系与深度优先遍历的表格排序方法
CN110009615A (zh) 图像角点的检测方法及检测装置
US20110164129A1 (en) Method and a system for creating a reference image using unknown quality patterns
CN115082477A (zh) 一种基于去反光效果的半导体晶圆加工质量检测方法
CN104809721B (zh) 一种漫画分割方法及装置
CN114140416A (zh) 一种基于机器视觉的玻璃边缘检测方法和系统
CN109271997A (zh) 一种基于跳跃细分局部模式的图像纹理分类方法
CN113537413B (zh) 特征选择与组合优化算法的零部件缺陷检测区间聚类方法
CN113538423B (zh) 基于组合优化算法的工业零部件缺陷检测区间聚类方法
CN103679170B (zh) 一种基于局部特征的显著区域检测方法
CN108960285B (zh) 一种分类模型生成方法、舌体图像分类方法及装置
CN114862765B (zh) 一种细胞分层图像处理方法
CN115311293A (zh) 一种印刷品图案的快速匹配方法
CN104156696B (zh) 基于双方向图的快速局部不变特征描述子的构造方法
CN110348458B (zh) 一种基于局部方向极值模式的图像纹理分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant