CN110852355B - 一种基于knn的标签数据分类方法 - Google Patents

一种基于knn的标签数据分类方法 Download PDF

Info

Publication number
CN110852355B
CN110852355B CN201911012573.5A CN201911012573A CN110852355B CN 110852355 B CN110852355 B CN 110852355B CN 201911012573 A CN201911012573 A CN 201911012573A CN 110852355 B CN110852355 B CN 110852355B
Authority
CN
China
Prior art keywords
debugging
data
classification
characteristic
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911012573.5A
Other languages
English (en)
Other versions
CN110852355A (zh
Inventor
卢清华
陈奎
刘哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Foshan University
Original Assignee
Foshan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Foshan University filed Critical Foshan University
Priority to CN201911012573.5A priority Critical patent/CN110852355B/zh
Publication of CN110852355A publication Critical patent/CN110852355A/zh
Application granted granted Critical
Publication of CN110852355B publication Critical patent/CN110852355B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明提供了一种基于KNN的标签数据分类方法,其特征在于:包括调试阶段和应用阶段;调试阶段包括如下步骤:载入调试图像、预处理、blob分析、制作分类标签、调试特征数据与分类标签绑定、设定参数、训练数据、判断分类准确率;应用阶段包括如下步骤:载入采集图像、预处理、blob分析、数据分类。该分类方法针对工业产品检测所得数据分类,可减少运算量,提高响应速度,并可提高分类准确率。

Description

一种基于KNN的标签数据分类方法
技术领域
本发明涉及图像特征分类技术领域,更具体地说,涉及一种基于KNN的标签数据分类方法。
背景技术
随着互联网时代的发展,AI人工智能技术逐渐成为关注焦点。在工业生产中往往会出现不合格产品,如何将不合格产品进行分类是目前比较火热的研究方向。
目前有两种分类方法:
一、传统的机器学习:对于机器学习对数据图像进行分类需要做一个特征工程提取图像特征,将特征贴上一个标签进行分类,机器学习的优点在于机器学习不需要高端的硬件设备,机器学习算法通过一个合适的CPU就可以进行对数据的分类处理,并且处理速度快,符合工业对人工智能时效性的需求,可以应用于工业生产检测分类,机械手抓取不同类别物体等应用场景;
二、深度学习神经网络:对于深度学习神经网络对数据图片分类优点在于可以不需要特征工程,但是神经网络需要大量的数据集并用合适的网络对数据进行训练,训练周期比较长而且需要高端的硬件设备(GPU,SSD,CPU,RAM),而且技术目前不太成熟,在工业上的应用也是从2015年开始,目前研究人员也不能完全了解深层网络的“内部”。由于缺乏理论基础、超参数和网络设计也是一个相当大的挑战。
对比深度学习神经网络需要大量采集样本进行训练,花费时间多,需要制作多个训练模型才能适应工业检测对时间的需求;反观机器学习可以快速的对数据进行分析比较进而达到预测的目的。因此,技术比较成熟的机器学习更适用于工业领域对物体检测数据进行分类。但是目前机器学习分类方法缺乏针对工业产品检测数据分类的方法。
发明内容
为克服现有技术中的缺点与不足,本发明的目的在于提供一种基于KNN的标签数据分类方法。该分类方法针对工业产品检测所得数据分类,可减少运算量,提高响应速度,并可提高分类准确率。
为了达到上述目的,本发明通过下述技术方案予以实现:一种基于KNN的标签数据分类方法,其特征在于:包括调试阶段和应用阶段;
其中,所述调试阶段包括如下步骤:
X1步,载入调试图像;对调试图像进行预处理得到调试特征目标区域;
X2步,通过blob分析从调试特征目标区域中提取调试感兴趣区域,并将调试感兴趣区域转换成为带有若干调试特征数据的调试数据集;所有调试特征数据均具有多个特征维度;
X3步,制作分类标签;采用map函数将各个调试特征数据与各个分类标签进行绑定;
X4步,将所有调试特征数据分到训练集和测试集中;
X5步,用户设定邻近数k、距离计算方式和分类特征维度;将训练集和测试集中所有调试特征数据的特征维度仅保留设定的分类特征维度而删除其余特征维度,以形成调试数据;
X6步,将测试集调试数据逐个进行分类:根据设定的距离计算方式,计算当前待分类的测试集调试数据与所有训练集调试数据之间的距离,并将距离进行排序;提取出距离最短的前k个训练集调试数据,找出前k个训练集调试数据对应最多的分类标签;将当前待分类的测试集调试数据分类到对应最多的分类标签中;
X7步,通过判断各个测试集调试数据分类所得的分类标签与绑定所得的分类标签是否一致,来分别判断各个测试集调试数据分类是否准确;统计分类准确率;判断分类准确率是否高于设定值:若是,则调试阶段结束,将当前设定的邻近数k、距离计算方式和分类特征维度作为应用阶段的邻近数k、距离计算方式和分类特征维度;否则跳至X5步,设定不同的邻近数k和/或距离计算方式和/或分类特征维度进行调试;
所述应用阶段包括如下步骤:
Y1步,载入采集图像;对采集图像进行预处理得到采集特征目标区域;
Y2步,通过blob分析从采集特征目标区域中提取采集感兴趣区域,并将采集感兴趣区域转换成为带有若干采集特征数据的采集数据集;各个采集特征数据分别包括分类特征维度;
Y3步,将各个采集特征数据逐个进行分类:根据设定的距离计算方式,计算当前待分类的采集特征数据与所有训练集调试数据之间的距离,并将距离进行排序;提取出距离最短的前k个采集特征数据,找出前k个采集特征数据对应最多的分类标签;将当前待分类的采集特征数据分类到对应最多的分类标签中,以完成分类。
本发明分类方法,针对工业产品检测所得数据分类;在调试阶段通过试验和判定来确定邻近数k、距离计算方式和分类特征维度,之后将邻近数k、距离计算方式和分类特征维度应用在应用阶段中,可确保应用阶段数据分类准确程度。基于KNN算法提供给用户欧式距离、曼哈顿距离、切比雪夫距离三种预测模式,分类运算时对调试数据和采集特征数据选择分类特征维度,例如一个检测物品有多个特征维度,可根据特征维度的重要程度,选取其中一个或两个以上作为分类特征维度,来作为进行分类时的判定依据,对多维数据进行距离判断从而进行分类;可减少运算量,提高响应速度,并可提高分类准确率;采用智能科技替代人工分类检测数据,可节省人力成本和提高分类效率。
优选地,所述X1和/或Y1步中,进行预处理是指:对调试图像和/或采集图像进行均值滤波处理,均值滤波处理以函数
Figure BDA0002244634600000031
作为滤波核;
其中,M=ksize.wedth*ksize.height;
Figure BDA0002244634600000032
ksize.wedth是指滤波核的宽度;ksize.height是指滤波核的高度;
之后通过腐蚀膨胀算法扩大调试特征目标区域和/或采集特征目标区域。
优选地,所述X2步中,特征维度包括长宽比、面积、弧度和空洞中任一项或两项以上。
该特征维度可突出体现工业产品的特点,有利于进一步提高数据分类的准确性和分类效率。
优选地,在X5步之前,还包括步骤:将所有调试特征数据进行归一化处理;
在Y3步之前,还包括步骤:将所有采集特征数据进行归一化处理。
进行归一化处理可简化调试特征数据和采集特征数据后续运算,提高数据处理速度。
优选地,所述X5步中,设定距离计算方式是指采用采用曼哈顿距离计算方式、欧式距离计算方式和切比雪夫距离计算方式中的任一种。
与现有技术相比,本发明具有如下优点与有益效果:
本发明分类方法,针对工业产品检测所得数据分类;在调试阶段通过试验和判定来确定邻近数k、距离计算方式和分类特征维度,之后将邻近数k、距离计算方式和分类特征维度应用在应用阶段中,可确保应用阶段数据分类准确程度。基于KNN算法提供给用户欧式距离、曼哈顿距离、切比雪夫距离三种预测模式,分类运算时对调试数据和采集特征数据选择分类特征维度,例如一个检测物品有多个特征维度,可根据特征维度的重要程度,选取其中一个或两个以上作为分类特征维度,来作为进行分类时的判定依据,对多维数据进行距离判断从而进行分类;可减少运算量,提高响应速度,并可提高分类准确率;采用智能科技替代人工分类检测数据,可节省人力成本和提高分类效率。
附图说明
图1是基于KNN的标签数据分类方法的流程图。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细的描述。
实施例
本实施例一种基于KNN的标签数据分类方法,其流程如图1所示;包括调试阶段和应用阶段;
其中,调试阶段包括如下步骤:
X1步,载入调试图像;对调试图像进行预处理得到调试特征目标区域;
进行预处理是指:对调试图像和/或采集图像进行均值滤波处理,均值滤波处理以函数
Figure BDA0002244634600000041
作为滤波核;
其中,M=ksize.wedth*ksize.height;
Figure BDA0002244634600000051
ksize.wedth是指滤波核的宽度;ksize.height是指滤波核的高度;
之后通过腐蚀膨胀算法扩大调试特征目标区域和/或采集特征目标区域。
X2步,通过blob分析从调试特征目标区域中提取调试感兴趣区域,并将调试感兴趣区域转换成为带有若干调试特征数据的调试数据集;所有调试特征数据均具有多个特征维度。
特征维度包括长宽比、面积、弧度和空洞中任一项或两项以上。该特征维度可突出体现工业产品的特点,有利于提高数据分类的准确性和分类效率。
可通过数组形式data[a][b]来表达调试特征数据的个数和维度,data[a][b]表示第a个数据有b个特征。
X3步,制作分类标签;采用map函数将各个调试特征数据与各个分类标签进行绑定。例如制作分类标签label0,label1,label2…;将各个调试特征数据与对应的分类标签label0,label1,label2…进行绑定。
X4步,将所有调试特征数据分到训练集和测试集中;将所有调试特征数据进行归一化处理;进行归一化处理可简化调试特征数据后续运算,提高数据处理速度。
X5步,用户设定邻近数k、距离计算方式和分类特征维度;将训练集和测试集中所有调试特征数据的特征维度仅保留设定的分类特征维度而删除其余特征维度,以形成调试数据。
设定距离计算方式是指采用采用曼哈顿距离计算方式、欧式距离计算方式和切比雪夫距离计算方式中的任一种。
欧式距离计算方式:
Figure BDA0002244634600000052
曼哈顿距离计算方式:
A(x11,.......,x1n)
B(x21,.......,x2n)
Figure BDA0002244634600000061
切比雪夫距离计算方式:
A(x11,.......,x1n)
B(x21,.......,x2n)
Figure BDA0002244634600000062
X6步,将测试集调试数据逐个进行分类:根据设定的距离计算方式,计算当前待分类的测试集调试数据与所有训练集调试数据之间的距离,并将距离进行排序;提取出距离最短的前k个训练集调试数据,找出前k个训练集调试数据对应最多的分类标签;将当前待分类的测试集调试数据分类到对应最多的分类标签中。
例如,k=5时,有三个训练集调试数据对应分类标签label0,一个训练集调试数据对应分类标签label1,一个训练集调试数据对应分类标签label2,则判定将当前待分类的测试集调试数据分类到分类标签label0。
X7步,通过判断各个测试集调试数据分类所得的分类标签与绑定所得的分类标签是否一致,来分别判断各个测试集调试数据分类是否准确;统计分类准确率;判断分类准确率是否高于设定值:若是,则调试阶段结束,将当前设定的邻近数k、距离计算方式和分类特征维度作为应用阶段的邻近数k、距离计算方式和分类特征维度;否则跳至X5步,设定不同的邻近数k和/或距离计算方式和/或分类特征维度进行调试。
所述应用阶段包括如下步骤:
Y1步,载入采集图像;对采集图像进行预处理得到采集特征目标区域。
Y2步,通过blob分析从采集特征目标区域中提取采集感兴趣区域,并将采集感兴趣区域转换成为带有若干采集特征数据的采集数据集;各个采集特征数据分别包括分类特征维度。
将所有采集特征数据进行归一化处理。
Y3步,将各个采集特征数据逐个进行分类:根据设定的距离计算方式,计算当前待分类的采集特征数据与所有训练集调试数据之间的距离,并将距离进行排序;提取出距离最短的前k个采集特征数据,找出前k个采集特征数据对应最多的分类标签;将当前待分类的采集特征数据分类到对应最多的分类标签中,以完成分类。
本发明分类方法,针对工业产品检测所得数据分类;在调试阶段通过试验和判定来确定邻近数k、距离计算方式和分类特征维度,之后将邻近数k、距离计算方式和分类特征维度应用在应用阶段中,可确保应用阶段数据分类准确程度。基于KNN算法提供给用户欧式距离、曼哈顿距离、切比雪夫距离三种预测模式,分类运算时对调试数据和采集特征数据选择分类特征维度,例如一个检测物品有多个特征维度,可根据特征维度的重要程度,选取其中一个或两个以上作为分类特征维度,来作为进行分类时的判定依据,对多维数据进行距离判断从而进行分类;可减少运算量,提高响应速度,并可提高分类准确率。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (5)

1.一种基于KNN的标签数据分类方法,其特征在于:包括调试阶段和应用阶段;
其中,所述调试阶段包括如下步骤:
X1步,载入调试图像;对调试图像进行预处理得到调试特征目标区域;
X2步,通过blob分析从调试特征目标区域中提取调试感兴趣区域,并将调试感兴趣区域转换成为带有若干调试特征数据的调试数据集;所有调试特征数据均具有多个特征维度;
X3步,制作分类标签;采用map函数将各个调试特征数据与各个分类标签进行绑定;
X4步,将所有调试特征数据分到训练集和测试集中;
X5步,用户设定邻近数k、距离计算方式和分类特征维度;将训练集和测试集中所有调试特征数据的特征维度仅保留设定的分类特征维度而删除其余特征维度,以形成调试数据;
X6步,将测试集调试数据逐个进行分类:根据设定的距离计算方式,计算当前待分类的测试集调试数据与所有训练集调试数据之间的距离,并将距离进行排序;提取出距离最短的前k个训练集调试数据,找出前k个训练集调试数据对应最多的分类标签;将当前待分类的测试集调试数据分类到对应最多的分类标签中;
X7步,通过判断各个测试集调试数据分类所得的分类标签与绑定所得的分类标签是否一致,来分别判断各个测试集调试数据分类是否准确;统计分类准确率;判断分类准确率是否高于设定值:若是,则调试阶段结束,将当前设定的邻近数k、距离计算方式和分类特征维度作为应用阶段的邻近数k、距离计算方式和分类特征维度;否则跳至X5步,设定不同的邻近数k和/或距离计算方式和/或分类特征维度进行调试;
所述应用阶段包括如下步骤:
Y1步,载入采集图像;对采集图像进行预处理得到采集特征目标区域;
Y2步,通过blob分析从采集特征目标区域中提取采集感兴趣区域,并将采集感兴趣区域转换成为带有若干采集特征数据的采集数据集;各个采集特征数据分别包括分类特征维度;
Y3步,将各个采集特征数据逐个进行分类:根据设定的距离计算方式,计算当前待分类的采集特征数据与所有训练集调试数据之间的距离,并将距离进行排序;提取出距离最短的前k个采集特征数据,找出前k个采集特征数据对应最多的分类标签;将当前待分类的采集特征数据分类到对应最多的分类标签中,以完成分类。
2.根据权利要求1所述的基于KNN的标签数据分类方法,其特征在于:所述X1和/或Y1步中,进行预处理是指:对调试图像和/或采集图像进行均值滤波处理,均值滤波处理以函数
Figure FDA0002244634590000021
作为滤波核;
其中,M=ksize.wedth*ksize.height;
Figure FDA0002244634590000022
ksize.wedth是指滤波核的宽度;ksize.height是指滤波核的高度;
之后通过腐蚀膨胀算法扩大调试特征目标区域和/或采集特征目标区域。
3.根据权利要求1所述的基于KNN的标签数据分类方法,其特征在于:所述X2步中,特征维度包括长宽比、面积、弧度和空洞中任一项或两项以上。
4.根据权利要求1所述的基于KNN的标签数据分类方法,其特征在于:在X5步之前,还包括步骤:将所有调试特征数据进行归一化处理;
在Y3步之前,还包括步骤:将所有采集特征数据进行归一化处理。
5.根据权利要求1所述的基于KNN的标签数据分类方法,其特征在于:所述X5步中,设定距离计算方式是指采用曼哈顿距离计算方式、欧式距离计算方式和切比雪夫距离计算方式中的任一种。
CN201911012573.5A 2019-10-23 2019-10-23 一种基于knn的标签数据分类方法 Active CN110852355B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911012573.5A CN110852355B (zh) 2019-10-23 2019-10-23 一种基于knn的标签数据分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911012573.5A CN110852355B (zh) 2019-10-23 2019-10-23 一种基于knn的标签数据分类方法

Publications (2)

Publication Number Publication Date
CN110852355A CN110852355A (zh) 2020-02-28
CN110852355B true CN110852355B (zh) 2023-03-07

Family

ID=69596997

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911012573.5A Active CN110852355B (zh) 2019-10-23 2019-10-23 一种基于knn的标签数据分类方法

Country Status (1)

Country Link
CN (1) CN110852355B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106408001A (zh) * 2016-08-26 2017-02-15 西安电子科技大学 基于深度核哈希的感兴趣区域快速检测方法
CN108985339A (zh) * 2018-06-21 2018-12-11 浙江工业大学 一种基于目标识别与knn算法的超市仓库货物识别分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106408001A (zh) * 2016-08-26 2017-02-15 西安电子科技大学 基于深度核哈希的感兴趣区域快速检测方法
CN108985339A (zh) * 2018-06-21 2018-12-11 浙江工业大学 一种基于目标识别与knn算法的超市仓库货物识别分类方法

Also Published As

Publication number Publication date
CN110852355A (zh) 2020-02-28

Similar Documents

Publication Publication Date Title
CN109952614B (zh) 生物粒子的分类系统和方法
Alsmadi et al. Fish recognition based on robust features extraction from size and shape measurements using neural network
Kitahara et al. Microstructure cluster analysis with transfer learning and unsupervised learning
CN109190626A (zh) 一种基于深度学习的多路径特征融合的语义分割方法
Alsmadi et al. Fish classification based on robust features extraction from color signature using back-propagation classifier
Alsmadi et al. Fish recognition based on robust features extraction from color texture measurements using back-propagation classifier
CN108416373A (zh) 一种基于正则化Fisher阈值选择策略的不平衡数据分类系统
CN104751475B (zh) 一种面向静态图像对象识别的特征点优选匹配方法
CN113222982A (zh) 基于改进的yolo网络的晶圆表面缺陷检测方法及系统
CN105046714A (zh) 一种非监督的基于超像素和目标发现机制的图像分割方法
CN111134664A (zh) 一种基于胶囊网络的癫痫放电识别方法、系统和存储介质
Wang et al. Pixel-wise fabric defect detection by CNNs without labeled training data
CN112116950B (zh) 基于深度度量学习的蛋白质折叠识别方法
CN110659374A (zh) 一种基于神经网络提取车辆特征值及属性的以图搜图方法
di Bella et al. Wafer defect map classification using sparse convolutional networks
Du et al. Convolutional neural network-based data anomaly detection considering class imbalance with limited data
Xiao et al. Trajectories-based motion neighborhood feature for human action recognition
CN113723558A (zh) 基于注意力机制的遥感图像小样本舰船检测方法
CN103268494A (zh) 基于稀疏表示的寄生虫虫卵识别方法
CN112084941A (zh) 一种基于遥感图像的目标检测与识别方法
CN116945258A (zh) 模切机控制系统及其方法
CN110852355B (zh) 一种基于knn的标签数据分类方法
CN111127485B (zh) 一种ct图像中目标区域提取方法、装置及设备
CN108764367B (zh) 一种基于关系正则化的特征图像提取装置及提取方法
Wu et al. Spoon surface defect detection based on improved yolo v3

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant