CN110852355B

CN110852355B - 一种基于knn的标签数据分类方法

Info

Publication number: CN110852355B
Application number: CN201911012573.5A
Authority: CN
Inventors: 卢清华; 陈奎; 刘哲
Original assignee: Foshan University
Current assignee: Foshan University
Priority date: 2019-10-23
Filing date: 2019-10-23
Publication date: 2023-03-07
Anticipated expiration: 2039-10-23
Also published as: CN110852355A

Abstract

本发明提供了一种基于KNN的标签数据分类方法，其特征在于：包括调试阶段和应用阶段；调试阶段包括如下步骤：载入调试图像、预处理、blob分析、制作分类标签、调试特征数据与分类标签绑定、设定参数、训练数据、判断分类准确率；应用阶段包括如下步骤：载入采集图像、预处理、blob分析、数据分类。该分类方法针对工业产品检测所得数据分类，可减少运算量，提高响应速度，并可提高分类准确率。

Description

一种基于KNN的标签数据分类方法

技术领域

本发明涉及图像特征分类技术领域，更具体地说，涉及一种基于KNN的标签数据分类方法。

背景技术

随着互联网时代的发展，AI人工智能技术逐渐成为关注焦点。在工业生产中往往会出现不合格产品，如何将不合格产品进行分类是目前比较火热的研究方向。

目前有两种分类方法：

一、传统的机器学习：对于机器学习对数据图像进行分类需要做一个特征工程提取图像特征，将特征贴上一个标签进行分类，机器学习的优点在于机器学习不需要高端的硬件设备，机器学习算法通过一个合适的CPU就可以进行对数据的分类处理，并且处理速度快，符合工业对人工智能时效性的需求，可以应用于工业生产检测分类，机械手抓取不同类别物体等应用场景；

二、深度学习神经网络：对于深度学习神经网络对数据图片分类优点在于可以不需要特征工程，但是神经网络需要大量的数据集并用合适的网络对数据进行训练，训练周期比较长而且需要高端的硬件设备(GPU,SSD,CPU,RAM)，而且技术目前不太成熟，在工业上的应用也是从2015年开始，目前研究人员也不能完全了解深层网络的“内部”。由于缺乏理论基础、超参数和网络设计也是一个相当大的挑战。

对比深度学习神经网络需要大量采集样本进行训练，花费时间多，需要制作多个训练模型才能适应工业检测对时间的需求；反观机器学习可以快速的对数据进行分析比较进而达到预测的目的。因此，技术比较成熟的机器学习更适用于工业领域对物体检测数据进行分类。但是目前机器学习分类方法缺乏针对工业产品检测数据分类的方法。

发明内容

为克服现有技术中的缺点与不足，本发明的目的在于提供一种基于KNN的标签数据分类方法。该分类方法针对工业产品检测所得数据分类，可减少运算量，提高响应速度，并可提高分类准确率。

为了达到上述目的，本发明通过下述技术方案予以实现：一种基于KNN的标签数据分类方法，其特征在于：包括调试阶段和应用阶段；

其中，所述调试阶段包括如下步骤：

X1步，载入调试图像；对调试图像进行预处理得到调试特征目标区域；

X2步，通过blob分析从调试特征目标区域中提取调试感兴趣区域，并将调试感兴趣区域转换成为带有若干调试特征数据的调试数据集；所有调试特征数据均具有多个特征维度；

X3步，制作分类标签；采用map函数将各个调试特征数据与各个分类标签进行绑定；

X4步，将所有调试特征数据分到训练集和测试集中；

X5步，用户设定邻近数k、距离计算方式和分类特征维度；将训练集和测试集中所有调试特征数据的特征维度仅保留设定的分类特征维度而删除其余特征维度，以形成调试数据；

X6步，将测试集调试数据逐个进行分类：根据设定的距离计算方式，计算当前待分类的测试集调试数据与所有训练集调试数据之间的距离，并将距离进行排序；提取出距离最短的前k个训练集调试数据，找出前k个训练集调试数据对应最多的分类标签；将当前待分类的测试集调试数据分类到对应最多的分类标签中；

X7步，通过判断各个测试集调试数据分类所得的分类标签与绑定所得的分类标签是否一致，来分别判断各个测试集调试数据分类是否准确；统计分类准确率；判断分类准确率是否高于设定值：若是，则调试阶段结束，将当前设定的邻近数k、距离计算方式和分类特征维度作为应用阶段的邻近数k、距离计算方式和分类特征维度；否则跳至X5步，设定不同的邻近数k和/或距离计算方式和/或分类特征维度进行调试；

所述应用阶段包括如下步骤：

Y1步，载入采集图像；对采集图像进行预处理得到采集特征目标区域；

Y2步，通过blob分析从采集特征目标区域中提取采集感兴趣区域，并将采集感兴趣区域转换成为带有若干采集特征数据的采集数据集；各个采集特征数据分别包括分类特征维度；

Y3步，将各个采集特征数据逐个进行分类：根据设定的距离计算方式，计算当前待分类的采集特征数据与所有训练集调试数据之间的距离，并将距离进行排序；提取出距离最短的前k个采集特征数据，找出前k个采集特征数据对应最多的分类标签；将当前待分类的采集特征数据分类到对应最多的分类标签中，以完成分类。

本发明分类方法，针对工业产品检测所得数据分类；在调试阶段通过试验和判定来确定邻近数k、距离计算方式和分类特征维度，之后将邻近数k、距离计算方式和分类特征维度应用在应用阶段中，可确保应用阶段数据分类准确程度。基于KNN算法提供给用户欧式距离、曼哈顿距离、切比雪夫距离三种预测模式，分类运算时对调试数据和采集特征数据选择分类特征维度，例如一个检测物品有多个特征维度，可根据特征维度的重要程度，选取其中一个或两个以上作为分类特征维度，来作为进行分类时的判定依据，对多维数据进行距离判断从而进行分类；可减少运算量，提高响应速度，并可提高分类准确率；采用智能科技替代人工分类检测数据，可节省人力成本和提高分类效率。

优选地，所述X1和/或Y1步中，进行预处理是指：对调试图像和/或采集图像进行均值滤波处理，均值滤波处理以函数

作为滤波核；

其中，M＝ksize.wedth*ksize.height；

ksize.wedth是指滤波核的宽度；ksize.height是指滤波核的高度；

之后通过腐蚀膨胀算法扩大调试特征目标区域和/或采集特征目标区域。

优选地，所述X2步中，特征维度包括长宽比、面积、弧度和空洞中任一项或两项以上。

该特征维度可突出体现工业产品的特点，有利于进一步提高数据分类的准确性和分类效率。

优选地，在X5步之前，还包括步骤：将所有调试特征数据进行归一化处理；

在Y3步之前，还包括步骤：将所有采集特征数据进行归一化处理。

进行归一化处理可简化调试特征数据和采集特征数据后续运算，提高数据处理速度。

优选地，所述X5步中，设定距离计算方式是指采用采用曼哈顿距离计算方式、欧式距离计算方式和切比雪夫距离计算方式中的任一种。

与现有技术相比，本发明具有如下优点与有益效果：

附图说明

图1是基于KNN的标签数据分类方法的流程图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细的描述。

实施例

本实施例一种基于KNN的标签数据分类方法，其流程如图1所示；包括调试阶段和应用阶段；

其中，调试阶段包括如下步骤：

进行预处理是指：对调试图像和/或采集图像进行均值滤波处理，均值滤波处理以函数

作为滤波核；

其中，M＝ksize.wedth*ksize.height；

ksize.wedth是指滤波核的宽度；ksize.height是指滤波核的高度；

X2步，通过blob分析从调试特征目标区域中提取调试感兴趣区域，并将调试感兴趣区域转换成为带有若干调试特征数据的调试数据集；所有调试特征数据均具有多个特征维度。

特征维度包括长宽比、面积、弧度和空洞中任一项或两项以上。该特征维度可突出体现工业产品的特点，有利于提高数据分类的准确性和分类效率。

可通过数组形式data[a][b]来表达调试特征数据的个数和维度，data[a][b]表示第a个数据有b个特征。

X3步，制作分类标签；采用map函数将各个调试特征数据与各个分类标签进行绑定。例如制作分类标签label0，label1，label2…；将各个调试特征数据与对应的分类标签label0，label1，label2…进行绑定。

X4步，将所有调试特征数据分到训练集和测试集中；将所有调试特征数据进行归一化处理；进行归一化处理可简化调试特征数据后续运算，提高数据处理速度。

X5步，用户设定邻近数k、距离计算方式和分类特征维度；将训练集和测试集中所有调试特征数据的特征维度仅保留设定的分类特征维度而删除其余特征维度，以形成调试数据。

设定距离计算方式是指采用采用曼哈顿距离计算方式、欧式距离计算方式和切比雪夫距离计算方式中的任一种。

欧式距离计算方式：

曼哈顿距离计算方式：

A(x₁₁,.......,x_1n)

B(x₂₁,.......,x_2n)

切比雪夫距离计算方式：

A(x₁₁,.......,x_1n)

B(x₂₁,.......,x_2n)

X6步，将测试集调试数据逐个进行分类：根据设定的距离计算方式，计算当前待分类的测试集调试数据与所有训练集调试数据之间的距离，并将距离进行排序；提取出距离最短的前k个训练集调试数据，找出前k个训练集调试数据对应最多的分类标签；将当前待分类的测试集调试数据分类到对应最多的分类标签中。

例如，k＝5时，有三个训练集调试数据对应分类标签label0，一个训练集调试数据对应分类标签label1，一个训练集调试数据对应分类标签label2，则判定将当前待分类的测试集调试数据分类到分类标签label0。

X7步，通过判断各个测试集调试数据分类所得的分类标签与绑定所得的分类标签是否一致，来分别判断各个测试集调试数据分类是否准确；统计分类准确率；判断分类准确率是否高于设定值：若是，则调试阶段结束，将当前设定的邻近数k、距离计算方式和分类特征维度作为应用阶段的邻近数k、距离计算方式和分类特征维度；否则跳至X5步，设定不同的邻近数k和/或距离计算方式和/或分类特征维度进行调试。

所述应用阶段包括如下步骤：

Y1步，载入采集图像；对采集图像进行预处理得到采集特征目标区域。

Y2步，通过blob分析从采集特征目标区域中提取采集感兴趣区域，并将采集感兴趣区域转换成为带有若干采集特征数据的采集数据集；各个采集特征数据分别包括分类特征维度。

将所有采集特征数据进行归一化处理。

本发明分类方法，针对工业产品检测所得数据分类；在调试阶段通过试验和判定来确定邻近数k、距离计算方式和分类特征维度，之后将邻近数k、距离计算方式和分类特征维度应用在应用阶段中，可确保应用阶段数据分类准确程度。基于KNN算法提供给用户欧式距离、曼哈顿距离、切比雪夫距离三种预测模式，分类运算时对调试数据和采集特征数据选择分类特征维度，例如一个检测物品有多个特征维度，可根据特征维度的重要程度，选取其中一个或两个以上作为分类特征维度，来作为进行分类时的判定依据，对多维数据进行距离判断从而进行分类；可减少运算量，提高响应速度，并可提高分类准确率。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于KNN的标签数据分类方法，其特征在于：包括调试阶段和应用阶段；

其中，所述调试阶段包括如下步骤：

X4步，将所有调试特征数据分到训练集和测试集中；

所述应用阶段包括如下步骤：

2.根据权利要求1所述的基于KNN的标签数据分类方法，其特征在于：所述X1和/或Y1步中，进行预处理是指：对调试图像和/或采集图像进行均值滤波处理，均值滤波处理以函数

作为滤波核；

其中，M＝ksize.wedth*ksize.height；

ksize.wedth是指滤波核的宽度；ksize.height是指滤波核的高度；

3.根据权利要求1所述的基于KNN的标签数据分类方法，其特征在于：所述X2步中，特征维度包括长宽比、面积、弧度和空洞中任一项或两项以上。

4.根据权利要求1所述的基于KNN的标签数据分类方法，其特征在于：在X5步之前，还包括步骤：将所有调试特征数据进行归一化处理；

5.根据权利要求1所述的基于KNN的标签数据分类方法，其特征在于：所述X5步中，设定距离计算方式是指采用曼哈顿距离计算方式、欧式距离计算方式和切比雪夫距离计算方式中的任一种。