CN116361671B

CN116361671B - 一种基于后校正的高熵knn聚类方法、设备及介质

Info

Publication number: CN116361671B
Application number: CN202310636506.0A
Authority: CN
Inventors: 徐同明; 鹿海洋; 魏代森; 谭宁宁; 祝静; 林卉; 孙帅; 马娉婷; 陈杰
Original assignee: Inspur General Software Co Ltd
Current assignee: Inspur General Software Co Ltd
Priority date: 2023-06-01
Filing date: 2023-06-01
Publication date: 2023-08-22
Anticipated expiration: 2043-06-01
Also published as: CN116361671A

Abstract

本申请公开了一种基于后校正的高熵KNN聚类方法、设备及介质，涉及电数字数据处理领域，方法包括：确定需要进行聚类的样本集合，基于相似度相同的方式，为样本集合中的若干个指定样本进行初始化分类；选取与待分类样本距离最近的K个先验样本，作为对比样本；基于相似度相异的方式，得到待分类样本的类别标签；基于相似度相异的方式，将若干个先验样本进行重新分类。有效保证了先验样本的准确性，然后基于相似度相异的方式，有效实现类间同质、类内迥异的需求，最终再对先验样本进行后校正重新分类，即可实现对所有样本的高熵聚类过程，满足了对于高熵聚类的需求。

Description

一种基于后校正的高熵KNN聚类方法、设备及介质

技术领域

本申请涉及电数字数据处理领域，具体涉及一种基于后校正的高熵KNN聚类方法、设备及介质。

背景技术

K最邻近分类算法（K-NearestNeighbor，KNN）是一种监督学习算法，其能够根据K个最近的邻居的状态来决定样本的状态，常用于样本分类。通常来说，KNN算法能够呈现类间迥异、类内同质的特点，也就是能起到类间高熵、类内低熵的效果。

但是，随着技术的发展，出现一些类间同质、类内迥异的应用需求，比如，在对多类型产品或者多类型的数据进行分类时，只需要保证每个类别中，各类型的产品或者数据是符合一定比例的即可。此时在分类过程中，需要保证实现类间低熵、类内高熵的效果，通过传统的KNN算法是难以实现的。

发明内容

为了解决上述问题，本申请提出了一种基于后校正的高熵KNN聚类方法，包括：

确定需要进行聚类的样本集合，并基于相似度相同的方式，为所述样本集合中的若干个指定样本进行初始化分类；

将完成所述初始化分类的样本作为先验样本，并针对所述样本集合中，除所述先验样本以外剩余的待分类样本，选取与所述待分类样本距离最近的K个先验样本，作为对比样本；所述K为预先设置的正整数值；

基于相似度相异的方式，以及所述对比样本在初始化分类中确定的类别标签，得到所述待分类样本的类别标签，直至对所有待分类样本完成分类；

基于相似度相异的方式，将若干个先验样本进行重新分类。

另一方面，本申请还提出了一种基于后校正的高熵KNN聚类设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如：

基于相似度相异的方式，将若干个先验样本进行重新分类。

本申请还提出了一种非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：

基于相似度相异的方式，将若干个先验样本进行重新分类。

通过本申请提出基于后校正的高熵KNN聚类方法能够带来如下有益效果：

通过传统的相似度相同的方式得到先验样本，有效保证了先验样本的准确性，然后基于相似度相异的方式，有效实现类间同质、类内迥异的需求，最终再对先验样本进行后校正重新分类，即可实现对所有样本的高熵聚类过程，满足了对于高熵聚类的需求。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例中基于后校正的高熵KNN聚类方法的流程示意图；

图2为本申请实施例中初始化分类的示意图；

图3为本申请实施例中传统KNN聚类算法的结果示意图；

图4为本申请实施例中，第一种情况下对应的相似度相异的方式进行分类的示意图；

图5为本申请实施例中，第二种情况下对应的相似度相异的方式进行分类的示意图；

图6为本申请实施例中，第三种情况下对应的相似度相异的方式进行分类的示意图；

图7为本申请实施例中相似度相异的方式的分类结果示意图；

图8为本申请实施例中先验样本后校正的示意图；

图9为本申请实施例中基于后校正的高熵KNN聚类设备的示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本申请各实施例提供的技术方案。

如图1所示，本申请实施例提供基于后校正的高熵KNN聚类方法，包括：

S101：确定需要进行聚类的样本集合，并基于相似度相同的方式，为所述样本集合中的若干个指定样本进行初始化分类。

与传统的KNN聚类不同的是，在本文中的高熵KNN聚类所要实现的目的不同。在预先获取的数据集合中，选取若干个数据，该数据里可以是产品数据、图像数据、音频数据等。

将若干个数据作为样本集合，以对样本集合进行聚类，此时，聚类的目的不再是将相同或相似类别的数据汇集在一个类簇中，而是在聚类结果的类簇中，不同类别的数据符合预设比例。比如，以产品数据为例，最终得到的每个类簇中，产品质量的比例符合预设比例，优品、良品、差品的比例符合5:3:2的比例，即可达到预先的目的。

在初始化分类时，在样本集合中，确定已经选取的若干个指定样本，此处的指定样本为具有可识别特点（也可以称作显著特点）的样本，比如，以产品数据为例，某些产品的质量非常优秀，或者具有非常明显的残次，则可以认为其具有可识别特点。或者，对图像数据进行识别时，图像中明显存在指定物品，或者明显不存在指定物品的，认为其具有可识别特点。通常来说选取的指定样本数量相比于样本集合为少量，

针对每个指定样本，选取距离该指定样本最近的K个样本，并将K个样本中，出现次数最多的类别标签，作为该指定样本的类别标签。如图2所示，其中共选取了12个指定样本，共分为两类，在图中以不同的图标进行标识。此时，这些指定样本是通过相似度相同的方式得到的，其符合传统KNN聚类过程中的聚类过程和效果。

S102：将完成所述初始化分类的样本作为先验样本，并针对所述样本集合中，除所述先验样本以外剩余的待分类样本，选取与所述待分类样本距离最近的K个先验样本，作为对比样本；所述K为预先设置的正整数值。

K值的选取不宜过大或过小，通常来说，其与样本集合的样本容量相关。此时，确定样本集合对应的样本容量，根据样本容量确定分类过程中对应的K值以及指定样本的选取数量，其中，K值与样本容量的比值范围为[0.03,0.09]之内的正整数，且K值为奇数，当样本容量为100时，K值可以是3、5、7、9。而指定样本的选取数量则需要高于K值选取范围的最大值，以便于对比样本的选取。

S103：基于相似度相异的方式，以及所述对比样本在初始化分类中确定的类别标签，得到所述待分类样本的类别标签，直至对所有待分类样本完成分类。

如图3所示，按照传统的KNN聚类算法，仍以相似度相同的方式进行聚类时，则最终得到的结果仍是类间迥异，类内同质的效果，此时类内仍处于低熵的状态，不符合本文中的需求。

基于此，采用相似度相异的方式，针对每个待分类样本，确定其对应的对比样本中出现的类别标签，以及出现的各类别标签分别对应的出现次数。在所有类别标签中，选取出现次数最少的类别标签，作为待分类样本的类别标签。

如图4、图5以及图6所示，设K值为3，为方便描述，在此将空心方框的图标代表第一类别，将方框内包含叉的图标代表第二类别，将实心方框的图标代表未确定的类别。在图4中，样本1周围最接近的3个样本中，第一类别的数量为1，第二类别的数量为2，第一类被的数量更少，故而样本1为第一类别。在图5中，针对样本2，第一类别和第二类别的数量分别为2和1，故而样本2为第二类别。在图6中，针对样本3，第一类别和第二类别的数量分别为3和0，故而样本3的类别为第二类别，类似可以得到，样本4的类别为第一类别。

此时，最终实现的效果可以如图7所示，达到类间同质、类内迥异的效果，此时类内处于高熵的状态，符合需求。

S104：基于相似度相异的方式，将若干个先验样本进行重新分类。

上文中已将待分类样本，按照相似度相异的方式进行了聚类，然而最开始得到的先验样本仍是按照相似度相同的方式聚类的，不符合需求，此时，针对每个先验样本，在已经完成分类的待分类样本中（由于先验样本不符合需求，故而在选取对比文件时，从已经完成分类的待分类样本中选取），选取最近的K个先验样本，作为对比样本。类似地，确定对比样本中出现的类别标签，以及出现的各类别标签分别对应的出现次数，在所有类别标签中，选取出现次数最少的类别标签，作为先验样本重新分类后得到的类别标签。

如图8所示，圈出的样本为先验样本，通过将其与最接近的3个对比样本，按照相似度相异的方式进行对比后发现，其需要更改类别，则将其由第一类别改为第二类别，由此，通过后校正的方式，对先验样本进行了重新分类，完成了所有样本的相似度相异方式的聚类，最终使得样本集合所有的样本均符合需求。

在一个实施例中，上文中描述过需求选取距离最近的样本作为对比样本，而在计算样本间距离时，确定样本集合中，各样本所包含的维度数量，并根据维度数量计算待分类样本与其他所有先验样本之间的距离，从而选取距离最近的K个先验样本，作为对比样本。

维度数量通常包括一维至三维数据，比如，文本数据中包含文字的一维数据，2D平面图像中包含像素在x轴和y轴二维数据，产品数据中包含外观、功能、价格的三维数据。

当样本集合中样本为一维时，通过得到待分类样本与先验样本之间的距离，其中，/>为待分类样本与第i个先验样本之间的距离，/>为第i个先验样本的坐标，/>为待分类样本的坐标。

当样本集合中样本为二维时，通过得到待分类样本与先验样本之间的距离，其中，/>为待分类样本与第i个先验样本之间的距离，（/>，/>）为第i个先验样本的坐标，（/>，/>）为待分类样本的坐标；

当样本集合中样本为三维，通过得到待分类样本与先验样本之间的距离，其中，/>为待分类样本与第i个先验样本之间的距离，（/>，/>，/>）为第i个先验样本的坐标，（/>，/>，/>）为待分类样本的坐标。

当然，维度数量还可以包括更多维度，此时推导类似地公式即可计算样本之间的距离。

如图9所示，本申请还提出了一种基于后校正的高熵KNN聚类设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

基于相似度相异的方式，将若干个先验样本进行重新分类。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备和介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请实施例提供的设备和介质与方法是一一对应的，因此，设备和介质也具有与其对应的方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述设备和介质的有益技术效果。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RAM) 和/或非易失性内存等形式，如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体 (transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于后校正的高熵KNN聚类方法，其特征在于，包括：

确定需要进行聚类的样本集合，并基于相似度相同的方式，为所述样本集合中的若干个指定样本进行初始化分类；其中，在预先获取的数据集合中，选取若干个数据，将若干个数据作为样本集合，所述若干个数据为产品数据；所述指定样本为具有可识别特点的样本，所述可识别特点包括产品质量优秀、产品出现残次；

基于相似度相异的方式，将若干个先验样本进行重新分类，以使最终得到的每个类簇中，产品质量的比例符合预设比例；

基于相似度相同的方式，为所述样本集合中的若干个指定样本进行初始化分类，具体包括：

在所述样本集合中，确定已经选取的若干个指定样本；

针对每个指定样本，选取距离该指定样本最近的K个样本，并将所述K个样本中，出现次数最多的类别标签，作为该指定样本的类别标签；

基于相似度相异的方式，以及所述对比样本在初始化分类中确定的类别标签，得到所述待分类样本的类别标签，具体包括：

确定所述对比样本中出现的类别标签，以及出现的各类别标签分别对应的出现次数；

在所有类别标签中，选取出现次数最少的类别标签，作为所述待分类样本的类别标签。

2.根据权利要求1所述的方法，其特征在于，基于相似度相异的方式，将若干个先验样本进行重新分类，具体包括：

针对每个先验样本，在已经完成分类的待分类样本中，选取最近的K个已经完成分类的待分类样本，作为对比样本；

在所有类别标签中，选取出现次数最少的类别标签，作为所述先验样本重新分类后得到的类别标签。

3.根据权利要求1所述的方法，其特征在于，确定需要进行聚类的样本集合之后，所述方法还包括：

确定所述样本集合对应的样本容量；

根据所述样本容量确定分类过程中对应的K值以及指定样本的选取数量，其中，所述K值与样本容量的比值范围为[0.03,0.09]之内的正整数，且K值为奇数，指定样本的选取数量高于K值选取范围的最大值。

4.根据权利要求1所述的方法，其特征在于，选取与所述待分类样本距离最近的K个先验样本，作为对比样本，具体包括：

根据所述样本集合中，各样本所包含的维度数量，计算所述待分类样本与其他所有先验样本之间的距离；

选取距离最近的K个先验样本，作为对比样本。

5.根据权利要求4所述的方法，其特征在于，计算所述待分类样本与其他所有先验样本之间的距离，具体包括：

当所述样本集合中样本为一维时，通过得到所述待分类样本与先验样本之间的距离，其中，/>为所述待分类样本与第i个先验样本之间的距离，/>为第i个先验样本的坐标，/>为所述待分类样本的坐标；

当所述样本集合中样本为二维时，通过得到所述待分类样本与先验样本之间的距离，其中，/>为所述待分类样本与第i个先验样本之间的距离，（，/>）为第i个先验样本的坐标，（/>，/>）为所述待分类样本的坐标；

当所述样本集合中样本为三维时，通过得到所述待分类样本与先验样本之间的距离，其中，/>为所述待分类样本与第i个先验样本之间的距离，（/>，/>，/>）为第i个先验样本的坐标，（/>，/>，/>）为所述待分类样本的坐标。

6.一种基于后校正的高熵KNN聚类设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

在所述样本集合中，确定已经选取的若干个指定样本；

7.一种非易失性计算机存储介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令设置为：

在所述样本集合中，确定已经选取的若干个指定样本；