CN116451099A

CN116451099A - 一种基于随机遍历的高熵knn聚类方法、设备及介质

Info

Publication number: CN116451099A
Application number: CN202310720618.4A
Authority: CN
Inventors: 徐同明; 鹿海洋; 魏代森; 张梅; 祝静; 孙帅; 林卉; 马娉婷; 蔺永建
Original assignee: Inspur General Software Co Ltd
Current assignee: Inspur General Software Co Ltd
Priority date: 2023-06-19
Filing date: 2023-06-19
Publication date: 2023-07-18
Anticipated expiration: 2043-06-19
Also published as: CN116451099B

Abstract

本发明公开了一种基于随机遍历的高熵KNN聚类方法、设备及介质，涉及电数字数据处理领域，方法包括：获取需要进行聚类的样本集合；基于随机遍历的方式，根据在先已经分类完成的其他指定样本的类别标签，对该指定样本进行分类；针对样本集合中，除先验样本以外剩余的待分类样本，选取与待分类样本距离最近的K个先验样本，作为对比样本；基于相似度相异的方式，以及对比样本已确定的类别标签，得到待分类样本的类别标签。保证了先验样本的高熵效果。基于相似度相异的方式，有效实现类间同质、类内迥异的需求，实现对所有样本的高熵聚类过程，满足了对于高熵聚类的需求。

Description

一种基于随机遍历的高熵KNN聚类方法、设备及介质

技术领域

本发明涉及电数字数据处理领域，具体涉及一种基于随机遍历的高熵KNN聚类方法、设备及介质。

背景技术

K最邻近分类算法（K-NearestNeighbor，KNN）是一种监督学习算法，其能够根据K个最近的邻居的状态来决定样本的状态，常用于样本分类。通常来说，KNN算法能够呈现类间迥异、类内同质的特点，也就是能起到类间高熵、类内低熵的效果。

但是，随着技术的发展，出现一些类间同质、类内迥异的应用需求，比如，在对多类型产品或者多类型的数据进行分类时，只需要保证每个类别中，各类型的产品或者数据是符合一定比例的即可。此时在分类过程中，需要保证实现类间低熵、类内高熵的效果，通过传统的KNN算法是难以实现的。

发明内容

为了解决上述问题，本发明提出了一种基于随机遍历的高熵KNN聚类方法，包括：

获取需要进行聚类的样本集合，并在所述样本集合中，选取若干个指定样本；

基于随机遍历的方式，在所述若干个指定样本中依次选取每个指定样本，针对该指定样本，根据在先已经分类完成的其他指定样本的类别标签，对该指定样本进行分类，并将完成分类的该指定样本作为先验样本；

针对所述样本集合中，除所述先验样本以外剩余的待分类样本，选取与所述待分类样本距离最近的K个先验样本，作为对比样本；所述K为预先设置的正整数值；

基于相似度相异的方式，以及所述对比样本已确定的类别标签，得到所述待分类样本的类别标签，直至对所有待分类样本完成分类。

另一方面，本发明还提出了一种基于随机遍历的高熵KNN聚类设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如：上述基于随机遍历的高熵KNN聚类方法。

另一方面，本发明还提出了一种非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：上述基于随机遍历的高熵KNN聚类方法。

通过本发明提出基于随机遍历的高熵KNN聚类方法能够带来如下有益效果：

通过随机遍历过程中得到的先验样本，并且可以在随机遍历过程中以就远原则，保证了先验样本的高熵效果。基于相似度相异的方式，有效实现类间同质、类内迥异的需求，实现对所有样本的高熵聚类过程，满足了对于高熵聚类的需求。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例中基于随机遍历的高熵KNN聚类方法的流程示意图；

图2为本发明实施例中，一种场景下对先验样本的分类示意图；

图3为本发明实施例中传统KNN聚类算法的结果示意图；

图4为本发明实施例中，相似度相异的方式进行分类的示意图；

图5为本发明实施例中相似度相异的方式的分类结果示意图；

图6为本发明实施例中基于随机遍历的高熵KNN聚类设备的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下结合附图，详细说明本发明各实施例提供的技术方案。

如图1所示，本发明实施例提供基于随机遍历的高熵KNN聚类方法，包括：

S101：获取需要进行聚类的样本集合，并在所述样本集合中，选取若干个指定样本。

与传统的KNN聚类不同的是，在本文中的高熵KNN聚类所要实现的目的不同。在预先获取的数据集合中，选取若干个数据，该数据里可以是产品数据、图像数据、音频数据等。

将若干个数据作为样本集合，以对样本集合进行聚类，此时，聚类的目的不再是将相同或相似类别的数据汇集在一个类簇中，而是在聚类结果的类簇中，不同类别的数据符合预设比例。比如，以产品数据为例，最终得到的每个类簇中，产品质量的比例符合预设比例，优品、良品、差品的比例符合5:3:2的比例，即可达到预先的目的。

在样本集合中，选取若干个指定样本，指定样本为具有可识别特点（也可以称作显著特点）的样本，比如，以产品数据为例，某些产品的质量非常优秀，或者具有非常明显的残次，则可以认为其具有可识别特点。或者，对图像数据进行识别时，图像中明显存在指定物品，或者明显不存在指定物品的，认为其具有可识别特点。通常来说选取的指定样本数量相比于样本集合为少量，

S102：基于随机遍历的方式，在所述若干个指定样本中依次选取每个指定样本，针对该指定样本，根据在先已经分类完成的其他指定样本的类别标签，对该指定样本进行分类，并将完成分类的该指定样本作为先验样本。

随机遍历指的是，在所有指定样本中，每次通过随机选取的方式，选取一个指定样本，在确定了该指定样本的类别标签后，再通过随机选取的方式选取下一个指定样本，进行分类，直至将所有指定样本都遍历，完成分类。

具体地，针对选取出的该指定样本，确定在先已经分类完成的其他指定样本的样本数量。当然，此时若样本数量为0，则说明该指定样本为第一个样本，则在所有类别标签，随机选取一个类别标签，作为该指定样本的类别标签，在此假设，将该指定样本的类别标签定义为A，将其所属的类别称作A类。

若样本数量为所需划分的类别数量（所需划分的类别数量，也就是类别标签的类别数量，在本文中为方便解释，以两类为例）的整数倍，则确定该指定样本与每个类别标签下对应的其他指定样本之间的距离和，并将距离和最高对应的类别标签，作为该指定样本的类别标签。以两类的类别数量为例，当样本数量为偶数时，则为整数倍，当样本数量为奇数倍时，则为非整数倍。

当样本数量并非所需划分的类别数量的整数倍时，则在其他指定样本对应的所有类别标签中，选取数量最少的类别标签，作为该指定样本的类别标签。

仍以两类的类别数量为例，当分到第2个指定样本（如图2所示，在图2中，以数字1~6分别对应于第1个指定样本~第6个指定样本，将空心方框的图标代表A类，将方框内包含叉的图标代表B类，以这6个指定样本来举例进行解释说明）时，此时只有第1个指定样本被分到了A类，而类别总共包含A类和B类两类，此时A类对应的数量为1，B类对应的数量为0，则第2个指定样本被分到B类，其类别标签为B。

当分类到第3个指定样本时，计算与前述第1个、第2个指定样本分别对应的距离，若距离第2个指定样本的距离大，根据就远原则，则分到B类，反之，分到A类。假设第3个指定样本分到B类，则此时A类和B类分别对应的样本数量为1和2。

对于第4个指定样本，根据前3个指定样本的分类情况，分到样本数量最少的类别，此时分到A类。

对于第5个指定样本，由于其之前，每个类别中均包含了多个指定样本，此时，需要计算其与前述4个指定样本之间的距离，与A类第1个指定样本和第4个指定样本之间的距离和为，与B类第2个指定样本和第3个指定样本之间的距离和为/>，其中，其中，/>和/>分别表示第5个指定样本与A类和B类对应的其他指定样本之间的距离和，/>~/>分别为第5个指定样本与第1个指定样本~第4个指定样本之间的距离，然后比较D_A和D_B，在此假设D_A>D_B，则仍按照就远原则，将第5个指定样本分到A类。

对于第6个指定样本，根据前5个指定样本的分类情况，分到样本数量最少的类别，此时分到B类。

另外，在一些情况下，当类别数量达到三类或更多类时，当样本数量并非所需划分的类别数量的整数倍时，选取数量最少的类别标签中可能会包含多个类别标签，他们数量相等且均为最少，此时可以在其中进行随机选取，作为本次数量最少的类别标签，或者，计算当前指定样本与这些类别标签下的指定样本的距离和，按照就远原则，选择距离和更高的类别标签作为当前指定样本的类别标签。

S103：针对所述样本集合中，除所述先验样本以外剩余的待分类样本，选取与所述待分类样本距离最近的K个先验样本，作为对比样本；所述K为预先设置的正整数值。

K值的选取不宜过大或过小，通常来说，其与样本集合的样本容量相关。此时，确定样本集合对应的样本容量，根据样本容量确定分类过程中对应的K值以及指定样本的选取数量，其中，K值与样本容量的比值范围为[0.03,0.09]之内的正整数，且K值为奇数，当样本容量为100时，K值可以是3、5、7、9。

而先验样本的数量至少为K+1个，且每个类别中所包含的先验样本的数量相同。比如，当类别数量为两类时，则M=2，N=1，此时先验样本的数量最少为K+1个。而K往往是奇数，则此时，K+1为偶数，满足每个类别中数量相同的要求。当类别数量更多时，可能K+1是无法满足数量相同的要求，则此时可以提高先验样本的数量，直至满足要求即可。

S104：基于相似度相异的方式，以及所述对比样本在初始化分类中确定的类别标签，得到所述待分类样本的类别标签，直至对所有待分类样本完成分类。

如图3所示，按照传统的KNN聚类算法，仍以相似度相同的方式进行聚类时，则最终得到的结果仍是类间迥异，类内同质的效果，此时类内仍处于低熵的状态，不符合本文中的需求。

基于此，采用相似度相异的方式，针对每个待分类样本，确定其对应的对比样本中出现的类别标签，以及出现的各类别标签分别对应的出现次数。在所有类别标签中，选取出现次数最少的类别标签，作为待分类样本的类别标签。

如图4所示，其中除了空心方框的图标代表的A类、方框内包含叉的图标代表的B类之外，还包括以实心方框的图标代表的未确定的类别。在图4中，以K=5为例，则第7样本（也就是当前正在确认的待分类样本）对应的5个对比样本分别是第1样本~第3样本、第5样本~第6样本。经确认，其中属于A类的是第1样本和第5样本，数量对应于2，属于B类的是第2样本、第3样本和第6样本，数量对应于3，A类对应的对比样本更少，则根据相似度相异的原则，第7样本被分至A类。

此时，最终实现的效果可以如图5所示，达到类间同质、类内迥异的效果，此时类内处于高熵的状态，符合需求。

在一个实施例中，上文中描述过需求选取距离最近的样本作为对比样本，在计算样本间距离时，确定样本集合中，各样本所包含的维度数量，并根据维度数量计算待分类样本与其他所有先验样本之间的距离，从而选取距离最近的K个先验样本，作为对比样本。

维度数量通常包括一维至三维数据，比如，文本数据中包含文字的一维数据，2D平面图像中包含像素在x轴和y轴二维数据，产品数据中包含外观、功能、价格的三维数据。

当样本集合中样本为一维时，通过得到待分类样本与先验样本之间的距离，其中，/>为待分类样本与第i个先验样本之间的距离，/>为第i个先验样本的坐标，/>为待分类样本的坐标。

当样本集合中样本为二维时，通过得到待分类样本与先验样本之间的距离，其中，/>为待分类样本与第i个先验样本之间的距离，（/>，/>）为第i个先验样本的坐标，（/>，/>）为待分类样本的坐标；

当样本集合中样本为三维，通过得到待分类样本与先验样本之间的距离，其中，/>为待分类样本与第i个先验样本之间的距离，（/>，/>，/>）为第i个先验样本的坐标，（/>，/>，/>）为待分类样本的坐标。

当然，通过该距离计算方式，也可以得到各指定样本之间的距离，并且维度数量还可以包括更多维度，此时推导类似地公式即可计算样本之间的距离。

如图6所示，本发明还提出了一种基于随机遍历的高熵KNN聚类设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如：上述任一实施例中所述的基于随机遍历的高熵KNN聚类方法。

本发明还提出了一种非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：上述任一实施例中所述的基于随机遍历的高熵KNN聚类方法。

本发明中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备和介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明实施例提供的设备和介质与方法是一一对应的，因此，设备和介质也具有与其对应的方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述设备和介质的有益技术效果。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RAM) 和/或非易失性内存等形式，如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体 (transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种基于随机遍历的高熵KNN聚类方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，基于相似度相异的方式，以及所述对比样本已确定的类别标签，得到所述待分类样本的类别标签，具体包括：

确定所述对比样本中出现的类别标签，以及出现的各类别标签分别对应的出现次数；

在所有类别标签中，选取出现次数最少的类别标签，作为所述待分类样本的类别标签。

3.根据权利要求1所述的方法，其特征在于，所述先验样本的数量至少为K+1个，且每个类别中所包含的先验样本的数量相同。

4.根据权利要求3所述的方法，其特征在于，针对该指定样本，根据在先已经分类完成的其他指定样本的类别标签，对该指定样本进行分类，具体包括：

针对该指定样本，确定在先已经分类完成的其他指定样本的样本数量；

若所述样本数量为所需划分的类别数量的整数倍，则确定该指定样本与每个类别标签下对应的其他指定样本之间的距离和，并将距离和最高对应的类别标签，作为该指定样本的类别标签；

否则，则在所述其他指定样本对应的所有类别标签中，选取数量最少的类别标签，作为该指定样本的类别标签。

5.根据权利要求4所述的方法，其特征在于，针对该指定样本，确定在先已经分类完成的其他指定样本的样本数量之后，所述方法还包括：

若所述样本数量为0，则在所有类别标签，随机选取一个类别标签，作为该指定样本的类别标签。

6.根据权利要求1所述的方法，其特征在于，选取与所述待分类样本距离最近的K个先验样本，作为对比样本，具体包括：

根据所述样本集合中，各样本所包含的维度数量，计算所述待分类样本与其他所有先验样本之间的距离；

选取距离最近的K个先验样本，作为对比样本。

7.根据权利要求6所述的方法，其特征在于，计算所述待分类样本与其他所有先验样本之间的距离，具体包括：

当所述样本集合中样本为一维时，通过得到所述待分类样本与先验样本之间的距离，其中，/>为所述待分类样本与第i个先验样本之间的距离，/>为第i个先验样本的坐标，/>为所述待分类样本的坐标；

当所述样本集合中样本为二维时，通过得到所述待分类样本与先验样本之间的距离，其中，/>为所述待分类样本与第i个先验样本之间的距离，（，/>）为第i个先验样本的坐标，（/>，/>）为所述待分类样本的坐标；

当所述样本集合中样本为三维时，通过得到所述待分类样本与先验样本之间的距离，其中，/>为所述待分类样本与第i个先验样本之间的距离，（/>，/>，/>）为第i个先验样本的坐标，（/>，/>，/>）为所述待分类样本的坐标。

8.根据权利要求1所述的方法，其特征在于，确定需要进行聚类的样本集合，具体包括：

在预先获取的数据集合中，选取若干个数据；

将所述若干个数据作为样本集合，以对所述样本集合进行聚类，在聚类结果的类簇中，不同类别的数据符合预设比例。

9.一种基于随机遍历的高熵KNN聚类设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如：权利要求1~8中任一项权利要求所述的方法。

10.一种非易失性计算机存储介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令设置为：权利要求1~8中任一项权利要求所述的方法。