CN113435501B

CN113435501B - 基于聚类的度量空间数据划分与性能衡量方法及相关组件

Info

Publication number: CN113435501B
Application number: CN202110712784.0A
Authority: CN
Inventors: 毛睿; 刘林锋; 陆敏华; 王毅; 刘刚; 陆克中; 陈倩婷
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2021-06-25
Filing date: 2021-06-25
Publication date: 2023-07-07
Anticipated expiration: 2041-06-25
Also published as: CN113435501A

Abstract

本发明公开了基于聚类的度量空间数据划分与性能衡量方法及相关组件，该方法包括输入样本数据集、支撑点集合以及划分块数，输出划分后的数据块；输入查询对象、查询半径、每一数据块的中心、支撑点集合以及划分块数，输出数据块的排除结果；基于多个聚集向量数据集进行数据划分后得到每一聚集向量数据集在支撑点空间的划分结果、不同的查询半径下的r‑邻域内点的数目以及根节点的平均排除率；将每一聚集向量数据集的所有数据点作为查询点，统计距离计算的次数，根据统计的次数得到划分性能。本发明针对有聚类信息的数据集，在数据划分后可以很好的保留聚类信息，具有对有聚类关系的数据集的划分性能好的优点。

Description

基于聚类的度量空间数据划分与性能衡量方法及相关组件

技术领域

本发明涉及度量空间领域，尤其涉及一种基于聚类的度量空间数据划分与性能衡量方法及相关组件。

背景技术

随着大数据时代的来临，人们所要处理的数据类型越来越多，为这些不同类型的数据开发不同的处理方法，通常性价都会比较低、维护困难。因此一种性价比较高的方案是开发一种通用的数据管理分析系统，该系统可以将各种类型的数据抽象成统一的一种数据类型，后续的方法设计都可以针对统一的数据类型进行设计和分析。通用的数据管理分析系统通常选取度量空间作为数据的统一抽象，构建树状的度量空间索引，以此达到通用的目的。

在度量空间划分领域中，VP划分和GH划分是比较常用的数据划分方法，但一般只在均匀数据上表现较好，在面对在支撑点空间中保留了大量的类簇信息的数据集时，VP划分和GH划分在索引树的根节点其划分边界不能很好的适配数据的分布，即划分边界不一定落到数据簇的空隙之间，从而在根节点不能最大程度的提高查询的排除率，因此很难在根节点将这类数据很好的按类别划分开来。

发明内容

本发明的目的是提供一种基于聚类的度量空间数据划分与性能衡量方法及相关组件，旨在解决现有数据划分方法难以对具有类簇信息的数据集进行很好的划分的问题。

为解决上述技术问题，本发明的目的是通过以下技术方案实现的：提供一种基于聚类的度量空间数据划分与性能衡量方法，包括：

输入样本数据集、支撑点集合以及划分块数，输出划分后的数据块；

输入查询对象、查询半径、每一所述数据块的中心、支撑点集合以及划分块数，输出所述数据块的排除结果；

基于多个聚集向量数据集，确定每个所述聚集向量数据集的多个查询半径；

将所述划分块数设置为所述聚集向量数据集的类别数目，使用支撑点集合对每一聚集向量数据集进行数据划分，得到每一聚集向量数据集在支撑点空间的划分结果、不同的查询半径下的r-邻域内点的数目以及根节点的平均排除率；

将每一聚集向量数据集的所有数据点作为查询点，统计距离计算的次数，根据统计的次数得到划分性能。

另外，本发明要解决的技术问题是还在于提供一种基于聚类的度量空间数据划分与性能衡量装置，包括：

划分单元，用于输入样本数据集、支撑点集合以及划分块数，输出划分后的数据块；

搜索单元，用于输入查询对象、查询半径、每一所述数据块的中心、支撑点集合以及划分块数，输出所述数据块的排除结果；

确定单元，用于基于多个聚集向量数据集，确定每个所述聚集向量数据集的多个查询半径；

计算单元，用于将所述划分块数设置为所述聚集向量数据集的类别数目，使用支撑点集合对每一聚集向量数据集进行数据划分，得到每一聚集向量数据集在支撑点空间的划分结果、不同的查询半径下的r-邻域内点的数目以及根节点的平均排除率；

统计单元，用于将每一聚集向量数据集的所有数据点作为查询点，统计距离计算的次数，根据统计的次数得到划分性能。

另外，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的基于聚类的度量空间数据划分与性能衡量方法。

另外，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于聚类的度量空间数据划分与性能衡量方法。

本发明实施例公开了一种基于聚类的度量空间数据划分与性能衡量方法及相关组件，该方法包括输入样本数据集、支撑点集合以及划分块数，输出划分后的数据块；输入查询对象、查询半径、每一数据块的中心、支撑点集合以及划分块数，输出数据块的排除结果；基于多个聚集向量数据集进行数据划分后得到每一聚集向量数据集在支撑点空间的划分结果、不同的查询半径下的r-邻域内点的数目以及根节点的平均排除率；将每一聚集向量数据集的所有数据点作为查询点，统计距离计算的次数，根据统计的次数得到划分性能。本发明实施例针对有聚类信息的数据集，在数据划分性后可以很好的保留聚类信息，具有对有聚类关系的数据集的划分性能好的优点。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于聚类的度量空间数据划分与性能衡量方法的流程示意图；

图2为本发明实施例提供的基于聚类的度量空间数据划分与性能衡量方法的子流程示意图；

图3为本发明实施例提供的基于聚类的度量空间数据划分与性能衡量方法的又一子流程示意图；

图4为本发明实施例提供的基于聚类的度量空间数据划分与性能衡量方法的又一子流程示意图；

图5为本发明实施例提供的基于聚类的度量空间数据划分与性能衡量方法的又一子流程示意图；

图6为本发明实施例提供的聚集向量数据集1的数据划分结果的对比图；

图7为本发明实施例提供的聚集向量数据集2的数据划分结果的对比图；

图8为本发明实施例提供的聚集向量数据集1上不同的查询半径的r-邻域内的点的数目对比图；

图9为本发明实施例提供的聚集向量数据集2上不同的查询半径的r-邻域内的点的数目对比图；

图10为本发明实施例提供的聚集向量数据集1的根节点的平均排除率的对比图；

图11为本发明实施例提供的聚集向量数据集2的根节点的平均排除率的对比图；

图12为本发明实施例提供的聚集向量数据集1的平均距离计算次数的对比图；

图13为本发明实施例提供的聚集向量数据集2的平均距离计算次数的对比图；

图14为本发明实施例提供的基于聚类的度量空间数据划分与性能衡量装置的示意性框图；

图15为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1为本发明实施例提供的基于聚类的度量空间数据划分与性能衡量方法的流程示意图；

如图1所示，该方法包括步骤S101～S105。

S101、输入样本数据集、支撑点集合以及划分块数，输出划分后的数据块。

具体的，如图2所示，所述步骤S101包括：

S201、将所述样本数据集的每个样本通过所述支撑点集合映射到支撑点空间中；

S202、从映射后的支撑点空间中选择k个样本作为初始的均值向量{μ₁,μ₂,…,μ_k}；

S203、计算所述样本数据集中的每个样本到每个初始的均值向量的距离；

S204、将所述样本划分到其最近的初始的均值向量所属的类别块中；

S205、根据公式

更新每个类别块的均值向量，其中x表示类别块中的向量，C_i表示类别块i，|C_i|表示属于类别块i的向量的数目；

S206、重复计算所述样本数据集中的每个样本到更新后的均值向量的距离，直至均值向量的值不再改变；

S207、根据所述样本所属的类别块对样本进行划分并输出划分后的数据块。

本实施例中，所述样本数据集为具有明显聚类关系的数据集，通过所述支撑点集合映射到支撑点空间中后，进行聚类，并按上述步骤进行数据划分，即可输出划分后的数据块。

该步骤结合了K-Means的支撑点空间数据划分方法，实现了易于搜索的时候进行剪枝判断，同时方法简单，收敛速度较快，很适合作为基于聚类的度量空间数据划分与性能衡量方法的核心聚类方法。

S102、输入查询对象、查询半径、每一所述数据块的中心、支撑点集合以及划分块数，输出所述数据块的排除结果。

具体的，如图3所示，所述步骤S102包括：

S301、将所述查询对象通过支撑点集合映射到支撑点空间中，得到所述查询对象在支撑点空间中的坐标向量；

S302、通过所述坐标向量和查询半径生成查询超立方体的顶点集合N；

S303、根据所述顶点集合N计算并得到数据块的排除结果。

本实施例中，划分是在支撑点空间中进行的，所以搜索也是在支撑点空间中进行，划分结果的边界在二维支撑点空间中应该表现为一条直线，更高维的支撑点空间表现为超平面；同时，范围查找在支撑点空间中表现为一个超立方体。因此，在支撑点空间进行搜索的时候只需要判断划分超平面是否与查询超立方体有交点，若没有交点则可以排除。

在一实施例中，所述步骤S303包括：

初始化标记数组A，长度为划分块数，值为0，表示对应下标的数据块无法被排除；

针对所有数据块，每两个数据块为一组，每组判断一次；

对于每一组取其第一个数据块的中心为C[1]、第二个数据块的中心为C[2]；

计算所述第一个数据块的中心C[1]和第二个数据块的中心C[2]的中点向量M；

计算向量

对于顶点集合N中的每个顶点，计算向量

如果存在/>

则表示该数据块不可排除，数组A对应下标的值不变，如果不存在/>

则表示该数据块排除，数组A对应下标的值设置为1；

将数组A的结果返回，按照数组A的下标对每个数据块进行搜索处理。

本实施例中，以二维支撑点空间为例，讲解基于K-Means的支撑点空间数据划分的搜索方法。假设二维支撑点空间中的数据被划分成了3块，则范围查询(q，r)在支撑点空间中应该是一个边长为2r的正方形，其中q为查询对象，r为查询半径。任意两个数据块的中心C₁和C₂，令M为C₁和C₂的中点，则查询正方形与划分边界可能的情况如下：

1)

查询正方形完全位于以C₁为中心的划分块中，可以排除C₂块；

2)

查询正方形完全位于以C₂为中心的划分块中，可以排除C₁块；

3)

且/>

查询正方形与划分边界有交点，两侧都需要搜索，若没有交点则可以排除；任意两个数据块都可用上面的搜索策略进行排除剪枝。

S103、基于多个聚集向量数据集，确定每个所述聚集向量数据集的多个查询半径。

具体的，如图4所示，所述步骤S103包括：

S401、设定数据集大小、维度、距离函数均相同的多个聚集向量数据集；

S402、针对每一聚集向量数据集设置依次增大的多个查询半径。

本实施例中，可设定2个聚集向量数据集，分别为聚集向量数据集1和聚集向量数据集2，2个聚集向量数据集均可以采用二维向量数据集，使用的距离函数都是L²距离，所有的数据集大小都是10k，使用PCA选择支撑点，支撑点数目都是2(即维度)，可以很好的还原原来的数据分布情况，并保留原来数据的聚类信息，具体的2个聚集向量数据集的介绍如表1所示：

表1

为了使支撑点的选择对性能的影响降到最低，实验对照组都是采用相同的支撑点组合，只进行一次划分。

实验对比三种启发性的划分方法的性能差异，分别是本方案提出的基于聚类的度量空间数据划分与性能衡量方法、传统的基于VP的平衡划分和基于VP的聚类划分。基于VP的划分每次划分的时候只使用一个支撑点将数据划分成指定块数，然后迭代的将所有支撑点使用一遍，数据的总划分块数为每个支撑点划分的块数的支撑点数次幂。例如，支撑点个数为2，每个支撑点划分3块的话，最终的划分块数就是9块。

对于这2个聚集向量数据集，确保三种划分方法的划分块数相等，然后测试多组查询半径，观察性能变化趋势。实验时，统计大量的范围搜索半径，针对2个聚集向量数据集选择依次增大的多个具有代表性的查询半径，聚集向量数据集1的查询半径如表格2所示，聚集向量数据集2的查询半径如表格3所示。对于每组实验，每个数据集中的所有点都会作为查询对象，最后的实验结果是所有查询对象的结果取平均值。

表2

表3

S104、将所述划分块数设置为所述聚集向量数据集的类别数目，使用支撑点集合对每一聚集向量数据集进行数据划分，得到每一聚集向量数据集在支撑点空间的划分结果、不同的查询半径下的r-邻域内点的数目以及根节点的平均排除率。

本实施例中，如图6和图7所示，分别为聚集向量数据集1和聚集向量数据集2的划分结果，以图6进行说明，(a)图是聚集向量数据集1在度量空间中的分布情况，(b)图是支撑点空间中的基于VP的平衡划分结果，(c)图是支撑点空间中基于VP的聚类划分结果，(d)图是本方案中基于聚类的度量空间数据划分结果。可以看到，本方案提出的基于聚类的度量空间数据划分方法可以很好的将划分边界放到类簇之间，较好的拟合数据的分布情况。

进一步的，在划分成多块的情况，查询半径位于r-邻域内会导致两块区域都要搜索。本实施例分别统计了聚集向量数据集1和聚集向量数据集2上不同的查询半径的r-邻域内的点的数目占数据集的比例，数目越少则划分的性能越优，以此来衡量划分的性能差异。具体如图8和图9所示，可以看到，随着查询半径的增大，r-邻域内点的数目也在逐渐增加，但是基于VP的聚类划分的r-邻域明显小于平衡划分，而基于聚类的度量空间数据划分的r-邻域明显小于其它两种基于VP的划分方法。

在一实施例中，所述得到每一聚集向量数据集的根节点的平均排除率，包括：

使用所述聚集向量数据集中的所有数据点作为查询对象，并进行多次搜索，统计每次搜索时的数据点的排除量，并根据所述聚集向量数据集的总数据点得到根节点的平均排除率。

本实施例中，在索引中进行一次相似性搜索的时间消耗可以由以下公式计算：

T＝距离计算次数×计算距离的复杂度+额外的CPU时间+I/O时间

本实施例的目的是最小化T，在支撑点相同的情况下，划分的不同只影响搜索时的节点文件的IO次数，而对距离的计算次数没有影响。

因此除了比较r-邻域内点的数目，根节点的排除率是一个更为准确的衡量不同划分性能差异的标准。排除率越大，证明该划分在该数据集上表现越好，搜索时的节点IO次数越少，搜索速度越快。排除率P的计算公式如下：

对于聚集向量数据集1和聚集向量数据集2，分别将划分块数设置为聚集向量数据集1和聚集向量数据集2的类别数目，使用相同的支撑点集合划分一次，使用聚集向量数据集1和聚集向量数据集2中的全部点作为查询点，计算聚集向量数据集1和聚集向量数据集2的根节点总得平均排除率。具体如图10和图11所示，分别是聚集向量数据集1和聚集向量数据集2的根节点的平均排除率。可以看到，随着查询半径的增大，平均排除率降低，可以看出本方案中的基于聚类的度量空间数据划分方法的平均排除率始终高于其他两种划分方式。

S105、将每一聚集向量数据集的所有数据点作为查询点，统计距离计算的次数，根据统计的次数得到划分性能。

具体的，如图5所示，所述步骤S105包括：

S501、采用PCA支撑点选择方法选择2个支撑点；

S502、将所述划分块数设置为所述聚集向量数据集的类别数目，在整个索引树的构建过程中进行一次数据划分；

S503、采用PivotTable结构的叶子节点，将所述聚集向量数据集的所有数据点作为查询点，统计出距离计算次数。

本实施例中，由于在度量空间中，距离计算通常是占比最大的，也是最耗时的；可使用距离计算次数来衡量不同的算法之间的性能差异。

具体的，本实施例采用PCA支撑点选择方法选择2个支撑点，将划分块数设置成聚集向量数据集1和聚集向量数据集2的类别数目。为了对比三种启发式划分方法的范围查询的性能，在整个索引树的构建过程中只划分一次，叶子节点采用PivotTable结构，将聚集向量数据集1和聚集向量数据集2的所有点作为查询点，统计平均距离计算次数；具体如图12和图13所示，可以看到，仅考虑平衡性的VP划分距离计算次数略多于考虑了类别关系的VP划分；而本方案提出的基于聚类的度量空间数据划分算法整体的平均距离计算次数均小于另外两种启发式划分算法。

本发明实施例还提供一种基于聚类的度量空间数据划分与性能衡量装置，该基于聚类的度量空间数据划分与性能衡量装置用于执行前述基于聚类的度量空间数据划分与性能衡量方法的任一实施例。具体地，请参阅图14，图14是本发明实施例提供的基于聚类的度量空间数据划分与性能衡量装置的示意性框图。

如图14所示，基于聚类的度量空间数据划分与性能衡量装置1400，包括：划分单元1401、搜索单元1402、确定单元1403、计算单元1404以及统计单元1405。

划分单元1401，用于输入样本数据集、支撑点集合以及划分块数，输出划分后的数据块；

搜索单元1402，用于输入查询对象、查询半径、每一所述数据块的中心、支撑点集合以及划分块数，输出所述数据块的排除结果；

确定单元1403，用于基于多个聚集向量数据集，确定每个所述聚集向量数据集的多个查询半径；

计算单元1404，用于将所述划分块数设置为所述聚集向量数据集的类别数目，使用支撑点集合对每一聚集向量数据集进行数据划分，得到每一聚集向量数据集在支撑点空间的划分结果、不同的查询半径下的r-邻域内点的数目以及根节点的平均排除率；

统计单元1405，用于将每一聚集向量数据集的所有数据点作为查询点，统计距离计算的次数，根据统计的次数得到划分性能。

该装置针对有聚类信息的数据集，在数据划分性后可以很好的保留聚类信息，具有对有聚类关系的数据集的划分性能好的优点。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

上述基于聚类的度量空间数据划分与性能衡量装置可以实现为计算机程序的形式，该计算机程序可以在如图15所示的计算机设备上运行。

请参阅图15，图15是本发明实施例提供的计算机设备的示意性框图。该计算机设备1500是服务器，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图15，该计算机设备1500包括通过系统总线1501连接的处理器1502、存储器和网络接口1505，其中，存储器可以包括非易失性存储介质1503和内存储器1504。

该非易失性存储介质1503可存储操作系统15031和计算机程序15032。该计算机程序15032被执行时，可使得处理器1502执行基于聚类的度量空间数据划分与性能衡量方法。

该处理器1502用于提供计算和控制能力，支撑整个计算机设备1500的运行。

该内存储器1504为非易失性存储介质1503中的计算机程序15032的运行提供环境，该计算机程序15032被处理器1502执行时，可使得处理器1502执行基于聚类的度量空间数据划分与性能衡量方法。

该网络接口1505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图15中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备1500的限定，具体的计算机设备1500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本领域技术人员可以理解，图15中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图15所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器1502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器1502还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现本发明实施例的基于聚类的度量空间数据划分与性能衡量方法。

所述存储介质为实体的、非瞬时性的存储介质，例如可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的实体存储介质。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于聚类的度量空间数据划分与性能衡量方法，其特征在于，包括：

将每一聚集向量数据集的所有数据点作为查询点，统计距离计算的次数，根据统计的次数得到划分性能；

其中，所述输入查询对象、查询半径、每一所述数据块的中心、支撑点集合以及划分块数，输出所述数据块的排除结果，包括：将所述查询对象通过支撑点集合映射到支撑点空间中，得到所述查询对象在支撑点空间中的坐标向量，通过所述坐标向量和查询半径生成查询超立方体的顶点集合N，根据所述顶点集合N计算并得到数据块的排除结果；

其中，所述将每一聚集向量数据集的所有数据点作为查询点，统计距离计算的次数，根据统计的次数得到划分性能，包括：采用PCA支撑点选择方法选择2个支撑点，将所述划分块数设置为所述聚集向量数据集的类别数目，在整个索引树的构建过程中进行一次数据划分，采用PivotTable结构的叶子节点，将所述聚集向量数据集的所有数据点作为查询点，统计出距离计算次数。

2.根据权利要求1所述的基于聚类的度量空间数据划分与性能衡量方法，其特征在于，所述输入样本数据集、支撑点集合以及划分块数，输出划分后的数据块，包括：

将所述样本数据集的每个样本通过所述支撑点集合映射到支撑点空间中；

从映射后的支撑点空间中选择k个样本作为初始的均值向量{μ₁,μ₂,…,μ_k}；

计算所述样本数据集中的每个样本到每个初始的均值向量的距离；

将所述样本划分到其最近的初始的均值向量所属的类别块中；

根据公式