CN116701979A

CN116701979A - 基于受限k-均值的社交网络数据分析方法及系统

Info

Publication number: CN116701979A
Application number: CN202310628255.1A
Authority: CN
Inventors: 郭龙坤; 薛瑞昕; 贾超琪
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2023-05-29
Filing date: 2023-05-29
Publication date: 2023-09-05

Abstract

本公开提供了基于受限k‑均值的社交网络数据分析方法及系统，涉及社交网络数据处理技术领域，方法中初始化中心选择阶段主要考虑必连约束，在随机选择第一个中心后，通过循环计算受必连约束影响的权重概率择其余聚类中心，由于受必连约束影响，利用每个必连集合的质心代表该组必连集合中的数据点处理受限k‑均值问题。而后，在算法迭代阶段的分配步骤中，针对两种数据约束类型，采取优先处理不相交勿连集合，优先考虑其与必连集合交集的策略，分类处理约束点，以达到更高的算法效率。本公开解决在聚类过程中对于受必连约束和不相交勿连约束的数据处理不准确的问题。

Description

基于受限k-均值的社交网络数据分析方法及系统

技术领域

本公开涉及社交网络数据处理技术领域，具体涉及基于受限k-均值的社交网络数据分析方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

随着当今信息技术的快速发展，社交网络存储并积累了大量的数据，采用数据挖掘工具对这些数据进行有效挖掘并分析可以使人们从中获得更多有价值的信息以及大量的关于真实世界的知识。这些数据，对于一些相关部门来说都是非常重要的信息支撑。这也极大地促进了各个部门以及各个行业之间进行资源共享，对大量数据的发布、共享与分析也不断地促进社会发展，人们获取信息的途径也更为便捷。大规模的数据集里通常会包含着许多需要被保护的个人数据，其中包括节点数据、边数据(个体之间的连接关系)、图结构数据。需要一种基于社交网络数据分析的聚类分析算法，能够更准确地对社交网络数据中的三类数据进行数据分析，在数据发布预处理阶段达到更好的效果。

数据分析是指用适当的统计分析方法对收集来的大量数据进行分析，把隐藏在一大批杂乱无章的数据中的信息集中和提炼出来，从而找出所研究对象的内在规律，以求最大化地开发数据的功能，发挥数据的作用。聚类分析是数据分析的一种典型方法。聚类分析的目的是分析数据是否属于各个独立的簇，使一组中的成员彼此相似，而与其他组中的成员不同。它对一个数据集进行分析，所划分的分类是未知的，因此，聚类分析属于无监督学习。目前聚类问题包括k-均值、k-中位数等，主要方法有k-均值(K-means)算法、k-中心点(K-medoids)算法，由Stuart Lloyd在1957年提出的k-均值算法是目前最著名、最广泛使用的聚类算法。

经典的k-均值算法需要在初始阶段在数据集中随机选择k个点作为聚类中心，而k-均值算法的聚类效果和运行时间很大程度上受初始聚类中心的选择的影响，若选取的初始聚类中心不好，那么得到的聚类结果可能只是局部最优解。

现有K-means++算法对于初始聚类中心的选择进行了改进，基本思想是：初始的聚类中心之间的相互距离要尽可能的远，所以采取一定的概率来选择初始聚类中心。但在实际的数据样本中，会存在来自样本的标记信息，而且约束所有的样本。例如，要把特征相似的用户归属于同一类，用于数据分析，以得到能够得到有价值的商业信息。但是，即使是特征相似的用户，他们之间也存在着受限的关系，比如在某个公开的生活分享平台上，某两个用户互相关注，说明他们有非常相似的兴趣爱好，那么在数据分析时可以把他们聚类在同一个簇中，后期就可以对这个簇中的用户推送同一批感兴趣的内容；某两个用户互相把对方加入黑名单，那么对这两个用户进行数据分析时，为了得到更高的效率，我们认为他们一定不能被聚类在同一个簇。

另外，在处理带有标记信息的数据时，在满足约束的基础上，还需兼顾聚类算法的性能、精度。

发明内容

本公开为了解决上述问题，提出了基于受限k-均值的社交网络数据分析方法及系统，引入两种约束类型，在初始化中心选择阶段进行必连和不相交勿连约束，使受限k-均值算法可行；以及在算法迭代阶段的分配步骤中，分类处理约束点，解决了现有技术方案在聚类过程中对于受必连约束和不相交勿连约束的数据处理不准确的问题，具有更高的实用性。

根据一些实施例，本公开采用如下技术方案：

基于受限k-均值的社交网络数据分析方法，包括：

获取社交网络中的数据，将所述的数据构成网络数据集，给定数据聚合的聚类数目以及ML集合和DCL集合；当进行聚类时，随机选择一个数据点作为初始聚类中心，再考虑其他数据点受ML/DCL约束的情况来选择其他初始聚类中心，构成初始聚类中心集；

采用最小和匹配法将数据点分配到初始聚类中心集中的每个初始聚类中心所在的簇中；其中，优先处理DCL集合并考虑DCL集合中的数据与ML集合相交的情况，若DCL集合中的数据点也属于ML集合，则根据权重确定数据点进行计算，否则直接用该数据点计算，直至分配完DCL集合；

处理剩余数据点，直至处理完全并得到初始簇集合，对于每一个簇，采用均值更新簇中心，获取新的簇中心集合，利用新的簇中心集合迭代更新簇集合，直至无法获取更小的代价时停止迭代，将社交网络中的数据分类成一定数目的簇。

根据一些实施例，本公开采用如下技术方案：

数据获取模块，用于获取社交网络中的数据，将所述的数据构成网络数据集，给定数据聚合的聚类数目以及ML集合和DCL集合；

数据聚类模块，用于当进行聚类时，随机选择一个数据点作为初始聚类中心，再考虑其他数据点受ML/DCL约束的情况来选择其他初始聚类中心，构成初始聚类中心集；

根据一些实施例，本公开采用如下技术方案：

一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质用于存储计算机指令，所述计算机指令被处理器执行时，实现所述的基于受限k-均值的社交网络数据分析方法。

根据一些实施例，本公开采用如下技术方案：

一种电子设备，包括：处理器、存储器以及计算机程序；其中，处理器与存储器连接，计算机程序被存储在存储器中，当电子设备运行时，所述处理器执行所述存储器存储的计算机程序，以使电子设备执行实现所述的基于受限k-均值的社交网络数据分析方法。

与现有技术相比，本公开的有益效果为：

本公开的方法解决了社交网络数据在分析聚类过程中对于受必连约束和不相交勿连约束的数据处理不准确的问题，通过循环计算受必连约束影响的权重概率选择其余中心。由于受必连约束影响利用每个必连集合的质心代表该组必连集合中的数据点，这种算法可以处理受限k-均值问题。而后，在算法迭代阶段的分配步骤中，针对两种数据约束类型，采取优先处理不相交勿连集合，优先考虑其与必连集合交集的策略，分类处理约束点，以达到更高的算法效率，具有更高的实用性。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为本公开实施例的方法实施流程图；

图2为本公开实施例的方法中初始化中心阶段算法流程图；

图3为本公开实施例的方法中迭代阶段的数据分配步骤流程图；

图4为本公开实施例的方法中迭代阶段的簇更新的流程图。

具体实施方式：

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

术语解释

术语解释：“受限”指数据的两种受约束情况：

受必连(must-link,ML)约束，多个数据必属于一个集合；

受不相交勿连(disjoint cannot-link,DCL)约束，多个数据必不属于一个集合。

实施例1

本公开的一种实施例中提供了一种基于受限k-均值的社交网络数据分析方法，步骤包括：

步骤一：获取社交网络中的数据，将所述的数据构成网络数据集，给定数据聚合的聚类数目以及ML集合和DCL集合；

步骤二：对数据进行聚类，当进行聚类时，随机选择一个数据点作为初始聚类中心，再考虑其他数据点受ML/DCL约束的情况来选择其他初始聚类中心，构成初始聚类中心集；

步骤三：采用最小和匹配法将数据点分配到初始聚类中心集中的每个初始聚类中心所在的簇中；其中，优先处理DCL集合并考虑DCL集合中的数据与ML集合相交的情况，若DCL集合中的数据点也属于ML集合，则根据权重确定数据点进行计算，否则直接用该数据点计算，直至分配完DCL集合；

处理剩余数据点，直至处理完全并得到初始簇集合；

步骤四：对于每一个簇，采用均值更新簇中心，获取新的簇中心集合，利用新的簇中心集合迭代更新簇集合，直至无法获取更小的代价时停止迭代，将社交网络中的数据分类成一定数目的簇。

将社交网络中的数据进行聚类分析之后，将社交网络中的数据分类成一定数目的簇，完成社交网络数据利用的前期数据分类预处理过程，因为社交网络数据对于社交平台公司、数据研究部门、信息咨询机构以及政府决策部门来说都是重要的信息资源，便于后期掌握最新信息以及了解社会发展状况提供大量的数据支撑，将分类完成社交网络数据进行利用，这也极大促进各个行业和部门之间进行资源共享。对大量数据的发布、分析不断促进社会发展，人们获取网络信息也更加更个性化、更便捷。

作为一种实施例，基于受限k-均值的社交网络数据分析方法的具体实施方式如下，如图1所示：

S1、输入数据集P、聚类数目k、ML集合DCL集合/>

S2、确定初始化中心；随机选择第一个中心p₀；

S3、根据其他数据点p_c受ML/DCL约束的情况，循环计算D²(p_c)；

S4、以D²(p_c)的概率选取下一个数据点p_c∈P；

S5、若受ML约束，则取该ML集合的质心代表该组ML集合加入初始化中心集合；若受DCL约束，该点直接作为一个中心；直到选取了k个初始化中心；

S6、将数据点依次分配给簇中心集合每个中心所在的簇；

S7、优先处理第一个DCL集合中的数据点，若DCL集合中的数据点属于ML集合，则用该ML集合的权重为|X|的质心代表该数据点；若DCL集合中的数据点不属于ML集合，直接用该点计算；

S8、以最小和匹配法min∑_p∈Yd²(p,c(p))计算S7中处理后的数据点对应的中心c(p)，使总平方距离和最小，并将这些数据点分别分配给其对应的c(p)所在的簇；

S9、循环S7-S8，直到处理分配完所有的DCL集合；

S10、处理剩余数据点；若数据点属于ML集合，将权重为|X|的质心分配给簇中心；若不属于ML集合，分配给最近的中心；

S11、得到初始簇集合

S12、对中的每个簇，通过均值更新簇中心/>得到新的簇中心集合C^t+1；

S13、用新的簇中心集合C^t+1返回S12，迭代更新簇从而更新簇集合/>直到本次迭代没有获取到更小的代价时停止；

从上述S1-S5为初始化中心阶段，如图2所示，随机选择一个数据点作为初始聚类中心，再考虑其他数据点受ML/DCL约束的情况来选择其他初始聚类中心，构成初始聚类中心集的过程为：根据其他数据点受ML/DCL约束的情况，循环进行数据点的加权计算，以数据点加权的概率选择下一个数据点，若是数据的受ML约束，则取该ML集合的质心代表该组ML集合加入初始化聚类中心集合；若受DCL约束，该点直接作为一个聚类中心；直到选取满足数目的初始化聚类中心，构成初始化聚类中心集。即：

进一步的，在步骤S1中，数据集P是一个离散数据集，聚类参数k是人为指定的；

ML集合和DCL集合和分别有以下定义：

ML集合定义为：一组数据点集每个/>都是一个ML集合，给定数据点p_i,p_j,若/>那么p_i,p_j∈A_m；

DCL集合定义为：一组数据点集每个/>是一个满足|Y_i|≤k,i≠j,/>的DCL集合，给定数据点p_i,p_j,若/>且p_i∈A_m，那么必须

其中，A_m是数据集P聚类完成后的k个簇中的某个簇。

进一步的，对数据集中的数据进行聚类，聚类的目标是找到包含k个簇中心点的集合C，并把数据点划分为k个簇表达为以下公式：

在所述步骤S3中，受ML约束和DCL约束的数据点的D²加权计算公式分别为：

其中，为这个ML集合的质心，C为簇中心集合，/>表示从/>到已经选择的c中的最近中心的距离的平方，/>表示从p_c到/>绝对距离的平方。

受必连(must-link,ML)约束，多个数据必属于一个集合；

所述S4中，一定的概率是指：

所述S5中选取的一定数目初始化中心为k个，k个初始化中心记为C⁰集合。

从S6—S10为迭代阶段的分配过程，如图3所示，采用最小和匹配法将数据点分配到初始聚类中心集中的每个初始聚类中心所在的簇中的过程为：将数据点依次分配给初始聚类中心集中每个中心所在的簇，优先处理DCL集合，处理DCL集合中的第一个数据点，若DCL集合中的数据点属于ML集合，则用该ML集合的权重为|X|的质心代表该数据点；若DCL集合中的数据点不属于ML集合，直接用该点计算；以最小和匹配法计算处理后的数据点对应的初始聚类中心，使总平方距离和最小，并将这些数据点分别分配给其对应的初始聚类中心所在的簇。

处理剩余数据点，直至处理完全并得到初始簇集合的过程为：

针对剩余的ML集合的数据点，若数据点属于ML集合，将权重为|X|的质心分配给初始聚类中心；若不属于ML集合，分配给最近的初始聚类中心，直至将所有的数据点分配完，得到初始的簇集合。即：

所述S6中的数据点分配过程，为了达到更小的代价，先从相对“约束较大”的DCL集合入手；

所述S7中，数据点同属于DCL集合和ML集合，用ML集合的质心代表该数据点。用最小和匹配法:

min∑_p∈Yd²(p,c(p))

求得c(p)，将这些点同属于DCL集合和ML集合的数据点分配给c(p)所在的簇；

所述S10中，剩余数据点若只属于ML集合，则将这些点分配给ML集合质心距离最近的簇中心所在的簇，若不属于ML集合也不属于DCL集合，则将这些点直接分配给最近簇中心所在的簇。

从S11-S12所述为迭代阶段簇更新的过程，如图4所示；对于每一个簇，采用均值更新簇中心，获取新的簇中心集合，利用新的簇中心集合迭代更新簇集合，直至无法获取更小的代价时停止迭代的步骤为：

对于每一个初始簇，通过均值法更新簇中心，得到更新的簇中心集合，用迭代更新的簇中心集合再迭代更新新的簇中心集合，利用代价之差判断迭代更新的终止条件是否达到，若是得到更小的代价则开始下一次迭代，直至不再获取到更小的代价时，结束迭代。即：

所述S11中，为初始簇集合。

所述S12中，表示第t次迭代中的第i个簇中心，C^t+1表示第t+1次迭代阶段中的第i个簇中心集。

通过均值法更新的簇中心，其中，所述均值法为：

得到更新的C^t+1簇中心集合。

所述S13中，用迭代更新的簇中心集合C^t+1迭代更新簇集合；

用代价之差：

用代价之差判断迭代更新算法的终止与否，若那么新的一次迭代若得到了更小的代价，则开始下一次迭代，否则结束算法。

将社交网络中的数据进行聚类分析之后，实现将网络数据进行簇的分类，完成社交网络数据利用前期的数据预处理过程，人们可以从中获得更多有价值的信息以及大量关于真实世界的知识，这些社交网络数据对于社交平台公司数据研究部门、信息咨询机构以及政府决策部门来说都是重要的信息资源，为他们掌握最新信息以及了解社会发展状况提供大量的数据支撑，这也极大促进各个行业和部门之间进行资源共享。对大量数据的发布、分析不断促进社会发展，人们获取信息也更加更个性化、更便捷。

实施例2

本公开的一种实施例中提供了一种基于受限k-均值的社交网络数据分析系统，包括：

处理剩余数据点，直至处理完全并得到初始簇集合，对于每一个簇，采用均值更新簇中心，获取新的簇中心集合，利用新的簇中心集合迭代更新簇集合，直至无法获取更小的代价时停止迭代。

实施例3

实施例4

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.基于受限k-均值的社交网络数据分析方法，其特征在于，包括：

2.如权利要求1所述的基于受限k-均值的社交网络数据分析方法，其特征在于，所述网络数据集是一个离散的数据集，ML集合为一组数据的点集每个/>都是一个ML集合，给定数据点p_i,p_j,若/>那么p_i,p_j∈A_m；DCL集合为一组数据的点集/>每个/>是一个满足/>的DCL集合，给定数据点p_i,p_j,若/>且p_i∈A_m，那么必须/>其中，A_m是数据集P聚类完成后的k个簇中的某个簇。

3.如权利要求1所述的基于受限k-均值的社交网络数据分析方法，其特征在于，随机选择一个数据点作为初始聚类中心，再考虑其他数据点受ML/DCL约束的情况来选择其他初始聚类中心，构成初始聚类中心集的过程为：根据数据点受ML/DCL约束的情况，循环进行数据点的加权计算，以数据点加权的概率选择下一个数据点，若是数据的受ML约束，则取该ML集合的质心代表该组ML集合加入初始化聚类中心集合；若受DCL约束，该点直接作为一个聚类中心；直到选取满足数目的初始化聚类中心，构成初始化聚类中心集。

4.如权利要求1所述的基于受限k-均值的社交网络数据分析方法，其特征在于，采用最小和匹配法将数据点分配到初始聚类中心集中的每个初始聚类中心所在的簇中的过程为：将数据点依次分配给初始聚类中心集中每个中心所在的簇，优先处理DCL集合，处理DCL集合中的第一个数据点，若DCL集合中的数据点属于ML集合，则用该ML集合的权重为|X|的质心代表该数据点；若DCL集合中的数据点不属于ML集合，直接用该点计算；以最小和匹配法计算处理后的数据点对应的初始聚类中心，使总平方距离和最小，并将这些数据点分别分配给其对应的初始聚类中心所在的簇。

5.如权利要求1所述的基于受限k-均值的社交网络数据分析方法，其特征在于，所述处理剩余数据点，直至处理完全并得到初始簇集合的过程为：

针对剩余的ML集合的数据点，若数据点属于ML集合，将权重为|X|的质心分配给初始聚类中心；若不属于ML集合，：直接将该数据点分配给最近的初始聚类中心，直至将所有的数据点分配完，得到初始的簇集合。

6.如权利要求1所述的基于受限k-均值的社交网络数据分析方法，其特征在于，所述对于每一个簇，采用均值更新簇中心，获取新的簇中心集合，利用新的簇中心集合迭代更新簇集合，直至无法获取更小的代价时停止迭代的步骤为：

对于每一个初始簇，通过均值法更新簇中心，得到更新的簇中心集合，用迭代更新的簇中心集合再迭代更新新的簇中心集合，利用代价之差判断迭代更新的终止条件是否达到，若是得到更小的代价则开始下一次迭代，直至不再获取到更小的代价时，结束迭代。

7.如权利要求1所述的基于受限k-均值的社交网络数据分析方法，其特征在于，ML约束为受必连约束，即多个数据必属于一个集合；DCL约束为受不相交勿连约束，即多个数据必不属于一个集合。

8.基于受限k-均值的社交网络数据分析系统，其特征在于，包括：

9.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质用于存储计算机指令，所述计算机指令被处理器执行时，实现如权利要求1-7任一项所述的基于受限k-均值的社交网络数据分析方法。

10.一种电子设备，其特征在于，包括：处理器、存储器以及计算机程序；其中，处理器与存储器连接，计算机程序被存储在存储器中，当电子设备运行时，所述处理器执行所述存储器存储的计算机程序，以使电子设备执行实现如权利要求1-7任一项所述的基于受限k-均值的社交网络数据分析方法。