CN108833138B

CN108833138B - 一种错误累积敏感的增量式动态社区发现方法及系统

Info

Publication number: CN108833138B
Application number: CN201810481373.3A
Authority: CN
Inventors: 王志晓; 袁冠; 席景科; 孟凡荣; 牛强; 芮晓彬; 何婧
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2018-05-18
Filing date: 2018-05-18
Publication date: 2021-03-16
Anticipated expiration: 2038-05-18
Also published as: CN108833138A

Abstract

本发明涉及一种错误累积敏感的增量式动态社区发现方法及系统，其中，方法包括：计算给定动态社交网络的错误累积最佳阈值；在第一个时间片，采用静态方法获得动态社交网络的初始社区结构；从第二个时间片开始直到结束，判断当前时间片的错误累积预估值是否超过错误累积最佳阈值，是，则重新进行社区划分，获得当前时间片社区结构；否，则动态更新增量节点的社区归属，获得当前时间片的社区结构。本发明充分考虑了传统增量式动态社区发现中存在的错误累积现象，对每个时间片的错误累积进行了预估，并根据错误累积预估结果选择合适策略进行社区发现，在确保社区发现效率的基础上，提高了社区发现的准确性。

Description

一种错误累积敏感的增量式动态社区发现方法及系统

技术领域

本发明涉及网络分析技术领域，尤其是一种错误累积敏感的增量式动态社区发现方法及系统。

背景技术

许多社交网络中都隐藏着社区结构，社区内的用户联系紧密，而社区之间的用户联系较为稀疏。然而，随着时间的推移，社交网络会发生变化，仅仅对社交网络进行静态社区划分已经不足以刻画其结构特性，因此出现了动态社区划分方法。

目前，常见的动态社区发现方法分为独立静态式划分、基于演化聚类的划分和增量式划分。增量式划分是一种高效的动态社区划分方法，该类方法认为，在社交网络变化过程中，大部分拓扑结构是稳定的，仅有小部分结构会出现变化，以前一个时间片的社区结构为基础，动态更新增量节点的社区归属，即可获得当前时间片的社区结构。增量式划分方法在增量更新过程中难免会出现社区划分错误，并且前一个时间片的错误可能会导致后一个时间片更多的错误出现，造成错误累积。传统增量式动态社区发现方法忽略错误累积现象，影响了动态社区发现的性能。

发明内容

鉴于上述的分析，本发明旨在提供一种错误累积敏感的增量式动态社区发现方法及系统，用于解决现有增量式动态社区发现方法由于忽略错误累积而导致社区划分性能逐渐下降的问题。

本发明的目的主要是通过以下技术方案实现的：

一种错误累积敏感的增量式动态社区发现方法，包括以下步骤：

根据给定的动态社交网络，预估第一个时间片后所有时间片的错误累积，计算所述动态社交网络的错误累积最佳阈值；

在第一个时间片，采用静态方法对初始时间片进行社区划分，获得动态社交网络的初始社区结构；

从第二个时间片开始直到结束，判断当前时间片的错误累积预估值是否超过错误累积最佳阈值，否，则重新进行社区划分，获得当前时间片社区结构；是，则动态更新增量节点的社区归属，获得当前时间片的社区结构。

进一步地，所述错误累积最佳阈值的计算方法包括：

预估第一个时间片后每个时间片的错误累积；

针对预设的动态社交网络的错误累积阈值序列，基于每个时间片的错误累积，分别计算社区划分准确性和时间消耗的杠杆值LOCT；选取LOCT最大值对应的错误累积阈值，为动态社交网络的错误累积最佳阈值。

进一步地，所述错误累积的预估公式为：

其中，IEA_t表示预估的当前时间片t的错误累积，t₀为最近一次采用静态方法划分社区的时间片，ΔN_i表示从t₀开始的第i个时间片的增量节点个数，N_i表示所述第i个时间片的节点总数。

进一步地，所述杠杆值LOCT的计算公式为：

其中，t为当前时间片，T为总时间片数，CC_t为第t个时间片和最近一次采用静态方法重新划分社区结构的时间片之间的相关系数，freq为采用静态方法重新划分社区结构的次数，ratio为比例系数；

所述相关系数CC_t的计算公式为：

其中，t为当前时间片，t₀为最近一次采用静态方法划分社区结构的时间片；E_t代表第t个时间片的边集合，

表示t₀时间片的边集合；IEA_t表示预估的当前时间片t的错误累积，threshod为错误累积阈值；

所述比例系数ratio的计算公式为：

其中，ΔE_i为i时间片的增量边数，E_i为i时间片的总边数。

进一步地，从第二个时间片开始直到结束，获得当前时间片的社区结构方法具体包括：

1)预估每个时间片的错误累积IEA_t；

2)判断IEA_t是否超过所述错误累积最佳阈值，否，则进入3)；是，则进入4)；

3)以前一个时间片的社区结构为基础，动态更新增量节点的社区归属，获得当前时间片的社区结构；

4)重新采用和第一个时间片相同的静态方法对当前时间片进行社区划分，获得当前时间片的社区结构。

一种错误累积敏感的增量式动态社区发现系统，包括：错误累积预估模块、错误累积最佳阈值计算模块、初始时间片社区划分模块和后续时间片社区划分模块；

所述错误累积预估模块，用于预估动态社交网络给定时间片的错误累积；

所述错误累积最佳阈值计算模块，用于根据所述错误累积预估模块输出的错误累积结果计算所述动态社交网络的错误累积最佳阈值；

所述初始时间片社区划分模块，用于采用静态方法划分动态社交网络的第一个时间片，获得动态社交网络的初始社区结构；

所述后续时间片社区划分模块，用于从第二个时间片开始直到结束，判断所述错误累积预估模块输出的当前时间片的错误累积是否超过所述错误累积最佳阈值计算模块输出的错误累积最佳阈值，是，则重新进行社区划分，获得当前时间片社区结构；否，则动态更新增量节点的社区归属，获得当前时间片的社区结构。

进一步地，所述错误累积预估模块采用的错误累积的预估函数为：

其中，IEA_t表示预估的当前时间片t的错误累积，t₀为最近一次采用静态方法划分社区结构的时间片，ΔN_i表示从t₀开始的第i个时间片的增量节点个数，N_i表示所述第i个时间片的节点总数。

进一步地，所述错误累积最佳阈值计算模块针对预设的动态社交网络的错误累积阈值序列，分别计算社区划分准确性和时间消耗的杠杆值LOCT；选取LOCT最大值对应的错误累积阈值，为动态社交网络的错误累积最佳阈值。

进一步地，所述错误累积最佳阈值计算模块中，杠杆值LOCT的计算公式为：

其中，t为当前时间片，T为总时间片数，CC_t为t时间片和最近一次采用静态方法重新划分社区结构的时间片之间的相关系数，freq为采用静态方法重新划分社区结构的次数，ratio为比例系数；

所述相关系数CC_t的计算公式为：

其中，t为当前时间片，t₀为最近一次采用静态方法划分社区结构的时间片；E_t代表t时间片的边集合，

所述比例系数ratio的计算公式为：

其中，ΔE_i为i时间片的增量边数，E_i为i时间片的总边数。

进一步地，后续时间片社区划分模块包括当前时间片社区划分策略选择单元和当前时间片社区划分单元；

所述当前时间片社区划分策略选择单元，用于选取社区划分的策略，包括：如果所述错误累积预估模块预估的当前时间片的错误累积没有超过所述错误累积最佳阈值计算模块计算的错误累积最佳阈值，则当前时间片的社区划分采用增量更新策略，即以前一个时间片的社区结构为基础，动态更新增量节点的社区归属，获得当前时间片的社区结构；否则，当前时间片的社区划分采用重新划分策略，即重新采用和第一个时间片相同的静态方法对当前时间片进行社区划分；

所述当前时间片社区划分单元，用于按照所述当前时间片社区划分策略选择单元选取的策略完成当前时间片的社区划分。

本发明有益效果如下：

本发明充分考虑了传统增量式动态社区发现中存在的错误累积现象，对每个时间片的错误累积进行了预估，并根据错误累积预估结果选择合适策略进行社区发现；在不改变原有的社区划分方法中的初始社区划分方法和增量更新策略的基础上，通过对每个时间片的错误累积进行预估，如果预估的错误累积大于设定的阈值，则当前时间片不是采用增量更新策略，而是采用和初始时间片一样的方法重新划分获得社区结构，在确保社区发现效率的基础上，提高了社区发现的准确性。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1为本发明实施例增量式动态社区发现方法的流程示意图；

图2为本发明实施例增量式动态社区发现系统的结果示意图；

图3为SYN-FIX网络的LOCT值随错误累积阈值的变化曲线图；

图4为SYN-FIX网络的QCA算法与EAS-QCA算法的准确性对比图；

图5为SYN-FIX网络的BatchInc算法与EAS-BatchInc算法的准确性对比图；

图6为SYN-FIX网络的LBTR算法与EAS-LBTR算法的准确性对比图；

图7为arXiv网络的LOCT值随错误累积阈值的变化曲线图；

图8为arXiv网络的QCA算法与EAS-QCA算法的准确性对比图；

图9为arXiv网络的BatchInc算法与EAS-BatchInc算法的准确性对比图；

图10为arXiv网络的LBTR算法与EAS-LBTR算法的准确性对比图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理。

实施例一

本实施例提供了一种错误累积敏感的增量式动态社区发现方法，如图1所示，包括：

S101、根据给定的动态社交网络，预估第一个时间片后所有时间片的错误累积，并计算所述动态社交网络的错误累积的最佳阈值。

1)预估第一个时间片后每个时间片的错误累积；

错误累积的预估公式为：

2)获取错误累积的最佳阈值；

首先，设定动态社交网络的错误累积阈值threshod；

优选的，错误累积阈值可设置为初始值为0，并以一定的步长增大的阈值序列，其中，步长可设置为0.01，阈值序列的终止条件为：在阈值超过该终止条件时，无需对任一时间片进行重新划分，而是全部采用增量更新的方式获得社区结构；

其次，针对不同的错误累积阈值计算社区划分准确性和时间消耗的杠杆值LOCT；

最后，取LOCT最大值时对应的错误累积阈值，为动态社交网络错误累积的最佳阈值threshod₀。

具体的，

LOCT的计算公式为：

其中，t为当前时间片，T为总时间片数，CC_t为t时间片和最近一次采用静态方法重新划分社区结构的时间片之间的相关系数，freq为采用静态方法重新划分社区结构的次数，ratio为比例系数。

相关系数CC_t根据当前时间片t的错误累积是否超过错误累积阈值确定，

具体的计算公式为：

表示t₀时间片的边集合；IEA_t表示预估的当前时间片t的错误累积，threshod为错误累积阈值。

比例系数ratio的计算公式为：

其中，ΔE_i为i时间片的增量边数，也就是出现变化的边数，E_i为i时间片的总边数。

S102、在第一个时间片，采用静态方法对初始时间片进行社区划分，获得动态社交网络的初始社区结构；

S103、从第二个时间片开始直到结束，判断当前时间片t的错误累积是否超过错误累积最佳阈值threshod₀，是，则重新进行社区划分，获得当前时间片社区结构；否，则动态更新增量节点的社区归属，获得当前时间片的社区结构。

具体：

1)预估每个时间片的错误累积；

错误累积的预估公式为：

2)判断IEA_t是否超过最佳阈值threshod₀，否，则进入3)；是，则进入4)；

综上所述，本实施例公开的错误累积敏感的增量式动态社区发现方法，充分考虑了传统增量式动态社区发现中存在的错误累积现象，对每个时间片的错误累积进行了预估，并根据错误累积预估结果选择合适策略进行社区发现；在不改变原有的社区划分方法中的初始社区划分方法和增量更新策略的基础上，通过对每个时间片的错误累积进行预估，如果预估的错误累积大于设定的阈值，则当前时间片不是采用增量更新策略，而是采用和初始时间片一样的方法重新划分获得社区结构，在确保社区发现效率的基础上，提高了社区发现的准确性。

实施例二

本实施例提供了一种错误累积敏感的增量式动态社区发现系统，如图2所示，包括：错误累积预估模块210，错误累积最佳阈值计算模块220，初始时间片社区划分模块230，后续时间片社区划分模块240。

系统中，错误累积预估模块210预估动态社交网络给定时间片的错误累积，

错误累积的预估函数为：

系统中，错误累积最佳阈值计算模块220与错误累积预估模块210相连，计算所述动态社交网络错误累积的最佳阈值。

具体的，错误累积最佳阈值的获取过程为：

首先，设定动态社交网络的错误累积阈值threshod；

具体的，

LOCT的计算公式为：

相关系数CC_t根据当前时间片t的错误累积是否超过错误累积阈值确定；

具体的计算公式为：

比例系数ratio的计算方法为：

系统中，初始时间片社区划分模块230采用静态方法划分动态社交网络的第一个时间片，获得动态社交网络的初始社区结构。

系统中，后续时间片社区划分模块240，从第二个时间片开始直到结束，判断所述错误累积预估模块输出的当前时间片的错误累积是否超过所述错误累积最佳阈值计算模块220输出的错误累积最佳阈值threshod₀，是，则重新进行社区划分，获得当前时间片社区结构；否，则动态更新增量节点的社区归属，获得当前时间片的社区结构。

后续时间片社区划分模块240包括：当前时间片社区划分策略选择单元241和当前时间片社区划分单元242。

其中，当前时间片社区划分策略选择单元241与错误累积预估模块210和错误累积最佳阈值计算模块220相连，如果预估的当前时间片的错误累积没有超过最佳阈值threshod₀，则当前时间片的社区划分采用增量更新策略，即以前一个时间片的社区结构为基础，动态更新增量节点的社区归属，获得当前时间片的社区结构。否则，当前时间片的社区划分采用重新划分策略，即重新采用和第一个时间片相同的静态方法对当前时间片进行社区划分。

当前时间片社区划分单元242与所述当前时间片社区划分策略选择单元241相连，按照当前时间片社区划分策略选择单元选取的策略完成当前时间片的社区划分。

综上所述，本实施例公开的错误累积敏感的增量式动态社区发现系统，充分考虑了传统增量式动态社区发现中存在的错误累积现象，对每个时间片的错误累积进行了预估，并根据错误累积预估结果选择合适策略进行社区发现；在不改变原有的社区划分方法中的初始社区划分方法和增量更新策略的基础上，通过对每个时间片的错误累积进行预估，如果预估的错误累积大于设定的阈值，则当前时间片不是采用增量更新策略，而是采用和初始时间片一样的方法重新划分获得社区结构，在确保社区发现效率的基础上，提高了社区发现的准确性。

实施例三

本实施例以SYN-FIX网络为例进行增量式动态社区结构发现；SYN-FIX网络是由Newman提出的算法生成的人工动态网络，该网络包含128个节点，4个社区，每个社区包含32个节点，平均度为16。该网络包含十个时间片，每个时间片从每个社区中选出3个节点随机加入到其它3个社区中。本实例包括以下具体步骤：

S301、根据给定的动态社交网络，预估第一个时间片后所有时间片的错误累积，并计算所述动态社交网络的错误累积的最佳阈值。

1)根据本发明实施例的增量式动态社区发现方法，预估SYN-FIX网络第二个时间片及其后所有时间片的错误累积。

2)将错误累积阈值初始值设为0.01，步长设为0.01，不断增大错误累积阈值，计算相应的LOCT值，LOCT值随错误累积阈值的增大而变化的曲线如附图3所示。由图3可知，当错误累积阈值取0.99时，LOCT能取得最大值。因此，0.99即为错误累积的最佳阈值。

S302、使用静态方法Louvain对第一个时间片进行社区划分，获得动态社交网络的初始社区结构。

社区划分结果如表1所示。

表1：SYN-FIX网络初始时间片社区划分结果

S303、从第二个时间片开始直到结束，根据当前时间片错误累积的预估结果，若错误累积没有超过错误累积最佳阈值0.99，则当前时间片的社区划分采用增量更新策略，即以前一个时间片的社区结构为基础，动态更新增量节点的社区归属，获得当前时间片的社区结构；若错误累积超过错误累积最佳阈值0.99，当前时间片的社区划分采用重新划分策略，即重新采用静态方法Louvain对当前时间片进行社区划分，获得动态社交网络的社区结构。

表2列出了第二个时间到第十个时间片的错误累积预估结果。

表2：时间片错误累积预估结果

由表2可知，第4个时间片的错误累积预估值超出了最佳阈值0.99，因此，第4个时间片使用静态方法重新进行社区划分。

然后，从第5个时间片开始，重新预估每个时间片的错误累积，若错误累积没有超过错误累积最佳阈值0.99，则当前时间片的社区划分采用增量更新策略，即以前一个时间片的社区结构为基础，动态更新增量节点的社区归属，获得当前时间片的社区结构；若错误累积超过错误累积最佳阈值0.99，当前时间片的社区划分采用重新划分策略，即重新采用和第一个时间片相同的静态方法对当前时间片进行社区划分。表3为重新预估的第5个时间片至第10个时间片的错误累积。

表3：重新预估的第5个时间片至第10个时间片的错误累积

由表3可知，第7个时间片的错误累积预估值超出了最佳阈值0.99，因此，第7个时间片使用静态方法重新进行社区划分。

然后，从第8个时间片开始，重新预估每个时间片的错误累积，若错误累积没有超过错误累积最佳阈值0.99，则当前时间片的社区划分采用增量更新策略，即以前一个时间片的社区结构为基础，动态更新增量节点的社区归属，获得当前时间片的社区结构；若错误累积超过错误累积最佳阈值0.99，当前时间片的社区划分采用重新划分策略，即重新采用和第一个时间片相同的静态方法对当前时间片进行社区划分。表4为重新预估的第8个时间片至第10个时间片的错误累积。

表4：重新预估的第8个时间片至第10个时间片的错误累积

由表4可知，从第8时间片开始所有时间片的错误累积预估值都没有超过最佳阈值0.99，则第8个时间片及后续时间片都采用增量更新策略进行社区划分。

为了进一步验证本发明的有效性，将本发明实施例所述方法与三种典型的增量式动态社区发现方法QCA、BatchInc、LBTR相结合，分别采用上述三种社区发现方法的初始社区的划分方法和增量更新的策略，生成三种新的增量式动态社区发现方法EAS-QCA、EAS-BatchInc、EAS-LBTR，对比结合前后的SYN-FIX网络每个时间片NMI性能，结果如附图4、5、6所示。可以看出，本发明能够有效提高社区划分的准确性。

实施例四

本实施例以arXiv动态网络为例进行增量式动态社区结构发现，arXiv动态网络是由KDD出版的文章的电子版引用网络，包括从1991年到2003年出版的所有27,769篇文章，该网络包括13个时间片，文章被看作节点，文章的引用被看作边。

根据本发明实施例的增量式动态社区发现方法，预估arXiv网络第二个时间片及其后所有时间片的错误累积。

将错误累积阈值初始值设为0.01，步长设为0.01，不断增大错误累积阈值，计算相应的LOCT值，LOCT值随错误累积阈值的增大而变化的曲线如附图7所示。由图7可知，当错误累积阈值取0.22-0.24时，LOCT能取得最大值。因此，0.22-0.24即为错误累积的最佳阈值。

将本发明实施例所述方法与三种典型的增量式动态社区发现方法QCA、BatchInc、LBTR相结合，分别采用上述三种社区发现方法的初始社区的划分方法和增量更新的策略，生成三种新的增量式动态社区发现方法EAS-QCA、EAS-BatchInc、EAS-LBTR，对比结合前后的arXiv网络个时间片NMI性能，结果如附图8、9、10所示。可以看出，本发明能够有效提高社区划分的准确性。

综上所述，本实施例公开的错误累积敏感的增量式动态社区发现系统，充分考虑了传统增量式动态社区发现中存在的错误累积现象，对每个时间片的错误累积进行了预估，并根据错误累积预估结果选择合适策略进行社区发现，在确保社区发现效率的基础上，提高了社区发现的准确性。

本领域技术人员可以理解，实现上述实施例方法的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中。其中，所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种错误累积敏感的增量式动态社区发现方法，其特征在于，包括以下步骤：

从第二个时间片开始直到结束，判断当前时间片的错误累积预估值是否超过错误累积最佳阈值，是，则重新进行社区划分，获得当前时间片社区结构；否，则动态更新增量节点的社区归属，获得当前时间片的社区结构；

其中，所述错误累积最佳阈值的计算方法包括：

预估第一个时间片后每个时间片的错误累积；

2.根据权利要求1所述的动态社区发现方法，其特征在于，

所述错误累积的预估公式为：

3.根据权利要求1所述的动态社区发现方法，其特征在于，

所述杠杆值LOCT的计算公式为：

所述相关系数CC_t的计算公式为：

所述比例系数ratio的计算公式为：

其中，ΔE_i为i时间片的增量边数，E_i为i时间片的总边数。

4.根据权利要求1所述的动态社区发现方法，其特征在于，从第二个时间片开始直到结束，获得当前时间片的社区结构方法具体包括：

1)预估每个时间片的错误累积IEA_t；

5.一种应用权利要求1-4任意一项所述方法的错误累积敏感的增量式动态社区发现系统，其特征在于，包括：错误累积预估模块、错误累积最佳阈值计算模块、初始时间片社区划分模块和后续时间片社区划分模块；

所述错误累积最佳阈值计算模块，用于根据所述错误累积预估模块输出的错误累积结果计算所述动态社交网络的错误累积最佳阈值；进一步地，所述错误累积最佳阈值计算模块，根据所述错误累积预估模块输出的错误累积结果，针对预设的动态社交网络的错误累积阈值序列，分别计算社区划分准确性和时间消耗的杠杆值LOCT；选取LOCT最大值对应的错误累积阈值，为动态社交网络的错误累积最佳阈值；

6.根据权利要求5所述的动态社区发现系统，其特征在于，所述错误累积预估模块采用的错误累积的预估函数为：

7.根据权利要求5所述的动态社区发现系统，其特征在于，

所述错误累积最佳阈值计算模块中，杠杆值LOCT的计算公式为：

所述相关系数CC_t的计算公式为：

所述比例系数ratio的计算公式为：

其中，ΔE_i为i时间片的增量边数，E_i为i时间片的总边数。

8.根据权利要求5所述的动态社区发现系统，其特征在于，后续时间片社区划分模块包括当前时间片社区划分策略选择单元和当前时间片社区划分单元；