CN106909619B

CN106909619B - 一种基于偏移调节和竞价的混合社交网络聚类方法及系统

Info

Publication number: CN106909619B
Application number: CN201710029428.2A
Authority: CN
Inventors: 盛益强; 颜川力; 王玲芳
Original assignee: Institute of Acoustics CAS
Current assignee: Zhengzhou Xinrand Network Technology Co ltd
Priority date: 2017-01-16
Filing date: 2017-01-16
Publication date: 2020-04-10
Anticipated expiration: 2037-01-16
Also published as: CN106909619A

Abstract

本发明涉及一种基于偏移调节和竞价的混合社交网络聚类方法及系统，该方法包括：将社交网络用户数据整理为用户ID及用户关注的ID列表的组合形式，得到节点关注关系的数据列表；根据所述节点关注关系，计算节点间相似度，获得偏移调节后的相似度矩阵；根据偏移调节后的相似度矩阵识别出核节点，为其分配簇号，并创建对应的簇列表；根据识别出的核节点，以竞价的方式进行聚类。本发明有效地减少了同一簇内任意两节点间的关系层数，解决了现有技术中将关系相隔很远的节点聚为同一簇的问题，同时克服了聚类过程中选点顺序的影响，使每个节点被划分到与之有最大相似度的节点的簇中，而使得聚类结果中的每个簇都相当于一个朋友圈，提高了准确率和召回率。

Description

一种基于偏移调节和竞价的混合社交网络聚类方法及系统

技术领域

本发明涉及社会计算与网络新媒体技术领域，尤其涉及一种基于偏移调节和竞价的混合社交网络聚类方法及系统。

背景技术

随着互联网技术的快速发展，基于人际关系和虚拟关系而发展起来的在线社交网络，在人们的生活中占据着越来越重要的位置。社交网络中的人际关系和虚拟关系具有极大的数据分析和挖掘价值，目前比较常用的对社交网络进行分析的方法是基于随机游走和结构情境相似性的SimRank方法、基于链接稠密度的Newman快速算法，以及Kernighan-Lin算法。但是，随着社交网络中用户数据的不断增加，由于时间复杂度太高，基于结构情境的方法已经很难适用，算法的效率会变得非常低。基于连接稠密度的算法又忽略了社交网络有向交互性，从而并不适用于社交网络用户的聚类分析。

为了解决以上问题，近年来出现了一种区分离群点和中转点的SCAN算法以及一种改进SCAN的DirSCAN聚类方法。其中，DirSCAN方法考虑了社交网络关系存在的有向性，同时还能适用于大规模的用户数据聚类。然而，SCAN和DirSCAN方法依然存在一些严重的缺陷。第一，基于人际关系的社交网络是满足六度隔离理论的，即每个人最多通过六个人就能够认识任何一个陌生人，但是DirSCAN算法通过与之相连节点多的核节点将众多直接相连的核节点以及与这些核节点直接相连的点聚成同一个簇，就会存在聚类成同一簇的节点中某两个节点间的最短路径超过6的情况，而这两个相隔很远的节点很可能是不相关的却被聚为同一个簇，从而造成了聚类不准确；第二，DirSCAN通过核节点进行聚类，采取的原则是先到先得，但很可能出现节点被先开始扩展的小相似度核节点分类，而与之具有最大相似度的核节点遍历到这个节点时由于节点已经分类，于是无法将其正确分类的情况，这种情况也会造成聚类不准确。

发明内容

本发明的目的在于解决包括SCAN和DirSCAN在内的现有技术的聚类不准确问题，克服了聚类过程中选点顺序的影响。

为实现上述目的，一方面本发明提供了一种基于偏移调节和竞价的混合社交网络聚类方法(Shifting-Bidding Hybrid Structural Clustering Algorithm forNetworks，简称SBHSCAN)，包括：

将社交网络用户数据整理为用户ID及用户关注的ID列表的组合形式，得到节点关注关系的数据列表，其中，所述节点为具有自己的ID和所关注的ID列表的个体用户；

根据所述节点关注关系，计算节点间相似度，获得偏移调节后的相似度矩阵；

根据偏移调节后的相似度矩阵识别出核节点，为其分配簇号，并创建对应的簇列表；所述核节点为与其直接可达的节点数量超过一个阈值的节点，所述直接可达为两个节点相似度大于相似度阈值的视为两个节点是直接可达的；

根据识别出的核节点，以竞价的方式进行聚类；其中，所述竞价方式包括：第一轮竞价，由所有核节点对所有未分类节点进行，将节点划分到竞价高的核节点的簇列表中；第二轮竞价，由第一轮竞价中被分类的节点对所有离群点进行，通过表内竞价和表间竞价将节点划分到与之具有最高竞价结果的簇中。

优选地，所述根据所述节点关注关系，计算节点间相似度，获得偏移调节后的相似度矩阵，具体为：运用相似度偏移调节计算公式计算节点间相似度：

计算节点1和节点2间的相似度，其中，节点1关注的ID数量为A，节点2关注的ID数量为B，则：

对于A，相似度为：

对于B，相似度为：

其中，

为现有技术中的节点1和节点2间相似度计算结果。

优选地，所采用的竞价方式，具体包括：

统一竞价：将所有核节点对所有未分类节点进行竞价，将未分类节点加入到具有最大相似度且大于相似度阈值的核节点簇列表中，竞价后最大相似度小于相似度阈值的将节点暂时设置为离群点；

表内竞价：先让每个簇列表中的节点对所有离群点进行竞价，每个列表内选出与该离群点所具有的最大的相似度；

表间竞价：所有簇列表内选出的与该节点所具有的最大相似度进行表间竞价，选出所有列表所具有的最大相似度；

若最大相似度大于或等于相似度阈值，则将该离群点设置为已分类节点并将簇号设置为具有该最大相似度的节点的簇号，若最大相似度小于相似度阈值，则对该离群点不做处理。

另一方面，本发明提供了一种基于偏移调节和竞价的混合社交网络聚类系统，包括：

整理模块，用于将社交网络用户数据整理为用户ID及用户关注的ID列表的组合形式，得到节点关注关系的数据列表，其中，所述节点为具有自己的ID和所关注的ID列表的个体用户；

计算模块，用于根据所述节点关注关系，计算节点间相似度，获得偏移调节后的相似度矩阵；

识别模块，用于根据偏移调节后的相似度矩阵识别出核节点，为其分配簇号，并创建对应的簇列表；所述核节点为与其直接可达的节点数量超过一个阈值的节点，所述直接可达为两个节点相似度大于相似度阈值的视为两个节点是直接可达的；

聚类模块，用于根据识别出的核节点，以竞价的方式进行聚类；其中，所述竞价方式包括：第一轮竞价，由所有核节点对所有未分类节点进行，将节点划分到竞价高的核节点的簇列表中；第二轮竞价，由第一轮竞价中被分类的节点对所有离群点进行，通过表内竞价和表间竞价将节点划分到与之具有最高竞价结果的簇中。

优选地，所述计算模块，具体用于运用相似度偏移调节计算公式计算节点间相似度：

对于A，相似度为：

对于B，相似度为：

其中，

为现有技术中的节点1和节点2间相似度计算结果。

优选地，所述聚类模块所采用的竞价方式，具体包括：

本发明的优点在于：

本发明所提供的基于偏移调节和竞价的混合社交网络聚类方法，相比于包括DirSCAN算法在内的现有技术，有效地减少了同一簇内任意两节点间的关系层数，解决了现有技术中将关系相隔很远的节点聚为同一簇的问题，同时克服了聚类过程中选点顺序的影响，使每个节点被划分到与之有最大相似度的节点的簇中，而使得聚类结果中的每个簇都相当于一个朋友圈，提高了准确率和召回率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简要地介绍。显而易见地，下面附图中反映的仅仅是本发明的一部分实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得本发明的其他实施例。而所有这些实施例或实施方式都在本发明的保护范围之内。

图1为本发明所解决的现有技术问题的示意图；

图2为本发明实施例提供的一种基于偏移调节和竞价的混合社交网络聚类方法的流程示意图；

图3为本发明的一个具体实施例的示意图；

图4为本发明实施例提供的一种基于偏移调节和竞价的混合社交网络聚类系统结构图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

为了便于理解，首先对本发明中所涉及的概念做统一说明：

节点：具有自己的ID和所关注的ID列表的个体。

相似度：两个节点的相似程度，数值越大越相似。

相似度阈值：衡量两节点是否相似的界限，大于或等于相似度阈值的点视为相似，其默认值为0.1。

直接可达：两节点相似度大于相似度阈值的视作两节点是直接可达的。

核节点：与其直接可达的节点数量超过一个定值的节点称作核节点。

边数阈值：成为核节点所应该具备的直接可达的点数量的定值，其默认值为4。

簇：具有相近关系的所有节点被划分为同一个簇。

离群点：不属于任何簇的节点。

竞价：比较出价节点到被竞价节点的偏移调节后的相似度，偏移调节后的相似度大的视为竞价成功。

图1为本发明所解决的现有技术问题的示意图。如图1所示，每个圆圈代表一个用户节点，每条实线表示节点间具有直接可达关系。第一，图中节点A和节点B根据聚类规则被划分在同一个簇中。但是a和b之间存在7层关系，但是根据六度分隔理论，这两个用户很可能是陌生人；第二，有用户节点c先进行扩展，导致节点c被划分在c所在的簇中，但是其实d与e具有更大的相似度。因此，这两个问题的出现就说明DirSCAN算法是存在问题的。

图2为本发明实施例提供的一种基于偏移调节和竞价的混合社交网络聚类方法的流程示意图。如图2所示，该方法包括：

步骤210，将社交网络用户数据整理为用户ID及用户关注的ID列表的组合形式，得到节点关注关系的数据列表。

具体地，图3为本发明的一个具体实施例的示意图；在这个具体实施例中，需要将从社交网络获得的用户数据整理为用户ID和用户关注的ID列表的组合形式，而得到的节点关注关系的数据列表，如下表1所示：

1	101	103	105	107	109	111	113	115	117	119	121	123	12
														2	102	104	106	108	110	112	114	116	118	120	122	124	12
3	101	102	103	104	105	131	132	133					8
														4	107	108	109	110	112	241	242	243					8
5	113	115	117	151	152	153	154						7
														6	119	121	123	161	162	163	164						7
7	114	116	118	271	272	273	274						7
														8	120	122	124	281	282	283	284						7
9	151	152	241	242	243	491	492						7
														10	161	162	163	610	611	612							6
11	272	273	274	711	712	713							6
														12	161	282	283	284	812	813	814						7
13	911	915	917	919	920								5

表1

节点关注关系数据列表：在表1中，第一列为用户的ID，第2到13列为用户关注的ID，第14列为用户关注的ID的总数量，共有13个用户节点，即表格有13行。

步骤220，根据所述节点关注关系，计算节点间相似度，获得偏移调节后的相似度矩阵。

具体地，运用相似度偏移调节计算公式计算节点间相似度：

比如计算节点1和节点2间的相似度，其中，节点1关注的ID数量为A，节点2关注的ID数量为B，则：

对于A，相似度为：

对于B，相似度为：

其中，

为现有技术中的节点1和节点2间相似度计算结果。

根据步骤210中所得的节点关注关系，运用相似度偏移调节计算公式来计算节点间相似度，从而获得偏移调节后的相似度矩阵，如下表2所示：

	1	2	3	4	5	6	7	8	9	10	11	12	13
														1	0	0	0.245	0.163	0.241	0.241	0	0	0	0	0	0	0
2	0	0	0.163	0.245	0	0	0.241	0.241	0	0	0	0	0
														3	0.367	0.245	0	0	0	0	0	0	0	0	0	0	0
4	0.245	0.367	0	0	0	0	0	0	0.374	0	0	0	0
														5	0.413	0	0	0	0	0	0	0	0.286	0	0	0	0
6	0.413	0	0	0	0	0	0	0	0	0.427	0	0.143	0
														7	0	0.413	0	0	0	0	0	0	0	0	0.427	0	0
8	0	0.413	0	0	0	0	0	0	0	0	0	0.429	0
														9	0	0	0	0.428	0.286	0	0	0	0	0	0	0	0
10	0	0	0	0	0	0.499	0	0	0	0	0	0	0
														11	0	0	0	0	0	0	0.499	0	0	0	0	0	0
12	0	0	0	0	0	0.143	0	0.429	0	0	0	0	0
														13	0	0	0	0	0	0	0	0	0	0	0	0	0

表2

相似度矩阵：在上表2中，1行3列的数值0.245表示节点1到节点3的相似度计算结果为0.245。

步骤230，根据偏移调节后的相似度矩阵识别出核节点，为其分配簇号，并创建对应的簇列表。

首先设置相似度阈值及边数阈值，然后根据步骤220中得到的偏移调节后的相似度矩阵识别出核节点，为其分配簇号，并创建对应的簇列表。

本次实施例中，相似度阈值设置为0.1，边数阈值设置为4。先遍历所有节点，节点间相似度大于0.1的视为直接可达。直接可达的点数量大于或等于边数阈值的视为核节点。其中节点1和节点2的直接可达点数量等于4，被视为核节点，节点类型设置为核节点，并为节点1分配簇号为1，节点2分配簇号为2。并分别创建1号簇和2号簇的列表作为簇的扩展之用。

步骤240，根据识别出的核节点，以竞价的方式进行聚类；其中，所述竞价方式包括：第一轮竞价，由所有核节点对所有未分类节点进行，将节点划分到竞价高的核节点的簇列表中；第二轮竞价，由第一轮竞价中被分类的节点对所有离群点进行，通过表内竞价和表间竞价将节点划分到与之具有最高竞价结果的簇中。

具体地，所采用的竞价方式，具体包括：

在步骤230中，识别出节点1和节点2为核节点，现在需要遍历所有未分类节点，由两个核节点对每一个未分类节点进行竞价：

首先进行第一轮竞价：

3号节点：节点1的出价(1行3列的相似度数值，后同)为0.245，节点2的出价为0.163，1号节点竞价成功，且大于相似度阈值，节点3加入到1号簇列表中，节点类型设置为已分类节点，节点簇号设置为1。

4号节点：节点1的出价为0.163，节点2的出价为0.245，节点2竞价成功，且大于相似度阈值，节点4加入到2号簇列表中，节点类型设置为已分类节点，节点簇号设置为2。

5号节点：节点1的出价为0.241，节点2的出价为0，节点1竞价成功，且大于相似度阈值，节点加入到1号簇列表中，节点类型设置为已分类节点，节点簇号设置为1。

6号节点：节点1的出价为0.241，节点2的出价为0，节点1竞价成功，且大于相似度阈值，节点加入到1号簇列表中，节点类型设置为已分类节点，节点簇号设置为1。

7号节点：节点1的出价为0，节点2的出价为0.241，节点2竞价成功，且大于相似度阈值，节点加入到2号簇列表中，节点类型设置为已分类节点，节点簇号设置为2。

8号节点：节点1的出价为0，节点2的出价为0.241，节点2竞价成功，且大于相似度阈值，节点加入到2号簇列表中，节点类型设置为已分类节点，节点簇号设置为2。

9号节点：节点1的出价为0，节点2的出价为0，最大竞价小于相似度阈值，因此竞价“轮空”。节点类型设置为离群点。

10号节点：节点1的出价为0，节点2的出价为0，最大竞价小于相似度阈值，因此竞价“轮空”。节点类型设置为离群点。

11号节点：节点1的出价为0，节点2的出价为0，最大竞价小于相似度阈值，因此竞价“轮空”。节点类型设置为离群点。

12号节点：节点1的出价为0，节点2的出价为0，最大竞价小于相似度阈值，因此竞价“轮空”。节点类型设置为离群点。

13号节点：节点1的出价为0，节点2的出价为0，最大竞价小于相似度阈值，因此竞价“轮空”。节点类型设置为离群点。

到此第一轮竞价结束，目前1号簇列表中有：3，5，6号节点；2号簇列表中有4，7，8号节点。

之后进行第二轮竞价：

先遍历所有暂时的离群点：

9号节点：先由每个簇列表进行表内竞价，3、5、6号节点的出价分别为：0，0.286，0，所以1号簇的最终出价为0.286；4、7、8号节点的出价分别为：0.374，0，0。因此2号列表最终出价为0.374。再进行簇间竞价，2号列表竞价成功，且大于相似度阈值，9号节点类型设置为已分类节点，簇号设置为2。

10号节点：先由每个簇列表进行表内竞价，3、5、6号节点的出价分别为：0，0，0.427，所以1号簇的最终出价为0.427；4、7、8号节点的出价分别为：0，0，0。因此2号列表最终出价为0。再进行簇间竞价，1号列表竞价成功，且大于相似度阈值，10号节点类型设置为已分类节点，簇号设置为1。

11号节点：先由每个簇列表进行表内竞价，3、5、6号节点的出价分别为：0，0，0，所以1号簇的最终出价为0；4、7、8号节点的出价分别为：0，0.427，0。因此2号列表最终出价为0.427。再进行簇间竞价，2号列表竞价成功，且大于相似度阈值，11号节点类型设置为已分类节点，簇号设置为2。

12号节点：先由每个簇列表进行表内竞价，3、5、6号节点的出价分别为：0，0，0.143，所以1号簇的最终出价为0.143；4、7、8号节点的出价分别为：0，0，0.429。因此2号列表最终出价为0.429。再进行簇间竞价，2号列表竞价成功，且大于相似度阈值，12号节点类型设置为已分类节点，簇号设置为2。

13号节点：先由每个簇列表进行表内竞价，3、5、6号节点的出价分别为：0，0，0，所以1号簇的最终出价为0；4、7、8号节点的出价分别为：0，0，0。因此2号列表最终出价为0。再进行簇间竞价，最大出价小于相似度阈值，竞价失败，13号节点依然是离群点。

到此，聚类过程结束，结果是：1号簇中的节点为：1，3，5，6，10；2号簇中的节点为：2，4，7，8，9，11，12。离群点为13号节点。

本发明实施例所提供的基于偏移调节和竞价的混合社交网络聚类方法，相比于包括DirSCAN算法在内的现有技术，有效地减少了同一簇内任意两节点间的关系层数，解决了现有技术中将关系相隔很远的节点聚为同一簇的问题，同时克服了聚类过程中选点顺序的影响，使每个节点被划分到与之有最大相似度的节点的簇中，而使得聚类结果中的每个簇都相当于一个朋友圈，提高了准确率和召回率。

与上述方法实施例相对应的，本发明实施例还提供了基于偏移调节和竞价的混合社交网络聚类系统，具体如图4所示，该系统包括：整理模块401、计算模块402、识别模块403和聚类模块404。

整理模块401，用于将社交网络用户数据整理为用户ID及用户关注的ID列表的组合形式，得到节点关注关系的数据列表，其中，所述节点为具有自己的ID和所关注的ID列表的个体用户。

计算模块402，用于根据所述节点关注关系，计算节点间相似度，获得偏移调节后的相似度矩阵。

识别模块403，用于根据偏移调节后的相似度矩阵识别出核节点，为其分配簇号，并创建对应的簇列表；所述核节点为与其直接可达的节点数量超过一个阈值的节点，所述直接可达为两个节点相似度大于相似度阈值的视为两个节点是直接可达的。

聚类模块404，用于根据识别出的核节点，以竞价的方式进行聚类；其中，所述竞价方式包括：第一轮竞价，由所有核节点对所有未分类节点进行，将节点划分到竞价高的核节点的簇列表中；第二轮竞价，由第一轮竞价中被分类的节点对所有离群点进行，通过表内竞价和表间竞价将节点划分到与之具有最高竞价结果的簇中。

具体地，计算模块402，具体用于运用相似度偏移调节计算公式计算节点间相似度：

对于A，相似度为：

对于B，相似度为：

其中，

为现有技术中的节点1和节点2间相似度计算结果。

聚类模块404所采用的竞价方式，具体包括：

本发明实施例提供的上述基于偏移调节和竞价的混合社交网络聚类系统中各部件所执行的功能均已经在上述实施例提供的一种基于偏移调节和竞价的混合社交网络聚类系统方法中做了详细介绍，这里不再赘述。

本发明实施例所提供的基于偏移调节和竞价的混合社交网络聚类系统，有效地减少了同一簇内任意两节点间的关系层数，解决了现有技术中将关系相隔很远的节点聚为同一簇的问题，同时克服了聚类过程中选点顺序的影响，使每个节点被划分到与之有最大相似度的节点的簇中，而使得聚类结果中的每个簇都相当于一个朋友圈，提高了准确率和召回率。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。