CN106909619B - 一种基于偏移调节和竞价的混合社交网络聚类方法及系统 - Google Patents
一种基于偏移调节和竞价的混合社交网络聚类方法及系统 Download PDFInfo
- Publication number
- CN106909619B CN106909619B CN201710029428.2A CN201710029428A CN106909619B CN 106909619 B CN106909619 B CN 106909619B CN 201710029428 A CN201710029428 A CN 201710029428A CN 106909619 B CN106909619 B CN 106909619B
- Authority
- CN
- China
- Prior art keywords
- nodes
- node
- bidding
- similarity
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 239000011159 matrix material Substances 0.000 claims abstract description 18
- 238000004364 calculation method Methods 0.000 claims description 17
- 239000000126 substance Substances 0.000 claims description 6
- 230000006855 networking Effects 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 6
- 238000004422 calculation algorithm Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 4
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000010415 tropism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于偏移调节和竞价的混合社交网络聚类方法及系统,该方法包括:将社交网络用户数据整理为用户ID及用户关注的ID列表的组合形式,得到节点关注关系的数据列表;根据所述节点关注关系,计算节点间相似度,获得偏移调节后的相似度矩阵;根据偏移调节后的相似度矩阵识别出核节点,为其分配簇号,并创建对应的簇列表;根据识别出的核节点,以竞价的方式进行聚类。本发明有效地减少了同一簇内任意两节点间的关系层数,解决了现有技术中将关系相隔很远的节点聚为同一簇的问题,同时克服了聚类过程中选点顺序的影响,使每个节点被划分到与之有最大相似度的节点的簇中,而使得聚类结果中的每个簇都相当于一个朋友圈,提高了准确率和召回率。
Description
技术领域
本发明涉及社会计算与网络新媒体技术领域,尤其涉及一种基于偏移调节和竞价的混合社交网络聚类方法及系统。
背景技术
随着互联网技术的快速发展,基于人际关系和虚拟关系而发展起来的在线社交网络,在人们的生活中占据着越来越重要的位置。社交网络中的人际关系和虚拟关系具有极大的数据分析和挖掘价值,目前比较常用的对社交网络进行分析的方法是基于随机游走和结构情境相似性的SimRank方法、基于链接稠密度的Newman快速算法,以及Kernighan-Lin算法。但是,随着社交网络中用户数据的不断增加,由于时间复杂度太高,基于结构情境的方法已经很难适用,算法的效率会变得非常低。基于连接稠密度的算法又忽略了社交网络有向交互性,从而并不适用于社交网络用户的聚类分析。
为了解决以上问题,近年来出现了一种区分离群点和中转点的SCAN算法以及一种改进SCAN的DirSCAN聚类方法。其中,DirSCAN方法考虑了社交网络关系存在的有向性,同时还能适用于大规模的用户数据聚类。然而,SCAN和DirSCAN方法依然存在一些严重的缺陷。第一,基于人际关系的社交网络是满足六度隔离理论的,即每个人最多通过六个人就能够认识任何一个陌生人,但是DirSCAN算法通过与之相连节点多的核节点将众多直接相连的核节点以及与这些核节点直接相连的点聚成同一个簇,就会存在聚类成同一簇的节点中某两个节点间的最短路径超过6的情况,而这两个相隔很远的节点很可能是不相关的却被聚为同一个簇,从而造成了聚类不准确;第二,DirSCAN通过核节点进行聚类,采取的原则是先到先得,但很可能出现节点被先开始扩展的小相似度核节点分类,而与之具有最大相似度的核节点遍历到这个节点时由于节点已经分类,于是无法将其正确分类的情况,这种情况也会造成聚类不准确。
发明内容
本发明的目的在于解决包括SCAN和DirSCAN在内的现有技术的聚类不准确问题,克服了聚类过程中选点顺序的影响。
为实现上述目的,一方面本发明提供了一种基于偏移调节和竞价的混合社交网络聚类方法(Shifting-Bidding Hybrid Structural Clustering Algorithm forNetworks,简称SBHSCAN),包括:
将社交网络用户数据整理为用户ID及用户关注的ID列表的组合形式,得到节点关注关系的数据列表,其中,所述节点为具有自己的ID和所关注的ID列表的个体用户;
根据所述节点关注关系,计算节点间相似度,获得偏移调节后的相似度矩阵;
根据偏移调节后的相似度矩阵识别出核节点,为其分配簇号,并创建对应的簇列表;所述核节点为与其直接可达的节点数量超过一个阈值的节点,所述直接可达为两个节点相似度大于相似度阈值的视为两个节点是直接可达的;
根据识别出的核节点,以竞价的方式进行聚类;其中,所述竞价方式包括:第一轮竞价,由所有核节点对所有未分类节点进行,将节点划分到竞价高的核节点的簇列表中;第二轮竞价,由第一轮竞价中被分类的节点对所有离群点进行,通过表内竞价和表间竞价将节点划分到与之具有最高竞价结果的簇中。
优选地,所述根据所述节点关注关系,计算节点间相似度,获得偏移调节后的相似度矩阵,具体为:运用相似度偏移调节计算公式计算节点间相似度:
计算节点1和节点2间的相似度,其中,节点1关注的ID数量为A,节点2关注的ID数量为B,则:
优选地,所采用的竞价方式,具体包括:
统一竞价:将所有核节点对所有未分类节点进行竞价,将未分类节点加入到具有最大相似度且大于相似度阈值的核节点簇列表中,竞价后最大相似度小于相似度阈值的将节点暂时设置为离群点;
表内竞价:先让每个簇列表中的节点对所有离群点进行竞价,每个列表内选出与该离群点所具有的最大的相似度;
表间竞价:所有簇列表内选出的与该节点所具有的最大相似度进行表间竞价,选出所有列表所具有的最大相似度;
若最大相似度大于或等于相似度阈值,则将该离群点设置为已分类节点并将簇号设置为具有该最大相似度的节点的簇号,若最大相似度小于相似度阈值,则对该离群点不做处理。
另一方面,本发明提供了一种基于偏移调节和竞价的混合社交网络聚类系统,包括:
整理模块,用于将社交网络用户数据整理为用户ID及用户关注的ID列表的组合形式,得到节点关注关系的数据列表,其中,所述节点为具有自己的ID和所关注的ID列表的个体用户;
计算模块,用于根据所述节点关注关系,计算节点间相似度,获得偏移调节后的相似度矩阵;
识别模块,用于根据偏移调节后的相似度矩阵识别出核节点,为其分配簇号,并创建对应的簇列表;所述核节点为与其直接可达的节点数量超过一个阈值的节点,所述直接可达为两个节点相似度大于相似度阈值的视为两个节点是直接可达的;
聚类模块,用于根据识别出的核节点,以竞价的方式进行聚类;其中,所述竞价方式包括:第一轮竞价,由所有核节点对所有未分类节点进行,将节点划分到竞价高的核节点的簇列表中;第二轮竞价,由第一轮竞价中被分类的节点对所有离群点进行,通过表内竞价和表间竞价将节点划分到与之具有最高竞价结果的簇中。
优选地,所述计算模块,具体用于运用相似度偏移调节计算公式计算节点间相似度:
计算节点1和节点2间的相似度,其中,节点1关注的ID数量为A,节点2关注的ID数量为B,则:
优选地,所述聚类模块所采用的竞价方式,具体包括:
统一竞价:将所有核节点对所有未分类节点进行竞价,将未分类节点加入到具有最大相似度且大于相似度阈值的核节点簇列表中,竞价后最大相似度小于相似度阈值的将节点暂时设置为离群点;
表内竞价:先让每个簇列表中的节点对所有离群点进行竞价,每个列表内选出与该离群点所具有的最大的相似度;
表间竞价:所有簇列表内选出的与该节点所具有的最大相似度进行表间竞价,选出所有列表所具有的最大相似度;
若最大相似度大于或等于相似度阈值,则将该离群点设置为已分类节点并将簇号设置为具有该最大相似度的节点的簇号,若最大相似度小于相似度阈值,则对该离群点不做处理。
本发明的优点在于:
本发明所提供的基于偏移调节和竞价的混合社交网络聚类方法,相比于包括DirSCAN算法在内的现有技术,有效地减少了同一簇内任意两节点间的关系层数,解决了现有技术中将关系相隔很远的节点聚为同一簇的问题,同时克服了聚类过程中选点顺序的影响,使每个节点被划分到与之有最大相似度的节点的簇中,而使得聚类结果中的每个簇都相当于一个朋友圈,提高了准确率和召回率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简要地介绍。显而易见地,下面附图中反映的仅仅是本发明的一部分实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得本发明的其他实施例。而所有这些实施例或实施方式都在本发明的保护范围之内。
图1为本发明所解决的现有技术问题的示意图;
图2为本发明实施例提供的一种基于偏移调节和竞价的混合社交网络聚类方法的流程示意图;
图3为本发明的一个具体实施例的示意图;
图4为本发明实施例提供的一种基于偏移调节和竞价的混合社交网络聚类系统结构图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
为了便于理解,首先对本发明中所涉及的概念做统一说明:
节点:具有自己的ID和所关注的ID列表的个体。
相似度:两个节点的相似程度,数值越大越相似。
相似度阈值:衡量两节点是否相似的界限,大于或等于相似度阈值的点视为相似,其默认值为0.1。
直接可达:两节点相似度大于相似度阈值的视作两节点是直接可达的。
核节点:与其直接可达的节点数量超过一个定值的节点称作核节点。
边数阈值:成为核节点所应该具备的直接可达的点数量的定值,其默认值为4。
簇:具有相近关系的所有节点被划分为同一个簇。
离群点:不属于任何簇的节点。
竞价:比较出价节点到被竞价节点的偏移调节后的相似度,偏移调节后的相似度大的视为竞价成功。
图1为本发明所解决的现有技术问题的示意图。如图1所示,每个圆圈代表一个用户节点,每条实线表示节点间具有直接可达关系。第一,图中节点A和节点B根据聚类规则被划分在同一个簇中。但是a和b之间存在7层关系,但是根据六度分隔理论,这两个用户很可能是陌生人;第二,有用户节点c先进行扩展,导致节点c被划分在c所在的簇中,但是其实d与e具有更大的相似度。因此,这两个问题的出现就说明DirSCAN算法是存在问题的。
图2为本发明实施例提供的一种基于偏移调节和竞价的混合社交网络聚类方法的流程示意图。如图2所示,该方法包括:
步骤210,将社交网络用户数据整理为用户ID及用户关注的ID列表的组合形式,得到节点关注关系的数据列表。
具体地,图3为本发明的一个具体实施例的示意图;在这个具体实施例中,需要将从社交网络获得的用户数据整理为用户ID和用户关注的ID列表的组合形式,而得到的节点关注关系的数据列表,如下表1所示:
1 | 101 | 103 | 105 | 107 | 109 | 111 | 113 | 115 | 117 | 119 | 121 | 123 | 12 |
2 | 102 | 104 | 106 | 108 | 110 | 112 | 114 | 116 | 118 | 120 | 122 | 124 | 12 |
3 | 101 | 102 | 103 | 104 | 105 | 131 | 132 | 133 | 8 | ||||
4 | 107 | 108 | 109 | 110 | 112 | 241 | 242 | 243 | 8 | ||||
5 | 113 | 115 | 117 | 151 | 152 | 153 | 154 | 7 | |||||
6 | 119 | 121 | 123 | 161 | 162 | 163 | 164 | 7 | |||||
7 | 114 | 116 | 118 | 271 | 272 | 273 | 274 | 7 | |||||
8 | 120 | 122 | 124 | 281 | 282 | 283 | 284 | 7 | |||||
9 | 151 | 152 | 241 | 242 | 243 | 491 | 492 | 7 | |||||
10 | 161 | 162 | 163 | 610 | 611 | 612 | 6 | ||||||
11 | 272 | 273 | 274 | 711 | 712 | 713 | 6 | ||||||
12 | 161 | 282 | 283 | 284 | 812 | 813 | 814 | 7 | |||||
13 | 911 | 915 | 917 | 919 | 920 | 5 |
表1
节点关注关系数据列表:在表1中,第一列为用户的ID,第2到13列为用户关注的ID,第14列为用户关注的ID的总数量,共有13个用户节点,即表格有13行。
步骤220,根据所述节点关注关系,计算节点间相似度,获得偏移调节后的相似度矩阵。
具体地,运用相似度偏移调节计算公式计算节点间相似度:
比如计算节点1和节点2间的相似度,其中,节点1关注的ID数量为A,节点2关注的ID数量为B,则:
根据步骤210中所得的节点关注关系,运用相似度偏移调节计算公式来计算节点间相似度,从而获得偏移调节后的相似度矩阵,如下表2所示:
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | |
1 | 0 | 0 | 0.245 | 0.163 | 0.241 | 0.241 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
2 | 0 | 0 | 0.163 | 0.245 | 0 | 0 | 0.241 | 0.241 | 0 | 0 | 0 | 0 | 0 |
3 | 0.367 | 0.245 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
4 | 0.245 | 0.367 | 0 | 0 | 0 | 0 | 0 | 0 | 0.374 | 0 | 0 | 0 | 0 |
5 | 0.413 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0.286 | 0 | 0 | 0 | 0 |
6 | 0.413 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0.427 | 0 | 0.143 | 0 |
7 | 0 | 0.413 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0.427 | 0 | 0 |
8 | 0 | 0.413 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0.429 | 0 |
9 | 0 | 0 | 0 | 0.428 | 0.286 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
10 | 0 | 0 | 0 | 0 | 0 | 0.499 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
11 | 0 | 0 | 0 | 0 | 0 | 0 | 0.499 | 0 | 0 | 0 | 0 | 0 | 0 |
12 | 0 | 0 | 0 | 0 | 0 | 0.143 | 0 | 0.429 | 0 | 0 | 0 | 0 | 0 |
13 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
表2
相似度矩阵:在上表2中,1行3列的数值0.245表示节点1到节点3的相似度计算结果为0.245。
步骤230,根据偏移调节后的相似度矩阵识别出核节点,为其分配簇号,并创建对应的簇列表。
首先设置相似度阈值及边数阈值,然后根据步骤220中得到的偏移调节后的相似度矩阵识别出核节点,为其分配簇号,并创建对应的簇列表。
本次实施例中,相似度阈值设置为0.1,边数阈值设置为4。先遍历所有节点,节点间相似度大于0.1的视为直接可达。直接可达的点数量大于或等于边数阈值的视为核节点。其中节点1和节点2的直接可达点数量等于4,被视为核节点,节点类型设置为核节点,并为节点1分配簇号为1,节点2分配簇号为2。并分别创建1号簇和2号簇的列表作为簇的扩展之用。
步骤240,根据识别出的核节点,以竞价的方式进行聚类;其中,所述竞价方式包括:第一轮竞价,由所有核节点对所有未分类节点进行,将节点划分到竞价高的核节点的簇列表中;第二轮竞价,由第一轮竞价中被分类的节点对所有离群点进行,通过表内竞价和表间竞价将节点划分到与之具有最高竞价结果的簇中。
具体地,所采用的竞价方式,具体包括:
统一竞价:将所有核节点对所有未分类节点进行竞价,将未分类节点加入到具有最大相似度且大于相似度阈值的核节点簇列表中,竞价后最大相似度小于相似度阈值的将节点暂时设置为离群点;
表内竞价:先让每个簇列表中的节点对所有离群点进行竞价,每个列表内选出与该离群点所具有的最大的相似度;
表间竞价:所有簇列表内选出的与该节点所具有的最大相似度进行表间竞价,选出所有列表所具有的最大相似度;
若最大相似度大于或等于相似度阈值,则将该离群点设置为已分类节点并将簇号设置为具有该最大相似度的节点的簇号,若最大相似度小于相似度阈值,则对该离群点不做处理。
在步骤230中,识别出节点1和节点2为核节点,现在需要遍历所有未分类节点,由两个核节点对每一个未分类节点进行竞价:
首先进行第一轮竞价:
3号节点:节点1的出价(1行3列的相似度数值,后同)为0.245,节点2的出价为0.163,1号节点竞价成功,且大于相似度阈值,节点3加入到1号簇列表中,节点类型设置为已分类节点,节点簇号设置为1。
4号节点:节点1的出价为0.163,节点2的出价为0.245,节点2竞价成功,且大于相似度阈值,节点4加入到2号簇列表中,节点类型设置为已分类节点,节点簇号设置为2。
5号节点:节点1的出价为0.241,节点2的出价为0,节点1竞价成功,且大于相似度阈值,节点加入到1号簇列表中,节点类型设置为已分类节点,节点簇号设置为1。
6号节点:节点1的出价为0.241,节点2的出价为0,节点1竞价成功,且大于相似度阈值,节点加入到1号簇列表中,节点类型设置为已分类节点,节点簇号设置为1。
7号节点:节点1的出价为0,节点2的出价为0.241,节点2竞价成功,且大于相似度阈值,节点加入到2号簇列表中,节点类型设置为已分类节点,节点簇号设置为2。
8号节点:节点1的出价为0,节点2的出价为0.241,节点2竞价成功,且大于相似度阈值,节点加入到2号簇列表中,节点类型设置为已分类节点,节点簇号设置为2。
9号节点:节点1的出价为0,节点2的出价为0,最大竞价小于相似度阈值,因此竞价“轮空”。节点类型设置为离群点。
10号节点:节点1的出价为0,节点2的出价为0,最大竞价小于相似度阈值,因此竞价“轮空”。节点类型设置为离群点。
11号节点:节点1的出价为0,节点2的出价为0,最大竞价小于相似度阈值,因此竞价“轮空”。节点类型设置为离群点。
12号节点:节点1的出价为0,节点2的出价为0,最大竞价小于相似度阈值,因此竞价“轮空”。节点类型设置为离群点。
13号节点:节点1的出价为0,节点2的出价为0,最大竞价小于相似度阈值,因此竞价“轮空”。节点类型设置为离群点。
到此第一轮竞价结束,目前1号簇列表中有:3,5,6号节点;2号簇列表中有4,7,8号节点。
之后进行第二轮竞价:
先遍历所有暂时的离群点:
9号节点:先由每个簇列表进行表内竞价,3、5、6号节点的出价分别为:0,0.286,0,所以1号簇的最终出价为0.286;4、7、8号节点的出价分别为:0.374,0,0。因此2号列表最终出价为0.374。再进行簇间竞价,2号列表竞价成功,且大于相似度阈值,9号节点类型设置为已分类节点,簇号设置为2。
10号节点:先由每个簇列表进行表内竞价,3、5、6号节点的出价分别为:0,0,0.427,所以1号簇的最终出价为0.427;4、7、8号节点的出价分别为:0,0,0。因此2号列表最终出价为0。再进行簇间竞价,1号列表竞价成功,且大于相似度阈值,10号节点类型设置为已分类节点,簇号设置为1。
11号节点:先由每个簇列表进行表内竞价,3、5、6号节点的出价分别为:0,0,0,所以1号簇的最终出价为0;4、7、8号节点的出价分别为:0,0.427,0。因此2号列表最终出价为0.427。再进行簇间竞价,2号列表竞价成功,且大于相似度阈值,11号节点类型设置为已分类节点,簇号设置为2。
12号节点:先由每个簇列表进行表内竞价,3、5、6号节点的出价分别为:0,0,0.143,所以1号簇的最终出价为0.143;4、7、8号节点的出价分别为:0,0,0.429。因此2号列表最终出价为0.429。再进行簇间竞价,2号列表竞价成功,且大于相似度阈值,12号节点类型设置为已分类节点,簇号设置为2。
13号节点:先由每个簇列表进行表内竞价,3、5、6号节点的出价分别为:0,0,0,所以1号簇的最终出价为0;4、7、8号节点的出价分别为:0,0,0。因此2号列表最终出价为0。再进行簇间竞价,最大出价小于相似度阈值,竞价失败,13号节点依然是离群点。
到此,聚类过程结束,结果是:1号簇中的节点为:1,3,5,6,10;2号簇中的节点为:2,4,7,8,9,11,12。离群点为13号节点。
本发明实施例所提供的基于偏移调节和竞价的混合社交网络聚类方法,相比于包括DirSCAN算法在内的现有技术,有效地减少了同一簇内任意两节点间的关系层数,解决了现有技术中将关系相隔很远的节点聚为同一簇的问题,同时克服了聚类过程中选点顺序的影响,使每个节点被划分到与之有最大相似度的节点的簇中,而使得聚类结果中的每个簇都相当于一个朋友圈,提高了准确率和召回率。
与上述方法实施例相对应的,本发明实施例还提供了基于偏移调节和竞价的混合社交网络聚类系统,具体如图4所示,该系统包括:整理模块401、计算模块402、识别模块403和聚类模块404。
整理模块401,用于将社交网络用户数据整理为用户ID及用户关注的ID列表的组合形式,得到节点关注关系的数据列表,其中,所述节点为具有自己的ID和所关注的ID列表的个体用户。
计算模块402,用于根据所述节点关注关系,计算节点间相似度,获得偏移调节后的相似度矩阵。
识别模块403,用于根据偏移调节后的相似度矩阵识别出核节点,为其分配簇号,并创建对应的簇列表;所述核节点为与其直接可达的节点数量超过一个阈值的节点,所述直接可达为两个节点相似度大于相似度阈值的视为两个节点是直接可达的。
聚类模块404,用于根据识别出的核节点,以竞价的方式进行聚类;其中,所述竞价方式包括:第一轮竞价,由所有核节点对所有未分类节点进行,将节点划分到竞价高的核节点的簇列表中;第二轮竞价,由第一轮竞价中被分类的节点对所有离群点进行,通过表内竞价和表间竞价将节点划分到与之具有最高竞价结果的簇中。
具体地,计算模块402,具体用于运用相似度偏移调节计算公式计算节点间相似度:
计算节点1和节点2间的相似度,其中,节点1关注的ID数量为A,节点2关注的ID数量为B,则:
聚类模块404所采用的竞价方式,具体包括:
统一竞价:将所有核节点对所有未分类节点进行竞价,将未分类节点加入到具有最大相似度且大于相似度阈值的核节点簇列表中,竞价后最大相似度小于相似度阈值的将节点暂时设置为离群点;
表内竞价:先让每个簇列表中的节点对所有离群点进行竞价,每个列表内选出与该离群点所具有的最大的相似度;
表间竞价:所有簇列表内选出的与该节点所具有的最大相似度进行表间竞价,选出所有列表所具有的最大相似度;
若最大相似度大于或等于相似度阈值,则将该离群点设置为已分类节点并将簇号设置为具有该最大相似度的节点的簇号,若最大相似度小于相似度阈值,则对该离群点不做处理。
本发明实施例提供的上述基于偏移调节和竞价的混合社交网络聚类系统中各部件所执行的功能均已经在上述实施例提供的一种基于偏移调节和竞价的混合社交网络聚类系统方法中做了详细介绍,这里不再赘述。
本发明实施例所提供的基于偏移调节和竞价的混合社交网络聚类系统,有效地减少了同一簇内任意两节点间的关系层数,解决了现有技术中将关系相隔很远的节点聚为同一簇的问题,同时克服了聚类过程中选点顺序的影响,使每个节点被划分到与之有最大相似度的节点的簇中,而使得聚类结果中的每个簇都相当于一个朋友圈,提高了准确率和召回率。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种基于偏移调节和竞价的混合社交网络聚类方法,其特征在于,包括:
将社交网络用户数据整理为用户ID及用户关注的ID列表的组合形式,得到节点关注关系的数据列表,其中,所述节点为具有自己的ID和所关注的ID列表的个体用户;
根据所述节点关注关系,运用相似度偏移调节计算公式计算节点间相似度,获得偏移调节后的相似度矩阵;
所述运用似度偏移调节计算公式计算节点间相似度包括:计算节点1和节点2间的相似度,其中,节点1关注的ID数量为A,节点2关注的ID数量为B,则:
根据偏移调节后的相似度矩阵识别出核节点,为其分配簇号,并创建对应的簇列表;所述核节点为与其直接可达的节点数量超过一个阈值的节点,所述直接可达为两个节点相似度大于相似度阈值的视为两个节点是直接可达的;
根据识别出的核节点,以竞价的方式进行聚类;其中,竞价方式包括:第一轮竞价,由所有核节点对所有未分类节点进行,通过统一竞价将节点划分到竞价高的核节点的簇列表中;第二轮竞价,由第一轮竞价中被分类的节点对所有离群点进行,通过表内竞价和表间竞价将节点划分到与之具有最高竞价结果的簇中。
2.根据权利要求1所述的混合社交网络聚类方法,其特征在于,所采用的竞价方式,具体包括:
统一竞价:将所有核节点对所有未分类节点进行竞价,将未分类节点加入到具有最大相似度且大于相似度阈值的核节点簇列表中,竞价后最大相似度小于相似度阈值的将节点暂时设置为离群点;
表内竞价:先让每个簇列表中的节点对所有离群点进行竞价,每个列表内选出与该离群点所具有的最大的相似度;
表间竞价:所有簇列表内选出的与所述离群点所具有的最大相似度进行表间竞价,选出所有列表所具有的最大相似度;
若最大相似度大于或等于相似度阈值,则将该离群点设置为已分类节点并将簇号设置为具有该最大相似度的节点的簇号,若最大相似度小于相似度阈值,则对该离群点不做处理。
3.一种基于偏移调节和竞价的混合社交网络聚类系统,其特征在于,包括:
整理模块,用于将社交网络用户数据整理为用户ID及用户关注的ID列表的组合形式,得到节点关注关系的数据列表,其中,所述节点为具有自己的ID和所关注的ID列表的个体用户;
计算模块,用于根据所述节点关注关系,运用相似度偏移调节计算公式计算节点间相似度,获得偏移调节后的相似度矩阵;
所述所述运用似度偏移调节计算公式计算节点间相似度包括:计算节点1和节点2间的相似度,其中,节点1关注的ID数量为A,节点2关注的ID数量为B,则:
识别模块,用于根据偏移调节后的相似度矩阵识别出核节点,为其分配簇号,并创建对应的簇列表;所述核节点为与其直接可达的节点数量超过一个阈值的节点,所述直接可达为两个节点相似度大于相似度阈值的视为两个节点是直接可达的;
聚类模块,用于根据识别出的核节点,以竞价的方式进行聚类;其中,竞价方式包括:第一轮竞价,由所有核节点对所有未分类节点进行,通过统一竞价将节点划分到竞价高的核节点的簇列表中;第二轮竞价,由第一轮竞价中被分类的节点对所有离群点进行,通过表内竞价和表间竞价将节点划分到与之具有最高竞价结果的簇中。
4.根据权利要求3所述的混合社交网络聚类系统,其特征在于,所述聚类模块所采用的竞价方式,具体包括:
统一竞价:将所有核节点对所有未分类节点进行竞价,将未分类节点加入到具有最大相似度且大于相似度阈值的核节点簇列表中,竞价后最大相似度小于相似度阈值的将节点暂时设置为离群点;
表内竞价:先让每个簇列表中的节点对所有离群点进行竞价,每个列表内选出与该离群点所具有的最大的相似度;
表间竞价:所有簇列表内选出的与所述离群点所具有的最大相似度进行表间竞价,选出所有列表所具有的最大相似度;
若最大相似度大于或等于相似度阈值,则将该离群点设置为已分类节点并将簇号设置为具有该最大相似度的节点的簇号,若最大相似度小于相似度阈值,则对该离群点不做处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710029428.2A CN106909619B (zh) | 2017-01-16 | 2017-01-16 | 一种基于偏移调节和竞价的混合社交网络聚类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710029428.2A CN106909619B (zh) | 2017-01-16 | 2017-01-16 | 一种基于偏移调节和竞价的混合社交网络聚类方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106909619A CN106909619A (zh) | 2017-06-30 |
CN106909619B true CN106909619B (zh) | 2020-04-10 |
Family
ID=59206777
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710029428.2A Active CN106909619B (zh) | 2017-01-16 | 2017-01-16 | 一种基于偏移调节和竞价的混合社交网络聚类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106909619B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109902129B (zh) * | 2019-01-25 | 2023-06-20 | 平安科技(深圳)有限公司 | 基于大数据分析的保险代理人归类方法及相关设备 |
CN110738577B (zh) * | 2019-09-06 | 2022-02-22 | 平安科技(深圳)有限公司 | 社区发现方法、装置、计算机设备和存储介质 |
CN111242778B (zh) * | 2019-12-31 | 2023-07-28 | 布比(北京)网络技术有限公司 | 数据处理方法、装置、计算机设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102880719A (zh) * | 2012-10-16 | 2013-01-16 | 四川大学 | 基于位置社交网络的用户轨迹相似性挖掘方法 |
CN102929942A (zh) * | 2012-09-27 | 2013-02-13 | 福建师范大学 | 一种基于集成学习的社会网络重叠社区发现方法 |
CN106296422A (zh) * | 2016-07-29 | 2017-01-04 | 重庆邮电大学 | 一种融合多算法的社交网络垃圾用户检测方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10636315B1 (en) * | 2006-11-08 | 2020-04-28 | Cricket Media, Inc. | Method and system for developing process, project or problem-based learning systems within a semantic collaborative social network |
US9122693B2 (en) * | 2010-11-30 | 2015-09-01 | Nokia Technologies Oy | Method and apparatus for determining contextually relevant geographical locations |
-
2017
- 2017-01-16 CN CN201710029428.2A patent/CN106909619B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102929942A (zh) * | 2012-09-27 | 2013-02-13 | 福建师范大学 | 一种基于集成学习的社会网络重叠社区发现方法 |
CN102880719A (zh) * | 2012-10-16 | 2013-01-16 | 四川大学 | 基于位置社交网络的用户轨迹相似性挖掘方法 |
CN106296422A (zh) * | 2016-07-29 | 2017-01-04 | 重庆邮电大学 | 一种融合多算法的社交网络垃圾用户检测方法 |
Non-Patent Citations (1)
Title |
---|
基于结构相似度的大规模社交网络聚类算法;陈季梦 等;《电子与信息学报》;20150215;第37卷(第2期);第450-452页 * |
Also Published As
Publication number | Publication date |
---|---|
CN106909619A (zh) | 2017-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11361045B2 (en) | Method, apparatus, and computer-readable storage medium for grouping social network nodes | |
US7627542B2 (en) | Group identification in large-scaled networks via hierarchical clustering through refraction over edges of networks | |
Louni et al. | Who spread that rumor: Finding the source of information in large online social networks with probabilistically varying internode relationship strengths | |
Pal et al. | Centrality measures, upper bound, and influence maximization in large scale directed social networks | |
Hirshman et al. | Unsupervised approaches to detecting anomalous behavior in the bitcoin transaction network | |
CN108985954B (zh) | 一种建立各标识的关联关系的方法以及相关设备 | |
CN110166344B (zh) | 一种身份标识识别方法、装置以及相关设备 | |
CN113454954A (zh) | 社交数据流上的实时事件检测 | |
CN106909619B (zh) | 一种基于偏移调节和竞价的混合社交网络聚类方法及系统 | |
CN108322428B (zh) | 一种异常访问检测方法及设备 | |
CN110033302A (zh) | 恶意账户识别方法及装置 | |
US20220200902A1 (en) | Method, apparatus and storage medium for application identification | |
US11036818B2 (en) | Method and system for detecting graph based event in social networks | |
CN108681493A (zh) | 数据异常检测方法、装置、服务器和存储介质 | |
CN105991620A (zh) | 恶意账户识别方法及装置 | |
CN107346333B (zh) | 一种基于链路预测的在线社交网络好友推荐方法与系统 | |
CN110297967B (zh) | 兴趣点确定方法、装置、设备及计算机可读存储介质 | |
CN107291860B (zh) | 种子用户确定方法 | |
Soliman et al. | Adagraph: adaptive graph-based algorithms for spam detection in social networks | |
CN112396151B (zh) | 谣言事件的分析方法、装置、设备及计算机可读存储介质 | |
CN110941638A (zh) | 应用分类规则库构建方法、应用分类方法及装置 | |
CN110175296B (zh) | 网络图中的节点推荐方法和服务器以及存储介质 | |
CN109241421B (zh) | Id数据网处理方法、装置、计算设备及计算机存储介质 | |
CN112581299A (zh) | 基于话题和信息交互行为的在线社会网络中网络群体的检测方法 | |
CN110610205A (zh) | 社交网络中的社区识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20210730 Address after: Room 1601, 16th floor, East Tower, Ximei building, No. 6, Changchun Road, high tech Industrial Development Zone, Zhengzhou, Henan 450001 Patentee after: Zhengzhou xinrand Network Technology Co.,Ltd. Address before: 100190, No. 21 West Fourth Ring Road, Beijing, Haidian District Patentee before: INSTITUTE OF ACOUSTICS, CHINESE ACADEMY OF SCIENCES |
|
TR01 | Transfer of patent right |