CN110909253B - 一种基于特定用户的群体关系挖掘与分析方法 - Google Patents
一种基于特定用户的群体关系挖掘与分析方法 Download PDFInfo
- Publication number
- CN110909253B CN110909253B CN201911039609.9A CN201911039609A CN110909253B CN 110909253 B CN110909253 B CN 110909253B CN 201911039609 A CN201911039609 A CN 201911039609A CN 110909253 B CN110909253 B CN 110909253B
- Authority
- CN
- China
- Prior art keywords
- users
- group
- attribute
- primary
- specific
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000005065 mining Methods 0.000 title claims abstract description 33
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 70
- 230000006399 behavior Effects 0.000 claims abstract description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 8
- 230000000694 effects Effects 0.000 abstract description 11
- 238000004458 analytical method Methods 0.000 abstract description 9
- 238000012800 visualization Methods 0.000 description 8
- 239000006185 dispersion Substances 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000005354 coacervation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Computing Systems (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出了一种基于特定用户的群体关系挖掘与分析方法,包括如下步骤:选取一定数量的具有相同特征或共同行为的用户作为特定用户;利用改进的最短路径图聚类算法去挖掘关联所述特定用户之间的关系,形成初级群体;对节点进行属性特征分析,将所述初级群体中的所述用户节点属性特征标签构造成初级群体属性比对集合;获得候选扩展用户及其属性集合,计算所述候选扩展用户的属性与所述初级群体比对集合属性间的相似度,选取相似度大于阈值的候选扩展用户加入到所述初级群体中。本发明结合群体关系结构的内聚性以及个体在特定属性子集的相似性的来挖掘群体,聚类效果良好。
Description
技术领域
本发明涉及社交网络领域,尤其涉及在社交网络中对群体关系进行挖掘与分析的方法。
背景技术
长期以来,社交网络群体发现就是把群体作为检索目标,利用群体在关系结构或者个体属性上的可挖掘特征作为发现基础,对具有特定组织结构或属性特征的用户子集进行挖掘的过程。现有技术中社交网络群体发现方法通常有两类,分别是基于群体结构的图聚类算法和基于个体属性特征的聚类算法。
对于基于群体结构的图聚类算法,是社交网络中的群体挖掘通常采用的方法,其利用群体之间的结构关系,对群体进行聚类分析。图聚类算法也常被用在社交网络分析中,它用节点表示网络中的用户,节点之间的联系表示用户之间的交互关系,最终形成复杂的网络图。图聚类算法是聚类分析算法中的一种类型。对于不同规模的数据集、不同数据集可视化方式、不同数据集的应用场景,分别使用不同的图聚类算法。根据不同的方式,可以将图聚类算法分为基于随机流的算法、基于划分的算法、基于谱聚类的算法和基于层次的算法。马尔可夫聚类算法(MCL)是一种快速且可扩展的图聚类算法,该算法基于模拟随机流,不需要预先设定聚类数目,随机流的下一步只和当前所处节点有关。基于划分的算法中,K-means算法和K-medoids算法最常用,最短路径Dijkstra算法通常在计算关联度时使用。PF算法、SM算法、KVV算法都是经典的谱聚类的算法,该类算法可以通过反复使用两路划分的方法来解决聚类中多类的问题。基于层次的聚类算法分可以为凝聚层次算法和分裂层次算法,它的原理是对数据进行分层分析,把数据看成树结构图,无论采用向上或向下的组成方式,最终形成一个个子图。
对于基于个体属性特征的聚类算法,是由于社交网络中群体的用户属性包含基础资料、角色、兴趣等信息,相同群体内的用户则具有相似的信息。因此,可以说群体具有个体属性相似的特征。对个体属性进行相似度计算就是计算用户之间的相似情况,依据所计算相似度来构建网络关系拓扑结构,将大型社交网络划分成多个小型的具有相关性的群体。基于个体属性特征的聚类算法包括基于属性相似度的算法和基于网格的算法。基于属性相似度的算法对用户属性特征进行相似度计算,根据相似度把个体划分到聚类群体中心,然后基于新的中心重新分配,如此迭代直到收敛。基于网格的算法采用网格单元结构,将属性空间进行划分,然后对划分好的密集的网格单元进行聚类。STING算法、WaveCluster算法都是基于网格的聚类算法。
为了能够挖掘社交网络中关系紧密连接、属性特征上具有相似性的群体,本申请提出了一种结合群体关系结构的内聚性以及个体在特定属性子集的相似性的社交网络中目标群体挖掘与分析方法。
发明内容
本发明将社交网络六度分隔理论作为理论基础,提出了一种基于特定用户的群体关系挖掘与分析方法。具体的:
一种社交网络中对群体关系进行挖掘与分析的方法,所述社交网络中的用户使用节点进行表示,所述方法包括如下步骤:
1)特定用户选取:选取一定数量的具有相同特征或共同行为的用户作为特定用户;
2)关联特定用户:利用改进的最短路径图聚类算法去挖掘关联所述第1)步中所选取出的所述特定用户之间的关系,对所述特定用户进行关系关联,并形成初级群体;
3)群体特征分析:对用户进行属性特征分析,以打标签的形式进行描述,将所述初级群体中的所述用户节点属性特征标签构造成初级群体属性比对集合(S1,S2...Sn);
4)群体扩展:获得所述初级群体的用户对应的好友,作为候选扩展用户,获得所述候选扩展用户的属性集合,并设置所述候选扩展用户属性集合的动态权重值,将所述候选扩展用户的属性集合与所述初级群体比对集合进行比较,计算所述候选扩展用户的属性与所述初级群体比对集合属性间的相似度,选取相似度大于阈值的候选扩展用户作为扩展用户,并将所述扩展用户加入到所述初级群体中,得到一次扩展结果;
5)循环执行第4)步的所述群体扩展,直到达到预设的扩展关系层次数,得到最终的扩展结果作为群体关系挖掘结果。
所述步骤1)中特定用户的数量根据具体群体的类型与大小确定。
所述步骤2)中根据改进的最短路径图聚类算法获得初级群体的方法包括以下步骤:
a.在由用户节点构成的带权值无向图中,将所有的边权值设为默认值2,在挖掘所述特定用户关系时,将所述特定用户所有直接关系的边权值改为1;
b.在进行最短路径查询时,将所述特定用户保留在最短路径顶点集合中;
c.根据所述步骤a设定的权值计算所述特定用户之间的最短路径,将获得的所述最短路径中的所有节点加入到所述顶点集合中;
d.获得的所述顶点集合包含的节点即构成初级群体。
所述步骤4)包括以下步骤:
e.对初级群体中的用户进行好友关系查找,将查找到的个体用户作为候选扩展用户;
f.获得所述候选扩展用户的属性集合;
g.将所述候选扩展用户的属性集合与所述比对集合(S1,S2...Sn)进行比较,统计候选扩展用户属性集合中的元素在比对集合中出现的次数,各个属性出现的次数设为属性值集合(O1,O2...On);
h.为所述属性值集合(O1,O2...On)每个元素分配权值P1,P2...Pn,其中P1+P2...Pn=1,所述Pi的取值根据不同的群体特征以及属性的相关程度动态地分配权值;
j.计算所述候选扩展用户属性集合与初级群体比对集合的相似度k;
k.选取相似度k大于阈值的候选扩展用户作为扩展用户,将所述扩展用户加入初级群体,完成了一次扩展。
所述相似度计算具体为:
附图说明
图1是本发明的特定用户群体关系挖掘与分析方法的流程图;
图2是现有技术中的最短路径算法;
图3(a)是基于改进的最短路径算法默认的权值图;
图3(b)是基于改进的最短路径算法挖掘特定用户关系时的权值图;
图4是传统最短路径算法群体关系关联的可视化展示结果;
图5是本申请改进算法中赋予权值的群体关系图;
图6是基于本发明改进的最短路径图聚类算法获得的初级群体关系图;
图7是示例对'873567812'节点的扩展结果;
图8是对图7的扩展结果关系的可视化图。
具体实施方式
本申请针对社交网络中的群体发现问题,提出了一种结合群体关系结构的内聚性以及个体在特定属性子集的相似性的社交网络中目标群体挖掘与分析方法。利用最先发现的特定用户进行挖掘,这些用户之间也许并不存在直接联系,但由于它们进行的是相同活动,则必定会通过没有被发现的所在群体里的其它成员进行勾连,若能够找出他们之间的关系,并利用群体属性特征进行进一步的群体关系扩展与分析,即可得到较为完整的目标群体。
根据社交网络六度分隔理论,两人之间最多可以通过六个人建立关系,根据此理论,如果社交网络数据精确完整,则两人之间必然有联系。但在相同活动中的群体用户之间的关系并不遥远,通常少于六个人。在社交网络中会发现某些用户具有相同特征或共同进行特定的行为,这些特征与行为通常是群体性问题的表现形式,但群体数量庞大,找出其它相关用户十分繁琐,因此,从发现的用户入手来挖掘相同目标的其它用户是高效可行的。所以,依照该思路构建了基于特定用户的群体关系关联方法,通过该方法可以快速梳理一个社交网络中的活动群体用户关系图。
基于特定用户的群体关系挖掘与分析方法的流程图如图1所示。图1中,黑色节点代表所选定的特定用户,灰色节点代表社交网络中的其它用户,连线代表用户之间有社交关系,{u1},{u2},{u3}等及其组合代表用户的属性标签,不同的用户具有不同的属性标签,横线填充节点代表连接特定用户关系的中间节点用户,方格填充节点代表一次层级扩展用户,竖线填充节点代表二次层级扩展用户,虚线圈内即最终扩展结果,也即挖掘出的群体关系。
下面结合图1介绍本申请的方法步骤。
特定用户选取:对本发明所针对的特定用户进行定义,选取几个具有相同特征或共同行为的用户作为特定用户,如图1中的第一步中的三个黑色节点代表选择出的特定用户;
关联特定用户:利用改进的最短路径图聚类算法去挖掘关联第1)步所选择出的特定用户之间的关系,即对特定用户进行关系关联,并形成一个初级群体。如图1中的3个黑色节点,它们之间并没有直接关系,通过所述的改进的最短路径图聚类算法发现它们通过横线填充中间节点构成了一个群体,把由黑色节点与横线填充节点以及它们关系构成的群体称为初级群体;
群体特征分析:对网络中的所有节点进行属性特征分析,以打标签的形式进行描述,此时,所有节点皆有属性标签;将初级群体中的用户节点属性特征标签构造成初级群体属性比对集合;
群体扩展:获得初级群体的用户对应的好友,作为候选扩展用户,获得候选扩展用户的属性集合,并设置候选用户属性集合的动态权重值,将候选扩展用户的属性集合与初级群体比对集合进行比较,计算候选扩展用户的属性与初级群体比对集合属性间的相似度,选取相似度大于阈值的候选扩展用户作为扩展用户,将扩展用户加入到初级群体中,得到一次扩展结果;
循环执行第4)步的扩展,直到达到预设的扩展关系层次数,得到最终的扩展结果。
下面分别详细描述上面的几个步骤。
1.特定用户选取
基于特定用户的群体关系挖掘方法第一步是选取具有相似内容属性的特定用户,下面描述特定用户的选取的考量以及如何进行特定用户的选取。
从群体形成的过程分析,社交网络中的群体大部分是用户逐渐聚集而成,即先由几个用户进行联络活动,进而作出一些初级的群体性的行为。随着用户熟悉程度的加深,群体成员的联系也越来越频繁,逐渐自发地或者不自发地进行具有目的性、群体性的行为,共同进行社交网络活动。这些构成社交网络群体、并且具有相同特征或共同进行特定行为的用户,本发明称之为特定用户。
这些特定用户与它们所处的群体,不仅从关系上具有一定的联系,而且在属性特征上也具有相似性。根据群体的类型与大小选择特定用户的数量,特定用户尽量要能体现目标挖掘群体的内容属性特征。选取的特定用户,一般受到关键用户的影响,关键用户指真实群体里对群体其它成员有重要影响的用户,例如意见领袖、群主等。这些特定用户传播关键用户所策划的信息,进行恶意行为或者犯罪行为,处理个别的特定用户固然重要,但梳理它们之间的关系,挖掘它们所在的群体同样重要。这也是本申请的目的所在,对这些特定用户所在的群体关系进行挖掘。
2.基于改进的最短路径图聚类算法设计
本方法的第二步是对特定用户进行关系关联,即利用最短路径图聚类算法去挖掘关联第一步选择出的特定用户之间的关系,并形成一个初级群体。
图聚类群体关系关联算法的思想是对用户与用户之间的好友进行匹配,查找每两个特定用户是否有直接关系或者间接关系,将所有查找的结果关联起来,直至设定的关系层级数为止。其中,关系层级数体现了两个用户之间的关系层级,即把一个用户的好友称为一层关系层级,把用户的好友的好友为二层关系层级,依次类推。然后把上面查找出来的关系进行可视化,用图的方式展示出来。关联出它们的关系的同时,也挖掘出了中间的用户个体。该复杂程度除了受社交网络用户节点数量的影响,随着关联程度的增加,算法复杂度依次增加,根据实际的社会网络群体关系,并不是无限扩展,根据社会网络理论,一般关联程度为6级时就能到达很好的效果。当关联程度为k级时,算法时间复杂度T为O(n2k),算法时间复杂度是用来度量算法的运行时间,记为T,其中n为输入问题的规模,则关联算法的运行时间为T(n)=O(n2k)。
把对特定用户利用图聚类群体关系关联算法进行处理得到的群体称为初级群体。初级群体不仅包括特定用户,也包括连接特定用户的中间节点。为了保证群体结构的完整性,挖掘时会遍历社交网络中的所有节点。因此,特定用户之间的所有中间节点与关系都会被挖掘出来。但在实际情况中,只有直接的用户关系和距离相近的用户关系才具有较强的联系,基于此,本发明改进了最短路径距离Dijkstra算法,优先挖掘直接的用户关系和距离相近的用户关系,结合社交网络性质,将特定用户对应顶点的所有边(即本发明中的特定用户的所有直接关系)设置特定的权值,然后利用该算法,找出特定用户之间的最短路径,以构建初级群体网络拓扑图。
为了便于理解本申请提出的改进的最短路径图聚类算法,下面先介绍现有的最短路径算法的思想,其包括以下步骤:
1)设群体G=(V,E,F)是一个带权值有向图,其中V代表图的顶点(即图2中a,b,c,d,e,f,g),E代表图中有方向的边(即图2中的箭头所指方向),F代表权值(即图2中箭头上的权值);
2)现求a点到f点的最短路径,以a点为起始节点,计算其相邻顶点(即b,d,g)权值最小的顶点,此时为b点,权值为1,将a点、b点放到集合P中,剩下的d点、g点放到集合Q中;
3)接下来计算集合P中b点的相邻顶点,结果为c点,权值为1,将c点放到集合P中,继续计算c点的相邻顶点,结果为(e,d),e点权值为2,d点权值为3,将e点放到集合P中,将d点放到集合Q中,继续计算e顶的相邻顶点,结果为f点,权值为1,此时已找到f点,将f点放入集合P中,此时集合P中顶点包括a点,b点,c点,e点,f点,那么a,b,c,e,f即为所有最短路径,权值和为5。
最短路径距离算法是用来计算点与点之间的相异度,现有技术中通常将社交网络用无权值的图进行表示关系,本发明提出的改进的最短路径算法将所有的边权值设为默认值2,在挖掘特定用户关系时,将特定用户所有直接关系的边权值改为1,在进行最短路径查询计算时,可以将特定用户保留在最短路径顶点集合中,以此保证群体关系的独特性。本申请提出的基于改进的最短路径图聚类群体关系关联算法步骤如下:
1)设群体G=(V,E,F)是一个带权值无向图,其中V代表图的顶点(即图3(a)和图3(b)中a,b,c,d,e,f,g),E代表图中的边(即图3(a)和图3(b)中顶点之间的连线),F代表权值(即图3(a)和图3(b)中边上的值),权值默认值为2,如图3中(a)所示;2)现求两个特定用户在图中所对应顶点的最短路径,即a点到f点的最短路径,将与a点与f点有关的边权值改为1,如图3中(b)所示。以a点为起始节点,计算其相邻顶点(即b,d,g)权值最小的顶点,此时为b,d,g都符合,权值为1,将a,b,d,g放到集合P中;
3)接下来分别计算集合P中b,d,g的相邻顶点,b点结果为c点,权值为2,将c点放到集合Q中,d点结果为c点与e点,权值为2,将c点和e点放到集合Q中,g点结果为d点与f点,权值为2和1,将d点放到集合Q中(从集合P移到集合Q中),将f点放到集合P中,此时已找到f点,且a,g,f形成了路径,则将集合P中剩下的、且与f点无路径的b点移到集合Q中,此时,集合P中顶点包括a点,g点,f点,那么a,g,f即为所有最短路径距离;
(4)将集合P中的顶点及其关系进行可视化输出,即为所求两个特定用户对应顶点a点与f点的群体关系挖掘结果;
(5)对所有的特定用户进行步骤(2)-(4)的处理,即可获得初级群体。
图4是对真实数据集中选取的6个特定用户'773356516','865386618','553356308','983345203','543365407','245364320'使用传统的最短路径算法进行群体关系全关联的可视化展示结果,图5是本发明对最短路径算法改进之后对图4中群体进行权值设置的结果,图6是使用本发明提出的基于改进的最短路径图聚类算法获得初级群体的可视化展示结果。可以看出图6是对图5中边权值为最小的群体结果,群体呈现树状结构。
3.群体属性特征分析
用户的属性信息反映的用户的特征,用户因为相同行为聚集而形成群体,同一群体中的用户不仅仅从结构上有联系,在进行群体活动时,它们也具有相同或相似的属性特征。而群体中部分重要用户所具有的相同或相似特征,即是整个群体中的用户可能具有的特征,基于此,特定用户之间相似度最高的特征必然也是完整群体所包含的特征。因此,可以对特定用户组成的初级群体(如上所述初级群体包括特定用户以及构成特定用户间关系的中间用户)利用关系与属性特征相似度进行扩展,即下一步群体扩展的操作,从而得到完整的群体,那么这之前就需要对属性特征进行分析,寻找出属性特征相似的用户。
本发明采用对所有用户打标签的方式,将标签作为关键字,并对关键字进行分类,关键字分属于不同的属性。而特定用户构成初级群体时,它们中的相同特征越多,那么出现的相同属性特征的次数也越多,因此,本发明提出了基于节点属性动态权重相似度比较算法,用于比较节点之间的相似性。
首先找出初级群体中的用户相似的特征,建立初级群体属性比对集合,该集合用于与扩展群体个体用户属性的比对。在比对时,对同一种属性的关键字出现的次数进行统计,把扩展用户属性集合中出现的属性在比对集合出现的次数进行比较,其比值代表了扩展用户各个属性接近程度。本发明还可以根据群体聚类的不同目的对属性的权值进行设置,依据不同群体的划分目的,对属性权重的大小进行分配,以此达到更加有效扩展群体的目标。
对于初级群体属性比对集合的构造过程如下:
在特定用户组成的网络关系拓扑结构中,即初级群体中,每个节点代表一个用户,用户存在若干属性,假设每个用户存在n个属性Q=(Q1,Q2...Qn),所述n涵盖了所有属性,若某个用户缺少某一属性Qi,则Qi赋值为0;统计初级群体各个用户n个属性分别出现的次数,依据此建立初级群体特征属性比对集合S=(S1,S2...Sn),集合S是初级用户属性集合Q的元素的并集,每个Si可能包括多个同类的Qi,如后续的示例所示,相应的,比对集合中各属性的次数为R=(R1,R2...Rn)。
下面以一个示例来说明初级群体的比对集合的构造过程。例如网络中各节点有5类属性{a,b,c,d,e},设一个Q1的属性元素集合为{a1,b1,d2,e1},另一个Q2的属性元素集合为{a1,b3,c1,d2,e1},Q3的属性元素集合为{b2,c4},则这三个用户构成的比对集合为S={a1,a1,b1,b2,b3,c1,c4,d2,d2,e1,e1},R的属性次数为R={2,3,2,2,2},其中b1,b2,b3均为b属性,合并统计,c属性的c1和c4也进行合并处理。
4.群体扩展
群体扩展是对初级群体的用户根据其属性关系进行扩展的步骤,利用扩展用户与初级群体相似度进行扩展,选取相似度排序靠前的用户,作为扩展用户,由于社交网络交错复杂,在网络数据理想的情况下,初级群体甚至可以无限扩展,但无限扩展并无意义,因此,可以设定扩展次数,一次扩展代表扩展用户的直接好友,多次扩展统称为群体扩展。
一次群体扩展的步骤如下:
1)对初级群体中的用户进行好友关系查找,将查找到的个体用户作为候选扩展用户,并获得候选扩展用户的属性集合,将候选扩展用户的属性集合与比对集合(S1,S2...Sn)进行比较,统计候选扩展用户属性集合中的元素在比对集合中出现的次数,各个属性出现的次数设为属性值集合为(O1,O2...On),其中O1为S1出现的次数,O2为S2出现的次数,依次类推。
2)基于各个属性的不同重要程度,为属性集(O1,O2...On)每个元素分配权值P1,P2...Pn,Pi的取值根据不同的群体特征以及属性的相关程度为属性动态地分配权值,权值是由人为分配,根据现实情况,以及具体群体情况,当认为某属性在群体中的重要程度比较高时,则将此属性的权值设置较高,P1,P2...Pn需要满足P1+P2...Pn=1。
3)计算候选扩展用户与初级群体相似度k,k的取值范围为(0,1)。k值利用如下公式1进行计算。
所述相似度计算具体为:
其中i是指扩展级数,n是属性数量,R=(R1,R2...Rn)是比对集合(S1,S2...Sn)中各属性的次数,是各个属性与初级群体比对集合的比值,即O1/R1,O2/R2…,OjPj是属性集进行权值分配后的结果,即O1*P1,O2*P2…。
下面举例说明上述步骤,还是以上面比对集合构建为例,假如候选扩展用户Q4的个体用户属性元素集合为{a1,b1,c1,d3},则它各个属性出现的次数集合O为{2,1,1,0,0}(a1在集合R中出现2次,b1在集合R中出现1次,c1在集合R中出现1次,d3在集合R中出现0次,Q4无e属性,即0次),设置该属性集的权值,由于是5个元素,可设为P集合{0.2,0.2,0.2,0.2,0.2},P中元素和为1,所以该扩展用户Q4与比对集合R的相似度利用公式1计算为
k=(1/5)*((2/2)*(2*0.2)+(1/3)*(1*0.2)+(1/2)*(1*0.2)+(0/2)*(0*0.2)+(0/2)*(0*0.2))=0.113333334,下表各用户节点相似度均按照此公式计算。
表1:候选扩展用户的属性与初级群体比对集合的比较结果
4)候选扩展用户的属性特征与初级群体相似度分析完毕,接下来,根据实际需求与具体群体情况设置相似度最低值,即阈值,从而选取相似度排序靠前且大于阈值的用户作为扩展用户,将扩展用户加入初级群体,完成了一次扩展。
如果需要二次扩展,则查找新的初级群体所有用户的好友的好友,确定其属性再与初级群体比对集合进行比较,选取相似度排序靠前的用户加入初级群体,以上过程循环执行,根据群体实际情况确定查找好友的次数,该过程统称为群体扩展。多次扩展的算法如下:
1)以初级群体起始点为起始,按照第一次初级群体特征对比结果中的相似度k1进行第一次扩展;
2)把第一次扩展的结果设为起始节点,计算第二次的扩展节点与初级群体属性比对集合相似度k2,进行第二次扩展;
3)把第二次扩展的结果设为起始节点,计算第三次的扩展节点与初级群体属性比对集合相似度k3,进行第三次扩展,依次类推,既可逐次扩展,也可一次完成多级扩展结果。结合目标群体特征进行扩展设置。
例如,对'873567812'节点进行5级好友关系扩展的结果列表如图7所示,扩展结果显示了以该节点为起始点的5级好友关系路径,图8则是所有路径结果的图形可视化展示结果,该可视化展示结果是pycharm里运行生成的,图中标识的数字有部分重合,但不影响理解本申请的可视化展示结构图。
通过上述几个步骤,获得了扩展后的群体关系图,即为本发明中的基于特定用户挖掘与分析出的群体关系。
本发明的有益效果
群体挖掘评价标准
对群体挖掘效果进行评估,通常采用这几个评价标准:分别是内聚系数、SD指数、DB指数和Silhoueete指数。
内聚系数是指聚类好的簇的标准差,标准差越小,簇内各个节点越聚集,簇中的节点与质心的距离越小,聚类的效果则越准确。SD指数是基于簇的平均离散度和簇间总体离散度的有效评价方法。DB指数用来表示簇内分离度以及簇间相似度,DB指数越小,说明聚类效果越好,它是聚类指标中最为常用的有效性指标。Silhoueete指数结合了内聚度和离散度两种因素,既考虑了簇内各个节点的内聚性,也考虑了簇与簇之间质心的离散性。对于节点i来说,定义其Silhouett指数为:
同样可以表示为:
其中A(i)是指计算节点到所属簇中所有其它节点的平均距离,B(i)是指计算节点到各个非本身所在簇的所有节点的平均距离。Silhouett指数的取值范围在-1到1之间,指数越接近1,则群体关系图聚类结果更明显。
实验结果与分析
实验所用数据来自某单位经过脱密处理的社交网络数据,节点数为5790个,边数为2407条。对于本实验数据结果,由于内聚系数、SD指数、DB指数没有统一的归一化处理,所以采用Silhouett指数进行评估即可。
为避免标准数据集单一性,本发明抽取了2个数据集,选取了6组属性相异度较大的特定用户进行实验。表2是原数据集与本发明的群体挖掘结果Silhouett指数对比。
表2:数据集与群体挖掘结果Silhouett指数比较
实验结果显示:6组特定用户的挖掘结果中Silhouett指数有5组大于原数据集Silhouett指数,其中第5组考虑到在人为选定特定用户时,对用户特征的判断出现偏差,因此出现Silhouett指数略低于原数据集的情况。第一个数据集中3组挖掘结果(即第1、2、3组)与第二个数据集中2组挖掘结果(即第4、6组)Silhouett指数都是接近于1,则群体关系图聚类结果更明显的,说明本方法聚类效果良好,聚类结果具有较高的参考价值。
Claims (4)
1.一种基于特定用户的群体关系挖掘与分析方法,所述用户使用节点进行表示,所述方法包括如下步骤:
1)特定用户选取:选取一定数量的具有相同特征或共同行为的用户作为特定用户;
2)关联特定用户:利用改进的最短路径图聚类算法去挖掘关联所述第1)步中所选取出的所述特定用户之间的关系,对所述特定用户进行关系关联,并形成初级群体;
3)群体特征分析:对用户进行属性特征分析,以打标签的形式进行描述,将所述初级群体中的所述用户节点属性特征标签构造成初级群体属性比对集合(S1,S2...Sn);
4)群体扩展:获得所述初级群体的用户对应的好友,作为候选扩展用户,获得所述候选扩展用户的属性集合,并设置所述候选扩展用户属性集合的动态权重值,将所述候选扩展用户的属性集合与所述初级群体比对集合进行比较,计算所述候选扩展用户的属性与所述初级群体比对集合属性间的相似度,选取相似度大于阈值的候选扩展用户作为扩展用户,并将所述扩展用户加入到所述初级群体中,得到一次扩展结果;
5)循环执行第4)步的所述群体扩展,直到达到预设的扩展关系层次数,得到最终的扩展结果作为群体关系挖掘结果;
所述步骤2)中根据改进的最短路径图聚类算法获得初级群体的方法包括以下步骤:
①设群体G=(V,E,F)是一个带权值无向图,其中V代表图的顶点,E代表图中的边,F代表权值,权值默认值为2;
②现求两个特定用户a和f在图中所对应顶点的最短路径,将与所述特定用户a和f有关的边权值改为1,其余顶点边的权值不变,即为2;以所述特定用户a为起始顶点,计算其相邻顶点权值最小的顶点,将相邻顶点权值最小的顶点放到集合P中;
③分别计算所述放到集合P中顶点的相邻顶点的权值,将所述相邻顶点中权值为2的顶点放到集合Q中,权值为1的顶点放到集合P中;如果一个顶点在集合P中,但又是集合P中其余顶点的相邻顶点,且其权值为2,则将所述顶点从集合P移到集合Q中;重复执行上述相邻顶点的计算过程,直到节点f加入到集合P中,将集合P中剩下的、且与f点无路径的节点移到集合Q中,此时,集合P中顶点包括的节点为所有最短路径距离;
④将集合P中的顶点及其关系进行可视化输出,即为所求两个特定用户对应顶点a点与f点的群体关系挖掘结果;
⑤对所有的特定用户进行步骤②-④的处理,即可获得初级群体。
2.如权利要求1所述的方法,其特征在于,所述步骤1)中特定用户的数量根据具体群体的类型与大小确定。
3.如权利要求1所述的方法,其特征在于,所述步骤4)包括以下步骤:
e.对初级群体中的用户进行好友关系查找,将查找到的个体用户作为候选扩展用户;
f.获得所述候选扩展用户的属性集合;
g.将所述候选扩展用户的属性集合与所述比对集合(S1,S2...Sn)进行比较,统计候选扩展用户属性集合中的元素在比对集合中出现的次数,各个属性出现的次数设为属性值集合(O1,O2...On);
h.为所述属性值集合(O1,O2...On)每个元素分配权值P1,P2...Pn,其中P1+P2...Pn=1,P1,P2...Pn的取值根据不同的群体特征以及属性的相关程度动态地分配权值;
j.计算所述候选扩展用户属性集合与初级群体比对集合的相似度k;
k.选取相似度k大于阈值的候选扩展用户作为扩展用户,将所述扩展用户加入初级群体,完成了一次扩展。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911039609.9A CN110909253B (zh) | 2019-10-29 | 2019-10-29 | 一种基于特定用户的群体关系挖掘与分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911039609.9A CN110909253B (zh) | 2019-10-29 | 2019-10-29 | 一种基于特定用户的群体关系挖掘与分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110909253A CN110909253A (zh) | 2020-03-24 |
CN110909253B true CN110909253B (zh) | 2022-08-19 |
Family
ID=69814653
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911039609.9A Active CN110909253B (zh) | 2019-10-29 | 2019-10-29 | 一种基于特定用户的群体关系挖掘与分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110909253B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111445320B (zh) * | 2020-03-30 | 2023-09-29 | 深圳市华云中盛科技股份有限公司 | 目标社群识别方法、装置、计算机设备及存储介质 |
CN113704585B (zh) * | 2021-08-25 | 2022-06-10 | 广东工业大学 | 一种焦点小组成员筛选方法、装置、终端及存储介质 |
CN114925217B (zh) * | 2022-05-24 | 2023-05-02 | 中国电子科技集团公司第十研究所 | 一种基于关系属性加权的高价值路径发现方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103838804A (zh) * | 2013-05-09 | 2014-06-04 | 电子科技大学 | 一种基于社团划分的社交网络用户兴趣关联规则挖掘方法 |
CN104731962A (zh) * | 2015-04-03 | 2015-06-24 | 重庆邮电大学 | 一种社交网络中基于相似社团的好友推荐方法及系统 |
CN109918395A (zh) * | 2019-02-19 | 2019-06-21 | 北京明略软件系统有限公司 | 一种群体挖掘方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102253961A (zh) * | 2011-05-17 | 2011-11-23 | 复旦大学 | 基于Voronoi图的路网k聚集最近邻居节点查询方法 |
CN108319727A (zh) * | 2018-03-01 | 2018-07-24 | 南开大学 | 一种基于社团结构寻找社交网络中任意两点最短路径的方法 |
-
2019
- 2019-10-29 CN CN201911039609.9A patent/CN110909253B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103838804A (zh) * | 2013-05-09 | 2014-06-04 | 电子科技大学 | 一种基于社团划分的社交网络用户兴趣关联规则挖掘方法 |
CN104731962A (zh) * | 2015-04-03 | 2015-06-24 | 重庆邮电大学 | 一种社交网络中基于相似社团的好友推荐方法及系统 |
CN109918395A (zh) * | 2019-02-19 | 2019-06-21 | 北京明略软件系统有限公司 | 一种群体挖掘方法及装置 |
Non-Patent Citations (1)
Title |
---|
特定用户群体关系挖掘与分析研究;陈志扬 等;《软件导刊》;20190915;第18卷(第09期);183-187 * |
Also Published As
Publication number | Publication date |
---|---|
CN110909253A (zh) | 2020-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
He et al. | Joint community and structural hole spanner detection via harmonic modularity | |
CN110909253B (zh) | 一种基于特定用户的群体关系挖掘与分析方法 | |
Greene et al. | Producing a unified graph representation from multiple social network views | |
CN108665323B (zh) | 一种用于理财产品推荐系统的集成方法 | |
Gong et al. | Novel heuristic density-based method for community detection in networks | |
US11442915B2 (en) | Methods and systems for extracting and visualizing patterns in large-scale data sets | |
Rao | Data mining and clustering techniques | |
CN103888541A (zh) | 一种融合拓扑势和谱聚类的社区发现方法及系统 | |
Chebbout et al. | Comparative study of clustering based colour image segmentation techniques | |
Hu et al. | Co-clustering enterprise social networks | |
Jin et al. | A clustering algorithm for determining community structure in complex networks | |
CN113392332A (zh) | 面向大规模多元网络数据的简化可视分析方法 | |
Bei et al. | Summarizing scale-free networks based on virtual and real links | |
Hollocou et al. | Improving PageRank for local community detection | |
KR20200051300A (ko) | Cf 트리를 활용한 범위 질의 기반의 데이터 클러스터링 장치 및 방법 | |
Viappiani | Characterization of scoring rules with distances: application to the clustering of rankings | |
Pereda et al. | Machine learning analysis of complex networks in Hyperspherical space | |
Havens et al. | Clustering and visualization of fuzzy communities in social networks | |
KR20180058569A (ko) | 카테고리 생성 시스템 및 방법 | |
Li et al. | Integrating attributes of nodes solves the community structure partition effectively | |
Kobayashi et al. | Parallel box: Visually comparable representation for multivariate data analysis | |
CN110719224A (zh) | 一种基于标签传播的拓扑势社区检测方法 | |
Tarissan | Comparing overlapping properties of real bipartite networks | |
Papp et al. | MMKK++ algorithm for clustering heterogeneous images into an unknown number of clusters | |
Koufos et al. | The inclusion measure for community evaluation and detection in unweighted networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |