CN111275564A - 一种微博网络的社团数量检测方法及检测系统 - Google Patents

一种微博网络的社团数量检测方法及检测系统 Download PDF

Info

Publication number
CN111275564A
CN111275564A CN202010087405.9A CN202010087405A CN111275564A CN 111275564 A CN111275564 A CN 111275564A CN 202010087405 A CN202010087405 A CN 202010087405A CN 111275564 A CN111275564 A CN 111275564A
Authority
CN
China
Prior art keywords
user
microblog
node
network model
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010087405.9A
Other languages
English (en)
Inventor
杜航原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi University
Original Assignee
Shanxi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanxi University filed Critical Shanxi University
Priority to CN202010087405.9A priority Critical patent/CN111275564A/zh
Publication of CN111275564A publication Critical patent/CN111275564A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种微博网络的社团数量检测方法及检测系统,能够快速准确的确定微博网络的社团数量以及社团中心节点。所述方法包括:根据微博用户之间的关注关系,构建微博用户网络模型;对于微博用户网络模型中的每个用户节点,确定其内聚度和分离度,根据得到的内聚度和分离度确定每个用户节点中心度的标准分数;根据得到的中心度的标准分数,对微博用户网络模型中的用户节点进行筛选,生成候选社团中心节点集合;从候选社团中心节点集合中选择内聚度和分离度满足预设关系的用户节点作为社团中心节点,并确定社团数量。本发明涉及社交网络技术领域。

Description

一种微博网络的社团数量检测方法及检测系统
技术领域
本发明涉及社交网络技术领域,特别是指一种微博网络的社团数量检测方法及检测系统。
背景技术
随着计算机网络技术的迅速发展,人类社会步入了互联网时代,由社会个体间互动形成的社会关系也在物联网技术这一载体上以虚拟社交网络的形式呈现。这种虚拟社交网络使人们相互交流和传递信息的效率较以往大大提高,并且能真实反映社会关系的发展,对社会关系和社会行为的研究具有重要意义。微博作为虚拟社交网络的典型代表,表现出强大的发展态势,并已成为中国网民的主要社交平台。微博用户通过关注机制与网络中的其他用户产生联系,并且通过关注机制实现信息的共享和交流。在形成社交网络的过程当中,具有相同兴趣的用户会聚集在一起,这些用户会一起分享相类似主题的信息,这些用户就逐步形成一种社团结构。社团内部的用户交流频繁,关系紧密,这些用户往往具有相同的兴趣爱好,并且消息能很好地在社团内部传播;而社团之间的用户交流较少,关系疏远,并且社团间的用户的信息传播效果较差。对微博网络中的社团进行识别与发现,有助于实现信息及时推送和兴趣用户的推荐,对于精准营销工作的开展也具有重要的商业价值。
目前,关于社交网络中的社团发现研究已经涌现出大量技术成果,目前的比较成熟的社团发现算法有基于标签传播的方法、基于分割的方法、基于层次聚类的方法、基于模块化质量优化的方法等。这些经典的社团发现方法存在一个重要的问题:它们通过各种技术手段将社交网络划分为若干数量固定的社团,都依赖于一个前提——社交网络中的社团数量是已知的。然而在很多实际任务中,社团数量这一信息通常是难以事先获得的。尤其是对于微博网络,其用户数量极其庞大,网络结构也异常复杂,几乎不可能事先获得准确的社团数量,这将导致社团发现结果失效或有效性大大降低。因此,如何在缺乏先验知识的情况下对微博网络的社团数量进行有效检测,是确保社团发现结果准确可靠的基本前提。
发明内容
本发明要解决的技术问题是提供一种微博网络的社团数量检测方法及检测系统,以解决现有技术所存在的无法准确获取微博网络的社团数量的问题。
为解决上述技术问题,本发明实施例提供一种微博网络的社团数量检测方法,包括:
根据微博用户之间的关注关系,构建微博用户网络模型;
对于微博用户网络模型中的每个用户节点,确定其内聚度和分离度,根据得到的内聚度和分离度确定每个用户节点中心度的标准分数;
根据得到的中心度的标准分数,对微博用户网络模型中的用户节点进行筛选,生成候选社团中心节点集合;
从候选社团中心节点集合中选择内聚度和分离度满足预设关系的用户节点作为社团中心节点,并确定社团数量。
进一步地,每个微博用户对应微博用户网络模型中的一个用户节点;
所述根据微博用户之间的关注关系,构建微博用户网络模型包括:
判断两个微博用户之间是否存在关注关系,若存在,则所述两个微博用户对应的用户节点之间存在一条连边;
由用户节点及用户节点间的连边共同构成微博用户网络模型Net(U,E),其中,U=(u1,u2,…,uM)表示微博用户网络模型Net(U,E)中所有用户节点构成的集合,ui表示微博用户网络模型Net(U,E)中第i个用户节点,1≤i≤M,M为微博用户网络模型Net(U,E)中用户节点的数量,E=(e1,e2,…,eN)表示微博用户网络模型Net(U,E)中所有连边构成的集合,ej表示微博用户网络模型Net(U,E)中第j条连边,1≤j≤N,N为微博用户网络模型Net(U,E)中所有连边的数量。
进一步地,所述对于微博用户网络模型中的每个用户节点,确定其内聚度包括:
利用两个用户节点的公共邻居用户节点数,确定所述两个用户节点之间的相似度,其中,微博用户网络模型Net(U,E)中第i个用户节点ui与其邻居用户节点ul间的相似度simi,l表示为:
simi,l=|NGi∩NGl|
其中,simi,l为用户节点ui与邻居用户节点ul的相似度,NGi和NGl分别表示用户节点ui的邻居节点集合以及邻居用户节点ul的邻居用户节点集合;
根据得到的用户节点间的相似度,确定微博用户网络模型Net(U,E)中第i个用户节点ui的内聚度Ii
Figure BDA0002382538240000031
其中,Ii为用户节点ui的内聚度,用于表示用户节点ui对其所属社团中其它用户节点的最大聚合性,即社团结构内部关联的稠密性;di表示用户节点ui的连边数量;
Figure BDA0002382538240000032
表示用户节点ui与其邻居用户节点ul的最大相似度。
进一步地,所述对于微博用户网络模型中的每个用户节点,确定其分离度包括:
根据确定的用户节点的内聚度,确定微博用户网络模型中第i个用户节点ui的分离度:
Figure BDA0002382538240000033
其中,Pi表示用户节点ui的分离度,用于表示用户节点ui与其所属社团之外的用户节点间的相关性,即不同社团之间关联的稀疏性;uo表示微博用户网络模型Net(U,E)中内聚度比ui高的某一用户节点;
Figure BDA0002382538240000034
表示微博用户网络模型Net(U,E)中内聚度比ui高的用户节点与ui之间的最大相似度。
进一步地,根据得到的用户节点的内聚度和分离度确定每个用户节点中心度的标准分数包括:
对于微博用户网络模型Net(U,E)中每个用户节点,将其内聚度与分离度的乘积作为相应用户节点的中心度;
确定微博用户网络模型Net(U,E)中每个用户节点中心度的标准分数。
进一步地,微博用户网络模型Net(U,E)中第i个用户节点ui的中心度的标准分数
Figure BDA0002382538240000035
表示为:
Figure BDA0002382538240000041
其中,
Figure BDA0002382538240000042
为微博用户网络模型Net(U,E)中第i个用户节点ui的中心度对应的标准分数;Ci为微博用户网络模型Net(U,E)中第i个用户节点ui的中心度,用于描述每个用户节点对其所属社团的影响力;μC和σC分别表示微博用户网络模型Net(U,E)中用户节点中心度总体分布的期望和标准差。
进一步地,所述根据得到的中心度的标准分数,对微博用户网络模型中的用户节点进行筛选,生成候选社团中心节点集合包括:
对于微博用户网络模型Net(U,E)中的用户节点,根据确定的用户节点中心度的标准分数划分出3σ置信区间,其中,σ表示标准差;
从落于3σ置信区间之外的用户节点中选取中心度标准分数大于3的用户节点构成候选社团中心节点集合
Figure BDA0002382538240000043
其中,uk表示中心度的标准分数大于3的用户节点,即候选社团中心节点,
Figure BDA0002382538240000044
表示用户节点uk的中心度的标准分数。
进一步地,所述从候选社团中心节点集合中选择内聚度和分离度满足预设关系的用户节点作为社团中心节点,并确定社团数量包括:
确定候选社团中心节点集合Λ中各候选社团中心节点uk内聚度的标准分数
Figure BDA0002382538240000045
确定候选社团中心节点集合Λ中各候选社团中心节点uk内聚度的标准分数
Figure BDA0002382538240000046
从候选社团中心节点集合Λ中选择满足
Figure BDA0002382538240000047
Figure BDA0002382538240000048
的用户节点uk作为社团中心节点uc,其中,uc为选定的微博网络社团中心节点;
输出微博用户网络社团中心节点集合
Figure BDA0002382538240000049
和社团数量K=|C|,即集合C中的元素个数,其中,
Figure BDA00023825382400000410
Figure BDA00023825382400000411
分别表示社团中心节点uc的内聚度和分离度对应的标准分数。
进一步地,候选社团中心节点uk内聚度的标准分数
Figure BDA00023825382400000412
表示为:
Figure BDA00023825382400000413
其中,Ik表示候选社团中心节点uk的内聚度,
Figure BDA00023825382400000414
表示候选社团中心节点uk的内聚度对应的标准分数,μI和σI分别表示微博用户网络模型Net(U,E)中用户节点内聚度总体分布的期望和标准差;
候选社团中心节点uk分离度的标准分数
Figure BDA0002382538240000051
表示为:
Figure BDA0002382538240000052
其中,Pk表示候选社团中心节点uk的分离度,
Figure BDA0002382538240000053
表示候选社团中心节点uk的分离度对应的标准分数,μP和σP分别表示微博用户网络模型Net(U,E)中用户节点分离度总体分布的期望和标准差。
本发明实施例还提供一种微博网络的社团数量检测系统,包括:
构建单元,用于根据微博用户之间的关注关系,构建微博用户网络模型;
第一确定单元,用于对于微博用户网络模型中的每个用户节点,确定其内聚度和分离度,根据得到的内聚度和分离度确定每个用户节点中心度的标准分数;
生成单元,用于根据得到的中心度的标准分数,对微博用户网络模型中的用户节点进行筛选,生成候选社团中心节点集合;
第二确定单元,用于从候选社团中心节点集合中选择内聚度和分离度满足预设关系的用户节点作为社团中心节点,并确定社团数量。
本发明的上述技术方案的有益效果如下:
上述方案中,根据微博用户之间的关注关系,构建微博用户网络模型;对于微博用户网络模型中的每个用户节点,确定其内聚度和分离度,根据得到的内聚度和分离度确定每个用户节点中心度的标准分数;根据得到的中心度的标准分数,对微博用户网络模型中的用户节点进行筛选,生成候选社团中心节点集合;从候选社团中心节点集合中选择内聚度和分离度满足预设关系的用户节点作为社团中心节点,并确定社团数量。这样,通过用户节点的内聚度和分离度分别充分反映微博网络社团内部关联的稠密性和不同社团之间关联的稀疏性,使得所述社团数量检测方法及检测系统能够在无需任何先验信息的情况下,快速准确的确定微博网络的社团数量以及社团中心节点,对于微博网络数据分析具有较高实用价值。
附图说明
图1为本发明实施例提供的微博网络的社团数量检测方法的流程示意图;
图2为本发明实施例提供的微博网络的社团数量检测方法的详细流程示意图;
图3为本发明实施例提供的微博网络的社团数量检测装置的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有的无法准确获取微博网络的社团数量微博网络的社团数量的问题,提供一种微博网络的社团数量检测方法及检测系统。
实施例一
如图1所示,本发明实施例提供的微博网络的社团数量检测方法,包括:
S101,根据微博用户之间的关注关系,构建微博用户网络模型;
S102,对于微博用户网络模型中的每个用户节点,确定其内聚度和分离度,根据得到的内聚度和分离度确定每个用户节点中心度的标准分数;
S103,根据得到的中心度的标准分数,对微博用户网络模型中的用户节点进行筛选,生成候选社团中心节点集合;
S104,从候选社团中心节点集合中选择内聚度和分离度满足预设关系的用户节点作为社团中心节点,并确定社团数量。
本发明实施例所述的微博网络的社团数量检测方法,根据微博用户之间的关注关系,构建微博用户网络模型;对于微博用户网络模型中的每个用户节点,确定其内聚度和分离度,根据得到的内聚度和分离度确定每个用户节点中心度的标准分数;根据得到的中心度的标准分数,对微博用户网络模型中的用户节点进行筛选,生成候选社团中心节点集合;从候选社团中心节点集合中选择内聚度和分离度满足预设关系的用户节点作为社团中心节点,并确定社团数量。这样,通过用户节点的内聚度和分离度分别充分反映微博网络社团内部关联的稠密性和不同社团之间关联的稀疏性,使得所述社团数量检测方法能够在无需任何先验信息的情况下,快速准确的确定微博网络的社团数量以及社团中心节点,对于微博网络数据分析具有较高实用价值。
本实施例中,在S101之前,从微博平台端中采集微博用户数据,例如,通过新浪微博提供的应用程序接口(API),采集了来自2019年8月1日至2019年10月31期间标注的5000个微博用户的数据,共包含17562条关注关系,将这些数据存储在HBase数据库中。
本实施例中,采集的微博用户的数据不仅包括关注关系,还包括:用户唯一标识符(ID编号)、发表微博数、粉丝数以及关注数。
在前述微博网络的社团数量检测方法的具体实施方式中,进一步地,每个微博用户对应微博用户网络模型中的一个用户节点;
所述根据微博用户之间的关注关系,构建微博用户网络模型(S101)包括如下步骤:
A1,判断两个微博用户之间是否存在关注关系,若存在,则所述两个微博用户对应的用户节点之间存在一条连边;
A2,由用户节点及用户节点间的连边共同构成微博用户网络模型Net(U,E);
其中,U=(u1,u2,…,uM)表示微博用户网络模型Net(U,E)中所有用户节点构成的集合,ui表示微博用户网络模型Net(U,E)中第i个用户节点,1≤i≤M,M(例如,本实施例中,M=5000)为微博用户网络模型Net(U,E)中用户节点的数量,E=(e1,e2,…,eN)表示微博用户网络模型Net(U,E)中所有连边构成的集合,ej表示微博用户网络模型Net(U,E)中第j条连边,1≤j≤N,N(例如,本实施例中,N=17562)为微博用户网络模型Net(U,E)中所有连边的数量。
本实施例中,构建的微博用户网络模型由大量用户节点和连边共同构成,每个微博用户对应微博用户网络模型中的一个用户节点,包含ID编号、发表微博数、粉丝数以及关注数多个关键属性。
本实施例中,如图2所示,对于微博用户网络模型中的每个用户节点,确定其内聚度和分离度,根据得到的内聚度和分离度确定每个用户节点中心度的标准分数(S102)具体可以包括以下步骤:
B1,计算微博用户网络模型Net(U,E)中每个用户节点的内聚度,对于微博用户网络模型Net(U,E)中第i个用户节点ui,其内聚度计算方法具体包含以下步骤:
B11,利用两个用户节点的公共邻居用户节点数,确定所述两个用户节点之间的相似度,其中,微博用户网络模型Net(U,E)中第i个用户节点ui与其邻居用户节点ul间的相似度simi,l表示为:
simi,l=|NGi∩NGl| (1)
式(1)中,simi,l为用户节点ui与邻居用户节点ul的相似度,NGi和NGl分别表示用户节点ui的邻居节点集合以及邻居用户节点ul的邻居用户节点集合;
B12,根据得到的用户节点间的相似度,确定微博用户网络模型Net(U,E)中第i个用户节点ui的内聚度Ii
Figure BDA0002382538240000081
式(2)中,Ii为用户节点ui的内聚度,用于表示用户节点ui对其所属社团中其它用户节点的最大聚合性,即社团结构内部关联的稠密性;di表示用户节点ui的连边数量;
Figure BDA0002382538240000082
表示用户节点ui与其邻居用户节点ul的最大相似度。
B2,计算微博用户网络模型Net(U,E)中每个用户节点的分离度;对于微博用户网络模型Net(U,E)中第i个用户节点ui,其分离度计算方法如式(3)所示:
Figure BDA0002382538240000083
式(3)中,Pi表示用户节点ui的分离度,用于表示用户节点ui与其所属社团之外的用户节点间的相关性,即不同社团之间关联的稀疏性;uo表示微博用户网络模型Net(U,E)中内聚度比ui高的某一用户节点;
Figure BDA0002382538240000084
表示微博用户网络模型Net(U,E)中内聚度比ui高的用户节点与ui之间的最大相似度。
B3,计算微博用户网络模型Net(U,E)中每个用户节点的中心度;
本实施例中,对于微博用户网络模型中每个用户节点,将其内聚度与分离度的乘积作为相应用户节点的中心度,微博用户网络模型Net(U,E)中第i个用户节点ui的中心度Ci的计算方法如式(4)所示:
Ci=Ii·Pi (4)
本实施例中,中心度用于描述每个用户节点对其所属社团的影响力,中心度越高,则该用户节点越可能成为社团中心。
B4,计算微博用户网络模型Net(U,E)中每个用户节点中心度的标准分数(所述标准分数也可以称为Z分数),其中,微博用户网络模型Net(U,E)中第i个用户节点ui的中心度的标准分数
Figure BDA0002382538240000091
表示为:
Figure BDA0002382538240000092
式(5)中,
Figure BDA0002382538240000093
为微博用户网络模型Net(U,E)中第i个用户节点ui的中心度对应的标准分数;Ci为微博用户网络模型Net(U,E)中第i个用户节点ui的中心度,用于描述每个用户节点对其所属社团的影响力;μC和σC分别表示微博用户网络模型Net(U,E)中用户节点中心度总体分布的期望和标准差,μC和σC的计算方法分别如式(6)和式(7)所示:
Figure BDA0002382538240000094
Figure BDA0002382538240000095
Z分数以标准差为单位度量各用户节点的中心度与总体中心度平均值之间的差异程度,其取值近似服从标准正态分布N(0,1)。
本实施例中,在S103中,根据得到的中心度的标准分数,可以利用3σ法则对微博用户网络模型中的用户节点进行筛选,生成候选社团中心节点集合,具体可以包括以下步骤:
C1,对于微博用户网络模型Net(U,E)中的用户节点,根据确定的用户节点中心度的标准分数划分出3σ置信区间,其中,σ表示标准差;
C2,从落于3σ置信区间之外的用户节点中选取中心度标准分数大于3的用户节点构成候选社团中心节点集合
Figure BDA0002382538240000096
其中,uk表示中心度的标准分数大于3的用户节点,即候选社团中心节点,
Figure BDA0002382538240000097
表示用户节点uk的中心度的标准分数。
在前述微博网络的社团数量检测方法的具体实施方式中,进一步地,所述从候选社团中心节点集合中选择内聚度和分离度满足预设关系的用户节点作为社团中心节点,并确定社团数量(S104)包括:
D1,对于候选社团中心节点集合Λ,依照式(8)的方法计算其中各候选社团中心节点内聚度的Z分数:
Figure BDA0002382538240000101
其中,Ik表示候选社团中心节点uk的内聚度,
Figure BDA0002382538240000102
表示候选社团中心节点uk的内聚度对应的Z分数,μI和σI分别表示微博用户网络模型Net(U,E)中用户节点内聚度总体分布的期望和标准差,μI和σI的计算方法分别如式(9)和式(10)所示:
Figure BDA0002382538240000103
Figure BDA0002382538240000104
D2,对于候选社团中心节点集合Λ,依照式(11)的方法计算其中各候选社团中心节点分离度的Z分数:
Figure BDA0002382538240000105
其中,Pk表示候选社团中心节点uk的分离度,
Figure BDA0002382538240000106
表示候选社团中心节点uk的分离度对应的Z分数,μP和σP分别表示微博用户网络模型Net(U,E)中用户节点分离度总体分布的期望和标准差,μP和σP的计算方法分别如式(12)和式(13)所示:
Figure BDA0002382538240000107
Figure BDA0002382538240000108
D3,从候选社团中心节点集合Λ中选择满足
Figure BDA0002382538240000109
Figure BDA00023825382400001010
的用户节点uk作为社团中心节点uc,其中,uc为选定的微博用户网络社团中心节点;
D4,输出微博用户网络社团中心节点集合
Figure BDA00023825382400001011
社团数量K=|C|,即集合C中的元素个数,其中,
Figure BDA00023825382400001012
Figure BDA00023825382400001013
分别表示社团中心节点uc的内聚度和分离度对应的Z分数,将输出结果提供给微博运营分析人员,可用于实时消息推送、兴趣用户推荐以及精准营销等工作的开展。
为了验证本发明实施例提供的所述微博网络的社团数量检测方法的有效性和先进性,选取标签传播方法、最优模块度法、谱分析方法、层次聚类方法这四种已有的社团发现方法进行对比,本实施例中以社团中心选择的准确率和执行时间为评价指标对上述方法进行评价,通过实施例一中的新浪微博用户数据对上述方法的社团数量检测结果进行评价,评价结果如表1所示:
表1社团数量检测的评价结果
Figure BDA0002382538240000111
由表1中的结果可以看出,本发明实施例提供的社团数量检测方法在用于微博网络社团数量检测时,能获得准确度优于已有方法的社团数量检测结果,并且具有较高的执行效率。因此,本发明能够在缺乏先验信息的情况下获得准确的微博网络社团数量的检测结果,并且具有较高的执行效率。
实施例二
本发明还提供一种微博网络的社团数量检测系统的具体实施方式,由于本发明提供的微博网络的社团数量检测系统与前述微博网络的社团数量检测方法的具体实施方式相对应,该微博网络的社团数量检测系统可以通过执行上述方法具体实施方式中的流程步骤来实现本发明的目的,因此上述微博网络的社团数量检测方法具体实施方式中的解释说明,也适用于本发明提供的微博网络的社团数量检测系统的具体实施方式,在本发明以下的具体实施方式中将不再赘述。
如图3所示,本发明实施例还提供一种微博网络的社团数量检测系统,包括:
构建单元11,用于根据微博用户之间的关注关系,构建微博用户网络模型;
第一确定单元12,用于对于微博用户网络模型中的每个用户节点,确定其内聚度和分离度,根据得到的内聚度和分离度确定每个用户节点中心度的标准分数;
生成单元13,用于根据得到的中心度的标准分数,对微博用户网络模型中的用户节点进行筛选,生成候选社团中心节点集合;
第二确定单元14,用于从候选社团中心节点集合中选择内聚度和分离度满足预设关系的用户节点作为社团中心节点,并确定社团数量。
本发明实施例所述的微博网络的社团数量检测系统,根据微博用户之间的关注关系,构建微博用户网络模型;对于微博用户网络模型中的每个用户节点,确定其内聚度和分离度,根据得到的内聚度和分离度确定每个用户节点中心度的标准分数;根据得到的中心度的标准分数,对微博用户网络模型中的用户节点进行筛选,生成候选社团中心节点集合;从候选社团中心节点集合中选择内聚度和分离度满足预设关系的用户节点作为社团中心节点,并确定社团数量。这样,通过用户节点的内聚度和分离度分别充分反映微博网络社团内部关联的稠密性和不同社团之间关联的稀疏性,使得所述社团数量检测系统能够在无需任何先验信息的情况下,快速准确的确定微博网络的社团数量以及社团中心节点,对于微博网络数据分析具有较高实用价值。
本实施例中,所有单元中具体的数据处理和计算工作由计算机处理器完成,且所有单元都与计算机内存中的数据进行交互。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种微博网络的社团数量检测方法,其特征在于,包括:
根据微博用户之间的关注关系,构建微博用户网络模型;
对于微博用户网络模型中的每个用户节点,确定其内聚度和分离度,根据得到的内聚度和分离度确定每个用户节点中心度的标准分数;
根据得到的中心度的标准分数,对微博用户网络模型中的用户节点进行筛选,生成候选社团中心节点集合;
从候选社团中心节点集合中选择内聚度和分离度满足预设关系的用户节点作为社团中心节点,并确定社团数量。
2.根据权利要求1所述的微博网络的社团数量检测方法,其特征在于,每个微博用户对应微博用户网络模型中的一个用户节点;
所述根据微博用户之间的关注关系,构建微博用户网络模型包括:
判断两个微博用户之间是否存在关注关系,若存在,则所述两个微博用户对应的用户节点之间存在一条连边;
由用户节点及用户节点间的连边共同构成微博用户网络模型Net(U,E),其中,U=(u1,u2,…,uM)表示微博用户网络模型Net(U,E)中所有用户节点构成的集合,ui表示微博用户网络模型Net(U,E)中第i个用户节点,1≤i≤M,M为微博用户网络模型Net(U,E)中用户节点的数量,E=(e1,e2,…,eN)表示微博用户网络模型Net(U,E)中所有连边构成的集合,ej表示微博用户网络模型Net(U,E)中第j条连边,1≤j≤N,N为微博用户网络模型Net(U,E)中所有连边的数量。
3.根据权利要求1所述的微博网络的社团数量检测方法,其特征在于,所述对于微博用户网络模型中的每个用户节点,确定其内聚度包括:
利用两个用户节点的公共邻居用户节点数,确定所述两个用户节点之间的相似度,其中,微博用户网络模型Net(U,E)中第i个用户节点ui与其邻居用户节点ul间的相似度simi,l表示为:
simi,l=|NGi∩NGl|
其中,simi,l为用户节点ui与邻居用户节点ul的相似度,NGi和NGl分别表示用户节点ui的邻居节点集合以及邻居用户节点ul的邻居用户节点集合;
根据得到的用户节点间的相似度,确定微博用户网络模型Net(U,E)中第i个用户节点ui的内聚度Ii
Figure FDA0002382538230000021
其中,Ii为用户节点ui的内聚度,用于表示用户节点ui对其所属社团中其它用户节点的最大聚合性,即社团结构内部关联的稠密性;di表示用户节点ui的连边数量;
Figure FDA0002382538230000022
表示用户节点ui与其邻居用户节点ul的最大相似度。
4.根据权利要求3所述的微博网络的社团数量检测方法,其特征在于,所述对于微博用户网络模型中的每个用户节点,确定其分离度包括:
根据确定的用户节点的内聚度,确定微博用户网络模型中第i个用户节点ui的分离度:
Figure FDA0002382538230000023
其中,Pi表示用户节点ui的分离度,用于表示用户节点ui与其所属社团之外的用户节点间的相关性,即不同社团之间关联的稀疏性;uo表示微博用户网络模型Net(U,E)中内聚度比ui高的某一用户节点;
Figure FDA0002382538230000024
表示微博用户网络模型Net(U,E)中内聚度比ui高的用户节点与ui之间的最大相似度。
5.根据权利要求4所述的微博网络的社团数量检测方法,其特征在于,根据得到的用户节点的内聚度和分离度确定每个用户节点中心度的标准分数包括:
对于微博用户网络模型Net(U,E)中每个用户节点,将其内聚度与分离度的乘积作为相应用户节点的中心度;
确定微博用户网络模型Net(U,E)中每个用户节点中心度的标准分数。
6.根据权利要求5所述的微博网络的社团数量检测方法,其特征在于,微博用户网络模型Net(U,E)中第i个用户节点ui的中心度的标准分数
Figure FDA0002382538230000025
表示为:
Figure FDA0002382538230000026
其中,
Figure FDA0002382538230000027
为微博用户网络模型Net(U,E)中第i个用户节点ui的中心度对应的标准分数;Ci为微博用户网络模型Net(U,E)中第i个用户节点ui的中心度,用于描述每个用户节点对其所属社团的影响力;μC和σC分别表示微博用户网络模型Net(U,E)中用户节点中心度总体分布的期望和标准差。
7.根据权利要求6所述的微博网络的社团数量检测方法,其特征在于,所述根据得到的中心度的标准分数,对微博用户网络模型中的用户节点进行筛选,生成候选社团中心节点集合包括:
对于微博用户网络模型Net(U,E)中的用户节点,根据确定的用户节点中心度的标准分数划分出3σ置信区间,其中,σ表示标准差;
从落于3σ置信区间之外的用户节点中选取中心度标准分数大于3的用户节点构成候选社团中心节点集合
Figure FDA0002382538230000031
其中,uk表示中心度的标准分数大于3的用户节点,即候选社团中心节点,
Figure FDA0002382538230000032
表示用户节点uk的中心度的标准分数。
8.根据权利要求7所述的微博网络的社团数量检测方法,其特征在于,所述从候选社团中心节点集合中选择内聚度和分离度满足预设关系的用户节点作为社团中心节点,并确定社团数量包括:
确定候选社团中心节点集合Λ中各候选社团中心节点uk内聚度的标准分数
Figure FDA0002382538230000033
确定候选社团中心节点集合Λ中各候选社团中心节点uk内聚度的标准分数
Figure FDA0002382538230000034
从候选社团中心节点集合Λ中选择满足
Figure FDA0002382538230000035
Figure FDA0002382538230000036
的用户节点uk作为社团中心节点uc,其中,uc为选定的微博网络社团中心节点;
输出微博用户网络社团中心节点集合
Figure FDA0002382538230000037
和社团数量K=|C|,即集合C中的元素个数,其中,
Figure FDA0002382538230000038
Figure FDA0002382538230000039
分别表示社团中心节点uc的内聚度和分离度对应的标准分数。
9.根据权利要求1所述的微博网络的社团数量检测方法,其特征在于,候选社团中心节点uk内聚度的标准分数
Figure FDA00023825382300000310
表示为:
Figure FDA00023825382300000311
其中,Ik表示候选社团中心节点uk的内聚度,
Figure FDA00023825382300000312
表示候选社团中心节点uk的内聚度对应的标准分数,μI和σI分别表示微博用户网络模型Net(U,E)中用户节点内聚度总体分布的期望和标准差;
候选社团中心节点uk分离度的标准分数
Figure FDA0002382538230000041
表示为:
Figure FDA0002382538230000042
其中,Pk表示候选社团中心节点uk的分离度,
Figure FDA0002382538230000043
表示候选社团中心节点uk的分离度对应的标准分数,μP和σP分别表示微博用户网络模型Net(U,E)中用户节点分离度总体分布的期望和标准差。
10.一种微博网络的社团数量检测系统,其特征在于,包括:
构建单元,用于根据微博用户之间的关注关系,构建微博用户网络模型;
第一确定单元,用于对于微博用户网络模型中的每个用户节点,确定其内聚度和分离度,根据得到的内聚度和分离度确定每个用户节点中心度的标准分数;
生成单元,用于根据得到的中心度的标准分数,对微博用户网络模型中的用户节点进行筛选,生成候选社团中心节点集合;
第二确定单元,用于从候选社团中心节点集合中选择内聚度和分离度满足预设关系的用户节点作为社团中心节点,并确定社团数量。
CN202010087405.9A 2020-02-11 2020-02-11 一种微博网络的社团数量检测方法及检测系统 Pending CN111275564A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010087405.9A CN111275564A (zh) 2020-02-11 2020-02-11 一种微博网络的社团数量检测方法及检测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010087405.9A CN111275564A (zh) 2020-02-11 2020-02-11 一种微博网络的社团数量检测方法及检测系统

Publications (1)

Publication Number Publication Date
CN111275564A true CN111275564A (zh) 2020-06-12

Family

ID=71002125

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010087405.9A Pending CN111275564A (zh) 2020-02-11 2020-02-11 一种微博网络的社团数量检测方法及检测系统

Country Status (1)

Country Link
CN (1) CN111275564A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111709756A (zh) * 2020-06-16 2020-09-25 银联商务股份有限公司 一种可疑社团的识别方法、装置、存储介质和计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杜航原等: ""基于网络节点中心性度量的重叠社区发现算法"", 《计算机研究与发展》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111709756A (zh) * 2020-06-16 2020-09-25 银联商务股份有限公司 一种可疑社团的识别方法、装置、存储介质和计算机设备

Similar Documents

Publication Publication Date Title
CN109033408B (zh) 信息推送方法及装置、计算机可读存储介质、电子设备
CN105809554B (zh) 一种社交网络中用户参与热点话题的预测方法
CN112733018B (zh) 一种基于图神经网络gnn和多任务学习的会话推荐方法
Koren et al. Measuring and extracting proximity graphs in networks
Huang et al. Information fusion oriented heterogeneous social network for friend recommendation via community detection
CN110287237B (zh) 一种基于社会网络结构分析社团数据挖掘方法
CN111581532A (zh) 一种基于随机块的社交网络交友推荐方法和系统
CN111275564A (zh) 一种微博网络的社团数量检测方法及检测系统
CN103488885A (zh) 基于mmsb的微博网络用户行为分析方法
Gao et al. Accelerating graph mining algorithms via uniform random edge sampling
CN110442800B (zh) 一种融合节点属性和图结构的半监督社区发现方法
Adeleye et al. A fitness-based evolving network for web-apis discovery
Wang et al. Identifying and evaluating anomalous structural change-based nodes in generalized dynamic social networks
CN107862073B (zh) 一种基于节点重要度和分离度的Web社区划分方法
Cao et al. Opinion leaders discovery in social networking site based on the theory of propagation probability
Wang et al. Community detection in social networks considering social behaviors
Wang et al. Predicting the popularity of online content based on the weak ties theory
CN114595398A (zh) 一种演化社交网络中用户行为驱动的影响力最大化方法
CN112256756B (zh) 一种基于三元关联图和知识表示的影响力发现方法
Liu et al. Similarity-based common neighbor and sign influence model for link prediction in signed social networks
Qiu et al. Tibetan Weibo user group division based on user behaviors for analyzing health problems
Sun et al. RLIM: representation learning method for influence maximization in social networks
Zhu et al. A spatial-temporal topic model with sparse prior and RNN prior for bursty topic discovering in social networks
Liu et al. Prediction model for non-topological event propagation in social networks
Zhou et al. Detecting overlapping community structure with node influence

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200612