CN108364234A - 一种基于节点影响力标签传播的微博社区发现方法 - Google Patents

一种基于节点影响力标签传播的微博社区发现方法 Download PDF

Info

Publication number
CN108364234A
CN108364234A CN201810190157.3A CN201810190157A CN108364234A CN 108364234 A CN108364234 A CN 108364234A CN 201810190157 A CN201810190157 A CN 201810190157A CN 108364234 A CN108364234 A CN 108364234A
Authority
CN
China
Prior art keywords
node
label
influence power
user
discovery method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810190157.3A
Other languages
English (en)
Inventor
刘洪涛
常恩东
邱实
胡杰
张德晟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201810190157.3A priority Critical patent/CN108364234A/zh
Publication of CN108364234A publication Critical patent/CN108364234A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明请求保护一种基于节点影响力标签传播的微博社区发现方法,包括:步骤一,对微博网络数据的提取、清洗和构造用户节点的邻接表。步骤二,提取数据构造复杂网络图模型,构造的模型以微博网络用户为节点、用户之间的关系为边。步骤三,在图结构中利用节点影响力为每个节点赋予一个标签,并且将标签传递给节点的边。步骤四,并利用边的标签传播算法来更新边的标签,在边的标签更新过程中过利用边的影响力为边的更新顺序提供依据。步骤五,边的标签更新结束之后将边的标签归还至节点,因为节点一般都有多条边,所以可以很自然的产生重叠社区。

Description

一种基于节点影响力标签传播的微博社区发现方法
技术领域
本发明属于复杂网络社区发现领域,特别是一种基于节点影响力标签传播的微博社区发现方法。
背景技术
在复杂网络研究中,社区发现是一个非常好的研究热点,如何从社交网络中挖掘出现实世界的社区结构是非常有研究意义的。在复杂网络中,社区被认为是一组顶点,它们之间的结构式密集的,而外部连接是稀疏的。近年来,网络中发现社区的情况已经有了很好的发展。
微博网络中的用户总是被一些焦点吸引,有明星的社区、朋友的社区,热点引发的暂时性的聚集社区等等。这些因素将微博的用户划分到一个个相对独立的又有相互联系的社区。通过对微博网络的挖掘来发现这些重叠的网络用户社区。利用这些划分的社区去更深入的理解社交网络,可以更加迅速准确的区分相似或者不同的兴趣爱好的用户,发现当下的热点,对于网络舆情的检测,广告投放都有很好的应用价值。
经过几十年的发展,社区发现算法已经发展出许多种类,从最初的将各个节点划分到不同社区的非重叠社区划分方法到最近一些年的对重叠社区的划分,人们已经认识到现实网络的复杂性。而在较早的一些年人们都专注于对抽象化的图的节点进行直接划分。例如Gergely Palla等人在2005年提出的一种重叠社区的派系过滤算法(CPM),Steve在2007年提出的基于合并分裂算法的重叠社区发现算法(CONGA),Gregory在2009年提出的社区重叠传播算法(COPRA)。这些算法都是着眼于节点的直接划分,需要额外的参数设置来完成重叠社区的发现,而且社区划分结果不稳定,随机性较高
本发明为了解决这些问题提出了新的社区发现方法。将微博网络数据转化为矩阵信息,然后利用节点的影响力为参考设置节点标签,之后将节点标签传递给边,在对边的标签进行传播,之后将边的标签归还给节点,最后将节点分别归类到其所属的对应社区。本专利文中提出的算法简单,无参数,较为稳定。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种无需参数、时间复杂度低、运行结果稳定的基于节点影响力标签传播的微博社区发现方法。本发明的技术方案如下:
一种基于节点影响力标签传播的微博社区发现方法,其包括以下步骤:
S1、获取微博数据并构建用户关系网,微博用户之间形成关系邻接表;
S2、利用步骤S1的关系邻接表构造微博用户之间的邻接矩阵,以微博网络用户为节点、用户之间的关系为边,构造微博用户的关系网络图;
S3、利用步骤S2构建完成的关系网络图,按照节点的影响力对节点进行排序,并且对排序后的节点赋予唯一的标签序号,此标签序号不同于节点本身的序号,并按照节点影响力的顺序依次将节点的标签传递给边;
S4、在步骤S3完成后按照边的影响力依次对边的标签进行更行,每次边将周围边中数量最多的标签序号作为自己的标签序号,持续更新直到所有的边的标签序号不再变化时停止;
S5、在步骤S4结束后,将所有的边的标签归还给节点,具有相同标签的节点归属于同一个社区。
进一步的,所述步骤S1中,对网络微博数据进行清理,将相互发送信息的和互相关注的用户建立联系,建立对应的邻接表,邻接表中存储用户之间的关系,并且删除重复的记录,首首、尾尾相同或者首尾、尾首相同,则保留一个, 删除首尾相同的自我环结构。
进一步的,所述步骤S3中,为每个用户节点分配的标签是按照节点的影响力从大到小顺序进行分配,节点的影响力公式如下:
其中,p(u)是节点u的影响力,deg(u)是节点u的度,N(u)是节点u的邻居集合;buw表示节点u对节点w的影响力,deg(w)是节点w的度。
计算完所有节点的影响力之后,对所有节点按照影响力进行排序,从影响力最大的节点开始依次为节点赋予标签并将节点的标签传递给节点的临边。
进一步的,已经初始化的边将从图中删除,在随后的其他边的标签初始化中国将不再出现,表示若两节点之间有连边,那么该边的标签为影响力高的节点的标签。
进一步的,在所述步骤S4中,在边的更新过程中将边的影响力的降序作为更新的顺序,其中边的影响力公式如下:
其中:de(eij)是边eij的临边数量,N(i,j)是节点i和j的邻居顶点;
按照边的影响力从大到小依次更新边的标签,边的标签更新选择临边中数量最多的标签,公式描述如下:
其中W是邻接矩阵,l′m是边m更新后的标签,Nb(m)是m边的邻边集合,δ(ln,l) 是克罗内可函数:
因为在图中有二分图或者类二分图的现象,会导致出现标签的震荡,死循环现象,所以采用边标签的异步更新,公式如下
其中xi1,…,xim是x边的邻居中已经更新标签的节点,xi(m+!),…xin是没有更新标签的邻居;随着边标签的逐步更新,每条边的标签将趋于稳定,直到所有的边标签不再变化,则停止更新。
进一步的,在所述步骤S5中,在所有的边标签传播结束后,以节点为目标,将节点周围的边的标签传递到节点,节点将保留边的所有标签,并且统计所有相同的标签,即可得到每个社区标签在这个节点上所占的比重。
本发明的优点及有益效果如下:
与现有技术相比,本发明有效解决了微博网络的成员所属社区的划分问题,不仅有效解决了微博网络的重叠社区发现问题,而且无需设置参数、时间复杂度低、运行结果较稳定等特点。
在本发明第三步创新性的利用节点的影响力对节点进行了排序,并且采用间接性的方式来更新节点所属社区的标签。第四步中不仅才用了对边的标签进行更新的方式,并且避免了传统更新的随机性,创新性的提出了边的影响力,利用边的影响力为边标签的更新顺序提供依据,使得算法一定程度上降低了标签更新的随机性,从而使得算法的运行结果较为稳定。步骤五中将更新结束后边的标签归还给节点,由于节点的边有多条,自然形成了重叠社区,而不需要人为判定是否为重叠社区。相比于多数需要利用参数设置控制社区重叠度的算法而言,在本算法的整个运行过程中无须输入任何参数设置即可完成整个重叠社区的发现过程。由于本发明采用了标签的传播更新策略,无需过多计算,使得本算法的运行速度接近线性。
附图说明
图1是本发明提供优选实施例基于节点影响力标签传播的微博社区发现方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
一种基于节点影响力标签传播的微博社区发现方法,包括:
步骤1:读取微博网络数据,利用微博用户之间的关系形成邻接表A,当用户i、j之间存在联系时,比如互相关注、相互发送给信息都视为存在联系。然后对构建的邻接表除重。
步骤2:将邻接表构造微博用户之间的邻接矩阵M={uij},有连接关系的用户uij=1,以此构造微博用户的关系网络图。
步骤3:按照节点的影响力对节点进行排序打标签,并按照节点影响力的顺序依次将节点的标签传递给边,直到所有的边都拥有自己的标签。
步骤4:按照边的影响力从大到小依次对边的标签进行更行,每次边将周围边中最多的标签吸纳为自己的标签,更新直到所有的边的标签不再变化时停止。
步骤5:将所有的边的标签归还给节点,具有相同标签的节点归属于同一个社区。
所述的一种基于节点影响力标签传播的微博社区发现方法,其中步骤1,包括:
对网络微博数据进行清理,将相互发送信息的和互相关注的用户建立联系,建立对应的邻接表,邻接表中存储用户之间的关系。并且删除重复的记录,首首、尾尾相同或者首尾、尾首相同,则保留一个。删除首尾相同的自我环结构。
对邻接表进行用户统计对所有用户进行编号,形成用户-编号对照表,按照用户-编号对照表,将邻接表转化为编号邻接表。
所述的一种基于节点影响力标签传播的微博社区发现方法,其中步骤3,包括:
为每个用户节点分配的标签是按照节点的影响力从大到小顺序进行分配,节点的影响力公式如下:
其中,p(u)是节点u的影响力,deg(u)是节点u的度,N(u)是节点u的邻居集合。
计算完所有节点的影响力之后,对所有节点按照影响力进行排序。从影响力最大的节点开始依次为节点赋予标签并将节点的标签传递给节点的临边。
节点和边的初始化应用举例,karate网路中影响力递减顺序的前四位是1 号节点影响力为16/35,34号节点影响力为17/54,33号节点影响力为3/10,3号节点为5/22。那么按照节点的影响力顺序为他们分匹配标签,a、b、c、d,并且从1号节点开始为它周围的边分配标签a,以此类推。直到图中所有的边都被分配标签。
注:已经初始化的边将从图中删除,在随后的其他边的标签初始化中国将不再出现,表示若两节点之间有连边,那么该边的标签为影响力高的节点的标签。
所述的一种基于节点影响力标签传播的微博社区发现方法,其中步骤4,包括:
边的更新过程中将边的影响力的降序作为更新的顺序,其中边的影响力公式如下:
其中:de(eij)是边eij的临边数量,N(i,j)是节点i和j的邻居顶点。
按照边的影响力从大到小依次更新边的标签,边的标签更新选择临边中数量最多的标签,公式描述如下:-
其中W是邻接矩阵,l′m是边m更新后的标签,Nb(m)是m边的邻边集合,δ(ln,l) 是克罗内可函数:
因为在图中有二分图或者类二分图的现象,会导致出现标签的震荡,死循环现象,所以采用边标签的异步更新,公式如下
其中xi1,…,xim是x边的邻居中已经更新标签的节点,xi(m+!),…xin是没有更新标签的邻居。
随着边标签的逐步更新,每条边的标签将趋于稳定,直到所有的边标签不再变化,则停止更新。
优选的,在所述步骤5中,在所有的边标签传播结束后,以节点为目标,将节点周围的边的标签传递到节点,节点将保留边的所有标签,并且统计所有相同的标签,即可得到每个社区标签在这个节点上所占的比重。
当所有的节点有所对应的归属社区和比例后通过用户-编号对照表就可以将编号还原成用户的名称,这样就得到了微博用户的社区划分。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (6)

1.一种基于节点影响力标签传播的微博社区发现方法,其特征在于,包括以下步骤:
S1、获取微博数据并构建用户关系网,微博用户之间形成关系邻接表;
S2、利用步骤S1的关系邻接表构造微博用户之间的邻接矩阵,以微博网络用户为节点、用户之间的关系为边,构造微博用户的关系网络图;
S3、利用步骤S2构建完成的关系网络图,按照节点的影响力对节点进行排序,并且对排序后的节点赋予唯一的标签序号,此标签序号不同于节点本身的序号,并按照节点影响力的顺序依次将节点的标签序号传递给边;
S4、在步骤S3完成后按照边的影响力依次对边的标签进行更行,每次边将周围边中数量最多的标签序号作为自己的标签序号,持续更新直到所有的边的标签序号不再变化时停止;
S5、在步骤S4结束后,将所有的边的标签序号归还给节点,具有相同标签序号的节点归属于同一个社区。
2.根据权利要求1所述的基于节点影响力标签传播的微博社区发现方法,其特征在于,所述步骤S1中,对网络微博数据进行清理,将相互发送信息的和互相关注的用户建立联系,建立对应的邻接表,邻接表中存储用户之间的关系,并且删除重复的记录,首首、尾尾相同或者首尾、尾首相同,则保留一个,删除首尾相同的自我环结构。
3.根据权利要求1所述的基于节点影响力标签传播的微博社区发现方法,其特征在于,所述步骤S3中,为每个用户节点分配的标签是按照节点的影响力从大到小顺序进行分配,节点的影响力公式如下:
其中,p(u)是节点u的影响力,deg(u)是节点u的度,N(u)是节点u的邻居集合;buw表示节点u对节点w的影响力,deg(w)是节点w的度;
计算完所有节点的影响力之后,对所有节点按照影响力进行排序,从影响力最大的节点开始依次为节点赋予标签并将节点的标签传递给节点的临边。
4.根据权利要求3所述的基于节点影响力标签传播的微博社区发现方法,其特征在于,已经初始化的边将从图中删除,在随后的其他边的标签初始化中国将不再出现,表示若两节点之间有连边,那么该边的标签为影响力高的节点的标签。
5.根据权利要求3所述的基于节点影响力标签传播的微博社区发现方法,其特征在于,在所述步骤S4中,在边的更新过程中将边的影响力的降序作为更新的顺序,其中边的影响力公式如下:
其中:de(eij)是边eij的临边数量,N(i,j)是节点i和j的邻居顶点;
按照边的影响力从大到小依次更新边的标签,边的标签更新选择临边中数量最多的标签,公式描述如下:
其中W是邻接矩阵,l′m是边m更新后的标签,Nb(m)是m边的邻边集合,δ(ln,l)是克罗内可函数:
因为在图中有二分图或者类二分图的现象,会导致出现标签的震荡,死循环现象,所以采用边标签的异步更新,公式如下
其中xi1,...,xim是x边的邻居中已经更新标签的节点,xi(m+1),...xin是没有更新标签的邻居;随着边标签的逐步更新,每条边的标签将趋于稳定,直到所有的边标签不再变化,则停止更新。
6.根据权利要求3所述的基于节点影响力标签传播的微博社区发现方法,其特征在于,在所述步骤S5中,在所有的边标签传播结束后,以节点为目标,将节点周围的边的标签传递到节点,节点将保留边的所有标签,并且统计所有相同的标签,即可得到每个社区标签在这个节点上所占的比重。
CN201810190157.3A 2018-03-08 2018-03-08 一种基于节点影响力标签传播的微博社区发现方法 Pending CN108364234A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810190157.3A CN108364234A (zh) 2018-03-08 2018-03-08 一种基于节点影响力标签传播的微博社区发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810190157.3A CN108364234A (zh) 2018-03-08 2018-03-08 一种基于节点影响力标签传播的微博社区发现方法

Publications (1)

Publication Number Publication Date
CN108364234A true CN108364234A (zh) 2018-08-03

Family

ID=63003890

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810190157.3A Pending CN108364234A (zh) 2018-03-08 2018-03-08 一种基于节点影响力标签传播的微博社区发现方法

Country Status (1)

Country Link
CN (1) CN108364234A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109102393A (zh) * 2018-08-15 2018-12-28 阿里巴巴集团控股有限公司 训练和使用关系网络嵌入模型的方法及装置
CN110020866A (zh) * 2019-01-22 2019-07-16 阿里巴巴集团控股有限公司 一种识别模型的训练方法、装置及电子设备
CN110162716A (zh) * 2019-05-21 2019-08-23 湖南大学 一种基于社区检索的影响力社区搜索方法和系统
CN110442674A (zh) * 2019-06-11 2019-11-12 中南民族大学 标签传播的聚类方法、终端设备、存储介质及装置
CN113095946A (zh) * 2021-04-28 2021-07-09 福州大学 基于联邦标签传播的保险客户推荐方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893381A (zh) * 2014-12-23 2016-08-24 天津科技大学 一种基于半监督标签传播的微博用户群体划分方法
CN107103053A (zh) * 2017-04-10 2017-08-29 南京信息工程大学 基于重叠节点的复杂网络社区发现方法
CN107194818A (zh) * 2017-04-13 2017-09-22 天津科技大学 基于节点重要度的标签传播社区发现算法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893381A (zh) * 2014-12-23 2016-08-24 天津科技大学 一种基于半监督标签传播的微博用户群体划分方法
CN107103053A (zh) * 2017-04-10 2017-08-29 南京信息工程大学 基于重叠节点的复杂网络社区发现方法
CN107194818A (zh) * 2017-04-13 2017-09-22 天津科技大学 基于节点重要度的标签传播社区发现算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
EN-DONG CHANG 等: "Edge Label Propagation Algorithm Based on Node Influence", 《CMEE 2017》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109102393A (zh) * 2018-08-15 2018-12-28 阿里巴巴集团控股有限公司 训练和使用关系网络嵌入模型的方法及装置
CN109102393B (zh) * 2018-08-15 2021-06-29 创新先进技术有限公司 训练和使用关系网络嵌入模型的方法及装置
CN110020866A (zh) * 2019-01-22 2019-07-16 阿里巴巴集团控股有限公司 一种识别模型的训练方法、装置及电子设备
CN110020866B (zh) * 2019-01-22 2023-06-13 创新先进技术有限公司 一种识别模型的训练方法、装置及电子设备
CN110162716A (zh) * 2019-05-21 2019-08-23 湖南大学 一种基于社区检索的影响力社区搜索方法和系统
CN110442674A (zh) * 2019-06-11 2019-11-12 中南民族大学 标签传播的聚类方法、终端设备、存储介质及装置
CN110442674B (zh) * 2019-06-11 2021-09-14 中南民族大学 标签传播的聚类方法、终端设备、存储介质及装置
CN113095946A (zh) * 2021-04-28 2021-07-09 福州大学 基于联邦标签传播的保险客户推荐方法及系统

Similar Documents

Publication Publication Date Title
CN108364234A (zh) 一种基于节点影响力标签传播的微博社区发现方法
Zhao et al. Identification of influential nodes in social networks with community structure based on label propagation
CN105677648B (zh) 一种基于标签传播算法的社团发现方法及系统
Liu et al. Identifying multiple influential spreaders based on generalized closeness centrality
CN104598605B (zh) 一种社交网络中的用户影响力评估方法
Ahmed et al. A novel approach for mining high‐utility sequential patterns in sequence databases
Cheng et al. Predicting reciprocity in social networks
CN108510115A (zh) 一种面向动态社交网络的影响力最大化分析方法
WO2018153292A1 (zh) 社交圈子的生成方法、装置及存储介质
Xie et al. An efficient clustering protocol for wireless sensor networks based on localized game theoretical approach
JP2008107867A (ja) コミュニティ抽出方法、コミュニティ抽出処理装置
CN105938608A (zh) 一种基于标签影响力的半同步社区发现方法
CN104933624A (zh) 复杂网络的社团发现方法及社团重要节点发现方法
CN105893381A (zh) 一种基于半监督标签传播的微博用户群体划分方法
Zhang et al. Coevolving agent strategies and network topology for the public goods games
CN107103053A (zh) 基于重叠节点的复杂网络社区发现方法
CN110738577A (zh) 社区发现方法、装置、计算机设备和存储介质
CN110909173A (zh) 一种基于标签传播的非重叠社区发现方法
CN110347897A (zh) 基于事件检测的微博网络情感社区识别方法
CN105631749A (zh) 基于统计数据的用户画像计算方法
CN103324763A (zh) 一种手机端树形数据结构的展现方法
Behnezhad et al. Massively parallel symmetry breaking on sparse graphs: MIS and maximal matching
Ni et al. Sequential seeding strategy for social influence diffusion with improved entropy-based centrality
CN106982128B (zh) 基于网络的社群构建方法
Sun et al. An improved game-theoretic approach to uncover overlapping communities

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180803