CN115033804B

CN115033804B - 一种基于随机生长的社交网络关键转发者检测方法

Info

Publication number: CN115033804B
Application number: CN202210633858.6A
Authority: CN
Inventors: 殷茗; 周文博; 宋志昕; 姚王梓; 胡季傲; 杜熙; 琚翔; 邓乐
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2022-06-06
Filing date: 2022-06-06
Publication date: 2024-02-27
Anticipated expiration: 2042-06-06
Also published as: CN115033804A

Abstract

本发明提供了一种基于随机生长的社交网络关键转发者检测方法，首先利用源数据集的各个特征的值计算得到的重要性评分排序，抽取出前A的数据构成初始数据集，得到转发级联；然后通过转发级联，从源数据集中选取数据补充进入初始数据集，形成整体转发级联；再将整体转发级联进行随机生长产生随机生长数据集，随机生长数据集和初始数据集合成为新的中间数据集，形成增广转发级联；最后在随机生长数据集的基础上再次进行随机生长的操作，生成最终数据集；将最终数据集投入图卷积神经网络模型进行训练，得到用于检测社交网络中关键转发者的模型。本发明减少了训练模型的开销，提高了模型效率，为社交网络关键转发者的检测提供了有力的支持。

Description

一种基于随机生长的社交网络关键转发者检测方法

技术领域

本发明涉及社交网络中关键转发者的检测方法，特别是一种基于随机生长的社交网络关键转发者检测方法。

背景技术

随着社会和科学技术的不断发展，互联网的普及，人与人之间的关系也越来越复杂，各种各样的社交平台层出不穷，这些基于互联网的社交平台已经渗透到人们生活的各个方面，每天人们都会在这些社交平台上阅览和转发数百条消息，在消息转发的过程中，那些影响力更大的转发者对这个过程具有绝对影响力，因此，识别消息传播过程中的关键转发者，并预测关键转发者对公众情绪，平台舆论趋势等产生的影响，在娱乐和商业推广等诸多领域均有着重要的意义。在研究某一具体事件的用户影响力时，现有的文献主要集中在使用底层网络拓扑的知识来识别社交网络中有影响力的用户，这就需要完整的网络拓扑信息，而对于大规模的社交网络来说，获取这些信息通常是困难和昂贵的，并且效率也不高。

发明内容

为了克服现有的社交网络检测关键转发者方法存在的开销大和效率低的不足，本发明提供了一种基于随机生长的社交网络关键转发者检测方法，能够高效率且低成本地对社交网络中潜在的关键转发者进行检测，从而合理有效地解决了现有检测方法效率低成本高的问题。

该方法首先将源数据集的各个特征的值按照AHP公式(层次分析法，可以将复杂问题中的各种因素通过划分重要性、两两比较的方法，对因素的重要性进行定量分析) 计算得到的重要性评分排序，从中按比例抽取出前A的数据构成初始数据集，得到他们的转发级联；然后通过转发级联，从源数据集中选取数据补充进入初始数据集，使原本分散的转发级联重新联系在一起，形成一个整体转发级联；然后根据源数据集，将整体转发级联进行随机生长产生随机生长数据集，随机生长数据集和初始数据集合成为新的中间数据集，形成增广转发级联，新的中间数据集中初始数据集和随机生长数据集的占比为B，打乱随机生长数据集；最后在随机生长数据集的基础上，再次进行随机生长的操作，生成最终数据集，使得初始数据集和随机生长数据集的占比为C；然后将最终数据集投入图卷积神经网络模型进行训练，得到了用于检测社交网络中关键转发者的模型。本发明的方法大大减少了训练模型的开销，提高了模型效率，为社交网络关键转发者的检测提供了有力的支持，从而为网络信息建设提供了智能化的辅助。

本发明的技术方案为：

所述一种基于随机生长的社交网络关键转发者检测方法，包括以下步骤：

步骤1：设置数据集标签：

从社交平台上获取源数据集R，所述源数据的特征参数包括推文特征和推文作者特征；

计算源数据中每条推文的重要性评分GII：

其中MII_j为推文作者u_i发布的推文v_j的影响力，计算公式如下：

MII_j＝UII*TII_j

其中UII表示根据推文作者的特征计算得到的影响力，TII_j表示根据推文的特征计算得到的影响力；

步骤2：构建级联；

构建节点集合V：根据推文Id和推文的一对一映射关系，获得代表推文的节点集合V＝{v₁,v₂,v₃,…,v_n}，其中n为推文的数量，v_i表示V中第i个节点即第i篇推文，v_j为第j篇推文；

构建边集合E：根据推文彼此之间的转发关系，获得代表推文转发关系的边集合 E＝{e_ij|0<i<m,0<j<m}，其中m为转发事件的数量，如果推文v_i的上级推文 Id与推文v_j的Id相等，则v_j为v_i的父推文或者父节点，存在e_ij∈E，代表v_i与v_j之间存在转发关系；

根据构建的边集合E，获得n*n的邻接矩阵Adj，所述邻接矩阵Adj为源数据集R所构建的转发级联，邻接矩阵Adj中的元素满足公式：

邻接矩阵Adj的第i行向量[a_i1,a_i2,a_i3,…,a_in]代表节点集合V中第i篇推文v_i的被转发信息：如果a_ij＝1，那么节点集合V中第j篇推文v_j转发了推文v_i，推文v_j有一条指向v_i的有向边；

将源数据集R中的推文按照步骤1中计算出的重要性评分从大到小排序，取前A 条推文构成初始数据集F，并对这A条推文打上标签1，源数据集R中的其他推文打上标签0；根据初始数据集F中的推文，利用源数据集R所构建的转发级联，通过初始数据集F中的推文Id和上级推文Id构建出若干个转发级联G_i，且每个转发级联都有对应的根节点r_i；

步骤3：数据集随机生长：

根据初始数据集F构建的多个转发级联G_i，从数据集R-F中找出能够连接所述转发级联G_i的节点所对应的推文N_k，并将推文N_k加入到初始数据集F中，使所有转发级联G_i生长为一个整体转发级联G′，且对应的初始数据集变为完整初始数据集F′；

根据整体转发级联G′，从数据集R-F′中随机选择部分推文SN_i，直接添加进入整体转发级联G′作为新的节点，生成增广转发级联GZ，并对应形成中间数据集M，其中完整初始数据集F′和随机生长的数据集M-F′的推文数量比为B；

根据增广转发级联GZ，从数据集R-M中随机选择部分推文添加进入增广转发级联GZ作为新的节点，生成最终转发级联GF，并对应形成最终数据集L，其中完整初始数据集F′和随机生长的数据集L-F′的推文数量比为C；

步骤4：模型训练：

将所述最终数据集L的前D个推文携带标签，剩余推文不携带标签，并作为训练集投入图卷积神经网络进行半监督训练；

步骤5：将待检测的数据集投入训练好的图卷积神经网络中，输出数据集中每条推文的标签，根据标签判断推文是否为关键推文；统计待检测的数据集中的每位作者发布的推文数量以及其中关键推文数量，得到关键推文占比Rate，根据关键推文占比确定关键转发者。

进一步的，步骤1中，推文特征和推文作者特征为：

进一步的，步骤1中，根据推文作者的特征计算得到的影响力计算公式如下：

UII＝w_flerCnt*flerCnt+w_flingCnt*flingCnt+w_tweetCnt*tweetCnt+w_loc*loc +w_des*des+w_credit*credit

flerCnt为推文作者的粉丝数，flingCnt为推文作者的关注数，tweetCnt为推文作者发布的推文数，loc为推文作者是否填写自己的地址，des为推文作者是否填写自己的个人描述，credit为推文作者的信用信息，w_flerCnt、w_flingCnt、w_tweetCnt、w_loc、w_des、 w_credit为对应的权重。

进一步的，权重w_flerCnt＝0.4942、w_flingCnt＝0.0882、w_tweetCnt＝0.2740、 w_loc＝0.0404、w_des＝0.0404、w_credit＝0.0629。

进一步的，步骤1中，根据推文的特征计算得到的影响力计算公式如下：

TII_j＝TSII_j+TDII_j

TSII_j＝w_hashtagCnt*hashtagCnt_j+w_len*len_j+w_dist*dist_j+w_menCnt*menCnt_j

TDII_j＝(w_tweetFavCnt*tweetFavCnt_j+w_retweetCnt*retweetCnt_j+w_commentCnt *commentCnt_j)*time_j

hashtagCnt_j为当前推文v_j的标签数量，len_j为当前推文v_j的内容长度，dist_j为当前推文v_j的发布地址，menCnt_j为当前推文v_j的被引用次数；tweetFavCnt_j为当前推文v_j的被点赞次数，retweetCnt_j为当前推文v_j的被转发次数，commentCnt_j为当前推文v_j的被评论次数；time_j为当前推文v_j的发布时间；w_hashtagCnt、w_len、w_dist、w_menCnt、 w_tweetFavCnt、w_retweetCnt、w_commentCnt为对应的权重。

进一步的，权重w_hashtagCnt＝0.0725、w_len＝0.0285、w_dist＝0.0365、 w_menCnt＝0.0556、w_tweetFavCnt＝0.3259、w_retweetCnt＝0.4255、w_commentCnt＝0.0556。

进一步的，步骤2中的A为占比，取A＝1/300。

进一步的，步骤3中比值B＝1/2，比值C＝1/9。

进一步的，步骤4中的D为占比，取D＝1/20。

有益效果

针对传统的识别社交网络中有影响力的用户方法在开销大和效率低的问题。本发明在对数据集进行随机生长的基础上，采用了图卷积神经网络模型，通过少量的数据 (只采用部分网络拓扑信息)进行训练，在保证模型准确度的同时，减少了训练开销，提高了模型效率。此外，与使用底层网络拓扑的知识来识别社交网络中有影响力的用户的算法相比，本发明的方法充分利用了推文作者和推文本身的特征，大大提升了数据的可靠性，从而为数据建设提供了智能化辅助。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明方法原理框图。

具体实施方式

本发明针对社交网络中的关键转发者进行检测，在数据集的存储信息中，包含推文自身的特征和推文作者特征两种类型的数据项，各数据项又包含多个字段，例如推文作者特征的数据项有“当前推文作者的粉丝数”、“当前推文作者的关注数”、“当前推文作者发布的推文数”等字段。这些字段的数据会通过AHP公式计算得到重要性评分。本发明利用重要性评分对每条数据项进行标记，判断其是否是关键转发者，并打上相应的标签，再结合对数据集的随机生长和对应转发级联的构建，通过图卷积神经网络的半监督模型训练，实现社交网络中的关键转发者检测。

如图1所示，一种社交网络中关键转发者的检测方法，包括如下步骤：

步骤1：设置数据集标签；

定义从社交平台上获取的源数据集R的特征参数以及AHP权重；所述特征参数包括推文特征和推文作者特征；

采用AHP公式，计算源数据中每条数据项(即每条推文)的重要性评分GII，计算公式如下：

MII_j＝UII*TII_j

其中UII表示根据推文作者的特征计算得到的影响力，计算公式如下：

flerCnt为推文作者的粉丝数，flingCnt为推文作者的关注数，tweetCnt为推文作者发布的推文数，loc为推文作者是否填写自己的地址，des为推文作者是否填写自己的个人描述，credit为推文作者的信用信息，w_flerCnt、w_flingCnt、w_tweetCnt、w_loc、w_des、 w_credit为对应的权重；权重w_flerCnt＝0.4942、w_flingCnt＝0.0882、w_tweetCnt＝0.2740、 w_loc＝0.0404、w_des＝0.0404、w_credit＝0.0629。

其中TII_j表示根据推文的特征计算得到的影响力，计算公式如下：

TII_j＝TSII_j+TDII_j

TSII_j＝w_hashtagCnt*hashtagCnt_j+w_len*len_j+w_dist*dist_j+w_menCnt*menCnt_j

hashtagCnt_j为当前推文v_j的标签数量，len_j为当前推文v_j的内容长度，dist_j为当前推文v_j的发布地址，menCnt_j为当前推文v_j的被引用次数；tweetFavCnt_j为当前推文v_j的被点赞次数，retweetCnt_j为当前推文v_j的被转发次数，commentCnt_j为当前推文v_j的被评论次数；time_j为当前推文v_j的发布时间；w_hashtagCnt、w_len、w_dist、w_menCnt、 w_tweetFavCnt、w_retweetCnt、w_commentCnt为对应的权重，权重w_hashtagCnt＝0.0725、 w_len＝0.0285、w_dist＝0.0365、w_menCnt＝0.0556、w_tweetFavCnt＝0.3259、w_retweetCnt＝ 0.4255、w_commentCnt＝0.0556。

步骤2：构建级联；

将源数据集R中的推文按照步骤1中计算出的重要性评分从大到小排序，取占比为前1/300条推文构成初始数据集F，并对这A条推文打上标签1，源数据集R中的其他推文打上标签0；根据初始数据集F中的推文，利用源数据集R所构建的转发级联，通过初始数据集F中的推文Id和上级推文Id构建出若干个转发级联G_i(i≥0)，且每个转发级联都有对应的根节点r_i(i≥0)。

步骤3：数据集随机生长：

根据初始数据集F构建的多个转发级联G_i(i≥0)，从数据集R-F中找出能够连接所述转发级联G_i的节点所对应的推文N_k，并将推文N_k加入到初始数据集F中，使所有转发级联G_i生长为一个整体转发级联G′，且对应的初始数据集变为完整初始数据集F′；

根据整体转发级联G′，从数据集R-F′中随机选择部分推文SN_i(i≥0)，直接添加进入整体转发级联G′作为新的节点，这个过程称为随机生长，生成增广转发级联GZ，并对应形成中间数据集M，其中完整初始数据集F′和随机生长的数据集M-F′的推文数量比为B，取B＝1/2；

根据增广转发级联GZ，从数据集R-M中随机选择部分推文添加进入增广转发级联GZ作为新的节点，生成最终转发级联GF，并对应形成最终数据集L，其中完整初始数据集F′和随机生长的数据集L-F′的推文数量比为C，取C＝1/9。

步骤4：模型训练：

将所述最终数据集L中的前1/20个推文携带标签，剩余推文不携带标签，作为训练集投入图卷积神经网络进行半监督训练；再将后(1-1/20)个数据作为测试数据集投入训练好的图卷积神经网络中进行结果测试。

步骤5：关键转发者检测：

将待检测的数据集投入训练好的图卷积神经网络中，输出数据集中每条推文的标签，根据标签判断推文是否为关键推文；由于一条推文可以唯一映射到一位推文作者，所以可以对每位推文作者的关键推文(标签为1的推文数量)的数量进行统计，再除以该作者在数据集R中发布的所有推文的数量，得到关键推文占比Rate，将推文作者按照Rate进行排序，即可得到关键转发者。

具体实施例：

1、设置数据集标签：

首先，定义从社交平台上获取的源数据集R的特征参数，以及AHP权重；接着，采用AHP公式，计算源数据中每条数据项的重要性评分。

2、构建级联：

利用源数据R构建推文的转发级联，该过程使用了每条数据项的特征参数中的“当前推文的上级推文Id”和“当前推文的Id”，最终可以得到代表转发级联的邻接矩阵。随后，根据步骤1计算得到的每条数据项的重要性评分从大到小排序，取前1/300个数据项构成初始数据集F，这些数据项可以根据推文Id和上级推文Id构建出多个转发级联，且每个转发级联都有对应的根节点。经实验，由下表可知使用图卷积神经网络模型进行社交网络关键转发者检测时，初始数据集阈值取1/300时，算法准确率最高。因此，将初始数据集阈值设定为1/300。

3、数据集随机生长：

根据初始数据集F构建的多个转发级联，从数据集R-F中找出可以连接这些转发级联的节点所在的数据项(即推文)N_k，加入到F中，使其生长为一个整体转发级联G′，对应的初始数据集变为完整初始数据集F′；

据整体转发级联G′，从数据集R-F′中随机选择部分数据项SN_i，这些数据项满足SN_i∈G′的子节点集合，所以他们可以直接添加进入整体转发级联G′，作为新的节点，这个过程称为随机生长，最终生成增广转发级联GZ，对应中间数据集M；

根据增广转发级联GZ，从数据集R-M中随机选择部分数据项进行随机生长操作，将他们添加进入增广转发级联GZ，作为新的节点，最终生成最终转发级联GF，对应最终数据集L；

4、训练模型：

将最终数据集的前1/20个数据携带标签，后(1-1/20)个数据不携带标签，将它们作为训练集投入图卷积神经网络进行半监督训练；

再将后(1-1/20)个数据作为测试数据集投入训练好的图卷积神经网络中进行结果测试；

经过测试，由下表可知使用图卷积神经网络模型进行社交网络关键转发者检测时，最终数据集中训练集的占比为1/20时，算法准确率最高，因此，将最终数据集中训练集的占比设定为1/20。

数据项	最终数据集中训练集的占比	准确率
			社交网络	1/10	0.6923
	1/20	0.7592
				1/30	0.7125

5、关键转发者检测：

将待检测的数据集投入训练好的模型中，输出每条推文是否具有影响力(输出其中的关键推文)，由于一条推文可以唯一映射到一位推文作者，所以可以对每位推文作者的关键推文(标签为1的推文数量)的数量进行统计，再除以该作者在数据集R中发布的所有推文的数量，得到关键推文占比Rate，将推文作者按照Rate进行排序，即可得到关键转发者。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于随机生长的社交网络关键转发者检测方法，其特征在于：包括以下步骤：

步骤1：设置数据集标签：

计算源数据中每条推文的重要性评分GII：

MII_j＝UII*TII_j

步骤2：构建级联；

构建边集合E：根据推文彼此之间的转发关系，获得代表推文转发关系的边集合E＝{e_ij|0<i<m,0<j<m}，其中m为转发事件的数量，如果推文v_i的上级推文Id与推文v_j的Id相等，则v_j为v_i的父推文或者父节点，存在e_ij∈E，代表v_i与v_j之间存在转发关系；

将源数据集R中的推文按照步骤1中计算出的重要性评分从大到小排序，取前A条推文构成初始数据集F，并对这A条推文打上标签1，源数据集R中的其他推文打上标签0；根据初始数据集F中的推文，利用源数据集R所构建的转发级联，通过初始数据集F中的推文Id和上级推文Id构建出若干个转发级联G_i，且每个转发级联都有对应的根节点r_i；

步骤3：数据集随机生长：

步骤4：模型训练：

2.根据权利要求1所述一种基于随机生长的社交网络关键转发者检测方法，其特征在于：步骤1中，推文特征和推文作者特征为：

3.根据权利要求2所述一种基于随机生长的社交网络关键转发者检测方法，其特征在于：步骤1中，根据推文作者的特征计算得到的影响力计算公式如下：

UII＝w_flerCnt*flerCnt+w_flingCnt*flingCnt+w_tweetCnt*tweetCnt+w_loc*loc+w_des*des+w_credit*credit

flerCnt为推文作者的粉丝数，flingCnt为推文作者的关注数，tweetCnt为推文作者发布的推文数，loc为推文作者是否填写自己的地址，des为推文作者是否填写自己的个人描述，credit为推文作者的信用信息，w_flerCnt、w_flingCnt、w_tweetCnt、w_loc、w_des、w_credit为对应的权重。

4.根据权利要求3所述一种基于随机生长的社交网络关键转发者检测方法，其特征在于：权重w_flerCnt＝0.4942、w_flingCnt＝0.0882、w_tweetCnt＝0.2740、w_loc＝0.0404、w_des＝0.0404、w_credit＝0.0629。

5.根据权利要求2所述一种基于随机生长的社交网络关键转发者检测方法，其特征在于：步骤1中，根据推文的特征计算得到的影响力计算公式如下：

TII_j＝TSII_j+TDII_j

TSII_j＝w_hashtagCnt*hashtagCnt_j+w_len*len_j+w_dist*dist_j+w_menCnt*menCnt_j

TDII_j＝(w_tweetFavCnt*tweetFavCnt_j+w_retweetCnt*retweetCnt_j+w_commentCnt*commentCnt_j)*time_j

hashtagCnt_j为当前推文v_j的标签数量，len_j为当前推文v_j的内容长度，dist_j为当前推文v_j的发布地址，menCnt_j为当前推文v_j的被引用次数；tweetFavCnt_j为当前推文v_j的被点赞次数，retweetCnt_j为当前推文v_j的被转发次数，commentCnt_j为当前推文v_j的被评论次数；time_j为当前推文v_j的发布时间；w_hashtagCnt、w_len、w_dist、w_menCnt、w_tweetFavCnt、w_retweetCnt、w_commentCnt为对应的权重。

6.根据权利要求5所述一种基于随机生长的社交网络关键转发者检测方法，其特征在于：权重w_hashtagCnt＝0.0725、w_len＝0.0285、w_dist＝0.0365、w_menCnt＝0.0556、w_tweetFavCnt＝0.3259、w_retweetCnt＝0.4255、w_commentCnt＝0.0556。

7.根据权利要求1所述一种基于随机生长的社交网络关键转发者检测方法，其特征在于：步骤2中的A为占比，取A＝1/300。

8.根据权利要求1所述一种基于随机生长的社交网络关键转发者检测方法，其特征在于：步骤3中比值B＝1/2，比值C＝1/9。

9.根据权利要求1所述一种基于随机生长的社交网络关键转发者检测方法，其特征在于：步骤4中的D为占比，取D＝1/20。