CN117291300A

CN117291300A - 一种基于图卷积神经网络的社交媒体中说服者预测方法

Info

Publication number: CN117291300A
Application number: CN202311231931.8A
Authority: CN
Inventors: 柴一栋; 刘洋; 葛欣悦; 王新梅; 刘昊鑫; 刘依; 刘龙顺; 周永行; 钱洋; 姜元春; 刘业政
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2023-09-22
Filing date: 2023-09-22
Publication date: 2023-12-26

Abstract

本发明公开的一种基于图卷积神经网络的社交媒体中说服者预测方法，包括：1)从社交媒体上从社交媒体上获取用户系相关数据，并构造用户关注网络图；2)根据用户社会交互强度、用户信息和用户关注网络，利用图神经网络和相似度计算方法，得到用户间的社会影响力矩阵、实体相似性矩阵、结构等价性矩阵3)根据三个相似度矩阵对社会说服的积极效应和消极效应进行建模并训练，并最终利用训练后的图注意力模型，预测用户的说服得分并进行降序排序，取排序后的前top个用户作为社交媒体中的说服者。本发明基于注意力系数，将社会说服的三种力量统一起来，从而更好的学习用户特征，使说服者的预测更加准确合理。

Description

一种基于图卷积神经网络的社交媒体中说服者预测方法

技术领域

本发明属于图神经网络领域、具体地说是一种基于图卷积神经网络的社交媒体中说服者预测方法

背景技术

网民数量激增所产生的规模巨大的社交媒体网络，对研究和分析社交媒体中的用户行为提出了巨大的挑战，也令说服者预测问题的研究具有重大的现实意义。社交网络中的社会说服现象可以使组织通过相关分析预测到在社交网络中具有重要作用的社会实体，即顶级说服者。这些顶级说服者通常是一些具有高影响力和广泛影响力的人物，他们对产品、服务或意见的采纳将影响社交网络中他人的行为，导致社交网络中最大数量的其他实体采纳相同的产品、服务或意见。因此，如何准确预测顶级说服者在社交媒体上的行为和观点，对于深入了解社交媒体用户和更好地利用社交媒体平台来传播商业宣传、公共政策、谣言检测等信息和影响他人具有重要的意义。

传统说服者预测方法主要集中在基于用户社会影响力、用户属性信息或者图拓扑结构信息等某一单一特征建立模型来预测社交媒体中的说服者。例如基于用户行为模式的方法尝试根据用户在社交媒体上的行为模式来预测其是否具备说服力。例如，基于用户的发帖频率、点赞数、评论数等行为指标来评估影响力。然而，这种方法往往无法充分考虑到用户行为的上下文和动态变化，也难以捕捉到复杂的影响力机制；基于文本内容的方法通常利用文本数据来预测说服者。例如，分析用户在社交媒体上发布的推文、评论或文章内容，以推断其影响力。然而，仅仅基于文本内容难以全面了解用户的影响力，因为说服力常常还与用户的社交关系和网络环境有关；基于图结构的方法尝试利用社交媒体网络的图结构信息来预测说服者。例如，基于节点的度中心性、接近度中心性等图结构特征来评估用户的影响力。然而，这种方法往往无法处理大规模、复杂网络，而且忽视了节点之间的关系和上下文信息，从而限制了预测准确性。

综上所述，现有的说服者预测方法往往存在一些问题和不足，例如依赖手动设计特征、无法全面考虑用户行为的上下文和动态变化、缺乏对用户的社交关系和网络环境的综合分析，以及对大规模复杂网络的处理能力不足等问题。

发明内容

针对上述现有技术中存在的诸多问题，本发明提出一种基于图卷积神经网络的社交媒体中说服者预测方法，以期能在用户说服建模中体现社会说服的三种力量，从而能够更准确地预测顶级说服者的存在和行为模式。

为达上述目的，本发明采用的技术方案为：

本发明一种基于图卷积神经网络的社交媒体中说服者预测方法的特点在于，包括以下步骤：

S1、从社交媒体上获取用户数据，并构造用户关注网络图；

S1.1、从社交媒体上获取n个用户构成的用户集V＝{v₁,v₂,…,v_i,…,v_n}，其中，v_i表示第i个用户，v_i∈V，i＝1,2,…,n，n表示用户数量；

收集用户间的关注或好友关系，并构成边集E＝{e_ij|i＝1,2,…,n；j＝1,2,…,n}，其中，e_ij表示第i个用户v_i与第j个用户v_j之间的联系；若e_ij＝1，则表示第i个用户v_i与第j个用户v_j之间有边相连，并称第i个用户v_i与第j个用户v_j互为邻居；若e_ij＝0，表示第i个用户v_i与第j个用户之间无边相连，即互不关注或不是好友关系，从而得到用户关注网络图G＝(V,E)；

根据用户关注网络图G，构建用户关注网络图邻接矩阵A，若v_i和v_j之间有边相连，则令矩阵A中第i行第j列的元素为1，否则为0；

S1.2、收集用户的个人信息数据集X＝{x₁,x₂,…,x_i,…,x_n}，其中，x_i表示第i个用户v_i的个人信息数据；

收集用户间的社会交互强度S＝{s_ij|i＝1,2,…,n；j＝1,2,…,n}，其中，s_ij表示第i个用户v_i与第j个用户v_j之间社会交互强度，其取值为两个用户之间发送消息的数量；

S1.3、在当前时间T₀下收集所有用户对于某种焦点产品的采纳数据Y＝{y₁,y₂,…,y_i,…,y_n}，其中，y_i表示当前时间T₀下第i个用户v_i的采纳数据；若y_i＝1，表示第i个用户v_i已采纳焦点产品；若y_i＝-1，表示第i个用户v_i未采纳焦点产品；

根据Y＝{y₁,y₂,…,y_i,…,y_n}记录已采纳焦点产品的用户的采纳时间，并将未采纳焦点产品的用户的采纳时间记为T₀，从而得到用户采纳时间数据集T＝{t₁,t₂,…,t_i,…,t_n}，其中，t_i表示第i个用户v_i的采纳时间；

S2、根据用户社会交互强度、用户信息和用户关注网络，利用图神经网络和相似度计算方法，得到用户间的社会影响力矩阵、实体相似性矩阵、结构等价性矩阵；

S2.1、通过式(1)得到第i个用户v_i到第j个用户v_j之间的社会影响力W_ij，从而得到各个用户间的社会影响力矩阵

W_ij＝s_ij (1)

S2.2、对第i个用户v_i的个人信息数据x_i进行标准归一化后，得到标准化后的个人信息数据从而得到标准化后的全体用户个人信息数据/>并利用式(2)获得所有用户的实体属性嵌入eb^es：

式(2)中，DGI表示深度图信息最大化模型，w₁表示DGI的待训练参数；

S2.3、通过式(3)得到第i个用户v_i和第j个用户v_j之间的实体相似性M_ij，从而得到用户间的实体相似性矩阵

式(3)中，分别表示第i个用户v_i和第j个用户v_j的实体属性嵌入；sim()是一个相似度函数；

S2.4、利用式(4)计算第i个用户v_i和第j个用户v_j之间的Jaccard相似度JaccardSim(v_i,v_j)：

式(4)中，N_i ⁽¹⁾表示第i个用户v_i的1-hop邻居用户集合，即与第i个用户v_i的通过1条边相连的邻居集合；表示第j个用户v_j的1-hop邻居用户集合；

S2.5、令M表示步骤2.5到2.7将计算的多层加权图，基于式(4)计算第k层加权图中第i个用户v_i和第j个用户v_j之间的结构等价相似度从而得到任意两个用户间的k层结构等价相似度：

式(5)中，表示第k-1层加权图中第i个用户v_i和第j个用户v_j之间的结构等价相似度，/>表示第i个用户v_i的k-hop邻居用户集合，即与第i个用户v_i之间通过k条边相连的邻居集合；/>表示第j个用户v_j的k-hop邻居用户集合；

S2.6、由式(6)计算第k层加权图中第i个用户v_i和第j个用户v_j之间的边权重w_k(v_i,v_j)，从而得到所有层中任意两个用户间的边权重：

式(6)中，k^*表示用户关注网络图G＝(V,E)的直径；

S2.7、利用式(7)和式(8)分别计算第i个用户v_i在第k层加权图与第k+1层加权图之间的权重第k层加权图与第k-1层加权图之间的权重/>从而得到所有用户在多层加权图M中各个层之间的权重：

式(7)和式(8)中，e表示自然常数，和/>表示第i个用户v_i在第k层加权图和第k+1层加权图上对应的节点；Γ_k(v_i)表示第k层加权图中，与第i个用户v_i相关联的边的边权重大于第k层加权图的平均边权重/>的数量，并有：

式(9)中，1()表示若括号中式子为真，则其值为1，若括号式子为假，则其值为0.

S2.8、利用Struc2vec模型的随机游走策略在多层加权图M上进行随机游走，得到随机游走上下文，并输入Skip-Gram模型中，从而获得用户结构特征的嵌入表示e^se，并利用式(11)计算第i个用户v_i和第j个用户v_j之间的结构等价性S_ij，从而得到用户间的结构等价性矩阵

式(11)中，表示第i个用户v_i和第j个用户v_j的结构特征的嵌入表示；

S3、根据相似度矩阵W、M、S，利用改进的图注意力网络聚合三种力量对社会说服的积极效应和消极效应进行建模并训练；

S3.1、将用户集V＝(v₁,v₂,…v_i,…v_n)编码为one-hot向量，得到向量矩阵O＝(o₁,o₂,…o_i,…o_n)，其中，o_i表示第i个用户v_i的one-hot向量；

将向量矩阵O输入一个多层感知机MLP中进行映射处理，从而利用式(12)得到一维标量的说服得分向量p：

式(12)中，W₂是MLP的待训练参数；

S3.2、利用式(13)计算用户间的注意力系数矩阵

A_a＝Softmax(αM+βW+γS) (13)

式(13)中，α,β,γ是三个待学习的参数，且Softmax表示归一化指数函数；

S3.3、利用式(14)计算第j个用户v_j的1-hop邻居对其影响的总效应

式(14)中，是第j个用户v_j的1-hop邻居集合，t_i＜t_j表示第i个用户v_i的采纳时间小于第j个用户v_j的采纳时间，p_i是说服得分向量p中第i个用户v_i的待训练说服得分，a_ij是注意力系数矩阵A_a中第i个用户v_i和第j个用户v_j之间归一化后的注意力系数；

S3.4、利用式(15)计算第j个用户v_j来自k-hop邻居的总效应

式(15)中，表示第j个用户v_j的(k-1)-hop邻居对其影响的总效应；

S3.3、利用式(16)构建损失函数L_adopt：

式(16)中，表示防止过拟合项，λ为正则化参数。

S3.4、利用梯度下降法对改进的图注意力网络进行迭代训练，并计算所述损失函数L_adopt直至收敛为止，从而得到训练后的图注意力模型，用于预测所有用户的说服得分并进行降序排序后，取排序后的前K个用户作为社交媒体中的top-K说服者。

本发明一种电子设备，包括存储器以及处理器的特点在于，所述存储器用于存储支持处理器执行所述社交媒体中说服者预测方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

本发明一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序的特点在于，所述计算机程序被处理器运行时执行所述社交媒体中说服者预测方法的步骤。

与已有技术相比，本发明有益效果体现在：

1、本发明结合社会说服的三种力量，运用图神经网络方法，从提取用户特征、社交影响特征和图结构特征的角度出发学习相关参数与权重，有效解决了传统方法依赖手动设计特征的不足，从而提高了方法的效率与泛化性。

2、使用端到端的深度学习模型共同学习说服得分，克服了传统方法计算效率较低、分离过程能不能充分利用监督信号、无法很好地扩展到大型社交媒体网络等问题，进而提高了说服者预测的准确性。

3、本发明通过使用图卷积和图注意力来学习整个图的结构与属性信息，而不是像传统方法只考虑图的局部信息，并设计了一个改进的多层图注意力机制来对社会说服的积极效应和消极效应进行建模，从而克服了无法全面考虑用户行为的上下文和动态变化、缺乏对用户的社交关系和网络环境的综合分析等问题，能够更好的学习用户的图特征，使预测更加准确合理。

附图说明

图1为本发明所述一种基于图卷积神经网络的社交媒体中说服者预测方法流程图。

具体实施方式

本实施例中，一种基于图卷积神经网络的社交媒体中说服者预测方法，包括从社交媒体上从社交媒体上获取用户系相关数据，并构造用户关注网络图，根据用户社会交互强度、用户信息和用户关注网络，利用图神经网络和相似度计算方法得到用户的三个相似度矩阵，根据三个相似度矩阵利用图注意力对社会说服的影响效应进行建模，根据模型得到的用户说服得分向量预测社交媒体中的说服者，具体而言，如图1所示，包括以下步骤：

S1、从社交媒体上获取用户集数据、用户对于某种产品或服务的采纳情况、采纳时间、用户关注关系、用户间社会交互强度、用户信息，并构造用户关注网络图；

S2.1、通过式(1)得到第i个用户v_i到第j个用户v_j之间的社会影响力W_ij，式(1)将第i个用户v_i到第j个用户v_j之间的社会影响度量为从第i个用户v_i到第j个用户v_j之间的社会交互强度，社会影响力W_ij是一个整数，其值越大，表示v_i对v_j的社会影响就越大，从而得到各个用户间的社会影响力矩阵

W_ij＝s_ij (1)

式(2)中，DGI表示深度图信息最大化模型，通过一个无监督学习的方式来更新，w₁表示DGI的待训练参数；

S2.3、通过式(3)得到第i个用户v_i和第j个用户v_j之间的实体相似性M_ij，实体相似度M_ij在[-1,1]范围内；M_ij的值越高，则用户v_i与v_j越相似，从而得到用户间的实体相似性矩阵

S2.5、令M表示步骤2.5到2.7将计算的多层加权图，其第k层由用户的k-hop邻居决定。每一层k＝0,…，k^*由节点集为V的加权无向完全图构成，因此每一层应有条边，基于式(4)计算第k层加权图中第i个用户v_i和第j个用户v_j之间的结构等价相似度/>从而得到任意两个用户间的k层结构等价相似度：

式(6)中，k^*表示用户关注网络图G＝(V,E)的直径，根据式(6)，在结构上相似的用户在多层加权图M的各层中会有更大的权重；

S2.7、多层加权图M的各层用有向边连接，每一层的每一个用户节点都与其上层和下层中对应的用户节点相连，利用式(7)和式(8)分别计算第i个用户v_i在第k层加权图与第k+1层加权图之间的权重第k层加权图与第k-1层加权图之间的权重从而得到所有用户在多层加权图M中各个层之间的权重：

S3.1、将用户集V＝(v₁,v₂,...v_i,...v_n)编码为one-hot向量，得到向量矩阵O＝(o₁,o₂,...o_i,...o_n)，其中，o_i表示第i个用户v_i的one-hot向量；

式(12)中，W₂是MLP的待训练参数，本实施例中，MLP包含两层网络和一个ReLU非线性激活层；

S3.2、利用式(13)计算用户间的注意力系数矩阵

A_a＝Softmax(αM+βW+γS) (13)

式(14)中，是第j个用户v_j的1-hop邻居集合，t_i＜t_j表示第i个用户v_i的采纳时间小于第j个用户v_j的采纳时间，p_i是说服得分向量p中第i个用户v_i的待训练说服得分，a_ij是注意力系数矩阵A_a中第i个用户v_i和第j个用户v_j之间归一化后的注意力系数，随着y_i取1或-1，/>将包含社会说服的积极效应和消极效应；

S3.4、利用式(15)计算第j个用户v_j来自k-hop邻居的总效应

S3.3、利用式(16)构建损失函数L_adopt：

式(16)中，为防止过拟合项，λ为正则化参数。

本实施例中，一种电子设备，包括存储器以及处理器，该存储器用于存储支持处理器执行上述方法的程序，该处理器被配置为用于执行该存储器中存储的程序。

本实施例中，一种计算机可读存储介质，是在计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法的步骤。

实施例

针对本发明方法进行实验论证，具体包括：

1.数据集：

本发明使用Gowalla数据集作为标准数据集验证基于图卷积神经网络的社交媒体中说服者预测方法的有效性，Gowalla是一个用户位置分享数据集，利用这个数据集，构建了本实施例的社交网络数据集。将每个用户作为社会实体，将用户之间的关注关系作为社会实体之间的关系，对于存在关系的两个社会实体，利用二者共同签到地点的数量作为衡量两个社会实体的社交强度。本实施例采用研究期间2009年9月14日到2010年10月21日有签到行为的1573个用户进行研究。本实验收集了这些用户在研究期间是否在特定的地点签到的数据，如果签到，具体时间是何时。在研究期间，共有872名用户在该地点进行了签到行为。将数据根据采纳时间顺序分为前50％、前75％和前100％，分别设其时间点为T0、T1和T，将在T0观测到的节点行为标签作为训练集，将在T1观测到的用户行为标签作为验证集，将在T即假设的当前时间观测到的用户行为标签作为测试集。

2.评估设计：

本实施例使用目前说服者预测常用的标签方法说服信用(Persuasion Credit)作为用户说服说服力的真实标签，用top-K精度方法作为评价指标，用于比较预测的顶级说服者和测试集数据中识别的顶级说服者，top-K精度公式如下：

其中，predicted top-K persuaders表示本发明预测的top-K说服者，identifiedtop-K persuaders表示用说服信用(Persuasion Credit)识别的top-K说服者。

3、实验结果：

为了验证本发明所提方法的有效性，本实施例选用常用的基于中心性度量的说服者预测方法与本发明方法进行了比较，包括度中心性(Degree)、接近中心性(Closeness)、中间中心性(Betweenness)和特征向量中心性(Eigenvecter)以及PageRank算法。在说服信用衰减因子γ＝0.7，使用两层图卷积加图注意力机制，k从50到500的情况下，根据基准方法对本发明进行评估。

表1

表1显示了在上述数据集中本发明方法与基准方法的top-K精度，可以观察到本文所提方法的top-K精度基本高于所有K范围内所有基准方法，实验结果验证了本发明方法的有效性。

Claims

1.一种基于图卷积神经网络的社交媒体中说服者预测方法，其特征在于，包括以下步骤：

S1、从社交媒体上获取用户数据，并构造用户关注网络图；

W_ij＝s_ij (1)

式(4)中，表示第i个用户v_i的1-hop邻居用户集合，即与第i个用户v_i的通过1条边相连的邻居集合；/>表示第j个用户v_j的1-hop邻居用户集合；

式(6)中，k^*表示用户关注网络图G＝(V,E)的直径；

式(12)中，W₂是MLP的待训练参数；

S3.2、利用式(13)计算用户间的注意力系数矩阵

A_a＝Softmax(αM+βW+γS) (13)

式(13)中，α,β,γ是三个待学习的参数，且α,β,Softmax表示归一化指数函数；

S3.4、利用式(15)计算第j个用户v_j来自k-hop邻居的总效应

S3.3、利用式(16)构建损失函数L_adopt：

式(16)中，表示防止过拟合项，λ为正则化参数。

2.一种电子设备，包括存储器以及处理器，其特征在于，所述存储器用于存储支持处理器执行权利要求1所述社交媒体中说服者预测方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

3.一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行权利要求1所述社交媒体中说服者预测方法的步骤。