CN115330056A

CN115330056A - 一种基于深度传播和广度传播的话题网络影响力用户预测方法

Info

Publication number: CN115330056A
Application number: CN202210969348.6A
Authority: CN
Inventors: 肖云鹏; 陈惠�; 杨劲松; 胡波建; 李茜; 庞育才; 李暾
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-08-12
Filing date: 2022-08-12
Publication date: 2022-11-11

Abstract

本发明属于社交网络分析领域，具体涉及一种基于深度传播和广度传播的话题网络影响力用户预测方法；该方法包括：获取话题网络数据并进行预处理；根据预处理后的话题网络数据计算用户亲密度和用户可信度；根据用户亲密度和用户可信度优化DSU2vec算法；采用优化后的DSU2vec算法提取话题网络的隐藏信息，得到话题网络的深度传播特征向量矩阵；对话题网络进行社区划分，得到划分好的社区；采用图卷积神经网络提取社区节点的特征，得到话题网络的广度传播特征向量矩阵；采用多维度传播网络预测模型对深度传播特征向量矩阵和广度传播特征向量矩阵进行处理，得到话题网络影响力用户预测结果；本发明的预测结果准确性高，应用前景良好。

Description

一种基于深度传播和广度传播的话题网络影响力用户预测方法

技术领域

本发明属于社交网络分析领域，具体涉及一种基于深度传播和广度传播的话题网络影响力用户预测方法。

背景技术

近年来，随着互联网的快速发展，社交网络不断膨胀扩大，人与人之间的交流日益频繁。各式各样的社交平台成为了人们交流的利器，与人们的生活紧密相关，目前主流的社交平台有微博、Twitter和Facebook，其中中国最大的社交平台是新浪微博。社交网络由大大小小的话题网络组成，一个话题网络中充斥着海量的用户和信息，这些复杂稠密的数据往往对于分析用户影响力有着巨大价值。所以，对于如何从纷繁复杂的数据中，获取到对分析影响力至关重要的信息成为了话题网络的关注点。

与此同时，分析关键用户影响力对于舆情控制、广告投放、灾害控制等方面起着重要作用。预测用户影响力目的其实是选出意见领袖，为影响力最大化做准备，准确的预判最有影响力的用户是话题扩散过程中最关键的一步。在这种背景下，研究话题网络用户影响力是有意义的。在传统影响力研究中，一般仅考虑了单一维度的话题传播方向，并未从深度和广度两个传播维度共同考量整个话题的传播态势。因此，从多个维度对话题用户行为进行分析，对于更好的研究用户影响力是很有必要的。

用户行为数据的分析是研究影响力的关键问题，目前，已有大批学者对用户影响力进行研究，但是目前大多数影响力研究的模型中，都忽略了对话题空间不同维度的考量，从而导致所得出的结论缺乏说服力。例如Han等人(Han M,Yan M,Cai Z,et al.Anexploration of broader influence maximization in timeliness networks withopportunistic selection[J].Journal of Network and Computer Applications,2016,63:39-49.)提出了基于时间延迟效应和广度扩散的影响力最大化模型，该模型考虑了话题传播随时间衰减的变化，但它仅把广度作为一个影响因素，并不能深层次挖掘广度传播网络下用户隐藏信息，且并未分析用户不同行为之间的差异性，将不同行为的边都看做的相同类型边，从而影响了最终的预测准确度。

发明内容

综合话题网络下用户影响力目前已有的研究情况，发现在预测用户影响力上仍然存在着一些挑战：

1.话题传播空间具有多维性。话题网络的传播方式不是单一的，不仅具有链式传播方式，还具有星型扩散传播方式。不能仅从单一传播维度对话题空间进行分析，需要结合话题的深度传播和广度传播综合分析，更全面的对节点进行表示分析。

2.话题网络结构具有复杂性。信息传播的级联长度代表了话题的传播深度，级联长度的不同使得传播空间结构更具复杂多样性。如何从复杂结构中挖掘用户之间的潜在关系是一个难点。

3.话题传播规模的不确定性。信息传播的社区数目反映了话题的传播广度，社区数量越多，说明话题影响范围越广。如果能考虑话题广度这个因素，可以提高用户影响力预测的准确度。

针对现有技术的不足，本发明提出了一种基于深度传播和广度传播的话题网络影响力用户预测方法，该方法包括：

S1：获取话题网络数据，对话题网络数据进行预处理；

S2：根据预处理后的话题网络数据计算用户亲密度和用户可信度；

S3：根据用户亲密度和用户可信度，定义DSU2vec算法的随机游走策略以优化DSU2vec算法；

S4：采用优化后的DSU2vec算法提取话题网络的隐藏信息，得到话题网络的深度传播特征向量矩阵；

S5：对话题网络进行社区划分，得到划分好的社区；

S6：采用图卷积神经网络提取社区节点的特征，得到话题网络的广度传播特征向量矩阵；

S7：采用多维度传播网络预测模型对深度传播特征向量矩阵和广度传播特征向量矩阵进行处理，得到话题网络影响力用户预测结果。

优选的，计算用户亲密度的公式为：

其中，Int(u_i,u_j)表示第i个用户u_i与第j个用户u_j之间的亲密度，X_i表示第i中交互方式的交互权重，Num[Interact_i(u_i,u_j)]表示第i个用户u_i和第j个用户u_j在第i种交互方式下的总次数，Num[Interact_iu_i]表示第i个用户u_i与全网用户在第i种交互方式下的总次数，Num[Interact_iu_j]表示第j个用户u_j与全网用户在第i种交互方式下的总次数。

优选的，计算用户可信度的公式为：

Cre(u_i)＝α·Num[Interact(u_i)]+β·Num[Interacted(u_i)]

其中，Cre(u_i)表示第i个用户u_i的可信度，α表示第一衰减系数，Num[Interact(u_i)]表示第i个用户对其好友发布的消息进行互动的总数，β表示第二衰减系数，Num[Interacted(u_i)]表示第i个用户u_i发布的消息被好友互动的总数。

优选的，DSU2vec算法的随机游走策略为：

w(u_i,u_j)＝Int(u_i,u_j)+ε

其中，P(u_j|u_i)表示用户节点u_i到用户节点u_j的转移概率，w(u_i,u_j)表示用户节点u_i到用户节点u_j的边权重，Cre(u_i)表示第i个用户u_i的可信度，z表示缩放因子，Int(u_i,u_j)表示第i个用户u_i与第j个用户u_j之间的亲密度，ε表示传播深度系数。

优选的，对话题网络进行社区划分的过程包括：根据话题网络数据计算用户节点的边相似度；根据边相似度融合相似度最高的两条边，形成社区；计算社区的划分密度值；不断融合相似度最高的两条，直到划分密度值最大，停止融合，得到划分好的社区。

进一步的，计算用户节点的边相似度的公式为：

其中，

表示边e_ik和边e_jk的边相似度，

表示边e_ik和边e_jk的边类型是否相同，Common表示用户节点u_i与用户节点u_j的邻居节点交集数，Number表示用户节点u_i与用户节点u_j的邻居节点并集数。

优选的，采用图卷积神经网络提取社区节点的特征的过程包括：

根据社区获取每个社区中用户的用户特征向量，根据用户特征向量得到用户特征矩阵；

根据社区获取社区的邻居矩阵和度矩阵；将每个社区的用户特征矩阵、邻居矩阵和度矩阵分别输入到图卷积神经网络中，得到话题网络的广度传播特征向量矩阵。

优选的，采用多维度传播网络预测模型对深度传播特征向量矩阵和广度传播特征向量矩阵进行处理的过程包括：

将深度传播特征向量矩阵和广度传播特征向量矩阵进行拼接，得到拼接矩阵；

采用注意力机制对拼接矩阵进行处理，得到注意力分布矩阵；

采用两层全连接层对注意力分布矩阵进行处理，得到话题网络影响力用户预测结果。

本发明的有益效果为：本发明从话题传播的深度和广度维度出发，分析不同维度下的用户行为，分别提取两个维度下的用户隐藏特征，并通过对两个维度的特征进行融合，得到了最终的话题网络影响力用户的预测结果；相比现有技术，本发明考虑了多维度下的用户隐藏信息的发现，从深度和广度两个维度挖掘用户隐藏信息，在两个维度上均考虑了用户不同行为带来的不同影响，提高了预测结果的准确性，相关舆情部门可利用预测结果对话题进行广泛传播或者抑制其传播。

附图说明

图1为本发明中基于深度传播和广度传播的话题网络影响力用户预测方法流程图；

图2为本发明中获取深度传播特征向量矩阵过程示意图

图3为本发明中获取广度传播特征向量矩阵过程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出了一种基于深度传播和广度传播的话题网络影响力用户预测方法，如图1所示，所述方法包括以下内容：

S1：获取话题网络数据，对话题网络数据进行预处理。

在线获取话题网络数据，获取话题网络数据主要有两种方式，一是从国内外公开数据集的网站上查找合适数据集下载使用，二是利用社交平台提供的公共API接口获取话题网络数据，话题网络数据主要包括话题网络下的用户基本信息数据和在话题生命周期内的交互行为数据；用户基本信息数据包括用户id，交互行为数据包括用户与其他用户形成的关注关系、回复关系、提及关系以及转发关系。

对话题网络数据进行预处理：直接获取的原始数据通常是非结构化的数据，不可以直接用于数据分析。需要通过简单的数据清洗，将非结构化数据结构化。例如，对原始话题网络数据进行删除空值和重复数据等操作，得到预处理后的话题网络数据。

S2：根据预处理后的话题网络数据计算用户亲密度和用户可信度。

在话题网络中，包括参与话题传播的所有用户节点，以及用户在传播话题中形成关系边，其中关系包括关注、提及、转发和回复；根据预处理后的话题网络数据对用户的相关属性进行提取，相关属性包括用户亲密度和用户可信度；

在话题网络中，用户之间的亲密程度能够有效衡量用户关系。用户亲密行为表现在用户之间的关注、转发、回复以及提及行为，一般情况下，用户之间交互越频繁，用户亲密度越高，计算用户亲密度的公式为：

其中，Int(u_i,u_j)表示第i个用户u_i与第j个用户u_j之间的亲密度；X_i表示第i中交互方式的交互权重，不同的交互关系交互权重不同，关系越亲密交互权重越高，优选的，本发明中提及、转发、回复和关注的交互权重分别为0.4、0.2、0.3、0.1；Num[Interact_i(u_i,u_j)]表示第i个用户u_i和第j个用户u_j在第i种交互方式下的总次数，Num[Interact_iu_i]表示第i个用户u_i与全网用户在第i种交互方式下的总次数，Num[Interact_iu_j]表示第j个用户u_j与全网用户在第i种交互方式下的总次数。

在话题网络中，存在着僵尸粉、水军等恶意用户，因此需要对用户进行辨别。同时，可信度越高的用户，在话题传播中作用越大，更有可能成为有影响力的用户；计算用户可信度的公式为：

Cre(u_i)＝α·Num[Interact(u_i)]+β·Num[Interacted(u_i)]

其中，Cre(u_i)表示第i个用户u_i的可信度，Num[Interact(u_i)]表示第i个用户对其好友发布的消息进行互动的总数；α表示第一衰减系数，β表示第二衰减系数根据经验人为设定，α，β∈(0,1)，优选的，α和β分别为0.6、0.8；α和β的值越小，用户u_i的可信度越小，在话题传播过程的作用越小；反之，则作用越大；Num[Interacted(u_i)]表示第i个用户u_i发布的消息被好友互动的总数，互动包括被关注、被回复、被提及、被转发等行为互动。

S3：根据用户亲密度和用户可信度，定义DSU2vec算法的随机游走策略以优化DSU2vec算法。

针对话题深度传播，用户与用户之间的交互往往更偏向于纵向，形成链式传播，这种网络通常是亲朋好友之间的互动产生的。如图2所示，本发明针对深度传播网络下的节点关系提出了DSU2vec(深度空间用户向量表示)方法，以用户亲密度和传播深度为牵引力，将节点向量化，嵌入到低维稠密的向量空间中，挖掘节点之间的隐藏关系。

计算两相邻用户节点的边权重，计算公式为：

w(u_i,u_j)＝Int(u_i,u_j)+ε

其中，ε表示传播深度系数，d_i表示用户节点u_i继续传播话题说达到的深度。DSU2vec方法优化的目标函数为：

其中，

为顶点u嵌入向量的映射函数，N_s(u)为顶点u通过制定的游走策略S采样出来的近邻顶点集合，

表示顶点u近邻节点出现的概率。

为达到上述目标，本发明重新定义了DSU2vec算法随机游走的策略以优化DSU2vec算法，DSU2vec算法的随机游走策略为：

其中，P(u_j|u_i)表示用户节点u_i到用户节点u_j的转移概率，w(u_i,u_j)表示用户节点u_i到用户节点u_j的边权重，z表示缩放因子，取w(u_i,u_j)Cre(u_i)的最大值，将转移概率缩放到(0，1)区间。

S4：采用优化后的DSU2vec算法提取话题网络的隐藏信息，得到话题网络的深度传播特征向量矩阵。

采用DSU2vec方法从传播深度的维度提取话题网络的隐藏信息，将节点向量化，嵌入到低维稠密的向量空间中，DSU2vec算法的输出表示为：

N＝[n₁,n₂,n₃,...,n_K]

其中，N表示话题网络的深度传播特征向量矩阵，n_k表示第k个用户节点的向量表示。

由于话题传播的深度影响范围并不意味着信息的广泛扩散，接下来从话题传播的广度维度出发，研究广度范围内的用户影响力。如图3所示，首先是将话题网络划分为不同的社区结构，得到节点所在社区的结构、数量、大小等基本属性，然后根据节点属性和社区网络结构，利用图卷积神经网络GCN对不同社区的用户节点进行特征表示。

S5：对话题网络进行社区划分，得到划分好的社区。

由于话题的广度传播范围与用户所在的社区信息紧密相关，本发明针对话题网络进行社区划分，并认为社交网络中存在的多个社区之间是相互重叠且具有关联性的，可能存在一些特殊的节点与多个社区连接紧密，这些节点应该属于多个社区；提出了MB-Link划分算法，具体过程如下：

MB-Link算法是一种重叠社区检测算法，采用聚集边的方式来划分社区。该算法基本思想是：计算重叠节点的各条相邻边之间的相似度，按照相似度的大小排序，合并相似度高的边，得到基于边划分的社区结构。

本发明将边的相似度定义成与用户的不同交互行为相关联，为不同的行为关系分配不同的权重，例如用户提及关系显然比用户关注关系说明两者之间更紧密，因此权重更高；根据话题网络数据计算用户节点的边相似度，计算用户节点的边相似度的公式为：

其中，

表示与共享同一用户节点的边e_ik和边e_jk的边相似度；

表示边e_ik和边e_jk的边类型是否相同，若不同，则

为0，若相同，则

的取值由关注、回复、转发、提及四种不同边类型的权重决定，优选的，关注、回复、转发和提及的权重分别取0.1、0.3、0.2、0.4；Common表示用户节点u_i与用户节点u_j的邻居节点交集数，定义为：

Common＝n₊(i)∩n₊(j)

其中，n₊(i)表示用户节点u_i的所有邻居节点，n₊(j)表示用户节点u_j的所有邻居节点，用户节点u_i与用户节点u_j为与边e_ik和边e_jk非共享的两节点。

Number表示用户节点u_i与用户节点u_j的邻居节点并集数，定义为：

Number＝n₊(i)∪n₊(j)

根据边相似度融合相似度最高的两条边，形成社区；将划分密度作为划分质量的评判标准，当划分密度最大时，划分质量最好，假定话题网络中边数为M，节点数为K，定义C＝{C₁,C₂,...,C_e}为整个网络的一个社区划分结构，计算划分密度的公式为：

其中，m_c表示第c个社区C_c中的边数量，k_c表示第c个社区C_c中的用户节点数量。

不断融合相似度最高的两条，直到划分密度值最大，停止融合，得到划分好的社区。

广度传播网络的扩散范围与用户所在社区息息相关，根据社区获取每个社区中用户的用户特征向量，本发明采用节点所在社区个数、所在社区的大小以及节点间的连接数作为用户自身属性，单个用户特征向量表示为：

S_a＝{Num_community,Num_size,Num_degree}

根据用户特征向量得到用户特征矩阵，表示为：X＝k_c×S_a。

本发明采用两层GCN模型对社区节点进行特征表示，充分考虑节点自身属性以及所在网络拓扑结构的相互作用，实现了对不同社区结构节点隐藏信息的挖掘。根据社区获取社区的邻居矩阵和度矩阵；将每个社区的用户特征矩阵X、邻居矩阵A和度矩阵D分别输入到GCN中，得到话题网络的广度传播特征向量矩阵，具体过程包括以下内容：

每层GCN模型的输出表示为：

其中，x取0或1，H(0)＝X，即用户特征矩阵，σ表示非线性激活函数；W^(x)表示第x+1层的权重矩阵，上一层的输出就是下一层的输入；优选的，本发明σ为ReLu激活函数时，第一层的输出结果为：

其中，

表示度矩阵的平均化处理，

是归一化处理后的邻接矩阵，平衡节点之间的影响程度，

I为对角矩阵。

对每个社区均进行上述处理，对于同时处于多个社区的节点的向量表示，采用取平均值的方式获得这些节点的向量表示，将GCN模型的最终输出即节点的向量表示合并，得到话题网络的广度传播特征向量矩阵W＝[w₁,w₂,w₃,...,w_K]。

本发明利用注意力机制融合两个传播方向网络的节点向量表示，提出了多维度传播网络预测模型。将最终的用户影响力预测定义为一个二分类问题，即该用户是否具有影响力。

采用多维度传播网络预测模型对深度传播特征向量矩阵和广度传播特征向量矩阵进行处理的过程包括：

首先将深度传播的节点特征即深度传播特征向量矩阵N＝[n₁,n₂,n₃,...,n_K]和广度传播的节点特征即广度传播特征向量矩阵W＝[w₁,w₂,w₃,...,w_K]进行拼接，即

考虑到注意力机制能够自动权衡每个输入的重要程度，减少单一传播路径对用户预测的影响，因此使用注意力机制融合多传播维度的节点特征；采用注意力机制对拼接后得到的拼接矩阵P进行处理，得到注意力分布矩阵R＝[r₁,r₂,r₃,...,r_K]，其中，r_i,i∈[1,K]的计算公式为：

其中，q表示查询向量，由输入信息决定，Q表示输入维度，K表示输入信息的最大索引。

采用两层全连接层对注意力分布矩阵进行处理，得到话题网络影响力用户预测结果；具体的：

采用两层全连接层对注意力机制的结果进行降维处理，并进一步综合向量信息，利用sigmoid函数得到最终的二分类结果。第二层每个用户节点对应的输出为一维的向量，一维向量有两个取值，0和1，0表示无影响力，1表示有影响力，输出的结果可表示为：

Y＝d^K

Y的结果有两个类别，Y＝1表示该用户为有影响力用户，Y＝0表示该用户为非影响力用户。

sigmoid函数映射用户影响力的概率值即用户是否为影响力用户的概率为：

其中，B表示全连接层输出的用户嵌入。

通过对用户影响力的预测结果可筛选出对话题传播具有大影响力的用户，舆情部分可通过对这类用户的鼓励或限制来控制话题的整体传播传播态势，实现对目标话题的加速传播或对目标话题的快速抑制。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度传播和广度传播的话题网络影响力用户预测方法，其特征在于，包括：

S1：获取话题网络数据，对话题网络数据进行预处理；

S5：对话题网络进行社区划分，得到划分好的社区；

2.根据权利要求1所述的一种基于深度传播和广度传播的话题网络影响力用户预测方法，其特征在于，计算用户亲密度的公式为：

3.根据权利要求1所述的一种基于深度传播和广度传播的话题网络影响力用户预测方法，其特征在于，计算用户可信度的公式为：

Cre(u_i)＝α·Num[Interact(u_i)]+β·Num[Interacted(u_i)]

4.根据权利要求1所述的一种基于深度传播和广度传播的话题网络影响力用户预测方法，其特征在于，DSU2vec算法的随机游走策略为：

w(u_i,u_j)＝Int(u_i,u_j)+ε

5.根据权利要求1所述的一种基于深度传播和广度传播的话题网络影响力用户预测方法，其特征在于，对话题网络进行社区划分的过程包括：根据话题网络数据计算用户节点的边相似度；根据边相似度融合相似度最高的两条边，形成社区；计算社区的划分密度值；不断融合相似度最高的两条，直到划分密度值最大，停止融合，得到划分好的社区。

6.根据权利要求5所述的一种基于深度传播和广度传播的话题网络影响力用户预测方法，其特征在于，计算用户节点的边相似度的公式为：

其中，

表示边e_ik和边e_jk的边相似度，

7.根据权利要求1所述的一种基于深度传播和广度传播的话题网络影响力用户预测方法，其特征在于，采用图卷积神经网络提取社区节点的特征的过程包括：

8.根据权利要求1所述的一种基于深度传播和广度传播的话题网络影响力用户预测方法，其特征在于，采用多维度传播网络预测模型对深度传播特征向量矩阵和广度传播特征向量矩阵进行处理的过程包括：