CN113159976A

CN113159976A - 一种微博网络重要用户的识别方法

Info

Publication number: CN113159976A
Application number: CN202110521619.7A
Authority: CN
Inventors: 刘震; 叶文涛; 潘亮光; 王一博
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-05-13
Filing date: 2021-05-13
Publication date: 2021-07-23
Anticipated expiration: 2041-05-13
Also published as: CN113159976B

Abstract

本发明公开了一种微博网络重要用户的识别方法，首先计算关注网络邻接矩阵和粉丝网络邻接矩阵以及粉丝网络邻接标签矩阵；然后将关注网络邻接矩阵和粉丝网络邻接标签矩阵相乘；再将乘积输入由全连接神经网络构建的嵌入层和分类器中，学习参数，识别微博网络中未知标签用户中的重要用户。本发明能够准确地识别微博网络中的重要用户。

Description

一种微博网络重要用户的识别方法

技术领域

本发明属于信息技术领域，具体涉及一种微博网络重要用户的识别方法。

背景技术

随着互联网革命的迭代推进，互联网数据呈爆发式增长，人类社会也因此进入了后互联网时代。其中，社交媒体的蓬勃发展格外引人瞩目。而在社交媒体上形成的社交网络中，存在一种特殊用户，又名重要用户；这一群体在信息传播领域和市场营销领域中都能起到极大的作用。如果能更准确地识别重要用户，就可以更好地创造更好的网络舆情和更多的经济效益。

目前国内外关于微博网络重要用户识别的文献中，主要是以用户属性和网络拓扑机构的中心性指标为主。同时，重要用户识别问题也可以看做是一个节点分类问题，而国内外对此的研究主要是以图嵌入算法得到图中节点的嵌入向量，然后再用常见的分类器进行分类，比如DeepWalk等。这类方法在识别精度上要比中心性指标更加高，但是仍然存在一些问题。第一，大部分图嵌入算法都是无监督地学习嵌入向量表示，或仅仅是简单地利用标签信息(例如MMDW)。第二，绝大部分算法没有考虑在识别重要用户的过程中存在样本不均衡问题。第三，绝大部分图嵌入算法都不是端对端模型。

发明内容

针对现有技术中的上述不足，本发明提供的一种微博网络重要用户的识别方法解决了现有技术中存在的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种微博网络重要用户的识别方法，包括以下步骤：

S1、获取用户的初始嵌入向量；

S2、端对端地训练由全连接神经网络构建的嵌入层和分类器；

S3、将未知标签用户的初始嵌入向量输入训练后的嵌入层和分类器，得到未知标签用户的识别结果。

进一步地，所述步骤S1具体为：

S1.1、以用户为节点，以用户之间的关系为有向边，以用户类型为节点标签，构建微博网络G＝(V,E,L)；

其中，用户类型包括重要用户和普通用户，V＝{v₁,v₂,...,v_i,...,v_N}，V表示用户节点集合，v_i表示第i个用户节点，i＝1,2,...,N，N表示用户节点总数，E表示用户之间的关系集合，L＝{l₁,l₂,...,l_i,...,l_N}，L表示用户节点的标签集合，l_i表示与用户节点v_i对应的用户标签；

S1.2、采集未知标签用户的集合为V'，将微博网络更新为G'＝(V,E,L-{l_i|v_i∈V'})；

S1.3、将微博网络作为关注网络，获取其邻接矩阵A为：

A＝(a_ij)_N×N∈{0,1}^N×N

其中，a_ij表示关注网络邻接矩阵A中第i行第j列的元素，j＝1,2,...,N；

S1.4、将微博网络作为粉丝网络，获取其邻接矩阵为A^T，T表示转置；

S1.5、根据邻接矩阵A^T，获取粉丝网络的邻接矩阵标签B^out为：

B^out＝(b_ij)_N×N

其中，a_ji表示粉丝网络的邻接矩阵A^T中第i行第j列的元素，Ω⁺表示微博网络中已知标签的重要用户集合，Ω^-表示微博网络中已知标签的普通用户集合，∧表示逻辑与，∨表示逻辑或。

S1.6、根据关注网络的邻接矩阵A和粉丝网络的邻接矩阵标签B^out，得到用户的初始嵌入向量矩阵X为：

X＝A·B^out。

S1.7、根据初始嵌入向量矩阵X，得到每个用户v_i的嵌入向量E_i和属于重要用户的概率p_i ^imp分别为：

E_i＝X_i·W₁+d₁

p_i ^imp＝Sigmoid(ReLU(ReLU(ReLU(E_i·W₂+d₂)·W₃+d₃))·W₄+d₄)

其中，Sigmoid(*)表示Sigmoid函数，ReLU(*)表示线性整流函数，W₁、W₂、W₃和W₄分别表示第一至四层神经网络的权值矩阵，d₁、d₂、d₃和d₄分别表示第一至四层神经网络的偏置。

进一步地，所述步骤S1.1中用户标签l_i具体为：

进一步地，所述步骤S2具体为：

S2.1、构建损失函数；

S2.2、以损失函数最小为目标，采用梯度下降法和Adam优化器对由全连接神经网络构建的嵌入层和分类器进行端对端训练；

S2.3、判断已知标签的节点集合上的损失函数值是否收敛，若是，则训练完成，否则返回步骤S2.2。

进一步地，所述步骤S2.1中损失函数具体为：

其中，|Ω⁺|表示集合Ω⁺中元素的总数，|Ω^-|表示集合Ω^-中元素的总数，p_i ^imp表示用户v_i被预测为重要用户的概率，即由全连接神经网络构建的分类器的输出；p_i ^imp>0.5，则判定用户v_i为重要用户。

进一步地，所述步骤S2.3中损失函数值具体为：

其中，F₁表示损失函数值，Recall表示第一中间参数，Prec表示第二中间参数，TP表示预测为正样本且实际也为正样本的数量，FN表示预测为负样本且实际也为负样本的数量，FP表示预测为负样本且实际为正样本的数量。

进一步地，所述步骤S3具体为：

S3.1、将未知标签用户v_k的初始嵌入向量X_k输入训练后的嵌入层得到嵌入向量E_k，并将嵌入向量输入分类器得到输出pred_k；

S3.2、判断输出pred_k是否大于0.5，若是，则判定未知标签用户v_k为重要用户，否则判定未知标签用户v_k为普通用户。

进一步地，所述步骤S3.1中的嵌入向量E_k和输出pred_k分别为：

E_k＝X_k·W₁+d₁

pred_k＝Sigmoid(ReLU(ReLU(ReLU(E_k·W₂+d₂)·W₃+d₃))·W₄+d₄)

其中，X_k是初始嵌入向量X的第i行，其表示未知标签用户v_k的初始嵌入向量，Sigmoid(*)表示Sigmoid函数，ReLU(*)表示线性整流函数，W₁、W₂、W₃和W₄分别表示第一至四层神经网络的权值矩阵，d₁、d₂、d₃和d₄分别表示第一至四层神经网络的偏置。

本发明的有益效果为：

(1)本发明的复杂度低，并且识别精度高，能够识别未知标签的用户是否为重要用户，进而创造社会和经济价值。

(2)本发明通过结合注意力机制的思想和首次提出的邻接标签矩阵，更有效地利用了标签信息，且通过全连接神经网络将模型端对端化，并使用改进损失函数以均衡样本，即使在样本不均衡的条件下，也能够准确的进行识别。

(3)本发明结合了嵌入向量和用户标签信息作为神经网络的输入，使预测结果更加精准。

附图说明

图1为本发明提出的一种微博网络重要用户的识别方法流程图。

图2为本发明中工作流程示意图。

图3为本发明的实施例中微博网络实例示意图。

图4为本发明中中心性指标实验结果示意图。

图5为本发明中图嵌入算法和分类器组合模型的实验结果示意图。

图6为本发明与基线算法的对比实验结果示意图。

图7为本发明中训练集比例调节后的对比实验结果示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

下面结合附图详细说明本发明的实施例。

如图1所示，一种微博网络重要用户的识别方法，包括以下步骤。

S1、获取用户的初始嵌入向量。

如图2所示，本发明通过简单的注意力机制和邻接标签矩阵得到节点的初始嵌入向量，然后利用全连接神经网络构建嵌入层和分类器，分别得到自定义维数的嵌入向量和对嵌入向量进行分类。

所述步骤S1具体为：

S1.2、采集未知标签用户的集合为V'，将更新微博网络为G'＝(V,E,L-{l_i|v_i∈V'})；

S1.3、将微博网络作为关注网络，获取其邻接矩阵A为：

A＝(a_ij)_N×N∈{0,1}^N×N

B^out＝(b_ij)_N×N

S1.6、根据关注网络邻接矩阵A和粉丝网络邻接矩阵标签B^out，获取用户的初始嵌入向量矩阵X为：

X＝A·B^out。

E_i＝X_i·W₁+d₁

p_i ^imp＝Sigmoid(ReLU(ReLU(ReLU(E_i·W₂+d₂)·W₃+d₃))·W₄+d₄)

所述步骤S1.1中用户标签l_i具体为：

在本实施例中，粉丝网络邻接标签矩阵B^out的第i行表示用户v_i的关注的标签分布，同时含有标签信息和一阶结构信息。

在本实施例中，使用的微博网络数据集是公开提供的，曾用于对新浪微博用户的转发行为进行建模，具体使用了其中Static following network数据和User profile数据。数据集统计结果如表1所示。构建微博网络所使用的数据包括所有Static followingnetwork数据以及User profile数据中的user id、verified_type数据。

表1微博网络数据统计

因为实验环境的限制，本发明使用了一种采样方法得到一个与原始网络具有较强一致性的子网络Seed-10。通过KL散度和JS散度的一致性检验结果如表2所示。Seed-10中的节点类别划分如表3所示，表中的度在计算入度分布上的散度时是指入度，反之则指出度。

表2 Seed-10与原始数据集的一致性检验

表3节点依据度分类

此外，本发明采用了广泛用于模型评估的leave-25％-out分类方案，即25％的数据集为测试集，75％的数据集为训练集。实验随机选取了固定比例为25％的节点，去掉这些节点的标签后的网络为训练集；这写25％的标签以及对应的节点组成测试集。需要说明的是，整个网络的拓扑结构信息都在训练集中。因此，一个带标签的有向图G＝(V,E,L)可以被划分为两个部分，分别用来训练模型和测试分类性能。这样的一种过程叫做一次划分。为了保证实验的可靠性，本发明采取五次随机划分在Seed-10上产生了五组训练集和测试集，并把五组实验结果的均值作为衡量模型性能的标准。将数据集Seed-10中的用户当做网络中的节点，关注或被关注关系作为网络中的边，将用户是否是重要用户的标签作为节点的标签，来构建微博网络。

构建一个含有8个用户和13个关注或被关注关系以及6个已知用户标签的微博网络实例，即有两个用户的标签是未知的，如图3所示。

其粉丝网络邻接矩阵和关注网络邻接矩阵如表4和表5所示。

表4关注网络邻接矩阵

表5粉丝网络邻接矩阵

在构建的微博网络实例中，粉丝网络邻接标签矩阵的计算结果如表6所示：

表6粉丝网络邻接标签矩阵

在构建的微博网络实例中，初始嵌入向量的计算结果如表7所示：

表7初始嵌入向量

S2、端对端地训练由全连接神经网络构建的嵌入层和分类器。

所述步骤S2具体为：

S2.1、构建损失函数；

S2.2、以损失函数最小为目标，采用梯度下降法和Adam优化器对由全连接神经网络构建的嵌入层和分类器进行端对端的训练；

在本实施例中，全连接神经网络为网状结构，一般由输入层、隐藏层和输出层三种结构组成。输入层和输出层一般仅各有一层，而隐藏层通常有多层。每一层有若干个神经元，相邻层之间的神经由可更新权重的边相互连接。每个神经元都有一个初始权值，此外输出层和隐藏层的每个神经元还有一个激活函数和偏置，偏置可缺省。本发明利用全连接神经网络构建了嵌入层和分类器，然后端对端地进行训练。

1)嵌入层

本发明将初始嵌入向量X作为全连接神经网络的输入，经过一层隐藏层后得到嵌入向量

D是嵌入向量的维度，可自定义。计算公式如下：E＝X·W₁+d₁；其中，

将初始嵌入向量X作为嵌入层的输入，且初始嵌入向量的维度是25909(即数据集中用户个数)，经过一层隐藏层后得到嵌入向量矩阵

计算过程如下：

E＝X·W₁+d₁

其中，

2)分类器

嵌入向量被输入至具有三层隐藏层的分类器中，每一层使用激活函数ReLU，输出层只有一个神经元，且使用激活函数Sigmoid。计算公式如下所示。

p_i ^imp＝Sigmoid(ReLU(ReLU(ReLU(E_i·W₂+d₂)·W₃+d₃))·W₄+d₄)

其中，

是嵌入向量矩阵E的第i行，代表用户v_i的嵌入向量，

D₁、D₂可自定义。本实施例中，D₁＝2000，D₂＝2000，N＝64。

所述步骤S2.1中损失函数具体为：

其中，|Ω⁺|表示集合Ω⁺中元素的总数，|Ω^-|表示集合Ω^-中元素的总数，p_i ^imp表示用户v_i被预测为重要用户的概率，即全连接神经网络的输出，p_i ^imp>0.5，则判定用户v_i为重要用户。

所述步骤S2.3中损失函数值具体为：

S3、将初始嵌入向量输入训练后的全连接神经网络，得到微博网络重要用户识别结果。

所述步骤S3具体为：

S3.1、将未知标签用户v_k的初始嵌入向量输入训练后的嵌入层得到嵌入向量E_k，再将嵌入向量输入分类器得到输出pred_k；

所述步骤S3.1中的嵌入向量E_k和输出pred_k分别为：

E_k＝X_k·W₁+d₁

pred_k＝Sigmoid(ReLU(ReLU(ReLU(E_k·W₂+d₂)·W₃+d₃))·W₄+d₄)

其中，X_k是初始嵌入向量X的第i行，表示v_k的初始嵌入向量，Sigmoid(*)表示Sigmoid函数，ReLU(*)表示线性整流函数，W₁、W₂、W₃和W₄分别表示第一至四层神经网络的权值矩阵，d₁、d₂、d₃和d₄分别表示第一至四层神经网络的偏置。

将中心性指标法和图嵌入算法与分类器的组合模型作为基线方法。作为基线方法的中心性指标法分别为：度中心性指标、入度中心性指标、出度中心性指标、介数中心性指标、紧密度中心性指标、PageRank法和VoteRank法，实验结果如图4所示。图嵌入算法和分类器的组合模型是由7种图嵌入算法(DeepWalk、LINE、SDNE、LLE、GraRep、Diff2Vec和MMDW)和5种经典分类器(LR、NB、DT、SVM和MLP)组合而成。实验结果如图5所示。

图4展示了中心性指标算法的实验结果。这些基于指标的算法只能给出了节点的相对重要性，即只能给出用户重要性的排序，并没有直接对节点的重要性进行分类；因此实验引入参数Top-k，其含义是认为在根据中心性指标给出的节点重要性排序中的前Top-k个节点用户是重要用户。对Top-k参数进行范围在0～25909，间隔为10的均匀取值，求出对应的损失函数，并绘制出图4。

图5中展示了7种图嵌入算法与多层感知机分类器结合的组合模型。LR、NB、DT和SVM的参数选择都是基于Python语言的机器学习工具scikit-learn库中的默认设置；而多层感知机则设置为三层隐藏层，每层的维度均为2000。在通过图嵌入算法得到嵌入向量之后，实验选择使用SMOTE算法均衡化样本之后再将嵌入向量输入分类器，以确保实验结果尽量不受样本不均衡问题影响。

图6显示了本发明提出的新模型(New)和基线算法的实验结果对比。其中，图中X轴上的DW意为DeepWalk，DV意为Diff2Vec。从图6中可以看出，本发明提出的新模型的分类准确性显著好于基线算法，比最好的图嵌入算法提升了7.32％，比最好的中心性指标法提升了65.52％。

为了进一步验证新算法的优越性，本实验还统计了新模型和所有基线图嵌入算法在测试集中小入度节点和大入度节点中的表现，统计结果如表8和表9所示。在表8和表9中，小入度节点是指入度小于0.1×网络平均入度的点，大入度节点是指入度大于0.9×网络平均入度。

表8小入度节点在各算法下的分类情况

从表8中可以发现：(1)小入度节点数量众多，可以占据测试集中节点的61.7％，大部分为普通用户，但也有相当数量，且很难被准确识别；这也就表明，识别重要用户的关键在于识别小入度节点。(2)新算法对小入度节点的识别显著地好于其他图嵌入算法，在小度节点中，新算法的性能比表现最好的基线算法提升了约100％。

表9大入度节点在各算法下的分类情况

从表9中可以发现：

(1)大入度节点数量不多，仅占据全体节点的12.5％，重要用户和普通用户数量相当，且几乎所有算法对于大入度节点的识别都比较准确(损失函数>0.6)，这表明大入度节点容易准确地被识别；

(2)新算法对大入度节点的识别准确率仍然是所有图嵌入算法中最高的。

此外，本实验探究了数据集中训练集和测试集比例对模型性能的影响，通过改变训练集占全体数据集的比例来测试四种加上对应最佳分类器的基线算法(DeepWalk+MLP、LINE+MLP、GraRep+SVM和Diff2Vec+SVM)以及新模型的性能，实验结果如图7所示。从图中可以看出新算法在训练集比例从0.1至0.9变化过程中基本保持分类效果不变，而DeepWalk等基线图嵌入算法都会有比较明显的上升，这说明新算法(本发明)具有较强的鲁棒性。

综上所述，本发明微博网络重要用户识别方法具有实现简单、识别精度高的优点。在实际的生产环境中，给定已有的微博网络(包括已知标签的用户和未知标签的用户)，利用本发明能够识别未知标签的用户是否为重要用户，进而创造社会和经济价值。