CN113159976A - 一种微博网络重要用户的识别方法 - Google Patents

一种微博网络重要用户的识别方法 Download PDF

Info

Publication number
CN113159976A
CN113159976A CN202110521619.7A CN202110521619A CN113159976A CN 113159976 A CN113159976 A CN 113159976A CN 202110521619 A CN202110521619 A CN 202110521619A CN 113159976 A CN113159976 A CN 113159976A
Authority
CN
China
Prior art keywords
user
network
users
representing
microblog
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110521619.7A
Other languages
English (en)
Other versions
CN113159976B (zh
Inventor
刘震
叶文涛
潘亮光
王一博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110521619.7A priority Critical patent/CN113159976B/zh
Publication of CN113159976A publication Critical patent/CN113159976A/zh
Application granted granted Critical
Publication of CN113159976B publication Critical patent/CN113159976B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Business, Economics & Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种微博网络重要用户的识别方法,首先计算关注网络邻接矩阵和粉丝网络邻接矩阵以及粉丝网络邻接标签矩阵;然后将关注网络邻接矩阵和粉丝网络邻接标签矩阵相乘;再将乘积输入由全连接神经网络构建的嵌入层和分类器中,学习参数,识别微博网络中未知标签用户中的重要用户。本发明能够准确地识别微博网络中的重要用户。

Description

一种微博网络重要用户的识别方法
技术领域
本发明属于信息技术领域,具体涉及一种微博网络重要用户的识别方法。
背景技术
随着互联网革命的迭代推进,互联网数据呈爆发式增长,人类社会也因此进入了后互联网时代。其中,社交媒体的蓬勃发展格外引人瞩目。而在社交媒体上形成的社交网络中,存在一种特殊用户,又名重要用户;这一群体在信息传播领域和市场营销领域中都能起到极大的作用。如果能更准确地识别重要用户,就可以更好地创造更好的网络舆情和更多的经济效益。
目前国内外关于微博网络重要用户识别的文献中,主要是以用户属性和网络拓扑机构的中心性指标为主。同时,重要用户识别问题也可以看做是一个节点分类问题,而国内外对此的研究主要是以图嵌入算法得到图中节点的嵌入向量,然后再用常见的分类器进行分类,比如DeepWalk等。这类方法在识别精度上要比中心性指标更加高,但是仍然存在一些问题。第一,大部分图嵌入算法都是无监督地学习嵌入向量表示,或仅仅是简单地利用标签信息(例如MMDW)。第二,绝大部分算法没有考虑在识别重要用户的过程中存在样本不均衡问题。第三,绝大部分图嵌入算法都不是端对端模型。
发明内容
针对现有技术中的上述不足,本发明提供的一种微博网络重要用户的识别方法解决了现有技术中存在的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种微博网络重要用户的识别方法,包括以下步骤:
S1、获取用户的初始嵌入向量;
S2、端对端地训练由全连接神经网络构建的嵌入层和分类器;
S3、将未知标签用户的初始嵌入向量输入训练后的嵌入层和分类器,得到未知标签用户的识别结果。
进一步地,所述步骤S1具体为:
S1.1、以用户为节点,以用户之间的关系为有向边,以用户类型为节点标签,构建微博网络G=(V,E,L);
其中,用户类型包括重要用户和普通用户,V={v1,v2,...,vi,...,vN},V表示用户节点集合,vi表示第i个用户节点,i=1,2,...,N,N表示用户节点总数,E表示用户之间的关系集合,L={l1,l2,...,li,...,lN},L表示用户节点的标签集合,li表示与用户节点vi对应的用户标签;
S1.2、采集未知标签用户的集合为V',将微博网络更新为G'=(V,E,L-{li|vi∈V'});
S1.3、将微博网络作为关注网络,获取其邻接矩阵A为:
A=(aij)N×N∈{0,1}N×N
Figure BDA0003064185840000021
其中,aij表示关注网络邻接矩阵A中第i行第j列的元素,j=1,2,...,N;
S1.4、将微博网络作为粉丝网络,获取其邻接矩阵为AT,T表示转置;
S1.5、根据邻接矩阵AT,获取粉丝网络的邻接矩阵标签Bout为:
Bout=(bij)N×N
Figure BDA0003064185840000022
其中,aji表示粉丝网络的邻接矩阵AT中第i行第j列的元素,Ω+表示微博网络中已知标签的重要用户集合,Ω-表示微博网络中已知标签的普通用户集合,∧表示逻辑与,∨表示逻辑或。
S1.6、根据关注网络的邻接矩阵A和粉丝网络的邻接矩阵标签Bout,得到用户的初始嵌入向量矩阵X为:
X=A·Bout
S1.7、根据初始嵌入向量矩阵X,得到每个用户vi的嵌入向量Ei和属于重要用户的概率pi imp分别为:
Ei=Xi·W1+d1
pi imp=Sigmoid(ReLU(ReLU(ReLU(Ei·W2+d2)·W3+d3))·W4+d4)
其中,Sigmoid(*)表示Sigmoid函数,ReLU(*)表示线性整流函数,W1、W2、W3和W4分别表示第一至四层神经网络的权值矩阵,d1、d2、d3和d4分别表示第一至四层神经网络的偏置。
进一步地,所述步骤S1.1中用户标签li具体为:
Figure BDA0003064185840000031
进一步地,所述步骤S2具体为:
S2.1、构建损失函数;
S2.2、以损失函数最小为目标,采用梯度下降法和Adam优化器对由全连接神经网络构建的嵌入层和分类器进行端对端训练;
S2.3、判断已知标签的节点集合上的损失函数值是否收敛,若是,则训练完成,否则返回步骤S2.2。
进一步地,所述步骤S2.1中损失函数具体为:
Figure BDA0003064185840000041
其中,|Ω+|表示集合Ω+中元素的总数,|Ω-|表示集合Ω-中元素的总数,pi imp表示用户vi被预测为重要用户的概率,即由全连接神经网络构建的分类器的输出;pi imp>0.5,则判定用户vi为重要用户。
进一步地,所述步骤S2.3中损失函数值具体为:
Figure BDA0003064185840000042
Figure BDA0003064185840000043
Figure BDA0003064185840000044
其中,F1表示损失函数值,Recall表示第一中间参数,Prec表示第二中间参数,TP表示预测为正样本且实际也为正样本的数量,FN表示预测为负样本且实际也为负样本的数量,FP表示预测为负样本且实际为正样本的数量。
进一步地,所述步骤S3具体为:
S3.1、将未知标签用户vk的初始嵌入向量Xk输入训练后的嵌入层得到嵌入向量Ek,并将嵌入向量输入分类器得到输出predk
S3.2、判断输出predk是否大于0.5,若是,则判定未知标签用户vk为重要用户,否则判定未知标签用户vk为普通用户。
进一步地,所述步骤S3.1中的嵌入向量Ek和输出predk分别为:
Ek=Xk·W1+d1
predk=Sigmoid(ReLU(ReLU(ReLU(Ek·W2+d2)·W3+d3))·W4+d4)
其中,Xk是初始嵌入向量X的第i行,其表示未知标签用户vk的初始嵌入向量,Sigmoid(*)表示Sigmoid函数,ReLU(*)表示线性整流函数,W1、W2、W3和W4分别表示第一至四层神经网络的权值矩阵,d1、d2、d3和d4分别表示第一至四层神经网络的偏置。
本发明的有益效果为:
(1)本发明的复杂度低,并且识别精度高,能够识别未知标签的用户是否为重要用户,进而创造社会和经济价值。
(2)本发明通过结合注意力机制的思想和首次提出的邻接标签矩阵,更有效地利用了标签信息,且通过全连接神经网络将模型端对端化,并使用改进损失函数以均衡样本,即使在样本不均衡的条件下,也能够准确的进行识别。
(3)本发明结合了嵌入向量和用户标签信息作为神经网络的输入,使预测结果更加精准。
附图说明
图1为本发明提出的一种微博网络重要用户的识别方法流程图。
图2为本发明中工作流程示意图。
图3为本发明的实施例中微博网络实例示意图。
图4为本发明中中心性指标实验结果示意图。
图5为本发明中图嵌入算法和分类器组合模型的实验结果示意图。
图6为本发明与基线算法的对比实验结果示意图。
图7为本发明中训练集比例调节后的对比实验结果示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
下面结合附图详细说明本发明的实施例。
如图1所示,一种微博网络重要用户的识别方法,包括以下步骤。
S1、获取用户的初始嵌入向量。
如图2所示,本发明通过简单的注意力机制和邻接标签矩阵得到节点的初始嵌入向量,然后利用全连接神经网络构建嵌入层和分类器,分别得到自定义维数的嵌入向量和对嵌入向量进行分类。
所述步骤S1具体为:
S1.1、以用户为节点,以用户之间的关系为有向边,以用户类型为节点标签,构建微博网络G=(V,E,L);
其中,用户类型包括重要用户和普通用户,V={v1,v2,...,vi,...,vN},V表示用户节点集合,vi表示第i个用户节点,i=1,2,...,N,N表示用户节点总数,E表示用户之间的关系集合,L={l1,l2,...,li,...,lN},L表示用户节点的标签集合,li表示与用户节点vi对应的用户标签;
S1.2、采集未知标签用户的集合为V',将更新微博网络为G'=(V,E,L-{li|vi∈V'});
S1.3、将微博网络作为关注网络,获取其邻接矩阵A为:
A=(aij)N×N∈{0,1}N×N
Figure BDA0003064185840000061
其中,aij表示关注网络邻接矩阵A中第i行第j列的元素,j=1,2,...,N;
S1.4、将微博网络作为粉丝网络,获取其邻接矩阵为AT,T表示转置;
S1.5、根据邻接矩阵AT,获取粉丝网络的邻接矩阵标签Bout为:
Bout=(bij)N×N
Figure BDA0003064185840000071
其中,aji表示粉丝网络的邻接矩阵AT中第i行第j列的元素,Ω+表示微博网络中已知标签的重要用户集合,Ω-表示微博网络中已知标签的普通用户集合,∧表示逻辑与,∨表示逻辑或。
S1.6、根据关注网络邻接矩阵A和粉丝网络邻接矩阵标签Bout,获取用户的初始嵌入向量矩阵X为:
X=A·Bout
S1.7、根据初始嵌入向量矩阵X,得到每个用户vi的嵌入向量Ei和属于重要用户的概率pi imp分别为:
Ei=Xi·W1+d1
pi imp=Sigmoid(ReLU(ReLU(ReLU(Ei·W2+d2)·W3+d3))·W4+d4)
其中,Sigmoid(*)表示Sigmoid函数,ReLU(*)表示线性整流函数,W1、W2、W3和W4分别表示第一至四层神经网络的权值矩阵,d1、d2、d3和d4分别表示第一至四层神经网络的偏置。
所述步骤S1.1中用户标签li具体为:
Figure BDA0003064185840000072
在本实施例中,粉丝网络邻接标签矩阵Bout的第i行表示用户vi的关注的标签分布,同时含有标签信息和一阶结构信息。
在本实施例中,使用的微博网络数据集是公开提供的,曾用于对新浪微博用户的转发行为进行建模,具体使用了其中Static following network数据和User profile数据。数据集统计结果如表1所示。构建微博网络所使用的数据包括所有Static followingnetwork数据以及User profile数据中的user id、verified_type数据。
表1微博网络数据统计
Figure BDA0003064185840000081
因为实验环境的限制,本发明使用了一种采样方法得到一个与原始网络具有较强一致性的子网络Seed-10。通过KL散度和JS散度的一致性检验结果如表2所示。Seed-10中的节点类别划分如表3所示,表中的度在计算入度分布上的散度时是指入度,反之则指出度。
表2 Seed-10与原始数据集的一致性检验
Figure BDA0003064185840000082
表3节点依据度分类
Figure BDA0003064185840000083
此外,本发明采用了广泛用于模型评估的leave-25%-out分类方案,即25%的数据集为测试集,75%的数据集为训练集。实验随机选取了固定比例为25%的节点,去掉这些节点的标签后的网络为训练集;这写25%的标签以及对应的节点组成测试集。需要说明的是,整个网络的拓扑结构信息都在训练集中。因此,一个带标签的有向图G=(V,E,L)可以被划分为两个部分,分别用来训练模型和测试分类性能。这样的一种过程叫做一次划分。为了保证实验的可靠性,本发明采取五次随机划分在Seed-10上产生了五组训练集和测试集,并把五组实验结果的均值作为衡量模型性能的标准。将数据集Seed-10中的用户当做网络中的节点,关注或被关注关系作为网络中的边,将用户是否是重要用户的标签作为节点的标签,来构建微博网络。
构建一个含有8个用户和13个关注或被关注关系以及6个已知用户标签的微博网络实例,即有两个用户的标签是未知的,如图3所示。
其粉丝网络邻接矩阵和关注网络邻接矩阵如表4和表5所示。
表4关注网络邻接矩阵
Figure BDA0003064185840000091
表5粉丝网络邻接矩阵
Figure BDA0003064185840000092
Figure BDA0003064185840000101
在构建的微博网络实例中,粉丝网络邻接标签矩阵的计算结果如表6所示:
表6粉丝网络邻接标签矩阵
Figure BDA0003064185840000102
在构建的微博网络实例中,初始嵌入向量的计算结果如表7所示:
表7初始嵌入向量
Figure BDA0003064185840000103
Figure BDA0003064185840000111
S2、端对端地训练由全连接神经网络构建的嵌入层和分类器。
所述步骤S2具体为:
S2.1、构建损失函数;
S2.2、以损失函数最小为目标,采用梯度下降法和Adam优化器对由全连接神经网络构建的嵌入层和分类器进行端对端的训练;
在本实施例中,全连接神经网络为网状结构,一般由输入层、隐藏层和输出层三种结构组成。输入层和输出层一般仅各有一层,而隐藏层通常有多层。每一层有若干个神经元,相邻层之间的神经由可更新权重的边相互连接。每个神经元都有一个初始权值,此外输出层和隐藏层的每个神经元还有一个激活函数和偏置,偏置可缺省。本发明利用全连接神经网络构建了嵌入层和分类器,然后端对端地进行训练。
1)嵌入层
本发明将初始嵌入向量X作为全连接神经网络的输入,经过一层隐藏层后得到嵌入向量
Figure BDA0003064185840000112
D是嵌入向量的维度,可自定义。计算公式如下:E=X·W1+d1;其中,
Figure BDA0003064185840000113
将初始嵌入向量X作为嵌入层的输入,且初始嵌入向量的维度是25909(即数据集中用户个数),经过一层隐藏层后得到嵌入向量矩阵
Figure BDA0003064185840000114
计算过程如下:
E=X·W1+d1
其中,
Figure BDA0003064185840000115
2)分类器
嵌入向量被输入至具有三层隐藏层的分类器中,每一层使用激活函数ReLU,输出层只有一个神经元,且使用激活函数Sigmoid。计算公式如下所示。
pi imp=Sigmoid(ReLU(ReLU(ReLU(Ei·W2+d2)·W3+d3))·W4+d4)
其中,
Figure BDA0003064185840000121
是嵌入向量矩阵E的第i行,代表用户vi的嵌入向量,
Figure BDA0003064185840000122
Figure BDA0003064185840000123
D1、D2可自定义。本实施例中,D1=2000,D2=2000,N=64。
S2.3、判断已知标签的节点集合上的损失函数值是否收敛,若是,则训练完成,否则返回步骤S2.2。
所述步骤S2.1中损失函数具体为:
Figure BDA0003064185840000124
其中,|Ω+|表示集合Ω+中元素的总数,|Ω-|表示集合Ω-中元素的总数,pi imp表示用户vi被预测为重要用户的概率,即全连接神经网络的输出,pi imp>0.5,则判定用户vi为重要用户。
所述步骤S2.3中损失函数值具体为:
Figure BDA0003064185840000125
Figure BDA0003064185840000126
Figure BDA0003064185840000127
其中,F1表示损失函数值,Recall表示第一中间参数,Prec表示第二中间参数,TP表示预测为正样本且实际也为正样本的数量,FN表示预测为负样本且实际也为负样本的数量,FP表示预测为负样本且实际为正样本的数量。
S3、将初始嵌入向量输入训练后的全连接神经网络,得到微博网络重要用户识别结果。
所述步骤S3具体为:
S3.1、将未知标签用户vk的初始嵌入向量输入训练后的嵌入层得到嵌入向量Ek,再将嵌入向量输入分类器得到输出predk
S3.2、判断输出predk是否大于0.5,若是,则判定未知标签用户vk为重要用户,否则判定未知标签用户vk为普通用户。
所述步骤S3.1中的嵌入向量Ek和输出predk分别为:
Ek=Xk·W1+d1
predk=Sigmoid(ReLU(ReLU(ReLU(Ek·W2+d2)·W3+d3))·W4+d4)
其中,Xk是初始嵌入向量X的第i行,表示vk的初始嵌入向量,Sigmoid(*)表示Sigmoid函数,ReLU(*)表示线性整流函数,W1、W2、W3和W4分别表示第一至四层神经网络的权值矩阵,d1、d2、d3和d4分别表示第一至四层神经网络的偏置。
将中心性指标法和图嵌入算法与分类器的组合模型作为基线方法。作为基线方法的中心性指标法分别为:度中心性指标、入度中心性指标、出度中心性指标、介数中心性指标、紧密度中心性指标、PageRank法和VoteRank法,实验结果如图4所示。图嵌入算法和分类器的组合模型是由7种图嵌入算法(DeepWalk、LINE、SDNE、LLE、GraRep、Diff2Vec和MMDW)和5种经典分类器(LR、NB、DT、SVM和MLP)组合而成。实验结果如图5所示。
图4展示了中心性指标算法的实验结果。这些基于指标的算法只能给出了节点的相对重要性,即只能给出用户重要性的排序,并没有直接对节点的重要性进行分类;因此实验引入参数Top-k,其含义是认为在根据中心性指标给出的节点重要性排序中的前Top-k个节点用户是重要用户。对Top-k参数进行范围在0~25909,间隔为10的均匀取值,求出对应的损失函数,并绘制出图4。
图5中展示了7种图嵌入算法与多层感知机分类器结合的组合模型。LR、NB、DT和SVM的参数选择都是基于Python语言的机器学习工具scikit-learn库中的默认设置;而多层感知机则设置为三层隐藏层,每层的维度均为2000。在通过图嵌入算法得到嵌入向量之后,实验选择使用SMOTE算法均衡化样本之后再将嵌入向量输入分类器,以确保实验结果尽量不受样本不均衡问题影响。
图6显示了本发明提出的新模型(New)和基线算法的实验结果对比。其中,图中X轴上的DW意为DeepWalk,DV意为Diff2Vec。从图6中可以看出,本发明提出的新模型的分类准确性显著好于基线算法,比最好的图嵌入算法提升了7.32%,比最好的中心性指标法提升了65.52%。
为了进一步验证新算法的优越性,本实验还统计了新模型和所有基线图嵌入算法在测试集中小入度节点和大入度节点中的表现,统计结果如表8和表9所示。在表8和表9中,小入度节点是指入度小于0.1×网络平均入度的点,大入度节点是指入度大于0.9×网络平均入度。
表8小入度节点在各算法下的分类情况
Figure BDA0003064185840000141
从表8中可以发现:(1)小入度节点数量众多,可以占据测试集中节点的61.7%,大部分为普通用户,但也有相当数量,且很难被准确识别;这也就表明,识别重要用户的关键在于识别小入度节点。(2)新算法对小入度节点的识别显著地好于其他图嵌入算法,在小度节点中,新算法的性能比表现最好的基线算法提升了约100%。
表9大入度节点在各算法下的分类情况
Figure BDA0003064185840000151
从表9中可以发现:
(1)大入度节点数量不多,仅占据全体节点的12.5%,重要用户和普通用户数量相当,且几乎所有算法对于大入度节点的识别都比较准确(损失函数>0.6),这表明大入度节点容易准确地被识别;
(2)新算法对大入度节点的识别准确率仍然是所有图嵌入算法中最高的。
此外,本实验探究了数据集中训练集和测试集比例对模型性能的影响,通过改变训练集占全体数据集的比例来测试四种加上对应最佳分类器的基线算法(DeepWalk+MLP、LINE+MLP、GraRep+SVM和Diff2Vec+SVM)以及新模型的性能,实验结果如图7所示。从图中可以看出新算法在训练集比例从0.1至0.9变化过程中基本保持分类效果不变,而DeepWalk等基线图嵌入算法都会有比较明显的上升,这说明新算法(本发明)具有较强的鲁棒性。
综上所述,本发明微博网络重要用户识别方法具有实现简单、识别精度高的优点。在实际的生产环境中,给定已有的微博网络(包括已知标签的用户和未知标签的用户),利用本发明能够识别未知标签的用户是否为重要用户,进而创造社会和经济价值。

Claims (8)

1.一种微博网络重要用户的识别方法,其特征在于,包括以下步骤:
S1、获取用户的初始嵌入向量;
S2、端对端地训练由全连接神经网络构建的嵌入层和分类器;
S3、将未知标签用户的初始嵌入向量输入训练后的嵌入层和分类器,得到未知标签用户的识别结果。
2.根据权利要求1所述的微博网络重要用户的识别方法,其特征在于,所述步骤S1具体为:
S1.1、以用户为节点,以用户之间的关系为有向边,以用户类型为节点标签,构建微博网络G=(V,E,L);
其中,用户类型包括重要用户和普通用户,V={v1,v2,...,vi,...,vN},V表示用户节点集合,vi表示第i个用户节点,i=1,2,...,N,N表示用户节点总数,E表示用户之间的关系集合,L={l1,l2,...,li,...,lN},L表示用户节点的标签集合,li表示与用户节点vi对应的用户标签;
S1.2、采集未知标签用户的集合为V',将微博网络更新为G'=(V,E,L-{li|vi∈V'});
S1.3、将微博网络作为关注网络,获取其邻接矩阵A为:
A=(aij)N×N∈{0,1}N×N
Figure FDA0003064185830000011
其中,aij表示关注网络邻接矩阵A中第i行第j列的元素,j=1,2,...,N;
S1.4、将微博网络作为粉丝网络,获取其邻接矩阵为AT,T表示转置;
S1.5、根据邻接矩阵AT,获取粉丝网络的邻接矩阵标签Bout为:
Bout=(bij)N×N
Figure FDA0003064185830000021
其中,aji表示粉丝网络的邻接矩阵AT中第i行第j列的元素,Ω+表示微博网络中已知标签的重要用户集合,Ω-表示微博网络中已知标签的普通用户集合,∧表示逻辑与,∨表示逻辑或。
S1.6、根据关注网络的邻接矩阵A和粉丝网络的邻接矩阵标签Bout,得到用户的初始嵌入向量矩阵X为:
X=A·Bout
S1.7、根据初始嵌入向量矩阵X,得到每个用户vi的嵌入向量Ei和属于重要用户的概率pi imp分别为:
Ei=Xi·W1+d1
pi imp=Sigmoid(ReLU(ReLU(ReLU(Ei·W2+d2)·W3+d3))·W4+d4)
其中,Sigmoid(*)表示Sigmoid函数,ReLU(*)表示线性整流函数,W1、W2、W3和W4分别表示第一至四层神经网络的权值矩阵,d1、d2、d3和d4分别表示第一至四层神经网络的偏置。
3.根据权利要求2所述的微博网络重要用户的识别方法,其特征在于,所述步骤S1.1中用户标签li具体为:
Figure FDA0003064185830000022
4.根据权利要求3所述的微博网络重要用户的识别方法,其特征在于,所述步骤S2具体为:
S2.1、构建损失函数;
S2.2、以损失函数最小为目标,采用梯度下降法和Adam优化器对由全连接神经网络构建的嵌入层和分类器进行端对端训练;
S2.3、判断已知标签的节点集合上的损失函数值是否收敛,若是,则训练完成,否则返回步骤S2.2。
5.根据权利要求4所述的微博网络重要用户的识别方法,其特征在于,所述步骤S2.1中损失函数具体为:
Figure FDA0003064185830000031
其中,|Ω+|表示集合Ω+中元素的总数,|Ω-|表示集合Ω-中元素的总数,pi imp表示用户vi被预测为重要用户的概率,即由全连接神经网络构建的分类器的输出;pi imp>0.5,则判定用户vi为重要用户。
6.根据权利要求4所述的微博网络重要用户的识别方法,其特征在于,所述步骤S2.3中损失函数值具体为:
Figure FDA0003064185830000032
Figure FDA0003064185830000033
Figure FDA0003064185830000034
其中,F1表示损失函数值,Recall表示第一中间参数,Prec表示第二中间参数,TP表示预测为正样本且实际也为正样本的数量,FN表示预测为负样本且实际也为负样本的数量,FP表示预测为负样本且实际为正样本的数量。
7.根据权利要求2所述的微博网络重要用户的识别方法,其特征在于,所述步骤S3具体为:
S3.1、将未知标签用户vk的初始嵌入向量Xk输入训练后的嵌入层得到嵌入向量Ek,并将嵌入向量输入分类器得到输出predk
S3.2、判断输出predk是否大于0.5,若是,则判定未知标签用户vk为重要用户,否则判定未知标签用户vk为普通用户。
8.根据权利要求7所述的微博网络重要用户的识别方法,其特征在于,所述步骤S3.1中的嵌入向量Ek和输出predk分别为:
Ek=Xk·W1+d1
predk=Sigmoid(ReLU(ReLU(ReLU(Ek·W2+d2)·W3+d3))·W4+d4)
其中,Xk是初始嵌入向量X的第i行,其表示未知标签用户vk的初始嵌入向量,Sigmoid(*)表示Sigmoid函数,ReLU(*)表示线性整流函数,W1、W2、W3和W4分别表示第一至四层神经网络的权值矩阵,d1、d2、d3和d4分别表示第一至四层神经网络的偏置。
CN202110521619.7A 2021-05-13 2021-05-13 一种微博网络重要用户的识别方法 Expired - Fee Related CN113159976B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110521619.7A CN113159976B (zh) 2021-05-13 2021-05-13 一种微博网络重要用户的识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110521619.7A CN113159976B (zh) 2021-05-13 2021-05-13 一种微博网络重要用户的识别方法

Publications (2)

Publication Number Publication Date
CN113159976A true CN113159976A (zh) 2021-07-23
CN113159976B CN113159976B (zh) 2022-05-24

Family

ID=76874828

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110521619.7A Expired - Fee Related CN113159976B (zh) 2021-05-13 2021-05-13 一种微博网络重要用户的识别方法

Country Status (1)

Country Link
CN (1) CN113159976B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114817757A (zh) * 2022-04-02 2022-07-29 广州大学 基于图卷积网络的跨社交网络虚拟身份关联方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330020A (zh) * 2017-06-20 2017-11-07 电子科技大学 一种基于结构和属性相似度的用户实体解析方法
CN108492200A (zh) * 2018-02-07 2018-09-04 中国科学院信息工程研究所 一种基于卷积神经网络的用户属性推断方法和装置
CN110457404A (zh) * 2019-08-19 2019-11-15 电子科技大学 基于复杂异质网络的社交媒体账户分类方法
CN111639696A (zh) * 2020-05-26 2020-09-08 北京邮电大学 一种用户分类方法及装置
CN112084335A (zh) * 2020-09-09 2020-12-15 电子科技大学 一种基于信息融合的社交媒体用户账号分类方法
CN112084418A (zh) * 2020-07-29 2020-12-15 浙江工业大学 一种基于邻居信息和属性网络表征学习的微博用户社团发现方法
CN112269922A (zh) * 2020-10-14 2021-01-26 西华大学 一种基于网络表示学习的社区舆论关键人物发现方法
US20210108939A1 (en) * 2020-12-22 2021-04-15 Nesreen K. Ahmed Personalized mobility as a service

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330020A (zh) * 2017-06-20 2017-11-07 电子科技大学 一种基于结构和属性相似度的用户实体解析方法
CN108492200A (zh) * 2018-02-07 2018-09-04 中国科学院信息工程研究所 一种基于卷积神经网络的用户属性推断方法和装置
CN110457404A (zh) * 2019-08-19 2019-11-15 电子科技大学 基于复杂异质网络的社交媒体账户分类方法
CN111639696A (zh) * 2020-05-26 2020-09-08 北京邮电大学 一种用户分类方法及装置
CN112084418A (zh) * 2020-07-29 2020-12-15 浙江工业大学 一种基于邻居信息和属性网络表征学习的微博用户社团发现方法
CN112084335A (zh) * 2020-09-09 2020-12-15 电子科技大学 一种基于信息融合的社交媒体用户账号分类方法
CN112269922A (zh) * 2020-10-14 2021-01-26 西华大学 一种基于网络表示学习的社区舆论关键人物发现方法
US20210108939A1 (en) * 2020-12-22 2021-04-15 Nesreen K. Ahmed Personalized mobility as a service

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
LIN, HAO 等: "Topic Detection from Short Text: A Term-based Consensus Clustering method", 《2016 13TH INTERNATIONAL CONFERENCE ON SERVICE SYSTEMS AND SERVICE MANAGEMENT》 *
RIZOS, GEORGIOS 等: "Multilabel user classification using the community structure of online networks", 《PLOS ONE》 *
WU, KE 等: "Network Classification Using Adjacency Matrix Embeddings and Deep Learning", 《PROCEEDINGS OF THE 2016 IEEE/ACM INTERNATIONAL CONFERENCE ON ADVANCES IN SOCIAL NETWORKS ANALYSIS AND MINING ASONAM 2016》 *
何鹏涛: "社交媒体用户识别方法研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *
刘震: "社交网络跨平台实体解析算法研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *
谢忠红 等: "基于内容和支撑向量基算法的微博用户识别和分类", 《金陵科技学院学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114817757A (zh) * 2022-04-02 2022-07-29 广州大学 基于图卷积网络的跨社交网络虚拟身份关联方法
CN114817757B (zh) * 2022-04-02 2023-07-21 广州大学 基于图卷积网络的跨社交网络虚拟身份关联方法

Also Published As

Publication number Publication date
CN113159976B (zh) 2022-05-24

Similar Documents

Publication Publication Date Title
Berahmand et al. A modified DeepWalk method for link prediction in attributed social network
CN112529168B (zh) 一种基于gcn的属性多层网络表示学习方法
Neville et al. Collective classification with relational dependency networks
Chen et al. General functional matrix factorization using gradient boosting
CN111737535B (zh) 一种基于元结构和图神经网络的网络表征学习方法
CN111382283B (zh) 资源类别标签标注方法、装置、计算机设备和存储介质
CN106708953A (zh) 基于离散粒子群优化的局部社区检测协同过滤推荐方法
Rajamohana et al. An effective hybrid cuckoo search with harmony search for review spam detection
Ma et al. Decomposition-based multiobjective evolutionary algorithm for community detection in dynamic social networks
CN112100372B (zh) 头版新闻预测分类方法
Pujari et al. Link prediction in complex networks by supervised rank aggregation
WO2023155508A1 (zh) 一种基于图卷积神经网络和知识库的论文相关性分析方法
CN116467666A (zh) 一种基于集成学习和主动学习的图异常检测方法和系统
Guo et al. Network representation learning based on community-aware and adaptive random walk for overlapping community detection
Li et al. Adaptive subgraph neural network with reinforced critical structure mining
CN113159976B (zh) 一种微博网络重要用户的识别方法
Khanduri et al. Hybrid recommendation system with graph based and collaborative filtering recommendation systems
Xu et al. Collective vertex classification using recursive neural network
CN114265954B (zh) 基于位置与结构信息的图表示学习方法
Xiao et al. Non-local attention learning on large heterogeneous information networks
Jyoti et al. A review on recommendation system and web usage data mining using k-nearest neighbor (knn) method
Najafabadi et al. An Effective Collaborative User Model Using Hybrid Clustering Recommendation Methods.
Nikolentzos et al. Can author collaboration reveal impact? the case of h-index
Hsieh et al. Toward an adaptive skip-Gram model for network representation learning
Ostrowski Predictive semantic social media analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220524