CN115330056A - 一种基于深度传播和广度传播的话题网络影响力用户预测方法 - Google Patents

一种基于深度传播和广度传播的话题网络影响力用户预测方法 Download PDF

Info

Publication number
CN115330056A
CN115330056A CN202210969348.6A CN202210969348A CN115330056A CN 115330056 A CN115330056 A CN 115330056A CN 202210969348 A CN202210969348 A CN 202210969348A CN 115330056 A CN115330056 A CN 115330056A
Authority
CN
China
Prior art keywords
user
propagation
topic network
topic
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210969348.6A
Other languages
English (en)
Inventor
肖云鹏
陈惠�
杨劲松
胡波建
李茜
庞育才
李暾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202210969348.6A priority Critical patent/CN115330056A/zh
Publication of CN115330056A publication Critical patent/CN115330056A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Primary Health Care (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于社交网络分析领域,具体涉及一种基于深度传播和广度传播的话题网络影响力用户预测方法;该方法包括:获取话题网络数据并进行预处理;根据预处理后的话题网络数据计算用户亲密度和用户可信度;根据用户亲密度和用户可信度优化DSU2vec算法;采用优化后的DSU2vec算法提取话题网络的隐藏信息,得到话题网络的深度传播特征向量矩阵;对话题网络进行社区划分,得到划分好的社区;采用图卷积神经网络提取社区节点的特征,得到话题网络的广度传播特征向量矩阵;采用多维度传播网络预测模型对深度传播特征向量矩阵和广度传播特征向量矩阵进行处理,得到话题网络影响力用户预测结果;本发明的预测结果准确性高,应用前景良好。

Description

一种基于深度传播和广度传播的话题网络影响力用户预测 方法
技术领域
本发明属于社交网络分析领域,具体涉及一种基于深度传播和广度传播的话题网络影响力用户预测方法。
背景技术
近年来,随着互联网的快速发展,社交网络不断膨胀扩大,人与人之间的交流日益频繁。各式各样的社交平台成为了人们交流的利器,与人们的生活紧密相关,目前主流的社交平台有微博、Twitter和Facebook,其中中国最大的社交平台是新浪微博。社交网络由大大小小的话题网络组成,一个话题网络中充斥着海量的用户和信息,这些复杂稠密的数据往往对于分析用户影响力有着巨大价值。所以,对于如何从纷繁复杂的数据中,获取到对分析影响力至关重要的信息成为了话题网络的关注点。
与此同时,分析关键用户影响力对于舆情控制、广告投放、灾害控制等方面起着重要作用。预测用户影响力目的其实是选出意见领袖,为影响力最大化做准备,准确的预判最有影响力的用户是话题扩散过程中最关键的一步。在这种背景下,研究话题网络用户影响力是有意义的。在传统影响力研究中,一般仅考虑了单一维度的话题传播方向,并未从深度和广度两个传播维度共同考量整个话题的传播态势。因此,从多个维度对话题用户行为进行分析,对于更好的研究用户影响力是很有必要的。
用户行为数据的分析是研究影响力的关键问题,目前,已有大批学者对用户影响力进行研究,但是目前大多数影响力研究的模型中,都忽略了对话题空间不同维度的考量,从而导致所得出的结论缺乏说服力。例如Han等人(Han M,Yan M,Cai Z,et al.Anexploration of broader influence maximization in timeliness networks withopportunistic selection[J].Journal of Network and Computer Applications,2016,63:39-49.)提出了基于时间延迟效应和广度扩散的影响力最大化模型,该模型考虑了话题传播随时间衰减的变化,但它仅把广度作为一个影响因素,并不能深层次挖掘广度传播网络下用户隐藏信息,且并未分析用户不同行为之间的差异性,将不同行为的边都看做的相同类型边,从而影响了最终的预测准确度。
发明内容
综合话题网络下用户影响力目前已有的研究情况,发现在预测用户影响力上仍然存在着一些挑战:
1.话题传播空间具有多维性。话题网络的传播方式不是单一的,不仅具有链式传播方式,还具有星型扩散传播方式。不能仅从单一传播维度对话题空间进行分析,需要结合话题的深度传播和广度传播综合分析,更全面的对节点进行表示分析。
2.话题网络结构具有复杂性。信息传播的级联长度代表了话题的传播深度,级联长度的不同使得传播空间结构更具复杂多样性。如何从复杂结构中挖掘用户之间的潜在关系是一个难点。
3.话题传播规模的不确定性。信息传播的社区数目反映了话题的传播广度,社区数量越多,说明话题影响范围越广。如果能考虑话题广度这个因素,可以提高用户影响力预测的准确度。
针对现有技术的不足,本发明提出了一种基于深度传播和广度传播的话题网络影响力用户预测方法,该方法包括:
S1:获取话题网络数据,对话题网络数据进行预处理;
S2:根据预处理后的话题网络数据计算用户亲密度和用户可信度;
S3:根据用户亲密度和用户可信度,定义DSU2vec算法的随机游走策略以优化DSU2vec算法;
S4:采用优化后的DSU2vec算法提取话题网络的隐藏信息,得到话题网络的深度传播特征向量矩阵;
S5:对话题网络进行社区划分,得到划分好的社区;
S6:采用图卷积神经网络提取社区节点的特征,得到话题网络的广度传播特征向量矩阵;
S7:采用多维度传播网络预测模型对深度传播特征向量矩阵和广度传播特征向量矩阵进行处理,得到话题网络影响力用户预测结果。
优选的,计算用户亲密度的公式为:
Figure BDA0003796094100000031
其中,Int(ui,uj)表示第i个用户ui与第j个用户uj之间的亲密度,Xi表示第i中交互方式的交互权重,Num[Interacti(ui,uj)]表示第i个用户ui和第j个用户uj在第i种交互方式下的总次数,Num[Interactiui]表示第i个用户ui与全网用户在第i种交互方式下的总次数,Num[Interactiuj]表示第j个用户uj与全网用户在第i种交互方式下的总次数。
优选的,计算用户可信度的公式为:
Cre(ui)=α·Num[Interact(ui)]+β·Num[Interacted(ui)]
其中,Cre(ui)表示第i个用户ui的可信度,α表示第一衰减系数,Num[Interact(ui)]表示第i个用户对其好友发布的消息进行互动的总数,β表示第二衰减系数,Num[Interacted(ui)]表示第i个用户ui发布的消息被好友互动的总数。
优选的,DSU2vec算法的随机游走策略为:
Figure BDA0003796094100000032
w(ui,uj)=Int(ui,uj)+ε
其中,P(uj|ui)表示用户节点ui到用户节点uj的转移概率,w(ui,uj)表示用户节点ui到用户节点uj的边权重,Cre(ui)表示第i个用户ui的可信度,z表示缩放因子,Int(ui,uj)表示第i个用户ui与第j个用户uj之间的亲密度,ε表示传播深度系数。
优选的,对话题网络进行社区划分的过程包括:根据话题网络数据计算用户节点的边相似度;根据边相似度融合相似度最高的两条边,形成社区;计算社区的划分密度值;不断融合相似度最高的两条,直到划分密度值最大,停止融合,得到划分好的社区。
进一步的,计算用户节点的边相似度的公式为:
Figure BDA0003796094100000041
其中,
Figure BDA0003796094100000042
表示边eik和边ejk的边相似度,
Figure BDA0003796094100000043
表示边eik和边ejk的边类型是否相同,Common表示用户节点ui与用户节点uj的邻居节点交集数,Number表示用户节点ui与用户节点uj的邻居节点并集数。
优选的,采用图卷积神经网络提取社区节点的特征的过程包括:
根据社区获取每个社区中用户的用户特征向量,根据用户特征向量得到用户特征矩阵;
根据社区获取社区的邻居矩阵和度矩阵;将每个社区的用户特征矩阵、邻居矩阵和度矩阵分别输入到图卷积神经网络中,得到话题网络的广度传播特征向量矩阵。
优选的,采用多维度传播网络预测模型对深度传播特征向量矩阵和广度传播特征向量矩阵进行处理的过程包括:
将深度传播特征向量矩阵和广度传播特征向量矩阵进行拼接,得到拼接矩阵;
采用注意力机制对拼接矩阵进行处理,得到注意力分布矩阵;
采用两层全连接层对注意力分布矩阵进行处理,得到话题网络影响力用户预测结果。
本发明的有益效果为:本发明从话题传播的深度和广度维度出发,分析不同维度下的用户行为,分别提取两个维度下的用户隐藏特征,并通过对两个维度的特征进行融合,得到了最终的话题网络影响力用户的预测结果;相比现有技术,本发明考虑了多维度下的用户隐藏信息的发现,从深度和广度两个维度挖掘用户隐藏信息,在两个维度上均考虑了用户不同行为带来的不同影响,提高了预测结果的准确性,相关舆情部门可利用预测结果对话题进行广泛传播或者抑制其传播。
附图说明
图1为本发明中基于深度传播和广度传播的话题网络影响力用户预测方法流程图;
图2为本发明中获取深度传播特征向量矩阵过程示意图
图3为本发明中获取广度传播特征向量矩阵过程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出了一种基于深度传播和广度传播的话题网络影响力用户预测方法,如图1所示,所述方法包括以下内容:
S1:获取话题网络数据,对话题网络数据进行预处理。
在线获取话题网络数据,获取话题网络数据主要有两种方式,一是从国内外公开数据集的网站上查找合适数据集下载使用,二是利用社交平台提供的公共API接口获取话题网络数据,话题网络数据主要包括话题网络下的用户基本信息数据和在话题生命周期内的交互行为数据;用户基本信息数据包括用户id,交互行为数据包括用户与其他用户形成的关注关系、回复关系、提及关系以及转发关系。
对话题网络数据进行预处理:直接获取的原始数据通常是非结构化的数据,不可以直接用于数据分析。需要通过简单的数据清洗,将非结构化数据结构化。例如,对原始话题网络数据进行删除空值和重复数据等操作,得到预处理后的话题网络数据。
S2:根据预处理后的话题网络数据计算用户亲密度和用户可信度。
在话题网络中,包括参与话题传播的所有用户节点,以及用户在传播话题中形成关系边,其中关系包括关注、提及、转发和回复;根据预处理后的话题网络数据对用户的相关属性进行提取,相关属性包括用户亲密度和用户可信度;
在话题网络中,用户之间的亲密程度能够有效衡量用户关系。用户亲密行为表现在用户之间的关注、转发、回复以及提及行为,一般情况下,用户之间交互越频繁,用户亲密度越高,计算用户亲密度的公式为:
Figure BDA0003796094100000061
其中,Int(ui,uj)表示第i个用户ui与第j个用户uj之间的亲密度;Xi表示第i中交互方式的交互权重,不同的交互关系交互权重不同,关系越亲密交互权重越高,优选的,本发明中提及、转发、回复和关注的交互权重分别为0.4、0.2、0.3、0.1;Num[Interacti(ui,uj)]表示第i个用户ui和第j个用户uj在第i种交互方式下的总次数,Num[Interactiui]表示第i个用户ui与全网用户在第i种交互方式下的总次数,Num[Interactiuj]表示第j个用户uj与全网用户在第i种交互方式下的总次数。
在话题网络中,存在着僵尸粉、水军等恶意用户,因此需要对用户进行辨别。同时,可信度越高的用户,在话题传播中作用越大,更有可能成为有影响力的用户;计算用户可信度的公式为:
Cre(ui)=α·Num[Interact(ui)]+β·Num[Interacted(ui)]
其中,Cre(ui)表示第i个用户ui的可信度,Num[Interact(ui)]表示第i个用户对其好友发布的消息进行互动的总数;α表示第一衰减系数,β表示第二衰减系数根据经验人为设定,α,β∈(0,1),优选的,α和β分别为0.6、0.8;α和β的值越小,用户ui的可信度越小,在话题传播过程的作用越小;反之,则作用越大;Num[Interacted(ui)]表示第i个用户ui发布的消息被好友互动的总数,互动包括被关注、被回复、被提及、被转发等行为互动。
S3:根据用户亲密度和用户可信度,定义DSU2vec算法的随机游走策略以优化DSU2vec算法。
针对话题深度传播,用户与用户之间的交互往往更偏向于纵向,形成链式传播,这种网络通常是亲朋好友之间的互动产生的。如图2所示,本发明针对深度传播网络下的节点关系提出了DSU2vec(深度空间用户向量表示)方法,以用户亲密度和传播深度为牵引力,将节点向量化,嵌入到低维稠密的向量空间中,挖掘节点之间的隐藏关系。
计算两相邻用户节点的边权重,计算公式为:
w(ui,uj)=Int(ui,uj)+ε
Figure BDA0003796094100000071
其中,ε表示传播深度系数,di表示用户节点ui继续传播话题说达到的深度。DSU2vec方法优化的目标函数为:
Figure BDA0003796094100000072
其中,
Figure BDA0003796094100000073
为顶点u嵌入向量的映射函数,Ns(u)为顶点u通过制定的游走策略S采样出来的近邻顶点集合,
Figure BDA0003796094100000074
表示顶点u近邻节点出现的概率。
为达到上述目标,本发明重新定义了DSU2vec算法随机游走的策略以优化DSU2vec算法,DSU2vec算法的随机游走策略为:
Figure BDA0003796094100000075
其中,P(uj|ui)表示用户节点ui到用户节点uj的转移概率,w(ui,uj)表示用户节点ui到用户节点uj的边权重,z表示缩放因子,取w(ui,uj)Cre(ui)的最大值,将转移概率缩放到(0,1)区间。
S4:采用优化后的DSU2vec算法提取话题网络的隐藏信息,得到话题网络的深度传播特征向量矩阵。
采用DSU2vec方法从传播深度的维度提取话题网络的隐藏信息,将节点向量化,嵌入到低维稠密的向量空间中,DSU2vec算法的输出表示为:
N=[n1,n2,n3,...,nK]
其中,N表示话题网络的深度传播特征向量矩阵,nk表示第k个用户节点的向量表示。
由于话题传播的深度影响范围并不意味着信息的广泛扩散,接下来从话题传播的广度维度出发,研究广度范围内的用户影响力。如图3所示,首先是将话题网络划分为不同的社区结构,得到节点所在社区的结构、数量、大小等基本属性,然后根据节点属性和社区网络结构,利用图卷积神经网络GCN对不同社区的用户节点进行特征表示。
S5:对话题网络进行社区划分,得到划分好的社区。
由于话题的广度传播范围与用户所在的社区信息紧密相关,本发明针对话题网络进行社区划分,并认为社交网络中存在的多个社区之间是相互重叠且具有关联性的,可能存在一些特殊的节点与多个社区连接紧密,这些节点应该属于多个社区;提出了MB-Link划分算法,具体过程如下:
MB-Link算法是一种重叠社区检测算法,采用聚集边的方式来划分社区。该算法基本思想是:计算重叠节点的各条相邻边之间的相似度,按照相似度的大小排序,合并相似度高的边,得到基于边划分的社区结构。
本发明将边的相似度定义成与用户的不同交互行为相关联,为不同的行为关系分配不同的权重,例如用户提及关系显然比用户关注关系说明两者之间更紧密,因此权重更高;根据话题网络数据计算用户节点的边相似度,计算用户节点的边相似度的公式为:
Figure BDA0003796094100000091
其中,
Figure BDA0003796094100000092
表示与共享同一用户节点的边eik和边ejk的边相似度;
Figure BDA0003796094100000093
表示边eik和边ejk的边类型是否相同,若不同,则
Figure BDA0003796094100000094
为0,若相同,则
Figure BDA0003796094100000095
的取值由关注、回复、转发、提及四种不同边类型的权重决定,优选的,关注、回复、转发和提及的权重分别取0.1、0.3、0.2、0.4;Common表示用户节点ui与用户节点uj的邻居节点交集数,定义为:
Common=n+(i)∩n+(j)
其中,n+(i)表示用户节点ui的所有邻居节点,n+(j)表示用户节点uj的所有邻居节点,用户节点ui与用户节点uj为与边eik和边ejk非共享的两节点。
Number表示用户节点ui与用户节点uj的邻居节点并集数,定义为:
Number=n+(i)∪n+(j)
根据边相似度融合相似度最高的两条边,形成社区;将划分密度作为划分质量的评判标准,当划分密度最大时,划分质量最好,假定话题网络中边数为M,节点数为K,定义C={C1,C2,...,Ce}为整个网络的一个社区划分结构,计算划分密度的公式为:
Figure BDA0003796094100000096
其中,mc表示第c个社区Cc中的边数量,kc表示第c个社区Cc中的用户节点数量。
不断融合相似度最高的两条,直到划分密度值最大,停止融合,得到划分好的社区。
S6:采用图卷积神经网络提取社区节点的特征,得到话题网络的广度传播特征向量矩阵;
广度传播网络的扩散范围与用户所在社区息息相关,根据社区获取每个社区中用户的用户特征向量,本发明采用节点所在社区个数、所在社区的大小以及节点间的连接数作为用户自身属性,单个用户特征向量表示为:
Sa={Numcommunity,Numsize,Numdegree}
根据用户特征向量得到用户特征矩阵,表示为:X=kc×Sa
本发明采用两层GCN模型对社区节点进行特征表示,充分考虑节点自身属性以及所在网络拓扑结构的相互作用,实现了对不同社区结构节点隐藏信息的挖掘。根据社区获取社区的邻居矩阵和度矩阵;将每个社区的用户特征矩阵X、邻居矩阵A和度矩阵D分别输入到GCN中,得到话题网络的广度传播特征向量矩阵,具体过程包括以下内容:
每层GCN模型的输出表示为:
Figure BDA0003796094100000101
其中,x取0或1,H(0)=X,即用户特征矩阵,σ表示非线性激活函数;W(x)表示第x+1层的权重矩阵,上一层的输出就是下一层的输入;优选的,本发明σ为ReLu激活函数时,第一层的输出结果为:
Figure BDA0003796094100000102
Figure BDA0003796094100000103
其中,
Figure BDA0003796094100000104
表示度矩阵的平均化处理,
Figure BDA0003796094100000105
是归一化处理后的邻接矩阵,平衡节点之间的影响程度,
Figure BDA0003796094100000106
I为对角矩阵。
对每个社区均进行上述处理,对于同时处于多个社区的节点的向量表示,采用取平均值的方式获得这些节点的向量表示,将GCN模型的最终输出即节点的向量表示合并,得到话题网络的广度传播特征向量矩阵W=[w1,w2,w3,...,wK]。
S7:采用多维度传播网络预测模型对深度传播特征向量矩阵和广度传播特征向量矩阵进行处理,得到话题网络影响力用户预测结果。
本发明利用注意力机制融合两个传播方向网络的节点向量表示,提出了多维度传播网络预测模型。将最终的用户影响力预测定义为一个二分类问题,即该用户是否具有影响力。
采用多维度传播网络预测模型对深度传播特征向量矩阵和广度传播特征向量矩阵进行处理的过程包括:
将深度传播特征向量矩阵和广度传播特征向量矩阵进行拼接,得到拼接矩阵;
首先将深度传播的节点特征即深度传播特征向量矩阵N=[n1,n2,n3,...,nK]和广度传播的节点特征即广度传播特征向量矩阵W=[w1,w2,w3,...,wK]进行拼接,即
Figure BDA0003796094100000111
考虑到注意力机制能够自动权衡每个输入的重要程度,减少单一传播路径对用户预测的影响,因此使用注意力机制融合多传播维度的节点特征;采用注意力机制对拼接后得到的拼接矩阵P进行处理,得到注意力分布矩阵R=[r1,r2,r3,...,rK],其中,ri,i∈[1,K]的计算公式为:
Figure BDA0003796094100000112
Figure BDA0003796094100000113
其中,q表示查询向量,由输入信息决定,Q表示输入维度,K表示输入信息的最大索引。
采用两层全连接层对注意力分布矩阵进行处理,得到话题网络影响力用户预测结果;具体的:
采用两层全连接层对注意力机制的结果进行降维处理,并进一步综合向量信息,利用sigmoid函数得到最终的二分类结果。第二层每个用户节点对应的输出为一维的向量,一维向量有两个取值,0和1,0表示无影响力,1表示有影响力,输出的结果可表示为:
Y=dK
Y的结果有两个类别,Y=1表示该用户为有影响力用户,Y=0表示该用户为非影响力用户。
sigmoid函数映射用户影响力的概率值即用户是否为影响力用户的概率为:
Figure BDA0003796094100000121
其中,B表示全连接层输出的用户嵌入。
通过对用户影响力的预测结果可筛选出对话题传播具有大影响力的用户,舆情部分可通过对这类用户的鼓励或限制来控制话题的整体传播传播态势,实现对目标话题的加速传播或对目标话题的快速抑制。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于深度传播和广度传播的话题网络影响力用户预测方法,其特征在于,包括:
S1:获取话题网络数据,对话题网络数据进行预处理;
S2:根据预处理后的话题网络数据计算用户亲密度和用户可信度;
S3:根据用户亲密度和用户可信度,定义DSU2vec算法的随机游走策略以优化DSU2vec算法;
S4:采用优化后的DSU2vec算法提取话题网络的隐藏信息,得到话题网络的深度传播特征向量矩阵;
S5:对话题网络进行社区划分,得到划分好的社区;
S6:采用图卷积神经网络提取社区节点的特征,得到话题网络的广度传播特征向量矩阵;
S7:采用多维度传播网络预测模型对深度传播特征向量矩阵和广度传播特征向量矩阵进行处理,得到话题网络影响力用户预测结果。
2.根据权利要求1所述的一种基于深度传播和广度传播的话题网络影响力用户预测方法,其特征在于,计算用户亲密度的公式为:
Figure FDA0003796094090000011
其中,Int(ui,uj)表示第i个用户ui与第j个用户uj之间的亲密度,Xi表示第i中交互方式的交互权重,Num[Interacti(ui,uj)]表示第i个用户ui和第j个用户uj在第i种交互方式下的总次数,Num[Interactiui]表示第i个用户ui与全网用户在第i种交互方式下的总次数,Num[Interactiuj]表示第j个用户uj与全网用户在第i种交互方式下的总次数。
3.根据权利要求1所述的一种基于深度传播和广度传播的话题网络影响力用户预测方法,其特征在于,计算用户可信度的公式为:
Cre(ui)=α·Num[Interact(ui)]+β·Num[Interacted(ui)]
其中,Cre(ui)表示第i个用户ui的可信度,α表示第一衰减系数,Num[Interact(ui)]表示第i个用户对其好友发布的消息进行互动的总数,β表示第二衰减系数,Num[Interacted(ui)]表示第i个用户ui发布的消息被好友互动的总数。
4.根据权利要求1所述的一种基于深度传播和广度传播的话题网络影响力用户预测方法,其特征在于,DSU2vec算法的随机游走策略为:
Figure FDA0003796094090000021
w(ui,uj)=Int(ui,uj)+ε
其中,P(uj|ui)表示用户节点ui到用户节点uj的转移概率,w(ui,uj)表示用户节点ui到用户节点uj的边权重,Cre(ui)表示第i个用户ui的可信度,z表示缩放因子,Int(ui,uj)表示第i个用户ui与第j个用户uj之间的亲密度,ε表示传播深度系数。
5.根据权利要求1所述的一种基于深度传播和广度传播的话题网络影响力用户预测方法,其特征在于,对话题网络进行社区划分的过程包括:根据话题网络数据计算用户节点的边相似度;根据边相似度融合相似度最高的两条边,形成社区;计算社区的划分密度值;不断融合相似度最高的两条,直到划分密度值最大,停止融合,得到划分好的社区。
6.根据权利要求5所述的一种基于深度传播和广度传播的话题网络影响力用户预测方法,其特征在于,计算用户节点的边相似度的公式为:
Figure FDA0003796094090000022
其中,
Figure FDA0003796094090000023
表示边eik和边ejk的边相似度,
Figure FDA0003796094090000024
表示边eik和边ejk的边类型是否相同,Common表示用户节点ui与用户节点uj的邻居节点交集数,Number表示用户节点ui与用户节点uj的邻居节点并集数。
7.根据权利要求1所述的一种基于深度传播和广度传播的话题网络影响力用户预测方法,其特征在于,采用图卷积神经网络提取社区节点的特征的过程包括:
根据社区获取每个社区中用户的用户特征向量,根据用户特征向量得到用户特征矩阵;
根据社区获取社区的邻居矩阵和度矩阵;将每个社区的用户特征矩阵、邻居矩阵和度矩阵分别输入到图卷积神经网络中,得到话题网络的广度传播特征向量矩阵。
8.根据权利要求1所述的一种基于深度传播和广度传播的话题网络影响力用户预测方法,其特征在于,采用多维度传播网络预测模型对深度传播特征向量矩阵和广度传播特征向量矩阵进行处理的过程包括:
将深度传播特征向量矩阵和广度传播特征向量矩阵进行拼接,得到拼接矩阵;
采用注意力机制对拼接矩阵进行处理,得到注意力分布矩阵;
采用两层全连接层对注意力分布矩阵进行处理,得到话题网络影响力用户预测结果。
CN202210969348.6A 2022-08-12 2022-08-12 一种基于深度传播和广度传播的话题网络影响力用户预测方法 Pending CN115330056A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210969348.6A CN115330056A (zh) 2022-08-12 2022-08-12 一种基于深度传播和广度传播的话题网络影响力用户预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210969348.6A CN115330056A (zh) 2022-08-12 2022-08-12 一种基于深度传播和广度传播的话题网络影响力用户预测方法

Publications (1)

Publication Number Publication Date
CN115330056A true CN115330056A (zh) 2022-11-11

Family

ID=83922828

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210969348.6A Pending CN115330056A (zh) 2022-08-12 2022-08-12 一种基于深度传播和广度传播的话题网络影响力用户预测方法

Country Status (1)

Country Link
CN (1) CN115330056A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116822727A (zh) * 2023-06-16 2023-09-29 深圳慧锐通智能技术股份有限公司 一种基于智慧社区云平台的精细化社区管理方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116822727A (zh) * 2023-06-16 2023-09-29 深圳慧锐通智能技术股份有限公司 一种基于智慧社区云平台的精细化社区管理方法及装置
CN116822727B (zh) * 2023-06-16 2024-03-22 深圳慧锐通智能技术股份有限公司 一种基于智慧社区云平台的精细化社区管理方法及装置

Similar Documents

Publication Publication Date Title
Xiong et al. An emotional contagion model for heterogeneous social media with multiple behaviors
Nettleton Data mining of social networks represented as graphs
Song et al. Influence maximization on large-scale mobile social network: a divide-and-conquer method
CN107341571B (zh) 一种基于量化社会影响力的社交网络用户行为预测方法
CN110825948B (zh) 基于促谣-辟谣消息和表示学习的谣言传播控制方法
CN103136267B (zh) 一种基于社区的专家挖掘方法与装置
CN111125453A (zh) 基于子图同构的社交网络中意见领袖角色识别方法及存储介质
CN109921921B (zh) 一种时变网络中时效稳定社团的检测方法和装置
Cao et al. Collusion-aware detection of review spammers in location based social networks
CN105183743A (zh) 一种微博舆情传播范围预测的方法
CN115330056A (zh) 一种基于深度传播和广度传播的话题网络影响力用户预测方法
CN115660147A (zh) 一种基于传播路径间与传播路径内影响力建模的信息传播预测方法及系统
Zhang et al. Tweetscore: Scoring tweets via social attribute relationships for twitter spammer detection
CN108628936B (zh) 一种结合用户重叠行为的微博重叠社团划分方法
CN110990716A (zh) 基于影响力最大化的抑制虚假消息传播方法
Wu et al. Weighted local naive Bayes link prediction
Neumann et al. Does AI-Assisted Fact-Checking Disproportionately Benefit Majority Groups Online?
Liu et al. From strangers to neighbors: Link prediction in microblogs using social distance game
Khanday et al. A comparative analysis of identifying influential users in online social networks
Yadav et al. Hybrid feature-based approach for recommending friends in social networking systems
Aldabobi et al. An improved Louvain algorithm based on Node importance for Community detection
CN112685614B (zh) 一种社交媒体机器人群体快速检测方法
Kumar et al. Real-time analysis and visualization of online social media dynamics
Khodadadi et al. Discovering the maximum k-clique on social networks using bat optimization algorithm
Pachaury et al. Link prediction method using topological features and ensemble model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination