CN116955846A - 融合主题特征和交叉注意力的级联信息传播预测方法 - Google Patents

融合主题特征和交叉注意力的级联信息传播预测方法 Download PDF

Info

Publication number
CN116955846A
CN116955846A CN202310895049.7A CN202310895049A CN116955846A CN 116955846 A CN116955846 A CN 116955846A CN 202310895049 A CN202310895049 A CN 202310895049A CN 116955846 A CN116955846 A CN 116955846A
Authority
CN
China
Prior art keywords
cascade
representing
representation
user
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310895049.7A
Other languages
English (en)
Other versions
CN116955846B (zh
Inventor
刘小洋
王浩田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Technology
Original Assignee
Chongqing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Technology filed Critical Chongqing University of Technology
Priority to CN202310895049.7A priority Critical patent/CN116955846B/zh
Publication of CN116955846A publication Critical patent/CN116955846A/zh
Application granted granted Critical
Publication of CN116955846B publication Critical patent/CN116955846B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种融合主题特征和交叉注意力的级联信息传播预测方法,包括如下步骤:S1,根据级联信息间的差异性进行不同主题特征的划分,并对不同主题特征进行特征提取;S2,根据交叉注意力机制融合用户表示和级联表示以学习特征表达;S3,得到预测结果。本发明根据级联信息之间的异同,并且进行区分处理,提取不同信息的主特征值,使得更好预测信息级联扩散。

Description

融合主题特征和交叉注意力的级联信息传播预测方法
技术领域
本发明涉及信息传播预测技术领域,具体涉及融合主题特征和交叉注意力的级联信息传播预测方法。
背景技术
社交网络是当今互联网上最具代表性的应用之一,其用户数已经超过了数十亿。在这个平台上,人们可以与他人保持联系、分享信息,还可以形成巨大的社交网络。信息传播和交流是其中最重要的功能之一,因此信息传播和信息级联预测在社交网络中逐渐受到广泛关注。
信息级联预测任务是指在社交网络中,预测一条信息在经过多少次转发或分享之后,会被多少用户接收到。在社交网络上,这个任务具有重要的意义,可以帮助人们更好地理解信息在网络中的传播机制,预测一个信息是否会成为热门话题,以及针对热门话题开展相应的营销活动等等。在信息级联预测任务中,通常需要考虑的因素包括信息本身的特征,社交网络结构,用户属性等等。例如,在社交网络中,转发者的影响力和用户的社交联系等因素可以影响信息的传播速度和规模。此外,网络拓扑结构的复杂性和社交网络中存在的社区结构等因素也会影响信息的传播机制和级联效应。在实践上,信息级联预测任务对于广告营销、舆论监测与控制、社交推荐等领域举足轻重的地位。
通常,针对社交网络的信息级联的研究方法主要有基于特征方法的级联预测、基于生成方法的级联预测和基于深度学习的级联预测。早期的研究人员基本都是记录特征方法来研究信息级联预测问题,通常从节点属性、网络结构和级联特征等方面提取特征。彼时的研究往往集中在扩散序列或者社交网络拓扑关系来进行扩散预测。但特征手动提取不仅繁琐而且经常会遇到难以处理的具有高稀疏性和多噪声的数据,另一方面该方法也无法获取用户之间的特定偏好,以及级联信息之间的相关性。随之而来,研究人员利用基于影响力传播模型的生成方法来对信息级联传播进行建模,使用贝叶斯推断或最大似然估计方法进行参数估计和预测。该方法的优点是能够模拟信息级联传播的过程,预测准确率较高。但该方法所基于的传播机制模型需要预先人工设定,在现实世界中往往与之有很大偏差,并不能实现一种端到端的解决方案。鉴于此,深度学习的兴起,使得图表示学习在信息级联预测任务上风生水起。例如Wang等优化了LSTM(长短期记忆人工神经网络)的模型结构,使之更符合信息传播扩散的网络拓扑;Wang等注意到信息的扩散路径更贴近树状结构,因此在基于RNN(循环神经网络)的模型之上观察序列的交叉依赖关系。近年来学者们注意到用户的社交关系对其发布信息的传播扩散有着明显的影响,于是社交网络图被频繁引入到信息级联预测任务中来,这背后的逻辑是,有着朋友关系的两个人往往趋于有共同的兴趣爱好,因而具有高概率传播相同信息。例如,Yuan等将社交网络图和信息级联图构造成异质图的形式,Sun等又在此基础上提出MS-HGAT利用记忆力增强的方式来实现级联信息的全局依赖表达。
发明内容
本发明旨在至少解决现有技术中存在的技术问题,为了实现本发明的上述目的,本发明提供了融合主题特征和交叉注意力的级联信息传播预测方法,包括如下步骤:
S0,选取Twitter(推特)数据信息;
S1,将Twitter数据信息根据级联信息间的差异性进行不同主题特征的划分,并对不同主题特征进行特征提取;
S2,根据交叉注意力机制融合用户表示和级联表示以学习特征表达;
S3,得到预测结果。
在本发明的一种优选实施方式,在步骤S1之前包括对社交属性进行学习,对其社交属性进行学习的方法为:
给定一个社交关系图Gf=(U,E),将其通过一个多层的GCN来学习其偏好表示,公式如下表示:
其中,表示经过l+1层GCN的学习之后获得的用户表示;
σ()表示RelU激活函数;
Df表示友谊图的度矩阵,两个起到归一化作用;
表示邻接矩阵Af和单位矩阵I的和,即/>
表示表示经过l层GCN的学习之后获得的用户表示;
Wf表示一个可学习的第七转换矩阵。
在本发明的一种优选实施方式,在步骤S1中级联信息的时序表达包括以下步骤:
S11,给定一个传播级联子图学习过程如下:
其中,表示经过l+1层HGAT学习所得的级联表示;
σ()表示RelU激活函数;
表示在超边/>上的用户;
表示在时刻t某级联信息j对应的超边,也即传播级联子图/>中的某个级联j;
表示在某个传播级联子图/>中用户ui和用户uj之间的注意力系数;
W1表示第一权重矩阵;
表示通过一层HGAT学习之后的用户表示;
表示通过l+1层HGAT学习之后的用户表示;
σ()表示RelU激活函数;
表示在时刻t某级联信息j对应的超边,也即传播级联子图/>中的某个级联j;
表示超边集合;
W2表示第二权重矩阵;
表示通过l+1层HGAT学习之后的超边表示;
表示通过l+1层HGAT学习之后的超边表示的进一步更新,作为最后的学习结果;
σ()表示RelU激活函数;
表示在超边/>上的用户;
表示在时刻t某级联信息j对应的超边;
表示在某个传播级联子图/>中用户ui和用户uj之间的注意力系数;
W3表示第三权重矩阵;
表示通过l+1层学习之后的用户表示;
S12,每个时刻t的传播级联子图通过HGAT学习到用户表达集合Ut和级联表达Ot,将此二者作为一个二元组存放成一个供查询的列表,具体公式如下:
其中,R表示字典列表;
表示将时刻点t作为字典key值/>并将学习到的Ut和Ot作为一条记录并保存起来,该步骤的后续再通过与/>对比大小,查找出相应时间间隔的用户表达和级联表达,/>表示字典key值,(,)表示二元组;
Ut表示在时刻t基于传播级子图学习到的用户表达集合;
Ot表示在时刻t基于传播级子图学习到的级联表达;
T表示总共的时间戳的数目。
在本发明的一种优选实施方式,在步骤S1中对主题特征分类提取的方法包括以下步骤:
S1-1,采用多层的HGCN对级联信息的表达进行学习以得到超边的表示,仅在最后一层的HGCN表达中,利用HT和Xl相乘得到相应的超边表示,也即E=HTXl,具体公式如下:
Xl+1表示通过l+1层HGCN学习之后的用户表示;
σ()表示RelU激活函数;
Dv表示顶点度矩阵,表示度矩阵Dv的负半平方根;
H是超图邻接矩阵表示;
Wd是可学习的权重矩阵;
De是边度矩阵,表示边度矩阵De的负平方根;
HT表示H的转置;
Xl是在l层HGCN学习到的节点表示;
θl为一个特征映射参数;
S1-2,将学习得到的级联构成一个级联主题池,即将级联集合划分为n个不同的主题区间,把n设置为一个超参数,随后在各自的主题区间内对级联信息进行聚类操作来调整相应的超边表示,以为不同的主题信息萃取出主题特征,具体过程如下:
T=cluster(E,n),………(8)
T为聚类之后主题列表集合;
cluster()表示聚类操作;
E表示利用HT和Xl相乘得到相应的超边表示;
n表示定义的超参数,也即聚类之后形成的主题数量。
在本发明的一种优选实施方式,在步骤S1之后还包括对主题特征和级联特征进行查找和增强,对主题特征和级联特征进行查找和增强的方法包括以下步骤:
S1a,对级联信息在时序传播列表中查找其对应的时间区间,提取相应的用户表示Zm和超边表示Dm,t,具体公式如下:
Zm,Dm,t=lookup(cm,R),………(9)
其中,Zm,Dm,t表示在空间R中查询到Zm和Dm,t,其中Zm表示在级联信息cm中查询到的用户表示,Dm,t表示在时刻t查询到的级联表示;
lookup()表示目标级联信息cm去查询列表M中的相应时间间隔学习到的特征表示;
cm表示级联信息;
R表示字典列表;
S1b,利用超边表示Dm,t在主题列表中通过线性搜索查找对应的主题特征,具体公式如下:
Tm,t=lookup(Dm,t,T),………(10)
其中,Tm,t表示通过查询得到Dm,t所属的级联主题;
lookup()表示查询主题列表中的主题特征表示;
Dm,t表示在时刻t查询到的级联表示;
T表示主题特征集合;
S1c,利用主题特征进行特征增强,具体公式如下:
Dm表示融合主题特征之后的级联表达;
gT1表示级联表示和主题特征之间的相关系数;
Tm,t表示通过查询得到Dm,t所属的级联主题。
在本发明的一种优选实施方式,在步骤S2中根据交叉注意力机制融合用户表示和级联表示以学习特征表达的方法包括以下步骤:
S21,对用户表示Zm和级联表达Dm进行注意力计算,学习内在特征,具体公式如下:
其中,Att()表示注意力机
softmax()表示可以将一组数值转换为表示各个选项概率的分布的映射函数;
Q,K,V分别表示公式(14)的三个参数;
KT表示K的转置矩阵;
d是embedding的维度;
H*是多头注意力的头数;
Mmask表示mask矩阵掩盖之前已经被激活的用户节点;
hi=Att(ZmWi Q,ZmWi K,ZmWi V),………(14)
其中,hi表示多头注意力中的第i头;
Att()表示注意力计算机制;
Zm表示在级联信息cm中查询到的用户表示;
Wi Q为可学习的第一转换矩阵;
Wi K为可学习的第二转换矩阵;
Wi V为可学习的第三转换矩阵;
h表示最终通过注意力机制学习到的特征表示;
[]表示拼接操作;
H*是多头注意力的头数;
WO为可学习的第四转换矩阵;
Z′m=σ(hW5+b1)W6+b2,………(16)
其中,Z′m表示经过拼接学习后的用户表达;
σ()表示RelU激活函数;
h表示通过注意力机制学习到的特征表示;
W5表示可学习的第五转换矩阵;
b1表示第一偏置参数;
W6表示可学习的第六转换矩阵;
b2表示第二偏置参数;
S22,对用户表示Zm和级联表达Dm进行交叉注意力计算,互相学习特征,具体公式如下:
其中,hi表示多头注意力中的第i头;
Att()表示单个头中Attention机制算法;
Zm表示在级联信息cm中查询到的用户表示;
表示第i头中的转换矩阵,用以将特征转换为相应的Q值;
Dm表示融合主题特征之后的级联表达;
表示第i头中的转换矩阵,用以将特征转换为相应的K值;
表示第i头中的转换矩阵,用以将特征转换为相应的V值;
S23,将经过交叉注意力机制进行自学习之后的Z″m和D″m特征通过门控机制融合,具体公式如下:
其中,Pm表示融合后的特征表示;
表示一个[0-1]的权重系数;
D″m表示交叉注意力机制进行自学习所得的级联表示;
Z″m表示交叉注意力机制进行自学习所得的用户表示。
将融合后的特征表示Pm通过一个全连接层来计算最终用户“感染”的概率,具体公式如下:
表示用户“感染”的概率;
softmax()表示可以将一组数值转换为表示各个选项概率的分布的映射函数;
Wp表示第四转换矩阵;
Pm表示融合后的特征表示;
Mmask表示mask矩阵掩盖之前已经被激活的用户节点。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
首次提出并应用主题思想,注意到级联信息之间的异同,并且进行区分处理,提取不同信息的主特征值,使得更好预测信息级联扩散。
率先采用交叉注意力的方式,分别从用户层面学习级联表示,也从级联层面学习用户表示,使得二者之间本身就存在的相关性更大程度被利用,丰富最终的用户表示信息。
最终为了验证Topic-HGAT算法的有效性和鲁棒性,我们在四个常见的级联信息扩散数据集上与最先进的预测模型进行比较,并在Hits@100和MAP@100等指标上有可观的提升效果。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明的不同主题消息和用户转发偏好关系示意图。
图2是本发明Topic-HGAT模型总体框架示意图。
图3是本发明主题类别个数分别对4个不同数据集上的影响示意图。
图4是本发明交叉注意力中多头注意力的头数对模型效果的影响示意图。
图5是本发明的流程示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
信息级联预测是社交网络分析领域中非常重要的任务,在以往的研究中,通常只关注了用户的社交关系对级联信息传播的影响,从而忽略了由于级联信息本身的特性而产生的差异性,从而限制了预测结果的性能。针对现有的问题,我们提出了一种名为Topic-HGAT的新型级联信息传播预测模型。首先,它从级联信息角度出发,基于其差异性进行划分,形成不同的主题特征,并对不同主题特征进行特征提取,以此来增强学习到的级联信息表示。为了更好实现此方法,我们采用超图这一数据形式来更好地表征级联信息,并且按照时间流程,划分为若干个子传播超图来进行动态学习;其次,我们引入交叉注意力机制分别从用户表示和级联表示自身的角度学习对方的特征表达,以此来实现二者特征的深度融合,从而解决了以往的研究中仅仅简单地对学习到的用户表示和级联表示分别进行自注意力计算而产生的特征融合效果不佳的问题;最后,在Twitter、Douban等四个真实数据集上进行了对比论证验证。实验结果表明:相较于经典的MS-HGAT等8种基线模型,提出的Topic-HGAT模型在Hits@k和MAP@k两个度量指标上都有提升,其中在Twitter和Douban数据集上最为明显,其在Hits@100和MAP@100指标上分别提升2.24%,2.91%和1.36%,1.12%较MS-HGAT模型,表明提出的Topic-HGAT模型的合理的、有效的。
如图5所示,本发明公开了融合主题特征和交叉注意力的级联信息传播预测方法,具体包括如下步骤:
S1,根据级联信息间的差异性进行不同主题特征的划分,并对不同主题特征进行特征提取;
S2,根据交叉注意力机制融合用户表示和级联表示以学习特征表达;
S3,得到预测结果。
1相关工作
1.1信息传播预测
研究动机:以上研究都没有在级联层面上宏观地表示级联之间地相似性和差异性,在不同的级联信息数据中区分出不同类型的消息是及其重要的,它将有助于我们对于将要预测的信息的偏好信息的补充,不同主题消息和用户转发的影响如图1所示,在某信息传播平台上有音乐、体育、军事三类信息同时传播,其传播路径分别为(u8,u2,u3,u5),(u1,u2,u3,u4),(u8,u7,u6,u5),由图上我们可以看出不同的信息对应着不同用户的偏好习惯,假如用户u8此时转发一条军事类信息,同样接收到这条信息的u2,u5,u7三人中由于用户偏好不同,往往u7转发该消息的可能性最大。
信息传播预测任务,主要是基于先前的信息级联传播路径,来提取相关的传播特性并依据此特性推测在未来△t时间之内信息的传播趋势和偏好。在先前的研究中,学这往往依据内容、用户、结构、时间等四个方面,进行特征工程,来进行人工的特征提取进而实现对预测任务的助益。但很明显,此种方法需要极大的人工成本,而且在大规模的网络结构图计算效率十分低下。随后基于社交网络中用户生成内容的传播过程,通过建立模型来演化信息的增长,来实现信息流行度的预测。此类生成方法不仅是宏观层面上描述级联随时间演变的分布状况,还在微观层面上根据信息的传播交互行为的随机过程建模。但是遇到的瓶颈是预测的准确率,并且许多模型的构建是基于部分特定的场景,对不同场景的泛化能力比较差。后来随着图神经网络的发展,以其端到端的优秀系统构造,迅速成为在信息传播预测中的宠儿。DeepCas是第一个基于图表示学习的方法,用于建模和预测信息级联的流行度,它利用随机游走对级联图进行采样,然后将采样的节点序列输入到双向门控循环单元(Bi-GRU)和注意力机制中,以获得节点embedding。DeepDiffuse(DeepDiffuse表示网络深扩散)利用表示学习和注意力机制来学习时序关系。Topo-LSTM注意到级联传播图的结构信息,通过拓扑递归的方式建模动态有向无环图(DAG)来利用神经网络对级联传播的预测。SNIDSA利用注意力机制捕获用户之间的结构依赖关系,并以此作为用户扩散的上下文信息,融入到RNN神经网络的序列信息中。FOREST和Inf-VAE通过嵌入用户社交关系图来增强对用户embedding的属性使得加强了预测,但此时的社交关系图被当作静态的,无法很好的捕捉用户的动态偏好。DyHGCN首次采用异质图的方式,将用户社交关系图和传播级联图进行融合形成异质图,从而去学习用户的动态偏好,但这种方式的效果有限。但以上的方法都很少从级联角度去考虑级联信息之间的差异性和相关性,我们融入主题划分机制,对级联信息进行不同类型的划分,并赋予其主题特征,以此来增强需要预测的级联序列,从而提升预测效率。
1.2图神经网络和超图神经网络
超图神经网络源于图神经网络。在2017年图神经网络加入神经网络模型的大家族之后,就广泛应用于非结构数据—图的学习中,而且通常是高效的。GCN借鉴CNN(CNN表示卷积神经网络)中的卷积操作,并将其推广到图结构中,使得节点能够更好汇聚其邻居节点的信息。GraphSage将mini-batch(mini-batch表示梯度下降)的思想用到了节点嵌入当中去,使得值只进行部分邻居节点采样,对于大规模图数据学习更友好。GAT(图形注意力网络)在学习节点嵌入的过程中,着重考虑了来自不同邻居的信息的重要性程度,即赋给不同邻居节点以不同的权重。在信息预测方面,通常将级联信息藐视为动态时间序列,以此来利用递归神经网络RNNs来进行建模和学习其扩散过程,例如NDM在图卷积神经网络和自主力机制的基础上构建微观级联预测模型,在RNN的基础上,SIDDA也在微观层面上创造性地引入了解纠缠表示学习的思想,利用序列注意力模块和解纠缠注意力模块来学习历史信息。
超图作为一种特殊的图结构,它使得边结构和节点结构实现一对多的构造方式,对于数据中的组群效应的描述起到很好的效果。Feng等利用图拉普拉斯算子的切比雪夫展开构造一种图神经网络,随后Bai等将超图和神经网络的深度结合,提出HGCN(超图卷积神经网络)和HGAT(超图注意力神经网络)模型,使得在处理图结构数据的时候有另外一种思路进行卷积操作。MS-HGAT构造了传播级联超图,使得更好的学习用户的动态偏好。我们首次引入主题概念,对级联信息预测模型进行优化改进。
1.3基于Attention机制的信息级联预测
随着2014年Attention机制被提出,它便逐渐在各个领域显示出强大的能力。Bahdanau等提出一种含有编码器-解码器框架的注意力机制,实现对于机器翻译的更高的准确率。随后Luong等在此基础上为了更好的捕捉序列中的上下文信息,提出一种双向循环网络模型(BiRNN),而且提出了一种基于CNN的词级别注意力机制。Vaswani等摒弃传统循环神经网络或卷积神经网络,完全基于自注意力机制和前馈神经网络,使用“多头注意力机制”,不仅减少训练成本,而且同时关注输入序列的不同部分。Devlin等又在Transformer的基础上通过掩码技术提出一种预训练模型,使得大规模文本语料训练的效率更高。
Attention机制的优秀性能使得其在级联信息传播领域也有十分广泛的应用,如上述的NDM利用多头注意力机制来捕获用户之间的相互依赖关系,Inf-VAE则在多头注意力的基础上融合社交网络中的同质性和用户影响力等信息来更好的预测用户节点的转化情况,除此之外,HiDAN通过一种多层的注意力网络,选择性关注不同层次节点,使得可以很好的将时间衰减融入到预测模型中。HID提出一种层次多尺度表示学习的模型,在多层注意力的基础上,关注到不同层次的权重系数,以更好捕捉节点之间的关系。TAN将主题机制和注意力机制融合来分析用户之间的潜在语义,增强用户节点之间的关系。在其他模型中,也时常利用注意力机制进行特征学习,特征融合等工作。本发明专利中则引入交叉注意力机制,使得用户表达和级联表达进行深度融合。
2提出的模型
2.1问题定义
用户转发行为在社交网络中十分常见。用户通常在twitter、微博等平台上将自己感兴趣的话题进行转发和分享。因此我们引入了社交网络图来表示用户之间相互关注的状态,以及利用超图神经网络来表示信息级联传播的过程。社交网络图通常表示为Gf=(Uf,Ef),|Uf|=N,其中Uf表示用户集合,Ef表示关注关系的边集合。我们将在网络上传播的信息用集合{m1,m2,m3,...,mk}表示有k条信息在网络上传播,每条信息对应着一条级联传播路径,由于时间流的连续性以及复杂性,我们将其每个时间点精确建模是不方便的,因此将总时长按照一定的时间间隔来划分为T个时间戳,每个时间戳分别对应相应的级联传播子图,我们表示为其中,构造为超图的形式。为了方便表示,我们利用超图的形式对信息的级联传播进行建模,因为超图的一条边可以连接多个节点的这一特性,可以很好的表示一条信息传播路径上的不同用户。因此我们令/>其中/>和/>分别表示在t时间子传播超图中的用户集合和超边集合。而信息的级联,我们将它表示为其中例如/>表示用户ui在t1时间被“感染”,也即是接收/转发消息m。最终级联预测任务是为了实现,在时间/>时刻,某一个未被“感染”的用户uk接收/转发消息的概率/>通过对每个未感染用户的概率做排名以使得预测最终的感染用户。·
2.2系统架构
我们提出的Topic-HGAT模型,其主要分为以下几个部分:
1)用户社交网络表示学习,通过传统的GCN(图结构数据的深度学习模型)来学习用户之间相互关注的友谊信息。2)时序级联表示学习,通过将级联图划分为不同的级联传播子图,并且分别利用HGAT来进行学习。3)级联主题聚合,将学的级联信息表示,进行主题聚类,并提取其主特征表示。4)交叉注意力预测。将用户表示和级联表示按照交叉注意力的方式互相学习特征之后进行融合,并做出最终的预测。Topic-HGAT模型的总体框架如图2所示。
由图2可以看出我们提出的Topic-HGAT模型在总体上分四部分:1)使用GCN学习用户互相关注的依赖关系;2)利用HGAT学习用户时序关系并将用户表达和级联表达暂存起来以待查询;3)通过HGCN学习级联信息的表达并构成主题列表;4)融合交叉注意力机制预测最终接受消息的用户。
2.3社交属性学习
用户之间的相互关注的关系,往往蕴藏着信息扩散的潜在传递可能,也即,拥有相互关注的两个用户,往往拥有着更相近的偏好习惯,因而有更高的概率分享信息。因此将友谊网络引入到用户特征学习中,能够很好的提高预测准确率。不仅如此,当我们利用GCN来进行用户特征学习的时候,往往能够通过聚合其邻居信息的特征表达来学习其偏好,这对于信息传播预测任务中的冷启动问题,也是一个解决方案,比如当新加入一个用户到级联序列当中时,可以通过聚合其邻居用户的偏好来预测并生成该用户的初始偏好表示。当给定一个社交关系图Gf=(U,E),将其通过一个多层的GCN来学习其偏好表示,具体过程如下表示:
表示经过l+1层GCN的学习之后获得的用户表示;
σ()表示RelU激活函数;
Df表示友谊图的度矩阵,两个起到归一化作用;
表示邻接矩阵Af和单位矩阵I的和,即/>
表示表示经过l层GCN的学习之后获得的用户表示;
Wf表示一个可学习的第七转换矩阵。
其中表示初始用户的embedding表示,即第一层GCN输入,我们选择用正态分布对其进行随机初始化,σ()表示RelU激活函数,WF是一个可学习的矩阵,/>表示邻接矩阵AF和单位矩阵I的和,即/>
2.4级联时序表达k
为了更方便地表示级联传播的时序关系和同时空影响,按照一定的时间间隔,对时序进行划分,也即在一个较短的时间间隔内,构造当前时间的静态传播级联图。随后将传播级联图按照一定的时间间隔划分为若干个传播级联子图,并且在通过HGAT进行学习地时候,为了历史信息的充分表达,我们将所有的传播级联子图按照时序关系串联起来。具体来说,在t2时刻的输入,不仅包含t2时刻的传播级联子图,还应包含t1通过HGAT学习后的输出,这种做法在替代传统位置编码过程的同时,也可以更好地获取级联历史信息。
给定一个传播级联子图HGAT的学习过程如下所示:
表示经过l+1层HGAT学习所得的超边(级联)表示;/>
σ()表示RelU激活函数;
表示在超边/>上的用户;
表示在时刻t某级联信息j对应的超边,也即传播级联子图/>中的某个级联(超边)j;
表示在某个传播级联子图/>中用户ui和用户uj之间的注意力系数;
W1表示第一权重矩阵;
表示通过一层HGAT学习之后的用户表示;
表示通过l+1层HGAT学习之后的用户表示;
σ()表示RelU激活函数;
表示在时刻t某级联信息j对应的超边,也即传播级联子图/>中的某个级联(超边)j;
表示超边集合;
W2表示第二权重矩阵;
表示通过l+1层HGAT学习之后的超边(级联)表示;
表示通过l+1层HGAT学习之后的超边(级联)表示的进一步更新,作为最后HGAT的学习结果;
σ()表示RelU激活函数;
表示在超边/>上的用户;
表示在时刻t某级联信息j对应的超边,也即传播级联子图/>中的某个级联(超边)j;
表示在某个传播级联子图/>中用户ui和用户uj之间的注意力系数;
W3表示第三权重矩阵;
表示通过l+1层HGAT学习之后的用户表示。
其中σ()是RelU激活函数,是一个可训练的权重矩阵,d是embedding的维度,/>表示在某个传播级联子图/>中用户ui和用户uj之间的注意力系数。该系数的计算方式如下:/>
表示在某个传播级联子图/>中用户ui和用户uj之间的注意力系数;
exp()表示自然底数e为底的指数函数;
dis()表示计算二者之间的欧氏距离;
W1表示第一权重矩阵;
表示通过一层HGAT学习之后的用户表示;
表示某传播级联子图;
表示根用户节点的特征表示;
表示级联/>上的用户;
表示在时刻t某级联信息j对应的超边,也即传播级联子图/>中的某个级联(超边)j。
其中dis()表示计算二者之间的欧氏距离,表示根用户节点的特征表示。
综上所述,通过设置一个根节点来作为锚点来计算在t时刻用户ui和uj之间的注意力系数,以此为基础利用HGAT学习用户的高阶邻域关系,来获得在该短期内用户的短期偏好。由公式(2)~(4)可以看出,HGAT的学习过程大致包含以下三部分:1)汇聚节点信息到超边上,2)分散超边信息到节点上,3)更新节点信息。在这期间,超边起到一个传递中枢的作用,不断聚合节点ui的高阶邻域信息到该节点上,最后更新超边表达并和用户表达一起存储在一个列表中用于后续的级联查询。
通过上述的HGAT学习,我们在每个时刻t上,基于该时刻的传播级联子图可以学习到用户表达集合Ut和级联表达Ot,将此二者作为一个二元组作为暂存起来,并将时间戳作为字典key值并将其标记为一条记录,因此在T时刻上我们可以学的一个字典列表M:
R表示字典列表;
表示将时刻点t作为字典key值/>并将学习到的Ut和Ot作为一条记录并保存起来,该步骤的后续再通过与/>对比大小,查找出相应时间间隔的用户表达和级联表达,其中/>表示字典key值,(,)表示二元组;
Ut表示在时刻t基于传播级子图学习到的用户表达集合;
Ot表示在时刻t基于传播级子图学习到的级联表达;
T表示总共的时间戳的数目。
其中和/>分别为子传播超图通过HGAT学得的用户表达和级联表达。其中N为用户个数,m为级联个数,d为embedding的维度。
2.5主题特征提取
以往的研究并不能从级联的层面上提取到级联之间的差异性信息。我们知道,在例如推特这样的数据集上,每天传递的消息的种类可以粗略的分为若干种,如音乐、体育、经济等。不同的信息针对不同的受众用户时候,其用户接受度也不尽相同。我们注意到这个现象,结合超图这一网络结构—其超边的存在能很好的表达级联信息,能够很好的挖掘级联之间的相关性和差异性,从而使得级联信息的表达更加丰富,达到更好的预测效果。
针对级联信息的表达,我们采用多层的HGCN来进行学习,传统的HGCN传播如下所示:
Xl+1表示通过l+1层HGCN学习之后的用户表示;
σ()表示RelU激活函数;
Dv表示顶点度矩阵,表示度矩阵Dv的负半平方根;
H是超图邻接矩阵表示;
Wd是可学习的权重矩阵;
De是边度矩阵,表示边度矩阵De的负平方根;
HT表示H的转置;
Xl是在l层HGCN学习到的节点表示;
θl为一个特征映射参数。
其中H是超图邻接矩阵表示,Dv是顶点度矩阵,是边度矩阵,W是可学习的权重矩阵,Xl是在l学习到的节点表示,θl为一个特征映射参数。
需要注意的是,我们需要得到的是超边的表示,因此需要在上述公式中加以调整,即我们选择在最后一层的HGCN表达中,仅仅利用HT和Xl相乘得到相应的超边表示,也即E=HTXl,其中E表示利用HT和Xl相乘得到相应的超边表示,HT表示H的转置,Xl是在l层HGCN学习到的节点表示。其中其中N为超边(级联信息)的数量,d为超边embedding的维度。
接下来,我们的目的是将习得的级联构成一个级联主题池,也就是说将级联集合划分为n个不同的主题区间,为了更方便的处理不同类型的数据集,我们此处把n设置为一个超参数,随后在各自的主题区间内对级联信息进行聚类操作来调整相应的超边表示,以使得为不同的主题信息萃取出可以更好表达该主题的主题特征,具体过程如下:
T=cluster(E,n)………(8)
T为聚类之后主题列表集合;
cluster()表示聚类操作;
E表示利用HT和Xl相乘得到相应的超边表示;
n表示定义的超参数,也即聚类之后形成的主题数量。
其中,cluster()表示聚类操作,此处我们选择平均聚类。其中T为聚类之后主题列表集合n为我们希望聚类之后形成的主题数量,d为超边embedding的维度。
2.6主题特征查找以及级联特征增强
给定一个级联信息cm,我们需要对它进行两次查找和一次增强。首先第一次查找,我们需要在时序传播列表中查找其对应的时间区间,提取相应的用户表达和超边表达,在这个过程中为了避免信息泄露,我们强制要求级联信息cm仅仅能提取其最大时间点之前的时间戳对应的特征表达,由此我们得到级联信息cm对应的用户表示Zm和级联表示Dm,t,利用其级联表示Dm,t在主题列表中通过线性搜索查找对应的主题特征,并且利用主题特征进行特征增强,具体过程如下:
Zm,Dm,t=lookup(cm,R)………(9)
Zm,Dm,t表示在空间R中查询到Zm和Dm,t,其中Zm表示在级联信息cm中查询到的用户表示,Dm,t表示在时刻t查询到的级联表示;
lookup()表示目标级联信息cm去查询列表M中的相应时间间隔学习到的特征表示;
cm表示级联信息;
R表示字典列表。
Tm,t=lookup(Dm,t,T),………(10)
Tm,t表示通过查询得到Dm,t所属的级联主题;
lookup()表示查询主题列表中的主题特征表示;
Dm,t表示在时刻t查询到的级联表示;
T表示主题特征集合。
Dm表示融合主题特征之后的级联表达;
表示级联表示和主题特征之间的相关系数;
Tm,t表示通过查询得到Dm,t所属的级联主题;
表示级联表示和主题特征之间的相关系数;
exp()表示自然底数e为底的指数函数;
W1 T表示第一转换矩阵;
σ()表示RelU激活函数;
W1 d表示第二转换矩阵;
Tm,t表示Dm,t所属的主题特征表示;
Dm,t表示在时刻t查询到的级联表示。
2.7融合节点特征并预测
用户缘于内在偏好而对级联信息做出选择,级联信息又针对与不同的受众用户呈现不同的特征,这二者就构成了深度相关性的特征,以往简单的门控机制特征融合,不能深掘这二者之间的关联性特征,我们受在CV领域多模态任务上基于交叉注意力的特征融合的高效的启发,在以往利用简单门控机制的特征融合的基础上,将交叉注意力引入到用户和级联特征的融合过程中。
我们将节点融合过程分为三个步骤,第一步:对级联Zm和Dm进行自注意力计算,学习内在特征;第二步,对级联Zm和Dm进行交叉注意力计算,互相学习特征;第三步对两个特征进行拼接合并。
先利用自注意力机制进行学习:
Att()表示注意力机制;
softmax()表示可以将一组数值转换为表示各个选项概率的分布的映射函数;
Q,K,V分别表示公式(14)的三个参数;
KT表示K的转置矩阵;
d是embedding的维度;
H*是多头注意力的头数;
Mmask表示mask矩阵掩盖之前已经被激活的用户节点。
hi=Att(ZmWi Q,ZmWi K,ZmWi V)………(14)
hi表示多头注意力中的第i头;
Att()表示注意力计算机制;
Zm表示在级联信息cm中查询到的用户表示;
Wi Q为可学习的第一转换矩阵;
Wi K为可学习的第二转换矩阵;
Wi V为可学习的第三转换矩阵;
h表示最终通过注意力机制学习到的特征表示;
[]表示拼接操作;
H*是多头注意力的头数;
WO为可学习的第四转换矩阵;
Z′m=σ(hW5+b1)W6+b2………(16)
Z′m表示经过拼接学习后的用户表达;
σ()表示RelU激活函数;
h表示上述通过注意力机制学习到的特征表示;
W5表示可学习的第五转换矩阵;
b1表示第一偏置参数;
W6表示可学习的第六转换矩阵;
b2表示第二偏置参数。
其中Wi Q,Wi K,Wi V,WO,W1,W6均为可学习的转换矩阵,d是embedding的维度,H是多头注意力的头数,[]表示拼接操作。其中为了避免信息泄露,我们引入来遮盖当前时间t之后的信息,b1和b2均是偏置参数。我们按照上述的过程学习到Z′m和D′m作为用户表达(表示)和级联表达(表示)。
利用交叉注意力机制互相学习对方的特征:
和以往的自注意力机制的主要区别在于,它可以利用用户表达Z的Q值和D的K、V值进行注意力计算,来学习其特征表达,区别如下所示:
hi表示多头注意力中的第i头;
Att()表示单个头中Attention机制算法;
Zm表示在级联信息cm中查询到的用户表示;
表示第i头中的转换矩阵,用以将特征转换为相应的Q值;
Dm表示融合主题特征之后的级联表达;
表示第i头中的转换矩阵,用以将特征转换为相应的K值;
表示第i头中的转换矩阵,用以将特征转换为相应的V值;
接下来的拼接操作和特征映射操作与前者保持一致,并同样通过可学习的转换矩阵学习得用户表达和级联表达Z″m和D″m
用户特征和级联特征融合:
为了得出最终的用户表达,我们再将交叉注意力机制进行自学习之后的Z″m和D″m特征通过门控机制融合。
Pm=gR1Z″m+(1-gR1)D″m………(18)
Pm表示融合后的特征表示;
表示一个[0-1]的权重系数,由公式(19)计算所得;
D″m表示交叉注意力机制进行自学习所得的级联表示;
Z″m表示交叉注意力机制进行自学习所得的用户表示;
表示一个[0-1]的权重系数;
exp()表示自然底数e为底的指数函数;
表示注意力向量;
σ1()表示tanh激活函数;
表示第三转换矩阵;
D″m表示交叉注意力机制进行自学习所得的级联表示;
Z″m表示交叉注意力机制进行自学习所得的用户表示。
其中和/>是注意力向量和第三转换矩阵,此处σ1()表示tanh激活函数。
最后将融合后的特征表示Pm通过一个全连接层来计算最终用户“感染”的概率:
表示用户“感染”的概率;
softmax()表示可以将一组数值转换为表示各个选项概率的分布的映射函数;
Wp表示第四转换矩阵;
Pm表示融合后的特征表示;
Mmask表示mask矩阵掩盖之前已经被激活的用户节点。
其中Wp是第四转换矩阵,Mmask作为mask矩阵掩盖之前已经被激活的用户节点。我们采用交叉熵损失来进行训练:
J(θ)表示交叉熵损失;
|cm|表示级联中感染的步骤数个数;
|U|表示用户列表中元素的个数,也即是用户个数;
yji表示如果在步骤j用户ui被感染,则yji=1,否则等于0;
log()表示对数函数;
表示用户ui在步骤j被感染的概率。
其中,如果用户ui在步骤j参与到级联cm中时,yji=1,否则yji=0。
3实验分析
为了进一步证实我们提出的Topic-HGAT模型的有效性和鲁棒性,我们在四个常用的信息级联预测任务数据集上进行了广泛的实验,这些数据集都为真实数据集。并且回答了以下问题:
该模型是否在预测准确率上优于现有的最先进的预测方法?
主题列表是如何影响模型的性能的,交叉注意力的影响有多大?
主题划分的类别数量该如何确定?会对模型产生多大的影响?
3.1实验设置
数据集我们采用的数据集分别为:Twitter和Douban数据集,以及Android和christiantic论坛中问答数据,具体细节统计在表1中。
Twitter:提取于2010年10月期间在twitter上传播的推文的传播路径。并且额外附有用户相互关注的网络图作为友谊图。
Douban:主要是提取于用户在豆瓣网上分享的书籍或者电影等,并且将用户的共生关系作为他们的友谊图。
Android:主要来自StackExchange社区的问答,其中包括用户的提问、回答等互动信息,来表示该问答在社区上的传播过程。
Christianity:主要来源于Christ主题相关的级联交互过程。
表1.实验中用到的友谊图的相关数据
Users Links Density
Twitter 12627 309631 24.52
Douban 12232 396580 30.21
Android 9958 48573 4.87
Christ 2897 35624 12.30
表2.实验中用到的级联传播图的相关数据
Cascades Avg.Length Density
Twitter 3442 32.60 8.89
Douban 3475 21.76 6.18
Android 679 33.3 2.27
Christ 589 22.9 4.66
评价指标由上述章节可知,最终我们的预测任务是在一系列未激活用户中查找最大可能被激活的用户,因此可以将此任务看作一个检索问题,所以我们沿用Hit@k和MAP@k两个指标来进行度量。其中Hit@k表示在top k上预测命中的得分,MAP@k表示在top-k上命中的平均精度,在此实验中,我们分别在k=10,50,100三个维度上进行实验和对比。
Baselines我们将提出的Topic-HGAT模型与以下几个常见的几个信息扩散预测方法进行比较,其中包含最先进的方法:
DeepDiffuse在基于RNN深度学习模型的基础上,融入节点元特征信息,并且通过注意力机制动态调整对历史信息的关注度,从而使得有不错的预测准确度。
Topo-LSTM通过修改LSTM的结构,使之可以应用于动态DAG结构的级联数据,从而很好地捕获级联扩散过程中的动态变化。
NDM利用一种基于松弛假设的模型,结合注意力机制和卷积神经网络,更加准确地预测信息扩散过程中的用户行为和影响力,捕捉其复杂的内在关系,而且更加灵活,更适用复杂的级联数据。
SNIDSA通过序列信息以及用户关系图构建出相关的结构信息,在RNN的基础上引入结构注意力模块SAM来建模预测潜在的扩散方向。
FOREST从微观和宏观上多尺度地进行扩散预测,采用一种基于RNN的新型上下文提取算法,更好的使用社交网络图中蕴含的用户信息。
Inf-VAE通过图神经网络选择性利用用户社交关系的社交变量,设计了一种新型共同注意融合网络来学习社会和时间变量。
DyHGCN首次将友谊图和传播级联图通过异质图的方式构造在一起,一起通过GCN来学习用户表示。
MS-HGAT引入超图来构建传播级联图,并且设计了一个内存增强模块,暂存用户以及级联表示,强调了级联内的特征演化。
参数设置:在数据集方面,我们使用完整的友谊图作为用户的静态依赖学习,并且假定友谊图的结构关系不发生变化。对于级联数据,我们将其分为三部分:训练集、验证集、测试集,分别占比80%,10%和10%。由于级联长度方面存在着不小的差异,为了方便训练,我们将其长度统一设定为200。对于beseline,我们沿用其在原始训练中提供的设置,采用Pytorch实现Topic-HGAT模型,优化器采用的是效果较为出色的Adam优化器,学习率为0.001。dropout为0.3,batch大小为64,embedding的维度为64,GCN和HGCN的层数设定为3层,HGAT采用单层结构。级联传播子图的个数我们在[2-20]区间,出于精确度和时间效率两方面的考虑,最终选择了8;在自注意力头数设定为方面,我们通过比较实验,最终选定为14。对于主题划分的类别个数,通过实验我们发现,在不同的数据集上不同的划分会呈现不同的表现,因此我们分别为每个数据集的类别划分做了特定的超参数实验,结果在后续展示。实验环境为:CPU为Intel(R)Core(TM)i9-10980XE CPU@3.00GHz,GPU为16GB NVIDIAQuadro RTX 5000。
3.2实验结果分析
在Twitter等四个数据集上和DyHGCN、MS-HGAT等8种级联信息传播模型进行了比较,其结果统一展示在表3和表4中,并同时回答了问题1。
表3在Hit@k指标下4个数据集(%)上的实验结果
表4在MAP@k指标下4个数据集(%)上的实验结果
由表3和表4可以看出,Topic-HGAT模型在Hit和Map指标上都取得了不错的表现,优于目前最先进的方法,得益于我们主题划分的特征增强作用以及交叉注意力的深度特征融合作用。具体来说,在Hit@100得分上,Topic-HGAT模型与目前最先进的MS-HGAT模型相比,在四个数据集上分别有2.24%,2.91%,1.84%,1.18%的提升,并且在Map@100上也有1.36%,1.12%,0.72%,1.59%的效果提升。从上面的结果可以看到,对于级联信息的特异性划分是有必要的,这样可以使得进行信息预测时更精准的命中领域性更强的用户。
3.3消融实验
为了回答问题2,我们进行了消融实验,以验证模型的合理性和各个子模块的贡献度,在对比实验中我们可以看出,Topic-HGAT模型在Twitter和Douban模型上表现良好,因此选择在这两个数据集上进行消融实验(效果更加明显),以确定子模块,特别是主题列表模块和交叉注意力模块的的效果。
w/o FG移除友谊图模块,其中t1时刻的传播子图初始用户表示由随机正态分布建立,在预测阶段利用Pm=Dm,其中,Dm表示级联表达,Pm表示融合后的特征表示。
w/o DH移除传播图模块,也就是说使得Pm=Zm,其中,Pm表示融合后的特征表示,Zm表示用户表示。
w/o ATTH移除HGAT中的注意力机制。
w/o TL忽略主题划分模块,也即不对传播级联进行主题特征增强。
w/o CA忽略交叉注意力机制,也即Z″m=Z′m,D″m=D′m,其中,Z′m表示经过拼接学习后的用户表达,Z″m表示交叉注意力机制进行自学习所得的用户表示,D′m表示经过拼接学习后的级联表达,D″m表示交叉注意力机制进行自学习所得的级联表示。
结果如表5所示
表5消融实验的实验结果
由表5可以看出,Topic-HGAT模型具有良好的合理性。首先,在移除社交网络图的情况下,预测效果明显降低,证明社交网络的全局依赖特性对于预测模型的有效性有很大影响。这一点在DyHGCN和MS-HGAT等模型中也得到了相似的结论。与之相同的是,当移除扩散超图的时候,预测效果也有显著下降,说明该子模块的合理性和必要性。接下来,当移除自注意力机制模块时,在大部分情况下,预测性能也略微下降。当移除我们提出的主题分类模块时,预测性能也明显降低,说明主题的划分可以很好地表达级联层级的相似性耦合,使得预测的级联对于不同主题的特征表达更加明显,从而获得较高的预测性能。这也说明了主题划分子模块的重要程度和合理性。表中的结果显示,在某些数据集上,如Douban数据集,结果的降低明显,而在其他数据集上,如Android数据集,结果的降低并不明显。这再次验证了我们对比实验结果的分析准确性。最后,我们移除提出的交叉注意力模块,发现预测性能略微下降,说明该模块可以作为辅助模块,为模型的完整度和预测性能的提高起到一定作用。
3.6参数分析
为回答问题3,我们进行了相关的参数分析实验。在该实验中涉及到和以往实验相比一些共性和非共性的参数,这些参数的设置常常会影响到模型的性能,因此我们在此阶段进行超参数的分析实验。比如在注意力的头数,子级联图的个数等在之前的实验中也会被拿来讨论的超参数,以及本实验中涉及的特有的重要参数:主题划分的个数、交叉注意力的头数等。在Twitter、Douban等四个数据集上同Hit@k得分来展示主题类别个数分别对四个数据集上的影响,具体展示在图3中:
由图3我们可以发现在不同的数据集上,级联预测的效果收敛的位置是不同的。例如,在Twitter数据集上,考虑到综合精度和效率,主题级联的个数收敛到10个为最好,而在Douban数据集上则是8个左右最好。在相对较小的数据集Android和Christianity上,收敛个数分别为5和4。我们还进行了实验,发现远高于此收敛个数的实验结果并不理想,甚至低于移除主题列表的效果。因此,我们认为过高的主题个数划分可能导致主题过于细分,从而降低用户偏好的泛化预测能力。综合目前的研究结果,我们为四个数据集设置了不同的最佳主题个数。
另外,我们在两个预测结果较好的两个数据集(Twitter和Douban)上进行了参数分析实验,来探究交叉注意力中多头注意力的头数对实验的模型效果的影响,具体结果如图4所示:
由图4中的实验结果可以看出,随着多头注意力头数的增加,模型能够捕获更多的信息,从而实现更好的预测效果。然而,当头数过高时,可能会因为过拟合的原因导致性能显著下降。综合实验结果,我们选择了相对最稳定的头数14作为我们模型的多头注意力参数。
4结论
在本研究中,我们注意到级联信息之间存在差异性。基于这一发现,我们对级联传播图中的所包含的信息针对其所属领域进行主题类别划分,并进一步为每个类别提取相应的主题特征。如此对于所预测的级联信息,我们通过其所属的主题类别对其赋予主题特性,也即利用主题特征增强所预测的级联特征,利用级联的领域特征来提高预测效果。为此,我们提出了Topic-HGAT模型,引入了交叉注意力机制,将用户特征和级联特征进行更深层次的特征融合,从而使预测embedding具有更高的效能。通过在Twitter、Douban、Android、Christianity四个真实数据集上的验证,并且均优于目前最先进的级联信息预测模型,证明了该模型具有合理性、有效性和鲁棒性。本研究中主题特性蕴含的级联信息的领域区别,延伸出另一个关于私域流量和公域流量的讨论,以及其在传播网络上的博弈现象,并且我们未来的研究方向在此讨论的基础上更加注重级联信息的时间相关性特征,例如同领域信息在拓扑子网中同时传播是否具有相互促进效果,不同领域信息之间又是如何进行促进或者抑制效果的,以此来建模不同信息之间的博弈现象,更加精确地提高级联信息传播预测的准确性。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (6)

1.一种融合主题特征和交叉注意力的级联信息传播预测方法,其特征在于,包括如下步骤:
S1,根据级联信息间的差异性进行不同主题特征的划分,并对不同主题特征进行特征提取;
S2,根据交叉注意力机制融合用户表示和级联表示以学习特征表达;
S3,得到预测结果。
2.根据权利要求1所述的融合主题特征和交叉注意力的级联信息传播预测方法,其特征在于,在步骤S1之前包括对社交属性进行学习,对其社交属性进行学习的方法为:
给定一个社交关系图Gf=(U,E),将其通过一个多层的GCN来学习其偏好表示,公式如下表示:
其中,表示经过l+1层GCN的学习之后获得的用户表示;
σ()表示RelU激活函数;
Df表示友谊图的度矩阵,两个起到归一化作用;
表示邻接矩阵Af和单位矩阵I的和,即/>
表示表示经过l层GCN的学习之后获得的用户表示;
Wf表示一个可学习的第七转换矩阵。
3.根据权利要求1所述的融合主题特征和交叉注意力的级联信息传播预测方法,其特征在于,在步骤S1中级联信息的时序表达包括以下步骤:
S11,给定一个传播级联子图学习过程如下:
其中,表示经过l+1层HGAT学习所得的级联表示;
σ()表示RelU激活函数;
表示在超边/>上的用户;
表示在时刻t某级联信息j对应的超边,也即传播级联子图Gdt中的某个级联j;
表示在某个传播级联子图/>中用户ui和用户uj之间的注意力系数;
W1表示第一权重矩阵;
表示通过一层HGAT学习之后的用户表示;
表示通过l+1层HGAT学习之后的用户表示;
σ()表示RelU激活函数;
表示在时刻t某级联信息j对应的超边,也即传播级联子图Gdt中的某个级联j;
表示超边集合;
W2表示第二权重矩阵;
表示通过l+1层HGAT学习之后的超边表示;
表示通过l+1层HGAT学习之后的超边表示的进一步更新,作为最后的学习结果;
σ()表示RelU激活函数;
表示在超边/>上的用户;
表示在时刻t某级联信息j对应的超边;
表示在某个传播级联子图/>中用户ui和用户uj之间的注意力系数;
W3表示第三权重矩阵;
表示通过l+1层学习之后的用户表示;
S12,每个时刻t的传播级联子图通过HGAT学习到用户表达集合Ut和级联表达Ot,将此二者作为一个二元组存放成一个供查询的列表,具体公式如下:
其中,R表示字典列表;
(,)表示将时刻点t作为字典key值/>并将学习到的Ut和Ot作为一条记录并保存起来,该步骤的后续再通过与/>对比大小,查找出相应时间间隔的用户表达和级联表达,/>表示字典key值,(,)表示二元组;
Ut表示在时刻t基于传播级子图学习到的用户表达集合;
Ot表示在时刻t基于传播级子图学习到的级联表达;
T表示总共的时间戳的数目。
4.根据权利要求1所述的融合主题特征和交叉注意力的级联信息传播预测方法,其特征在于,在步骤S1中对主题特征分类提取的方法包括以下步骤:
S1-1,采用多层的HGCN对级联信息的表达进行学习以得到超边的表示,仅在最后一层的HGCN表达中,利用HT和Xl相乘得到相应的超边表示,也即E=HTXl,具体公式如下:
Xl+1表示通过l+1层HGCN学习之后的用户表示;
σ()表示RelU激活函数;
Dv表示顶点度矩阵,表示度矩阵Dv的负半平方根;
H是超图邻接矩阵表示;
Wd是可学习的权重矩阵;
De是边度矩阵,表示边度矩阵De的负平方根;
HT表示H的转置;
Xl是在l层HGCN学习到的节点表示;
θl为一个特征映射参数;
S1-2,将学习得到的级联构成一个级联主题池,即将级联集合划分为n个不同的主题区间,把n设置为一个超参数,随后在各自的主题区间内对级联信息进行聚类操作来调整相应的超边表示,以为不同的主题信息萃取出主题特征,具体过程如下:
T=cluster(E,n),………(8)
T为聚类之后主题列表集合;
cluster()表示聚类操作;
E表示利用HT和Xl相乘得到相应的超边表示;
n表示定义的超参数,也即聚类之后形成的主题数量。
5.根据权利要求1所述的融合主题特征和交叉注意力的级联信息传播预测方法,其特征在于,在步骤S1之后还包括对主题特征和级联特征进行查找和增强,对主题特征和级联特征进行查找和增强的方法包括以下步骤:
S1a,对级联信息在时序传播列表中查找其对应的时间区间,提取相应的用户表示Zm和超边表示Dm,t,具体公式如下:
Zm,Dm,t=lookup(cm,R),………(9)
其中,Zm,Dm,t表示在空间R中查询到Zm和Dm,t,其中Zm表示在级联信息cm中查询到的用户表示,Dm,t表示在时刻t查询到的级联表示;
lookup()表示目标级联信息cm去查询列表M中的相应时间间隔学习到的特征表示;
cm表示级联信息;
R表示字典列表;
S1b,利用超边表示Dm,t在主题列表中通过线性搜索查找对应的主题特征,具体公式如下:
Tm,t=lookup(Dm,t,T),………(10)
其中,Tm,t表示通过查询得到Dm,t所属的级联主题;
lookup()表示查询主题列表中的主题特征表示;
Dm,t表示在时刻t查询到的级联表示;
T表示主题特征集合;
S1c,利用主题特征进行特征增强,具体公式如下:
Dm表示融合主题特征之后的级联表达;
gT1表示级联表示和主题特征之间的相关系数;
Tm,t表示通过查询得到Dm,t所属的级联主题。
6.根据权利要求1所述的融合主题特征和交叉注意力的级联信息传播预测方法,其特征在于,在步骤S2中根据交叉注意力机制融合用户表示和级联表示以学习特征表达的方法包括以下步骤:
S21,对用户表示Zm和级联表达Dm进行注意力计算,学习内在特征,具体公式如下:
其中,Att()表示注意力机制;
softmax()表示可以将一组数值转换为表示各个选项概率的分布的映射函数;
Q,K,V分别表示公式(14)的三个参数;
KT表示K的转置矩阵;
d是embedding的维度;
H*是多头注意力的头数;
Mmask表示mask矩阵掩盖之前已经被激活的用户节点;
hi=Att(ZmWi Q,ZmWi K,ZmWi V),………(14)
其中,hi表示多头注意力中的第i头;
Att()表示注意力计算机制;
Zm表示在级联信息cm中查询到的用户表示;
Wi Q为可学习的第一转换矩阵;
Wi K为可学习的第二转换矩阵;
Wi V为可学习的第三转换矩阵;
h表示最终通过注意力机制学习到的特征表示;
[]表示拼接操作;
H*是多头注意力的头数;
WO为可学习的第四转换矩阵;
Z′m=σ(hW5+b1)W6+b2,………(16)
其中,Z′m表示经过拼接学习后的用户表达;
σ()表示RelU激活函数;
h表示通过注意力机制学习到的特征表示;
W5表示可学习的第五转换矩阵;
b1表示第一偏置参数;
W6表示可学习的第六转换矩阵;
b2表示第二偏置参数;
S22,对用户表示Zm和级联表达Dm进行交叉注意力计算,互相学习特征,具体公式如下:
其中,hi表示多头注意力中的第i头;
Att()表示单个头中Attention机制算法;
Zm表示在级联信息cm中查询到的用户表示;
表示第i头中的转换矩阵,用以将特征转换为相应的Q值;
Dm表示融合主题特征之后的级联表达;
表示第i头中的转换矩阵,用以将特征转换为相应的K值;
表示第i头中的转换矩阵,用以将特征转换为相应的V值;
S23,将经过交叉注意力机制进行自学习之后的Z″m和D″m特征通过门控机制融合,具体公式如下:
其中,Pm表示融合后的特征表示;
表示一个[0-1]的权重系数;
D″m表示交叉注意力机制进行自学习所得的级联表示;
Z″m表示交叉注意力机制进行自学习所得的用户表示。
CN202310895049.7A 2023-07-20 2023-07-20 融合主题特征和交叉注意力的级联信息传播预测方法 Active CN116955846B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310895049.7A CN116955846B (zh) 2023-07-20 2023-07-20 融合主题特征和交叉注意力的级联信息传播预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310895049.7A CN116955846B (zh) 2023-07-20 2023-07-20 融合主题特征和交叉注意力的级联信息传播预测方法

Publications (2)

Publication Number Publication Date
CN116955846A true CN116955846A (zh) 2023-10-27
CN116955846B CN116955846B (zh) 2024-04-16

Family

ID=88445672

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310895049.7A Active CN116955846B (zh) 2023-07-20 2023-07-20 融合主题特征和交叉注意力的级联信息传播预测方法

Country Status (1)

Country Link
CN (1) CN116955846B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117670572A (zh) * 2024-02-02 2024-03-08 南京财经大学 一种基于图对比学习的社交行为预测方法、系统及产品

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019183191A1 (en) * 2018-03-22 2019-09-26 Michael Bronstein Method of news evaluation in social media networks
US20210248461A1 (en) * 2020-02-11 2021-08-12 Nec Laboratories America, Inc. Graph enhanced attention network for explainable poi recommendation
CN113536144A (zh) * 2021-06-17 2021-10-22 中国人民解放军国防科技大学 一种社交网络信息的传播规模预测方法、装置
CN113688600A (zh) * 2021-09-08 2021-11-23 北京邮电大学 一种基于主题感知注意力网络的信息传播预测方法
CN113850446A (zh) * 2021-10-22 2021-12-28 重庆理工大学 融合时空注意力和异构图卷积网络的信息扩散预测方法
CN113962358A (zh) * 2021-09-29 2022-01-21 西安交通大学 一种基于时序超图注意力神经网络的信息扩散预测方法
CN115270782A (zh) * 2022-08-15 2022-11-01 云南大学 基于图神经网络的事件传播流行度预测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019183191A1 (en) * 2018-03-22 2019-09-26 Michael Bronstein Method of news evaluation in social media networks
US20210248461A1 (en) * 2020-02-11 2021-08-12 Nec Laboratories America, Inc. Graph enhanced attention network for explainable poi recommendation
CN113536144A (zh) * 2021-06-17 2021-10-22 中国人民解放军国防科技大学 一种社交网络信息的传播规模预测方法、装置
CN113688600A (zh) * 2021-09-08 2021-11-23 北京邮电大学 一种基于主题感知注意力网络的信息传播预测方法
CN113962358A (zh) * 2021-09-29 2022-01-21 西安交通大学 一种基于时序超图注意力神经网络的信息扩散预测方法
CN113850446A (zh) * 2021-10-22 2021-12-28 重庆理工大学 融合时空注意力和异构图卷积网络的信息扩散预测方法
CN115270782A (zh) * 2022-08-15 2022-11-01 云南大学 基于图神经网络的事件传播流行度预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
笱程成;秦宇君;田甜;伍大勇;刘悦;程学旗;: "一种基于RNN的社交消息爆发预测模型", 软件学报, no. 11, 15 November 2017 (2017-11-15) *
陈晋音;张敦杰;林翔;徐晓东;朱子凌;: "基于影响力最大化策略的抑制虚假消息传播的方法", 计算机科学, no. 1, 15 June 2020 (2020-06-15) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117670572A (zh) * 2024-02-02 2024-03-08 南京财经大学 一种基于图对比学习的社交行为预测方法、系统及产品
CN117670572B (zh) * 2024-02-02 2024-05-03 南京财经大学 一种基于图对比学习的社交行为预测方法、系统及产品

Also Published As

Publication number Publication date
CN116955846B (zh) 2024-04-16

Similar Documents

Publication Publication Date Title
Wu et al. Visual question answering: A survey of methods and datasets
JP7468929B2 (ja) 地理知識取得方法
Zhu et al. Building a large-scale multimodal knowledge base system for answering visual queries
CN103064917B (zh) 一种面向微博的特定倾向的高影响力用户群发现方法
Xiaomei et al. Microblog sentiment analysis with weak dependency connections
CN112256981B (zh) 一种基于线性和非线性传播的谣言检测方法
CN112988917B (zh) 一种基于多种实体上下文的实体对齐方法
CN113962358B (zh) 一种基于时序超图注意力神经网络的信息扩散预测方法
CN105528437A (zh) 一种基于结构化文本知识提取的问答系统构建方法
CN116955846B (zh) 融合主题特征和交叉注意力的级联信息传播预测方法
Luo et al. BCMM: A novel post-based augmentation representation for early rumour detection on social media
CN109992784A (zh) 一种融合多模态信息的异构网络构建和距离度量方法
Zeb et al. Learning hyperbolic attention-based embeddings for link prediction in knowledge graphs
Sun et al. Overlapping community detection based on information dynamics
CN113919440A (zh) 一种融合双重注意力机制和图卷积社交网络谣言检测系统
Sen et al. Expanding end-to-end question answering on differentiable knowledge graphs with intersection
Cao et al. Explainable high-order visual question reasoning: A new benchmark and knowledge-routed network
Wei et al. I know what you want to express: sentence element inference by incorporating external knowledge base
CN113065342B (zh) 一种基于关联关系分析的课程推荐方法
CN114218457A (zh) 一种基于转发社交媒体用户表征的假新闻检测方法
Lu et al. Social network alignment: a bi-layer graph attention neural networks based method
Cui et al. Identification of Micro-blog Opinion Leaders based on User Features and Outbreak Nodes.
Lofi Just ask a human?-controlling quality in relational similarity and analogy processing using the crowd
Liu et al. A cascade information diffusion prediction model integrating topic features and cross-attention
Zhang et al. Image caption generation method based on an interaction mechanism and scene concept selection module

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant