CN113868474A

CN113868474A - 一种基于自注意力机制和动态图的信息级联预测方法

Info

Publication number: CN113868474A
Application number: CN202111027849.4A
Authority: CN
Inventors: 李志�; 王瑞锦; 张凤荔; 张志扬; 高强; 李志刚; 张文博; 李志勇; 伍琦
Original assignee: Zihai Technology Chengdu Co ltd
Current assignee: Zihai Technology Chengdu Co ltd
Priority date: 2021-09-02
Filing date: 2021-09-02
Publication date: 2021-12-31

Abstract

本发明公开了一种基于自注意力机制和动态图的信息级联预测方法，包括：S1：将每条消息转发记录对应一张级联图，并采样得到该级联图在观测时间内的演变子图；对采样得到的演变子图分别进行编码，得到节点的向量表示矩阵；S2：通过向量表示矩阵计算节点及其邻居节点的注意力权重，并将该节点的邻居节点的特征聚合到该节点，得到该节点新的向量表示；S3：向量表示和该节点的位置嵌入求后，对每个节点的历史状态进行学习，得到每个节点的表示；S4：将得到的每个节点的表示输入到多层感知器中，得到级联增量的预测结果。本发明避免了人工标记特征所造成级联图表示的困难问题，减少了信息的损失，提升了预测性能。

Description

一种基于自注意力机制和动态图的信息级联预测方法

技术领域

本发明涉及信息传播预测技术领域，尤其涉及一种基于自注意力机制和动态图的信息级联预测方法。

背景技术

如今，Twitter、微博、Facebook、YouTube和微信等在线社交平台已成为热点事件传播的主要途径。当某一事件发生，其很快就能在社交网络中，通过新闻报道、论坛帖子和视频动态等各种形式被传播开来。互联网技术和社交媒体的发展，给事件的传播带来了极大的便利。但现今网络上信息真实性难以分辨，不良事件和信息一旦被广泛传播开来，将给社会和经济造成不可预估的影响。因此了解事件传播规律对于规范当今网络社会具有重大意义。

现有的信息级联预测方法主要有以下三类：(1)基于特征建模的预测方法：许多学者主要基于特征工程，然后利用经典机器学习的方法来建模进行级联预测。比如：加入与用户相关的特征可以有效地预测用户是否会参与级联；并验证了在微博数据集中结构特征和时序特征对预测起着更重要的作用。然而此类方法需要某一特定领域的大量相关特征，具有特殊性，不能够迁移至其他应用场景；且此类方法需要获取如用户个人信息和私有社交平台信息，而这些信息往往因其具有私密性而很难得到。

(2)基于生成式的预测方法：生成式方法主要从转发到达速率方面入手，对每条消息的到达强度函数独立建模。例如：通过借鉴生存分析的思想来预测在线内容的流行程度；有人曾提出了一个生成概率模型，用增强泊松过程来预测科学论文的流行程度。后来者将级联转换成一组扩散路径，然后用自激励霍克斯点过程对级联进行建模。但此类方法所观测的数据是观测时间窗口内的每个事件的发生，而不是未来要预测的增量流行度，所以预测性能较差。

(3)基于深度学习的预测方法：随着神经网络的兴起和自注意力机制在NLP等任务中的优越表现，越来越多基于深度学习并融合注意力机制的模型被用于信息级联预测当中。DeepCas是第一个基于图表示学习的信息级联预测方法，它在借鉴了DeepWalk的基础上，采用随机游走对级联图采样，然后将采样后的级联序列结合注意力机制传入双向门控递归单元(Bi-GRU)，最终得到节点的嵌入。基于注意力机制的预测模型ANNP，采用GloVe来对消息的内容进行嵌入，并使用node2vec对用户图进行编码。总的来说，基于深度学习的级联预测方法，不需要在级联图上人工标记特征，减轻了实验的工作量，增强了可推广性，且预测准确性高。但现有的级联模型都是针对拥有固定节点集和边集的静态图。在现实生活中，级联图的本质是动态的，它的结构会随着时间的变化，而呈现一个动态演化的过程。这就要求在学习级联图节点表示时，不仅要保留结构上的临近性，还要同时捕获其时序演变特征。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于自注意力机制和动态图的信息级联预测方法。

本发明的目的是通过以下技术方案来实现的：

一种基于自注意力机制和动态图的信息级联预测方法，包括以下步骤：

S1：将每条消息转发记录对应一张级联图，并采样得到该级联图在观测时间内的演变子图；对采样得到的演变子图分别进行编码，得到节点的向量表示矩阵；

S2：通过向量表示矩阵计算节点及其邻居节点的注意力权重，并将该节点的邻居节点的特征聚合到该节点，得到该节点新的向量表示；

S3：将S3得到的向量表示和该节点的位置嵌入求后，对每个节点的历史状态进行学习，得到每个节点的表示；

S4：将得到的每个节点的表示输入到多层感知器中，得到级联增量的预测结果。

进一步的，所述步骤S1中在观测时间内以相同的间隔时间进行采样。

进一步的，所述步骤S1中的编码具体为：将演变子图中的节点嵌入多维向量空间。

进一步的，所述节点嵌入的维度可以调整。

进一步的，建立融合自注意力机制和动态图的级联预测模型，所述融合自注意力机制和动态图的级联预测模型包括节点嵌入层、结构自注意力层、时序自注意力层和级联增量预测层，分别实现步骤S1、S2、S3和S4。

进一步的，所述结构自注意力层通过多层堆叠的自注意力机制实现，最后输出的是节点的空间结构特征的表示。

进一步的，所述时序自注意力层采用多个堆叠的时序自注意力模块，充分考虑级联图的动态演化过程，捕捉多个时间段的节点的时序变化。

进一步的，所述融合自注意力机制和动态图的级联预测模型的训练过程中，采用交叉熵作为损失函数对模型进行优化，并在迭代中损失连续10次不再减小时，结束训练。

本发明的有益效果：采用端到端的方式，避免了人工标记特征所造成级联图表示的困难问题，通过子图采样捕获了级联图的动态演化过程，引入了自注意力机制，更好地融合在观测窗口中学到的信息级联图的动态结构变化和时序特征，为网络合理地分配权重值，减少了信息的损失，提升了预测性能。

附图说明

图1是实施例中消息C_i的级联图。

图2是实施例中消息C_i的级联演化示例图。

图3是DySatCas模型框架示意图。

图4是不同步长性能预测比较图。

图5是不同观测窗口在不同数据集上的表现示意图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图说明本发明的具体实施方式。

本实施例中，现有M条的消息，每条消息转发记录对应一张级联图，如图1所示，竖条纹节点为消息发送者，白色节点为表示观测时间内转发该消息的用户，横条纹节点为将会新增的转发用户，带箭头实线表示用户间的转发关系，虚线表示将会出现的转发关系。

级联图的动态性定义为其N个演变级联子图，表示为

是级联图G_i在时间t_j的有向带权快照图。带权邻接矩阵为A^j，

分别是图

在时间t_j≥0时的节点集合和边集合，具体级联演化示例如图2所示。

本发明将信息级联预测问题定义为：给定消息C_i的级联图G_i和在观测时间[0，T]内的级联演化序列

预测此条消息在观测窗口结束时，信息级联的增长量P_i，

代表级联图的大小。

融合自注意力机制和动态图的级联预测模型DySatCas如图3所示，以某一级联图G_i及其演变子图

为例，首先将其演变子图的每个节点编码映射为一个多维向量x_v；然后分别将各子图的节点向量表示输入结构自注意力层，得到节点的隐藏状态

再将

和该节点的位置嵌入p^j相加，输入到时序自注意力层得到

最后将时间T所对应子图的所有节点的嵌入表示

输入到多层感知器中得到信息级联增量的预测值P_i。依据功能融合自注意力机制和动态图的级联预测模型划分为四层，分别为：

节点嵌入层：输入为某一级联图，本层将采样得到的演变子图分别进行编码，得到节点的向量表示矩阵。

结构自注意力层：将节点嵌入层得到的向量矩阵输入该层，计算节点以及其邻居节点的注意力权重，并将该节点的邻居节点的特征聚合到该节点，得到该节点新的向量表示。

时序自注意力层：将结构自注意力层输出的节点向量表示和该节点的位置嵌入求和后，传入时序自注意力层。该层对每个节点在其历史子图上的状态进行学习，得到每个节点的表示。

级联增量预测层：将得到的每个节点的表示输入到多层感知器中，最后得到级联增量的预测结果。

(1)节点嵌入层

在级联图G_i的基础上，以相同时间间隔T/N作为标准得到演变级联子图

然后将

中的节点嵌入到向量空间

D是节点嵌入的维度，可调整。

(2)结构自注意力层

结构自注意力层的主要作用是通过多层堆叠的自注意力机制对节点及其邻居节点的特征进行学习，将学习到的特征聚合到该节点上，得到对该节点的空间结构特征的表示。该层的输入是演变级联子图

中每个节点D维向量表示

通过该层可捕获到节点在级联子图的局部属性，输出为新的可调整的F维向量表示

具体来说，结构自注意力层通过计算在

中节点v直接邻居的注意力权重，来作为函数的输入节点嵌入。具体运算定义如下：

其中，

为节点v在

中直接邻居的集合；W^s∈R^F×D是应用于图中每个节点变换的共享权重；a∈R^2D是注意力函数的加权向量参数化；||表示拼接操作；σ(·)是非线性激活函数；

是当前图中边(u，v)的权重；α_uv是通过softmax函数对在V中每个节点的邻居节点进行归一化操作，得到的学习参数，表示在当前图中节点u对于节点v的影响力大小；同时使用LeakyRELU非线性激活函数来计算注意力权重，然后用指数线性单元(ELU)来激活作为输出表示。当α_uv为0时，在图

中时没有连接的，使用稀疏矩阵可以有效的实现其邻居节点所隐藏的自我注意力。

(3)时序自注意力层

时序自注意力层同结构自注意力层类似，采用多个堆叠的时序自注意力模块，充分考虑级联图的动态演化过程，捕捉多个时间段的节点的时序变化。该层的输入是特定节点v在不同时间步长的一系列表示。采用现有文献所提出的位置嵌入的方法，得到节点各子图中绝对时序位置的嵌入序列{p¹，p²，...，p^N}，p^N∈R^F，然后结合结构注意力层的节点v在不同的时间步长下的向量表示得到该层的输入

N是总时间步长。该层输出是

节点的输入及输出分别结合时间步长合并表示为X_v∈R^N×F和

节点v在时间步长j的输入表示为

且用

作为该节点时间步长小于j的历史状态的查询。和结构自注意力机制在其邻居节点进行特征学习表示不同，时序自注意力机制更关注每个节点的历史状态。

通过对注意力按比例缩放的点积的形式来计算节点在时间步长j的输出表示，其中查询、键和值的集合是节点的输入表示。查询、键和值首先分别通过线性投影矩阵W_q∈R^F ^×F`，W_k∈R^F×F`和W_v∈R^F×F`转换到不同的空间。考虑所有小于时间步长j的时间步长，直到时间步长到达j，来保持其自回归性。时序自注意力函数定义如下：

其中，β_v∈R^N×N是通过乘法注意力函数得到的注意力权重矩阵，S∈R^N×N是其每个子项S_ij∈{-∞，0}拥有强自回归属性的掩码矩阵。为了对时序进行编码，将S定义为：

当S_ij＝-∞时，通过softmax函数所得到的注意力权重为0，例如当

时，时间步长i到j不使用注意力机制。

(4)级联增量预测层

在级联增量预测层，通过将

输入到多层感知器(MLP)中，计算得到最终级联增量的预测值P_i：

模型训练：该模型的最终目标是实现对级联增量大小进行预测，本发明采用以下交叉熵的形式作为损失函数来对模型进行优化，并在迭代中损失连续10次不再减小时结束训练，具体损失函数如下所示：

其中P是所有消息的总量，P_i是消息C_i的预测级联增量，

是实际增量。

算法描述：给定信息级联图G_i，经基于不同时间步的子图算法采样后，得到原始信息级联的子图快照集合

并得到其对应的序列表示

将得到的序列表示输入到结构自注意力机制层，对每个节点及其邻居结构进行学习，得到

然后将

与p^j相加输入到时序自注意力机制层得到

最后将各节点融合了动态演化的结构特征和时序特征的向量表示依次通过多层感知机，并输出最终流行度增量预测值P_i。具体描述如下所示。

算法：DySatCas

输入：级联图G_i及其演化序列

的集合

输出：级联增量预测值P_i的集合

过程：

整个算法流程与图3模型架构图一致，主要分为节点嵌入、结构自注意力、时序自注意力和级联增量预测4部分，每部分依照前文公式进行。

实验与分析

1、实验数据集：这里主要基于两个实际场景的公开数据集来对所提出模型的有效性来进行评估，如表1所示，分别是预测新浪微博的转发量和在数据集APS上预测论文的引用量。

SinaWeibo：每一个样本对应一条微博消息的转发路径，其中包含转发用户的id以及转发的时间戳。

APS(American Physical Society)：该数据集包含了美国物理学会的期刊1893年到2009年所发表的论文及其论文引用，每一篇论文及其引文都形成了一个引用级联。

表1实验数据集的详细统计

2、超参数设定：为了获得具体实验数据，这里的设定：时间自注意力层单元数、结构自注意力层单元数和embedding单元数为128，多层感知层单元数为128*64，Adam优化器的初始学习率为0.0005，迭代轮数2000轮，时间步长度N为12。

3、评价指标：和现有文献相同，本发明使用均方对数误差(MSLE)和平均绝对百分比误差(MAPE)来对所提出的模型进行评估，具体评估公式如下：

其中，M是所有级联的总量，P_i是级联增量的预测值，

是实际增量。

4、对比分析：(1)基线模型

(a)Feature-Linear：基于特征的信息级联预测模型是应用最广泛的。本发明的基线模型提取如消息发送者/转发者的特征、结构和时间特征，将此类特征输入到线性回归模型和MLP模型中对信息级联增长量进行预测。

(b)DeepCas：第一个将深度学习应用于信息级联预测的模型，级联图采样方式为随机游走，并采用双向GRU和注意力机制来对进行端到端的信息级联增量的预测。

(c)Topo-LSTM：使用LSTM来对图中节点间关系进行建模。根据上一个节点状态，得到下一个节点的预测结果。

(d)DeepHawkes：结合了深度学习和自激励过程来进行信息级联预测。

(2)模型评价指标对比：为了检验DySatCas模型的效果，分别从现在流行的三类级联预测方法中，选择其中具有代表性模型来进行比较，具体结果如表2所示。

表2不同模型的表现

通过以上实验对比有以下发现：

(a)DySatCas的预测效果优于基线。在微博数据集上，观测时间为0.5小时，MSLE和MAPE的结果分别比第一最佳基线(DeepHawkes)高出2.5％和3.4％；观测时间为1小时，MSLE和MAPE均比其他基线效果好。在数据集APS上，观测时间为5年是，MSLE和MAPE的结果比第一最佳基线分别高出10％和4％，除观测时间3年，MAPE略低于DeepHawkes外，其他数据均优于基线，且随着观测时间增加，预测误差逐渐减少，这表明了DySatCas模型的对级联图的动态演化过程进行学习的有效性。

(b)从实验结果不难看出，在两个数据集中，基于特征的基线模型的预测效果并不比基于深度学习的基线模型差。在微博数据集中，基于特征的基线模型预测准确性甚至高于传统的基于深度学习的基线模型(DeepCas、Topo-LSTM)。但该方法极大程度依赖于人工提取特征，存在很大程度上的不稳定性和不确定性。并且通过人工的方法，很难提取到较复杂信息中所隐含的特征，适用场景相对于固定，推广性差。

(c)DeepCas是第一个基于图表示学习的级联预测模型。其主要使用随机游走的方法对级联图进行采样，但对信息实际传播顺序没有进行考虑，同时忽略了传播过程中的时序依赖性，使得预测效果较其他深度学习方法较差，说明了信息级联预测中，级联图的结构特征和时序特征的重要性。

(d)Topo-LSTM是基于RNN的级联预测模型，其采用扩散拓扑结构，但没有考虑时间因素以及不确定的级联效应，使得预测效果与DeepHawkes及DySatCas有一定的差距。

(e)DeepHawkes模型是一种结合了生成式方法和深度学习的模型。在级联预测过程中，不考虑级联的拓扑信息，依赖于时间序列进行建模，主要关注点在于自我激励机制对级联增量的影响。虽然相比DeepCas和Topo-LSTM预测准确性更高，但因为没有考虑级联的结构特征，且忽略了级联的动态性，使得预测效果较DySatCas相比，不够理想。从而说明了级联预测中，级联图的结构特征、时序特征及其传播过程中的动态过程都是影响预测效果关键的因素。

5、模型分析：(1)模型变体：为了更好的了解DySatCas模型各组成部分对于模型整体预测效果的影响，本实施例引入了的两种变体进行对比。

(a)DySatCas-Temporal：在该变体中，忽略掉时序注意力层，直接将通过结构自注意力层的向量表示输入到多层感知器进行预测。

(b)DySatCas-Structural：在该变体中，忽略掉结构注意力层，直接将通过子图采样后的向量编码输入到时序自注意力层，然后将时序自注意力机层的表示输入到多层感知器中。

表3不同变体在微博数据集上的表现

表3表明了DySatCas及其变体的性能，从表中可以看出：与DySatCas相比，在观测时间为0.5h时，移除结构自注意力层的DySatCas-Structural和移除时序自注意力层的DySatCas-Temporal预测误差分别增加了10％和17％，其中移除了时序自注意力层的变体误差更大，说明了级联预测过程中，时序特征对预测效果有更大的影响力，同时也证明了本发明所提出模型各组成部分的有效性。

(2)时间步长：为了验证时间步长在动态图演化过程中的影响，本发明在微博数据集上,分别将时间步长设置为2、3、4、5、6、7、8、9、10、11、12，得到其预测结果，具体结果如图4所示。由实验结果可知，随着时间步数越长级联预测效果越好，后期误差出现变化不大的原因主要是，时间步划分过细，导致后期级联图节点新增节点或变化过少，所学习到的节点表示相近。

(3)观测时间窗口：同时观测时间窗口也是DySatCas模型中最重要的参数，如图5所示，在微博数据集和APS数据集上，分别把观测时间窗口设置为0.5、1、2、3、4小时和3、4、5、6、7、8年，由实验结果可知观察时间窗口越长，DySatCas的训练数据越多，从而就能做出更准确的预测。

本发明通过融合动态图学习和自注意力机制，提出了级联预测模型DySatCas。该模型不严重依赖人工标记特征，充分考虑级联传播过程中的动态性和不确定性，根据级联图的结构特征和时序特征来进行级联预测。更好地帮助人们了解信息传播机制和规律，也为后续事件演化研究提供有力的技术支撑。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护的范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于自注意力机制和动态图的信息级联预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于自注意力机制和动态图的信息级联预测方法，其特征在于，所述步骤S1中在观测时间内以相同的间隔时间进行采样。

3.根据权利要求1所述的一种基于自注意力机制和动态图的信息级联预测方法，其特征在于，所述步骤S1中的编码具体为：将演变子图中的节点嵌入多维向量空间。

4.根据权利要求3所述的一种基于自注意力机制和动态图的信息级联预测方法，其特征在于，所述节点嵌入的维度可以调整。

5.根据权利要求1所述的一种基于自注意力机制和动态图的信息级联预测方法，其特征在于，建立融合自注意力机制和动态图的级联预测模型，所述融合自注意力机制和动态图的级联预测模型包括节点嵌入层、结构自注意力层、时序自注意力层和级联增量预测层，分别实现步骤S1、S2、S3和S4。

6.根据权利要求5所述的一种基于自注意力机制和动态图的信息级联预测方法，其特征在于，所述结构自注意力层通过多层堆叠的自注意力机制实现，最后输出的是节点的空间结构特征的表示。

7.根据权利要求5所述的一种基于自注意力机制和动态图的信息级联预测方法，其特征在于，所述时序自注意力层采用多个堆叠的时序自注意力模块，充分考虑级联图的动态演化过程，捕捉多个时间段的节点的时序变化。

8.根据权利要求5所述的一种基于自注意力机制和动态图的信息级联预测方法，其特征在于，所述融合自注意力机制和动态图的级联预测模型的训练过程中，采用交叉熵作为损失函数对模型进行优化，并在迭代中损失连续10次不再减小时，结束训练。