CN113887806B

CN113887806B - 长尾级联流行度预测模型、训练方法及预测方法

Info

Publication number: CN113887806B
Application number: CN202111169186.XA
Authority: CN
Inventors: 周帆; 余柳; 代雨柔; 钟婷
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-05-09
Filing date: 2021-10-08
Publication date: 2023-04-07
Anticipated expiration: 2041-10-08
Also published as: CN113887806A

Abstract

本发明公开了一种长尾级联流行度预测模型、训练方法及预测方法，该长尾级联流行度预测模型包括骨干网络、以及位于骨干网络之后的回归器，回归器包括并行设置的原始回归器和子网络SUB；骨干网络和原始回归器构成长尾级联流行度预测模型的基线模型；骨干网络用于提取长尾级联的时间特征和空间特征；原始回归器用于得到该长尾级联流行度的原始预测值；述子网络SUB用于得到该长尾级联流行度的加权偏差；以该长尾级联流行度的原始预测值与加权偏差之和作为最终流行度预测值。本发明利用解耦的思想，整个模型训练分为两个阶段，首先利用不同的采样策略来提取骨干网络的特征表示，然后将骨干网络的参数固定住，再通过几种不同的方法微调回归器，该回归器结合了原始的预测值和由子网络SUB产生的加权偏差值，达到更准确预测流行度的目的。

Description

长尾级联流行度预测模型、训练方法及预测方法

技术领域

本发明属于深度学习(Deep Learning)中的信息扩散(Information diffusion)、信息级联(Information Cascade)和流行度预测(Popularity Prediction)领域，是一种基于解耦思想(Decoupling Scheme)来解决长尾级联预测(Long-tailed CascadePrediction)问题的通用方法。

背景技术

信息扩散是指信息通过交互作用从一个地方传播到另一个地方的过程，该领域涵盖了来自众多科学领域的技术，包括社会学，流行病学和人种论等不同领域的技术。本发明是针对信息级联的扩散进行合理有效的建模和流行度预测。信息级联的一项典型任务是预测某一条级联(推文、微博等)，在特定一段时间段后潜在受影响用户的规模，也即流行度预测。特别地，Twitter，Facebook，微信和新浪微博等在线社交平台的出现为信息的产生和传播带来了前所未有的便利。用户通过社交网络以级联的形式传播各种新闻，事件和帖子。因此，这一对信息级联流行度的准确预测任务对于这些平台的用户和所有者都很有价值。例如，了解哪种类型的推文传播更广泛，可以帮助营销专家设计他们的策略；预测谣言的潜在影响用户，使得管理员可以及早进行干预以避免严重后果等。

传统的方法将精力集中在对级联的传播进行转发关系和时间特征建模，传统的建模方法面临着数据集严重不平衡的挑战,为了防止损失函数或度量指标受到少部分极值数据的影响，传统的方法重新制定了问题定义，例如将问题转化为分类问题，预测一条级联是否会超过级联的中值大小；或者是采用其他的评估指标，如k-top覆盖率、确定/相关系数及其变量、排名。

然而，现实中的数据集存在极度不平衡的现象，服从长尾分布(Long-tailDistribution)。例如在级联预测问题中，大的级联占据少数，小的级联占大多数，该现象导致实例丰富的数据支配训练过程，从而导致模型的预测非常保守，使得预测值分布在相对中间大小的范围内，从而降低了预测性能。

但是，目前还没有研究从数据服从长尾分布的角度来解决级联预测效果低下的回归问题。

发明内容

本发明的目的旨在针对传统方法直接回避长尾数据带来的预测准确率不高、可解释性低等技术现状，提供一种直面长尾级联信息数据的流行度预测模型及训练方法，利用解耦思想，进行分步训练，以此来提高流行度预测准确率，能够作为现有的级联流行度预测模型的可拔插的通用方法，并具有较强的可解释性。

本发明的另一目的旨在提供一种长尾级联流行度预测方法。

本发明提供的长尾级联流行度预测模型可以使用传统的级联流行度预测模型(例如DeepCas、DeepHawkes、VaCas等)作为本发明长尾级联流行度预测模型的基线模型，所有基线模型都是采用联合训练的方式，本发明在基线模型基础之上采用解耦训练的思想。

本发明提供的长尾级联流行度预测模型包括骨干网络、以及位于骨干网络之后的回归器，所述回归器包括并行设置的原始回归器和设计的子网络SUB；所述骨干网络和原始回归器构成长尾级联流行度预测模型的基线模型；

所述骨干网络用于提取长尾级联的时间特征和空间特征；

所述原始回归器用于依据骨干网络提取的时间特征和空间特征，得到该长尾级联流行度的原始预测值；

所述子网络SUB用于依据骨干网络提取的时间特征和空间特征，得到该长尾级联流行度的加权偏差；

以该长尾级联流行度的原始预测值与加权偏差之和作为最终流行度预测值。

上述长尾级联流行度预测模型，所述骨干网络使用时序模型和图模型来提取信息级联的时间特征和图的演化特征(即空间特征)。其理论基础可以参考文献【Bingyi Kang,SainingXie,Marcus Rohrbach,Zhicheng Yan,Albert Gordo,JiashiFeng,and YannisKalantidis.2020.Decoupling representation and classifier for long-tailedrecognition.InICLR.】。本发明对于骨干网络的具体形式不进行任何限定，本领域技术人员可以选择能够实现时间特征和空间特征提取的相关技术手段。

上述长尾级联流行度预测模型，所述原始回归器即为传统的级联流行度预测模型的回归器，采用的是多层感知机MLP(Multilayer Perceptron)。

上述长尾级联流行度预测模型，所述子网络SUB包括并行设置的第一分支子网络和第二分支子网络；第一分支子网络用于获取该条长尾级联在R个类别中的偏差b_r；第二分支子网络通过依次设置的全连接层和softmax函数得到该条长尾级联在R个类别的偏差的概率p_r，则该条长尾级联流行度的加权偏差为

则将原始的预测值与设计的孪生网络(子网络)产生的加权偏差值相结合，得到最后纠正偏差后的最终流行度预测值,

表示回归器输出的该长尾级联流行度的原始预测值。由于预测值结合了基线模型的多层感知机产生的原始预测值和子网络产生的加权偏差值，子网络针对不同类别的级联自适应地调整加权偏差，从而使回归器纠正模型的预测值。

本发明构建上述长尾级联流行度预测模型的思路为，主要从长尾分布的角度，利用解耦的思想，两步训练模型，首先随机初始化整个网络的参数(包括回归器参数和骨干网络参数)，利用不同的采样策略来提取骨干网络的特征表示(Representation)，然后将骨干网络(Backbone)的参数固定住，再通过几种不同的方法微调回归器(Regressor)，该回归器结合了原始的预测值和由子网络(SUB)产生的加权偏差值(Weighted Bias)，达到更准确预测流行度的目的。

基于上述发明思路，本发明提供的长尾级联流行度预测模型训练方法，包括以下步骤：

S1数据预处理：统计每一条级联在观测时间内的转发路径，将每一条级联的历史转发过程用加权的有向无环图来表示，并划分出输入数据和流行度标签，得到训练集数据；经过预处理后的原始数据集为长尾分布，将其按照标签的大小降序排序，将训练集划分为R大类；

S2提取骨干网络的参数：基于步骤S1预处理后的R大类训练集，分别采用多种采样策略学习长尾级联流行度预测模型的骨干网络表示，从多种采样策略得到的结果中筛选出骨干网络的最优表示；

S3微调回归器：基于步骤S1预处理后的R大类训练集，分别采用多种微调方法对骨干网络固定后的长尾级联流行度预测模型进行微调，得到长尾级联流行度预测模型。

上述长尾级联流行度预测模型训练方法，步骤S1的目的在于对原始历史转发数据进行预处理，转化成模型需要的输入数据。信息级联流行度预测旨在通过观察它的早期演化过程来预测未来的级联大小。对于原始数据集，令C表示一条感兴趣的级联，该级联从时间常数t₀开始，通过网络进行传播。针对不同的数据集，每条级联有不同的观测时间t_s，以及观测时间内的转发数量|C(t_s)|。对原始数据集按照以下分步骤进行预处理：

S11对原始数据集进行筛选；本步骤中过滤掉原始数据集在观测时间内转发量|C(t_s)|<10的级联，对于|C(t_s)|>100的级联，只会选择前100名的参与者；

S12对筛选出的每一条级联的历史转发过程用加权有向无环图来表示，得到训练集数据，并划分出输入数据和标签(即流行度)；例如输入数据为X＝{x_i＝C_i(t_s)},y_i＝P_i(t_p),i∈{1,2,…,n}，其中x_i表示级联观测时间内的转发，y_i表示x_i的标签(即流行度)，t_p为预测时间,n表示训练集总数量；

S13将训练集数据按照流行度划分为R大类；n_j代表类别j训练样本的个数，R代表类别的个数，所以训练集的总数量

上述长尾级联流行度预测模型训练方法，步骤S2的目的在于解决极端不平衡数据(长尾分布数据)的表示学习，即提取模型骨干网络部分的参数直到模型收敛。用z_i＝f(x_i；θ)代表级联x_i的表示，其中f(x_i；θ)是由长尾级联流行度预测模型去除回归器后的骨干网络实现的，θ表示骨干网络部分的参数。不同的采样策略会学习到不同效果的骨干网络的表示，为学习到最好的表示，将训练集原始的长尾数据喂入现有的级联流行度预测模型(即未添加子网络SUB的长尾级联流行度预测模型)，通过不同的采样策略训练骨干网络，提取出模型的骨干网络的最优表示，然后将骨干网络的参数固定住。本发明采用一系列不同的采样策略分别对分类后的训练集数据进行采样，来学习出效果不同的表示z，最终筛选出最好的骨干网络表示z^*，则z^*对应了最好的采样策略，蕴含了表示级联最好的时间特征和空间特征，然后将训练好的骨干网络参数固定。本发明使用的采样策略包括但不限于实例平衡采样、类平衡采样、平方根采样和渐进平衡采样等，令p_j为从类别j采样的概率，考虑

(1)实例平衡采样策略(Instance-Balanced Sampling)，这是最常见的采用策略之一，训练集中的每个样本具有相等的被选择概率，即q＝1：

n_j表示当前类别的样本数量、n_r表示不同类别的样本数量。

(2)类平衡采样策略(Class-Balanced Sampling)，不同类别的样本具有相等的被选择概率，即q＝0：

(3)平方根采样策略(Square-RootSampling)，作为实例平衡采样和类平衡采样之间的折衷策略，令q＝1/2：

(4)渐进平衡采样策略(Progressively-Balanced Sampling)，该策略结合了前几种策略的特征,其中e是当前迭代次数，E是控制迭代总数的超参数：

上述步骤S3的目的在于通过微调回归器，以获取更准确的预测值。子网络SUB中的两个分支子网络均为多层感知机，因此回归器由多个多层感知机组成，其中参数包括W和b，W表示线性映射矩阵(即回归器权重)，b表示偏置常数。传统的基线模型，对于n个观测到的级联C_i(t_s)(1≤i≤n)，可以将流行度预测形式化为通过最小化以下损失函数来解决的回归问题：

其中，P_i(t_p)＝|C_i(t_p)|是级联C_i(t_p)的真实值，

是级联C_i(t_p)的预测值(记作

)，Θ是模型所有可训练的参数，包括骨干网络和回归器的参数。

为解决长尾问题，本发明在传统的级联流行度预测模型的原始回归器基础上，通过在骨干网络之后另外添加的2个分支作为子网络SUB构成当前的回归器，来针对不同类别的级联自适应地调整加权偏差。因此，整个长尾级联流行度预测模型的损失函数如下：

其中，CE_loss表示交叉熵损失函数。

本发明设计了两种微调回归器的方法，包括回归器重新训练法和η归一化回归器训练法。利用这两种微调方法对回归器进行重新训练，旨在通过微调来纠正决策边界，从而使回归器能够区分不同的级联类别并进行更准确的预测。

(1)回归器重训练法：首先将S2中得到的骨干网络参数θ保持固定，然后随机初始化回归器，并使用类平衡采样策略对训练集进行采样，进一步对整个长尾级联流行度预测模型(即以

作为损失函数)进行训练，从而经过一小部分迭代次数来优化回归器。

(2)η归一化回归器训练法：首先按照回归器重训练方法对回归器进行训练，在对回归器进行微调后，回归器权重的范数趋于相似。为了使决策边界更具区分性，本发明通过重缩放过程：

W表示回归器权重；调整回归器权重范数来纠正决策边界的不平衡。在这种情况下，使S2中得到的骨干网络参数θ以及按照回归器重训练方法得到的回归器参数b保持固定，并使用

正则化回归器中的W，再使用类平衡采样策略对训练集进行采样，进一步对整个长尾级联流行度预测模型(即以

作为损失函数)进行训练，学习正则化缩放因子η(即仅使用类平衡采样在训练集上学习缩放因子η)。

本发明进一步提供了一种长尾级联流行度预测方法，将待预测级联输入到构建的长尾级联流行度预测模型中，得到该待预测级联的流行度预测值；具体包括以下步骤：

L1将待预测级联的历史转发过程用加权有向无环图来表示；

L2将使用加权有向无环图表示的待预测级联输入到构建的长尾级联流行度预测模型中，得到该待预测级联的流行度预测值。

将流行度预测值与设定的阈值比较，可以确定该待预测级联的变化趋势，从而最大化影响营销设计、谣言预测等下游任务。

至此，本发明就实现了从长尾角度利用解耦思想来提高级联流行度预测的方法。需要声明一点的是，本发明是一个可拔插的通用方法，本发明可以轻松地合并到现有的级联流行度预测模型中。

与现有的技术相比，本发明具有以下有益效果：

(1)本发明基于解耦思想来对长尾级联流行度预测模型进行训练，整个训练分为两个阶段：骨干网络表示提取和回归器微调；这样只需要使用采样策略学习到良好的表示，并且利用预先设计好的方法微调回归器，就可以极大的缓解长尾问题导致的预测精度不高的问题，而不需要转化问题的定义，或者采用其他的度量指标。

(2)本发明设计了一个新颖的概率孪生网络(子网络)，以针对不同的流行度类别自适应地调整加权偏差，从而使回归器更正模型的预测值，有效提高流行度预测准确率。

(3)本发明可以轻松地合并到现有长尾级联流行度预测模型中，是一个可拔插的通用方法，具有一定的通用价值并且具有较强的可解释性。

(4)本发明显著提高了预测精度，并缓解了长尾级联预测问题，并具有较强的可解释性。

(5)本发明引入了长尾分布影响的新颖考虑，直面数据极度不平衡的问题；本发明的解决思路，可以启发其他的应用领域在面临数据不平衡的现象时，从数据本身出发，使用解耦思想，两步训练模型。

(6)本发明对于理解社交网络平台的演化过程极其重要；例如，通过本发明精确预测某条微博在未来一段时间的转发量，可以用于营销设计，谣言预测，最大化影响下游任务。

附图说明

图1为对信息级联的扩散过程的解释。

图2为本发明长尾级联流行度预测模型示意图；(a)为框架图；(b)为以VaCas作为基线模型的详细示意图。

图3为不同采样策略在不同回归器微调方法下的效果对比问题；其中(a)对应Weibo数据集，(b)对应Twitter数据集。

术语解释

信息级联(Information Cascade)：附图1以一个示例说明了该过程：一个根节点发布一条公共内容后，根节点的朋友和关注者将看到公共内容后一个接一个的进行转发。这样，公共内容通过社交网络的边缘传播并创建了信息级联，信息级联的一项典型任务是预测某一条级联(推文、微博等)，在一段观测时间段后潜在受影响用户的规模。其理论基础可以参考文献【J.Cheng,L.Adamic,P.A.Dow,J.M.Kleinberg,and J.Leskovec.Cancascades be predicted？In Proc.of WWW,2014.】

具体实施方式

结合附图对本发明做进一步描述。

实施例1

如图2(a)所示，本实施例提供的长尾级联流行度预测模型包括骨干网络、以及位于骨干网络之后的回归器,回归器包括并行设置的原始回归器和子网络SUB；骨干网络和原始回归器构成长尾级联流行度预测模型的基线模型。使用传统的级联流行度预测模型(例如DeepCas、DeepHawkes、VaCas等)作为本发明长尾级联流行度预测模型的基线模型。

骨干网络用于提取长尾级联的时间特征和空间特征，可以使用时序模型和图模型来实现。

原始回归器，即传统的级联流行度预测模型的回归器，用于依据骨干网络提取的时间特征和空间特征，得到该长尾级联流行度的原始预测值。本实施例采用的是多层感知机MLP(Multilayer Perceptron)。

子网络SUB用于依据骨干网络提取的时间特征和空间特征，得到该长尾级联流行度的加权偏差。子网络SUB包括并行设置的第一分支子网络和第二分支子网络；两个分支子网络均为多层感知机。第一分支子网络采用传统多层感知机，依据骨干网络提取的该条长尾级联的时间特征和空间特征获取该条长尾级联在R个类别中的偏差br；第二分支子网络通过依次设置的全连接层和softmax函数得到该条长尾级联在R个类别的偏差的概率pr，则该条长尾级联流行度的加权偏差为

表示回归器输出的该长尾级联流行度的原始预测值。

以Vacas基线模型为例，对长尾级联流行度预测模型的实现方式进行详细解释。如图2(b)所示，VaCas整个模型被分为2个部分，前面的骨干网络和后面的回归器，其中骨干网络用于时间特征和空间特征的学习，不同的基线模型使用不同的技术或方法实现对空间和时间特征的学习。给定一条级联C_i，该级联在观测时间内级联图(Cascade Graph)的演化过程可以表示成G_i＝{g_i(t₀),g_i(t₁)…,g_i(t_o)}。VaCas使用图小波(Graph Wavelet)学习到级联图G_i的扩散嵌入(Diffusion Embedding)，也即学习到每个节点在图中的上下文嵌入，将学习到的节点嵌入送进2个分支：其中一个是两层级的VAE(Variational Autoencoder)(其理论基础可以参考文献【D.P.Kingma and M.Welling,“Auto-encodingvariationalbayes,”in ICLR,2014.】)实现对空间特征进行建模，分别为Sub-graph VAEs和CascadeVAE。首先，我们计算出每个sub-graph的均值μ_i和方差σ_i，然后使用VAE得到每个sub-graph的隐变量z₁。将sub-graph VAEs的隐变量z₁作为Cascade VAE的输入，然后使用基于RNN的VAE对隐变量z₁继续重建得到z₂，上述过程的联合概率可以表示为p_θ(G_i,z₁,z₂)＝p_θ(z₁)p(z₂|z₁)p_θ(G_i|z₁,z₂)；另一个分支，将节点嵌入送进2层的双向GRU(Bi-GRU)对时间特征进行建模，经过两层GRU分别得到特征h₁和h₂。最后，将两个分支的结果串联(concatenate)起来得到时空特征。至此，实现了骨干网络的功能。在骨干网络后面并联连接一个多层感知机(MLP)和一个子网络SUB；其中多层感知机(MLP)作为回归器的一部分进行流行度预测，输出值为长尾级联流行度的原始预测值；子网络SUB结构如前所述，其输出值为长尾级联流行度的加权偏差。

实施例2

如图2所示，本实施例提供的长尾级联流行度预测模型训练方法分为两步：第一步，首先将原始的长尾分布的数据集喂入模型，使用S2中提到的4种采样方法提取模型骨干网络部分的参数，也就是提取模型的时间和空间特征，直到模型收敛，我们选取四种方法中得到的最好的表示，并将骨干网络的参数固定。接下来进行第二步，先随机初始化回归器的参数，然后使用S3中提到的2种方法微调回归器，直到模型收敛，选取预测效果最好的微调方法，最终得到最优的预测模型。

本实施例采用实施例1提供的基于解耦骨干网路和回归器的长尾级联流行度预测模型在两个不同的服从长尾分布的真实数据集(Weibo数据集、Twitter数据集，第一个数据集来源参考文献【Qi Cao,Huawei Shen,Keting Cen,WentaoOuyang,and XueqiCheng.2017.Deep-Hawkes:Bridging the gap between prediction and understandingof information cascades.In CIKM.1149–1158】第二个数据集来源参考文献【LilianWeng,FilippoMenczer,and Yong-YeolAhn.2013.Virality prediction andcommunity structure in social networks.Scientific Reports3(2013)】)上进行训练得到相应的长尾级联流行度预测模型，并对其预测效果进行解释。

本实施例提供了实施例1中长尾级联流行度预测模型的训练方法，包括以下步骤：

S1数据预处理：统计每一条级联在观测时间内的转发路径，将每一条级联的历史转发过程用加权的有向无环图来表示，并划分出输入数据和流行度标签，得到训练集数据；经过预处理后的原始数据集为长尾分布，将其按照标签的大小降序排序，将训练集划分为R大类。

以Weibo数据集和Twitter数据集作为原始数据集。对于原始数据集，令C表示一条感兴趣的级联，该级联从时间常数t₀开始，通过网络进行传播。针对不同的数据集，每条级联有不同的观测时间t_s，以及观测时间内的转发数量|C(t_s)|。对原始数据集按照以下分步骤进行预处理：

S11对原始数据集进行筛选；本步骤中过滤掉原始数据集中|C(t_s)|<10的级联，对于|C(t_s)|>100的级联，只会选择前100名的参与者。

S12对筛选出的每一条级联的历史转发过程用加权有向无环图来表示，得到用加权有向无环图表示的数据集。

本实施例中，使用的是现有数据集，为了对训练后的长尾级联流行度预测模型预测效果进行验证和测试，这里，将数据集划分为训练集(占70％)，验证集(占15％)，测试集(占15％)。并将各数据集划分出输入数据和标签(即流行度)；以训练集为例，输入数据可表示为X＝{x_i＝C_i(t_s)},y_i＝P_i(t_p),i∈{1,2,…,n}，其中x_i表示级联观测时间内的转发，y_i表示x_i的标签(即流行度)，t_p为预测时间,n表示训练集总数量。

本实施例中，将训练集数据按照流行度划分为三大类，即R＝3；具体为：流行度较多类(Many-Shot，占20％)，流行度适中类(Medium-Shot，占60％)和流行度较少类(Few-Shot，占20％)。

S2提取骨干网络的参数：基于步骤S1预处理后的R大类训练集，分别采用多种采样策略学习长尾级联流行度预测模型的骨干网络表示，从多种采样策略得到的结果中筛选出骨干网络的最优表示。

分别采用前面给出的实例平衡采样、类平衡采样、平方根采样和渐进平衡采样对分类后的训练集数据进行采样，并利用采样后的数据对回归器参数固定的长尾级联流行度预测模型进行训练，从中筛选出最好的骨干网络表示z^*，则z^*对应了最好的采样策略，蕴含了表示级联最好的时间特征和空间特征，然后将训练好的骨干网络参数固定。

本步骤包括以下步骤：

S21分别采用前面给出的实例平衡采样、类平衡采样、平方根采样和渐进平衡采样任一采样策略对分类后的训练集数据进行采样，得到采样后的训练集数据，并输入至长尾级联流行度预测模型。

S22随机初始化骨干网络和回归器参数，并将回归器参数固定，只对骨干网络的参数进行学习，以

作为损失函数，对采样后的训练集数据进行学习，直至模型收敛，也即度量指标Mean Squared Logarithmic Error(MSLE)或者Mean Absolute PercentageError(MAPE),在验证集上连续10个迭代都没下降就停止训练。

按照上述步骤S21-S22，分别采用实例平衡采样、类平衡采样、平方根采样和渐进平衡采样后的训练集数据对骨干网络(此时，回归器参数固定)进行训练。以预测值

和真实值y_i之间误差最小，也即度量指标MSLE或MAPE最小的骨干网络表示作为最好的骨干网络表示z^*。

S3微调回归器：基于步骤S1预处理后的R大类训练集，分别采用多种微调方法对骨干网络固定后的长尾级联流行度预测模型进行微调，直至模型再次收敛，最后得到长尾级联流行度预测模型。

本实施例分别采用两种微调回归器的方法(回归器重新训练法和η归一化回归器训练法)确定长尾级联流行度预测模型的回归器参数。下面分别给出详细解释。

(一)回归器重训练法

对长尾级联流行度预测模型回归器的训练过程包括以下步骤：

S31随机初始化回归器参数，即随机初始化W和b。

S32使用类平衡采样策略对步骤S1得到的训练集进行采样，并将采样后的训练集数据输入长尾级联流行度预测模型。

S33将S2中得到的骨干网络参数θ保持固定，使用采样后的训练集数据对长尾级联流行度预测模型进行训练，最小化级联流行度真实值y_i和预测值

之间的损失函数

来学习回归器参数W和b。

这里，所使用的损失函数为：

Θ是模型所有可训练的参数，由于骨干网络参数θ已经固定，因此这里可训练参数为回归器的参数W和b。

其中S32和S33都是以训练集去指导模型参数的调整，以验证集去验证训练集得到的模型参数，直至度量指标MSLE或MAPE在验证集上连续10个迭代都没下降就停止训练，也即收敛到最优参数的模型。

训练得到的长尾级联流行度预测模型记为最终的长尾级联流行度预测模型。

(二)η归一化回归器训练法

S31′随机初始化回归器参数，即随机初始化W和b。

S32′使用类平衡采样策略对步骤S1得到的训练集进行采样。

S33′将S2中得到的骨干网络参数θ保持固定，使用步骤S32′采样后的训练集数据对长尾级联流行度预测模型进行训练，最小化级联流行度真实值y_i和预测值

之间的损失函数来学习回归器参数W和b。

这里，所使用的损失函数为：

S34′将S2中得到的骨干网络参数θ以及S33′中得到的回归器参数W和b保持固定，并使用

正则化回归器中的W，然后用步骤S32′采样后的训练集数据对长尾级联流行度预测模型进行训练，得到正则化缩放因子η。

这里，所使用的损失函数为：

Θ是模型所有可训练的参数，由于骨干网络参数和回归器参数已经固定，因此这里可训练参数为缩放因子η。

其中S32′，S33′和S34′都是以训练集去指导模型参数的调整，以验证集去验证训练集得到的模型参数，直至度量指标MSLE或MAPE在验证集上连续10个迭代都没下降就停止训练，最终收敛到最优参数的模型。

作为一个通用的可拔插方法，本发明以3个不同的基线模型(DeepCas、DeepHawkes、VaCas)构建实施例1中的长尾级联流行度预测模型，然后按照上述步骤S1-S3对构建的长尾级联流行度预测模型进行训练。

再利用训练好的长尾级联流行度预测模型对测试集数据按照以下步骤对长尾级联流行度进行预测：

L1将待预测级联的历史转发过程用加权有向无环图来表示。

这里，测试集数据是由步骤S12中划分得到的，已经用加权有向无环图进行表示。

本实施例，采用了两种常用的度量方法(值越小，预测效果越好)，即均方对数算术误差(MSLE)和平均绝对百分比误差(MAPE)，来对流行度预测效果进行评价，结果见表1所示。

表1：所有联合训练和解耦训练得到的MSLE对比图

表1中的3个基线方法的介绍如下：

DeepCas：是第一个通过使用多个随机游走过程进行级联预测的端到端深度学习模型。【Cheng Li,Jiaqi Ma,XiaoxiaoGuo,and Qiaozhu Mei.2017.DeepCas:An end-to-end predictor of information cascades.In WWW.577–586.】

DeepHawkes：结合了深度学习和Hawkes的自激点过程，弥合了预测性能和可解释性之间的差距。【Qi Cao,Huawei Shen,Keting Cen,WentaoOuyang,and XueqiCheng.2017.Deep-Hawkes:Bridging the gap between prediction and understandingof information cascades.In CIKM.1149–1158.】

VaCas：集成了信息级联的分层扩散模型和时空结构特征，同时还捕获了扩散不确定性。【Fan Zhou,XoveeXu,Kunpeng Zhang,GoceTrajcevski,and TingZhong.2020.Variational information diffusion for probabilistic cascadesprediction.InINFOCOM.1618–1627.】

Plain：是指直接使用步骤S12得到的训练集数据对三个基线模型(DeepCas、DeepHawkes和VaCas)进行训练后(将回归器的权重参数W，b和骨干网络的参数θ一起训练，使用的损失函数为

再使用训练好的模型对测试集进行流行度预测的效果。

Joint：是指使用不同采样策略对训练集数据进行采用后的数据对三个基线模型(DeepCas、DeepHawkes和VaCas)进行训练后(将回归器的权重参数W，b和骨干网络的参数θ一起训练，使用的损失函数为

再使用训练好的模型对测试集进行流行度预测的效果。

rRT(Regressor Re-Training)：是指按照前面给出的骨干网络训练方法和回归器重训练方法对三个基线模型(DeepCas、DeepHawkes和VaCas)进行训练后，再使用训练好的模型对测试集进行流行度预测的效果；这里由于模型不包含子网络SUB，因此用于训练模型使用的损失函数为

η-norm(η-Normalized Regressor)：是指按照前面给出的骨干网络训练法和η归一化回归器训练方法对三个基线模型(DeepCas、DeepHawkes和VaCas)进行训练后，再使用训练好的模型对测试集进行流行度预测的效果；这里由于模型不包含子网络SUB，因此用于训练模型使用的损失函数为

Joint+SUB：是指使用不同采样策略对训练集数据进行采用后的数据对由三个基线模型(DeepCas、DeepHawkes和VaCas)和子网络SUB组成的实施例1中的长尾级联流行度预测模型进行训练后(将回归器的权重参数W，b和骨干网络的参数θ一起联合训练，使用的损失函数为

再使用训练好的模型对测试集进行流行度预测的效果。

rRT+SUB：是指按照前面给出的骨干网络训练方法和回归器重训练方法对由三个基线模型(DeepCas、DeepHawkes和VaCas)和子网络SUB组成的实施例1中的长尾级联流行度预测模型进行训练后(使用的损失函数为

)，再使用训练好的模型对测试集进行流行度预测的效果。

η-norm+SUB：是指按照前面给出的骨干网络训练方法和η归一化回归器训练方法对由三个基线模型(DeepCas、DeepHawkes和VaCas)和子网络SUB组成的实施例1中的长尾级联流行度预测模型进行训练后(使用的损失函数为

)，再使用训练好的模型对测试集进行流行度预测的效果。

表1显示了3个基线模型的原始结果(Plain)，在基线模型加上回归器微调方法(Joint、rRT、η-norm，即不包含子网络SUB)，以及本发明的解耦方法(Joint+SUB、rRT+SUB、η-norm+SUB)后的预测结果的对比实验结果。可以很容易地观察到，本发明提出的方案在两个数据集上都优于所有原始基线模型。具体来说，表现最好的方案(η-norm+SUB)与DeepCas、DeepHawkes和VaCas相比，MSLE分别降低了9.7％、11.8％和9.1％。

通过表1可进一步观测到，本发明提出的rRT+SUB和η-norm+SUB方案在很大程度上优于联合训练的基线模型。例如，当将相同的采样策略应用于表示学习，将DeepCas与η-norm+SUB一起使用，与Joint+SUB相比，它可将性能提高4.8％。解耦方案rRT/η-norm+SUB始终比联合训练得到更低的预测误差，这是由于它们通过调整回归器权值的更新过程来实现有效的再平衡操作，从而匹配长尾分布和子网络产生的加权偏差。本发明提供的长尾级联流行度预测模型对极端值/离群值具有鲁棒性，当联合训练整个网络时，避免了实例丰富的数据造成的预测偏差。

本发明使用S2中的4种采样策略学习到骨干网络的表示z_i＝f(x_i；θ)，然后将骨干网络的参数θ固定，最后使用S3中的2种微调方法对回归器进行微调。一共有4+4*2＝12种组合方式(其中第一个4代表骨干网络和回归器联合训练，4*2代表解耦训练(也即进一步对回归器微调)，从中选出最好的一种组合方式。可以从表1及图3总结出，将η-norm+SUB解耦方案与实例平衡采样策略相结合，可以获得性能最佳的预测模型。

由此可知，本发明从模型会受到长尾分布的影响这个新颖的角度，提出一个新的训练模型方法，缓解数据极度不平衡的问题。本发明利用解耦的思想，整个训练分为两个阶段：表示提取和微调回归器。本发明设计了一个新颖的概率孪生网络(子网络)，以针对不同的流行度类别自适应地调整加权偏差，从而使回归器更正模型的预测值。本发明可以轻松地合并到现有模型中，显著提高了预测精度，并缓解了长尾级联预测问题，具有较强的可解释性。所提方案在性能上的改进表明，将表示学习与回归器解耦是解决信息级联预测中长尾回归问题的一个很有前景希望的方向。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种长尾级联流行度预测模型，其特征在于包括骨干网络、以及位于骨干网络之后的回归器，所述回归器包括并行设置的原始回归器和子网络SUB；所述骨干网络和原始回归器构成长尾级联流行度预测模型的基线模型；

所述骨干网络用于提取长尾级联的时间特征和空间特征；

所述子网络SUB用于依据骨干网络提取的时间特征和空间特征，得到该长尾级联流行度的加权偏差；所述子网络SUB包括并行设置的第一分支子网络和第二分支子网络；第一分支子网络用于获取该条长尾级联在R个类别中的偏差b_r；第二分支子网络通过全连接层和softmax函数得到该条长尾级联在R个类别的偏差的概率p_r，则该条长尾级联流行度的加权偏差为

以该长尾级联流行度的原始预测值与加权偏差之和作为最终流行度预测值；

所述长尾级联流行度预测模型按照以下步骤训练得到：

S1数据预处理：统计每一条级联在观测时间内的转发路径，将每一条级联的历史转发过程用加权的有向无环图来表示，并划分出输入数据和流行度标签，得到训练集数据；经过预处理后的原始数据集为长尾分布，将其按照标签的大小降序排序，将训练集划分为R大类；以Weibo数据集和Twitter数据集作为原始数据集，对原始数据集按照以下分步骤进行预处理：

S11对原始数据集进行筛选；本步骤中过滤掉原始数据集在观测时间内转发量|C(t_s)|＜10的级联，对于|C(t_s)|＞100的级联，只会选择前100名的参与者；

S12对筛选出的每一条级联的历史转发过程用加权有向无环图来表示，得到训练集数据，并划分出输入数据和标签，标签即流行度；输入数据为X＝{x_i＝C_i(t_s)}，y_i＝P_i(t_p)，i∈{1，2，...，n}其中x_i表示级联观测时间内的转发，y_i表示x_i的标签(即流行度)，P_i(t_p)＝|C_i(t_p)|是级联C_i(t_p)的真实值，t_p为预测时间,n表示训练集总数量；