CN113887806B - 长尾级联流行度预测模型、训练方法及预测方法 - Google Patents
长尾级联流行度预测模型、训练方法及预测方法 Download PDFInfo
- Publication number
- CN113887806B CN113887806B CN202111169186.XA CN202111169186A CN113887806B CN 113887806 B CN113887806 B CN 113887806B CN 202111169186 A CN202111169186 A CN 202111169186A CN 113887806 B CN113887806 B CN 113887806B
- Authority
- CN
- China
- Prior art keywords
- cascade
- popularity
- long
- tail
- regressor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 107
- 238000012549 training Methods 0.000 title claims abstract description 107
- 238000005070 sampling Methods 0.000 claims abstract description 77
- 230000006870 function Effects 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 22
- 238000012216 screening Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 9
- 238000009792 diffusion process Methods 0.000 description 8
- 238000013461 design Methods 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 6
- 238000012795 verification Methods 0.000 description 6
- 238000005259 measurement Methods 0.000 description 4
- 230000000750 progressive effect Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000007429 general method Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 241000288105 Grus Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Marketing (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Game Theory and Decision Science (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Entrepreneurship & Innovation (AREA)
- Mathematical Physics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种长尾级联流行度预测模型、训练方法及预测方法,该长尾级联流行度预测模型包括骨干网络、以及位于骨干网络之后的回归器,回归器包括并行设置的原始回归器和子网络SUB;骨干网络和原始回归器构成长尾级联流行度预测模型的基线模型;骨干网络用于提取长尾级联的时间特征和空间特征;原始回归器用于得到该长尾级联流行度的原始预测值;述子网络SUB用于得到该长尾级联流行度的加权偏差;以该长尾级联流行度的原始预测值与加权偏差之和作为最终流行度预测值。本发明利用解耦的思想,整个模型训练分为两个阶段,首先利用不同的采样策略来提取骨干网络的特征表示,然后将骨干网络的参数固定住,再通过几种不同的方法微调回归器,该回归器结合了原始的预测值和由子网络SUB产生的加权偏差值,达到更准确预测流行度的目的。
Description
技术领域
本发明属于深度学习(Deep Learning)中的信息扩散(Information diffusion)、信息级联(Information Cascade)和流行度预测(Popularity Prediction)领域,是一种基于解耦思想(Decoupling Scheme)来解决长尾级联预测(Long-tailed CascadePrediction)问题的通用方法。
背景技术
信息扩散是指信息通过交互作用从一个地方传播到另一个地方的过程,该领域涵盖了来自众多科学领域的技术,包括社会学,流行病学和人种论等不同领域的技术。本发明是针对信息级联的扩散进行合理有效的建模和流行度预测。信息级联的一项典型任务是预测某一条级联(推文、微博等),在特定一段时间段后潜在受影响用户的规模,也即流行度预测。特别地,Twitter,Facebook,微信和新浪微博等在线社交平台的出现为信息的产生和传播带来了前所未有的便利。用户通过社交网络以级联的形式传播各种新闻,事件和帖子。因此,这一对信息级联流行度的准确预测任务对于这些平台的用户和所有者都很有价值。例如,了解哪种类型的推文传播更广泛,可以帮助营销专家设计他们的策略;预测谣言的潜在影响用户,使得管理员可以及早进行干预以避免严重后果等。
传统的方法将精力集中在对级联的传播进行转发关系和时间特征建模,传统的建模方法面临着数据集严重不平衡的挑战,为了防止损失函数或度量指标受到少部分极值数据的影响,传统的方法重新制定了问题定义,例如将问题转化为分类问题,预测一条级联是否会超过级联的中值大小;或者是采用其他的评估指标,如k-top覆盖率、确定/相关系数及其变量、排名。
然而,现实中的数据集存在极度不平衡的现象,服从长尾分布(Long-tailDistribution)。例如在级联预测问题中,大的级联占据少数,小的级联占大多数,该现象导致实例丰富的数据支配训练过程,从而导致模型的预测非常保守,使得预测值分布在相对中间大小的范围内,从而降低了预测性能。
但是,目前还没有研究从数据服从长尾分布的角度来解决级联预测效果低下的回归问题。
发明内容
本发明的目的旨在针对传统方法直接回避长尾数据带来的预测准确率不高、可解释性低等技术现状,提供一种直面长尾级联信息数据的流行度预测模型及训练方法,利用解耦思想,进行分步训练,以此来提高流行度预测准确率,能够作为现有的级联流行度预测模型的可拔插的通用方法,并具有较强的可解释性。
本发明的另一目的旨在提供一种长尾级联流行度预测方法。
本发明提供的长尾级联流行度预测模型可以使用传统的级联流行度预测模型(例如DeepCas、DeepHawkes、VaCas等)作为本发明长尾级联流行度预测模型的基线模型,所有基线模型都是采用联合训练的方式,本发明在基线模型基础之上采用解耦训练的思想。
本发明提供的长尾级联流行度预测模型包括骨干网络、以及位于骨干网络之后的回归器,所述回归器包括并行设置的原始回归器和设计的子网络SUB;所述骨干网络和原始回归器构成长尾级联流行度预测模型的基线模型;
所述骨干网络用于提取长尾级联的时间特征和空间特征;
所述原始回归器用于依据骨干网络提取的时间特征和空间特征,得到该长尾级联流行度的原始预测值;
所述子网络SUB用于依据骨干网络提取的时间特征和空间特征,得到该长尾级联流行度的加权偏差;
以该长尾级联流行度的原始预测值与加权偏差之和作为最终流行度预测值。
上述长尾级联流行度预测模型,所述骨干网络使用时序模型和图模型来提取信息级联的时间特征和图的演化特征(即空间特征)。其理论基础可以参考文献【Bingyi Kang,SainingXie,Marcus Rohrbach,Zhicheng Yan,Albert Gordo,JiashiFeng,and YannisKalantidis.2020.Decoupling representation and classifier for long-tailedrecognition.InICLR.】。本发明对于骨干网络的具体形式不进行任何限定,本领域技术人员可以选择能够实现时间特征和空间特征提取的相关技术手段。
上述长尾级联流行度预测模型,所述原始回归器即为传统的级联流行度预测模型的回归器,采用的是多层感知机MLP(Multilayer Perceptron)。
上述长尾级联流行度预测模型,所述子网络SUB包括并行设置的第一分支子网络和第二分支子网络;第一分支子网络用于获取该条长尾级联在R个类别中的偏差br;第二分支子网络通过依次设置的全连接层和softmax函数得到该条长尾级联在R个类别的偏差的概率pr,则该条长尾级联流行度的加权偏差为则将原始的预测值与设计的孪生网络(子网络)产生的加权偏差值相结合,得到最后纠正偏差后的最终流行度预测值, 表示回归器输出的该长尾级联流行度的原始预测值。由于预测值结合了基线模型的多层感知机产生的原始预测值和子网络产生的加权偏差值,子网络针对不同类别的级联自适应地调整加权偏差,从而使回归器纠正模型的预测值。
本发明构建上述长尾级联流行度预测模型的思路为,主要从长尾分布的角度,利用解耦的思想,两步训练模型,首先随机初始化整个网络的参数(包括回归器参数和骨干网络参数),利用不同的采样策略来提取骨干网络的特征表示(Representation),然后将骨干网络(Backbone)的参数固定住,再通过几种不同的方法微调回归器(Regressor),该回归器结合了原始的预测值和由子网络(SUB)产生的加权偏差值(Weighted Bias),达到更准确预测流行度的目的。
基于上述发明思路,本发明提供的长尾级联流行度预测模型训练方法,包括以下步骤:
S1数据预处理:统计每一条级联在观测时间内的转发路径,将每一条级联的历史转发过程用加权的有向无环图来表示,并划分出输入数据和流行度标签,得到训练集数据;经过预处理后的原始数据集为长尾分布,将其按照标签的大小降序排序,将训练集划分为R大类;
S2提取骨干网络的参数:基于步骤S1预处理后的R大类训练集,分别采用多种采样策略学习长尾级联流行度预测模型的骨干网络表示,从多种采样策略得到的结果中筛选出骨干网络的最优表示;
S3微调回归器:基于步骤S1预处理后的R大类训练集,分别采用多种微调方法对骨干网络固定后的长尾级联流行度预测模型进行微调,得到长尾级联流行度预测模型。
上述长尾级联流行度预测模型训练方法,步骤S1的目的在于对原始历史转发数据进行预处理,转化成模型需要的输入数据。信息级联流行度预测旨在通过观察它的早期演化过程来预测未来的级联大小。对于原始数据集,令C表示一条感兴趣的级联,该级联从时间常数t0开始,通过网络进行传播。针对不同的数据集,每条级联有不同的观测时间ts,以及观测时间内的转发数量|C(ts)|。对原始数据集按照以下分步骤进行预处理:
S11对原始数据集进行筛选;本步骤中过滤掉原始数据集在观测时间内转发量|C(ts)|<10的级联,对于|C(ts)|>100的级联,只会选择前100名的参与者;
S12对筛选出的每一条级联的历史转发过程用加权有向无环图来表示,得到训练集数据,并划分出输入数据和标签(即流行度);例如输入数据为X={xi=Ci(ts)},yi=Pi(tp),i∈{1,2,…,n},其中xi表示级联观测时间内的转发,yi表示xi的标签(即流行度),tp为预测时间,n表示训练集总数量;
上述长尾级联流行度预测模型训练方法,步骤S2的目的在于解决极端不平衡数据(长尾分布数据)的表示学习,即提取模型骨干网络部分的参数直到模型收敛。用zi=f(xi;θ)代表级联xi的表示,其中f(xi;θ)是由长尾级联流行度预测模型去除回归器后的骨干网络实现的,θ表示骨干网络部分的参数。不同的采样策略会学习到不同效果的骨干网络的表示,为学习到最好的表示,将训练集原始的长尾数据喂入现有的级联流行度预测模型(即未添加子网络SUB的长尾级联流行度预测模型),通过不同的采样策略训练骨干网络,提取出模型的骨干网络的最优表示,然后将骨干网络的参数固定住。本发明采用一系列不同的采样策略分别对分类后的训练集数据进行采样,来学习出效果不同的表示z,最终筛选出最好的骨干网络表示z*,则z*对应了最好的采样策略,蕴含了表示级联最好的时间特征和空间特征,然后将训练好的骨干网络参数固定。本发明使用的采样策略包括但不限于实例平衡采样、类平衡采样、平方根采样和渐进平衡采样等,令pj为从类别j采样的概率,考虑
(1)实例平衡采样策略(Instance-Balanced Sampling),这是最常见的采用策略之一,训练集中的每个样本具有相等的被选择概率,即q=1:
nj表示当前类别的样本数量、nr表示不同类别的样本数量。
(2)类平衡采样策略(Class-Balanced Sampling),不同类别的样本具有相等的被选择概率,即q=0:
(3)平方根采样策略(Square-RootSampling),作为实例平衡采样和类平衡采样之间的折衷策略,令q=1/2:
(4)渐进平衡采样策略(Progressively-Balanced Sampling),该策略结合了前几种策略的特征,其中e是当前迭代次数,E是控制迭代总数的超参数:
上述步骤S3的目的在于通过微调回归器,以获取更准确的预测值。子网络SUB中的两个分支子网络均为多层感知机,因此回归器由多个多层感知机组成,其中参数包括W和b,W表示线性映射矩阵(即回归器权重),b表示偏置常数。传统的基线模型,对于n个观测到的级联Ci(ts)(1≤i≤n),可以将流行度预测形式化为通过最小化以下损失函数来解决的回归问题:
为解决长尾问题,本发明在传统的级联流行度预测模型的原始回归器基础上,通过在骨干网络之后另外添加的2个分支作为子网络SUB构成当前的回归器,来针对不同类别的级联自适应地调整加权偏差。因此,整个长尾级联流行度预测模型的损失函数如下:
其中,CEloss表示交叉熵损失函数。
本发明设计了两种微调回归器的方法,包括回归器重新训练法和η归一化回归器训练法。利用这两种微调方法对回归器进行重新训练,旨在通过微调来纠正决策边界,从而使回归器能够区分不同的级联类别并进行更准确的预测。
(1)回归器重训练法:首先将S2中得到的骨干网络参数θ保持固定,然后随机初始化回归器,并使用类平衡采样策略对训练集进行采样,进一步对整个长尾级联流行度预测模型(即以作为损失函数)进行训练,从而经过一小部分迭代次数来优化回归器。
(2)η归一化回归器训练法:首先按照回归器重训练方法对回归器进行训练,在对回归器进行微调后,回归器权重的范数趋于相似。为了使决策边界更具区分性,本发明通过重缩放过程:W表示回归器权重;调整回归器权重范数来纠正决策边界的不平衡。在这种情况下,使S2中得到的骨干网络参数θ以及按照回归器重训练方法得到的回归器参数b保持固定,并使用正则化回归器中的W,再使用类平衡采样策略对训练集进行采样,进一步对整个长尾级联流行度预测模型(即以作为损失函数)进行训练,学习正则化缩放因子η(即仅使用类平衡采样在训练集上学习缩放因子η)。
本发明进一步提供了一种长尾级联流行度预测方法,将待预测级联输入到构建的长尾级联流行度预测模型中,得到该待预测级联的流行度预测值;具体包括以下步骤:
L1将待预测级联的历史转发过程用加权有向无环图来表示;
L2将使用加权有向无环图表示的待预测级联输入到构建的长尾级联流行度预测模型中,得到该待预测级联的流行度预测值。
将流行度预测值与设定的阈值比较,可以确定该待预测级联的变化趋势,从而最大化影响营销设计、谣言预测等下游任务。
至此,本发明就实现了从长尾角度利用解耦思想来提高级联流行度预测的方法。需要声明一点的是,本发明是一个可拔插的通用方法,本发明可以轻松地合并到现有的级联流行度预测模型中。
与现有的技术相比,本发明具有以下有益效果:
(1)本发明基于解耦思想来对长尾级联流行度预测模型进行训练,整个训练分为两个阶段:骨干网络表示提取和回归器微调;这样只需要使用采样策略学习到良好的表示,并且利用预先设计好的方法微调回归器,就可以极大的缓解长尾问题导致的预测精度不高的问题,而不需要转化问题的定义,或者采用其他的度量指标。
(2)本发明设计了一个新颖的概率孪生网络(子网络),以针对不同的流行度类别自适应地调整加权偏差,从而使回归器更正模型的预测值,有效提高流行度预测准确率。
(3)本发明可以轻松地合并到现有长尾级联流行度预测模型中,是一个可拔插的通用方法,具有一定的通用价值并且具有较强的可解释性。
(4)本发明显著提高了预测精度,并缓解了长尾级联预测问题,并具有较强的可解释性。
(5)本发明引入了长尾分布影响的新颖考虑,直面数据极度不平衡的问题;本发明的解决思路,可以启发其他的应用领域在面临数据不平衡的现象时,从数据本身出发,使用解耦思想,两步训练模型。
(6)本发明对于理解社交网络平台的演化过程极其重要;例如,通过本发明精确预测某条微博在未来一段时间的转发量,可以用于营销设计,谣言预测,最大化影响下游任务。
附图说明
图1为对信息级联的扩散过程的解释。
图2为本发明长尾级联流行度预测模型示意图;(a)为框架图;(b)为以VaCas作为基线模型的详细示意图。
图3为不同采样策略在不同回归器微调方法下的效果对比问题;其中(a)对应Weibo数据集,(b)对应Twitter数据集。
术语解释
信息级联(Information Cascade):附图1以一个示例说明了该过程:一个根节点发布一条公共内容后,根节点的朋友和关注者将看到公共内容后一个接一个的进行转发。这样,公共内容通过社交网络的边缘传播并创建了信息级联,信息级联的一项典型任务是预测某一条级联(推文、微博等),在一段观测时间段后潜在受影响用户的规模。其理论基础可以参考文献【J.Cheng,L.Adamic,P.A.Dow,J.M.Kleinberg,and J.Leskovec.Cancascades be predicted?In Proc.of WWW,2014.】
具体实施方式
结合附图对本发明做进一步描述。
实施例1
如图2(a)所示,本实施例提供的长尾级联流行度预测模型包括骨干网络、以及位于骨干网络之后的回归器,回归器包括并行设置的原始回归器和子网络SUB;骨干网络和原始回归器构成长尾级联流行度预测模型的基线模型。使用传统的级联流行度预测模型(例如DeepCas、DeepHawkes、VaCas等)作为本发明长尾级联流行度预测模型的基线模型。
骨干网络用于提取长尾级联的时间特征和空间特征,可以使用时序模型和图模型来实现。
原始回归器,即传统的级联流行度预测模型的回归器,用于依据骨干网络提取的时间特征和空间特征,得到该长尾级联流行度的原始预测值。本实施例采用的是多层感知机MLP(Multilayer Perceptron)。
子网络SUB用于依据骨干网络提取的时间特征和空间特征,得到该长尾级联流行度的加权偏差。子网络SUB包括并行设置的第一分支子网络和第二分支子网络;两个分支子网络均为多层感知机。第一分支子网络采用传统多层感知机,依据骨干网络提取的该条长尾级联的时间特征和空间特征获取该条长尾级联在R个类别中的偏差br;第二分支子网络通过依次设置的全连接层和softmax函数得到该条长尾级联在R个类别的偏差的概率pr,则该条长尾级联流行度的加权偏差为则将原始的预测值与设计的孪生网络(子网络)产生的加权偏差值相结合,得到最后纠正偏差后的最终流行度预测值, 表示回归器输出的该长尾级联流行度的原始预测值。
以Vacas基线模型为例,对长尾级联流行度预测模型的实现方式进行详细解释。如图2(b)所示,VaCas整个模型被分为2个部分,前面的骨干网络和后面的回归器,其中骨干网络用于时间特征和空间特征的学习,不同的基线模型使用不同的技术或方法实现对空间和时间特征的学习。给定一条级联Ci,该级联在观测时间内级联图(Cascade Graph)的演化过程可以表示成Gi={gi(t0),gi(t1)…,gi(to)}。VaCas使用图小波(Graph Wavelet)学习到级联图Gi的扩散嵌入(Diffusion Embedding),也即学习到每个节点在图中的上下文嵌入,将学习到的节点嵌入送进2个分支:其中一个是两层级的VAE(Variational Autoencoder)(其理论基础可以参考文献【D.P.Kingma and M.Welling,“Auto-encodingvariationalbayes,”in ICLR,2014.】)实现对空间特征进行建模,分别为Sub-graph VAEs和CascadeVAE。首先,我们计算出每个sub-graph的均值μi和方差σi,然后使用VAE得到每个sub-graph的隐变量z1。将sub-graph VAEs的隐变量z1作为Cascade VAE的输入,然后使用基于RNN的VAE对隐变量z1继续重建得到z2,上述过程的联合概率可以表示为pθ(Gi,z1,z2)=pθ(z1)p(z2|z1)pθ(Gi|z1,z2);另一个分支,将节点嵌入送进2层的双向GRU(Bi-GRU)对时间特征进行建模,经过两层GRU分别得到特征h1和h2。最后,将两个分支的结果串联(concatenate)起来得到时空特征。至此,实现了骨干网络的功能。在骨干网络后面并联连接一个多层感知机(MLP)和一个子网络SUB;其中多层感知机(MLP)作为回归器的一部分进行流行度预测,输出值为长尾级联流行度的原始预测值;子网络SUB结构如前所述,其输出值为长尾级联流行度的加权偏差。
实施例2
如图2所示,本实施例提供的长尾级联流行度预测模型训练方法分为两步:第一步,首先将原始的长尾分布的数据集喂入模型,使用S2中提到的4种采样方法提取模型骨干网络部分的参数,也就是提取模型的时间和空间特征,直到模型收敛,我们选取四种方法中得到的最好的表示,并将骨干网络的参数固定。接下来进行第二步,先随机初始化回归器的参数,然后使用S3中提到的2种方法微调回归器,直到模型收敛,选取预测效果最好的微调方法,最终得到最优的预测模型。
本实施例采用实施例1提供的基于解耦骨干网路和回归器的长尾级联流行度预测模型在两个不同的服从长尾分布的真实数据集(Weibo数据集、Twitter数据集,第一个数据集来源参考文献【Qi Cao,Huawei Shen,Keting Cen,WentaoOuyang,and XueqiCheng.2017.Deep-Hawkes:Bridging the gap between prediction and understandingof information cascades.In CIKM.1149–1158】第二个数据集来源参考文献【LilianWeng,FilippoMenczer,and Yong-YeolAhn.2013.Virality prediction andcommunity structure in social networks.Scientific Reports3(2013)】)上进行训练得到相应的长尾级联流行度预测模型,并对其预测效果进行解释。
本实施例提供了实施例1中长尾级联流行度预测模型的训练方法,包括以下步骤:
S1数据预处理:统计每一条级联在观测时间内的转发路径,将每一条级联的历史转发过程用加权的有向无环图来表示,并划分出输入数据和流行度标签,得到训练集数据;经过预处理后的原始数据集为长尾分布,将其按照标签的大小降序排序,将训练集划分为R大类。
以Weibo数据集和Twitter数据集作为原始数据集。对于原始数据集,令C表示一条感兴趣的级联,该级联从时间常数t0开始,通过网络进行传播。针对不同的数据集,每条级联有不同的观测时间ts,以及观测时间内的转发数量|C(ts)|。对原始数据集按照以下分步骤进行预处理:
S11对原始数据集进行筛选;本步骤中过滤掉原始数据集中|C(ts)|<10的级联,对于|C(ts)|>100的级联,只会选择前100名的参与者。
S12对筛选出的每一条级联的历史转发过程用加权有向无环图来表示,得到用加权有向无环图表示的数据集。
本实施例中,使用的是现有数据集,为了对训练后的长尾级联流行度预测模型预测效果进行验证和测试,这里,将数据集划分为训练集(占70%),验证集(占15%),测试集(占15%)。并将各数据集划分出输入数据和标签(即流行度);以训练集为例,输入数据可表示为X={xi=Ci(ts)},yi=Pi(tp),i∈{1,2,…,n},其中xi表示级联观测时间内的转发,yi表示xi的标签(即流行度),tp为预测时间,n表示训练集总数量。
本实施例中,将训练集数据按照流行度划分为三大类,即R=3;具体为:流行度较多类(Many-Shot,占20%),流行度适中类(Medium-Shot,占60%)和流行度较少类(Few-Shot,占20%)。
S2提取骨干网络的参数:基于步骤S1预处理后的R大类训练集,分别采用多种采样策略学习长尾级联流行度预测模型的骨干网络表示,从多种采样策略得到的结果中筛选出骨干网络的最优表示。
分别采用前面给出的实例平衡采样、类平衡采样、平方根采样和渐进平衡采样对分类后的训练集数据进行采样,并利用采样后的数据对回归器参数固定的长尾级联流行度预测模型进行训练,从中筛选出最好的骨干网络表示z*,则z*对应了最好的采样策略,蕴含了表示级联最好的时间特征和空间特征,然后将训练好的骨干网络参数固定。
本步骤包括以下步骤:
S21分别采用前面给出的实例平衡采样、类平衡采样、平方根采样和渐进平衡采样任一采样策略对分类后的训练集数据进行采样,得到采样后的训练集数据,并输入至长尾级联流行度预测模型。
S22随机初始化骨干网络和回归器参数,并将回归器参数固定,只对骨干网络的参数进行学习,以作为损失函数,对采样后的训练集数据进行学习,直至模型收敛,也即度量指标Mean Squared Logarithmic Error(MSLE)或者Mean Absolute PercentageError(MAPE),在验证集上连续10个迭代都没下降就停止训练。
按照上述步骤S21-S22,分别采用实例平衡采样、类平衡采样、平方根采样和渐进平衡采样后的训练集数据对骨干网络(此时,回归器参数固定)进行训练。以预测值和真实值yi之间误差最小,也即度量指标MSLE或MAPE最小的骨干网络表示作为最好的骨干网络表示z*。
S3微调回归器:基于步骤S1预处理后的R大类训练集,分别采用多种微调方法对骨干网络固定后的长尾级联流行度预测模型进行微调,直至模型再次收敛,最后得到长尾级联流行度预测模型。
本实施例分别采用两种微调回归器的方法(回归器重新训练法和η归一化回归器训练法)确定长尾级联流行度预测模型的回归器参数。下面分别给出详细解释。
(一)回归器重训练法
对长尾级联流行度预测模型回归器的训练过程包括以下步骤:
S31随机初始化回归器参数,即随机初始化W和b。
S32使用类平衡采样策略对步骤S1得到的训练集进行采样,并将采样后的训练集数据输入长尾级联流行度预测模型。
这里,所使用的损失函数为:
Θ是模型所有可训练的参数,由于骨干网络参数θ已经固定,因此这里可训练参数为回归器的参数W和b。
其中S32和S33都是以训练集去指导模型参数的调整,以验证集去验证训练集得到的模型参数,直至度量指标MSLE或MAPE在验证集上连续10个迭代都没下降就停止训练,也即收敛到最优参数的模型。
训练得到的长尾级联流行度预测模型记为最终的长尾级联流行度预测模型。
(二)η归一化回归器训练法
对长尾级联流行度预测模型回归器的训练过程包括以下步骤:
S31′随机初始化回归器参数,即随机初始化W和b。
S32′使用类平衡采样策略对步骤S1得到的训练集进行采样。
这里,所使用的损失函数为:
Θ是模型所有可训练的参数,由于骨干网络参数θ已经固定,因此这里可训练参数为回归器的参数W和b。
S34′将S2中得到的骨干网络参数θ以及S33′中得到的回归器参数W和b保持固定,并使用正则化回归器中的W,然后用步骤S32′采样后的训练集数据对长尾级联流行度预测模型进行训练,得到正则化缩放因子η。
这里,所使用的损失函数为:
Θ是模型所有可训练的参数,由于骨干网络参数和回归器参数已经固定,因此这里可训练参数为缩放因子η。
其中S32′,S33′和S34′都是以训练集去指导模型参数的调整,以验证集去验证训练集得到的模型参数,直至度量指标MSLE或MAPE在验证集上连续10个迭代都没下降就停止训练,最终收敛到最优参数的模型。
训练得到的长尾级联流行度预测模型记为最终的长尾级联流行度预测模型。
作为一个通用的可拔插方法,本发明以3个不同的基线模型(DeepCas、DeepHawkes、VaCas)构建实施例1中的长尾级联流行度预测模型,然后按照上述步骤S1-S3对构建的长尾级联流行度预测模型进行训练。
再利用训练好的长尾级联流行度预测模型对测试集数据按照以下步骤对长尾级联流行度进行预测:
L1将待预测级联的历史转发过程用加权有向无环图来表示。
这里,测试集数据是由步骤S12中划分得到的,已经用加权有向无环图进行表示。
L2将使用加权有向无环图表示的待预测级联输入到构建的长尾级联流行度预测模型中,得到该待预测级联的流行度预测值。
本实施例,采用了两种常用的度量方法(值越小,预测效果越好),即均方对数算术误差(MSLE)和平均绝对百分比误差(MAPE),来对流行度预测效果进行评价,结果见表1所示。
表1:所有联合训练和解耦训练得到的MSLE对比图
表1中的3个基线方法的介绍如下:
DeepCas:是第一个通过使用多个随机游走过程进行级联预测的端到端深度学习模型。【Cheng Li,Jiaqi Ma,XiaoxiaoGuo,and Qiaozhu Mei.2017.DeepCas:An end-to-end predictor of information cascades.In WWW.577–586.】
DeepHawkes:结合了深度学习和Hawkes的自激点过程,弥合了预测性能和可解释性之间的差距。【Qi Cao,Huawei Shen,Keting Cen,WentaoOuyang,and XueqiCheng.2017.Deep-Hawkes:Bridging the gap between prediction and understandingof information cascades.In CIKM.1149–1158.】
VaCas:集成了信息级联的分层扩散模型和时空结构特征,同时还捕获了扩散不确定性。【Fan Zhou,XoveeXu,Kunpeng Zhang,GoceTrajcevski,and TingZhong.2020.Variational information diffusion for probabilistic cascadesprediction.InINFOCOM.1618–1627.】
Plain:是指直接使用步骤S12得到的训练集数据对三个基线模型(DeepCas、DeepHawkes和VaCas)进行训练后(将回归器的权重参数W,b和骨干网络的参数θ一起训练,使用的损失函数为再使用训练好的模型对测试集进行流行度预测的效果。
Joint:是指使用不同采样策略对训练集数据进行采用后的数据对三个基线模型(DeepCas、DeepHawkes和VaCas)进行训练后(将回归器的权重参数W,b和骨干网络的参数θ一起训练,使用的损失函数为再使用训练好的模型对测试集进行流行度预测的效果。
rRT(Regressor Re-Training):是指按照前面给出的骨干网络训练方法和回归器重训练方法对三个基线模型(DeepCas、DeepHawkes和VaCas)进行训练后,再使用训练好的模型对测试集进行流行度预测的效果;这里由于模型不包含子网络SUB,因此用于训练模型使用的损失函数为
η-norm(η-Normalized Regressor):是指按照前面给出的骨干网络训练法和η归一化回归器训练方法对三个基线模型(DeepCas、DeepHawkes和VaCas)进行训练后,再使用训练好的模型对测试集进行流行度预测的效果;这里由于模型不包含子网络SUB,因此用于训练模型使用的损失函数为
Joint+SUB:是指使用不同采样策略对训练集数据进行采用后的数据对由三个基线模型(DeepCas、DeepHawkes和VaCas)和子网络SUB组成的实施例1中的长尾级联流行度预测模型进行训练后(将回归器的权重参数W,b和骨干网络的参数θ一起联合训练,使用的损失函数为再使用训练好的模型对测试集进行流行度预测的效果。
rRT+SUB:是指按照前面给出的骨干网络训练方法和回归器重训练方法对由三个基线模型(DeepCas、DeepHawkes和VaCas)和子网络SUB组成的实施例1中的长尾级联流行度预测模型进行训练后(使用的损失函数为),再使用训练好的模型对测试集进行流行度预测的效果。
η-norm+SUB:是指按照前面给出的骨干网络训练方法和η归一化回归器训练方法对由三个基线模型(DeepCas、DeepHawkes和VaCas)和子网络SUB组成的实施例1中的长尾级联流行度预测模型进行训练后(使用的损失函数为),再使用训练好的模型对测试集进行流行度预测的效果。
表1显示了3个基线模型的原始结果(Plain),在基线模型加上回归器微调方法(Joint、rRT、η-norm,即不包含子网络SUB),以及本发明的解耦方法(Joint+SUB、rRT+SUB、η-norm+SUB)后的预测结果的对比实验结果。可以很容易地观察到,本发明提出的方案在两个数据集上都优于所有原始基线模型。具体来说,表现最好的方案(η-norm+SUB)与DeepCas、DeepHawkes和VaCas相比,MSLE分别降低了9.7%、11.8%和9.1%。
通过表1可进一步观测到,本发明提出的rRT+SUB和η-norm+SUB方案在很大程度上优于联合训练的基线模型。例如,当将相同的采样策略应用于表示学习,将DeepCas与η-norm+SUB一起使用,与Joint+SUB相比,它可将性能提高4.8%。解耦方案rRT/η-norm+SUB始终比联合训练得到更低的预测误差,这是由于它们通过调整回归器权值的更新过程来实现有效的再平衡操作,从而匹配长尾分布和子网络产生的加权偏差。本发明提供的长尾级联流行度预测模型对极端值/离群值具有鲁棒性,当联合训练整个网络时,避免了实例丰富的数据造成的预测偏差。
本发明使用S2中的4种采样策略学习到骨干网络的表示zi=f(xi;θ),然后将骨干网络的参数θ固定,最后使用S3中的2种微调方法对回归器进行微调。一共有4+4*2=12种组合方式(其中第一个4代表骨干网络和回归器联合训练,4*2代表解耦训练(也即进一步对回归器微调),从中选出最好的一种组合方式。可以从表1及图3总结出,将η-norm+SUB解耦方案与实例平衡采样策略相结合,可以获得性能最佳的预测模型。
由此可知,本发明从模型会受到长尾分布的影响这个新颖的角度,提出一个新的训练模型方法,缓解数据极度不平衡的问题。本发明利用解耦的思想,整个训练分为两个阶段:表示提取和微调回归器。本发明设计了一个新颖的概率孪生网络(子网络),以针对不同的流行度类别自适应地调整加权偏差,从而使回归器更正模型的预测值。本发明可以轻松地合并到现有模型中,显著提高了预测精度,并缓解了长尾级联预测问题,具有较强的可解释性。所提方案在性能上的改进表明,将表示学习与回归器解耦是解决信息级联预测中长尾回归问题的一个很有前景希望的方向。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
Claims (6)
1.一种长尾级联流行度预测模型,其特征在于包括骨干网络、以及位于骨干网络之后的回归器,所述回归器包括并行设置的原始回归器和子网络SUB;所述骨干网络和原始回归器构成长尾级联流行度预测模型的基线模型;
所述骨干网络用于提取长尾级联的时间特征和空间特征;
所述原始回归器用于依据骨干网络提取的时间特征和空间特征,得到该长尾级联流行度的原始预测值;
所述子网络SUB用于依据骨干网络提取的时间特征和空间特征,得到该长尾级联流行度的加权偏差;所述子网络SUB包括并行设置的第一分支子网络和第二分支子网络;第一分支子网络用于获取该条长尾级联在R个类别中的偏差br;第二分支子网络通过全连接层和softmax函数得到该条长尾级联在R个类别的偏差的概率pr,则该条长尾级联流行度的加权偏差为
以该长尾级联流行度的原始预测值与加权偏差之和作为最终流行度预测值;
所述长尾级联流行度预测模型按照以下步骤训练得到:
S1数据预处理:统计每一条级联在观测时间内的转发路径,将每一条级联的历史转发过程用加权的有向无环图来表示,并划分出输入数据和流行度标签,得到训练集数据;经过预处理后的原始数据集为长尾分布,将其按照标签的大小降序排序,将训练集划分为R大类;以Weibo数据集和Twitter数据集作为原始数据集,对原始数据集按照以下分步骤进行预处理:
S11对原始数据集进行筛选;本步骤中过滤掉原始数据集在观测时间内转发量|C(ts)|<10的级联,对于|C(ts)|>100的级联,只会选择前100名的参与者;
S12对筛选出的每一条级联的历史转发过程用加权有向无环图来表示,得到训练集数据,并划分出输入数据和标签,标签即流行度;输入数据为X={xi=Ci(ts)},yi=Pi(tp),i∈{1,2,...,n}其中xi表示级联观测时间内的转发,yi表示xi的标签(即流行度),Pi(tp)=|Ci(tp)|是级联Ci(tp)的真实值,tp为预测时间,n表示训练集总数量;
S2提取骨干网络的参数:基于步骤S1预处理后的R大类训练集,分别采用多种采样策略学习长尾级联流行度预测模型的骨干网络表示,从多种采样策略得到的结果中筛选出骨干网络的最优表示;
S3微调回归器:基于步骤S1预处理后的R大类训练集,分别采用多种微调方法对骨干网络固定后的长尾级联流行度预测模型进行微调,得到长尾级联流行度预测模型。
2.根据权利要求1所述长尾级联流行度预测模型,其特征在于步骤S2中,使用的采样策略包括实例平衡采样、类平衡采样、平方根采样和渐进平衡采样。
(1)实例平衡采样策略(Instance-Balanced Sampling),训练集中的每个样本具有相等的被选择概率,即q=1:
nj表示当前类别的样本数量、nr表示不同类别的样本数量;
(2)类平衡采样策略(Class-Balanced Sampling),不同类别的样本具有相等的被选择概率,即q=0:
(3)平方根采样策略(Square-Root Sampling),作为实例平衡采样和类平衡采样之间的折衷策略,令q=1/2:
(4)渐进平衡采样策略(Progressively-Balanced Sampling):
其中,e是当前迭代次数,E是控制迭代总数的超参数。
5.一种长尾级联流行度预测方法,其特征在于将待预测级联输入到权利要求1至4任一权利要求所述的长尾级联流行度预测模型中,得到该待预测级联的流行度预测值。
6.根据权利要求5所述长尾级联流行度预测方法,其特征在于包括以下步骤:
L1将待预测级联的历史转发过程用加权有向无环图来表示;
L2将使用加权有向无环图表示的待预测级联输入到构建的长尾级联流行度预测模型中,得到该待预测级联的流行度预测值。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110502668 | 2021-05-09 | ||
CN2021105026686 | 2021-05-09 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113887806A CN113887806A (zh) | 2022-01-04 |
CN113887806B true CN113887806B (zh) | 2023-04-07 |
Family
ID=79005522
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111169186.XA Active CN113887806B (zh) | 2021-05-09 | 2021-10-08 | 长尾级联流行度预测模型、训练方法及预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113887806B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117349798B (zh) * | 2023-12-05 | 2024-02-23 | 西南石油大学 | 一种基于非均衡回归的机械钻速预测方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344736A (zh) * | 2018-09-12 | 2019-02-15 | 苏州大学 | 一种基于联合学习的静态图像人群计数方法 |
CN112580878A (zh) * | 2020-12-23 | 2021-03-30 | 河南广播电视台 | 一种基于图神经网络的信息流行度预测方法 |
CN112668496A (zh) * | 2020-12-31 | 2021-04-16 | 深圳市商汤科技有限公司 | 入侵检测方法、装置、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140344453A1 (en) * | 2012-12-13 | 2014-11-20 | Level 3 Communications, Llc | Automated learning of peering policies for popularity driven replication in content delivery framework |
-
2021
- 2021-10-08 CN CN202111169186.XA patent/CN113887806B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344736A (zh) * | 2018-09-12 | 2019-02-15 | 苏州大学 | 一种基于联合学习的静态图像人群计数方法 |
CN112580878A (zh) * | 2020-12-23 | 2021-03-30 | 河南广播电视台 | 一种基于图神经网络的信息流行度预测方法 |
CN112668496A (zh) * | 2020-12-31 | 2021-04-16 | 深圳市商汤科技有限公司 | 入侵检测方法、装置、设备及存储介质 |
Non-Patent Citations (4)
Title |
---|
Bingyi Kang 等.DECOUPLING REPRESENTATION AND CLASSIFIER FOR LONG-TAILED RECOGNITION.《arXiv:1910.09217v2 [cs.CV] 》.2020,第1-16页. * |
Fan Zhou 等.Decoupling Representation and Regressor for Long-Taile d Information Cascade Prediction.《SIGIR21》.2021,第1875-1879页. * |
Fan Zhou 等.Variational Information Diffusion for Probabilistic Cascades Prediction.《IEEE INFOCOM 2020》.2020,第1618-1627页. * |
魏建良 等.基于信息级联的网络意见传播及 扭曲效应国外研究进展.《情报学报》.2019,第38卷(第10期),第1117-1128页. * |
Also Published As
Publication number | Publication date |
---|---|
CN113887806A (zh) | 2022-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109299342B (zh) | 一种基于循环生成式对抗网络的跨模态检索方法 | |
US11836615B2 (en) | Bayesian nonparametric learning of neural networks | |
Hu et al. | Robust modulation classification under uncertain noise condition using recurrent neural network | |
Cao et al. | Class-specific soft voting based multiple extreme learning machines ensemble | |
CN113326731B (zh) | 一种基于动量网络指导的跨域行人重识别方法 | |
CN111598143B (zh) | 基于信用评估的面向联邦学习中毒攻击的防御方法 | |
CN108563755A (zh) | 一种基于双向循环神经网络的个性化推荐系统及方法 | |
CN110263236B (zh) | 基于动态多视图学习模型的社交网络用户多标签分类方法 | |
Ali-Gombe et al. | Few-shot classifier GAN | |
CN114881092A (zh) | 一种基于特征融合的信号调制识别方法 | |
CN112784031B (zh) | 一种基于小样本学习的客服对话文本的分类方法和系统 | |
CN116340646A (zh) | 一种基于超图基序优化多元用户表示的推荐方法 | |
CN114120041A (zh) | 一种基于双对抗变分自编码器的小样本分类方法 | |
Bongini et al. | Recursive neural networks for density estimation over generalized random graphs | |
CN113887806B (zh) | 长尾级联流行度预测模型、训练方法及预测方法 | |
CN113971440A (zh) | 一种基于深度聚类的无监督雷达信号分选方法 | |
CN115659254A (zh) | 一种双模态特征融合的配电网电能质量扰动分析方法 | |
CN111340107A (zh) | 基于卷积神经网络代价敏感学习的故障诊断方法及系统 | |
CN117574776A (zh) | 一种面向任务规划的模型自学习优化方法 | |
CN116186309B (zh) | 基于融合用户意图的交互兴趣图的图卷积网络推荐方法 | |
CN117315381A (zh) | 一种基于二阶有偏随机游走的高光谱图像分类方法 | |
CN117458480A (zh) | 基于改进lof的光伏发电功率短期预测方法及系统 | |
CN114117229A (zh) | 一种基于有向和无向结构信息的图神经网络的项目推荐方法 | |
Zhou et al. | Semi-supervised meta-learning via self-training | |
Wen et al. | Short-term load forecasting based on feature mining and deep learning of big data of user electricity consumption |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |