CN107220902A

CN107220902A - 在线社会网络的级联规模预测方法

Info

Publication number: CN107220902A
Application number: CN201710439307.5A
Authority: CN
Inventors: 刘向阳
Original assignee: Dongguan University of Technology
Current assignee: Dongguan University of Technology
Priority date: 2017-06-12
Filing date: 2017-06-12
Publication date: 2017-09-29

Abstract

本发明公开了一种在线社会网络的级联规模预测方法，其特征在于：首先级联编码给定的级联图，用于定量表示，使其结构信息保留；其次使用多阶马尔可夫链模拟编码序列；最后，将多阶马尔可夫链的状态用作训练用于级联大小预测的监督级联分类算法的特征。本发明提出了一个多阶马尔可夫模型(SocialPredictor)的级联大小预测在线社交网络。本发明基于SocialPredictor的级联规模预测方案优于基线计划的基础上级联的图形功能，如边缘增长率，度分布，聚类，和直径。SocialPredictor基于级联的大小预测方案始终达到超过90％预测精度在不同的实验场景。

Description

在线社会网络的级联规模预测方法

技术领域

本发明涉及计算机领域，具体而言，涉及一种在线社会网络的级联规模预测方法。

背景技术

“级联”一词描述了在社交网络中沿链接传播的现象这些东西可以是信息，比如URL，诸如货币捐赠之类的行为，比如购买产品的影响，比如评论博客文章，以及资源，如洪流文件。基于正在传播的，我们可以分类级联到不同的类，如信息级联[7]，行动级联[10]，影响级联[23]，讨论级联[16]，和资源级联[36]。考虑一个例子，用户A，连接到用户B 和C在社交网络中，广播一段信息(如图片或新闻文章)给他的邻居。用户B和C，接收来自用户后，还可以转播到他们的邻居在一个级联的形成。

级联现象在社会学、经济学、心理学、政治学、市场学、流行病学等许多学科中都是一个基础性课题，研究文献回溯到20世纪50年代[32]。在这些研究中的一个关键挑战是缺乏大规模的级联数据。在线社交网络已经成为人们分享和传播信息的主要方式，这些网络上的海量数据为一个大型级联研究提供了前所未有的机会。在线社交网络研究级联将有利于各种领域，如社会运动[39]，产品营销和采用[28]，在线讨论[16]，情绪流[29]，网址推荐[31]，和模因跟踪[17]。

发明内容

级联是社会学、经济学、心理学、政治学、市场学、流行病学等学科中的一个重要现象。本发明的目的是开发一个模型，在网络社交网络的级联规模预测。具体来说，在一个给定的第一级联τ₁边，我们要在其整个过程中没有任何先验信息预测是否级联总共会有至少τ₂边(τ₂>τ₁)。这个预测有许多现实世界的应用。例如，媒体公司可以用它来预测社会媒体的故事，有可能去病毒[18]，[31]。此外，解决这个问题，使疫情和政治危机得到早期检测。尽管它的重要性，这个特定的问题在以前的文献还没有得到充分解决。本发明提出了一个多阶马尔可夫模型(SocialPredictor)的级联大小预测在线社交网络。我们的评价使用Twitter的数据集表明，基于SocialPredictor的级联规模预测方案优于基线计划的基础上级联的图形功能，如边缘增长率，度分布，聚类，和直径。SocialPredictor 基于级联的大小预测方案始终达到超过90％预测精度在不同的实验场景。

为了实现上述发明目的，本发明采用的技术方案为：一种在线社会网络的级联规模预测方法，其特征在于：首先级联编码给定的级联图，用于定量表示，使其结构信息保留；其次使用多阶马尔可夫链模拟编码序列；最后，将多阶马尔可夫链的状态用作训练用于级联大小预测的监督级联分类算法的特征。

所述级联图构造，使用两个图表，关系图和级联图来表示社交网络，两个图表共享同一组节点V代表一组社交网络中的所有用户；关系图代表社交网络中用户之间的关系，级联图表示在社交网络中正在发生的动态活动。首先，A是级联图的根，它是这个级联的起源；第二，在时间t₂B转发A的tweet必须在A的影响下，从A到B有一个时间戳t₂的边；第三，在t₃时刻D转贴A的推文可能在A的影响之下的跟随者图中有A到D的路径或B的影响，从A到D的边缘和从B到D的另一个边缘，其中两个边缘的时间戳是t₃；类似地，将边缘从B添加到C，时间戳t₄和从D到E的边缘，在级联图中带有时间戳t₅。

所述级联编码，级联编码的第一步是将构造的级联图编码为表示级联图的结构的二进制序列；级联编码的第二步是将从级联图的深度优先遍历获得的二进制序列转换为对应的游程编码。首先从根节点开始构建的级联图的深度优先遍历，从而生成一个生成树，在级联图中的每个节点处，按照其时间戳的递增顺序对外出边缘进行排序，然后按照顺序遍历它们；所述二进制序列的运行是一个子序列，通过用运行的长度替换二进制序列中的每个运行，获得二进制序列的游程长度编码。

所述马尔可夫模型，对级联编码进行建模以捕获级联的特性，以便它们用于识别不同类型级联之间的相似性和差异，能够允许提取不同类型级联的结构特征，然后使用这些特征对它们进行分类。考虑级联图G的级联的游程长度编码序列C^，使用离散随机对该序列建模过程{C_k^}，k＝1,2，...，|C|，同时平衡捕获进程内的一些依赖关系简化该编码序列的数学处理，即引用关于级联过程及其形状和结构的马尔可夫假设，其由编码的序列 C^表示；给定具有均匀时不变变换的马尔可夫假设C^，概率C^使用传统的马尔可夫链来表示；马尔可夫链的状态转移矩阵的每个元素等价于C^的子序列，又等价于相应级联的子图，这种广义马尔科夫链称为多阶马尔可夫链。

所述级联分类，使用马尔可夫链模型进行级联分类；包括，

1)特征选择：通过多阶Markov模型的状态来捕获级联的形状和结构，马尔可夫链中的每个状态都代表了可能的级联子结构，使用这些状态作为可用于表征给定级联的底层特征，并确定它可能属于的类；首先，结合马尔可夫链中的多个状态减少其状态数量，通过将状态合并在一起多阶马尔科夫链，使用状态低阶马尔可夫链，建立一个标准结合马尔可夫链中的状态；接下来，从典型的子集中进一步列出马尔科夫状态，并将其用作对级联进行分类的特征。第二，为了进一步减少在分类器中使用的特征数量，对典型的马尔科夫状态进行优先排序。

2)分类：对于给定的级联Y，通过分析足够大数量的属于类Y的样本级联来评估Y中给定特征Xi的存在；随后，评估每个类的先验条件概率P(Xi|Y)Y∈{1,2,...,k}。

有益效果：本发明的基于多阶马尔可夫模型的第一个级联大小的预测方案，提出SocialPredictor来定量地表征和模型任意结构，形状和大小的级联；使用SocialPredictor进行在线社会网络的级联大小预测。SocialPredictor的关键洞察是大型和小型级联具有不同的初始传播特性，如形状和结构。SocialPredictor通过自动提取可用于区分大型和小型级联的区分图形签名来捕获这些差异。使用真实世界的Twitter数据集的评估表明，SocialPredictor在预测精度方面显着优于基线方案。基于 SocialPredictor的级联尺寸预测方案在不同的实验场景中本发明始终达到比执行基于级联图形功能的基线预测计划超过90％的预测精度。

附图说明

图1为本发明实施例的级联构建和编码的示例图。

图2为真实世界的Twitter级联的可视化图(右侧的径向布局和右侧的圆形布局)。

图3为本发明实施例的数据集中的级联图属性图。

图4为本发明实施例的级联尺寸预测设置图。

图5为本发明实施例的SocialPredictor的分类结果和不同τ₁和τ₂-τ₁值的基线图。

图6为本发明实施例的SocialPredictor的不同τ₁和τ₂-τ₁值的ROC阈值图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。

预测社会网络级联的大小的技术上的挑战来自多方面。例如，现实世界的级联有时有大尺寸，包含成千上万的节点和边[12]，[25]。此外，没有任何用户的先验信息级联大小的预测仅依赖于初始级联传播的形状和结构信息。

现有技术的局限性，许多以前的工作已经研究了线上社交网络的级联的特点。例如， Dow et al.研究了在脸谱网两个大的照片共享级联[12]。Kwak et al.调查的观众规模，树的高度，和时间特性的级联在Twitter的数据集[25]。级联的这些属性的是重要的，但是，它们是远远不够准确地预测级联大小。

一些以前的工作也提出了模型捕捉级联的各种方面的在线社交网络。例如，Galuba等人提出级联传播模型来预测哪些用户可能提到哪些网址[15]。Sadikov等调查了在缺失数据的级联中估计的大小和深度[35]。Gomez等开发了一个基于最大似然估计的优先连接过程的生成模型来模拟合成讨论级联[16]。然而，很少有工作集中在开发模型来预测在在线社交网络的级联的大小。

在本实施例中，我们使用多阶马尔可夫模型预测在线社交网络中级联大小预测。在我们所提出的方法主要是大、小级联有不同的初始传播特性如形状和结构。我们所提出的模型的目的是捕捉这些差异，自动提取区分图形签名，可用于区分大，小级联。

SocialPredictor由三个关键部分组成：级联编码算法、级联建模方法和级联分类算法。级联编码算法的唯一编码的一种定量表征级联的形状和结构。它在级联图上首先遍历一个级联，然后使用游程编码压缩遍历结果。级联建模方法将级联的游程编码序列建模为离散随机过程。这种随机过程进一步建模为马尔可夫链，然后推广到一个多阶马尔可夫链模型。最后，状态的多阶马尔可夫链模型作为特征来训练监督分类算法进行级联大小预测。

实验估计：我们评估了我们提出的级联大小预测方案在Twitter上收集的实际数据集的有效性，该数据集包含超过800万条推特，涉及超过20万个独特的用户。结果表明，基于级联大小预测方案在不同的实验场景马尔可夫模型达到了超过90％的预测精度。我们还基于SocialPredictor的预测计划与基线预测方案的基础上几个级联图形功能，如边缘增长率，度分布，聚类，直径。结果表明，SocialPredictor允许我们实现比基线计划显着更好的预测精度。

下面重点阐述在线社交网络的级联的特性和建模。

A.特征描述

Zhou等研究Twitter的帖子关于伊朗选举[39]。特别是，他们研究了预定义的级联的形状的频率。他们的实验结果表明，级联往往有更多的宽度比深度。在他们的数据中观察到的最大级联深度为七跳。Leskovec等研究博客和推荐网络中级联形状和大小的模式[26]，[27]。他们的工作也仅限于研究级联的固定形状的频率。

Kwak等人调研观众规模，树的高度，和在Twitter的数据集时间特性的级联[25]。他们的实验结果表明，观众的级联的大小独立于级联源的邻居的数目。他们发现，在他们的数据集的约96％的级联有一个高度为1跳和最大级联的高度为11跳。他们还发现，约10％的级联持续扩大，甚至直到它们的开始后的一个月。Romero等人在程度分布，聚类和衔接优势方面进行研究，特别研究了关于主题标签的Twitter级联[33]。实验结果表明，运动，音乐，技术和政治等不同主题(识别使用主题标签)的级联具有不同的特征。类似地， Rodrigues等研究了包含URL的Twitter级联的结构相关属性[31]。他们研究了级联属性，如高度，宽度以及包含来自不同网域的URL的级联用户数

Dow等研究了Facebook中照片共享级联的解剖学[3]。他们发现大多数级联具有广播结构，即大多数转播距离源的距离为1跳。他们还表明，具有可比较大小的大级联可以具有不同的时间演进，反复曝光，分支因子和用户人口统计。最近，Cheng等使用内容，结构和时间特征的桶列表研究了预测级联的问题[8]。我们评估和比较其基线比较的结构特征。请注意，我们无法与他们的Facebook平台特定的基于内容的功能(例如，标题中的积极情感词的分数)进行比较。

级联的这些和类似的结构特性是重要的；然而，如我们稍后在我们的实验评估中所示，它们远远不足以用于准确的级联尺寸预测。

B.模型

Sadikov等人调研了在缺失数据的级联大小和深度的估计[35]。其估计模型使用多个特征，包括节点数，边数，孤立节点数，弱连接组件的数量，节点度，和非叶节点外向度。他们使用Twitter数据集的实验评估表明，他们的模型准确地估计了不同部分缺失数据的级联属性。然而，不清楚这种模型如何有效地用于级联大小预测。

Gomez等人研究了维基百科，Slashdot，Barrapunto和Meneame中的讨论级联的结构，这些功能仅仅基于级联的深度和度数分布[16]。他们还开发了一种基于优化附加过程的最大似然估计来模拟综合讨论级联的生成模型。然而，他们的模式仅限于合成讨论级联的产生。

本实施例的在线社会网络的级联规模预测方法SocialPredictor，一个多阶马尔科夫在线网络中级联大小预测的基于链的模型。它由三个主要组成部分组成。首先编码给定的级联图，用于定量表示，使其结构信息保留。其次使用多阶马尔可夫链模拟编码序列。最后，将多阶马尔科夫链的状态用作训练用于级联大小预测的监督分类算法的特征。在我们描述这些组成部分之前，首先介绍级联图构造过程的细节。

A.级联图构造

可以使用两个图表，关系图和级联图来表示社交网络。两个图表共享同一组节点(或顶点)V代表一组社交网络中的所有用户。关系图代表社交网络中用户之间的关系。在该图中，节点表示用户，边表示用户之间的关系，如果边是有向的，即用户u到用户v的有向边表示v是u的跟随者，则该图被称为跟随者图，表示为其中V是用户集合，是有向边集合。如果边是无向的，用户u和用户v之间的无向边表示u和v是朋友，那么这个图就称为友情图，表示为(V,E_f)，其中V是用户集合，E_f是无向边集合。我们研究的本质就是我们的重点在跟随器图上表示为级联图表示在社交网络中正在发生的动态活动(如用户共享一个URL或加入一个组)。级联图是表示的非循环有向图表示为其中V是用户集合,是有向边集合，其中来自用户u的有向边e＝(u， v)到用户v表示某物从u到v的传播，T是输入为边的函数输出是边e的传播发生的时间。

虽然从社交网络中的静态关系图是很容易构建，但是动态级联图是非常重要的，因为可能有多个传播从级联源到节点的路径。到目前为止，在以前的文献中没有对级联图构建的共识。在本实施例中，我们使用与[35]中描述的方法类似的构造方法。我们接下来通过 Twitter的例子来解释我们的构造方法。图1是本实施例的级联构建和编码的示例图。考虑图1(a)中的跟随者图。让(u，t)表示执行动作的用户，例如时间t张贴URL在Twitter 个人资料。

假设下列的动作以增序发生：(A,t₁),(B,t₂),(D,t₃),(C,t₄),(E,t₅),，其中t₁＜t₂＜t₃＜t₄＜t₅。假设(A,t₁)表示A在他的Twitter个人资料上发布了一个URL，并且所有其他动作(即 (B,t₂),(D,t₃),(C,t₄),(E,t₅),)正在重新发布与A相同的URL。

关于该URL传播的级联图的构造如下所示。首先，A是级联图的根，因为它是这个级联的起源。第二，在时间t₂B转发A的tweet(这个例子中的一个URL)必须在A的影响下，因为在图1(a)的跟随器图中只有一个从A到B的路径。因此，在图1(b)的级联图中，从A到B有一个时间戳t₂的边。请注意，每个转发(或在Twitter的术语中转发)包含推文的来源(本示例中为A)。然而，第三，在t₃时刻D转贴A的推文可能在A的影响之下 (因为在图1(a)和t₁＜t₃)的跟随者图中有A到D的路径或B的影响(因为有一个在跟随器图中从B到D的路径以及t₂＜t₃)。请注意，即使D通过B的转发看到A的推文，A的推文在D的配置文件上的转贴也不包含关于B的任何信息，并且仅显示该推文的来源是A。在这种情况下，我们假设D被部分影响通过A和B两者，而不是假定D受用户B或A的影响，因为这样我们可以保留关于相应随动图的更多信息。因此，在图1(b)所示的级联图中，从A到D的边缘和从B到D的另一个边缘，其中两个边缘的时间戳是t₃。类似地，我们将边缘从B添加到C，时间戳t₄和从D到E的边缘，在级联图中带有时间戳t₅。

B.级联编码

级联编码的第一步是将构造的级联图编码为表示级联图的结构的二进制序列。已经针对图像压缩和DNA分析等多个领域的广泛问题研究了图形编码[19]，[30]。图形编码的一般目标是将大型几何数据转换为简洁的表示形式，以实现有效的存储和处理。然而，我们的目标是以捕获其结构信息的方式编码给定的级联图。为此，我们使用由Dyck Path编码启发的以下图形编码算法[37]。

我们首先从根节点开始构建的级联图的深度优先遍历，从而生成一个生成树。为了产生独特的生成树，在级联图中的每个节点处，我们按照其时间戳的递增顺序对外出边缘进行排序，即排序边e₁,e₂,...,e_k使得T(e₁)＜T(e₂)＜...＜T(e_k)然后按照顺序遍历它们。对于每个边，我们使用1对其向下遍历进行编码，并使用0对其向上遍历进行编码。图1(c)示出了图1(b)中级联图的遍历以及每次向下或向上遍历的编码。来自该遍历过程的二进制编码结果为11011000。让C代表级联图的二进制码。然后二进制代码的长度|C |是边缘集大小的两倍即此外，令C[i]为第i个元素的二进制代码和 I(C[i])是一个指标函数如果C[i]＝1，I(C[i])＝1，如果C[i]＝0，则I(C[i]) ＝-1。因为每个边缘精确地遍历两次，一个向下一个向上，我们有：

级联编码的第二步是将从级联图的深度优先遍历获得的二进制序列转换为对应的游程编码。二进制序列的运行是一个子序列，其中该子序列中的所有位都是0s(或1s)，但是如果存在子序列之前和之后的位是1s(或0s)。通过用运行的长度替换二进制序列中的每个运行，我们获得二进制序列的游程长度编码[22]。例如，对于二进制序列11011000，对应的游程长度编码是2123。

直观地，使用基于深度优先的基于traver-sal的编码的游程编码允许我们捕获级联图的分支特征。我们还尝试了基于广度优先的遍历编码，但是它没有捕获在级联分类中稍后有效的类似信息。我们提出的编码方法成功地捕获了级联图的分支特性，同时实现简单。值得注意的是，我们提出的框架也可以用于其他合适的编码方法。

C.马尔可夫模型

我们还希望对级联编码进行建模以捕获级联的特性，以便它们可用于识别不同类型级联(例如，大型与小型级联)之间的相似性和差异。这个模型应该允许我们提取不同类型级联的结构特征，然后使用这些特征对它们进行分类。下面，我们首先介绍我们的模型，然后展示其对级联进行分类的有用性。

考虑级联图G的级联的游程长度编码序列C^我们可以使用离散随机对该序列建模过程{C_k^}，k＝1,2，...，|C|。这个过程的基本分析显示出有一定程度的依赖随机过程发出的连续符号。换句话说，假设这个过程是独立或无记忆是不合理的。同时，要平衡捕获进程内的一些依赖关系简化该编码序列的数学处理，我们诉诸于马尔科夫的假设[6]。正如我们稍后讨论的那样，通过分析底层过程C_k^的自相关函数，可以合理地证明这一假设。对于第一阶马尔可夫过程，这意味着

也就是

Pr[c₁，c₂，...，c_n]＝Pr[c₁]Pr[c₂|c₁]...Pr[c_n|c_n-1]. (1)

换句话说，我们引用关于级联过程及其形状和结构的马尔可夫假设，其由编码的序列C^表示。给定具有均匀时不变变换的马尔可夫假设C^，概率C^可以使用传统的马尔可夫链来表示。马可夫链框架允许我们通过使用量化任意状态序列的概率方程1来表示。马尔可夫链的状态转移矩阵的每个元素等价于C^的子序列，这又等价于相应级联的子图。我们可以通过在状态转换矩阵中引入多个连续的转换作为单一状态来推广马尔科夫链模型，这将允许我们指定级联的任意大小子图。这种广义马尔科夫链称为多阶马尔可夫链，有时称为全状态马尔可夫链。马尔科夫链的顺序代表过去状态决定现状的程度。

自相关是选择马尔可夫链模型的适当顺序的重要统计量[6]。对于给定滞后t，随机过程的自相关函数Xm(其中m是时间或空间索引)，定义为

其中E(·)表示期望运算，为时间或空间随机变量的标准偏差滞后为i。自相关函数的值范围[-1,1]，其中|ρ[t]|＝1表示完全相关在滞后t和ρ[t]＝0表示在滞后t没有相关性。该马尔科夫链模型的顺序一般选择等于自相关值的最大非负延迟功能跳出95％置信区间[24]。

马可夫链可能状态的数量增加随着马尔科夫链次序的增加而呈指数增长模型。对于马尔科夫链的n阶延伸k状态，状态总数为kn。对于一组级联编码序列，令T表示所选订单的集合根据上述标准。我们选择最大值T中的值，由Tmax表示，为单个马尔科夫的顺序我们想要使用的链模型。

D.级联分类

我们现在展示如何使用上述马尔可夫链模型进行级联分类。

1)特征选择：我们的建模方法的本质是通过多阶Markov模型的状态来捕获级联的形状和结构。马尔科夫链中的每个状态都代表了可能的级联子结构。因此，我们可以使用这些状态作为可用于表征给定级联的底层特征，并确定它可能属于的类。然而，如前所述，马尔可夫链中的州数量对于较高的订单呈指数增长，底层模型的复杂性也在增加。此外，高阶马尔科夫链需要大量的训练数据来识别实际出现在训练数据中的状态子集。换句话说，用有限数据训练的马尔可夫链模型通常是稀疏的。因此，我们使用以下两种方法来系统地减少马尔科夫链的状态数目Tmax。

首先，我们可以结合马尔可夫链中的多个状态减少其状态数量。通过将状态合并在一起多阶马尔科夫链，我们本质上是使用状态低阶马尔可夫链。我们需要建立一个标准结合马尔可夫链中的状态。为此，我们使用马尔科夫链状态的典型性概念。典型性允许我们识别马尔可夫链状态的典型子集通过产生其实现[6]。进一步深入细节，我们首先说出以下知名的典型定理：对于任何静止和不可约的马尔可夫过程X和a常数c，序列x₁,x₂,...,x_m几乎对每个当m——→∞时，n≤clogm是(n,ε)典型的。序列x₁,x₂,...,x_m叫做马尔科夫过程X的(n,ε)典型。如果其中P(x₁，x₂，...，x_n)＝0

和P(x₁，x₂，...，x_n)＝0是序列x₁，x₂,...,x_n经验相对频率和实际概率。换一种说法，

这个定理给出了一种经验性地识别给定马尔可夫链的任意长度的典型样本路径的方法。基于这个定理，我们产生实现(或样本路径)从任意长度的过渡矩阵马可夫链。通过产生足够大的数量给定长度的样本路径，我们可以识别一个相对的典型的样本路径的小子集。使用这个标准，我们选择典型状态的一个子集作为潜力特征，其长度在[0，Tmax]的范围内变化。接下来，我们从典型的子集中进一步列出马尔科夫状态，并将其用作对级联进行分类的特征。

第二，为了进一步减少在分类器中使用的特征数量，我们需要对上述典型的马尔科夫状态进行优先排序。功能的优先级可以基于它们的差异化能力。信息理论可用于量化分化能力的度量的功能(马可夫在我们的例子中指出)是信息增益[9]。在这种情况下，信息增益是互信息在给定特征Xi和类变量Y之间。为一个给定特征Xi和类变量Y，信息增益 Xi相对于Y定义为：

IG(X_i；Y)＝H(Y)-H(Y|X_i)

其中H(Y)表示类变量的边际熵Y和H(Y|Xi)表示给定的Y的条件熵功能Xi。换句话说，信息增益量化了减少类变量Y的不确定性，我们对Xi的功能有完整的了解。请注意，在本实施例中，由于我们应用，类变量Y是{0,1}我们的模型需要区分的问题两级级联(如下所述)。在这项研究中，我们最终选择具有最高信息的前100个功能获得，因为使用更多的功能没有显着改变结果。

2)分类：让我们假设状态i的存在由二进制随机变量Xi表示；i＝1；2；...100因此，P(Xi＝1)表示状态Xi的存在的概率。我们可以将Xis看作是代表潜在功能的变量。因此，我们的培训过程如下。对于给定的级联Y，我们通过分析足够大数量的属于类Y的样本级联来评估Y中给定特征(状态)Xi的存在。随后，我们能够评估每个类的先验条件概率P(Xi|Y)Y∈{1,2,...,k}，其中k类的数量通常非常小。在我们的例子中，我们对k＝ 2的传统二进制分类器感兴趣。但是，请注意，这种分类方法可以使用众所周知的一对一 (成对)或多个-所有配方[20]。

我们可以共同使用多种功能进行区分属于不同类的两套级联。特别地，鉴于信息增益的顶部特征，我们可以通过部署机器学习来分级级联分类。在本实施例中，我们使用贝叶斯分类器来共同利用选定的特征来对级联进行分类。Naese Bayes是一种流行的概率分类器，已被广泛应用于文本挖掘和生物信息学文献，并且在分类准确性方面已经表现优于更复杂的技术[38]。它使用两组概率训练：先验，其代表类变量Y的边际概率P(Y)；以及给定类变量Y的特征Xi的先验条件概率P(Xi|Y)。如前所述，这些概率可以从训练集计算。

现在，对于给定的级联测试实例，可以观察到特征Xi，i＝1,2，...，n，后验概率 P(Y|X⁽ⁿ⁾)可以为两个类计算Y∈{0,1}，其中X⁽ⁿ⁾＝(X₁,X₁,...,X_n)是在正在考虑的测试级联的观察的特征向量。

然后，贝叶斯分类器通过假设条件独立性在特征之间组合后验概率。

虽然特征之间的独立性假设可以很好地评估后验概率较低的复杂性，这种假设故事一直都是对的。对于我们的研究，我们通过预处理特征的独立性假设来减轻影响，预处理特征的独立性假设使用Karhunen-Loeve变换(KLT)[11]。

图2是真实世界的Twitter级联的可视化图。右侧的径向布局和右侧的圆形布局。

实验结果

在本实施例中，我们评估提出在线社交网络级联大小预测模型的有效性。下面首先描述用于评估的数据集，然后定义评估指标，最后讨论评估结果。

A数据收集

在流行的在线社交网络中，Twitter是其中之一允许系统从其网站收集数据。因此，我们选择研究Twitter上出现的级联结构和形状。对于我们的研究，我们从Twitter分别收集了两个数据集。第一个数据集是使用Twitter的流API收集的公开推文的实时收集匹配一个或多个过滤器谓词[2]。我们专注于与阿拉伯之春活动有关的推文，这是一个理想的案例研究，因为它跨越了几个月。要收集有关国家的推特数据，我们提供了相关关键字作为过滤器谓词。例如，我们使用关键字“利比亚”和“的黎波里”收集与利比亚相关的推文。总的来说，我们在2011年3月的一周内收集了8个国家的推文。使用Twitter的流式API，我们从超过20万个独特用户收集了超过800万条推文。

鉴于无法准确构建级联图，而无需关注用户关注的信息。Twitter通过名为RESTAPI 的独立接口为特定用户提供跟随者信息[2]。REST API通过允许客户端在一小时内只进行有限数量的API调用，采用了极大的速率限制。在我们的推文数据集中，我们遇到了超过 20万个独特用户，我们被要求至少每个用户请求一个请求追随者名单。为了克服这个限制，我们利用了数十个公共代理服务器来并行调用Twitter的REST API。使用这种方法，我们在不到一个月内收集了所有用户的追踪者列表。

B数据特征

Twitter提供“重新推送”功能，允许用户将其他用户的推文重新发布到其个人资料。在所有后续的重新推送中都会保留对原始tweet的用户的引用。没有关于中间用户的信息。使用跟随器图形，我们构建了基本上是级联的所有重新组合的级联图。因此，整体图是我们数据中所有级联的并集。在图2中，我们使用径向布局方法可视化我们的数据集中的两个级联[1]。在径向布局中，我们选择具有原始tweet的用户作为中心顶点(或一般为根顶点)，并且其余顶点将基于它们与中心顶点的接近度而放置在同心圆中。在图2(a)中，我们观察到顶点的程度通常随着与根顶点的距离增加而减小。相反，在图2(b)中，我们观察到后续顶点具有与根顶点相当的度数。我们的目标是使用我们提出的模型以自动化方式捕获这些差异。接下来，我们根据其度数和路径属性分析收集的数据集中级联的结构特征。

我们首先共同研究数据集中所有级联的边数和节点数。连接数据集中的级联图，级联图中的每个用户至少有一个向内或向外的边。因此，级联图|E|中的边数有下限： |E|≥|V|-1其中|V|是参与级联的用户数。图3为本发明实施例的数据集中的级联图属性图。图3(a)显示了我们数据集中所有级联的边缘和节点数之间的散点图。注意我们使用两个轴的对数标度。从该图中，我们观察到散点图采用条纹的形式，其厚度表示每个节点的平均边缘数。该条带的平均厚度大致对应于与节点数相比有两倍的边缘数。

1)路径属性：级联的另一个重要特征是根节点(启动级联的用户)的级别，其通常具有与级联图中的所有其他节点相比最高的程度。在我们的数据集中，对于超过92％的级联，根节点的级联度与级联图中的所有其他节点相比最高。根节点的程度本质上表示在线社交网络中级联传播的不同路由的数量。注意，这些路径可以在第一跳之后合并在一起；然而，我们预期根节点的数量和级联传播的唯一路由数量之间有一些相关性。图的一个相关特征是平均(最短)路径长度(APL)，其表示全对最短路径的平均值[5]。

其中d(i，j)是用户i和j之间的最短路径长度。我们预期级联的平均路径长度与根节点的程度成正比。图3(b)显示了根节点度和平均路径长度的散点图。如预期的那样，我们观察到具有较高根节点度的级联倾向于具有较大的平均路径长度。

C.评估指标

我们现在根据标准接收器操作特性(ROC)度量来评估M³的分类有效性[13]。下面，|正例性|＝|真正例|+|假正例|和|反例|＝|真反例|+|假反例|。

为了确保分类结果是可推广的，我们将数据集划分为k个折叠，并使用k-1进行训练，然后将其遗留在测试中。我们重复这些实验k次，并在以下文本中报告平均结果。此设置称为分层k-折叠交叉验证程序[38]。对于本实施例报道的所有实验结果，我们使用k＝10的值。我们观察到k值的定性相似结果。

图4为本发明实施例的级联尺寸预测设置图。我们现在使用我们的Twitter数据集介绍M3的评估结果。我们比较了基于SocialPredictor的方案的分类性能和基线方案，该方案使用以下众所周知的图形特征[4]与纳贝贝斯分类算法：边缘增长率，节点数，根节点数，平均值最短路径长度，直径，生成树数，聚类系数和团数。这些特征总结了级联图的结构信息。

在本实施例中，我们将级联尺寸预测问题处理为等效级联分类问题：给定了具有τ₁边缘的级联，将其分为两类：在其一生中具有小于τ₂边缘的级联类和级联类这将在其使用寿命期间具有大于或等于τ₂的边缘。我们使用初始τ₁边缘来训练基于SocialPredictor的级联尺寸预测方案和基于级联图特征的基线方案。对于广泛的评估，我们改变τ₁和τ₂的值。因为我们的数据集中的边缘数量的分布是偏斜的，也就是大多数在其寿命期间只有几个边缘的级联，所以τ₁和τ₂-τ₁的值越大，两个类别越不平衡。为了减轻类不平衡的潜在不利影响[21]，我们采用实例重抽样来确保两个类在交叉验证评估之前具有相等数量的实例。下面我们讨论两种方案的分类精度，因为我们改变τ₁和τ₂的值。

影响变化τ₁。图4(a)示出了当我们改变τ₁∈{10,50,100}的值，同时保持τ₂-τ₁固定在10时的评估设置。实线，虚线和虚线垂直黑线对应于τ₁＝10，固体，虚线和虚线垂直灰线都对应于τ₂-τ₁＝100。τ1的值影响分类结果，因为它确定了可用于训练的每个级联中的边缘数量。因此，较大的τ₁值通常提高了级联尺寸预测方案的训练质量，并提高了分类精度。

图5(a)绘制了SocialPredictor的检测率，假阳性率和准确度以及变化τ₁∈ {10,50,100]的基线方案，同时将τ₂-τ₁保持在10。总的来说，我们观察到SocialPredictor 始终优于基线方案，在τ₁＝100，τ₂-τ₁＝10s时峰值精度为96％。通常，我们观察到两种方案的分类精度都随着τ1值的增加而减小。图6(a)所示的SocialPredictor的标准ROC 阈值图也证实了这一观察结果。

变化的影响τ₂-τ₁。图4(b)示出了当我们改变τ₂-τ₁∈{10,50,100}的值时，同时保持τ₁固定在10处的评估设置。实线垂直黑线对应于τ₁＝10。而虚线垂直灰线分别对应于τ₂-τ₁＝10,50和100。τ₂-τ₁的值也会影响分类结果，因为它决定了两类之间的距离或距离。因此，较大的τ₂-τ₁值通常导致更好的预测精度。

图5为本实施例的SocialPredictor的分类结果和不同τ₁和τ₂-τ₁值的基线图。图6为本实施例的SocialPredictor的不同τ₁和τ₂-τ₁值的ROC阈值图。

图5(b)绘制了SocialPredictor的检测率，假阳性率和准确度以及τ₂-τ₁变化值的基线方案。再次，我们观察到SocialPredictor在τ₂-τ₁＝100，τ₁＝10时始终优于基线方案，峰值精度为99％。我们还观察到，两种方法的分类精度都随着τ₂-τ₁的值而改善增加。图6(b)所示的SocialPredictor的标准ROC阈值图也证实了这一观察结果。

在本实施例中，我们首先提出了SocialPredictor，一种基于多阶马尔可夫链的模型，用于在线社交网络中级联大小预测。SocialPredictor的关键洞察是大型和小型级联具有不同的初始传播特性，如形状和结构。SocialPredictor通过自动提取可用于区分大型和小型级联的区分图形签名来捕获这些差异。使用真实Twitter数据集的实验结果表明，SocialPredictor在预测精度方面显着优于基线方案。基于SocialPredictor的级联尺寸预测方案在不同的实验场景中始终实现了90％以上的预测精度。

我们设想未来的工作沿着以下方向。首先，SocialPredictor可用于解决可从其结构信息中受益的其他级联分类问题。例如，SocialPredictor可用于区分在线社交网络中的垃圾邮件和正常活动级联。第二，我们计划探索随机级联编码方法，如基于随机游走的图形[14]，[34]。最后，我们在本实施例中在线社交网络中使用了SocialPredictor；然而，我们的模式通常适用于其他环境中的级联，如社会学，经济学，心理学，政治学，营销学和流行病学。我们的模型在这些环境中的应用是未来的有趣工作。

参考文献

[1]Graphviz-graph visualization software.http://www.graphviz.org.

[2]Twitter API documentation.https://dev.twitter.com/docs.

[3]P.A.D.amd L.A.Adamic and A.Friggeri.The Anatomy of LargeFacebookCascades. In AAAI International Conference on Weblogs andSocial Media(ICWSM),2013.

[4]B.Bollobas.Modern graph theory.Springer Verlag,1998.

[5]A.Bondy and U.Murty.Graph Theory.Springer,2008.

[6]P.Bremaud.Markov Chains.Springer,2008.

[7]M.Cha,A.Mislove,and K.P.Gummadi.A measurement-drivenanalysis ofinformation propagation in the Flickr social network.InACM WWW,2009.

[8]J.Cheng,L.A.Adamic,P.A.Dow,J.Kleinberg,and J.Leskovec.Cancascadesbe predicted？In World Wide Web Conference(WWW),2014.

[9]T.M.Cover and J.A.Thomas.Elements of InformationTheory.WileyInterscience, 1991.

[10]K.Dave,R.Bhatt,and V.Varma.Modelling action cascades insocialnetworks. In AAAI Conference on Weblogs and Social Media,2011.

[11]R.Dony.The Transform and Data Compression Handbook,Chapter 1.CRCPress, 2001.

[12]P.A.Dow,L.A.Adamic,and A.Friggeri.The Anatomy of Large FacebookCascades.In AAAI ICWSM,2013.

[13]T.Fawcett.ROC Graphs:Notes and Practical ConsiderationsforResearchers. Technical report,HP Laboratories,2004.

[14]D.Figueiredo,P.Nain,B.Ribeiro,E.de Souza e Silva,and D.Towsley.Characterizing continuous time random walks on time varying graphs.InACM SIGMETRICS/Performance,2012.

[15]W.Galuba,K.Aberer,D.Chakraborty,Z.Despotovic,and W.Kellerer.Outtweeting the Twitterers-Predicting Information Cascades inMicroblogs.In 3rd Workshop on Online Social Networks(WOSN),2010.

[16]V.Gomez,H.J.Kappen,and A.Kaltenbrunner.Modeling the structure andevolution of discussion cascades.In ACM HT,2011.

[17]M.Gomez-Rodriguez,J.Leskovec,and A.Krause.Inferring networksofdiffusion and influence.In ACM KDD,2010.

[18]D.Gruhl,R.Guha,R.Kumar,J.Novak,and A.Tomkins.The predictivepowerof online chatter.In ACM KDD,2005.

[19]S.-Y.Hsieha,C.-W.Huanga,and H.-H.Choub.A DNA-based graphencodingscheme with its applications to graph isomorphism problems.AppliedMathematics and Computation,203:502–512,2008.

[20]C.-W.Hsu and C.-J.Lin.A comparison of methods formulticlasssupport vector machines.IEEE Transactions on Neural Networks,13(2):415–425,2002.

[21]N.Japkowicz and S.Stephen.The class imbalance problem:Asystematicstudy. Intelligent Data Analysis,6(5):429–449,2002.

[22]N.S.Jayant and P.Noll.Digital Coding of Waveforms:PrinciplesandApplications to Speech and Video.Prentice Hall,1984.

[23]D.Kempe,J.Kleinberg,and E.Tardos.Maximizing the spreadofinfluence through a social network.In proceedings of KDD,2003.

[24]S.A.Khayam and H.Radha.Markov-based modeling of wirelesslocalarea networks.In ACM Mobicom Workshop on Modeling,Analysis andSimulationof Wireless and Mobile Systems,2003.

[25]H.Kwak,C.Lee,H.Park,and S.Moon.What is Twitter,a socialnetwork ora news media？In ACM WWW,2010.

[26]J.Leskovec,M.McGlohon,C.Faloutsos,N.Glance,and M.Hurst.Cascadingbehavior in large blog graphs.In SIAM InternationalConference on Data Mining(SDM), 2007.

[27]J.Leskovec,A.Singh,and J.Kleinberg.Patterns of influence inarecommendation network.In Pacific-Asia Conference on KnowledgeDiscovery andData Mining(PAKDD),2006.

[28]X.Li.Informational cascades in IT adoption.Communications oftheACM,47(4), 2004.

[29]M.Miller,C.Sathi,D.Wiesenthal,J.Leskovec,and C.Potts.Sentimentflow through hyperlink networks.In AAAI ICWSM,2011.

[30]M.Reid,R.Millar,and N.D.Black.Second-generation image coding:Anoverview.Second-Generation Image Coding:An Overview,29:3–29,1997.

[31]T.Rodrigues,F.Benevenuto,M.Cha,K.P.Gummad,and V.Almeida.On word-of-mouth based discovery of the web.In ACM IMC,2011.

[32]E.M.Rogers.Diffusion of Innovations.Cambridge University Press,2003.

[33]D.M.Romero,B.Meeder,and J.Kleinberg.Differences in the mechanicsof information diffusion across topics:Idioms,political hashtags,andcomplexcontagion on Twitter.In ACM WWW,2011.

[34]M.Rosvall and C.T.Bergstrom.Maps of random walks oncomplexnetworks reveal community structure.Proceedings of the NationalAcademyof Sciences(PNAS), 105(4):1118–1123,2008.

[35]E.Sadikov,M.Medina,J.Leskovec,and H.Garcia-Molina.Correctingformissing data in information cascades.In WSDM,2011.

[36]J.A.Starr and I.C.MacMillan.Resource cooptation viasocialcontracting: Resource acquisition strategies for newventures.StrategicManagement Journal, 11:79–92,1990.

[37]Y.Sun.The statistic“number of udu’s”in Dyckpaths.DiscreteMathematics, 287(1-3):177–186,2004.

[38]I.H.Witten,E.Frank,and M.A.Hall.Data Mining:PracticalMachineLearning Tools and Techniques.Morgan Kaufmann,2011.

[39]Z.Zhou,R.Bandar,J.Kong,H.Qian,and V.Roychowdhury.Informationresonance on Twitter:Watching Iran.In SOMA,2010。

Claims

1.一种在线社会网络的级联规模预测方法，其特征在于：首先级联编码给定的级联图，用于定量表示，使其结构信息保留；其次使用多阶马尔可夫链模拟编码序列；最后，将多阶马尔可夫链的状态用作训练用于级联大小预测的监督级联分类算法的特征。

2.根据权利要求1所述的在线社会网络的级联规模预测方法，其特征在于：

所述级联图构造，使用两个图表，关系图和级联图来表示社交网络，两个图表共享同一组节点V代表一组社交网络中的所有用户；关系图代表社交网络中用户之间的关系，级联图表示在社交网络中正在发生的动态活动。

3.根据权利要求2所述的在线社会网络的级联规模预测方法，其特征在于：首先，A是级联图的根，它是这个级联的起源；第二，在时间t₂B转发A的tweet必须在A的影响下，从A到B有一个时间戳t₂的边；第三，在t₃时刻D转贴A的推文可能在A的影响之下的跟随者图中有A到D的路径或B的影响，从A到D的边缘和从B到D的另一个边缘，其中两个边缘的时间戳是t₃；类似地，将边缘从B添加到C，时间戳t₄和从D到E的边缘，在级联图中带有时间戳t₅。

4.根据权利要求1所述的在线社会网络的级联规模预测方法，其特征在于：

所述级联编码，级联编码的第一步是将构造的级联图编码为表示级联图的结构的二进制序列；级联编码的第二步是将从级联图的深度优先遍历获得的二进制序列转换为对应的游程编码。

5.根据权利要求4所述的在线社会网络的级联规模预测方法，其特征在于：首先从根节点开始构建的级联图的深度优先遍历，从而生成一个生成树，在级联图中的每个节点处，按照其时间戳的递增顺序对外出边缘进行排序，然后按照顺序遍历它们；所述二进制序列的运行是一个子序列，通过用运行的长度替换二进制序列中的每个运行，获得二进制序列的游程长度编码。

6.根据权利要求1所述的在线社会网络的级联规模预测方法，其特征在于：

所述马尔可夫模型，对级联编码进行建模以捕获级联的特性，以便它们用于识别不同类型级联之间的相似性和差异，能够允许提取不同类型级联的结构特征，然后使用这些特征对它们进行分类。

7.根据权利要求6所述的在线社会网络的级联规模预测方法，其特征在于：

考虑级联图G的级联的游程长度编码序列C^，使用离散随机对该序列建模过程{C_k^}，k＝1,2，...，|C|，同时平衡捕获进程内的一些依赖关系简化该编码序列的数学处理，即引用关于级联过程及其形状和结构的马尔可夫假设，其由编码的序列C^表示；给定具有均匀时不变变换的马尔可夫假设C^，概率C^使用传统的马尔可夫链来表示；马尔可夫链的状态转移矩阵的每个元素等价于C^的子序列，又等价于相应级联的子图，这种广义马尔科夫链称为多阶马尔可夫链。

8.根据权利要求1所述的在线社会网络的级联规模预测方法，其特征在于：

所述级联分类，使用马尔可夫链模型进行级联分类；包括，

1)特征选择：通过多阶Markov模型的状态来捕获级联的形状和结构，马尔可夫链中的每个状态都代表了可能的级联子结构，使用这些状态作为可用于表征给定级联的底层特征，并确定它可能属于的类；

9.根据权利要求8所述的在线社会网络的级联规模预测方法，其特征在于：

首先，结合马尔可夫链中的多个状态减少其状态数量，通过将状态合并在一起多阶马尔科夫链，使用状态低阶马尔可夫链，建立一个标准结合马尔可夫链中的状态；接下来，从典型的子集中进一步列出马尔科夫状态，并将其用作对级联进行分类的特征。

第二，为了进一步减少在分类器中使用的特征数量，对典型的马尔科夫状态进行优先排序。

10.根据权利要求9所述的在线社会网络的级联规模预测方法，其特征在于：

马尔可夫链状态的典型的子集的产生：对于任何静止和不可约的马尔可夫过程X和a常数c，序列x₁,x₂,...,x_m几乎对每个当m——→∞时，n≤clogm是(n,ε)典型的；序列x₁,x₂,...,x_m叫做马尔科夫过程X的(n,ε)典型；如果其中P(x₁，x₂，...，x_n)＝0

<mrow> <mo>|</mo> <mfrac> <mrow> <mover> <mi>P</mi> <mo>^</mo> </mover> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>x</mi> <mn>2</mn> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>x</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>x</mi> <mn>2</mn> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>x</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mn>1</mn> <mo>|</mo> <mo><</mo> <mo>&Element;</mo> <mo>,</mo> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>x</mi> <mn>2</mn> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>x</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>></mo> <mn>0.</mn> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mo>(</mo> <mn>3</mn> <mo>)</mo> <mo>;</mo> </mrow>

和P(x₁，x₂，...，x_n)＝0是序列x₁,x₂,...,x_n经验相对频率和实际概率；

基于此产生实现从任意长度的过渡矩阵马可夫链，通过产生足够大的数量给定长度的样本路径，识别一个相对的典型的样本路径的小子集。

11.根据权利要求8所述的在线社会网络的级联规模预测方法，其特征在于：

特征Xi，i＝1,2，...，n，后验概率P(Y|X⁽ⁿ⁾)为两个类计算Y∈{0,1}，其中X⁽ⁿ⁾＝(X₁,X₁,...,X_n)是在正在考虑的测试级联的观察的特征向量；

然后，贝叶斯分类器通过假设条件独立性在特征之间组合后验概率；

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <msup> <mi>X</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> </msup> <mo>|</mo> <mi>Y</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Pi;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mi>i</mi> </msub> <mo>|</mo> <mi>Y</mi> <mo>)</mo> </mrow> <mo>.</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> <mo>.</mo> </mrow> 2