CN103064917A

CN103064917A - 一种面向微博的特定倾向的高影响力用户群发现方法

Info

Publication number: CN103064917A
Application number: CN2012105589846A
Authority: CN
Inventors: 刘斯尧; 赵中英; 冯圣中
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2012-12-20
Filing date: 2012-12-20
Publication date: 2013-04-24
Anticipated expiration: 2032-12-20
Also published as: CN103064917B

Abstract

本发明涉及社会化媒体数据分析与挖掘技术领域，提供了一种面向微博的特定倾向的高影响力用户群发现方法，该方法包括：S1、对微博网站上的数据进行抓取；S2、对获取的数据进行分析，找出每条微博所对应的不同主题；S3、建立新的微博网络拓扑结构；S4、分析用户的特定倾向与活跃程度，计算出用户间的传播概率；S5、根据得到的传播概率，找出面向特定主题的具有最大影响力的用户群。本发明综合考虑了微博的拓扑结构和微博的内容及主题，能反映真实情况。

Description

一种面向微博的特定倾向的高影响力用户群发现方法

技术领域

本发明涉及社会化媒体数据分析与挖掘技术领域，特别是涉及一种面向微博的特定倾向的高影响力用户群发现方法。

背景技术

微博，已经成为人们进行社交的一种重要平台与媒介之一，中国有超过4亿的微博用户，而Twitter用户更是超过5亿，信息日发送量则超过2亿，成为仅次于Facebook的第二大社交网站。近年来，微博成为无数热门话题与潮流的发源地。借助一个有效的传播模型来找到高影响力用户群，对企业来说，可以以最小的成本来获取最大的广告传播范围；而对政府来说，则可以有效的对微博中的部分信息的传播进行一定的控制。因此，研究微博中的信息传播或影响力传播，是一个具有广阔的应用前景的研究课题，引起学术界和产业界的广泛关注。

现阶段对于用户影响力的研究主要分为两个不同的方向。一种是基于病毒式营销的思想，认为每个用户都能对其相邻用户（在微博中则为“关注”的关系）施加一定的影响。基于本思想，David Kempe等学者提出两种基础的传播模型Independent Cascade（IC）模型与Linear Threshold（LT）模型，IC模型认为每个用户间具有一个相同的且为常数的传播概率p，即当t-1时刻时，用户传播（转发和评论）了信息（微博），则在t时刻，其邻点用户传播该信息的概率为p。而LT模型则认为相邻用户间具有不同的影响力，而每个用户需要其邻点施加一定的影响力（超过阀值）后才会传播信息，即对某一特定的信息而言，当t-1时刻，某用户的传播了该信息的邻点用户对于该用户的影响力超过了其自身的阀值，则在t时刻，该用户一定会传播该信息。借助相关算法（如贪婪算法或启发式算法），则可以找到使影响力最大的n个用户。

另一种则是单纯分析用户的影响力，通常基于PageRank思想并进行一定的改良，基本思想是如果某用户能影响（连接）到影响力较大的用户，那该用户的影响力也较大。该方法能很好地在MapReduce模型上高效实现，在较短的时间内即可计算出所有用户的影响力。但与前一种方法不同的是，由于影响力最大的数个用户间可能存在大部分的影响范围重叠，因此，该方法无法解决影响力最大化问题，而只能根据计算出的影响力对用户进行排序。

从微博的运作方式上来看，IC模型能够较好的模拟真实的传播过程。用户每一次对微博的传播在网络拓扑结构中都可以表现为一种对其自身周围所有邻点的广播，而这每一次广播都有可能（一定概率）对邻点进行影响，即邻点可以选择传播该微博或者是忽略。但其不足的地方在于，传统的IC模型认为所有用户之间的传播概率均为一恒定的常数，这一假设过于简单并与现实大相径庭。现实中，不同的用户具有不同的喜好，他们对于微博的转发或者评论多数出于他们对于该微博内容的关注，因此，不同的用户之间对于不同内容的微博将具有不同的传播概率。基于对真实微博数据的观测，我们发现，一条微博的传播范围与其中参与的活跃用户有一定关系，也就是说，通过活跃用户传播的信息更容易被其相邻用户所传播。显然，传统的传播模型无法模拟真实网络中的信息传播方式。

综上所述，当前对复杂微博网络中的高影响力用户群发现的研究，仅仅考虑了网络的拓扑结构，并没有分析影响力与微博内容或主题之间的关系，因此，相关现有技术不能准确反映真实数据中的传播模式，导致该方法具有很大的局限性，不能投入应用。因此，现有技术存在一定的缺陷，而有待于改进和发展。

发明内容

本发明提供了一种面向微博的特定倾向的高影响力用户群发现方法，旨在解决现有的高影响力用户群发现方法忽略了影响力与微博内容或主题之间的关系，不能反映真实情况这一技术问题。本发明采用如下技术方案：

一种面向微博的特定倾向的高影响力用户群发现方法，包括：

S1、对微博网站上的数据进行抓取；

S2、对获取的数据进行分析，找出每条微博所对应的不同主题；

S3、建立新的微博网络拓扑结构；

S4、分析用户的特定倾向与活跃程度，计算出用户间的传播概率；

S5、根据得到的传播概率，找出面向特定主题的具有最大影响力的用户群。

优选地，在所述步骤S1中，抓取的数据包括：用户ID、用户名、微博内容、微博序号和参与转发与评论的用户ID；其中所述微博序号为根据获取该微博的时间给予该微博的序号，不同的微博对应不同的序号。

优选地，所述步骤S1具体为：

抓取一设定时间段内的数据，并忽略其中参与人数较少的数据，保留参与人数较多的数据。

优选地，所述设定时间段为近1年，所述参与人数较多的数据为转发与评论数量之和大于30的微博。

优选地，所述步骤S2具体为：

基于LDA模型计算微博的主题。

优选地，所述LDA模型不考虑语法问题，对于每一篇微博视为一个词频向量，将文本信息转换为数字信息；通过提取微博中的互异单词，并删除其中的停用词，推断出“微博-主题”的分布与“主题—单词”的分布；根据这两个分布，判断微博作者以及传播者所感兴趣的主题与各主题所占的比例，作为分析用户的特定倾向；考虑到每条微博所包含的内容较少，取其比例最高的前三项主题作为微博内容的特定倾向。

优选地，所述步骤S3具体为：

取消原有微博网络中用户间关注关系的连接结构，根据步骤S1获取的数据中的转发与评论的关系，重新建立微博网络拓扑结构。

优选地，所述步骤S4具体包括：

S41、根据步骤S1抓取的数据和步骤S2获得的分析结果，建立“微博-用户”关系矩阵、“微博—主题”关系矩阵和“用户-主题”关系矩阵；

S42、通过所述关系矩阵得到用户的特定倾向与活跃程度，并根据步骤S3得到的新的微博网络拓扑结构，计算出两用户间的传播概率。

优选地，所述步骤S41具体包括：

S411、根据步骤S1抓取的数据和步骤S2获得的分析结果，建立“微博—用户”关系矩阵和“微博—主题”关系矩阵；其中，所述“微博—用户”关系矩阵中，列为微博序号，行为用户ID，该矩阵表示用户是否在该微博的传播中出现；所述“微博—主题”关系矩阵中，列为微博序号，行为不同的微博主题，该矩阵表示微博内容所对应的不同主题所占的比重；

S412、将“微博—用户”关系矩阵和“微博—主题”关系矩阵相乘，得到“用户—主题”关系矩阵，其中各项数值表示用户对应不同主题的频数，并可以依次计算出不同主题所对应的频率；对于每个用户，其频数之和表现为该用户的活跃程度，对应主题的频率则表现为其特定倾向；

所述步骤S42具体为：

结合所述频数和频率，并根据步骤S3得到的新的微博网络拓扑结构，计算出两用户间的传播概率。

优选地，在所述步骤S42中，以用户的活跃程度作为基础传播概率，以用户的特定倾向作为调整权重值，所述传播概率为传播概率乘以调整权重值。

优选地，所述步骤S5具体为：

根据得到的传播概率，采用CELF贪婪算法，找出面向特定主题的具有最大影响力的用户群；

所述CELF贪婪算法的计算步骤为：

S51、设立一种子集合A，所述A为空集合；

S52、对于任意节点s，计算δ_s(A)=R(AU{s})-R(A)，其中s∈V-A，V为新的微博网络拓扑结构中所有节点的集合，R(A)为集合A中节点能够传播到的范围，δ_s(A)为将任一点s加入集合A后的边际影响力增加；

S53、对所有的δ_s(A)按降序排列，选取第一位的节点加入集合A，并将其从队列中删去；

S54、根据排列顺序，重新计算第一位的节点的δ_s(A)值，并加入队列中排序；

S55、判断该节点是否依旧排在第一位，若是，执行步骤S56；否则，返回执行步骤S54；

S56、选取该节点加入集合A，并将其从队列中删去；

S57、判断集合A中节点数量是否满足要求，若是，结束；否则，返回执行步骤S54。

本发明综合考虑了微博的拓扑结构和微博的内容及主题，其有益效果是：

（1）本发明能够有效地对原始的微博网络结构进行简化，并且所需要分析的数据量也随之大大减少；

（2）本发明对原有的传播模型进行了大幅度的改良，使其能更好的贴合实际；

（3）本发明对传播概率进行了重新定义，使得其考虑了用户间的亲疏关系、对于不同主题的倾向程度以及用户自身的活跃程度。

附图说明

图1为本发明实施例一种面向微博的特定倾向的高影响力用户群发现方法流程图；

图2为本发明实施例一种面向微博的特定倾向的高影响力用户群发现方法的原理图；

图3为本发明实施例中CELF贪婪算法的计算方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1和图2所示，本实施例提供了一种面向微博的特定倾向的高影响力用户群发现方法，该方法包括下述步骤：

步骤S1：微博数据抓取。

本步骤对微博网站上的数据进行抓取，获取现有的微博数据，包括微博内容与该微博涉及到的所有用户。其中抓取的数据包括：用户ID、用户名、微博内容、微博序号和参与转发与评论的用户ID；其中微博序号为根据获取该微博的时间给予该微博的序号，不同的微博对应不同的序号。

在数据获取中，考虑到有大部分微博只产生了极小的影响（很低的评论与转发数量），且不具备传播的意义（比如只是抒发自身情绪，不含有任何有意义的主题）。因此，只需要对转发与评论数量超过一定数量的微博进行抓取，例如转发与评论数量之和大于30的微博。另外，显然用户的兴趣可能会随着时间而产生变化，因此距离现在较远的数据其蕴含的意义较低，只需要考虑某一设定时间段内的数据，例如近1年内的微博数据。因此，本实施例中，抓取一设定时间段内的数据，并忽略其中参与人数较少的数据，保留参与人数较多的数据。当然，时间段和对参与人数较多的数据的定义可根据实际情况自行设定，此处不做限制，以上仅为举例说明。

步骤S2：数据分析。

本步骤对获取的数据进行分析，找出每条微博所对应的不同主题。本实施例中，基于LDA模型计算微博的主题，运用LDA模型，对获取的数据进行分析，找出每条微博所对应的不同的主题。LDA模型作为一种非监督机器学习技术，对于每一篇文档（微博）视为一个词频向量，而不考虑语法问题，将文本信息转换为数字信息。通过提取微博中的互异单词，并进行部分处理，也即删除其中的停用词，可以推断出“微博-主题”的分布与“主题-单词”的分布。根据这两个分布，就可以判断微博作者以及传播者所感兴趣的主题与各主题所占的比例，作为分析用户的特定倾向。考虑到微博有其字数限制（每一篇不超过140字），所占内容比例较小的主题较难引起用户重视，因此，只取其比例最高的前三项主题作为微博内容的特定倾向。

步骤S3：微博拓扑结构重建。

本步骤建立新的微博网络拓扑结构。取消原有微博网络中用户间关注关系的连接结构，根据步骤S1获取的数据中的转发与评论的关系，重新建立微博网络拓扑结构。本实施例取消了原有微博网络中的连接结构，即用户间的关注关系，而根据获取的数据中的转发与评论的关系，重新建立网络。微博网络中传统的拓扑结构，也就是按照用户间关注的关系连接不同的用户，随着用户的增加，该拓扑结构变得日益复杂。平均每个用户有超过50以上的连接关系，这种复杂的连接结构使得对微博网站的整体分析十分困难，而且显然这种连接关系无法表现出现实中用户间的亲疏之分，用户间的连接关系大多是出于一种现实中的联系（同学或同事等），毫无疑问在熟悉的用户间信息被传播的可能性要远远高于普通的具有关注关系的用户，还有的只是出于一种礼节性的相互关注，这一关系对信息传播几乎没有任何帮助，反而加深了网络的复杂程度。近年来Meeyoung Cha与Hamed Haddadi等学者对微博网络中信息传播进行了一系列的观测，从中可以发现，通过转发与评论所表现出来的用户间的联系要远远紧密于原始结构中关注用户间的联系。因此，本发明不采用微博网络中原始的依据关注关系所建立的网络拓扑结构，而根据步骤S1中获取的数据，以用户对微博的转发与评论为依据，重新建立用户间的联系。与原始网络结构相比较，新的网络结构有了极大的简化，特别是对于有着众多关注的用户而言，其真正参与微博的传播（对其关注用户的微博评论与转发）所涉及到的用户只占他所关注的一部分，另外由于在步骤S1的数据获取中，省略了大部分缺乏分析意义的数据，因此也缩短了后续步骤中找出最大影响力用户群时算法的计算时间。

步骤S4：计算传播概率。

本步骤分析用户的特定倾向与活跃程度，计算出用户间的传播概率。本步骤可通过如下步骤具体实现：

步骤S41、根据步骤S1抓取的数据和步骤S2获得的分析结果，建立“微博—用户”关系矩阵M、“微博—主题”关系矩阵N和“用户—主题”关系矩阵O。在以优选实施方式中，可通过如下步骤进行关系矩阵的建立：

步骤S411、根据步骤S1抓取的数据和步骤S2获得的分析结果，建立“微博-用户”关系矩阵M和“微博-主题”关系矩阵N。其中，“微博—用户”关系矩阵M中，列为微博序号，行为用户ID，该矩阵表示用户是否在该微博的传播中出现，即Mi，j=0或1，表示用户i是否在微博j的传播中出现。“微博—主题”关系矩阵N中，列为微博序号，行为不同的微博主题，该矩阵表示微博内容所对应的不同主题所占的比重，即Ni，j=0-1，表示微博j对应主题i所占的比重。

步骤S412、将“微博—用户”关系矩阵M和“微博—主题”关系矩阵N相乘，得到“用户—主题”关系矩阵O，其中各项数值表示用户对应不同主题的频数，可以依次计算出相应的频率；对于每个用户，其频数之和表现为该用户的活跃程度，每个用户对应的对于不同主题的频率则表现为其特定倾向，也即其对于主题的偏好程度。

步骤S42、通过上面的关系矩阵得到用户的特定倾向与活跃程度，并根据步骤S3得到的新的微博网络拓扑结构，计算出两用户间的传播概率。

本实施例中，通过结合频数和频率，并根据步骤S3得到的新的微博网络拓扑结构，计算出两用户间的传播概率。对于传播概率，本实施例以用户的活跃程度作为基础传播概率，以用户的特定倾向作为调整权重值，传播概率为传播概率乘以调整权重值。其中，基础传播概率p的计算为：用户a到用户b的基础传播概率为用户b的参与微博传播的次数除以用户a所有邻点参与次数之和，即

其中，F表示为矩阵中计算出的用户的频数和，集合A为用户a的所有邻点，s为A中的任一用户。而对于以用户的特定倾向而确定的权重值，则用余弦相似度来计算。例如，对于包含主题1与主题2的微博，其从用户a到用户b的传播概率的主题敏感度的表达式为

k = (f_{a, t 1} * f_{b, t 1} + f_{a, t 2} * f_{b, t 2}) / \sqrt{f_{a, t 1}^{2} + f_{a, t 2}^{2}} * \sqrt{f_{b, t 1}^{2} + f_{b, t 2}^{2}},

其中，f_a，t1为通过矩阵计算出的用户a对于主题1的频率。则对于某条微博，其从用户a传播到用户b的概率为k*p_a→b。

根据“微博-用户-主题”的形式化模型，用真实数据衡量用户的主题敏感度与活跃度，并借此计算出传播概率。

步骤S5：找出最大影响力用户群。

本步骤根据得到的传播概率，找出面向特定主题的具有最大影响力的用户群。对于某一主题，可以找到一个具有n个节点（用户）的用户群关于该主题具有最大的影响力。本实施例中，根据得到的传播概率，采用CELF贪婪算法，找出面向特定主题的具有最大影响力的用户群。传统的贪婪算法，是通过比较每一节点（用户）所能够带来的影响力扩大，选取具有最大值的节点（用户）。由于选取节点的依据为边际影响力增加，因此，每当选取了一个节点进入用户群集合后，剩余节点的边际影响力则可能会有所变化（不变或者降低），传统贪婪算法需要不断循环而重复对所有节点（用户）的边际影响力增加进行计算与比较，其需要耗费大量的计算时间。本实施例采用优化的CELF贪婪算法，如图3所示，其计算步骤为：

步骤S51、设立一种子集合A，A为空集合。

步骤S52、对于任意节点s，计算δ_s(A)=R(AU{s})-R(A)，其中s∈V-A，V为新的微博网络拓扑结构中所有节点的集合，R(A)为集合A中节点能够传播到的范围，δ_s(A)为将任一点s加入集合A后的边际影响力增加。

步骤S53、对所有的δ_s(A)按降序排列，选取第一位的节点加入集合A，并将其从队列中删去。

通过上述步骤，比较了每一节点加入种子节点后能带来的影响力扩大，即将任一点s加入集合A后的边际影响力增加δ_s(A)，然后选取使得δ_s(A)最大的节点s加入种子节点。

步骤S54、根据排列顺序，重新计算第一位的节点的δ_s(A)值，并加入队列中排序。

步骤S55、判断该节点是否依旧排在第一位，若是，执行步骤S56；否则，返回执行步骤S54。

步骤S56、选取该节点加入集合A，并将其从队列中删去。

步骤S57、判断集合A中节点数量是否满足要求，若是，结束；否则，返回执行步骤S54。

该算法在计算各节点的边际影响力时，根据大小对其进行排序。显然，边际影响力只会随着集合A中种子节点数量增加而减少，而绝不会增加。显然，所有排序不为首位的节点不可能借由重新计算其边际影响力而超过现有的首位节点，因此，只需要重复计算排在第一位的节点的边际影响力的变动，并进行排序，当其仍然排为首位时，则为所需要的节点（现阶段边际影响力最大的节点）。根据经验可知，通常情况下，对于每一个所需要的节点的发现，只需要对排序处于前列的极少部分节点进行计算。该方法在计算时间上只在寻找第一个节点的时候与传统贪婪算法一样，之后的每一次寻找节点所需要的时间都大大减少。理论上，所需要寻找的节点数越多，CELF贪婪算法的效率越好。

综上所述，本发明实施例提供了一种新的传播模型，该模型只需要分析从微博网络中提取出的重要数据即可完成对微博整体网络的分析。具有如下特点：

（1）本发明实施例对微博网络中的数据进行了简化和提炼，只选取其中重要的（传播量与影响力较大）数据。经过对数据的简化与提炼，只选取其中转发与评论次数超过一定数量的微博，可以忽略原始数据中大部分对分析影响力传播的无效数据，因此也使得整体的计算量大大减少。

（2）以获取的数据为依据，剔除原有的“用户—关注—用户”关系，重新建立以“用户-评论与转发-用户”为基础的新的网络连接结构。考虑到用户间具有明显的亲疏关系，即微博用户与其邻接用户（即直接关注的用户）间的信息传播（转发与评论）通常集中于一部分联系紧密的用户中，而大部分的关注关系并不具有影响力，从数据上的体现就是这类用户之间没有任何的信息传播。通过剔除这类无效的连接关系，而采用新的更加简单的、以历史数据为依据的网络拓扑结构，使得在利用贪婪算法寻找影响力最大化节点（用户）的时候，所需要的计算量大大减少。

（3）通过分析用户在不同主题微博的传播的参与程度，结合用户的活跃程度，以此计算用户间的传播概率。用户的活跃度与其自身对周围邻接用户的传播概率成正相关，因此将用户活跃度与用户对各个主题的敏感度加以结合，找出一个估计用户间传播概率较为合理，也贴近现实的方法。借此可以利用相关算法（贪婪算法或启发式算法）来寻找高影响力用户群。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向微博的特定倾向的高影响力用户群发现方法，其特征在于，包括：

S1、对微博网站上的数据进行抓取；

S3、建立新的微博网络拓扑结构；

2.根据权利要求1所述的方法，其特征在于，在所述步骤S1中，抓取的数据包括：用户ID、用户名、微博内容、微博序号和参与转发与评论的用户ID；其中所述微博序号为根据获取该微博的时间给予该微博的序号，不同的微博对应不同的序号。

3.根据权利要求1所述的方法，其特征在于，所述步骤S1具体为：

4.根据权利要求3所述的方法，其特征在于，所述设定时间段为近1年，所述参与人数较多的数据为转发与评论数量之和大于30的微博。

5.根据权利要求1所述的方法，其特征在于，所述步骤S2具体为：

基于LDA模型计算微博的主题。

6.根据权利要求1所述的方法，其特征在于，所述LDA模型不考虑语法问题，对于每一篇微博视为一个词频向量，将文本信息转换为数字信息；通过提取微博中的互异单词，并删除其中的停用词，推断出“微博—主题”的分布与“主题-单词”的分布；根据这两个分布，判断微博作者以及传播者所感兴趣的主题与各主题所占的比例，作为分析用户的特定倾向；取其比例最高的前三项主题作为微博内容的特定倾向。

7.根据权利要求1所述的方法，其特征在于，所述步骤S3具体为：

8.根据权利要求1所述的方法，其特征在于，所述步骤S4具体包括：

S41、根据步骤S1抓取的数据和步骤S2获得的分析结果，建立“微博—用户”关系矩阵、“微博—主题”关系矩阵和“用户—主题”关系矩阵；

9.根据权利要求8所述的方法，其特征在于，所述步骤S41具体包括：

所述步骤S42具体为：

10.根据权利要求9所述的方法，其特征在于，在所述步骤S42中，以用户的活跃程度作为基础传播概率，以用户的特定倾向作为调整权重值，所述传播概率为传播概率乘以调整权重值。

11.根据权利要求1所述的方法，其特征在于，所述步骤S5具体为：

所述CELF贪婪算法的计算步骤为：

S51、设立一种子集合A，所述A为空集合；

S56、选取该节点加入集合A，并将其从队列中删去；