CN104123352A

CN104123352A - 面向微博的话题层次用户影响力度量方法

Info

Publication number: CN104123352A
Application number: CN201410328207.1A
Authority: CN
Inventors: 吕林涛; 豆芳芳; 谭芳; 王锦辉
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2014-07-10
Filing date: 2014-07-10
Publication date: 2014-10-29

Abstract

本发明公开了一种面向微博的话题层次用户影响力度量方法，按照以下步骤实施：步骤1：计算微博文本间的相似度；步骤2：采用动态聚类算法相关得到话题集合；步骤3：话题层次用户影响力衡量标准：计算用户的信息传播影响力；计算用户微博价值影响力；计算用户活跃度影响力；建立用户影响力度量模型。本发明方法综合考虑了信息传播、用户活跃度、用户微博价值这三种因素对用户影响力的影响，建立了一种用户影响力度量模型，通过该模型可以更加准确的衡量用户在话题层次的影响力，进而可以发现在话题传播过程中起关键作用的用户，微博网络中的舆情监控与追踪起到保障和监督作用。

Description

面向微博的话题层次用户影响力度量方法

技术领域

本发明属于网络舆情分析技术领域，涉及一种话题层次的用户影响力度量方法，具体涉及一种面向微博的话题层次用户影响力度量方法。

背景技术

及时获取微博上的敏感话题并减少进一步的传播带来的恶劣影响，发现在话题传播中起到关键作用的用户，通过引导这些关键用户来正确的导向社会舆论方向，这已经成为了网络新媒体和舆情监管部门亟待解决的问题。

目前国内外针对微博用户影响力研究主要有以下几个方向：基于个体属性的影响力研究、基于网络结构的影响力研究、结合个体属性和网络关系的影响力研究以及信息传播层面影响力研究。我们认为用户的影响力是有多种因素共同决定的，其中用户属性、网络结构和信息传播都能不同程度的预测用户的影响力。所以综合考虑这三种因素对用户影响力的影响，建立了一种用户影响力度量模型，通过该模型可以更加准确的衡量用户在话题层次的影响力，进而可以发现在话题传播过程中起关键作用的用户，微博网络中的舆情监控与追踪起到保障和监督作用。

以往的研究并没有将这三种影响因素综合考虑在内，用户影响力模型综合考虑了这三个方面，并赋予不同的权重反应不同因素的重要性，更能准确的衡量用户影响力。

发明内容

本发明提供了一种面向微博的话题层次用户影响力度量方法，根据结合文本语义使用聚类算法得到微博话题集合，分析话题集合中用户行为、用户属性、信息传播对用户影响力的重要性，建立了一种用户影响力度量模型，从而更加准确的衡量用户的影响力，挖掘出话题传播过程中的关键用户。

本发明所采用的技术方案是：面向微博的话题层次用户影响力度量方法，具体按照以下步骤实施：

步骤1：计算微博文本之间的相似度；

步骤2：采用动态聚类算法得到相关话题集合；

步骤3：对话题层次用户影响力进行衡量。

本发明的特点还在于，

其中的步骤1具体按照以下步骤实施：

(1)对两条任意微博短文本A和B，首先利用中科院汉语词法分词工具ICTCLAS进行分词处理，得到微博文本中的名词和动词，分别记为集合A＝{a₁,a₂,…a_m}，B＝{b₁,b₂,…,b_n}；

(2)对于A中的任意一个词a₁，利用词语语义相似度计算方法计算它和B中的每一个词的相似度S_i1,S_i2,...,S_in；

(3)按照步骤(2)计算得到A和B中所有词相似度矩阵S：

(4)从词语相似度矩阵S中找出数值最大的五对元素，按照大小排序依次为：S_max1，S_max2，S_max3，S_max4，S_max5；

S_max1到S_max5为0-1之间的实数，取这五对词语相似度的平均值，进而计算两条微博之间的相似度S_AB，如以下公式所示：

S_{AB} = \frac{Σ_{i = 1}^{5} S_{\max 1}}{5} .

其中的步骤2具体按照以下步骤实施：

输入：n个数据点和数据间相似度矩阵；

输出：聚类的类数k和k个聚类数据对象集合C_j；

(1)：从n个数据点中随机的选择一个节点作为第一个中心，记为Z₁；

(2)：找到离Z₁最远的点，即相似度最小的点作为另一个中心，记为Z₂；

(3)：将其余非中心点按其与中心点相似度最大放入这两个类中；

(4)：do；

(4.1)：在每个类中，计算每个数据对象与其它数据对象相似度的均值；

(4.2)：将均值最大的数据对象作为新的质心，并将其余非质心点按照相似度最大放入这k个类中；

(4.3)：在每个类中，找到与类质心相似度最小的点；

(4.4)：如果该点与类中心的相似度值低于一定的阈值，将该点变为新的类质心；

(4.5)：k++；

(4.6)：将其余非质心点按照相似度最大放入这k个类中；

(5)：while，直到没有新的质心出现，跳出循环；

(6)：结束；

自动阈值确定新质心的函数如下：

对任意一个类C_i，i∈{1,2,…,K}，若存在一个点x_j,x_j∈C_i，x_j与Z_i的相似度最小，其余同类中与Z_k相似度最小的点与Z_k的相似度是该相似度的m倍以上，便把x_j认为是新的质心，将数据点x_j放入质心集合中，此函数结束，Z_i是每个类的质心。

其中的步骤3具体按照以下步骤实施：

步骤a：计算用户的传播影响力；

(1)：在第i个话题空间中，获取关注网络G_L(V_L,E_L)、转发网络G_F(V_F,E_F)，其中V_L为关注网络中的节点，E_L为关注关系；V_F为转发网络中的节点，E_F为转发关系；

(2)：将转发网络映射到关注网络得到信息传播网络G_T(V_T,E_T)；

(3)：计算用户的话题传播影响力；

步骤b：计算用户微博价值影响力；

将用户发布的所有微博的影响力的平均值作为用户微博价值影响力，其计算公式如下所示：

TweetIf (u_{i}) = \frac{1}{n} Σ_{i = 1}^{n} TweetIf (i),

其中TweetIf(i)为用户u_i第i条微博的影响力，通过微博的转发数和评论数来衡量一条微博的价值，定量计算一条微博价值公式如下：

TweetIf (i) = \sqrt[3]{{Renum}_{i}} + \sqrt{{CoNum}_{i}},

其中ReNum和CoNum分别为微博的转发数和评论数；

步骤c：计算用户活跃度影响力；

通过用户的主动行为和被动行为反映用户的活跃度，并通过活跃度指数模型来衡量用户活跃度影响力值，模型定义如下：

ActiveIf (u_{i}) = Σ_{j = 1}^{k} \frac{n_{i, j}}{T_{j . first} - T_{j . end}},

其中k为影响因子的个数，k＝7；T_j,first为用户u_i第j类影响因子最早发生时间，T_j.end为第j类影响因子最晚发生的时间，n_i,j为用户u_i第j类影响因子的总数；

步骤d：计算用户最终的影响力；

用户最终的影响力计算如下所示：

UserIf(u_i)＝λ₁PR(u_i)+λ₂ActiveIf(u_i)+λ₃TweetIf(u_i)，

其中λ_i代表不同影响因素的权重因子，PR(u_i)为用户u_i的传播影响力，ActiveIf(u_i)为用户活跃度影响力，TweetIf(u_i)为用户微博价值影响力。

其中的步骤3中的步骤(2)将转发网络映射到关注网络得到信息传播网络G_T(V_T,E_T)，具体按照以下步骤实施：

(2.1)：初始化G_T(V_T,E_T)，使得G_T(V_T,E_T)＝G_L(V_L,E_L)；

(2.2)：给E_T中的元素赋予初始值n(n∈Z)；

E_T中各元素的初始值是不固定的，对于任意的e_T(u→v)∈E_T，用户u推送信息到用户v的页面上，用户v以一定的概率转发该微博，用户v的粉丝数体现了该用户对该微博传播的贡献大小，因此取

(2.3)：取任意节点u∈V_F；

(2.4)：任取集合OE_F(u)中的元素其中，OE_F(u)是由节点u链出的有向边的集合，是集合OE_F(u)中的元素，m是边上的权值；

(2.5)：若存在则n＝m+n；若u,v∈V_T但是将加入E_T中，并且n＝m；若将u或者v加入V_T并将加入E_T；跳转到(2.4)，直至OE_F(u)所有元素遍历完全；

其中的解释与类似，n的值越大说明粉丝越多，那么对于消息推送者的贡献越大，其影响力就越大；

(2.6)：重复(2.3)到(2.5)，直到V_F中所有元素遍历完全；

(2.7)：输出G_T(V_T,E_T)。

其中的步骤3中的步骤(3)计算用户的话题传播影响力，具体按照以下步骤实施：

(3.1)：获取节点间的转移矩阵；

影响力进入话题传播网后所处的位置通过位置向量V来描述，V是一个n(n∈Z)维列向量，其中的第j个分量代表影响力处于节点j的概率，由于影响力随机选择节点注入网络，所以初始位置向量v₀＝(1/n,1/n,…,1/n)^T，假设影响力在话题传播网中转移t次后的位置向量为v_t，则迭代计算的公式为：

v_{t + 1} = bM \cdot v_{t} + (1 - b) \frac{e}{n},

其中，b为固定值，表示随机跳转的概率，取值是0.8到0.9之间，e是一个n维的随机跳转向量，是一个单位列向量，bM·v_t表示随机冲浪者以概率b从当前网页选择一个链接继续浏览的情况；表示冲浪者以1-b的概率进行随机跳转的情况；

对于v_t+1中的第i个分量计算公式如下所示：

s_{t + 1}^{i} = \frac{1 - b}{n} + b * Σ_{j = 1}^{n} (p_{ij} \cdot s_{t}^{j}),

转移概率p_ij定义如下所示：

p_{ij} = \frac{w_{j &RightArrow; i}}{\underset{k &Element; O (j)}{Σ} w_{j &RightArrow; k}},

其中，w_j→i为边的权值，也就是话题传播网络中的n值，O(j)为节点j出链指向的节点集合；

将公式

p_{ij} = \frac{w_{j &RightArrow; i}}{\underset{k &Element; O (j)}{Σ} w_{j &RightArrow; k}}

代入公式

s_{t + 1}^{i} = \frac{1 - b}{n} + b * Σ_{j = 1}^{n} (p_{ij} \cdot s_{t}^{j})

中，得到影响力节点的迭代公式：

{PR}_{t + 1} (i) = \frac{1 - b}{n} + b * Σ_{j = 1}^{n} (\frac{w_{j &RightArrow; i}}{\underset{k &Element; O (j)}{Σ} w_{j &RightArrow; k}} * {PR}_{t} (j)),

其中，PR_t(i)为节点i迭代t+1次后的影响力值，PR_t(j)为节点j迭代t次后的影响力值；

(3.2)：计算传播网络中节点的PR值；

根据PageRank算法，通过迭代公式计算每个节点的PR值。

本发明的有益效果是，通过动态聚类算法得到更加精确的话题集合，在话题集合中从上个层面：用户行为、用户属性、信息传播，考察用户的影响力，本发明提供的方法能够更加准确的衡量用户实际的影响力，为网络舆情分析和监控提供一定的参考价值。

附图说明

图1是本发明方法中话题集合获取模型；

图2是本发明方法中话题层次用户影响力计算模型；

图3是本发明方法中关注网络；

图4是本发明方法中的转发网络；

图5是本发明方法中一条微博转发路径；

图6是本发明方法中k-means算法与传统算法聚类效果比较，其中图6(1)为传统k-means与改进算法10次运行时间对比图；图6(2)为传统k-means与改进算法10次耦合性对比图；图6(3)为传统k-means与改进算法10次紧凑性对比图；

图7是本发明方法中TDN-If算法与其他算法比较结果，其中图7(1)，图7(2)，图7(3)分别为TDN-If算法与RepostRank、TweetRank、In-degree、TweetNum算法在10个话题中Top10、Top20、Top50、Top100的平均准确率、平均召回率、平均F值对比结果。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

参照图1，本发明面向微博的话题层次用户影响力度量方法，按照以下步骤实施：

步骤1：微博文本相似度计算

传统的文本聚类技术主要采用向量空间模型(Vector Space Model,VSM)计算文本之间的相似度，它是通过统计文档词频的方式计算文本之间的相似度，但是这种方法的前提是假设词语间是相互独立的，没有从语义上分析文档内容，因此不能准确计算文档之间的相似度，从而影响聚类效果。本发明研究的对象是微博文本，是一种最多只有140字的网络短文本，传统的基于词频等简单方式不能很好的表征微博短文本。因此本发明从语义角度考虑微博短文本的表示，进而得到微博文本之间的相似度。具体的做法如下：

(1)对两条任意微博短文本A和B,首先利用中科院汉语词法分词工具ICTCLAS进行分词处理，得到微博文本中名词和动词，分别记为集合A＝{a₁,a₂,…a_m},B＝{b₁,b₂,…,b_n}，其中a_i、b_i分别为A、B经过分词后得到的名词或动词。

(2)对于A中的任意一个词a_i，根据《知网》中词语语义相似度的计算方法分别计算它和B中的每一个词的相似度，分别记为S_i1,S_i2,...,S_in；

(3)得到A和B中所有词相似度矩阵记为S：

S_max1到S_max5为0-1之间的实数，取这五对词语相似度的平均值，进而计算两条微博之间的相似度S_AB，如公式2所示：

S_{AB} = \frac{Σ_{i = 1}^{5} S_{\max 1}}{5} - - - (2)

步骤2：根据相似度矩阵获取微博话题集合。

输入：n(n∈Z)个数据点和数据间相似度矩阵；

输出：聚类的类数k和k个聚类数据对象集合。

Step1：从n个数据点中随机的选择一个节点作为第一个中心，记为Z₁；

Step2：找到离Z₁最远的点，也即是相似度最小的点作为另一个中心，记为Z₂；

Step3：将其余非中心点按其与中心点相似度最大放入这两个类中；

此时K＝2；

Step4：do

Step4.1：在每个类中，计算每个数据对象与其它数据对象相似度的均值；

Step4.2：将均值最大的数据对象做为新的质心，并将其余非质心点按照相似度最大放入这k个类中；

Step4.3：在每个类中，找到与类质心相似度最小的点；

Step4.4：如果该点与类中心的相似度值低于一定的阈值，将该点变为新的类质心；

Step4.5：k++；

Step4.6：将其余非质心点按照相似度最大放入这k个类中；

Step5：while(直到没有新的质心出现)，跳出循环；

Step6：结束。

自动阈值确定新质心的函数如下：

对任意一个类C_i，i∈{1,2,…,K}，k为聚类的个数。若存在一个点x_j,x_j∈C_i，x_j与Z_i的相似度最小，其余同类中与Z_k相似度最小的点与Z_k的相似度是该相似度的m倍以上，便把x_j认为是新的质心，将数据点x_j放入质心集合中，此函数结束。其中Z_i是每个类的质心。根据反复实验发现，m选取3效果最好。

通过运行时间、耦合性和紧凑性来对比本发明中的k-means算法与传统k-means算法，结果如表1所示：

表1算法运行10次结果均值表

算法	Running time/s	Compactness	Reference
				传统k-means	842	12377	40.8
改进k-means	1212	14145	27.2

从表中可以看出本发明中的k-means算法的运行时间与传统k-means算法相比，相差不是很大，但是紧凑性和耦合性却远远好于传统k-means算法，说明本发明的k-means算法更能将相似度高的数据聚集，相似度低的数据归属于不同的类别。

步骤3：参照图2，用户话题层次用户影响力计算：

步骤(1)：计算用户传播影响力

本发明根据用户之间的关注行为以及信息的转发情况考察用户在信息传播过程中的影响力。

A.关注网络构建

根据聚类算法可以得到的n(n∈Z)个话题集合，取其中的一个话题集合，记为i，参与话题讨论的用户通过一个唯一的数字标识记为uid，一个用户u的关注列表记为list，list＝{uid₁，uid₂，......，uid_i，......，uid_n}，list中的所有的元素都关注了用户u，如果在第i个话题中list中的一部分用户也参与了该话题的讨论(即发布了相关微博)，那么将这一部分用户记为用户u的sub_list。

Setp1：在第i个话题空间中，获取参与话题的用户uid；

Setp2：根据用户uid获取该用户的关注列表list；

Step3：根据该用户关注列表得到在该话题空间中存在关注关系的关注子列表sub_list；

在微博中，如果用户u关注了用户v，那么存在一条由u指向v的边，即是u→v表示u和v之间的关注关系。

Setp4：最后根据每个用户的sub_list，得到该话题集合下的关注网络。

B.转发网络构建

Setp1：在第i个话题集合中，若微博A中包含“//微博B”，则在节点A、B之间建立一条边，由B->A；

如果用户B发布一条微博M，用户A转发了该条微博，则用户A发布的微博形式为：//用户B的用户名M。

Step2：若微博中包含多个“//”，说明存在嵌套转发，则根据“//”出现的顺序依次建立有向边；

Setp3：B->A的权值为在第i个话题下A转发B微博的次数。

C.话题传播网络构建

Setp1：输入G_L(V_L,E_L)和G_F(V_F,E_F)；

其中G_L(V_L,E_L)为关注网络，V_L为关注网络中的节点，E_L为关注关系；G_F(V_F,E_F)为转发网络，V_F为转发网络中的节点，E_F为转发关系；

Setp2：初始化G_T(V_T,E_T)，使得G_T(V_T,E_T)＝G_L(V_L,E_L)；

其中G_T(V_T,E_T)为话题传播网路，V_T为网络中的节点，E_T为网络中的转发或关注关系。

Setp3：给E_T中的元素赋予初始值n(n∈Z)；

E_T中各元素的初始值是不固定的，对于任意的e_T(u→v)∈E_T，其中e_T(u→v)表示传播网络E_T中，用户u和用户v之间存在关系，信息流动由u指向v。用户u推送信息到用户v的页面上，用户v将会以一定的概率转发该微博，用户v的粉丝数体现了该用户对该微博传播的贡献大小，因此取

Setp4：取任意节点u∈V_F；

Setp5：任取集合OE_F(u)中的元素

其中，OE_F(u)是由节点u链出的有向边的集合，是集合OE_F(u)中的元素，m是边上的权值。

Setp6：若存在则n＝m+n；若u,v∈V_T但是将加入E_T中，并且n＝m；若将u或者v加入V_T并将加入E_T；跳转到step5，直至OE_F(u)所有元素遍历完全；//广度优先遍历

其中的解释与类似，n的值越大说明粉丝越多，那么对于消息推送者的贡献越大，其影响力就越大。

Setp7：重复setp4到step6，直到V_F中所有元素遍历完全；//广度优先遍历

Setp8：输出G_T(V_T,E_T)。

D.话题传播网络中用户影响力评估算法

本发明根据C中得到的话题传播网络，借鉴PageRank算法思想得到用户在该网络中的影响力值，称该算法为话题传播网络用户影响力发现算法TDN-If(Topic Diffusion Network-Influence)算法。该算法实施步骤如下：

Setp1：获取节点间的转移矩阵

在该算法中，需要一个转移矩阵(transition matrix)M描述节点间的转移概率。影响力进入话题传播网后所处的位置通过位置向量V来描述。V是一个n(n∈Z)维列向量，其中的第j个分量代表影响力处于节点j的概率。由于影响力随机选择节点注入网络，所以初始位置向量v₀＝(1/n,1/n,…,1/n)^T，假设影响力在话题传播网中转移t次后的位置向量为v_t，则迭代计算的公式为：

v_{t + 1} = bM \cdot v_{t} + (1 - b) \frac{e}{n} - - - (3)

其中，b为固定值，表示随机跳转的概率，取值一般是0.8到0.9之间，本方法中取0.85。e是一个n维的随机跳转向量，是一个单位列向量。bM·v_t表示随机冲浪者以概率b从当前网页选择一个链接继续浏览的情况；表示冲浪者以1-b的概率进行随机跳转的情况。

对于v_t+1中的第i个分量计算公式如下所示：

s_{t + 1}^{i} = \frac{1 - b}{n} + b * Σ_{j = 1}^{n} (p_{ij} \cdot s_{t}^{j}) - - - (4)

其中p_ij为节点间的转移概率，转移概率p_ij定义如公式如下所示：

p_{ij} = \frac{w_{j &RightArrow; i}}{\underset{k &Element; O (j)}{Σ} w_{j &RightArrow; k}} - - - (5)

其中，w_j→i为边的权值，也就是话题传播网络中的n值，O(j)为节点j出链指向的节点集合。

将公式5代入公式4中，得到影响力节点的迭代公式：

{PR}_{t + 1} (i) = \frac{1 - b}{n} + b * Σ_{j = 1}^{n} (\frac{w_{j &RightArrow; i}}{\underset{k &Element; O (j)}{Σ} w_{j &RightArrow; k}} * {PR}_{t} (j)) - - - (6)

其中，PR_t+1(i)为节点i迭代t+1次后的影响力值，PR_t(j)为节点j迭代t次后的影响力值。

Setp2：计算传播网络中节点的用户影响力值，即PR值

根据PageRank算法思想，通过迭代公式6计算每个节点的PR值。这里的PR值必须是收敛的。

步骤(2)：计算用户微博价值影响力

本发明通过用户发布的所有微博的影响力的平均值作为用户微博价值影响力，其计算公式如下所示：

TweetIf (u_{i}) = \frac{1}{n} Σ_{i = 1}^{n} TweetIf (i) - - - (7)

其中TweetIf(i)为用户u_i第i条微博的影响力，n为用户u_i发布的微博数。本发明中通过微博的转发数和评论数来衡量一条微博的价值，定量计算一条微博价值公式如下：

TweetIf (i) = \sqrt[3]{{Renum}_{i}} + \sqrt{{CoNum}_{i}} - - - (8)

其中ReNum和CoNum分别为微博的转发数和评论数。

步骤(3)：计算用户活跃度影响力

本发明通过用户的主动行为和被动行为反映用户的活跃度，并通过一种活跃度指数模型来衡量本发明中用户活跃度影响力值，模型定义如下：

ActiveIf (u_{i}) = Σ_{j = 1}^{k} \frac{n_{i, j}}{T_{j . first} - T_{j . end}} - - - (9)

其中k为影响因子的个数，本方法中k＝7。T_j,first是用户u_i第j类影响因子最早发生时间，T_j.end为第j类影响因子最晚发生的时间。n_i,j为用户u_i第j类影响因子的总数。

步骤(4)：计算用户最终的影响力

根据上述步骤(1)、步骤(2)、步骤(3)得到的三种影响力值，分别赋予不同的权重反应对用户影响力的贡献，用户最终的影响力计算如下所示：

UserIf(u_i)＝λ₁PR(u_i)+λ₂ActiveIf(u_i)+λ₃TweetIf(u_i) (10)

其中λ_i(i＝1,2,3)代表不同影响因素的权重因子，PR(u_i)为用户u_i的传播影响力，ActiveIf(u_i)为用户活跃度影响力，TweetIf(u_i)为用户微博价值影响力。

由于不同的度量指标间存在的差异较大，在进行加权融合前还要进行归一化处理，使得参与融合的指标在一个数量级上。归一化公式如11所示：

Normal (u_{i}, j) = D \cdot (1 + \frac{x_{i, j} - x_{\min, j}}{x_{\max, j} - x_{\min, j}}) - - - (11)

其中，Normal(u_i,j)表示用户u_i的第j类指标的归一化结果，x_max,j，x_min,j分别为用户u_i在第j类指标下的最大值、最小值。利用经过变形的极差标准化方法，可以将指标中的数据控制在[0，2D]之间，本方法中的D＝0.5。

本发明中将转发网络映射到关注网络，解决了基于关注关系得到的网络不能很好的刻画用户的行为的问题，并借鉴PageRank算法思想得到用户的传播影响力，TDN-If与RepostRank、TweetRank、In-degree、TweetNum算法相比结果如图7所示。

对于PR(u_i)用户u_i的传播影响力，ActiveIf(u_i)用户活跃度影响力，TweetIf(u_i)用户微博价值影响力与用户实际的影响力的关系，进行验证。其中公式10中的λ_i取值如表2所示：

表2度量指标权重

根据本发明用户影响力度量模型得到的用户影响力与其他单一度量指标的内在联系进行验证，如表3所示：

表3用户影响力度量指标之间的关系

其中，If为用户的粉丝影响力、Ic为用户的评论影响力、Ir为用户的转发影响力，It为用户的微博数目影响力，这几种指标为用户传统的影响力评价指标。ρ斯皮尔曼等级相关系数反映了相同排名的用户间的影响力值差异，τ为肯德尔等级序列相关系数反映了同一用户在不同影响力度量指标下的排名差异情况，overlap为重叠率，反映了不同度量指标下TOP K用户的覆盖率。

从表中可以看出本发明提出的信息传播影响力指标、用户活跃度影响力指标和用户微博影响力指标与用户实际影响力关系更密切，更能反映用户的影响力。

图3是本发明方法中关注网络。表示在某话题集合中，发布了微博的用户之间的关注关系的结构。图4是本发明方法中的转发网络。该转发网络是根据节点间转发信息的次数得到有向带权转发网络。其中，节点代表微博用户，边代表信息转发关系，箭头指向为信息传播方向。边上的权值代表节点间多条信息流的叠加，边的权值反映了节点之间信息流动的频繁程度，代表了节点之间转发的次数。图5是本发明方法中一条微博转发路径。该转发路径图可对一条微博予以分析。当微博发布后，呈均匀扩散状形成多次转发。从信息转发路径中可以直观的看到在信息传播过程中哪些用户具有较高的影响力。

图6是本发明方法中k-means算法与传统算法聚类效果比较；其中图6(1)为传统k-means与改进算法10次运行时间对比图；图6(2)为传统k-means与改进算法10次耦合性对比图；图6(3)传统k-means与改进算法10次紧凑性对比图。

图7是本发明方法中TDN-If算法与其他算法比较结果。其中图7(1)，图7(2)，图7(3)分别为TDN-If算法与RepostRank、TweetRank、In-degree、TweetNum算法在10个话题中Top10、Top20、Top50、Top100的平均准确率、平均召回率、平均F值对比结果。

Claims

1.面向微博的话题层次用户影响力度量方法，其特征在于，具体按照以下步骤实施：

步骤1：计算微博文本之间的相似度；

步骤2：采用动态聚类算法得到相关话题集合；

步骤3：对话题层次用户影响力进行衡量。

2.根据权利要求1所述的面向微博的话题层次用户影响力度量方法，其特征在于，所述的步骤1具体按照以下步骤实施：

(3)按照步骤(2)计算得到A和B中所有词相似度矩阵S：

S_{AB} = \frac{Σ_{i = 1}^{5} S_{\max 1}}{5} .

3.根据权利要求1所述的面向微博的话题层次用户影响力度量方法，其特征在于，所述的步骤2具体按照以下步骤实施：

输入：n个数据点和数据间相似度矩阵；

输出：聚类的类数k和k个聚类数据对象集合C_j；

(4)：do；

(4.3)：在每个类中，找到与类质心相似度最小的点；

(4.5)：k++；

(4.6)：将其余非质心点按照相似度最大放入这k个类中；

(5)：while，直到没有新的质心出现，跳出循环；

(6)：结束；

自动阈值确定新质心的函数如下：

4.根据权利要求3所述的面向微博的话题层次用户影响力度量方法，其特征在于，所述的m选取3。

5.根据权利要求1所述的面向微博的话题层次用户影响力度量方法，其特征在于，所述的步骤3具体按照以下步骤实施：

步骤a：计算用户的传播影响力；

(3)：计算用户的话题传播影响力；

步骤b：计算用户微博价值影响力；

TweetIf (u_{i}) = \frac{1}{n} Σ_{i = 1}^{n} TweetIf (i),

TweetIf (i) = \sqrt[3]{{Renum}_{i}} + \sqrt{{CoNum}_{i}},

其中ReNum和CoNum分别为微博的转发数和评论数；

步骤c：计算用户活跃度影响力；

ActiveIf (u_{i}) = Σ_{j = 1}^{k} \frac{n_{i, j}}{T_{j . first} - T_{j . end}},

步骤d：计算用户最终的影响力；

用户最终的影响力计算如下所示：

UserIf(u_i)＝λ₁PR(u_i)+λ₂ActiveIf(u_i)+λ₃TweetIf(u_i)，

6.根据权利要求5所述的面向微博的话题层次用户影响力度量方法，其特征在于，所述的步骤(2)将转发网络映射到关注网络得到信息传播网络G_T(V_T,E_T)，具体按照以下步骤实施：

(2.1)：初始化G_T(V_T,E_T)，使得G_T(V_T,E_T)＝G_L(V_L,E_L)；

(2.2)：给E_T中的元素赋予初始值n(n∈Z)；

(2.3)：取任意节点u∈V_F；

(2.6)：重复(2.3)到(2.5)，直到V_F中所有元素遍历完全；

(2.7)：输出G_T(V_T,E_T)。

7.根据权利要求5所述的面向微博的话题层次用户影响力度量方法，其特征在于，所述的步骤(3)计算用户的话题传播影响力，具体按照以下步骤实施：

(3.1)：获取节点间的转移矩阵；

v_{t + 1} = bM \cdot v_{t} + (1 - b) \frac{e}{n},

对于v_t+1中的第i个分量计算公式如下所示：

s_{t + 1}^{i} = \frac{1 - b}{n} + b * Σ_{j = 1}^{n} (p_{ij} \cdot s_{t}^{j}),

转移概率p_ij定义如下所示：

p_{ij} = \frac{w_{j &RightArrow; i}}{\underset{k &Element; O (j)}{Σ} w_{j &RightArrow; k}},

将公式

p_{ij} = \frac{w_{j &RightArrow; i}}{\underset{k &Element; O (j)}{Σ} w_{j &RightArrow; k}}

代入公式

s_{t + 1}^{i} = \frac{1 - b}{n} + b * Σ_{j = 1}^{n} (p_{ij} \cdot s_{t}^{j})

中，得到影响力节点的迭代公式：

{PR}_{t + 1} (i) = \frac{1 - b}{n} + b * Σ_{j = 1}^{n} (\frac{w_{j &RightArrow; i}}{\underset{k &Element; O (j)}{Σ} w_{j &RightArrow; k}} * {PR}_{t} (j)),

(3.2)：计算传播网络中节点的PR值；

根据PageRank算法，通过迭代公式计算每个节点的PR值。