CN104123352A - 面向微博的话题层次用户影响力度量方法 - Google Patents
面向微博的话题层次用户影响力度量方法 Download PDFInfo
- Publication number
- CN104123352A CN104123352A CN201410328207.1A CN201410328207A CN104123352A CN 104123352 A CN104123352 A CN 104123352A CN 201410328207 A CN201410328207 A CN 201410328207A CN 104123352 A CN104123352 A CN 104123352A
- Authority
- CN
- China
- Prior art keywords
- user
- microblogging
- value
- similarity
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种面向微博的话题层次用户影响力度量方法,按照以下步骤实施:步骤1:计算微博文本间的相似度;步骤2:采用动态聚类算法相关得到话题集合;步骤3:话题层次用户影响力衡量标准:计算用户的信息传播影响力;计算用户微博价值影响力;计算用户活跃度影响力;建立用户影响力度量模型。本发明方法综合考虑了信息传播、用户活跃度、用户微博价值这三种因素对用户影响力的影响,建立了一种用户影响力度量模型,通过该模型可以更加准确的衡量用户在话题层次的影响力,进而可以发现在话题传播过程中起关键作用的用户,微博网络中的舆情监控与追踪起到保障和监督作用。
Description
技术领域
本发明属于网络舆情分析技术领域,涉及一种话题层次的用户影响力度量方法,具体涉及一种面向微博的话题层次用户影响力度量方法。
背景技术
及时获取微博上的敏感话题并减少进一步的传播带来的恶劣影响,发现在话题传播中起到关键作用的用户,通过引导这些关键用户来正确的导向社会舆论方向,这已经成为了网络新媒体和舆情监管部门亟待解决的问题。
目前国内外针对微博用户影响力研究主要有以下几个方向:基于个体属性的影响力研究、基于网络结构的影响力研究、结合个体属性和网络关系的影响力研究以及信息传播层面影响力研究。我们认为用户的影响力是有多种因素共同决定的,其中用户属性、网络结构和信息传播都能不同程度的预测用户的影响力。所以综合考虑这三种因素对用户影响力的影响,建立了一种用户影响力度量模型,通过该模型可以更加准确的衡量用户在话题层次的影响力,进而可以发现在话题传播过程中起关键作用的用户,微博网络中的舆情监控与追踪起到保障和监督作用。
以往的研究并没有将这三种影响因素综合考虑在内,用户影响力模型综合考虑了这三个方面,并赋予不同的权重反应不同因素的重要性,更能准确的衡量用户影响力。
发明内容
本发明提供了一种面向微博的话题层次用户影响力度量方法,根据结合文本语义使用聚类算法得到微博话题集合,分析话题集合中用户行为、用户属性、信息传播对用户影响力的重要性,建立了一种用户影响力度量模型,从而更加准确的衡量用户的影响力,挖掘出话题传播过程中的关键用户。
本发明所采用的技术方案是:面向微博的话题层次用户影响力度量方法,具体按照以下步骤实施:
步骤1:计算微博文本之间的相似度;
步骤2:采用动态聚类算法得到相关话题集合;
步骤3:对话题层次用户影响力进行衡量。
本发明的特点还在于,
其中的步骤1具体按照以下步骤实施:
(1)对两条任意微博短文本A和B,首先利用中科院汉语词法分词工具ICTCLAS进行分词处理,得到微博文本中的名词和动词,分别记为集合A={a1,a2,…am},B={b1,b2,…,bn};
(2)对于A中的任意一个词a1,利用词语语义相似度计算方法计算它和B中的每一个词的相似度Si1,Si2,...,Sin;
(3)按照步骤(2)计算得到A和B中所有词相似度矩阵S:
(4)从词语相似度矩阵S中找出数值最大的五对元素,按照大小排序依次为:Smax1,Smax2,Smax3,Smax4,Smax5;
Smax1到Smax5为0-1之间的实数,取这五对词语相似度的平均值,进而计算两条微博之间的相似度SAB,如以下公式所示:
其中的步骤2具体按照以下步骤实施:
输入:n个数据点和数据间相似度矩阵;
输出:聚类的类数k和k个聚类数据对象集合Cj;
(1):从n个数据点中随机的选择一个节点作为第一个中心,记为Z1;
(2):找到离Z1最远的点,即相似度最小的点作为另一个中心,记为Z2;
(3):将其余非中心点按其与中心点相似度最大放入这两个类中;
(4):do;
(4.1):在每个类中,计算每个数据对象与其它数据对象相似度的均值;
(4.2):将均值最大的数据对象作为新的质心,并将其余非质心点按照相似度最大放入这k个类中;
(4.3):在每个类中,找到与类质心相似度最小的点;
(4.4):如果该点与类中心的相似度值低于一定的阈值,将该点变为新的类质心;
(4.5):k++;
(4.6):将其余非质心点按照相似度最大放入这k个类中;
(5):while,直到没有新的质心出现,跳出循环;
(6):结束;
自动阈值确定新质心的函数如下:
对任意一个类Ci,i∈{1,2,…,K},若存在一个点xj,xj∈Ci,xj与Zi的相似度 最小,其余同类中与Zk相似度最小的点与Zk的相似度是该相似度的m倍以上,便把xj认为是新的质心,将数据点xj放入质心集合中,此函数结束,Zi是每个类的质心。
其中的步骤3具体按照以下步骤实施:
步骤a:计算用户的传播影响力;
(1):在第i个话题空间中,获取关注网络GL(VL,EL)、转发网络GF(VF,EF),其中VL为关注网络中的节点,EL为关注关系;VF为转发网络中的节点,EF为转发关系;
(2):将转发网络映射到关注网络得到信息传播网络GT(VT,ET);
(3):计算用户的话题传播影响力;
步骤b:计算用户微博价值影响力;
将用户发布的所有微博的影响力的平均值作为用户微博价值影响力,其计算公式如下所示:
其中TweetIf(i)为用户ui第i条微博的影响力,通过微博的转发数和评论数来衡量一条微博的价值,定量计算一条微博价值公式如下:
其中ReNum和CoNum分别为微博的转发数和评论数;
步骤c:计算用户活跃度影响力;
通过用户的主动行为和被动行为反映用户的活跃度,并通过活跃度指数模型来衡量用户活跃度影响力值,模型定义如下:
其中k为影响因子的个数,k=7;Tj,first为用户ui第j类影响因子最早发生时间,Tj.end为第j类影响因子最晚发生的时间,ni,j为用户ui第j类影响因子的总数;
步骤d:计算用户最终的影响力;
用户最终的影响力计算如下所示:
UserIf(ui)=λ1PR(ui)+λ2ActiveIf(ui)+λ3TweetIf(ui),
其中λi代表不同影响因素的权重因子,PR(ui)为用户ui的传播影响力,ActiveIf(ui)为用户活跃度影响力,TweetIf(ui)为用户微博价值影响力。
其中的步骤3中的步骤(2)将转发网络映射到关注网络得到信息传播网络GT(VT,ET),具体按照以下步骤实施:
(2.1):初始化GT(VT,ET),使得GT(VT,ET)=GL(VL,EL);
(2.2):给ET中的元素赋予初始值n(n∈Z);
ET中各元素的初始值是不固定的,对于任意的eT(u→v)∈ET,用户u推送信息到用户v的页面上,用户v以一定的概率转发该微博,用户v的粉丝数体现了该用户对该微博传播的贡献大小,因此取
(2.3):取任意节点u∈VF;
(2.4):任取集合OEF(u)中的元素其中,OEF(u)是由节点u链出的有向边的集合,是集合OEF(u)中的元素,m是边上的权值;
(2.5):若存在则n=m+n;若u,v∈VT但是将加入ET中,并且n=m;若将u或者v加入VT并将加入ET;跳转到(2.4),直至OEF(u)所有元素遍历完全;
其中的解释与类似,n的值越大说明粉丝越多,那么对于消息推送者的贡献越大,其影响力就越大;
(2.6):重复(2.3)到(2.5),直到VF中所有元素遍历完全;
(2.7):输出GT(VT,ET)。
其中的步骤3中的步骤(3)计算用户的话题传播影响力,具体按照以下步骤实施:
(3.1):获取节点间的转移矩阵;
影响力进入话题传播网后所处的位置通过位置向量V来描述,V是一个n(n∈Z)维列向量,其中的第j个分量代表影响力处于节点j的概率,由于影响力随机选择节点注入网络,所以初始位置向量v0=(1/n,1/n,…,1/n)T,假设影响力在话题传播网中转移t次后的位置向量为vt,则迭代计算的公式为:
其中,b为固定值,表示随机跳转的概率,取值是0.8到0.9之间,e是一个n维的随机跳转向量,是一个单位列向量,bM·vt表示随机冲浪者以概率b从当前网页选择一个链接继续浏览的情况;表示冲浪者以1-b的概率进行随机跳转的情况;
对于vt+1中的第i个分量计算公式如下所示:
转移概率pij定义如下所示:
其中,wj→i为边的权值,也就是话题传播网络中的n值,O(j)为节点j出链指向的节点集合;
将公式 代入公式 中,得到影响力节点的迭代公式:
其中,PRt(i)为节点i迭代t+1次后的影响力值,PRt(j)为节点j迭代t次后的影响力值;
(3.2):计算传播网络中节点的PR值;
根据PageRank算法,通过迭代公式计算每个节点的PR值。
本发明的有益效果是,通过动态聚类算法得到更加精确的话题集合,在话题集合中从上个层面:用户行为、用户属性、信息传播,考察用户的影响力,本发明提供的方法能够更加准确的衡量用户实际的影响力,为网络舆情分析和监控提供一定的参考价值。
附图说明
图1是本发明方法中话题集合获取模型;
图2是本发明方法中话题层次用户影响力计算模型;
图3是本发明方法中关注网络;
图4是本发明方法中的转发网络;
图5是本发明方法中一条微博转发路径;
图6是本发明方法中k-means算法与传统算法聚类效果比较,其中图6(1)为传统k-means与改进算法10次运行时间对比图;图6(2)为传统k-means与改进算法10次耦合性对比图;图6(3)为传统k-means与改进算法10次紧凑性对比图;
图7是本发明方法中TDN-If算法与其他算法比较结果,其中图7(1),图7(2),图7(3)分别为TDN-If算法与RepostRank、TweetRank、In-degree、TweetNum算法在10个话题中Top10、Top20、Top50、Top100的平均准确率、平均召回率、平均F值对比结果。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
参照图1,本发明面向微博的话题层次用户影响力度量方法,按照以下步骤实施:
步骤1:微博文本相似度计算
传统的文本聚类技术主要采用向量空间模型(Vector Space Model,VSM)计算文本之间的相似度,它是通过统计文档词频的方式计算文本之间的相似度,但是这种方法的前提是假设词语间是相互独立的,没有从语义上分析文档内容,因此不能准确计算文档之间的相似度,从而影响聚类效果。本发明研究的对象是微博文本,是一种最多只有140字的网络短文本,传统的基于词频等简单方式不能很好的表征微博短文本。因此本发明从语义角度考虑微博短文本的表示,进而得到微博文本之间的相似度。具体的做法如下:
(1)对两条任意微博短文本A和B,首先利用中科院汉语词法分词工具ICTCLAS进行分词处理,得到微博文本中名词和动词,分别记为集合A={a1,a2,…am},B={b1,b2,…,bn},其中ai、bi分别为A、B经过分词后得到的名词或动词。
(2)对于A中的任意一个词ai,根据《知网》中词语语义相似度的计算方法分别计算它和B中的每一个词的相似度,分别记为Si1,Si2,...,Sin;
(3)得到A和B中所有词相似度矩阵记为S:
(4)从词语相似度矩阵S中找出数值最大的五对元素,按照大小排序依次为:Smax1,Smax2,Smax3,Smax4,Smax5;
Smax1到Smax5为0-1之间的实数,取这五对词语相似度的平均值,进而计算两条微博之间的相似度SAB,如公式2所示:
步骤2:根据相似度矩阵获取微博话题集合。
输入:n(n∈Z)个数据点和数据间相似度矩阵;
输出:聚类的类数k和k个聚类数据对象集合。
Step1:从n个数据点中随机的选择一个节点作为第一个中心,记为Z1;
Step2:找到离Z1最远的点,也即是相似度最小的点作为另一个中心,记为Z2;
Step3:将其余非中心点按其与中心点相似度最大放入这两个类中;
此时K=2;
Step4:do
Step4.1:在每个类中,计算每个数据对象与其它数据对象相似度的均值;
Step4.2:将均值最大的数据对象做为新的质心,并将其余非质心点按照相似度最大放入这k个类中;
Step4.3:在每个类中,找到与类质心相似度最小的点;
Step4.4:如果该点与类中心的相似度值低于一定的阈值,将该点变为新的类质心;
Step4.5:k++;
Step4.6:将其余非质心点按照相似度最大放入这k个类中;
Step5:while(直到没有新的质心出现),跳出循环;
Step6:结束。
自动阈值确定新质心的函数如下:
对任意一个类Ci,i∈{1,2,…,K},k为聚类的个数。若存在一个点xj,xj∈Ci,xj与Zi的相似度最小,其余同类中与Zk相似度最小的点与Zk的相似度是该相似度的m倍以上,便把xj认为是新的质心,将数据点xj放入质心集合中,此函数结束。其中Zi是每个类的质心。根据反复实验发现,m选取3效果最好。
通过运行时间、耦合性和紧凑性来对比本发明中的k-means算法与传统k-means算法,结果如表1所示:
表1算法运行10次结果均值表
算法 | Running time/s | Compactness | Reference |
传统k-means | 842 | 12377 | 40.8 |
改进k-means | 1212 | 14145 | 27.2 |
从表中可以看出本发明中的k-means算法的运行时间与传统k-means算法相比,相差不是很大,但是紧凑性和耦合性却远远好于传统k-means算法,说明本发明的k-means算法更能将相似度高的数据聚集,相似度低的数据归属于不同的类别。
步骤3:参照图2,用户话题层次用户影响力计算:
步骤(1):计算用户传播影响力
本发明根据用户之间的关注行为以及信息的转发情况考察用户在信息 传播过程中的影响力。
A.关注网络构建
根据聚类算法可以得到的n(n∈Z)个话题集合,取其中的一个话题集合,记为i,参与话题讨论的用户通过一个唯一的数字标识记为uid,一个用户u的关注列表记为list,list={uid1,uid2,......,uidi,......,uidn},list中的所有的元素都关注了用户u,如果在第i个话题中list中的一部分用户也参与了该话题的讨论(即发布了相关微博),那么将这一部分用户记为用户u的sub_list。
Setp1:在第i个话题空间中,获取参与话题的用户uid;
Setp2:根据用户uid获取该用户的关注列表list;
Step3:根据该用户关注列表得到在该话题空间中存在关注关系的关注子列表sub_list;
在微博中,如果用户u关注了用户v,那么存在一条由u指向v的边,即是u→v表示u和v之间的关注关系。
Setp4:最后根据每个用户的sub_list,得到该话题集合下的关注网络。
B.转发网络构建
Setp1:在第i个话题集合中,若微博A中包含“//微博B”,则在节点A、B之间建立一条边,由B->A;
如果用户B发布一条微博M,用户A转发了该条微博,则用户A发布的微博形式为://用户B的用户名M。
Step2:若微博中包含多个“//”,说明存在嵌套转发,则根据“//”出现的顺序依次建立有向边;
Setp3:B->A的权值为在第i个话题下A转发B微博的次数。
C.话题传播网络构建
Setp1:输入GL(VL,EL)和GF(VF,EF);
其中GL(VL,EL)为关注网络,VL为关注网络中的节点,EL为关注关系;GF(VF,EF)为转发网络,VF为转发网络中的节点,EF为转发关系;
Setp2:初始化GT(VT,ET),使得GT(VT,ET)=GL(VL,EL);
其中GT(VT,ET)为话题传播网路,VT为网络中的节点,ET为网络中的转发或关注关系。
Setp3:给ET中的元素赋予初始值n(n∈Z);
ET中各元素的初始值是不固定的,对于任意的eT(u→v)∈ET,其中eT(u→v)表示传播网络ET中,用户u和用户v之间存在关系,信息流动由u指向v。用户u推送信息到用户v的页面上,用户v将会以一定的概率转发该微博,用户v的粉丝数体现了该用户对该微博传播的贡献大小,因此取
Setp4:取任意节点u∈VF;
Setp5:任取集合OEF(u)中的元素
其中,OEF(u)是由节点u链出的有向边的集合,是集合OEF(u)中的元素,m是边上的权值。
Setp6:若存在则n=m+n;若u,v∈VT但是将加入ET中,并且n=m;若将u或者v加入VT并将加入ET;跳转到step5,直至OEF(u)所有元素遍历完全;//广度优先遍历
其中的解释与类似,n的值越大说明粉丝越多,那么对于消息推送者的贡献越大,其影响力就越大。
Setp7:重复setp4到step6,直到VF中所有元素遍历完全;//广度优先遍历
Setp8:输出GT(VT,ET)。
D.话题传播网络中用户影响力评估算法
本发明根据C中得到的话题传播网络,借鉴PageRank算法思想得到用户在该网络中的影响力值,称该算法为话题传播网络用户影响力发现算法TDN-If(Topic Diffusion Network-Influence)算法。该算法实施步骤如下:
Setp1:获取节点间的转移矩阵
在该算法中,需要一个转移矩阵(transition matrix)M描述节点间的转移概率。影响力进入话题传播网后所处的位置通过位置向量V来描述。V是一个n(n∈Z)维列向量,其中的第j个分量代表影响力处于节点j的概率。由于影响力随机选择节点注入网络,所以初始位置向量v0=(1/n,1/n,…,1/n)T,假设影响力在话题传播网中转移t次后的位置向量为vt,则迭代计算的公式为:
其中,b为固定值,表示随机跳转的概率,取值一般是0.8到0.9之间,本方法中取0.85。e是一个n维的随机跳转向量,是一个单位列向量。bM·vt表示随机冲浪者以概率b从当前网页选择一个链接继续浏览的情况;表示冲浪者以1-b的概率进行随机跳转的情况。
对于vt+1中的第i个分量计算公式如下所示:
其中pij为节点间的转移概率,转移概率pij定义如公式如下所示:
其中,wj→i为边的权值,也就是话题传播网络中的n值,O(j)为节点j出链指向的节点集合。
将公式5代入公式4中,得到影响力节点的迭代公式:
其中,PRt+1(i)为节点i迭代t+1次后的影响力值,PRt(j)为节点j迭代t次后的影响力值。
Setp2:计算传播网络中节点的用户影响力值,即PR值
根据PageRank算法思想,通过迭代公式6计算每个节点的PR值。这里的PR值必须是收敛的。
步骤(2):计算用户微博价值影响力
本发明通过用户发布的所有微博的影响力的平均值作为用户微博价值影响力,其计算公式如下所示:
其中TweetIf(i)为用户ui第i条微博的影响力,n为用户ui发布的微博数。本发明中通过微博的转发数和评论数来衡量一条微博的价值,定量计算一条微博价值公式如下:
其中ReNum和CoNum分别为微博的转发数和评论数。
步骤(3):计算用户活跃度影响力
本发明通过用户的主动行为和被动行为反映用户的活跃度,并通过一种活跃度指数模型来衡量本发明中用户活跃度影响力值,模型定义如下:
其中k为影响因子的个数,本方法中k=7。Tj,first是用户ui第j类影响因 子最早发生时间,Tj.end为第j类影响因子最晚发生的时间。ni,j为用户ui第j类影响因子的总数。
步骤(4):计算用户最终的影响力
根据上述步骤(1)、步骤(2)、步骤(3)得到的三种影响力值,分别赋予不同的权重反应对用户影响力的贡献,用户最终的影响力计算如下所示:
UserIf(ui)=λ1PR(ui)+λ2ActiveIf(ui)+λ3TweetIf(ui) (10)
其中λi(i=1,2,3)代表不同影响因素的权重因子,PR(ui)为用户ui的传播影响力,ActiveIf(ui)为用户活跃度影响力,TweetIf(ui)为用户微博价值影响力。
由于不同的度量指标间存在的差异较大,在进行加权融合前还要进行归一化处理,使得参与融合的指标在一个数量级上。归一化公式如11所示:
其中,Normal(ui,j)表示用户ui的第j类指标的归一化结果,xmax,j,xmin,j分别为用户ui在第j类指标下的最大值、最小值。利用经过变形的极差标准化方法,可以将指标中的数据控制在[0,2D]之间,本方法中的D=0.5。
本发明中将转发网络映射到关注网络,解决了基于关注关系得到的网络不能很好的刻画用户的行为的问题,并借鉴PageRank算法思想得到用户的传播影响力,TDN-If与RepostRank、TweetRank、In-degree、TweetNum算法相比结果如图7所示。
对于PR(ui)用户ui的传播影响力,ActiveIf(ui)用户活跃度影响力,TweetIf(ui)用户微博价值影响力与用户实际的影响力的关系,进行验证。其中公式10中的λi取值如表2所示:
表2度量指标权重
根据本发明用户影响力度量模型得到的用户影响力与其他单一度量指标的内在联系进行验证,如表3所示:
表3用户影响力度量指标之间的关系
其中,If为用户的粉丝影响力、Ic为用户的评论影响力、Ir为用户的转发影响力,It为用户的微博数目影响力,这几种指标为用户传统的影响力评价指标。ρ斯皮尔曼等级相关系数反映了相同排名的用户间的影响力值差异,τ为肯德尔等级序列相关系数反映了同一用户在不同影响力度量指标下的排名差异情况,overlap为重叠率,反映了不同度量指标下TOP K用户的覆盖率。
从表中可以看出本发明提出的信息传播影响力指标、用户活跃度影响力指标和用户微博影响力指标与用户实际影响力关系更密切,更能反映用户的影响力。
图3是本发明方法中关注网络。表示在某话题集合中,发布了微博的用户之间的关注关系的结构。图4是本发明方法中的转发网络。该转发网络是根据节点间转发信息的次数得到有向带权转发网络。其中,节点代表微博用户,边代表信息转发关系,箭头指向为信息传播方向。边上的权值代表节点间多条信息流的叠加,边的权值反映了节点之间信息流动的频繁程度,代表了节点之间转发的次数。图5是本发明方法中一条微博转发路径。该转发路径图可对一条微博予以分析。当微博发布后,呈均匀扩散状形成多次转发。从信息转发路径中可以直观的看到在信息传播过程中哪些用户具有较高的影响力。
图6是本发明方法中k-means算法与传统算法聚类效果比较;其中图6(1)为传统k-means与改进算法10次运行时间对比图;图6(2)为传统k-means与改进算法10次耦合性对比图;图6(3)传统k-means与改进算法10次紧凑性对比图。
图7是本发明方法中TDN-If算法与其他算法比较结果。其中图7(1),图7(2),图7(3)分别为TDN-If算法与RepostRank、TweetRank、In-degree、TweetNum算法在10个话题中Top10、Top20、Top50、Top100的平均准确率、平均召回率、平均F值对比结果。
Claims (7)
1.面向微博的话题层次用户影响力度量方法,其特征在于,具体按照以下步骤实施:
步骤1:计算微博文本之间的相似度;
步骤2:采用动态聚类算法得到相关话题集合;
步骤3:对话题层次用户影响力进行衡量。
2.根据权利要求1所述的面向微博的话题层次用户影响力度量方法,其特征在于,所述的步骤1具体按照以下步骤实施:
(1)对两条任意微博短文本A和B,首先利用中科院汉语词法分词工具ICTCLAS进行分词处理,得到微博文本中的名词和动词,分别记为集合A={a1,a2,…am},B={b1,b2,…,bn};
(2)对于A中的任意一个词a1,利用词语语义相似度计算方法计算它和B中的每一个词的相似度Si1,Si2,...,Sin;
(3)按照步骤(2)计算得到A和B中所有词相似度矩阵S:
(4)从词语相似度矩阵S中找出数值最大的五对元素,按照大小排序依次为:Smax1,Smax2,Smax3,Smax4,Smax5;
Smax1到Smax5为0-1之间的实数,取这五对词语相似度的平均值,进而计算两条微博之间的相似度SAB,如以下公式所示:
3.根据权利要求1所述的面向微博的话题层次用户影响力度量方法,其特征在于,所述的步骤2具体按照以下步骤实施:
输入:n个数据点和数据间相似度矩阵;
输出:聚类的类数k和k个聚类数据对象集合Cj;
(1):从n个数据点中随机的选择一个节点作为第一个中心,记为Z1;
(2):找到离Z1最远的点,即相似度最小的点作为另一个中心,记为Z2;
(3):将其余非中心点按其与中心点相似度最大放入这两个类中;
(4):do;
(4.1):在每个类中,计算每个数据对象与其它数据对象相似度的均值;
(4.2):将均值最大的数据对象作为新的质心,并将其余非质心点按照相似度最大放入这k个类中;
(4.3):在每个类中,找到与类质心相似度最小的点;
(4.4):如果该点与类中心的相似度值低于一定的阈值,将该点变为新的类质心;
(4.5):k++;
(4.6):将其余非质心点按照相似度最大放入这k个类中;
(5):while,直到没有新的质心出现,跳出循环;
(6):结束;
自动阈值确定新质心的函数如下:
对任意一个类Ci,i∈{1,2,…,K},若存在一个点xj,xj∈Ci,xj与Zi的相似度最小,其余同类中与Zk相似度最小的点与Zk的相似度是该相似度的m倍以上,便把xj认为是新的质心,将数据点xj放入质心集合中,此函数结束,Zi是每个类的质心。
4.根据权利要求3所述的面向微博的话题层次用户影响力度量方法,其特征在于,所述的m选取3。
5.根据权利要求1所述的面向微博的话题层次用户影响力度量方法,其特征在于,所述的步骤3具体按照以下步骤实施:
步骤a:计算用户的传播影响力;
(1):在第i个话题空间中,获取关注网络GL(VL,EL)、转发网络GF(VF,EF),其中VL为关注网络中的节点,EL为关注关系;VF为转发网络中的节点,EF为转发关系;
(2):将转发网络映射到关注网络得到信息传播网络GT(VT,ET);
(3):计算用户的话题传播影响力;
步骤b:计算用户微博价值影响力;
将用户发布的所有微博的影响力的平均值作为用户微博价值影响力,其计算公式如下所示:
其中TweetIf(i)为用户ui第i条微博的影响力,通过微博的转发数和评论数来衡量一条微博的价值,定量计算一条微博价值公式如下:
其中ReNum和CoNum分别为微博的转发数和评论数;
步骤c:计算用户活跃度影响力;
通过用户的主动行为和被动行为反映用户的活跃度,并通过活跃度指数模型来衡量用户活跃度影响力值,模型定义如下:
其中k为影响因子的个数,k=7;Tj,first为用户ui第j类影响因子最早发生时间,Tj.end为第j类影响因子最晚发生的时间,ni,j为用户ui第j类影响因子的总数;
步骤d:计算用户最终的影响力;
用户最终的影响力计算如下所示:
UserIf(ui)=λ1PR(ui)+λ2ActiveIf(ui)+λ3TweetIf(ui),
其中λi代表不同影响因素的权重因子,PR(ui)为用户ui的传播影响力,ActiveIf(ui)为用户活跃度影响力,TweetIf(ui)为用户微博价值影响力。
6.根据权利要求5所述的面向微博的话题层次用户影响力度量方法,其特征在于,所述的步骤(2)将转发网络映射到关注网络得到信息传播网络GT(VT,ET),具体按照以下步骤实施:
(2.1):初始化GT(VT,ET),使得GT(VT,ET)=GL(VL,EL);
(2.2):给ET中的元素赋予初始值n(n∈Z);
ET中各元素的初始值是不固定的,对于任意的eT(u→v)∈ET,用户u推送信息到用户v的页面上,用户v以一定的概率转发该微博,用户v的粉丝数体现了该用户对该微博传播的贡献大小,因此取
(2.3):取任意节点u∈VF;
(2.4):任取集合OEF(u)中的元素其中,OEF(u)是由节点u链出的有向边的集合,是集合OEF(u)中的元素,m是边上的权值;
(2.5):若存在则n=m+n;若u,v∈VT但是将加入ET中,并且n=m;若将u或者v加入VT并将加入ET;跳转到(2.4),直至OEF(u)所有元素遍历完全;
其中的解释与类似,n的值越大说明粉丝越多,那么对于消息推送者的贡献越大,其影响力就越大;
(2.6):重复(2.3)到(2.5),直到VF中所有元素遍历完全;
(2.7):输出GT(VT,ET)。
7.根据权利要求5所述的面向微博的话题层次用户影响力度量方法,其特征在于,所述的步骤(3)计算用户的话题传播影响力,具体按照以下步骤实施:
(3.1):获取节点间的转移矩阵;
影响力进入话题传播网后所处的位置通过位置向量V来描述,V是一个n(n∈Z)维列向量,其中的第j个分量代表影响力处于节点j的概率,由于影响力随机选择节点注入网络,所以初始位置向量v0=(1/n,1/n,…,1/n)T,假设影响力在话题传播网中转移t次后的位置向量为vt,则迭代计算的公式为:
其中,b为固定值,表示随机跳转的概率,取值是0.8到0.9之间,e是一个n维的随机跳转向量,是一个单位列向量,bM·vt表示随机冲浪者以概率b从当前网页选择一个链接继续浏览的情况;表示冲浪者以1-b的概率进行随机跳转的情况;
对于vt+1中的第i个分量计算公式如下所示:
转移概率pij定义如下所示:
其中,wj→i为边的权值,也就是话题传播网络中的n值,O(j)为节点j出链指向的节点集合;
将公式 代入公式 中,得到影响力节点的迭代公式:
其中,PRt(i)为节点i迭代t+1次后的影响力值,PRt(j)为节点j迭代t次后的影响力值;
(3.2):计算传播网络中节点的PR值;
根据PageRank算法,通过迭代公式计算每个节点的PR值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410328207.1A CN104123352A (zh) | 2014-07-10 | 2014-07-10 | 面向微博的话题层次用户影响力度量方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410328207.1A CN104123352A (zh) | 2014-07-10 | 2014-07-10 | 面向微博的话题层次用户影响力度量方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104123352A true CN104123352A (zh) | 2014-10-29 |
Family
ID=51768763
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410328207.1A Pending CN104123352A (zh) | 2014-07-10 | 2014-07-10 | 面向微博的话题层次用户影响力度量方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104123352A (zh) |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105653538A (zh) * | 2014-11-13 | 2016-06-08 | 中国科学院自动化研究所 | 数据挖掘的方法和装置 |
CN105681089A (zh) * | 2016-01-26 | 2016-06-15 | 上海晶赞科技发展有限公司 | 网络用户行为聚类方法、装置及终端 |
CN105740421A (zh) * | 2015-09-11 | 2016-07-06 | 深圳市博尔芯电子科技有限公司 | 一种针对微博用户的查找最大影响力的实现方法 |
CN105812242A (zh) * | 2016-03-28 | 2016-07-27 | 武汉新光电网科信息技术有限公司 | 一种时间最优的利润最大化方法及系统 |
CN106127590A (zh) * | 2016-06-21 | 2016-11-16 | 重庆邮电大学 | 一种基于节点影响力的信息态势感知及传播管控模型 |
CN106354733A (zh) * | 2015-07-17 | 2017-01-25 | 中移(苏州)软件技术有限公司 | 一种微博用户影响力计算方法及装置 |
CN106777157A (zh) * | 2016-12-20 | 2017-05-31 | 西南石油大学 | 一种基于主题的类引力模型微博预测方法与系统 |
CN106875205A (zh) * | 2016-07-11 | 2017-06-20 | 阿里巴巴集团控股有限公司 | 一种对象选择方法和装置 |
CN106991160A (zh) * | 2017-03-30 | 2017-07-28 | 武汉大学 | 一种基于用户影响力以及内容的微博传播预测方法 |
CN107135663A (zh) * | 2014-11-05 | 2017-09-05 | 起元技术有限责任公司 | 影响分析 |
CN107153908A (zh) * | 2017-03-24 | 2017-09-12 | 国家计算机网络与信息安全管理中心 | 移动新闻App影响力评级方法 |
CN107273396A (zh) * | 2017-03-06 | 2017-10-20 | 扬州大学 | 一种社交网络信息传播检测节点的选择方法 |
CN107341571A (zh) * | 2017-06-27 | 2017-11-10 | 华中科技大学 | 一种基于量化社会影响力的社交网络用户行为预测方法 |
CN107491550A (zh) * | 2017-08-30 | 2017-12-19 | 合肥工业大学 | 基于分形维模型的微博用户影响力度量方法 |
CN107679239A (zh) * | 2017-10-27 | 2018-02-09 | 天津理工大学 | 一种基于用户行为的个性化社区推荐方法 |
CN107818514A (zh) * | 2016-09-12 | 2018-03-20 | 腾讯科技(深圳)有限公司 | 一种控制在线社交网络信息传播的方法、装置及终端 |
CN107967364A (zh) * | 2017-12-22 | 2018-04-27 | 新华网股份有限公司 | 网络文章传播力评估方法及装置 |
CN108460499A (zh) * | 2018-04-02 | 2018-08-28 | 福州大学 | 一种融合用户时间信息的微博客用户影响力排名方法 |
CN108959364A (zh) * | 2018-05-21 | 2018-12-07 | 大连理工大学 | 一种社交媒体事件级新闻中新闻媒体影响力评估方法 |
CN109063010A (zh) * | 2018-07-11 | 2018-12-21 | 成都爱为贝思科技有限公司 | 一种基于PageRank的意见领袖挖掘方法 |
CN109271584A (zh) * | 2018-08-29 | 2019-01-25 | 杭州电子科技大学 | 基于改进版PageRank以及综合影响力的推荐方法 |
CN109684646A (zh) * | 2019-01-15 | 2019-04-26 | 江苏大学 | 一种基于话题影响力的微博话题情感分析方法 |
CN110766311A (zh) * | 2019-10-18 | 2020-02-07 | 重庆邮电大学 | 基于Swarm模型的微博用户影响力计算方法及系统 |
CN110837529A (zh) * | 2019-11-27 | 2020-02-25 | 王培根 | 大数据分析监察方法、装置、服务器及可读存储介质 |
CN110910176A (zh) * | 2019-11-27 | 2020-03-24 | 上海风秩科技有限公司 | 关键消费者招募方法、装置、计算机设备和可读存储介质 |
CN111815197A (zh) * | 2020-07-24 | 2020-10-23 | 上海风秩科技有限公司 | 影响力指标计算方法、装置、设备及存储介质 |
CN112052995A (zh) * | 2020-08-31 | 2020-12-08 | 杭州电子科技大学 | 基于融合情感倾向主题的社交网络用户影响力预测方法 |
CN112329473A (zh) * | 2020-10-20 | 2021-02-05 | 哈尔滨理工大学 | 一种基于话题影响力渗流的语义社交网络社区发现方法 |
CN112667876A (zh) * | 2020-12-24 | 2021-04-16 | 湖北第二师范学院 | 一种基于PSOTVCF-Kmeans算法的意见领袖群识别方法 |
CN113268976A (zh) * | 2021-02-20 | 2021-08-17 | 北京交通大学 | 一种面向微博的话题影响力评估方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103294818A (zh) * | 2013-06-12 | 2013-09-11 | 北京航空航天大学 | 多信息融合的微博热点话题检测方法 |
CN103617279A (zh) * | 2013-12-09 | 2014-03-05 | 南京邮电大学 | 基于Pagerank方法的微博信息传播影响力评估模型的实现方法 |
-
2014
- 2014-07-10 CN CN201410328207.1A patent/CN104123352A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103294818A (zh) * | 2013-06-12 | 2013-09-11 | 北京航空航天大学 | 多信息融合的微博热点话题检测方法 |
CN103617279A (zh) * | 2013-12-09 | 2014-03-05 | 南京邮电大学 | 基于Pagerank方法的微博信息传播影响力评估模型的实现方法 |
Non-Patent Citations (5)
Title |
---|
WANG CHENG ET AL: "max-min k-means clustering algorithm and application in response signal feature extraction", 《INTERNATIONAL JOURNAL OF APPLIED ELECTROMAGNETICS AND MECHANICS》 * |
吴海华 等: "基于新型聚类算法Increase K-Means的Blog相似度分析", 《厦门大学学报(自然科学版)》 * |
尹杰: "基于用户分析的微博信息过滤研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
时睿: "面向短文本的网络舆情分析", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
马俊 等: "一种基于话题传播的微博用户影响力分析方法", 《信息工程大学学报》 * |
Cited By (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107135663A (zh) * | 2014-11-05 | 2017-09-05 | 起元技术有限责任公司 | 影响分析 |
CN107135663B (zh) * | 2014-11-05 | 2021-06-22 | 起元技术有限责任公司 | 影响分析 |
US11475023B2 (en) | 2014-11-05 | 2022-10-18 | Ab Initio Technology Llc | Impact analysis |
CN105653538B (zh) * | 2014-11-13 | 2019-12-20 | 中国科学院自动化研究所 | 数据挖掘的方法和装置 |
CN105653538A (zh) * | 2014-11-13 | 2016-06-08 | 中国科学院自动化研究所 | 数据挖掘的方法和装置 |
CN106354733A (zh) * | 2015-07-17 | 2017-01-25 | 中移(苏州)软件技术有限公司 | 一种微博用户影响力计算方法及装置 |
CN105740421A (zh) * | 2015-09-11 | 2016-07-06 | 深圳市博尔芯电子科技有限公司 | 一种针对微博用户的查找最大影响力的实现方法 |
CN105681089A (zh) * | 2016-01-26 | 2016-06-15 | 上海晶赞科技发展有限公司 | 网络用户行为聚类方法、装置及终端 |
CN105681089B (zh) * | 2016-01-26 | 2019-10-18 | 上海晶赞科技发展有限公司 | 网络用户行为聚类方法、装置及终端 |
CN105812242A (zh) * | 2016-03-28 | 2016-07-27 | 武汉新光电网科信息技术有限公司 | 一种时间最优的利润最大化方法及系统 |
CN106127590A (zh) * | 2016-06-21 | 2016-11-16 | 重庆邮电大学 | 一种基于节点影响力的信息态势感知及传播管控模型 |
CN106875205A (zh) * | 2016-07-11 | 2017-06-20 | 阿里巴巴集团控股有限公司 | 一种对象选择方法和装置 |
CN107818514B (zh) * | 2016-09-12 | 2022-01-14 | 腾讯科技(深圳)有限公司 | 一种控制在线社交网络信息传播的方法、装置及终端 |
CN107818514A (zh) * | 2016-09-12 | 2018-03-20 | 腾讯科技(深圳)有限公司 | 一种控制在线社交网络信息传播的方法、装置及终端 |
CN106777157A (zh) * | 2016-12-20 | 2017-05-31 | 西南石油大学 | 一种基于主题的类引力模型微博预测方法与系统 |
CN107273396A (zh) * | 2017-03-06 | 2017-10-20 | 扬州大学 | 一种社交网络信息传播检测节点的选择方法 |
CN107153908A (zh) * | 2017-03-24 | 2017-09-12 | 国家计算机网络与信息安全管理中心 | 移动新闻App影响力评级方法 |
CN106991160A (zh) * | 2017-03-30 | 2017-07-28 | 武汉大学 | 一种基于用户影响力以及内容的微博传播预测方法 |
CN106991160B (zh) * | 2017-03-30 | 2020-07-24 | 武汉大学 | 一种基于用户影响力以及内容的微博传播预测方法 |
CN107341571B (zh) * | 2017-06-27 | 2020-05-19 | 华中科技大学 | 一种基于量化社会影响力的社交网络用户行为预测方法 |
CN107341571A (zh) * | 2017-06-27 | 2017-11-10 | 华中科技大学 | 一种基于量化社会影响力的社交网络用户行为预测方法 |
CN107491550A (zh) * | 2017-08-30 | 2017-12-19 | 合肥工业大学 | 基于分形维模型的微博用户影响力度量方法 |
CN107679239B (zh) * | 2017-10-27 | 2020-12-29 | 天津理工大学 | 一种基于用户行为的个性化社区推荐方法 |
CN107679239A (zh) * | 2017-10-27 | 2018-02-09 | 天津理工大学 | 一种基于用户行为的个性化社区推荐方法 |
CN107967364A (zh) * | 2017-12-22 | 2018-04-27 | 新华网股份有限公司 | 网络文章传播力评估方法及装置 |
CN107967364B (zh) * | 2017-12-22 | 2021-11-23 | 新华网股份有限公司 | 网络文章传播力评估方法及装置 |
CN108460499A (zh) * | 2018-04-02 | 2018-08-28 | 福州大学 | 一种融合用户时间信息的微博客用户影响力排名方法 |
CN108460499B (zh) * | 2018-04-02 | 2022-03-08 | 福州大学 | 一种融合用户时间信息的微博客用户影响力排名方法 |
CN108959364B (zh) * | 2018-05-21 | 2022-02-22 | 大连理工大学 | 一种社交媒体事件级新闻中新闻媒体影响力评估方法 |
CN108959364A (zh) * | 2018-05-21 | 2018-12-07 | 大连理工大学 | 一种社交媒体事件级新闻中新闻媒体影响力评估方法 |
CN109063010A (zh) * | 2018-07-11 | 2018-12-21 | 成都爱为贝思科技有限公司 | 一种基于PageRank的意见领袖挖掘方法 |
CN109063010B (zh) * | 2018-07-11 | 2022-01-28 | 成都爱为贝思科技有限公司 | 一种基于PageRank的意见领袖挖掘方法 |
CN109271584A (zh) * | 2018-08-29 | 2019-01-25 | 杭州电子科技大学 | 基于改进版PageRank以及综合影响力的推荐方法 |
CN109271584B (zh) * | 2018-08-29 | 2022-02-15 | 杭州电子科技大学 | 基于改进版PageRank以及综合影响力的推荐方法 |
CN109684646A (zh) * | 2019-01-15 | 2019-04-26 | 江苏大学 | 一种基于话题影响力的微博话题情感分析方法 |
CN110766311B (zh) * | 2019-10-18 | 2023-10-31 | 北京神谷文化传播有限公司 | 基于Swarm模型的微博用户影响力计算方法及系统 |
CN110766311A (zh) * | 2019-10-18 | 2020-02-07 | 重庆邮电大学 | 基于Swarm模型的微博用户影响力计算方法及系统 |
CN110910176A (zh) * | 2019-11-27 | 2020-03-24 | 上海风秩科技有限公司 | 关键消费者招募方法、装置、计算机设备和可读存储介质 |
CN110837529A (zh) * | 2019-11-27 | 2020-02-25 | 王培根 | 大数据分析监察方法、装置、服务器及可读存储介质 |
CN111815197A (zh) * | 2020-07-24 | 2020-10-23 | 上海风秩科技有限公司 | 影响力指标计算方法、装置、设备及存储介质 |
CN112052995B (zh) * | 2020-08-31 | 2023-08-01 | 杭州电子科技大学 | 基于融合情感倾向主题的社交网络用户影响力预测方法 |
CN112052995A (zh) * | 2020-08-31 | 2020-12-08 | 杭州电子科技大学 | 基于融合情感倾向主题的社交网络用户影响力预测方法 |
CN112329473A (zh) * | 2020-10-20 | 2021-02-05 | 哈尔滨理工大学 | 一种基于话题影响力渗流的语义社交网络社区发现方法 |
CN112667876A (zh) * | 2020-12-24 | 2021-04-16 | 湖北第二师范学院 | 一种基于PSOTVCF-Kmeans算法的意见领袖群识别方法 |
CN112667876B (zh) * | 2020-12-24 | 2024-04-09 | 湖北第二师范学院 | 一种基于PSOTVCF-Kmeans算法的意见领袖群识别方法 |
CN113268976A (zh) * | 2021-02-20 | 2021-08-17 | 北京交通大学 | 一种面向微博的话题影响力评估方法 |
CN113268976B (zh) * | 2021-02-20 | 2023-09-12 | 北京交通大学 | 一种面向微博的话题影响力评估方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104123352A (zh) | 面向微博的话题层次用户影响力度量方法 | |
Wulczyn et al. | Ex machina: Personal attacks seen at scale | |
Chen et al. | Extracting diverse sentiment expressions with target-dependent polarity from twitter | |
Lakkaraju et al. | What's in a name? understanding the interplay between titles, content, and communities in social media | |
US8868472B1 (en) | Confidence scoring in predictive modeling | |
Zhou et al. | Userrec: A user recommendation framework in social tagging systems | |
Ma et al. | Tagging your tweets: A probabilistic modeling of hashtag annotation in twitter | |
Wang et al. | Joint topic-semantic-aware social recommendation for online voting | |
WO2022126901A1 (zh) | 一种商品推荐方法及其相关设备 | |
Rong et al. | A model-free approach to infer the diffusion network from event cascade | |
Wang et al. | Information diffusion prediction with network regularized role-based user representation learning | |
Wan et al. | WL‐index: Leveraging citation mention number to quantify an individual's scientific impact | |
Gu et al. | Service package recommendation for mashup creation via mashup textual description mining | |
US9020962B2 (en) | Interest expansion using a taxonomy | |
Faridani et al. | Collaborative filtering-based recommender systems by effective trust | |
Ferro et al. | The twist measure for IR evaluation: Taking user's effort into account | |
CN110362662A (zh) | 数据处理方法、装置以及计算机可读存储介质 | |
Zhang et al. | Gender and ideology in the spread of anti-abortion policy | |
Lee et al. | Detecting and visualizing online dispute dynamics in replying comments | |
CN105447196A (zh) | 一种重点博主追踪确认方法及装置 | |
Li et al. | An opinion leader perceptual model based on PageRank algorithm | |
CN114997723A (zh) | 面向企业经营活动的多源异构区块链质量评估模型的构建方法 | |
CN107590742B (zh) | 一种基于行为的社交网络用户属性值反演方法 | |
Wei et al. | An improved pagerank algorithm based on text similarity approach for critical standards identification in complex standard citation networks | |
Zhang et al. | Popularity prediction of burst event in microblogging |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20141029 |