CN108536866A - 基于话题转移熵的微博隐蔽关键用户分析方法 - Google Patents
基于话题转移熵的微博隐蔽关键用户分析方法 Download PDFInfo
- Publication number
- CN108536866A CN108536866A CN201810369630.4A CN201810369630A CN108536866A CN 108536866 A CN108536866 A CN 108536866A CN 201810369630 A CN201810369630 A CN 201810369630A CN 108536866 A CN108536866 A CN 108536866A
- Authority
- CN
- China
- Prior art keywords
- user
- key user
- microblogging
- topic
- hidden
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于话题转移熵的微博隐蔽关键用户分析方法,包含:通过微博平均传播规模度量微博用户的直接影响力,根据直接影响力发现显著关键用户和候选隐蔽关键用户;抽取两类用户的微博话题序列;计算候选隐蔽关键用户到显著关键用户的话题转移熵,度量候选隐蔽关键用户对显著关键用户的影响程度;基于候选隐蔽关键用户和显著关键用户的直接影响力、前者对后者的影响程度,分析候选隐蔽关键用户的隐蔽重要度,识别隐蔽关键用户。本发明基于微博主题相似性和时序相关性获取非显著关键用户到显著关键用户的微博话题转移熵,度量前者对后者的隐蔽影响程度,并结合两者自身的直接影响力,评估用户隐蔽重要性,实现微博隐蔽关键用户的准确识别。
Description
技术领域
本发明属于网络数据挖掘技术领域,特别涉及一种基于话题转移熵的微博隐蔽关键用户分析方法,用于准确识别微博网络中隐蔽关键用户。
背景技术
微博是个庞大的社交媒体,同时也是海量舆论的集散地。对微博中信息的传播与扩散起到重要作用的用户,称为微博关键用户。分析微博中用户对信息传播的影响力,发现关键用户,对于微博的舆论监管与引导工作具有重要意义。微博中的关键用户分析是近几年的研究热点,目前的方法主要有:在给定传播模型参数的条件下,寻找使得微博传播扩散规模最大的种子用户集合作为关键用户;基于评论关系构建网络,结合用户兴趣,通过PageRank算法的变体识别意见领袖;根据主题URL构造转发级联树,预测用户发布的微博的平均传播规模,作为用户社会影响力大小的度量指标,进而判定关键用户;结合用户转发行为特征和用户中微博好友关系网络中的位置两个方面,度量用户的信息传播能力,来发现关键用户。但上述大多依赖微博系统自动标注的转发关系来分析微博用户的影响力,这种影响力是比较直接、明显的,发现的是重要性比较明显的关键用户,称为“显著关键用户”。而存在一些重要性比较隐蔽的关键用户,如炒作微博的幕后操控者,其对微博信息的传播具有非常重要的作用,但从微博的直接转发等行为上难以发现此类用户。将对微博中的传播或扩散具有重要作用,但其重要性较为隐蔽的用户,称为“隐蔽关键用户”。现有方法不适用于分析这种重要性隐蔽的关键用户的影响力,因此对隐蔽关键用户的识别度较低。
发明内容
针对现有技术中的不足,本发明提供一种基于话题转移熵的微博隐蔽关键用户分析方法,基于微博主题相似性和时序相关性获取非显著关键用户到显著关键用户的微博话题转移熵,度量前者对后者的隐蔽影响程度,并结合两者自身的直接影响力,评估用户隐蔽重要性,从而实现微博隐蔽关键用户的准确识别,对微博舆论监督与引导具有重要意义。
按照本发明所提供的设计方案,一种基于话题转移熵的微博隐蔽关键用户分析方法,包含:
A)通过微博平均传播规模,获取显著关键用户及候选隐蔽关键用户;
B)抽取显著关键用户和候选隐蔽关键用户的微博话题序列;
C)计算候选隐蔽关键用户到显著关键用户的话题转移熵;
D)分析候选隐蔽关键用户的隐蔽重要度,识别隐蔽关键用户。
上述的,在获取显著关键用户及候选隐蔽关键用户前,首先进行数据预处理,根据微博用户及微博特征,过滤僵尸用户和广告账户及两者的相关微博,并过滤传播层数小于两层的微博。
上述的,A)中获取显著关键用户及候选隐蔽关键用户,包含如下内容:
A1)通过微博显示转发次数计算用户直接影响力;
A2)根据用户直接影响力排名,提取显著关键用户;
A3)抽取显著关键用户所关注用户,作为隐蔽关键用户初始候选集;
A4)根据用户直接影响力筛选初始候选集,得到包含候选隐蔽关键用户的候选集。
优选的,A1)中用户u的直接影响力Influenceu的计算公式表示为:
,其中,Repostnumi表示用户u第i个微博的显式转发次数,WeiboNum表示用户u发布微博的总数。
上述的,B)中抽取显著关键用户和候选隐蔽关键用户的微博话题序列,包含:
B1)通过LDA三层贝叶斯网络模型分析用户微博文本,得到用户微博话题分布向量;
B2)对微博时间序列内每个时间段上的微博话题分布向量进行聚类,得到微博簇;
B3)获取相邻时间段的微博话题相似度,并根据设定阈值和微博话题相似度合并相邻时间段内发布的微博话题。
上述的,B3)中获取相邻时间段TnTn+1的微博话题相似度TopicSimn,n+1,其计算公式表示为:
,其中,k表示用户微博话题分布向量中元素个数,1≤n≤k-1,表示时间段Tn用户微博话题i。
上述的,C)中计算候选隐蔽关键用户到显著关键用户的话题转移熵,包含如下内容:
C1)构造微博时间序列上显著关键用户和候选隐蔽关键用户两者的事件集合,微博时间序列为预设的包含多个时间段的时间区间;
C2)分别计算候选隐蔽关键用户到显著关键用户的微博话题转移熵。
优选的,C2)中候选隐蔽关键用户v到显著关键用户u的微博话题转移熵TEv→u的计算公式表示为:
,其中,P(en+1 u,en u,en v)表示用户u在第n个时间段和第n+1个时间段分别产生事件en+1 u和en u,并且用户v在第n个时间段产生事件en v的概率;P(en+1 u|en u,en v)表示在用户u和用户v在时间段n分别产生事件en u,en v的条件下,用户u在时间段n+1产生事件en+1 u的概率;P(en+1 u|en u)表示在用户u在时间段n产生事件en u的条件下,用户u在时间段n+1产生事件en+1 u的概率;Topicsim(θn+1 u,θn v)表示显著关键用户u在第n+1个时间段发布微博和候选隐蔽关键用户v在第n个时间段发布微博的微博话题相似度。
上述的,D)中,通过候选隐蔽关键用户直接影响力、显著关键用户直接影响力及候选隐蔽关键用户到显著关键用户的微博话题转移熵三个指标,计算候选隐蔽关键用户的隐蔽重要度,识别隐蔽关键用户。
优选的,候选隐蔽关键用户v的隐蔽重要度HiddenInfv计算公式表示为:
,其中,Influnencev表示候选隐蔽关键用户v的直接影响力,Influenceu表示显著关键用户u的直接影响力,TEv→u表示候选隐蔽关键用户v到显著关键用户u的微博话题转移熵,KeyFANv表示用户v的显著关键用户粉丝集。
本发明的有益效果:
本发明从隐蔽关键用户其自身直接影响力低但对显著关键用户影响力大的特点出发,依据微博平均传播规模度量用户自身的直接影响力、基于微博话题转移熵度量用户对显著关键用户的影响力,在此基础上综合两个方面的影响力评估用户的隐蔽重要性,可以准确识别微博网络中的隐蔽关键用户,对于微博的舆论监管与引导具有重要意义;通过显著关键用户和隐蔽关键用户的提出,为微博网络中用户的作用分析提供更深入、细化的研究思路。
附图说明:
图1为本发明实施例中基于话题转移熵的微博隐蔽关键用户分析方法流程图;
图2为实施例中显著关键用户及候选隐蔽关键用户获取示意图;
图3为实施例中微博话题序列抽取示意图;
图4为实施例中话题转移熵获取示意图;
图5为实施例中微博隐蔽关键用户分析算法示意图;
图6为实施例中LDA三层贝叶斯网络模型示意图;
图7为实施例中时间区间T内微博聚类结果示意图。
具体实施方式:
为使本发明的目的、技术方案和优点更加清楚、明白,下面结合附图和技术方案对本发明作进一步详细的说明。
微博网络关键用户分析大多依赖微博系统自动标注的转发关系来实现,不适用于分析重要性比较隐蔽的关键用户,例如炒作微博的幕后操控者,从微博的直接转发等行为上很难发现此类用户。为此,本发明实施例一,参见图1所示,提供一种基于话题转移熵的微博隐蔽关键用户分析方法,包含:
S01)通过微博平均传播规模,获取显著关键用户及候选隐蔽关键用户;
S02)抽取显著关键用户和候选隐蔽关键用户的微博话题序列;
S03)获取候选隐蔽关键用户到显著关键用户的话题转移熵;
S04)分析候选隐蔽关键用户的隐蔽重要度,识别隐蔽关键用户。
首先通过微博平均传播规模发现显著关键用户,并获取显著关键用户所关注的普通用户,作为候选的隐蔽关键用户;分别提取两类用户的所有微博,抽取出用户的微博话题序列;然后,基于两类用户的微博话题序列,计算这些候选隐蔽关键用户到显著关键用户的话题转移熵,用以度量候选隐蔽关键用户对显著关键用户的影响程度;最后,基于候选隐蔽关键用户和显著关键用户的直接影响力、候选隐蔽关键用户到显著关键用户的话题转移熵,分析候选隐蔽关键用户的隐蔽重要度,实现对隐蔽关键用户的发现。
为提高关键用户的识别效率和准确性,在获取显著关键用户及候选隐蔽关键用户前,首先根据微博用户及微博的特征,对采集到的微博数据进行预处理,去除僵尸用户、广告账户的微博,以及对用户影响力分析会产生干扰的微博,如不具有传播性的微博,以提高实验结果的准确性和有效性。通过分析发现,具有传播性的微博一般至少被传播两层,而不具有传播性的微博大多数不会被转发,被转发两层的概率很小。因此,在预处理时,根据黑名单过滤到僵尸用户和广告账户及相关微博;同时,过滤掉传播层数小于两层的微博。
基于用户的微博平均传播规模来获取显著关键用户及候选隐蔽关键用户,参见图2所示,包含如下内容:
A01)通过微博显示转发次数计算用户直接影响力;
A02)根据用户直接影响力排名,提取显著关键用户;
A03)抽取显著关键用户所关注用户,作为隐蔽关键用户初始候选集;
A04)根据用户直接影响力筛选初始候选集,得到包含候选隐蔽关键用户的候选集。
基于用户的微博平均传播规模来度量用户的直接影响力,微博传播规模通常用微博的显式转发次数来计算;用户u的直接影响力计算公式可以表示为:
其中,Repostnumi表示用户u第i个微博的显式转发次数,WeiboNum表示用户u发布微博的总数。基于上述公式,计算微博数据中各个用户的直接影响力,影响力排序在前0.3%的用户为显著关键用户,其余为普通用户。抽取显著关键用户所关注的用户,得到隐蔽关键用户的初始候选集;去除初始候选集中是隐蔽关键用户可能性很小的用户,即过滤掉直接影响力排名在前10%的用户,其余用户构成隐蔽关键用户的候选集。
固定时间间隔的时间序列是转移熵的计算前提,但用户发布微博的时间间隔是不固定的,因此需要对用户发布微博的话题时序进行了一定程度上的修正,采取弹性的时间间隔,提取显著关键用户和候选隐蔽关键用户的微博话题的时序。为此,本发明的另一个实施例中,参见图3所示,抽取显著关键用户和候选隐蔽关键用户的微博话题序列,包含:
B01)通过LDA三层贝叶斯网络模型分析用户微博文本,得到用户微博话题分布向量;
B02)对微博时间序列内每个时间段上的微博话题分布向量进行聚类,得到微博簇;
B03)获取相邻时间段的微博话题相似度,并根据设定阈值和微博话题相似度合并相邻时间段内发布的微博话题。
首先对用户的微博进行话题聚类;根据生成的微博话题,以弹性时间间隔提取用户的微博话题的序列{θ1,θ2,...,θp}和对应的时间段序列{T1,T2,...,Tp},θ1,θ2,...,θp是对应T1,T2,...,Tp时间段微博的话题。通过LDA模型分析用户的微博文本,得到用户的话题向量。LDA模型是三层贝叶斯模型,其中包括文本、话题和单词。图6表示了LDA三层贝叶斯网络。LDA模型假设微博文本c由k个话题组成,令θ表示微博-话题分布向量,即{θ1,θ2,...,θk},其中θ1,θ2,...,θk为微博-话题分布向量中的每个元素,表示c在每个话题中的概率分布。
对于用户在一个时间区间T内的所有微博,首先我们基于LDA话题生成模型抽取每个微博的话题;然后基于层次聚类算法,对时间区间内的微博进行聚类,当相邻两个微博的话题向量的余弦相似度大于一定的阈值的时候,将两个微博聚到一类中;最后,在时间区间得到多个微博簇,每个微博簇对应一个时间段,聚类结果如图7所示。设置一个时间片为一个时间点,一个时间区间上的所有时间片的集合便是一个用户的微博时间序列,用{T1,T2,...,Tp}表示,其中P表示微博聚类得到的时间片总数。
根据话题相似程度合并用户在相邻时间段发布的微博。每一时间段的微博集合的话题{θ1,θ2,...,θp},θ1,θ2,...,θp对应每一时间段微博的话题。得到每个时间段微博话题后,基于余弦相似度计算相邻时间段TnTn+1(1≤n≤k-1)时间段的微博话题相似度。如果用户Tn和Tn+1时间段的微博话题相似度大于阈值则将Tn+1时间点上的微博归并到Tn时间点上。主题余弦相似度计算方法见公式:
其中,TopicSimn,n+1表示相邻时间段Tn和Tn+1内的微博主题余弦相似度。
为获取候选隐蔽关键用户到显著关键用户的话题转移熵,参见图4所示,包含如下内容:
C01)构造微博时间序列上显著关键用户和候选隐蔽关键用户两者的事件集合,微博时间序列为预设的包含多个时间段的时间区间;
C02)分别计算候选隐蔽关键用户到显著关键用户的微博话题转移熵。
首先需要构造微博用户的事件序列,在一个长度为P的时间序列{T1,T2,...,Tp}上,用户s所对应的事件集合用{e1,e2,...,ep},ei∈{0,1}(1≤i≤p)表示。ei=1表示用户在时间段i上发布了微博,ei=0则表示用户u在此时间点没有发布微博。因此,在一段时间序列上,用户u的事件可以表示成一段0、1序列,从而得到微博话题转移熵的计算基础。显著关键用户u的事件集合用{e1 u,e2 u,...,ep u}表示,对应的微博话题序列用{θ1 u,θ2 u,...,θp u}表示。v表示u所关注的一个普通用户,其事件集合用{e1 v,e2 v,...,ep v}表示,对应的微博话题序列为{θ1 v,θ2 v,...,θp v}。则用户v到u的微博话题转移熵的计算方法可表示为:
其中,P(en+1 u,en u,en v)表示用户u在第n个时间段和第n+1个时间段分别产生事件en+1 u和en u,并且用户v在第n个时间段产生事件en v的概率;P(en+1u|en u,en v)表示在用户u和用户v在时间段n分别产生事件en u,en v的条件下,用户u在时间段n+1产生事件en+1 u的概率;P(en+1 u|en u)表示在用户u在时间段n产生事件en u的条件下,用户u在时间段n+1产生事件en+1 u的概率;Topicsim(θn+1 u,θn v)表示显著关键用户u在第n+1个时间段发布微博和候选隐蔽关键用户v在第n个时间段发布微博的微博话题相似度。
隐蔽重要度是评估用户是隐蔽关键用户的度量指标,可通过三个子指标来计算:用户v的直接影响力(Influnencev)、显著关键用户u的直接影响力(Influenceu)、v到u的微博话题转移熵(TEv→u)。用户v的隐蔽重要度的计算方法可所示为:
其中,HiddenInfv表示用户v的隐蔽重要度,KeyFANv表示用户v的显著关键用户粉丝集。
为了验证方法的有效性,基于新浪微博数据对本发明进行实验,并且实验数据中用户发布的微博其话题要具有一定的相关性,因此,选择清华大学计算机科学与技术系的一个科研团队积累的一个话题相关度较大的微博数据。数据获取过程为,首先以清华大学某兴趣社团197个成员的微博账号作为种子用户,爬取197个用户所关注的所有用户共26476个,再爬取第二层用户关注的所有用户共约300万个用户,最后连续爬取所有用户两年内所有发布的微博共600G,约400亿条微博,时间范围为2012年3月至2014年3月。
实验过程:依据本发明提出的方法,参见图5所示,首先对微博数据集约300万个用户进行直接影响力排名找到显著关键用户;然后根据显著关键用户找到候选隐蔽关键用户,并计算候选隐蔽关键用户的隐蔽重要度,确定疑似隐蔽关键用户。根据微博领域相关专家的分析,隐蔽关键用户为了提高影响力,通常只控制少数影响力非常高的显著关键用户,其一般分布在影响力排名前0.3%的用户中;微博的影响力服从幂律分布,影响力排名中前10%以内的用户,其影响力较大且与后90%的用户影响力差距较明显,即影响力排名前10%的用户是隐蔽关键用户的可能性很小。因此,首先基于微博传播规模度量所有用户的直接影响力,取排序靠前的0.3%的用户为显著关键用户,得到10000个显著关键用户。然后,抽取这些用户所关注的用户,得到512398个用户,作为隐蔽关键用户的初始候选集;将初始候选集中直接影响力排名在前10%的用户过滤掉,得到49356个用户,构成隐蔽关键用户的候选集。最后基于TTE算法计算候选集中各用户的隐蔽重要度,隐蔽重要度排名前20的疑似隐蔽关键用户,如表一所示。
为了评估本发明TTE算法的准确率,即算法发现的隐蔽关键用户中真实隐蔽关键用户所占比例,借助专家投票,对发现的隐蔽关键用户进行人工标注,作为评价算法准确性的依据。由微博安全领域的三个专家对前20个疑似隐蔽关键用户的隐蔽重要度进行打分,每个专家按表1定义的分值含义对用户进行打分。
表1专家打分依据
隐蔽重要度分值(Score) | 表示的含义 |
1-2 | 不太可能是隐蔽关键用户 |
3-4 | 是隐蔽关键用户的可能性较低 |
5-6 | 是隐蔽关键用户的可能性居中 |
7-8 | 是隐蔽关键用户的可能性较高 |
9-10 | 是隐蔽关键用户的可能性非常高 |
按照用户是隐蔽关键用户的可能性从低到高,从1到10打分,并将分值分成5个区间,每个区间有2个分值提供专家选择,这样能在一定程度上提高专家打分的精确性,同时可减少由于专家误判导致打分结果误差过大的问题。
对于每个隐蔽关键用户,取三个专家的平均打分作为其最终的隐蔽重要度分数。打分结果如表2所示:
表2前20个疑似隐蔽关键用户
经过微博安全领域专家分析,平均打分在4.5分以上的用户是专家一致认可的具有较高可能性的隐蔽关键用户。由表2可知,TTE算法计算出的排名前20的疑似隐蔽关键用户中,专家平均打分在4.5分以上的达到了80%,说明了TTE算法的准确率较高。
从表2还可以看出,前20个疑似隐蔽关键用户的直接影响力不高,大多排名在几十万以下,甚至在100万以下,验证了隐蔽关键用户的隐蔽性。
为了进一步分析本发明基于话题转移熵的微博隐蔽关键用户分析方法的TTE算法的有效性,考察按本发明计算的隐蔽重要度对候选隐蔽关键用户的排序与按专家平均打分对候选隐蔽关键用户的排序的相关性。排序越相关,说明TTE算法的准确性越高。
Person相关系数,是度量两个排序是否相关最常用的方法之一。Person相关系数的值越大,代表两个排序的相关程度越高。Person相关系数的值及相关程度的对应关系见表3:
表3 Person相关程度
Person系数值 | 表示的相关程度 |
0.8-1.00 | 极度相关 |
0.6-0.79 | 高度相关 |
0.4-0.59 | 中度相关 |
0.2-0.39 | 低度相关 |
0.0-0.19 | 极低相关 |
首先按TTE算法得到的隐蔽重要度对排名前二十的隐蔽关键用户从1到20编号,然后按照专家平均打分从大到小对20个用户排序,然后计算两组编号排序的Person相关系数,其值为0.71。由表3可知,两组排序高度相关,证明了本发明给出的TTE算法的准确性。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施方式仅限于此,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单的推演或替换,都应当视为属于本发明由所提交的权利要求书确定专利保护范围。对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种基于话题转移熵的微博隐蔽关键用户分析方法,其特征在于,包含:
A)通过微博平均传播规模,获取显著关键用户及候选隐蔽关键用户;
B)抽取显著关键用户和候选隐蔽关键用户的微博话题序列;
C)计算候选隐蔽关键用户到显著关键用户的话题转移熵;
D)分析候选隐蔽关键用户的隐蔽重要度,识别隐蔽关键用户。
2.根据权利要求1所述的基于话题转移熵的微博隐蔽关键用户分析方法,其特征在于,还包含:数据预处理步骤,根据微博用户及微博特征,过滤僵尸用户和广告账户及两者的相关微博,并过滤传播层数小于两层的微博。
3.根据权利要求1所述的基于话题转移熵的微博隐蔽关键用户分析方法,其特征在于,A)中获取显著关键用户及候选隐蔽关键用户,包含如下内容:
A1)通过微博显示转发次数计算用户直接影响力;
A2)根据用户直接影响力排名,提取显著关键用户;
A3)抽取显著关键用户所关注用户,作为隐蔽关键用户初始候选集;
A4)根据用户直接影响力筛选初始候选集,得到包含候选隐蔽关键用户的候选集。
4.根据权利要求3所述的基于话题转移熵的微博隐蔽关键用户分析方法,其特征在于,A1)中用户u的直接影响力Influenceu的计算公式表示为:
其中,Repostnumi表示用户u第i个微博的显式转发次数,WeiboNum表示用户u发布微博的总数。
5.根据权利要求1所述的基于话题转移熵的微博隐蔽关键用户分析方法,其特征在于,B)中抽取显著关键用户和候选隐蔽关键用户的微博话题序列,包含:
B1)通过LDA三层贝叶斯网络模型分析用户微博文本,得到用户微博话题分布向量;
B2)对微博时间序列内每个时间段上的微博话题分布向量进行聚类,得到微博簇;
B3)获取相邻时间段的微博话题相似度,并根据设定阈值和微博话题相似度合并相邻时间段内发布的微博话题。
6.根据权利要求5所述的基于话题转移熵的微博隐蔽关键用户分析方法,其特征在于,B3)中获取相邻时间段TnTn+1的微博话题相似度TopicSimn,n+1,其计算公式表示为:
,其中,k表示用户微博话题分布向量中元素个数,1≤n≤k-1,表示时间段Tn用户微博话题i。
7.根据权利要求1所述的基于话题转移熵的微博隐蔽关键用户分析方法,其特征在于,C)中计算候选隐蔽关键用户到显著关键用户的话题转移熵,包含如下内容:
C1)构造微博时间序列上显著关键用户和候选隐蔽关键用户两者的事件集合,微博时间序列为预设的包含多个时间段的时间区间;
C2)分别计算候选隐蔽关键用户到显著关键用户的微博话题转移熵。
8.根据权利要求7所述的基于话题转移熵的微博隐蔽关键用户分析方法,其特征在于,C2)中候选隐蔽关键用户v到显著关键用户u的微博话题转移熵TEv→u的计算公式表示为:
,
其中,P(en+1 u,en u,en v)表示用户u在第n个时间段和第n+1个时间段分别产生事件en+1 u和en u,并且用户v在第n个时间段产生事件en v的概率;P(en+1 u|en u,en v)表示在用户u和用户v在时间段n分别产生事件en u,en v的条件下,用户u在时间段n+1产生事件en+1 u的概率;P(en+1 u|en u)表示在用户u在时间段n产生事件en u的条件下,用户u在时间段n+1产生事件en+1 u的概率;Topicsim(θn+1 u,θn v)表示显著关键用户u在第n+1个时间段发布微博和候选隐蔽关键用户v在第n个时间段发布微博的微博话题相似度。
9.根据权利要求1所述的基于话题转移熵的微博隐蔽关键用户分析方法,其特征在于,D)中,通过候选隐蔽关键用户直接影响力、显著关键用户直接影响力及候选隐蔽关键用户到显著关键用户的微博话题转移熵三个指标,计算候选隐蔽关键用户的隐蔽重要度,识别隐蔽关键用户。
10.根据权利要求9所述的基于话题转移熵的微博隐蔽关键用户分析方法,其特征在于,候选隐蔽关键用户v的隐蔽重要度HiddenInfv计算公式表示为:
,
其中,Influnencev表示候选隐蔽关键用户v的直接影响力,Influenceu表示显著关键用户u的直接影响力,TEv→u表示候选隐蔽关键用户v到显著关键用户u的微博话题转移熵,KeyFANv表示用户v的显著关键用户粉丝集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810369630.4A CN108536866B (zh) | 2018-04-24 | 2018-04-24 | 基于话题转移熵的微博隐蔽关键用户分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810369630.4A CN108536866B (zh) | 2018-04-24 | 2018-04-24 | 基于话题转移熵的微博隐蔽关键用户分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108536866A true CN108536866A (zh) | 2018-09-14 |
CN108536866B CN108536866B (zh) | 2021-02-23 |
Family
ID=63477527
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810369630.4A Active CN108536866B (zh) | 2018-04-24 | 2018-04-24 | 基于话题转移熵的微博隐蔽关键用户分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108536866B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948047A (zh) * | 2019-01-18 | 2019-06-28 | 中国科学院自动化研究所 | 基于转移熵的文化基因排序方法与系统及相关设备 |
CN110209962A (zh) * | 2019-06-12 | 2019-09-06 | 合肥工业大学 | 主题层次高影响力用户的获取方法和系统 |
CN111311409A (zh) * | 2020-02-13 | 2020-06-19 | 腾讯云计算(北京)有限责任公司 | 目标对象确定方法、装置、电子设备及存储介质 |
CN115757664A (zh) * | 2023-01-10 | 2023-03-07 | 深圳市规划和自然资源数据管理中心(深圳市空间地理信息中心) | 一种耦合转移熵和hits算法的sdg指标间因果关系挖掘方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102609460A (zh) * | 2012-01-13 | 2012-07-25 | 中国科学院计算技术研究所 | 微博客数据采集方法及系统 |
CN104573081A (zh) * | 2015-01-27 | 2015-04-29 | 南京烽火星空通信发展有限公司 | 一种基于sns的个人社会关系数据挖掘方法 |
CN107316246A (zh) * | 2016-09-22 | 2017-11-03 | 山东科技大学 | 一种社交网络关键用户的挖掘方法 |
-
2018
- 2018-04-24 CN CN201810369630.4A patent/CN108536866B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102609460A (zh) * | 2012-01-13 | 2012-07-25 | 中国科学院计算技术研究所 | 微博客数据采集方法及系统 |
CN104573081A (zh) * | 2015-01-27 | 2015-04-29 | 南京烽火星空通信发展有限公司 | 一种基于sns的个人社会关系数据挖掘方法 |
CN107316246A (zh) * | 2016-09-22 | 2017-11-03 | 山东科技大学 | 一种社交网络关键用户的挖掘方法 |
Non-Patent Citations (3)
Title |
---|
徐志明等: "《微博用户的相似性度量及其应用》", 《计算机学报》 * |
杨静等: "《基于溯源的虚假信息传播控制方法》", 《哈尔滨工程大学学报》 * |
汪同力: "《基于用户内容信息转移的社会网络链接预测研究》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948047A (zh) * | 2019-01-18 | 2019-06-28 | 中国科学院自动化研究所 | 基于转移熵的文化基因排序方法与系统及相关设备 |
CN109948047B (zh) * | 2019-01-18 | 2021-09-28 | 中国科学院自动化研究所 | 基于转移熵的文化基因排序方法与系统及相关设备 |
CN110209962A (zh) * | 2019-06-12 | 2019-09-06 | 合肥工业大学 | 主题层次高影响力用户的获取方法和系统 |
CN110209962B (zh) * | 2019-06-12 | 2021-02-26 | 合肥工业大学 | 主题层次高影响力用户的获取方法和系统 |
CN111311409A (zh) * | 2020-02-13 | 2020-06-19 | 腾讯云计算(北京)有限责任公司 | 目标对象确定方法、装置、电子设备及存储介质 |
CN111311409B (zh) * | 2020-02-13 | 2023-04-07 | 腾讯云计算(北京)有限责任公司 | 目标对象确定方法、装置、电子设备及存储介质 |
CN115757664A (zh) * | 2023-01-10 | 2023-03-07 | 深圳市规划和自然资源数据管理中心(深圳市空间地理信息中心) | 一种耦合转移熵和hits算法的sdg指标间因果关系挖掘方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108536866B (zh) | 2021-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108536866A (zh) | 基于话题转移熵的微博隐蔽关键用户分析方法 | |
Hristakieva et al. | The spread of propaganda by coordinated communities on social media | |
Weng et al. | Event detection in twitter | |
CN103927398B (zh) | 基于最大频繁项集挖掘的微博炒作群体发现方法 | |
CN102214241B (zh) | 一种基于图聚类的用户生成文本流中的突发话题检测方法 | |
Johnson et al. | Identifying stance by analyzing political discourse on twitter | |
CN112434226A (zh) | 一种网络舆情监测预警方法 | |
Bogdanov et al. | The social media genome: Modeling individual topic-specific behavior in social media | |
CN103500175A (zh) | 一种基于情感分析在线检测微博热点事件的方法 | |
CN110457404A (zh) | 基于复杂异质网络的社交媒体账户分类方法 | |
CN108417274A (zh) | 流行病预测方法、系统及设备 | |
CN108733816A (zh) | 一种微博突发事件检测方法 | |
CN104636408B (zh) | 基于用户生成内容的新闻认证预警方法及系统 | |
CN105488092A (zh) | 一种时间敏感和自适应的子话题在线检测方法及系统 | |
CN103116605A (zh) | 一种基于监测子网的微博热点事件实时检测方法及系统 | |
Armentano et al. | Recommending information sources to information seekers in Twitter | |
WO2019196259A1 (zh) | 一种虚假消息的识别方法及其设备 | |
CN103218368B (zh) | 一种挖掘热词的方法与装置 | |
CN106897359A (zh) | 互联网信息收集及关联方法 | |
CN109086794A (zh) | 一种基于t-lda主题模型的驾驶行为模式识方法 | |
CN111581370B (zh) | 综合多通道数据来源的网络舆情热度评估方法及装置 | |
Chen et al. | Lexicon based Chinese language sentiment analysis method | |
Han et al. | Linking social network accounts by modeling user spatiotemporal habits | |
Si et al. | Federated non-negative matrix factorization for short texts topic modeling with mutual information | |
Song et al. | Blockchain data analysis from the perspective of complex networks: Overview |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |