CN108536866B - 基于话题转移熵的微博隐蔽关键用户分析方法 - Google Patents

基于话题转移熵的微博隐蔽关键用户分析方法 Download PDF

Info

Publication number
CN108536866B
CN108536866B CN201810369630.4A CN201810369630A CN108536866B CN 108536866 B CN108536866 B CN 108536866B CN 201810369630 A CN201810369630 A CN 201810369630A CN 108536866 B CN108536866 B CN 108536866B
Authority
CN
China
Prior art keywords
microblog
users
key
user
significant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810369630.4A
Other languages
English (en)
Other versions
CN108536866A (zh
Inventor
尹美娟
刘晓楠
罗军勇
唐梓淇
何功震
朱玛
杨文�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information Engineering University of PLA Strategic Support Force
Original Assignee
Information Engineering University of PLA Strategic Support Force
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information Engineering University of PLA Strategic Support Force filed Critical Information Engineering University of PLA Strategic Support Force
Priority to CN201810369630.4A priority Critical patent/CN108536866B/zh
Publication of CN108536866A publication Critical patent/CN108536866A/zh
Application granted granted Critical
Publication of CN108536866B publication Critical patent/CN108536866B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于话题转移熵的微博隐蔽关键用户分析方法,包含:通过微博平均传播规模度量微博用户的直接影响力,根据直接影响力发现显著关键用户和候选隐蔽关键用户;抽取两类用户的微博话题序列;计算候选隐蔽关键用户到显著关键用户的话题转移熵,度量候选隐蔽关键用户对显著关键用户的影响程度;基于候选隐蔽关键用户和显著关键用户的直接影响力、前者对后者的影响程度,分析候选隐蔽关键用户的隐蔽重要度,识别隐蔽关键用户。本发明基于微博主题相似性和时序相关性获取非显著关键用户到显著关键用户的微博话题转移熵,度量前者对后者的隐蔽影响程度,并结合两者自身的直接影响力,评估用户隐蔽重要性,实现微博隐蔽关键用户的准确识别。

Description

基于话题转移熵的微博隐蔽关键用户分析方法
技术领域
本发明属于网络数据挖掘技术领域,特别涉及一种基于话题转移熵的微博隐蔽关键用户分析方法,用于准确识别微博网络中隐蔽关键用户。
背景技术
微博是个庞大的社交媒体,同时也是海量舆论的集散地。对微博中信息的传播与扩散起到重要作用的用户,称为微博关键用户。分析微博中用户对信息传播的影响力,发现关键用户,对于微博的舆论监管与引导工作具有重要意义。微博中的关键用户分析是近几年的研究热点,目前的方法主要有:在给定传播模型参数的条件下,寻找使得微博传播扩散规模最大的种子用户集合作为关键用户;基于评论关系构建网络,结合用户兴趣,通过PageRank算法的变体识别意见领袖;根据主题URL构造转发级联树,预测用户发布的微博的平均传播规模,作为用户社会影响力大小的度量指标,进而判定关键用户;结合用户转发行为特征和用户中微博好友关系网络中的位置两个方面,度量用户的信息传播能力,来发现关键用户。但上述大多依赖微博系统自动标注的转发关系来分析微博用户的影响力,这种影响力是比较直接、明显的,发现的是重要性比较明显的关键用户,称为“显著关键用户”。而存在一些重要性比较隐蔽的关键用户,如炒作微博的幕后操控者,其对微博信息的传播具有非常重要的作用,但从微博的直接转发等行为上难以发现此类用户。将对微博中的传播或扩散具有重要作用,但其重要性较为隐蔽的用户,称为“隐蔽关键用户”。现有方法不适用于分析这种重要性隐蔽的关键用户的影响力,因此对隐蔽关键用户的识别度较低。
发明内容
针对现有技术中的不足,本发明提供一种基于话题转移熵的微博隐蔽关键用户分析方法,基于微博主题相似性和时序相关性获取非显著关键用户到显著关键用户的微博话题转移熵,度量前者对后者的隐蔽影响程度,并结合两者自身的直接影响力,评估用户隐蔽重要性,从而实现微博隐蔽关键用户的准确识别,对微博舆论监督与引导具有重要意义。
按照本发明所提供的设计方案,一种基于话题转移熵的微博隐蔽关键用户分析方法,包含:
A)通过微博平均传播规模,获取显著关键用户及候选隐蔽关键用户;
B)抽取显著关键用户和候选隐蔽关键用户的微博话题序列;
C)计算候选隐蔽关键用户到显著关键用户的话题转移熵;
D)分析候选隐蔽关键用户的隐蔽重要度,识别隐蔽关键用户。
上述的,在获取显著关键用户及候选隐蔽关键用户前,首先进行数据预处理,根据微博用户及微博特征,过滤僵尸用户和广告账户及两者的相关微博,并过滤传播层数小于两层的微博。
上述的,A)中获取显著关键用户及候选隐蔽关键用户,包含如下内容:
A1)通过微博显示转发次数计算用户直接影响力;
A2)根据用户直接影响力排名,提取显著关键用户;
A3)抽取显著关键用户所关注用户,作为隐蔽关键用户初始候选集;
A4)根据用户直接影响力筛选初始候选集,得到包含候选隐蔽关键用户的候选集。
优选的,A1)中用户u的直接影响力Influenceu的计算公式表示为:
Figure BDA0001638156590000021
,其中,Repostnumi表示用户u第i个微博的显式转发次数,WeiboNum表示用户u发布微博的总数。
上述的,B)中抽取显著关键用户和候选隐蔽关键用户的微博话题序列,包含:
B1)通过LDA三层贝叶斯网络模型分析用户微博文本,得到用户微博话题分布向量;
B2)对微博时间序列内每个时间段上的微博话题分布向量进行聚类,得到微博簇;
B3)获取相邻时间段的微博话题相似度,并根据设定阈值和微博话题相似度合并相邻时间段内发布的微博话题。
上述的,B3)中获取相邻时间段TnTn+1的微博话题相似度TopicSimn,n+1,其计算公式表示为:
Figure BDA0001638156590000031
,其中,k表示用户微博话题分布向量中元素个数,1≤n≤k-1,
Figure BDA0001638156590000032
表示时间段Tn用户微博话题i。
上述的,C)中计算候选隐蔽关键用户到显著关键用户的话题转移熵,包含如下内容:
C1)构造微博时间序列上显著关键用户和候选隐蔽关键用户两者的事件集合,微博时间序列为预设的包含多个时间段的时间区间;
C2)分别计算候选隐蔽关键用户到显著关键用户的微博话题转移熵。
优选的,C2)中候选隐蔽关键用户v到显著关键用户u的微博话题转移熵TEv→u的计算公式表示为:
Figure BDA0001638156590000033
,其中,P(en+1 u,en u,en v)表示用户u在第n个时间段和第n+1个时间段分别产生事件en+1 u和en u,并且用户v在第n个时间段产生事件en v的概率;P(en+1 u|en u,en v)表示在用户u和用户v在时间段n分别产生事件en u,en v的条件下,用户u在时间段n+1产生事件en+1 u的概率;P(en+1 u|en u)表示在用户u在时间段n产生事件en u的条件下,用户u在时间段n+1产生事件en+1 u的概率;Topicsim(θn+1 un v)表示显著关键用户u在第n+1个时间段发布微博和候选隐蔽关键用户v在第n个时间段发布微博的微博话题相似度。
上述的,D)中,通过候选隐蔽关键用户直接影响力、显著关键用户直接影响力及候选隐蔽关键用户到显著关键用户的微博话题转移熵三个指标,计算候选隐蔽关键用户的隐蔽重要度,识别隐蔽关键用户。
优选的,候选隐蔽关键用户v的隐蔽重要度HiddenInfv计算公式表示为:
Figure BDA0001638156590000041
,其中,Influnencev表示候选隐蔽关键用户v的直接影响力,Influenceu表示显著关键用户u的直接影响力,TEv→u表示候选隐蔽关键用户v到显著关键用户u的微博话题转移熵,KeyFANv表示用户v的显著关键用户粉丝集。
本发明的有益效果:
本发明从隐蔽关键用户其自身直接影响力低但对显著关键用户影响力大的特点出发,依据微博平均传播规模度量用户自身的直接影响力、基于微博话题转移熵度量用户对显著关键用户的影响力,在此基础上综合两个方面的影响力评估用户的隐蔽重要性,可以准确识别微博网络中的隐蔽关键用户,对于微博的舆论监管与引导具有重要意义;通过显著关键用户和隐蔽关键用户的提出,为微博网络中用户的作用分析提供更深入、细化的研究思路。
附图说明:
图1为本发明实施例中基于话题转移熵的微博隐蔽关键用户分析方法流程图;
图2为实施例中显著关键用户及候选隐蔽关键用户获取示意图;
图3为实施例中微博话题序列抽取示意图;
图4为实施例中话题转移熵获取示意图;
图5为实施例中微博隐蔽关键用户分析算法示意图;
图6为实施例中LDA三层贝叶斯网络模型示意图;
图7为实施例中时间区间T内微博聚类结果示意图。
具体实施方式:
为使本发明的目的、技术方案和优点更加清楚、明白,下面结合附图和技术方案对本发明作进一步详细的说明。
微博网络关键用户分析大多依赖微博系统自动标注的转发关系来实现,不适用于分析重要性比较隐蔽的关键用户,例如炒作微博的幕后操控者,从微博的直接转发等行为上很难发现此类用户。为此,本发明实施例一,参见图1所示,提供一种基于话题转移熵的微博隐蔽关键用户分析方法,包含:
S01)通过微博平均传播规模,获取显著关键用户及候选隐蔽关键用户;
S02)抽取显著关键用户和候选隐蔽关键用户的微博话题序列;
S03)获取候选隐蔽关键用户到显著关键用户的话题转移熵;
S04)分析候选隐蔽关键用户的隐蔽重要度,识别隐蔽关键用户。
首先通过微博平均传播规模发现显著关键用户,并获取显著关键用户所关注的普通用户,作为候选的隐蔽关键用户;分别提取两类用户的所有微博,抽取出用户的微博话题序列;然后,基于两类用户的微博话题序列,计算这些候选隐蔽关键用户到显著关键用户的话题转移熵,用以度量候选隐蔽关键用户对显著关键用户的影响程度;最后,基于候选隐蔽关键用户和显著关键用户的直接影响力、候选隐蔽关键用户到显著关键用户的话题转移熵,分析候选隐蔽关键用户的隐蔽重要度,实现对隐蔽关键用户的发现。
为提高关键用户的识别效率和准确性,在获取显著关键用户及候选隐蔽关键用户前,首先根据微博用户及微博的特征,对采集到的微博数据进行预处理,去除僵尸用户、广告账户的微博,以及对用户影响力分析会产生干扰的微博,如不具有传播性的微博,以提高实验结果的准确性和有效性。通过分析发现,具有传播性的微博一般至少被传播两层,而不具有传播性的微博大多数不会被转发,被转发两层的概率很小。因此,在预处理时,根据黑名单过滤到僵尸用户和广告账户及相关微博;同时,过滤掉传播层数小于两层的微博。
基于用户的微博平均传播规模来获取显著关键用户及候选隐蔽关键用户,参见图2所示,包含如下内容:
A01)通过微博显示转发次数计算用户直接影响力;
A02)根据用户直接影响力排名,提取显著关键用户;
A03)抽取显著关键用户所关注用户,作为隐蔽关键用户初始候选集;
A04)根据用户直接影响力筛选初始候选集,得到包含候选隐蔽关键用户的候选集。
基于用户的微博平均传播规模来度量用户的直接影响力,微博传播规模通常用微博的显式转发次数来计算;用户u的直接影响力计算公式可以表示为:
Figure BDA0001638156590000061
,其中,Repostnumi表示用户u第i个微博的显式转发次数,WeiboNum表示用户u发布微博的总数。基于上述公式,计算微博数据中各个用户的直接影响力,影响力排序在前0.3%的用户为显著关键用户,其余为普通用户。抽取显著关键用户所关注的用户,得到隐蔽关键用户的初始候选集;去除初始候选集中是隐蔽关键用户可能性很小的用户,即过滤掉直接影响力排名在前10%的用户,其余用户构成隐蔽关键用户的候选集。
固定时间间隔的时间序列是转移熵的计算前提,但用户发布微博的时间间隔是不固定的,因此需要对用户发布微博的话题时序进行了一定程度上的修正,采取弹性的时间间隔,提取显著关键用户和候选隐蔽关键用户的微博话题的时序。为此,本发明的另一个实施例中,参见图3所示,抽取显著关键用户和候选隐蔽关键用户的微博话题序列,包含:
B01)通过LDA三层贝叶斯网络模型分析用户微博文本,得到用户微博话题分布向量;
B02)对微博时间序列内每个时间段上的微博话题分布向量进行聚类,得到微博簇;
B03)获取相邻时间段的微博话题相似度,并根据设定阈值和微博话题相似度合并相邻时间段内发布的微博话题。
首先对用户的微博进行话题聚类;根据生成的微博话题,以弹性时间间隔提取用户的微博话题的序列{θ1,θ2,...,θp}和对应的时间段序列{T1,T2,...,Tp},θ1,θ2,...,θp是对应T1,T2,...,Tp时间段微博的话题。通过LDA模型分析用户的微博文本,得到用户的话题向量。LDA模型是三层贝叶斯模型,其中包括文本、话题和单词。图6表示了LDA三层贝叶斯网络。LDA模型假设微博文本c由k个话题组成,令θ表示微博-话题分布向量,即{θ1,θ2,...,θk},其中θ1,θ2,...,θk为微博-话题分布向量中的每个元素,表示c在每个话题中的概率分布。
对于用户在一个时间区间T内的所有微博,首先我们基于LDA话题生成模型抽取每个微博的话题;然后基于层次聚类算法,对时间区间内的微博进行聚类,当相邻两个微博的话题向量的余弦相似度大于一定的阈值的时候,将两个微博聚到一类中;最后,在时间区间得到多个微博簇,每个微博簇对应一个时间段,聚类结果如图7所示。设置一个时间片为一个时间点,一个时间区间上的所有时间片的集合便是一个用户的微博时间序列,用{T1,T2,...,Tp}表示,其中P表示微博聚类得到的时间片总数。
根据话题相似程度合并用户在相邻时间段发布的微博。每一时间段的微博集合的话题{θ1,θ2,...,θp},θ1,θ2,...,θp对应每一时间段微博的话题。得到每个时间段微博话题后,基于余弦相似度计算相邻时间段TnTn+1(1≤n≤k-1)时间段的微博话题相似度。如果用户Tn和Tn+1时间段的微博话题相似度大于阈值
Figure BDA0001638156590000071
则将Tn+1时间点上的微博归并到Tn时间点上。主题余弦相似度计算方法见公式:
Figure BDA0001638156590000081
其中,TopicSimn,n+1表示相邻时间段Tn和Tn+1内的微博主题余弦相似度。
为获取候选隐蔽关键用户到显著关键用户的话题转移熵,参见图4所示,包含如下内容:
C01)构造微博时间序列上显著关键用户和候选隐蔽关键用户两者的事件集合,微博时间序列为预设的包含多个时间段的时间区间;
C02)分别计算候选隐蔽关键用户到显著关键用户的微博话题转移熵。
首先需要构造微博用户的事件序列,在一个长度为P的时间序列{T1,T2,...,Tp}上,用户s所对应的事件集合用{e1,e2,...,ep},ei∈{0,1}(1≤i≤p)表示。ei=1表示用户在时间段i上发布了微博,ei=0则表示用户u在此时间点没有发布微博。因此,在一段时间序列上,用户u的事件可以表示成一段0、1序列,从而得到微博话题转移熵的计算基础。显著关键用户u的事件集合用{e1 u,e2 u,...,ep u}表示,对应的微博话题序列用{θ1 u,θ2 u,...,θp u}表示。v表示u所关注的一个普通用户,其事件集合用{e1 v,e2 v,...,ep v}表示,对应的微博话题序列为{θ1 v,θ2 v,...,θp v}。则用户v到u的微博话题转移熵的计算方法可表示为:
Figure BDA0001638156590000082
,其中,P(en+1 u,en u,en v)表示用户u在第n个时间段和第n+1个时间段分别产生事件en+1 u和en u,并且用户v在第n个时间段产生事件en v的概率;P(en+1u|en u,en v)表示在用户u和用户v在时间段n分别产生事件en u,en v的条件下,用户u在时间段n+1产生事件en+1 u的概率;P(en+1 u|en u)表示在用户u在时间段n产生事件en u的条件下,用户u在时间段n+1产生事件en+1 u的概率;Topicsim(θn+1 un v)表示显著关键用户u在第n+1个时间段发布微博和候选隐蔽关键用户v在第n个时间段发布微博的微博话题相似度。
隐蔽重要度是评估用户是隐蔽关键用户的度量指标,可通过三个子指标来计算:用户v的直接影响力(Influnencev)、显著关键用户u的直接影响力(Influenceu)、v到u的微博话题转移熵(TEv→u)。用户v的隐蔽重要度的计算方法可所示为:
Figure BDA0001638156590000091
,其中,HiddenInfv表示用户v的隐蔽重要度,KeyFANv表示用户v的显著关键用户粉丝集。
为了验证方法的有效性,基于新浪微博数据对本发明进行实验,并且实验数据中用户发布的微博其话题要具有一定的相关性,因此,选择清华大学计算机科学与技术系的一个科研团队积累的一个话题相关度较大的微博数据。数据获取过程为,首先以清华大学某兴趣社团197个成员的微博账号作为种子用户,爬取197个用户所关注的所有用户共26476个,再爬取第二层用户关注的所有用户共约300万个用户,最后连续爬取所有用户两年内所有发布的微博共600G,约400亿条微博,时间范围为2012年3月至2014年3月。
实验过程:依据本发明提出的方法,参见图5所示,首先对微博数据集约300万个用户进行直接影响力排名找到显著关键用户;然后根据显著关键用户找到候选隐蔽关键用户,并计算候选隐蔽关键用户的隐蔽重要度,确定疑似隐蔽关键用户。根据微博领域相关专家的分析,隐蔽关键用户为了提高影响力,通常只控制少数影响力非常高的显著关键用户,其一般分布在影响力排名前0.3%的用户中;微博的影响力服从幂律分布,影响力排名中前10%以内的用户,其影响力较大且与后90%的用户影响力差距较明显,即影响力排名前10%的用户是隐蔽关键用户的可能性很小。因此,首先基于微博传播规模度量所有用户的直接影响力,取排序靠前的0.3%的用户为显著关键用户,得到10000个显著关键用户。然后,抽取这些用户所关注的用户,得到512398个用户,作为隐蔽关键用户的初始候选集;将初始候选集中直接影响力排名在前10%的用户过滤掉,得到49356个用户,构成隐蔽关键用户的候选集。最后基于TTE算法计算候选集中各用户的隐蔽重要度,隐蔽重要度排名前20的疑似隐蔽关键用户,如表一所示。
为了评估本发明TTE算法的准确率,即算法发现的隐蔽关键用户中真实隐蔽关键用户所占比例,借助专家投票,对发现的隐蔽关键用户进行人工标注,作为评价算法准确性的依据。由微博安全领域的三个专家对前20个疑似隐蔽关键用户的隐蔽重要度进行打分,每个专家按表1定义的分值含义对用户进行打分。
表1专家打分依据
隐蔽重要度分值(Score) 表示的含义
1-2 不太可能是隐蔽关键用户
3-4 是隐蔽关键用户的可能性较低
5-6 是隐蔽关键用户的可能性居中
7-8 是隐蔽关键用户的可能性较高
9-10 是隐蔽关键用户的可能性非常高
按照用户是隐蔽关键用户的可能性从低到高,从1到10打分,并将分值分成5个区间,每个区间有2个分值提供专家选择,这样能在一定程度上提高专家打分的精确性,同时可减少由于专家误判导致打分结果误差过大的问题。
对于每个隐蔽关键用户,取三个专家的平均打分作为其最终的隐蔽重要度分数。打分结果如表2所示:
表2前20个疑似隐蔽关键用户
Figure BDA0001638156590000101
Figure BDA0001638156590000111
经过微博安全领域专家分析,平均打分在4.5分以上的用户是专家一致认可的具有较高可能性的隐蔽关键用户。由表2可知,TTE算法计算出的排名前20的疑似隐蔽关键用户中,专家平均打分在4.5分以上的达到了80%,说明了TTE算法的准确率较高。
从表2还可以看出,前20个疑似隐蔽关键用户的直接影响力不高,大多排名在几十万以下,甚至在100万以下,验证了隐蔽关键用户的隐蔽性。
为了进一步分析本发明基于话题转移熵的微博隐蔽关键用户分析方法的TTE算法的有效性,考察按本发明计算的隐蔽重要度对候选隐蔽关键用户的排序与按专家平均打分对候选隐蔽关键用户的排序的相关性。排序越相关,说明TTE算法的准确性越高。
Person相关系数,是度量两个排序是否相关最常用的方法之一。Person相关系数的值越大,代表两个排序的相关程度越高。Person相关系数的值及相关程度的对应关系见表3:
表3 Person相关程度
Person系数值 表示的相关程度
0.8-1.00 极度相关
0.6-0.79 高度相关
0.4-0.59 中度相关
0.2-0.39 低度相关
0.0-0.19 极低相关
首先按TTE算法得到的隐蔽重要度对排名前二十的隐蔽关键用户从1到20编号,然后按照专家平均打分从大到小对20个用户排序,然后计算两组编号排序的Person相关系数,其值为0.71。由表3可知,两组排序高度相关,证明了本发明给出的TTE算法的准确性。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施方式仅限于此,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单的推演或替换,都应当视为属于本发明由所提交的权利要求书确定专利保护范围。对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种基于话题转移熵的微博隐蔽关键用户分析方法,其特征在于,包含:
A)通过微博平均传播规模,获取显著关键用户及候选隐蔽关键用户;
B)抽取显著关键用户和候选隐蔽关键用户的微博话题序列;
C)计算候选隐蔽关键用户到显著关键用户的话题转移熵;
D)分析候选隐蔽关键用户的隐蔽重要度,识别隐蔽关键用户;
基于微博主题相似性和时序相关性获取隐蔽关键用户到显著关键用户的微博话题转移熵,度量前者对后者的隐蔽影响程度,并结合两者自身的直接影响力,评估隐蔽关键用户隐蔽重要度,实现微博隐蔽关键用户的准确识别;
A)中获取显著关键用户及候选隐蔽关键用户,包含如下内容:
A1)通过微博显式转发次数计算用户直接影响力;
A2)根据用户直接影响力排名,提取显著关键用户;
A3)抽取显著关键用户所关注用户,作为隐蔽关键用户初始候选集;
A4)根据用户直接影响力筛选初始候选集,过滤掉直接影响力排名在前10%的用户,其余用户构成隐蔽关键用户候选集;
A1)中用户u的直接影响力Influenceu的计算公式表示为:
Figure FDA0002888946030000011
其中,Repostnumi表示用户u第i个微博的显式转发次数,WeiboNum表示用户u发布微博的总数。
2.根据权利要求1所述的基于话题转移熵的微博隐蔽关键用户分析方法,其特征在于,还包含:数据预处理步骤,根据微博用户及微博特征,过滤僵尸用户和广告账户及两者的相关微博,并过滤传播层数小于两层的微博。
3.根据权利要求1所述的基于话题转移熵的微博隐蔽关键用户分析方法,其特征在于,B)中抽取显著关键用户和候选隐蔽关键用户的微博话题序列,包含:
B1)通过LDA三层贝叶斯网络模型分析用户微博文本,得到用户微博话题分布向量;
B2)对微博时间序列内每个时间段上的微博话题分布向量进行聚类,得到微博簇;
B3)获取相邻时间段的微博话题相似度,并根据设定阈值和微博话题相似度合并相邻时间段内发布的微博话题。
4.根据权利要求3所述的基于话题转移熵的微博隐蔽关键用户分析方法,其特征在于,B3)中获取相邻时间段TnTn+1的微博话题相似度TopicSimn,n+1,其计算公式表示为:
Figure FDA0002888946030000021
,其中,k表示用户微博话题分布向量中元素个数,1≤n≤k-1,
Figure FDA0002888946030000022
表示时间段Tn用户微博话题i。
5.根据权利要求1所述的基于话题转移熵的微博隐蔽关键用户分析方法,其特征在于,C)中计算候选隐蔽关键用户到显著关键用户的话题转移熵,包含如下内容:
C1)构造微博时间序列上显著关键用户和候选隐蔽关键用户两者的事件集合,微博时间序列为预设的包含多个时间段的时间区间;
C2)分别计算候选隐蔽关键用户到显著关键用户的微博话题转移熵。
6.根据权利要求5所述的基于话题转移熵的微博隐蔽关键用户分析方法,其特征在于,C2)中候选隐蔽关键用户v到显著关键用户u的微博话题转移熵TEv→u的计算公式表示为:
Figure FDA0002888946030000031
,其中,P(en+1 u,en u,en v)表示显著关键用户u在第n个时间段和第n+1个时间段分别产生事件en+1 u和en u,并且候选隐蔽关键用户v在第n个时间段产生事件en v的概率;P(en+1 u|en u,en v)表示在显著关键用户u和候选隐蔽关键用户v在时间段n分别产生事件en u,en v的条件下,显著关键用户u在时间段n+1产生事件en+1 u的概率;P(en+1 u|en u)表示在显著关键用户u在时间段n产生事件en u的条件下,显著关键用户u在时间段n+1产生事件en+1 u的概率;Topicsim(θn+1 un v)表示显著关键用户u在第n+1个时间段发布微博和候选隐蔽关键用户v在第n个时间段发布微博的微博话题相似度。
7.根据权利要求1所述的基于话题转移熵的微博隐蔽关键用户分析方法,其特征在于,D)中,通过候选隐蔽关键用户直接影响力、显著关键用户直接影响力及候选隐蔽关键用户到显著关键用户的微博话题转移熵三个指标,计算候选隐蔽关键用户的隐蔽重要度,识别隐蔽关键用户。
8.根据权利要求7所述的基于话题转移熵的微博隐蔽关键用户分析方法,其特征在于,候选隐蔽关键用户v的隐蔽重要度HiddenInfv计算公式表示为:
Figure FDA0002888946030000032
,其中,Influnencev表示候选隐蔽关键用户v的直接影响力,Influenceu表示显著关键用户u的直接影响力,TEv→u表示候选隐蔽关键用户v到显著关键用户u的微博话题转移熵,KeyFANv表示候选隐蔽关键用户v的显著关键用户粉丝集。
CN201810369630.4A 2018-04-24 2018-04-24 基于话题转移熵的微博隐蔽关键用户分析方法 Active CN108536866B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810369630.4A CN108536866B (zh) 2018-04-24 2018-04-24 基于话题转移熵的微博隐蔽关键用户分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810369630.4A CN108536866B (zh) 2018-04-24 2018-04-24 基于话题转移熵的微博隐蔽关键用户分析方法

Publications (2)

Publication Number Publication Date
CN108536866A CN108536866A (zh) 2018-09-14
CN108536866B true CN108536866B (zh) 2021-02-23

Family

ID=63477527

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810369630.4A Active CN108536866B (zh) 2018-04-24 2018-04-24 基于话题转移熵的微博隐蔽关键用户分析方法

Country Status (1)

Country Link
CN (1) CN108536866B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948047B (zh) * 2019-01-18 2021-09-28 中国科学院自动化研究所 基于转移熵的文化基因排序方法与系统及相关设备
CN110209962B (zh) * 2019-06-12 2021-02-26 合肥工业大学 主题层次高影响力用户的获取方法和系统
CN111311409B (zh) * 2020-02-13 2023-04-07 腾讯云计算(北京)有限责任公司 目标对象确定方法、装置、电子设备及存储介质
CN115757664B (zh) * 2023-01-10 2023-04-25 深圳市规划和自然资源数据管理中心(深圳市空间地理信息中心) 一种耦合转移熵和hits算法的sdg指标间因果关系挖掘方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609460A (zh) * 2012-01-13 2012-07-25 中国科学院计算技术研究所 微博客数据采集方法及系统
CN104573081A (zh) * 2015-01-27 2015-04-29 南京烽火星空通信发展有限公司 一种基于sns的个人社会关系数据挖掘方法
CN107316246A (zh) * 2016-09-22 2017-11-03 山东科技大学 一种社交网络关键用户的挖掘方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609460A (zh) * 2012-01-13 2012-07-25 中国科学院计算技术研究所 微博客数据采集方法及系统
CN104573081A (zh) * 2015-01-27 2015-04-29 南京烽火星空通信发展有限公司 一种基于sns的个人社会关系数据挖掘方法
CN107316246A (zh) * 2016-09-22 2017-11-03 山东科技大学 一种社交网络关键用户的挖掘方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《基于溯源的虚假信息传播控制方法》;杨静等;《哈尔滨工程大学学报》;20161231;第37卷(第12期);正文第2-6页 *
《基于用户内容信息转移的社会网络链接预测研究》;汪同力;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180215(第02期);正文第3、4章 *
《微博用户的相似性度量及其应用》;徐志明等;《计算机学报》;20140131;第37卷(第1期);全文 *

Also Published As

Publication number Publication date
CN108536866A (zh) 2018-09-14

Similar Documents

Publication Publication Date Title
CN108536866B (zh) 基于话题转移熵的微博隐蔽关键用户分析方法
CN107577688B (zh) 基于媒体信息采集的原创文章影响力分析系统
Kulshrestha et al. Quantifying search bias: Investigating sources of bias for political searches in social media
CN107193797B (zh) 中文微博的热点话题检测及趋势预测方法
CN105354216B (zh) 一种中文微博话题信息处理方法
CN105488211A (zh) 基于特征分析的用户群确定方法
KR102106203B1 (ko) 소셜 네트워크 시스템 기반의 질의 응답 서비스 제공을 위한 전문가 추천 방법 및 전문가 추천 시스템
CN105512301A (zh) 基于社交内容的用户分组方法
Han et al. Linking social network accounts by modeling user spatiotemporal habits
Yu et al. Modeling user intrinsic characteristic on social media for identity linkage
Mele et al. Linking news across multiple streams for timeliness analysis
CN111708816A (zh) 一种基于贝叶斯模型的多真值冲突消解方法
CN116861063B (zh) 一种发掘社媒热搜商业价值度的方法
CN110543601B (zh) 一种基于中智集的上下文感知兴趣点推荐方法及系统
CN117131345A (zh) 一种基于数据深度学习计算的多源数据参数评估方法
CN110008975B (zh) 基于免疫危险理论的社交网络水军检测方法
Giummolè et al. A study on microblog and search engine user behaviors: How twitter trending topics help predict google hot queries
CN104484330B (zh) 基于分档关键词阈值组合评估的垃圾评论预选方法及装置
US20210150565A1 (en) Method and apparatus for directing acquisition of information in a social network
CN114443930A (zh) 一种新闻舆情智能监测分析方法、系统及计算机存储介质
CN111881170B (zh) 时效性查询内容字段挖掘方法、装置、设备和存储介质
CN111507878B (zh) 一种基于用户画像的网络犯罪嫌疑人侦查方法及系统
Chen et al. Multi-feature integration for perception-dependent examination-bias estimation
CN113127696A (zh) 一种提高基于行为的影响力度量准确性方法
CN111858733A (zh) 一种基于互联网多源异构数据的政务信息比对方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant