CN108363752A - 基于微博传播规模预测的用户社会影响力分析方法 - Google Patents
基于微博传播规模预测的用户社会影响力分析方法 Download PDFInfo
- Publication number
- CN108363752A CN108363752A CN201810086726.XA CN201810086726A CN108363752A CN 108363752 A CN108363752 A CN 108363752A CN 201810086726 A CN201810086726 A CN 201810086726A CN 108363752 A CN108363752 A CN 108363752A
- Authority
- CN
- China
- Prior art keywords
- user
- microblogging
- bean vermicelli
- scale
- propagated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000000644 propagated effect Effects 0.000 title claims abstract description 54
- 238000004458 analytical method Methods 0.000 title claims abstract description 33
- 244000046052 Phaseolus vulgaris Species 0.000 claims abstract description 85
- 235000010627 Phaseolus vulgaris Nutrition 0.000 claims abstract description 85
- 230000001902 propagating effect Effects 0.000 claims abstract description 18
- 238000012216 screening Methods 0.000 claims abstract description 7
- 238000004364 calculation method Methods 0.000 claims description 15
- 239000013598 vector Substances 0.000 claims description 13
- 230000006399 behavior Effects 0.000 claims description 10
- 230000001960 triggered effect Effects 0.000 claims description 3
- 239000000843 powder Substances 0.000 claims description 2
- 238000000034 method Methods 0.000 description 44
- 238000002474 experimental method Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 5
- 244000097202 Rathbunia alamosensis Species 0.000 description 3
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000003646 Spearman's rank correlation coefficient Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 210000003813 thumb Anatomy 0.000 description 2
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Human Resources & Organizations (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于微博传播规模预测的用户社会影响力分析方法,包含:筛选具有传播性的微博数据;构建微博传播树,分析粉丝对用户的关注度及两者的兴趣相似度;结合关注度及兴趣相似度,计算粉丝对用户微博转发概率;通过转发概率预测用户微博传播规模期望,确定用户社会影响力。本发明基于具有传播性的微博的传播规模期望度量用户的社会影响力,在降低不具有传播性的微博对预测微博传播规模期望的干扰同时,更加合理地计算粉丝对用户微博的转发概率,解决在传播规模期望预测过程中不具有传播性的微博的干扰和计算用户微博转发概率时考虑的因素不全面等问题,实现对微博传播规模的准确预测,提高用户社会影响力分析结果的准确性。
Description
技术领域
本发明属于大数据分析技术领域,特别涉及一种基于微博传播规模预测的用户社会影响力分析方法,用于微博网络中用户社会影响力分析。
背景技术
微博用户的社会影响力是指的是一个用户对其他用户的思想和行为的影响能力。微博是个庞大的社交媒体,同时也是海量舆论的集散地,分析微博中用户的社会影响力对于微博中的舆论引导工作具有重要的意义。微博中的用户社会影响力分析一直是近几年的研究热点,目前比较前沿的方法主要基于微博的平均传播规模度量用户的社会影响力,但一个用户的社会影响力主要由其发布的具有传播性的微博体现,而不具有传播性的微博的传播规模极小,会拉低其微博平均转发规模,从而造成度量的偏差;并且,与平均传播规模相比,微博的传播规模期望更能客观地体现用户在微博网络中的社会影响力。此外,微博中的信息传播主要依赖于粉丝的转发行为,但是现有的大多数方法主要基于用户的静态属性(如粉丝数)和其在用户关系网络中的结构位置重要性分析用户的社会影响力,没有重视影响粉丝转发行为的因素,计算粉丝对用户微博的转发概率不够全面,导致预测的微博传播规模期望不准确,从而不能准确度量用户的社会影响力。
发明内容
针对现有技术中的不足,本发明提供一种基于微博传播规模预测的用户社会影响力分析方法,能够根据微博传播性和粉丝行为规律预测用户微博传播规模期望,准确度量用户的社会影响力。
按照本发明所提供的设计方案,一种基于微博传播规模预测的用户社会影响力分析方法,包含:
A)筛选具有传播性的微博数据;
B)构建微博传播树,分析粉丝对用户的关注度及两者的兴趣相似度;
C)结合关注度及兴趣相似度,计算粉丝对用户微博转发概率;
D)通过转发概率预测用户微博传播规模期望,确定用户社会影响力。
上述的,A)中,通过预设微博传播深度值,将微博数据中转发层数低于预设微博传播深度值的数据进行过滤,筛选出具有传播性的微博数据。
上述的,B)中,包含如下内容:
B1)、对于筛选后得到的微博数据中任意一个用户u,建立该用户u的微博传播树,微博传播树中,微博用户为节点,关注关系为边;
B2)、通过LDA模型分析用户u与粉丝的微博文本,得到两者的话题向量及话题向量的相似度,计算用户u与粉丝的兴趣相似度;
B3)、基于用户u发布的历史微博数据,统计粉丝对用户u历史微博数据中具有传播性的微博数据的转发、评论、点赞和阅读四种行为的频繁度,度量该粉丝对用于u的关注度。
优选的,B1)中建立用户u的微博传播树,包含如下内容:
B11)、选取用户u作为根,将用户u的粉丝归入传播树,并建立用户u到所有关注用户u的粉丝的边;
B12)、将用户u第二层粉丝归入传播树,并建立第一层粉丝指向其第二层粉丝的边;
B13)、重复步骤B12),直至满足预设迭代条件,用户u微博传播树构建结束。
更进一步,B13)中,预设迭代条件为没有多余用户能够加入传播树,或为传播树构建深度达到预设值。
上述的,B2)中,计算用户u与粉丝的兴趣相似度,内容如下:将用户u和粉丝v的微博文本通过LDA模型,浓缩成两个文档-话题分布向量(θu 1,θu 2,...,θu k)和(θv 1,θv 2,...,θv k),其中,θ1,θ2,...,θk为文档-话题分布向量中的每个元素,该元素表示文档在每个话题中的概率分布,k表示设定的话题数目,兴趣相似度计算公式如下:
上述的,B3)中,忽略阅读行为的频繁度,度量该粉丝对用于u的关注度,计算公式如下:
Carenessv→u=k1*commentratev→u+k2*Repostratev→u+k3*thumbratev→u,
其中,Repostratev→u、commentratev→u和thumbratev→u分别表示粉丝v对用户u的具有传播性的微博的转发率、评论率和点赞率,k1、k2和k3都是待定参数,且k1+k2+k3=1。
上述的,C)中,粉丝对用户微博转发概率,计算公式如下:
Probabilityv→u=F(SimInterestuv,Carenessv→u),
其中,Probabilityv→u表示粉丝v对用户u的一篇微博的转发概率,SimInterestuv表示粉丝v和用户u之间的兴趣相似度,Carenessv→u表示粉丝v对用户u的关注度。
优选的,D)中预测用户微博传播规模期望,即是指:微博传播树中的直接粉丝的微博传播规模期望的加权和,权值为粉丝v对用户u的微博的转发概率,用户u微博转发次数期望的计算公式如下:
得到用户u的微博传播树中每个叶子节点的传播规模期望和每个子节点对父节点的微博的转发概率之后,从下至上迭代计算出微博传播树中每个节点所触发的用户u的微博的传播规模期望,最终计算出用户u的微博传播规模期望。
本发明的有益效果:
1、本发明基于具有传播性的微博的传播规模期望度量用户的社会影响力,在降低了不具有传播性的微博对预测微博传播规模期望的干扰同时,更加合理地计算了粉丝对用户微博的转发概率,解决了在传播规模期望预测过程中不具有传播性的微博的干扰和计算用户微博转发概率时考虑的因素不全面等问题。
2、本发明从微博数据中筛选出具有传播性的微博,在具有传播性的微博上,通过粉丝和用户的交互历史分析粉丝对用户的关注度,并基于两者的微博主题分布计算两者之间的兴趣相似度,结合以上两个重要影响因素计算粉丝对用户微博的转发概率,在此基础上预测用户的微博传播规模期望,可以更准确地度量用户的社会影响力;结合微博的传播性,在很大程度上减少了不具有传播性的微博对预测用户微博的传播规模造成的干扰,同时,根据粉丝对用户的关注度和粉丝与用户的兴趣相似度计算粉丝对用户微博的转发概率,更全面地考虑了粉丝转发行为的影响因素,实现了对微博传播规模的准确预测,提高了用户社会影响力分析结果的准确性。
附图说明:
图1为实施例中用户社会影响力分析方法流程图;
图2为实施例中粉丝对用户关注度及两者兴趣相似度分析流程图;
图3为实施例中微博传播树建立流程图;
图4为实施例仿真实验中不同方法的微博用户社会影响力预测数据与实际数据的秩相关性对比图一;
图5为实施例仿真实验中不同方法的微博用户社会影响力预测数据与实际数据的秩相关性对比图二;
图6为实施例仿真实验中不同方法的基于传播性微博的微博用户社会影响力预测数据与实际数据的秩相关性对比图三;
图7为实施例仿真实验中本发明的方法微博用户社会影响力预测数据与实际数据的秩相关性随设定参数改变的曲线图。
具体实施方式:
为使本发明的目的、技术方案和优点更加清楚、明白,下面结合附图和技术方案对本发明作进一步详细的说明。
随着互联网的发展,微博是庞大的互联网社交媒体,在对微博用户社会影响力分析过程中,现有方法主要是基于用户静态属性和其在用户关系网络中的重要性,没有考虑粉丝转发行为因素,导致微博传播规模期望不准确,无法准确度量用户社会影响力。为此,本发明实施例一,参见图1所示,提供一种基于微博传播规模预测的用户社会影响力分析方法,包含:
a01)筛选具有传播性的微博数据;
a02)构建微博传播树,分析粉丝对用户的关注度及两者的兴趣相似度;
a03)结合关注度及兴趣相似度,计算粉丝对用户微博转发概率;
a04)通过转发概率预测用户微博传播规模期望,确定用户社会影响力。
从微博数据中筛选出具有传播性的微博,在具有传播性的微博上,通过粉丝和用户的交互历史分析粉丝对用户的关注度,并基于两者的微博主题分布计算两者之间的兴趣相似度,结合以上两个重要影响因素计算粉丝对用户微博的转发概率,在此基础上预测用户的微博传播规模期望,基于具有传播性的微博的传播规模期望度量用户的社会影响力,在降低了不具有传播性的微博对预测微博传播规模期望的干扰同时,更加合理地计算了粉丝对用户微博的转发概率,解决了在传播规模期望预测过程中不具有传播性的微博的干扰和计算用户微博转发概率时考虑的因素不全面等问题,可以更准确地度量用户的社会影响力。
微博数据筛选过程中,本发明另一个实施例中,通过预设微博传播深度值,将微博数据中转发层数低于预设微博传播深度值的数据进行过滤,筛选出具有传播性的微博数据。具有传播性的微博其传播深度一般大于两层,基于这个特点,对微博数据进行过滤,将转发层数低于两层的微博过滤掉。
构建微博传播树,本发明的再一个实施例,参见图2和3所示,通过如下方法实现:对于微博数据中任意一个用户u,建立该用户的微博最大传播树。传播树中,微博用户为节点,关注关系为边。如果一个用户v关注另一个用户u,则建立一条由被关注用户u指向关注用户v的边,因为微博传播是从被关注用户u传播到关注用户v的。选取用户u为根;将用户u的粉丝归入传播树,并建立用户u到所有关注用户u的粉丝的边;建立用户u第二层粉丝归入传播树,并建立第一层粉丝指向其第二层粉丝的边。假设用户不会对同一条信息进行二次转发(这种情况非常少,可以忽略不计),因此不将同一个用户重复归入传播树,避免了传播树产生回路;重复上一个步骤,直到没有多余的用户能够加入传播树,或者传播树的构建深度达到10层,则用户u的传播树构建结束。由于一个用户发布的微博其传播深度一般不会超过10层,因此将用户的传播树的构建深度限制在10层以内,避免不必要的计算。
LDA(Latent Dirichlet Allocation)模型是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,举例:一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。LDA是一种非监督机器学习技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息;采用词袋(bag of words)方法,将每一篇文档视为一个词频向量,将文本信息转化易于建模的数字信息。每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。本发明的再一个实施例中通过LDA模型分析用户和粉丝的微博文本,得到两者的话题向量,再利用余弦似度比较两个话题向量的相似度,得到两者的兴趣相似度。将用户u和粉丝v的微博文本通过LDA模型,浓缩成两个文档-话题分布向量(θu 1,θu 2,...,θu k)和(θv 1,θv 2,...,θv k),其中θ1,θ2,...,θk为文档-话题分布向量中的每个元素,表示文档在每个话题中的概率分布,k表示设定的话题数目。粉丝和用户的兴趣相似度计算公式如下:
基于用户u发布的历史微博中具有传播性的微博,统计粉丝v对用户u的微博的转发、评论、点赞和阅读四种行为的频繁度,来度量粉丝v对用户u的关注度。因阅读行为不易观测到,只根据另外3个指标来计算关注度。粉丝v对用户u的关注度的具体计算公式如下:
Carenessv→u=k1*commentratev→u+k2*Repostratev→u+k3*thumbratev→u,
其中,Repostratev→u、commentratev→u和thumbratev→u分别表示粉丝v对用户u的具有传播性的微博的转发率、评论率和点赞率;k1、k2和k3都是待定参数,且k1+k2+k3=1。
针对一个用户u,结合兴趣相似度和关注度来计算该用户的一个粉丝v对u发布的微博的转发概率,计算公式如下:
Probabilityv→u=F(SimInterestuv,Carenessv→u),
其中,Probabilityv→u表示粉丝v对用户u的一篇微博的转发概率,SimInterestuv表示粉丝v和用户u之间的兴趣相似度,Carenessv→u表示粉丝v对用户u的关注度。
用户u的微博传播规模期望等于传播树中的直接粉丝的微博传播规模期望的加权和,权值为粉丝对用户的微博的转发概率,用户微博转发次数期望的计算公式如下:
考虑到根用户的微博传播到传播树最底层的叶子节点时,叶子节点造成转发的概率非常小。假设叶子节点造成的传播规模只有其自身一个节点,则将叶子节点对跟用户的微博的传播规模期望设置为1,即Spreadrangeleaf=1。
在得到用户u的传播树中每个叶子节点的传播规模期望和每个子节点对父节点的微博的转发概率之后,从下至上迭代计算出传播树中每个节点的所触发的用户u的微博的传播规模期望,最终计算出用户u的微博传播规模期望。
为了验证方法的有效性,基于新浪微博数据进行了实验。通过新浪微博提供的API,搜索关键词“南海仲裁”获取到所有发布相关微博的103419个用户,获取了这103419个用户之间的互相关注关系,再爬取了这些用户两年内发布的所有微博,共45101751条,微博时间跨度为2014年9月到2017年9月。根据微博的传播性对采集到的微博数据进行过滤,筛选出具有传播性的微博,并按发布时间的先后排序,前半部分数据作为训练集,后半部分数据作为测试集。
在训练集数据上,对本发明给出的方法中相关参数进行训练,然后在测试集上对方法的有效性进行对比实验,5种对比方法与本发明方法的主要思想简要描述见表1。无论在训练集还是在测试集上,均在前2/3时间的微博数据上运用影响力分析方法预测用户在后1/3时间的社会影响力,以后1/3时间上用户微博的平均传播规模(即微博平均被转发数)作为用户当前实际社会影响力的一个参考,将预测的影响力最高的前N个用户与实际社会影响力最高的前N个用户,按影响力从大到小分别排序,计算两个排序结果之间的spearman秩相关系数,值越大说明两个排序结果越接近。为避免因选取的排序靠前的用户数的多少不同对实验结果带来的偏差,在10-2000之间取了9种值,分别计算9种N值下各方法得到的spearman秩相关系数,各方法的实验结果对比情况如图4~6所示。
表1本发明给出的方法与五种对比方法
从图4和5可以看出,现有的两种微博社会影响力分析方法,即方法3和方法4,比分别与二者具有相同思想而仅在具有传播性微博上分析的对应方法,即方法5和方法6,得到的秩相关系数在绝大多数区间上都要明显更低,说明仅在具有传播性的微博上分析用户的社会影响力结果更准确。从图6中可以看出,在基于传播性的微博上分析用户社会影响力的四种方法中,方法1得到的spearman秩相关系数在大多数区间上高于其他三种方法,尤其是当N在小于1000的区间上优势明显,说明本发明提出的方法用于分析社会影响力高的用户时具有明显的优越性;而对于社会影响力排序超过1000的用户,由于其社会影响力差别本身不大,所以各方法得到的结果差异不明显,导致在N大于1000的区间上各方法的相关系数趋同。
从图6中还可以看出,基于传播规模期望的两种方法,即方法1和方法6,得到的秩相关系数明显高于基于平均转发次数的方法,即方法2,说明基于传播规模期望来预测用户的社会影响力,比基于历史微博的平均传播规模预测的结果更准确。并且,从基于微博传播规模期望来预测用户社会影响力的两种方法对比来看,方法1得到的秩相关系数在全部区间高于方法6,说明在计算微博传播规模期望时添加用户兴趣相似度因素,得到的结果更准确。
对于转发概率计算中的函数F,选择三种不同的形式,如下表2转发概率计算模型中函数F的不同形式所示:
表2
对于转发概率计算中的待定参数k1、k2、k3,由于新浪微博的限制,无法获取到粉丝点赞的详细数据,因此只考虑转发比例和评论比例,故设置k3=0,而k1和k2的设置按以下三种组合方式,如表3所示:
表3
参数设置 | k1+k2=1 |
1 | k1=0 |
2 | k1=0.2 |
3 | k1=0.4 |
4 | k1=0.6 |
5 | k1=0.8 |
6 | k1=1 |
通过对表2中3种较为合理的函数形式和表3中6组参数组合方式的排列组合,可得到模型的18种设置。基于训练数据集前2/3的微博数据,利用模型的每种设置计算出社会影响力最大的Top50用户,并按社会影响力大小的降序对50个用户进行排序,再基于微博的平均被转发数得到训练集后1/3的Top50用户的降序排序,计算两组排序的Spearman相关系数。18种模型设置的实验结果如图7所示,可以看出,当F=SimInterestuv*Carenessu→v且k1=0.4、k2=0.6时,实验效果最优,因此最终选择此组函数形式和参数大小作为转发概率的计算公式。
从以上的仿真数据进一步验证,本发明从微博数据中筛选出具有传播性的微博,通过粉丝和用户的交互历史分析粉丝对用户的关注度,并基于两者的微博主题分布计算两者之间的兴趣相似度,结合以上两个重要影响因素计算粉丝对用户微博的转发概率,在此基础上预测用户的微博传播规模期望,可以更准确地度量用户的社会影响力。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施方式仅限于此,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单的推演或替换,都应当视为属于本发明由所提交的权利要求书确定专利保护范围。对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (9)
1.一种基于微博传播规模预测的用户社会影响力分析方法,其特征在于,包含:
A)筛选具有传播性的微博数据;
B)构建微博传播树,分析粉丝对用户的关注度及两者的兴趣相似度;
C)结合关注度及兴趣相似度,计算粉丝对用户微博转发概率;
D)通过转发概率预测用户微博传播规模期望,确定用户社会影响力。
2.根据权利要求1所述的基于微博传播规模预测的用户社会影响力分析方法,其特征在于,A)中,通过预设微博传播深度值,将微博数据中转发层数低于预设微博传播深度值的数据进行过滤,筛选出具有传播性的微博数据。
3.根据权利要求1所述的基于微博传播规模预测的用户社会影响力分析方法,其特征在于,B)中,包含如下内容:
B1)、对于筛选后得到的微博数据中任意一个用户u,建立该用户u的微博传播树,微博传播树中,微博用户为节点,关注关系为边;
B2)、通过LDA模型分析用户u与粉丝的微博文本,得到两者的话题向量及话题向量的相似度,计算用户u与粉丝的兴趣相似度;
B3)、基于用户u发布的历史微博数据,统计粉丝对用户u历史微博数据中具有传播性的微博数据的转发、评论、点赞和阅读四种行为的频繁度,度量该粉丝对用于u的关注度。
4.根据权利要求3所述的基于微博传播规模预测的用户社会影响力分析方法,其特征在于,B1)中建立用户u的微博传播树,包含如下内容:
B11)、选取用户u作为根,将用户u的粉丝归入传播树,并建立用户u到所有关注用户u的粉丝的边;
B12)、将用户u第二层粉丝归入传播树,并建立第一层粉丝指向其第二层粉丝的边;
B13)、重复步骤B12),直至满足预设迭代条件,用户u微博传播树构建结束。
5.根据权利要求4所述的基于微博传播规模预测的用户社会影响力分析方法,其特征在于,B13)中,预设迭代条件为没有多余用户能够加入传播树,或为传播树构建深度达到预设值。
6.根据权利要求3所述的基于微博传播规模预测的用户社会影响力分析方法,其特征在于,B2)中,计算用户u与粉丝的兴趣相似度,内容如下:将用户u和粉丝v的微博文本通过LDA模型,浓缩成两个文档-话题分布向量(θu 1,θu 2,...,θu k)和(θv 1,θv 2,...,θv k),其中,θ1,θ2,...,θk为文档-话题分布向量中的每个元素,该元素表示文档在每个话题中的概率分布,k表示设定的话题数目,兴趣相似度计算公式如下:
7.根据权利要求3所述的基于微博传播规模预测的用户社会影响力分析方法,其特征在于,B3)中,忽略阅读行为的频繁度,度量该粉丝对用于u的关注度,计算公式如下:
Carenessv→u=k1*commentratev→u+k2*Repostratev→u+k3*thumbratev→u,
其中,Repostratev→u、commentratev→u和thumbratev→u分别表示粉丝v对用户u的具有传播性的微博的转发率、评论率和点赞率,k1、k2和k3都是待定参数,且k1+k2+k3=1。
8.根据权利要求1所述的基于微博传播规模预测的用户社会影响力分析方法,其特征在于,C)中,粉丝对用户微博转发概率,计算公式如下:
Probabilityv→u=F(SimInterestuv,Carenessv→u),
其中,Probabilityv→u表示粉丝v对用户u的一篇微博的转发概率,SimInterestuv表示粉丝v和用户u之间的兴趣相似度,Carenessv→u表示粉丝v对用户u的关注度。
9.根据权利要求8所述的基于微博传播规模预测的用户社会影响力分析方法,其特征在于,D)中预测用户微博传播规模期望,即是指:微博传播树中的直接粉丝的微博传播规模期望的加权和,权值为粉丝v对用户u的微博的转发概率,用户u微博转发次数期望的计算公式如下:
得到用户u的微博传播树中每个叶子节点的传播规模期望和每个子节点对父节点的微博的转发概率之后,从下至上迭代计算出微博传播树中每个节点所触发的用户u的微博的传播规模期望,最终计算出用户u的微博传播规模期望。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810086726.XA CN108363752B (zh) | 2018-01-30 | 2018-01-30 | 基于微博传播规模预测的用户社会影响力分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810086726.XA CN108363752B (zh) | 2018-01-30 | 2018-01-30 | 基于微博传播规模预测的用户社会影响力分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108363752A true CN108363752A (zh) | 2018-08-03 |
CN108363752B CN108363752B (zh) | 2021-01-05 |
Family
ID=63007552
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810086726.XA Active CN108363752B (zh) | 2018-01-30 | 2018-01-30 | 基于微博传播规模预测的用户社会影响力分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108363752B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109145090A (zh) * | 2018-08-31 | 2019-01-04 | 东北大学 | 一种基于深度学习的微博用户情感影响力分析方法 |
CN109325171A (zh) * | 2018-08-08 | 2019-02-12 | 微梦创科网络科技(中国)有限公司 | 基于领域知识的用户兴趣分析方法及系统 |
CN109558540A (zh) * | 2018-11-30 | 2019-04-02 | 咪咕文化科技有限公司 | 一种确定用户影响力的方法及装置、设备、存储介质 |
CN115083560A (zh) * | 2022-05-31 | 2022-09-20 | 数魔方(北京)医药科技有限公司 | 药品销售数据处理方法、装置和电子设备 |
CN115101160A (zh) * | 2022-05-31 | 2022-09-23 | 数魔方(北京)医药科技有限公司 | 药品销售数据挖掘和检索方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104537096A (zh) * | 2015-01-09 | 2015-04-22 | 哈尔滨工程大学 | 一种基于微博消息传播树的微博消息影响力度量方法 |
US9367879B2 (en) * | 2012-09-28 | 2016-06-14 | Microsoft Corporation | Determining influence in a network |
CN106157155A (zh) * | 2016-07-27 | 2016-11-23 | 北京大学 | 基于地图隐喻的社交媒体信息传播可视化分析方法及系统 |
US9672255B2 (en) * | 2013-01-02 | 2017-06-06 | Microsoft Technology Licensing, Llc | Social media impact assessment |
CN106991617A (zh) * | 2017-03-30 | 2017-07-28 | 武汉大学 | 一种基于信息传播的微博社交关系提取算法 |
CN107341571A (zh) * | 2017-06-27 | 2017-11-10 | 华中科技大学 | 一种基于量化社会影响力的社交网络用户行为预测方法 |
-
2018
- 2018-01-30 CN CN201810086726.XA patent/CN108363752B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9367879B2 (en) * | 2012-09-28 | 2016-06-14 | Microsoft Corporation | Determining influence in a network |
US9672255B2 (en) * | 2013-01-02 | 2017-06-06 | Microsoft Technology Licensing, Llc | Social media impact assessment |
CN104537096A (zh) * | 2015-01-09 | 2015-04-22 | 哈尔滨工程大学 | 一种基于微博消息传播树的微博消息影响力度量方法 |
CN106157155A (zh) * | 2016-07-27 | 2016-11-23 | 北京大学 | 基于地图隐喻的社交媒体信息传播可视化分析方法及系统 |
CN106991617A (zh) * | 2017-03-30 | 2017-07-28 | 武汉大学 | 一种基于信息传播的微博社交关系提取算法 |
CN107341571A (zh) * | 2017-06-27 | 2017-11-10 | 华中科技大学 | 一种基于量化社会影响力的社交网络用户行为预测方法 |
Non-Patent Citations (4)
Title |
---|
BAKSHY E等: "Everyone"s an influencer:quantifying influence in twitter", 《ACM INTERNATIONAL CONFERENCE ON WEB SEARCH AND DATA MINING》 * |
刘玮等: "基于用户行为特征的微博转发预测研究", 《计算机学报》 * |
陈姝等: "基于理性行为理论的微博用户转发行为", 《情报杂志》 * |
陈鹏飞: "基于影响力和兴趣特征的微博转发预测实现方法", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109325171A (zh) * | 2018-08-08 | 2019-02-12 | 微梦创科网络科技(中国)有限公司 | 基于领域知识的用户兴趣分析方法及系统 |
CN109145090A (zh) * | 2018-08-31 | 2019-01-04 | 东北大学 | 一种基于深度学习的微博用户情感影响力分析方法 |
CN109145090B (zh) * | 2018-08-31 | 2021-04-30 | 东北大学 | 一种基于深度学习的微博用户情感影响力分析方法 |
CN109558540A (zh) * | 2018-11-30 | 2019-04-02 | 咪咕文化科技有限公司 | 一种确定用户影响力的方法及装置、设备、存储介质 |
CN115083560A (zh) * | 2022-05-31 | 2022-09-20 | 数魔方(北京)医药科技有限公司 | 药品销售数据处理方法、装置和电子设备 |
CN115101160A (zh) * | 2022-05-31 | 2022-09-23 | 数魔方(北京)医药科技有限公司 | 药品销售数据挖掘和检索方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108363752B (zh) | 2021-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108363752A (zh) | 基于微博传播规模预测的用户社会影响力分析方法 | |
Bornmann et al. | BRICS countries and scientific excellence: A bibliometric analysis of most frequently cited papers | |
CN104899267B (zh) | 一种社交网站账号相似度的综合数据挖掘方法 | |
CN103886105B (zh) | 一种基于社交网络用户行为的用户影响力分析方法 | |
CN103678618B (zh) | 一种基于社交网络平台的Web服务推荐方法 | |
CN109166017A (zh) | 基于重聚类的推送方法、装置、计算机设备及存储介质 | |
CN107341571B (zh) | 一种基于量化社会影响力的社交网络用户行为预测方法 | |
CN107330477A (zh) | 一种针对非均衡数据分类的改进smote再抽样方法 | |
CN105095433A (zh) | 实体推荐方法及装置 | |
CN105849764A (zh) | 用于识别社交数据网络中的影响者及其社区的系统和方法 | |
Zhao et al. | How much novelty is relevant? it depends on your curiosity | |
CN105069122B (zh) | 一种基于用户行为的个性化推荐方法及其推荐装置 | |
CN104462383A (zh) | 一种基于用户多种行为反馈的电影推荐方法 | |
CN105389713A (zh) | 基于用户历史数据的移动流量套餐推荐算法 | |
CN107562947A (zh) | 一种移动时空感知下动态即时推荐服务模型建立方法 | |
CN103617289A (zh) | 基于用户特征及网络关系的微博推荐方法 | |
CN106548375A (zh) | 用于构建产品画像的方法和装置 | |
CN104462592A (zh) | 基于不确定语义的社交网用户行为关系推演系统及方法 | |
CN108280121B (zh) | 一种基于k-核分解获取社交网络意见领袖的方法 | |
CN106980646A (zh) | 基于流行度对用户兴趣的影响机制分析及其在推荐算法中应用的方法 | |
CN103136331A (zh) | 微博网络意见领袖识别方法 | |
CN105095476A (zh) | 基于Jaccard均衡距离的协同过滤推荐方法 | |
US20140229510A1 (en) | Method of temporal bipartite projection | |
CN104317881B (zh) | 一种基于用户话题权威性的微博重排序方法 | |
CN106227866A (zh) | 一种基于数据挖掘的混合过滤电影推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |