CN106777162A - 一种高精度微博转发预测方法 - Google Patents
一种高精度微博转发预测方法 Download PDFInfo
- Publication number
- CN106777162A CN106777162A CN201611185662.6A CN201611185662A CN106777162A CN 106777162 A CN106777162 A CN 106777162A CN 201611185662 A CN201611185662 A CN 201611185662A CN 106777162 A CN106777162 A CN 106777162A
- Authority
- CN
- China
- Prior art keywords
- microblogging
- follower
- weight
- forwarding
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 101100481876 Danio rerio pbk gene Proteins 0.000 claims description 7
- 101100481878 Mus musculus Pbk gene Proteins 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000007418 data mining Methods 0.000 abstract description 2
- 238000009412 basement excavation Methods 0.000 abstract 1
- 238000012546 transfer Methods 0.000 description 19
- 238000012549 training Methods 0.000 description 8
- 230000006854 communication Effects 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000005295 random walk Methods 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000013277 forecasting method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Software Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种高精度微博转发预测方法,属于微博预测和数据挖掘技术领域,它主要包括以下步骤:对相应的微博用户关系进行深度挖掘后建立微博用户关系网络;然后根据微博用户关系计算每个用户的权重,接着对待测微博进行微博转发预测。本发明利用带有权重的有向关系网络来刻画不同微博用户的转发可能性,通过建立转发关系有向图网络,计算相应的转发总数和关注者所占转发总数的比例,并给予相应的权重来刻画不同的转发概率,从而进行转发微博的预测,提高了预测精度,尤其是对于两层转发关系的微博转发网络,使预测精度得到了显著提高。
Description
技术领域
本发明涉及微博预测和数据挖掘领域,具体是一种高精度微博转发预测方法。
背景技术
微博是一种基于用户关系的实时信息交流、分享、传播的社交平台,与Facebook、Twitter等社交网络一样影响了人类的生活交流方式。在微博平台上,随着用户数量以亿万级为单位数量的增加,大量的图片、文本等海量信息的背后反映的是人们的生活想法、知识和有趣的事情。微博的出现除了产生有益影响,也带来了很多问题,例如不良言论的无约束传播等严重破坏了社会生活风气。所以,对微博用户的活动状态进行预测,对于政府、企事业单位、个人都有重要的意义。
在现有的微博转发预测解决方案中,公开号为CN105550275A的中国专利公开了一种微博转发量预测方法,用于解决现有技术中对微博转发量预测的方法准确性较低的问题,该方法包括:获取训练微博数据和待预测微博数据;根据训练微博的转发量,将训练微博划分为对应的类别;提取训练微博特征,包括转发网络特征、内容特征和时序特征;建立所述微博特征和转发量类别之间的多分类模型;提取待预测微博特征,根据所述的待预测微博特征,基于多分类模型,预测待预测微博的转发量类别。本发明在微博内容特征和时序特征的基础上,加入多种转发网络特征,综合利用三类特征来预测转发量,提高了预测的准确性。该发明通过训练微博数据并提取特征、建立模型的方法在一定程度上提高了微博转发预测的准确度,但是对于多级层的微博转发关系网,无法做到精确预测其中的级层转发情况,而且运算成本较高。
公开号为CN103984701A的中国专利公开了一种微博转发量预测模型生成方法及微博转发量预测方法。微博转发量预测模型生成方法包括:获取训练数据,训练数据包括多条已知转发量的微博;以微博的转发量为依据,将微博分为3个以上转发量类别;提取每条微博的基本特征;建立基本特征与转发量类别之间的多分类模型;针对每一个转发量类别,建立基本特征与微博转发量之间的回归模型。微博转发量预测方法包括:提取待预测微博的基本特征;根据多分类模型及基本特征,判定待预测微博所属的转发量类别;获取转发量类别对应的回归模型;根据回归模型及基本特征,预测待预测微博的转发量。采用本发明的提供的方法特征提取简单且适合在大规模数据中使用。该专利与本发明采用的方法不同,且解决的问题不同。
公开号为CN104915397A的中国专利公开了一种微博传播趋势预测方法及装置,用于解决现有技术中对微博传播趋势预测的方法准确性较低的问题,该方法包括:获取待预测微博的基本属性特征以及传播过程特征;计算待预测微博与训练数据的基本属性特征、传播过程特征的相似度,并对待预测微博数据进行分类,得到待预测微博所属的传播过程类别,传播过程类别由训练数据的传播过程特征相似度聚类得到;为分类后的待预测微博选择对应的回归模型,对待预测微博的传播趋势进行预测,回归模型为预先根据各类训练数据建立的回归模型,该方案提高了微博传播趋势预测的准确性。该专利与本发明采用的方法不同。
在现有的微博预测解决方案中,一般的随机游走计算对于每个网络节点的选择权重都是一样的,而带权随机游走具备一定的偏向性。例如:如果一个人转发该用户的微博频率较高那么他下一次转发的可能性就更大,反之,则不是。所以,对于多种级层关系的微博转发关系网络,假设微博用户A发表了10篇微博,微博用户B转发了8篇,微博用户C转发了2篇。初始化节点权重:A=B=C=1/3,A的节点权重会以1:1的形式分给B,C,那么,如果A发布了一篇微博,将无法精确预测下一个转发者,因为概率都一样。
综上所述,现有的微博预测方法存在精度低且运算成本高的问题。
发明内容
本发明的目的在于克服现有技术的不足,提供一种高精度预测微博转发概率的方法,以至少实现提高预测精度、降低运算成本的效果。
本发明的目的是通过以下技术方案来实现的:一种高精度微博转发预测方法,它包括以下步骤:
S1:根据微博用户的转发关系建立有向图网络;
S2:统计待测微博用户发布的微博被转发的总数N,以及待测微博用户对应的各个关注者转发的数量n1,n2,n3…ni,计算对应的每条有向边的初始权重为
S3:统计有向网络中节点个数M,并给予每个节点1/M的权重;
S4:更新每个节点的权重,首先以发布微博的用户为节点,把当前节点的权重根据相应有向边的权重分配到直接关注该微博的节点上;
S6:重复执行S4步骤,直到每个节点的权重收敛;
S5:完成发布微博的用户和第一批关注者的节点权重更新以后,依次更新剩下的各批关注者的节点的权重;
S7:获取待测微博的第一批关注者的权重w1,w2,…wn;
S8:根据需要设定权重阈值Q1,判断第一批关注者的权重w1,w2,…wn是否超过阈值Q1,如果超过,则保留;如果没有超过,则去除;如果都不超过,则去掉topK个权重值后作为下一个阶段的传播预测;
S9:重复步骤S8,根据需要设定一个关注者个数阈值Q2,直到关注者的权重都小于Q1且关注者的个数都小于Q2时,停止预测。
所述的步骤S6能够根据实际需求设置迭代次数直到满足实际情况需要或者通过设定一个节点变化率阈值Q3,如果每个节点的变化率都小于Q3,则停止迭代,进行该阶段的预测。
所述步骤S3中的网络节点个数M为涉及到转发微博的关注者个数。
所述步骤S4中,根据关注者转发的微博数占被关注者发布的被转发的微博总数的比例进行分配权重。
所述的第一批关注者为直接关注首先发布微博的用户的关注者,第二批关注者为通过关注第一批关注者关注到了该转发微博,第三批关注者为通过关注第二批关注者关注到了该转发微博,依次类推,第K批关注者为通过第K-1批关注者关注到了该转发微博。
所述的步骤S7中,第一批关注者的权重为w1,w2,…wn均为均分权重1/M。
所述的预测涉及关注者和被关注者两个级层,每一个级层预测一次。
所述的topK为按照从大到小排序的前K个项。
本发明的有益效果是:本发明通过建立微博用户的转发关系有向图网络,然后计算待测微博用户的微博转发总数,利用权重关系来刻画不同情况下的转发概率,从而建立起基于权重关系的微博转发预测向量关系模型,然后对微博转发的次数、规模进行计算预测;通过设定程序迭代阈值,降低了运算成本;本发明尤其是对于两个级层的微博转发关系进行预测,显著提高了预测精度,将本发明运用到微博转发规模的预测系统中,可以提高预测效率,降低程序运算成本。
附图说明
图1为本发明的执行步骤流程图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
一种高精度微博转发预测方法,它包括以下步骤:
S1:根据微博用户的转发关系建立有向图网络;如果A关注了B,那么就有一条从B出发指向A的有向边;如果A同时关注了B,C,那么就存在两条分别从B,C出发的边,共同指向A。
S2:统计待测微博用户发布的微博被转发的总数N,以及待测微博用户对应的各个关注者转发的数量n1,n2,n3…ni,计算对应的每条有向边的初始权重为
S3:统计有向网络中节点个数M,并给予每个节点1/M的权重。
S4:更新每个节点的权重,首先以发布微博的用户为节点,把当前节点的权重根据相应有向边的权重分配到直接关注该微博的节点上;这一过程只涉及发布微博的用户和关注该微博的第一批关注者。
S6:重复执行S4步骤,直到每个节点的权重收敛。
S5:完成发布微博的用户和第一批关注者的节点权重更新以后,依次更新剩下的各批关注者的节点的权重。
S7:获取待测微博的第一批关注者的权重w1,w2,…wn。
S8:根据需要设定权重阈值Q1,判断第一批关注者的权重w1,w2,…wn是否超过阈值Q1,如果超过,则保留;如果没有超过,则去除;如果都不超过,则去掉topK个权重值后作为下一个阶段的传播预测。
S9:重复步骤S8,根据需要设定一个关注者个数阈值Q2,直到关注者的权重都小于Q1且关注者的个数都小于Q2时,停止预测。
所述的步骤S6能够根据实际需求设置迭代次数直到满足实际情况需要或者通过设定一个节点变化率阈值Q3,如果每个节点的变化率都小于Q3,则停止迭代,进行该阶段的预测。
所述步骤S3中的网络节点个数M为涉及到转发微博的关注者个数。
所述步骤S4中,根据关注者转发的微博数占被关注者发布的被转发的微博总数的比例进行分配权重。假设A发表了10篇微博,B转发了8篇,C转发了2篇。而A到B的边权重就是0.8,A到C的边权重就是0.2。分配权重的过程中,A的节点权重会以4:1的形式分给B,C,那么,如果A发布了一篇微博,我们可以预测下一个转发者为B的概率更大。
所述的第一批关注者为直接关注首先发布微博的用户的关注者,第二批关注者为通过关注第一批关注者关注到了该转发微博,第三批关注者为通过关注第二批关注者关注到了该转发微博,依次类推,第K批关注者为通过第K-1批关注者关注到了该转发微博。
所述的步骤S7中,第一批关注者的权重为w1,w2,…wn均为均分权重1/M。
所述的预测涉及关注者和被关注者两个级层,每一个级层预测一次。
所述的topK为按照从大到小排序的前K个项。
所述的步骤S7中,第一批关注者的权重为w1,w2,…wn均为均分权重1/M。
所述的预测每一次预测涉及关注者和被关注者两个级层,每一个级层预测一次。
所述的topK为按照从大到小排序的前K个项。
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (8)
1.一种高精度微博转发预测方法,其特征在于,它包括以下步骤:
S1:根据微博用户的转发关系建立有向图网络;
S2:统计待测微博用户发布的微博被转发的总数N,以及待测微博用户对应的各个关注者转发的数量n1,n2,n3…ni,计算对应的每条有向边的初始权重为
S3:统计有向网络中节点个数M,并给予每个节点1/M的权重;
S4:更新每个节点的权重,首先以发布微博的用户为节点,把当前节点的权重根据相应有向边的权重分配到直接关注该微博的节点上;
S5:重复执行S4步骤,直到每个节点的权重收敛;
S6:完成发布微博的用户和第一批关注者的节点权重更新以后,依次更新剩下的各批关注者的节点的权重;
S7:获取待测微博的第一批关注者的权重w1,w2,…wn;
S8:根据需要设定权重阈值Q1,判断第一批关注者的权重w1,w2,…wn是否超过阈值Q1,如果超过,则保留;如果没有超过,则去除;如果都不超过,则去掉topK个权重值后作为下一个阶段的传播预测;
S9:重复步骤S8,根据需要设定一个关注者个数阈值Q2,直到关注者的权重都小于Q1且关注者的个数都小于Q2时,停止预测。
2.根据权利要求1所述的一种高精度微博转发预测方法,其特征在于:所述的步骤S6能够设置迭代次数直到满足实际情况需要或者通过设定一个节点变化率阈值Q3,如果每个节点的变化率都小于Q3,则停止迭代,然后进行该阶段的预测。
3.根据权利要求1所述的一种高精度微博转发预测方法,其特征在于:所述步骤S3中的网络节点个数M为涉及到转发微博的关注者个数。
4.根据权利要求1所述的一种高精度微博转发预测方法,其特征在于:所述步骤S4中,根据关注者转发的微博数占被关注者发布的被转发的微博总数的比例进行分配权重。
5.根据权利要求1所述的一种高精度微博转发预测方法,其特征在于:所述的第一批关注者为直接关注首先发布微博的用户的关注者,第二批关注者为通过关注第一批关注者关注到了该转发微博,第三批关注者为通过关注第二批关注者关注到了该转发微博,依次类推,第K批关注者为通过第K-1批关注者关注到了该转发微博。
6.根据权利要求1所述的一种高精度微博转发预测方法,其特征在于:所述的步骤S7中,第一批关注者的权重为w1,w2,…wn均为均分权重1/M。
7.根据权利要求7所述的一种高精度微博转发预测方法,其特征在于:所述的预测涉及关注者和被关注者两个级层,每一个级层预测一次。
8.根据权利要求7所述的一种高精度微博转发预测方法,其特征在于:所述的topK为按照从大到小排序的前K个项。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611185662.6A CN106777162A (zh) | 2016-12-20 | 2016-12-20 | 一种高精度微博转发预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611185662.6A CN106777162A (zh) | 2016-12-20 | 2016-12-20 | 一种高精度微博转发预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106777162A true CN106777162A (zh) | 2017-05-31 |
Family
ID=58895957
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611185662.6A Pending CN106777162A (zh) | 2016-12-20 | 2016-12-20 | 一种高精度微博转发预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106777162A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107609717A (zh) * | 2017-10-12 | 2018-01-19 | 南京航空航天大学 | 社交网络中一种基于Kalman滤波器的帖子转发量预测方法 |
CN107908645A (zh) * | 2017-10-09 | 2018-04-13 | 北京航空航天大学 | 一种基于渗流分析的在线社交平台谣言传播的免疫方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103412872A (zh) * | 2013-07-08 | 2013-11-27 | 西安交通大学 | 一种基于有限节点驱动的微博社会网络信息推荐方法 |
CN104915392A (zh) * | 2015-05-26 | 2015-09-16 | 国家计算机网络与信息安全管理中心 | 一种微博转发行为预测方法及装置 |
CN105550275A (zh) * | 2015-12-09 | 2016-05-04 | 中国科学院重庆绿色智能技术研究院 | 一种微博转发量预测方法 |
-
2016
- 2016-12-20 CN CN201611185662.6A patent/CN106777162A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103412872A (zh) * | 2013-07-08 | 2013-11-27 | 西安交通大学 | 一种基于有限节点驱动的微博社会网络信息推荐方法 |
CN104915392A (zh) * | 2015-05-26 | 2015-09-16 | 国家计算机网络与信息安全管理中心 | 一种微博转发行为预测方法及装置 |
CN105550275A (zh) * | 2015-12-09 | 2016-05-04 | 中国科学院重庆绿色智能技术研究院 | 一种微博转发量预测方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107908645A (zh) * | 2017-10-09 | 2018-04-13 | 北京航空航天大学 | 一种基于渗流分析的在线社交平台谣言传播的免疫方法 |
CN107908645B (zh) * | 2017-10-09 | 2021-09-28 | 北京航空航天大学 | 一种基于渗流分析的在线社交平台谣言传播的免疫方法 |
CN107609717A (zh) * | 2017-10-12 | 2018-01-19 | 南京航空航天大学 | 社交网络中一种基于Kalman滤波器的帖子转发量预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Understanding the power of opinion leaders’ influence on the diffusion process of popular mobile games: Travel Frog on Sina Weibo | |
CN103150374B (zh) | 一种识别微博异常用户的方法和系统 | |
CN104915392B (zh) | 一种微博转发行为预测方法及装置 | |
CN103678613B (zh) | 一种计算影响力数据的方法与装置 | |
Kapoor et al. | Weather forecasting using sliding window algorithm | |
CN103500175B (zh) | 一种基于情感分析在线检测微博热点事件的方法 | |
CN106372072A (zh) | 一种基于位置的移动社会网络用户关系的识别方法 | |
CN104915397A (zh) | 一种微博传播趋势预测方法及装置 | |
CN105550275B (zh) | 一种微博转发量预测方法 | |
CN105389505A (zh) | 基于栈式稀疏自编码器的托攻击检测方法 | |
CN107870957A (zh) | 一种基于信息增益和bp神经网络的热门微博预测方法 | |
CN103150333A (zh) | 微博媒体中的意见领袖识别方法 | |
CN103116611A (zh) | 社交网络意见领袖识别方法 | |
CN112199608A (zh) | 基于网络信息传播图建模的社交媒体谣言检测方法 | |
CN103823890A (zh) | 一种针对特定群体的微博热点话题检测方法及装置 | |
CN104537096A (zh) | 一种基于微博消息传播树的微博消息影响力度量方法 | |
CN105096614A (zh) | 基于生成型深信度网络的新建路口交通流量预测方法 | |
CN104182457A (zh) | 在社交网络中基于泊松过程模型的事件流行度预测方法 | |
CN106156257A (zh) | 一种微博舆情事件的态势预测方法 | |
Gowda et al. | Comparison of back propagation neural network and genetic algorithm neural network for stream flow prediction | |
CN106570763A (zh) | 用户影响力评估的方法及系统 | |
CN105678590A (zh) | 一种面向社交网络基于云模型的topN推荐方法 | |
CN104166726A (zh) | 一种面向微博文本流的突发关键词检测方法 | |
CN103795592B (zh) | 网络水军的检测方法及装置 | |
Liu et al. | A two-phase model for retweet number prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170531 |
|
RJ01 | Rejection of invention patent application after publication |