CN105550275B - 一种微博转发量预测方法 - Google Patents
一种微博转发量预测方法 Download PDFInfo
- Publication number
- CN105550275B CN105550275B CN201510909377.3A CN201510909377A CN105550275B CN 105550275 B CN105550275 B CN 105550275B CN 201510909377 A CN201510909377 A CN 201510909377A CN 105550275 B CN105550275 B CN 105550275B
- Authority
- CN
- China
- Prior art keywords
- microblogging
- network
- user
- transfer amount
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012546 transfer Methods 0.000 title claims abstract description 101
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000012549 training Methods 0.000 claims abstract description 32
- 239000000284 extract Substances 0.000 claims abstract description 13
- 230000002123 temporal effect Effects 0.000 claims abstract description 12
- 238000012512 characterization method Methods 0.000 claims abstract description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 27
- 235000010627 Phaseolus vulgaris Nutrition 0.000 claims description 11
- 244000046052 Phaseolus vulgaris Species 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000001419 dependent effect Effects 0.000 claims description 5
- 238000013016 damping Methods 0.000 claims description 3
- 230000006854 communication Effects 0.000 description 7
- 238000000605 extraction Methods 0.000 description 2
- 239000004744 fabric Substances 0.000 description 2
- 239000000843 powder Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000013277 forecasting method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Abstract
本发明提供一种微博转发量预测方法,用于解决现有技术中对微博转发量预测的方法准确性较低的问题,该方法包括:获取训练微博数据和待预测微博数据;根据训练微博的转发量,将训练微博划分为对应的类别;提取训练微博特征,包括转发网络特征、内容特征和时序特征;建立所述微博特征和转发量类别之间的多分类模型;提取待预测微博特征,根据所述的待预测微博特征,基于多分类模型,预测待预测微博的转发量类别。本发明在微博内容特征和时序特征的基础上,加入多种转发网络特征,综合利用三类特征来预测转发量,提高了预测的准确性。
Description
技术领域
本发明属于数据挖掘中的流行趋势预测技术领域,特别涉及一种微博转发量预测方法。
背景技术
微博是一种通过关注机制分享简短实时信息的广播式的社交网络平台。当一个微博用户发布一条信息后,该信息会被推送给该用户的所有粉丝,这些粉丝可以选择是否转发该信息,如果转发,该信息会进一步被推送给这些粉丝的粉丝。通过用户转发,信息可以在微博网络中迅速传播。
自2009年在国内发布以来,微博以其简单、便捷、即时等特点,迅速成为了人们日常生活中获取与分享信息的重要网络平台。截至2014年9月,微博日活跃用户已达到7660万人,月活跃用户达到1.67亿人。用户规模的迅速扩张,带来了发博量的爆发式增长。面对海量微博,及时准确地预测微博最终的转发量,对内容推荐、广告营销以及舆情监控等具有重要意义。
目前微博转发量预测方法主要有两类。一类是事先定义好特征集合(如发布者粉丝数,是否为认证用户,内容长度等),然后从训练数据中抽取微博的这些特征,用来训练回归模型或分类模型,最后对于待预测微博,同样抽取这些特征,将其输入到回归模型或分类模型中,得到待预测微博最终的转发量或转发量范围。微博的传播依赖于用户的转发,不同的微博传播过程对应着不同的转发网络,因此,转发网络特征对于预测微博转发量有着重要作用。然而此类方法多采用内容特征和时序特征,没有充分利用转发网络特征,预测准确性较低。另一类是根据事先定义好的特征集合,从历史微博中找到与待预测微博最相似的k条微博,利用这k条微博最终的转发量来计算待预测微博最终的转发量(如平均或用相似度作为权重的加权平均等)。这类方法的主要缺点在于需要对全部历史微博进行搜索,且在实际应用中,随着时间的推移,历史微博会越来越多,因此这类方法效率会越来越低。
背景技术1
申请号为201410157342.4的中国专利针对现有技术特征的提取较为复杂,无法在数据规模较大的情况下应用的问题,公开了一种微博转发量预测模型生成方法及微博转发量预测方法。其中微博转发量预测模型生成方法如图1所示,其步骤如下:获取训练数据,训练数据包括多条已知转发量的微博;以微博的转发量为依据,将微博分为3个以上转发量类别;提取每条微博的基本特征;建立基本特征与转发量类别之间的多分类模型;针对每一个转发量类别,建立基本特征与微博转发量之间的回归模型。微博转发量预测方法如图2所示,其步骤如下:提取待预测微博的基本特征;根据多分类模型及基本特征,判定待预测微博所属的转发量类别;获取转发量类别对应的回归模型;根据回归模型及基本特征,预测待预测微博的转发量。此专利提出的方法在提取微博的基本特征时,只考虑了微博内容特征和微博发布者特征。然而,很多内容特征和发布者特征相似的微博,其最终转发量也有较大差异。因此,仅依靠内容特征和微博发布者特征对微博转发量进行预测准确性较低。
背景技术2
申请号为201510284821.7的中国专利现有技术针对微博传播趋势预测的方法准确性较低的问题,公开了一种微博传播趋势预测方法及装置。该专利申请提出的预测微博转发量的方法如图3所示,其步骤如下:获取待预测微博的基本属性特征以及传播过程特征;计算待预测微博与训练数据的基本属性特征、传播过程特征的相似度,并对待预测微博数据进行分类,得到待预测微博所属的传播过程类别,传播过程类别由训练数据的传播过程特征相似度聚类得到;为分类后的待预测微博选择对应的回归模型,对待预测微博的传播趋势进行预测,回归模型为预先根据各类训练数据建立的回归模型。此专利申请的技术方案在提出的转发量预测方法在提取微博特征时,考虑了微博的基本特征和传播过程的数量特征。其中,基本特征多与微博内容相关,数量特征多与时序相关。然而,很多内容特征和时序特征相似的微博,其最终转发量也有较大差异。因此,仅依靠这两类特征对微博转发量进行预测准确性较低。
背景技术3
申请号为201110363961.5的中国专利现有技术针对缺乏有效的预测用户在信息传播中的行为以及微博群体响应的问题,公开了一种基于多元特征的微博信息传播行为预测方法及系统。该方法包括微博网络数据预处理步骤,获取网络数据,并对相关数据进行预处理;微博网络预测模型建立步骤,根据经预处理获得的数据,建立相应的预测模型;微博网络预测步骤,基于所述预测模型预测用户行为趋势。其中,微博网络数据预处理步骤包括计算每个原帖下,各用户的内容特征、网络特征及时间特征。网络特征共6个,原帖T作者的好友数特征f9,原帖T作者的追随者数特征f10,原帖T作者与用户u的共同好友数特征f11,T作者与用户u的共同追随者数特征f12,T作者与用户u的共同引用数特征f13,T作者与用户u的共同转帖数特征f14。此专利申请的技术方案给出了一种预测新话题下用户的传播行为的预测模型,但是不能解决预测微博累积转发量的问题。
发明内容
本发明的目的就是为了克服上述背景技术的不足,提供一种微博转发量预测方法,提高了微博转发量预测的准确性。
本发明所涉及的微博转发量预测方法,其步骤如下:
步骤1获取训练数据和待预测微博数据
根据微博用户id和他们之间的关注关系可以构造一个用户关注网络G,构造方法为:若用户A关注了用户B,则在G中构造一条由有向边AIB;将用户数据按比例划分为训练数据和待预测数据,训练数据包括多条已知发布后tr时刻转发量的原始微博以及其发布后到ti时刻之间的所有转发微博,将微博发布48小时后的转发量视为其最终转发量,利用其发布后前1小时内的转发信息预测其最终转发量,即将tr和ti分别设为48小时和1小时,预测集中的待预测微博包括原始微博以及其发布后到ti时刻之间的所有转发微博;
步骤2对训练集微博的转发量进行分类
根据转发量阈值Φ,将转发量划分为[0,Φ/2),[Φ/2,Φ),[Φ,2Φ),[2Φ,4Φ),[4Φ,+∞)五个范围;将训练微博在tr时刻的转发量按照其所属范围分为五个类别,转发量阈值Φ和划分范围可以根据实际应用另作选取;
步骤3对训练数据中的微博wi,提取微博特征,具体步骤如下:
1)构造转发网络针对训练数据中的微博wi,根据其发布后到ti时刻之间的转发微博和全局网络G构造转发网络RGi;构造方法为:提取原始微博和其转发微博的作者,构成用户集合U,对任意用户A,B∈U,若在G中存在一条由A指向B的有向边,则在RGi中构造一条由A指向B的有向边;
2)提取微博内容特征内容特征包括原始微博文本长度;原始微博是否包含链接,如果包含连接,其特征值为1,否则为0;原始微博是否包含图片;原始微博提及他人的数量;
3)提取微博时序特征时序特征包括原始微博转发量增量,即原始微博发布后到ti时刻之间每10分钟的转发量增量,该特征为多维向量;
4)提取微博转发网络特征,具体步骤如下:
(1)计算微博wi转发网络RGi中用户数;
(2)计算微博wi转发网络RGi中原作者ui的PageRank值
PageRank是一种迭代的排序算法,最初用于网页排序,后来也常用于网络节点的重要性排序,其计算方法如下:
对于微博网络,上式中的n表示网络中的用户数,d(0<d≤1)为阻尼因子,ui表示用户i,M(i)表示用户i的粉丝集合,L(j)表示用户j所关注的用户集合,PR(ui)表示用户i的PageRank值;初始时,给予每个用户一个随机的PageRank值(非0),经过不断的迭代计算,每个用户的PageRank值会趋于稳定,最终达到收敛状态;
(3)计算微博wi转发网络RGi中原作者ui的PageRank最大值
在全局网络G中用PageRank算法得到每个用户的PageRank值,然后计算转发网络RGi中所有用户的PageRank最大值;
(4)计算微博wi转发网络RGi中所有用户节点的PageRank平均值
在全局网络G中用PageRank算法得到每个用户的PageRank值,然后计算转发网络RGi中所有用户的PageRank平均值;
(5)计算微博wi转发网络RGi中原作者ui的KED值
首先在全局网络G中用KED算法计算每个用户的KED值,然后计算转发网络RGi中原作者ui的KED值。KED是一种衡量网络节点影响力的指标;对于节点i,其KED值的计算方式如下:
fi=kiEiDi
其中:
上式中,ki为节点i的度,在微博网络中,即为用户i的粉丝数,Γi为节点i的邻居节点集合,在微博网络中,即为用户i的粉丝集合;
(6)计算微博wi转发网络RGi中所有用户节点的KED最大值
在全局网络G中用KED算法计算每个用户的KED值,然后计算转发网络RGi中用户的KED最大值;
(7)计算微博wi转发网络RGi中所有用户节点的KED平均值
在全局网络G中用KED算法计算每个用户的KED值,然后计算转发网络RGi中用户的KED平均值。
(8)计算微博wi转发网络RGi中属于RichClub的用户比例
将全局网络G中粉丝数排名前10%的用户集合定义为RichClub,计算转发网络RGi中属于RichClub的用户的比例;
(9)计算微博wi转发网络RGi中所有用户节点的K-shell值分布
K-shell是一种划分网络节点重要性的算法,算法步骤为:先去除网络中度等于1的所有节点以及其连边,若剩下的节点里面,仍有度等于1的节点,则重复上述操作,直至所剩节点的度都大于1,把这些去除的节点的K-shell值记为1;然后依次去除度小于或等于k的节点及其连边(k为整数,k≥2),直到所有节点都有对应的K-shell值为止;
在全局网络G中,用K-shell算法得到每个用户的K-shell值,取其中最大的10个K-shell值,计算转发网络RGi中用户在这些K-shell值中的分布比例;该特征为10维向量;
步骤4建立多分类模型
在微博特征与转发量类别都已经确定后,选择一个预设分类模型如支持向量机模型,然后用已经确定了转发量类别的微博作为训练数据,对该模型进行训练,通过训练建立微博特征与转发量类别之间的多分类模型;
步骤5提取待预测微博的特征
提取待预测微博的特征的步骤与步骤3中的具体过程一致;
步骤6预测待预测微博的转发量类别
由于步骤4可以生成微博特征与转发量类别之间的多分类模型,因此,可以根据待预测微博的特征判断其转发量所属类别,例如,可以使用已生成的多分类模型,以待预测微博的特征为自变量求出对应的因变量,所述因变量即为待预测微博转发量所属类别。
本发明的微博转发量预测方法,基于不同的微博传播过程具有不同的转发网络的特点,充分挖掘了微博的转发网络特征,并将其与传统的内容特征和时序特征结合,提高了微博转发量预测的准确性。
附图说明
图1为背景技术1中微博转发量预测模型生成方法流程图;
图2为背景技术1中微博转发量预测方法流程图;
图3为背景技术2中微博转发量预测方法流程图;
图4为本发明的微博转发量预测方法流程图;
图5为本发明的提取微博特征的方法流程图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
实施例一
本实施例所涉及的微博转发量预测方法,其流程如图4所示,具体步骤如下:
步骤1,获取训练数据和待预测微博数据。
获取用户数据,构造用户关注网络。微博用户数据包括微博用户id和用户之间的关注关系。根据微博用户id和他们之间的关注关系可以构造一个用户关注网络G,构造方法为:若用户A关注了用户B,则在G中构造一条由有向边A→B。将用户数据按比例划分为训练数据和待预测数据。训练数据包括多条已知发布后tr时刻转发量的原始微博以及其发布后到ti时刻之间的所有转发微博,其中0<ti<tr。由于大多数微博在其发布48小时后就很少再被转发。因此,本发明将微博发布48小时后的转发量视为其最终转发量,利用其发布后前1小时内的转发信息预测其最终转发量,即将tr和ti分别设为48小时和1小时。tr和ti可以根据实际应用另作选取。预测集中的待预测微博包括原始微博以及其发布后到ti时刻之间的所有转发微博。
步骤2,对训练集微博的转发量进行分类。根据转发量阈值Φ,将转发量划分为[0,Φ/2),[Φ/2,Φ),[Φ,2Φ),[2Φ,4Φ),[4Φ,+∞)五个范围。将训练微博在tr时刻的转发量按照其所属范围分为五个类别。转发量阈值Φ和划分范围可以根据实际应用另作选取。
步骤3,对训练数据中的微博wi,提取微博特征,如图5所示,具体步骤如下:
步骤3.1,构造转发网络。针对训练数据中的微博wi,根据其发布后到ti时刻之间的转发微博和全局网络G构造转发网络RGi。构造方法为:提取原始微博和其转发微博的作者,构成用户集合U,对任意用户A,B∈U,若在G中存在一条由A指向B的有向边,则在RGi中构造一条由A指向B的有向边。
步骤3.2,提取微博内容特征。内容特征,包括原始微博文本长度;原始微博是否包含链接(如果包含连接,其特征值为1,否则为0);原始微博是否包含图片;原始微博提及他人的数量;
步骤3.3,提取微博时序特征。时序特征包括原始微博转发量增量,即原始微博发布后到ti时刻之间每10分钟的转发量增量。该特征为多维向量。
步骤3.4,提取微博转发网络特征,具体步骤如下:
步骤3.4.1,计算微博wi转发网络RGi中用户数。
步骤3.4.2,计算微博wi转发网络RGi中原作者ui的PageRank值。PageRank是一种迭代的排序算法,最初用于网页排序,后来也常用于网络节点的重要性排序,其计算方法如下:
对于微博网络,上式中的n表示网络中的用户数,d(0<d≤1)为阻尼因子,ui表示用户i,M(i)表示用户i的粉丝集合,L(j)表示用户j所关注的用户集合,PR(ui)表示用户i的PageRank值。初始时,给予每个用户一个随机的PageRank值(非0),经过不断的迭代计算,每个用户的PageRank值会趋于稳定,最终达到收敛状态。
步骤3.4.3,计算微博wi转发网络RGi中原作者ui的PageRank最大值。在全局网络G中用PageRank算法得到每个用户的PageRank值,然后计算转发网络RGi中所有用户的PageRank最大值。
步骤3.4.4,计算微博wi转发网络RGi中所有用户节点的PageRank平均值。在全局网络G中用PageRank算法得到每个用户的PageRank值,然后计算转发网络RGi中所有用户的PageRank平均值。
步骤3.4.5,计算微博wi转发网络RGi中原作者ui的KED值。首先在全局网络G中用KED算法计算每个用户的KED值,然后计算转发网络RGi中原作者ui的KED值。KED是一种衡量网络节点影响力的指标。对于节点i,其KED值的计算方式如下:
fi=kiEiDi
其中:
上式中,ki为节点i的度(在微博网络中,即为用户i的粉丝数),Γi为节点i的邻居节点集合(在微博网络中,即为用户i的粉丝集合)。
步骤3.4.6,计算微博wi转发网络RGi中所有用户节点的KED最大值。在全局网络G中用KED算法计算每个用户的KED值,然后计算转发网络RGi中用户的KED最大值。
步骤3.4.7,计算微博wi转发网络RGi中所有用户节点的KED平均值。在全局网络G中用KED算法计算每个用户的KED值,然后计算转发网络RGi中用户的KED平均值。
步骤3.4.8,计算微博wi转发网络RGi中属于RichClub的用户比例。将全局网络G中粉丝数排名前10%的用户集合定义为RichClub,计算转发网络RGi中属于RichClub的用户的比例。
步骤3.4.9,计算微博wi转发网络RGi中所有用户节点的K-shell值分布。K-shell是一种划分网络节点重要性的算法。算法步骤为:先去除网络中度等于1的所有节点以及其连边。若剩下的节点里面,仍有度等于1的节点,则重复上述操作,直至所剩节点的度都大于1,把这些去除的节点的K-shell值记为1。然后依次去除度小于或等于k的节点及其连边(k为整数,k≥2),直到所有节点都有对应的K-shell值为止。
在全局网络G中,用K-shell算法得到每个用户的K-shell值,取其中最大的10个K-shell值,计算转发网络RGi中用户在这些K-shell值中的分布比例。该特征为10维向量。
步骤4,建立多分类模型。在微博特征与转发量类别都已经确定后,选择一个预设分类模型如支持向量机模型,然后用已经确定了转发量类别的微博作为训练数据,对该模型进行训练,通过训练建立微博特征与转发量类别之间的多分类模型。预设分类模型有多种,例如随机森林模型和支持向量机模型等。
步骤5,提取待预测微博的特征。提取待预测微博的特征的步骤与步骤3中的具体过程一致。
步骤6,预测待预测微博的转发量类别。由于步骤4可以生成微博特征与转发量类别之间的多分类模型,因此,可以根据待预测微博的特征判断其转发量所属类别。例如,可以使用已生成的多分类模型,以待预测微博的特征为自变量求出对应的因变量,所述因变量即为待预测微博转发量所属类别。
以上所述的本发明实施方式,并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,包括采用其他转发量范围划分方法、采用其他多分类模型或者选取数值或阈值上的不同而完成本发明均应包含在本发明的保护范围之内。
Claims (2)
1.一种微博转发量预测方法,其特征是步骤如下:
步骤1 获取训练数据和待预测微博数据
根据微博用户id和他们之间的关注关系可以构造一个用户关注网络G,构造方法为:若用户A关注了用户B,则在G中构造一条有向边A->B;将用户数据按比例划分为训练数据和待预测数据,训练数据包括多条已知发布后tr时刻转发量的原始微博以及其发布后到ti时刻之间的所有转发微博,将微博发布48小时后的转发量视为其最终转发量,利用其发布后前1小时内的转发信息预测其最终转发量,即将tr和ti分别设为48小时和1小时,预测集中的待预测微博包括原始微博以及其发布后到ti时刻之间的所有转发微博;
步骤2 对训练集微博的转发量进行分类
根据转发量阈值Φ,将转发量划分为[0,Φ/2),[Φ/2,Φ),[Φ,2Φ),[2Φ,4Φ),[4Φ,+∞)五个范围;将训练微博在tr时刻的转发量按照其所属范围分为五个类别,转发量阈值Φ和划分范围可以根据实际应用另作选取;
步骤3 对训练数据中的微博wi,提取微博特征,具体步骤如下:
1)构造转发网络;针对训练数据中的微博wi,根据其发布后到ti时刻之间的转发微博和用户关注网络G构造转发网络RGi;构造方法为:提取原始微博和其转发微博的作者,构成用户集合U,对任意用户A,B∈U,若在G中存在一条由A指向B的有向边,则在RGi中构造一条由A指向B的有向边;
2)提取微博内容特征;内容特征包括原始微博文本长度;原始微博是否包含链接,如果包含连接,其特征值为1,否则为0;原始微博是否包含图片,包含图片,其特征为1,否则为0;原始微博提及他人的数量;
3)提取微博时序特征;时序特征包括原始微博转发量增量,即原始微博发布后到ti时刻之间每10分钟的转发量增量,该特征为多维向量;
4)提取微博转发网络特征,具体步骤如下:
(1)计算微博wi转发网络RGi中用户数;
(2)计算微博wi转发网络RGi中原作者ui的PageRank值
PageRank是一种迭代的排序算法,最初用于网页排序,后来也常用于网络节点的重要性排序,其计算方法如下:
对于微博网络,上式中的n表示网络中的用户数,d为阻尼因子,0<d≤1,ui表示原作者i,uj表示原作者j,M(i)表示原作者i的粉丝集合,L(j)表示原作者j所关注的用户集合,PR(ui)表示原作者i的PageRank值;初始时,给予每个用户一个随机的PageRank值,PageRank值非0,经过不断的迭代计算,每个用户的PageRank值会趋于稳定,最终达到收敛状态;
(3)计算微博wi转发网络RGi中原作者ui的PageRank最大值
在用户关注网络G中用PageRank算法得到每个用户的PageRank值,然后计算转发网络RGi中所有用户的PageRank最大值;
(4)计算微博wi转发网络RGi中所有用户节点的PageRank平均值
在用户关注网络G中用PageRank算法得到每个用户的PageRank值,然后计算转发网络RGi中所有用户的PageRank平均值;
(5)计算微博wi转发网络RGi中原作者ui的KED值
首先在用户关注网络G中用KED算法计算每个用户的KED值,然后计算转发网络RGi中原作者ui的KED值;KED是一种衡量网络节点影响力的指标;对于节点i,其KED值的计算方式如下:
fi=kiEiDi
其中:
上式中,ki为节点i的度,在微博网络中,即为原作者i的粉丝数;kj为节点j的度,在微博网络中,即为原作者j的粉丝数;kl为节点l的度,在微博网络中,即为原作者l的粉丝数;Γi为节点i的邻居节点集合,在微博网络中,即为原作者i的粉丝集合;Γl为节点l的邻居节点集合,在微博网络中,即为原作者l的粉丝集合;
(6)计算微博wi转发网络RGi中所有用户节点的KED最大值;
在用户关注网络G中用KED算法计算每个用户的KED值,然后计算转发网络RGi中用户的KED最大值;
(7)计算微博wi转发网络RGi中所有用户节点的KED平均值;
在用户关注网络G中用KED算法计算每个用户的KED值,然后计算转发网络RGi中用户的KED平均值;
(8)计算微博wi转发网络RGi中属于RichClub的用户比例;
将用户关注网络G中粉丝数排名前10%的用户集合定义为RichClub,计算转发网络RGi中属于RichClub的用户的比例;
(9)计算微博wi转发网络RGi中所有用户节点的K-shell值分布;
K-shell是一种划分网络节点重要性的算法,算法步骤为:先去除网络中度等于1的所有节点以及其连边,若剩下的节点里面,仍有度等于1的节点,则重复上述操作,直至所剩节点的度都大于1,把这些去除的节点的K-shell值记为1;然后依次去除度小于或等于k的节点及其连边,k为整数,k≥2,直到所有节点都有对应的K-shell值为止;
在用户关注网络G中,用K-shell算法得到每个用户的K-shell值,取其中最大的10个K-shell值,计算转发网络RGi中用户在这些K-shell值中的分布比例;该特征为10维向量;
步骤4 建立多分类模型
在微博特征与转发量类别都已经确定后,选择一个预设分类模型,然后用已经确定了转发量类别的微博作为训练数据,对该模型进行训练,通过训练建立微博特征与转发量类别之间的多分类模型;
步骤5 提取待预测微博的特征
提取待预测微博的特征的步骤与步骤3中的具体过程一致;
步骤6 预测待预测微博的转发量类别
由于步骤4可以生成微博特征与转发量类别之间的多分类模型,因此,可以根据待预测微博的特征判断其转发量所属类别,使用已生成的多分类模型,以待预测微博的特征为自变量求出对应的因变量,所述因变量即为待预测微博转发量所属类别。
2.根据权利要求1所述的一种微博转发量预测方法,其特征在于,所述步骤4建立多分类模型中预设分类模型选用支持向量机模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510909377.3A CN105550275B (zh) | 2015-12-09 | 2015-12-09 | 一种微博转发量预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510909377.3A CN105550275B (zh) | 2015-12-09 | 2015-12-09 | 一种微博转发量预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105550275A CN105550275A (zh) | 2016-05-04 |
CN105550275B true CN105550275B (zh) | 2019-02-26 |
Family
ID=55829464
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510909377.3A Expired - Fee Related CN105550275B (zh) | 2015-12-09 | 2015-12-09 | 一种微博转发量预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105550275B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106777162A (zh) * | 2016-12-20 | 2017-05-31 | 西南石油大学 | 一种高精度微博转发预测方法 |
CN106600071A (zh) * | 2016-12-20 | 2017-04-26 | 西南石油大学 | 一种基于主题的微博转发预测方法与系统 |
CN106897776A (zh) * | 2017-01-17 | 2017-06-27 | 华南理工大学 | 一种基于名义属性的连续型特征构造方法 |
CN106899433B (zh) * | 2017-01-18 | 2020-03-20 | 北京航空航天大学 | 网络链接预测方法及装置 |
CN106951471B (zh) * | 2017-03-06 | 2020-05-05 | 浙江工业大学 | 一种基于svm的标签发展趋势预测模型的构建方法 |
CN107392392A (zh) * | 2017-08-17 | 2017-11-24 | 中国科学技术大学苏州研究院 | 基于深度学习的微博转发预测方法 |
CN109063927B (zh) * | 2018-08-28 | 2021-12-07 | 成都信息工程大学 | 一种基于ts-lstm和dnn的微博转发量预测方法 |
CN110069689B (zh) * | 2019-03-21 | 2022-03-18 | 中国平安人寿保险股份有限公司 | 转发链接的统计方法、装置、计算机设备和存储介质 |
CN112862195B (zh) * | 2021-02-19 | 2023-06-20 | 金陵科技学院 | 基于sft-als的时间序列粉丝涨幅预测方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103984701A (zh) * | 2014-04-16 | 2014-08-13 | 北京邮电大学 | 微博转发量预测模型生成方法及微博转发量预测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9646032B2 (en) * | 2013-10-24 | 2017-05-09 | Microsoft Technology Licensing, Llc | Temporal user engagement features |
-
2015
- 2015-12-09 CN CN201510909377.3A patent/CN105550275B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103984701A (zh) * | 2014-04-16 | 2014-08-13 | 北京邮电大学 | 微博转发量预测模型生成方法及微博转发量预测方法 |
Non-Patent Citations (2)
Title |
---|
基于SVM的微博转发规模预测方法;李英乐等;《计算机应用研究》;20130930;第30卷(第9期);第2594-2597页 * |
融合热点话题的微博转发预测研究;陈江等;《中文信息学报》;20151130;第29卷(第6期);第150-158页 * |
Also Published As
Publication number | Publication date |
---|---|
CN105550275A (zh) | 2016-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105550275B (zh) | 一种微博转发量预测方法 | |
Liu et al. | Personalized travel package recommendation | |
CN103795613B (zh) | 一种在线社交网络中朋友关系预测的方法 | |
Ke et al. | A CA-based land system change model: LANDSCAPE | |
Liu et al. | Point-of-interest recommendation in location based social networks with topic and location awareness | |
CN104915392B (zh) | 一种微博转发行为预测方法及装置 | |
CN106886518B (zh) | 一种微博账号分类的方法 | |
CN104717124B (zh) | 一种好友推荐方法、装置及服务器 | |
CN110503531A (zh) | 时序感知的动态社交场景推荐方法 | |
CN105183870A (zh) | 一种利用微博位置信息的城市功能区探测方法及系统 | |
CN104933622A (zh) | 一种基于用户和微博主题的微博流行度预测方法及系统 | |
CN106952167A (zh) | 一种基于多元线性回归的餐饮业好友连边影响力预测方法 | |
CN103116611A (zh) | 社交网络意见领袖识别方法 | |
CN104915397A (zh) | 一种微博传播趋势预测方法及装置 | |
Shang et al. | Evolving networks—Using past structure to predict the future | |
CN103984701A (zh) | 微博转发量预测模型生成方法及微博转发量预测方法 | |
CN105678590A (zh) | 一种面向社交网络基于云模型的topN推荐方法 | |
CN107562947A (zh) | 一种移动时空感知下动态即时推荐服务模型建立方法 | |
CN106610970A (zh) | 基于协同过滤的内容推荐系统与方法 | |
CN106204162A (zh) | 一种互联网环境下新入网电力用户用电模式预测方法 | |
CN105760649A (zh) | 一种面向大数据的可信度量方法 | |
CN107392392A (zh) | 基于深度学习的微博转发预测方法 | |
CN103617146B (zh) | 一种基于硬件资源消耗的机器学习方法及装置 | |
CN103412865B (zh) | 网站项目的通知方法和系统 | |
CN105335476B (zh) | 一种热点事件分类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220425 Address after: 400000 4-1 008, No. 2, Huayi Road, Qixinggang street, Yuzhong District, Chongqing Patentee after: Zhongke Lvzhi (Chongqing) Technology Co.,Ltd. Address before: 400714 No. 266 Fangzheng Road, Beibei District, Chongqing. Patentee before: CHONGQING INSTITUTE OF GREEN AND INTELLIGENT TECHNOLOGY, CHINESE ACADEMY OF SCIENCES |
|
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190226 |