CN104933622A - 一种基于用户和微博主题的微博流行度预测方法及系统 - Google Patents

一种基于用户和微博主题的微博流行度预测方法及系统 Download PDF

Info

Publication number
CN104933622A
CN104933622A CN201510109475.9A CN201510109475A CN104933622A CN 104933622 A CN104933622 A CN 104933622A CN 201510109475 A CN201510109475 A CN 201510109475A CN 104933622 A CN104933622 A CN 104933622A
Authority
CN
China
Prior art keywords
microblogging
user
theme
popularity
time interval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510109475.9A
Other languages
English (en)
Inventor
熊锦华
张巧
程学旗
张水源
许洪波
张国清
余智华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201510109475.9A priority Critical patent/CN104933622A/zh
Publication of CN104933622A publication Critical patent/CN104933622A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及社交网络分析领域,特别涉及一种基于用户和微博主题的微博流行度预测方法及系统,该方法包括:获取预设时间段内的微博数据和用户数据,根据所述微博数据和所述用户数据,获取用户属性特征和微博主题特征,将所述用户属性特征进行归一化处理,以处理后的所述用户特征进行用户聚类,并根据聚类结果,获取用户的类别信息;根据所述微博主题特征和所述用户的类别信息,获取用户聚类在所述微博主题下的转发特征,并计算所述用户聚类在所述微博主题下的权重系数;根据所述微博主题特征、所述用户属性特征、所述权重系数,构建微博流行度预测模型,通过所述微博流行度预测模型对微博流行度进行预测。

Description

一种基于用户和微博主题的微博流行度预测方法及系统
技术领域
本发明涉及社交网络分析领域,尤其涉及一种基于用户和微博主题的微博流行度预测方法及系统。
背景技术
随着web2.0的迅速兴起,微博逐渐成为人们获取和共享信息的重要平台,微博因其信息的即时共享性、实时性、互动性以及传播方式的多样性,使得许多新闻事件和热点话题在微博网站上得以快速、广泛地传播,深刻影响了人们的生活和工作,并极大地提高了网络媒体的服务性能。
微博平台时刻都在产生大量的信息,而微博用户往往更关注对其有价值的信息,因此,需要有一种方法能够从海量的微博信息当中挖掘出有价值、高流行度的微博推荐给用户;此外,在网络舆情分析和预警方面,需要对某些网络敏感话题进行及时地跟踪和处理。微博流行度预测有助于解决上述问题,可以通过预测微博未来的发展趋势来对微博信息做不同的分析处理。
目前微博流行度预测的方法主要可以分为三类。一类是使用模型进行拟合,主要从用户基本属性以及微博出发,抽取出各种特征(包括用户粉丝数、关注数、认证信息、微博文本、微博传播等),并训练模型参数,用统一的模型预测微博流行度,这类方法没有考虑到不同用户的差异性,在预测某条微博的流行度上效果可能很差;第二类方法是在分类的基础上对微博最终的流行度进行范围预测,其最终只能预测微博的一个流行度范围,无法完整地获取微博的流行度趋势;最后一类方法是将流行度预测问题看成是寻找最相近的k条历史微博问题,通过一系列特征从历史微博中寻找与待预测微博最相似的k条微博,利用k条微博的的平均流行度来作为待预测微博的最终流行度,但由于历史微博数量庞大,寻找最相近的k条微博的时间复杂度比较高,只能离线处理,无法满足实时需求。综上所述,现有方法中缺少一种能够准确预测并且支持在线实时预测微博流行度的方法。
发明专利“基于用户特征的预测社交网络信息流行度的方法及系统”,该 发明提供了基于用户特征的预测社交网络信息流行度的方法,该方法包括:获取社交网络中的用户数据和信息数据;从用户数据中提取部分用户属性特征及用户行为特征;根据用户属性特征和用户行为特征将用户数据进行分类;根据信息数据及用户的类别,得到信息数据对应的用户传播特征;根据用户传播特征得到社交网络信息流行度预测模型,采用预测模型对信息流行度进行预测。本发明提供的基于用户特征的预测社交网络信息流行度的系统,包括获取模块、特征提取模块、分类模块、处理模块、预测模型模块及预测模型。该发明首先根据用户的属性特征和行为特征对用户进行分类,并根据用户的传播特征构建流行度预测模型,没有涉及微博主题相关的内容,而本发明从用户以及微博主题考虑,构建流行度预测模型。
发明专利“在社交网络中基于泊松过程模型的事件流行度预测方法”,该发明提供了一种在社交网络中基于泊松过程模型的事件流行度预测方法,步骤:第一步,选取样本事件,并获取样本事件的微博传播链;第二步,用户影响力计算并筛选影响力大的作为关键用户,而将剩下的用户标记为非关键用户;第三步,将关键用户带来的转发微博过程建模为泊松过程模型,而对非关键用户带来的转发微博过程简单处理;第四步,使用样本事件的信息来学习和估计关键用户的泊松过程模型的参数以及非关键用户的参数;第五步,给定一个已知一定时间长度的演化信息的新的事件,根据第三步中的模型来预测它在未来某时刻的流行度。该发明能在微博事件发生的初期给出比较好的流行度预测,将为合理引导事件的发展提供非常有效的帮助。但该发明侧重于事件的流行度预测,提出了关键用户的筛选条件,并将关键用户带来的转发过程建模为泊松过程,来预测事件流行度,而本发明从用户以及微博主题两方面构建流行度预测模型。
发明内容
针对现有技术的不足,本发明提出了一种基于用户和微博主题的微博流行度预测方法及系统。
本发明提出一种基于用户和微博主题的微博流行度预测方法,包括:
步骤1,获取预设时间段内的微博数据和用户数据,根据所述微博数据和所述用户数据,获取用户属性特征和微博主题特征,将所述用户属性特征进行 归一化处理,将处理后的所述用户特征进行用户聚类,并根据聚类结果,获取用户的类别信息;
步骤2,根据所述微博主题特征和所述用户的类别信息,获取用户聚类在所述微博主题下的转发特征,并计算所述用户聚类在所述微博主题下的权重系数;
步骤3,根据所述微博主题特征、所述用户属性特征、所述权重系数,构建微博流行度预测模型,通过所述微博流行度预测模型对微博流行度进行预测。
所述的基于用户和微博主题的微博流行度预测方法,所述步骤2中通过计算用户聚类在所述微博主题下的微博数占所述用户聚类下的总微博数的比值,获取所述权重系数,公式为:
weight c [ k ] = count c ( topic [ k ] ) total _ count c
其中weightc[k]表示用户聚类c在微博主题k上的权重系数,topic[k]表示主题为k的微博集合,countc(topic[k])表示用户聚类c下微博主题为k的微博数,total_countc表示用户聚类c下的总微博数。
所述的基于用户和微博主题的微博流行度预测方法,所述步骤3中所述微博流行度预测模型的公式为:
n ( i ) = 1 Σ j = 1 i - 1 w ( j ) Σ j = 1 i - 1 w ( j ) * n ( j ) * ( Σ k = 1 m ( weight c [ k ] * topic _ matrix c [ k ] [ i ] [ j ] ) )
其中n(i)表示微博在第i个时间间隔内的转发数量,topic_matrixc[k][i][j]表示在一个预测周期中,用户聚类c在第i个时间间隔内微博主题为k的微博所能获得的转发总数与第j个时间间隔内微博主题为k的微博所能获得的转发总数的比值,weightc[k]表示用户聚类c在微博主题k上的权重系数,m表示该微博所属的主题数目,w(j)表示历史各个时间间隔对当前预测时间间隔的影响权重。
所述的基于用户和微博主题的微博流行度预测方法,所述步骤3包括:通过所述微博流行度预测模型计算待预测微博的用户类别和微博主题,获取相应历史各个时间间隔内的历史转发数量;根据所述历史转发数量预测所述待预测微博在预测周期结束之前未来各个时间间隔内的预测转发数量。
所述的基于用户和微博主题的微博流行度预测方法,预测所述待预测微博在预测周期结束之前未来各个时间间隔内的预测转发总量的公式为:
popularity ( i ) = Σ j = 1 i n ( i )
其中popularity(i)为预测转发数量,i、j为时间间隔。
本发明还提出一种基于用户和微博主题的微博流行度预测系统,包括:
获取用户类别信息模块,用于获取预设时间段内的微博数据和用户数据,根据所述微博数据和所述用户数据,获取用户属性特征和微博主题特征,将所述用户属性特征进行归一化处理,以处理后的所述用户特征进行用户聚类,并根据聚类结果,获取用户的类别信息;
获取权重系数模块,用于根据所述微博主题特征和所述用户类别信息,获取用户聚类在所述微博主题下的转发特征,并计算所述用户聚类在所述微博主题下的权重系数;
构建模型并预测模块,用于根据所述微博主题特征、所述用户属性特征、所述权重系数,构建微博流行度预测模型,通过所述微博流行度预测模型对微博流行度进行预测。
所述的基于用户和微博主题的微博流行度预测系统,所述获取权重系数模块中通过计算用户聚类在所述微博主题下的微博数占所述用户聚类下的总微博数的比值,获取所述权重系数,公式为:
weight c [ k ] = count c ( topic [ k ] ) total _ count c
其中weightc[k]表示用户聚类c在微博主题k上的权重系数,topic[k]表示主题为k的微博集合,countc(topic[k])表示用户聚类c下微博主题为k的微博数,total_countc表示用户聚类c下的总微博数。
所述的基于用户和微博主题的微博流行度预测系统,所述构建模型并预测模块中所述微博流行度预测模型的公式为:
n ( i ) = 1 Σ j = 1 i - 1 w ( j ) Σ j = 1 i - 1 w ( j ) * n ( j ) * ( Σ k = 1 m ( weight c [ k ] * topic _ matrix c [ k ] [ i ] [ j ] ) )
其中n(i)表示微博在第i个时间间隔内的转发数量,topic_matrixc[k][i][j]表示在一个预测周期中,用户聚类c在第i个时间间隔内微博主题为k的微博所能获得的转发总数与第j个时间间隔内微博主题为k的微博所能获得的转发总数的比值,weightc[k]表示用户聚类c在微博主题k上的权重系数,m表示该微博所属的主题数目,w(j)表示历史各个时间间隔对当前预测时间间隔的影响权重。
所述的基于用户和微博主题的微博流行度预测系统,所述构建模型并预测模块包括:通过所述微博流行度预测模型计算待预测微博的用户类别和微博主题,获取相应历史各个时间间隔内的历史转发数量;根据所述历史转发数量预测所述待预测微博在预测周期结束之前未来各个时间间隔内的预测转发数量。
所述的基于用户和微博主题的微博流行度预测系统,预测所述待预测微博的在预测周期结束之前未来各个时间间隔内的预测转发总量的公式为:
popularity ( i ) = Σ j = 1 i n ( i )
其中popularity(i)为预测转发数量,i、j为时间间隔。由以上发明可知,本发明的优点在于:
综合考虑了影响微博最终流行度的两个重要因素:微博用户以及微博主题,并结合这两方面提供了一种能够在保障微博流行度预测准确性的同时,可以进行快速地在线实时预测微博流行度的方法。
附图说明
图1是本发明的方法的整体流程图;
图2是本发明一实施例的整体流程图;
图3是本发明一实施例中用户聚类的流程图;
图4是本发明一实施例中微博主题获取的流程图;
图5是本发明一实施例中微博流行度预测模型构建的流程图;
图6是基于用户和微博主题的微博流行度预测系统结构图。
其中附图标记为:
步骤1/2/3/4/5/6;
步骤101/102/103/104/105/106;
步骤201/202/203/204/205;
步骤301/302;
步骤401/402/403/404/405。
具体实施方式
本发明的目的在于提供一种能够在保障微博流行度预测准确性的同时,可以进行快速地在线实时预测微博流行度的方法。
为达到以上目的,本发明综合考虑了影响微博最终流行度的两个重要因素:微博用户和微博主题,并结合这两方面提出了一种微博流行度预测方法。
本发明通过用户属性特征和微博主题特征构建微博流行度预测模型,在微博流行度预测模型基础上,处理新输入微博,对微博进行流行度的预测。
以下为本发明构建微博流行度预测模型的具体步骤,如图1所示:
步骤1,获取预设时间段内微博数据以及用户数据。根据需要,选择一定数目的微博用户以及在预设时间段内,这些用户发布的微博信息,作为训练模型的数据集;
步骤2,根据以上所述的用户数据和微博数据,提取用户的属性特征以及微博主题特征,其中用户的属性特征,主要包括:用户历史微博的转发特征,如历史微博的转发数量的最大值、最小值、平均值、方差等;用户的认证特征,如认证信息以及类型等;用户的标签特征;微博的主题特征,主要通过主题模型获取微博数据集的主题分布;
步骤3,对上述用户的属性特征进行归一化处理,将处理后的属性特征用于用户聚类,并根据聚类结果,获取各个用户的类别信息;
步骤4,根据微博的主题特征,以及用户聚类结果,获取各个用户聚类在不同主题上的转发特征,该转发特征可用一个三维的矩阵来表示,矩阵中的每个元素topic_matrixc[k][i][j]表示在一个预测周期中,用户聚类c下第i个时间间隔内主题为k的微博所能获得的转发总数与第j个时间间隔内主题为k的微博所能获得的转发总数的比值;
步骤5,获取各个用户聚类在不同主题下的权重系数。可以通过计算用户聚类在各个主题下的微博数占该聚类下的总微博数的比值来得到;
步骤6,根据上述特征(所述特征包括微博主题特征、用户属性特征、权重系数等),构建微博流行度预测模型。构建的微博流行度预测模型如下所示:
n ( i ) = 1 Σ j = 1 i - 1 w ( j ) Σ j = 1 i - 1 w ( j ) * n ( j ) * ( Σ k = 1 m ( weight c [ k ] * topic _ matrix c [ k ] [ i ] [ j ] ) )
其中,上述公式中n(i)表示微博在第i个时间间隔内所能获得的转发数量,topic_matrixc[k][i][j]表示在一个预测周期中,用户聚类c在第i个时间间隔内主题为k的微博所能获得的转发总数与第j个时间间隔内主题为k的微博所能获得的转发总数的比值,weightc[k]表示用户聚类c在主题k上的权重系数,m表示该微博所属的主题数目,w(j)表示历史各个时间间隔对当前预测时间间 隔的影响权重。
上述weightc[k]可以通过统计用户聚类c下主题为k的微博数占该用户聚类下的总微博数的比值来获取,计算公式如下:
weight c [ k ] = count c ( topic [ k ] ) total _ count c
其中,weightc[k]表示用户聚类c在主题k上的权重系数,topic[k]表示主题为k的微博集合,countc(topic[k])表示用户聚类c下主题为k的微博数,total_countc表示用户聚类c下的总微博数。
以下为本发明通过微博流行度预测模型,对微博流行度进行预测的具体方法,如下所示:统计待预测微博历史各个时间间隔内的转发数量;根据微博流行度预测模型,预测微博在预测周期结束之前未来各个时间间隔内的转发数量。
根据上述结果,可获取待预测微博在未来第i个时间间隔的转发总量,计算公式如下:
popularity ( i ) = Σ j = 1 i n ( i )
上述公式可以获取微博在未来某个时间间隔内的流行度,并根据预测的流行度结果更新微博的热度,用于对微博做不同的分析处理。
以下为本发明的实施例,如下所示:
图1是本发明一实施例的整体流程图,提供了一种微博流行度预测的方法。根据本发明提出的微博流行度预测模型,对新输入的微博进行流行度的预测,主要可以分为以下几个步骤:
步骤101,获取新输入微博的唯一标识。本发明中对微博标识没有要求,可以使用任何一种标识方法来唯一标识一条微博;
步骤102,根据微博的唯一标识,获取微博的信息例。微博信息例包括发布该微博的用户标识以及相应的微博文本内容;
步骤103,根据用户的标识,以及训练的流行度预测模型中用户聚类的结果,获取该用户的类别信息;
步骤104,根据用户的类别,获取训练的流行度预测模型中该用户聚类在不同主题上的转发特征和权重系数;
步骤105,获取该微博在初始阶段各个时间间隔内的转发数量。其中,初 始阶段是指从该微博发布后一个或多个时间间隔,可根据需要进行设定;
步骤106,根据步骤104、105以及训练的微博流行度预测模型,预测该微博在预测周期内各个时间间隔的流行度,并获取最终流行度。
在真实的微博平台中,一条微博的转发量会随着时间变得趋于稳定。根据对微博数据集的统计发现,绝大多数微博在发布24小时以后,其转发量改变的基本很少,因此,本实施例中,将时间周期设置为24小时,使用微博发布后24小时的转发总量来刻画该条微博的最终流行度,在一个实施例中,可根据根据实际需要来设定时间间隔,在本实施例中,将时间间隔设定成10分钟,选择微博发布后前12个时间间隔内的转发量作为初始阶段的转发量,来预测微博在未来132个时间间隔内的转发量。
重复执行上述步骤101、102、103、104、105、106,可针对不同微博进行在线流行度的预测。
进一步,训练预测模型中的用户聚类过程如图2所示,包括以下步骤:
步骤201,收集在预设时间段内发布微博数量>=5的一定数目的用户以及相应的微博数据。在本实施例中,设定预设时间段为一个月,用户数目为10000;
步骤202,设定预测周期以及预测时间间隔。在本实施例中,设置预测周期为24小时,时间间隔为10分钟;
步骤203,从用户数据中提取用户特征,主要包括:用户历史微博的转发特征,本实施例中使用了用户历史微博的转发量的最大值、最小值、平均值、方差;用户的认证特征,本实施例中包括用户的认证信息以及认证类型;用户的标签特征,本实施例中使用word2vec计算了用户标签之间的语义相似度;
步骤204,对用户特征进行归一化处理。在该步骤中,归一化方法可以使用数据预处理中任何一种归一化方法,包括min-max标准化、z-score标准归一化、对数函数转换等,本实施例中,使用的是对数函数转换对特征归一化处理;
步骤205,根据用户特征,采用聚类算法对用户进行聚类,获取用户的类别信息。其中,所述聚类算法有多种,K-Means聚类、层次聚类均可。聚类方法中的参数可根据聚类结果进行相应的调整。本实施例中采用层次聚类算法;
进一步,训练预测模型中微博主题获取过程如图3所示,包括以下两个步 骤:
步骤301,根据步骤201中获取的微博数据对微博进行文本预处理,包括剔除文本中的url、表情符号,以及对微博文本进行分词;
步骤302,使用主题模型获取上述预处理后的微博数据集在各个主题上的分布Z~(p1,p2…pm),其中主题数m可根据数据集的特性进行人工调整。主题模型可使用如LDA、Biterm等模型中的任意一种;
进一步,微博流行度预测模型构建过程如图4所示,包括以下几个步骤:
步骤401,根据302中的微博数据集的主题分布,设定过滤阈值δ;
步骤402,根据上述主题分布推断用户微博在各个主题上的概率分布,并根据设定的阈值δ,将用户微博主题分布概率大于δ的主题作为该条微博的主题,而将概率分布小于δ的主题舍去;
步骤403,根据步骤202中设定的时间间隔,以及用户聚类的结果,统计用户聚类在不同主题上的转发特征。该特征可用三维的矩阵来表示,矩阵中的每一个元素的topic_matrixc[k][i][j]表示在一个预测周期中,用户聚类c在第i个时间间隔内主题为k的微博所能获得的转发总数与第j个时间间隔内主题为k的微博所能获得的转发总数的比值。该特征是是针对各个用户聚类进行单独统计的,每个用户聚类都会有一个相应的转发特征矩阵;在本实施例中,根据设定的主题数200,预测周期24小时,时间间隔10分钟,则该转发特征矩阵是一个200*144*144的三维矩阵;
步骤404,获取用户聚类在各个主题上的权重系数,该权重系数可以根据用户聚类下不同主题的微博数与总微博数的比值来确定。其计算公式如下表示:
weight c [ k ] = count c ( topic [ k ] ) total _ count c
其中,weightc[k]表示用户聚类c在主题k上的权重系数,topic[k]表示主题为k的微博集合,countc(topic[k])表示用户聚类c下主题为k的微博数,total_countc表示用户聚类c下的总微博数。
步骤405,根据上述主题转发特征以及主题权重系数,构建各个用户聚类下的微博流行度预测模型,公式如下所示:
n ( i ) = 1 Σ j = 1 i - 1 w ( j ) Σ j = 1 i - 1 w ( j ) * n ( j ) * ( Σ k = 1 m ( weight c [ k ] * topic _ matrix c [ k ] [ i ] [ j ] ) )
其中,n(i)表示微博在第i个时间间隔内所能获得的转发数量,topic_matrixc[k][i][j]表示在一个预测周期中,用户聚类c在第i个时间间隔内主题为k的微博所能获得的转发总数与第j个时间间隔内主题为k的微博所能获得的转发总数的比值,weightc[k]表示用户聚类c在主题k上的权重系数,m表示该微博所属的主题数目,w(j)表示历史各个时间间隔对当前预测时间间隔的影响权重。topic_matrixc[k][i][j]以及weightc[k]表分别在上述步骤403和404中获取得到,w(j)的计算公式如下:
w ( j ) = 1 1 + α * l o g 10 ( j + 1 )
其中,α为设定系数。
本发明提出了一种基于用户和微博主题的微博流行度预测方法,能够结合影响微博流行度的两个重要因素:用户和微博主题,来构建流行度预测模型,并在保证预测准确性的同时,支持在线实时地微博流行度预测。
本发明还提出一种基于用户和微博主题的微博流行度预测系统,如图6所示,包括:
获取用户类别信息模块,用于获取预设时间段内的微博数据和用户数据,根据所述微博数据和所述用户数据,获取用户属性特征和微博主题特征,将所述用户属性特征进行归一化处理,将处理后的所述用户特征进行用户聚类,并根据聚类结果,获取用户类别信息;
获取权重系数模块,用于根据所述微博主题特征和所述用户类别信息,获取用户聚类在所述微博主题下的转发特征,并计算所述用户聚类在所述微博主题下的权重系数;
构建模型并预测模块,用于根据所述微博主题特征、所述用户属性特征、所述权重系数,构建微博流行度预测模型,通过所述微博流行度预测模型对微博流行度进行预测。
所述获取权重系数模块中通过计算用户聚类在所述微博主题下的微博数占所述用户聚类下的总微博数的比值,获取所述权重系数,公式为:
weight c [ k ] = count c ( topic [ k ] ) total _ count c
其中weightc[k]表示用户聚类c在微博主题k上的权重系数,topic[k]表示主题为k的微博集合,countc(topic[k])表示用户聚类c下微博主题为k的微博数,total_countc表示用户聚类c下的总微博数。
所述构建模型并预测模块中所述微博流行度预测模型的公式为:
n ( i ) = 1 Σ j = 1 i - 1 w ( j ) Σ j = 1 i - 1 w ( j ) * n ( j ) * ( Σ k = 1 m ( weight c [ k ] * topic _ matrix c [ k ] [ i ] [ j ] ) )
其中n(i)表示微博在第i个时间间隔内的转发数量,topic_matrixc[k][i][j]表示在一个预测周期中,用户聚类c在第i个时间间隔内微博主题为k的微博所能获得的转发总数与第j个时间间隔内微博主题为k的微博所能获得的转发总数的比值,weightc[k]表示用户聚类c在微博主题k上的权重系数,m表示该微博所属的主题数目,w(j)表示历史各个时间间隔对当前预测时间间隔的影响权重。
所述构建模型并预测模块包括:通过所述微博流行度预测模型计算待预测微博历史各个时间间隔内的历史转发数量;根据所述历史转发数量预测所述待预测微博在预测周期结束之前未来各个时间间隔内的预测转发数量。
预测所述待预测微博的在预测周期结束之前未来各个时间间隔内的预测转发数量的公式为:
popularity ( i ) = Σ j = 1 i n ( i )
其中popularity(i)为预测转发数量,i、j为时间间隔。
当然,本发明还可以有其他多种实施例,并不仅局限于具体实施方式中所述的实施例。只要是本领域技术人员根据本发明的技术方案提出的其他实施方式,同样属于本发明所附的权利要求的保护范围。

Claims (10)

1.一种基于用户和微博主题的微博流行度预测方法,其特征在于,包括:
步骤1,获取预设时间段内的微博数据和用户数据,根据所述微博数据和所述用户数据,获取用户属性特征和微博主题特征,将所述用户属性特征进行归一化处理,将处理后的所述用户特征进行用户聚类,并根据聚类结果,获取用户的类别信息;
步骤2,根据所述微博主题特征和所述用户的类别信息,获取用户聚类在所述微博主题下的转发特征,并计算所述用户聚类在所述微博主题下的权重系数;
步骤3,根据所述微博主题特征、所述用户属性特征、所述权重系数,构建微博流行度预测模型,通过所述微博流行度预测模型对微博流行度进行预测。
2.如权利要求1所述的基于用户和微博主题的微博流行度预测方法,其特征在于,所述步骤2中通过计算用户聚类在所述微博主题下的微博数占所述用户聚类下的总微博数的比值,获取所述权重系数,公式为:
weight c [ k ] = count c ( topic [ k ] ) total _ count c
其中weightc[k]表示用户聚类c在微博主题k上的权重系数,topic[k]表示主题为k的微博集合,countc(topic[k])表示用户聚类c下微博主题为k的微博数,total_countc表示用户聚类c下的总微博数。
3.如权利要求1所述的基于用户和微博主题的微博流行度预测方法,其特征在于,所述步骤3中所述微博流行度预测模型的公式为:
n ( i ) = 1 Σ j = 1 i - 1 w ( j ) Σ j = 1 i - 1 w ( j ) * n ( j ) * ( Σ k = 1 m ( weight c [ k ] * topic _ matrix c [ k ] [ i ] [ j ] ) )
其中n(i)表示微博在第i个时间间隔内的转发数量,topic_matrixc[k][i][j]表示在一个预测周期中,用户聚类c在第i个时间间隔内微博主题为k的微博所能获得的转发总数与第j个时间间隔内微博主题为k的微博所能获得的转发总数的比值,weightc[k]表示用户聚类c在微博主题k上的权重系数,m表示该微博所属的主题数目,w(j)表示历史各个时间间隔对当前预测时间间隔的影响权重。
4.如权利要求1或3所述的基于用户和微博主题的微博流行度预测方法,其特征在于,所述步骤3包括:通过所述微博流行度预测模型计算待预测微博的用户类别和微博主题,获取相应历史各个时间间隔内的历史转发数量;根据所述历史转发数量预测所述待预测微博在预测周期结束之前未来各个时间间隔内的预测转发数量。
5.如权利要求4所述的基于用户和微博主题的微博流行度预测方法,其特征在于,预测所述待预测微博在预测周期结束之前未来各个时间间隔内的预测转发总量的公式为:
popularity ( i ) = Σ j = 1 i n ( i )
其中popularity(i)为预测转发数量,i、j为时间间隔。
6.一种基于用户和微博主题的微博流行度预测系统,其特征在于,包括:
获取用户类别信息模块,用于获取预设时间段内的微博数据和用户数据,根据所述微博数据和所述用户数据,获取用户属性特征和微博主题特征,将所述用户属性特征进行归一化处理,以处理后的所述用户特征进行用户聚类,并根据聚类结果,获取用户的类别信息;
获取权重系数模块,用于根据所述微博主题特征和所述用户类别信息,获取用户聚类在所述微博主题下的转发特征,并计算所述用户聚类在所述微博主题下的权重系数;
构建模型并预测模块,用于根据所述微博主题特征、所述用户属性特征、所述权重系数,构建微博流行度预测模型,通过所述微博流行度预测模型对微博流行度进行预测。
7.如权利要求6所述的基于用户和微博主题的微博流行度预测系统,其特征在于,所述获取权重系数模块中通过计算用户聚类在所述微博主题下的微博数占所述用户聚类下的总微博数的比值,获取所述权重系数,公式为:
weight c [ k ] = count c ( topic [ k ] ) total _ count c
其中weightc[k]表示用户聚类c在微博主题k上的权重系数,topic[k]表示主题为k的微博集合,countc(topic[k])表示用户聚类c下微博主题为k的微博数,total_countc表示用户聚类c下的总微博数。
8.如权利要求6所述的基于用户和微博主题的微博流行度预测系统,其特征在于,所述构建模型并预测模块中所述微博流行度预测模型的公式为:
n ( i ) = 1 Σ j = 1 i - 1 w ( j ) Σ j = 1 i - 1 w ( j ) * n ( j ) * ( Σ k = 1 m ( weight c [ k ] * topic _ matrix c [ k ] [ i ] [ j ] ) )
其中n(i)表示微博在第i个时间间隔内的转发数量,topic_matrixc[k][i][j]表示在一个预测周期中,用户聚类c在第i个时间间隔内微博主题为k的微博所能获得的转发总数与第j个时间间隔内微博主题为k的微博所能获得的转发总数的比值,weightc[k]表示用户聚类c在微博主题k上的权重系数,m表示该微博所属的主题数目,w(j)表示历史各个时间间隔对当前预测时间间隔的影响权重。
9.如权利要求6或8所述的基于用户和微博主题的微博流行度预测系统,其特征在于,所述构建模型并预测模块包括:通过所述微博流行度预测模型计算待预测微博的用户类别和微博主题,获取相应历史各个时间间隔内的历史转发数量;根据所述历史转发数量预测所述待预测微博在预测周期结束之前未来各个时间间隔内的预测转发数量。
10.如权利要求9所述的基于用户和微博主题的微博流行度预测系统,其特征在于,预测所述待预测微博的在预测周期结束之前未来各个时间间隔内的预测转发总量的公式为:
popularity ( i ) = Σ j = 1 i n ( i )
其中popularity(i)为预测转发数量,i、j为时间间隔。
CN201510109475.9A 2015-03-12 2015-03-12 一种基于用户和微博主题的微博流行度预测方法及系统 Pending CN104933622A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510109475.9A CN104933622A (zh) 2015-03-12 2015-03-12 一种基于用户和微博主题的微博流行度预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510109475.9A CN104933622A (zh) 2015-03-12 2015-03-12 一种基于用户和微博主题的微博流行度预测方法及系统

Publications (1)

Publication Number Publication Date
CN104933622A true CN104933622A (zh) 2015-09-23

Family

ID=54120778

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510109475.9A Pending CN104933622A (zh) 2015-03-12 2015-03-12 一种基于用户和微博主题的微博流行度预测方法及系统

Country Status (1)

Country Link
CN (1) CN104933622A (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975478A (zh) * 2016-04-09 2016-09-28 北京交通大学 一种基于词向量分析的网络文章所属事件的检测方法和装置
CN106097111A (zh) * 2016-06-20 2016-11-09 重庆房慧科技有限公司 一种基于智慧社区网络大数据的舆情预测方法
CN106257459A (zh) * 2016-08-03 2016-12-28 哈尔滨工程大学 一种基于关键用户的微博信息传播预测方法
CN106446191A (zh) * 2016-09-30 2017-02-22 浙江工业大学 一种基于Logistic回归的多特征网络流行标签预测方法
CN106599245A (zh) * 2016-12-20 2017-04-26 西南石油大学 基于微博用户关系进行微博转发预测的方法和系统
CN106600069A (zh) * 2016-12-20 2017-04-26 西南石油大学 基于微博主题标签进行微博转发预测的方法和系统
CN106649730A (zh) * 2016-12-23 2017-05-10 中山大学 一种基于社交网络短文本流的用户聚类和短文本聚类方法
CN106777157A (zh) * 2016-12-20 2017-05-31 西南石油大学 一种基于主题的类引力模型微博预测方法与系统
CN107784387A (zh) * 2017-09-18 2018-03-09 国家计算机网络与信息安全管理中心 一种微博事件信息传播的连续动态预测方法
CN107798027A (zh) * 2016-09-06 2018-03-13 腾讯科技(深圳)有限公司 一种信息热度预测方法、信息推荐方法及装置
CN108304867A (zh) * 2018-01-24 2018-07-20 重庆邮电大学 面向社交网络的信息流行度预测方法及系统
CN108322316A (zh) * 2017-01-17 2018-07-24 广州市动景计算机科技有限公司 确定信息传播热度的方法、装置及计算设备
CN108763400A (zh) * 2018-05-22 2018-11-06 合肥工业大学 基于对象行为和主题偏好的对象划分方法及装置
CN108876058A (zh) * 2018-07-27 2018-11-23 南京航空航天大学 一种基于微博的新闻事件影响力预测方法
CN109885656A (zh) * 2019-02-18 2019-06-14 国家计算机网络与信息安全管理中心 基于量化热度的微博转发预测方法及装置
CN110020374A (zh) * 2017-12-28 2019-07-16 中国移动通信集团陕西有限公司 一种发布信息的转发量预测方法和装置
CN110134876A (zh) * 2019-01-29 2019-08-16 国家计算机网络与信息安全管理中心 一种基于群智传感器的网络空间群体性事件感知与检测方法
CN110166275A (zh) * 2018-05-22 2019-08-23 腾讯科技(深圳)有限公司 信息处理方法、装置及存储介质
CN110163404A (zh) * 2018-06-12 2019-08-23 腾讯科技(深圳)有限公司 一种信息扩散预测方法、装置及服务器、存储介质
CN110334275A (zh) * 2019-05-31 2019-10-15 北京中科闻歌科技股份有限公司 一种信息流行度预测方法、设备和存储介质
CN112036659A (zh) * 2020-09-09 2020-12-04 中国科学技术大学 基于组合策略的社交网络媒体信息流行度预测方法
CN112115327A (zh) * 2020-03-04 2020-12-22 云南大学 一种基于主题模型的舆情新闻事件跟踪方法
CN113127743A (zh) * 2021-05-06 2021-07-16 数库(上海)科技有限公司 新闻主体热度计算及排序方法、装置、设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708153A (zh) * 2012-04-18 2012-10-03 中国信息安全测评中心 自适应在线社交网络热点话题发现预测方法及系统
CN102982236A (zh) * 2012-11-07 2013-03-20 北京交通大学 一种通过网络用户建模的观点预测方法
CN103177090A (zh) * 2013-03-08 2013-06-26 亿赞普(北京)科技有限公司 一种基于大数据的话题检测方法及装置
US8838688B2 (en) * 2011-05-31 2014-09-16 International Business Machines Corporation Inferring user interests using social network correlation and attribute correlation
CN104216954A (zh) * 2014-08-20 2014-12-17 北京邮电大学 突发事件话题状态的预测装置及预测方法
CN104281882A (zh) * 2014-09-16 2015-01-14 中国科学院信息工程研究所 基于用户特征的预测社交网络信息流行度的方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8838688B2 (en) * 2011-05-31 2014-09-16 International Business Machines Corporation Inferring user interests using social network correlation and attribute correlation
CN102708153A (zh) * 2012-04-18 2012-10-03 中国信息安全测评中心 自适应在线社交网络热点话题发现预测方法及系统
CN102982236A (zh) * 2012-11-07 2013-03-20 北京交通大学 一种通过网络用户建模的观点预测方法
CN103177090A (zh) * 2013-03-08 2013-06-26 亿赞普(北京)科技有限公司 一种基于大数据的话题检测方法及装置
CN104216954A (zh) * 2014-08-20 2014-12-17 北京邮电大学 突发事件话题状态的预测装置及预测方法
CN104281882A (zh) * 2014-09-16 2015-01-14 中国科学院信息工程研究所 基于用户特征的预测社交网络信息流行度的方法及系统

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975478A (zh) * 2016-04-09 2016-09-28 北京交通大学 一种基于词向量分析的网络文章所属事件的检测方法和装置
CN106097111A (zh) * 2016-06-20 2016-11-09 重庆房慧科技有限公司 一种基于智慧社区网络大数据的舆情预测方法
CN106257459A (zh) * 2016-08-03 2016-12-28 哈尔滨工程大学 一种基于关键用户的微博信息传播预测方法
CN106257459B (zh) * 2016-08-03 2019-11-01 哈尔滨工程大学 一种基于关键用户的微博信息传播预测方法
CN107798027A (zh) * 2016-09-06 2018-03-13 腾讯科技(深圳)有限公司 一种信息热度预测方法、信息推荐方法及装置
CN106446191A (zh) * 2016-09-30 2017-02-22 浙江工业大学 一种基于Logistic回归的多特征网络流行标签预测方法
CN106446191B (zh) * 2016-09-30 2019-11-05 浙江工业大学 一种基于Logistic回归的多特征网络流行标签预测方法
CN106600069B (zh) * 2016-12-20 2020-08-18 西南石油大学 基于微博主题标签进行微博转发预测的方法和系统
CN106777157A (zh) * 2016-12-20 2017-05-31 西南石油大学 一种基于主题的类引力模型微博预测方法与系统
CN106600069A (zh) * 2016-12-20 2017-04-26 西南石油大学 基于微博主题标签进行微博转发预测的方法和系统
CN106599245A (zh) * 2016-12-20 2017-04-26 西南石油大学 基于微博用户关系进行微博转发预测的方法和系统
CN106649730A (zh) * 2016-12-23 2017-05-10 中山大学 一种基于社交网络短文本流的用户聚类和短文本聚类方法
CN106649730B (zh) * 2016-12-23 2021-08-10 中山大学 一种基于社交网络短文本流的用户聚类和短文本聚类方法
CN108322316A (zh) * 2017-01-17 2018-07-24 广州市动景计算机科技有限公司 确定信息传播热度的方法、装置及计算设备
CN108322316B (zh) * 2017-01-17 2021-10-19 阿里巴巴(中国)有限公司 确定信息传播热度的方法、装置及计算设备
CN107784387A (zh) * 2017-09-18 2018-03-09 国家计算机网络与信息安全管理中心 一种微博事件信息传播的连续动态预测方法
CN110020374A (zh) * 2017-12-28 2019-07-16 中国移动通信集团陕西有限公司 一种发布信息的转发量预测方法和装置
CN110020374B (zh) * 2017-12-28 2021-06-08 中国移动通信集团陕西有限公司 一种发布信息的转发量预测方法和装置
CN108304867B (zh) * 2018-01-24 2021-09-10 重庆邮电大学 面向社交网络的信息流行度预测方法及系统
CN108304867A (zh) * 2018-01-24 2018-07-20 重庆邮电大学 面向社交网络的信息流行度预测方法及系统
CN108763400A (zh) * 2018-05-22 2018-11-06 合肥工业大学 基于对象行为和主题偏好的对象划分方法及装置
CN108763400B (zh) * 2018-05-22 2021-09-14 合肥工业大学 基于对象行为和主题偏好的对象划分方法及装置
CN110166275A (zh) * 2018-05-22 2019-08-23 腾讯科技(深圳)有限公司 信息处理方法、装置及存储介质
CN110166275B (zh) * 2018-05-22 2021-06-11 腾讯科技(深圳)有限公司 信息处理方法、装置及存储介质
CN110163404A (zh) * 2018-06-12 2019-08-23 腾讯科技(深圳)有限公司 一种信息扩散预测方法、装置及服务器、存储介质
CN108876058A (zh) * 2018-07-27 2018-11-23 南京航空航天大学 一种基于微博的新闻事件影响力预测方法
CN108876058B (zh) * 2018-07-27 2021-07-27 南京航空航天大学 一种基于微博的新闻事件影响力预测方法
CN110134876A (zh) * 2019-01-29 2019-08-16 国家计算机网络与信息安全管理中心 一种基于群智传感器的网络空间群体性事件感知与检测方法
CN110134876B (zh) * 2019-01-29 2021-10-26 国家计算机网络与信息安全管理中心 一种基于群智传感器的网络空间群体性事件感知与检测方法
CN109885656A (zh) * 2019-02-18 2019-06-14 国家计算机网络与信息安全管理中心 基于量化热度的微博转发预测方法及装置
CN110334275A (zh) * 2019-05-31 2019-10-15 北京中科闻歌科技股份有限公司 一种信息流行度预测方法、设备和存储介质
CN112115327A (zh) * 2020-03-04 2020-12-22 云南大学 一种基于主题模型的舆情新闻事件跟踪方法
CN112115327B (zh) * 2020-03-04 2023-10-20 云南大学 一种基于主题模型的舆情新闻事件跟踪方法
CN112036659A (zh) * 2020-09-09 2020-12-04 中国科学技术大学 基于组合策略的社交网络媒体信息流行度预测方法
CN113127743A (zh) * 2021-05-06 2021-07-16 数库(上海)科技有限公司 新闻主体热度计算及排序方法、装置、设备和存储介质

Similar Documents

Publication Publication Date Title
CN104933622A (zh) 一种基于用户和微博主题的微博流行度预测方法及系统
CN104572958B (zh) 一种基于事件抽取的敏感信息监控方法
CN102394798B (zh) 一种基于多元特征的微博信息传播行为预测方法及系统
CN104598535B (zh) 一种基于最大熵的事件抽取方法
CN103744928B (zh) 一种基于历史访问记录的网络视频分类方法
CN105335491B (zh) 基于用户点击行为来向用户推荐图书的方法和系统
CN103310003A (zh) 一种基于点击日志的新广告点击率预测方法及系统
CN101394311A (zh) 一种基于时间序列的网络舆情预测方法
CN104166668A (zh) 基于folfm模型的新闻推荐系统及方法
CN104077417A (zh) 社交网络中的人物标签推荐方法和系统
CN105893609A (zh) 一种基于加权混合的移动app推荐方法
CN105608200A (zh) 一种网络舆论趋势预测分析方法
CN103812872A (zh) 一种基于混合狄利克雷过程的网络水军行为检测方法及系统
CN106682686A (zh) 一种基于手机上网行为的用户性别预测方法
CN103678618A (zh) 一种基于社交网络平台的Web服务推荐方法
CN103399891A (zh) 网络内容自动推荐方法、装置和系统
CN110119948B (zh) 基于时变权重动态组合的电力用户信用评价方法及系统
CN102955813B (zh) 一种信息搜索方法和系统
CN103810162A (zh) 推荐网络信息的方法和系统
CN111191099B (zh) 一种基于社交媒体的用户活动类型识别方法
CN106055661A (zh) 基于多Markov链模型的多兴趣资源推荐方法
CN104679738A (zh) 互联网热词挖掘方法及装置
CN104182457A (zh) 在社交网络中基于泊松过程模型的事件流行度预测方法
CN103823890A (zh) 一种针对特定群体的微博热点话题检测方法及装置
Feng et al. [Retracted] Design and Simulation of Human Resource Allocation Model Based on Double‐Cycle Neural Network

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150923

RJ01 Rejection of invention patent application after publication