CN110020374B

CN110020374B - 一种发布信息的转发量预测方法和装置

Info

Publication number: CN110020374B
Application number: CN201711458948.1A
Authority: CN
Inventors: 王晓春; 高芳; 马军
Original assignee: China Mobile Communications Corp; China Mobile Group Shaanxi Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Shaanxi Co Ltd
Priority date: 2017-12-28
Filing date: 2017-12-28
Publication date: 2021-06-08
Anticipated expiration: 2037-12-28
Also published as: CN110020374A

Abstract

本发明实施例涉及数据处理技术领域，尤其涉及一种发布信息的转发量预测方法和装置，用于实现提高发布信息转发量的预测准确性。获取预设周期内的发布信息；针对每个发布信息，确定发布信息的特征向量；由于根据发布信息的特征向量和预设周期的前一个预测周期内确定的第一预测模型，预测出发布信息的预测转发量；第一预测模型为根据预设周期之前邻近的第二个预测周期内的预测模型修正得到的；根据预设周期内的每个发布信息的预测转发量和预设周期内的每个发布信息的实际转发量，修正第一预测模型得到第二预测模型；第二预测模型用于预测预设周期的后一个预测周期内的每个发布信息的转发量。如此，可以实现提高发布信息转发量的预测准确性。

Description

一种发布信息的转发量预测方法和装置

技术领域

本发明实施例涉及数据处理技术领域，尤其涉及一种发布信息的转发量预测方法和装置。

背景技术

随着网络技术的发展，社交媒体中微博、腾讯说说等通过转发行为传播信息的发布信息的用户数量越来越多。发布信息作为一种基于用户关系的信息分享、传播平台，产生了海量图片、文字、音视频信息。转发行为是主要的信息传播方式，对于发布信息转发行为的研究可以用于舆情分析、用户兴趣挖掘、以及用于防范网络造谣、网络诈骗等。

现有技术中，通过离线模型预测发布信息转发量，这种离线模型采用离线数据进行离线预测，比如，采用一个月前的发布信息构建转发量预测模型，用来预测当前发布的发布信息的转发量，使用的数据并不是近期的发布信息，预测结果不准确。而且离线模型中的模型结构参数只经过一次训练而成，没有根据发布信息数据的变化或者用户转发行为的变化而适应性变化，难以保证发布信息转发量的预测结果的准确率。

发明内容

本发明实施例提供一种发布信息的转发量预测方法和装置，用以实现提高发布信息转发量的预测准确性。

本发明实施例提供一种发布信息的转发量预测方法，包括：

获取预设周期内的发布信息；

针对所述预设周期内的每个发布信息，确定所述发布信息的特征向量；根据所述发布信息的特征向量和所述预设周期的前一个预测周期内确定的第一预测模型，预测出所述发布信息的预测转发量；所述第一预测模型为根据所述预设周期之前邻近的第二个预测周期内的预测模型修正得到的；

根据所述预设周期内的每个发布信息的预测转发量和所述预设周期内的每个发布信息的实际转发量，修正所述第一预测模型得到第二预测模型；所述第二预测模型用于预测所述预设周期的后一个预测周期内的每个发布信息的转发量。

可选的，所述预设周期内包括N个发布信息；所述根据所述预设周期内的每个发布信息的预测转发量和所述预设周期内的每个发布信息的实际转发量，修正所述第一预测模型得到第二预测模型，包括：针对所述N个发布信息中每个发布信息，根据所述发布信息的预测转发量和所述发布信息的实际转发量，确定出所述发布信息的预测转发量的预测相对误差；根据所述N个发布信息中每个发布信息的预测转发量的预测相对误差，确定所述预设周期对应的预测转发量的预测相对误差；若所述预设周期对应的预测转发量的预测相对误差大于等于预设阈值，则调整所述第一预测模型的特征向量的每个特征信息的权重，得到第二预测模型。

可选的，所述若所述预设周期对应的预测转发量的预测相对误差大于等于预设阈值，则调整所述第一预测模型的特征向量的每个特征信息的权重，得到第二预测模型，包括：若所述发布信息的预测转发量的预测相对误差大于等于预设阈值，则：针对所述第一预测模型的特征向量的每个特征信息，根据所述特征信息的第一权重和所述特征信息的预设权重，确定出所述预设周期内的所述特征信息的第二权重；将所述第一预测模型的特征向量的每个特征信息的第一权重调整为所述第二权重，得到所述第二预测模型。

可选的，所述根据所述预设周期内的每个发布信息，确定每个发布信息的特征向量，包括：确定出影响发布信息的转发量的至少一个特征信息；针对所述预设周期内的每个发布信息，执行：根据所述发布信息和所述至少一个特征信息，确定出所述发布信息对应的每个特征信息的特征值；将所述至少一个特征信息和所述发布信息对应的每个特征信息的特征值，作为所述发布信息的特征向量。

可选的，在所述获取预设周期内的每个发布信息之前，还包括：获取历史发布信息；确定出所述历史发布信息的特征向量和实际转发量；根据每个历史发布信息的特征向量、实际转发量和向量回归模型，构建初始预测模型；所述初始预测模型用于预测第一个预测周期内的发布信息的转发量。

本发明实施例提供一种发布信息的转发量预测装置，包括：

获取模块，用于获取预设周期内的发布信息；

模型预测模块，用于针对所述预设周期内的每个发布信息，确定所述发布信息的特征向量；根据所述发布信息的特征向量和所述预设周期的前一个预测周期内确定的第一预测模型，预测出所述发布信息的预测转发量；所述第一预测模型为根据所述预设周期之前邻近的第二个预测周期内的预测模型修正得到的；

模型修正模块，用于根据所述预设周期内的每个发布信息的预测转发量和所述预设周期内的每个发布信息的实际转发量，修正所述第一预测模型得到第二预测模型；所述第二预测模型用于预测所述预设周期的后一个预测周期内的每个发布信息的转发量。

可选的，所述模型修正模块，用于：针对所述N个发布信息中每个发布信息，根据所述发布信息的预测转发量和所述发布信息的实际转发量，确定出所述发布信息的预测转发量的预测相对误差；根据所述N个发布信息中每个发布信息的预测转发量的预测相对误差，确定所述预设周期对应的预测转发量的预测相对误差；若所述预设周期对应的预测转发量的预测相对误差大于等于预设阈值，则调整所述第一预测模型的特征向量的每个特征信息的权重，得到第二预测模型。

可选的，所述模型修正模块，用于：若所述发布信息的预测转发量的预测相对误差大于等于预设阈值，则：针对所述第一预测模型的特征向量的每个特征信息，根据所述特征信息的第一权重和所述特征信息的预设权重，确定出所述预设周期内的所述特征信息的第二权重；将所述第一预测模型的特征向量的每个特征信息的第一权重调整为所述第二权重，得到所述第二预测模型。

可选的，所述模型预测模块，用于：确定出影响发布信息的转发量的至少一个特征信息；针对所述预设周期内的每个发布信息，执行：根据所述发布信息和所述至少一个特征信息，确定出所述发布信息对应的每个特征信息的特征值；将所述至少一个特征信息和所述发布信息对应的每个特征信息的特征值，作为所述发布信息的特征向量。

可选的，还包括模型构建模块，用于：获取历史发布信息；确定出所述历史发布信息的特征向量和实际转发量；根据每个历史发布信息的特征向量、实际转发量和向量回归模型，构建初始预测模型；所述初始预测模型用于预测第一个预测周期内的发布信息的转发量。

本发明实施例中，获取预设周期内的发布信息；针对预设周期内的每个发布信息，确定发布信息的特征向量；由于根据发布信息的特征向量和预设周期的前一个预测周期内确定的第一预测模型，预测出发布信息的预测转发量；第一预测模型为根据预设周期之前邻近的第二个预测周期内的预测模型修正得到的；根据预设周期内的每个发布信息的预测转发量和预设周期内的每个发布信息的实际转发量，修正第一预测模型得到第二预测模型；第二预测模型用于预测预设周期的后一个预测周期内的每个发布信息的转发量。因此，每个预测周期内的发布信息的预测转发量是根据该预测周期的前一个预测周期的预测模型预测得到的，而且根据每个预测周期内的预测转发量和实际转发量修正前一个预测周期的预测模型得到该预测周期的预测模型，并用于预测下一个预测周期的发布信息的转发量。如此，本发明实施例中考虑了影响发布信息转发量的因素随着时间变化可能发生动态变化，进而连续、动态的修正每个预测周期的预测模型，得到的用于预测每个预测周期的发布信息的转发量的预测模型都考虑了前一预测周期的转发量情况，进而可以实现提高发布信息转发量的预测准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍。

图1为本发明实施例提供的一种发布信息的转发量预测方法流程示意图；

图2为本发明实施例提供的预测模型构建和修正过程示意图；

图3为本发明实施例提供的转发量预测模型和现有技术中的逻辑回归模型预测转发量的示意图；

图4为本发明实施例提供的一种发布信息的转发量预测装置结构示意图。

具体实施方式

为了使本发明的目的、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例中，发布信息可以为微博，比如国内常用的新浪微博、国外常用的推特(Twitter)，发布信息也可以为腾讯说说，也可以为其它具有转发行为特征的信息。由于发布信息的转发量是未知的，而且不同时间的转发量是动态变化的，现有技术中的离线模型很难准确预测出转发量。为了解决如何提高发布信息的预测准确性的问题，通过动态的修正预测模型，采用前一周期的预测模型预测出当前周期的发布信息的转发量。下面对发布信息的转发量预测方法进行详细介绍。

图1示例性示出了本发明实施例提供的一种发布信息的转发量预测方法流程示意图。如图1所示，该方法包括以下步骤：

步骤101：获取预设周期内的发布信息；

步骤102：针对预设周期内的每个发布信息，确定发布信息的特征向量；

步骤103：根据发布信息的特征向量和预设周期的前一个预测周期内确定的第一预测模型，预测出发布信息的预测转发量；第一预测模型为根据预设周期之前邻近的第二个预测周期内的预测模型修正得到的；

步骤104：根据预设周期内的每个发布信息的预测转发量和预设周期内的每个发布信息的实际转发量，修正第一预测模型得到第二预测模型；第二预测模型用于预测预设周期的后一个预测周期内的每个发布信息的转发量。

上述实施例中，一个预测周期可以根据实际需要进行设置，比如设置为1天，再比如设置为12小时等，本发明对此不进行具体数值的限定。

针对上述预测模型进行修正的具体方式举如下示例。

举个例子，根据历史发布信息训练出初始预测模型，根据n个预测周期的发布信息进行预测模型修正，n个预测周期中的每个预测周期以一天为例，图2示例性示出了本发明实施例提供的预测模型构建和修正过程示意图。

如图2所示，采集第一天的发布信息得到数据D₁，采用向量回归模型训练数据D₁得到预测模型M₁；采集第二天的发布信息得到数据D₂，使用数据D₂测试预测模型M₁，并修正预测模型M₁得到预测模型M₂；采集第三天的发布信息得到数据D₃，使用数据D₃测试预测模型M₂，并修正预测模型M₂得到预测模型M₃；依次类推，采集第n+1天的发布信息得到数据D_n+1，使用数据D_n+1测试预测模型M_n，并修正预测模型M_n得到预测模型M_n+1。

由于发布信息每个时刻动态变化特征，为了捕捉预测模型每天的演变过程，由图2可见，采用第一天的数据D₁进行一次模型构建得到预测模型M₁，预测模型M₁反应第一天的发布信息的转发量规律；然后使用第二天的数据D₂对预测模型M₁进行测试并修正，得到了反应第二天的发布信息的转发量规律的预测模型M₂，到了第n+1天，就可以得到反应第n+1天的发布信息的转发量规律的预测模型M_n+1，预测模型M₁经过n次修正，预测的准确性越来越高。

由于每个预测周期的发布信息的转发量根据该预测周期的前一个预测周期修正的预测模型，因此，在第一预测周期之前，需要构建一个初始预测模型用于预测第一个预测周期内的发布信息的转发量。

可选的，基于上述步骤101，在获取预设周期内的每个发布信息之前，该发布信息的转发量预测方法还包括：获取历史发布信息；确定出历史发布信息的特征向量和实际转发量；根据每个历史发布信息的特征向量、实际转发量和向量回归模型，构建初始预测模型；初始预测模型用于预测第一个预测周期内的发布信息的转发量。

本发明实施例中，历史发布信息的获取方式有多种。一种可选的方式为，历史发布信息可以为第一个预测周期之前的一段时间内的发布信息；另一种可选的方式为，历史发布信息可以为第一个预测周期之前的任一个或任多个预测周期内的发布信息。由于历史发布信息在第一个预测周期之前与第一个预测周期越邻近，根据历史发布信息得到的初始预测模型的预测效果越准确。因此为了提高初始预测模型的预测效果，较佳的，历史发布信息可以为第一个预测周期的前一个预测周期内的发布信息。如此，构建的初始预测模型反映了第一个预测周期的前一个预测周期内的发布信息的特征信息和转发量的规律，也比较接近第一个预测周期内的发布信息的特征信息和转发量的规律，可以更准确的预测第一个预测周期的发布信息的转发量。

下面对如何确定发布信息的特征向量进行详细介绍。

一种实现步骤102的可选的实施例中，根据预设周期内的每个发布信息，确定每个发布信息的特征向量，包括：确定出影响发布信息的转发量的至少一个特征信息；针对预设周期内的每个发布信息，执行：根据发布信息和至少一个特征信息，确定出发布信息对应的每个特征信息的特征值；将至少一个特征信息和发布信息对应的每个特征信息的特征值，作为发布信息的特征向量。

以发布信息为微博为例，为了保证每个微博的转发量的预测准确性，本发明实施例中，通过分析影响微博的转发量的各种因素以及微博的用户特征，确定出影响微博的转发量的特征信息。

可选的，微博对应的特征信息包括：该微博账号累计发布微博数量(特征值为x₁)、微博账号注册时间(特征值为x₂)、该微博账号登录地点(特征值为x₃)、该微博账号关注的微博好友数(特征值为x₄)，该微博账号被关注的用户数(特征值为x₅)，本次微博与本用户前一条微博的内容相关性(特征值为x₆)，本次微博与前一个星期所发微博的内容相关性(特征值为x₇)，本微博内容与社会热点话的内容相关性(特征值为x₈)，以往发布原创性微博的数量占微博总量的百分率(特征值为x₉)，该微博获得点赞的数量(特征值为x₁₀)，该微博发布当天是否是节假日(特征值为x₁₁)，该微博的内容是否属于销售类(特征值为x₁₂)，微博内容是否属于游戏类(特征值为x₁₃)，该微博的内容是否属于体育类(特征值为x₁₄)，该微博的内容是否属娱乐八卦类(特征值为x₁₅)，该微博的内容是否属于投资理财类(特征值为x₁₆)，该微博的内容是否属教育类(特征值为x₁₇)，该微博的内容是否属于养生保健类(特征值为x₁₈)，该微博的内容是否属于旅游类(特征值为x₁₉)，该微博的发布的时间是否上午(特征值为x₂₀)，该微博的发布时间是否为下午(特征值为x₂₁)该微博的发布时间是否为晚上(特征值为x22)，该微博的内容的字符长度(特征值为x₂₃)，用户性别(特征值为x₂₄)，用户年龄(特征值为x₂₅)，用户职业(特征值为x₂₆)，用户是否学生(特征值为x₂₇)等。

本发明实施例中，预测模型可以基于多种可反映发布信息的转发量规律的模型进行构建，以下以向量回归模型为例进行构建，根据上述发布信息的特征信息确定出特征向量以及转发量，基于向量回归模型对每个发布信息的特征向量和转发量进行训练，构建预测模型，而构建的预测模型是将发布信息的特征向量和转发量之间建立了映射关系。比如发布信息为微博，以上述特征向量为特征信息对应的27个特征值x₁、x₂……至x₂₇为例，特征向量与微博的转发量对应的映射关系g＝f(x₁,x₂,x₃,…,x₂₇)。

以下介绍构建预测模型的具体过程。

已知训练数据

其中X表示输入空间(X＝Rd)，ε-支持向量回归模型的训练目标是求解一个函数f(x)使得训练数据的预测值y*与真实值y之间的偏差不超过ε。对线性回归来说，函数f(x)＝<w,x>+b，x∈X,b∈R,通过该函数来拟合(x_i,y_i)，i＝1，2，…l。ε-支持向量回归模型如下公式(1)：

约束条件为

如上述公式(1)中，ξ_i，ξ_i*是松弛因子，若没有误差则为零。正常数C表示对超出误差ε的样本的惩罚程度。ε-支持向量回归模型求解函数f(x)属于带有约束的最优化问题，常利用拉格朗日对偶性质(Lagrange duality)将原问题转化为对偶问题，具体如下述公式(2)和公式(3)：

其中公式(2)和公式(3)中，α_i＝α₁,α₂,…,α_l，

得到的线性回归函数表示为下述公式(4)：

对于微博转发量预测模型来说，训练数据的{x_i}和{y_i}(1≤i≤l)分别表示微博的特征信息和微博转发量，经过训练过程二者建立如公式(4)所示的映射函数f(x)，当有新的样本出现时可以根据该映射函数预测微博转发量，比如存在性的输入特征向量X＝(x₁,x₂,x₃,…，x_n)，到上述公式(4)中，生成预测转发量。

本发明实施例中，每个预测周期根据该预测周期内的发布信息进行模型修正。本发明实施例提供一种可选的实施方式，预设周期内包括N个发布信息；根据预设周期内的每个发布信息的预测转发量和预设周期内的每个发布信息的实际转发量，修正第一预测模型得到第二预测模型，包括：针对N个发布信息中每个发布信息，根据发布信息的预测转发量和发布信息的实际转发量，确定出发布信息的预测转发量的预测相对误差；根据N个发布信息中每个发布信息的预测转发量的预测相对误差，确定预设周期对应的预测转发量的预测相对误差；若预设周期对应的预测转发量的预测相对误差大于等于预设阈值，则调整第一预测模型的特征向量的每个特征信息的权重，得到第二预测模型。如此，本发明实施例中考虑了影响发布信息转发量的因素随着时间变化可能发生动态变化，进而连续、动态的修正每个预测周期的预测模型；进一步的，根据每个预测周期的预测转发量和实际转发量的预测相对误差，确定是否需要修正前一个周期的预测模型，如此可以更准确的确定每个预测周期的预测模型是否需要修正，进而提高转发量预测精度。

本发明实施例中，预设阈值可以根据实际需要进行设置，本发明对预设阈值的具体值不进行限定；比如预设阈值为3％，再比如预设阈值为5％。上述实施例中，预设周期内的每个发布信息的预测转发量是根据第一预测模型预测的，而该发布信息的实际转发量是根据该预设周期结束后统计转发量获得的。

举个例子，以预设阈值为3％为例，针对预设周期内每个发布信息，若第i个发布信息的预测转发量为yi，实际转发量为y，则第i个发布信息的预测转发量的预测相对误差Re_i可采用下述公式(5)进行计算：

比如，第i个发布信息的预测转发量为0.41，实际转发量为0.52，则采用下述公式(5)可计算出Re_i为21.2％。

上述实施例中确定预设周期对应的预测转发量的预测相对误差的具体实现方式有多种。以下提供几种可选的实施方式：

第一种可选的实施方式，计算预设周期中的N个发布信息中每个发布信息的预测相对误差，再计算N个发布信息的平均预测相对误差，作为预设周期对应的预测转发量的预测相对误差。如此，可以每个预测周期修正一次预测模型，得到反映一个预测周期内的发布信息的转发量预测模型，进而可以提高预测精度。

第二种可选的实施方式，将预设周期按时间段分为M个时间段，针对每个时间段内的发布信息计算一个平均预测相对误差，M个时间段中的第一个时间段采用预设周期的前一个预测周期的第M个时间段的修正后预测模型进行转发量预测；M个时间段中除第一个时间之外的每个时间段，执行：若该时间段的平均预测相对误差大于等于预设阈值，则调整调整前预测模型的特征向量的每个特征信息的权重，得到该时间段的修正后预测模型；若该时间段的平均预测相对误差小于预设阈值，该时间段的调整后预测模型与该时间段修正前预测模型，该时间段的修正后预测模型作为该时间段的后一个时间段的调整前预测模型。如此，预设周期内的每个时间段修正一次预测模型，相对于第一种可选的实施方式，第二种可选的实施方式中的预测模型修正模型的周期更短，每个时间段内的修正后预测模型更能反映该时间段内的转发量变化规律，对于下一个时间段的发布信息的转发量预测也更准确。

第三种可选的实施方式，采用预设周期的前一个预测周期的修正后预测模型作为第一预测模型，采用第一预测模型预测N个发布信息中的第一个发布信息的预测转发量，若第一个发布信息的预测转发量的预测相对误差大于等于预设阈值，则调整第一预测模型得到第一次修正后预测模型，使用第一次修正后预测模型预测第二个发布信息的转发量；若第一个发布信息的预测转发量的预测相对误差小于预设阈值，则继续使用第一预测模型预测第二个发布信息的转发量；之后，依次类推，针对N个发布信息中除第一个发布信息之外的每个发布信息，执行：若该发布信息的预测转发量的预测相对误差大于等于预设阈值，则调整该发布信息对应的调整前预测模型的特征向量的每个特征信息的权重，得到修正后预测模型；修正前预测模型为根据发布信息的前一个发布信息的修正后预测模型调整权重得到的；N个发布信息中的最后一个发布信息对应的修正后模型为第二预测模型。如此，根据每个发布信息修正一次预测模型，相对于前两种可选的实施方式，第二种可选的实施方式中的预测模型修正模型的周期更短，每个发布信息的修正后预测模型对于下一个发布信息的转发量预测也更准确。

本发明实施例中，在确定出预设周期对应的预测转发量的预测相对误差之后，主要包括两种情况：

第一种情况，预设周期对应的预测转发量的预测相对误差大于等于预设阈值，调整第一预测模型的特征向量的每个特征信息的权重，得到第二预测模型。

若发布信息的预测转发量的预测相对误差大于等于预设阈值，则：针对第一预测模型的特征向量的每个特征信息，根据该特征信息的第一权重和该特征信息的预设权重，确定出预设周期内的该特征信息的第二权重；将第一预测模型的特征向量的每个特征信息的第一权重调整为第二权重，得到第二预测模型。

具体实施例中，采用迭代计算的方法，使得每个预测模型的特征向量中的每个特征信息的权重，都在该特征信息的前一次值的基础上变化，如此修正预测模型可以避免个别的噪声数据对模型的破坏，使得预测转发量随着迭代次数的增加而越来越精确。比如，预设阈值为3％，针对每个特征信息，每个调整时刻对该特征信息的权重进行调整，每个时刻的特征信息的权重的调整，是在上一个时刻的该特征信息的权重的基础上进行调整，具体按下述公式(6)进行调整：

其中，

为第i个特征信息在t时刻的调整后权重，

为第i个特征信息在t时刻的权重，

为第i个特征信息在t-1时刻的权重，

为0到1之间的数值；如果a＝1，那么表示特征信息在t时刻的调整后权重不考虑t-1时刻的权重；如果a为0到1之间的数值，那么表示特征信息在t时刻的调整后权重

将在t-1时刻的权重

和t时刻的权重

之间变化。

举个例子，比如t-1时刻，第i个特征信息的权重为

第i个特征信息在t时刻的权重

那么第i个特征信息t时刻的权重

即

第二种情况，预设周期对应的预测转发量的预测相对误差小于预设阈值，不改变第一预测模型的特征向量的每个特征信息的权重，也就是说，第二预测模型即为第一预测模型。

为了更清楚的描述上述过程，本发明实施例提供发布信息以Twitter为例的实施例。

第一步，采集Twitter上的数据，包括以下步骤：

使用开发者账户登录Twitter，通过应用程序编程接口(ApplicationProgramming Interface，简称API)获取Twitter上数据。推特爬虫的API部分负责获取监控用户的推文详细信息与其推文转发详细信息，只有用开发者账户的信息才能成功获取与用API。流式API可以获取监控用户的实时信息(发布推文、删除推文、关注新用户…)，流式API用于获取用户的最新的推文。以2017年5月2日至5月8日的内容为Twiter训练数据和测试数据，共计3349212行记录，涉及39842个用户。

第二步，对采集的数据进行预处理：过滤掉不完整的信息、编码转换、广告信息，得到标准化的twitter数据。经过预处理，共有3024412行记录。

第三步，训练和测试数据：以24小时为一个预测周期对指定话题的Twiter进行数据采集，统计指定话题的Twiter在这段时间内的转发量，按照数据到来的先后顺序对转发预测模型训练、测试、修正、测试、修正、如此往复。

第四步，特征重要性分析。通过查看特征信息的重要性，发现以下特征信息相对重要，按照重要性先后顺序：粉丝数、评论数、发布博文总量、发布时间、出生日期等。

第五步，以最后一次的测试结果为准，采用本发明提供的转发量预测模型，如图3中的天气研究与预测模型(Weather Research and Forecasting Model，简称WRF)，以及现有技术中的随机森林(random forests，简称RF)模型、逻辑(Logistic)模型(如图3中Logistic模型)对Twiter的转发量进行分别预测，并进行精确度、召回率和F值的比对，其中F值即为精确度和召回率的调和平均值。、。

图3为本发明实施例提供的转发量预测模型与现有技术的模型预测转发量的示意图。如图3所示，本发明的转发量预测方法提供的WRF模型中，预测的精确度为0.909，召回率为0.914，F值为0.912。现有技术中的RF模型中，预测的精确度为0.869，召回率为0.873，F值为0.871。现有技术中的Logistic模型中，预测的精确度为0.75，召回率为0.84，F值为0.792。可见，本发明提供的WRF模型比现有技术中的RF模型和Logistic模型的转发量预测精确度、召回率和F值高，也就是说，本发明提供的WRF模型转发行为有更好、更准确的预测能力。

基于以上实施例以及相同构思，图4为本发明实施例提供的一种发布信息的转发量预测装置结构示意图，该转发量预测装置可以实现如上图1中所示的任一项或任多项对应的方法中的步骤。该转发量预测装置400可以包括获取模块401、模型预测模块402、模型修正模块403；可选的，还可以包括模型构建模块404。

获取模块401，用于获取预设周期内的发布信息；

模型预测模块402，用于针对所述预设周期内的每个发布信息，确定所述发布信息的特征向量；根据所述发布信息的特征向量和所述预设周期的前一个预测周期内确定的第一预测模型，预测出所述发布信息的预测转发量；所述第一预测模型为根据所述预设周期之前邻近的第二个预测周期内的预测模型修正得到的；

模型修正模块403，用于根据所述预设周期内的每个发布信息的预测转发量和所述预设周期内的每个发布信息的实际转发量，修正所述第一预测模型得到第二预测模型；所述第二预测模型用于预测所述预设周期的后一个预测周期内的每个发布信息的转发量。

可选的，所述模型修正模块403，用于：针对所述N个发布信息中每个发布信息，根据所述发布信息的预测转发量和所述发布信息的实际转发量，确定出所述发布信息的预测转发量的预测相对误差；根据所述N个发布信息中每个发布信息的预测转发量的预测相对误差，确定所述预设周期对应的预测转发量的预测相对误差；若所述预设周期对应的预测转发量的预测相对误差大于等于预设阈值，则调整所述第一预测模型的特征向量的每个特征信息的权重，得到第二预测模型。

可选的，所述模型修正模块403，用于：若所述发布信息的预测转发量的预测相对误差大于等于预设阈值，则：针对所述第一预测模型的特征向量的每个特征信息，根据所述特征信息的第一权重和所述特征信息的预设权重，确定出所述预设周期内的所述特征信息的第二权重；将所述第一预测模型的特征向量的每个特征信息的第一权重调整为所述第二权重，得到所述第二预测模型。

可选的，所述模型预测模块402，用于：确定出影响发布信息的转发量的至少一个特征信息；针对所述预设周期内的每个发布信息，执行：根据所述发布信息和所述至少一个特征信息，确定出所述发布信息对应的每个特征信息的特征值；将所述至少一个特征信息和所述发布信息对应的每个特征信息的特征值，作为所述发布信息的特征向量。

可选的，转发量预测装置400还包括模型构建模块404，用于：获取历史发布信息；确定出所述历史发布信息的特征向量和实际转发量；根据每个历史发布信息的特征向量、实际转发量和向量回归模型，构建初始预测模型；所述初始预测模型用于预测第一个预测周期内的发布信息的转发量。

该转发量预测装置400所涉及的与本发明实施例提供的技术方案相关的概念，解释和详细说明及其它步骤请参见前述发布信息的转发量预测方法或其它实施例中关于这些内容的描述，此处不做赘述。

需要说明的是，本发明实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。在本发明的实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本发明实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

本领域内的技术人员应明白，本发明实施例可提供为方法、系统、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种发布信息的转发量预测方法，其特征在于，包括：

获取预设周期内的发布信息；

2.如权利要求1所述的方法，其特征在于，所述预设周期内包括N个发布信息；所述根据所述预设周期内的每个发布信息的预测转发量和所述预设周期内的每个发布信息的实际转发量，修正所述第一预测模型得到第二预测模型，包括：

针对所述N个发布信息中每个发布信息，根据所述发布信息的预测转发量和所述发布信息的实际转发量，确定出所述发布信息的预测转发量的预测相对误差；

根据所述N个发布信息中每个发布信息的预测转发量的预测相对误差，确定所述预设周期对应的预测转发量的预测相对误差；

若所述预设周期对应的预测转发量的预测相对误差大于等于预设阈值，则调整所述第一预测模型的特征向量的每个特征信息的权重，得到第二预测模型。

3.如权利要求2所述的方法，其特征在于，所述若所述预设周期对应的预测转发量的预测相对误差大于等于预设阈值，则调整所述第一预测模型的特征向量的每个特征信息的权重，得到第二预测模型，包括：

若所述发布信息的预测转发量的预测相对误差大于等于预设阈值，则：

针对所述第一预测模型的特征向量的每个特征信息，根据所述特征信息的第一权重和所述特征信息的预设权重，确定出所述预设周期内的所述特征信息的第二权重；

将所述第一预测模型的特征向量的每个特征信息的第一权重调整为所述第二权重，得到所述第二预测模型。

4.如权利要求1所述的方法，其特征在于，所述根据所述预设周期内的每个发布信息，确定每个发布信息的特征向量，包括：

确定出影响发布信息的转发量的至少一个特征信息；

针对所述预设周期内的每个发布信息，执行：

根据所述发布信息和所述至少一个特征信息，确定出所述发布信息对应的每个特征信息的特征值；

将所述至少一个特征信息和所述发布信息对应的每个特征信息的特征值，作为所述发布信息的特征向量。

5.如权利要求1至4中任一权利要求所述的方法，其特征在于，在所述获取预设周期内的每个发布信息之前，还包括：

获取历史发布信息；

确定出所述历史发布信息的特征向量和实际转发量；

根据每个历史发布信息的特征向量、实际转发量和向量回归模型，构建初始预测模型；所述初始预测模型用于预测第一个预测周期内的发布信息的转发量。

6.一种发布信息的转发量预测装置，其特征在于，包括：

获取模块，用于获取预设周期内的发布信息；

7.如权利要求6所述的装置，其特征在于，所述预设周期内包括N个发布信息；

所述模型修正模块，用于：

8.如权利要求7所述的装置，其特征在于，所述模型修正模块，用于：

9.如权利要求6所述的装置，其特征在于，所述模型预测模块，用于：

确定出影响发布信息的转发量的至少一个特征信息；

针对所述预设周期内的每个发布信息，执行：

10.如权利要求6至9中任一权利要求所述的装置，其特征在于，还包括模型构建模块，用于：

获取历史发布信息；

确定出所述历史发布信息的特征向量和实际转发量；