CN106897388A

CN106897388A - 预测微博事件热度的方法及装置

Info

Publication number: CN106897388A
Application number: CN201710059472.8A
Authority: CN
Inventors: 李建欣; 钟盛海; 李晨; 彭浩; 张日崇
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2017-01-24
Filing date: 2017-01-24
Publication date: 2017-06-27

Abstract

本发明提供一种预测微博事件热度的方法及装置。本发明提供的预测微博事件热度的方法包括：获取与微博事件相关联的K个第一关键词，并获取各第一关键词各自在当前日的当前热度值；其中，K≥2，且K为正整数；以各当前热度值作为输入，通过基于门控循环单元GRU的循环神经网络模型预测得到所述微博事件在下一日的目标热度值。本发明的预测微博事件热度的方法及装置，对微博事件预测日的预测结果准确且预测耗时少。

Description

预测微博事件热度的方法及装置

技术领域

本发明涉及机器学习技术，尤其涉及一种预测微博事件热度的方法及装置。

背景技术

根据微博事件的热度可以有效的了解微博用户的兴趣变化，为政府舆情预警和企业商业决策提供有效的技术支持。因此，对事件未来的热度进行预测具有重要的实际意义。微博事件热度预测是指根据微博事件的历史热度数据对微博事件在未来某个时刻的热度值进行预测。

现有技术中，预测微博事件热度的方法主要为采用单关键词对微博事件进行表示，根据该关键词的历史热度，通过自回归积分滑动平均模型(AutoregressiveIntegrated Moving Average Model，ARIMA)对微博事件在未来某个时刻的热度值进行预测。

但是，上述预测微博事件热度的方法，只采用单个关键词微博事件进行表示，并根据该单个关键词的历史热度对微博事件在未来某个时刻的热度值进行预测，预测结果不够准确。

发明内容

本发明提供一种预测微博事件热度的方法及装置，以克服现有技术中的预测方法预测结果不准确的技术问题。

本发明提供一种预测微博事件热度的方法，包括：

获取与微博事件相关联的K个第一关键词，并获取各第一关键词各自在当前日的当前热度值；其中，K≥2，且K为正整数；

以各所述当前热度值作为输入，通过基于门控循环单元GRU的循环神经网络模型预测得到所述微博事件在下一日的目标热度值。

如上所述的方法，所述基于GRU的循环神经网络模型包括输入层、隐藏层和输出层，所述GRU为隐藏层节点；

在所述以各当前热度值作为输入，通过GRU的循环神经网络模型预测得到所述微博事件在下一日的目标热度值之前，所述方法还包括：

获取各所述第一关键词在多个历史日各自对应的热度值h_n，k，n＝1，2……N，N为正整数，k＝1，2……K；其中，h_n，k表示第k个关键词在所述当前日之前的前n天的热度值；

根据所述第一关键词的热度值h_n，k，采用基于GRU的循环神经网络模型学习得到目标预测参数，其中，所述目标预测参数包括：所述输入层的节点和所述GRU之间的第一目标连接权重、GRU和所述输出层的节点之间的第二目标连接权重和GRU的目标向量参数；

相应地，所述以各当前热度值作为输入，采用基于GRU的循环神经网络模型预测得到所述微博事件在下一日的目标热度值，包括：

以各当前热度值作为输入，根据所述目标预测参数，通过基于GRU的循环神经网络模型预测得到所述微博事件在下一日的目标热度值。

如上所述的方法，所述输入层的节点为K个，所述GRU为M个，所述输出层节点为1个，其中，K＝M；

所述根据所述第一关键词的热度值h_n，k，采用基于GRU的循环神经网络模型学习得到目标预测参数，包括：

根据所述基于GRU的循环神经网络模型的第n-1次学习时的输出与h_N-n+1，k的实际权重平均的平方误差，采用误差反向传播算法对第n-1次学习时对应的第一连接权重w_n-1,k,m、第二连接权重w_n-1,m,o和GRU的向量参数进行更新，得到第n次学习时对应的第一连接权重w_n,k,m、第二连接权重w_n,m,o和GRU的向量参数；其中，所述第n-1次学习时的输出为h_N-n+1，k的预测权重平均，w_n,k,m表示第n次学习时对应的第k个输入节点与第m个GRU之间的第一连接权重，w_n,m,o表示第n次学习时第m个GRU与输出层节点之间的第二连接权重，m＝1,2……M；

以h_N-n+1，k作为第n次学习时的输入，以h_N-n，k的实际权重平均作为第n次学习时的期望输出，根据得到的第n次学习时的第一连接权重w_n,k,m、第二连接权重w_n,m,o和GRU的向量参数，采用基于GRU的循环神经网络模型学习得到的h_N-n，k的预测权重平均；

根据h_N-n，k的预测权重平均与h_N-n，k的实际权重平均的平方误差，采用误差反向传播算法对第n次学习时对应的第一连接权重w_n,k,m、第二连接权重w_n,m,o和GRU的向量参数进行更新，得到第n+1次学习时第一连接权重w_n+1,k,m、第二连接权重w_n+1,m,o和GRU的向量参数；

重复执行更新相应学习次数对应的第一连接权重、第二连接权重和GRU的向量参数的操作，直至学习次数达到N次，将对第N次学习时对应的GRU的向量参数和第一连接权重w_N,k,m、第二连接权重w_N,m,o进行更新后得到的第一连接权重w_N+1,k,m、第二连接权重w_N+1,m,o和GRU的向量参数作为所述目标预测参数。

如上所述的方法，所述目标向量参数包括：第一目标更新向量W_z、第二目标更新向量U_z、第一目标重置向量W_r、第二目标重置向量U_r、第一目标输出向量W_h、第二目标输出向量U_h、第三目标更新向量b_z、第三目标重置向量b_r、第三目标输出向量l_h和第四目标输出向量b_h；

所述以各当前热度值作为输入，根据所述目标预测参数，通过基于门控循环单元GRU的循环神经网络模型预测得到所述微博事件在下一日的目标热度值，包括：

将各所述第一关键词的各自的当前热度值输入至输入层；

通过公式一获取第m个GRU的输入x_o，m：

x_o,m＝w_1.mh_o,1+w_2,.mh_o,2+....+w_k,.mh_o,k+...w_K,.mh_o,K 公式一；

其中，h_o，k为第k个第一关键的当前热度值，w_k，m为第k个输入节点和第m个GRU的第一目标连接权重；w_N+1,k,m和w_k，m相同；

采用所述GRU的更新子单元，通过公式二获取第m个GRU的更新比例z_m：

z_m＝σ_g(W_zx_o,m+U_zh₁+b_z) 公式二；

其中，h₁为获取目标预测参数的过程中，第N-1次学习得到的h_1，k的预测权重平均，σ_g表示sigmoid函数；

采用所述GRU的重置子单元，通过公式三获取第m个GRU的重置比例r_m：

r_m＝σ_g(W_rx_o,m+U_rh₁+b_r) 公式三；

采用所述GRU的第一生成子单元，通过公式四获取第m个GRU的第一输出热度值g_m：

其中，表示哈达马乘积，σ_h表示双曲线Hyperbolic函数；

采用所述GRU的第二生成子单元，通过公式五获取第m个GRU的第二输出热度值G_m：

将所述G_m作为输出层的输入，在输出层采用预测函数公式运算得到目标热度值P，所述预测函数公式为：

P＝w_1,og₁+w_2,.og₂+....+w_mg_m+...w_M,og_M 公式六；

其中，w_m,o为第m个GRU与输出节点之间的第二目标连接权重，w_N+1,m,o和w_m,o相同。

如上所述的方法，所述获取与微博事件相关联的K个第一关键词，包括：

对所述微博事件对应的文本进行分词，得到I个第二关键词；

获取所述当前日之前的前j天中与所述微博事件相关的所有微博，并将所述所有微博对应的文本组成一个文档；j＝1,2……J；

通过公式七和公式八获取各第二关键词的词频T_i：

其中，tf_i,j是第i个第二关键词相对于第j个文档的词频，n_i，j表示第i个第二关键词在第j个文档中出现的次数；所述第j个文档为所述当前日之前的前j天中与所述微博事件相关的所有微博对应的文本组成的文档；

通过公式九获取各第二关键词的逆文档频率idf_i：

其中，|{j:t_i∈J_j}|，表示包括第i个第二关键词的文档数目；

通过公式十获取各第二关键词的逆文档频率F_i：

F_i＝T_i×idf_i 公式十；

按照逆文档频率F_i从大到小的顺序进行排序，将排序位于前K的K个第二关键词作为所述第一关键词。

本发明还提供一种预测微博事件热度的装置，包括：

第一关键词获取模块，所述第一关键词获取模块用于获取与微博事件相关联的K个第一关键词；

热度值获取模块，所述热度值获取模块用于获取各第一关键词各自在当前日的当前热度值；其中，K≥2，且K为正整数；

目标热度值预测模块，所述目标热度值预测模块用于以各所述当前热度值作为输入，通过基于门控循环单元GRU的循环神经网络模型预测得到所述微博事件在下一日的目标热度值。

如上所述的装置，所述热度值获取模块还用于获取各所述第一关键词在多个历史日各自对应的热度值h_n，k，n＝1，2……N，N为正整数，k＝1，2……K；其中，h_n，k表示第k个关键词在所述当前日之前的前n天的热度值；

所述装置还包括：

目标预测参数获取模块，所述目标预测参数获取模块用于根据所述第一关键词的热度值h_n，k，采用基于GRU的循环神经网络模型学习得到目标预测参数，其中，所述目标预测参数包括：所述输入层的节点和所述GRU之间的第一目标连接权重、GRU和所述输出层的节点之间的第二目标连接权重和GRU的目标向量参数；

其中，所述基于GRU的循环神经网络模型包括输入层、隐藏层和输出层，所述GRU为隐藏层节点。

如上所述的装置，所述第一关键词获取模块具体用于：

对所述微博事件对应的文本进行分词，得到I个第二关键词；

通过公式七和公式八获取各第二关键词的词频T_i：

通过公式九获取各第二关键词的逆文档频率idf：

其中，|{j:t_i∈J_j}|，表示包括第i个第二关键词的文档数目；

通过公式十获取各第二关键词的逆文档频率F_i：

F_i＝T_i×idf_i 公式十；

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的预测微博事件热度的方法的流程图；

图2为本发明提供的基于GRU的循环神经网络模型的示意图一；

图3为本发明提供的预测微博事件热度的装置实施例一的结构示意图；

图4为本发明提供的预测微博事件热度的装置实施例二的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有技术中，预测微博事件热度的方法主要为采用单关键词对微博事件进行表示，根据该关键词的历史热度，通过ARIMA方法对微博事件在未来某个时刻的热度值进行预测。但是，上述预测微博事件热度的方法，只采用单个关键词微博事件进行表示，并根据该单个关键词的历史热度对微博事件在未来某个时刻的热度值进行预测，预测结果不准确。为了解决上述问题，本发明提出一种预测微博事件热度的方法及装置。下面对本发明进行详细的说明。

图1为本发明提供的预测微博事件热度的方法的流程图，如图1所示，本实施例的方法可以包括：

步骤S101、获取与微博事件相关联的K个第一关键词，并获取各第一关键词各自在当前日的当前热度值；其中，K≥2，且K为正整数；

步骤S102、以各当前热度值作为输入，通过基于门控循环单元GRU的循环神经网络模型预测得到微博事件在下一日的目标热度值。

具体地，对于微博事件，其为一件具体的微博，比如有关春运的一件微博。

其中，步骤“获取与微博事件相关联的K个第一关键词，的具体方法为：

(1)对微博事件对应的文本进行分词，得到I个第二关键词。

其中，文本分词的方法可以采用现有技术中的分词方法，优选为NLPIR分词方法。

(2)获取当前日之前的前j天中与微博事件相关的所有微博，并将所有微博对应的文本组成一个文档；j＝1,2……J。

下面举例说明当前日之前的前j天的具体含义：当前日之前的日期也称为历史日；若当前日为今天，当前日之前的前1天指的是昨天，当前日之前的前2天指的是前天，依次类推。

获取当前日之前的前j天中与微博事件相关的所有微博，比如与题目“今日开始春运”的微博事件相关的所有微博，将该天中所有微博对应的文本组合在一起，得到一篇文档。每个历史日得到一篇文档，J个历史日就能得到J篇文档。

(3)通过公式七和公式八获取各第二关键词的词频T_i：

其中，tf_i,j是第i个第二关键词相对于第j个文档的词频，n_i，_j表示第i个第二关键词在第j个文档中出现的次数；第j个文档为当前日之前的前j天中与微博事件相关的所有微博对应的文本组成的文档；

词频(Term Frequency,TF)指的是某一个事件的关键词在微博对应的文档中出现的次数。

(4)通过公式九获取各第二关键词的逆文档频率idf_i：

其中，|{j:t_i∈J_j}|，表示包括第i个第二关键词的文档数目；

某一关键词的逆文档频率(Inverse Document Frequency,IDF)越大，说明该关键词与对应文档的相关度更高。

(5)通过公式十获取各第二关键词的逆文档频率F_i：

F_i＝T_i×idf_i 公式十；

按照逆文档频率F_i从大到小的顺序进行排序，将排序位于前K的K个第二关键词作为第一关键词。

在获取到了微博事件的K个第一关键词之后，接着获取各第一关键词在当前日的各自的当前热度值。

本实施例中，关键词的热度值指的是在某一天相关微博的数量。比如，题目为“今日开始春运”的微博事件，其中第一关键词为春运，则获取当前日中所有与“春运”相关的微博，当前日中所有与“春运”相关的微博的数量即为第一关键词“春运”的当前热度值。

接着，采用获取当前热度值相同的方法，获取各第一关键词在多个历史日各自对应的热度值h_n，_k，n＝1，2……N，N为正整数，k＝1，2……K；其中，h_n，_k表示第k个关键词在当前日之前的前n天的热度值；

根据第一关键词的热度值h_n，_k，采用基于门控循环单元(Gated RecurrentUnit，简称GRU)的循环神经网络模型学习得到目标预测参数，其中，目标预测参数包括：输入层的节点和GRU之间的第一目标连接权重、GRU和输出层的节点之间的第二目标连接权重和GRU的目标向量参数。

其中，图2为本发明提供的基于GRU的循环神经网络模型的示意图。参见图2，基于GRU的循环神经网络模型包括输入层、隐藏层和输出层，GRU为隐藏层节点。输入层的节点11为K个，GRU12为M个，输出层节点13为1个，其中，K＝M。以下描述中出现的m的取值范围为：m＝1,2……M。

下面对获取目标预设参数的过程进行详细的说明。

初始化每个输入层的节点与每个GRU之间的第一连接权重w_1,k,m，每个GRU与输出层节点的第二连接权重w_1,m,o，每个GRU的向量参数：第一更新向量W_1z、第二更新向量U_1z、第一重置向量W_1r、第二重置向量U_1r、第一输出向量W_1h和第二输出向量U_1h、第三更新向量b_1z、第三重置向量b_1r、第三输出向量l_1h和第四输出向量b_1h；所有向量和向量中的元素均根据标准正态分布随机产生。

以h_N，k作为第1次学习时的输入，以h_N-1，k的实际权重平均作为第1次学习时的期望输出，根据初始化的第一连接权重w_1,k,m(w_1,k,m表示第1次学习时第k个输入节点与第m个GRU之间的第一连接权重)、第二连接权重w_1,m,o(w_1,m,o表示第1次学习时第m个GRU与输出层节点之间的第二连接权重)、GRU的第一更新向量W_1z、第二更新向量U_1z、第一重置向量W_1r、第二重置向量U_1r、第一输出向量W_1h、第二输出向量U_1h、第三更新向量b_1z、第三重置向量b_1r、第三输出向量l_1h和第四输出向量b_1h，采用基于GRU的循环神经网络模型学习得到的h_N-1，k的预测权重平均P_N-1，即第一学习输出层输出的为h_N-1，k的预测权重平均P_N-1；其中，在输出层得到P_N-1时采用的预测函数为：P_N-1＝w_1,m,og_1,1+w_1,2,.og_1.2+....+w_1,m,og_1,m+...w_1,M,og_1,M，其中，g_1,m为第1次学习第m个GRU单元的输出，也是输出层其中的一个输入，输出层一共具有M个输入，也就是说每个GRU的输出均为输出层的输入。相应地，h_N-1，k的实际权重平均p_N-1的计算方法为：p_N-1＝w_1,1,oh_N-1,1+w_1,2,.oh_N-1.2+....+w_1,m,oh_N-1,k+...w_M,oh_N-1,K。

在学习得到P_N-1后，获取P_N-1与p_N-1的平方误差L₁：L₁＝(p_N-1-P_N-1)²，根据L₁采用误差反向传播算法更新第一连接权重w_1,k,m，第二连接权重w_1,m,o，第一更新向量W_1z、第二更新向量U_1z、第一重置向量W_1r、第二重置向量U_1r、第一输出向量W_1h、第二输出向量U_1h、第三更新向量b_1z、第三重置向量b_1r、第三输出向量l_1h和第四输出向量b_1h，得到第2次学习时的第一连接权重w_2,k,m，第二连接权重w_2,m,o，第一更新向量W_2z、第二更新向量U_2z、第一重置向量W_2r、第二重置向量U_2r、第一输出向量W_2h、第二输出向量U_2h、第三更新向量b_2z、第三重置向量b_2r、第三输出向量l_2h和第四输出向量b_2h。

以h_N-1，k作为第2次学习时的输入，以h_N-2，k的实际权重平均作为第2次学习时的期望输出，根据第一连接权重w_2,k,m(w_2,k,m表示第2次学习时第k个输入节点与第m个GRU之间的第一连接权重)、第二连接权重w_2,m,o(w_2,m,o表示第2次学习时第m个GRU与输出层节点之间的第二连接权重)、第一更新向量W_2z、第二更新向量U_2z、第一重置向量W_2r、第二重置向量U_2r、第一输出向量W_2h、第二输出向量U_2h、第三更新向量b_2z、第三重置向量b_2r、第三输出向量l_2h和第四输出向量b_2h，采用基于GRU的循环神经网络模型学习得到的h_N-2，k的预测权重平均P_N-2，即第一学习输出层输出的为h_N-2，k的预测权重平均P_N-2；其中，在输出层得到P_N-2时采用的预测函数为：P_N-2＝w_2,1,og_2,1+w_2,2,.og_2.2+....+w_2,m,og_2,m+...w_2,M,og_2,M，其中，g_2,m为第2次学习时第m个GRU单元的输出。相应地，h_N-2，k的实际权重平均p_N-2的计算方法为：p_N-2＝w_2,m,oh_N-2,1+w_2,2,oh_N-2.2+....+w_2,m,oh_N-2,k+...w_2,M,oh_N-2,K。

……

根据第n-1次学习时的输出P_N-n+1与h_N-n+1，k的实际权重平均p_N-n+1的平方误差L_n-1，采用误差反向传播算法对第n-1次学习时对应的第一连接权重w_n-1,k,m、第二连接权重w_n-1,m,o和GRU的第一更新向量W_n-1,z、第二更新向量U_n-1,z、第一重置向量W_n-1,r、第二重置向量U_n-1,r、第一输出向量W_n-1,h、第二输出向量U_n-1,h、第三更新向量b_n-1,z、第三重置向量b_n-1,r、第三输出向量l_n-1,h和第四输出向量b_n-1,h进行更新，得到第n次学习时对应的第一连接权重w_n,k,m、第二连接权重w_n,m,o和GRU的第一更新向量W_nz、第二更新向量U_nz、第一重置向量W_nr、第二重置向量U_nr、第一输出向量W_nh、第二输出向量U_nh、第三更新向量b_nz、第三重置向量b_nr、第三输出向量l_nh和第四输出向量b_nh；其中，第n-1次学习时的输出为h_N-n+1，k的预测权重平均，w_n,k,m表示第n次学习时对应的第k个输入节点与第m个GRU之间的第一连接权重，w_n,m,o表示第n次学习时第m个GRU与输出层节点之间的第二连接权重；

以h_N-n+1，k作为第n次学习时的输入，以h_N-n，k的实际权重平均p_N-n作为第n次学习时的期望输出，根据得到的第n次学习时的第一连接权重w_n,k,m、第二连接权重w_n,m,o和GRU的第一更新向量W_nz、第二更新向量U_nz、第一重置向量W_nr、第二重置向量U_nr、第一输出向量W_nh和第二输出向量U_nh、第三更新向量b_nz、第三重置向量b_nr、第三输出向量l_nh和第四输出向量b_nh，采用基于GRU的循环神经网络模型学习得到的h_N-n，k的预测权重平均P_N-n；

根据h_N-n，k的预测权重平均P_N-n与h_N-n，k的实际权重平均p_N-n的平方误差L_n，采用误差反向传播算法对第n次学习时对应的第一连接权重w_n,k,m、第二连接权重w_n,m,o和GRU的第一更新向量W_nz、第二更新向量U_nz、第一重置向量W_nr、第二重置向量U_nr、第一输出向量W_nh、第二输出向量U_nh、第三更新向量b_nz、第三重置向量b_nr、第三输出向量l_nh和第四输出向量b_nh进行更新，得到第n+1次学习时第一连接权重w_n+1,k,m、第二连接权重w_n+1,m,o和GRU的第一更新向量W_n+1,z、第二更新向量U_n+1,z、第一重置向量W_n+1,r、第二重置向量U_n+1,r、第一输出向量W_n+1,h、第二输出向量U_n+1,h、第三更新向量b_n+1,z、第三重置向量b_n+1,r、第三输出向量l_n+1，h和第四输出向量b_n+1，h；

重复执行更新相应学习次数对应的第一连接权重、第二连接权重和GRU的向量参数的操作，直至学习次数达到N次，将对第N次学习时对应的第一连接权重w_N,k,m、第二连接权重w_N,m,o和GRU的第一更新向量W_N,z、第二更新向量U_N,z、第一重置向量W_N,r、第二重置向量U_N,r、第一输出向量W_N,h、第二输出向量U_N,h、第三更新向量b_N,z和第三重置向量b_N,r、第三输出向量l_N，h和第四输出向量b_N，h进行更新后得到的第一目标连接权重w_N+1,k,m、第一目标连接权重w_N+1,m,o和GRU的第一目标更新向量W_z、第二目标更新向量U_z、第一目标重置向量W_r、第二目标重置向量U_r、第一目标输出向量W_h、第二目标输出向量U_h、第三目标更新向量b_z、第三目标重置向量b_r、第三目标输出向量l_h和第四目标输出向量b_h作为目标预测参数。

本领域技术人员可以理解的是，N的取值应该尽可能的大，以使各目标预测参数趋于收敛。每次学习采用的预测函数和平方误差的获取公式均相同。

在得到了目标预测参数后，便以各当前热度值作为输入，根据目标预测参数，通过基于GRU的循环神经网络模型预测得到微博事件在下一日的目标热度值。

下面对获取目标热度值的方法进行详细的说明。

其中，目标向量参数包括：第一目标更新向量W_z、第二目标更新向量U_z、第一目标重置向量W_r、第二目标重置向量U_r、第一目标输出向量W_h和第二目标输出向量U_h、第三目标更新向量b_z、第三目标重置向量b_r、第三目标输出向量l_h和第四目标输出向量b_h。

将各第一关键词的各自的当前热度值输入至输入层；

通过公式一获取第m个GRU的输入x_o，m：

x_o,m＝w_1.mh_o,1+w_2,.mh_o,2+....+w_k,.mh_o,k+...w_K,.mh_o,K 公式一；

其中，h_o，k为第k个第一关键的当前热度值，w_k，m为第k个输入节点和第m个GRU的第一目标连接权重；w_k，m与w_N+1,k,m相同；

采用GRU的更新子单元，通过公式二获取更新比例z_m：

z_m＝σ_g(W_zx_o,m+U_zh₁+b_z) 公式二；

其中，h₁为获取目标预测参数的过程中，第N-1次学习得到的h_1，k的预测权重平均，也就是第N-1次学习时的输出，σ_g表示sigmoid函数；

采用GRU的重置子单元，通过公式三获取第m个GRU的重置比例r_m：

r_m＝σ_g(W_rx_o,m+U_rh₁+b_r) 公式三；

采用GRU的第一生成子单元，通过公式四获取第m个GRU的第一输出热度值g_m：

其中，表示哈达马乘积，σ_h表示双曲线Hyperbolic函数；

采用GRU的第二生成子单元，通过公式五获取第m个GRU的第二输出热度值G_m：

将G_m作为输出层的输入，在输出层采用预测函数公式运算得到目标热度值P，预测函数公式为：

P＝w_1,og₁+w_2,.og₂+....+w_m,og_m+...w_M,og_M 公式六；

其中，w_m,o为第m个GRU与输出节点之间的第二目标连接权重；w_m,o和w_N+1,m,o相同。

在本实施例中，采用多关键词的历史热度趋势预测微博事件的未来某一时刻的热度，可以使预测结果更准确；根据多个关键词的历史热度值，利用基于GRU的循环神经网络模型，预测微博事件的预测日的热度，计算量小且准确，而且不仅考虑到了预测日前一天的该微博事件的热度，还考虑到了预测日前2天的该微博事件的热度，进一步保证了预测结果的准确性。

在获取到微博事件在预测日的热度值后，可以根据微博事件在预测日的热度值与微博事件在预测日的前一日的热度值的大小关系，确定微博事件的热度趋势，若预测日的热度值大于前一日的热度值，说明微博事件在预测日的热度相对于前一日的热度上升，反之，说明博事件在预测日的热度相对于前一日的热度下降。

本实施例的预测微博事件热度的方法包括：获取与微博事件相关联的K个第一关键词，并获取各第一关键词各自在当前日的当前热度值；其中，K≥2，且K为正整数；以各当前热度值作为输入，通过基于门控循环单元GRU的循环神经网络模型预测得到微博事件在下一日的目标热度值。本实施例的预测微博事件热度的方法预测结果准确且预测耗时少。

图3为本发明提供的预测微博事件热度的装置实施例一的结构示意图，如图3所示，本实施例的装置可以包括：第一关键词获取模块31、热度值获取模块32和目标热度值预测模块33，其中，第一关键词获取模块31用于获取与微博事件相关联的K个第一关键词；热度值获取模块32用于获取各第一关键词各自在当前日的当前热度值；其中，K≥2，且K为正整数；目标热度值预测模块33用于以各当前热度值作为输入，通过基于门控循环单元GRU的循环神经网络模型预测得到微博事件在下一日的目标热度值。

其中，第一关键词获取模块具体用于：

对微博事件对应的文本进行分词，得到I个第二关键词；

获取当前日之前的前j天中与微博事件相关的所有微博，并将所有微博对应的文本组成一个文档；j＝1,2……J；

通过公式七和公式八获取各第二关键词的词频T_i：

其中，tf_i,j是第i个第二关键词相对于第j个文档的词频，n_i，j表示第i个第二关键词在第j个文档中出现的次数；第j个文档为当前日之前的前j天中与微博事件相关的所有微博对应的文本组成的文档；

通过公式九获取各第二关键词的逆文档频率idf_i：

其中，|{j:t_i∈J_j}|，表示包括第i个第二关键词的文档数目；

通过公式十获取各第二关键词的逆文档频率F_i：

F_i＝T_i×idf_i 公式十；

本实施例的装置，可以用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图4为本发明提供的预测微博事件热度的装置实施例二的结构示意图，如图4所示，本实施例的装置在图3所示装置结构的基础上，进一步地，还可以包括：目标预测参数获取模块34。其中，热度值获取模块32还用于获取各第一关键词在多个历史日各自对应的热度值h_n，_k，n＝1，2……N，N为正整数，k＝1，2……K；其中，h_n，_k表示第k个关键词在当前日之前的前n天的热度值；目标预测参数获取模块34用于根据第一关键词的热度值h_n，_k，采用基于GRU的循环神经网络模型学习得到目标预测参数，其中，目标预测参数包括：输入层的节点和GRU之间的第一目标连接权重、GRU和输出层的节点之间的第二目标连接权重和GRU的目标向量参数；基于GRU的循环神经网络模型包括输入层、隐藏层和输出层，GRU为隐藏层节点。

其中，目标预测参数获取模块34具体用于根据基于GRU的循环神经网络模型的第n-1次学习时的输出与h_N-n+1，_k的实际权重平均的平方误差，采用误差反向传播算法对第n-1次学习时对应的第一连接权重w_n-1,k,m、第二连接权重w_n-1,m,o和GRU的向量参数进行更新，得到第n次学习时对应的第一连接权重w_n,k,m、第二连接权重w_n,m,o和GRU的向量参数；其中，第n-1次学习时的输出为h_N-n+1，k的预测权重平均，w_n,k,m表示第n次学习时对应的第k个输入节点与第m个GRU之间的第一连接权重，w_n,m,o表示第n次学习时第m个GRU与输出层节点之间的第二连接权重，m＝1,2……M；

重复执行更新相应学习次数对应的第一连接权重、第二连接权重和GRU的向量参数的操作，直至学习次数达到N次，将对第N次学习时对应的GRU的向量参数和第一连接权重w_N,k,m、第二连接权重w_N,m,o进行更新后得到的第一连接权重w_N+1,k,m、第二连接权重w_N+1,m,o和GRU的向量参数作为目标预测参数。

目标热度值预测模块33具体用于，通过公式一获取第m个GRU的输入x_o，m：

x_o,m＝w_1.mh_o,1+w_2,.mh_o,2+....+w_k,.mh_o,k+...w_K,.mh_o,K 公式一；

采用GRU的更新子单元，通过公式二获取第m个GRU的更新比例z_m：

z_m＝σ_g(W_zx_o,m+U_zh₁+b_z) 公式二；

r_m＝σ_g(W_rx_o,m+U_rh₁+b_r) 公式三；

其中，表示哈达马乘积，σ_h表示双曲线Hyperbolic函数；

P＝w_1,og₁+w_2,.og₂+....+w_m,og_m+...w_M,og_M 公式六；

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种预测微博事件热度的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于GRU的循环神经网络模型包括输入层、隐藏层和输出层，所述GRU为隐藏层节点；

获取各所述第一关键词在多个历史日各自对应的热度值h_n，k，n＝1，2……N，N为正整数，k＝1，2……K；其中，h_n，_k表示第k个关键词在所述当前日之前的前n天的热度值；

3.根据权利要求2所述的方法，其特征在于，所述输入层的节点为K个，所述GRU为M个，所述输出层节点为1个，其中，K＝M；

4.根据权利要求3所述的方法，其特征在于，所述目标向量参数包括：第一目标更新向量W_z、第二目标更新向量U_z、第一目标重置向量W_r、第二目标重置向量U_r、第一目标输出向量W_h、第二目标输出向量U_h、第三目标更新向量b_z、第三目标重置向量b_r、第三目标输出向量l_h和第四目标输出向量b_h；

将各所述第一关键词的各自的当前热度值输入至输入层；

通过公式一获取第m个GRU的输入x_o，m：

x_o,m＝w_1.mh_o,1+w_2,.mh_o,2+....+w_k,.mh_o,k+...w_K,.mh_o,K 公式一；

z_m＝σ_g(W_zx_o,m+U_zh₁+b_z) 公式二；

其中，h₁为获取目标预测参数的过程中，第N-1次学习得到的h₁，_k的预测权重平均，σ_g表示sigmoid函数；

r_m＝σ_g(W_rx_o,m+U_rh₁+b_r) 公式三；

其中，表示哈达马乘积，σ_h表示双曲线Hyperbolic函数；

P＝w_1,og₁+w_2,.og₂+....+w_mg_m+...w_M,og_M 公式六；

5.根据权利要求1所述的方法，其特征在于，所述获取与微博事件相关联的K个第一关键词，包括：

对所述微博事件对应的文本进行分词，得到I个第二关键词；

通过公式七和公式八获取各第二关键词的词频T_i：

通过公式九获取各第二关键词的逆文档频率idf_i：

其中，|{j:t_i∈J_j}|，表示包括第i个第二关键词的文档数目；

通过公式十获取各第二关键词的逆文档频率F_i：

F_i＝T_i×idf_i 公式十；

6.一种预测微博事件热度的装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述热度值获取模块还用于获取各所述第一关键词在多个历史日各自对应的热度值h_n，_k，n＝1，2……N，N为正整数，k＝1，2……K；其中，h_n，k表示第k个关键词在所述当前日之前的前n天的热度值；

所述装置还包括：

目标预测参数获取模块，所述目标预测参数获取模块用于根据所述第一关键词的热度值h_n，_k，采用基于GRU的循环神经网络模型学习得到目标预测参数，其中，所述目标预测参数包括：所述输入层的节点和所述GRU之间的第一目标连接权重、GRU和所述输出层的节点之间的第二目标连接权重和GRU的目标向量参数；

8.根据权利要求6所述的装置，其特征在于，所述第一关键词获取模块具体用于：

对所述微博事件对应的文本进行分词，得到I个第二关键词；

通过公式七和公式八获取各第二关键词的词频T_i：

通过公式九获取各第二关键词的逆文档频率idf_i：

其中，|{j:t_i∈J_j}|，表示包括第i个第二关键词的文档数目；

通过公式十获取各第二关键词的逆文档频率F_i：

F_i＝T_i×idf_i 公式十；