CN105975504A

CN105975504A - 一种基于循环神经网络的社交网络消息爆发检测方法及系统

Info

Publication number: CN105975504A
Application number: CN201610273082.6A
Authority: CN
Inventors: 笱程成; 程学旗; 杜攀; 刘悦; 沈华伟
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2016-04-28
Filing date: 2016-04-28
Publication date: 2016-09-28

Abstract

本发明提出一种基于循环神经网络(Recurrent Neural Network，RNN)的社交网络消息爆发检测方法及系统，涉及在线社交网络中内容的流行度预测技术领域，该方法包括获取社交网络中用户发布与转发的历史消息，对所述历史消息进行预处理，获取历史转发时间序列；对所述历史消息与所述历史转发时间序列进行循环神经网络训练，并生成预测模型；实时采集用户发布与转发的消息，根据所述消息，生成转发时间序列，将所述转发时间序列输入到所述预测模型，生成特征表达，将所述特征表达输入到全连接神经网络进行分类，结果以softmax方式输出，以完成社交网络消息爆发检测。

Description

一种基于循环神经网络的社交网络消息爆发检测方法及系统

技术领域

本发明涉及在线社交网络中内容的流行度预测技术领域，特别涉及一种基于循环神经网络的社交网络消息爆发检测方法及系统。

背景技术

以微博为代表的在线社交媒体，每天会产生数以亿计的消息和内容，社交网络中用户高度互联的结构和用户的从众效应使得消息的扩散变得十分的便捷和高效，极大地便利了人们获取信息的方式，加强了人与人之间的联系，然而，网络中的信息良莠不齐，只有极少部分的消息最终会流行和爆发，引起公众广泛地关注并伴随着巨大的社会舆论和影响，在消息或内容爆发的早期进行有效识别，对于公司来讲，是在线信誉监控(Online Reputation Monitoring)的重要手段，如果是负面的消息，则应该及时采取相应的措施，降低公司信誉损失，正面的消息则可借机营销，提升公司业绩；对于政府部门来讲，尽早地发现关于自然灾害事件、公共卫生疾病、反动谣言等消息，就能及时采取对应的措施，提前进行相应的决策和部署。

目前，预测消息的爆发和流行主要可以分为基于内容特征的分析方法和基于自激励点过程的方法，基于内容特征的方法通过捕捉消息相关的内容特征随时间的异常变化，来发现突发的话题，这种方法需要消息的传播积累到一定程度，达到了显著的水平，客观上造成了爆发消息被检出的时间已经接近或滞后于消息爆发实际发生的时间，时效性不高；基于自激励点过程的方法，以消息个体为对象，将其转发时间序列建模成自激励的点过程，旨在刻画消息传播中的“富者愈富”、“时间衰减”等序列特征，与基于内容特征的方法相比，该方法时效性高，但是，基于自激励点过程的方法，仍存在以下缺点：第一，其特征是人为定义的，对数据的依赖很强，如对于“富者愈富”现象的建模，有的采用线性函数，有的采用非线性函数，对于“时间衰减”效应，有的采用log-normal分布，有的采用power law分布；第二，该模型在预测的时候只利用了待预测消息的观测序列，没有用到其它消息的历史传播信息，导致预测的准确性不高。综上，目前还缺乏一种预测及时，人为干预少且预测效果好的方法。

发明专利“一种微博突发事件检测方法”，包括步骤：降维处理：基于LSH算法对微博数据流中的词汇进行映射处理；创建B-Sketch模型：创建微博数据流中的B-Sketch数据；推测突发事件：根据B-Sketch数据计算微博数据流中的事件加速率a和事件中词的分布向量p，根据事件加速率a判断事件是否为突发事件。由于通过LSH算法将所有词汇映射到低维空间，降低了计算的复杂度，并基于B-Sketch模型推测隐含的突发事件，使得能够快速有效的实时处理微博数据流，及早地检测出突发事件。该发明专利通过跟踪微博中词特征随时间的动态变化趋势发现突发事件，而本发明利用的是信息传播的转发时间序列，利用循环神经网络来进行序列特征的识别和分类，与上述发明专利有本质区别。

发明内容

针对现有技术的不足，本发明提出一种基于循环神经网络的社交网络消息爆发检测方法及系统，循环神经网络包含LSTM(Long Short-Term Memory)、GRU(Gated Recurrent Unit)等类型的网络。

本发明提出一种基于循环神经网络的社交网络消息爆发检测方法，包括：

步骤1，获取社交网络中用户发布与转发的历史消息，对所述历史消息进行预处理，获取历史转发时间序列特征；

步骤2，将所述历史消息与所述历史转发时间序列特征输入循环神经网络训练，并生成预测模型；

步骤3，实时采集用户发布与转发的消息，根据所述消息，生成转发时间序列特征，将所述转发时间序列特征输入到所述预测模型，生成特征表达，将所述特征表达输入到全连接神经网络进行分类，结果以softmax方式输出，以完成社交网络消息爆发检测。

所述步骤1中通过所述历史消息中的转发标识构建所述消息的所述历史转发时间序列特征，然后基于循环神经网络进行消息转发序列特征的抽取。

通过“//@用户名”标识或“RT@用户名”标识获取所述历史转发时间序列特征。

根据社交网络中API从社交网络中获取所述历史消息或所述消息。

所述步骤1中预处理包括对所述历史消息进行垃圾过滤，保留存在内容、存在用户转发的历史消息。

本发明还提出一种基于循环神经网络的社交网络消息爆发检测系统，包括：

获取历史转发时间序列模块，用于获取社交网络中用户发布与转发的历史消息，对所述历史消息进行预处理，获取历史转发时间序列特征；

生成预测模型模块，用于将所述历史消息与所述历史转发时间序列特征输入循环神经网络训练，并生成预测模型；

网络消息爆发检测模块，用于实时采集用户发布与转发的消息，根据所述消息，生成转发时间序列特征，将所述转发时间序列特征输入到所述预测模型，生成特征表达，将所述特征表达输入到全连接神经网络进行分类，结果以softmax方式输出，以完成社交网络消息爆发检测。

所述获取历史转发时间序列模块中通过所述历史消息中的转发标识构建所述消息的所述历史转发时间序列特征，然后基于循环神经网络进行消息转发序列特征的抽取。

所述获取历史转发时间序列模块中预处理包括对所述历史消息进行垃圾过滤，保留存在内容、存在用户转发的历史消息。

由以上方案可知，本发明的优点在于：

本发明具有以下优势：(1)避免了人为定义特征的随意性和人工抽取特征的烦琐过程，是一种完全数据驱动的措施；(2)打破了特征之间的独立性假设，自动学习消息内容转发过程中的长时间序列特征，具有更强的表达能力。

附图说明

图1为整个系统的流程示意图；

图2为神经网络架构图；

图3为LSTM单元图；

图4为三种类型的pooling操作；

图5为消息的转发时间序列图。

具体实施方式

针对现有技术不足，本文提出了一种基于循环神经网络的社交网络消息爆发检测方法及系统，该方法利用循环神经网络擅长处理和预测时间序列中间隔和延迟非常长的重要特征的特点，以单个消息的初始转发时间序列作为输入，建模消息转发过程中的长时间依赖关系，自动学习如“富者愈富”、“时间衰减”等消息的转发序列特征。

具体的，本发明方法包括以下步骤，如图1所示：

步骤1：社交网络数据采集。根据社交网络的特点采集相应的内容和时间信息，对于微博和Twitter来讲，指的是用户发布和转发的历史消息以及相应的时刻；

步骤2：数据预处理。对数据进行垃圾过滤，近似重复消息的归集，利用消息中的转发标识构建消息的历史转发时间序列。对数据进行垃圾过滤，去除没有内容、没有转发数的微博，利用Simhash等方法，对微博消息中近似重复的消息进行归集，对每一条消息，利用消息中的转发标识构建消息的转发时间序列，对每条消息的爆发和非爆发属性，按照任务的需求进行标注，如在一周之内转发次数超过1000的为爆发消息，否则为非爆发消息。

步骤3：循环神经网络训练。将预处理得到的样本分为训练集、验证集和测试集。设共有n条消息(p₁,p₂,…,p_n)，y＝(y₁,y₂,…,y_n)表示消息真实的类别，表示预测的消息类别，是循环网络需要学习的预测函数，优化的目标是最小化交叉熵函数L(θ)，如式(1)所示：

L (θ) = - \frac{1}{n} Σ_{j = 1}^{n} (y_{j} \log (h_{0} (X_{j})) + (1 - y_{j}) \log (1 - h_{θ} (X_{j}))) - - - (1)

其中θ为需要优化的参数，表示循环神经网络上边的权重等，X_j为函数的输入，代表第j条消息的转发时间序列，神经网络训练的目标是找到一组参数θ的取值，使得L(θ)在训练集合上最小。

神经网络的结构如图2所示，网络的参数为U，W^r，W^o，v，其中x_t表示循环网络在步骤t时的输入，其值是消息第t次转发的时刻，接着，x_t的值被映射成一个长度固定的向量v_t，注意，每个相同的x_t值对应相同的v_t，然后v_t输入到循环网络的隐藏层进行计算，每个时间步骤t的隐层输出为s_t，在计算完所有的隐层输出之后，对s₀，s₁，...，s_t做聚合操作(pooling)得到向量P，如图4所示，pooling分为3种，平均聚合(average pooling)，最大聚合(maxpooling)和最后聚合(last pooling)，average pooling操作对所有输入向量的每一维取平均值，max pooling操作对所有输入向量的每一维取最大值，lastpooling操作对所有输入向量取最后一个时间步骤的向量，在完成pooling操作后，利用全连接的网络进行分类，为了描述的方便，预先定义一些符号，对于网络中的每一个节点j，<i,j>表示从节点i指向j的有向边，w_ij为边<i,j>的权重，b_i表示节点i的输出，a_j表示节点j所有输入值的加权和，σ为sigmoid激活函数，U为输入向量到RNN隐层的参数矩阵，W^r为RNN隐层之间的参数矩阵，W^o表示输出层的参数矩阵。其训练分为前向计算和后向传播两个过程：

1、前向计算过程如下：

v_t＝indexing(x_t) (2)

s_t＝σ(Uv_t+W^rs_t-1) (3)

P＝pooling(s₀,s₁,…,s_t) (4)

其中indexing为索引操作，pooling为聚合操作，对于全连接网络中的某个节点j，设其输入为式(5)所示：

a_{j} = Σ_{i = 1}^{K} w_{i j}^{o} p_{i} - - - (5)

其中p_i为连接节点j的输入节点的输出值，K为连接节点j的输入节点数，b_j为节点j的输出，为式(6)所示：

b_j＝σ(a_j) (6)

由于爆发检测是二分类问题，所以神经网络最外层的节点个数为1，设为节点o，对于最外层的节点，其输入为a_o，输出为消息爆发的概率则：

a_{o} = Σ_{i = 1}^{K} w_{i o}^{o} b_{i} - - - (7)

p (y = 1 | x) = \hat{y} = σ (a_{o}) - - - (8)

p (y = 0 | x) = 1 - \hat{y} - - - (9)

2、训练过程如下：

对于某个训练样本，其损失函数为式(10)：

L (x, y) = (y - 1) l n (1 - \hat{y}) - y l n (\hat{y}) - - - (10)

\frac{\partial L (x, \hat{y})}{\partial \hat{y}} = \frac{\hat{y} - y}{\hat{y} (1 - \hat{y})} - - - (11)

其中，表示对函数的某个变量求偏导数，如表示对函数中的变量求偏导数，根据链式法则：

\frac{\partial L (x, \hat{y})}{\partial a_{o}} = \frac{\partial L (x, \hat{y})}{\partial \hat{y}} \frac{\partial \hat{y}}{\partial a_{o}} = \hat{y} - y - - - (12)

对于网络中的任一节点j，定义：

δ_{j} = \frac{\partial L (x, y)}{\partial a_{j}} - - - (13)

对于隐藏层H_j的节点j，设其连接的H_j+1层节点个数为K，则：

δ_{j} = \frac{\partial L (x, y)}{\partial b_{j}} \frac{\partial b_{j}}{\partial a_{j}} = \frac{\partial b_{j}}{\partial a_{j}} Σ_{k = 1}^{K} \frac{\partial L (x, y)}{\partial a_{k}} \frac{\partial a_{k}}{\partial b_{j}} - - - (14)

对于倒数第一层之前的隐藏层节点，可以通过式(15)递归的计算：

δ_{j} = σ^{'} (a_{j}) Σ_{k = 1}^{K} δ_{k} w_{j k} - - - (15)

所以，对于全连接网络的权重W^o的偏导，其计算式子为：

\frac{\partial L (x, y)}{\partial w_{i j}^{o}} = \frac{\partial L (x, y)}{\partial a_{j}} \frac{\partial a_{j}}{\partial w_{i j}^{o}} = δ_{j} b_{i} - - - (16)

其中表示权重矩阵W^o中的一个元素，下同。设pooling的方式采用average pooling的方式，则：

\frac{\partial L (x, y)}{\partial s_{t, i}} = δ_{j} \frac{1}{n} - - - (17)

其中，s_t,i表示RNN网络在时间步骤t时刻输出的向量的第i维，RNN的训练采用BPTT的方式，定义：

δ_{j}^{t} = \frac{\partial L (x, y)}{\partial s_{t, j}} - - - (18)

其参数W^r，U，V的偏导计算公式为：

\frac{\partial L (x, y)}{\partial w_{i j}^{r}} = Σ_{t = 1}^{T} \frac{\partial L (x, y)}{\partial s_{t, j}} \frac{\partial s_{t, j}}{\partial w_{i j}^{r}} = Σ_{t = 1}^{T} δ_{j}^{t} b_{i}^{t} - - - (19)

\frac{\partial L (x, y)}{\partial u_{i j}} = Σ_{t = 1}^{T} \frac{\partial L (x, y)}{\partial s_{t, j}} \frac{\partial s_{t, j}}{\partial u_{i j}} = Σ_{t = 1}^{T} δ_{j}^{t} v_{i}^{t} - - - (20)

\frac{\partial L (x, y)}{\partial v_{i}} = Σ_{t = 1}^{T} \frac{\partial L (x, y)}{\partial s_{t, j}} \frac{\partial s_{t, j}}{\partial v_{i}} = Σ_{t = 1}^{T} δ_{j}^{t} u_{i j}^{t} - - - (21)

循环神经网络训练采用标准的BPTT(Back Propagation Through Time)后向传播算法。

以LSTM型RNN网络为例，LSTM神经网络就是在图2的基础上，将循环网络隐藏层的单元替换成图3所示的LSTM单元，具体的训练方式没有本质的区别，LSTM单元由3个控制门(gate)和一个内部存储单元(cell)组成，gate是一种让信息选择性通过的机制，全0表示不让任何信息通过，全1表示让所有信息通过，cell则起到了保持和传递信息的作用。三个控制门依次是输入门(input gate，i_t)，遗忘门(forget gate，f_t)和输出门(output gate，o_t)，g，h为tanh(·)激活函数，σ为sigmoid(·)激活函数，x_t，c_t和s_t分别是LSTM单元步骤t时的输入向量，内部状态向量和输出向量，z_t就是标准RNN的输出。

步骤4：实时数据采集。直接利用社交网络中提供的API从社交网络中实时抓取用户发布或转发的消息。

步骤5：消息转发时间序列生成。对于某条转发的消息，根据其中的转发标志、时间信息，构建消息的转发时间序列。如微博中利用“//@用户名”标识，Twitter中利用“RT@用户名”标识等抽取出消息的转发时间序列。如图5所示，展示了抽取的某条消息的转发时间序列。

步骤6：转发序列的特征表达学习。利用步骤3中训练生成的LSTM神经网络作为预测模型，步骤5中生成的消息转发时间序列作为输入，按照式(2)(3)(4)生成消息转发序列的特征表达P。

步骤7：消息爆发预测。利用步骤6得到的消息转发序列的特征表达P，输入全连接神经网络进行分类，结果以softmax方式输出，按照式(5)的计算结果预测消息未来是否爆发。

网络消息爆发检测模块，用于实时采集用户发布与转发的消息，根据所述消息，生成转发时间序列特征，将所述转发时间序列特征输入到所述预测模型，生成特征表达，将所述特征表达输入到全连接神经网络进行分类，结果以softmax方式输出，其中softmax输出是将一组数转换为总和为1，值在0到1之间的一种输出方式，具体来说，设z是K维的向量，则其softmax输出为式(22)：

σ {(z)}_{j} = \frac{e^{z_{j}}}{Σ_{k = 1}^{K} e^{z_{k}}} - - - (22)

其中，e为自然常数，σ(z)_j为softmax第j维的输出，则取σ(z)_j最大的值作为待预测消息的最终类别。作为消息爆发预测任务，K的取值为2。

Claims

1.一种基于循环神经网络的社交网络消息爆发检测方法，其特征在于，包括：

2.如权利要求1所述的基于循环神经网络的社交网络消息爆发检测方法，其特征在于，所述步骤1中通过所述历史消息中的转发标识构建所述消息的所述历史转发时间序列特征，然后基于循环神经网络进行消息转发序列特征的抽取。

3.如权利要求1所述的基于循环神经网络的社交网络消息爆发检测方法，其特征在于，通过“//@用户名”标识或“RT@用户名”标识获取所述历史转发时间序列特征。

4.如权利要求1所述的基于循环神经网络的社交网络消息爆发检测方法，其特征在于，根据社交网络中API从社交网络中获取所述历史消息或所述消息。

5.如权利要求1所述的基于循环神经网络的社交网络消息爆发检测方法，其特征在于，所述步骤1中预处理包括对所述历史消息进行垃圾过滤，保留存在内容、存在用户转发的历史消息。

6.一种基于循环神经网络的社交网络消息爆发检测系统，其特征在于，包括：

7.如权利要求6所述的基于循环神经网络的社交网络消息爆发检测系统，其特征在于，所述获取历史转发时间序列模块中通过所述历史消息中的转发标识构建所述消息的所述历史转发时间序列特征，然后基于循环神经网络进行消息转发序列特征的抽取。

8.如权利要求6所述的基于循环神经网络的社交网络消息爆发检测系统，其特征在于，通过“//@用户名”标识或“RT@用户名”标识获取所述历史转发时间序列特征。

9.如权利要求6所述的基于循环神经网络的社交网络消息爆发检测系统，其特征在于，根据社交网络中API从社交网络中获取所述历史消息或所述消息。

10.如权利要求6所述的基于循环神经网络的社交网络消息爆发检测方法，其特征在于，所述获取历史转发时间序列模块中预处理包括对所述历史消息进行垃圾过滤，保留存在内容、存在用户转发的历史消息。