CN108399241A

CN108399241A - 一种基于多类特征融合的新兴热点话题检测系统

Info

Publication number: CN108399241A
Application number: CN201810170864.6A
Authority: CN
Inventors: 廖祥文; 陈国龙; 殷明刚; 杨定达
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2018-02-28
Filing date: 2018-02-28
Publication date: 2018-08-14
Anticipated expiration: 2038-02-28
Also published as: CN108399241B

Abstract

本发明涉及一种基于多类特征融合的新兴热点话题检测系统，包括：数据预处理模块，用于对微博文本进行预处理；分层序列模型，用于训练双向循环神经网络模型，通过使用双向的LSTM网络，训练输入的微博文本；词序列编码层，用于对句子中的各个词语向量化，形成初步的向量表示；句子级别特征求解层，用于对微博句子构建静态特征向量，与该层的神经网络动态特征进行链接，形成微博句子向量表示；话题级别特征求解层，用于对话题构建静态特征向量，与该层的神经网络动态特征进行链接，形成话题的向量表示；话题预测模块，用于对话题进行预测。本发明基于双向长短时期记忆网络架构，加入相应的动态特征和静态特征，提高新兴热点话题检测能力。

Description

一种基于多类特征融合的新兴热点话题检测系统

技术领域

本发明涉及自然语言处理领域，特别是一种基于多类特征融合的新兴热点话题检测系统。

背景技术

当前，存在着一些偏向于话题内容特征(静态特征)的新兴热点话题检测方法，其基本思想是根据相应的推理公式或理论来求解话题的评价依据，如转发增长率、评论数增长率、用户增长率等等，作为真是特征，再使用评判函数(如分类算法)来判定是否是新兴热点话题。

当前，还存在着一些偏向于使用话题的传播特征来检测新兴热点话题，其基本思想是利用相关特定的数据结构(如：树、图、粒子群、神经网络等等)来计算或训练话题的特征，这里特征偏向于传播型，也即数据间是有联系的，不是静态的。接着使用分类算法来求解话题是否是新兴热点话题。

然而，这些方法模型虽然在一定程度上取得了相应的成果，也推进了话题检测任务的发展；但是也存在不足的地方，基于话题内容静态特征的方法，固然在新兴热点话题预测上有一定准确率，但其缺少对话题文本的上下文语义分析，因此在话题的追踪效果上较差。基于传播特征(动态特征)的也都考虑到话题中文本的上下文语义信息，在新兴热点话题预测时间方面有一定延迟，因此其准确率不够，但它在话题追踪时有较好的性能。针对上述的不足之处，提出将话题静态特征和传播特征进行融合，基于双向长短时期记忆网络架构，加入相应的动态特征和静态特征，提高新兴热点话题检测能力。

发明内容

本发明的目的在于提供一种基于多类特征融合的新兴热点话题检测系统，以克服现有技术中存在的缺陷。

为实现上述目的，本发明的技术方案是：一种基于多类特征融合的新兴热点话题检测系统，包括：

一数据预处理模块，用于对微博文本进行预处理；

一分层序列模型，用于训练双向循环神经网络模型，通过使用双向的LSTM网络，训练输入的微博文本；

一词序列编码层，用于对句子中的各个词语向量化，形成初步的向量表示；

一句子级别特征求解层，用于对微博句子构建静态特征向量，与该层的神经网络动态特征进行链接，形成微博句子向量表示；

一话题级别特征求解层，用于对话题构建静态特征向量，与该层的神经网络动态特征进行链接，形成话题的向量表示；

一话题预测模块，用于对话题进行预测，经过softmax层输出各个话题是新兴热点话题和非新兴热点话题的概率，并得到预测概率。

在本发明一实施例中，所述数据预处理模块对微博文本进行预处理包括过滤微博文本中网页链接、微博文本中的表情字符、微博文本常用词、文本长度小于5个字符的微博、发表时间错误或者时间大于预设时间阈值的微博以及缺失了用户uid的微博。

在本发明一实施例中，所述词序列编码层对句子中的各个词语向量化过程中，通过使用word2vec对句子分词的一个初步向量化。

在本发明一实施例中，在所述词序列编码层，对于一个句子的词序列w_it,t∈[1,T]，将词序列中的词通过词嵌入方法映射到向量中，嵌入矩阵为W_e，x_ij＝W_ex_ij；通过双向循环神经网络BiRNN汇总来自双向的词的信息得到词的表示，并将词的表示中的上下文信息合并；双向循环神经网络BiRNN包括一个向前的网络RNN用来从w_i1到w_iT读取句子s_i；还有一个向后的网络RNN用来从w_iT到w_i1读取句子s_i；通过连接向前隐藏状态和向后隐藏状态得到词w_it的隐藏表示h_it，其包含了句子中围绕词w_it的总体信息，也即

在本发明一实施例中，在所述句子级别特征求解层，通过微博当前时刻的评论数和转发数来表示内容特征，经过对一微博的信息采集及计算，得到该微博各个时刻的评论数集合Reply及转发数集合Retweet，且分别通过如下方式获取：

其中，表示i时刻，微博t的转发数；表示i时刻，微博t的评论数。

在本发明一实施例中，在所述话题级别特征求解层，为了识别新兴热点话题，提取话题每个时刻点的新兴特征，包括：转发数、用户数、微博数量、微博数量变化量的泊松值、用户权威值、微博影响力累积值、话题热度值以及新颖值。

在本发明一实施例中，在所述话题级别特征求解层，记话题T从第一篇微博被检测到当前时刻t有n个时间窗口；

记feature₁是话题T在n个时间窗口内的转发数增长率：

其中，Rtⁱ为话题T在第i个时间窗口时的转发次数；

记feature₂是话题T在n个时间窗口内的用户数增长率：

其中，Uⁱ表示话题T在第i个时间窗口时的参与用户数量；

记feature₃是话题T在n个时间窗口内的评论数增长率：

其中，Repⁱ表示话题T在第i个时间窗口时的评论数；

记话题T对应的用户集合为U_T＝{u₁,u₂,...,u_m}，对于话题T，每个用户u_i在话题T中的权威值通过如下方式获取：

其中，num_i表示用户u_i发表的相关微博数；f_i表示在U_T中是u_i的粉丝的数量；re_i表示u_i相关微博被转发总数；fans_i表示用户u_i的粉丝数；fans_max为粉丝数最多的用户粉丝数量；

记话题T对应的微博集合为TW＝{tw₁,tw₂,...,tw_m}，记feature₄是话题T的相关微博累计值增长率：

其中，effectⁱ表示话题T在第i个时间窗口时的累积影响力；auth(tw_i)表示微博tw_i对话题T的权威值；auth(u_i)表示微博tw_i作者的权威值；U_retweet表示微博tw_i转发用户集合；auth(u)表示户用户u_i的转发用户集合中用户的权威值；

记为话题T在第i个时间窗口时的新颖值，为热度值：

其中，word_key表示当前计算时间段内的关键词集合，user_key表示当前计算时间段内的高权威值用户集合；

记feature₇是话题T在n个时间窗口内的微博数量增长率；feature₈是话题T在第n个时间窗口时微博数量变化的泊松值，通过如下获取：

其中，Nⁱ表示话题T在第i个时间窗口时的微博数量；λ为预设个数时间窗口内微博数量变化的均值；Δtw为当前时间窗口微博数据变化量。

相较于现有技术，本发明具有以下有益效果：本发明提出的一种基于多类特征融合的新兴热点话题检测系统，将话题静态特征和传播特征进行融合，基于双向长短时期记忆网络架构，加入相应的动态特征和静态特征，能够从中文微博数据中学习高质量的话题向量特征，最终检测出新兴热点话题，并提高新兴热点话题检测能力。

附图说明

图1为本发明一实施例中在社交媒介中基于多类特征融合的分层循环神经网络模型的示意配置图。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

本发明一种基于多类特征融合的新兴热点话题检测系统，如图1所示，包括：

数据预处理模块，用于对数据进行预先处理，用于去除文本中的链接，特殊字符，表情符号，标点符号等等，为后阶段的运算提供高可用高质量的数据；

分层序列模型，用于训练双向循环神经网络模型，使用双向的LSTM网络，训练输入的微博文本，得到高质量的话题向量表示，提高预测准确率，为后面的预测任务输送高质量的词向量、句子向量和话题向量；

词序列编码层，用于对句子中的各个词语向量化，形成初步的向量表示；并使用word2vec对句子分词的一个初步向量化。

句子级别静态特征求解层，用于对微博句子构建静态特征向量，与该层的神经网络动态特征进行链接，形成微博句子向量表示；

话题级别静态特征求解层，用于对话题构建静态特征向量，与该层的神经网络动态特征进行链接，形成话题的向量表示；

话题预测模块，完成对话题的预测工作，经过softmax层输出各个话题是新兴热点话题和非新兴热点话题的概率。

进一步的，下面分别详细描述各模块的配置。

在本实施例中，由于社交媒体文档中包含了丰富的信息但同时也夹杂了一定的噪声，需要数据预处理模块对数据集进行预处理，主要进行以下几个方面的操作：

(1)过滤掉微博文本中网页链接。如“http://t.cn/Rfan9TD”。

(2)过滤掉微博文本中的表情字符。如“[偷乐]”、“[加油啊]”等。

(3)过滤掉微博文本常用词。如“组图”、“原文转发”等。

(4)过滤掉微博文本长度小于5个字符的微博。

(5)过滤掉微博发表时间错误或者时间过于久远的微博。

(6)过滤掉缺失了用户uid的微博。

在本实施例中，在词序列编码层(Word Encoder Layer,WEL)，给定一个句子的词序列w_it,t∈[1,T]，首先将词通过词嵌入方法映射到向量中，嵌入矩阵为W_e，x_ij＝W_ex_ij。使用一个双向循环神经网络BiRNN通过汇总来自双向的词的信息来得到词的表示，并将表示中的上下文信息合并，双向循环神经网络Bi-directional RNN，BiRNN包括一个向前的网络RNN用来从w_i1到w_iT读取句子s_i；还有一个向后的网络RNN用来从w_iT到w_i1读取句子s_i。通过连接向前隐藏状态和向后隐藏状态得到词w_it的隐藏表示h_it，它包含了句子中围绕词w_it的总体信息，也即

在本实施例中，在句子级别静态特征求解层，使用微博当前时刻的评论数和转发数来表示内容特征，因为对于一篇微博来说，评论数和转发数是它的重要属性特征，一定程度上能够表明微博内容讨论话题的热点程度，经过采集的信息及计算，得到一个微博各个时刻的评论数集合Reply及转发数集合Retweet，计算公式如下：

在本实施例中，在话题级别静态特征求解层，在微博数据流的话题演变过程中，为了识别新兴热点话题，我们提取话题每个时刻点的新兴特征。其中有转发数、用户数、微博数量、微博数量变化量的泊松值、用户权威值、微博影响力累积值、话题热度值和新颖值。

进一步的，假设话题T从第一篇微博被检测到当前时刻t有n个时间窗口。各个特征计算公式如下：

feature₁是话题T在n个时间窗口内的转发数增长率：

其中，Rtⁱ为话题T在第i个时间窗口时的转发次数(话题内各微博转发数之和)。

feature₂是话题T在n个时间窗口内的用户数增长率：

其中，Uⁱ表示话题T在第i个时间窗口时的参与用户数量。

feature₃是话题T在n个时间窗口内的评论数增长率：

其中，Repⁱ表示话题T在第i个时间窗口时的评论数(话题内各微博评论数之和)。

进一步的，假设话题T对应的用户集合U_T＝{u₁,u₂,...,u_m}，对于话题T，用户u_i发表更多话题T相关的微博；用户的相关微博更多被转发；用户集合U_T中有更多用户是u_i的粉丝；用户u_i有更多的粉丝数，则用户u_i在话题T中会有更高的权威值。每个用户u_i在话题T中的权威值计算公式如下：

其中，num_i表示用户u_i发表的相关微博数；f_i表示在U_T中是u_i的粉丝的数量；re_i表示u_i相关微博被转发总数；fans_i表示用户u_i的粉丝数；fans_max为粉丝数最多的用户粉丝数量，这么做的目的是消除用户粉丝数之间数量级的差距。

假设话题T对应的微博集合为TW＝{tw₁,tw₂,...,tw_m}，feature₄是话题T的相关微博累计值增长率：

其中，effectⁱ表示话题T在第i个时间窗口时的累积影响力；auth(tw_i)表示微博tw_i对话题T的权威值；auth(u_i)表示微博tw_i作者的权威值；U_retweet表示微博tw_i转发用户集合；auth(u)表示户用户u_i的转发用户集合中用户的权威值。

进一步的，热点话题是一个时间段内热点讨论的话题，新兴热点话题是有一个过程，先兴起再到未来某个时间段内的成为热门话题，而网络媒介中每个时间段都会有相应的热点关键词出现。在本实施例中，通过计算卡方值来得到时间段内的关键词集合，然后计算话题关键词和当前时间段内的热点关键词的重叠率来衡量话题新颖值；计算话题高权威值用户和当前时段内的高权威值用户集合的重叠率来衡量话题热度值：

其中，word_key表示当前计算时间段内的关键词集合，user_key表示当前计算时间段内的高权威值用户集合；表示话题T在第i个时间窗口时的新颖值；为热度值。

进一步的，泊松分布是一种离散型概率模型，事件满足泊松分布需要有三个条件：①该事件是小概率事件；②事件发生相互之间是独立的；③该事件的发生概率是稳定的。对一个话题来说，随着时间窗口的移动，话题中微博数量是非递减的，这样在一定时间段内微博的数量变化大致是符合泊松分布，宏观来看新兴热点话题也是符合泊松分布的条件：①新兴热点话题不是大概率事件；②各个话题是否是新兴热点话题是相互独立的；③各个话题成为新兴热点话题的趋势都稳定的。

在本实施例中，以8小时为窗口大小，1小时为移动距离，来计算话题各个时刻的微博数量变化泊松值作为话题的一个特征。feature₇是话题T在n个时间窗口内的微博数量增长率；feature₈是话题T在第n个时间窗口时微博数量变化的泊松值，计算公式如下：

其中，Nⁱ表示话题T在第i个时间窗口时的微博数量；λ为8个时间窗口内微博数量变化的均值；Δtw为当前时间窗口微博数据变化量。

进一步的，话题预测模块在经过上面四层的计算之后，得到向量v，这是话题的高质量的表示，可以用来作为分类的特征。使用softmax来预测话题是否属于新兴热点话题或非新兴热点话题，并得到预测概率。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种基于多类特征融合的新兴热点话题检测系统，其特征在于，包括：

一数据预处理模块，用于对微博文本进行预处理；

2.根据权利要求1所述的一种基于多类特征融合的新兴热点话题检测系统，其特征在于，所述数据预处理模块对微博文本进行预处理包括过滤微博文本中网页链接、微博文本中的表情字符、微博文本常用词、文本长度小于5个字符的微博、发表时间错误或者时间大于预设时间阈值的微博以及缺失了用户uid的微博。

3.根据权利要求1所述的一种基于多类特征融合的新兴热点话题检测系统，其特征在于，所述词序列编码层对句子中的各个词语向量化过程中，通过使用word2vec对句子分词的一个初步向量化。

4.根据权利要求1所述的一种基于多类特征融合的新兴热点话题检测系统，其特征在于，在所述词序列编码层，对于一个句子的词序列w_it，t∈[1，T]，将词序列中的词通过词嵌入方法映射到向量中，嵌入矩阵为W_e，x_ij＝W_ex_ij；通过双向循环神经网络BiRNN汇总来自双向的词的信息得到词的表示，并将词的表示中的上下文信息合并；双向循环神经网络BiRNN包括一个向前的网络RNN用来从w_i1到w_iT读取句子s_i；还有一个向后的网络RNN用来从w_iT到w_i1读取句子s_i；通过连接向前隐藏状态和向后隐藏状态得到词w_it的隐藏表示h_it，其包含了句子中围绕词w_it的总体信息，也即

5.根据权利要求1所述的一种基于多类特征融合的新兴热点话题检测系统，其特征在于，在所述句子级别特征求解层，通过微博当前时刻的评论数和转发数来表示内容特征，经过对一微博的信息采集及计算，得到该微博各个时刻的评论数集合Reply及转发数集合Retweet，且分别通过如下方式获取：

6.根据权利要求1所述的一种基于多类特征融合的新兴热点话题检测系统，其特征在于，在所述话题级别特征求解层，为了识别新兴热点话题，提取话题每个时刻点的新兴特征，包括：转发数、用户数、微博数量、微博数量变化量的泊松值、用户权威值、微博影响力累积值、话题热度值以及新颖值。

7.根据权利要求1所述的一种基于多类特征融合的新兴热点话题检测系统，其特征在于，在所述话题级别特征求解层，记话题T从第一篇微博被检测到当前时刻t有n个时间窗口；