CN103279479A

CN103279479A - 一种面向微博客平台文本流的突发话题检测方法及系统

Info

Publication number: CN103279479A
Application number: CN2013101388950A
Authority: CN
Inventors: 程学旗; 李静远; 房伟伟; 王元卓; 刘悦
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2013-04-19
Filing date: 2013-04-19
Publication date: 2013-09-04

Abstract

本发明提供一种面向微博客平台文本流的突发话题检测方法及系统，其中方法包括：步骤1，实时采集微博客平台的用户数据及用户生成消息数据，并提取出消息文本及配图；步骤2，设定时间窗口对所述消息文本进行划分，获得实时数据流和历史数据；步骤3，选取特征，进行流行度评估模型和长微博提取模型的训练；步骤4，对所述实时数据流利用所述流行度评估模型进行流行度评估，利用所述长微博提取模型进行长微博提取，并分别放入流行消息集合和长微博集合；步骤5，判断所述流行消息集合与所述长微博集合数量是否均达到预设的阈值，若达到，使用LDA模型或加权求和的方式进行话题提取对两个集合的数据提取突发话题，否则返回步骤1。

Description

一种面向微博客平台文本流的突发话题检测方法及系统

技术领域

本发明涉及互联网信息管理领域，尤其涉及一种面向微博客平台文本流的突发话题检测方法。

背景技术

互联网的快速发展，特别是Web2.0的快速发展，以Facebook、Myspace和Twitter为代表的社交网络服务成为了网络用户不可或缺的交流工具。这些社交网络服务为用户提供了包括好友的更新信息、感兴趣的人或群组的更新信息、最新热门时间的相关信息等功能，而这些功能正在逐渐改变着社交网络服务用户的信息获取方式。以国外的Twitter和国内的新浪微博为代表的微博客作为一种新型的社交网络与Facebook等依托传统社区产生的虚拟社区形式有很大的区别，这主要表现在关注机制、消息传播方式和消息实时性上。微博客不同于一般的社交网络，采用了单向关注的机制，是的任何用户都可以随意关注任何自己感兴趣的人；微博客的消息传播为广播式传播，用户发布的消息会被推送到该用户的所有听众；微博客是结合网络与移动终端等方式的新型网络服务，它对用户发送的内容进行了限制，更加强调消息的实时性。

微博客的这些有别于传统社交网络的特性使得微博客平台中实时更新的数据量非常庞大，在这种宏大的信息流中，用户对于信息获取有了更为迫切的需求。首先，微博客用户对话题的关注度非常高，对感兴趣的话题，用户会参与讨论并进行扩散（转发）；其次，当用户发现一个感兴趣的话题后，会想更加全面的了解与话题相关的事件。

从海量微博客用户产生的消息中准确的检测突发话题对舆情预警、政府决策、广告精准营销等商业推广具有重要意义。一个突发话题可以是一个发生在任何时刻的热门事件，也可以是在一段时间内由用户自发和被广泛响应的网络行为。事件可以是不可预期的，比如日本地震，也可以是可以预期的，比如美国大选。行为一般是不可预期的，例如“房姐”微博的传播。一个突发话题常常有一个持续时间短、被大量用户转发、讨论的时间段。

然而由于微博客不同于一般社交网络的两个主要特性：实时性强和发送内容数量的限制（一般为汉字140以内），现有的文本聚类和话题模型在微博客平台这种用户生成文本流中的突发话题检测问题上性能不佳。现有的针对文本流的话题检测方法主要有以下方法：话题检测与跟踪（TDT）项目探索了从新闻文本流中通过文档聚类进行话题检测的方法。然而此类方法假设每一个文档讨论一个话题，这在微博客这种带有聊天性质的在内容数量上有限制的文本中并不适用。话题模型主要使用的有概率话题模型和LDA模型，这类模型用于发现潜在的话题并成功的应用在自动组织、搜索、索引和浏览大数据集。与TDT的主要区别是话题模型假设一个文档可以包含多个话题。然而话题模型存在参数设置不灵活、对实时性强的文本流的噪音、统计信息不足等问题表现不佳，并且其发现的话题不一定是突发话题或事件。

发明内容

本发明的目的是提出一种面向微博客平台文本流的突发话题检测方法及系统。使用分类方法对微博客平台用户的转发行为进行分类进而完成流行度评估，并结合长微博信息提取对文本流进行扩展和突发话题检测。从而能够快速准确的对文本进行流行度分类和识别、提取长微博文本信息，进而提高了突发话题的检测性能。

为实现上述发明目的，本发明提供一种面向微博客平台文本流的突发话题检测方法，该方法包括：

步骤1，实时采集微博客平台的用户数据及用户生成消息数据，并从所述用户数据及用户生成消息数据中提取出消息文本及配图；

步骤2，设定时间窗口对所述消息文本进行划分，获得实时数据流和历史数据；

步骤3，从所述历史数据中选取特征，并利用分类方法对所述消息文本进行流行度评估模型和长微博提取模型的训练；

步骤4，对所述实时数据流利用所述流行度评估模型进行流行度评估，利用所述长微博提取模型进行长微博提取，并将评估为流行的消息放入流行消息集合，提取出的长微博内容放入长微博集合；

步骤5，判断所述流行消息集合与所述长微博集合数量是否均达到预设的阈值，若达到，使用LDA模型或加权求和的方式进行话题提取对两个集合的数据提取突发话题，否则返回步骤1。

所述提取的特征包括：

用户特征：follow数、粉丝数、发帖活跃度；

消息内容特征：内容长度、是否包含URL、是否包含hashtag。

进一步的，提取长微博之前：

要根据微博客消息配图的长款像素比或关键词词典中的关键字对所述配图的内容进行过滤。

所述阈值为消息数量或者时间间隔。

进一步的，所述步骤1之前还包括初始化步骤：

将所述流行消息集合与所述长微博集合清空，将缓存数据进行固化。

为实现上述发明目的，本发明还提供一种面向微博客平台文本流的突发话题检测系统，该系统包括：

微博客数据采集模块，实时采集微博客平台的用户数据及用户生成消息数据，并从所述用户数据及用户生成消息数据中提取出消息文本及配图；

划分处理模块，设定时间窗口对所述消息文本进行划分，获得实时数据流和历史数据；

特征提取模块，从所述历史数据中选取特征，并利用分类方法对所述消息文本进行流行度评估模型和长微博提取模型的训练；

集合获得模块，对所述实时数据流利用所述流行度评估模型进行流行度评估，利用所述长微博提取模型进行长微博提取，并将评估为流行的消息放入流行消息集合，提取出的长微博内容放入长微博集合；

突发话题发现模块，判断所述流行消息集合与所述长微博集合数量是否均达到预设的阈值，若达到，使用LDA模型或加权求和的方式进行话题提取对两个集合的数据提取突发话题，否则返回微博客数据采集模块。

所述提取的特征包括：

用户特征：follow数、粉丝数、发帖活跃度；

消息内容特征：内容长度、是否包含URL、是否包含hashtag。

进一步的，提取长微博之前：

要根据微博客消息配图的长宽像素比或关键词词典中的关键字对所述配图的内容进行过滤。

所述阈值为消息数量或者时间间隔。

进一步的，所述微博客数据采集模块之前还包括初始化模块：

本发明的有益效果在于：

1、本发明使用了消息流行度评估来进行微博客平台的突发话题发现，保证了话题发现的突发性、实时性；

2、本发明使用了长微博辅助微博客平台的突发话题发现，充分利用了微博客平台长微博包含信息的充分性、完整性这一特点。

以下结合附图和具体实施例对本发明进行详细描述，但不作为对本发明的限定。

附图说明

图1是本发明的面向微博客平台文本流的突发话题检测方法流程图；

图2是本发明的面向微博客平台文本流的突发话题检测系统示意图；

图3是本发明的一实施例的面向微博客平台文本流的突发话题检测系统示意图；

图4是本发明的一实施例的微博客平台下的突发话题发现方法的预处理流程图；

图5是本发明的一实施例的微博客平台下的突发话题发现方法的流程图。

具体实施方式

图1是本发明的面向微博客平台文本流的突发话题检测方法流程图。如图1所示，该方法包括：

所述提取的特征包括：

用户特征：follow数、粉丝数、发帖活跃度；

消息内容特征：内容长度、是否包含URL、是否包含hashtag。

进一步的，提取长微博之前：

所述阈值为消息数量或者时间间隔。

进一步的，所述步骤1之前还包括初始化步骤：

图2是本发明的面向微博客平台文本流的突发话题检测系统示意图。如图图2所示，该系统包括：

微博客数据采集模块100，实时采集微博客平台的用户数据及用户生成消息数据，并从所述用户数据及用户生成消息数据中提取出消息文本及配图；

划分处理模块200，设定时间窗口对所述消息文本进行划分，获得实时数据流和历史数据；

特征提取模块300，从所述历史数据中选取特征，并利用分类方法对所述消息文本进行流行度评估模型和长微博提取模型的训练；

集合获得模块400，对所述实时数据流利用所述流行度评估模型进行流行度评估，利用所述长微博提取模型进行长微博提取，并将评估为流行的消息放入流行消息集合，提取出的长微博内容放入长微博集合；

突发话题发现模块500，判断所述流行消息集合与所述长微博集合数量是否均达到预设的阈值，若达到，使用LDA模型或加权求和的方式进行话题提取对两个集合的数据提取突发话题，否则返回微博客数据采集模块100。

所述提取的特征包括：

用户特征：follow数、粉丝数、发帖活跃度；

消息内容特征：内容长度、是否包含URL、是否包含hashtag。

进一步的，提取长微博之前：

所述阈值为消息数量或者时间间隔。

具体而言，流行度是文本包含话题成为突发话题的可能性的量化值，消息流行度评估是根据历史数据中提取的特征对文本流中的文本进行流行度分类的方法的统称，使用流行度对文本流中的文本进行分类，为解决本发明中话题模型提取的话题是否是突发话题无法判断的问题提供了技术基础。由于话题模型对输入文本提取的话题不一定是突发话题或事件，本发明借鉴了消息流行度评估，对输入话题模型的文本进行流行度分类，高流行度的文本表示了其包含话题的突发性，通过对高流行度的文本进行话题提取，保证发明检测到的话题为突发话题。

长微博是微博客平台中以图片形式出现的包含大量文字的微博，长微博包含丰富的文本信息，使用OCR技术完成长微博信息的提取对解决本发明中微博客平台对内容数量的限制问题提供了技术基础。结合流行度和长微博提出了本发明。

所以本发明可以是基于消息流行度评估和长微博信息提取的微博客平台下文本流中的突发话题检测方法：

步骤1）、实时采集微博客平台的用户数据及用户生成消息数据，并从用户数据中提取出用户相关特征，从用户生成消息数据提取出消息文本及配图，并保存；

步骤2）、构造微博客文本流：设定时间单位，并将检测时间窗口的大小设为一个时间单位，根据设定的时间窗口大小，对上述步骤中采集到的处理后的用户生成消息数据进行划分，将同一时间窗口内的文档组成一个文档集，将所有文档集按照时间顺序组成文本流；将前t个时间窗口的文档集作为话题检测的参考文档集，即历史数据；

步骤3）、提取流行度评估模型特征：从历史数据中，使用某种特征选择算法选取特征，构造对输入消息文本进行流行度评估的模型。该模型使用分类方法对消息是否会被转发进行评估；

步骤4）、提取长微博判定规则：本发明要解决的问题是实时性与微博客平台消息内容受限的问题，如此需要提取高效准确的规则完成长微博判定，进而对判定为长微博的图片进行文本提取；

步骤5）、对实时文档集完成流行度评估与长微博提取：对t₁时刻，t₁≥t+1的文档集中每条消息进行流行度评估，并进行长微博提取，将评估为流行的消息放入流行消息集合，提取出的长微博内容放入长微博集合；

步骤6）、当流行消息集合与长微博集合数量达到预设的阈值（根据实际情况设定）或采集时间达到阈值时，对两个集合的数据提取话题，完成突发话题提取。

上述技术方案中，所述步骤3）包括：

步骤3-1）、为消息流行度评估模型选取合适的分类方法，在微博客平台中，消息的流行度由消息的转发情况进行定义，从而可将消息流行度评估问题转化为消息转发评估，消息的转发情况可以理解为分类问题，从而将消息流行度评估模型转化为消息是否会被转发的分类模型；可选的分类模型可以是SVM、逻辑回归等机器学习方法；

步骤3-2）、选取合适的特征，在选定了消息流行度评估模型后，要选取合适的特征完成模型的建立。可选的特征包括：

用户特征：follow数、粉丝数、发帖活跃度等；

消息内容特征：内容长度、是否包含URL、是否包含hashtag等。

上述技术方案中，所述步骤4）中要进行长微博的提取，涉及图片内容识别功能，而这一功能在效率上不能满足系统需求，因此在对长微博进行内容提取之前，首先对图片是否是长微博进行规则过滤，可选的过滤规则包括但不限于：

规则1：微博客消息配图的长宽像素比；

规则2：使用关注领域关键词词典，对包含词典中关键字的消息进行提取。

上述技术方案中，所述步骤6）包括：

步骤6-1）、选择合适的阈值，这取决于实际系统中对突发性的定义，可以设定为有足够数量的消息或者保证突发性的一段时间间隔；

步骤6-2）、选择合适的模型进行突发话题提取。模型选择问题取决于对流行消息与长微博对突发话题发现的贡献度，如果长微博对突发话题发现具有极强的指向作用，则考虑使用同一的模型如LDA，将两者内容结合起来进行话题提取；如表现的更有分散性，则可以使用朴素的方法，如加权求和等进行话题提取。

现在列举本发明的一个实施例。在下面的实施例中以提供基本功能的微博客环境为例，对本发明的方法进行说明。微博客所提供的基本功能包括：用户功能、消息功能。用户功能包含关注、被关注。消息功能有发送、评论、转发。

在本发明的一个实施例中提供了一种微博客平台突发话题发现系统，该系统从采集的数据中提取用户特征，从提取的用户特征中选择合适的特征进行消息流行度模型和长微博提取模型的训练，用训练后的模型在实时数据流中完成突发话题发现。该系统包括微博客数据采集模块、特征提取模块、突发话题发现模块和数据存储模块。

其中，用户数据采集模块用于实时采集微博客平台的用户数据，所述用户数据包括微博客用户的个人信息、朋友（关注）关系和给定时间间隔内的发送、转发的消息以及评论信息等。例如用户的基本信息，用户的朋友关系，用户发送、转发、评论的消息数量，用户在采集周期内发送的消息被转发和评论的次数等信息。设定时间单位，并将检测时间窗的大小设定为一个时间单位，并按照时间窗对采集到的数据进行划分，按照时间顺序构成文本流，将数据存储在日志服务器。通常可以用网页爬虫或服务商提供的第三方API来采集初始数据。

特征提取模块用于从微博客数据采集模块所收集的数据中提取特征，将特征保存到特征数据库。例如，分析用户的个人信息，提取其中诸如所在地、兴趣等能反映其关注领域的特征；分析用户的朋友（关注）关系，提取其朋友（关注）的职业等分布特征，判断用户的关注领域；分析用户消息，提取发送、转发和评论的数目、内容特征，发送、转发和评论的对象特征等。在一个实施例中，可以将这些特征保存到特征数据库。其中,特征可以包括用户注册时间、用户最近一次访问时间、发送消息数目、收到的转发和回复数目、关注数量、被关注数量等属性。例如表1所示的是典型的几行用户特征数据片段(以用户ID为关键字)：

表1

突发话题发现模块完成整个系统的核心功能。首先根据系统实际应用平台选取合适的消息流行度评估模型，在本实施例内，针对样本特性，选取SVM（支持向量机）分类模型。本发明提出的消息流行度评估思想是：在微博客平台中消息流行度是由消息转发次数体现的，越流行的消息其转发次数越多，于是本发明中将消息流行度评估转化为了对微博客平台中消息的转发情况的评估。确定模型后，对特征提取模块中得到的特征进行选择，可以使用信息增益等判断方法将特征影响力进行排序，选取合适的特征利用历史数据对消息流行度评估模型进行训练。另一方面，本发明提出的突发话题发现方法中，使用了长微博，为了准确提取长微博，系统中使用历史数据对长微博提取的规则进行选取，可选取的规则包括：图片的长宽像素比（一般长微博的长宽像素比大于2）、消息中是否包含领域词典的关键词等。得到训练好的消息流行度评估模型和长微博提取模型后，系统在实时采集的微博客文本流中进行消息流行度评估和长微博提取，对提取出的消息分别放入流行消息集合和长微博集合。当集合内的数据达到预设阈值或者时间片用尽，系统进行突发话题提取，数据存储模块对系统产生的数据进行存储。其中数据量阈值的设定取决于话题提取对统计信息的依赖性，比如使用LDA话题模型进行话题提取，则应该将阈值设为100-1000，而时间片的设定取决于系统对突发性的定义，一般情况下可设为5-10分钟，既可以保证数据的统计信息的显著性也可以保证话题的突发性。

由于微博客平台数据具有时效性，数据的有效期非常短，这要求系统能自适应的利用新采集的数据进行特征提取与后续的模型训练从而提高系统的稳定性，这要求系统应该能够自适应的进行模型更新。本发明中，数据采集模块采集到的数据在数据存储模块进行了保存，则可对特征进行离线更新，完成模型的迭代式更新过程。

图3是本发明的一实施例的面向微博客平台文本流的突发话题检测系统示意图。如图3所示，该方法首先利用数据采集模块采集微博客平台数据（S101），其次，从这些数据中提出合适的特征（S102），并基于原始数据与特征数据完成突发话题发现模块的模型训练，并对实时采集的数据流进行突发话题发现（S103）。然后，将采集到的微博客平台数据（原始数据）与突发话题发现模块提取出的突发话题进行数据存储（S104）。其中，数据特征包括1）、账户注册时间和最近登录微博客时间；2）、关注与被关注朋友的数量；3）、发送、转发和评论的消息的数量；4）、发送的消息被评论和转发的数量；等等，并在系统运行中不断对特征进行更新。长微博提取的规则包括1）图片的长宽像素比；2）消息中是否包含领域词典的关键词；等等，提取规则也可进行人工添加或使用数据挖掘方法进行发现。

该系统还包括使用实时采集的微博客平台数据进行迭代式特征提取与模型训练，以便保证系统时效性与稳定性的步骤（S105）。

图4是本发明的一实施例的微博客平台下的突发话题发现方法的预处理流程图。如图4所示，该方法首先根据系统实际运行平台选取合适的消息流行度评估模型（S201），由于本方法将消息流行度评估转化为了微博客平台消息转发次数的分类，可选的模型可为机器学习中的各种分类模型，如逻辑回归模型、神经网络模型、支持向量机模型和贝叶斯分类模型等。选定模型后，方法使用历史数据进行特征提取，选取合适的特征对上一步中选定的模型进行训练（S202），特征选取可使用信息增益等方法。通过这一步，方法得到了消息流行度评估模型。然后，使用历史数据，进行长微博提取中的规则提取（S203）,完成长微博提取模型。其中特征选取与长微博规则提取都应该使用迭代更新的策略，使用不断更新的数据集进行重新选择与添加，保证方法的时效性与稳定性。

图5是本发明的一实施例的微博客平台下的突发话题发现方法的流程图。如图5所示，该方法首先将系统进行初始化处理，包括将流行消息集合与长微博集合清空、将可能存储在缓存内的数据进行固化（存入数据库）等（S301）。由于系统运行在实时数据流上，初始化处理非常重要，否则会造成数据污染而影响方法的效果。完成初始化步骤后，系统开始作用于微博客数据采集模块获得的实时数据流（S302），对实时采集的数据分别进行消息流行度评估和长微博提取（S303），将模型判断为可能流行的消息存入流行消息集合，将抽取出的长微博存入长微博集合。完成上一步后，对是否达到话题提取条件进行判定，如果两个集合内消息的数量达到系统预设阈值或者时间片用尽，则判定结果为是，进行下一步的话题提取，反之，继续进行消息流过滤（S304）。其中消息数量的阈值应根据系统实际运行的平台特性及后续步骤中选取的话题提取模型对统计信息的依赖性进行确定，如运行在新浪微博平台且使用LDA话题模型进行话题提取，可设为100-1000，时间片的确定取决于系统对突发性的定义，如一般可设为5-10分钟，可保证统计信息显著且不失突发性。经过上一步，系统使用流行消息集合和长微博集合中的数据进行突发话题提取（S305），这一步中，如何结合两个集合中的数据，取决于系统中长微博对话题指向作用的强弱，如果长微博对话题的指向作用非常强，可考虑使用同一模型作用于两个集合进行话题提取，如LDA话题模型，反之，可以使用朴素的方法，如对两个集合进行加权进行话题提取。

至此，方法在微博客平台下完成了突发话题发现，将该方法整合到系统中，将提取出的突发话题存入数据库或以其他方式保存下来即可。

本发明中提供的方法和系统适用于具有微博客特点的各类网络服务中，例如Twitter、新浪微博和腾讯微博等。

当然，本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种面向微博客平台文本流的突发话题检测方法，其特征在于，包括：

2.如权利要求1所述的突发话题检测方法，其特征在于，所述提取的特征包括：

用户特征：follow数、粉丝数、发帖活跃度；

消息内容特征：内容长度、是否包含URL、是否包含hashtag。

3.如权利要求1所述的突发话题检测方法，其特征在于，提取长微博之前：

4.如权利要求1所述的突发话题检测方法，其特征在于，所述阈值为消息数量或者时间间隔。

5.如权利要求1所述的突发话题检测方法，其特征在于，所述步骤1之前还包括初始化步骤：

6.一种面向微博客平台文本流的突发话题检测系统，其特征在于，包括：

7.如权利要求6所述的突发话题检测系统，其特征在于，所述提取的特征包括：

用户特征：follow数、粉丝数、发帖活跃度；

消息内容特征：内容长度、是否包含URL、是否包含hashtag。

8.如权利要求6所述的突发话题检测系统，其特征在于，提取长微博之前：

9.如权利要求6所述的突发话题检测系统，其特征在于，所述阈值为消息数量或者时间间隔。

10.如权利要求6所述的突发话题检测系统，其特征在于，所述微博客数据采集模块之前还包括初始化模块：