CN110232149A

CN110232149A - 一种热点事件检测方法和系统

Info

Publication number: CN110232149A
Application number: CN201910385776.2A
Authority: CN
Inventors: 吴旭; 颉夏青; 于泽璇; 许晋; 方滨兴
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-05-09
Filing date: 2019-05-09
Publication date: 2019-09-13
Anticipated expiration: 2039-05-09
Also published as: CN110232149B

Abstract

本申请公开了一种热点事件检测方法和系统，包括：对文本进行预处理、分词和向量化，计算文本相似度矩阵；对文本相似度矩阵进行聚类，得到聚类结果集；提取聚类结果集中的关键词，计算关键词向量之间的距离；判断距离与阈值之间的关系，若小于等于阈值，则输出关键词向量对应的聚类结果，得到融合结果集；输入融合结果集至分类器，得到热点事件关键词和热点事件对应的文本分类器。通过提取聚类结果的关键词，使用词向量对聚类关键词进行向量化表示，判断关键词向量之间的距离，对同一事件的多方向讨论进行归并，提高语义识别程度。使用分类器对融合结果集进行分类，能够在包含固有话题的数据中检测热点事件，提高热点事件的识别准确率。

Description

一种热点事件检测方法和系统

技术领域

本申请涉及信息处理领域，尤其涉及一种热点事件检测方法和系统。

背景技术

随着互联网的迅猛发展和社交平台的快速兴起，越来越多的网民成为社交软件的用户。这些用户会在社交平台上分享个人态度，转发评论他人观点，参与事件讨论。与新闻发布不同，用户在社交平台中发布消息并不需要经过他人审核过程，实时性更强。同时，其交互性强的特点使得更多用户参与讨论和转发，有利于事件的快速传播。社交媒体已成为热点事件传播的重要渠道。分析社交媒体中的热点事件可以帮助企业更好的了解舆论走势，为决策提供参考。因此，面向社交媒体的话题和事件检测研究受到广泛关注。由于社交媒体文本口语化强，用词多变等特点，仅依靠文本的统计特征会造成语义损失，降低热点事件的识别准确率。

综上所述，需要提供一种能够提高语义识别程度，提高热点事件的识别准确率的方法与系统。

发明内容

为解决以上问题，本申请提出了一种热点事件检测方法和系统。

一方面，本申请提出一种热点事件检测方法，包括：

对文本进行预处理、分词和向量化，计算文本相似度矩阵；

对文本相似度矩阵进行聚类，得到聚类结果集；

提取聚类结果集中的关键词，计算关键词向量之间的距离；

判断距离与阈值之间的关系，若小于等于阈值，则输出关键词向量对应的聚类结果，得到融合结果集；

输入融合结果集至分类器，得到热点事件关键词和热点事件对应的文本。

优选地，所述对文本进行预处理、分词和向量化，计算文本相似度矩阵，包括：

对文本进行预处理后，进行分词，得到与各文本对应的多个词和/或词组；

向量化各文本中的各词和/或词组，得到文本向量集合和各文本向量对应的分词集合；

使用各文本向量对应的分词集合计算文本向量集合中的各文本向量之间的距离；

根据各文本向量之间的距离构建文本相似度矩阵。

优选地，所述提取聚类结果集中的关键词，计算关键词向量之间的距离，包括：

使用关键词提取算法提取聚类结果集中的关键词，得到关键词集合；

计算关键词集合中各文档关键词的表示向量，各表示向量组成关键词向量集合；

计算各向量之间的距离，使用所述距离构建聚类相似度矩阵。

优选地，所述判断距离与阈值之间的关系，还包括：

若大于阈值，则将大于阈值的距离对应的聚类结果进行合并；

提取合并后的聚类结果集中的关键词，计算关键词向量之间的距离；

重新判断距离与阈值之间的关系。

优选地，所述输入融合结果集至分类器，得到热点事件关键词和热点事件对应的文本，包括：

去除融合结果集中与动词停用表对应的动词，得到待分类融合结果集；

将待分类融合结果集输入训练好的分类器中进行分类，得到热点事件关键词和热点事件对应的文本。

优选地，在所述输入融合结果集至分类器，得到热点事件关键词和热点事件对应的文本之前，还包括：

构建动词停用表和训练分类器。

优选地，所述构建动词停用表，包括：

采集社交媒体中不对应现实事件的固有热门话题文本数据；

通过分词和词性标注，提取文本数据中的动词；

统计文本数量和动词出现的频率，得到动词在文本中的使用频率；

将使用频率超过预设频率阈值的动词加入停用动词表。

优选地，所述训练分类器，包括：

采集新闻事件标题和新闻专题标题；

使用所述新闻事件标题和新闻专题标题训练分类器。

优选地，所述分类器包括FastText分类器和贝叶斯分类器。

第二方面，本申请提出一种热点事件检测系统，包括：

预处理和分词模块，用于对文本进行预处理、分词；

聚类融合模块，用于对文本中的分词向量化，计算文本相似度矩阵；对文本相似度矩阵进行聚类，得到聚类结果集；提取聚类结果集中的关键词，计算关键词向量之间的距离；判断距离与阈值之间的关系，若小于等于阈值，则输出关键词向量对应的聚类结果，得到融合结果集；

事件判别模块，用于对融合结果集进行分类，得到热点事件关键词和热点事件对应的文本。

本申请的优点在于：在使用聚类算法对社交媒体文本聚类的基础上，提取聚类结果的关键词，使用词向量对聚类关键词进行向量化表示，通过判断关键词向量之间的距离，对同一事件的多方向讨论进行归并，能够提高语义识别程度。使用分类器对融合结果集进行分类，能够在包含固有话题的数据中检测热点事件，提高热点事件的识别准确率。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选事实方案的目的，而并不认为是对本申请的限制。而且在整个附图中，用同样的参考符号表示相同的部件。在附图中：

图1是本申请提供的一种热点事件检测方法的步骤示意图；

图2是本申请提供的一种热点事件检测方法的流程示意图；

图3是本申请提供的一种热点事件检测系统的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

根据本申请的实施方式，提出一种热点事件检测方法，如图1所示，包括：

S101，对文本进行预处理、分词和向量化，计算文本相似度矩阵；

S102，对文本相似度矩阵进行聚类，得到聚类结果集；

S103，提取聚类结果集中的关键词，计算关键词向量之间的距离；

S104，判断距离与阈值之间的关系，若小于等于阈值，则输出关键词向量对应的聚类结果，得到融合结果集；

S105，输入融合结果集至分类器，得到热点事件关键词和热点事件对应的文本。

所述文本可以包括采集到的多个文本。

所述对文本进行预处理、分词和向量化，计算文本相似度矩阵，包括：

根据各文本向量之间的距离构建文本相似度矩阵。

所述预处理包括去除文本中包含的HTML标签、停用词、网页URL、@用户名和表情文本等信息。

向量化各文本中的各词和/或词组，得到文本向量集合D＝{D₁，D₂，…，D_n}和各文本向量对应的分词集合D_j＝{w₁，w₂，…，w_n}，其中D_j表示文档集中的文档(文本)向量j所对应的分词集合。

向量化公式为：

w_i，j表示在文本j中词i出现的权重，n_i，j为文本j中词i出现的次数，表示文本j的总词数，N表示总文档数，N_i表示包含词i的文档个数。

距离可以用于表示两个向量之间的相似程度，距离计算公式包括：杰卡德距离(Jaccard Distance)和欧式距离等。

以使用欧式距离公式构建文本相似度矩阵S_D为例，欧式距离计算公式如下：

其中，w_in表示词n在文本i中的权重，w_jn表示词n在文本j中的权重。

通过计算两个文本向量中的分词(各词和/或词组)之间的距离，可以得到这两个文本向量之间的距离，使用这些距离构建文本相似度矩阵S_D。

使用文本相似度矩阵S_D作为聚类算法的输入进行聚类，记聚类结果集为C＝{C₁，C₂，…，C_n}。

所述聚类算法包括：近邻传播(Affinity Propagation，AP)聚类算法和基于狄利克雷多项式混合模型的吉布斯采样算法(Gibbs Sampling algorithm for the DirichletMultinomial Mixture model，GSDMM)等。

所述提取聚类结果集中的关键词，计算关键词向量之间的距离，包括：

对聚类结果使用关键词提取算法提取名词和动词作为文本表示关键词，获得关键词集合K＝{K₁，K₂，…，K_n}。以使用textRank关键词提取算法为例，textRank计算公式为：

其中，v_i、v_j和v_k是textRank算法中有向带权图的点，w_ji表示词j和i之间的权重，w_jk表示词j和k之间的权重。

词向量可以包含更多的语义信息。通过利用词的上下文信息将词转化为一个低维的实数向量，词义越相近的词在向量空间中的距离越小。以使用词向量加和求平均(词向量相加求和再求平均)的方法，对关键词集合中的元素K＝{K₁，K₂，…，K_n}计算文档关键词的表示向量，记为关键词向量集合W＝{W₁，W₂，…，W_n}，关键词向量集合W中的元素包括多个聚类簇。

计算关键词的表示向量(关键词向量)之间的距离，构建聚类相似度矩阵S_C。所述相似度矩阵S_C为n×n的矩阵。以关键词向量集合W＝{W₁，W₂，W₃，W₄}为例，则相似度矩阵S_C为4×4的矩阵。

距离计算公式包括：杰卡德距离(Jaccard Distance)和余弦距离等。

余弦距离计算公式为：

所述判断距离与阈值之间的关系，还包括：

重新判断距离与阈值之间的关系。

若词向量相似度(关键词向量之间的距离)均不大于(小于等于)阈值δ，则输出融合后聚类结果集(融合结果集)C′＝{C′₁，C′₂，…，C′_n}。以聚类结果集为C＝{C₁，C₂，C₃，C₄}，且此聚类结果集的关键词向量之间的距离均小于等于阈值为例，则输出融合后聚类结果集(融合结果集)C′＝{C′₁，C′₂，C′₃，C′₄}，融合结果集C′等于聚类结果集C。

若词向量相似度大于阈值δ，则将词向量相似度大于阈值δ的词向量(关键词向量)对应的聚类结果(聚类结果集中的元素)进行合并，计算合并后的聚类结果集的关键词集合K′＝{K′₁，K′₂，…，K′_n}。重新计算聚类关键词向量集合并计算向量之间的相似度。以聚类结果集为C＝{C₁，C₂，C₃，C₄}，且此聚类结果集的关键词向量之间的距离只有W₁和W₂大于阈值为例，则合并W₁和W₂对应的聚类结果，即C₁和C₂，得到新聚类结果集C＝{C₁，C₂，C₃}，提取新聚类结果集中的关键词，得到新关键词集合K＝{K₁，K₂，K₃}，计算此新关键词集合的关键词向量集合，得到新关键词向量集合W＝{W₁，W₂，W₃}，计算新关键词向量之间的距离，构建新聚类相似度矩阵S_C，重新判断聚类相似度矩阵(新聚类相似度矩阵)中的距离是否都小于等于阈值。若还有大于阈值的距离，则重复上述操作，若距离全都小于等于阈值，则输出融合后聚类结果集C′＝{C′₁，C′₂，C′₃}。

所述融合为融合步骤，包括：关键词向量之间的距离大于阈值δ时，对关键词向量对应的聚类结果进行合并，以及关键词向量之间的距离小于等于阈值δ时，输出关键词向量对应的聚类结果。经过融合步骤之后输出的聚类结果集为融合后聚类结果集，即融合结果集。

所述阈值δ可以设定。

所述输入融合结果集至分类器，得到热点事件关键词和热点事件对应的文本，包括：

所述分类器包括：FastText分类器和贝叶斯分类器等。

在所述输入融合结果集至分类器，得到热点事件关键词和热点事件对应的文本之前，还包括：

构建动词停用表和训练分类器。

所述构建动词停用表，包括：

采集社交媒体中不对应现实事件的固有热门话题文本数据；

通过分词和词性标注，提取文本数据中的动词；

将使用频率超过预设频率阈值的动词加入停用动词表。

所述预设频率阈值可以设定。

在网络社区和社交媒体中，用户的发言和讨论除了围绕现实事件之外，还会围绕着个人兴趣开展。例如星座、情感、工作经验交流等话题虽然符合热度特征，但并不能够实际对应现实中的实际发生的热点事件。同时，热门话题和热点事件在词汇使用方面也有所区别。采集社交媒体中不对应现实事件的固有热门话题数据，如“星座”、“学业生活”、“工作经验”等。通过分词和词性标注，提取文本数据中的动词。随后，根据动词出现的频率和文本数量，制定阈值，提出使用频率较高的高频动词，加入停用动词表。所述动词为用户在讨论话题时会使用表达主观情绪的动词，包括：觉得、希望和知道等动词。

所述训练分类器，包括：

采集新闻事件标题和新闻专题标题；

使用所述新闻事件标题和新闻专题标题训练分类器。

新闻文本作为经过人工审核的文本数据可以视为已标注文本。新闻事件标题作为对一篇文章的总结，能够在较短的文本长度内包含事件相关的主要名词和动词。而新闻专题标题则更接近话题，会包含更多的名词性关键词。同时，这两类标题可以通过数据采集手段获得，减少人工标注时间。针对以上特点，可以通过网络爬虫获取新闻事件标题和新闻专题标题，训练事件判别模型(分类器)。

所述分类器包括FastText分类器和贝叶斯分类器等。

如图2所示，对待处理文本F＝{F₁，F₂，…，F_n}进行预处理，去除文本中包含的HTML标签、停用词、网页URL、@用户名和表情文本等信息，对预处理后的各文本进行分词，得到与各文本对应的多个词和/或词组，向量化各文本中的各词和/或词组，得到文本向量集合D＝{D₁，D₂，…，D_n}和各文本向量对应的分词集合D_j＝{w₁，w₂，…，w_n}。通过计算两个所有文本向量的之间的距离，得到这两个文本向量之间的距离，计算所有文本向量之间的距离，使用这些距离构建文本相似度矩阵S_D，使用文本相似度矩阵S_D作为聚类算法的输入进行聚类，记聚类结果集为C＝{C₁，C₂，…，C_n}。提取聚类结果集中的关键词，得到关键词集合K＝{K₁，K₂，…，K_n}，计算关键词集合的关键词向量集合，得到关键词向量集合W＝{W₁，W₂，…，W_n}。计算关键词向量之间的距离，构建聚类相似度矩阵S_C，判断新聚类相似度矩阵中的距离是否都小于等于阈值。若距离全都小于等于阈值，则输出融合结果集C′＝{C′₁，C′₂，…，C′_n}，若有大于阈值的距离，则合并此距离对应的聚类结果，得到新聚类结果集，计算新的聚类结果集的新聚类相似度矩阵，判断距离是否都小于等于阈值，直到聚类相似度矩阵中的距离全都小于等于阈值，输出融合结果集C′＝{C′₁，C′₂，…，C′_n}。去除融合结果集中与动词停用表对应的动词，得到待分类融合结果集，将待分类融合结果集输入训练好的分类器中进行分类，得到热点事件关键词和热点事件对应的文本。

分类器将共同包含有多个关键词的各文本分为同一类，此多个关键词即为热点事件关键词，对应一个热点事件。以从8个文本中识别热点事件为例，假设8个文本中有6个文本包括热点事件(实际发生的热点事件)，所述6个文本中有2个文本包都含3个关键词，词X、词Y和词Z，另外4个文本都包含5个关键词，词P、词Q、词R、词S和词T。则分类器将词X、词Y和词Z分为同一类，对应一个热点事件A，并将都包含词X、词Y和词Z的2个文本分为同一类，即热点事件A对应的文本；将词P、词Q、词R、词S和词T分为同一类，对应另一个热点事件B，并将都包含词P、词Q、词R、词S和词T的4个文本分为同一类，即热点事件B对应的文本。

热点事件关键词包含各热点事件关键词对应的同义词，即将同义词用一个词进行表述。假设词E和词F为同义词，则在计算关键词向量(在向量化各文本中的各词和/或词组)时，可以算出词E和词F的距离很近，将词F替换为词E，并将包含有词F的文本与包含有词E的文本合并为一个集合(对文本相似度矩阵进行聚类，得到聚类结果集)。

通过网络爬虫获取新闻事件标题和新闻专题标题用于训练事件判别模型。该训练集中包含新闻事件标题3000个，新闻专题标题2300个。并获取某高校论坛2018年12月兴趣讨论板块的60000条数据用于构建停用动词表。文本的测试集数据来自于新浪微博。通过微博搜索接口搜索高校关键词，基于网络爬虫实现高校相关微博数据的获取。选取其中11000条微博进行人工标注，用于验证本文所提出的热点事件检测方法的效果。本数据集(进行人工标注的微博)中共包含8个热点事件及事件相关文本1980条。

微博文本中包含HTML标签、网页URL、@用户名、表情等噪声。在进行事件检测前，对微博数据进行预处理。

如表1所示，为使用传统AP聚类算法识别事件、使用AP聚类算法加合并识别事件和使用本实施例的方法识别事件的识别事件数量图。

表1

方法	测试集中包含的事件数	识别簇(事件)数
			传统AP聚类算法识别事件	8	31
AP聚类算法加合并识别事件	8	17
			本实施例的方法	8	10

从表1中的数据可以看出，在无预定义簇(事件)数量的情况下，传统AP聚类算法根据文本相似度进行聚类，会识别出远多于实际事件数目的簇。其原因在于，用户在发表对同一事件的观点和态度时，可能会从多角度进行描述。传统基于统计特征的聚类方法无法发现词与词之间的语义相似性。在对聚类结果关键词进行语义相似度比较和合并后，使用AP聚类算法加合并识别事件，其识别事件的数量虽少于传统AP聚类算法所识别出的事件数量，但是对数据集中包含的一些固有热门话题并不能进行较好的区分。本实施例的方法能够更加准确的对聚类簇进行识别，并且在对合并结果进行事件判别后，能够更好的对事件进行识别。

表1中的本实施例的方法使用欧式距离构建文本相似度矩阵S_D，使用AP聚类对文本相似度矩阵S_D进行聚类，使用textRank关键词提取算法，使用余弦距离计算相似度矩阵S_C，使用FastText分类器，聚类结果合并阈值设为0.85，词向量维度设为300。

聚类结果合并阈值和词向量维度使用精确率(Precision Rate)、召回率(RecallRate)和F值(F-Measure)作为评价指标。

召回率(Recall)＝系统检索到的相关文件/系统所有相关的文件总数。

精确率(Precision)＝系统检索到的相关文件/系统所有检索到的文件总数。

F值是精确率和召回率加权调和平均，P(召回率)和R(精确率)指标有时候会出现的矛盾的情况，这样就需要综合考虑P和R指标，使用F-Measure(又称为F-Score)对P和R指标进行综合考虑。

根据本申请的实施方式，还提出一种热点事件检测系统，如图3所示，包括：

预处理和分词模块101，用于对文本进行预处理、分词；

聚类融合模块102，用于对文本中的分词向量化，计算文本相似度矩阵；对文本相似度矩阵进行聚类，得到聚类结果集；提取聚类结果集中的关键词，计算关键词向量之间的距离；判断距离与阈值之间的关系，若小于等于阈值，则输出关键词向量对应的聚类结果，得到融合结果集；

事件判别模块103，用于对融合结果集进行分类，得到热点事件关键词。

所述聚类融合模块还用于，判断距离与阈值之间的关系，若大于阈值，则将大于阈值的距离对应的聚类结果进行合并；提取合并后的聚类结果集中的关键词，计算关键词向量之间的距离；重新判断距离与阈值之间的关系。

所述事件判别模块包括：动词停用单元和分类单元。

所述动词停用单元，用于去除融合结果集中与动词停用表对应的动词，得到待分类融合结果集。

所述动词停用表的构建，通过采集社交媒体中不对应现实事件的固有热门话题文本数据；对文本数据进行分词和词性标注，提取文本数据中的动词；统计文本数量和动词出现的频率，得到动词在文本中的使用频率；将使用频率超过预设频率阈值的动词加入停用动词表。

在网络社区和社交媒体中，用户的发言和讨论除了围绕现实事件之外，还会围绕着个人兴趣开展。例如星座、情感、工作经验交流等话题虽然符合热度特征，但并不能够实际对应现实中的实际发生的热点事件。同时，热门话题和热点事件在词汇使用方面也有所区别。采集社交媒体中不对应现实事件的固有热门话题数据，如“星座”、“学业生活”、“工作经验”等。通过分词和词性标注，提取文本数据中的动词。随后，根据动词出现的频率和文本数量，制定阈值，提出使用频率较高的高频动词，加入停用动词表。所述动词为用户在讨论话题时会使用表达主观情绪的动词，包括：觉得、希望和知道等动词

所述分类单元使用采集到的新闻事件标题和新闻专题标题进行训练。

所述分类单元，用于将待分类融合结果集输入训练好的分类器中进行分类，得到热点事件关键词和热点事件对应的文本。

本申请的方法中，在使用聚类算法对社交媒体文本聚类的基础上，提取聚类结果的关键词，使用词向量对聚类关键词进行向量化表示，通过判断关键词向量之间的距离，对同一事件的多方向讨论进行归并，能够提高语义识别程度。使用新闻标题和论坛热门话题短文本构建事件判别模型(分类器)，在包含固有话题的数据中检测热点事件，提高热点事件的识别准确率。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种热点事件检测方法，其特征在于，包括：

对文本进行预处理、分词和向量化，计算文本相似度矩阵；

对文本相似度矩阵进行聚类，得到聚类结果集；

提取聚类结果集中的关键词，计算关键词向量之间的距离；

2.如权利要求1所述的一种热点事件检测方法，其特征在于，所述对文本进行预处理、分词和向量化，计算文本相似度矩阵，包括：

根据各文本向量之间的距离构建文本相似度矩阵。

3.如权利要求1所述的一种热点事件检测方法，其特征在于，所述提取聚类结果集中的关键词，计算关键词向量之间的距离，包括：

4.如权利要求1所述的一种热点事件检测方法，其特征在于，所述判断距离与阈值之间的关系，还包括：

重新判断距离与阈值之间的关系。

5.如权利要求1所述的一种热点事件检测方法，其特征在于，所述输入融合结果集至分类器，得到热点事件关键词和热点事件对应的文本，包括：

6.如权利要求5所述的一种热点事件检测方法，其特征在于，在所述输入融合结果集至分类器，得到热点事件关键词和热点事件对应的文本之前，还包括：

构建动词停用表和训练分类器。

7.如权利要求6所述的一种热点事件检测方法，其特征在于，所述构建动词停用表，包括：

采集社交媒体中不对应现实事件的固有热门话题文本数据；

通过分词和词性标注，提取文本数据中的动词；

将使用频率超过预设频率阈值的动词加入停用动词表。

8.如权利要求6所述的一种热点事件检测方法，其特征在于，所述训练分类器，包括：

采集新闻事件标题和新闻专题标题；

使用所述新闻事件标题和新闻专题标题训练分类器。

9.如权利要求1所述的一种热点事件检测方法，其特征在于，所述分类器包括FastText分类器和贝叶斯分类器。

10.一种热点事件检测系统，其特征在于，包括：

预处理和分词模块，用于对文本进行预处理、分词；