CN113987192B

CN113987192B - 一种基于RoBERTa-WWM和HDBSCAN算法的热点话题检测方法

Info

Publication number: CN113987192B
Application number: CN202111615836.9A
Authority: CN
Inventors: 刘锟; 曾曦; 邱梓珩; 陈天莹; 王效武; 魏刚
Original assignee: Shenzhen Wanglian Anrui Network Technology Co ltd; China Electronic Technology Cyber Security Co Ltd
Current assignee: Shenzhen Wanglian Anrui Network Technology Co ltd; China Electronic Technology Cyber Security Co Ltd
Priority date: 2021-12-28
Filing date: 2021-12-28
Publication date: 2022-04-01
Anticipated expiration: 2041-12-28
Also published as: CN113987192A

Abstract

本发明公开了一种基于RoBERTa‑WWM和HDBSCAN算法的热点话题检测方法，所述热点话题检测方法包括离线热点话题检测和在线热点话题检测；所述离线热点话题检测为检测数据库中已有数据所包含的热点话题，所述在线热点话题检测为检测某时间区间内互联网媒体平台中发生的热点话题；通过本发明的热点话题检测方法避免了传统技术中由关键词向量表示话题导致的向量之间的可区分性差的问题，从根本上提升了话题检测的准确性。

Description

一种基于RoBERTa-WWM和HDBSCAN算法的热点话题检测方法

技术领域

本发明属于自然语言处理、网络认知安全技术领域，尤其涉及一种基于RoBERTa-WWM和HDBSCAN算法的热点话题检测方法。

背景技术

热点话题检测是一种能从当下海量的网络舆情数据中挖掘出民众所关心和讨论的热点话题或事件的技术。传统的热点话题检测有基于主题模型的话题检测技术以及基于文本聚类的话题检测技术两大类。

随着自然语言处理技术的发展，目前最常用的是基于文本聚类的话题检测技术，该技术首先将文本数据表示成能够便于数学计算的向量形式，然后通过计算所采集的文本数据之间的相似度，将这些文本数据划分为不同的簇，最终根据每个簇中包含的帖子所附带的转发、点赞等互动信息的综合排名对所有簇进行排序，选出排名最高的若干个簇，以此来达到检测热点话题的目的。

其中，基于文本聚类算法的话题检测技术，该技术目前存在以下不足：

（1）使用基于文本聚类算法的话题检测技术，首先要做的就是将文本数据处理成能够便于进行数学计算的向量形式。目前常用的词袋模型、Word2Vec等将文本数据表示成向量形式的主要思路是：首先将所有的文本进行预处理以及分词处理，然后将每一篇文本中的关键词汇合成语料库，最后利用每一篇文本中的关键词在该语料库上的映射，得到每一篇文本的向量表示。然而当前互联网媒体平台中的数据存在数据量大、文本长度短、用语不规范、碎片化严重、噪声信息多等特点，这使得基于现有的文本表示算法得到的文本向量维数很高，数据的可区分性很差，除此之外现有的文本表示方法没有考虑文本语义的相似性以及上下文语境信息，很难保证文本表示的准确性，从而导致现有的基于文本聚类的话题检测技术的在实际的应用场景中使用效果很差。

（2）目前常用于话题检测的聚类算法有基于密度聚类的DBSCAN算法以及基于层次聚类的HAC算法。然而这些算法都存在一定的局限性，其中DBSCAN算法的参数调整困难而且在数据量大的时候很难收敛、基于层次聚类的HAC算法计算复杂度高。因此在实际应用中，两种算法都很难达到较好的话题检测效果

（3）在对得到的话题进行向量化表示时，现有的话题检测算法是用该话题中所包含文本关键词的tf-idf（term frequency–inverse document frequency）值来表示该话题。但是在一般情况下，两个相似的事件所用的词频较高的关键词基本相同，因此使用该方法无法区分这两个事件，甚至会将两个事件划分为一个话题；除此之外，基于关键词的tf-idf值得算法无法应对话题的演化和漂移。这两个问题都会影响最终话题检测结果的准确性。

发明内容

本发明的目的在于，为克服现有技术缺陷，提供了一种基于RoBERTa-WWM和HDBSCAN算法的热点话题检测方法，通过本发明的热点话题检测方法避免了由关键词向量表示话题导致的向量之间的可区分性差的问题，从根本上提升了话题检测的准确性。

本发明目的通过下述技术方案来实现：

一种基于RoBERTa-WWM和HDBSCAN算法的热点话题检测方法，所述热点话题检测方法包括离线热点话题检测和在线热点话题检测；所述离线热点话题检测为检测数据库中已有数据所包含的热点话题，数据量和话题数目不发生变化，所述在线热点话题检测为检测某时间区间内互联网媒体平台中发生的热点话题，数据量和话题数目随时间不断增加；

其中，所述离线热点话题检测包括如下步骤：

A1.数据清洗步骤，对数据库中已有的文本数据做数据清洗，去除文本中的干扰信息；

A2.文本向量化表示步骤，使用有标注的相似句子对和不相似句子对数据集对外接有微调结构的RoBERTa-WWM模型进行微调，并将经过数据清洗的文本数据输入微调（或训练）后的外接有微调结构的RoBERTa-WWM模型，得到所有文本数据的向量表示；

A3.聚类步骤，使用HDBSCAN算法对步骤A2得到的文本向量进行聚类，得到文本数据的话题分布情况；

A4.效果评估与参数调整步骤，使用轮廓系数以及互信息指数两个指标来评估离线话题检测模型的效果，如果未达到预设的效果，则调整RoBERTa—WWM模型和HDBSCAN算法的参数，直到达到最优解；

A5.结果生成步骤，根据每个话题中帖子的互动信息计算每个帖子的热度值以及每个话题的热度值，并根据该热度值排序，确定热点话题列表；并选取热点话题中帖子热度排名前M%位的帖子来表示该话题，计算这些帖子的文本向量的均值作为该话题的向量表示。

根据一个优选的实施方式，步骤A1中，文本中的干扰信息包括新闻链接和符号。

根据一个优选的实施方式，步骤A5中，热点话题为话题的热度值大于设定阈值的前N个话题。

根据一个优选的实施方式，步骤A5中，

帖子的热度计算公式为：

；

其中，

是指第i个帖子的发帖热度值，

是指第i个帖子的点赞数，

指的是第i个帖子的转发数，

是指第i个帖子的评论数，x、y、z是由熵权法得到的权重系数。

根据一个优选的实施方式，话题的热度计算公式为：

其中

表示第j个话题的热度值，n表示该话题中帖子的个数。

根据一个优选的实施方式，其中，所述在线热点话题检测包括如下步骤：

B1.数据采集步骤，实时采集互联网媒体平台中的网络舆情数据；

B2.离线话题检测步骤，每次选择固定时间窗口内爬取到的网络舆情数据，使用离线话题检测方法对采集到的数据做话题检测；

B3.相似度计算和新话题的分类与融合步骤，依次计算步骤B2新得到的话题和已有话题之间的相似度；

如果相似度大于实现设定的阈值，则将新得到的话题和已有话题中与之相似度最高的话题合并，同时根据帖子的热度值排序更新合并后的话题表示向量，如果相似度小于设定的阈值，则该话题为新话题，得到该新话题的表示向量后将其加入已有话题；

B4.结果生成步骤：得到固定时间窗口内的所有话题，根据每个话题的热度值对所有话题排序，得到话题的热度排行榜，最后选取前P个话题作为这一时间段内的民众所关心和讨论的热点话题。

前述本发明主方案及其各进一步选择方案可以自由组合以形成多个方案，均为本发明可采用并要求保护的方案。本领域技术人员在了解本发明方案后根据现有技术和公知常识可明了有多种组合，均为本发明所要保护的技术方案，在此不做穷举。

本发明的有益效果：

本发明方法基于中文语言环境的预训练语言模型RoBERTa-WWM（a RobustlyOptimized BERT Pretraining Approach，WholeWordMask）模型来做文本表示，并在该模型的基础上加入微调结构，使得经RoBERTa-WWM模型得到的文本向量能够更完整的保留了文本的语义信息以及上下文的语境信息，避免了由关键词向量表示话题导致的向量之间的可区分性差的问题，从根本上提升了话题检测的准确性。

本发明方法创新性的使用了HDBSCAN（Hierarchical Density-Based SpatialClustering of Applications with Noise）算法来进行对文本表示后的文本向量做聚类，该算法更能适应目前互联网媒体平台中数据的特点，而且还减小了话题检测算法的复杂度和运算成本。

并且，利用每个话题所包含的帖子中的互动信息来更新话题的表示向量。考虑了话题中每篇帖子的影响力和传播能力，使得该模型能够更准确的表示话题，同时避免了话题漂移和演化带来的影响。

附图说明

图1是本发明热点话题检测方法中离线热点话题检测算法流程示意图；

图2是本发明热点话题检测方法中RoBERTa-WWM模型的微调结构示意图；

图3是本发明热点话题检测方法中在线热点话题检测流程示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，为使本发明实施例的目的、技术方案和优点更加清楚，下面对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

实施例1：

参考图1所示，本发明公开了一种基于RoBERTa-WWM和HDBSCAN算法的热点话题检测方法，所述热点话题检测方法包括离线热点话题检测和在线热点话题检测。

离线热点话题检测为检测数据库中已有数据所包含的热点话题，在处理过程中，数据固定，不会产生新的话题。

在线热点话题检测为检测某时间区间内互联网媒体平台中发生的热点话题。在该处理过程中，数据不断地更新，需要考虑新到达的报道和已有话题的相似度以及话题漂移与演化对话题检测结果带来的影响，除此之外，还需要考虑算法的计算效率，保证计算结果的实时性。

优选地，所述离线热点话题检测包括如下步骤：

A1.数据清洗步骤，对数据库中已有的文本数据做数据清洗，去除文本中的干扰信息。

具体地，去除文本中的新闻链接、符号以及其它的干扰信息。

A2.文本向量化表示步骤，使用有标注的相似句子对和不相似句子对数据集对外接有微调结构的RoBERTa-WWM模型进行微调，并将经过数据清洗的文本数据输入微调（或训练）后的外接有微调结构的RoBERTa-WWM模型，得到所有文本数据的向量表示。

前述微调过程即是一个模型再训练过程。如图2所示。例如，有标注的相似句子分别输入原始RoBERTa-WWM模型中，然后进入微调结构的pooling层分别获得句子向量，然后对两个句子向量以及它们的差向量进行拼接，最后进入Softmax Classifier完成逻辑回归处理，得到两个句子的相似度，即完成一次再训练过程。从而通过多次训练，完成对外接有微调结构的RoBERTa-WWM模型的微调。

本步骤基于中文语言环境的预训练语言模型RoBERTa-WWM（a RobustlyOptimized BERT Pretraining Approach，WholeWordMask）模型来做文本表示，并在该模型的基础上加入微调结构，使得经RoBERTa-WWM模型得到的文本向量能够更完整的保留了文本的语义信息以及上下文的语境信息，避免了由关键词向量表示话题导致的向量之间的可区分性差的问题，从根本上提升了话题检测的准确性。

A3.聚类步骤，使用HDBSCAN算法对步骤A2得到的文本向量进行聚类，得到文本数据的话题分布情况。

本步骤创新性的使用了HDBSCAN（Hierarchical Density-Based SpatialClustering of Applications with Noise）算法来进行对文本表示后的文本向量做聚类，该算法更能适应目前互联网媒体平台中数据的特点，而且还减小了话题检测算法的复杂度和运算成本。

A4.效果评估与参数调整步骤，使用轮廓系数以及互信息指数两个指标来评估离线话题检测模型的效果，如果未达到预设的效果，则调整RoBERTa—WWM模型和HDBSCAN算法的参数，直到达到最优解。

A5.结果生成步骤，根据每个话题中帖子的互动信息计算每个帖子的热度值以及每个话题的热度值，并根据该热度值排序，确定热点话题；并选取热点话题中帖子热度排名前M%位的帖子来表示该话题（例如，选取热点话题中帖子热度排名前50%的帖子来表示该话题），计算这些帖子的文本向量的均值作为该话题的向量表示。

利用每个话题所包含的帖子中的互动信息来更新话题的表示向量。考虑了话题中每篇帖子的影响力和传播能力，使得该模型能够更准确的表示话题，同时避免了话题漂移和演化带来的影响。

步骤A5中，热点话题为话题的热度值大于设定阈值的前N个话题。

步骤A5中，

帖子的热度计算公式为：

；

其中，

是指第i个帖子的发帖热度值，

是指第i个帖子的点赞数，

指的是第i个帖子的转发数，

话题的热度计算公式为：

其中

表示第j个话题的热度值，n表示该话题中帖子的个数。

优选地，如图3所示，所述在线热点话题检测包括如下步骤：

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。