CN110597982A

CN110597982A - 一种基于词共现网络的短文本主题聚类算法

Info

Publication number: CN110597982A
Application number: CN201910487109.5A
Authority: CN
Inventors: 肖清林
Original assignee: Fujian Singularity Space-Time Digital Technology Co Ltd
Current assignee: Fujian Singularity Space-Time Digital Technology Co Ltd
Priority date: 2019-06-05
Filing date: 2019-06-05
Publication date: 2019-12-20

Abstract

一种基于词共现网络的短文本主题聚类算法，包括以下具体步骤：S1、收集海量主题短文本数据；S2、对主题短文本数据预处理，得到预处理后主题短文本；S3、提取预处理后主题短文本数据中的关键字；S4、根据主题短文本数据中的关键字构建词共现网络；S5、对短文本主题进行预处理，得到预处理后短文本主题；提取预处理后短文本主题中的关键字；S6、计算预处理后短文本主题和词共现网络中预处理后主题短文本之间的语义相似度；S7、根据得到的语义相识度，对短文本主题进行聚类操作。本发明能对短文本信息进行有效聚类，从而快速得到人们想要的主题信息。

Description

一种基于词共现网络的短文本主题聚类算法

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于词共现网络的短文本主题聚类算法。

背景技术

文本聚类是数据挖掘和自然语言处理领域中聚类分析算法的重要主题之一；随着互联网快速发展和信息技术的快速进步，数据的增长速度越来越快。在人们进行学习活动过程中，往往需要确定活动的主题，为了避免主题确定时发生错误，往往需要在网络上对主题进行搜索，但是如何准确且快速的从规模庞大的短文本数据中抽取处符合自己要求的信息成为现阶段新的挑战；为此，本申请中提出一种基于词共现网络的短文本主题聚类算法，对短文本信息进行聚类，从而快速得到人们想要的主题信息。

发明内容

(一)发明目的

为解决背景技术中存在的技术问题，本发明提出一种基于词共现网络的短文本主题聚类算法，本发明能对短文本信息进行有效聚类，从而快速得到人们想要的主题信息。

(二)技术方案

为解决上述问题，本发明提供了一种基于词共现网络的短文本主题聚类算法，包括以下具体步骤：

S1、收集海量主题短文本数据A；

S2、对主题短文本数据A预处理，得到预处理后主题短文本B；

S3、提取预处理后主题短文本B数据中的关键字C；

S4、根据主题短文本数据A中的关键字C构建词共现网络；

S5、对短文本主题D进行预处理，得到预处理后短文本主题E；提取预处理后短文本主题E中的关键字F；

S6、计算预处理后短文本主题E和词共现网络中预处理后主题短文本B之间的语义相似度G，得到两者最接近的语义相似度G1；

S7、根据得到的语义相识度G1，对短文本主题D进行聚类操作。

优选的，S1中对得到的主题短文本数据A进行处理前进行去除低频词项。

优选的，低频词项为词频低于0.01的词项。

优选的，S2中对主题短文本数据A中的词语进行消歧，包括对常规的高频词、停用词、标点符号以及表情符号进行去除。

优选的，S5中对短文本主题D中的词语进行消歧，包括对常规的高频词、停用词、标点符号以及表情符号进行去除。

优选的，S6中计算相识度的具体步骤包括：

S61、从预处理后短文本主题E和预处理后主题短文本B中各抽取连续的G 各关键词，并将两者安装原有的顺序组成短文本H；获取新的短文本H中每个词的词向量表示并组成映射矩阵，利用映射矩阵与相同大小的卷积核进行卷积，获得标量I；

S62、重复执行S61将得到标量集合I1，将标量集合I1按照原有的顺序组合起来，得到关于预处理后短文本主题E和预处理后主题短文本B语义信息的局部特征矩阵；

S63、对局部特征矩阵进行二维池化操作，得到全局特征矩阵；

S64、对全局特征矩阵交替进行二维卷积操作和二维池化操作，并把最终的全局特征矩阵通过一个全连接层变换成一个特征向量；把特征向量输入到一个多层感知机中，得到预处理后短文本主题E和预处理后主题短文本B的语义相似度。

优选的，S7中聚类操作采用K均值聚类算法。

本发明的上述技术方案具有如下有益的技术效果：

本发明中，通过对网络上的主题短文本数据A进行收集并处理后建立词共现网络；对短文本主题D进行处理后，分别计算预处理后短文本主题E和词共现网络中所有的预处理后主题短文本B的语义相似度，并最终选择与预处理后短文本主题E最为接近的语义相似度的预处理后主题短文本B，根据得到的语义相识度，对短文本主题D快速进行聚类操作，从而快速得到使用者所需要的主题信息。

附图说明

图1为本发明提出的一种基于词共现网络的短文本主题聚类算法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

如图1所示，本发明提出的一种基于词共现网络的短文本主题聚类算法，包括以下具体步骤：

S1、收集海量主题短文本数据A，通过实现爬虫或者社交网络平台获取网络上的主题短文本数据A；

S2、对主题短文本数据A预处理，得到预处理后主题短文本B；

S3、对预处理后主题短文本B进行分词并提取预处理后主题短文本B数据中的关键字C；

S4、根据主题短文本数据A中的关键字C构建词共现网络；

S5、对短文本主题D进行预处理，得到预处理后短文本主题E；对预处理后短文本主题E进行分词并提取预处理后短文本主题E中的关键字F；

需要说明的是，计算预处理后短文本主题E和预处理后主题短文本B之间的语义相似度G；其中，需要计算预处理后短文本主题E和词共现网络中所有的预处理后主题短文本B之间的语义相似度G；并最终得到两者最接近的语义相似度G；

在一个可选的实施例中，S1中对得到的主题短文本数据A进行处理前进行去除低频词项。

需要时说明的是，低频词项是指出现频率相对较低的词。比如，对于一个含有1000个词语的文本，如果某个词出现100次，则频率为0.1，如果某个词仅出现1次，则频率为0.001，低频词项就是频率小于一定程度的单词；在本发明实施例中，优选词频低于0.01的词汇为低频词汇。

在一个可选的实施例中，S2中对主题短文本数据A中的词语进行消歧，包括对常规的高频词、停用词、标点符号以及表情符号进行去除。

在一个可选的实施例中，S5中对短文本主题D中的词语进行消歧，包括对常规的高频词、停用词、标点符号以及表情符号进行去除。

在一个可选的实施例中，S6中计算相识度的具体步骤包括：

在一个可选的实施例中，S7中聚类操作采用K均值聚类算法。

本发明中，通过对网络上的主题短文本数据A进行收集并处理后建立词共现网络；对短文本主题D进行处理后，分别计算预处理后短文本主题E和词共现网络中所有的预处理后主题短文本B的语义相似度，并最终选择与预处理后短文本主题E最为接近的语义相似度的预处理后主题短文本B，根据得到的语义相识度，对短文本主题D快速进行聚类操作。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于词共现网络的短文本主题聚类算法，其特征在于，包括以下具体步骤：

S1、收集海量主题短文本数据A；

S2、对主题短文本数据A预处理，得到预处理后主题短文本B；

S3、提取预处理后主题短文本B数据中的关键字C；

S4、根据主题短文本数据A中的关键字C构建词共现网络；

2.根据权利要求1所述的一种基于词共现网络的短文本主题聚类算法，其特征在于，S1中对得到的主题短文本数据A进行处理前进行去除低频词项。

3.根据权利要求2所述的一种基于词共现网络的短文本主题聚类算法，其特征在于，低频词项为词频低于0.01的词项。

4.根据权利要求1所述的一种基于词共现网络的短文本主题聚类算法，其特征在于，S2中对主题短文本数据A中的词语进行消歧，包括对常规的高频词、停用词、标点符号以及表情符号进行去除。

5.根据权利要求1所述的一种基于词共现网络的短文本主题聚类算法，其特征在于，S5中对短文本主题D中的词语进行消歧，包括对常规的高频词、停用词、标点符号以及表情符号进行去除。

6.根据权利要求1所述的一种基于词共现网络的短文本主题聚类算法，其特征在于，S6中计算相识度的具体步骤包括：

S61、从预处理后短文本主题E和预处理后主题短文本B中各抽取连续的G各关键词，并将两者安装原有的顺序组成短文本H；获取新的短文本H中每个词的词向量表示并组成映射矩阵，利用映射矩阵与相同大小的卷积核进行卷积，获得标量I；

7.根据权利要求1所述的一种基于词共现网络的短文本主题聚类算法，其特征在于，S7中聚类操作采用K均值聚类算法。