CN110851592B

CN110851592B - 一种基于聚类的新闻文本最优主题数计算方法

Info

Publication number: CN110851592B
Application number: CN201910884160.XA
Authority: CN
Inventors: 王红斌; 王健雄; 余正涛; 线岩团; 张亚飞
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2019-09-19
Filing date: 2019-09-19
Publication date: 2022-04-05
Anticipated expiration: 2039-09-19
Also published as: CN110851592A

Abstract

本发明公开了一种基于聚类的新闻文本最优主题数计算方法，步骤为：Step1、新闻文本语料获取和预处理；Step2、对经过预处理的语料库进行词嵌入处理，获得语料库中文本的词向量；Step3、将所有的词向量作为一个整体，利用一种基于快速搜索和寻找密度峰值的聚类方法对词向量进行聚类，获得词向量的聚类数目；Step4、将词向量聚类获得的数目确定为新闻文本的最优主题数。本发明利用词嵌入Word2Vec模型来表达主题语料之间的隐含语义关系，可以避探索词义相关关系，同时算法整体不存在迭代，计算简单，模型复杂度不高，因此可以避免现有方法在确定LDA最优主题数目所使用的都要迭代及每一步都需要求解目标函数的不足。

Description

一种基于聚类的新闻文本最优主题数计算方法

技术领域

本发明涉及一种基于聚类的新闻文本最优主题数计算方法，属于机器学习技术领域。

背景技术

主题建模是机器学习的一个活跃的研究领域，主要以潜在主题的形式从非结构化数据(通常是一组文本文档)构建模型，提取文档集合的宏观内容结构(通常是术语的多项式分布形式)。给定一组非结构化文本文档，主题建模假定文档 (语料库)中存在一定数量的潜在主题，并且每个文档包含不同比例的多个主题。研究人员已经研究出多种主题模型，并在NLP中有大量应用，其中潜在Dirichlet 分配(LDA)是主题建模方法中最常用的技术，是一种用于建模语料库的无监督生成概率方法。LDA训练过程如下：通过已知的“词语-文档”矩阵进行训练，得到“词语-主题”矩阵和“主题-文档”矩阵，其中“词语-文档”矩阵表示每个文档中每个词语的词频(即出现的概率)；“词语-主题”矩阵表示每个主题中每个词语的概率(即词语分布)；“主题-文档”矩阵表示每个文档中每个主题出现的概率(即主题分布)。显然，上述LDA训练过程中，需要获取文本语料的最优主题数目，不同数量的主题可能会影响主题模型的准确性和复杂度。主题数量不足可能导致 LDA模型过于粗糙而无法准确区分主题。另一方面，过多的主题可能导致模型过于复杂，使主题的解释和主观验证变得困难。

发明内容

本发明提供了一种基于聚类的新闻文本最优主题数计算方法，以用于通过本方法获得新闻文本最优主题数用于LDA模型进行主题识别。

本发明的技术方案是：一种基于聚类的新闻文本最优主题数计算方法，所述方法的具体步骤如下：

Step1、新闻文本语料获取和预处理；

Step2、对经过预处理的语料库进行词嵌入处理，获得语料库中文本的词向量；其中，采用词嵌入处理时，选择的维度200～300之间；

Step3、将所有的词向量作为一个整体，利用一种基于快速搜索和寻找密度峰值的聚类方法对词向量进行聚类，获得词向量的聚类数目；

Step4、将词向量聚类获得的数目确定为新闻文本的最优主题数。

所述步骤Step1的具体步骤为：

Step1.1、通过爬虫从新闻平台上搜索新闻作为新闻文本，将该新闻文本作为主题数目提取的语料库；其中单个新闻文本为单篇新闻的全文；

Step1.2、对获取的语料库中的文本依次进行分词、去除停用词的预处理。

所述新闻的平台能为腾讯新闻、新浪、今日头条。

所述步骤Step3的具体步骤为：

Step3.1、计算两点之间的距离；

Step3.2、计算点的局部密度ρ_i以及该点到任何比其密度大的点的距离的最小值δ_i；

Step3.3、将满足ρ_i≥0.6*(max(ρ_u)—min(ρ_u))+min(ρ_u)且δ_i≥0.2* (max(δ_v)—min(δ_v))+min(δ_v)的点认定为是类簇的中心，根据确定的类簇的中心数目，作为词向量的聚类数目；其中，i表示第i个词向量，max(ρ_u)表示ρ_u中 u取1,2,...n时所得的最大值，min(ρ_u)表示ρ_u中u取1,2,...n时所得的最小值， max(δ_v)表示δ_v中v取1,2,...n时所得的最大值，min(δ_v)表示δ_v中v取1,2,...n时所得的最小值，n表示词向量的总数。

本发明的有益效果是：本发明利用词嵌入Word2Vec模型来表达主题语料之间的隐含语义关系，可以避探索词义相关关系，同时算法整体不存在迭代，计算简单，模型复杂度不高，因此可以避免现有方法在确定LDA最优主题数目所使用的都要迭代及每一步都需要求解目标函数的不足。

附图说明

图1为本发明的原理流程图；

图2为本发明的词嵌入点分布图；

图3为本发明利用一种基于快速搜索和寻找密度峰值的聚类方法对词向量进行聚类时的决策图。

具体实施方式

实施例1：如图1-3所示，一种基于聚类的新闻文本最优主题数计算方法，所述方法具体步骤如下：

Step1、新闻文本语料获取和预处理；

Step1.1、获取要进行LDA主题提取的语料：针对近期较为热门的新闻话题，从腾讯新闻网页上搜索热门新闻话题，共获得100,400,1000篇新闻文本(此处是获得了三个文本数据集)，文本包括新闻的全文。

Step1.2、对语料进行分词：把获得的数目不同的三个文本数据集通过分词和去除停用词来进行预处理。

把获得的数目不同的三个文本数据集通过分词和去除停用词来进行预处理。并进行人工主题提取，提取出的主题以及相关主题的文本数目。三个文本数据集均分别执行步骤Step2-Step5进行处理，处理方式相同，此处以400篇新闻文本为例，说明主题数目识别的具体过程，所得到到的主题及主题文本数如表1：

表1语料主题以及主题文章数目

主题	数目	主题	数目	主题	数目
						主题1	40	主题2	3	主题3	16
主题4	3	主题5	19	主题6	51
						主题7	16	主题8	23	主题9	34
主题10	4	主题11	16	主题12	29
						主题13	23	主题14	13	主题15	36
主题16	12	主题17	33	主题18	29

Step2、对经过预处理的语料库进行词嵌入处理，所采用的是作为Python第三方包的已经封装入gensim下的Word2Vec来进行word embedding，以获得文本的词向量；对经过预处理之后的语料集，进行词嵌入操作，语料word2vec的维度选择在200～300之间，得到了语料词嵌入，为了方便直观展示聚类的过程，把词嵌入降维，映射到二维向量上，图2展示了文本词嵌入之后映射到二维空间内的点，图2中可以大概看出密度最大的点，被定义为聚类中心。

所述步骤Step3的具体步骤为：

Step3.1计算两点之间的距离d_ij

Step3.2计算点的局部密度ρ_i以及该点到任何比其密度大的点的距离的最小值δ_i，数据点i的局部密度ρ_i定义为式(1)：

其中，如果x<0，那么X(x)＝1；如果x≧0，则X(x)＝0，d_c是一个截断距离。基本上，ρ_i等于与点i的距离小于d_c的点的个数。算法只对不同点的ρ_i的相对大小敏感，这意味着对于大数据集，分析结果对于d_c的选择有很好鲁棒性。

数据点i的δ_i是点到任何比其密度大的点的距离的最小值式(2)：

对于密度最大的点，设置δ_i＝max_j(d_ij)。

Step3.3、将满足ρ_i≥0.6*(max(ρ_u)—min(ρ_u))+min(ρ_u)且δ_i≥0.2* (max(δ_v)—min(δ_v))+min(δ_v)的点认定为是类簇的中心，根据确定的类簇的中心数目，作为词向量的聚类数目；其中，i表示第i个词向量，max(ρ_u)表示ρ_u中u取1,2,...n时所得的最大值，min(ρ_u)表示ρ_u中u取1,2,...n时所得的最小值， max(δ_v)表示δ_v中v取1,2,...n时所得的最大值，min(δ_v)表示δ_v中v取1,2,...n时所得的最小值，n表示词向量的总数。

在确定了类簇中心之后，所有其他点属于距离其最近的类簇中心所代表的类簇。在确定了类簇中心之后，剩余的每个点被归属到它的具有更高密度的最近邻所属类簇，而且分配只需一步完成，不需对目标函数进行迭代优化。

图3是以ρ_i为横坐标，以δ_i为纵坐标，被称作决策图，图3中具有高δ_i和相对较高的ρ_i的点被视为聚类中心，作为类簇的中心。

Step4、将词向量聚类获得的数目确定为文本最优主题数。聚类中心确定之后，剩余点被分配给与其具有较高密度的最近邻居相同的类簇。与其他迭代优化的聚类算法不同，类簇分配在单个步骤中执行。此时，得到的聚类数目也就是 LDA中文本的主题目。

在已知的确定LDA最优主题数目的多种方法中，基于经验的方法需要大量的时间精力，基于贝叶斯统计标准方法和非参数的方法算法复杂度较高，因此，本申请选取基于困惑度计算的方法作为本申请方法的比较对象。实验设计从新闻文本主题抽取的准确性和全面性评价指标进行模型评价。

根据实验结果可得，基于困惑度的方法得到的最佳聚类数目是26，基于本发明的方法得到的最佳聚类数目是15。使用经过去分词和停用词的数据集，利用LDA进行主题抽取，为了便于展示与比较，选取每个主题的前5个词进行评测，抽取结果如表2和表3所示，然后对结果进行分析。

表2基于困惑度的LDA主题抽取结果

表3本发明的LDA主题抽取结果

LDA主题模型使用主题下词的分布的综合语义来解释抽象主题，将抽取结果与人工判定主题(见表1)比较，并计算不同主题数目优化方法下LDA主题抽取的查准率P，查全率R与F₁度量，评估方法的准确性指标。公式如式(3)：

其中，N₂为LDA抽取的有效主题的数目；N₁为有效主题中正确抽取的主题数目，所谓正确抽取的主题指LDA所抽取的主题包含在专家评判的领域研究主题之中；N₃为通过文献调研和专家评判的领域主题数目。

两种方法与人工判断的主题进行比较，基于困惑的方法得到最佳聚类数目中有10个主题是干扰项，本发明中得到的最佳数目中有2个主题是干扰项，比较结果如表4所示。

表4基于不同最优主题选择方法的LDA主题抽取效果比较

由结果可知，基于困惑度选择主题数目的方法抽取的有效主题较多，查全率较高，但是主题之间相似性和交叉性较强，出现重复和同义词汇概率高，对主题的诠释力度较差，主题识别效果不太理想，单个主题内部的主题词语义相对分散，不够集中，很难主题词进行主题聚焦。而本发明的方法选择主题数目虽然查全率较低，但是查准率高，各个主题之间的区分度较为明显，并且各个主题内部的主题词交叉性较低，相比基于困惑度的方法，具有更强的凝聚性，因此，本发明的方法不但能够自主确定最优主题数，并且在主题识别方面较基于困惑度的方法具有一定的优势。

为了比较模型的适用性，针对不同数量的主题为三个数据集中的每一个运用基于困惑度和本发明的方法选择适当的主题数目，按照上述400篇文本方法进行最优主题数选择，并建立LDA主题模型，通过对不同文本数量的三个数据集的 LDA主题模型输出词进行比较来评估所提出方法的适用性，三个数据集的结果比较如表5。

表5基于不同数据集大小的LDA主题抽取效果比较

由结果可知，本发明方法查准率始终优于基于困惑度的方法，且本发明方法的方法在不同大小的语料中皆有一定的实适用性。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于聚类的新闻文本最优主题数计算方法，其特征在于：所述方法的具体步骤如下：

Step1、新闻文本语料获取和预处理；

Step4、将词向量聚类获得的数目确定为新闻文本的最优主题数；

所述步骤Step3的具体步骤为：

Step3.1、计算两点之间的距离；

Step3.3、将满足ρ_i≥0.6*(max(ρ_u)—min(ρ_u))+min(ρ_u)且δ_i≥0.2*(max(δ_v)—min(δ_v))+min(δ_v)的点认定为是类簇的中心，根据确定的类簇的中心数目，作为词向量的聚类数目；其中，i表示第i个词向量，max(ρ_u)表示ρ_u中u取1,2,...n时所得的最大值，min(ρ_u)表示ρ_u中u取1,2,...n时所得的最小值，max(δ_v)表示δ_v中v取1,2,...n时所得的最大值，min(δ_v)表示δ_v中v取1,2,...n时所得的最小值，n表示词向量的总数。

2.根据权利要求1所述的基于聚类的新闻文本最优主题数计算方法，其特征在于：所述步骤Step1的具体步骤为：

3.根据权利要求2所述的基于聚类的新闻文本最优主题数计算方法，其特征在于：所述新闻的平台能为腾讯新闻、新浪、今日头条。