CN110765360A

CN110765360A - 文本话题处理方法、装置、电子设备及计算机存储介质

Info

Publication number: CN110765360A
Application number: CN201911061265.1A
Authority: CN
Inventors: 李丹; 赵立永; 吴新丽; 韩勇; 刘启明; 代继涛
Original assignee: XINHUA NETWORK CO Ltd
Current assignee: XINHUA NETWORK CO Ltd
Priority date: 2019-11-01
Filing date: 2019-11-01
Publication date: 2020-02-07
Anticipated expiration: 2039-11-01
Also published as: CN110765360B

Abstract

本申请实施例涉及计算机数据处理技术领域，公开了一种文本话题处理方法、装置、电子设备及计算机存储介质，包括：根据预定步长确定预定K值范围内包括的N个K值，并基于N个K值，通过K均值聚类算法K‑Means，依次对获取到的第一文本数据集进行话题聚类处理及文本滤除处理，得到第N次文本滤除处理后的文本数据集及N个K值分别对应的轮廓系数，N为不小于2的正整数；根据N个K值分别对应的轮廓系数，从N个K值中确定目标K值；根据确定出的目标K值，通过K‑Means，对第N次文本滤除处理后的文本数据集进行话题聚类处理，得到第二话题聚类结果，并将第二话题聚类结果包括的各个话题作为第一文本数据集的各个话题。

Description

文本话题处理方法、装置、电子设备及计算机存储介质

技术领域

本申请实施例涉及计算机数据处理技术领域，具体而言，本申请涉及一种文本话题处理方法、装置、电子设备及计算机存储介质。

背景技术

随着互联网大数据时代的快速发展，在海量的新闻资讯及多信源的信息中，快速地自动提取各领域的热点话题，取代人为地从巨大的信息量中检索出当前最受关注的热点资讯，已经成为新媒体平台的必然趋势。

目前主要通过文本聚类来提取热点话题，然而，文本聚类属于非监督学习，聚类速度远不及监督学习，即使是最高效的聚类算法，其文本聚类效率也很低，尤其是在面对海量的文本数据时，聚类性能更不尽人意，因此，亟需一种高效的文本聚类方法来提取热点话题。

发明内容

本申请实施例的目的旨在至少能解决上述的技术缺陷之一，特提出以下技术方案：

一方面，提供了一种文本话题处理方法，包括：

根据预定步长确定预定K值范围内包括的N个K值，并基于N个K值，通过K均值聚类算法K-Means，依次对获取到的第一文本数据集进行话题聚类处理及文本滤除处理，得到第N次文本滤除处理后的文本数据集及N个K值分别对应的轮廓系数，N为不小于2的正整数；

根据N个K值分别对应的轮廓系数，从N个K值中确定目标K值；

根据确定出的目标K值，通过K-Means，对第N次文本滤除处理后的文本数据集进行话题聚类处理，得到第二话题聚类结果，并将第二话题聚类结果包括的各个话题作为第一文本数据集的各个话题。

具体地，在根据预定步长确定预定K值范围内包括的各个K值之前，还包括：

获取第一文本数据集，并根据获取到的第一文本数据集的文本数量，确定相应的K值范围和步长，以及将确定出的K值范围作为预定K值范围和将确定出的步长作为预定步长；

其中，根据获取到的第一文本数据集的文本数量，确定相应的K值范围，包括：

基于第一预定计算方式，根据文本数量，确定K值范围的增长系数，并基于第二预定计算方式，根据文本数量、增长系数、预设的页面显示话题数量，确定K值范围的最大值，以及基于第三预定计算方式，根据文本数量、预设的页面显示话题数量，确定K值范围的最小值；

根据获取到的第一文本数据集的文本数量，确定相应的步长，包括：

根据K值范围的最大值、K值范围的最小值、预定在K值范围内累计增加的总步数，确定步长。

具体地，基于N个K值，通过K均值聚类算法K-Means，依次对获取到的第一文本数据集进行话题聚类处理及文本滤除处理，得到第N次文本滤除处理后的文本数据集及N个K值分别对应的轮廓系数，包括：

步骤A，根据第n个K值，通过K-Means，对第一文本数据集进行话题聚类处理，得到第一话题聚类结果，n＝1,2,3…,N；

步骤B，根据第一话题聚类结果，确定第n个K值的轮廓系数，以及对第一文本数据集进行文本滤除处理；

步骤C，将根据步骤B的文本滤除处理得到的文本数据集，重新确定为第一文本数据集；

重复执行步骤A、步骤B及步骤C，直至完成基于第N个K值的话题聚类处理及文本滤除处理。

具体地，当n大于或等于2时，重复执行步骤A、步骤B及步骤C，直至完成基于第N个K值的话题聚类处理及文本滤除处理，包括：

确定第n个K值的轮廓系数与第n-1个K值的轮廓系数之间的差值，并检测差值是否小于第一预定阈值；

如果差值小于第一预定阈值，则结束步骤A、步骤B及步骤C的重复执行过程，并将N的取值更新为n的取值；否则，继续重复执行步骤A、步骤B及步骤C，直至完成基于第N个K值的话题聚类处理及文本滤除处理。

具体地，根据第一话题聚类结果，对第一文本数据集进行文本滤除处理，包括：

基于第四预定计算方式，根据第一话题聚类结果包括的话题的数量、第一文本数据集的文本数量，确定第一滤除阈值，并根据第一滤除阈值与预定滤除阈值，确定目标滤除阈值；

检测第一话题聚类结果中每个话题包括的文本数量是否小于目标滤除阈值，如果任一话题包括的文本数量小于目标滤除阈值，则滤除任一话题包括的各个文本数据。

具体地，根据N个K值分别对应的轮廓系数，从N个K值中确定目标K值，包括：

将N个K值的轮廓系数按照K值减小的方向排序，并确定排序后的轮廓系数是否存在连续M次递减，M为大于2的正整数；

如果存在连续M次递减，则根据首次出现连续M次递减时对应的M+1个K值的轮廓系数，从M+1个K值中确定目标K值；

如果不存在连续M次递减，则将排序后的首个K值确定为目标K值。

具体地，根据首次出现连续M次递减时对应的M+1个K值的轮廓系数，从M+1个K值中确定目标K值，包括：

将M+1个K值中轮廓系数最大的K值确定为目标K值。

具体地，在得到第一文本数据集的各个话题之后，还包括：

对第一文本数据集的各个话题分别进行热度评价；

其中，对第一文本数据集的任一话题进行热度评价，包括：

基于第五预定计算方式，根据任一话题包括的各个文本数据分别对应的第一评分结果，得到任一话题的第二评分结果，以用于对任一话题进行热度评价。

具体地，在基于第五预定计算方式，根据任一话题包括的各个文本数据分别对应的第一评分结果，得到任一话题的第二评分结果之前，还包括：

根据任一话题包括的任一文本数据的发布时间间隔、预定最低评分和预定最高评分，确定第六预定计算方式中的冷却系数；

基于第六预定计算方式，根据任一文本数据的发布时间间隔、冷却系数和预定最低评分，确定任一文本数据的第一评分结果。

一方面，提供了一种文本话题处理装置，包括：

第一处理模块，用于根据预定步长确定预定K值范围内包括的N个K值，并基于N个K值，通过K均值聚类算法K-Means，依次对获取到的第一文本数据集进行话题聚类处理及文本滤除处理，得到第N次文本滤除处理后的文本数据集及N个K值分别对应的轮廓系数，N为不小于2的正整数；

确定模块，用于根据N个K值分别对应的轮廓系数，从N个K值中确定目标K值；

第二处理模块，用于根据确定出的目标K值，通过K-Means，对第N次文本滤除处理后的文本数据集进行话题聚类处理，得到第二话题聚类结果，并将第二话题聚类结果包括的各个话题作为第一文本数据集的各个话题。

具体地，还包括第三处理模块；

第三处理模块，用于获取第一文本数据集，并根据获取到的第一文本数据集的文本数量，确定相应的K值范围和步长，以及将确定出的K值范围作为预定K值范围和将确定出的步长作为预定步长；

其中，第三处理模块在根据获取到的第一文本数据集的文本数量，确定相应的K值范围时，用于：

具体地，第一处理模块在基于N个K值，通过K均值聚类算法K-Means，依次对获取到的第一文本数据集进行话题聚类处理及文本滤除处理，得到第N次文本滤除处理后的文本数据集及N个K值分别对应的轮廓系数时，用于：

具体地，当n大于或等于2时，第一处理模块在重复执行步骤A、步骤B及步骤C，直至完成基于第N个K值的话题聚类处理及文本滤除处理时，用于：

具体地，第一处理模块在根据第一话题聚类结果，对第一文本数据集进行文本滤除处理时，用于：

具体地，确定模块在根据N个K值分别对应的轮廓系数，从N个K值中确定目标K值时，用于：

具体地，确定模块在根据首次出现连续M次递减时对应的M+1个K值的轮廓系数，从M+1个K值中确定目标K值时，用于：

将M+1个K值中轮廓系数最大的K值确定为目标K值。

具体地，还包括评价模块；

评价模块，用于对第一文本数据集的各个话题分别进行热度评价；

其中，评价模块在对第一文本数据集的任一话题进行热度评价时，用于：

具体地，评价模块在基于第五预定计算方式，根据任一话题包括的各个文本数据分别对应的第一评分结果，得到任一话题的第二评分结果时，用于：

一方面，提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行所述程序时实现上述的文本话题处理方法。

一方面，提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现上述的文本话题处理方法。

本申请实施例提供的文本话题处理方法，通过预定步长动态确定N个K值，并基于该N个K值进行话题聚类处理结果得到的聚类结果再次进行K值择优，确定出目标K值，以及根据目标K值再次进行话题聚类处理，来实现对现有K-Means聚类算法的改进，不仅解决了现有K-Means聚类算法预先给定一个K值的缺点，而且通过K值择优既有效避免了局部最优，又能够在较全面的K值范围内寻求最优K值，从而在保障聚类效果的同时大幅度降低聚类耗费的时间，极大提高了海量文本数据的聚类性能；此外，通过在聚类处理的过程中进行文本滤除处理，使得聚类处理与文本滤除处理同步进行，从而不仅极大简化噪声文本的滤除过程，而且能够在保证重要信息不退减的情况下，有效滤除获取到的文本数据集中的噪声文本和离群文本。

本申请实施例附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请实施例上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例的文本话题处理方法的流程示意图；

图2为本申请实施例的6-sigma的原理示意图；

图3为本申请实施例的文本话题处理的过程示意图；

图4为本申请实施例的文本话题处理装置的基本结构示意图；

图5为本申请实施例的电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

目前，文本聚类算法主要是对文本向量空间(VSM)的聚类，主流的聚类算法大致可以分为基于层次、划分、密度、网格、模型、模糊等几种类型。其中，基于层次、密度、模型的聚类算法，时间复杂度高，效率很低，这对于海量文本数据的聚类来说是致命的缺点；基于网格和密度的聚类对参数非常敏感，无法处理不规则分布的数据、维数等；在文本热点聚类中，文本向量空间维度是巨大的，无法使用基于网格的聚类算法；基于模糊的聚类算法，是在目标函数收敛到极小值时，算法迭代结束，但是该算法的缺点是不能确保收敛于一个最优解；以K-Means(K均值聚类算法)为代表的基于划分的聚类算法，虽然简单高效，但需要预先设定簇数K值，且对噪声和离群值非常敏感。

其中，K-Means算法需要预先设定K值，并且K值的选取直接影响聚类的效果。现有的K值选取有两种方式，第一种方式是基于经验的固定取值，比如

其中n为样本数量，第二种方式是肘方法。其中，第一种方式过于片面，不同的数据特征，不同应用场景，最佳K值也会有很大的差别，不能一概而论；第二种方式是绘制簇类方差关于K的曲线，然后遍历找到第一个拐点为最佳K值，这个过程很容易进入局部最优，而且时间复杂度特别高，对于大数据量的聚类，时间复杂度尤其高。

此外，关于文本或话题的热度评价，现有技术大多只采用空域上的指标，例如：搜索量、访问量、点击量、转发量、评论量、点赞量等，计算其线性加权，并需设定各指标的权重系数，然而这个权重系数的设定没有统一的理论依据。在时域的指标利用上，也仅限于报道频率或单位时间内发布数量等，并且同空域指标一起进行加权累加计算。虽然也有技术是在时间轴上分析发布量趋势，但是只是分析拐点等局部信息，并没有基于全量数据的统一计算方法，这些技术都不适用于新闻聚合话题的热度评价。

本申请实施例提供的文本话题处理方法、装置、电子设备及计算机可读存储介质，旨在解决现有技术的如上技术问题。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

下面以具体地实施例对本申请实施例的技术方案以及本申请实施例的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

本申请一个实施例提供了一种文本话题处理方法，该方法由计算机设备执行，该计算机设备可以是终端或者服务器。终端可以是台式设备或者移动终端。服务器可以是独立的物理服务器、物理服务器集群或者虚拟服务器。如图1所示，该方法包括：

步骤S110，根据预定步长确定预定K值范围内包括的N个K值，并基于N个K值，通过K均值聚类算法K-Means，依次对获取到的第一文本数据集进行话题聚类处理及文本滤除处理，得到第N次文本滤除处理后的文本数据集及N个K值分别对应的轮廓系数，N为不小于2的正整数。

具体地，假如预定步长step为2，预定K值范围为[2，20]，则可以根据预定步长step确定预定K值范围内包括的各个K值分别为K1＝2、K2＝4、K3＝6、…、K10＝20，即共包括10个K值，也即N＝10。

具体地，在确定出N(例如取值为10)个K值后，可以基于该N个K值，通过K-Means聚类算法，对获取到的文本数据集(记作第一文本数据集)，比如海量的新闻资讯，进行话题聚类处理和文本滤除处理，得到文本滤除处理后的文本数据集及N个K值分别对应的轮廓系数。

其中，在基于任一K值，通过K-Means聚类算法，对获取到的文本数据集进行话题聚类处理和文本滤除处理的过程中，可以先对文本数据集进行话题聚类处理，得到相应的话题聚类处理结果(记作第一话题聚类结果)，在得到话题聚类处理结果后，再根据话题聚类处理结果进行文本滤除处理，得到文本滤除处理后的文本数据集，同时可以根据话题聚类处理结果得到该任一K值的轮廓系数。

其中，轮廓系数为聚类处理中常用的评估指标，相当于对K值的聚类结果进行打分。

步骤S120，根据N个K值分别对应的轮廓系数，从N个K值中确定目标K值。

具体地，在得到N个K值分别对应的轮廓系数后，可以根据该N个K值分别对应的轮廓系数，从N个K值中确定出目标K值。假如N＝10，10个K值分别为K1、K2、K3、…、及K10，且该10个K值对应的轮廓系数分别为L1、L2、…、L10，即K1的轮廓系数为L1、K2的轮廓系数为L2、…、K10的轮廓系数为L10，则可以根据该10个轮廓系数(即L1、L2、…、L10)，从10个K值中确定出相应的目标K值，比如确定出的目标K值为K3。

步骤S130，根据确定出的目标K值，通过K-Means，对第N次文本滤除处理后的文本数据集进行话题聚类处理，得到第二话题聚类结果，并将第二话题聚类结果包括的各个话题作为第一文本数据集的各个话题。

具体地，基于步骤S120中的示例(N＝10，目标K值为K3)，在从10个K值中确定出目标K值为K3后，可以根据该确定出的目标K值，通过K-Means，对基于第N个K值(即第10个K值)进行文本滤除处理得到的文本数据集再次进行话题聚类处理，得到相应的话题聚类结果(记作第二话题聚类结果)，换言之，当N取值为10、目标K值为K3时，可以根据K3通过K-Means，对基于第10个K值(即K10)进行文本滤除处理得到的文本数据集(即第10次文本滤除处理后的文本数据集)进行话题聚类处理，得到相应的第二话题聚类结果。在得到相应的第二话题聚类处理结果后，可以并该第二话题聚类处理结果包括的各个话题作为获取到的文本数据集的各个话题。

在一种可能的实现方式中，在根据预定步长确定预定K值范围内包括的各个K值之前，可以获取第一文本数据集，并根据获取到的第一文本数据集的文本数量，确定相应的K值范围和步长，以及将确定出的K值范围作为所述预定K值范围和将确定出的步长作为所述预定步长。

具体地，在对文本数据集进行聚类处理之前，需要先获取待进行聚类处理的文本数据集(即上述的第一文本数据集)，从而得到包括一定数量的文本的第一文本数据集，其中，该文本可以是各种各样的新闻资讯文本，也可以是论文文本、专利文本等，本申请实施例不对其作限制。下文将以新闻资讯文本为例，对本申请实施例的文本话题处理方法进行具体介绍。

其中，在获取到包括大量新闻资讯文本的第一文本数据集后，可以根据该第一文本数据集中包括的新闻资讯文本的文本数量，动态确定出合适的K值范围和步长，并将该确定出的K值范围(例如[2，20])作为上述的预定K值范围，同时将确定出的步长(例如step＝2)作为上述的预定步长。

作为一个示例，在根据获取到的第一文本数据集的文本数量，确定相应的K值范围的过程中，可以基于第一预定计算方式，根据文本数量，确定K值范围的增长系数，并基于第二预定计算方式，根据文本数量、增长系数、预设的页面显示话题数量，确定K值范围的最大值，以及基于第三预定计算方式，根据文本数量、预设的页面显示话题数量，确定K值范围的最小值，从而根据K值范围的最大值与K值范围的最小值，得到相应的K值范围。

具体地，由于常用的经验K值是样本总数n一半的平方根，即但是考虑到对于新闻资讯文本来说，当文本数据量很大时，精细化的具体话题数(即聚类的簇数K)会远多于通用的经验K值，所以在本申请实施例中结合新闻资讯的话题平均数，确定较宽泛的K值范围，同时考虑到聚类算法随样本数量的增加，聚类花费时间也会大幅度增加，因此K值的遍历范围不能绝对按照样本数量的增加而简单线性比例增大。

考虑到实际应用中新闻资讯的文本数量很大，可以基于预定计算方式(记作第一预定计算方式)，根据文本数量设计一个合理的增长系数(记作r)。在实际应用中，该第一预定计算方式可以为：r＝0.8-0.1×lgn，其中，r为增长系数，n为文本数量，lgn是以10为底n的对数，其中，第一预定计算方式也可以为其它的形式，本申请实施例不对其作限制。

在确定出增长系数r后，可以基于预定计算方式(记作第二预定计算方式)，根据文本数量、增长系数、预设的页面显示话题数量，确定K值范围的最大值K_max。在实际应用中，该第二预定计算方式可以为：K_max＝max(k1_max,k2_max)，其中，

r为增长系数，n为文本数量，lgn是以10为底n的对数，预设页面显示最热的n_hot个话题，即预设的页面显示话题数量为n_hot，结合预设的页面显示话题数量n_hot，确定k2_max＝n_hot，当文本数量大于一亿时，固定r＝0.1，从而基于第二预定计算方式，根据文本数量(即上述的n)、增长系数(即上述的r)、预设的页面显示话题数量(即上述的n_hot)，确述K值范围的最大值。当然，上述的第二预定计算方式也可以为其它的计算形式，本申请实施例不对其作限制。

在确定出增长系数r后，可以基于预定计算方式(记作第三预定计算方式)，根据文本数量、预设的页面显示话题数量，确定K值范围的最小值K_min，在实际应用中，该第三预定计算方式可以为：

n为文本数量，n_hot为预设的页面显示话题数量。当然，上述的第三预定计算方式也可以为其它的计算形式，本申请实施例不对其作限制。

作为一个示例，在根据获取到的第一文本数据集的文本数量，确定相应的步长的过程中，可以根据K值范围的最大值、K值范围的最小值、预定在K值范围内累计增加的总步数，确定步长。

具体地，当文本数量很大时，每次聚类耗时增加的同时，K值的遍历区间也随之增加，高达上百级，如果每个K值都要遍历一遍执行一次聚类处理，很显然会花费特别多的时间，基于此，本申请实施例设计一个可变的步长来对K值进行遍历，可以根据配置的总步数(即预定在K值范围内累计增加的总步数)来计算步长，来对K值范围内的K值进行遍历。在实际应用中，可以根据如下计算公式来得到步长step：step＝(K_max-K_min)/n_step，其中，n_step为配置的总步数。

具体地，上述确定出的步长可以是增长步长，也可以是减小步长。当预定K值范围为[K_min,K_max]，且K₁＝K_min时，则上述确定出的步长是增长步长，即K₂＝K₁+step，K₃＝K₂+step，依此类推，根据增长步长确定预定K值范围内包括的各个K值；当预定K值范围为[K_min,K_max]，且K₁＝K_max时，则上述确定出的步长是减小步长，即K₂＝K₁-step，K₃＝K₂-step，依此类推，根据减小步长确定预定K值范围内包括的各个K值。

在一种可能的实现方式中，在基于N个K值，通过K均值聚类算法K-Means，依次对获取到的第一文本数据集进行话题聚类处理及文本滤除处理，得到第N次文本滤除处理后的文本数据集及N个K值分别对应的轮廓系数的过程中，可以执行如下步骤：

步骤C，将根据步骤B的文本滤除处理得到的文本数据集，重新确定为第一文本数据集，以将该第一文本数据集用于基于下一个K值进行话题聚类处理及文本滤除处理；

具体地，假如N＝10，即n＝1、2、...、10，且N个K值分别为K1、K2、…、K10，则：针对第1个K值(即n＝1时K值为K1)，执行上述步骤A、步骤B及步骤C，即根据K1通过K-Means，对获取到的第一文本数据集(记作W0)进行话题聚类处理，得到第一话题聚类结果，记作话题聚类结果S1；接着，根据第一话题聚类结果S1，确定K1的轮廓系数(记作L1)，以及根据第一话题聚类结果S1，对第一文本数据集进行文本滤除处理，得到文本滤除处理后的文本数据集(记作W1)；接着，将得到的文本滤除处理后的文本数据集(即W1)重新确定为第一文本数据集(即W0)，以用于基于下一个K值(即n＝2时的K值)的话题聚类处理与文本滤除处理。接着，针对n＝2时的K值(即K2)，重复执行上述步骤A、步骤B及步骤C，即根据K2通过K-Means，对重新确定出的第一文本数据集W0(该W0实际为上述的W1)进行话题聚类处理，得到第一话题聚类结果，记作话题聚类结果S2；接着，根据第一话题聚类结果S2，确定K2的轮廓系数(记作L2)，以及根据第一话题聚类结果S2，对第一文本数据集进行文本滤除处理，得到文本滤除处理后的文本数据集(记作W2)；接着，将得到的文本滤除处理后的文本数据集(即W2)重新确定为第一文本数据集(即W0)。依此类推，直至完成第N个K值的话题聚类处理及文本滤除处理。

换言之，在完成第n＝1个K值(即K1)的话题聚类处理及文本滤除处理后，接着进行第n＝2个K值(即K2)的话题聚类处理及文本滤除处理，得到K2的轮廓系数(记作L2)与第一话题聚类结果S2，其中，第n＝2个K值的话题聚类处理过程及文本滤除处理过程，与第n＝1个K值的话题聚类处理过程及文本滤除处理过程相同。在完成第n＝2个K值(即K2)的话题聚类处理及文本滤除处理后，接着进行第n＝3个K值(即K3)的话题聚类处理及文本滤除处理，依此重复执行，直至完成第N个K值的话题聚类处理及文本滤除处理。

在一种可能的实现方式中，当n大于或等于2时，在重复执行上述步骤A、步骤B及步骤C，直至完成基于第N个K值的话题聚类处理及文本滤除处理的过程中，还可以执行如下步骤：

具体地，在完成K1的话题聚类处理及文本滤除处理，得到K1的轮廓系数L1及文本滤除处理后的文本数据集之后，接着根据步骤A、步骤B及步骤C，进行下一个K值(即K2)的话题聚类处理及文本滤除处理，得到K2的轮廓系数L2及文本滤除处理后的文本数据集，再接着根据步骤A、步骤B及步骤C，进行下一个K值(即K3)的话题聚类处理及文本滤除处理。其中，在根据步骤A、步骤B及步骤C，进行下一个K值(即K3)的话题聚类处理及文本滤除处理之前，需要先确定K2的轮廓系数L2与K1的轮廓系数L1之间的差值，并检测该差值是否小于第一预定阈值；其中，当该差值小于第一预定阈值时，说明K2的轮廓系数L2相对于K1的轮廓系数是趋于平稳的，提高的幅度已经非常小，可以忽略不计，此时，可以推断出后续其它K值(K3、K4、…、K10)的轮廓系数相对于前一K值的轮廓系数的提高幅度也会非常小，因此，没有必要再继续对后续其它K值进行步骤A、步骤B及步骤C的重复执行过程，以免浪费时间，故可以结束针对后续K值的步骤A、步骤B及步骤C的重复执行过程。同时，将N的取值更新为n的取值，即将N的取值更新为2，即将N由原来的10更新为2。当该差值不小于第一预定阈值时，说明K2的轮廓系数L2相对于K1的轮廓系数仍具有较大幅度的提高，对于后续的下一个K值(即K3)仍需要重复执行步骤A、步骤B及步骤C。

需要说明的是，在针对K3执行步骤A、步骤B及步骤C，得到K3的轮廓系数后，仍需要检测K3的轮廓系数与第K2的轮廓系数之间的差值是否小于第一预定阈值，如果差值小于第一预定阈值，则结束针对后续K值(即K4、K5、…、K10)的步骤A、步骤B及步骤C的重复执行过程，即不针对K4、K5、…、K10进行话题聚类处理及文本滤除处理，并将N的取值更新为3；否则，针对下一个K值(即K4)继续重复执行步骤A、步骤B及步骤C，依此往复，直至完成基于第N个K值的话题聚类处理及文本滤除处理。

在实际应用中，由于聚类结果具有一定的随机性，因此第一预定阈值的首次取值应当选取较宽泛的值，对于第2个K值(即K2)，由于其聚类结果具有一定的随机性，K2的轮廓系数可能比K1的轮廓系数大，也可能比K1的轮廓系数小，所以需要将第一预定阈值设定的较宽泛一些，其中，此处的宽泛是指K2的轮廓系数只要稍稍超过K1的轮廓系数即可，比如阈值为0.001，即只要K2的轮廓系数比K1的轮廓系数有一点点进步就可以。例如K1的轮廓系数是5.0，K2的轮廓系数是5.01，此时只要K2轮廓系数的比K1的轮廓系数大就可以了，相当于第一预定阈值就是0.01，第一预定阈值的取值越小说明它越宽泛。又例如，在针对K3的轮廓系数与K4的轮廓系数时，可以根据需要把第一预定阈值放大一些，比如取值0.1。

此外，在实际应用中，由于K值取较大值时通常具有较大的轮廓系数，因此，在根据预定步长确定出预定K值范围[K_min,K_max]内包括的N个K值后，可以先从最大的K值开始对获取到的第一文本数据集进行话题聚类处理及文本滤除处理，即K₁＝K_max，K₂＝K₁-step，K₃＝K₂-step，依此类推。

将第n个K值的轮廓系数与前n-1个K值的轮廓系数按照K值减小的方向排序，并确定排序后的轮廓系数是否存在连续M次递减，所述M为大于2的正整数；

如果存在连续M次递减，则结束所述步骤A、所述步骤B及所述步骤C的重复执行过程，并将所述N的取值更新为所述n的取值；否则，继续重复执行所述步骤A、所述步骤B及所述步骤C，直至完成基于第N个K值的话题聚类处理及文本滤除处理。

具体地，在完成K1的话题聚类处理及文本滤除处理，得到K1的轮廓系数L1及文本滤除处理后的文本数据集之后，接着根据步骤A、步骤B及步骤C，进行下一个K值(即K2)的话题聚类处理及文本滤除处理，得到K2的轮廓系数L2及文本滤除处理后的文本数据集，接着根据步骤A、步骤B及步骤C，进行下一个K值(即K3)的话题聚类处理及文本滤除处理。

其中，在根据步骤A、步骤B及步骤C，进行下一个K值(即K3)的话题聚类处理及文本滤除处理之前，首先，先将K2的轮廓系数L2与K1的轮廓系数L1按照K值减小的方向进行排序，得到排序后的n(n＝2)个轮廓系数；假如K2＝K1+step，即K2大于K1，则可以确定该n个排序后的轮廓系数为L2、L1，又假如K2＝K1-step，即K2小于K1，则可以确定该n个排序后的轮廓系数为L1、L2。接着，确定该n个排序后的轮廓系数是否存在连续M次递减(即M连降)，M可以为大于或等于2的整数。其中，如果存在M次递减，说明此时已经可以根据该n个K值确定出相应的目标K值，没有必要再继续对后续其它K值进行步骤A、步骤B及步骤C的重复执行过程，以免浪费时间，故可以结束针对后续K值的步骤A、步骤B及步骤C的重复执行过程。同时，将N的取值更新为n的取值，即将N的取值更新为2，即将N由原来的10更新为2；如果不存在M次递减，说明此时无法根据该n个K值确定出相应的目标K值，需要继续对后续其它K值(例如上述的K3)进行步骤A、步骤B及步骤C的重复执行过程。

需要说明的是，在针对K3执行步骤A、步骤B及步骤C，得到K3的轮廓系数(记作L3)后，仍需要将K3的轮廓系数L3与之前已经得到的其它K值(即K2与K1)的轮廓系数L2与L1，按照K值减小的方向进行排序，并确定排序后的轮廓系数是否存在连续M次递减(即M连降)，如果存在，则结束针对后续K值(即K4、K5、…、K10)的步骤A、步骤B及步骤C的重复执行过程，即不针对K4、K5、…、K10进行话题聚类处理及文本滤除处理，并将N的取值更新为3；否则，继续针对下一个K值(即K4)继续重复执行步骤A、步骤B及步骤C，依此往复，直至完成基于第N个K值的话题聚类处理及文本滤除处理。

在一种可能的实现方式中，在根据第一话题聚类结果，对第一文本数据集进行文本滤除处理的过程中，可以执行如下步骤：

具体地，对于新闻资讯文本来说，极小簇(即极小话题)是没有意义的，反而对聚类效果具有负面影响，相当于噪声，所以去除这些噪声是很有意义的，可以根据6个标准差(即6-sigma或6-σ)的品质管制标准进行极小簇的去噪，6个标准差的示意图如图2所示，具体的噪声滤除原理如下所示。

假如文本数据集包括n个文本，且具有K个话题，对文本数据集进行文本滤除处理就是要去除那些冷话题(即极小簇)，按照正态分布的理论，冷话题就是概率极小的部分。根据中心极限定理，在海量文本数据的前提下，假设文本数据集的n个文本属于K个话题的分布为多项式分布，其概率分布服从X～N(μ,σ²)，当前需要求出均值的数学期望和标准差：μ＝np，σ²＝np(1-p)。因为p＝1/K，其中，文本为其中一个话题的概率为p；均值为n/K，其中，n/K为每个话题的平均文本数，即簇的大小；标准差为n(1-1/K)/K。

图2中的深灰色区域是距离平均值小于一个标准差之内的数值范围。在正态分布中，此范围所占比率为全部数值之68％，根据正态分布，两个标准差之内的比率合起来为95％，三个标准差之内的比率合起来为99％。

在实际应用上，通常考虑一组数据具有近似于正态分布的概率分布。若其假设正确，则约68.3％数值分布在距离平均值有1个标准差之内的范围，约95.4％数值分布在距离平均值有2个标准差之内的范围，以及约99.7％数值分布在距离平均值有3个标准差之内的范围。称为“68-95-99.7法则”或“经验法则”。

标准差的范围为：

因此,对于文本热点的功能来说，文本滤除处理是去除那些极小的部分：X{K＜μ-3σ}，即

在新闻资讯的热点功能中，结合实际应用场景中新闻资讯的敏感性，不能太“过大力度”地去掉一些重要信息，有些信息虽然量少，但也可能是重要的，所以本申请实施例设计了一个最小阈值

以防去掉太多重要信息，最后返回的阈值为：

其中，

其中，

即为上述的第四预定计算方式，K为上述的第一话题聚类结果包括的话题的数量，n为上述的第一文本数据集的文本数量，k_threshold为上述的第一滤除阈值，

上述的预定滤除阈值，

为目标滤除阈值，即基于第四预定计算方式，根据第一话题聚类结果包括的话题的数量、第一文本数据集的文本数量，确定第一滤除阈值，并根据第一滤除阈值与预定滤除阈值，确定目标滤除阈值。

具体地，在得到第一话题聚类结果后，检测第一话题聚类结果包括的每个话题包括的文本数量是否小于上述确定出的目标滤除阈值，如果任一话题包括的文本数量小于上述的目标滤除阈值，则滤除该任一话题包括的各个文本数据，即将该任一话题作为极小簇(即噪声文本)滤除。

在一种可能的实现方式中，在根据N个K值分别对应的轮廓系数，从N个K值中确定目标K值的过程中，可以执行如下步骤：

如果存在，则根据首次出现连续M次递减时对应的M+1个K值的轮廓系数，从M+1个K值中确定目标K值；

如果不存在，则将排序后的首个K值确定为所述目标K值。

其中，在根据首次出现连续M递减时所对应的M+1个K值的轮廓系数，从M+1个K值中确定目标K值时，可以将M+1个K值中轮廓系数最大的K值确定为目标K值。

具体地，在一个示例中，假如N＝10，该N个K值分别为K1、K2、…、K10，且从K1至K10是依次减小的，即K₁＝K_max，K₂＝K₁-step，K₃＝K₂-step，若K1的轮廓系数L1为5.0，K2的轮廓系数L2为4.8，K3的轮廓系数L3为4.95，K4的轮廓系数L4为4.7，K5的轮廓系数L5为4.4，K6的轮廓系数L6为3.9，K7的轮廓系数L7为3.7，K8的轮廓系数L8为3.6，K9的轮廓系数L9为3.55，K10的轮廓系数L10为3.5，则：将该10个K值的轮廓系数按照K值减小的方向排序，即L1、L2、L3、….、L10，接着确定排序后的轮廓系数(依次为：5.0、4.8、4.95、4.7、4.4、3.9、3.7、3.6、3.55、3.5)是否存在连续M次递减(即M连降)，假如M＝3，可见看出：L3至L6之间存在3连降，且为首次出现，此时可以根据首次出现3连降时对应的4个K值(即K3、K4、K5、K6)的轮廓系数(即L3、L4、L5、L6)，从该4个K值(即K3、K4、K5、K6)中确定目标K值。同时，根据上述10个K值可以看出，在遍历到K6时，已经可以确定出目标K值，故可以不再对后面的几个K值进行话题聚类处理及文本滤除处理，从而保障话题聚类效果的同时，大幅度降低话题聚类耗费的时间，此时第N次文本滤除处理后的文本数据集为基于K6进行文本滤除处理后的文本数据集。

其中，在从该4个K值(即K3、K4、K5、K6)中确定目标K值时，可以将该4个K值中轮廓系数最大的K值确定为目标K值，上述轮廓系数最大的K值为K3，即将K3确定为目标K值，并基于该K3，通过K-Means，对基于第6个K值进行文本滤除处理得到的文本数据集进行话题聚类处理，得到第二话题聚类结果，并将第二话题聚类结果包括的各个话题作为第一文本数据集的各个话题。

如果排序后的轮廓系数中不存在连续M次递减(即不存在M连降)，则将排序后的首个K值确定为目标K值，基于上述示例，排序后的首个K值为K1，即将K1确定为目标K值，并基于该K1，通过K-Means，对基于第10个K值(即K10)进行文本滤除处理得到的文本数据集进行话题聚类处理，得到第二话题聚类结果，并将第二话题聚类结果包括的各个话题作为第一文本数据集的各个话题。

在一种可能的实现方式中，在得到第一文本数据集的各个话题之后，还可以：

对第一文本数据集的各个话题分别进行热度评价；

其中，对第一文本数据集的任一话题进行热度评价，包括：

其中，在基于第五预定计算方式，根据任一话题包括的各个文本数据分别对应的第一评分结果，得到任一话题的第二评分结果之前，还可以：

具体地，在确定出获取到的第一文本数据集包括的各个话题后，可以对各个话题分别进行热度评价，以确定出热点话题。其中，某个话题的热度汇集了该话题(即簇)内全部文本的热度(也可称作新鲜度)，某个话题的热度计算公式可以为如下公式(1)：

其中，S为某个话题的热度评分(即第二评分结果)，S_i是该某个话题中的每篇新闻资讯或新闻报道或新闻文章的热度分数(即第一评分结果)，上述公式(1)即为第五预定计算方式，即基于第五预定计算方式，根据任一话题包括的各个文本数据分别对应的第一评分结果，得到任一话题的第二评分结果。

具体地，引用牛顿的冷却定律，每篇新闻资讯或新闻报道或新闻文章的热度分数S_i是由该每篇新闻资讯或新闻报道或新闻文章所属的话题中的全部新闻资讯或新闻报或新闻文章道的发布时间间隔、热度冷却系数2个指标共同决定的。其中，牛顿的冷却定律可以简单概括为：物体的冷却速度，与其当前温度与室温之间的温差成正比。对于新闻资讯或报道的热度来说，在话题热度评估的应用场景中，“热度冷却系数”表示一篇新闻资讯或新闻报道或新闻文章的热度与发文时间间隔有关，换言之，发文越新，说明该话题越新，其影响力越大，话题热度也就越大，反之，发布时间越久远，其话题热度就越小。

在一示例中，任一话题中的每篇新闻资讯或新闻报道或新闻文章的热度分数S_i可以采用如下公式(1)进行计算：

S_i＝S₀×e^-c×Δt (2)

其中，上式(2)中的S₀为分值范围中的最低分(即预定最低评分)，在一示例中可以取值为1，即S₀＝1；c为热度冷却系数；Δt为该篇新闻资讯或新闻报道或新闻文章的发文时间间隔。

在实际应用中，可以基于上面的计算公式(2)，根据实际的发布时间间隔(评估的最大时间间隔范围，例如评估7天内的话题，那么这个发文时间间隔为7天或168小时)及热度评分范围，来确定上述的热度冷却系数c。如果某一篇新闻文章的初始最高分数是100分，7天(即168小时)之后“冷却”为1分，即预定最低评分为1分，则可以由公式S_max＝S_min×e^-c×Δt，可以计算出对应的热度冷却系数c为：c＝-In(S_max/S_min)/Δt≈0.03，其中，预定最高评分S_max＝100，预定最低评分(即最低分)S_min＝1，该篇新闻文章的发文时间间隔Δt＝168。

在实际应用中，可以将上述公式(2)记作第六计算方式，即根据任一话题包括的任一文本数据的发布时间间隔、预定最低评分S_min和预定最高评分S_max，可以确定出第六计算方式中的热度冷却系数c，比如c≈0.03。当确定出热度冷却系数c后，可以保持c不变，如果c保持不变，则可以基于上述公式(2)，根据一篇新闻文章的发布时间间隔Δt、热度冷却系数c(比如c≈0.03)和预定最低评分S₀，确定出该篇新闻文章的第一评分结果S_i。

在一示例中，在计算出热度冷却系数c后，将其代入公式(1)中，可以得到话题的热度表示公式为：

其中，t_i为第i篇新闻文章的发布时间间隔。在一示例中，如果预定最低评分S₀＝1，热度冷却系数c≈0.03，则上述公式(3)可以进一步表示为如下公式(4)的形式：

其中，n为某一话题包括的文章数量，t_i为该某一话题中每篇文章的发布时间间隔。

在一示例中，一个话题簇中有100篇文章(即n＝100)，假如其全部文章的发布时间间隔都为168小时，则根据上述公式(4)，该话题簇的热度分数为0.22，又假如其全部文章发布时间间隔都为84小时，则根据上述公式(4)，该话题簇的热度分数为0.96，又假如其全部文章发布时间间隔都为0小时(说明最其属于最新报道)，则根据上述公式(4)，该话题簇的热度分数为2.0。可以看出，说明文章发布时间越新则热度越高，发布时间越久远则热度越低。

在一示例中，一个话题簇中有10篇文章(即n＝10)，假如其全部文章的发布时间间隔分别为168小时，则根据上述公式(4)，该话题簇的热度分数为0.03，又假如其全部文章发布时间间隔都为84小时，则根据上述公式(4)，该话题簇的热度分数为0.26，又假如其全部文章发布时间间隔都为0小时(说明最其属于最新报道)，则根据上述公式(4)，该话题簇的热度分数为1.04。可以看出文章数量少时热度也会相应的降低，并且分数很符合实际意义。

本申请实施例的话题热度评价方法，结合了文章在发布时间间隔维度上热度(也可称为新鲜度)的变化规律(原理为牛顿的冷却定律)：S_i＝S₀×e^-c×Δt，其中S_i、S₀表示文章热度，其随时间间隔而变化，且热度的冷却速度与时间间隔成正比。根据不同的应用场景和打分要求，可计算得出冷却系数c，既而在应用时，可动态计算出文章的热度S_i。对于话题的热度，这里采用话题簇内所有文本热度累计对数的映射：

最后计算出聚合后的话题的热度S。这种热度评价方式即使用简单又适用广泛，即结合文章数量又结合发布时间间隔，即能很好解释又能做到智能动态地分析。

具体地，图3给出了本申请实施例的基本处理过程，具体如下所示：

步骤S1：对获取到的文本数据集(记作第一文本数据集)进行解析、过滤分词、文本向量权值计算等一系列的数据预处理过程，得到预处理后的第一文本数据集，再根据后续步骤对预处理后的第一文本数据集进行文本话题处理。

步骤S2：计算K值遍历范围与步长，即根据第一文本数据集中的文本数量，确定相应的K值范围(即K值的遍历范围)和步长，假如K值的遍历范围为K_min～K_max，步长为step，则当K1＝K_max时，K2＝K_max-step。其中，K值范围和步长的确定，均可参考上述实施例中的描述，在此不再赘述

步骤S3，聚类处理和去噪处理，即针对每个遍历得到的K值，通过K-Means，对预处理后的第一文本数据集进行文本聚类处理和文本滤除处理(即滤除噪声文本)，当遍历完所有可能的K值后，执行步骤S4：K值择优。其中，文本聚类处理和文本滤除处理可以参考上述实施例描述的方法，在此不再赘述。

步骤S4：K值遍历结束后进行K值择优，即从遍历得到的多个K值中确定出一个目标K值。其中，K值择优可以参考上述实施例描述的确定目标K值的具体方法，在此不再赘述。

步骤S5：话题聚类，即根据确定出的目标K值，通过K-Means，对基于最后一个K值进行文本滤除处理得到的文本数据集进行话题聚类处理，相应的话题聚类结果，具体的话题聚类处理可以参考上述实施例描述的话题聚类处理方法，在此不再赘述。

步骤S6：话题热度评价，即对话题聚类结果包括的各个话题分别进行热度评价，具体的热度评价方法可以参考上述实施例描述的热度评价方法，在此不再赘述。

通过本申请实施例的方法，提供了一种适用于海量新闻文本聚和的高效技术选型方案，主要包括：海量文本聚类的算法选型和改进策略、基于K-Means的簇数K值择优、文本数据噪声去除、新闻话题热度评价等。本申请实施例所采用的方法的优势体现在以下方面：

1、本申请实施例在采用流式并行的大数据分布式基础上，基于快速的K-Means优化算法，提出了一种通过遍历形式进行K值择优和文本去噪的高效结合方式，从而结合海量新闻的业务场景及应用需求，提供一种更高效的海量新闻话题聚合策略。

2、本申请实施例的聚类簇数K的择优方法，首先计算K值遍历的范围和步长，通过遍历过程中对聚类进行打分和择优，确定最佳K值，从而较快速的提供了全局最优K值。

3、本申请实施例的文本去噪方法，在K值择优的同时，对极小簇(对于热点功能来说就是聚类的噪声)进行6个标准差(即6-sigma或6-σ)的品质管制标准去噪，从而简化了整体流程，大幅地提高去噪过程的效率，该方法计算简单，适用性强。

4、本申请实施例的话题热度评价方法，利用物理学中的冷却定律原理，计算单篇文本的热度，然后累计话题内全部文本热度并进行对数变换，最后得到话题(即簇)的热度。

图4为本申请又一实施例提供的一种文本话题处理装置的结构示意图，如图4所示，该装置40可以包括第一处理模块41、确定模块42与第二处理模块43，其中：

具体地，还包括第三处理模块；

将M+1个K值中轮廓系数最大的K值确定为目标K值。

具体地，还包括评价模块；

本申请实施例提供的装置，通过预定步长动态确定N个K值，并基于该N个K值进行话题聚类处理结果得到的聚类结果再次进行K值择优，确定出目标K值，以及根据目标K值再次进行话题聚类处理，来实现对现有K-Means聚类算法的改进，不仅解决了现有K-Means聚类算法预先给定一个K值的缺点，而且通过K值择优既有效避免了局部最优，又能够在较全面的K值范围内寻求最优K值，从而在保障聚类效果的同时大幅度降低聚类耗费的时间，极大提高了海量文本数据的聚类性能；此外，通过在聚类处理的过程中进行文本滤除处理，使得聚类处理与文本滤除处理同步进行，从而不仅极大简化噪声文本的滤除过程，而且能够在保证重要信息不退减的情况下，有效滤除获取到的文本数据集中的噪声文本和离群文本。

需要说明的是，本实施例为与上述的方法项实施例相对应的装置项实施例，本实施例可与上述方法项实施例互相配合实施。上述方法项实施例中提到的相关技术细节在本实施例中依然有效，为了减少重复，这里不再赘述。相应地，本实施例中提到的相关技术细节也可应用在上述方法项实施例中。

本申请另一实施例提供了一种电子设备，如图5所示，图5所示的电子设备500包括：处理器501和存储器503。其中，处理器501和存储器503相连，如通过总线502相连。进一步地，电子设备500还可以包括收发器504。需要说明的是，实际应用中收发器504不限于一个，该电子设备500的结构并不构成对本申请实施例的限定。

其中，处理器501应用于本申请实施例中，用于实现图4所示的第一处理模块、确定模块及第二处理模块的功能。

处理器501可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器501也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线502可包括一通路，在上述组件之间传送信息。总线502可以是PCI总线或EISA总线等。总线502可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器503可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器503用于存储执行本申请方案的应用程序代码，并由处理器501来控制执行。处理器501用于执行存储器503中存储的应用程序代码，以实现图4所示实施例提供的文本话题处理装置的动作。

本申请实施例提供的电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时，可实现：

通过预定步长动态确定N个K值，并基于该N个K值进行话题聚类处理结果得到的聚类结果再次进行K值择优，确定出目标K值，以及根据目标K值再次进行话题聚类处理，来实现对现有K-Means聚类算法的改进，不仅解决了现有K-Means聚类算法预先给定一个K值的缺点，而且通过K值择优既有效避免了局部最优，又能够在较全面的K值范围内寻求最优K值，从而在保障聚类效果的同时大幅度降低聚类耗费的时间，极大提高了海量文本数据的聚类性能；此外，通过在聚类处理的过程中进行文本滤除处理，使得聚类处理与文本滤除处理同步进行，从而不仅极大简化噪声文本的滤除过程，而且能够在保证重要信息不退减的情况下，有效滤除获取到的文本数据集中的噪声文本和离群文本。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现上述实施例所示的方法。其中；通过预定步长动态确定N个K值，并基于该N个K值进行话题聚类处理结果得到的聚类结果再次进行K值择优，确定出目标K值，以及根据目标K值再次进行话题聚类处理，来实现对现有K-Means聚类算法的改进，不仅解决了现有K-Means聚类算法预先给定一个K值的缺点，而且通过K值择优既有效避免了局部最优，又能够在较全面的K值范围内寻求最优K值，从而在保障聚类效果的同时大幅度降低聚类耗费的时间，极大提高了海量文本数据的聚类性能；此外，通过在聚类处理的过程中进行文本滤除处理，使得聚类处理与文本滤除处理同步进行，从而不仅极大简化噪声文本的滤除过程，而且能够在保证重要信息不退减的情况下，有效滤除获取到的文本数据集中的噪声文本和离群文本。

本申请实施例提供的计算机可读存储介质适用于上述方法的任一实施例。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种文本话题处理方法，其特征在于，包括：

根据预定步长确定预定K值范围内包括的N个K值，并基于所述N个K值，通过K均值聚类算法K-Means，依次对获取到的第一文本数据集进行话题聚类处理及文本滤除处理，得到第N次文本滤除处理后的文本数据集及所述N个K值分别对应的轮廓系数，所述N为不小于2的正整数；

根据所述N个K值分别对应的轮廓系数，从所述N个K值中确定目标K值；

根据确定出的目标K值，通过所述K-Means，对第N次文本滤除处理后的文本数据集进行话题聚类处理，得到第二话题聚类结果，并将所述第二话题聚类结果包括的各个话题作为所述第一文本数据集的各个话题。

2.根据权利要求1所述的方法，其特征在于，在根据预定步长确定预定K值范围内包括的各个K值之前，还包括：

获取第一文本数据集，并根据获取到的第一文本数据集的文本数量，确定相应的K值范围和步长，以及将确定出的K值范围作为所述预定K值范围和将确定出的步长作为所述预定步长；

其中，所述根据获取到的第一文本数据集的文本数量，确定相应的K值范围，包括：

基于第一预定计算方式，根据所述文本数量，确定所述K值范围的增长系数，并基于第二预定计算方式，根据所述文本数量、所述增长系数、预设的页面显示话题数量，确定所述K值范围的最大值，以及基于第三预定计算方式，根据所述文本数量、预设的页面显示话题数量，确定所述K值范围的最小值；

所述根据获取到的第一文本数据集的文本数量，确定相应的步长，包括：

根据所述K值范围的最大值、所述K值范围的最小值、预定在所述K值范围内累计增加的总步数，确定所述步长。

3.根据权利要求1所述的方法，其特征在于，所述基于所述N个K值，通过K均值聚类算法K-Means，依次对获取到的第一文本数据集进行话题聚类处理及文本滤除处理，得到第N次文本滤除处理后的文本数据集及所述N个K值分别对应的轮廓系数，包括：

步骤A，根据第n个K值，通过所述K-Means，对第一文本数据集进行话题聚类处理，得到第一话题聚类结果，n＝1,2,3…,N；

步骤B，根据所述第一话题聚类结果，确定所述第n个K值的轮廓系数，以及对所述第一文本数据集进行文本滤除处理；

步骤C，将根据步骤B的文本滤除处理得到的文本数据集，重新确定为所述第一文本数据集；

重复执行所述步骤A、所述步骤B及所述步骤C，直至完成基于第N个K值的话题聚类处理及文本滤除处理。

4.根据权利要求3所述的方法，其特征在于，当n大于或等于2时，重复执行所述步骤A、所述步骤B及所述步骤C，直至完成基于第N个K值的话题聚类处理及文本滤除处理，包括：

确定第n个K值的轮廓系数与第n-1个K值的轮廓系数之间的差值，并检测所述差值是否小于第一预定阈值；

如果所述差值小于第一预定阈值，则结束所述步骤A、所述步骤B及所述步骤C的重复执行过程，并将所述N的取值更新为所述n的取值；否则，继续重复执行所述步骤A、所述步骤B及所述步骤C，直至完成基于第N个K值的话题聚类处理及文本滤除处理。

5.根据权利要求3所述的方法，其特征在于，当n大于或等于2时，重复执行所述步骤A、所述步骤B及所述步骤C，直至完成基于第N个K值的话题聚类处理及文本滤除处理，包括：

6.根据权利要求3所述的方法，其特征在于，所述根据所述第一话题聚类结果，对所述第一文本数据集进行文本滤除处理，包括：

基于第四预定计算方式，根据所述第一话题聚类结果包括的话题的数量、所述第一文本数据集的文本数量，确定第一滤除阈值，并根据所述第一滤除阈值与预定滤除阈值，确定目标滤除阈值；

检测所述第一话题聚类结果中每个话题包括的文本数量是否小于所述目标滤除阈值，如果任一话题包括的文本数量小于所述目标滤除阈值，则滤除所述任一话题包括的各个文本数据。

7.根据权利要求1-6任一项所述的方法，其特征在于，所述根据所述N个K值分别对应的轮廓系数，从所述N个K值中确定目标K值，包括：

将所述N个K值的轮廓系数按照K值减小的方向排序，并确定排序后的轮廓系数是否存在连续M次递减，所述M为大于2的正整数；

如果存在连续M次递减，则根据首次出现连续M次递减时对应的M+1个K值的轮廓系数，从所述M+1个K值中确定目标K值；

如果不存在连续M次递减，则将排序后的首个K值确定为所述目标K值。

8.根据权利要求7所述的方法，其特征在于，根据首次出现连续M次递减时对应的M+1个K值的轮廓系数，从所述M+1个K值中确定目标K值，包括：

将所述M+1个K值中轮廓系数最大的K值确定为所述目标K值。

9.根据权利要求1所述的方法，其特征在于，在得到所述第一文本数据集的各个话题之后，还包括：

对所述第一文本数据集的各个话题分别进行热度评价；

其中，对所述第一文本数据集的任一话题进行热度评价，包括：

基于第五预定计算方式，根据所述任一话题包括的各个文本数据分别对应的第一评分结果，得到所述任一话题的第二评分结果，以用于对所述任一话题进行热度评价。

10.根据权利要求9所述的方法，其特征在于，在基于第五预定计算方式，根据所述任一话题包括的各个文本数据分别对应的第一评分结果，得到所述任一话题的第二评分结果之前，还包括：

根据所述任一话题包括的任一文本数据的发布时间间隔、预定最低评分和预定最高评分，确定第六预定计算方式中的冷却系数；

基于所述第六预定计算方式，根据所述任一文本数据的发布时间间隔、所述冷却系数和所述预定最低评分，确定所述任一文本数据的第一评分结果。

11.一种文本话题处理装置，其特征在于，包括：

第一处理模块，用于根据预定步长确定预定K值范围内包括的N个K值，并基于所述N个K值，通过K均值聚类算法K-Means，依次对获取到的第一文本数据集进行话题聚类处理及文本滤除处理，得到第N次文本滤除处理后的文本数据集及所述N个K值分别对应的轮廓系数，所述N为不小于2的正整数；

确定模块，用于根据所述N个K值分别对应的轮廓系数，从所述N个K值中确定目标K值；

第二处理模块，用于根据确定出的目标K值，通过所述K-Means，对第N次文本滤除处理后的文本数据集进行话题聚类处理，得到第二话题聚类结果，并将所述第二话题聚类结果包括的各个话题作为所述第一文本数据集的各个话题。

12.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-10任一项所述的文本话题处理方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现权利要求1-10任一项所述的文本话题处理方法。