CN111797235B

CN111797235B - 基于时间衰减因子的文本实时聚类方法

Info

Publication number: CN111797235B
Application number: CN202010562915.7A
Authority: CN
Inventors: 张步良; 刘袁静; 张麒; 魏选明; 魏刚; 蒲存伟
Original assignee: Chengdu Rongwei Software Service Co ltd
Current assignee: Chengdu Rongwei Software Service Co ltd
Priority date: 2020-06-19
Filing date: 2020-06-19
Publication date: 2024-01-26
Anticipated expiration: 2040-06-19
Also published as: CN111797235A

Abstract

一种基于时间衰减因子的文本实时聚类方法，依据文本的发布时间和发布平台确定文本的初始聚类热度，并根据时间的推移不断衰减，以此作为文本数据的聚类排序依据。充分体现了大数据领域中新闻话题类文本的热度价值与时效性的密切关系，使后续的新闻过滤、信息筛选更加方便，明显提高了聚类的性能；算法设计简单有效，特别适用于新闻类时效性强的海量流式文本的聚类处理。

Description

基于时间衰减因子的文本实时聚类方法

技术领域

本发明涉及大数据处理领域，特别涉及一种基于时间衰减的文本实时聚类方法。

背景技术

文本聚类是聚类分析在文本文档中的应用，依据特征词对文本进行分组，将特证词相近的文本分成一个簇，从而挖掘文本之中有效信息。它在新闻过滤、话题检测及跟踪、用户特征推荐、快速信息检索、文档分组等方面有着广泛的应用。

针对互联网媒体不断增加的新闻报道，以及网民的言论信息，这些文本数据具有维度高、数据量大等特点，运用早先的串行文本聚类分析，难以高效的对大规模文本数据进行实时处理，无法满足高性能、低成本的处理需求，所以目前更先进的做法是对这类文本进行分布式实时聚类。而新闻类文本信息的另一特点是随着时间的推移，新闻报道的频率减少，网民关注度降低。

发明内容

本公开提供一种基于时间衰减因子的文本实时聚类方法，其能够实现文本数据关注热度随时间不断衰减，特别适合新闻话题类时效性强的大规模流式文本数据的聚类分析。

本公开提供一种基于时间衰减因子的文本实时聚类方法，包括以下步骤：

对采集到的流式文本数据，按照设定的条件分发到不同的结点；

各个结点对到达的文本数据进行实时聚类；

根据文本的发布时间和发布平台等因素的权重值，计算每条文本的聚类热度初始值；

计算所述实时聚类得到的各个聚类类别的聚类热度总得分值；

每隔一段时间，对每条文本的聚类热度得分值及每个类别的总得分值进行时间衰减计算，并更新保存。

可选的，所述实时聚类采用singlepass单遍聚类方法。

可选的，所述聚类热度初始值计算方法为：S＝w1*Ts+w2*Ps，其中，w1和w2分别表示发布时间和平台的影响权重值，Ts表示发布时间的得分值，Ps表示平台的得分值。

可选的，所述发布时间得分值Ts的其计算方法为

其中，Ti为设定的时间范围，t为当前时间，T为该条文本发布时间。

可选的，所述发布平台得分值Ps的计算方法为：

如果文本的发布平台是新闻媒体，其平台的得分值Ps计算方法为

其中，pn为评论、点赞、回复、转发数量，th为设定的评论等数量阈值，newsdefault为新闻平台类的默认分值；

如果文本的平台是社交媒体，其得分值计算方法为：

其中，social_default为社交平台类的默认分值。

可选的，所述各个聚类类别的聚类热度总得分值计算方法为：

Zs＝S₁+S₂+...+S_n

其中，n为该聚类类别中文本信息的总数量，S₁、S₂、...、S_n分别为每条文本信息的初始得分值。

可选的，所述每隔一段时间，对每条文本的聚类热度得分值及每个类别的总得分值进行时间衰减计算的方法如下：

每隔一定的时间Tw，运行以下衰减算法，Tw单位：小时；

每篇文本衰减后的分值为S′_i：

其中，w1、w2为得分权重，T_z为聚类的时间，T_z单位：天；

每个类别总得分值衰减后分值为ZS_j′：

其中，nj为当前第j个类别ZS_j里文本的数量。

可选的，还包括根据每条文本的所述聚类热度得分值及每个类别的总得分值进行聚类排序，并随时间不断更新的步骤。

本公开提供的基于时间衰减因子的文本实时聚类方法，依据文本的发布时间和发布平台确定文本的初始聚类热度，并根据时间的推移不断衰减，以此作为文本数据的聚类排序依据与现有技术相比，本公开的有益效果是：充分体现了大数据领域中新闻话题类文本的热度价值与时效性的密切关系，使后续的新闻过滤、信息筛选更加方便，明显提高了聚类的性能；算法设计简单有效，特别适用于新闻类时效性强的海量流式文本的聚类处理。

附图说明

通过结合附图对本公开示例性实施例进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施例方式中，相同的参考标号通常代表相同部件。

图1显示根据示例性实施例的基于时间衰减因子的文本实时聚类方法流程图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

图1显示根据示例性实施例的基于时间衰减因子的文本实时聚类方法的流程图，包括以下步骤：

(1)步骤一：将采集到的流式文本数据，将其按照设定数据窗口Wsize、固定时间T或固定条数数据N等条件分发到不同的结点。

(2)步骤二，各个结点对到达的文本数据流进行实时聚类。

优选地，所述实时聚类采用singlepass单遍聚类方法。

通常的Kmeans，Dbscan等聚类算法，都是针对已有的一堆历史数据进行聚类，如果需要针对流式文本聚类，这些方法都不太适用了。因而示例性实施例采用了singlepass单遍聚类方法，利用文本向量的余弦距离计算文本间的相似度，对于依次到达的数据流，该方法按输入顺序每次处理一个数据，依据当前数据与已有类的相似度，将该数据判为已有类或者创建一个新的数据类，实现流式数据的增量和动态聚类。

实时聚类完成后，可以将聚类标签写入文本数据，或存入索引数据库或其他数据库中。

(3)步骤三，根据该条文本的发布时间和发布平台等因素的权重值，对每条文本的聚类热度初始值进行计算。

可选的，聚类热度初始值的计算方法为

SS＝w1*Ts+w2*Ps

其中，w1和w2分别表示发布时间和平台的影响权重值。Ts表示发布时间的得分值，Ps表示平台的得分值。

聚类热度的初始值计算方法可以根据用户关注要素的不同而加以调整。

可选的，发布时间的得分值Ts的计算方法为：

可选的，发布平台的得分值Ps的计算方法为：

如果该条文本的平台是新闻媒体，其平台的得分值Ps计算方法为

其中，pn为评论、点赞、回复、转发数量，th为设定的评论等数量阈值，newsdefauft为新闻平台类的默认分值；

如果该条文本的平台是社交媒体，其得分值计算方法为：

其中，social_default为社交平台类的默认分值。

(4)步骤四，计算各个聚类类别的聚类热度总得分值，并每隔一段时间，对每篇文本的得分值和每个类别的总得分值按时间推移进行衰减计算，并保存更新。

可选地，所述各个聚类类别的聚类热度总得分值计算方法为：

Zs＝S₁+S₂+...+S_n

可选的，所述衰减计算的方法如下：

每隔一定的时间Tw(Tw单位为小时)运行衰减算法；

1)每篇文本衰减后的得分值为S′_i：

其中，w1、w2为得分权重。T_z为聚类的时间(单位为天)，例如，聚类一周的数据T_z就为7。

2)对每个类别总得分值衰减后为ZS_j′：

其中，nj为当前ZS_j类别里文本的数量。由此可得出所有聚类类别的衰减得分值ZS′₁、ZS′₂、ZS′₃…。

3)存储并更新衰减后的数据。

另外，作为优选方案，示例性实施例还包括：

根据每个文本的所述聚类热度得分值及每个类别的总得分值进行排序，并随时间不断更新的步骤。

排序包括：对每个聚类类别内的文本，按聚类热度分值进行纵向排序；也还可以包括在不同的类之间，按聚类热度的总分值进行横向排序。

后续，可以按照进一步需求，依据排序进行文本筛选和过滤等处理。

上述技术方案只是本发明的示例性实施例，对于本领域内的技术人员而言，在本发明公开了应用方法和原理的基础上，很容易做出各种类型的改进或变形，而不仅限于本发明上述具体实施例所描述的方法，因此前面描述的方式只是优选的，而并不具有限制性的意义。

Claims

1.一种基于时间衰减因子的文本实时聚类方法，包括以下步骤：

各个结点对到达的文本数据进行实时聚类；

根据文本的发布时间和发布平台的权重值，计算每条文本的聚类热度初始值；

每隔一段时间，对每条文本的聚类热度得分值及每个类别的总得分值进行时间衰减计算，并更新保存；

其中：

所述聚类热度初始值计算方法为：S＝w1*Ts+w2*Ps，其中，w1和w2分别表示发布时间和平台的影响权重值，Ts表示发布时间的得分值，Ps表示平台的得分值；

所述发布平台得分值Ps的计算方法为：

其中，pn为评论、点赞、回复或转发数量，th为设定的数量阈值，newsdefault为新闻平台类的默认分值；

如果文本的平台是社交媒体，其得分值计算方法为：

其中，social_default为社交平台类的默认分值。

2.根据权利要求1所述的文本实时聚类方法，其特征在于，所述实时聚类采用singlepass单遍聚类方法。

3.根据权利要求1所述的文本实时聚类方法，其特征在于，所述发布时间得分值Ts的其计算方法为

4.根据权利要求1所述的文本实时聚类方法，其特征在于，所述各个聚类类别的聚类热度总得分值计算方法为：

Zs＝S₁+S₂+…+S_n

其中，n为该聚类类别中文本信息的总数量，S₁、S₂、…、S_n分别为每条文本信息的初始得分值。

5.根据权利要求1所述的文本实时聚类方法，其特征在于，还包括根据每条文本的所述聚类热度得分值及每个类别的总得分值进行聚类排序，并随时间不断更新的步骤。