CN111460160A

CN111460160A - 一种基于强化学习的流式文本数据的事件聚类方法

Info

Publication number: CN111460160A
Application number: CN202010255434.1A
Authority: CN
Inventors: 邱兴发; 邹乔莎; 史传进
Original assignee: Jinjiang Hengyuan Technology Development Co ltd
Current assignee: Jinjiang Hengyuan Technology Development Co ltd
Priority date: 2020-04-02
Filing date: 2020-04-02
Publication date: 2020-07-28
Anticipated expiration: 2040-04-02
Also published as: CN111460160B

Abstract

本发明提供一种基于强化学习的流式文本数据的事件聚类方法，包括：S1、通过流式处理获取文本数据的特征表示；S2、获取全部候选事件构成当前事件库，并对每个候选事件进行特征提取和表示；S3、通过基于强化学习的事件聚类训练方法，得到聚类策略；S4、判断当前处理的文本数据的事件归属，更新当前事件库。本发明能及时高效的对海量的不断增长的流式文本数据进行聚类处理，通过引入已有的标注数据的先验知识，进行基于强化学习的事件聚类训练，使得事件聚类的结果更加及时和准确。

Description

一种基于强化学习的流式文本数据的事件聚类方法

技术领域

本发明涉及一种事件聚类方法，具体是指一种基于强化学习的流式文本数据的事件聚类方法，属于数据挖掘领域。

背景技术

在互联网世界的各个角落，每天都有很多事件发生，其中不乏一些热点事件会引发社会舆论的广泛讨论。围绕着这些事件，互联网上每天都在产生着海量的资讯，除传统新闻网站的报道之外，还有自媒体和社交媒体的参与，这使得互联网资讯呈现广泛性和多样性的特点，如何将这些混乱的资讯整理成一个个有序的事件以获得有用信息是一个有意义的研究。

流式数据是一组顺序、大量、快速、连续到达的数据序列，可被视为一个随时间延续而无限增长的动态数据集合。对于互联网上不断产生的流式数据，传统的基于划分或基于密度的聚类方法无法直接使用，因为这些方法需要确定的数据甚至确定的输出聚类数，这与流式数据的潜在无限性不符，而且这些方法还需要进行反复的迭代计算，计算成本较高，很难保证结果的实时性。

现有技术中，针对流式文本数据的事件聚类方法的核心在于文本表示和相似度计算，基本可分为无监督的方法和有监督的方法。其中，所述的无监督的方法基本上是用某些自然语言处理的工具对文本进行处理，提取文本特征，进行文本表示，并且定义一种相似度计算方法，找到一个合适的阈值，通过这些人工定义的规则进行聚类。这种方法的主要问题在于没有从数据中进行学习，人工定义的规则难以适应复杂多变的数据。

而所述的有监督的方法主要包括两种，一种是将问题转化为判断文本对是否属于同一事件的分类问题，可通过使用机器学习或者深度学习的方法提取文本特征并进行分类。这类方法的问题在于实际聚类过程中，对文本进行两两比较的计算成本太高。另一种有监督的方法是提前定义聚类数，然后通过标注数据学习一种合适的划分方法。但是这种方法的问题在于与流式数据的不确定性不相适应。

为了解决上述问题，本发明提供了一种基于强化学习的流式文本数据的事件聚类方法，利用已有的标注数据，学习一种合适的聚类策略，并结合Single-Pass增量式聚类算法，以一种简单高效的方法，对流式文本数据进行实时的处理和分析，从而实现事件聚类。

发明内容

本发明的目的在于提供一种基于强化学习的流式文本数据的事件聚类方法，及时高效的对海量的不断增长的流式文本数据进行聚类处理，通过引入已有的标注数据的先验知识，进行基于强化学习的事件聚类训练，使得事件聚类的结果更加及时和准确。

为了达到上述发明的目的，本发明采用的技术方案为：一种基于强化学习的流式文本数据的事件聚类方法，包括以下步骤：

S1、通过流式处理获取文本数据的特征表示；

S2、获取全部候选事件构成当前事件库，并对每个候选事件进行特征提取和表示；

S3、通过基于强化学习的事件聚类训练方法，得到聚类策略；

S4、判断当前处理的文本数据的事件归属，更新当前事件库。

所述的S1中，具体包含以下步骤：

S11、对输入的文本数据进行流式处理，其中每条文本数据的发布时间作为时间标签；

S12、使用自然语言处理工具提取文本数据中的命名实体或关键词，或直接提取文本数据中的标签，通过采用词嵌入模型，获取每个文本数据的特征表示。

所述的S2中，具体包含以下步骤：

S21、通过时间窗口方法，获取全部候选事件构成当前事件库；其中，所述的候选事件是指，按照距离当前时间由近至远的顺序，发布时间在最接近当前时间的某个时间窗口内的文本数据的集合；

S22、根据每个文本数据的时间标签和特征表示，对每个候选事件进行表示，通过采用时间衰减模型，突出其中发布时间更接近当前时间的文本数据的特征，分析并捕捉该候选事件随时间的特征变化。

所述的S22中，时间衰减模型具体为：对于每个候选事件，将其中发布时间越接近当前时间的文本数据，赋予越高的权重值，分析并提取该候选事件最新的特征。

所述的S3中，具体包含以下步骤：

S31、对已有的标注数据按输入的时间顺序进行排列，得到标准事件库，作为事件聚类训练时的环境；

S32、根据当前文本数据的特征表示，对该文本数据进行事件归属的判断，将该文本数据划分至当前事件库中的某一事件中，作为事件聚类训练时的当前动作，并得到该文本数据的聚类结果以及更新的当前事件库；

S33、将更新的当前事件库作为事件聚类训练时的当前状态；

S34、通过将聚类结果与标准事件库进行比较，得到对应当前动作和当前状态的奖赏；

S35、根据奖赏，对当前状态下的当前动作进行指导，通过学习完成当前文本数据的事件聚类训练；并返回S32对下一个文本数据进行事件聚类训练，直至全部文本数据完成训练得到聚类策略。

所述的S4中，采用Single-Pass增量式聚类方法对当前处理的文本数据进行事件归属的聚类处理。

所述的S4中，具体包含以下步骤：

根据S3中学习得到的聚类策略，判断当前处理的文本数据归属于当前事件库中的某一候选事件，并更新该候选事件的表示，以更新当前事件库；

根据S3中学习得到的聚类策略，判断当前处理的文本数据并不属于当前事件库中的任何一个候选事件，因此在当前事件库中成立一个新事件；

在完成对该文本数据的处理之后，通过流式方式继续处理下一个文本数据，实现当前数据库的动态处理和实时更新。

本发明所提供的基于强化学习的流式文本数据的事件聚类方法，在面对海量的不断增长的流式文本数据时，通过使用简单高效的增量式聚类方法，能够及时高效地进行聚类处理，通过引入已有的标注数据的先验知识，进行基于强化学习的有监督的事件聚类训练，使得事件聚类的结果更加及时和准确。

附图说明

图1为本发明中的基于强化学习的流式文本数据的事件聚类方法的流程图；

图2为本发明中的基于强化学习的事件聚类训练方法的示意图；

图3为本发明中的根据聚类策略对文本数据进行事件归属的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明，应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，为本发明所述的基于强化学习的流式文本数据的事件聚类方法的流程图，主要包括以下步骤：

S1、通过流式处理获取文本数据的特征表示；具体为：

S11、对输入的文本数据进行流式处理，其中每条文本数据具有一个表示发布时间的时间戳，作为时间标签；

S12、使用自然语言处理(NLP)工具提取文本数据中的命名实体或关键词，或者直接提取文本数据中的标签等，通过采用词嵌入模型，获取每个文本数据的特征表示。

其中，所述的词嵌入(Word Embedding)是一种将文本数据中的词转换成数字向量的方法，具体是把一个维数为所有词数量的高维空间嵌入到一个低维数的连续向量空间中，通过词嵌入可生成词向量，进而可使用机器学习算法对该些词向量进行分析。在本发明中，所述的采用词嵌入模型具体为：对大量文本数据先通过分词工具进行分词，构建词表，然后使用词嵌入预训练方法得到每个词的低维表示，进而通过该些表示来获取每个文本数据的特征表示。

S2、获取全部候选事件构成当前事件库，并对每个候选事件进行特征提取和表示；具体为：

S21、通过时间窗口方法，获取全部候选事件构成当前事件库；其中，由于事件为文本数据的集合，因此所述的候选事件是指，按照距离当前时间由近至远的顺序，发布时间在最接近当前时间的某个时间窗口内的文本数据的集合；

在本发明的一个优选实施例中，所述的时间衰减模型具体为：对于每个候选事件，将其中发布时间越接近当前时间的文本数据，赋予越高的权重值，从中分析并提取该候选事件最新的特征，以此了解并适应互联网时代热点事件迅速变化的情况。

在实际聚类过程中，事件的特征可能会随时间不断发生变化，因此可能会出现聚类错误的情况，通过强化学习的方法得到的聚类策略使得其能够应对复杂的不断变化的事件特征的情况。

如图2所示，为本发明中的基于强化学习的事件聚类训练方法的示意图，将包含全部候选事件的当前事件库，以及每个文本数据的特征表示作为输入，通过使用现有的标注数据进行强化学习，最终得到聚类策略。具体为：

S31、对已有的标注数据按输入的时间顺序进行排列，得到的结果作为标准事件库，其为事件聚类训练时的“环境”，可作为训练过程中的参照；

S32、根据S1中得到的每个文本数据的特征表示，对当前文本数据进行事件归属的判断，将该文本数据划分至当前事件库中的某一事件中，作为事件聚类训练时的当前“动作a”，并得到该文本数据的聚类结果以及更新的当前事件库；

S33、将更新的当前事件库作为事件聚类训练时的当前“状态s”；

S34、通过将S32中得到的聚类结果与标准事件库进行比较，得到对应当前“动作a”和当前“状态s”的“奖赏r”；

S35、根据S34中得到的“奖赏r”，对当前“状态s”下的当前“动作a”进行指导(包括判定事件归属正确，或者需要重新确定所归属的事件等)，通过学习完成当前文本数据的事件聚类训练；并返回S32对下一个文本数据进行事件聚类训练，直至训练完成得到聚类策略。

因此，本发明可利用已有的标注数据，通过强化学习的方法，训练得出一个最为合适的聚类策略，使得聚类结果最接近真实情况。

S4、判断当前处理的文本数据的事件归属，更新当前事件库；

在本发明的一个优选实施例中，采用Single-Pass增量式聚类方法对当前处理的文本数据进行事件归属的聚类处理。所述的Single-Pass增量式聚类方法是一种经典的简单高效的流式文本数据的增量聚类方法，适合对不断产生的有时间顺序的流式文本数据进行聚类处理，且算法的时间效率高。在Single-Pass增量式聚类方法中，对于依次到达的文本数据流，按输入顺序每次处理一个文本数据，每个文本数据只会参与一次样本聚类，即将该当前文本数据判定为属于某个已有的事件，或者创建一个新的事件，实现流式数据的增量和动态聚类。

所述的S4中，采用Single-Pass增量式聚类方法对当前处理的文本数据进行事件归属的聚类处理，具体为：

如图3所示，为本发明中的根据聚类策略对文本数据进行时间归属的示意图。其中，文本数据a为当前正在处理的文本数据，事件e₁，e₂，…，e_i，e_i+1，…，e_k为当前事件库中的所有候选事件，根据S3中学习得到的聚类策略，判断当前文本数据a的事件归属；若判断当前文本数据a归属于某个候选事件e_i，则更新该候选事件e_i的表示，以更新当前事件库；若判断当前文本数据a并不属于当前事件库中的任何一个候选事件，则在当前事件库中成立一个新事件e_k+1，可供后续的其他文本数据判断归属。

综上所述，本发明所提供的基于强化学习的流式文本数据的事件聚类方法，针对互联网中不断产生的带有时间标签的流式文本数据进行事件聚类分析，采用强化学习的思路，利用已有的标注数据进行事件聚类训练，结合Single-Pass增量式聚类方法，使得事件聚类结果能够应对特征和环境的不断变化。

尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

Claims

1.一种基于强化学习的流式文本数据的事件聚类方法，其特征在于，包含以下步骤：

S1、通过流式处理获取文本数据的特征表示；

2.根据权利要求1所述的基于强化学习的流式文本数据的事件聚类方法，其特征在于，所述的S1中，具体包含以下步骤：

3.根据权利要求2所述的基于强化学习的流式文本数据的事件聚类方法，其特征在于，所述的S2中，具体包含以下步骤：

4.根据权利要求3所述的基于强化学习的流式文本数据的事件聚类方法，其特征在于，所述的S22中，时间衰减模型具体为：对于每个候选事件，将其中发布时间越接近当前时间的文本数据，赋予越高的权重值，分析并提取该候选事件最新的特征。

5.根据权利要求3所述的基于强化学习的流式文本数据的事件聚类方法，其特征在于，所述的S3中，具体包含以下步骤：

S33、将更新的当前事件库作为事件聚类训练时的当前状态；

6.根据权利要求5所述的基于强化学习的流式文本数据的事件聚类方法，其特征在于，所述的S4中，采用Single-Pass增量式聚类方法对当前处理的文本数据进行事件归属的聚类处理。

7.根据权利要求6所述的基于强化学习的流式文本数据的事件聚类方法，其特征在于，所述的S4中，具体包含以下步骤：