CN112650852A

CN112650852A - 一种基于命名实体和ap聚类的事件归并方法

Info

Publication number: CN112650852A
Application number: CN202110015195.7A
Authority: CN
Inventors: 张奥多; 张良均; 王宏刚; 施兴; 林碧娴; 刘名军; 张敏; 赵云龙; 莫济成; 周东平
Original assignee: Guangdong Teddy Intelligent Technology Co ltd
Current assignee: Guangdong Teddy Intelligent Technology Co ltd
Priority date: 2021-01-06
Filing date: 2021-01-06
Publication date: 2021-04-13

Abstract

本发明属于事件归并领域，尤其是一种基于命名实体和AP聚类的事件归并方法，针对现有的仅依靠无监督的聚类算法存在一定的归并误差的问题，现提出如下方案，其包括以下步骤：生成待归并文本的语义向量；对语义向量采用AP聚类获得初始事件簇；根据语义向量提取待归并文本的命名实体；根据命名实体构建清洗规则集对初始事件簇进行清洗获得事件归并结果。本发明充分考虑了事件个数未知的前提，采用无需预先设定聚类数的AP聚类算法，并将文本转化为语义向量使数值向量涵盖文本语义信息，以此作为聚类算法的输入，以提升聚类精度；遵循描述同一事件的文本所含命名实体一致的原则，构建清洗规则集对初始聚类结果进行清洗优化，有效提升事件归并效果。

Description

一种基于命名实体和AP聚类的事件归并方法

技术领域

本发明涉及事件归并方法技术领域，尤其涉及一种基于命名实体和AP聚类的事件归并方法。

背景技术

近年来，随着论坛、微博、市长信箱、阳光热线、网上信访等网络平台逐步成为政府了解民意、汇聚民智、舆情监控的重要渠道，各类社情民意相关的文本数据量不断攀升，给以往主要依靠人工来进行文章、留言和信件等整理的相关部门带来极大挑战。其中，对于杂糅了大量不同事件的文本数据，如何将描述同一事件的文本进行信息归并，是对事件总体信息归纳梳理的基础，是帮助相关人员梳理事件脉络的关键。

目前，大数据、人工智能、自然语言处理等技术已广泛应用于文本处理中。针对文本数据中的事件归并问题，可通过计算文本间相似度对达到阈值的文本进行归并的方法来实现，该方法计算过程简单但计算量大，且阈值不好确定；也可通过如层次聚类、K-Menas聚类、LDA主题模型等算法实现，但需预先设定聚类数或主题数，而文本集中总共反映了多少个事件未知，即聚类数或主题数无法确定；还可通过如AP聚类等基于图的聚类算法实现，虽无需预先设定聚类数，但仅依靠无监督的聚类算法存在一定的归并误差。

发明内容

本发明的目的是为了解决现有技术中存在仅依靠无监督的聚类算法存在一定的归并误差的缺点，而提出的一种基于命名实体和AP聚类的事件归并方法。

为了实现上述目的，本发明采用了如下技术方案：

一种基于命名实体和AP聚类的事件归并方法，包括以下步骤：

步骤1：生成待归并文本的语义向量；

步骤2：对语义向量采用AP聚类获得初始事件簇；

步骤3：根据语义向量提取待归并文本的命名实体；

步骤4：根据命名实体设置清洗规则集，对初始事件簇进行清洗获得反映同一事件的文本集合。

优选的，所述步骤1具体包括：

对每一篇待归并文本进行分词，进一步根据停用词典过滤语气词、助词停用词；

基于过滤后的分词结果采用已预训练的文本向量化模型生成文本的语义向量集X＝{x₁,x₂,x₃...,x_n}，其中x_i为第i篇待归并文本的语义向量，i＝1,2,3,...,n，n为待归并文本数，所述的已训练的文本向量化模型是通过自学习模型训练得到。

优选的，所述的步骤2具体包括：

(1)根据语义向量集X，计算两两向量相似度生成相似度矩阵S，公式如下：

其中，s(x₁,x₁)表示语义向量x₁和语义向量x₁间的相似度，n为语义向量个数即待归并文档数；

设置参考度P(i)即第i篇文本的语义向量作为聚类中心的参考度，设置P(i)为相似度矩阵的中值；

(2)初始化吸引度矩阵R和归属度矩阵A为n×n的零矩阵，设置最大迭代次数N；

(3)根据相似度矩阵S更新吸引度矩阵R和归属度矩阵A，更新公式如下：

(4)设置阻尼系数λ在吸引度矩阵和归属度矩阵A进行迭代更新中起收敛作用，公式如下：

r_t+1(i,k)＝λ×r_t(i,k)+(1-λ)×r_t+1(i,k)

a_t+1(i,k)＝λ×a_t(i,k)+(1-λ)×a_t+1(i,k)

其中，λ∈[0.5,1)；

(5)重复步骤(3)、(4)直至迭代次数达到最大值N或矩阵R和A不再变化时，算法结束，获得每一篇待归并文本的初始聚类标签，根据初始聚类标签形成的文本簇即为初始事件簇。

优选的，所述步骤3根据语义向量提取待归并文本的命名实体，命名实体包括人名、地名、组织机构名。

优选的，所述的步骤4具体包括：

(1)根据命名实体设置清洗规则集C，清洗规则的设置遵循表述同一事件的不同文本中所含的命名实体一致的原则；

(2)根据清洗规则集C对初始事件簇进行清洗，对簇中满足规则的文本进行相应处理，得到最终事件簇，即反映同一事件的文本集合。

优选的，所述的清洗规则集C＝{c₁,c₂,c₃}，其中规则c₁、c₂和c₃的详细内容如下：

c₁：待归并文本的命名实体数量为0时，则自成一个事件簇；

c₂：待归并文本所含命名实体在所属初始事件簇所含的全部命名实体集合中，仅出现1次，则自成一个事件簇；

c₃：待归并文本所属初始事件簇所含命名实体中最高频的3个实体，在该待归并文本中未出现，则自成一个事件簇。

与现有技术相比，本发明的有益效果在于：

本发明充分考虑了事件个数未知的前提，采用无需预先设定聚类数的AP聚类算法，并将文本转化为语义向量使数值向量涵盖文本语义信息，以此作为聚类算法的输入，以提升聚类精度；遵循描述同一事件的文本所含命名实体一致的原则，根据命名实体构建清洗规则集对初始聚类结果进行清洗优化，有效提升事件归并效果，本发明可智能对描述同一事件的文本进行归并，为进一步梳理事件脉络奠定基础。

附图说明

图1为本发明提出的一种基于命名实体和AP聚类的事件归并方法的流程图；

图2为本发明提出的一种基于命名实体和AP聚类的事件归并方法的生成待归并文本的语义向量的流程图；

图3为本发明提出的一种基于命名实体和AP聚类的事件归并方法的对语义向量采用AP聚类获得初始事件簇的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

参照图1-3，一种基于命名实体和AP聚类的事件归并方法，包括以下步骤：

步骤1：生成待归并文本的语义向量；

步骤2：对语义向量采用AP聚类获得初始事件簇；

步骤3：根据语义向量提取待归并文本的命名实体；

本发明中，步骤1具体包括：

基于过滤后的分词结果采用已预训练的文本向量化模型生成文本的语义向量集X＝{x₁,x₂,x₃...,x_n}，其中x_i为第i篇待归并文本的语义向量，i＝1,2,3,...,n，n为待归并文本数，的已训练的文本向量化模型是通过自学习模型训练得到。

本发明中，步骤2具体包括：

r_t+1(i,k)＝λ×r_t(i,k)+(1-λ)×r_t+1(i,k)

a_t+1(i,k)＝λ×a_t(i,k)+(1-λ)×a_t+1(i,k)

其中，λ∈[0.5,1)；

本发明中，步骤3根据语义向量提取待归并文本的命名实体，命名实体包括人名、地名、组织机构名。

本发明中，步骤4具体包括：

本发明中，的清洗规则集C＝{c₁,c₂,c₃}，其中规则c₁、c₂和c₃的详细内容如下：

本发明中，步骤1：生成待归并文本的语义向量；

现有D₁、D₂、D₃、D₄、D₅和D₆共计6篇来源于阳光热线问政平台的留言详情文本，详情内容示例如表1所示；

表1阳光热线问政平台的留言详情文本示例

对每一篇待归并文本进行分词，进一步根据停用词典过滤语气词、助词等停用词，处理结果示例如表2所示；

表2分词和停用词过滤结果示例

基于过滤后的分词结果采用已预训练的文本向量化模型生成文本的语义向量集X＝{x₁,x₂,x₃...,x_n}，其中x_i为第i篇待归并文本的语义向量，i＝1,2,3,...,n，n为待归并文本数。所述的已训练的文本向量化模型是通过自学习模型训练得到。

步骤2：对语义向量采用AP聚类获得初始事件簇；

根据语义向量集X，计算两两向量相似度生成相似度矩阵S，相似度矩阵计算结果示例如下所示：

表3相似度矩阵S计算结果示例

	x<sub>1</sub>	……	x<sub>6</sub>
				x<sub>1</sub>	1	……	0.2312
……	……	……	……
				x<sub>6</sub>	0.2312	……	1

初始化吸引度矩阵R和归属度矩阵A为6×6的零矩阵，设置最大迭代次数N为100；

根据相似度矩阵S更新吸引度矩阵R和归属度矩阵A，更新公式如下：

设置阻尼系数λ在吸引度矩阵和归属度矩阵A进行迭代更新中起收敛作用，公式如下：

r_t+1(i,k)＝λ×r_t(i,k)+(1-λ)×r_t+1(i,k)

a_t+1(i,k)＝λ×a_t(i,k)+(1-λ)×a_t+1(i,k)

其中，设置λ为0.5，当设置的阻尼系数值越小时，迭代次数会减小，阻尼系数值越大时，迭代次数增大；

重复步骤(3)、(4)直至迭代次数达到最大值N或矩阵R和A不再变化时，算法结束，获得每一篇待归并文本的初始聚类标签，根据初始聚类标签形成的文本簇即为初始事件簇。聚类结果示例如下表4所示：

表4聚类结果示例

根据上表4可知，由初始聚类标签形成2个文本簇即2个初始事件簇，分别为(D₁,D₂,D₃,D₄)和(D₅,D₆)。

步骤3：根据语义向量提取待归并文本的命名实体；

根据语义向量提取待归并文本的命名实体，所述的命名实体包括人名、地名、组织机构名，提取结果示例如下表5所示。

表5命名实体提取结果示例

步骤4：根据命名实体设置清洗规则集，对初始事件簇进行清洗获得反映同一事件的文本集合；

根据命名实体设置清洗规则集C，清洗规则的设置遵循表述同一事件的不同文本中所含的命名实体一致的原则，设置的清洗规则集C示例如下表6所示；

表6清洗规则集C示例

当留言的命名实体满足上述表中3个规则中的任一个规则时，需按规则处理；若3个规则均不满足，则保留原初始聚类标签。

根据清洗规则集C对初始事件簇进行清洗，对簇中不满足规则的文本进行过滤，得到最终事件簇，即反映同一事件的文本集合，最终事件簇结果示例如下表7所示。

表7根据清洗规则集C过滤后的结果示例

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于命名实体和AP聚类的事件归并方法，其特征在于，包括以下步骤：

步骤1：生成待归并文本的语义向量；

步骤2：对语义向量采用AP聚类获得初始事件簇；

步骤3：根据语义向量提取待归并文本的命名实体；

2.根据权利要求1所述的一种基于命名实体和AP聚类的事件归并方法，其特征在于，所述步骤1具体包括：

3.根据权利要求1所述的一种基于命名实体和AP聚类的事件归并方法，其特征在于，所述的步骤2具体包括：

r_t+1(i,k)＝λ×r_t(i,k)+(1-λ)×r_t+1(i,k)

a_t+1(i,k)＝λ×a_t(i,k)+(1-λ)×a_t+1(i,k)

其中，λ∈[0.5,1)；

4.根据权利要求1所述的一种基于命名实体和AP聚类的事件归并方法，其特征在于，所述步骤3根据语义向量提取待归并文本的命名实体，命名实体包括人名、地名、组织机构名。

5.根据权利要求1所述的一种基于命名实体和AP聚类的事件归并方法，其特征在于，所述的步骤4具体包括：

6.根据权利要求5所述的一种基于命名实体和AP聚类的事件归并方法，其特征在于，所述的清洗规则集C＝{c₁,c₂,c₃}，其中规则c₁、c₂和c₃的详细内容如下：