CN112989837A

CN112989837A - 一种基于共现图的实体别名发现方法及装置

Info

Publication number: CN112989837A
Application number: CN202110508433.8A
Authority: CN
Inventors: 荆小兵; 陈奇宁
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Zhizhi Heshu Technology Co ltd
Priority date: 2021-05-11
Filing date: 2021-05-11
Publication date: 2021-06-18
Anticipated expiration: 2041-05-11
Also published as: CN112989837B

Abstract

本申请提供了一种基于共现图的实体别名发现方法及装置，其中，该方法包括：基于预设的实体集合和语料库构建共现图；其中，所述共现图的节点用于表征实体，所述共现图的边用于表征两个实体之间的亲近程度；所述亲近程度与共现距离、文本相似性和启发式规则相关；基于所述共现图确定同义词节点群组；针对每个同义词节点群组，基于该同义词节点群组中词频满足预设条件的节点确定实体规范名，并基于该同义词节点群组中不满足预设条件的节点确定实体别名。本申请实施例发现的实体别名准确度更高，且扩展性较好。

Description

一种基于共现图的实体别名发现方法及装置

技术领域

本申请涉及实体别名发现技术领域，尤其是涉及一种基于共现图的实体别名发现方法及装置。

背景技术

实体识别是NLP（Natural Language Processing，自然语言处理）最重要的任务之一，它输出的实体名直接来自原文文本，没有规范化，经常出现多个实体同一含义的情况。因此，找出同义实体，规范化到唯一实体名，其他作为实体别名，对后续NLP任务会有很大帮助。比如“华夏”，“神州”，“中华人民共和国”都可以作为“中国”的别名，“中国”作为规范化名。

有别于同义词发现，实体别名发现所考虑的目标词范围更窄（通常仅名词词语可做实体），专用性更强。传统的同义词发现方法，如基于上下文的同义词发现方法、基于相似性的同义词发现方法，用于实体别名发现效果不佳；而基于知识库的方法，虽有效果，却严重依赖已有知识，扩展性差。

发明内容

有鉴于此，本申请的目的在于提供一种基于共现图的实体别名发现方法及装置，以提高发现的实体别名准确度和扩展性。

第一方面，本申请实施例提供了一种基于共现图的实体别名发现方法，包括：

基于预设的实体集合和语料库构建共现图；其中，所述共现图的节点用于表征实体，所述共现图的边用于表征两个实体之间的亲近程度；所述亲近程度与共现距离、文本相似性和启发式规则相关；

基于所述共现图确定同义词节点群组；

针对每个同义词节点群组，基于该同义词节点群组中词频满足预设条件的节点确定实体规范名，并基于该同义词节点群组中不满足预设条件的节点确定实体别名。

在一种可能的实施方式中，所述基于预设的实体集合和语料库构建共现图，包括：

对预设的实体集合和语料库进行多模匹配；其中，在多模匹配的过程中，针对所述语料库中每个文本单位，查找所述实体集合中每个实体在该文本单位中的出现位置；

针对所述实体集合中任意两个实体，基于所述两个实体分别对应的出现位置计算所述两个实体之间的亲近程度；

以所述实体集合中的各个实体为节点，以所述实体集合中任意两个实体之间的亲近程度为边，构建共现图。

在一种可能的实施方式中，所述针对所述实体集合中任意两个实体，基于所述两个实体分别对应的出现位置计算所述两个实体之间的亲近程度，包括：

针对所述实体集合中任意两个实体，确定第一实体对应的第一出现位置序列和第二实体对应的第二出现位置序列；

若所述第一出现位置序列的长度大于等于所述第二出现位置序列的长度，则对所述第一出现位置序列进行排序，针对所述第二出现位置序列中的每个出现位置，从排序后的所述第一出现位置序列中查找最接近的出现位置，组成出现位置对；

计算每个出现位置对的亲近程度，并对各个出现位置对的亲近程度进行聚合，得到所述实体集合中任意两个实体之间的亲近程度。

在一种可能的实施方式中，所述计算每个出现位置对的亲近程度，包括：

基于每个出现位置对的共现距离、解释性上下文、前后缀交叠情况和文本相似度，计算每个出现位置对的亲近程度。

在一种可能的实施方式中，所述共现距离由以下任意一项参数确定：每个出现位置对的两个出现位置的距离之差的倒数、指数衰减指和0-1截断值；所述文本相似度由以下任意一项参数确定：编辑距离、jaccard相似度和LCS。

在一种可能的实施方式中，在所述计算每个出现位置对的亲近程度之后，还包括：利用每个出现位置对的共现文档频率，对每个出现位置对的亲近程度进行归一化处理。

在一种可能的实施方式中，所述基于所述共现图确定同义词节点群组，包括：

对所述共现图中的孤立节点和小于预设阈值的边进行过滤；

针对过滤后的共现图，利用图谱社区发现算法发现同义词节点群组。

第二方面，本申请实施例还提供一种基于共现图的实体别名发现装置，包括：

构建模块，用于基于预设的实体集合和语料库构建共现图；其中，所述共现图的节点用于表征实体，所述共现图的边用于表征两个实体之间的亲近程度；所述亲近程度与共现距离、文本相似性和启发式规则相关；

确定模块，用于基于所述共现图确定同义词节点群组；

发现模块，用于针对每个同义词节点群组，基于该同义词节点群组中词频满足预设条件的节点确定实体规范名，并基于该同义词节点群组中不满足预设条件的节点确定实体别名。

第三方面，本申请实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

第四方面，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

本申请实施例提供的一种基于共现图的实体别名发现方法，首先，基于预设的实体集合和语料库构建共现图；其中，所述共现图的节点用于表征实体，所述共现图的边用于表征两个实体之间的亲近程度；其次，基于所述共现图确定同义词节点群组。最后，针对每个同义词节点群组，基于该同义词节点群组中词频满足预设条件的节点确定实体规范名，并基于该同义词节点群组中不满足预设条件的节点确定实体别名。一方面，与传统的同义词发现方法中仅考虑解释性上下文或文本相似度相比，本申请中亲近程度与共现距离、文本相似性和启发式规则相关，也即本申请的共现图综合考虑了共现距离、文本相似性和启发式规则，大大提高了实体规范名和实体别名的准确度。另一方面，本申请没有依赖知识库，扩展性较好。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种基于共现图的实体别名发现方法的流程图；

图2示出了本申请实施例所提供的一种基于共现图的实体别名发现装置的结构示意图；

图3示出了本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

考虑到传统的同义词发现方法，如基于上下文的同义词发现方法、基于相似性的同义词发现方法，用于实体别名发现效果不佳；而基于知识库的方法，虽有效果，却严重依赖已有知识，扩展性差。基于此，本申请实施例提供了一种基于共现图的实体别名发现方法及装置，下面通过实施例进行描述。

为便于对本实施例进行理解，首先对本申请实施例所公开的一种基于共现图的实体别名发现方法进行详细介绍。

请参照图1，图1为本申请实施例所提供的一种基于共现图的实体别名发现方法的流程图。如图1所示，可以包括如下步骤：

S101、基于预设的实体集合和语料库构建共现图；其中，所述共现图的节点用于表征实体，所述共现图的边用于表征两个实体之间的亲近程度；所述亲近程度与共现距离、文本相似性和启发式规则相关；

S102、基于所述共现图确定同义词节点群组；

S103、针对每个同义词节点群组，基于该同义词节点群组中词频满足预设条件的节点确定实体规范名，并基于该同义词节点群组中不满足预设条件的节点确定实体别名。

步骤S101中，实体，自然语言处理中，代表专名的词语，比如人名类实体（张三、李四），公司类实体（微软、谷歌）等。预设的实体集合，即实体识别输出的若干实体名组成的实体集合。预设的语料库，即实体来源的原始语料。

图，即一种由点和边构成的数据结构，内部实现可以用邻接矩阵、邻接链表或者嵌套字典。共现(Cooccurrence)，即共同出现，词语的共现，就是说两个词语在同一上下文（句子、段落、文章）同时出现。共现图，用图数据结构来表示词语共现，图的节点是词语，图的边是两个词语共现的权重（也即亲近程度）。

所述共现图的节点用于表征实体，所述共现图的边用于表征两个实体之间的亲近程度。所述亲近程度也可称作权重，其与共现距离、文本相似性和启发式规则相关。与传统的同义词发现方法中仅考虑解释性上下文或文本相似度相比，本申请中亲近程度与共现距离、文本相似性和启发式规则相关，也即本申请的共现图综合考虑了共现距离、文本相似性和启发式规则，大大提高了实体规范名和实体别名的准确度。

在本实施例中，步骤S101可以包括如下子步骤：

S1011、对预设的实体集合和语料库进行多模匹配；其中，在多模匹配的过程中，针对所述语料库中每个文本单位，查找所述实体集合中每个实体在该文本单位中的出现位置；

S1012、针对所述实体集合中任意两个实体，基于所述两个实体分别对应的出现位置计算所述两个实体之间的亲近程度；

S1013、以所述实体集合中的各个实体为节点，以所述实体集合中任意两个实体之间的亲近程度为边，构建共现图。

步骤S1011中，在不同场景中，语料库可按不同的方式来区分文本单位，比如每篇文章是一个文本单位，每个段落是一个文本单位，或者每个固定长度片段作为一个文本单位，本实施例不作具体限定。

多模匹配指的是基于AC状态机进行多模匹配，采用实体集合构建AC状态机，针对所述语料库中每个文本单位，查找所述实体集合中每个实体在该文本单位中的出现位置。下面以表1为例，示出了实体在文本单位中的出现位置。

表1

从上述表1可以看出，每篇文章是一个文本单位，针对每篇文章，查找实体集合中每个实体在该篇文章中的出现位置，没有出现则不计入实体起止位置列表中。出现位置可以取实体起止位置列表中的起始值、终止值或其平均。

步骤S1012中，以表1为例，针对实体1和实体2，基于实体1和实体2的实体起止位置列表计算实体1和实体2之间的亲近程度。

在本实施例中，步骤S1012可以包括如下子步骤：

S10121、针对所述实体集合中任意两个实体，确定第一实体对应的第一出现位置序列和第二实体对应的第二出现位置序列；

S10122、若所述第一出现位置序列的长度大于等于所述第二出现位置序列的长度，则对所述第一出现位置序列进行排序，针对所述第二出现位置序列中的每个出现位置，从排序后的所述第一出现位置序列中查找最接近的出现位置，组成出现位置对；

S10123、计算每个出现位置对的亲近程度，并对各个出现位置对的亲近程度进行聚合，得到所述实体集合中任意两个实体之间的亲近程度。

步骤S10121中，比如第一实体对应的第一出现位置序列为[4, 9, 10, 27]，第二实体对应的第二出现位置序列为[1, 3, 7]。

步骤S10122中，第一出现位置序列[4, 9, 10, 27]的长度大于第二出现位置序列[1, 3, 7]的长度，对第一出现位置序列按照从小到大进行排序，针对第二出现位置序列[1, 3, 7]中的每个出现位置，从第一出现位置序列[4, 9, 10, 27]中查找最接近的出现位置，第二出现位置序列中的“3”和第一出现位置序列中的“4”接近，第二出现位置序列中的“7”和第一出现位置序列中的“9”接近，组成两个出现位置对，即（位置3的第二实体，位置4的第一实体），（位置7的第二实体，位置9的第一实体）。

步骤S10123中，基于每个出现位置对的共现距离、解释性上下文、前后缀交叠情况和文本相似度，计算每个出现位置对的亲近程度。

共现距离，由以下任意一项参数确定：每个出现位置对的两个出现位置的距离之差的倒数、指数衰减指和0-1截断值（小于某距离置1，大于置0）。

解释性上下文，比如“Microsoft，即微软”，其中两个实体“Microsoft”和“微软”，中间有个“即”字，是汉语中常用的别名解释语。对每个实体对做上下文分析，匹配到解释性特征，则给与较高亲近程度。

前后缀交叠情况，比如“微软”是“微软公司”的前缀，共现距离最近，若用指数衰减，计算的亲近程度会很高，通常就是同义实体，但过高的亲近程度可能影响后续同义词节点群组发现，可以根据实际需求对此类情况亲近程度做调整。

文本相似度，由以下任意一项参数确定：编辑距离、jaccard相似度和LCS。本实施例不限于此，还可以使用其他相似度指标。

步骤S10123还对各个出现位置对的亲近程度进行聚合，实体存储为节点，实体的权重作为边（已有边则累计更新边权值），更新共现图。

在一种可能的实施方式中，在所述计算每个出现位置对的亲近程度之后，步骤S1012还包括：利用每个出现位置对的共现文档频率，对每个出现位置对的亲近程度进行归一化处理。

具体地，有些出现位置对在很多文本单位中都共现，有些出现位置对只共现于少量文档。模仿TF-IDF算法，可以使用出现位置对的共现文档频率对每个出现位置对的亲近程度做归一化处理。

步骤S102中，同义词节点群组指的是：多个节点互为同义词，这些节点组成节点群组。

在本实施例中，步骤S102可以包括如下子步骤：

S1021、对所述共现图中的孤立节点和小于预设阈值的边进行过滤；

S1022、针对过滤后的共现图，利用图谱社区发现算法发现同义词节点群组。

步骤S1021中，首先，根据预设阈值过滤小于预设阈值的边；其次，过滤孤立节点，孤立节点即没有同义实体的节点，可直接输出为实体规范名。

步骤S1022中，图谱社区发现算法，比如k-clique，label propagation，modularity maximization等方法。k-clique即取个数为k的团，实体分组可以同时用多个k值。

具体地，针对过滤后的共现图，利用图谱社区发现算法根据设定阈值（通常比图谱过滤的预设阈值要高，可以滤除大部分边），按连通区域分组。

步骤S103中，针对孤立节点，孤立节点即为实体规范名，无实体别名。针对同义词节点群组，记录同义词节点群组中每个节点的出现频次，一般取同义词节点群组中词频最高的词作为实体规范名，其他为实体别名。

本申请实施例提供的一种基于共现图的实体别名发现方法，首先，基于预设的实体集合和语料库构建共现图；其中，所述共现图的节点用于表征实体，所述共现图的边用于表征两个实体之间的亲近程度；其次，基于所述共现图确定同义词节点群组。最后，针对每个同义词节点群组，基于该同义词节点群组中词频满足预设条件的节点确定实体规范名，并基于该同义词节点群组中不满足预设条件的节点确定实体别名。一方面，与传统的同义词发现方法中仅考虑解释性上下文或文本相似度相比，本申请中亲近程度与共现距离、文本相似性和启发式规则相关，也即本申请的共现图综合考虑了共现距离、文本相似性和启发式规则，大大提高了实体规范名和实体别名的准确度。另一方面，本申请没有依赖知识库，扩展性较好。本申请实施例可以用于NLP任务流，把实体识别输出的实体名规范化，并关联实体别名，输出的(实体名/别名)关联组，可以用于NLP的后续任务如实体链接、关系抽取、指代消解等。

基于相同的技术构思，本申请实施例还提供一种基于共现图的实体别名发现装置、电子设备、以及计算机存储介质等，具体可参见以下实施例。

请参照图2，图2为本申请实施例所提供的一种基于共现图的实体别名发现装置的结构示意图。如图2所示，所述装置可以包括：

构建模块10，用于基于预设的实体集合和语料库构建共现图；其中，所述共现图的节点用于表征实体，所述共现图的边用于表征两个实体之间的亲近程度；所述亲近程度与共现距离、文本相似性和启发式规则相关；

确定模块20，用于基于所述共现图确定同义词节点群组；

发现模块30，用于针对每个同义词节点群组，基于该同义词节点群组中词频满足预设条件的节点确定实体规范名，并基于该同义词节点群组中不满足预设条件的节点确定实体别名。

在一种可能的实施方式中，构建模块10包括：

查找单元，用于对预设的实体集合和语料库进行多模匹配；其中，在多模匹配的过程中，针对所述语料库中每个文本单位，查找所述实体集合中每个实体在该文本单位中的出现位置；

计算单元，用于针对所述实体集合中任意两个实体，基于所述两个实体分别对应的出现位置计算所述两个实体之间的亲近程度；

构建单元，用于以所述实体集合中的各个实体为节点，以所述实体集合中任意两个实体之间的亲近程度为边，构建共现图。

在一种可能的实施方式中，所述计算单元具体用于：

在一种可能的实施方式中，所述计算单元具体用于：基于每个出现位置对的共现距离、解释性上下文、前后缀交叠情况和文本相似度，计算每个出现位置对的亲近程度。

在一种可能的实施方式中，所述计算单元还用于：在所述计算每个出现位置对的亲近程度之后，利用每个出现位置对的共现文档频率，对每个出现位置对的亲近程度进行归一化处理。

在一种可能的实施方式中，确定模块20，包括：

过滤单元，用于对所述共现图中的孤立节点和小于预设阈值的边进行过滤；

发现单元，用于针对过滤后的共现图，利用图谱社区发现算法发现同义词节点群组。

本申请实施例公开了一种电子设备，如图3所示，包括：处理器301、存储器302和总线303，所述存储器302存储有所述处理器301可执行的机器可读指令，当电子设备运行时，所述处理器301与所述存储器302之间通过总线303通信。

所述机器可读指令可用于执行前面方法实施例中所述的方法的步骤：

基于所述共现图确定同义词节点群组；

在一种可能的实施方式中，处理器301基于预设的实体集合和语料库构建共现图，包括：

在一种可能的实施方式中，处理器301针对所述实体集合中任意两个实体，基于所述两个实体分别对应的出现位置计算所述两个实体之间的亲近程度，包括：

在一种可能的实施方式中，处理器301计算每个出现位置对的亲近程度，包括：

在一种可能的实施方式中，处理器301在所述计算每个出现位置对的亲近程度之后，还用于执行：利用每个出现位置对的共现文档频率，对每个出现位置对的亲近程度进行归一化处理。

在一种可能的实施方式中，处理器301基于所述共现图确定同义词节点群组，包括：

对所述共现图中的孤立节点和小于预设阈值的边进行过滤；

本申请实施例所提供的一种基于共现图的实体别名发现方法的计算机程序产品，包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-OnlyMemory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于共现图的实体别名发现方法，其特征在于，包括：

基于所述共现图确定同义词节点群组；

2.根据权利要求1所述的方法，其特征在于，所述基于预设的实体集合和语料库构建共现图，包括：

3.根据权利要求2所述的方法，其特征在于，所述针对所述实体集合中任意两个实体，基于所述两个实体分别对应的出现位置计算所述两个实体之间的亲近程度，包括：

4.根据权利要求3所述的方法，其特征在于，所述计算每个出现位置对的亲近程度，包括：

5.根据权利要求4所述的方法，其特征在于，所述共现距离由以下任意一项参数确定：每个出现位置对的两个出现位置的距离之差的倒数、指数衰减指和0-1截断值；所述文本相似度由以下任意一项参数确定：编辑距离、jaccard相似度和LCS。

6.根据权利要求4所述的方法，其特征在于，在所述计算每个出现位置对的亲近程度之后，还包括：

利用每个出现位置对的共现文档频率，对每个出现位置对的亲近程度进行归一化处理。

7.根据权利要求1所述的方法，其特征在于，所述基于所述共现图确定同义词节点群组，包括：

对所述共现图中的孤立节点和小于预设阈值的边进行过滤；

8.一种基于共现图的实体别名发现装置，其特征在于，包括：

确定模块，用于基于所述共现图确定同义词节点群组；

9.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1至7任一所述方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至7任一所述方法的步骤。