CN113468345B

CN113468345B - 基于知识图谱的实体共指检测数据处理系统

Info

Publication number: CN113468345B
Application number: CN202111024292.9A
Authority: CN
Inventors: 刘羽; 傅晓航; 林方; 常宏宇
Original assignee: Zhongke Yuchen Technology Co Ltd
Current assignee: Zhongke Yuchen Technology Co Ltd
Priority date: 2021-09-02
Filing date: 2021-09-02
Publication date: 2021-12-07
Anticipated expiration: 2041-09-02
Also published as: CN113468345A

Abstract

本发明涉及一种基于知识图谱的实体共指检测数据处理系统，包括预先构建的知识图谱、预先训练的编码器、预先训练的空间转换矩阵W、处理器和存储有计算机程序的存储器，其中，所述编码器用于将文本实体转换为Y维向量；所述知识图谱包括M个图谱实体名称编码信息{R₁，R₂，…R_M}，R_m为第m个图谱实体名称编码信息，R_m为Z维向量，m的取值为1到M；所述空间转换矩阵W为Y*Z维矩阵，用于将文本实体编码转换为Z维向量。本发明提高了实体共指检测的准确性和效率。

Description

基于知识图谱的实体共指检测数据处理系统

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于知识图谱的实体共指检测数据处理系统。

背景技术

为了避免重复，很多文本中采用代词、称谓和缩略语来指代前面提到的实体全称，例如，同一文本中采用“某某工业大学”，“某工大”、“工大”表示同一学校名称。在同一文本中，还可能采用不同的词语表示相同的含义，例如，“歌手”和“歌唱家”。上述现象均称为共指现象。虽然人类可以毫无困难的区分文本中实体的不同称谓，但是对于计算机来说，这仍旧是一项非常困难的事情。而在采用文本信息进行自然语言的人工智能模型训练等应用场景中，需要先识别出实体共指，进行共指消解，否则，无法保证模型精确度。现有技术中采用机器学习的方式来检测实体共指，但由于样本有限，以及文本多样性，会造成漏检，识别结果够全面，实体共指检测准确性低。且面临不同类型的文本或者文本信息的更新，需要重新构建不同的机器模型，造成实体共指检测效率低。由此可知，如何提高实体共指检测的准确性和效率为亟待解决的技术问题。

发明内容

本发明目的在于，提供一种基于知识图谱的实体共指检测数据处理系统，提高了实体共指检测的准确性和效率。

根据本发明一方面，提供了一种基于知识图谱的实体共指检测数据处理系统，包括预先构建的知识图谱、预先训练的编码器、预先训练的空间转换矩阵W、处理器和存储有计算机程序的存储器，其中，所述编码器用于将文本实体转换为Y维向量；所述知识图谱包括M个图谱实体名称编码信息{R₁，R₂，…R_M}，R_m为第m个图谱实体名称编码信息，R_m为Z 维向量，m的取值为1到M；所述空间转换矩阵W为Y*Z维矩阵，用于将文本实体编码转换为Z维向量，当所述处理器执行所述计算机程序时，实现以下步骤：

步骤S1、从待处理文本信息中提取文本实体名称信息，采用所述编码器逐个编码得到文本实体名称编码列表{ V₁，V₂，…V_N}，V_n为第n个文本实体名称编码信息；

步骤S2、基于V_n和空间转换矩阵W生成文本实体名称映射编码V_n’：

V_n’=V_n*W，V_n’与R_m的特征维度相同；

步骤S3、从{R₁，R₂，…R_M}中获取与每一V_n’相似度最高的图谱实体名称编码R_ne，ne的取值范围为1到M，若V_n’与R_ne的相似度大于预设的第一相似度阈值，则将第n文本实体与第ne图谱实体建立实体链接；

步骤S4、将与同一知识图谱实体建立实体链接的所有文本实体确定为实体共指。

本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案，本发明提供的一种基于知识图谱的实体共指检测数据处理系统可达到相当的技术进步性及实用性，并具有产业上的广泛利用价值，其至少具有下列优点：

本发明以知识图谱作为媒介，基于知识图谱中丰富的实体信息，确定待处理文本中的实体共指，提高了实体共指检测的准确性和效率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图,详细说明如下。

附图说明

图1为本发明实施例提供的基于知识图谱的实体共指检测数据处理系统示意图。

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例，对依据本发明提出的一种基于知识图谱的实体共指检测数据处理系统的具体实施方式及其功效，详细说明如后。

本发明实施例提供了一种基于知识图谱的实体共指检测数据处理系统，如图1所示，包括预先构建的知识图谱、预先训练的编码器、预先训练的空间转换矩阵W、处理器和存储有计算机程序的存储器，其中，所述编码器用于将文本实体转换为Y维向量，作为一种实施例，所述编码器具体可基于预设领域的语料库训练得到的bert编码器，预设领域可以为一个也可以为多个，根据具体需求设置。所述知识图谱包括M个图谱实体名称编码信息{R₁，R₂，…R_M}，R_m为第m个图谱实体名称编码信息，R_m为Z 维向量，m的取值为1到M，作为一种实施例，所述知识图谱基于预设领域的语料库，采用word2vec算法生成，可选择与训练编码器相同的预设领域来构建所述知识图谱。可以理解的是，所述知识图谱中还可包括实体之间的关联关系、实体属性等信息。需要说明的是，编码器的编码空间和构建知识图谱编码空间通常是不一致的，因此需要预先训练一个空间转换矩阵，将文本实体编码转换与图谱实体编码维度相同的向量，提高数据处理效率。作为一种实施例，所述空间转换矩阵W为Y*Z维矩阵，用于将文本实体编码转换为Z维向量。需要说明的是，也可预先训练一个Z*Y维矩阵，将图谱中的实体编码转换为与文本实体编码维度相同的向量。本发明实施例中，以将文本实体编码转换与图谱实体编码维度相同的向量。

当所述处理器执行所述计算机程序时，实现以下步骤：

需要说明的是，步骤S1中直接采用现有的实体名称提取技术实现即可，在此不在赘述。

V_n’=V_n*W，V_n’与R_m的特征维度相同；

可以理解的是，通过步骤S3，可以将无法与图谱实体建立实体链接的文本实体过滤除掉，并将能够与图谱实体建立实体链接的文本实体与图谱中对应的实体建立链接，共指的文本实体将链接至同一图谱实体上。

本发明实施例以知识图谱作为媒介，基于知识图谱中丰富的实体名称信息，确定待处理文本中的实体共指，提高了实体共指检测的准确性和效率。需要说明的是，确定好实体共指后，可以用于共指消解等应用场景，本发明对后续应用场景不作具体限定。

作为一种实施例，所述系统还包括原始训练样本对集合{r1-v1, r1-v1，…r_K-v_K}和随机初始化的初始空间转换矩阵W₀, 原始训练样本对集合基于全局预料中已建立实体链接的文本实体名称编码和图谱实体名称编码构建得到，r_k-v_k为已建立实体链接的第k个样本对，k的取值范围为1到K，r_k为第k个文本样实体名称编码，v_k为第k个样本图谱实体名称，当所述处理器执行所述计算机程序时，还实现以下步骤：

步骤S10、初始化i=1;

步骤S20、基于{r1-v1, r1-v1，…r_K-v_K} 执行第i轮训练，根据W₀和每一r_k和W得到第i轮预测图谱实体名称v_k’，基于v_k’和v_k确定第i轮第k个样本的L2损失函数值L2_ki，基于L2_k确定第i轮模型训练参考值P_i：

；

步骤S30、判断是否满足连续Q个P_i的波动值小于预设波动阈值，若满足，则将本轮W₀确定为W，结束流程，否则，基于本轮L2_ki更新W₀，设置i=i+1，返回执行步骤S20。

通过步骤S10-步骤S30训练得到的W，能够使得基于W转换后的文本样本实体名称映射编码与对应的文本样实体名称编码尽可能接近。

作为一种实施例，所述知识图谱还包括每一R_m对应的属性信息{U_m1,U_m2,…U_mx},U_mi为R_m的第i个属性信息，i的取值为1到mx，当所述处理器执行所述计算机程序时，实现以下步骤：

步骤S11、从待处理文本信息中抽取每一文本实体名称信息对应的属性信息{T_n1,T_n2,…T_nC},T_nc为第n个文本实体的第c个属性信息，c的取值范围为1到nC；

步骤S12、从图谱实体中获取与{T_n1,T_n2,…T_nC}的重合概率最高的第ng图谱实体，若{T_n1,T_n2,…T_nC}与第ng图谱实体的重合概率大于预设的重合概率阈值，则将第n文本实体与第ng图谱实体建立实体链接；

步骤S13、将与同一知识图谱实体名称编码建立实体链接的所有文本实体确定为实体共指。

通过步骤S11-步骤S13能够基于实体的属性信息，以知识图谱作为媒介，基于知识图谱中丰富的实体属性信息，确定待处理文本中的实体共指，提高了实体共指检测的准确性和效率。

作为一种实施例，所述系统还包括预设的冲突属性列表，所述冲突列表中存储了冲突属性信息，当两个实体信息中属性信息互为冲突属性时，则确定这两个实体信息不可能为实体共指，所述步骤S12包括：

步骤S121、从{R₁，R₂，…R_M}中获取与每一V_n’相似度超过预设第二相似度阈值的第一候选图谱实体集合，所述第二相似度阈值小于所述第一相似度阈值；

通过步骤S121能够先基于实体名称编码之间的相似度筛选得到第一候选图谱实体，减少后续计算量，提高数据处理的效率。

步骤S122、基于所述冲突属性列表将所述第一候选图谱实体集合中与第n文本实体具有冲突属性的图谱实体删除，得到第二候选图谱实体集合；

通过步骤S122能够先基于冲突属性列表进一步筛选出得到第二候选图谱实体，减少后续计算量，提高数据处理的效率。

步骤S123、从所述第二候选图谱实体集合中获取与{T_n1,T_n2,…T_nC}的属性重合概率最高的第ng图谱实体，若{T_n1,T_n2,…T_nC}与第ng图谱实体的属性重合概率大于预设的重合概率阈值，则将第n文本实体与第ng图谱实体建立实体链接。

作为一种实施例，所述系统还包括预设的共指匹配信息库和共指实体映射表，所述共指匹配信息库包括至少一个共指匹配信息，所述共指匹配信息包括将预设分隔符区间中的实体以及与预设分隔符区间相邻的实体确定为实体共指，将在所述共指实体映射表中存在映射关系的实体确定为实体共指；

当所述处理器执行所述计算机程序时，还实现以下步骤：

步骤S21、将待处理文本信息与所述共指匹配信息库匹配，将符合任一共指匹配信息的实体确定为实体共指。

通过步骤S21能够直接基于共指匹配信息库确定待处理文本信息的实体共指。

需要说明的是，基于步骤S21的方式确定待处理文本信息的实体共指结果准确度高，但是全面性依赖于所设置的共指匹配信息库的匹配信息量的多少。步骤S11-步骤S13中，基于实体属性的方式，准确度和全面性都能得到保证，但是计算量相对较大。步骤S1-步骤S4中，技术实体名称编码的方式计算量小，获取结果的速度快，但是，准确度依赖于空间转换矩阵的准确度，而预先训练好的空间转换矩阵W是基于全局语料构建的样本对训练得到，可能和当前处理的文本有差异性，因此，为了提高空间转换矩阵W的准确性，可基于步骤S21和/或步骤S11-步骤S13确定的实体共指结果来建立更新样本对集合，进而调整空间转换矩阵W，使得空间转换矩阵W更加匹配当前待处理文本，从而提高数据处理结果的准确性，作为一种实施例，当所述处理器执行所述计算机程序时，还实现以下步骤：

步骤S31、将所述步骤S12中建立实体链接的第n文本实体与第ng图谱实体构建为更新样本对，和/或，基于所述步骤S21确定的实体共指，构建更新样本对，从而生成更新样本对集合;

步骤S32、基于所述更新样本对集合更新当前的空间转换矩阵W。

需要说明的是，基于所述更新样本对集合更新当前的空间转换矩阵W与步骤S10-步骤S30的训练过程一致，在此不再赘述。通过步骤S31-步骤S32得更新的空间转换矩阵W，能够大大提高空间转换矩阵W的准确度，从而提高了执行步骤S1-步骤S4进行实体共指检测的准确度。

需要说明的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，部分步骤的顺序可以被重新安排。当其操作完成时处理可以被终止，但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明,任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于知识图谱的实体共指检测数据处理系统，其特征在于，

包括预先构建的知识图谱、预先训练的编码器、预先训练的空间转换矩阵W、处理器和存储有计算机程序的存储器，其中，所述编码器用于将文本实体转换为Y维向量；所述知识图谱包括M个图谱实体名称编码信息{R₁，R₂，…R_M}，R_m为第m个图谱实体名称编码信息，R_m为Z维向量，m的取值为1到M；所述空间转换矩阵W为Y*Z维矩阵，用于将文本实体编码转换为Z维向量，当所述处理器执行所述计算机程序时，实现以下步骤：

V_n’=V_n*W，V_n’与R_m的特征维度相同；

步骤S4、将与同一知识图谱实体建立实体链接的所有文本实体确定为实体共指；

所述系统还包括原始训练样本对集合{r1-v1, r1-v1，…r_K-v_K}和随机初始化的初始空间转换矩阵W₀, r_k-v_k为已建立实体链接的第k个样本对，k的取值范围为1到K，r_k为第k个文本样实体名称编码，v_k为第k个样本图谱实体名称，当所述处理器执行所述计算机程序时，还实现以下步骤：

步骤S10、初始化i=1;

;

2.根据权利要求1所述的系统，其特征在于，

所述知识图谱还包括每一R_m对应的属性信息{U_m1,U_m2,…U_mx}, U_mi为R_m的第i个属性信息，i的取值为1到mx，当所述处理器执行所述计算机程序时，实现以下步骤：

3.根据权利要求2所述的系统，其特征在于，

所述系统还包括预设的冲突属性列表，所述步骤S12包括：

4.根据权利要求2所述的系统，其特征在于，

所述系统还包括预设的共指匹配信息库和共指实体映射表，所述共指匹配信息库包括至少一个共指匹配信息，所述共指匹配信息包括将预设分隔符区间中的实体以及与预设分隔符区间相邻的实体确定为实体共指，将在所述共指实体映射表中存在映射关系的实体确定为实体共指；

当所述处理器执行所述计算机程序时，还实现以下步骤：

5.根据权利要求4所述的系统，其特征在于，

当所述处理器执行所述计算机程序时，还实现以下步骤：

6.根据权利要求1所述的系统，其特征在于，

所述知识图谱基于预设领域的语料库，采用word2vec算法生成。

7.根据权利要求1所述的系统，其特征在于，

所述编码器为基于预设领域的语料库训练得到的bert编码器。