CN113032582A

CN113032582A - 一种基于知识图谱建立实体统一模型及实体统一方法

Info

Publication number: CN113032582A
Application number: CN202110421927.2A
Authority: CN
Inventors: 朱安安; 邱彦林; 赵粉玉; 俞一奇
Original assignee: Hangzhou Xujian Science And Technology Co ltd
Current assignee: Hangzhou Xujian Science And Technology Co ltd
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2021-06-25

Abstract

本发明公开了一种基于知识图谱建立实体统一模型的方法，所述方法包括：构建实体基于描述信息的第一训练数据和基于结构信息的第二训练；采用所述TransH模型分别获得所述头实体、关系以及尾实体的结构表示向量；采用BERT+Bi‑LSTM模型对所述头实体和所述尾实体的描述信息进行编码获得描述表示向量，其中，所述BERT+Bi‑LSTM模型后接CRF层对编码进行命名实体识别；将所述结构表示向量与所述描述表示向量结合进行三元组验证所述BERT+Bi‑LSTM模型训练；将训练完成的所述BERT+Bi‑LSTM模型作为实体统一模型。

Description

一种基于知识图谱建立实体统一模型及实体统一方法

技术领域

本申请涉及知识图谱领域，尤其涉及一种基于知识图谱建立实体统一模型及实体统一方法。

背景技术

知识图谱本质上是一种语义网络的知识库，是一种基于图的数据结构，由节点和边组成。近年来，面向特定领域知识图谱的构建也越来越受到关注。面向特定领域，基于行业数据及领域内专家提供的相关知识构建行业知识图谱，将不同种类的信息相连接得到一个实体之间的关系网络，为特定领域提供了从“关联关系”的角度去分析推理问题的方式。

目前，由于化工行业专业性较强，知识图谱在化工行业的应用还较为少见，化工行业知识图谱构建后，知识的补充主要依靠纯文本的信息抽取而产生。信息抽取出的实体需要经过实体统一等环节清洗掉错误和冗的数据。在以往的知识补充环节，实体统一往往依靠计算实体字符串之间的相似度，或将实体通过预训练模型、TF-IDF等模型转化为向量进行向量间的相似度计算，当相似度大于一定阈值时即判定为同一实体。但由于化工行业中化学物品、相关器械设备的名称较为相似，常用的实体统一方法并不能达到较好的效果。另外，知识图谱的构建过程中，往往需要采用知识表示模型将已有的实体、关系等信息转化为向量，方便后续进行链路预测、三元组的验证等工作。但常用的知识表示模型只能将已知的实体与关系转化为向量，难以扩展。通过信息抽取产生的新实体难以通过已有的知识表示模型转化为向量。鉴于此，需要一种或多种实体统一方法针对化工知识图谱这一特定情况改善知识表示模型的构建策略以及知识补充中实体统一的方法，将语义信息与图结构信息融合，以提高实体统一的准确率和知识表示的可扩展性。

发明内容

本申请要解决的技术问题，在于提供一种基于知识图谱建立实体统一模型及实体统一方法，以解决现有知识表示模型只能将已知的实体与关系转化为向量，而通过信息抽取产生的新实体难以通过已有的知识表示模型转化为向量的技术问题。

为实现上述目的，本申请采用下述技术方案：

第一方面，本申请提供一种基于知识图谱建立实体统一模型的方法，所述方法包括：

构建实体基于描述信息的第一训练数据和基于结构信息的第二训练数据，其中，所述描述信息包括描述语料和命名语料，所述描述语料通过知识图谱的结构化数据中获得，所述命名语料通过知识图谱的非结构化数据获得，所述结构信息通过翻译模型中的TransH模型进行所述实体的结构信息的表示获得，其中，所述实体以三元组数据的头实体、关系以及尾实体表示；

采用所述TransH模型分别获得所述头实体、关系以及尾实体的结构表示向量；

采用BERT+Bi-LSTM模型对所述头实体和所述尾实体的描述信息进行编码获得描述表示向量，其中，所述BERT+Bi-LSTM模型后接CRF层对编码进行命名实体识别；

将所述结构表示向量与所述描述表示向量结合进行三元组验证所述BERT+Bi-LSTM模型训练，其中，所述BERT+Bi-LSTM模型训练的损失函数为：

L＝Loss1+Loss2，其中，Loos1为命名实体识别的损失函数，Loos2为基于所述TransH模型的评分函数，Loss2＝E_S+E_D，其中，E_S是基于所述结构表示向量的三元组评分函数，

其中γ>0是一个边缘超参数，T是事实三元组样本集，T′是T的负样本集，负样本集的产生规则依与所述TransH模型样本生成规则相同，E_D为基于所述描述信息的三元组评分函数，E_D共有三部分组成，即将头实体向量和尾实体向量都改为基于所述描述表示向量h_d和t_d产生一个评分,分别将h_s和t_s的其中一个使用基于所述描述信息表示，另一个保持不变产生两个评分,将三个评分取平均作为基于所述描述信息的三元组评分函数，

将训练完成的所述BERT+Bi-LSTM模型作为实体统一模型。

第二方面，本申请提供一种实体统一方法，应用于知识补充阶段，所述方法包括：

对非结构化文本信息进行信息抽取时，基于所述实体统一模型进行命名实体识别获得至少一个第一实体；

当所述至少一个第一实体不存在已有的知识图谱实体数据中时，将所述至少一个第一实体基于所述实体统一模型获得所述至少一个第一实体的表示向量；

将所述至少一个第一实体的表示向量依次与知识图谱中相同类型的实体的结构表示向量进行余弦相似度比较，当余弦相似度超过预设阈值时，所述至少一个第一实体与相同类型的实体为同一实体；

当余弦相似度不超过预设阈值时，将所述至少一个第一实体的表示向量作为其结构表示向量，与知识图谱中的其他实体及关系进行知识融合的链路预测。

第三方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、待码集或指令集，所述至少一条指令、所述至少一段程序、所述待码集或指令集由处理器执行以实现如上述第一方面所述的基于知识图谱建立实体统一模型的方法。

第四方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、待码集或指令集，所述至少一条指令、所述至少一段程序、所述待码集或指令集由处理器执行以实现如上述第二方面所述的实体统一方法。

本申请的有益效果是：本申请提供一种基于知识图谱建立实体统一模型及实体统一方法，针对化工知识图谱这一特定情况改善知识表示模型的构建策略以及知识补充中实体统一的方法，将语义信息与图结构信息融合，提高实体统一的准确率和知识表示的可扩展性。

附图说明

图1为本申请一个实施例提供的一种基于知识图谱建立实体统一模型的方法的流程示意图；

图2为本申请一个实施例提供的获取所述地震类微博数据的关键词组的方法的流程示意图；

图3为本申请本申请一个实施例提供的BERT+Bi-LSTM模型的结构示意图。

具体实施方式

下面通过具体实施例，并结合附图，对本申请的技术方案作进一步的具体描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本申请中各实施例提供的技术方案。

请参阅附图1，其示出了本申请一个实施例提供的一种基于知识图谱建立实体统一模型的方法的流程示意图，所述方法包括：

S101，构建实体基于描述信息的第一训练数据和基于结构信息的第二训练数据；

其中，所述描述信息包括描述语料和命名语料，所述描述语料通过知识图谱的结构化数据中获得，所述命名语料通过知识图谱的非结构化数据获得，所述结构信息通过翻译模型中的TransH模型进行所述实体的结构信息的表示获得，其中，所述实体以三元组数据的头实体、关系以及尾实体表示。

S102，采用所述TransH模型分别获得所述头实体、关系以及尾实体的结构表示向量；

S103，采用BERT+Bi-LSTM模型对所述头实体和所述尾实体的描述信息进行编码获得描述表示向量；

其中，所述BERT+Bi-LSTM模型后接CRF层对编码进行命名实体识别。

S104，将所述结构表示向量与所述描述表示向量结合进行三元组验证所述BERT+Bi-LSTM模型训练；

其中，所述BERT+Bi-LSTM模型训练的损失函数为：

BERT+Bi-LSTM模型期望将事实三元组的结构信息和实体的描述信息相结合，因此在BERT+Bi-LSTM模型构造阶段，由于翻译模型TransH的三元组验证主要采用的是实体的结构信息，而命名实体识别则采用的是文本的描述信息，因此将TransH模型的三元组验证与实体描述信息的命名实体识别任务相结合，对这两个任务同时进行训练学习，使得两种类型的表示相互促进达到最优。

BERT+Bi-LSTM模型训练阶段，由损失函数公式可知，BERT+Bi-LSTM模型训练每次需要一组正确的三元组和一组随机替换了一个实体(头实体或尾实体)使三元组不成立的负样本，即每次需要对三个实体的描述信息进行编码。

BERT+Bi-LSTM模型中实体的编码由从结构信息得到的编码和从实体的描述信息得到的编码两部分组成，关系编码仅采用结构编码。

S105，将训练完成的所述BERT+Bi-LSTM模型作为实体统一模型。

如附图2所示，其示出了本申请一个实施例提供的BERT+Bi-LSTM模型的结构示意图。

在一个实施例中，所述描述语料通过知识图谱的结构化数据中获得包括：

基于所述知识图谱的结构化数据，选取所述实体的描述文本作为所述描述语料，其中，所述描述文本至少包括所述实体的名称；

当所述实体不存在描述文本或所述描述文本中不包括所述实体的名称时，通过构建的描述生成文本生成所述描述语料。

一般性地，实体的描述文本通常为实体的“简介”，该描述文本中至少包括实体的名称。

在一个实施例中，所述命名语料通过知识图谱的非结构化数据获得包括：

在构建所述知识图谱时，对所述非结构化数据进行命名实体的识别，获得所述命名语料。

在一个实施例中，采用BERT+Bi-LSTM模型对所述头实体和所述尾实体的描述信息进行编码获得描述表示向量包括：

对事实三元组样本集T和负样本集T′中不重复的三个所述实体的描述文本进行拼接，获得一个长句子输入所述BERT+Bi-LSTM模型，按照字拆分得到每个字的字向量，将三个所述实体的字向量的平均值作为每个所述实体的描述表示向量。

在一个实施例中，当获得每个字的子向量后，将每个字的字向量直接输入CRF层解码进行命名实体识别任务的训练。

在一个实施例中，采用所述TransH模型分别获得所述头实体、关系以及尾实体的结构表示向量包括：

采用所述TransH模型的编码方式针对每一个关系r，都给出一个超平面W_r，在W_r超平面上定义关系向量d_r，对于任一所述结构信息的三元组数据(h,r,t)，头实体h和尾实体t都可以映射到超平面上产生实体向量h_s，t_s。每个所述结构信息的三元组数据都应满足

h_s+d_r＝t_s

通过该映射关系，可以分别得到头实体h_s和尾实体t_s以及关系r的结构表示向量，h_s＝h_s-ω^Th_sω

t_s＝t_s-ω^Tt_sω

其中ω为关系平面上的单位法向量。

请参阅附图3，其示出了本申请一个实施例提供的基于实体统一模型进行实体统一方法的流程示意图，应用于知识补充阶段，所述方法包括：

S301，对非结构化文本信息进行信息抽取时，基于所述实体统一模型进行命名实体识别获得至少一个第一实体；

S302，当所述至少一个第一实体不存在已有的知识图谱实体数据中时，将所述至少一个第一实体基于所述实体统一模型获得所述至少一个第一实体的表示向量；

针对步骤S302，将所述至少一个第一实体基于所述实体统一模型获得的编码中所述至少一个第一实体所在位置的字向量进行平均，获得所述至少一个第一实体的表示向量。

S303，将所述至少一个第一实体的表示向量依次与知识图谱中相同类型的实体的结构表示向量进行余弦相似度比较；

S304，当余弦相似度超过预设阈值时，所述至少一个第一实体与相同类型的实体为同一实体；

S305，当余弦相似度不超过预设阈值时，将所述至少一个第一实体的表示向量作为其结构表示向量，与知识图谱中的其他实体及关系进行知识融合的链路预测。

在一个实施例中，本申请还提供了一种计算机可读存储介质，计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器执行时实现本申请实施例中所述任一知识图谱建立实体统一模型方法或实体统一方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的至少一条指令、至少一段程序、代码集或指令集可存储于一非易失性计算机可读取存储介质中，所述的至少一条指令、至少一段程序、代码集或指令集在执行时，可实现本申请实施例中所述任一地图绘制方法的步骤。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，这些均属于本申请的保护范围之内。

Claims

1.一种基于知识图谱建立实体统一模型的方法，其特征是，所述方法包括：

采用所述TransH模型分别获得所述头实体、关系以及尾实体的结构表示向量；采用BERT+Bi-LSTM模型对所述头实体和所述尾实体的描述信息进行编码获得描述表示向量，其中，所述BERT+Bi-LSTM模型后接CRF层对编码进行命名实体识别；

其中γ＞0是一个边缘超参数，T是事实三元组样本集，T′是T的负样本集，负样本集的产生规则依与所述TransH模型样本生成规则相同，E_D为基于所述描述信息的三元组评分函数，E_D共有三部分组成，即将头实体向量和尾实体向量都改为基于所述描述表示向量h_d和t_d产生一个评分,分别将h_s和t_s的其中一个使用基于所述描述信息表示，另一个保持不变产生两个评分,将三个评分取平均作为基于所述描述信息的三元组评分函数，

将训练完成的所述BERT+Bi-LSTM模型作为实体统一模型。

2.根据权利要求1所述的一种知识图谱建立实体统一模型的方法，其特征是，所述描述语料通过知识图谱的结构化数据中获得包括：

3.根据权利要求1所述的一种知识图谱建立实体统一模型的方法，其特征是，所述命名语料通过知识图谱的非结构化数据获得包括：

4.根据权利要求1所述的一种知识图谱建立实体统一模型的方法，其特征是，采用BERT+Bi-LSTM模型对所述头实体和所述尾实体的描述信息进行编码获得描述表示向量包括：

5.根据权利要求1所述的一种知识图谱建立实体统一模型的方法，其特征是，采用所述TransH模型分别获得所述头实体、关系以及尾实体的结构表示向量包括：

h_s+d_r＝t_s

通过该映射关系，可以分别得到头实体h_s和尾实体t_s以及关系r的结构表示向量，

h_s＝h_s-ω^Th_sω

t_s＝t_s-ω^Tt_sω

其中ω为关系平面上的单位法向量。

6.根据权利要求4所述的一种知识图谱建立实体统一模型的方法，其特征是，将每个字的字向量直接输入CRF层解码进行命名实体识别任务的训练。

7.一种基于权利要求1-6任一所述的实体统一模型进行实体统一方法，应用于知识补充阶段，其特征是，所述方法包括：

8.根据权利要求7所述的实体统一方法，其特征是，将所述至少一个第一实体基于所述实体统一模型获得所述至少一个第一实体的表示向量包括：

将所述至少一个第一实体基于所述实体统一模型获得的编码中所述至少一个第一实体所在位置的字向量进行平均，获得所述至少一个第一实体的表示向量。

9.一种计算机可读存储介质，其特征是，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、待码集或指令集，所述至少一条指令、所述至少一段程序、所述待码集或指令集由处理器执行以实现如权利要求1-6任一项权利要求所述的基于知识图谱建立实体统一模型的方法。

10.一种计算机可读存储介质，其特征是，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、待码集或指令集，所述至少一条指令、所述至少一段程序、所述待码集或指令集由处理器执行以实现如权利要求7-8任一项权利要求所述的实体统一方法。