CN116306925B

CN116306925B - 一种生成端到端实体链接方法和系统

Info

Publication number: CN116306925B
Application number: CN202310262378.8A
Authority: CN
Inventors: 吴欢; 何昆仑; 庄严
Original assignee: Chinese PLA General Hospital
Current assignee: Chinese PLA General Hospital
Priority date: 2023-03-14
Filing date: 2023-03-14
Publication date: 2024-05-03
Anticipated expiration: 2043-03-14
Also published as: CN116306925A

Abstract

本发明公开了一种生成端到端实体链接方法和系统，包括：基于待链接实体的类型、属性、关系、名称，构建待链接实体序列；待链接实体为第一知识图谱中的实体；将待链接实体序列作为输入序列输入到训练好的seq2seq模型中进行指称识别和实体消歧，得到多个推荐实体名称；多个推荐实体名称为第二知识图谱中的实体名称；基于n‑gram相似度和分词召回率计算每个推荐实体名称的评分；基于每个推荐实体名称的评分，确定待链接实体在第二知识图谱中所对应的目标链接实体。本发明缓解了现有模型中两阶段任务带来的误差损失。

Description

一种生成端到端实体链接方法和系统

技术领域

本发明涉及知识图谱技术领域，具体为一种生成端到端实体链接方法和系统。

背景技术

实体是知识图谱中的最基本元素，当来源不同的两个知识图谱进行知识融合时，需要将实体从其中一个图谱链接到另一个图谱中，但由于语言的歧义性、多样性，不同图谱的构建标准通常是不同的，那么进行异构图谱下的实体链接就必不可少。

在医疗知识图谱中，由于医学严谨性，可能相似的实体，所适用的属性、关系是完全不同的，如艾滋病和艾滋病恐惧症，是两个完全不同的疾病，但字面上有相似的地方，若是在实体链接时进行了错误的链接，那么可能会导致完全不适用的知识进行了融合，故而亟需一个精确度更高的实体链接方法。

实体链接模型通常的结构是pipeline式的两阶段方法，这种方法第一阶段指称识别的误差损失会传递到第二阶段实体消歧中，形成误差累积，且由于任务独立，两个阶段也会缺少交互信息；

另一种结构是将两个任务进行联合建模的端到端方法，将指称识别和实体消歧同步进行，这种方法可以很大程度上缓解pipeline式方法带来的误差累积、信息交互，但很多方法的信息交互多通过点积实现，点积在一定程度上还是有信息损失的，且这些方法需要负例提供训练，然而负例的数量、难度通常是比较难控制的。

发明内容

本发明的目的就在于为了解决上述至少一个技术问题而提供一种生成端到端实体链接方法和系统。

第一方面，本发明实施例提供了一种生成端到端实体链接方法，包括：基于待链接实体的类型、属性、关系、名称，构建待链接实体序列；所述待链接实体为第一知识图谱中的实体；将所述待链接实体序列作为输入序列输入到训练好的seq2seq模型中进行指称识别和实体消歧，得到多个推荐实体名称；所述多个推荐实体名称为第二知识图谱中的实体名称；基于n-gram相似度和分词·召回率计算每个推荐实体名称的评分；基于每个推荐实体名称的评分，确定所述待链接实体在所述第二知识图谱中所对应的目标链接实体。

进一步地，还包括：对预设seq2seq模型进行训练，得到所述训练好的seq2seq模型。

进一步地，将所述待链接实体序列作为输入序列输入到训练好的seq2seq模型中进行指称识别和实体消歧，包括：将所述待链接实体序列输入到所述训练好的seq2seq模型的编码器进行编码，然后通过注意力机制到解码器进行解码，得到多个测试结果；其中，所述解码器的解码过程包括实体类型和集束搜索算法的双重约束；在所述多个测试结果中，选择命中概率最高的前k个结果，作为推荐实体名称；k为预设正整数。

进一步地，所述第一知识图谱和所述第二知识图谱均为医学知识图谱；所述待链接实体包括疾病相关实体；所述解码器的解码过程包括：生成疾病下的前缀树；所述前缀树上的每一个节点是疾病词表中的一个token；基于所述前缀树生成所述解码器的所有token，并基于所生成token得到所述多个测试结果；其中，所述待链接实体不可链接时，生成万能token。

进一步地，基于n-gram相似度和分词召回率计算每个推荐实体名称的评分，包括：对每个推荐实体名称进行字切分，组合成n-gram序列；将每个n-gram序列与所述待链接实体的实体名称进行相似度计算再加权求和，得到每个n-gram序列的相似度和；基于分词工具搜索每个推荐实体名称的精确分词结果在所述待链接实体的实体名称中的召回率，得到每个推荐实体名称的召回率；将相所述似度和、所述召回率进行加权求和，得到所述每个推荐实体名称的评分。

第二方面，本发明实施例还提供了一种生成端到端实体链接系统，包括：构建模块，识别模块，评分模块和确定模块；其中，所述构建模块，用于基于待链接实体的类型、属性、关系、名称，构建待链接实体序列；所述待链接实体为第一知识图谱中的实体；所述识别模块，用于将所述待链接实体序列作为输入序列输入到训练好的seq2seq模型中进行指称识别和实体消歧，得到多个推荐实体名称；所述多个推荐实体名称为第二知识图谱中的实体名称；所述评分模块，用于基于n-gram相似度和分词召回率计算每个推荐实体名称的评分；所述确定模块，用于基于每个推荐实体名称的评分，确定所述待链接实体在所述第二知识图谱中所对应的目标链接实体。

进一步地，还包括训练模块，用于对预设seq2seq模型进行训练，得到所述训练好的seq2seq模型。

进一步地，所述识别模块，还用于：将所述待链接实体序列输入到所述训练好的seq2seq模型的编码器进行编码，然后通过注意力机制到解码器进行解码，得到多个测试结果；其中，所述解码器的解码过程包括实体类型和集束搜索算法的双重约束；在所述多个测试结果中，选择命中概率最高的前k个结果，作为推荐实体名称；k为预设正整数。

第三方面，本发明实施例还提供了一种电子设备，包括：存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的处理方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令被处理器执行时实现如上述第一方面所述的方法。

本发明提供了一种生成端到端实体链接方法和系统，采用端到端的生成模型seq2seq模型，本身拥有自回归解码器，相比于其他端到端实体链接模型的点积形式，信息交互更加完全，可以有效缓解现有模型中两阶段任务带来的误差损失；且本发明中的评测指标是hit@k，避免了单一的准确率对结果的限制。

附图说明

为了更清楚地说明本申请实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种生成端到端实体链接方法的流程图；

图2为本发明实施例提供的一种生成端到端实体链接方法的输入输出示意图；

图3为本发明实施例提供的一种生成端到端实体链接系统的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

图1是根据本发明实施例提供的一种生成端到端实体链接方法的流程图。如图1所示，该方法具体包括如下步骤：

步骤S102，基于待链接实体的类型、属性、关系、名称，构建待链接实体序列；待链接实体为第一知识图谱中的实体。

可选地，将待链接实体的实体类型下具有代表意义的属性、关系、名称的信息内容通过符号拼接，形成待链接实体序列。

步骤S104，将待链接实体序列作为输入序列输入到训练好的seq2seq模型中进行指称识别和实体消歧，得到多个推荐实体名称；多个推荐实体名称为第二知识图谱中的实体名称。

具体地，将待链接实体序列输入到训练好的seq2seq模型的编码器进行编码，然后通过注意力机制到解码器进行解码，得到多个测试结果；其中，解码器的解码过程包括实体类型和集束搜索算法的双重约束；在多个测试结果中，选择命中概率最高的前k个结果，作为推荐实体名称；k为预设正整数。

步骤S106，基于n-gram相似度和分词召回率计算每个推荐实体名称的评分。

步骤S108，基于每个推荐实体名称的评分，确定待链接实体在第二知识图谱中所对应的目标链接实体。

本发明提供了一种生成端到端实体链接方法，采用端到端的生成模型seq2seq模型，本身拥有自回归解码器，相比于其他端到端实体链接模型的点积形式，信息交互更加完全，可以有效缓解现有模型中两阶段任务带来的误差损失；且本发明中的评测指标是hit@k，避免了单一的准确率对结果的限制。

需要说明的是，在本发明实施例中，实体链接指两个已经构建完备的知识图谱中，从其中一个知识图谱中的实体名称关联到另一个知识图谱中等价的实体名称下的过程。

可选地，在步骤S104之前，还包括：对预设seq2seq模型进行训练，得到训练好的seq2seq模型。

可选地，步骤S106还包括如下步骤：

步骤S1061，对每个推荐实体名称进行字切分，组合成n-gram序列；

步骤S1062，将每个n-gram序列与待链接实体的实体名称进行相似度计算再加权求和，得到每个n-gram序列的相似度和；

步骤S1063，基于分词工具搜索每个推荐实体名称的精确分词结果在待链接实体的实体名称中的召回率，得到每个推荐实体名称的召回率；

步骤S1064，将相似度和、召回率进行加权求和，得到每个推荐实体名称的评分。

在本发明实施例提供的一种可选实施方式中，第一知识图谱和第二知识图谱均为医学知识图谱；待链接实体包括疾病相关实体；解码器的解码过程包括：生成疾病下的前缀树；前缀树上的每一个节点是疾病词表中的一个token；基于前缀树生成解码器的所有token，并基于所生成token得到多个测试结果；其中，待链接实体不可链接时，生成万能token。

下面以两个医学知识图谱的实体链接过程为例，举例说明本发明实施例提供的一种生成端到端实体链接方法的应用过程。

首先分析两个医学知识图谱实体链接的结果，可以发现下面的情况：

(1)图谱1(即第一知识图谱)中的实体名称与图谱2(即第二知识图谱)中的实体名称完全相同；

(2)图谱1中的属性、关系信息中包含图谱2中实体名称的片段，且两个实体是等价的；

(3)图谱1中的实体包含的信息是图谱2中一个实体的一部分，图谱1中多个实体的内容组合在一起和图谱2中的实体是等价的，此时图谱2中的实体名称可能与多个图谱1中的实体名称相似，或片段相同；

(4)图谱1中的实体信息包含了图谱2中多个实体，即图谱1中的一个实体与图谱2中的多个实体内容组合在一起的信息是等价的，此时图谱2中可能有多个实体名称与图谱1中的实体名称相似，或片段相同；

(5)图谱1中的实体是图谱2中所没有的，即无链接的情况。

可以看出，两个图谱中的实体名称包含了重要信息，在完全相同的情况，可以在其他属性、关系缺失的情况下直接得到，故而在输入上会有图谱1实体名称的嵌入，图谱2也以实体名称作为链接预测的结果。

此外因为在医学领域中一词多义的情况是较少的，但可能出现一词多实体的情况，如“耳鸣”一个词可能既在疾病本体中，也在症状本体中，对此，在输入时通过加入实体类型来进行区分，在输出也受到实体类型的约束。

输入：其中一个图谱中的实体名称，实体类型，及其属性、关系组合，实体属性如描述定义，英文名称、别称等，实体关系如同义词、上位术语等，具体的属性、关系根据实体所属的本体的类型进行调整(关系用另一个实体的名称代替)，然后将它们按照指定顺序，用句号进行拼接，整体作为一个输入，这里面属性或关系为空时，用一个特殊符号进行补全。

输出：链接到另一个图谱中的实体名称。

图2是根据本发明实施例提供的一种生成端到端实体链接方法的输入输出示意图。如图2所示，过程如下：

1.设计在图谱1中当前实体类型下的模型输入，需要选择在当前实体类型下具有代表意义的属性、关系，以疾病下的“原发性高血压”这个词为例，图谱1中，它有属性：英文名称，定义等等，有关系：上位术语，治疗药品等等，那么将“实体名称+实体类型+英文名称+定义+上位术语+治疗药品...”信息内容组合拼接后，作为模型的上下文输入；

2.进行模型训练，模型选择专门针对序列到序列生成任务的生成模型，其中生成模型为seq2seq模型，输入来到模型的Encoder进行编码，通过Attention来到Decoder进行解码；

3.在Decoder解码过程中，依据模型原本是每个位置可以是任何的token，故而就无法保证生成的实体一定属于疾病，为避免不可控的结果，进行受限解码，本发明采用了实体类型和beam search(集束搜索算法)进行双重约束，具体做法是生成疾病下的前缀树，树上每一个节点是疾病词表中的一个token，节点表示所有可能的后续token，Decoder的token必须在该前缀树的限制下生成，以保证生成结果是存在的，如此通过自回归的方法生成目标实体序列，该过程自动完成了指称识别和实体消歧的过程；

4.对于步骤3，因为实际图谱的实体链接是可能存在不可链接的情况的，对于此，设计了一个专门的万能token，当链接概率较小的情况下都会生成该token，当然，这个token需要经常多次测试确定；

5.对于测试结果的指标选择hit@k，表示排序前k个词的命中概率，k进行多个取值，如k＝1，k＝3，k＝5，k＝10，最终选择命中概率较高的k尽可能小的情况，然后取生成结果的topk个值作为推荐的结果；

6.计算每个实体名称的推荐评分：对每个实体名称进行字切分，组合成n-gram序列，每个序列与输入中的实体名称进行相似度计算再加权求和；借助分词工具，利用分词工具的精确切分模式，搜索每个实体名称精确分词结果在候选topk实体中的召回率，然后将相似度结果和召回率进行加权求和得到推荐评分；

7.对于一对一的链接结果，推荐评分最高的作为最终推荐结果；若是一对多的情况，那么推荐评分之间可能有较小的差距，则设定阈值，阈值以上的都作为推荐结果；若是多对一的情况，只取评分最高即可，链接到同一个词的信息都与推荐实体的信息进行融合。

由以上描述可知，本发明实施例提供了一种生成端到端实体链接方法，将两个图谱的实体链接过程转化为一个有限制的主题词生成过程，采用一种生成式的端到端模型来生成主题词，生成模型的端到端结构既能缓解pipeline方式带来的误差累积，又可通过自回归的方式从上下文推导目标实体，使得信息交互全面，且由于生成模型的本身的特点，模型训练中无需负例的支撑，避免了端到端方法对负例生成控制。且为了提高医学知识图谱链接的精确性，本发明设计了依赖医学图谱实体类型、实体属性和实体关系的输入，其作为链接任务的上下文信息而进行模型学习，同时为避免生成模型结果的不可控，在生成模型的解码器中，加入了实体类型和beam search方法进行双重约束，避免生成未知的实体名称，对于模型的输出，利用hit@k结果选择topk的预测结果后，根据设计的相似度判定和其它规则的约束得到最终的实体链接结果。

本发明实施例提供的生成端到端实体链接方法，对实体链接任务进行了重新定义，转化成了带有约束的主题词生成任务；采用端到端的生成模型MASS，MASS是seq2seq模型结构下的预训练模型，生成模型采用encoder-decoder框架，模型的参数与词表的大小有关，而与待链接的实体集无关，可降低内存的占用；采用评测指标是hit@k，避免单一的准确率对结果的限制；对模型输入进行了适配设计，更符合医学实体的特点；模型输出进行了两种规则的加权计算，适配不同类型的，链接结果。

实施例二

图3是根据本发明实施例提供的一种生成端到端实体链接系统的示意图。如图3所示，该系统包括：构建模块10，识别模块20，评分模块30和确定模块40。

具体地，构建模块10，用于基于待链接实体的类型、属性、关系、名称，构建待链接实体序列；待链接实体为第一知识图谱中的实体。

识别模块20，用于将待链接实体序列作为输入序列输入到训练好的seq2seq模型中进行指称识别和实体消歧，得到多个推荐实体名称；多个推荐实体名称为第二知识图谱中的实体名称。

评分模块30，用于基于n-gram相似度和分词召回率计算每个推荐实体名称的评分。

确定模块40，用于基于每个推荐实体名称的评分，确定待链接实体在第二知识图谱中所对应的目标链接实体。

本发明提供了一种生成端到端实体链接系统，采用端到端的生成模型seq2seq模型，本身拥有自回归解码器，相比于其他端到端实体链接模型的点积形式，信息交互更加完全，可以有效缓解现有模型中两阶段任务带来的误差损失；且本发明中的评测指标是hit@k，避免了单一的准确率对结果的限制。

可选地，如图3所示，还包括训练模块50，用于对预设seq2seq模型进行训练，得到训练好的seq2seq模型。

可选地，识别模块20，还用于：将待链接实体序列输入到训练好的seq2seq模型的编码器进行编码，然后通过注意力机制到解码器进行解码，得到多个测试结果；其中，解码器的解码过程包括实体类型和集束搜索算法的双重约束；在多个测试结果中，选择命中概率最高的前k个结果，作为推荐实体名称；k为预设正整数。

可选地，第一知识图谱和第二知识图谱均为医学知识图谱；待链接实体包括疾病相关实体；解码器的解码过程包括：生成疾病下的前缀树；前缀树上的每一个节点是疾病词表中的一个token；基于前缀树生成解码器的所有token，并基于所生成token得到多个测试结果；其中，待链接实体不可链接时，生成万能token。

可选地，评分模块30，还用于：对每个推荐实体名称进行字切分，组合成n-gram序列；将每个n-gram序列与待链接实体的实体名称进行相似度计算再加权求和，得到每个n-gram序列的相似度和；基于分词工具搜索每个推荐实体名称的精确分词结果在待链接实体的实体名称中的召回率，得到每个推荐实体名称的召回率；将相似度和、召回率进行加权求和，得到每个推荐实体名称的评分。

本发明实施例还提供了一种电子设备，包括：存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现如上述实施例一中的处理方法。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，计算机指令被处理器执行时实现如上述实施例一中的方法。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种生成端到端实体链接方法，其特征在于，包括：

基于待链接实体的类型、属性、关系、名称，构建待链接实体序列；所述待链接实体为第一知识图谱中的实体；

将所述待链接实体序列作为输入序列输入到训练好的seq2seq模型中进行指称识别和实体消歧，得到多个推荐实体名称；所述多个推荐实体名称为第二知识图谱中的实体名称；所述第一知识图谱和所述第二知识图谱均为医学知识图谱；所述待链接实体包括疾病相关实体；

基于n-gram相似度和分词召回率计算每个推荐实体名称的评分；

基于每个推荐实体名称的评分，确定所述待链接实体在所述第二知识图谱中所对应的目标链接实体；

将所述待链接实体序列作为输入序列输入到训练好的seq2seq模型中进行指称识别和实体消歧，包括：

将所述待链接实体序列输入到所述训练好的seq2seq模型的编码器进行编码，然后通过注意力机制到解码器进行解码，得到多个测试结果；其中，所述解码器的解码过程包括实体类型和集束搜索算法的双重约束；

在所述多个测试结果中，选择命中概率最高的前k个结果，作为推荐实体名称；k为预设正整数。

2.根据权利要求1所述的方法，其特征在于：还包括：对预设seq2seq模型进行训练，得到所述训练好的seq2seq模型。

3.根据权利要求1所述的方法，其特征在于：所述解码器的解码过程包括：

生成疾病下的前缀树；所述前缀树上的每一个节点是疾病词表中的一个token；

基于所述前缀树生成所述解码器的所有token，并基于所生成token得到所述多个测试结果；其中，所述待链接实体不可链接时，生成万能token。

4.根据权利要求1所述的方法，其特征在于：基于n-gram相似度和分词召回率计算每个推荐实体名称的评分，包括：

对每个推荐实体名称进行字切分，组合成n-gram序列；

将每个n-gram序列与所述待链接实体的实体名称进行相似度计算再加权求和，得到每个n-gram序列的相似度和；

基于分词工具搜索每个推荐实体名称的精确分词结果在所述待链接实体的实体名称中的召回率，得到每个推荐实体名称的召回率；

将所述相似度和、所述召回率进行加权求和，得到所述每个推荐实体名称的评分。

5.一种生成端到端实体链接系统，其特征在于，包括：构建模块，识别模块，评分模块和确定模块；其中，

所述构建模块，用于基于待链接实体的类型、属性、关系、名称，构建待链接实体序列；所述待链接实体为第一知识图谱中的实体；

所述识别模块，用于将所述待链接实体序列作为输入序列输入到训练好的seq2seq模型中进行指称识别和实体消歧，得到多个推荐实体名称；所述多个推荐实体名称为第二知识图谱中的实体名称；所述第一知识图谱和所述第二知识图谱均为医学知识图谱；所述待链接实体包括疾病相关实体；

所述评分模块，用于基于n-gram相似度和分词召回率计算每个推荐实体名称的评分；

所述确定模块，用于基于每个推荐实体名称的评分，确定所述待链接实体在所述第二知识图谱中所对应的目标链接实体；

所述识别模块，还用于：

6.根据权利要求5所述的系统，其特征在于：还包括训练模块，用于对预设seq2seq模型进行训练，得到所述训练好的seq2seq模型。

7.一种电子设备，其特征在于，包括：存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-4任一项所述的方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令被处理器执行时实现如权利要求1-4任一项所述的方法。