CN112989803A

CN112989803A - 一种基于主题向量学习的实体链接模型

Info

Publication number: CN112989803A
Application number: CN202110214535.9A
Authority: CN
Inventors: 何熙
Original assignee: Chengdu Enhanced View Technology Co ltd
Current assignee: Chengdu Enhanced View Technology Co ltd
Priority date: 2021-02-25
Filing date: 2021-02-25
Publication date: 2021-06-18
Anticipated expiration: 2041-02-25
Also published as: CN112989803B

Abstract

本发明公开了一种基于主题向量学习的实体链接模型，包括知识库、百度文档、标注数据和Skip‑gram模型，获取包含待分析的目标实体的文档，根据实体命名词典对所有待分析目标实体生成候选实体集合，并获取所有候选实体的表征向量；本发明一种基于主题向量学习的实体链接模型通过对文档主题向量的多任务学习，将文档中的所有实体链接结果之间的相关性计算转化为文档中每个实体链接结果与文档主题的相关性，用以解决文档中所有实体链接结果互相的相关性难以计算的难题，在训练过程中，使用文档分类数据集进一步加强对文档主题向量的学习，从而降低了实体链接算法的时间复杂度，并进一步提高了实体链接的准确度；进而提高实体链接的整体流程效率。

Description

一种基于主题向量学习的实体链接模型

技术领域

本发明涉及实体链接技术领域，具体为一种基于主题向量学习的实体链接模型。

背景技术

实体链接技术是自然语言处理领域的一项重要技术，其目的是将自然语言文本中的实体链接到知识图谱中的实体，是信息抽取的重要环节。实体链接通常包括生成候选实体和实体消歧两步，候选实体通常基于构建实体别名词典并匹配的方式生成，模型从候选实体中选择链接结果，常用特征有实体属性、先验统计、上下文编码等。

在实体消歧方法中，除了根据上述特征对候选实体进行相关性排序之外，通常加入文档中所有实体的链接结果两两之间的相关性约束，为实体链接提供更丰富的信息，理论上该相关性的计算是NP难问题，许多研究者设计了各种方法近似该相关性的计算。

发明内容

本发明的目的克服现有技术的不足，提供一种基于主题向量学习的实体链接模型，具有通过对文档主题向量的多任务学习、将文档中所有实体链接结果之间的相关性计算转化为文档中每个实体链接结果和文档主题的相关性、用以解决文档中所有实体链接结果互相的相关性难以计算的问题的优点，解决了现有技术中的问题。

为实现上述目的，本发明提供如下技术方案：一种基于主题向量学习的实体链接模型，包括知识库、百度文档、标注数据和Skip-gram模型。

步骤如下：

S1：获取包含待分析的目标实体的文档；

S2：根据实体命名词典对所有待分析目标实体生成候选实体集合，并获取所有候选实体的表征向量；

S3：将含有目标实体的待分析的句子和所有候选实体的表征向量输入模型，模型计算所有候选实体的得分及其与主题向量的相关性，预测链接的实体；

S4：获取训练数据，训练实体链接模型，模型计算所有候选实体与待分析实体的相关性，模型计算文档主题向量，根据主题向量计算所有候选实体与输入文档主题的相关性；

S5：将含有待分析实体的文档和所有候选实体的预训练表征向量输入模型，模型根据上述两个相关性预测链接的实体。

优选的，所述命名实体词典是基于知识库、百科文档、标注数据等生成的，实体表征向量和模型是的训练获得的。

优选的，所述预训练实体向量的模型为基于Skip-gram模型的简单全连接神经网络，用当前实体向量预测知识库中相邻的实体，并增加正则约束，使得当前实体向量与其别名的预训练词向量接近；

具体包括以下模块：

(1)输入层：输入知识库中的一个目标实体，通过查询表转化为实体向量E；

(2)分类层：实体向量E经过全连接层并经过Softmax操作，转化为知识库中每个实体的概率，预测每一个实体是否为输入实体在目标知识库中的相邻实体

(3)结构损失：根据输入实体在目标知识库中的相邻实体的真实标签计算交叉熵损失；

(4)语义损失：为使实体向量包含更多语义信息，在语料中随机选择一个输入实体别名中出现过的词W⁺和一个未出现过的词W^-，语义损失L使得输入实体向量E尽可能接近词W⁺的预训练词向量X_W+并远离词W^-的预训练词向量X_W-：

L＝||E-x_w+||₂-||E-x_w-||₂

其中∣∣·∣∣₂为L2范数。

优选的，所述实体链接模型基于多任务学习的双向长短期记忆网络，训练任务包括：以实体的上下文表征预测其和每个候选实体的相关性、基于文档中的是否出现相关实体的排序损失训练文档主题向量、使用文本分类数据集预测文档主题强化文档主题向量的训练。

优选的，所述S4中实体表征向量的预训练流程具体步骤如下:

(1)从知识库中选择一个目标实体作为输入实体输入模型；

(2)按一定概率随机选择一个正样本(在知识库中与目标实体相邻的实体)或一个负样本(在知识库中与目标实体不相邻的实体)；

(3)在语料中随机选择一个目标实体别名中出现过的词W⁺和一个未出现过的词W^-，在Word2Vec预训练词向量中查询其词向量X_W+和W^-；

(4)计算结构损失和语义损失，并更新网络参数

(5)重复上述步骤直至训练结束。

优选的，所述S4中实体表征向量的实体链接模型为基于多任务学习的双向长短期记忆网络步骤如下:

(1)输入层：输入包含若干带分析目标实体的文档，将文档中的每个词转化为词向量；

(2)双向长短期记忆网络层：将每个词的词向量经过双向长短期记忆网络，获得每个词的上下文表示H＝{H₁，H₂，…，H_n}；

(3)实体表征层：该部分获得目标实体的表征。对于文档中的每个目标实体i，取实体对应所有词的上下文表征的平均值作为实体的上下文表征t_i。以t_i为查询向量对文档的上下文表示H做注意力机制，得到H的加权和作为上下文信息向量c_i，连接t_i和c_i得到最终实体表征

(4)实体链接层：对文档中的每个目标实体i，对实体i在知识库中的每个目标实体j，根据文档中的实体表示e_i和预训练实体表征E_j计算实体链接结果的得分：

(5)实体链接损失：对文档中的每个目标实体i和候选实体j，使用二分类交叉熵计算实体链接损失；

(6)主题向量层：对文档的上下文表示H做自注意力机制，得到H的加权和作为文档的主题向量s；

(7)主题损失：从目标知识库中选取若干文档中出现过的实体(正样本)和未出现过的实体(负样本)组成文本候选实体集合，类似实体链接层计算主题向量s和该实体集合中的每一个实体j的相关性如下公式：

所述主题损失L是基于排序的损失，训练目标使得主题和所有正样本的相关性大于和负样本的相关性如下公式：

其中E⁺和E^-分别为正样本和负样本的实体集合，[·]+为ReLU函数，λ为边际参数；

(8)文本分类层：使用文本分类数据集进一步增强主题向量的学习，将主题模型s经过全连接层，得到文本分类每一个类别的概率，其中公式如下：

(10)文本分类损失：使用交叉熵作为文本分类的任务的损失。

优选的，所述S4中实体链接模型的训练流程步骤如下:

(1)从实体链接和文本分类中随机选择一个任务，若选择文本分类任务则跳到步骤2，否则跳到步骤3；

(2)选择文本分类的数据中的一条数据集输入，计算文本分类损失，跳到步骤5；

(3)选择实体链接的数据中的一条文本，对文本中的每一个实体根据命名实体词典选择候选实体集合，并获取所有候选实体的预训练实体表征向量，在知识库中选择若干文本中出现过的实体和若干未出现过的实体构成文本候选实体集合；

(4)输入文档、每个目标实体的候选集合、文本实体的候选集合，计算实体链接损失和主题损失；

(5)更新网络参数；

(6)重复上述步骤直至训练结束。

优选的，所述S4中实体链接模型的预测流程步骤如下：

(1)选择一条含有若干目标实体的待分析文档；

(2)对文档中的每个目标实体，根据命名实体实体词典选择若干候选实体；

(3)对每个目标实体i，计算每个候选实体j和该实体的相关性P_ij及候选实体j和文档主题的相关性q_j，选取P_ij+q_j最大的候选实体j作为实体i的链接结果；

(4)重复上述步骤直至所有文档分析完毕。

该发明中未涉及部分均与现有技术相同或可采用现有技术加以实现。

与现有技术相比，本发明的有益效果如下：

1：一种基于主题向量学习的实体链接模型通过对文档主题向量的多任务学习，将文档中的所有实体链接结果之间的相关性计算转化为文档中每个实体链接结果与文档主题的相关性，用以解决文档中所有实体链接结果互相的相关性难以计算的难题，在训练过程中，使用文档分类数据集进一步加强对文档主题向量的学习，从而降低了实体链接算法的时间复杂度，并进一步提高了实体链接的准确度；进而提高实体链接的整体流程效率。

附图说明

图1为本发明一种基于主题向量学习的实体链接模型的实体链接方法的整体流程示意图

图2为本发明一种基于主题向量学习的实体链接模型的实体链接方法的流程示意图；

图3为本发明一种基于主题向量学习的实体链接模型的实体链接方法构造命名实体词典的流程示意图；

图4为本发明一种基于主题向量学习的实体链接模型的实体链接方法实体表征向量预训练模型示意图；

图5为本发明一种基于主题向量学习的实体链接模型的实体链接方法实体表征向量预训练流程示意图；

图6为本发明一种基于主题向量学习的实体链接模型的实体链接方法实体链接模型示意图；

图7为本发明一种基于主题向量学习的实体链接模型的实体链接方法实体链接训练流程示意图；

图8为本发明一种基于主题向量学习的实体链接模型的实体链接方法实体链接预测流程示意图。

具体实施方式

下面结合具体实施例来进一步描述本发明，本发明的优点和特点将会随着描述而更为清楚，但实施例仅是范例性的，并不对本发明的范围构成任何限制，本领域技术人员应该理解的是，在不偏离本发明的精神和范围下可以对本发明技术方案的细节和形式进行修改或替换，但这些修改和替换均落入本发明的保护范围内。

实施例1

一种基于主题向量学习的实体链接模型，包括知识库、百度文档、标注数据和Skip-gram模型；

步骤如下：

S1：获取包含待分析的目标实体的文档；

S2：根据实体命名词典对所有待分析目标实体生成候选实体集合，并获取所有候选实体的表征向量，命名实体词典是基于知识库、百科文档、标注数据等生成的，实体表征向量和模型是的训练获得的；

S4：获取训练数据，训练实体链接模型，模型计算所有候选实体与待分析实体的相关性，模型计算文档主题向量，根据主题向量计算所有候选实体与输入文档主题的相关性，实体链接模型基于多任务学习的双向长短期记忆网络，训练任务包括：以实体的上下文表征预测其和每个候选实体的相关性、基于文档中的是否出现相关实体的排序损失训练文档主题向量、使用文本分类数据集预测文档主题强化文档主题向量的训练，实体表征向量的预训练流程具体步骤如下:

(1)从知识库中选择一个目标实体作为输入实体输入模型；

(4)计算结构损失和语义损失，并更新网络参数

(5)重复上述步骤直至训练结束；

所述实体表征向量的实体链接模型为基于多任务学习的双向长短期记忆网络步骤如下:

文本分类损失：使用交叉熵作为文本分类的任务的损失；

实体链接模型的训练流程步骤如下:

(5)更新网络参数；

(6)重复上述步骤直至训练结束；

实体链接模型的预测流程步骤如下：

(1)选择一条含有若干目标实体的待分析文档；

(4)重复上述步骤直至所有文档分析完毕；

S5：将含有待分析实体的文档和所有候选实体的预训练表征向量输入模型，模型根据上述两个相关性预测链接的实体，预训练实体向量的模型为基于Skip-gram模型的简单全连接神经网络，用当前实体向量预测知识库中相邻的实体，并增加正则约束，使得当前实体向量与其别名的预训练词向量接近，具体包括以下模块：

L＝||E-x_w+||₂-||E-x_w-||₂

其中∣∣·∣∣₂为L2范数。

综上：本发明一种基于主题向量学习的实体链接模型，通过对文档主题向量的多任务学习，将文档中的所有实体链接结果之间的相关性计算转化为文档中每个实体链接结果与文档主题的相关性；用以解决文档中所有实体链接结果互相的相关性难以计算的难题，在训练过程中，使用文档分类数据集进一步加强对文档主题向量的学习，降低了实体链接算法的时间复杂度，并进一步提高了实体链接的准确度；进而提高实体链接的整体流程效率。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点，本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内，本发明要求保护范围由所附的权利要求书及其等效物界定。