CN109472023B

CN109472023B - 一种基于实体及文本联合嵌入的实体关联度衡量方法、系统及存储介质

Info

Publication number: CN109472023B
Application number: CN201811218394.2A
Authority: CN
Inventors: 赵翔; 曾维新; 唐九阳; 黄培馨; 郭得科; 肖卫东; 葛斌
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2018-10-19
Filing date: 2018-10-19
Publication date: 2022-11-11
Anticipated expiration: 2038-10-19
Also published as: CN109472023A

Abstract

本发明公开了基于实体及文本联合嵌入的实体关联度衡量方法、系统及存储介质，该方法包括将词语和所述词语对应的实体进行第一联合嵌入训练，得到词语及实体联合嵌入；根据所述词语及实体联合嵌入进行第二联合嵌入训练，得到实体间的相似度、实体描述文本间的相似度、实体与实体描述文本间的相似度；根据实体间的相似度、实体描述文本间的相似度、实体与实体描述文本间的相似度计算基于文本的实体关联度和基于图结构的实体关联度；根据基于文本的实体关联度和基于图结构的实体关联度计算得到实体之间的实体关联度。本发明通过将实体及文本嵌入进行联合训练，实现了将基于文本的实体关联度和基于图结构的实体关联度结合的对实体关联度的直接衡量。

Description

一种基于实体及文本联合嵌入的实体关联度衡量方法、系统及存储介质

技术领域

本发明涉及语义关联度衡量技术领域，具体涉及一种基于实体及文本联合嵌入的实体关联度衡量方法、系统及存储介质。

背景技术

随着知识图谱(KG)的发展及其广泛的应用，其基本组成单元—实体(Entity)，也受到了越来越大的重视。实体是事物唯一的标识符，也是连接非结构化文本和结构化知识的重要枢纽。在许多与KG相关的工作中，如实体链接以及实体推荐，如何度量实体之间的关联度成为重要的部分。

实体关联度衡量任务旨在确定两个实体的相关程度。虽然这是一个看似基本的任务，但直接针对实体关联度度量方法的研究却很少。在大部分工作中，只是将实体关联度衡量作为外部任务(如实体链接等)的子任务，而这种方法存在的问题是所提出的相应方法是面向特定任务的，不具有普适性。因此，需要针对实体关联度的直接衡量提出相应的方法。

现有的实体关联度直接衡量方法主要可以分为两类，分别为基于文本的方法和基于图结构的方法。基于文本的方法利用文本信息为实体生成包含语义信息的嵌入，也就是高维向量，并利用嵌入相似度来表征实体关联度。基于图结构的方法则将实体看作知识图谱中的节点，并将问题转化为计算图中节点的关联度。基于图结构的方法的缺点在于只考虑了图信息并未考虑文本信息。具体的方法包括考虑待衡量节点的共有节点数目等等。但这两类方法并没有得到充分结合；并且在现有的基于文本的方法中，并未用到实体描述信息，不能更好的表示实体的语义信息。因此，行业内急需开发一种结合基于文本的方法和基于图结构的方法的实体关联度直接衡量方法。

发明内容

本发明的目的是为了克服以上现有技术存在的不足，提供了基于实体及文本联合嵌入的实体关联度衡量方法。

本发明的另一目的是为了克服以上现有技术存在的不足，提供了基于实体及文本联合嵌入的实体关联度衡量系统。

本发明的又一目的是为了克服以上现有技术存在的不足，提供了基于实体及文本联合嵌入的实体关联度衡量系统。

本发明的目的通过以下的技术方案实现：

一种基于实体及文本联合嵌入的实体关联度衡量方法，包括：

S1，将词语和所述词语对应的实体进行第一联合嵌入训练，得到词语及实体联合嵌入；

S2，根据所述词语及实体联合嵌入进行第二联合嵌入训练，得到实体间的相似度、实体描述文本间的相似度、实体与实体描述文本间的相似度；

S3，根据实体间的相似度、实体描述文本间的相似度、实体与实体描述文本间的相似度计算基于文本的实体关联度和基于图结构的实体关联度；

S4，根据基于文本的实体关联度和基于图结构的实体关联度计算得到实体之间的实体关联度。

优选地，所述将词语和所述词语对应的实体进行第一联合嵌入训练包括：将词语和所述词语对应的实体映射到相同的高维连续向量空间中；其中将相似度小于预设值k1的词和实体映射到高维连续向量空间中的距离间隔小于预设值k2的位置。

优选地，所述根据所述词语及实体联合嵌入进行第二联合嵌入训练包括：以所述词语及实体联合嵌入为输入，对词语嵌入进行计算，得到文本的嵌入；对所述文本的嵌入和实体嵌入进行第二联合嵌入训练。

优选地，以所述词语及实体联合嵌入为输入，对词语嵌入进行计算，得到文本的嵌入的计算公式为：

其中W是权重矩阵，b是偏向量

表示词语w_m的嵌入；v_t表示生成的文本。

对所述文本的嵌入和实体嵌入进行第二联合嵌入训练的训练公式为：

其中，t＝{w₁,w₂,...w_N}表示给定文本，实体集E_t＝{e₁,e₂,...e_n}表示实体集，Δ表示一组文本-实体对，其中每个文本实体对包括文本t以及与文本t对应的实体E_t；P(e|t)表示文本t包含实体e的概率；E_K表示预设的知识库中的所有实体，e^*表示为E_K中的随机实体；v_e和v_t分别是实体e和文本t的向量表示。

优选地，所述根据实体间的相似度、实体描述文本间的相似度、实体与实体描述文本间的相似度计算基于文本的实体关联度的计算公式为：

其中，e_i和e_j为预先设定的两个不同实体，d_i和d_j分别为两个不同实体e_i和e_j的维基百科上的描述文本，

表示两个实体e_i和e_j的嵌入间的相似度，而

分别表示e_i和d_j之间的嵌入相似度，e_j和d_i之间的嵌入相似度，d_i和d_j之间的嵌入相似度，α₁,α₂,α₃,α₄是相应的权重参数；

所述将实体间的相似度、实体描述文本间的相似度、实体与实体描述文本间的相似度计算基于图结构的实体关联度的计算公式为：

其中I(e)表示维基百科页面中指向实体e的链接，n表示维基百科中的实体总数。

优选地，所述根据基于文本的实体关联度和基于图结构的实体关联度计算得到实体之间的实体关联度的计算公式为：

R(e_i,e_j)＝ηR_T(e_i,e_j)+θR_G(e_i,e_j)

其中η和θ是平衡基于文本关联度和基于图结构关联度重要性的两个参数。

本发明的另一目的通过以下的技术方案实现：

一种基于实体及文本联合嵌入的实体关联度衡量系统，包括：第一联合嵌入训练模块，用于将词语和所述词语对应的实体进行第一联合嵌入训练，得到词语及实体联合嵌入；第二联合嵌入训练模块，用于根据所述词语及实体联合嵌入进行第二联合嵌入训练，得到实体间的相似度、实体描述文本间的相似度、实体与实体描述文本间的相似度；实体关联度计算模块，用于根据实体间的相似度、实体描述文本间的相似度、实体与实体描述文本间的相似度计算基于文本的实体关联度和基于图结构的实体关联度；根据基于文本的实体关联度和基于图结构的实体关联度计算得到实体之间的实体关联度。

优选地，所述第一联合嵌入训练模块，还用于将词语和所述词语对应的实体映射到相同的高维连续向量空间中；其中将相似度小于预设值k1的词和实体映射到高维连续向量空间中的距离间隔小于预设值k2的位置。

优选地，所述将词语和所述词语对应的实体进行第一联合嵌入训练，得到词语及实体联合嵌入的训练公式为：

其中W是权重矩阵，b是偏向量

表示词语w_m的嵌入；v_t表示生成的文本。

本发明的又一目的通过以下的技术方案实现：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的方法的步骤。

本发明相对于现有技术具有如下的优点：

本发明通过将实体及文本嵌入进行联合训练，从而相应地由联合嵌入计算得到实体间的相似度、实体描述文本间的相似度、实体与实体描述文本间的相似度，根据实体间的相似度、实体描述文本间的相似度、实体与实体描述文本间的相似度计算基于文本的实体关联度和基于图结构的实体关联度，根据基于文本的实体关联度和基于图结构的实体关联度计算得到实体之间的实体关联度，这样实现了将基于文本的实体关联度和基于图结构的实体关联度结合的对实体关联度的直接衡量，并且还充分应用了实体描述信息和图信息，使实体关联度的直接衡量更加准确。

附图说明

图1是本发明的基于实体及文本联合嵌入的实体关联度衡量方法的原理示意图。

图2是本发明的基于实体及文本联合嵌入的实体关联度衡量系统的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

参见图1-2、一种基于实体及文本联合嵌入的实体关联度衡量方法，包括：

S1，将词语和所述词语对应的实体进行第一联合嵌入训练，得到词语及实体联合嵌入，以更好地表示其语义信息，并作为神经网络的输入单元；在本实施例，所述词语为单词。其中，第一联合嵌入训练的训练方法源于传统的skip-gram模型，skip-gram模型的训练目标是生成可以帮助预测给定单词的上下文单词的单词表示，形式上，设O＝ω₁,ω₂,...ω_N是一个单词序列，该模型旨在最大化以下平均对数概率：

在(1)式中，c是上下文窗口的大小，ω_i表示目标词(单词序列中的单词)，ω_i+j是目标词的上下文词；条件概率由以下softmax函数定义：

在(2)式中，W表示词汇表中所有单词的集合，即目标词和上下文词，v_w和v′_w代表单词w的输入和输出嵌入表示。训练之后，输出v′_w用于生成单词嵌入。

第一联合嵌入训练的训练方法将传统模型扩展为联合嵌入模型，首先需要创建联合向量训练的语料库，该语料库包括句子本身以及两种扩展形式，以维基百科页面中的文本为例，句子由单词和锚文本组成，利用与每个锚文本相关联的链接，可以获得锚文本的相应实体标识符，使用实体标识符替代锚文本，可以生成用于联合向量训练的扩展句子，此外，还可以从原始句子中只提取实体标识符，以形成新的输入，更好地捕捉实体之间的关系。

联合嵌入训练方法通过将实体标识符视为特殊形式的词语，将相应的公式(1)和公式(2)修改成如下公式：

其中τ₁,τ₂,...τ_N是令牌(词或实体标识符)的序列，τ_i表示目标令牌并且τ_i+j是上下文令牌。Γ表示语料库中所有令牌集，v_τ和v′_τ表示令牌τ的输入和输出嵌入表示。训练之后，输出v′_τ为词语及实体联合嵌入。

第一联合嵌入训练方法的优点有：

(1)最终词嵌入在概念上更准确，因为其上下文中形式各样的实体指称被常量实体标识替代；

(2)与源自知识库的相对较小的语料库相比，此方法获取的实体嵌入是在大规模文本语料库上学习得到的，在训练过程中实体嵌入也会具有较高的频率；

(3)由于单词和实体的表示是在同一高维连续向量空间中学习得到的，词，实体，词和实体之间相似性的度量可以通过余弦相似度实现。

具体的，所述将词语和所述词语对应的实体进行第一联合嵌入训练包括：将词语和所述词语对应的实体映射到相同的高维连续向量空间中；其中将相似度小于预设值k1的词和实体映射到高维连续向量空间中的距离间隔小于预设值k2的位置。

S2，根据所述词语及实体联合嵌入进行第二联合嵌入训练，得到实体间的相似度、实体描述文本间的相似度、实体与实体描述文本间的相似度；具体地，步骤S2包括：

首先，以所述词语及实体联合嵌入为输入，对词语嵌入进行计算，得到文本的嵌入，即以词语及实体联合嵌入为输入，通过对给定文本t＝{w₁,w₂,...w_N}中词语嵌入加权求和并进行L₂归一化，生成文本t的嵌入表示v_t：

其中W是权重矩阵，b是偏向量

表示词语w_m的嵌入；v_t表示生成的文本。

然后，对所述文本的嵌入和实体嵌入进行第二联合嵌入训练，即结合文本嵌入和实体嵌入，进行联合训练。所述根据所述词语及实体联合嵌入进行第二联合嵌入训练，得到实体间的相似度、实体描述文本间的相似度、实体与实体描述文本间的相似度的计算公式为：

S3，根据实体间的相似度、实体描述文本间的相似度、实体与实体描述文本间的相似度计算基于文本的实体关联度和基于图结构的实体关联度；在本实施例，所述根据实体间的相似度、实体描述文本间的相似度、实体与实体描述文本间的相似度计算基于文本的实体关联度的计算公式为：

表示两个实体e_i和e_j的嵌入间的相似度，而

在本实施例，所述根据基于文本的实体关联度和基于图结构的实体关联度计算得到实体之间的实体关联度的计算公式为：

R(e_i,e_j)＝ηR_T(e_i,e_j)+θR_G(e_i,e_j)

参见图2，上述基于实体及文本联合嵌入的实体关联度衡量方法适用的一种基于实体及文本联合嵌入的实体关联度衡量系统，包括：第一联合嵌入训练模块，用于将词语和所述词语对应的实体进行第一联合嵌入训练，得到词语及实体联合嵌入；第二联合嵌入训练模块，用于根据所述词语及实体联合嵌入进行第二联合嵌入训练，得到实体间的相似度、实体描述文本间的相似度、实体与实体描述文本间的相似度；实体关联度计算模块，用于根据实体间的相似度、实体描述文本间的相似度、实体与实体描述文本间的相似度计算基于文本的实体关联度和基于图结构的实体关联度；根据基于文本的实体关联度和基于图结构的实体关联度计算得到实体之间的实体关联度。

在本实施例，所述第一联合嵌入训练模块，还用于将词语和所述词语对应的实体映射到相同的高维连续向量空间中；其中将相似度小于预设值k1的词和实体映射到高维连续向量空间中的距离间隔小于预设值k2的位置。

在本实施例，所述将词语和所述词语对应的实体进行第一联合嵌入训练，得到词语及实体联合嵌入的训练公式为：

其中W是权重矩阵，b是偏向量

表示词语w_m的嵌入；v_t表示生成的文本。

在本实施例，所述根据所述词语及实体联合嵌入进行第二联合嵌入训练，得到实体间的相似度、实体描述文本间的相似度、实体与实体描述文本间的相似度的计算公式为：

此外，本发明还提出一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上所述的方法的步骤。

上述具体实施方式为本发明的优选实施例，并不能对本发明进行限定，其他的任何未背离本发明的技术方案而所做的改变或其它等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于实体及文本联合嵌入的实体关联度衡量方法，其特征在于，包括：

2.根据权利要求1所述的基于实体及文本联合嵌入的实体关联度衡量方法，其特征在于，所述将词语和所述词语对应的实体进行第一联合嵌入训练包括：

将词语和所述词语对应的实体映射到相同的高维连续向量空间中；其中将相似度小于预设值k1的词和实体映射到高维连续向量空间中的距离间隔小于预设值k2的位置。

3.根据权利要求1所述的基于实体及文本联合嵌入的实体关联度衡量方法，其特征在于，所述根据所述词语及实体联合嵌入进行第二联合嵌入训练包括：

以所述词语及实体联合嵌入为输入，对词语嵌入进行计算，得到文本的嵌入；

对所述文本的嵌入和实体嵌入进行第二联合嵌入训练。

4.根据权利要求3所述的基于实体及文本联合嵌入的实体关联度衡量方法，其特征在于，以所述词语及实体联合嵌入为输入，对词语嵌入进行计算，得到文本的嵌入的计算公式为：

其中W是权重矩阵，b是偏向量

表示词语w_m的嵌入；v_t表示生成的文本；

5.根据权利要求1所述的基于实体及文本联合嵌入的实体关联度衡量方法，其特征在于，所述根据实体间的相似度、实体描述文本间的相似度、实体与实体描述文本间的相似度计算基于文本的实体关联度的计算公式为：

表示两个实体e_i和e_j的嵌入间的相似度，而

6.根据权利要求5所述的基于实体及文本联合嵌入的实体关联度衡量方法，其特征在于，所述根据基于文本的实体关联度和基于图结构的实体关联度计算得到实体之间的实体关联度的计算公式为：

R(e_i,e_j)＝ηR_T(e_i,e_j)+θR_G(e_i,e_j)

7.一种基于实体及文本联合嵌入的实体关联度衡量系统，其特征在于，包括：

第一联合嵌入训练模块，用于将词语和所述词语对应的实体进行第一联合嵌入训练，得到词语及实体联合嵌入；

第二联合嵌入训练模块，用于根据所述词语及实体联合嵌入进行第二联合嵌入训练，得到实体间的相似度、实体描述文本间的相似度、实体与实体描述文本间的相似度；

实体关联度计算模块，用于根据实体间的相似度、实体描述文本间的相似度、实体与实体描述文本间的相似度计算基于文本的实体关联度和基于图结构的实体关联度；根据基于文本的实体关联度和基于图结构的实体关联度计算得到实体之间的实体关联度。

8.根据权利要求7所述的基于实体及文本联合嵌入的实体关联度衡量系统，其特征在于，所述第一联合嵌入训练模块，还用于将词语和所述词语对应的实体映射到相同的高维连续向量空间中；其中将相似度小于预设值k1的词和实体映射到高维连续向量空间中的距离间隔小于预设值k2的位置。

9.根据权利要求7所述的基于实体及文本联合嵌入的实体关联度衡量系统，其特征在于，所述将词语和所述词语对应的实体进行第一联合嵌入训练，得到词语及实体联合嵌入的训练公式为：

其中W是权重矩阵，b是偏向量

表示词语w_m的嵌入；v_t表示生成的文本。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。