CN109271516B

CN109271516B - 一种知识图谱中实体类型分类方法及系统

Info

Publication number: CN109271516B
Application number: CN201811125907.5A
Authority: CN
Inventors: 刘知远; 辛极; 朱昊; 韩旭; 孙茂松
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2018-09-26
Filing date: 2018-09-26
Publication date: 2020-09-15
Anticipated expiration: 2038-09-26
Also published as: CN109271516A

Abstract

本发明实施例提供一种知识图谱中实体类型分类方法及系统。其中，所提供的方法包括：根据知识图谱中的目标实体在给定的句子中构成的向量特征，对所述目标实体进行分类，获得所述目标实体属于不同类型的概率向量；将所述概率向量输入到预设的语言模型中，通过所述语言模型对所述概率向量进行调整，获得所述目标实体的分类结果。本发明提供的方法，采用语言模型对知识图谱中的实体分类结果进行修正，可以降低远程监督给实体分类任务带来的噪音，从而提高了模型的稳定性，实体分类性能也能够得到极大提升，具有良好的实用性。

Description

一种知识图谱中实体类型分类方法及系统

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种知识图谱中实体类型分类方法及系统。

背景技术

知识图谱，某些场景下也被称为知识库，是一种将现实世界中人类的知识结构化之后形成的知识系统。在知识图谱中，大量的知识，诸如开放数据库和百科全书中的信息，通常以关系数据集合的形式被表达出来。而在关系数据集合中，基本事实被抽象为实体，而规则、逻辑、推理等关联性的信息则被抽象为实体间的关系。若将实体对应于点，关系对应于边，则这些知识可以进一步以图的形式呈现，从而可以被计算机高效的使用，而这也是研究知识图谱的意义所在。这种将实体和抽象概念结构化成多关系数据集合的模式也是近年来被大力提倡的。

虽然已有的知识图谱包含了上亿个实体，相比于无尽的现实世界，它们仍然远远没有完善。这些实体的类型信息往往也是较为残缺的，需要不对进行更新与补充。实体类型分类旨在从自由文本中提取特征并用来分析出一个给定实体的具体类型。在当前的研究中，粗粒度的实体类型分类是较为容易的，但是对于找到细粒度的实体类型而言，亦然是一个极具挑战性的工作。在当前深度神经网络是解决细粒度实体类型分类的一个主流方法。

由于大规模标注训练数据来训练模型的方式代价及其高昂，因而当前的细粒度实体类型分类均采用了远程监管算法来自动构建训练数据。这种对于远程监督的过度依赖带来了诸多问题。在远程监督中，一个句子中出现的实体词组会被链接到知识图谱中对应的同名实体上，之后知识图谱中该实体的所有已标注类型均被认为是当前句子的标注结果。换言之，这些标注都是全局性质的标注，没有考虑到具体每个句子的特殊语义，因而在多数时候引入了噪音。另一方面，细粒度实体类型分类的任务需要的也是一个能考虑具体上下文进行预测的模型。例如，“华盛顿”的类型可以是总统也可以是将军，但在语句“大陆军统帅华盛顿”中，我们应当预测出将军类型而非总统类型。但在实际的远程监督中，将军和总统都会被视作该句子的预测标注。

现有技术中，对知识图谱中实体的标注没有对实体在每一个句子中的具体语义进行考虑，使得对实体标注过程中存在噪音，标注结果不够精确。

发明内容

本发明实施例提供一种知识图谱中实体类型分类方法及系统，用以解决现有技术中对知识图谱中实体的标注没有对实体在每一个句子中的具体语义进行考虑，使得对实体标注过程中存在噪音，标注结果不够精确的问题。

第一方面，本发明实施例提供一种知识图谱中实体类型分类方法，包括：

根据知识图谱中的目标实体在给定的句子中构成的向量特征，对所述目标实体进行分类，获得所述目标实体在属于不同类型的概率向量；

将所述概率向量输入到预设的语言模型中，通过所述语言模型对所述概率向量进行调整，获得所述目标实体的分类结果。

第二方面，本发明实施例提供一种知识图谱中实体类型分类系统，包括：

实体类型分类模块，用于根据知识图谱中的目标实体在给定的句子中构成的向量特征，对所述目标实体进行分类，获得所述目标实体在属于不同类型的概率向量；

语言模型强化模块，用于将所述概率向量输入到预设的语言模型中，通过所述语言模型对所述概率向量进行调整，获得所述目标实体的分类结果。

第三方面，本发明实施例提供一种电子设备，包括处理器、通信接口、存储器和总线，其中，处理器，通信接口，存储器通过总线完成相互间的通信，处理器可以调用存储器中的逻辑指令，以执行上述第一方面所提供的方法的步骤。

第四方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述第一方面所提供的方法的步骤。

本发明实施例提供的知识图谱中实体类型分类方法及系统，采用语言模型对知识图谱中的实体分类结果进行修正，可以降低远程监督给实体分类任务带来的噪音，从而提高了模型的稳定性，实体分类性能也能够得到极大提升，具有良好的实用性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的知识图谱中实体类型分类方法的流程示意图；

图2为本发明一实施例提供的知识图谱中实体类型分类系统的结构示意图；

图3为本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明一实施例提供的知识图谱中实体类型分类方法的流程示意图，如图1所示，所提供的方法包括：

S1，根据知识图谱中的目标实体在给定的句子中构成的向量特征，对所述目标实体进行分类，获得所述目标实体在属于不同类型的概率向量；

S2，将所述概率向量输入到预设的语言模型中，通过所述语言模型对所述概率向量进行调整，获得所述目标实体的分类结果。

具体的，对于知识图谱中的某一个实体，在给定的一个句子中包含这个实体，在具体实施中，通过将给定的句子语义编码成低维度向量特征，并通过这些特征识别出实体的类型，其中，一个实体可能有多种不同的类型，通过获得一个概率向量来标识这个实体属于每种类型的概率大小。在获得了目标实体在属于不同类型的概率向量后，将该向量作为预设的语言模型的输入，通过语言模型对概率向量进行修正，去除其中概率较低的实体类型，进而获得目标实体的最终分类结果。

通过此方法，采用语言模型对知识图谱中的实体分类结果进行修正，可以降低远程监督给实体分类任务带来的噪音，从而提高了模型的稳定性，实体分类性能也能够得到极大提升，具有良好的实用性。

在上述实施例的基础上，所述根据知识图谱中的目标实体在给定的句子中构成的向量特征，对所述目标实体进行分类，获得所述目标实体在属于不同类型的概率向量的步骤，具体包括：

获取所述给定的句子中所述目标实体的实体词组向量、所述文本内容向量和所述目标实体的人工特征向量；根据所述实体词组向量、所述文本内容向量和所述人工特征向量，通过预设的实体类型分类模型，对所述目标实体的类型进行分类，获得所述目标实体在属于不同类型的概率向量。

具体的，实体类型被定义为一个具体的集合T。给定一个句子中的实体词组e以及整个句子s＝{l₁,l₂,…,e,r₁,r₂,…}，其中l_i是实体词组在句子中左侧的单词，而r_i是实体词组在句子中右侧的单词。在进行实体分类的时候，需要得到一个来表示这个实体词组是每种类型的概率大小，具体形式如下：

y＝σ(W_y[v_M；v_C；v_F])

式中，σ()为激活函数，W_y为参数矩阵，通过训练获得，[；；]定义了是一个多个向量拼接的运算操作，V_M为目标实体的实体词组向量，V_C为文本内容向量，V_F为目标实体的人工特征向量。

在上述实施例的基础上，所述给定的句子中所述目标实体的实体词组向量的步骤，具体为：获取所述目标实体中每一个单词的词向量，根据所述每一个单词的词向量，获得所述目标实体中所有词向量的均值，将所述所有词向量的均值作为所述实体词组向量。

所述给定的句子中所述目标实体的实体词组向量的步骤，具体为：获取所述目标实体中每一个单词的词向量，根据所述每一个单词的词向量，获得所述目标实体中所有词向量的均值，将所述所有词向量的均值作为所述实体词组向量。

所述获取所述给定的句子中所述目标实体的人工特征向量的步骤具体包括：提取所述目标实体中的稀疏特征向量，对所述稀疏特征向量进行密集投影，获得所述人工特征向量。

具体的，对于给定的句子中的目标实体e，一个实体可能由若干个单词组成，例如The Great Wall中包含有3个单词，对于一个实体中的所有单词W₁，W₂…W_n，获取每一个单词的词向量，计算所有单词词向量的均值，获得实体的实体词组向量V_M。

对于给定的句子中实体词组e左右的文本内容，本实施例中，采用两个双向循环神经网络(Bi-LSTM)分别获取给定的句子中实体词组左边的文本内容特征和实体词组右边的文本的内容特征：

h₁，h₂…＝Bi-LSTM(l₁，l₂，…)

h′₁，h′₂…＝Bi-LSTM(r₁，r₂，…)

将将两个循环神经网络的输出向量通入一个自注意力层(self-attention)之后，将输出向量合并得到文本内容向量V_C。

提取人工特征向量的步骤具体问，从目标实体e中，提取稀疏特征向量f，些都是利用传统的NLP工具包进行提取，然后通过密集投影之后获得最终的人工特征向量：

V_F＝W_ff

式中，V_F为人工特征向量，W_F为投影矩阵，f为稀疏特征向量。

通过上述方式获得了实体词组向量、文本内容向量和人工特征向量后，通过激活函数σ()和参数矩阵W_y，进而获得表示实体词组是每种类型的概率大小y，之后，通过远程监督提供一个标注的实体类型概率分布y′∈{0，1}^|T|，式中，|T|是所有的类型总数。训练模型的损失函数J_type采用了交叉熵公式。

在上述实施例的基础上，所述将所述概率向量输入到预设的语言模型中的步骤之前，还包括：通过训练样本集对所述语音模型进行训练，获得所述预设的语言模型。

所述通过所述语言模型对所述概率向量进行调整，获得所述目标实体的分类结果的步骤，具体包括：为所述目标实体在属于不同类型的概率向量中，所述目标实体对应的每一个类型分配一个特征向量，获得加权和特征；将所述加权和特征替代所述目标实体输入到所述语言模型中，获得所述目标实体的分类结果。

具体的，语言模型强化模块的核心是一个预先训练的循环神经网络语言模型。语言模型将句子的单词序列{w₁,w₂,…,w_n}作为输入，在经过神经网络的计算之后得到这句话在人类语言中成立的概率。具体来说，在第1步，语言模型读入单词子序列{w₁,…,w_i}并且预测下一单词为w_i+1的概率。对于一个训练良好的语言模型来说，如果一个句子是正确的语法，那么它在语言模型中得到的概率是相对高的，反之则是相对低的。所以本实施例中，首先需要先训练一个语言模型，训练的语料就是训练集合，损失函数为：

J_pre＝LM({l₁,l₂,…,e,r₁,r₂,…})；

式中，LM()就是语言模型的损失函数，具体定义为输入序列的每个单词的逐步对数概率的累积，公式中l_n、e和r_n均表示单词的词向量。训练有素的语言模型能为更合理的句子给出更小的损失函数值。

语言模型训练完成后，将语言模型与之前的实体分类进行结合，具体来说，为每个类型分配一个具体的特征向量L_i，并将实体类型分类模块给出的类型分布概率用以计算一个加权和特征，这个特征将被用以替代实体词组的词向量e以便输入到语言模型中：

J_lm＝LM({l₁，l₂，...，h，r₁，r₂，...})

式中，L是所有类型的特征矩阵，J_lm是语言模型的损失函数，所以最终整体的语言模型强化模块加上实体类型分类模块的总训练函数为：

J_train＝J_type+λJ_lm，

其中，λ是两个模块结合的权重调整系数。

通过此方法，对知识图谱的分类模型和语言模型进行组合，通过联合训练，对于一个无法确定类型的实体，在将其每一种实体带入语言模型进行评估的方式，可以辅助排除类型候选里那些噪音部分，从而最终提升整体类型分类效果。

图2为本发明一实施例提供的知识图谱中实体类型分类系统的结构示意图，如图2所示，所提供的系统包括：实体类型分类模块21和语言模型强化模块22。

其中，实体类型分类模块21用于根据知识图谱中的目标实体在给定的句子中构成的向量特征，对所述目标实体进行分类，获得所述目标实体在属于不同类型的概率向量。

语言模型强化模块22用于将所述概率向量输入到预设的语言模型中，通过所述语言模型对所述概率向量进行调整，获得所述目标实体的分类结果。

需要说明的是，上述实体类型分类模块21语言模型强化模块22和配合以执行上述实施例中的知识图谱中实体类型分类方法，该系统的具体功能参见上述的知识图谱中实体类型分类方法的实施例，此处不再赘述。

图3为本发明一实施例提供的电子设备的结构示意图，如图3所示，所提供的设备包括：处理器(processor)301、通信接口(Communications Interface)302、存储器(memory)303和总线304，其中，处理器301，通信接口302，存储器303通过总线304完成相互间的通信。处理器301可以调用存储器303中的逻辑指令，以执行如下方法，例如包括：根据知识图谱中的目标实体在给定的句子中构成的向量特征，对所述目标实体进行分类，获得所述目标实体在属于不同类型的概率向量；将所述概率向量输入到预设的语言模型中，通过所述语言模型对所述概率向量进行调整，获得所述目标实体的分类结果。

本发明实施例公开一种计算机程序产品，计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：根据知识图谱中的目标实体在给定的句子中构成的向量特征，对所述目标实体进行分类，获得所述目标实体在属于不同类型的概率向量；将所述概率向量输入到预设的语言模型中，通过所述语言模型对所述概率向量进行调整，获得所述目标实体的分类结果。

本实施例提供一种非暂态计算机可读存储介质，非暂态计算机可读存储介质存储计算机指令，计算机指令使计算机执行上述各方法实施例所提供的方法，例如包括：根据知识图谱中的目标实体在给定的句子中构成的向量特征，对所述目标实体进行分类，获得所述目标实体在属于不同类型的概率向量；将所述概率向量输入到预设的语言模型中，通过所述语言模型对所述概率向量进行调整，获得所述目标实体的分类结果。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种知识图谱中实体类型分类方法，其特征在于，包括：

根据知识图谱中的目标实体在给定的句子中构成的向量特征，对所述目标实体进行分类，获得所述目标实体属于不同类型的概率向量；

2.根据权利要求1所述的方法，其特征在于，所述根据知识图谱中的目标实体在给定的句子中构成的向量特征，对所述目标实体进行分类，获得所述目标实体属于不同类型的概率向量的步骤，具体包括：

获取所述给定的句子中所述目标实体的实体词组向量、文本内容向量和所述目标实体的人工特征向量；

根据所述实体词组向量、文本内容向量和所述人工特征向量，通过预设的实体类型分类模型，对所述目标实体的类型进行分类，获得所述目标实体在属于不同类型的概率向量。

3.根据权利要求2所述的方法，其特征在于，所述给定的句子中所述目标实体的实体词组向量的步骤，具体为：

获取所述目标实体中每一个单词的词向量，根据所述每一个单词的词向量，获得所述目标实体中所有词向量的均值，将所述所有词向量的均值作为所述实体词组向量。

4.根据权利要求2所述的方法，其特征在于，所述给定的句子的文本内容向量的步骤具体包括：

获取所述给定的句子中目标实体左边和右边的文本内容，通过预设的双向循环神经网络，获得左边文本特征和右边文本特征；

将所述左边文本特征和所述右边文本特征输入到预设的自注意力层，将输出的向量进行合并，获得文本内容向量。

5.根据权利要求2所述的方法，其特征在于，所述获取所述给定的句子中所述目标实体的人工特征向量的步骤具体包括：

提取所述目标实体中的稀疏特征向量，对所述稀疏特征向量进行密集投影，获得所述人工特征向量。

6.根据权利要求1所述的方法，其特征在于，所述将所述概率向量输入到预设的语言模型中的步骤之前，还包括：

通过训练样本集对所述语言模型进行训练，获得所述预设的语言模型。

7.根据权利要求1所述的方法，其特征在于，所述通过所述语言模型对所述概率向量进行调整，获得所述目标实体的分类结果的步骤，具体包括：

为所述目标实体在属于不同类型的概率向量中，所述目标实体对应的每一个类型分配一个特征向量，获得加权和特征；

将所述加权和特征替代所述目标实体输入到所述语言模型中，获得所述目标实体的分类结果。

8.一种知识图谱中实体类型分类系统，其特征在于，包括：

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和总线，其中，处理器，通信接口，存储器通过总线完成相互间的通信，处理器可以调用存储器中的逻辑指令，以执行如权利要求1至7任一所述的知识图谱中实体类型分类方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一所述的知识图谱中实体类型分类方法。