CN106886543B

CN106886543B - 结合实体描述的知识图谱表示学习方法和系统

Info

Publication number: CN106886543B
Application number: CN201510947068.5A
Authority: CN
Inventors: 孙茂松; 谢若冰; 刘知远; 栾焕博; 刘奕群; 马少平
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2015-12-16
Filing date: 2015-12-16
Publication date: 2020-01-17
Anticipated expiration: 2035-12-16
Also published as: CN106886543A

Abstract

本发明提供了一种结合实体描述的知识图谱表示学习方法和系统，本发明中，提出基于连续词袋的模型以及基于卷积神经网络的模型两种模型构建实体基于描述的向量表示。不仅利用了实体之间的三元组关系信息，也利用了实体描述中蕴含的文本信息，使用模型学习得到的两种实体向量表示方式，能够在知识图谱补全以及实体分类等任务中得到更高的准确率；同时基于描述的向量表示通过文本信息构建实体向量，能够很好地对新实体或训练集中不存在的实体进行表示，具有良好的实用性。

Description

结合实体描述的知识图谱表示学习方法和系统

技术领域

本发明涉及自然语言处理以及知识图谱领域，尤其涉及一种结合实体描述的知识图谱表示学习方法和系统。

背景技术

随着社会飞速发展，我们已经进入信息爆炸时代，每天都会有海量新的实体与信息产生。互联网作为当今最为便捷的信息获取平台，用户对有效信息筛选与归纳的需求日益迫切，如何从海量数据中获取有价值的信息成为一个难题。知识图谱于此应运而生。

知识图谱将世上所有人物、地名、书名、球队名等专有名词与事物表示为实体，将实体之间的内在联系表示为关系，旨在将数据库中的海量知识表示为实体之间利用关系作为桥梁的三元关系组。例如，北京是中国的首都这一知识，在知识图谱中则利用三元组关系(北京，是……首都，中国)进行表示。知识图谱能够对一个关键词的不同语义建立不同的实体，消除语言多义性的干扰，同时能够展现目标实体与其它相关实体之间更深更广的内在联系，被广泛运用于数据挖掘、信息检索、问答系统等多个领域。由于现有实体规模巨大，且实体与关系每日都在变化与增加，难以人工维护与挖掘新的信息，对知识图谱的表示与自动补全是当今重要的研究热点。

知识图谱实体数量巨大，网络结构稀疏性严重。而近年来在知识图谱的研究上取得了显著的进展，表示学习运用于知识图谱中，将所有实体与关系映射到一个低维连续向量空间中，解决了之前知识图谱学习时产生的稀疏性与效率问题。但是，目前已有的知识图谱表示学习方法在训练时需要学习实体之间的关系，对于新出现的实体无法进行表示；同时，绝大多数已有的方法仅使用了知识图谱中实体之间的结构关系，而忽略了知识图谱中的实体文本描述等额外信息，知识图谱补全以及实体分类等任务中准确率比较低。

发明内容

本发明的一个目的在于解决如下技术问题：如何提供一种新的结合实体描述的知识图谱表示学习方法，高效准确地完成知识图谱的表示学习，以克服现有技术无法表示新的实体，以及未能充分利用实体描述信息的问题。

第一方面，本发明提供了一种结合实体描述的知识图谱表示学习方法，该方法包括：

步骤S1、以实体的文本描述为基础，建立模型一和/或模型二，基于建立的模型获取基于描述的向量表示；所述模型一为建立基于连续词袋的模型，所述模型二为建立基于卷积神经网络的模型；

步骤S2、根据实体向量与关系向量之间基于转化的模型，对步骤S1中得到的基于描述的向量表示进行学习得到实体的第一向量表示，并对基于结构的向量表示进行学习得到实体的第二向量表示；

步骤S3、使用步骤S2学习得到的实体的向量表示，在不同任务中获取向量空间中的表示结果。

进一步的，当建立的模型为模型一时，所述步骤S1具体包括：

步骤S11a，构建数据集和进行预处理；所述数据集包括知识图谱的实体关系三元组以及实体描述；所述三元组包括首实体的向量表示h，尾实体的向量表示t，关系的向量表示r；

步骤S12a，根据用户输入设置基于连续词袋的模型参数，并对实体描述中的词向量进行初始化；

步骤S13a，基于词袋模型的假设，利用文本特征从实体描述中抽取关键词；

步骤S14a，从关键词词向量构建实体基于描述的向量表示。

进一步的，当建立的模型为模型二时，步骤S1具体包括：

步骤S11b，构建数据集和进行预处理；所述数据集包括知识图谱的实体关系三元组以及实体描述；所述三元组包括首实体的向量表示h，尾实体的向量表示t，关系的向量表示r；

步骤S12b，根据用户输入设计卷积神经网络的整体结构，完成词向量的初始化；

步骤S13b，根据用户输入设置卷积层的结构与参数；

步骤S14b，根据用户输入设置池化层的结构与参数；

步骤S15b，利用前向传播过程建立实体基于描述的向量表示。

进一步的，当步骤S13b中用户输入的池化层的层数为2时，步骤S13b中得到的第一层池化层的输出公式为

第二层池化层的输出公式为

其中n表示最大值池化中不重叠的窗口大小，m表示平均值池化的元素个数，

表示第l层卷积层输出矩阵的第i个向量。

进一步的，所述步骤S2具体包括：

步骤S21，根据实体向量与关系向量之间基于转化的模型，构造能量方程；所述能量方程为E(h,r,t)＝||h_s+r-t_s||+||h_d+r-t_s||+||h_s+r-t_d||+||h_d+r-t_d||，其中h_s为首实体基于结构的向量表示，t_s为尾实体基于结构的向量表示，h_d为首实体基于描述的向量表示，t_d为尾实体基于描述的向量表示；

步骤S22、通过后向传播算法，最小化基于边际的评价函数，对所有参数进行学习与更新；其中，基于边际的评价函数

其中γ>0是超参数，d (h+r,t)是评价t和h+r相似度的函数；h′为首实体的负例的向量表示；t′为尾实体的负例的向量表示；r′尾实体的负例的向量表示；T是三元关系组的正例集，T′是三元关系组的负例集

第二方面，本发明提供了一种结合实体描述的知识图谱表示学习系统，该系统包括：

第一获取模块，用于以实体的文本描述为基础，建立模型一和/或模型二，基于建立的模型获取基于描述的向量表示；所述模型一为建立基于连续词袋的模型，所述模型二为建立基于卷积神经网络的模型；

第二获取模块，用于根据实体向量与关系向量之间基于转化的模型，对第一获取模块得到的基于描述的向量表示进行学习得到实体的第一向量表示，并对基于结构的向量表示进行学习得到实体的第二向量表示；

表示模块，用于使用第二获取模块学习得到的实体的向量表示，在不同任务中获取向量空间中的表示结果。

进一步的，当建立的模型为模型一时，所述第一获取模块，具体用于构建数据集和进行预处理；根据用户输入设置基于连续词袋的模型参数，并对实体描述中的词向量进行初始化；基于词袋模型的假设，利用文本特征从实体描述中抽取关键词；从关键词词向量构建实体基于描述的向量表示；其中，所述数据集包括知识图谱的实体关系三元组以及实体描述；所述三元组包括首实体的向量表示h，尾实体的向量表示t，关系的向量表示r。

进一步的，当建立的模型为模型二时，所述第一获取模块具体用于构建数据集和进行预处理；根据用户输入设计卷积神经网络的整体结构，完成词向量的初始化；根据用户输入设置卷积层的结构与参数；根据用户输入设置池化层的结构与参数；利用前向传播过程建立实体基于描述的向量表示；其中，所述三元组包括首实体的向量表示h，尾实体的向量表示t，关系的向量表示r。

进一步的，当用户输入的池化层的层数为2时，所述第一获取模块设置的第一层池化层的输出公式为

第二层池化层的输出公式为

表示第l层卷积层输出矩阵的第i个向量。

进一步的，所述第二获取模块，具体用于根据实体向量与关系向量之间基于转化的模型，构造能量方程；所述能量方程为E(h,r,t)＝||h_s+r-t_s||+||h_d+r-t_s||+||h_s+r-t_d|| +||h_d+r-t_d||；通过后向传播算法，最小化基于边际的评价函数，对所有参数进行学习与更新；其中，h_s为首实体基于结构的向量表示，t_s为尾实体基于结构的向量表示，h_d为首实体基于描述的向量表示，t_d为尾实体基于描述的向量表示；r为关系的向量表示；基于边际的评价函数为

其中γ>0是超参数，d(h+r,t)是评价t和h+r相似度的函数；h′为首实体的负例的向量表示；t′为尾实体的负例的向量表示；r′尾实体的负例的向量表示；T是三元关系组的正例集，T′是三元关系组的负例集。

本发明提供的方法和系统，提出基于连续词袋的模型以及基于卷积神经网络的模型两种模型构建实体基于描述的向量表示。不仅利用了实体之间的三元组关系信息，也利用了实体描述中蕴含的文本信息，使用模型学习得到的两种实体向量表示方式，能够在知识图谱补全以及实体分类等任务中得到更高的准确率；同时基于描述的向量表示通过文本信息构建实体向量，能够很好地对新实体或训练集中不存在的实体进行表示，具有良好的实用性。

附图说明

通过参考附图会更加清楚的理解本发明的特征信息和优点，附图是示意性的而不应理解为对本发明进行任何限制，在附图中：

图1示出了一个知识图谱中三元关系组及其实体描述的示例图；

图2示出了本发明的一个实施例提供的一种结合实体描述的知识图谱表示学习方法的流程示意图；

图3为示出了一种基于连续词袋模型的向量表示；

图4示出了一种基于卷积神经网络模型的向量表示；

图5输出了本发明的一个实施例提供的一种结合实体描述的知识图谱表示学习系统的结构示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

首先对本发明的基本思想以及其中涉及到的基本概念进行解释说明。

知识图谱表示学习方法旨在将所有实体与关系映射到一个低维连续向量空间中，使用向量对实体与关系进行表示，解决了知识图谱学习中产生的稀疏性问题。本发明提出的一种结合实体描述的知识图谱表示学习方法，能够充分利用实体的文本描述信息提升表示学习的效果，并且能够拓展至新实体上，具有良好的实用性。

图1给出了一个知识图谱中三元关系组及其实体描述的示例图。其中，“WilliamShakespeare”为首实体(为了方便说明，以下以h代表首实体)，“Romeo and Juliet”为尾实体(为了方便说明，以下以t代表首实体)，“book/author/works_written”为关系(为了方便说明，以下以r代表关系)，两个实体下面为其实体描述的节选。我们可以看到，在首实体的实体描述中，“English”、“poet”、“playwriter”等词都间接地给出了实体的信息，在尾实体的实体描述中，“William Shakespeare”、“tragedy”等词也能够对此三元组的关系预测提供文本层面的信息。从图1我们可以发现，从实体描述为基础建立基于描述的向量表示是可行且有益的，表示学习的结果在多个任务上均能取得优秀的结果。

基于此，本发明的第一方面提供了一种结合实体描述的知识图谱表示学习方法，参见图2，该方法包括：

本发明提供的方法中，提出基于连续词袋的模型以及基于卷积神经网络的模型两种模型构建实体基于描述的向量表示。不仅利用了实体之间的三元组关系信息，也利用了实体描述中蕴含的文本信息，使用模型学习得到的两种实体向量表示方式，能够在知识图谱补全以及实体分类等任务中得到更高的准确率；同时基于描述的向量表示通过文本信息构建实体向量，能够很好地对新实体或训练集中不存在的实体进行表示，具有良好的实用性。

在具体实施时，当建立的模型为模型一时，步骤S1可以具体包括图中未示出的：

步骤S11a，构建数据集和进行预处理；

具体来说，可以包括收集知识图谱的实体关系三元组以及实体描述，选择训练集、开发集和测试集；所述三元组包括首实体的向量表示h，尾实体的向量表示t，关系的向量表示r；

所述进行预处理包括对数据集中的实体描述去除停用词以及符号信息、统一转换大小写等，同时根据实体的名称，获取实体描述中的词组信息，将词组的处理等同于词；

步骤S14a，从关键词词向量构建实体基于描述的向量表示。

具体地，所述模型参数包括关键词的个数以及不同关键词的权值；所述实体描述中的词向量初始化可以具体是指使用已有词向量在大规模语料下的表示学习结果作为初始化值；所述文本特征包括词频和逆向文件频率。使用其它模型参数、初始化方法以及文本特征和预处理的简单变化不构成本质上的创新，也应理解为本发明要保护的范围。

所述基于描述的向量表示计算公式如下：

e_d＝x₁+x₂+…+x_k,

其中x_i表示实体第i个关键词的词向量，e_d表示实体的基于描述的向量表示。

综上所述，基于连续词袋的模型能够以实体描述作为输入，输出一个固定长度的向量，作为实体基于描述的向量表示。经上述的步骤S11a-步骤S14a得到的基于连续词袋模型的向量表示可以如图3所示。

在具体实施时，当建立的模型为模型二时，步骤S1可以具体包括图中未示出的：

步骤S11b，构建数据集和进行预处理；所述三元组包括首实体的向量表示h，尾实体的向量表示t，关系的向量表示r；

这里的步骤S11b可以同步骤S11a，在此不再详细说明；

步骤S13b，根据用户输入设置卷积层的结构与参数；

步骤S14b，根据用户输入设置池化层的结构与参数；

步骤S15b，利用前向传播过程建立实体基于描述的向量表示。

在具体实施时，这里的卷积神经网络的整体结构可以共有五层，以实体描述作为输入，输出一个固定维数的向量。与一般神经网络不同，卷积神经网络能够充分利用实体描述的词序信息，同时能够自动发现描述中包含重要信息的词组，并且能够处理变长的输入。

所述设计卷积层的结构与参数包括窗口过程以及卷积过程，其中窗口过程公式如下：

卷积层的输出公式如下：

其中表示第l层卷积层输出矩阵的第i个向量，x_i ^(l)表示第l层卷积层输入矩阵的第i个向量；x_i′是窗口过程的第i个输出向量，即输入向量x_i到x_i+k-1串联起来的向量，k是窗口的大小；W^(l)与分别是第l层卷积层的卷积核矩阵以及偏置向量，σ是激发函数，本发明使用tanh作为非线性函数。

所述池化层的结构与参数设计如下：为了减小参数空间，过滤掉噪声和冗余信息，第一层池化层使用最大值池化；为了是描述各部分都对向量表示产生影响，第二层池化层使用平均值池化。

第一层池化层的输出公式如下：

第二层池化层的输出公式如下：

其中，n表示最大值池化中不重叠的窗口大小，m表示平均值池化的元素个数。

综上所述，基于连续词袋的模型能够以实体描述作为输入，输出一个固定维数的向量，作为实体基于描述的向量表示，参与步骤S2中实体向量与关系向量之间基于转化的模型的学习。

实体向量与关系向量之间基于转化的模型是近年来知识图谱表示学习中的经典模型。在本发明模型中，每个实体均有两种向量表示：基于描述的向量表示以及基于结构的向量表示，基于结构的向量表示与已有基于转化的模型中的表示方法一致，直接使用向量表示实体，而基于描述的向量表示则由步骤S1中两个模型得到。

经上述的步骤S11b-步骤S14b得到的基于卷积网络模型的向量表示可以如图4所示。

在具体实施时，这里的步骤S2可以具体包括图中未示出的：

步骤S21、根据实体向量与关系向量之间基于转化的模型，构造能量方程；

步骤S22、通过后向传播算法，最小化基于边际的评价函数，对所有参数进行学习与更新。

其中步骤S21中的能量方程公式可以如下：

E(h,r,t)＝||h_s+r-t_s||+||h_d+r-t_s||+||h_s+r-t_d||+||h_d+r-t_d||

其中h_s为首实体基于结构的向量表示，t_s为尾实体基于结构的向量表示，h_d为首实体基于描述的向量表示，t_d为尾实体基于描述的向量表示，两种表示方法共用关系向量的表示r。

在步骤S22中，基于边际的评价函数如下：

其中γ>0是超参数，d(h+r,t)是评价t和h+r相似度的函数，可以使用L1范式或者L2范式；h′为首实体的负例的向量表示；t′为尾实体的负例的向量表示；T是三元关系组的正例集，T′是三元关系组的负例集，r′尾实体的负例的向量表示；具体定义可以如下：

T′＝{(h′,r,t)|h′∈E}∪{(h,r,t′)|t′∈E}∪{(h,r′,t)|r′∈R}

可见T′可以通过随机替换三元组中h，r或者t并去除替换后是正例的三元组后得到。评价函数中的实体向量可使用基于描述的向量表示或者基于结构的向量表示。所述后向传播算法使用标准随机梯度下降算法，根据链式法则对所有参数进行更新。

在具体实施时，上述的步骤S3中，根据任务的不同可以灵活选择不同的向量表示。比如针对需要表示的实体在训练集中出现过的情况，可以联合使用两种实体向量表示方式进行预测；针对需要表示的实体为新实体的情况，可以使用基于描述的向量表示进行预测。

第二方面，本发明还提供了一种结合实体描述的知识图谱表示学习系统，可用于实现第一方面所述的学习方法，参见图5，该系统包括：

第一获取模块51，用于以实体的文本描述为基础，建立模型一或/模型二，基于建立的模型获取基于描述的向量表示；所述模型一为建立基于连续词袋的模型，所述模型二为建立基于卷积神经网络的模型二；

第二获取模块52，用于根据实体向量与关系向量之间基于转化的模型，对第一获取模块得到的基于描述的向量表示进行学习得到实体的第一向量表示，并对基于结构的向量表示进行学习得到实体的第二向量表示；

表示模块53，用于使用第二获取模块学习得到的实体的向量表示，在不同任务中获取向量空间中的表示结果。

进一步的，当建立的模型为模型一时，第一获取模块51，具体用于构建数据集和进行预处理；根据用户输入设置基于连续词袋的模型参数，并对实体描述中的词向量进行初始化；基于词袋模型的假设，利用文本特征从实体描述中抽取关键词；从关键词词向量构建实体基于描述的向量表示；其中，所述数据集包括知识图谱的实体关系三元组以及实体描述；所述三元组包括首实体的向量表示h，尾实体的向量表示t，关系的向量表示r。

进一步的，当建立的模型为模型二时，第一获取模块51具体用于构建数据集和进行预处理；根据用户输入设计卷积神经网络的整体结构，完成词向量的初始化；根据用户输入设置卷积层的结构与参数；根据用户输入设置池化层的结构与参数；利用前向传播过程建立实体基于描述的向量表示；其中，所述三元组包括首实体的向量表示h，尾实体的向量表示t，关系的向量表示r。

进一步，当用户输入的池化层的层数为2时，所述第一获取模块设置的第一层池化层的输出公式为

第二层池化层的输出公式为其中n表示最大值池化中不重叠的窗口大小，m表示平均值池化的元素个数，表示第l层卷积层输出矩阵的第i个向量。

进一步的，第二获取模块52，具体用于根据实体向量与关系向量之间基于转化的模型，构造能量方程；所述能量方程为E(h,r,t)＝||h_s+r-t_s||+||h_d+r-t_s||+||h_s+r-t_d||+| |h_d+r-t_d||；通过后向传播算法，最小化基于边际的评价函数，对所有参数进行学习与更新；其中，h_s为首实体基于结构的向量表示，t_s为尾实体基于结构的向量表示，h_d为首实体基于描述的向量表示，t_d为尾实体基于描述的向量表示；r为关系的向量表示；基于边际的评价函数为

虽然结合附图描述了本发明的实施方式，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种结合实体描述的知识图谱表示学习方法，其特征在于，该方法包括：

步骤S3、使用步骤S2学习得到的实体的向量表示，在不同任务中获取向量空间中的表示结果；

当建立的模型为模型一时，所述步骤S1具体包括：

步骤S14a，从关键词词向量构建实体基于描述的向量表示；

其中，所述模型参数包括关键词的个数以及不同关键词的权值；所述实体描述中的词向量初始化具体是指使用已有词向量在大规模语料下的表示结果作为初始化值；所述文本特征包括词频和逆向文件频率。

2.如权利要求1所述的方法，其特征在于，当建立的模型为模型二时，步骤S1具体包括：

步骤S13b，根据用户输入设置卷积层的结构与参数；

步骤S14b，根据用户输入设置池化层的结构与参数；

步骤S15b，利用前向传播过程建立实体基于描述的向量表示。

3.如权利要求2所述的方法，其特征在于，当步骤S13b中用户输入的池化层的层数为2时，步骤S13b中得到的第一层池化层的输出公式为

第二层池化层的输出公式为其中n表示最大值池化中不重叠的窗口大小，m表示平均值池化的元素个数，

表示第l层卷积层输出矩阵的第i个向量。

4.如权利要求1或2所述的方法，其特征在于，所述步骤S2具体包括：

其中γ＞0是超参数，d(h+r,t)是评价t和h+r相似度的函数；h′为首实体的负例的向量表示；t′为尾实体的负例的向量表示；r′尾实体的负例的向量表示；T是三元关系组的正例集，T′是三元关系组的负例集。

5.一种结合实体描述的知识图谱表示学习系统，其特征在于，该系统包括：

表示模块，用于使用第二获取模块学习得到的实体的向量表示，在不同任务中获取向量空间中的表示结果；

当建立的模型为模型一时，所述第一获取模块，具体用于构建数据集和进行预处理；根据用户输入设置基于连续词袋的模型参数，并对实体描述中的词向量进行初始化；基于词袋模型的假设，利用文本特征从实体描述中抽取关键词；从关键词词向量构建实体基于描述的向量表示；其中，所述数据集包括知识图谱的实体关系三元组以及实体描述；所述三元组包括首实体的向量表示h，尾实体的向量表示t，关系的向量表示r；其中，所述模型参数包括关键词的个数以及不同关键词的权值；所述实体描述中的词向量初始化具体是指使用已有词向量在大规模语料下的表示结果作为初始化值；所述文本特征包括词频和逆向文件频率。

6.如权利要求5所述的系统，其特征在于，当建立的模型为模型二时，所述第一获取模块具体用于构建数据集和进行预处理；根据用户输入设计卷积神经网络的整体结构，完成词向量的初始化；根据用户输入设置卷积层的结构与参数；根据用户输入设置池化层的结构与参数；利用前向传播过程建立实体基于描述的向量表示；其中，所述三元组包括首实体的向量表示h，尾实体的向量表示t，关系的向量表示r。

7.如权利要求6所述的系统，其特征在于，当用户输入的池化层的层数为2时，所述第一获取模块设置的第一层池化层的输出公式为

第二层池化层的输出公式为

表示第l层卷积层输出矩阵的第i个向量。

8.如权利要求5或6所述的系统，其特征在于，所述第二获取模块，具体用于根据实体向量与关系向量之间基于转化的模型，构造能量方程；所述能量方程为E(h,r,t)＝||h_s+r-t_s||+||h_d+r-t_s||+||h_s+r-t_d||+||h_d+r-t_d||；通过后向传播算法，最小化基于边际的评价函数，对所有参数进行学习与更新；其中，h_s为首实体基于结构的向量表示，t_s为尾实体基于结构的向量表示，h_d为首实体基于描述的向量表示，t_d为尾实体基于描述的向量表示；r为关系的向量表示；基于边际的评价函数为