CN111008186A

CN111008186A - 一种藏文知识库的表示方法

Info

Publication number: CN111008186A
Application number: CN201910502622.7A
Authority: CN
Inventors: 孙媛; 夏天赐
Original assignee: Minzu University of China
Current assignee: Minzu University of China
Priority date: 2019-06-11
Filing date: 2019-06-11
Publication date: 2020-04-14

Abstract

本发明涉及一种藏文知识库的表示方法，该方法包括以下步骤：通过卷积神经网络学习知识库中实体的描述性表示，再利用TransE算法学习知识库中实体的结构性表示，最后将两种表示进行融合训练，得到知识库的最终表示。本发明能够在尽可能抽取高质量的文本信息的同时，减少模型复杂度与需要训练的参数量，最终建立更好的实体基于描述的知识表示。

Description

一种藏文知识库的表示方法

技术领域

本发明涉及知识库的表示技术，尤其涉及一种藏文知识库的表示方法。

背景技术

知识库是推动人工智能学科发展和支撑智能信息服务应用(如智能搜索、智能问答、个性化服推荐等)的重要基础技术。为了改进信息服务质量，国内外互联网公司(特别是搜索引擎公司)纷纷推出知识库产品，如谷歌知识图谱、微软 Bing Satori、百度知心以及搜狗知立方等。

知识库的研究目标是从无结构或半结构的互联网信息中自动抽取结构化知识。有了知识库的支撑，当我们搜索“中国的人口”、“法国的首都”时，谷歌、百度可以直接给出答案，并给出相关的知识链接。知识表示通过将实体或关系投影到低维向量空间，实现对实体和关系的语义信息表示，进而高效地计算实体、关系及其之间的复杂语义关联。

由于中英文的知识库信息较为丰富，比如Freebase包含了数亿的三元组，通过传统的网络表示学习(TransE、TransH等方法)对其进行表示学习会得到每个实体的丰富信息特征。而藏文知识库数据稀疏，单纯使用网络学习表示方法无法很好的表达出每个实体的语义特征。因此，如何进行藏文知识库的表示学习，对藏文信息处理研究具有重要意义。

发明内容

本发明的目的在于，针对藏文知识库数据稀疏，无法充分对知识库进行表示学习的问题，利用已有的藏文知识库和藏文百科文本，通过卷积神经网络学习知识库中实体的描述性表示，再利用TransE算法学习知识库中实体的结构性表示，最后将两种表示进行融合训练，得到知识库的最终表示。

为实现上述目的，本发明提供了一种藏文知识库的表示方法，该方法包括以下步骤：

描述性表示，利用卷积神经网络对实体描述信息进行建模，联合藏文百科知识和知识库知识共同训练，得到实体的共现矩阵；

结构性表示，利用TransE算法对实体内部进行学习建模；

融合表示学习，将描述性表示和结构性表示映射到同一向量空间中，使用改进的能量函数，在训练中采用平移模型的学习框架，利用最大间隔方法，定义评分函数对模型进行优化，得到藏文知识库的最终表示。

本发明能够在尽可能抽取高质量的文本信息的同时，减少模型复杂度与需要训练的参数量，最终建立更好的实体基于描述的知识表示。

附图说明

图1为一种藏文知识库的表示方法流程示意图；

图2为一种藏文知识库的表示方法整体框架；

图3为一种藏文知识库的表示方法描述性表示。

具体实施例

图1为一种藏文知识库的表示方法流程示意图。如图1所示，该方法包括步骤S101-S103:

步骤S101,描述性表示，利用卷积神经网络对实体描述信息进行建模，联合藏文百科知识和知识库知识共同训练，得到实体的共现矩阵；

具体地，卷积层是卷积神经网络的核心操作,由于在融合实体描述的知识表示任务中，处理对象是文本序列，使用一组长度为的一维卷积核。形式化地，使用X^(l)表示第l层输入序列的矩阵，Z^(l)表示第l层输出矩阵。其中，实体经过预处理后的描述序列X＝{x₁,x₂,L,x_n}即为第一层卷积层的输入。

卷积层主要有两步操作。首先，卷积层将会进行窗口操作。对于第l层的输入序列

我们有以下窗口操作，如下式所示。

其中，

是窗口操作后得到矩阵的第i个向量，k是窗口大小，与输入维数结合决定了此层卷积核的大小。

在窗口操作后，卷积层将会联合卷积核得到输出结果。设

我们有：

其中，

表示第l层第i个输出向量，W^(l)表示第l层的卷积核，

表示第l 层的偏置矩阵。σ表示非线性函数，通常可以使用tanh函数或者ReLU函数。

池化层：我们针对文本描述编码的特定任务，在两个池化层设置了不同的池化策略。这是因为文本描述通常包括多个句子，我们认为卷积层对于每个句子内部有的局部信息抽取特征时，可能会有一定的冗余和噪声，所以在第一个池化层进行最大池化操作，仅适用局部特征最强烈的值作为整个局部的代表，得到输出矩阵

在第二个池化层，我们认为描述中的每个句子有应该对最后的知识表示产生影响，所以适用平均池化的策略综合考虑所有的局部信息，得到共现矩阵

这种不同的池化策略设置，使得卷积神经网络模型能够在尽可能抽取高质量的文本信息的同时，减少模型复杂度与需要训练的参数量，最终建立更好的实体基于描述的知识表示。

步骤S102,结构性表示，利用TransE算法对实体内部进行学习建模；

具体地，藏文知识库结构的表示使用TransE进行表示学习。给定一个三元组fact＝(h,r,t)，TransE模型将关系表示为翻译向量r，以较低的错误把实体的向量h,t链接起来，即

h+r＝t

打分函数定义为h+r与t之间的距离：

f_r(h,t)＝-||h+r-t||_1/2

如果(h,r,t)真实存在，那么函数f_r的值就比较高。

步骤S103,融合表示学习，将描述性表示和结构性表示映射到同一向量空间中，使用改进的能量函数，在训练中采用平移模型的学习框架，利用最大间隔方法，定义评分函数对模型进行优化，得到藏文知识库的最终表示。

具体地，融合表示学习模型沿用了平移模型的假设，即认为三元组内的实体与关系向量之间应该具有的关系。更形式化地表示，融合表示学习模型的定义了如下能量函数。

E(h,r,t)＝a₁||h_S+r-t_S||+a₂||h_S+r-t_D||+a₃||h_D+r-t_S||+a₄||h_D+r-t_D||

其中，a₁,a₂,a₃，a₄是控制各项权值的超参数。在能量函数中，||h_S+r-t_S||部分与平移模型中定义的能量函数类似，而||h_D+r-t_D||，||h_D+r-t_S||，||h_D+r-t_D||三项则是基于描述的实体向量。通过这样混合项的软限制，融合表示学习模型可以很自然地将实体的两种向量映射到了同一语义空间中，并可以共享相同的关系向量。

融合表示学习模型使用基于改进的能量函数，在训练中也参考了平移模型的学习框架。使用了最大间隔方法，定义了评分函数对模型进行优化，如下所示。

其中，(h'，r'，t')是负例三元组，γ是表示正负例三元组得分的间隔距离的超参数。与平移模型所不同的是，这里的三元组得分的能量函数E(h，r，t)包括了两种实体向量表示的四种组合项。最大间隔方法就是确定正例三元组的能量函数得分比负例三元组的能量函数得分至少小γ。T'是负例三元组的集合，由于知识图谱中没有显式的负例三元组，对于给定的正例三元组(h，r，t)，我们设置负例三元组的集合如下式所示。

T'＝{(h'，r，t)|h'∈E}∪{(h，r，t')|t'∈E}∪{(h，r'，t)|r'∈R}，(h，r，t)∈T

上式表示所有负例三元组均由正例三元组中任一实体(或关系)随机替换成另外的实体(或者关系)产生。同时为了降低负例三元组的选取随机性，本发明在负例生成时加上了以下限制条件，如下式所示。

这种方式不仅避免随机替换后生成的负例三元组中存在真正的正例，同时也大大降低了负例三元组的随机性，使得训练模型具有更强的泛化能力。

本发明实施例在藏文知识库数据稀疏的情况下，利用卷积神经网络对实体描述信息进行建模，联合藏文百科知识和知识库知识共同训练，得到实体的共现矩阵。另外，为了更好的对知识库表示进行学习，本发明实施例对实体结构性表示和描述性表示进行联合训练，使用改进的能量函数，在训练中采用平移模型的学习框架，利用最大间隔方法，定义了评分函数对模型进行优化，得到知识库的最终表示。

Claims

1.一种藏文知识库的表示方法，其特征在于，包括以下步骤：

结构性表示，利用TransE算法对实体内部进行学习建模；

2.根据权利要求1所述的方法，其特征在于，卷积神经网络中的卷积层使用一组长度为一维的卷积核，使用X^(l)表示第l层输入序列的矩阵，Z^(l)表示第l层输出矩阵；其中，实体经过预处理后的描述序列X＝{x₁,x₂,L,x_n}即为第一层卷积层的输入。

3.根据权利要求1所述的方法，其特征在于，卷积层包括执行两步操作：首先，卷积层将会进行窗口操作，对于第l层的输入序列

有以下窗口操作，如下式所示。

其中，

是窗口操作后得到矩阵的第i个向量，k是窗口大小，与输入维数结合决定了此层卷积核的大小；

在窗口操作后，卷积层将会联合卷积核得到输出结果；

设

其中，

表示第l层第i个输出向量，W^(l)表示第l层的卷积核，

表示第l层的偏置矩阵；σ表示非线性函数，通常可以使用tanh函数或者ReLU函数。

4.根据权利要求1所述的方法，其特征在于，在卷积神经网络的两个池化层设置了不同的池化策略：在第一个池化层进行最大池化操作，仅适用局部特征最强烈的值作为整个局部的代表，得到输出矩阵

在第二个池化层，适用平均池化的策略综合考虑所有的局部信息，得到共现矩阵

5.根据权利要求1所述的方法，其特征在于，结构性表示步骤包括：给定一个三元组fact＝(h,r,t)，TransE模型将关系表示为翻译向量r，以较低的错误把实体的向量h,t链接起来，即

h+r＝t

打分函数定义为h+r与t之间的距离：

f_r(h,t)＝-||h+r-t||_1/2

如果(h，r，t)真实存在，那么函数f_r的值就比较高。

6.根据权利要求1所述的方法，其特征在于，融合表示学习模型的定义了如下能量函数：

E(h，r，t)＝a₁||h_S+r-t_S||+a₂||h_S+r-t_D||+a₃||h_D+r-t_S||+a₄||h_D+r-t_D||

其中，a₁，a₂，a₃,a₄是控制各项权值的超参数，在能量函数中，||h_S+r-t_S||部分与平移模型中定义的能量函数类似，而||h_D+r-t_D||，||h_D+r-t_S||，||h_D+r-t_D||三项则是基于描述的实体向量；通过这样混合项的软限制，融合表示学习模型可以很自然地将实体的两种向量映射到了同一语义空间中，并可以共享相同的关系向量。

7.根据权利要求1或6所述的方法，其特征在于，最大间隔方法，定义了评分函数对模型进行优化，如下所示。

其中，(h'，r'，t')是负例三元组，γ是表示正负例三元组得分的间隔距离的超参数；与平移模型所不同的是，这里的三元组得分的能量函数E(h，r,t)包括了两种实体向量表示的四种组合项；最大间隔方法就是确定正例三元组的能量函数得分比负例三元组的能量函数得分至少小γ，T'是负例三元组的集合，由于知识图谱中没有显式的负例三元组，对于给定的正例三元组(h,r,t)，设置负例三元组的集合。

8.根据权利要求7所述的方法，其特征在于，在负例生成时加上了以下限制条件，如下式所示：