CN110378489B

CN110378489B - 基于实体超平面投影的知识表示学习模型

Info

Publication number: CN110378489B
Application number: CN201910695772.4A
Authority: CN
Inventors: 王念滨; 秦帅; 张耘; 张毅; 王红滨; 周连科
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2019-07-30
Filing date: 2019-07-30
Publication date: 2022-10-25
Anticipated expiration: 2039-07-30
Also published as: CN110378489A

Abstract

基于实体超平面投影的知识表示学习模型，本发明涉及知识表示学习模型。本发明的目的是为了解决现有现有的知识表示学习模型大部分都只关注知识图谱的结构化信息，仅仅利用知识三元组来学习实体以及关系的表示，却忽略了实体的文本描述中可能蕴含的一些有用信息，导致处理任务时准确率低的问题。过程为：步骤一、将实体的描述文本处理成矩阵形式；步骤二、将步骤一得到的矩阵形式的文本输入到卷积神经网络中，得到实体描述文本的特征向量；步骤三、利用步骤二得到的特征向量建立EHP模型，得到实体以及关系的最终向量表示。本发明用于自然语言处理领域。

Description

基于实体超平面投影的知识表示学习模型

技术领域

本发明涉及知识表示学习模型。

背景技术

早期的知识表示学习模型有结构表示模型SE(Bordes et al.2011)、矩阵分解模型RESACL(Nickel et al.2011)等。这些模型复杂度高、计算效率低，因此未能够广泛大规模使用。直到出现了了简单高效的翻译模型TransE(Bordes et al.2013)，将关系表示向量r看作头实体表示向量h到尾实体表示向量t的翻译，即满足h+r≈t。TransE模型在处理1-1关系时表现良好，但在处理1-N，N-1，N-N复杂关系时有很大的局限性。为此，TransH(Wanget al.2014b)模型首先将头实体向量和尾实体向量沿法线w_r投影到关系r对应的超平面上，然后再进行翻译。TransR(Lin et al.2015)模型则认为不同的关系拥有不同的语义空间，对每个三元组，首先应将实体投影到对应的关系空间中，然后再建立从头实体到尾实体的翻译关系。TransD(Ji et al.2015)模型则是在TransR模型的基础上将头尾实体分别投影到不同的语义空间中。之后的TransA(Xiao et al.2015)、TransG(Xiao,Huang,and Zhu2016b)、KG2E(He et al.2015)等都是基于TransE模型针对复杂关系问题提出的一些改进方法。在知识图谱中，多步的关系路径也能够反映实体之间的语义关系，为了突破TransE等模型孤立学习每个三元组的局限性，Lin等人提出考虑关系路径的表示学习方法，以TransE作为扩展基础，提出PTransE(Lin et al.2015a)模型。

除了上述的模型之外，还有一些模型结合文本信息以建立更好的知识表示。NTN(Socher et al.2013)用实体名称中所有单词向量的平均值来表示该实体，可以重复利用单词向量构建实体表示，缓解实体表示学习的稀疏性问题，增强不同实体的语义联系。(Wang et al.2014a)利用Word2vec学习维基百科正文中的词表示，通TransE学习知识表示，然后让词表示和知识表示尽可能接近从而实现文本与知识图谱结合的知识表示学习。“Jointly”(Zhong et al.2015)则是让实体表示与实体描述文本表示尽可能地对齐来利用文本信息。DKRL(Xie et al.2016)则是对实体建立两种表示，基于结构的表示和基于描述信息的表示，基于结构的表示只考虑事实三元组，最终结果跟TransE学习结果类似，而基于实体描述的表示则结合两种数据源，DKRL构建了两种文本编码器，并且通过事实三元组信息影响编码器的参数更新使得编码器更加适应于知识表示学习任务。

发明内容

本发明的目的是为了解决现有现有的知识表示学习模型大部分都只关注知识图谱的结构化信息，仅仅利用知识三元组来学习实体以及关系的表示，却忽略了实体的文本描述中可能蕴含的一些有用信息，导致处理任务时准确率低的问题，而提出基于实体超平面投影的知识表示学习模型。

基于实体超平面投影的知识表示学习模型具体是按照以下步骤进行的：

步骤一、将实体(头实体、尾实体)的描述文本处理成适合卷积神经网络的矩阵形式，称之为文本矩阵生成步骤；

步骤二、将步骤一得到的矩阵形式的文本输入到卷积神经网络(起到文本编码器的作用)中，得到实体描述文本的特征向量；

步骤三、利用步骤二得到的特征向量建立EHP模型，得到实体以及关系的最终向量表示。

本发明的有益效果为：

本发明提出了知识表示学习模型EHP，它可以从事实三元组和实体描述中共同学习知识表示。EHP模型将同一个三元组中的两个实体投影到与文本描述相对应的语义超平面上，对知识的嵌入过程进行二次约束。建立了知识图谱结构化信息以及文本描述信息两个数据源之间的强相关性，以获得更精确的知识表示。实验表明，本发明方法在两个任务上相对于其他基线模型都取得了实质性的提高，提高了处理任务时的准确率。

附图说明

图1为本发明流程图；

图2为本发明事实三元组的头尾实体的描述文本示意图。

具体实施方式

具体实施方式一：本实施方式基于实体超平面投影的知识表示学习模型具体过程为：

知识图谱提供了有效的结构化知识信息，并且成为web搜索、问答系统、语义分析等智能应用的基础。在一个典型的知识图谱中，通常将知识描述为多元关系数据并且表示成事实三元组(head entity,relation,tail entity)的形式,知识三元组代表了两个实体以及它们之间的关系，也通常用(h,r,t)来简单表示。

针对不同的知识图谱，人们需要设计专门的图算法来存储和利用知识图谱。随着知识的不断增加，传统的基于网络形式的知识表示存在着大量问题，计算效率问题，数据稀疏问题等等，因此知识表示学习应运而生。知识表示学习旨在将知识的语义信息表示为稠密实值低维向量，从而为知识图谱提供一个合理的数学计算框架，大大促进知识的获取和推理，在相似度计算、知识图谱补全、自动问答等任务中都能发挥很大作用。大部分现有的知识表示学习模型，例如：经典的翻译模型TransE(Bordes et al.2013)，TransH模型(Wanget al.2014b)以及TransR模型(Lin et al.2015b)，PTransE模型(Lin et al.2015a)等等都只关注知识图谱结构化的事实三元组信息，然而知识库中维护的实体描述信息往往蕴含了与知识相关的丰富语义信息。如图2所示，事实三元组(Franz Joseph Haydn，teacher，Beethoven)的头尾实体的描述文本中可能有许多跟知识相关的额外信息。.

为了利用实体描述信息辅助建立更好的知识表示，本发明提出了实体超平面投影(entity hyperplane projection，EHP)模型。在EHP模型中，对于每个三元组(h,r,t)首先要满足TransE模型的假设，将关系表示向量r看作头实体表示向量h到尾实体表示向量t的翻译，即满足h+r≈t。在此基础上，利用文本描述信息对知识表示向量进行二次约束，将头尾实体表示向量投影到头尾实体描述信息所在的语义超平面上，也就在满足平移假设的基础上还存在同属于一个三元组的两个实体被嵌入到同一个语义超平面上的重要限制。通过投影建立事实三元组和文本描述信息两个信息源之间的强相关性，从而得到更加准确合理的知识表示。例如(弗朗茨·约瑟夫·海顿，老师，贝多芬)这个三元组隐含了海顿是贝多芬的老师这样的知识，然而仅仅通过结构化三元组信息得到的知识向量表示很难推断出这个三元组是否成立，也就是说三元组的损失向量l_h+l_r-l_t的模并不是有效的小，然而通过投影之后损失向量的模足够小，从而可以推断出上述事实三元组。

现存的一些结合文本信息的知识表示学习模型已经取得了一些成果，例如“Jointly”模型(Zhong et al.2015)，DKRL模型(Xie et al.2016)。然而之前的一些方法针对两种数据源之间的关联性较弱，而本文提出的EHP模型通过投影使得两种数据源有较强的相关性。值得提出的是，知识嵌入过程应该以事实三元组信息为主，文本描述信息应该为辅促进建立更好的知识表示，这样文本描述所蕴含的语义信息才更有意义，而EHP模型很好地执行了这个思想。

在两个任务上评估EHP模型地效果，包括知识图谱补全任务以及实体分类任务。实验显示EHP模型在两个任务上都比基线模型表现得更加优秀。

首先介绍一下论文中用到的符号系统。E，R,T分别代表实体集合，关系集合以及三元组集合。给定一个三元组(h,r,t)∈T，其中h,t∈E代表了头实体和尾实体，r∈R代表了两个实体之间的关系。用h_s和t_s分别代表头尾实体的表示向量，r代表关系的表示向量，然后用h_d和t_d分别代表由头尾实体文本描述通过编码器生成的语义向量。K代表了知识表示向量的维度。

具体实施方式二：本实施方式与具体实施方式一不同的是，所述步骤一中将实体的描述文本处理成适合卷积神经网络的矩阵形式，称之为文本矩阵生成步骤；具体过程为：

步骤一一、对实体(头实体、尾实体)的描述文本进行预处理：

1)根据停用词词表去除文本中的停用词；

2)对去除停用词后的文本统一英文大小写字符；

3)针对实体的描述文本中的实体名称将实体名称看作一个“词”而不进行拆分，例如中国李宁这个实体名称，将其看作一个整体而不是拆分成中国和李宁两个词；

经过预处理后的文本被处理成有语序的多个词语的集合，预处理后的文本形式化的可表示为X＝{x₁,…,x_i,…,x_n}，其中x_i代表文本预处理后的第i个词；

步骤一二、分别将步骤一一得到的预处理后的文本中的每一个词输入到word2vec模型，得到文本中的每一个词的词向量表示，基于词向量得到文本矩阵；

其中矩阵每一行是一个词的表示向量，假设一段文本预处理后有n个词，词表示向量维度d，那最终就生成了n×d的文本矩阵。

其它步骤及参数与具体实施方式一相同。

具体实施方式三：本实施方式与具体实施方式一或二不同的是，所述步骤二中将步骤一得到的矩阵形式的文本输入到卷积神经网络(起到文本编码器的作用)中，得到实体描述文本的特征向量；具体过程为：

文本编码器：文本编码器负责生成文本描述的向量表示，以实体描述文本为输入，输出文本的向量表示。现有的文本表示模型有很多，例如：LSA,LDA,NMF(Stevens etal.2012)都属于topic model(Blei 2012)，认为文本包含特定的一个或者多个主题，根据主题生成文本的向量表示。此外，还有词嵌入模型，如CBOW(Mikolov,Yih,and Zweig2013)，Skip-Gram(Mikolov et al.2013)等，将文本看作一个个单词的组合，通过词表示向量操作得到文本的向量表示。

为了使得文本编码器更加适应于知识表示学习任务，本文选择使用DKRL(Xie etal.2016)中提出的一种基于卷积神经网络(Convolutional neural network，CNN)的编码器。下面，简单介绍一下CNN编码器的结构、思想以及一些预处理问题，有关编码器的具体细节可以参考DKRL(Xie et al.2016)。

预处理和词表示：在文本预处理时，首先根据停用词词表去除文本中的停用词，并且统一英文大小写字符。然后，针对实体描述文本中的实体名称将其看作一个“词”而不进行拆分，例如中国李宁这个实体名称，将其看作一个整体而不是拆分成中国和李宁两个词。至于词向量则是通过word2vec(Mikolov et al.2013)在大规模语料库(如维基百科)上训练得到。

整体结构：CNN编码器一共有5层，在预处理后输入文本描述，输出文本的向量表示。其中包括两层卷积层和两层池化层，卷积层使用的是一组长度为d的一维卷积核，d是文本序列长度。第一个池化层采用最大池化策略而第二个池化层采用平均池化策略。在网络顶层通过TransE模型思想反向传播更新网络参数，也就是使得头实体描述文本生成的向量，尾实体描述文本生成的向量与关系向量之间满足翻译假设。

本文选择DKRL(Xie et al.2016)中提出的CNN编码器，使得编码器更加针对知识表示学习任务生成表示向量。通过编码器预训练生成需要实体描述的文本表示向量，为模型的后续工作做好准备。

模型训练：训练时的具体目标函数包含两个部分，分别是模型的能量函数部分以及控制超平面法向量部分，如下：

第一部分是针对模型的能量函数使用最大间隔法进行训练，最大化正例三元组和负例三元组之间的得分，γ是超参数，最大间隔法希望正例三元组能量函数得分比负例三元组能量函数得分至少小γ。[·]+＝max(·,0)代表了当[]₊内的数值大于0的时候保持不变，小于0的时候取0。T是正例三元组集合，在介绍符号系统时已经说明过了。而T’是负例三元组集合，如下：

T′＝{(h′,r,t)|h′∈E}∪{(h,r,t′)|t′∈E}∪{(h,r′,t)|r′∈R}

第二部分控制w成为语义超平面的法向量，使得w与头实体描述文本向量h_d和尾实体描述文本向量t_d都正交。

模型初始化：在实体表示向量和关系表示向量随机初始化，而头尾实体描述文本通过编码器得到的向量表示通过预训练得到，之后保持不变。文本描述中的词向量通过word2vec在大规模语料库(如维基百科)上训练得到。模型使用Mini-batch随机梯度下降(stochastic gradient descent，SGD)优化算法进行训练，使用链式法则对参数以及向量进行更新。

卷积神经网络设置为6层拓扑结构，卷积神经网络的网络结构包括1层输入层、第一层卷积层、第一层池化层、第二层卷积层、第二层池化层、1层输出层；

1)卷积层设置：使用一组长度为k的一维卷积层，k是文本的长度也就是单词数，实体经过预处理后的文本序列X＝{x₁,…,x_n}即为第一层卷积层的输入，某一层的窗口大小与输入维数决定了本层卷积核的大小，由于输入序列是变长的，所以采用补零的方法在序列后面补上全零向量，非线性函数使用ReLU函数；

2)池化层设置：第一层池化层采用m-最大池化策略，第二层池化层采用平均池化策略；

3)通过最小化目标函数

反向传播更新卷积神经网络参数；

其中，f_r(h,t)为正例三元组得分，

(输出层输出结果)，h是头实体的描述文本通过卷积网络生成的特征向量，r是关系向量，t是尾实体的描述文本通过卷积网络生成的特征向量，f_r'(h',t')是负例三元组得分；h'是数据集中不同于h的实体的描述文本，t'是数据集中不同于t的实体的描述文本，r'是数据集中不同于r的实体的描述文本(每次训练h'、t'、r'只替换一个)；T为正例三元组集合，T'为负例三元组集合；

输出层输出实体描述文本的特征向量。

其它步骤及参数与具体实施方式一或二相同。

具体实施方式四：本实施方式与具体实施方式一至三之一不同的是，所述步骤三中利用步骤二得到的特征向量建立EHP模型，得到实体以及关系的最终向量表示；具体过程为：

模型描述：

根据之前在介绍中的分析，为了同时利用知识图谱的结构化三元组信息和实体的文本描述信息，使得知识表示的嵌入过程在主要受到事实三元组影响，满足TransE假设的同时，还要受到文本描述信息的约束限制。EHP模型的能量函数定义如下：

其中λ₁和λ₂是合适的超参数，用来平衡能量函数中的三个部分。w是要将实体投影到的语义超平面的法向量，在训练时通过使其与h_d和t_d同时正交得到。而h_d和t_d分别是由头实体描述文本和尾实体描述文本通过编码器生成的语义向量，通过预训练得到，具体用到的编码器结构会在下节进行介绍。

损失函数中

和

两个部分分别是头尾实体的投影部分。根据动机，要将头尾实体投影到同一个语义超平面上，也就是要最大化

和

两个部分，以头实体投影部分为例，具体来说，(w^Th_sw)部分是垂直于超平面的组件，而(h_s-w^Th_sw)是超平面内的组件，尾实体投影部分类似。这样，同属于一个三元组的两个实体经过投影后被限制在基于文本描述信息的同一个语义超平面上。

模型首先充分利用事实三元组，使得知识表示向量满足翻译算法的假设限制，也就是将关系表示向量看作头实体表示向量到尾实体表示向量的翻译。同时模型借助实体描述文本信息通过投影操作对知识表示向量的嵌入进行了二次约束。这样建立起了两个信息源之间的结合、交互，使得学习嵌入过程不仅仅受到事实三元组信息的影响，同时还受到文本描述信息的影响，结合两种信息以建立更加精确的知识表示。

1)EHP模型输入初始化：

EHP模型输入包括：头实体的表示向量h_s，由头实体描述文本通过卷积神经网络生成的特征向量h_d，通过第二步预训练得到；尾实体的表示向量t_s，由尾实体描述文本通过卷积神经网络生成的特征向量t_d，通过第二步预训练得到；最大间隔γ，将实体投影到语义超平面的法向量w，在训练时通过使其与h_d和t_d同时正交得到；超参数λ₁、λ₂，正交参数ε；步骤二得到的文本的特征向量；学习率；

头尾实体表示向量和关系表示向量随机初始化，步骤二得到的文本的特征向量保持不变。

2)EHP模型使用随机梯度下降(stochastic gradient descent，SGD)优化算法进行训练，使用链式法则对参数以及头尾实体表示向量进行更新；训练得到实体表示向量以及关系表示向量；具体过程为：

EHP模型训练时的目标函数如下：

第一部分

是针对EHP模型的能量函数使用最大间隔法进行训练，最大化正例三元组和负例三元组之间的得分，γ是超参数，最大间隔法希望正例三元组能量函数得分比负例三元组能量函数得分至少小γ；

能量函数如下：

其中，L为目标函数，[·]₊＝max(·,0)代表了当[·]₊内的数值大于等于0的时候保持不变，小于0的时候取0；γ为最大间隔，w为将实体投影到语义超平面的法向量，在训练时通过使其与h_d和t_d同时正交得到；λ₁、λ₂为合适的超参数，h_s为头实体的表示向量，h_d为由头实体描述文本通过卷积神经网络生成的特征向量，通过第二步的卷积神经网络预训练得到；t_s为尾实体的表示向量，t_d为由尾实体描述文本通过卷积神经网络生成的特征向量，通过第二步的卷积神经网络预训练得到；ε为正交参数；

能量函数中

和

两个部分分别是头尾实体的投影部分，根据动机，要将头尾实体投影到同一个语义超平面上，也就是要最大化

和

两个部分；

部分控制实体表示向量以及关系表示向量满足TransE假设；

目标函数中的γ是超参数，最大间隔法希望正例三元组能量函数得分比负例三元组能量函数得分至少小γ；

T是正例三元组集合，而T'是负例三元组集合，如下：

T′＝{(h′,r,t)|h′∈E}∪{(h′,r,t)|t′∈E}∪{(h,r′,t)|r′∈R}

其中，E为数据集中的实体集合，R为数据集中的关系集合(老师)；

第二部分

控制w成为语义超平面的法向量，使得w与h_d和t_d都正交；

训练达到L最小，得到实体以及关系的表示向量。

其它步骤及参数与具体实施方式一至三之一相同。

采用以下实施例验证本发明的有益效果：

实施例一：

数据集和模型参数设置

数据集：实验中使用一个在知识表示学习中广泛使用的数据集——FB15K数据集，在识图谱补全和实体分类两个任务上对EHP模型效果进行评估。并且针对FB15K数据集参照DKRL(Xie et al.2016)做出一些修改。直接使用Freebase中维护的实体描述信息，在经过之前的提到的文本预处理后，这些实体描述信的平均长度为69个词，然后从数据集中去除了预处理后实体描述短于3个词的47个实及其实体描述。最终处理过后的FB15K数据集中共有14904个实体以及1341个关系。在此基础上，又从Freebase中抽取一些三元组并经过处理后扩充了原有的数据集，并且参考(Bordes et al.2013)的方法将数据集划分成训练集、验证集以及测试集。最终的数据统计如表1所示:

表1数据集统计

参数设置：为了使得EHP模型表现出更好的效果，探索了不同参数对实验结果的影响。基于随机梯度下降进行模型训练，将实体向量和关系向量设置为相同维度，经过尝试探索之后在实验中选择如下最优参数：学习率μ＝.001，最大间隔参数γ＝1.0，向量维度K＝100，平衡参数λ₁＝0.2，平衡参数λ₂＝0.2。

知识图谱补全：知识图谱补全可以被看作是知识图谱上的链接预测任务。具体的，知识图谱补全任务要求在给定三元组(h,r,t)的某一实体或者关系丢失的情况下，利用另外两个对象正确预测出丢失的实体或者关系，根据丢失对象的不同，又可以细分为实体预测和关系预测两个任务。以实体预测为例，用数据集中的实体依次代替丢失实体，形式化地通过模型的能量函数f_r(h,t)计算替换后的得分情况并进行排名。

测评方法：在实验时，采用之前论文中用过的评测方法，使用Mean Rank和Hit@N两个指标进行测评。其中，Mean Rank表示所有测例中正确答案的平均排序，关注知识表示的整体效果。而Hit@N表示排名前N的答案中有正确答案的比例，关注在实际任务中模型进行补全的实用性，具体的在实验时选择Hit@10对模型进行评测。模型采用这两种指标进行测评时会存在一些不合理性，因为针对大量一对多，多对一以及多对多关系

进行补全时可能会存在多个正确答案，因此需要增加“Raw”和“Filter”两个指标。其中“Raw”表示不进行任何处理保持原来状态，而“Filter”下去掉所有错误答案进行排名。当然在两种设置下，较低的Mean Rank以及较高的Hit@10代表了模型有更好的效果。

结果：EHP模型以及其他现有模型在实体预测以及关系预测任务上的表现效果如表2和表3所示。除了EHP模型外，还结合TransE，Jointly，DKRL(CBOW)，DKRL(CNN)，DKRL(TransE)五种模型进行对比，后面三种方法都是DKRL(Xie et al.2016)中提出的，其中DKRL(TransE)指的是DKRL中DKRL(CNN)集合TransE的方法。实验结果显示，EHP模型在两种具体的知识图谱补全任务上都表现最好，说明模型成功提升了知识表示学习性能。

表2实体预测的评估结果

表3关系预测的评估结果

实体分类：实体类型分类任务旨在预测一个实体的所有类型，可以被看作是一个多标签分类问题，在NLP&IR任务(Neelakantan and Chang 2015)中被广泛研究。目前在大多数大规模百科或者知识库都维护有自己的实体类型信息，例如贝多芬这个实体在Freebase中就有音乐家、获奖者、艺术家等实体类型。

模型采用与DKRL中相同的数据集，具体细节可以参考DKRL(Xie et al.2016)。大体上数据有50个实体类型覆盖了13445个实体，随机将其分为训练集和测试集。

测评方法：训练时使用EHP模型学习得到的实体表示向量作为特征向量，使用逻辑斯蒂回归作为分类器，并且使用一对其他的训练策略训练多标签分类的逻辑斯蒂回归分类器。在评测指标上，参考(Neelakantan and Chang 2015)相关工作的设定，使用平均准确率(mean average precision，MAP)作为评测指标。MAP是多标签分类任务中经常使用的评测指标之一，在信息检索等领域被广泛使用。

表4实体分类的评估结果

结果：在实体分类任务上的实验结果如表4所示，模型在此任务上的表现优于其他所有对比模型。说明EHP模型能更加好地捕捉实体类型信息，从而提高实体分类性能，也间接反映了本发明模型提升了知识表示学习性能。

实施例二：

(声呐A，接收，信号1)

本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，本领域技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.基于实体超平面投影的知识表示学习方法，具体是按照以下步骤进行的：

步骤一、将实体的描述文本处理成矩阵形式；

步骤二、将步骤一得到的矩阵形式的文本输入到卷积神经网络中，得到实体描述文本的特征向量；

步骤三、利用步骤二得到的特征向量建立EHP模型，得到实体以及关系的最终向量表示；

所述步骤二中将步骤一得到的矩阵形式的文本输入到卷积神经网络中，得到实体描述文本的特征向量；具体过程为：

1)卷积层设置：使用一组长度为k的一维卷积层，k是文本的长度也就是单词数，实体经过预处理后的文本序列X＝{x₁,…,x_n}即为第一层卷积层的输入，采用补零的方法在序列后面补上全零向量，非线性函数使用ReLU函数；

3)通过最小化目标函数

反向传播更新卷积神经网络参数；

其中，f_r(h,t)为正例三元组得分，

h是头实体的描述文本通过卷积网络生成的特征向量，r是关系向量，t是尾实体的描述文本通过卷积网络生成的特征向量，f_r'(h',t')是负例三元组得分；h'是数据集中不同于h的实体的描述文本，t'是数据集中不同于t的实体的描述文本，r'是数据集中不同于r的实体的描述文本；T为正例三元组集合，T'为负例三元组集合；

输出层输出实体描述文本的特征向量；

所述步骤三中利用步骤二得到的特征向量建立EHP模型，得到实体以及关系的最终向量表示；具体过程为：

1)EHP模型输入初始化：

EHP模型输入包括：头实体的表示向量h_s，由头实体描述文本通过卷积神经网络生成的特征向量h_d；尾实体的表示向量t_s，由尾实体描述文本通过卷积神经网络生成的特征向量t_d；最大间隔γ，实体投影到语义超平面的法向量w；超参数λ₁、λ₂，正交参数ε；步骤二得到的文本的特征向量；学习率；

2)EHP模型使用随机梯度下降优化算法进行训练，使用链式法则对参数以及头尾实体表示向量进行更新；训练得到实体表示向量以及关系表示向量；具体过程为：

EHP模型训练时的目标函数如下：

第一部分

是针对EHP模型的能量函数使用最大间隔法进行训练，能量函数如下：

其中，L为目标函数，[·]₊＝max(·,0)代表了当[·]₊内的数值大于等于0的时候保持不变，小于0的时候取0；

T是正例三元组集合，而T'是负例三元组集合，如下：

T′＝{(h′,r,t)|h′∈E}∪{(h,r,t′)|t′∈E}∪{(h,r′,t)|r′∈R}

其中，E为数据集中的实体集合，R为数据集中的关系集合；

第二部分

控制w成为语义超平面的法向量，使得w与h_d和t_d都正交；

训练达到L最小，得到实体以及关系的表示向量。

2.根据权利要求1所述基于实体超平面投影的知识表示学习方法，所述步骤一中将实体的描述文本处理成矩阵形式；具体过程为：

步骤一一、对实体的描述文本进行预处理：

1)根据停用词词表去除文本中的停用词；

2)对去除停用词后的文本统一英文大小写字符；

3)针对实体的描述文本中的实体名称将实体名称看作一个词而不进行拆分；

经过预处理后的文本被处理成有语序的多个词语的集合，预处理后的文本表示为X＝{x₁,…,x_i,…,x_n}，其中x_i代表文本预处理后的第i个词；

其中矩阵每一行是一个词的表示向量。