CN112347268A

CN112347268A - 一种文本增强的知识图谱联合表示学习方法及装置

Info

Publication number: CN112347268A
Application number: CN202011235607.XA
Authority: CN
Inventors: 赵峰; 徐涛; 金郎俊卿; 金海�
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2020-11-06
Filing date: 2020-11-06
Publication date: 2021-02-09
Anticipated expiration: 2040-11-06
Also published as: US20220147836A1; CN112347268B; US11631007B2

Abstract

本发明涉及文本增强的知识图谱联合表示学习方法及装置，所述方法至少包括：基于知识图谱中的实体对象及其关系链接学习结构向量表示并形成结构表示向量；对可靠特征信息的可信度进行区分并建立注意力机制模型，将不同句子中的向量聚合得到关联度区分的文本表示向量；建立联合表示学习模型，采用动态参数生成策略将所述文本表示向量和所述结构表示向量基于所述联合表示学习模型进行联合学习。本发明能够基于关联文本的重要程度对实体关系向量进行选择性增强，使得模型语义表现力更强，并采用2D卷积操作对联合表示向量进行训练，与传统翻译模型的得分函数训练方法进行对比，在链路预测及三元组分类等任务上具有更好的性能。

Description

一种文本增强的知识图谱联合表示学习方法及装置

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种文本增强的知识图谱联合表示学习方法及装置。

背景技术

知识图谱本质上是一种知识库，数据间以有向图的形式组织起来。其中，图的节点表示实体或者概念，边表示实体/概念之间的各种语义关系，常常以知识三元组(h,r,t)的表现形式。现有的知识图谱通常是不完善的，并且数据关联稀疏，导致其在自动问答、智能推荐等应用系统上的表现非常糟糕。知识图谱补全能够预测缺实的实体或关系事实，完善知识图谱结构信息，提高知识图谱在应用系统上推理计算的准确性和可解释性。由于知识库数据结构的特异性，导致很多模态信息数据如文本数据无法应用到，基于文本的增强表示学习技术，充分利用文本数据丰富的语义信息，并将与知识库关联的文本信息进行融合，能够增强实体关系向量的语义表示，增加计算模型的可解释性。

近年来，以深度学习为代表的知识图谱表示学习技术，通过对数据特征的提取及计算流程的规范化，将实体和关系的语义信息表示为低维连续空间向量，对向量的计算来预测实体、关系间的复杂语义信息，极大地提高了图数据链接预测及推理计算的效率。翻译概念模型是近些年研究的热门，通过将关系向量看成实体向量之间的平移，实现知识向量的规范化表示。不过通用的翻译模型仅利用知识库中的内部结构信息进行表示学习，存在拟合度高、语义解释性差等问题。文本描述信息也越来越多地用于知识图谱表示学习中，利用word2vec训练文本词向量，借助外部文本信息对结构向量进行辅助，使得关系预测的结果更加合理。

例如，专利CN107423820B公开了一种结合实体层次类别的知识图谱表示学习方法，包括：获取知识图谱的三元组关系以及实体的层次结构类别信息；根据实体的层次结构类别信息，构建实体在预设三元组下的类别映射矩阵；根据三元组关系的实体向量和关系向量以及类别映射矩阵，构建能量方程；根据能量方程构建基于边际的评价函数，通过最小化评价函数，学习实体向量、关系向量以及类别映射矩阵的表示。

文本增强的知识图谱表示学习模型充分证明文本信息能够提升知识表示学习的效果，但对这个问题的研究仍处于初级阶段，仍存在－些问题：

(1)当前融入实体描述的知识图谱表示学习的工作大多采用词袋模型等方式学习实体描述的表示，忽略了实体描述中的词序，未能捕捉上下文的联系；

(2)现有工作未能将实体关联的多种文本重要程度进行有效的区分。

因此，如何在知识图谱表示学习中有侧重地融入外部关键文本信息，学习知识图谱中的实体和关系的增强向量表示，是本发明的核心问题。

此外，一方面由于对本领域技术人员的理解存在差异；另一方面由于发明人做出本发明时研究了大量文献和专利，但篇幅所限并未详细罗列所有的细节与内容，然而这绝非本发明不具备这些现有技术的特征，相反本发明已经具备现有技术的所有特征，而且申请人保留在背景技术中增加相关现有技术之权利。

发明内容

针对现有技术之不足，本发明提供一种文本增强的知识图谱联合表示学习方法，其特征在于，所述方法至少包括：

基于知识图谱中的实体对象及其关系链接学习结构向量表示并形成结构表示向量；

对可靠特征信息的可信度进行区分并建立注意力机制模型，将不同句子中的向量聚合得到关联度区分的文本表示向量；

建立联合表示学习模型，采用动态参数生成策略将所述文本表示向量和所述结构表示向量基于所述联合表示学习模型进行联合学习。

本发明针对现有的知识图谱存在关系稀疏，结构知识不完备，表示学习方法忽略了对知识库外部文本信息的有效利用的缺陷，提供一种引入文本描述信息的知识联合表示学习方法，通过卷积神经网络模型对文本数据提取可靠特征信息，并基于注意力机制对不同关系的特征可信度进行区分，从而对现有知识库中的实体关系结构向量进行增强表示，得到语义信息丰富的知识表示模型，并通过卷积神经网络对联合表示向量进行维度强化训练，进一步捕捉隐式向量间的关联特征，更好地对知识图谱中的实体关系向量进行关联度聚类区分，最后进行实体与关系的向量计算完成知识图谱的补全及推理。

优选的，本发明的方法还包括：

所述可靠特征信息是基于卷积神经网络模型学习提取得到的，其中，

基于所述卷积神经网络模型学习表示实体相关文本描述信息，以对结构表示向量进行语义增强。

本发明通过卷积神经网络模型来学习表示实体相关文本描述信息，能够使其文本表示向量与结构表示向量空间保持一致。

优选的，基于卷积神经网络模型学习表示实体相关文本描述信息的方法包括：

将知识图谱中的实体关系链接数据与文本进行关联并对同名实体进行自动标注；有利于实现知识图谱与文本的联合建模，形成高效的实体链接方法。

基于文本中的词向量集合的上下文关系对文本中的词向量序列进行局部语义组合并提取句子的局部语义特征；

基于卷积神经网络模型对文本中的序列向量进行训练，并且基于非线性激活函数以迭代训练的方式优化句子表示的向量语义，有利于提升模型的稳定性，最后采用最大池化操作对输出向量进行维度一致性处理。

优选的，对可靠特征信息的可信度进行区分的方法至少包括：

获取实体对共现的句子集合并提取对应的实体结构表示向量和/或句子临近词向量；有利于推理计算得到文本表示向量的关系r向量；

基于句子中实体对的位置特征信息和词序特征信息对指定名称实体进行向量优化，使得同一实体在不同句子中的表示向量存在一定的区分度。

优选的，对可靠特征信息的可信度进行区分的方法还包括：根据知识图谱中的结构表示向量的位置特征选择并进行信息重组以构成文本表示向量。

优选的，构成文本表示向量的方法包括：

建立注意力权重矩阵，

基于知识图谱中的结构表示向量和句子的关系向量表示通过所述注意力权重矩阵计算句子的注意力权值，从而将不同句子中的向量聚合得到关联度区分的文本关系表示向量。

优选的，所述方法还包括：设置阈机制对结构表示向量和文本表示向量进行综合加成。其阈值与数据的复杂度相关，即对于结构相对复杂的知识图谱，其结构性向量表示的权重占比大，对于稀疏领域知识图谱而言，文本性向量表示的占比更大。

优选的，所述方法还包括：

基于卷积神经网络模型挖掘向量间隐式关联特征，对知识图谱的缺失关系进行知识关联预测和/或数据智能推理。通过已经学习得到的基于三元组结构的表示向量与基于文本描述的表示向量进行联合学习，得到文本中共现实体的增强表示向量，才能更好地利用外部文本语料信息对现有知识库进行补全。

本发明还提供了一种文本增强的知识图谱联合表示学习装置，其特征在于，所述装置至少包括：

结构表示向量生成模块，用于基于知识图谱中的实体对象及其关系链接学习结构向量表示并形成结构表示向量；

文本表示向量生成模块，用于建立注意力机制模型以对可靠特征信息的可信度进行区分，将不同句子中的向量聚合得到关联度区分的文本表示向量；

联合表示学习模块，用于采用动态参数生成策略将所述文本表示向量和所述结构表示向量基于联合表示学习模型进行联合学习。

优选的，所述装置还包括预测模块和/或推理模块，

所述预测模块基于卷积神经网络模型挖掘向量间隐式关联特征，对知识图谱的缺失关系进行知识关联预测；

所述推理模块基于卷积神经网络模型挖掘向量间隐式关联特征，对知识图谱的缺失关系进行数据智能推理。

附图说明

图1是本发明的文本处理的网络结构示意图；

图2是文本增强的联合训练模型的逻辑模块示意图。

附图标记列表

A1：输入层；A2：词表示层；A3：卷积层；A4：输出层；11：文本输入模块；12：实体标记模块；13：文本表示向量模块；21：知识图谱输入模块；22：翻译训练模块；23：结构表示向量模块；30：联合表示学习模块；40：预测模块；50：推理模块。

具体实施方式

下面结合附图进行详细说明。

基于现有技术的不足，本发明提供一种文本增强的知识图谱联合表示学习方法或装置，也可以称为一种文本增强的知识图谱联合表示学习系统。本发明还提供一种联合文本的知识图谱表示学习模型。

本发明提出的一种新型的联合文本的知识图谱表示学习模型TECRL，能够基于关联文本的重要程度对实体关系向量进行选择性增强，使得模型语义表现力更强，并采用2D卷积操作对联合表示向量进行训练，与传统翻译模型的得分函数训练方法进行对比，在链路预测及三元组分类等任务上具有更好的性能。

实施例1

本发明提供一种文本增强的知识图谱联合表示学习方法，其特征在于，所述方法至少包括：

S1：基于知识图谱中的实体对象及其关系链接学习结构向量表示并形成结构表示向量；

S2：建立注意力机制模型以基于阈值σ_s对可靠特征信息的可信度进行区分，将不同句子中的向量聚合得到关联度区分的文本表示向量；

S3：建立联合表示学习模型，采用动态参数生成策略将所述文本表示向量和所述结构表示向量基于所述联合表示学习模型进行联合学习。

优选的，本发明的方法还包括：

S4：所述可靠特征信息是基于卷积神经网络模型学习提取得到的，其中，

本发明中，基于知识图谱中的实体对象及其关系链接学习结构向量表示的过程包括：

S11：将知识图谱中的实体与关系数据映射到低维连续向量空间，使含有链接关系的实体表示向量存在一定的计算加和关联性。

优选的，通过翻译模型、文本卷机神器网络模型等将知识图谱中的实体与关系数据映射到低维连续向量空间。

S12：构造非线性训练函数

进行向量维度优化训练，提高知识图谱结构向量的语义解释性。h和分别表示句子中的元组信息，W_hr表示二维卷积核，b_hr表示偏置矩阵。

优选的，建立注意力机制模型以对可靠特征信息的可信度进行区分的方法至少包括：

S21：对于包含实体对(h,t)的句子s，获取实体对共现的句子集合并提取对应的实体结构表示向量和/或句子临近词向量；有利于推理计算得到文本表示向量的关系r向量；

S22：基于句子中实体对的位置特征信息和词序特征信息对指定名称实体进行向量优化，使得同一实体在不同句子中的表示向量存在一定的区分度。

优选的，根据公式

计算句子的相似度值，并且设置相似度值的阈值σ_s。其中，cos(η）表示相似度值，h_s表示结构向量。

在知识图谱中指定向量的候选集合对应的文本向量表示的相似度值小于σ_s的情况下，则判定该向量缺少文本信息，属于不可靠特征信息。在知识图谱中指定向量的候选集合对应的文本向量表示的相似度值不小于σ_s的情况下，则判定该向量不缺少文本信息，属于可靠特征信息。

选择符合阈值的结构表示向量为文本关系表示向量。

优选的，建立注意力机制模型以对可靠特征信息的可信度进行区分的方法还包括：

S23：根据知识图谱中的结构表示向量的位置特征选择并进行信息重组以构成文本表示向量。

优选的，构成文本表示向量的方法包括：

S24：建立注意力权重矩阵，基于知识图谱中的结构表示向量和句子的关系向量表示通过所述注意力权重矩阵计算句子的注意力权值，从而将不同句子中的向量聚合得到关联度区分的文本关系表示向量。

S41：将知识图谱中的实体关系链接数据与文本进行关联并对同名实体进行自动标注，有利于实现知识图谱与文本的联合建模，形成高效的实体链接方法。具体地，利用候选实体之间的关系构建图，把命名实体作为节点纳入图中，对文本中出现的知识图谱中的同名实体进行自动化标注；

S42：基于文本中的词向量集合的上下文关系对文本中的词向量序列进行局部语义组合并提取句子的局部语义特征。

优选的，通过采用word2vec向量生成工具对文本中的标注词汇进行训练，得到所有的词向量集合。根据文本间的上下文关系，对文本中的词向量序列进行局部语义组合，从而在词向量层面提取出句子的局部语义特征。

S43：基于卷积神经网络模型对文本中的序列向量进行训练，并且基于非线性激活函数以迭代训练的方式优化句子表示的向量语义，有利于提升模型的稳定性，最后采用最大池化操作对输出向量进行维度一致性处理。

具体地，非线性激活函数为Q_i＝tanh(W_s·x_i+b_s)。

是一个权重矩阵，而b_s∈R^k是一个偏置向量。x_i为每个单词的向量表示。i表示单词的序号。

优选的，本发明的文本增强的知识图谱联合表示学习方法还包括：

S5：设置阈机制对结构表示向量和文本表示向量进行综合加成。其阈值与数据的复杂度相关，即对于结构相对复杂的知识图谱，其结构性向量表示的权重占比大，对于稀疏领域知识图谱而言，文本性向量表示的占比更大。

优选的，所述方法还包括：

S6：基于卷积神经网络模型挖掘向量间隐式关联特征，对知识图谱的缺失关系进行知识关联预测和/或数据智能推理。通过已经学习得到的基于三元组结构的表示向量与基于文本描述的表示向量进行联合学习，得到文本中共现实体的增强表示向量，才能更好地利用外部文本语料信息对现有知识库进行补全。

本发明将文本数据处理形成文本表示向量、将知识图谱处理形成结构表示向量，并且将文本表示向量和结构表示向量进行联合表示学习的具体实施过程如下所示。

基于翻译模型训练的基本思想，假定知识图谱中的所有实体关系向量均处于同一维度，三元组信息的向量表示可看作(h_s,r_s,t_s)。在理想状态下，知识库中已经存在的事实三元组应该满足h_s+r_s＝t_s，而不应该存在的错误三元组h_s+r_s的结果会远离t_s。因此，为翻译模型的训练目标定义一个得分函数，具体形式如下：f_r(h,t)＝‖h+r-t‖₂，得分函数的值越小，则三元组成立的可能性越高，反之亦然。

针对知识图谱中的实体向量h_s或t_s，通过共享向量的形式来表示文本句子中出现的实体指称，从而实现实体与文本间的语义映射。通过高效的实体链接方法，对原始文本信息进行自动化标注处理，主要对输入的句子进行处理实现实体指称的向量标注。去除句子中的所有停用词，构建训练预料词汇表，通过使用word2vec工具进行训练，得到所有的词向量集合V。采用卷积神经网络模型实现文本上下文的词向量嵌入，并根据句子中包含实体指称的差异分别对文本实体向量和文本关系向量进行分类处理。

本发明的文本上下文的词向量嵌入的算法流程如图1所示。

在输入层A1输入文字内容，文字内容例如是“Huazhong University of Scienceand Technology is located in the beautiful city of Wuhan”。

SA2：在词表示层A2，将输入层的例句进行实体的向量标注，去除了句子的所有停用词后，构建训练预期词汇表。即使用word2vec工具在词表示层中训练所有单词向量，将每个单词基于词汇表的向量和句子本身的局部位置特征向量进行局部语义组合，从而在词向量层面提取出句子的局部语义特征。

SA3：在卷积层A3，利用文本卷积网络模型CNN实现了相关文本描述的嵌入向量表示，通过设置滑动窗口将句子的词向量序列局部组合为句子的局部语义特征，并根据句子中包含的实体引用的差异对文本实体向量和关系向量进行分析。

SA4：在输出层A4，通过最大池化操作优化文本表示向量的特征信息，拼接最大值向量，得到卷积神经网络模型训练操作后的文本表示向量，可执行维数矩阵转换操作以获得文本表示向量，完成输出层的操作。

在嵌入文本上下文的词向量后，通过注意力机制模型对指定实体对的不同共现句子进行语义特征组合。在注意力机制模型预测实体对关系r时，根据每个句子与实体对关系的关联程度选择句子中的信息，以不同的权重对不同的句子进行组合。针对句子序列s＝{x₁,x₂,…,x_n}，位置特征是每个单词与实体指称之间的相对位置，可有效表示文本的语义。句子s中的每个词向量xi可由两部分组成，一部分是基于词汇表的单词向量w∈R^k，另一部分是位置特征向量p。句子中每个单词w相对于两个实体指称的位置表示为[d1,d2]，其中d1和d2分别表示相对于头尾实体的方向和距离，在注意力机制模型中映射为两个k_p维的向量。将距离向量进行首尾拼接可以得到位置特征向量p∈R^2*kp。将单词的词向量和位置特征向量进行拼接，可以得到每个单词的向量表示，即x_i＝[W_i；P_i]。

将包含实体对(h,t)的句子集合记为S_(h,t)。其中，S_(h,t)＝s₁,s₂,…,s_m，表示包含m个句子。对于每一个句子，均可采用本发明提到的卷积神经网络模型编码为一个关系向量O，可选择用隐藏层对其进行维度转换，变成基于知识图谱结构信息的实体关系向量维度，便于分析计算。

卷积神经网络模型的具体表现形式为：E_i＝tanh(W_sO_i+b_s)，其中，E_i表示向量。

是一个权重矩阵，而b_s∈R^k是一个偏置向量。

优选的，结构表示向量包含结构实体向量和关系向量。根据知识图谱固有的结构实体向量和句子所代表的关系向量表示，计算得到每个句子的注意力权值：

其中，t-h是基于知识图谱本身的结构向量表示。假设h+r≈t，用于表示实体对(h,t)之间的潜在关系。通过向量内积的形式可以有效表示每个句子与指定实体对之间的关联权重。E_j表示第j个句子的向量。

本发明基于实体对相关联的所有句子的向量聚合得到最终的文本表示向量，具体形式如下：

r_t表示最终的文本表示向量；a_j表示第j个句子的注意力权值；O_j表示第j个句子的关系向量。

将得到的基于三元组结构的结构表示向量与基于文本描述的文本表示向量进行联合学习，得到文本中共现实体的增强表示向量，才能更好地利用外部文本语料信息对现有知识库进行补全。

具体地，针对实体/关系的联合文本向量表示，为了充分考虑到它的结构向量表示和文本向量表示，采用动态参数生成策略。动态参数生成策略为：对于结构相对复杂的知识图谱，其结构性向量表示的权重占比大，对于稀疏领域知识图谱而言，文本性向量表示的占比更大。动态参数生成策略的具体表现形式如下：h＝h_s·θ_h+h_t·(1-θ_h)，r＝r_s·θ_r+r_t·(1-θ_r)，t＝t_s·θ_t+t_t·(1-θ_t)，其中参数θ_h，θ_r和θ_t的值都在[0,1]，通过logistic sigmoidfunction计算得到。

参数θ_h，θ_r和θ_t的具体计算公式如下：θ＝σ(θ′)，其中θ′∈R^k，由结构性变量初始化。在训练过程中，统计与实体或关系的相关联的文本描述数量改变其值，训练结束后的最终值作为联合表示学习模型的权重参数。

通过联合表示学习模型的学习结果可用于知识关联预测和数据智能推理。例如：通常用学习结果表现出来的实验数据判定链路预测或者推理三元组分类是否足够准确。

实施例2

本实施例提供一种本发明还提供了一种文本增强的知识图谱联合表示学习装置，如图2所示，所述装置至少包括：

优选的，本发明中的文本表示向量生成模块、结构表示向量生成模块和联合表示学习模块均可以是专用集成芯片、服务器、服务器群组、云服务器中的一种或几种。

运行结构表示向量生成模块，以执行以下程序：

S12：构造非线性训练函数

优选的，运行文本表示向量生成模块，以执行以下程序：

建立注意力机制模型以对可靠特征信息的可信度进行区分。其中，

优选的，根据公式

选择符合阈值的结构表示向量为文本关系表示向量。

优选的，在执行建立注意力机制模型以对可靠特征信息的可信度进行区分的程序中，还进行的步骤包括：

S23：根据知识图谱中的结构表示向量的位置特征选择并进行信息重组以构成文本表示向量。其中，

建立注意力权重矩阵，基于知识图谱中的结构表示向量和句子的关系向量表示通过所述注意力权重矩阵计算句子的注意力权值，从而将不同句子中的向量聚合得到关联度区分的文本关系表示向量。

文本表示向量生成模块至少包括文本输入模块11、实体标记模块12和文本表示向量模块13。

文本输入模块11用于文字信息的输入或者提取。文本输入模块11可以是具有信息提取、采集、输入功能的任意终端，例如移动终端设备、不可移动的计算机设备等等。移动终端设备例如是智能可穿戴设备、手机、平板电脑、能够输入信息的操作平台等。实体标记模块12和文本表示向量模块13均可以是具有计算处理功能的专用集成芯片、服务器、服务器群组、云服务器中的一种或几种。

实体标记模块12基于文本增强的卷积表示学习(TECRL)模型的实体标记方法将文本数据对应的信息标注过程自动化。

其中，运行实体标记模块以执行以下程序：

将知识图谱中的实体关系链接数据与文本进行关联并对同名实体进行自动标注；

基于卷积神经网络模型对文本中的序列向量进行训练，并且基于非线性激活函数以迭代训练的方式优化句子表示的向量语义。

文本表示向量模块13用于根据知识图谱中的结构表示向量的位置特征选择并进行信息重组以构成文本表示向量。

具体地，运行文本表示向量模块以执行以下程序：

根据注意力机制模型以对可靠特征信息的可信度进行区分。其中，获取实体对共现的句子集合并提取对应的实体结构表示向量和/或句子临近词向量；基于句子中实体对的位置特征信息和词序特征信息对指定名称实体进行向量优化，使得同一实体在不同句子中的表示向量存在一定的区分度。

其中，在注意力机制模型预测实体对关系r时，根据每个句子与实体对关系的关联程度选择句子中的信息，以不同的权重对不同的句子进行组合。针对句子序列s＝{x₁,x₂,…,x_n}，位置特征是每个单词与实体指称之间的相对位置，可有效表示文本的语义。句子s中的每个词向量xi可由两部分组成，一部分是基于词汇表的单词向量w∈R^k，另一部分是位置特征向量p。句子中每个单词w相对于两个实体指称的位置表示为[d1,d2]，其中d1和d2分别表示相对于头尾实体的方向和距离，在注意力机制模型中映射为两个k_p维的向量。将距离向量进行首尾拼接可以得到位置特征向量p∈R^2*kp。将单词的词向量和位置特征向量进行拼接，可以得到每个单词的向量表示，即x_i＝[W_i；P_i]。

将包含实体对(h,t)的句子集合记为S_(h,t)，S_(h,t)＝s₁,s₂,…,s_m，表示包含了m个句子。对于每一个句子，均可采用卷积神经网络编码为一个关系向量O，选择用隐藏层对其进行维度转换，变成基于知识图谱结构信息的实体关系向量维度，便于分析计算。其具体表现形式为：E_i＝tanh(W_sO_i+b_s)，其中，

是一个权重矩阵，而b_s∈R^k是一个偏置向量。

根据知识图谱固有的结构实体向量和句子所代表的关系向量表示，计算得到每个句子的注意力权值：

其中，t-h是基于知识图谱本身的结构向量表示，假设h+r≈t，用于表示实体对(h,t)之间的潜在关系。通过向量内积的形式可以有效表示每个句子与指定实体对之间的关联权重。可基于实体对相关联的所有句子的向量聚合得到最终的文本表示向量，具体形式如下：

结构表示向量生成模块至少包括知识图谱输入模块21、翻译训练模块22和结构表示向量模块23。

知识图谱输入模块21用于存储、输入或者提取知识图谱中的实体对象及其关系链接。知识图谱输入模块21可以是具有信息提取、采集、输入功能的任意终端，例如移动终端设备、不可移动的计算机设备等等。移动终端设备例如是智能可穿戴设备、手机、平板电脑、能够输入信息的操作平台等。

翻译训练模块22和结构表示向量模块23均可以是具有计算处理功能的专用集成芯片、服务器、服务器群组、云服务器中的一种或几种。

翻译训练模块22内设置有翻译模型TransE。运行翻译训练模块22，执行的程序为：

通过翻译模型TransE的训练方法处理输入的知识图谱，获得了结构化的文本表示形式的向量，同时经翻译模型处理得到对应的三元组结构表示向量。

具体地，假定知识图谱中的所有实体关系向量均处于同一维度，三元组信息的向量表示可看作(h_s,r_s,t_s)。在理想状态下，知识库中已经存在的事实三元组应该满足h_s+r_s＝t_s，而不应该存在的错误三元组h_s+r_s的结果会远离t_s。因此翻译模型的训练目标定义一个得分函数，具体形式如下：f_r(h,t)＝‖h+r-t‖₂，得分函数的值越小，则三元组成立的可能性越高，反之亦然。

运行结构表示向量模块23，执行以下程序：

针对知识图谱中的实体向量h_s或t_s,可通过共享向量的形式来表示文本句子中出现的实体指称，从而实现实体与文本间的语义映射。

运行联合表示学习模块30，执行以下程序：

基于三元组结构的表示向量与基于文本描述的表示向量进行联合学习，得到文本中共现实体的增强表示向量。具体地，采用动态参数生成策略模型h＝h_s·θ_h+h_t·(1-θ_h)，r＝r_s·θ_r+r_t·(1-θ_r)，t＝t_s·θ_t+t_t·(1-θ_t)，进行学习训练。其中参数θ_h，θ_r和θ_t的值都在[0,1]。

优选的，所述装置还包括预测模块40和/或推理模块50。

运行预测模块40，执行的程序为：基于卷积神经网络模型挖掘向量间隐式关联特征，对知识图谱的缺失关系进行知识关联预测。

运行推理模块50，执行的程序为：基于卷积神经网络模型挖掘向量间隐式关联特征，对知识图谱的缺失关系进行数据智能推理。

需要注意的是，上述具体实施例是示例性的，本领域技术人员可以在本发明公开内容的启发下想出各种解决方案，而这些解决方案也都属于本发明的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白，本发明说明书及其附图均为说明性而并非构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。

Claims

1.一种文本增强的知识图谱联合表示学习方法，其特征在于，所述方法至少包括：

2.根据权利要求1所述的文本增强的知识图谱联合表示学习方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的文本增强的知识图谱联合表示学习方法，其特征在于，基于卷积神经网络模型学习表示实体相关文本描述信息的方法包括：

4.根据权利要求2所述的文本增强的知识图谱联合表示学习方法，其特征在于，对可靠特征信息的可信度进行区分的方法包括：

获取实体对共现的句子集合并提取对应的实体结构表示向量和/或句子临近词向量；

5.根据权利要求4所述的文本增强的知识图谱联合表示学习方法，其特征在于，将不同句子中的向量聚合得到关联度区分的文本表示向量的方法还包括：

根据知识图谱中的结构表示向量的位置特征选择并进行信息重组以构成文本表示向量。

6.根据权利要求5所述的文本增强的知识图谱联合表示学习方法，其特征在于，构成文本表示向量的方法还包括：

建立注意力权重矩阵，

基于知识图谱中的结构实体向量和句子的关系表示向量通过所述注意力权重矩阵计算句子的注意力权值。

7.根据权利要求1～6任一项所述的文本增强的知识图谱联合表示学习方法，其特征在于，所述方法还包括：

设置阈机制对结构表示向量和文本表示向量进行综合加成。

8.根据权利要求7所述的文本增强的知识图谱联合表示学习方法，其特征在于，所述方法还包括：

基于卷积神经网络模型挖掘向量间隐式关联特征，

对知识图谱的缺失关系进行知识关联预测和/或数据智能推理。

9.一种文本增强的知识图谱联合表示学习装置，其特征在于，所述装置至少包括：

10.根据权利要求9所述的文本增强的知识图谱联合表示学习装置，其特征在于，所述装置还包括预测模块和/或推理模块，