CN112347265B

CN112347265B - 一种知识图谱构建方法

Info

Publication number: CN112347265B
Application number: CN201910723169.2A
Authority: CN
Inventors: 陈成才
Original assignee: Shanghai Xiaoi Robot Technology Co Ltd
Current assignee: Shanghai Xiaoi Robot Technology Co Ltd
Priority date: 2019-08-06
Filing date: 2019-08-06
Publication date: 2023-04-14
Anticipated expiration: 2039-08-06
Also published as: CN112347265A

Abstract

本发明提供了一种知识图谱构建方法，包括：对待处理的句子进行分词，得到多个单独词；识别所述多个单独词中的实体，得到两个一组的实体对；对于每个所述实体对，获取所述句子的句向量；根据所述句向量，提取所述句子的表示特征；对所述表示特征进行特征筛选，屏蔽其中的噪声特征；根据所述表示特征预测所述实体对的实体关系；根据所述实体对和对应的实体关系构建知识图谱。本发明能够有效地在构建知识图谱的过程中，将句子中的无用噪声特征滤除，提高实体关系预测的准确性。

Description

一种知识图谱构建方法

技术领域

本发明涉及自然语言处理领域，特别涉及一种知识图谱的构建方法。

背景技术

随着信息时代的飞速发展，在互联网上拥有的信息资源越来越丰富，信息数据规模越来越巨大，表现形式也越来越多样。但是，对于海量的信息数据资源来说，其中的绝大部分都只能被人类所理解，机器对于这些信息的理解仍十分困难，特别是数量庞大的文本数据，自然语言理解也一直是非常热门的研究领域。

为了能够帮助机器更好地理解文本数据，知识图谱技术应运而生。知识图谱本质上是一种语义网络，由代表实体(Entity)的结点和代表实体之间关系的边构成。知识图谱从“关系”出发，具有更全面的实体覆盖率和更复杂的语义关系网，在智能搜索、智能问答等领域具有很好的应用前景。但是，在现有的知识图谱构建过程中，实体之间的关系大多需要人工构建或者依赖固定的逻辑，工作量巨大且难以普遍适用。而且在提取句子特征时，往往存在着不少噪声特征，在后续的机器学习中引入了不少杂质，影响了学习的效果，进而影响了最后的实体关系预测以及知识图谱构建。

发明内容

为了解决上述问题，本发明提出一种知识图谱的构建方法，以降低实体关系预测过程中噪声特征的影响。具体内容包括：

一种知识图谱构建方法，包括以下步骤：

对待处理的句子进行分词，得到多个单独词；

识别所述多个单独词中的实体，将所述实体两个一组组成实体对；

对于每个所述实体对，获取所述句子的句向量；

根据所述句向量，提取所述句子的表示特征；

对所述表示特征进行特征筛选，屏蔽其中的噪声特征；

根据所述表示特征预测所述实体对的实体关系；

根据所述实体对和对应的实体关系构建知识图谱；

其中，所述对所述表示特征进行特征筛选，屏蔽其中的噪声特征包括：

对所述表示特征中包括的特征向量进行全局平均池化，得到所述特征向量分别对应的聚合信息；

利用两个全连接网络对所述聚合信息进行筛选，得到所述特征向量对应的筛选参数；

根据所述筛选参数判断所述特征向量是否为噪声特征，若是，则将所述噪声特征屏蔽，更新所述特征向量；

根据所述更新后的特征向量，更新所述表示特征。

优选地，所述根据所述句向量，提取所述句子的表示特征包括：

根据所述句向量，按照下述公式计算预设次数的所述表示特征，

其中，h_i为第i个方面的所述表示特征，i的取值范围为[1,l]，l为所述预设次数，v为所述句向量，d_v为构成所述句向量的所述单独词的数目，

和

分别表示第i次计算时的不同的参数矩阵且分别通过神经网络训练获得。

优选地，所述根据所述句向量，提取所述句子的表示特征之后，所述对所述表示特征中包括的特征向量进行全局平均池化，得到所述特征向量分别对应的聚合信息之前，还包括步骤：

根据所述多个方面的表示特征得到一个融合特征。

本发明还提供了一种知识图谱构建装置，包括：

句子分词模块，所述句子分词模块用于对待处理的句子进行分词，得到多个单独词；

实体识别模块，所述实体识别模块用于识别所述多个单独词中的实体，将所述实体两个一组组成实体对；

向量表示模块，所述向量表示模块用于获取所述句子的句向量；

特征提取模块，所述特征提取模块用于根据所述句向量，提取所述句子的表示特征；

特征筛选模块，所述特征筛选模块用于对所述表示特征进行特征筛选，屏蔽其中的噪声特征；

关系预测模块，所述关系预测模块用于根据所述表示特征预测所述实体对的实体关系；

图谱构建模块，所述图谱构建模块用于根据所述实体对和对应的实体关系构建知识图谱；

其中，所述特征筛选模块包括：

信息聚合单元，所述信息聚合单元用于对所述表示特征中包括的特征向量进行全局平均池化，得到所述特征向量分别对应的聚合信息；

信息筛选单元，所述信息筛选单元用于利用两个全连接网络对所述聚合信息进行筛选，得到所述特征向量对应的筛选参数；

噪声判断单元，所述噪声判断单元用于根据所述筛选参数判断所述特征向量是否为噪声特征，若是，则噪声屏蔽单元将所述噪声特征屏蔽，更新所述特征向量；

特征更新单元，所述特征更新单元用于根据所述更新后的特征向量，更新所述表示特征。

本发明还提供了一种存储介质，其上存储有计算机指令，所述计算机指令运行时执行上述任意一种知识图谱构建方法的步骤。

本发明还提供了一种电子设备，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行上述任意一种知识图谱构建方法的步骤。

本发明在一般的实体关系抽取的过程中，增加了特征筛选的步骤。通过对提取得到的句子特征进行筛选，滤除了对实体关系预测贡献不大的噪声特征，从而可以进行更加全面、准确、有效地进行是关系预测。

在此基础上，本发明将句子中单词与实体对之间的相对位置引入实体关系提取的过程，充分体现了词组与实体对之间的关联性，并从多个方面、多角度地挖掘句子与句子中实体关系之间的特征，通过融合手段，可以更加完备地构建知识图谱。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1为本发明实施例一中知识图谱构建方法的流程示意图；

图2为本发明实施例一中获取句向量的流程示意图；

图3为本发明实施例一中实体关系预测的流程示意图；

图4为本发明实施例二中知识图谱构建方法的流程示意图；

图5为本发明实施例三中知识图谱构建方法的流程示意图；

图6为本发明实施例四中知识图谱构建装置的结构示意图；

图7为本发明实施例四中向量表示模块的结构示意图；

图8为本发明实施例四中相对位置向量计算单元的结构示意图；

图9为本发明实施例四中又一相对位置向量计算单元的结构示意图；

图10为本发明实施例四中关系预测模块的结构示意图；

图11为本发明实施例五中知识图谱构建装置的结构示意图；

图12为本发明实施例四中特征融合模块的结构示意图；

图13为本发明实施例六中的电子设备结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

在本实施例当中，如图1所示，提供了一种知识图谱的构建方法，包括以下步骤：

步骤S100：对待处理的句子进行分词，得到多个单独词；

步骤S200：识别所述多个单独词中的实体，将所述实体两个一组组成实体对；

步骤S300：对于每个所述实体对，获取所述句子的句向量；

步骤S400：根据所述句向量，提取所述句子的表示特征；

步骤S500：对所述表示特征进行特征筛选，屏蔽其中的噪声特征；

步骤S600：根据所述表示特征预测所述实体对的实体关系；

步骤S700：根据所述实体对和对应的实体关系构建知识图谱；

其中，步骤S500包括：

步骤S510：对所述表示特征中包括的特征向量进行全局平均池化，得到所述特征向量分别对应的聚合信息；

步骤S520：利用两个全连接网络对所述聚合信息进行筛选，得到所述特征向量对应的筛选参数；

步骤S530：根据所述筛选参数判断所述特征向量是否为噪声特征，若是，则进行步骤S540，将所述噪声特征屏蔽，更新所述特征向量；

步骤S540：根据所述更新后的特征向量，更新所述表示特征。

在进行知识图谱构建时，首先需要确定图谱中存在的实体以及实体间的实体关系。因而在本实施例的第一步亦即步骤S100中，需要先对待处理的句子进行分词处理，根据文本内容得到多个单独词，以便进行其中实体的识别。本领域的研究人员应当知晓，在步骤S100中所述的待处理的句子亦可理解为具有一定长度的文本，其来源在此不作限制，例如新闻文本、用户输入文本、由语音输入识别的转换的文本等任何符合知识图谱内容的文本源均可。

实体对与实体关系是构建知识图谱的重要元素，因而实体关系抽取是构建知识图谱中的重要环节。在自然语言处理中，实体往往指代的是在文本中具有特定含义或者具有很强指代性的名词，例如人名、地名、机构名称、时间、专用名词等。在步骤S100中对待处理的句子文本进行分词之后，从分词得到的数个单独词中找出具有上述特征的、代表实体的词语，并两两组成实体对，预测判断这实体对之间的实体关系、进而进一步构建完善知识图谱即是本发明的主要内容。

本实施例中，进行实体识别的方法可以采用基于规则的方法，或者基于模型的方法(例如基于隐马尔科夫模型、条件随机场或循环神经网络模型)等不同手段，本发明对如何进行实体识别不做限制，只要能够从分词结果中提取出实体词语即可。

在步骤S200中，从待处理句子中识别、匹配得到的实体对可能具有多对，每一对实体对之间都具有相应的实体关系，以用于知识图谱的构建和完善，实体关系预测可以分别针对每一对实体对进行。

在进行某一实体对之间的实体关系预测时，如步骤S300所述，首先要将整个待处理的句子文本进行向量表示，以便之后的运算。在本实施例中，所述句向量包括多个所述单独词的词-位置向量，所述单独词的词-位置向量包括所述单独词的词向量，以及所述单独词与所述实体对的相对位置向量。

传统的句向量模型是根据句子中包含的词语的词向量，直接将词语的词向量连接组成，但是仅根据词语自身的词向量并不能准确地表示词语之间的关系，对于实体关系的判断作用很小。因此，本申请在词向量之外引入了词语相对实体对的相对位置向量，从而能够体现出每个单独词与两个实体之间的关联程度，使得单独词的向量表示不再孤立，能够更好地体现词语之间的联系。将词语之间的相对位置特征引入实体关系预测无疑能够提高预测的准确性。

在本实施例中，如图2所示，步骤S300具体还可以包括：

步骤S310：计算所述句子中所述单独词的词向量；

步骤S320：计算所述句子中所述单独词分别与所述实体对中两个实体的相对位置向量；

步骤S330：根据所述词向量和所述相对位置向量得到所述单独词的词-位置向量；

步骤S340：根据所述句子中包括的所述多个单独词的词-位置向量得到所述句子的句向量。

所述句子的句向量v可以是经由句子包含单独词的词-位置向量依次拼接组成的矩阵。句子中第i个单独词的词-位置向量v_i由它的词向量WF_i和与实体对的相对位置向量PF_i连接组成。

在计算句子中单独词的词向量WF_i时，优选地，可以根据预设的词向量模型，例如skip-gram模型来训练词向量。在词向量模型中，所有的词向量均被编码在预设的词向量矩阵

中，其中的d_w表示词向量的维度，V则为该词向量矩阵对应的固定大小的词表。

在计算句子中单独词的相对位置向量PF_i时，一般情况下，相对位置向量PF_i包括了该单独词与实体对中两个实体分别的相对距离关系。即，对于实体对中的第一实体e₁和第二实体e₂，分别计算所述单独词相对于所述第一实体e₁以及所述单独词相对于第二实体e₂的相对距离。

例如，在句子“Robert Downey Jr.is the actor of Iron Man”中，有两个实体“Robert Downey Jr.(e₁)”与“Iron Man(e₂)”，对于单独词“actor”来说，它与实体e₁和e₂的相对距离分别为3和-2。

当一个句子较长时，距离实体对中某一实体较远的词语有较大概率与要预测的实体关系无关。因此，在实际计算过程中，可以对相对距离设定有效的阈值范围，即预设最小距离e_min和最大距离e_max的取值，将超出阈值范围的相对距离视作无效距离，降低与实体之间关系不大的词语在表示句子特征中的影响。

在本实施例中，可以在计算单独词相对于某一实体的相对距离之后，判断所述相对距离是否在预设的最小距离e_min与最大距离e_max的范围之内，若所述相对距离小于所述最小距离e_min，则以所述最小距离e_min替换所述相对距离；若所述相对距离大于所述最大距离e_max，则以所述最大距离e_max替换所述相对距离。

在确定了相对距离之后，可以根据位置向量矩阵

将所述相对距离转换为向量表示，其中的d_p表示一个相对位置向量的维度，P为固定大小的相对距离集合，该位置向量矩阵V_p是一个随机初始化的矩阵，通过查找的方式将相对距离转换为对应的实值向量表示。

得到词向量WF_i和相对位置向量PF_i之后，可以将它们前后连接，得到句子中第i个单独词的词-位置向量v_i，本发明对如何连接词向量和相对位置向量不做限制。v_i的维度为(d_w+2d_p)。

在步骤S300之前，还可以对待处理的句子进行预处理操作，将语气词、助词、停用词等无用词滤除，再进行句向量的计算。

在步骤S400中，根据所述句向量，提取句子的表示特征。可以通过神经网络对句子的上下文表示进行特征提取。在一项可选的实施方式中，采用V_(j：j+n-1)表示句子中单独词词向量v_j，v_j+1，…，v_j+n-1的连接表示，通过卷积神经网络，根据下述公式进行特征的计算：

c_j＝f(w·v_(j：j+n-1)+b)

其中，c_j为表示特征中第j项特征向量，w为神经网络的参数矩阵，b为编制参数，w和b均由神经网络训练获得，f为一个非线性函数，n为滑动窗口的大小。

步骤S400中提取的表示特征中并非全部数据均对实体关系具有意义，不乏噪声特征的存在，对于关系预测的准确性有很大的影响。因而需要进行步骤S500，对所述表示特征进行特征筛选，屏蔽其中的噪声特征。在本发明中，提供了一种新的特征筛选方法，能够有效地筛除特征中存在的噪声而不引入新的空间维度参数。如图1所示，在步骤S510至步骤S550中主要操作包括聚合、筛选、屏蔽、更新四步。

步骤S550：根据所述更新后的特征向量，更新所述表示特征。

在步骤S510中，由于融合特征中各特征向量对于实体关系抽取的重要性具有差异，因而采用全局平均池化的方式，将全局的特征信息聚合到一层聚合信息中，如下述公式所示，

其中，z_j为特征向量c_j对应的池化后的聚合信息，M×N为向量c_j的维度。

在步骤S520中，为了限制模型的复杂度，同时将非线性矩阵引入计算，本发明中采用了两个全连接网络来获取特征向量对应的筛选参数，以用来判断该特征向量是否为噪声特征。为了充分利用聚合信息，并获得全局的特征依赖分布，在进行特征筛选时，需要选择一种灵活、非互斥的门限机制，以获取判断该特征向量是否为噪声的筛选参数。在步骤S520中，可以分别采用ReLu函数和softsign函数作为两个全连接网络的激活函数，如下述公式所示：

s_j＝softsign(W₂ReLU(W₁z_j))

其中，z_j为特征向量c_j对应的筛选参数，W₁、W₂分别为两个全连接网络的参数矩阵。采用softsign函数作为激活函数不仅能够适合各种情况的特征分布，又允许强调足够多种类的类型特征，可以将特征的筛选参数映射到-1至+1之间。

具体地，步骤S530中，所述根据所述筛选参数判断所述特征向量是否为噪声特征，若是，则在步骤S540中，将所述噪声特征屏蔽，更新所述特征向量包括：

根据下述公式进行所述筛选参数的判断与屏蔽，

其中，所述c_j表示第j项所述特征向量，所述x_j为所述c_j对应的所述更新后的特征向量，所述s_j为所述c_j对应的所述筛选参数。

筛选过程的最终输出是通过屏蔽转换的，将被softsign函数映射为负数的特征向量转换为0向量，以达到屏蔽噪声的目的。此外，若筛选参数s_j＝0，则无论哪种情况，最终x_j均会被转换为0向量，故本发明在此处不做限制。

之后，在步骤S550中，用更新后的特征向量x_j更新原本的表示特征，得到新的表示特征

用于后续步骤S600中的实体关系预测。这样一来，更新后的表示特征中，噪声特征已经被屏蔽，剩余的有价值的特征参数更加具有针对性，不仅降低了计算压力，也使得结果受到的干扰更少，提高了准确性。

特征筛选完成后，即利用更新后的表示特征进行步骤S600中的实体关系预测。根据所述融合特征预测所述实体对的实体关系。在本实施中，如图3所示，步骤S600还包括：

步骤S610：获取所述表示特征包括的每一所述特征向量的突出特征，所述突出特征包括所述特征向量中元素的最大值和平均值；

步骤S620：根据所述突出特征，获取高层特征集合；

步骤S630：根据所述高层特征集合，利用全连接网络预测所述实体对的关系概率向量；

步骤S640：将所述关系概率向量中最大的元素对应的关系作为所述实体对的实体关系输出。

在步骤S610中，可以对表示特征中各特征向量进行最大池化和平均池化操作，得到突出特征，如下式所示：

即取特征向量中各元素的最大值和平均值，连接组成突出特征向量。

在步骤S620中，将各特征向量的突出特征连接组成高层特征集合，如下式所示：

在步骤S630中，根据所述高层特征集合，利用全连接网络得到所述实体对的关系概率向量包括：

根据下述公式计算所述关系概率向量，

其中，y为所述关系概率向量，w_p为所述全连接网络的参数矩阵，r为符合伯努利分布的遮蔽向量，q为所述高层特征集合，b_p为偏置参数，符号

表示的是两个矩阵逐元素相乘的操作。

关系概率向量中每一个元素代表了实体对之间某一种实体关系可能性的概率，其中每一坐标确定的元素预设了一种实体关系。通过上述公式可以学习得到每种可能的实体关系具体的概率值。

这里在前向传播的过程中，采用了dropout算法代替普通的向前传播的计算方式，dropout不会对代价函数进行修改，而是对深度网络本身进行调整，通过遮蔽向量r随机屏蔽掉部分神经元，因而能够有效地提升算法的泛化能力。

在步骤S640中，将关系概率向量中概率最高的元素代表的实体关系输出，作为该实体对实体关系的预测结果。

得到实体关系后，在步骤S700中，可以进一步通过该实体对以及实体关系进行知识图谱的构建、更新，完善知识图谱的内容。

进行知识图谱构建时，在获取得到实体和关系之后，可以通过实体链接将抽取的实体与知识库中的正确实体对象。优选地，在进行实体链接时可以判断当前的知识图谱中是否存在同名的实体、同名实体是否具有不同的含义，以及是否包括有其它命名但表达含义相同的实体，并消除存在的矛盾和歧义。

在进行知识图谱中的知识加工时，可以对图谱中存在的知识进行质量评估，舍弃置信度较低的知识，提高知识库的质量。

本实施例中，当在实体识别和关系预测过程中发现了新的实体组合，或者建立了新的实体关系时，可以对知识图谱进行更新。优选地，如果待更新的实体体现了新的概念，可以将新的实体和实体关系以同样的方式建立到知识图谱中；如果是由于数据源的区别，使得旧有的实体对之间预测得到了新的实体关系，可以对数据源的可靠性进行评估，考虑数据的一致性，并将在各数据源中出现频率较高的事实、属性和关系添加到知识图谱中。

实施例二

在本实施例中，提供了一种知识图谱构建方法，包括：

步骤S1000：对待处理的句子进行分词，得到多个单独词；

步骤S2000：识别所述多个单独词中的实体，将所述实体两个一组组成实体对；

步骤S3000：对于每个所述实体对，获取所述句子的句向量；

步骤S4000：根据所述句向量，提取所述句子的表示特征；

步骤S5000：对所述表示特征进行特征筛选，屏蔽其中的噪声特征；

步骤S6000：根据所述表示特征预测所述实体对的实体关系；

步骤S7000：根据所述实体对和对应的实体关系构建知识图谱。

由于传统的特征提取中，特征表示的角度往往比较单一化，只关注句子或实体的一个方面，这样使得特征的描述并不全面，缺乏多角度、多方面的特征分析。因此，本实施例与实施例一的区别在于，在上述的步骤S4000中，将自注意力机制与多头机制相结合来实现对句子和实体的不同方面的表示，在多头机制中，每一“头”即表示一种方面，各“头”之间的运算参数相互独立，通过多头来自动学习实体对中两个实体之间不同方面的关系特征，从而使得到的句子特征更加充分和全面。

本实施例中，所述根据所述句向量提取所述句子多个方面的表示特征包括：

和

和

的维度均为

和

的训练方法是本领域技术人员所熟知的常规方法，在此不再赘述。

上述方式的优势在于其能够将单个序列中不同位置的元素联系起来，可以很灵活地表现长距离依赖和本地依赖的情况，进而很好地描述词语间的关系，提高实体关系预测的准确性。

在本实施例中，预设次数的取值可以在5～12之间，例如5、6、8、9、12等。若预设次数的取值过小，则不能很好地体现出多方面特征的效果，而预设次数的取值太大时，则会产生不必要的冗余，增加计算负担，因而选取5～12种不同角度的特征表示，在后续计算中可以取得更好的应用效果。

在本实施例中，如图4所示，在步骤S4000和步骤S5000之间，还包括步骤S8000：根据所述多个方面的表示特征得到一个融合特征。将多个方面的表示特征融合为一个特征，以方便后续的计算。

对多个方面的特征进行空间表示融合，采用多通道卷积神经网络进行特征级融合。在文本处理领域，卷积神经网络在使用时在大多情况下建立在单一通道之上，但本发明中，由于对待处理句子的文本特征进行了多个方面的表示，优选地采用了多通道的卷积神经网络，将多个不同方面的表示特征利用卷积融合得到新的融合特征，以聚合多种角度的特征表示。

具体地，将每个方面的所述表示特征分别放入卷积神经网络的一个单独通道；对于每一所述单独通道，通过下述公式计算所述融合特征中的特征向量，

c_j＝f(W_f·h_(i;i+n-1)+b_f)其中，j的取值范围为[1,m]，c_j表示所述融合特征中的第j项特征向量，m为卷积核的个数，f为非线性函数，W_f为参数矩阵，b_f为偏置参数，h_(i：i+n-1)由h_i、h_i+1、…、h_i+n-1依次连接组成，n为卷积窗口的长度，h_i表示第i个方面的所述表示特征；

最后，根据计算得到的所述m个特征向量生成所述融合特征，融合特征c＝[c₁，c₂，…，c_m]。

在本实施例中，通过引入多个方面的表示特征，弥补了传统方法中特征提取角度单一的不足，能够更全面、更完备的描述句子，进而更准确地提取实体之间的关系，增益知识图谱的有效构建。

实施例三

在本实施例中，提供了一种知识图谱构建方法，如图5所示，包括以下步骤：

步骤S1：对待处理的句子进行分词，得到多个单独词。例如在句子“Robert DowneyJr.is the actor of Iron Man”中，分词得到的结果为“Robert Downey Jr.”、“is”、“the”、“actor”、“of”和“Iron Man”。

步骤S2：识别所述多个单独词中的实体，将所述实体两个一组组成实体对。实体识别可以采用基于规则的方法，或者基于模型的方法，在此不作限制。在上述例子中，经过实体识别可以找到句子中存在的两个实体“Robert Downey Jr.”和“Iron Man”。

步骤S3：对于每个实体对，计算所述多个单独词分别与所述实体对中两个实体的相对位置向量PF。对于实体对中的第一实体e₁和第二实体e₂，分别计算所述单独词相对于所述第一实体e₁以及所述单独词相对于第二实体e₂的相对距离。例如，单独词“actor”与两个实体“Robert Downey Jr.”和“Iron Man”的相对距离分别为-3和2。

在本方案中，预设了最小距离e_min和最大距离e_max的取值，在计算单独词相对于某一实体的相对距离之后，判断所述相对距离是否在预设的最小距离e_min与最大距离e_max的范围之内，若所述相对距离小于所述最小距离e_min，则以所述最小距离e_min替换所述相对距离；若所述相对距离大于所述最大距离e_max，则以所述最大距离e_max替换所述相对距离。例如，预设的有效距离范围为-7～7，那么当句子中某一单词与某一实体的距离为9时，则以7代替，同样的，如果相对距离为-9，则以-7代替。

得到相对距离之后，根据随机初始化的位置向量矩阵

将所述相对距离转换为向量表示，其中的d_p表示一个相对位置向量的维度，P为固定大小的相对距离集合。

步骤S4：计算所述多个单独词的词向量WF。根据预设的词向量模型训练词向量。所述词向量模型中，词向量均被编码在预设的词向量矩阵

步骤S5：根据所述词向量WF和所述相对位置向量PF得到所述单独词的词-位置向量。对于所述句子中第i个单独词，它的词-位置向量v_i由它的词向量WF_i和与实体对的相对位置向量PF_i连接组成。每个单独词的词-位置向量的维度均为(d_w+2d_p)。

步骤S6：根据所述句子中包括的所述多个单独词的词-位置向量得到所述句子的句向量v。所述句子的句向量v可以经由句子包含单独词的词-位置向量依次拼接组成。因此，句向量v的维度为(d_w+2d_p)×d_v，d_v为构成所述句向量的所述单独词的数目。

步骤S7：根据所述句向量，按照下述公式计算预设次数的所述表示特征，

和

和

的维度为

根据多次试验的结果，所述预设次数的取值在5～12之间时能够取得较好的效能，既不会因为表示角度太少而失去意义，也不会因为角度过多造成冗余，影响后续的计算。

步骤S8：将每个方面的所述表示特征分别放入卷积神经网络的一个单独通道；对于每一所述单独通道，通过下述公式计算所述融合特征中的特征向量，

c_j＝f(w_f·h_(i：i+n-1)+b_f)

其中，j的取值范围为[1,m]，c_j表示所述融合特征中的第j项特征向量，m为卷积核的个数，f为非线性函数，W_f为参数矩阵，b_f为偏置参数，h_(i：i+n-1)由h_i、h_i+1、…、h_i+n-1依次连接组成，n为卷积窗口的长度，h_i表示第i个方面的所述表示特征。

步骤S9：根据计算得到的所述m个特征向量生成所述融合特征，融合特征c＝[c₁，c₂，…，c_m]。

步骤S10：对所述融合特征中包括的所述特征向量c进行全局平均池化，得到所述特征向量c_j分别对应的聚合信息z_j。

聚合信息z_j根据下述公式进行计算，

其中，M×N为向量c_j的维度。

步骤S11：利用两个全连接网络对所述聚合信息z进行筛选，得到所述特征向量c_j对应的筛选参数s_j。

分别采用ReLu函数和softsign函数作为两个全连接网络的激活函数，如下述公式所示：

s_j＝softsign(W₂ReLu(W₁z_j))

其中，W₁、W₂分别为两个全连接网络的参数矩阵。

步骤S12：根据所述筛选参数s_j判断所述特征向量c_j是否为噪声特征；

步骤S13：将所述噪声特征屏蔽，将特征向量c_j更新为新的特征向量x_i；

根据下述公式进行所述筛选参数的判断与屏蔽，

步骤S14：根据所述更新后的特征向量x_j，将所述融合特征c更新为新的融合特征

步骤S15：获取所述融合特征

包括的每一所述特征向量x_j的突出特征

所述突出特征

包括所述特征向量x_j中元素的最大值和平均值，如下述公式所示：

步骤S16：根据所述突出特征

按照如下公式获取高层特征集合q，

步骤S17：根据所述高层特征集合q，利用全连接网络预测所述实体对的关系概率向量y，如下述公式所示：

其中，w_p为所述全连接网络的参数矩阵，r为符合伯努利分布的遮蔽向量，b_p为偏置参数，符号

表示的是两个矩阵逐元素相乘的操作。

关系概率向量中每一个元素代表了实体对之间某一种实体关系可能性的概率，其中每一坐标确定的元素预设了一种实体关系。例如，该关系概率向量y＝(P(生日)，P(年龄)，P(职业)…)，其中每一个元素都代表了第一实体和第二实体之间某种关系的概率。

步骤S18：将所述关系概率向量y中最大的元素y_max对应的关系作为所述实体对的实体关系输出。在前述的例子中，若实体对“Robert Downey Jr.”和“Iron Man”预测得到的关系概率向量中，表示“扮演者”这一关系的概率最大，那么“扮演者”即可作为该实体对的实体关系输出，进而用于知识图谱的构建。

步骤S19：根据所述实体对和对应的实体关系构建知识图谱。

在上述步骤中，首先在描述句向量时引入了句子中单独词相对于实体对的相对位置向量，体现了句子中词语与实体对中实体关系的贡献；其次，采用多头的自注意力机制提取句子特征，从多个角度、多个方面对句子进行挖掘与描述，并将其融合，在进行实体关系预测时更加全面、有效；之后，在得到融合特征以后，对特征中含有的噪声进行筛选与屏蔽，去掉了噪声特征的干扰，提高了实体关系预测的准确性。进一步地，利用更全面、更准确的实体关系来构建、完善知识图谱，能够使得到的知识图谱更加精准、完备。

实施例四

在本实施例中，如图6所示，提供了一种知识图谱的构建装置，具体包括：

句子分词模块10，所述句子分词模块10用于对待处理的句子进行分词，得到多个单独词；

实体识别模块20，所述实体识别模块20用于识别所述多个单独词中的实体，将所述实体两个一组组成实体对；

向量表示模块30，所述向量表示模块30用于获取所述句子的句向量；

特征提取模块40，所述特征提取模块40用于根据所述句向量，提取所述句子的表示特征；

特征筛选模块50，所述特征筛选模块50用于对所述表示特征进行特征筛选，屏蔽其中的噪声特征；

关系预测模块60，所述关系预测模块60用于根据所述表示特征预测所述实体对的实体关系；

图谱构建模块70，所述图谱构建模块70用于根据所述实体对和对应的实体关系构建知识图谱；

其中，所述特征筛选模块50包括：

信息聚合单元51，所述信息聚合单元51用于对所述表示特征中包括的特征向量进行全局平均池化，得到所述特征向量分别对应的聚合信息；

信息筛选单元52，所述信息筛选单元52用于利用两个全连接网络对所述聚合信息进行筛选，得到所述特征向量对应的筛选参数；

噪声判断单元53，所述噪声判断单元53用于根据所述筛选参数判断所述特征向量是否为噪声特征，若是，则噪声屏蔽单元54将所述噪声特征屏蔽，更新所述特征向量；

特征更新单元55，所述特征更新单元55用于根据所述更新后的特征向量，更新所述表示特征。

具体地，所述噪声屏蔽单元54将所述噪声特征屏蔽，并更新所述特征向量的方式为：

根据下述公式进行所述筛选参数的判断与屏蔽，

上述的知识图谱构建装置中，引入了特征筛选模块50，能够屏蔽噪声特征，剩余的有价值的特征参数更加具有针对性，不仅降低了计算压力，也使得结果受到的干扰更少，提高了准确性。

在本实施例中，所述实体对包括第一实体和第二实体，如图7所示，所述向量表示模块30包括：

词向量计算单元31，用于计算所述句子中所述单独词的词向量；

相对位置向量计算单元32，用于计算所述句子中所述单独词分别与所述实体对中两个实体的相对位置向量；

词-位置向量组合单元33，用于根据所述词向量和所述相对位置向量得到所述单独词的词-位置向量；

句向量组合单元34，用于根据所述句子中包括的所述多个单独词的词-位置向量得到所述句子的句向量。

其中，如图8所示，所述相对位置向量计算单元32还包括：

相对距离计算子单元321，用于分别计算所述单独词相对于所述第一实体以及所述单独词相对于第二实体的相对距离；

向量转换子单元322，用于根据预设的位置向量矩阵将所述相对距离转换为向量表示。

在本实施例中，相对距离计算子单元321通过计算句子中单独词与实体之间的相对距离，使得单独词的向量表示不再孤立，更好地体现词语之间的联系，进而关系预测模块60能够更加准确地预测实体之间的关系。

如图9所示，所述相对位置向量计算单元32还包括，阈值判断子单元323，所述阈值判断子单元323用于根据预设的最小距离与最大距离，判断所述相对距离计算子单元321计算的相对距离是否超出所述最小距离与最大距离的范围，若所述相对距离小于所述最小距离，则以所述最小距离替换所述相对距离；若所述相对距离大于所述最大距离，则以所述最大距离替换所述相对距离。

阈值判断子单元323能够将与实体之间超出预设距离的单独词的影响降低，降低了与实体之间关系不大的词语在表示句子特征中的影响。

如图10所示，所述关系预测模块60还包括：

突出特征提取单元61，用于获取所述融合特征包括的每一所述特征向量的突出特征，所述突出特征包括所述特征向量中元素的最大值和平均值；

高层特征集合获取单元62，用于根据所述突出特征，获取高层特征集合；

关系概率预测单元63，用于根据所述高层特征集合，利用全连接网络预测所述实体对的关系概率向量；

实体关系提取单元64，用于将所述关系概率向量中最大的元素对应的关系作为所述实体对的实体关系输出。

其中，所述关系概率预测单元63根据所述高层特征集合，利用全连接网络预测所述实体对的关系概率向量的方式为：根据下述公式计算所述关系概率向量，

其中，y为所述关系概率向量，w_p为所述全连接网络的参数矩阵，r为符合伯努利分布的遮蔽向量，q为所述高层特征集合，b_p为偏置参数。

关系概率预测单元63在前向传播的过程中，采用了dropout算法代替普通的向前传播的计算方式，dropout不会对代价函数进行修改，而是对深度网络本身进行调整，通过遮蔽向量r随机屏蔽掉部分神经元，因而能够有效地提升算法的泛化能力。

实施例五

在本实施例中，提供了一种知识图谱构建装置，包括：

句子分词模块100，所述句子分词模块100用于对待处理的句子进行分词，得到多个单独词；

实体识别模块200，所述实体识别模块200用于识别所述多个单独词中的实体，将所述实体两个一组组成实体对；

向量表示模块300，所述向量表示模块300用于获取所述句子的句向量；

特征提取模块400，所述特征提取模块400用于根据所述句向量，提取所述句子的表示特征；

特征筛选模块500，所述特征筛选模块500用于对所述表示特征进行特征筛选，屏蔽其中的噪声特征；

关系预测模块600，所述关系预测模块600用于根据所述表示特征预测所述实体对的实体关系；

图谱构建模块700，所述图谱构建模块700用于根据所述实体对和对应的实体关系构建知识图谱。

其中，本实施例与实施例四的区别在于，所述特征提取模块400根据所述句向量，按照下述公式计算预设次数的所述表示特征，

和

在本实施例中，特征提取模块400将自注意力机制与多头机制相结合来实现对句子和实体的不同方面的表示，通过多头来自动学习实体对中两个实体之间不同方面的关系特征，从而使得到的句子特征更加充分和全面。

此外，在本实施例中，如图11所示，还包括特征融合模块800，所述特征融合模块800用于根据所述多个方面的表示特征得到一个融合特征。优选地，如图12所示，所述特征融合模块800包括通道分配单元810、卷积计算单元820、特征融合单元830，其中：

所述通道分配单元810用于将每个方面的所述表示特征分别放入卷积神经网络的一个单独通道；

所述卷积计算单元820用于对于每一所述单独通道，通过下述公式计算所述融合特征中的特征向量，

c_j＝f(w_f·h_(i：i+n-1)+b_f)

其中，j的取值范围为[1,m]，c_j表示所述融合特征中的第j项特征向量，m为卷积核的个数，f为非线性函数，W_f为参数矩阵，b_f为偏置参数，h_(i：i+n-1)由h_i、h_i+1、…、h_i+n-1依次连接组成，n为卷积窗口的长度，h_i表示第i个方面的所述表示特征；

所述特征融合单元830用于根据计算得到的所述m个特征向量生成所述融合特征。

特征融合模块800能够将多个不同方面的表示特征利用卷积融合得到新的融合特征，聚合多种角度的特征表示。

实施例六

在本实施例中，提供了一种电子设备90，将实施例四或实施例五中的知识图谱构建装置作为一个软件模块和/或硬件模块而集成到电子设备90中，换言之，该电子设备90可以包括该知识图谱构建装置。例如，该知识图谱构建装置可以是该电子设备90的操作系统中的一个软件模块，或者可以是针对于其所开发的一个应用程序；当然，该知识图谱构建装置同样可以是该电子设备90的众多硬件模块之一。

在本申请另一实施例中，该知识图谱构建装置与该电子设备90也可以是分立的设备(例如，服务器)，并且该知识图谱构建装置可以通过有线和/或无线网络连接到该电子设备90，并且按照约定的数据格式来传输交互信息。

图13所示为本申请一实施例提供的电子设备90的结构示意图。如图13所示，该电子设备90包括：一个或多个处理器91和存储器92；以及存储在存储器92中的计算机程序指令，计算机程序指令在被处理器91运行时使得处理器91执行如上述任一实施例的知识图谱构建方法。

处理器91可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备90中的其他组件以执行期望的功能。

存储器92可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器91可以运行所述程序指令，以实现上文所述的本申请的各个实施例的知识图谱构建方法中的步骤以及/或者其他期望的功能。

在一个示例中，电子设备90还可以包括：输入装置93和输出装置94，这些组件通过总线系统和/或其他形式的连接机构(图13中未示出)互连。

该输出装置94可以向外部输出各种信息，例如可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图13中仅示出了该电子设备90中与本申请有关的组件中的一些，省略了诸如总线、输入装置/输出接口等组件。除此之外，根据具体应用情况，电子设备90还可以包括任何其他适当的组件。

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，包括计算机程序指令，计算机程序指令在被处理器运行时使得处理器执行如上述任一实施例的知识图谱构建方法中的步骤。

计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述知识图谱构建方法部分中描述的根据本申请各种实施例的知识图谱构建方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

需要指出的是，在本申请的装置和设备中，各部件是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种知识图谱构建方法，其特征在于，包括以下步骤：

对待处理的句子进行分词，得到多个单独词；所述待处理的句子为具有一定长度的文本，包括：新闻文本、用户输入文本和由语音输入识别的转换的文本；

识别所述多个单独词中的实体，将所述实体两个一组组成实体对；所述实体是文本中具有特定含义或者具有很强指代性的名词，包括：人名、地名、机构名称、时间和专用名词；

对于每个所述实体对，获取所述句子的句向量；

根据所述句向量，提取所述句子的表示特征；

对所述表示特征进行特征筛选，屏蔽其中的噪声特征；

根据所述表示特征预测所述实体对的实体关系；

根据所述实体对和对应的实体关系构建知识图谱；

根据更新后的特征向量，更新所述表示特征；

所述句向量包括多个所述单独词的词-位置向量，所述单独词的词-位置向量包括所述单独词的词向量，以及所述单独词与所述实体对的相对位置向量；

所述实体对包括第一实体和第二实体，获取所述单独词与所述实体对的相对位置向量的步骤包括：分别计算所述单独词相对于所述第一实体以及所述单独词相对于第二实体的相对距离；根据预设的位置向量矩阵将所述相对距离转换为向量表示；

所述分别计算所述单独词相对于所述第一实体以及所述单独词相对于第二实体的相对距离之后，所述根据预设的位置向量矩阵将所述相对距离转换为向量表示之前，还包括步骤：判断所述相对距离是否在预设的最小距离与最大距离的范围之内，若所述相对距离小于所述最小距离，则以所述最小距离替换所述相对距离；若所述相对距离大于所述最大距离，则以所述最大距离替换所述相对距离。

2.如权利要求1所述的知识图谱构建方法，其特征在于，所述根据所述句向量，提取所述句子的表示特征包括：

其中，h_i为第i个方面的所述表示特征，i的取值范围为[1,l]，l为所述预设次数，v为所述句向量，d_v为构成所述句向量的所述单独词的数目，W_i ^Q、

和W_i ^V分别表示第i次计算时的不同的参数矩阵且分别通过神经网络训练获得。

3.如权利要求2所述的知识图谱构建方法，其特征在于，所述根据所述句向量，提取所述句子的表示特征之后，所述对所述表示特征中包括的特征向量进行全局平均池化，得到所述特征向量分别对应的聚合信息之前，还包括步骤：

根据多个方面的表示特征得到一个融合特征。

4.如权利要求3所述的知识图谱构建方法，其特征在于，所述根据所述多个方面的表示特征得到一个融合特征包括：

将每个方面的所述表示特征分别放入卷积神经网络的一个单独通道；

对于每一所述单独通道，通过下述公式计算所述融合特征中的特征向量，

c_j＝f(w_j·h_(i：i+n-1)+b_f)

其中，j的取值范围为[1,m]，c_j表示第j项特征向量，m为卷积核的个数，f为非线性函数，w_f为参数矩阵，b_f为偏置参数，h_(i：i+n-1)由h_i、h_i+1、…、h_i+n-1依次连接组成，n为卷积窗口的长度，h_i表示第i个方面的所述表示特征；

根据计算得到的m个特征向量生成所述融合特征。

5.如权利要求1所述的知识图谱构建方法，其特征在于，所述根据所述筛选参数判断所述特征向量是否为噪声特征，若是，则进行步骤S540，将所述噪声特征屏蔽，更新所述特征向量包括：

根据下述公式进行所述筛选参数的判断与屏蔽，

6.如权利要求1所述的知识图谱构建方法，其特征在于，所述根据所述表示特征预测所述实体对的实体关系包括：

获取所述表示特征包括的每一所述特征向量的突出特征，所述突出特征包括所述特征向量中元素的最大值和平均值；

根据所述突出特征，获取高层特征集合；

根据所述高层特征集合，利用全连接网络预测所述实体对的关系概率向量；

将所述关系概率向量中最大的元素对应的关系作为所述实体对的实体关系输出。

7.如权利要求6所述的知识图谱构建方法，其特征在于，所述根据所述高层特征集合，利用全连接网络得到所述实体对的关系概率向量包括：

根据下述公式计算所述关系概率向量，

8.一种知识图谱构建装置，其特征在于，包括：

句子分词模块，所述句子分词模块用于对待处理的句子进行分词，得到多个单独词；所述待处理的句子为具有一定长度的文本，包括：新闻文本、用户输入文本和由语音输入识别的转换的文本；

实体识别模块，所述实体识别模块用于识别所述多个单独词中的实体，将所述实体两个一组组成实体对；所述实体是文本中具有特定含义或者具有很强指代性的名词，包括：人名、地名、机构名称、时间和专用名词；

其中，所述特征筛选模块包括：

特征更新单元，所述特征更新单元用于根据更新后的特征向量，更新所述表示特征；

所述实体对包括第一实体和第二实体，所述向量表示模块包括：词向量计算单元，用于计算所述句子中所述单独词的词向量；相对位置向量计算单元，用于计算所述句子中所述单独词分别与所述实体对中两个实体的相对位置向量；词-位置向量组合单元，用于根据所述词向量和所述相对位置向量得到所述单独词的词-位置向量；句向量组合单元，用于根据所述句子中包括的所述多个单独词的词-位置向量得到所述句子的句向量；

所述相对位置向量计算单元还包括：相对距离计算子单元，用于分别计算所述单独词相对于所述第一实体以及所述单独词相对于第二实体的相对距离；向量转换子单元，用于根据预设的位置向量矩阵将所述相对距离转换为向量表示；

所述相对位置向量计算单元还包括，阈值判断子单元，所述阈值判断子单元用于根据预设的最小距离与最大距离，判断所述相对距离计算子单元计算的相对距离是否超出所述最小距离与最大距离的范围，若所述相对距离小于所述最小距离，则以所述最小距离替换所述相对距离；若所述相对距离大于所述最大距离，则以所述最大距离替换所述相对距离。

9.一种存储介质，其上存储有计算机指令，其特征在于，所述计算机指令运行时执行权利要求1至7任一项所述方法的步骤。

10.一种电子设备，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机指令，其特征在于，所述处理器运行所述计算机指令时执行权利要求1至7任一项所述方法的步骤。