CN112182245B

CN112182245B - 一种知识图谱嵌入模型的训练方法、系统和电子设备

Info

Publication number: CN112182245B
Application number: CN202011040457.7A
Authority: CN
Inventors: 黄庆明; 曹宗胜; 许倩倩; 杨智勇; 操晓春
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2022-11-29
Anticipated expiration: 2040-09-28
Also published as: CN112182245A

Abstract

本发明实施例提供了一种知识图谱嵌入模型的训练方法、系统和电子设备，训练方法包括：A1、用对偶四元数构建知识图谱嵌入模型的嵌入空间，通过对偶四元数将知识图谱中的关系建模为嵌入空间中的旋转和平移；A2、从预设知识图谱中的正样本中进行负采样以生成负样本；A3、对正样本和负样本进行初始化，得到包含以初始嵌入向量表示的正样本和负样本的训练集；A4、利用所述训练集对所述知识图谱嵌入模型进行迭代训练至收敛。本发明构造的新模型可以同时兼具旋转的性能和平移的性能，使得训练得到的知识图谱嵌入模型的嵌入性能得到提升，输出的实体嵌入或者关系嵌入能够更准确地表达预设知识图谱中的实体或者关系。

Description

一种知识图谱嵌入模型的训练方法、系统和电子设备

技术领域

本发明涉及人工智能领域，具体来说涉及知识图谱嵌入技术领域，更具体地说，涉及一种知识图谱嵌入模型的训练方法、系统和电子设备。

背景技术

知识图谱(Knowledge Graph,简称KG)代表实体的相互链接描述的集合，即真实世界的对象、事件、情况或抽象概念。在过去的十年中，知识图谱已被证明是从问题解答、知识推断到自然语言处理等广泛应用的必不可少的组成部分。为了有效地将知识图谱集成到下游人工智能(Artificial Intelligence，简称AI)应用程序中，其中的关键步骤是进行知识图谱嵌入(Knowledge Graph Embedding，简称KGE)，知识图谱嵌入的目的是将知识图谱中的实体和关系编码为低维表示形式。

知识图谱嵌入在以下方面有重要作用：

第一、反欺诈方面，知识图谱在反欺诈方面的作用非常大，反欺诈最终目的是识别坏人，把坏人跟其他未知人群的关系找出来，从而认定其他未知人群是否是坏人。先前的普通技术如人为推断等，只能推断一层网络的关系和结构，现在的知识图谱技术则是可以搜索和预测多层的结构和关系，因此效果得到了大大的提升。寻找犯罪嫌疑团伙、不法中介的过程实际上就是要看很大规模的一张网，看很多层关系，关系之间还有强关系、弱关系等。

第二、智能搜索方面，智能搜索的功能类似于知识图谱在谷歌(Google)、百度上的应用。也就是说，对于每一个搜索的关键词，我们可以通过知识图谱来返回更丰富，更全面的信息。

第三、推荐引擎方面，推荐引擎通过知识图谱，查询某节点的消费情况可为其推荐关联度高的可能消费的商品。

第四、精准营销方面，一个聪明的企业可以比它的竞争对手以更为有效的方式去挖掘其潜在的客户。在互联网时代，营销手段多种多样，但不管有多少种方式，都离不开一个核心，即分析和理解用户。知识图谱可以结合多种数据源去分析实体之间的关系，从而对用户的行为有更好的理解。比如一个公司的市场经理用知识图谱来分析用户之间的关系，去发现一个组织的共同喜好，从而可以有针对性的对某一类人群制定营销策略。

从发展历史看，大多数知识图谱嵌入方法根据它们处理关系的方式大致分为两个分支。第一个分支，在本文中称为平移家族(Translation家族)，包括TransE模型^[1]及其变体。这些方法的共同特点是它们都将关系建模为嵌入空间中头节点到尾节点之间的平移变换。TransE模型是第一个基于“头节点+关系节点＝尾节点”原理实现这一假设的模型。然后，TransH模型，TransR模型，TransD模型和TransA模型通过不同的投影策略改进了这种想法。TransG模型、KG2E模型通过分别考虑贝叶斯非参数高斯混合模型和高斯分布协方差，进一步将概率论原理注入该框架。TranSparse模型为传输矩阵提供自适应稀疏性，以寻找知识图谱的异质性和不平衡问题的解决方案。此外，最近一项名为TorusE的工作采用了李群方法从而避免将嵌入空间强制在球面上。总而言之，与以往的复杂模型相比，TransE家族的模型提供了一种简单而有效的方法来获得更好的结果。但遗憾的是，它们无法完全捕获知识图谱中关系的所有四个基本模式，即对称、反对称、反演和组成模式。

另一个分支的研究，在这里称为旋转家族(Rotation家族)，它作为学习嵌入复杂空间中的一种替代方法而出现。这种做法首先是由DistMult^[2]和ComplEx^[3]发起的。然后RotatE^[4]提出只有一个旋转表面的复杂空间旋转模型，将关系作为从头部实体到尾部实体的旋转。充分利用这一特性，RotatE模型是第一个统一KGE对称性/反对称性，反演和组成模式的模型。这表明，复杂空间中的旋转操作可以利用捕获知识表示的四个基本模式，这也是为什么我们以旋转家族命名此研究方向的原因。最近，有人提出QuatE模型，其用两个旋转表面将复空间扩展到四元数空间。尽管如此，我们观察到旋转并不总是对关系建模的更好方法。例如，反对称关系(例如父子关系)应自然地视为嵌入空间中的平移操作。从这个意义上讲，单一地采用平移或者旋转来对关系进行建模时，其所表达的语义的准确性还有待提高。因此，有必要对现有技术进行改进。在对关系进行建模的时候，统一平移和旋转操作至关重要。

以上[·]表示相关现有技术对应的文献编号，关于这些现有技术的更多的信息可以参照例如下面的技术文献，其通过引用合并于此，犹如明确地阐述：

[1].Antoine Bordes,Nicolas Usunier,Alberto Garcia-Duran,JasonWeston,and Oksana Yakhnenko.Translating embeddings for modeling multi-relationaldata.In Advances in neural information processing systems,pages 2787–2795,2013.

[2].Bishan Yang,Wentau Yih,Xiaodong He,Jianfeng Gao,and LiDeng.Embedding entities and relations for learning and inference in knowledgebases.arXiv:Computation and Language,2014.

[3].Theo Trouillon,Johannes Welbl,Sebastian Riedel,Eric Gaussier,andGuillaume Bouchard.Complex embeddings for simple link prediction.pages 2071–2080,2016.

[4].Zhiqing Sun,Zhihong Deng,Jianyun Nie,and Jian Tang.Rotate:Knowledge graph embedding by relational rotation in complex space.2019.

发明内容

因此，本发明的目的在于克服上述现有技术的缺陷，提供一种知识图谱嵌入模型的训练方法、系统和电子设备。

本发明的目的是通过以下技术方案实现的：

根据本发明的第一方面，提供一种知识图谱嵌入模型的训练方法，包括：A1、用对偶四元数构建知识图谱嵌入模型的嵌入空间，通过对偶四元数将知识图谱中的关系建模为嵌入空间中的旋转和平移；A2、从预设知识图谱中的正样本中进行负采样以生成负样本；A3、对正样本和负样本进行初始化，得到包含以初始嵌入向量表示的正样本和负样本的训练集；A4、利用所述训练集对所述知识图谱嵌入模型进行迭代训练至收敛。

在本发明的一些实施例中，步骤A1包括：在嵌入空间中，通过对偶四元数矩阵表示知识图谱中实体对应的实体嵌入，以及通过对偶四元数矩阵表示知识图谱中关系对应的关系嵌入。

在本发明的一些实施例中，所述预设知识图谱包括正样本，每个正样本包括头部实体、关系和尾部实体，所述步骤A2按照以下方式进行负采样以使负样本的数量达到所需规模：A21、从实体集中随机选择与正样本中待替换实体彼此不同的代用实体，所述待替换实体是头部实体或者尾部实体；A22、用代用实体替换该正样本的待替换实体形成一个负样本。

在本发明的一些实施例中，所述步骤A3包括：A31、对预设知识图谱中的各个实体和关系进行初始化，得到归一化的对偶四元数表示的初始的实体嵌入和关系嵌入；A32、将正样本和负样本中的头部实体、关系和尾部实体替换对应的初始的实体嵌入和关系嵌入。

在本发明的一些实施例中，所述步骤A4按照以下方式对知识图谱嵌入模型进行迭代训练至收敛，得到最终的知识图谱嵌入模型以及各实体嵌入和关系嵌入：A41、获取最新的实体嵌入和关系嵌入并对最新的关系嵌入进行单位化，用于最新的实体嵌入和以单位对偶四元数表示的关系嵌入更新正样本和负样本中的实体和关系的嵌入向量；A42、用知识图谱嵌入模型分别对正样本和负样本进行处理，得到正样本的嵌入向量以及负样本的嵌入向量；A43、利用预设的打分函数分别对正样本和负样本的嵌入向量进行打分，得到正样本的分值和负样本的分值；A44、利用损失函数根据正样本的分值和负样本的分值计算损失值；A45、根据损失值对知识图谱嵌入模型中的参数进行调整，更新各个实体嵌入和关系嵌入。

在本发明的一些实施例中，所述打分函数分别用正样本、负样本中经过旋转和平移后的头实体与尾实体的对偶四元数的内积作为对应正样本、负样本的分值。

在本发明的一些实施例中，所述损失函数为：

其中，Q表示用对偶四元数表示的实体的嵌入向量，W_r表示用对偶四元数表示的关系的嵌入向量，r(h，t)表示三元组(h，r，t)中的头实体h和尾实体t由关系r连接，Ω表示正样本，Ω^-表示从预设知识图谱中未观察到的正样本中使用负采样策略进行负采样得到的负样本，exp(·)表示指数函数，Y_hrt∈{-1，1}表示三元组(h，r，t)对应的标签，如果三元组存在于图谱中，Y_hrt取1，否则取零，φ(h，r，t)表示得分函数，λ₁、λ₂表示正则化率，

表示使用具有正则化率λ₁的l₂范数对Q进行正则化，

表示使用具有正则化率λ₂的l₂范数对W_r进行正则化。

根据本发明的第二方面，提供一种基于知识图谱嵌入模型的检索方法，其特征在于，包括：使用如第一方面所述训练方法得到的知识图谱嵌入模型进行知识检索。

在本发明的一些实施例中，所述使用如第一方面所述训练方法得到的知识图谱嵌入模型进行知识检索包括：B1、获取用户输入的两个检索元素用于知识检索，所述两个检索元素为实体和关系，或者，实体和实体；B2、将实体集或者关系集中的各元素分别作为补全元素与所述两个检索元素组成不同的三元组，以及将不同的三元组中的实体和关系用训练得到的实体嵌入和关系嵌入进行表示，得到不同的待验证三元组；B3、用知识图谱嵌入模型分别对不同的待验证三元组进行处理，得到不同的待验证三元组的嵌入向量；B4、利用预设的打分函数分别对不同的待验证三元组的嵌入向量进行打分，得到不同的待验证三元组的分值；B5、输出分值最高的待验证三元组中的补全元素作为知识检索的结果。

根据本发明的第三方面，提供一种知识图谱嵌入模型的训练系统，包括：嵌入空间构建模块，用于构建知识图谱嵌入模型的嵌入空间，通过对偶四元数将知识图谱中的关系建模为嵌入空间中的旋转和平移；负采样模块，用于从预设知识图谱中的正样本中进行负采样以生成负样本；初始化模块，用于对正样本和负样本进行初始化，得到包含以初始嵌入向量表示的正样本和负样本的训练集；模型训练模块，用于利用训练集对所述知识图谱嵌入模型进行迭代训练。

根据本发明的第四方面，提供一种基于知识图谱嵌入模型的检索系统，包括：检索信息获取模块，用于获取用户输入的进行知识检索的两个检索元素，所述两个检索元素为实体和关系，或者，实体和实体；待验证三元组配置模块，用于将实体集或者关系集中的各元素分别作为补全元素与所述两个检索元素组成不同的三元组，以及将不同的三元组中的实体和关系用训练得到的实体嵌入和关系嵌入进行表示，得到不同的待验证三元组；知识图谱嵌入模块，用如第一方面所述的训练方法得到的知识图谱嵌入模型分别对不同的待验证三元组进行处理，得到不同的待验证三元组的嵌入向量；打分模块，用于利用预设的打分函数分别对不同的待验证三元组的嵌入向量进行打分，得到不同的待验证三元组的分值；检索结果输出模块，用于输出分值最高的待验证三元组中的补全元素作为知识检索的结果。

根据本发明的第四方面，一种电子设备，包括：一个或多个处理器；以及存储器，其中存储器用于存储一个或多个可执行指令；所述一个或多个处理器被配置为经由执行所述一个或多个可执行指令以实现第一方面或者第二方面所述方法的步骤。

与现有技术相比，本发明的优点在于：

本发明对构造的知识图谱嵌入模型的嵌入空间进行了改变，其嵌入空间为对偶四元数空间，使得新模型可以同时兼具旋转的性能和平移的性能，使得训练得到的知识图谱嵌入模型的嵌入性能得到提升，输出的实体嵌入或者关系嵌入能够更准确地表达预设知识图谱中的实体或者关系。

附图说明

以下参照附图对本发明实施例作进一步说明，其中：

图1为根据本发明实施例的面向神经网络对数量化装置的系统示意图；

图2为根据本发明实施例的面向神经网络对数量化装置取高位模块结构原理示意图；

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如在背景技术部分提到的，本发明的目的是克服上述现有技术在进行知识嵌入时嵌入方法单一的问题，提出了一种称为基于对偶四元数的知识图谱嵌入方法(DualE)。我们引入了对偶四元数作为嵌入空间的代数系统，具体地，在对偶四元数空间中的嵌入是使用形为a+b∈的超复空间

中的向量，其中a和b都是四元数，分别表示向量的实部和对偶部分，∈表示一种对偶的代数结构。可以证明，通过正确定义基于对偶四元数的乘法，可以将知识图谱中的关系表示为平移和旋转操作的组合。如图1所示，现有的嵌入模型主要分为两种，一种是平移(Translation)家族，其中TransE模型为平移家族中最早的平移模型，TransH模型、TransR模型、TransD模型都是TranE模型的变种，它们的嵌入空间为欧式空间(欧几里得空间)。另一种是旋转(Rotation)家族，它们由DistMult模型、ComplEx模型、RotatE模型和QuatE模型一路发展而来，它们的嵌入空间为复空间，其中QuatE模型的嵌入空间为四元数空间。单一地采用平移或者旋转来对关系进行建模时，其所表达的语义的准确性还有待提高。在对关系进行建模的时候，统一平移和旋转操作至关重要。基于以上两个嵌入家族，本发明提出的新的知识图谱嵌入模型(对应于DualE模型)中，对构造的模型的嵌入空间进行了改变，其嵌入空间为对偶四元数空间，使得新模型可以同时兼具旋转的性能和平移的性能，这使本发明能够统一平移和旋转家族，使得训练得到的知识图谱嵌入模型的嵌入性能得到提升，输出的实体嵌入或者关系嵌入能够更准确地表达预设知识图谱中的实体或者关系。由于统一了平移和旋转家族，使得本发明的模型可以完全捕获知识图谱中关系的所有四个基本模式，即对称、反对称、反演和组成。此外，现有的其他嵌入空间大多也是用对偶四元数构建的嵌入空间的子空间，使得本发明能够适用于扩展到其他的知识图谱嵌入模型，以对现有的多种模型进行统一，减少使用和维护成本。

在对本发明的实施例进行具体介绍之前，先对其中使用到的部分术语作如下解释：

知识图谱是一种揭示实体之间关系的语义网络，是一种知识库。知识图谱包括实体集、关系集和事实集。其中，事实集包括正样本，每个正样本包括头部实体、关系和尾部实体。例如，定义知识图谱

其中，ε表示实体集，

表示关系集，

表示事实集。实体集包括定义的多个实体；例如，北京、中国、四川、成都、韩国、首尔等。关系集包括定义的多个关系；例如，首都、省会等。事实集中的每个样本(对应于正样本)表示为图谱三元组

N_h表示头部实体，N_r表示关系，N_t表示尾部实体；例如，{中国，首都，北京}，{四川，省会，成都}，{韩国，首都，首尔}等。

四元数是由实数加上三个虚部i、j、k组成的超复数。四元数的定义和复数非常类似，唯一的区别就是四元数一共有三个虚部，而复数只有一个虚部，所有的四元数

表示四元数的集合，四元数都可以写成下面这种形式：q＝a+bi+cj+dk，

i²＝j²＝k²＝-1，其中，a，b，c，d表示实数，i，j，k表示四元数的基元(虚数)。上面的这个公式决定了四元数的旋转性质。

对偶四元数，是对偶数和四元数在多维空间中的结合。对偶四元数可以理解为元素为四元数的对偶数，同样可以理解为元素为对偶数的四元数。对偶四元数的定义为Q＝Q₁+∈Q₂，其中Q₁和Q₂均分别表示四元数Q₁和Q₂，∈表示对偶单位。∈不是一个普通的数字，它是一个代数符号，满足∈²＝0。较之四元数只能表示三维旋转，对偶数只能表示平移，对偶四元数的优越性体现在它继承了二者的共同特性，从而能统一的表示旋转与平移。

本发明提供一种知识图谱嵌入模型的训练方法，包括：步骤A1、A2、A3和A4。为了更好地理解本发明，下面结合具体的实施例针对每一个步骤分别进行详细说明。

在步骤A1中，用对偶四元数构建知识图谱嵌入模型的嵌入空间，通过对偶四元数将知识图谱中的关系建模为嵌入空间中的旋转和平移。

根据本发明的一个实施例，知识图谱包括正样本。每个正样本包括两个实体和用于连接两个实体的关系，通常表示为三元组(h，r，t)，h和t是实体，具体的，h表示头实体或者头部实体，t表示尾实体或者尾部实体，r表示关系。例如，一个示意性的正样本为{四川，省会，成都}，该正样本中，四川是头部实体，省会是关系，成都是尾部实体，表示四川的省会是成都。本发明用对偶四元数构建知识图谱嵌入模型的嵌入空间，其目的就是通过训练知识图谱嵌入模型，获得能够将实体或关系转换为在嵌入空间的实体嵌入或者关系嵌入(相当于在嵌入空间中的位置)的知识图谱嵌入模型。实体嵌入或者关系嵌入是指嵌入向量。而由于本发明的嵌入空间是采用对偶四元数构建的，则可以通过对偶四元数将知识图谱中的关系建模为嵌入空间中的旋转和平移。

由此，本发明的知识图谱嵌入模型具有比大多数以前的模型更丰富的表示能力，本发明的模型是第一个将旋转家族的旋转操作和平移家族的平移操作作为其特例的统一框架，并且这两个家族全部都只实现了本发明的模型中的部分组件功能。优选的，本发明的知识图谱嵌入模型可以采用前馈神经网络(Back Propagation Neural Network)。优选的，前馈神经网络的输入层的层数设置范围为80～120层，输出层的层数设置范围为40～60层。

根据本发明的一个实施例，步骤A1包括：在嵌入空间中，通过对偶四元数矩阵表示知识图谱中实体对应的实体嵌入，以及通过对偶四元数矩阵表示知识图谱中关系对应的关系嵌入。对偶四元数可以表示为：σ＝p+∈q；其中，p和q分别为四元数，∈为对偶单位，满足∈²＝0，p＝p₀+p₁i+p₂j+p₃k，q＝q₀+q₁i+q₂j+q₃k，其中，p₀，p₁，p₂，p₃表示实部的实数，q₀，q₁，q₂，q₃表示对偶部分的实数，i，j，k分别表示不同的虚数部分。基于以上关于对偶四元数的说明，假设有一个由N个实体和M个关系组成的知识图谱

则可使用对偶四元数矩阵

表示实体嵌入，使用对偶四元数矩阵

表示关系嵌入，其中k是嵌入的尺寸。头实体h、尾实体t、关系r对应的以对偶四元数表示的头节点Q_h、尾节点Q_t、关系节点W_r的分别为：

在步骤A2中，从预设知识图谱中的正样本中进行负采样以生成负样本。

根据本发明的一个实施例，预设知识图谱包括多个正样本，每个正样本包括头部实体、关系和尾部实体。步骤A2按照以下方式进行负采样以使负样本的数量达到所需规模：A21、从实体集中随机选择与正样本中待替换实体彼此不同的代用实体，所述待替换实体是头部实体或者尾部实体；A22、用代用实体替换该正样本的待替换实体形成一个负样本。例如，假设一个事实集包括正样本{韩国，首都，首尔}，在负采样时将首尔作为待替换实体，在步骤A21中，从实体集中随机选择到的与首尔彼此不同的代用实体为釜山，在步骤A22中，用釜山替换正样本{韩国，首都，首尔}中的首尔，形成一个负样本{韩国，首都，釜山}。优选的，负采样时可以采用设定的负采样策略进行采样。负采样策略是统一采样、伯努利(Bernoulli)采样和对抗采样中的一种或者多种。优选的，为每个训练批次(Batch)进行负采样时，该训练批次中采样的负样本的数量规模从数量集{1,5,10,20}中随机选取。比如，某次选取的数量规模是5，则为对应的训练批次采样5个负样本，将该5个负样本和本批次的正样本一起作为训练数据用于训练知识图谱嵌入模型。该实施例的技术方案至少能够实现以下有益技术效果：通过该方式选取的负样本和正样本一起训练模型，可以提高训练得到的知识图谱嵌入模型的嵌入性能。

在步骤A3中，对正样本和负样本进行初始化，得到包含以初始嵌入向量表示的正样本和负样本的训练集。

根据本发明的一个实施例，不同的参数初始化方案会影响深度神经网络(DeepNeural Networks，简称DNN)的效率。适当的初始化可提高DNN的收敛性，降低梯度爆炸和梯度逐渐消失的风险，并且通常会带来实质性的性能改善，并且如果参数初始化不合适，那么会引起反向传播时算法性能的下降。步骤A3包括：A31、对预设知识图谱中的各个实体和关系进行初始化，得到以单位对偶四元数表示的初始的实体嵌入和关系嵌入；A32、将正样本和负样本中的头部实体、关系和尾部实体替换对应的初始的实体嵌入和关系嵌入。对各个实体和关系进行初始化时，所有的关系转换为中间嵌入向量后，对中间嵌入向量经过归一化处理，得到单位对偶四元数。由此，可以消除对关系的缩放效果，提升模型得到的嵌入向量的准确性。前面提到，对偶四元数的形式可以表示为：σ＝p₀+p₁i+p₂j+p₃k+∈(q₀+q₁i+q₂j+q₃k)。在对偶四元数的基础上，满足以下要求可被称为单位对偶四元数：

p₀q₀+p₁q₁+p₂q₂+p₃q₃＝0。在用对偶四元数定义的嵌入空间中，可以使用头实体对应的对偶四元数和关系对应的单位对偶四元数做对偶四元数乘法以实现对头节点的旋转和平移。例如，在步骤A31中，将预设知识图谱中的北京、中国、四川、成都、韩国、首尔等实体分别转换为对应的初始的实体嵌入，将首都、省会等关系分别转换为对应的初始的关系嵌入，在步骤A32中，将{中国，首都，北京}，{四川，省会，成都}，{韩国，首都，首尔}等正样本和{韩国，首都，釜山}等负样本中的头部实体、关系和尾部实体替换对应的初始的实体嵌入或者关系嵌入。该实施例的技术方案至少能够实现以下有益技术效果：将所有的关系初始化为单位对偶四元数可以消除缩放效果，减少后续的训练次数，让模型更快收敛至最优状态，使得模型的嵌入性能得到提升。

根据本发明的一个示例，对实体和关系对应的对偶四元数进行初始化的一个示意性的算法如下：

对该算法的各行解释如下；

第1行表示配置知识图谱嵌入模型，DS表示数据集，n_in和n_out分别为网络输入层和输出层的层数；

第2行表示根据网络输入层和输出层的层数确定中间参数β，从区间

中随机生成β，k＝n_in+n_out；

第3行表示对数据集中的每个数据，执行第4-12中的初始化操作，即对每个实体和关系进行初始化；

第4行表示在-π和π之间随机生成中间参数θ；

第5行表示在-β和β之间随机生成中间参数

第6行表示在0和1之间随机生成随机变量x、y、z、p、q、u；

第7行表示将随机变量x、y、z、p、q、u组成中间参数q_img←Quaternion(0，x，y，z)和中间参数t_origin←Quaternion(0，p，q，u)；

第8行表示对q_img进行归一化处理得到中间参数

以及对t_origin进行归一化处理得到中间参数

归一化的中间参数的标量部分(即实部)为零；

第9行表示根据中间参数

和θ生成w_real；

第10-12行表示根据中间参数

和θ生成中间参数w_i、w_j、w_k；

第13-15行表示根据中间参数

和θ生成中间参数t_i、t_j、t_k；

第16行表示根据公式

生成归一化的对偶四元数表示的实体嵌入或者关系嵌入。

本发明提出上述算法中的方式来初始化对偶四元数权重的矩阵。假设令

表示围绕单位矢量

旋转

的四元数，其共轭为

令R为对应的旋转矩阵，令

为平移向量。旋转R下的点v并平移t_origin个矢量单位，则该点将会变为Rv+t_origin。由旋转和平移序列R，t_origin刻画的变换过程可以用对偶四元数紧凑地表示出来。其中，平移向量t_origin是纯四元数。将其与四元数r合并到以下对偶四元数中，可以得到：

将上述提到的r和t_origin带入到σ的表达式中，可以得到：

最终可以得到归一化的对偶四元数的八个分量在初始化时的数学表达，表示为：

从上述算法中，可以得到初始化的中间参数w_real、w_i、w_j和w_k：

其中，w_real，w_i，w_j，w_k分别表示标量系数和虚部系数，

是随机地从区间[π，-π]生成。

是归一化四元数，其标量部分为零，

是从区间

中随机生成，

以类似t_origin的方式生成，具体过程可参见上述算法。需要注意的是，由于q_img是纯四元数，即它的实数部分为零，只存在三个虚部，分别是i，j，k三个部分。我们用

表示q_img的虚数i部分的系数，

表示q_img的虚数j部分的系数，

表示q_img的虚数k部分的系数。由于t_origin也是纯四元数，故

的含义与上面的类似。我们在下面的算法中会给出q_img和t_origin的初始化形式，由此亦可得到它们不同虚数部分相应的系数。

在步骤A4中，利用训练集对知识图谱嵌入模型进行迭代训练至收敛。训练至收敛后，得到最终的知识图谱嵌入模型。训练至收敛后，还得到各个实体对应的实体嵌入和各个关系对应的关系嵌入。实体嵌入相当于各个实体在嵌入空间的嵌入向量(嵌入表示)，关系嵌入相当于各个关系在嵌入空间的嵌入向量(嵌入表示)。

根据本发明的一个实施例，步骤A4包括步骤A41、A42、A43、A44。

其中，步骤A41：获取最新的实体嵌入和关系嵌入并对最新的关系嵌入进行单位化，用于最新的实体嵌入和以单位对偶四元数表示的关系嵌入更新正样本和负样本中的实体和关系的嵌入向量。在进行第一批次的训练时，是用步骤A3得到的初始的实体嵌入和关系嵌入。步骤A3中先将实体嵌入和关系嵌入初始化为归一化的对偶四元数。在第一批次的训练时，先对步骤A3得到的归一化的关系嵌入进行单位化为以单位对偶四元数表示的关系嵌入，后续批次的训练时，用前次训练模型时更新的各个实体对应的实体嵌入和关系对应的关系嵌入。由于后续批次的训练过程中，输出的关系嵌入的嵌入向量会被改变，从而可能不满足模长为1，即被缩放了。因此，后续批次的训练过程中，获取前次训练模型时更新的关系嵌入时均再次进行单位化，以避免关系嵌入被缩放。例如，根据先前对单位对偶四元数的定义，首先将关系对偶四元数

标准化为单位对偶四元数以消除缩放效果。定义W_r＝c₀+c₁i+c₂j+c₃k+∈(d₀+d₁i+d₂j+d₃k)＝(c，d)，与c＝(c₀，c₁，c₂，c₃)，d＝(d₀，d₁，d₂，d₃)，则有：

这一步操作是通过施密特正交化，将d与c正交。继而有：

这一步操作是为了将c′归一化。然后有：

c₀d₀+c₁d₁+c₂d₂＝0，该式表示将关系嵌入对应的对偶四元数单位化为单位对偶四元数后，其各部分满足的数学关系。

步骤A42：用知识图谱嵌入模型分别对正样本和负样本进行处理，得到正样本的嵌入向量以及负样本的嵌入向量。例如，将正样本和负样本输入知识图谱嵌入模型，根据知识图谱嵌入模型的参数对正样本和负样本进行处理，输出正样本的嵌入向量以及负样本的嵌入向量。相当于是通过知识图谱嵌入模型对正样本和负样本中的实体嵌入和关系嵌入进行调整，用调整后的实体嵌入和关系嵌入组成正样本的嵌入向量以及负样本的嵌入向量。例如，输入的正样本的形式是{实体嵌入1，关系嵌入，实体嵌入2}；其中，实体嵌入1对应于头实体，实体嵌入2对应于尾实体；输出的正样本的嵌入向量的形式是{调整后的实体嵌入1，调整后的关系嵌入，调整后的实体嵌入2}。

步骤A43：利用预设的打分函数分别对正样本和负样本的嵌入向量进行打分，得到正样本的分值和负样本的分值。优选的，打分函数分别用正样本、负样本中经过旋转和平移后的头实体与尾实体的对偶四元数的内积作为对应正样本、负样本的分值。即，按照以下方式将对偶四元数内积用作评分函数：

Score(h，r，t)＝Q′_h·Q_t；

其中，Q′_h表示经过旋转和平移后的头实体，

Q_h表示实体嵌入，

表示进行对偶四元数乘法操作，

表示经过单位化的以单位对偶四元数表示的关系嵌入，Q_t表示尾实体。该式是计算经过平移和旋转后头节点和尾节点的内积，如此得到的评分函数可以充分地捕获它们之间的相似度。如果它们属于同一个三元组，那么它们之间的内积就会尽可能趋近于共线，以使得内积尽可能地大；如果不属于同一三元组，则它们的内积会尽可能等于零或者趋近于零。参见图2，x、y、z表示相应的空间轴，假设其中h，t分别表示头节点和尾节点。h，h1，h₂，h′分别表示在不同操作过程中头节点的不同位置。r₊表示当三元组存在时对关系的建模方式；r_-表示当三元组不存在时对关系的建模方式。具体操作过程如下：如果(h，r，t)三元组存在于知识图谱中(对应于正样本)，那么先旋转h到h′，然后按照h″平移到h₂的位置(整个过程如r₊所示)，这样可以使得h和t的内积最大；如果(h，r，t)不存在于该图谱中(对应于负样本)，那么旋转h到h₁的位置使得h与t正交(整个过程如r_-所示)，这样可使得它们的内积为零。

步骤A44：利用损失函数根据正样本的分值和负样本的分值计算损失值。优选的，本发明采用的损失函数为：

表示使用具有正则化率λ₁的l₂范数对Q进行正则化，

表示使用具有正则化率λ₂的l₂范数对W_r进行正则化。损失函数是在欧几里得空间中计算得分函数时利用Adagrad算法进行优化。

步骤A45：根据损失值对知识图谱嵌入模型中的参数进行调整，更新各个实体嵌入和关系嵌入。参数调整的目的是让后续正样本的得分越高，负样本的得分越低。参数调整的过程是训练模型时反向传播更新参数的过程，本领域技术人员可以知晓其含义，对此不作过多限制性解释。

综上，本发明的训练方法大致可以概括为两个步骤：K1、使用头部对偶四元数和关系单位对偶四元数做对偶四元数乘法以实现对头节点(头部对偶四元数)旋转和平移；K2、取变换后的头对偶四元数和尾对偶四元数进行对偶四元数的内积运算从而对每个三元组进行评分。如果知识图谱中存在该三元组，则模型将旋转和平移头部，使头部实体和尾部实体之间的角度变到极小，因此乘积可以被最大化。否则，我们可以使头实体和尾实体正交，以便它们的乘积变为零。

本发明还提供一种基于知识图谱嵌入模型的检索方法，包括：使用前述训练方法得到的知识图谱嵌入模型进行知识检索。进行知识检索包括步骤B1、B2、B3、B4、B5。下面对各个步骤分别进行说明。

在步骤B1中，获取用户输入的两个检索元素用于知识检索，两个检索元素为实体和关系，或者，实体和实体。

例如，用户输入实体和关系，查询缺失的实体；又例如，用户输入两个实体，查询两个实体之间的关系。

在步骤B2中，将实体集或者关系集中的各元素分别作为补全元素与两个检索元素组成不同的三元组，以及将不同的三元组中的实体和关系用训练得到的实体嵌入和关系嵌入进行表示，得到不同的待验证三元组。

例如，假设用户输入实体A和关系，实体集内有N个元素(实体B₁～B_N)，则实体集内N个元素可以分别与实体A和关系组成不同的三元组。比如，如果是对称的关系，比如：父女，则实体A和实体集内的N个实体在三元组中的位置可以随意放置，共组成N个不同的三元组，{实体A，关系，实体B₁}～{实体A，关系，实体B_N}。然后查询不同的三元组中实体和关系对应的实体嵌入和关系嵌入，得到不同的待验证三元组。

在步骤B3中，用知识图谱嵌入模型分别对不同的待验证三元组进行处理，得到不同的待验证三元组的嵌入向量。

例如，即将不同的待验证三元组输入知识图谱嵌入模型，知识图谱嵌入模型会基于模型的参数对不同的待验证三元组中的实体嵌入和关系嵌入进行调整，得到不同的待验证三元组的嵌入向量。

在步骤B4中，利用预设的打分函数分别对不同的待验证三元组的嵌入向量进行打分，得到不同的待验证三元组的分值。

例如，假设有2N个待验证三元组，利用预设的打分函数分别对不同的待验证三元组的嵌入向量进行打分，待验证三元组的分值越高说明其内的补全元素是越接近正确的结果的元素。

在步骤B5中，输出分值最高的待验证三元组中的补全元素作为知识检索的结果。

根据本发明的一个示例，进行知识检索的具体用途和用于训练的预设知识图谱有关。例如，当所述预设知识图谱是针对反欺诈而建立的知识图谱时，所获得的知识图谱嵌入模型可以在用户进行知识检索时确定是否存在欺诈风险。假设预设知识图谱是基于犯罪嫌疑人或者罪犯之间的人物关系构建的，比如：张三是李四的上线，李四是王五的上线等。由此训练好模型后，根据犯罪嫌疑人交待或者他人提供的关系，比对前后共享的信息是否一致，可以判断是否存在欺诈。又例如，当预设知识图谱是针对智能问答建立的知识图谱时，所获得的知识图谱嵌入模型在用户进行知识检索时提供问题的答案。比如，假设预设知识图谱是针对名人的个人信息建立的，马六(实体)的身高(关系)是170cm(实体)，若用户输入“马六身高”，则可以经过知识检索后反馈马六的身高是170cm。又例如，当预设知识图谱是人员与地址之间的居住关系以及人员与人员之间的相对关系建立的知识图谱时，所获得的知识图谱嵌入模型在用户进行知识检索时人员可能居住的位置的答案。如预设知识图谱中存在如下两个三元组{张三，邻居，李四}和{张三，居住，成都}，利用知识图谱，可以推测到如下三元组{李四，居住，成都}。因此，若有用户检索李四的居住地，可以反馈推测的结果是成都。应当说明的是，对于知识图谱嵌入模型的应用方式是本领域的常识，其还有其他可能的应用方式，比如：智能推荐、精准营销等等，具体的应用与用于训练模型的预设知识图谱类型和配置有关，此处仅为举例说明，本发明对训练得到的知识图谱嵌入模型的应用不作任何限制。

本发明还提供一种知识图谱嵌入模型的训练系统，包括：嵌入空间构建模块，用于构建知识图谱嵌入模型的嵌入空间，通过对偶四元数将知识图谱中的关系建模为嵌入空间中的旋转和平移；负采样模块，用于从预设知识图谱中的正样本中进行负采样以生成负样本；初始化模块，用于对正样本和负样本进行初始化，得到包含以初始嵌入向量表示的正样本和负样本的训练集；模型训练模块，用于利用训练集对所述知识图谱嵌入模型进行迭代训练。

本发明还提供一种基于知识图谱嵌入模型的检索系统，其特征在于，包括：检索信息获取模块，用于获取用户输入的两个检索元素用于知识检索，所述两个检索元素为实体和关系，或者，实体和实体；待验证三元组配置模块，用于将实体集或者关系集中的各元素分别作为补全元素与所述两个检索元素组成不同的三元组，以及将不同的三元组中的实体和关系用训练得到的实体嵌入和关系嵌入进行表示，得到不同的待验证三元组；知识图谱嵌入模块，用前述的训练方法得到的知识图谱嵌入模型分别对不同的待验证三元组进行处理，得到不同的待验证三元组的嵌入向量；打分模块，用于利用预设的打分函数分别对不同的待验证三元组的嵌入向量进行打分，得到不同的待验证三元组的分值；检索结果输出模块，用于输出分值最高的待验证三元组中的补全元素作为知识检索的结果。

本发明还提供一种电子设备，包括：一个或多个处理器；以及存储器，其中存储器用于存储一个或多个可执行指令；所述一个或多个处理器被配置为经由执行所述一个或多个可执行指令以实现前述方法的步骤。

为了进一步证明本发明的技术方案的效果相对于现有技术能够得到提升，发明人进行了实验，实验的过程如下：

第一部分、实验步骤：

我们在四个广泛使用的知识图谱上评估我们提出的方法。以下是使用到的数据集：

FB15K是Freebase的子集，是大规模的包含一般知识事实的知识图。因此，在FB15K上进行链路预测的关键是建模和推断对称/反对称和反演模式。

WN18是WordNet的子集，该数据库具有单词之间的词汇关系。该数据集还具有多逆关系。所以主要WN18中的关系模式也是对称/反对称和反演。

FB15K-237是FB15K的子集，其中反关系是已删除。因此，FB15K-237上的链接预测的关键归结为建模和推断对称/反对称和组成模式。

WN18RR是WN18的子集。逆关系被删除，主要的关系模式是对称/反对称和组成模式。

第二部分、实验参数的选择：

表1给出了DualE模型使用的详细参数，其中k表示维度，λ₁表示对实体的正则化系数，λ₂表示对关系的正则化系数，neg表示负采样数。在实验的过程中，我们在{50，100，150，200，250，300}之间搜索k的合适值；λ₁和λ₂在[0.01，1]之间探索合适的值。

表1：DualE使用的详细参数

数据集	k	λ<sub>1</sub>	λ<sub>1</sub>	neg
					WN18	200	0.035	0.03	10
FB15K	100	0.03	0	10
					WN18RR	100	0.25	0.25	2
FB15K237	100	0.1	0.1	10

第三部分、评估协议：

使用了三种流行的评估指标，包括均值等级(MR)，均值倒数排名(MRR)，以及命中率(Hit@n)，截止值为n＝1，3，10。MR测量平均值代表正确性能的所有正确实体的排名，该值越小说明方法的效果越好。MRR是平均值正确实体的逆排名，该值越大说明方法的效果越好。Hit@n衡量正确的实体在排名中前n个实体中的比例，该值越大说明方法预测的链接越准确。同时，报告过滤后的结果可以避免可能出现的评估错误。

第四部分、实施细节：

发明人使用Pytorch实施了DualE模型，并在单个GPU上对其进行了测试。通过网格搜索确定超参数。尽早在验证集上选择最佳型号。实验时将嵌入尺寸l设置在{50，100，200，250，300}之间。在{0.01，0.05，0.1，0.2}中搜索正则化率μ1和μ2，学习率固定为在0.02到0.1之间。每个训练样本的负样本的数量选自{1，5，10，20}，为所有数据集创建10个训练批次。对于RotatE模型(无自我对抗)的负采样，我们将使用本文提供的最佳超参数设置来重现结果。我们还使用自我对抗性负采样报告了RotatE模型的结果，并将其在实验结果中表示为a-RotatE。

第五部分、实验结果：如表2和表3所示。

表2：WN18和FB15K的链接预测结果

结果分析：据实验的五个指标，可以看到DualE模型与其他传统模型相比得到了显著改进。这也证明了DualE模型中使用的对偶四元数的优越性。由于它克服了平移和旋转的表示形式，因此可以有效减少嵌入中先前模型引起的错误。在WN18上，除hits@10之外，我们在所有指标中均取得了最好的成绩，这表明DualE模型可以很好地学习对称/反对称和反演模式。FB15K数据集中包含的主要关系与WN18相似。DualE模型在MR和hits@10中的性能与QuatE模型相当，并且在MRR，hits@3和hits@1方面具有明显的优势。

表3：WN18RR和FB15K-237数据集的链接预测结果

实验结果分析：在FB15K-237上，与以前的传统最新技术模型相比，DualE模型的性能提高了几个百分点，这表明DualE模型可以更好地学习组成关系模式。在WN18RR上，TransE无法学习对称关系模式，因此效果不佳。旋转系列可以达到良好的效果，而DualE模型一步刷新了性能以达到最佳效果。通过对以上结果的分析可以看出，DualE模型在处理关系时具有旋转和平移的特性，因此在处理数据集时继承了平移族和旋转族的优势，也证实了DualE模型的优越性。

需要说明的是，虽然上文按照特定顺序描述了各个步骤，但是并不意味着必须按照上述特定顺序来执行各个步骤，实际上，这些步骤中的一些可以并发执行，甚至改变顺序，只要能够实现所需要的功能即可。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种基于知识图谱嵌入模型的检索方法，其特征在于，包括：

B1、获取用户输入的两个检索元素用于知识检索，所述两个检索元素为实体和关系，或者，实体和实体，

B2、将实体集或者关系集中的各元素分别作为补全元素与所述两个检索元素组成不同的三元组，以及将不同的三元组中的实体和关系用训练得到的实体嵌入和关系嵌入进行表示，得到不同的待验证三元组，

B3、用所述知识图谱嵌入模型分别对不同的待验证三元组进行处理，得到不同的待验证三元组的嵌入向量，

B4、利用预设的打分函数分别对不同的待验证三元组的嵌入向量进行打分，得到不同的待验证三元组的分值，

B5、输出分值最高的待验证三元组中的补全元素作为知识检索的结果；

其中，所述知识图谱嵌入模型按照以下方式训练得到：

A1、用对偶四元数构建知识图谱嵌入模型的嵌入空间，通过对偶四元数将知识图谱中的关系建模为嵌入空间中的旋转和平移，

A2、从预设知识图谱中的正样本中进行负采样以生成负样本，

A3、对正样本和负样本进行初始化，得到包含以初始嵌入向量表示的正样本和负样本的训练集，

A4、利用所述训练集对所述知识图谱嵌入模型进行迭代训练至收敛。

2.根据权利要求1所述的方法，其特征在于，步骤A1包括：在嵌入空间中，通过对偶四元数矩阵表示知识图谱中实体对应的实体嵌入，以及通过对偶四元数矩阵表示知识图谱中关系对应的关系嵌入。

3.根据权利要求1所述的方法，其特征在于，所述预设知识图谱包括正样本，每个正样本包括头部实体、关系和尾部实体，所述步骤A2按照以下方式进行负采样以使负样本的数量达到所需规模：

A21、从实体集中随机选择与正样本中待替换实体彼此不同的代用实体，所述待替换实体是头部实体或者尾部实体；

A22、用代用实体替换该正样本的待替换实体形成一个负样本。

4.根据权利要求3所述的方法，其特征在于，所述步骤A3包括：

A31、对预设知识图谱中的各个实体和关系进行初始化，得到归一化的对偶四元数表示的初始的实体嵌入和关系嵌入；

A32、将正样本和负样本中的头部实体、关系和尾部实体替换对应的初始的实体嵌入和关系嵌入。

5.根据权利要求1所述的方法，其特征在于，所述步骤A4按照以下方式对知识图谱嵌入模型进行迭代训练至收敛：

A41、获取最新的实体嵌入和关系嵌入并对最新的关系嵌入进行单位化，用于最新的实体嵌入和以单位对偶四元数表示的关系嵌入更新正样本和负样本中的实体和关系的嵌入向量；

A42、用知识图谱嵌入模型分别对正样本和负样本进行处理，得到正样本的嵌入向量以及负样本的嵌入向量；

A43、利用预设的打分函数分别对正样本和负样本的嵌入向量进行打分，得到正样本的分值和负样本的分值；

A44、利用损失函数根据正样本的分值和负样本的分值计算损失值；

A45、根据损失值对知识图谱嵌入模型中的参数进行调整，更新各个实体嵌入和关系嵌入。

6.根据权利要求5所述的方法，其特征在于，所述打分函数分别用正样本、负样本中经过旋转和平移后的头实体与尾实体的对偶四元数的内积作为对应正样本、负样本的分值。

7.根据权利要求5所述的方法，其特征在于，所述损失函数为：

其中，Q表示用对偶四元数表示的实体的嵌入向量，W_r表示用对偶四元数表示的关系的嵌入向量，r(h,t)表示三元组(h,r,t)中的头实体h和尾实体t由关系r连接，Ω表示正样本，Ω^-表示从预设知识图谱中未观察到的正样本中使用负采样策略进行负采样得到的负样本，exp(·)表示指数函数，Y_hrt∈{-1,1}表示三元组(h,r,t)对应的标签，如果三元组存在于图谱中，Y_hrt取1，否则取零，φ(h,r,t)表示得分函数，λ₁、λ₂表示正则化率，