CN110309310A

CN110309310A - 基于置信度的知识表示学习方法

Info

Publication number: CN110309310A
Application number: CN201810146689.7A
Authority: CN
Inventors: 刘知远; 谢若冰; 林芬; 林乐宇
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2018-02-12
Filing date: 2018-02-12
Publication date: 2019-10-08

Abstract

本发明提供基于置信度的知识表示学习方法，本方法获取知识图谱中的三元组；基于平移假设下的三元组不相似度公式和三元组置信度公式，构建能量方程；根据所述能量方程构建基于边际的评价函数，通过最小化所述评价函数，学习实体向量和关系向量的表示。本发明具有在带有噪声或冲突的知识图谱中，学习到更好的知识表示向量，同时能够发现已有知识图谱中可能存在的错误的有益效果。

Description

基于置信度的知识表示学习方法

技术领域

本发明涉及自然语言处理以及知识表示学习技术领域，更具体地，涉及基于置信度的知识表示学习方法。

背景技术

随着社会飞速发展，我们已经进入信息爆炸时代，每天都会有海量新的实体与信息产生。互联网作为当今最为便捷的信息获取平台，用户对有效信息筛选与归纳的需求日益迫切，如何从海量数据中获取有价值的信息成为一个难题。于是，知识图谱应运而生。

知识图谱旨在构建一个结构化信息的数据库，将世界上的具象事物(如人名、地名、机构名等专有名词)与抽象概念表示为实体，将实体之间的交互与联系表示为关系。实体与实体之间的关系构成一张巨大的图，其中实体是图中的节点，而关系则作为图中的边。在典型的知识图谱中，世界的海量知识被表示为实体之间利用关系作为连接的三元关系组。例如，针对中国是处于亚洲的国家这一知识，知识图谱使用三元组关系(中国，处于……洲，亚洲)来进行表示。传统的自然语言处理存在歧义性的问题，而在知识图谱的构建中，一个关键词对应的不同语义(如苹果对应的水果语义和科技公司的语义)有着不同的实体。知识图谱通过三元组记录了实体之间的内在联系以及实体自身的属性，被广泛运用于信息检索、问答系统和数据挖掘等多个领域。

知识图谱描述世界上的实体和实体之间的关系，蕴含的知识数量巨大且时常更新。人工标注已经不能满足知识图谱更新和增长的速度，而自动化构建知识图谱的过程中又往往容易引入一些噪声和冲突。

综上所述，现有技术中亟待提供一种在带有噪声或冲突的知识图谱中，学习到更好的知识表示向量，同时能够发现已有知识图谱中可能存在的错误的知识表示学习方法。

发明内容

为了解决上述问题，本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的知识表示学习方法。

根据本发明实施例的第一方面，提供了一种知识表示学习方法，包括：

获取知识图谱中的三元组；

基于平移假设下的三元组不相似度公式和三元组置信度公式，构建能量方程；

根据所述能量方程构建基于边际的评价函数，通过最小化所述评价函数，学习实体向量和关系向量的表示。

进一步，所述基于平移假设下的三元组不相似度公式和三元组置信度公式，构建能量方程，之前还包括：

确定平移假设下的三元组不相似度公式，确定三元组置信度公式。

进一步，所述基于平移假设下的三元组不相似度的公式为：

E(h，r，t)＝||h+r-t||

其中(h，r，t)为三元组的向量表达；E(h，r，t)为基于平移假设下的三元组不相似度；向量h为头实体，向量t为尾实体，向量r为两实体的关系。

进一步，所述三元组置信度的公式为：

C(h，r，t)＝λ₁·LT(h，r，t)+λ₂·PP(h，r，t)+λ₃·AP(h，r，t)

其中，(h，r，t)为三元组的向量表达；C(h，r，t)为三元组置信度；LT(h，r，t)为局部三元组的置信度；PP(h，r，t)为先验路径置信度；AP(h，r，t)为自适应路径置信度；λ₁，λ₂，λ₃是超参数，用于调整三种三元组置信度的权值；向量h为头实体，向量t为尾实体，向量r为两实体的关系。

进一步，所述局部三元组的置信度的公式为：

其中α和β为超参数，α用于控制局部三元组置信度的下降幅度，β用于控制局部三元组置信度的上升幅度；Q(h，r，t)为三元组的质量；Q(h，r，t)的公式为：

Q(h，r，t)＝-(γ+E(h，r，t)-E(h′，r′，t′)).

其中，γ为超参数，用于设置最大间隔算法的限制强度；E(h，r，t)为基于平移假设下的三元组不相似度；h’为替换h的负实例集合；r’为替换r的负实例集合；t’为替换t的负实例集合。

进一步，所述先验路径置信度的公式为：

其中，Q_PP(r，p_i)三元组在先验路径置信度下的质量函数；R(h，p_i，t)表示路径p_i在三元组上的路径的可信任度；S_(h,t)为从头实体到尾实体的一定长度内的所有可能路径集合；

Q_PP(r，p_i)的公式为：

其中，ε是超参数，用于；P(r，p_i)是关系r和路径p_i的共现概率；P(p_i)是路径的p_i的出现概率；

R(h，p_i，t)的公式为：

其中，e是示例实体节点；E_i-1(·，e)是e的前置节点；E_i(e＇，·)是e’的后继节点。

进一步，所述自适应路径置信度的公式为：

其中，σ(·)表示sigmoid函数；R(h，p_i，t)为路径p_i在(h,r,t)三元组上的路径的可信任度；Q_AP(r，p_i)为三元组在自适应路径置信度下的质量函数；S_(h,t)为从头实体到尾实体的一定长度内的所有可能路径集合；R(h，p_i，t)的公式为：

其中，e是示例实体节点；E_i-1(·，e)是e的前置节点；E_i(e′，·)是e’的后继节点；Q_AP(r，p_i)的公式为：

Q_AP(r，p_i)＝||r-p_i||＝||r-(r_i1+…+r_ik)||其中，r_i1…r_ik是依次组成路径p_i的k条关系。

进一步，所述基于平移假设下的三元组不相似度公式和三元组置信度公式，构建能量方程，包括：

其中，T为三元组的正例集；(h，r，t)为三元组的向量表达；E(h，r，t)为基于平移假设下的三元组不相似度；C(h，r，t)为三元组置信度。

进一步，根据所述能量方程构建基于边际的评价函数，具体采用如下公式：

T′＝{(h′，r，t)|h′∈E}∪{(h，r，t′)|t′∈E}∪{(h，r′，t)|r′∈R}(h，r，t)∈T

其中，γ是超参数，用于设置最大间隔算法的限制强度；T′为三元组的负例集；h’为替换h的负实例集合；r’为替换r的负实例集合；t’为替换t的负实例集合；E为实体集合，R为关系集合。

根据本发明实施例的第二方面，提供了一种电子设备，包括：

处理器；以及与处理器通信连接的存储器，其中：

存储器存储有可被处理器执行的程序指令，处理器调用程序指令能够执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的知识表示学习方法。

根据本发明实施例的第三方面，提供了一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的知识表示学习方法。

本发明上述实施例提供一种知识表示学习方法，本发明在带有噪声或冲突的知识图谱中，学习到更好的知识表示向量，同时能够发现已有知识图谱中可能存在的错误。

附图说明

图1为本发明实施例的一种知识表示学习方法的整体流程示意图；

图2中(a)为本发明实施例的一种知识表示学习方法中局部三元组的置信度的起效机制示意图；(b)为本发明实施例的一种知识表示学习方法中全局路径的置信度两种置信度的起效机制示意图；

图3为本发明实施例的一种电子设备的框图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本发明所要解决的技术问题是：如何提供一种新的基于置信度的知识表示学习框架(confidence-aware KRL framework)，能够在学习知识表示的同时，发现知识图谱中潜在的噪声或冲突。

如图1，示出本发明实施例日前低碳调度决策整体流程图。总体上，包括以下步骤：

S1，获取知识图谱中的三元组；

具体的，获取知识图谱中的三元组可以将实体和关系进行向量化表示；对于一个三元组(h，r，t)，向量h为头实体，t为尾实体，r为两者的关系，且h，t∈E，E为实体的集合，r∈R，R为关系的集合。T为包含矛盾和噪声在内的所有三元组集合。

S2，基于平移假设下的三元组不相似度公式和三元组置信度公式，构建能量方程；

S3，根据所述能量方程构建基于边际的评价函数，通过最小化所述评价函数，学习实体向量和关系向量的表示。

与现有技术相比，本发明提出了一种新的基于置信度的知识表示学习框架(confidence-aware KRL framework)，能够在学习知识表示的同时，发现知识图谱中潜在的噪声或冲突。本发明提出的CKRL框架的思想可以直接扩展至知识构建环节中，在自动构建方法情境下，帮助建立更加精准的知识图谱。

在上述实施例的基础上，所述基于平移假设下的三元组不相似度公式和三元组置信度公式，构建能量方程，之前还包括：

在上述实施例的基础上，所述基于平移假设下的三元组不相似度的公式为：

E(h，r，t)＝||h+r-t||

在上述实施例的基础上，所述三元组置信度的公式为：

C(h，r，t)＝λ₁·LT(h，r，t)+λ₂·PP(h，r，t)+λ₃·AP(h，r，t)

具体的，对于三元组置信度C(h，r，t)，本发明设计了三种置信度，并联合考虑了三种置信度最终得到综合三元组置信度。其中，三种置信度分别是局部三元组置信度(Localtriple confidence)，先验路径置信度(Prior Path Confidence)以及自适应路径置信度(Adaptive Path Confidence)。基于平移假设，使用三元组的实体、关系，以及实体之间的路径的向量信息，综合对三元组的置信度进行判断。

进一步，需要注意的是，因为本发明使用的是三元组的向量信息，所以三元组的置信度会在训练过程中发生动态变化。低置信度的三元组在学习中会相应受到打压，最终使得带有噪声的知识图谱中的知识表示向量能够学得更好，同时减少噪声和错误带来的影响。

在上述实施例的基础上，所述局部三元组的置信度的公式为：

Q(h，r，t)＝-(γ+E(h，r，t)-E(h′，r′，t′)).

具体的，局部三元组置信度基于平移假设的原理，根据假设的h+r≈t，可知如果实体和关系的向量越满足平移假设，则此三元组的置信度越高。本发明根据该推理，获得上述三元组质量函数；此三元组质量函数参考了训练过程中的最大间隔方法的计算项，越大的Q表示此三元组的质量越高。在训练过程中，每个三元组的初始置信度都被设置成1，然后随着训练过程的进行，实体和关系向量发生变化，三元组的质量函数Q也随之发生变化，那么此时的局部三元组的置信度也随之发生变化。

如图2，其中(a)示出本发明实施例的一种知识表示学习方法中局部三元组的置信度的起效机制示意图；(b)示出本发明实施例的一种知识表示学习方法中全局路径的置信度两种置信度的起效机制示意图。

在上述实施例的基础上，所述先验路径置信度的公式为：

其中，Q_PP（r，p_i)三元组在先验路径置信度下的质量函数；R(h，p_i，t)表示路径p_i在三元组上的路径的可信任度；S_(h,t)为从头实体到尾实体的一定长度内的所有可能路径集合；

Q_PP(r，p_i)的公式为：

R(h，p_i，t)的公式为：

其中，e是示例实体节点；E_i-1(·，e)是e的前置节点；E_i(e′，·)是e’的后继节点。

具体的，本发明还根据知识图谱中的路径信息，辅助判断三元组的置信度。判断基于的假设是当一个三元组拥有更多的值得信任的路径连接此三元组的头实体和尾实体，以及这些路径的向量表示和三元组内的关系的路径表示相近时，词三元组应该获得更高的置信度。

其中，路径的可信任度：本发明认为一条路径承载的信息流比例越多时，此条路径在头尾实体中的可信任度越高。形式化地，对于一条长度为L的路径p＝{r₁,...,r_L}以及头尾实体h和t，由于知识图谱中同样的头实体和关系可以对应复数尾实体，本发明将从头实体h开始的路径p经过的所有节点统一表示成对于第i步，有：

在经过l步之后，从h到t的路径上到达t的R_p(e)即表示为此条路径p在(h,r,t)三元组上的路径的可信任度，也表示为R(h，p_i，t)。

进一步，在得到路径的可信任度后，本发明设置三元组在先验路径置信度下的质量函数如下：

三元组在先验路径置信度下的质量函数在知识图谱结构确定后即已经确定，在训练过程中不会修改。综合路径的可信任度和三元组在先验路径置信度下的质量函数，本发明设置先验路径置信度如下：

在上述实施例的基础上，所述自适应路径置信度的公式为：

Q_AP(r，p_i)＝||r-p_i||＝||r-(r_i1+…+r_ik)||

其中，r_i1…r_ik是依次组成路径p_i的k条关系。

具体的，自适应路径置信度基于实体和关系的向量，在训练过程中动态进行自适应调整。自适应路径置信度同样由路径的可信任度和三元组在自适应路径置信度下的质量函数进行联合决定。

首先，定义路径的可信任度。本发明认为一条路径承载的信息流比例越多时，此条路径在头尾实体中的可信任度越高。形式化地，对于一条长度为L的路径p＝{r₁,...,r_L}以及头尾实体h和t，由于知识图谱中同样的头实体和关系可以对应复数尾实体，本发明将从头实体h开始的路径p经过的所有节点统一表示成对于第i步，有：

进一步，自适应路径置信度基于平移假设，认为h+r≈t，那么对于一条路径p_i＝{r_i1，…，r_ik}，根据平移假设进行推导，则有p≈r_i1+...+r_ik，即路径的向量表示应该约等于组成此路径的关系向量之和。基于此，本发明设置三元组在自适应路径置信度下的质量函数如下：

Q_AP(r，p_i)＝||r-p_i||＝r-(r_i1+…+r_ik)||

其中，r_i1…r_ik是依次组成路径p_i的k条关系。

进一步，本发明设置自适应路径置信度如下：

其中σ(·)表示sigmoid函数。

在上述实施例的基础上，所述基于平移假设下的三元组不相似度公式和三元组置信度公式，构建能量方程，包括：

在上述实施例的基础上，根据所述能量方程构建基于边际的评价函数，具体采用如下公式：

具体地，在学习的过程中，本发明使用最大间隔方法，通过最小化基于边际的评价函数学习实体向量、关系向量以及图像模块参数的表示，希望正例得分能够高于负例得分。

其中，负例集合T′的定义如下：

T′＝{(h′，r，t)|h′∈E}∪{(h，r，t′)|t′∈E}∪{(h，r′，t)|r′∈R}，(h，r，t)∈T

即在正例的三元组中随机替换h、r或者t，得到负例三元组。但需要注意，负例集中应该去除替换后属于正例的三元组。

基于上述具体实施例，提供一种电子设备。参见图3，该电子设备包括：处理器(processor)301、存储器(memory)302和总线303；

其中，处理器301及存储器302分别通过总线303完成相互间的通信；

处理器301用于调用存储器302中的程序指令，以执行上述实施例所提供的知识表示学习方法，例如包括：获取知识图谱中的三元组；基于平移假设下的三元组不相似度公式和三元组置信度公式，构建能量方程；根据所述能量方程构建基于边际的评价函数，通过最小化所述评价函数，学习实体向量和关系向量的表示。

本发明实施例提供一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储计算机指令，该计算机指令使计算机执行上述实施例所提供的知识表示学习方法，例如包括：获取知识图谱中的三元组；基于平移假设下的三元组不相似度公式和三元组置信度公式，构建能量方程；根据所述能量方程构建基于边际的评价函数，通过最小化所述评价函数，学习实体向量和关系向量的表示。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的信息交互设备等实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分方法。

最后，本申请的方法仅为较佳的实施方案，并非用于限定本发明实施例的保护范围。凡在本发明实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

1.一种知识表示学习方法，其特征在于，包括：

获取知识图谱中的三元组；

2.根据权利要求1所述的知识表示学习方法，其特征在于，所述基于平移假设下的三元组不相似度公式和三元组置信度公式，构建能量方程，之前还包括：

3.根据权利要求1或2所述的方法，其特征在于，所述基于平移假设下的三元组不相似度的公式为：

E(h，r，t)＝||h+r-t||

4.根据权利要求1或2所述的方法，其特征在于，所述三元组置信度的公式为：

C(h，r，t)＝λ₁·LT(h，r，t)+λ₂·PP(h，r，t)+λ₃·AP(h，r，t)

5.根据权利要求4所述的方法，其特征在于，所述局部三元组的置信度的公式为：

Q(h，r，t)＝-(γ+E(h，r，t)-E(h′，r′，t′)).

6.根据权利要求4所述的方法，其特征在于，所述先验路径置信度的公式为：

其中，Q_PP(r，p_i)三元组在先验路径置信度下的质量函数；R(h，p_i，t)表示路径p_i在三元组上的路径的可信任度；S_(h,t)为从头实体到尾实体的一定长度内的所有可能路径；

Q_PP(r，p_i)的公式为：

R(h，p_i，t)的公式为：

7.根据权利要求4所述的方法，其特征在于，所述自适应路径置信度的公式为：

Q_AP(r，p_i)＝||r-p_i||＝||r-(r_i1+…+r_ik)||

其中，r_i1…r_ik是依次组成路径p_i的k条关系。

8.根据权利要求1所述的方法，其特征在于，所述基于平移假设下的三元组不相似度公式和三元组置信度公式，构建能量方程，包括：

9.根据权利要求8所述的方法，其特征在于，根据所述能量方程构建基于边际的评价函数，具体采用如下公式：

T′＝{(h′，r，t)|h′∈E}∪{(h，r，t′)|t′∈E}∪{(h，r′，t)|r′∈R}

(h，r，t)∈T

其中，γ是超参数，用于设置最大间隔算法的限制强度T′；为三元组的负例集；h’为替换h的负实例集合；r’为替换r的负实例集合；t’为替换t的负实例集合；E为实体集合，R为关系集合。

10.一种电子设备，其特征在于，包括：

处理器；以及与所述处理器通信连接的存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行根据权利要求1至9任一所述的方法。