CN111177282A

CN111177282A - 一种融入注意力机制的预测方法

Info

Publication number: CN111177282A
Application number: CN201911398805.5A
Authority: CN
Inventors: 汪璟玢; 周静平
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2020-05-19

Abstract

本发明涉及一种融入注意力机制的预测方法，将包括头实体向量、关系向量、尾实体向量和时间向量的四元组作为输入层；引入注意力机制层，为四元组的各项创建其上下文向量，将得到的上下文向量加上原来四元组对应各项的向量形成新的矩阵向量，并将新的矩阵向量转置馈送到卷积层；在卷积层当中通过不同的卷积核捕获头尾实体、关系和事实发生时间相同维度之间的全局特征；通过点积将特征向量和权重向量相乘得到其四元组分数。本发明从卷积神经网络的角度出发，在结合时序知识的同时，融入注意力机制来提取四元组中各项的上下文信息和相关性，能够提高模型的预测性能。

Description

一种融入注意力机制的预测方法

技术领域

本发明涉及知识图谱技术领域，特别是一种融入注意力机制的预测方法。

背景技术

目前利用卷积神经网络来完成知识图补全的代表性模型有ConvE模型和 ConvKB模型。ConvE模型是第一个将卷积神经网络(CNN)应用于知识图谱补全的模型。该模型尝试使用CNN来捕获头实体向量和关系向量不同维度条目之间的局部关系，而未考虑三元组存在的全局关系。基于此有学者提出ConvKB模型，该模型通过卷积神经网络来改进ConvE模型，从而捕获知识图谱中实体与关系之间的全局关系和过渡特征。但是这两个模型一方面未充分考虑到事实的时间维度，忽略了事实在某个时间点或某个时间段的有效性，导致在时序动态知识图上预测效率不佳；另一方面这两个卷积神经网络模型未充分考虑到四元组中非连续项之间的相关性，导致无法获取实体或时间对于关系的相关性。

一方面，现实中的三元组事实应是带有时间维度的，因此，知识库的时间维度也将成为考量的重点之一；另一方面现有的卷积神经网络知识补全模型未充分考虑四元组中非连续项之间的相关性。

发明内容

有鉴于此，本发明的目的是提出一种融入注意力机制的预测方法，从卷积神经网络的角度出发，在结合时序知识的同时，融入注意力机制来提取四元组中各项的上下文信息和相关性，能够提高模型的预测性能。

本发明采用以下方案实现：一种融入注意力机制的预测方法，具体包括以下步骤：

将包括头实体向量、关系向量、尾实体向量和时间向量的四元组作为输入层；

引入注意力机制层，为四元组的各项创建其上下文向量，将得到的上下文向量加上原来四元组对应各项的向量形成新的矩阵向量，并将新的矩阵向量转置馈送到卷积层；

在卷积层当中通过不同的卷积核捕获头尾实体、关系和事实发生时间相同维度之间的全局特征；

通过点积将特征向量和权重向量相乘得到其四元组分数。

进一步地，所述将包括头实体向量、关系向量、尾实体向量和时间向量的四元组作为输入层具体为：将一个带有时间注解的四元组看作一个句子作为输入，四元组文本由四个项组成：头实体s、关系p、尾实体o和事实发生时间t_b，对应的项的向量为x_i，那么对应的四元组矩阵A定义如下：

式中，序列矩阵

d为向量维度，把矩阵A具体到四元组中的各项，定义如下：

式中，s为头实体向量，p为关系向量，o为尾实体向量，t_b为事实发生时间向量。

进一步地，所述引入注意力机制层，为四元组的各项创建其上下文向量，将得到的上下文向量加上原来四元组对应各项的向量形成新的矩阵向量，并将新的矩阵向量转置馈送到卷积层具体为：

步骤S11：计算四元组中第j项相对于第i项的注意力权重α_i,j：

其中，score(x_i,x_j)为x_j对x_i的影响力得分：

式中，W_a是注意力机制当中的参数，v_a是归一化之后的参数向量，tanh是非线性激活的正切双曲函数；

通过加权求和来对四元组中第i项计算其上下文向量：

步骤12：将最终四元组各项得出的上下文向量和原来四元组各项对应的向量进行相加来更新原来的向量，从而更新矩阵，其更新公式如下：

x′_i＝x_i+g_i。

步骤S13：将更新后的矩阵向量转置馈送到卷积层，转置后得到的序列矩阵为：

其中，

表示序列矩阵A'的第i行。

进一步地，所述在卷积层当中通过不同的卷积核捕获头尾实体、关系和事实发生时间相同维度之间的全局特征具体为：

设置卷积层上不同的卷积核为

使用卷积核来提取头实体、关系、尾实体和时间之间相同维度的局部特征及一个四元组的全局关系，每个不同的卷积核提取其特定模式的特征；卷积核ω在序列矩阵A'的每一行数据重复进行卷积，以最终生成特征图v＝{v₁,v₂,…v_k}，其中生成特征图公式如下：

v_i＝g(ω·A'_i,:+b)；

式中，g是ReLU函数，b是一个偏秩项，

进一步地，所述通过点积将特征向量和权重向量相乘得到其四元组分数采用下式计算：

f(s,p,o,t)＝concat(g([s,p,o,t_b]*Ω))·w；

式中，Ω为卷积核集合，w为权重向量，*表示卷积操作符，concat表示连接符号，g是ReLU函数。

与现有技术相比，本发明有以下有益效果：本发明在知识图谱的背景下，提出了融入注意力机制的预测方法，能够充分利用知识图谱的时效特性，从而进一步提高知识图谱补全的性能，融入了注意力机制来提取四元组中各项之间的相关性，来提高模型预测性能。

附图说明

图1为本发明实施例的原理图。

图2为本发明实施例的应用于对带有时间注解的数据进行关系预测和实体预测的系统软件框架图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/ 或它们的组合。

如图1所示，本实施例提供了一种融入注意力机制的预测方法，具体包括以下步骤：

通过点积将特征向量和权重向量相乘得到其四元组分数。

在本实施例中，所述将包括头实体向量、关系向量、尾实体向量和时间向量的四元组作为输入层具体为：将一个带有时间注解的四元组看作一个句子作为输入，四元组文本由四个项组成：头实体s、关系p、尾实体o和事实发生时间t_b，对应的项的向量为x_i，那么对应的四元组矩阵A定义如下：

式中，序列矩阵

d为向量维度，四元组的表示形式为(s,p,o,t)，用实体向量(s、o)、关系向量(p)和时间向量(其中t＝[t_b,t_e]，由于大多数事实仅与事实的发生时间相关，这里仅考虑开始时间向量t_b)替换四元组当中的项。把矩阵A具体到四元组中的各项，定义如下：

较佳的，由于传统CNN的嵌入模型忽略了非连续词的相关性，本实施例提出的方法则考虑引入注意力机制来学习四元组中非连续词的上下文向量。通过上下文向量获取四元组中实体与时间的相关性、关系与时间的相关性和实体与关系的相关性。对于一个四元组，训练时通过随机初始化实体、关系和时间的d维向量值，通过实体、关系和时间的初始向量值构成矩阵A，并作为注意力层的输入矩阵。注意力层为头尾实体、关系、时间学习其各自权重，进而创建上下文向量。上下文向量与原来的头尾实体、关系、时间向量相加来更新原来的向量，作为新的头尾实体、关系、时间表示向量，使得头实体向量包含关系对于自身的相关性和时间维度对于自身的相关性，关系向量包含时间对于自身的相关性等。最后将新的头尾实体、关系、时间表示向量馈送到卷积层。

在本实施例中，所述引入注意力机制层，为四元组的各项创建其上下文向量，将得到的上下文向量加上原来四元组对应各项的向量形成新的矩阵向量，并将新的矩阵向量转置馈送到卷积层具体为：

其中，score(x_i,x_j)为x_j对x_i的影响力得分：

式中，W_a是注意力机制当中的参数，v_a是归一化之后的参数向量，tanh是非线性激活的正切双曲函数；注意力机制是一个附加的MLP(Multi-Layer Perceptron，多层感知器)，它与模型的其他组件共同训练，在这里本实施例使用MLP对各项之间的相关性进行建模，如果拥有较高的得分，那么意味着第个项对于上下文向量具有更多的权重。

其中，α_i,j≥0(1≤i≤4,1≤j≤4)并且其权重之和等于1：

∑_jα_i,j＝1。

通过加权求和来对四元组中第i项计算其上下文向量：

x′_i＝x_i+g_i。

其中，

表示序列矩阵A'的第i行。

较佳的，本实施例以关系p为例对上文进行具体说明：

计算头实体s对于关系p的权重α_p,s及对应的影响程度得分：

计算尾实体o对于关系p的权重α_p,o及对应的影响程度得分：

计算开始时间t_b对于关系p的权重α_p,tb及对应的影响程度得分：

其中α_p,s、α_p,o、α_p,tb分别表示头实体、尾实体、时间对于关系的注意力权重，即对于关系某个部分更为重要，其注意力权重也可看作概率。对于注意力权重要求其权重大于0，且通过softmax归一化之后其权重之和即概率之和等于1，其公式如下：

α_p,s+α_p,o+α_p,tb＝1；

计算头实体s、尾实体o和时间t_b的上下文向量以此类推。

现实中，三元组的事实发生改变多半是因为时间的演变而发生关系改变。因此，当学习四元组当中头尾实体、关系、时间对应的上下文向量，注意力将更多关注在时间上。尤其针对复杂关系，时间相对于关系的得分预计比尾实体相对于关系的得分高。

最后，将最终四元组各项得出的上下文向量和原来四元组各项对应的向量进行相加来更新原来的向量，从而更新矩阵A，以四元组的关系项的上下文向量更新为例，更新公式如下：

p′＝p+g_p。

在本实施例中，所述在卷积层当中通过不同的卷积核捕获头尾实体、关系和事实发生时间相同维度之间的全局特征具体为：

在卷积层本实施例希望对四元组向量相同维度的条目进行卷积来提取四元组向量相同维度的条目之间的特征及全局关系，因此本实施例对序列矩阵作了转置以作为卷积层的输入。

设置卷积层上不同的卷积核为

v_i＝g(ω·A'_i,:+b)；

式中，g是ReLU函数，b是一个偏秩项，

在本实施例中，所述通过点积将特征向量和权重向量相乘得到其四元组分数具体为：使用不同的卷积核来生成不同的特征图。在这里定义Ω为卷积核集合，n 为卷积核个数，其中n＝|Ω|。因此n个卷积核会生成n个特征图。n个特征图最后连接为的nd×1单向量，并与权重向量

进行点积得出最终四元组(s,p,o,t)的得分。最终得分公式如下：

f(s,p,o,t)＝concat(g([s,p,o,t_b]*Ω))·w；

式中，Ω为卷积核集合，w为权重向量，*表示卷积操作符，concat表示连接符号，g是ReLU函数。其中，Ω和w是模型中独立于头尾实体、关系和时间向量的共享参数。

采用本实施例的方法能够对带有时间注解的数据进行关系预测和实体预测，进而达到数据知识图谱边补全的目的。例如，对带有时间注解的风险数据进行关系预测，进而达到风险数据知识图谱边补全的目的。通过该模型使得监控人员对风险数据有更好的认识和把握，从而做出更好的决策。如图2所示，在该系统上，主要分为风险采集模块和知识图谱模块。

在风险采集模块上，采用SpringMVC框架将表现层、业务逻辑层和数据分开使得Web应用更易于维护和修改，进一步实现“高内聚低耦合”的思想。表现层为用户提供交互式操作界面，在技术上使用Twitter推出的一个前端开发的开源工具包Bootstrap和谷歌推出的一款前端框架AngularJS。业务层主要处理业务逻辑，处于数据层和表现访问层之间，起到了数据交换承上启下的作用。数据访问层也可以称为持久层，主要实现数据的读写。基础数据和交互数据存储在SQL Server 关系型数据库。

在知识图谱模块上，利用SQL Server数据库存储风险知识图谱，同时利用D3.js插件在页面实现知识图谱的可视化展示。在该模块上嵌入了知识表示模型CNNAM 模型，其中数据集从SQL Server数据库中读取，训练好的数据模型存储在系统指定的文件夹当中。当用户进行关系预测和实体预测时，系统从指定的数据模型存储文件夹中获取相应的数据模型进行预测。其中该CNNAM模型即完成本实施例的方法步骤，具体包括输入层、注意力机制层、卷积层等，具体结构如图1所示。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种融入注意力机制的预测方法，其特征在于，包括以下步骤：

通过点积将特征向量和权重向量相乘得到其四元组分数。

2.根据权利要求1所述的一种融入注意力机制的预测方法，其特征在于，所述将包括头实体向量、关系向量、尾实体向量和时间向量的四元组作为输入层具体为：将一个带有时间注解的四元组看作一个句子作为输入，四元组文本由四个项组成：头实体s、关系p、尾实体o和事实发生时间t_b，对应的项的向量为x_i，那么对应的四元组矩阵A定义如下：