CN112507137B

CN112507137B - 开放环境下基于粒度感知的少样本关系抽取方法及应用

Info

Publication number: CN112507137B
Application number: CN202011500258.XA
Authority: CN
Inventors: 蔡毅; 任浩鹏
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-12-17
Filing date: 2020-12-17
Publication date: 2022-04-22
Anticipated expiration: 2040-12-17
Also published as: CN112507137A

Abstract

本发明公开了一种开放环境下基于粒度感知的少样本关系抽取方法及应用，该方法包括：输入一个句子及存在于句子中的两个实体，输出该实体对在对应句子中所属的预定义关系或者判断出其不属于任何一个预定义关系；对每个单词采用预训练的词嵌入模型进行初始化，并采用卷积神经网络编码得到句子低维向量表示并映射到同一个高维向量空间中，以支持集的中心点作为每个关系类别的原型表示；通过衡量查询实例到各个关系原型之间距离来度量相似程度，得到查询实例的所属关系类别；对每个关系在空间中度量出其原型区域，判断查询实例是否属于预先定义的关系类别中。本发明适应开放动态环境场景，提高关系抽取的预测效果。

Description

开放环境下基于粒度感知的少样本关系抽取方法及应用

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种开放环境下基于粒度感知的少样本关系抽取方法及应用。

背景技术

知识图谱以结构化的形式描述客观世界中概念、实体及其之间的关系，是一种对海量信息数据进行组织、管理和理解的方式，具有广泛的应用场景——语义搜索、智能问答、对话系统和推荐系统等。知识图谱以图的形式描述客观世界，由实体以及实体之间的关系所组成。因此，知识图谱的构建过程中需要从大量的文本数据中对实体以及实体与实体之间关系进行识别，即实体关系抽取。

然而，现有的关系抽取模型的性能均依赖于大量的高质量标注样本且标注成本较高。特别在知识图谱构建初期，获取大量的高质量模型训练样本是困难的。面对小样本训练数据的挑战，现有模型算法很容易出现过拟合问题，从而导致模型效果不理想。同时，在真实标注数据里，往往会出现很多的长尾关系(即存在某些实体类型和关系类型具有少量标注样本)。

同时，现有的关系抽取模型往往基于一个封闭世界的假设，即待预测查询实例的关系只能属于预定义关系集合中的其中一个种关系。然而，在开放动态的环境下，会存在新的关系暂时没有被发现或者没有被定义的场景。现存大部分的模型均忽略了新关系的出现，错误地将属于新关系的查询实例分类到预定义关系中。

发明内容

为了克服现有技术存在的缺陷与不足，本发明提供一种开放环境下基于粒度感知的少样本关系抽取方法，基于原型网络模型将实例表示映射到同一高维特征空间，考虑关系的粒度特征信息，提出了区域的原型网络模型，解决当前少样本关系学习模型中忽略关系粒度特征以及开放动态环境场景的问题，提高关系抽取的预测效果。

为了达到上述目的，本发明采用以下技术方案：

本发明提供一种开放环境下基于粒度感知的少样本关系抽取方法，包括下述步骤：

词编码：输入句子文本，将文本中的每一个单词映射为词嵌入向量；

句子编码：以句子为单位，将词嵌入向量输入到卷积神经网络中，构建多个卷积核提取出特征向量；

未知关系实例检测：以每个关系为单位，将支持样本的低维向量映射到特征空间中，并衡量出给定关系的区域范围；

若查询实例表示处于区域范围内，则属于给定的预定义关系，若不处于区域范围内，则不属于给定的预定义关系，从而判断出给定查询实例是否属于预定义的关系集合中；

关系粒度感知的区域原型网络：以每个关系为单位，利用句子编码得到支持样本的表示，并将每个关系表示成一个空间区域表示，捕捉每种关系的粒度特征，通过对比查询实例到各个关系的区域距离大小，检索出归属的预定义关系类别；

联合训练未知关系实例检测和关系粒度感知的区域原型网络后，输入预定义关系的支持集以及待预测的查询实例，进行词编码和句子编码，通过未知关系实例检测判断出该查询实例是否属于已预定义的关系集合，若查询实例被未知关系实例检测出不属于预定义关系时，其将输入到关系粒度感知的区域原型网络，进一步预测出所属的预定义关系。

作为优选的技术方案，所述将文本中的每一个单词映射为词嵌入向量，具体表示为：

其中，

表示的是词嵌入预训练初始化的词向量，

表示的是单词在句子中的位置向量，训练前采用随机方式进行初始化，最后采用拼接的方式组合成一个向量，以表示每个单词。

作为优选的技术方案，所述构建多个卷积核提取出特征向量，所述特征向量包括单词之间的局部上下文信息，表示为：

x＝f_d(S)

其中，f_φ(S)采用的是卷积神经网络和最大池化层；

对于给定的关系r_i表示为其所属的n_i个支持样本的中心点，表示为：

其中，c_i表示为关系r_i的原型；

表示的是关系r_i所属的第j个支持样本的实例向量表示，每个关系具有n_i个支持样本。

作为优选的技术方案，所述捕捉每种关系的粒度特征，粒度特征表示为：

其中，f_i ^max和f_i ^min表示数值向量，并分别表示为

和

d_n表示样本向量表示的维度；

向量的每个维度值表示为：

其中，1≤k≤d_n，

表示的是向量

的第k维度的数值；n_i表示的是关系r_i的支持样本的个数。

作为优选的技术方案，所述关系的分布宽度表示为：

α_i＝σ(sum{f_i⊙w_reject})

其中，η和θ是两个标量值，w_reject表示权重向量；⊙表示为两个向量对应维度相乘运算，sum{.}表示向量内各个维度数值相加运算，σ(.)表示激活函数tanh，

表示对于每个关系r_i所属支持样本到其原型c_i的最长距离，d(.,.)表示给定两个向量在高维特征空间中的欧式距离，max(.,.)表示获取数组内元素数值的最大值运算。

作为优选的技术方案，所述通过对比查询实例到各个关系的区域距离大小，检索出归属的预定义关系类别，具体步骤包括：

采用粒度衡量方法，得到每种关系的粒度宽度

表示为：

δ_i＝σ(sum{f_i⊙w_gran})

其中，

表示的是每个关系r_i所属支持样本到其原型c_i的平均距离，d(.,.)表示的是给定两个向量之间的欧式距离；

将给定的查询实例编码后得到实例向量，属于关系r_i的概率表示为：

其中，|R|表示的是预定义关系结合的关系数量，q表示实例向量。

作为优选的技术方案，所述联合训练的损失函数表示为：

Loss＝λ₁L_phrase1+λ₂L_phrase2

其中，λ₁和λ₂分别代表的是未知关系实例检测和关系粒度感知的区域原型网络的损失函数权重。

本发明还提供一种开放环境下基于粒度感知的少样本关系抽取系统，包括：

词编码模块、句子编码模块、未知关系实例检测模块和关系粒度感知的区域原型网络模块；

所述词编码模块用于将输入句子文本中的每一个单词映射为词嵌入向量；

所述句子编码模块用于以句子为单位，将词嵌入向量输入到卷积神经网络中，构建多个卷积核提取出特征向量；

所述未知关系实例检测模块用于以每个关系为单位，将支持样本的低维向量映射到特征空间中，并衡量出给定关系的区域范围；

所述关系粒度感知的区域原型网络模块用于以每个关系为单位，利用句子编码得到支持样本的表示，并将每个关系表示成一个空间区域表示，捕捉每种关系的粒度特征，通过对比查询实例到各个关系的区域距离大小，检索出归属的预定义关系类别；

联合训练未知关系实例检测模块和关系粒度感知的区域原型网络模块，输入预定义关系的支持集以及待预测的查询实例，词编码模块和句子编码模块编码，通过未知关系实例检测模块判断出该查询实例是否属于已预定义的关系集合，若查询实例被未知关系实例检测模块出不属于预定义关系时，其将输入到关系粒度感知的区域原型网络模块，进一步预测出所属的预定义关系。

本发明还提供一种存储介质，存储有程序，所述程序被处理器执行时实现如上述开放环境下基于粒度感知的少样本关系抽取方法。

本发明还提供一种计算设备，包括处理器和用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现如上述开放环境下基于粒度感知的少样本关系抽取方法。

本发明与现有技术相比，具有如下优点和有益效果：

本发明利用少样本学习技术和基于原型网络模型，解决当前关系抽取模型依赖于大量标注样本，以及适应开放动态环境场景的关系抽取问题，提高关系抽取的预测效果。

附图说明

图1为本发明开放环境下基于粒度感知的少样本关系抽取方法流程示意图；

图2为本发明开放环境下基于粒度感知的少样本关系抽取系统结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例

如图1所示，本实施例提供一种开放环境下基于粒度感知的少样本关系抽取方法，具体步骤包括：

S1：词编码：输入句子文本，将文本中的每一个单词映射为词嵌入向量；

在本实施例中，文本中每一个单词映射得到的词嵌入向量表示为：

其中，

表示的是词嵌入预训练初始化的词向量；

表示的是单词在句子中的位置向量，训练前采用随机方式进行初始化，最后采用拼接的方式组合成一个向量，以表示每个单词，对此，每个句子会被表示为一个向量矩阵表示为：

S＝{v₁,v₂,...，v_L}

S2：句子编码：以句子为单位，将词嵌入向量输入到卷积神经网络中，构建多个卷积核提取出特征向量；

在本实施例中，卷积神经网络提取的特征向量包含了单词之间的局部上下文信息，因此，提取的特征向量表示为：

x＝f_φ(S)

其中，f_φ(S)采用的是卷积神经网络和最大池化层，同时，对于给定的关系r_i表示为其所属的n_i个支持样本的中心点，其被表示为：

其中，c_i表示为关系r_i的原型；

表示的是关系r_i所属的第j个支持样本的实例向量表示；每个关系具有n_i个支持样本；

S3：未知关系实例检测：以每个关系为单位，将K个支持样本(K一般小于或者等于20)的低维向量映射到特征空间中，并衡量出给定关系的区域范围；若查询实例表示处于区域范围内，则属于给定的预定义关系，若不处于区域范围内，则不属于给定的预定义关系，从而判断出给定查询实例是否属于预定义的关系集合中；

在本实施例中，利用有限的支持样本以捕捉关系的粒度大小，从而度量出关系在特征空间中的范围区域，以应对动态开放的识别环境。

S4：以每个关系为单位，利用句子编码得到支持样本的表示，并以区域来表示关系的表示，并捕捉关系的粒度特征信息；即粗粒度关系被表示为更宽的区域；细粒度关系被表示为更窄的区域；最后通过对比查询实例到各个关系的区域距离大小，检索出最为可能的预定义关系类别；

在本实施例中，对于每个关系所拥有的有限支持标注样本，以捕捉每种关系的粗细粒度特征，其粒度特征表示为：

其中，f_i ^max和f_i ^min是一个数值向量，并分别表示为

和

d_n表示的是样本向量表示的维度。其中，向量的每个维度值可以被表示为：

其中，1≤k≤d_n，

表示的是向量

的第k维度的数值；n_i表示的是关系r_i的支持样本的个数，取值范围一般表示为1≤n_i≤20；对此，关系r_i的分布宽度可表示为：

α_i＝σ(sum{f_i⊙w_reject})

其中，η和θ是两个可训练的标量值，通常会被初始化为1.0。同时，w_reject表示的是为一个可学习的权重向量；⊙表示为两个向量对应维度相乘运算；sum{.}表示的是向量内各个维度数值相加运算；σ(.)表示的是tanh的激活函数。

表示的是对于每个关系r_i所属支持样本到其原型c_i的最长距离。其公式表示为：

其中，d(.,.)表示的是给定两个向量在高维特征空间中的欧式距离。max(.,.)表示为获取数组内元素数值的最大值运算。

给定一个查询实例样本query,经过上述编码，可以得到对应的向量q。因此，给定一个查询实例q，其被判断数据关系r_i的概率可表示如下：

其中，exp(.)表示的是指数函数；

表示的是查询实例样本query与关系r_i的原型c_i的欧式距离，同时，该查询实例q不属于关系r_i的概率为1-p_φ(y＝r_i|q)。

关系粒度感知的区域原型网络：以关系为单位，考虑关系的粒度特征信息，将每个关系表示成一个空间区域表示。同理，采用粒度衡量方法，得到每种关系的粒度宽度

其公式表示如下：

δ_i＝σ(sum{f_i⊙w_gran})

其中，

表示的是每个关系r_i所属支持样本到其原型c_i的平均距离。其公式表示为：

其中，d(.,.)表示的是给定两个向量之间的欧式距离。

给定查询实例query并输入到上述权利要求1，2的编码器，得到对应的实例向量表示q；因此给定实例q，属于关系r_i的概率表示如下：

其中|R|表示的是预定义关系结合的关系数量。

S5：联合训练未知关系实例检测和关系粒度感知的区域原型网络后，输入预定义关系的支持集以及待预测的查询实例Query，进行词编码和句子编码后，通过未知关系实例检测后，可以判断出该查询实例Query是否属于已预定义的关系集合，若查询实例Query被未知关系实例检测检测出不属于预定义关系时，其将输入到关系粒度感知的区域原型网络，进一步预测出其属于最有可能的预定义关系。

在本实施例中，通过联合训练未知关系实例检测和关系粒度感知的区域原型网络，得到最佳的模型参数，联合训练的损失函数表示如下：

Loss＝λ₁L_phrase1+λ₂L_phrase2

如图2所示，本实施例还提供一种开放环境下基于粒度感知的少样本关系抽取系统，包括：词编码模块、句子编码模块、未知关系实例检测模块和关系粒度感知的区域原型网络模块；

本实施例提供一种存储介质，存储介质可以是ROM、RAM、磁盘、光盘等储存介质，该存储介质存储有一个或多个程序，所述程序被处理器执行时，实现上述开放环境下基于粒度感知的少样本关系抽取方法。

本实施例提供一种计算设备，所述的计算设备可以是台式电脑、笔记本电脑、智能手机、PDA手持终端、平板电脑或其他具有显示功能的终端设备，该计算设备包括该计算设备包括处理器和存储器，存储器存储有一个或多个程序，处理器执行存储器存储的程序时，实现上述开放环境下基于粒度感知的少样本关系抽取方法。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。