CN114997331A

CN114997331A - 基于度量学习的小样本关系分类方法及系统

Info

Publication number: CN114997331A
Application number: CN202210743784.1A
Authority: CN
Inventors: 彭涛; 张潆心; 包铁; 王上
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2022-09-02

Abstract

本发明适用于关系分类技术领域，提供了基于度量学习的小样本关系分类方法及系统，利用查询实例影响支持集的训练，结合关系孪生网络结构计算查询实例和支持集中各实例的相似度，通过相似性分数对类别中的支持实例赋予不同权重，原型中心通过各类别实例的加权和计算获得，在原型中心的计算中融入了查询实例对其的影响；利用交叉融合层对各类别和查询实例之间的语义关系进行信息融合，通过计算查询实例特征和各类别原型中心特征之间的影响因子，得到彼此影响下更具有针对性的特征向量。本发明利用度量学习中的原型网络构建了小样本关系分类方法，使用关系孪生网络和交叉融合层进一步提升关系分类的效果。

Description

基于度量学习的小样本关系分类方法及系统

技术领域

本发明属于关系分类技术领域，尤其涉及基于度量学习的小样本关系分类方法及系统。

背景技术

关系分类作为自然语言处理中的一个重要问题，可以对句子中实体对之间的语义关系进行分类，关系分类属于针对限定类别的关系抽取问题，利用已标注关系的数据进行训练，对文本中已标注实体对之间表示的关系类别识别后总结归纳，形成计算机可理解的结构化数据，有利于进一步应用到信息检索、知识图谱构建及问答系统等任务中。深度学习模仿人脑的学习方式，并借鉴统计学等相关知识形成数据的特征表示。近年来，深度学习方法的研究在不断的深入，同时在自然语言处理任务上得到了应用，深度学习模型可以对浅层特征提取组合后形成抽象的深层次特征表示，与传统自然语言处理中的方法相比，深度学习的方法可以抽取句子更深层次的信息。基于深度学习的方法通过学习特征提取，构建了从句子信息输入到目标任务输出的模型，减轻了人工构建特征的负担。深度学习网络在输入和输出之间通过线性运算方式实现的映射也让深度学习更适用于分类任务。传统有监督学习的分类方法依赖于大量人工标记数据，标记工作会耗费大量的人力，并且由于人们的知识背景不同等客观因素的影响，因此会导致标记数据的不准确。

为了解决这些问题提出了基于深度学习的远程监督方法。在远程监督学习中通过将文本和知识图谱对齐的方法启发式地对语料库中的文本进行自动标记，进而获得大量的标记数据，认为如果文本中标注的实体对在知识图谱中已经存在关系，那么就用这个关系对语料库中包含这个实体对的文本进行关系标注，这样可以自动地构建大规模的训练数据。但语料库包含相同实体对的文本中表示的关系可能不完全一致，这样会引入不属于该关系的噪声数据。同时，尽管可以通过训练获得大量的标记数据，但知识图谱中的关系呈现长尾分布，大部分关系类别中只存在较少的实例，而获得的大部分数据都集中在少量的关系类别中，因此需要大量标记数据的分类方法对于包含少量样本的关系类别并不适用，深度学习的性能也会受到影响。

在人类仅仅通过少量的样本就可以总结规律进行学习的启迪下，研究人员希望机器学习可以模拟人脑的学习方式，对于学习过程中未出现过的类别，也具备同人类一样以少量数据为基础的学习能力，从而衍生了小样本学习。小样本学习的目标是从少量数据中学习新的类别，即通过少量样本训练的模型满足测试时对新类别进行正确分类的需求。模型通过训练学习了在不同类别间适应学习的泛化能力，这样在面对测试的新类别时不需要再对方法进行更改，基于学习到的泛化知识就可以适应新类别的分类任务。小样本学习下的关系分类任务是目前在关系分类任务中研究的重点方向。

发明内容

本发明实施例的目的在于提供基于度量学习的小样本关系分类方法及系统，旨在解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

基于度量学习的小样本关系分类方法，包括以下步骤：

步骤S1：支持集和查询集中的句子通过编码器获得句子的特征向量；在每个类别中计算所有支持实例之间的均值，得到各类别的原型中心作为类别代表；计算查询实例到各类别原型中心的距离，对查询实例进行分类；

步骤S2：将查询实例和支持集中的每个支持实例通过关系孪生网络计算相似度；基于计算的相似度得到各支持实例在类别中的权重；根据计算的权重将原型中心的计算方式调整为对类别中各实例的加权计算；

步骤S3：对查询实例特征和各类别原型中心特征进行交叉融合，得到查询实例和各个类别在彼此影响下的影响因子，在影响因子的作用下得到融合语义的原型中心

和查询实例

进一步的，所述步骤S1中，在关系分类任务中，对于小样本问题N-way K-shot的设置，集台

由N个关系类别下每类K个实例组成，其中

表示N*K个句子实例之一，r_i表示句子对应标注的N个关系类别之一，原型中心p_i表示类别中所有实例嵌入向量的均值：

其中，f表示句子实例通过编码器计算得到的特征向量；

在得到支持集中各类别的原型中心后，通过度量查询实例和各类别原型中心的距离得到查询实例和各类别之间的相似度，再经过softmax函数计算得到查询实例属于各类别的概率分布，将查询实例划分到距离原型中心最近的类别。

进一步的，所述步骤S2中，获取查询实例和支持实例之间的相似度的具体操作为：

将两个句子的特征向量经过全连接层后放入距离计算函数进行相似度计算，得到0-1间的值，作为两个句子的相似性分数，相似性分数的计算公式为：

σ表示sigmoid激活函数，两个实例之间的相似性分数

表示两个句子向量的相似度在激活函数作用下得到0-1范围内的值。

进一步的，所述步骤S2中，将权重进行归一化处理的具体操作为：

使用softmax函数将同一个类别中对各实例加权的权重和缩小为1，结合注意力机制，利用支持集中同一类别下支持实例针对目标查询实例的相似性权重，对原型中心的计算进行加权处理，权重的计算公式为：

经由关系孪生网络加强的原型中心pi计算公式为：

经过加权处理得到的原型中心结合了查询实例的信息，增强了与查询实例更相似的实例信息，在后续分类任务中增强了与查询实例相同关系的类别信息。

进一步的，所述步骤S3中，在影响因子的作用下得到融合语义的原型中心

和查询实例

的计算公式为：

其中，

函数表示将得到的矩阵在特征方向做均值的计算。

基于度量学习的小样本关系分类系统，包括：

原型网络模块，所述原型网络模块用于构建小样本关系分类架构；

关系孪生网络增强原型中心模块，所述关系孪生网络增强原型中心模块用于计算查询实例和每个支持实例之间的相似性分数，并依照相似性分数调整原型中心计算方式；

交叉融合模块，所述交叉融合模块用于对查询特征和类特征进行信息融合。

进一步的，所述原型网络模块在训练时采用基于episode的分段训练方式，对于训练中用于查询分类的样本集合查询集Q，查询实例q属于关系r_i的概率为：

其中，d表示距离计算函数，N表示关系集合中所有关系的数量；

在训练的过程中通过最小化交叉熵损失函数进行学习：

其中，|Q|表示查询实例的数量。

进一步的，所述基于episode的分段训练方式的具体操作为：

首先从训练集的N个关系类别中抽取一个episode训练所需的N_S个类别，并从训练集N_S个类别的实例中每类随机抽取K_S个作为episode训练所需的样本实例构成支持集，再从训练集N_S个类别的剩余实例中随机抽样K_Q个作为 episode训练所需的查询实例构成查询集，在训练中的各个类别都分别通过对支持实例取均值的方式计算出该类别的原型中心p_i，最终通过对查询实例到各类别原型中心距离的优化进而对损失的值进行更新，实现模型的训练。

与现有技术相比，本发明的有益效果是：

本发明对长尾关系中只包含少量样本的关系类别提出了基于度量学习的小样本关系分类方法研究，利用度量学习中的原型网络构建了小样本关系分类方法，使用关系孪生网络和交叉融合层进一步提升关系分类的效果；本方法在FewRel数据集上表现优异。

附图说明

图1为本发明的流程图。

图2为本发明中关系孪生网络结构图。

图3为本发明中交叉融合结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述。

本发明一个实施例提供的基于度量学习的小样本关系分类方法，包括以下步骤：

和查询实例

在本发明实施例中，优选的，输入是支持集和查询集两部分数据，其中支持集中包含N个关系类别，每个关系类别下包含K个支持实例。图1中 Encoder为实例编码器；RSN为关系孪生网络；FC为全连接层；Fusion Layer 为融合层；Distance为距离计算函数。

作为本发明的一种优选实施例，所述步骤S1中，在关系分类任务中，对于小样本问题N-way K-shot的设置，集合

由N个关系类别下每类K个实例组成，其中

其中，f表示句子实例通过编码器计算得到的特征向量；

在本发明实施例中，优选的，查询实例到哪个类别的原型中心距离更近，就将它划分到哪个类别。

作为本发明的一种优选实施例，所述步骤S2中，获取查询实例和支持实例之间的相似度的具体操作为：

σ表示sigmoid激活函数，两个实例之间的相似性分数

在本发明实施例中，优选的，

和f(q)分别是支持实例

和查询实例q 经过编码器计算后的特征向量，经过全连接层计算后经由距离计算函数度量相似性，这里使用的是欧氏距离作为距离度量。

作为本发明的一种优选实施例，所述步骤S2中，将权重进行归一化处理的具体操作为：

经由关系孪生网络加强的原型中心p_i计算公式为：

作为本发明的一种优选实施例，所述步骤S3中，在影响因子的作用下得到融合语义的原型中心

和查询实例

的计算公式为：

其中，

函数表示将得到的矩阵在特征方向做均值的计算。

本发明一个实施例提供的基于度量学习的小样本关系分类系统，包括：

在本发明实施例中，优选的，关系孪生网络增强原型中心模块由两个部分构成，包括两个完全一致且共享权重的编码器以及相似度计算。输入的是两个句子实例，输出的是两个句子中实体对间关系的相似度，结构如图2所示。为了捕获句子的语义，输入的两个实例先通过编码器得到特征向量。首先关系类别r_i的原型中心p_i和查询实例q在softmax函数作用下得到融合信息的特征矩阵，将矩阵在特征方向做均值得到的向量经过两个全连接层，分别得到原型中心p_i和查询实例q对彼此的影响因子。在交叉融合模块的最后通过影响因子分别对原型中心p_i和查询实例q的特征向量进行加权处理，作为最终分类前的向量表示。由于结合了查询实例和作为类别代表的原型中心的语义信息，更好地利用了查询实例，得到在彼此影响下更具有针对性的特征向量，因此在进行分类时，经过交叉融合层处理的各类别对于查询实例更具有区分性。

作为本发明的一种优选实施例，所述原型网络模块在训练时采用基于 episode的分段训练方式，对于训练中用于查询分类的样本集合查询集Q，查询实例q属于关系r_i的概率为：

在训练的过程中通过最小化交叉熵损失函数进行学习：

其中，|Q|表示查询实例的数量。

在本发明实施例中，优选的，d是距离计算函数，距离的度量一般使用欧式距离进行计算。

作为本发明的一种优选实施例，所述基于episode的分段训练方式的具体操作为：

在本发明实施例中，优选的，每个阶段需要抽取样本数据进行训练。对于训练集N个关系类别下每个类别包含K个样本的任务，设定一个不大于N 的值N_S作为在每个episode中关系类别的数量，采用不放回的等概率随机抽样从训练集中抽取样本进行每个episode损失的计算。

以上仅是本发明的优选实施方式，应当指出，对于本领域的技术人员来说，在不脱离本发明构思的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些均不会影响本发明实施的效果和专利的实用性。

Claims

1.基于度量学习的小样本关系分类方法，其特征在于，包括以下步骤：

和查询实例

2.根据权利要求1所述的基于度量学习的小样本关系分类方法，其特征在于，所述步骤S1中，在关系分类任务中，对于小样本问题N-wayK-shot的设置，集合

由N个关系类别下每类K个实例组成，其中

其中，f表示句子实例通过编码器计算得到的特征向量；

3.根据权利要求1所述的基于度量学习的小样本关系分类方法，其特征在于，所述步骤S2中，获取查询实例和支持实例之间的相似度的具体操作为：

σ表示sigmoid激活函数，两个实例之间的相似性分数

4.根据权利要求3所述的基于度量学习的小样本关系分类方法，其特征在于，所述步骤S2中，将权重进行归一化处理的具体操作为：

经由关系孪生网络加强的原型中心p_i计算公式为：

5.根据权利要求1所述的基于度量学习的小样本关系分类方法，其特征在于，所述步骤S3中，在影响因子的作用下得到融合语义的原型中心

和查询实例

的计算公式为：

其中，

函数表示将得到的矩阵在特征方向做均值的计算。

6.基于度量学习的小样本关系分类系统，其特征在于，包括：

7.根据权利要求6所述的基于度量学习的小样本关系分类系统，其特征在于，所述原型网络模块在训练时采用基于episode的分段训练方式，对于训练中用于查询分类的样本集合查询集Q，查询实例q属于关系r_i的概率为：

在训练的过程中通过最小化交叉熵损失函数进行学习：

其中，|Q|表示查询实例的数量。

8.根据权利要求7所述的基于度量学习的小样本关系分类系统，其特征在于，所述基于episode的分段训练方式的具体操作为：

首先从训练集的N个关系类别中抽取一个episode训练所需的N_S个类别，并从训练集N_S个类别的实例中每类随机抽取K_S个作为episode训练所需的样本实例构成支持集，再从训练集N_S个类别的剩余实例中随机抽样K_Q个作为episode训练所需的查询实例构成查询集，在训练中的各个类别都分别通过对支持实例取均值的方式计算出该类别的原型中心p_i，最终通过对查询实例到各类别原型中心距离的优化进而对损失的值进行更新，实现模型的训练。