CN114328921B

CN114328921B - 一种基于分布校准的小样本实体关系抽取方法

Info

Publication number: CN114328921B
Application number: CN202111613756.XA
Authority: CN
Inventors: 全哲; 彭阳; 乐雨泉
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2021-12-27
Filing date: 2021-12-27
Publication date: 2024-04-09
Anticipated expiration: 2041-12-27
Also published as: CN114328921A

Abstract

本发明公开了一种基于分布校准的小样本实体关系抽取方法，其假设特征向量中的每个维度都遵循高斯分布，并观察到相似类通常具有相似的特征表示均值和方差。因此，高斯分布的平均值和方差可以在类似的类别之间传递。同时，当有足够的样本时，可以更准确地估计统计数据。因此，重用来自多个类的分布统计量，并根据它们的类相似性可以更好地校准少数类的分布统计量，根据校准后的分布统计量可以生成更多的样本。本发明的有益效果：使提取的特征更丰富；可以减少分散偏度，能够让特征向量分布更接近高斯分布；大大减少了由于数据过少引起的过拟合问题，通过数据增强实现了关系抽取准确度的提高；能够极大地提高模型的泛化能力。

Description

一种基于分布校准的小样本实体关系抽取方法

【技术领域】

本发明涉及自然语言处理技术领域，尤其涉及一种基于分布校准的小样本实体关系抽取方法。

【背景技术】

信息抽取是自然语言处理中的重要组成部分，特别是在当今信息化的社会中，从海量数据中提取出有用的信息显得格外重要。关系抽取是信息抽取中的一项重要任务，其目的是根据两个给定实体之间的相关上下文对它们之间的关系进行分类。由于关系抽取能够提取文本信息，并使许多NLP应用(如信息检索、对话框生成和问答)受益，因此吸引了许多研究人员。

传统的监督模型在这项任务中得到了广泛的探索，但是，它们的性能在很大程度上取决于训练数据的规模和质量。在实践中，高质量数据的手动标记既耗时又耗费人力，这意味着这些受监督的模型通常数据稀少，因此很难很好地推广。

目前对于小样本实体关系抽取任务的做法主要分为以下几种：

1.基于迁移学习的方法

迀移学习(TransferLearning)旨在研究如何利用以前学到的知识来帮助更快速地解决新问题。对预训练网络的权重进行微调(Fine-tune)是主要的迀移学习方法之一。迀移学习从源任务中学习知识并将该知识应用于目标任务。

虽然迀移学习通常用于多任务学习或强化学习领域，但相关样本类别的知识迀移是小样本学习的关键方法。使用基于迀移学习的小样本学习方法时，需要注意：

(1)使用的预训练网络必须满足目标任务的模型架构约束；

(2)微调时，训练过程并不是从头开始，需要正确选择对网络中哪些层进行微调，通常为网络的高级部分；

(3)选择适当的学习策略。

2.基于元学习的方法

对于人类而言，仅需要少量图像甚至不需要图像，根据对物体的描述就能利用以往的经验知识实现对物体的识别，这是因为人类会利用自己的先验知识进行学习。元学习(Meta Learning)就是这类快速学习方法之一。

记忆增强神经网络(MANN)是一种基于神经图灵机的元学习模型，使用LSTM或前馈神经网络作为控制器。此外，Santoro等人给出了元学习任务的定义。对于元学习任务而言，选择参数来降低数据集D的分布中的预期学习成本。

基于LSTM的元学习模型(Meta-LSTM)旨在学习用于训练小样本学习中的另一个学习器的优化算法。Meta-LSTM利用LSTM来学习模型的初始化方式，并更新方向和学习率。

元学习网络(Meta Network)是一种元学习算法，在传统分类模型的最顶层使用更高层级的元学习器，以此来监督训练过程。整体框架包括三个过程：元信息的获取，快权重的生成和慢权重的优化。上述过程由基学习器和元学习器共同执行。快权重由元学习器产生，而慢权重则仅通过最小化分类损失来更新。在仅使用非常少量的训练样本的情况下，快权重被用来帮助模型泛化至新任务。

SNAIL元学习模型使用时间卷积神经网络和注意力机制，从过去的经验里快速学习。SNAIL模型把所有支持集中的样本和标签对组织成一个序列，然后把查询样本附加在它们的后面。这样的一个序列与学习过程的时域顺序一致，在学习过程中，在对查询样本做预测之前，先读取支持样本学习到相关的信息，接着对该序列进行时域卷积操作，将不同时间步的信息聚合到一起。在序列上使用随机遮盖注意力模型，将前面样本的有用信息聚合到后面样本上。

模型无关的元学习(MAML)方法，该方法训练一组初始化参数，通过在初始参数的基础上进行一次或者多次的梯度调整，来达到仅用少量样本就能快速适应新任务的目的。

3.基于度量学习的方法

基于度量学习的小样本学习方法的核心思想是：对样本之间的距离分布进行建模，使得相同类别的样本之间相似度高，而不同类别的样本之间相似度低。

孪生网络(Siamese Neural Networks)，通过有监督的方式进行训练，学习两个输入样本之间的相似之处。孪生网络由两个结构完全相同、权值共享的分支神经网络组成。这两个孪生分支的输入不同，它们的输出将作为孪生网络损失函数的输入。

匹配网络(Matching Networks)，其主要思想是：在不改变网络模型的情况下，为未知类别生成预测标签。匹配网络对支持集中的支持样本使用了注意力机制，可以实现快速学习。值得注意的是，匹配网络模型在训练过程中使用了基于episode(分段)的训练方式，每个episode通过采样类别和样本来模拟小样本学习任务。在episode的作用下，训练过程与测试过程一致，这使得预测结果更加可靠，从而提高模型的泛化能力。

原型网络(Prototypical Networks)认为每个类别都存在一个类原型，且该类别的样本都聚集在类原型的周围。原型网络从支持样本中为每个类别都找到其相应的原型，然后在某个距离度量下，比较这个类原型与查询样本的距离。

一种基于混合注意力(Hybrid Attention-Based,HATT)的原型网络结构。首先，该模型使用样本级别的注意力机制从支持集中选出和查询样本更为贴近的样本，同时降低噪声样本所带来的影响。特征级别的注意力机制的能够衡量特征空间中的哪些维度对关系分类更为重要，从而为每种不同的关系类别都生成相适应的距离度量函数，从而使模型能够有效处理特征稀疏的问题。

归纳网络(Induction NetWorks)方法显式地建模了从样本表示到类别表示这一能力，在ODIC数据集和ARSC数据集上的效果均超过了当前最优模型。

可见，以前的大多数工作都集中在开发更强的模型上，很少关注数据本身的属性。很自然，当数据数量增加时，可以更准确地揭示真实分布。在评估过程中，经过广泛数据覆盖训练的模型可以很好地推广。另一方面，当训练一个只有少量训练数据的模型时，模型往往会通过最小化这些样本的训练损失而过度拟合这些样本。这种基于少数示例的有偏分布可能会损害模型的泛化能力，因为它远远不能反映评估期间从中采样测试用例的真实分布。

【发明内容】

本发明公开了一种基于分布校准的小样本实体关系抽取方法，其可以解决背景技术中涉及的技术问题。

为实现上述目的，本发明的技术方案为：

一种基于分布校准的小样本实体关系抽取方法，该方法包括如下步骤：

步骤一、提供一包含多个关系类别的数据集，并将该数据集按类别划分出训练集和测试集，其中，训练集包含的类别多于测试集包含的类别，每个类别包含多个样本；

步骤二、将训练集作为基类，测试集作为新类，使用BERT模型将基类和新类中各类别所包含的样本进行向量化，提取样本的特征向量，从而将训练集转化为基类特征向量集，将测试集转化为新类特征向量集；

步骤三、通过公式(1)和(2)分别计算来自基类中的类别i的特征平均值μ_i和特征协方差矩阵∑_i，从而得出基类特征向量集的分布统计量；

其中，x_j是基类中的类别i的第j个样本的特征向量，j为大于0的自然数；n_i是类别i中的样本总数；

步骤四、使用基于Episode的元任务训练策略训练分类器，每轮从新类特征向量集选取N个类别，从每个类别中分别抽取K个样本作为支持集，抽取Q个样本作为查询集，其中，N、K、Q均为大于0的自然数；

步骤五、通过Tukey幂阶变换将步骤四获得的支持集和查询集的特征向量通过公式(3)进行映射，得到特征向量

其中，λ是一个超参数，用于调整如何校准统计分布量；

步骤六、通过公式(4)和(5)判断基类中所有类别包含的特征平均值和新类的支持集包含的特征向量的相似度，基于该相似度选择出基类中所有类别包含的特征平均值和新类的支持集包含的特征向量/>最相似的前k个类别；

其中，为特征向量/>与基类中所有类别包含的特征平均值计算距离的输入距离集，topk(·)为从输入距离集/>中选择最近的k个元素的运算符；/>为存储距离特征向量/>的前k个最近的基类的类别；/>为支持集中的一个特征向量；C_b为基类特征向量集；

步骤七、基于步骤六中选择的前k个类别的特征平均值μ′和特征协方差矩阵∑′，通过公式(6)和(7)校准支持集包含的特征向量的分布统计量；

其中，∝是一个超参数，决定从分布统计量中采样的特征向量的分散程度；

步骤八、通过公式(8)和(9)从支持集中的类别y的一组通过步骤七校准后的分布统计量中采样θ个带有标签y的特征向量扩充训练数据；

其中，μ′_K，∑′_K分别是类别y中第K个特征向量校准后的特征平均值和特征协方差矩阵；K为支持集中每个类别的样本数量；

步骤九、将步骤八采样得到的特征向量与新类支持集中的特征向量共同作为分类器的训练数据，通过最小化采样得到的样本和支持集的样本的交叉熵损失来训练分类器；

步骤十、使用通过步骤九训练后的分类器对新类查询集的样本进行预测。

作为本发明的一种优选改进，在步骤一中，所述数据集为包含80个关系类别的大规模人工标注数据集FewRel。

作为本发明的一种优选改进，所述训练集包含64个类别，所述测试集包含16个类别。

作为本发明的一种优选改进，在步骤一中，训练集包含的样本数量大于测试集包含的样本数量。

作为本发明的一种优选改进，在步骤一中，每个类别包含700个样本。

作为本发明的一种优选改进，在步骤五中，λ设置为1时，可以恢复原始特征。

作为本发明的一种优选改进，在步骤六中，判断相似度的距离度量函数使用支持集的特征向量和基类特征平均值μ_i之间的欧式距离，距离越近，则相似度越高。

作为本发明的一种优选改进，在步骤九中，通过公式(10)训练分类器：

其中，y^T表示支持集的所有类别，表示特征向量通过Turkey变换转换而来的支持集，分类器由θ参数化。

本发明的有益效果如下：

1、通过采用BERT模型将样本向量化并提取样本的特征向量，融合了词向量和位置向量，词向量输出有着丰富的语言结构编码，在互补子空间中以词向量编码句法和语义特征，使提取的特征更丰富；

2、通过Tukey幂阶变换进行映射，可以减少分散偏度，能够让特征向量分布更接近高斯分布；

3、用基类的统计分布量来校准新类的统计分布量，以此来采样得到更多数据，将采样的数据和新类支持集的数据共同训练分类器，大大减少了由于数据过少引起的过拟合问题，通过数据增强实现了关系抽取准确度的提高；

4、采用分布校准的方法更简单、有效和灵活，无需任何可训练参数，可以建立在任何已有的特征提取器和分类器之上，能够极大地提高模型的泛化能力。

【附图说明】

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图，其中：

图1为BERT模型编码句向量的流程图。

【具体实施方式】

下面将结合本发明实施例对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

需要说明，本发明实施例中所有方向性指示(诸如上、下、左、右、前、后......)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“连接”、“固定”等应做广义理解，例如，“固定”可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

另外，本发明各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

本发明提供一种基于分布校准的小样本实体关系抽取方法，该方法包括如下步骤：

具体的，所述数据集为包含80个关系类别的大规模人工标注数据集FewRel。所述训练集包含64个类别，所述测试集包含16个类别，每个类别包含700个样本。训练集包含的样本数量大于测试集包含的样本数量。

需要进一步说明的是，BERT模型在预训练时有着自己的词表，在将句子输入BERT模型前需要使用BERT分词器对句子进行分词，将句中的单词转换为BERT模型词表中的词，对于不在词表中的词使用[uncased]代替，在补足句长时使用[pad]进行填补，同时BERT模型在词表中存在着一些特殊符号，如：[cls]用来放在句子的开始，在句子分类任务时使用该位置输出的向量作为句子表示向量；[sep]用来放在句尾，在输入为一对句子时(句子相似度计算任务)，[sep]置两句之间用来分割两句。

在使用BERT模型时，BERT模型的输入共有三个：token id，segment label和position embedding。token id是经过BERT模型对句子进行分词后获得的单词在词表中的下标，segment label用来表示当前单词属于哪一个句子(在输入为一对句子时，第一个句子中单词的segment label为0，第二个句子中单词的segment label为1)。positionembedding为分词后每个单词的位置向量，pos表示单词的位置，i表示维度，positionembedding计算方式如公式(2-1)、公式(2-2)所示：

BERT分词器输出的关系实例由公式(2-3)表示：

sentence＝[cls]+x₁+...+e_1，start+e₁+e_1，end+...+x_i+e_2，start+e₂+e_2，end+…+x_m-2+[sep] (2-3)

输入BERT编码句子向量如图1所示。

需要进一步说明的是，特征平均值μ_i即特征向量中每个单维度的平均值。由于特征向量x_j是多维的，使用特征协方差矩阵∑_i可以更好地表示特征向量中任意一对元素之间的方差。

其中，λ是一个超参数，用于调整如何校准统计分布量，λ设置为1时，可以恢复原始特征；

需要进一步说明的是，判断相似度的距离度量函数使用支持集的特征向量和基类特征平均值μ_i之间的欧式距离，距离越近，则相似度越高。

需要进一步说明的是，采用一组校准后的分布统计量，可以有效避免了由一个特定样本而导致的偏差，且能实现更多样化和更准确的分布估计。

具体的，通过公式(10)训练分类器：

本发明的有益效果如下：

尽管本发明的实施方案已公开如上，但并不仅仅限于说明书和实施方案中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里所示出与描述的图例。

Claims

1.一种基于分布校准的小样本实体关系抽取方法，其特征在于，应用于提取文本信息，该方法包括如下步骤：

步骤一、提供一包含多个关系类别的数据集，并将该数据集按类别划分出训练集和测试集，其中，训练集包含的类别多于测试集包含的类别，每个类别包含多个样本，所述数据集为包含80个关系类别的大规模人工标注数据集FewRel；

步骤三、通过公式（1）和（2）分别计算来自基类中的类别i的特征平均值和特征协方差矩阵/>，从而得出基类特征向量集的分布统计量；

（1）

（2）

其中，是基类中的类别i的第j个样本的特征向量，j为大于0的自然数；/>是类别i中的样本总数；

步骤五、通过Tukey幂阶变换将步骤四获得的支持集和查询集的特征向量通过公式（3）进行映射，得到特征向量；

（3）

其中，是一个超参数，用于调整如何校准统计分布量；

步骤六、通过公式（4）和（5）判断基类中所有类别包含的特征平均值和新类的支持集包含的特征向量的相似度，基于该相似度选择出基类中所有类别包含的特征平均值和新类的支持集包含的特征向量/>最相似的前k个类别；

（4）

（5）

其中，为特征向量/>与基类中所有类别包含的特征平均值计算距离的输入距离集，(·)为从输入距离集/>中选择最近的k个元素的运算符；/>为存储距离特征向量的前k个最近的基类的类别；/>为支持集中的一个特征向量；/>为基类特征向量集；

步骤七、基于步骤六中选择的前k个类别的特征平均值和特征协方差矩阵/>，通过公式（6）和（7）校准支持集包含的特征向量/>的分布统计量；

（6）

(7)

其中，是一个超参数，决定从分布统计量中采样的特征向量的分散程度；

步骤八、通过公式（8）和（9）从支持集中的类别y的一组通过步骤七校准后的分布统计量中采样θ个带有标签y的特征向量扩充训练数据；

（8）

（9）

其中，，/>分别是类别y中第K个特征向量校准后的特征平均值和特征协方差矩阵；K为支持集中每个类别的样本数量；

2.根据权利要求1所述的一种基于分布校准的小样本实体关系抽取方法，其特征在于：所述训练集包含64个类别，所述测试集包含16个类别。

3.根据权利要求1或2所述的一种基于分布校准的小样本实体关系抽取方法，其特征在于：在步骤一中，训练集包含的样本数量大于测试集包含的样本数量。

4.根据权利要求3所述的一种基于分布校准的小样本实体关系抽取方法，其特征在于：在步骤一中，每个类别包含700个样本。

5.根据权利要求1所述的一种基于分布校准的小样本实体关系抽取方法，其特征在于：在步骤五中，设置为1时，可以恢复原始特征。

6.根据权利要求1所述的一种基于分布校准的小样本实体关系抽取方法，其特征在于：在步骤六中，判断相似度的距离度量函数使用支持集的特征向量和基类特征平均值/>之间的欧式距离，距离越近，则相似度越高。

7.根据权利要求6所述的一种基于分布校准的小样本实体关系抽取方法，其特征在于：在步骤九中，通过公式（10）训练分类器：

（10）

其中，表示支持集的所有类别，/>表示特征向量通过Turkey变换转换而来的支持集，分类器由/>参数化。