CN110019822A

CN110019822A - 一种少样本关系分类方法及系统

Info

Publication number: CN110019822A
Application number: CN201910305007.7A
Authority: CN
Inventors: 叶志秀; 凌震华; 戴礼荣
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2019-04-16
Filing date: 2019-04-16
Publication date: 2019-07-16
Anticipated expiration: 2039-04-16
Also published as: CN110019822B

Abstract

本发明公开了一种少样本关系分类方法及系统，方法包括：对测试样例和支撑集进行上下文编码，得到K个支撑样例和1个测试样例的上下文编码信息；基于得到的支撑样例和测试样例的上下文编码信息，收集支撑样例和测试样例之间的相互匹配的局部信息，得到支撑样例的表征和测试样例的表征；对每个支撑样例的表征和测试样例的表征进行匹配，将匹配的得分作为权重，对所有同一类的样例表征做加权和，得到每个类别的表征；将每个类别的表征与测试样例的表征进行匹配，得到测试样例与每一类的匹配分数。本发明能够在多个层面对支撑数据和测试数据进行匹配，提高了少样本关系分类的准确率。

Description

一种少样本关系分类方法及系统

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种少样本关系分类方法及系统。

背景技术

关系分类(Relation classification，RC)是自然语言处理中的一项基础任务，目标是识别文本中的两个实体的语义关系。一些传统的关系分类方法采用了监督训练的方法，但是缺乏大规模的人工标注的数据。为了解决这个问题，远程监督的方法被提出，该方法能通过启发式地对齐知识库(knowledge base，KB)和文本来标注数据。然而，知识库中的长尾问题仍然会使模型很难在少样本的关系上做分类。

因此，如何有效的解决长尾问题，提高少样本关系分类的准确率，是一项亟待解决的问题。

发明内容

有鉴于此，本发明提供了一种少样本关系分类方法，基于多级别匹配聚合神经网络，能够在多个层面对支撑数据和测试数据进行匹配，提高了少样本关系分类的准确率。

本发明提供了一种少样本关系分类方法，包括：

对测试样例和支撑集进行上下文编码，得到K个支撑样例和1个测试样例的上下文编码信息；

基于得到的所述支撑样例和测试样例的上下文编码信息，收集所述支撑样例和所述测试样例之间的相互匹配的局部信息，得到所述支撑样例的表征和所述测试样例的表征；

对每个所述支撑样例的表征和所述测试样例的表征进行匹配，将匹配的得分作为权重，对所有同一类的样例表征做加权和，得到每个类别的表征；

将每个类别的表征与测试样例的表征进行匹配，得到测试样例与每一类的匹配分数。

优选地，所述对测试样例和支撑集进行上下文编码，得到支撑样例和测试样例的上下文编码信息，包括：

基于卷积神经网络对测试样例和支撑集进行上下文编码，得到支撑样例和测试样例的上下文编码信息。

优选地，所述局部信息包括：所述支撑样例和所述测试样例中的字、词或短语之间的匹配信息。

优选地，所述方法还包括：

基于辅助损失函数度量每个支撑样例和对应类别之间的距离。

一种少样本关系分类系统，包括：

编码模块，用于对测试样例和支撑集进行上下文编码，得到K个支撑样例和1个测试样例的上下文编码信息；

局部匹配与聚合模块，用于基于得到的所述支撑样例和测试样例的上下文编码信息，收集所述支撑样例和所述测试样例之间的相互匹配的局部信息，得到所述支撑样例的表征和所述测试样例的表征；

样例匹配与聚合模块，用于对每个所述支撑样例的表征和所述测试样例的表征进行匹配，将匹配的得分作为权重，对所有同一类的样例表征做加权和，得到每个类别的表征；

类别匹配模块，用于将每个类别的表征与测试样例的表征进行匹配，得到测试样例与每一类的匹配分数。

优选地，所述编码模块具体用于：

优选地，所述系统还包括：

度量模块，用于基于辅助损失函数度量每个支撑样例和对应类别之间的距离。

综上所述，本发明公开了一种少样本关系分类方法，包括：对测试样例和支撑集进行上下文编码，得到K个支撑样例和1个测试样例的上下文编码信息；基于得到的支撑样例和测试样例的上下文编码信息，收集支撑样例和测试样例之间的相互匹配的局部信息，得到支撑样例的表征和测试样例的表征；对每个所述支撑样例的表征和测试样例的表征进行匹配，将匹配的得分作为权重，对所有同一类的样例表征做加权和，得到每个类别的表征；将每个类别的表征与测试样例的表征进行匹配，得到测试样例与每一类的匹配分数。本发明基于多级别匹配聚合神经网络，能够在多个层面对支撑数据和测试数据进行匹配，提高了少样本关系分类的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明公开的一种少样本关系分类方法实施例1的方法流程图；

图2为本发明公开的一种少样本关系分类方法实施例2的方法流程图；

图3为本发明公开的一种少样本关系分类系统实施例1的结构示意图；

图4为本发明公开的一种少样本关系分类系统实施例2的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，为本发明公开的一种少样本关系分类方法实施例1的方法流程图，所述方法可以包括：

S101、对测试样例和支撑集进行上下文编码，得到K个支撑样例和1个测试样例的上下文编码信息；

在少样本学习中，有两个数据集：元训练集和元测试集，元训练集和元测试集的类别空间没有重叠部分。其中，元测试集被分为两个部分，一部分为支撑集，另一部分为测试样例。其中支撑集又分为N类，每一类有K个支撑样例，测试样例被要求分类到支撑集中的某一类中去。

具体的，在对少样本关系分类时，首先基于编码模块，其中，编码模块的输入是一个句子(测试样例)和两个实体在句子中的位置。一般先将句子中的词和位置信息用向量表征，然后使用神经网络将这些信息融合。具体的，在本发明中，可以通过卷积神经网络编码支撑集和测试样例的每个单词，从而获得考虑上下文信息的单词表达。

S102、基于得到的支撑样例和测试样例的上下文编码信息，收集支撑样例和测试样例之间的相互匹配的局部信息，得到支撑样例的表征和测试样例的表征；

然后基于局部匹配与聚合模块，其中，局部匹配与聚合模块的输入是从编码模块得到的K个支撑样例和1个测试样例的上下文编码信息，使用注意力机制来收集这两类样例之间的相互匹配的局部信息。具体的，局部信息指的是样例中的字或词或短语之间的匹配信息，由此得到的新的表征中包含了与其相匹配的另一个句子的信息。

S103、对每个支撑样例的表征和测试样例的表征进行匹配，将匹配的得分作为权重，对所有同一类的样例表征做加权和，得到每个类别的表征；

然后基于样例匹配与聚合模块，其中，样例匹配与聚合模块的输入是从局部匹配与聚合模块得到的支撑样例的表征和测试样例的表征。在样例匹配与聚合模块中，首先将每个支撑样例的表征和测试样例的表征进行匹配，并将匹配的得分作为权重，对所有同一类的样例表征做加权和，得到这个类别的表征形式。

S104、将每个类别的表征与测试样例的表征进行匹配，得到测试样例与每一类的匹配分数。

最后基于类别匹配模块，其中，类别匹配模块的输入是样例匹配与聚合模块的输出，即类别的表征和测试样例的表征，将这两个表征输入到一个多层感知机中，得到测试样例与每一类的匹配分数。

综上所述，本发明综合利用了少样本学习、关系分类和句子匹配三个技术领域的特性，针对句子内部上下文信息的编码，采用了位置特征加卷积神经网络的方法；针对现有方法在编码句子表征时进行独立编码的问题，引入了句子匹配模型中的联合模型方法；针对训练数据为少量样本的情况，以原型网络为框架，充分利用训练数据；能够在多个层面对支撑数据和测试数据进行匹配，提高了少样本关系分类的准确率。

如图2所示，为本发明公开的一种少样本关系分类方法实施例2的方法流程图，所述方法可以包括：

S201、对测试样例和支撑集进行上下文编码，得到K个支撑样例和1个测试样例的上下文编码信息；

S202、基于得到的支撑样例和测试样例的上下文编码信息，收集支撑样例和测试样例之间的相互匹配的局部信息，得到支撑样例的表征和测试样例的表征；

S203、对每个支撑样例的表征和测试样例的表征进行匹配，将匹配的得分作为权重，对所有同一类的样例表征做加权和，得到每个类别的表征；

S204、基于辅助损失函数度量每个支撑样例和对应类别之间的距离；

具体的，在上述实施例的基础上，本实施例还提出了一个辅助损失函数，该函数用来度量支撑样例之间的不一致性，通过优化该函数来使得同一类的支撑样例之间的表达更一致。

S205、将每个类别的表征与测试样例的表征进行匹配，得到测试样例与每一类的匹配分数。

最后，基于类别匹配模块，其中，类别匹配模块的输入是样例匹配与聚合模块的输出，即类别的表征和测试样例的表征，将这两个表征输入到一个多层感知机中，得到测试样例与每一类的匹配分数。

为了更加清楚的对本发明公开的技术方案进行说明，下面以具体的实例为例进行详细说明：

在编码模块中，对于一个输入样例(x，p)，x是一句话，p＝(p1，p2) 是两个实体的位置。首先将x中的每个词和这个词相对实体的距离做编码，并将编码结果进行拼接，对应每个单词有一个向量表示。然后，将这句话的矩阵表示形式输入到一个卷积神经网络中，得到包含上下文语义的词级别的表示，其中T_q是测试样例的长度， T_k是第k个支撑样例的长度，d_c是每个单词的向量表示。

在局部匹配与聚合模块中，通过如下操作，将支撑集里面的K个句子拼接成一个矩阵：

其中，再然后，通过软对齐的方式获得测试样例和支撑集之间的对齐关系。此发明实例中，使用向量点积的方式来得到单词之间的对齐值。计算公式如下：然后分别对两个维度进行 softmax归一化，得到如下公式：

使用归一化的权重值对另一个语句进行加权和，得到如下公式：

通过比较a^s,a^c(或者b^s,b^c)之间的关系，便可建模局部的匹配关系。此外，为了更好地将新的表示和原始表示进行融合，定义了如下函数：

x＝q或c

使用该函数，得到了局部匹配信息。紧接着，将支撑集句子拆分开来，

将得到的局部匹配信息输入到一个双向长短时记忆网络中，得到更好的上下文表示。计算公式如下：

x＝Q^m或

其中BiLSTM由一个前向LSTM和反向LSTM拼接而成。单向的LSTM 计算公式如下：

i_t＝σ(W_ix_t+U_ih_t-1+b_i)

f_t＝σ(W_fx_t+U_fh_t-1+b_f)

u_t＝tanh(W_ux_t+U_uh_t-1+b_u)

o_t＝σ(W_ox_t+U_oh_t-1+b_o)

c_t＝f_t⊙c_t-1+i_t⊙u_t

h_t＝o_t⊙tanh(c_t)

其中σ是sigmoid函数，⊙是逐元素乘法，W,U,b都是可训练的参数。

再接下来通过使用最大值池化和均值池化的方式，将测试样例和支撑样例表示成向量形式。

其中，

在样例匹配与聚合模块和类别匹配模块中，使用多层感知机计算待测试样例和每一个支撑样例之间的匹配度，公式如下：

接下来，可以将这个匹配度当作权重，来计算每个类别的表示，公式如下：

在计算得到了每个类别的表征以后，将类别表征和测试样例的表征进行匹配，所使用的公式和上式相同，得到测试样例与每一类的匹配分数。

额外地，本实施例提出了另外一个辅助损失函数，用于度量每个支撑向量和对应类别之间的距离。具体地，公式如下：

通过这个损失函数，能将同一类地支撑向量尽可能地表示得一致。

为了验证本发明所提出方法的有效性，设计了如下实验。

(1)实验设置

本实验使用的FewRel少样本关系分类数据集，包含100种关系，每种关系有700个句子。句子的平均长度为24.99，该数据集包含124577个不同的符号。这100个关系被分成了训练、验证和测试三个数据集，每个数据集分别含有64、16和20个关系类别，分类准确率作为最终的评价指标。使用SGD 随机梯度下降算法进行模型优化，卷积神经网络的卷积核设为60*3*100，双向长短时记忆网络的维度设为100，并使用50维的GloVe 840B作为词向量的初始化。另外，使用了四种少样本学习配置方式5way 1shot，5way 5shot， 10way 1shot，和10way 5shot。

(2)实验结果

实验结果如表1所示。基准模型是原型网络(Prototypical Network，PN)，该网络独立地对支撑样本和测试样本进行编码，然后找出和测试样本最接近的支撑样本。从该表可以发现，本发明公开的模型的准确率明显高于基准模型，模型在四种不同测试配置的平均值上的绝对提升达到12.14％，体现出了本发明所提出模型的有效性。

表1：不同模型在FewRel数据集上的性能表现

另外，为了证明该模型中部分模块的作用，进行了一系列的消融实验。在本实验中，分别去掉该模型中的额外的损失函数，句子匹配聚合模块和局部匹配聚合模块，发现模型性能都有大幅度的下降，特别是当去掉局部匹配聚合模块，如表2所示模型的平均准确率下降近6％。

表2：多级别匹配聚合神经网络的消融实验

综上所述，本发明的优点在于：第一，使用局部匹配聚合模块，对测试样例和支撑样例进行联合编码，得到相互依赖的表示。第二，在计算每个类别的表示的时候，通过支撑样本和测试样本的匹配程度来计算每个支撑样本的权重，从而使类别表示更适合测试样本。

如图3所示，为本发明公开的一种少样本关系分类系统实施例1的结构示意图，所述系统可以包括：

编码模块301，用于对测试样例和支撑集进行上下文编码，得到K个支撑样例和1个测试样例的上下文编码信息；

局部匹配与聚合模块302，用于基于得到的支撑样例和测试样例的上下文编码信息，收集支撑样例和测试样例之间的相互匹配的局部信息，得到支撑样例的表征和测试样例的表征；

样例匹配与聚合模块303，用于对每个支撑样例的表征和测试样例的表征进行匹配，将匹配的得分作为权重，对所有同一类的样例表征做加权和，得到每个类别的表征；

类别匹配模块304，用于将每个类别的表征与测试样例的表征进行匹配，得到测试样例与每一类的匹配分数。

如图4所示，为本发明公开的一种少样本关系分类系统实施例2的结构示意图，所述系统可以包括：

编码模块401，用于对测试样例和支撑集进行上下文编码，得到K个支撑样例和1个测试样例的上下文编码信息；

局部匹配与聚合模块402，用于基于得到的支撑样例和测试样例的上下文编码信息，收集支撑样例和测试样例之间的相互匹配的局部信息，得到支撑样例的表征和测试样例的表征；

样例匹配与聚合模块403，用于对每个支撑样例的表征和测试样例的表征进行匹配，将匹配的得分作为权重，对所有同一类的样例表征做加权和，得到每个类别的表征；

度量模块404，用于基于辅助损失函数度量每个支撑样例和对应类别之间的距离；

类别匹配模块405，用于将每个类别的表征与测试样例的表征进行匹配，得到测试样例与每一类的匹配分数。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种少样本关系分类方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对测试样例和支撑集进行上下文编码，得到支撑样例和测试样例的上下文编码信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述局部信息包括：所述支撑样例和所述测试样例中的字、词或短语之间的匹配信息。

4.根据权利要求3所述的方法，还包括：

5.一种少样本关系分类系统，其特征在于，包括：

6.根据权利要求5所述的系统，其特征在于，所述编码模块具体用于：

7.根据权利要求6所述的系统，其特征在于，所述局部信息包括：所述支撑样例和所述测试样例中的字、词或短语之间的匹配信息。

8.根据权利要求7所述的系统，其特征在于，还包括：