CN113051399B

CN113051399B - 一种基于关系型图卷积网络的小样本细粒度实体分类方法

Info

Publication number: CN113051399B
Application number: CN202110346254.9A
Authority: CN
Inventors: 鲁伟明; 陈晨; 庄越挺
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2022-05-24
Anticipated expiration: 2041-03-31
Also published as: CN113051399A

Abstract

本发明公开了一种基于关系型图卷积网络的小样本细粒度实体分类方法。首先，对句子中待分类的实体采用“实体‑上下文编码器”进行编码，并使用对抗学习加强模型鲁棒性，使用数据增强自动生成新数据。其次，构建可有效感知小样本的类别共现图，并利用关系型图卷积网络对类别进行编码。之后，通过匹配实体和类别的编码来对实体进行分类。整个模型通过元学习方式进行训练。最后，将小样本的类别数据输入模型对其参数进行微调，即可利用该模型为这些小样本类别的其他目标实体进行分类。

Description

一种基于关系型图卷积网络的小样本细粒度实体分类方法

技术领域

本发明属于实体分类技术领域，尤其涉及一种基于关系型图卷积网络的小样本细粒度实体分类方法。

背景技术

细粒度实体分类是自然语言处理中的一项基本任务，该任务是为包含周围上下文的特定实体分配合适的类别。类别概念是人类认识世界时构筑思维体系最基本的单位。有了类别，人们可以提取所属类别下实体的共性本质特点，而无需纠结于其中的细微差别。此外，正确的实体类别信息也将帮助人们更好地理解并认识新实体，同样也能服务于更多的下游任务。

现如今有大量通过卷积神经网络组成的深度学习模型被提出来解决该任务，但当前的这些模型均依赖于大型的标注训练集。当标注的数据有限时，它们往往效果较差。考虑到实际生产环境中收集并标注大量数据代价昂贵，且手动标记容易出错，可以采用小样本学习的方式解决该问题。

鉴于此，我们一方面特别关注了其他有足够标注样本的类别，构建了可有效感知小样本的类别共现图，并利用关系型图卷积网络获得更佳的类别表达。另一方面，针对标注数据少的问题，我们采用了数据增强的方式自动生成更多带标签的训练数据；针对模型鲁棒性问题，则采用了对抗学习。

发明内容

本发明的目的在于提供一种基于关系型图卷积网络的小样本细粒度实体分类方法，从而在只有较少标注的训练数据时，可以对这些小样本类别的其他目标实体进行正确分类。

本发明解决其技术问题采用的技术方案如下：一种基于关系型图卷积网络的小样本细粒度实体分类方法，该方法包括以下步骤：

1)划分数据集：在每一个训练批次前，将包含大规模标注样本的数据集划分为与小样本同规模的支持集，并构建查询集和训练集。

2)扩充支持集：利用数据增强自动对小样本类别数据进行扩充。

3)实体表示：对句子中的实体采用“实体-上下文编码器”进行编码，其中对实体采用平均编码器，对上下文采用Bi-LSTM编码，并使用对抗训练加强小样本实体分类模型鲁棒性。

4)类别表示：构建可感知小样本的类别共现图，并利用关系型图卷积网络得到类别表示。

5)以元学习方式训练模型，获得小样本分类器：根据匹配得分为实体分配合适的类别，通过基于episode的训练方式，在步骤1)中构建的训练集、支持集和查询集上训练，计算梯度并在每次训练迭代中更新模型。

6)小样本实体分类：将包含小样本类别的支持集和包含频繁样本类别的训练集一起传入步骤5)得到的分类器对模型参数进行微调，再将待分类的查询集输入分类器，分类器将输出实体匹配的小样本类别。

进一步地，所述步骤1)具体为：

为每个episode划分数据集。假定最终待分类的小样本类别有C个，每类仅提供K个实例(即小样本设置为C-way K-shot，通常K较小)，则将包含大规模标注样本的数据集划分为同规模的支持集，并依次构建查询集和训练集。具体为：从数据集的类别中随机选择C个类别，将C个类别定义为T_support，并从中为每个类别随机选择K个样本，从而构建支持集

令数据集中所有样本类别属于以上C个类的样本集合为X，从X\

的集合里(其中\表示减号集)随机选择R个样例作为测试样本，构成查询集

将原数据集内的样本集合X剔除，作为更新后的训练集

其中训练集内的类别集合定义为T_train。

进一步地，所述步骤2)具体为：

自动扩充支持集。使用数据增强自动对小样本类别的数据进行扩充，并加入到之后的实体表示学习中。将一个句子中待分类的实体提及称作mention，该实体的上下文词称作token。数据增强操作具体有如下四种：a)T-REP，即token替换，将上下文词替换为同义词；b)T-DEL，即token删除，应避免删除目标实体的词语序列中的单词；c)T-INS，即token插入，应避免在目标实体的词语序列中插入单词；d)M-REP，即mention替换，将句子中的实体替换为和目标实体同样的小样本类别的实体。其中对于前三种数据增强操作，采用nlpaug工具辅助实现。

进一步地，所述步骤3)中，对实体进行编码具体为：

一条训练数据包含实体m和其上下文c，分别对m和c进行编码得到v_m和v_c，具体为：

对实体m的编码。假设实体m是由n个单词组成的：

定义

的向量为

其中d_m是词向量的维度，使用预训练向量GloVe来编码每个单词。再使用平均编码器，取其n个单独的词的向量平均作为实体m的表示：

对上下文c的编码。使用Bi-LSTM对其进行编码。首先将句子中的目标实体提及替换为一个特殊的token，即[mention]，再结合上下文词，作为一个完整的输入序列。在嵌入层，采用GloVe来编码每个单词。在Bi-LSTM层，将句子编码进隐藏状态(h₁,h₂,…,h_s)，s为Bi-LSTM层的隐藏状态数，正向和反向的编码公式如下：

其中，

和

分别表示前向和后向LSTM的隐层状态，d_c是隐层状态维度，v_t则是单词w_t在第t个时间步的输入。令

作为token[mention]的输出结果，其中

表示向量的拼接。使用v_c＝h_m作为实体相关的上下文表达。

最终，定义实体m的表示为v_m和v_c的拼接：

并将该表示定义为f_θ(x)，其中x＝(m,c)，θ为实体表示中的参数。

进一步地，所述步骤3)中使用对抗训练，在连续词向量上添加扰动。具体为：定义x为词向量序列的拼接，y为样本x的预测类型，θ,ψ是模型的参数。则训练模型的损失函数为：

其中，p_θ,ψ(x)是将样本x预测为类别y的概率。

在L2范数约束下计算出扰动r_adv为：

r_adv＝-eg/||g||₂

其中，

代表梯度，∈为超参，可以设置为1.0。通过添加扰动，获得对抗样本x_adv：

x_adv＝x+r_adv

进一步地，其特征在于，所述步骤4)中，对支持集和训练集中的类别构建可感知小样本的类别共现图，具体为：

构造一个类别共现图G_f＝{V_f,E_f}，其中V_f＝{t_i}表示类别的节点集合，V_f由两种节点组成：V_few代表小样本类别，来源于T_support，V_frq代表频繁样本类别，来源于T_train。

E_f＝{e_ij}表示类别共现的边的集合，E_f由三种边组成：

e_frq2frq：该条边所连接的两个节点类别均来自于V_frq；

e_frq2few：该条边所连接的两个节点类别一个来自于V_frq，另一个来自于V_few；

e_few2few：该条边所连接的两个节点类别均来自于V_few。

每条边的权重反映了两种类别的相关性。具体而言，如果在某条训练数据中，类别t_i和t_j均被标注为该实体的真实类别，则在t_i和t_j之间添加一条边。利用这种共现的统计数据来表征类别之间的关系，即边的权重矩阵为：

其中|{t|t∈T_train}|表示T_train中的类别个数，即频繁样本类别个数，|{t|t∈T_support}|表示T_support中的类别个数，即小样本类别个数。

该权重矩阵的元素为：

其中type(m)为实体m所属的类别，|*|表示元素*的个数。

进一步地，所述步骤4)中，将类别共现图作为神经网络的输入，经过关系型图卷积操作后得到类别的表示，具体为：

将类别共现图作为神经网络的输入，使用关系型图卷积算法进行卷积操作，对每一个类别的节点整合其邻居节点的信息，从而提取图结构的空间特征。关系型图卷积操作可以表示如下：

其中，

表示第l层卷积操作时的通用权重矩阵参数，

表示节点i在第l层的隐层向量，R＝{r_frq2frq,r_frq2few,r_few2few}是三种类型的边的集合，r_frq2frq表示e_frq2frq边的关系，r_frq2few表示e_frq2few边的关系，r_few2few表示e_few2few边的关系，

表示节点i在关系r∈R下的所有邻居节点集合，

表示第l层卷积操作时，关于关系类型r的权重矩阵参数，A_ij表示节点i与节点j之间的边的权重。σ表示激活函数。

在经过L层卷积操作之后，可以得到整合了邻居节点信息的小样本类别节点和频繁样本类别节点的隐层向量，即类别t_k的表达为：

并将该表示定义为f_ψ(t_k)，其中ψ为类别表示中的参数。

进一步地，所述步骤5)具体为：

以元学习方式训练神经网络模型。通过步骤3)和步骤4)分别获得实体和类别的表示后，对一个包含实体m和上下文c的查询x_i＝(m_i,c_i)而言，利用softmax函数输出其最终的类别分布，即：

其中f_θ(x_i)是实体表示，f_ψ(t_k)是类别表示。

在训练阶段模仿小样本学习的设置，在每个episode，通过步骤1)构建新的训练集、支持集和查询集。最终该模型的损失函数为：

其中S为支持集样本集合，S_da＝{x′_i,y_i}是增强数据样本集合，x′_i为步骤2)数据增强操作后的新数据，S_adv＝{x_i+r_adv,y_i}是对抗样本集合，θ和ψ是模型参数

本发明方法与现有技术相比具有的有益效果：

1.本方法在神经网络中引入关系型图卷积神经网络，充分利用了频繁样本类别和小样本类别之间的关联，并对其进行了有效的区分，以获得更好的类别表达。

2.本方法针对标注数据少的问题，采用了数据增强的方式自动扩充更多带标签的样本。

3.本方法为了提高模型的鲁棒性，采用了对抗学习。

4.本方法分类准确率较高，能够较为准确地判断实体所对应的小样本类别。

附图说明

图1是本发明方法的总体流程图；

图2是本发明具体实施例中神经网络模型结构图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细说明。

如图1所示，本发明提供一种基于关系型图卷积网络的小样本细粒度实体分类方法，包括以下步骤：

具体地，所述步骤1)具体为：

令数据集中所有样本类别属于以上C个类的样本集合为X，从X\

将原数据集内的样本集合X剔除，作为更新后的训练集

其中训练集内的类别集合定义为T_train。

具体地，所述步骤2)具体为：

具体地，所述步骤3)中，对实体进行编码具体为：

对实体m的编码。假设实体m是由n个单词组成的：

定义

的向量为

其中，

和

作为token[mention]的输出结果，其中

表示向量的拼接。使用v_c＝h_m作为实体相关的上下文表达。

最终，定义实体m的表示为v_m和v_c的拼接：

具体地，所述步骤3)中使用对抗训练，在连续词向量上添加扰动。具体为：定义x为词向量序列的拼接，y为样本x的预测类型，θ,ψ是模型的参数。则训练模型的损失函数为：

其中，p_θ,ψ(x)是将样本x预测为类别y的概率。

在L2范数约束下计算出扰动r_adv为：

r_adv＝-eg/||g||₂

其中，

x_adv＝x+r_adv

具体地，所述步骤4)中，对支持集和训练集中的类别构建可感知小样本的类别共现图，具体为：

E_f＝{e_ij}表示类别共现的边的集合，E_f由三种边组成：

e_frq2frq：该条边所连接的两个节点类别均来自于V_frq；

e_few2few：该条边所连接的两个节点类别均来自于V_few。

该权重矩阵的元素为：

其中type(m)为实体m所属的类别，|*|表示元素*的个数。

具体地，所述步骤4)中，将类别共现图作为神经网络的输入，经过关系型图卷积操作后得到类别的表示，具体为：

其中，

表示第l层卷积操作时的通用权重矩阵参数，

表示节点i在关系r∈R下的所有邻居节点集合，

并将该表示定义为f_ψ(t_k)，其中ψ为类别表示中的参数。

具体地，所述步骤5)具体为：

其中f_θ(x_i)是实体表示，f_ψ(t_k)是类别表示。

实施例

下面结合本发明的方法详细说明本实施例实施的具体步骤，如下：

在本实施例中，将本发明的方法应用于细粒度实体分类的一个常用数据集FIGER上，随机选择其中10个类别作为小样本类别，每个类别有K个(K＝5或10)标注样例，对这些小样本类别的其他目标实体进行分类。

1)为每个episode划分数据集。FIGER数据集一共包含128个类别，剔除10个小样本类别后，实际用于训练的有118个类别。在每个episode中，模仿小样本学习的设置，从118个类别中随机选择10个类别作为小样本类别，并为每个类别随机选择K个(K＝5或10)样本，从而构成支持集。其余108个类别作为频繁样本类别，构成训练集。

2)扩充支持集。在每个episode中，通过四种数据增强操作为10个小样本类别自动扩充5倍的数据量，一并加入到此后的实体表示学习中。

3)实体表示。使用300维的GloVe向量作为词语的初始向量，通过“实体-上下文编码器”为句子中待分类的实体进行编码，并在词向量上采用对抗训练方式。

4)类别表示。构建可感知小样本的类别共现图，图中包括118个节点，其中10个为小样本类别节点，108个为频繁样本类别节点，通过类别共现信息计算所有边的权重值。再通过关系型图卷积网络获得类别表达。

5)以元学习方式训练神经网络模型。在本方法中，使用PyTorch框架构建该网络模型。

6)小样本实体分类。在神经网络训练完成后，我们可以将最初选择的10个小样本类别数据输入神经网络，这部分数据并未出现在此前的训练过程中。对模型参数进行微调后，将查询集输入分类器，此处我们随机选择了5031个待分类的小样本类别实体作为查询集。选择Accuracy准确度作为评价指标，评估在K＝5和10的情况下模型的表现情况。测试结果如表1所示，其中匹配网络、原型网络、关系网络、图神经网络均为已提出的小样本学习方法，本方法的表现情况优于这些方法，更为有效。

表1预测结果评估

	10-shot(K＝10)	5-shot(K＝5)
			本方法	0.593	0.520
匹配网络	0.523	0.464
			原型网络	0.551	0.490
关系网络	0.558	0.483
			图神经网络	0.579	0.512

以上所述仅为本说明书一个或多个实施例的较佳实施例而已，并不用以限制本说明书一个或多个实施例，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例保护的范围之内。

Claims

1.一种基于关系型图卷积网络的小样本细粒度实体分类方法，其特征在于，包括以下步骤：

1)划分数据集：在每一个训练批次前，将包含大规模标注样本的数据集划分为与小样本同规模的支持集，并构建查询集和训练集；

2)扩充支持集：利用数据增强自动对小样本类别数据进行扩充；

3)实体表示：对句子中的实体采用“实体-上下文编码器”进行编码，其中对实体采用平均编码器，对上下文采用Bi-LSTM编码，并使用对抗训练加强小样本实体分类模型鲁棒性；

4)类别表示：构建可感知小样本的类别共现图，并利用关系型图卷积网络得到类别表示；具体为：

将类别共现图作为神经网络的输入，使用关系型图卷积算法进行卷积操作，对每一个类别的节点整合其邻居节点的信息，从而提取图结构的空间特征；关系型图卷积操作可以表示如下：

其中，

表示第l层卷积操作时的通用权重矩阵参数，

表示节点i在关系r∈R下的所有邻居节点集合，

表示第l层卷积操作时，关于关系类型r的权重矩阵参数，A_ij表示节点i与节点j之间的边的权重；σ表示激活函数；

并将该表示定义为f_ψ(t_k)，其中ψ为类别表示中的参数；

5)以元学习方式训练模型，获得小样本分类器：根据匹配得分为实体分配合适的类别，通过基于episode的训练方式，在步骤1)中构建的训练集、支持集和查询集上训练，计算梯度并在每次训练迭代中更新模型；

2.根据权利要求1所述的一种基于关系型图卷积网络的小样本细粒度实体分类方法，其特征在于，所述步骤1)具体为：

为每个episode划分数据集；假定最终待分类的小样本类别有C个，每类仅提供K个实例，则将包含大规模标注样本的数据集划分为同规模的支持集，并依次构建查询集和训练集；具体为：从数据集的类别中随机选择C个类别，将C个类别定义为T_support，并从中为每个类别随机选择K个样本，从而构建支持集

令数据集中所有样本类别属于以上C个类的样本集合为X，从

的集合里随机选择R个样例作为测试样本，构成查询集

将原数据集内的样本集合X剔除，作为更新后的训练集

其中训练集内的类别集合定义为T_train。

3.根据权利要求1所述的一种基于关系型图卷积网络的小样本细粒度实体分类方法，其特征在于，所述步骤2)具体为：

自动扩充支持集；使用数据增强自动对小样本类别的数据进行扩充，并加入到之后的实体表示学习中；将一个句子中待分类的实体提及称作mention，该实体的上下文词称作token；数据增强操作具体有如下四种：a)T-REP，即token替换，将上下文词替换为同义词；b)T-DEL，即token删除，应避免删除目标实体的词语序列中的单词；c)T-INS，即token插入，应避免在目标实体的词语序列中插入单词；d)M-REP，即mention替换，将句子中的实体替换为和目标实体同样的小样本类别的实体；其中对于前三种数据增强操作，采用nlpaug工具辅助实现。

4.根据权利要求1所述的一种基于关系型图卷积网络的小样本细粒度实体分类方法，其特征在于，所述步骤3)中对实体进行编码具体为：

对实体m的编码；假设实体m是由n个单词组成的：

定义

的向量为

其中d_m是词向量的维度，使用预训练向量GloVe来编码每个单词；再使用平均编码器，取其n个单独的词的向量平均作为实体m的表示：

对上下文c的编码；使用Bi-LSTM对其进行编码；首先将句子中的目标实体提及替换为一个特殊的token，即[mention]，再结合上下文词，作为一个完整的输入序列；在嵌入层，采用GloVe来编码每个单词；在Bi-LSTM层，将句子编码进隐藏状态(h₁,h₂,…,h_s)，s为Bi-LSTM层的隐藏状态数，正向和反向的编码公式如下：

其中，

和

分别表示前向和后向LSTM的隐层状态，d_c是隐层状态维度，v_t则是单词w_t在第t个时间步的输入；令

作为token[mention]的输出结果，其中

表示向量的拼接；使用v_c＝h_m作为实体相关的上下文表达；

最终，定义实体m的表示为v_m和v_c的拼接：

5.根据权利要求1所述的一种基于关系型图卷积网络的小样本细粒度实体分类方法，其特征在于，所述步骤3)中使用对抗训练，在连续词向量上添加扰动；具体为：定义x为词向量序列的拼接，y为样本x的预测类型，θ,ψ是模型的参数；则训练模型的损失函数为：

其中，p_θ,ψ(x)是将样本x预测为类别y的概率；

在L2范数约束下计算出扰动r_adv为：

r_adv＝-∈g/||g||₂

其中，

代表梯度，∈为超参；

通过添加扰动，获得对抗样本x_adv：

x_adv＝x+r_adv。

6.根据权利要求2所述的一种基于关系型图卷积网络的小样本细粒度实体分类方法，其特征在于，所述步骤4)中，对支持集和训练集中的类别构建可感知小样本的类别共现图，具体为：

构造一个类别共现图G_f＝{V_f,E_f}，其中V_f＝{t_i}表示类别的节点集合，V_f由两种节点组成：V_few代表小样本类别，来源于T_support，V_frq代表频繁样本类别，来源于T_train；

E_f＝{e_ij}表示类别共现的边的集合，E_f由三种边组成：

e_frq2frq：该条边所连接的两个节点类别均来自于V_frq；

e_few2fee：该条边所连接的两个节点类别均来自于V_few；

每条边的权重反映了两种类别的相关性；具体而言，如果在某条训练数据中，类别t_i和t_j均被标注为该实体的真实类别，则在t_i和t_j之间添加一条边；利用这种共现的统计数据来表征类别之间的关系，即边的权重矩阵为：

N＝|{t|t∈T_train}|,M＝|{t|t∈T_support}|

其中|{t|t∈T_train}|表示T_train中的类别个数，即频繁样本类别个数，|{t|t∈T_support}|表示T_support中的类别个数，即小样本类别个数；

该权重矩阵的元素为：

其中type(m)为实体m所属的类别，|*|表示元素*的个数。

7.根据权利要求5所述的一种基于关系型图卷积网络的小样本细粒度实体分类方法，其特征在于，所述步骤5)具体为：

以元学习方式训练神经网络模型；通过步骤3)和步骤4)分别获得实体和类别的表示后，对一个包含实体m和上下文c的查询x_i＝(m_i,c_i)而言，利用softmax函数输出其最终的类别分布，即：

其中f_θ(x_i)是实体表示，f_ψ(t_k)是类别表示；

在训练阶段模仿小样本学习的设置，在每个episode，通过步骤1)构建新的训练集、支持集和查询集；最终该模型的损失函数为：

其中S为支持集样本集合，S_da＝{x′_i,y_i}是增强数据样本集合，x′_i为步骤2)数据增强操作后的新数据，S_adv＝{x_i+r_adv,y_i}是对抗样本集合，θ和ψ是模型参数。