CN113051399B - 一种基于关系型图卷积网络的小样本细粒度实体分类方法 - Google Patents

一种基于关系型图卷积网络的小样本细粒度实体分类方法 Download PDF

Info

Publication number
CN113051399B
CN113051399B CN202110346254.9A CN202110346254A CN113051399B CN 113051399 B CN113051399 B CN 113051399B CN 202110346254 A CN202110346254 A CN 202110346254A CN 113051399 B CN113051399 B CN 113051399B
Authority
CN
China
Prior art keywords
entity
training
sample
class
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110346254.9A
Other languages
English (en)
Other versions
CN113051399A (zh
Inventor
鲁伟明
陈晨
庄越挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202110346254.9A priority Critical patent/CN113051399B/zh
Publication of CN113051399A publication Critical patent/CN113051399A/zh
Application granted granted Critical
Publication of CN113051399B publication Critical patent/CN113051399B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于关系型图卷积网络的小样本细粒度实体分类方法。首先,对句子中待分类的实体采用“实体‑上下文编码器”进行编码,并使用对抗学习加强模型鲁棒性,使用数据增强自动生成新数据。其次,构建可有效感知小样本的类别共现图,并利用关系型图卷积网络对类别进行编码。之后,通过匹配实体和类别的编码来对实体进行分类。整个模型通过元学习方式进行训练。最后,将小样本的类别数据输入模型对其参数进行微调,即可利用该模型为这些小样本类别的其他目标实体进行分类。

Description

一种基于关系型图卷积网络的小样本细粒度实体分类方法
技术领域
本发明属于实体分类技术领域,尤其涉及一种基于关系型图卷积网络的小样本细粒度实体分类方法。
背景技术
细粒度实体分类是自然语言处理中的一项基本任务,该任务是为包含周围上下文的特定实体分配合适的类别。类别概念是人类认识世界时构筑思维体系最基本的单位。有了类别,人们可以提取所属类别下实体的共性本质特点,而无需纠结于其中的细微差别。此外,正确的实体类别信息也将帮助人们更好地理解并认识新实体,同样也能服务于更多的下游任务。
现如今有大量通过卷积神经网络组成的深度学习模型被提出来解决该任务,但当前的这些模型均依赖于大型的标注训练集。当标注的数据有限时,它们往往效果较差。考虑到实际生产环境中收集并标注大量数据代价昂贵,且手动标记容易出错,可以采用小样本学习的方式解决该问题。
鉴于此,我们一方面特别关注了其他有足够标注样本的类别,构建了可有效感知小样本的类别共现图,并利用关系型图卷积网络获得更佳的类别表达。另一方面,针对标注数据少的问题,我们采用了数据增强的方式自动生成更多带标签的训练数据;针对模型鲁棒性问题,则采用了对抗学习。
发明内容
本发明的目的在于提供一种基于关系型图卷积网络的小样本细粒度实体分类方法,从而在只有较少标注的训练数据时,可以对这些小样本类别的其他目标实体进行正确分类。
本发明解决其技术问题采用的技术方案如下:一种基于关系型图卷积网络的小样本细粒度实体分类方法,该方法包括以下步骤:
1)划分数据集:在每一个训练批次前,将包含大规模标注样本的数据集划分为与小样本同规模的支持集,并构建查询集和训练集。
2)扩充支持集:利用数据增强自动对小样本类别数据进行扩充。
3)实体表示:对句子中的实体采用“实体-上下文编码器”进行编码,其中对实体采用平均编码器,对上下文采用Bi-LSTM编码,并使用对抗训练加强小样本实体分类模型鲁棒性。
4)类别表示:构建可感知小样本的类别共现图,并利用关系型图卷积网络得到类别表示。
5)以元学习方式训练模型,获得小样本分类器:根据匹配得分为实体分配合适的类别,通过基于episode的训练方式,在步骤1)中构建的训练集、支持集和查询集上训练,计算梯度并在每次训练迭代中更新模型。
6)小样本实体分类:将包含小样本类别的支持集和包含频繁样本类别的训练集一起传入步骤5)得到的分类器对模型参数进行微调,再将待分类的查询集输入分类器,分类器将输出实体匹配的小样本类别。
进一步地,所述步骤1)具体为:
为每个episode划分数据集。假定最终待分类的小样本类别有C个,每类仅提供K个实例(即小样本设置为C-way K-shot,通常K较小),则将包含大规模标注样本的数据集划分为同规模的支持集,并依次构建查询集和训练集。具体为:从数据集的类别中随机选择C个类别,将C个类别定义为Tsupport,并从中为每个类别随机选择K个样本,从而构建支持集
Figure BDA0003000801020000021
令数据集中所有样本类别属于以上C个类的样本集合为X,从X\
Figure BDA0003000801020000022
的集合里(其中\表示减号集)随机选择R个样例作为测试样本,构成查询集
Figure BDA0003000801020000023
将原数据集内的样本集合X剔除,作为更新后的训练集
Figure BDA0003000801020000024
其中训练集内的类别集合定义为Ttrain
进一步地,所述步骤2)具体为:
自动扩充支持集。使用数据增强自动对小样本类别的数据进行扩充,并加入到之后的实体表示学习中。将一个句子中待分类的实体提及称作mention,该实体的上下文词称作token。数据增强操作具体有如下四种:a)T-REP,即token替换,将上下文词替换为同义词;b)T-DEL,即token删除,应避免删除目标实体的词语序列中的单词;c)T-INS,即token插入,应避免在目标实体的词语序列中插入单词;d)M-REP,即mention替换,将句子中的实体替换为和目标实体同样的小样本类别的实体。其中对于前三种数据增强操作,采用nlpaug工具辅助实现。
进一步地,所述步骤3)中,对实体进行编码具体为:
一条训练数据包含实体m和其上下文c,分别对m和c进行编码得到vm和vc,具体为:
对实体m的编码。假设实体m是由n个单词组成的:
Figure BDA0003000801020000031
定义
Figure BDA0003000801020000032
的向量为
Figure BDA0003000801020000033
其中dm是词向量的维度,使用预训练向量GloVe来编码每个单词。再使用平均编码器,取其n个单独的词的向量平均作为实体m的表示:
Figure BDA0003000801020000034
对上下文c的编码。使用Bi-LSTM对其进行编码。首先将句子中的目标实体提及替换为一个特殊的token,即[mention],再结合上下文词,作为一个完整的输入序列。在嵌入层,采用GloVe来编码每个单词。在Bi-LSTM层,将句子编码进隐藏状态(h1,h2,…,hs),s为Bi-LSTM层的隐藏状态数,正向和反向的编码公式如下:
Figure BDA0003000801020000035
Figure BDA0003000801020000036
其中,
Figure BDA0003000801020000037
Figure BDA0003000801020000038
分别表示前向和后向LSTM的隐层状态,dc是隐层状态维度,vt则是单词wt在第t个时间步的输入。令
Figure BDA0003000801020000039
作为token[mention]的输出结果,其中
Figure BDA00030008010200000310
表示向量的拼接。使用vc=hm作为实体相关的上下文表达。
最终,定义实体m的表示为vm和vc的拼接:
Figure BDA00030008010200000311
并将该表示定义为fθ(x),其中x=(m,c),θ为实体表示中的参数。
进一步地,所述步骤3)中使用对抗训练,在连续词向量上添加扰动。具体为:定义x为词向量序列的拼接,y为样本x的预测类型,θ,ψ是模型的参数。则训练模型的损失函数为:
Figure BDA0003000801020000041
其中,pθ,ψ(x)是将样本x预测为类别y的概率。
在L2范数约束下计算出扰动radv为:
radv=-eg/||g||2
其中,
Figure BDA0003000801020000042
Figure BDA0003000801020000043
代表梯度,∈为超参,可以设置为1.0。通过添加扰动,获得对抗样本xadv
xadv=x+radv
进一步地,其特征在于,所述步骤4)中,对支持集和训练集中的类别构建可感知小样本的类别共现图,具体为:
构造一个类别共现图Gf={Vf,Ef},其中Vf={ti}表示类别的节点集合,Vf由两种节点组成:Vfew代表小样本类别,来源于Tsupport,Vfrq代表频繁样本类别,来源于Ttrain
Ef={eij}表示类别共现的边的集合,Ef由三种边组成:
efrq2frq:该条边所连接的两个节点类别均来自于Vfrq
efrq2few:该条边所连接的两个节点类别一个来自于Vfrq,另一个来自于Vfew
efew2few:该条边所连接的两个节点类别均来自于Vfew
每条边的权重反映了两种类别的相关性。具体而言,如果在某条训练数据中,类别ti和tj均被标注为该实体的真实类别,则在ti和tj之间添加一条边。利用这种共现的统计数据来表征类别之间的关系,即边的权重矩阵为:
Figure BDA0003000801020000044
其中|{t|t∈Ttrain}|表示Ttrain中的类别个数,即频繁样本类别个数,|{t|t∈Tsupport}|表示Tsupport中的类别个数,即小样本类别个数。
该权重矩阵的元素为:
Figure BDA0003000801020000045
其中type(m)为实体m所属的类别,|*|表示元素*的个数。
进一步地,所述步骤4)中,将类别共现图作为神经网络的输入,经过关系型图卷积操作后得到类别的表示,具体为:
将类别共现图作为神经网络的输入,使用关系型图卷积算法进行卷积操作,对每一个类别的节点整合其邻居节点的信息,从而提取图结构的空间特征。关系型图卷积操作可以表示如下:
Figure BDA0003000801020000051
Figure BDA0003000801020000052
其中,
Figure BDA0003000801020000053
表示第l层卷积操作时的通用权重矩阵参数,
Figure BDA0003000801020000054
表示节点i在第l层的隐层向量,R={rfrq2frq,rfrq2few,rfew2few}是三种类型的边的集合,rfrq2frq表示efrq2frq边的关系,rfrq2few表示efrq2few边的关系,rfew2few表示efew2few边的关系,
Figure BDA0003000801020000055
表示节点i在关系r∈R下的所有邻居节点集合,
Figure BDA0003000801020000056
表示第l层卷积操作时,关于关系类型r的权重矩阵参数,Aij表示节点i与节点j之间的边的权重。σ表示激活函数。
在经过L层卷积操作之后,可以得到整合了邻居节点信息的小样本类别节点和频繁样本类别节点的隐层向量,即类别tk的表达为:
Figure BDA0003000801020000057
并将该表示定义为fψ(tk),其中ψ为类别表示中的参数。
进一步地,所述步骤5)具体为:
以元学习方式训练神经网络模型。通过步骤3)和步骤4)分别获得实体和类别的表示后,对一个包含实体m和上下文c的查询xi=(mi,ci)而言,利用softmax函数输出其最终的类别分布,即:
Figure BDA0003000801020000058
其中fθ(xi)是实体表示,fψ(tk)是类别表示。
在训练阶段模仿小样本学习的设置,在每个episode,通过步骤1)构建新的训练集、支持集和查询集。最终该模型的损失函数为:
Figure BDA0003000801020000061
其中S为支持集样本集合,Sda={x′i,yi}是增强数据样本集合,x′i为步骤2)数据增强操作后的新数据,Sadv={xi+radv,yi}是对抗样本集合,θ和ψ是模型参数
本发明方法与现有技术相比具有的有益效果:
1.本方法在神经网络中引入关系型图卷积神经网络,充分利用了频繁样本类别和小样本类别之间的关联,并对其进行了有效的区分,以获得更好的类别表达。
2.本方法针对标注数据少的问题,采用了数据增强的方式自动扩充更多带标签的样本。
3.本方法为了提高模型的鲁棒性,采用了对抗学习。
4.本方法分类准确率较高,能够较为准确地判断实体所对应的小样本类别。
附图说明
图1是本发明方法的总体流程图;
图2是本发明具体实施例中神经网络模型结构图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细说明。
如图1所示,本发明提供一种基于关系型图卷积网络的小样本细粒度实体分类方法,包括以下步骤:
1)划分数据集:在每一个训练批次前,将包含大规模标注样本的数据集划分为与小样本同规模的支持集,并构建查询集和训练集。
2)扩充支持集:利用数据增强自动对小样本类别数据进行扩充。
3)实体表示:对句子中的实体采用“实体-上下文编码器”进行编码,其中对实体采用平均编码器,对上下文采用Bi-LSTM编码,并使用对抗训练加强小样本实体分类模型鲁棒性。
4)类别表示:构建可感知小样本的类别共现图,并利用关系型图卷积网络得到类别表示。
5)以元学习方式训练模型,获得小样本分类器:根据匹配得分为实体分配合适的类别,通过基于episode的训练方式,在步骤1)中构建的训练集、支持集和查询集上训练,计算梯度并在每次训练迭代中更新模型。
6)小样本实体分类:将包含小样本类别的支持集和包含频繁样本类别的训练集一起传入步骤5)得到的分类器对模型参数进行微调,再将待分类的查询集输入分类器,分类器将输出实体匹配的小样本类别。
具体地,所述步骤1)具体为:
为每个episode划分数据集。假定最终待分类的小样本类别有C个,每类仅提供K个实例(即小样本设置为C-way K-shot,通常K较小),则将包含大规模标注样本的数据集划分为同规模的支持集,并依次构建查询集和训练集。具体为:从数据集的类别中随机选择C个类别,将C个类别定义为Tsupport,并从中为每个类别随机选择K个样本,从而构建支持集
Figure BDA0003000801020000071
令数据集中所有样本类别属于以上C个类的样本集合为X,从X\
Figure BDA0003000801020000072
的集合里(其中\表示减号集)随机选择R个样例作为测试样本,构成查询集
Figure BDA0003000801020000073
将原数据集内的样本集合X剔除,作为更新后的训练集
Figure BDA0003000801020000074
其中训练集内的类别集合定义为Ttrain
具体地,所述步骤2)具体为:
自动扩充支持集。使用数据增强自动对小样本类别的数据进行扩充,并加入到之后的实体表示学习中。将一个句子中待分类的实体提及称作mention,该实体的上下文词称作token。数据增强操作具体有如下四种:a)T-REP,即token替换,将上下文词替换为同义词;b)T-DEL,即token删除,应避免删除目标实体的词语序列中的单词;c)T-INS,即token插入,应避免在目标实体的词语序列中插入单词;d)M-REP,即mention替换,将句子中的实体替换为和目标实体同样的小样本类别的实体。其中对于前三种数据增强操作,采用nlpaug工具辅助实现。
具体地,所述步骤3)中,对实体进行编码具体为:
一条训练数据包含实体m和其上下文c,分别对m和c进行编码得到vm和vc,具体为:
对实体m的编码。假设实体m是由n个单词组成的:
Figure BDA0003000801020000081
定义
Figure BDA0003000801020000082
的向量为
Figure BDA0003000801020000083
其中dm是词向量的维度,使用预训练向量GloVe来编码每个单词。再使用平均编码器,取其n个单独的词的向量平均作为实体m的表示:
Figure BDA0003000801020000084
对上下文c的编码。使用Bi-LSTM对其进行编码。首先将句子中的目标实体提及替换为一个特殊的token,即[mention],再结合上下文词,作为一个完整的输入序列。在嵌入层,采用GloVe来编码每个单词。在Bi-LSTM层,将句子编码进隐藏状态(h1,h2,…,hs),s为Bi-LSTM层的隐藏状态数,正向和反向的编码公式如下:
Figure BDA0003000801020000085
Figure BDA0003000801020000086
其中,
Figure BDA0003000801020000087
Figure BDA0003000801020000088
分别表示前向和后向LSTM的隐层状态,dc是隐层状态维度,vt则是单词wt在第t个时间步的输入。令
Figure BDA0003000801020000089
作为token[mention]的输出结果,其中
Figure BDA00030008010200000810
表示向量的拼接。使用vc=hm作为实体相关的上下文表达。
最终,定义实体m的表示为vm和vc的拼接:
Figure BDA00030008010200000811
并将该表示定义为fθ(x),其中x=(m,c),θ为实体表示中的参数。
具体地,所述步骤3)中使用对抗训练,在连续词向量上添加扰动。具体为:定义x为词向量序列的拼接,y为样本x的预测类型,θ,ψ是模型的参数。则训练模型的损失函数为:
Figure BDA00030008010200000812
其中,pθ,ψ(x)是将样本x预测为类别y的概率。
在L2范数约束下计算出扰动radv为:
radv=-eg/||g||2
其中,
Figure BDA0003000801020000091
Figure BDA0003000801020000092
代表梯度,∈为超参,可以设置为1.0。通过添加扰动,获得对抗样本xadv
xadv=x+radv
具体地,所述步骤4)中,对支持集和训练集中的类别构建可感知小样本的类别共现图,具体为:
构造一个类别共现图Gf={Vf,Ef},其中Vf={ti}表示类别的节点集合,Vf由两种节点组成:Vfew代表小样本类别,来源于Tsupport,Vfrq代表频繁样本类别,来源于Ttrain
Ef={eij}表示类别共现的边的集合,Ef由三种边组成:
efrq2frq:该条边所连接的两个节点类别均来自于Vfrq
efrq2few:该条边所连接的两个节点类别一个来自于Vfrq,另一个来自于Vfew
efew2few:该条边所连接的两个节点类别均来自于Vfew
每条边的权重反映了两种类别的相关性。具体而言,如果在某条训练数据中,类别ti和tj均被标注为该实体的真实类别,则在ti和tj之间添加一条边。利用这种共现的统计数据来表征类别之间的关系,即边的权重矩阵为:
Figure BDA0003000801020000093
其中|{t|t∈Ttrain}|表示Ttrain中的类别个数,即频繁样本类别个数,|{t|t∈Tsupport}|表示Tsupport中的类别个数,即小样本类别个数。
该权重矩阵的元素为:
Figure BDA0003000801020000094
其中type(m)为实体m所属的类别,|*|表示元素*的个数。
具体地,所述步骤4)中,将类别共现图作为神经网络的输入,经过关系型图卷积操作后得到类别的表示,具体为:
将类别共现图作为神经网络的输入,使用关系型图卷积算法进行卷积操作,对每一个类别的节点整合其邻居节点的信息,从而提取图结构的空间特征。关系型图卷积操作可以表示如下:
Figure BDA0003000801020000101
Figure BDA0003000801020000102
其中,
Figure BDA0003000801020000103
表示第l层卷积操作时的通用权重矩阵参数,
Figure BDA0003000801020000104
表示节点i在第l层的隐层向量,R={rfrq2frq,rfrq2few,rfew2few}是三种类型的边的集合,rfrq2frq表示efrq2frq边的关系,rfrq2few表示efrq2few边的关系,rfew2few表示efew2few边的关系,
Figure BDA0003000801020000105
表示节点i在关系r∈R下的所有邻居节点集合,
Figure BDA0003000801020000106
表示第l层卷积操作时,关于关系类型r的权重矩阵参数,Aij表示节点i与节点j之间的边的权重。σ表示激活函数。
在经过L层卷积操作之后,可以得到整合了邻居节点信息的小样本类别节点和频繁样本类别节点的隐层向量,即类别tk的表达为:
Figure BDA0003000801020000107
并将该表示定义为fψ(tk),其中ψ为类别表示中的参数。
具体地,所述步骤5)具体为:
以元学习方式训练神经网络模型。通过步骤3)和步骤4)分别获得实体和类别的表示后,对一个包含实体m和上下文c的查询xi=(mi,ci)而言,利用softmax函数输出其最终的类别分布,即:
Figure BDA0003000801020000108
其中fθ(xi)是实体表示,fψ(tk)是类别表示。
在训练阶段模仿小样本学习的设置,在每个episode,通过步骤1)构建新的训练集、支持集和查询集。最终该模型的损失函数为:
Figure BDA0003000801020000109
其中S为支持集样本集合,Sda={x′i,yi}是增强数据样本集合,x′i为步骤2)数据增强操作后的新数据,Sadv={xi+radv,yi}是对抗样本集合,θ和ψ是模型参数
实施例
下面结合本发明的方法详细说明本实施例实施的具体步骤,如下:
在本实施例中,将本发明的方法应用于细粒度实体分类的一个常用数据集FIGER上,随机选择其中10个类别作为小样本类别,每个类别有K个(K=5或10)标注样例,对这些小样本类别的其他目标实体进行分类。
1)为每个episode划分数据集。FIGER数据集一共包含128个类别,剔除10个小样本类别后,实际用于训练的有118个类别。在每个episode中,模仿小样本学习的设置,从118个类别中随机选择10个类别作为小样本类别,并为每个类别随机选择K个(K=5或10)样本,从而构成支持集。其余108个类别作为频繁样本类别,构成训练集。
2)扩充支持集。在每个episode中,通过四种数据增强操作为10个小样本类别自动扩充5倍的数据量,一并加入到此后的实体表示学习中。
3)实体表示。使用300维的GloVe向量作为词语的初始向量,通过“实体-上下文编码器”为句子中待分类的实体进行编码,并在词向量上采用对抗训练方式。
4)类别表示。构建可感知小样本的类别共现图,图中包括118个节点,其中10个为小样本类别节点,108个为频繁样本类别节点,通过类别共现信息计算所有边的权重值。再通过关系型图卷积网络获得类别表达。
5)以元学习方式训练神经网络模型。在本方法中,使用PyTorch框架构建该网络模型。
6)小样本实体分类。在神经网络训练完成后,我们可以将最初选择的10个小样本类别数据输入神经网络,这部分数据并未出现在此前的训练过程中。对模型参数进行微调后,将查询集输入分类器,此处我们随机选择了5031个待分类的小样本类别实体作为查询集。选择Accuracy准确度作为评价指标,评估在K=5和10的情况下模型的表现情况。测试结果如表1所示,其中匹配网络、原型网络、关系网络、图神经网络均为已提出的小样本学习方法,本方法的表现情况优于这些方法,更为有效。
表1预测结果评估
10-shot(K=10) 5-shot(K=5)
本方法 0.593 0.520
匹配网络 0.523 0.464
原型网络 0.551 0.490
关系网络 0.558 0.483
图神经网络 0.579 0.512
以上所述仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限制本说明书一个或多个实施例,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例保护的范围之内。

Claims (7)

1.一种基于关系型图卷积网络的小样本细粒度实体分类方法,其特征在于,包括以下步骤:
1)划分数据集:在每一个训练批次前,将包含大规模标注样本的数据集划分为与小样本同规模的支持集,并构建查询集和训练集;
2)扩充支持集:利用数据增强自动对小样本类别数据进行扩充;
3)实体表示:对句子中的实体采用“实体-上下文编码器”进行编码,其中对实体采用平均编码器,对上下文采用Bi-LSTM编码,并使用对抗训练加强小样本实体分类模型鲁棒性;
4)类别表示:构建可感知小样本的类别共现图,并利用关系型图卷积网络得到类别表示;具体为:
将类别共现图作为神经网络的输入,使用关系型图卷积算法进行卷积操作,对每一个类别的节点整合其邻居节点的信息,从而提取图结构的空间特征;关系型图卷积操作可以表示如下:
Figure FDA0003579828360000011
Figure FDA0003579828360000012
其中,
Figure FDA0003579828360000013
表示第l层卷积操作时的通用权重矩阵参数,
Figure FDA0003579828360000014
表示节点i在第l层的隐层向量,R={rfrq2frq,rfrq2few,rfew2few}是三种类型的边的集合,rfrq2frq表示efrq2frq边的关系,rfrq2few表示efrq2few边的关系,rfew2few表示efew2few边的关系,
Figure FDA0003579828360000015
表示节点i在关系r∈R下的所有邻居节点集合,
Figure FDA0003579828360000016
表示第l层卷积操作时,关于关系类型r的权重矩阵参数,Aij表示节点i与节点j之间的边的权重;σ表示激活函数;
在经过L层卷积操作之后,可以得到整合了邻居节点信息的小样本类别节点和频繁样本类别节点的隐层向量,即类别tk的表达为:
Figure FDA0003579828360000017
并将该表示定义为fψ(tk),其中ψ为类别表示中的参数;
5)以元学习方式训练模型,获得小样本分类器:根据匹配得分为实体分配合适的类别,通过基于episode的训练方式,在步骤1)中构建的训练集、支持集和查询集上训练,计算梯度并在每次训练迭代中更新模型;
6)小样本实体分类:将包含小样本类别的支持集和包含频繁样本类别的训练集一起传入步骤5)得到的分类器对模型参数进行微调,再将待分类的查询集输入分类器,分类器将输出实体匹配的小样本类别。
2.根据权利要求1所述的一种基于关系型图卷积网络的小样本细粒度实体分类方法,其特征在于,所述步骤1)具体为:
为每个episode划分数据集;假定最终待分类的小样本类别有C个,每类仅提供K个实例,则将包含大规模标注样本的数据集划分为同规模的支持集,并依次构建查询集和训练集;具体为:从数据集的类别中随机选择C个类别,将C个类别定义为Tsupport,并从中为每个类别随机选择K个样本,从而构建支持集
Figure FDA0003579828360000021
令数据集中所有样本类别属于以上C个类的样本集合为X,从
Figure FDA0003579828360000022
的集合里随机选择R个样例作为测试样本,构成查询集
Figure FDA0003579828360000023
将原数据集内的样本集合X剔除,作为更新后的训练集
Figure FDA0003579828360000024
其中训练集内的类别集合定义为Ttrain
3.根据权利要求1所述的一种基于关系型图卷积网络的小样本细粒度实体分类方法,其特征在于,所述步骤2)具体为:
自动扩充支持集;使用数据增强自动对小样本类别的数据进行扩充,并加入到之后的实体表示学习中;将一个句子中待分类的实体提及称作mention,该实体的上下文词称作token;数据增强操作具体有如下四种:a)T-REP,即token替换,将上下文词替换为同义词;b)T-DEL,即token删除,应避免删除目标实体的词语序列中的单词;c)T-INS,即token插入,应避免在目标实体的词语序列中插入单词;d)M-REP,即mention替换,将句子中的实体替换为和目标实体同样的小样本类别的实体;其中对于前三种数据增强操作,采用nlpaug工具辅助实现。
4.根据权利要求1所述的一种基于关系型图卷积网络的小样本细粒度实体分类方法,其特征在于,所述步骤3)中对实体进行编码具体为:
一条训练数据包含实体m和其上下文c,分别对m和c进行编码得到vm和vc,具体为:
对实体m的编码;假设实体m是由n个单词组成的:
Figure FDA0003579828360000031
定义
Figure FDA0003579828360000032
的向量为
Figure FDA0003579828360000033
其中dm是词向量的维度,使用预训练向量GloVe来编码每个单词;再使用平均编码器,取其n个单独的词的向量平均作为实体m的表示:
Figure FDA0003579828360000034
对上下文c的编码;使用Bi-LSTM对其进行编码;首先将句子中的目标实体提及替换为一个特殊的token,即[mention],再结合上下文词,作为一个完整的输入序列;在嵌入层,采用GloVe来编码每个单词;在Bi-LSTM层,将句子编码进隐藏状态(h1,h2,…,hs),s为Bi-LSTM层的隐藏状态数,正向和反向的编码公式如下:
Figure FDA0003579828360000035
Figure FDA0003579828360000036
其中,
Figure FDA0003579828360000037
Figure FDA0003579828360000038
分别表示前向和后向LSTM的隐层状态,dc是隐层状态维度,vt则是单词wt在第t个时间步的输入;令
Figure FDA0003579828360000039
作为token[mention]的输出结果,其中
Figure FDA00035798283600000310
表示向量的拼接;使用vc=hm作为实体相关的上下文表达;
最终,定义实体m的表示为vm和vc的拼接:
Figure FDA00035798283600000311
并将该表示定义为fθ(x),其中x=(m,c),θ为实体表示中的参数。
5.根据权利要求1所述的一种基于关系型图卷积网络的小样本细粒度实体分类方法,其特征在于,所述步骤3)中使用对抗训练,在连续词向量上添加扰动;具体为:定义x为词向量序列的拼接,y为样本x的预测类型,θ,ψ是模型的参数;则训练模型的损失函数为:
Figure FDA00035798283600000312
其中,pθ,ψ(x)是将样本x预测为类别y的概率;
在L2范数约束下计算出扰动radv为:
radv=-∈g/||g||2
其中,
Figure FDA0003579828360000041
Figure FDA0003579828360000042
代表梯度,∈为超参;
通过添加扰动,获得对抗样本xadv
xadv=x+radv
6.根据权利要求2所述的一种基于关系型图卷积网络的小样本细粒度实体分类方法,其特征在于,所述步骤4)中,对支持集和训练集中的类别构建可感知小样本的类别共现图,具体为:
构造一个类别共现图Gf={Vf,Ef},其中Vf={ti}表示类别的节点集合,Vf由两种节点组成:Vfew代表小样本类别,来源于Tsupport,Vfrq代表频繁样本类别,来源于Ttrain
Ef={eij}表示类别共现的边的集合,Ef由三种边组成:
efrq2frq:该条边所连接的两个节点类别均来自于Vfrq
efrq2few:该条边所连接的两个节点类别一个来自于Vfrq,另一个来自于Vfew
efew2fee:该条边所连接的两个节点类别均来自于Vfew
每条边的权重反映了两种类别的相关性;具体而言,如果在某条训练数据中,类别ti和tj均被标注为该实体的真实类别,则在ti和tj之间添加一条边;利用这种共现的统计数据来表征类别之间的关系,即边的权重矩阵为:
Figure FDA0003579828360000043
N=|{t|t∈Ttrain}|,M=|{t|t∈Tsupport}|
其中|{t|t∈Ttrain}|表示Ttrain中的类别个数,即频繁样本类别个数,|{t|t∈Tsupport}|表示Tsupport中的类别个数,即小样本类别个数;
该权重矩阵的元素为:
Figure FDA0003579828360000044
其中type(m)为实体m所属的类别,|*|表示元素*的个数。
7.根据权利要求5所述的一种基于关系型图卷积网络的小样本细粒度实体分类方法,其特征在于,所述步骤5)具体为:
以元学习方式训练神经网络模型;通过步骤3)和步骤4)分别获得实体和类别的表示后,对一个包含实体m和上下文c的查询xi=(mi,ci)而言,利用softmax函数输出其最终的类别分布,即:
Figure FDA0003579828360000051
其中fθ(xi)是实体表示,fψ(tk)是类别表示;
在训练阶段模仿小样本学习的设置,在每个episode,通过步骤1)构建新的训练集、支持集和查询集;最终该模型的损失函数为:
Figure FDA0003579828360000052
其中S为支持集样本集合,Sda={x′i,yi}是增强数据样本集合,x′i为步骤2)数据增强操作后的新数据,Sadv={xi+radv,yi}是对抗样本集合,θ和ψ是模型参数。
CN202110346254.9A 2021-03-31 2021-03-31 一种基于关系型图卷积网络的小样本细粒度实体分类方法 Active CN113051399B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110346254.9A CN113051399B (zh) 2021-03-31 2021-03-31 一种基于关系型图卷积网络的小样本细粒度实体分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110346254.9A CN113051399B (zh) 2021-03-31 2021-03-31 一种基于关系型图卷积网络的小样本细粒度实体分类方法

Publications (2)

Publication Number Publication Date
CN113051399A CN113051399A (zh) 2021-06-29
CN113051399B true CN113051399B (zh) 2022-05-24

Family

ID=76516673

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110346254.9A Active CN113051399B (zh) 2021-03-31 2021-03-31 一种基于关系型图卷积网络的小样本细粒度实体分类方法

Country Status (1)

Country Link
CN (1) CN113051399B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113487088B (zh) * 2021-07-06 2024-09-13 哈尔滨工业大学(深圳) 基于动态时空图卷积注意力模型的交通预测方法及装置
CN113535953B (zh) * 2021-07-15 2022-05-27 湖南大学 一种基于元学习的少样本分类方法
CN113610151B (zh) * 2021-08-05 2022-05-03 哈尔滨理工大学 基于原型网络和自编码器的小样本图像分类系统
CN113592008B (zh) * 2021-08-05 2022-05-31 哈尔滨理工大学 小样本图像分类的系统、方法、设备及存储介质
CN114743615A (zh) * 2022-02-14 2022-07-12 北京科技大学 一种小样本药物化学反应表示与自动分类方法及装置
CN116521875B (zh) * 2023-05-09 2023-10-31 江南大学 引入群体情绪感染的原型增强小样本对话情感识别方法
CN117689946B (zh) * 2023-12-12 2024-09-20 电子科技大学 基于元增强对比学习的无源无监督域适应方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107908783A (zh) * 2017-12-07 2018-04-13 百度在线网络技术(北京)有限公司 检索文本相关性的评估方法、装置、服务器和存储介质
CN110633366A (zh) * 2019-07-31 2019-12-31 国家计算机网络与信息安全管理中心 一种短文本分类方法、装置和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7346594B2 (en) * 2005-10-18 2008-03-18 International Business Machines Corporation Classification method and system for small collections of high-value entities

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107908783A (zh) * 2017-12-07 2018-04-13 百度在线网络技术(北京)有限公司 检索文本相关性的评估方法、装置、服务器和存储介质
CN110633366A (zh) * 2019-07-31 2019-12-31 国家计算机网络与信息安全管理中心 一种短文本分类方法、装置和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Using Graph Convolution Network for Predicting Performance of Automatically Generated Convolution Neural Networks;Enzhi Zhang等;《2019 IEEE Asia-Pacific Conference on Computer Science and Data Engineering (CSDE)》;20191211;全文 *
小样本学习研究综述;赵凯琳等;《软件学报》;20210203;全文 *

Also Published As

Publication number Publication date
CN113051399A (zh) 2021-06-29

Similar Documents

Publication Publication Date Title
CN113051399B (zh) 一种基于关系型图卷积网络的小样本细粒度实体分类方法
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN112613273A (zh) 多语言bert序列标注模型的压缩方法及系统
CN111881677A (zh) 基于深度学习模型的地址匹配算法
CN106909537B (zh) 一种基于主题模型和向量空间的一词多义分析方法
CN112487193B (zh) 一种基于自编码器的零样本图片分类方法
CN112733866A (zh) 一种提高可控图像文本描述正确性的网络构建方法
CN114625882B (zh) 提高图像文本描述独特多样性的网络构建方法
CN114091450B (zh) 一种基于图卷积网络的司法领域关系抽取方法和系统
CN110276396B (zh) 基于物体显著性和跨模态融合特征的图片描述生成方法
CN110837736B (zh) 一种基于字结构的中文医疗记录的命名实体识别方法
CN111400494A (zh) 一种基于GCN-Attention的情感分析方法
CN117236335B (zh) 基于提示学习的两阶段命名实体识别方法
CN115422939B (zh) 一种基于大数据的细粒度商品命名实体识别方法
CN116304061B (zh) 基于层次文本图结构学习的文本分类方法、装置及介质
CN114625879A (zh) 基于自适应变分编码器的短文本聚类方法
CN115017907A (zh) 一种基于领域词典的中文农业命名实体识别方法
CN114281982B (zh) 一种多模态融合技术的图书宣传摘要生成方法和系统
CN113191150B (zh) 一种多特征融合的中文医疗文本命名实体识别方法
CN113076391B (zh) 一种基于多层注意力机制的远程监督关系抽取方法
CN114048314A (zh) 一种自然语言隐写分析方法
CN114662659B (zh) 一种基于多阶段迁移学习策略综合的众包文本集成方法
CN112487231B (zh) 一种基于双图正则化约束和字典学习的图像自动标注方法
Sharma et al. Cyclegen: Cyclic consistency based product review generator from attributes
CN113297385A (zh) 基于改进GraphRNN的多标签文本分类模型及分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant