CN113051399A - 一种基于关系型图卷积网络的小样本细粒度实体分类方法 - Google Patents
一种基于关系型图卷积网络的小样本细粒度实体分类方法 Download PDFInfo
- Publication number
- CN113051399A CN113051399A CN202110346254.9A CN202110346254A CN113051399A CN 113051399 A CN113051399 A CN 113051399A CN 202110346254 A CN202110346254 A CN 202110346254A CN 113051399 A CN113051399 A CN 113051399A
- Authority
- CN
- China
- Prior art keywords
- entity
- class
- training
- sample
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000012549 training Methods 0.000 claims description 69
- 239000013598 vector Substances 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 238000003062 neural network model Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 230000003190 augmentative effect Effects 0.000 claims description 3
- 238000013145 classification model Methods 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 238000003780 insertion Methods 0.000 claims description 3
- 230000037431 insertion Effects 0.000 claims description 3
- 238000005728 strengthening Methods 0.000 abstract 1
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于关系型图卷积网络的小样本细粒度实体分类方法。首先,对句子中待分类的实体采用“实体‑上下文编码器”进行编码,并使用对抗学习加强模型鲁棒性,使用数据增强自动生成新数据。其次,构建可有效感知小样本的类别共现图,并利用关系型图卷积网络对类别进行编码。之后,通过匹配实体和类别的编码来对实体进行分类。整个模型通过元学习方式进行训练。最后,将小样本的类别数据输入模型对其参数进行微调,即可利用该模型为这些小样本类别的其他目标实体进行分类。
Description
技术领域
本发明属于实体分类技术领域,尤其涉及一种基于关系型图卷积网络的小样本细粒度实体分类方法。
背景技术
细粒度实体分类是自然语言处理中的一项基本任务,该任务是为包含周围上下文的特定实体分配合适的类别。类别概念是人类认识世界时构筑思维体系最基本的单位。有了类别,人们可以提取所属类别下实体的共性本质特点,而无需纠结于其中的细微差别。此外,正确的实体类别信息也将帮助人们更好地理解并认识新实体,同样也能服务于更多的下游任务。
现如今有大量通过卷积神经网络组成的深度学习模型被提出来解决该任务,但当前的这些模型均依赖于大型的标注训练集。当标注的数据有限时,它们往往效果较差。考虑到实际生产环境中收集并标注大量数据代价昂贵,且手动标记容易出错,可以采用小样本学习的方式解决该问题。
鉴于此,我们一方面特别关注了其他有足够标注样本的类别,构建了可有效感知小样本的类别共现图,并利用关系型图卷积网络获得更佳的类别表达。另一方面,针对标注数据少的问题,我们采用了数据增强的方式自动生成更多带标签的训练数据;针对模型鲁棒性问题,则采用了对抗学习。
发明内容
本发明的目的在于提供一种基于关系型图卷积网络的小样本细粒度实体分类方法,从而在只有较少标注的训练数据时,可以对这些小样本类别的其他目标实体进行正确分类。
本发明解决其技术问题采用的技术方案如下:一种基于关系型图卷积网络的小样本细粒度实体分类方法,该方法包括以下步骤:
1)划分数据集:在每一个训练批次前,将包含大规模标注样本的数据集划分为与小样本同规模的支持集,并构建查询集和训练集。
2)扩充支持集:利用数据增强自动对小样本类别数据进行扩充。
3)实体表示:对句子中的实体采用“实体-上下文编码器”进行编码,其中对实体采用平均编码器,对上下文采用Bi-LSTM编码,并使用对抗训练加强小样本实体分类模型鲁棒性。
4)类别表示:构建可感知小样本的类别共现图,并利用关系型图卷积网络得到类别表示。
5)以元学习方式训练模型,获得小样本分类器:根据匹配得分为实体分配合适的类别,通过基于episode的训练方式,在步骤1)中构建的训练集、支持集和查询集上训练,计算梯度并在每次训练迭代中更新模型。
6)小样本实体分类:将包含小样本类别的支持集和包含频繁样本类别的训练集一起传入步骤5)得到的分类器对模型参数进行微调,再将待分类的查询集输入分类器,分类器将输出实体匹配的小样本类别。
进一步地,所述步骤1)具体为:
为每个episode划分数据集。假定最终待分类的小样本类别有C个,每类仅提供K个实例(即小样本设置为C-way K-shot,通常K较小),则将包含大规模标注样本的数据集划分为同规模的支持集,并依次构建查询集和训练集。具体为:从数据集的类别中随机选择C个类别,将C个类别定义为Tsupport,并从中为每个类别随机选择K个样本,从而构建支持集令数据集中所有样本类别属于以上C个类的样本集合为X,从X\的集合里(其中\表示减号集)随机选择R个样例作为测试样本,构成查询集将原数据集内的样本集合X剔除,作为更新后的训练集其中训练集内的类别集合定义为Ttrain。
进一步地,所述步骤2)具体为:
自动扩充支持集。使用数据增强自动对小样本类别的数据进行扩充,并加入到之后的实体表示学习中。将一个句子中待分类的实体提及称作mention,该实体的上下文词称作token。数据增强操作具体有如下四种:a)T-REP,即token替换,将上下文词替换为同义词;b)T-DEL,即token删除,应避免删除目标实体的词语序列中的单词;c)T-INS,即token插入,应避免在目标实体的词语序列中插入单词;d)M-REP,即mention替换,将句子中的实体替换为和目标实体同样的小样本类别的实体。其中对于前三种数据增强操作,采用nlpaug工具辅助实现。
进一步地,所述步骤3)中,对实体进行编码具体为:
一条训练数据包含实体m和其上下文c,分别对m和c进行编码得到vm和vc,具体为:
对上下文c的编码。使用Bi-LSTM对其进行编码。首先将句子中的目标实体提及替换为一个特殊的token,即[mention],再结合上下文词,作为一个完整的输入序列。在嵌入层,采用GloVe来编码每个单词。在Bi-LSTM层,将句子编码进隐藏状态(h1,h2,…,hs),s为Bi-LSTM层的隐藏状态数,正向和反向的编码公式如下:
其中,和分别表示前向和后向LSTM的隐层状态,dc是隐层状态维度,vt则是单词wt在第t个时间步的输入。令作为token[mention]的输出结果,其中表示向量的拼接。使用vc=hm作为实体相关的上下文表达。
最终,定义实体m的表示为vm和vc的拼接:
并将该表示定义为fθ(x),其中x=(m,c),θ为实体表示中的参数。
进一步地,所述步骤3)中使用对抗训练,在连续词向量上添加扰动。具体为:定义x为词向量序列的拼接,y为样本x的预测类型,θ,ψ是模型的参数。则训练模型的损失函数为:
其中,pθ,ψ(x)是将样本x预测为类别y的概率。
在L2范数约束下计算出扰动radv为:
radv=-eg/||g||2
xadv=x+radv
进一步地,其特征在于,所述步骤4)中,对支持集和训练集中的类别构建可感知小样本的类别共现图,具体为:
构造一个类别共现图Gf={Vf,Ef},其中Vf={ti}表示类别的节点集合,Vf由两种节点组成:Vfew代表小样本类别,来源于Tsupport,Vfrq代表频繁样本类别,来源于Ttrain。
Ef={eij}表示类别共现的边的集合,Ef由三种边组成:
efrq2frq:该条边所连接的两个节点类别均来自于Vfrq;
efrq2few:该条边所连接的两个节点类别一个来自于Vfrq,另一个来自于Vfew;
efew2few:该条边所连接的两个节点类别均来自于Vfew。
每条边的权重反映了两种类别的相关性。具体而言,如果在某条训练数据中,类别ti和tj均被标注为该实体的真实类别,则在ti和tj之间添加一条边。利用这种共现的统计数据来表征类别之间的关系,即边的权重矩阵为:
其中|{t|t∈Ttrain}|表示Ttrain中的类别个数,即频繁样本类别个数,|{t|t∈Tsupport}|表示Tsupport中的类别个数,即小样本类别个数。
该权重矩阵的元素为:
其中type(m)为实体m所属的类别,|*|表示元素*的个数。
进一步地,所述步骤4)中,将类别共现图作为神经网络的输入,经过关系型图卷积操作后得到类别的表示,具体为:
将类别共现图作为神经网络的输入,使用关系型图卷积算法进行卷积操作,对每一个类别的节点整合其邻居节点的信息,从而提取图结构的空间特征。关系型图卷积操作可以表示如下:
其中,表示第l层卷积操作时的通用权重矩阵参数,表示节点i在第l层的隐层向量,R={rfrq2frq,rfrq2few,rfew2few}是三种类型的边的集合,rfrq2frq表示efrq2frq边的关系,rfrq2few表示efrq2few边的关系,rfew2few表示efew2few边的关系,表示节点i在关系r∈R下的所有邻居节点集合,表示第l层卷积操作时,关于关系类型r的权重矩阵参数,Aij表示节点i与节点j之间的边的权重。σ表示激活函数。
进一步地,所述步骤5)具体为:
以元学习方式训练神经网络模型。通过步骤3)和步骤4)分别获得实体和类别的表示后,对一个包含实体m和上下文c的查询xi=(mi,ci)而言,利用softmax函数输出其最终的类别分布,即:
其中fθ(xi)是实体表示,fψ(tk)是类别表示。
在训练阶段模仿小样本学习的设置,在每个episode,通过步骤1)构建新的训练集、支持集和查询集。最终该模型的损失函数为:
其中S为支持集样本集合,Sda={x′i,yi}是增强数据样本集合,x′i为步骤2)数据增强操作后的新数据,Sadv={xi+radv,yi}是对抗样本集合,θ和ψ是模型参数
本发明方法与现有技术相比具有的有益效果:
1.本方法在神经网络中引入关系型图卷积神经网络,充分利用了频繁样本类别和小样本类别之间的关联,并对其进行了有效的区分,以获得更好的类别表达。
2.本方法针对标注数据少的问题,采用了数据增强的方式自动扩充更多带标签的样本。
3.本方法为了提高模型的鲁棒性,采用了对抗学习。
4.本方法分类准确率较高,能够较为准确地判断实体所对应的小样本类别。
附图说明
图1是本发明方法的总体流程图;
图2是本发明具体实施例中神经网络模型结构图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细说明。
如图1所示,本发明提供一种基于关系型图卷积网络的小样本细粒度实体分类方法,包括以下步骤:
1)划分数据集:在每一个训练批次前,将包含大规模标注样本的数据集划分为与小样本同规模的支持集,并构建查询集和训练集。
2)扩充支持集:利用数据增强自动对小样本类别数据进行扩充。
3)实体表示:对句子中的实体采用“实体-上下文编码器”进行编码,其中对实体采用平均编码器,对上下文采用Bi-LSTM编码,并使用对抗训练加强小样本实体分类模型鲁棒性。
4)类别表示:构建可感知小样本的类别共现图,并利用关系型图卷积网络得到类别表示。
5)以元学习方式训练模型,获得小样本分类器:根据匹配得分为实体分配合适的类别,通过基于episode的训练方式,在步骤1)中构建的训练集、支持集和查询集上训练,计算梯度并在每次训练迭代中更新模型。
6)小样本实体分类:将包含小样本类别的支持集和包含频繁样本类别的训练集一起传入步骤5)得到的分类器对模型参数进行微调,再将待分类的查询集输入分类器,分类器将输出实体匹配的小样本类别。
具体地,所述步骤1)具体为:
为每个episode划分数据集。假定最终待分类的小样本类别有C个,每类仅提供K个实例(即小样本设置为C-way K-shot,通常K较小),则将包含大规模标注样本的数据集划分为同规模的支持集,并依次构建查询集和训练集。具体为:从数据集的类别中随机选择C个类别,将C个类别定义为Tsupport,并从中为每个类别随机选择K个样本,从而构建支持集令数据集中所有样本类别属于以上C个类的样本集合为X,从X\的集合里(其中\表示减号集)随机选择R个样例作为测试样本,构成查询集将原数据集内的样本集合X剔除,作为更新后的训练集其中训练集内的类别集合定义为Ttrain。
具体地,所述步骤2)具体为:
自动扩充支持集。使用数据增强自动对小样本类别的数据进行扩充,并加入到之后的实体表示学习中。将一个句子中待分类的实体提及称作mention,该实体的上下文词称作token。数据增强操作具体有如下四种:a)T-REP,即token替换,将上下文词替换为同义词;b)T-DEL,即token删除,应避免删除目标实体的词语序列中的单词;c)T-INS,即token插入,应避免在目标实体的词语序列中插入单词;d)M-REP,即mention替换,将句子中的实体替换为和目标实体同样的小样本类别的实体。其中对于前三种数据增强操作,采用nlpaug工具辅助实现。
具体地,所述步骤3)中,对实体进行编码具体为:
一条训练数据包含实体m和其上下文c,分别对m和c进行编码得到vm和vc,具体为:
对上下文c的编码。使用Bi-LSTM对其进行编码。首先将句子中的目标实体提及替换为一个特殊的token,即[mention],再结合上下文词,作为一个完整的输入序列。在嵌入层,采用GloVe来编码每个单词。在Bi-LSTM层,将句子编码进隐藏状态(h1,h2,…,hs),s为Bi-LSTM层的隐藏状态数,正向和反向的编码公式如下:
其中,和分别表示前向和后向LSTM的隐层状态,dc是隐层状态维度,vt则是单词wt在第t个时间步的输入。令作为token[mention]的输出结果,其中表示向量的拼接。使用vc=hm作为实体相关的上下文表达。
最终,定义实体m的表示为vm和vc的拼接:
并将该表示定义为fθ(x),其中x=(m,c),θ为实体表示中的参数。
具体地,所述步骤3)中使用对抗训练,在连续词向量上添加扰动。具体为:定义x为词向量序列的拼接,y为样本x的预测类型,θ,ψ是模型的参数。则训练模型的损失函数为:
其中,pθ,ψ(x)是将样本x预测为类别y的概率。
在L2范数约束下计算出扰动radv为:
radv=-eg/||g||2
xadv=x+radv
具体地,所述步骤4)中,对支持集和训练集中的类别构建可感知小样本的类别共现图,具体为:
构造一个类别共现图Gf={Vf,Ef},其中Vf={ti}表示类别的节点集合,Vf由两种节点组成:Vfew代表小样本类别,来源于Tsupport,Vfrq代表频繁样本类别,来源于Ttrain。
Ef={eij}表示类别共现的边的集合,Ef由三种边组成:
efrq2frq:该条边所连接的两个节点类别均来自于Vfrq;
efrq2few:该条边所连接的两个节点类别一个来自于Vfrq,另一个来自于Vfew;
efew2few:该条边所连接的两个节点类别均来自于Vfew。
每条边的权重反映了两种类别的相关性。具体而言,如果在某条训练数据中,类别ti和tj均被标注为该实体的真实类别,则在ti和tj之间添加一条边。利用这种共现的统计数据来表征类别之间的关系,即边的权重矩阵为:
其中|{t|t∈Ttrain}|表示Ttrain中的类别个数,即频繁样本类别个数,|{t|t∈Tsupport}|表示Tsupport中的类别个数,即小样本类别个数。
该权重矩阵的元素为:
其中type(m)为实体m所属的类别,|*|表示元素*的个数。
具体地,所述步骤4)中,将类别共现图作为神经网络的输入,经过关系型图卷积操作后得到类别的表示,具体为:
将类别共现图作为神经网络的输入,使用关系型图卷积算法进行卷积操作,对每一个类别的节点整合其邻居节点的信息,从而提取图结构的空间特征。关系型图卷积操作可以表示如下:
其中,表示第l层卷积操作时的通用权重矩阵参数,表示节点i在第l层的隐层向量,R={rfrq2frq,rfrq2few,rfew2few}是三种类型的边的集合,rfrq2frq表示efrq2frq边的关系,rfrq2few表示efrq2few边的关系,rfew2few表示efew2few边的关系,表示节点i在关系r∈R下的所有邻居节点集合,表示第l层卷积操作时,关于关系类型r的权重矩阵参数,Aij表示节点i与节点j之间的边的权重。σ表示激活函数。
具体地,所述步骤5)具体为:
以元学习方式训练神经网络模型。通过步骤3)和步骤4)分别获得实体和类别的表示后,对一个包含实体m和上下文c的查询xi=(mi,ci)而言,利用softmax函数输出其最终的类别分布,即:
其中fθ(xi)是实体表示,fψ(tk)是类别表示。
在训练阶段模仿小样本学习的设置,在每个episode,通过步骤1)构建新的训练集、支持集和查询集。最终该模型的损失函数为:
其中S为支持集样本集合,Sda={x′i,yi}是增强数据样本集合,x′i为步骤2)数据增强操作后的新数据,Sadv={xi+radv,yi}是对抗样本集合,θ和ψ是模型参数
实施例
下面结合本发明的方法详细说明本实施例实施的具体步骤,如下:
在本实施例中,将本发明的方法应用于细粒度实体分类的一个常用数据集FIGER上,随机选择其中10个类别作为小样本类别,每个类别有K个(K=5或10)标注样例,对这些小样本类别的其他目标实体进行分类。
1)为每个episode划分数据集。FIGER数据集一共包含128个类别,剔除10个小样本类别后,实际用于训练的有118个类别。在每个episode中,模仿小样本学习的设置,从118个类别中随机选择10个类别作为小样本类别,并为每个类别随机选择K个(K=5或10)样本,从而构成支持集。其余108个类别作为频繁样本类别,构成训练集。
2)扩充支持集。在每个episode中,通过四种数据增强操作为10个小样本类别自动扩充5倍的数据量,一并加入到此后的实体表示学习中。
3)实体表示。使用300维的GloVe向量作为词语的初始向量,通过“实体-上下文编码器”为句子中待分类的实体进行编码,并在词向量上采用对抗训练方式。
4)类别表示。构建可感知小样本的类别共现图,图中包括118个节点,其中10个为小样本类别节点,108个为频繁样本类别节点,通过类别共现信息计算所有边的权重值。再通过关系型图卷积网络获得类别表达。
5)以元学习方式训练神经网络模型。在本方法中,使用PyTorch框架构建该网络模型。
6)小样本实体分类。在神经网络训练完成后,我们可以将最初选择的10个小样本类别数据输入神经网络,这部分数据并未出现在此前的训练过程中。对模型参数进行微调后,将查询集输入分类器,此处我们随机选择了5031个待分类的小样本类别实体作为查询集。选择Accuracy准确度作为评价指标,评估在K=5和10的情况下模型的表现情况。测试结果如表1所示,其中匹配网络、原型网络、关系网络、图神经网络均为已提出的小样本学习方法,本方法的表现情况优于这些方法,更为有效。
表1预测结果评估
10-shot(K=10) | 5-shot(K=5) | |
本方法 | 0.593 | 0.520 |
匹配网络 | 0.523 | 0.464 |
原型网络 | 0.551 | 0.490 |
关系网络 | 0.558 | 0.483 |
图神经网络 | 0.579 | 0.512 |
以上所述仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限制本说明书一个或多个实施例,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例保护的范围之内。
Claims (8)
1.一种基于关系型图卷积网络的小样本细粒度实体分类方法,其特征在于,包括以下步骤:
1)划分数据集:在每一个训练批次前,将包含大规模标注样本的数据集划分为与小样本同规模的支持集,并构建查询集和训练集。
2)扩充支持集:利用数据增强自动对小样本类别数据进行扩充。
3)实体表示:对句子中的实体采用“实体-上下文编码器”进行编码,其中对实体采用平均编码器,对上下文采用Bi-LSTM编码,并使用对抗训练加强小样本实体分类模型鲁棒性。
4)类别表示:构建可感知小样本的类别共现图,并利用关系型图卷积网络得到类别表示。
5)以元学习方式训练模型,获得小样本分类器:根据匹配得分为实体分配合适的类别,通过基于episode的训练方式,在步骤1)中构建的训练集、支持集和查询集上训练,计算梯度并在每次训练迭代中更新模型。
6)小样本实体分类:将包含小样本类别的支持集和包含频繁样本类别的训练集一起传入步骤5)得到的分类器对模型参数进行微调,再将待分类的查询集输入分类器,分类器将输出实体匹配的小样本类别。
3.根据权利要求1所述的一种基于关系型图卷积网络的小样本细粒度实体分类方法,其特征在于,所述步骤2)具体为:
自动扩充支持集。使用数据增强自动对小样本类别的数据进行扩充,并加入到之后的实体表示学习中。将一个句子中待分类的实体提及称作mention,该实体的上下文词称作token。数据增强操作具体有如下四种:a)T-REP,即token替换,将上下文词替换为同义词;b)T-DEL,即token删除,应避免删除目标实体的词语序列中的单词;c)T-INS,即token插入,应避免在目标实体的词语序列中插入单词;d)M-REP,即mention替换,将句子中的实体替换为和目标实体同样的小样本类别的实体。其中对于前三种数据增强操作,采用nlpaug工具辅助实现。
4.根据权利要求1所述的一种基于关系型图卷积网络的小样本细粒度实体分类方法,其特征在于,所述步骤3)中对实体进行编码具体为:
一条训练数据包含实体m和其上下文c,分别对m和c进行编码得到vm和vc,具体为:
对上下文c的编码。使用Bi-LSTM对其进行编码。首先将句子中的目标实体提及替换为一个特殊的token,即[mention],再结合上下文词,作为一个完整的输入序列。在嵌入层,采用GloVe来编码每个单词。在Bi-LSTM层,将句子编码进隐藏状态(h1,h2,...,hs),s为Bi-LSTM层的隐藏状态数,正向和反向的编码公式如下:
其中,和分别表示前向和后向LSTM的隐层状态,dc是隐层状态维度,vt则是单词wt在第t个时间步的输入。令作为token[mention]的输出结果,其中表示向量的拼接。使用vc=hm作为实体相关的上下文表达。
最终,定义实体m的表示为vm和vc的拼接:
并将该表示定义为fθ(x),其中x=(m,c),θ为实体表示中的参数。
6.根据权利要求1所述的一种基于关系型图卷积网络的小样本细粒度实体分类方法,其特征在于,所述步骤4)中,对支持集和训练集中的类别构建可感知小样本的类别共现图,具体为:
构造一个类别共现图Gf={Vf,Ef},其中Vf={ti}表示类别的节点集合,Vf由两种节点组成:Vfew代表小样本类别,来源于Tsupport,Vfrq代表频繁样本类别,来源于Ttrain。
Ef={eij}表示类别共现的边的集合,Ef由三种边组成:
efrq2frq:该条边所连接的两个节点类别均来自于Vfrq;
efrq2few:该条边所连接的两个节点类别一个来自于Vfrq,另一个来自于Vfew;
efew2few:该条边所连接的两个节点类别均来自于Vfew。
每条边的权重反映了两种类别的相关性。具体而言,如果在某条训练数据中,类别ti和tj均被标注为该实体的真实类别,则在ti和tj之间添加一条边。利用这种共现的统计数据来表征类别之间的关系,即边的权重矩阵为:
其中|{t|t∈Ttrain}|表示Ttrain中的类别个数,即频繁样本类别个数,|{t|t∈Tsupport}|表示Tsupport中的类别个数,即小样本类别个数。
该权重矩阵的元素为:
其中type(m)为实体m所属的类别,|*|表示元素*的个数。
7.根据权利要求6所述的一种基于关系型图卷积网络的小样本细粒度实体分类方法,其特征在于,所述步骤4)中,将类别共现图作为神经网络的输入,经过关系型图卷积操作后得到类别的表示,具体为:
将类别共现图作为神经网络的输入,使用关系型图卷积算法进行卷积操作,对每一个类别的节点整合其邻居节点的信息,从而提取图结构的空间特征。关系型图卷积操作可以表示如下:
其中,表示第l层卷积操作时的通用权重矩阵参数,表示节点i在第l层的隐层向量,R={rfrq2frq,rfrq2few,rfew2few}是三种类型的边的集合,rfrq2frq表示efrq2frq边的关系,rfrq2few表示efrq2few边的关系,rfew2few表示efew2few边的关系,表示节点i在关系r∈R下的所有邻居节点集合,表示第l层卷积操作时,关于关系类型r的权重矩阵参数,Aij表示节点i与节点j之间的边的权重。σ表示激活函数。
8.根据权利要求1所述的一种基于关系型图卷积网络的小样本细粒度实体分类方法,其特征在于,所述步骤5)具体为:
以元学习方式训练神经网络模型。通过步骤3)和步骤4)分别获得实体和类别的表示后,对一个包含实体m和上下文c的查询xi=(mi,ci)而言,利用softmax函数输出其最终的类别分布,即:
其中fθ(xi)是实体表示,fψ(tk)是类别表示。
在训练阶段模仿小样本学习的设置,在每个episode,通过步骤1)构建新的训练集、支持集和查询集。最终该模型的损失函数为:
其中S为支持集样本集合,Sda={x′i,yi}是增强数据样本集合,x′i为步骤2)数据增强操作后的新数据,Sadv={xi+radv,yi}是对抗样本集合,θ和ψ是模型参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110346254.9A CN113051399B (zh) | 2021-03-31 | 2021-03-31 | 一种基于关系型图卷积网络的小样本细粒度实体分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110346254.9A CN113051399B (zh) | 2021-03-31 | 2021-03-31 | 一种基于关系型图卷积网络的小样本细粒度实体分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113051399A true CN113051399A (zh) | 2021-06-29 |
CN113051399B CN113051399B (zh) | 2022-05-24 |
Family
ID=76516673
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110346254.9A Active CN113051399B (zh) | 2021-03-31 | 2021-03-31 | 一种基于关系型图卷积网络的小样本细粒度实体分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113051399B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113487088A (zh) * | 2021-07-06 | 2021-10-08 | 哈尔滨工业大学(深圳) | 基于动态时空图卷积注意力模型的交通预测方法及装置 |
CN113535953A (zh) * | 2021-07-15 | 2021-10-22 | 湖南大学 | 一种基于元学习的少样本分类方法 |
CN113592008A (zh) * | 2021-08-05 | 2021-11-02 | 哈尔滨理工大学 | 一种基于自编码器的图神经网络机制解决小样本图像分类的系统、方法、设备及存储介质 |
CN113610151A (zh) * | 2021-08-05 | 2021-11-05 | 哈尔滨理工大学 | 一种基于原型网络的自编码器网络机制解决小样本图像分类的系统、方法、设备及存储介质 |
CN114743615A (zh) * | 2022-02-14 | 2022-07-12 | 北京科技大学 | 一种小样本药物化学反应表示与自动分类方法及装置 |
CN116521875A (zh) * | 2023-05-09 | 2023-08-01 | 江南大学 | 引入群体情绪感染的原型增强小样本对话情感识别方法 |
CN117689946A (zh) * | 2023-12-12 | 2024-03-12 | 电子科技大学 | 基于元增强对比学习的无源无监督域适应方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070112697A1 (en) * | 2005-10-18 | 2007-05-17 | Ricketts John A | Classification method and system for small collections of high-value entities |
CN107908783A (zh) * | 2017-12-07 | 2018-04-13 | 百度在线网络技术(北京)有限公司 | 检索文本相关性的评估方法、装置、服务器和存储介质 |
CN110633366A (zh) * | 2019-07-31 | 2019-12-31 | 国家计算机网络与信息安全管理中心 | 一种短文本分类方法、装置和存储介质 |
-
2021
- 2021-03-31 CN CN202110346254.9A patent/CN113051399B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070112697A1 (en) * | 2005-10-18 | 2007-05-17 | Ricketts John A | Classification method and system for small collections of high-value entities |
CN107908783A (zh) * | 2017-12-07 | 2018-04-13 | 百度在线网络技术(北京)有限公司 | 检索文本相关性的评估方法、装置、服务器和存储介质 |
CN110633366A (zh) * | 2019-07-31 | 2019-12-31 | 国家计算机网络与信息安全管理中心 | 一种短文本分类方法、装置和存储介质 |
Non-Patent Citations (2)
Title |
---|
ENZHI ZHANG等: "Using Graph Convolution Network for Predicting Performance of Automatically Generated Convolution Neural Networks", 《2019 IEEE ASIA-PACIFIC CONFERENCE ON COMPUTER SCIENCE AND DATA ENGINEERING (CSDE)》 * |
赵凯琳等: "小样本学习研究综述", 《软件学报》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113487088A (zh) * | 2021-07-06 | 2021-10-08 | 哈尔滨工业大学(深圳) | 基于动态时空图卷积注意力模型的交通预测方法及装置 |
CN113535953A (zh) * | 2021-07-15 | 2021-10-22 | 湖南大学 | 一种基于元学习的少样本分类方法 |
CN113535953B (zh) * | 2021-07-15 | 2022-05-27 | 湖南大学 | 一种基于元学习的少样本分类方法 |
CN113592008A (zh) * | 2021-08-05 | 2021-11-02 | 哈尔滨理工大学 | 一种基于自编码器的图神经网络机制解决小样本图像分类的系统、方法、设备及存储介质 |
CN113610151A (zh) * | 2021-08-05 | 2021-11-05 | 哈尔滨理工大学 | 一种基于原型网络的自编码器网络机制解决小样本图像分类的系统、方法、设备及存储介质 |
CN113592008B (zh) * | 2021-08-05 | 2022-05-31 | 哈尔滨理工大学 | 小样本图像分类的系统、方法、设备及存储介质 |
CN114743615A (zh) * | 2022-02-14 | 2022-07-12 | 北京科技大学 | 一种小样本药物化学反应表示与自动分类方法及装置 |
CN116521875A (zh) * | 2023-05-09 | 2023-08-01 | 江南大学 | 引入群体情绪感染的原型增强小样本对话情感识别方法 |
CN116521875B (zh) * | 2023-05-09 | 2023-10-31 | 江南大学 | 引入群体情绪感染的原型增强小样本对话情感识别方法 |
CN117689946A (zh) * | 2023-12-12 | 2024-03-12 | 电子科技大学 | 基于元增强对比学习的无源无监督域适应方法 |
CN117689946B (zh) * | 2023-12-12 | 2024-09-20 | 电子科技大学 | 基于元增强对比学习的无源无监督域适应方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113051399B (zh) | 2022-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113051399B (zh) | 一种基于关系型图卷积网络的小样本细粒度实体分类方法 | |
CN112487143B (zh) | 一种基于舆情大数据分析的多标签文本分类方法 | |
CN107729497B (zh) | 一种基于知识图谱的词嵌入深度学习方法 | |
CN110046252B (zh) | 一种基于注意力机制神经网络与知识图谱的医疗文本分级方法 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN112613273A (zh) | 多语言bert序列标注模型的压缩方法及系统 | |
CN112487193B (zh) | 一种基于自编码器的零样本图片分类方法 | |
CN114625882B (zh) | 提高图像文本描述独特多样性的网络构建方法 | |
CN110276396B (zh) | 基于物体显著性和跨模态融合特征的图片描述生成方法 | |
CN116304061B (zh) | 基于层次文本图结构学习的文本分类方法、装置及介质 | |
CN115422939B (zh) | 一种基于大数据的细粒度商品命名实体识别方法 | |
CN111400494A (zh) | 一种基于GCN-Attention的情感分析方法 | |
CN112017255A (zh) | 一种根据食谱生成食物图像的方法 | |
CN111985680B (zh) | 基于胶囊网络与时序的刑事多罪名预测方法 | |
CN114281982B (zh) | 一种多模态融合技术的图书宣传摘要生成方法和系统 | |
CN114625879A (zh) | 基于自适应变分编码器的短文本聚类方法 | |
CN114091450A (zh) | 一种基于图卷积网络的司法领域关系抽取方法和系统 | |
CN114925195A (zh) | 一种融合词汇编码与结构编码的标准内容文本摘要生成方法 | |
CN115017907A (zh) | 一种基于领域词典的中文农业命名实体识别方法 | |
CN114925205B (zh) | 基于对比学习的gcn-gru文本分类方法 | |
CN109979461A (zh) | 一种语音翻译方法及装置 | |
CN114048314A (zh) | 一种自然语言隐写分析方法 | |
CN113076391A (zh) | 一种基于多层注意力机制的远程监督关系抽取方法 | |
CN112905793A (zh) | 一种基于Bilstm+Attention文本分类的案例推荐方法及系统 | |
CN113191150A (zh) | 一种多特征融合的中文医疗文本命名实体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |