CN112015902B - 基于度量的元学习框架下的少次文本分类方法 - Google Patents

基于度量的元学习框架下的少次文本分类方法 Download PDF

Info

Publication number
CN112015902B
CN112015902B CN202010959729.7A CN202010959729A CN112015902B CN 112015902 B CN112015902 B CN 112015902B CN 202010959729 A CN202010959729 A CN 202010959729A CN 112015902 B CN112015902 B CN 112015902B
Authority
CN
China
Prior art keywords
query
instance
support
layer
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010959729.7A
Other languages
English (en)
Other versions
CN112015902A (zh
Inventor
赵翔
庞宁
谭跃进
姜江
谭真
肖卫东
葛斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202010959729.7A priority Critical patent/CN112015902B/zh
Publication of CN112015902A publication Critical patent/CN112015902A/zh
Application granted granted Critical
Publication of CN112015902B publication Critical patent/CN112015902B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于度量的元学习框架下的少次文本分类方法,在输入层,输入支持实例和查询实例;在词嵌入层,通过查找预先训练的词嵌入表,将离散词映射到向量空间中;在上下文编码器层,通过考虑上下文来优化支持实例和查询实例的句子中每个单词的局部表示;在双向注意力层,首先将查询实例与每个支持实例耦合,然后在它们之间生成匹配信息;在模型层,为查询实例和支持实例生成特征向量,给定查询的实例级注意力模块计算支持实例的权重以动态生成原型;在输出层,通过测量查询和原型之间的相似性得分来为查询实例提供预测。本发明方法提出了一种使用双向注意力机制和跨类知识的少次文本分类框架,使得少次文本分类方法更加有效。

Description

基于度量的元学习框架下的少次文本分类方法
技术领域
本发明属于人工智能中的自然语言处理技术领域,涉及基于度量的元学习框架下的少次文本分类方法。
背景技术
文本分类是自然语言处理中的一项关键任务,它服务于一系列下游应用程序,例如信息检索和意见挖掘。该任务定义为从候选类集中为给定的未标记文本选择适当的标签。深度学习的最新发展引起了人们对通过神经网络进行监督的文本分类模型的兴趣。实际上,这些方法需要大量带标签的训练数据。然而,获取这样的高质量数据是劳动密集型的,并且手工标记过程是耗时的。
为了缓解这一问题,提出了“少次学习”(FSL)来训练新类别的分类器,这些分类器仅需要几个标记示例。在计算机视觉中,对少次学习FSL进行了广泛的研究,元学习已成为一种有前途的方法,可以在资源匮乏的情况下快速推广到新概念。特别地,基于度量的方法通过学习类之间的距离分布来执行分类。作为一个代表性模型,原型网络为每个候选类生成一个原型向量,并根据查询和每个原型的向量表示之间的距离对查询进行分类。
在少次文本分类中,仅给定几条带有已知类标签的文本(即支持实例),需要一个模型来对新传入的一段文本(即查询实例)进行分类,由此,需要提出基于度量的元学习框架下的少次文本分类方法来解决该应用问题。
先前的研究表明,基于度量的学习为自然语言处理中的某些少次学习任务提供了优雅的解决方案。但是,在少次分类中,我们观察到了需要进一步改进的余量。首先,没有很好地探讨查询和支持实例之间的相互依赖性。在大多数基于度量的模型中,查询和支持实例是单独编码的,然后根据它们之间的相似性得出度量。但是,同一类别中的文本倾向于包含具有相似含义的单词。查询和支持实例中的相似部分是识别类别的有效线索,应通过对其交互进行建模来相互强调。
此外,以前的模型分别考虑不同的类别,因此很可能会忽略跨类别的信息。基于度量的模型的性能很大程度上取决于嵌入空间中句子的空间分布。如果同一类中所有支持实例的嵌入彼此相距较远,则很难捕获它们的共同特征并生成具有代表性的原型。并且如果不同类的支持实例在嵌入空间中彼此接近,则生成的原型是无法区分的。尽管如此,有关少次文本分类的现有研究很大程度上忽略了这种跨类别的知识。
发明内容
有鉴于此,本发明的目的在于提出基于度量的元学习框架下的少次文本分类方法,所述方法提出了一种使用双向注意力机制和跨类知识的少次文本分类框架,首先,与之前的工作将查询和支持实例独立地汇总到单个特征向量中的工作不同,所述方法计算每个单词的双向注意力(即从支持到查询注意力以及从查询到支持注意力)以了解查询和支持实例之间的交互作用,这样可以获得查询的支持感知向量表示和支持实例的查询感知向量表示;其次,通过添加Large Margin损失来监督距离分布,从而利用类之间的隐含知识,同一类内的实例应在嵌入空间中相邻放置,而不同类的实例最好彼此远离,因此采用LargeMargin损失来缩短属于同一类别的支持实例之间的距离,并增大不同类别之间的支持距离。
基于上述目的,基于度量的元学习框架下的少次文本分类方法,包括以下步骤:
步骤1,在输入层,输入支持实例和查询实例;
步骤2,在词嵌入层,通过查找预先训练的词嵌入表,将支持实例和查询实例的离散单词映射到向量空间中;
步骤3,在上下文编码器层,通过考虑上下文来优化支持实例和查询实例的句子中每个单词的局部表示;
步骤4,在双向注意力层,首先将查询实例与每个支持实例耦合,然后在它们之间生成匹配信息;
步骤5,在模型层,为查询实例和支持实例生成特征向量,给定查询的实例级注意力模块计算支持实例的权重以动态生成原型;
步骤6,在输出层,通过测量查询实例和原型之间的相似性得分来为查询实例提供分类预测。
具体地,步骤2中,词嵌入层将每个离散单词wt映射到向量空间中,表示为:
wt=femb(wt)
其中,femb()是映射函数;
步骤3中,在上下文编码器层,为了优化每个单词的表示形式,在单词嵌入之后,应用长短期记忆网络,对于输入句子{w1,w2,...,wT},按以下方式计算前向和后向长短期记忆网络表示形式:
Figure BDA0002680068370000031
Figure BDA0002680068370000032
Figure BDA0002680068370000033
Figure BDA0002680068370000034
分别为前向和后向长短期记忆网络,为了捕获两个方向的信息,将两个方向的隐藏层状态拼接:
Figure BDA0002680068370000035
[:]是拼接操作,所述上下文编码器层的输出是一个维度为T×2dh的矩阵,dh为隐藏层单元数量,
Figure BDA0002680068370000041
表示查询实例,
Figure BDA0002680068370000042
表示第k个支持实例。
具体地,在步骤4中,双向注意力层负责融合查询实例和支持实例中的信息,首先计算查询实例和第k个支持实例之间的相似度矩阵,然后计算其融合表示,所述双向注意力层的输入是查询实例Q和第k个支持实例…的上下文向量表示,输出是查询实例的支持感知矢量表示以及支持实例的查询感知矢量表示。
更进一步地,所述的查询实例和第k个支持实例之间的相似度矩阵:
Figure BDA0002680068370000043
Figure BDA0002680068370000044
是训练参数,Qi:是Q的第i行,
Figure BDA0002680068370000045
是Sk的第j行,⊙是元素按位相乘符号,这样得到的Ck包含了Q和Sk的全部注意力信息;
所述的双向注意力层包括支持到查询注意力层和查询到支持注意力层,所述支持到查询注意力层注意力用来寻找查询实例中的哪些词与支持实例中的词相关,给定第t个支持实例中的词,查询词的注意力值分布为:
Figure BDA0002680068370000046
Figure BDA0002680068370000047
是Ck第t列,Softmax函数定义为
Figure BDA0002680068370000048
因此,支持实例中第t个单词的查询感知矢量表示:
Figure BDA0002680068370000049
可以得到支持实例的查询感知向量表示
Figure BDA00026800683700000410
所述查询到支持注意力层注意力用来寻找支持实例中的哪些词与查询中的词相关,给定第t个查询中的词,支持词的注意力值分布为:
Figure BDA00026800683700000411
Figure BDA00026800683700000412
是Ck第t行,Softmax函数定义为
Figure BDA00026800683700000413
因此,查询中第t个单词的支持感知矢量表示:
Figure BDA00026800683700000414
可以得到查询的支持感知向量表示
Figure BDA00026800683700000415
在特征融合中,对每个查询和支持实例的原始表示与注意力表示之间的交互进行建模,对于查询实例,将两种表示法融合如下:
Figure BDA0002680068370000051
Figure BDA0002680068370000052
是参数矩阵,g()是一个ReLU激活函数,
Figure BDA0002680068370000053
同样的方法,可以得到第k个支持实例的融合表示
Figure BDA0002680068370000054
具体地,在步骤5中,模型层将所有实例汇总为单个特征向量,并为每个类生成原型向量;
首先将
Figure BDA0002680068370000055
Figure BDA0002680068370000056
输入一个维度为dh的长短期记忆网络中,得到新的表示
Figure BDA0002680068370000057
Figure BDA0002680068370000058
目的是获得在已知查询的支持实例词之间的交互以及在已知支持实例的查询词之间的交互,将它们融为单个向量的方法为:
Figure BDA0002680068370000059
Figure BDA00026800683700000510
Max()和Ave()分别为最大池化和平均池化操作;
由于每个支持实例的重要性在给定查询的情况下会有所不同,由此通过注意力方式汇总支持实例,定义为:
Figure BDA00026800683700000511
ek反映每个支持实例与查询的相关性,
Figure BDA00026800683700000512
Figure BDA00026800683700000513
为训练参数,然后,可以得到原型向量:
Figure BDA00026800683700000514
所有类别的原型向量集合表示为
Figure BDA00026800683700000515
具体地,在步骤6中,所述输出层根据查询特征向量和各类别的原型向量预测查询实例所属的类;通过测量查询实例与每个原型的相似性来确定查询实例的类:
Figure BDA00026800683700000516
Figure BDA00026800683700000517
Figure BDA00026800683700000518
Figure BDA00026800683700000519
为训练参数。
更进一步地,在模型层中,损失函数为:
Figure BDA0002680068370000061
其中,第一部分为交叉熵损失函数:
Figure BDA0002680068370000062
其中,Q表示查询实例的集合,|Q|表示集合Q的基数;
第二部分添加了一个large margin损失函数,以缩短同一类别之间的距离,并扩大不同类别之间的距离,损失定义为:
Figure BDA0002680068370000063
Figure BDA0002680068370000064
表示类别yi的第k个支持实例,
Figure BDA0002680068370000065
为不属于类别yi的任意支持实例,γ为超参数,根据具体任务进行调整设置,||·||2计算向量的2范数;
最后模型利用随机梯度下降法最小化损失。
附图说明
图1为本发明实施例的流程示意图;
图2为本发明实施例的整体模型结构示意图。
具体实施方式
下面结合附图对本发明作进一步的说明,但不以任何方式对本发明加以限制,基于本发明教导所作的任何变换或替换,均属于本发明的保护范围。
如图1所示,基于度量的元学习框架下的少次文本分类方法,包括以下步骤:
步骤1,在输入层,输入支持实例和查询实例;
步骤2,在词嵌入层,通过查找预先训练的词嵌入表,将支持实例和查询实例的离散单词映射到向量空间中;
步骤3,在上下文编码器层,通过考虑上下文来优化支持实例和查询实例的句子中每个单词的局部表示;
步骤4,在双向注意力层,首先将查询实例与每个支持实例耦合,然后在它们之间生成匹配信息;
步骤5,在模型层,为查询实例和支持实例生成特征向量,给定查询的实例级注意力模块计算支持实例的权重以动态生成原型;
步骤6,在输出层,通过测量查询实例和原型之间的相似性得分来为查询实例提供分类预测。
具体地,步骤2中,词嵌入层将每个离散单词wt映射到向量空间中,表示为:
wt=femb(wt)
其中,fenb()是映射函数;
步骤3中,在上下文编码器层,为了优化每个单词的表示形式,在单词嵌入之后,应用长短期记忆网络,对于输入句子{w1,w2,...,wT},按以下方式计算前向和后向长短期记忆网络表示形式:
Figure BDA0002680068370000071
Figure BDA0002680068370000072
Figure BDA0002680068370000073
Figure BDA0002680068370000074
分别为前向和后向长短期记忆网络,为了捕获两个方向的信息,将两个方向的隐藏层状态拼接:
Figure BDA0002680068370000075
[:]是拼接操作,所述上下文编码器层的输出是一个维度为T×2dh的矩阵,dh为隐藏层单元数量,
Figure BDA0002680068370000076
表示查询实例,
Figure BDA0002680068370000077
表示第k个支持实例。
具体地,在步骤4中,双向注意力层负责融合查询实例和支持实例中的信息,首先计算查询实例和第k个支持实例之间的相似度矩阵,然后计算其融合表示,所述双向注意力层的输入是查询实例Q和第k个支持实例Sk的上下文向量表示,输出是查询实例的支持感知矢量表示以及支持实例的查询感知矢量表示。
更进一步地,所述的查询实例和第k个支持实例之间的相似度矩阵:
Figure BDA0002680068370000081
Figure BDA0002680068370000082
是训练参数,Qi:是Q的第i行,
Figure BDA0002680068370000083
是Sk的第j行,⊙是元素按位相乘符号,这样得到的Ck包含了Q和Sk的全部注意力信息;
所述的双向注意力层包括支持到查询注意力层和查询到支持注意力层,所述支持到查询注意力层注意力用来寻找查询实例中的哪些词与支持实例中的词相关,给定第t个支持实例中的词,查询词的注意力值分布为:
Figure BDA0002680068370000084
Figure BDA0002680068370000085
是Ck第t列,Softmax函数定义为
Figure BDA0002680068370000086
因此,支持实例中第t个单词的查询感知矢量表示:
Figure BDA0002680068370000087
可以得到支持实例的查询感知向量表示
Figure BDA0002680068370000088
所述查询到支持注意力层注意力用来寻找支持实例中的哪些词与查询中的词相关,给定第t个查询中的词,支持词的注意力值分布为:
Figure BDA0002680068370000089
Figure BDA00026800683700000810
是Ck第t行,Softmax函数定义为
Figure BDA00026800683700000811
因此,查询中第t个单词的支持感知矢量表示:
Figure BDA00026800683700000812
可以得到查询的支持感知向量表示
Figure BDA00026800683700000813
在特征融合中,对每个查询和支持实例的原始表示与注意力表示之间的交互进行建模,对于查询实例,将两种表示法融合如下:
Figure BDA00026800683700000814
Figure BDA00026800683700000815
是参数矩阵,g()是一个ReLU激活函数,
Figure BDA00026800683700000816
同样的方法,可以得到第k个支持实例的融合表示
Figure BDA00026800683700000817
具体地,在步骤5中,模型层将所有实例汇总为单个特征向量,并为每个类生成原型向量;
首先将
Figure BDA0002680068370000091
Figure BDA0002680068370000092
输入一个维度为dh的长短期记忆网络中,得到新的表示
Figure BDA0002680068370000093
Figure BDA0002680068370000094
目的是获得在已知查询的支持实例词之间的交互以及在已知支持实例的查询词之间的交互,将它们融为单个向量的方法为:
Figure BDA0002680068370000095
Figure BDA0002680068370000096
Max()和Ave()分别为最大池化和平均池化操作;
由于每个支持实例的重要性在给定查询的情况下会有所不同,由此通过注意力方式汇总支持实例,定义为:
Figure BDA0002680068370000097
ek反映每个支持实例与查询的相关性,
Figure BDA0002680068370000098
Figure BDA0002680068370000099
为训练参数,然后,可以得到原型向量:
Figure BDA00026800683700000910
所有类别的原型向量集合表示为
Figure BDA00026800683700000911
具体地,在步骤6中,所述输出层根据查询特征向量和各类别的原型向量预测查询实例所属的类;通过测量查询实例与每个原型的相似性来确定查询实例的类:
Figure BDA00026800683700000912
Figure BDA00026800683700000913
Figure BDA00026800683700000914
Figure BDA00026800683700000915
为训练参数。
更进一步地,在模型层中,损失函数为:
Figure BDA00026800683700000916
其中,第一部分为交叉熵损失函数:
Figure BDA00026800683700000917
其中,Q表示查询实例的集合,|Q|表示集合Q的基数;
第二部分添加了一个large margin损失函数,以缩短同一类别之间的距离,并扩大不同类别之间的距离,损失定义为:
Figure BDA0002680068370000101
Figure BDA0002680068370000102
表示类别yi的第k个支持实例,
Figure BDA0002680068370000103
为不属于类别yi的任意支持实例,γ为超参数,根据具体任务进行调整设置,||·||2计算向量的2范数;
最后模型利用随机梯度下降法最小化损失。
上述实施例为本发明方法的一种实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (4)

1.基于度量的元学习框架下的少次文本分类方法,其特征在于,包括以下步骤:
步骤1,在输入层,输入支持实例和查询实例;
步骤2,在词嵌入层,通过查找预先训练的词嵌入表,将支持实例和查询实例的离散单词映射到向量空间中;
步骤3,在上下文编码器层,通过考虑上下文来优化支持实例和查询实例的句子中每个单词的局部表示;
步骤4,在双向注意力层,首先将查询实例与每个支持实例耦合,然后在它们之间生成匹配信息;
步骤5,在模型层,为查询实例和支持实例生成特征向量,给定查询的实例级注意力模块计算支持实例的权重以动态生成原型;
步骤6,在输出层,通过测量查询实例和原型之间的相似性得分来为查询实例提供分类预测;
步骤2中,嵌入层将句子中的每个单词wt映射到向量空间中,表示为:
wt=femb(wt)
其中,femb()是映射函数;
步骤3中,在上下文编码器层,为了优化每个单词的表示形式,在单词嵌入之后,应用了长短期记忆网络,对于输入句子{w1,w2,...,wT},按以下方式计算前向和后向长短期记忆网络表示形式:
Figure FDA0003480198270000011
Figure FDA0003480198270000012
Figure FDA0003480198270000013
Figure FDA0003480198270000014
分别为前向和后向长短期记忆网络,为了捕获两个方向的信息,将两个方向的隐藏层状态拼接:
Figure FDA0003480198270000015
[:]是拼接操作,所述上下文编码器层的输出是一个维度为T×2dh的矩阵,dh为隐藏层单元数量,
Figure FDA0003480198270000021
表示查询实例,
Figure FDA0003480198270000022
表示第k个支持实例;
在步骤4中,双向注意力层负责融合查询实例和支持实例中的信息,首先计算查询实例和第k个支持实例之间的相似度矩阵,然后计算其融合表示,所述双向注意力层的输入是查询实例Q和第k个支持实例Sk的上下文向量表示,输出是查询实例的支持感知矢量表示以及支持实例的查询感知矢量表示;
所述的查询实例和第k个支持实例之间的相似度矩阵:
Figure FDA0003480198270000023
Figure FDA0003480198270000024
是训练参数,Qi:是Q的第i行,
Figure FDA0003480198270000025
是Sk的第j行,⊙是元素按位相乘符号,这样得到的Ck包含了Q和Sk的全部注意力信息;
所述的双向注意力层包括支持到查询注意力层和查询到支持注意力层,所述支持到查询注意力层注意力用来寻找查询实例中的哪些词与支持实例中的词相关,给定第t个支持实例中的词,查询词的注意力值分布为:
Figure FDA0003480198270000026
Figure FDA0003480198270000027
是Ck第t列,Softmax函数定义为
Figure FDA0003480198270000028
因此,支持实例中第t个单词的查询感知矢量表示:
Figure FDA0003480198270000029
可以得到查询感知的支持向量表示
Figure FDA00034801982700000210
所述查询到支持注意力层注意力用来寻找支持实例中的哪些词与查询中的词相关,给定第t个查询中的词,支持词的注意力值分布为:
Figure FDA00034801982700000211
Figure FDA00034801982700000212
是Ck第t行,Softmax函数定义为
Figure FDA00034801982700000213
因此,查询中第t个单词的支持感知矢量表示:
Figure FDA00034801982700000214
可以得到查询感知的支持向量表示
Figure FDA00034801982700000215
在特征融合中,对每个查询和支持实例的原始表示与注意力表示之间的交互进行建模,对于查询实例,将两种表示法融合如下:
Figure FDA0003480198270000031
Figure FDA0003480198270000032
是参数矩阵,g()是一个ReLU激活函数,
Figure FDA0003480198270000033
同样的方法,可以得到第k个支持实例的融合表示
Figure FDA0003480198270000034
2.根据权利要求1所述的少次文本分类方法,其特征在于,在步骤5中,模型层将所有实例汇总为单个特征向量,并为每个类生成原型向量;
首先将
Figure FDA0003480198270000035
Figure FDA0003480198270000036
输入一个维度为dh的长短期记忆网络中,得到新的表示
Figure FDA0003480198270000037
Figure FDA0003480198270000038
目的是获得在已知查询的支持实例词之间的交互以及在已知支持实例的查询词之间的交互,将他们融为单个向量的方法为:
Figure FDA0003480198270000039
Figure FDA00034801982700000310
Max()和Ave()分别为最大池化和平均池化操作;
由于每个支持实例的重要性在给定查询的情况下会有所不同,由此通过注意力方式汇总支持实例,定义为:
Figure FDA00034801982700000311
ek反映每个支持实例与查询的相关性,
Figure FDA00034801982700000312
Figure FDA00034801982700000313
为训练参数,然后,可以得到原型向量:
Figure FDA00034801982700000314
所有类别的原型向量集合表示为
Figure FDA00034801982700000315
3.根据权利要求2所述的少次文本分类方法,其特征在于,在步骤6中,所述输出层根据查询特征向量和各类别的原型向量预测查询实例所属的类;通过测量查询实例与每个原型的相似性来确定查询实例的类:
Figure FDA00034801982700000316
Figure FDA00034801982700000317
Figure FDA00034801982700000318
Figure FDA00034801982700000319
为训练参数。
4.根据权利要求3所述的少次文本分类方法,其特征在于,在模型层中,损失函数为:
Figure FDA00034801982700000320
其中,第一部分为交叉熵损失函数:
Figure FDA0003480198270000041
其中,Q表示查询实例的集合,|Q|表示集合Q的基数;
第二部分添加了一个large margin损失函数,以缩短同一类别之间的距离,并扩大不同类别之间的距离,损失定义为:
Figure FDA0003480198270000042
Figure FDA0003480198270000043
表示类别yi的第k个支持实例,
Figure FDA0003480198270000044
为不属于类别yi的任意支持实例,γ为超参数,根据具体任务进行调整设置,||.||2计算向量的2范数;
最后模型利用随机梯度下降法最小化损失。
CN202010959729.7A 2020-09-14 2020-09-14 基于度量的元学习框架下的少次文本分类方法 Active CN112015902B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010959729.7A CN112015902B (zh) 2020-09-14 2020-09-14 基于度量的元学习框架下的少次文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010959729.7A CN112015902B (zh) 2020-09-14 2020-09-14 基于度量的元学习框架下的少次文本分类方法

Publications (2)

Publication Number Publication Date
CN112015902A CN112015902A (zh) 2020-12-01
CN112015902B true CN112015902B (zh) 2022-03-01

Family

ID=73522424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010959729.7A Active CN112015902B (zh) 2020-09-14 2020-09-14 基于度量的元学习框架下的少次文本分类方法

Country Status (1)

Country Link
CN (1) CN112015902B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112765315B (zh) * 2021-01-18 2022-09-30 燕山大学 一种法律场景智能分类系统和方法
CN112784031B (zh) * 2021-01-29 2022-04-22 湖南大学 一种基于小样本学习的客服对话文本的分类方法和系统
CN113505861B (zh) * 2021-09-07 2021-12-24 广东众聚人工智能科技有限公司 基于元学习和记忆网络的图像分类方法及系统
CN113516209B (zh) * 2021-09-14 2021-12-17 中国人民解放军国防科技大学 一种用于少样本意图识别的对比任务适应学习方法
CN116502959B (zh) * 2023-06-21 2023-09-08 南京航空航天大学 一种基于元学习的产品制造质量预测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108399158A (zh) * 2018-02-05 2018-08-14 华南理工大学 基于依存树和注意力机制的属性情感分类方法
CN110019822A (zh) * 2019-04-16 2019-07-16 中国科学技术大学 一种少样本关系分类方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108399158A (zh) * 2018-02-05 2018-08-14 华南理工大学 基于依存树和注意力机制的属性情感分类方法
CN110019822A (zh) * 2019-04-16 2019-07-16 中国科学技术大学 一种少样本关系分类方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
文本词向量与预训练语言模型研究;徐菲菲等;《上海电力大学学报》;20200815(第04期);全文 *

Also Published As

Publication number Publication date
CN112015902A (zh) 2020-12-01

Similar Documents

Publication Publication Date Title
CN112015902B (zh) 基于度量的元学习框架下的少次文本分类方法
CN112487143B (zh) 一种基于舆情大数据分析的多标签文本分类方法
CN111694924B (zh) 一种事件抽取方法和系统
CN110738057B (zh) 一种基于语法约束和语言模型的文本风格迁移方法
CN110929149A (zh) 一种工业设备故障维修推荐方法和系统
CN116541911B (zh) 一种基于人工智能的包装设计系统
CN110580287A (zh) 基于迁移学习和on-lstm的情感分类方法
CN110175235A (zh) 基于神经网络的智能商品税分类编码方法及系统
CN116127084A (zh) 基于知识图谱的微电网调度策略智能检索系统及方法
CN114547307A (zh) 文本向量模型训练方法、文本匹配方法、装置及设备
CN114048314A (zh) 一种自然语言隐写分析方法
CN112905793B (zh) 一种基于Bilstm+Attention文本分类的案例推荐方法及系统
CN114358017A (zh) 标签分类方法、装置、设备和存储介质
CN114330514A (zh) 一种基于深度特征与梯度信息的数据重建方法及系统
CN112612900A (zh) 一种知识图谱指导的多张场景图像生成方法
CN116958700A (zh) 一种基于提示工程和对比学习的图像分类方法
CN115797795A (zh) 基于强化学习的遥感影像问答式检索系统及方法
CN114170460A (zh) 一种基于多模态融合的艺术品分类方法及系统
CN114372148A (zh) 一种基于知识图谱技术的数据处理方法及终端设备
CN116975256B (zh) 抽水蓄能电站地下厂房施工过程多源信息的处理方法及系统
Ingale et al. Artificial Intelligences-Based Approaches for Generating Image Caption
CN117473096B (zh) 一种融合latex标签的知识点标注方法及其模型
CN118036577B (zh) 一种自然语言处理中的序列标注方法
CN117172232B (zh) 审计报告生成方法、装置、设备和存储介质
CN117171413B (zh) 用于数字藏品管理的数据处理系统及其方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant