CN112015902B - 基于度量的元学习框架下的少次文本分类方法 - Google Patents
基于度量的元学习框架下的少次文本分类方法 Download PDFInfo
- Publication number
- CN112015902B CN112015902B CN202010959729.7A CN202010959729A CN112015902B CN 112015902 B CN112015902 B CN 112015902B CN 202010959729 A CN202010959729 A CN 202010959729A CN 112015902 B CN112015902 B CN 112015902B
- Authority
- CN
- China
- Prior art keywords
- query
- instance
- support
- layer
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于度量的元学习框架下的少次文本分类方法,在输入层,输入支持实例和查询实例;在词嵌入层,通过查找预先训练的词嵌入表,将离散词映射到向量空间中;在上下文编码器层,通过考虑上下文来优化支持实例和查询实例的句子中每个单词的局部表示;在双向注意力层,首先将查询实例与每个支持实例耦合,然后在它们之间生成匹配信息;在模型层,为查询实例和支持实例生成特征向量,给定查询的实例级注意力模块计算支持实例的权重以动态生成原型;在输出层,通过测量查询和原型之间的相似性得分来为查询实例提供预测。本发明方法提出了一种使用双向注意力机制和跨类知识的少次文本分类框架,使得少次文本分类方法更加有效。
Description
技术领域
本发明属于人工智能中的自然语言处理技术领域,涉及基于度量的元学习框架下的少次文本分类方法。
背景技术
文本分类是自然语言处理中的一项关键任务,它服务于一系列下游应用程序,例如信息检索和意见挖掘。该任务定义为从候选类集中为给定的未标记文本选择适当的标签。深度学习的最新发展引起了人们对通过神经网络进行监督的文本分类模型的兴趣。实际上,这些方法需要大量带标签的训练数据。然而,获取这样的高质量数据是劳动密集型的,并且手工标记过程是耗时的。
为了缓解这一问题,提出了“少次学习”(FSL)来训练新类别的分类器,这些分类器仅需要几个标记示例。在计算机视觉中,对少次学习FSL进行了广泛的研究,元学习已成为一种有前途的方法,可以在资源匮乏的情况下快速推广到新概念。特别地,基于度量的方法通过学习类之间的距离分布来执行分类。作为一个代表性模型,原型网络为每个候选类生成一个原型向量,并根据查询和每个原型的向量表示之间的距离对查询进行分类。
在少次文本分类中,仅给定几条带有已知类标签的文本(即支持实例),需要一个模型来对新传入的一段文本(即查询实例)进行分类,由此,需要提出基于度量的元学习框架下的少次文本分类方法来解决该应用问题。
先前的研究表明,基于度量的学习为自然语言处理中的某些少次学习任务提供了优雅的解决方案。但是,在少次分类中,我们观察到了需要进一步改进的余量。首先,没有很好地探讨查询和支持实例之间的相互依赖性。在大多数基于度量的模型中,查询和支持实例是单独编码的,然后根据它们之间的相似性得出度量。但是,同一类别中的文本倾向于包含具有相似含义的单词。查询和支持实例中的相似部分是识别类别的有效线索,应通过对其交互进行建模来相互强调。
此外,以前的模型分别考虑不同的类别,因此很可能会忽略跨类别的信息。基于度量的模型的性能很大程度上取决于嵌入空间中句子的空间分布。如果同一类中所有支持实例的嵌入彼此相距较远,则很难捕获它们的共同特征并生成具有代表性的原型。并且如果不同类的支持实例在嵌入空间中彼此接近,则生成的原型是无法区分的。尽管如此,有关少次文本分类的现有研究很大程度上忽略了这种跨类别的知识。
发明内容
有鉴于此,本发明的目的在于提出基于度量的元学习框架下的少次文本分类方法,所述方法提出了一种使用双向注意力机制和跨类知识的少次文本分类框架,首先,与之前的工作将查询和支持实例独立地汇总到单个特征向量中的工作不同,所述方法计算每个单词的双向注意力(即从支持到查询注意力以及从查询到支持注意力)以了解查询和支持实例之间的交互作用,这样可以获得查询的支持感知向量表示和支持实例的查询感知向量表示;其次,通过添加Large Margin损失来监督距离分布,从而利用类之间的隐含知识,同一类内的实例应在嵌入空间中相邻放置,而不同类的实例最好彼此远离,因此采用LargeMargin损失来缩短属于同一类别的支持实例之间的距离,并增大不同类别之间的支持距离。
基于上述目的,基于度量的元学习框架下的少次文本分类方法,包括以下步骤:
步骤1,在输入层,输入支持实例和查询实例;
步骤2,在词嵌入层,通过查找预先训练的词嵌入表,将支持实例和查询实例的离散单词映射到向量空间中;
步骤3,在上下文编码器层,通过考虑上下文来优化支持实例和查询实例的句子中每个单词的局部表示;
步骤4,在双向注意力层,首先将查询实例与每个支持实例耦合,然后在它们之间生成匹配信息;
步骤5,在模型层,为查询实例和支持实例生成特征向量,给定查询的实例级注意力模块计算支持实例的权重以动态生成原型;
步骤6,在输出层,通过测量查询实例和原型之间的相似性得分来为查询实例提供分类预测。
具体地,步骤2中,词嵌入层将每个离散单词wt映射到向量空间中,表示为:
wt=femb(wt)
其中,femb()是映射函数;
步骤3中,在上下文编码器层,为了优化每个单词的表示形式,在单词嵌入之后,应用长短期记忆网络,对于输入句子{w1,w2,...,wT},按以下方式计算前向和后向长短期记忆网络表示形式:
具体地,在步骤4中,双向注意力层负责融合查询实例和支持实例中的信息,首先计算查询实例和第k个支持实例之间的相似度矩阵,然后计算其融合表示,所述双向注意力层的输入是查询实例Q和第k个支持实例…的上下文向量表示,输出是查询实例的支持感知矢量表示以及支持实例的查询感知矢量表示。
更进一步地,所述的查询实例和第k个支持实例之间的相似度矩阵:
所述的双向注意力层包括支持到查询注意力层和查询到支持注意力层,所述支持到查询注意力层注意力用来寻找查询实例中的哪些词与支持实例中的词相关,给定第t个支持实例中的词,查询词的注意力值分布为:
所述查询到支持注意力层注意力用来寻找支持实例中的哪些词与查询中的词相关,给定第t个查询中的词,支持词的注意力值分布为:
在特征融合中,对每个查询和支持实例的原始表示与注意力表示之间的交互进行建模,对于查询实例,将两种表示法融合如下:
具体地,在步骤5中,模型层将所有实例汇总为单个特征向量,并为每个类生成原型向量;
Max()和Ave()分别为最大池化和平均池化操作;
由于每个支持实例的重要性在给定查询的情况下会有所不同,由此通过注意力方式汇总支持实例,定义为:
具体地,在步骤6中,所述输出层根据查询特征向量和各类别的原型向量预测查询实例所属的类;通过测量查询实例与每个原型的相似性来确定查询实例的类:
更进一步地,在模型层中,损失函数为:
其中,第一部分为交叉熵损失函数:
其中,Q表示查询实例的集合,|Q|表示集合Q的基数;
第二部分添加了一个large margin损失函数,以缩短同一类别之间的距离,并扩大不同类别之间的距离,损失定义为:
最后模型利用随机梯度下降法最小化损失。
附图说明
图1为本发明实施例的流程示意图;
图2为本发明实施例的整体模型结构示意图。
具体实施方式
下面结合附图对本发明作进一步的说明,但不以任何方式对本发明加以限制,基于本发明教导所作的任何变换或替换,均属于本发明的保护范围。
如图1所示,基于度量的元学习框架下的少次文本分类方法,包括以下步骤:
步骤1,在输入层,输入支持实例和查询实例;
步骤2,在词嵌入层,通过查找预先训练的词嵌入表,将支持实例和查询实例的离散单词映射到向量空间中;
步骤3,在上下文编码器层,通过考虑上下文来优化支持实例和查询实例的句子中每个单词的局部表示;
步骤4,在双向注意力层,首先将查询实例与每个支持实例耦合,然后在它们之间生成匹配信息;
步骤5,在模型层,为查询实例和支持实例生成特征向量,给定查询的实例级注意力模块计算支持实例的权重以动态生成原型;
步骤6,在输出层,通过测量查询实例和原型之间的相似性得分来为查询实例提供分类预测。
具体地,步骤2中,词嵌入层将每个离散单词wt映射到向量空间中,表示为:
wt=femb(wt)
其中,fenb()是映射函数;
步骤3中,在上下文编码器层,为了优化每个单词的表示形式,在单词嵌入之后,应用长短期记忆网络,对于输入句子{w1,w2,...,wT},按以下方式计算前向和后向长短期记忆网络表示形式:
具体地,在步骤4中,双向注意力层负责融合查询实例和支持实例中的信息,首先计算查询实例和第k个支持实例之间的相似度矩阵,然后计算其融合表示,所述双向注意力层的输入是查询实例Q和第k个支持实例Sk的上下文向量表示,输出是查询实例的支持感知矢量表示以及支持实例的查询感知矢量表示。
更进一步地,所述的查询实例和第k个支持实例之间的相似度矩阵:
所述的双向注意力层包括支持到查询注意力层和查询到支持注意力层,所述支持到查询注意力层注意力用来寻找查询实例中的哪些词与支持实例中的词相关,给定第t个支持实例中的词,查询词的注意力值分布为:
所述查询到支持注意力层注意力用来寻找支持实例中的哪些词与查询中的词相关,给定第t个查询中的词,支持词的注意力值分布为:
在特征融合中,对每个查询和支持实例的原始表示与注意力表示之间的交互进行建模,对于查询实例,将两种表示法融合如下:
具体地,在步骤5中,模型层将所有实例汇总为单个特征向量,并为每个类生成原型向量;
Max()和Ave()分别为最大池化和平均池化操作;
由于每个支持实例的重要性在给定查询的情况下会有所不同,由此通过注意力方式汇总支持实例,定义为:
具体地,在步骤6中,所述输出层根据查询特征向量和各类别的原型向量预测查询实例所属的类;通过测量查询实例与每个原型的相似性来确定查询实例的类:
更进一步地,在模型层中,损失函数为:
其中,第一部分为交叉熵损失函数:
其中,Q表示查询实例的集合,|Q|表示集合Q的基数;
第二部分添加了一个large margin损失函数,以缩短同一类别之间的距离,并扩大不同类别之间的距离,损失定义为:
最后模型利用随机梯度下降法最小化损失。
上述实施例为本发明方法的一种实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (4)
1.基于度量的元学习框架下的少次文本分类方法,其特征在于,包括以下步骤:
步骤1,在输入层,输入支持实例和查询实例;
步骤2,在词嵌入层,通过查找预先训练的词嵌入表,将支持实例和查询实例的离散单词映射到向量空间中;
步骤3,在上下文编码器层,通过考虑上下文来优化支持实例和查询实例的句子中每个单词的局部表示;
步骤4,在双向注意力层,首先将查询实例与每个支持实例耦合,然后在它们之间生成匹配信息;
步骤5,在模型层,为查询实例和支持实例生成特征向量,给定查询的实例级注意力模块计算支持实例的权重以动态生成原型;
步骤6,在输出层,通过测量查询实例和原型之间的相似性得分来为查询实例提供分类预测;
步骤2中,嵌入层将句子中的每个单词wt映射到向量空间中,表示为:
wt=femb(wt)
其中,femb()是映射函数;
步骤3中,在上下文编码器层,为了优化每个单词的表示形式,在单词嵌入之后,应用了长短期记忆网络,对于输入句子{w1,w2,...,wT},按以下方式计算前向和后向长短期记忆网络表示形式:
在步骤4中,双向注意力层负责融合查询实例和支持实例中的信息,首先计算查询实例和第k个支持实例之间的相似度矩阵,然后计算其融合表示,所述双向注意力层的输入是查询实例Q和第k个支持实例Sk的上下文向量表示,输出是查询实例的支持感知矢量表示以及支持实例的查询感知矢量表示;
所述的查询实例和第k个支持实例之间的相似度矩阵:
所述的双向注意力层包括支持到查询注意力层和查询到支持注意力层,所述支持到查询注意力层注意力用来寻找查询实例中的哪些词与支持实例中的词相关,给定第t个支持实例中的词,查询词的注意力值分布为:
所述查询到支持注意力层注意力用来寻找支持实例中的哪些词与查询中的词相关,给定第t个查询中的词,支持词的注意力值分布为:
在特征融合中,对每个查询和支持实例的原始表示与注意力表示之间的交互进行建模,对于查询实例,将两种表示法融合如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010959729.7A CN112015902B (zh) | 2020-09-14 | 2020-09-14 | 基于度量的元学习框架下的少次文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010959729.7A CN112015902B (zh) | 2020-09-14 | 2020-09-14 | 基于度量的元学习框架下的少次文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112015902A CN112015902A (zh) | 2020-12-01 |
CN112015902B true CN112015902B (zh) | 2022-03-01 |
Family
ID=73522424
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010959729.7A Active CN112015902B (zh) | 2020-09-14 | 2020-09-14 | 基于度量的元学习框架下的少次文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112015902B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112765315B (zh) * | 2021-01-18 | 2022-09-30 | 燕山大学 | 一种法律场景智能分类系统和方法 |
CN112784031B (zh) * | 2021-01-29 | 2022-04-22 | 湖南大学 | 一种基于小样本学习的客服对话文本的分类方法和系统 |
CN113505861B (zh) * | 2021-09-07 | 2021-12-24 | 广东众聚人工智能科技有限公司 | 基于元学习和记忆网络的图像分类方法及系统 |
CN113516209B (zh) * | 2021-09-14 | 2021-12-17 | 中国人民解放军国防科技大学 | 一种用于少样本意图识别的对比任务适应学习方法 |
CN116502959B (zh) * | 2023-06-21 | 2023-09-08 | 南京航空航天大学 | 一种基于元学习的产品制造质量预测方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108399158A (zh) * | 2018-02-05 | 2018-08-14 | 华南理工大学 | 基于依存树和注意力机制的属性情感分类方法 |
CN110019822A (zh) * | 2019-04-16 | 2019-07-16 | 中国科学技术大学 | 一种少样本关系分类方法及系统 |
-
2020
- 2020-09-14 CN CN202010959729.7A patent/CN112015902B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108399158A (zh) * | 2018-02-05 | 2018-08-14 | 华南理工大学 | 基于依存树和注意力机制的属性情感分类方法 |
CN110019822A (zh) * | 2019-04-16 | 2019-07-16 | 中国科学技术大学 | 一种少样本关系分类方法及系统 |
Non-Patent Citations (1)
Title |
---|
文本词向量与预训练语言模型研究;徐菲菲等;《上海电力大学学报》;20200815(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112015902A (zh) | 2020-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112015902B (zh) | 基于度量的元学习框架下的少次文本分类方法 | |
CN112487143B (zh) | 一种基于舆情大数据分析的多标签文本分类方法 | |
CN111694924B (zh) | 一种事件抽取方法和系统 | |
CN110738057B (zh) | 一种基于语法约束和语言模型的文本风格迁移方法 | |
CN110929149A (zh) | 一种工业设备故障维修推荐方法和系统 | |
CN116541911B (zh) | 一种基于人工智能的包装设计系统 | |
CN110580287A (zh) | 基于迁移学习和on-lstm的情感分类方法 | |
CN110175235A (zh) | 基于神经网络的智能商品税分类编码方法及系统 | |
CN116127084A (zh) | 基于知识图谱的微电网调度策略智能检索系统及方法 | |
CN114547307A (zh) | 文本向量模型训练方法、文本匹配方法、装置及设备 | |
CN114048314A (zh) | 一种自然语言隐写分析方法 | |
CN112905793B (zh) | 一种基于Bilstm+Attention文本分类的案例推荐方法及系统 | |
CN114358017A (zh) | 标签分类方法、装置、设备和存储介质 | |
CN114330514A (zh) | 一种基于深度特征与梯度信息的数据重建方法及系统 | |
CN112612900A (zh) | 一种知识图谱指导的多张场景图像生成方法 | |
CN116958700A (zh) | 一种基于提示工程和对比学习的图像分类方法 | |
CN115797795A (zh) | 基于强化学习的遥感影像问答式检索系统及方法 | |
CN114170460A (zh) | 一种基于多模态融合的艺术品分类方法及系统 | |
CN114372148A (zh) | 一种基于知识图谱技术的数据处理方法及终端设备 | |
CN116975256B (zh) | 抽水蓄能电站地下厂房施工过程多源信息的处理方法及系统 | |
Ingale et al. | Artificial Intelligences-Based Approaches for Generating Image Caption | |
CN117473096B (zh) | 一种融合latex标签的知识点标注方法及其模型 | |
CN118036577B (zh) | 一种自然语言处理中的序列标注方法 | |
CN117172232B (zh) | 审计报告生成方法、装置、设备和存储介质 | |
CN117171413B (zh) | 用于数字藏品管理的数据处理系统及其方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |