CN115033689B

CN115033689B - 一种基于小样本文本分类原型网络欧氏距离计算方法

Info

Publication number: CN115033689B
Application number: CN202210593432.2A
Authority: CN
Inventors: 袁正午; 陈泽; 邓阳; 周亚涛
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-05-27
Filing date: 2022-05-27
Publication date: 2023-04-18
Anticipated expiration: 2042-05-27
Also published as: CN115033689A

Abstract

本发明涉及一种基于小样本文本分类原型网络欧氏距离计算方法，属于计算机技术领域。该方法包括以下内容：通过对数据进行划分为support与query，度量学习的学习范式通过support来获得样本的估计类别，然后通过query来对估计类别进行比较，从而来进行分类。本发明利用孪生网络结合高速网络提升对原型特征进行提取计算，不同孪生层对support以及query的处理均不相同；通过特征级注意力模块来将support与query的进行特征级关注，通过特征融合将结果通过激活函数获得注意力分数系数，通过注意力分数提升欧氏距离对于高维稀疏矩阵的特征进行判别，提高分类准确度。

Description

一种基于小样本文本分类原型网络欧氏距离计算方法

技术领域

本发明属于计算机技术领域，涉及一种基于小样本文本分类原型网络欧氏距离计算方法。

背景技术

文本数据作为信息的载体，其背后蕴含着巨大的商业价值。采用文本分类技术对海量文本信息进行高效的组织和管理，十分必要且重要。它具有广泛的应用，包括问答、垃圾邮件检测、情感分析、新闻分类、用户意图分类、内容审核等。文本分类在许多自然语言处理应用程序中是一项重要的任务，如情感分析、主题标记、问答和对话行为分类等，不同的文本分类任务具有不同的任务特征。如何根据任务的特征挖掘文本的深层语义信息，提高文本分类的准确率，是近年来的研究热点。目前有效的文本分类方法大多是基于大规模的标注数据和大量的参数，但是当有监督的训练数据较少且难以收集时，这些训练出来德模型效果较差，并且，使用较少的数据进行深度学习，会很容易造成模型训练的过拟合。所以，当出现较少数据集时，如何训练就成了一项至关重要的问题。所以，相比之下，小样本的学习是非常必要的。

小样本文本分类技术是基于小样本学习和机器学习等技术，借助于计算机处理技术，使用学习到的类别特征来对新产生的文本进行分类的过程。小样本文本分类首先也是文本分类，处理的数据集也是文本数据集，在预处理阶段，类似于文本分类的预处理，可以说小样本文本分类相较于文本分类来说，样本较少，所以训练难度也是非常大。如何从小样本数据集中训练出较好的模型是一个值得思考的问题。目前，小样本学习文本分类技术中原型网络学习是首先进行词嵌入，再进行网络模型构建，学习度量从而通过度量进行分类。但是，由于小样本学习所使用的每个类别数据较少，采用平常文本分类模型很容易产生过拟合现象，导致模型无法训练学习，从而导致训练出的模型无法使用。

发明内容

有鉴于此，本发明的目的在于提供一种基于小样本文本分类原型网络欧氏距离计算方法，定义了一种新的编码模块以及度量模块，代替了最初简单的距离度量方法，提升多维度中稀疏特征的提取，对于对象的类别多、样本数少等问题，提高了精度。首先通过对数据进行划分，由于小样本数据相较于一般的文本分类来说，数据是比较少的，每个类别只有几个样本，所以对拥有的样本应该进行充分的信息提取。数据集划分为supportset与queryset，因为小样本学习中，由于样本的数量少，所以，小样本学习中度量学习的学习范式为，通过support set来获得样本的估计类别，然后通过query set来对估计类别进行查询，进行比较，从而来进行分类。通过最原始的原型网络，support set由于包含了所要分类的类别，所以将获得support set进行求类别平均，这样就可以大致求出support set中各个类别的样本在样本空间中的位置，通过位置能够很轻松的在后续进行分类，因为可以通过将后续样本同样进样本空间的嵌入，然后对query与prototype进行欧氏距离的计算，通过距离的远近从而进行分类。相较于最初的原型网络，距离的计算大多都是通过欧氏距离来进行计算，但是仅仅依靠欧氏距离不能够完全区分稀疏矩阵中的某些特征。

为达到上述目的，本发明提供如下技术方案：

一种基于小样本文本分类原型网络欧氏距离计算方法，该方法包括以下步骤：

步骤1)、利用Glove进行词的向量化表示，将预训练的词向量文件进行解析，构建单词与其向量表示的索引，使得向量之间尽可能多地蕴含语义和语法的信息；

步骤2)、构造基于原型网络的小样本学习网络模型，总体的大致模型包括编码层，原型层以及度量层，编码层是将实例中的离散词映射为连续的输入嵌入词，用于捕获语义信息；原型层通过孪生网络与高速网络结合，通过孪生网络中support与query权重共享进行参数学习，同时结合高速网络提升网络学习效率，通过获得的词向量Xs与Xq经过孪生网络S进行特征编码，结合高速网络，每一层通过gate进行相关控制，对网络进行梯度优化获得原型；度量模块通过特征级注意力模块来将support与query的进行特征级关注，通过特征融合将结果通过激活函数获得注意力分数系数，通过注意力分数改进后的欧氏距离的计算来计算损失或进行分类；

步骤3)、将小样本数据集分为训练集、验证集以及测试集，再分别对数据集进行拆分，分为support set与query set，预训练阶段借助预训练模型Glove进行词嵌入，将已经与处理好的数据集根据嵌入矩阵进行词嵌入嵌入矩阵W，wt＝Wωt，并通过将单词嵌入和位置嵌入连接起来，实现对每个单词的最终输入嵌入，{x1...，xn}＝{[ω；p1]，...，[ωn；pn]},{x1...，xn}＝{[ω；p1]，...，[ωn；pn]}，

步骤4)、使用孪生网络S与高速网络H结合进行原型特征提取计算，将词向量Xs与Xq输入孪生网络进行进行特征学习，每一层的孪生网络使用batch-normalization进行归一化处理，获得最终原型P(X)＝H(S(X))；

步骤5)、将获得后的Xs与Xq数据分别进行特征级注意力模块计算，通过新加特征级注意力模块，能够让模型注意到整个输入中的support样本，query样本内的不同部分之间的相关性，以便后续获得的分数能够对高维度稀疏矩阵中的重要特征进行强调，获得分数系数，便于后续分类；

步骤6)、将步骤4)获得的原型P与query数据进行欧氏距离的计算，在计算结果时，乘上步骤5)所求得的注意力分数系数；原来的模型使用简单的欧几里德距离函数作为距离函数，由于support中实例较少，从support中提取的特征存在数据稀疏性问题，通过增加分数系数代替最原始的欧氏距离函数，最后通过softmax函数来进行分类。

可选的，所述编码层是将实例中的离散词映射为连续的输入嵌入词，用于捕获语义信息；给定一个实例x＝{ω1，ω2，…，ωT}，有T个字；使用嵌入矩阵W，将每个单词嵌入到一个向量中，将该实例中的每个单词映射到一个实值嵌入，以表示该单词的语义和语法意义wt＝Wωt；由于靠近实体的词对关系确定的影响更大，采用位置嵌入的方法；通过将单词嵌入和位置嵌入连接起来，{x1...，xn}＝{[ω；p1]，...，[ωn；pn]}，再通过卷积以及池化实现对每个单词的最终输入嵌入，

X＝fφ(x)。

可选的，所述原型层处理词向量进行原型表示，使用孪生网络S与高速网络H结合进行原型特征提取计算，步骤如下：孪生网络包含了两层卷积层以及一层全连接层，并且每一层受高速网络启发通过gate进行连接；将词向量Xs与Xq输入孪生网络G进行特征学习，模型隐层维度为512维，使用conv1d卷积核长度为3，步长为1，padding为1，每一层使用batch-normalization进行归一化处理；对于孪生网络中的Xq部分，考虑到Xq对模型后期查询样本与原型之间的比较，所以不对Xq做过多处理，所以没有将Xq加入高速网络，所以与Xs只进行孪生网络的参数学习的到Q₁＝S(Xq)；而对于孪生网络中Xs部分的输出，每一层Xs的输出都是结合高速网络输出h(x)＝g(x,wg)*t(x,wt)+x*(1-t(x,wt))，其中，x为suppot样本集输入，g(*)为当前层卷积后的结果，t为学习系数，将h(x)作为下一层孪生网络以及高速网络的输入，其中t(*)为0～1的系数参数，通过sigmoid函数学习得到，t(x)＝σ(wtx+b)，获得最终原型Pi＝H(S(P_i＝H(S(x_i ^j))。

可选的，将所述Xs和Xq池化，数据分别进行计算，得到到整个输入中的support样本，query样本内的不同部分之间的相关性，以便后续获得的分数能够对高维度稀疏矩阵中的重要特征进行强调，便于后续分类；具体为：将Xs与Xq分别进行计算，

将经过自身特征强化的S和Q₂进行特征融合，再经过激活函数后获得分数系数α_i＝σ(S_i·Q₂)，其中，表示以拼接方式进行特征融合，σ表示经过归一化以及simoid激活函数，分数系数更加提高对support与query中对分类有益特征的关注度，提升分类的准确度，在进行距离计算的时，将欧氏距离乘上获得的注意力分数系统后，对高维度稀疏矩阵中的重要特征有强调作用，d_(i，q)＝(S_i-Q₁)²*α_i，表示查询向量与第i个类别的样本空间距离，所求出的距离也更加准去，从而获得的分类结果也更加准确。

本发明的有益效果在于：本发明提更有效的原型计算模块提升对于原型的特征提取，更有效的度量模块提升欧氏距离的对比精度，相较于最初的小样本文本分类，利用孪生网络结合高速网络提升对原型特征进行提取计算，通过特征级注意力模块来将support与query的进行特征级关注，通过特征融合将结果通过激活函数获得注意力分数系数，通过注意力分数提升欧氏距离对于高维稀疏矩阵的特征进行判别，提高分类准确度。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明建立小样本文本分类模型的流程图；

图2为本发明系统原理图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

请参阅图1～图2，为一种基于原型网络小样本文本分类方法，详细步骤如下：

步骤1)、采集文本数据集；

步骤2)、对文本数据进行预处理，并将数据分为support set与query set进行分别处理，support set用来后面计算原型时使用，query set用来后面对求出的原型进行准确度判别计算误差。将文本数据转化位基于原型网络小样本文本分类的向量化形式，通过无监督学习，利用基于全局词汇共现的统计信息来学习词向量，线性表示词向量；

步骤3)、编码层是将实例中的离散词映射为连续的输入嵌入词，用于捕获语义信息。给定一个实例x＝{ω1，ω2，…，ωT}，有T个字。使用嵌入矩阵W，将每个单词嵌入到一个向量中，将该实例中的每个单词映射到一个实值嵌入，以表示该单词的语义和语法意义wt＝Wωt。由于靠近实体的词对关系确定的影响更大，采用位置嵌入的方法。通过将单词嵌入和位置嵌入连接起来，{x1...，xn}＝{[ω1；p1]，...，[ωn；pn]}，再通过卷积以及池化实现对每个单词的最终输入嵌入，

X＝fφ(x)；

步骤4)、原型计算层处理词向量进行原型表示。使用孪生网络S与高速网络H结合进行原型特征提取计算，步骤如下：孪生网络包含了两层卷积层以及一层全连接层，并且每一层受高速网络启发通过gate进行连接；将词向量Xs与Xq输入孪生网络G进行特征学习，模型隐层维度为512维，使用conv1d卷积核长度为3，步长为1，padding为1，每一层使用batch-normalization进行归一化处理；对于孪生网络中的Xq部分，考虑到Xq对模型后期查询样本与原型之间的比较，所以不对Xq做过多处理，所以没有将Xq加入高速网络，所以与Xs只进行孪生网络的参数学习的到Q₁＝S(Xq)；而对于孪生网络中Xs部分的输出，每一层Xs的输出都是结合高速网络输出h(x)＝g(x,wg)*t(x,wt)+x*(1-t(x,wt))，其中，x为suppot样本集输入，g(*)为当前层卷积后的结果，t为学习系数，将h(x)作为下一层孪生网络以及高速网络的输入，其中t(*)为0～1的系数参数，通过sigmoid函数学习得到，t(x)＝σ(wtx+b)，获得最终原型Pi＝H(S(P_i＝H(S(x_i ^j))。

步骤5)、将通过步骤3)所处理的support数据与query样本进行特征级注意力计算，获得注意力分数。将池化后的Xs和Xq数据分别进行计算，通过新加的特征级注意力模块，能够让机器注意到整个输入中的support样本，query样本内的不同部分之间的相关性，以便后续获得的分数能够对高维度稀疏矩阵中的重要特征进行强调，便于后续分类。具体如下步骤：将Xs与Xq分别进行计算，

将经过自身特征强化的S和Q2进行特征融合，再经过激活函数后获得分数系数α_i＝σ(S_i·Q₂)，其中，表示以拼接方式进行特征融合，σ表示经过归一化以及simoid激活函数，分数系数更加提高对support与query中对分类有益特征的关注度，提升分类的准确度；

步骤6)、将步骤4)所获得原型P与步骤4)所获得Q₁进行欧氏距离计算，将结果与步骤5)所获得的注意力系数进行系数相乘，提升P与Q₁之间不同特征的区分度，获得的注意力分数相比于原来的单独取类平均所获得的原型来进行欧氏距离计算，d_(i，q)＝(S_i-Q₁)²*α_i，表示查询向量与第i个类别的样本空间距离，将欧氏距离乘上获得的注意力分数系统后，对高维度稀疏矩阵中的重要特征有强调作用，所求出的距离也更加准去，从而获得的分类结果也更加准确；

步骤7)、通过步骤6)所获得的强化后欧氏距离计算来对样本与原型之间的距离来判断query的样本与所获得的support原型之间的样本空间距离d_(i，q)从而计算概率

进行分类。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于小样本文本分类原型网络欧氏距离计算方法，其特征在于：该方法包括以下步骤：

步骤3)、将小样本数据集分为训练集、验证集以及测试集，再分别对数据集进行拆分，分为support set与query set，预训练阶段借助预训练模型Glove进行词嵌入，将已经与处理好的数据集根据嵌入矩阵进行词嵌入嵌入矩阵W，wt＝Wωt，并通过将单词嵌入和位置嵌入连接起来，实现对每个单词的最终输入嵌入，{x1...，xn}＝{[ω1；p1]，...，[ωn；pn]}，{x1...，xn}＝{[ω1；p1]，...，[ωn；pn]}，

X＝fφ(x)；

步骤4)、使用孪生网络S与高速网络H结合进行原型特征提取计算，将词向量Xs与Xq输入孪生网络进行进行特征学习，每一层的孪生网络使用batch-normalization进行归一化处理，获得最终原型P(X)＝H(S(X)；

步骤6)、将步骤4)获得的原型P与query数据进行欧氏距离的计算，在计算结果时，乘上步骤5)所求得的注意力分数系数；原来的模型使用简单的欧几里德距离函数作为距离函数，由于support中实例较少，从support中提取的特征存在数据稀疏性问题，通过增加分数系数代替最原始的欧氏距离函数，最后通过softmax函数来进行分类；

所述编码层是将实例中的离散词映射为连续的输入嵌入词，用于捕获语义信息；给定一个实例x＝{ω1，ω2，...，ωT}，有T个字；使用嵌入矩阵W，将每个单词嵌入到一个向量中，将该实例中的每个单词映射到一个实值嵌入，以表示该单词的语义和语法意义wt＝Wωt；由于靠近实体的词对关系确定的影响更大，采用位置嵌入的方法；通过将单词嵌入和位置嵌入连接起来，{x1...，xn}＝{[ω1；p1]，...，[ωn；pn]}，再通过卷积以及池化实现对每个单词的最终输入嵌入，

X＝fφ(x)；

所述原型层处理词向量进行原型表示，使用孪生网络S与高速网络H结合进行原型特征提取计算，步骤如下：孪生网络包含了两层卷积层以及一层全连接层，并且每一层受高速网络启发通过gate进行连接；将词向量Xs与Xq输入孪生网络G进行特征学习，模型隐层维度为512维，使用convld卷积核长度为3，步长为1，padding为1，每一层使用batch-normalization进行归一化处理；对于孪生网络中的Xq部分，考虑到Xq对模型后期查询样本与原型之间的比较，所以不对Xq做过多处理，所以没有将Xq加入高速网络，所以与Xs只进行孪生网络的参数学习的到Q₁＝S(Xq)；而对于孪生网络中Xs部分的输出，每一层Xs的输出都是结合高速网络输出h(x)＝g(x，wg)*t(x，wt)+x*(1-t(x，wt))，其中，x为suppot样本集输入，g(*)为当前层卷积后的结果，t为学习系数，将h(x)作为下一层孪生网络以及高速网络的输入，其中t(*)为0～1的系数参数，通过sigmoid函数学习得到，t(x)＝σ(wtx+b)，获得最终原型

将所述Xs和Xq池化，数据分别进行计算，得到到整个输入中的support样本，query样本内的不同部分之间的相关性，以便后续获得的分数能够对高维度稀疏矩阵中的重要特征进行强调，便于后续分类；具体为：将Xs与Xq分别进行计算，