CN115033689B - 一种基于小样本文本分类原型网络欧氏距离计算方法 - Google Patents
一种基于小样本文本分类原型网络欧氏距离计算方法 Download PDFInfo
- Publication number
- CN115033689B CN115033689B CN202210593432.2A CN202210593432A CN115033689B CN 115033689 B CN115033689 B CN 115033689B CN 202210593432 A CN202210593432 A CN 202210593432A CN 115033689 B CN115033689 B CN 115033689B
- Authority
- CN
- China
- Prior art keywords
- network
- prototype
- layer
- query
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004364 calculation method Methods 0.000 title claims description 24
- 230000006870 function Effects 0.000 claims abstract description 21
- 238000000034 method Methods 0.000 claims abstract description 19
- 239000011159 matrix material Substances 0.000 claims abstract description 16
- 230000004927 fusion Effects 0.000 claims abstract description 10
- 230000004913 activation Effects 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 9
- 238000005259 measurement Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 5
- 230000009286 beneficial effect Effects 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 claims description 2
- 238000012360 testing method Methods 0.000 claims description 2
- 238000012795 verification Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于小样本文本分类原型网络欧氏距离计算方法,属于计算机技术领域。该方法包括以下内容:通过对数据进行划分为support与query,度量学习的学习范式通过support来获得样本的估计类别,然后通过query来对估计类别进行比较,从而来进行分类。本发明利用孪生网络结合高速网络提升对原型特征进行提取计算,不同孪生层对support以及query的处理均不相同;通过特征级注意力模块来将support与query的进行特征级关注,通过特征融合将结果通过激活函数获得注意力分数系数,通过注意力分数提升欧氏距离对于高维稀疏矩阵的特征进行判别,提高分类准确度。
Description
技术领域
本发明属于计算机技术领域,涉及一种基于小样本文本分类原型网络欧氏距离计算方法。
背景技术
文本数据作为信息的载体,其背后蕴含着巨大的商业价值。采用文本分类技术对海量文本信息进行高效的组织和管理,十分必要且重要。它具有广泛的应用,包括问答、垃圾邮件检测、情感分析、新闻分类、用户意图分类、内容审核等。文本分类在许多自然语言处理应用程序中是一项重要的任务,如情感分析、主题标记、问答和对话行为分类等,不同的文本分类任务具有不同的任务特征。如何根据任务的特征挖掘文本的深层语义信息,提高文本分类的准确率,是近年来的研究热点。目前有效的文本分类方法大多是基于大规模的标注数据和大量的参数,但是当有监督的训练数据较少且难以收集时,这些训练出来德模型效果较差,并且,使用较少的数据进行深度学习,会很容易造成模型训练的过拟合。所以,当出现较少数据集时,如何训练就成了一项至关重要的问题。所以,相比之下,小样本的学习是非常必要的。
小样本文本分类技术是基于小样本学习和机器学习等技术,借助于计算机处理技术,使用学习到的类别特征来对新产生的文本进行分类的过程。小样本文本分类首先也是文本分类,处理的数据集也是文本数据集,在预处理阶段,类似于文本分类的预处理,可以说小样本文本分类相较于文本分类来说,样本较少,所以训练难度也是非常大。如何从小样本数据集中训练出较好的模型是一个值得思考的问题。目前,小样本学习文本分类技术中原型网络学习是首先进行词嵌入,再进行网络模型构建,学习度量从而通过度量进行分类。但是,由于小样本学习所使用的每个类别数据较少,采用平常文本分类模型很容易产生过拟合现象,导致模型无法训练学习,从而导致训练出的模型无法使用。
发明内容
有鉴于此,本发明的目的在于提供一种基于小样本文本分类原型网络欧氏距离计算方法,定义了一种新的编码模块以及度量模块,代替了最初简单的距离度量方法,提升多维度中稀疏特征的提取,对于对象的类别多、样本数少等问题,提高了精度。首先通过对数据进行划分,由于小样本数据相较于一般的文本分类来说,数据是比较少的,每个类别只有几个样本,所以对拥有的样本应该进行充分的信息提取。数据集划分为supportset与queryset,因为小样本学习中,由于样本的数量少,所以,小样本学习中度量学习的学习范式为,通过support set来获得样本的估计类别,然后通过query set来对估计类别进行查询,进行比较,从而来进行分类。通过最原始的原型网络,support set由于包含了所要分类的类别,所以将获得support set进行求类别平均,这样就可以大致求出support set中各个类别的样本在样本空间中的位置,通过位置能够很轻松的在后续进行分类,因为可以通过将后续样本同样进样本空间的嵌入,然后对query与prototype进行欧氏距离的计算,通过距离的远近从而进行分类。相较于最初的原型网络,距离的计算大多都是通过欧氏距离来进行计算,但是仅仅依靠欧氏距离不能够完全区分稀疏矩阵中的某些特征。
为达到上述目的,本发明提供如下技术方案:
一种基于小样本文本分类原型网络欧氏距离计算方法,该方法包括以下步骤:
步骤1)、利用Glove进行词的向量化表示,将预训练的词向量文件进行解析,构建单词与其向量表示的索引,使得向量之间尽可能多地蕴含语义和语法的信息;
步骤2)、构造基于原型网络的小样本学习网络模型,总体的大致模型包括编码层,原型层以及度量层,编码层是将实例中的离散词映射为连续的输入嵌入词,用于捕获语义信息;原型层通过孪生网络与高速网络结合,通过孪生网络中support与query权重共享进行参数学习,同时结合高速网络提升网络学习效率,通过获得的词向量Xs与Xq经过孪生网络S进行特征编码,结合高速网络,每一层通过gate进行相关控制,对网络进行梯度优化获得原型;度量模块通过特征级注意力模块来将support与query的进行特征级关注,通过特征融合将结果通过激活函数获得注意力分数系数,通过注意力分数改进后的欧氏距离的计算来计算损失或进行分类;
步骤3)、将小样本数据集分为训练集、验证集以及测试集,再分别对数据集进行拆分,分为support set与query set,预训练阶段借助预训练模型Glove进行词嵌入,将已经与处理好的数据集根据嵌入矩阵进行词嵌入嵌入矩阵W,wt=Wωt,并通过将单词嵌入和位置嵌入连接起来,实现对每个单词的最终输入嵌入,{x1...,xn}={[ω;p1],...,[ωn;pn]},{x1...,xn}={[ω;p1],...,[ωn;pn]},
步骤4)、使用孪生网络S与高速网络H结合进行原型特征提取计算,将词向量Xs与Xq输入孪生网络进行进行特征学习,每一层的孪生网络使用batch-normalization进行归一化处理,获得最终原型P(X)=H(S(X));
步骤5)、将获得后的Xs与Xq数据分别进行特征级注意力模块计算,通过新加特征级注意力模块,能够让模型注意到整个输入中的support样本,query样本内的不同部分之间的相关性,以便后续获得的分数能够对高维度稀疏矩阵中的重要特征进行强调,获得分数系数,便于后续分类;
步骤6)、将步骤4)获得的原型P与query数据进行欧氏距离的计算,在计算结果时,乘上步骤5)所求得的注意力分数系数;原来的模型使用简单的欧几里德距离函数作为距离函数,由于support中实例较少,从support中提取的特征存在数据稀疏性问题,通过增加分数系数代替最原始的欧氏距离函数,最后通过softmax函数来进行分类。
可选的,所述编码层是将实例中的离散词映射为连续的输入嵌入词,用于捕获语义信息;给定一个实例x={ω1,ω2,…,ωT},有T个字;使用嵌入矩阵W,将每个单词嵌入到一个向量中,将该实例中的每个单词映射到一个实值嵌入,以表示该单词的语义和语法意义wt=Wωt;由于靠近实体的词对关系确定的影响更大,采用位置嵌入的方法;通过将单词嵌入和位置嵌入连接起来,{x1...,xn}={[ω;p1],...,[ωn;pn]},再通过卷积以及池化实现对每个单词的最终输入嵌入,X=fφ(x)。
可选的,所述原型层处理词向量进行原型表示,使用孪生网络S与高速网络H结合进行原型特征提取计算,步骤如下:孪生网络包含了两层卷积层以及一层全连接层,并且每一层受高速网络启发通过gate进行连接;将词向量Xs与Xq输入孪生网络G进行特征学习,模型隐层维度为512维,使用conv1d卷积核长度为3,步长为1,padding为1,每一层使用batch-normalization进行归一化处理;对于孪生网络中的Xq部分,考虑到Xq对模型后期查询样本与原型之间的比较,所以不对Xq做过多处理,所以没有将Xq加入高速网络,所以与Xs只进行孪生网络的参数学习的到Q1=S(Xq);而对于孪生网络中Xs部分的输出,每一层Xs的输出都是结合高速网络输出h(x)=g(x,wg)*t(x,wt)+x*(1-t(x,wt)),其中,x为suppot样本集输入,g(*)为当前层卷积后的结果,t为学习系数,将h(x)作为下一层孪生网络以及高速网络的输入,其中t(*)为0~1的系数参数,通过sigmoid函数学习得到,t(x)=σ(wtx+b),获得最终原型Pi=H(S(Pi=H(S(xi j))。
可选的,将所述Xs和Xq池化,数据分别进行计算,得到到整个输入中的support样本,query样本内的不同部分之间的相关性,以便后续获得的分数能够对高维度稀疏矩阵中的重要特征进行强调,便于后续分类;具体为:将Xs与Xq分别进行计算,将经过自身特征强化的S和Q2进行特征融合,再经过激活函数后获得分数系数αi=σ(Si·Q2),其中,表示以拼接方式进行特征融合,σ表示经过归一化以及simoid激活函数,分数系数更加提高对support与query中对分类有益特征的关注度,提升分类的准确度,在进行距离计算的时,将欧氏距离乘上获得的注意力分数系统后,对高维度稀疏矩阵中的重要特征有强调作用,d(i,q)=(Si-Q1)2*αi,表示查询向量与第i个类别的样本空间距离,所求出的距离也更加准去,从而获得的分类结果也更加准确。
本发明的有益效果在于:本发明提更有效的原型计算模块提升对于原型的特征提取,更有效的度量模块提升欧氏距离的对比精度,相较于最初的小样本文本分类,利用孪生网络结合高速网络提升对原型特征进行提取计算,通过特征级注意力模块来将support与query的进行特征级关注,通过特征融合将结果通过激活函数获得注意力分数系数,通过注意力分数提升欧氏距离对于高维稀疏矩阵的特征进行判别,提高分类准确度。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明建立小样本文本分类模型的流程图;
图2为本发明系统原理图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
请参阅图1~图2,为一种基于原型网络小样本文本分类方法,详细步骤如下:
步骤1)、采集文本数据集;
步骤2)、对文本数据进行预处理,并将数据分为support set与query set进行分别处理,support set用来后面计算原型时使用,query set用来后面对求出的原型进行准确度判别计算误差。将文本数据转化位基于原型网络小样本文本分类的向量化形式,通过无监督学习,利用基于全局词汇共现的统计信息来学习词向量,线性表示词向量;
步骤3)、编码层是将实例中的离散词映射为连续的输入嵌入词,用于捕获语义信息。给定一个实例x={ω1,ω2,…,ωT},有T个字。使用嵌入矩阵W,将每个单词嵌入到一个向量中,将该实例中的每个单词映射到一个实值嵌入,以表示该单词的语义和语法意义wt=Wωt。由于靠近实体的词对关系确定的影响更大,采用位置嵌入的方法。通过将单词嵌入和位置嵌入连接起来,{x1...,xn}={[ω1;p1],...,[ωn;pn]},再通过卷积以及池化实现对每个单词的最终输入嵌入,X=fφ(x);
步骤4)、原型计算层处理词向量进行原型表示。使用孪生网络S与高速网络H结合进行原型特征提取计算,步骤如下:孪生网络包含了两层卷积层以及一层全连接层,并且每一层受高速网络启发通过gate进行连接;将词向量Xs与Xq输入孪生网络G进行特征学习,模型隐层维度为512维,使用conv1d卷积核长度为3,步长为1,padding为1,每一层使用batch-normalization进行归一化处理;对于孪生网络中的Xq部分,考虑到Xq对模型后期查询样本与原型之间的比较,所以不对Xq做过多处理,所以没有将Xq加入高速网络,所以与Xs只进行孪生网络的参数学习的到Q1=S(Xq);而对于孪生网络中Xs部分的输出,每一层Xs的输出都是结合高速网络输出h(x)=g(x,wg)*t(x,wt)+x*(1-t(x,wt)),其中,x为suppot样本集输入,g(*)为当前层卷积后的结果,t为学习系数,将h(x)作为下一层孪生网络以及高速网络的输入,其中t(*)为0~1的系数参数,通过sigmoid函数学习得到,t(x)=σ(wtx+b),获得最终原型Pi=H(S(Pi=H(S(xi j))。
步骤5)、将通过步骤3)所处理的support数据与query样本进行特征级注意力计算,获得注意力分数。将池化后的Xs和Xq数据分别进行计算,通过新加的特征级注意力模块,能够让机器注意到整个输入中的support样本,query样本内的不同部分之间的相关性,以便后续获得的分数能够对高维度稀疏矩阵中的重要特征进行强调,便于后续分类。具体如下步骤:将Xs与Xq分别进行计算,将经过自身特征强化的S和Q2进行特征融合,再经过激活函数后获得分数系数αi=σ(Si·Q2),其中,表示以拼接方式进行特征融合,σ表示经过归一化以及simoid激活函数,分数系数更加提高对support与query中对分类有益特征的关注度,提升分类的准确度;
步骤6)、将步骤4)所获得原型P与步骤4)所获得Q1进行欧氏距离计算,将结果与步骤5)所获得的注意力系数进行系数相乘,提升P与Q1之间不同特征的区分度,获得的注意力分数相比于原来的单独取类平均所获得的原型来进行欧氏距离计算,d(i,q)=(Si-Q1)2*αi,表示查询向量与第i个类别的样本空间距离,将欧氏距离乘上获得的注意力分数系统后,对高维度稀疏矩阵中的重要特征有强调作用,所求出的距离也更加准去,从而获得的分类结果也更加准确;
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (1)
1.一种基于小样本文本分类原型网络欧氏距离计算方法,其特征在于:该方法包括以下步骤:
步骤1)、利用Glove进行词的向量化表示,将预训练的词向量文件进行解析,构建单词与其向量表示的索引,使得向量之间尽可能多地蕴含语义和语法的信息;
步骤2)、构造基于原型网络的小样本学习网络模型,总体的大致模型包括编码层,原型层以及度量层,编码层是将实例中的离散词映射为连续的输入嵌入词,用于捕获语义信息;原型层通过孪生网络与高速网络结合,通过孪生网络中support与query权重共享进行参数学习,同时结合高速网络提升网络学习效率,通过获得的词向量Xs与Xq经过孪生网络S进行特征编码,结合高速网络,每一层通过gate进行相关控制,对网络进行梯度优化获得原型;度量模块通过特征级注意力模块来将support与query的进行特征级关注,通过特征融合将结果通过激活函数获得注意力分数系数,通过注意力分数改进后的欧氏距离的计算来计算损失或进行分类;
步骤3)、将小样本数据集分为训练集、验证集以及测试集,再分别对数据集进行拆分,分为support set与query set,预训练阶段借助预训练模型Glove进行词嵌入,将已经与处理好的数据集根据嵌入矩阵进行词嵌入嵌入矩阵W,wt=Wωt,并通过将单词嵌入和位置嵌入连接起来,实现对每个单词的最终输入嵌入,{x1...,xn}={[ω1;p1],...,[ωn;pn]},{x1...,xn}={[ω1;p1],...,[ωn;pn]},X=fφ(x);
步骤4)、使用孪生网络S与高速网络H结合进行原型特征提取计算,将词向量Xs与Xq输入孪生网络进行进行特征学习,每一层的孪生网络使用batch-normalization进行归一化处理,获得最终原型P(X)=H(S(X);
步骤5)、将获得后的Xs与Xq数据分别进行特征级注意力模块计算,通过新加特征级注意力模块,能够让模型注意到整个输入中的support样本,query样本内的不同部分之间的相关性,以便后续获得的分数能够对高维度稀疏矩阵中的重要特征进行强调,获得分数系数,便于后续分类;
步骤6)、将步骤4)获得的原型P与query数据进行欧氏距离的计算,在计算结果时,乘上步骤5)所求得的注意力分数系数;原来的模型使用简单的欧几里德距离函数作为距离函数,由于support中实例较少,从support中提取的特征存在数据稀疏性问题,通过增加分数系数代替最原始的欧氏距离函数,最后通过softmax函数来进行分类;
所述编码层是将实例中的离散词映射为连续的输入嵌入词,用于捕获语义信息;给定一个实例x={ω1,ω2,...,ωT},有T个字;使用嵌入矩阵W,将每个单词嵌入到一个向量中,将该实例中的每个单词映射到一个实值嵌入,以表示该单词的语义和语法意义wt=Wωt;由于靠近实体的词对关系确定的影响更大,采用位置嵌入的方法;通过将单词嵌入和位置嵌入连接起来,{x1...,xn}={[ω1;p1],...,[ωn;pn]},再通过卷积以及池化实现对每个单词的最终输入嵌入,X=fφ(x);
所述原型层处理词向量进行原型表示,使用孪生网络S与高速网络H结合进行原型特征提取计算,步骤如下:孪生网络包含了两层卷积层以及一层全连接层,并且每一层受高速网络启发通过gate进行连接;将词向量Xs与Xq输入孪生网络G进行特征学习,模型隐层维度为512维,使用convld卷积核长度为3,步长为1,padding为1,每一层使用batch-normalization进行归一化处理;对于孪生网络中的Xq部分,考虑到Xq对模型后期查询样本与原型之间的比较,所以不对Xq做过多处理,所以没有将Xq加入高速网络,所以与Xs只进行孪生网络的参数学习的到Q1=S(Xq);而对于孪生网络中Xs部分的输出,每一层Xs的输出都是结合高速网络输出h(x)=g(x,wg)*t(x,wt)+x*(1-t(x,wt)),其中,x为suppot样本集输入,g(*)为当前层卷积后的结果,t为学习系数,将h(x)作为下一层孪生网络以及高速网络的输入,其中t(*)为0~1的系数参数,通过sigmoid函数学习得到,t(x)=σ(wtx+b),获得最终原型
将所述Xs和Xq池化,数据分别进行计算,得到到整个输入中的support样本,query样本内的不同部分之间的相关性,以便后续获得的分数能够对高维度稀疏矩阵中的重要特征进行强调,便于后续分类;具体为:将Xs与Xq分别进行计算,将经过自身特征强化的S和Q2进行特征融合,再经过激活函数后获得分数系数αi=σ(Si·Q2),其中,表示以拼接方式进行特征融合,σ表示经过归一化以及simoid激活函数,分数系数更加提高对support与query中对分类有益特征的关注度,提升分类的准确度,在进行距离计算的时,将欧氏距离乘上获得的注意力分数系统后,对高维度稀疏矩阵中的重要特征有强调作用,d(i,q)=(Si-Q1)2*αi,表示查询向量与第i个类别的样本空间距离,所求出的距离也更加准去,从而获得的分类结果也更加准确。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210593432.2A CN115033689B (zh) | 2022-05-27 | 2022-05-27 | 一种基于小样本文本分类原型网络欧氏距离计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210593432.2A CN115033689B (zh) | 2022-05-27 | 2022-05-27 | 一种基于小样本文本分类原型网络欧氏距离计算方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115033689A CN115033689A (zh) | 2022-09-09 |
CN115033689B true CN115033689B (zh) | 2023-04-18 |
Family
ID=83121738
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210593432.2A Active CN115033689B (zh) | 2022-05-27 | 2022-05-27 | 一种基于小样本文本分类原型网络欧氏距离计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115033689B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115994527B (zh) * | 2023-03-23 | 2023-06-09 | 广东聚智诚科技有限公司 | 一种基于机器学习的ppt自动生成系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110020682A (zh) * | 2019-03-29 | 2019-07-16 | 北京工商大学 | 一种基于小样本学习的注意力机制关系对比网络模型方法 |
CN112528928A (zh) * | 2020-12-22 | 2021-03-19 | 燕山大学 | 一种基于自注意力深度网络的商品识别方法 |
CN112765315A (zh) * | 2021-01-18 | 2021-05-07 | 燕山大学 | 一种法律场景智能分类系统和方法 |
CN112784031A (zh) * | 2021-01-29 | 2021-05-11 | 湖南大学 | 一种基于小样本学习的客服对话文本的分类方法和系统 |
CN113505225A (zh) * | 2021-07-08 | 2021-10-15 | 东北大学 | 一种基于多层注意力机制的小样本医疗关系分类方法 |
CN113535953A (zh) * | 2021-07-15 | 2021-10-22 | 湖南大学 | 一种基于元学习的少样本分类方法 |
CN114067160A (zh) * | 2021-11-22 | 2022-02-18 | 重庆邮电大学 | 基于嵌入平滑图神经网络的小样本遥感图像场景分类方法 |
CN114117039A (zh) * | 2021-11-08 | 2022-03-01 | 厦门快商通科技股份有限公司 | 一种小样本文本分类方法及模型 |
CN114494195A (zh) * | 2022-01-26 | 2022-05-13 | 南通大学 | 用于眼底图像分类的小样本注意力机制并行孪生方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210004700A1 (en) * | 2019-07-02 | 2021-01-07 | Insurance Services Office, Inc. | Machine Learning Systems and Methods for Evaluating Sampling Bias in Deep Active Classification |
CN112270379B (zh) * | 2020-11-13 | 2023-09-19 | 北京百度网讯科技有限公司 | 分类模型的训练方法、样本分类方法、装置和设备 |
-
2022
- 2022-05-27 CN CN202210593432.2A patent/CN115033689B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110020682A (zh) * | 2019-03-29 | 2019-07-16 | 北京工商大学 | 一种基于小样本学习的注意力机制关系对比网络模型方法 |
CN112528928A (zh) * | 2020-12-22 | 2021-03-19 | 燕山大学 | 一种基于自注意力深度网络的商品识别方法 |
CN112765315A (zh) * | 2021-01-18 | 2021-05-07 | 燕山大学 | 一种法律场景智能分类系统和方法 |
CN112784031A (zh) * | 2021-01-29 | 2021-05-11 | 湖南大学 | 一种基于小样本学习的客服对话文本的分类方法和系统 |
CN113505225A (zh) * | 2021-07-08 | 2021-10-15 | 东北大学 | 一种基于多层注意力机制的小样本医疗关系分类方法 |
CN113535953A (zh) * | 2021-07-15 | 2021-10-22 | 湖南大学 | 一种基于元学习的少样本分类方法 |
CN114117039A (zh) * | 2021-11-08 | 2022-03-01 | 厦门快商通科技股份有限公司 | 一种小样本文本分类方法及模型 |
CN114067160A (zh) * | 2021-11-22 | 2022-02-18 | 重庆邮电大学 | 基于嵌入平滑图神经网络的小样本遥感图像场景分类方法 |
CN114494195A (zh) * | 2022-01-26 | 2022-05-13 | 南通大学 | 用于眼底图像分类的小样本注意力机制并行孪生方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115033689A (zh) | 2022-09-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11631007B2 (en) | Method and device for text-enhanced knowledge graph joint representation learning | |
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN110502749B (zh) | 一种基于双层注意力机制与双向gru的文本关系抽取方法 | |
CN111966917B (zh) | 一种基于预训练语言模型的事件检测与摘要方法 | |
CN109165294B (zh) | 一种基于贝叶斯分类的短文本分类方法 | |
CN110321563B (zh) | 基于混合监督模型的文本情感分析方法 | |
CN111160037A (zh) | 一种支持跨语言迁移的细粒度情感分析方法 | |
CN112256866B (zh) | 一种基于深度学习的文本细粒度情感分析算法 | |
CN112732916A (zh) | 一种基于bert的多特征融合模糊文本分类模型 | |
CN109492230B (zh) | 一种基于感兴趣文本域卷积神经网络提取保险合同关键信息的方法 | |
CN107391565B (zh) | 一种基于主题模型的跨语言层次分类体系匹配方法 | |
CN111143567B (zh) | 一种基于改进神经网络的评论情感分析方法 | |
CN107688870A (zh) | 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置 | |
CN109101490B (zh) | 一种基于融合特征表示的事实型隐式情感识别方法和系统 | |
CN111984791A (zh) | 一种基于注意力机制的长文分类方法 | |
CN112800774A (zh) | 基于注意力机制的实体关系抽取方法、装置、介质和设备 | |
CN111259140A (zh) | 一种基于lstm多实体特征融合的虚假评论检测方法 | |
CN113360582B (zh) | 基于bert模型融合多元实体信息的关系分类方法及系统 | |
CN113051914A (zh) | 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 | |
CN112561718A (zh) | 基于BiLSTM权重共享的案件微博评价对象情感倾向性分析方法 | |
CN112131453A (zh) | 一种基于bert的网络不良短文本检测方法、装置及存储介质 | |
CN114328939B (zh) | 基于大数据的自然语言处理模型构建方法 | |
CN115033689B (zh) | 一种基于小样本文本分类原型网络欧氏距离计算方法 | |
CN116246279A (zh) | 一种基于clip背景知识的图文特征融合方法 | |
CN111353032A (zh) | 面向社区问答的问题分类方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |