CN113988002A - 一种基于神经聚类方法的近似注意力系统及方法 - Google Patents
一种基于神经聚类方法的近似注意力系统及方法 Download PDFInfo
- Publication number
- CN113988002A CN113988002A CN202111344579.XA CN202111344579A CN113988002A CN 113988002 A CN113988002 A CN 113988002A CN 202111344579 A CN202111344579 A CN 202111344579A CN 113988002 A CN113988002 A CN 113988002A
- Authority
- CN
- China
- Prior art keywords
- matrix
- vector
- centroid
- word
- word vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 230000001537 neural effect Effects 0.000 title claims abstract description 49
- 239000013598 vector Substances 0.000 claims abstract description 243
- 230000007246 mechanism Effects 0.000 claims abstract description 29
- 239000011159 matrix material Substances 0.000 claims description 180
- 238000004364 calculation method Methods 0.000 claims description 15
- 230000002452 interceptive effect Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 238000005259 measurement Methods 0.000 claims description 4
- 238000011524 similarity measure Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 5
- 230000000694 effects Effects 0.000 abstract description 4
- 238000012549 training Methods 0.000 description 12
- 238000002474 experimental method Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 230000001133 acceleration Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004836 empirical method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/45—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Mathematical Analysis (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Computational Mathematics (AREA)
- Biomedical Technology (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于神经聚类方法的近似注意力系统及方法,该系统包括基于神经聚类方法的词向量聚类模块,基于神经聚类方法的近似注意力模块,注意力输出模块;所述词向量聚类模块使用神经聚类方法将词向量进行聚类并对质心向量进行更新;所述近似注意力模块通过将词向量用相应质心向量代替去近似全局注意力机制,并通过公式化简达到提升模型效率(时间和显存)的效果;注意力输出模块结合残差结构以及标准化操作,对词向量的最终表示和质心向量的最终表示作进一步的处理,以提高模型的性能;本发明克服了基于自注意力机制的Transformer系统复杂度高,运行速度慢,以及显存占用大的问题。
Description
技术领域
本发明涉及语言系统加速技术领域和文本分类,尤其涉及一种基于神经聚类方法的近似注意力系统及方法。
技术背景
自注意力(self-attention,SAM)系统在自然语言处理领域有着广泛的应用,如文本分类、机器翻译、预训练语言系统等。然而,其核心结构自注意力机制需要计算一个序列中,任意两个词之间的依赖关系,因此会产生序列长度平方级的复杂度,这使得长序列任务在训练上面临极大的挑战性。为了解决这个问题,研究人员做了大量的研究工作。在这些工作中,主要研究方向之一是利用稀疏注意逼近序列二次方代价的注意力,同时保持有效性。
一些早期的工作已经提出,通过限制query只关注在附近或在固定的间隔上的keys来降低时间复杂度,如Blockwise Transformer[1]、Sparse Transformer[2]、Longformer[3]等。这种固定稀疏模式的方法降低了自注意力系统的复杂度,但是没有考虑querys与不同keys之间的相似性,直接根据keys的位置对词向量进行过滤,限制了其从长序列上下文中收集关键信息的能力,这使得该方法在平衡系统性能和效率之间存在一定的局限性,仍有待改进。
随着研究的不断深入,聚类算法被用于自注意力机制中去实现可学习的稀疏模式。例如,Routing Transformer[4]和Reformer[5]分别引入了K-Means算法和局部敏感哈希算法(LSH)。Routing Transformer是基于K-Means聚类算法的系统,在其RoutedAttention机制中,词向量会首先和所有质心进行相似度计算,然后我们以质心为基点,选取和其最相似的K个词向量成为当前类。然后再在每个类内完成attention机制的计算。这种方法将复杂度降低到了但是值得注意的是聚类过程和系统训练过程是相互分离的,且K-Means聚类算法本身就存在一些局限性,这使得系统在性能的进一步提高上存了一定的局限性,该方法仍有待改进。
最近,一种基于神经网络的聚类方法也被提了出来,这种方法不仅在性能上优于传统聚类算法,而且可以解决传统聚类算法用于深度神经网络系统的任务分离问题。基于这种方法,在我们工作中试图探索一种高性能且高效率的注意力系统。
本发明使用神经聚类方法对词向量聚类而获得各簇质心。然后将Key和Value矩阵中的词向量用相应的质心向量来近似代替,使得Key和Value矩阵的维度从N×d→k×d(k为质心的数量),然后将降维后的Key和Value矩阵参与到注意力机制中的计算,从而达到了降低系统复杂度,减少大量计算的目的。另外相比于目前基于稀疏化的系统,该方法可以将神经聚类方法与Transformer[6]模型系统进行集成,将聚类任务和目标任务进行联合训练和优化,使二者任务相互受益,效果显著提高。
[参考文献]
[1]JiezhongQiu,Hao Ma,Omer Levy,and Wen-tau Yih.Blockwise self-attention for long document understanding.In Proceedings of the2020Conference on Empirical Methods in Natural Language Processing:Findings,EMNLP 2020,Online Event,16-20November 2020,pages 2555–2565.Association forComputational Linguistics,2020.
[2]Rewon Child,Scott Gray,Alec Radford,and Ilya Sutskever.Generatinglong sequences with sparse transformers.CoRR,abs/1904.10509,2019.
[3]IzBeltagy,Matthew E.Peters,and Arman Cohan.Longformer:The long-document transformer.CoRR,abs/2004.05150,2020.
[4]Aurko Roy,Mohammad Saffar,Ashish Vaswani,and DavidGrangier.Efficient content-based sparse attention with routing transformers.Trans.Assoc.Comput.Linguistics,9:53–68,2021.
[5]Nikita Kitaev,Lukasz Kaiser,and Anselm Levskaya.Reformer:Theefficient transformer.In ICLR 2020:Eighth International Conference onLearning Representations,2020.
[6]Ashish Vaswani,Noam Shazeer,Niki Parmar,Jakob Uszkoreit,and LlionJones.Attention is all you need.In Advances in Neural Information ProcessingSystems 30:Annual Conference on Neural Information Processing Systems 2017,December 4-9,2017,Long Beach,CA,USA,pages 5998–6008,2017.
发明内容
本发明提供了一种基于神经聚类方法的近似注意力系统,首先对输入数据使用神经聚类算法进行聚类处理,得到一组质心向量。然后使用一组质心向量来近似注意力机制中的Key和Value词向量矩阵,并与经过线性变化的词向量矩阵Query进行交互计算,从而减少了系统中大量的计算量,并且节省了大量显存,使得在有限的资源设备上也可以进行长序列任务的实验。
为了解决上述技术问题,本发明提供以下技术方案:
一种基于神经聚类方法的近似注意力系统,所述系统包括基于神经聚类方法的词向量聚类模块、基于神经聚类方法的近似注意力模块和注意力输出模块;
所述基于神经聚类方法的词向量聚类模块用于对文本中词向量以相似度为标准进行聚类,并对质心向量进行更新,获得质心向量矩阵表示;其中:
将质心向量矩阵和词向量矩阵进行矩阵相乘,获得一个权重矩阵,其中矩阵中每列元素值代表词向量和各个质心的隶属度值,隶属度值表示词向量隶属于各个质心的程度;
将隶属度值作为权重系数去更新质心向量,再将更新后的质心向量与最初的质心向量进行相加,经Normalize操作获得质心向量的最终表示;
词向量聚类模块的最终输出为更新后的质心向量矩阵,且每个质心向量的更新都融合了全部词向量信息;
所述基于神经聚类方法的近似注意力模块将词向量用相应质心向量代替去近似全局注意力方法,其中:
将词向量矩阵经过线性变换获得Query矩阵;在神经聚类中通过对词向量矩阵聚类获得了新的质心向量矩阵;
用相应的质心向量去近似代替attention机制中的Key,Value矩阵中的词向量,并结合attention机制中的相关计算操作将近似后的Key,Value矩阵中相同词向量进行合并,使得Key和Value矩阵的维度从N×d降至k×d;之后让获得的Query,Key和Value矩阵进行交互,获得词向量新的语义表示;
所述自注意力输出模块用于输出词向量的最终表示和质心向量的最终表示;其中:
将在近似注意力模块获得的词向量新的语义表示经过一个全连接层,并且与最初的词向量矩阵进行相加,之后再经过Normalize操作获得词向量的最终表示;
将在词向量聚类模块获得的质心向量的最终表示作为另一部分输出。
本发明还可以采用如下技术方案进行:
所述词向量聚类模块用于对文本中词向量以相似度(内积)为标准进行聚类,并对质心向量进行更新,获得质心向量矩阵表示;其中:
初始化一组质心向量矩阵C将初始化的质心向量矩阵C和词向量矩阵X进行矩阵相乘,并经过Softmax归一化操作,得到一个隶属度矩阵U(维度为:k×N),矩阵中每个元素值代表一个词向量隶属于一个质心向量的程度值;
将隶属度矩阵U和词向量矩阵X进行矩阵相乘,获得第二质心向量组;
通过如下公式用第二隶属度矩阵U′对原始词向量矩阵进行聚类获得词向量所属的质心索引矩阵I′j;
I′j=Argmax(U′:j)
通过如下公式对词向量质心索引矩阵I′j中每个簇内的成员数量进行统计获得第二词向量质心索引矩阵Ic
Ic=Count(I′)
将原始词向量矩阵X与经过线性映射获得Query矩阵,用第二质心向量矩阵近似代替词向量矩阵,结合簇成员数量矩阵Ic和注意力机制操作原理进行公式化简化获得Key,Value矩阵;
Q=XWX
所述近似注意力机制模块将词向量用相应质心向量代替去近似全局注意力机制,其中:将Query,key和Value矩阵进行注意力机制式的交互计算,获得词向量的语义表达矩阵Z
所述注意力输出模块将词向量的语义表达矩阵Z经过一个全连接层获得新的词向量矩阵;将最初的词向量矩阵X与该词向量矩阵进行相加,再经过Normalize标准化获得最终的词向量矩阵O。
有益效果
1、本发明是基于神经聚类方法的近似注意力机制,根据词向量矩阵获得一组质心向量,用质心向量代替相应的词向量去近似原始词向量矩阵,并通过公式简化,最终在保持系统性能无损失的情况下大大减少了系统的计算量,实现了系统加速,并且节省了大量显存。
2、本发明公开了一种基于神经聚类方法的近似注意力系统及方法,该系统包括基于神经聚类方法的词向量聚类模块,基于神经聚类方法的近似注意力模块,输出模块;所述词向量聚类模块通过使用神经聚类方法将词向量进行聚类并对质心向量进行更新,该算法可以被无缝集成到神经网络架构中,将聚类任务和目标任务进行联合训练和优化,以提高融合系统的有效性;所述近似注意力模块将词向量矩阵经过线性映射后作为Query矩阵,将词向量用相应的质心来近似代替后将其作为Key,Value矩阵输入到注意力机制中。之后将Key和Value矩阵进行公式简化,使得Key和Value矩阵的维度从N×d→k×d(k为质心的数量),然后再将降维后的Key,Value矩阵与Query矩阵进行交互计算,来获得输入的新的语义表示。本发明降低了系统复杂度,且相比于原始的自注意力机制,大大减少了计算量。最后输出模块结合残差结构以及标准化操作,对词向量的最终表示和质心向量的最终表示作进一步的处理,以提高系统的性能。本发明克服了基于自注意力机制的Transformer模型系统复杂度高,运行速度慢,以及显存占用大的问题。
3、与现有技术相比,本发明的技术方案所带来的有益效果是:本发明将神经聚类方法与神经网络系统Transformer进行集成,从而设计了神经聚类注意机制来重构自注意力机制,使得系统的复杂度降至O(Nkd),从性能和效率两方面改善了自注意力系统,实现了系统加速和显存节省。另外,我们在自然语言推理任务、文本匹配任务与文本分类任务上验证了我们的系统。其中,在文本分类的IMDB数据集任务上,我们的系统相比Transformer系统,准确率提高了0.5%,并且显存节省了33.7%。此外,训练时间节省了32.4%。通过以上实验,我们发现我们的系统无论是在有效性方面还是在效率方面,相比于基线系统(Transformer、Reformer、Routing Transformer)都存在很大的优势。
附图说明
图1为本发明基于神经聚类方法的近似注意力机制流程图
图2为一种基于神经网络的聚类系统的系统结构图
图3为一种基于神经聚类方法的近似注意力系统的系统结构图。
具体实施方式
下面结合附图,对本发明的技术方案进行详细描述。本领域人员可知,随着技术发展和新场景的出现,本发明的技术方案对于类似的技术问题,同样适用。
如图1~图3所示,本发明提供了一种基于神经聚类方法的近似注意力系统,所述系统包括基于神经聚类方法的词向量聚类模块、基于神经聚类方法的近似注意力模块和注意力输出模块。
所述词向量聚类模块用于对文本中词向量以相似度(内积)为标准进行聚类,并对质心向量进行更新,获得质心向量矩阵表示;其中:
初始化一组质心向量矩阵C(维度为:k×Dmodel,k为质心数量),将初始化的质心向量矩阵C和词向量矩阵X进行矩阵相乘,并经过Softmax归一化操作,得到一个隶属度矩阵U(维度为:k×N),矩阵中每个元素值代表一个词向量隶属于一个质心向量的程度值;
将隶属度矩阵U和词向量矩阵X进行矩阵相乘,获得第二质心向量组;
即:将隶属度值作为权重系数,并且通过对词向量进行加权求和获得更新后的质心向量矩阵;将初始质心向量矩阵与更新后的质心向量矩阵相加,并进行Normalize标准化操作,获得最终的质心向量矩阵C(维度为:k×Dmodel),输出该向量;
将更新后的质心向量矩阵和词向量矩阵进行相乘,得到一个新的隶属度矩阵,然后使用此隶属度矩阵对原始词向量进行聚类,从而获得词向量所述之心的质心索引矩阵,通过索引矩阵获得簇内成员数量统计矩阵,输出该矩阵。其中:
通过如下公式用第二隶属度矩阵U′对原始词向量矩阵进行聚类获得词向量所属的质心索引矩阵I′j;
I′j=Argmax(U′:j)
通过如下公式对词向量质心索引矩阵I′j中每个簇内的成员数量进行统计获得簇成员数量矩阵Ic;
Ic=Count(I′)
将原始词向量矩阵X与经过线性映射获得Query矩阵,用第二质心向量矩阵近似代替词向量矩阵,结合簇成员数量矩阵Ic和注意力机制操作原理进行公式化简化获得Key,Value矩阵;
Q=XWX
近似注意力机制模块将词向量用相应质心向量代替去近似全局注意力机制,并通过公式化简达到提升系统效率(时间和显存)的效果;在词向量聚类模块中获得了新的质心向量矩阵,然后将Key,Value矩阵中的词向量用相应的质心向量代替近似,并将近似后的Key和Value矩阵进行化简,即矩阵中重复的词向量仅保留一个;
将在词向量聚类模块获得的簇内成员数量统计矩阵与化简后的Key矩阵进行对应相乘;将词向量经过线性变换后作为Query;之后将Query、Key和簇内成员数量统计矩阵先进行相乘,获得注意力矩阵S,再将矩阵S与Value矩阵进行相乘,获得词向量的新的语义表示Z,输出该向量。
将Query,key和Value矩阵进行注意力机制式的交互计算,获得新的词向量的语义表达
注意力输出模块对最终的输出做进一步处理,包括输出词向量的最终表示和质心向量的最终表示;将在近似注意力机制模块获得的输出Z经过一个全连接层后得到新的词向量表示;将新的词向量表示与最初的词向量矩阵相加,在经过Normalize标准化操作,获得最终的词向量的语义表示O;将在词向量聚类模块获得的质心向量矩阵C作为另一部分输出;因此,输出模块的输出包括最终的词向量的语义表示O和质心向量矩阵C。
将上一步中获得的词向量矩阵Z经过一个全连接层(维度为:Dhead×Dmodel),获得新的词向量矩阵;将最初的词向量矩阵X与该词向量矩阵进行相加,再经过Normalize标准化获得最终的词向量矩阵O。
见图1显示了本方法的流程图;本发明的具体步骤如下:
(2)将词向量矩阵X与质心向量组C进行相乘,并经过Softmax的归一化操作,获得隶属度矩阵U;相应的公式如下:
(5)然后用第二隶属度矩阵U′对原始词向量矩阵进行聚类获得词向量所属的质心索引矩阵I′j;
I′j=Argmax(U′:j)
(6)在获得了索引矩阵之后,我们需要对每个簇内的成员数量进行统计,公式具体如下。
Ic=Count(i′)
(7)然后将原始词向量矩阵X与经过线性映射获得Query矩阵,用第二质心向量矩阵近似代替词向量矩阵,结合簇成员数量矩阵Ic和注意力机制操作原理进行公式化简化获得得到Key(维度为:k×Dhead),Value(维度为:k×Dhead)矩阵。
(8)将Query,key和Value矩阵进行注意力机制式的交互计算,获得新的词向量的语
(9)将上一步中获得的词向量矩阵Z经过一个全连接层(维度为:Dhead×Dmodel),获得新的词向量矩阵;将最初的词向量矩阵X与该词向量矩阵进行相加,再经过Normalize标准化获得最终的词向量矩阵O。
本发明在多个数据集上进行有效性和效率验证,分别为在SNLI、SciTail数据集上的自然语言处理任务,在Quora、WikiQA数据集上的文本匹配任务和在IMDB数据集上的分类任务。首先介绍文本自然语言推理与文本匹配任务,关于数据集,SNLI数据集是自然语言推理的基准数据集,并且其包含5万对带有四种标签的人工注释的句子。SciTail数据集是一个由科学问题和答案构成的蕴涵数据集。因为科学事实不能相互矛盾,所以此数据集只有两种标签,蕴涵和中性。Quora数据集是一个用于释义识别的数据集,用两个类(是否)来表示一个问题是否是另一个问题的释义。WikiQA数据集是一个基于维基百科检索的问答数据集。它包含一些问题和对应的候选答案,并用0和1表示答案和问题是否匹配,它由20.4K的训练集,2.7K的验证集和6.2K的测试集组成。
本发明在实验中,SNLI、SciTail和Quora数据集的评价指标为准确率(Accuracy)。WikiQA数据集采用Mean Average Precision(MAP)和Mean Reciprocal Rank(MRR)作为评价指标。对于SNIL和Quora数据集,词向量是由300维的GloVe初始化的。而SciTail和WikiQA数据集,我们使用随机的方法进行词向量的初始化,初始化的词向量维度为300。关于实验的参数设置如下:编码器的层数L设置为1,注意力头的个数设置为6,质心数量k设置为5,具体实验结果如下。
表1各系统在自然语言推理(NLI)和文本匹配的实验结果
Model | SNLI | SciTail | Quora | WikiQA(map) | WikiQA(mrr) |
DELTA | 80.7 | _ | _ | _ | _ |
Bigram-CNN | _ | _ | _ | 0.619 | 0.628 |
Transformer | 83.7 | 76.6 | 85.4 | 0.601 | 0.613 |
Reformer | 78.6 | 67.3 | 74.3 | 0.587 | 0.603 |
Routing Transformer | 76.3 | 72.6 | 81.5 | 0.560 | 0.574 |
Our Method | 84.6 | 77.1 | 85.6 | 0.644 | 0.663 |
如上表所示,我们的系统在所有数据集上都取得了最好的结果。相比于基线系统Transformer、Reformer、Routing Transformer,在SNLI、SciTail和Quora数据集上,我们系统的准确率至少提高了1.1%,0.7%和0.2%。在WikiQA数据集上,我们的系统在MAP和MRR评价指标上至少提高了7.2%和8.2%。从以上实验结果可知,相比于标准Transformer以及相关的稀疏化系统Routing Transformer,我们的系统仍然体现出了明显的性能优势。
接下来介绍文本分类任务,本发明在长序列数据集IMDB数据集上进行文本分类实验。下面对数据集进行简单介绍。IMDB数据集数是一个电影评论数据集,任务是预测电影评论是正面还是负面。IMDB数据集包含了训练集,验证集和测试集。关于数据集的统计情况如下表所示。
表2数据集信息统计
我们使用准确率(Accuracy)作为它的有效性评价指标,显存(Memory)和训练时间(Training Time)作为它的效率评价指标。关于实验的参数设置如下:编码器的层数L设置为2,系统的维度d设置为300,注意力头的个数设置为4,质心数量k为4,具体实验结果如下。
表3各系统在文本分类任务IMDB数据集上的实验
Model | Val Acc(%) | Test Acc(%) | Memory(MiB) | Training Time(s) |
Transformer | 88.3 | 86.4 | 4137 | 194.7 |
Reformer | 86.4 | 85.4 | 3733 | 232.6 |
Routing Transformer | 87.5 | 85.5 | 3689 | 185.4 |
Our Method | 88.4 | 86.8 | 2743 | 131.6 |
如表所示,我们的方法在IMDB数据集具有最好的结果。相比于Transformer,Reformer和Routing Transformer,我们系统的准确率分别提高0.5%,1.7%和1.5%。并且显存分别节省了33.7%,26.5%和25.6%。此外,训练时间分别节省了32.4%,43.4%和29.0%。从以上分析可知,我们的系统相比于基线系统,无论是在效果还是在效率(训练时间和显存)上都有很大的优势。
本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案,上述的具体实施仅仅是示意性的,并不是限制性的。在不脱离本发明总之和权力要求所保护的范围情况下,本领域的普通技术人员在本发明的其实下还可做出很多形式的具体变换,这些均属于本发明的保护范围之内。
Claims (2)
1.一种基于神经聚类方法的近似注意力系统,其特征在于:所述系统包括基于神经聚类方法的词向量聚类模块、基于神经聚类方法的近似注意力模块和注意力输出模块;
所述基于神经聚类方法的词向量聚类模块用于对文本中词向量以相似度为标准进行聚类,并对质心向量进行更新,获得质心向量矩阵表示;其中:
将质心向量矩阵和词向量矩阵进行矩阵相乘,获得一个权重矩阵,其中矩阵中每列元素值代表词向量和各个质心的隶属度值,隶属度值表示词向量隶属于各个质心的程度;
将隶属度值作为权重系数去更新质心向量,再将更新后的质心向量与最初的质心向量进行相加,经Normalize操作获得质心向量的最终表示;
词向量聚类模块的最终输出为更新后的质心向量矩阵,且每个质心向量的更新都融合了全部词向量信息;
所述基于神经聚类方法的近似注意力模块将词向量用相应质心向量代替去近似全局注意力方法,其中:
将词向量矩阵经过线性变换获得Query矩阵;在神经聚类中通过对词向量矩阵聚类获得了新的质心向量矩阵;
用相应的质心向量去近似代替attention机制中的Key,Value矩阵中的词向量,并结合注意力机制中的相关计算操作将近似后的Key,Value矩阵中相同词向量进行合并,使得Key和Value矩阵的维度从N×d降至k×d;之后让获得的Query,Key和Value矩阵进行交互,获得词向量新的语义表示;
所述自注意力输出模块用于输出词向量的最终表示和质心向量的最终表示;其中:
将在近似注意力模块获得的词向量新的语义表示经过一个全连接层,并且与最初的词向量矩阵进行相加,之后再经过Normalize操作获得词向量的最终表示;
将在词向量聚类模块获得的质心向量的最终表示作为另一部分输出。
2.采用如权利要求1所述的系统进行神经聚类近似注意力的方法,其特征在于:
所述词向量聚类模块用于对文本中词向量以相似度为标准进行聚类,并对质心向量进行更新,获得质心向量矩阵表示;其中:
初始化一组质心向量矩阵C将初始化的质心向量矩阵C和词向量矩阵X进行矩阵相乘,并经过Softmax归一化操作,得到一个隶属度矩阵U,矩阵中每个元素值代表一个词向量隶属于一个质心向量的程度值;
将隶属度矩阵U和词向量矩阵X进行矩阵相乘,获得第二质心向量组;
通过如下公式用第二隶属度矩阵U′对原始词向量矩阵进行聚类获得词向量所属的质心索引矩阵I′j;
I′j=Argmax(U:′j)
通过如下公式对词向量质心索引矩阵I′j中每个簇内的成员数量进行统计获得簇成员数量矩阵Ic;
Ic=Count(I′)
将原始词向量矩阵X与经过线性映射获得Query矩阵,用第二质心向量矩阵近似代替词向量矩阵,结合簇成员数量矩阵Ic和注意力机制操作原理进行公式化简化获得Key,Value矩阵;
Q=XWX
近似注意力机制模块将词向量用相应质心向量代替去近似全局注意力机制,其中:将Query,key和Value矩阵进行注意力机制式的交互计算,获得词向量的语义表达矩阵Z
注意力输出模块将词向量的语义表达矩阵Z经过一个全连接层获得新的词向量矩阵;将最初的词向量矩阵X与该词向量矩阵进行相加,再经过Normalize标准化获得最终的词向量矩阵O。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111344579.XA CN113988002B (zh) | 2021-11-15 | 2021-11-15 | 一种基于神经聚类方法的近似注意力系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111344579.XA CN113988002B (zh) | 2021-11-15 | 2021-11-15 | 一种基于神经聚类方法的近似注意力系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113988002A true CN113988002A (zh) | 2022-01-28 |
CN113988002B CN113988002B (zh) | 2024-06-14 |
Family
ID=79748387
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111344579.XA Active CN113988002B (zh) | 2021-11-15 | 2021-11-15 | 一种基于神经聚类方法的近似注意力系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113988002B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114548321A (zh) * | 2022-03-05 | 2022-05-27 | 昆明理工大学 | 基于对比学习的自监督舆情评论观点对象分类方法 |
CN117392760A (zh) * | 2023-12-12 | 2024-01-12 | 河海大学 | 一种基于折半交叉网络的健康指导方法和系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011227688A (ja) * | 2010-04-20 | 2011-11-10 | Univ Of Tokyo | テキストコーパスにおける2つのエンティティ間の関係抽出方法及び装置 |
CN109948165A (zh) * | 2019-04-24 | 2019-06-28 | 吉林大学 | 基于混合注意力网络的细粒度情感极性预测方法 |
CN110727765A (zh) * | 2019-10-10 | 2020-01-24 | 合肥工业大学 | 基于多注意力机制的问题分类方法、系统及存储介质 |
CN111797196A (zh) * | 2020-06-01 | 2020-10-20 | 武汉大学 | 一种结合注意力机制lstm和神经主题模型的服务发现方法 |
US20200356724A1 (en) * | 2019-05-06 | 2020-11-12 | University Of Electronic Science And Technology Of China | Multi-hop attention and depth model, method, storage medium and terminal for classification of target sentiments |
CN113204640A (zh) * | 2021-04-02 | 2021-08-03 | 南京邮电大学 | 一种基于注意力机制的文本分类方法 |
-
2021
- 2021-11-15 CN CN202111344579.XA patent/CN113988002B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011227688A (ja) * | 2010-04-20 | 2011-11-10 | Univ Of Tokyo | テキストコーパスにおける2つのエンティティ間の関係抽出方法及び装置 |
CN109948165A (zh) * | 2019-04-24 | 2019-06-28 | 吉林大学 | 基于混合注意力网络的细粒度情感极性预测方法 |
US20200356724A1 (en) * | 2019-05-06 | 2020-11-12 | University Of Electronic Science And Technology Of China | Multi-hop attention and depth model, method, storage medium and terminal for classification of target sentiments |
CN110727765A (zh) * | 2019-10-10 | 2020-01-24 | 合肥工业大学 | 基于多注意力机制的问题分类方法、系统及存储介质 |
CN111797196A (zh) * | 2020-06-01 | 2020-10-20 | 武汉大学 | 一种结合注意力机制lstm和神经主题模型的服务发现方法 |
CN113204640A (zh) * | 2021-04-02 | 2021-08-03 | 南京邮电大学 | 一种基于注意力机制的文本分类方法 |
Non-Patent Citations (2)
Title |
---|
张宇昂;贾云鹏;刘家鹏;: "一种多特征融合的长文本分类方法", 中国电子科学研究院学报, no. 09, 20 September 2020 (2020-09-20) * |
贾红雨;王宇涵;丛日晴;林岩;: "结合自注意力机制的神经网络文本分类算法研究", 计算机应用与软件, no. 02, 12 February 2020 (2020-02-12) * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114548321A (zh) * | 2022-03-05 | 2022-05-27 | 昆明理工大学 | 基于对比学习的自监督舆情评论观点对象分类方法 |
CN117392760A (zh) * | 2023-12-12 | 2024-01-12 | 河海大学 | 一种基于折半交叉网络的健康指导方法和系统 |
CN117392760B (zh) * | 2023-12-12 | 2024-04-23 | 河海大学 | 一种基于折半交叉网络的健康指导方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113988002B (zh) | 2024-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xie et al. | Hyper-Laplacian regularized multilinear multiview self-representations for clustering and semisupervised learning | |
An et al. | Accurate text-enhanced knowledge graph representation learning | |
CN109299341B (zh) | 一种基于字典学习的对抗跨模态检索方法和系统 | |
Li et al. | Nonnegative matrix factorizations for clustering: A survey | |
Hofmann | The cluster-abstraction model: Unsupervised learning of topic hierarchies from text data | |
Zhang et al. | Unsupervised nonnegative adaptive feature extraction for data representation | |
Salamat et al. | Accelerating hyperdimensional computing on fpgas by exploiting computational reuse | |
CN113988002B (zh) | 一种基于神经聚类方法的近似注意力系统及方法 | |
CN106959946B (zh) | 一种基于深度学习的文本语义特征生成优化方法 | |
Liu et al. | Multichannel cnn with attention for text classification | |
Yuan et al. | One-shot learning for fine-grained relation extraction via convolutional siamese neural network | |
Peng et al. | Maximum entropy subspace clustering network | |
Lian et al. | Product quantized collaborative filtering | |
Kafle et al. | An overview of utilizing knowledge bases in neural networks for question answering | |
Zhao et al. | Interactive attention networks for semantic text matching | |
Bai et al. | Bilinear Semi-Tensor Product Attention (BSTPA) model for visual question answering | |
Zhen et al. | The research of convolutional neural network based on integrated classification in question classification | |
Meng et al. | Concept-concept association information integration and multi-model collaboration for multimedia semantic concept detection | |
Jurgovsky et al. | Evaluating memory efficiency and robustness of word embeddings | |
Chu et al. | Refined SBERT: Representing sentence BERT in manifold space | |
Feng et al. | Ontology semantic integration based on convolutional neural network | |
Mugeni et al. | A graph-based blocking approach for entity matching using contrastively learned embeddings | |
Azzam et al. | A question routing technique using deep neural network for communities of question answering | |
Quispe et al. | Latent semantic indexing and convolutional neural network for multi-label and multi-class text classification | |
Liu et al. | Learning distilled graph for large-scale social network data clustering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |