CN113988002A - 一种基于神经聚类方法的近似注意力系统及方法 - Google Patents

一种基于神经聚类方法的近似注意力系统及方法 Download PDF

Info

Publication number
CN113988002A
CN113988002A CN202111344579.XA CN202111344579A CN113988002A CN 113988002 A CN113988002 A CN 113988002A CN 202111344579 A CN202111344579 A CN 202111344579A CN 113988002 A CN113988002 A CN 113988002A
Authority
CN
China
Prior art keywords
matrix
vector
centroid
word
word vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111344579.XA
Other languages
English (en)
Other versions
CN113988002B (zh
Inventor
张鹏
王宁宁
甘国兵
张帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202111344579.XA priority Critical patent/CN113988002B/zh
Publication of CN113988002A publication Critical patent/CN113988002A/zh
Application granted granted Critical
Publication of CN113988002B publication Critical patent/CN113988002B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于神经聚类方法的近似注意力系统及方法,该系统包括基于神经聚类方法的词向量聚类模块,基于神经聚类方法的近似注意力模块,注意力输出模块;所述词向量聚类模块使用神经聚类方法将词向量进行聚类并对质心向量进行更新;所述近似注意力模块通过将词向量用相应质心向量代替去近似全局注意力机制,并通过公式化简达到提升模型效率(时间和显存)的效果;注意力输出模块结合残差结构以及标准化操作,对词向量的最终表示和质心向量的最终表示作进一步的处理,以提高模型的性能;本发明克服了基于自注意力机制的Transformer系统复杂度高,运行速度慢,以及显存占用大的问题。

Description

一种基于神经聚类方法的近似注意力系统及方法
技术领域
本发明涉及语言系统加速技术领域和文本分类,尤其涉及一种基于神经聚类方法的近似注意力系统及方法。
技术背景
自注意力(self-attention,SAM)系统在自然语言处理领域有着广泛的应用,如文本分类、机器翻译、预训练语言系统等。然而,其核心结构自注意力机制需要计算一个序列中,任意两个词之间的依赖关系,因此会产生序列长度平方级的复杂度,这使得长序列任务在训练上面临极大的挑战性。为了解决这个问题,研究人员做了大量的研究工作。在这些工作中,主要研究方向之一是利用稀疏注意逼近序列二次方代价的注意力,同时保持有效性。
一些早期的工作已经提出,通过限制query只关注在附近或在固定的间隔上的keys来降低时间复杂度,如Blockwise Transformer[1]、Sparse Transformer[2]、Longformer[3]等。这种固定稀疏模式的方法降低了自注意力系统的复杂度,但是没有考虑querys与不同keys之间的相似性,直接根据keys的位置对词向量进行过滤,限制了其从长序列上下文中收集关键信息的能力,这使得该方法在平衡系统性能和效率之间存在一定的局限性,仍有待改进。
随着研究的不断深入,聚类算法被用于自注意力机制中去实现可学习的稀疏模式。例如,Routing Transformer[4]和Reformer[5]分别引入了K-Means算法和局部敏感哈希算法(LSH)。Routing Transformer是基于K-Means聚类算法的系统,在其RoutedAttention机制中,词向量会首先和所有质心进行相似度计算,然后我们以质心为基点,选取和其最相似的K个词向量成为当前类。然后再在每个类内完成attention机制的计算。这种方法将复杂度降低到了
Figure BDA0003353504580000011
但是值得注意的是聚类过程和系统训练过程是相互分离的,且K-Means聚类算法本身就存在一些局限性,这使得系统在性能的进一步提高上存了一定的局限性,该方法仍有待改进。
最近,一种基于神经网络的聚类方法也被提了出来,这种方法不仅在性能上优于传统聚类算法,而且可以解决传统聚类算法用于深度神经网络系统的任务分离问题。基于这种方法,在我们工作中试图探索一种高性能且高效率的注意力系统。
本发明使用神经聚类方法对词向量聚类而获得各簇质心。然后将Key和Value矩阵中的词向量用相应的质心向量来近似代替,使得Key和Value矩阵的维度从N×d→k×d(k为质心的数量),然后将降维后的Key和Value矩阵参与到注意力机制中的计算,从而达到了降低系统复杂度,减少大量计算的目的。另外相比于目前基于稀疏化的系统,该方法可以将神经聚类方法与Transformer[6]模型系统进行集成,将聚类任务和目标任务进行联合训练和优化,使二者任务相互受益,效果显著提高。
[参考文献]
[1]JiezhongQiu,Hao Ma,Omer Levy,and Wen-tau Yih.Blockwise self-attention for long document understanding.In Proceedings of the2020Conference on Empirical Methods in Natural Language Processing:Findings,EMNLP 2020,Online Event,16-20November 2020,pages 2555–2565.Association forComputational Linguistics,2020.
[2]Rewon Child,Scott Gray,Alec Radford,and Ilya Sutskever.Generatinglong sequences with sparse transformers.CoRR,abs/1904.10509,2019.
[3]IzBeltagy,Matthew E.Peters,and Arman Cohan.Longformer:The long-document transformer.CoRR,abs/2004.05150,2020.
[4]Aurko Roy,Mohammad Saffar,Ashish Vaswani,and DavidGrangier.Efficient content-based sparse attention with routing transformers.Trans.Assoc.Comput.Linguistics,9:53–68,2021.
[5]Nikita Kitaev,Lukasz Kaiser,and Anselm Levskaya.Reformer:Theefficient transformer.In ICLR 2020:Eighth International Conference onLearning Representations,2020.
[6]Ashish Vaswani,Noam Shazeer,Niki Parmar,Jakob Uszkoreit,and LlionJones.Attention is all you need.In Advances in Neural Information ProcessingSystems 30:Annual Conference on Neural Information Processing Systems 2017,December 4-9,2017,Long Beach,CA,USA,pages 5998–6008,2017.
发明内容
本发明提供了一种基于神经聚类方法的近似注意力系统,首先对输入数据使用神经聚类算法进行聚类处理,得到一组质心向量。然后使用一组质心向量来近似注意力机制中的Key和Value词向量矩阵,并与经过线性变化的词向量矩阵Query进行交互计算,从而减少了系统中大量的计算量,并且节省了大量显存,使得在有限的资源设备上也可以进行长序列任务的实验。
为了解决上述技术问题,本发明提供以下技术方案:
一种基于神经聚类方法的近似注意力系统,所述系统包括基于神经聚类方法的词向量聚类模块、基于神经聚类方法的近似注意力模块和注意力输出模块;
所述基于神经聚类方法的词向量聚类模块用于对文本中词向量以相似度为标准进行聚类,并对质心向量进行更新,获得质心向量矩阵表示;其中:
将质心向量矩阵和词向量矩阵进行矩阵相乘,获得一个权重矩阵,其中矩阵中每列元素值代表词向量和各个质心的隶属度值,隶属度值表示词向量隶属于各个质心的程度;
将隶属度值作为权重系数去更新质心向量,再将更新后的质心向量与最初的质心向量进行相加,经Normalize操作获得质心向量的最终表示;
词向量聚类模块的最终输出为更新后的质心向量矩阵,且每个质心向量的更新都融合了全部词向量信息;
所述基于神经聚类方法的近似注意力模块将词向量用相应质心向量代替去近似全局注意力方法,其中:
将词向量矩阵经过线性变换获得Query矩阵;在神经聚类中通过对词向量矩阵聚类获得了新的质心向量矩阵;
用相应的质心向量去近似代替attention机制中的Key,Value矩阵中的词向量,并结合attention机制中的相关计算操作将近似后的Key,Value矩阵中相同词向量进行合并,使得Key和Value矩阵的维度从N×d降至k×d;之后让获得的Query,Key和Value矩阵进行交互,获得词向量新的语义表示;
所述自注意力输出模块用于输出词向量的最终表示和质心向量的最终表示;其中:
将在近似注意力模块获得的词向量新的语义表示经过一个全连接层,并且与最初的词向量矩阵进行相加,之后再经过Normalize操作获得词向量的最终表示;
将在词向量聚类模块获得的质心向量的最终表示作为另一部分输出。
本发明还可以采用如下技术方案进行:
所述词向量聚类模块用于对文本中词向量以相似度(内积)为标准进行聚类,并对质心向量进行更新,获得质心向量矩阵表示;其中:
初始化一组质心向量矩阵C将初始化的质心向量矩阵C和词向量矩阵X进行矩阵相乘,并经过Softmax归一化操作,得到一个隶属度矩阵U(维度为:k×N),矩阵中每个元素值代表一个词向量隶属于一个质心向量的程度值;
Figure BDA0003353504580000031
其中:
Figure BDA0003353504580000032
是神经聚类方法中的相似度度量函数,可根据神经聚类方法的实际应用设计;在神经聚类模块中,使用词向量的内积作为相似度度量。
将隶属度矩阵U和词向量矩阵X进行矩阵相乘,获得第二质心向量组;
将初始质心向量组C与隶属度矩阵U按照如下公式获得第二质心向量矩阵
Figure BDA0003353504580000033
Figure BDA0003353504580000041
将词向量矩阵X与质心向量矩阵
Figure BDA0003353504580000042
按照如下公式进行矩阵相乘获得第二隶属度矩阵U′,即:
Figure BDA0003353504580000043
通过如下公式用第二隶属度矩阵U′对原始词向量矩阵进行聚类获得词向量所属的质心索引矩阵I′j
I′j=Argmax(U′:j)
通过如下公式对词向量质心索引矩阵I′j中每个簇内的成员数量进行统计获得第二词向量质心索引矩阵Ic
Ic=Count(I′)
将原始词向量矩阵X与经过线性映射获得Query矩阵,用第二质心向量矩阵近似代替词向量矩阵,结合簇成员数量矩阵Ic和注意力机制操作原理进行公式化简化获得Key,Value矩阵;
Q=XWX
Figure BDA0003353504580000044
其中WX,WK
Figure BDA0003353504580000045
是相应Query,Key和Value矩阵的权重矩阵;
所述近似注意力机制模块将词向量用相应质心向量代替去近似全局注意力机制,其中:将Query,key和Value矩阵进行注意力机制式的交互计算,获得词向量的语义表达矩阵Z
Figure BDA0003353504580000046
所述注意力输出模块将词向量的语义表达矩阵Z经过一个全连接层获得新的词向量矩阵;将最初的词向量矩阵X与该词向量矩阵进行相加,再经过Normalize标准化获得最终的词向量矩阵O。
有益效果
1、本发明是基于神经聚类方法的近似注意力机制,根据词向量矩阵获得一组质心向量,用质心向量代替相应的词向量去近似原始词向量矩阵,并通过公式简化,最终在保持系统性能无损失的情况下大大减少了系统的计算量,实现了系统加速,并且节省了大量显存。
2、本发明公开了一种基于神经聚类方法的近似注意力系统及方法,该系统包括基于神经聚类方法的词向量聚类模块,基于神经聚类方法的近似注意力模块,输出模块;所述词向量聚类模块通过使用神经聚类方法将词向量进行聚类并对质心向量进行更新,该算法可以被无缝集成到神经网络架构中,将聚类任务和目标任务进行联合训练和优化,以提高融合系统的有效性;所述近似注意力模块将词向量矩阵经过线性映射后作为Query矩阵,将词向量用相应的质心来近似代替后将其作为Key,Value矩阵输入到注意力机制中。之后将Key和Value矩阵进行公式简化,使得Key和Value矩阵的维度从N×d→k×d(k为质心的数量),然后再将降维后的Key,Value矩阵与Query矩阵进行交互计算,来获得输入的新的语义表示。本发明降低了系统复杂度,且相比于原始的自注意力机制,大大减少了计算量。最后输出模块结合残差结构以及标准化操作,对词向量的最终表示和质心向量的最终表示作进一步的处理,以提高系统的性能。本发明克服了基于自注意力机制的Transformer模型系统复杂度高,运行速度慢,以及显存占用大的问题。
3、与现有技术相比,本发明的技术方案所带来的有益效果是:本发明将神经聚类方法与神经网络系统Transformer进行集成,从而设计了神经聚类注意机制来重构自注意力机制,使得系统的复杂度降至O(Nkd),从性能和效率两方面改善了自注意力系统,实现了系统加速和显存节省。另外,我们在自然语言推理任务、文本匹配任务与文本分类任务上验证了我们的系统。其中,在文本分类的IMDB数据集任务上,我们的系统相比Transformer系统,准确率提高了0.5%,并且显存节省了33.7%。此外,训练时间节省了32.4%。通过以上实验,我们发现我们的系统无论是在有效性方面还是在效率方面,相比于基线系统(Transformer、Reformer、Routing Transformer)都存在很大的优势。
附图说明
图1为本发明基于神经聚类方法的近似注意力机制流程图
图2为一种基于神经网络的聚类系统的系统结构图
图3为一种基于神经聚类方法的近似注意力系统的系统结构图。
具体实施方式
下面结合附图,对本发明的技术方案进行详细描述。本领域人员可知,随着技术发展和新场景的出现,本发明的技术方案对于类似的技术问题,同样适用。
如图1~图3所示,本发明提供了一种基于神经聚类方法的近似注意力系统,所述系统包括基于神经聚类方法的词向量聚类模块、基于神经聚类方法的近似注意力模块和注意力输出模块。
所述词向量聚类模块用于对文本中词向量以相似度(内积)为标准进行聚类,并对质心向量进行更新,获得质心向量矩阵表示;其中:
初始化一组质心向量矩阵C(维度为:k×Dmodel,k为质心数量),将初始化的质心向量矩阵C和词向量矩阵X进行矩阵相乘,并经过Softmax归一化操作,得到一个隶属度矩阵U(维度为:k×N),矩阵中每个元素值代表一个词向量隶属于一个质心向量的程度值;
Figure BDA0003353504580000061
其中:
Figure BDA0003353504580000062
是神经聚类方法中的相似度度量函数,可根据神经聚类方法的实际应用设计;在神经聚类模块中,使用词向量的内积作为相似度度量。
将隶属度矩阵U和词向量矩阵X进行矩阵相乘,获得第二质心向量组;
将初始质心向量组C与第二质心向量组按照如下公式获得第二质心向量矩阵
Figure BDA0003353504580000063
Figure BDA0003353504580000064
即:将隶属度值作为权重系数,并且通过对词向量进行加权求和获得更新后的质心向量矩阵;将初始质心向量矩阵与更新后的质心向量矩阵相加,并进行Normalize标准化操作,获得最终的质心向量矩阵C(维度为:k×Dmodel),输出该向量;
将更新后的质心向量矩阵和词向量矩阵进行相乘,得到一个新的隶属度矩阵,然后使用此隶属度矩阵对原始词向量进行聚类,从而获得词向量所述之心的质心索引矩阵,通过索引矩阵获得簇内成员数量统计矩阵,输出该矩阵。其中:
将词向量矩阵X与质心向量矩阵
Figure BDA0003353504580000065
按照如下同时进行矩阵相乘获得第二隶属度矩阵U′,即:
Figure BDA0003353504580000066
通过如下公式用第二隶属度矩阵U′对原始词向量矩阵进行聚类获得词向量所属的质心索引矩阵I′j
I′j=Argmax(U′:j)
通过如下公式对词向量质心索引矩阵I′j中每个簇内的成员数量进行统计获得簇成员数量矩阵Ic
Ic=Count(I′)
将原始词向量矩阵X与经过线性映射获得Query矩阵,用第二质心向量矩阵近似代替词向量矩阵,结合簇成员数量矩阵Ic和注意力机制操作原理进行公式化简化获得Key,Value矩阵;
Q=XWX
Figure BDA0003353504580000071
其中WX,WK
Figure BDA0003353504580000072
是相应Query,Key和Value矩阵的权重矩阵;
近似注意力机制模块将词向量用相应质心向量代替去近似全局注意力机制,并通过公式化简达到提升系统效率(时间和显存)的效果;在词向量聚类模块中获得了新的质心向量矩阵,然后将Key,Value矩阵中的词向量用相应的质心向量代替近似,并将近似后的Key和Value矩阵进行化简,即矩阵中重复的词向量仅保留一个;
将在词向量聚类模块获得的簇内成员数量统计矩阵与化简后的Key矩阵进行对应相乘;将词向量经过线性变换后作为Query;之后将Query、Key和簇内成员数量统计矩阵先进行相乘,获得注意力矩阵S,再将矩阵S与Value矩阵进行相乘,获得词向量的新的语义表示Z,输出该向量。
将Query,key和Value矩阵进行注意力机制式的交互计算,获得新的词向量的语义表达
Figure BDA0003353504580000073
注意力输出模块对最终的输出做进一步处理,包括输出词向量的最终表示和质心向量的最终表示;将在近似注意力机制模块获得的输出Z经过一个全连接层后得到新的词向量表示;将新的词向量表示与最初的词向量矩阵相加,在经过Normalize标准化操作,获得最终的词向量的语义表示O;将在词向量聚类模块获得的质心向量矩阵C作为另一部分输出;因此,输出模块的输出包括最终的词向量的语义表示O和质心向量矩阵C。
将上一步中获得的词向量矩阵Z经过一个全连接层(维度为:Dhead×Dmodel),获得新的词向量矩阵;将最初的词向量矩阵X与该词向量矩阵进行相加,再经过Normalize标准化获得最终的词向量矩阵O。
见图1显示了本方法的流程图;本发明的具体步骤如下:
(1)初始化质心向量组C,长度为k(一般为
Figure BDA0003353504580000074
N是句子序列长度)。
(2)将词向量矩阵X与质心向量组C进行相乘,并经过Softmax的归一化操作,获得隶属度矩阵U;相应的公式如下:
Figure BDA0003353504580000075
其中
Figure BDA0003353504580000076
是神经聚类方法中的相似度度量函数,可根据神经聚类方法的实际应用设计。在神经聚类模块中,使用词向量的内积作为相似度度量。
(3)将隶属度矩阵U和词向量矩阵X进行矩阵相乘,获得第二质心向量组,然后将C与新的质心向量组进行相加,再经过Normalize标准化获得最终的质心向量矩阵
Figure BDA0003353504580000081
Figure BDA0003353504580000082
(4)将词向量矩阵X与质心向量矩阵
Figure BDA0003353504580000083
进行矩阵相乘,获得新的隶属度矩阵U′。
Figure BDA0003353504580000084
(5)然后用第二隶属度矩阵U′对原始词向量矩阵进行聚类获得词向量所属的质心索引矩阵I′j
I′j=Argmax(U′:j)
(6)在获得了索引矩阵之后,我们需要对每个簇内的成员数量进行统计,公式具体如下。
Ic=Count(i′)
(7)然后将原始词向量矩阵X与经过线性映射获得Query矩阵,用第二质心向量矩阵近似代替词向量矩阵,结合簇成员数量矩阵Ic和注意力机制操作原理进行公式化简化获得得到Key(维度为:k×Dhead),Value(维度为:k×Dhead)矩阵。
Figure BDA0003353504580000085
其中WX,WK
Figure BDA0003353504580000086
是相应Query,Key和Value矩阵的权重矩阵。
(8)将Query,key和Value矩阵进行注意力机制式的交互计算,获得新的词向量的语
Figure BDA0003353504580000087
(9)将上一步中获得的词向量矩阵Z经过一个全连接层(维度为:Dhead×Dmodel),获得新的词向量矩阵;将最初的词向量矩阵X与该词向量矩阵进行相加,再经过Normalize标准化获得最终的词向量矩阵O。
本发明在多个数据集上进行有效性和效率验证,分别为在SNLI、SciTail数据集上的自然语言处理任务,在Quora、WikiQA数据集上的文本匹配任务和在IMDB数据集上的分类任务。首先介绍文本自然语言推理与文本匹配任务,关于数据集,SNLI数据集是自然语言推理的基准数据集,并且其包含5万对带有四种标签的人工注释的句子。SciTail数据集是一个由科学问题和答案构成的蕴涵数据集。因为科学事实不能相互矛盾,所以此数据集只有两种标签,蕴涵和中性。Quora数据集是一个用于释义识别的数据集,用两个类(是否)来表示一个问题是否是另一个问题的释义。WikiQA数据集是一个基于维基百科检索的问答数据集。它包含一些问题和对应的候选答案,并用0和1表示答案和问题是否匹配,它由20.4K的训练集,2.7K的验证集和6.2K的测试集组成。
本发明在实验中,SNLI、SciTail和Quora数据集的评价指标为准确率(Accuracy)。WikiQA数据集采用Mean Average Precision(MAP)和Mean Reciprocal Rank(MRR)作为评价指标。对于SNIL和Quora数据集,词向量是由300维的GloVe初始化的。而SciTail和WikiQA数据集,我们使用随机的方法进行词向量的初始化,初始化的词向量维度为300。关于实验的参数设置如下:编码器的层数L设置为1,注意力头的个数设置为6,质心数量k设置为5,具体实验结果如下。
表1各系统在自然语言推理(NLI)和文本匹配的实验结果
Model SNLI SciTail Quora WikiQA(map) WikiQA(mrr)
DELTA 80.7 _ _ _ _
Bigram-CNN _ _ _ 0.619 0.628
Transformer 83.7 76.6 85.4 0.601 0.613
Reformer 78.6 67.3 74.3 0.587 0.603
Routing Transformer 76.3 72.6 81.5 0.560 0.574
Our Method 84.6 77.1 85.6 0.644 0.663
如上表所示,我们的系统在所有数据集上都取得了最好的结果。相比于基线系统Transformer、Reformer、Routing Transformer,在SNLI、SciTail和Quora数据集上,我们系统的准确率至少提高了1.1%,0.7%和0.2%。在WikiQA数据集上,我们的系统在MAP和MRR评价指标上至少提高了7.2%和8.2%。从以上实验结果可知,相比于标准Transformer以及相关的稀疏化系统Routing Transformer,我们的系统仍然体现出了明显的性能优势。
接下来介绍文本分类任务,本发明在长序列数据集IMDB数据集上进行文本分类实验。下面对数据集进行简单介绍。IMDB数据集数是一个电影评论数据集,任务是预测电影评论是正面还是负面。IMDB数据集包含了训练集,验证集和测试集。关于数据集的统计情况如下表所示。
表2数据集信息统计
Figure BDA0003353504580000101
我们使用准确率(Accuracy)作为它的有效性评价指标,显存(Memory)和训练时间(Training Time)作为它的效率评价指标。关于实验的参数设置如下:编码器的层数L设置为2,系统的维度d设置为300,注意力头的个数设置为4,质心数量k为4,具体实验结果如下。
表3各系统在文本分类任务IMDB数据集上的实验
Model Val Acc(%) Test Acc(%) Memory(MiB) Training Time(s)
Transformer 88.3 86.4 4137 194.7
Reformer 86.4 85.4 3733 232.6
Routing Transformer 87.5 85.5 3689 185.4
Our Method 88.4 86.8 2743 131.6
如表所示,我们的方法在IMDB数据集具有最好的结果。相比于Transformer,Reformer和Routing Transformer,我们系统的准确率分别提高0.5%,1.7%和1.5%。并且显存分别节省了33.7%,26.5%和25.6%。此外,训练时间分别节省了32.4%,43.4%和29.0%。从以上分析可知,我们的系统相比于基线系统,无论是在效果还是在效率(训练时间和显存)上都有很大的优势。
本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案,上述的具体实施仅仅是示意性的,并不是限制性的。在不脱离本发明总之和权力要求所保护的范围情况下,本领域的普通技术人员在本发明的其实下还可做出很多形式的具体变换,这些均属于本发明的保护范围之内。

Claims (2)

1.一种基于神经聚类方法的近似注意力系统,其特征在于:所述系统包括基于神经聚类方法的词向量聚类模块、基于神经聚类方法的近似注意力模块和注意力输出模块;
所述基于神经聚类方法的词向量聚类模块用于对文本中词向量以相似度为标准进行聚类,并对质心向量进行更新,获得质心向量矩阵表示;其中:
将质心向量矩阵和词向量矩阵进行矩阵相乘,获得一个权重矩阵,其中矩阵中每列元素值代表词向量和各个质心的隶属度值,隶属度值表示词向量隶属于各个质心的程度;
将隶属度值作为权重系数去更新质心向量,再将更新后的质心向量与最初的质心向量进行相加,经Normalize操作获得质心向量的最终表示;
词向量聚类模块的最终输出为更新后的质心向量矩阵,且每个质心向量的更新都融合了全部词向量信息;
所述基于神经聚类方法的近似注意力模块将词向量用相应质心向量代替去近似全局注意力方法,其中:
将词向量矩阵经过线性变换获得Query矩阵;在神经聚类中通过对词向量矩阵聚类获得了新的质心向量矩阵;
用相应的质心向量去近似代替attention机制中的Key,Value矩阵中的词向量,并结合注意力机制中的相关计算操作将近似后的Key,Value矩阵中相同词向量进行合并,使得Key和Value矩阵的维度从N×d降至k×d;之后让获得的Query,Key和Value矩阵进行交互,获得词向量新的语义表示;
所述自注意力输出模块用于输出词向量的最终表示和质心向量的最终表示;其中:
将在近似注意力模块获得的词向量新的语义表示经过一个全连接层,并且与最初的词向量矩阵进行相加,之后再经过Normalize操作获得词向量的最终表示;
将在词向量聚类模块获得的质心向量的最终表示作为另一部分输出。
2.采用如权利要求1所述的系统进行神经聚类近似注意力的方法,其特征在于:
所述词向量聚类模块用于对文本中词向量以相似度为标准进行聚类,并对质心向量进行更新,获得质心向量矩阵表示;其中:
初始化一组质心向量矩阵C将初始化的质心向量矩阵C和词向量矩阵X进行矩阵相乘,并经过Softmax归一化操作,得到一个隶属度矩阵U,矩阵中每个元素值代表一个词向量隶属于一个质心向量的程度值;
Figure FDA0003353504570000011
其中:
Figure FDA0003353504570000021
是神经聚类方法中的相似度度量函数,可根据神经聚类方法的实际应用设计;在神经聚类模块中,使用词向量的内积作为相似度度量。
将隶属度矩阵U和词向量矩阵X进行矩阵相乘,获得第二质心向量组;
将初始质心向量组C与隶属度矩阵U按照如下公式获得最终输出第二质心向量矩阵
Figure FDA0003353504570000022
Figure FDA0003353504570000023
将词向量矩阵X与质心向量矩阵
Figure FDA0003353504570000024
按照如下公式进行矩阵相乘获得第二隶属度矩阵U′,即:
Figure FDA0003353504570000025
通过如下公式用第二隶属度矩阵U′对原始词向量矩阵进行聚类获得词向量所属的质心索引矩阵I′j
I′j=Argmax(U:′j)
通过如下公式对词向量质心索引矩阵I′j中每个簇内的成员数量进行统计获得簇成员数量矩阵Ic
Ic=Count(I′)
将原始词向量矩阵X与经过线性映射获得Query矩阵,用第二质心向量矩阵近似代替词向量矩阵,结合簇成员数量矩阵Ic和注意力机制操作原理进行公式化简化获得Key,Value矩阵;
Q=XWX
Figure FDA0003353504570000026
其中
Figure FDA0003353504570000027
是相应Query,Key和Value矩阵的权重矩阵;
近似注意力机制模块将词向量用相应质心向量代替去近似全局注意力机制,其中:将Query,key和Value矩阵进行注意力机制式的交互计算,获得词向量的语义表达矩阵Z
Figure FDA0003353504570000028
注意力输出模块将词向量的语义表达矩阵Z经过一个全连接层获得新的词向量矩阵;将最初的词向量矩阵X与该词向量矩阵进行相加,再经过Normalize标准化获得最终的词向量矩阵O。
CN202111344579.XA 2021-11-15 2021-11-15 一种基于神经聚类方法的近似注意力系统及方法 Active CN113988002B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111344579.XA CN113988002B (zh) 2021-11-15 2021-11-15 一种基于神经聚类方法的近似注意力系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111344579.XA CN113988002B (zh) 2021-11-15 2021-11-15 一种基于神经聚类方法的近似注意力系统及方法

Publications (2)

Publication Number Publication Date
CN113988002A true CN113988002A (zh) 2022-01-28
CN113988002B CN113988002B (zh) 2024-06-14

Family

ID=79748387

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111344579.XA Active CN113988002B (zh) 2021-11-15 2021-11-15 一种基于神经聚类方法的近似注意力系统及方法

Country Status (1)

Country Link
CN (1) CN113988002B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114548321A (zh) * 2022-03-05 2022-05-27 昆明理工大学 基于对比学习的自监督舆情评论观点对象分类方法
CN117392760A (zh) * 2023-12-12 2024-01-12 河海大学 一种基于折半交叉网络的健康指导方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011227688A (ja) * 2010-04-20 2011-11-10 Univ Of Tokyo テキストコーパスにおける2つのエンティティ間の関係抽出方法及び装置
CN109948165A (zh) * 2019-04-24 2019-06-28 吉林大学 基于混合注意力网络的细粒度情感极性预测方法
CN110727765A (zh) * 2019-10-10 2020-01-24 合肥工业大学 基于多注意力机制的问题分类方法、系统及存储介质
CN111797196A (zh) * 2020-06-01 2020-10-20 武汉大学 一种结合注意力机制lstm和神经主题模型的服务发现方法
US20200356724A1 (en) * 2019-05-06 2020-11-12 University Of Electronic Science And Technology Of China Multi-hop attention and depth model, method, storage medium and terminal for classification of target sentiments
CN113204640A (zh) * 2021-04-02 2021-08-03 南京邮电大学 一种基于注意力机制的文本分类方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011227688A (ja) * 2010-04-20 2011-11-10 Univ Of Tokyo テキストコーパスにおける2つのエンティティ間の関係抽出方法及び装置
CN109948165A (zh) * 2019-04-24 2019-06-28 吉林大学 基于混合注意力网络的细粒度情感极性预测方法
US20200356724A1 (en) * 2019-05-06 2020-11-12 University Of Electronic Science And Technology Of China Multi-hop attention and depth model, method, storage medium and terminal for classification of target sentiments
CN110727765A (zh) * 2019-10-10 2020-01-24 合肥工业大学 基于多注意力机制的问题分类方法、系统及存储介质
CN111797196A (zh) * 2020-06-01 2020-10-20 武汉大学 一种结合注意力机制lstm和神经主题模型的服务发现方法
CN113204640A (zh) * 2021-04-02 2021-08-03 南京邮电大学 一种基于注意力机制的文本分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张宇昂;贾云鹏;刘家鹏;: "一种多特征融合的长文本分类方法", 中国电子科学研究院学报, no. 09, 20 September 2020 (2020-09-20) *
贾红雨;王宇涵;丛日晴;林岩;: "结合自注意力机制的神经网络文本分类算法研究", 计算机应用与软件, no. 02, 12 February 2020 (2020-02-12) *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114548321A (zh) * 2022-03-05 2022-05-27 昆明理工大学 基于对比学习的自监督舆情评论观点对象分类方法
CN117392760A (zh) * 2023-12-12 2024-01-12 河海大学 一种基于折半交叉网络的健康指导方法和系统
CN117392760B (zh) * 2023-12-12 2024-04-23 河海大学 一种基于折半交叉网络的健康指导方法和系统

Also Published As

Publication number Publication date
CN113988002B (zh) 2024-06-14

Similar Documents

Publication Publication Date Title
Xie et al. Hyper-Laplacian regularized multilinear multiview self-representations for clustering and semisupervised learning
An et al. Accurate text-enhanced knowledge graph representation learning
CN109299341B (zh) 一种基于字典学习的对抗跨模态检索方法和系统
Li et al. Nonnegative matrix factorizations for clustering: A survey
Hofmann The cluster-abstraction model: Unsupervised learning of topic hierarchies from text data
Zhang et al. Unsupervised nonnegative adaptive feature extraction for data representation
Salamat et al. Accelerating hyperdimensional computing on fpgas by exploiting computational reuse
CN113988002B (zh) 一种基于神经聚类方法的近似注意力系统及方法
CN106959946B (zh) 一种基于深度学习的文本语义特征生成优化方法
Liu et al. Multichannel cnn with attention for text classification
Yuan et al. One-shot learning for fine-grained relation extraction via convolutional siamese neural network
Peng et al. Maximum entropy subspace clustering network
Lian et al. Product quantized collaborative filtering
Kafle et al. An overview of utilizing knowledge bases in neural networks for question answering
Zhao et al. Interactive attention networks for semantic text matching
Bai et al. Bilinear Semi-Tensor Product Attention (BSTPA) model for visual question answering
Zhen et al. The research of convolutional neural network based on integrated classification in question classification
Meng et al. Concept-concept association information integration and multi-model collaboration for multimedia semantic concept detection
Jurgovsky et al. Evaluating memory efficiency and robustness of word embeddings
Chu et al. Refined SBERT: Representing sentence BERT in manifold space
Feng et al. Ontology semantic integration based on convolutional neural network
Mugeni et al. A graph-based blocking approach for entity matching using contrastively learned embeddings
Azzam et al. A question routing technique using deep neural network for communities of question answering
Quispe et al. Latent semantic indexing and convolutional neural network for multi-label and multi-class text classification
Liu et al. Learning distilled graph for large-scale social network data clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant