CN113988002A

CN113988002A - 一种基于神经聚类方法的近似注意力系统及方法

Info

Publication number: CN113988002A
Application number: CN202111344579.XA
Authority: CN
Inventors: 张鹏; 王宁宁; 甘国兵; 张帅
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-11-15
Filing date: 2021-11-15
Publication date: 2022-01-28
Anticipated expiration: 2041-11-15
Also published as: CN113988002B

Abstract

本发明公开了一种基于神经聚类方法的近似注意力系统及方法,该系统包括基于神经聚类方法的词向量聚类模块，基于神经聚类方法的近似注意力模块，注意力输出模块；所述词向量聚类模块使用神经聚类方法将词向量进行聚类并对质心向量进行更新；所述近似注意力模块通过将词向量用相应质心向量代替去近似全局注意力机制，并通过公式化简达到提升模型效率(时间和显存)的效果；注意力输出模块结合残差结构以及标准化操作，对词向量的最终表示和质心向量的最终表示作进一步的处理，以提高模型的性能；本发明克服了基于自注意力机制的Transformer系统复杂度高，运行速度慢，以及显存占用大的问题。

Description

一种基于神经聚类方法的近似注意力系统及方法

技术领域

本发明涉及语言系统加速技术领域和文本分类，尤其涉及一种基于神经聚类方法的近似注意力系统及方法。

技术背景

自注意力(self-attention,SAM)系统在自然语言处理领域有着广泛的应用，如文本分类、机器翻译、预训练语言系统等。然而，其核心结构自注意力机制需要计算一个序列中，任意两个词之间的依赖关系，因此会产生序列长度平方级的复杂度，这使得长序列任务在训练上面临极大的挑战性。为了解决这个问题，研究人员做了大量的研究工作。在这些工作中，主要研究方向之一是利用稀疏注意逼近序列二次方代价的注意力，同时保持有效性。

一些早期的工作已经提出，通过限制query只关注在附近或在固定的间隔上的keys来降低时间复杂度，如Blockwise Transformer[1]、Sparse Transformer[2]、Longformer[3]等。这种固定稀疏模式的方法降低了自注意力系统的复杂度，但是没有考虑querys与不同keys之间的相似性，直接根据keys的位置对词向量进行过滤，限制了其从长序列上下文中收集关键信息的能力，这使得该方法在平衡系统性能和效率之间存在一定的局限性，仍有待改进。

随着研究的不断深入，聚类算法被用于自注意力机制中去实现可学习的稀疏模式。例如，Routing Transformer[4]和Reformer[5]分别引入了K-Means算法和局部敏感哈希算法(LSH)。Routing Transformer是基于K-Means聚类算法的系统，在其RoutedAttention机制中，词向量会首先和所有质心进行相似度计算，然后我们以质心为基点，选取和其最相似的K个词向量成为当前类。然后再在每个类内完成attention机制的计算。这种方法将复杂度降低到了

但是值得注意的是聚类过程和系统训练过程是相互分离的，且K-Means聚类算法本身就存在一些局限性，这使得系统在性能的进一步提高上存了一定的局限性，该方法仍有待改进。

最近，一种基于神经网络的聚类方法也被提了出来，这种方法不仅在性能上优于传统聚类算法，而且可以解决传统聚类算法用于深度神经网络系统的任务分离问题。基于这种方法，在我们工作中试图探索一种高性能且高效率的注意力系统。

本发明使用神经聚类方法对词向量聚类而获得各簇质心。然后将Key和Value矩阵中的词向量用相应的质心向量来近似代替，使得Key和Value矩阵的维度从N×d→k×d(k为质心的数量)，然后将降维后的Key和Value矩阵参与到注意力机制中的计算，从而达到了降低系统复杂度，减少大量计算的目的。另外相比于目前基于稀疏化的系统，该方法可以将神经聚类方法与Transformer[6]模型系统进行集成，将聚类任务和目标任务进行联合训练和优化，使二者任务相互受益，效果显著提高。

[参考文献]

[1]JiezhongQiu,Hao Ma,Omer Levy,and Wen-tau Yih.Blockwise self-attention for long document understanding.In Proceedings of the2020Conference on Empirical Methods in Natural Language Processing:Findings,EMNLP 2020,Online Event,16-20November 2020,pages 2555–2565.Association forComputational Linguistics,2020.

[2]Rewon Child,Scott Gray,Alec Radford,and Ilya Sutskever.Generatinglong sequences with sparse transformers.CoRR,abs/1904.10509,2019.

[3]IzBeltagy,Matthew E.Peters,and Arman Cohan.Longformer:The long-document transformer.CoRR,abs/2004.05150,2020.

[4]Aurko Roy,Mohammad Saffar,Ashish Vaswani,and DavidGrangier.Efficient content-based sparse attention with routing transformers.Trans.Assoc.Comput.Linguistics,9:53–68,2021.

[5]Nikita Kitaev,Lukasz Kaiser,and Anselm Levskaya.Reformer:Theefficient transformer.In ICLR 2020:Eighth International Conference onLearning Representations,2020.

[6]Ashish Vaswani,Noam Shazeer,Niki Parmar,Jakob Uszkoreit,and LlionJones.Attention is all you need.In Advances in Neural Information ProcessingSystems 30:Annual Conference on Neural Information Processing Systems 2017,December 4-9,2017,Long Beach,CA,USA,pages 5998–6008,2017.

发明内容

本发明提供了一种基于神经聚类方法的近似注意力系统，首先对输入数据使用神经聚类算法进行聚类处理，得到一组质心向量。然后使用一组质心向量来近似注意力机制中的Key和Value词向量矩阵，并与经过线性变化的词向量矩阵Query进行交互计算，从而减少了系统中大量的计算量，并且节省了大量显存，使得在有限的资源设备上也可以进行长序列任务的实验。

为了解决上述技术问题，本发明提供以下技术方案：

一种基于神经聚类方法的近似注意力系统，所述系统包括基于神经聚类方法的词向量聚类模块、基于神经聚类方法的近似注意力模块和注意力输出模块；

所述基于神经聚类方法的词向量聚类模块用于对文本中词向量以相似度为标准进行聚类，并对质心向量进行更新，获得质心向量矩阵表示；其中:

将质心向量矩阵和词向量矩阵进行矩阵相乘，获得一个权重矩阵，其中矩阵中每列元素值代表词向量和各个质心的隶属度值，隶属度值表示词向量隶属于各个质心的程度；

将隶属度值作为权重系数去更新质心向量，再将更新后的质心向量与最初的质心向量进行相加，经Normalize操作获得质心向量的最终表示；

词向量聚类模块的最终输出为更新后的质心向量矩阵，且每个质心向量的更新都融合了全部词向量信息；

所述基于神经聚类方法的近似注意力模块将词向量用相应质心向量代替去近似全局注意力方法，其中：

将词向量矩阵经过线性变换获得Query矩阵；在神经聚类中通过对词向量矩阵聚类获得了新的质心向量矩阵；

用相应的质心向量去近似代替attention机制中的Key,Value矩阵中的词向量，并结合attention机制中的相关计算操作将近似后的Key,Value矩阵中相同词向量进行合并，使得Key和Value矩阵的维度从N×d降至k×d；之后让获得的Query,Key和Value矩阵进行交互，获得词向量新的语义表示；

所述自注意力输出模块用于输出词向量的最终表示和质心向量的最终表示；其中：

将在近似注意力模块获得的词向量新的语义表示经过一个全连接层，并且与最初的词向量矩阵进行相加，之后再经过Normalize操作获得词向量的最终表示；

将在词向量聚类模块获得的质心向量的最终表示作为另一部分输出。

本发明还可以采用如下技术方案进行：

所述词向量聚类模块用于对文本中词向量以相似度(内积)为标准进行聚类，并对质心向量进行更新，获得质心向量矩阵表示；其中：

初始化一组质心向量矩阵C将初始化的质心向量矩阵C和词向量矩阵X进行矩阵相乘，并经过Softmax归一化操作，得到一个隶属度矩阵U(维度为:k×N)，矩阵中每个元素值代表一个词向量隶属于一个质心向量的程度值；

其中：

是神经聚类方法中的相似度度量函数，可根据神经聚类方法的实际应用设计；在神经聚类模块中，使用词向量的内积作为相似度度量。

将隶属度矩阵U和词向量矩阵X进行矩阵相乘，获得第二质心向量组；

将初始质心向量组C与隶属度矩阵U按照如下公式获得第二质心向量矩阵

将词向量矩阵X与质心向量矩阵

按照如下公式进行矩阵相乘获得第二隶属度矩阵U′，即：

通过如下公式用第二隶属度矩阵U′对原始词向量矩阵进行聚类获得词向量所属的质心索引矩阵I′_j；

I′_j＝Argmax(U′_:j)

通过如下公式对词向量质心索引矩阵I′_j中每个簇内的成员数量进行统计获得第二词向量质心索引矩阵I^c

I^c＝Count(I′)

将原始词向量矩阵X与经过线性映射获得Query矩阵，用第二质心向量矩阵近似代替词向量矩阵，结合簇成员数量矩阵I^c和注意力机制操作原理进行公式化简化获得Key，Value矩阵；

Q＝XW^X

其中W^X，W^K，

是相应Query,Key和Value矩阵的权重矩阵；

所述近似注意力机制模块将词向量用相应质心向量代替去近似全局注意力机制，其中：将Query，key和Value矩阵进行注意力机制式的交互计算，获得词向量的语义表达矩阵Z

所述注意力输出模块将词向量的语义表达矩阵Z经过一个全连接层获得新的词向量矩阵；将最初的词向量矩阵X与该词向量矩阵进行相加，再经过Normalize标准化获得最终的词向量矩阵O。

有益效果

1、本发明是基于神经聚类方法的近似注意力机制，根据词向量矩阵获得一组质心向量，用质心向量代替相应的词向量去近似原始词向量矩阵，并通过公式简化，最终在保持系统性能无损失的情况下大大减少了系统的计算量，实现了系统加速，并且节省了大量显存。

2、本发明公开了一种基于神经聚类方法的近似注意力系统及方法,该系统包括基于神经聚类方法的词向量聚类模块，基于神经聚类方法的近似注意力模块，输出模块；所述词向量聚类模块通过使用神经聚类方法将词向量进行聚类并对质心向量进行更新，该算法可以被无缝集成到神经网络架构中，将聚类任务和目标任务进行联合训练和优化，以提高融合系统的有效性；所述近似注意力模块将词向量矩阵经过线性映射后作为Query矩阵，将词向量用相应的质心来近似代替后将其作为Key,Value矩阵输入到注意力机制中。之后将Key和Value矩阵进行公式简化，使得Key和Value矩阵的维度从N×d→k×d(k为质心的数量)，然后再将降维后的Key,Value矩阵与Query矩阵进行交互计算，来获得输入的新的语义表示。本发明降低了系统复杂度，且相比于原始的自注意力机制，大大减少了计算量。最后输出模块结合残差结构以及标准化操作，对词向量的最终表示和质心向量的最终表示作进一步的处理，以提高系统的性能。本发明克服了基于自注意力机制的Transformer模型系统复杂度高，运行速度慢，以及显存占用大的问题。

3、与现有技术相比，本发明的技术方案所带来的有益效果是：本发明将神经聚类方法与神经网络系统Transformer进行集成，从而设计了神经聚类注意机制来重构自注意力机制，使得系统的复杂度降至O(Nkd)，从性能和效率两方面改善了自注意力系统，实现了系统加速和显存节省。另外，我们在自然语言推理任务、文本匹配任务与文本分类任务上验证了我们的系统。其中，在文本分类的IMDB数据集任务上，我们的系统相比Transformer系统，准确率提高了0.5％，并且显存节省了33.7％。此外，训练时间节省了32.4％。通过以上实验，我们发现我们的系统无论是在有效性方面还是在效率方面，相比于基线系统(Transformer、Reformer、Routing Transformer)都存在很大的优势。

附图说明

图1为本发明基于神经聚类方法的近似注意力机制流程图

图2为一种基于神经网络的聚类系统的系统结构图

图3为一种基于神经聚类方法的近似注意力系统的系统结构图。

具体实施方式

下面结合附图，对本发明的技术方案进行详细描述。本领域人员可知，随着技术发展和新场景的出现，本发明的技术方案对于类似的技术问题，同样适用。

如图1～图3所示，本发明提供了一种基于神经聚类方法的近似注意力系统，所述系统包括基于神经聚类方法的词向量聚类模块、基于神经聚类方法的近似注意力模块和注意力输出模块。

初始化一组质心向量矩阵C(维度为:k×D_model，k为质心数量)，将初始化的质心向量矩阵C和词向量矩阵X进行矩阵相乘，并经过Softmax归一化操作，得到一个隶属度矩阵U(维度为:k×N)，矩阵中每个元素值代表一个词向量隶属于一个质心向量的程度值；

其中：

将初始质心向量组C与第二质心向量组按照如下公式获得第二质心向量矩阵

即：将隶属度值作为权重系数，并且通过对词向量进行加权求和获得更新后的质心向量矩阵；将初始质心向量矩阵与更新后的质心向量矩阵相加，并进行Normalize标准化操作，获得最终的质心向量矩阵C(维度为:k×D_model)，输出该向量；

将更新后的质心向量矩阵和词向量矩阵进行相乘，得到一个新的隶属度矩阵，然后使用此隶属度矩阵对原始词向量进行聚类，从而获得词向量所述之心的质心索引矩阵，通过索引矩阵获得簇内成员数量统计矩阵，输出该矩阵。其中：

将词向量矩阵X与质心向量矩阵

按照如下同时进行矩阵相乘获得第二隶属度矩阵U′，即：

I′_j＝Argmax(U′_:j)

通过如下公式对词向量质心索引矩阵I′_j中每个簇内的成员数量进行统计获得簇成员数量矩阵I^c；

I^c＝Count(I′)

Q＝XW^X

其中W^X，W^K，

是相应Query,Key和Value矩阵的权重矩阵；

近似注意力机制模块将词向量用相应质心向量代替去近似全局注意力机制，并通过公式化简达到提升系统效率(时间和显存)的效果；在词向量聚类模块中获得了新的质心向量矩阵，然后将Key,Value矩阵中的词向量用相应的质心向量代替近似，并将近似后的Key和Value矩阵进行化简，即矩阵中重复的词向量仅保留一个；

将在词向量聚类模块获得的簇内成员数量统计矩阵与化简后的Key矩阵进行对应相乘；将词向量经过线性变换后作为Query；之后将Query、Key和簇内成员数量统计矩阵先进行相乘，获得注意力矩阵S，再将矩阵S与Value矩阵进行相乘，获得词向量的新的语义表示Z，输出该向量。

将Query，key和Value矩阵进行注意力机制式的交互计算，获得新的词向量的语义表达

注意力输出模块对最终的输出做进一步处理，包括输出词向量的最终表示和质心向量的最终表示；将在近似注意力机制模块获得的输出Z经过一个全连接层后得到新的词向量表示；将新的词向量表示与最初的词向量矩阵相加，在经过Normalize标准化操作，获得最终的词向量的语义表示O；将在词向量聚类模块获得的质心向量矩阵C作为另一部分输出；因此，输出模块的输出包括最终的词向量的语义表示O和质心向量矩阵C。

将上一步中获得的词向量矩阵Z经过一个全连接层(维度为：D_head×D_model)，获得新的词向量矩阵；将最初的词向量矩阵X与该词向量矩阵进行相加，再经过Normalize标准化获得最终的词向量矩阵O。

见图1显示了本方法的流程图；本发明的具体步骤如下：

(1)初始化质心向量组C，长度为k(一般为

N是句子序列长度)。

(2)将词向量矩阵X与质心向量组C进行相乘，并经过Softmax的归一化操作，获得隶属度矩阵U；相应的公式如下：

其中

是神经聚类方法中的相似度度量函数，可根据神经聚类方法的实际应用设计。在神经聚类模块中，使用词向量的内积作为相似度度量。

(3)将隶属度矩阵U和词向量矩阵X进行矩阵相乘，获得第二质心向量组，然后将C与新的质心向量组进行相加，再经过Normalize标准化获得最终的质心向量矩阵

(4)将词向量矩阵X与质心向量矩阵

进行矩阵相乘，获得新的隶属度矩阵U′。

(5)然后用第二隶属度矩阵U′对原始词向量矩阵进行聚类获得词向量所属的质心索引矩阵I′_j；

I′_j＝Argmax(U′_:j)

(6)在获得了索引矩阵之后，我们需要对每个簇内的成员数量进行统计，公式具体如下。

I^c＝Count(i′)

(7)然后将原始词向量矩阵X与经过线性映射获得Query矩阵，用第二质心向量矩阵近似代替词向量矩阵，结合簇成员数量矩阵I^c和注意力机制操作原理进行公式化简化获得得到Key(维度为:k×D_head)，Value(维度为:k×D_head)矩阵。

其中W^X，W^K，

是相应Query,Key和Value矩阵的权重矩阵。

(8)将Query，key和Value矩阵进行注意力机制式的交互计算，获得新的词向量的语

(9)将上一步中获得的词向量矩阵Z经过一个全连接层(维度为：D_head×D_model)，获得新的词向量矩阵；将最初的词向量矩阵X与该词向量矩阵进行相加，再经过Normalize标准化获得最终的词向量矩阵O。

本发明在多个数据集上进行有效性和效率验证，分别为在SNLI、SciTail数据集上的自然语言处理任务，在Quora、WikiQA数据集上的文本匹配任务和在IMDB数据集上的分类任务。首先介绍文本自然语言推理与文本匹配任务，关于数据集，SNLI数据集是自然语言推理的基准数据集，并且其包含5万对带有四种标签的人工注释的句子。SciTail数据集是一个由科学问题和答案构成的蕴涵数据集。因为科学事实不能相互矛盾，所以此数据集只有两种标签，蕴涵和中性。Quora数据集是一个用于释义识别的数据集，用两个类(是否)来表示一个问题是否是另一个问题的释义。WikiQA数据集是一个基于维基百科检索的问答数据集。它包含一些问题和对应的候选答案，并用0和1表示答案和问题是否匹配，它由20.4K的训练集，2.7K的验证集和6.2K的测试集组成。

本发明在实验中，SNLI、SciTail和Quora数据集的评价指标为准确率(Accuracy)。WikiQA数据集采用Mean Average Precision(MAP)和Mean Reciprocal Rank(MRR)作为评价指标。对于SNIL和Quora数据集，词向量是由300维的GloVe初始化的。而SciTail和WikiQA数据集，我们使用随机的方法进行词向量的初始化，初始化的词向量维度为300。关于实验的参数设置如下：编码器的层数L设置为1，注意力头的个数设置为6，质心数量k设置为5，具体实验结果如下。

表1各系统在自然语言推理(NLI)和文本匹配的实验结果

Model	SNLI	SciTail	Quora	WikiQA(map)	WikiQA(mrr)
						DELTA	80.7	_	_	_	_
Bigram-CNN	_	_	_	0.619	0.628
						Transformer	83.7	76.6	85.4	0.601	0.613
Reformer	78.6	67.3	74.3	0.587	0.603
						Routing Transformer	76.3	72.6	81.5	0.560	0.574
Our Method	84.6	77.1	85.6	0.644	0.663

如上表所示，我们的系统在所有数据集上都取得了最好的结果。相比于基线系统Transformer、Reformer、Routing Transformer，在SNLI、SciTail和Quora数据集上，我们系统的准确率至少提高了1.1％，0.7％和0.2％。在WikiQA数据集上，我们的系统在MAP和MRR评价指标上至少提高了7.2％和8.2％。从以上实验结果可知，相比于标准Transformer以及相关的稀疏化系统Routing Transformer，我们的系统仍然体现出了明显的性能优势。

接下来介绍文本分类任务，本发明在长序列数据集IMDB数据集上进行文本分类实验。下面对数据集进行简单介绍。IMDB数据集数是一个电影评论数据集，任务是预测电影评论是正面还是负面。IMDB数据集包含了训练集，验证集和测试集。关于数据集的统计情况如下表所示。

表2数据集信息统计

我们使用准确率(Accuracy)作为它的有效性评价指标，显存(Memory)和训练时间(Training Time)作为它的效率评价指标。关于实验的参数设置如下：编码器的层数L设置为2，系统的维度d设置为300，注意力头的个数设置为4，质心数量k为4，具体实验结果如下。

表3各系统在文本分类任务IMDB数据集上的实验

Model	Val Acc(％)	Test Acc(％)	Memory(MiB)	Training Time(s)
					Transformer	88.3	86.4	4137	194.7
Reformer	86.4	85.4	3733	232.6
					Routing Transformer	87.5	85.5	3689	185.4
Our Method	88.4	86.8	2743	131.6

如表所示，我们的方法在IMDB数据集具有最好的结果。相比于Transformer，Reformer和Routing Transformer，我们系统的准确率分别提高0.5％，1.7％和1.5％。并且显存分别节省了33.7％，26.5％和25.6％。此外，训练时间分别节省了32.4％,43.4％和29.0％。从以上分析可知，我们的系统相比于基线系统，无论是在效果还是在效率(训练时间和显存)上都有很大的优势。

本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案，上述的具体实施仅仅是示意性的，并不是限制性的。在不脱离本发明总之和权力要求所保护的范围情况下，本领域的普通技术人员在本发明的其实下还可做出很多形式的具体变换，这些均属于本发明的保护范围之内。

Claims

1.一种基于神经聚类方法的近似注意力系统，其特征在于：所述系统包括基于神经聚类方法的词向量聚类模块、基于神经聚类方法的近似注意力模块和注意力输出模块；

所述基于神经聚类方法的词向量聚类模块用于对文本中词向量以相似度为标准进行聚类，并对质心向量进行更新，获得质心向量矩阵表示；其中：

用相应的质心向量去近似代替attention机制中的Key，Value矩阵中的词向量，并结合注意力机制中的相关计算操作将近似后的Key，Value矩阵中相同词向量进行合并，使得Key和Value矩阵的维度从N×d降至k×d；之后让获得的Query，Key和Value矩阵进行交互，获得词向量新的语义表示；

2.采用如权利要求1所述的系统进行神经聚类近似注意力的方法，其特征在于：

所述词向量聚类模块用于对文本中词向量以相似度为标准进行聚类，并对质心向量进行更新，获得质心向量矩阵表示；其中：

初始化一组质心向量矩阵C将初始化的质心向量矩阵C和词向量矩阵X进行矩阵相乘，并经过Softmax归一化操作，得到一个隶属度矩阵U，矩阵中每个元素值代表一个词向量隶属于一个质心向量的程度值；