CN110543640A

CN110543640A - 一种基于注意力机制神经机器翻译推断加速方法

Info

Publication number: CN110543640A
Application number: CN201910733201.5A
Authority: CN
Inventors: 杜权; 朱靖波; 肖桐; 张春良
Original assignee: SHENYANG YAYI NETWORK TECHNOLOGY Co Ltd
Current assignee: SHENYANG YAYI NETWORK TECHNOLOGY Co Ltd
Priority date: 2019-08-09
Filing date: 2019-08-09
Publication date: 2019-12-06

Abstract

本发明公开一种基于注意力机制神经机器翻译推断加速方法，步骤为：构建训练平行语料及基于注意力机制的多层神经机器翻译的模型进行训练得到训练收敛后的模型参数；对模型中解码端自注意力、编码端自注意力以及编码解码注意力操作不同层之间计算其任意两层之间的参数相似度；若编码端与解码端上层与底层的相似度高于阈值，则上层直接使用底层的注意力权重参数进行计算；如果上层与底层的相似度高于阈值，则上层直接使用底层的注意力计算结果；将词表输入模型中进行计算，得到机器翻译词表概率分布，选取最高的词作为翻译结果。本发明能够在快速推理的最新实现基础上，该算法平均获得1.3倍的加速比，同时模型性能几乎没有下降。

Description

一种基于注意力机制神经机器翻译推断加速方法

技术领域

本发明涉及一种神经机器翻译推断加速技术，具体为基于注意力机制神经机器翻译推断加速方法。

背景技术

机器翻译(Machine Translation或MT)是采用电子计算机进行自然语言之间翻译的一门试验性学科。通俗来讲，就是利用计算机将一门自然语言(源语言)转换成另一种自然语言(目标语言)的过程。长期以来机器翻译一直被看作是解决翻译问题的终极技术手段之一，应用需求非常旺盛。比如，中国政府把包括机器翻译技术在内的自然语言理解研究列入到国家中长期科技发展规划纲要中；据报道，谷歌翻译每天为全球两亿多个用户提供服务，每天翻译次数达十亿次，每天翻译处理的文字数量，相当于一百万册图书，超过了全世界的专业翻译人员一年能够翻译的文字规模。这些都体现了机器翻译的巨大价值和技术应用前景。

纵观机器翻译的发展历程，可将机器翻译的方法分为两种。一种是基于规则的机器翻译，另一种是基于语料库的机器翻译。具体来说基于语料库的机器翻译又可以分为基于实例的机器翻译、统计机器翻译和目前受到广泛关注的神经机器翻译。早期，人们主要使用规则来进行机器翻译。但是随着研究的深入，基于规则的方法也逐渐暴露出了问题，比如，人工书写的规则覆盖度有限、规则数量增加导致的冲突、语种扩充困难等问题。虽然随后兴起的基于实例的方法可以一定程度上缓解以上问题，但是问题仍然没有得到根本解决。机器翻译的突破性进展开始于上世纪九十年代初。当时，IBM和AT&T等机构提出了统计机器翻译的思想。这种方法完全抛弃了对人工书写规则的依赖，而是把翻译问题看作是搜索翻译概率最大的译文的问题。统计机器翻译系统的开发仅仅依赖于双语和单语数据以及人工定义的翻译特征，系统的鲁棒性和扩展性大大增强，在很多翻译任务中表现出明显的优势。但是统计机器翻译仍然需要依赖大量的特征工程，而且这种方法假设翻译过程具有一种隐含结构，这些都限制了模型的表示能力。进一步，研究者又提出了基于深度学习的神经机器翻译方法，简称神经机器翻译。这种方法直接将机器翻译问题用神经网络进行建模，模型学习在端到端方式下完成，整个过程不需要人工特征的设计。

相比传统的基于统计的机器翻译方法，神经机器翻译系统凭借着较高的译文质量吸引了众多研究人员使用该方法对机器翻译任务进行研究，但由于神经网络本身的特点，其内部存在着大量的矩阵运算，因此其在使用的过程中会更加耗时。该问题在实用化的机器翻译系统中尤为突出，因为它们一般都会对于响应的时间有更严苛的要求，因此神经机器翻译系统的解码速度也成为翻译系统能否实用化的关键，是否能够在现有神经机器翻译系统的基础上对其速度进行优化成为了一个极其重要的课题。

基于自注意力(Self-attention)机制的神经机器翻译系统凭借着更近的信息传递距离在众多同类系统中获得了广泛关注，该方法将不同位置词汇之间的信息传输距离拉近为1，使得模型可以更加充分地表示序列中不同位置词汇之间的复杂关系。其核心思想在于通过对源语或目标语句中任意位置词汇之间的关联程度进行考量，获得词汇之间的相关性，进而将其作为不同词汇或片段信息整合过程中的权重，最终得到源语或目标语中的语义信息表述。

由于注意力机制需要在两个句子片段之间计算词汇的相关程度，其中涉及到大量的矩阵运算，因此会占用较多的解码时间。与此同时，在基于自注意力机制的神经机器翻译系统中，由于其计算过程中会频繁地在句子内部以及句子之间进行注意力对齐的操作，因此更加导致这种机器翻译的方法在实际使用中解码速度很难满足实时响应的需求。

发明内容

针对现有技术中机器翻译的方法在实际使用中解码速度很难满足实时响应的需求等不足，本发明要将解决的技术问题是提供一种基于注意力机制神经机器翻译推断加速方法，能够在快速推理的最新实现基础上，且在模型性能几乎没有下降的前提下，提升实时相应速度。

为解决上述技术问题，本发明采用的技术方案是：

本发明一种基于注意力机制神经机器翻译推断加速方法，包括以下步骤：

1)构建训练平行语料及基于注意力机制的多层神经机器翻译的模型，利用平行语料生成机器翻译词表，进一步训练得到训练收敛后的模型参数；

2)对模型中解码端自注意力、编码端自注意力以及编码解码注意力操作不同层之间计算其任意两层之间的参数相似度；

3)根据计算出的自注意力之间的相似度，若编码端与解码端上层与底层的相似度高于阈值，则上层直接使用底层的注意力权重参数进行计算；

4)根据步骤2)中计算出的编码解码注意力之间的相似度，如果上层与底层的相似度高于阈值，则上层直接使用底层的注意力计算结果；

5)将用户需要翻译的词表输入模型中进行计算，得到机器翻译词表概率分布，在上述机器翻译词表概率分布中选取最高的词作为翻译结果。

步骤1)中，多层神经机器翻译的模型包括编码端和解码端，使用注意力机制，当使用多头注意力机制时，其每个头的计算公式为：

其中softmax(·)为归一化函数，若为模型第一层，则Q、K和V分别为词嵌入不同的线性变换矩阵，若为第一层外的其他层，则Q、K和V分别下层栈的输出后不同的线性变换矩阵，d_k为K矩阵每个头的维度大小。

步骤2)中计算其任意两层之间的参数相似度，具体为：

201)计算出每层的注意力权重S^m＝s(Q^m，K^m)，其中s(·)为注意力权重的计算公式，m为模型中第m层；

202)选取评价相似度指标，采用杰森-香农距离(Jensen-Shannon divergence)来衡量，其计算方式为：其中μ(i，j)是对于Q矩阵位置i与K矩阵位置j的注意力值，δ(i，j)为克罗内克δ函数，n为模型的层编号，当计算距离有多个头时，对所有的头进行平均得到相似度指标；

203)对于编码端自注意力、解码段自注意力、编码解码注意力均选出不同的两层进行计算其相似度，直到任意两层之间都有相似度。

步骤3)中，编码端与解码端中的自注意力需要根据层与层的相似度来进行共享，步骤为：

301)选取一个第一阈值θ₁，当相似度sim(m，n)≥θ₁时，便可以将此层与之前的层共享其自注意力权重，作为一个层块；

302)分别从编码端及解码端第1层开始，搜索满足标准的最大块；重复此过程，直到搜索完所有层；

303)若相似度大于第一阈值θ₁，则从m层到n层中每层计算注意力权重Sⁿ时，直接用m层的注意力权重S^m代替Sⁿ。

步骤302)中，当需要产生三层及以上的层块时，须将三层及以上层块的各层之间相似度进行平均再与第一阈值θ₁比较，若相似度平均值大于第一阈值θ₁，则这一层块均共享m层的注意力权重S^m。

步骤4)中，编码解码注意力需要根据层与层的相似度来进行共享，步骤为：

401)选取一个第二阈值θ₂，当相似度sim(m，n)≥θ₂时，将此层与之前的层共享其编码解码注意力权重，作为一个层块；

402)从编码端第1层开始，搜索满足标准的最大块；重复此过程，直到搜索完所有层；

403)若相似度大于第二阈值θ₂，则从m层到n层中每层在得到注意力计算结果Aⁿ时，直接将m层的注意力计算结果A^m代替Aⁿ。

步骤402)中，当需要产生三层及以上的层块时，须将三层及以上层块的各层之间相似度进行平均再与第二阈值θ₂比较，若相似度平均值大于第二阈值θ₂，则这一层块均共享m层的注意力计算结果A^m。

附图说明

图1为神经机器翻译自注意力与编码解码注意力图示；

图2为本发明中注意力权重共享的基本思想示意图；

图3为本发明中自注意力权重共享对网络结构的改变图示；

图4为本发明中编码解码注意力权重共享对网络结构的改变图示。

具体实施方式

下面结合说明书附图对本发明作进一步阐述。

本发明将从注意力共享角度对基于注意力机制的神经机器翻译系统解码速度进行优化，旨在以较小性能损失为代价，大幅度提升翻译系统的解码速度，达到性能和速度上的平衡。

4)根据步骤2)中计算出的编码解码注意力之间的相似度，如果上层与底层的相似度高于阈值，则上层直接使用底层的注意力计算结果。

本步骤中，需要得到对应两种语言的双语句子，然后需要搭建其基于注意力机制的神经机器翻译模型，其注意力计算过程如图1所示。该图展示了双语句对“你知道去北京站的路怎么走吗？”，“Do you know the way to Beijing Railway Station”，利用自注意力变换以及编码解码注意力过程进行处理。在进行模型推断之前，需要将模型在训练集上训练到收敛神经机器翻译。机器翻译模型是由编码端与解码端组成，主要使用注意力机制，其计算公式为：为了加速计算速度，一般使用多头注意力，其输入的Q、K和V都为源语言的词嵌入或下层栈输出之后的线性变换。 QK^T实际上计算了源语言任意两个位置的相关性，d_k是每个头的维度大小，做分母可以把相关性转化为合理的实数范围。softmax(·)是按源语言位置进行归一化，得到的结果是i与其它任意位置相关性权重，这个结果与V 再相乘得到的是所有位置向量的加权和。这个过程没有使用任何循环单元或者卷积单元，而且可以并行化，从而加快计算速度。

步骤2)中计算其任意两层之间的参数相似度，具体步骤为：

本步骤主要计算层与层之间的相似度，为之后进行权重共享进行理论上的指导。

步骤201)为注意力权重计算

该步骤中每层的注意力权重S^m＝s(Q^m，K^m)。其中s(·)代表注意力权重的计算，Q与K都是下层的输出变换而来，这一操作对于编码端解码段的各个注意力操作都需要进行操作，同时需要注意的是对于编码解码注意力来说，其Q与K使用的是编码端的输出。

步骤202)为相似度计算

衡量两层的相似度，首先需要选取评价相似度指标，而选取一个合适的评价指标来衡量两层的相似度是非常重要的，其需要是稳定可比较的，值域不宜过大，同时过于复杂可能会导致数值的不稳定。由于有界和对称的特性，采用了杰森-香农距离(Jensen-Shannon divergence)来衡量，其计算方式为：由于在计算距离的时候会有多个头，所以会对所有的头进行平均。

步骤203)为对于编码端自注意力、解码端自注意力以及编码解码注意力均选出不同的两层进行计算其相似度，直到任意两层之间都有相似度。这一步骤为后续步骤将层与层之间分割成多个层块作为数值上的指导，但是由于编码端和解码端的注意力都是分散的，共享也只能在同一类型的注意力计算之间才能使用。所以选取两层计算其相似度时，都需要属于同一类注意力类型，比如都属于编码器自注意力。

如图2所示，矩阵Q包括了l个词向量，组成了一个查询(Query)矩阵，矩阵K^T包括了l个词向量的转置，组成了一个关键值(Key)矩阵，其中词向量为模型中间层的数值表示。在具体实施中，运算层中和普通模型一样通过计算QK^T来获得词汇之间的关联关系，即图中所示的计算关联度，但不同之处在于本发明会全局地对该值进行记录，使得在接下来的共享层中能够直接对相应词汇之间的关联关系进行使用。具体来说在共享层块中，将不进行QK^T的运算，直接利用运算层计算好的权重矩阵和对应位置的 Value矩阵V进行乘法操作，得到更新后的词向量。通过这种方法就可以有效地减少注意力机制中关联关系这部分的计算，从而降低模型解码过程中的运算量，实现加速的目的。

步骤301)选取一个合适阈值θ₁，当相似度sim(m，n)≥θ₁时，便可以将此层与之前的层共享其自注意力权重，作为一个大的层块。对于阈值的选择，可以根据实际情况来调整，如果说对于速度要求更高，可以将阈值设得更低，同时不同任务也会有不同的阈值。

步骤302)分别从编码端及解码端第1层开始，搜索满足标准的最大块。重复此过程，直到搜索完所有层。这一步骤会通过步骤203)中计算出的相似度确定哪些层会被共享自注意力权重，将其视为一个层块。

步骤303)的替代方法直接避免了大量自注意力操作带来的乘法矩阵运算，同时没有产生明显的性能损失。

在步骤302)中，当需要产生三层及以上的层块时，须将三层及以上层块的各层之间相似度进行平均再与第一阈值θ₁比较，若相似度平均值大于第一阈值θ₁，则这一层块均共享m层的注意力权重S^m。由于相似度只能两两之间，当需要产生三层及以上的层块时，须将各层之间的相似度进行平均再与阈值θ₁比较。这种方法避免了较低的层数和较高的层数差距，从而导致了模型性能的急剧下降，因为中间层可能与底层及上层相似，但是实际上层与底层并不相似，所以采取平均的方法消除这种可能。

如图3所示，将共享注意力权重的方式应用到了基于自注意力机制的神经机器翻译系统中的编码器、解码器内部的自注意力操作上，该方法的使用相当于是将下层运算层中的信息引到当前层中，而对于其它模型中的结构并没有进行修改。可以从图中看到在模型原本的计算包括编码端的自注意力操作、前馈神经网络操作以及每个子层中的残差、正则化等，解码端有对于现已翻译出的词汇进行的自注意力操作、编码器解码器之间的注意力操作、前馈神经网络操作以及每个子层中的残差连接、正则化等。这些运算单元仍然存在于改进后的模型中，只不过本发明在计算自注意力操作的时候，其中的权重来自于下层运算层的计算结果，而非根据现有的词向量进行计算得到的。由于之前步骤中已经验证了层块之间相似度很高，即各层块之间的其输出结果变化并不大，因此层块直接共享底层注意力权重的方式后对性能的影响也较小。

这种方法虽然在使用了下层的权重，但由于在注意力操作计算的时候 Value矩阵V的值是得到更新了的，因此不会出现完全复用下层自注意力操作结果的情况出现，这也保证了模型中多层结构的有效性。

步骤401)选取一个第二阈值θ₂，当相似度sim(m，n)≥θ₂时，将此层与之前的层共享其编码解码注意力权重，作为一个层块；这一阈值选择由于注意力的类型不同，所以第二阈值的选择与会不同于第一阈值。

步骤402)从编码端第1层开始，搜索满足标准的最大块；重复此过程，直到搜索完所有层；

步骤403)若相似度大于第二阈值θ₂，则从m层到n层中每层在得到注意力计算结果Aⁿ时，直接将m层的注意力计算结果A^m代替Aⁿ。

在步骤402)中，当需要产生三层及以上的层块时，须将三层及以上层块的各层之间相似度进行平均再与第二阈值θ₂比较，若相似度平均值大于第二阈值θ₂，则这一层块均共享m层的注意力计算结果A^m。

步骤4)将注意力权重共享的方式应用到编码器解码器之间的注意力机制中来。编码器解码器之间的注意力操作是在解码器这一端计算的，该结构的主要目的在于通过现有已经翻译出的译文词汇中包含的信息来推断下一个待预测的词汇和源语端(编码端)哪些词汇序列更相关，这样做可以使得模型可以更有针对性地从源语中捕获信息来对当前待翻译的词汇进行翻译。

基于编码器解码器注意力共享的思路在于可以利用之前层中计算出的解码端词汇和编码端词汇之间的对应的注意力计算结果作为当前层中的注意力计算的结果，这种方法有效的假设是认为解码端的自注意力得到的词向量信息在经过较少层的传递之后并不会发生特别大的改变，因此它们和源语端序列的对应关系一般来说变化也不会特别大。在这种情况下，本发明将下层计算层中计算好的注意力结果作为本层中的注意力计算结果，这种方法对性能的影响将不大，尤其是当计算层和共享层之间距离较近的时候，即将第二阈值设置稍大时。整个基于共享编码解码部分的注意力结果的机器翻译模型框架如图4所示。

若简单的将下层计算层中的编码器解码器注意力权重共享到上层中使用的方式存在着一定的问题，因为共享后的注意力输出和下层计算层的输出结果完全一致，这将导致计算层和共享层之间的计算所得信息无法通过原有的方式有效地传递上来。从图4中也能看到出，其中虚线框部分代表任意一层解码端内部的结构，可以看到当使用了共享机制后，下层计算层中计算好的信息当传递到共享层的自注意力层之后(包括对应的残差和正则化的部分)，并没有有效地继续传递上去，仅仅通过残差的方式传递了部分信息上去(图4虚线框中的实线框)，因此会导致层和层之间信息传递的断连。可以和传统的未使用共享机制的方式进行对比，共享的模式去掉了原本自注意力部分计算出的结果到编解码注意力模块之间的连接，所以在共享的时候，本发明直接共享了下层的注意力结果，避免了这个问题。

步骤5)中将用户需要翻译源语的词表输入模型中，经过每一个层块依次计算之后，会得到一个对所有目标语词表概率分布，在上述概率分布中会选取最高的词作为用户输入的翻译结果。

现有的基于自注意力机制的神经机器翻译系统放弃使用传统的神经网络结构(比如循环神经网络、卷积神经网络等)，因此其结构中除了简单的前馈网络之外几乎都是通过注意力机制对序列的转换进行建模的。在编码器、解码器内部通过自注意力的机制分别对源语言和目标语言进行建模，在编码器、解码器之间通过传统的普通注意力机制对两种语言词汇之间的对应关系进行学习。因此在推断的过程中大部分的时间消耗也是集中在了注意力操作中了。注意力机制的时间占比占到整体推断时间的60％以上，通过减少计算注意力权重的次数提升系统在推断过程中的效率。本发明提出了一种基于注意力机制神经机器翻译推断加速方法，该算法在推断速度上平均获得1.3倍的加速比，同时模型性能几乎没有下降。

Claims

1.一种基于注意力机制神经机器翻译推断加速方法，其特征在于包括以下步骤：

2.按权利要求1所述的基于注意力机制神经机器翻译推断加速方法，其特征在于：步骤1)中，多层神经机器翻译的模型包括编码端和解码端，使用注意力机制，当使用多头注意力机制时，其每个头的计算公式为：

3.按权利要求1所述的基于注意力机制神经机器翻译推断加速方法，其特征在于：步骤2)中计算其任意两层之间的参数相似度，具体为：

4.按权利要求1所述的基于注意力机制神经机器翻译推断加速方法，其特征在于：步骤3)中，编码端与解码端中的自注意力需要根据层与层的相似度来进行共享，步骤为：

5.按权利要求4所述的基于注意力机制神经机器翻译推断加速方法，其特征在于：步骤302)中，当需要产生三层及以上的层块时，须将三层及以上层块的各层之间相似度进行平均再与第一阈值θ₁比较，若相似度平均值大于第一阈值θ₁，则这一层块均共享m层的注意力权重S^m。

6.按权利要求1所述的基于注意力机制神经机器翻译推断加速方法，其特征在于：步骤4)中，编码解码注意力需要根据层与层的相似度来进行共享，步骤为：

7.按权利要求6所述的基于注意力机制神经机器翻译推断加速方法，其特征在于：步骤402)中，当需要产生三层及以上的层块时，须将三层及以上层块的各层之间相似度进行平均再与第二阈值θ₂比较，若相似度平均值大于第二阈值θ₂，则这一层块均共享m层的注意力计算结果A^m。