CN113887251A

CN113887251A - 一种结合Meta-KD框架和细粒度压缩的蒙汉机器翻译方法

Info

Publication number: CN113887251A
Application number: CN202111151158.5A
Authority: CN
Inventors: 苏依拉; 郭晨雨; 韩春辉; 仁庆道尔吉; 吉亚图
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2022-01-04
Anticipated expiration: 2041-09-29
Also published as: CN113887251B

Abstract

一种结合Meta‑KD框架和细粒度压缩的蒙汉机器翻译方法，对中文语料、英文语料、蒙古文语料进行数据预处理以及数据集划分，利用Meta‑KD框架进行汉英翻译的学习，对BERT语言模型进行训练，然后根据元蒸馏算法使学生模型在元教师的指导下学习，得到用于蒙汉翻译的可迁移知识，结合细粒度压缩方法，在学生模型上进行蒙汉翻译的训练验证。本发明通过Meta‑KD的框架进行数据集的训练，更适合进行小语种的翻译，得到更准确翻译结果；而细粒度的压缩使得训练好的模型具有更快的训练速度。然后，本发明结合细粒度压缩的方法，通过信息熵对信息表示进行细粒度压缩，从而达到模型加速推断的目的。

Description

一种结合Meta-KD框架和细粒度压缩的蒙汉机器翻译方法

技术领域

本发明属于人工智能技术领域，涉及机器翻译，特别涉及一种结合Meta-KD框架和细粒度压缩的蒙汉机器翻译方法。

背景技术

机器翻译是借助计算机自动地将一种自然语言(源语言)转化为含义相同的另外一种自然语言(目标语言)的过程，它依赖平行语料库规模以及质量。

蒙语属于小语种，故此蒙汉翻译的语料库规模小，训练出来的模型不够理想。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种结合Meta-KD框架和细粒度压缩的蒙汉机器翻译方法，以解决小规模语料库的蒙汉机器翻译水平。

为了实现上述目的，本发明采用的技术方案是：

一种结合Meta-KD框架和细粒度压缩的蒙汉机器翻译方法，包括如下步骤：

步骤1，对中文语料、英文语料、蒙古文语料进行数据预处理以及数据集划分，得到汉英训练集、汉英验证集和汉英测试集，以及蒙汉训练集、蒙汉验证集和蒙汉测试集；

步骤2，利用Meta-KD框架进行汉英翻译的学习，在Meta-KD框架下，对BERT语言模型进行训练，然后根据元蒸馏算法使学生模型在元教师的指导下学习，得到用于蒙汉翻译的可迁移知识；

步骤3，结合细粒度压缩方法，在学生模型上进行蒙汉翻译的训练验证，即利用步骤2学习到的可迁移知识进行蒙汉翻译的训练验证。

所述步骤1中，采用数据压缩算法BPE将中文语料进行字粒度切分预处理操作；采用英文预处理工具Standford-ner对英文语料进行词预处理操作；采用字节对编码对蒙古文语料进行字词预处理，将蒙古文切分为比词级粒度更小的粒度。

所述Meta-KD框架通过训练汉英翻译领域的元教师来帮助学习蒙汉翻译领域的学生模型，首先在汉英领域数据集训练，通过使用域损坏丢失来获取汉英翻译领域的元知识，学生模型通过来自元教师的指导来解决蒙汉翻译领域数据集中的任务。

所述Meta-KD框架由元教师学习和元蒸馏组成，在所述元教师学习中，将BERT语言模型作为基础学习器进行文本分类任务，将汉英训练集D＝{s^j,y^j}中的第j个汉语样本s^j输入BERT语言模型中进行编码，y^j为对应的英语翻译结果，计算每个汉语样本s^j的原型分数S^j，使用原型分数S^j作为权重来分配给每个汉语样本s^j，以定义元教师的交叉熵损失，并利用域损坏丢失来增加元教师学习可迁移知识的能力，从而在汉英翻译领域学习了一个元教师；

在元蒸馏过程，使用小规模BERT语言模型作为学生模型，引入元教师的可迁移知识的蒸馏损失，在元教师的指导下用学生模型解决蒙汉翻译的训练任务。

所述步骤3中，将信息熵作为BERT语言模型不同注意力层的注意力权重所包含的信息量大小的衡量指标，通过细粒度压缩对Transformer模型的编码器中每一层注意力的查询表示Q和键表示K进行信息压缩，从而在译文质量不发生明显改变的情况下提升Transformer翻译模型的推断速度。

所述步骤3中，细粒度压缩方法是通过信息熵对信息表示进行细粒度压缩，从而达到加速推断的目的。

与现有的蒙汉机器翻译方法相比，本发明通过Meta-KD的框架进行数据集的训练，更适合进行小语种的翻译，得到更准确翻译结果；而细粒度的压缩使得训练好的模型具有更快的训练速度。然后，本发明结合细粒度压缩的方法，通过信息熵对信息表示进行细粒度压缩，从而达到模型加速推断的目的。

附图说明

图1是本发明翻译流程示意图。

图2是本发明Meta-KD的框架图。

图3是本发明元蒸馏概述和用于KD的神经结构图。

图4是本发明融合Transformer框架。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

如图1所示，一种结合Meta-KD的框架模型和细粒度压缩的蒙汉翻译方法，包括：

步骤1，对中文语料、英文语料、蒙古文语料进行数据预处理以及数据集划分，得到汉英训练集、汉英验证集和汉英测试集，以及蒙汉训练集、蒙汉验证集和蒙汉测试集。具体如下：

1)对中文语料，借鉴数据压缩算法BPE，将进行字粒度切分，并在字间加入空格进行分字，然后输出到新的文本；

2)对英文语料，用英文预处理工具Standford-ner进行词预处理操作。

3)对蒙古文语料，采用字节对编码进行字词预处理，将蒙古文切分为比词级粒度更小的粒度。例如，对于下文的蒙古文(汉语意思为“衷心祝贺”)，处理前后对比如下：

处理前：

处理后：

步骤2，利用Meta-KD框架进行汉英翻译的学习，在Meta-KD框架下，对预训练的BERT语言模型进行训练，然后根据元蒸馏算法使学生模型在元教师的指导下学习，得到用于蒙汉翻译的可迁移知识。

本步骤的原理在于，利用Meta-KD框架将已经预训练好的开源BERT语言模型作为基础学习器进行文本分类任务，BERT语言模型由Transformer模型的编码器堆叠而成，Transformer模型的主体是基于自注意力机制构造的编码器和解码器。将源语言句子输入已经训练好的开源BERT语言模型，输出包含该句子语义信息的语义表示向量，再将此语义表示向量融入Transformer模型的编码器中。具体地，Transformer模型的编码器中加入BERT注意力模块，可将BERT语言模型的输出直接当作每一层编码器中BERT注意力模块的输入，并随机初始化BERT注意力模块参数，接收BERT语言模型的输出，从而将中文的语义信息融入编码器，引入更多的语义信息。编码器中的自注意力机制是注意力机制的改进，其减少了对外部信息的依赖，捕捉数据或特征的内部相关性。

Meta-KD(元知识蒸馏)框架通过训练汉英翻译领域的元教师来帮助学习蒙汉翻译领域的学生模型。参考图2，该框架由元教师学习和元蒸馏两部分组成。首先在汉英领域数据集训练，通过使用域损坏丢失来获取汉英翻译领域的元知识，学生模型通过来自元教师模型的指导来解决蒙汉翻译领域数据集中的任务。为了提高学生模型的蒸馏能力，元蒸馏通过最小化中间层，输出层和可迁移知识的蒸馏损失，并结合领域知识加权技术。

具体地，在元教师学习中：

将BERT语言模型作为基础学习器进行文本分类任务，将汉英训练集D＝{s^j,y^j}中的第j个汉语样本s^j输入BERT语言模型中进行编码，y^j为对应的英语翻译结果，定义h(s^j)为字符嵌入的平均池化，即

L为样本输入BERT后得到的编码最大序列长度。

计算每个汉语样本s^j的原型分数S^j，S^j＝αcos(Y^m,h(s^j))，其中cos是余弦相似函数，α是预定义的超参数。

将汉英翻译中第m类的原型表示定义为：

其中D^m是具有第m类标签的训练集。

元教师应该从汉英翻译的实例中学习更多，对于文本分类任务，使用原型分数S^j作为权重来分配给每个样本s^j，以定义元教师的交叉熵损失。

除了交叉熵损失外，利用域损坏丢失来增加元教师学习可迁移知识的能力。在原始的BERT语言模型基础上再构建一个子网络：

h_d(s^j)＝tanh(h(s^j)+ε_D(s^j))ω+β

其中ε_D(s^j)为|h(s^j)|维度的领域，ω，β为子网络的参数。

汉英的语料库的样本域损坏丢失定义为

τ(s^j)＝-logδ(h_d(s^j))

τ_nor(s^j)是文本分类任务的正常交叉熵损失，元教师的总损失是τ(s^j)和τ_nor(s^j)的加权组合，λ₁是表示域损坏丢失对整体损失的影响大小。

至此，在汉英翻译领域学习了一个元教师，元教师学习的汉英翻译领域里的可迁移知识在监督蒙汉翻译的模型时具有更好的泛化能力。

在元蒸馏中：

用较小规模的BERT模型作为学生模型，元蒸馏框架如图3所示，令τ_embed(W,E,s^j)，τ_hi(W,E,s^j)，τ_attn(W,E,s^j)分别是输入嵌入，元教师学习中的BERT模型(元教师模型)和元蒸馏中的较小规模的BERT模型(学生模型)的隐藏状态和注意力矩阵的MSE损失。λ_pred(W,E,s^j)是输出层的软交叉熵损失，KD(蒸馏)的总损失为所有的损失之和。

τ_KD＝∑(τ_embed(W,E,s^j)+τ_hid(W,E,s^j)+τ_attn(W,E_n,s^j)+τ_pred(W,E,s^j))

将元教师的可迁移知识考虑在内，令

和

是元教师模型和学生模型在输入s^j上的可迁移知识。

是一个可学习的投影矩阵以匹配

和

则可迁移的知识蒸馏损失为

由于元教师和特定领域的学生模型间存在领域差距所以对每个样本s^j定义权重λ^j，

由此得到了KD损失的完整形式，τ′_KD是获得可迁移知识的整体损失，其中γ₂是表示可迁移知识的损失对整体损失的影响，如下所示：

τ′_KD＝∑λ^j(τ_embed(W,E,s^j)+τ_hid(W,E,s^j)+τ_attn(W,E,s^j)+τ_pred(W,E,s^j))+γ₂τ_tKD(W,E,s^j)

步骤3，结合细粒度压缩方法，在元教师的指导下，在学生模型上进行蒙汉翻译的训练验证，即利用步骤2学习到的可迁移知识进行蒙汉翻译的训练验证。

其中，细粒度压缩方法是通过信息熵对信息表示进行细粒度压缩，具体地，将信息熵作为BERT语言模型不同注意力层的注意力权重所包含的信息量大小的衡量指标，通过细粒度压缩对Transformer模型的编码器中每一层注意力的查询表示Q和键表示K进行信息压缩，从而在译文质量不发生明显改变的情况下提升Transformer翻译模型的推断速度。

细粒度表示维度如下:

其中，

为细粒度表示维度，W(E)为细粒度表示维度函数，γ为映射比例的下界，用来表示空间的压缩程度；E表示Transformer翻译模型的注意力层的信息量，E_min和E_max为所有层中信息量的最小值和最大值，E_max计算公式如下：

公式中w_k为压缩前查询表示Q和键表示K的维度。进一步地，可将BERT语言模型以注意力机制融入Transformer模型的每一层编码器中，将细粒度压缩方法融入Transformer模型的解码器中，如图4所示。

为使本发明的蒙汉翻译流程更清楚，以下句蒙古语为例将翻译过程进行详细描述。

对蒙古语句子

进行翻译过程如下：

对蒙古语进行字粒度切分，得到

编码器对句子解码为实数向量，该向量代表着此句子的语义信息。

将实数向量和可迁移知识作为输入，利用Transformer模型进行翻译，解码器将该向量反向解码的到对应的汉语句子，注意力机制使得解码器联系蒙古语的上下文，例如，与此蒙语最相关的汉语是衷心祝贺！

最后对翻译的结果进行BLEU评测。

得到完整的汉语翻译译文为：“衷心祝贺！”

综上，本发明在进行蒙汉翻译的过程中，通过使用Meta-KD框架进行模型压缩，应对了大的模型参数以及长的推理的瓶颈，在翻译准确度的同时降低模型尺寸和计算开销；通过使用细粒度压缩的方法使得模型能够有更快的训练速度。

Claims

1.一种结合Meta-KD框架和细粒度压缩的蒙汉机器翻译方法，其特征在于，包括如下步骤：

2.根据权利要求1所述结合Meta-KD框架和细粒度压缩的蒙汉机器翻译方法，其特征在于，所述步骤1中，采用数据压缩算法BPE将中文语料进行字粒度切分预处理操作；采用英文预处理工具Standford-ner对英文语料进行词预处理操作；采用字节对编码对蒙古文语料进行字词预处理，将蒙古文切分为比词级粒度更小的粒度。

3.根据权利要求1所述结合Meta-KD框架和细粒度压缩的蒙汉机器翻译方法，其特征在于，所述Meta-KD框架通过训练汉英翻译领域的元教师来帮助学习蒙汉翻译领域的学生模型进行训练，元教师学习首先在汉英数据集学习，通过使用域损坏丢失来获取汉英翻译领域的元知识，学生模型通过来自元教师的指导来解决蒙汉翻译领域数据集中的任务。

4.根据权利要求1所述结合Meta-KD框架和细粒度压缩的蒙汉机器翻译方法，其特征在于，所述Meta-KD框架由元教师学习和元蒸馏组成，在所述元教师学习中，将大规模BERT语言模型作为基础学习器进行文本分类任务，将汉英训练集D＝{s^j,y^j}中的第j个汉语样本s^j输入BERT语言模型中进行编码，y^j为对应的英语翻译结果，计算每个汉语样本s^j的原型分数S^j，使用原型分数S^j作为权重来分配给每个汉语样本s^j，以定义元教师的交叉熵损失，并利用域损坏丢失来增加元教师学习可迁移知识的能力，从而在汉英翻译领域学习了一个元教师；

在所述元蒸馏，使用小规模BERT语言模型作为学生模型，引入元教师的可迁移知识的蒸馏损失，在元教师的指导下用学生模型解决蒙汉翻译的训练任务。

5.根据权利要求1所述结合Meta-KD框架和细粒度压缩的蒙汉机器翻译方法，其特征在于，所述步骤3中，将信息熵作为BERT语言模型不同注意力层的注意力权重所包含的信息量大小的衡量指标，通过细粒度压缩对Transformer模型的编码器中每一层注意力的查询表示Q和键表示K进行信息压缩，从而在译文质量不发生明显改变的情况下提升Transformer翻译模型的推断速度。

6.根据权利要求1的所述结合Meta-KD框架和细粒度压缩的蒙汉机器翻译方法，其特征在于，所述步骤3中，细粒度压缩方法是通过信息熵对信息表示进行细粒度压缩，从而达到加速推断的目的。