CN112395891A

CN112395891A - 一种结合Bert语言模型和细粒度压缩的汉蒙翻译方法

Info

Publication number: CN112395891A
Application number: CN202011393610.4A
Authority: CN
Inventors: 苏依拉; 张妍彤; 王涵; 程永坤; 仁庆道尔吉; 石宝
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2021-02-23

Abstract

本发明为解决目前汉蒙机器翻译译文质量低、翻译效果不理想问题，提出了一种结合Bert语言模型和细粒度压缩的汉蒙翻译方法，首先，本发明从蒙古文的语言特点出发，将蒙古文数据进行词根、词缀的切分，将中文进行字粒度切分。其次，本发明采用当前比较先进的谷歌提供的已经预训练好的开源Bert语言模型，将Bert语言模型的输出直接送入每一层编码器中的Bert注意力模块中，这样可以有效把中文的语义信息融入编码器。最后，本发明结合细粒度压缩的方法，通过信息熵对信息表示进行细粒度压缩，从而达到模型加速推断的目的。本发明在进行蒙汉翻译的过程中，通过使用Bert语言模型引入更多的语义信息，使翻译准确度更高；通过使用细粒度压缩的方法使得模型能够有更快的训练速度。

Description

一种结合Bert语言模型和细粒度压缩的汉蒙翻译方法

技术领域

本发明属于机器翻译技术领域，特别涉及一种结合Bert语言模型和细粒度压缩的汉蒙翻译方法。

背景技术

机器翻译是借助计算机自动地将一种自然语言(源语言)转化为含义相同的另外一种自然语言(目标语言)的过程。它高度依赖平行语料数据的规模以及质量。随着国际间交流日趋频繁，机器翻译作为一种重要的技术，在人们的生活中扮演着重要的角色。其发展历程从早期的词典匹配、规则翻译，到基于语料库的统计机器翻译，再到当前主流的神经网络机器翻译(NMT)。然而，目前可使用的蒙汉平行语料资源规模有限。

蒙古语是一种黏着语，属于阿尔泰语系，本发明研究的是传统蒙古文到中文的翻译。蒙古文单词以词根+词缀的形式呈现，词缀分为两类：一类是派生词缀，它和词根结合形成新的含义，一个词根后面结合一个或多个派生词缀形成词干；另一类结合词干用于表达语法含义。蒙古文词形变化非常复杂。它的语序与中文有很大的差别。

语言模型就是根据上下文去预测下一个词是什么，这不需要人工标注语料，所以它能够从无限制的大规模单语语料中，学习到丰富的语义知识。因此对于像蒙古语这样语料资源有限的语种，将语言模型融入到翻译模型中能够提高翻译质量。Bert语言模型是当前热门的选择之一，它的核心思想是：通过预训练为无标记的文本提供基于上下文信息的双向特征表征。Bert语言模型具备广泛的通用性。

目前，虽然已经有一些针对低资源语言的机器翻译技术被提出，但仍旧存在平行语料库匮乏的问题，同时大量注意力操作的使用也导致模型整体的推断效率相对较低从而导致翻译译文的质量并不理想。

发明内容

为了克服上述现有技术的缺点，解决目前汉蒙机器翻译译文质量低、翻译效果不理想问题，本发明的目的在于提供一种结合Bert语言模型和细粒度压缩的汉蒙翻译方法，可提高蒙汉翻译译文质量，加速模型推断速度。

为了实现上述目的，本发明采用的技术方案是：

一种结合Bert语言模型和细粒度压缩的汉蒙翻译方法，包括：

步骤1，将蒙古文数据和中文数据进行预处理；

步骤2，采用Transformer翻译模型，所述Transformer翻译模型的主体是基于自注意力机制构造的编码器和解码器；利用已经预训练好的开源Bert语言模型，将Bert语言模型的输出直接当作每一层编码器中Bert注意力模块的输入，从而将中文的语义信息融入编码器，引入更多的语义信息；

步骤3，结合细粒度压缩方法，通过信息熵对信息表示进行细粒度压缩，从而达到加速推断的目的。

所述步骤1中，从蒙古文的语言特点出发，对蒙古文数据进行词根、词缀的切分，得到比词级粒度更小的粒度；对中文数据进行分字以及字粒度切分。

所述步骤2中，Bert语言模型由Transformer模型的Encoder堆叠而成，其目标是利用大规模无标注语料训练、获得包含丰富语义信息的表示，为谷歌提供的开源模型。

所述步骤2中，首先将源语言句子输入已经训练好的开源Bert语言模型，输出的是包含该句子语义信息的语义表示向量，再将此向量融入编码器中。

所述Bert语言模型和细粒度压缩方法融入Transformer翻译模型。

所述步骤3中，将信息熵作为不同层的注意力权重所包含的信息量大小的衡量指标，通过细粒度压缩对解码器中每层注意力的查询表示Q和键表示K进行信息压缩，从而在译文质量不发生明显改变的情况下提升模型的推断速度。

对于一个随机变量X，信息熵的计算公式如下：

其中，E()是信息熵，P(·)为变量X的概率质量函数，G(·)表示所含信息量，x_i是第i个事件；

第d个序列的概率质量函数表为：

其中，P(C_t)是概率质量函数，C_t代表t时刻句子序列在注意力操作中当前候选语言片段被选中的事件，f_q和f_k分别为注意力子层的输入，d_k为压缩前查询表示Q和键表示K的维度，通过维度变换矩阵W_q和W_k得到Transformer翻译模型注意力层的查询表示Q和键表示K，直接以信息熵的均值作为模型某一层的权重信息量的衡量；

最终得到细粒度表示维度如下：

其中，

表示细粒度表示维度，B(E)表示细粒度表示维度函数，λ为映射比例的下界，用来表示空间的压缩程度；E表示每一层的信息量，E_min和E_max为所有层中信息量的最小值和最大值，E_max计算公式如下：

E_max＝ln(1/d_k)

公式中d_k为压缩前查询表示Q和键表示K的维度。

与现有的蒙汉机器翻译方法相比，本发明采用当前比较先进的Bert语言模型有效把源语言的语义信息融入翻译模型中。然后，本发明结合细粒度压缩的方法，通过信息熵对信息表示进行细粒度压缩，从而达到模型加速推断的目的。本发明的优势在于：通过使用Bert语言模型引入更多的语义信息，使翻译准确度更高，有效提升了蒙汉翻译译文的质量；通过使用细粒度压缩的方法使得模型能够有更快的训练速度。

附图说明

图1是本发明整体框架图。

图2是本发明的Bert语言模型图。

图3是本发明Bert语言模型中Masked LM框架图。

图4是本发明细粒度压缩示意图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

如图1所示，本发明一种结合Bert语言模型和细粒度压缩的汉蒙翻译方法，包括：

步骤1，将蒙古文数据和中文数据进行预处理。

具体地，从蒙古文的语言特点出发，对蒙古文数据进行词根、词缀的切分，得到比词级粒度更小的粒度；对中文数据进行分字以及字粒度切分。

BPE算法通过将句子拆分来缓解数据稀疏问题，从而提升翻译模型的鲁棒性。它的原理是：将词分割成字符，统计字符对出现的次数，每次将出现次数最多的字符对保存，直至循环次数结束。本发明在进行BPE算法之前，将中文句子进行分字处理，因此经过BPE算法之后粒度更小。

步骤2，采用Transformer翻译模型，Transformer翻译模型的主体是基于自注意力机制构造的编码器和解码器，并搭建了完全基于注意力机制的Seq2Seq模型。Transformer模型在任务表现、并行能力以及训练速度方面都有大幅提升。

本发明中，利用的Bert语言模型是谷歌提供的比较先进的开源模型，由Transformer模型的Encoder堆叠而成，其目标是利用大规模无标注语料训练、获得包含丰富语义信息的表示。语言模型通常采用大规模、与特定NLP任务无关的文本语料进行训练，其目标是学习语言本身应该是什么样的。在本发明中，利用已经预训练好的开源Bert语言模型，将Bert语言模型的输出直接当作每一层编码器中Bert注意力模块的输入，从而将中文的语义信息融入编码器。即，将源语言输入已经训练好的开源Bert语言模型，其输出的是包含该句子语义信息的语义表示向量，再将此向量融入编码器中。从而引入更多的语义信息，实现更好的翻译效果。

Bert注意力模块是新添加到Transformer编码器模型中的一部分，随机初始化其参数，目的是接收Bert语言模型的输出，从而有效的把中文的语义信息融入到编码器中；而编码器中的自注意力机制是注意力机制的改进，其减少了对外部信息的依赖，捕捉数据或特征的内部相关性。

Bert语言模型的改进方法之一是Masked LM，它的思想是：给定一句话，随机抹去这句话中的一个或几个词，要求根据剩余词汇预测被抹去的几个词分别是什么。在一句话中随机选择15％的词汇用于预测。对于在原句中被抹去的词汇，80％情况下采用一个特殊符号[MASK]替换，10％情况下采用一个任意词替换，剩余10％情况下保持原词汇不变。采取该手段主要原因是：在后续微调任务中语句中并不会出现[MASK]标记，其另一个好处是：迫使模型更多地依赖于上下文信息去预测词汇，并且赋予了模型一定的纠错能力。

步骤3，结合细粒度压缩方法，通过信息熵对信息表示进行细粒度压缩，从而在不损失翻译质量的基础上达到模型加速推断的目的。本发明可将Bert语言模型和细粒度压缩方法融入Transformer翻译模型，以求改善翻译质量和翻译速度。

本发明将信息熵作为不同层的注意力权重所包含的信息量大小的衡量指标，通过细粒度压缩对解码器中每层注意力的查询表示Q和键表示K进行信息压缩，从而在译文质量不发生明显改变的情况下提升模型的推断速度。

信息熵被用来衡量一个事件中包含信息的期望.由事件的概率分布和每个事件所包含的信息量构成了一个随机变量，熵就是分布产生的信息量的平均值。对于一个随机变量X，信息熵的计算公式如下式(1)：

第d个序列的概率质量函数表为式(2)：

最终得到细粒度表示维度如式(3)：

其中，

表示细粒度表示维度，B(E)表示细粒度表示维度函数，λ为映射比例的下界，用来表示空间的压缩程度；E表示每一层的信息量，E_min和E_max为所有层中信息量的最小值和最大值，E_max计算公式如式(4)：

E_max＝ln(1/d_k) (4)

公式中d_k为压缩前查询表示Q和键表示K的维度。

本发明具体实现步骤可描述如下：

1、对中文和蒙古语语料进行数据及划分以及数据预处理工作；数据集划分是指划分为训练集、验证集和测试集，数据预处理工作包括中文分词和蒙古语切分处理；

2、构建Transformer机器翻译模型构架，包括编码器和解码器；

3、将训练好的Bert语言模型以注意力机制融入Transformer模型的每一层编码器中，如图1所示，Bert语言模型的细节如图2和3所示；

4、将细粒度压缩方法应用到Transformer解码器中，如图4所示；

5、利用大规模的汉蒙平行语料进行翻译模型的训练；

综上，本发明在进行蒙汉翻译的过程中，通过使用Bert语言模型引入更多的语义信息，使翻译准确度更高；通过使用细粒度压缩的方法使得模型能够有更快的训练速度。

Claims

1.一种结合Bert语言模型和细粒度压缩的汉蒙翻译方法，其特征在于，包括：

步骤1，将蒙古文数据和中文数据进行预处理；

2.根据权利要求1所述结合Bert语言模型和细粒度压缩的汉蒙翻译方法，其特征在于，所述步骤1中，从蒙古文的语言特点出发，对蒙古文数据进行词根、词缀的切分，得到比词级粒度更小的粒度；对中文数据进行分字以及字粒度切分。

3.根据权利要求1所述结合Bert语言模型和细粒度压缩的汉蒙翻译方法，其特征在于，所述步骤2中，Bert语言模型由Transformer模型的Encoder堆叠而成，其目标是利用大规模无标注语料训练、获得包含丰富语义信息的表示。

4.根据权利要求1所述结合Bert语言模型和细粒度压缩的汉蒙翻译方法，其特征在于，所述步骤2中，首先将源语言句子输入已经训练好的开源Bert语言模型，输出的是包含该句子语义信息的语义表示向量，再将此向量融入编码器中。

5.根据权利要求1所述结合Bert语言模型和细粒度压缩的汉蒙翻译方法，其特征在于，所述Bert语言模型和细粒度压缩方法融入Transformer翻译模型。

6.根据权利要求5所述结合Bert语言模型和细粒度压缩的汉蒙翻译方法，其特征在于，所述步骤3中，将信息熵作为不同层的注意力权重所包含的信息量大小的衡量指标，通过细粒度压缩对解码器中每层注意力的查询表示Q和键表示K进行信息压缩，从而在译文质量不发生明显改变的情况下提升模型的推断速度。

7.根据权利要求6所述结合Bert语言模型和细粒度压缩的汉蒙翻译方法，其特征在于，对于一个随机变量X，信息熵的计算公式如下：

第d个序列的概率质量函数表为：

最终得到细粒度表示维度如下：

其中，

E_max＝ln(1/d_k)

公式中d_k为压缩前查询表示Q和键表示K的维度。