CN112257463B

CN112257463B - 一种中英互译的神经机器翻译模型的压缩方法

Info

Publication number: CN112257463B
Application number: CN202011212043.8A
Authority: CN
Inventors: 杜权
Original assignee: Shenyang Yayi Network Technology Co ltd
Current assignee: Shenyang Yayi Network Technology Co ltd
Priority date: 2020-11-03
Filing date: 2020-11-03
Publication date: 2023-08-15
Anticipated expiration: 2040-11-03
Also published as: CN112257463A

Abstract

本发明公开一种中英互译的神经机器翻译模型的压缩方法，随机初始化神经机器翻译模型的参数；通过在模型训练的目标函数中增加一个关于通道中缩放因子的L1正则项，输入语料库中的平行双语数据，对平行双语数据进行分词，利用分词后的平行双语数据训练一个缩放因子层较正常神经机器翻译模型更为稀疏的神经机器翻译模型；根据设定的压缩比例，对神经机器翻译模型中缩放因子小于上述压缩比例的通道进行裁剪；输入分词后的平行双语数据，对裁剪后的神经机器翻译模型进行参数调优，并继续训练到收敛为止，以此达到恢复神经机器翻译模型能力的目的。本发明方法在机器翻译上通过改进神经机器翻译模型的目标函数，最终达到减小模型参数大小的目的。

Description

一种中英互译的神经机器翻译模型的压缩方法

技术领域

本发明涉及一种神经机器翻译技术，具体为一种中英互译的神经机器翻译模型的压缩方法。

背景技术

机器翻译(Machine Translation，简称MT)是一门使用计算机进行自然语言之间相互翻译的学科。它是自然语言处理研究方向的一个支系，也是人工智能的最终目标之一。机器翻译相比于人工翻译，即使翻译质量有着一定差距，但是机器翻译的高效率以及低成本所带来的收益是极为可观的，并且对于促进人类文化交流有着重要意义。

早期的机器翻译研究都是以基于规则的方法为主，特别是在上世纪70年代，以基于规则方法为代表的专家系统是人工智能中最具代表性的研究领域。它的主要思想是以词典和人工书写的规则库作为翻译知识，用一系列规则的组合完成翻译。该方法的缺陷在于需要大量语言学专家构造规则，并且制定的规则难以统一，甚至人工定义的规则之间会出现冲突，造成基于规则的翻译系统的可扩展性和可维护性较差。

直到上世纪90年代，统计机器翻译逐渐兴起。它利用统计模型从单语或双语语料中自动学习翻译知识。统计机器翻译使用单语语料学习语言模型，使用双语平行语料学习翻译模型，并使用这些统计模型完成对翻译过程的建模。整个过程不需要人工编写规则，也不需要从实例中构建翻译模板。无论是词还是短语，甚至是句法结构，统计机器翻译系统都可以自动学习。但统计机器翻译需要对大量的双语平行语料进行统计分析，从而构造统计翻译模型来完成翻译。至2005年开始，统计机器翻译进入了十年黄金时期。在这一时期，各种基于统计机器翻译模型层出不穷，经典的基于短语的模型和基于句法的模型也先后被提出。

自2014年开始，随着机器学习技术的发展，基于深度学习的神经机器翻译逐渐兴起。它在短短几年内已经在大部分任务上取得了明显的优势。在神经机器翻译中，词串被表示成实数向量。翻译过程并不是在离散化的单词和短语上进行，而是在实数向量空间上计算，因此它对词序列表示的方式产生了本质的改变。在神经机器翻译中，序列到序列的转化过程可以由编码器-解码器框架实现。编码器将输入的源语经过编码形成一个稠密的语义向量，之后解码器结合语义向量进行自回归解码，生成最终关于目标语的翻译结果。这种方法不需要额外的人工特征工程，直接使用神经网络进行建模，同样也需要大量的双语语料进行训练。

目前，神经机器翻译系统已经取得较好的效果，如果神经机器翻译模型的经过较优的参数训练达到足够强的表示能力，那么与传统的基于规则的机器翻译方法和基于统计的机器翻译方法相比，在翻译速度与质量方面都有着较大的优势。由于神经机器翻译系统通过使用大量双语数据训练将双语特征自动抽取出来，所以相较于基于规则的方法与基于统计的方法，神经机器翻译具有更好的鲁棒性。但由于神经网络的自身特性，其模型结构存在着大量的矩阵运算，因此其在使用过程中对硬件的要求较高。对于资源受限的小型移动设备，计算与存储的优化更是成为一个待解决的难题，因此神经机器翻译系统的解码优化也成为翻译系统能否实用化的关键。

传统机器翻译模型的压缩方法在实际生活中已经得到了广泛应用，但依旧存在解码速度慢、不能很好地满足实时响应等难题。随着移动设备越来越普及，尽管深层网络具有优秀的性能，但是很难应用于移动设备，而移动设备因为其移动性较强且消耗低的优点，受到人们的广泛欢迎。所以能否在移动设备上使用机器翻译方法便成了机器翻译技术应用的关键问题。在传统的神经网络模型压缩方法中，模型压缩需要在模型上进行一系列复杂的操作才能取得较好的剪枝结果，耗时且难以实现，大大限制了机器翻译技术的实际应用。

发明内容

现有的神经机器翻译技术中依旧存在模型参数过大导致神经机器翻译训练消耗较大，硬件设备需求较高等问题，本发明要解决的技术问题是提供一种中英互译的神经机器翻译模型的压缩方法，能够在随机初始化的模型上，按照一定比例压缩模型。

为解决上述技术问题，本发明采用的技术方案为：

本发明提供一种中英互译的神经机器翻译模型的压缩方法，包括以下步骤：

1)利用神经机器翻译模型参数初始化规则，随机初始化神经机器翻译模型的参数；

2)通过在模型训练的目标函数中增加一个关于通道中缩放因子的L1正则项，输入语料库中的平行双语数据，对平行双语数据进行分词，利用分词后的平行双语数据训练一个缩放因子层较正常神经机器翻译模型更为稀疏的神经机器翻译模型；

3)根据设定的压缩比例，对神经机器翻译模型中缩放因子小于上述压缩比例的通道进行裁剪；

4)输入分词后的平行双语数据，对裁剪后的神经机器翻译模型进行参数调优，并继续训练到收敛为止，以此达到恢复神经机器翻译模型能力的目的；

5)反复迭代1)-3)步骤，直到神经机器翻译模型参数的压缩程度达到预期。

步骤2)中，神经机器翻译模型目标函数L的计算公式如下：

其中(x，y)表示训练输入和目标，W表示模型的可训练参数，f(·)表示神经机器翻译模型；第一项中l对应于神经机器翻译模型中正常训练的损失，第二项中，γ表示通道缩放因子，T表示通道缩放因子的集合，g(·)为对缩放因子的稀疏惩罚，常用L1正则化函数：g(s)＝|s|，而λ为一个超参数，用于平衡模型损失与缩放因子的稀疏惩罚。

步骤3)中，对神经机器翻译模型中缩放因子小于上述压缩比例的通道进行裁剪，是在训练一个缩放因子层参数较正常神经机器翻译模型更为稀疏的神经机器翻译模型后，按照设定比例，对缩放因子的通道进行裁剪，即将与数值较小的缩放因子以连乘状态相连接的参数和该缩放因子删除。

步骤4)利用训练数据对裁剪后的神经机器翻译模型进行参数调优，包括：

401)将训练数据输入裁剪后的神经机器翻译模型，计算裁剪后的模型对于训练数据的目标函数L′，计算公式如下：

其中(x，y)表示训练输入和目标，W表示模型的可训练参数，l(·)表示神经机器翻译模型的损失函数；f(x，W)表示神经机器翻译模型的输出；

402)将损失反向传播，计算神经机器翻译模型中待训练参数的梯度，并更新该参数公式如下：

其中t表示更新的步数，W_t为神经机器翻译模型中待训练参数，α为学习率，表示更新步幅的大小，需要随着训练进程不断更新调整；

403)利用步骤401)和步骤402)的公式不断更新模型的待训练参数，直到神经机器翻译模型对训练数据的损失收敛。

步骤5)反复迭代裁剪操作，直到模型参数的压缩程度达到预期，过程如下：

501)通过步骤1)中规定好的目标函数利用双语数据训练一个缩放因子层较正常神经机器翻译模型更为稀疏的神经机器翻译模型；

502)根据设定的压缩比例，对神经机器翻译模型中缩放因子的通道进行裁剪；

503)利用训练数据对裁剪后的神经机器翻译模型进行参数调优，并继续训练到收敛为止，以此达到恢复神经机器翻译模型能力的目的。

504)重复步骤501)～503)直到神经机器翻译模型参数的压缩程度达到预期。

本发明具有以下有益效果及优点：

1.本发明中英互译的神经机器翻译模型的压缩方法在机器翻译上通过改进神经机器翻译模型的目标函数，通过稀疏训练通道的缩放因子层，迭代剪掉通道中缩放因子较小的网络连接，最终达到减小模型参数大小的目的。

2.本发明提出的神经机器翻译模型压缩方法，该算法预计取得80％的压缩效果，同时模型性能维持在原有水平。

附图说明

图1为本发明中英互译的神经机器翻译模型的压缩方法流程图；

图2为本发明方法中神经翻译模型通道的裁剪示意图；

图3为本发明应用于现有的神经机器翻译模型示意图。

具体实施方式

下面结合说明书附图对本发明作进一步阐述。

本发明一种中英互译的神经机器翻译模型的压缩方法，包括以下步骤：

2)通过在模型训练的目标函数中增加一个关于通道中缩放因子的L1正则项，输入语料库中的平行双语数据，对平行双语数据进行分词，利用分词后的平行双语数据数据训练一个缩放因子层较正常神经机器翻译模型更为稀疏(本实施例以通道缩放因子0.05作为稀疏阈值)的神经机器翻译模型；

6)利用本发明方法训练得到的神经机器翻译模型进行机器翻译，将句子送入模型进行翻译，然后通过自回归的方式逐词解码，最终得到翻译结果。

在步骤2)中，神经机器翻译模型目标函数L的计算公式如下：

其中(x，y)表示训练输入和目标，W表示模型的可训练参数，f(·)表示神经机器翻译模型；第一项中l对应于神经机器翻译模型中正常训练的损失，而第二项中，γ表示通道缩放因子，T表示通道缩放因子的集合，g(·)为对缩放因子的稀疏惩罚，常用L1正则化函数：g(s)＝|s|，λ为一个超参数，用于平衡模型损失与缩放因子的稀疏惩罚。

在步骤3)中，对神经机器翻译模型中缩放因子小于上述压缩比例的通道进行裁剪，是在训练一个缩放因子层参数较正常神经机器翻译模型更为稀疏的神经机器翻译模型后，按照设定比例，对缩放因子的通道进行裁剪，即将与数值较小的缩放因子以连乘状态相连接的参数和该缩放因子删除。

如图1所示，左侧子图表示裁剪之前的通道缩放因子层；右侧子图表示裁剪之后的通道缩放因子层，其中灰色的通道表示被裁减掉的通道。本实施例以通道缩放因子0.05作为稀疏阈值，经过稀疏化训练，将实例中缩放因子小于0.05的通道进行裁剪，保留缩放因子大于等于0.05的通道。

其中(x，y)表示训练输入和目标，W表示模型的可训练参数，l(·)表示神经机器翻译模型的损失函数；

其中t表示更新的步数，α为学习率，表示更新步幅的大小，需要随着训练进程不断更新调整；

502)本实施例以通道缩放因子0.05作为稀疏阈值，经过稀疏化训练，将实例中缩放因子小于0.05的通道进行裁剪，保留缩放因子大于等于0.05的通道；

如图2所示，该图表示步骤5)中步骤501)～503)的不断迭代过程。以该实例为例，通过三次迭代过程，每次都按照步骤502)的标准压缩模型，最终完成中英互译的神经机器翻译模型的训练与压缩。

翻译过程将分好词的待翻译的源语言文本送入模型在编码器中进行参数计算，然后送进解码器中以自回归方式逐词解码，最终计算得到目标语的文本进行输出，如图3所示。以中英互译的小牛翻译机为例，应用该神经机器翻译的模型压缩方法，可以将原本内存大小为100MB的神经机器翻译模型压缩至内存大小为20MB的神经机器翻译模型，减少了应用神经机器翻译模型的硬件需求。

本发明通过对神经机器翻译模型定义一个新的目标函数：向神经机器翻译模型的基础目标函数增加一个关于缩放因子的L1正则项；在模型训练过程中，不断迭代稀疏化训练、裁剪缩放因子较小的通道以及继续训练修复模型这三个流程，达到压缩中英互译的神经机器翻译模型参数的目标；最终得到一个参数较小、速度较快且可应用于小型设备上的神经翻译模型。

Claims

1.一种中英互译的神经机器翻译模型的压缩方法，其特征在于包括以下步骤：

2.按权利要求1所述的中英互译的神经机器翻译模型的压缩方法，其特征在于：在步骤2)中，神经机器翻译模型目标函数L的计算公式如下：

3.按权利要求1所述的中英互译的神经机器翻译模型的压缩方法，其特征在于：在步骤3)中，对神经机器翻译模型中缩放因子小于上述压缩比例的通道进行裁剪，是在训练一个缩放因子层参数较正常神经机器翻译模型更为稀疏的神经机器翻译模型后，按照设定比例，对缩放因子的通道进行裁剪，即将与数值较小的缩放因子以连乘状态相连接的参数和该缩放因子删除。

4.按权利要求1所述的中英互译的神经机器翻译模型的压缩方法，其特征在于：步骤4)利用训练数据对裁剪后的神经机器翻译模型进行参数调优，包括：

5.按权利要求1所述的中英互译的神经机器翻译模型的压缩方法，其特征在于：步骤5)反复迭代裁剪操作，直到模型参数的压缩程度达到预期，过程如下：

503)利用训练数据对裁剪后的神经机器翻译模型进行参数调优，并继续训练到收敛为止，以此达到恢复神经机器翻译模型能力的目的；