CN111178095B

CN111178095B - 一种面向子词切分的BPE-Learn加速方法

Info

Publication number: CN111178095B
Application number: CN201911323647.7A
Authority: CN
Inventors: 杜权; 刘兴宇
Original assignee: Shenyang Yayi Network Technology Co ltd
Current assignee: Shenyang Yayi Network Technology Co ltd
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2023-06-27
Anticipated expiration: 2039-12-20
Also published as: CN111178095A

Abstract

本发明公开一种面向子词切分的BPE‑Learn加速方法，步骤为：读入训练数据，统计每个词在语料中出现的次数，记为词汇表；将词汇表切分成N份子表；子进程中以字符为单位作为字节对统计的基本单元；多个子进程同时开始统计各自子表中的字节对，并通过通讯队列告知主进程统计结束；主进程读取临时文件汇总每个子进程的统计结果，挑选频次最高的字节对，保存到文件中，同时进行剪枝；子进程等待接收主进程信号，对不切分字节对频次置零，重新统计并更新来源词的字节对频次返还给主进程；主进程保存的文件中的字节对满足数量要求时结束统计。本发明缩短了训练前子词切分中的字节对统计时间，在神经机器翻译模型训练中，提高了GPU使用率。

Description

一种面向子词切分的BPE-Learn加速方法

技术领域

本发明涉及机器翻译领域，具体为一种面向子词切分的BPE-Learn加速方法。

背景技术

神经机器翻译(NMT)是一种以词为最小单元的机器翻译技术。由于NMT系统涉及巨量的计算复杂度，系统为了保持资源和时耗在一个可用的范围内，限制了NMT词表为一个固定大小的词汇表，未曾出现在训练语料中的词汇称为未登录词(OOV)。对于未登录词，NMT系统使用统一标记UNK来代替，这种方式导致未登录翻译的译文不准确，甚至会破坏整句的译文结构。为了避免未登录词的出现，研究者提出了子词切分方法BPE。经过子词切分之后，词被切分成了更小粒度的子词，未登录词会被切分成已存在的多个子词形式。

BPE方法基于统计的思想，分别统计训练语料中原语和目标语的字节对出现频次，根据统计结果对原语和目标语分别进行子词切分，切分过程中保留高频字节对，切分低频字节对。传统BPE算法主要包括以下两个步骤：

1)BPE-Learn：统计单语语料中词汇内部的字节对频次，将统计结果写出到文件bpe.code中；

2)BPE-Apply：加载bpe.code文件，根据字节对的频次高低切分子词。

在BPE算法的步骤1)中，BPE-Learn用于统计字节对频次，当训练语料的数据量增长时，统计所需要的计算量将翻倍增长。神经机器翻译的训练依赖于大规模的训练语料，很多优异的语种训练数据高达千万级甚至是亿级。在这种海量的数据下，BPE-Learn过程会消耗大量的时间，长达几个小时甚至十几个小时，使得训练前的数据预处理过程占用了大量的时间，同时对宝贵的GPU资源也造成了一定的浪费。

BPE-Learn是在全量语料下进行统计，不允许将数据分割统计，普通的多进程同步加速方式只能获取局部的字节对频次，并不能代表全局的最高频次。

因此传统的BPE-Learn算法无法在海量数据下短时间内完成字节对统计，也不能通过数据分割等方式实现字节对统计的多进程加速。

发明内容

针对神经机器翻译训练过程中，大数据下BPE-Learn算法严重耗时的不足，本发明要解决的问题是提供一种多进程策略保证字节对统计结果一致并缩减BPE-Learn统计时间的面向子词切分的BPE-Learn加速方法。

为解决上述技术问题，本发明采用的技术方案是：

本发明一种面向子词切分的BPE-Learn加速方法，包括以下步骤：

1)读入训练数据，按照空格切分数据，统计每个词在语料中出现的次数，记为词汇表；

2)将词汇表切分成N份子表，为每份子表创建独立子进程，用于字节对统计，并为每个子进程分配通信队列，用于与主进程之间交互；

3)子进程中首先以字符为单位作为字节对统计的基本单元；

4)多个子进程同时开始统计各自子表中的字节对，统计任意相邻单元的字节对频次，并保留每个字节对的来源词汇，最后将字节对频次结果写出到临时文件中，并通过通讯队列告知主进程统计结束；

5)主进程读取临时文件汇总每个子进程的统计结果，挑选频次最高的字节对，作为首个不切分字节对，保存到文件中，同时根据统计情况向子进程传递信号进行剪枝；如果保存的字节对数量达到期望的数量则结束统计，否则将该字节对传递给每个子进程；

6)子进程等待接收主进程信号，对不切分字节对频次置零，并视为整体单元，查找该字节对的来源词汇，重新统计并更新来源词的字节对频次，通过通讯队列返还给主进程；

7)重复步骤5)至步骤6)，直到主进程保存的文件中的字节对满足数量要求时结束统计，实现了BPE-Learn方法的加速。

步骤3)中，首先以字符为单位，将词按字符切分为单元列表，通过遍历该列表即可统计相邻单元；在每个初始的单元列表末尾添加统一标记</w>。

步骤4)中，统计任意相邻单元的字节对频次，具体为：

401)子表排序，将子表中的词汇按照词频从大到小排序；

402)遍历子表词汇，遍历每个词的单元列表，取相邻单元组成字节对；

403)将字节对在词中的次数乘该词的频率，得到字节对总频次。

步骤5)中主进程得到最高频次字节对后，根据频次大小做了适当的剪枝，具体步骤如下：

501)汇总子进程统计结果，挑选频次最高的字节对；

502)如果是第一次统计结束，计算最高频次值除以10取整，作为剪枝的阈值；在以后的统计中，比较最高频次是否小于已存在的阈值，如果小于已存在的阈值则发送信号要求子进程恢复剪枝数据后重新统计；

503)得到大于阈值的最高频字节对后，遍历所有其余字节对，将频次小于阈值的字节对传递给子进程，要求子进程进行字节对删减实现剪枝。

步骤6)中子进程需要根据主进程传递的不同信号完成不同的任务，具体为：

601)当接收到主进程传递的剪枝信号时，遍历需要剪枝的字节对，并将自己其从自己的统计结果中删除，删除前需要备份；

602)当接收到主线程传递的重新统计信号时，恢复备份中的字节对，再重新统计字节对频次。

本发明具有以下有益效果及优点：

1.本发明方法应用于大量数据的神经机器翻译训练中，支持多进程同步字节对统计，有效缩短了训练前子词切分中的字节对统计时间，在神经机器翻译模型训练中，提高了GPU使用率。

附图说明

图1为本发明初始化单元列表样例图；

图2为本发明方法的结构图；

图3为本发明字节对统计与合并样例图。

具体实施方式

下面结合说明书附图对本发明作进一步阐述。

本发明提出一种面向子词切分的BPE-Learn加速方法，使用多进程统计与交互模式加速BPE-Learn算法，解决神经机器翻译训练中子词切分严重耗时的问题。

如图2所示，本发明BPE-Learn算法加速，包括以下步骤：

3)子进程中首先以字符为单位作为字节对统计的基本单元；

如图1所示样例，步骤3)中首先以字符为单位，为了便于统计相邻单元的字符，将词按字符切分为单元列表，通过遍历该列表即可统计相邻单元。为了能够表示词尾信息，在每个初始的单元列表末尾添加统一标记</w>。

步骤4)中，统计字节对的详细步骤如下：

401)子表排序，将子表中的词汇按照词频从大到小排序；

501)汇总子进程统计结果，挑选频次最高的字节对；

503)得到大于阈值的最高频字节对后，遍历所有其余字节对，将频次小于阈值的字节对通过文件传递给子进程，要求子进程进行字节对删减实现剪枝。

步骤6)中，子进程需要根据主进程传递的不同信号完成不同的任务，样例如图3所示，子进程接收到不切分字节对后，将其视为整体单元，将单元列表中的这两个单元合并成一个单元，形成新的单元列表用于统计新的字节对频次，具体步骤如下：

本发明方法使用多个子进程同时统计子表的字节对频次，由于子表词数要远远小于总表，所以每个子进程统计子表的字节对频次更快，同理子进程在使用高频字节对更新基本单元也更快。子表的频次不足以表现语料全部字节对情况，因此主进程汇总所有子进程的统计结果再查找最高频字节对，利用进程通讯队列传递交互信号，利用文件作为字节对频次和要剪枝字节对的传输媒介，当传输内容多时文件读取要快于进程通讯队列。

使用5千万句小写化英文数据作为字节对统计的输入数据，测试前5轮时间对比结果如下表：

统计轮数	最高频字节对	传统法耗时(秒)	本发明耗时(秒)
				1	(t,h)	14.155849	5.049770
2	(i,n)	1.172236	0.487818
				3	(th,e</w>)	4.438514	0.543465
4	(a,n)	0.688112	0.024234
				5	(r,e)	5.057595	0.625184

随着轮数的增加，每轮统计消耗的时间逐渐减少，最终完成1万轮时的时间差距没有前5轮那么明显，最终传统方法耗时285.566秒，本发明方法耗时202.384，有明显的加速效果。

Claims

1.一种面向子词切分的BPE-Learn加速方法，其特征在于包括以下步骤：

1）读入训练数据，按照空格切分数据，统计每个词在语料中出现的次数，记为词汇表；

2）将词汇表切分成N份子表，为每份子表创建独立子进程，用于字节对统计，并为每个子进程分配通信队列，用于与主进程之间交互；

3）子进程中首先以字符为单位作为字节对统计的基本单元；

4）多个子进程同时开始统计各自子表中的字节对，统计任意相邻单元的字节对频次，并保留每个字节对的来源词汇，最后将字节对频次结果写出到临时文件中，并通过通讯队列告知主进程统计结束；

5）主进程读取临时文件汇总每个子进程的统计结果，挑选频次最高的字节对，作为首个不切分字节对，保存到文件中，同时根据统计情况向子进程传递信号进行剪枝；如果保存的字节对数量达到期望的数量则结束统计，否则将该字节对传递给每个子进程；

6）子进程等待接收主进程信号，对不切分字节对频次置零，并视为整体单元，查找该字节对的来源词汇，重新统计并更新来源词的字节对频次，通过通讯队列返还给主进程；

7）重复步骤5）至步骤6），直到主进程保存的文件中的字节对满足数量要求时结束统计，实现了BPE-Learn方法的加速；

步骤4）中，统计任意相邻单元的字节对频次，具体为：

401）子表排序，将子表中的词汇按照词频从大到小排序；

402）遍历子表词汇，遍历每个词的单元列表，取相邻单元组成字节对；

403）将字节对在词中的次数乘该词的频率，得到字节对总频次；

步骤5）中主进程得到最高频次字节对后，根据频次大小做了适当的剪枝，具体步骤如下：

501）汇总子进程统计结果，挑选频次最高的字节对；

502）如果是第一次统计结束，计算最高频次值除以10取整，作为剪枝的阈值；在以后的统计中，比较最高频次是否小于已存在的阈值，如果小于已存在的阈值则发送信号要求子进程恢复剪枝数据后重新统计；

503）得到大于阈值的最高频字节对后，遍历所有其余字节对，将频次小于阈值的字节对传递给子进程，要求子进程进行字节对删减实现剪枝。

2.根据权利要求1所述的面向子词切分的BPE-Learn加速方法，其特征在于：

步骤3）中，首先以字符为单位，将词按字符切分为单元列表，通过遍历该列表即可统计相邻单元；在每个初始的单元列表末尾添加统一标记</w>。

3.根据权利要求1所述的面向子词切分的BPE-Learn加速方法，其特征在于步骤6）中子进程需要根据主进程传递的不同信号完成不同的任务，具体为：

601）当接收到主进程传递的剪枝信号时，遍历需要剪枝的字节对，并将自己其从自己的统计结果中删除，删除前需要备份；

602）当接收到主线程传递的重新统计信号时，恢复备份中的字节对，再重新统计字节对频次。