CN107491444B

CN107491444B - 基于双语词嵌入技术的并行化词对齐方法

Info

Publication number: CN107491444B
Application number: CN201710714527.4A
Authority: CN
Inventors: 袁春风; 黄宜华; 黄堃
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2017-08-18
Filing date: 2017-08-18
Publication date: 2020-10-27
Anticipated expiration: 2037-08-18
Also published as: CN107491444A

Abstract

本发明公开了一种基于双语词嵌入技术的并行化词对齐方法，在Spark平台上利用MPS‑Neg双语词嵌入技术获得双语词向量表，由双语词向量表获得词对齐模型，进而进行分布式词对齐任务，利用词对齐结果和MPS‑Neg更新双语词向量表，重复以上词对齐和双语词向量表更新操作直至指定迭代次数。本发明解决了现有词对齐方法不能很好适应大规模语料词对齐任务的问题。

Description

基于双语词嵌入技术的并行化词对齐方法

技术领域

本发明属于计算机自然语言处理和并行计算领域，具体是在Spark平台上实现的一种基于双语词嵌入技术的词对齐方法。

背景技术

词对齐作为机器翻译领域的关键技术之一，在许多自然语言处理任务中发挥着重要作用。1993年Brown等人提出将机器翻译基本方程式分为语言模型和翻译模型，并提出了IBM 1～5五种翻译模型。自此之后，IBM系列模型成为事实上的词对齐模型的标准，后续词对齐研究大多基于此系列模型展开，其中，基于HMM模型的词对齐方法对IBM模型2进行了改进，目前实际应用中常用HMM词对齐模型来替代IBM模型2。而主流词对齐工具GIZA++正是在IBM模型与HMM词对齐模型的基础上编写的。

基于IBM模型或HMM模型的词对齐均以基于词共现的方式来获取词翻译概率表，并以词翻译概率表作为模型参数来完成词对齐任务。随着语料库规模的日益增大，一方面使得词翻译概率的统计更为精准，然而另一方面也带给词对齐任务越来越大的数据处理压力，传统的单机词对齐算法在面对大数据集的词对齐任务时越来越难以适应，表现出其低效的一面。目前高速发展的大数据技术为提高词对齐算法效率提供了一条思路：以并行化的方式在集群上进行词对齐。然而，传统词对齐算法中需要生成规模庞大的词翻译概率表，该数据结构在并行化过程中将产生巨大的网络开销，拖慢整体词对齐效率。因此，寻求高质高效，易于并行化的词对齐方案成为当务之急。

发明内容

发明目的：为了解决体积庞大的词翻译概率表对于词对齐并行化效率的不利影响，本发明提出在Spark平台上使用双语词嵌入技术生成双语词向量表，并利用双语词向量表计算词翻译概率，进而进行词对齐任务。与大规模的词翻译概率表相比，双语词向量表占用内存少，传输开销小，又能精准地计算词翻译概率，极利于并行化处理，是大数据集环境下进行词对齐任务的良好选择。

为了实现上述发明目的，本发明的技术方案是：在Spark平台上实现的一种基于双语词嵌入技术的并行化词对齐方法，包含以下步骤：

(1)以Spark作为并行化计算平台，调用Spark MLlib中已经实现的Word2Vec词嵌入工具训练待对齐双语平行语料库，获得源语言的词表、词向量表和目标语言的词表、词向量表；

(2)利用小规模词对齐样本数据集和MPS-Neg(Multi-Positive-Sampls Negativesampling，多正样本负采样)双语词嵌入模型的的初始化模式(即I模式)对步骤(1)中得到的源语言和目标语言的词向量表进行训练，得到初始化的双语词向量表；

(3)利用双语词向量表完成基于双语词嵌入技术的并行化词对齐模型，进而对待对齐双语平行语料库进行分布式词对齐训练得到词对齐结果；

(4)利用步骤(3)中的词对齐结果和MPS-Neg双语词嵌入模型的更新模式(即U模式)对双语词向量表进行更新；

(5)重复步骤(3)和步骤(4)直至指定迭代次数。

进一步地，所述步骤(1)的过程具体如下：

1)对双语平行语料库的待对齐双语平行语料库进行预处理，并将预处理后的语料分布式地保存在各节点；

2)调用Spark MLlib中的Word2Vec工具分别对预处理后的待对齐双语平行文本的源语言和目标语言部分进行词嵌入训练，获得源语言的词表、词向量表和目标语言的词表、词向量表。

进一步地，所述步骤(2)的过程具体如下：

1)根据源语言和目标语言词表对小规模词对齐样本数据集进行编码，某个词在词表中的位置序号即为该词对应的词编码，对于未登录到源语言和目标语言词表中的词编码为-1；

2)获取小规模词对齐样本数据集的一个句对以及该句对的词对齐关系，双语句对为互译句对，为方便查找，词对齐关系以键值对(k,v)的形式保存，k为译文词在译文句中的位置，v为译文词对应源文词在源文句子中的位置；

3)获取步骤2)中每一个目标语言词汇的语境词向量，并对该目标语言词汇进行基于多正样本的负采样，获得指定个数的分级正样本以及对应的负样本集，根据一个目标语言词汇采样生成的所有正样本一起组成该目标语言词汇的正样本集，正样本集中的每一个正样本均对应一个负样本集，具体如下：

首先获取目标语言词汇t，根据词对齐关系获得句对中该词对应的源语言词汇s，接着根据指定的窗口大小w，将s的前w/2和后w/2个词作为语境，并在词向量表中获取它们的词向量，将这些词向量相加作为语境词向量，然后根据指定窗口大小wpos，将t以及t的前wpos/2和后wpos/2个词作为正样本，与t距离为d的正样本称为Ld正样本，t本身为L0正样本，所有正样本一起组成t对应的正样本集，最后对于正样本集中的每一个正样本，利用随机负采样的方式生成该正样本对应的负样本集，随机负采样的规则为：对于目标语言词表中的每一个词，其被采样的概率与其词频正相关，若采样到的词不属于正样本集，则将其添加到负样本集，否则不作任何操作，重复采样直至负样本集的大小达到指定规模；

4)利用步骤3)中获得的所有正样本集、负样本集以及语境词向量来更新双语词向量表，具体如下：

首先取一个正样本及其对应的负样本集，设置更新权重值weight＝k^d，其中k为常数且k∈(0,1)，d为该正样本到目标语言词汇t的距离，然后根据权重值weight，利用梯度下降法最小化正样本与语境词向量的距离，同时最大化负样本与语境词向量的距离，重复以上操作，即可完成所有样本对应的词向量的更新；

5)对于小规模词对齐样本数据集的所有句对依次执行步骤2)、3)和4)操作。

进一步地，所述步骤(3)的过程具体如下：

1)将源语言和目标语言词表以及双语词向量表通过Spark的broadcast机制共享到各个节点，从各节点读取待对齐双语平行语料库，根据源语言和目标语言词表对待对齐双语平行语料库进行编码；

2)利用双语词向量表作为词对齐模型的参数，对每个节点上的待对齐平行语料库进行词对齐，所用的词对齐模型为基于双语词嵌入技术的词对齐模型，该模型描述如下：

设一组互译的源译文句对组成如下：长度为m的源语言词序列S＝(s₁，s₂，...，s_m)，s_i为源语言词序列中的一个词，i∈[1，m]∩Z，Z为正整数集；长度为n的目标语言词序列T＝(t₁，t₂，...，t_n)，t_j为目标语言词序列中的一个词，j∈[1，n]∩Z。那么S和T的一个对齐可以表示为A＝{(1，a₁)，(2，a₂)，...，(m，a_m)}，其中a_l表示源语言序列中第l个词对应的目标语言词的下标，a_l∈[0，n]∩Z，l∈[1，m]∩Z。对齐A实质上建立了一个从源语言序列词下标集合到目标语言序列词下标集合的单映射。Prob(A|S，T)表示给定源语言序列S和目标语言序列T的情况下对齐A的概率，那么有：

上式中，

表示源语言词s_i与目标语言词

的互译概率，下文中将源语言词汇s与目标语言词汇t的互译概率pr(s，t)称为本词对齐模型的词汇相似度要素；pr(a_i，a_i-1，m)表示当前对齐位置a_i相对于前一对齐位置α_i-1和源语言序列长度m的偏移概率，下文中将位置i相对于位置j和源语言序列长度m的偏移概率pr(i，j，m)称为本词对齐模型的相对位置要素。对于词汇相似度要素，有

pr(s，t)＝α₁rel(r_s，r_t)+β₁

其中α₁和β₁为固定参数，r_s和r_t分别为s和t的词向量，rel(r_s，r_t)为相对相似度，有

上式中sim(r₁，r₂)为r₁与r₂间的词汇相似度，本发明中，以双语词向量间的cosine距离作为词汇相似度度量指标。

对于相对位置要素pr(i，j，m)，有

其中，α₂和β₂为固定参数，σ(x)为sigmoid函数。

在上述词对齐模型的基础上，利用动态规划可获得S与T的最优词对齐结果。

3)收集各个节点的词对齐结果。

进一步地，所述步骤(4)的过程具体如下：

1)将源语言和目标语言词表和双语词向量表通过Spark的broadcast机制共享到各个节点，根据源语言和目标语言词表对双语平行语料库进行编码；

2)对于每一个双语句对，并行地完成步骤3)至步骤4)；

本发明的有益效果是：(1)提出并实现了基于多正样本负采样技术的双语词嵌入模型MPS-Neg，该模型充分利用了源译文词汇的上下文语境信息，具有高精度的特点。(2)在Spark上实现了MPS-Neg的并行化，用于大规模训练语料情景下的并行化词向量更新。(3)提出基于双语词嵌入技术的词对齐模型，相比于传统的词对齐方法在词对齐正确率度上有较大提升，且易于实现高效的并行化方案，并在Spark上实现了该模型的并行化。

附图说明

图1是MPS-Neg所采用的三层神经网络示意图。

图2是MPS-Neg总体过程图。

图3是MPS-Neg样本组成示意图。

图4是MPS-Neg并行化示意图。

图5是词对齐算法总体框架示意图。

图6是词对齐算法并行化示意图。

图7是本发明的整体流程图。

具体实施方式：

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

深度学习是一种通过利用计算机模拟人脑的神经网络结构，来无监督地解析数据和抽取特征的机器学习方法。近年来，由于深度学习在自然语言处理领域的广泛应用，诞生了基于深度学习的词嵌入技术。词嵌入技术通过神经网络训练的方法将词语转换为低维的词向量，并利用词向量来表示该词的特征，能够很好地表示词汇间的相似度。将词嵌入技术扩充到两种语言，便有了双语词嵌入技术，利用双语词嵌入技术可以将双语词汇表示为双语词向量，而双语词向量的距离能够精确地反映词汇互译概率。

另一方面，自1993年Brown等人提出著名的IBM系列模型以来，在这20多年里国内外的词对齐算法研究大多以此为基础，然而在大数据集的情景下，基于词对齐互译概率的模型需要分布式地训练和维护庞大的词互译概率表而产生巨大的网络开销，这是目前IBM系列模型并行化的难点之一。对比之下用规模较小的双语词向量表代替大规模的词互译概率表来表示词汇互译概率能够更好地适应分布式环境中的词对齐任务。

基于以上考虑，本发明提出一种基于双语词嵌入技术的并行化词对齐方法，共包含两个模型：基于多正样本负采样技术的MPS-Neg双语词嵌入模型以及基于双语词嵌入技术的并行化词对齐模型，其中MPS-Neg包括I和U两种模式，分别用于小规模词对齐语料单机训练初始化双语词向量表以及大规模词对齐语料并行化训练更新双语词向量表。下文将依次对这两种模型加以阐述：

(1)MPS-Neg双语词嵌入模型。MPS-Neg使用了一个三层神经网络，该神经网络如图1所示。该神经网络的输入层是目标词t(j)对应的源文词s(i)的上下文词汇，在映射层对这些上下文词汇对应的词向量求和得到语境词向量v(s)作为输出层的输入，在输出层利用softmax函数进行多分类，来预测具有最大概率值的t(j)。

上述过程中t(j)的词向量作为参数出现，若已知t(j)，便可估计对应的词向量。本发明采用基于多正样本负采样技术MPS-Neg来训练词向量，该过程包括采样和词向量更新两个步骤，如图2所示。对于目标词t(j)，首先利用基于多正样本的负采样技术进行采样获得样本集S，再根据样本集中的所有样本和语境词向量v(s)，利用随机梯度下降法对双语词向量表进行更新。MPS-Neg中样本集S的组成如图3所示，每个正样本都对应一个负样本，除了L0以外，每个等级的正样本和负样本集都有2个。

MPS-Neg中所用到的基于多正样本的负采样技术具体实施方法为：对于目标语言词汇t，根据指定窗口大小wpos，将t以及t的前wpos/2和后wpos/2个词作为正样本，与t距离为d的正样本称为Ld正样本，t本身为L0正样本，所有正样本一起组成t对应的正样本集，对于正样本集中的每一个正样本，利用随机负采样的方式生成该正样本对应的负样本集，随机负采样的规则为：对于目标语言词表中的每一个词，其被采样的概率与其词频正相关，若采样到的词不属于正样本集，则将其添加到负样本集，否则不作任何操作，重复采样直至负样本集的大小达到指定规模。

MPS-Neg包含两种模式：初始化模式(即I模式)及更新模式(即U模式)。I模式主要接收处理小规模词对齐样本数据集，用于将源语言和目标语言词向量表转化为双语词向量表，I模式首先对小规模词对齐样本数据集进行编码，某个词在词表中的位置序号即为该词对应的词编码，对于未登录到源语言和目标语言词表中的词编码为-1，接着对于小规模样本数据集中的所有句对中的每一个目标词分别完成上述的语境词向量获取、采样以及词向量更新操作。U模式主要用于处理大规模词对齐数据集，据此更新双语词向量表，U模式在Spark上并行化实现，首先将源语言和目标语言词表和双语词向量表通过Spark的broadcast机制共享到各个节点，并根据源语言和目标语言的词表对大规模词对齐数据集进行编码，然后在各个节点并行化地进行上述语境词向量获取、采样以及词向量更新操作，最终收集各节点词向量结果得到新的双语词向量表，上述并行化流程可参见图4。

(2)基于双语词嵌入技术的词对齐模型。设一组互译的源译文句对组成如下：长度为m的源语言词序列S＝(s₁，s₂，...，s_m)，s_i为源语言词序列中的一个词，i∈[1，m]∩Z，Z为正整数集；长度为n的目标语言词序列T＝(t₁，t₂，...，t_n)，t_j为源语言词序列中的一个词，j∈[1，n]∩Z。那么S和T的一个对齐可以表示为A＝{(1，a₁)，(2，a₂)，...，(m，a_m)}，其中a_l表示源语言序列中第l个词对应的目标语言词的下标，a_l∈[0,n]∩Z，l∈[1，m]∩Z。对齐A实质上建立了一个从源语言序列词下标集合到目标语言序列词下标集合的单映射。Prob(A|S，T)表示给定源语言序列S和目标语言序列T的情况下对齐A的概率，那么有：

上式中，

表示源语言词s_i与目标语言词

的互译概率，下文中将词s与词t的互译概率pr(s，t)称为本词对齐模型的词汇相似度要素；pr(a_i，a_i-1，m)表示当前对齐位置a_i相对于前一对齐位置a_i-1和源语言序列长度m的偏移概率，下文中将位置i相对于位置j和源语言序列长度m的偏移概率pr(i，j，m)称为本词对齐模型的相对位置要素。对于词汇相似度要素，有

pr(s，t)＝α₁rel(r_s，r_t)+β₁

对于相对位置要素pr(i，j，m)，有

其中，α₂和β₂为固定参数，σ(x)为sigmoid函数。

利用动态规划方法对上述模型求最优解，即可实现用于得到使Prob(A|S，T)最大化的词对齐A词对齐算法。本发明使用的词对齐算法的总体框架如图5所示。该词对齐算法包含3个模块，预处理、双语词嵌入以及词对齐模块。预处理模块用于数据预处理，双语词嵌入模块用于生成双语词向量表作为词对齐模型的参数，本发明中使用MPS-Neg模型来实现该模块，词对齐模块则用于词对齐训练，利用上述基于双语词嵌入技术的词对齐模型即可实现。利用Spark平台可实现该词对齐算法的并行化，并行化流程如图6所示，首先将源语言和目标语言词表以及双语词向量表通过Spark的broadcast机制共享到各个节点，从各节点读取待对齐双语平行语料库，然后利用双语词向量表作为词对齐模型的参数，对每个节点上的待对齐平行语料库进行词对齐，最后将各节点词对齐结果收集得到最终词对齐结果。

本发明的总体流程如图7所示，整个技术方案包括以下步骤：

(1)将待对齐双语平行语料库进行预处理后，以Spark作为并行化计算平台，调用Spark MLlib中已经实现的Word2Vec词嵌入工具训练待对齐双语平行语料库，获得源语言的词表、词向量表和目标语言的词表、词向量表；

(2)利用小规模词对齐样本数据集和MPS-Neg(Multi-Positive-Sampls Negativesampling，多正样本负采样)双语词嵌入模型的的I模式对步骤(1)中得到的源语言和目标语言的词向量表进行训练，得到初始化的双语词向量表；

(3)利用双语词向量表作为基于双语词嵌入技术的并行化词对齐模型的参数，对待对齐双语平行语料库进行分布式词对齐训练得到词对齐结果；

(4)利用步骤(3)中的词对齐结果和MPS-Neg双语词嵌入模型的U模式对双语词向量表进行更新；

(5)重复步骤(3)和步骤(4)直至指定迭代次数。

至此完成双语平行语料的词对齐工作，为了衡量本发明的效果，我们选择GIZA++作为基准进行对比，GIZA++是目前主流的词对齐工作，我们从联合国平行语料库中随机抽取1000个句对进行人工词对齐标注，并分别对本发明和GIZA++进行词对齐正确率测试，测试结果如下：

表1 GIZA++与本发明词对齐效果比较

为测量发明的性能，我们提取了本发明的词对齐模块，对比了单机与并行化词对齐算法的运行时间得到下表数据：

表2单机与并行化词对齐算法运行时间比较

Claims

1.一种基于双语词嵌入技术的并行化词对齐方法，其特征是：包括以下步骤：

(2)利用小规模词对齐样本数据集和MPS-Neg双语词嵌入模型的I模式对步骤(1)中得到的源语言和目标语言的词向量表进行训练，得到初始化的双语词向量表；

(5)重复步骤(3)和步骤(4)直至指定迭代次数；

所述步骤(2)中包含以下步骤：

1)根据源语言和目标语言词表对小规模词对齐样本数据集进行编码，对于未登录到源语言和目标语言词表中的词编码为-1；

2)获取小规模词对齐样本数据集的一个句对以及该句对的词对齐关系；

3)获取步骤2)中每一个目标语言词汇的语境词向量，并对该目标语言词汇进行基于多正样本的负采样，获得指定个数的分级正样本以及对应的负样本集，根据一个目标语言词汇采样生成的所有正样本一起组成该目标语言词汇的正样本集，正样本集中的每一个正样本均对应一个负样本集；

4)利用步骤3)中获得的所有正样本集、负样本集以及语境词向量来更新双语词向量表；

5)对于小规模词对齐样本数据集的所有句对依次执行步骤2)、3)和4)操作；

所述步骤3)中包含以下步骤：

①获取目标语言词汇t，根据词对齐关系获得句对中该词对应的源语言词汇s；

②根据指定的窗口大小w，将s的前w/2和后w/2个词作为语境，并在词向量表中获取它们的词向量，将这些词向量相加作为语境词向量；

③根据指定窗口大小wpos，将t以及t的前wpos/2和后wpos/2个词作为正样本，与t距离为d的正样本称为Ld正样本，t本身为L0正样本，所有正样本一起组成t对应的正样本集；

④对于正样本集中的每一个正样本，利用随机负采样的方式生成该正样本对应的负样本集，随机负采样的规则为：对于目标语言词表中的每一个词，其被采样的概率与其词频正相关，若采样到的词不属于正样本集，则将其添加到负样本集，否则不作任何操作；重复采样直至负样本集的大小达到指定规模。

2.根据权利要求1所述的基于双语词嵌入技术的并行化词对齐方法，其特征是：所述步骤(1)中包含以下步骤：

3.根据权利要求1所述的基于双语词嵌入技术的并行化词对齐方法，其特征是：所述步骤4)中包含以下步骤：

①取一个正样本及其对应的负样本集，设置更新权重值weight＝k^d，其中k为常数且k∈(0,1)，d为该正样本到目标语言词汇t的距离；

②根据步骤①中的权重值weight，利用梯度下降法最小化正样本与语境词向量的距离，同时最大化负样本与语境词向量的距离；

③重复步骤①和②，完成所有样本对应的词向量的更新。

4.根据权利要求1所述的基于双语词嵌入技术的并行化词对齐方法，其特征是：所述步骤(3)中包含以下步骤：

2)利用双语词向量表作为词对齐模型的参数，对每个节点上的待对齐平行语料库进行词对齐；

3)收集各个节点的词对齐结果。

5.根据权利要求1所述的基于双语词嵌入技术的并行化词对齐方法，其特征是：所述步骤(4)中包含以下步骤：

11)将源语言和目标语言词表和双语词向量表通过Spark的broadcast机制共享到各个节点，根据源语言和目标语言词表对双语平行语料库进行编码；

22)对于每一个双语句对，并行地完成步骤33)至步骤44)；

33)获取步骤22)中每一个目标语言词汇的语境词向量，并对该目标语言词汇进行基于多正样本的负采样，获得指定个数的分级正样本以及对应的负样本集，根据一个目标语言词汇采样生成的所有正样本一起组成该目标语言词汇的正样本集，正样本集中的每一个正样本均对应一个负样本集；

44)利用步骤33)中获得的所有正样本集、负样本集以及语境词向量来更新双语词向量表。

6.根据权利要求5所述的基于双语词嵌入技术的并行化词对齐方法，其特征是：所述步骤33)包括如下步骤：

7.根据权利要求5所述的基于双语词嵌入技术的并行化词对齐方法，其特征是：所述步骤44)包括如下步骤：

②根据①中的权重值weight，利用梯度下降法最小化正样本与语境词向量的距离，同时最大化负样本与语境词向量的距离；

③重复步骤①和②，完成所有样本对应的词向量的更新。