CN111553154B

CN111553154B - 一种基于扰动对抗训练的跨语言词向量构建方法

Info

Publication number: CN111553154B
Application number: CN202010350333.2A
Authority: CN
Inventors: 张玉红; 李玉玲
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2020-04-28
Filing date: 2020-04-28
Publication date: 2023-04-07
Anticipated expiration: 2040-04-28
Also published as: CN111553154A

Abstract

本发明公开了一种基于扰动对抗训练的跨语言词向量构建方法，其步骤包括：首先构建源语言和目标语言的词向量并对其进行归一化；然后分别构建双判断器对抗网络和扰动重构网络；再利用归一化后的源语言和目标语言词向量对双判断器对抗网络和扰动重构网络进行分步协同训练；最后从训练完成的双判断器对抗网络中提取跨语言映射矩阵，为源语言和目标语言构建跨语言词向量。本发明能通过训练扰动的源语言词向量来有效地提高低频词的跨语言词向量的质量，从而能获取质量更高的跨语言词向量。

Description

一种基于扰动对抗训练的跨语言词向量构建方法

技术领域

本发明属于自然语言处理技术领域，具体来说是一种基于扰动对抗训练的跨语言词向量构建方法。

背景技术

在互联网的发展中，一个重要的问题就是：如何将人类的自然语言转化为计算机可以理解的数据表示，使之更好地服务于人类。该问题通常的解决办法是将现实世界中的单个词语转变为一个低维实数向量，称为词向量。

对于单个语言来说，词向量的质量依赖于训练数据集的大小，即用于训练词向量的数据资源越丰富，训练到的词向量也就越可靠，基于该词向量的机器学习模型也就越实用。但是丰富的数据资源对于某些小语种语言来说是不容易获得的，其获取方法也往往需要以昂贵的人力和物力为代价。为了解决这个问题，学者们提出了跨语言词向量。跨语言词向量将数据知识从资源丰富的语言迁移到资源匮乏的语言上，使得小语种语言在数据资源匮乏的条件下也可以获得有效的词向量，从而为小语种语言建立可靠的机器学习模型。

目前，生成对抗网络(Generative Adversarial networks，GANs)已经被成功地运用于跨语言词向量的构建，其核心思想在于将源语言和目标语言的词向量看作两个分布，借助对抗训练的思想对齐这两个向量分布。虽然这种分布间的对齐很有效，但是却无法准确地对齐低频词间的向量分布，即无法为源语言的低频词构建可靠的跨语言词向量。然而，不可靠的低频词跨语言词向量会妨碍计算机对于人类自然语言的理解，进而降低相关机器学习模型的实用性。因此，提高低频词的跨语言词向量质量是一件亟待解决的任务。而目前看来，如何提高低频词跨语言词向量的质量还没有得到相关的研究。

发明内容

本发明为克服现有技术的不足，提出一种基于扰动对抗训练的跨语言词向量构建方法，以期能通过训练扰动的源语言词向量来有效地提高低频词的跨语言词向量的质量，从而能获取质量更高的跨语言词向量。

本发明为达到上述发明目的，采用如下技术方案：

本发明一种基于扰动对抗训练的跨语言词向量构建方法的特点是按如下步骤进行：

步骤一：获取源语言语料库中的源语言语料并进行向量化处理，得到源语言词向量；

获取目标语言语料库中的目标语言并进行向量化处理，得到目标语言词向量；

对所述源语言词向量和目标语言词向量分别进行归一化，得到归一化后的源语言词向量S和归一化后的目标语言词向量T；

步骤二：根据所述归一化后的源语言词向量S构建扰动的源语言词向量S^p；

由所述扰动的源语言词向量S^p、所述归一化后的源语言词向量S和归一化后的目标语言词向量T组成训练词向量集合；

步骤三：根据所述训练词向量集合，构建由生成器G、跨语言判断器D和扰动判断器C构成的双判断器对抗网络；

步骤四：根据所述扰动的源语言词向量S^p和归一化后的源语言词向量S，构建由一个单层全连接的神经网络构成的扰动重构网络R；

步骤五：分步协同训练所述双判断器对抗网络和所述扰动重构网络R，得到训练后的双判断器对抗网络和训练后的扰动重构网络；

步骤六：提取所述训练后的双判断器对抗网络中生成器G′的参数权值矩阵W，并作为跨语言映射矩阵；

将所述跨语言映射矩阵与归一化后的源语言词向量S进行点积操作，得到映射后的源语言词向量SW；

由所述映射后的源语言词向量SW与归一化后的目标语言词向量T共同构成最终的跨语言词向量。

本发明所述的跨语言词向量构建方法的特点也在于：所述步骤二中，利用式(1)构建扰动的源语言词向量S^p：

S^p＝S·ε，ε～N(1,0.5²) (1)

式(1)中，ε为一个随机数，N表示正态分布。

所述步骤三中的生成器G是由一个单层全连接神经网络构成，其权值的初始值为一个正交矩阵

其中，d代表源语言词向量的维度，

为实数集合；

所述生成器G的输入为归一化后的源语言词向量S和扰动的源语言词向量S^p，输出分别为扰动的源语言中间向量G(S^p)和源语言中间向量G(S)；

所述跨语言判断器D由一个单隐层前馈神经网络构成，其输入为归一化后的目标语言词向量T或源语言中间向量G(S)，跨语言判别器D的输出为归一化后的目标语言词向量T的概率值D(T)或源语言中间向量G(S)的概率值D(G(S))；

所述扰动判断器C由一个单隐层前馈神经网络构成，其输入为扰动的源语言中间向量G(S^p)和源语言中间向量G(S)，其对应的输出分别为扰动的源语言中间向量词G(S^p)的拟合wasserstein距离C(G(S^p))和源语言中间向量G(S)的拟合wasserstein距离C(G(S))。

所述步骤四中的扰动重构网络R由一个单层全连接神经网络构成，其权重的初始值为所述正交矩阵O的转置矩阵；

所述扰动重构网络R的输入为扰动的源语言中间向量G(S^p)和源语言中间向量G(S)，输出分别为扰动的源语言重构向量R(G(S^p))和源语言重构向量R(G(S))。

所述步骤五中的分步协同训练是基于adam梯度下降算法对所述双判断器对抗网络和扰动重构网络R进行迭代训练；并在每一次迭代过程中，通过优化扰动判断器C的损失函数L_C来更新生成器G和扰动判断器C的网络参数，每k次迭代过程中再通过优化跨语言的损失函数L_cross和跨语言判断器D的损失函数L_D来更新生成器G、跨语言判断器D和扰动重构网络R的网络参数。

所述扰动判断器C的损失函数L_C如式(2)所示：

式(2)中，λ为惩罚系数，

为位于扰动的源语言中间向量G(S^p)和源语言中间向量G(S^p)中间区域的向量，并有：

式(3)中，ω是一个在[0,1]区间的随机数；

式(2)中，

表示对所述中间区域的向量

的梯度；

式(2)中，d_w为扰动的源语言中间向量G(S^p)与源语言中间向量G(S)之间的拟合Wasserstein距离之差，并有：

式(4)中，

表示数学期望，

表示扰动的源语言词向量S^p的分布，

表示归一化后的源语言词向量S的分布。

所述跨语言的损失函数L_cross如式(5)所示：

L_cross＝L_G+L_R+d_w (5)

式(5)中，L_G为生成器G的损失函数，并有：

L_G＝-log(D(G(S)))+d_w (6)

式(5)中，L_R为扰动重构网络R的损失函数，并有：

L_R＝-cos(S,R(G(S)))-cos(S^p,R(G(S^p))) (7)

式(7)中，cos(·)表示余弦相似值。

所述跨语言判断器的损失函数L_D如式(8)所示：

L_D＝-log(D(T))-log(1-D(G(S))) (8)。

与现有技术相比，本发明的有益效果在于：

1、本发明利用对源语言词向量和目标语言词向量的扰动对抗训练，有效地改善了低频词的跨语言词向量，从而整体性地提高了跨语言词向量的质量。

2、本发明为源语言词向量构建了扰动的词向量以此来抵消由低频词向量带来的分布扰动，强化了低频词的分布稳定性；

3、本发明通过训练扰动判断器和扰动重构网络来保留扰动后的词向量中潜层的语义信息，巩固了源语言词向量的分布信息。

4、本发明使用跨语言判断器实现了源语言和目标语言向量空间在分布层面的对齐，从而可以在不使用任何平行数据的情况下构建跨语言词向量。

附图说明

图1为本发明方法流程图；

图2为本发明模型框架图。

具体实施方式

本实施例中，如图1所示，一种基于扰动对抗训练的跨语言词向量学习方法是按如下步骤进行：

对源语言词向量和目标语言词向量分别进行归一化，得到归一化后的源语言词向量S和归一化后的目标语言词向量T；

步骤二:根据归一化后的源语言词向量S，利用式(1)构建扰动的源语言词向量S^p：

S^p＝S·ε，ε～N(1,0.5²) (1)

式(1)中，ε为一个随机数，N表示正态分布。

然后将扰动的源语言词向量S^p、归一化后的源语言词向量S和归一化后的目标语言词向量T作为训练词向量集合。

步骤三：如图2所示，根据步骤二的训练词向量集合，构建双判断器对抗网络，其由生成器G、跨语言判断器D和扰动判断器C构成。

其中，生成器G是由一个单层全连接神经网络构成，其权值的初始值为一个正交矩阵

其中，d代表源语言词向量的维度，

为实数集合。

生成器G的输入为归一化后的源语言词向量S和扰动的源语言词向量S^p，输出分别为扰动的源语言中间向量G(S^p)和源语言中间向量G(S)。

跨语言判断器D由一个单隐层前馈神经网络构成，其输入为归一化后的目标语言词向量T或源语言中间向量G(S)，输出为归一化后的目标语言词向量T的概率值D(T)或源语言中间向量G(S)的概率值D(G(S))。

扰动判断器C由一个单隐层前馈神经网络构成，其输入为扰动的源语言中间向量G(S^p)和源语言中间向量G(S)，其对应的输出分别为扰动的源语言中间向量词G(S^p)的拟合wasserstein距离C(G(S^p))和源语言中间向量G(S)的拟合wasserstein距离C(G(S))。

步骤四：根据扰动的源语言词向量S^p和归一化后的源语言词向量S，构建扰动重构网络。该扰动重构网络R是由一个单层全连接的神经网络构成，其权重的初始值为生成器初始权值矩阵O的转置矩阵。它的输入为扰动的源语言中间向量G(S^p)和源语言中间向量G(S)，其对应的输出分别为扰动的源语言重构向量R(G(S^p))和源语言重构向量R(G(S))。

步骤五：分步协同训练双判断器对抗网络和扰动重构网络R，得到训练后的双判断器对抗网络和训练后的扰动重构网络；

跨语言判断器D与生成器G组成二元零和博弈对抗训练，即生成器生成的源语言中间向量G(S)要尽可能地与归一化后的目标语言词向量相似，使得跨语言判断器无法将他们区分开。因此，跨语言判断器的损失函数L_D为：

L_D＝-log(D(T))-log(1-D(G(S))) (1)

此外，扰动判断器C与生成器G构成基于Wasserstein距离的最大最小对抗训练，即生成器的目的是近似地最小化G(S^p)和G(S)之间拟合Wasserstein距离之差，该拟合Wasserstein距离之差为：

式(2)中，

表示数学期望，

表示扰动的源语言词向量的分布，

表示归一化后的源语言词向量的分布。

扰动判断器C的损失函数L_C为：

式(3)中，λ为惩罚系数，推荐取值为10，

为位于扰动的源语言中间向量G(S^p)和源语言中间向量G(S^p)中间区域的向量，并有

其中，ω是一个在[0,1]区间的随机数，

表示对中间区域的向量

的梯度。

生成器的目的是既要生成类似于目标语言词向量的中间向量，还要使得生成的中间向量G(S^p)和G(S^p)之间的拟合Wasserstein距离之差最小。因此，生成器的损失函数L_G为：

L_G＝-log(D(G(S)))+d_w (4)

扰动重构网络C旨在最小化R(G(S^p))和R(G(S))与其对应的输入S^p和S之间的重构误差，则其损失函数L_R为：

L_R＝-cos(S,R(G(S)))-cos(S^p,R(G(S^p))) (5)

式(5)中，cos(·)表示余弦相似值。

综上所述，跨语言的损失函数L_cross被定义为：

L_cross＝L_G+L_R+d_w (6)

最后，基于adam梯度下降算法对双判断器对抗网络和扰动重构网络进行迭代训练。每一次迭代通过优化扰动判断器的损失函数L_C更新生成器和扰动判断器的网络参数，每k＝10次迭代通过优化跨语言的损失函数L_cross和跨语言判断器的损失函数L_D更新生成器、跨语言判断器和扰动重构网络的网络参数，从而得到训练后的双判断器对抗网络和训练后的扰动重构网络；

步骤六：提取训练后的双判断器对抗网络的生成器的参数权值矩阵W，并作为从源语言到目标语言的跨语言映射矩阵，将其与归一化后的源语言词向量S进行点积操作，得到映射后的源语言词向量SW，则映射后的源语言词向量SW与归一化后的目标语言词向量T共同构成了所学习的跨语言词向量。

本发明为了验证该方法可以提高低频词的跨语言词向量的质量，选用了跨语言词向量的常用评估任务，即双语言字典生成任务来量化跨语言词向量的质量。双语言字典生成任务首先根据生成的跨语言词向量合成双语言字典，再将这个合成的字典与标准的字典进行比较，获得该合成字典的准确率。该准确率越高代表跨语言词向量的质量越高。

实验：将本发明的方法中扰动的源语言词向量替换为归一化后的源语言向量，其余部分不变定义为无扰动的方法。表1展示了本发明的方法与无扰动的方法在德语-英语和法语-英语上合成字典的准确率。

表1

由表1可知，本发明的方法同时提高低频词和高频词的跨语言词向量质量，从而提高了所有词的跨语言词向量的质量。

Claims

1.一种基于扰动对抗训练的跨语言词向量构建方法，其特征是按如下步骤进行：

所述生成器G是由一个单层全连接神经网络构成，其权值的初始值为一个正交矩阵

其中，d代表源语言词向量的维度，

为实数集合；

所述扰动判断器C由一个单隐层前馈神经网络构成，其输入为扰动的源语言中间向量G(S^p)和源语言中间向量G(S)，其对应的输出分别为扰动的源语言中间向量词G(S^p)的拟合wasserstein距离C(G(S^p))和源语言中间向量G(S)的拟合wasserstein距离C(G(S))；

2.根据权利要求1所述的跨语言词向量构建方法，其特征在于：所述步骤二中，利用式(1)构建扰动的源语言词向量S^p：

S^p＝S·ε，ε～N(1,0.5²) (1)

式(1)中，ε为一个随机数，N表示正态分布。

3.根据权利要求1所述的跨语言词向量构建方法，其特征在于：所述步骤四中的扰动重构网络R由一个单层全连接神经网络构成，其权重的初始值为所述正交矩阵O的转置矩阵；

4.根据权利要求1所述的跨语言词向量构建方法，其特征在于：所述步骤五中的分步协同训练是基于adam梯度下降算法对所述双判断器对抗网络和扰动重构网络R进行迭代训练；并在每一次迭代过程中，通过优化扰动判断器C的损失函数L_C来更新生成器G和扰动判断器C的网络参数，每k次迭代过程中再通过优化跨语言的损失函数L_cross和跨语言判断器D的损失函数L_D来更新生成器G、跨语言判断器D和扰动重构网络R的网络参数。

5.根据权利要求4所述的跨语言词向量构建方法，其特征在于：所述扰动判断器C的损失函数L_C如式(2)所示：