CN111310480A

CN111310480A - 一种基于英语枢轴的弱监督汉越双语词典构建方法

Info

Publication number: CN111310480A
Application number: CN202010062905.7A
Authority: CN
Inventors: 余正涛; 陈亚豪; 张亚飞; 文永华; 朱俊国; 高盛祥
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2020-01-20
Filing date: 2020-01-20
Publication date: 2020-06-19
Anticipated expiration: 2040-01-20
Also published as: CN111310480B

Abstract

本发明涉及一种基于英语枢轴的弱监督汉越双语词典构建方法，属于自然语言处理技术领域。本发明包括步骤：分别收集汉语、英语和越南语的单语语料以及对语料进行预处理；基于种子词典的方法将汉越词向量分别对齐到英语词向量共享空间；在英语词向量共享空间中通过对抗网络学习汉越词向量之间的映射关系；采用不同的抽取策略抽取汉‑越词典。本发明对自动构建汉‑越词典的准确率有很大提升。解决现有汉越双语词典构建方法中存在的平行语料、种子词典等非常稀缺且难以标注以及现有方法构建效果不佳的问题。

Description

一种基于英语枢轴的弱监督汉越双语词典构建方法

技术领域

本发明涉及一种基于英语枢轴的弱监督汉越双语词典构建方法，属于跨语言自然语言处理技术领域。

背景技术

中国与沿线国家之间的交流日益频繁，跨语言交流中的语言翻译问题备受关注。作为沿线国家之一的越南与我国之间的交流越来越密切。双语词典作为跨语言自然语言处理领域的一项基础性资源，具有极其重要的研究价值。双语词典的好坏对信息检索、机器翻译、跨语言标注投射等NLP任务具有很大的影响。然而人工构建大规模的汉-越双语词典则需要精通汉语和越南语的语言专家参与且非常耗时，构建成本高，而且现有构建汉-越双语词典的方法效果不佳，且通常需要平行语料或双语词典等监督信号参与。因此，针对以上问题，提出基于英语英语枢轴自动构建汉-越双语词典方法。

近几年，国内外学者对双语词典的构建方法进行了大量研究，提出了基于平行语料、基于可比语料、基于种子词典、基于对抗网络等多种双语词典构建方法。基于平行语料的方法以平行语料库作为语料资源，利用语料库中的文档对齐信息对双语词典进行提取。由于平行语料库中具有高质量的对齐信息，因此基于平行语料构建双语词典的效果较好。然而，平行语料库通常只存在部分大语种的部分领域中，对于小语种的平行语料非常稀缺且难以构建。因此，该方法在实际应用中具有较大的局限性。基于可比语料的方法。该方法的基本假设为互译的词语通常出现在相似的上下文环境中，因此可以通过上下文向量的相似度来表示两个单词之间的相似程度以完成对互译对的抽取。基于种子词典的方法，该方法通过学大量的单语数据的语言结构和少量的种子词典之间的映射关系,搜索最近的词向量作为互译词典对，基于种子词典的方法需要较为成熟的双语词典作为种子词典，但是由于受到小语种双语词典规模和质量的限制，性能还有很大的提升空间。基于对抗网络的方法因为两种语言的单语词向量空间表现出近似的同态性，存在线性映射能够近似地连接这两个空间，通过对抗网络来学习该映射关系，然后基于该映射关系抽取词典，同时提出了一个与词翻译准确性高度相关的无监督模型选择标准。该方法在有同源词的语言中表现良好，但是，由于汉语和越南语之间的语言差异性较大，直接通过对抗网络构建汉-越双语词典效果有待提高。

受到对抗网络和枢轴思想的启发，同时考虑到汉语、英语、越南语单语语料比较丰富且具有汉-英、越-英双语词典，本文提出了一种基于英语枢轴的弱监督汉-越双语词典构建方法。

发明内容

本发明提供了一种基于英语枢轴的弱监督汉越双语词典构建方法，以用于解决现有汉越双语词典构建方法中存在的平行语料、种子词典等非常稀缺且难以标注以及现有方法效果不好等问题。

本发明的技术方案是：一种基于英语枢轴的弱监督汉越双语词典构建方法，所述方法的具体步骤为：

Step1、分别收集汉语、英语和越南语的单语语料以及对语料进行预处理；

Step2、基于种子词典的方法将汉越词向量分别对齐到英语词向量共享空间；

Step3、在英语词向量共享空间中通过对抗网络学习汉越词向量之间的映射关系；

Step4、采用不同的抽取策略抽取汉-越词典。

进一步地，所述步骤Step1的具体步骤为：

Step1.1、利用网络爬虫爬取汉英越语料：将针对不同的网址，编写不同的网络爬虫程序，获取汉英越语料；

Step1.2、基于回译的方法扩充语料的规模：将汉英越语料分别通过谷歌翻译模型回译，回译出伪源句子，扩充语料；

Step1.3、将获取的语料进行去停用词标点操作：将针对不同语料获取不同的停用词表，以及对应的标点符号表，然后进行去停用词以及标点符号操作；

Step1.4、利用分词工具对语料进行分词操作：将中文句子通过结巴分词进行分词处理，将越南语句子以及英语句子通过空格进行分词处理。

进一步地，所述步骤Step2具体步骤为：

Step2.1、将源句子与目标句子分别输入Fasttext模型中得到各自的词向量；

Step2.2、将基于种子词典的方法分别学习汉语-英语、越语-英语的映射矩阵Wxz和Wyz，将汉语词向量以及英语词向量分别对齐到英语词向量共享空间中，通过上述步骤得到汉-英词向量以及越-英词向量，分别重新定义为源词向量以及目标词向量。

进一步地，所述步骤Step3中，利用英语作为英语枢轴语言获取汉越词向量之间的映射关系的表示方法，具体步骤为：

Step3.1、将构建一个生成器G与判别器D；

Step3.2、将源词向量输入对抗网络，调节源语言词向量到目标语言词向量的映射矩阵Wxy；

Step3.3、在英语词向量共享空间中，将映射后的源语言词向量与目标语言词向量输入判别器D，判别词向量来源；

Step3.4、将不断迭代生成器G与判别器D模型参数；

Step3.5、通过无监督选择标准获取一个模型。

进一步地，所述步骤Step3.1中，生成器负责学习联系两个空间的线性映射，判别器负责判别词向量来自源语言还是目标语言，生成器与判别器形成相互对抗的关系用于提升生成器和判别器的性能。

进一步地，所述步骤Step3.2中，通过步骤Step2将汉语及越南语的词向量均映射到英语词向量共享空间中，之后把汉-英词向量和越-英词向量的映射建模为一个对抗游戏，通过平衡对抗网络最终学习到汉-越的映射矩阵Wxy。

进一步地，所述步骤3.5的具体步骤如下：

从源语言中抽取1000个最常见的单词词向量，并利用CSLS方法寻找所抽取单词词向量的最近邻，然后计算这1000个单词对词向量的余弦距离的平均值，最后将这个超参数作为模型选择的标准，训练10轮，选取超参数最大的模型。

进一步地，步骤Step4中提到的抽取策略，具体步骤为：

Step4.1、通过NN/CSLS距离公式计算映射后的源语言词向量与目标语言词向量抽取汉-越词向量构建汉-越词典。

本发明的有益效果是：

1、本发明首先以英语作为枢轴语言，引入汉-英词典和越-英词典作为枢轴模型的弱监督信号，将汉语和越南语词向量均映射到英语词向量共享空间以减小汉语和越南语的语言差异性。然后将汉-英词向量和越-英词向量的映射建模为一个对抗游戏，通过平衡对抗网络学习汉-越的映射矩阵，最后通过相关抽取策略构建汉-越双语词典

2、本文将汉-英、越-英词典作为弱监督信号，避免了方法对平行语料的依赖，而且方法采用对抗网络模型，不需要任何汉-越监督信号，实验结果表明与现有方法相比本文方法明显地提升了汉-越双语词典的准确率；

3、本发明提出的基于英语英语枢轴的弱监督汉-越词典构建方法，对自动构建汉-越词典的准确率有很大提升。解决了平行语料稀缺造成的词典构建效果不佳的问题。

附图说明

图1为本发明基于英语枢轴的弱监督汉-越词典构建方法流程框架图；

图2为本发明基于对抗网络的对齐词向量空间的方法流程示意图；

图3为本发明的流程图；

图4为本发明基于回译扩充语料的方法流程框图；

图5本方法在不同枢轴语料规模下的准确率。

具体实施方式

实施例1：如图1-5所示，一种基于英语枢轴的弱监督汉越双语词典构建方法，图1提供了基于英语枢轴的弱监督汉-越词典构建方法流程框图，该方法主要包含以下步骤：

A步骤：分别收集汉语、英语和越南语的单语语料以及对语料进行预处理。B 步骤:基于种子词典的方法将汉越词向量分别对齐到英语词向量共享空间。C步骤：在英语词向量共享空间中通过对抗网络学习汉越词向量之间的映射关系。D步骤：采用不同的抽取策略抽取汉-越词典并计算准确率。

进一步地，在A步骤中，包含以下步骤:A01步骤,将针对不同的网址，编写不同的网络爬虫程序，获取汉英越语料。A02步骤,将汉英越语料分别通过谷歌翻译模型回译,回译出伪源句子，扩充语料。A03步骤,将针对不同语料获取不同的停用词表，以及对应的标点符号表，然后进行去停用词以及标点符号操作。A04步骤,将中文句子通过结巴分词进行分词处理；将越南语句子以及英语句子通过空格进行分词处理；

进一步地，在B步骤中，包含以下步骤:B01步骤，将源句子与目标句子分别输入Fasttext模型中得到各自的词向量。B02步骤，将基于种子词典的方法分别学习汉 -英、越-英的映射矩阵Wxz和Wyz，将汉语词向量以及英语词向量分别对齐到英语词向量共享空间中，通过上述步骤可得汉-英词向量以及越-英词向量，分别重新定义为源词向量以及目标词向量。

在B01步骤中，通过Fasttext模型分别学习汉语、英语、越南语的词向量空间，并将汉语、英语、越南语的单词表示为词向量v。其中，d表示词向量维度，源语言对应的词向量表示为

中间语言对应的词向量表示为

同样地,最后目标语言对应的词向量可以表示为

在B02步骤中，采用基于种子词典的方法分别学习汉-英的映射矩阵Wxz及越- 英的映射矩阵Wyz。基于种子词典的双语词典构建方法的前提需要源语-目标语言的双语词典，然而对于汉语和越南语来说很难获取现成的汉-越双语词典，但汉-英及越 -英双语词典很丰富且易获取。因此，我们借鉴枢轴的思想基于种子词典的方法来分别学习汉-英的映射矩阵Wxz及越-英的映射矩阵Wyz，将其映射到英语词向量的共享空间中。

获取5000个汉-英的单词对{x_i,z_i}_i∈[1,5000]及5000个越-英的单词对{y_i,z_i}_i∈[1,5000]，学习汉-英的线性映射关系矩阵Wxz及越-英的映射关系矩阵Wyz。映射关系计算如公式(1)所示。

其中，d表示词向量的维度，X和Y是两个大小为d×n的平行词典对齐矩阵，包含了平行词典中单词的词向量，W是一个d×d的映射矩阵，M_d(R)表示d×d的实数矩阵。在获取映射矩阵W后，对于任意一个未翻译的单词s，可以通过NN最近邻搜索方法到源语言对应目标语言的词翻译。根据映射后的空间余弦相似度来进行词对齐。任意源词s对应的翻译t定义如公式(2)所示。

t＝arg max_tcos(Wx_s,y_t) (2)

在此基础上，通过在映射矩阵W上增加正交约束条件实现了更好的效果。将问题转化为Procrustes问题，并将YX^T进行奇异值分解(SVD)得到一个近似解，具体公式如公式(3)所示。

通过公式(3)可以得到最小化的中-英的映射矩阵Wxz以及越-英的映射矩阵Wyz。

进一步地，所述步骤StepC中，利用英语作为英语枢轴语言获取汉越词向量之间的映射关系的表示方法，具体步骤为：

StepC1、将构建一个生成器G与判别器D；

StepC2、将源词向量输入对抗网络，调节源语言词向量到目标语言词向量的映射矩阵Wxy；

StepC3、在英语词向量共享空间中，将映射后的源语言词向量与目标语言词向量输入判别器D，判别词向量来源；

StepC4、将不断迭代生成器G与判别器D模型参数；

StepC5、通过无监督选择标准获取一个模型。

进一步地，所述步骤3.5的具体步骤如下：

在C步骤中，利用对抗网络学习汉-越的映射矩阵Wxy。通过上述步骤将汉语及越南语的词向量均映射到英语词向量共享空间中，并把汉-英词向量和越-英词向量的映射建模为一个对抗游戏，通过平衡对抗网络最终学习到汉-越的映射矩阵Wxy。

在对抗网络中假设含有两个集合，一个集合为

表示汉语词向量映射到英语词向量空间的n个词向量的集合，可简化为χ＝{x_i|i＝1,2,...,n}。另一个集合为

表示目标语言越南语映射到英语词向量空间的m个目标语言的词向量的集合，可简化为Ψ＝{y_j|j＝1,2,...,m}。

对抗网络的模型分为两个部分，一个是生成器G，另一个是判别器D。判别器负责判别词向量来自源语言还是目标语言，它的目标是尽可能准确的判别词向量。生成器负责学习联系两个空间的线性映射，它的目标是让判别器无法判别词向量是来自源语言还是目标语言。生成器与判别器形成相互对抗的关系，从而提升生成器和判别器的性能。本文的对抗网络结构如图2所示。在图2中，将汉-英的词向量表示为源语言词向量，将越-英的词向量表示为目标语言的词向量。方块的分布代表源语言的词分布，圆圈的分布代表目标语言的词分布。生成器G与判别器D形成相互对抗的关系，训练判别器来区分随机采样的元素是来自集合χ还是集合ψ，最终通过对抗网络学习得到源语言到目标语言的映射矩阵Wxy。综上，对抗网络的目标函数表示为min_Gmax_DV(D,G)的形式，其中函数V(D,G)表示为公式(4)：

在公式(1)中x是源语言词向量，p_x表示源语言词向量服从的分布，y是目标语言的词向量，P_y表示目标语言词向量服从的分布。对抗网络中的判别器目标函数和生成器目标函数分别如公式(5)和公式(6)所示。

在训练对抗网络模型时，对于每一个输入样本需最小化判别器和生成器的目标函数，利用梯度下降方法更新各自的网络参数及映射矩阵W。然而，由于对抗网络的思想为对齐所有的词，并没考虑词频的高低，而词频低的词可能出现在不同语料库的上下文中。在这种情况下，通过对抗网络学习到的W的性能低于有监督学习性能。为了得到性能更好的映射矩阵W，本文通过由对抗训练学习到的W来构建合成并行词汇表，即考虑常用词的相互最近邻来确保获取一个具有较高质量的字典。最后通过对映射矩阵W添加正交约束限制进一步提升映射矩阵的质量及训练的稳定性。本文使用了更新规则来确保训练过程W近似正交矩阵，如公式(7)所示。

W←(1+β)W-β(WW^T) (7)

Alexis等人的实验表明参数β为0。01时具有更好的效果，该更新方法使得每次更新后的矩阵都近似为正交矩阵。通过以上的步骤可以获得一个源语言到目标语言的映射矩阵Wxy。

进一步地，步骤Step4中提到的抽取策略，具体步骤为：

在D步骤中，在英语词向量空间中抽取汉-越双语词典。将介绍两种抽取词典的方法：NN方法和CSLS方法。NN方法通过计算源语言词向量乘映射矩阵与目标语言的余弦距离，其计算如公式(2)所示。CSLS方法用于衡量两个词之间(不同语言)的相似度。对每一个单词，通过CSLS方法可在另一语言中找到其K近邻(通过余弦相似度和映射矩阵W)，分别将源语言和目标语言用N_T(s)和N_S(t)表示，并定义源语言词向量为x_s，目标语言词向量为y_t，源语言到目标语言的距离为r_T，目标语言到源语言的距离为r_S。源语言到目标语言的距离可通过公式(8)进行计算：

同上，用类似的方法计算r_S。距离r可衡量每个单词的hubness，如果只考虑

和y_t的余弦关系，会产生hubness问题。为解决该问题，我们重新定义了CSLS距离如公式(9)所示。

CSLS(s,t)＝2cos(Wx_s,y_t)-r_T(s)-r_S(t) (9)

最后根据上述不同的抽取方法抽取相应的词向量构成汉-越词典。

本文将准确率P@N(前N个候选翻译的准确率)作为衡量双语词典好坏的评价指标。其中通过随机抽取验证词典的1.5K个源语言单词和对应的目标词，RT为抽取结果中单词的数量，T(w_i)为抽取方法在单词w_i上的抽取结果，d(w_i)表示单词w_i在词典中的翻译集合，具体计算公式(10)所示。

为了验证枢轴语言的规模对本文方法准确率的影响，设置了该方法在不同英语语料规模下的实验，实验结果如图5所示。

由图5可知，当将英语作为枢轴语言时，随着英语语料规模的增加，汉-越双语词典在P@1的准确率先上升后趋于平缓。当其规模为5000MB时本文方法的准确率曲线逐渐平滑，因此，后续实验将枢轴规模都为设为5000MB。

接下来实验将本文方法与基于种子词典方法及基于对抗网络的方法进行对比，进一步验证本文方法的有效性。分别记录每组实验在P@1(即抽取1个候选词)时的准确率，实验结果如表1所示。

表1本文方法与传统方法构建双语词典的准确率

分析表1的实验数据可知，基于对抗网络的方法效果接近甚至优于基于种子词典的方法的效果，验证了本文无监督模型选择标准的有效性。另外，直接采用基于种子词典的方法和基于对抗网络的方法构建汉-越双语词典的准确率较低，而本文方法下的两种抽取方法得到的汉-越词典准确率明显提高。该结果表明本文结合枢轴语言和对抗网络的方法有效提高了汉-越双语词典的准确率。

为验证方法的准确率与抽取的候选词个数之间的关系，得到汉-越词向量在英语枢轴共享空间中的具体映射情况，实验还比较了P@1、P@5和P@10的准确率。具体实验结果如表2所示。

表2本文方法在不同P@N值下的准确率

分析表2可知，本文方法的准确率均随候选词的增多而逐渐提高，候选词数量仅为1时便可获得较高的准确率，当候选词达到10个时，最高准确率可以达到80％以上。这进一步说明了不同语言在词向量空间中的同构性。

最后我们将本文方法与目前较为常用的自动构建双语词典的方法进行对比。本文利用Artetxe等人基于种子词典的迭代自学方法和Alexis等人基于对抗网络的方法以及莫媛媛等人基于平行语料的方法进行汉-越双语词典的构建实验，并与本文方法进行准确率的对比。实验选择在P@1的情况下进行准确率评价，具体实验结果如表 3所示。

表3不同方法下的汉-越词典准确率

分析表3可知，由本文方法构建的汉-越双语词典的准确率明显优于其它三种方法。本文方法利用少量的汉-英，以及越-英监督信号，便可很好地将汉语、越南语词向量对齐到英语词向量空间，在缺少高质量大规模汉-越监督信号时，通过无监督模型选择标准能够很好的抽取汉-越词典。

根据本发明的构思，作为本发明的进一步解释，本发明还可以提供了一种基于对抗网络的对齐词向量空间的方法的装置，如图2所示，包括：

汉越英语语料预处理模块：用于中文句子，越南语句子以及英语句子进行分词处理，然后将汉越英表示为词向量；

生成器模块，用于将源语言空间与目标语言空间对齐，学习映射矩阵W，并保存其训练参数；

判别器模块，用于判别出词向量来自源语言与目标语言，并保存训练参数；

调优模块，基于对抗的思想，使得生成器模块与判别器模块相互促进提升训练效果。

种子词典模块：用于学习汉-英的映射矩阵Wxz，以及越-英的映射矩阵Wyz；

对抗网络模块：用于学习汉-越之间的映射关系，在英语词向量共享空间学习汉-越的映射矩阵Wxy，且使用无监督模型选择标准对对抗网络参数进行调优；

抽取模块：用于抽取汉-越词词典，使用NN/CSLS距离公式进行计算汉-越词向量，最终构建汉-越词典。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于英语枢轴的弱监督汉越双语词典构建方法，其特征在于：

Step4、采用不同的抽取策略抽取汉-越词典。

2.根据权利要求1所述的基于英语枢轴的弱监督汉越双语词典构建方法，其特征在于：所述步骤Step1的具体步骤为：

3.根据权利要求1所述的基于英语枢轴的弱监督汉越双语词典构建方法，其特征在于：

所述步骤Step2具体步骤为：

4.根据权利要求1所述的基于英语枢轴的弱监督汉越双语词典构建方法，其特征在于：

所述步骤Step3中，利用英语作为英语枢轴语言获取汉越词向量之间的映射关系的表示方法，具体步骤为：

Step3.1、将构建一个生成器G与判别器D；

Step3.4、将不断迭代生成器G与判别器D模型参数；

Step3.5、通过无监督选择标准获取一个模型。

5.根据权利要求4所述的基于英语枢轴的弱监督汉越双语词典构建方法，其特征在于：所述步骤Step3.1中，生成器负责学习联系两个空间的线性映射，判别器负责判别词向量来自源语言还是目标语言，生成器与判别器形成相互对抗的关系用于提升生成器和判别器的性能。

6.根据权利要求4所述的基于英语枢轴的弱监督汉越双语词典构建方法，其特征在于：所述步骤Step3.2中，通过步骤Step2将汉语及越南语的词向量均映射到英语词向量共享空间中，之后把汉-英词向量和越-英词向量的映射建模为一个对抗游戏，通过平衡对抗网络最终学习到汉-越的映射矩阵Wxy。

7.根据权利要求4所述的基于英语枢轴的弱监督汉越双语词典构建方法，其特征在于：所述步骤3.5的具体步骤如下：

8.根据权利要求1所述的基于英语枢轴的弱监督汉越双语词典构建方法，其特征在于：步骤Step4中提到的抽取策略，具体步骤为：