CN110297903B

CN110297903B - 一种基于不对等语料的跨语言词嵌入方法

Info

Publication number: CN110297903B
Application number: CN201910499213.6A
Authority: CN
Inventors: 王红斌; 冯银汉; 线岩团; 余正涛; 郭剑毅; 文永华
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2019-06-11
Filing date: 2019-06-11
Publication date: 2021-04-30
Anticipated expiration: 2039-06-11
Also published as: CN110297903A

Abstract

本发明涉及一种基于不对等语料的跨语言词嵌入方法，属于自然语言处理技术领域。本发明首先对单语词向量进行归一化，对小字典词对(训练集跨语言词对)正交最优线性变换求得梯度下降初始值，然后通过对大型源语言(英语)语料进行聚类，借助小字典找到与每一聚类簇相对应的源语言词，取聚类得到的每一簇词向量均值和源语言与目标语言对应的词向量均值，建立新的双语词向量对应关系，将新建立的双语词向量扩展到小字典中，使得小字典得以泛化和扩展。最后，利用泛化扩展后的字典对跨语言词嵌入映射模型进行梯度下降求得最优值。

Description

一种基于不对等语料的跨语言词嵌入方法

技术领域

本发明涉及一种基于不对等语料的跨语言词嵌入方法，属于自然语言处理技术领域。

背景技术

双语词嵌入通常采用从源语言空间到目标语言空间映射，通过源语言映射嵌入到目标语言空间的最小距离线性变换实现跨语言词嵌入。但是大型的平行语料难以获得，词嵌入的准确率难以提高。

发明内容

本发明提供了一种基于不对等语料的跨语言词嵌入方法。

本发明的技术方案是：一种基于不对等语料的跨语言词嵌入方法，所述方法的具体步骤如下：

Step1、收集源语言语料和跨语言词对，将跨语言词对分成训练集和测试集；其中，跨语言词对指代的由源语言、目标语言组成的词对；

Step2、采用词向量转换工具分别对源语言语料、训练集的跨语言词对、测试集的跨语言词对进行处理分别得到源语言语料词向量S、训练集跨语言词对的词向量D、测试集跨语言词对的词向量DT；

Step3、分别归一化源语言语料词向量S、训练集跨语言词对的词向量D，得到归一化源语言语料词向量SN、归一化训练集跨语言词对的词向量DN；

Step4、用跨语言词嵌入方法和正交方法求归一化训练集跨语言词对的词向量DN的转换矩阵W；根据W得到梯度下降的初始值W₁＝W；

Step5、采用K-means对归一化源语言语料词向量SN进行聚类，得到S₁,S₂,S₃,...,S_i,...,S_n个聚类簇；其中S_i为第i个簇，n为聚类的簇数；

Step6、建立SN→X→Y之间的关系；SN为归一化源语言语料词向量，X为归一化训练集跨语言词对的词向量DN中的源语言词向量集合，Y为归一化训练集跨语言词对的词向量DN中与X互译的目标语言词向量集合，A是X在归一化源语言语料词向量SN中能查找到的集合，为{a₁,a₂,…,a_j,...,a_k}，其中a_j是A中第j个词向量，与SN聚类后的某个簇S_i存在对应关系，即a_j∈S_i，对簇S_i求平均为S_i'，查找到Y中与a_j互译的目标语言词向量b_m，将S_i'与b_m这对扩展后的对应关系一同追加到归一化训练集跨语言词对的词向量DN后面；

Step7、重复Step6，直到{a₁,a₂,…,a_j,...,a_k}都找到互译的目标语言词向量，并将词向量都追加到归一化训练集跨语言词对的词向量DN中，得到新的训练集跨语言词对的词向量D₁，转到Step8；

Step8、以W₁为初始值，对D₁进行梯度下降求解，得到转换矩阵W的最优值W_b。

还包括如下步骤：

Srep9、根据得到的转换矩阵W的最优值W_b，进行如下验证：

如果u_lW_b＝v_l，则测试正确个数P＝P+1；否则不统计；其中，l＝1,2,...,r；初始的P＝0；

根据P的取值，统计

其中，r表示测试集中词对的对数；U为测试集跨语言词对的词向量DT中的源语言词向量集合，u_l∈U、u_l表示U中第l个源语言词向量；V为测试集跨语言词对的词向量DT中与U互译的目标语言词向量集合，v_l∈V、v_l表示V中与U互译的第l个目标语言词向量。

所述词向量转换工具采用：Word2vec、Glove。

本发明的有益效果是：本发明首先对单语词向量进行归一化，对小字典词对(训练集跨语言词对)正交最优线性变换求得梯度下降初始值，然后通过对大型源语言(英语)语料进行聚类，借助小字典找到与每一聚类簇相对应的源语言词，取聚类得到的每一簇词向量均值和源语言与目标语言对应的词向量均值，建立新的双语词向量对应关系，将新建立的双语词向量扩展到小字典中，使得小字典得以泛化和扩展。最后，利用泛化扩展后的字典对跨语言词嵌入映射模型进行梯度下降求得最优值。

附图说明

图1为本发明中的整体流程图；

图2为本发明中跨语言词嵌入原始原理图；

图3为本发明的小字典扩展和泛化原理图。

具体实施方式

实施例1：一种基于不对等语料的跨语言词嵌入方法，流程如图1所示，所述方法具体步骤如下：

Step1、语料的准备和收集，得到源语言语料、目标语言语料和跨语言词对，把词对分为训练集(小字典5000词作为训练集用来训练转换矩阵W)和测试集(1500词对作为测试集验证本专利算法的有效性)；

第一组实验：如使用由Dinu提供的公共英语单语词数据集作为源语言语料；其中，Dinu提供的有(UKWAC+维基百科+BNC)的28亿个公共英语语料。除了英语意大利语外，还选择了两种有公共资源的语言进行测试。第二、三组实验：英语-德语、英语-芬兰语；上述三组实验用欧洲平行语料库(Europarl Parallel Corpus)中的词对作为跨语言词对并分为训练集和测试集；其中以词典中5000个最常用的词对作为训练集和随机1500词对作为测试集。

三组实验分别都是按照如下的步骤进行：

Step2、用Word2vec分别对源语言语料、目标语言语料和跨语言词对进行处理分别得到源语言语料词向量S、目标语语料词向量P及跨语言词对的词向量D；词嵌入使用Word2vec工具包CBoW负采样，上下文窗口设置为5个单词，嵌入的维度为300维，子采样为1*10^-5，负样本数量为10个。(也可以采用Glove等词向量转换工具进行处理)。

Step3、归一化20万个词的源语言语料词向量S、5000对训练集跨语言词对的词向量D，得到归一化源语言语料词向量SN、归一化训练集跨语言词对的词向量DN；

如图2所示：跨语言词嵌入映射方法，小字典对应的5000对词向量，其中x_i∈X是步骤Step3归一化训练集跨语言词对的词向量DN中的源语言词向量集合，y_i∈Y是通过步骤Step3归一化训练集跨语言词对的词向量DN中的目标语言的词向量。找到一个中间转换矩阵W，使得x_iW无限接近y_i。在学习过程中，W可以通过以下优化问题学习：

将以上跨语言词嵌入映射方法进行转换，相当于最小残差矩阵F范数的平方：

将W约束为正交矩阵(即WW^T＝W^TW＝I)。W₁由W₁＝VU^T给出正交性约束下的精确解，其中Y^TX＝UZV^T是Y^TX的SVD分解，可以在有效地时间内计算最佳线性转换。由此可以得到梯度下降的较为理想的初始值W₁，可以降低梯度下降的迭代次数，降低算法的运算时间。

关于K-means聚类中n值的选取：本发明对20万源语言词向量(英语)进行聚类，由于训练集采用5000词对词向量，本申请分别对源语言词向量聚4000，5000，6000，7000和8000簇进行了实验。最终，本实施例中，采用的n＝8000；

所述步骤Step6的具体步骤为：

如图3所示：由于双语字典比较难获得，在跨语言词嵌入的时候常常会遇到语料不对等情况，源语言S比较容易获得，目标语言比较稀缺的情况。本申请基于小型跨语言词对(即小字典)并对其进行泛化，把语料较为丰富的源语言S进行聚类为簇S₁,S₂,S₃,...,S_i,...,S_n，对每个簇求词向量的

(S_i为第i簇的词向量和，n_i为第i簇中的源语言单词个数)，得到S₁',S₂',S₃',...,S_i',...,S_n'，从小字典中找到相应的簇S_i对应的源语言单词集合的a_j(英语)，取出平均向量S_i'，同时取a_j对应的目标语言词的词向量b_m(若是一对一取b_m的词向量，一对多取b_m的词向量求平均b_m')。若从小字典中找不到相应某一簇对应的源语言单词集合的a_j(英语)，b_m就放弃该簇的处理。将S_i'与b_m/b_m'这对扩展后的对应关系一同追加到归一化训练集跨语言词对的词向量DN后面使小字典得以扩展和泛化，得到新的字典D₁。

所述步骤Step8的具体步骤为：

本申请将Step7中泛化后的小字典D₁作为梯度下降的训练数据对转换矩阵W的训练和学习。所追求最理想的结果是XW＝Y,因此考虑为简单的线性过程，由此得到损失函数为：

更新迭代为：

W＝W+α▽w (4)

其中，x_i，y_i以步骤Step4的定义为准。

其中α为学习率，经过训练学习得到最后的结果。

Srep9、根据得到的转换矩阵W的最优值W_b，进行如下验证：

所述步骤Step9的具体步骤为：通过对1500测试集词对的跨语言正确率实验验证本专利算法的有效性。为了验证本发明跨语言词嵌入的效果，将采用统一的评价标准：正确率做为本发明的评价标准，衡量本发明的性能。测试正确的为1，不正确的为0。

本发明为了验证该发明的的有效性、可行性设计以下两组实验进行验证：

实验一：由表1看出聚类n值对实验结果有很大的影响，当n＝8000时已经取得很好的实验结果。由下表1可以看出。

表1对不同n值下的双语词汇归纳的正确性(％)

n	英语-意大利语	英语-德语	英语-芬兰语
				4000	36.87	38.27	26.23
5000	38.73	40.80	27.65
				6000	39.27	41.85	27.78
7000	40.16	42.07	28.72
				8000	40.73	42.15	29.15

本发明选用常用的词对作为学习的字典，会出现源语言的一个词对应目标语言的多个词，例如在英语-意大利语字典中

been同时对应三个词，显而易见been是同一个词在聚类后的一个簇中。对种子字典扩展的时候需要对意大利语的三个词词向量进行求平均，把两个平均添加到种子字典后面，如果这一类词出现得多的话，扩展后的字典不会很大。本实验对(英语-意大利语)聚类扩展得到的字典为6607个词对。英语-德语，英语-芬兰语同样存在这样的问题。一簇还包括相近的词，字典中属于同一簇的词越多，扩展以后的字典就越小。

而在本发明选用选用5000的种子字典，选用更大或者更小的字典对实验结果必然产生影响，更大的字典有更高的准确率，但是大的字典很多情况下由于语料稀缺，双语词典难以获得。从而转向更小的字典的研究，基于更小的字典会导致聚类后扩展的字典也更小，从而使得学习到的模型差一些，从而影响实验结果。

实验二：对于双语词嵌入的实验，本发明的方法与Mikolov，Xing，Artetxe 2016和Artetxe 2017等人提出的方法进行了比较。表2显示了与以前的工作相比较，选择n＝8000最佳性能配置的结果与其它方法进行比较。

表2双语词嵌入正确率实验结果对比

	英语-意大利语	英语-德语	英语-芬兰语
				Mikolov et al.(2013a)	34.93	35.21	25.91
Xing et al.(2015)	36.87	41.27	28.23
				Artetxe et al.(2016)	39.27	41.87	30.62
Artetxe et al.(2017)	39.67	40.87	28.72
				本文的方法	40.73	42.15	29.15

由表2看出Xing的方法比Mikolov准确率高，这与它们在中报告内容一致。Artetxe较之前的两种方法也有比较好的表现结果，比之前的两种方法表现更为优秀。Artetxe2016在Mikolov的基础上引入了长度归一化和中心化，在三种语言的表现上都有很大的提高。Artetxe 2017提出了自学习框架，能在25个词对情况下就有不俗的结果。但是在5000词对下在英语-德语、英语-芬兰语结果稍逊于Artetxe 2016。

本发明专利的方法对源语言进行聚类，使得小字典得予扩展和泛化，并用正交svd求得梯度下降初始值，降低迭代次数，有效减少了训练时间。同时在在结果上也有明显的提高，但是在英语-芬兰语的表现结果比Artetxe 2016稍微差一点。

三种语言对的准确率都表现出相同的一般性，它们的准确度也有明显的差异，这是所涉及的语言的邻近性所致。芬兰语是非印欧语的凝集语言，使得对这一语言的任务变得相当困难。在小字典上取得良好结果表明本文方法的鲁棒性。即使对于遥远的语言对，其中嵌入空间的结构相似性可能较弱。它也能从双语词对中学习非常好的双语映射。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于不对等语料的跨语言词嵌入方法，其特征在于：所述方法的具体步骤如下：

2.根据权利要求1所述的基于不对等语料的跨语言词嵌入方法，其特征在于：还包括如下步骤：

Step9、根据得到的转换矩阵W的最优值W_b，进行如下验证：

根据P的取值，

3.根据权利要求1所述的基于不对等语料的跨语言词嵌入方法，其特征在于：所述词向量转换工具采用：Word2vec、Glove。