CN114611487B

CN114611487B - 基于动态词嵌入对齐的无监督泰语依存句法分析方法

Info

Publication number: CN114611487B
Application number: CN202210240990.0A
Authority: CN
Inventors: 余正涛; 张弘弢; 王剑; 文永华; 相艳
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2022-03-10
Filing date: 2022-03-10
Publication date: 2022-12-13
Anticipated expiration: 2042-03-10
Also published as: CN114611487A

Abstract

本发明涉及一种基于动态词嵌入对齐的无监督泰语依存句法分析方法，属于自然语言处理领域。本发明包括步骤：首先分别获取泰语和英语的单语动态词嵌入；然后针对泰语作为低资源语言缺乏双语平行语料，采用对抗训练的方式将泰语和英语的词向量进行对齐，从而构建新的词向量对应关系；最后针对泰语缺乏标注语料，借助泰语和英语间的映射矩阵将在英语依存标注树库上训练的Biaffine解析模型迁移到泰语，以此实现无监督泰语依存句法分析任务。与以往基于迁移学习的泰语依存句法分析方法相比，本发明既不需要平行语料、又不需要泰语依存标注语料，可以在资源成本更低的情况下完成泰语依存句法分析。

Description

基于动态词嵌入对齐的无监督泰语依存句法分析方法

技术领域

本发明涉及基于动态词嵌入对齐的无监督泰语依存句法分析方法，属于自然语言处理技术领域。

背景技术

近年来，国内外众多研究人员针对资源稀缺语言的句法分析任务展开了许多研究。依存句法分析分为基于转移的方法和基于图的方法，近几年出现了针对这两种不同方法的神经网络模型。基于转移的方法通过shift-reduce两个基本的动作来将序列转换为树结构，Stack LSTM模型通过三个LSTM来分别建模栈状态、待输入序列和动作序列。虽然Stack LSTM取得了非常好的效果，但是最流行的方法是基于图的方法，即直接用神经网络来预测每两个词之间存在依存关系的概率。目前基于图的依存句法分析中经典的方法如Biaffine模型，它类似全连接自注意力模型，Biaffine模型简单，并且在很多数据集上都取得了当前最好的结果。然而，泰语公开的依存标注数据只有universal dependenies中1000句的标注测试集，泰语的依存句法分析任务现存的显著问题是缺乏依存标注树库，国内外对泰语的依存句法分析都涉及较少。Sornlertlamvanich等人采用基于规则的方法在两千多句语料中进行了分析，语料规模较小且未公开。陶广奉使用迁移学习的思想，利用大量未标注的汉泰双语平行句对语料从现有的大规模汉语依存句法分析知识库中迁移构建泰语的依存句法分析器，但该方法需要大量的双语平行句对，且需要依靠汉语和泰语之间的语言相似性。

针对泰语既缺乏高质量的依存标注树库，又缺少大规模的双语平行语料的问题，使用迁移学习思想，提出了通过无监督词嵌入对齐在既不依赖标注的泰语依存树库也不需要平行语料的情况下，利用英语的依存标注语料训练Biaffine解析器，从而实现泰语的依存句法分析的方法。

发明内容

本发明提供了基于动态词嵌入对齐的无监督泰语依存句法分析方法，相比于之前其他的基于迁移学习思想实现的泰语依存句法分析方法，既不需要泰语依存标注数据、又不需要平行语料，所需要的资源成本更低。

本发明的技术方案是：基于动态词嵌入对齐的无监督泰语依存句法分析方法，所述方法的具体步骤如下：

Step1、首先将泰语单语语料和英语单语语料分别采用预训练语言模型获取单语动态词嵌入；

Step2、然后采用MUSE无监督方法通过对抗训练将泰语和英语的词向量进行对齐，从而获得泰语和英语的词嵌入对齐矩阵；

Step3、接着利用英语依存标注数据训练一个基于动态词嵌入的Biaffine依存解析器；

Step4、最后将得到的泰英词嵌入对齐矩阵和泰语无标注语料一起输入到预训练的Biaffine依存解析器，依据此模型进行无监督泰语依存句法分析。

作为本发明的优选方案，所述Step1的具体步骤为：

Step1.1、爬取泰语单语语料和英语单语语料，该单语语料为一句一行，且将泰语单语句子进行分词预处理。

Step1.2、采用ELMo预训练语言模型分别获取英语和泰语的单语动态词嵌入，得到英语和泰语的单语词向量，过程如图2左侧所示。

Step1.3、计算均值向量用于表示动态词向量，简化上下文相关嵌入的映射。如图2右侧所示，对于i在不同上下文环境c中对应的不同词向量计算平均表征作为它的均值向量，如公式(1)，

表示i的上下文相关嵌入的均值向量，

表示在特定上下文c中的均值偏移向量，v′_i,c作为i在特定上下文c中的向量表示。

Step1.4、计算余弦相似度实现同种语言中语义相近词的聚类，来改善向量空间的对齐。如图2右侧所示，余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。如公式(2)所示，v_i,c和v_j,c表示特定上下文c中的不同标记i和j的向量，余弦相似度余弦值越接近1，就表明两者越相似。

作为本发明的优选方案，所述Step2的具体步骤为：

Step2.1、如图3所示，通过对抗训练生成一个泰语和英语之间的粗粒度映射矩阵。将泰语和英语的的单语词嵌入

和

做对齐，映射矩阵如公式(3)所示，据此获得粗粒度的映射矩阵。对抗训练使用带线性生成器的原始GAN，判别器D的损失如公式(4)所示，旨在最大化区分W′V^th和V^en两个嵌入空间的能力；而W′通过训练试图阻止判别器D正确区分，目标函数如公式(5)所示。

Step2.2、根据粗粒度的映射矩阵，选取一些高频词构建平行词对。

Step2.3、用Procrustes算法对构建的平行词对进行微调，如公式(6)所示，最小化这些词对之间的差异，获得精调后的对齐矩阵。

W＝argminW′∈O_d(R)‖W′V^th-V^en‖_F (6)

作为本发明的优选方案，所述步骤Step3的具体步骤为：

Step3.1、使用英语的ELMo预训练模型提取有依存标注的英语训练数据的动态词嵌入。

Step3.2、将提取到的英语动态词嵌入输入Biaffine模型，训练一个Biaffine依存解析器。先将提取到的动态词嵌入送入BiLSTM生成隐藏层表征r_i。用两个独立的MLP对r_i进行降维，如公式(7)和(8)所示，分别得到每个表征的dep和head向量，避免过拟合。

然后将其输入到仿射层，使用一个arc分类器预测存在依存关系的词对，如公式(9)所示，Biaffine注意力机制将每个单词在arc分类器输出分数最高的词作为其头结点。

再使用一个label分类器预测单词与其头结点间的依存标签，Biaffine注意力机制将每个有依存关系的词对在label分类器输出的分数最高的依存关系作为其依存标签。

作为本发明的优选方案，所述步骤Step4的具体步骤为：

Step4.1、使用泰语的ELMo预训练模型提取无依存标注的泰语数据的动态词嵌入。

Step4.2、将Step2.3中获取的对齐矩阵和泰语词嵌入一起输入Step3.2中预训练的Biaffine依存解析器，完成无监督泰语依存句法标注。

对本发明做进一步阐述的，所述步骤Step1、Step2、Step3、Step4中：

1)提到的动态词嵌入：

本发明采用Matthew E.Peters等人在2018年提出的ELMo预训练语言模型实现单语词向量提取，ELMo采用多层双向LSTM，这是一种无监督的动态词向量模型，既避免了模型庞大等缺陷，又获取了双向上下文信息。首先从静态的词向量表里查找词向量用于输入；再将词向量分别输入第1层前向LSTM和后向LSTM得到第1层前向输出和第1层后向输出，将第1层前向输出传入到第2层前向LSTM得到第2层前向输出，将第1层后向输出传入到第2层后向LSTM得到第2层后向输出；最终可以得到的词向量包括原始的静态向量和每一层前向LSTM及后向LSTM分别的最后一个输出，即采用L层的双向LSTM则最终可以得到2L+1个词向量。其中不同层得到的词向量侧重点不同，映射层可以比较好的编码词性信息，第1个双向LSTM层可以比较好的编码句法信息，第2个双向LSTM可以比较好的编码单词语义信息。ELMo通过多层词向量的融合得到最终词向量，最终词向量可以兼顾多种不同层次的信息。由于第1个双向LSTM层的输出包含更多句法特征，所以本发明采用第1个双向LSTM层的输出进行后续操作。然后计算均值向量并进行余弦相似度聚类，最终得到的词向量表示作为获取对齐矩阵要使用的动态词嵌入。

2)提到的MUSE无监督方法：

本发明使用的MUSE中的无监督方法即使不使用双语词典也能实现对齐，因此采用MUSE中的无监督方法实现泰语和英语的词嵌入对齐。该方法是基于生成式对抗网络(GAN)的方法，目的是学习一个线性变换来最小化目标分布和源分布之间的散度。先通过对抗训练获得一个粗粒度的映射矩阵W′，然后对W′进行精调并最终获得W。

3)提到的基于动态词嵌入的Biaffine依存解析器：

本发明使用的依存解析器是将传统的Biaffine依存解析模型进行了修改。将提取到的动态词嵌入代替原本的Biaffine依存解析模型中的静态词嵌入，送入BiLSTM生成隐藏层表征r_i，再用两个独立的MLP对r_i进行降维，然后将其输入到仿射层，使用一个arc分类器预测存在依存关系的词对，将每个单词在arc分类器输出分数最高的词作为其头结点。对于arc分类器找到的存在依存关系的词对，再使用一个label分类器预测单词与其头结点间的依存标签，该分类器的类别数等于所有可能的依存标签数。Biaffine注意力机制将每个有依存关系的词对在label分类器输出的分数最高的依存关系作为其依存标签。

本发明的有益效果是：

1、本发明的基于动态词嵌入对齐的无监督泰语依存句法分析方法，针对泰语作为低资源语言缺乏高质量的依存标注数据的问题，使用迁移学习的思想通过泰英的词嵌入对齐矩阵将在英语标注语料上训练的依存解析器迁移到泰语上来完成泰语的依存句法标注。

2、本发明的基于动态词嵌入对齐的无监督泰语依存句法分析方法，由于泰语作为低资源语言缺乏大规模的双语平行语料，因此使用对抗训练的方式构建了泰英的动态词嵌入映射矩阵，该方法不需要使用任何平行语料，且可以在没有任何泰语标注数据的情况下实现泰语的依存句法分析。

附图说明

图1为本发明中的无监督泰语依存句法分析流程图；

图2为泰语动态词嵌入获取的示意图；

图3为无监督获取泰英词对齐过程的示意图；

图4为基于动态词嵌入对齐的泰语依存句法解析模型示意图。

具体实施方式

实施例1：如图1-图4所示，基于动态词嵌入对齐的无监督泰语依存句法分析方法，所述具体步骤如下：

Step2、然后采用对抗训练的方式将泰语和英语的词向量进行对齐，从而获得泰语和英语的词嵌入对齐矩阵；

Step3、接着利用英语依存标注数据训练一个Biaffine依存解析器；

Step4、最后将得到的泰英对齐矩阵和泰语无标注语料一起输入到预训练的Biaffine依存解析器，依据此模型进行无监督泰语依存句法分析。

作为本发明的优选方案，所述Step1的具体步骤为：

表示i的上下文相关嵌入的均值向量，

表示在特定上下文c中的均值偏移向量，v′_i,c作为i在特定上下文c中的向量表示。均值向量的计算简化了跨语言动态嵌入空间的构建，同时对于一词多义词的对齐有帮助。

Step1.4、计算余弦相似度实现同种语言中语义相近词的聚类，来改善向量空间的对齐。如图2右侧所示，余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。对特定上下文c中的不同标记i和j的向量v_i,c和v_j,c计算余弦相似度如公式(2)所示，余弦值越接近1，就表明夹角越接近0度，即两者越相似。通过计算不同向量间的余弦相似度，为每个表征选取同种语言中与它相似程度最高的标记进行聚类，相似度大于设定阈值则聚类成功。

作为本发明的优选方案，所述Step2的具体步骤为：

和

做对齐，映射矩阵如公式(3)所示。对抗训练使用带线性生成器的原始GAN，判别器D的损失如公式(4)所示，旨在最大化区分W′V^th和V^en两个嵌入空间的能力；而W′通过训练试图阻止判别器D正确区分，目标函数如公式(5)所示，当W′在大量样本上都能阻止判别器D作出准确的预测时，即两个嵌入空间相近，据此获得粗粒度的映射矩阵。

W＝argminW′∈O_d(R)‖W′V^th-V^en‖_F (6)

作为本发明的优选方案，所述Step3的具体步骤为：

作为本发明的优选方案，所述Step4的具体步骤为：

本发明使用无标记依存正确率(UAS)和带标记依存正确率(LAS)作为衡量泰语依存句法解析质量的指标。具体公式如下：

UAS＝正确预测中心词的词的数量/总词数

LAS＝正确预测中心词和标签的词的数量/总词数

其中，UAS是测试集中找到其正确支配词的词(包括没有标注支配词的根结点)所占总词数的百分比，LAS是测试集中找到其正确支配词并且依存关系类型也标注正确的词(包括没有标注支配词的根结点)占总词数的百分比。

实验：

为验证本发明提出的基于动态词嵌入对齐的泰语依存句法分析方法的可行性与有效性,在不使用任何泰语标注数据作为训练数据的情况下，如表1所示，采用UniversalDependency的其他语言的依存标注树库对Biaffine解析模型进行训练，同时采用Universal Dependency的Thai treebanks公开的1k句泰语依存标注测试集作为本实验的泰语测试集，在泰语依存句法分析任务上进行了实验。实验数据如表1所示。

表1实验数据

实验采用ELMo模型生成上下文嵌入，ELMo中使用的BiLSTM层数L＝2；采用MUSE中的无监督方法对泰语和训练语言的词嵌入空间完成对齐时，鉴别器使用隐层大小为2048的多层感知器，激活函数采用Leaky-ReLU。依存句法解析过程使用在pytorch上封装的AllenNLP框架里的Biaffine解析器实现依存句法解析，编码器使用Bi-LSTM，隐层大小为200。批处理大小设置为32，训练的epochs为40，patience设置为10，Dropout设置为0.33。

实验尝试分别将英语、汉语或法语作为单种迁移语言来训练biaffine解析器，该实验未使用任何泰语依存标注数据作为训练集，如表2所示，前六列中每两列分数分别为使用不同的单种训练语言(分别使用英语、汉语、法语)训练Biaffine解析器时在泰语测试集上进行测试的UAS和LAS分数。实验结果显示，与将其他单种语言作为迁移语言相比较，将英语作为迁移语言时泰语依存句法分析任务效果最好。

表2无监督泰语依存句法分析的实验结果

原因分析：

首先，虽然英语和法语属于印欧语系，泰语和汉语同属于汉藏语系，但泰语本身在句法结构上与各种高资源语言都存在很大差别，英、泰、汉的语序结构基本上都使用“主谓宾”结构，但汉语口语表达语序会更加灵活，法语的语法更加复杂，英、泰的状语与定语修饰则时常后置而把有效成分放在前面，因此泰语与英语在句法结构上存在少许的共性。其次，本说明所采用的MUSE无监督方法是一种不是必须依赖语言相似性实现词对齐的方法，即使在相似性差距较大的语言之间，依然可以实现一定的对齐效果，而英语不仅原始数据和标注数据都十分丰富，且依存句法分析任务已经非常成熟。因此，相较于其他单种迁移语言，英语对泰语的无监督依存句法分析有更好的帮助。

该组实验还逐一删掉无监督对齐前将单语向量进行均值计算和余弦相似度聚类的过程，以及将ELMo动态嵌入替换成静态嵌入方式。表2结果表明，使用本发明的方法相较于其他方法更有效。虽然无监督的实验分数并不是非常可观，但是该方法没有使用任何平行语料，且各步均使用无监督的方法，获得这样的结果已经较好的完成了泰语的无监督依存句法分析任务。

针对泰语依存标注数据和平行语料都匮乏的问题，本发明提出了一种基于迁移学习的无监督泰语依存句法分析方法，同时无监督的构建了泰语和英语之间的对齐矩阵。该方法不需要使用任何平行语料，且可以在没有任何泰语标注数据的情况下实现泰语的依存句法分析。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.基于动态词嵌入对齐的无监督泰语依存句法分析方法，其特征在于：所述方法的具体步骤如下：

Step4、最后将得到的泰英词嵌入对齐矩阵和泰语无标注语料一起输入到预训练的Biaffine依存解析器，依据此模型进行无监督泰语依存句法分析；

所述Step1的具体步骤为：

Step1.1、爬取泰语单语语料和英语单语语料，单语语料为一句一行，且将泰语单语句子进行分词预处理；

Step1.2、采用ELMo预训练语言模型分别获取英语和泰语的单语词向量；计算均值向量用于表示动态词向量，简化上下文相关词向量的映射，此外计算余弦相似度实现同种语言中语义相近词的聚类，来改善向量空间的对齐，将最终的表示作为动态词嵌入；

所述Step3的具体步骤为：

Step3.1、使用英语的ELMo预训练模型提取有依存标注的英语训练数据的动态词嵌入；

Step3.2、将提取到的英语动态词嵌入输入Biaffine模型，训练一个Biaffine依存解析器。

2.根据权利要求1所述的基于动态词嵌入对齐的无监督泰语依存句法分析方法，其特征在于：所述Step2的具体步骤为：

Step2.1、使用带线性生成器的原始GAN通过对抗训练生成一个泰语和英语之间的粗粒度映射矩阵；

Step2.2、根据粗粒度的映射矩阵，选取高频词构建平行词对；

Step2.3、用Procrustes算法对构建的平行词对进行微调，最小化这些平行词对之间的差异，获得精调后的泰语和英语的词嵌入对齐矩阵。

3.根据权利要求1所述的基于动态词嵌入对齐的无监督泰语依存句法分析方法，其特征在于：所述Step4的具体步骤为：

Step4.1、使用泰语的ELMo预训练模型提取无依存标注的泰语数据的动态词嵌入；

Step4.2、将Step2中获取的词嵌入对齐矩阵和泰语词嵌入一起输入Step3中预训练的Biaffine依存解析器，完成无监督泰语依存句法标注。