CN114595688A

CN114595688A - 融合词簇约束的汉越跨语言词嵌入方法

Info

Publication number: CN114595688A
Application number: CN202210014277.4A
Authority: CN
Inventors: 余正涛; 武照渊; 黄于欣
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2022-01-06
Filing date: 2022-01-06
Publication date: 2022-06-07
Anticipated expiration: 2042-01-06
Also published as: CN114595688B

Abstract

本发明涉及融合词簇约束的汉越跨语言词嵌入方法。本发明首先对汉越单语语料进行预处理并用于训练汉越单语词嵌入；然后利用在线词典和开源词库构建汉越双语词典及词簇词典，并将词与词簇两种粒度的对齐信息融入映射矩阵的训练过程中；最后通过跨语言映射框架得到汉越共享词嵌入空间，使具有相同含义的汉语与越南语词嵌入在空间中彼此接近。本发明使用不同类型的关联关系抽取汉越双语词典中的词簇对齐信息，使映射矩阵学习到多粒度的映射关系，以提升映射矩阵在非标注词上的泛化性，改善汉越低资源场景下双语空间对齐效果不佳的问题。实验结果表明，该模型在汉越词典归纳任务@1和@5上的对齐准确率相比VecMap模型提升了2.2个百分点。

Description

融合词簇约束的汉越跨语言词嵌入方法

技术领域

本发明涉及融合词簇约束的汉越跨语言词嵌入方法，属于自然语言处理技术领域。

背景技术

跨语言词嵌入将不同语言具有相同含义的词映射至同一空间中对齐，是跨语言文本分类、跨语言情感分析、机器翻译、跨语言实体链接等任务的基础，具有重要的应用价值。

汉越跨语言词嵌入是面向低资源语言的双语词嵌入任务，目前低资源跨语言词嵌入方法主要包括无监督、半监督和有监督三类。无监督方法利用不同语言单语嵌入空间的相似性，无需标注数据即可学习映射矩阵实现对齐，通常使用对抗方法或最小化分布间的沃瑟斯坦距离(Wasserstein distance)实现跨语言词嵌入。半监督方法相比无监督方法引入了少量词对齐信息用于提升映射的准确性，主要包括两种策略，一种是使用小规模平行词对作为监督信号来解决映射矩阵在迭代训练过程中初始化阶段的不足，另一种则是将无监督模型学习到的嵌入空间相似性同有监督模型相结合来提升对齐效果。已有的半监督与无监督方法在相近语言上取得了不错的效果，例如英语-西班牙语由于词根、构词方式上具有相似性，两者词嵌入空间包含大量的共现词与同构词(如“possible”与“posible”)，仅凭少量标注数据就能实现较好的对齐。然而，词源学上差异较大的语言通常单语嵌入空间之间的相似性也较低，对于汉越这种差异较大的语言，无监督和半监督的方法对齐效果不佳。当前，通过双语词典学习映射矩阵的有监督方法可以有效提升远距离语言上的对齐效果，其关键步骤是学习单语嵌入空间之间的映射关系。传统有监督模型通常使用双语词典中的词对齐信息学习映射矩阵，但汉越作为低资源语言对缺乏大规模的双语词典，导致学习到的映射矩阵在双语词典外的非标注词上泛化性较弱，无法准确对齐双语空间。

发明内容

本发明提供了一种融合词簇约束的汉越跨语言词嵌入方法，以用于解决汉越低资源环境下，由于缺乏大规模的双语词典导致学习到的映射矩阵在词典外非标注词上泛化性较弱，无法准确对齐双语词嵌入空间的问题。

本发明的技术方案是：融合词簇约束的汉越跨语言词嵌入方法，所述方法的具体步骤如下：

Step1、获取汉越单语词嵌入；

Step2、基于开源词库和在线词典，使用同主题词对和高频词对两种数据构建汉越双语词典，并基于不同类型的关联关系从词典中抽取对齐词簇，构建词簇词典；

Step3、将双语词典与词簇词典中的词对齐信息和词簇对齐信息融入映射矩阵的训练过程中，分别为汉语与越南语学习到的两个单独的正交映射矩阵；

Step4、将学习到的映射矩阵融入跨语言映射框架获取汉越共享词嵌入空间，使具有相同含义的汉语与越南语词嵌入在空间中彼此接近，利用空间余弦相似度为词典外未经标注的汉语或越南语单词查找对应的翻译词。

作为本发明的进一步方案，所述Step1的具体步骤为：

Step1.1、去除汉越单语新闻语料中的数字、特殊字符和标点符号；

Step1.2、将越南语语料中的大写字母转换为小写字母；

Step1.3、对语料进行分词操作，汉语语料使用jieba工具进行分词，越南语语料使用Vncorenlp工具进行分词，并去除分词后长度小于20的句子；

Step1.4、将预处理好的汉越单语语料输入到单语词嵌入模型中获取汉越单语词嵌入空间X∈R^n×d，Y∈R^m×d；其中，n为训练得到的汉语词嵌入个数，m为越南语词嵌入个数，d代表词嵌入维度。

作为本发明的进一步方案，所述Step2的具体步骤为：

Step2.1、基于多语公开数据集CLDR获取同主题对齐词对，其中包含月份、数字、颜色常用主题词的对齐词对；

Step2.2、构建停用词表，剔除汉语高频词中的助词、介词和语气词，并对剩余高频词进行人工筛选，去除特有名词及噪声词；

Step2.3、使用在线词典人工标注相应的越南语翻译，并剔除不包含在汉越单语词嵌入文件中的OOV词对；共完成构建5500对高质量的汉越双语词对，并从中随机抽取500对作为测试词典Test，剩余5000对作为汉越双语词典Seed；此外，通过汉越双语词典，分别得到词典对应的汉语与越南语词嵌入矩阵X′，Y′∈R^v×d；其中，v为词典大小，d代表词嵌入维度，X′＝{X₁′,X₂′,……,X_i′,……,X_v′}，Y′＝{Y₁′,Y₂′,……,Y_i′,……,Y_v′}，X_i′与Y_i′分别代表双语词典第i条词对所对应的汉、越单语词嵌入；

Step2.4、查找汉越双语词典中越南语翻译相同的词对，构建为一个初始的对齐词簇；然后，使用开源词库查找初始词簇在词典中的近义词对或同类词对用于扩充对齐词簇，构建为近义对齐词簇或同类对齐词簇，词典中的同主题词对作为一种封闭词类本身具有一定的弱相关性，能构建为同主题对齐词簇；近义词簇、同类词簇、同主题词簇三种类型的对齐词簇共同构成词簇词典Seed_Cls。

作为本发明的进一步方案，所述Step3的具体步骤为：

Step3.1、为了更好地将词簇对齐信息融入映射矩阵的训练过程中，通过平均操作将词簇对齐进一步转换为簇心对齐；设现有词簇对齐信息{X₁′,X₂′,……X_s′|Y₁′,Y₂′,……Y_t′}，其中s代表汉语词簇中的词嵌入个数，t代表越南语词簇中的词嵌入个数，所对应的簇心嵌入矩阵

与

的构建过程如下所示：

C_X，C_Y∈R^l×d分别代表词簇对齐数据中汉语与越南语的簇心嵌入矩阵，l代表词簇对齐数据的规模，d代表词嵌入维度；

Step3.2、簇心嵌入与词典中的词嵌入维度相同，因此词对齐数据同词簇对齐数据能直接融合为训练数据D₃，应用到映射矩阵的训练中；

分别代表训练数据D₃中融合词对齐与词簇对齐数据后的汉语与越南语嵌入矩阵，其中，

词典对应的汉语与越南语词嵌入矩阵X′，Y′∈R^v×d；其中，v为词典大小，d代表词嵌入维度；

Step3.3、通过最小化词嵌入与簇心嵌入之间欧氏距离的平方和求解，模型在词对齐与词簇对齐数据上的联合损失函数如公式3所示：

X_i′与Y_i′分别代表双语词典第i条词对所对应的汉、越单语词嵌入；因为两个损失中的映射矩阵是共享的，因此，通过训练数据D₃将损失函数进一步简化为如下公式：

Step3.4、当汉语与越南语学习到的两个单独的正交映射矩阵W_X与W_Y满足正交约束时，最小化欧氏距离的平方和等价于最大化点积，如公式5所示：

Tr(·)为迹运算，代表矩阵主对角线上所有元素之和，最优正交解为W_X＝U，W_Y＝V，其中

为

的SVD解。

作为本发明的进一步方案，所述Step4的具体步骤为：

Step4.1、使用汉语与越南语的单语词嵌入空间X，Y作为输入，将融合词簇对齐信息学习到的汉语与越南语学习到的两个单独的正交映射矩阵W_X与W_Y融入跨语言映射框架VecMap中，经过归一化、白化、正交映射、去白化、重赋权重五个步骤得到汉语与越南语的共享词嵌入空间，使具有相同含义的汉语与越南语词嵌入在空间中彼此接近；

Step4.2、基于获得的汉越共享词嵌入空间，对于词典外任何一个未经标注的汉语或越南语单词，均能根据空间余弦相似度来查找该词在共享空间中对应的翻译词，设

与

分别为汉语与越南语单词，

分别为两个单词在共享空间中对应的汉语与越南语词嵌入，两词余弦相似度的计算过程如公式(6)所示，其中||·||₂代表2-范数；

以汉语单词作为检索词，经过计算选取与其余弦相似度最高的越南语单词作为候选词，构建汉越对齐词对以实现汉越跨语言词嵌入；

以越南语单词作为检索词，经过计算选取与其余弦相似度最高的汉语单词作为候选词，构建汉越对齐词对以实现汉越跨语言词嵌入。

本发明的有益效果是：

1、汉语不同于其他语言，词频最高的词往往是一些助词、介词或单个文字，例如“的”、“在”、“了”等。这些词并不具备具体的含义，很难使映射矩阵捕捉到较为精确的映射关系。相较于仅凭词频构建的传统双语词典，基于本发明所述流程构建的汉越双语词典的质量更好，可以有效提升映射矩阵的映射准确性。

2、通过将不同类型的词簇对齐信息融入映射矩阵的训练过程中，使映射矩阵能够学习到不同粒度的映射关系，提升映射矩阵在非标注词上的泛化性，改善汉越低资源场景下双语空间对齐效果不佳的问题。

3、词簇一定程度上反映了对齐空间的结构信息，融合词簇粒度的映射关系可以提升不同语言中相近词的对齐准确性，使词典归纳任务中候选词同检索词的语义相关性更强。

附图说明

图1为本发明提出的融合词簇约束的汉越跨语言词嵌入方法的流程图；

图2为本发明提出的融合词簇约束的汉越跨语言词嵌入方法的具体结构示意图；

图3为本发明提出的融合词簇约束的汉越跨语言词嵌入方法中对齐词簇的构建流程图；

具体实施方式

实施例1：如图1-图3所示，融合词簇约束的汉越跨语言词嵌入方法，所述方法的具体步骤如下：

Step1、使用汉语与越南语的大规模开源新闻数据集brightmart与binhvq作为单语训练语料，获取汉越单语词嵌入；

Step1.2、将越南语语料中的大写字母转换为小写字母；

Step2.1、基于多语公开数据集CLDR(Unicode Common Locale Data Repository)获取同主题对齐词对，其中包含月份、数字、颜色常用主题词的对齐词对；数据格式如表1所示：

表1 同主题对齐词对

Step2.2、构建停用词表，剔除汉语高频词中的助词、介词和语气词，并对剩余高频词进行人工筛选，去除特有名词(人名、地名)及噪声词；

Step2.3、使用在线词典人工标注相应的越南语翻译，并剔除不包含在汉越单语词嵌入文件中的OOV(out of vocabulary)词对；共完成构建5500对高质量的汉越双语词对，并从中随机抽取500对作为测试词典Test，剩余5000对作为汉越双语词典Seed；此外，通过汉越双语词典，分别得到词典对应的汉语与越南语词嵌入矩阵X′，Y′∈R^v×d；其中，v为词典大小，d代表词嵌入维度，X′＝{X₁′,X₂′,……,X_i′,……,X_v′}，Y′＝{Y₁′,Y₂′,……,Y_i′,……,Y_v′}，X_i′与Y_i′分别代表双语词典第i条词对所对应的汉、越单语词嵌入；

Step2.4、词典中的词簇对齐数据主要利用近义词和同类词两种关系进行构建，构建流程如图3中(a)、(b)所示。查找汉越双语词典中越南语翻译相同的词对，构建为一个初始的对齐词簇；然后，使用开源词库查找初始词簇在词典中的近义词对或同类词对用于扩充对齐词簇，构建为近义对齐词簇或同类对齐词簇，词典中的同主题词对作为一种封闭词类本身具有一定的弱相关性，能构建为同主题对齐词簇，如图3中(c)所示；近义词簇、同类词簇、同主题词簇三种类型的对齐词簇共同构成词簇词典Seed_Cls，各词典规模如表2所示：

表2 为词典规模

与

的构建过程如下所示：

Step3.3、依据训练数据D₃中的对齐关系，词典中对应的汉语与越南语词嵌入经过映射后应尽可能相似。同理，词簇对齐数据中的汉语与越南语簇心嵌入经过映射后也应尽可能相似。这一问题可以通过最小化词嵌入与簇心嵌入之间欧氏距离的平方和求解，模型在词对齐与词簇对齐数据上的联合损失函数如公式3所示：

为

的SVD解。

Step4.1、使用汉语与越南语的单语词嵌入空间X，Y作为输入，将融合词簇对齐信息学习到的汉语与越南语学习到的两个单独的正交映射矩阵W_X与W_Y融入Artetxe等人提出的跨语言映射框架VecMap中，经过归一化、白化、正交映射、去白化、重赋权重五个步骤得到汉语与越南语的共享词嵌入空间，使具有相同含义的汉语与越南语词嵌入在空间中彼此接近；

与

分别为汉语与越南语单词，

为了说明本发明的有效性，设置了三组对比实验及一组实例分析。第一组实验验证模型在汉语到越南语词典归纳任务上对齐准确性的提升，第二组实验验证模型在越南语到汉语反向词典归纳任务上对齐准确性的提升，第三组实验验证模型在汉越低资源环境下的有效性，最后一组实例分析用于解释模型在对齐过程中的具体提升效果。

汉语与越南语的单语词嵌入训练采用相同的参数设置，均使用Word2Vec模型中的CBOW(Continuous bag-of-words)模型进行训练，词嵌入维度为300维，词窗大小设置为10，最低词频为50，迭代次数为5轮。跨语言映射中，汉语与越南语的单语词嵌入及簇心嵌入维度均为300维，训练得到的映射矩阵W_X与W_Y的大小为300×300维。VecMap跨语言映射框架中的归一化步骤使用长度归一化(unit)和中心化(center)作为预处理，执行顺序为[unit,center,unit]，输出的汉越共享词嵌入空间中的嵌入维度为300维。

为更好地与现有工作进行比较，本发明采用词典归纳任务上通用的评价指标，以词汇对齐的准确率P@N(选取N个候选词时的对齐准确率)作为衡量模型效果的标准，具体计算过程如公式7所示：

其中，T代表测试词典的规模，C(w_i)代表模型依据余弦相似度为单词w_i检索到的N个候选词集合，若集合中包含正确的翻译词则取1，否则取0。

(1)汉语到越南语词典归纳任务上对齐准确性提升验证

为验证融合词簇对齐方法的有效性，模型同三个有监督模型和一个无监督模型进行了对比，基线模型设置如下：

1)Multi_w2v模型：mikolov等人基于线性回归思想提出的跨语言Word2Vec模型，使用随机梯度下降最小化双语词典词对间的均方误差(mean squared error,MSE)来学习映射矩阵。

2)Orthogonal模型：Artetxe等人在mikolov等人工作的基础上提出的正交映射模型，引入了长度归一化与中心化处理，并为映射矩阵添加正交约束。

3)VecMap模型：Artetxe等人提出的双向正交映射模型，分别为源语言和目标语言训练单独的正交映射矩阵，并将两种语言的词嵌入映射至同一共享空间。

4)Muse模型：Conneau等人基于无监督思想，利用单语嵌入空间之间的相似性，使用对抗的方式学习映射矩阵。

所有模型使用相同数据集进行训练与测试，参数设置同各文献保持一致，并在汉语到越南语的正向词典归纳任务上进行了对比，实验结果如表3所示。

表3 汉越正向词典归纳任务实验结果

分析表3的实验数据可知，融合词簇对齐约束的方法可以有效提升汉越低资源场景下跨语言词嵌入的对齐准确率，模型效果明显优于其他传统方法。由于汉越语言差异性大，词嵌入空间相似度低，Muse无监督模型在实验中的表现明显弱于其他有监督基线模型。而在有监督模型的对比中，基于线性回归方法实现的Multi_w2v模型在@1和@5任务上的效果优于单向正交映射模型Orthogonal，但表现不如基于双向正交映射的VecMap模型。本发明方法对应的模型ClsMap相较于表现最好的基线模型，在@1和@5任务上的对齐准确率提升了2.2％。实验充分证明在训练过程中融合词簇对齐约束的方法可以有效提升汉越低资源场景下映射矩阵在非标注词上的泛化性、提高汉越双语空间的对齐准确率。

(2)越南语到汉语反向词典归纳任务上对齐准确性提升验证

为验证融合词簇对齐的方法在反向词典归纳任务上的表现，本发明将训练集与测试集中的语言进行了置换，以越南语作为源语言，汉语作为目标语言进行了测试，实验结果如表4所示。

分析表4可知，在以越南语作为检索词的反向词典归纳任务中，本发明方法在@5任务上的对齐准确率达到了54.76％，相比VecMap模型与Orthogonal模型提升了1.48％，取得了最好效果。而在@1任务上，无监督方法取得了最好效果，但除Multi_w2v模型外，有监督模型与无监督模型在@1任务上的差异并没有汉越正向词典归纳任务中那样明显。推测这是由于双语词典是以汉语为源语言进行构建所致，这一问题在初始词簇的构建中就有所体现，词典中包含许多越南语相同的词对，证明汉语相较于越南语的标注更为精确。因此，用于训练的汉越双语词典在反向词典归纳任务中并不具备优势。ClsMap模型虽然在@1任务上的表现一般，但在多候选词的@5任务上依然取得了最好效果，证明融合词簇对齐约束的方法在越南语到汉语的反向词典归纳任务中仍具有一定的提升效果。

表4 汉越反向词典归纳任务实验结果

(3)验证模型在汉越低资源环境下的有效性

为验证本发明方法在低资源场景下的有效性，模型在不同规模的汉越双语词典上进行了对比实验。词典以2000词作为最低规模，并逐次扩展500词。模型在不同词典规模下的实验结果如表5所示，其中，词簇词典规模代表从双语词典中提取出的对齐词簇数量。

表5 本发明模型在不同词典规模下的对齐准确率

通过对比表5与表3可知，在汉语到越南语的正向词典归纳任务(Zh→Vi)中，融合词簇对齐约束的方法仅使用2000词就超越了大部分基线模型在5000词上的实验效果。当词典规模达到3500词时，模型在@1和@5任务上的效果超越了所有基线模型。随着词典规模的增长，在4000-5000词时，模型在@5任务上的效果逐步趋于稳定，但在@1任务上的效果有略微下降，推测这是由于词典扩展过程中引入了更多近义词所导致，例如“好看，

”与“漂亮，xinh”。这种近义词对在共享词嵌入空间中的距离较近，容易使映射出现偏差，导致模型在单个候选词任务上的效果下降。但随着数据规模的扩展，模型效果再次提升。在越南语到汉语的反向词典归纳任务(Vi→Zh)中，随着词典规模的扩大，模型在@1和@5任务上的效果稳步提升，波动并不明显，并在5000词规模时取得了最好效果。

实验证明，融合词簇对齐约束的方法可以有效提升跨语言词嵌入模型在有限数据下的对齐效果，缓解汉越低资源任务中由于缺乏大规模双语词典导致映射矩阵对齐效果不佳的问题。

(4)实例分析

为直观反映融合词簇约束方法对模型映射准确性的影响，本发明选取了两个汉越词典归纳任务中的实例进行了对比说明。

表6 汉越词典归纳任务实例

表6为基线模型VecMap与本发明模型ClsMap在汉越词典归纳任务中的两个实例，模型分别输出五个与检索词余弦相似度最高的越南语单词作为候选词，候选词下面为对应的汉语翻译。表中的对齐词簇代表词簇词典中是否包含同检索词相关的对齐词簇，例如实例1中以非标注词“礼拜五”作为检索词，同时词簇词典中也含有表示“星期”的同主题对齐词簇。通过分析实例1可知，在@5任务上，本发明模型中的正确翻译词“thú_sáu”在相似度排序上相比基线模型前移了一位，效果更好。此外，基线模型的第一候选词为“thú”，对应汉语为“东西”，同检索词的语义相关性较低，而ClsMap模型中的前三位候选词同检索词的语义相关性更高。实例2则体现了当词簇词典中无相关词簇对齐信息时，模型在非标注词上的性能。通过对比表中数据可知，以非标注词“情感”作为检索词时，基线模型在@1任务上的对齐并不准确，而本发明方法在@1任务上实现了精确对齐，同时候选词的相似度排序同检索词的语义相关性更强。实例2充分证明融合词簇对齐约束的方法可以将词簇词典中学习到的空间结构特征迁移到其他未标注词簇上，使具有相近含义的词经过映射后距离更近，提升双语空间对齐的准确性。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.融合词簇约束的汉越跨语言词嵌入方法，其特征在于：所述方法的具体步骤如下：

Step1、获取汉越单语词嵌入；

2.根据权利要求1所述的融合词簇约束的汉越跨语言词嵌入方法，其特征在于：所述Step1的具体步骤为：

Step1.2、将越南语语料中的大写字母转换为小写字母；

3.根据权利要求1所述的融合词簇约束的汉越跨语言词嵌入方法，其特征在于：所述Step2的具体步骤为：

Step2.3、使用在线词典人工标注相应的越南语翻译，并剔除不包含在汉越单语词嵌入文件中的OOV词对；共完成构建5500对高质量的汉越双语词对，并从中随机抽取500对作为测试词典Test，剩余5000对作为汉越双语词典Seed；此外，通过汉越双语词典，分别得到词典对应的汉语与越南语词嵌入矩阵X′，Y′∈R^v×d；其中，v为词典大小，d代表词嵌入维度，X′＝{X′₁,X′₂,……,X′_i,……,X′_v}，Y′＝{Y₁′,Y₂′,……,Y_i′,……,Y_v′}，X′_i与Y_i′分别代表双语词典第i条词对所对应的汉、越单语词嵌入；

4.根据权利要求1所述的融合词簇约束的汉越跨语言词嵌入方法，其特征在于：所述Step3的具体步骤为：

Step3.1、为了更好地将词簇对齐信息融入映射矩阵的训练过程中，通过平均操作将词簇对齐进一步转换为簇心对齐；设现有词簇对齐信息{X′₁,X′₂,……X′_s|Y₁′,Y₂′,……Y_t′}，其中s代表汉语词簇中的词嵌入个数，t代表越南语词簇中的词嵌入个数，所对应的簇心嵌入矩阵