CN113627150A

CN113627150A - 基于语言相似性的迁移学习平行句对抽取方法及装置

Info

Publication number: CN113627150A
Application number: CN202110743036.9A
Authority: CN
Inventors: 毛存礼; 满志博; 余正涛; 高盛祥; 黄于欣; 王振晗
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2021-07-01
Filing date: 2021-07-01
Publication date: 2021-11-09
Anticipated expiration: 2041-07-01
Also published as: CN113627150B

Abstract

本发明涉及基于语言相似性的迁移学习平行句对抽取方法及装置，属自然语言处理领域。本发明首先对泰语、老挝语的语料进行预处理，将泰语中的子词和词语基于音标进行替换，得到泰语、老挝语句子的统一表示，然后，基于泰语‑老挝语之间的语言相似性利用数据迁移和模型迁移的方法将汉语‑泰语的平行句对抽取模型迁移到汉语‑老挝语的模型上，最后，利用预训练好的平行句对抽取模型对输入模型的汉语‑老挝语平行句对进行预测。本发明所提方法能够有效地对语言相似性进行建模和利用资源较丰富的汉语‑泰语句对抽取模型迁移到资源较稀缺的汉语‑老挝语句对抽取模型上，从而达到提升汉语‑老挝语句对抽取模型性能目的，具有重要的理论和实际应用价值。

Description

基于语言相似性的迁移学习平行句对抽取方法及装置

技术领域

本发明涉及基于语言相似性的迁移学习平行句对抽取方法及装置，属于自然语言处理技术领域。

背景技术

利用迁移学习的思想来解决低资源语言语料不足的问题是当前自然语言处理的一个研究热点。利用迁移学习将现有的汉语-泰语平行句对语料迁移到汉语-老挝语中可以取得较好的效果，主要原因是在泰语-老挝语存在一定的语言相似性，汉语-泰语，汉语-老挝语的双语句对较为缺乏，直接导致汉语-泰语以及汉语-老挝语的翻译模型性能不佳，常见的策略是利用一定数量的平行句对构建平行句对抽取的模型，从互联网中的可比语料或伪平行句对中抽取高质量的汉语-泰语，汉语-老挝语的平行句对，可以有效地提升机器翻译性能。将泰语和老挝语不同层面的相似性信息进行融合表征，将汉语-泰语的句子抽取模型与汉语-老挝语的句子抽取模型进行共享，有效利用丰富资源语言的语言信息。

发明内容

本发明提供了基于语言相似性的迁移学习平行句对抽取方法及装置，以用于解决汉语-老挝语标记数据稀缺，小规模训练数据，平行句对的效果差问题，以及解决依靠标记数据训练的模型效果差的问题。

本发明的技术方案是：基于语言相似性的迁移学习平行句对抽取方法，所述方法的具体步骤如下：

Step1、对泰语、老挝语数据进行分词处理，将老挝语的词语、子词以及读音信息基于泰语进行表示；

Step2、基于迁移学习的汉语-泰语平行句对抽取模型训练：将汉语-泰语的平行句对模型进行训练，进一步将其迁移至汉语-老挝语的平行句对抽取模型中；

通过预训练好的汉语-泰语平行句对抽取模型，对输入的汉语-老挝语平行句对进行抽取，判断其句子相似度。

进一步地，所述步骤Step1的具体步骤为：

Step1.1、首先，对输入的泰语、老挝语句子分词处理；

Step1.2、基于泰语-老挝语双语词典、音标词典对泰语-老挝语中的词语进行替换。

进一步地，所述步骤Step1.2的具体步骤为：

在数据预处理层，利用泰语-老挝语之间的词典、子词词典、音标词典三部分进行替换，用于将老挝语表征为泰语，这样在进行数据模型输入以及向量化表示时，能有效的将两种语言的双语数据进行混合训练，以达到数据增强的目的；具体如下：

Step 1.2.1、泰-老词语表示：输入一句包含n个词语的泰语句子S_Th ^w＝(w₁ ^th,w₂ ^th,...,w_n ^th)和对应的包含n个词语的泰语句子S_Lao ^w＝(w₁ ^lao,w₂ ^lao,...,w_n ^lao)，将根据泰语子词-老挝语词表的对应关系进行替换，中文含义为“我爱中国”的泰语、老挝语分别为

分词后的泰语、老挝语句子基于泰语-老挝语的词典进行替换，将老挝语句子的单词替换为泰语，因此，对于输入模型的所有输入的老挝语句子均由泰语句子所表征，输入泰语句子为在词和子词层面替换后的泰语、老挝语句子表示如式(1)所示：

由于泰语-老挝语的词典大小受到限制，不能做到所有的老挝语均能够找到对应的泰语单词进行替换，在替换过程中，会有部分老挝语被保留在原有的句子中，但这不会影响后续模型的性能，因为BERT本身需要遮掩机制，保留部分老挝语单词可以做到引入部分噪声提升模型能力的作用。

Step1.2.2、泰-老音标表示：由于泰语、老挝语之间的语言相似性主要体现在双语发音上，而且泰语-老挝语之间的所有字符都有对应的音标进行表示，为了进一步融合泰语、老挝语的相似性特征，并将泰语、老挝语之间的语言相似性进一步作为约束，约束双语的表示形式，显式的对两种语言的语义进行建模，本发明将两种语言的读音相似性，就是泰语-老挝语之间的音标进行向量化表示并将音标信息作为向量同时拼接在向量的表示中，每个输入模型的泰语句子S_Th ^w＝(w₁ ^th,w₂ ^th,...,w_n ^th)、老挝语句子S_Lao ^w＝(w₁ ^lao,w₂ ^lao,...,w_n ^lao)都有对应的音标级表示。

例如，中文含义为“我爱中国。”泰语、老挝语表示分别为

两个句子依据构建的音标词典被表示为音标后的形式为

这些表示将进一步约束两种语言的相似性。泰语和老挝语句子表示为音标后形式如公式(2)：

进一步地，所述步骤Step2的具体步骤为：

Step2.1、基于预训练语言模型获取泰-老词向量：在输入层部分，利用数据迁移的思想，将泰语-汉语以及老挝语-汉语双语数据进行混合训练。BERT多语言预训练模型中包括基于维基百科获取到的108种语言，其中，东南亚语言包括泰语、缅甸语以及越南语，并不包含老挝语。因此，利用泰语老挝语之间的语言相似性在数据层面上扩充老挝语-汉语之间的数据；具体的，基于BERT生成输入的词向量表示，这里生成的泰语、老挝语词向量维度为768，基于预训练语言模型的方式可以生成具有上下文信息的词向量表征，具体如公式(3)：

Step2.2、获取泰-老音标向量：子词是语言中最小的语义粒度，利用子词可以表示语言中的大部分词语的关系，将泰语-老挝语-子词-音标根据发音相似性构建词典。对于泰语、老挝语的音标向量，基于Word2vec使用Skip-gram语言模型在构建的音标字典基础上生成的，在泰语-老挝语的句子替换的过程中，为了更好的得到两种语言句子的对应关系，首先，将泰语-老挝语基于词语级别进行替换，由于泰语-老挝语之间不是所有的词语都可以对应得到替换，因此，在这里，我们利用子词的对应关系，将无法替换的泰语-老挝语之间的字符与子词进行替换，另外，将生成的字符和子词对应词表进行替换以及表征。使用这种方式的好处是可以更容易获得任何字符表示符号的词向量，基于模型训练得到的泰语、老挝语的音标向量表示为

和

Step2.3、泰-老词向量、音标向量拼接：基于以上步骤获得了泰语、老挝语的词语以及音标向量，将泰语、老挝语的词向量、音标向量进行拼接；如下公式所示：

Step2.4、模型训练层：利用Poly编码器对双语句子进行编码计算双语句子相似度，相比较于双向编码器以及跨语言编码器，Poly编码器的结构可以更快速准确的提取更多的双语句子信息，对于输入Poly编码器的源语言句子以及目标语言句子，Poly编码器结构中都包含两个编码器，并将目标语言汉语编码为单个向量表示，对于输入模型的每个泰语、老挝语句子均可由Step2.3的m个泰语、老挝语的词向量、音标向量的拼接形式进行表示，具体如下：

S_Th ^E＝(E_th ¹,E_th ²,...,E_th ^m)

S_Lao ^E＝(E_lao ¹,E_lao ²,...,E_lao ^m) (5)

向量化后的泰语、老挝语句子将进一步基于注意力机制将被表示为n个向量y¹ _Th\Lao,y² _Th\Lao,...,yⁿ _Th\Lao，其中，n将影响整个模型训练过程中的速度，为了获得n个输入的全局特征，整个模型训练部分学习到n个节点的向量为c₁,...,c_n，其中c_i通过参与上一层的所有输出来提取表示形式yⁱ _Th\Lao；yⁱ _Th\Lao的表示如下式所示：

其中，

表示源语言的训练权重，h₁...h_N表示基于Attention机制生成的上下文信息向量表示；N表示源语言的训练权重个数；

最后，鉴于n个全局上下文功能，使用目标语言汉语y_Ch作为训练过程中的查询向量：

其中，(w₁,...,w_m)＝softmax(y_Ch·y¹ _Th\Lao,...,y_Ch·y^m _Th\Lao)表示目标语言权重信息；

最后，输出的泰语、老挝语句子与目标语言汉语句子的相似计算的点积得分就是Score(Th\Lao,Ch)＝yⁱ _Th\Lao·y_Ch。

基于语言相似性的迁移学习平行句对抽取装置，包括如下模块：

泰语-老挝语预处理模块，用于将老挝语的词语、子词以及读音信息基于泰语进行表示；

基于迁移学习的平行句对抽取模块，用于将汉语-泰语的平行句对抽取模型迁移到汉语-老挝语的平行句对抽取模型中；

平行句对抽取模块，用于通过预训练好的汉语-泰语平行句对抽取模型，对输入的汉语-老挝语平行句对进行抽取。

本发明的有益效果是：

1、将泰语和老挝语不同层面的相似性信息进行融合表征，在训练过程中达到汉语-泰语的句子抽取模型与汉语-老挝语的句子抽取模型进行共享的目的。

2、利用泰语、老挝语的相似性构建不同层面的向量表示，增强语言之间的相似性表示。

3、基于泰语-老挝语词语、子词以及读音的相似性，利用预训练BERT多语言模型在老挝语数据集上微调，基于深度多编码机制获取句子中的词语之间的依赖信息提升了老挝语-汉语双语句子抽取模型性能。

附图说明

图1为基于语言相似性的迁移学习平行句对抽取方法；

图2为本发明的整体流程图；

具体实施方式

实施例1：如图1-2所示，基于迁移学习的缅甸语依存句法分析方法，所述基于语言相似性的迁移学习平行句对抽取方法的具体步骤如下：

作为本发明的优选方案，所述步骤Step1的具体步骤为：

Step1.1、首先，利用分词工具对输入的泰语、老挝语句子分词处理；

作为本发明的优选方案，所述步骤Step1.2的具体步骤为：

分词后的泰语、老挝语句子基于泰语-老挝语的词典进行替换，将老挝语句子的单词替换为泰语，因此，对于输入模型的所有输入的老挝语句子均由泰语句子所表征，输入泰语句子为在词和子词层面替换后的泰语、老挝语句子表示如公式(1)。

S_Th ^s＝(s₁ ^th,s₂ ^th,...,s_n ^th) (1)

S_Lao ^s＝(s₁ ^lao,s₂ ^lao,...,s_n ^lao)

例如，中文含义为“我爱中国。”泰语、老挝语表示分别为

两个句子依据构建的音标词典被表示为音标后的形式为

作为本发明的优选方案，所述步骤Step2的具体步骤为：

Step2.1、基于预训练语言模型的泰-老词向量：在输入层部分，利用数据迁移的思想，将泰语-汉语以及老挝语-汉语双语数据进行混合训练。BERT多语言预训练模型中包括基于维基百科获取到的108种语言，其中，东南亚语言包括泰语、缅甸语以及越南语，并不包含老挝语。因此，利用泰语老挝语之间的语言相似性在数据层面上扩充老挝语-汉语之间的数据，基于BERT生成输入的词向量表示，这里生成的泰语、老挝语词向量维度为768，基于预训练语言模型的方式可以生成具有上下文信息的词向量表征，具体如公式(3)。

Step2.2、泰-老音标向量：子词是语言中最小的语义粒度，利用子词可以表示语言中的大部分词语的关系，将泰语-老挝语-子词-音标根据发音相似性构建词典，具体如表1所示。对于泰语、老挝语的音标向量，基于Word2vec使用Skip-gram语言模型在构建的音标字典基础上生成的，在泰语-老挝语的句子替换的过程中，为了更好的得到两种语言句子的对应关系，首先，将泰语-老挝语基于词语级别进行替换，由于泰语-老挝语之间不是所有的词语都可以对应得到替换，因此，在这里，我们利用子词的对应关系，将无法替换的泰语-老挝语之间的字符与子词进行替换，另外，将生成的字符和子词对应词表进行替换以及表征。使用这种方式的好处是可以更容易获得任何字符表示符号的词向量，基于模型训练得到的泰语、老挝语的音标向量表示为

和

Step2.3、泰-老词向量、音标向量拼接：基于以上步骤获得了泰语、老挝语的词语以及音标向量，为了进行模型训练，将泰语、老挝语的词向量、音标向量进行拼接，如公式(4)。

Step2.4、模型训练层：利用Poly编码器对双语句子进行编码计算双语句子相似度，相比较于双向编码器以及跨语言编码器，Poly编码器的结构可以更快速准确的提取更多的双语句子信息，对于输入Poly编码器的源语言句子以及目标语言句子，其结构中都包含两个编码器，并将目标语言汉语编码为单个向量表示，对于输入模型的每个泰语、老挝语句子均可由Step2.3的m个泰语、老挝语的词向量、音标向量的拼接形式进行表示，具体如下：

另外，这些向量化后的泰语、老挝语句子将进一步基于注意力机制被表示为n个向量y¹ _Th\Lao,y² _Th\Lao,...,yⁿ _Th\Lao，其中，n将影响整个模型训练过程中的速度，为了获得n个输入的全局特征，整个模型训练部分学习到n个节点的向量为c₁,...,c_n，其中c_i通过参与上一层的所有输出来提取表示形式yⁱ _Th\Lao。yⁱ _Th\Lao的表示如公式(6)所示：

其中，

表示源语言的训练权重，h₁...h_N表示基于Attention机制生成的上下文信息向量表示。

其中，(w₁,...,w_m)＝softmax(y_Ch·y¹ _Th\Lao,...,y_Ch·y^m _Th\Lao)表示目标语言权重信息。

具体的，从开源语料库OPUS¹中获取汉语-泰语平行语料，从开源语料库亚洲语言树库(ALT)²获取汉语-老挝语平行语料以及人工构建部分语料。具体实验过程中使用的训练集、测试集以及验证集如表1、2所示。

表1汉语-泰语实验数据集

	训练集	验证集	测试集
				句对数目	196000	2000	2000

表2汉语-老挝语实验数据集

	训练集	验证集	测试集
				句对数目	96000	2000	2000

为了测试提出模型性能好坏，评价指标选用精确率(Precision)，召回率(Recall)和F1值(F1-Measure)，用于衡量模型是否能够正确地对汉语-老挝语、汉语-泰语平行句对进行分类。具体公式如(7)、(8)以及(9)所示：

其中TP是真的正例，FP是假的反例，FP是假正例，TN是真的反例。

在实验部分，为了验证提出方法的有效性，将提出方法与现有基线模型进行对比，分别是基于机器学习的方法：SVM，LR，以及深度学习的方法BiLSTM，具体的基线模型介绍如下(1)-(3)：

如表3所示，本发明方法在三种数据集的组合上均取得了较好的效果，相比较于机器学习SVM、LR得方式，本发明方法基于预训练BERT语言模型的方式可以获得更好的词向量语义表征，基于注意力机制的方式获得更好的上下文信息表征，传统的基于机器学习的方式，依赖于数据规模的大小，在低资源得泰语、老挝语上表现不佳，受到数据规模的限制，SVM、LR的方法结果均提升不明显。基线模型分别基于两种不同的测试集、训练集进行实验分析，通过纵向比较发现，汉泰的实验效果均优于汉老的实验效果，这是由于汉泰的实验数据集规模相较于汉老的实验数据集规模较大。

表3与其他模型对比实验的实验结果

相比较于基于深度学习的方法，本发明方法取得了相当的效果，由于提出方法是基于Poly方法上改进，因此，基于Poly编码器方法的效果与提出方法效果相当，另外，基于BERT的方式，由于多语言BERT词表中缺少老挝语词语，因此，在老挝语的实验效果上相对较低，进一步验证了提出方法充分利用了泰语-老挝语之间的语言相似性，提升平行句对抽取模型的性能。

当训练语料为汉泰与汉老语料混合时，提出方法的F1值在汉泰、汉老的测试集上分别达到了76.36％以及56.15％，这说明将汉泰、汉老双语进行混合训练时，达到了数据增强的目的，两种不同的语料相互混合，相似语言之间的训练参数得到了共享，进一步说明了提出方法的优越性，另外，当实验训练集为汉泰，测试集为汉泰时，提出方法的F1值达到了74.16％，当实验训练集为汉老，测试集为汉老时，提出方法的F1值达到了53.88％，直接使用Poly编码的方式也可以很好的获取到双语句子的信息。

在本实验中，为了验证不同的正负样本比例对实验结果的影响，设置不同的实验正负样本比例进行实验，具体的实验结果如表4、5所示。

表4测试集为泰语时不同正负样本的比例对实验结果的影响

样本比例	训练集语料	测试集语料	P	R	F1
						1:1	汉泰+汉老	汉泰	65.65	77.20	70.96
1:2	汉泰+汉老	汉泰	60.19	76.20	67.26
						1:3	汉泰+汉老	汉泰	70.66	80.20	75.13
1:4	汉泰+汉老	汉泰	72.30	80.90	76.36

表5测试集为老挝语时不同正负样本的比例对实验结果的影响

表4、表5表明了当在实验设置中保持正负样本比例为1:4时，实验效果达到最佳，正负样本的比例会对模型训练过程中参数产生影响，在一定程度上控制数据的比例才可以达到最好的效果，这是因为当训练的样本足够大时，扩充一定的负样本会增强模型的泛化能力，当正负样本不平衡时，对汉泰、汉老的平行句对抽取模型的性能影响均较明显。

如表6、表7在实验中，我们设计了消融实验对实验过程中不同的部分对实验结果的影响进行了探究，分别是子词、词语、读音以及子词+读音+词语四组对比试验，具体实验结果如表3.7、表3.8所示。在词语+子词+读音三个粒度叠加后的实验效果最佳，这是因为泰语-老挝语之间不同形式的相似性得到了进一步的表示，三种不同粒度的相似性进一步进行融合，较好的将更深层次的相似性进行融合，得到最好的表征形式，仅仅利用单词层面的相似性，没有读音的约束，会造成部分无法匹配的单词词义距离更远。仅仅利用泰-老之间的读音作为相似性进行约束表征，无法将词语词义层面的信息进行融合，将泰语-老挝语的词语、子词以及读音三个层面的相似性互相叠加、约束得到最准确的相似性表征对模型效果提升最明显。

表6测试集为泰语时消融实验对实验结果的影响

不同组件部分	训练集语料	测试集语料	P	R	F1
						子词	汉泰+汉老	汉泰	56.43	58.90	57.54
词语	汉泰+汉老	汉泰	50.98	56.11	53.45
						读音	汉泰+汉老	汉泰	67.85	66.55	67.21
子词+读音+词语	汉泰+汉老	汉泰	72.30	80.90	76.36

表7测试集为老挝语时消融实验对实验结果的影响

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.基于语言相似性的迁移学习平行句对抽取方法，其特征在于：所述方法的具体步骤如下：

Step1、对泰语、老挝语数据进行预处理：将老挝语的词语、子词以及读音信息基于泰语进行表示；

2.根据权利要求1所述的基于语言相似性的迁移学习平行句对抽取方法，其特征在于：所述步骤Step1的具体步骤为：

Step1.1、首先，对输入的泰语、老挝语句子分词处理；

3.根据权利要求1所述的基于语言相似性的迁移学习平行句对抽取方法，其特征在于：所述步骤Step1.2的具体步骤为：

Step1.2.1、泰-老词语表示：输入一句包含n个词语的泰语句子S_Th ^w＝(w₁ ^th,w₂ ^th,...,w_n ^th)和对应的包含n个词语的泰语句子S_Lao ^w＝(w₁ ^lao,w₂ ^lao,...,w_n ^lao)，将根据泰语子词-老挝语词表的对应关系进行替换，分词后的泰语、老挝语句子基于泰语-老挝语的词典进行替换，将老挝语句子的单词替换为泰语，因此，对于输入模型的所有输入的老挝语句子均由泰语句子所表征，输入泰语句子为在词和子词层面替换后的泰语、老挝语句子表示如下式所示：

S_Th ^s＝(s₁ ^th,s₂ ^th,...,s_n ^th)

S_Lao ^s＝(s₁ ^lao,s₂ ^lao,...,s_n ^lao)

Step1.2.2、泰-老音标表示：将泰语-老挝语之间的音标进行向量化表示并将音标信息作为向量同时拼接在句子向量的表示中，每个输入模型的泰语句子S_Th ^w＝(w₁ ^th,w₂ ^th,...,w_n ^th)、老挝语句子S_Lao ^w＝(w₁ ^lao,w₂ ^lao,...,w_n ^lao)都有对应的音标级表示。

4.根据权利要求1所述的基于语言相似性的迁移学习平行句对抽取方法，其特征在于：所述步骤Step2的具体步骤为：

Step2.1、基于预训练语言模型获取泰-老词向量：在输入层部分，利用数据迁移的思想，将汉语-泰语以及汉语-老挝语双语数据进行混合训练；具体的，基于BERT生成输入的词向量表示，如下公式所示：

Step2.2、获取泰-老音标向量：将泰语-老挝语-子词-音标根据发音相似性构建词典，对于泰语、老挝语的音标向量，基于Word2vec使用Skip-gram语言模型在构建的音标字典基础上生成的，在泰语-老挝语的句子替换的过程中，首先，将泰语-老挝语基于词语级别进行替换，利用子词的对应关系，将无法替换的泰语-老挝语之间的字符与子词进行替换，另外，将生成的字符和子词对应表进行替换以及表征，基于模型训练得到的泰语、老挝语的音标向量表示为

和

Step2.4、模型训练层：利用Poly编码器对双语句子进行编码计算双语句子相似度，对于输入Poly编码器的源语言句子以及目标语言句子，Poly编码器结构中都包含两个编码器，并将目标语言汉语编码为单个向量表示，对于输入模型的每个泰语、老挝语句子均可由Step2.3的m个泰语、老挝语的词向量、音标向量的拼接形式进行表示，具体如下：

S_Th ^E＝(E_th ¹,E_th ²,...,E_th ^m)

S_Lao ^E＝(E_lao ¹,E_lao ²,...,E_lao ^m)

其中，

5.基于语言相似性的迁移学习平行句对抽取装置，其特征在于：包括如下模块：