CN110717341A

CN110717341A - 一种以泰语为枢轴的老-汉双语语料库构建方法及装置

Info

Publication number: CN110717341A
Application number: CN201910856645.8A
Authority: CN
Inventors: 毛存礼; 高旭; 余正涛; 高盛祥; 王振晗; 聂男
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2019-09-11
Filing date: 2019-09-11
Publication date: 2020-01-21
Anticipated expiration: 2039-09-11
Also published as: CN110717341B

Abstract

本发明涉及以泰语为枢轴的老‑汉双语语料库构建方法及装置，属自然语言处理领域。本发明先对汉语‑泰语平行语料数据进行泰语分词处理；构建老挝语‑泰语双语词典，并利用其将泰语句子逐词翻译成老挝语句子序列，得到候选的老挝语‑泰语平行句对；构建基于双向LSTM的老挝语‑泰语平行句对分类模型，对候选的老挝语‑泰语平行句对进行分类，获取老挝语‑泰语双语平行句对；以泰语为枢轴语言对老挝语和汉语进行匹配，构建老挝语‑汉语双语平行语料库。并根据上述步骤功能模块化制成以泰语为枢轴语言的老‑汉双语平行语料库构建装置，本发明解决了老挝语‑汉语语料稀缺的问题，对老‑汉双语语料库的构建具有一定的理论意义和实际应用价值。

Description

一种以泰语为枢轴的老-汉双语语料库构建方法及装置

技术领域

本发明涉及一种以泰语为枢轴的老-汉双语语料库构建方法及装置，属于自然语言处理技术领域。

背景技术

语料库建设是自然语言处理研究工作的前提，老-汉双语语料库是开展汉-老机器翻译及跨语言检索的重要数据资源，而老挝语是东南亚语言中资源较为稀缺的语言，老-汉双语平行资源较为稀缺，直接从互联网上获取老-汉双语平行资源存在较大困难。

老挝语和泰语都属于汉藏语系壮侗语族壮傣语支，基本词汇几乎相同或相似，句法结构上也有很大的相似性，而汉-泰平行语料又相对较容易获取，所以可以利用老挝语和泰语的相似性，获取老-泰平行句对，以泰语为枢轴的基础上构建老-汉双语平行语料。

发明内容

本发明提供了一种以泰语为枢轴的老-汉双语语料库构建方法及装置，以用于构建老挝语-汉语双语平行语料库。

本发明的技术方案是：一种以泰语为枢轴的老-汉双语语料库构建方法，包括如下步骤：

Step1、从现有的汉语-泰语平行语料数据中抽取泰语句子并进行泰语分词处理；

Step2、构建老挝语-泰语双语词典，并利用老挝语-泰语双语词典将泰语句子逐词翻译成老挝语句子序列，得到候选的老挝语-泰语平行句对；

Step3、构建基于双向LSTM的老挝语-泰语平行句对分类模型，对候选的老挝语-泰语平行句对进行分类，把互译的老挝语-泰语平行句子抽取出来，从而获取老挝语-泰语双语平行句对；

Step4、将获取得到的老挝语-泰语双语平行句对语料与已有的汉语-泰语平行语料以泰语为枢轴语言对老挝语和汉语进行匹配，构建老挝语-汉语双语平行语料库。

进一步地，所述步骤Step1的具体步骤为：

Step1.1、从已有的汉语-泰语双语平行语料库中选取20-50个字符的泰语句子；

Step1.2、对选取的泰语句子进行分词处理，分词工具使用昆明理工大学研发的东南亚小语种语言信息处理平台，网址为http://222.197.219.24:8099/。

本发明考虑到泰语采取连书形式，没有分词，无法做基于词的翻译以及使用到模型中。因此，要通过泰语分词工具进行分词，得到分好词的泰语句子。

此优选方案设计是本发明的重要组成部分，主要为本发明提供语料及数据预处理过程，为后续的词典翻译及模型使用提供语料基础。

进一步地，所述步骤Step2的具体步骤：

Step2.1、老挝语-泰语双语词典的构建：主要是以英语作为中间语言，在老挝语-英语的词典和泰语-英语词典的基础上，利用英语单词来对齐老挝语和泰语单词，以此构建老挝语-泰语双语词典；

Step2.2、由于老挝语-泰语极其相似，将已获取的汉语-泰语双语平行句对中的泰语句子利用老挝语-泰语双语词典进行逐词翻译，由于存在一词多义的情况，在通过词典翻译时，就可能会生成多个语义不同的老挝语句子，从而得到候选的老挝语-泰语平行句对，其中候选的老挝语-泰语平行句对中，是一句泰语对应多句老挝语的多组句子，它不全是互译的。

此优选设计方案是获取老挝语-泰语候选平行句子的重要过程，分析和利用老挝语和泰语在构词等方面的相似性，通过构建的词典逐词翻译获取候选平行语料，为下一步通过模型抽取老挝语-泰语平行语料做准备。

进一步地，所述步骤Step3的具体步骤：

Step3.1、人工构建基于句对齐的老挝语-泰语平行语料；

本发明是在老挝语-泰语平行语料的基础上训练模型，因此，需要高质量的平行语料使得训练的模型更加有效。所以，采用人工的方式构建老挝语-泰语平行语料，确保训练模型的数据是完全准确的平行语料，以得到老挝语-泰语平行句对分类模型。

Step3.2、因为老挝语和泰语在词语和读音上具有极大的相似性，因此利用双向LSTM将构建的老挝语-泰语平行句对在共享语义空间中进行表征，具体是使用双向LSTM得到前后向的状态向量，并做拼接得到共同语义空间中的句子向量表示，即：

其中，

表示泰语第i个句子在N状态的隐向量前向表示；

是表示泰语第i个句子在N-1状态的隐向量前向表示，

是第i个句子中N状态时泰语句子的词向量表示，LSTM表示LSTM激活函数；

表示泰语第i个句子在N状态的隐向量后向表示；

是表示泰语第i个句子在N+1状态的隐向量后向表示；

表示第i个句子将两个方向得到的最终向量拼接得到第i句的句子向量表示；

表示老挝语第i个句子在N状态的隐向量前向表示；

是表示老挝语第i个句子在N-1状态的隐向量前向表示，

是第i个句子中N状态时老挝语句子的词向量表示；

表示老挝语第i个句子在N状态的隐向量后向表示；

是表示老挝语第i个句子在N+1状态的隐向量后向表示；

然后利用向量点积和向量差捕获两个向量之间的匹配信息，得到匹配向量：

其中，其分别表示通过老挝语和泰语的句子向量点积和向量差值的计算得到的包含句子匹配信息的匹配向量；h_i是包含匹配信息的最终向量表示，W¹，W²，b是双向LSTM模型的参数；

Step3.3、最后使用卷积神经网络的全连接层，通过sigmoid函数计算老挝语和泰语句子是平行句子的概率判断两个句子之间是否是互译的；

p(y_i＝1|h_i)＝σ(W³h_i+c)

其中，p(y_i＝1|h_i)表示在得到的向量h_i的条件下两个句子互译的概率值，y_i＝1即表示两个句子互译，W³，c是卷积神经网络模型参数，σ是激活函数；

Step3.4、使用如下交叉熵损失作为损失函数，多次迭代，更新双向LSTM模型、卷积神经网络模型的参数，训练双向LSTM模型、卷积神经网络模型，即训练老挝语-泰语平行句对分类模型，然后通过训练好的老挝语-泰语平行句对分类模型，对候选的老挝语-泰语平行句对进行分类，把互译的老挝语-泰语平行句子抽取出来，从而获取老挝语-泰语双语平行句对；

其中损失函数如下：

其中，y_i＝1或y_i＝0，y_i＝1表示两个老挝语和泰语的句子是平行的，y_i＝0表示两个老挝语和泰语的句子是不平行的，n代表训练模型中正样本即平行句子的数量，m代表训练模型中负样本即不平行的句子的数量。

一种以泰语为枢轴的老-汉双语语料库构建装置，包括数据预处理模块、词典翻译模块、老挝语-泰语平行句对抽取模块、老挝语-汉语平行语料构建模块；

数据预处理模块：用于从现有的汉语-泰语平行语料数据中抽取泰语句子并进行泰语分词处理；

词典翻译模块：用于构建老挝语-泰语双语词典，并利用老挝语-泰语双语词典将泰语句子逐词翻译成老挝语句子序列，得到候选的老挝语-泰语平行句对；

老挝语-泰语平行句对抽取模块：用于构建基于双向LSTM的老挝语-泰语平行句对分类模型，对候选的老挝语-泰语平行句对进行分类，把互译的老挝语-泰语平行句子抽取出来，从而获取老挝语-泰语双语平行句对；

老挝语-汉语平行语料构建模块：用于将获取得到的老挝语-泰语双语平行句对语料与已有的汉语-泰语平行语料以泰语为枢轴语言对老挝语和汉语进行匹配，构建老挝语-汉语双语平行语料库。

本发明的有益效果是：

老挝语是东南亚语言中资源稀缺的语种，直接从互联网上获取老-汉双语平行资源十分的困难，本发明提出以泰语为枢轴构建老-汉双语平行语料库的方法，利用老挝语-泰语之间的相似性，在汉-泰双语平行语料的基础上，通过词典翻译和神经网络模型分类，构建老-汉双语平行语料，以此来解决老挝语-汉语语料稀缺的问题，对老-汉双语语料库的构建具有一定的理论意义和实际应用价值。

附图说明

图1为本发明中的流程图；

图2为本发明中的老挝语-泰语句法相似性图；

图3为本发明中的对于翻译中一词多义现象图；

图4为本发明中的平行句子分类流程图；

图5为本发明中的装置结构图；

图6为本发明中总的方法流程框图。

具体实施方式

实施例1：如图1-6所示，一种以泰语为枢轴的老-汉双语语料库构建方法，包括如下步骤：

作为本发明的优选方案，所述步骤Step1的具体步骤：

Step1.2、对选取的泰语句子可以使用昆明理工大学研发的东南亚小语种语言信息处理平台，网址为http://222.197.219.24:8099/做分词处理。

作为本发明的优选方案，所述步骤Step2的具体步骤：

Step2.2、人工分析了泰语和老挝语在句法结构上的相似性，由于老挝语-泰语在句子构成上基本保持一致，即词语顺序一致，如图2所示，所以可以利用词典逐个翻译生成候选老挝语-泰语平行句子；

具体的，将已获取的汉语-泰语双语平行句对中的泰语句子利用老挝语-泰语双语词典进行逐词翻译，由于存在一词多义的情况，在通过词典翻译时，就可能会生成多个语义不同的老挝语句子，从而得到候选的老挝语-泰语平行句对，如图3所示，其中候选的老挝语-泰语平行句对中，是一句泰语对应多句老挝语的多组句子，它不全是互译的。

作为本发明的优选方案，所述步骤Step3的具体步骤：

Step3.1、人工构建基于句对齐的9483条老挝语-泰语平行语料；

分析了泰语和老挝语在词语构成和读音上的相似性。在词语上，老挝语和泰语具有很多相似的词语，它们不仅在含义上相同，并且在书写上也是有很大的相似性的，比如，

(泰语)和

(老挝语)都表示“公司”的意思；

(泰语)和

(老挝语)都是“提前”的意思；

(泰语)和

(老挝语)表示“老板”。在读音上，泰语的“湄公河”的读音是menamkong，老挝语的“湄公河”读音同样是menamkong。根据以上例子可以看出，泰语和老挝语在词语上基本上书写是一样的，而且读音基本相同，可以利用这样的语言特点对句子进行表示。

Step3.2、因为老挝语和泰语在词语和读音上具有极大的相似性，可以将这两种相似语言的句子表示到共享的语义空间中，如图4所示，利用双向LSTM将构建的老挝语-泰语平行句对在共享语义空间中进行表征，双向LSTM与LSTM相比主要是弥补LSTM在对句子建模时从后到前的编码问题，可以更好的捕捉前向和后向的语义之间的关系。具体过程如下：

首先，利用嵌入矩阵和句子中词的one-hot向量来编码词向量，即：

其中E是嵌入矩阵，w_k代表的是词表中第k个词的one-hot表示，i表示句子的序号。

在得到了向量表示后，将句子送入到双向LSTM中，并选择前向和后向两个方向上最后状态的向量作为最终表示向量：

得到了两个方向的最终状态向量后，将两个向量做拼接

得到最终表示。同理老挝语做同样的处理得到老挝语最终句子表示

其中，

表示泰语第i个句子在N状态的隐向量前向表示；

是表示泰语第i个句子在N-1状态的隐向量前向表示，

表示泰语第i个句子在N状态的隐向量后向表示；

是表示泰语第i个句子在N+1状态的隐向量后向表示；

表示老挝语第i个句子在N状态的隐向量前向表示；

是表示老挝语第i个句子在N-1状态的隐向量前向表示，

是第i个句子中N状态时老挝语句子的词向量表示；

表示老挝语第i个句子在N状态的隐向量后向表示；

是表示老挝语第i个句子在N+1状态的隐向量后向表示；

为了获取两个句子的互译程度，将两个句子向量分别做向量点积和向量差处理捕获两个向量之间的匹配信息，得到匹配向量：

其中，

其分别表示通过老挝语和泰语的句子向量点积和向量差值的计算得到的包含句子匹配信息的匹配向量；h_i是包含匹配信息的最终向量表示，W¹，W²，b是双向LSTM模型的参数；

Step3.3、全连接层(fully connected layers，FC)在整个卷积神经网络中起到“分类器”的作用，在得到老挝语和泰语的句子匹配程度向量表示后，最后使用卷积神经网络的全连接层，通过sigmoid函数计算老挝语和泰语句子是平行句子的概率判断两个句子之间是否是平行的(互译的)；

p(y_i＝1|h_i)＝σ(W³h_i+c)

其中，p(y_i＝1|h_i)表示在得到的向量h_i的条件下两个句子互译的概率值，y_i＝1即表示两个句子是平行的(互译)，W³，c是卷积神经网络模型参数，σ是激活函数；

Step3.4、使用如下交叉熵损失作为损失函数，迭代了15次，更新双向LSTM模型、卷积神经网络模型的参数，训练双向LSTM模型、卷积神经网络模型，即训练老挝语-泰语平行句对分类模型，然后通过训练好的老挝语-泰语平行句对分类模型，对候选的老挝语-泰语平行句对进行分类，把互译的老挝语-泰语平行句子抽取出来，从而获取老挝语-泰语双语平行句对；

其中损失函数如下：

模型的训练中使用了人工构建的9483条老挝语-泰语双语平行语料，并做好分词，然后分为训练集和测试集，其中训练集8883条，测试集600条，测试集用来测试模型训练的结果。

在用老挝语-泰语平行句对分类模型对老-泰双语平行句子分类中，本发明采用F1值来评价模型的好坏，具体公式如下：

其中TP是把原来的正类预测成正类，FN是把原来的正类预测为负类，FP是把负类预测为正类。F1值是精确率和召回率的调和均值。

为了比较老挝语-泰语平行句对分类模型和传统机器学习方法在平行句子分类上的效果，将本发明的老挝语-泰语平行句对分类模型与几种常用机器学习模型做了对比，如表1所示。

表1：平行句分类模型结果对比

编号	模型	F1值(％)
			1	SVM	68.78
2	LR	65.04
			3	Random forest	51.49
4	Gbdt	60.03
			5	老挝语-泰语平行句对分类模型	71.30

从表1结果可以看出，利用本发明老挝语-泰语平行句对分类模型对平行句子进行分类时，准确性比利用机器学习的方法进行分类时要好，从而获取的老挝语-泰语双语平行句对的准确性就高，再与现有的汉语-泰语平行语料以泰语为枢轴语言对老挝语和汉语进行匹配，构建的老挝语-汉语双语平行语料准确性高。

参见图5，本发明提供一种以泰语为枢轴的老-汉双语语料库构建装置，包括数据预处理模块、词典翻译模块、老挝语-泰语平行句对抽取模块、老挝语-汉语平行语料构建模块；

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。