CN112287688A

CN112287688A - 融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法及装置

Info

Publication number: CN112287688A
Application number: CN202010980757.7A
Authority: CN
Inventors: 毛存礼; 高旭; 余正涛; 王振晗; 高盛祥; 满志博
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2020-09-17
Filing date: 2020-09-17
Publication date: 2021-01-29
Anticipated expiration: 2040-09-17
Also published as: CN112287688B

Abstract

本发明涉及融合预训练语言模型及结构特征的英‑缅双语平行句对抽取方法及装置，属于自然语言处理技术领域。本发明包括步骤：数据预处理构建英‑缅平行句对数据集；利用基于多语言预训练语言模型训练英语和缅甸语词向量，以共享语义空间；通过融合英‑缅句子结构特征及孪生神经网络构建英‑缅双语平行句对抽取模型；收集双语文本并使用融合多语言预训练语言模型及英‑缅句子结构特征及孪生网络的英‑缅双语平行句对抽取模型计算每一句对的相似度，并设定相似度阈值来抽取英‑缅双语平行句对。本发明有效的从英‑缅可比语料中抽取平行句对并且降低对语义相似但不平行的句对的误判，为开展英‑缅神经机器翻译研究工作提供了数据支撑。

Description

融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法及装置

技术领域

本发明涉及融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法及装置，属于自然语言处理技术领域。

背景技术

英-缅平行句对抽取是缅甸语自然语言处理的基础任务，高质量的平行句对是开展英-缅神经机器翻译的基础和前提。英语和缅甸语都是缅甸的官方语言，互联网中存在大量的英语和缅甸语的双语数据，这些数据大多是主题相关、内容相似的双语可比文档，因此可以从英-缅双语可比语料中获取平行句对。英语和缅甸语属于语言差异较大的语言，直接影响英-缅双语句对抽取的效果。不仅需要解决语义空间上的差异，同时还需解决对语义相似但不平行句对的误判问题，以提高英-缅平行句对抽取的准确性，获取高质量的英-缅平行句对。

发明内容

本发明提供了融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法及装置，以用于解决英-缅语义空间的差异以及对语义相似但不平行句对的误判问题。

本发明的技术方案是：融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法，所述方法包括：

Step1、数据预处理构建英-缅平行句对数据集；

Step2、利用基于多语言预训练语言模型训练英语和缅甸语词向量，以共享语义空间；

Step3、通过融合英-缅句子结构特征及孪生神经网络构建英-缅双语平行句对抽取模型；

Step4、收集双语文本并使用融合多语言预训练语言模型及英-缅句子结构特征及孪生网络的英-缅双语平行句对抽取模型计算每一句对的相似度，并设定相似度阈值来抽取英-缅双语平行句对。

作为本发明的进一步方案，所述步骤Step1的具体步骤为：

Step1.1、利用网络爬虫从英-缅双语平行网站爬取包含新闻类、经济类等领域的英-缅双语文本，进行句子切分，去掉数据集中包含非英语和缅甸语字符的数据，通过人工整理得到共494816条英-缅平行数据；

Step1.2、由于缅甸语与英语不同，不以空格分词。因此对缅甸语进行分词处理，为了避免音节切分错误对分词的影响，充分利用缅甸语字符、音节以及词语之间的组合特点，利用神经联合训练模型实现缅甸语的音节切分、分词及词性标记任务。

作为本发明的进一步方案，所述步骤Step2中：

由于随机初始化词向量在英-缅这样不相似的语言对上效果较差，特别是在语义空间上存在较大差异，因此本发明利用基于多语言预训练语言模型(MultilingualBidirectional Encoder Representations from Transformers，MBERT)微调MBERT中的参数信息，训练英语和缅甸语的双语词向量，使两种语言能够共享语义空间；

其中，基于MBERT预训练英语词向量时，由于英语文本以空格分词，因此Wordpiece分词后预训练的词向量直接作为英语词汇的词向量；

缅甸语的最小粒度是字符，每一个词都是由字符组合而成的，而MBERT中的词向量是字符级的向量，不能很好的体现词级别的语义信息，因此不能直接与英语词向量匹配。为此本发明通过预训练语言模型先得到构成每个缅甸语词语的各个字符级的向量，然后再将字符级的向量进行组合进而得到缅甸语词级别的语义向量，这样，用于更准确的获得缅甸语词语的语义信息。

作为本发明的进一步方案，所述步骤Step3的具体步骤：

Step3.1、为了解决英-缅句对语义差异的问题，使英-缅双语句子的向量共享语义空间进行有效的句子向量编码，本发明采用孪生神经网络结构对英-缅句子进行编码表示，将Step2.2和Step2.3中预训练的英语和缅甸语词向量作为孪生神经网络的输入，通过共享权重的孪生神经网络得到同一语义空间中编码后的英语、缅甸语句子向量h^en和h^my；

Step3.2、为了解决英-缅句子因长度差异导致模型的误判，本发明分别对英语、缅甸语句子的长度进行编码，得到

和

并将编码后的句子长度特征融合到孪生网络编码中：

Step3.3、通过英语和缅甸语的最终向量h′^en和h′^my表示预测两个句子平行的概率，通过损失函数反向传播训练模型，提升模型的性能。

作为本发明的进一步方案，所述步骤Step4的具体步骤为：

Step4.1、从互联网上的英-缅双语网站中收集英-缅双语文本，为了减小计算的数量，提高计算效率，本发明通过双语实体词典对文本进行分类，将含有相同实体信息的文本作为待抽取的候选文本；

Step4.2、将分好类的待抽取文本进行分句，缅甸语以“||”分句，英语以“.”分句；之后将英语中的每一句与缅甸语中的每一句进行配对，使用融合多语言预训练语言模型及英-缅句子结构特征及孪生网络的英-缅双语平行句对抽取模型计算每一句对的相似度，并设定相似度0.9作为英-缅双语平行句对的阈值来抽取英-缅双语平行句对。

一种融合预训练语言模型及结构特征的英-缅平行句对抽取装置，所述装置包括：

数据预处理模块，用于数据预处理构建英-缅平行句对数据集；

预训练词向量模块，用于利用基于多语言预训练语言模型训练英语和缅甸语词向量，以共享语义空间；

训练英-缅平行句对抽取模型模块，用于通过融合英-缅句子结构特征及孪生神经网络构建英-缅双语平行句对抽取模型；

平行句对分类模块，用于收集双语文本并使用融合多语言预训练语言模型及英-缅句子结构特征及孪生网络的英-缅双语平行句对抽取模型计算每一句对的相似度，并设定相似度阈值来抽取英-缅双语平行句对。

本发明的有益效果是：本发明提出的融合预训练语言模型及结构特征的英-缅平行句对抽取方法及装置，可以有效的从英-缅可比语料中抽取英-缅双语平行句对，并解决了语义相似但不平行句对的误判问题，提高了平行句对抽取的质量。

附图说明

图1为本发明中的总的流程图；

图2为本发明中具有语义包含关系但不平行的句对示例图；

图3为本发明中的方法流程框图。

具体实施方式

实施例1：如图1-3所示，融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法，所述方法包括：

Step1、数据预处理构建英-缅平行句对数据集；

作为本发明的进一步方案，所述步骤Step1的具体步骤为：

Step1.1、利用网络爬虫从英-缅双语平行网站爬取包含新闻类、经济类领域的英-缅双语文本，进行句子切分，去掉数据集中包含非英语和缅甸语字符的数据，通过人工整理得到共494816条英-缅平行数据；

具体的，神经联合训练模型由音节切分、分词和词性标注三部分组成，通过对缅甸语句子的音节切分任务、分词任务和词性标注任务的联合训练，共享句子的特征，减少音节切分错误对分词的影响。通过音节切分任务得到音节向量，然后将音节向量与字符向量融合训练分词任务，最后在使用分词后的词向量训练词性标记任务，通过联合训练，计算三部分任务损失函数之和：

Loss＝Loss_音节切分+Loss_分词+Loss_词性标记

通过最小化联合损失函数，以此降低误差的传播，得到更准确的分词效果。

作为本发明的进一步方案，所述步骤Step2中：

利用基于多语言预训练语言模型MBERT微调MBERT中的参数信息，训练英语和缅甸语的双语词向量，使两种语言能够共享语义空间；

具体的，MBERT模型对英语和缅甸语的训练方式不同，训练英语词向量时，以英语句子中的空格分词并基于子词切分单词，可以直接获取英语词向量。缅甸语的最小粒度是字符，是基于字符构成单词的，在进行缅甸语嵌入时如果直接使用缅甸语字符嵌入组成缅甸语句子向量表示，这种方法并没有考虑缅甸语字符之间的组合信息，通过字符嵌入得不到充分的语义信息。为此本文采用的方法是首先通过MBERT生成缅甸语文本中构成每个词语的各个字符级的向量，然后再将字符级的向量进行组合得到词向量的表示。例如句子

中的语义单词

是由

5个字符组合而成的。而在缅甸语的文本中，不同的上下文信息，字符的组合也会有所不同。在例句的语义场景中，

通过字符向量的相加将会组合成正确的目标词

的词嵌入。这样，可以更准确的获得缅甸语词语的语义信息，通过字符和音节的组合在保留上下文信息以及语义信息的同时得到最终单词的词嵌入表示。

作为本发明的进一步方案，所述步骤Step3的具体步骤：

Step3.1、为了解决英-缅句对语义差异的问题，使英-缅双语句子的向量共享语义空间进行有效的句子向量编码，本发明采用孪生神经网络结构对英-缅句子进行编码表示，将预训练的英语和缅甸语词向量作为孪生神经网络的输入，通过共享权重的孪生神经网络得到同一语义空间中编码后的英语、缅甸语句子向量h^en和h^my；

和

并将编码后的句子长度特征融合到孪生网络编码中：

具体的，本文采用孪生神经网络结构对英-缅句子进行编码表示，将预训练模型得到的英语和缅甸语词向量作为输入，共享权重的孪生网络可以在相同参数的条件下，将英语和缅甸语的向量表示最大程度的共享到同一语义空间，使相似的句子在语义空间中具有一致的分布，提高跨语言句子表示的准确性，从而提高模型对跨语言句子的语义相似度计算准确性。然而孪生网络得到的向量仅考虑了语义信息而忽略了结构特征，导致仅有语义包含关系但不平行的句对的相似度过高，如图2，如果直接将这种长度差异过大的句对删除，可能会将少部分平行句对筛选出去导致误判，因此本发明融合了结构特征对英-缅双语句对分类。分别对英语、缅语句子的长度特征进行编码得到

和

然后与孪生网络编码后的英语、缅甸语句子语义向量h^en和h^my进行融合，增强平行句对在语义及结构特征上的表示：

在分别得到英语和缅甸语的句子表示h′^en和h′^my后，通过两向量计算两个句子平行的概率，并通过交叉熵损失函数反向传播训练英-缅平行句对抽取模型。

作为本发明的进一步方案，所述步骤Step4的具体步骤为：

Step4.1、从互联网上的英-缅双语网站中收集英-缅双语文本，通过双语实体词典对文本进行分类，将含有相同实体信息的文本作为待抽取的候选文本；

为了说明本发明的效果，本发明进行了相关实验，通过精确率、召回率和F1值评价模型的性能：

为了验证本发明的效果，我们与不同模型进行对比实验，如表1所示：

表1与基线模型对比

从表1中可以看出，使用深度学习方法的Bi-LSTM模型与机器学习的支持向量机模型(SVM)和线性回归(LR)分类模型相比具有更好的效果，主要原因是Bi-LSTM模型可以更好的学习句子向量的特征，并且孪生网络将两种语言共享到同一语义空间中可以一定程度解决跨语言的问题而机器学习方法无法解决跨语言的问题使效果明显下降；基线模型的效果为77.33％，而BERT+Bi-LSTM的方法的F1值达到了79.90％，提高了2.57％。本文的方法的F1值达到了80.84％，比基线模型提高了3.51％，实验结果表明，在不相关语言对之间直接将两种语言共享语义空间会丢失语义信息从而导致模型性能的下降，融合MBERT预训练模型可以提高英-缅平行抽取模型的性能，而本发明的融合预训练模型及结构特征的英-缅平行句对抽取方法达到了最好的效果。

为了探究不同预训练方法对模型的效果，我们与使用随机初始化词向量的方法以及传统的Word2Vec方法做了对比，实验结果如表2所示：

表2不同预训练方法的对比

从表2中可以看出，使用传统的词向量训练方法对模型性能有一定提升，本文使用MBERT预训练词向量的方法达到了最好的效果。原因在于随机初始化的向量并不能充分的表示语义信息，而使用Word2vec的方法可以保留相对完整的语义信息，而MBERT的方法是在大规模的语料上训练，并且使用双向Transformer编码结构，不仅保留更完整的语义信息，而且还考虑了上下文信息，所以结合模型的效果更好。

为了探究词向量在平行句对抽取任务中是否微调对模型性能的影响，我们比较了直接使用MBERT预训练词向量和初始化词向量并在任务中进行微调的实验结果，如表3所示：

表3词向量微调对实验结果的影响

实验结果表明，模型在训练过程中结合任务对词向量的微调可以得到适合任务的更好的向量表示，使得模型能更准确的分辨是否是平行句子。

在抽取平行句对的实验中，为了证明融合结构特征的方法的有效性，使用从维基百科中获取的句子分别进行了打分，得到的效果对比如下所示：

例1：

Japan and Yahoo！

Yahoo！

融合长度前：相似度得分：0.996

融合长度后：相似度得分：0.779

从例1中可以看出，针对于仅有语义包含关系但不平行的句对，不融合结构特征的相似度得分为0.996，融合了结构特征，相似度得分为0.779，降低了模型对这类句对的误判率。

例2：

A man should be judged by his deeds not his words

融合长度前：相似度得分：0.025

融合长度后：相似度得分：0.018

同时例2中表明，针对不平行句对的相似度影响不大。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。