CN110083826A

CN110083826A - 一种基于Transformer模型的老汉双语对齐方法

Info

Publication number: CN110083826A
Application number: CN201910215271.1A
Authority: CN
Inventors: 周兰江; 贾善崇; 张建安
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2019-03-21
Filing date: 2019-03-21
Publication date: 2019-08-02

Abstract

本发明公开了一种基于Transformer模型的老汉双语对齐方法，属于自然语言处理和机器学习技术领域。双语语料库最为作为自然语言研究领域的重要语言资源，语言信息处理的研究深入，在语料的获取，处理有了长足的进步。本发明首先将篇章级对齐的语料作为输入，由于老挝语与中文的句子排序大致是一致的，所以可以先将篇章级的语料处理为单个的对齐语句，之后将对齐的语句进行拆分。之后将这些对齐的语句进行分词，将分词的词语作为Encoder的输入，通过保留Encoder编码器对输入序列的中间输出结果，训练一个模型来对这些输入进行选择性地学习并且在模型输出时将输出序列进行关联，从而从双语语料库中抽取出平行句对。本发明在老挝语平行句对抽取上有一定的研究意义。

Description

一种基于Transformer模型的老汉双语对齐方法

技术领域

本发明涉及一种基于Transformer模型的老汉双语对齐方法，属于自然语言处理和机器学习技术领域。

背景技术

双语语料是统计机器翻译、跨语言检索、双语词典构建等研究领域的重要基础资源，双语语料的数量与质量很大程度上影响甚至决定了相关任务的最终结果。而平行句对的挖掘则是构建双语语料的关键技术，因而具有重要的研究价值。很多情况下，双语语料我们可以获得，但是得到的文本通常并不是以句子为单位对齐的，例如有些是以段落或者按照整篇文章来对齐的。这种情况下，就需要将这些不是以句子为单位对齐的语料整理成句子对齐格式，从而进行平行句对的抽取。

发明内容

本发明要解决的技术问题是提供一种基于Transformer模型的老汉双语对齐方法，用于解决从汉语-老挝语的对齐语料中抽取对齐语句,能够有效提高句子对齐的准确率.

本发明采用的技术方案是：一种基于Transformer模型的老汉双语对齐方法，具体步骤如下：

Step1，将汉-老双语语料预处理后进行数据集划分，其中，已对齐的训练集占90％，乱序测试集占10％；

Step2，根据训练集以及测试集的句子，经过分词，统计其中的互异的词组，以及每个词组出现的次数，并按照出现次数的多少，从大到小排序；

Step3，将分好词的源语言句子进行词嵌入Embedding的单词转换词向量，转换词向量之后进入到positional-encoding部分，对输入的单词的词嵌入加上一个新的向量，即位置向量，来表示单词的位置信息；

Step4，将经过位置信息标识的向量输入multi-headed attention部分，其中包括多个Encoder，每个Encoder中在self-Attention中，词向量通过与训练的权值矩阵相乘，得到Q/K/V矩阵，即Qurey/Key/Value矩阵，同时，为每个Encoder独立维护一套Q/K/V权值矩阵，为Decoder使用；

Step5，通过Encoder的multi-headed attention部分，我们将得到的多个Q/K/V矩阵，把这些矩阵组合形成一个最终的Z矩阵，其中包含了所有的Q/K/V权值，在Decoder部分，在Z的矩阵中找到相关K/V的权值带入Decoder的“Encoder-Decoder attention”层中计算，通过Encoder部分的位置表示信息，最终得出一个向量的集合，通过最终的线性层linear和softmax层，通过概率选取最高的索引，然后找到一一对应的单词作为输出，最终得出译文。

具体地，所述step1中所述的对齐片段为双语对齐语句。

具体地，所述step2所述的分词是指通过python编码，通过电子老挝语字典，对最初老挝语句子分词，使用jieba库，对中文进行分词。

具体地，所述step3中，词嵌入是指将老挝语以及中文通过编码，将文字信息转化为计算机能够识别的数字信息，同时能够对词语空间降维。

具体地，所述step3中，positional-encoding用将p位置映射为一个d_pos维的位置向量，这个向量的第i个元素的数值为PE_2i(p)，使用的公式如下：

具体地，所述step4中，multi-headed attention将Q/K/V通过参数矩阵映射一下，然后再做Attention，并将每次的结果保存，Attention的映射函数如下：

其中，Q,K,V是源语句子通过分词之后，对Encoder部分为单词创建的三个向量，这些向量是通过词嵌入之后，乘以训练过程创建的3个不同矩阵而产生的，而d_K是K的向量维度，K^T为K向量的转置。

具体地，所述步骤step5由于前馈神经网络中，只能接受一个矩阵，所以将multi-headed attention端得到的多个Q/K/V矩阵通过一个初始矩阵W^o，组合成为一个矩阵Z，并输入下面的前馈神经网络，公式如下：

MultiHead(Q,K,V)＝Concat(head₁,…,heαd_n)

其中，W_ii ^Q、为训练时的权值矩阵。

具体地，所述步骤step5线性层linear将得到的向量集合映射为一个logits向量，softmax层将logits向量转换成概率，通过概率得到对应的映射。

具体地，所述步骤step5在通过索引得到最高的概率之后，从映照表中得到的一一对应的输出词，组合起来之后，即为最终的对齐的语句。

具体地，所述step1中的预处理，是指通过python编码，将句子中的噪声数据除去。

本发明的有益效果是：

(1)该基于Transformer模型的从老汉双语篇章级对齐语料中抽取对齐语句的方法中，该模型主要是Seq2Seq的Attention机制的完善，抛弃了传统Seq2Seq的RNN/LSTM/GRU的结构来做句对齐的工作，相较于之前的模型，框架更加简便。

(2)该基于Transformer模型的从老汉双语篇章级对齐语料中抽取对齐语句的方法中，融入老挝语语法特征以及中文的语法特征，通过深度学习可以自动识别出来，相比于人工识别，速度更快，泛化性更强，省时省力。

(3)该基于Transformer模型的从老汉双语篇章级对齐语料中抽取对齐语句的方法中，使用了深度学习算法，相较于传统统计方法，在特征提取的效果上有了比较不错的提高。同时还较之于创痛的RNN/LSTM/GRU算法，降低了计算的复杂度。

附图说明

图1为本发明中的流程图；

图2为本发明所使用的Encoder-Decoder结构的组成；

图3是本发明所使用的multi-headed attention基本结构图；

图4是具体Encoder和Decoder的内部结构。

具体实施方式

下面结合附图和具体实施例，对本发明做进一步的说明。

实施例1：如图1-4所示，一种基于Transformer模型的老汉双语对齐方法，具体步骤如下：

进一步地，所述step1中所述的对齐片段为双语对齐语句。

进一步地，所述step2所述的分词是指通过python编码，通过电子老挝语字典，对最初老挝语句子分词，使用jieba库，对中文进行分词。

进一步地，所述step3中，词嵌入是指将老挝语以及中文通过编码，将文字信息转化为计算机能够识别的数字信息，同时能够对词语空间降维。

进一步地，所述step3中，positional-encoding用将p位置映射为一个d_pos维的位置向量，这个向量的第i个元素的数值为Pe_2i(p)，使用的公式如下：

进一步地，所述step4中，multi-headed attention将Q/K/V通过参数矩阵映射一下，然后再做Attention，并将每次的结果保存，Attention的映射函数如下：

进一步地，所述步骤step5由于前馈神经网络中，只能接受一个矩阵，所以将multi-headed attention端得到的多个Q/K/V矩阵通过一个初始矩阵W^o，组合成为一个矩阵Z，并输入下面的前馈神经网络，公式如下：

MultiHead(Q,K,V)＝Concat(head₁,…,head_n)

其中，W_ii ^Q、为训练时的权值矩阵。

进一步地，所述步骤step5线性层linear将得到的向量集合映射为一个logits向量，softmax层将logits向量转换成概率，通过概率得到对应的映射。

进一步地，所述步骤step5在通过索引得到最高的概率之后，从映照表中得到的一一对应的输出词，组合起来之后，即为最终的对齐的语句。

进一步地，所述step1中的预处理，是指通过python编码，将句子中的噪声数据除去。

需要说明的是，图2和图3中左下角老挝语的中文译文是“老师教书”。

双语语料库最为作为自然语言研究领域的重要语言资源，语言信息处理的研究深入，在语料的获取，处理有了长足的进步。本发明主要融合了老挝语语言学特征到算法模型中，在模型的使用中选择了多种模型融合的方法，提高识别精度，本模型基于Attention机制(注意力机制)，使用Encoder-Decoder(编码器-解码器)结构。首先将篇章级对齐的语料作为输入，由于老挝语与中文的句子排序大致是一致的，所以可以先将篇章级的语料处理为单个的对齐语句，之后将对齐的语句进行拆分。之后将这些对齐的语句进行分词，将分词的词语作为Encoder的输入，通过保留Encoder编码器对输入序列的中间输出结果，训练一个模型来对这些输入进行选择性地学习并且在模型输出时将输出序列进行关联，从而从双语语料库中抽取出平行句对。本发明在老挝语平行句对抽取上有一定的研究意义。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于Transformer模型的老汉双语对齐方法，其特征在于：具体步骤如下：

2.根据权利要求1所述的一种基于Transformer模型的老汉双语对齐方法，其特征在于：所述step1中所述的对齐片段为双语对齐语句。

3.根据权利要求1所述的一种基于Transformer模型的老汉双语对齐方法，其特征在于：所述step2所述的分词是指通过python编码，通过电子老挝语字典，对最初老挝语句子分词，使用jieba库，对中文进行分词。

4.根据权利要求1所述的一种基于Transformer模型的老汉双语对齐方法，其特征在于：所述step3中，词嵌入是指将老挝语以及中文通过编码，将文字信息转化为计算机能够识别的数字信息，同时能够对词语空间降维。

5.根据权利要求1所述的一种基于Transformer模型的老汉双语对齐方法，其特征在于：所述step3中，positional-encoding用将p位置映射为一个d_pos维的位置向量，这个向量的第i个元素的数值为PE_2i(p)，使用的公式如下：

6.根据权利要求1所述的一种基于Transformer模型的老汉双语对齐方法，其特征在于：所述step4中，multi-headed attention将Q/K/V通过参数矩阵映射一下，然后再做Attention，并将每次的结果保存，Attention的映射函数如下：

7.根据权利要求1所述的一种基于Transformer模型的老汉双语对齐方法，其特征在于：所述步骤step5由于前馈神经网络中，只能接受一个矩阵，所以将multi-headedattention端得到的多个Q/K/V矩阵通过一个初始矩阵W^o，组合成为一个矩阵Z，并输入下面的前馈神经网络，公式如下：

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V)

MultiHead(Q,K,V)＝Concat(head₁,…,head_n)

其中，W_i ^Q、W_i ^K、W_i ^V为训练时的权值矩阵。

8.根据权利要求1所述的一种基于Transformer模型的老汉双语对齐方法，其特征在于：所述步骤step5线性层linear将得到的向量集合映射为一个logits向量，softmax层将logits向量转换成概率，通过概率得到对应的映射。

9.根据权利要求1所述的一种基于Transformer模型的老汉双语对齐方法，其特征在于：所述步骤step5在通过索引得到最高的概率之后，从映照表中得到的一一对应的输出词，组合起来之后，即为最终的对齐的语句。

10.根据权利要求1所述的一种基于Transformer模型的老汉双语对齐方法，其特征在于：所述step1中的预处理，是指通过python编码，将句子中的噪声数据除去。