CN108549703B

CN108549703B - 一种基于循环神经网络的蒙古语语言模型的训练方法

Info

Publication number: CN108549703B
Application number: CN201810345632.XA
Authority: CN
Inventors: 马杰; 马志强; 杨瑞
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2018-04-17
Filing date: 2018-04-17
Publication date: 2022-03-25
Anticipated expiration: 2038-04-17
Also published as: CN108549703A

Abstract

本发明在原有的N‑Gram、NNLM、RNNLM语言模型的基础上提供了一种基于DNN的蒙古语声学模型并公开了其训练方法。本发明在输入层引入上下文词向量和含有语义信息类别的词向量，不仅可以学习到更长距离的历史信息，同时也注入了相关的语义类别信息，有效的解决了现有的语言模型主要存在的问题。

Description

一种基于循环神经网络的蒙古语语言模型的训练方法

技术领域

本发明属于蒙古语语音识别领域，具体涉及一种基于循环神经网络的蒙古语语言模型的训练方法。

背景技术

语言模型被广泛应用在自然语言处理中，如语音识别、机器翻译、问答系统等应用中。语言模型是通过识别语言中允许出现词序列的先验概率进行建模，为词序列提供语法和句法约束。基于原有的N-Gram语言模型，逐步发展出NNLM、RNNLM等多种模型，缺乏对长距离信息的描述能力和缺乏语义信息的注入，是现有的语言模型主要存在的问题。

发明内容

由于基于循环神经网络的语言模型能更好地避免数据稀疏、长距离依赖欠佳的缺陷，因此本发明提供了一种基于循环神经网络的蒙古语语言模型(MLMRNN)，在输入层引入上下文词向量和含有语义信息类别的词向量，不仅可以学习到更长距离的历史信息，同时也注入了相关的语义类别信息，本发明的主要内容包括：1、模型构建

MLMRNN模型结构包括输入层、隐含层和输出层，输入层是x(t)，隐含层是s(t)，输出层是y(t)。在t时刻，输入向量x(t)包括三部分，分别是w(t)，s(t-1)和f(t)，其中w(t)代表t时刻输入的词的one-hot词向量表示；s(t-1)为t-1时刻隐含层的输出；f(t)为t时刻Skip-Gram训练出的上下文词向量，维度远小于|V|；隐含层为s(t)；输出向量用y(t)表示，包括两部分，一部分是类别层神经元，另一部分是蒙古语词神经元，c(t)为对词汇表进行的词向量的聚类的类别层，输出向量y(t)即表示下一个词w(t+1)的概率。

网络中，U、W、F为输入层与隐含层之间的权值矩阵，C为隐含层与类别层的权值矩阵，在输出层计算的时候先算词类的概率分布，再从所需的词类中计算特定词的概率，计算输出层的结果需要用到类别的输出结果。网络中各层输出值用表示为：

x(t)＝w(t)+s(t-1)+f(t) (1)

s(t)＝f(U·w(t)+W·s(t-1)+F·f(t)) (2)

c(t)＝g(C·s(t)) (3)

y(t)＝g(V′·s(t)) (4)

其中V′∈R(c(w(t)))，R(c(w(t))表示w(t)所属的聚类的词集合，f表示sigmoid激活函数，g表示softmax激活函数。

2、模型预训练

在MLMRNN的预训练阶段，使用Word2vec+k-means算法得到蒙古语词表中的蒙古语词及其所属的语义类别，并设计了基于one-hot的蒙古语语义词向量，蒙古语语义词向量是根据不同的语义类别下的蒙古语词的个数，作为每个语义类别下的蒙古语词向量的维度，依次按照语义类别进行词向量的编码，编码完成语义类别1下的所有蒙古语词后，继续进行语义类别2下的所有蒙古语词的词向量编码，直至完成所有语义类别下的蒙古语词编码，编码格式同one-hot编码格式相同。

当对MLMRNN进行训练和计算时，对每个输入的蒙古语词，根据类别信息创建基于one-hot的语义词向量，作为输入层进行计算。根据语义分为k类，基于one-hot的蒙古语语义词向量创建算法如下：

3、模型的训练算法

wt表示t时刻的当前输入蒙古语基于one-hot的语义词向量，维度是词典V的大小。ft表示t时刻预训练的蒙古语Skip-Gram词向量，维度为M(M＜|V|)

附图说明

图1为MLMRNN模型结构图

图2为蒙古语词义词向量的表示

图3为MLMRNN网络结构

图4训练集下不同隐含层节点数的语言模型的困惑度

图5测试集下不同隐含层节点数的语言模型的困惑度

图6训练集下不同bptt值的语言模型性能的困惑度

图7测试集下不同bptt值的语言模型性能的困惑度

图8语言模型困惑度降低率

实施方式

1、模型构建

x(t)＝w(t)+s(t-1)+f(t) (1)

s(t)＝f(U·w(t)+W·s(t-1)+F·f(t)) (2)

c(t)＝g(C·s(t)) (3)

y(t)＝g(V′·s(t)) (4)

2、模型预训练

3、模型的训练算法

4、实验及结果

4.1实验设计

为了验证提出的MLMRNN蒙古语语言模型的有效性，设计了以下实验：

(1)通过测试不同隐含层节点数和bptt值下的语言模型困惑度，开展隐含层节点数和bptt值对语言模型影响的实验研究，并取困惑度最低的语言模型的隐含层节点数作为后续实验的参数。

(2)通过(1)得到在语言模型的最优参数后，取相同的参数，进行对比实验，分别是①引入蒙古语的Skip-Gram词向量，即RNNLM+SK；②使用基于one-hot的蒙古语语义词向量，即KC+RNNLM；③入蒙古语的Skip-Gram词向量，并使用基于one-hot的蒙古语语义词向量，即MLMRNN，最后同基于N-Gram的蒙古语语言模型在困惑度上进行比较。

4.2实验设置

实验训练数据来源于前期工作的蒙古语语料，共8000个蒙古语句子，按照3:1的比例将语料分为训练集和测试集，即6000个句子用来进行模型训练，另外的2000句用来对模型困惑度测试，基于循环神经网络的蒙古语语言模型训练时隐含层的节点数共设7组进行比较。在进行对比实验时，采用同样的训练及测试数据集，词汇表为11940个词，实验中采用Google的word2vec工具的Skip-Gram模型在训练集上得到维数为50，窗长为2的对应的蒙古语词向量。

本实验采取的评价指标是语言模型的困惑度，是评测语言模型性能时最常用到的指标。困惑度表示的意义是语言模型在预测某种语言现象时，每个词后的候选词的几何平均数。困惑度越低，语言模型对上下文的约束能力越强，说明其对语言的表述能力越强，因而具有更好的模型性能。实验将蒙古语词根据语义相似度分为10类，故实验中设定类别个数为10，隐含层节点数通过对比实验确定PPL最小的隐含层节点数，其他参数设置为bptt3，bptt-block3，class10。

4.3结果

(1)隐含层节点数对语言模型性能的影响

在训练语言模型时，隐含层节点数对语言模型的影响起着重要的作用，这里通过调节隐含层节点数，测试隐含层节点数对不同语言模型的困惑度的影响，分别设置6组不同的隐含层节点数50、100、150、200、250、300。比较不同语言模型在训练集和测试集上的困惑度，训练集下的隐含层节点数对语言模型困惑度的影响见说明书附图4，测试集下的隐含层节点数对困惑度影响的结果见说明书附图5。

通过实验结果可知，随着隐含层节点数的增加，各个语言模型的困惑度均有所降低，但是隐含层节点数增加到一定程度后，语言模型的困惑度反而会上升，因此需要进行调整，选取相对较好的性能参数。其中在隐含层节点数为200范围的时候语言模型的困惑度较低，性能较好。

(2)bptt值对语言模型性能的影响

确定了最优的隐含层节点数后，设置5组不同的bptt值，比较不同bptt值对语言模型在训练集和测试集上的困惑度影响，确定最优的bptt值，实验结果见说明书附图6和说明书附图7。

通过实验结果可知，随着bptt值的增加，各个语言模型的困惑度均有所降低，但是bptt值增加到一定程度后，语言模型的困惑度反而会上升，因此需要进行调整，选取相对较好的bptt值。其中在bptt值为3范围的时候，语言模型的困惑度较低，性能较好。

(3)不同语言模型困惑度的降低率对比

通过实验结果可知，在隐含层节点数为200，bptt值为3时，语言模型的困惑度较低，性能较好。故将以上参数应用在其他模型中进行实验结果对比，其中RNNLM200表示隐含层的神经元个数为200，表示为RNNLM200；RNNLM200+SK表示使用预训练的蒙古语的50维的Skip-Gram词向量的蒙古语循环神经网络语言模型；KC+RNNLM200表示使用基于one-hot的蒙古语语义词向量的蒙古语循环神经网络语言模型；MLMRNN表示使用基于one-hot的蒙古语语义词向量，隐含层神经元个数为200，使用预训练的蒙古语的50维的Skip-Gram词向量的蒙古语循环神经网络语言模型。

表1 不同语言模型的困惑度对比

表1列出了5种不同语言模型的实验结果，通过实验对比发现，MLMRNN在训练集和测试集上的困惑度与其他语言模型相比，均有所降低，说明通过多维的Skip-Gram词向量的引入以及使用基于one-hot的蒙古语语义词向量的方法，对蒙古语的循环神经网络语言模型的性能有了进一步的提高，进一步说明本文方法的有效性。

语言模型困惑度的降低率是指现在的语言模型的困惑度与原来的语言模型的困惑度相差的值和原来的语言模型的困惑度的百分比值，降低率的计算公式如公式10所示。

说明书附图8进一步通过不同语言模型同3-Gram语言模型分别在训练集和测试集上进行困惑度降低率的比较，降低率的计算公式如公式5所示，由说明书附图8可知MLMRNN的降低率较大，性能较好。

Claims

1.一种基于循环神经网络的蒙古语语言模型的训练方法，其特征在于：

一、所述的基于循环神经网络的蒙古语语言模型MLMRNN在预训练阶段，使用Word2vec+k-means算法得到蒙古语词表中的蒙古语词及其所属的语义类别，并设计了基于one-hot的蒙古语语义词向量，蒙古语语义词向量是根据不同的语义类别下的蒙古语词的个数，作为每个语义类别下的蒙古语词向量的维度，依次按照语义类别进行词向量的编码，编码完成语义类别1下的所有蒙古语词后，继续进行语义类别2下的所有蒙古语词的词向量编码，直至完成所有语义类别下的蒙古语词编码，编码格式同one-hot编码格式相同，具体训练算法为：

输入：V表示包含|V|个蒙古语词向量{w₁,…,w_V}的数据集合；k表示簇的数目k≤|V|；

输出：k个簇的集合S；

1)随机初始化了K个与蒙古语词向量维度一致的类簇的簇心向量u₁,u₂,...,u_k；

2)采用循环语句repeat循环，For循环；

3)For外循环语句使用循环变量i遍历|v|；

4)For内循环语句使用循环变量j遍历K个类簇；

5)进入循环体，S_i←argmin_j||w_i-u_j||²代表计算得到的词向量与簇心向量的最小化平方误差；

6)

代表更新簇心向量；

7)结束For内循环；

8)结束For外循环；

9)直到收敛，repeat循环结束；

二、当对循环神经网络的蒙古语语言模型MLMRNN进行训练和计算时，对每个输入的蒙古语词，根据类别信息创建基于one-hot的语义词向量，作为输入层进行计算；根据语义分为k类，基于one-hot的蒙古语语义词向量创建算法如下：

输入：k个簇的集合S，其中S_i表示第i个集合，S共有k个分类；k表示簇的数目；

index表示k个簇下的蒙古语词向量的位置；

输出：kc-one-hot，k个簇下的基于one-hot的蒙古语词向量；

1)

读取词汇表大小，作为词向量维度；

2)初始化kc-one-hot长度为n；

4)For外循环语句使用循环变量j遍历K个类簇；

3)For内循环语句使用循环变量i遍历蒙古语词表中的每个词表的大小；

5)进入循环体，

确定该蒙古语词向量在one-hot编码中的位置；

6)kc-one-hot[index]＝1，将该蒙古语词向量用one-hot编码形式编码；

7)结束For内循环；

7)结束For外循环；

三、模型的训练算法：

w_t表示t时刻的当前输入蒙古语基于one-hot的语义词向量，维度是词典V的大小；f_t表示t时刻预训练的蒙古语Skip-Gram词向量，维度为M＜|V|；

w_t表示t时刻的蒙古语分类词向量；f_t表示t时刻的蒙古语Skip-Gram词向量；α表示学习率；epoch表示循环次数；τ表示bptt大小，其中bptt表示反向传播的步长；W_xs,W_ss,W_fs,W_sc,W_sy分别表示输入部分中的蒙古语分类词向量到隐含层的权值矩阵；S_t-1代表上一时刻的隐含层的输出；l_t是词在类中期望输出概率；y_t是真实输出的类概率；c_t'是期望输出的类概率；c_t是真实输出的类概率；

输入：w_t，f_t；

输出：W_xs,W_ss,W_fs,W_sc,W_sy,y_t；

1)随机初始化W_xs,W_ss,W_fs,W_sc,W_sy矩阵；

2)For外循环使用循环变量j遍历每个epoch；

3)x_t←w_xs·w_t+w_ss·s_t-1+w_fs·f_t，将w_t，f_t，S_t-1与权值矩阵相乘并相加得到x_t；

4)s_t←sigmoid(x_t)，将x_t通过激活函数sigmoid计算得到S_t；

5)y_t←softmax(W_sy·s_t)，将W_sy和S_t相乘通过softmax函数计算得到y_t；

6)c_t←softmax(W_sc·s_t)，将W_sc和S_t相乘通过softmax函数计算得到c_t；

7)E_t(y_t，l_t)←-logy_t，使用y_t计算训练损失；

8)E_t(c_t，c'_t)←-c_tlogc'_t，使用c_t和c_t'计算训练损失；

9)For内循环使用循环变量τ遍历时间t；

10)

11)更新训练参数

12)结束For内循环；

13)结束For外循环；其中，所述的基于循环神经网络的蒙古语语言模型MLMRNN结构包括输入层x(t)、隐含层s(t)和输出层y(t)；在t时刻，输入向量x(t)包括三部分，分别是w(t)，s(t-1)和f(t)，其中w(t)代表t时刻输入的词的one-hot词向量表示；s(t-1)为t-1时刻隐含层的输出；f(t)为t时刻Skip-Gram训练出的上下文词向量，维度远小于|V|；隐含层为s(t)；输出向量用y(t)表示，包括两部分，一部分是类别层神经元，另一部分是蒙古语词神经元，c(t)为对词汇表进行的词向量的聚类的类别层，输出向量y(t)即表示下一个词w(t+1)的概率；

网络中，U、W、F为输入层与隐含层之间的权值矩阵，C为隐含层与类别层的权值矩阵，在输出层计算的时候先算词类的概率分布，再从所需的词类中计算特定词的概率，计算输出层的结果需要用到类别的输出结果；网络中各层输出值用表示为：

x(t)＝w(t)+s(t-1)+f(t) (1)

s(t)＝f(U·w(t)+W·s(t-1)+F·f(t)) (2)

c(t)＝g(C·s(t)) (3)

y(t)＝g(V′·s(t)) (4)