CN108563639B

CN108563639B - 一种基于循环神经网络的蒙古语语言模型

Info

Publication number: CN108563639B
Application number: CN201810345627.9A
Authority: CN
Inventors: 马志强; 张力; 杨瑞
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2018-04-17
Filing date: 2018-04-17
Publication date: 2021-09-17
Anticipated expiration: 2038-04-17
Also published as: CN108563639A

Abstract

本发明在原有的N‑Gram、NNLM、RNNLM语言模型的基础上提供了一种基于DNN的蒙古语声学模型。本发明在输入层引入上下文词向量和含有语义信息类别的词向量，不仅可以学习到更长距离的历史信息，同时也注入了相关的语义类别信息，有效的解决了现有的语言模型主要存在的问题。

Description

一种基于循环神经网络的蒙古语语言模型

技术领域

本发明属于蒙古语语音识别领域，具体涉及一种基于循环神经网络的蒙古语语言模型。

背景技术

语言模型被广泛应用在自然语言处理中，如语音识别、机器翻译、问答系统等应用中。语言模型是通过识别语言中允许出现词序列的先验概率进行建模，为词序列提供语法和句法约束。基于原有的N-Gram语言模型，逐步发展出NNLM、RNNLM等多种模型，缺乏对长距离信息的描述能力和缺乏语义信息的注入，是现有的语言模型主要存在的问题。

发明内容

由于基于循环神经网络的语言模型能更好地避免数据稀疏、长距离依赖欠佳的缺陷，因此本发明提供了一种基于循环神经网络的蒙古语语言模型(MLMRNN)，在输入层引入上下文词向量和含有语义信息类别的词向量，不仅可以学习到更长距离的历史信息，同时也注入了相关的语义类别信息，本发明的主要内容包括：1、模型构建

MLMRNN模型结构包括输入层、隐含层和输出层，输入层是x(t)，隐含层是s(t)，输出层是y(t)。在t时刻，输入向量x(t)包括三部分，分别是w(t)，s(t-1)和f(t)，其中w(t)代表t时刻输入的词的one-hot词向量表示；s(t-1)为t-1时刻隐含层的输出；f(t)为t时刻Skip-Gram训练出的上下文词向量，维度远小于|V|；隐含层为s(t)；输出向量用y(t)表示，包括两部分，一部分是类别层神经元，另一部分是蒙古语词神经元，c(t)为对词汇表进行的词向量的聚类的类别层，输出向量y(t)即表示下一个词w(t+1)的概率。

网络中，U、W、F为输入层与隐含层之间的权值矩阵，C为隐含层与类别层的权值矩阵，在输出层计算的时候先算词类的概率分布，再从所需的词类中计算特定词的概率，计算输出层的结果需要用到类别的输出结果。网络中各层输出值用表示为：

x(t)＝w(t)+s(t-1)+f(t) (1)

s(t)＝f(U·w(t)+W·s(t-1)+F·f(t)) (2)

c(t)＝g(C·s(t)) (3)

y(t)＝g(V′·s(t)) (4)

其中V′∈R(c(w(t)))，R(c(w(t))表示w(t)所属的聚类的词集合，f表示sigmoid激活函数，g表示softmax激活函数。

2、模型预训练

在MLMRNN的预训练阶段，使用Word2vec+k-means算法得到蒙古语词表中的蒙古语词及其所属的语义类别，并设计了基于one-hot的蒙古语语义词向量，蒙古语语义词向量是根据不同的语义类别下的蒙古语词的个数，作为每个语义类别下的蒙古语词向量的维度，依次按照语义类别进行词向量的编码，编码完成语义类别1下的所有蒙古语词后，继续进行语义类别2下的所有蒙古语词的词向量编码，直至完成所有语义类别下的蒙古语词编码，编码格式同one-hot编码格式相同。

当对MLMRNN进行训练和计算时，对每个输入的蒙古语词，根据类别信息创建基于one-hot的语义词向量，作为输入层进行计算。根据语义分为k类，基于one-hot的蒙古语语义词向量创建算法如下：

3、模型的训练算法

w_t表示t时刻的当前输入蒙古语基于one-hot的语义词向量，维度是词典V的大小。f_t表示t时刻预训练的蒙古语Skip-Gram词向量，维度为M(M＜V)

附图说明

图1为MLMRNN模型结构图

图2为蒙古语词义词向量的表示

图3为MLMRNN网络结构

图4训练集下不同隐含层节点数的语言模型的困惑度

图5测试集下不同隐含层节点数的语言模型的困惑度

图6训练集下不同bptt值的语言模型性能的困惑度

图7测试集下不同bptt值的语言模型性能的困惑度

图8语言模型困惑度降低率

实施方式

1、模型构建

x(t)＝w(t)+s(t-1)+f(t) (1)

s(t)＝f(U·w(t)+W·s(t-1)+F·f(t)) (2)

c(t)＝g(C·s(t)) (3)

y(t)＝g(V′·s(t)) (4)

2、模型预训练

3、模型的训练算法

4、实验及结果

4.1实验设计

为了验证提出的MLMRNN蒙古语语言模型的有效性，设计了以下实验：

(1)通过测试不同隐含层节点数和bptt值下的语言模型困惑度，开展隐含层节点数和bptt值对语言模型影响的实验研究，并取困惑度最低的语言模型的隐含层节点数作为后续实验的参数。

(2)通过(1)得到在语言模型的最优参数后，取相同的参数，进行对比实验，分别是①引入蒙古语的Skip-Gram词向量，即RNNLM+SK；②使用基于one-hot的蒙古语语义词向量，即KC+RNNLM；③入蒙古语的Skip-Gram词向量，并使用基于one-hot的蒙古语语义词向量，即MLMRNN，最后同基于N-Gram的蒙古语语言模型在困惑度上进行比较。

4.2实验设置

实验训练数据来源于前期工作的蒙古语语料，共8000个蒙古语句子，按照3:1的比例将语料分为训练集和测试集，即6000个句子用来进行模型训练，另外的2000句用来对模型困惑度测试，基于循环神经网络的蒙古语语言模型训练时隐含层的节点数共设7组进行比较。在进行对比实验时，采用同样的训练及测试数据集，词汇表为11940个词，实验中采用Google的word2vec工具的Skip-Gram模型在训练集上得到维数为50，窗长为2的对应的蒙古语词向量。

本实验采取的评价指标是语言模型的困惑度，是评测语言模型性能时最常用到的指标。困惑度表示的意义是语言模型在预测某种语言现象时，每个词后的候选词的几何平均数。困惑度越低，语言模型对上下文的约束能力越强，说明其对语言的表述能力越强，因而具有更好的模型性能。实验将蒙古语词根据语义相似度分为10类，故实验中设定类别个数为10，隐含层节点数通过对比实验确定PPL最小的隐含层节点数，其他参数设置为bptt3，bptt-block3，class10。

4.3结果

(1)隐含层节点数对语言模型性能的影响

在训练语言模型时，隐含层节点数对语言模型的影响起着重要的作用，这里通过调节隐含层节点数，测试隐含层节点数对不同语言模型的困惑度的影响，分别设置6组不同的隐含层节点数50、100、150、200、250、300。比较不同语言模型在训练集和测试集上的困惑度，训练集下的隐含层节点数对语言模型困惑度的影响见说明书附图4，测试集下的隐含层节点数对困惑度影响的结果见说明书附图5。

通过实验结果可知，随着隐含层节点数的增加，各个语言模型的困惑度均有所降低，但是隐含层节点数增加到一定程度后，语言模型的困惑度反而会上升，因此需要进行调整，选取相对较好的性能参数。其中在隐含层节点数为200范围的时候语言模型的困惑度较低，性能较好。

(2)bptt值对语言模型性能的影响

确定了最优的隐含层节点数后，设置5组不同的bptt值，比较不同bptt值对语言模型在训练集和测试集上的困惑度影响，确定最优的bptt值，实验结果见说明书附图6和说明书附图7。

通过实验结果可知，随着bptt值的增加，各个语言模型的困惑度均有所降低，但是bptt值增加到一定程度后，语言模型的困惑度反而会上升，因此需要进行调整，选取相对较好的bptt值。其中在bptt值为3范围的时候，语言模型的困惑度较低，性能较好。

(3)不同语言模型困惑度的降低率对比

通过实验结果可知，在隐含层节点数为200，bptt值为3时，语言模型的困惑度较低，性能较好。故将以上参数应用在其他模型中进行实验结果对比，其中RNNLM200表示隐含层的神经元个数为200，表示为RNNLM200；RNNLM200+SK表示使用预训练的蒙古语的50维的Skip-Gram词向量的蒙古语循环神经网络语言模型；KC+RNNLM200表示使用基于one-hot的蒙古语语义词向量的蒙古语循环神经网络语言模型；MLMRNN表示使用基于one-hot的蒙古语语义词向量，隐含层神经元个数为200，使用预训练的蒙古语的50维的Skip-Gram词向量的蒙古语循环神经网络语言模型。

表1不同语言模型的困惑度对比

表1列出了5种不同语言模型的实验结果，通过实验对比发现，MLMRNN在训练集和测试集上的困惑度与其他语言模型相比，均有所降低，说明通过多维的Skip-Gram词向量的引入以及使用基于one-hot的蒙古语语义词向量的方法，对蒙古语的循环神经网络语言模型的性能有了进一步的提高，进一步说明本文方法的有效性。

语言模型困惑度的降低率是指现在的语言模型的困惑度与原来的语言模型的困惑度相差的值和原来的语言模型的困惑度的百分比值，降低率的计算公式如公式10所示。

说明书附图8进一步通过不同语言模型同3-Gram语言模型分别在训练集和测试集上进行困惑度降低率的比较，降低率的计算公式如公式5所示，由说明书附图8可知MLMRNN的降低率较大，性能较好。

Claims

1.一种基于循环神经网络的蒙古语语言模型，其特征在于：

模型结构包括输入层、隐含层和输出层，输入层是x(t)，隐含层是s(t)，输出层是y(t)，在t时刻，输入向量x(t)包括三部分，分别是w(t)，s(t-1)和f(t)，其中w(t)代表t时刻输入的词的one-hot词向量表示；s(t-1)为t-1时刻隐含层的输出；f(t)为t时刻Skip-Gram训练出的上下文词向量，维度远小于|V|；隐含层为s(t)；输出向量用y(t)表示，包括两部分，一部分是类别层神经元，另一部分是蒙古语词神经元，c(t)为对词汇表进行的词向量的聚类的类别层，输出向量y(t)即表示下一个词w(t+1)的概率，网络中，U、W、F为输入层与隐含层之间的权值矩阵，C为隐含层与类别层的权值矩阵，在输出层计算的时候先算词类的概率分布，再从所需的词类中计算特定词的概率，计算输出层的结果需要用到类别的输出结果，网络中各层输出值用表示为：

x(t)＝w(t)+s(t-1)+f(t) (1)

s(t)＝f(U·w(t)+W·s(t-1)+F·f(t)) (2)

c(t)＝g(C·s(t)) (3)

y(t)＝g(V′·s(t)) (4)