CN108960407A

CN108960407A - 递归神经网路语言模型训练方法、装置、设备及介质

Info

Publication number: CN108960407A
Application number: CN201810570507.9A
Authority: CN
Inventors: 施阳阳; 黄美玉; 雷欣
Original assignee: Chumen Wenwen Information Technology Co Ltd
Current assignee: Chumen Wenwen Information Technology Co Ltd
Priority date: 2018-06-05
Filing date: 2018-06-05
Publication date: 2018-12-07
Anticipated expiration: 2038-06-05
Also published as: CN108960407B

Abstract

本发明实施例公开了一种递归神经网路语言模型训练方法、装置、设备及介质。其中，方法包括：将语料库中的语言文本分别输入至训练完成的高秩递归神经网路语言模型RNNLM和待训练的轻量级RNNLM中；迭代轻量级RNNLM中的参数，最小化交叉熵损失和Kullback‑Leibler散度的加权和，以完成对轻量级RNNLM的训练；其中，交叉熵损失是轻量级RNNLM的输出向量相对于训练数据标签向量的交叉熵损失，Kullback‑Leibler散度是轻量级RNNLM的输出向量相对于高秩RNNLM的输出向量的Kullback‑Leibler散度。本实施例提供的方法可以有效的降低RNNLM规模。

Description

递归神经网路语言模型训练方法、装置、设备及介质

技术领域

本发明实施例涉及人工智能领域，尤其涉及一种递归神经网路语言模型训练方法、装置、设备及介质。

背景技术

递归神经网络(Recurrent Neural Network，RNN)具有大容量存储功能和较强的计算能力，使其较传统的语言建模方法有很大优势，如今已经广泛用于语言建模中。

递归神经网路语言模型(Recurrent Neural Network Model，RNNLM)是Mikolov在2010年提出的一个模型，通过使用递归神经网络(Recurrent Neural Network，RNN)来训练语言模型，可以获得较好的表达效果。RNNLM在一个连续的、低维空间中表达每个词，具有通过一个递归向量表示各种长度的历史信息的能力。

但是，为了追求较好的语言表达能力，往往需要大型的RNNLM模型，而正是由于大型RNNLM的大容量存储功能和惊人的计算成本，阻碍了其在实时应用场景中的应用。基于上述分析，目前急需要一种有效的降低RNNLM规模的方法，以促进其在实时应用场景中的应用。

发明内容

本发明实施例提供一种递归神经网路语言模型训练方法、装置、设备及介质，以降低RNNLM规模。

第一方面，本发明实施例提供了一种递归神经网路语言模型训练方法，包括：

将语料库中的语言文本分别输入至训练完成的高秩递归神经网路语言模型RNNLM和待训练的轻量级RNNLM中；

迭代所述轻量级RNNLM中的参数，最小化交叉熵损失和Kullback-Leibler散度的加权和，以完成对所述轻量级RNNLM的训练；

其中，所述交叉熵损失是轻量级RNNLM的输出向量相对于所述语言文本的训练数据标签向量的交叉熵损失，所述Kullback-Leibler散度是轻量级RNNLM的输出向量相对于高秩RNNLM的输出向量的Kullback-Leibler散度。

第二方面，本发明实施例还提供了一种递归神经网路语言模型训练装置，该装置包括：

输入模块，用于将语料库中的语言文本分别输入至训练完成的高秩递归神经网路语言模型RNNLM和待训练的轻量级RNNLM中；

最小化模块，用于迭代所述轻量级RNNLM中的参数，最小化交叉熵损失和Kullback-Leibler散度的加权和，以完成对所述轻量级RNNLM的训练；

第三方面，本发明实施例还提供了一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现任一实施例所述的递归神经网路语言模型训练方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一实施例所述的递归神经网路语言模型训练方法。

本实施例中，通过将语料库中的语言文本分别输入至训练完成的高秩RNNLM和待训练的轻量级RNNLM中；迭代所述轻量级RNNLM中的参数，最小化交叉熵损失和Kullback-Leibler散度的加权和，从而使轻量级RNNLM获得与高秩RNNLM近似的输出，同时使轻量级RNNLM的输出逼近训练数据标签向量，进而实现知识蒸馏，并保证语言文本识别的精确度，轻量级RNNLM能够应用在实时应用场景中。

附图说明

图1为本发明实施例一提供的一种递归神经网路语言模型训练方法的流程图；

图2是本发明实施例二提供的一种递归神经网路语言模型训练方法的流程图；

图3是本发明实施例三提供的一种递归神经网路语言模型训练装置的结构示意图；

图4是本发明实施例四提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种递归神经网路语言模型训练方法的流程图，本实施例可适用于对用于语言文本识别的递归神经网路语言模型的训练情况，该方法可以由递归神经网路语言模型训练装置来执行，具体包括如下步骤：

S110、将语料库中的语言文本分别输入至训练完成的高秩递归神经网路语言模型RNNLM和待训练的轻量级RNNLM中。

本实施例中，语料库包括Penn Treebank(PTB)语料库和/或Wall Street Journal(WSJ)语料库。其中，PTB语料库共包含24个部分，词汇量大小限制为10000，标号<unk>表示集外词。在PTB语料中选取部分或者全部的预料作为训练集，将训练集中的语言文本依次输入至上述高秩RNNLM和轻量级RNNLM中。

WSJ语料库在国际上广泛采用，其训练集SI-284包含WSJ0和WSJ1两部分总时长约81.3小时。其中，WSJ0包含84个说话人，共7138句话，时长约15.1小时；WSJ1包含200个说话人，共30278句话，时长约66.2小时。类似地，在WSJ语料库的训练集中的语言文本依次输入至上述高秩RNNLM和轻量级RNNLM中。

本实施例中，输入至高秩RNNLM和轻量级RNNLM中的语言文本相同。两个模型输出的内容是输入语言文本落在训练集中各个训练数据标签中的分布概率。

高秩RNNLM是已经训练完成的模型，理论上可直接应用于语言文本识别。但是高秩RNNLM包括多个RNNLM，网路复杂度高，且计算成本惊人，难以在实时应用场景中的应用。基于此，本实施例在高秩RNNLM的基础上应用知识蒸馏法，以压缩高秩RNNLM的规模，同时保持较好的语言文本表现力。

知识蒸馏的基本思想是用已训练好的较大的教师模型的输出向量来训练一个较小的学生模型，使学生模型的输出向量(或者，称为硬标签)逼近教师模型的输出向量(或者，称为软标签)。这是因为，教师模型的输出向量相比于输入语言文本的训练数据标签向量具有更多的信息量，附加的信息是一种辅助信息，由于辅助信息的存在，学生模型从教师模型的输出向量中学习要比直接从输入语言文本中学习更加容易。其中，训练数据标签向量是语料库中存储的与输入语言文本对应的基准标签向量。

本实施例将高秩RNNLM作为教师模型，将轻量级RNNLM作为学生模型。学生模型的模型规模小于教师模型的模型规模，例如，学生模型的神经元数量小于教师模型的神经元数量，学生模型的维度小于教师模型的维度。

S120、迭代轻量级RNNLM中的参数，最小化交叉熵损失和Kullback-Leibler散度(简称KL散度)的加权和，以完成对轻量级RNNLM的训练。

其中，交叉熵损失是轻量级RNNLM的输出向量相对于语言文本的训练数据标签向量的交叉熵损失，KL散度是轻量级RNNLM的输出向量相对于高秩RNNLM的输出向量的KL散度。可选地，交叉熵损失和KL散度的权值可以自主设置，两个权值可以相同也可以不同。

可选地，交叉熵损失和KL散度的加权和L(θ)采用下式表示：

L(θ)＝(1-α)L_CE(θ)+αL_KL(θ)

其中，α是标量值，用于调节交叉熵损失和KL散度的权值比例，θ是轻量级RNNLM中的需要迭代的参数，L_CE(θ)是交叉熵损失，L_KL(θ)是KL散度。在模型训练之前，α需要给定。一旦给定，在模型训练过程中，α保持不变，即交叉熵损失和KL散度具有固定权值。

通过最小化交叉熵损失和KL散度的加权和，得到轻量级RNNLM中的参数，以完成对轻量级RNNLM的训练。

本实施例中，通过将语料库中的语言文本分别输入至训练完成的高秩RNNLM和待训练的轻量级RNNLM中；迭代轻量级RNNLM中的参数，最小化交叉熵损失和Kullback-Leibler散度的加权和，从而使轻量级RNNLM获得与高秩RNNLM近似的输出，同时使轻量级RNNLM的输出逼近训练数据标签向量，进而实现知识蒸馏，并保证语言文本识别的精确度，轻量级RNNLM能够应用在实时应用场景中。

实施例二

在模型训练过程中发现，学生模型的训练过程尚存在如下2个缺陷：第一，在语言模型中，每个训练数据标签向量表示一个退化数据分布，该退化数据分布给出了对应语言文本落在某个类别上的可能性。相比于教师模型在全部训练数据中得到可能性分布，即对应语言文本落在全部标签上的可能性，退化数据分布具有更多的噪声和局部化。第二，不同于之前知识蒸馏在声学建模和图像识别中的实验结果，本实施例中，在语言文本识别的实验中发现，交叉熵损失和KL散度具有固定权值时，通过最小化交叉熵损失和KL散度的加权和得到的学生模型要劣于仅通过最小化KL散度得到的模型。

基于上述2个缺陷，本实施例在上述实施例的基础上进行进一步优化，具体地，采用信任正则化方法动态调整交叉熵损失的权值。当教师模型的概率输出和输入语言文本的交叉熵的损失越小，信任正则化方法会给交叉熵损失加大权重，反之会降低交叉熵的损失。图2是本发明实施例二提供的一种递归神经网路语言模型训练方法的流程图，包括以下步骤：

S210、采用信任正则化器作为交叉熵损失的权值，并将Kullback-Leibler散度的权值设置为1。

示例性地，交叉熵损失L_CE(θ)的表达式采用下式表示：

其中，x是输入语言文本对应的向量，该语言文本的编码方式为1-of-V，即x的维度为V，V是训练集的大小。x的分量只有一个，表示当前语言文本，其余分量为0。本文的L_CE(θ)是交叉熵在1-of-V的编码方式下的一个特例。

y是输入语言文本的训练数据标签向量，1(y＝x)是指示函数，y＝x时，指示函数取值1；y≠x时，取值指示函数为0。P(x|c,θ)是轻量级RNNLM在给定上下文历史c和参数θ的条件下，输出的x落在各个训练数据标签的分布概率，亦即轻量级RNNLM的输出向量，此处的各个训练数据标签指的是训练集中各个训练数据标签，参数θ指轻量级RNNLM中需要迭代的参数。

示例性地，KL散度L_KL(θ)的表达式是

其中，Q(x|c)是高秩RNNLM在给定上下文历史c的条件下，输出的x落在各个训练数据标签的分布概率。Q(x|c,θ_te)是高秩RNNLM在给定上下文历史c和参数θ_te的条件下，输出的x落在各个训练数据标签的分布概率，亦即高秩RNNLM的输出向量，参数θ_te指高秩RNNLM中的已知参数。由于Q(x|c,θ_te)对于每个输入x来说是常量，所以KL散度可以进一步采用下式表示：

其中，Q(x|c,θ_te)表示为温度τ≥1时的带温度参数的Softmax概率，后续实验中，尝试了τ∈[1,2,5,8,10]的多次实验。最后发现，τ＝1时模型表现最佳。

交叉熵损失和KL散度的加权和L(θ)采用下式表示：

L(θ)＝R(y)L_CE(θ)+L_KL(θ)

信任正则化器R(y)的表达式是

其中，α>0是标量值。

信任正则化器R(y)实质上给出了训练数据标签和教师模型的补充输出概率之间的交叉熵。在训练数据标签与教师模型的输出向量更加接近时，信任正则化器R(y)在交叉熵损失L_CE(θ)上施加更多的权值，从而，在训练数据标签向量与教师模型的输出向量更加接近时，说明训练数据标签向量所表示的退化数据分布的噪声和局部化程度较小，着重降低交叉熵损失，使学生模型的输出向量逼近训练数据标签向量。反之，如果训练数据标签向量与教师模型的输出向量不够接近，说明训练数据标签向量所表示的退化数据分布的噪声和局部化程度较大，则着重降低KL散度，使学生模型的输出向量逼近教师模型的输出向量。

另外，实验证明，通过采用信任正则化方法动态调整交叉熵损失的权值得到的模型优于通过最小化KL散度得到的模型。

S220、将语料库中的语言文本分别输入至训练完成的高秩递归神经网路语言模型RNNLM和待训练的轻量级RNNLM中。

本实施例中，高秩RNNLM包括输入层、多层长短时记忆(Long Short-Term Memory，LSTM)网络、瓶颈层和混合softmax(MoS)层。MoS包括多个子模型共用输入层、多层LSTM网络和瓶颈层。

其中，输入层采用编码方式1-of-V，将输入语言文本映射为维度V的向量。多层LSTM网络内部的非线性变换使单元能够更好地储存输入数据的特征，优点是能够将长时间的轨迹记忆和瞬态记忆有机的统一、模拟人脑的选择性遗忘以及能够更精准的对轨迹进行建模。多层LSTM网络的输出向下映射到瓶颈层，对多层LSTM网络的输出向量进行降维。

高秩RNNLM中采用MoS层来提高传统RNNLM中softmax层的语言文本表达能力，类似于传统RNNLM，将X向量输入至一系列递归层后，得到隐藏状态向量(g₁,...,g_T)。在隐藏向量(g₁,...,g_T)之后，MoS层得出在给定上下文历史c_t的条件下，当前字x_t的分布概率P(x_t|c_t)：

其中，V_k和V_h,k在高秩RNNLM的训练过程中得到。V_k代表将隐藏向量投影到子模型触发概率的权值矩阵。表示子模型的隐藏向量到Softmax层的投影矩阵。

在一些实施例中，为了优化高秩RNNLM的语言文本表现力，在高秩RNNLM中应用下述任意一种正则化方法。

第一种方法：在模型训练过程中将LSTM单元中隐层到隐层的权值矩阵以一定概率丢失。各种丢失率应用在LSTM单元的输入和输出中。嵌入丢失率等价于在嵌入层使用各种丢失率。

第二种方法：采用激活正则化应用于惩罚大隐层激活。

但是，对比于通过最小化交叉熵损失训练学生模型，为了达到较好的知识蒸馏，实验揭示上述正则化方法需要被关闭。

轻量级RNNLM包括输入层、嵌入层、多层LSTM网络、瓶颈层和混合softmax层。

其中，轻量级RNNLM中LSTM网络的神经元数量小于高秩RNNLM中LSTM的神经元数量，轻量级RNNLM网络中瓶颈层的维度小于高秩RNNLM中瓶颈层的维度。

S230、迭代轻量级RNNLM中的参数，最小化交叉熵损失和Kullback-Leibler散度的加权和，以完成对轻量级RNNLM的训练。

本实施例中，通过信任正则化器动态调整交叉熵损失和KL散度的加权和，从而优化学生模型。

在学生模型训练完成后，对学生模型和其他模型进行实验，以说明本实施例提供的学生模型的优势。

第一个实验：计算轻量级RNNLM在PTB语料库上的困惑度(perplexity，PPL)；根据轻量级RNNLM在PTB语料库上的困惑度与其它语言模型在PTB语料库上的困惑度的比较结果，评价轻量级RNNLM。

本实验中，教师模型由基于不同种子([31,37，61，71，83])随机化生成的5个子模型组成。为了训练每个子模型，在教师模型中采用正则化方法、优化方法和超参数调整技术。每个子模型包括一个维度是280的多个子模型共用输入层、共960个神经元的3层LSTM。在MoS之前，LSTM的输出要映射到瓶颈层，该瓶颈层的维度是620。在MoS中使用了15个专家。LSTM单元的输入、输出和隐层到隐层的丢失率分别设置为0.4、0.29和0.225。其他层的丢失率设置为0.4。每个子模型的参数数量是22M。

轻量级RNNLM，或者学生模型的训练过程中，信任正则化器的中参数α设置为0.1。学生模型具有3层LSTM，共480个神经元。嵌入层和瓶颈层的维度分别是200和300。学生模型的MoS使用了15个专家。

本实验采用困惑度作为评价语言模型性能的指标。困惑度的定义是在语料库中，已知字序列的情况下，模型分配给每个字的几何平均值的概率的倒数。困惑度越低，模型越接近真实语言的分布情况。

表1示出了神经语言模型的单模型参数数量、PTB内开发集困惑度和PTB内的测试集的困惑度。通过信任正则化和知识蒸馏训练的学生模型的困惑度显著优于采用或者不采用微调和动态评估的基线结果。学生模型仅采用了AWD-LSTM-Mos w/o finetune模型的33％的参数，却取得了更低的困惑度。

表1神经语言模型的单模型参数数量、PTB内开发集困惑度和PTB内的测试集的困惑度

其中，教师模型是个例外，其是5个AWD-LSTM-Mos finetuned模型的集合，而非一个单独的模型。

为了更进一步验证信任正则化知识蒸馏模型的贡献，本实施例还提供了在PTB语料库上的逐步分析实验，所有的逐步分析实验均不采用微调和动态评估，损失函数设置为交叉熵损失和KL散度的加权和，交叉熵损失的权值设为0.1，KL散度的权值设为0.1。除去交叉熵损失，学生模型仅仅通过最小化KL散度完成训练，但困惑度结果要低于不采用信任正则化方法的模型训练。除去知识蒸馏，学生模型仅仅采用最小化交叉熵损失完成模型训练，其中，应用了传统的正则化和优化方法来达到更好的效果。表2示出了在PTB测试集和开发集上不采用微调和动态评估的逐步分析实验结果。实验中，为了使除去知识蒸馏的学生模型达到更好的效果，采用了传统的正则化和优化方法。

表2在PTB测试集和开发集上不采用微调和动态评估的逐步分析实验结果

表2示出了不采用知识蒸馏的学生模型相比于采用知识蒸馏的学生模型的困惑度增长了17.3％，测试数据的困惑度增长了18.2％。

不同于根据训练数据标签训练的语言模型，不采用丢失率和激活正则化的情况下，知识蒸馏法能够取得更好的模型。如表2所示，当采用丢失率策略时，学生模型的表现显著退化。这个发现也证明了教师模型的输出概率相对训练数据标签更具通用性。

表3示出了对交叉熵损失和KL散度采用固定权值和信任正则化的困惑度比较结果。其中，“xCE+yKL”表示交叉熵损失的权值是x，KL散度的权值是y。表3对交叉熵损失和KL散度采用固定权值和信任正则化的困惑度比较结果

表3中的结果显示在语言建模中，对交叉熵损失和KL散度采用固定权值的模型差于单独采用交叉熵损失和KL散度的模型。

第二个实验：计算轻量级RNNLM的字错误率；根据轻量级RNNLM在Wall StreetJournal(WSJ)语料库上的词错误率与其它语言模型在Wall Street Journal英文语料库上的词错误率的比较结果，评价轻量级RNNLM。

在本实验中，教师模型包括基于不同种子([17,31])随机化生成的2个子模型组成，每个子模型包括1个900维度的多个子模型共用输入层、具有1150个隐藏神经元的三层LSTM和一个具有650个神经元的瓶颈层。在MoS，采用了7个专家。每个子模型具有65M个参数。丢失率设置为0.4，不采用ConnectDrop，嵌入层的丢失率设置为0.1。在学生模型中，包括1个嵌入层、三层LSTM和一个瓶颈层。每一层包括250个神经元。在MoS中采用7个专家。在学生模型训练中，不采用丢失率。信任正则化器中参数α设置为0.01。表4示出了在WSJ语料库上的字错误率、困惑度和参数数量。采用信任正则化方法的学生模型相比于固定权值的模型取得更好的表现。采用信任正则化方法的学生模型相当于18.5％的教师模型中的子模型的模型规模，而该学生模型取得同样的语言表现力。

表4在WSJ语料库上的字错误率、困惑度和参数数量

表4中，“BD”表示语音识别的初次解码的语言模型使用了扩展词典。“CE”表示仅使用交叉熵损失进行模型训练。

实施例三

图3是本发明实施例三提供的一种递归神经网路语言模型训练装置的结构示意图。如图3所示，包括输入模块31和最小化模块32。

输入模块31，用于将语料库中的语言文本分别输入至训练完成的高秩递归神经网路语言模型RNNLM和待训练的轻量级RNNLM中；

最小化模块32，用于迭代轻量级RNNLM中的参数，最小化交叉熵损失和Kullback-Leibler散度的加权和，以完成对轻量级RNNLM的训练；

其中，交叉熵损失是轻量级RNNLM的输出向量相对于语言文本的训练数据标签向量的交叉熵损失，Kullback-Leibler散度是轻量级RNNLM的输出向量相对于高秩RNNLM的输出向量的Kullback-Leibler散度。

可选地，该装置还包括：设置模块，用于采用信任正则化器作为交叉熵损失的权值，并将Kullback-Leibler散度的权值设置为1；

信任正则化器的表达式是

其中，x是输入语言文本对应的向量，y是输入语言文本的训练数据标签向量，1(y＝x)是指示函数，Q(x|c,θ_te)是高秩RNNLM在给定上下文历史c和参数θ_te的条件下，输出的x落在各个训练数据标签的分布概率，α是标量值。

可选地，交叉熵损失L_CE(θ)的表达式是

其中，x是输入语言文本对应的向量，y是输入语言文本的训练数据标签向量，1(y＝x)是指示函数，P(x|c,θ)是轻量级RNNLM在给定上下文历史c和参数θ的条件下，输出的x落在各个训练数据标签的分布概率。

可选地，Kullback-Leibler散度L_KL(θ)的表达式是

其中，Q(x|c,θ_te)是高秩RNNLM在给定上下文历史c和参数θ_te的条件下，输出的x落在各个训练数据标签的分布概率。

可选地，高秩RNNLM包括输入层、多层长短时记忆LSTM网络、瓶颈层和混合softmax层，混合softmax层包括多个子模型共用输入层、多层长短时记忆LSTM网络和瓶颈层；

轻量级RNNLM包括输入层、嵌入层、多层LSTM网络、瓶颈层和混合softmax层；

其中，轻量级RNNLM中LSTM网络的神经元数量小于高秩RNNLM中LSTM网络的神经元数量，轻量级RNNLM中瓶颈层的维度小于高秩RNNLM中瓶颈层的维度。

本发明实施例所提供的递归神经网路语言模型训练装置可执行本发明任意实施例所提供的递归神经网路语言模型训练方法，具备执行方法相应的功能模块和有益效果。

实施例四

图4是本发明实施例四提供的一种电子设备的结构示意图，如图4所示，该电子设备包括处理器40、存储器41；电子设备中处理器40的数量可以是一个或多个，图4中以一个处理器40为例；电子设备中的处理器40、存储器41可以通过总线43或其他方式连接，图4中以通过总线43连接为例。

存储器41作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的递归神经网路语言模型训练方法对应的程序指令/模块(例如，递归神经网路语言模型训练装置中的输入模块31和最小化模块32)。处理器40通过运行存储在存储器41中的软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述的递归神经网路语言模型训练方法。

存储器41可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器41可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器41可进一步包括相对于处理器40远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实施例五

本发明实施例五还提供一种其上存储有计算机程序的计算机可读存储介质，计算机程序在由计算机处理器执行时用于执行一种递归神经网路语言模型训练方法，该方法包括：

迭代轻量级RNNLM中的参数，最小化交叉熵损失和Kullback-Leibler散度的加权和，以完成对轻量级RNNLM的训练；

当然,本发明实施例所提供的一种其上存储有计算机程序的计算机可读存储介质,其计算机程序不限于如上的方法操作,还可以执行本发明任意实施例所提供的递归神经网路语言模型训练方法中的相关操作.

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例的方法。

值得注意的是，上述递归神经网路语言模型训练装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种递归神经网路语言模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在将语料库中的语言文本分别输入至训练完成的高秩递归神经网路语言模型RNNLM和待训练的轻量级RNNLM中之前，还包括：

采用信任正则化器作为所述交叉熵损失的权值，并将所述Kullback-Leibler散度的权值设置为1；

所述信任正则化器的表达式是

3.根据权利要求1所述的方法，其特征在于，交叉熵损失L_CE(θ)的表达式是

4.根据权利要求3所述的方法，其特征在于，Kullback-Leibler散度L_KL(θ)的表达式是

5.根据权利要求1所述的方法，其特征在于，所述高秩RNNLM包括输入层、多层长短时记忆LSTM网络、瓶颈层和混合softmax层，混合softmax层包括多个子模型共用输入层、多层LSTM网络和瓶颈层；

所述轻量级RNNLM包括输入层、嵌入层、多层LSTM网络、瓶颈层和混合softmax层；

6.一种递归神经网路语言模型训练装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

设置模块，用于采用信任正则化器作为交叉熵损失的权值，并将所述Kullback-Leibler散度的权值设置为1；

所述信任正则化器的表达式是

8.根据权利要求6所述的装置，其特征在于，交叉熵损失L_CE(θ)的表达式是

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5中任一所述的递归神经网路语言模型训练方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一所述的递归神经网路语言模型训练方法。