CN108874754A

CN108874754A - 语言模型压缩方法和系统

Info

Publication number: CN108874754A
Application number: CN201810539084.4A
Authority: CN
Inventors: 俞凯; 刘轩; 曹迪; 石开宇
Original assignee: Shanghai Jiaotong University; AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2018-05-30
Filing date: 2018-05-30
Publication date: 2018-11-23

Abstract

本发明公开语言模型压缩方法和系统，方法包括：响应于获取的输入参数，查找与所述输入参数对应的二值化向量；至少将所述二值化向量经过二值化的循环网络层，以得到二值化的循环网络层输出；至少将所述循环网络层输出经过二值化的线性层并输出结果。通过使用二值化向量来编码词嵌入以及LSTM的参数，从而达到较高的内存压缩率。开创性地探索了二值化LSTM在大词表语言模型中的应用。进一步地，通过实验表明，本申请提出的模型在中文和英文数据集上达到了11.3的无损压缩比，在损失小部分性能的情况下，可以达到31.6的压缩比。

Description

语言模型压缩方法和系统

技术领域

本发明属于语言模型压缩技术领域，尤其涉及语言模型的压缩方法和系统。

背景技术

语言模型(LM，Language Mode)在自然语言处理(NLP，Natural LanguageProcessing)任务中发挥重要作用。N-gram语言模型曾经是最流行的语言模型。考虑到前面的N-1个单词，N-gram语言模型预测下一个单词。但是，这会导致长时依赖关系的丧失。随着N的增长，样本空间大小呈指数增长，这导致数据稀疏。

神经网络(NN，Neural Networks)模型在2003年被首次引入语言建模。给定具有固定大小的上下文，该模型可以计算下一个单词的概率分布。但是，长时依赖关系的问题仍然存在，因为上下文窗口是固定的。目前，基于递归神经网络(RNN，Recurrent NeuralNetworks)的模型被广泛用于 NLP任务以获得优异的性能。神经网络中的递归结构可以在很大程度上解决长期依赖问题。一些基于门的结构，如长短时记忆(LSTM，Long Short-Term Memory)和门控循环单元(GRU，Gated Recurrent Unit)改善了循环结构并实现了最新技术大多数NLP任务的性能。

然而，神经网络模型占用了巨大的内存空间，因此几乎不可能将模型放入低资源设备。在实践中，由于词表通常非常大。所以内存消耗主要来自嵌入层。而且，词嵌入通常由单精度浮点数表示，这增加了内存消耗。

目前，随着深度学习的发展，神经网络在许多领域取得了良好的效果。然而，神经网络可能需要巨大的内存空间，这使得在低资源设备上运行这种模型变得困难。因此，有必要压缩神经网络。

近年来，已经提出了许多压缩神经网络的方法。剪枝方法通过移除权重低于阈值的所有连接来减少神经网络的参数数目。量化方法将权重聚类，只使用几个位的内存来表示神经元，然后通过索引的方式来得到对应的浮点值。

二值化也是一种压缩神经网络的方法。BNNs(Binarized Neural Networks，二值化神经网络)是二元化的深度神经网络。权重和激活限制为1或-1。BNNs可以大幅减少内存大小，并可以逐位操作替换大多数算术运算。发明人在实现本发明的过程中发现，与剪枝和量化不同，二值化不一定需要预先训练，并且可以实现很大的压缩比。现有技术已经提出了许多二值化方法。然而，只有少数工作与递归神经网络有关，且没有对二值化的大型词汇量LSTM语言模型进行全面的研究。

发明内容

本发明实施例提供一种语言模型压缩方法、系统及电子设备，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种语言模型压缩方法，包括：响应于获取的输入参数，查找与所述输入参数对应的二值化向量；至少将所述二值化向量经过二值化的循环网络层，以得到二值化的循环网络层输出；至少将所述循环网络层输出经过二值化的线性层并输出结果

第二方面，本发明实施例提供一种语言模型压缩系统，包括：输入二值化单元，配置为响应于获取的输入参数，查找与所述输入参数对应的二值化向量；循环结构二值化单元，配置为至少将所述二值化向量经过二值化的循环网络层，以得到二值化的循环网络层输出；以及结果二值化单元，配置为至少将所述循环网络层输出经过二值化的线性层并输出结果。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的语言模型压缩方法的步骤。

第四方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明任一实施例的语言模型压缩方法的步骤。

本申请的方法和系统提出了一种新颖的二值化LSTM LM，用以解决语言模型在压缩的同时保证性能不受太多影响。通过使用二值化向量来编码词嵌入以及LSTM的参数，从而达到较高的内存压缩率。开创性地探索了二值化LSTM在大词表语言模型中的应用。进一步地，通过实验表明，本申请提出的模型在中文和英文数据集上达到了11.3的无损压缩比，在损失小部分性能的情况下，可以达到31.6的压缩比。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种语言模型压缩方法的流程图；

图2和图3为本发明一实施例提供的算法1和算法2；

图4为本发明一实施例提供二值化嵌入的可视化表示图；

图5为本发明一实施例提供的一种语言模型压缩系统的框图；

图6是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面，先介绍本申请的实施方式，之后将用实验数据证实本申请的方案与现有技术相比有什么不同，能实现什么有益效果。

请参考图1，其示出了本发明的语言模型压缩方法一实施例的流程图，本实施例的语言模型压缩方法可以适用于将神经网络语言模型用于存储空间较小的设备。

如图1所示，在步骤101中，响应于获取的输入参数，查找与输入参数对应的二值化向量；

在步骤102中，至少将二值化向量经过二值化的循环网络层，以得到二值化的循环网络层输出；

在步骤103中，至少将循环网络层输出经过二值化的线性层并输出结果。

在本实施例中，对于步骤101，语言模型压缩装置接收到输入参数之后，例如输入一个词之后，就可以从嵌入层中查找对应的二值化向量，以前是实数向量，本申请是二值化之后的向量。之后，对于步骤102，语言模型压缩装置至少将二值化向量经过一个已经被二值化的循环网络层，得到这个二值化循环网络层输出，在这之前还可以经过一个普通的线性层，本申请在此没有限制。进一步的，该循环网络层例如可以是长短时记忆层或者是其他循环网络层，本申请在此没有限制。之后，对于步骤103，至少将步骤102中的循环网络层输出经过一个二值化的线性层并输出最终结果。进一步地，在此之前可以先经过一个普通的线性层。从而可以实现对语言模型的输入输出以及中间处理过程都进行压缩。

在一些可选的实施例中，二值化的循环网络层包括对循环网络层的参数和实现细节进行二值化后的循环网络层。例如可以对长短时记忆层的参数和计算过程都进行二值化。计算过程二值化例如包括对线性层正向传播过程和线性层反向传播过程均二值化。从而可以进一步压缩语言模型。除了参数，还可以将计算过程二值化，使用更加高效的popcnt指令进行向量内积的计算，提高效率。进一步地，二值化的过程可以包括：训练时参数保存为普通的浮点数；前向过程中将浮点参数进行二值化，然后使用对应的运算进行前向计算；后向过程中对浮点的参数进行更新；训练完成之后即把浮点数二值化，这样达到压缩的效果；推理(使用模型)时直接使用保存的二值数和二值的运算进行推理。

在一些可选的实施例中，对循环网络层的参数进行二值化包括基于高斯分布N(0，)随机地初始化每个权重w：

在另一些可选的实施例中，对循环网络层的实现进行二值化包括使用预设操作二值化循环网络层的实现细节。该预设操作包括shift操作。

在另一些可选的实施例中，二值化的线性层为在原有的线性层的基础上增加了二值化权重和偏差的线性层，原有的线性层表示为：e_t＝W_ex_t，二值化的线性层表示为：e_t＝W_Te(W_e ^bx_t)+b_Te，其中，W_Te表示额外的线性转移，W_e ^b表示二值化的W_e，b_Te表示偏差。

在另一些可选的实施例中，语言模型为长短时记忆语言模型，长短时记忆语言模型在第t时刻的词概率分布通过下式计算：

P(y_t|x₁，...，x_t)＝p_t＝softmax(W_yh_t)，

其中，x_t表示第t个时刻的输入，y_t表示第t时刻的输出，W_y表示输出权重，h_t表示为第t时刻的隐藏向量；

根据以上任一实施例的方法的改进后的长短时记忆语言模型在第t时刻的词概率分布通过下式计算：

其中，W_y ^b表示二值化的W_y，W_Ty和b_Ty表示二值化输出线性层的权重和偏差。从而可以实现对语言模型的全方位压缩。

需要说明的是，对于前述各方法实施例，为了简单描述，故将其都表述为一系列的动作合并，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

长短时记忆(LSTM)语言模型(LM)广泛应用于自动语音识别(ASR， AutomaticSpeech Recognition)和自然语言处理(NLP)。虽然大词表任务取得了很好的性能，但是伴随着的巨大的内存消耗让LSTM语言模型在端侧的应用受限，而其中大部分的内存都被词嵌入层占用。在长短时记忆模型中，每个参数由浮点数来表示，需要32bit来存储。由于大词表的语言模型词表很大，这导致长短时记忆模型需要大量的模型参数。保存这些参数需要大量的内存。而移动设备往往内存有限，这限制了基于长短时记忆模型的语言模型在移动设备上的应用。

一方面，本领域技术人员在面对上述技术问题时，往往会使用效果比较差、比较原始的基于n-gram的语言模型。这种方法虽然避免了基于长短时记忆模型需要大量内存的问题，但模型性能不如长短时记忆模型，导致语音识别系统性能的下降。

而另一方面，训练二值化的神经网络比较难，简单的直接将参数变为二值的话，模型效果会很差。本申请的发明人也尝试过直接将语言模型的词嵌入二值化，用二值化后的词嵌入去训练语言模型。这种方法比较直接，但在实际训练的过程中，直接将词嵌入二值化导致词嵌入丢失太多的信息，结果比较差。所以放弃了这种思路。

本申请提出了全新的二值化LSTM语言模型来解决这个问题。在训练的时候，我们保留一个浮点数版本的参数，但在实际使用时，将会使用对应的二值化版本。根据语言模型的特点，我们在模型的结构上做了一些改进，使得模型既能够大量减少内存消耗，在模型性能上也几乎没有损失。本申请中，我们用二值化向量来编码词嵌入以及LSTM的参数，从而达到较高的内存压缩率。本申请开创性地探索了二值化LSTM在大词表语言模型中的应用。训练时保留浮点数版本，二值化后进行正向传播，用二值对应的梯度给浮点数版本的梯度更新。在词嵌入层，加入额外的线性层。并在二值化循环网络中，加入shift操作。实验表明，提出的模型在中文和英文数据集上达到了11.3的无损压缩比，在损失小部分性能的情况下，可以达到31.6的压缩比。

本申请的方案能够应用于各种终端和服务器。例如，对于一种服务器高效数据处理方法的方案，所能够直接达到的效果就是提高了数据的处理效率，但是更深层次的，由于其提升了数据处理效率，所以使得服务器在单位时间内所能够处理数据的吞吐量更大，从而避免造成数据拥塞宕机，提升了服务器的稳定性。减少了运行基于长短时记忆模型的语言模型所需要的内存，使在低内存设备上运行语音识别成为可能。

接下来，以一个具体的示例来论述本申请的实现过程和效果。

现有技术提出了RNN语言模型来处理顺序数据。但是由于梯度消失和爆炸问题，RNN语言模型难以学习长时依赖关系。LSTM通过门控机制增强了递归神经模型，解决了这个问题，并广泛应用于自然语言处理任务。

语言模型的目标是计算句子(x₁，...，x_N)的概率。一种典型的方法是逐字分解这个概率。

现有技术中提出了一个长短时记忆网络，它可以用于序列处理任务。考虑一个单层LSTM网络，其中N是句子的长度，x_t是第t个时刻的输入。 y_t是第t时刻的输出，它等于语言模型中的x_t+1。将h_t和c_t表示为第t时刻的隐藏矢量和单元矢量，用于表示(x₁，...，x_t-1)的历史。h₀和c₀用零初始化。给定x_t，h_t-1和c_t-1，模型计算输出y_t的概率。

LSTM语言模型的第一步是从词嵌入中提取输入x_t的表示e_t。由于x_t是一个单独的向量，所以这个操作可以通过索引而不是乘法来实现。

e_t＝W_ex_t (2)

之后，将e_t与h_t-1和c_t-1一起送入LSTM细胞。隐藏向量h_t和单元向量c_t可以按照下式计算：

f_t＝sigmlid(W_f{h_t-1，e_t}+b_f)

i_t＝sigmoid(W_i{h_t-1，e_t}+b_i)

o_t＝sigmoid(W_o{h_t-1，e_t}+b_o)

h_t＝o_t·tanh(c_t) (3)

第t时刻的词概率分布可以通过下式计算：

P(y_t|x₁，...，x_t)＝p_t＝softmax(W_yh_t) (4)

在第t时刻将yt作为输出的概率为：

二值化嵌入语言模型(BELM，Binarized Embedding Language Model) 是一种具有二值化输入嵌入和输出嵌入的新型LSTM语言模型。对于词汇量为V的单层LSTM语言模型，H的嵌入和隐藏层大小。输入嵌入层，输出嵌入层和LSTM层的参数大小(字节)分别为4VH，4V H和32H 2+ 16H。当V远大于语言模型常见的H时，输入嵌入和输出嵌入的参数占据了大部分空间。如果输入层和输出层的嵌入是二值化的，输入层和输出层仅占原始内存消耗的1/32，这可以大大减少运行神经语言模型的内存消耗。

找到好的二值化嵌入非常重要。发明人发现，直接二值化化预训练的词嵌入不能得到良好的二值化表示。相反，我们从头开始训练良好的二值化嵌入。在运行时，输入嵌入和输出嵌入是二值化矩阵。然而，在训练时间，用于计算嵌入的二值化版本的嵌入的浮点版本仍然保持。在正向传播步骤中，使用确定性函数符号对嵌入的浮点版本进行二值化。在反向传播步骤中，根据二值化嵌入的梯度更新嵌入的浮点版本。

符号函数的导数几乎在任何地方都是零，并且不可能通过此函数进行反向传播。可以使用直通估计器来获得梯度。假设已经获得了二值化权重的梯度，浮点版本权重的梯度为：

典型的权重初始化方法从高斯分布N(0，)中随机地初始化每个神经元的权重。这种初始化方法可以使梯度最大化并减轻消失梯度问题。从这个角度来看，1或-1太大了。所以，在实践中，我们将嵌入二值化为更小规模。虽然权重被二值化为浮点数，但矩阵也可以每个神经元保存一位，只要固定浮点值分开存储。

由于直接对输入嵌入进行二值化，输入嵌入W_e和输出嵌入W_y将限制嵌入的比例，因此在输入嵌入层后面和输出嵌入层前添加额外的线性层 (未激活)以增强模型。将W_e ^b和W_y ^b表示为W_e和W_y对应的二值化权重。将W_Te和b_Te，W_Ty和b_Ty表示为第一和第二线性层的权重和偏差。根据以下公式计算LSTM e_t的输入和二值化嵌入语言模型的概率p_t：

输出嵌入层之前的附加线性层对于二值化嵌入语言模型非常重要，特别是对于低维模型。去除此图层会导致性能明显下降。

对于二值化LSTM语言模型，前面解释了如何二值化嵌入层，但发明人发现LSTM网络也可以被二值化。在二值化LSTM语言模型中，参数中的所有矩阵都被二值化，这可以节省更多的存储空间。实现二值化线性层对于设计二值化LSTM语言模型(BLLM，BinarizedLSTM Language Model)很重要。在二值化线性层中，有三个参数W，γ和b。W是矩阵， γ和b是矢量。占据线性层中大部分空间的矩阵W被二值化。γ和b保持浮点值。b是线性层的偏差，引入γ来解决二元矩阵的尺度问题。

前向和后向传播算法如图2中的算法1和图3中的算法2所示。其中，在算法1中的s.exp()即为本申请在线性层所新增的shift操作，用于二值化LSTM层的实现细节。算法1(algorithm1)和算法2(algorithm2) 里面的二值化的过程可以描述为：训练时参数保存为普通的浮点数；前向过程中将浮点参数进行二值化，然后使用对应的运算进行前向计算；后向过程中对浮点的参数进行更新；训练完成之后即把浮点数二值化，这样达到压缩的效果；推理(使用模型)时直接使用保存的二值数和二值的运算进行推理。

该线性层的结构与批量归一化的结构非常相似，批次不规范。由于对整个序列的依赖性，批量归一化很难应用于递归神经网络。但是，批量归一化的结构非常有用。由于二值化的W会限制权重的取值范围，因此需要额外的自由度来解决这个问题。放缩操作可以将输出重新调整到合理的范围。

二值化LSTM语言模型的输入嵌入和输出嵌入的结构类似于二值化嵌入语言模型。嵌入是二值化的，并且可以在输入嵌入层之后及在输出嵌入层之前添加附加的线性层。然而，根据算法1和算法2，附加线性层也能够被二值化。

本申请实施例中将词汇表的大小表示为V，将嵌入和隐藏层的大小表示为H.单层LSTM语言模型BELM和BLLM的内存消耗列于表1中。

表1内存要求

对于语言模型，词汇大小通常远大于隐藏层大小。主要的内存消耗来自嵌入层，对于LSTM语言模型需要8V H字节。二值化嵌入可以将此项减少到0.25V H字节。LSTM的进一步压缩可以将H²的系数从32降至 1.25。

本申请实施例的模型在英国宾州TreeBank(PTB)，中文短消息(SMS) 和SWB-Fisher(SWB)上评估。Penn TreeBank语料库是一个着名的英语数据集，词汇量为10K，词汇量(OOV)为4.8％，广泛用于评估语言模型的性能。训练集包含大约42K句子和887K字。中文短信语料库是从短信中收集的。该语料库的词汇量大约为40K。训练集包含380K句子，1931K 词。SWB-Fisher语料库是一个包含大约2.5M句子和24.9M个单词的英语语料库。语料库的词汇量大约为30K。hub5e是SWB ASR任务的数据集。

本申请还评估了由两个词相似性数据集上的模型生成的单词嵌入。在 Text8语料库上训练模型以提取词嵌入。Text8语料库由Google出版并从维基百科收集。Text8包含大约17M字，词汇大小约为47k。 WordSimilarity-353(WS-353)测试集合包含两组英文单词对以及人类指定的相似性判断。该集合可用于训练和测试实现语义相似性度量的计算机算法。提供了组合，其包含所有353个单词的列表以及它们的平均相似性分数。MEN数据集由3,000个字对组成，这些字对从随机可用的ukWaC 和Wackypedia语料库中分别至少出现700次的词语中随机选取(大小分别为1.9B和820M标记)，并且至少ESP游戏数据集的开源子集中有50 次(作为标签)。为了避免只选择不相关的对，根据基于文本的语义评分对这些对进行采样，以便它们表示相关性水平的平衡范围。

首先，分别对PTB，SWB和Text8语料库进行实验，以评估语言建模性能。本申请使用困惑度(PPL，perplexity)作为评估不同尺寸模型的度量。然后，模型在ASR重打分任务上进行评估。对由加权有限状态转换器(WFST，Weighted Finite State Transducer)产生的100个最佳句子进行重打分，该模型由字错误率(WER，Word Error Rate)评估。最后，我们对单词相似性任务进行实验，以评估我们模型生成的单词嵌入是否会丢失任何信息。

本申请进行了一系列的语言建模实验。对于传统的RNN语言模型，内存消耗主要来自嵌入层(输入层和输出层)。但是，当隐藏层大小增加时，RNN模块的内存消耗也会变大。所以总的内存使用量与词汇大小和隐藏层大小都有关，如前所述。

实验在语言建模中进行，分别评估PTB，SWB和SMS语料库的模型。在语言建模任务中，我们使用退出来调整网络。我们使用随机梯度下降 (SGD，Stochastic GradientDescent)进行优化。批量大小设置为64。对于PTB语料库，将针对不同的培训设置调整退出率。对于SWB语料库，我们不使用丢失技术。对于SMS语料库，丢失率(dropout)设置为0.25。我们在三个语料库上训练不同大小的模型，并记录训练模型的内存使用情况。所有设置的初始学习率均设为1.0。由于PTB是一个相对较小的数据集，并且BELM和BLLM的收敛速度比LSTM语言模型慢，所以如果验证集的困惑性没有降低，我们将学习速率每三个时期减少一半。对于其他实验，如果验证集合上的困惑不减少，则学习率总是每个时期减少一半。如第3节介绍的，输出嵌入层的偏置被省略。在输出嵌入层中添加偏置项会导致BELM和BLLM模型性能下降较小，但它会导致LSTM模型的小幅改进。这种现象可能与优化问题有关。

表2英语PTB语料库的表现

表3语SWB语料库的表现

表4中文短信语料库的表现

由于总内存使用量与词汇大小和隐藏层大小相关，因此各语料库的内存减少量相差很大。对于我们的BELM模型，浮点嵌入参数被替换为单个位，这可以显着减少内存使用量。在PTB语料库中，BELM模型甚至胜过基线LSTM LM。小模型(500个LSTM单元)相对PPL改进4.1％，压缩比达到4.3，大型模型(1000个LSTM单元)相对PPL改进4.1％，压缩比达到2.6。在SWB语料库上，BELM模型与基线模型相比仍然表现良好，并且分别为小型和大型模型实现了9.4和5.8的压缩比。在短信语料库上， BELMs模型也获得了0.2％和1.9％的相对PPL改进，并分别实现了11.3 和7.1的压缩比。总之，BELM模型与英文和中文语料库的基线模型一样好，并且在很大程度上减少了内存消耗。

然而，BLLM模型并没有超越基线模型，但仍然有可接受的结果，但性能损失较小。由于LSTM模型和嵌入都是二值化的，因此总压缩比非常重要。平均压缩比约为32.0，因此语言模型的内存消耗明显减少。

我们还研究了修剪LSTM语言模型的性能。我们分别用各种修剪率修剪每个参数矩阵和嵌入层，并用各种丢失率对模型进行微调。在我们的实验中，修剪75％的参数节点几乎不影响性能。但是，如果我们尝试修剪更多的参数节点，困惑度会迅速增加。例如，对于英文PTB数据集，当我们修剪LSTM语言模型(500个LSTM单元)的嵌入层的95％参数节点时，优势将从91.8增加到112.3。当我们修剪LSTM语言模型(500个LSTM 单元)的95％参数节点时，困惑度将从91.8增加到132.3。因此，语言建模任务的修剪效果不如二值化效果好。

二值化可以认为是量化的一个特例，它将参数量化为相反数字对。因此，与正常量化相比，二值化可以实现更好的压缩比。另外，对于二值化，我们不需要预先确定每个唯一值的位置。因此，二值化比量化更灵活。

然后我们研究BLLM中额外的二元线性层的影响。在输入嵌入层之后的附加二值化线性层和在输出嵌入层之前的附加二值化线性层分别在该实验中被去除。我们使用训练有素的嵌入来初始化相应的嵌入层，并使用去除附加的二元线性层的方法进行二值化。表5中列出了这些困惑。No-i 表示在输入嵌入层之后没有额外的二值化线性层。No-o意味着输出嵌入层前面没有额外的二值化线性层。No-io意味着没有额外的二值化线性层。该实验在PTB语料库上进行。

表5英语PTB语料库的表现

如果删除输入嵌入层之后的附加二值化线性层，则性能不会下降，并且在隐藏层大小为1000时甚至会变得更好。尽管在输入嵌入层之后的附加二值化层被删除，但浮点版本BLLM no-i的输入嵌入使用训练有素的嵌入进行初始化，而BLLM未使用训练有素的嵌入进行初始化。我们认为初始化是BLLM没有执行BLLM的原因。如果输入的嵌入未经过预先训练 (未在表格中列出)，我们还观察到BLLM no-i的PPL增加1-2分。这种现象促使我们预嵌嵌入，这是我们留给未来的工作。一旦输出嵌入层前面的附加二值化线性层被移除，性能下降就很严重。这表明语言模型的输出嵌入不应直接二值化；应该插入额外的二值化线性层来增强模型的容量，特别是对于低维模型。

本申请还在ASR重打分任务上进行了实验，以评估hub5e和SMS语料库上的模型。Hub5e是我们用于ASR重打分任务的SWB语料库的测试数据集。对于hub5e日期集，在300小时任务中的VDCNN(非常深的CNN) 模型被用作声学模型。对于中文SMS数据集，声学模型是CD-DNNHMM (Context Dependent Deep Neural Network Hidden Markov Model，上下文相关深度神经网络隐马尔科夫模型)模型。加权有限状态转换器(WFST)由 4元(4-gram)语言模型生成。然后我们的语言模型被用来重新评估100 个最佳候选句。模型通过字错误率(WER)的度量来评估。

表6ASR重打分任务的性能

表6显示了ASR重打分任务的结果。BELM模型和BLLM模型在英文和中文数据集上均表现良好。在三个实验中，BELM模型与基线模型相比实现了绝对0.2％的WER改善。BLLM模型也有很好的结果，尽管它在语言建模方面表现不佳。结果表明，我们的语言模型即使在内存消耗较少的情况下也能很好地在ASR重新调整任务上运行。

上面的实验显示了我们模型的良好性能。我们也想调查二值化嵌入是否会丢失任何信息。因此，嵌入是评估两个词相似任务。实验是在WS-353 和MEN任务上进行的。我们已经在Text8语料库上训练了基线LSTM模型，中等大小的BELM模型和BLLM模型。我们对训练的基线LSTM模型的嵌入进行二值化，以通过简单的二值化方法(下表中标记为 LSTM-bin)来调查是否存在任何信息丢失。对于每个维度，我们计算均值，如果它大于均值，则将值设置为1，否则，我们将其设置为-1。

嵌入大小和隐藏层大小设置为500。我们使用随机梯度下降(SGD) 来优化我们的模型。我们使用余弦距离来评估单词对的相似性。Spearman 的等级相关系数计算来评估我们的模型和领域专家给出的两个分数之间的相关性。

表7Text8语料库上的语言建模性能

表8单词相似性任务的表现

表7显示了我们的模型在Text8语料库的语言建模中表现良好。表8 总结了单词嵌入在相似性任务中的表现。简单的二值化方法生成的嵌入表现明显比其他嵌入更差，这表明很多信息丢失。BELM模型在MEN任务上的性能优于基线模型，虽然它的性能不如WS-353任务的基准模型。然而，MEN数据集包含更多的单词对，这使得该数据集的结果更具说服力。 BLLM模型在两项任务上明显优于基准模型。结果表明，BLLM的二值化嵌入不会丢失任何语义信息，尽管参数仅由-1和1表示。

我们怀疑二值化在正则化中扮演着一个角色，并产生更强大的向量。我们还给出了一些词向量的例子。TSNE减少了BLLM嵌入的尺寸。

图4为二值化嵌入的可视化表示图，其中，king、father、mother、 grandfather、grandmother、birthplace等都是英文数据集上面的词。在图4 中示出了最接近father的单词(根据单词向量的余弦距离)。

在这个图中，mother和parents是最接近father的词语，这是可以理解的。husband、wife、grandfather和grandmother的词语也聚集在一起，图中的大部分词语都与father有关，表明嵌入确实带有语义信息。

综上，本申请提出了一种新的语言模型-二值化嵌入语言模型 (BELM)，以解决神经网络语言模型占据巨大空间的问题。对于传统的 RNN语言模型，内存消耗主要来自嵌入层(输入层和输出层)。但是，当隐藏层大小增加时，RNN模块的内存消耗也会变大。因此，总内存使用量与词汇大小和隐藏层大小都有关。在BELM模型中，单词以二值化向量的形式表示，其中只包含-1或1的参数。为了进一步压缩，我们对与二值化嵌入相结合的长期短期记忆语言模型进行二值化。因此，总内存使用量可以显着减少。在各种语料库上进行语言建模和ASR重打分任务的实验。结果表明，BELM模型在2.6到11.3的压缩比下性能没有任何损失，这取决于隐藏和词汇大小。BLLM模型能达到约32倍的压缩率，而性能略有下降。我们还评估嵌入词相似任务。结果显示二值化嵌入甚至比基线嵌入表现得更好。

请参考图5，其示出了本发明一实施例提供的语言模型压缩系统框图。

如图5所示，本发明的语言模型压缩系统500，包括输入二值化单元 510、循环结构二值化单元520和结果二值化单元530。

其中，输入二值化单元510，配置为响应于获取的输入参数，查找与所述输入参数对应的二值化向量；循环结构二值化单元520，配置为至少将所述二值化向量经过二值化的循环网络层，以得到二值化的循环网络层输出；以及结果二值化单元530，配置为至少将所述循环网络层输出经过二值化的线性层并输出结果。

应当理解，图5中记载的诸模块与参考图1中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图5中的诸模块，在此不再赘述。

值得注意的是，本公开的实施例中的模块并不用于限制本公开的方案，例如输入二值化单元可以描述为响应于获取的输入参数，查找与所述输入参数对应的二值化向量的单元。另外，还可以通过硬件处理器来实现相关单元，例如输入二值化单元也可以用处理器实现，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的语言模型压缩方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

响应于获取的输入参数，查找与所述输入参数对应的二值化向量；

至少将所述二值化向量经过二值化的循环网络层，以得到二值化的循环网络层输出；

至少将所述循环网络层输出经过二值化的线性层并输出结果。

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的语言模型压缩方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的语言模型压缩方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语言模型压缩装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至语言模型压缩装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项语言模型压缩方法。

图6是本发明实施例提供的电子设备的结构示意图，如图6所示，该设备包括：一个或多个处理器610以及存储器620，图6中以一个处理器 610为例。语言模型压缩方法的设备还可以包括：输入装置630和输出装置640。处理器610、存储器620、输入装置630和输出装置640可以通过总线或者其他方式连接，图6中以通过总线连接为例。存储器620为上述的非易失性计算机可读存储介质。处理器610通过运行存储在存储器620 中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例语言模型压缩方法。输入装置630 可接收输入的数字或字符信息，以及产生与信息投放装置的用户设置以及功能控制有关的键信号输入。输出装置640可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于神经网络语言模型中，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和 UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语言模型压缩方法，包括：

2.根据权利要求1所述的方法，其中，所述二值化的循环网络层包括对循环网络层的参数和计算过程进行二值化后的循环网络层。

3.根据权利要求2所述的方法，其中，对循环网络层的参数进行二值化包括基于高斯分布随机地初始化每个权重w：

4.根据权利要求2所述的方法，其中，对循环网络层的计算过程进行二值化包括使用shift操作二值化循环网络层的实现细节。

5.根据权利要求1-4中任一项所述的方法，其中，所述二值化的线性层为在原有的线性层的基础上增加了二值化权重和偏差的线性层，原有的线性层表示为：e_t＝W_ex_t，所述二值化的线性层表示为：e_t＝W_Te(W_e ^bx_t)+b_Te，其中，W_Te表示额外的线性转移，W_e ^b表示二值化的W_e，b_Te表示偏差。

6.根据权利要求5所述的方法，其中，所述语言模型为长短时记忆语言模型，所述长短时记忆语言模型在第t时刻的词概率分布通过下式计算：

P(y_t|x₁，...，x_t)＝p_t＝softmax(W_yh_t)，

其中，x_t表示第t时刻的输入，y_t表示第t时刻的输出，W_y表示输出权重，h_t表示为第t时刻的隐藏向量；

根据权利要求1-4中任一项所述的方法改进后的长短时记忆语言模型在第t时刻的词概率分布通过下式计算：

其中，W_y ^b表示二值化的W_y，W_Ty和b_Ty表示二值化输出线性层的权重和偏差。

7.一种语言模型压缩系统，包括：

输入二值化单元，配置为响应于获取的输入参数，查找与所述输入参数对应的二值化向量；

循环结构二值化单元，配置为至少将所述二值化向量经过二值化的循环网络层，以得到二值化的循环网络层输出；

结果二值化单元，配置为至少将所述循环网络层输出经过二值化的线性层并输出结果。

8.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至6任一项所述方法的步骤。

9.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。