CN110379416A

CN110379416A - 一种神经网络语言模型训练方法、装置、设备及存储介质

Info

Publication number: CN110379416A
Application number: CN201910755676.4A
Authority: CN
Inventors: 黄羿衡
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-15
Filing date: 2019-08-15
Publication date: 2019-10-25
Anticipated expiration: 2039-08-15
Also published as: CN110379416B

Abstract

本申请公开了一种模型训练方法，包括：获取多组用于模型训练的批处理数据；通过运行于多块图形处理器上的多个计算节点，基于不同的批处理数据，并行训练同一神经网络语言模型；在当前轮次迭代时，通过多个计算节点中每个计算节点确定各参数的梯度；汇总各参数的梯度得到各参数的全局梯度，控制多个计算节点基于全局梯度同步进行参数更新；通过第一计算节点基于测试数据集对当前轮次更新后的神经网络语言模型进行性能评测得到当前语言模型性能指标值；通过第一计算节点广播当前语言模型性能指标值；根据当前语言模型性能指标值与上一轮次确定的语言模型性能指标值的大小关系，控制多个计算节点是否停止训练。本申请还公开了对应的系统。

Description

一种神经网络语言模型训练方法、装置、设备及存储介质

技术领域

本申请涉及机器学习技术领域，尤其涉及一种神经网络语言模型训练方法、装置、设备及存储介质。

背景技术

语言模型是自然语言处理领域的基础问题，其在词性标注、句法分析、机器翻译、信息检索等任务中起到了重要作用。简而言之，统计语言模型表示为：在词序列中，给定一个词和上下文中所有词，这个序列出现的概率。

语言模型是许多系统的基本部分，它试图解决机器翻译和语言识别等自然语言处理任务。在神经网络(Neural Network,NN)被成功应用于语言建模之前，主流的语言模型为N-gram模型，采用计数统计的方式，在离散空间下表示语言的分布。由于缺乏对词的相似性的有效表示，N-gram语言模型存在严重的数据稀疏问题。虽然引入平滑技术，但数据稀疏问题仍不能得到有效的解决。神经网络语言模型则采用分布式的方式表示词，即通常所说的词向量，将词映射到连续的空间内，有效地解决了数据稀疏问题。并且神经网络具有很强的模式识别能力，神经网络语言模型的性能远优于N-gram模型。

但由于神经网络语言模型的计算复杂度远高于N-gram模型，其训练过程也比较复杂耗时，因此目前使用的神经网络语言模型所依据的语料都不大，如此大大限制了训练所得的神经网络语言模型的性能，因此，如何实现基于大量语料进行神经网络语言模型训练是目前自然语言处理领域亟需解决的问题。

发明内容

本申请提供了一种神经网络语言模型训练方法，其通过采用并行训练的方式，使得能够通过大量语料训练神经网络语言模型，提升了神经网络语言模型的性能。本申请还提供了对应的装置、设备、系统、介质及计算机程序产品。

本申请第一方面提供了一种神经网络语言模型训练方法，所述方法包括：

获取多组用于模型训练的批处理数据；

通过运行于多块图形处理器上的多个计算节点，基于不同的所述批处理数据，并行训练同一神经网络语言模型；

在当前轮次迭代时，通过所述多个计算节点中每个计算节点确定各参数的梯度；

汇总每个所述计算节点确定各参数的所述梯度得到各参数的全局梯度，控制所述多个计算节点基于所述全局梯度同步进行参数更新；

通过所述多个计算节点中的第一计算节点基于测试数据集对当前轮次更新后的神经网络语言模型进行性能评测得到当前语言模型性能指标值；

通过所述多个计算节点中的第一计算节点在所述多个计算节点中广播所述当前语言模型性能指标值；

根据所述当前语言模型性能指标值与上一轮次确定的语言模型性能指标值的大小关系，控制所述多个计算节点是否停止训练。

本申请第二方面提供一种装置，所述装置包括：

获取模块，用于获取多组用于模型训练的批处理数据；

训练模块，用于通过运行于多块图形处理器上的多个计算节点，基于不同的所述批处理数据，并行训练同一神经网络语言模型；

确定模块，用于在当前轮次迭代时，通过所述多个计算节点中每个计算节点确定各参数的梯度；

更新模块，用于汇总每个所述计算节点确定各参数的所述梯度得到各参数的全局梯度，控制所述多个计算节点基于所述全局梯度同步进行参数更新；

评测模块，用于通过所述多个计算节点中的第一计算节点基于测试数据集对当前轮次更新后的神经网络语言模型进行性能评测得到当前语言模型性能指标值；

广播模块，用于通过所述多个计算节点中的第一计算节点在所述多个计算节点中广播所述当前语言模型性能指标值；

控制模块，用于根据所述当前语言模型性能指标值与上一轮次确定的语言模型性能指标值的大小关系，控制所述多个计算节点是否停止训练。

本申请第三方面提供一种设备，所述设备包括处理器以及存储器：

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序，执行如上述第一方面所述的神经网络语言模型训练方法的步骤。

本申请第四方面提供一种神经网络语言模型训练系统，所述系统包括：

多台服务器、所述多台服务器中每台服务器包括一个中央处理器和多个图形处理器，其中，每个图形处理器用于运行用于进行神经网络语言模型训练的计算节点；

所述多台服务器中的第一服务器，用于获取多组用于模型训练的批处理数据，为多个计算节点并行分配对应的批处理数据；

多个所述计算节点，用于基于不同的所述批处理数据，并行训练同一神经网络语言模型，在当前轮次迭代时确定各参数的梯度；

所述多台服务器中的第二服务器，用于汇总每个所述计算节点确定各参数的所述梯度得到各参数的全局梯度，控制所述多个计算节点基于所述全局梯度同步进行参数更新；

所述多个计算节点中第一计算节点，用于基于测试数据集对当前轮次更新后的神经网络语言模型进行性能评测得到当前语言模型性能指标值，在所述多个计算节点中广播所述当前语言模型性能指标值；

所述第二服务器还用于，根据所述当前语言模型性能指标值与上一轮次确定的语言模型性能指标值的大小关系，控制所述多个计算节点是否停止训练。

本申请第五方面提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行上述第一方面所述的方法。

本申请第六方面提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行上述第一方面所述的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中提供了一种并行训练神经网络语言模型的方法，先获取多组用于模型训练的批处理数据，通过运行于多块图形处理器上的多个计算节点，基于不同的批处理数据，并行训练同一神经网络语言模型，具体地，在当前轮次迭代时，通过多个计算节点中每个计算节点确定各参数的梯度，汇总每个计算节点确定各参数的梯度得到各参数的全局梯度，控制多个计算节点基于该全局梯度同步进行参数更新，并通过其中一个计算节点基于测试数据集对当前轮次更新后的神经网络语言模型进行性能评测得到当前语言模型性能指标值，然后向其他计算节点广播当前语言模型性能指标值，根据当前语言模型性能指标值与上一轮次确定的语言模型性能指标值的大小关系，控制多个计算节点是否停止训练。该方法通过并行训练降低了训练神经网络语言模型的复杂度，缩短了训练时间，而且通过并行方式可以对大量语料进行训练，提升了神经网络语言模型的性能。

附图说明

图1为本申请实施例中神经网络语言模型训练方法的场景架构图；

图2为本申请实施例中神经网络语言模型训练方法的流程图；

图3为本申请实施例中转换词标识序列示意图；

图4为本申请实施例中模型训练效果示意图；

图5为本申请实施例中神经网络语言模型训练方法的应用场景示意图；

图6为本申请实施例中神经网络语言模型训练装置的一个结构示意图；

图7为本申请实施例中服务器的一个结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

针对如何实现基于大量语料进行神经网络语言模型训练这一技术问题，本申请提供了一种基于并行训练方式的神经网络语言模型训练方法，通过运行于多块图形处理器上的多个计算节点，基于不同的批处理数据，并行训练同一神经网络语言模型，降低了训练神经网络语言模型的复杂度，缩短了训练时间，而且通过并行方式可以对大量语料进行训练，提升了神经网络语言模型的性能。

本申请提供的神经网络语言模型训练方法可以应用于任意具有图形处理器(Graphics Processing Unit，GPU)的数据处理设备，该数据处理设备可以是终端，包括个人计算机(Personal Computer，PC)、小型机、中型机、大型机、工作站等，当然该数据处理设备也可以是服务器。需要说明的是，该数据处理设备在用于训练神经网络语言模型时可以是独立的，也可以集群形式存在。

本申请提供的神经网络语言模型训练方法可以计算机程序的形式存储于数据处理设备，数据处理设备通过运行计算机程序实现本申请的神经网络语言模型训练方法。上述计算机程序可以是独立的计算机程序，也可以是集成于其他计算机程序之上的功能模块、插件或者小程序等。

在实际应用时，本申请提供的神经网络语言模型训练方法可以但不限于应用于如图1所示的应用环境中。

如图1所示，服务器具有多块GPU，每块GPU上至少可以运行一个计算节点，为了方便描述，将上述计算节点记作计算节点1至N，其中，N为大于1的正整数。在进行训练时，服务器获取多组用于模型训练的批处理数据，然后将上述批处理数据分配至计算节点1至N，使得计算节点1至N基于不同的批处理数据并行训练同一神经网络语言模型。

具体地，在当前轮次迭代时，服务器通过计算节点1至N中的每个计算节点确定各参数的梯度，汇总每个计算节点各参数的梯度得到各参数的全局梯度，控制上述计算节点1至N基于全局梯度同步进行参数更新，然后由上述计算节点中的一个如计算节点1基于测试数据集对当前轮次更新后的神经网络语言模型进行性能评测得到当前语言模型的性能指标值，并通过计算节点1向其他计算节点广播当前语言模型性能指标值，根据当前语言模型性能指标值与上一轮次确定的语言模型性能指标值的大小关系，控制计算节点1 至N是否停止训练。

为了便于理解，下面结合具体实施例，从服务器角度对本申请提供的神经网络语言模型训练方法进行详细介绍。

参见图2所示的神经网络语言模型训练方法的流程图，该方法包括：

S201：获取多组用于模型训练的批处理数据。

具体地，服务器可以预先采集训练语料，然后对训练语料进行处理生成用于训练模型的训练数据集和用于测试模型训练效果的测试数据集。考虑到模型训练效率，服务器将训练数据集中的数据划分批次，形成批处理数据batch，批处理数据的大小batch size可以根据实际需求设置，在此不作限定。

在实际应用时，服务器可以从开源数据集或者从互联网中获取用于模型训练的文本，然后对该文本进行分词处理，将所述文本中每个词由每个词对应的词标识替换，从而生成词标识序列，接着，按照预设的批处理数据的长度，将所述词标识序列依次划分成多组批处理数据。

为了便于理解，下面结合一具体示例进行说明。具体参见图3，在该示例中，获取批处理数据可以由服务器的数据处理模块实现，该数据处理模块可以读取文本，然后对文本进行分词，分词结果具体为“今天/天气/不错</s>你好/去/哪里”，接着通过查询词表的方式将每个词替换为对应的词标识即id，如“今天”替换为“1002”，“天气”替换为“31”等，如此形成词标识序列，接着按照预设的批处理数据长度如20，以及预设的batch size如256，将词标识序列划分成多个长度为20的词标识序列，每256个词标识序列打包生成一组批处理数据。

S202：通过运行于多块图形处理器上的多个计算节点，基于不同的所述批处理数据，并行训练同一神经网络语言模型。

服务器包括多块GPU，每块GPU可以运行多个计算节点，GPU运行计算节点数量可以根据其运算能力而配置，如运算能力较强的GPU可以运行多个计算节点。

考虑到训练效率和复杂度，服务器将多组批处理数据分配至运行于多块 GPU上的多个计算节点，以使计算节点基于不同的批处理数据并行训练同一神经网络语言模型。

在实际应用时，神经网络语言模型可以采用长短期记忆网络(long short termmemory，LSTM)结构，该网络结构是一种时间递归神经网络结构，适于处理和预测时间序列中间隔和延迟相对较长的重要事件，因此，在对用户输入预测时具有较好的效果。

进一步地，神经网络语言模型的网络中还可以采用hierarchical softmax作为输出层。与传统的神经网络语言模型相比，采用hierarchical softmax作为输出层，其通过采样霍夫曼书代替从隐藏层到输出层的映射，沿着树型结构计算词的概率即可，如此可以避免计算所有词的softmax概率，减小了计算量，提高了计算效率。

在本实施例中，神经网络语言模型具体是基于tensorflow框架的模型，tensorflow包括2个placeholder占位符，一个是x，表征神经网络语言模型的输入，一个是y，其为x平移1位的结果，表征用户接下来输入的内容，其为神经网络语言模型需要预测的标签。在训练神经网络语言模型时，即是将批处理数据通过placeholder x和placeholdery输入神经网络语言模型，由神经网络语言模型对用户接下来输入的内容进行预测，服务器基于预测结果以及标签进行模型训练。

S203：在当前轮次迭代时，通过所述多个计算节点中每个计算节点确定各参数的梯度。

在进行迭代时，服务器可以通过前向后向模块确定各参数的梯度。具体地，前向后向模块接收数据处理模块传递的x和y，tensorflow通过相应的自动计算过程得到输出的预测结果与y之间的残差，根据该残差，利用反相传播算法能够计算出相应的各个变量需要更新的梯度大小。

考虑到文本在向量空间的高稀疏性，可以通过所述多个计算节点调用AdagradOptimizer，通过AdagradOptimizer基于神经网络语言模型输出的预测结果和真实标签的残差和反向传播算法确定各参数的梯度。

AdagradOptimizer可以累加之前所有的梯度平方，适于处理大的稀疏矩阵，并且，AdagradOptimizer可以自动变更学习速率，设定一个全局的学习速率α即可，但这并非是实际学习速率，实际学习速率与以往参数的模之和的开方成反比，这样使得每个参数都有一个自己的学习率，如此可以实现自适应学习。

S204：汇总每个所述计算节点确定各参数的所述梯度得到各参数的全局梯度，控制所述多个计算节点基于所述全局梯度同步进行参数更新。

服务器通过多个计算节点更新同一神经网络语言模型的参数，因此，每个计算节点确定的各参数的所述梯度可以视为局部梯度，服务器可以汇总每个计算节点确定各参数的梯度得到各参数的全局梯度，进而控制多个计算节点基于全局梯度同步更新参数。

在具体实现时，服务器可以通过梯度更新模块实现梯度汇总。具体地，服务器的梯度更新模块可以通过分布式深度学习框架horovod的分布式优化器收集所述多个计算节点中每个计算节点确定的各参数的梯度，然后通过所述分布式优化器针对各参数的多个所述梯度进行求和以及求平均得到各参数的全局梯度，通过所述分布式优化器将所述全局梯度分发给所述多个计算节点，控制所述多个计算节点基于所述全局梯度同步更新参数。

其中，分布式优化器在针对各参数的多个梯度进行求和可以通过开源的并行计算工具MPI实现，MPI可以实现并行计算时各计算节点之间的通信，通过MPI进行All reduce可以将所有就死按节点计算出的同一变量进行求和，如此可以实现各参数的梯度求和，进一步地，通过对求和结果进行除法运算可以实现各参数的梯度求平均，基于梯度平均值可以得到各参数的全局梯度。

S205：通过所述多个计算节点中的第一计算节点基于测试数据集对当前轮次更新后的神经网络语言模型进行性能评测得到当前语言模型性能指标值。

第一计算节点具体可以是多个计算节点中的任一节点，作为一个示例，服务器可以固定的某一计算节点，如rank＝＝0的计算节点作为该第一计算节点。第一计算节点可以利用测试数据集中的批处理数据对当前轮次更新后的神经网络语言模型进行性能评估，得到当前语言模型性能指标值。

在实际应用时，性能指标值具体可以是困惑度(Perplexity，PPL)。所谓 PPL是指语言模型编码数据所需要的平均字节数的指数，一般用于衡量语言模型预测样本的好坏程度，语言模型的困惑度越小，则表明语言模型的分布更接近测试数据的分布。

S206：通过所述多个计算节点中的第一计算节点在所述多个计算节点中广播所述当前语言模型性能指标值。

服务器可以基于MPI-Barrier函数进行并行训练控制。具体地，服务器可以通过MPI_Barrier函数确定所述多个计算节点完成同一轮训练后，再执行控制所述第一计算节点在所述多个计算节点中广播所述当前语言模型性能指标值的操作。

S207：根据所述当前语言模型性能指标值与上一轮次确定的语言模型性能指标值的大小关系，控制所述多个计算节点是否停止训练。

通过当前语言模型性能指标与上一轮次确定的语言模型性能指标值的大小关系可以反映该神经网络语言模型的训练状况，当训练状况表征优化空间较小，则可以停止训练，当训练状态表征仍有较大的优化空间，则可以继续训练。

具体地，当所述当前语言模型性能指标值与上一轮次评测的语言模型性能指标值相比趋于稳定时，控制所述多个计算节点停止训练，将最近两次迭代训练所得的语言模型性能指标值最小的神经网络语言模型作为最终的神经网络语言模型，当所述当前语言模型性能指标值与上一轮次评测的语言模型性能指标值相比不趋于稳定时，降低学习率并控制所述多个计算节点基于上一次迭代训练所得的神经网络语言模型进行下一轮次地并行训练。

由上可知，本申请实施例提供了一种一种并行训练神经网络语言模型的方法，先获取多组用于模型训练的批处理数据，通过运行于多块图形处理器上的多个计算节点，基于不同的批处理数据，并行训练同一神经网络语言模型，具体地，在当前轮次迭代时，通过多个计算节点中每个计算节点确定各参数的梯度，汇总每个计算节点确定各参数的梯度得到各参数的全局梯度，控制多个计算节点基于该全局梯度同步进行参数更新，并通过其中一个计算节点基于测试数据集对当前轮次更新后的神经网络语言模型进行性能评测得到当前语言模型性能指标值，然后向其他计算节点广播当前语言模型性能指标值，根据当前语言模型性能指标值与上一轮次确定的语言模型性能指标值的大小关系，控制多个计算节点是否停止训练。该方法通过并行训练降低了训练神经网络语言模型的复杂度，缩短了训练时间，而且通过并行方式可以对大量语料进行训练，提升了神经网络语言模型的性能。

本申请还采用单机8卡(即单台设备安装8块GPU)设备验证上述效果，具体地，每块GPU以每秒28000词的处理速度进行模型训练，以4G大小文本作为一个epoch，训练时长可以控制在一小时。参见图4，训练得到的神经网络语言模型在bench mark测试集合one-billion data上，针对512embedding、 2048hidden、512projection、6class的lstm模型，其ppl可以达到66。

进一步地，为了提高训练效率，还可以采用多机多卡方式进行训练，即通过运行于多台服务器中的多块图形处理器上的多个计算节点，基于不同的所述批处理数据，并行训练同一神经网络语言模型，其中，多台服务器中每台服务器上都运行有多块图形处理器，相对单机多卡方式，该方式进一步提高训练效率和训练能力，能够训练更多的数据，以提高神经网络语言模型的性能。

为了便于理解本申请的技术方案，下面结合语音识别这一具体场景对神经网络语言模型训练方法进行介绍。

参见图5所示的神经网络语言模型训练方法的应用场景示意图，该场景中包括智能音箱510、语音识别服务器520和多个训练服务器构成的训练集群 530，智能音箱510采集声音信号，该声音信号可以包括用户输入的语音信号，然后将声音信号发送至服务器520，由服务器520基于声学模型和语言模型进行语音识别，输出相应的识别文字，进而基于该识别文字进行响应。

具体地，智能音箱510采集声音信号，将该声音信号发送至服务器520，服务器520通过预处理模块对声音信号进行处理，以降低噪声，增强用户发出的语音信号，然后通过单词边界检测(Word Boundary Detection)模块进行人声检测得到对应于人声语音的语音片段，在通过特征提取模块从该语音片段提取梅尔频谱倒谱系数(Mel-Frequency CepstralCoefficients，MFCC)。

具体地，特征提取模块可以先通过快速傅里叶变换(Fast FourierTransformation，FFT)将该语音片段由时域转换为频域得到对应的频谱，然后将频谱通过Mel滤波器组得到Mel频谱，在频谱上进行倒谱分析，如取对数或逆变换，实际逆变换一般是通过离散余弦变换(Discrete Cosine Transform，DCT)实现，获得Mel频率倒谱系数MFCC，该MFCC即为这帧语音的语音特征。

接着，特征提取模块将MFCC输入声学模型和语言模型进行打分，其中，声学模型将声学和发音学的知识进行整合，以从语音片段中提取的MFCC特征为输入，生成声学模型得分；语言模型通过重训练语料学习词与词之间的相互概率，来估计假设词序列的可能性，也即语言模型得分。最后，结合解码器输出相应的识别文本，并基于该识别文本生成控制指令返回至智能音箱 510以执行相应的操作。

其中，上述语言模型即为训练集群530通过本申请提供的神经网络语言模型训练方法训练得到的，训练集群530中的每个服务器至少包括一块GPU，每块GPU至少包括一个计算节点，在获取多组用于模型训练的批处理数据后，通过运行于多块GPU上的多个计算节点，基于不同的批处理数据，并行训练同一神经网络语言模型，在进行迭代时，通过多个计算节点中每个计算节点确定各参数的梯度，然后针对每个参数分别汇总各个计算节点的梯度得到全局梯度，基于全局梯度同步更新参数，并通过其中一计算节点基于测试数据集对当前轮次更新后的神经网络语言模型进行性能评测得到当前语言模型 PPL，通过该计算节点在多个计算节点中广播当前语言模型PPL，训练集群 530根据当前语言模型PPL与上一轮次确定的语言模型PPL的大小关系，控制多个计算节点是否停止训练。

通过上述方法可以基于较多语料进行模型训练，一方面降低了训练难度，提高了训练效率，另一方面，通过大量数据学习可以使得模型更为精准，提高了模型识别性能。

基于此，将训练服务器530训练的语言模型对应的模型参数发送至语音识别服务器520，在语音识别服务器520中应用上述语言模型进行语音识别时，能够获得较好的识别效果。

基于本申请实施例提供的神经网络语言模型训练方法的具体实现方式，本申请实施例还提供了对应的装置，下面从功能模块化的角度进行介绍。

参见图6所示的神经网络语言模型训练装置的结构示意图，该装置600 包括：

获取模块610，用于获取多组用于模型训练的批处理数据；

训练模块620，用于通过运行于多块图形处理器上的多个计算节点，基于不同的所述批处理数据，并行训练同一神经网络语言模型；

确定模块630，用于在当前轮次迭代时，通过所述多个计算节点中每个计算节点确定各参数的梯度；

更新模块640，用于汇总每个所述计算节点确定各参数的所述梯度得到各参数的全局梯度，控制所述多个计算节点基于所述全局梯度同步进行参数更新；

评测模块650，用于通过所述多个计算节点中的第一计算节点基于测试数据集对当前轮次更新后的神经网络语言模型进行性能评测得到当前语言模型性能指标值；

广播模块660，用于通过所述多个计算节点中的第一计算节点在所述多个计算节点中广播所述当前语言模型性能指标值；

控制模块670，用于根据所述当前语言模型性能指标值与上一轮次确定的语言模型性能指标值的大小关系，控制所述多个计算节点是否停止训练。

可选的，所述控制模块670具体用于：

当所述当前语言模型性能指标值与上一轮次评测的语言模型性能指标值相比趋于稳定时，控制所述多个计算节点停止训练，将最近两次迭代训练所得的语言模型性能指标值最小的神经网络语言模型作为最终的神经网络语言模型；

当所述当前语言模型性能指标值与上一轮次评测的语言模型性能指标值相比不趋于稳定时，降低学习率并控制所述多个计算节点基于上一次迭代训练所得的神经网络语言模型进行下一轮次地并行训练。

可选的，所述获取模块610具体用于：

获取用于模型训练的文本；

对所述文本进行分词处理，将所述文本中每个词由每个词对应的词标识替换，生成词标识序列；

按照预设的批处理数据的长度，将所述词标识序列依次划分成多组批处理数据。

可选的，所述广播模块660具体用于：

通过MPI_Barrier函数确定所述多个计算节点完成同一轮训练后，再执行控制所述第一计算节点在所述多个计算节点中广播所述当前语言模型性能指标值的操作。

可选的，所述更新模块640具体用于：

通过horovod的分布式优化器收集所述多个计算节点中每个计算节点确定的各参数的梯度；

通过所述分布式优化器针对各参数的多个所述梯度进行求和以及求平均得到各参数的全局梯度；

通过所述分布式优化器将所述全局梯度分发给所述多个计算节点，控制所述多个计算节点基于所述全局梯度同步更新参数。

可选的，所述确定模块630具体用于：

通过所述多个计算节点调用AdagradOptimizer，通过AdagradOptimizer 基于神经网络语言模型输出的预测结果和真实标签的残差和反向传播算法确定各参数的梯度。

可选的，所述训练模块620具体用于：

通过运行于多台服务器中的多块图形处理器上的多个计算节点，基于不同的所述批处理数据，并行训练同一神经网络语言模型，所述多台服务器中每台服务器上都运行有多块图形处理器。

可选的，所述神经网络语言模型采用LSTM网络结构。

可选的，包括所述神经网络语言模型的网络中采用hierarchical softmax作为输出层。

本申请实施例还提供一种实现上述神经网络语言模型训练方法的服务器，参见图7，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)722(例如，一个或一个以上处理器)、一个或一个以上GPU724和存储器732，一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中，存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器722 可以设置为与存储介质730通信，在服务器700上执行存储介质730中的一系列指令操作。

服务器700还可以包括一个或一个以上电源726，一个或一个以上有线或无线网络接口750，一个或一个以上输入输出接口758，和/或，一个或一个以上操作系统741，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM， FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图7所示的服务器结构。

其中，CPU 722用于执行如下步骤：

获取多组用于模型训练的批处理数据；

可选的，所述CPU 722还用于执行本申请实施例提供的神经网络语言模型训练方法的任意一种实现方式的步骤。

本申请实施例还提供了一种神经网络语言模型训练系统，该系统包括多台服务器、所述多台服务器中每台服务器包括一个中央处理器和多个图形处理器，其中，每个图形处理器用于运行训练神经网络语言模型的计算节点；

本申请实施例还提供一种计算机可读存储介质，用于存储计算机程序，该计算机程序用于执行前述各个实施例所述的一种神经网络语言模型训练方法中的任意一种实施方式。

本申请实施例还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行前述各个实施例所述的一种神经网络语言模型训练中的任意一种实施方式。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称： Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称： Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种神经网络语言模型训练方法，其特征在于，包括：

获取多组用于模型训练的批处理数据；

2.根据权利要求1所述的神经网络语言模型训练方法，其特征在于，所述根据所述当前语言模型性能指标值与上一轮次确定的语言模型性能指标值的大小关系，控制所述多个计算节点是否停止训练，包括：

3.根据权利要求1所述的神经网络语言模型训练方法，其特征在于，所述获取多组用于模型训练的批处理数据，包括：

获取用于模型训练的文本；

4.根据权利要求1所述的神经网络语言模型训练方法，其特征在于，通过MPI_Barrier函数确定所述多个计算节点完成同一轮训练后，再执行控制所述第一计算节点在所述多个计算节点中广播所述当前语言模型性能指标值的操作。

5.根据权利要求1所述的神经网络语言模型训练方法，其特征在于，所述汇总每个所述计算节点确定各参数的所述梯度得到各参数全局梯度，控制所述多个计算节点基于所述全局梯度同步进行参数更新，包括：

6.根据权利要求1所述的神经网络语言模型训练方法，其特征在于，所述通过所述多个计算节点中每个计算节点确定各参数的梯度，包括：

通过所述多个计算节点调用AdagradOptimizer，通过AdagradOptimizer基于神经网络语言模型输出的预测结果和真实标签的残差和反向传播算法确定各参数的梯度。

7.根据权利要求1所述的神经网络语言模型训练方法，其特征在于，所述通过运行于多块图形处理器上的多个计算节点，基于不同的所述批处理数据，并行训练同一神经网络语言模型，包括：

8.根据权利要求1所述的神经网络语言模型训练方法，其特征在于，所述神经网络语言模型采用LSTM网络结构。

9.根据权利要求1所述的神经网络语言模型训练方法，其特征在于，包括所述神经网络语言模型的网络中采用hierarchical softmax作为输出层。

10.一种神经网络语言模型训练系统，其特征在于，包括：

多台服务器、所述多台服务器中每台服务器包括一个中央处理器和多个图形处理器，其中，每个图形处理器用于运行训练神经网络语言模型的计算节点；