CN108694443A

CN108694443A - 基于神经网络的语言模型训练方法和装置

Info

Publication number: CN108694443A
Application number: CN201710217479.8A
Authority: CN
Inventors: 杨铭; 侯翠琴; 张姝; 孙俊
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2017-04-05
Filing date: 2017-04-05
Publication date: 2018-10-23
Anticipated expiration: 2037-04-05
Also published as: CN108694443B

Abstract

本发明涉及基于神经网络的语言模型训练方法和装置。该方法包括：针对训练集中的每一个目标词，利用噪声生成网络生成目标词特征和噪声词特征，其中，目标词特征和噪声词特征具有各自对应的类别标签；利用上下文神经网络提取目标词的上下文特征；将目标词特征、噪声词特征以及上下文特征构成训练样本输入二分类器；迭代更新噪声生成网络的参数和上下文神经网络的参数，直到二分类器的预测误差接近预定值时停止更新；以及用训练得到的上下文神经网络作为语言模型。根据本发明的方法和装置可以训练得到一种收敛速度较快同时泛化能力较好的语言模型。

Description

基于神经网络的语言模型训练方法和装置

技术领域

本发明涉及自然语言处理领域，更具体地涉及一种基于神经网络的语言模型训练方法和装置。

背景技术

语言模型可以简单描述为：给定上下文，预测下一个词的概率。其被广泛的应用于机器翻译、语音识别、拼写检查等领域，是自然语言处理领域中的重要基础性技术。随着深度学习技术的兴起，基于神经网络的语言模型成为研究热点。与统计语言模型相比，神经网络语言尽管可以更好地引入语义特性使性能较传统方法有优势，但是在实际训练过程中却存在着速度效率低下的问题。

速度效率低的原因可以归结为：在模型训练过程中，需要计算归一化因子的梯度，当词典规模较大时，计算开销过大。为了减小计算量，研究领域提出了噪声对比估计(后文简记为NCE)训练策略。图1示出了NCE语言模型的示意图。该策略通过随机采样的方式在已知建议分布中选取一些噪声词，通过计算噪声词的梯度来估计归一化因子各项的梯度，通过一个二分类器对噪声词和观测词进行分类，从而约束梯度的变化范围，实现训练参数更新的加速。

但由于NCE产生噪声词时服从确定的建议分布，随着二分类器的迭代学习优化，噪声词所服从的分布并没有修改，导致训练出来的语言模型出现过拟合，相似语义词之间相对上下文的条件概率会有较大差异，影响语言模型的平滑能力。

因此，需要一种收敛速度较快同时泛化能力较好的语言模型。

发明内容

在下文中给出关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

本发明的一个主要目的在于，提供了一种基于神经网络的语言模型训练方法，包括：针对训练集中的每一个目标词，利用噪声生成网络生成目标词特征和噪声词特征，其中，目标词特征和噪声词特征具有各自对应的类别标签；利用上下文神经网络提取目标词的上下文特征；将目标词特征、噪声词特征以及上下文特征构成训练样本输入二分类器；迭代更新噪声生成网络的参数和上下文神经网络的参数，直到二分类器的预测误差接近预定值时停止更新；以及用训练得到的上下文神经网络作为语言模型。

根据本发明的一个方面，提供一种基于神经网络的语言模型训练装置，包括：噪声生成单元，被配置为针对训练集中的每一个目标词，利用噪声生成网络生成目标词特征和噪声词特征，其中，目标词特征和噪声词特征具有各自对应的类别标签；上下文特征生成单元，被配置为利用上下文神经网络提取目标词的上下文特征；二分类处理单元，被配置为将目标词特征、噪声词特征以及上下文特征构成训练样本输入二分类器；参数更新单元，被配置为迭代更新噪声生成网络的参数和上下文神经网络的参数，直到二分类器的预测误差接近预定值时停止更新；以及语言模型构造单元，被配置为用训练得到的上下文神经网络作为语言模型。

另外，本发明的实施例还提供了用于实现上述方法的计算机程序。

此外，本发明的实施例还提供了至少计算机可读介质形式的计算机程序产品，其上记录有用于实现上述方法的计算机程序代码。

通过以下结合附图对本发明的最佳实施例的详细说明，本发明的这些以及其他优点将更加明显。

附图说明

参照下面结合附图对本发明实施例的说明，会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中，相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。

图1示出了NCE语言模型的示意图；

图2示出了根据本发明的整体语言模型的框架示意图；

图3示出了根据本发明的一个实施例的基于神经网络的语言模型训练方法300的示例性过程的流程图；

图4示出了噪声生成网络的结构示意图；

图5是示出根据本发明的另一个实施例的基于神经网络的语言模型训练装置500的示例性配置的框图；以及

图6是示出可以用于实施本发明的基于神经网络的语言模型训练方法和装置的计算设备的示例性结构图。

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的设备结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

本发明提出了一种由两个生成模型和一个判别模型构成的对抗式神经网络语言模型训练方法。

其中，利用神经网络模型进行上下文特征的提取，利用噪声生成网络(其实质上也是一种神经网络)产生噪声词，二分类器用于判定输入词是来自于噪声生成网络还是真实的词。

二分类器与噪声模型是对抗关系，噪声模型的训练目标是要让二分类器将产生的噪声样本判别为真实数据，而二分类器是要正确地判别输入数据来自于真实数据还是噪声模型。

下面结合附图详细说明根据本发明的实施例的基于神经网络的语言模型训练方法和装置。下文中的描述按如下顺序进行：

1.基于神经网络的语言模型训练方法

2.基于神经网络的语言模型训练装置

3.用以实施本申请的方法和装置的计算设备

[1.基于神经网络的语言模型训练方法]

图2示出了根据本发明的整体语言模型的框架示意图。在图2中，通过噪声生成网络将目标词生成目标词特征和噪声词特征，通过上下文神经网络来提取上下文特征，然后将目标词特征和噪声词特征以及上下文特征都输入二分类器。

图3示出了根据本发明的一个实施例的基于神经网络的语言模型训练方法300的示例性过程的流程图。下面将结合图3具体说明基于神经网络的语言模型训练方法300的过程。

首先，在步骤S302中，针对训练集中的每一个目标词，利用噪声生成网络来生成目标词特征和噪声词特征。

在一个示例中，噪声生成网络的处理流程如下所述。

a)首先将目标词通过词嵌入层(Embedding层)，映射成一个d维向量。(将其记作V_d)。

b)通过隐含层1生成k维噪声因子向量(H(1)_k＝activation(W_kdV_d+b_k))，其中activation是激活函数。

c)通过隐含层2生成d维噪声因子向量(H(2)_d＝activation(W_ddV_d+b_d))。

d)通过b)和c)生成的向量构造k个噪声向量(N_k，d＝H(1)_kH(T)_k ^T)。

e)通过d)生成的k个噪声向量和a)中的目标词向量加和，生成k个噪声词向量(NW_k，d＝N_k，d+V_d)。

f)将a)中的目标词向量与e)中生成的NW_k,d进行合并。

目标词特征和噪声词特征具有各自对应的类别标签。例如，可以将目标词向量对应的类别标签设置为1，将噪声词向量对应的类别标签设置为0。(最终的k+1个向量记为：Bi_k+1,d，对应的类别标签的向量为Bl_k+1)。

图4示出了噪声生成网络的结构示意图，可以参照图4来理解上述过程。

接着，在步骤S304中，利用上下文神经网络提取目标词的上下文特征。

然后，在步骤S306中，将步骤S302中得到的目标词特征和噪声词特征以及步骤S304中得到的上下文特征构成训练样本输入二分类器。

根据上述两部分的输入，将分类器的输出Op_k+1定义为：

Op_k+1＝exp(-Bi_k+1，d·C_d)。

其中，Bi_k+1,d是在步骤S302中得到的k+1个向量，C_d是在步骤S304中得到的上下文特征。

则k+1个向量中的第i个向量的类别标签D等于1和等于0的概率分别如下：

P(D＝0|i，C_d)＝1-P(D＝1|i，C_d)。

在本发明中，由于二分类器与噪声生成网络是对抗关系，噪声生成网络的训练目标是要让二分类器将产生的噪声样本判别为真实数据，而二分类器是要正确地判别输入数据来自于真实数据还是噪声模型，因此将神经网络的损失函数定义为错误判断类别标签的概率，而将噪声生成网络的损失函数定义为正确判断类别标签的概率。

优选的，可以将上下文神经网络的损失函数L_NN和噪声生成网络的损失函数L_NG分别定义为：

其中PBL_k+1(i)为k+1个向量中的第i个向量的真实的类别标签，C_d表示上下文特征，P(D＝1|i,C_d)表示在给定上下特征C_d的情况下第i个向量的类别标签D为1的概率(即是目标词向量的概率)，P(D＝0|i,C_d)表示第i个向量的类别标签D为0的概率(即不是目标词向量的概率)。

整个学习框架定义为：上下文神经网络的参数学习目标是极大化L_NN，噪声生成网络的参数学习目标是极大化L_NG。

在步骤S308中，迭代更新噪声生成网络的参数和上下文神经网络的参数，直到二分类器的预测误差接近预定值时停止更新。

这里的预测误差是二分类器的输出值与真实值之间的差。

通过以上描述可以发现L_NN与L_NG形成对抗关系，即极大化L_NN必然导致L_NG变小，反之极大化L_NG必然导致L_NN变小。如果在参数学习过程中，对L_NN与L_NG不进行步调协调将会导致模型不收敛或者收敛到某个局部最小值点。因此需要一种适当的神经网络模型与噪声生成模型的参数更新方法。

首先，语言模型的目标是要学习上下文与目标词之间的依赖关系。因此上下文神经网络模型是主模型。而噪声生成网络的主要目的是在训练阶段加速模型收敛，提升神经网络模型的泛化能力，因此，本发明采用了如下的控制上下文神经网络与噪声生成网络参数速度的方法，这里参数的更新方法采用常用的基于梯度的优化算法，所采用的更新速度控制方法具体如下：

a)上下文神经网络模型对上下文与目标词构成的每个训练样本都进行一次更新，梯度计算为其中θ为神经网络的权重参数，参数的优化更新采用常用的更新算法(例如SGD，Momentum，AdaGrad等)。(这里的神经网络例如可以是卷积神经网络架构或者循环神经网络网络架构)

b)噪声生成网络模型是对整个训练集的所有训练样本完成一轮训练而进行一次更新，梯度计算为其中α为噪声生成网络的权重参数。

c)噪声生成网络模型的学习率由上下文神经网络模型输出层梯度决定。设上下文神经网络模型输出层梯度为噪声网络的学习率为：

其中，N为整个训练的样本数，∈与μ₀为超参数，m代表当前迭代轮数。噪声模型的更新增量为：

当二分类器的预测误差接近预定值时，停止参数的更新，从而训练终止。优选地，预定值可以为0.5。

最后，在步骤S310中，可以用训练得到的上下文神经网络来作为语言模型。

本发明设计了一种噪声生成网络的结构，定义了二分类器(判别模型)的目标函数，并提出了噪声生成网络与上下文神经网络模型的参数更新速度控制策略，可以在语言模型的训练阶段加速训练模型的收敛，并且提升神经网络模型的泛化能力。

2.基于神经网络的语言模型训练装置

图5是示出根据本发明的另一个实施例的基于神经网络的语言模型训练装置500的示例性配置的框图。

如图5所示，基于神经网络的语言模型训练装置500包括噪声生成单元502、上下文特征生成单元504、二分类处理单元506、参数更新单元508以及语言模型构造单元510。

其中，噪声生成单元502被配置为针对训练集中的每一个目标词，利用噪声生成网络生成目标词特征和噪声词特征，其中，目标词特征和噪声词特征具有各自对应的类别标签。

上下文特征生成单元504被配置为利用上下文神经网络提取目标词的上下文特征。

二分类处理单元506被配置为将目标词特征、噪声词特征以及上下文特征构成训练样本输入二分类器。

参数更新单元508被配置为迭代更新噪声生成网络的参数和上下文神经网络的参数，直到二分类器的预测误差接近预定值时停止更新。

语言模型构造单元510被配置为用训练得到的上下文神经网络作为语言模型。

其中，噪声生成单元502进一步被配置为：通过噪声生成网络的词嵌入层将目标词映射成目标词向量作为目标词特征；基于目标词向量通过噪声生成网络的隐含层生成k个噪声向量；将k个噪声向量与目标词向量相加生成k个噪声词向量作为噪声词特征；以及将目标词向量与k个噪声词向量合并得到k+1个向量，其中，目标词向量对应的类别标签为1，噪声词向量对应的类别标签为0。

其中，基于目标词向量通过隐含层生成k个噪声向量包括：通过隐含层中的第一隐含层利用激活函数生成k维噪声因子向量；通过隐含层中的第二隐含层利用激活函数生成d维噪声因子向量；以及利用k维噪声因子向量和d维噪声因子向量构造k个噪声向量。

其中，上下文神经网络的损失函数定义为错误判断类别标签的概率，噪声生成网络的损失函数定义为正确判断类别标签的概率。损失函数为用于衡量网络的输出值与真实的类别标签的差异的方程。

在一个示例中，上下文神经网络的损失函数为：

噪声生成网络的损失函数为：

其中，PBL_k+1(i)为k+1个向量中的第i个向量的真实的类别标签，C_d表示上下文特征，P(D＝1|i,C_d)表示在给定上下特征C_d的情况下第i个向量是目标词向量的概率，P(D＝0|i,C_d)表示在给定上下特征C_d的情况下第i个向量不是目标词向量的概率。

其中，参数更新单元508进一步被配置为：上下文神经网络针对每个训练样本都进行一次更新，噪声生成网络针对所有训练样本完成一轮训练而进行一次更新。

其中，用于控制噪声生成网络的迭代更新速度的学习率基于上下文神经网络的输出层梯度来确定。设上下文神经网络模型输出层梯度为噪声网络的学习率为：

其中，N为整个训练的样本数，∈与μ₀为超参数，m代表当前迭代轮数。

优选地，当二分类器的预测误差接近0.5时，训练终止。

其中，上下文神经网络是卷积神经网络或者循环神经网络。

关于基于神经网络的语言模型训练装置500的各个部分的操作和功能的细节可以参照结合图1-4描述的本发明的基于神经网络的语言模型训练方法的实施例，这里不再详细描述。

在此需要说明的是，图5所示的基于神经网络的语言模型训练装置500及其组成单元的结构仅仅是示例性的，本领域技术人员可以根据需要对图5所示的结构框图进行修改。

[3.用以实施本申请的方法和装置的计算设备]

以上结合具体实施例描述了本发明的基本原理，但是，需要指出的是，对本领域的普通技术人员而言，能够理解本发明的方法和装置的全部或者任何步骤或者部件，可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中，以硬件、固件、软件或者它们的组合加以实现，这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。

因此，本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此，本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说，这样的程序产品也构成本发明，并且存储有这样的程序产品的存储介质也构成本发明。显然，所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。

在通过软件和/或固件实现本发明的实施例的情况下，从存储介质或网络向具有专用硬件结构的计算机，例如图6所示的通用计算机600安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等等。

在图6中，中央处理单元(CPU)601根据只读存储器(ROM)602中存储的程序或从存储部分608加载到随机存取存储器(RAM)603的程序执行各种处理。在RAM 603中，也根据需要存储当CPU 601执行各种处理等等时所需的数据。CPU 601、ROM 602和RAM 603经由总线604彼此链路。输入/输出接口605也链路到总线604。

下述部件链路到输入/输出接口605：输入部分606(包括键盘、鼠标等等)、输出部分607(包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等)、存储部分608(包括硬盘等)、通信部分609(包括网络接口卡比如LAN卡、调制解调器等)。通信部分609经由网络比如因特网执行通信处理。根据需要，驱动器610也可链路到输入/输出接口605。可拆卸介质611比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器610上，使得从中读出的计算机程序根据需要被安装到存储部分608中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质611安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图6所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质611。可拆卸介质611的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 602、存储部分608中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

本发明还提出一种存储有机器可读取的指令代码的程序产品。指令代码由机器读取并执行时，可执行上述根据本发明实施例的方法。

相应地，用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等。

本领域的普通技术人员应理解，在此所例举的是示例性的，本发明并不局限于此。

在本说明书中，“第一”、“第二”以及“第N个”等表述是为了将所描述的特征在文字上区分开，以清楚地描述本发明。因此，不应将其视为具有任何限定性的含义。

作为一个示例，上述方法的各个步骤以及上述设备的各个组成模块和/或单元可以实施为软件、固件、硬件或其组合，并作为相应设备中的一部分。上述装置中各个组成模块、单元通过软件、固件、硬件或其组合的方式进行配置时可使用的具体手段或方式为本领域技术人员所熟知，在此不再赘述。

作为一个示例，在通过软件或固件实现的情况下，可以从存储介质或网络向具有专用硬件结构的计算机(例如图6所示的通用计算机600)安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等。

在上面对本发明具体实施例的描述中，针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其他实施方式中使用，与其他实施方式中的特征相组合，或替代其他实施方式中的特征。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其他特征、要素、步骤或组件的存在或附加。

此外，本发明的方法不限于按照说明书中描述的时间顺序来执行，也可以按照其他的时间顺序地、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。

本发明及其优点，但是应当理解在不超出由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且，本发明的范围不仅限于说明书所描述的过程、设备、手段、方法和步骤的具体实施例。本领域内的普通技术人员从本发明的公开内容将容易理解，根据本发明可以使用执行与在此的相应实施例基本相同的功能或者获得与其基本相同的结果的、现有和将来要被开发的过程、设备、手段、方法或者步骤。因此，所附的权利要求旨在在它们的范围内包括这样的过程、设备、手段、方法或者步骤。

基于以上的说明，可知公开至少公开了以下技术方案：

1、一种基于神经网络的语言模型训练方法，包括：

针对训练集中的每一个目标词，利用噪声生成网络生成目标词特征和噪声词特征，其中，所述目标词特征和所述噪声词特征具有各自对应的类别标签；

利用上下文神经网络提取所述目标词的上下文特征；

将所述目标词特征、所述噪声词特征以及所述上下文特征构成训练样本输入二分类器；

迭代更新所述噪声生成网络的参数和所述上下文神经网络的参数，直到所述二分类器的预测误差接近预定值时停止更新；以及

用训练得到的所述上下文神经网络作为所述语言模型。

2、根据附记1所述的方法，其中，利用噪声生成网络生成目标词特征和噪声词特征包括：

通过所述噪声生成网络的词嵌入层将所述目标词映射成目标词向量作为所述目标词特征；

基于所述目标词向量通过所述噪声生成网络的隐含层生成k个噪声向量；

将所述k个噪声向量与所述目标词向量相加生成k个噪声词向量作为所述噪声词特征；以及

将所述目标词向量与所述k个噪声词向量合并得到k+1个向量，其中，所述目标词向量对应的类别标签为1，所述噪声词向量对应的类别标签为0。

3、根据附记2所述的方法，其中，基于所述目标词向量通过所述噪声生成网络的隐含层生成k个噪声向量包括：

通过所述隐含层中的第一隐含层利用激活函数生成k维噪声因子向量；

通过所述隐含层中的第二隐含层利用激活函数生成d维噪声因子向量；以及

利用k维噪声因子向量和d维噪声因子向量构造k个噪声向量。

4、根据附记2所述的方法，其中，所述上下文神经网络的损失函数定义为错误判断类别标签的概率，所述噪声生成网络的损失函数定义为正确判断类别标签的概率，其中，所述损失函数为用于衡量网络的输出值与真实的类别标签的差异的方程。

5、根据附记4所述的方法，其中，所述上下文神经网络的损失函数为：

所述噪声生成网络的损失函数为：

其中，PBL_k+1(i)为k+1个向量中的第i个向量的真实的类别标签，C_d表示上下文特征，P(D＝1|i,C_d)表示在给定上下特征C_d的情况下第i个向量是所述目标词向量的概率，P(D＝0|i,C_d)表示在给定上下特征C_d的情况下第i个向量不是所述目标词向量的概率。

6、根据附记1所述的方法，其中，迭代更新所述噪声生成网络的参数和所述上下文神经网络的参数包括：

所述上下文神经网络针对每个训练样本都进行一次更新，所述噪声生成网络针对所有训练样本完成一轮训练而进行一次更新。

7、根据附记6所述的方法，其中，用于控制所述噪声生成网络的迭代更新速度的学习率基于所述上下文神经网络的输出层梯度来确定。

8、根据附记1所述的方法，其中，所述预定值为0.5。

9、根据附记1所述的方法，其中，所述上下文神经网络是卷积神经网络或者循环神经网络。

10、一种基于神经网络的语言模型训练装置，包括：

噪声生成单元，被配置为针对训练集中的每一个目标词，利用噪声生成网络生成目标词特征和噪声词特征，其中，所述目标词特征和所述噪声词特征具有各自对应的类别标签；

上下文特征生成单元，被配置为利用上下文神经网络提取所述目标词的上下文特征；

二分类处理单元，被配置为将所述目标词特征、所述噪声词特征以及所述上下文特征构成训练样本输入二分类器；

参数更新单元，被配置为迭代更新所述噪声生成网络的参数和所述上下文神经网络的参数，直到所述二分类器的预测误差接近预定值时停止更新；以及

语言模型构造单元，被配置为用训练得到的所述上下文神经网络作为所述语言模型。

11、根据附记10所述的装置，其中，所述噪声生成单元进一步被配置为：

12、根据附记11所述的装置，其中，所述噪声生成单元进一步被配置为：

利用k维噪声因子向量和d维噪声因子向量构造k个噪声向量。

13、根据附记11所述的装置，其中，所述上下文神经网络的损失函数定义为错误判断类别标签的概率，所述噪声生成网络的损失函数定义为正确判断类别标签的概率，其中，所述损失函数为用于衡量网络的输出值与真实的类别标签的差异的方程。

14、根据附记13所述的装置，其中，所述上下文神经网络的损失函数为：

所述噪声生成网络的损失函数为：

15、根据附记10所述的装置，其中，所述参数更新单元进一步被配置为：

16、根据附记15所述的装置，其中，用于控制所述噪声生成网络的迭代更新速度的学习率是基于所述上下文神经网络的输出层梯度确定的。

17、根据附记10所述的装置，其中，所述预定值为0.5。

18、根据附记10所述的装置，其中，所述上下文神经网络是卷积神经网络或者循环神经网络。

Claims

1.一种基于神经网络的语言模型训练方法，包括：

利用上下文神经网络提取所述目标词的上下文特征；

用训练得到的所述上下文神经网络作为所述语言模型。

2.根据权利要求1所述的方法，其中，利用噪声生成网络生成目标词特征和噪声词特征包括：

3.根据权利要求2所述的方法，其中，基于所述目标词向量通过所述噪声生成网络的隐含层生成k个噪声向量包括：

利用k维噪声因子向量和d维噪声因子向量构造k个噪声向量。

4.根据权利要求2所述的方法，其中，所述上下文神经网络的损失函数定义为错误判断类别标签的概率，所述噪声生成网络的损失函数定义为正确判断类别标签的概率，其中，所述损失函数为用于衡量网络的输出值与真实的类别标签的差异的方程。

5.根据权利要求4所述的方法，其中，所述上下文神经网络的损失函数为：

所述噪声生成网络的损失函数为：

6.根据权利要求1所述的方法，其中，迭代更新所述噪声生成网络的参数和所述上下文神经网络的参数包括：

7.根据权利要求6所述的方法，其中，用于控制所述噪声生成网络的迭代更新速度的学习率基于所述上下文神经网络的输出层梯度来确定。

8.根据权利要求1所述的方法，其中，所述预定值为0.5。

9.根据权利要求1所述的方法，其中，所述上下文神经网络是卷积神经网络或者循环神经网络。

10.一种基于神经网络的语言模型训练装置，包括：