CN104765728B

CN104765728B - 训练神经网络的方法和装置以及确定稀疏特征向量的方法

Info

Publication number: CN104765728B
Application number: CN201410009183.3A
Authority: CN
Inventors: 李中华; 夏迎炬; 孙健; 王云芝
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2014-01-08
Filing date: 2014-01-08
Publication date: 2017-07-18
Anticipated expiration: 2034-01-08
Also published as: CN104765728A

Abstract

本发明涉及对神经网络进行训练的方法和装置以及确定语料库中的词的稀疏特征向量的方法和装置。神经网络包括输入层、隐含层和输出层，输入层表示语料库中的作为当前词的词的原始特征向量，隐含层表示当前词的中间特征向量，输出层表示语料库中的下一词的预测概率。对神经网络进行训练的方法包括：将语料库中的每个词作为当前词，并将当前词的原始特征向量输入到输入层；以及训练神经网络使得下一词的预测概率总体上最高并利用惩罚项使得隐含层的中间特征向量的元素稀疏。

Description

训练神经网络的方法和装置以及确定稀疏特征向量的方法

技术领域

本发明涉及自然语言处理，具体涉及对神经网络进行训练的方法和装置以及确定语料库中的词的稀疏特征向量的方法和装置。

背景技术

数据表示是机器学习方法能否取得成功的关键因素。对于自然语言处理来说，词是最基本的处理单位，因此词的表示方法也至关重要。

在一种传统的词表示方法中，使用一个0-1向量来表示一个词，向量维数为语料库的词汇数量大小。这种表示方法被称为独热（one-hot）表示方法。图1是示出根据独热表示方法所表示的词向量的示意图。如图1所示，该词向量为一个n维向量，其中n表示等于或大于2的整数，该词向量中只有一个向量元素值为1，其余元素值均为零。

在一种改进的词表示方法中，为了便于计算词之间的距离，使用词的上下文信息来表示这个词。这种方法被称为分布式表示方式。图2是示出根据相关技术的分布式表示方法所表示的多维词向量的示意图。如图2所示，在分布式表示方法中，同样使用一个向量来表示一个词，但是这个向量的维度m一般比较低，其中m表示等于或大于2的整数，并且每个向量元素都有一个非零的实数值。

发明内容

在下文中给出关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

本发明提出了对神经网络进行训练的方法和装置以及确定语料库中的词的稀疏特征向量的方法和装置。

根据本发明的一个方面，提供了一种对神经网络进行训练的方法。其中，神经网络包括输入层、隐含层和输出层，输入层表示语料库中的作为当前词的词的原始特征向量，隐含层表示当前词的中间特征向量，输出层表示语料库中的下一词的预测概率。该方法包括：将语料库中的每个词作为当前词，并将当前词的原始特征向量输入到输入层；以及训练神经网络使得下一词的预测概率总体上最高并利用惩罚项使得隐含层的中间特征向量的元素稀疏。

根据本发明的另一个方面，提供了一种确定语料库中的词的稀疏特征向量的方法。该方法包括：将词的原始特征向量输入神经网络的输入层，其中，神经网络是通过上述方法训练获得的；以及根据神经网络的隐含层的中间特征向量来获得词的稀疏特征向量。

根据本发明的再一个方面，提供了一种对神经网络进行训练的装置。其中，神经网络包括输入层、隐含层和输出层，输入层表示语料库中的作为当前词的词的原始特征向量，隐含层表示当前词的中间特征向量，输出层表示语料库中的下一词的预测概率。该装置包括：第一输入部，被配置为将语料库中的每个词作为当前词，并将当前词的原始特征向量输入到输入层；以及训练部，被配置为训练神经网络使得下一词的预测概率总体上最高并利用惩罚项使得隐含层的中间特征向量的元素稀疏。

根据本发明的又一个方面，提出了一种确定语料库中的词的稀疏特征向量的装置。该装置包括：第二输入部，被配置为将词的原始特征向量输入神经网络的输入层，其中，神经网络是通过上述装置训练获得的；以及稀疏向量获得部，被配置为根据神经网络的隐含层的中间特征向量来获得词的稀疏特征向量。

另外，根据本发明的又一个方面，提出了一种实现上述方法的计算机程序。

此外，根据本发明的又一个方面，提出了一种至少计算机可读介质形式的计算机程序产品，其上记录有用于实现上述方法的计算机程序代码。

通过以下结合附图对本发明的最佳实施例的详细说明，本发明的这些以及其他优点将更加明显。

附图说明

参照下面结合附图对本发明实施例的说明，会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中，相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。

图1是示出根据相关技术的独热表示方法所表示的词向量的示意图；

图2是示出根据相关技术的分布式表示方法所表示的多维词向量的示意图；

图3是示出根据本发明实施例的神经网络的结构示意图；

图4是示出根据本发明实施例的对神经网络进行训练的方法的流程图；

图5是示出根据本发明实施例的确定语料库中的词的稀疏特征向量的方法的流程图；

图6是示出通过图5所示的方法获得的中间特征向量的一个例子的图；

图7是示出根据本发明实施例的对神经网络进行训练的装置的配置框图；

图8是示出根据本发明实施例的确定语料库中的词的稀疏特征向量的装置的配置框图；以及

图9是示出计算设备的举例的结构图，该计算设备可用于实施根据本发明实施例的对神经网络进行训练的方法和装置以及确定语料库中的词的稀疏特征向量的方法和装置。

具体实施方式

下面参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意，为了清楚的目的，附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。

发明人通过研究发现，使用独热表示方法无法计算词与词之间的距离，因为即使是语义上相近的词，它们之间的距离也为零。发明还发现使用分布式表示方法，会产生稠密的词向量，这种词向量存储开销很大，并且在有些情况下不便于直接利用这种词向量作为特征。

图3是示出根据本发明实施例的神经网络的示意图。

如图3所示，待训练的神经网络包括输入层、隐含层和输出层。

输入层表示语料库中的作为当前词的词的原始特征向量，隐含层表示当前词的中间特征向量，输出层中的各个神经元分别表示语料库中与该神经元对应的词的预测概率。

换句话说，输入层的神经元的个数与原始特征向量的个数相等，输入层的各神经元分别被输入当前词的原始特征向量的对应元素。隐含层的神经元的个数与中间特征向量的维数相同，但优选地小于原始特征向量的个数。隐含层的各神经元分别表示当前词的中间特征向量的对应元素。输出层的神经元个数与原始特征向量的个数相等，也与语料库的词个数相等。输出层中的各神经元分别表示语料库中与该神经元对应的词的预测概率，从而输出层的所有神经元的输出构成了一个向量，该向量也称为预测概率向量，其维度与词个数相等。与此同时，构造某个词的实际概率向量，其维度也与词个数相等，实际概率向量中与该词相应的那个元素的值为1，而其余元素的值均为零，即与其他词相应的那些元素的值均为零。预测概率向量与某个词的实际概率向量越相近，则表示某个词的预测概率越高。但在本发明中，在训练神经网络的过程中，期望达到的结果是，预测概率向量与下一词的实际概率向量接近，从而使得下一词预测概率高。

图4是示出根据本发明实施例的对如图3所示的神经网络进行训练的方法400的流程图。

如图4所示，在步骤S402中，将语料库中的每个词作为当前词，并将当前词的原始特征向量输入到输入层。

优选地，原始特征向量可以是根据相关技术的独热表示方法所表示的词向量。在这种情况下，输入层中只有一个神经元为1，其他神经元均为零。

在步骤S404中，训练神经网络使得语料库中的下一词的预测概率总体上最高并利用惩罚项使得隐含层的中间特征向量的元素稀疏。

这里说的下一词指的是相对于当前词的下一词。由于在步骤S402中将语料库中的每个词作为当前词，因而通过步骤S404分别获得各个下一词的预测概率。训练神经网络以使得获得的这些预测概率总体上最高并利用惩罚项使得隐含层的中间特征向量的元素稀疏。换句话说，惩罚项起到使隐含层的一部分神经元的值变为零的作用。

此外，根据情况，可以在步骤S402之前对语料库进行预处理。例如，如果是中文语料库，可以先进行分词处理。但是，容易理解到，预处理仅是可选步骤，也可以根据情况不执行预处理。

在一个实施例中，在训练神经网络的步骤S404中，可以通过下述式子（1）来使得下一词的预测概率总体上最高并利用惩罚项使得隐含层的中间特征向量的元素稀疏：

其中，W表示输入层与隐含层之间的参数，U表示隐含层与输出层之间的参数。i表示当前词，j表示下一词的预测概率的第j个元素，N表示训练样本的总数，其中当前词与下一词构成一个训练样本，|v|表示语料库的词汇数量，t_ij表示下一词的是第j个词的实际概率，y_ij表示下一词是第j个词的预测概率，Ω(W)表示惩罚项，β表示用于惩罚项的预定权重。

式子（1）中的第一项表示训练语料的负对数似然值。式子（1）的第二项表示鼓励中间特征向量稀疏的惩罚项，即表示鼓励隐含层的一部分神经元的值变为零的惩罚项。

在一个实施例中，可以通过下述式子来计算惩罚项Ω(W)：

其中，ρ表示中间特征向量的期望稀疏程度，j表示中间特征向量的第j个维度，K表示中间特征向量的维度，表示中间特征向量的实际稀疏程度，KL表示聚合交叉熵函数。

其中，可以通过下述式子（3）来计算中间特征向量的实际稀疏程度

其中，N表示训练样本的总数，x_i表示第i个训练样本，a_j(x_i)表示第i个训练样本的中间特征向量的第j个元素的激活值。

在另一个实施例中，替代式子（2），可以通过下述式子（4）来计算惩罚项Ω(W)：

Ω(W)＝||W||₁。（4）

但是容易理解到，上述的式子（2）-（4）仅是示例性的，而实际上，只要惩罚项Ω(W)能够起到使中间特征向量稀疏的作用就可以，而不局限于上述式子。

在一个实施例中，作为隐含层的激活函数，可以使用下述的S形（sigmoid）函数（5）来计算隐含层的输出h_output。

其中，h_input表示隐含层的输入。对于隐含层来说，通过下述式子（6）计算隐含层的输入h_input：

h_input=W i_output （6）

其中，W表示输入层和隐含层之间的参数，i_output表示输入层的输出。

但是容易理解到，不限于使用S函数作为隐含层的激活函数，而可以使用其他适当的激活函数。

在一个实施例中，作为输出层的激活函数，可以使用下述的softmax函数（7）来计算输出层的输出g(z_j)：

其中，z_j表示输出层的第j个输入，j表示自然数，|V|表示语料库的词数量。

可以通过下述式子（8）来计算输出层的输入z

z=U h_output （8）

其中，h_output表示隐含层的输出。U表示隐含层和输出层之间的参数。

但是容易理解到，不限于使用softmax函数作为输出层的激活函数，而可以使用其他适当的激活函数。

以下描述训练神经网络的过程。在以下的描述中以梯度下降法（gradientdescent method）为例来进行描述，而实际上，容易理解到，不限于使用梯度下降法来训练神经网络，而可以使用其他适当的方法。

梯度下降法是一种最优化算法，通常也称为最速下降法。通过梯度下降法来获得神经网络的参数U和W，其中W表示输入层与隐含层之间的参数，U表示隐含层与输出层之间的参数。

第一步，对神经网络的参数W和U进行初始化。

第二步，判断神经网络是否收敛。例如，当输出向量Y与目标向量T的似然函数值不能再增加时，认为神经网络收敛。

如果神经网络还未收敛，则分别针对各个训练样本执行以下步骤a至步骤c，其中语料库中的当前词与下一词构成一个训练样本。

步骤a，通过式子（9），使用前向反馈计算与输入向量X相应的输出向量Y：

Y＝g(U·f(W·X)) （9）

其中，输入向量X表示在将语料库中的每个词当作当前词时所有当前词的原始特征向量的总的表示，输出向量Y表示所有训练样本中的下一词的预测概率向量的总的表示，即所有训练样本中的下一词的预测概率向量构成的矩阵，W·X表示的隐含层的输入，f(W·X)表示隐含层的输出，U·f(W·X)表示输出层的输入。

步骤b，使用后向传播算法计算梯度和，如下：

其中，Hidden_out^T表示隐含层输出值的转置矩阵，“°”表示向量对应元素相乘，·表示矩阵乘法。T表示所有训练样本中的下一词的实际概率向量的总的表示，即所有训练样本中的下一词的实际概率向量构成的矩阵，即向量Y企图接近的目标向量。

步骤c，更新神经网络的参数W和U。

其中，α表示预定系数。

当神经网络收敛时，完成梯度下降法的训练过程。

图5是示出根据本发明实施例的确定语料库中的词的稀疏特征向量的方法500的流程图。

如图5所示，在步骤S502中，可以将词的原始特征向量输入神经网络的输入层，其中，神经网络是参照图3和图4描述的方法训练获得的。

在步骤S504中，根据神经网络的隐含层的中间特征向量来获得词的稀疏特征向量。

在一个实施例中，可以将通过中间特征向量中的小值元素舍为零而获得特征向量作为述稀疏特征向量。例如，这里的小值可以是绝对值小于等于10^-2的值。但是，根据需要，小值也可以是绝对值小于等于10^-1、10^-3、10^-4或其他值的值。

图6是示出通过图5所示的方法获得的当前词的中间特征向量的一个例子的图。

如图6所示，词的中间特征向量为m维向量，其中，第二个元素为0.8，第三个元素为0.9，其余元素均为零，因此该中间特征向量是稀疏特征向量。其中，维度m与隐含层的神经元个数相等。

这样的中间特征向量不仅能够反映词与词之间的关系（例如，两个词是否为近义词或反义词等等）而且其存储开销很小，从而便于直接利用这种中间特征向量作为特征来进行各种处理。

以上描述了根据本发明实施例的对神经网络进行训练的方法。以下将描述根据本发明实施例的对神经网络进行训练的装置。应当理解到，针对方法描述的那些内容也适用于相应的装置。因此，为了简明起见，将省略重复描述。

图7是示出根据本发明实施例的对神经网络进行训练的装置700的配置框图。

待训练的神经网络如之前的图3所示，该神经网络包括输入层、隐含层和输出层。输入层表示语料库中的作为当前词的词的原始特征向量，隐含层表示当前词的中间特征向量，输出层表示语料库中的下一词的预测概率。

对神经网络进行训练的装置700包括第一输入部702和训练部704。

第一输入部702被配置为将语料库中的每个词作为当前词，并将当前词的原始特征向量输入到输入层。

训练部704被配置为训练神经网络使得下一词的预测概率总体上最高并利用惩罚项使得隐含层的中间特征向量的元素稀疏。

在一个实施例中，训练部704被配置为通过下述式子（1）来使得下一词的预测概率总体上最高并利用惩罚项使得隐含层的中间特征向量的元素稀疏：

其中，W表示输入层与隐含层之间的参数，U表示隐含层与输出层之间的参数，i表示当前词，j表示下一词的预测概率的第j个元素，N表示训练样本的总数，其中当前词与下一词构成一个训练样本，|v|表示语料库的词汇数量，t_ij表示下一词是第j个词的实际概率，y_ij表示下一词是第j 个词的预测概率，Ω(W)表示惩罚项，β表示用于惩罚项的预定权重。

在一个实施例中，训练部704被配置为通过下述式子（2）来计算惩罚项Ω(W)：

训练部704被配置为通过下述式子（3）来计算中间特征向量的实际稀疏程度

在另一个实施例中，训练部704被配置为通过下述式子（4）来计算惩罚项Ω(W)：

Ω(W)＝||W||₁ （4）

在一个实施例中，训练部704可以被配置为在训练神经网络时使用梯度下降法来获得神经网络的参数U和W。

在一个实施例中，训练部704还可以被配置为使用S形函数作为隐含层的激活函数。

在一个实施例中，训练部704还可以被配置为使用softmax函数作为输出层的激活函数。

以上描述了根据本发明实施例的确定语料库中的词的稀疏特征向量的方法。以下将描述根据本发明实施例的确定语料库中的词的稀疏特征向量的装置。应当理解到，针对方法描述的那些内容也适用于相应的装置。因此，为了简明起见，将省略重复描述。

图8是示出根据本发明实施例的确定语料库中的词的稀疏特征向量的装置800的配置框图。

如图8所示，装置800包括第二输入部802和稀疏向量获得部804。

第二输入部802被配置为将词的原始特征向量输入神经网络的输入层，其中，神经网络是通过参照图7描述的装置训练获得的。

稀疏向量获得部804被配置为根据神经网络的隐含层的中间特征向量来获得词的稀疏特征向量，稀疏特征向量一个例子的如之前的图6所示。

在一个实施例中，稀疏向量获得部804可以被配置为将通过中间特征向量中的小值元素舍为零而获得特征向量作为述稀疏特征向量。

通过根据本发明的实施例，所获得的中间特征向量不仅能够反映词与词之间的关系（例如，近义词、反义词等等）而且其存储开销很小，从而便于直接利用这种词向量作为特征。换句话说，所获得的中间特征向量既保持了分布式表示方法的优点，又克服了其缺点。

以上结合具体实施例描述了本发明的基本原理，但是，需要指出的是，对本领域的普通技术人员而言，能够理解本发明的方法和装置的全部或者任何步骤或者部件，可以在任何计算装置（包括处理器、存储介质等）或者计算装置的网络中，以硬件、固件、软件或者它们的组合加以实现，这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。

因此，本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。计算装置可以是公知的通用装置。因此，本发明的目的也可以仅仅通过提供包含实现方法或者装置的程序代码的程序产品来实现。也就是说，这样的程序产品也构成本发明，并且存储有这样的程序产品的存储介质也构成本发明。显然，存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。

在通过软件和/或固件实现本发明的实施例的情况下，从存储介质或网络向具有专用硬件结构的计算机，例如图9所示的通用计算机900安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等等。

在图9中，中央处理单元(CPU)901根据只读存储器(ROM)902中存储的程序或从存储部分908加载到随机存取存储器(RAM)903的程序执行各种处理。在RAM903中，也根据需要存储当CPU901执行各种处理等等时所需的数据。CPU901、ROM902和RAM903经由总线904彼此链路。输入/输出接口905也链路到总线904。

下述部件链路到输入/输出接口905：输入部分906（包括键盘、鼠标等等）、输出部分907（包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等）、存储部分908（包括硬盘等）、通信部分909（包括网络接口卡比如LAN卡、调制解调器等）。通信部分909经由网络比如因特网执行通信处理。根据需要，驱动器910也可链路到输入/输出接口905。可拆卸介质911比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器910上，使得从中读出的计算机程序根据需要被安装到存储部分908中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质911安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图9所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质911。可拆卸介质911的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘（包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM902、存储部分908中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

本发明还提出一种存储有机器可读取的指令代码的程序产品。指令代码由机器读取并执行时，可执行上述根据本发明实施例的方法。

相应地，用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等。

本领域的普通技术人员应理解，在此所例举的是示例性的，本发明并不局限于此。

在本说明书中，“第一”、“第二”以及“第N个”等表述是为了将所描述的特征在文字上区分开，以清楚地描述本发明。因此，不应将其视为具有任何限定性的含义。

作为一个示例，上述方法的各个步骤以及上述设备的各个组成模块和/或单元可以实施为软件、固件、硬件或其组合，并作为相应设备中的一部分。上述装置中各个组成模块、单元通过软件、固件、硬件或其组合的方式进行配置时可使用的具体手段或方式为本领域技术人员所熟知，在此不再赘述。

作为一个示例，在通过软件或固件实现的情况下，可以从存储介质或网络向具有专用硬件结构的计算机（例如图9所示的通用计算机900）安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等。

在上面对本发明具体实施例的描述中，针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其他实施方式中使用，与其他实施方式中的特征相组合，或替代其他实施方式中的特征。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其他特征、要素、步骤或组件的存在或附加。

此外，本发明的方法不限于按照说明书中描述的时间顺序来执行，也可以按照其他的时间顺序地、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。

本发明及其优点，但是应当理解在不超出由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且，本发明的范围不仅限于说明书所描述的过程、设备、手段、方法和步骤的具体实施例。本领域内的普通技术人员从本发明的公开内容将容易理解，根据本发明可以使用执行与在此的相应实施例基本相同的功能或者获得与其基本相同的结果的、现有和将来要被开发的过程、设备、手段、方法或者步骤。因此，所附的权利要求旨在在它们的范围内包括这样的过程、设备、手段、方法或者步骤。

基于以上的说明，可知公开至少公开了以下技术方案：

方案1.一种对神经网络进行训练的方法，其中，所述神经网络包括输入层、隐含层和输出层，所述输入层表示语料库中的作为当前词的词的原始特征向量，所述隐含层表示所述当前词的中间特征向量，所述输出层表示所述语料库中的下一词的预测概率，所述方法包括：

将所述语料库中的每个词作为所述当前词，并将所述当前词的原始特征向量输入到所述输入层；以及

训练所述神经网络使得所述下一词的预测概率总体上最高并利用惩罚项使得所述隐含层的中间特征向量的元素稀疏。

方案2.根据方案1所述的方法，其中，所述训练所述神经网络的步骤包括通过下述式子来使得所述下一词的预测概率总体上最高并利用惩罚项使得所述隐含层的中间特征向量的元素稀疏：

其中，W表示所述输入层与所述隐含层之间的参数，U表示所述隐含层与所述输出层之间的参数，i表示所述当前词，j表示下一词的预测概率的第j个元素，N表示训练样本的总数，其中所述当前词与所述下一词构成一个训练样本，|v|表示所述语料库的词汇数量，t_ij表示所述下一词是第j个词的实际概率，y_ij表示所述下一词是第j个词的预测概率，Ω(W)表示所述惩罚项，β表示用于所述惩罚项的预定权重。

方案3.根据方案2所述的方法，通过下述式子来计算所述惩罚项Ω(W)：

其中，ρ表示所述中间特征向量的期望稀疏程度，j表示所述中间特征向量的第j个维度，K表示所述中间特征向量的维度，表示所述中间特征向量的实际稀疏程度，KL表示聚合交叉熵函数。

方案4.根据方案3所述的方法，其中，通过下述式子来计算所述中间特征向量的实际稀疏程度

其中，N表示训练样本的总数，x_i表示第i个训练样本，a_j(x_i)表示所述第i个训练样本的中间特征向量的第j个元素的激活值。

方案5.根据方案2所述的方法，通过下述式子来计算所述惩罚项Ω(W)：

Ω(W)＝||W||₁。

方案6.根据方案2所述的方法，其中，在训练所述神经网络时使用梯度下降法来获得所述神经网络的参数U和W。

方案7.根据方案1所述的方法，其中，使用S形函数作为所述隐含层的激活函数。

方案8.根据方案1所述的方法，其中，使用softmax函数作为所述输出层的激活函数。

方案9.一种确定语料库中的词的稀疏特征向量的方法，包括：

将所述词的原始特征向量输入神经网络的输入层，其中，所述神经网络是通过方案1所述的方法训练获得的；以及

根据所述神经网络的隐含层的中间特征向量来获得所述词的稀疏特征向量。

方案10.根据方案9所述的方法，其中，所述根据所述神经网络的隐含层的中间特征向量来获得所述词的稀疏特征向量的步骤包括：

将通过所述中间特征向量中的小值元素舍为零而获得特征向量作为述稀疏特征向量。

方案11.一种对神经网络进行训练的装置，其中，所述神经网络包括输入层、隐含层和输出层，所述输入层表示语料库中的作为当前词的词的原始特征向量，所述隐含层表示所述当前词的中间特征向量，所述输出层表示所述语料库中的下一词的预测概率，所述装置包括：

第一输入部，被配置为将所述语料库中的每个词作为所述当前词，并将所述当前词的原始特征向量输入到所述输入层；以及

训练部，被配置为训练所述神经网络使得所述下一词的预测概率总体上最高并利用惩罚项使得所述隐含层的中间特征向量的元素稀疏。

方案12.根据方案11所述的装置，其中，所述训练部被配置为通过下述式子来使得所述下一词的预测概率总体上最高并利用惩罚项使得所述隐含层的中间特征向量的元素稀疏：

方案13.根据方案12所述的装置，所述训练部被配置为通过下述式子来计算所述惩罚项Ω(W)：

方案14.根据方案13所述的装置，其中，所述训练部被配置为通过下述式子来计算所述中间特征向量的实际稀疏程度

方案15.根据方案12所述的装置，所述训练部被配置为通过下述式子来计算所述惩罚项Ω(W)：

Ω(W)＝||W||₁。

方案16.根据方案12所述的装置，其中，所述训练部被配置为在训练所述神经网络时使用梯度下降法来获得所述神经网络的参数U和W。

方案17.根据方案11所述的装置，其中，所述训练部还被配置为使用S形函数作为所述隐含层的激活函数。

方案18.根据方案11所述的装置，其中，所述训练部还被配置为使用softmax函数作为所述输出层的激活函数。

Claims

1.一种对神经网络进行训练的方法，其中，所述神经网络包括输入层、隐含层和输出层，所述输入层表示语料库中的作为当前词的词的原始特征向量，所述隐含层表示所述当前词的中间特征向量，所述输出层表示所述语料库中的下一词的预测概率，所述方法包括：

训练所述神经网络使得所述下一词的预测概率总体上最高并利用惩罚项使得所述隐含层的中间特征向量的元素稀疏，

其中，所述训练所述神经网络的步骤包括通过下述式子来使得所述下一词的预测概率总体上最高并利用惩罚项使得所述隐含层的中间特征向量的元素稀疏：

2.根据权利要求1所述的方法，通过下述式子来计算所述惩罚项Ω(W)：

3.根据权利要求2所述的方法，其中，通过下述式子来计算所述中间特征向量的实际稀疏程度

4.根据权利要求1所述的方法，通过下述式子来计算所述惩罚项Ω(W)：

Ω(W)＝||W||₁。

5.根据权利要求1所述的方法，其中，在训练所述神经网络时使用梯度下降法来获得所述神经网络的参数U和W。

6.根据权利要求1所述的方法，其中，使用S形函数作为所述隐含层的激活函数。

7.根据权利要求1所述的方法，其中，使用softmax函数作为所述输出层的激活函数。

8.一种确定语料库中的词的稀疏特征向量的方法，包括：

将所述词的原始特征向量输入神经网络的输入层，其中，所述神经网络是通过权利要求1所述的方法训练获得的；

根据所述神经网络的隐含层的中间特征向量来获得所述词的稀疏特征向量；以及

将通过所述中间特征向量中的小值元素舍为零而获得特征向量作为所述稀疏特征向量。

9.一种对神经网络进行训练的装置，其中，所述神经网络包括输入层、隐含层和输出层，所述输入层表示语料库中的作为当前词的词的原始特征向量，所述隐含层表示所述当前词的中间特征向量，所述输出层表示所述语料库中的下一词的预测概率，所述装置包括：

训练部，被配置为训练所述神经网络使得所述下一词的预测概率总体上最高并利用惩罚项使得所述隐含层的中间特征向量的元素稀疏，

其中，所述训练部进一步被配置为通过下述式子来使得所述下一词的预测概率总体上最高并利用惩罚项使得所述隐含层的中间特征向量的元素稀疏：