CN105279552A

CN105279552A - 一种基于字的神经网络的训练方法和装置

Info

Publication number: CN105279552A
Application number: CN201410273269.7A
Authority: CN
Inventors: 王东; 游世学; 刘荣; 乔亚飞
Original assignee: BEIJING ZHONGKE HUILIAN INFORMATION TECHNOLOGY Co Ltd; Tsinghua University
Current assignee: BEIJING ZHONGKE HUILIAN INFORMATION TECHNOLOGY Co Ltd; Tsinghua University
Priority date: 2014-06-18
Filing date: 2014-06-18
Publication date: 2016-01-27
Anticipated expiration: 2034-06-18
Also published as: CN105279552B

Abstract

本申请提供了一种基于字的神经网络的训练方法和装置，包括：将每个训练语句按字获取每个字的字向量；将所述字向量作为第一神经网络的参数输入到所述第一神经网络中进行预训练，获得预训练结果，其中，所述结果包括字向量的上文特征向量和字向量下文的特征向量；将所述字向量的上文特征向量和字向量下文的特征向量作为第二神经网络的参数输入到所述第二神经网络中，训练所述第二神经网络。因此本申请解决了基于词的神经网络语言模型中训练效率低的问题。

Description

一种基于字的神经网络的训练方法和装置

技术领域

本申请涉及自然语言处理领域，特别是涉及一种基于字的神经网络的训练方法和装置。

背景技术

在自然语言处理和语音识别等领域，语言模型用于描述语言内部的词语搭配关系。一个高质量的语言模型对连续语音识别和机器翻译等都具有重要意义。

当前主流的语言模型是基于概率的统计语言模型(n-gram)，该统计语言模型显著缺陷是：对于新词或者低频词难以得到有效的概率统计。基于此人们发明了各种平滑算法，如discount,back-off,interpolation等。上述方法在一定程度上改善了n-gram在低频词上的性能，但是由于统计语言模型本身的缺陷，始终无法从根本上解决。

为了解决统计语言模型中存在的问题，提出了基于词的神经网络语言模型统计低频词的概率。目前基于词的神经网络语言模型存在以下缺陷：

1、现有的汉字可以组成数以万计的词表，基于词的神经网络模型需要对组成的数以万计的词表进行训练，导致神经网络语言模型训练时间长，训练效率低。当词表增大到超过10万以上时，训练时间变得难以接受。

2、中文是动态语言，新词不断涌现。目前基于词的神经网络语言模型无法处理这些新词，同时不断增加的新词使得神经网络语言模型的训练越来越复杂，即使要重新训练神经网络语言模型也极为困难。

因此，基于词的神经网络语言模型中存在训练时间长，进而导致训练效率低的问题。

发明内容

本申请提供一种基于字的神经网络的训练方法和装置，以解决基于词的神经网络语言模型中训练效率低的问题。

为了解决上述问题，本申请公开了一种基于字的神经网络的训练方法，包括：将每个训练语句按字获取每个字的字向量；

将所述字向量作为第一神经网络的参数输入到所述第一神经网络中进行预训练，获得预训练结果，其中，所述结果包括字向量的上文特征向量和字向量下文的特征向量；

将所述字向量的上文特征向量和字向量下文的特征向量作为第二神经网络的参数输入到所述第二神经网络中，训练所述第二神经网络。

优选地，所述第一神经网络包括输入层、隐藏层和输出层。

优选地，所述将所述字向量作为第一神经网络的参数输入到所述第一神经网络中进行预训练，获得预训练结果的步骤包括：

为训练语句中每个字随机分配字向量；

输入层接收训练语句中每个字随机分配字向量，所述输入层将接收的每个字的字向量投影到映射层，得到投影后的每个字向量；

计算投影后的每个字向量在字的历史子串中出现的概率，将所述概率作为输出层的预训练结果，所述结果包括字向量的上文特征向量和字向量下文的特征向量。

优选地，通过以下公式计算投影后的每个字向量在字的历史子串中出现的概率：

\frac{1}{T} Σ_{t = 1}^{T} \underset{- c \leq j \leq c, j &NotEqual; 0}{Σ} \log p (e_{t + j} | e_{t})

其中，T为训练语句的长度，c为上下文窗长，p(e_t+j|e_t)为字向量在字的历史子串中出现的概率，p(e_t+j|e_t)通过以下公式获得：

p (e_{t + j} | e_{t}) = \frac{\exp (c_{e_{t + j}} c_{e_{t}})}{Σ_{e} \exp (c_{e} c_{e_{t}})}

其中，c_e为训练语句的字向量。

优选地，所述第二神经网络包括输入层、映射层、隐藏层和输出层；

所述第二神经网络的输入层接收第一神经网络的输出层输出的字向量的上文特征向量和字向量下文的特征向量；

所述第二神经网络的所述输入层将接收的字向量的上文特征向量和字向量下文的特征向量进行线性变换投影，将投影后的字向量的上文特征向量和字向量下文的特征向量首尾相接，将拼接后的结果作为所述第二神经网络的映射层的输入；

将映射层的输入进行线性变换和第一非线性激活函数处理后得到所述第二神经网络的隐藏层的输入；

将所述第二神经网络的隐藏层的输入进行线性变换和第二非线性激活函数处理后得到所述第二神经网络的输出层的输出结果，所述输出结果包括字向量在字的历史子串中的概率。

为了解决上述问题，本申请还公开了一种基于字的神经网络的训练装置，包括：获取模块，用于将每个训练语句按字获取每个字的字向量；

预训练模块，用于将所述字向量作为第一神经网络的参数输入到所述第一神经网络中进行预训练，获得预训练结果，其中，所述结果包括字向量的上文特征向量和字向量下文的特征向量；

训练模块，用于将所述字向量的上文特征向量和字向量下文的特征向量作为第二神经网络的参数输入到所述第二神经网络中，训练所述第二神经网络。

优选地，所述第一神经网络包括输入层、隐藏层和输出层。

优选地，所述预训练模块包括：

分配模块，用于为训练语句中每个字随机分配字向量；

投影模块，用于输入层接收训练语句中每个字随机分配字向量，所述输入层将接收的每个字的字向量投影到映射层，得到投影后的每个字向量；

计算模块，用于计算投影后的每个字向量在字的历史子串中出现的概率，将所述概率作为输出层的预训练结果，所述结果包括字向量的上文特征向量和字向量下文的特征向量。

优选地，所述计算模块通过以下公式计算投影后的每个字向量在字的历史子串中出现的概率：

\frac{1}{T} Σ_{t = 1}^{T} \underset{- c \leq j \leq c, j &NotEqual; 0}{Σ} \log p (e_{t + j} | e_{t})

p (e_{t + j} | e_{t}) = \frac{\exp (c_{e_{t + j}} c_{e_{t}})}{Σ_{e} \exp (c_{e} c_{e_{t}})}

其中，c_e为训练语句的字向量。

与现有技术相比，本申请包括以下优点：

首先，本申请将每个训练语句按字获取每个字的字向量，将获取的字向量通过第一神经网络进行预训练，获得预训练结果，其中，预训练结果包括字向量的上文特征向量和字向量下文的特征向量。将所述字向量的上文特征向量和字向量下文的特征向量作为第二神经网络的参数输入，训练第二神经网络。由于汉语中汉字的数量是固定的，常用的汉字数量大约在6千左右，远远小于词语的数量，因此可以降低神经网络的复杂度，提高了语言模型的训练效率。同时，对于不断涌现的新词，可以通过将新词按字拆分成字串，因此无需对出现的新词进行重新训练语言模型，从而提高了语言模型的训练效率。

其次，本申请将获取的每个字向量通过第一神经网络进行预训练，获得了每个字向量在上下文中的特征向量，然后将获得的特征向量在通过第二神经网络进行训练，由于获取的字向量通过第一神经网络和第二神经网络的双重处理，有效降低了汉字多义出现的概率，从而解决了汉字本身具有多义性的问题。

附图说明

图1是本申请实施例一中的一种基于字的神经网络的训练方法的流程图；

图2是本申请实施例二中的一种基于字的神经网络的训练方法的流程图；

图3是本申请中的第一神经网络的示意图；

图4是本申请中的第二神经网络的示意图；

图5是本申请中的第一神经网络和第二神经网络结合的示意图；

图6是本申请实施例三中的一种基于字的神经网络的训练装置的结构框图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

参照图1，示出了本申请实施例一中的一种基于字的神经网络的训练方法，包括：

步骤101：将每个训练语句按字获取每个字的字向量。

例如：训练语句为“电脑手机”，将该训练语句按字识别后的训练语句为：电/脑/手/机/，然后获取每个字的字向量。

步骤102：将所述字向量作为第一神经网络的参数输入到所述第一神经网络中进行预训练，获得预训练结果，其中，所述结果包括字向量的上文特征向量和字向量下文的特征向量。

对字向量进行预处理是为了获得更具有区分性和表达性的字向量。将获取的每个字向量通过第一神经网络进行预训练，获得了每个字向量在上下文中的特征向量，然后将获得的特征向量在通过第二神经网络进行训练，由于获取的字向量通过第一神经网络和第二神经网络的双重处理，从而对字的多义性具有更强的区分能力，有效降低了汉字多义出现的概率。

步骤103：将所述字向量的上文特征向量和字向量下文的特征向量作为第二神经网络的参数输入到所述第二神经网络中，训练所述第二神经网络。

通过本实施例，首先，本申请将每个训练语句按字获取每个字的字向量，将获取的字向量通过第一神经网络进行预训练，获得预训练结果，其中，预训练结果包括字向量的上文特征向量和字向量下文的特征向量。将所述字向量的上文特征向量和字向量下文的特征向量作为第二神经网络的参数输入，训练第二神经网络。由于汉语中汉字的数量是固定的，常用的汉字数量大约在6千左右，远远小于词语的数量，因此可以降低神经网络的复杂度，提高了语言模型的训练效率。同时，对于不断涌现的新词，可以通过将新词按字拆分成字串，因此无需对出现的新词进行重新训练语言模型，从而提高了语言模型的训练效率。

参照图2，示出了本申请实施例二中的一种基于字的神经网络的训练方法。

本实施例中，一种基于字的神经网络的训练方法，包括：

步骤201：将每个训练语句按字获取每个字的字向量。

步骤202：将所述字向量作为第一神经网络的参数输入到所述第一神经网络中进行预训练，获得预训练结果，其中，所述结果包括字向量的上文特征向量和字向量下文的特征向量。

如图3所示为本申请中的第一神经网络的示意图。其中，第一神经网络包括输入层、隐藏层和输出层。输入层和映射层的目的是为了训练字向量。

将所述字向量作为第一神经网络的参数输入到所述第一神经网络中进行预训练，获得预训练结果的步骤包括：

子步骤2021：为训练语句中每个字随机分配字向量。

子步骤2022：输入层接收训练语句中每个字随机分配字向量e(t)，所述输入层将接收的每个字的字向量投影到映射层，得到投影后的每个字向量。

子步骤2023：计算投影后的每个字向量在字的历史子串中出现的概率，将所述概率作为输出层的预训练结果，所述预训练结果为e(t-1)、e(t+1)、e(t-2)和e(t+2)，所述结果包括字向量的上文特征向量和字向量下文的特征向量。

也即，不仅对历史信息进行优化，而且还对未来信息进行优化。

每个字出现的概率依赖于之前出现的所有字，这一子串定义为历史子串。

\frac{1}{T} Σ_{t = 1}^{T} Σ_{- c \leq j \leq c, j &NotEqual; 0} \log p (e_{t + j} | e_{t}) - - - (1)

p (e_{t + j} | e_{t}) = \frac{\exp (c_{e_{t + j}} c_{e_{t}})}{Σ_{e} \exp (c_{e} c_{e_{t}})} - - - (2)

其中，c_e为训练语句的字向量，由第一神经网络中的映射层得到。公式(2)中的∑_e表示对所有汉字进行求和。通过映射层的连接权重对第一神经网络进行优化。

下面通过一个具体的实例来说明第一神经网络进行预训练的过程。

例如：训练语句为“我现在干什么呢”

1.首先初始化字向量：随机的分配每个字的字向量。

我：[0.30.70.30.6.....]

现：[0.60.30.670.45...]

.....

2.训练，通过以下公式计算投影后的每个字向量在字的历史子串中出现的概率。

\frac{1}{T} Σ_{t = 1}^{T} \underset{- c \leq j \leq c, j &NotEqual; 0}{Σ} \log p (e_{t + j} | e_{t})

其中，以“干”为例计算其在训练语句中的上文和下文中出现的概率。

p (e_{t + j} | e_{t}) = \frac{\exp (c_{e_{t + j}} c_{e_{t}})}{Σ_{e} \exp (c_{e} c_{e_{t}})}

P(我|干)＝(exp(c(我)*c(干)))/(exp(c(我)*c(干)+exp(c(我)*c(现)+exp(c(我)*c(在)+exp(c(我)*c(什)+exp(c(我)*c(么)+exp(c(我)*c(呢))。其中，c(我)为“我”的字向量，p(我|干)为从第一神经网络输入“干”来预测“我”出现的概率。

依此类推进行计算训练语句中的每个字在历史子串中出现的概率。

需要说明的是，c的值越大，第一神经网络所刻画的预测信息就越复杂，得到的字向量性能越好，代价是训练时间越长。

步骤203：将所述字向量的上文特征向量和字向量下文的特征向量作为第二神经网络的参数输入到所述第二神经网络中，训练所述第二神经网络。

如图4所示为本申请中的第二神经网络的示意图。其中，第二神经网络包括输入层、映射层、隐藏层和输出层。

所述第二神经网络的输入层接收第一神经网络的输出层输出的字向量的上文特征向量和字向量下文的特征向量。其中，将每个字向量的上下文特征向量e_j表示为一个维度为|V|的向量，其中V为所有汉字集合，|V|表示这个集合的大小，即汉字总数。

所述第二神经网络的所述输入层将接收的字向量的上文特征向量和字向量下文的特征向量e_j对应的|V|维向量，进行一个线性变换投影到一个维度为m的向量c_j，c_j称为e_j的字向量，将投影后的字向量的上文特征向量和字向量下文的特征向量首尾相接，组成一个(n-1)×m的向量b，将拼接后的结果(即图4中的映射层)作为所述第二神经网络的映射层的输入。

将映射层的输入进行线性变换矩阵M和第一非线性激活函数处理后得到所述第二神经网络的隐藏层的输入。其中，第二神经网络的隐藏层的第i个节点记住d_i,则：

d_i＝tanh(∑_jb_jM_i，j)

其中，M_i,j为线性变换矩阵M的第(i,j)个元素，tanh()为第一非线性激活函数。

将所述第二神经网络的隐藏层的输入进行线性变换矩阵R和第二非线性激活函数处理后得到所述第二神经网络的输出层的输出结果，所述输出结果包括字向量在字的历史子串中的概率。其中，第二神经网络的输出层由|V|个节点组成，其中第i个节点的输出值记为o_i(即图4中P(e_j＝1|h_j)…P(e_j＝N|h_j)),则：

o_i＝softmax(∑_jd_jR_ij)

其中R_ij为线性变换矩阵R的第(i,j)个元素，softmax()为第二非线性激活函数。

上述过程中，第一神经网络和第二神经网络的结合如图5所示，可见，将获取的每个字的字向量通过第一神经网络预训练，获得预训练的结果，将预训练的结果通过第二神经网络的处理，获得了每个字向量在其历史信息(字向量的上文)和未来信息(字向量的下文)中出现了概率，由于通过第一神经网络和第二神经网络对训练语句的双重处理有效降低了汉字多义出现的概率，从而实现了对训练语句的精准预测。

基于上述方法实施例的说明，本申请还提供了相应的一种基于字的神经网络的训练装置的实施例，来实现上述方法实施例所述的内容。

本申请将获取的每个字向量通过第一神经网络进行预训练，获得了每个字向量在上下文中的特征向量，然后将获得的特征向量在通过第二神经网络进行训练，由于获取的字向量通过第一神经网络和第二神经网络的双重处理，有效降低了汉字多义出现的概率，从而解决了汉字本身具有多义性的问题。

参见图6，示出了本申请实施例三中的一种基于字的神经网络的训练装置的结构框图，具体可以包括：获取模块，用于将每个训练语句按字获取每个字的字向量。

预训练模块，用于将所述字向量作为第一神经网络的参数输入到所述第一神经网络中进行预训练，获得预训练结果，其中，所述结果包括字向量的上文特征向量和字向量下文的特征向量。

优选地，所述第一神经网络包括输入层、隐藏层和输出层。

优选地，所述预训练模块包括：分配模块，用于为训练语句中每个字随机分配字向量。

投影模块，用于输入层接收训练语句中每个字随机分配字向量，所述输入层将接收的每个字的字向量投影到映射层，得到投影后的每个字向量。

\frac{1}{T} Σ_{t = 1}^{T} \underset{- c \leq j \leq c, j &NotEqual; 0}{Σ} \log p (e_{t + j} | e_{t})

p (e_{t + j} | e_{t}) = \frac{\exp (c_{e_{t + j}} c_{e_{t}})}{Σ_{e} \exp (c_{e} c_{e_{t}})}

其中，c_e为训练语句的字向量。

所述第二神经网络的输入层接收第一神经网络的输出层输出的字向量的上文特征向量和字向量下文的特征向量。

所述第二神经网络的所述输入层将接收的字向量的上文特征向量和字向量下文的特征向量进行线性变换投影，将投影后的字向量的上文特征向量和字向量下文的特征向量首尾相接，将拼接后的结果作为所述第二神经网络的映射层的输入。

将映射层的输入进行线性变换和第一非线性激活函数处理后得到所述第二神经网络的隐藏层的输入。

综上所述，本申请实施例一种字的神经网络的训练装置主要包括以下优点：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

以上对本申请所提供的一种基于字的神经网络的训练方法和装置，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种基于字的神经网络的训练方法，其特征在于，包括：

将每个训练语句按字获取每个字的字向量；

2.根据权利要求1所述的方法，其特征在于，所述第一神经网络包括输入层、隐藏层和输出层。

3.根据权利要求2所述的方法，其特征在于，所述将所述字向量作为第一神经网络的参数输入到所述第一神经网络中进行预训练，获得预训练结果的步骤包括：

为训练语句中每个字随机分配字向量；

4.根据权利要求3所述的方法，其特征在于，通过以下公式计算投影后的每个字向量在字的历史子串中出现的概率：

\frac{1}{T} Σ_{t = 1}^{T} \underset{- c \leq j \leq c, j &NotEqual; 0}{Σ} \log p (e_{t + j} | e_{t})

p (e_{t + j} | e_{t}) = \frac{\exp (c_{e_{t + j}} c_{e_{t}})}{Σ_{e} \exp (c_{e} c_{e_{t}})}

其中，c_e为训练语句的字向量。

5.根据权利要求3所述的方法，其特征在于，所述第二神经网络包括输入层、映射层、隐藏层和输出层；

6.一种基于字的神经网络的训练装置，其特征在于，包括：

获取模块，用于将每个训练语句按字获取每个字的字向量；

7.根据权利要求6所述的装置，其特征在于，所述第一神经网络包括输入层、隐藏层和输出层。

8.根据权利要求7所述的装置，其特征在于，所述预训练模块包括：

分配模块，用于为训练语句中每个字随机分配字向量；

9.根据权利要求8所述的装置，其特征在于，所述计算模块通过以下公式计算投影后的每个字向量在字的历史子串中出现的概率：

\frac{1}{T} Σ_{t = 1}^{T} \underset{- c \leq j \leq c, j &NotEqual; 0}{Σ} \log p (e_{t + j} | e_{t})

p (e_{t + j} | e_{t}) = \frac{\exp (c_{e_{t + j}} c_{e_{t}})}{Σ_{e} \exp (c_{e} c_{e_{t}})}

其中，c_e为训练语句的字向量。

10.根据权利要求8所述的装置，其特征在于，所述第二神经网络包括输入层、映射层、隐藏层和输出层；