CN104376842A

CN104376842A - 神经网络语言模型的训练方法、装置以及语音识别方法

Info

Publication number: CN104376842A
Application number: CN201310349690.7A
Authority: CN
Inventors: 刘加; 史永哲; 张卫强; 何亮; 王力劭; 王燕强
Original assignee: SHENZHEN VCYBER TECHNOLOGY Co Ltd; Tsinghua University
Current assignee: SHENZHEN VCYBER TECHNOLOGY Co Ltd; Tsinghua University
Priority date: 2013-08-12
Filing date: 2013-08-12
Publication date: 2015-02-25

Abstract

本发明公开了一种神经网络语言模型的训练方法、装置以及语音识别方法，涉及语音识别技术。为解决现有技术在降低神经网络语言模型计算复杂度时，神经网络语言模型识别正确率降低的问题。提供的技术方案包括：在对神经网络语言模型的参数进行训练的过程中，采用输出层的归一化因子对目标代价函数进行修正，获取修正后的目标代价函数；根据修正后的目标代价函数对神经网络语言模型的参数进行更新，获取神经网络语言模型训练后的目标参数，其中，目标参数使得训练后的神经网络语言模型中归一化因子为常数。该方案可以应用在神经网络语音识别过程中。

Description

神经网络语言模型的训练方法、装置以及语音识别方法

技术领域

本发明涉及语音识别技术，尤其涉及一种神经网络语言模型的训练方法、装置以及语音识别方法。

背景技术

语音识别是指使用计算机将一段语音信号转换成对应文字的过程,语音识别的结果依赖于在语音识别中使用的语言模型，其中，语言模型是对序列建模，在给定历史序列的情况下准确地预测下一个词，或者给定带有错误的句子候选中，挑选出最符合人类语言的候选。理想的语言模型能够保证语音识别系统输出合理的识别假设。

在神经网络语言模型中，每一个词都被映射成为高维矢量，语法和语义等相近的词在高维空间具有比较好的聚集性。神经网络语言模型在语音识别、机器翻译等领域中已经取得非常好的效果。

神经网络语言模型最大的缺点是计算复杂度过高,该模型的计算负担主要来源于输出层。对于神经网络语言模型，给定历史上文每进行一次分数预测，都需要在输出层经过softmax函数归一化成为概率，这一过程使得神经网络语言模型计算复杂度高，从而直接限制其广泛应用。

现有技术通常采用词语类聚或者树状结构等方法，根据人为经验对词典进行结构化处理，以减小神经网络语言模型输出层的计算复杂度。然而，由于引入了人为因素，现有技术采用的方法会对神经网络语言模型的性能造成影响，使得语音识别质量（识别率）降低。

发明内容

本发明的实施例提供一种神经网络语言模型的训练方法、装置以及语音识别方法，能够在保证语音识别质量的前提下，提高语音识别速度。

为达到上述目的，本发明的实施例采用如下技术方案：

一种神经网络语言模型的训练方法，包括：对待训练的神经网络语言模型的参数进行初始化，获取初始化后的参数；根据给定的训练文本句子和所述初始化后的参数，获取输出层的状态矢量；根据所述输出层的状态矢量和初始化后的参数，获取输出层的归一化因子；根据所述归一化因子确定所述训练文本句子中待识别词语的预测概率；采用所述归一化因子对目标代价函数进行修正，获取修正后的目标代价函数，其中，所述目标代价函数根据所述预测概率获得；根据所述修正后的目标代价函数对所述初始化后的参数进行更新，获取所述待训练的神经网络语言模型训练后的目标参数，其中，目标参数使得训练后的神经网络语言模型中归一化因子为常数。

一种神经网络语言模型的训练装置，包括：

初始化模块，对待训练的神经网络语言模型的参数进行初始化，获取初始化后的参数；

第一获取模块，用于根据给定的训练文本句子和所述初始化模块获取的初始化后的参数，获取输出层的状态矢量；

第二获取模块，根据所述第一获取模块获取的输出层的状态矢量和初始化模块获取的参数，获取输出层的归一化因子；

第三获取模块，用于根据所述第二获取模块获取的归一化因子确定所述训练文本句子中待识别词语的预测概率；

修正模块，用于根据所述第三获取模块确定的预测概率获取目标代价函数，采用所述第二获取模块获取的归一化因子对目标代价函数进行修正，获取修正后的目标代价函数；

更新模块，用于根据所述修正模块修正后的目标代价函数对所述初始化模块获取的参数进行更新，获取所述待训练的神经网络语言模型训练后的目标参数，其中，目标参数使得训练后的神经网络语言模型中归一化因子为常数。

一种语音识别方法，包括：采用声学模型进行声学观测匹配的步骤，以及采用神经网络语言模型进行约束搜索空间的步骤；其中，所述神经网络语言模型为采用本发明提供的神经网络语言模型的训练方法获取的语言模型。

本发明实施例提供的神经网络语言模型的训练方法、装置以及语音识别方法，采用归一化因子对目标代价函数进行修正，根据修正后的目标代价函数训练神经网络语言模型，获得目标参数，该目标参数能够使训练后的神经网络语言模型中归一化因子为常数，从而降低了神经网络语言模型计算归一化因子的复杂度，提高了神经网络语言模型的计算速度，进而提高了采用该语言模型进行语音识别的速度，相较于现有技术提供的技术方案，模型的计算复杂度更低，并且，由于本发明实施例采用归一化因子对目标代价函数进行修正，解决了现有技术通过人为经验对词典进行结构化处理，造成语音识别质量降低的问题，经过本发明实施例提供的神经网络语言模型的训练方法、装置训练获得的语言模型，与现有的神经网络语言模型的性能基本相同，在保障原有语言模型性能的基础上，降低了计算复杂度，提高了计算速度，进而提高了识别速率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的神经网络语言模型的训练方法流程图；

图2为现有技术中前馈神经网络语言模型示意图；

图3为现有技术中递归神经网络语言模型示意图；

图4为图1所示的本发明实施例提供的神经网络语言模型的训练方法中步骤102的流程图；

图5为图1所示的本发明实施例提供的神经网络语言模型的训练方法中步骤106的流程图；

图6为采用本发明实施例提供的神经网络语言模型的训练方法获得的神经网络语言模型的性能对照图；

图7为本发明实施例提供的神经网络语言模型的训练装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

为解决现有技术在降低神经网络语言模型计算复杂度时，神经网络语言模型识别正确率降低的问题，本发明实施例提供一种神经网络语言模型的训练方法、装置以及语音识别方法。

如图1所示，本发明实施例提供一种神经网络语言模型的训练方法，包括：

步骤101，对待训练的神经网络语言模型的参数进行初始化，获取初始化后的参数。

目前，神经网络语言模型主要包括两种：一种是，前馈神经网络语言模型，如图2所示；另一种是，递归神经网络语言模型，如图3所示。

在本实施例中，当待训练的神经网络语言模型为前馈神经网络语言模型时，该语言模型的参数包括:投影矩阵E、输入矩阵W_{ih_k}以及预测矩阵W_ho，初始化后的参数为：E∈R^D×V、W_{ih_k}∈R^H×D以及W_ho巨R^V×H，其中V为字典大小，D为投影层节点数，H为隐含层节点数。

当待训练的神经网络语言模型为递归神经网络语言模型时，该语言模型的参数包括:输入矩阵W_ih、递归矩阵W_hh以及预测矩阵W_ho，初始化后的参数为：W_ih∈R^H×V、W_hh∈R^H×H以及W_ho∈R^V×H，其中，，V为字典大小，D为投影层节点数，H为隐含层节点数。

步骤102，根据给定的训练文本句子和步骤101获取的初始化后的参数，获取输出层的状态矢量。

在本实施例中，训练文本句子，其中，w_i是训练文本句子的第i个词，n是训练文本句子的长度。词w_i在字典中的索引为q(w_i)＝j∈[1，V]。

进一步地，如图4所示，步骤102具体可以包括：

步骤1021，将训练文本句子中的每一个词w_i转换成对应的矢量v_i＝[0，0，...1，0，...]^T∈R^V，其中，只有索引为q(w_i)的位置为1，其余置0。

步骤1022，根据步骤101获取的初始化后的参数，以及步骤1021获取的词w_i对应的矢量v_i，确定隐含层状态矢量。

具体地，当神经网络语言模型为前馈神经网络语言模型时，通过如下公式（1）确定隐含层状态矢量：

h_{t} = f (Σ_{k = 1}^{N - 1} W_{ih_k} {Ev}_{t - k}) - - - (1)

其中，f(x)为非线性函数，或者 N为前馈神经网络语言模型阶数。

具体地，当神经网络语言模型为递归神经网络语言模型时，通过如下公式（2）确定隐含层状态矢量：

h_t＝f(W_ihv_t-1+W_hhh_t-1) (2)

其中，f(x)为非线性函数，或者x＝W_ihv_t-1+W_hhh_t-1。

步骤1023，根据步骤1022获取的隐含层状态矢量，通过如下公式（3）确定输出层的状态矢量：

o_t＝W_hoh_t (3)

其中，当神经网络语言模型为前馈神经网络语言模型时，h_t根据公式(1)确定；当神经网络语言模型为递归神经网络语言模型时，h_t根据公式（2）确定。

步骤103，根据步骤102获取的输出层的状态矢量和步骤101获取的初始化后的参数，获取输出层的归一化因子。

在本实施例中，初始化后的参数W_ho＝[θ₁，θ₂，...θ_i...，θ_V]^T∈R^V×H，其中θ_i∈R^H是隐含层到输出层的每一个结点的连接权重。

具体地，步骤103可以通过如下公式（4）获取输出层的归一化因子：

z_{t} = Σ_{i = 1}^{V} \exp ({θ_{i}}^{T} h_{t}) - - - (4)

步骤104，根据步骤103获取的归一化因子确定训练文本句子中待识别词语的预测概率。

具体地，步骤104可以通过如下公式（5）确定训练文本句子中待识别词语的预测概率：

P (q (w_{t}) = j | h_{t}) = \frac{1}{z_{t}} \exp ({θ_{j}}^{T} h_{t}) - - - (5)

步骤105，采用步骤103确定的归一化因子对目标代价函数进行修正，获取修正后的目标代价函数，其中，目标代价函数根据步骤104确定的预测概率获得。

在本实施例中，可以通过如下公式（6）获取修正后的目标代价函数：

\min_{Θ} \tilde{J} (Θ) = J (Θ) + \frac{η}{2} \cdot \frac{1}{| T |} Σ_{t = 1}^{| T |} {(\log (z_{t}))}^{2} - - - (6)

其中，为修正后的目标代价函数，Θ为待训练的神经网络语言模型的参数集合，具体地，当待训练的神经网络语言模型为前馈神经网络语言模型时，Θ＝{E，W_{ih_k}，W_ho}，当待训练的神经网络语言模型为递归神经网络语言模型时，Θ＝{W_ih，W_hh，W_hO}；

J(Θ)为目标代价函数，在本实施例中，J(Θ)根据如下公式(7)获得：

J (Θ) = - \frac{1}{| T |} Σ_{t = 1}^{| T |} \log (P (q (w_{t}) = j | h_{t})) - - - (7)

为以归一化因子z_t为参数的修正函数，η为惩罚因子，一般情况下，η可以由人为设定，|T|为总输入个数。

或者，可以通过如下公式（8）获取修正后的目标代价函数：

\min_{Θ} \tilde{J} (Θ) = J (Θ) + \frac{η}{2} \cdot \frac{1}{| T |} Σ_{t = 1}^{| T |} {(v_{t} - \overset{&OverBar;}{v})}^{2} - - - (8)

其中，为修正后的目标代价函数，Θ为待训练的神经网络语言模型的参数集合，具体地，对于前馈神经网络语言模型，Θ＝{E，W_{ih_k}，W_ho}；

J(Θ)为目标代价函数，在本实施例中，J(Θ)根据公式(7)获得；

为以归一化因子z_t为参数的修正函数，v_t＝log(z_t)，η为惩罚因子，一般情况下，η可以由人为设定，|T|为总输入个数。

步骤106，根据步骤105获取的修正后的目标代价函数对步骤101获取的初始化后的参数进行更新，获取待训练的神经网络语言模型训练后的目标参数，其中，目标参数使得训练后的神经网络语言模型中归一化因子为常数。

具体地，如图5所示，步骤106具体可以包括：

步骤1061，获取步骤105得到的修正后的目标代价函数对应的梯度信号。

在本实施例中，梯度信号δ_t＝[δ_t1，δ_t2，...δ_tk...，δ_tV]^T∈R^V，其中，δ_tk可以通过如下公式（9）获取：

其中，δ_tk为t时刻输出层第k个节点上的梯度信号，I_(·)为当且仅当右下角的条件成立时，I_(·)函数返回1，否则为0。

步骤1062，根据步骤1061获取的修正后的目标代价函数对应的梯度信号，确定神经网络语言模型的参数的梯度。

在本实施例中，神经网络语言模型的参数的梯度为ΔΘ。具体地，当神经网络语言模型为前馈神经网络语言模型时，ΔΘ＝{ΔW_ho，ΔW_{ih_k}，ΔE}；当神经网络语言模型为递归神经网络语言模型时，ΔΘ＝{ΔW_ho，ΔW_ih，ΔW_hh}。

步骤1063，根据步骤1062获取的神经网络语言模型的参数的梯度，对步骤101获取的初始化后的参数进行更新。

具体地，可以根据如下公式（10）获取更新后的参数：

Θ_t+1＝Θ_t-γ·ΔΘ (10)

其中，Θ_t+1为下一时刻更新后的参数，Θ_t为当前时刻的参数，当t＝１时，Θ₁为初始化后的参数，γ为更新参数的步长，可由人为设定。

需要说明的是，可以预先设定神经网络语言模型的参数的更新次数阈值，如20次，当更新次数到达该预先设定的阈值时，停止更新，并得到最终的目标参数；或者，也可以预先设定相邻两次目标代价函数的相对变化量阈值，如小于1.0×10^-5，当相邻两次目标代价函数的相对变化量小于该阈值时，停止更新，并得到最终的目标参数。当然，在实际的使用过程中还可以通过其他方式确定神经网络语言模型的参数更新停止时机，此处不对每种情况进行一一赘述。

在本实施例中，当通过步骤106进行更新后获得的目标参数可以使神经网络语言模型的归一化因子为常数，即z_t＝C，从而使得待识别词语的预测概率P(q(w_t)＝j|h_t)≈exp(θ_j ^Th_t)/C，进一步地，z_t＝1，P(q(w_t)＝j|h_t)≈exp(θ_j ^Th_t)，从而减小了神经网络语言模型的计算复杂度。

需要说明的是，在以上图1-5所示的本发明实施例提供的神经网络语言模型的训练方法中，为了方便说明，省略了神经网络语言模型参数中的隐含层偏置b_h和输出层偏置b_o。在实际的使用过程中，可以将隐含层偏置b_h和输出层偏置b_o作为神经网络语言模型参数的一部分考虑进去，使得训练后获得的神经网络语言模型性能更优。

本发明实施例提供的神经网络语言模型的训练方法，采用归一化因子对目标代价函数进行修正，根据修正后的目标代价函数训练神经网络语言模型，获得目标参数，该目标参数能够使训练后的神经网络语言模型中归一化因子为常数，从而降低了神经网络语言模型计算归一化因子的复杂度，提高了神经网络语言模型的计算速度，相较于现有技术提供的技术方案，模型的计算复杂度更低，进而提高了采用该语言模型进行语音识别的速度，并且，由于本发明实施例采用归一化因子对目标代价函数进行修正，解决了现有技术通过人为经验对词典进行结构化处理，造成语音识别质量降低的问题。如图6所示，当η＝0时，即为现有技术的神经网络语言模型性能曲线图，当η≠0时，即为通过本发明实施例提供的神经网络语言模型的训练方法获得的语言模型性能曲线图，通过图6可以看出，采用本发明实施例提供的方法获得的语言模型性能基本与现有技术的语言模型性能相同，并且，本发明提供的训练方法在保障原有语言模型性能的基础上，降低了计算复杂度，提高了计算速度，进而提高了识别速率。

如图7所示，本发明实施例还提供一种神经网络语言模型的训练装置，包括：

初始化模块701，对待训练的神经网络语言模型的参数进行初始化，获取初始化后的参数；

第一获取模块702，用于根据给定的训练文本句子和初始化模块701获取的初始化后的参数，获取输出层的状态矢量；

第二获取模块703，根据第一获取模块702获取的输出层的状态矢量和初始化模块701获取的参数，获取输出层的归一化因子；

第三获取模块704，用于根据第二获取模块703获取的归一化因子确定训练文本句子中待识别词语的预测概率；

修正模块705，用于根据第三获取模块704确定的预测概率获取目标代价函数，采用第二获取模块703获取的归一化因子对目标代价函数进行修正，获取修正后的目标代价函数；

更新模块706，用于根据修正模块705修正后的目标代价函数对初始化模块701获取的参数进行更新，获取待训练的神经网络语言模型训练后的目标参数，其中，目标参数使得训练后的神经网络语言模型中归一化因子为常数。

本发明实施例提供的神经网络语言模型的训练装置的具体实现过程可以参见如图1-5所示的本发明实施例提供的神经网络语言模型的训练方法所述，此处不再赘述。

本发明实施例提供的神经网络语言模型的训练装置，采用归一化因子对目标代价函数进行修正，根据修正后的目标代价函数训练神经网络语言模型，获得目标参数，该目标参数能够使训练后的神经网络语言模型中归一化因子为常数，从而降低了神经网络语言模型计算归一化因子的复杂度，提高了神经网络语言模型的计算速度，相较于现有技术提供的技术方案，模型的计算复杂度更低，进而提高了采用该语言模型进行语音识别的速度，并且，由于本发明实施例采用归一化因子对目标代价函数进行修正，解决了现有技术通过人为经验对词典进行结构化处理，造成语音识别质量降低的问题。如图6所示，当η＝0时，即为现有技术的神经网络语言模型性能曲线图，当η≠0时，即为通过本发明实施例提供的神经网络语言模型的训练装置获得的语言模型性能曲线图，通过图6可以看出，采用本发明实施例提供的装置获得的语言模型性能基本与现有技术的语言模型性能相同，并且，本发明提供的训练装置在保障原有语言模型性能的基础上，降低了计算复杂度，提高了计算速度，进而提高了识别速率。

本发明实施例还提供一种语音识别方法，包括：采用声学模型进行声学观测匹配的步骤，以及采用神经网络语言模型进行约束搜索空间的步骤；其中，所述神经网络语言模型为采用本发明提供的神经网络语言模型的训练方法获取的语言模型。

本发明实施例提供的语音识别方法，采用归一化因子对目标代价函数进行修正，根据修正后的目标代价函数训练神经网络语言模型，获得目标参数，该目标参数能够使训练后的神经网络语言模型中归一化因子为常数，从而降低了神经网络语言模型计算归一化因子的复杂度，提高了神经网络语言模型的计算速度，相较于现有技术提供的技术方案，模型的计算复杂度更低，进而提高了采用该语言模型进行语音识别的速度，并且，由于本发明实施例采用归一化因子对目标代价函数进行修正，解决了现有技术通过人为经验对词典进行结构化处理，造成语音识别质量降低的问题。如图6所示，当η＝0时，即为现有技术的神经网络语言模型性能曲线图，当η≠0时，即为通过本发明实施例提供的神经网络语言模型的训练装置获得的语言模型性能曲线图，通过图6可以看出，采用本发明实施例提供的装置获得的语言模型性能基本与现有技术的语言模型性能相同，并且，本发明提供的语音识别方法在保障原有语言模型性能的基础上，降低了计算复杂度，提高了计算速度，进而提高了识别速率。

本发明实施例提供的神经网络语言模型的训练方法、装置以及语音识别方法，可以应用在基于神经网络语言模型的语音识别过程中。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘，硬盘或光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例的方法。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种神经网络语言模型的训练方法，其特征在于，包括：

对待训练的神经网络语言模型的参数进行初始化，获取初始化后的参数；

根据给定的训练文本句子和所述初始化后的参数，获取输出层的状态矢量；

根据所述输出层的状态矢量和初始化后的参数，获取输出层的归一化因子；

根据所述归一化因子确定所述训练文本句子中待识别词语的预测概率；

采用所述归一化因子对目标代价函数进行修正，获取修正后的目标代价函数，其中，所述目标代价函数根据所述预测概率获得；

根据所述修正后的目标代价函数对所述初始化后的参数进行更新，获取所述待训练的神经网络语言模型训练后的目标参数，其中，目标参数使得训练后的神经网络语言模型中归一化因子为常数。

2.根据权利要求1所述的神经网络语言模型的训练方法，其特征在于，采用所述归一化因子以及如下公式对目标代价函数进行修正，获取修正后的目标代价函数：

\min_{Θ} \tilde{J} (Θ) = J (Θ) + \frac{η}{2} \cdot \frac{1}{| T |} {Σ_{t = 1}^{| T |} (\log (z_{t}))}^{2}

其中，为修正后的目标代价函数，Θ为待训练的神经网络语言模型的参数集合；J(Θ)为目标代价函数；为以归一化因子为参数的修正函数，z_t为归一化因子，η为惩罚因子，|T|为总输入个数。

3.根据权利要求1所述的神经网络语言模型的训练方法，其特征在于，采用所述归一化因子以及如下公式对目标代价函数进行修正，获取修正后的目标代价函数：

\min_{Θ} \tilde{J} (Θ) = J (Θ) + \frac{η}{2} \cdot \frac{1}{| T |} Σ_{t = 1}^{| T |} {(v_{t} - \overset{&OverBar;}{v})}^{2}

其中，为修正后的目标代价函数，Θ为待训练的神经网络语言模型的参数集合；J(Θ)为目标代价函数；为以归一化因子为参数的修正函数，v_t＝log(z_t)，，z_t为归一化因子，η为惩罚因子，|T|为总输入个数。

4.根据权利要求1-3中任意一项所述的神经网络语言模型的训练方法，其特征在于，所述目标参数使得训练后的神经网络语言模型中归一化因子为1。

5.一种神经网络语言模型的训练装置，其特征在于，包括：

6.一种语音识别方法，其特征在于，包括：采用声学模型进行声学观测匹配的步骤，以及采用神经网络语言模型进行约束搜索空间的步骤；其中，所述神经网络语言模型为采用权利要求1-3中任意一项所述的神经网络语言模型的训练方法获取的语言模型。