CN110070855B

CN110070855B - 一种基于迁移神经网络声学模型的语音识别系统及方法

Info

Publication number: CN110070855B
Application number: CN201810077556.9A
Authority: CN
Inventors: 张鹏远; 刘丹阳; 徐及; 颜永红
Original assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Priority date: 2018-01-23
Filing date: 2018-01-23
Publication date: 2021-07-23
Anticipated expiration: 2038-01-23
Also published as: CN110070855A

Abstract

本发明涉及一种基于迁移神经网络声学模型的语音识别系统及方法，该系统包括：信号处理及特征提取模块、语言模型、解码器和迁移神经网络声学模型；其中迁移神经网络声学模型包括鲁棒神经网络和定向神经网络；本系统通过对鲁棒神经网络模型的模型参数进行固定，同时通过神经网络间的层间横向连接，将鲁棒声学模型的信息传递到目标声学模型中，不仅保留了原鲁棒声学模型的性能，同时还对目标语言做特定的优化。解决了低资源语言的鲁棒声学模型的快速构建的问题，通过利用数据充分的语言的声学模型进行模型参数迁移的方式，来提升目标低资源语言的声学模型性能以及训练的收敛速度。

Description

一种基于迁移神经网络声学模型的语音识别系统及方法

技术领域

本发明涉及语音识别领域，特别涉及一种基于迁移神经网络声学模型的语音识别系统及方法。

背景技术

目前自动语音识别技术已经非常成熟了，在有些语音识别机构的技术研究下，自动语音识别系统的识别精度已经可以达到94.5％，可以说已经可以达到人类的听觉感知能力了。但是这种性能优良的自动语音识别系统仅局限于几个使用广泛的语言，比如英语、法语等。世界上有超过五千种语言被世界各地的人们使用，然而在这五千种语言中只有十种语言被广泛的使用，它们分别是：汉语、英语、俄语、西班牙语、印度语、阿拉伯语、葡萄牙语、孟加拉语、德语和日语。其他的语言，由于使用人数较少，所以很难收集他们的语音数据，相应的语音数据标注工作也相当难实施，因此相应的语音识别任务不得不面对数据稀疏的问题。

自动语音识别任务通常受制于有限的语音数据的规模，因此使用跨语言数据来提高特定的语言的语音识别性能一直是近年来的热门研究领域。由于发音的相似性，不同的语言可能会有相同的声学特性，因此低资源的语言可以共享资源充分的数据集的数据特征或者模型参数。我们可以使用一个鲁棒的声学模型来初始化一个低资源语言的声学模型，来提升目标语言的声学模型性能以及收敛速度。

传统的知识迁移的方式是预训练加再优化的方法，这种方法直接在源语言鲁棒声学模型上用目标语言的输出层替换源语言的输出层，在此基础上用目标语言的数据对模型进行再优化操作。但是这种优化方式由于不可恢复地改变了原鲁棒声学模型的模型参数，所以对于原鲁棒声学模型的应用存在一定的性能损失。

因此，如何在不改变原鲁棒声学模型参数的情况下，对目标语言声学模型能很好的优化，是同行业人员亟待解决的问题。

发明内容

本发明的目的在于，克服现有技术中用目标语言的数据对模型进行再优化，不可恢复改变了原鲁棒声学模型的模型参数，且对原鲁棒声学模型的应用存在一定性能损失的问题，提出一种基于迁移神经网络声学模型的语音识别系统及方法。

为了解决上述技术问题，第一方面，本发明实施例提供一种基于迁移神经网络声学模型的语音识别系统，包括：

信号处理及特征提取模块，用于对待识别的音频信号进行增强，将所述待识别的音频信号从时域转化到频域，并提取声学特征；

声学模型，用于以提取的声学特征为输入，生成声学模型得分；所述声学模型为迁移神经网络声学模型，包括：前端的鲁棒神经网络声学模型和后端的定向神经网络声学模型；所述鲁棒神经网络声学模型作为一个所述定向神经网络声学模型的辅助模型，使用大量源语言数据进行训练；

语言模型，用于估计通过重训练语料学习词之间的相互概率，输出语言模型得分；

解码器，用于根据给定的待识别音频信号的特征向量序列、所述声学模型得分和所述语言模型得分，将总体输出分数较高的词序列作为识别结果。

作为上述系统的一种改进，所述迁移神经网络声学模型由下述步骤训练生成，包括：

建立源语言训练集，根据源语言训练集训练源语言语音识别系统的鲁棒神经网络声学模型；

将训练后的鲁棒神经网络声学模型与定向神经网络模型进行融合，建立目标语言神经网络声学模型；

将所述定向神经网络的模型参数进行初始化，调整所述鲁棒神经网络声学模型与定向神经网络声学模型之间的连接权重系数；

建立目标语言训练集，固定所述鲁棒神经网络模型参数，根据所述目标语言训练集优化所述融合后定向神经网络模型参数；

生成迁移神经网络声学模型。

作为上述系统的再一种改进，将所述定向神经网络的模型参数进行初始化，调整所述鲁棒神经网络声学模型与定向神经网络声学模型之间的连接权重系数，包括：

将所述鲁棒神经网络对应层的输出乘以权重系数与所述定向神经网络对应层的输出乘以权重系数进行相加；

将所述相加的结果送入所述定向神经网络的下一层进行前向计算，公式为：

其中β为鲁棒神经网络的权重系数，

和

分别为鲁棒神经网络和定向神经网络的第i-1层的输出，

为定向神经网络第i层的输入，

为定向神经网络第i-1层和第i层之间的连接权重，f为激活函数。

作为上述系统的还一种改进，建立目标语言训练集，固定所述鲁棒神经网络模型参数，根据所述目标语言训练集优化所述融合后定向神经网络模型参数，包括：

建立目标语言训练集，固定所述迁移神经网络声学模型中鲁棒神经网络部分的模型参数，根据目标语言训练集对所述迁移神经网络声学模型中定向神经网络部分的模型参数进行更新调优；

所述模型参数调优方式是基于交叉熵代价函数的随机梯度下降方法对模型参数进行更新优化，交叉熵用于度量两个概率分布变量(P_L(s_i|x_t))和(P(s_i|x_t))的相似度：

其中：

上式中P_L(s_i|x_t)表示t时刻的特征x_t对应的声学状态s_i的概率，当输出状态的序号i与标注状态的序号lable相同时，P_L(s_i|x_t)的概率值定义为1，其他声学状态的概率为0。L表示交叉熵损失函数的值，p(s_i|x_t)表示，声学模型预测的t时刻的特征x_t对应声学状态为s_i的概率值；

所述目标语言数据同时送入迁移神经网络中鲁棒神经网络和定向神经网络部分，输出目标语音特征的后验概率，用于解码，得到识别出的语音，与原始语音进行比较后，进行前向反馈，得到训练后的迁移神经网络声学模型。

第二方面，本发明还提供一种基于迁移神经网络声学模型的语音识别方法，包括：

构建目标语言语言模型；

将待识别的目标语言数据输入迁移神经网络声学模型，输出语音特征的后验概率；

根据所述语言特征的后验概率，用于解码，并联合所述目标语言语言模型，得到识别出的语音。

作为上述方法的一种改进，所述迁移神经网络声学模型由下述步骤训练生成，包括：

生成迁移神经网络声学模型。

作为上述方法的再一种改进，将所述定向神经网络的模型参数进行初始化，调整所述鲁棒神经网络声学模型与定向神经网络声学模型之间的连接权重系数，包括：

其中β为鲁棒神经网络的权重系数，

和

分别为鲁棒神经网络和定向神经网络的第i-1层的输出，

为定向神经网络第i层的输入，

作为上述方法的还一种改进，建立目标语言训练集，固定所述鲁棒神经网络模型参数，根据所述目标语言训练集优化所述融合后定向神经网络模型参数，包括：

其中：

本发明的优点在于，本发明的一种基于迁移神经网络声学模型的语音识别系统及方法，该系统的迁移神经网络声学模型，通过对鲁棒神经网络模型的模型参数进行固定，同时通过神经网络间的层间横向连接，将鲁棒声学模型的信息传递到目标声学模型中，不仅保留了原鲁棒声学模型的性能，同时还对目标语言做特定的优化。克服现有技术中用目标语言的数据对模型进行再优化，不可恢复改变了原鲁棒声学模型的模型参数，且对原鲁棒声学模型的应用存在一定性能损失的问题。还解决了低资源语言的鲁棒声学模型的快速构建的问题，通过利用数据充分的语言的声学模型进行模型参数迁移的方式，来提升目标低资源语言的声学模型性能以及训练的收敛速度。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明实施例提供的基于迁移神经网络声学模型的语音识别系统的结构图；

图2为本发明实施例提供的迁移神经网络声学模型生成步骤流程图；

图3为本发明实施例提供的步骤S204的流程图；

图4为本发明实施例提供的迁移声学模型的示意图；

图5为本发明实施例提供的基于迁移神经网络声学模型的语音识别方法的流程图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种基于迁移神经网络声学模型的语音识别系统，上述迁移神经网络是指，基于鲁棒神经网络声学模型做模型参数迁移，将其鲁棒模型参数和模型结构迁移到一个新任务对应的神经网络上，参照图1所示，包括：

信号处理及特征提取模块、发音词典、语言模型和解码器，还包括：声学模型；

其中：

信号处理及特征提取模块，用于对待识别的音频信号进行增强，将上述待识别的音频信号从时域转化到频域，并提取声学特征；

声学模型，用于以提取的声学特征为输入，生成声学模型得分；上述声学模型为迁移神经网络声学模型，包括：前端的鲁棒神经网络声学模型和后端的定向神经网络声学模型；所述鲁棒神经网络声学模型作为一个所述定向神经网络声学模型的辅助模型，使用大量源语言数据进行训练；使得鲁棒声学模型的达到较优的性能；上述鲁棒神经网络声学模型和定向神经网络声学模型进行融合，一起作为目标语言神经网络声学模型，用于目标语言识别系统的构建。

发音词典，根据特定的语言，将该语言的词汇列表映射为相应音素以及音调组成的发音，用于辅助声学模型建模。

本发明的一种基于迁移神经网络声学模型的语音识别系统，该系统的迁移神经网络声学模型，包括鲁棒神经网络和定向神经网络两部分，通过对鲁棒神经网络模型的模型参数进行固定，同时通过神经网络间的层间横向连接，将鲁棒声学模型的信息传递到目标声学模型中，不仅保留了原鲁棒声学模型的性能，同时还对目标语言做特定的优化。克服现有技术中用目标语言的数据对模型进行再优化，不可恢复改变了原鲁棒声学模型的模型参数，且对原鲁棒声学模型的应用存在一定性能损失的问题。还解决了低资源语言的鲁棒声学模型的快速构建的问题，通过利用数据充分的语言的声学模型进行模型参数迁移的方式，来提升目标低资源语言的声学模型性能以及训练的收敛速度。

在一个实施例中，上述迁移神经网络声学模型由下述步骤训练生成，参照图2所示，包括：

S201、建立源语言训练集，根据源语言训练集训练源语言语音识别系统的鲁棒神经网络声学模型；

S202、将训练后的鲁棒神经网络声学模型与定向神经网络模型进行融合，建立目标语言神经网络声学模型；

S203、将所述定向神经网络的模型参数进行初始化，调整所述鲁棒神经网络声学模型与定向神经网络声学模型之间的连接权重系数；

S204、建立目标语言训练集，固定所述鲁棒神经网络模型参数，根据所述目标语言训练集优化所述融合后定向神经网络模型参数；

S205、生成迁移神经网络声学模型。

上述步骤S203中还包括：鲁棒神经网络对应层的输出乘以权重系数与定向神经网络对应层的输出乘以权重系数进行相加作为输入送入定向神经网络的下一层进行前向计算，这种混合结构共同构成了迁移神经网络声学模型。具体公式为：

其中β为鲁棒神经网络的权重系数，

和

分别为鲁棒神经网络和定向神经网络的第i-1层的输出，

为定向神经网络第i层的输入，

上述步骤S204参照图3所示，具体包括：

S2041、建立目标语言训练集，固定所述迁移神经网络声学模型中鲁棒神经网络部分的模型参数，基于目标语言训练集对所述迁移神经网络声学模型中定向神经网络部分的模型参数进行更新调优；

S2042、所述模型参数调优方式是基于交叉熵代价函数的随机梯度下降方法对模型参数进行更新优化，交叉熵用于度量两个概率分布变量(P_L(s_i|x_t))和(P(s_i|x_t))的相似度：

其中：

上式中P_L(s_i|x_t)表示t时刻的特征x_t对应的声学状态s_i的概率，当输出状态的序号i与标注状态的序号lable相同时，P_L(s_i|x_t)的概率值定义为1，其他声学状态的概率为0。L表示交叉熵损失函数的值，p(s_i|x_t)表示，声学模型预测的t时刻的特征x_t对应声学状态为s_i的概率值。其中，上述交叉熵是用来衡量两个概率分布之间差异性的信息量。

要强调的是，lable表示与输入特征帧相对应的实际声学状态的标注，L表示声学模型训练准则中的交叉熵损失函数，两者是不同的概念。

S2043、所述目标语言数据同时送入迁移神经网络中鲁棒神经网络和定向神经网络部分，输出目标语音特征的后验概率，用于解码，得到识别出的语音，与原始语音进行比较后，进行前向反馈，最终得到训练好的迁移神经网络声学模型。

参照图4所示为迁移声学模型的示意图，其中鲁棒神经网络是基于语料丰富的源语言数据训练得到的，在源语言测试集上具有较好的鲁棒性能，在鲁棒神经网络的基础上通过加权重横向连接融合一个特定于目标语言的定向神经网络，在此基础上用数据不充分的目标语言数据根据交叉熵准则，使用随机梯度下降的方法对现有网络模型进行再优化操作。

基于同一发明构思，本发明实施例还提供了基于迁移神经网络声学模型的语音识别方法，使用上述实施例提供的基于迁移神经网络声学模型的语音识别系统。

参照图5所示，包括：

S501、构建目标语言语言模型；

S502、将待识别的目标语言数据输入迁移神经网络声学模型，输出语音特征的后验概率；

S503、根据所述语言特征的后验概率，用于解码，并联合所述目标语言语言模型，得到识别出的语音。

生成迁移神经网络声学模型。

其中β为鲁棒神经网络的权重系数，

和

分别为鲁棒神经网络和定向神经网络的第i-1层的输出，

为定向神经网络第i层的输入，

其中：

上式中P_L(s_i|x_t)表示t时刻的特征x_t对应的声学状态s_i的概率，当输出状态的序号i与标注状态的序号lable相同时，P_L(s_i|x_t)的概率值定义为1，其他声学状态的概率为0。L表示交叉熵损失函数的值，p(s_i|x_t)表示，声学模型预测的t时刻的特征x_t对应声学状态为s_i的概率值；其中，上述交叉熵是用来衡量两个概率分布之间差异性的信息量。

基于本发明的语音识别系统的合理性和有效性已经在实际系统上得到了验证，结果见表1。其中表1是利用280小时switchboard(SWBD)数据训练的鲁棒声学模型对10小时越南语模型进行模型参数迁移的测试结果，SWBD是一个英文标准的电话交谈语音识别任务；

表1

模型	训练集	测试集	词错误率
				单语言方法	越南语10小时	越南语1小时	63.55
传统迁移方法	越南语10小时	越南语1小时	52.51
				本发明迁移方法	越南语10小时	越南语1小时	50.6

基于传统迁移方法的越南语模型，通过对SWBD英语声学模型进行迁移，相比于只用10小时越南语数据训练得到的声学模型有了11百分点性能的提升，可以看出在此基础上基于本发明方法的越南语声学模型相比于传统的迁移方法在越南语测试集上的性能又有了2个百分点性能的提升，本发明的基于迁移神经网络声学模型的语音识别方法具有较好的知识迁移效果。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于迁移神经网络声学模型的语音识别系统，其特征在于，包括：

2.如权利要求1所述的基于迁移神经网络声学模型的语音识别系统，其特征在于，所述迁移神经网络声学模型由下述步骤训练生成，包括：

建立目标语言训练集，固定所述鲁棒神经网络模型参数，根据所述目标语言训练集优化所述目标语言神经网络声学模型的定向神经网络模型参数；

生成迁移神经网络声学模型。

3.如权利要求2所述的基于迁移神经网络声学模型的语音识别系统，其特征在于，将所述定向神经网络的模型参数进行初始化，调整所述鲁棒神经网络声学模型与定向神经网络声学模型之间的连接权重系数，包括：

其中β为鲁棒神经网络的权重系数，

和

分别为鲁棒神经网络和定向神经网络的第i-1层的输出，

为定向神经网络第i层的输入，W_i ⁽²⁾为定向神经网络第i-1层和第i层之间的连接权重，f为激活函数。

4.如权利要求2所述的基于迁移神经网络声学模型的语音识别系统，其特征在于，建立目标语言训练集，固定所述鲁棒神经网络模型参数，根据所述目标语言训练集优化所述目标语言神经网络声学模型的定向神经网络模型参数，包括：

其中：

上式中P_L(s_i|x_t)表示t时刻的特征x_t对应的声学状态s_i的概率，当输出状态的序号i与标注状态的序号lable相同时，P_L(s_i|x_t)的概率值定义为1，其他声学状态的概率为0；L表示交叉熵损失函数的值，p(s_i|x_t)表示，声学模型预测的t时刻的特征x_t对应声学状态为s_i的概率值；

5.一种基于迁移神经网络声学模型的语音识别方法，其特征在于，包括：

构建目标语言语言模型；

根据所述语音特征的后验概率，用于解码，并联合所述目标语言语言模型，得到识别出的语音；

所述迁移神经网络声学模型由下述步骤训练生成，包括：

生成迁移神经网络声学模型。

6.如权利要求5所述的基于迁移神经网络声学模型的语音识别方法，其特征在于，将所述定向神经网络的模型参数进行初始化，调整所述鲁棒神经网络声学模型与定向神经网络声学模型之间的连接权重系数，包括：

其中β为鲁棒神经网络的权重系数，

和

分别为鲁棒神经网络和定向神经网络的第i-1层的输出，

7.如权利要求5所述的基于迁移神经网络声学模型的语音识别方法，其特征在于，建立目标语言训练集，固定所述鲁棒神经网络模型参数，根据所述目标语言训练集优化所述融合后定向神经网络模型参数，包括：

其中：