CN110299132A

CN110299132A - 一种语音数字识别方法和装置

Info

Publication number: CN110299132A
Application number: CN201910560346.XA
Authority: CN
Inventors: 付立
Original assignee: JD Digital Technology Holdings Co Ltd
Current assignee: Jingdong Technology Holding Co Ltd
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2019-10-01
Anticipated expiration: 2039-06-26
Also published as: CN110299132B

Abstract

本申请提供了一种数字语音数据识别方法和装置，该方法包括：获取待识别的数字语音数据；使用短时傅里叶变换提取所述数字语音数据的频谱特征矢量；基于预设的DS2网络模型对所述频谱特征矢量进行识别，获得识别出的数字；其中，所述预设的DS2网络模型通过重设最后一层全连接层的输出点为从0到9的10个数字的初始DS2网络模型训练获得。该方法能够降低模型训练时间，提高识别的准确率。

Description

一种语音数字识别方法和装置

技术领域

本发明涉及语音识别技术领域，特别涉及一种语音数字识别方法和装置。

背景技术

语音数字识别是自动语音识别(Automatic Speech Recognition，ASR)技术的一个重要分支，在用户身份识别、活体认证、网络数据抓取等计算机应用领域扮演重要角色。

然而，在实际应用场景下，待识别的语音数据中可能存在口音、方言、背景噪声干扰等多种复杂因素，给高准确率的语音数字验证码识别带来巨大挑战。

针对语音数字识别的问题，传统的方法通常以音素为建模单元，采用基于混合高斯模型的隐马尔可夫模型(Gaussian Mixture Model-Hidden Markov Model，GMM-HMM)建立声学模型，并结合发音词典获得最后的识别结果。

在该方法中，GMM描述可观察的过程，HMM描述隐藏的马尔可夫过程，通过利用大量的语音标注数据对这两个相互依赖的随机过程进行训练，获得语音信号的前后依赖状态关系，来实现语音数字验证码识别。然而，由于GMM-HMM模型基于每个HMM状态之间语音数据时间独立性的假设，忽略了声学特征和语音产生方式(如语速和风格)之间的相关性，因此，在实际应用场景的语音数字验证码识别任务中，该方法的准确率往往较差。

近年来，随着深度学习(Deep Learning，DL)技术的高速发展，基于深度神经网络(Deep Neural Network，DNN)的声学模型相比于传统的GMM-HMM模型的性能获得了显著的提升。

然而，该类方法的语音识别性能受训练数据特性的影响较大。由于在训练过程中采用的普通话场景数据与实际的线上数字验证码数据在发音、语速、方言、背景噪音等方面差别较大。例如，当采用该方法对由四个数字组成的线上语音数字数据进行测试时，其整句的正确率仅为50％左右，难以满足实际应用场景的性能需求。

发明内容

有鉴于此，本申请提供一种数字语音数据识别方法和装置，能够降低模型训练时间，提高识别的准确率。

为解决上述技术问题，本申请的技术方案是这样实现的：

在一个实施例中，提供了一种数字语音数据识别方法，所述方法包括：

获取待识别的数字语音数据；

使用短时傅里叶变换提取所述数字语音数据的频谱特征矢量；

基于预设的DS2网络模型对所述频谱特征矢量进行识别，获得识别出的数字；

其中，所述预设的DS2网络模型通过重设最后一层全连接层的输出点为从0到9的10个数字的初始DS2网络模型训练获得。

在另一个实施例中，提供了一种数字语音数据识别装置，所述装置包括：获取单元、提取单元、建立单元和识别单元；

所述获取单元，用于获取待识别的数字语音数据；

所述提取单元，用于使用短时傅里叶变换提取所述获取单元获取的数字语音数据的频谱特征矢量；

所述建立单元，用于建立预设的DS2网络模型；其中，所述预设的DS2网络模型通过重设最后一层全连接层的输出点为从0到9的10个数字的初始DS2网络模型训练获得；

所述识别单元，用于基于所述建立单元建立的预设的DS2网络模型对所述频谱特征矢量进行识别，获得识别出的数字。

在另一个实施例中，提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如所述数字语音数据识别方法的步骤。

在另一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述数字语音数据识别方法的步骤。

由上面的技术方案可见，上述实施例中利用深度迁移学习，将初始DS2网络模型的训练结果迁移至本申请中修改最后一层全连接层的输出的初始的DS2网络模型中，在现有模型的基础上进行训练获得预设的DS2网络模型，降低了使用样本的数量，以及模型的训练时间，并且使用预设的DS2网络模型识别数字语音数据的准确率高。

附图说明

以下附图仅对本发明做示意性说明和解释，并不限定本发明的范围：

图1为初始DS2网络模型结构示意图；

图2为本申请实施例中设置了最后一层全连接层后的初始DS2网络模型示意图；

图3为本申请实施例中对第二子网络的参数进行训练的结果示意图；

图4为本申请实施例中对整个网络进行训练的结果示意图；

图5为本申请实施例中数字语音数据识别流程示意图；

图6为本申请实施例中应用于上述技术的装置结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图并举实施例，对本发明的技术方案进行详细说明。

本申请实施例中提供一种数字语音数据识别方法，可应用于数字验证码等场景中；利用深度迁移学习，将初始DS2网络模型的训练结果迁移至本申请中修改最后一层全连接层的输出的初始的DS2网络模型中，在现有模型的基础上进行训练获得预设的DS2网络模型，降低了使用样本的数量，以及模型的训练时间，并且使用预设的DS2网络模型识别数字语音数据的准确率高。

2015年，D.Amodei等人提出了一种基于DNN的端到端语音识别方法，称为深度学习2(Deep Speech 2，DS2)。该方法包含了多层卷积层、循环卷积层以及全连接层，通过利用大量已标注语音数据，建立从语音频谱到文本结果的端到端网络模型，并获得了较好的普通话识别结果。

本申请实施例中的初始DS2网络模型为上述D.Amodei等人提出了的基于DNN的端到端语音识别方法中的DS2网络模型。

本申请实施例中建立预设的DS2网络模型的过程如下：

第一步、设置初始DS2网络模型的最后一层全连接层的输出点为从0到9的10个数字。

本申请实施例中的初始DS2网络模型为现有使用普通语音数据训练好的网络模型，具体示例如下，但不限于如下实现方式：

定义领域D＝{x,p(x)}，包括特征空间x和边缘概率分布p(x)。任务域T＝{y,p(y|x)}包括类别空间y和条件概率分布p(y|x)，也叫预测模型。源域中利用大量样本数据训练获得从源域的领域D_s到源域的任务域T_s的深度神经网络非线性映射函数f_s，深度迁移学习的指在源域模型{D_s,T_s,f_s}基础上，对进行迁移学习，获得目标域的领域D_t到目标域的任务域T_t的非线性映射函数。

假设源域的领域D_s为5000小时实际金融客服场景普通话语音数据，语音数据的采样率为8kHz，包括汉字、数字、字母等内容。源域的任务域T_s为该场景下的普通话语音识别，即语音识别输出对应汉字、数字和字母等内容。源域中的f_s为通过DS2网络训练获得的非线性模型。

参见图1，图1为初始DS2网络模型结构示意图。图1中的模型结构由3层卷积神经网络(Convolutional Neural Network，CNN)，5层门控循环单元(Gated Recurrent Unit，GRU)和2层全连接层(Fully Connected：FC)组成，损失函数选用联结时间分类损失函数(Connectionist Temporal Classification Loss，CTC Loss)，其中CNN层和GRU层的层数根据实际需要设置。

假设目标域的领域D_t为30000条线上金融业务中数字语音数据，采样率为8kHz，每条语音包括4个普通话念出的阿拉伯数字。目标域的任务域T_t为语音数字。

也就是说本申请实施例中建立的预设的DS2网络模型是针对数字语音数据的，也就是说将一串语音数据识别为一串数字，如“2478”等。因此，数字语音数据的任务域包括“0”，“1”，“2”，“3”，“4”，“5”，“6”，“7”，“8”，“9”共10类，每一类分别对应相应的语音，其中根据普通话发音的习惯，任务域中的“1”对应的语音类型包括“一”和“幺”两种发音模式，无论哪种发音模式，都会被识别为数字“1”。

因此，本申请实施例中直接将针对普通话语音数据建立的初始DS2网络模型设置最后一层全连接层作为针对数字语音数据的初始DS2网络模型。

也就是说，在现有源域的模型的基础上，修改最后一层全连接层F_C,2，将输出节点个数改为10个，对应0至9共10个数字，可以得到最后一层全连接层F_C,2满足如下条件：

最后一层全连接层F_C,2的输出矢量为：另一个全连接层F_C,1的输出矢量同最后一层全连接层的权重矩阵的乘积，与最后一层全连接层的偏置向量的和。使用公式表示为如下：

h_n＝W_nh_n-1+b_n；

其中n为网络总层数，h_n为全连接层F_C,2的输出矢量，h_n-1为全连接层F_C,1的输出矢量，W_n为全连接层F_C,2的权重矩阵，b_n为全连接层F_C,2的偏置向量。

这里直接修改全连接层即可作为后续的初始训练模型的方式，能够节省训练成本，如样本量的减少、时间的减少等。

第二步、对设置后的初始DS2网络模型，进行初始化。

设置后的初始DS2网络模型包括两个网络，分别为：第一子网络和第二子网络；其中，第二子网络为初始DS2网络模型的最后一层全连接层；所述第一子网络为初始DS2网络模型中第二子网络之外的所有层。

参见图2，图2为本申请实施例中设置了最后一层全连接层后的初始DS2网络模型示意图。

图2与图1不同的地方就是针对最后一层全连接层FC,2进行了设置，因此初始化的时候，针对与初始DS2网络模型一样的网络即可使用已训练的参数初始化，初始化过程具体如下：

第一子网络的初始化参数采用已训练的初始DS2网络模型对应参数；即第一子网络的初始化使用源域训练的网络对应的参数；

第二子网络的初始化参数满足如下条件：

权重矩阵中的元素的值满足高斯分布。即初始化参数满足为：

W_n,ij～G(0,σ_W)；b_n,i＝0.1。

其中，G(0,σ_W)为均值为0标准差为σ_W的高斯分布，本发明中标准差根据实际需要设置，如σ_W＝0.1。W_n,ij为权重矩阵W_n的第i行第j个元素，b_n,i为偏置向量b_n的第i个元素。

第三步、对初始化后的初始DS2网络模型进行训练，获得预设的DS2网络模型。

训练过程分为两个阶段，具体如下：

第一阶段：固定第一子网络的参数，对第二子网络参数进行训练，直到第二子网络收敛。

首先、获取数字语音数据作为样本；

其次、利用短时傅里叶变换提取所述数字语音数据的频谱特征矢量，进行模型训练。频谱特征矢量的提取过程具体如下：

数字语音数据为l_i，l_i(k)为k时刻语音数据取值，其中k∈[0,K_i]，K_i为语音数据l_i总的持续时间。通过对语音数据l_i进行短时傅立叶变换(Short-Time Fourier Transform，STFT)，可得频谱特征，如下：

L_i＝F(l_i)；

其中，F(·)为短时傅立叶变换。

具体实现时，STFT的窗口大小可以为20ms，窗口滑动步长可以为10ms。通过STFT可以获得每一段语音数据的81维频谱信息序列。

上述给出的是一种频谱特征矢量的获取方式，具体实现时，不限于上述特征提取方式。

最后、设置学习率，固定第一子网的参数，即图2中的子网络N₁的所有参数，也就是说在训练过程中，第一子网络的参数保持不变；在设置的学习率的前提下对第二子网络进行训练，直到第二子网络收敛，即损失函数不再变化。

通过固定子网络N₁，可以利用源域模型的训练参数特征提取的结果，避免的重复训练，从而实现将源域普通话识别的知识迁移至数字语音数据识别中。

参见图3，图3为本申请实施例中对第二子网络的参数进行训练的结果示意图。

图3中的学习率η₁设置为4×10^-4，在经过第一阶段训练后，对测试集合的准确率收敛至0.17，训练集准确率稳定在0.9附近。整个训练过程在单GPU上进行，总时长为0.5小时。

第二阶段：针对所述初始DS2网络模型的全部参数进行训练，获得预设的DS2网络模型。

本阶段相当于将整个网络打开，也就是说该网络模型中的所有参数都不固定，都可以通过训练来调整。

针对该阶段设置的学习率低于第一阶段设置的学习率，通过降低学习率，实现对整个网络参数的微调，最终获得预设的DS2网络模型。

参见图4，图4为本申请实施例中对整个网络进行训练的结果示意图。图4中，在将整个网络打开后(对应迭代次数1.02×10⁵)，对测试集合的准确率快速下降并收敛至0.05，训练集准确率稳定在1附近。此步骤的训练时长为0.5小时。

至此，预设的DS2网络模型训练完毕，可以用于数字语音数据的识别。

本申请实施例中根据语音数据和语音识别任务构建深度迁移学习的源域和目标域，其中源域为普通话语音识别，目标域为语音数字验证码识别；对数字语音数据进行频谱特征提取在源域模型的基础上，建立深度学习网络模型，并利用源域的模型参数对数字语音数据识别模型参数进行初始化。通过固定部分子网络的参数，并仅对最后一层子网络参数进行训练；然后打开整个网络，降低学习率，对全网络参数进行微调训练，获得最终的语音数字验证码识别模型。

下面结合附图，详细描述本申请实施例中实现数字语音数据的识别过程。

实现数字语音数据识别的主体可以为一台PC等，即具有语音处理能力的设备即可，在下文为了描述方便简称为识别设备。

参见图5，图5为本申请实施例中数字语音数据识别流程示意图。具体步骤为：

步骤501，识别设备获取待识别的数字语音数据。

这里的数字语音数据可以为由其他网络设备传输到本识别设备上，也可以通过拷贝的方式实现数字语音数据的获取。

步骤502，该识别设备使用短时傅里叶变换提取所述数字语音数据的频谱特征矢量。

步骤503，该识别设备基于预设的DS2网络模型对所述频谱特征矢量进行识别，获得识别出的数字。

其中，所述预设的DS2网络模型通过设置最后一层全连接层的输出点为从0到9的10个数字的初始DS2网络模型训练获得。

本申请实施例中使用预设的DS2网络模型进行语音识别能够提高识别的正确率。

基于同样的发明构思，本申请实施例中还提供一种数字语音数据识别装置。参见图6，图6为本申请实施例中应用于上述技术的装置结构示意图。该装置包括：获取单元601、提取单元602、建立单元603和识别单元604；

获取单元601，用于获取待识别的数字语音数据；

提取单元602，用于使用短时傅里叶变换提取获取单元601获取的数字语音数据的频谱特征矢量；

建立单元603，用于建立预设的DS2网络模型；其中，所述预设的DS2网络模型通过重设最后一层全连接层的输出点为从0到9的10个数字的初始DS2网络模型训练获得；其中，所述最后一层全连接层的输出矢量为：另一个全连接层的输出矢量同最后一层全连接层的权重矩阵的乘积，与最后一层全连接层的偏置向量的和。

识别单元604，用于基于建立单元603建立的预设的DS2网络模型对提取单元602提取的频谱特征矢量进行识别，获得识别出的数字。

优选地，

建立单元603，具体用于训练重设最后一层全连接层的初始DS2网络模型，得到预设的DS2网络模型时，初始化重设最后一层全连接层的初始DS2网络模型；固定第一子网络的参数，对第二子网络参数进行训练，直到第二子网络收敛；其中，重设最后一层全连接层的初始DS2网络模型包括第一子网络和第二子网络，所述第二子网络为重设最后一层全连接层的初始DS2网络模型的最后一层全连接层；所述第一子网络为重设最后一层全连接层的初始DS2网络模型中第二子网络之外的所有层；针对所述重设最后一层全连接层的初始DS2网络模型的全部参数进行训练，获得预设的DS2网络模型。

其中，针对固定第一子网络的参数，对第二子网络参数进行训练时设置的学习率高于针对所述重设最后一层全连接层的初始DS2网络模型进行训练时设置的学习率。

优选地，

建立单元603，具体用于初始化重设最后一层全连接层的初始DS2网络模型时，包括：第一子网络的初始化参数采用已训练的初始DS2网络模型对应参数；第二子网络的初始化参数满足如下条件：权重矩阵中的元素的值满足高斯分布。

上述实施例的单元可以集成于一体，也可以分离部署；可以合并为一个单元，也可以进一步拆分成多个子单元。

在另一个实施例中，本申请实施例中还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述数字语音识别方法的步骤。

综上所述，本申请在现有基于DNN语音识别模型的基础上，利用深度迁移学习，进行数字语音数据识别训练样本的方法。本申请实施例中提出的基于深度迁移学习的数字语音数据识别方法，将现有DNN语音识别模型在普通识别中的训练知识迁移至语音数字验证码识别应用中，避开了重零开始学习的过程，仅采用少量标注数据，通过少量参数训练，获得准确的语音数字验证码识别。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种数字语音数据识别方法，其特征在于，所述方法包括：

获取待识别的数字语音数据；

基于预设的深度语音DS2网络模型对所述频谱特征矢量进行识别，获得识别出的数字；

2.根据权利要求1所述的方法，其特征在于，训练重设最后一层全连接层的初始DS2网络模型，得到预设的DS2网络模型，包括：

初始化重设最后一层全连接层的初始DS2网络模型；

固定第一子网络的参数，对第二子网络参数进行训练，直到第二子网络收敛；其中，重设最后一层全连接层的初始DS2网络模型包括第一子网络和第二子网络，所述第二子网络为重设最后一层全连接层的初始DS2网络模型的最后一层全连接层；所述第一子网络为重设最后一层全连接层的初始DS2网络模型中第二子网络之外的所有层；

针对所述重设最后一层全连接层的初始DS2网络模型的全部参数进行训练，获得预设的DS2网络模型。

3.根据权利要求2所述的方法，其特征在于，所述初始化重设最后一层全连接层的初始DS2网络模型，包括：

第一子网络的初始化参数采用已训练的初始DS2网络模型对应参数；

第二子网络的初始化参数满足如下条件：

权重矩阵中的元素的值满足高斯分布。

4.根据权利要求2所述的方法，其特征在于，所述方法进一步包括：

针对固定第一子网络的参数，对第二子网络参数进行训练时设置的学习率高于针对所述重设最后一层全连接层的初始DS2网络模型进行训练时设置的学习率。

5.根据权利要求1-4任一项所述的方法，其特征在于，

所述最后一层全连接层的输出矢量为：另一个全连接层的输出矢量同最后一层全连接层的权重矩阵的乘积，与最后一层全连接层的偏置向量的和。

6.一种数字语音数据识别装置，其特征在于，所述装置包括：获取单元、提取单元、建立单元和识别单元；

所述获取单元，用于获取待识别的数字语音数据；

所述建立单元，用于建立预设的深度语音DS2网络模型；其中，所述预设的DS2网络模型通过重设最后一层全连接层的输出点为从0到9的10个数字的初始DS2网络模型训练获得；

7.根据权利要求6所述的装置，其特征在于，

所述建立单元，具体用于训练重设最后一层全连接层的初始DS2网络模型，得到预设的DS2网络模型时，初始化重设最后一层全连接层的初始DS2网络模型；固定第一子网络的参数，对第二子网络参数进行训练，直到第二子网络收敛；其中，重设最后一层全连接层的初始DS2网络模型包括第一子网络和第二子网络，所述第二子网络为重设最后一层全连接层的初始DS2网络模型的最后一层全连接层；所述第一子网络为重设最后一层全连接层的初始DS2网络模型中第二子网络之外的所有层；针对所述重设最后一层全连接层的初始DS2网络模型的全部参数进行训练，获得预设的DS2网络模型。

8.根据权利要求7所述的装置，其特征在于，

所述建立单元，具体用于初始化重设最后一层全连接层的初始DS2网络模型时，包括：第一子网络的初始化参数采用已训练的初始DS2网络模型对应参数；第二子网络的初始化参数满足如下条件：权重矩阵中的元素的值满足高斯分布。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-5任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-5任一项所述的方法。