CN109616100A

CN109616100A - 语音识别模型的生成方法及其装置

Info

Publication number: CN109616100A
Application number: CN201910005075.1A
Authority: CN
Inventors: 徐扬凯; 李超
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-01-03
Filing date: 2019-01-03
Publication date: 2019-04-12
Anticipated expiration: 2039-01-03
Also published as: CN109616100B

Abstract

本发明公开了一种语音识别模型的生成方法及其装置。其中，方法包括：获取多种环境下的噪声信号，以及无噪声的样本语音信号。根据多种环境下的噪声信号和无噪声的样本语音信号，生成多种带噪声的样本语音信号。使用样本语音信号，对深度神经网络进行训练，以生成语音识别模型。其中，样本语音信号包括多种带噪声的样本语音信号和无噪声的样本语音信号。由此，实现了使用不同的样本语音信号对深度神经网络进行训练，以生成能够应对不同环境噪声的语音识别模型，增强了语音识别模型的鲁棒性。解决了现有技术中不能对不同环境下的噪声进行处理的技术问题。

Description

语音识别模型的生成方法及其装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音识别模型的生成方法及其装置。

背景技术

语音识别以语音为研究对象，通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言，把语音信号转化为相应的文本或命令。传统语音识别主要解决了安静环境下的语音识别问题，当用户在噪音环境下使用语音识别服务时，语音识别的准确度会受到噪声的影响。

相关技术中，通过信号处理来降低噪音并且提高语音信号强度，使得语音识别模型能够准确地识别出信号中的真实语音。但是信号处理方式不能对不同环境下的噪声进行处理，具有很大的局限性。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种语音识别模型的生成方法，以使得生成的语音识别模型能够应对不同环境噪声，增强了语音识别模型的鲁棒性。

本发明的第二个目的在于提出一种语音识别模型的生成装置。

本发明的第三个目的在于提出一种计算机程序产品。

本发明的第四个目的在于提出一种非临时性计算机可读存储介质。

为达上述目的，本发明第一方面实施例提出了一种语音识别模型的生成方法，包括：获取多种环境下的噪声信号，以及无噪声的样本语音信号；根据所述多种环境下的噪声信号和所述无噪声的样本语音信号，生成多种带噪声的样本语音信号；以及使用样本语音信号，对深度神经网络进行训练，以生成语音识别模型，其中，所述样本语音信号包括所述多种带噪声的样本语音信号和所述无噪声的样本语音信号。

和现有技术相比，本发明实施例使用不同环境下的带噪声语音信号和无噪声语音信号对深度神经网络进行训练，以生成能够应对不同情况的语音识别模型，增强了语音识别模型的鲁棒性。

另外，本发明实施例的语音识别模型的生成方法，还具有如下附加的技术特征：

可选地，所述根据所述多种环境下的噪声信号和所述无噪声的样本语音信号，生成多种带噪声的样本语音信号，包括：步骤一，从所述多种环境下的噪声信号中随机选择一种噪声信号；步骤二，从预设范围内随机选择一个数值，以作为待生成的所述带噪声的样本语音信号的信噪比，其中，所述信噪比是所述带噪声的样本语音信号中所述无噪声的样本语音信号与所述随机选择的噪声信号的强度之比；步骤三，将所述随机选择的噪声信号与所述无噪声的样本语音信号按照所述信噪比进行混合，以生成一种所述带噪声的样本语音信号；步骤四，多次重复步骤一至三，以生成多种所述带噪声的样本语音信号。

可选地，所述将所述随机选择的噪声信号与所述无噪声的样本语音信号按照所述信噪比进行混合，以生成一种所述带噪声的样本语音信号，包括：获取所述无噪声的样本语音信号的强度和时长；根据所述无噪声的样本语音信号的时长，对所述随机选择的噪声信号进行剪切和拼接，以使剪切和拼接后的所述噪声信号的时长和所述无噪声的样本语音信号的时长相等；根据所述无噪声的样本语音信号的强度和所述信噪比，调整所述噪声信号的强度；将调整强度后的所述噪声信号叠加至所述无噪声的样本语音信号上，以生成一种所述带噪声的样本语音信号。

可选地，所述深度神经网络由多层卷积神经网络与长短时记忆神经网络混合组成。

可选地，所述使用样本语音信号，对深度神经网络进行训练，以生成语音识别模型，包括：获取所述样本语音信号对应的发音音节；从所述样本语音信号中提取对应的语音特征；将所述多种样本语音信号对应的语音特征输入所述深度神经网络；将所述样本语音信号对应的发音音节与所述深度神经网络的输出结果进行比较，以训练所述深度神经网络中的参数。

本发明第二方面实施例提出了一种语音识别模型的生成装置，包括：获取模块，用于获取多种环境下的噪声信号，以及无噪声的样本语音信号；生成模块，用于根据所述多种环境下的噪声信号和所述无噪声的样本语音信号，生成多种带噪声的样本语音信号；以及训练模块，用于使用样本语音信号，对深度神经网络进行训练，以生成语音识别模型，其中，所述样本语音信号包括所述多种带噪声的样本语音信号和所述无噪声的样本语音信号。

另外，本发明实施例的语音识别模型的生成装置，还具有如下附加的技术特征：

可选地，所述生成模块，包括：第一选择子模块，用于执行步骤一，从所述多种环境下的噪声信号中随机选择一种噪声信号；第二选择子模块，用于执行步骤二，从预设范围内随机选择一个数值，以作为待生成的所述带噪声的样本语音信号的信噪比，其中，所述信噪比是所述带噪声的样本语音信号中所述无噪声的样本语音信号与所述随机选择的噪声信号的强度之比；混合子模块，用于执行步骤三，将所述随机选择的噪声信号与所述无噪声的样本语音信号按照所述信噪比进行混合，以生成一种所述带噪声的样本语音信号；重复子模块，用于执行步骤四，多次重复步骤一至三，以生成多种所述带噪声的样本语音信号。

可选地，所述混合子模块，包括：获取单元，用于获取所述无噪声的样本语音信号的强度和时长；拼接单元，用于根据所述无噪声的样本语音信号的时长，对所述随机选择的噪声信号进行剪切和拼接，以使剪切和拼接后的所述噪声信号的时长和所述无噪声的样本语音信号的时长相等；调整单元，用于根据所述无噪声的样本语音信号的强度和所述信噪比，调整所述噪声信号的强度；叠加单元，用于将调整强度后的所述噪声信号叠加至所述无噪声的样本语音信号上，以生成一种所述带噪声的样本语音信号。

可选地，所述训练模块，包括：获取子模块，用于获取所述样本语音信号对应的发音音节；提取子模块，用于从所述样本语音信号中提取对应的语音特征；输入子模块，用于将所述样本语音信号对应的语音特征输入所述深度神经网络；比较子模块，用于将所述样本语音信号对应的发音音节与所述深度神经网络的输出结果进行比较，以训练所述深度神经网络中的参数。

本发明第三方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时实现如前述方法实施例所述的语音识别模型的生成方法。

本发明第四方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前述方法实施例所述的语音识别模型的生成方法。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1为本发明实施例所提供的一种语音识别模型的生成方法的流程示意图；

图2为本发明实施例所提供的另一种语音识别模型的生成方法的流程示意图；

图3为本发明实施例所提供的长短时记忆神经网络的细胞结构的示意图；

图4为本发明实施例所提供的语音识别模型的生成过程的示意图；

图5为本发明实施例所提供的一种语音识别模型的生成装置的结构示意图；以及

图6为本发明实施例所提供的另一种语音识别模型的生成装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的语音识别模型的生成方法及其装置。

基于上述现有技术的描述可以知道，相关技术中，通过信号处理来降低噪音并且提高语音信号强度，使得语音识别模型能够准确地识别出信号中的真实语音。但是信号处理方式不能对不同环境下噪声进行处理，具有很大的局限性。

针对这一问题，本发明实施例提供了一种语音识别模型的生成方法，使用不同环境下的带噪声语音信号对深度神经网络进行训练，以生成能够应对不同环境噪声的语音识别模型，增强了语音识别模型的鲁棒性。

图1为本发明实施例所提供的一种语音识别模型的生成方法的流程示意图。如图1所示，该方法包括以下步骤：

S101，获取多种环境下的噪声信号，以及无噪声的样本语音信号。

其中，多种环境下的噪声信号是在多种环境下采集的纯噪声信号，不包含任何语音信号。而无噪声的样本语音信号则是在安静环境下采集的纯语音信号，不包含任何噪声信号。

S102，根据多种环境下的噪声信号和无噪声的样本语音信号，生成多种带噪声的样本语音信号。

其中，多种带噪声的样本语音信号之间的区别在于包含的噪声信号种类不同，或者信噪比不同，信噪比是指带噪声的样本语音信号中无噪声的样本语音信号和噪声信号的强度之比。

为了让生成的多种带噪声的样本语音信号之间存在区别，一种可能的实现方式是，通过以下步骤生成多种带噪声的样本语音信号：

步骤一，从多种环境下的噪声信号中随机选择一种噪声信号。

需要说明的是，本发明实施例所提供的一种带噪声的样本语音信号仅包含一种环境下的噪声信号。

步骤二，从预设范围内随机选择一个数值，以作为待生成的带噪声的样本语音信号的信噪比。

其中，信噪比是带噪声的样本语音信号中无噪声的样本语音信号与随机选择的噪声信号的强度之比。

可以理解，由于实际使用中待识别语音信号的信噪比可能是预设范围内的任意数值，因此采用随机选择数值的方式确定信噪比。

一种优选的实现方式是，预设范围为0db-40db。

应当理解，当信噪比为0db时，表示无噪声的样本语音信号与随机选择的噪声信号的强度之比为1:1，此时带噪声的样本语音信号中无噪声的样本语音信号和噪声信号的强度相当。

当信噪比小于0db时，带噪声的样本语音信号中无噪声的样本语音信号的强度小于噪声信号，难以准确地对带噪声的样本语音信号中进行识别。

当信噪比为40db时，表示无噪声的样本语音信号与随机选择的噪声信号的强度之比为10000:1，接近盒式磁带录音机的最佳信噪比，噪声信号的强度较小，但依然可能影响语音信号的识别。

当信噪比大于40db时，带噪声的样本语音信号中无噪声的样本语音信号的强度远大于噪声信号，噪声信号几乎不会影响语音信号的识别，已经和在安静环境下进行语音识别十分接近。

因此，考虑到实际需求，本发明实施例所提供的语音识别模型的生成方法，将训练使用的多种带噪声的样本语音信号的信噪比限制在0db到40db之间。

步骤三，将随机选择的噪声信号与无噪声的样本语音信号按照信噪比进行混合，以生成一种带噪声的样本语音信号。

可以理解，在向无噪声的样本语音信号中添加噪声信号时，需要让添加的噪声信号的时长与无噪声的样本语音信号相同。

进一步地，还需要调整添加的噪声信号的强度，以使生成的带噪声的样本语音信号的信噪比为步骤二中选择的数值。

一种可能的实现方式是，获取无噪声的样本语音信号的强度和时长，根据无噪声的样本语音信号的时长，对随机选择的噪声信号进行剪切和拼接，以使剪切和拼接后的噪声信号的时长和无噪声的样本语音信号的时长相等。根据无噪声的样本语音信号的强度和信噪比，调整噪声信号的强度。将调整强度后的噪声信号叠加至无噪声的样本语音信号上，以生成一种带噪声的样本语音信号。

需要特别说明的是，对随机选择的噪声信号进行剪切和拼接，具体是将随机选择的噪声信号剪切成时长不同的多段短噪声信号，再根据无噪声的样本语音信号的时长随机选取多段短噪声信号进行拼接。

需要强调的是，在选取短噪声信号过程中，可以重复使用同一段短噪声信号进行拼接。

步骤四，多次重复步骤一至三，以生成多种带噪声的样本语音信号。

应当理解，经过步骤一至三，可以生成一种带噪声的样本语音信号。由于对噪声信号的选择、对信噪比数值的选择、对噪声信号的拼接都是随机的，因此每次生成的带噪声的样本语音信号都不一样，多次重复步骤一至三，可以生成多种带噪声的样本语音信号。

S103，使用样本语音信号，对深度神经网络进行训练，以生成语音识别模型。

其中，样本语音信号包括多种带噪声的样本语音信号和无噪声的样本语音信号。

应当理解，本发明实施例所生成的语音识别模型，既需要能在安静环境下进行语音识别，又需要能在不同的噪声环境下进行语音识别。因此需要使用多种带噪声的样本语音信号和无噪声的样本语音信号，进行模型训练。

综上所述，本发明实施例所提供的语音识别模型的生成方法，获取多种环境下的噪声信号，以及无噪声的样本语音信号。根据多种环境下的噪声信号和无噪声的样本语音信号，生成多种带噪声的样本语音信号。使用样本语音信号，对深度神经网络进行训练，以生成语音识别模型。其中，样本语音信号包括多种带噪声的样本语音信号和无噪声的样本语音信号。由此，实现了使用不同的样本语音信号对深度神经网络进行训练，以生成能够应对不同环境噪声的语音识别模型，增强了语音识别模型的鲁棒性。

为了更加清楚地说明本发明实施例所提供的语音识别模型的生成方法是如何生成语音识别模型的，本发明实施例还提出了另一种语音识别模型的生成方法，图2为本发明实施例所提供的另一种语音识别模型的生成方法的流程示意图。如图2所示，基于图1所示的方法流程，S103使用样本语音信号，对深度神经网络进行训练，以生成语音识别模型，包括：

S201，获取样本语音信号对应的发音音节。

其中，发音音节是样本语音信号的发音表示形式，如汉语中的拼音、英语中的音标、日语中的音谱等，通过发音音节来标注样本语音信号中语音的发音。

样本语音信号对应的发音音节是通过人工对样本语音信号进行标注后生成的，用来训练语音识别模型。

S202，从样本语音信号中提取对应的语音特征。

需要说明的是，本发明实施例所生成的语音识别模型是通过语音特征来对样本语音信号进行识别的，因此在训练时需要提取样本语音信号对应的语音特征来对语音识别模型进行训练。

S203，将样本语音信号对应的语音特征输入深度神经网络。

其中，深度神经网络由多层卷积神经网络与长短时记忆神经网络混合组成。

需要说明的是，卷积神经网络有较好的特征抽象能力，可以对不同频带的带噪声语音信号对应的语音特征进行特征抽象，提高不同带噪声语音信号之间的区分性。

长短时记忆神经网络通过其细胞结构中的状态结构缓存历史的状态信息，并且通过输入门、遗忘门以及输出门对历史状态进行维护，从而实现了长距离历史信息的有效缓存。由于长短时记忆神经网络的细胞结构能够维护长距离的历史信息，因此特别适合语音识别等具有长依赖特性的序列预测任务。

图3为本发明实施例所提供的长短时记忆神经网络的细胞结构的示意图，如图3所示，输入序列为x＝(x₁，…，x_T)，其中T表示输入序列的长度。对于任意时刻的输入x_t，细胞结构通过以下公式对结构中的各个单元进行计算：

i_t＝σ(W_ix x_t+W_im m_t-1+W_ic c_t-1+b_i)，

f_t＝σ(W_fx x_t+W_fm m_t-1+W_fc c_t-1+b_f)，

c_t＝f_t⊙c_t-1+i_t⊙g(W_cx x_t+W_cm m_t-1+b_c)，

o_t＝σ(W_ox x_t+W_om m_t-1+W_oc c_t-1+b_o)，

m_t＝o_t⊙h(c_t)，

其中，W表示权重矩阵，b表示偏置向量。i、f、o、c、m分别表示输入门、遗忘门、输出门、状态单元以及细胞结构的输出，⊙表示向量按元素的乘积，σ为sigmoid函数，公式为g和h表示状态单元的输入和输出激活函数，具体为tanh函数，公式为

需要说明的是，深度神经网络首先对输入的语音特征进行特征编码，再经过数学运算，得到与发音音节一一对应的音节编码，将音节编码转化为对应的发音音节，输出一段发音音节。

S204，将样本语音信号对应的发音音节与深度神经网络的输出结果进行比较，以训练深度神经网络中的参数。

应当理解，如图4所示，训练深度神经网络中参数的目的就是为了能够让训练后的深度神经网络能够对样本语音信号进行处理，从中识别出样本语音信号对应的发音音节，因此当深度神经网络的输出结果和样本语音信号对应的发音音节相同时，说明深度神经网络中的参数已经能够实现对样本语音信号的识别，深度神经网络也就成为了语音识别模型。

从而，实现了通过对深度神经网络进行训练，生成语音识别模型。

为了实现上述实施例，本发明实施例还提出一种语音识别模型的生成装置，图5为本发明实施例所提供的一种语音识别模型的生成装置的结构示意图，如图5所示，该装置包括：获取模块310，生成模块320，训练模块330。

获取模块310，用于获取多种环境下的噪声信号，以及无噪声的样本语音信号。

生成模块320，用于根据多种环境下的噪声信号和无噪声的样本语音信号，生成多种带噪声的样本语音信号。

训练模块330，用于使用样本语音信号，对深度神经网络进行训练，以生成语音识别模型，其中，样本语音信号包括多种带噪声的样本语音信号和无噪声的样本语音信号。

进一步地，为了让生成的多种带噪声的样本语音信号之间存在区别，一种可能的实现方式是，生成模块320，包括：第一选择子模块321，用于执行步骤一，从多种环境下的噪声信号中随机选择一种噪声信号。第二选择子模块322，用于执行步骤二，从预设范围内随机选择一个数值，以作为待生成的带噪声的样本语音信号的信噪比，其中，信噪比是带噪声的样本语音信号中无噪声的样本语音信号与随机选择的噪声信号的强度之比。混合子模块323，用于执行步骤三，将随机选择的噪声信号与无噪声的样本语音信号按照信噪比进行混合，以生成一种带噪声的样本语音信号。重复子模块324，用于执行步骤四，多次重复步骤一至三，以生成多种带噪声的样本语音信号。

进一步地，为了将随机选择的噪声信号与无噪声的样本语音信号按照信噪比进行混合，一种可能的实现方式是，混合子模块323，包括：获取单元3231，用于获取无噪声的样本语音信号的强度和时长。拼接单元3232，用于根据无噪声的样本语音信号的时长，对随机选择的噪声信号进行剪切和拼接，以使剪切和拼接后的噪声信号的时长和无噪声的样本语音信号的时长相等。调整单元3233，用于根据无噪声的样本语音信号的强度和信噪比，调整噪声信号的强度。叠加单元3234，用于将调整强度后的噪声信号叠加至无噪声的样本语音信号上，以生成一种带噪声的样本语音信号。

需要说明的是，前述对语音识别模型的生成方法实施例的解释说明也适用于该实施例的语音识别模型的生成装置，此处不再赘述。

综上所述，本发明实施例所提供的语音识别模型的生成装置，获取多种环境下的噪声信号，以及无噪声的样本语音信号。根据多种环境下的噪声信号和无噪声的样本语音信号，生成多种带噪声的样本语音信号。使用样本语音信号，对深度神经网络进行训练，以生成语音识别模型。其中，样本语音信号包括多种带噪声的样本语音信号和无噪声的样本语音信号。由此，实现了使用不同的样本语音信号对深度神经网络进行训练，以生成能够应对不同环境噪声的语音识别模型，增强了语音识别模型的鲁棒性。

为了实现上述实施例，本发明实施例还提出另一种语音识别模型的生成装置，图6为本发明实施例所提供的另一种语音识别模型的生成装置的结构示意图，如图6所示，基于图5所示的装置结构，训练模块330，包括：获取子模块331，提取子模块332，输入子模块333，比较子模块334。

获取子模块331，用于获取样本语音信号对应的发音音节。

提取子模块332，用于从样本语音信号中提取对应的语音特征。

输入子模块333，用于将样本语音信号对应的语音特征输入深度神经网络。

比较子模块334，用于将样本语音信号对应的发音音节与深度神经网络的输出结果进行比较，以训练深度神经网络中的参数。

为了实现上述实施例，本发明实施例还提出一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时实现如前述方法实施例所述的语音识别模型的生成方法。

为了实现上述实施例，实施例还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前述方法实施例所述的语音识别模型的生成方法。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语音识别模型的生成方法，其特征在于，包括：

获取多种环境下的噪声信号，以及无噪声的样本语音信号；

根据所述多种环境下的噪声信号和所述无噪声的样本语音信号，生成多种带噪声的样本语音信号；以及

使用样本语音信号，对深度神经网络进行训练，以生成语音识别模型，其中，所述样本语音信号包括所述多种带噪声的样本语音信号和所述无噪声的样本语音信号。

2.如权利要求1所述的方法，其特征在于，所述根据所述多种环境下的噪声信号和所述无噪声的样本语音信号，生成多种带噪声的样本语音信号，包括：

步骤一，从所述多种环境下的噪声信号中随机选择一种噪声信号；

步骤二，从预设范围内随机选择一个数值，以作为待生成的所述带噪声的样本语音信号的信噪比，其中，所述信噪比是所述带噪声的样本语音信号中所述无噪声的样本语音信号与所述随机选择的噪声信号的强度之比；

步骤三，将所述随机选择的噪声信号与所述无噪声的样本语音信号按照所述信噪比进行混合，以生成一种所述带噪声的样本语音信号；

步骤四，多次重复步骤一至三，以生成多种所述带噪声的样本语音信号。

3.如权利要求2所述的方法，其特征在于，所述将所述随机选择的噪声信号与所述无噪声的样本语音信号按照所述信噪比进行混合，以生成一种所述带噪声的样本语音信号，包括：

获取所述无噪声的样本语音信号的强度和时长；

根据所述无噪声的样本语音信号的时长，对所述随机选择的噪声信号进行剪切和拼接，以使剪切和拼接后的所述噪声信号的时长和所述无噪声的样本语音信号的时长相等；

根据所述无噪声的样本语音信号的强度和所述信噪比，调整所述噪声信号的强度；

将调整强度后的所述噪声信号叠加至所述无噪声的样本语音信号上，以生成一种所述带噪声的样本语音信号。

4.如权利要求1-3中任一项所述的方法，其特征在于，所述深度神经网络由多层卷积神经网络与长短时记忆神经网络混合组成。

5.如权利要求4所述的方法，其特征在于，所述使用样本语音信号，对深度神经网络进行训练，以生成语音识别模型，包括：

获取所述样本语音信号对应的发音音节；

从所述样本语音信号中提取对应的语音特征；

将所述样本语音信号对应的语音特征输入所述深度神经网络；

将所述样本语音信号对应的发音音节与所述深度神经网络的输出结果进行比较，以训练所述深度神经网络中的参数。

6.一种语音识别模型的生成装置，其特征在于，包括：

获取模块，用于获取多种环境下的噪声信号，以及无噪声的样本语音信号；

生成模块，用于根据所述多种环境下的噪声信号和所述无噪声的样本语音信号，生成多种带噪声的样本语音信号；以及

训练模块，用于使用样本语音信号，对深度神经网络进行训练，以生成语音识别模型，其中，所述样本语音信号包括所述多种带噪声的样本语音信号和所述无噪声的样本语音信号。

7.如权利要求6所述的装置，其特征在于，所述生成模块，包括：

第一选择子模块，用于执行步骤一，从所述多种环境下的噪声信号中随机选择一种噪声信号；

第二选择子模块，用于执行步骤二，从预设范围内随机选择一个数值，以作为待生成的所述带噪声的样本语音信号的信噪比，其中，所述信噪比是所述带噪声的样本语音信号中所述无噪声的样本语音信号与所述随机选择的噪声信号的强度之比；

混合子模块，用于执行步骤三，将所述随机选择的噪声信号与所述无噪声的样本语音信号按照所述信噪比进行混合，以生成一种所述带噪声的样本语音信号；

重复子模块，用于执行步骤四，多次重复步骤一至三，以生成多种所述带噪声的样本语音信号。

8.如权利要求7所述的装置，其特征在于，所述混合子模块，包括：

获取单元，用于获取所述无噪声的样本语音信号的强度和时长；

拼接单元，用于根据所述无噪声的样本语音信号的时长，对所述随机选择的噪声信号进行剪切和拼接，以使剪切和拼接后的所述噪声信号的时长和所述无噪声的样本语音信号的时长相等；

调整单元，用于根据所述无噪声的样本语音信号的强度和所述信噪比，调整所述噪声信号的强度；

叠加单元，用于将调整强度后的所述噪声信号叠加至所述无噪声的样本语音信号上，以生成一种所述带噪声的样本语音信号。

9.如权利要求6-8中任一项所述的装置，其特征在于，所述深度神经网络由多层卷积神经网络与长短时记忆神经网络混合组成。

10.如权利要求9所述的装置，其特征在于，所述训练模块，包括：

获取子模块，用于获取所述样本语音信号对应的发音音节；

提取子模块，用于从所述样本语音信号中提取对应的语音特征；

输入子模块，用于将所述样本语音信号对应的语音特征输入所述深度神经网络；

比较子模块，用于将所述样本语音信号对应的发音音节与所述深度神经网络的输出结果进行比较，以训练所述深度神经网络中的参数。

11.一种计算机程序产品，其特征在于，当所述计算机程序产品中的指令处理器执行时实现如权利要求1-5中任一项所述的语音识别模型的生成方法。

12.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的语音识别模型的生成方法。