CN106991999B

CN106991999B - 语音识别方法及装置

Info

Publication number: CN106991999B
Application number: CN201710198565.9A
Authority: CN
Inventors: 万韶华
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2017-03-29
Filing date: 2017-03-29
Publication date: 2020-06-02
Anticipated expiration: 2037-03-29
Also published as: CN106991999A

Abstract

本公开是关于一种语音识别方法及装置。该方法包括获取语音识别模型中待输入深度神经网络DNN第i层网络的M个语音数据，每个语音数据包括语音的持续时间、语音频率和语音强度；对M个语音数据包括的M个语音强度进行正则化处理，获取M个正则语音数据，每个正则语音数据包括语音的持续时间、语音频率和正则语音强度；根据M个正则语音数据，获取输入DNN第i层网络的M个输入语音数据。该技术方案中，通过对待输入DNN网络中第i层网络的语音数据进行正则化处理，并根据正则化后的语音数据获取第i层网络的输入语音数据，提高了DNN网络的训练速度，降低了输入的语音数据中声音强度对语音识别的影响，进而提高了语音识别的准确率。

Description

语音识别方法及装置

技术领域

本公开涉及语音识别技术领域，尤其涉及一种语音识别方法及装置。

背景技术

随着科技的发展，越来越多的智能设备进入了我们的生活，其中绝大多数智能设备实现了语音操控，极大的便利了我们的生活。

为了精确实现语音操控，需要为智能设备设置语音识别系统，一个完整的语音识别系统，包含了声学模型(Acoustic Model)和HMM(Hidden Markov Model，隐形马尔科夫模型)这两个关键模块，传统的语音识别技术中，通常采用GMM(Gaussian Mixture Model，高斯混合模型)-HMM框架来实现上述两个模块，但是由于GMM模拟任意函数的能力取决于混合高斯函数的模(mode)的个数，具有一定的局限性，属于浅层模型，因此相关技术中还可以采用DNN(Deep Neural Networks，深度神经网络)建立声学模型和隐形马尔科夫模型，通过DNN对声学模型进行建模，能取得比GMM更好的建模效果，语音识别的准确率也更高。

发明内容

为克服相关技术中存在的问题，本公开实施例提供一种语音识别方法及装置。所述技术方案如下：

根据本公开实施例的第一方面，提供一种语音识别方法，包括：

获取语音识别模型中待输入DNN第i层网络的M个语音数据，每个所述语音数据包括语音的持续时间、语音频率和语音强度；所述i为大于或等于1的整数；

对所述M个语音数据包括的M个语音强度进行正则化处理，获取M个正则语音数据，每个所述正则语音数据包括语音的所述持续时间，所述语音频率和正则语音强度，所述M为大于或等于1的整数；

根据所述M个正则语音数据，获取输入所述DNN第i层网络的M个输入语音数据。

本公开的实施例提供的技术方案可以包括以下有益效果：通过对待输入DNN网络中第i层网络的语音数据进行正则化处理，并根据正则化后的语音数据获取第i层网络的输入语音数据，提高了DNN网络的训练速度，降低了输入的语音数据中声音强度对语音识别的影响，进而提高了语音识别的准确率。

在一个实施例中，所述根据所述M个正则语音数据，获取输入所述DNN第i层网络的M个输入语音数据包括：

将所述M个正则语音数据作为输入所述DNN第i层网络的所述M个输入语音数据。

本公开的实施例提供的技术方案可以包括以下有益效果：通过将正则化后的输入语音数据作为输入DNN网络中第i层网络的输入语音数据，提高了DNN网络的训练速度，降低了输入的语音数据中声音强度对语音识别的影响，进而提高了语音识别的准确率。

在一个实施例中，所述对所述M个语音数据包括的M个语音强度进行正则化处理，获取M个正则语音数据包括：

将所述M个语音数据按照预设规则分成N组语音数据；

对所述N组语音数据中每组语音数据分别进行正则化处理，获取N组正则语音数据，所述N组正则语音数据共包括M个正则语音数据。

本公开的实施例提供的技术方案可以包括以下有益效果：可以采用分批次正则化的方法对DNN网络中第i层网络的输入语音数据进行正则化处理，降低了正则化过程中对处理器的要求，提高了处理器的处理速度，进而提高了DNN网络的训练速度。

获取所述M个语音强度的均值E[X⁽ⁱ⁾]和所述M个语音强度的方差Var[X⁽ⁱ⁾]；

根据第一公式，对所述M个语音强度x⁽ⁱ⁾进行正则化处理，获取M个正则语音强度x^∧(i)；

所述第一公式为：

根据所述M个正则语音强度x^∧(i)，获取所述M个正则语音数据。

本公开的实施例提供的技术方案可以包括以下有益效果：通过第一公式对DNN网络中第i层网络的输入语音数据进行正则化处理，提高了正则化的处理速度和精度，进而提高了DNN网络的训练速度。

对所述M个正则语音数据包括的M个正则语音强度进行逆正则处理，获取M个逆正则语音数据，每个所述逆正则语音数据包括语音的所述持续时间，所述语音频率和逆正则语音强度；

将所述M个逆正则语音数据作为输入所述DNN第i层网络的所述M个输入语音数据。

本公开的实施例提供的技术方案可以包括以下有益效果：在对DNN网络中第i层网络的输入语音数据进行正则化处理之后，再进行合理的逆正则化处理，并将逆正则化之后的语音数据作为输入第i层网络的输入语音数据提高了第i层网络的输入语音数据的多样性，进而提高了语音识别的准确率。

在一个实施例中，所述对所述M个正则语音数据包括的M个正则语音强度进行逆正则处理，获取M个逆正则语音数据包括：

根据第二公式对所述M个正则语音强度进行逆正则处理，获取M个逆正则语音强度y⁽ⁱ⁾；所述第二公式为y⁽ⁱ⁾＝γ⁽ⁱ⁾x^∧(i)+β⁽ⁱ⁾；其中，所述x^∧(i)为M个正则语音强度，所述γ⁽ⁱ⁾为所述第i层网络的逆正则方差参数，所述β⁽ⁱ⁾为所述第i层网络的逆正则均值参数；

根据所述M个逆正则语音强度y⁽ⁱ⁾，获取所述M个逆正则语音数据。

本公开的实施例提供的技术方案可以包括以下有益效果：通过第二公式对DNN网络中第i层网络正则化之后的输入语音数据进行逆正则化处理，提高了逆正则化的处理速度和精度，进而提高了DNN网络的训练速度。

在一个实施例中，所述第i层网络包括第i卷积层，第i池化层和第i激活层；所述方法还包括：

将所述M个输入语音数据输入所述第i卷积层，获取所述第i卷积层输出的M个卷积语音数据；

将所述M个卷积语音数据输入所述第i池化层，获取所述第i池化层输出的M个池化语音数据；

将所述M个池化语音数据输入所述第i激活层，获取所述第i激活层输出的待输入第i+1层网络的M个语音数据。

本公开的实施例提供的技术方案可以包括以下有益效果：通过对DNN每一层网络的语音数据进行正则化，可以取消DNN包括的局部反馈归一化层和拟合层，精简了DNN的结构，减少了语音识别的计算过程，提高了DNN网络的训练速度。

在一个实施例中，所述第i层网络包括第i归一化层，第i卷积层，第i池化层和第i激活层；所述方法还包括：

将所述M个输入语音数据输入所述第i归一化层，获取所述第i归一化层输出的M个归一化语音数据；

将所述M个归一化语音数据输入所述第i卷积层，获取所述第i卷积层输出的M个卷积语音数据；

本公开的实施例提供的技术方案可以包括以下有益效果：通过对DNN每一层网络的语音数据进行正则化，可以取消DNN包括的拟合层，精简了DNN的结构，减少了语音识别的计算过程，提高了DNN网络的训练速度。

在一个实施例中，所述第i层网络包括第i卷积层，第i拟合层，第i池化层和第i激活层；所述方法还包括：

将所述M个卷积语音数据输入所述第i拟合层，获取所述第i拟合层输出的M个拟合语音数据；

将所述M个拟合语音数据输入所述第i池化层，获取所述第i池化层输出的M个池化语音数据；

本公开的实施例提供的技术方案可以包括以下有益效果：通过对DNN每一层网络的语音数据进行正则化，可以取消DNN包括的局部反馈归一化层，精简了DNN的结构，减少了语音识别的计算过程，提高了DNN网络的训练速度。

根据本公开实施例的第二方面，提供一种语音识别装置，包括：

第一获取模块，用于获取语音识别模型中待输入DNN第i层网络的M个语音数据，每个所述语音数据包括语音的持续时间、语音频率和语音强度；所述i为大于或等于1的整数；

正则化模块，用于对所述M个语音数据包括的M个语音强度进行正则化处理，获取M个正则语音数据，每个所述正则语音数据包括语音的所述持续时间，所述语音频率和正则语音强度，所述M为大于或等于1的整数；

第二获取模块，用于根据所述M个正则语音数据，获取输入所述DNN第i层网络的M个输入语音数据。

在一个实施例中，所述第二获取模块包括：

第一处理子模块，用于将所述M个正则语音数据作为输入所述DNN第i层网络的所述M个输入语音数据。

在一个实施例中，所述正则化模块包括：

第一获取子模块，用于将所述M个语音数据按照预设规则分成N组语音数据；

第一正则化子模块，用于对所述N组语音数据中每组语音数据分别进行正则化处理，获取N组正则语音数据，所述N组正则语音数据共包括M个正则语音数据。

在一个实施例中，所述正则化模块包括：

第二获取子模块，用于获取所述M个语音强度的均值E[X⁽ⁱ⁾]和所述M个语音强度的方差Var[X⁽ⁱ⁾]；

第二正则化子模块，用于根据第一公式，对所述M个语音强度x⁽ⁱ⁾进行正则化处理，获取M个正则语音强度x^∧(i)；

所述第一公式为

第三获取子模块，用于根据所述M个正则语音强度x^∧(i)，获取所述M个正则语音数据。

在一个实施例中，所述第二获取模块包括：

逆正则子模块，用于对所述M个正则语音数据包括的M个正则语音强度进行逆正则处理，获取M个逆正则语音数据，每个所述逆正则语音数据包括语音的所述持续时间，所述语音频率和逆正则语音强度；

第二处理子模块，用于将所述M个逆正则语音数据作为输入所述DNN第i层网络的所述M个输入语音数据。

在一个实施例中，所述逆正则子模块包括：

逆正则单元，用于根据第二公式对所述M个正则语音强度进行逆正则处理，获取M个逆正则语音强度y⁽ⁱ⁾；所述第二公式为：y⁽ⁱ⁾＝γ⁽ⁱ⁾x^∧(i)+β⁽ⁱ⁾；其中，所述x^∧(i)为M个正则语音强度，所述γ⁽ⁱ⁾为所述第i层网络的逆正则方差参数，所述β⁽ⁱ⁾为所述第i层网络的逆正则均值参数；

获取单元，用于根据所述M个逆正则语音强度y⁽ⁱ⁾，获取所述M个逆正则语音数据。

在一个实施例中，所述第i层网络由第i卷积层，第i池化层和第i激活层组成；

所述第i卷积层用于处理所述第二获取模块获取的M个输入语音数据，获取M个卷积语音数据；

所述第i池化层用于处理所述M个卷积语音数据，获取M个池化语音数据；

所述第i激活层用于处理所述M个池化语音数据，获取待输入第i+1层网络的M个语音数据。

在一个实施例中，所述第i层网络由第i归一化层，第i卷积层，第i池化层和第i激活层组成；

所述第i归一化层用于处理所述第二获取模块获取的M个输入语音数据，获取M个归一化语音数据；

所述第i卷积层用于处理所述M个归一化语音数据，获取M个卷积语音数据；

在一个实施例中，所述第i层网络由第i卷积层，第i拟合层，第i池化层和第i激活层组成；

所述第i拟合层用于处理所述M个卷积语音数据，获取M个拟合语音数据；

所述第i池化层用于处理所述M个拟合语音数据，获取M个池化语音数据；

根据本公开实施例的第三方面，提供一种语音识别装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1a是根据一示例性实施例示出的语音识别方法的流程图。

图1b是根据一示例性实施例示出的语音识别方法的流程图。

图1c是根据一示例性实施例示出的语音识别方法的流程图。

图1d是根据一示例性实施例示出的相关技术中的DNN结构示意图。

图1e是根据一示例性实施例示出的DNN的第i层网络的结构示意图。

图1f是根据一示例性实施例示出的DNN的第i层网络的结构示意图。

图1g是根据一示例性实施例示出的DNN的第i层网络的结构示意图。

图2是根据一示例性实施例示出的语音识别方法的流程图。

图3是根据一示例性实施例示出的语音识别方法的流程图。

图4a是根据一示例性实施例示出的语音识别装置的结构示意图。

图4b是根据一示例性实施例示出的语音识别装置的结构示意图。

图4c是根据一示例性实施例示出的语音识别装置的结构示意图。

图4d是根据一示例性实施例示出的语音识别装置的结构示意图。

图4e是根据一示例性实施例示出的语音识别装置的结构示意图。

图4f是根据一示例性实施例示出的语音识别装置的结构示意图。

图5是根据一示例性实施例示出的语音识别装置的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开实施例提供的技术方案涉及语音识别系统，该语音识别系统包括由DNN网络构建的语音识别模型，可以应用于手机，平板电脑，智能可穿戴设备，智能家居设备以及其他设置有语音识别功能的装置，本公开实施例对此不做限定。相关技术中，由于DNN理论上能够模拟任意的函数，表达能力更强，因此采用DNN构建的语音识别模型，能取得比GMM-HMM更好的效果，语音识别的准确率也更高。但是在DNN建立语音识别模型的过程中，每一层输入的语音数据的尺度是不一致的，因此每一层需要的学习率也是不一样的，同一层不同维度的尺度也不同，也需要大小不同的学习率。在这种条件下，学习率的上限值由尺度最小的那一层(或者那一维度)决定，才能保证损失函数有效下降。为了使每一层网络适应新的输入数据的尺度，建模过程中必须初始化每一层网络的参数、并不断地降低算法的学习率，因此降低了语音识别的速度。

为了降低DNN模型对初始化值的敏感性，提高模型训练的学习率，可以对DNN网络中每一层网络的输入语音数据进行正则化处理，通过正则化使得DNN模型中每层以及每个维度的尺度保持一致，缓解了DNN系统中的过拟合现象，同时能够大大加快DNN模型的训练速度，降低输入的语音数据中声音强度对语音识别的影响，进而提高了语音识别的准确率。

图1a是根据一示例性实施例示出的一种语音识别方法的流程图，该方法应用于语音识别系统，该语音识别系统包括由DNN网络构建的语音识别模型。如图1a所示，该语音识别方法包括以下步骤101至步骤103：

在步骤101中，获取语音识别模型中待输入DNN第i层网络的M个语音数据，每个语音数据包括语音的持续时间、语音频率和语音强度。

示例的，语音识别系统可以通过DNN实现语音识别功能，该DNN包括多层感知机，即包括多层神经网络(以下简称网络)，前一层网络的输出语音数据可以作为下一层网络的输入语音数据，经过多层网络的识别，最后输出的即为语音识别模块识别出的语义。

假设该DNN包括S层网络，以第i层网络为例进行说明，该第i层网络为S层网络中任意一层网络，即i为大于或等于1且小于或等于S的整数。具体的，可以获取DNN中第i-1层网络输出的M个语音数据，将该M个语音数据作为待输入第i层网络的M个语音数据。

在步骤102中，对M个语音数据包括的M个语音强度进行正则化处理，获取M个正则语音数据，每个正则语音数据包括语音的持续时间、语音频率和正则语音强度，所述M为大于或等于1的整数。

示例的，在获取到待输入第i层网络的M个语音数据之后，从该M个语音数据中获取M个语音强度，并对该M个语音强度进行正则化处理，采用该正则化方法可以削弱特征不明显的语音数据对语音识别的影响，降低了语音识别模型的复杂度。

例如，可以首先获取M个语音强度的均值和方差，然后对M个语音强度中每个语音强度进行减均值除方差处理，获取M个正则语音数据，正则化后的M个正则语音数据的语音强度的范围为[-1,1]，有效降低了语音强度对语音识别的影响。本公开实施例仅以上述方案示例说明正则化，并不限定正则化的具体算法，相关技术中出现的正则化方法均可以应用于本技术方案。

在步骤103中，根据所述M个正则语音数据，获取输入DNN第i层网络的M个输入语音数据。

示例的，可以将该M个正则语音数据作为输入DNN第i层网络的M个输入语音数据，即可以将M个正则语音数据输入DNN第i层网络，使得第i层网络在不受语音强度影响的情况下进行语音识别。

同理的，待输入DNN网络中每一层的网络的语音数据均可以按照上述方法进行处理，使得每一层的网络的训练速度和精度均得到提高。

本公开的实施例提供的技术方案中，通过对待输入DNN网络中第i层网络的语音数据进行正则化处理，并根据正则化后的语音数据获取第i层网络的输入语音数据，提高了DNN网络的训练速度，降低了输入的语音数据中声音强度对语音识别的影响，进而提高了语音识别的准确率。

在一个实施例中，如图1b所示，在步骤102中，对M个语音数据包括的M个语音强度进行正则化处理，获取M个正则语音数据可以通过步骤1021和步骤1022实现：

在步骤1021中，将M个语音数据按照预设规则分成N组语音数据。

在步骤1022中，对N组语音数据中每组语音数据分别进行正则化处理，获取N组正则语音数据，N组正则语音数据共包括M个正则语音数据。

示例的，如果待输入第i层网络的M个语音数据的数据量较大，则处理器在对M个语音数据统一进行正则化处理时的计算量较大，容易导致处理器的处理速度降低，进而导致语音识别效率降低。因此在对待输入第i层网络的M个语音数据进行正则化时，可以首先按照预设规则将M个语音数据分为N组语音数据，每组语音数据包括多个语音数据，然后获取每组多个语音数据包括的语音强度，并获取该多个语音强度的均值和方差，对每组多个语音强度中的每个语音强度进行减均值除方差处理，进而获取每组语音数据的正则语音数据。所述预设规则可以是平均分配原则，即将M个语音数据平均分为N组；也可以是等差分配原则，即将M个语音数据按照等差数列分配为N组，该N组语音数据包括语音数据的个数的成等差数列分布；还可以是等比分配原则，即将M个语音数据按照等比数列分配为N组，该N组语音数据包括语音数据的个数的成等比数列分布。

示例的，假设待输入第i层网络的语音数据为100个，按照平均分配原则将该100个语音数据分为10组语音数据，每组包括10个语音数据。以第j组语音数据为例进行说明，该第j组语音数据为10组语音数据中任意一组。具体的，首先获取第j组包括的10个语音数据中每个语音数据的语音强度，然后获取该10个语音强度的均值和方差，并对该10个语音强度中每个语音强度进行减均值除方差的处理，获取10个正则语音强度。通过将该10个正则语音强度写入对应的10个语音数据，即可获取第j组包括的10个正则语音数据。同理的，其他组的语音数据也可以参考上述方法进行正则处理。

本公开的实施例提供的技术方案中，可以采用分批次正则化的方法对DNN网络中第i层网络的输入语音数据进行正则化处理，降低了正则化过程中对处理器的要求，提高了处理器的处理速度，进而提高了DNN网络的训练速度。

在一个实施例中，在对M个语音数据包括的M个语音强度进行正则化处理时，可以首先获取M个语音强度的均值E[X⁽ⁱ⁾]和M个语音强度的方差Var[X⁽ⁱ⁾]，然后根据第一公式，对M个语音强度x⁽ⁱ⁾进行正则化处理，获取M个正则语音强度x^∧(i)，进而根据M个正则语音强度x^∧(i)，获取M个正则语音数据。

其中，第一公式为：

第一公式中x⁽ⁱ⁾为1*M的矩阵，矩阵中每个元素代表一个未正则化的语音强度，x^∧(i)为1*M的矩阵，矩阵中每个元素代表一个正则后的语音强度，x⁽ⁱ⁾与x^∧(i)为一一对应关系。

在获取到x^∧(i)包括的M个正则语音强度之后，将每个正则语音强度写入与其对应的x⁽ⁱ⁾中未正则的语音强度对应的语音数据，获取M个正则语音数据。

同理的，可以按照上述方法处理其他层网络的待输入数据。

本公开的实施例提供的技术方案中，通过第一公式对DNN网络中第i层网络的输入语音数据进行正则化处理，提高了正则化的处理速度和精度，进而提高了DNN网络的训练速度。

在一个实施例中，如图1c所示，在步骤103中，根据所述M个正则语音数据，获取输入所述DNN第i层网络的M个输入语音数据可以通过步骤1031和步骤1032实现：

在步骤1031中，对M个正则语音数据包括的M个正则语音强度进行逆正则处理，获取M个逆正则语音数据，每个逆正则语音数据包括语音的持续时间、语音频率和逆正则语音强度。

在步骤1032中，将M个逆正则语音数据作为输入DNN第i层网络的M个输入语音数据。

示例的，如果待输入第i层网络的M个语音数据的数据量较大，将该M个语音数据中每个语音数据的语音强度均正则化至[-1,1]范围内，可能会导致语音的多样性降低，进而使得语音识别的识别率降低，因此在获取到M个正则语音数据之后，还可以对该M个正则语音数据进行逆正则处理。具体的，首先获取M个正则语音数据中每个正则语音数据包括的正则语音强度，然后为每个正则语音强度乘以逆正则方差参数，加上逆正则均值参数，使得每个正则语音强度适当增大。

为了获取当前DNN网络的逆正则方差参数和逆正则均值参数，可以首先向DNN网络构建的语音识别模型中输入一组语义已知的语音数据，然后调整该模型中的逆正则方差参数和逆正则均值参数，通过该模型进行语音识别，获取识别出的语义，并确定识别出的语义的正确率；然后调整该模型中的逆正则方差参数和逆正则均值参数，并输入该语义已知的语音数据进行语音识别，确定识别出的语义的正确率。经过多次训练之后，选取正确率最高的一次训练中使用的逆正则方差参数和逆正则均值参数作为该DNN网络构建的语音识别模型在语音识别时对语音数据进行逆正则处理时的逆正则方差参数和逆正则均值参数。

示例的，在对M个正则语音数据包括的M个正则语音强度进行逆正则处理时，可以首先根据第二公式对M个正则语音强度进行逆正则处理，获取M个逆正则语音强度y⁽ⁱ⁾，然后根据M个逆正则语音强度y⁽ⁱ⁾，获取M个逆正则语音数据。

其中，第二公式为y⁽ⁱ⁾＝γ⁽ⁱ⁾x^∧(i)+β⁽ⁱ⁾；所述x^∧(i)为M个正则语音强度，γ⁽ⁱ⁾为第i层网络的逆正则方差参数，β⁽ⁱ⁾为第i层网络的逆正则均值参数。

第二公式中的y⁽ⁱ⁾为1*M的矩阵，矩阵中每个元素代表一个逆正则化后的语音强度，y⁽ⁱ⁾与x^∧(i)为一一对应关系。

在获取到y(i⁾包括的M个逆正则语音强度之后，将每个逆正则语音强度写入与其对应的x^∧(i)中正则化后的语音强度对应的语音数据，获取M个逆正则语音数据。

同理的，可以按照上述方法处理其他层网络的待输入数据。

上述实施例同样适用于图1b所示的技术方案。

本公开的实施例提供的技术方案中，在对DNN网络中第i层网络的输入语音数据进行正则化处理之后，再进行合理的逆正则化处理，并将逆正则化之后的语音数据作为输入第i层网络的输入语音数据提高了第i层网络的输入语音数据的多样性，进而提高了语音识别的准确率。

相关技术中，如图1d所示，现有的DNN由S层网络和一个全连接层组成，以第i层网络为例进行说明，现有的DNN的第i层网络包括第i局部反馈归一化(Local ResponseNormalization)层，第i卷积(Convolution)层，第i拟合(Dropout)层，第i池化层(pooling)和第i激活(Rule)层。其中，第i局部反馈归一化层用于将输入第i层网络的语音数据做归一化处理；第i拟合层用于防止语音识别时出现数据过拟合的情况。即当M个语音数据输入该DNN的第i层网络时，首先需要将该M个语音数据输入第i局部反馈归一化层，获取M个归一化语音数据，该归一化可以消除M个语音强度的语音强度之间的量纲和量纲单位的影响，增加M个语音强度之间的可比性。例如，常用的归一化算法可以为

其中，g^∧(i)为M个归一化语音强度，x_max为M个语音强度的最大值，x_min为M个语音强度的最小值。在将M个语音数据归一化后，可以将该M个归一化语音数据输入第i卷积层，获取M个卷积语音数据，接着将该M个卷积语音数据输入第i拟合层，获取M个拟合语音数据，将该M个拟合语音数据输入第i池化层，获取M个池化语音数据，最后将该M个池化语音数据输入第i激活层，获取M个激活语音数据，该M个激活语音数据即为第i+1层网络的输入数据。

如图1e所示，本公开实施例提供的语音模型包括的DNN的第i层网络设置有第i卷积层，第i池化层和第i激活层，即采用本公开实施例提供的对语音数据的处理方法可以取消第i层网络包括的局部反馈归一化层和拟合层，在进行语音识别时可以直接将本公开实施例获取到的第i层的M个输入语音数据输入第i层网络包括的第i卷积层，获取该第i卷积层输出的M个卷积语音数据，将该M个卷积语音数据输入第i层网络包括的第i池化层，获取该第i池化层输出的M个池化语音数据，然后将该M个池化语音数据输入第i层网络包括的第i激活层，获取第i激活层输出的M个激活语音数据，该M个激活语音数据即为待输入第i+1层网络的M个语音数据。

同理的，DNN中每一层网络包括的局部反馈归一化层和拟合层均可以被取消，大大简化了DNN的结构。

实际应用中，如图1f所示，本公开实施例提供的语音模型包括的DNN的第i层网络还可以设置有第i归一化层，第i卷积层，第i池化层和第i激活层，即采用本公开实施例提供的对语音数据的处理方法可以取消第i层网络包括的拟合层，其中第i归一化层可以为现有第i层网络的局部反馈归一化层。在进行语音识别时可以直接将本公开实施例获取到的第i层的M个输入语音数据输入第i层网络包括的第i归一化层，然后将M个归一化语音数据输入第i卷积层，获取第i卷积层输出的M个卷积语音数据，进而将M个卷积语音数据输入第i池化层，获取第i池化层输出的M个池化语音数据，最后将M个池化语音数据输入第i激活层，获取第i激活层输出的待输入第i+1层网络的M个语音数据。

或者，如图1g所示，本公开实施例提供的语音模型包括的DNN的第i层网络还可以设置有第i卷积层，第i拟合层，第i池化层和第i激活层，即采用本公开实施例提供的对语音数据的处理方法可以取消第i层网络包括的局部反馈归一化层。在进行语音识别时可以直接将本公开实施例获取到的第i层的M个输入语音数据输入第i层网络包括的第i卷积层，获取该第i卷积层输出的M个卷积语音数据，然后将M个卷积语音数据输入第i拟合层，获取第i拟合层输出的M个拟合语音数据，进而将M个拟合语音数据输入第i池化层，获取第i池化层输出的M个池化语音数据，最后将M个池化语音数据输入第i激活层，获取第i激活层输出的待输入第i+1层网络的M个语音数据。

在实际应用中，可以将本公开实施例提供的技术方案设置为正则化层，并将该正则化层添加在每一层网络的卷积层之前。

本公开的实施例提供的技术方案中，通过对DNN每一层网络的语音数据进行正则化，可以取消DNN包括的局部反馈归一化层和/或拟合层，精简了DNN的结构，减少了语音识别的计算过程，提高了DNN网络的训练速度。

下面通过几个实施例详细介绍实现过程。

图2是根据一示例性实施例示出的一种语音识别方法的流程图，如图2所示，包括以下步骤201至步骤205：

在步骤201中，获取语音识别模型中待输入DNN第i层网络的M个语音数据。

在步骤202中，对该M个语音数据按照预设规则进行分组，获取N组语音数据。

在步骤203中，对该N组语音数据中每组语音数据包括的语音强度进行正则化处理，获取N组语音数据包括的M个正则语音强度。

在步骤204中，对该M个正则语音强度进行逆正则处理，获取M个逆正则语音数据。

在步骤205中，将该M个逆正则语音数据输入DNN第i层网络，获取待输入第i+1层网络的M个语音数据。

图3是根据一示例性实施例示出的一种语音识别方法的流程图，如图3所示，包括以下步骤301至步骤306：

在步骤301中，获取语音识别模型中待输入DNN第i层网络的M个语音数据。

在步骤302中，获取该M个语音数据包括的M个语音强度的均值和该M个语音强度的方差。

其中，M个语音强度的均值采用E[X⁽ⁱ⁾]表示，M个语音强度的方差采用Var[X⁽ⁱ⁾]表示。

在步骤303中，根据第一公式，对该M个语音强度进行正则化处理，获取M个正则语音强度。

其中，第一公式为

x⁽ⁱ⁾表示M个语音强度，x^∧(i)表示M个正则语音强度。

在步骤304中，根据第二公式，对M个正则语音强度进行逆正则处理，获取M个逆正则语音强度。

其中，第二公式为y⁽ⁱ⁾＝γ⁽ⁱ⁾x^∧(i)+β(i⁾，y⁽ⁱ⁾表示M个逆正则语音强度。

在步骤305中，根据该M个逆正则语音强度，获取M个逆正则语音数据。

在步骤306中，将该M个逆正则语音数据输入DNN第i层网络，获取待输入第i+1层网络的M个语音数据。

下述为本公开装置实施例，可以用于执行本公开方法实施例。

图4a是根据一示例性实施例示出的一种语音识别装置40的结构示意图，该装置40可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图4a所示，该语音识别装置40包括第一获取模块401，正则化模块402和第二获取模块403。

其中，第一获取模块401，用于获取语音识别模型中待输入DNN第i层网络的M个语音数据，每个所述语音数据包括语音的持续时间、语音频率和语音强度。

正则化模块402，用于对所述M个语音数据包括的M个语音强度进行正则化处理，获取M个正则语音数据，每个所述正则语音数据包括语音的所述持续时间，所述语音频率和正则语音强度，所述M为大于或等于1的整数。

第二获取模块403，用于根据所述M个正则语音数据，获取输入所述DNN第i层网络的M个输入语音数据。

在一个实施例中，如图4b所示，所述第二获取模块403包括第一处理子模块4031。

所述第一处理子模块4031，用于将所述M个正则语音数据作为输入所述DNN第i层网络的所述M个输入语音数据。

在一个实施例中，如图4c所示，所述正则化模块402包括第一获取子模块4021和第一正则化子模块4022。

其中，第一获取子模块4021，用于将所述M个语音数据按照预设规则分成N组语音数据。

第一正则化子模块4022，用于对所述N组语音数据中每组语音数据分别进行正则化处理，获取N组正则语音数据，所述N组正则语音数据共包括M个正则语音数据。

上述实施例同样适用于图4b所示的语音识别装置40。

在一个实施例中，如图4d所示，所述正则化模块402包括第二获取子模块4023，第二正则化子模块4024和第三获取子模块4025。

其中，第二获取子模块4023，用于获取所述M个语音强度的均值E[X⁽ⁱ⁾]和所述M个语音强度的方差Var[X⁽ⁱ⁾]。

第二正则化子模块4024，用于根据第一公式，对所述M个语音强度x⁽ⁱ⁾进行正则化处理，获取M个正则语音强度x^∧(i)；所述第一公式为

第三获取子模块4025，用于根据所述M个正则语音强度x^∧(i)，获取所述M个正则语音数据。

上述实施例同样适用于图4b和图4c所示的语音识别装置40。

在一个实施例中，如图4e所示，所述第二获取模块403包括逆正则子模块4031和第二处理子模块4032。

其中，逆正则子模块4031，用于对所述M个正则语音数据包括的M个正则语音强度进行逆正则处理，获取M个逆正则语音数据，每个所述逆正则语音数据包括语音的所述持续时间，所述语音频率和逆正则语音强度。

第二处理子模块4032，用于将所述M个逆正则语音数据作为输入所述DNN第i层网络的所述M个输入语音数据。

上述实施例同样适用于图4b，图4c和图4d所示的语音识别装置40。

在一个实施例中，如图4f所示，所述逆正则子模块4031包括逆正则单元4031a和获取单元4031b。

其中，逆正则单元4031a，用于根据第二公式对所述M个正则语音强度进行逆正则处理，获取M个逆正则语音强度y⁽ⁱ⁾；所述第二公式为：y⁽ⁱ⁾＝γ⁽ⁱ⁾x^∧(i)+β⁽ⁱ⁾；其中，所述x^∧(i)为M个正则语音强度，所述γ⁽ⁱ⁾为所述第i层网络的逆正则方差参数，所述β⁽ⁱ⁾为所述第i层网络的逆正则均值参数。

获取单元4031b，用于根据所述M个逆正则语音强度y⁽ⁱ⁾，获取所述M个逆正则语音数据。

在一个实施例中，所述第i层网络由第i卷积层，第i池化层和第i激活层组成，即取消第i层网络包括的局部反馈归一化层层和拟合层。其中，所述第i卷积层用于处理所述第二获取模块403获取的M个输入语音数据，获取M个卷积语音数据；所述第i池化层用于处理所述M个卷积语音数据，获取M个池化语音数据；所述第i激活层用于处理所述M个池化语音数据，获取待输入第i+1层网络的M个语音数据。

在一个实施例中，所述第i层网络由第i归一化层，第i卷积层，第i池化层和第i激活层组成，即取消第i层网络包括的拟合层。其中，所述第i归一化层用于处理所述第二获取模块403获取的M个输入语音数据，获取M个归一化语音数据；所述第i卷积层用于处理所述M个归一化语音数据，获取M个卷积语音数据；所述第i池化层用于处理所述M个卷积语音数据，获取M个池化语音数据；所述第i激活层用于处理所述M个池化语音数据，获取待输入第i+1层网络的M个语音数据。

在一个实施例中，所述第i层网络由第i卷积层，第i拟合层，第i池化层和第i激活层组成，即取消第i层网络包括的局部反馈归一化层。其中，所述第i卷积层用于处理所述第二获取模块403获取的M个输入语音数据，获取M个卷积语音数据；所述第i拟合层用于处理所述M个卷积语音数据，获取M个拟合语音数据；所述第i池化层用于处理所述M个拟合语音数据，获取M个池化语音数据；所述第i激活层用于处理所述M个池化语音数据，获取待输入第i+1层网络的M个语音数据。

本公开的实施例提供一种语音识别装置，该装置通过对待输入DNN网络中第i层网络的语音数据进行正则化处理，并根据正则化后的语音数据获取第i层网络的输入语音数据，提高了DNN网络的训练速度，降低了输入的语音数据中声音强度对语音识别的影响，进而提高了语音识别的准确率。

本公开实施例提供一种语音识别装置，该语音识别装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，处理器被配置为：

在一个实施例中，上述处理器还可被配置为：将所述M个正则语音数据作为输入所述DNN第i层网络的所述M个输入语音数据。

在一个实施例中，上述处理器还可被配置为：将所述M个语音数据按照预设规则分成N组语音数据；对所述N组语音数据中每组语音数据分别进行正则化处理，获取N组正则语音数据，所述N组正则语音数据共包括M个正则语音数据。

在一个实施例中，上述处理器还可被配置为：获取所述M个语音强度的均值E[X⁽ⁱ⁾]和所述M个语音强度的方差Var[X⁽ⁱ⁾]；根据第一公式，对所述M个语音强度x⁽ⁱ⁾进行正则化处理，获取M个正则语音强度x^∧(i)；所述第一公式为：

在一个实施例中，上述处理器还可被配置为：对所述M个正则语音数据包括的M个正则语音强度进行逆正则处理，获取M个逆正则语音数据，每个所述逆正则语音数据包括语音的所述持续时间，所述语音频率和逆正则语音强度；将所述M个逆正则语音数据作为输入所述DNN第i层网络的所述M个输入语音数据。

在一个实施例中，上述处理器还可被配置为：根据第二公式对所述M个正则语音强度进行逆正则处理，获取M个逆正则语音强度y⁽ⁱ⁾；所述第二公式为：y⁽ⁱ⁾＝γ⁽ⁱ⁾x^∧(i)+β⁽ⁱ⁾；其中，所述x^∧(i)为M个正则语音强度，所述γ⁽ⁱ⁾为所述第i层网络的逆正则方差参数，所述β⁽ⁱ⁾为所述第i层网络的逆正则均值参数；根据所述M个逆正则语音强度y⁽ⁱ⁾，获取所述M个逆正则语音数据。

在一个实施例中，所述第i层网络包括第i卷积层，第i池化层和第i激活层；上述处理器还可被配置为：将所述M个输入语音数据输入所述第i卷积层，获取所述第i卷积层输出的M个卷积语音数据；将所述M个卷积语音数据输入所述第i池化层，获取所述第i池化层输出的M个池化语音数据；将所述M个池化语音数据输入所述第i激活层，获取所述第i激活层输出的待输入第i+1层网络的M个语音数据。

在一个实施例中，所述第i层网络包括第i归一化层，第i卷积层，第i池化层和第i激活层；上述处理器还可被配置为：将所述M个输入语音数据输入所述第i归一化层，获取所述第i归一化层输出的M个归一化语音数据；将所述M个归一化语音数据输入所述第i卷积层，获取所述第i卷积层输出的M个卷积语音数据；将所述M个卷积语音数据输入所述第i池化层，获取所述第i池化层输出的M个池化语音数据；将所述M个池化语音数据输入所述第i激活层，获取所述第i激活层输出的待输入第i+1层网络的M个语音数据。

在一个实施例中，所述第i层网络包括第i卷积层，第i拟合层，第i池化层和第i激活层；上述处理器还可被配置为：将所述M个输入语音数据输入所述第i卷积层，获取所述第i卷积层输出的M个卷积语音数据；将所述M个卷积语音数据输入所述第i拟合层，获取所述第i拟合层输出的M个拟合语音数据；将所述M个拟合语音数据输入所述第i池化层，获取所述第i池化层输出的M个池化语音数据；将所述M个池化语音数据输入所述第i激活层，获取所述第i激活层输出的待输入第i+1层网络的M个语音数据。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图5是根据一示例性实施例示出的一种用于语音识别装置50的框图。装置50包括处理组件502，其进一步包括一个或多个处理器，以及由存储器503所代表的存储器资源，用于存储可由处理组件502的执行的指令，例如应用程序。存储器503中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件502被配置为执行指令，以执行上述方法。

装置50还可以包括一个电源组件506被配置为执行装置50的电源管理，一个有线或无线网络接口505被配置为将装置50连接到网络，和一个输入输出(I/O)接口508。装置50可以操作基于存储在存储器503的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

本公开实施例提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置50的处理器执行时，使得装置50能够执行上述语音识别方法，所述方法包括：

在一个实施例中，所述根据所述M个正则语音数据，获取输入所述DNN第i层网络的M个输入语音数据包括：将所述M个正则语音数据作为输入所述DNN第i层网络的所述M个输入语音数据。

在一个实施例中，所述对所述M个语音数据包括的M个语音强度进行正则化处理，获取M个正则语音数据包括：将所述M个语音数据按照预设规则分成N组语音数据；对所述N组语音数据中每组语音数据分别进行正则化处理，获取N组正则语音数据，所述N组正则语音数据共包括M个正则语音数据。

在一个实施例中，所述对所述M个语音数据包括的M个语音强度进行正则化处理，获取M个正则语音数据包括：获取所述M个语音强度的均值E[X⁽ⁱ⁾]和所述M个语音强度的方差Var[X⁽ⁱ⁾]；根据第一公式，对所述M个语音强度x⁽ⁱ⁾进行正则化处理，获取M个正则语音强度x^∧(i)；所述第一公式为：

在一个实施例中，所述根据所述M个正则语音数据，获取输入所述DNN第i层网络的M个输入语音数据包括：对所述M个正则语音数据包括的M个正则语音强度进行逆正则处理，获取M个逆正则语音数据，每个所述逆正则语音数据包括语音的所述持续时间，所述语音频率和逆正则语音强度；将所述M个逆正则语音数据作为输入所述DNN第i层网络的所述M个输入语音数据。

在一个实施例中，所述对所述M个正则语音数据包括的M个正则语音强度进行逆正则处理，获取M个逆正则语音数据包括：根据第二公式对所述M个正则语音强度进行逆正则处理，获取M个逆正则语音强度y⁽ⁱ⁾；所述第二公式为：y⁽ⁱ⁾＝γ⁽ⁱ⁾x^∧(i)+β⁽ⁱ⁾；其中，所述x^∧(i)为M个正则语音强度，所述γ⁽ⁱ⁾为所述第i层网络的逆正则方差参数，所述β⁽ⁱ⁾为所述第i层网络的逆正则均值参数；根据所述M个逆正则语音强度y⁽ⁱ⁾，获取所述M个逆正则语音数据。

在一个实施例中，所述第i层网络包括第i卷积层，第i池化层和第i激活层；所述方法还包括：将所述M个输入语音数据输入所述第i卷积层，获取所述第i卷积层输出的M个卷积语音数据；将所述M个卷积语音数据输入所述第i池化层，获取所述第i池化层输出的M个池化语音数据；将所述M个池化语音数据输入所述第i激活层，获取所述第i激活层输出的待输入第i+1层网络的M个语音数据。

在一个实施例中，所述第i层网络包括第i归一化层，第i卷积层，第i池化层和第i激活层；所述方法还包括：将所述M个输入语音数据输入所述第i归一化层，获取所述第i归一化层输出的M个归一化语音数据；将所述M个归一化语音数据输入所述第i卷积层，获取所述第i卷积层输出的M个卷积语音数据；将所述M个卷积语音数据输入所述第i池化层，获取所述第i池化层输出的M个池化语音数据；将所述M个池化语音数据输入所述第i激活层，获取所述第i激活层输出的待输入第i+1层网络的M个语音数据。

在一个实施例中，所述第i层网络包括第i卷积层，第i拟合层，第i池化层和第i激活层；所述方法还包括：将所述M个输入语音数据输入所述第i卷积层，获取所述第i卷积层输出的M个卷积语音数据；将所述M个卷积语音数据输入所述第i拟合层，获取所述第i拟合层输出的M个拟合语音数据；将所述M个拟合语音数据输入所述第i池化层，获取所述第i池化层输出的M个池化语音数据；将所述M个池化语音数据输入所述第i激活层，获取所述第i激活层输出的待输入第i+1层网络的M个语音数据。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音识别方法，其特征在于，包括：

获取语音识别模型中待输入深度神经网络DNN第i层网络的M个语音数据，每个所述语音数据包括语音的持续时间、语音频率和语音强度；所述i为大于或等于1的整数；

对所述M个语音数据包括的M个语音强度进行正则化处理，获取M个正则语音数据，每个所述正则语音数据包括语音的所述持续时间、所述语音频率和正则语音强度，所述M为大于或等于1的整数；

根据所述M个正则语音数据，获取输入所述DNN第i层网络的M个输入语音数据；

所述根据所述M个正则语音数据，获取输入所述DNN第i层网络的M个输入语音数据包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述M个正则语音数据，获取输入所述DNN第i层网络的M个输入语音数据包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述M个语音数据包括的M个语音强度进行正则化处理，获取M个正则语音数据包括：

将所述M个语音数据按照预设规则分成N组语音数据；

4.根据权利要求1至3任意一项权利要求所述的方法，其特征在于，所述对所述M个语音数据包括的M个语音强度进行正则化处理，获取M个正则语音数据包括：

根据第一公式，对所述M个语音强度x⁽ⁱ⁾进行正则化处理，获取M个正则语音强度x^(i)；所述第一公式为：

根据所述M个正则语音强度x^(i)，获取所述M个正则语音数据。

5.根据权利要求1所述的方法，其特征在于，所述对所述M个正则语音数据包括的M个正则语音强度进行逆正则处理，获取M个逆正则语音数据包括：

根据第二公式对所述M个正则语音强度进行逆正则处理，获取M个逆正则语音强度y⁽ⁱ⁾；所述第二公式为：y⁽ⁱ⁾＝γ⁽ⁱ⁾x^(i)+β⁽ⁱ⁾；其中，所述x^(i)为M个正则语音强度，所述γ⁽ⁱ⁾为所述第i层网络的逆正则方差参数，所述β⁽ⁱ⁾为所述第i层网络的逆正则均值参数；

6.根据权利要求1至3任意一项权利要求所述的方法，其特征在于，所述第i层网络包括第i卷积层，第i池化层和第i激活层；所述方法还包括：

7.根据权利要求1至3任意一项权利要求所述的方法，其特征在于，所述第i层网络包括第i归一化层，第i卷积层，第i池化层和第i激活层；所述方法还包括：

8.根据权利要求1至3任意一项权利要求所述的方法，其特征在于，所述第i层网络包括第i卷积层，第i拟合层，第i池化层和第i激活层；所述方法还包括：

9.一种语音识别装置，其特征在于，包括：

第一获取模块，用于获取语音识别模型中待输入深度神经网络DNN第i层网络的M个语音数据，每个所述语音数据包括语音的持续时间、语音频率和语音强度；所述i为大于或等于1的整数；

第二获取模块，用于根据所述M个正则语音数据，获取输入所述DNN第i层网络的M个输入语音数据；

所述第二获取模块包括：

10.根据权利要求9所述的装置，其特征在于，所述第二获取模块包括：

11.根据权利要求9所述的装置，其特征在于，所述正则化模块包括：

12.根据权利要求9至11任意一项权利要求所述的装置，其特征在于，所述正则化模块包括：

第二正则化子模块，用于根据第一公式，对所述M个语音强度x⁽ⁱ⁾进行正则化处理，获取M个正则语音强度x^(i)；

所述第一公式为

第三获取子模块，用于根据所述M个正则语音强度x^(i)，获取所述M个正则语音数据。

13.根据权利要求9所述的装置，其特征在于，所述逆正则子模块包括：

逆正则单元，用于根据第二公式对所述M个正则语音强度进行逆正则处理，获取M个逆正则语音强度y⁽ⁱ⁾；所述第二公式为：y⁽ⁱ⁾＝γ⁽ⁱ⁾x^(i)+β⁽ⁱ⁾；其中，所述x^(i)为M个正则语音强度，所述γ⁽ⁱ⁾为所述第i层网络的逆正则方差参数，所述β⁽ⁱ⁾为所述第i层网络的逆正则均值参数；

14.根据权利要求9至11任意一项权利要求所述的装置，其特征在于，所述第i层网络由第i卷积层，第i池化层和第i激活层组成；

15.根据权利要求9至11任意一项权利要求所述的装置，其特征在于，所述第i层网络由第i归一化层，第i卷积层，第i池化层和第i激活层组成；

16.根据权利要求9至11任意一项权利要求所述的装置，其特征在于，所述第i层网络由第i卷积层，第i拟合层，第i池化层和第i激活层组成；

17.一种语音识别装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

所述根据所述M个正则语音数据，获取输入所述DNN第i层网络的M 个输入语音数据包括：