CN107808664A

CN107808664A - 基于稀疏神经网络的语音识别方法、语音识别装置和电子设备

Info

Publication number: CN107808664A
Application number: CN201610773161.3A
Authority: CN
Inventors: 石自强; 刘柳; 刘汝杰
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2016-08-30
Filing date: 2016-08-30
Publication date: 2018-03-16
Anticipated expiration: 2036-08-30
Also published as: CN107808664B

Abstract

本申请实施例提供一种基于稀疏神经网络的语音识别方法、装置和电子设备，该方法包括：对待识别语音片段进行处理，以获得所述待识别语音片段中的每个语音帧的特征向量；采用稀疏神经网络对所述特征向量进行识别，以获得与所述特征向量对应的状态标签值(state id)，其中，所述稀疏神经网络的权重矩阵基于维度变换而得到；以及采用解码模型对所述状态标签值进行解码，以得到所述待识别语音片段对应的文本。根据本实施例，语音识别用的稀疏神经网络的规模被缩小，并且，该稀疏神经网络的训练时间较短，训练结果被改善。

Description

基于稀疏神经网络的语音识别方法、语音识别装置和电子设备

技术领域

本申请涉及信息技术领域，尤其涉及一种基于稀疏神经网络的语音识别方法、语音识别装置和电子设。

背景技术

语音识别技术已在许多领域有着广泛的应用，包括语音拨号，呼叫路由，家用电器控制，语音搜索，简单的数据输入，结构化文档制备，语音转文本和民航领域的应用等。

由于深度学习技术和大数据技术的发展，语音识别的准确度有了明显的改善，为语音识别的大规模应用奠定了基础。

应该注意，上面对技术背景的介绍只是为了方便对本申请的技术方案进行清楚、完整的说明，并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本申请的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。

发明内容

本申请的发明人发现，如果要将语音识别技术更广泛地应用到实际生活中，目前还有两个迫切的问题需要解决：第一，在基于神经网络进行语音识别时，需要花费大量的时间来调整该神经网络的结构和参数，以训练出合适的神经网络；第二，目前采用的神经网络的规模非常庞大，难以将其应用于嵌入式设备或移动设备。

本申请的实施例提供一种语音识别方法、语音识别装置和电子设备，采用稀疏神经网络来进行语音识别，因此，神经网络的规模被极大地缩小，并且，通过维度变换的方式来计算稀疏神经网络(Sparse Neural Network)的权重矩阵W，因此，能够快速地训练出合适的稀疏神经网络。

根据本申请实施例的第一方面，提供一种基于稀疏神经网络的语音识别装置，该装置包括：

第一处理单元，其用于对待识别语音片段进行处理，以获得所述待识别语音片段中的每个语音帧的特征向量；

第一识别单元，其采用稀疏神经网络对所述特征向量进行识别，以获得与所述特征向量对应的状态标签值(state id)，其中，所述稀疏神经网络的权重矩阵基于维度变换而得到；以及

第一解码单元，其采用解码模型对所述状态标签值进行解码，以得到所述待识别语音片段对应的文本。

根据本申请实施例的第二方面，提供一种基于稀疏神经网络的语音识别方法，该方法包括：

对待识别语音片段进行处理，以获得所述待识别语音片段中的每个语音帧的特征向量；

采用稀疏神经网络对所述特征向量进行识别，以获得与所述特征向量对应的状态标签值(state id)，其中，所述稀疏神经网络的权重矩阵基于维度变换而得到；以及

采用解码模型对所述状态标签值进行解码，以得到所述待识别语音片段对应的文本。

根据本申请实施例的第三方面，提供一种电子设备，包括本申请实施例第一方面所述的基于稀疏神经网络的语音识别装置。

本申请的有益效果在于：语音识别用的稀疏神经网络的规模被缩小，并且，该稀疏神经网络的训练时间较短。

参照后文的说明和附图，详细公开了本发明的特定实施方式，指明了本发明的原理可以被采用的方式。应该理解，本发明的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内，本发明的实施方式包括许多改变、修改和等同。

针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。

应该强调，术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在，但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。

附图说明

所包括的附图用来提供对本发明实施例的进一步的理解，其构成了说明书的一部分，用于例示本发明的实施方式，并与文字描述一起来阐释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本申请实施例1的语音识别方法的一个示意图；

图2是本申请实施例1的稀疏神经网络的一个示意图；

图3是本申请实施例2的训练得到权重矩阵的方法的一个示意图；

图4是本申请实施例2的生成训练样本集的方法的一个示意图；

图5是本申请实施例3的语音识别装置的一个示意图；

图6是本申请实施例3的第一训练单元的一个示意图；

图7是本申请实施例3的第二训练单元的一个示意图；

图8是本申请实施例4的电子设备的一个示意图。

具体实施方式

参照附图，通过下面的说明书，本发明的前述以及其它特征将变得明显。在说明书和附图中，具体公开了本发明的特定实施方式，其表明了其中可以采用本发明的原则的部分实施方式，应了解的是，本发明不限于所描述的实施方式，相反，本发明包括落入所附权利要求的范围内的全部修改、变型以及等同物。

实施例1

本申请实施例1提供一种基于稀疏神经网络的语音识别方法，用于对待识别语音片段进行识别，以确定该待识别语音片段对应的文本。

图1是实施例1的语音识别方法的一个示意图，如图1所示，该方法包括：

S101、对待识别语音片段进行处理，以获得所述待识别语音片段中的每个语音帧的特征向量；

S102、采用稀疏神经网络对所述特征向量进行识别，以获得与所述特征向量对应的状态标签值，其中，所述稀疏神经网络的权重矩阵W基于维度变换而得到；以及

S103、采用解码模型对所述状态标签值进行解码，以得到所述待识别语音片段对应的文本。

在本实施例中，基于稀疏神经网络(Sparse Neural Network)来进行语音识别，因此，神经网络的规模被极大地缩小，并且，基于维度变换的方式来得到稀疏神经网络的权重矩阵W，因此，能够缩短稀疏神经网络的训练时间。

在本实施例的S101中，可以将待识别语音片段划分为若干语音帧，针对每一个语音帧，计算其梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCCs)以及该梅尔频率倒谱系数的一阶差分和二阶差分，并将该梅尔频率倒谱系数与其一阶差分和二阶差分连接起来，作为该语音帧的特征向量。在本实施例中，划分语音帧、计算梅尔频率倒谱系数及其一阶差分和二阶差分的方法可以参考现有技术，本实施例不再进行说明。此外，本实施例不限于此，还可以采用其它的方法来获得每一个语音帧的特征向量。

在本实施例的S102中，可以采用稀疏神经网络对待识别语音片段的每一个语音帧的特征向量进行识别，以获得与该特征向量对应的状态标签值(state id)，并且，在待识别语音片段中存在多个语音帧的情况下，与各语音帧对应的状态标签值可以组成状态标签值序列。

在本实施例中，状态标签值可以对应于相应的音素状态，该音素状态例如可以是三音素(triphone)子状态，该三音素子状态又称为上下文相关音素子状态(contextdependent state)。此外，本实施例不限于此，该音素状态例如也可以是共享上下文相关音素子状态(shared context dependent state)等。

图2是本实施例的稀疏神经网络的一个示意图。在图2中，稀疏神经网络200具有3个神经网络层201、202、203和输出层204。

其中，神经网络层201具有节点J1，J2，…，Ji，…，Ja，并且，1≤i≤a，i，a为自然数，各节点对应的权重值分别是wj1，wj2，…，wji，…，wja，此外，神经网络层201还可以具有冗余节点J0，其对应的权重值可以是wj0；

神经网络层202具有节点O1，O2，…，Oj，…，Ob，并且，1≤j≤b，j，b为自然数，各节点对应的权重值分别是wt1，wt2，…，wtj，…，wtb，此外，神经网络层202还可以具有冗余节点O0，其对应的权重值可以是wt0；

神经网络层203具有节点P1，P2，…，Pt，…，Pc，并且，1≤t≤c，t，c为自然数，各节点对应的权重值分别是wr1，wr2，…，wrt，…，wrc，此外，神经网络层203还可以具有冗余节点P0，其对应的权重值可以是wr0；

输出层204可以具有节点Q1和冗余节点Q0，其对应的权重值分别为wr和w0。

如图2所示，神经网络层201、202、203和输出层204依次对输入的特征向量{X1，X2，…，Xi，…，Xa}进行处理，并由输出层204输出状态标签值z，例如，该稀疏神经网络200可以根据如下的式(1)来得到与输入的特征向量{X1，X2，…，Xi，…，Xa}对应的状态标签值z：

在图2中，稀疏神经网络200具有3个神经网络层201、202、203，但本实施例并不限于此，神经网络层的数量可以是其它值。

在本实施例中，输出层204以及各神经网络层201-203中的权重值构成该稀疏神经网络200的权重矩阵W，该权重矩阵W满足如下的式(2)：

其中，||W||₁是指权重矩阵W满足L1正则化的条件，λ为正则化权重值，J(W)是该权重矩阵W对应的损失函数，J(W)满足如下的式(3)：

其中，J_k(W)是指该稀疏神经网络200对第k个特征向量进行处理时的损失函数，n是指该稀疏神经网络200所处理的特征向量的总数量，z_k是指稀疏神经网络200对第k个特征向量进行处理时所输出的状态标签值，z_k的计算方法可以参考上式(1)，t_k是指该第k个特征向量所对应的真实的状态标签值，。在式(3)中，J(W)是基于均方误差而得到的，但本实施例并不限于次，也可以基于其他的方法来得到J(W)，例如，J(W)可以基于交叉熵误差函数而得到。

在本实施例中，该权重矩阵W可以是基于维度变换的方式而训练得到的，例如，可以在较低维度的第二空间中训练出最优的权重矩阵，然后将其投影到较高维度的第一空间中，以得到位于该第一空间中的权重矩阵W，由于第二空间维度较低，数据的复杂度较低，所以，在第二空间训练所需的时间要小于在第一空间训练所需的时间，并且，在第二空间中能够更加充分地训练，所以，权重矩阵W的准确度也更高。

在本实施例中，可以提前训练得到的该权重矩阵W进行存储，这样，在步骤S102中可以直接根据存储的权重矩阵W来进行处理。当然，也可以在每次执行步骤S102之前，都进行训练以得到不断更新的权重矩阵W。

在本实施例的步骤S103中，可以采用解码模型对步骤S102得到的状态标签值进行解码，以得到该待识别语音片段对应的文本。例如，当该待识别语音片段仅包含一个语音帧时，从步骤S102可以得到与该语音帧对应的状态标签值，在步骤S103中可以对该状态标签值进行解码，得到相应的文本；当该待识别语音片段包含两个以上语音帧时，从步骤S102可以得到由与各语音帧对应的状态标签值所构成的状态标签值序列，在步骤S103中可以对该状态标签值序列进行解码，以得到相应的文本。

在本实施例中，该解码模型例如可以是高斯混合模型-隐马尔科夫模型(GaussianMixture Model-Hidden Markov Model，GMM-HMM)，当然，本实施例不限于此，该解码模型也可以是其它的模型。

在本实施例中，该解码模型也可以是提前训练出来并被存储，这样，在步骤S103中可以直接根据存储的该解码模型来进行处理。当然，也可以在每次执行步骤S103之前，都进行训练以使该解码模型不断更新。

根据本实施例，能够基于稀疏神经网络(Sparse Neural Network)来进行语音识别，因此，神经网络的规模被极大地缩小，并且，基于维度变换的方式来得到稀疏神经网络的权重矩阵W，因此，能够缩短稀疏神经网络的训练时间，并且提高权重矩阵W的准确度。

实施例2

在实施例2中，对基于维度变换的方式训练得到权重矩阵W的方法进行说明，根据该实施例的方法所得到的该权重矩阵W被用于实施例1的步骤S102所采用的稀疏神经网络中。

图3是实施例2的训练得到权重矩阵W的方法的一个示意图，如图3所示，该方法包括：

S301、对于第一预定数量的训练用语音帧，计算各训练用语音帧的特征向量的海森矩阵(hessian)和各训练用语音帧的特征向量在第一空间中的第一梯度，并且，基于所述稀疏神经网络在第一空间中的第一当前权重矩阵Wm，计算各训练用语音帧的特征向量所对应的状态标签值；

S302、将所述第一当前权重矩阵Wm和所述第一梯度从所述第一空间投影到第二空间，以分别形成第二当前权重矩阵Wm’和第二梯度，其中，所述第一空间的维度高于所述第二空间的维度；

S303、根据各训练用语音帧的状态标签值、所述第二当前权重矩阵Wm’、所述第二梯度和所述海森矩阵，构建所述权重矩阵W在所述第二空间中的损失函数所对应的近似正则二次模型；

S304、计算所述近似正则二次模型的最优投影权重矩阵；以及

S305、当所述最优投影权重矩阵满足预定条件时，将所述最优投影权重矩阵从所述第二空间投影到所述第一空间，以形成所述稀疏神经网络的所述权重矩阵。

在本实施例中，训练样本集中的各训练用语音帧的特征向量及其对应的真实状态标签值都是已知数据，本实施例就是基于这些已知数据来训练得到权重矩阵W。

在本实施例的步骤S301中，在维度较高的第一空间中，对于训练样本集中的第一预定数量v的训练用语音帧中的每一个，计算该语音帧的特征向量的海森矩阵(hessian)以及该特征向量的梯度，该梯度是在第一空间中的梯度，所以称为第一梯度；并且，还基于该稀疏神经网络在第一空间中的第一当前权重矩阵Wm，计算该训练用语音帧的特征向量所对应的状态标签值。其中，该第一预定数量v越多，训练结果越准确，例如，该第一预定数量v的训练用语音帧可以是训练样本集中的全部N个训练用语音帧。在本实施例中，该第一当前权重矩阵Wm例如可以是训练开始时为该稀疏神经网络所设定的初始权重矩阵。

在本实施例的步骤S302中，可以采用正交变换的方法，将第一当前权重矩阵Wm和第一梯度从维度较高的第一空间投影到维度较低的第二空间，以分别形成第二当前权重矩阵Wm’和第二梯度，由此，第二当前权重矩阵Wm’和第二梯度的维度低于第一当前权重矩阵Wm和第一梯度的维度。在本实施例中，关于正交变换的具体说明可以参考现有技术，另外，本实施例可以并不限于正交表换的方法，也可以采用其它的方法来进行上述从第一空间向第二空间的投影。

在本实施例的步骤S303中，根据第一预定数量v的训练用语音帧的状态标签值、第二当前权重矩阵Wm’、第二梯度以及海森矩阵，构建近似正则二次模型，该近似正则模型可以用来表示第一空间中的该权重矩阵W在第二空间中对应的损失函数

在本实施例中，第一预定数量v的训练用语音帧的状态标签值可以来自于步骤S301，第二当前权重矩阵Wm’和第二梯度可以来自于步骤S302。

在本实施例中，该近似正则二次模型例如可以表示为下式(4)，当然，该近似正则二次模型也可以表示为其它的形式。

其中，表示该第二梯度，表示海森矩阵，T表示转置，W’代表在第二空间中损失函数的投影权重矩阵，||W’||₁是指投影权重矩阵W’满足L1正则化的条件，λ为正则化权重值，J(W_m)是该第一当前权重矩阵W_m对应的损失函数，J(W_m)满足如下的式(5)：

其中，J_u(W_m)是指基于该第一当前权重矩阵W_m对第u个训练用语音帧的特征向量进行处理时的损失函数，z_u是指基于该第一当前权重矩阵W_m对第u个训练用语音帧的特征向量进行处理时所输出的状态标签值，z_u的计算方法可以参考上式(1)，t_u是指该第u个训练用语音帧所对应的真实状态标签值。在式(5)中，J(W_m)是基于均方误差而得到的，但本实施例并不限于次，也可以基于其他的方法来得到J(W_m)，例如，J(W_m)可以基于交叉熵误差函数而得到。

在步骤S304中，可以采用近端算法来计算该近似正则二次模型的投影权重矩阵W’的最优矩阵，即最优投影权重矩阵W’_opt。当然，在本实施例中，也可以采用其它方式来计算该最优投影权重矩阵W’_opt。

在步骤S305中，在该最优投影权重矩阵满足预定条件时，将该最优投影权重矩阵从较低维度的第二空间投影到较高维度的第一空间，以作为该稀疏神经网络的权重矩阵W。

此外，在本实施例中，在该最优投影权重矩阵不满足预定条件时，可以基于该最优投影权重矩阵重新计算最优投影权重矩阵，并且，可以进行多次迭代，直到该最优投影权重矩阵满足该预定条件为止。例如，可以基于当前的最优投影权重矩阵来对第一当前权重矩阵Wm进行更新，进而更新该近似正则二次模型，并计算更新后的该近似正则二次模型对应的最优投影权重矩阵，上述重新计算最优投影权重矩阵的过程可以重复多次，直到该最优投影权重矩阵满足该预定条件。

下面，结合图3对重新计算最优投影权重矩阵的方法进行说明。

如图3所述，本申请实施例2的训练得到权重矩阵W的方法还可以进一步包括：

S306、当所述最优投影权重矩阵不满足所述预定条件时，使用所述最优投影权重矩阵更新所述第二当前权重矩阵，并将更新的所述第二当前权重矩阵从所述第二空间投影到所述第一空间，以更新所述第一当前权重矩阵Wm；

S307、根据更新的所述第一当前权重矩阵，计算第一预定数量的训练用语音帧中的第二预定数量的训练用语音帧的特征向量所对应的状态标签值，作为更新的状态标签；

S308、基于更新的所述第二当前权重矩阵和更新的状态标签值，更新所述近似正则二次模型；以及

S309、计算更新的所述近似正则二次模型的最优投影权重矩阵，以更新原有的所述最优投影权重矩阵。

在步骤S306中，当步骤S304中计算出的最优投影权重矩阵W’_opt不满足该预定条件时，将该最优投影权重矩阵W’_opt赋值给第二当前权重矩阵，以更新该第二当前权重矩阵Wm’，并将更新后的第二当前权重矩阵Wm’从第二空间投影到第一空间，以更新该第一当前权重矩阵Wm。

在步骤S307中，根据更新后的第一当前权重矩阵Wm，利用该稀疏神经网络，计算第二预定数量x的训练用语音帧的每一帧的特征向量所对应的状态标签值，作为更新的状态标签，其中，该第二预定数量x的训练用语音帧可以选自第一预定数量v的训练用语音帧，1≤x≤v，例如，该第二预定数量x可以是1，当然该第二预定数量x也可以等于该第一预定数量v。

在步骤S308中，可以将式(4)和(5)中的Wm’替换为步骤S306中更新后的第二当前权重矩阵Wm’，将式(4)和(5)中的与该第二预定数量x的训练用语音帧对应的状态标签值z_u替换为步骤S307中计算出的状态标签值，并且，式(4)和(5)中的该第二预定数量x的训练用语音帧之外的训练用语音帧所对应的状态标签值z_u保持不变，由此，对式(4)和(5)所示的近似正则二次模型进行更新。

在步骤S309中，可以采用与步骤S304相同的方式计算更新后的近似正则二次模型的最优投影权重矩阵，以更新原有的最优投影权重矩阵。

在本实施例中，上述重新计算最优投影权重矩阵的过程S306-S309可以重复多次，直到该最优投影权重矩阵满足该预定条件。

在本实施例中，该预定条件可以是指权重矩阵W在第二空间中的损失函数达到极小值。其中，损失函数达到极小值时所满足的条件例如可以是，由式(4)和(5)所示的近似正则二次模型所表示的损失函数的导数接近0，或者，本次计算得到的最优投影权重矩阵与前次计算得到的最优投影权重矩阵的差值小于预定阈值。

此外，在本实施例中，训练得到该权重矩阵W的过程中所使用的训练样本集可以是提前生成并存储的训练样本集，也可以是在每次训练前重新生成的训练样本集。

图4是本实施例2的生成该训练样本集的方法的一个示意图，如图4所示，该方法包括：

S401、基于对应关系已知的训练用语音片段和文本，构建解码模型；以及

S402、使用构建的解码模型，构建所述训练用语音片段中的各训练用语音帧与状态标签值的对应关系。

在步骤S401中，构建该解码模型的方法例如可以包括如下的步骤：基于训练用语音片段和文本，构建字典和语言模型，创建语音对应的标注数据，训练单音素隐马尔科夫模型(HMM)，训练捆绑状态的三音素模型报告，将语音和标注数据的对齐，再做捆绑状态三音素模型的训练，并迭代若干次，直到达到最佳解码模型。关于上述构建该解码模型的方法可以参考现有技术。此外，步骤S401所构建出的解码模型也可以作为实施例1的步骤S103所使用的解码模型。

在本实施例中，对应关系已知的训练用语音片段和文本例如可以来自于收集了大量的不同男性和女性的语音片段与对应文本的数据库。该解码模型例如可以是高斯混合模型-隐马尔科夫模型(Gaussian Mixture Model-Hidden Markov Model，GMM-HMM)，当然，本实施例不限于此，该解码模型也可以是其它的模型。

在步骤S402中，可以根据步骤S401中得到的解码模型，对捆绑状态三音素的子状态的状态标签值和训练用语音片段的所有训练用语音帧之间进行标注，这些配对后的训练用语音帧和状态标签值构成了训练得到权重矩阵W的过程中所使用的训练样本集。

在本实施例中，在较低维度的第二空间中训练出最优投影权重矩阵，然后将其投影到较高维度的第一空间中，以得到位于该第一空间中的权重矩阵W，由于第二空间维度较低，数据的复杂度较低，所以，在第二空间训练所需的时间要小于在第一空间训练所需的时间，并且，在第二空间中能够更加充分地训练，所以，最后得到的权重矩阵W的准确度也更高。

实施例3

本实施例提供一种基于稀疏神经网络的语音识别装置，与实施例1和实施例2的语音识别方法对应。

图5是本实施例的语音识别装置的一个示意图，如图5所示，该语音识别装置500包括：第一处理单501、第一识别单元502和第一解码单元503。

其中，第一处理单元501用于对待识别语音片段进行处理，以获得所述待识别语音片段中的每个语音帧的特征向量；第一识别单元502采用稀疏神经网络对所述特征向量进行识别，以获得与所述特征向量对应的状态标签值(state id)，其中，所述稀疏神经网络的权重矩阵基于维度变换而得到；第一解码单元503采用解码模型对所述状态标签值进行解码，以得到所述待识别语音片段对应的文本。

如图5所示，该语音识别装置500还可以包括第一训练单元504。

图6是实施例3的第一训练单元504的一个示意图，如图6所示，第一训练单元504包括第一计算单元601、第一投影单元602、第一构建单元603、第二计算单元604以及第二投影单元605。

其中，第一计算单元601对于第一预定数量的训练用语音帧，计算各训练用语音帧的特征向量在第一空间中的第一梯度以及海森矩阵(hessian)，并且，基于所述稀疏神经网络在第一空间中的第一当前权重矩阵，计算各训练用语音帧的特征向量所对应的状态标签值；

第一投影单元602用于将所述第一当前权重矩阵和所述第一梯度从所述第一空间投影到第二空间，以分别形成第二当前权重矩阵和第二梯度，其中，所述第一空间的维度高于所述第二空间的维度；

第一构建单元603用于根据第一预定数量的训练用语音帧的状态标签值、所述第二当前权重矩阵、所述第二梯度和所述海森矩阵和，构建所述权重矩阵在所述第二空间中的损失函数所对应的近似正则二次模型；

第二计算单元604用于计算所述近似正则二次模型的最优投影权重矩阵；以及

第二投影单元605用于当所述最优投影权重矩阵满足预定条件时，将所述最优投影权重矩阵从所述第二空间投影到所述第一空间，以形成所述稀疏神经网络的所述权重矩阵。

如图6所示，该第一训练单元504还可以包括第三投影单元606、第三计算单元607、第二构建单元608以及第四计算单元609。

其中，第三投影单元606用于当所述最优投影权重矩阵不满足所述预定条件时，使用所述最优投影权重矩阵更新所述第二当前权重矩阵，并将更新的所述第二当前权重矩阵从所述第二空间投影到所述第一空间，以更新所述第一当前权重矩阵；

第三计算单元607用于根据更新的所述第一当前权重矩阵，计算第一预定数量的训练用语音帧中的第二预定数量的训练用语音帧的特征向量所对应的状态标签值，作为更新的状态标签；

第二构建单元608用于基于更新的所述第二当前权重矩阵和更新的状态标签值，更新所述近似正则二次模型；

第四计算单元609用于计算更新的所述近似正则二次模型的最优投影权重矩阵，以更新原有的所述最优投影权重矩阵。

如图5所示，该语音识别装置500还可以包括第二训练单元505。

图7是实施例3的第二训练单元505的一个示意图，如图7所示，第二训练单元505包括第三构建单元701以及第四构建单元702。

其中，第三构建单元701用于基于对应关系已知的训练用语音片段和文本，构建所述解码模型；第四构建单元702使用所述解码模型，构建所述训练用语音片段中的各训练用语音帧与状态标签值的对应关系。

关于本实施例中各单元的说明，可以参考实施例1和实施例2中对相应步骤的说明，此处不再重复。

实施例4

本申请实施例4提供一种电子设备，所述电子设备包括：如实施例3所述的基于稀疏神经网络的语音识别装置。

图8是本申请实施例4的电子设备的一个构成示意图。如图8所示，电子设备800可以包括：中央处理器(CPU)801和存储器802；存储器802耦合到中央处理器801。其中该存储器802可存储各种数据；此外还存储信息处理的程序，并且在中央处理器801的控制下执行该程序。

在一个实施方式中，语音识别装置中的功能可以被集成到中央处理器801中。

其中，中央处理器801可以被配置为：

中央处理器801还可以被配置为：

对于第一预定数量的训练用语音帧，计算各训练用语音帧的特征向量在第一空间中的第一梯度以及海森矩阵(hessian)，并且，基于所述稀疏神经网络在第一空间中的第一当前权重矩阵，计算各训练用语音帧的特征向量所对应的状态标签值；

将所述第一当前权重矩阵和所述第一梯度从所述第一空间投影到第二空间，以分别形成第二当前权重矩阵和第二梯度，其中，所述第一空间的维度高于所述第二空间的维度；

根据第一预定数量的训练用语音帧的状态标签值、所述第二当前权重矩阵、所述第二梯度和所述海森矩阵和，构建所述权重矩阵在所述第二空间中的损失函数所对应的近似正则二次模型；

计算所述近似正则二次模型的最优投影权重矩阵；以及

当所述最优投影权重矩阵满足预定条件时，将所述最优投影权重矩阵从所述第二空间投影到所述第一空间，以形成所述稀疏神经网络的所述权重矩阵。

中央处理器801还可以被配置为：

当所述最优投影权重矩阵不满足所述预定条件时，使用所述最优投影权重矩阵更新所述第二当前权重矩阵，并将更新的所述第二当前权重矩阵从所述第二空间投影到所述第一空间，以更新所述第一当前权重矩阵；

根据更新的所述第一当前权重矩阵，计算第一预定数量的训练用语音帧中的第二预定数量的训练用语音帧的特征向量所对应的状态标签值，作为更新的状态标签；

基于更新的所述第二当前权重矩阵和更新的状态标签值，更新所述近似正则二次模型；以及

计算更新的所述近似正则二次模型的最优投影权重矩阵，以更新原有的所述最优投影权重矩阵。

中央处理器801还可以被配置为：

所述预定条件是指所述损失函数达到极小值。

中央处理器801还可以被配置为：

计算所述近似正则二次模型的最优投影权重矩阵的方法包括近邻算法。

中央处理器801还可以被配置为：

基于对应关系已知的训练用语音片段和文本，构建所述解码模型；以及

使用所述解码模型，构建所述训练用语音片段中的各训练用语音帧与状态标签值的对应关系。

此外，如图8所示，电子设备800还可以包括：输入输出单元803和显示单元804等；其中，上述部件的功能与现有技术类似，此处不再赘述。值得注意的是，电子设备800也并不是必须要包括图8中所示的所有部件；此外，电子设备800还可以包括图8中没有示出的部件，可以参考现有技术。

本申请实施例还提供一种计算机可读程序，其中当在定位装置或电子设备中执行所述程序时，所述程序使得所述检测装置或电子设备执行实施例1和2所述的语音识别方法。

本申请实施例还提供一种存储有计算机可读程序的存储介质，其中，所述存储介质存储上述计算机可读程序，所述计算机可读程序使得检测装置或电子设备执行实施例1和2所述的语音识别方法。

结合本发明实施例描述的检测装置可直接体现为硬件、由处理器执行的软件模块或二者组合。例如，图5-7中所示的功能框图中的一个或多个和/或功能框图的一个或多个组合，既可以对应于计算机程序流程的各个软件模块，亦可以对应于各个硬件模块。这些软件模块，可以分别对应于实施例3所示的各个步骤。这些硬件模块例如可利用现场可编程门阵列(FPGA)将这些软件模块固化而实现。

软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域已知的任何其它形式的存储介质。可以将一种存储介质耦接至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息；或者该存储介质可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该软件模块可以存储在移动终端的存储器中，也可以存储在可插入移动终端的存储卡中。例如，若设备(例如移动终端)采用的是较大容量的MEGA-SIM卡或者大容量的闪存装置，则该软件模块可存储在该MEGA-SIM卡或者大容量的闪存装置中。

针对图5-7描述的功能框图中的一个或多个和/或功能框图的一个或多个组合，可以实现为用于执行本申请所描述功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑器件、分立硬件组件、或者其任意适当组合。针对图1-3描述的功能框图中的一个或多个和/或功能框图的一个或多个组合，还可以实现为计算设备的组合，例如，DSP和微处理器的组合、多个微处理器、与DSP通信结合的一个或多个微处理器或者任何其它这种配置。

以上结合具体的实施方式对本申请进行了描述，但本领域技术人员应该清楚，这些描述都是示例性的，并不是对本申请保护范围的限制。本领域技术人员可以根据本申请的原理对本申请做出各种变型和修改，这些变型和修改也在本申请的范围内。

关于包括以上实施例的实施方式，还公开下述的附记：

附记1、一种基于稀疏神经网络的语音识别装置，该装置包括：

附记2、如附记1所述的语音识别装置，所述装置还包括第一训练单元，所述第一训练单元包括：

第一计算单元，其对于第一预定数量的训练用语音帧，计算各训练用语音帧的特征向量在第一空间中的第一梯度以及海森矩阵(hessian)，并且，基于所述稀疏神经网络在第一空间中的第一当前权重矩阵，计算各训练用语音帧的特征向量所对应的状态标签值；

第一投影单元，其用于将所述第一当前权重矩阵和所述第一梯度从所述第一空间投影到第二空间，以分别形成第二当前权重矩阵和第二梯度，其中，所述第一空间的维度高于所述第二空间的维度；

第一构建单元，其用于根据第一预定数量的训练用语音帧的状态标签值、所述第二当前权重矩阵、所述第二梯度和所述海森矩阵和，构建所述权重矩阵在所述第二空间中的损失函数所对应的近似正则二次模型；

第二计算单元，其用于计算所述近似正则二次模型的最优投影权重矩阵；以及

第二投影单元，其用于当所述最优投影权重矩阵满足预定条件时，将所述最优投影权重矩阵从所述第二空间投影到所述第一空间，以形成所述稀疏神经网络的所述权重矩阵。

附记3、如附记2所述的语音识别装置，其中，该第一训练单元还包括：

第三投影单元，其用于当所述最优投影权重矩阵不满足所述预定条件时，使用所述最优投影权重矩阵更新所述第二当前权重矩阵，并将更新的所述第二当前权重矩阵从所述第二空间投影到所述第一空间，以更新所述第一当前权重矩阵；

第三计算单元，其用于根据更新的所述第一当前权重矩阵，计算第一预定数量的训练用语音帧中的第二预定数量的训练用语音帧的特征向量所对应的状态标签值，作为更新的状态标签；

第二构建单元，其用于基于更新的所述第二当前权重矩阵和更新的状态标签值，更新所述近似正则二次模型；以及

第四计算单元，其用于计算更新的所述近似正则二次模型的最优投影权重矩阵，以更新原有的所述最优投影权重矩阵。

附记4、如附记2所述的语音识别装置，其中，

所述预定条件是指所述损失函数达到极小值。

附记5、如附记2所述的语音识别装置，其中，

所述第二计算单元采用邻近算法计算所述近似正则二次模型的最优投影权重矩阵。

附记6、如附记1所述的语音识别装置，其中，所述语音识别装置还包括第二训练单元，所述第二训练单元包括：

第三构建单元，其用于基于对应关系已知的训练用语音片段和文本，构建所述解码模型；以及

第四构建单元，其使用所述解码模型，构建所述训练用语音片段中的各训练用语音帧与状态标签值的对应关系。

附记7、一种电子设备，包括附记1-6中的任一项所述的语音识别装置。

附记8、一种基于稀疏神经网络的语音识别方法，该方法包括：

附记9、如附记8所述的语音识别方法，所述方法还包括：

计算所述近似正则二次模型的最优投影权重矩阵；以及

附记10、如附记9所述的语音识别方法，该方法还包括：

附记11、如附记9所述的语音识别方法，其中，

所述预定条件是指所述损失函数达到极小值。

附记12、如附记9所述的语音识别方法，其中，

附记13、如附记8所述的语音识别方法，其中，所述语音识别方法还包括：

Claims

1.一种基于稀疏神经网络的语音识别装置，该装置包括：

第一识别单元，其采用稀疏神经网络对所述特征向量进行识别，以获得与所述特征向量对应的状态标签值，其中，所述稀疏神经网络的权重矩阵基于维度变换而得到；以及

2.如权利要求1所述的语音识别装置，所述装置还包括第一训练单元，所述第一训练单元包括：

第一计算单元，其对于第一预定数量的训练用语音帧，计算各训练用语音帧的特征向量在第一空间中的第一梯度以及海森矩阵，并且，基于所述稀疏神经网络在第一空间中的第一当前权重矩阵，计算各训练用语音帧的特征向量所对应的状态标签值；

3.如权利要求2所述的语音识别装置，其中，该第一训练单元还包括：

4.如权利要求2所述的语音识别装置，其中，

所述预定条件是指所述损失函数达到极小值。

5.如权利要求2所述的语音识别装置，其中，

6.如权利要求1所述的语音识别装置，其中，所述语音识别装置还包括第二训练单元，所述第二训练单元包括：

7.一种电子设备，包括权利要求1-6中的任一项所述的语音识别装置。

8.一种基于稀疏神经网络的语音识别方法，该方法包括：

采用稀疏神经网络对所述特征向量进行识别，以获得与所述特征向量对应的状态标签值，其中，所述稀疏神经网络的权重矩阵基于维度变换而得到；以及

9.如权利要求8所述的语音识别方法，所述方法还包括：

对于第一预定数量的训练用语音帧，计算各训练用语音帧的特征向量在第一空间中的第一梯度以及海森矩阵，并且，基于所述稀疏神经网络在第一空间中的第一当前权重矩阵，计算各训练用语音帧的特征向量所对应的状态标签值；

计算所述近似正则二次模型的最优投影权重矩阵；以及

10.如权利要求9所述的语音识别方法，该方法还包括：