CN110895929B

CN110895929B - 语音识别方法及装置

Info

Publication number: CN110895929B
Application number: CN201910827387.0A
Authority: CN
Inventors: 孙廷玮; 林福辉
Original assignee: Spreadtrum Communications Shanghai Co Ltd
Current assignee: Spreadtrum Communications Shanghai Co Ltd
Priority date: 2015-01-30
Filing date: 2015-01-30
Publication date: 2022-08-12
Anticipated expiration: 2035-01-30
Also published as: CN105989838B; CN105989838A; CN110895929A

Abstract

一种语音识别方法及装置，所述方法包括：将采集到的输入声音信号进行处理，得到输入声音数据；对所述输入声音数据进行几何重塑，得到降维后的所述输入声音数据的低维表征数据；采用所述输入声音数据的低维表征数据与预设的降维后的声音训练数据的低维表征数据，计算得出所述输入声音数据的VAD分值，所述声音训练数据的低维数据表征通过对所述声音训练数据进行几何重塑得到；当确定计算得出的VAD分值大于预设的分值阈值时，对所述声音数据进行语音识别。上述的方案可以节约语音识别的时间和计算资源。

Description

语音识别方法及装置

本申请为申请日为2015年01月30日，申请号为：201510051345.4，名称为：语音识别方法及装置的分案申请。

技术领域

本发明涉及语音识别技术领域，特别是涉及一种语音识别方法及装置。

背景技术

移动终端，是指可以在移动中使用的计算机设备，广义地讲包括手机、笔记本、平板电脑、POS机、车载电脑等。随着集成电路技术的飞速发展，移动终端已经拥有了强大的处理能力，移动终端正在从简单的通话工具变为一个综合信息处理平台，这也给移动终端增加了更加宽广的发展空间。

移动终端的使用，通常需要用户集中一定的注意力。如今的移动终端设备都配备有触摸屏，用户需要触摸所述触摸屏，以执行相应的操作。但是，用户无法触碰到移动终端设备时，操作移动终端便会变得极其不方便。例如，当用户驾驶车辆或者手中提有物品的时候。

语音识别方法和总听系统(Always Listening System)的使用，使得可以对移动终端进行非手动激活和操作。当所述总听系统检测到声音信号时，语音识别系统便会激活，并对检测到的声音信号进行识别。之后，移动终端便会根据所识别出的声音信号执行相应的操作。例如，当用户输入“拨打XX的手机”的语音时，移动终端便可以对用户输入的“拨打XX的手机”的语音信息进行识别，并在正确识别后，从移动终端中获取XX的手机号码的信息，并拨打。

但是，现有技术中的语音识别方法，采用高斯混合模型(Gaussian mixturemodel，GMM)进行语音识别，但是，在采用GMM进行声音训练数据的训练时，为了获取更好的性能，通常需要很多的声音训练数据，因此，现有技术中的语音识别方法存在着浪费时间和计算资源的问题。

发明内容

本发明实施例解决的问题是如何在进行语音识别时，节约时间和计算资源。

为解决上述问题，本发明实施例提供了一种语音识别方法，所述语音识别方法包括：

将采集到的输入声音信号进行处理，得到输入声音数据；

对所述输入声音数据进行几何重塑，得到降维后的所述输入声音数据的低维表征数据；

采用所述输入声音数据的低维表征数据与预设的降维后的声音训练数据的低维表征数据，计算得出所述输入声音数据的VAD分值，所述声音训练数据的低维数据表征通过对所述声音训练数据进行几何重塑得到；

当确定计算得出的VAD分值大于预设的分值阈值时，对所述声音数据进行语音识别。

可选地，所述对所述声音数据进行几何重塑，得到所述声音数据的低维表征数据，包括：

获取所述输入声音数据的MFCC，及其对应的MFCC频带数量的信息；

将所获取的所述输入声音数据的MFCC划分成不同的时隙，并根据所得到的MFCC频带数量的信息，计算得出所述输入声音数据的对数似然比；

采用计算得出的所述输入声音数据的对数似然比，构建所述输入声音数据的特征矩阵；

构建所述输入声音数据的特征矩阵对应的相似矩阵；

对所述输入声音数据的特征矩阵对应的相似矩阵进行拉普拉斯特征提取，得到拉普拉斯特征矩阵和特征值，将最小的预设个数的非零特征值对应的特征向量作为所述输入声音数据的低维表征数据。

可选地，所述声音训练数据的低维数据表征通过对所述声音训练数据进行几何重塑得到，包括：

采用预设的纯净语音数据库、非稳态噪声数据库和稳态噪声数据库，分别得到纯净语音数据的MFCC及其对应的MFCC频带数量的信息、非稳态噪声数据的MFCC及其对应的MFCC频带数量的信息，以及稳态噪声信息对应的MFCC及其对应的MFCC频带数量的信息；

根据得到纯净语音数据、非稳态噪声数据，以及稳态噪声信息对应的MFCC及其对应的MFCC频带数量的信息，分别得到第一、第二、第三、第四和第五声音数据训练集的MFCC及其对应的MFCC频带数量的信息；

将所述第一、第二、第三、第四和第五声音数据训练集的MFCC分别划分成为不同的时隙，并根据所得到的第一、第二、第三、第四和第五声音数据训练集的MFCC及对应的MFCC频带数量的信息，分别计算得出所述第一、第二、第三、第四和第五声音数据训练集的对数似然比；

根据计算得出的所述第一、第二、第三、第四和第五声音数据训练集的对数似然比，分别计算得出第一、第二、第三、第四和第五声音数据训练集的特征矩阵；

为第一、第二、第三、第四和第五声音数据训练集的特征矩阵分配相应的权重并相加，得到所述声音训练数据的相似矩阵；

对所述声音训练数据的相似矩阵进行拉普拉斯特征提取，得到拉普拉斯特征矩阵和特征值，将最小的预设个数的非零特征值对应的特征向量作为所述声音训练数据的低维表征数据。

可选地，采用如下的公式计算对数似然比，包括：

其中，ι表示对数似然比，xs表示MFCC对应的MFCC频带数量，PriSNR表示先噪声比，PostSNR表示后噪声比。

可选地，所述采用计算得出的所述输入声音数据的对数似然比，得到所述输入声音数据的特征矩阵，包括：

其中，X表示特征矩阵，t表示声音数据帧的位序，且t＝(1,2…N)，ι表示对数似然比。

可选地，所述为第一、第二、第三、第四和第五声音数据训练集的特征矩阵分配相应的权重并相加，得到所述声音训练数据的相似矩阵，包括：

其中，T表示所述声音训练数据的相似矩阵，i、j分别表示所述声音训练数据集的位序，p表示计算所述声音训练数据的相似矩阵的持续时间，且：

其中，X(i)表示第i个声音数据训练集的特征矩阵，X(j)表示第j个声音数据训练集的特征矩阵。

可选地，所述计算输入声音数据特征矩阵的特征向量与所述声音数据训练集特征矩阵的特征向量之间的似然距离，包括：

其中，

表示所述似然距离，S(U)表示所述输入声音数据特征矩阵的特征向量的光谱灵敏度，S(K)表示所述声音数据训练集特征矩阵的特征向量的光谱灵敏度，σ_U、σ_K分别表示S(U)、S(K)的预测误差。

可选地，所述计算得出所述输入声音数据的VAD分值，包括：

其中，VAD score表示所述输入声音数据的VAD分值，

表示为具有数个预设阈值的比较函数。

本发明实施例还提供了一种语音识别装置，所述装置包括：

数据处理单元，适于将采集到的输入声音信号进行处理，得到输入声音数据；

几何重塑单元，适于对所述输入声音数据进行几何重塑，得到降维后的所述输入声音数据的低维表征数据；

计算单元，适于采用所述输入声音数据的低维表征数据与预设的降维后的声音训练数据的低维表征数据，计算得出所述输入声音数据的VAD分值，所述声音训练数据的低维数据表征通过对所述声音训练数据进行几何重塑得到；

语音识别单元，适于当确定计算得出的VAD分值大于预设的分值阈值时，对所述声音数据进行语音识别。

可选地，所述几何重塑单元适于获取所述输入声音数据的MFCC，及其对应的MFCC频带数量的信息；将所获取的所述输入声音数据的MFCC划分成不同的时隙，并根据所得到的MFCC频带数量的信息，计算得出所述输入声音数据的对数似然比；采用计算得出的所述输入声音数据的对数似然比，构建所述输入声音数据的特征矩阵；构建所述输入声音数据的特征矩阵对应的相似矩阵；对所述输入声音数据的特征矩阵对应的相似矩阵进行拉普拉斯特征提取，得到拉普拉斯特征矩阵和特征值，将最小的预设个数的非零特征值对应的特征向量作为所述输入声音数据的低维表征数据。

可选地，所述装置还包括训练单元，适于通过对所述声音训练数据进行几何重塑得到所述声音训练数据的低维数据表征，包括：

与现有技术相比，本发明的技术方案具有以下的优点：

通过几何重塑的方法，得到声音训练数据的低维表征数据，仅采用较少的声音训练数据，便可以得到所述声音训练数据的低维表征数据，因此，可以节约时间和计算资源。

进一步地，在采用拉普拉斯特征提取对声音训练数据和输入声音数据进行特征提取，分别得到声音训练数据对应的分块矩阵和输入声音数据对应的分开矩阵时，分别使用到了声音数据的MFCC和对数似然比的信息，不仅适于稳态噪声环境中的语音识别，也可以在非稳态噪声环境中进行语音识别，因此，可以提高提高语音识别的可靠性和适用范围。

附图说明

图1是本发明实施例中的一种语音识别方法的流程图；

图2是本发明实施例中的所述对所述声音训练数据进行几何重塑，得到所述声音训练数据的低维表征数据的流程图；

图3是本发明实施例中的所述对所述声音数据进行几何重塑，得到所述声音数据的低维表征数据的流程图；

图4是本发明实施例中的一种语音识别装置的结构示意图。

具体实施方式

现有的语音识别方法，经常使用VAD来进行声音检测，如动态时间弯折法(DynamicTime Warping，DTW)等。

DTW的优点是使用标准的特征提取算法提取输入的声音数据的特征量，再将输入数据与预设的已注册数据之间进行比较，根据二者之间的差异确定是否需要对输入数据进行检测。

当移动终端的使用环境与已注册的环境数据相似时，DTW可以具有较好的识别和触发(声音检测功能的触发)性能。而当移动终端的使用环境变化时，DTW的触发性能将会降低。甚至当记录所述已注册的环境数据所使用的移动终端设备改变时，也会引起DTW性能的下降。

为解决上述问题，现有的一种语音识别方法，采用高斯混合模型(Gaussianmixture model，GMM)进行语音识别，但是，为了获取更好的语音识别性能，在采用GMM进行声音训练数据的训练时，通常需要很多的声音训练数据。因此，现有技术中的语音识别方法存在着浪费时间和计算资源的问题。

为解决现有技术中存在的上述问题，本发明实施例采用的技术方案通过采用几何重塑的方法，得到声音训练数据的低维表征数据，仅使用较少的声音训练数据便可以得到所述声音训练数据的低维表征数据，可以节约语音识别的时间和计算资源。

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

图1示出了本发明实施例中的一种语音识别方法的流程图。如图1所示的语音识别方法，可以包括：

步骤S101：将采集到的输入声音信号进行处理，得到输入声音数据。

在具体实施中，可以使用麦克风(MIC)来对外界的声音信号进行采集当采集到声音信号时，并将所采集到的声音信号进行相应的处理，如时域(Time domain)和频域(Frequency domain)处理等，得到相应的声音数据。

步骤S102：对所述输入声音数据进行几何重塑，得到降维后的所述输入声音数据的低维表征数据。

在具体实施中，可以采用多种方法对输入声音数据进行几何重塑，例如，拉普拉斯特征提取(Laplacian eigenmaps)。

步骤S103：采用所述输入声音数据的低维表征数据与预设的降维后的声音训练数据的低维表征数据，计算得出所述输入声音数据的VAD分值。

在具体实施中，所述声音训练数据的低维数据表征也可以通过对所述声音训练数据进行几何重塑得到，例如，拉普拉斯特征提取等。

在本发明一实施例中，当得到所述输入声音数据的低维表征数据时，可以采用如下的公式计算得到输入声音数据的低维表征数据与预设的声音训练数据的低维表征数据之间的似然距离：

其中，

表示所述似然距离，U、K分别表示所述输入声音数据的低维表征数据(分块矩阵)和所述声音训练数据的低维表征数据(分块矩阵)，S(U)表示所述输入声音数据的低维表征数据的光谱灵敏度，S(K)表示所述声音数据训练集的低维表征数据的光谱灵敏度，σ_U、σ_K分别表示S(U)、S(K)的预测误差。

接着，当计算得到输入声音数据的低维表征数据和预设的声音训练数据的低维表征数据之间的似然距离之后，可以采用如下的公式计算得到所述输入声音数据的VAD分值，包括：

其中，VAD score表示所述VAD分值，

表示为具有数个预设阈值的比较函数。其中，

中的预设阈值可以根据实验结果进行确定。

步骤S104：当确定计算得出的VAD分值大于预设的分值阈值时，对所述声音数据进行语音识别。

在具体实施中，当计算得到的VAD分值大于预设的分值阈值大于预设的分值阈值时，说明输入声音数据的低维表征数据与声音训练数据的低维表征数据之间具有较大的相似性，进而可以表明所述输入声音数据中包括有语音信息，此时，可以对输入声音数据进行语音识别。

在具体实施中，当识别出所述输入声音数据时，移动终端可以执行与所识别出的输入声音数据对应的操作，例如，拨打XX的电话，打开微博，打开facebook等。

在具体实施中，为了进行VAD检测，首先可以通过声音训练数据的训练得到声音训练数据的低维数据表征，以便在采集到输入声音数据时，确定是否需要对输入声音数据进行语音检测。

图2示出了本发明实施例中的所述对所述声音训练数据进行几何重塑，得到所述声音训练数据的低维表征数据的流程图。如图2所示的所述对所述声音训练数据进行几何重塑，得到所述声音训练数据的低维表征数据，可以包括：

步骤S201：采用预设的纯净语音数据库、非稳态噪声数据库和稳态噪声数据库，分别得到纯净语音数据的MFCC及其对应的MFCC频带数量的信息、非稳态噪声数据的MFCC及其对应的MFCC频带数量的信息，以及稳态噪声信息对应的MFCC及其对应的MFCC频带数量的信息。

在具体实施中，为了获取相应的声音训练数据，首先需要构建纯净语音数据库、非稳态噪声数据库和稳态噪声数据库。从所构建的纯净语音数据库、非稳态噪声数据库和稳态噪声数据库中相应的纯净语音数据、非稳态噪声数据和稳态噪声数据，可以分别得到对应的纯净语音数据、非稳态噪声数据和稳态噪声数据的Hz频率的信息。

Mel频率是基于人耳听觉特性提出来的，它与Hz频率成非线性对应关系。Mel频率倒谱系数(MFCC)则是利用Mel频率与Hz频率成之间的这种非线性对应关系，计算得到的Hz频谱特征。因此，利用Hz频率与MFCC之间的对应关系，便可以得到纯净语音数据的MFCC及其对应的MFCC频带数量的信息、非稳态噪声数据的MFCC及其对应的MFCC频带数量的信息，以及稳态噪声信息对应的MFCC及其对应的MFCC频带数量的信息。

步骤S202：根据得到纯净语音数据、非稳态噪声数据，以及稳态噪声信息对应的MFCC及其对应的MFCC频带数量的信息，分别得到第一、第二、第三、第四和第五声音数据训练集的MFCC及其对应的MFCC频带数量的信息。

在具体实施中，当得到纯净语音数据、非稳态噪声数据，以及稳态噪声信息对应的MFCC及其对应的MFCC频带数量的信息，可以采用如下的公式分别得到第一、第二、第三、第四和第五声音数据训练集的MFCC及其对应的MFCC频带数量的信息：

x₁(n)＝x_sp(n) (3)

x₂(n)＝x_sp(n)+x_st(n) (4)

x₃(n)＝x_sp(n)+x_non-st(n) (5)

x₄(n)＝x_non-st(n)+x_st(n) (6)

x₅(n)＝x_sp(n)+x_st(n)+x_non-st(n) (7)

其中，x₁(n)、x₂(n)、x₃(n)、x₄(n)和x₅(n)分别表示第一、第二、第三、第四和第五声音训练数据的MFCC，x_sp(n)表示纯净语音数据的MFCC，x_non-st(n)表示非稳态噪声数据的MFCC，x_st(n)表示稳态噪声数据的MFCC。

当得到上述的第一、第二、第三、第四和第五声音数据训练集的MFCC时，并可以得到第一、第二、第三、第四和第五声音数据训练集的MFCC对应的MFCC频带数量的信息。

步骤S203：将所述第一、第二、第三、第四和第五声音数据训练集的MFCC分别划分成为不同的时隙，并根据所得到的第一、第二、第三、第四和第五声音数据训练集的MFCC及对应的MFCC频带数量的信息，分别计算得出所述第一、第二、第三、第四和第五声音数据训练集的对数似然比。

在具体实施中，当得到上述的第一、第二、第三、第四和第五声音数据训练集的MFCC及其对应的MFCC频带数量的信息，可以采用如下的公式分别计算得到相应的对数似然比：

其中，i表示对数似然比，xs表示相应的声音训练数据的MFCC对应的MFCC频带数量，PriSNR表示先噪声比，PostSNR表示后噪声比。

步骤S204：根据计算得出的所述第一、第二、第三、第四和第五声音数据训练集的对数似然比，分别计算得出第一、第二、第三、第四和第五声音数据训练集的特征矩阵。

在具体实施中，当得到第一、第二、第三、第四和第五声音数据训练集的对数似然比时，便可以得到所述输入声音数据的特征矩阵：

其中，X(i)表示第i个声音训练数据集对应的特征矩阵，t表示声音数据帧的位序，且t＝(1,2…N)，ι(i)表示第i个声音训练数据集对应的对数似然比。

步骤S205：为第一、第二、第三、第四和第五声音数据训练集的特征矩阵分配相应的权重并相加，得到所述声音训练数据的相似矩阵。

在具体实施中，当得到第一、第二、第三、第四和第五声音数据训练集的特征矩阵之后，通过为第一、第二、第三、第四和第五声音数据训练集的特征矩阵分配相应的权重并相加，可以得到所述声音训练数据对应的相似矩阵：

其中，T表示所述声音训练数据的相似矩阵，i、j分别表示所述声音训练数据集的位序，p表示计算所述声音训练数据的相似矩阵的持续时间，X(i)表示第i个声音数据训练集的特征矩阵，X(j)表示第j个声音数据训练集的特征矩阵。

当一个特定的语音数据帧中包含有语音或者非稳态噪声时，通过公式(8)计算得出的对数似然比就会较大，公式(11)中的指数项越等于零，那么该声音数据帧的特征向量(低维表征数据)将会接近于该数据帧对应的MFCC。反之，当一个特定的声音数据帧中仅包含有稳态噪声的信息时，计算得出的对数似然比就会较小，公式(11)中的指数项就会约等于1，那么，仅包含有稳态噪声的声音数据帧的特征向量就约等于零。

因此，将不含有非稳态噪声的声音数据帧与含有非稳态噪声的其他声音数据帧进行区别的特征在于：不含有非稳态噪声的相邻的声音数据帧之间几乎是相同的。由于相邻的声音数据帧之间存在较大的距离，因此，如果可以像在公式(8)中那样进行权重函数(weight function)的选取，即便两个声音数据帧之间非常相似，只要他们分别来自不同的类别，那么他们之间的相似性也将会变得很小。

步骤S206：对所述声音训练数据的相似矩阵进行拉普拉斯特征提取，得到拉普拉斯特征矩阵和特征值，将最小的预设个数的非零特征值对应的特征向量作为所述声音训练数据的低维表征数据。

在具体实施中，当声音训练数据的相似矩阵进行拉普拉斯矩阵特征提取的具体过程，可以包括：

首先构建相似图形G，其中，例如使用k最近邻(k-Nearest Neighbor，KNN)分类算法，将每个点最近的K个点连上边，其中，K为预先设定的值。

接着，确定相似图形G点与点之间的权重，例如选用热核函数来确定，如果点i和点j相连，那么它们关系的权重设定为：

其中W_ij表示点i和点j之间的权重。

另外一种可选的简化设定是如果点i，j相连则W_ij为1，否则W_ij为0。

然后，计算拉普拉斯矩阵L的特征向量与特征值：

Ly＝λDy (13)

其中，D是对角矩阵，且满足：

Dii＝∑_jWji (14)

L＝D-W (15)

最后，使用最小的预设个数个非零特征值对应的特征向量(分块矩阵)K，作为降维后的所述声音训练数据的低维表征数据。其中，所述特征向量K中的非零特征值的个数可以根据实际的需要进行设置。

在具体实施中，通过声音训练数据的训练得到降维后的声音训练数据的低维表征数据以后，当采集到输入声音数据时，同样对输入声音数据进行几何重塑，得到降维后的输入声音数据的几何重塑，得到输入声音数据的低维表征数据。

这里需要指出的是，通过声音训练数据得到声音训练数据的低维表征数据的过程，与得到输入声音数据的低维表征数据的过程相似，但仍然存在着不同之处。为了便于区别，下面将对如何得到对输入声音数据进行几何重塑，得到输入声音数据的低维表征数据做进一步详细的介绍。

图3示出了本发明实施例中的所述对所述声音数据进行几何重塑，得到所述声音数据的低维表征数据的流程图。如图3所示的所述对所述声音数据进行几何重塑，得到所述声音数据的低维表征数据，可以包括：

步骤S301：获取所述输入声音数据的MFCC，及其对应的MFCC频带数量的信息。

在具体实施中，当采集到输入声音数据时，利用Hz频率与MFCC之间的对应关系，便可以得到输入声音数据的MFCC及其对应的MFCC频带数量的信息。

步骤S302：将所获取的所述输入声音数据的MFCC划分成不同的时隙，并根据所得到的MFCC频带数量的信息，计算得出所述输入声音数据的对数似然比。

在具体实施中，可以上述的公式(8)计算得出所述输入声音数据的对数似然比。

步骤S303：采用计算得出的输入声音数据的对数似然比，构建所述输入声音数据的特征矩阵。

在具体实施中，当计算得到输入声音数据的对数似然比之后，可以构建所述输入声音数据的特征矩阵：

其中，Z表示输入声音数据的特征矩阵，t表示输入声音数据帧的位序，且t＝(1,2…N)，ι表示输入声音数据的对数似然比。

步骤S304：对所述输入声音数据的特征矩阵对应的相似矩阵进行拉普拉斯特征提取，得到拉普拉斯特征矩阵和特征值，将最小的预设个数的非零特征值对应的特征向量作为所述输入声音数据的低维表征数据。

在具体实施中，对输入声音数据的特征矩阵进行拉普拉斯矩阵特征提取可以包括：

其中W_ij表示点i和点j之间的权重。

然后，计算拉普拉斯矩阵L的特征向量与特征值：

Ly＝λDy (13)

其中，D是对角矩阵，且满足：

Dii＝∑_jWji (14)

L＝D-W (15)

最后，使用最小的预设个数个非零特征值对应的特征向量(分块矩阵)U，作为降维后的所述声音训练数据的低维表征数据。其中，所述特征向量U中的非零特征值的个数可以根据实际的需要进行设置。

图4示出了本发明实施例中的一种语音识别装置的结构示意图。如图4所示的语音识别装置400，可以包括数据处理单元401、几何重塑单元402、计算单元403和语音识别单元404，其中：

数据处理单元401，适于将采集到的输入声音信号进行处理，得到输入声音数据。

几何重塑单元402，适于对所述输入声音数据进行几何重塑，得到降维后的所述输入声音数据的低维表征数据。

在具体实施中，所述几何重塑单元402适于获取所述输入声音数据的MFCC，及其对应的MFCC频带数量的信息；将所获取的所述输入声音数据的MFCC划分成不同的时隙，并根据所得到的MFCC频带数量的信息，计算得出所述输入声音数据的对数似然比；采用计算得出的所述输入声音数据的对数似然比，构建所述输入声音数据的特征矩阵；构建所述输入声音数据的特征矩阵对应的相似矩阵；对所述输入声音数据的特征矩阵对应的相似矩阵进行拉普拉斯特征提取，得到拉普拉斯特征矩阵和特征值，将最小的预设个数的非零特征值对应的特征向量作为所述输入声音数据的低维表征数据。

计算单元403，适于采用所述输入声音数据的低维表征数据与预设的降维后的声音训练数据的低维表征数据，计算得出所述输入声音数据的VAD分值，所述声音训练数据的低维数据表征通过对所述声音训练数据进行几何重塑得到。

在具体实施中，如图4所示的语音识别装置还可以包括训练单元404，其中：

训练单元404，适于通过对所述声音训练数据进行几何重塑得到所述声音训练数据的低维数据表征，包括：采用预设的纯净语音数据库、非稳态噪声数据库和稳态噪声数据库，分别得到纯净语音数据的MFCC及其对应的MFCC频带数量的信息、非稳态噪声数据的MFCC及其对应的MFCC频带数量的信息，以及稳态噪声信息对应的MFCC及其对应的MFCC频带数量的信息；根据得到纯净语音数据、非稳态噪声数据，以及稳态噪声信息对应的MFCC及其对应的MFCC频带数量的信息，分别得到第一、第二、第三、第四和第五声音数据训练集的MFCC及其对应的MFCC频带数量的信息；将所述第一、第二、第三、第四和第五声音数据训练集的MFCC分别划分成为不同的时隙，并根据所得到的第一、第二、第三、第四和第五声音数据训练集的MFCC及对应的MFCC频带数量的信息，分别计算得出所述第一、第二、第三、第四和第五声音数据训练集的对数似然比；根据计算得出的所述第一、第二、第三、第四和第五声音数据训练集的对数似然比，分别计算得出第一、第二、第三、第四和第五声音数据训练集的特征矩阵；为第一、第二、第三、第四和第五声音数据训练集的特征矩阵分配相应的权重并相加，得到所述声音训练数据的相似矩阵；对所述声音训练数据的相似矩阵进行拉普拉斯特征提取，得到拉普拉斯特征矩阵和特征值，将最小的预设个数的非零特征值对应的特征向量作为所述声音训练数据的低维表征数据。

语音识别单元405，适于当确定计算得出的VAD分值大于预设的分值阈值时，对所述声音数据进行语音识别。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

以上对本发明实施例的方法及系统做了详细的介绍，本发明并不限于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种语音识别方法，其特征在于，包括：

将采集到的输入声音信号进行处理，得到输入声音数据；

当确定计算得出的VAD分值大于预设的分值阈值时，对所述声音数据进行语音识别；

其中，所述声音训练数据的低维数据表征通过对所述声音训练数据进行几何重塑得到，包括：

2.根据权利要求1所述的语音识别方法，其特征在于，采用如下的公式计算对数似然比，包括：

3.根据权利要求2所述的语音识别方法，其特征在于，根据计算得出的所述第一、第二、第三、第四和第五声音数据训练集的对数似然比，分别计算得出第一、第二、第三、第四和第五声音数据训练集的特征矩阵，包括：

其中，X表示数据训练集的特征矩阵，t表示声音数据帧的位序，且t＝(1,2…N)。

4.根据权利要求3所述的语音识别方法，其特征在于，所述为第一、第二、第三、第四和第五声音数据训练集的特征矩阵分配相应的权重并相加，得到所述声音训练数据的相似矩阵，包括：

5.根据权利要求4所述的语音识别方法，其特征在于，所述计算输入声音数据特征矩阵的特征向量与所述声音数据训练集特征矩阵的特征向量之间的似然距离，包括：

其中，

6.根据权利要求5所述的语音识别方法，其特征在于，所述计算得出所述输入声音数据的VAD分值，包括：

其中，VAD score表示所述输入声音数据的VAD分值，

表示为具有数个预设阈值的比较函数。

7.一种语音识别装置，其特征在于，包括：

数据处理单元，适于将采集到的输入声音信号进行处理，得到输入声音数据；几何重塑单元，适于对所述输入声音数据进行几何重塑，得到降维后的所述输入声音数据的低维表征数据；

计算单元，适于采用所述输入声音数据的低维表征数据与预设的降维后的声音训练数据的低维表征数据，计算得出所述输入声音数据的VAD分值，所述声音训练数据的低维数据表征通过对所述声音训练数据进行几何重塑得到；语音识别单元，适于当确定计算得出的VAD分值大于预设的分值阈值时，对所述声音数据进行语音识别；

其中，还包括训练单元，适于通过对所述声音训练数据进行几何重塑得到所述声音训练数据的低维数据表征，包括：